diff --git a/.gitignore b/.gitignore
index f0fe0df..2d1815e 100644
--- a/.gitignore
+++ b/.gitignore
@@ -200,4 +200,5 @@ marimo/_lsp/
 __marimo__/
 
 # Streamlit
-.streamlit/secrets.toml
\ No newline at end of file
+.streamlit/secrets.toml
+*.out
\ No newline at end of file
diff --git a/autockt/envs/ngspice_ledro_d_fc.py b/autockt/envs/ngspice_ledro_d_fc.py
new file mode 100644
index 0000000..83fd8f6
--- /dev/null
+++ b/autockt/envs/ngspice_ledro_d_fc.py
@@ -0,0 +1,365 @@
+"""
+A new ckt environment based on a new structure of MDP
+"""
+
+import gym
+from gym import spaces
+
+import numpy as np
+import random
+import psutil
+
+from multiprocessing.dummy import Pool as ThreadPool
+from collections import OrderedDict
+import yaml
+import yaml.constructor
+import statistics
+import os
+import IPython
+import itertools
+from eval_engines.util.core import *
+import pickle
+import os
+
+from eval_engines.ngspice.TwoStageClass import *
+from eval_engines.ngspice.LEDRO_D_FC import *
+
+
+from loguru import logger
+import sys
+
+# Custom format string
+log_format = (
+    "<green>{time:YYYY-MM-DD HH:mm:ss.SSS}</green> | "
+    "<level>{level: <8}</level> | "
+    "<cyan>{module}</cyan>:<cyan>{function}</cyan>:<cyan>{line}</cyan> - "
+    "<level>{message}</level>"
+)
+
+# Clear default logger
+logger.remove()
+
+# Log to stdout
+logger.add(sys.stdout, format=log_format, level="DEBUG")
+
+# Log to file with rotation and retention
+logger.add(
+    "logs/ngspice_ledro_d_fc45.log",
+    format=log_format,
+    level="DEBUG",
+    rotation="1 day",
+    retention="7 days",
+)
+
+
+# way of ordering the way a yaml file is read
+class OrderedDictYAMLLoader(yaml.Loader):
+    """
+    A YAML loader that loads mappings into ordered dictionaries.
+    """
+
+    def __init__(self, *args, **kwargs):
+        yaml.Loader.__init__(self, *args, **kwargs)
+
+        self.add_constructor("tag:yaml.org,2002:map", type(self).construct_yaml_map)
+        self.add_constructor("tag:yaml.org,2002:omap", type(self).construct_yaml_map)
+
+    def construct_yaml_map(self, node):
+        data = OrderedDict()
+        yield data
+        value = self.construct_mapping(node)
+        data.update(value)
+
+    def construct_mapping(self, node, deep=False):
+        if isinstance(node, yaml.MappingNode):
+            self.flatten_mapping(node)
+        else:
+            raise yaml.constructor.ConstructorError(
+                None,
+                None,
+                "expected a mapping node, but found %s" % node.id,
+                node.start_mark,
+            )
+
+        mapping = OrderedDict()
+        for key_node, value_node in node.value:
+            key = self.construct_object(key_node, deep=deep)
+            value = self.construct_object(value_node, deep=deep)
+            mapping[key] = value
+        return mapping
+
+
+class LEDRO_D_FC(gym.Env):
+    metadata = {"render.modes": ["human"]}
+
+    PERF_LOW = -1
+    PERF_HIGH = 0
+
+    # obtains yaml file
+    path = os.getcwd()
+    CIR_YAML = path + "/eval_engines/ngspice/ngspice_inputs/yaml_files/ledro_d_fc.yaml"
+
+    def __init__(self, env_config):
+        self.multi_goal = env_config.get("multi_goal", False)
+        self.generalize = env_config.get("generalize", False)
+        num_valid = env_config.get("num_valid", 50)
+        self.specs_save = env_config.get("save_specs", False)
+        self.valid = env_config.get("run_valid", False)
+
+        self.env_steps = 0
+        with open(LEDRO_D_FC.CIR_YAML, "r") as f:
+            yaml_data = yaml.load(f, OrderedDictYAMLLoader)
+
+        # design specs
+        if self.generalize == False:
+            specs = yaml_data["target_specs"]
+        else:
+            load_specs_path = (
+                LEDRO_D_FC.path + "/autockt/gen_specs/ngspice_specs_gen_ledro_d_fc"
+            )
+            with open(load_specs_path, "rb") as f:
+                specs = pickle.load(f)
+
+        self.specs = OrderedDict(sorted(specs.items(), key=lambda k: k[0]))
+        if self.specs_save:
+            with open(
+                "specs_" + str(num_valid) + str(random.randint(1, 100000)), "wb"
+            ) as f:
+                pickle.dump(self.specs, f)
+
+        self.specs_ideal = []
+        self.specs_id = list(self.specs.keys())
+        self.fixed_goal_idx = -1
+        self.num_os = len(list(self.specs.values())[0])
+
+        # param array
+        params = yaml_data["params"]
+        self.params = []
+        self.params_id = list(params.keys())
+
+        for value in params.values():
+            param_vec = np.linspace(value[0], value[1], value[2])
+            self.params.append(param_vec)
+
+        # initialize sim environment
+        self.sim_env = LEDRO_D_FC_Class(
+            yaml_path=LEDRO_D_FC.CIR_YAML, num_process=1, path=LEDRO_D_FC.path
+        )
+        self.action_meaning = [-1, 0, 2]
+        self.action_space = spaces.Tuple(
+            [spaces.Discrete(len(self.action_meaning))] * len(self.params_id)
+        )
+        # self.action_space = spaces.Discrete(len(self.action_meaning)**len(self.params_id))
+        self.observation_space = spaces.Box(
+            low=np.array(
+                [LEDRO_D_FC.PERF_LOW] * 2 * len(self.specs_id)
+                + len(self.params_id) * [1]
+            ),
+            high=np.array(
+                [LEDRO_D_FC.PERF_HIGH] * 2 * len(self.specs_id)
+                + len(self.params_id) * [1]
+            ),
+        )
+
+        # initialize current param/spec observations
+        self.cur_specs = np.zeros(len(self.specs_id), dtype=np.float32)
+        self.cur_params_idx = np.zeros(len(self.params_id), dtype=np.int32)
+
+        # Get the g* (overall design spec) you want to reach
+        self.global_g = []
+        for spec in list(self.specs.values()):
+            self.global_g.append(float(spec[self.fixed_goal_idx]))
+        self.g_star = np.array(self.global_g)
+        self.global_g = np.array(yaml_data["normalize"])
+
+        # objective number (used for validation)
+        self.obj_idx = 0
+
+    def reset(self):
+        # if multi-goal is selected, every time reset occurs, it will select a different design spec as objective
+        if self.generalize == True:
+            if self.valid == True:
+                if self.obj_idx > self.num_os - 1:
+                    self.obj_idx = 0
+                idx = self.obj_idx
+                self.obj_idx += 1
+            else:
+                idx = random.randint(0, self.num_os - 1)
+            self.specs_ideal = []
+            for spec in list(self.specs.values()):
+                self.specs_ideal.append(spec[idx])
+            self.specs_ideal = np.array(self.specs_ideal)
+        else:
+            if self.multi_goal == False:
+                self.specs_ideal = self.g_star
+            else:
+                idx = random.randint(0, self.num_os - 1)
+                self.specs_ideal = []
+                for spec in list(self.specs.values()):
+                    self.specs_ideal.append(spec[idx])
+                self.specs_ideal = np.array(self.specs_ideal)
+        # print("num total:"+str(self.num_os))
+
+        # applicable only when you have multiple goals, normalizes everything to some global_g
+        self.specs_ideal_norm = self.lookup(self.specs_ideal, self.global_g)
+
+        # initialize current parameters
+        self.cur_params_idx = np.array([2] * 17)
+        self.cur_params_idx = np.array(
+            # [2, 2, 2, 2, 2, 2] + [200, 200, 200, 200, 200, 200] + [10, 10, 10, 10, 10]
+            [2, 2, 2, 2, 2, 2]
+            + [200, 200, 200, 200, 200, 200]
+            + [10, 10, 10, 10, 10]
+        )
+
+        self.cur_specs = self.update(self.cur_params_idx)
+        cur_spec_norm = self.lookup(self.cur_specs, self.global_g)
+        reward = self.reward(self.cur_specs, self.specs_ideal)
+
+        # observation is a combination of current specs distance from ideal, ideal spec, and current param vals
+        self.ob = np.concatenate(
+            [cur_spec_norm, self.specs_ideal_norm, self.cur_params_idx]
+        )
+        return self.ob
+
+    def step(self, action):
+        """
+        :param action: is vector with elements between 0 and 1 mapped to the index of the corresponding parameter
+        :return:
+        """
+
+        # Take action that RL agent returns to change current params
+        action = list(np.reshape(np.array(action), (np.array(action).shape[0],)))
+        self.cur_params_idx = self.cur_params_idx + np.array(
+            [self.action_meaning[a] for a in action]
+        )
+
+        #        self.cur_params_idx = self.cur_params_idx + np.array(self.action_arr[int(action)])
+        self.cur_params_idx = np.clip(
+            self.cur_params_idx,
+            [0] * len(self.params_id),
+            [(len(param_vec) - 1) for param_vec in self.params],
+        )
+
+        # Get current specs and normalize
+        self.cur_specs = self.update(self.cur_params_idx)
+        cur_spec_norm = self.lookup(self.cur_specs, self.global_g)
+        reward = self.reward(self.cur_specs, self.specs_ideal)
+        done = False
+
+        # incentivize reaching goal state
+        if reward >= 10:
+            done = True
+            print("-" * 10)
+            print("params = ", self.cur_params_idx)
+            print("specs:", self.cur_specs)
+            print("ideal specs:", self.specs_ideal)
+            print("re:", reward)
+            print("-" * 10)
+
+        self.ob = np.concatenate(
+            [cur_spec_norm, self.specs_ideal_norm, self.cur_params_idx]
+        )
+        self.env_steps = self.env_steps + 1
+        print("***cur params idx:", self.cur_params_idx, "specs: ", self.cur_specs, " reward: ", reward)
+
+        # print('cur ob:' + str(self.cur_specs))
+        # print('ideal spec:' + str(self.specs_ideal))
+        # print(reward)
+        return self.ob, reward, done, {}
+
+    def lookup(self, spec, goal_spec):
+        goal_spec = [float(e) for e in goal_spec]
+        norm_spec = (spec - goal_spec) / (goal_spec + spec)
+        return norm_spec
+
+    def reward(self, spec, goal_spec):
+        """
+        Reward: doesn't penalize for overshooting spec, is negative
+        """
+        # rel_specs = self.lookup(spec, goal_spec)
+        # pos_val = []
+        # reward = 0.0
+        # for i, rel_spec in enumerate(rel_specs):
+        #     if self.specs_id[i] == "ibias_max":
+        #         rel_spec = rel_spec * -1.0  # /10.0
+        #     if rel_spec < 0:
+        #         reward += rel_spec
+        #         pos_val.append(0)
+        #     else:
+        #         pos_val.append(1)
+
+        # return reward if reward < -0.02 else 10
+        norm_specs = self.lookup(spec, goal_spec)
+
+        # pay attention to reward calculation, this is not quite the reward function in RL
+        # but rather a penalty value for the optimization process
+        reward = 0
+        for i, rel_spec in enumerate(norm_specs):
+            # For power,  smaller is better
+            # For gain, larger (compared to the target/goal) is better
+            # For other specs (pm, ugbw, etc.), smaller is better
+            assert self.specs_id[i] in ["ibias_max", "gain_min", "ugbw_min", "phm_min"]
+            if self.specs_id[i] == "ibias_max" and rel_spec > 0:
+                reward += np.abs(rel_spec)  # /10
+            elif self.specs_id[i] == "gain_min" and rel_spec < 0:
+                reward += 3 * np.abs(rel_spec)  # /10
+            elif self.specs_id[i] != "ibias_max" and rel_spec < 0:
+                reward += np.abs(rel_spec)
+        return -reward
+
+
+    def update(self, params_idx):
+        """
+
+        :param action: an int between 0 ... n-1
+        :return:
+        """
+
+        params = [self.params[i][params_idx[i]] for i in range(len(self.params_id))]
+        param_val = [OrderedDict(list(zip(self.params_id, params)))]
+
+        # run param vals and simulate
+        cur_specs = OrderedDict(
+            sorted(
+                self.sim_env.create_design_and_simulate(param_val[0])[1].items(),
+                key=lambda k: k[0],
+            )
+        )
+        cur_specs = np.array(list(cur_specs.values()))
+
+        return cur_specs
+
+
+def main():
+    env_config = {"generalize": True, "valid": True}
+    env = LEDRO_D_FC(env_config)
+    env.reset()
+    # env.step(
+    #     [
+    #         2,
+    #         2,
+    #         2,
+    #         2,
+    #         2,
+    #         2,
+    #         10 - 9,
+    #         10 - 9,
+    #         10 - 9,
+    #         10 - 9,
+    #         10 - 9,
+    #         10 - 9,
+    #         0.2,
+    #         0.2,
+    #         0.2,
+    #         0.2,
+    #         0.2,
+    #     ]
+    # )
+    env.step([2] * 17)
+
+    IPython.embed()
+
+
+if __name__ == "__main__":
+    main()
diff --git a/autockt/envs/ngspice_ledro_d_fc45.py b/autockt/envs/ngspice_ledro_d_fc45.py
new file mode 100644
index 0000000..213408b
--- /dev/null
+++ b/autockt/envs/ngspice_ledro_d_fc45.py
@@ -0,0 +1,496 @@
+"""
+A new ckt environment based on a new structure of MDP
+"""
+
+import gym
+from gym import spaces
+
+import numpy as np
+import random
+import psutil
+
+from multiprocessing.dummy import Pool as ThreadPool
+from collections import OrderedDict
+import yaml
+import yaml.constructor
+import statistics
+import os
+import IPython
+import itertools
+from eval_engines.util.core import *
+import pickle
+import os
+
+from eval_engines.ngspice.TwoStageClass import *
+from eval_engines.ngspice.LEDRO_D_FC import *
+from eval_engines.ngspice.LEDRO_D_FC45 import *
+
+
+from loguru import logger
+import sys
+
+from torch.utils.tensorboard import SummaryWriter
+import numpy as np
+
+# Writer will output to ./runs/ directory by default
+writer = SummaryWriter()
+
+
+# Custom format string
+log_format = (
+    "<green>{time:YYYY-MM-DD HH:mm:ss.SSS}</green> | "
+    "<level>{level: <8}</level> | "
+    "<cyan>{module}</cyan>:<cyan>{function}</cyan>:<cyan>{line}</cyan> - "
+    "<level>{message}</level>"
+)
+
+# Clear default logger
+logger.remove()
+
+# Log to stdout
+logger.add(sys.stdout, format=log_format, level="DEBUG")
+
+# Log to file with rotation and retention
+logger.add(
+    "logs/ngspice_ledro_d_fc.log",
+    format=log_format,
+    level="DEBUG",
+    rotation="1 day",
+    retention="7 days",
+)
+
+class ActionNormalizer():
+    """Rescale and relocate the actions."""
+    def __init__(self, action_space_low, action_space_high):
+         
+        self.action_space_low = action_space_low     
+        self.action_space_high = action_space_high
+
+    def action(self, action: np.ndarray) -> np.ndarray:
+        """Change the range (-1, 1) to (low, high)."""
+        low = self.action_space_low   
+        high = self.action_space_high 
+
+        scale_factor = (high - low) / 2     
+        reloc_factor = high - scale_factor  
+
+        action = action * scale_factor + reloc_factor
+        action = np.clip(action, low, high) 
+
+        return action
+
+    def reverse_action(self, action: np.ndarray) -> np.ndarray:
+        """Change the range (low, high) to (-1, 1)."""
+        low = self.action_space_low
+        high = self.action_space_high
+
+        scale_factor = (high - low) / 2
+        reloc_factor = high - scale_factor
+
+        action = (action - reloc_factor) / scale_factor  
+        action = np.clip(action, -1.0, 1.0)
+
+        return action
+    
+# way of ordering the way a yaml file is read
+class OrderedDictYAMLLoader(yaml.Loader):
+    """
+    A YAML loader that loads mappings into ordered dictionaries.
+    """
+
+    def __init__(self, *args, **kwargs):
+        yaml.Loader.__init__(self, *args, **kwargs)
+
+        self.add_constructor("tag:yaml.org,2002:map", type(self).construct_yaml_map)
+        self.add_constructor("tag:yaml.org,2002:omap", type(self).construct_yaml_map)
+
+    def construct_yaml_map(self, node):
+        data = OrderedDict()
+        yield data
+        value = self.construct_mapping(node)
+        data.update(value)
+
+    def construct_mapping(self, node, deep=False):
+        if isinstance(node, yaml.MappingNode):
+            self.flatten_mapping(node)
+        else:
+            raise yaml.constructor.ConstructorError(
+                None,
+                None,
+                "expected a mapping node, but found %s" % node.id,
+                node.start_mark,
+            )
+
+        mapping = OrderedDict()
+        for key_node, value_node in node.value:
+            key = self.construct_object(key_node, deep=deep)
+            value = self.construct_object(value_node, deep=deep)
+            mapping[key] = value
+        return mapping
+
+
+class LEDRO_D_FC45(gym.Env):
+    metadata = {"render.modes": ["human"]}
+
+    PERF_LOW = -1
+    PERF_HIGH = 0
+
+    # obtains yaml file
+    path = os.getcwd()
+    CIR_YAML = (
+        path + "/eval_engines/ngspice/ngspice_inputs/yaml_files/ledro_d_fc45.yaml"
+    )
+
+    def __init__(self, env_config):
+        self.multi_goal = env_config.get("multi_goal", False)
+        self.generalize = env_config.get("generalize", False)
+        num_valid = env_config.get("num_valid", 50)
+        self.specs_save = env_config.get("save_specs", False)
+        self.valid = env_config.get("run_valid", False)
+
+        self.env_steps = 0
+        with open(LEDRO_D_FC45.CIR_YAML, "r") as f:
+            yaml_data = yaml.load(f, OrderedDictYAMLLoader)
+
+        # design specs
+        if self.generalize == False:
+            specs = yaml_data["target_specs"]
+        else:
+            load_specs_path = (
+                LEDRO_D_FC45.path + "/autockt/gen_specs/ngspice_specs_gen_ledro_d_fc45"
+            )
+            with open(load_specs_path, "rb") as f:
+                specs = pickle.load(f)
+
+        self.specs = OrderedDict(sorted(specs.items(), key=lambda k: k[0]))
+        if self.specs_save:
+            with open(
+                "specs_" + str(num_valid) + str(random.randint(1, 100000)), "wb"
+            ) as f:
+                pickle.dump(self.specs, f)
+
+        self.specs_ideal = []
+        self.specs_id = list(self.specs.keys())
+        self.fixed_goal_idx = -1
+        self.num_os = len(list(self.specs.values())[0])
+
+        # param array
+        params = yaml_data["params"]
+        self.params = []
+        self.params_id = list(params.keys())
+
+        for value in params.values():
+            param_vec = np.linspace(value[0], value[1], value[2])
+            self.params.append(param_vec)
+
+        # initialize sim environment
+        self.sim_env = LEDRO_D_FC45_Class(
+            yaml_path=LEDRO_D_FC45.CIR_YAML, num_process=1, path=LEDRO_D_FC45.path
+        )
+        # self.action_meaning = [-1, 0, 2]
+        # self.action_space = spaces.Tuple(
+        #     [spaces.Discrete(len(self.action_meaning))] * len(self.params_id)
+        # )
+        self.action_space = spaces.Box(low=-1, high=1, shape=(25, ), dtype=np.float64)
+        # print (action_space.sample())
+
+        # L: Rationale: start at ~2× technology minimum to reduce short-channel effects and improve matching.
+        action_space_low = np.array(
+            [
+            0.12, 90, 1,
+            0.12, 90, 1,    
+            0.12, 90, 1,    
+            0.12, 90, 1,    
+            0.12, 90, 1,    
+            0.12, 90, 1,    
+            0.1, 
+            0.1, 
+            0.1, 
+            0.1, 
+            0.1, 
+
+        1,
+        1
+
+            ]
+        )
+
+        action_space_high = np.array(
+            [
+            200, 2000, 100,
+            200, 2000, 100,    
+            200, 2000, 100,    
+            200, 2000, 100,    
+            200, 2000, 100,    
+            200, 2000, 100,    
+            1.2, 
+            1.2, 
+            1.2, 
+            1.2, 
+            1.2, 
+
+        50,
+        50
+
+            ]
+        )
+        self.action_normalizer = ActionNormalizer(action_space_low=action_space_low, action_space_high =  action_space_high)
+
+
+        # self.action_space = spaces.Discrete(len(self.action_meaning)**len(self.params_id))
+        self.observation_space = spaces.Box(
+            low=np.array(
+                [LEDRO_D_FC45.PERF_LOW] * 2 * len(self.specs_id)
+                + len(self.params_id) * [1]
+            ),
+            high=np.array(
+                [LEDRO_D_FC45.PERF_HIGH] * 2 * len(self.specs_id)
+                + len(self.params_id) * [1]
+            ),
+        )
+
+        # initialize current param/spec observations
+        self.cur_specs = np.zeros(len(self.specs_id), dtype=np.float32)
+        self.cur_params_idx = np.zeros(len(self.params_id), dtype=np.int32)
+
+        # Get the g* (overall design spec) you want to reach
+        self.global_g = []
+        for spec in list(self.specs.values()):
+            self.global_g.append(float(spec[self.fixed_goal_idx]))
+        self.g_star = np.array(self.global_g)
+        self.global_g = np.array(yaml_data["normalize"])
+
+        # objective number (used for validation)
+        self.obj_idx = 0
+
+    def reset(self):
+        # if multi-goal is selected, every time reset occurs, it will select a different design spec as objective
+        if self.generalize == True:
+            if self.valid == True:
+                if self.obj_idx > self.num_os - 1:
+                    self.obj_idx = 0
+                idx = self.obj_idx
+                self.obj_idx += 1
+            else:
+                idx = random.randint(0, self.num_os - 1)
+            self.specs_ideal = []
+            for spec in list(self.specs.values()):
+                self.specs_ideal.append(spec[idx])
+            self.specs_ideal = np.array(self.specs_ideal)
+        else:
+            if self.multi_goal == False:
+                self.specs_ideal = self.g_star
+            else:
+                idx = random.randint(0, self.num_os - 1)
+                self.specs_ideal = []
+                for spec in list(self.specs.values()):
+                    self.specs_ideal.append(spec[idx])
+                self.specs_ideal = np.array(self.specs_ideal)
+        # print("num total:"+str(self.num_os))
+
+        # applicable only when you have multiple goals, normalizes everything to some global_g
+        self.specs_ideal_norm = self.lookup(self.specs_ideal, self.global_g)
+
+        # initialize current parameters
+        # self.cur_params_idx = np.array([2] * 17)
+        # self.cur_params_idx = np.array(
+        #     # [2, 2, 2, 2, 2, 2] + [200, 200, 200, 200, 200, 200] + [10, 10, 10, 10, 10]
+        #     [33, 33, 33, 33, 33, 33]
+        #     + [10, 10, 10, 10, 10]
+        # )
+        self.cur_params_idx = np.array([193.9020858253666 ,1318.8789684310007, 66, 106.3710338395701,
+            517.342182701802, 69, 51.58973768557556 ,1148.0132888755084, 68,
+            62.67064928753026, 1360.398953352503, 18, 73.15862009109797,
+            1718.7658807907076, 61, 192.34328350363728, 1205.9109268448633, 27,
+            0.7761091728857539, 1.1431755589519739, 0.6157432007527375,
+            1.1177122194734337, 0.9243351863878987, 24, 9])
+
+        self.cur_specs = self.update(self.cur_params_idx)
+        cur_spec_norm = self.lookup(self.cur_specs, self.global_g)
+        reward = self.reward(self.cur_specs, self.specs_ideal)
+
+        # observation is a combination of current specs distance from ideal, ideal spec, and current param vals
+        self.ob = np.concatenate(
+            [cur_spec_norm, self.specs_ideal_norm, self.cur_params_idx]
+        )
+        return self.ob
+
+    def step(self, action):
+        """
+        :param action: is vector with elements between 0 and 1 mapped to the index of the corresponding parameter
+        :return:
+        """
+
+        # Take action that RL agent returns to change current params
+        # action = list(np.reshape(np.array(action), (np.array(action).shape[0],)))
+        # self.cur_params_idx = self.cur_params_idx + np.array(
+        #     [self.action_meaning[a] for a in action]
+        # )
+
+        # #        self.cur_params_idx = self.cur_params_idx + np.array(self.action_arr[int(action)])
+        # self.cur_params_idx = np.clip(
+        #     self.cur_params_idx,
+        #     [0] * len(self.params_id),
+        #     [(len(param_vec) - 1) for param_vec in self.params],
+        # )
+        # # logger.debug(f"current param idx: {str(self.cur_params_idx)}")
+        # # print(f"current param idx: {self.cur_params_idx=}")
+        # logger.debug("current param idx simulation: " + str(self.cur_params_idx))
+        action = self.action_normalizer.action(action) # convert [-1.1] range back to normal range
+        # action = action.astype(object)
+
+        for idx in [2, 2+3, 5+3, 8+3, 11+3, 14+3, -1, -2]:
+            action[idx] = int(action[idx])
+
+        self.cur_params_idx = action
+
+        # Get current specs and normalize
+        self.cur_specs = self.update(self.cur_params_idx)
+        #logger.info("current specs simulation: " + str(self.cur_specs))
+        cur_spec_norm = self.lookup(self.cur_specs, self.global_g)
+        reward = self.reward(self.cur_specs, self.specs_ideal)
+        done = False
+
+        # incentivize reaching goal state
+        if reward >= 10:
+            done = True
+            print("-" * 10)
+            print("params = ", self.cur_params_idx)
+            print("specs:", self.cur_specs)
+            print("ideal specs:", self.specs_ideal)
+            print("re:", reward)
+            print("-" * 10)
+
+        self.ob = np.concatenate(
+            [cur_spec_norm, self.specs_ideal_norm, self.cur_params_idx]
+        )
+        self.env_steps = self.env_steps + 1
+
+        logger.info("current specs:" + str(self.cur_specs) + ", reward: " + str(reward))
+        writer.add_scalar('gain', self.cur_specs[0], self.env_steps)
+        writer.add_scalar('ugbw', self.cur_specs[1], self.env_steps)
+        writer.add_scalar('pm', self.cur_specs[2], self.env_steps)
+        writer.add_scalar('power', self.cur_specs[3], self.env_steps)
+        # print('cur ob:' + str(self.cur_specs))
+        # print('ideal spec:' + str(self.specs_ideal))
+        # print(reward)
+        return self.ob, reward, done, {}
+
+    def lookup(self, spec, goal_spec):
+        goal_spec = [float(e) for e in goal_spec]
+        norm_spec = (spec - goal_spec) / (goal_spec + spec)
+        return norm_spec
+
+    def reward(self, spec, goal_spec):
+        """
+        Reward: doesn't penalize for overshooting spec, is negative
+        """
+        # rel_specs = self.lookup(spec, goal_spec)
+        # pos_val = []
+        # reward = 0.0
+        # for i, rel_spec in enumerate(rel_specs):
+        #     if self.specs_id[i] == "ibias_max":
+        #         rel_spec = rel_spec * -1.0  # /10.0
+        #     if rel_spec < 0:
+        #         reward += rel_spec
+        #         pos_val.append(0)
+        #     else:
+        #         pos_val.append(1)
+
+        # return reward if reward < -0.02 else 10
+
+        norm_specs = self.lookup(spec, goal_spec)
+
+        # pay attention to reward calculation, this is not quite the reward function in RL
+        # but rather a penalty value for the optimization process
+        reward = 0
+        for i, rel_spec in enumerate(norm_specs):
+            # For power,  smaller is better
+            # For gain, larger (compared to the target/goal) is better
+            # For other specs (pm, ugbw, etc.), smaller is better
+            assert self.specs_id[i] in ["ibias_max", "gain_min", "ugbw_min", "phm_min"]
+            if self.specs_id[i] == "ibias_max" and rel_spec > 0:
+                reward += np.abs(rel_spec)  # /10
+            elif self.specs_id[i] == "gain_min" and rel_spec < 0:
+                reward += 3 * np.abs(rel_spec)  # /10
+            elif self.specs_id[i] != "ibias_max" and rel_spec < 0:
+                reward += np.abs(rel_spec)
+        return -reward
+
+    def update(self, params_idx):
+        """
+
+        :param action: an int between 0 ... n-1
+        :return:
+        """
+
+        # params = [self.params[i][params_idx[i]] for i in range(len(self.params_id))]
+        # param_val = [OrderedDict(list(zip(self.params_id, params)))]
+
+
+        param_names = [
+            "wp1", "lp1", "mp1",
+            "wp2", "lp2", "mp2",
+            "wp3", "lp3", "mp3",
+            "wp4", "lp4", "mp4",
+            "wp5", "lp5", "mp5",
+            "wp6", "lp6", "mp6",
+
+            "vbiasp1",
+            "vbiasp2",
+
+            "vbiasn0",
+            "vbiasn1",
+            "vbiasn2",
+
+            "cl",
+            "cc"
+            ]
+        param_val = [OrderedDict(list(zip(param_names, params_idx)))]
+        
+
+
+        # run param vals and simulate
+        cur_specs = OrderedDict(
+            sorted(
+                self.sim_env.create_design_and_simulate(param_val[0])[1].items(),
+                key=lambda k: k[0],
+            )
+        )
+        cur_specs = np.array(list(cur_specs.values()))
+
+        return cur_specs
+
+
+def main():
+    env_config = {"generalize": True, "valid": True}
+    env = LEDRO_D_FC45(env_config)
+    env.reset()
+    # env.step(
+    #     [
+    #         2,
+    #         2,
+    #         2,
+    #         2,
+    #         2,
+    #         2,
+    #         10 - 9,
+    #         10 - 9,
+    #         10 - 9,
+    #         10 - 9,
+    #         10 - 9,
+    #         10 - 9,
+    #         0.2,
+    #         0.2,
+    #         0.2,
+    #         0.2,
+    #         0.2,
+    #     ]
+    # )
+    env.step([2] * 11)
+
+    IPython.embed()
+
+
+if __name__ == "__main__":
+    main()
diff --git a/autockt/envs/ngspice_zhenxin_s_fc.py b/autockt/envs/ngspice_zhenxin_s_fc.py
new file mode 100644
index 0000000..aee5c71
--- /dev/null
+++ b/autockt/envs/ngspice_zhenxin_s_fc.py
@@ -0,0 +1,611 @@
+"""
+A new ckt environment based on a new structure of MDP
+"""
+
+import gym
+from gym import spaces
+
+import numpy as np
+import random
+import psutil
+
+from multiprocessing.dummy import Pool as ThreadPool
+from collections import OrderedDict
+import yaml
+import yaml.constructor
+import statistics
+import os
+import IPython
+import itertools
+from eval_engines.util.core import *
+import pickle
+import os
+
+from eval_engines.ngspice.TwoStageClass import *
+
+# ADD_CIRCUIT
+# tip: comment un-used classes to quickly grasp errors
+# from eval_engines.ngspice.LEDRO_D_FC45 import *
+# from eval_engines.ngspice.LEDRO_D_FC import *
+from eval_engines.ngspice.Zhenxin_S_FC import *
+import datetime
+
+
+from loguru import logger
+import sys
+
+from torch.utils.tensorboard import SummaryWriter
+import numpy as np
+
+# Writer will output to ./runs/ directory by default
+
+# get timestamp in form of string
+date_time_obj = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")
+
+# writer = SummaryWriter(date_time_obj)
+
+
+# Custom format string
+log_format = (
+    "<green>{time:YYYY-MM-DD HH:mm:ss.SSS}</green> | "
+    "<level>{level: <8}</level> | "
+    "<cyan>{module}</cyan>:<cyan>{function}</cyan>:<cyan>{line}</cyan> - "
+    "<level>{message}</level>"
+)
+
+# Clear default logger
+logger.remove()
+
+# Log to stdout
+logger.add(sys.stdout, format=log_format, level="DEBUG")
+
+# Log to file with rotation and retention
+logger.add(
+    "logs/ngspice_ledro_d_fc.log",
+    format=log_format,
+    level="DEBUG",
+    rotation="1 day",
+    retention="7 days",
+)
+
+
+class ActionNormalizer:
+    """Rescale and relocate the actions."""
+
+    def __init__(self, action_space_low, action_space_high):
+
+        self.action_space_low = action_space_low
+        self.action_space_high = action_space_high
+
+    def action(self, action: np.ndarray) -> np.ndarray:
+        """Change the range (-1, 1) to (low, high)."""
+        low = self.action_space_low
+        high = self.action_space_high
+
+        scale_factor = (high - low) / 2
+        reloc_factor = high - scale_factor
+
+        action = action * scale_factor + reloc_factor
+        action = np.clip(action, low, high)
+
+        return action
+
+    def reverse_action(self, action: np.ndarray) -> np.ndarray:
+        """Change the range (low, high) to (-1, 1)."""
+        low = self.action_space_low
+        high = self.action_space_high
+
+        scale_factor = (high - low) / 2
+        reloc_factor = high - scale_factor
+
+        action = (action - reloc_factor) / scale_factor
+        action = np.clip(action, -1.0, 1.0)
+
+        return action
+
+
+# way of ordering the way a yaml file is read
+class OrderedDictYAMLLoader(yaml.Loader):
+    """
+    A YAML loader that loads mappings into ordered dictionaries.
+    """
+
+    def __init__(self, *args, **kwargs):
+        yaml.Loader.__init__(self, *args, **kwargs)
+
+        self.add_constructor("tag:yaml.org,2002:map", type(self).construct_yaml_map)
+        self.add_constructor("tag:yaml.org,2002:omap", type(self).construct_yaml_map)
+
+    def construct_yaml_map(self, node):
+        data = OrderedDict()
+        yield data
+        value = self.construct_mapping(node)
+        data.update(value)
+
+    def construct_mapping(self, node, deep=False):
+        if isinstance(node, yaml.MappingNode):
+            self.flatten_mapping(node)
+        else:
+            raise yaml.constructor.ConstructorError(
+                None,
+                None,
+                "expected a mapping node, but found %s" % node.id,
+                node.start_mark,
+            )
+
+        mapping = OrderedDict()
+        for key_node, value_node in node.value:
+            key = self.construct_object(key_node, deep=deep)
+            value = self.construct_object(value_node, deep=deep)
+            mapping[key] = value
+        return mapping
+
+
+# ADD_CIRCUIT
+class Zhenxin_S_FC(gym.Env):
+    metadata = {"render.modes": ["human"]}
+
+    PERF_LOW = -1
+    PERF_HIGH = 0
+
+    # obtains yaml file
+    path = os.getcwd()
+    # ADD_CIRCUIT
+    CIR_YAML = (
+        path + "/eval_engines/ngspice/ngspice_inputs/yaml_files/zhenxin_s_fc.yaml"
+    )
+
+    def __init__(self, env_config):
+        """
+        Initialize the environment from a configuration dictionary, load circuit specs and parameter grids, set up the simulator, action/observation spaces, and initial state.
+        
+        env_config keys recognized:
+        - "multi_goal" (bool): if True, allow multiple per-instance goal vectors; default False.
+        - "generalize" (bool): if True, use precomputed generated specs instead of target_specs from YAML; default False.
+        - "num_valid" (int): count used when optionally saving sampled specs; default 50.
+        - "save_specs" (bool): if True, persist loaded specs to a pickle file; default False.
+        - "run_valid" (bool): validation mode flag used when generalize is True; default False.
+        
+        Behavior and side effects:
+        - Loads circuit/design YAML (CIR_YAML) using an ordered YAML loader and either reads target_specs or loads generated specs from disk (when generalize is True).
+        - Constructs an ordered specs mapping, optional saving to a pickle file, and records spec identifiers and the fixed goal index.
+        - Builds parameter value grids from YAML "params" and stores parameter identifiers.
+        - Initializes the simulator interface (self.sim_env).
+        - Defines an 11-dimensional continuous action space in [-1, 1] and an ActionNormalizer that maps actions to the configured physical ranges (action_space_low / action_space_high).
+        - Defines the observation space combining normalized current specs, normalized ideal specs, and current parameter values.
+        - Initializes runtime state containers: self.cur_specs, self.cur_params_idx, self.g_star (design goal values), self.global_g (normalization factors), and self.obj_idx (objective index for validation).
+        
+        No return value.
+        """
+        self.multi_goal = env_config.get("multi_goal", False)
+        self.generalize = env_config.get("generalize", False)
+        num_valid = env_config.get("num_valid", 50)
+        self.specs_save = env_config.get("save_specs", False)
+        self.valid = env_config.get("run_valid", False)
+
+        self.env_steps = 0
+        # ADD_CIRCUIT
+        with open(Zhenxin_S_FC.CIR_YAML, "r") as f:
+            yaml_data = yaml.load(f, OrderedDictYAMLLoader)
+
+        # design specs
+        if self.generalize == False:
+            specs = yaml_data["target_specs"]
+        else:
+            load_specs_path = (
+                Zhenxin_S_FC.path
+                + "/autockt/gen_specs/ngspice_specs_gen_zhenxin_s_fc"  # ADD_CIRCUIT
+            )
+            with open(load_specs_path, "rb") as f:
+                specs = pickle.load(f)
+
+        self.specs = OrderedDict(sorted(specs.items(), key=lambda k: k[0]))
+        if self.specs_save:
+            with open(
+                "specs_" + str(num_valid) + str(random.randint(1, 100000)), "wb"
+            ) as f:
+                pickle.dump(self.specs, f)
+
+        self.specs_ideal = []
+        self.specs_id = list(self.specs.keys())
+        self.fixed_goal_idx = -1
+        self.num_os = len(list(self.specs.values())[0])
+
+        # param array
+        params = yaml_data["params"]
+        self.params = []
+        self.params_id = list(params.keys())
+
+        for value in params.values():
+            param_vec = np.linspace(value[0], value[1], value[2])
+            self.params.append(param_vec)
+
+        # initialize sim environment
+        # ADD CIRCUIT
+        self.sim_env = Zhenxin_S_FC_Class(
+            yaml_path=Zhenxin_S_FC.CIR_YAML, num_process=1, path=Zhenxin_S_FC.path
+        )
+        # self.action_meaning = [-1, 0, 2]
+        # self.action_space = spaces.Tuple(
+        #     [spaces.Discrete(len(self.action_meaning))] * len(self.params_id)
+        # )
+
+        # ADD_CIRCUIT
+        self.action_space = spaces.Box(low=-1, high=1, shape=(11,), dtype=np.float64)
+
+        action_space = spaces.Box(low=-1, high=1, shape=(11,), dtype=np.float64)
+        # print (action_space.sample())
+
+        # fmt: off
+        action_space_low = np.array(
+            [
+                130,
+                130, 
+                130, 
+                130,
+                130,
+                130, 
+                0.0001, 
+                0.0001, 
+                0.0001, 
+                0.0001, 
+                0.01,
+            ]
+        )
+
+        action_space_high = np.array(
+            [
+                100000,
+                100000, 
+                100000,
+                100000, 
+                100000,
+                100000, 
+                1.0, 
+                1.0, 
+                1.0, 
+                1.0, 
+                10,
+            ]
+        )
+
+        # fmt: on
+
+        self.action_normalizer = ActionNormalizer(
+            action_space_low=action_space_low, action_space_high=action_space_high
+        )
+
+        # self.action_space = spaces.Discrete(len(self.action_meaning)**len(self.params_id))
+        self.observation_space = spaces.Box(
+            low=np.array(
+                [Zhenxin_S_FC.PERF_LOW] * 2 * len(self.specs_id)
+                + len(self.params_id) * [1]
+            ),
+            high=np.array(
+                [Zhenxin_S_FC.PERF_HIGH] * 2 * len(self.specs_id)
+                + len(self.params_id) * [1]
+            ),
+        )
+
+        # initialize current param/spec observations
+        self.cur_specs = np.zeros(len(self.specs_id), dtype=np.float32)
+        self.cur_params_idx = np.zeros(len(self.params_id), dtype=np.int32)
+
+        # Get the g* (overall design spec) you want to reach
+        self.global_g = []
+        for spec in list(self.specs.values()):
+            self.global_g.append(float(spec[self.fixed_goal_idx]))
+        self.g_star = np.array(self.global_g)
+        self.global_g = np.array(yaml_data["normalize"])
+
+        # objective number (used for validation)
+        self.obj_idx = 0
+
+    def reset(self):
+        # if multi-goal is selected, every time reset occurs, it will select a different design spec as objective
+        """
+        Reset the environment state and return the initial observation.
+        
+        Resets or (when generalization is enabled) selects a new target design specification, normalizes it, initializes the current parameter vector (hard-coded in this implementation), computes the initial simulated specs for those parameters, evaluates the initial reward, and constructs the initial observation.
+        
+        Behavior:
+        - If generalize is True:
+          - If valid is True, cycles through spec indices using self.obj_idx (wraps to 0 when exceeding available designs).
+          - Otherwise selects a random spec index.
+          - Sets self.specs_ideal to the selected column across all stored specs.
+        - If generalize is False:
+          - If multi_goal is False, sets self.specs_ideal to self.g_star (single global goal).
+          - If multi_goal is True, selects a random spec index and sets self.specs_ideal accordingly.
+        - Computes self.specs_ideal_norm via self.lookup against self.global_g.
+        - Assigns a predefined initial parameter vector to self.cur_params_idx (overwrites multiple candidate vectors; final assignment used).
+        - Calls self.update(self.cur_params_idx) to compute self.cur_specs and normalizes it.
+        - Computes initial reward (via self.reward) and builds the initial observation self.ob by concatenating normalized current specs, normalized ideal specs, and current parameter values.
+        
+        Returns:
+            numpy.ndarray: The initial observation vector (concatenation of current-specs-normalized, ideal-specs-normalized, and current parameter values).
+        """
+        if self.generalize == True:
+            if self.valid == True:
+                if self.obj_idx > self.num_os - 1:
+                    self.obj_idx = 0
+                idx = self.obj_idx
+                self.obj_idx += 1
+            else:
+                idx = random.randint(0, self.num_os - 1)
+            self.specs_ideal = []
+            for spec in list(self.specs.values()):
+                self.specs_ideal.append(spec[idx])
+            self.specs_ideal = np.array(self.specs_ideal)
+        else:
+            if self.multi_goal == False:
+                self.specs_ideal = self.g_star
+            else:
+                idx = random.randint(0, self.num_os - 1)
+                self.specs_ideal = []
+                for spec in list(self.specs.values()):
+                    self.specs_ideal.append(spec[idx])
+                self.specs_ideal = np.array(self.specs_ideal)
+        # print("num total:"+str(self.num_os))
+
+        # applicable only when you have multiple goals, normalizes everything to some global_g
+        self.specs_ideal_norm = self.lookup(self.specs_ideal, self.global_g)
+
+        # initialize current parameters
+        # self.cur_params_idx = np.array([2] * 17)
+        # self.cur_params_idx = np.array(
+        #     # [2, 2, 2, 2, 2, 2] + [200, 200, 200, 200, 200, 200] + [10, 10, 10, 10, 10]
+        #     [33, 33, 33, 33, 33, 33]
+        #     + [10, 10, 10, 10, 10]
+        # )
+
+        # ADD_CIRCUIT
+        # fmt: off
+        self.cur_params_idx = np.array([3.74753369e+01 ,1.45339479e+02 ,8.10000000e+01 ,4.47246834e+01,
+                5.42556293e+02 ,3.00000000e+01 ,7.92805812e+01, 6.73899490e+02,
+                6.50000000e+01 ,5.03197719e+01 ,1.78390864e+02, 8.20000000e+01,
+                7.67682715e+01 ,5.71772797e+02 ,7.40000000e+01, 7.27723837e+01,
+                2.66384969e+02 ,7.10000000e+01 ,1.03974815e-01, 8.55390346e-01,
+                2.17883575e-01 ,1.02317559e+00 ,1.00000000e+01, 1.00000000e+00])
+        self.cur_params_idx = np.array([32.77338894433899,262.7480907119822,189.0,158.15349366404624,348.4724582030384,154.0,79.77405852298419,1111.4785699664237,86.0,99.43193620474902,1571.1634654290083,137.0,92.27007942763514,582.0961144404719,165.0,62.95195636704306,742.9661412949395,150.0,0.15006895370431445,0.707724000583208,0.34247109456861674,0.8081614628147477,24.0,18.0])
+        self.cur_params_idx = np.array([1.306996077907531,1.3377967426358073,40.0,5.954494693818084,0.8992126892338544,37.0,25.488818790800927,0.4551653253998019,112.0,4.224049384633847,0.5619414658059543,140.0,25.698553139281227,1.0913253825818343,39.0,12.149631485977649,0.586970473291363,1.0,1.1773170908295258,0.2848438042937586,1.0786470679021434,0.8902246665998383,12.0,47.0])
+        self.cur_params_idx = np.array([2.4284323390575366,1.338078576088182,78.0,29.264831036522917,1.9892456090951285,33.0,13.980927503463723,1.3113102449401783,17.0,32.12785582624383,1.8436928811518705,5.0,42.023886484328216,1.3431306578872302,46.0,35.47162817259426,1.3712540446476695,77.0,0.6568611016690267,0.17811360700059536,0.686108575948138,0.3053737857576733,1.0,1.0])
+        self.cur_params_idx = np.array([242.84323390575366,
+                                        133.8078576088182,
+                                        292.64831036522917,
+                                        198.92456090951285,
+                                        139.80927503463723,
+                                        131.13102449401783,
+                                        0.6568611016690267,
+                                        0.17811360700059536,
+                                        0.686108575948138,
+                                        0.3053737857576733,
+                                        1.0,])
+
+        # fmt: on
+
+        self.cur_specs = self.update(self.cur_params_idx)
+        cur_spec_norm = self.lookup(self.cur_specs, self.global_g)
+        reward = self.reward(self.cur_specs, self.specs_ideal)
+
+        # observation is a combination of current specs distance from ideal, ideal spec, and current param vals
+        self.ob = np.concatenate(
+            [cur_spec_norm, self.specs_ideal_norm, self.cur_params_idx]
+        )
+        return self.ob
+
+    def step(self, action):
+        """
+        Apply an action to update the environment's parameters, run the simulator, and return the next observation, reward, termination flag, and info.
+        
+        The provided `action` is expected in the agent's action space (typically values in [-1, 1]); it is first mapped to the environment's parameter value space using self.action_normalizer.action. The mapped values replace the current parameter vector, the simulator is invoked via self.update(...) to produce new specs, and a scalar reward is computed comparing the current specs to the environment goal. The environment's internal observation (self.ob) and step counter (self.env_steps) are updated.
+        
+        Parameters:
+            action (array-like): Agent action vector (shape matches the environment action space, e.g., length 11). Values are in the agent's action range and will be converted to actual parameter values by the environment's ActionNormalizer.
+        
+        Returns:
+            tuple:
+                observation (np.ndarray): Concatenation of normalized current specs, normalized ideal specs, and the current parameter values.
+                reward (float): Reward computed by self.reward(...) for the resulting specs.
+                done (bool): True when a terminal condition is met (reward >= 10), otherwise False.
+                info (dict): Empty dict (reserved for additional diagnostics).
+        """
+
+        # Take action that RL agent returns to change current params
+        # action = list(np.reshape(np.array(action), (np.array(action).shape[0],)))
+        # self.cur_params_idx = self.cur_params_idx + np.array(
+        #     [self.action_meaning[a] for a in action]
+        # )
+
+        # #        self.cur_params_idx = self.cur_params_idx + np.array(self.action_arr[int(action)])
+        # self.cur_params_idx = np.clip(
+        #     self.cur_params_idx,
+        #     [0] * len(self.params_id),
+        #     [(len(param_vec) - 1) for param_vec in self.params],
+        # )
+        # # logger.debug(f"current param idx: {str(self.cur_params_idx)}")
+        # # print(f"current param idx: {self.cur_params_idx=}")
+        # logger.debug("current param idx simulation: " + str(self.cur_params_idx))
+        action = self.action_normalizer.action(
+            action
+        )  # convert [-1.1] range back to normal range
+        # action = action.astype(object)
+
+        # ADD_CIRCUIT
+        # for idx in [2, 2 + 3, 5 + 3, 8 + 3, 11 + 3, 14 + 3]:
+        #     try:
+        #         action[idx] = int(action[idx])
+        #     except:
+        #         logger.debug("error when rounding the M value")
+        #         action[idx] = 1
+
+        self.cur_params_idx = action
+
+        # Get current specs and normalize
+        self.cur_specs = self.update(self.cur_params_idx)
+        # logger.info("current specs simulation: " + str(self.cur_specs))
+        cur_spec_norm = self.lookup(self.cur_specs, self.global_g)
+        reward = self.reward(self.cur_specs, self.specs_ideal)
+        done = False
+
+        # incentivize reaching goal state
+        if reward >= 10:
+            done = True
+            print("-" * 10)
+            print("params = ", self.cur_params_idx)
+            print("specs:", self.cur_specs)
+            print("ideal specs:", self.specs_ideal)
+            print("re:", reward)
+            print("-" * 10)
+
+        self.ob = np.concatenate(
+            [cur_spec_norm, self.specs_ideal_norm, self.cur_params_idx]
+        )
+        self.env_steps = self.env_steps + 1
+
+        logger.info("current specs:" + str(self.cur_specs) + ", reward: " + str(reward))
+        # writer.add_scalar('gain', self.cur_specs[0], self.env_steps)
+        # writer.add_scalar('ugbw', self.cur_specs[1], self.env_steps)
+        # writer.add_scalar('pm', self.cur_specs[2], self.env_steps)
+        # writer.add_scalar('power', self.cur_specs[3], self.env_steps)
+        # print('cur ob:' + str(self.cur_specs))
+        # print('ideal spec:' + str(self.specs_ideal))
+        # print(reward)
+        return self.ob, reward, done, {}
+
+    def lookup(self, spec, goal_spec):
+        goal_spec = [float(e) for e in goal_spec]
+        norm_spec = (spec - goal_spec) / (goal_spec + spec)
+        return norm_spec
+
+    def reward(self, spec, goal_spec):
+        """
+        Compute a scalar objective for the current specs relative to a goal specification.
+        
+        This function:
+        - Normalizes the difference between `spec` and `goal_spec` using self.lookup.
+        - Accumulates a penalty according to per-spec rules:
+          - "ibias_max": penalize only when the normalized value is positive (larger than goal).
+          - "gain_min": penalize only when the normalized value is negative (smaller than goal).
+          - All other tracked specs ("ugbw_min", "phm_min"): penalize when the normalized value is negative (smaller than goal).
+        - Returns either the negated accumulated penalty (a negative value) or 10 when the negated penalty is above a small threshold, indicating a sufficiently good match.
+        
+        Parameters:
+            spec (array-like): Current specification values (ordered to match self.specs_id).
+            goal_spec (array-like): Target/ideal specification values.
+        
+        Returns:
+            float: Either a negative penalty (-sum_of_violations) or 10 when the negated penalty is >= -0.02 (tolerance threshold).
+        """
+        # rel_specs = self.lookup(spec, goal_spec)
+        # pos_val = []
+        # reward = 0.0
+        # for i, rel_spec in enumerate(rel_specs):
+        #     if self.specs_id[i] == "ibias_max":
+        #         rel_spec = rel_spec * -1.0  # /10.0
+        #     if rel_spec < 0:
+        #         reward += rel_spec
+        #         pos_val.append(0)
+        #     else:
+        #         pos_val.append(1)
+
+        # return reward if reward < -0.02 else 10
+
+        norm_specs = self.lookup(spec, goal_spec)
+
+        # pay attention to reward calculation, this is not quite the reward function in RL
+        # but rather a penalty value for the optimization process
+        reward = 0
+        for i, rel_spec in enumerate(norm_specs):
+            # For power,  smaller is better
+            # For gain, larger (compared to the target/goal) is better
+            # For other specs (pm, ugbw, etc.), smaller is better
+            assert self.specs_id[i] in ["ibias_max", "gain_min", "ugbw_min", "phm_min"]
+            if self.specs_id[i] == "ibias_max" and rel_spec > 0:
+                reward += np.abs(rel_spec)  # /10
+            elif self.specs_id[i] == "gain_min" and rel_spec < 0:
+                reward += 1 * np.abs(rel_spec)  # /10
+            elif self.specs_id[i] != "ibias_max" and rel_spec < 0:
+                reward += np.abs(rel_spec)
+        # return -reward
+        return -reward if -reward < -0.02 else 10
+
+    def update(self, params_idx):
+        """
+        Update the circuit design using the provided parameter vector, run the simulator, and return the resulting specifications.
+        
+        Parameters:
+            params_idx (Sequence[int|float]): Sequence of 11 parameter values (in the same order as the internal
+                param_names: ["w_m12","w_m3","w_m45","w_m67","w_m89","w_m1011","vbp1","vbp2","vbn1","vbn2","cc"].
+                These are treated as the parameter values passed to the simulator.
+        
+        Returns:
+            numpy.ndarray: 1-D array of simulated specification values. The specs are taken from the simulator's
+            output, sorted by specification name (ascending) before conversion to the array.
+        """
+
+        # params = [self.params[i][params_idx[i]] for i in range(len(self.params_id))]
+        # param_val = [OrderedDict(list(zip(self.params_id, params)))]
+
+        # ADD_CIRCUIT
+        # fmt: off
+        param_names = [
+            "w_m12",
+            "w_m3", 
+            "w_m45",
+            "w_m67", 
+            "w_m89", 
+            "w_m1011", 
+            "vbp1",
+            "vbp2",
+            "vbn1",
+            "vbn2",
+            "cc"
+            ]
+        # fmt: on
+
+        param_val = [OrderedDict(list(zip(param_names, params_idx)))]
+
+        # run param vals and simulate
+        cur_specs = OrderedDict(
+            sorted(
+                self.sim_env.create_design_and_simulate(param_val[0])[1].items(),
+                key=lambda k: k[0],
+            )
+        )
+        cur_specs = np.array(list(cur_specs.values()))
+
+        return cur_specs
+
+
+def main():
+    env_config = {"generalize": True, "valid": True}
+    env = Zhenxin_S_FC(env_config)
+    env.reset()
+    # env.step(
+    #     [
+    #         2,
+    #         2,
+    #         2,
+    #         2,
+    #         2,
+    #         2,
+    #         10 - 9,
+    #         10 - 9,
+    #         10 - 9,
+    #         10 - 9,
+    #         10 - 9,
+    #         10 - 9,
+    #         0.2,
+    #         0.2,
+    #         0.2,
+    #         0.2,
+    #         0.2,
+    #     ]
+    # )
+    env.step([2] * 11)
+
+    IPython.embed()
+
+
+if __name__ == "__main__":
+    main()
diff --git a/autockt/eval.py b/autockt/eval.py
index f2d1b8c..15a8975 100644
--- a/autockt/eval.py
+++ b/autockt/eval.py
@@ -18,6 +18,34 @@
 
 # from bag_deep_ckt.autockt.envs.bag_opamp_discrete import TwoStageAmp
 from envs.ngspice_vanilla_opamp import TwoStageAmp
+from envs.ngspice_ledro_d_fc import LEDRO_D_FC
+
+from loguru import logger
+import sys
+
+# Custom format string
+log_format = (
+    "<green>{time:YYYY-MM-DD HH:mm:ss.SSS}</green> | "
+    "<level>{level: <8}</level> | "
+    "<cyan>{module}</cyan>:<cyan>{function}</cyan>:<cyan>{line}</cyan> - "
+    "<level>{message}</level>"
+)
+
+# Clear default logger
+logger.remove()
+
+# Log to stdout
+logger.add(sys.stdout, format=log_format, level="DEBUG")
+
+# Log to file with rotation and retention
+logger.add(
+    "logs/eval.log",
+    format=log_format,
+    level="DEBUG",
+    rotation="1 day",
+    retention="7 days",
+)
+
 
 EXAMPLE_USAGE = """
 Example Usage via RLlib CLI:
@@ -33,6 +61,7 @@
 # ModelCatalog.register_custom_model("pa_model", ParametricActionsModel)
 # register_env("pa_cartpole", lambda _: ParametricActionCartpole(10))
 register_env("opamp-v0", lambda config: TwoStageAmp(config))
+register_env("ledro_d_fc", lambda config: LEDRO_D_FC(config))
 
 
 def create_parser(parser_creator=None):
@@ -145,6 +174,9 @@ def rollout(agent, env_name, num_steps, out="assdf", no_render=True):
         }
         if env_name == "opamp-v0":
             env = TwoStageAmp(env_config=env_config)
+        if env_name == "ledro_d_fc":
+            env = LEDRO_D_FC(env_config=env_config)
+
     else:
         env = gym.make(env_name)
 
@@ -186,10 +218,21 @@ def rollout(agent, env_name, num_steps, out="assdf", no_render=True):
                 action = agent.compute_action(state)
                 action_array.append(action)
 
+            # action = env.action_space.sample()
+            # action_array.append(action)
+
             next_state, reward, done, _ = env.step(action)
-            print(action)
-            print(reward)
-            print(done)
+            logger.debug(
+                "\n action: "
+                + str(action)
+                + "\n reward: "
+                + str(reward)
+                + "\n done: "
+                + str(done)
+                + "\n next_state: "
+                + str(next_state)
+            )
+
             reward_total += reward
             if not no_render:
                 env.render()
diff --git a/autockt/gen_specs.py b/autockt/gen_specs.py
index d4d2ac2..a812fca 100644
--- a/autockt/gen_specs.py
+++ b/autockt/gen_specs.py
@@ -6,6 +6,7 @@
 import argparse
 from collections import OrderedDict
 import pickle
+import datetime
 
 
 # way of ordering the way a yaml file is read
@@ -73,6 +74,19 @@ def gen_data(CIR_YAML, env, num_specs):
     with open("autockt/gen_specs/ngspice_specs_gen_" + env, "wb") as f:
         pickle.dump(specs_range, f)
 
+    with open("autockt/gen_specs/ngspice_specs_gen_" + env + ".log", "w") as f:
+        f.write("total specs: " + str(len(specs_range["gain_min"])))
+        for spec in specs_range:
+            f.write("\n")
+            f.write(str(spec) + "\n")
+            f.write(str(specs_range[spec]))
+        # write generated time/date
+        f.write("\n\n")
+        f.write(
+            "Generated at: "
+            + str(datetime.datetime.now().strftime("%d/%m/%Y, %H:%M:%S"))
+        )
+
 
 def main():
     parser = argparse.ArgumentParser()
@@ -82,6 +96,15 @@ def main():
 
     gen_data(CIR_YAML, "two_stage_opamp", int(args.num_specs))
 
+    CIR_YAML = "eval_engines/ngspice/ngspice_inputs/yaml_files/ledro_d_fc.yaml"
+    gen_data(CIR_YAML, "ledro_d_fc", int(args.num_specs))
+
+    CIR_YAML = "eval_engines/ngspice/ngspice_inputs/yaml_files/ledro_d_fc45.yaml"
+    gen_data(CIR_YAML, "ledro_d_fc45", int(args.num_specs))
+
+    CIR_YAML = "eval_engines/ngspice/ngspice_inputs/yaml_files/zhenxin_s_fc.yaml"
+    gen_data(CIR_YAML, "zhenxin_s_fc", int(args.num_specs))
+
 
 if __name__ == "__main__":
     main()
diff --git a/autockt/gen_specs/ngspice_specs_gen_ledro_d_fc b/autockt/gen_specs/ngspice_specs_gen_ledro_d_fc
new file mode 100644
index 0000000..de643e4
Binary files /dev/null and b/autockt/gen_specs/ngspice_specs_gen_ledro_d_fc differ
diff --git a/autockt/gen_specs/ngspice_specs_gen_ledro_d_fc45 b/autockt/gen_specs/ngspice_specs_gen_ledro_d_fc45
new file mode 100644
index 0000000..5b414ac
Binary files /dev/null and b/autockt/gen_specs/ngspice_specs_gen_ledro_d_fc45 differ
diff --git a/autockt/gen_specs/ngspice_specs_gen_two_stage_opamp b/autockt/gen_specs/ngspice_specs_gen_two_stage_opamp
index 97c99ba..80d184f 100644
Binary files a/autockt/gen_specs/ngspice_specs_gen_two_stage_opamp and b/autockt/gen_specs/ngspice_specs_gen_two_stage_opamp differ
diff --git a/autockt/gen_specs/ngspice_specs_gen_zhenxin_s_fc b/autockt/gen_specs/ngspice_specs_gen_zhenxin_s_fc
new file mode 100644
index 0000000..8c63da6
Binary files /dev/null and b/autockt/gen_specs/ngspice_specs_gen_zhenxin_s_fc differ
diff --git a/autockt/train_ledro.py b/autockt/train_ledro.py
new file mode 100644
index 0000000..55ba856
--- /dev/null
+++ b/autockt/train_ledro.py
@@ -0,0 +1,55 @@
+import ray
+import ray.tune as tune
+from ray.rllib.agents import ppo
+from autockt.envs.ngspice_vanilla_opamp import TwoStageAmp
+from autockt.envs.ngspice_ledro_d_fc import LEDRO_D_FC
+
+import argparse
+
+parser = argparse.ArgumentParser()
+parser.add_argument("--checkpoint_dir", "-cpd", type=str)
+args = parser.parse_args()
+ray.init()
+
+# configures training of the agent with associated hyperparameters
+# See Ray documentation for details on each parameter
+
+config_train = {
+    "train_batch_size": 1200,
+    "horizon": 200,  # 100 discrete values, starting from 33 (envs/ngspice_ledro_d_dc.py line 210), max step size = 2, -> 33 + 2*200 = 433.
+    "num_gpus": 0,
+    # "model": {"fcnet_hiddens": [64, 64]},
+    "model": {"fcnet_hiddens": [128, 128, 128]},
+    "num_workers": 6,
+    "env_config": {"generalize": True, "run_valid": False},
+}
+
+# Runs training and saves the result in ~/ray_results/train_ngspice_45nm
+# If checkpoint fails for any reason, training can be restored
+if True:
+    trials = tune.run_experiments(
+        {
+            "train_7nFinFET_LEDRO_D_FC": {
+                "checkpoint_freq": 10,
+                "run": "PPO",
+                "env": LEDRO_D_FC,
+                "stop": {"episode_reward_mean": -0.02},
+                "config": config_train,
+            },
+        }
+    )
+else:
+    print("RESTORING NOW!!!!!!")
+    exit()  # do not restore for now
+    tune.run_experiments(
+        {
+            "restore_ppo": {
+                "run": "PPO",
+                "config": config_train,
+                "env": LEDRO_D_FC,
+                # "restore": trials[0]._checkpoint.value},
+                "restore": args.checkpoint_dir,
+                "checkpoint_freq": 1,
+            },
+        }
+    )
diff --git a/autockt/train_ledro45.py b/autockt/train_ledro45.py
new file mode 100644
index 0000000..e75ed18
--- /dev/null
+++ b/autockt/train_ledro45.py
@@ -0,0 +1,79 @@
+import ray
+import ray.tune as tune
+from ray.rllib.agents import ppo
+from autockt.envs.ngspice_vanilla_opamp import TwoStageAmp
+from autockt.envs.ngspice_ledro_d_fc import LEDRO_D_FC
+from autockt.envs.ngspice_ledro_d_fc45 import LEDRO_D_FC45
+
+
+import argparse
+
+parser = argparse.ArgumentParser()
+parser.add_argument("--checkpoint_dir", "-cpd", type=str)
+args = parser.parse_args()
+ray.init()
+
+# configures training of the agent with associated hyperparameters
+# See Ray documentation for details on each parameter
+config_train = {
+    # "sample_batch_size": 200,
+    "train_batch_size": 2400,
+    # "sgd_minibatch_size": 1200,
+    # "num_sgd_iter": 3,
+    # "lr":1e-3,
+    # "vf_loss_coeff": 0.5,
+    "horizon": 400,
+    # "rollout_fragment_length": 1200,
+    # "rollout_fragment_length": 200,
+    "num_gpus": 0,
+    "model": {"fcnet_hiddens": [64, 64]},
+    "num_workers": 6,
+    "env_config": {"generalize": True, "run_valid": False},
+}
+config_train = {
+    "train_batch_size": 1200,
+    "horizon": 100,
+    "num_gpus": 0,
+    # "model": {"fcnet_hiddens": [64, 64]},
+    "model": {"fcnet_hiddens": [128, 128, 128]},
+    "num_workers": 6,
+    "env_config": {"generalize": True, "run_valid": False},
+}
+# Runs training and saves the result in ~/ray_results/train_ngspice_45nm
+# If checkpoint fails for any reason, training can be restored
+if True:
+    trials = tune.run_experiments(
+        {
+            "train_7nFinFET_LEDRO_D_FC": {
+                "checkpoint_freq": 10,
+                "run": "PPO",
+                "env": LEDRO_D_FC45,
+                # "stop": {"episode_reward_mean": -0.02},
+                # "stop": {"episode_reward_mean": -0.25},
+                "config": config_train,
+            },
+        }
+    )
+    # trials = tune.run(
+    #     "PPO",
+    #     config=config_train,
+    #     stop={"training_iteration": 1000},
+    #     checkpoint_freq=10,
+    #     name="train_7nFinFET_LEDRO_D_DC_1",
+    # )
+
+else:
+    print("RESTORING NOW!!!!!!")
+    exit()  # do not restore for now
+    tune.run_experiments(
+        {
+            "restore_ppo": {
+                "run": "PPO",
+                "config": config_train,
+                "env": LEDRO_D_FC45,
+                # "restore": trials[0]._checkpoint.value},
+                "restore": args.checkpoint_dir,
+                "checkpoint_freq": 1,
+            },
+        }
+    )
diff --git a/autockt/train_zhenxin_s_fc_65nm.py b/autockt/train_zhenxin_s_fc_65nm.py
new file mode 100644
index 0000000..a65c177
--- /dev/null
+++ b/autockt/train_zhenxin_s_fc_65nm.py
@@ -0,0 +1,80 @@
+import ray
+import ray.tune as tune
+from ray.rllib.agents import ppo
+from autockt.envs.ngspice_vanilla_opamp import TwoStageAmp
+from autockt.envs.ngspice_ledro_d_fc import LEDRO_D_FC
+
+# ADD_CIRCUIT
+from autockt.envs.ngspice_ledro_d_fc45 import LEDRO_D_FC45
+from autockt.envs.ngspice_zhenxin_s_fc import Zhenxin_S_FC
+
+import argparse
+
+parser = argparse.ArgumentParser()
+parser.add_argument("--checkpoint_dir", "-cpd", type=str, default=None)
+args = parser.parse_args()
+ray.init()
+
+# configures training of the agent with associated hyperparameters
+# See Ray documentation for details on each parameter
+config_train = {
+    # "sample_batch_size": 200,
+    "train_batch_size": 2400,
+    # "sgd_minibatch_size": 1200,
+    # "num_sgd_iter": 3,
+    # "lr":1e-3,
+    # "vf_loss_coeff": 0.5,
+    "horizon": 400,
+    # "rollout_fragment_length": 1200,
+    # "rollout_fragment_length": 200,
+    "num_gpus": 0,
+    "model": {"fcnet_hiddens": [64, 64]},
+    "num_workers": 6,
+    "env_config": {"generalize": False, "run_valid": False},
+}
+config_train = {
+    "train_batch_size": 1200,
+    "horizon": 50,
+    "num_gpus": 0,
+    # "model": {"fcnet_hiddens": [64, 64]},
+    "model": {"fcnet_hiddens": [128, 128, 128]},
+    "num_workers": 6,
+    "env_config": {"generalize": False, "run_valid": False},
+}
+# Runs training and saves the result in ~/ray_results/train_ngspice_45nm
+# If checkpoint fails for any reason, training can be restored
+if not args.checkpoint_dir:
+    trials = tune.run_experiments(
+        {
+            "train_65nm_Zhenxin_S_FC": {
+                "checkpoint_freq": 10,
+                "run": "PPO",
+                "env": Zhenxin_S_FC,  # ADD_CIRCUIT
+                # "stop": {"episode_reward_mean": -0.02},
+                # "stop": {"episode_reward_mean": -0.25},
+                "config": config_train,
+            },
+        }
+    )
+    # trials = tune.run(
+    #     "PPO",
+    #     config=config_train,
+    #     stop={"training_iteration": 1000},
+    #     checkpoint_freq=10,
+    #     name="train_7nFinFET_LEDRO_D_DC_1",
+    # )
+
+else:
+    print("RESTORING NOW!!!!!!")
+    tune.run_experiments(
+        {
+            "restore_ppo": {
+                "run": "PPO",
+                "config": config_train,
+                "env": LEDRO_D_FC45,
+                # "restore": trials[0]._checkpoint.value},
+                "restore": args.checkpoint_dir,
+                "checkpoint_freq": 1,
+            },
+        }
+    )
diff --git a/eval_engines/ngspice/LEDRO_D_FC.py b/eval_engines/ngspice/LEDRO_D_FC.py
new file mode 100644
index 0000000..4ff3ee3
--- /dev/null
+++ b/eval_engines/ngspice/LEDRO_D_FC.py
@@ -0,0 +1,136 @@
+import numpy as np
+import os
+import scipy.interpolate as interp
+import scipy.optimize as sciopt
+import yaml
+import importlib
+import time
+
+debug = False
+
+from eval_engines.ngspice.ngspice_wrapper import NgSpiceWrapper
+
+import random
+import re
+import copy
+
+
+class LEDRO_D_FC_Class(NgSpiceWrapper):
+
+    def translate_result(self, output_path):
+        """
+
+        :param output_path:
+        :return
+            result: dict(spec_kwds, spec_value)
+        """
+
+        # use parse output here
+        freq, vout, ibias = self.parse_output(output_path)
+        gain = self.find_dc_gain(vout)
+        ugbw = self.find_ugbw(freq, vout)
+        phm = self.find_phm(freq, vout)
+
+        spec = dict(ugbw=ugbw, gain=gain, phm=phm, ibias=ibias)
+
+        return spec
+
+    def parse_output(self, output_path):
+
+        ac_fname = os.path.join(output_path, "ac.csv")
+        dc_fname = os.path.join(output_path, "dc.csv")
+
+        if not os.path.isfile(ac_fname) or not os.path.isfile(dc_fname):
+            print("ac/dc file doesn't exist: %s" % output_path)
+
+        ac_raw_outputs = np.genfromtxt(ac_fname, skip_header=1)
+        dc_raw_outputs = np.genfromtxt(dc_fname, skip_header=1)
+        freq = ac_raw_outputs[:, 0]
+        vout_real = ac_raw_outputs[:, 1]
+        vout_imag = ac_raw_outputs[:, 2]
+        vout = vout_real + 1j * vout_imag
+        ibias = -dc_raw_outputs[1]
+
+        return freq, vout, ibias
+
+    def find_dc_gain(self, vout):
+        return np.abs(vout)[0]
+
+    def find_ugbw(self, freq, vout):
+        gain = np.abs(vout)
+        ugbw, valid = self._get_best_crossing(freq, gain, val=1)
+        if valid:
+            return ugbw
+        else:
+            return freq[0]
+
+    def find_phm(self, freq, vout):
+        gain = np.abs(vout)
+        phase = np.angle(vout, deg=False)
+        phase = np.unwrap(phase)  # unwrap the discontinuity
+        phase = np.rad2deg(phase)  # convert to degrees
+        #
+        # plt.subplot(211)
+        # plt.plot(np.log10(freq[:200]), 20*np.log10(gain[:200]))
+        # plt.subplot(212)
+        # plt.plot(np.log10(freq[:200]), phase)
+
+        phase_fun = interp.interp1d(freq, phase, kind="quadratic")
+        ugbw, valid = self._get_best_crossing(freq, gain, val=1)
+        if valid:
+            if phase_fun(ugbw) > 0:
+                return -180 + phase_fun(ugbw)
+            else:
+                return 180 + phase_fun(ugbw)
+        else:
+            return -180
+
+    def _get_best_crossing(cls, xvec, yvec, val):
+        interp_fun = interp.InterpolatedUnivariateSpline(xvec, yvec)
+
+        def fzero(x):
+            return interp_fun(x) - val
+
+        xstart, xstop = xvec[0], xvec[-1]
+        try:
+            return sciopt.brentq(fzero, xstart, xstop), True
+        except ValueError:
+            # avoid no solution
+            # if abs(fzero(xstart)) < abs(fzero(xstop)):
+            #     return xstart
+            return xstop, False
+
+    def create_design(self, state, new_fname):
+        design_folder = os.path.join(self.gen_dir, new_fname) + str(
+            random.randint(0, 10000)
+        )
+        os.makedirs(design_folder, exist_ok=True)
+
+        fpath = os.path.join(design_folder, new_fname + ".cir")
+
+        state["nB1"] = int(round(state["nB1"]))
+        state["nB2"] = int(round(state["nB2"]))
+        state["nB3"] = int(round(state["nB3"]))
+        state["nB4"] = int(round(state["nB4"]))
+        state["nB5"] = int(round(state["nB5"]))
+        state["nB6"] = int(round(state["nB6"]))
+
+        state["nA1"] = state["nA1"] * 1e-9
+        state["nA2"] = state["nA2"] * 1e-9
+        state["nA3"] = state["nA3"] * 1e-9
+        state["nA4"] = state["nA4"] * 1e-9
+        state["nA5"] = state["nA5"] * 1e-9
+        state["nA6"] = state["nA6"] * 1e-9
+        state["vbiasp1"] = state["vbiasp1"] / 10
+        state["vbiasp2"] = state["vbiasp2"] / 10
+        state["vbiasn0"] = state["vbiasn0"] / 10
+        state["vbiasn1"] = state["vbiasn1"] / 10
+        state["vbiasn2"] = state["vbiasn2"] / 10
+        state["design_path"] = design_folder
+        with open(fpath, "w") as f:
+            # render the design netlist with the current state
+            netlist_str = self.design_template.render(state)
+            f.write(netlist_str)
+            f.close()
+
+        return design_folder, fpath
diff --git a/eval_engines/ngspice/LEDRO_D_FC45.py b/eval_engines/ngspice/LEDRO_D_FC45.py
new file mode 100644
index 0000000..e6046ef
--- /dev/null
+++ b/eval_engines/ngspice/LEDRO_D_FC45.py
@@ -0,0 +1,117 @@
+import numpy as np
+import os
+import scipy.interpolate as interp
+import scipy.optimize as sciopt
+import yaml
+import importlib
+import time
+
+debug = False
+
+from eval_engines.ngspice.ngspice_wrapper import NgSpiceWrapper
+
+import random
+import re
+import copy
+
+
+class LEDRO_D_FC45_Class(NgSpiceWrapper):
+
+    def translate_result(self, output_path):
+        """
+
+        :param output_path:
+        :return
+            result: dict(spec_kwds, spec_value)
+        """
+
+        # use parse output here
+        freq, vout, ibias = self.parse_output(output_path)
+        gain = self.find_dc_gain(vout)
+        ugbw = self.find_ugbw(freq, vout)
+        phm = self.find_phm(freq, vout)
+
+        spec = dict(ugbw=ugbw, gain=gain, phm=phm, ibias=ibias)
+
+        return spec
+
+    def parse_output(self, output_path):
+
+        ac_fname = os.path.join(output_path, "ac.csv")
+        dc_fname = os.path.join(output_path, "dc.csv")
+
+        if not os.path.isfile(ac_fname) or not os.path.isfile(dc_fname):
+            print("ac/dc file doesn't exist: %s" % output_path)
+
+        ac_raw_outputs = np.genfromtxt(ac_fname, skip_header=1)
+        dc_raw_outputs = np.genfromtxt(dc_fname, skip_header=1)
+        freq = ac_raw_outputs[:, 0]
+        vout_real = ac_raw_outputs[:, 1]
+        vout_imag = ac_raw_outputs[:, 2]
+        vout = vout_real + 1j * vout_imag
+        ibias = -dc_raw_outputs[1]
+
+        return freq, vout, ibias
+
+    def find_dc_gain(self, vout):
+        return np.abs(vout)[0]
+
+    def find_ugbw(self, freq, vout):
+        gain = np.abs(vout)
+        ugbw, valid = self._get_best_crossing(freq, gain, val=1)
+        if valid:
+            return ugbw
+        else:
+            return freq[0]
+
+    def find_phm(self, freq, vout):
+        gain = np.abs(vout)
+        phase = np.angle(vout, deg=False)
+        phase = np.unwrap(phase)  # unwrap the discontinuity
+        phase = np.rad2deg(phase)  # convert to degrees
+        #
+        # plt.subplot(211)
+        # plt.plot(np.log10(freq[:200]), 20*np.log10(gain[:200]))
+        # plt.subplot(212)
+        # plt.plot(np.log10(freq[:200]), phase)
+
+        phase_fun = interp.interp1d(freq, phase, kind="quadratic")
+        ugbw, valid = self._get_best_crossing(freq, gain, val=1)
+        if valid:
+            if phase_fun(ugbw) > 0:
+                return -180 + phase_fun(ugbw)
+            else:
+                return 180 + phase_fun(ugbw)
+        else:
+            return -180
+
+    def _get_best_crossing(cls, xvec, yvec, val):
+        interp_fun = interp.InterpolatedUnivariateSpline(xvec, yvec)
+
+        def fzero(x):
+            return interp_fun(x) - val
+
+        xstart, xstop = xvec[0], xvec[-1]
+        try:
+            return sciopt.brentq(fzero, xstart, xstop), True
+        except ValueError:
+            # avoid no solution
+            # if abs(fzero(xstart)) < abs(fzero(xstop)):
+            #     return xstart
+            return xstop, False
+
+    def create_design(self, state, new_fname):
+        design_folder = os.path.join(self.gen_dir, new_fname) + str(
+            random.randint(0, 10000)
+        )
+        os.makedirs(design_folder, exist_ok=True)
+
+        fpath = os.path.join(design_folder, new_fname + ".cir")
+        state["design_path"] = design_folder
+        with open(fpath, "w") as f:
+            # render the design netlist with the current state
+            netlist_str = self.design_template.render(state)
+            f.write(netlist_str)
+            f.close()
+
+        return design_folder, fpath
diff --git a/eval_engines/ngspice/Zhenxin_S_FC.py b/eval_engines/ngspice/Zhenxin_S_FC.py
new file mode 100644
index 0000000..39efd0e
--- /dev/null
+++ b/eval_engines/ngspice/Zhenxin_S_FC.py
@@ -0,0 +1,117 @@
+import numpy as np
+import os
+import scipy.interpolate as interp
+import scipy.optimize as sciopt
+import yaml
+import importlib
+import time
+
+debug = False
+
+from eval_engines.ngspice.ngspice_wrapper import NgSpiceWrapper
+
+import random
+import re
+import copy
+
+
+class Zhenxin_S_FC_Class(NgSpiceWrapper):
+
+    def translate_result(self, output_path):
+        """
+
+        :param output_path:
+        :return
+            result: dict(spec_kwds, spec_value)
+        """
+
+        # use parse output here
+        freq, vout, ibias = self.parse_output(output_path)
+        gain = self.find_dc_gain(vout)
+        ugbw = self.find_ugbw(freq, vout)
+        phm = self.find_phm(freq, vout)
+
+        spec = dict(ugbw=ugbw, gain=gain, phm=phm, ibias=ibias)
+
+        return spec
+
+    def parse_output(self, output_path):
+
+        ac_fname = os.path.join(output_path, "ac.csv")
+        dc_fname = os.path.join(output_path, "dc.csv")
+
+        if not os.path.isfile(ac_fname) or not os.path.isfile(dc_fname):
+            print("ac/dc file doesn't exist: %s" % output_path)
+
+        ac_raw_outputs = np.genfromtxt(ac_fname, skip_header=1)
+        dc_raw_outputs = np.genfromtxt(dc_fname, skip_header=1)
+        freq = ac_raw_outputs[:, 0]
+        vout_real = ac_raw_outputs[:, 1]
+        vout_imag = ac_raw_outputs[:, 2]
+        vout = vout_real + 1j * vout_imag
+        ibias = -dc_raw_outputs[1]
+
+        return freq, vout, ibias
+
+    def find_dc_gain(self, vout):
+        return np.abs(vout)[0]
+
+    def find_ugbw(self, freq, vout):
+        gain = np.abs(vout)
+        ugbw, valid = self._get_best_crossing(freq, gain, val=1)
+        if valid:
+            return ugbw
+        else:
+            return freq[0]
+
+    def find_phm(self, freq, vout):
+        gain = np.abs(vout)
+        phase = np.angle(vout, deg=False)
+        phase = np.unwrap(phase)  # unwrap the discontinuity
+        phase = np.rad2deg(phase)  # convert to degrees
+        #
+        # plt.subplot(211)
+        # plt.plot(np.log10(freq[:200]), 20*np.log10(gain[:200]))
+        # plt.subplot(212)
+        # plt.plot(np.log10(freq[:200]), phase)
+
+        phase_fun = interp.interp1d(freq, phase, kind="quadratic")
+        ugbw, valid = self._get_best_crossing(freq, gain, val=1)
+        if valid:
+            if phase_fun(ugbw) > 0:
+                return -180 + phase_fun(ugbw)
+            else:
+                return 180 + phase_fun(ugbw)
+        else:
+            return -180
+
+    def _get_best_crossing(cls, xvec, yvec, val):
+        interp_fun = interp.InterpolatedUnivariateSpline(xvec, yvec)
+
+        def fzero(x):
+            return interp_fun(x) - val
+
+        xstart, xstop = xvec[0], xvec[-1]
+        try:
+            return sciopt.brentq(fzero, xstart, xstop), True
+        except ValueError:
+            # avoid no solution
+            # if abs(fzero(xstart)) < abs(fzero(xstop)):
+            #     return xstart
+            return xstop, False
+
+    def create_design(self, state, new_fname):
+        design_folder = os.path.join(self.gen_dir, new_fname) + str(
+            random.randint(0, 10000)
+        )
+        os.makedirs(design_folder, exist_ok=True)
+
+        fpath = os.path.join(design_folder, new_fname + ".cir")
+        state["design_path"] = design_folder
+        with open(fpath, "w") as f:
+            # render the design netlist with the current state
+            netlist_str = self.design_template.render(state)
+            f.write(netlist_str)
+            f.close()
+
+        return design_folder, fpath
diff --git a/eval_engines/ngspice/ngspice_inputs/netlist/Zhenxin_S_FC.cir b/eval_engines/ngspice/ngspice_inputs/netlist/Zhenxin_S_FC.cir
new file mode 100644
index 0000000..2951a24
--- /dev/null
+++ b/eval_engines/ngspice/ngspice_inputs/netlist/Zhenxin_S_FC.cir
@@ -0,0 +1,64 @@
+*Zhenxin_S_FC
+
+.include "/home/pham/code/analog-ml/AutoCkt/eval_engines/ngspice/ngspice_inputs/spice_models/65nm_bulk.txt"
+
+* Parameters
+.param tempc=25.0
+.param wm12={{w_m12}}n  lm12=130n mm12=1
+.param wm3={{w_m3}}n    lm3=130n mm3=1
+.param wm45={{w_m45}}n  lm45=130n mm45=1
+.param wm67={{w_m67}}n lm67=130n mm67=1
+.param wm89={{w_m89}}n lm89=130n mm89=1
+.param wm1011={{w_m1011}}n lm1011=130n mm1011=1
+
+.param vbp1={{vbp1}}
+.param vbp2={{vbp2}}
+.param vbn1={{vbn1}}
+.param vbn2={{vbn2}}
+
+.param vdd=1.2
+.param vcm=0.6
+
+
+M3 N004 Vbp1 VDD VDD pmos W={wm3} L={lm3} m={mm3} 
+M4 N002 N001 VDD VDD pmos W={wm45} L={lm45} m={mm45}
+M5 N003 N001 VDD VDD pmos W={wm45} L={lm45} m={mm45}
+M7 Vout Vbp2 N003 N003 pmos W={wm67} L={lm67} m={mm67}
+M6 N001 Vbp2 N002 N002 pmos W={wm67} L={lm67} m={mm67}
+M1 N006 Vinp N004 N004 pmos W={wm12} L={lm12} m={mm12}
+M2 N005 Vinn N004 N004 pmos W={wm12} L={lm12} m={mm12}
+M8 N001 Vbn1 N006 N006 nmos W={wm89} L={lm89} m={mm89}
+M9 Vout Vbn1 N005 N005 nmos W={wm89} L={lm89} m={mm89}
+M10 N006 Vbn2 0 0 nmos W={wm1011} L={lm1011} m={mm1011}
+M11 N005 Vbn2 0 0 nmos W={wm1011} L={lm1011} m={mm1011}
+
+
+
+vin in 0 dc=0 ac=1.0
+ein1 Vinp cm in 0 0.5
+ein2 Vinn cm in 0 -0.5
+vcm cm 0 dc={vcm}
+
+vdd VDD 0 dc=1.2
+vss 0 VSS dc=0
+Ccomp N001 Vout {{cc}}p
+Cload Vout 0 1p
+
+VBP1 Vbp1 0 DC {vbp1}
+VBP2 Vbp2 0 DC {vbp2}
+VBN1 Vbn1 0 DC {vbn1}
+VBN2 Vbn2 0 DC {vbn2}
+
+.ac dec 10 1 10G
+
+.control
+run
+set units=degrees
+set wr_vecnames
+option numdgt=7
+wrdata {{design_path}}/ac.csv v(Vout)
+op
+wrdata {{design_path}}/dc.csv i(vdd)
+.endc
+
+.end
diff --git a/eval_engines/ngspice/ngspice_inputs/netlist/ledro_d_fc.cir b/eval_engines/ngspice/ngspice_inputs/netlist/ledro_d_fc.cir
new file mode 100644
index 0000000..3d10624
--- /dev/null
+++ b/eval_engines/ngspice/ngspice_inputs/netlist/ledro_d_fc.cir
@@ -0,0 +1,109 @@
+*fully_differential_folded_cascode.css (ledro)
+
+.include /home/pham/shared_files/ngspice/Modelcards/PTM-MG/lstp/7nfet.pm
+.include /home/pham/shared_files/ngspice/Modelcards/PTM-MG/lstp/7pfet.pm
+
+* Parameters
+.param tempc=27.0
+.param nA1={{nA1}} nB1={{nB1}}
+.param nA2={{nA2}} nB2={{nB2}}
+.param nA3={{nA3}} nB3={{nB3}}
+.param nA4={{nA4}} nB4={{nB4}}
+.param nA5={{nA5}} nB5={{nB5}}
+.param nA6={{nA6}} nB6={{nB6}}
+.param vdd=0.8 vcm=0.4 vbiasp1={{vbiasp1}} vbiasp2={{vbiasp2}}
+.param vbiasn0={{vbiasn0}} vbiasn1={{vbiasn1}} vbiasn2={{vbiasn2}}
+
+NM6 Voutp Vbiasp2 net23 vdd pfet L={nA1} NFIN={nB1}
+NM5 Voutn Vbiasp2 net24 vdd pfet L={nA1} NFIN={nB1}
+NM2 net23 Vbiasp1 vdd vdd pfet L={nA2} NFIN={nB2}
+NM1 net24 Vbiasp1 vdd vdd pfet L={nA2} NFIN={nB2}
+NM8 Voutp Vbiasn2 net27 0 nfet L={nA3} NFIN={nB3}
+NM7 Voutn Vbiasn2 net25 0 nfet L={nA3} NFIN={nB3}
+NM3 net24 Vinp net13 0 nfet L={nA4} NFIN={nB4}
+NM0 net23 Vinn net13 0 nfet L={nA4} NFIN={nB4}
+NM10 net27 Vbiasn1 0 0 nfet L={nA5} NFIN={nB5}
+NM9 net25 Vbiasn1 0 0 nfet L={nA5} NFIN={nB5}
+NM4 net13 Vbiasn0 0 0 nfet L={nA6} NFIN={nB6}
+
+* Voltage sources
+* VS gnd 0 DC 0
+V0 vdd 0 DC {vdd}
+V2 in 0 DC 0 AC 1
+E1 Vinp cm in 0 0.5
+E0 Vinn cm in 0 -0.5
+V1 cm 0 DC {vcm}
+VP1 Vbiasp1 0 DC {vbiasp1}
+VP2 Vbiasp2 0 DC {vbiasp2}
+VN Vbiasn0 0 DC {vbiasn0}
+VN1 Vbiasn1 0 DC {vbiasn1}
+VN2 Vbiasn2 0 DC {vbiasn2}
+
+
+.control
+op
+pre_osdi /home/pham/shared_files/ngspice/osdilibs/bsimcmg.osdi
+set xbrushwidth=3
+set filetype=ascii
+run
+
+let vgs_nm0 = v(Vinn) - v(net13)
+let vds_nm0 = v(net23) - v(net13)
+
+let vgs_nm1 = v(Vbiasp1) - v(vdd)
+let vds_nm1 = v(net24) - v(vdd)
+
+let vgs_nm2 = v(Vbiasp1) - v(vdd)
+let vds_nm2 = v(net23) - v(vdd)
+
+let vgs_nm3 = v(Vinp) - v(net13)
+let vds_nm3 = v(net24) - v(net13)
+
+let vgs_nm4 = v(Vbiasn0) 
+let vds_nm4 = v(net13) 
+
+let vgs_nm5 = v(Vbiasp2) - v(net24)
+let vds_nm5 = v(Voutn) - v(net24)
+
+let vgs_nm6 = v(Vbiasp2) - v(net23)
+let vds_nm6 = v(Voutp) - v(net23)
+
+let vgs_nm7 = v(Vbiasn2) - v(net25)
+let vds_nm7 = v(Voutn) - v(net25)
+
+let vgs_nm8 = v(Vbiasn2) - v(net27)
+let vds_nm8 = v(Voutp) - v(net27)
+
+let vgs_nm9 = v(Vbiasn1)
+let vds_nm9 = v(net25)
+
+let vgs_nm10 = v(Vbiasn1) 
+let vds_nm10 = v(net27) 
+
+write output.log I(V0) @nm0[gm] @nm0[ids] @nm0[vth] vgs_nm0 vds_nm0
++ @nm1[gm] @nm1[ids] @nm1[vth] vgs_nm1 vds_nm1
++ @nm2[gm] @nm2[ids] @nm2[vth] vgs_nm2 vds_nm2 
++ @nm3[gm] @nm3[ids] @nm3[vth] vgs_nm3 vds_nm3
++ @nm4[gm] @nm4[ids] @nm4[vth] vgs_nm4 vds_nm4
++ @nm5[gm] @nm5[ids] @nm5[vth] vgs_nm5 vds_nm5 
++ @nm6[gm] @nm6[ids] @nm6[vth] vgs_nm6 vds_nm6
++ @nm7[gm] @nm7[ids] @nm7[vth] vgs_nm7 vds_nm7
++ @nm8[gm] @nm8[ids] @nm8[vth] vgs_nm8 vds_nm8
++ @nm9[gm] @nm9[ids] @nm9[vth] vgs_nm9 vds_nm9
++ @nm10[gm] @nm10[ids] @nm10[vth] vgs_nm10 vds_nm10
+
+
+ac dec 10 1 100G
+run
+set units=degrees
+set wr_vecnames
+option numdgt=7
+wrdata {{design_path}}/ac.csv v(Voutp)-v(Voutn)
+
+
+op
+wrdata {{design_path}}/dc.csv i(V0)
+quit
+.endc
+
+.end
\ No newline at end of file
diff --git a/eval_engines/ngspice/ngspice_inputs/netlist/ledro_d_fc45.cir b/eval_engines/ngspice/ngspice_inputs/netlist/ledro_d_fc45.cir
new file mode 100644
index 0000000..223175a
--- /dev/null
+++ b/eval_engines/ngspice/ngspice_inputs/netlist/ledro_d_fc45.cir
@@ -0,0 +1,107 @@
+*fully_differential_folded_cascode.css (ledro)
+
+.include "/home/pham/code/analog-ml/AutoCkt/eval_engines/ngspice/ngspice_inputs/spice_models/45nm_bulk.txt"
+
+* Parameters
+.param tempc=27.0
+.param wp1={{wp1}}u lp1={{lp1}}n mp1={{mp1}}
+.param wp2={{wp2}}u lp2={{lp2}}n mp2={{mp2}}
+.param wp3={{wp3}}u lp3={{lp3}}n mp3={{mp3}}
+.param wp4={{wp4}}u lp4={{lp4}}n mp4={{mp4}}
+.param wp5={{wp5}}u lp5={{lp5}}n mp5={{mp5}}
+.param wp6={{wp6}}u lp6={{lp6}}n mp6={{mp6}}
+.param vdd=1.2 vcm=0.6 vbiasp1={{vbiasp1}} vbiasp2={{vbiasp2}}
+.param vbiasn0={{vbiasn0}} vbiasn1={{vbiasn1}} vbiasn2={{vbiasn2}}
+
+M6 Voutp Vbiasp2 net23 vdd pmos W={wp1} L={lp1} m={mp1} 
+M5 Voutn Vbiasp2 net24 vdd pmos W={wp1} L={lp1} m={mp1} 
+M2 net23 Vbiasp1 vdd vdd pmos W={wp2} L={lp2} m={mp2} 
+M1 net24 Vbiasp1 vdd vdd pmos W={wp2} L={lp2} m={mp2} 
+M8 Voutp Vbiasn2 net27 0 nmos W={wp3} L={lp3} m={mp3} 
+M7 Voutn Vbiasn2 net25 0 nmos W={wp3} L={lp3} m={mp3} 
+M3 net24 Vinp net13 0 nmos W={wp4} L={lp4} m={mp4} 
+M0 net23 Vinn net13 0 nmos W={wp4} L={lp4} m={mp4} 
+M10 net27 Vbiasn1 0 0 nmos W={wp5} L={lp5} m={mp5} 
+M9 net25 Vbiasn1 0 0 nmos W={wp5} L={lp5} m={mp5} 
+M4 net13 Vbiasn0 0 0 nmos W={wp6} L={lp6} m={mp6} 
+
+* Voltage sources
+* VS gnd 0 DC 0
+V0 vdd 0 DC {vdd}
+V2 in 0 DC 0 AC 1
+E1 Vinp cm in 0 0.5
+E0 Vinn cm in 0 -0.5
+V1 cm 0 DC {vcm}
+VP1 Vbiasp1 0 DC {vbiasp1}
+VP2 Vbiasp2 0 DC {vbiasp2}
+VN Vbiasn0 0 DC {vbiasn0}
+VN1 Vbiasn1 0 DC {vbiasn1}
+VN2 Vbiasn2 0 DC {vbiasn2}
+
+
+.control
+op
+set xbrushwidth=3
+set filetype=ascii
+run
+
+let vgs_nm0 = v(Vinn) - v(net13)
+let vds_nm0 = v(net23) - v(net13)
+
+let vgs_nm1 = v(Vbiasp1) - v(vdd)
+let vds_nm1 = v(net24) - v(vdd)
+
+let vgs_nm2 = v(Vbiasp1) - v(vdd)
+let vds_nm2 = v(net23) - v(vdd)
+
+let vgs_nm3 = v(Vinp) - v(net13)
+let vds_nm3 = v(net24) - v(net13)
+
+let vgs_nm4 = v(Vbiasn0) 
+let vds_nm4 = v(net13) 
+
+let vgs_nm5 = v(Vbiasp2) - v(net24)
+let vds_nm5 = v(Voutn) - v(net24)
+
+let vgs_nm6 = v(Vbiasp2) - v(net23)
+let vds_nm6 = v(Voutp) - v(net23)
+
+let vgs_nm7 = v(Vbiasn2) - v(net25)
+let vds_nm7 = v(Voutn) - v(net25)
+
+let vgs_nm8 = v(Vbiasn2) - v(net27)
+let vds_nm8 = v(Voutp) - v(net27)
+
+let vgs_nm9 = v(Vbiasn1)
+let vds_nm9 = v(net25)
+
+let vgs_nm10 = v(Vbiasn1) 
+let vds_nm10 = v(net27) 
+
+write output.log I(V0) @m0[gm] @m0[ids] @m0[vth] vgs_nm0 vds_nm0
++ @m1[gm] @m1[ids] @m1[vth] vgs_nm1 vds_nm1
++ @m2[gm] @m2[ids] @m2[vth] vgs_nm2 vds_nm2 
++ @m3[gm] @m3[ids] @m3[vth] vgs_nm3 vds_nm3
++ @m4[gm] @m4[ids] @m4[vth] vgs_nm4 vds_nm4
++ @m5[gm] @m5[ids] @m5[vth] vgs_nm5 vds_nm5 
++ @m6[gm] @m6[ids] @m6[vth] vgs_nm6 vds_nm6
++ @m7[gm] @m7[ids] @m7[vth] vgs_nm7 vds_nm7
++ @m8[gm] @m8[ids] @m8[vth] vgs_nm8 vds_nm8
++ @m9[gm] @m9[ids] @m9[vth] vgs_nm9 vds_nm9
++ @m10[gm] @m10[ids] @m10[vth] vgs_nm10 vds_nm10
+
+
+ac dec 10 1 100G
+run
+set units=degrees
+set wr_vecnames
+option numdgt=7
+wrdata {{design_path}}/ac.csv v(Voutp)-v(Voutn)
+
+
+op
+wrdata {{design_path}}/dc.csv i(V0)
+quit
+.endc
+
+.end
\ No newline at end of file
diff --git a/eval_engines/ngspice/ngspice_inputs/spice_models/65nm_bulk.txt b/eval_engines/ngspice/ngspice_inputs/spice_models/65nm_bulk.txt
new file mode 100644
index 0000000..2a0b128
--- /dev/null
+++ b/eval_engines/ngspice/ngspice_inputs/spice_models/65nm_bulk.txt
@@ -0,0 +1,143 @@
+* Beta Version released on 2/22/06
+
+* PTM 65nm NMOS 
+ 
+.model  nmos  nmos  level = 54
+
++version = 4.0          binunit = 1            paramchk= 1            mobmod  = 0          
++capmod  = 2            igcmod  = 1            igbmod  = 1            geomod  = 1          
++diomod  = 1            rdsmod  = 0            rbodymod= 1            rgatemod= 1          
++permod  = 1            acnqsmod= 0            trnqsmod= 0          
+
++tnom    = 27           toxe    = 1.85e-9      toxp    = 1.2e-9       toxm    = 1.85e-9   
++dtox    = 0.65e-9      epsrox  = 3.9          wint    = 5e-009       lint    = 5.25e-009   
++ll      = 0            wl      = 0            lln     = 1            wln     = 1          
++lw      = 0            ww      = 0            lwn     = 1            wwn     = 1          
++lwl     = 0            wwl     = 0            xpart   = 0            toxref  = 1.85e-9   
++xl      = -30e-9
++vth0    = 0.423        k1      = 0.4          k2      = 0.01         k3      = 0          
++k3b     = 0            w0      = 2.5e-006     dvt0    = 1            dvt1    = 2       
++dvt2    = -0.032       dvt0w   = 0            dvt1w   = 0            dvt2w   = 0          
++dsub    = 0.1          minv    = 0.05         voffl   = 0            dvtp0   = 1.0e-009     
++dvtp1   = 0.1          lpe0    = 0            lpeb    = 0            xj      = 1.96e-008   
++ngate   = 2e+020       ndep    = 2.54e+018    nsd     = 2e+020       phin    = 0          
++cdsc    = 0.000        cdscb   = 0            cdscd   = 0            cit     = 0          
++voff    = -0.13        nfactor = 1.9          eta0    = 0.0058       etab    = 0          
++vfb     = -0.55        u0      = 0.0491       ua      = 6e-010       ub      = 1.2e-018     
++uc      = 0            vsat    = 124340       a0      = 1.0          ags     = 1e-020     
++a1      = 0            a2      = 1.0          b0      = 0            b1      = 0          
++keta    = 0.04         dwg     = 0            dwb     = 0            pclm    = 0.04       
++pdiblc1 = 0.001        pdiblc2 = 0.001        pdiblcb = -0.005       drout   = 0.5        
++pvag    = 1e-020       delta   = 0.01         pscbe1  = 8.14e+008    pscbe2  = 1e-007     
++fprout  = 0.2          pdits   = 0.08         pditsd  = 0.23         pditsl  = 2.3e+006   
++rsh     = 5            rdsw    = 165          rsw     = 85           rdw     = 85        
++rdswmin = 0            rdwmin  = 0            rswmin  = 0            prwg    = 0          
++prwb    = 6.8e-011     wr      = 1            alpha0  = 0.074        alpha1  = 0.005      
++beta0   = 30           agidl   = 0.0002       bgidl   = 2.1e+009     cgidl   = 0.0002     
++egidl   = 0.8          
+
++aigbacc = 0.012        bigbacc = 0.0028       cigbacc = 0.002     
++nigbacc = 1            aigbinv = 0.014        bigbinv = 0.004        cigbinv = 0.004      
++eigbinv = 1.1          nigbinv = 3            aigc    = 0.012        bigc    = 0.0028     
++cigc    = 0.002        aigsd   = 0.012        bigsd   = 0.0028       cigsd   = 0.002     
++nigc    = 1            poxedge = 1            pigcd   = 1            ntox    = 1          
+
++xrcrg1  = 12           xrcrg2  = 5          
++cgso    = 1.5e-010     cgdo    = 1.5e-010     cgbo    = 2.56e-011    cgdl    = 2.653e-10     
++cgsl    = 2.653e-10    ckappas = 0.03         ckappad = 0.03         acde    = 1          
++moin    = 15           noff    = 0.9          voffcv  = 0.02       
+
++kt1     = -0.11        kt1l    = 0            kt2     = 0.022        ute     = -1.5       
++ua1     = 4.31e-009    ub1     = 7.61e-018    uc1     = -5.6e-011    prt     = 0          
++at      = 33000      
+
++fnoimod = 1            tnoimod = 0          
+
++jss     = 0.0001       jsws    = 1e-011       jswgs   = 1e-010       njs     = 1          
++ijthsfwd= 0.01         ijthsrev= 0.001        bvs     = 10           xjbvs   = 1          
++jsd     = 0.0001       jswd    = 1e-011       jswgd   = 1e-010       njd     = 1          
++ijthdfwd= 0.01         ijthdrev= 0.001        bvd     = 10           xjbvd   = 1          
++pbs     = 1            cjs     = 0.0005       mjs     = 0.5          pbsws   = 1          
++cjsws   = 5e-010       mjsws   = 0.33         pbswgs  = 1            cjswgs  = 3e-010     
++mjswgs  = 0.33         pbd     = 1            cjd     = 0.0005       mjd     = 0.5        
++pbswd   = 1            cjswd   = 5e-010       mjswd   = 0.33         pbswgd  = 1          
++cjswgd  = 5e-010       mjswgd  = 0.33         tpb     = 0.005        tcj     = 0.001      
++tpbsw   = 0.005        tcjsw   = 0.001        tpbswg  = 0.005        tcjswg  = 0.001      
++xtis    = 3            xtid    = 3          
+
++dmcg    = 0e-006       dmci    = 0e-006       dmdg    = 0e-006       dmcgt   = 0e-007     
++dwj     = 0.0e-008     xgw     = 0e-007       xgl     = 0e-008     
+
++rshg    = 0.4          gbmin   = 1e-010       rbpb    = 5            rbpd    = 15         
++rbps    = 15           rbdb    = 15           rbsb    = 15           ngcon   = 1          
+
+* PTM 65nm PMOS
+ 
+.model  pmos  pmos  level = 54
+
++version = 4.0          binunit = 1            paramchk= 1            mobmod  = 0          
++capmod  = 2            igcmod  = 1            igbmod  = 1            geomod  = 1          
++diomod  = 1            rdsmod  = 0            rbodymod= 1            rgatemod= 1          
++permod  = 1            acnqsmod= 0            trnqsmod= 0          
+
++tnom    = 27           toxe    = 1.95e-009    toxp    = 1.2e-009     toxm    = 1.95e-009   
++dtox    = 0.75e-9      epsrox  = 3.9          wint    = 5e-009       lint    = 5.25e-009   
++ll      = 0            wl      = 0            lln     = 1            wln     = 1          
++lw      = 0            ww      = 0            lwn     = 1            wwn     = 1          
++lwl     = 0            wwl     = 0            xpart   = 0            toxref  = 1.95e-009   
++xl      = -30e-9
++vth0    = -0.365       k1      = 0.4          k2      = -0.01        k3      = 0          
++k3b     = 0            w0      = 2.5e-006     dvt0    = 1            dvt1    = 2       
++dvt2    = -0.032       dvt0w   = 0            dvt1w   = 0            dvt2w   = 0          
++dsub    = 0.1          minv    = 0.05         voffl   = 0            dvtp0   = 1e-009     
++dvtp1   = 0.05         lpe0    = 0            lpeb    = 0            xj      = 1.96e-008   
++ngate   = 2e+020       ndep    = 1.87e+018    nsd     = 2e+020       phin    = 0          
++cdsc    = 0.000        cdscb   = 0            cdscd   = 0            cit     = 0          
++voff    = -0.126       nfactor = 1.9          eta0    = 0.0058       etab    = 0          
++vfb     = 0.55         u0      = 0.00574      ua      = 2.0e-009     ub      = 0.5e-018     
++uc      = 0            vsat    = 70000        a0      = 1.0          ags     = 1e-020     
++a1      = 0            a2      = 1            b0      = -1e-020      b1      = 0          
++keta    = -0.047       dwg     = 0            dwb     = 0            pclm    = 0.12       
++pdiblc1 = 0.001        pdiblc2 = 0.001        pdiblcb = 3.4e-008     drout   = 0.56       
++pvag    = 1e-020       delta   = 0.01         pscbe1  = 8.14e+008    pscbe2  = 9.58e-007  
++fprout  = 0.2          pdits   = 0.08         pditsd  = 0.23         pditsl  = 2.3e+006   
++rsh     = 5            rdsw    = 165          rsw     = 85           rdw     = 85        
++rdswmin = 0            rdwmin  = 0            rswmin  = 0            prwg    = 3.22e-008  
++prwb    = 6.8e-011     wr      = 1            alpha0  = 0.074        alpha1  = 0.005      
++beta0   = 30           agidl   = 0.0002       bgidl   = 2.1e+009     cgidl   = 0.0002     
++egidl   = 0.8          
+
++aigbacc = 0.012        bigbacc = 0.0028       cigbacc = 0.002     
++nigbacc = 1            aigbinv = 0.014        bigbinv = 0.004        cigbinv = 0.004      
++eigbinv = 1.1          nigbinv = 3            aigc    = 0.69         bigc    = 0.0012     
++cigc    = 0.0008       aigsd   = 0.0087       bigsd   = 0.0012       cigsd   = 0.0008     
++nigc    = 1            poxedge = 1            pigcd   = 1            ntox    = 1 
+         
++xrcrg1  = 12           xrcrg2  = 5          
++cgso    = 1.5e-010     cgdo    = 1.5e-010     cgbo    = 2.56e-011    cgdl    = 2.653e-10
++cgsl    = 2.653e-10    ckappas = 0.03         ckappad = 0.03         acde    = 1
++moin    = 15           noff    = 0.9          voffcv  = 0.02
+
++kt1     = -0.11        kt1l    = 0            kt2     = 0.022        ute     = -1.5       
++ua1     = 4.31e-009    ub1     = 7.61e-018    uc1     = -5.6e-011    prt     = 0          
++at      = 33000      
+
++fnoimod = 1            tnoimod = 0          
+
++jss     = 0.0001       jsws    = 1e-011       jswgs   = 1e-010       njs     = 1          
++ijthsfwd= 0.01         ijthsrev= 0.001        bvs     = 10           xjbvs   = 1          
++jsd     = 0.0001       jswd    = 1e-011       jswgd   = 1e-010       njd     = 1          
++ijthdfwd= 0.01         ijthdrev= 0.001        bvd     = 10           xjbvd   = 1          
++pbs     = 1            cjs     = 0.0005       mjs     = 0.5          pbsws   = 1          
++cjsws   = 5e-010       mjsws   = 0.33         pbswgs  = 1            cjswgs  = 3e-010     
++mjswgs  = 0.33         pbd     = 1            cjd     = 0.0005       mjd     = 0.5        
++pbswd   = 1            cjswd   = 5e-010       mjswd   = 0.33         pbswgd  = 1          
++cjswgd  = 5e-010       mjswgd  = 0.33         tpb     = 0.005        tcj     = 0.001      
++tpbsw   = 0.005        tcjsw   = 0.001        tpbswg  = 0.005        tcjswg  = 0.001      
++xtis    = 3            xtid    = 3          
+
++dmcg    = 0e-006       dmci    = 0e-006       dmdg    = 0e-006       dmcgt   = 0e-007     
++dwj     = 0.0e-008     xgw     = 0e-007       xgl     = 0e-008     
+
++rshg    = 0.4          gbmin   = 1e-010       rbpb    = 5            rbpd    = 15         
++rbps    = 15           rbdb    = 15           rbsb    = 15           ngcon   = 1          
diff --git a/eval_engines/ngspice/ngspice_inputs/yaml_files/ledro_d_fc.yaml b/eval_engines/ngspice/ngspice_inputs/yaml_files/ledro_d_fc.yaml
new file mode 100644
index 0000000..e88236f
--- /dev/null
+++ b/eval_engines/ngspice/ngspice_inputs/yaml_files/ledro_d_fc.yaml
@@ -0,0 +1,33 @@
+database_dir: "Autockt/checkpoint/db/ledro_d_fc_ngspice"
+dsn_netlist: "eval_engines/ngspice/ngspice_inputs/netlist/ledro_d_fc.cir"
+num_process: 1
+
+params:
+  nB1:  !!python/tuple [1, 7, 7]
+  nB2:  !!python/tuple [1, 7, 7]
+  nB3:  !!python/tuple [1, 7, 7]
+  nB4:  !!python/tuple [1, 7, 7]
+  nB5:  !!python/tuple [1, 7, 7]
+  nB6:  !!python/tuple [1, 7, 7]
+  nA1:  !!python/tuple [!!float 10, !!float 990, 400]
+  nA2:  !!python/tuple [!!float 10, !!float 990, 400]
+  nA3:  !!python/tuple [!!float 10, !!float 990, 400]
+  nA4:  !!python/tuple [!!float 10, !!float 990, 400]
+  nA5:  !!python/tuple [!!float 10, !!float 990, 400]
+  nA6:  !!python/tuple [!!float 10, !!float 990, 400]
+  vbiasp1: !!python/tuple [!!float 1.0, !!float 8.0, 20]
+  vbiasp2: !!python/tuple [!!float 1.0, !!float 8.0, 20]
+  vbiasn0: !!python/tuple [!!float 1.0, !!float 8.0, 20]
+  vbiasn1: !!python/tuple [!!float 1.0, !!float 8.0, 20]
+  vbiasn2: !!python/tuple [!!float 1.0, !!float 8.0, 20]
+
+
+#Every specification output will be normlaized in the order of (gain, ibias, pm, ugbw)
+normalize: !!python/tuple [3300, !!float 10e-6, 70, !!float 20.0e+6]
+
+#during training, at reset a specification will be chosen at random between [min,max,#]
+target_specs:
+  gain_min: !!python/tuple [1,3300]
+  ugbw_min: !!python/tuple [!!float 1.0e+6, !!float 20.0e+6]
+  phm_min: !!python/tuple [70,70.0000001]
+  ibias_max: !!python/tuple [1e-6, 10e-6]
diff --git a/eval_engines/ngspice/ngspice_inputs/yaml_files/ledro_d_fc45.yaml b/eval_engines/ngspice/ngspice_inputs/yaml_files/ledro_d_fc45.yaml
new file mode 100644
index 0000000..4db441c
--- /dev/null
+++ b/eval_engines/ngspice/ngspice_inputs/yaml_files/ledro_d_fc45.yaml
@@ -0,0 +1,40 @@
+database_dir: "Autockt/checkpoint/db/ledro_d_fc_ngspice"
+dsn_netlist: "eval_engines/ngspice/ngspice_inputs/netlist/ledro_d_fc45.cir"
+num_process: 1
+
+params:
+  mp1:  !!python/tuple [1, 100, 100]
+  mp2:  !!python/tuple [1, 100, 100]
+  mp3:  !!python/tuple [1, 100, 100]
+  mp4:  !!python/tuple [1, 100, 100]
+  mp5:  !!python/tuple [1, 100, 100]
+  mp6:  !!python/tuple [1, 100, 100]
+  wp1:  !!python/tuple [0.12, 200, 100]
+  wp2:  !!python/tuple [0.12, 200, 100]
+  wp3:  !!python/tuple [0.12, 200, 100]
+  wp4:  !!python/tuple [0.12, 200, 100]
+  wp5:  !!python/tuple [0.12, 200, 100]
+  wp6:  !!python/tuple [0.12, 200, 100]
+  lp1:  !!python/tuple [90, 2000, 100]
+  lp2:  !!python/tuple [90, 2000, 100]
+  lp3:  !!python/tuple [90, 2000, 100]
+  lp4:  !!python/tuple [90, 2000, 100]
+  lp5:  !!python/tuple [90, 2000, 100]
+  lp6:  !!python/tuple [90, 2000, 100]
+  vbiasp1: !!python/tuple [!!float 0, !!float 12, 20]
+  vbiasp2: !!python/tuple [!!float 0, !!float 12, 20]
+  vbiasn0: !!python/tuple [!!float 0, !!float 12, 20]
+  vbiasn1: !!python/tuple [!!float 0, !!float 12, 20]
+  vbiasn2: !!python/tuple [!!float 0, !!float 12, 20]
+  cl:  !!python/tuple [1, 50, 100]
+  cc:  !!python/tuple [1, 50, 100]
+  
+#Every specification output will be normlaized in the order of (gain, ibias, pm, ugbw)
+normalize: !!python/tuple [3300, !!float 10e-6, 70, !!float 20.0e+6]
+
+#during training, at reset a specification will be chosen at random between [min,max,#]
+target_specs:
+  gain_min: !!python/tuple [1,3300]
+  ugbw_min: !!python/tuple [!!float 1.0e+6, !!float 20.0e+6]
+  phm_min: !!python/tuple [70,70.0000001]
+  ibias_max: !!python/tuple [1e-6, 10e-6]
diff --git a/eval_engines/ngspice/ngspice_inputs/yaml_files/zhenxin_s_fc.yaml b/eval_engines/ngspice/ngspice_inputs/yaml_files/zhenxin_s_fc.yaml
new file mode 100644
index 0000000..00013cb
--- /dev/null
+++ b/eval_engines/ngspice/ngspice_inputs/yaml_files/zhenxin_s_fc.yaml
@@ -0,0 +1,26 @@
+database_dir: "Autockt/checkpoint/db/Zhenxin_S_FC_ngspice"
+dsn_netlist: "eval_engines/ngspice/ngspice_inputs/netlist/Zhenxin_S_FC.cir"
+num_process: 1
+
+params:
+  w_m12:  !!python/tuple [1, 100, 100]
+  w_m3:  !!python/tuple [1, 100, 100]
+  w_m45:  !!python/tuple [1, 100, 100]
+  w_m67:  !!python/tuple [1, 100, 100]
+  w_m89:  !!python/tuple [1, 100, 100]
+  w_m1011:  !!python/tuple [1, 100, 100]
+  vbp1: !!python/tuple [!!float 0, !!float 12, 20]
+  vbp2: !!python/tuple [!!float 0, !!float 12, 20]
+  vbn1: !!python/tuple [!!float 0, !!float 12, 20]
+  vbn2: !!python/tuple [!!float 0, !!float 12, 20]
+  cc:  !!python/tuple [1, 50, 100]
+  
+#Every specification output will be normlaized in the order of (gain, ibias, pm, ugbw)
+normalize: !!python/tuple [900, !!float 10e-3, 60, !!float 5.0e+6]
+
+#during training, at reset a specification will be chosen at random between [min,max,#]
+target_specs:
+  gain_min: !!python/tuple [800,1000]
+  ugbw_min: !!python/tuple [!!float 1.0e+6, !!float 5.0e+6]
+  phm_min: !!python/tuple [60,60.0000001]
+  ibias_max: !!python/tuple [1e-3, 10e-3]
diff --git a/eval_engines/ngspice/ngspice_wrapper.py b/eval_engines/ngspice/ngspice_wrapper.py
index 8fc081a..f9a852a 100644
--- a/eval_engines/ngspice/ngspice_wrapper.py
+++ b/eval_engines/ngspice/ngspice_wrapper.py
@@ -11,8 +11,13 @@
 import pprint
 import yaml
 import IPython
+from jinja2 import Template
+import shutil
+import datetime
+
 debug = False
 
+
 class NgSpiceWrapper(object):
 
     BASE_TMP_DIR = os.path.abspath("/tmp/ckt_da")
@@ -23,11 +28,19 @@ def __init__(self, num_process, yaml_path, path, root_dir=None):
         else:
             self.root_dir = root_dir
 
-        with open(yaml_path, 'r') as f:
+        with open(yaml_path, "r") as f:
             yaml_data = yaml.load(f)
-        design_netlist = yaml_data['dsn_netlist']
-        design_netlist = path+'/'+design_netlist
- 
+        design_netlist = yaml_data["dsn_netlist"]
+        design_netlist = path + "/" + design_netlist
+        if not os.path.isfile(design_netlist):
+            raise FileNotFoundError(
+                "Design netlist file does not exist: %s" % design_netlist
+            )
+        self.design_netlist = design_netlist
+        with open(design_netlist, "r") as f:
+            self.netlist_str = f.read()
+            self.design_template = Template(self.netlist_str)
+
         _, dsg_netlist_fname = os.path.split(design_netlist)
         self.base_design_name = os.path.splitext(dsg_netlist_fname)[0]
         self.num_process = num_process
@@ -36,26 +49,31 @@ def __init__(self, num_process, yaml_path, path, root_dir=None):
         os.makedirs(self.root_dir, exist_ok=True)
         os.makedirs(self.gen_dir, exist_ok=True)
 
-        raw_file = open(design_netlist, 'r')
+        raw_file = open(design_netlist, "r")
         self.tmp_lines = raw_file.readlines()
         raw_file.close()
 
     def get_design_name(self, state):
         fname = self.base_design_name
+        # fname += str(datetime.datetime.now().timestamp())
         for value in state.values():
-            fname += "_" + str(value)
+            # fname += "_" + str(value)
+            fname += "_" + str(round(value, 3))
+
         return fname
 
     def create_design(self, state, new_fname):
-        design_folder = os.path.join(self.gen_dir, new_fname)+str(random.randint(0,10000))
+        design_folder = os.path.join(self.gen_dir, new_fname) + str(
+            random.randint(0, 10000)
+        )
         os.makedirs(design_folder, exist_ok=True)
 
-        fpath = os.path.join(design_folder, new_fname + '.cir')
+        fpath = os.path.join(design_folder, new_fname + ".cir")
 
         lines = copy.deepcopy(self.tmp_lines)
         for line_num, line in enumerate(lines):
-            if '.include' in line:
-                regex = re.compile("\.include\s*\"(.*?)\"")
+            if ".include" in line:
+                regex = re.compile('\.include\s*"(.*?)"')
                 found = regex.search(line)
                 if found:
                     # current_fpath = os.path.realpath(__file__)
@@ -63,44 +81,47 @@ def create_design(self, state, new_fname):
                     # parent_path = os.path.abspath(os.path.join(parent_path, os.pardir))
                     # path_to_model = os.path.join(parent_path, 'spice_models/45nm_bulk.txt')
                     # lines[line_num] = lines[line_num].replace(found.group(1), path_to_model)
-                    pass # do not change the model path
-            if '.param' in line:
+                    pass  # do not change the model path
+            if ".param" in line:
                 for key, value in state.items():
                     regex = re.compile("%s=(\S+)" % (key))
                     found = regex.search(line)
                     if found:
                         new_replacement = "%s=%s" % (key, str(value))
-                        lines[line_num] = lines[line_num].replace(found.group(0), new_replacement)
-            if 'wrdata' in line:
+                        lines[line_num] = lines[line_num].replace(
+                            found.group(0), new_replacement
+                        )
+            if "wrdata" in line:
                 regex = re.compile("wrdata\s*(\w+\.\w+)\s*")
                 found = regex.search(line)
                 if found:
                     replacement = os.path.join(design_folder, found.group(1))
-                    lines[line_num] = lines[line_num].replace(found.group(1), replacement)
+                    lines[line_num] = lines[line_num].replace(
+                        found.group(1), replacement
+                    )
 
-        with open(fpath, 'w') as f:
+        with open(fpath, "w") as f:
             f.writelines(lines)
             f.close()
         return design_folder, fpath
 
     def simulate(self, fpath):
-        info = 0 # this means no error occurred
-        command = "ngspice -b %s >/dev/null 2>&1" %fpath
+        info = 0  # this means no error occurred
+        command = "ngspice -b %s >/dev/null 2>&1" % fpath
         exit_code = os.system(command)
         if debug:
             print(command)
             print(fpath)
 
-        if (exit_code % 256):
-           # raise RuntimeError('program {} failed!'.format(command))
-            info = 1 # this means an error has occurred
+        if exit_code % 256:
+            # raise RuntimeError('program {} failed!'.format(command))
+            info = 1  # this means an error has occurred
         return info
 
-
     def create_design_and_simulate(self, state, dsn_name=None, verbose=False):
         if debug:
-            print('state', state)
-            print('verbose', verbose)
+            print("state", state)
+            print("verbose", verbose)
         if dsn_name == None:
             dsn_name = self.get_design_name(state)
         else:
@@ -110,9 +131,9 @@ def create_design_and_simulate(self, state, dsn_name=None, verbose=False):
         design_folder, fpath = self.create_design(state, dsn_name)
         info = self.simulate(fpath)
         specs = self.translate_result(design_folder)
+        shutil.rmtree(design_folder)  # clean up
         return state, specs, info
 
-
     def run(self, states, design_names=None, verbose=False):
         """
 
@@ -123,7 +144,10 @@ def run(self, states, design_names=None, verbose=False):
             results = [(state: dict(param_kwds, param_value), specs: dict(spec_kwds, spec_value), info: int)]
         """
         pool = ThreadPool(processes=self.num_process)
-        arg_list = [(state, dsn_name, verbose) for (state, dsn_name)in zip(states, design_names)]
+        arg_list = [
+            (state, dsn_name, verbose)
+            for (state, dsn_name) in zip(states, design_names)
+        ]
         specs = pool.starmap(self.create_design_and_simulate, arg_list)
         pool.close()
         return specs
diff --git a/examples/LEDRO_D_FC/convert.py b/examples/LEDRO_D_FC/convert.py
new file mode 100644
index 0000000..9357593
--- /dev/null
+++ b/examples/LEDRO_D_FC/convert.py
@@ -0,0 +1,38 @@
+from jinja2 import Template
+
+# Create a simple template string
+with open("ledro_d_fc.cir") as f:
+    data = f.read()
+
+
+# Create a Template object
+template = Template(data)
+
+state = dict({
+    "nA1": 7.45e-08,
+    "nB1": 6,
+    "nA2": 1.4e-07,
+    "nB2": 2,
+    "nA3": 3.75e-08,
+    "nB3": 3,
+    "nA4": 3.04e-07,
+    "nB4": 3,
+    "nA5": 3.72e-08,
+    "nB5": 4,
+    "nA6": 1.24e-07,
+    "nB6": 2,
+    "vbiasp1": 0.659,
+    "vbiasp2": 0.408,
+    "vbiasn0": 0.0525,
+    "vbiasn1": 0.016,
+    "vbiasn2": 0.352,
+    "vcm": 0.4,
+    "vdd": 0.8,
+    "tempc": 27,
+
+    "design_path": "/tmp"
+})
+# Render the template with a variable
+output = template.render(state)
+
+print(output)
\ No newline at end of file
diff --git a/examples/LEDRO_D_FC/ledro_d_fc.cir b/examples/LEDRO_D_FC/ledro_d_fc.cir
new file mode 100644
index 0000000..3d10624
--- /dev/null
+++ b/examples/LEDRO_D_FC/ledro_d_fc.cir
@@ -0,0 +1,109 @@
+*fully_differential_folded_cascode.css (ledro)
+
+.include /home/pham/shared_files/ngspice/Modelcards/PTM-MG/lstp/7nfet.pm
+.include /home/pham/shared_files/ngspice/Modelcards/PTM-MG/lstp/7pfet.pm
+
+* Parameters
+.param tempc=27.0
+.param nA1={{nA1}} nB1={{nB1}}
+.param nA2={{nA2}} nB2={{nB2}}
+.param nA3={{nA3}} nB3={{nB3}}
+.param nA4={{nA4}} nB4={{nB4}}
+.param nA5={{nA5}} nB5={{nB5}}
+.param nA6={{nA6}} nB6={{nB6}}
+.param vdd=0.8 vcm=0.4 vbiasp1={{vbiasp1}} vbiasp2={{vbiasp2}}
+.param vbiasn0={{vbiasn0}} vbiasn1={{vbiasn1}} vbiasn2={{vbiasn2}}
+
+NM6 Voutp Vbiasp2 net23 vdd pfet L={nA1} NFIN={nB1}
+NM5 Voutn Vbiasp2 net24 vdd pfet L={nA1} NFIN={nB1}
+NM2 net23 Vbiasp1 vdd vdd pfet L={nA2} NFIN={nB2}
+NM1 net24 Vbiasp1 vdd vdd pfet L={nA2} NFIN={nB2}
+NM8 Voutp Vbiasn2 net27 0 nfet L={nA3} NFIN={nB3}
+NM7 Voutn Vbiasn2 net25 0 nfet L={nA3} NFIN={nB3}
+NM3 net24 Vinp net13 0 nfet L={nA4} NFIN={nB4}
+NM0 net23 Vinn net13 0 nfet L={nA4} NFIN={nB4}
+NM10 net27 Vbiasn1 0 0 nfet L={nA5} NFIN={nB5}
+NM9 net25 Vbiasn1 0 0 nfet L={nA5} NFIN={nB5}
+NM4 net13 Vbiasn0 0 0 nfet L={nA6} NFIN={nB6}
+
+* Voltage sources
+* VS gnd 0 DC 0
+V0 vdd 0 DC {vdd}
+V2 in 0 DC 0 AC 1
+E1 Vinp cm in 0 0.5
+E0 Vinn cm in 0 -0.5
+V1 cm 0 DC {vcm}
+VP1 Vbiasp1 0 DC {vbiasp1}
+VP2 Vbiasp2 0 DC {vbiasp2}
+VN Vbiasn0 0 DC {vbiasn0}
+VN1 Vbiasn1 0 DC {vbiasn1}
+VN2 Vbiasn2 0 DC {vbiasn2}
+
+
+.control
+op
+pre_osdi /home/pham/shared_files/ngspice/osdilibs/bsimcmg.osdi
+set xbrushwidth=3
+set filetype=ascii
+run
+
+let vgs_nm0 = v(Vinn) - v(net13)
+let vds_nm0 = v(net23) - v(net13)
+
+let vgs_nm1 = v(Vbiasp1) - v(vdd)
+let vds_nm1 = v(net24) - v(vdd)
+
+let vgs_nm2 = v(Vbiasp1) - v(vdd)
+let vds_nm2 = v(net23) - v(vdd)
+
+let vgs_nm3 = v(Vinp) - v(net13)
+let vds_nm3 = v(net24) - v(net13)
+
+let vgs_nm4 = v(Vbiasn0) 
+let vds_nm4 = v(net13) 
+
+let vgs_nm5 = v(Vbiasp2) - v(net24)
+let vds_nm5 = v(Voutn) - v(net24)
+
+let vgs_nm6 = v(Vbiasp2) - v(net23)
+let vds_nm6 = v(Voutp) - v(net23)
+
+let vgs_nm7 = v(Vbiasn2) - v(net25)
+let vds_nm7 = v(Voutn) - v(net25)
+
+let vgs_nm8 = v(Vbiasn2) - v(net27)
+let vds_nm8 = v(Voutp) - v(net27)
+
+let vgs_nm9 = v(Vbiasn1)
+let vds_nm9 = v(net25)
+
+let vgs_nm10 = v(Vbiasn1) 
+let vds_nm10 = v(net27) 
+
+write output.log I(V0) @nm0[gm] @nm0[ids] @nm0[vth] vgs_nm0 vds_nm0
++ @nm1[gm] @nm1[ids] @nm1[vth] vgs_nm1 vds_nm1
++ @nm2[gm] @nm2[ids] @nm2[vth] vgs_nm2 vds_nm2 
++ @nm3[gm] @nm3[ids] @nm3[vth] vgs_nm3 vds_nm3
++ @nm4[gm] @nm4[ids] @nm4[vth] vgs_nm4 vds_nm4
++ @nm5[gm] @nm5[ids] @nm5[vth] vgs_nm5 vds_nm5 
++ @nm6[gm] @nm6[ids] @nm6[vth] vgs_nm6 vds_nm6
++ @nm7[gm] @nm7[ids] @nm7[vth] vgs_nm7 vds_nm7
++ @nm8[gm] @nm8[ids] @nm8[vth] vgs_nm8 vds_nm8
++ @nm9[gm] @nm9[ids] @nm9[vth] vgs_nm9 vds_nm9
++ @nm10[gm] @nm10[ids] @nm10[vth] vgs_nm10 vds_nm10
+
+
+ac dec 10 1 100G
+run
+set units=degrees
+set wr_vecnames
+option numdgt=7
+wrdata {{design_path}}/ac.csv v(Voutp)-v(Voutn)
+
+
+op
+wrdata {{design_path}}/dc.csv i(V0)
+quit
+.endc
+
+.end
\ No newline at end of file
diff --git a/examples/LEDRO_D_FC_45/action_normalizer.py b/examples/LEDRO_D_FC_45/action_normalizer.py
new file mode 100644
index 0000000..3ed6bb0
--- /dev/null
+++ b/examples/LEDRO_D_FC_45/action_normalizer.py
@@ -0,0 +1,89 @@
+import numpy as np
+from gymnasium import spaces
+
+class ActionNormalizer():
+    """Rescale and relocate the actions."""
+    def __init__(self, action_space_low, action_space_high):
+         
+        self.action_space_low = action_space_low     
+        self.action_space_high = action_space_high
+
+    def action(self, action: np.ndarray) -> np.ndarray:
+        """Change the range (-1, 1) to (low, high)."""
+        low = self.action_space_low   
+        high = self.action_space_high 
+
+        scale_factor = (high - low) / 2     
+        reloc_factor = high - scale_factor  
+
+        action = action * scale_factor + reloc_factor
+        action = np.clip(action, low, high) 
+
+        return action
+
+    def reverse_action(self, action: np.ndarray) -> np.ndarray:
+        """Change the range (low, high) to (-1, 1)."""
+        low = self.action_space_low
+        high = self.action_space_high
+
+        scale_factor = (high - low) / 2
+        reloc_factor = high - scale_factor
+
+        action = (action - reloc_factor) / scale_factor  
+        action = np.clip(action, -1.0, 1.0)
+
+        return action
+    
+
+action_space = spaces.Box(low=-1, high=1, shape=(25, ), dtype=np.float64)
+# print (action_space.sample())
+
+# L: Rationale: start at ~2× technology minimum to reduce short-channel effects and improve matching.
+action_space_low = np.array(
+    [
+     0.12, 90, 1,
+     0.12, 90, 1,    
+     0.12, 90, 1,    
+     0.12, 90, 1,    
+     0.12, 90, 1,    
+     0.12, 90, 1,    
+    0.1, 
+    0.1, 
+    0.1, 
+    0.1, 
+    0.1, 
+
+1,
+1
+
+    ]
+)
+
+action_space_high = np.array(
+    [
+     200, 2000, 100,
+     200, 2000, 100,    
+     200, 2000, 100,    
+     200, 2000, 100,    
+     200, 2000, 100,    
+     200, 2000, 100,    
+    1.2, 
+    1.2, 
+    1.2, 
+    1.2, 
+    1.2, 
+
+50,
+50
+
+    ]
+)
+action = ActionNormalizer(action_space_low=action_space_low, action_space_high =  action_space_high).action(action_space.sample()) # convert [-1.1] range back to normal range
+action = action.astype(object)
+
+print ("action: ", action)
+
+for idx in [2, 2+3, 5+3, 8+3, 11+3, 14+3, -1, -2]:
+    action[idx] = int(action[idx])
+
+print ("action: ", action)
\ No newline at end of file
diff --git a/examples/LEDRO_D_FC_45/ledro_d_fc45.cir b/examples/LEDRO_D_FC_45/ledro_d_fc45.cir
new file mode 100644
index 0000000..a14b2c5
--- /dev/null
+++ b/examples/LEDRO_D_FC_45/ledro_d_fc45.cir
@@ -0,0 +1,107 @@
+*fully_differential_folded_cascode.css (ledro)
+
+.include "/home/pham/code/analog-ml/AutoCkt/eval_engines/ngspice/ngspice_inputs/spice_models/45nm_bulk.txt"
+
+* Parameters
+.param tempc=27.0
+.param wp1=0.5u lp1=90n mp1={{mp1}}
+.param wp2=0.5u lp2=90n mp2={{mp2}}
+.param wp3=0.5u lp3=90n mp3={{mp3}}
+.param wp4=0.5u lp4=90n mp4={{mp4}}
+.param wp5=0.5u lp5=90n mp5={{mp5}}
+.param wp6=0.5u lp6=90n mp6={{mp6}}
+.param vdd=1.2 vcm=0.6 vbiasp1={{vbiasp1}} vbiasp2={{vbiasp2}}
+.param vbiasn0={{vbiasn0}} vbiasn1={{vbiasn1}} vbiasn2={{vbiasn2}}
+
+M6 Voutp Vbiasp2 net23 vdd pmos W={wp1} L={lp1} m={mp1} 
+M5 Voutn Vbiasp2 net24 vdd pmos W={wp1} L={lp1} m={mp1} 
+M2 net23 Vbiasp1 vdd vdd pmos W={wp2} L={lp2} m={mp2} 
+M1 net24 Vbiasp1 vdd vdd pmos W={wp2} L={lp2} m={mp2} 
+M8 Voutp Vbiasn2 net27 0 nmos W={wp3} L={lp3} m={mp3} 
+M7 Voutn Vbiasn2 net25 0 nmos W={wp3} L={lp3} m={mp3} 
+M3 net24 Vinp net13 0 nmos W={wp4} L={lp4} m={mp4} 
+M0 net23 Vinn net13 0 nmos W={wp4} L={lp4} m={mp4} 
+M10 net27 Vbiasn1 0 0 nmos W={wp5} L={lp5} m={mp5} 
+M9 net25 Vbiasn1 0 0 nmos W={wp5} L={lp5} m={mp5} 
+M4 net13 Vbiasn0 0 0 nmos W={wp6} L={lp6} m={mp6} 
+
+* Voltage sources
+* VS gnd 0 DC 0
+V0 vdd 0 DC {vdd}
+V2 in 0 DC 0 AC 1
+E1 Vinp cm in 0 0.5
+E0 Vinn cm in 0 -0.5
+V1 cm 0 DC {vcm}
+VP1 Vbiasp1 0 DC {vbiasp1}
+VP2 Vbiasp2 0 DC {vbiasp2}
+VN Vbiasn0 0 DC {vbiasn0}
+VN1 Vbiasn1 0 DC {vbiasn1}
+VN2 Vbiasn2 0 DC {vbiasn2}
+
+
+.control
+op
+set xbrushwidth=3
+set filetype=ascii
+run
+
+let vgs_nm0 = v(Vinn) - v(net13)
+let vds_nm0 = v(net23) - v(net13)
+
+let vgs_nm1 = v(Vbiasp1) - v(vdd)
+let vds_nm1 = v(net24) - v(vdd)
+
+let vgs_nm2 = v(Vbiasp1) - v(vdd)
+let vds_nm2 = v(net23) - v(vdd)
+
+let vgs_nm3 = v(Vinp) - v(net13)
+let vds_nm3 = v(net24) - v(net13)
+
+let vgs_nm4 = v(Vbiasn0) 
+let vds_nm4 = v(net13) 
+
+let vgs_nm5 = v(Vbiasp2) - v(net24)
+let vds_nm5 = v(Voutn) - v(net24)
+
+let vgs_nm6 = v(Vbiasp2) - v(net23)
+let vds_nm6 = v(Voutp) - v(net23)
+
+let vgs_nm7 = v(Vbiasn2) - v(net25)
+let vds_nm7 = v(Voutn) - v(net25)
+
+let vgs_nm8 = v(Vbiasn2) - v(net27)
+let vds_nm8 = v(Voutp) - v(net27)
+
+let vgs_nm9 = v(Vbiasn1)
+let vds_nm9 = v(net25)
+
+let vgs_nm10 = v(Vbiasn1) 
+let vds_nm10 = v(net27) 
+
+write output.log I(V0) @m0[gm] @m0[ids] @m0[vth] vgs_nm0 vds_nm0
++ @m1[gm] @m1[ids] @m1[vth] vgs_nm1 vds_nm1
++ @m2[gm] @m2[ids] @m2[vth] vgs_nm2 vds_nm2 
++ @m3[gm] @m3[ids] @m3[vth] vgs_nm3 vds_nm3
++ @m4[gm] @m4[ids] @m4[vth] vgs_nm4 vds_nm4
++ @m5[gm] @m5[ids] @m5[vth] vgs_nm5 vds_nm5 
++ @m6[gm] @m6[ids] @m6[vth] vgs_nm6 vds_nm6
++ @m7[gm] @m7[ids] @m7[vth] vgs_nm7 vds_nm7
++ @m8[gm] @m8[ids] @m8[vth] vgs_nm8 vds_nm8
++ @m9[gm] @m9[ids] @m9[vth] vgs_nm9 vds_nm9
++ @m10[gm] @m10[ids] @m10[vth] vgs_nm10 vds_nm10
+
+
+ac dec 10 1 100G
+run
+set units=degrees
+set wr_vecnames
+option numdgt=7
+wrdata {{design_path}}/ac.csv v(Voutp)-v(Voutn)
+
+
+op
+wrdata {{design_path}}/dc.csv i(V0)
+quit
+.endc
+
+.end
\ No newline at end of file
diff --git a/examples/ex_cartpole.py b/examples/Ray/ex_cartpole.py
similarity index 100%
rename from examples/ex_cartpole.py
rename to examples/Ray/ex_cartpole.py
diff --git a/examples/Zhenxin_S_FC/Zhenxin_S_FC.cir b/examples/Zhenxin_S_FC/Zhenxin_S_FC.cir
new file mode 100644
index 0000000..8414166
--- /dev/null
+++ b/examples/Zhenxin_S_FC/Zhenxin_S_FC.cir
@@ -0,0 +1,77 @@
+*Zhenxin_S_FC
+
+.include "/home/pham/code/analog-ml/AutoCkt/eval_engines/ngspice/ngspice_inputs/spice_models/65nm_bulk.txt"
+
+* Parameters
+.param tempc=25.0
+.param wm12=28u lm12=400n mm12=1
+.param wm3=30u lm3=400n mm3=1
+.param wm45=6u lm45=600n mm45=1
+.param wm67=6u lm67=600n mm67=1
+.param wm89=5u lm89=600n mm89=1
+.param wm1011=18u lm1011=600n mm1011=1
+
+.param vbp1=0.89
+.param vbp2=0.715
+.param vbn1=0.505
+.param vbn2=0.295
+
+
+.param vdd=1.2
+.param vcm=0.6
+
+
+M3 N004 Vbp1 Vdd Vdd pmos W={wm3} L={lm3} m={mm3} 
+M4 N002 N001 Vdd Vdd pmos W={wm45} L={lm45} m={mm45}
+M5 N003 N001 Vdd Vdd pmos W={wm45} L={lm45} m={mm45}
+M7 Vout Vbp2 N003 N003 pmos W={wm67} L={lm67} m={mm67}
+M6 N001 Vbp2 N002 N002 pmos W={wm67} L={lm67} m={mm67}
+M1 N006 Vinp N004 N004 pmos W={wm12} L={lm12} m={mm12}
+M2 N005 Vinn N004 N004 pmos W={wm12} L={lm12} m={mm12}
+M8 N001 Vbn1 N006 N006 nmos W={wm89} L={lm89} m={mm89}
+M9 Vout Vbn1 N005 N005 nmos W={wm89} L={lm89} m={mm89}
+M10 N006 Vbn2 0 0 nmos W={wm1011} L={lm1011} m={mm1011}
+M11 N005 Vbn2 0 0 nmos W={wm1011} L={lm1011} m={mm1011}
+
+Ccomp N001 Vout 1p
+Cload Vout 0 1p
+
+* Voltage sources
+* VS gnd 0 DC 0
+V0 vdd 0 DC {vdd}
+V2 in 0 DC 0 AC 1
+E1 Vinp cm in 0 0.5
+E0 Vinn cm in 0 -0.5
+V1 cm 0 DC {vcm}
+VP2 Vbp1 0 DC {vbp1}
+VN Vbp2 0 DC {vbp2}
+VN1 Vbn1 0 DC {vbn1}
+VN2 Vbn2 0 DC {vbn2}
+
+
+.control
+op
+set xbrushwidth=3
+set filetype=ascii
+run
+
+
+ac dec 10 1 100G
+run
+set units=degrees
+set wr_vecnames
+option numdgt=7
+wrdata ac.csv v(Vout)
+
+
+meas ac gain_bandwidth_product_ when vdb(Vout)=0
+meas ac phase_margin find vp(Vout) when vdb(Vout)=0
+wrdata GBW_PM gain_bandwidth_product_ phase_margin 
+
+
+op
+wrdata dc.csv i(V0)
+quit
+.endc
+
+.end
\ No newline at end of file
diff --git a/examples/Zhenxin_S_FC/action_normalizer.py b/examples/Zhenxin_S_FC/action_normalizer.py
new file mode 100644
index 0000000..f087d21
--- /dev/null
+++ b/examples/Zhenxin_S_FC/action_normalizer.py
@@ -0,0 +1,113 @@
+import numpy as np
+from gymnasium import spaces
+
+
+class ActionNormalizer:
+    """Rescale and relocate the actions."""
+
+    def __init__(self, action_space_low, action_space_high):
+
+        """
+        Initialize the ActionNormalizer with per-dimension action bounds.
+        
+        Parameters:
+            action_space_low (array-like): 1-D array of per-dimension minimum action values (lower bounds).
+            action_space_high (array-like): 1-D array of per-dimension maximum action values (upper bounds).
+        
+        Both arrays must have the same shape and correspond elementwise; they are used to map actions between the canonical range (-1, 1) and the problem-specific [low, high] range.
+        """
+        self.action_space_low = action_space_low
+        self.action_space_high = action_space_high
+
+    def action(self, action: np.ndarray) -> np.ndarray:
+        """
+        Map an elementwise action from the canonical range (-1, 1) into the instance's per-dimension [low, high] bounds.
+        
+        The input `action` is expected to be an ndarray with the same shape as the normalizer's bounds. Each element x is transformed with a linear mapping:
+            y = x * ((high - low) / 2) + (high - (high - low) / 2)
+        and then clipped to the corresponding [low, high] interval.
+        
+        Parameters:
+            action (np.ndarray): Elementwise action values in (−1, 1) to be scaled.
+        
+        Returns:
+            np.ndarray: Action mapped and clipped to the per-dimension [low, high] range.
+        """
+        low = self.action_space_low
+        high = self.action_space_high
+
+        scale_factor = (high - low) / 2
+        reloc_factor = high - scale_factor
+
+        action = action * scale_factor + reloc_factor
+        action = np.clip(action, low, high)
+
+        return action
+
+    def reverse_action(self, action: np.ndarray) -> np.ndarray:
+        """
+        Map an action from the environment bounds [low, high] back into the canonical (-1, 1) range.
+        
+        Per-dimension inverse linear transform using this instance's action_space_low and action_space_high:
+        scale = (high - low) / 2 and offset = high - scale, then result = (action - offset) / scale.
+        The output is clipped elementwise to [-1.0, 1.0] and returned as an ndarray with the same shape as the input.
+        """
+        low = self.action_space_low
+        high = self.action_space_high
+
+        scale_factor = (high - low) / 2
+        reloc_factor = high - scale_factor
+
+        action = (action - reloc_factor) / scale_factor
+        action = np.clip(action, -1.0, 1.0)
+
+        return action
+
+
+action_space = spaces.Box(low=-1, high=1, shape=(24,), dtype=np.float64)
+# print (action_space.sample())
+# fmt: off
+action_space_low = np.array(
+    [
+        0.13, 0.12, 1,
+        0.13, 0.12, 1,    
+        0.13, 0.12, 1,    
+        0.13, 0.12, 1,    
+        0.13, 0.12, 1,    
+        0.13, 0.12, 1,    
+        0.1, 
+        0.1, 
+        0.1, 
+        0.1, 
+        0.1,
+        0.1
+    ]
+)
+
+action_space_high = np.array(
+    [
+        50, 2, 100,
+        50, 2, 100,    
+        50, 2, 100,    
+        50, 2, 100,    
+        50, 2, 100,    
+        50, 2, 100,    
+        1.2, 
+        1.2, 
+        1.2, 
+        1.2, 
+        50,
+        50
+    ]
+)
+# fmt: on
+
+action = ActionNormalizer(
+    action_space_low=action_space_low, action_space_high=action_space_high
+).action(action_space.sample())
+print("action: ", action)
+
+for idx in [2, 2 + 3, 5 + 3, 8 + 3, 11 + 3, 14 + 3, -1, -2]:
+    action[idx] = int(action[idx])
+print("action: ", action)
+print("action: ", ",".join([str(x) for x in action]))
diff --git a/examples/Zhenxin_S_FC/extract_perf.py b/examples/Zhenxin_S_FC/extract_perf.py
new file mode 100644
index 0000000..97a0e3a
--- /dev/null
+++ b/examples/Zhenxin_S_FC/extract_perf.py
@@ -0,0 +1,102 @@
+import numpy as np
+import os
+import scipy.interpolate as interp
+import scipy.optimize as sciopt
+
+debug = False
+
+
+
+class Extractor():
+    def __init__ (self):
+        pass
+
+    def translate_result(self, output_path):
+        """
+
+        :param output_path:
+        :return
+            result: dict(spec_kwds, spec_value)
+        """
+
+        # use parse output here
+        freq, vout, ibias = self.parse_output(output_path)
+        gain = self.find_dc_gain(vout)
+        ugbw = self.find_ugbw(freq, vout) / 1e6
+        phm = self.find_phm(freq, vout)
+
+        spec = dict(ugbw=ugbw, gain=gain, phm=phm, ibias=ibias)
+
+        return spec
+
+    def parse_output(self, output_path):
+
+        ac_fname = os.path.join(output_path, "ac.csv")
+        dc_fname = os.path.join(output_path, "dc.csv")
+
+        if not os.path.isfile(ac_fname) or not os.path.isfile(dc_fname):
+            print("ac/dc file doesn't exist: %s" % output_path)
+
+        ac_raw_outputs = np.genfromtxt(ac_fname, skip_header=1)
+        dc_raw_outputs = np.genfromtxt(dc_fname, skip_header=1)
+        freq = ac_raw_outputs[:, 0]
+        vout_real = ac_raw_outputs[:, 1]
+        vout_imag = ac_raw_outputs[:, 2]
+        vout = vout_real + 1j * vout_imag
+        ibias = -dc_raw_outputs[1]
+
+        return freq, vout, ibias
+
+    def find_dc_gain(self, vout):
+        # return np.abs(vout)[0]
+        return 20*np.log10(np.abs(vout)[0])
+    
+
+    def find_ugbw(self, freq, vout):
+        gain = np.abs(vout)
+        ugbw, valid = self._get_best_crossing(freq, gain, val=1)
+        if valid:
+            return ugbw
+        else:
+            return freq[0]
+
+    def find_phm(self, freq, vout):
+        gain = np.abs(vout)
+        phase = np.angle(vout, deg=False)
+        phase = np.unwrap(phase)  # unwrap the discontinuity
+        phase = np.rad2deg(phase)  # convert to degrees
+        #
+        # plt.subplot(211)
+        # plt.plot(np.log10(freq[:200]), 20*np.log10(gain[:200]))
+        # plt.subplot(212)
+        # plt.plot(np.log10(freq[:200]), phase)
+
+        phase_fun = interp.interp1d(freq, phase, kind="quadratic")
+        ugbw, valid = self._get_best_crossing(freq, gain, val=1)
+        print ("phase_fun(ugbw): ", phase_fun(ugbw))
+        if valid:
+            if phase_fun(ugbw) > 0:
+                return -180 + phase_fun(ugbw)
+            else:
+                return 180 + phase_fun(ugbw)
+        else:
+            return -180
+
+    def _get_best_crossing(cls, xvec, yvec, val):
+        interp_fun = interp.InterpolatedUnivariateSpline(xvec, yvec)
+
+        def fzero(x):
+            return interp_fun(x) - val
+
+        xstart, xstop = xvec[0], xvec[-1]
+        try:
+            return sciopt.brentq(fzero, xstart, xstop), True
+        except ValueError:
+            # avoid no solution
+            # if abs(fzero(xstart)) < abs(fzero(xstop)):
+            #     return xstart
+            return xstop, False
+
+if __name__ == "__main__":
+    extractor = Extractor()
+    print (extractor.translate_result("."))
\ No newline at end of file
diff --git a/examples/reward_calculation.py b/examples/reward_calculation.py
new file mode 100644
index 0000000..5fa0290
--- /dev/null
+++ b/examples/reward_calculation.py
@@ -0,0 +1,79 @@
+import numpy as np
+
+cur_specs = np.array([7.20504133e03, 8.66115710e-04, 4.56972473e01, 2.69241239e07])
+ideal_specs = np.array([8.02000000e02, 1.68455518e-03, 6.00000000e01, 1.90104525e06])
+
+cur_specs = np.array([7.20504133e03, 8.66115710e-04, 6.56972473e01, 2.69241239e07])
+ideal_specs = np.array([8.02000000e02, 1.68455518e-03, 6.00000000e01, 1.90104525e06])
+
+
+def lookup(spec, goal_spec):
+    """
+    Compute per-dimension normalized deviation between current and goal specifications.
+    
+    The function converts goal_spec to floats and returns (spec - goal_spec) / (goal_spec + spec) elementwise.
+    Positive values indicate spec > goal_spec, negative values indicate spec < goal_spec. Inputs must be numeric arrays or array-like objects with compatible shapes; the result is a NumPy array of the same shape as the elementwise broadcast of the inputs.
+    """
+    goal_spec = [float(e) for e in goal_spec]
+    norm_spec = (spec - goal_spec) / (goal_spec + spec)
+    return norm_spec
+
+
+specs_id = ["gain_min", "ibias_max", "phm_min", "ugbw_min"]
+
+
+def reward(spec, goal_spec):
+    """
+    Compute a scalar penalty (returned as a negative reward) comparing current specs to goal specs.
+    
+    Parameters:
+        spec (array-like): Current specification values (numeric sequence, same length/order as `goal_spec`).
+        goal_spec (array-like): Target specification values.
+    
+    Returns:
+        float: Negative penalty value (<= 0). Larger magnitude means a larger violation of targets.
+    
+    Details:
+    - Internally calls `lookup(spec, goal_spec)` to compute per-dimension normalized deviations: (spec - goal) / (spec + goal).
+    - Uses the module-level `specs_id` list to interpret each dimension. It expects each id to be one of: "ibias_max", "gain_min", "ugbw_min", "phm_min"; an AssertionError is raised otherwise.
+    - Penalty rules applied to each normalized deviation `rel_spec`:
+      - "ibias_max": penalize only when `rel_spec > 0` (i.e., current > goal).
+      - "gain_min": penalize undershoot (`rel_spec < 0`) with triple weight (3 * abs(rel_spec)).
+      - "phm_min" and "ugbw_min": penalize undershoot (`rel_spec < 0`) with weight 1 * abs(rel_spec).
+    - The function returns the negative of the accumulated penalty (so perfect or over-performing specs produce values closer to 0, while violations produce more negative values).
+    """
+    # rel_specs = self.lookup(spec, goal_spec)
+    # pos_val = []
+    # reward = 0.0
+    # for i, rel_spec in enumerate(rel_specs):
+    #     if self.specs_id[i] == "ibias_max":
+    #         rel_spec = rel_spec * -1.0  # /10.0
+    #     if rel_spec < 0:
+    #         reward += rel_spec
+    #         pos_val.append(0)
+    #     else:
+    #         pos_val.append(1)
+
+    # return reward if reward < -0.02 else 10
+
+    norm_specs = lookup(spec, goal_spec)
+
+    # pay attention to reward calculation, this is not quite the reward function in RL
+    # but rather a penalty value for the optimization process
+    reward = 0
+    for i, rel_spec in enumerate(norm_specs):
+        # For power,  smaller is better
+        # For gain, larger (compared to the target/goal) is better
+        # For other specs (pm, ugbw, etc.), smaller is better
+        assert specs_id[i] in ["ibias_max", "gain_min", "ugbw_min", "phm_min"]
+        if specs_id[i] == "ibias_max" and rel_spec > 0:
+            reward += np.abs(rel_spec)  # /10
+        elif specs_id[i] == "gain_min" and rel_spec < 0:
+            reward += 3 * np.abs(rel_spec)  # /10
+        elif specs_id[i] != "ibias_max" and rel_spec < 0:
+            reward += np.abs(rel_spec)
+    return -reward
+    # return -reward if -reward < -1.0 else 10
+
+
+print(reward(cur_specs, ideal_specs))
diff --git a/experiments/ledro_d_fc_7nm_run3/PPO_LEDRO_D_FC_0_2025-08-28_17-19-59h7o8x_d0/events.out.tfevents.1756394648.cda-server-3 b/experiments/ledro_d_fc_7nm_run3/PPO_LEDRO_D_FC_0_2025-08-28_17-19-59h7o8x_d0/events.out.tfevents.1756394648.cda-server-3
new file mode 100644
index 0000000..b679585
Binary files /dev/null and b/experiments/ledro_d_fc_7nm_run3/PPO_LEDRO_D_FC_0_2025-08-28_17-19-59h7o8x_d0/events.out.tfevents.1756394648.cda-server-3 differ
diff --git a/experiments/ledro_d_fc_7nm_run3/PPO_LEDRO_D_FC_0_2025-08-28_17-19-59h7o8x_d0/final_checkpoint/checkpoint-300 b/experiments/ledro_d_fc_7nm_run3/PPO_LEDRO_D_FC_0_2025-08-28_17-19-59h7o8x_d0/final_checkpoint/checkpoint-300
new file mode 100644
index 0000000..5391b31
Binary files /dev/null and b/experiments/ledro_d_fc_7nm_run3/PPO_LEDRO_D_FC_0_2025-08-28_17-19-59h7o8x_d0/final_checkpoint/checkpoint-300 differ
diff --git a/experiments/ledro_d_fc_7nm_run3/PPO_LEDRO_D_FC_0_2025-08-28_17-19-59h7o8x_d0/final_checkpoint/checkpoint-300.tune_metadata b/experiments/ledro_d_fc_7nm_run3/PPO_LEDRO_D_FC_0_2025-08-28_17-19-59h7o8x_d0/final_checkpoint/checkpoint-300.tune_metadata
new file mode 100644
index 0000000..7f9242d
Binary files /dev/null and b/experiments/ledro_d_fc_7nm_run3/PPO_LEDRO_D_FC_0_2025-08-28_17-19-59h7o8x_d0/final_checkpoint/checkpoint-300.tune_metadata differ
diff --git a/experiments/ledro_d_fc_7nm_run3/PPO_LEDRO_D_FC_0_2025-08-28_17-19-59h7o8x_d0/image.png b/experiments/ledro_d_fc_7nm_run3/PPO_LEDRO_D_FC_0_2025-08-28_17-19-59h7o8x_d0/image.png
new file mode 100644
index 0000000..1d017bc
Binary files /dev/null and b/experiments/ledro_d_fc_7nm_run3/PPO_LEDRO_D_FC_0_2025-08-28_17-19-59h7o8x_d0/image.png differ
diff --git a/experiments/ledro_d_fc_7nm_run3/PPO_LEDRO_D_FC_0_2025-08-28_17-19-59h7o8x_d0/params.json b/experiments/ledro_d_fc_7nm_run3/PPO_LEDRO_D_FC_0_2025-08-28_17-19-59h7o8x_d0/params.json
new file mode 100644
index 0000000..9fcb341
--- /dev/null
+++ b/experiments/ledro_d_fc_7nm_run3/PPO_LEDRO_D_FC_0_2025-08-28_17-19-59h7o8x_d0/params.json
@@ -0,0 +1,18 @@
+{
+  "env": "<class 'autockt.envs.ngspice_ledro_d_fc.LEDRO_D_FC'>",
+  "env_config": {
+    "generalize": true,
+    "run_valid": false
+  },
+  "horizon": 50,
+  "model": {
+    "fcnet_hiddens": [
+      128,
+      128,
+      128
+    ]
+  },
+  "num_gpus": 0,
+  "num_workers": 3,
+  "train_batch_size": 1200
+}
\ No newline at end of file
diff --git a/experiments/ledro_d_fc_7nm_run3/PPO_LEDRO_D_FC_0_2025-08-28_17-19-59h7o8x_d0/params.pkl b/experiments/ledro_d_fc_7nm_run3/PPO_LEDRO_D_FC_0_2025-08-28_17-19-59h7o8x_d0/params.pkl
new file mode 100644
index 0000000..1e12302
Binary files /dev/null and b/experiments/ledro_d_fc_7nm_run3/PPO_LEDRO_D_FC_0_2025-08-28_17-19-59h7o8x_d0/params.pkl differ
diff --git a/experiments/ledro_d_fc_7nm_run3/PPO_LEDRO_D_FC_0_2025-08-28_17-19-59h7o8x_d0/progress.csv b/experiments/ledro_d_fc_7nm_run3/PPO_LEDRO_D_FC_0_2025-08-28_17-19-59h7o8x_d0/progress.csv
new file mode 100644
index 0000000..723447d
--- /dev/null
+++ b/experiments/ledro_d_fc_7nm_run3/PPO_LEDRO_D_FC_0_2025-08-28_17-19-59h7o8x_d0/progress.csv
@@ -0,0 +1,307 @@
+experiment_id,time_since_restore,episode_len_mean,done,episode_reward_min,iterations_since_restore,episodes_total,timestamp,episode_reward_mean,pid,timesteps_this_iter,date,policy_reward_mean,time_this_iter_s,episodes_this_iter,training_iteration,time_total_s,info,timesteps_total,config,node_ip,num_metric_batches_dropped,custom_metrics,timesteps_since_restore,hostname,episode_reward_max
+7ffa6ff4607a442eb508661143530d5b,231.39491868019104,50.0,False,-146.78393839650298,1,24,1756394647,-129.08330393143353,1566858,1200,2025-08-28_17-24-07,{},231.39491868019104,24,1,231.39491868019104,"{'num_steps_sampled': 1200, 'num_steps_trained': 1200, 'default': {'policy_loss': -0.12120606005191803, 'vf_explained_var': 0.018705738708376884, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.20000000298023224, 'vf_loss': 4254.23876953125, 'entropy': 18.654157638549805, 'kl': 0.02240253984928131, 'total_loss': 4254.12255859375}, 'sample_time_ms': 226832.15, 'grad_time_ms': 2279.741, 'load_time_ms': 148.38, 'update_time_ms': 2016.317}",1200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},1200,cda-server-3,-99.99993258306239
+7ffa6ff4607a442eb508661143530d5b,439.889981508255,50.0,False,-146.78393839650298,2,48,1756394856,-127.32490473992193,1566858,1200,2025-08-28_17-27-36,{},208.49506282806396,24,2,439.889981508255,"{'num_steps_sampled': 2400, 'num_steps_trained': 2400, 'default': {'policy_loss': -0.12993724644184113, 'vf_explained_var': 0.11479301005601883, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.30000001192092896, 'vf_loss': 3653.26953125, 'entropy': 18.634702682495117, 'kl': 0.023673098534345627, 'total_loss': 3653.146728515625}, 'sample_time_ms': 217313.857, 'grad_time_ms': 1484.979, 'load_time_ms': 74.976, 'update_time_ms': 1009.617}",2400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},2400,cda-server-3,-99.54185984989468
+7ffa6ff4607a442eb508661143530d5b,661.38379073143,50.0,False,-146.78393839650298,3,72,1756395078,-127.62901381105137,1566858,1200,2025-08-28_17-31-18,{},221.49380922317505,24,3,661.38379073143,"{'num_steps_sampled': 3600, 'num_steps_trained': 3600, 'default': {'policy_loss': -0.13941305875778198, 'vf_explained_var': 0.11090646684169769, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.44999995827674866, 'vf_loss': 3644.2900390625, 'entropy': 18.60210418701172, 'kl': 0.02471771091222763, 'total_loss': 3644.161865234375}, 'sample_time_ms': 218474.294, 'grad_time_ms': 1219.646, 'load_time_ms': 50.629, 'update_time_ms': 673.919}",3600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},3600,cda-server-3,-99.54185984989468
+7ffa6ff4607a442eb508661143530d5b,891.4586873054504,50.0,False,-146.78393839650298,4,96,1756395308,-125.83527627708632,1566858,1200,2025-08-28_17-35-08,{},230.07489657402039,24,4,891.4586873054504,"{'num_steps_sampled': 4800, 'num_steps_trained': 4800, 'default': {'policy_loss': -0.12359528988599777, 'vf_explained_var': 0.11000010371208191, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.675000011920929, 'vf_loss': 3012.851806640625, 'entropy': 18.575050354003906, 'kl': 0.019558193162083626, 'total_loss': 3012.7412109375}, 'sample_time_ms': 221199.687, 'grad_time_ms': 1086.971, 'load_time_ms': 38.45, 'update_time_ms': 506.159}",4800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},4800,cda-server-3,-98.49905122783261
+7ffa6ff4607a442eb508661143530d5b,1150.402874469757,50.0,False,-146.0541023313413,5,120,1756395567,-124.10875304099744,1566858,1200,2025-08-28_17-39-27,{},258.94418716430664,24,5,1150.402874469757,"{'num_steps_sampled': 6000, 'num_steps_trained': 6000, 'default': {'policy_loss': -0.12141091376543045, 'vf_explained_var': 0.05904542654752731, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.675000011920929, 'vf_loss': 2893.345703125, 'entropy': 18.560523986816406, 'kl': 0.0196517501026392, 'total_loss': 2893.237548828125}, 'sample_time_ms': 228606.987, 'grad_time_ms': 1009.142, 'load_time_ms': 31.135, 'update_time_ms': 405.444}",6000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},6000,cda-server-3,-98.49905122783261
+7ffa6ff4607a442eb508661143530d5b,1408.9546167850494,50.0,False,-146.0541023313413,6,144,1756395825,-122.72888846822445,1566858,1200,2025-08-28_17-43-45,{},258.55174231529236,24,6,1408.9546167850494,"{'num_steps_sampled': 7200, 'num_steps_trained': 7200, 'default': {'policy_loss': -0.13973921537399292, 'vf_explained_var': 0.011485014110803604, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.675000011920929, 'vf_loss': 2471.14990234375, 'entropy': 18.532447814941406, 'kl': 0.019554639235138893, 'total_loss': 2471.023193359375}, 'sample_time_ms': 233480.97, 'grad_time_ms': 956.137, 'load_time_ms': 26.219, 'update_time_ms': 338.316}",7200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},7200,cda-server-3,-98.49905122783261
+7ffa6ff4607a442eb508661143530d5b,1674.9645681381226,50.0,False,-146.44951359018535,7,168,1756396091,-121.15475903464372,1566858,1200,2025-08-28_17-48-11,{},266.0099513530731,24,7,1674.9645681381226,"{'num_steps_sampled': 8400, 'num_steps_trained': 8400, 'default': {'policy_loss': -0.13989777863025665, 'vf_explained_var': 0.01834733597934246, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.675000011920929, 'vf_loss': 2349.50146484375, 'entropy': 18.50861358642578, 'kl': 0.02123822271823883, 'total_loss': 2349.376220703125}, 'sample_time_ms': 238027.997, 'grad_time_ms': 918.38, 'load_time_ms': 22.601, 'update_time_ms': 290.334}",8400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},8400,cda-server-3,-98.49905122783261
+7ffa6ff4607a442eb508661143530d5b,1941.3925409317017,50.0,False,-146.44951359018535,8,192,1756396358,-120.81588605798613,1566858,1200,2025-08-28_17-52-38,{},266.4279727935791,24,8,1941.3925409317017,"{'num_steps_sampled': 9600, 'num_steps_trained': 9600, 'default': {'policy_loss': -0.12228532880544662, 'vf_explained_var': 0.009332027286291122, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 2376.759521484375, 'entropy': 18.485597610473633, 'kl': 0.017213426530361176, 'total_loss': 2376.654541015625}, 'sample_time_ms': 241490.303, 'grad_time_ms': 890.103, 'load_time_ms': 19.985, 'update_time_ms': 254.345}",9600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},9600,cda-server-3,-88.09294395093761
+7ffa6ff4607a442eb508661143530d5b,2161.997076511383,50.0,False,-146.83873104448023,9,216,1756396578,-119.28984459236621,1566858,1200,2025-08-28_17-56-18,{},220.6045355796814,24,9,2161.997076511383,"{'num_steps_sampled': 10800, 'num_steps_trained': 10800, 'default': {'policy_loss': -0.13750998675823212, 'vf_explained_var': 0.00047000250197015703, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 1895.60546875, 'entropy': 18.46615219116211, 'kl': 0.017844107002019882, 'total_loss': 1895.48583984375}, 'sample_time_ms': 239091.05, 'grad_time_ms': 868.78, 'load_time_ms': 17.938, 'update_time_ms': 226.372}",10800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},10800,cda-server-3,-88.09294395093761
+7ffa6ff4607a442eb508661143530d5b,2368.387995481491,50.0,False,-146.83873104448023,10,240,1756396785,-118.7602112144562,1566858,1200,2025-08-28_17-59-45,{},206.39091897010803,24,10,2368.387995481491,"{'num_steps_sampled': 12000, 'num_steps_trained': 12000, 'default': {'policy_loss': -0.12456995993852615, 'vf_explained_var': 0.041680652648210526, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 1867.90771484375, 'entropy': 18.442859649658203, 'kl': 0.018277890980243683, 'total_loss': 1867.8016357421875}, 'sample_time_ms': 235750.178, 'grad_time_ms': 851.815, 'load_time_ms': 16.329, 'update_time_ms': 203.983}",12000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},12000,cda-server-3,-88.09294395093761
+7ffa6ff4607a442eb508661143530d5b,2639.416999101639,50.0,False,-146.83873104448023,11,264,1756397056,-118.20574028935748,1566858,1200,2025-08-28_18-04-16,{},271.0290036201477,24,11,2639.416999101639,"{'num_steps_sampled': 13200, 'num_steps_trained': 13200, 'default': {'policy_loss': -0.1394842118024826, 'vf_explained_var': 0.02399369142949581, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 1760.54541015625, 'entropy': 18.41582489013672, 'kl': 0.0173909030854702, 'total_loss': 1760.423583984375}, 'sample_time_ms': 240099.86, 'grad_time_ms': 692.911, 'load_time_ms': 1.659, 'update_time_ms': 2.59}",13200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},13200,cda-server-3,-88.09294395093761
+7ffa6ff4607a442eb508661143530d5b,2889.085036754608,50.0,False,-146.83873104448023,12,288,1756397305,-116.34781812997744,1566858,1200,2025-08-28_18-08-25,{},249.66803765296936,24,12,2889.085036754608,"{'num_steps_sampled': 14400, 'num_steps_trained': 14400, 'default': {'policy_loss': -0.131776362657547, 'vf_explained_var': 0.08143580704927444, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 1517.3621826171875, 'entropy': 18.392175674438477, 'kl': 0.015726102516055107, 'total_loss': 1517.24609375}, 'sample_time_ms': 244216.386, 'grad_time_ms': 693.713, 'load_time_ms': 1.664, 'update_time_ms': 2.543}",14400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},14400,cda-server-3,-95.21420483749228
+7ffa6ff4607a442eb508661143530d5b,3180.254895925522,50.0,False,-142.98441497447922,13,312,1756397596,-115.62934410428164,1566858,1200,2025-08-28_18-13-16,{},291.1698591709137,24,13,3180.254895925522,"{'num_steps_sampled': 15600, 'num_steps_trained': 15600, 'default': {'policy_loss': -0.14231985807418823, 'vf_explained_var': 0.08726880699396133, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 1588.935791015625, 'entropy': 18.384498596191406, 'kl': 0.01738560199737549, 'total_loss': 1588.8111572265625}, 'sample_time_ms': 251184.496, 'grad_time_ms': 693.321, 'load_time_ms': 1.568, 'update_time_ms': 2.557}",15600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},15600,cda-server-3,-83.97588886261303
+7ffa6ff4607a442eb508661143530d5b,3432.3409848213196,50.0,False,-143.8383056089926,14,336,1756397849,-115.66906308452896,1566858,1200,2025-08-28_18-17-29,{},252.08608889579773,24,14,3432.3409848213196,"{'num_steps_sampled': 16800, 'num_steps_trained': 16800, 'default': {'policy_loss': -0.13075391948223114, 'vf_explained_var': 0.10596006363630295, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 1400.822509765625, 'entropy': 18.35945701599121, 'kl': 0.015562936663627625, 'total_loss': 1400.7073974609375}, 'sample_time_ms': 253385.056, 'grad_time_ms': 693.955, 'load_time_ms': 1.52, 'update_time_ms': 2.523}",16800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},16800,cda-server-3,-83.97588886261303
+7ffa6ff4607a442eb508661143530d5b,3690.3307423591614,50.0,False,-143.8383056089926,15,360,1756398107,-114.85649792242968,1566858,1200,2025-08-28_18-21-47,{},257.9897575378418,24,15,3690.3307423591614,"{'num_steps_sampled': 18000, 'num_steps_trained': 18000, 'default': {'policy_loss': -0.13020434975624084, 'vf_explained_var': 0.17911416292190552, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 1270.36865234375, 'entropy': 18.33188819885254, 'kl': 0.01751522161066532, 'total_loss': 1270.256103515625}, 'sample_time_ms': 253290.003, 'grad_time_ms': 693.672, 'load_time_ms': 1.478, 'update_time_ms': 2.533}",18000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},18000,cda-server-3,-83.97588886261303
+7ffa6ff4607a442eb508661143530d5b,3912.750263929367,50.0,False,-143.8383056089926,16,384,1756398329,-114.61370286216462,1566858,1200,2025-08-28_18-25-29,{},222.4195215702057,24,16,3912.750263929367,"{'num_steps_sampled': 19200, 'num_steps_trained': 19200, 'default': {'policy_loss': -0.13605083525180817, 'vf_explained_var': 0.17312727868556976, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 1203.89111328125, 'entropy': 18.3139591217041, 'kl': 0.017916101962327957, 'total_loss': 1203.7730712890625}, 'sample_time_ms': 249676.023, 'grad_time_ms': 694.436, 'load_time_ms': 1.49, 'update_time_ms': 2.497}",19200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},19200,cda-server-3,-83.97588886261303
+7ffa6ff4607a442eb508661143530d5b,4148.901806116104,50.0,False,-143.8383056089926,17,408,1756398565,-115.1950941298017,1566858,1200,2025-08-28_18-29-25,{},236.15154218673706,24,17,4148.901806116104,"{'num_steps_sampled': 20400, 'num_steps_trained': 20400, 'default': {'policy_loss': -0.1500139832496643, 'vf_explained_var': 0.20809487998485565, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 1293.311767578125, 'entropy': 18.267717361450195, 'kl': 0.019330434501171112, 'total_loss': 1293.18115234375}, 'sample_time_ms': 246689.11, 'grad_time_ms': 695.366, 'load_time_ms': 1.557, 'update_time_ms': 2.53}",20400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},20400,cda-server-3,-98.04220398724607
+7ffa6ff4607a442eb508661143530d5b,4419.96648812294,50.0,False,-145.8632685496317,18,432,1756398836,-114.82608095291198,1566858,1200,2025-08-28_18-33-56,{},271.06468200683594,24,18,4419.96648812294,"{'num_steps_sampled': 21600, 'num_steps_trained': 21600, 'default': {'policy_loss': -0.1369973123073578, 'vf_explained_var': 0.21514759957790375, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 1099.616943359375, 'entropy': 18.250120162963867, 'kl': 0.01694124937057495, 'total_loss': 1099.4969482421875}, 'sample_time_ms': 247152.753, 'grad_time_ms': 695.384, 'load_time_ms': 1.549, 'update_time_ms': 2.557}",21600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},21600,cda-server-3,-94.07099127019934
+7ffa6ff4607a442eb508661143530d5b,4666.24494099617,50.0,False,-145.8632685496317,19,456,1756399083,-113.63070519496996,1566858,1200,2025-08-28_18-38-03,{},246.27845287322998,24,19,4666.24494099617,"{'num_steps_sampled': 22800, 'num_steps_trained': 22800, 'default': {'policy_loss': -0.13419102132320404, 'vf_explained_var': 0.23938888311386108, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 996.186279296875, 'entropy': 18.23851776123047, 'kl': 0.01877405494451523, 'total_loss': 996.071044921875}, 'sample_time_ms': 249720.524, 'grad_time_ms': 694.96, 'load_time_ms': 1.56, 'update_time_ms': 2.58}",22800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},22800,cda-server-3,-92.51656606985235
+7ffa6ff4607a442eb508661143530d5b,4908.511640548706,50.0,False,-145.8632685496317,20,480,1756399325,-113.29456813555431,1566858,1200,2025-08-28_18-42-05,{},242.266699552536,24,20,4908.511640548706,"{'num_steps_sampled': 24000, 'num_steps_trained': 24000, 'default': {'policy_loss': -0.1307111382484436, 'vf_explained_var': 0.3056492805480957, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 885.0294189453125, 'entropy': 18.227909088134766, 'kl': 0.017692746594548225, 'total_loss': 884.9165649414062}, 'sample_time_ms': 253308.428, 'grad_time_ms': 694.623, 'load_time_ms': 1.537, 'update_time_ms': 2.601}",24000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},24000,cda-server-3,-92.51656606985235
+7ffa6ff4607a442eb508661143530d5b,5115.891381978989,50.0,False,-145.8632685496317,21,504,1756399532,-112.84483958739845,1566858,1200,2025-08-28_18-45-32,{},207.3797414302826,24,21,5115.891381978989,"{'num_steps_sampled': 25200, 'num_steps_trained': 25200, 'default': {'policy_loss': -0.14466862380504608, 'vf_explained_var': 0.31529197096824646, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 974.6930541992188, 'entropy': 18.17812156677246, 'kl': 0.017108624801039696, 'total_loss': 974.5657348632812}, 'sample_time_ms': 246943.138, 'grad_time_ms': 695.042, 'load_time_ms': 1.535, 'update_time_ms': 2.59}",25200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},25200,cda-server-3,-92.51656606985235
+7ffa6ff4607a442eb508661143530d5b,5416.202656984329,50.0,False,-145.31539173741282,22,528,1756399832,-110.93474544247985,1566858,1200,2025-08-28_18-50-32,{},300.3112750053406,24,22,5416.202656984329,"{'num_steps_sampled': 26400, 'num_steps_trained': 26400, 'default': {'policy_loss': -0.13921838998794556, 'vf_explained_var': 0.35455378890037537, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 688.4326171875, 'entropy': 18.171295166015625, 'kl': 0.016766492277383804, 'total_loss': 688.3103637695312}, 'sample_time_ms': 252007.87, 'grad_time_ms': 694.557, 'load_time_ms': 1.591, 'update_time_ms': 2.634}",26400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},26400,cda-server-3,-89.64457416011744
+7ffa6ff4607a442eb508661143530d5b,5694.230200052261,50.0,False,-144.2697605141167,23,552,1756400111,-110.89697706022662,1566858,1200,2025-08-28_18-55-11,{},278.02754306793213,24,23,5694.230200052261,"{'num_steps_sampled': 27600, 'num_steps_trained': 27600, 'default': {'policy_loss': -0.13763722777366638, 'vf_explained_var': 0.3888266980648041, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 731.5033569335938, 'entropy': 18.151676177978516, 'kl': 0.01764022745192051, 'total_loss': 731.3836059570312}, 'sample_time_ms': 250692.213, 'grad_time_ms': 695.901, 'load_time_ms': 1.648, 'update_time_ms': 2.636}",27600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},27600,cda-server-3,-88.93574451772085
+7ffa6ff4607a442eb508661143530d5b,5979.111471414566,50.0,False,-143.04836334373098,24,576,1756400395,-111.36213150222491,1566858,1200,2025-08-28_18-59-55,{},284.8812713623047,24,24,5979.111471414566,"{'num_steps_sampled': 28800, 'num_steps_trained': 28800, 'default': {'policy_loss': -0.1553221344947815, 'vf_explained_var': 0.3876085877418518, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 800.6702270507812, 'entropy': 18.09413719177246, 'kl': 0.018143318593502045, 'total_loss': 800.5332641601562}, 'sample_time_ms': 253971.919, 'grad_time_ms': 695.703, 'load_time_ms': 1.672, 'update_time_ms': 2.644}",28800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},28800,cda-server-3,-88.93574451772085
+7ffa6ff4607a442eb508661143530d5b,6190.038968324661,50.0,False,-142.52618813170668,25,600,1756400606,-110.11096078319713,1566858,1200,2025-08-28_19-03-26,{},210.92749691009521,24,25,6190.038968324661,"{'num_steps_sampled': 30000, 'num_steps_trained': 30000, 'default': {'policy_loss': -0.13792775571346283, 'vf_explained_var': 0.2672511339187622, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 757.8585205078125, 'entropy': 18.086666107177734, 'kl': 0.017636993899941444, 'total_loss': 757.7384643554688}, 'sample_time_ms': 249265.378, 'grad_time_ms': 695.932, 'load_time_ms': 1.705, 'update_time_ms': 2.651}",30000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},30000,cda-server-3,-87.96881449444385
+7ffa6ff4607a442eb508661143530d5b,6434.35960817337,50.0,False,-142.52618813170668,26,624,1756400851,-108.79258472972552,1566858,1200,2025-08-28_19-07-31,{},244.3206398487091,24,26,6434.35960817337,"{'num_steps_sampled': 31200, 'num_steps_trained': 31200, 'default': {'policy_loss': -0.13855737447738647, 'vf_explained_var': 0.3324964642524719, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 534.9935913085938, 'entropy': 18.05270004272461, 'kl': 0.015438605099916458, 'total_loss': 534.8707275390625}, 'sample_time_ms': 251456.213, 'grad_time_ms': 695.196, 'load_time_ms': 1.709, 'update_time_ms': 2.694}",31200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},31200,cda-server-3,-87.96881449444385
+7ffa6ff4607a442eb508661143530d5b,6672.771792173386,50.0,False,-141.16678514474953,27,648,1756401089,-106.84075375099816,1566858,1200,2025-08-28_19-11-29,{},238.41218400001526,24,27,6672.771792173386,"{'num_steps_sampled': 32400, 'num_steps_trained': 32400, 'default': {'policy_loss': -0.14445364475250244, 'vf_explained_var': 0.39279234409332275, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 483.4596862792969, 'entropy': 18.03901481628418, 'kl': 0.016610559076070786, 'total_loss': 483.33209228515625}, 'sample_time_ms': 251682.44, 'grad_time_ms': 695.081, 'load_time_ms': 1.711, 'update_time_ms': 2.652}",32400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},32400,cda-server-3,-87.96881449444385
+7ffa6ff4607a442eb508661143530d5b,6921.277290582657,50.0,False,-140.2992540424679,28,672,1756401338,-104.82396678370964,1566858,1200,2025-08-28_19-15-38,{},248.50549840927124,24,28,6921.277290582657,"{'num_steps_sampled': 33600, 'num_steps_trained': 33600, 'default': {'policy_loss': -0.1346297711133957, 'vf_explained_var': 0.4250890910625458, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 527.1061401367188, 'entropy': 18.05461883544922, 'kl': 0.016484878957271576, 'total_loss': 526.9881591796875}, 'sample_time_ms': 249426.827, 'grad_time_ms': 694.746, 'load_time_ms': 1.73, 'update_time_ms': 2.652}",33600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},33600,cda-server-3,-87.96881449444385
+7ffa6ff4607a442eb508661143530d5b,7166.122593641281,50.0,False,-143.76604889515352,29,696,1756401582,-103.82999386622753,1566858,1200,2025-08-28_19-19-42,{},244.84530305862427,24,29,7166.122593641281,"{'num_steps_sampled': 34800, 'num_steps_trained': 34800, 'default': {'policy_loss': -0.1438552737236023, 'vf_explained_var': 0.28951722383499146, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 612.649658203125, 'entropy': 18.002059936523438, 'kl': 0.016011489555239677, 'total_loss': 612.5220336914062}, 'sample_time_ms': 249283.478, 'grad_time_ms': 694.771, 'load_time_ms': 1.725, 'update_time_ms': 2.634}",34800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},34800,cda-server-3,-88.04797756183808
+7ffa6ff4607a442eb508661143530d5b,7463.127463102341,50.0,False,-143.76604889515352,30,720,1756401879,-103.3184289517542,1566858,1200,2025-08-28_19-24-39,{},297.00486946105957,24,30,7463.127463102341,"{'num_steps_sampled': 36000, 'num_steps_trained': 36000, 'default': {'policy_loss': -0.1339775025844574, 'vf_explained_var': 0.4751656949520111, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 410.6561279296875, 'entropy': 17.993558883666992, 'kl': 0.01672077737748623, 'total_loss': 410.5390625}, 'sample_time_ms': 254757.672, 'grad_time_ms': 694.401, 'load_time_ms': 1.736, 'update_time_ms': 2.615}",36000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},36000,cda-server-3,-88.04797756183808
+7ffa6ff4607a442eb508661143530d5b,7693.591760635376,50.0,False,-143.76604889515352,31,744,1756402110,-103.7415526760245,1566858,1200,2025-08-28_19-28-30,{},230.46429753303528,24,31,7693.591760635376,"{'num_steps_sampled': 37200, 'num_steps_trained': 37200, 'default': {'policy_loss': -0.13384594023227692, 'vf_explained_var': 0.3274219036102295, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 553.2936401367188, 'entropy': 17.990142822265625, 'kl': 0.017523042857646942, 'total_loss': 553.177490234375}, 'sample_time_ms': 257066.525, 'grad_time_ms': 693.991, 'load_time_ms': 1.726, 'update_time_ms': 2.629}",37200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},37200,cda-server-3,-83.96823218772687
+7ffa6ff4607a442eb508661143530d5b,7949.828924655914,50.0,False,-143.76604889515352,32,768,1756402366,-102.33990607931862,1566858,1200,2025-08-28_19-32-46,{},256.23716402053833,24,32,7949.828924655914,"{'num_steps_sampled': 38400, 'num_steps_trained': 38400, 'default': {'policy_loss': -0.13505858182907104, 'vf_explained_var': -0.02648478001356125, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 648.9166870117188, 'entropy': 17.949193954467773, 'kl': 0.015016328543424606, 'total_loss': 648.7968139648438}, 'sample_time_ms': 252659.187, 'grad_time_ms': 693.963, 'load_time_ms': 1.673, 'update_time_ms': 2.595}",38400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},38400,cda-server-3,-82.06553763454826
+7ffa6ff4607a442eb508661143530d5b,8189.958149909973,50.0,False,-141.17269706060515,33,792,1756402606,-103.5668895180602,1566858,1200,2025-08-28_19-36-46,{},240.12922525405884,24,33,8189.958149909973,"{'num_steps_sampled': 39600, 'num_steps_trained': 39600, 'default': {'policy_loss': -0.13893601298332214, 'vf_explained_var': 0.5408138036727905, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 424.24908447265625, 'entropy': 17.949119567871094, 'kl': 0.017221523448824883, 'total_loss': 424.1275634765625}, 'sample_time_ms': 248869.829, 'grad_time_ms': 693.6, 'load_time_ms': 1.623, 'update_time_ms': 2.574}",39600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},39600,cda-server-3,-82.06553763454826
+7ffa6ff4607a442eb508661143530d5b,8483.517776966095,50.0,False,-143.58513812624415,34,816,1756402900,-104.27082951918139,1566858,1200,2025-08-28_19-41-40,{},293.5596270561218,24,34,8483.517776966095,"{'num_steps_sampled': 40800, 'num_steps_trained': 40800, 'default': {'policy_loss': -0.1295945793390274, 'vf_explained_var': 0.5013567805290222, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 432.3161315917969, 'entropy': 17.887298583984375, 'kl': 0.01532017532736063, 'total_loss': 432.2020263671875}, 'sample_time_ms': 249737.248, 'grad_time_ms': 694.012, 'load_time_ms': 1.621, 'update_time_ms': 2.585}",40800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},40800,cda-server-3,-82.06553763454826
+7ffa6ff4607a442eb508661143530d5b,8723.819400072098,50.0,False,-148.21402368422488,35,840,1756403140,-103.90413005160178,1566858,1200,2025-08-28_19-45-40,{},240.3016231060028,24,35,8723.819400072098,"{'num_steps_sampled': 42000, 'num_steps_trained': 42000, 'default': {'policy_loss': -0.11818749457597733, 'vf_explained_var': 0.43253830075263977, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 439.0633239746094, 'entropy': 17.906269073486328, 'kl': 0.014970477670431137, 'total_loss': 438.9602966308594}, 'sample_time_ms': 252674.46, 'grad_time_ms': 694.241, 'load_time_ms': 1.623, 'update_time_ms': 2.579}",42000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},42000,cda-server-3,-82.06553763454826
+7ffa6ff4607a442eb508661143530d5b,8991.142573833466,50.0,False,-148.21402368422488,36,864,1756403408,-105.02438479051513,1566858,1200,2025-08-28_19-50-08,{},267.3231737613678,24,36,8991.142573833466,"{'num_steps_sampled': 43200, 'num_steps_trained': 43200, 'default': {'policy_loss': -0.13264299929141998, 'vf_explained_var': 0.5789927244186401, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 339.433837890625, 'entropy': 17.89673614501953, 'kl': 0.016630493104457855, 'total_loss': 339.31805419921875}, 'sample_time_ms': 254973.588, 'grad_time_ms': 695.398, 'load_time_ms': 1.612, 'update_time_ms': 2.552}",43200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},43200,cda-server-3,-86.89631256715614
+7ffa6ff4607a442eb508661143530d5b,9251.871697187424,50.0,False,-148.21402368422488,37,888,1756403668,-104.76125330698889,1566858,1200,2025-08-28_19-54-28,{},260.72912335395813,24,37,9251.871697187424,"{'num_steps_sampled': 44400, 'num_steps_trained': 44400, 'default': {'policy_loss': -0.13514705002307892, 'vf_explained_var': 0.5892637968063354, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 338.72479248046875, 'entropy': 17.81587028503418, 'kl': 0.017263438552618027, 'total_loss': 338.6070861816406}, 'sample_time_ms': 257205.886, 'grad_time_ms': 694.738, 'load_time_ms': 1.618, 'update_time_ms': 2.592}",44400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},44400,cda-server-3,-86.89631256715614
+7ffa6ff4607a442eb508661143530d5b,9515.561694860458,50.0,False,-148.21402368422488,38,912,1756403932,-102.16851522701262,1566858,1200,2025-08-28_19-58-52,{},263.68999767303467,24,38,9515.561694860458,"{'num_steps_sampled': 45600, 'num_steps_trained': 45600, 'default': {'policy_loss': -0.13061577081680298, 'vf_explained_var': 0.6929558515548706, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 212.41424560546875, 'entropy': 17.837133407592773, 'kl': 0.016778942197561264, 'total_loss': 212.30059814453125}, 'sample_time_ms': 258723.305, 'grad_time_ms': 695.81, 'load_time_ms': 1.603, 'update_time_ms': 2.598}",45600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},45600,cda-server-3,-85.2176874172706
+7ffa6ff4607a442eb508661143530d5b,9773.700018405914,50.0,False,-129.5024379654697,39,936,1756404190,-101.25596506657908,1566858,1200,2025-08-28_20-03-10,{},258.13832354545593,24,39,9773.700018405914,"{'num_steps_sampled': 46800, 'num_steps_trained': 46800, 'default': {'policy_loss': -0.15072497725486755, 'vf_explained_var': 0.7493559122085571, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 181.5271453857422, 'entropy': 17.8424129486084, 'kl': 0.016762135550379753, 'total_loss': 181.3933868408203}, 'sample_time_ms': 260052.985, 'grad_time_ms': 695.428, 'load_time_ms': 1.613, 'update_time_ms': 2.596}",46800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},46800,cda-server-3,-85.2176874172706
+7ffa6ff4607a442eb508661143530d5b,10019.42602467537,50.0,False,-134.83725819359995,40,960,1756404436,-100.88615860699981,1566858,1200,2025-08-28_20-07-16,{},245.72600626945496,24,40,10019.42602467537,"{'num_steps_sampled': 48000, 'num_steps_trained': 48000, 'default': {'policy_loss': -0.14604660868644714, 'vf_explained_var': 0.7916211485862732, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 139.4286346435547, 'entropy': 17.7719783782959, 'kl': 0.017864830791950226, 'total_loss': 139.30067443847656}, 'sample_time_ms': 254924.671, 'grad_time_ms': 695.871, 'load_time_ms': 1.6, 'update_time_ms': 2.606}",48000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},48000,cda-server-3,-85.2176874172706
+7ffa6ff4607a442eb508661143530d5b,10276.95909500122,50.0,False,-134.83725819359995,41,984,1756404693,-99.97430550424826,1566858,1200,2025-08-28_20-11-33,{},257.53307032585144,24,41,10276.95909500122,"{'num_steps_sampled': 49200, 'num_steps_trained': 49200, 'default': {'policy_loss': -0.1547583043575287, 'vf_explained_var': 0.7901754379272461, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 130.47581481933594, 'entropy': 17.793487548828125, 'kl': 0.016820203512907028, 'total_loss': 130.3380889892578}, 'sample_time_ms': 257630.172, 'grad_time_ms': 697.229, 'load_time_ms': 1.608, 'update_time_ms': 2.586}",49200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},49200,cda-server-3,-81.97190564989381
+7ffa6ff4607a442eb508661143530d5b,10532.508011579514,50.0,False,-134.83725819359995,42,1008,1756404949,-100.59323159474148,1566858,1200,2025-08-28_20-15-49,{},255.54891657829285,24,42,10532.508011579514,"{'num_steps_sampled': 50400, 'num_steps_trained': 50400, 'default': {'policy_loss': -0.1485620141029358, 'vf_explained_var': 0.8014824986457825, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 130.30760192871094, 'entropy': 17.76481819152832, 'kl': 0.016707023605704308, 'total_loss': 130.17596435546875}, 'sample_time_ms': 257561.944, 'grad_time_ms': 696.633, 'load_time_ms': 1.607, 'update_time_ms': 2.571}",50400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},50400,cda-server-3,-81.97190564989381
+7ffa6ff4607a442eb508661143530d5b,10790.558824539185,50.0,False,-144.4774719951156,43,1032,1756405207,-101.62419135575888,1566858,1200,2025-08-28_20-20-07,{},258.050812959671,24,43,10790.558824539185,"{'num_steps_sampled': 51600, 'num_steps_trained': 51600, 'default': {'policy_loss': -0.1260344386100769, 'vf_explained_var': 0.7056383490562439, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 193.17147827148438, 'entropy': 17.764888763427734, 'kl': 0.01669412851333618, 'total_loss': 193.0623321533203}, 'sample_time_ms': 259353.801, 'grad_time_ms': 696.863, 'load_time_ms': 1.658, 'update_time_ms': 2.593}",51600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},51600,cda-server-3,-81.97190564989381
+7ffa6ff4607a442eb508661143530d5b,11004.175188064575,50.0,False,-144.4774719951156,44,1056,1756405421,-101.60767664423524,1566858,1200,2025-08-28_20-23-41,{},213.61636352539062,24,44,11004.175188064575,"{'num_steps_sampled': 52800, 'num_steps_trained': 52800, 'default': {'policy_loss': -0.148858442902565, 'vf_explained_var': 0.7899549007415771, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 127.62850952148438, 'entropy': 17.72422981262207, 'kl': 0.017617570236325264, 'total_loss': 127.49748992919922}, 'sample_time_ms': 251359.431, 'grad_time_ms': 696.923, 'load_time_ms': 1.654, 'update_time_ms': 2.562}",52800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},52800,cda-server-3,-81.97190564989381
+7ffa6ff4607a442eb508661143530d5b,11276.314458370209,50.0,False,-144.4774719951156,45,1080,1756405693,-101.40711573503677,1566858,1200,2025-08-28_20-28-13,{},272.13927030563354,24,45,11276.314458370209,"{'num_steps_sampled': 54000, 'num_steps_trained': 54000, 'default': {'policy_loss': -0.13800571858882904, 'vf_explained_var': 0.8040595054626465, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 110.159912109375, 'entropy': 17.731359481811523, 'kl': 0.017722077667713165, 'total_loss': 110.03984832763672}, 'sample_time_ms': 254543.995, 'grad_time_ms': 696.108, 'load_time_ms': 1.667, 'update_time_ms': 2.57}",54000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},54000,cda-server-3,-80.96407251778136
+7ffa6ff4607a442eb508661143530d5b,11516.05266880989,50.0,False,-144.4774719951156,46,1104,1756405933,-101.97060669596017,1566858,1200,2025-08-28_20-32-13,{},239.738210439682,24,46,11516.05266880989,"{'num_steps_sampled': 55200, 'num_steps_trained': 55200, 'default': {'policy_loss': -0.15162310004234314, 'vf_explained_var': 0.8339415788650513, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 126.8819580078125, 'entropy': 17.67001724243164, 'kl': 0.018563542515039444, 'total_loss': 126.74913024902344}, 'sample_time_ms': 251785.723, 'grad_time_ms': 695.899, 'load_time_ms': 1.643, 'update_time_ms': 2.599}",55200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},55200,cda-server-3,-72.23740427864698
+7ffa6ff4607a442eb508661143530d5b,11774.868111371994,50.0,False,-135.64386258019744,47,1128,1756406191,-100.08848784529565,1566858,1200,2025-08-28_20-36-31,{},258.81544256210327,24,47,11774.868111371994,"{'num_steps_sampled': 56400, 'num_steps_trained': 56400, 'default': {'policy_loss': -0.14888200163841248, 'vf_explained_var': 0.8016077280044556, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 115.84388732910156, 'entropy': 17.718650817871094, 'kl': 0.017319880425930023, 'total_loss': 115.7125244140625}, 'sample_time_ms': 251593.678, 'grad_time_ms': 696.586, 'load_time_ms': 1.642, 'update_time_ms': 2.592}",56400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},56400,cda-server-3,-69.29839344771064
+7ffa6ff4607a442eb508661143530d5b,12001.616872549057,50.0,False,-135.64386258019744,48,1152,1756406418,-99.68269586736893,1566858,1200,2025-08-28_20-40-18,{},226.748761177063,24,48,12001.616872549057,"{'num_steps_sampled': 57600, 'num_steps_trained': 57600, 'default': {'policy_loss': -0.15360401570796967, 'vf_explained_var': 0.8236192464828491, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 103.33358001708984, 'entropy': 17.707372665405273, 'kl': 0.019352156668901443, 'total_loss': 103.19956970214844}, 'sample_time_ms': 247900.738, 'grad_time_ms': 695.412, 'load_time_ms': 1.626, 'update_time_ms': 2.588}",57600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},57600,cda-server-3,-69.29839344771064
+7ffa6ff4607a442eb508661143530d5b,12236.425989627838,50.0,False,-135.64386258019744,49,1176,1756406653,-98.22463176781638,1566858,1200,2025-08-28_20-44-13,{},234.80911707878113,24,49,12236.425989627838,"{'num_steps_sampled': 58800, 'num_steps_trained': 58800, 'default': {'policy_loss': -0.1393449306488037, 'vf_explained_var': 0.8465521335601807, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 76.96279907226562, 'entropy': 17.65727996826172, 'kl': 0.017094898968935013, 'total_loss': 76.84076690673828}, 'sample_time_ms': 245567.736, 'grad_time_ms': 695.671, 'load_time_ms': 1.564, 'update_time_ms': 2.572}",58800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},58800,cda-server-3,-69.29839344771064
+7ffa6ff4607a442eb508661143530d5b,12468.61930012703,50.0,False,-135.64386258019744,50,1200,1756406885,-96.12076030956199,1566858,1200,2025-08-28_20-48-05,{},232.19331049919128,24,50,12468.61930012703,"{'num_steps_sampled': 60000, 'num_steps_trained': 60000, 'default': {'policy_loss': -0.14331084489822388, 'vf_explained_var': 0.9255598783493042, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 37.3577995300293, 'entropy': 17.61494255065918, 'kl': 0.018930919468402863, 'total_loss': 37.2336540222168}, 'sample_time_ms': 244214.895, 'grad_time_ms': 695.213, 'load_time_ms': 1.565, 'update_time_ms': 2.591}",60000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},60000,cda-server-3,-69.29839344771064
+7ffa6ff4607a442eb508661143530d5b,12709.341829061508,50.0,False,-132.3752722797274,51,1224,1756407126,-95.85087433939978,1566858,1200,2025-08-28_20-52-06,{},240.72252893447876,24,51,12709.341829061508,"{'num_steps_sampled': 61200, 'num_steps_trained': 61200, 'default': {'policy_loss': -0.14188522100448608, 'vf_explained_var': 0.8768813610076904, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 71.55755615234375, 'entropy': 17.609588623046875, 'kl': 0.018651418387889862, 'total_loss': 71.43455505371094}, 'sample_time_ms': 242534.376, 'grad_time_ms': 694.668, 'load_time_ms': 1.564, 'update_time_ms': 2.595}",61200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},61200,cda-server-3,-74.95478802659025
+7ffa6ff4607a442eb508661143530d5b,12948.8257188797,50.0,False,-132.3752722797274,52,1248,1756407365,-94.87060266743552,1566858,1200,2025-08-28_20-56-05,{},239.48388981819153,24,52,12948.8257188797,"{'num_steps_sampled': 62400, 'num_steps_trained': 62400, 'default': {'policy_loss': -0.1256731152534485, 'vf_explained_var': 0.8760194182395935, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 63.51656723022461, 'entropy': 17.582059860229492, 'kl': 0.01717858947813511, 'total_loss': 63.40829086303711}, 'sample_time_ms': 240927.317, 'grad_time_ms': 695.266, 'load_time_ms': 1.531, 'update_time_ms': 2.61}",62400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},62400,cda-server-3,-74.95383250565217
+7ffa6ff4607a442eb508661143530d5b,13182.688966751099,50.0,False,-132.3752722797274,53,1272,1756407599,-95.34690342570403,1566858,1200,2025-08-28_20-59-59,{},233.86324787139893,24,53,13182.688966751099,"{'num_steps_sampled': 63600, 'num_steps_trained': 63600, 'default': {'policy_loss': -0.14219270646572113, 'vf_explained_var': 0.9002120494842529, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 50.38748550415039, 'entropy': 17.57541847229004, 'kl': 0.016468307003378868, 'total_loss': 50.261962890625}, 'sample_time_ms': 238508.049, 'grad_time_ms': 695.711, 'load_time_ms': 1.556, 'update_time_ms': 2.613}",63600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},63600,cda-server-3,-72.95456854464868
+7ffa6ff4607a442eb508661143530d5b,13417.420874357224,50.0,False,-132.3752722797274,54,1296,1756407834,-95.8701949185,1566858,1200,2025-08-28_21-03-54,{},234.73190760612488,24,54,13417.420874357224,"{'num_steps_sampled': 64800, 'num_steps_trained': 64800, 'default': {'policy_loss': -0.1341078281402588, 'vf_explained_var': 0.8943191170692444, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 55.06442642211914, 'entropy': 17.553176879882812, 'kl': 0.016393329948186874, 'total_loss': 54.94691467285156}, 'sample_time_ms': 240620.357, 'grad_time_ms': 694.996, 'load_time_ms': 1.535, 'update_time_ms': 2.629}",64800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},64800,cda-server-3,-72.95456854464868
+7ffa6ff4607a442eb508661143530d5b,13653.380255937576,50.0,False,-118.67192241336538,55,1320,1756408070,-95.79111107637159,1566858,1200,2025-08-28_21-07-50,{},235.95938158035278,24,55,13653.380255937576,"{'num_steps_sampled': 66000, 'num_steps_trained': 66000, 'default': {'policy_loss': -0.1451943963766098, 'vf_explained_var': 0.8970387578010559, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 59.29791259765625, 'entropy': 17.52239227294922, 'kl': 0.01855158805847168, 'total_loss': 59.17150115966797}, 'sample_time_ms': 237001.363, 'grad_time_ms': 696.064, 'load_time_ms': 1.505, 'update_time_ms': 2.594}",66000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},66000,cda-server-3,-72.95456854464868
+7ffa6ff4607a442eb508661143530d5b,13936.009518384933,50.0,False,-118.67192241336538,56,1344,1756408353,-95.66737848522412,1566858,1200,2025-08-28_21-12-33,{},282.6292624473572,24,56,13936.009518384933,"{'num_steps_sampled': 67200, 'num_steps_trained': 67200, 'default': {'policy_loss': -0.13796259462833405, 'vf_explained_var': 0.8547341227531433, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 80.74215698242188, 'entropy': 17.47957992553711, 'kl': 0.016449345275759697, 'total_loss': 80.62085723876953}, 'sample_time_ms': 241290.762, 'grad_time_ms': 695.682, 'load_time_ms': 1.535, 'update_time_ms': 2.581}",67200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},67200,cda-server-3,-72.95456854464868
+7ffa6ff4607a442eb508661143530d5b,14193.073428630829,50.0,False,-120.17837555190016,57,1368,1756408610,-96.01223746240512,1566858,1200,2025-08-28_21-16-50,{},257.0639102458954,24,57,14193.073428630829,"{'num_steps_sampled': 68400, 'num_steps_trained': 68400, 'default': {'policy_loss': -0.13664299249649048, 'vf_explained_var': 0.8982321619987488, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 57.72923278808594, 'entropy': 17.488954544067383, 'kl': 0.01833203062415123, 'total_loss': 57.61115264892578}, 'sample_time_ms': 241115.722, 'grad_time_ms': 695.653, 'load_time_ms': 1.486, 'update_time_ms': 2.574}",68400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},68400,cda-server-3,-77.63105009300338
+7ffa6ff4607a442eb508661143530d5b,14403.944508075714,50.0,False,-120.17837555190016,58,1392,1756408821,-95.81383784659482,1566858,1200,2025-08-28_21-20-21,{},210.87107944488525,24,58,14403.944508075714,"{'num_steps_sampled': 69600, 'num_steps_trained': 69600, 'default': {'policy_loss': -0.1360078603029251, 'vf_explained_var': 0.9107392430305481, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 46.64500045776367, 'entropy': 17.508567810058594, 'kl': 0.016890546306967735, 'total_loss': 46.52609634399414}, 'sample_time_ms': 239527.122, 'grad_time_ms': 696.5, 'load_time_ms': 1.493, 'update_time_ms': 2.548}",69600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},69600,cda-server-3,-77.63105009300338
+7ffa6ff4607a442eb508661143530d5b,14628.449810504913,50.0,False,-134.19846850030785,59,1416,1756409045,-96.00413438464108,1566858,1200,2025-08-28_21-24-05,{},224.50530242919922,24,59,14628.449810504913,"{'num_steps_sampled': 70800, 'num_steps_trained': 70800, 'default': {'policy_loss': -0.13526791334152222, 'vf_explained_var': 0.8764873743057251, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 70.6440658569336, 'entropy': 17.406675338745117, 'kl': 0.015590902417898178, 'total_loss': 70.52458190917969}, 'sample_time_ms': 238496.96, 'grad_time_ms': 696.199, 'load_time_ms': 1.53, 'update_time_ms': 2.565}",70800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},70800,cda-server-3,-68.80640733491872
+7ffa6ff4607a442eb508661143530d5b,14892.913598299026,50.0,False,-134.19846850030785,60,1440,1756409310,-95.28690626054942,1566858,1200,2025-08-28_21-28-30,{},264.46378779411316,24,60,14892.913598299026,"{'num_steps_sampled': 72000, 'num_steps_trained': 72000, 'default': {'policy_loss': -0.1450229287147522, 'vf_explained_var': 0.8648273944854736, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 73.43704223632812, 'entropy': 17.41325569152832, 'kl': 0.017410503700375557, 'total_loss': 73.30965423583984}, 'sample_time_ms': 241723.871, 'grad_time_ms': 696.371, 'load_time_ms': 1.535, 'update_time_ms': 2.538}",72000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},72000,cda-server-3,-65.12883998949023
+7ffa6ff4607a442eb508661143530d5b,15171.576050519943,50.0,False,-140.69425675750867,61,1464,1756409588,-95.57552015729631,1566858,1200,2025-08-28_21-33-08,{},278.66245222091675,24,61,15171.576050519943,"{'num_steps_sampled': 73200, 'num_steps_trained': 73200, 'default': {'policy_loss': -0.16056376695632935, 'vf_explained_var': 0.8698188066482544, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 78.02471923828125, 'entropy': 17.357572555541992, 'kl': 0.016973795369267464, 'total_loss': 77.88133239746094}, 'sample_time_ms': 245517.672, 'grad_time_ms': 696.497, 'load_time_ms': 1.534, 'update_time_ms': 2.557}",73200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},73200,cda-server-3,-65.12883998949023
+7ffa6ff4607a442eb508661143530d5b,15447.08240532875,50.0,False,-140.69425675750867,62,1488,1756409864,-93.79442351704975,1566858,1200,2025-08-28_21-37-44,{},275.5063548088074,24,62,15447.08240532875,"{'num_steps_sampled': 74400, 'num_steps_trained': 74400, 'default': {'policy_loss': -0.1545441895723343, 'vf_explained_var': 0.8350050449371338, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 69.55598449707031, 'entropy': 17.437522888183594, 'kl': 0.017163407057523727, 'total_loss': 69.41881561279297}, 'sample_time_ms': 249118.09, 'grad_time_ms': 698.277, 'load_time_ms': 1.554, 'update_time_ms': 2.574}",74400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},74400,cda-server-3,-65.12883998949023
+7ffa6ff4607a442eb508661143530d5b,15697.26745390892,50.0,False,-140.69425675750867,63,1512,1756410114,-92.36666563102112,1566858,1200,2025-08-28_21-41-54,{},250.18504858016968,24,63,15697.26745390892,"{'num_steps_sampled': 75600, 'num_steps_trained': 75600, 'default': {'policy_loss': -0.14007754623889923, 'vf_explained_var': 0.8591345548629761, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 73.84480285644531, 'entropy': 17.366647720336914, 'kl': 0.016919545829296112, 'total_loss': 73.72185516357422}, 'sample_time_ms': 250750.329, 'grad_time_ms': 698.257, 'load_time_ms': 1.524, 'update_time_ms': 2.579}",75600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},75600,cda-server-3,-62.945926316347276
+7ffa6ff4607a442eb508661143530d5b,15952.925563812256,50.0,False,-140.69425675750867,64,1536,1756410370,-91.95464920578206,1566858,1200,2025-08-28_21-46-10,{},255.65810990333557,24,64,15952.925563812256,"{'num_steps_sampled': 76800, 'num_steps_trained': 76800, 'default': {'policy_loss': -0.14222145080566406, 'vf_explained_var': 0.8870275616645813, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 54.59144592285156, 'entropy': 17.29293441772461, 'kl': 0.016513163223862648, 'total_loss': 54.4659423828125}, 'sample_time_ms': 252842.238, 'grad_time_ms': 698.963, 'load_time_ms': 1.542, 'update_time_ms': 2.566}",76800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},76800,cda-server-3,-62.945926316347276
+7ffa6ff4607a442eb508661143530d5b,16182.57912182808,50.0,False,-123.09070788121295,65,1560,1756410599,-89.69694503502396,1566858,1200,2025-08-28_21-49-59,{},229.65355801582336,24,65,16182.57912182808,"{'num_steps_sampled': 78000, 'num_steps_trained': 78000, 'default': {'policy_loss': -0.13650605082511902, 'vf_explained_var': 0.8334833979606628, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 79.48489379882812, 'entropy': 17.300722122192383, 'kl': 0.016983311623334885, 'total_loss': 79.36558532714844}, 'sample_time_ms': 252212.596, 'grad_time_ms': 698.018, 'load_time_ms': 1.542, 'update_time_ms': 2.56}",78000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},78000,cda-server-3,-62.945926316347276
+7ffa6ff4607a442eb508661143530d5b,16448.787168741226,50.0,False,-123.09070788121295,66,1584,1756410865,-88.2820038471582,1566858,1200,2025-08-28_21-54-25,{},266.208046913147,24,66,16448.787168741226,"{'num_steps_sampled': 79200, 'num_steps_trained': 79200, 'default': {'policy_loss': -0.13701409101486206, 'vf_explained_var': 0.8851307034492493, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 49.43205261230469, 'entropy': 17.186141967773438, 'kl': 0.01660430245101452, 'total_loss': 49.311851501464844}, 'sample_time_ms': 250570.621, 'grad_time_ms': 697.943, 'load_time_ms': 1.536, 'update_time_ms': 2.553}",79200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},79200,cda-server-3,-62.945926316347276
+7ffa6ff4607a442eb508661143530d5b,16695.300344944,50.0,False,-112.2154760288806,67,1608,1756411112,-87.30647296079995,1566858,1200,2025-08-28_21-58-32,{},246.51317620277405,24,67,16695.300344944,"{'num_steps_sampled': 80400, 'num_steps_trained': 80400, 'default': {'policy_loss': -0.14472953975200653, 'vf_explained_var': 0.8869979381561279, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 50.39473342895508, 'entropy': 17.204143524169922, 'kl': 0.01810036227107048, 'total_loss': 50.268333435058594}, 'sample_time_ms': 249516.096, 'grad_time_ms': 697.373, 'load_time_ms': 1.53, 'update_time_ms': 2.542}",80400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},80400,cda-server-3,-60.97078129308109
+7ffa6ff4607a442eb508661143530d5b,16937.570281505585,50.0,False,-104.9671725722534,68,1632,1756411354,-85.12118934184193,1566858,1200,2025-08-28_22-02-34,{},242.26993656158447,24,68,16937.570281505585,"{'num_steps_sampled': 81600, 'num_steps_trained': 81600, 'default': {'policy_loss': -0.1376802623271942, 'vf_explained_var': 0.8597739338874817, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 57.41520309448242, 'entropy': 17.178375244140625, 'kl': 0.0169665589928627, 'total_loss': 57.29470443725586}, 'sample_time_ms': 252656.029, 'grad_time_ms': 697.251, 'load_time_ms': 1.562, 'update_time_ms': 2.569}",81600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},81600,cda-server-3,-60.95099421013692
+7ffa6ff4607a442eb508661143530d5b,17204.35671567917,50.0,False,-108.20417373274827,69,1656,1756411621,-84.75867703744163,1566858,1200,2025-08-28_22-07-01,{},266.786434173584,24,69,17204.35671567917,"{'num_steps_sampled': 82800, 'num_steps_trained': 82800, 'default': {'policy_loss': -0.13954412937164307, 'vf_explained_var': 0.8834936618804932, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 52.70014190673828, 'entropy': 17.090085983276367, 'kl': 0.01663246750831604, 'total_loss': 52.57743835449219}, 'sample_time_ms': 256884.429, 'grad_time_ms': 697.089, 'load_time_ms': 1.488, 'update_time_ms': 2.548}",82800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},82800,cda-server-3,-60.95099421013692
+7ffa6ff4607a442eb508661143530d5b,17439.835283517838,50.0,False,-108.20417373274827,70,1680,1756411857,-84.66569654180248,1566858,1200,2025-08-28_22-10-57,{},235.47856783866882,24,70,17439.835283517838,"{'num_steps_sampled': 84000, 'num_steps_trained': 84000, 'default': {'policy_loss': -0.13918136060237885, 'vf_explained_var': 0.8703316450119019, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 57.281005859375, 'entropy': 17.030242919921875, 'kl': 0.015691058710217476, 'total_loss': 57.15771484375}, 'sample_time_ms': 253984.995, 'grad_time_ms': 697.978, 'load_time_ms': 1.486, 'update_time_ms': 2.563}",84000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},84000,cda-server-3,-60.95099421013692
+7ffa6ff4607a442eb508661143530d5b,17697.609385490417,50.0,False,-131.91481230341097,71,1704,1756412114,-84.41687713566581,1566858,1200,2025-08-28_22-15-14,{},257.77410197257996,24,71,17697.609385490417,"{'num_steps_sampled': 85200, 'num_steps_trained': 85200, 'default': {'policy_loss': -0.14263315498828888, 'vf_explained_var': 0.8583628535270691, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 61.98405075073242, 'entropy': 17.083913803100586, 'kl': 0.017013147473335266, 'total_loss': 61.85863494873047}, 'sample_time_ms': 251896.396, 'grad_time_ms': 697.808, 'load_time_ms': 1.491, 'update_time_ms': 2.553}",85200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},85200,cda-server-3,-60.95099421013692
+7ffa6ff4607a442eb508661143530d5b,17942.44306564331,50.0,False,-131.91481230341097,72,1728,1756412359,-83.9152839901135,1566858,1200,2025-08-28_22-19-19,{},244.83368015289307,24,72,17942.44306564331,"{'num_steps_sampled': 86400, 'num_steps_trained': 86400, 'default': {'policy_loss': -0.1403069943189621, 'vf_explained_var': 0.8636730909347534, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 56.658843994140625, 'entropy': 17.043167114257812, 'kl': 0.01649215817451477, 'total_loss': 56.53523635864258}, 'sample_time_ms': 248830.982, 'grad_time_ms': 696.081, 'load_time_ms': 1.428, 'update_time_ms': 2.547}",86400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},86400,cda-server-3,-61.90480025645444
+7ffa6ff4607a442eb508661143530d5b,18184.41885781288,50.0,False,-131.91481230341097,73,1752,1756412601,-83.86643944815816,1566858,1200,2025-08-28_22-23-21,{},241.97579216957092,24,73,18184.41885781288,"{'num_steps_sampled': 87600, 'num_steps_trained': 87600, 'default': {'policy_loss': -0.14834047853946686, 'vf_explained_var': 0.8909367322921753, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 44.6313362121582, 'entropy': 16.992233276367188, 'kl': 0.017693255096673965, 'total_loss': 44.50090789794922}, 'sample_time_ms': 248009.755, 'grad_time_ms': 696.471, 'load_time_ms': 1.402, 'update_time_ms': 2.523}",87600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},87600,cda-server-3,-60.02371123132278
+7ffa6ff4607a442eb508661143530d5b,18448.48611831665,50.0,False,-131.91481230341097,74,1776,1756412865,-83.91763020685005,1566858,1200,2025-08-28_22-27-45,{},264.0672605037689,24,74,18448.48611831665,"{'num_steps_sampled': 88800, 'num_steps_trained': 88800, 'default': {'policy_loss': -0.13635270297527313, 'vf_explained_var': 0.8877306580543518, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 50.658626556396484, 'entropy': 16.9888916015625, 'kl': 0.01725666970014572, 'total_loss': 50.53974533081055}, 'sample_time_ms': 248850.608, 'grad_time_ms': 696.485, 'load_time_ms': 1.416, 'update_time_ms': 2.517}",88800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},88800,cda-server-3,-59.006022251229936
+7ffa6ff4607a442eb508661143530d5b,18711.91195678711,50.0,False,-114.60479451289457,75,1800,1756413129,-83.25586565324383,1566858,1200,2025-08-28_22-32-09,{},263.425838470459,24,75,18711.91195678711,"{'num_steps_sampled': 90000, 'num_steps_trained': 90000, 'default': {'policy_loss': -0.13750618696212769, 'vf_explained_var': 0.8878066539764404, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 45.646209716796875, 'entropy': 16.916126251220703, 'kl': 0.01593046449124813, 'total_loss': 45.52482986450195}, 'sample_time_ms': 252226.95, 'grad_time_ms': 697.303, 'load_time_ms': 1.438, 'update_time_ms': 2.541}",90000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},90000,cda-server-3,-54.96061487194269
+7ffa6ff4607a442eb508661143530d5b,18935.775758504868,50.0,False,-114.60479451289457,76,1824,1756413353,-82.72014624301787,1566858,1200,2025-08-28_22-35-53,{},223.86380171775818,24,76,18935.775758504868,"{'num_steps_sampled': 91200, 'num_steps_trained': 91200, 'default': {'policy_loss': -0.1411411315202713, 'vf_explained_var': 0.90963214635849, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 31.231788635253906, 'entropy': 16.93149185180664, 'kl': 0.017530765384435654, 'total_loss': 31.108394622802734}, 'sample_time_ms': 247992.191, 'grad_time_ms': 697.658, 'load_time_ms': 1.458, 'update_time_ms': 2.527}",91200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},91200,cda-server-3,-54.96061487194269
+7ffa6ff4607a442eb508661143530d5b,19178.031841754913,50.0,False,-108.94272480428417,77,1848,1756413595,-80.92310797396698,1566858,1200,2025-08-28_22-39-55,{},242.25608325004578,24,77,19178.031841754913,"{'num_steps_sampled': 92400, 'num_steps_trained': 92400, 'default': {'policy_loss': -0.14614935219287872, 'vf_explained_var': 0.8987939357757568, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 35.67803955078125, 'entropy': 16.90253448486328, 'kl': 0.01667719893157482, 'total_loss': 35.54877471923828}, 'sample_time_ms': 247566.57, 'grad_time_ms': 697.475, 'load_time_ms': 1.53, 'update_time_ms': 2.536}",92400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},92400,cda-server-3,-54.96061487194269
+7ffa6ff4607a442eb508661143530d5b,19408.83300757408,50.0,False,-112.77217478784608,78,1872,1756413826,-78.66633419654116,1566858,1200,2025-08-28_22-43-46,{},230.8011658191681,24,78,19408.83300757408,"{'num_steps_sampled': 93600, 'num_steps_trained': 93600, 'default': {'policy_loss': -0.14167816936969757, 'vf_explained_var': 0.8663337826728821, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 49.84602355957031, 'entropy': 16.82881736755371, 'kl': 0.016407020390033722, 'total_loss': 49.72095489501953}, 'sample_time_ms': 246420.316, 'grad_time_ms': 696.87, 'load_time_ms': 1.52, 'update_time_ms': 2.508}",93600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},93600,cda-server-3,-54.96061487194269
+7ffa6ff4607a442eb508661143530d5b,19628.77525162697,50.0,False,-112.77217478784608,79,1896,1756414046,-76.82071840459376,1566858,1200,2025-08-28_22-47-26,{},219.94224405288696,24,79,19628.77525162697,"{'num_steps_sampled': 94800, 'num_steps_trained': 94800, 'default': {'policy_loss': -0.13872185349464417, 'vf_explained_var': 0.8788679838180542, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 42.41904067993164, 'entropy': 16.846330642700195, 'kl': 0.017035197466611862, 'total_loss': 42.29756164550781}, 'sample_time_ms': 241734.828, 'grad_time_ms': 697.758, 'load_time_ms': 1.631, 'update_time_ms': 2.512}",94800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},94800,cda-server-3,-55.940889508221765
+7ffa6ff4607a442eb508661143530d5b,19877.09362578392,50.0,False,-112.77217478784608,80,1920,1756414294,-75.66733800064131,1566858,1200,2025-08-28_22-51-34,{},248.3183741569519,24,80,19877.09362578392,"{'num_steps_sampled': 96000, 'num_steps_trained': 96000, 'default': {'policy_loss': -0.146415576338768, 'vf_explained_var': 0.8998842239379883, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 35.70315933227539, 'entropy': 16.746917724609375, 'kl': 0.01694786176085472, 'total_loss': 35.57390213012695}, 'sample_time_ms': 243019.57, 'grad_time_ms': 696.957, 'load_time_ms': 1.641, 'update_time_ms': 2.523}",96000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},96000,cda-server-3,-55.940889508221765
+7ffa6ff4607a442eb508661143530d5b,20132.509190797806,50.0,False,-112.77217478784608,81,1944,1756414549,-74.45318096784645,1566858,1200,2025-08-28_22-55-49,{},255.4155650138855,24,81,20132.509190797806,"{'num_steps_sampled': 97200, 'num_steps_trained': 97200, 'default': {'policy_loss': -0.1437041163444519, 'vf_explained_var': 0.8701409697532654, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 36.276241302490234, 'entropy': 16.741798400878906, 'kl': 0.015728479251265526, 'total_loss': 36.14846420288086}, 'sample_time_ms': 242784.541, 'grad_time_ms': 696.233, 'load_time_ms': 1.548, 'update_time_ms': 2.548}",97200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},97200,cda-server-3,-55.940889508221765
+7ffa6ff4607a442eb508661143530d5b,20363.48011994362,50.0,False,-112.77217478784608,82,1968,1756414780,-72.77709877049519,1566858,1200,2025-08-28_22-59-40,{},230.970929145813,24,82,20363.48011994362,"{'num_steps_sampled': 98400, 'num_steps_trained': 98400, 'default': {'policy_loss': -0.14084871113300323, 'vf_explained_var': 0.8655793070793152, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 34.792381286621094, 'entropy': 16.7445068359375, 'kl': 0.01601782813668251, 'total_loss': 34.66774368286133}, 'sample_time_ms': 241397.784, 'grad_time_ms': 696.74, 'load_time_ms': 1.538, 'update_time_ms': 2.54}",98400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},98400,cda-server-3,-53.95587853910099
+7ffa6ff4607a442eb508661143530d5b,20580.654803276062,50.0,False,-107.4522891873826,83,1992,1756414997,-70.81955430992147,1566858,1200,2025-08-28_23-03-17,{},217.17468333244324,24,83,20580.654803276062,"{'num_steps_sampled': 99600, 'num_steps_trained': 99600, 'default': {'policy_loss': -0.13204234838485718, 'vf_explained_var': 0.8760443925857544, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 31.32162094116211, 'entropy': 16.793642044067383, 'kl': 0.01535502914339304, 'total_loss': 31.20512580871582}, 'sample_time_ms': 238918.834, 'grad_time_ms': 695.57, 'load_time_ms': 1.534, 'update_time_ms': 2.518}",99600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},99600,cda-server-3,-53.95587853910099
+7ffa6ff4607a442eb508661143530d5b,20815.180485486984,50.0,False,-107.4522891873826,84,2016,1756415232,-68.76959735542866,1566858,1200,2025-08-28_23-07-12,{},234.52568221092224,24,84,20815.180485486984,"{'num_steps_sampled': 100800, 'num_steps_trained': 100800, 'default': {'policy_loss': -0.14433318376541138, 'vf_explained_var': 0.8722853064537048, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 29.641008377075195, 'entropy': 16.78034210205078, 'kl': 0.01663334108889103, 'total_loss': 29.51351547241211}, 'sample_time_ms': 235965.602, 'grad_time_ms': 694.781, 'load_time_ms': 1.439, 'update_time_ms': 2.549}",100800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},100800,cda-server-3,-53.95587853910099
+7ffa6ff4607a442eb508661143530d5b,21029.106865644455,50.0,False,-107.98561338414216,85,2040,1756415446,-69.05470528023939,1566858,1200,2025-08-28_23-10-46,{},213.9263801574707,24,85,21029.106865644455,"{'num_steps_sampled': 102000, 'num_steps_trained': 102000, 'default': {'policy_loss': -0.14800840616226196, 'vf_explained_var': 0.8737674355506897, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 44.28384780883789, 'entropy': 16.667724609375, 'kl': 0.017794229090213776, 'total_loss': 44.15385818481445}, 'sample_time_ms': 231016.692, 'grad_time_ms': 693.88, 'load_time_ms': 1.364, 'update_time_ms': 2.556}",102000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},102000,cda-server-3,-53.95587853910099
+7ffa6ff4607a442eb508661143530d5b,21267.91470694542,50.0,False,-107.98561338414216,86,2064,1756415685,-69.5951626072507,1566858,1200,2025-08-28_23-14-45,{},238.80784130096436,24,86,21267.91470694542,"{'num_steps_sampled': 103200, 'num_steps_trained': 103200, 'default': {'policy_loss': -0.1315995305776596, 'vf_explained_var': 0.8468186855316162, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 42.02323913574219, 'entropy': 16.615787506103516, 'kl': 0.016590215265750885, 'total_loss': 41.90843963623047}, 'sample_time_ms': 232511.672, 'grad_time_ms': 693.298, 'load_time_ms': 1.332, 'update_time_ms': 2.554}",103200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},103200,cda-server-3,-54.95182090997833
+7ffa6ff4607a442eb508661143530d5b,21523.015555143356,50.0,False,-107.98561338414216,87,2088,1756415940,-68.46944199107841,1566858,1200,2025-08-28_23-19-00,{},255.100848197937,24,87,21523.015555143356,"{'num_steps_sampled': 104400, 'num_steps_trained': 104400, 'default': {'policy_loss': -0.13484853506088257, 'vf_explained_var': 0.8937379121780396, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 24.742692947387695, 'entropy': 16.481712341308594, 'kl': 0.01563051901757717, 'total_loss': 24.62367057800293}, 'sample_time_ms': 233795.722, 'grad_time_ms': 693.749, 'load_time_ms': 1.314, 'update_time_ms': 2.571}",104400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},104400,cda-server-3,-54.95182090997833
+7ffa6ff4607a442eb508661143530d5b,21755.724896669388,50.0,False,-107.98561338414216,88,2112,1756416173,-68.90574880241981,1566858,1200,2025-08-28_23-22-53,{},232.7093415260315,24,88,21755.724896669388,"{'num_steps_sampled': 105600, 'num_steps_trained': 105600, 'default': {'policy_loss': -0.14801417291164398, 'vf_explained_var': 0.863982617855072, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 38.028564453125, 'entropy': 16.538761138916016, 'kl': 0.01715698093175888, 'total_loss': 37.89792251586914}, 'sample_time_ms': 233985.216, 'grad_time_ms': 695.112, 'load_time_ms': 1.293, 'update_time_ms': 2.564}",105600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},105600,cda-server-3,-53.2230760042775
+7ffa6ff4607a442eb508661143530d5b,21995.29202914238,50.0,False,-115.55456980047862,89,2136,1756416412,-68.03962091148274,1566858,1200,2025-08-28_23-26-52,{},239.56713247299194,24,89,21995.29202914238,"{'num_steps_sampled': 106800, 'num_steps_trained': 106800, 'default': {'policy_loss': -0.13819807767868042, 'vf_explained_var': 0.860944390296936, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 40.49483108520508, 'entropy': 16.507343292236328, 'kl': 0.015339210629463196, 'total_loss': 40.37216567993164}, 'sample_time_ms': 235947.864, 'grad_time_ms': 694.981, 'load_time_ms': 1.258, 'update_time_ms': 2.587}",106800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},106800,cda-server-3,-53.2230760042775
+7ffa6ff4607a442eb508661143530d5b,22200.77853822708,50.0,False,-115.55456980047862,90,2160,1756416618,-66.43045601954503,1566858,1200,2025-08-28_23-30-18,{},205.48650908470154,24,90,22200.77853822708,"{'num_steps_sampled': 108000, 'num_steps_trained': 108000, 'default': {'policy_loss': -0.1232977956533432, 'vf_explained_var': 0.8503206968307495, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 30.72481918334961, 'entropy': 16.54416275024414, 'kl': 0.015979347750544548, 'total_loss': 30.61770248413086}, 'sample_time_ms': 231664.322, 'grad_time_ms': 695.498, 'load_time_ms': 1.195, 'update_time_ms': 2.564}",108000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},108000,cda-server-3,-53.2230760042775
+7ffa6ff4607a442eb508661143530d5b,22468.302712917328,50.0,False,-115.55456980047862,91,2184,1756416885,-67.06299508675095,1566858,1200,2025-08-28_23-34-45,{},267.5241746902466,24,91,22468.302712917328,"{'num_steps_sampled': 109200, 'num_steps_trained': 109200, 'default': {'policy_loss': -0.1417466253042221, 'vf_explained_var': 0.8252907991409302, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 51.491268157958984, 'entropy': 16.51049041748047, 'kl': 0.0179302878677845, 'total_loss': 51.367679595947266}, 'sample_time_ms': 232874.007, 'grad_time_ms': 696.569, 'load_time_ms': 1.295, 'update_time_ms': 2.534}",109200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},109200,cda-server-3,-53.2230760042775
+7ffa6ff4607a442eb508661143530d5b,22723.705909967422,50.0,False,-115.55456980047862,92,2208,1756417141,-65.61862931952739,1566858,1200,2025-08-28_23-39-01,{},255.4031970500946,24,92,22723.705909967422,"{'num_steps_sampled': 110400, 'num_steps_trained': 110400, 'default': {'policy_loss': -0.13279880583286285, 'vf_explained_var': 0.9043550491333008, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 18.820959091186523, 'entropy': 16.467430114746094, 'kl': 0.016397977247834206, 'total_loss': 18.70476531982422}, 'sample_time_ms': 235317.525, 'grad_time_ms': 696.121, 'load_time_ms': 1.383, 'update_time_ms': 2.551}",110400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},110400,cda-server-3,-53.2230760042775
+7ffa6ff4607a442eb508661143530d5b,22970.57584619522,50.0,False,-115.55456980047862,93,2232,1756417387,-64.91044855525129,1566858,1200,2025-08-28_23-43-07,{},246.86993622779846,24,93,22970.57584619522,"{'num_steps_sampled': 111600, 'num_steps_trained': 111600, 'default': {'policy_loss': -0.1461043804883957, 'vf_explained_var': 0.8137485980987549, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 40.37269973754883, 'entropy': 16.43319320678711, 'kl': 0.017595432698726654, 'total_loss': 40.24441146850586}, 'sample_time_ms': 238287.126, 'grad_time_ms': 695.95, 'load_time_ms': 1.431, 'update_time_ms': 2.577}",111600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},111600,cda-server-3,-53.897588277465395
+7ffa6ff4607a442eb508661143530d5b,23212.88718509674,50.0,False,-98.42147392309447,94,2256,1756417630,-64.81923247327849,1566858,1200,2025-08-28_23-47-10,{},242.31133890151978,24,94,23212.88718509674,"{'num_steps_sampled': 112800, 'num_steps_trained': 112800, 'default': {'policy_loss': -0.14040905237197876, 'vf_explained_var': 0.8580853343009949, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 31.303335189819336, 'entropy': 16.410274505615234, 'kl': 0.015972889959812164, 'total_loss': 31.17909812927246}, 'sample_time_ms': 239064.399, 'grad_time_ms': 697.275, 'load_time_ms': 1.437, 'update_time_ms': 2.554}",112800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},112800,cda-server-3,-54.8650017855454
+7ffa6ff4607a442eb508661143530d5b,23426.63425207138,50.0,False,-98.42147392309447,95,2280,1756417844,-63.39130856250731,1566858,1200,2025-08-28_23-50-44,{},213.7470669746399,24,95,23426.63425207138,"{'num_steps_sampled': 114000, 'num_steps_trained': 114000, 'default': {'policy_loss': -0.12778830528259277, 'vf_explained_var': 0.8555526733398438, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 26.613889694213867, 'entropy': 16.41890525817871, 'kl': 0.01759319193661213, 'total_loss': 26.503915786743164}, 'sample_time_ms': 239045.459, 'grad_time_ms': 698.177, 'load_time_ms': 1.501, 'update_time_ms': 2.552}",114000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},114000,cda-server-3,-54.074040013498
+7ffa6ff4607a442eb508661143530d5b,23677.734798192978,50.0,False,-101.42589945490688,96,2304,1756418095,-63.60230280510545,1566858,1200,2025-08-28_23-54-55,{},251.1005461215973,24,96,23677.734798192978,"{'num_steps_sampled': 115200, 'num_steps_trained': 115200, 'default': {'policy_loss': -0.13580124080181122, 'vf_explained_var': 0.8498879075050354, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 35.0389404296875, 'entropy': 16.359601974487305, 'kl': 0.015551825053989887, 'total_loss': 34.918888092041016}, 'sample_time_ms': 240275.117, 'grad_time_ms': 697.774, 'load_time_ms': 1.513, 'update_time_ms': 2.554}",115200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},115200,cda-server-3,-52.858943297092495
+7ffa6ff4607a442eb508661143530d5b,23935.555701732635,50.0,False,-101.42589945490688,97,2328,1756418353,-64.01519855934126,1566858,1200,2025-08-28_23-59-13,{},257.8209035396576,24,97,23935.555701732635,"{'num_steps_sampled': 116400, 'num_steps_trained': 116400, 'default': {'policy_loss': -0.14195483922958374, 'vf_explained_var': 0.8827171921730042, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 26.063066482543945, 'entropy': 16.319156646728516, 'kl': 0.015602422878146172, 'total_loss': 25.936906814575195}, 'sample_time_ms': 240547.419, 'grad_time_ms': 697.496, 'load_time_ms': 1.509, 'update_time_ms': 2.535}",116400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},116400,cda-server-3,-52.858943297092495
+7ffa6ff4607a442eb508661143530d5b,24136.122399806976,50.0,False,-101.42589945490688,98,2352,1756418553,-63.12411026398803,1566858,1200,2025-08-29_00-02-33,{},200.56669807434082,24,98,24136.122399806976,"{'num_steps_sampled': 117600, 'num_steps_trained': 117600, 'default': {'policy_loss': -0.12811775505542755, 'vf_explained_var': 0.8606259822845459, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 26.62224578857422, 'entropy': 16.33074188232422, 'kl': 0.01618027687072754, 'total_loss': 26.510509490966797}, 'sample_time_ms': 237334.149, 'grad_time_ms': 696.568, 'load_time_ms': 1.489, 'update_time_ms': 2.533}",117600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},117600,cda-server-3,-52.858943297092495
+7ffa6ff4607a442eb508661143530d5b,24407.357256412506,50.0,False,-101.42589945490688,99,2376,1756418824,-62.44087108395161,1566858,1200,2025-08-29_00-07-04,{},271.2348566055298,24,99,24407.357256412506,"{'num_steps_sampled': 118800, 'num_steps_trained': 118800, 'default': {'policy_loss': -0.1403992772102356, 'vf_explained_var': 0.8786462545394897, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 19.873876571655273, 'entropy': 16.25355339050293, 'kl': 0.0183703675866127, 'total_loss': 19.752073287963867}, 'sample_time_ms': 240501.394, 'grad_time_ms': 696.21, 'load_time_ms': 1.433, 'update_time_ms': 2.511}",118800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},118800,cda-server-3,-52.858943297092495
+7ffa6ff4607a442eb508661143530d5b,24657.685720443726,50.0,False,-89.90023007400104,100,2400,1756419075,-61.653440944418,1566858,1200,2025-08-29_00-11-15,{},250.32846403121948,24,100,24657.685720443726,"{'num_steps_sampled': 120000, 'num_steps_trained': 120000, 'default': {'policy_loss': -0.1290886104106903, 'vf_explained_var': 0.8327670097351074, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 31.24372100830078, 'entropy': 16.272443771362305, 'kl': 0.015662631019949913, 'total_loss': 31.1304931640625}, 'sample_time_ms': 244985.593, 'grad_time_ms': 696.091, 'load_time_ms': 1.492, 'update_time_ms': 2.499}",120000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},120000,cda-server-3,-52.93601767317048
+7ffa6ff4607a442eb508661143530d5b,24920.84255218506,50.0,False,-89.90023007400104,101,2424,1756419338,-61.131917472065616,1566858,1200,2025-08-29_00-15-38,{},263.156831741333,24,101,24920.84255218506,"{'num_steps_sampled': 121200, 'num_steps_trained': 121200, 'default': {'policy_loss': -0.11977836489677429, 'vf_explained_var': 0.8679201006889343, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 26.77100372314453, 'entropy': 16.270166397094727, 'kl': 0.015529219061136246, 'total_loss': 26.66695213317871}, 'sample_time_ms': 244548.732, 'grad_time_ms': 696.194, 'load_time_ms': 1.493, 'update_time_ms': 2.508}",121200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},121200,cda-server-3,-52.93601767317048
+7ffa6ff4607a442eb508661143530d5b,25163.190752744675,50.0,False,-81.1903957303375,102,2448,1756419580,-60.72351474107361,1566858,1200,2025-08-29_00-19-40,{},242.3482005596161,24,102,25163.190752744675,"{'num_steps_sampled': 122400, 'num_steps_trained': 122400, 'default': {'policy_loss': -0.12940487265586853, 'vf_explained_var': 0.882462739944458, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 23.390724182128906, 'entropy': 16.316390991210938, 'kl': 0.015969369560480118, 'total_loss': 23.277488708496094}, 'sample_time_ms': 243243.22, 'grad_time_ms': 696.232, 'load_time_ms': 1.496, 'update_time_ms': 2.468}",122400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},122400,cda-server-3,-52.93601767317048
+7ffa6ff4607a442eb508661143530d5b,25435.75412583351,50.0,False,-81.1903957303375,103,2472,1756419853,-60.79222265253318,1566858,1200,2025-08-29_00-24-13,{},272.56337308883667,24,103,25435.75412583351,"{'num_steps_sampled': 123600, 'num_steps_trained': 123600, 'default': {'policy_loss': -0.13579684495925903, 'vf_explained_var': 0.8778722882270813, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 22.02468490600586, 'entropy': 16.328903198242188, 'kl': 0.016616467386484146, 'total_loss': 21.90571403503418}, 'sample_time_ms': 245811.227, 'grad_time_ms': 697.59, 'load_time_ms': 1.492, 'update_time_ms': 2.459}",123600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},123600,cda-server-3,-52.93601767317048
+7ffa6ff4607a442eb508661143530d5b,25665.85821557045,50.0,False,-81.1903957303375,104,2496,1756420083,-60.116771525483344,1566858,1200,2025-08-29_00-28-03,{},230.10408973693848,24,104,25665.85821557045,"{'num_steps_sampled': 124800, 'num_steps_trained': 124800, 'default': {'policy_loss': -0.15344049036502838, 'vf_explained_var': 0.8817589282989502, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 18.401994705200195, 'entropy': 16.331209182739258, 'kl': 0.016265608370304108, 'total_loss': 18.26502227783203}, 'sample_time_ms': 244590.369, 'grad_time_ms': 697.667, 'load_time_ms': 1.531, 'update_time_ms': 2.454}",124800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},124800,cda-server-3,-52.95849628922025
+7ffa6ff4607a442eb508661143530d5b,25892.035324811935,50.0,False,-82.16212772395187,105,2520,1756420309,-60.16023217998311,1566858,1200,2025-08-29_00-31-49,{},226.1771092414856,24,105,25892.035324811935,"{'num_steps_sampled': 126000, 'num_steps_trained': 126000, 'default': {'policy_loss': -0.12750448286533356, 'vf_explained_var': 0.8136303424835205, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 38.1964111328125, 'entropy': 16.27743148803711, 'kl': 0.016278643161058426, 'total_loss': 38.08538818359375}, 'sample_time_ms': 245834.201, 'grad_time_ms': 697.003, 'load_time_ms': 1.436, 'update_time_ms': 2.444}",126000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},126000,cda-server-3,-52.93952025325732
+7ffa6ff4607a442eb508661143530d5b,26110.90698647499,50.0,False,-82.16212772395187,106,2544,1756420528,-59.81542332779563,1566858,1200,2025-08-29_00-35-28,{},218.87166166305542,24,106,26110.90698647499,"{'num_steps_sampled': 127200, 'num_steps_trained': 127200, 'default': {'policy_loss': -0.13325509428977966, 'vf_explained_var': 0.8773702383041382, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 22.744340896606445, 'entropy': 16.201231002807617, 'kl': 0.016619432717561722, 'total_loss': 22.627914428710938}, 'sample_time_ms': 242611.106, 'grad_time_ms': 697.237, 'load_time_ms': 1.401, 'update_time_ms': 2.481}",127200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},127200,cda-server-3,-52.914738431937806
+7ffa6ff4607a442eb508661143530d5b,26360.525168180466,50.0,False,-82.16212772395187,107,2568,1756420778,-59.673469220947396,1566858,1200,2025-08-29_00-39-38,{},249.61818170547485,24,107,26360.525168180466,"{'num_steps_sampled': 128400, 'num_steps_trained': 128400, 'default': {'policy_loss': -0.12265331298112869, 'vf_explained_var': 0.8668314218521118, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 21.25311279296875, 'entropy': 16.13929557800293, 'kl': 0.017199309542775154, 'total_loss': 21.14787483215332}, 'sample_time_ms': 241790.366, 'grad_time_ms': 697.759, 'load_time_ms': 1.38, 'update_time_ms': 2.478}",128400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},128400,cda-server-3,-51.02603246046728
+7ffa6ff4607a442eb508661143530d5b,26604.6365506649,50.0,False,-82.16212772395187,108,2592,1756421022,-59.606878303662,1566858,1200,2025-08-29_00-43-42,{},244.11138248443604,24,108,26604.6365506649,"{'num_steps_sampled': 129600, 'num_steps_trained': 129600, 'default': {'policy_loss': -0.13076123595237732, 'vf_explained_var': 0.8132724761962891, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 33.19261169433594, 'entropy': 16.225126266479492, 'kl': 0.01657184027135372, 'total_loss': 33.07863235473633}, 'sample_time_ms': 246144.027, 'grad_time_ms': 698.614, 'load_time_ms': 1.333, 'update_time_ms': 2.485}",129600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},129600,cda-server-3,-51.02603246046728
+7ffa6ff4607a442eb508661143530d5b,26834.84356546402,50.0,False,-84.93840741162363,109,2616,1756421252,-59.694966777893185,1566858,1200,2025-08-29_00-47-32,{},230.20701479911804,24,109,26834.84356546402,"{'num_steps_sampled': 130800, 'num_steps_trained': 130800, 'default': {'policy_loss': -0.12276914715766907, 'vf_explained_var': 0.85801762342453, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 28.201007843017578, 'entropy': 16.107158660888672, 'kl': 0.015431146137416363, 'total_loss': 28.093862533569336}, 'sample_time_ms': 242041.052, 'grad_time_ms': 698.686, 'load_time_ms': 1.388, 'update_time_ms': 2.481}",130800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},130800,cda-server-3,-50.069767460137605
+7ffa6ff4607a442eb508661143530d5b,27092.147441625595,50.0,False,-84.93840741162363,110,2640,1756421509,-59.04001522812641,1566858,1200,2025-08-29_00-51-49,{},257.3038761615753,24,110,27092.147441625595,"{'num_steps_sampled': 132000, 'num_steps_trained': 132000, 'default': {'policy_loss': -0.13041992485523224, 'vf_explained_var': 0.8788143396377563, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 20.625926971435547, 'entropy': 16.039676666259766, 'kl': 0.017292585223913193, 'total_loss': 20.513015747070312}, 'sample_time_ms': 242737.964, 'grad_time_ms': 699.245, 'load_time_ms': 1.426, 'update_time_ms': 2.5}",132000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},132000,cda-server-3,-50.069767460137605
+7ffa6ff4607a442eb508661143530d5b,27331.856004953384,50.0,False,-84.93840741162363,111,2664,1756421749,-59.07273972534611,1566858,1200,2025-08-29_00-55-49,{},239.7085633277893,24,111,27331.856004953384,"{'num_steps_sampled': 133200, 'num_steps_trained': 133200, 'default': {'policy_loss': -0.12182916700839996, 'vf_explained_var': 0.8311696648597717, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 29.08080291748047, 'entropy': 16.15522003173828, 'kl': 0.016714682802557945, 'total_loss': 28.97589874267578}, 'sample_time_ms': 240394.014, 'grad_time_ms': 698.393, 'load_time_ms': 1.415, 'update_time_ms': 2.512}",133200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},133200,cda-server-3,-50.069767460137605
+7ffa6ff4607a442eb508661143530d5b,27587.61087012291,50.0,False,-86.78311202087484,112,2688,1756422005,-59.18881358171987,1566858,1200,2025-08-29_01-00-05,{},255.75486516952515,24,112,27587.61087012291,"{'num_steps_sampled': 134400, 'num_steps_trained': 134400, 'default': {'policy_loss': -0.140395849943161, 'vf_explained_var': 0.8482707738876343, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 28.473026275634766, 'entropy': 16.06305694580078, 'kl': 0.016294434666633606, 'total_loss': 28.3491268157959}, 'sample_time_ms': 241734.136, 'grad_time_ms': 698.843, 'load_time_ms': 1.411, 'update_time_ms': 2.56}",134400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},134400,cda-server-3,-50.069767460137605
+7ffa6ff4607a442eb508661143530d5b,27806.619978904724,50.0,False,-86.78311202087484,113,2712,1756422224,-58.635297871876844,1566858,1200,2025-08-29_01-03-44,{},219.00910878181458,24,113,27806.619978904724,"{'num_steps_sampled': 135600, 'num_steps_trained': 135600, 'default': {'policy_loss': -0.1381041407585144, 'vf_explained_var': 0.9284831285476685, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 11.675448417663574, 'entropy': 16.15050506591797, 'kl': 0.016876710578799248, 'total_loss': 11.554431915283203}, 'sample_time_ms': 236379.743, 'grad_time_ms': 697.874, 'load_time_ms': 1.368, 'update_time_ms': 2.548}",135600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},135600,cda-server-3,-52.83280264414459
+7ffa6ff4607a442eb508661143530d5b,28034.539868831635,50.0,False,-92.99670859655961,114,2736,1756422452,-58.661219019914526,1566858,1200,2025-08-29_01-07-32,{},227.9198899269104,24,114,28034.539868831635,"{'num_steps_sampled': 136800, 'num_steps_trained': 136800, 'default': {'policy_loss': -0.13784296810626984, 'vf_explained_var': 0.8285303115844727, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 34.57063293457031, 'entropy': 16.13674545288086, 'kl': 0.016130059957504272, 'total_loss': 34.44912338256836}, 'sample_time_ms': 236162.246, 'grad_time_ms': 696.885, 'load_time_ms': 1.405, 'update_time_ms': 2.553}",136800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},136800,cda-server-3,-52.83280264414459
+7ffa6ff4607a442eb508661143530d5b,28336.070405721664,50.0,False,-92.99670859655961,115,2760,1756422753,-58.39664888282129,1566858,1200,2025-08-29_01-12-33,{},301.5305368900299,24,115,28336.070405721664,"{'num_steps_sampled': 138000, 'num_steps_trained': 138000, 'default': {'policy_loss': -0.12080780416727066, 'vf_explained_var': 0.8865867853164673, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 17.852455139160156, 'entropy': 16.0211238861084, 'kl': 0.015340049751102924, 'total_loss': 17.747180938720703}, 'sample_time_ms': 243697.146, 'grad_time_ms': 697.206, 'load_time_ms': 1.493, 'update_time_ms': 2.538}",138000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},138000,cda-server-3,-51.878619471983534
+7ffa6ff4607a442eb508661143530d5b,28640.148250341415,50.0,False,-92.99670859655961,116,2784,1756423057,-57.572993058078616,1566858,1200,2025-08-29_01-17-37,{},304.077844619751,24,116,28640.148250341415,"{'num_steps_sampled': 139200, 'num_steps_trained': 139200, 'default': {'policy_loss': -0.1292750984430313, 'vf_explained_var': 0.8631255030632019, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 22.42864227294922, 'entropy': 16.13391876220703, 'kl': 0.01578795537352562, 'total_loss': 22.315351486206055}, 'sample_time_ms': 252216.644, 'grad_time_ms': 698.308, 'load_time_ms': 1.533, 'update_time_ms': 2.518}",139200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},139200,cda-server-3,-51.878619471983534
+7ffa6ff4607a442eb508661143530d5b,28893.488532304764,50.0,False,-92.99670859655961,117,2808,1756423311,-58.42551707762653,1566858,1200,2025-08-29_01-21-51,{},253.3402819633484,24,117,28893.488532304764,"{'num_steps_sampled': 140400, 'num_steps_trained': 140400, 'default': {'policy_loss': -0.1352321207523346, 'vf_explained_var': 0.8869233727455139, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 21.718400955200195, 'entropy': 16.096532821655273, 'kl': 0.014851750805974007, 'total_loss': 21.59820556640625}, 'sample_time_ms': 252588.37, 'grad_time_ms': 698.676, 'load_time_ms': 1.574, 'update_time_ms': 2.512}",140400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},140400,cda-server-3,-51.878619471983534
+7ffa6ff4607a442eb508661143530d5b,29127.301443338394,50.0,False,-88.65954468392255,118,2832,1756423544,-58.24708847794195,1566858,1200,2025-08-29_01-25-44,{},233.81291103363037,24,118,29127.301443338394,"{'num_steps_sampled': 141600, 'num_steps_trained': 141600, 'default': {'policy_loss': -0.13132750988006592, 'vf_explained_var': 0.7502151727676392, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 54.89358901977539, 'entropy': 16.050901412963867, 'kl': 0.015956096351146698, 'total_loss': 54.778411865234375}, 'sample_time_ms': 251559.104, 'grad_time_ms': 698.078, 'load_time_ms': 1.579, 'update_time_ms': 2.541}",141600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},141600,cda-server-3,-51.86353434737764
+7ffa6ff4607a442eb508661143530d5b,29348.139184951782,50.0,False,-88.65954468392255,119,2856,1756423765,-58.77166939777696,1566858,1200,2025-08-29_01-29-25,{},220.83774161338806,24,119,29348.139184951782,"{'num_steps_sampled': 142800, 'num_steps_trained': 142800, 'default': {'policy_loss': -0.1422090232372284, 'vf_explained_var': 0.9099141359329224, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 15.585625648498535, 'entropy': 15.948657989501953, 'kl': 0.01609078049659729, 'total_loss': 15.459708213806152}, 'sample_time_ms': 250621.264, 'grad_time_ms': 699.035, 'load_time_ms': 1.565, 'update_time_ms': 2.559}",142800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},142800,cda-server-3,-51.86353434737764
+7ffa6ff4607a442eb508661143530d5b,29608.62323451042,50.0,False,-88.65954468392255,120,2880,1756424026,-59.42504088928788,1566858,1200,2025-08-29_01-33-46,{},260.4840495586395,24,120,29608.62323451042,"{'num_steps_sampled': 144000, 'num_steps_trained': 144000, 'default': {'policy_loss': -0.1321364790201187, 'vf_explained_var': 0.8487840890884399, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 26.277753829956055, 'entropy': 15.773978233337402, 'kl': 0.01596074178814888, 'total_loss': 26.16177749633789}, 'sample_time_ms': 250940.818, 'grad_time_ms': 697.606, 'load_time_ms': 1.492, 'update_time_ms': 2.549}",144000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},144000,cda-server-3,-51.15904062506867
+7ffa6ff4607a442eb508661143530d5b,29864.01040172577,50.0,False,-105.43882619369613,121,2904,1756424281,-59.08303499192223,1566858,1200,2025-08-29_01-38-01,{},255.3871672153473,24,121,29864.01040172577,"{'num_steps_sampled': 145200, 'num_steps_trained': 145200, 'default': {'policy_loss': -0.11356958746910095, 'vf_explained_var': 0.7982986569404602, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 45.23063278198242, 'entropy': 15.830936431884766, 'kl': 0.01379266008734703, 'total_loss': 45.13102722167969}, 'sample_time_ms': 252508.147, 'grad_time_ms': 698.153, 'load_time_ms': 1.499, 'update_time_ms': 2.525}",145200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},145200,cda-server-3,-51.15904062506867
+7ffa6ff4607a442eb508661143530d5b,30100.95377969742,50.0,False,-105.43882619369613,122,2928,1756424518,-58.620452296311754,1566858,1200,2025-08-29_01-41-58,{},236.94337797164917,24,122,30100.95377969742,"{'num_steps_sampled': 146400, 'num_steps_trained': 146400, 'default': {'policy_loss': -0.14042048156261444, 'vf_explained_var': 0.9276683330535889, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 10.557514190673828, 'entropy': 15.92667293548584, 'kl': 0.016386190429329872, 'total_loss': 10.433683395385742}, 'sample_time_ms': 250627.109, 'grad_time_ms': 698.127, 'load_time_ms': 1.5, 'update_time_ms': 2.486}",146400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},146400,cda-server-3,-51.15904062506867
+7ffa6ff4607a442eb508661143530d5b,30326.80412006378,50.0,False,-105.43882619369613,123,2952,1756424744,-58.52559615811242,1566858,1200,2025-08-29_01-45-44,{},225.85034036636353,24,123,30326.80412006378,"{'num_steps_sampled': 147600, 'num_steps_trained': 147600, 'default': {'policy_loss': -0.13525259494781494, 'vf_explained_var': 0.8784549236297607, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 20.95810317993164, 'entropy': 15.93128776550293, 'kl': 0.014947210438549519, 'total_loss': 20.837984085083008}, 'sample_time_ms': 251310.891, 'grad_time_ms': 698.384, 'load_time_ms': 1.545, 'update_time_ms': 2.509}",147600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},147600,cda-server-3,-51.15904062506867
+7ffa6ff4607a442eb508661143530d5b,30578.466166734695,50.0,False,-105.43882619369613,124,2976,1756424996,-57.50727125609862,1566858,1200,2025-08-29_01-49-56,{},251.6620466709137,24,124,30578.466166734695,"{'num_steps_sampled': 148800, 'num_steps_trained': 148800, 'default': {'policy_loss': -0.1361684650182724, 'vf_explained_var': 0.8873589634895325, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 18.034313201904297, 'entropy': 15.900761604309082, 'kl': 0.01829693093895912, 'total_loss': 17.916669845581055}, 'sample_time_ms': 253684.863, 'grad_time_ms': 698.555, 'load_time_ms': 1.553, 'update_time_ms': 2.52}",148800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},148800,cda-server-3,-51.15904062506867
+7ffa6ff4607a442eb508661143530d5b,30794.069765806198,50.0,False,-86.28003722489746,125,3000,1756425211,-56.68986158951923,1566858,1200,2025-08-29_01-53-31,{},215.60359907150269,24,125,30794.069765806198,"{'num_steps_sampled': 150000, 'num_steps_trained': 150000, 'default': {'policy_loss': -0.14660833775997162, 'vf_explained_var': 0.9275010228157043, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 11.063407897949219, 'entropy': 15.772184371948242, 'kl': 0.016784558072686195, 'total_loss': 10.933794021606445}, 'sample_time_ms': 245091.181, 'grad_time_ms': 699.565, 'load_time_ms': 1.515, 'update_time_ms': 2.549}",150000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},150000,cda-server-3,-51.562097171397795
+7ffa6ff4607a442eb508661143530d5b,31028.55344748497,50.0,False,-86.28003722489746,126,3024,1756425446,-56.94375005421898,1566858,1200,2025-08-29_01-57-26,{},234.48368167877197,24,126,31028.55344748497,"{'num_steps_sampled': 151200, 'num_steps_trained': 151200, 'default': {'policy_loss': -0.12616945803165436, 'vf_explained_var': 0.9062788486480713, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 14.618449211120605, 'entropy': 15.753960609436035, 'kl': 0.017071321606636047, 'total_loss': 14.509563446044922}, 'sample_time_ms': 238132.026, 'grad_time_ms': 699.342, 'load_time_ms': 1.5, 'update_time_ms': 2.547}",151200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},151200,cda-server-3,-51.562097171397795
+7ffa6ff4607a442eb508661143530d5b,31243.675163269043,50.0,False,-80.45088177963235,127,3048,1756425661,-56.65103369765881,1566858,1200,2025-08-29_02-01-01,{},215.12171578407288,24,127,31243.675163269043,"{'num_steps_sampled': 152400, 'num_steps_trained': 152400, 'default': {'policy_loss': -0.11479911208152771, 'vf_explained_var': 0.7940958738327026, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 36.7393913269043, 'entropy': 15.598017692565918, 'kl': 0.015916500240564346, 'total_loss': 36.640708923339844}, 'sample_time_ms': 234310.54, 'grad_time_ms': 699.01, 'load_time_ms': 1.489, 'update_time_ms': 2.553}",152400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},152400,cda-server-3,-51.562097171397795
+7ffa6ff4607a442eb508661143530d5b,31459.257354974747,50.0,False,-79.52035184489046,128,3072,1756425876,-56.38341833475086,1566858,1200,2025-08-29_02-04-36,{},215.58219170570374,24,128,31459.257354974747,"{'num_steps_sampled': 153600, 'num_steps_trained': 153600, 'default': {'policy_loss': -0.14602722227573395, 'vf_explained_var': 0.9135898947715759, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 12.709991455078125, 'entropy': 15.712790489196777, 'kl': 0.017770998179912567, 'total_loss': 12.58195686340332}, 'sample_time_ms': 232487.546, 'grad_time_ms': 698.863, 'load_time_ms': 1.556, 'update_time_ms': 2.519}",153600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},153600,cda-server-3,-51.562097171397795
+7ffa6ff4607a442eb508661143530d5b,31731.1027405262,50.0,False,-79.52035184489046,129,3096,1756426148,-56.568582278886524,1566858,1200,2025-08-29_02-09-08,{},271.84538555145264,24,129,31731.1027405262,"{'num_steps_sampled': 154800, 'num_steps_trained': 154800, 'default': {'policy_loss': -0.12171263247728348, 'vf_explained_var': 0.8592672348022461, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 21.35623550415039, 'entropy': 15.582194328308105, 'kl': 0.016301354393363, 'total_loss': 21.251028060913086}, 'sample_time_ms': 237589.432, 'grad_time_ms': 697.683, 'load_time_ms': 1.595, 'update_time_ms': 2.499}",154800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},154800,cda-server-3,-51.830023605268046
+7ffa6ff4607a442eb508661143530d5b,31959.038396835327,50.0,False,-79.52035184489046,130,3120,1756426376,-56.192528320350384,1566858,1200,2025-08-29_02-12-56,{},227.9356563091278,24,130,31959.038396835327,"{'num_steps_sampled': 156000, 'num_steps_trained': 156000, 'default': {'policy_loss': -0.12034373730421066, 'vf_explained_var': 0.9029307961463928, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 14.961315155029297, 'entropy': 15.58940315246582, 'kl': 0.01572321727871895, 'total_loss': 14.856891632080078}, 'sample_time_ms': 234334.761, 'grad_time_ms': 697.659, 'load_time_ms': 1.537, 'update_time_ms': 2.496}",156000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},156000,cda-server-3,-51.19035379947645
+7ffa6ff4607a442eb508661143530d5b,32195.998419046402,50.0,False,-70.91395079921254,131,3144,1756426613,-55.76523066885816,1566858,1200,2025-08-29_02-16-53,{},236.96002221107483,24,131,32195.998419046402,"{'num_steps_sampled': 157200, 'num_steps_trained': 157200, 'default': {'policy_loss': -0.13559547066688538, 'vf_explained_var': 0.9158918857574463, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 12.444634437561035, 'entropy': 15.584784507751465, 'kl': 0.016098035499453545, 'total_loss': 12.325338363647461}, 'sample_time_ms': 232491.655, 'grad_time_ms': 697.978, 'load_time_ms': 1.559, 'update_time_ms': 2.546}",157200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},157200,cda-server-3,-51.09991333542589
+7ffa6ff4607a442eb508661143530d5b,32449.557423353195,50.0,False,-70.91395079921254,132,3168,1756426867,-55.86116142206185,1566858,1200,2025-08-29_02-21-07,{},253.5590043067932,24,132,32449.557423353195,"{'num_steps_sampled': 158400, 'num_steps_trained': 158400, 'default': {'policy_loss': -0.12703874707221985, 'vf_explained_var': 0.926753044128418, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 10.651493072509766, 'entropy': 15.580692291259766, 'kl': 0.016220103949308395, 'total_loss': 10.540875434875488}, 'sample_time_ms': 234153.813, 'grad_time_ms': 697.494, 'load_time_ms': 1.499, 'update_time_ms': 2.553}",158400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},158400,cda-server-3,-51.09991333542589
+7ffa6ff4607a442eb508661143530d5b,32706.75931406021,50.0,False,-93.98838629496043,133,3192,1756427124,-56.2012627641873,1566858,1200,2025-08-29_02-25-24,{},257.201890707016,24,133,32706.75931406021,"{'num_steps_sampled': 159600, 'num_steps_trained': 159600, 'default': {'policy_loss': -0.1338438093662262, 'vf_explained_var': 0.8740109205245972, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 23.77425193786621, 'entropy': 15.500330924987793, 'kl': 0.015482652932405472, 'total_loss': 23.656084060668945}, 'sample_time_ms': 237288.091, 'grad_time_ms': 698.382, 'load_time_ms': 1.487, 'update_time_ms': 2.552}",159600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},159600,cda-server-3,-51.09991333542589
+7ffa6ff4607a442eb508661143530d5b,32972.81243276596,50.0,False,-93.98838629496043,134,3216,1756427390,-56.35912897300799,1566858,1200,2025-08-29_02-29-50,{},266.0531187057495,24,134,32972.81243276596,"{'num_steps_sampled': 160800, 'num_steps_trained': 160800, 'default': {'policy_loss': -0.13807255029678345, 'vf_explained_var': 0.9234582185745239, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 12.561636924743652, 'entropy': 15.425944328308105, 'kl': 0.01584099791944027, 'total_loss': 12.439602851867676}, 'sample_time_ms': 238727.197, 'grad_time_ms': 698.404, 'load_time_ms': 1.465, 'update_time_ms': 2.538}",160800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},160800,cda-server-3,-51.09991333542589
+7ffa6ff4607a442eb508661143530d5b,33229.83745789528,50.0,False,-93.98838629496043,135,3240,1756427647,-56.45386895016317,1566858,1200,2025-08-29_02-34-07,{},257.02502512931824,24,135,33229.83745789528,"{'num_steps_sampled': 162000, 'num_steps_trained': 162000, 'default': {'policy_loss': -0.12910763919353485, 'vf_explained_var': 0.9062867760658264, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 13.637471199035645, 'entropy': 15.366029739379883, 'kl': 0.01572471857070923, 'total_loss': 13.524285316467285}, 'sample_time_ms': 242870.088, 'grad_time_ms': 697.763, 'load_time_ms': 1.412, 'update_time_ms': 2.526}",162000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},162000,cda-server-3,-51.69027924314964
+7ffa6ff4607a442eb508661143530d5b,33496.372004032135,50.0,False,-96.18207900565379,136,3264,1756427914,-56.74371575273542,1566858,1200,2025-08-29_02-38-34,{},266.5345461368561,24,136,33496.372004032135,"{'num_steps_sampled': 163200, 'num_steps_trained': 163200, 'default': {'policy_loss': -0.12022534012794495, 'vf_explained_var': 0.8324052095413208, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 36.34650421142578, 'entropy': 15.361777305603027, 'kl': 0.013458560220897198, 'total_loss': 36.239906311035156}, 'sample_time_ms': 246076.3, 'grad_time_ms': 696.66, 'load_time_ms': 1.378, 'update_time_ms': 2.542}",163200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},163200,cda-server-3,-51.69027924314964
+7ffa6ff4607a442eb508661143530d5b,33734.41650533676,50.0,False,-96.18207900565379,137,3288,1756428152,-56.32144548975378,1566858,1200,2025-08-29_02-42-32,{},238.04450130462646,24,137,33734.41650533676,"{'num_steps_sampled': 164400, 'num_steps_trained': 164400, 'default': {'policy_loss': -0.14246992766857147, 'vf_explained_var': 0.8585296273231506, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 23.249908447265625, 'entropy': 15.368772506713867, 'kl': 0.0162531528621912, 'total_loss': 23.12389373779297}, 'sample_time_ms': 248368.943, 'grad_time_ms': 696.335, 'load_time_ms': 1.371, 'update_time_ms': 2.531}",164400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},164400,cda-server-3,-51.40951762538001
+7ffa6ff4607a442eb508661143530d5b,33984.96528124809,50.0,False,-96.18207900565379,138,3312,1756428402,-55.87355432583267,1566858,1200,2025-08-29_02-46-42,{},250.54877591133118,24,138,33984.96528124809,"{'num_steps_sampled': 165600, 'num_steps_trained': 165600, 'default': {'policy_loss': -0.1364402174949646, 'vf_explained_var': 0.9217305779457092, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 11.053638458251953, 'entropy': 15.37063980102539, 'kl': 0.016554994508624077, 'total_loss': 10.933959007263184}, 'sample_time_ms': 251865.386, 'grad_time_ms': 696.52, 'load_time_ms': 1.384, 'update_time_ms': 2.537}",165600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},165600,cda-server-3,-51.40951762538001
+7ffa6ff4607a442eb508661143530d5b,34215.42980790138,50.0,False,-96.18207900565379,139,3336,1756428633,-55.7571264546207,1566858,1200,2025-08-29_02-50-33,{},230.4645266532898,24,139,34215.42980790138,"{'num_steps_sampled': 166800, 'num_steps_trained': 166800, 'default': {'policy_loss': -0.11645391583442688, 'vf_explained_var': 0.9018339514732361, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 14.361066818237305, 'entropy': 15.37358570098877, 'kl': 0.014754108153283596, 'total_loss': 14.259552001953125}, 'sample_time_ms': 247727.037, 'grad_time_ms': 696.858, 'load_time_ms': 1.332, 'update_time_ms': 2.536}",166800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},166800,cda-server-3,-51.40951762538001
+7ffa6ff4607a442eb508661143530d5b,34444.063520908356,50.0,False,-82.93349279790904,140,3360,1756428861,-55.31171767952917,1566858,1200,2025-08-29_02-54-21,{},228.63371300697327,24,140,34444.063520908356,"{'num_steps_sampled': 168000, 'num_steps_trained': 168000, 'default': {'policy_loss': -0.1265363097190857, 'vf_explained_var': 0.9019301533699036, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 15.231989860534668, 'entropy': 15.134800910949707, 'kl': 0.015528642572462559, 'total_loss': 15.121174812316895}, 'sample_time_ms': 247796.422, 'grad_time_ms': 697.2, 'load_time_ms': 1.367, 'update_time_ms': 2.552}",168000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},168000,cda-server-3,-51.40951762538001
+7ffa6ff4607a442eb508661143530d5b,34734.807121276855,50.0,False,-82.93349279790904,141,3384,1756429152,-55.52611278640221,1566858,1200,2025-08-29_02-59-12,{},290.74360036849976,24,141,34734.807121276855,"{'num_steps_sampled': 169200, 'num_steps_trained': 169200, 'default': {'policy_loss': -0.12432999163866043, 'vf_explained_var': 0.8699341416358948, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 20.217525482177734, 'entropy': 15.227035522460938, 'kl': 0.015340043231844902, 'total_loss': 20.108726501464844}, 'sample_time_ms': 253175.993, 'grad_time_ms': 695.989, 'load_time_ms': 1.347, 'update_time_ms': 2.547}",169200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},169200,cda-server-3,-51.912489943053544
+7ffa6ff4607a442eb508661143530d5b,35009.46830415726,50.0,False,-68.6920622405596,142,3408,1756429427,-55.2943012698868,1566858,1200,2025-08-29_03-03-47,{},274.6611828804016,24,142,35009.46830415726,"{'num_steps_sampled': 170400, 'num_steps_trained': 170400, 'default': {'policy_loss': -0.12539464235305786, 'vf_explained_var': 0.8912346959114075, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 16.17151641845703, 'entropy': 15.258182525634766, 'kl': 0.016979189589619637, 'total_loss': 16.063312530517578}, 'sample_time_ms': 255286.282, 'grad_time_ms': 695.94, 'load_time_ms': 1.322, 'update_time_ms': 2.54}",170400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},170400,cda-server-3,-48.129169098879075
+7ffa6ff4607a442eb508661143530d5b,35289.0909883976,50.0,False,-72.46281944527702,143,3432,1756429706,-55.369224463036765,1566858,1200,2025-08-29_03-08-26,{},279.6226842403412,24,143,35289.0909883976,"{'num_steps_sampled': 171600, 'num_steps_trained': 171600, 'default': {'policy_loss': -0.1365930438041687, 'vf_explained_var': 0.912811279296875, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 13.83117389678955, 'entropy': 15.256481170654297, 'kl': 0.017149154096841812, 'total_loss': 13.711945533752441}, 'sample_time_ms': 257528.771, 'grad_time_ms': 695.525, 'load_time_ms': 1.324, 'update_time_ms': 2.547}",171600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},171600,cda-server-3,-48.129169098879075
+7ffa6ff4607a442eb508661143530d5b,35545.71752953529,50.0,False,-75.52954077212628,144,3456,1756429963,-55.29145726709157,1566858,1200,2025-08-29_03-12-43,{},256.6265411376953,24,144,35545.71752953529,"{'num_steps_sampled': 172800, 'num_steps_trained': 172800, 'default': {'policy_loss': -0.14175564050674438, 'vf_explained_var': 0.9073739647865295, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 15.246339797973633, 'entropy': 15.155366897583008, 'kl': 0.015908382833003998, 'total_loss': 15.120692253112793}, 'sample_time_ms': 256586.634, 'grad_time_ms': 694.93, 'load_time_ms': 1.436, 'update_time_ms': 2.567}",172800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},172800,cda-server-3,-48.129169098879075
+7ffa6ff4607a442eb508661143530d5b,35821.987554073334,50.0,False,-75.52954077212628,145,3480,1756430239,-54.90900760315747,1566858,1200,2025-08-29_03-17-19,{},276.27002453804016,24,145,35821.987554073334,"{'num_steps_sampled': 174000, 'num_steps_trained': 174000, 'default': {'policy_loss': -0.1382271647453308, 'vf_explained_var': 0.9090858101844788, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 13.077757835388184, 'entropy': 15.22294807434082, 'kl': 0.017670560628175735, 'total_loss': 12.95742130279541}, 'sample_time_ms': 258511.631, 'grad_time_ms': 694.44, 'load_time_ms': 1.449, 'update_time_ms': 2.561}",174000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},174000,cda-server-3,-48.129169098879075
+7ffa6ff4607a442eb508661143530d5b,36097.462760448456,50.0,False,-79.94967820860617,146,3504,1756430515,-55.34494379447178,1566858,1200,2025-08-29_03-21-55,{},275.47520637512207,24,146,36097.462760448456,"{'num_steps_sampled': 175200, 'num_steps_trained': 175200, 'default': {'policy_loss': -0.13017256557941437, 'vf_explained_var': 0.8144359588623047, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 34.2513542175293, 'entropy': 15.095757484436035, 'kl': 0.014651145786046982, 'total_loss': 34.136016845703125}, 'sample_time_ms': 259405.121, 'grad_time_ms': 694.972, 'load_time_ms': 1.499, 'update_time_ms': 2.528}",175200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},175200,cda-server-3,-49.86107777805505
+7ffa6ff4607a442eb508661143530d5b,36382.53430700302,50.0,False,-79.94967820860617,147,3528,1756430800,-55.20145012855225,1566858,1200,2025-08-29_03-26-40,{},285.07154655456543,24,147,36382.53430700302,"{'num_steps_sampled': 176400, 'num_steps_trained': 176400, 'default': {'policy_loss': -0.14096269011497498, 'vf_explained_var': 0.9250853657722473, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 10.303423881530762, 'entropy': 15.09123420715332, 'kl': 0.01631304621696472, 'total_loss': 10.178977966308594}, 'sample_time_ms': 264107.325, 'grad_time_ms': 695.414, 'load_time_ms': 1.51, 'update_time_ms': 2.538}",176400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},176400,cda-server-3,-49.86107777805505
+7ffa6ff4607a442eb508661143530d5b,36627.90810227394,50.0,False,-79.94967820860617,148,3552,1756431045,-55.17519078805936,1566858,1200,2025-08-29_03-30-45,{},245.3737952709198,24,148,36627.90810227394,"{'num_steps_sampled': 177600, 'num_steps_trained': 177600, 'default': {'policy_loss': -0.13445059955120087, 'vf_explained_var': 0.8926759362220764, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 16.581031799316406, 'entropy': 14.917000770568848, 'kl': 0.017347920686006546, 'total_loss': 16.46414566040039}, 'sample_time_ms': 263589.876, 'grad_time_ms': 695.333, 'load_time_ms': 1.522, 'update_time_ms': 2.577}",177600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},177600,cda-server-3,-49.868294210863574
+7ffa6ff4607a442eb508661143530d5b,36868.36815214157,50.0,False,-83.15647612467512,149,3576,1756431286,-55.496444152964315,1566858,1200,2025-08-29_03-34-46,{},240.46004986763,24,149,36868.36815214157,"{'num_steps_sampled': 178800, 'num_steps_trained': 178800, 'default': {'policy_loss': -0.1339377909898758, 'vf_explained_var': 0.8692839741706848, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 22.630189895629883, 'entropy': 14.89309310913086, 'kl': 0.014757196418941021, 'total_loss': 22.511194229125977}, 'sample_time_ms': 264588.746, 'grad_time_ms': 695.936, 'load_time_ms': 1.571, 'update_time_ms': 2.617}",178800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},178800,cda-server-3,-49.868294210863574
+7ffa6ff4607a442eb508661143530d5b,37109.659499168396,50.0,False,-83.15647612467512,150,3600,1756431527,-54.72428538909617,1566858,1200,2025-08-29_03-38-47,{},241.29134702682495,24,150,37109.659499168396,"{'num_steps_sampled': 180000, 'num_steps_trained': 180000, 'default': {'policy_loss': -0.12940925359725952, 'vf_explained_var': 0.9131262302398682, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 14.03437614440918, 'entropy': 14.959555625915527, 'kl': 0.016797177493572235, 'total_loss': 13.92197322845459}, 'sample_time_ms': 265853.553, 'grad_time_ms': 696.881, 'load_time_ms': 1.582, 'update_time_ms': 2.599}",180000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},180000,cda-server-3,-50.103271334104306
+7ffa6ff4607a442eb508661143530d5b,37372.81824541092,50.0,False,-83.15647612467512,151,3624,1756431790,-54.95631083997977,1566858,1200,2025-08-29_03-43-10,{},263.1587462425232,24,151,37372.81824541092,"{'num_steps_sampled': 181200, 'num_steps_trained': 181200, 'default': {'policy_loss': -0.13383673131465912, 'vf_explained_var': 0.9046041965484619, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 14.824883460998535, 'entropy': 15.047348022460938, 'kl': 0.015503380447626114, 'total_loss': 14.706741333007812}, 'sample_time_ms': 263094.858, 'grad_time_ms': 697.053, 'load_time_ms': 1.576, 'update_time_ms': 2.585}",181200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},181200,cda-server-3,-50.103271334104306
+7ffa6ff4607a442eb508661143530d5b,37592.00878381729,50.0,False,-83.15647612467512,152,3648,1756432009,-55.042814484307165,1566858,1200,2025-08-29_03-46-49,{},219.19053840637207,24,152,37592.00878381729,"{'num_steps_sampled': 182400, 'num_steps_trained': 182400, 'default': {'policy_loss': -0.14624041318893433, 'vf_explained_var': 0.8944531679153442, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 18.525949478149414, 'entropy': 15.080928802490234, 'kl': 0.017322639003396034, 'total_loss': 18.397249221801758}, 'sample_time_ms': 257547.52, 'grad_time_ms': 697.159, 'load_time_ms': 1.677, 'update_time_ms': 2.615}",182400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},182400,cda-server-3,-50.103271334104306
+7ffa6ff4607a442eb508661143530d5b,37824.8251748085,50.0,False,-76.25276652916195,153,3672,1756432242,-54.80760574942528,1566858,1200,2025-08-29_03-50-42,{},232.81639099121094,24,153,37824.8251748085,"{'num_steps_sampled': 183600, 'num_steps_trained': 183600, 'default': {'policy_loss': -0.12011555582284927, 'vf_explained_var': 0.9176934361457825, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 13.568841934204102, 'entropy': 14.749469757080078, 'kl': 0.015085036866366863, 'total_loss': 13.464000701904297}, 'sample_time_ms': 252867.137, 'grad_time_ms': 696.913, 'load_time_ms': 1.679, 'update_time_ms': 2.613}",183600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},183600,cda-server-3,-51.635439929331795
+7ffa6ff4607a442eb508661143530d5b,38087.21182632446,50.0,False,-76.25276652916195,154,3696,1756432505,-54.710018271540406,1566858,1200,2025-08-29_03-55-05,{},262.3866515159607,24,154,38087.21182632446,"{'num_steps_sampled': 184800, 'num_steps_trained': 184800, 'default': {'policy_loss': -0.11606475710868835, 'vf_explained_var': 0.9142285585403442, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 11.576321601867676, 'entropy': 14.832953453063965, 'kl': 0.01606798730790615, 'total_loss': 11.476527214050293}, 'sample_time_ms': 253442.364, 'grad_time_ms': 697.813, 'load_time_ms': 1.578, 'update_time_ms': 2.592}",184800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},184800,cda-server-3,-51.69439838421866
+7ffa6ff4607a442eb508661143530d5b,38328.99079108238,50.0,False,-71.88802226923642,155,3720,1756432746,-54.24950328876382,1566858,1200,2025-08-29_03-59-06,{},241.7789647579193,24,155,38328.99079108238,"{'num_steps_sampled': 186000, 'num_steps_trained': 186000, 'default': {'policy_loss': -0.12019169330596924, 'vf_explained_var': 0.9199265241622925, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 10.817547798156738, 'entropy': 14.937190055847168, 'kl': 0.0172748900949955, 'total_loss': 10.714847564697266}, 'sample_time_ms': 249993.188, 'grad_time_ms': 697.826, 'load_time_ms': 1.591, 'update_time_ms': 2.591}",186000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},186000,cda-server-3,-51.69439838421866
+7ffa6ff4607a442eb508661143530d5b,38605.58489322662,50.0,False,-60.94899705446273,156,3744,1756433023,-53.82121373845912,1566858,1200,2025-08-29_04-03-43,{},276.59410214424133,24,156,38605.58489322662,"{'num_steps_sampled': 187200, 'num_steps_trained': 187200, 'default': {'policy_loss': -0.11848673224449158, 'vf_explained_var': 0.9233921766281128, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 11.039652824401855, 'entropy': 14.721104621887207, 'kl': 0.016296055167913437, 'total_loss': 10.937665939331055}, 'sample_time_ms': 250104.087, 'grad_time_ms': 698.824, 'load_time_ms': 1.582, 'update_time_ms': 2.591}",187200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},187200,cda-server-3,-51.69439838421866
+7ffa6ff4607a442eb508661143530d5b,38854.769364118576,50.0,False,-87.87251747175968,157,3768,1756433272,-54.420660136849435,1566858,1200,2025-08-29_04-07-52,{},249.18447089195251,24,157,38854.769364118576,"{'num_steps_sampled': 188400, 'num_steps_trained': 188400, 'default': {'policy_loss': -0.11602246761322021, 'vf_explained_var': 0.8534746766090393, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 34.05124282836914, 'entropy': 14.746952056884766, 'kl': 0.014781979843974113, 'total_loss': 33.9501838684082}, 'sample_time_ms': 246516.264, 'grad_time_ms': 697.965, 'load_time_ms': 1.588, 'update_time_ms': 2.589}",188400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},188400,cda-server-3,-51.19677159146877
+7ffa6ff4607a442eb508661143530d5b,39079.19603562355,50.0,False,-87.87251747175968,158,3792,1756433497,-54.49077811088377,1566858,1200,2025-08-29_04-11-37,{},224.42667150497437,24,158,39079.19603562355,"{'num_steps_sampled': 189600, 'num_steps_trained': 189600, 'default': {'policy_loss': -0.1355181485414505, 'vf_explained_var': 0.9379551410675049, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 9.295769691467285, 'entropy': 14.72548770904541, 'kl': 0.015183514915406704, 'total_loss': 9.17562484741211}, 'sample_time_ms': 244421.345, 'grad_time_ms': 698.161, 'load_time_ms': 1.564, 'update_time_ms': 2.575}",189600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},189600,cda-server-3,-51.19677159146877
+7ffa6ff4607a442eb508661143530d5b,39353.902054309845,50.0,False,-87.87251747175968,159,3816,1756433771,-54.94807630013864,1566858,1200,2025-08-29_04-16-11,{},274.70601868629456,24,159,39353.902054309845,"{'num_steps_sampled': 190800, 'num_steps_trained': 190800, 'default': {'policy_loss': -0.13363111019134521, 'vf_explained_var': 0.8988499045372009, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 15.78367805480957, 'entropy': 14.716657638549805, 'kl': 0.015655651688575745, 'total_loss': 15.665897369384766}, 'sample_time_ms': 247846.641, 'grad_time_ms': 697.463, 'load_time_ms': 1.576, 'update_time_ms': 2.555}",190800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},190800,cda-server-3,-51.19677159146877
+7ffa6ff4607a442eb508661143530d5b,39582.731301784515,50.0,False,-87.87251747175968,160,3840,1756434000,-54.99390824289015,1566858,1200,2025-08-29_04-20-00,{},228.8292474746704,24,160,39582.731301784515,"{'num_steps_sampled': 192000, 'num_steps_trained': 192000, 'default': {'policy_loss': -0.13071568310260773, 'vf_explained_var': 0.8984204530715942, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 14.689178466796875, 'entropy': 14.589058876037598, 'kl': 0.016704510897397995, 'total_loss': 14.575374603271484}, 'sample_time_ms': 246600.492, 'grad_time_ms': 697.379, 'load_time_ms': 1.582, 'update_time_ms': 2.557}",192000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},192000,cda-server-3,-51.07453569163501
+7ffa6ff4607a442eb508661143530d5b,39832.147840976715,50.0,False,-72.07512178954435,161,3864,1756434250,-54.470317514482815,1566858,1200,2025-08-29_04-24-10,{},249.4165391921997,24,161,39832.147840976715,"{'num_steps_sampled': 193200, 'num_steps_trained': 193200, 'default': {'policy_loss': -0.12139880657196045, 'vf_explained_var': 0.9051095247268677, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 13.678767204284668, 'entropy': 14.655537605285645, 'kl': 0.015876276418566704, 'total_loss': 13.573442459106445}, 'sample_time_ms': 245226.549, 'grad_time_ms': 697.164, 'load_time_ms': 1.581, 'update_time_ms': 2.564}",193200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},193200,cda-server-3,-49.92447552813607
+7ffa6ff4607a442eb508661143530d5b,40083.27506804466,50.0,False,-72.07512178954435,162,3888,1756434501,-54.33385886284182,1566858,1200,2025-08-29_04-28-21,{},251.1272270679474,24,162,40083.27506804466,"{'num_steps_sampled': 194400, 'num_steps_trained': 194400, 'default': {'policy_loss': -0.11639168858528137, 'vf_explained_var': 0.8642103672027588, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 18.328638076782227, 'entropy': 14.6741943359375, 'kl': 0.016865216195583344, 'total_loss': 18.22932243347168}, 'sample_time_ms': 248419.243, 'grad_time_ms': 698.138, 'load_time_ms': 1.585, 'update_time_ms': 2.543}",194400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},194400,cda-server-3,-49.92447552813607
+7ffa6ff4607a442eb508661143530d5b,40346.9060986042,50.0,False,-65.13800180278425,163,3912,1756434764,-53.99017250932294,1566858,1200,2025-08-29_04-32-44,{},263.6310305595398,24,163,40346.9060986042,"{'num_steps_sampled': 195600, 'num_steps_trained': 195600, 'default': {'policy_loss': -0.0998261496424675, 'vf_explained_var': 0.8992434740066528, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 13.860114097595215, 'entropy': 14.415943145751953, 'kl': 0.016176464036107063, 'total_loss': 13.776667594909668}, 'sample_time_ms': 251501.186, 'grad_time_ms': 697.607, 'load_time_ms': 1.609, 'update_time_ms': 2.552}",195600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},195600,cda-server-3,-49.92447552813607
+7ffa6ff4607a442eb508661143530d5b,40603.62238764763,50.0,False,-65.93216349559958,164,3936,1756435021,-53.87998544779606,1566858,1200,2025-08-29_04-37-01,{},256.7162890434265,24,164,40603.62238764763,"{'num_steps_sampled': 196800, 'num_steps_trained': 196800, 'default': {'policy_loss': -0.14119286835193634, 'vf_explained_var': 0.8982493281364441, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 14.692657470703125, 'entropy': 14.567020416259766, 'kl': 0.01636369712650776, 'total_loss': 14.568032264709473}, 'sample_time_ms': 250935.353, 'grad_time_ms': 696.368, 'load_time_ms': 1.616, 'update_time_ms': 2.555}",196800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},196800,cda-server-3,-49.92447552813607
+7ffa6ff4607a442eb508661143530d5b,40852.17313194275,50.0,False,-65.93216349559958,165,3960,1756435270,-53.61150029783123,1566858,1200,2025-08-29_04-41-10,{},248.55074429512024,24,165,40852.17313194275,"{'num_steps_sampled': 198000, 'num_steps_trained': 198000, 'default': {'policy_loss': -0.1300608515739441, 'vf_explained_var': 0.9516932368278503, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 6.523504257202148, 'entropy': 14.476093292236328, 'kl': 0.017224567010998726, 'total_loss': 6.410882949829102}, 'sample_time_ms': 251613.146, 'grad_time_ms': 695.773, 'load_time_ms': 1.634, 'update_time_ms': 2.543}",198000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},198000,cda-server-3,-50.33426657153577
+7ffa6ff4607a442eb508661143530d5b,41124.5479888916,50.0,False,-65.93216349559958,166,3984,1756435542,-53.50584114911244,1566858,1200,2025-08-29_04-45-42,{},272.37485694885254,24,166,41124.5479888916,"{'num_steps_sampled': 199200, 'num_steps_trained': 199200, 'default': {'policy_loss': -0.13436605036258698, 'vf_explained_var': 0.9507731199264526, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 6.58724308013916, 'entropy': 14.292543411254883, 'kl': 0.016184302046895027, 'total_loss': 6.469264030456543}, 'sample_time_ms': 251192.499, 'grad_time_ms': 694.461, 'load_time_ms': 1.646, 'update_time_ms': 2.536}",199200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},199200,cda-server-3,-50.143069802916855
+7ffa6ff4607a442eb508661143530d5b,41352.61390995979,50.0,False,-65.93216349559958,167,4008,1756435770,-53.56339851585321,1566858,1200,2025-08-29_04-49-30,{},228.06592106819153,24,167,41352.61390995979,"{'num_steps_sampled': 200400, 'num_steps_trained': 200400, 'default': {'policy_loss': -0.1314341276884079, 'vf_explained_var': 0.9463107585906982, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 7.555251121520996, 'entropy': 14.319255828857422, 'kl': 0.016974905505776405, 'total_loss': 7.441004276275635}, 'sample_time_ms': 249078.991, 'grad_time_ms': 696.199, 'load_time_ms': 1.574, 'update_time_ms': 2.54}",200400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},200400,cda-server-3,-50.143069802916855
+7ffa6ff4607a442eb508661143530d5b,41594.20011138916,50.0,False,-61.94201876237128,168,4032,1756436012,-53.30442686539963,1566858,1200,2025-08-29_04-53-32,{},241.58620142936707,24,168,41594.20011138916,"{'num_steps_sampled': 201600, 'num_steps_trained': 201600, 'default': {'policy_loss': -0.12491725385189056, 'vf_explained_var': 0.9548305869102478, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 6.068361759185791, 'entropy': 14.498003005981445, 'kl': 0.017109356820583344, 'total_loss': 5.96076774597168}, 'sample_time_ms': 250794.892, 'grad_time_ms': 696.286, 'load_time_ms': 1.578, 'update_time_ms': 2.534}",201600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},201600,cda-server-3,-50.01706107894995
+7ffa6ff4607a442eb508661143530d5b,41838.673221588135,50.0,False,-70.72055208052299,169,4056,1756436256,-53.589283976993016,1566858,1200,2025-08-29_04-57-36,{},244.4731101989746,24,169,41838.673221588135,"{'num_steps_sampled': 202800, 'num_steps_trained': 202800, 'default': {'policy_loss': -0.12954078614711761, 'vf_explained_var': 0.9378258585929871, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 9.549816131591797, 'entropy': 14.280044555664062, 'kl': 0.016108253970742226, 'total_loss': 9.43658447265625}, 'sample_time_ms': 247771.674, 'grad_time_ms': 696.205, 'load_time_ms': 1.54, 'update_time_ms': 2.535}",202800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},202800,cda-server-3,-50.01706107894995
+7ffa6ff4607a442eb508661143530d5b,42089.681601285934,50.0,False,-70.72055208052299,170,4080,1756436507,-53.57962096219589,1566858,1200,2025-08-29_05-01-47,{},251.00837969779968,24,170,42089.681601285934,"{'num_steps_sampled': 204000, 'num_steps_trained': 204000, 'default': {'policy_loss': -0.12321165949106216, 'vf_explained_var': 0.9296780824661255, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 10.322514533996582, 'entropy': 14.262398719787598, 'kl': 0.014291416853666306, 'total_loss': 10.21377182006836}, 'sample_time_ms': 249990.139, 'grad_time_ms': 695.714, 'load_time_ms': 1.488, 'update_time_ms': 2.565}",204000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},204000,cda-server-3,-49.0508869398342
+7ffa6ff4607a442eb508661143530d5b,42328.8942193985,50.0,False,-70.72055208052299,171,4104,1756436747,-53.66866427174036,1566858,1200,2025-08-29_05-05-47,{},239.2126181125641,24,171,42328.8942193985,"{'num_steps_sampled': 205200, 'num_steps_trained': 205200, 'default': {'policy_loss': -0.12857241928577423, 'vf_explained_var': 0.9397585988044739, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 8.941105842590332, 'entropy': 14.35903263092041, 'kl': 0.016312314197421074, 'total_loss': 8.82905101776123}, 'sample_time_ms': 248969.415, 'grad_time_ms': 696.245, 'load_time_ms': 1.408, 'update_time_ms': 2.521}",205200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},205200,cda-server-3,-49.0508869398342
+7ffa6ff4607a442eb508661143530d5b,42626.244643211365,50.0,False,-70.72055208052299,172,4128,1756437044,-53.580794914051395,1566858,1200,2025-08-29_05-10-44,{},297.3504238128662,24,172,42626.244643211365,"{'num_steps_sampled': 206400, 'num_steps_trained': 206400, 'default': {'policy_loss': -0.12440269440412521, 'vf_explained_var': 0.9441279172897339, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 7.573556900024414, 'entropy': 14.359490394592285, 'kl': 0.016533873975276947, 'total_loss': 7.46589469909668}, 'sample_time_ms': 253592.02, 'grad_time_ms': 695.983, 'load_time_ms': 1.393, 'update_time_ms': 2.517}",206400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},206400,cda-server-3,-49.0508869398342
+7ffa6ff4607a442eb508661143530d5b,42860.58568787575,50.0,False,-70.72055208052299,173,4152,1756437278,-53.7161237568239,1566858,1200,2025-08-29_05-14-38,{},234.34104466438293,24,173,42860.58568787575,"{'num_steps_sampled': 207600, 'num_steps_trained': 207600, 'default': {'policy_loss': -0.12295085936784744, 'vf_explained_var': 0.9145262837409973, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 12.39100170135498, 'entropy': 14.055234909057617, 'kl': 0.016166819259524345, 'total_loss': 12.284420013427734}, 'sample_time_ms': 250662.754, 'grad_time_ms': 696.223, 'load_time_ms': 1.405, 'update_time_ms': 2.533}",207600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},207600,cda-server-3,-49.0508869398342
+7ffa6ff4607a442eb508661143530d5b,43113.22520804405,50.0,False,-86.90779398729012,174,4176,1756437531,-53.890788490715124,1566858,1200,2025-08-29_05-18-51,{},252.63952016830444,24,174,43113.22520804405,"{'num_steps_sampled': 208800, 'num_steps_trained': 208800, 'default': {'policy_loss': -0.13327403366565704, 'vf_explained_var': 0.9170873165130615, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 14.936214447021484, 'entropy': 14.28572940826416, 'kl': 0.014670169912278652, 'total_loss': 14.817794799804688}, 'sample_time_ms': 250254.236, 'grad_time_ms': 697.167, 'load_time_ms': 1.331, 'update_time_ms': 2.562}",208800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},208800,cda-server-3,-50.13486725085076
+7ffa6ff4607a442eb508661143530d5b,43354.569568157196,50.0,False,-86.90779398729012,175,4200,1756437772,-53.70484142252989,1566858,1200,2025-08-29_05-22-52,{},241.34436011314392,24,175,43354.569568157196,"{'num_steps_sampled': 210000, 'num_steps_trained': 210000, 'default': {'policy_loss': -0.1241101399064064, 'vf_explained_var': 0.928949773311615, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 10.733738899230957, 'entropy': 14.182540893554688, 'kl': 0.01592331938445568, 'total_loss': 10.625751495361328}, 'sample_time_ms': 249532.855, 'grad_time_ms': 697.821, 'load_time_ms': 1.38, 'update_time_ms': 2.569}",210000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},210000,cda-server-3,-50.13486725085076
+7ffa6ff4607a442eb508661143530d5b,43621.62365627289,50.0,False,-86.90779398729012,176,4224,1756438039,-53.60701516354529,1566858,1200,2025-08-29_05-27-19,{},267.05408811569214,24,176,43621.62365627289,"{'num_steps_sampled': 211200, 'num_steps_trained': 211200, 'default': {'policy_loss': -0.12065468728542328, 'vf_explained_var': 0.9261561632156372, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 10.087909698486328, 'entropy': 13.944937705993652, 'kl': 0.015050739049911499, 'total_loss': 9.98249340057373}, 'sample_time_ms': 249000.493, 'grad_time_ms': 698.123, 'load_time_ms': 1.361, 'update_time_ms': 2.578}",211200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},211200,cda-server-3,-50.13486725085076
+7ffa6ff4607a442eb508661143530d5b,43901.720831632614,50.0,False,-86.90779398729012,177,4248,1756438319,-53.543342405927405,1566858,1200,2025-08-29_05-31-59,{},280.09717535972595,24,177,43901.720831632614,"{'num_steps_sampled': 212400, 'num_steps_trained': 212400, 'default': {'policy_loss': -0.1298007220029831, 'vf_explained_var': 0.9530531764030457, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 6.61334228515625, 'entropy': 14.069295883178711, 'kl': 0.01683618873357773, 'total_loss': 6.500588417053223}, 'sample_time_ms': 254205.562, 'grad_time_ms': 696.216, 'load_time_ms': 1.348, 'update_time_ms': 2.603}",212400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},212400,cda-server-3,-50.69632375703871
+7ffa6ff4607a442eb508661143530d5b,44153.83974337578,50.0,False,-66.96402946455778,178,4272,1756438572,-53.031808792535166,1566858,1200,2025-08-29_05-36-12,{},252.11891174316406,24,178,44153.83974337578,"{'num_steps_sampled': 213600, 'num_steps_trained': 213600, 'default': {'policy_loss': -0.130199134349823, 'vf_explained_var': 0.9504425525665283, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 6.463962078094482, 'entropy': 13.97944164276123, 'kl': 0.01592904143035412, 'total_loss': 6.349891185760498}, 'sample_time_ms': 255259.466, 'grad_time_ms': 695.531, 'load_time_ms': 1.36, 'update_time_ms': 2.621}",213600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},213600,cda-server-3,-49.36445515990393
+7ffa6ff4607a442eb508661143530d5b,44386.934242248535,50.0,False,-66.96402946455778,179,4296,1756438805,-53.042538560292826,1566858,1200,2025-08-29_05-40-05,{},233.09449887275696,24,179,44386.934242248535,"{'num_steps_sampled': 214800, 'num_steps_trained': 214800, 'default': {'policy_loss': -0.13994605839252472, 'vf_explained_var': 0.9725171327590942, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 3.6190366744995117, 'entropy': 13.99028205871582, 'kl': 0.01614346355199814, 'total_loss': 3.495435953140259}, 'sample_time_ms': 254121.206, 'grad_time_ms': 695.892, 'load_time_ms': 1.397, 'update_time_ms': 2.636}",214800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},214800,cda-server-3,-49.36445515990393
+7ffa6ff4607a442eb508661143530d5b,44641.26664805412,50.0,False,-66.96402946455778,180,4320,1756439059,-53.1373632716962,1566858,1200,2025-08-29_05-44-19,{},254.33240580558777,24,180,44641.26664805412,"{'num_steps_sampled': 216000, 'num_steps_trained': 216000, 'default': {'policy_loss': -0.1175423189997673, 'vf_explained_var': 0.9335753917694092, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 9.291361808776855, 'entropy': 13.877095222473145, 'kl': 0.015891285613179207, 'total_loss': 9.189908981323242}, 'sample_time_ms': 254453.815, 'grad_time_ms': 695.543, 'load_time_ms': 1.494, 'update_time_ms': 2.601}",216000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},216000,cda-server-3,-49.36445515990393
+7ffa6ff4607a442eb508661143530d5b,44861.4182267189,50.0,False,-94.56750234999927,181,4344,1756439279,-53.63649838877152,1566858,1200,2025-08-29_05-47-59,{},220.15157866477966,24,181,44861.4182267189,"{'num_steps_sampled': 217200, 'num_steps_trained': 217200, 'default': {'policy_loss': -0.11929008364677429, 'vf_explained_var': 0.9169760942459106, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 14.88999080657959, 'entropy': 13.808137893676758, 'kl': 0.013675041496753693, 'total_loss': 14.7845458984375}, 'sample_time_ms': 252547.651, 'grad_time_ms': 695.443, 'load_time_ms': 1.57, 'update_time_ms': 2.619}",217200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},217200,cda-server-3,-49.36445515990393
+7ffa6ff4607a442eb508661143530d5b,45094.17157244682,50.0,False,-94.56750234999927,182,4368,1756439512,-53.8451041786324,1566858,1200,2025-08-29_05-51-52,{},232.75334572792053,24,182,45094.17157244682,"{'num_steps_sampled': 218400, 'num_steps_trained': 218400, 'default': {'policy_loss': -0.1277659684419632, 'vf_explained_var': 0.9497382044792175, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 7.0899529457092285, 'entropy': 13.709293365478516, 'kl': 0.015457798726856709, 'total_loss': 6.977838516235352}, 'sample_time_ms': 246088.625, 'grad_time_ms': 694.91, 'load_time_ms': 1.472, 'update_time_ms': 2.614}",218400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},218400,cda-server-3,-49.08233276373182
+7ffa6ff4607a442eb508661143530d5b,45367.272315979004,50.0,False,-94.56750234999927,183,4392,1756439785,-54.12122982188653,1566858,1200,2025-08-29_05-56-25,{},273.1007435321808,24,183,45367.272315979004,"{'num_steps_sampled': 219600, 'num_steps_trained': 219600, 'default': {'policy_loss': -0.11586789041757584, 'vf_explained_var': 0.8821346759796143, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 20.151500701904297, 'entropy': 13.90664291381836, 'kl': 0.012427722103893757, 'total_loss': 20.048213958740234}, 'sample_time_ms': 249965.472, 'grad_time_ms': 694.231, 'load_time_ms': 1.356, 'update_time_ms': 2.572}",219600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},219600,cda-server-3,-49.08233276373182
+7ffa6ff4607a442eb508661143530d5b,45608.537001371384,50.0,False,-94.56750234999927,184,4416,1756440026,-54.261823213783686,1566858,1200,2025-08-29_06-00-26,{},241.26468539237976,24,184,45608.537001371384,"{'num_steps_sampled': 220800, 'num_steps_trained': 220800, 'default': {'policy_loss': -0.1134781688451767, 'vf_explained_var': 0.9582895636558533, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 6.243759632110596, 'entropy': 13.678974151611328, 'kl': 0.013173202984035015, 'total_loss': 6.143619060516357}, 'sample_time_ms': 248827.732, 'grad_time_ms': 694.495, 'load_time_ms': 1.368, 'update_time_ms': 2.567}",220800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},220800,cda-server-3,-49.08233276373182
+7ffa6ff4607a442eb508661143530d5b,45841.35560679436,50.0,False,-80.45771722108525,185,4440,1756440259,-53.90100144491721,1566858,1200,2025-08-29_06-04-19,{},232.81860542297363,24,185,45841.35560679436,"{'num_steps_sampled': 222000, 'num_steps_trained': 222000, 'default': {'policy_loss': -0.12608960270881653, 'vf_explained_var': 0.9605620503425598, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 5.352666854858398, 'entropy': 13.728774070739746, 'kl': 0.016028843820095062, 'total_loss': 5.242806911468506}, 'sample_time_ms': 247974.951, 'grad_time_ms': 694.704, 'load_time_ms': 1.354, 'update_time_ms': 2.577}",222000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},222000,cda-server-3,-49.08233276373182
+7ffa6ff4607a442eb508661143530d5b,46075.51358270645,50.0,False,-103.01053707639123,186,4464,1756440493,-54.77867174185004,1566858,1200,2025-08-29_06-08-13,{},234.15797591209412,24,186,46075.51358270645,"{'num_steps_sampled': 223200, 'num_steps_trained': 223200, 'default': {'policy_loss': -0.1334741711616516, 'vf_explained_var': 0.8342825174331665, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 47.81349563598633, 'entropy': 13.694595336914062, 'kl': 0.012813089415431023, 'total_loss': 47.69300079345703}, 'sample_time_ms': 244685.472, 'grad_time_ms': 694.641, 'load_time_ms': 1.328, 'update_time_ms': 2.575}",223200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},223200,cda-server-3,-49.99546774844703
+7ffa6ff4607a442eb508661143530d5b,46318.27295923233,50.0,False,-103.01053707639123,187,4488,1756440736,-54.5534802284662,1566858,1200,2025-08-29_06-12-16,{},242.7593765258789,24,187,46318.27295923233,"{'num_steps_sampled': 224400, 'num_steps_trained': 224400, 'default': {'policy_loss': -0.12978488206863403, 'vf_explained_var': 0.9535620212554932, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 6.927732467651367, 'entropy': 13.717631340026855, 'kl': 0.016308149322867393, 'total_loss': 6.814460277557373}, 'sample_time_ms': 240951.392, 'grad_time_ms': 694.812, 'load_time_ms': 1.384, 'update_time_ms': 2.555}",224400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},224400,cda-server-3,-49.99546774844703
+7ffa6ff4607a442eb508661143530d5b,46580.00093770027,50.0,False,-103.01053707639123,188,4512,1756440998,-54.33199623642102,1566858,1200,2025-08-29_06-16-38,{},261.7279784679413,24,188,46580.00093770027,"{'num_steps_sampled': 225600, 'num_steps_trained': 225600, 'default': {'policy_loss': -0.14069527387619019, 'vf_explained_var': 0.9462458491325378, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 7.247664451599121, 'entropy': 13.783607482910156, 'kl': 0.017661113291978836, 'total_loss': 7.124850749969482}, 'sample_time_ms': 241911.574, 'grad_time_ms': 695.705, 'load_time_ms': 1.292, 'update_time_ms': 2.557}",225600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},225600,cda-server-3,-50.05406011084624
+7ffa6ff4607a442eb508661143530d5b,46799.67392349243,50.0,False,-103.01053707639123,189,4536,1756441217,-54.52519962590397,1566858,1200,2025-08-29_06-20-17,{},219.67298579216003,24,189,46799.67392349243,"{'num_steps_sampled': 226800, 'num_steps_trained': 226800, 'default': {'policy_loss': -0.1274680346250534, 'vf_explained_var': 0.9378973841667175, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 9.567581176757812, 'entropy': 13.739153861999512, 'kl': 0.016897717490792274, 'total_loss': 9.457221984863281}, 'sample_time_ms': 240568.3, 'grad_time_ms': 696.809, 'load_time_ms': 1.279, 'update_time_ms': 2.566}",226800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},226800,cda-server-3,-50.05406011084624
+7ffa6ff4607a442eb508661143530d5b,47040.63526558876,50.0,False,-103.01053707639123,190,4560,1756441458,-53.97254179020705,1566858,1200,2025-08-29_06-24-18,{},240.96134209632874,24,190,47040.63526558876,"{'num_steps_sampled': 228000, 'num_steps_trained': 228000, 'default': {'policy_loss': -0.12781214714050293, 'vf_explained_var': 0.9580786824226379, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 6.02968168258667, 'entropy': 13.766950607299805, 'kl': 0.017274074256420135, 'total_loss': 5.9193596839904785}, 'sample_time_ms': 239230.328, 'grad_time_ms': 697.689, 'load_time_ms': 1.28, 'update_time_ms': 2.571}",228000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},228000,cda-server-3,-50.59615050914242
+7ffa6ff4607a442eb508661143530d5b,47280.122878313065,50.0,False,-101.10936583155627,191,4584,1756441698,-54.279260741314474,1566858,1200,2025-08-29_06-28-18,{},239.4876127243042,24,191,47280.122878313065,"{'num_steps_sampled': 229200, 'num_steps_trained': 229200, 'default': {'policy_loss': -0.11484278738498688, 'vf_explained_var': 0.8638635277748108, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 30.318471908569336, 'entropy': 13.744145393371582, 'kl': 0.013898147270083427, 'total_loss': 30.21769905090332}, 'sample_time_ms': 241163.985, 'grad_time_ms': 697.753, 'load_time_ms': 1.198, 'update_time_ms': 2.583}",229200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},229200,cda-server-3,-50.59615050914242
+7ffa6ff4607a442eb508661143530d5b,47572.10169816017,50.0,False,-101.10936583155627,192,4608,1756441990,-54.16387812212497,1566858,1200,2025-08-29_06-33-10,{},291.97881984710693,24,192,47572.10169816017,"{'num_steps_sampled': 230400, 'num_steps_trained': 230400, 'default': {'policy_loss': -0.12756960093975067, 'vf_explained_var': 0.9341971278190613, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 9.284131050109863, 'entropy': 13.830009460449219, 'kl': 0.014379401691257954, 'total_loss': 9.171121597290039}, 'sample_time_ms': 247086.161, 'grad_time_ms': 697.944, 'load_time_ms': 1.293, 'update_time_ms': 2.578}",230400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},230400,cda-server-3,-50.59615050914242
+7ffa6ff4607a442eb508661143530d5b,47812.417081832886,50.0,False,-101.10936583155627,193,4632,1756442230,-53.96007896743721,1566858,1200,2025-08-29_06-37-10,{},240.31538367271423,24,193,47812.417081832886,"{'num_steps_sampled': 231600, 'num_steps_trained': 231600, 'default': {'policy_loss': -0.12245944887399673, 'vf_explained_var': 0.9257941842079163, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 10.380656242370605, 'entropy': 13.640023231506348, 'kl': 0.015688113868236542, 'total_loss': 10.274081230163574}, 'sample_time_ms': 243806.656, 'grad_time_ms': 698.762, 'load_time_ms': 1.389, 'update_time_ms': 2.619}",231600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},231600,cda-server-3,-50.59615050914242
+7ffa6ff4607a442eb508661143530d5b,48095.95903515816,50.0,False,-101.10936583155627,194,4656,1756442514,-54.306236617855,1566858,1200,2025-08-29_06-41-54,{},283.5419533252716,24,194,48095.95903515816,"{'num_steps_sampled': 232800, 'num_steps_trained': 232800, 'default': {'policy_loss': -0.1166752278804779, 'vf_explained_var': 0.8864515423774719, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 21.87663459777832, 'entropy': 13.669998168945312, 'kl': 0.013523032888770103, 'total_loss': 21.773651123046875}, 'sample_time_ms': 248034.822, 'grad_time_ms': 698.258, 'load_time_ms': 1.439, 'update_time_ms': 2.586}",232800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},232800,cda-server-3,-50.90256704987865
+7ffa6ff4607a442eb508661143530d5b,48327.729848623276,50.0,False,-89.07687021099098,195,4680,1756442746,-53.548609026782785,1566858,1200,2025-08-29_06-45-46,{},231.7708134651184,24,195,48327.729848623276,"{'num_steps_sampled': 234000, 'num_steps_trained': 234000, 'default': {'policy_loss': -0.10917246341705322, 'vf_explained_var': 0.9413497447967529, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 9.061535835266113, 'entropy': 13.525612831115723, 'kl': 0.013985957019031048, 'total_loss': 8.96652603149414}, 'sample_time_ms': 247929.484, 'grad_time_ms': 698.848, 'load_time_ms': 1.42, 'update_time_ms': 2.59}",234000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},234000,cda-server-3,-51.49734124044208
+7ffa6ff4607a442eb508661143530d5b,48549.923015117645,50.0,False,-89.07687021099098,196,4704,1756442968,-53.54348130786682,1566858,1200,2025-08-29_06-49-28,{},222.1931664943695,24,196,48549.923015117645,"{'num_steps_sampled': 235200, 'num_steps_trained': 235200, 'default': {'policy_loss': -0.1291184425354004, 'vf_explained_var': 0.949661374092102, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 6.641875267028809, 'entropy': 13.663838386535645, 'kl': 0.015983549878001213, 'total_loss': 6.528940200805664}, 'sample_time_ms': 246731.703, 'grad_time_ms': 700.173, 'load_time_ms': 1.401, 'update_time_ms': 2.595}",235200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},235200,cda-server-3,-50.9655152146521
+7ffa6ff4607a442eb508661143530d5b,48802.114077329636,50.0,False,-89.07687021099098,197,4728,1756443220,-53.34710076680881,1566858,1200,2025-08-29_06-53-40,{},252.19106221199036,24,197,48802.114077329636,"{'num_steps_sampled': 236400, 'num_steps_trained': 236400, 'default': {'policy_loss': -0.12881432473659515, 'vf_explained_var': 0.9463976621627808, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 7.419828414916992, 'entropy': 13.690502166748047, 'kl': 0.015713712200522423, 'total_loss': 7.306924819946289}, 'sample_time_ms': 247675.32, 'grad_time_ms': 699.706, 'load_time_ms': 1.417, 'update_time_ms': 2.593}",236400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},236400,cda-server-3,-49.31600089328854
+7ffa6ff4607a442eb508661143530d5b,49033.07736849785,50.0,False,-62.32068669276827,198,4752,1756443451,-53.089172422911425,1566858,1200,2025-08-29_06-57-31,{},230.9632911682129,24,198,49033.07736849785,"{'num_steps_sampled': 237600, 'num_steps_trained': 237600, 'default': {'policy_loss': -0.1262063831090927, 'vf_explained_var': 0.9186666011810303, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 11.172323226928711, 'entropy': 13.764321327209473, 'kl': 0.014617557637393475, 'total_loss': 11.060917854309082}, 'sample_time_ms': 244599.413, 'grad_time_ms': 698.993, 'load_time_ms': 1.506, 'update_time_ms': 2.574}",237600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},237600,cda-server-3,-49.31600089328854
+7ffa6ff4607a442eb508661143530d5b,49260.586948394775,50.0,False,-62.32068669276827,199,4776,1756443678,-52.896120268548586,1566858,1200,2025-08-29_07-01-18,{},227.50957989692688,24,199,49260.586948394775,"{'num_steps_sampled': 238800, 'num_steps_trained': 238800, 'default': {'policy_loss': -0.131291925907135, 'vf_explained_var': 0.9453469514846802, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 7.727341651916504, 'entropy': 13.57127571105957, 'kl': 0.016682572662830353, 'total_loss': 7.612940311431885}, 'sample_time_ms': 245384.726, 'grad_time_ms': 697.371, 'load_time_ms': 1.513, 'update_time_ms': 2.578}",238800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},238800,cda-server-3,-49.2260156024492
+7ffa6ff4607a442eb508661143530d5b,49541.825184345245,50.0,False,-63.96882214668029,200,4800,1756443960,-53.008628398442994,1566858,1200,2025-08-29_07-06-00,{},281.23823595046997,24,200,49541.825184345245,"{'num_steps_sampled': 240000, 'num_steps_trained': 240000, 'default': {'policy_loss': -0.12226442247629166, 'vf_explained_var': 0.9560834169387817, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 6.315108776092529, 'entropy': 13.709651947021484, 'kl': 0.014527440071105957, 'total_loss': 6.207553386688232}, 'sample_time_ms': 249413.369, 'grad_time_ms': 696.563, 'load_time_ms': 1.415, 'update_time_ms': 2.597}",240000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},240000,cda-server-3,-49.2260156024492
+7ffa6ff4607a442eb508661143530d5b,49783.74181032181,50.0,False,-63.96882214668029,201,4824,1756444202,-52.91975331889113,1566858,1200,2025-08-29_07-10-02,{},241.9166259765625,24,201,49783.74181032181,"{'num_steps_sampled': 241200, 'num_steps_trained': 241200, 'default': {'policy_loss': -0.13792450726032257, 'vf_explained_var': 0.9654067158699036, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 4.6045002937316895, 'entropy': 13.688363075256348, 'kl': 0.015577022917568684, 'total_loss': 4.4823479652404785}, 'sample_time_ms': 249655.821, 'grad_time_ms': 696.887, 'load_time_ms': 1.501, 'update_time_ms': 2.586}",241200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},241200,cda-server-3,-49.2260156024492
+7ffa6ff4607a442eb508661143530d5b,50030.31158399582,50.0,False,-105.25511476379766,202,4848,1756444448,-53.19758526213469,1566858,1200,2025-08-29_07-14-08,{},246.56977367401123,24,202,50030.31158399582,"{'num_steps_sampled': 242400, 'num_steps_trained': 242400, 'default': {'policy_loss': -0.0947578102350235, 'vf_explained_var': 0.8161755204200745, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 43.95417785644531, 'entropy': 13.589754104614258, 'kl': 0.009557071141898632, 'total_loss': 43.86909866333008}, 'sample_time_ms': 245114.838, 'grad_time_ms': 696.965, 'load_time_ms': 1.498, 'update_time_ms': 2.586}",242400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},242400,cda-server-3,-48.98603498873693
+7ffa6ff4607a442eb508661143530d5b,50312.89493370056,50.0,False,-105.25511476379766,203,4872,1756444731,-53.27160994877568,1566858,1200,2025-08-29_07-18-51,{},282.58334970474243,24,203,50312.89493370056,"{'num_steps_sampled': 243600, 'num_steps_trained': 243600, 'default': {'policy_loss': -0.12207228690385818, 'vf_explained_var': 0.9586093425750732, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 5.939465045928955, 'entropy': 13.629680633544922, 'kl': 0.016084210947155952, 'total_loss': 5.833678245544434}, 'sample_time_ms': 249342.276, 'grad_time_ms': 696.344, 'load_time_ms': 1.497, 'update_time_ms': 2.542}",243600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},243600,cda-server-3,-48.98603498873693
+7ffa6ff4607a442eb508661143530d5b,50540.21925139427,50.0,False,-105.25511476379766,204,4896,1756444958,-53.370897240358936,1566858,1200,2025-08-29_07-22-38,{},227.32431769371033,24,204,50540.21925139427,"{'num_steps_sampled': 244800, 'num_steps_trained': 244800, 'default': {'policy_loss': -0.134691059589386, 'vf_explained_var': 0.9489078521728516, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 6.949552536010742, 'entropy': 13.448970794677734, 'kl': 0.017023924738168716, 'total_loss': 6.832098007202148}, 'sample_time_ms': 243720.45, 'grad_time_ms': 696.352, 'load_time_ms': 1.522, 'update_time_ms': 2.551}",244800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},244800,cda-server-3,-48.98603498873693
+7ffa6ff4607a442eb508661143530d5b,50779.589007377625,50.0,False,-105.25511476379766,205,4920,1756445197,-53.458245488786794,1566858,1200,2025-08-29_07-26-37,{},239.36975598335266,24,205,50779.589007377625,"{'num_steps_sampled': 246000, 'num_steps_trained': 246000, 'default': {'policy_loss': -0.12922601401805878, 'vf_explained_var': 0.9597580432891846, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 5.400381088256836, 'entropy': 13.406126022338867, 'kl': 0.017056623473763466, 'total_loss': 5.288424968719482}, 'sample_time_ms': 244481.14, 'grad_time_ms': 695.513, 'load_time_ms': 1.551, 'update_time_ms': 2.528}",246000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},246000,cda-server-3,-48.98603498873693
+7ffa6ff4607a442eb508661143530d5b,51067.62697553635,50.0,False,-58.935624792842,206,4944,1756445486,-53.01138822250478,1566858,1200,2025-08-29_07-31-26,{},288.0379681587219,24,206,51067.62697553635,"{'num_steps_sampled': 247200, 'num_steps_trained': 247200, 'default': {'policy_loss': -0.1171593964099884, 'vf_explained_var': 0.9476562142372131, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 6.902299880981445, 'entropy': 13.519577026367188, 'kl': 0.01573404110968113, 'total_loss': 6.801071643829346}, 'sample_time_ms': 251066.806, 'grad_time_ms': 694.24, 'load_time_ms': 1.59, 'update_time_ms': 2.545}",247200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},247200,cda-server-3,-51.01486236176433
+7ffa6ff4607a442eb508661143530d5b,51325.64721798897,50.0,False,-59.954047230685426,207,4968,1756445744,-53.17399045538728,1566858,1200,2025-08-29_07-35-44,{},258.02024245262146,24,207,51325.64721798897,"{'num_steps_sampled': 248400, 'num_steps_trained': 248400, 'default': {'policy_loss': -0.12967216968536377, 'vf_explained_var': 0.9467138648033142, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 7.576404094696045, 'entropy': 13.4369478225708, 'kl': 0.01681762933731079, 'total_loss': 7.4637603759765625}, 'sample_time_ms': 251649.088, 'grad_time_ms': 694.83, 'load_time_ms': 1.601, 'update_time_ms': 2.567}",248400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},248400,cda-server-3,-51.01486236176433
+7ffa6ff4607a442eb508661143530d5b,51613.95212769508,50.0,False,-61.44569830893842,208,4992,1756446032,-53.11367069586581,1566858,1200,2025-08-29_07-40-32,{},288.3049097061157,24,208,51613.95212769508,"{'num_steps_sampled': 249600, 'num_steps_trained': 249600, 'default': {'policy_loss': -0.12367913126945496, 'vf_explained_var': 0.9593546986579895, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 5.667877674102783, 'entropy': 13.433245658874512, 'kl': 0.015404744073748589, 'total_loss': 5.55979585647583}, 'sample_time_ms': 257382.956, 'grad_time_ms': 695.117, 'load_time_ms': 1.613, 'update_time_ms': 2.55}",249600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},249600,cda-server-3,-50.029668242570246
+7ffa6ff4607a442eb508661143530d5b,51856.40980172157,50.0,False,-71.96171297636684,209,5016,1756446274,-53.29923892735492,1566858,1200,2025-08-29_07-44-34,{},242.45767402648926,24,209,51856.40980172157,"{'num_steps_sampled': 250800, 'num_steps_trained': 250800, 'default': {'policy_loss': -0.13099414110183716, 'vf_explained_var': 0.9026677012443542, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 15.419004440307617, 'entropy': 13.460000991821289, 'kl': 0.015934377908706665, 'total_loss': 15.304142951965332}, 'sample_time_ms': 258877.945, 'grad_time_ms': 695.007, 'load_time_ms': 1.564, 'update_time_ms': 2.538}",250800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},250800,cda-server-3,-48.49890370956543
+7ffa6ff4607a442eb508661143530d5b,52074.34491252899,50.0,False,-76.06146106644461,210,5040,1756446492,-53.62399428423448,1566858,1200,2025-08-29_07-48-12,{},217.93511080741882,24,210,52074.34491252899,"{'num_steps_sampled': 252000, 'num_steps_trained': 252000, 'default': {'policy_loss': -0.12491732090711594, 'vf_explained_var': 0.8966451287269592, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 20.819692611694336, 'entropy': 13.459056854248047, 'kl': 0.014209000393748283, 'total_loss': 20.70915985107422}, 'sample_time_ms': 252547.281, 'grad_time_ms': 695.311, 'load_time_ms': 1.597, 'update_time_ms': 2.512}",252000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},252000,cda-server-3,-48.49890370956543
+7ffa6ff4607a442eb508661143530d5b,52310.4198474884,50.0,False,-88.33545886911972,211,5064,1756446728,-53.6863478223295,1566858,1200,2025-08-29_07-52-08,{},236.07493495941162,24,211,52310.4198474884,"{'num_steps_sampled': 253200, 'num_steps_trained': 253200, 'default': {'policy_loss': -0.1190461590886116, 'vf_explained_var': 0.9395532608032227, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 11.596328735351562, 'entropy': 13.170246124267578, 'kl': 0.013326210901141167, 'total_loss': 11.490775108337402}, 'sample_time_ms': 251962.736, 'grad_time_ms': 695.664, 'load_time_ms': 1.599, 'update_time_ms': 2.514}",253200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},253200,cda-server-3,-48.40327379293791
+7ffa6ff4607a442eb508661143530d5b,52538.71108055115,50.0,False,-88.33545886911972,212,5088,1756446957,-53.62617516991392,1566858,1200,2025-08-29_07-55-57,{},228.29123306274414,24,212,52538.71108055115,"{'num_steps_sampled': 254400, 'num_steps_trained': 254400, 'default': {'policy_loss': -0.1376982182264328, 'vf_explained_var': 0.9368199110031128, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 9.25528621673584, 'entropy': 13.441559791564941, 'kl': 0.01579122245311737, 'total_loss': 9.133577346801758}, 'sample_time_ms': 250135.485, 'grad_time_ms': 695.088, 'load_time_ms': 1.609, 'update_time_ms': 2.514}",254400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},254400,cda-server-3,-48.388893830147204
+7ffa6ff4607a442eb508661143530d5b,52778.71068429947,50.0,False,-88.33545886911972,213,5112,1756447197,-54.284821358814376,1566858,1200,2025-08-29_07-59-57,{},239.99960374832153,24,213,52778.71068429947,"{'num_steps_sampled': 255600, 'num_steps_trained': 255600, 'default': {'policy_loss': -0.13345371186733246, 'vf_explained_var': 0.9282054901123047, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 12.236493110656738, 'entropy': 13.436868667602539, 'kl': 0.01283181644976139, 'total_loss': 12.116031646728516}, 'sample_time_ms': 245877.083, 'grad_time_ms': 695.115, 'load_time_ms': 1.61, 'update_time_ms': 2.515}",255600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},255600,cda-server-3,-48.388893830147204
+7ffa6ff4607a442eb508661143530d5b,53024.146672964096,50.0,False,-88.33545886911972,214,5136,1756447442,-53.82445902246092,1566858,1200,2025-08-29_08-04-02,{},245.43598866462708,24,214,53024.146672964096,"{'num_steps_sampled': 256800, 'num_steps_trained': 256800, 'default': {'policy_loss': -0.12373081594705582, 'vf_explained_var': 0.9054085612297058, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 16.972644805908203, 'entropy': 13.323928833007812, 'kl': 0.013606571592390537, 'total_loss': 16.86269187927246}, 'sample_time_ms': 247686.897, 'grad_time_ms': 696.479, 'load_time_ms': 1.586, 'update_time_ms': 2.517}",256800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},256800,cda-server-3,-48.388893830147204
+7ffa6ff4607a442eb508661143530d5b,53255.89246845245,50.0,False,-81.13652323493616,215,5160,1756447674,-53.73372533272343,1566858,1200,2025-08-29_08-07-54,{},231.74579548835754,24,215,53255.89246845245,"{'num_steps_sampled': 258000, 'num_steps_trained': 258000, 'default': {'policy_loss': -0.11627980321645737, 'vf_explained_var': 0.9099230170249939, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 14.198071479797363, 'entropy': 13.262800216674805, 'kl': 0.01339254342019558, 'total_loss': 14.095352172851562}, 'sample_time_ms': 246925.159, 'grad_time_ms': 695.831, 'load_time_ms': 1.562, 'update_time_ms': 2.554}",258000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},258000,cda-server-3,-48.388893830147204
+7ffa6ff4607a442eb508661143530d5b,53515.743619441986,50.0,False,-92.46390703641067,216,5184,1756447934,-53.932576924530615,1566858,1200,2025-08-29_08-12-14,{},259.85115098953247,24,216,53515.743619441986,"{'num_steps_sampled': 259200, 'num_steps_trained': 259200, 'default': {'policy_loss': -0.12003253400325775, 'vf_explained_var': 0.9072751998901367, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 15.475444793701172, 'entropy': 13.39101505279541, 'kl': 0.013980243355035782, 'total_loss': 15.36956787109375}, 'sample_time_ms': 244104.479, 'grad_time_ms': 697.843, 'load_time_ms': 1.577, 'update_time_ms': 2.535}",259200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},259200,cda-server-3,-47.03767859697603
+7ffa6ff4607a442eb508661143530d5b,53759.407838344574,50.0,False,-92.46390703641067,217,5208,1756448177,-53.47457909992057,1566858,1200,2025-08-29_08-16-17,{},243.6642189025879,24,217,53759.407838344574,"{'num_steps_sampled': 260400, 'num_steps_trained': 260400, 'default': {'policy_loss': -0.13741131126880646, 'vf_explained_var': 0.9654526114463806, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 4.5877685546875, 'entropy': 13.240228652954102, 'kl': 0.01664682850241661, 'total_loss': 4.467211723327637}, 'sample_time_ms': 242669.242, 'grad_time_ms': 697.574, 'load_time_ms': 1.573, 'update_time_ms': 2.499}",260400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},260400,cda-server-3,-47.03767859697603
+7ffa6ff4607a442eb508661143530d5b,53989.52684402466,50.0,False,-92.46390703641067,218,5232,1756448408,-53.09185593325324,1566858,1200,2025-08-29_08-20-08,{},230.11900568008423,24,218,53989.52684402466,"{'num_steps_sampled': 261600, 'num_steps_trained': 261600, 'default': {'policy_loss': -0.1212388426065445, 'vf_explained_var': 0.9537698030471802, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 6.838181495666504, 'entropy': 13.423412322998047, 'kl': 0.017338156700134277, 'total_loss': 6.7344970703125}, 'sample_time_ms': 236850.174, 'grad_time_ms': 698.088, 'load_time_ms': 1.564, 'update_time_ms': 2.498}",261600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},261600,cda-server-3,-47.03767859697603
+7ffa6ff4607a442eb508661143530d5b,54236.05536913872,50.0,False,-92.46390703641067,219,5256,1756448654,-53.0488133532636,1566858,1200,2025-08-29_08-24-14,{},246.52852511405945,24,219,54236.05536913872,"{'num_steps_sampled': 262800, 'num_steps_trained': 262800, 'default': {'policy_loss': -0.12424381822347641, 'vf_explained_var': 0.9722467064857483, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 3.777590751647949, 'entropy': 13.256404876708984, 'kl': 0.016340035945177078, 'total_loss': 3.669891357421875}, 'sample_time_ms': 237256.053, 'grad_time_ms': 699.231, 'load_time_ms': 1.612, 'update_time_ms': 2.504}",262800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},262800,cda-server-3,-47.03767859697603
+7ffa6ff4607a442eb508661143530d5b,54476.720437288284,50.0,False,-59.73112114747605,220,5280,1756448895,-52.58953990415711,1566858,1200,2025-08-29_08-28-15,{},240.66506814956665,24,220,54476.720437288284,"{'num_steps_sampled': 264000, 'num_steps_trained': 264000, 'default': {'policy_loss': -0.1257346272468567, 'vf_explained_var': 0.9700483679771423, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 3.909719705581665, 'entropy': 13.458242416381836, 'kl': 0.01716863550245762, 'total_loss': 3.801368236541748}, 'sample_time_ms': 239528.368, 'grad_time_ms': 699.809, 'load_time_ms': 1.663, 'update_time_ms': 2.522}",264000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},264000,cda-server-3,-49.35778091512252
+7ffa6ff4607a442eb508661143530d5b,54716.46133208275,50.0,False,-59.73112114747605,221,5304,1756449135,-52.64133109806006,1566858,1200,2025-08-29_08-32-15,{},239.7408947944641,24,221,54716.46133208275,"{'num_steps_sampled': 265200, 'num_steps_trained': 265200, 'default': {'policy_loss': -0.12260796129703522, 'vf_explained_var': 0.9685428142547607, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 4.314360618591309, 'entropy': 13.286518096923828, 'kl': 0.015742920339107513, 'total_loss': 4.207692623138428}, 'sample_time_ms': 239897.071, 'grad_time_ms': 697.716, 'load_time_ms': 1.677, 'update_time_ms': 2.503}",265200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},265200,cda-server-3,-49.35778091512252
+7ffa6ff4607a442eb508661143530d5b,54962.24299144745,50.0,False,-59.73112114747605,222,5328,1756449380,-52.525968282336315,1566858,1200,2025-08-29_08-36-20,{},245.78165936470032,24,222,54962.24299144745,"{'num_steps_sampled': 266400, 'num_steps_trained': 266400, 'default': {'policy_loss': -0.12170767784118652, 'vf_explained_var': 0.9610524773597717, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 5.0196027755737305, 'entropy': 13.212718963623047, 'kl': 0.01548507995903492, 'total_loss': 4.913573741912842}, 'sample_time_ms': 241645.905, 'grad_time_ms': 697.901, 'load_time_ms': 1.665, 'update_time_ms': 2.55}",266400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},266400,cda-server-3,-49.00649469013475
+7ffa6ff4607a442eb508661143530d5b,55248.51720046997,50.0,False,-83.55056700243956,223,5352,1756449667,-52.698129910872005,1566858,1200,2025-08-29_08-41-07,{},286.274209022522,24,223,55248.51720046997,"{'num_steps_sampled': 267600, 'num_steps_trained': 267600, 'default': {'policy_loss': -0.12211109697818756, 'vf_explained_var': 0.9223343729972839, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 13.342047691345215, 'entropy': 13.361546516418457, 'kl': 0.012498829513788223, 'total_loss': 13.23259162902832}, 'sample_time_ms': 246272.877, 'grad_time_ms': 698.403, 'load_time_ms': 1.68, 'update_time_ms': 2.542}",267600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},267600,cda-server-3,-49.00649469013475
+7ffa6ff4607a442eb508661143530d5b,55457.6604681015,50.0,False,-83.55056700243956,224,5376,1756449876,-52.71015166295291,1566858,1200,2025-08-29_08-44-36,{},209.14326763153076,24,224,55457.6604681015,"{'num_steps_sampled': 268800, 'num_steps_trained': 268800, 'default': {'policy_loss': -0.13790854811668396, 'vf_explained_var': 0.9650555849075317, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 4.732025623321533, 'entropy': 13.232372283935547, 'kl': 0.01659400947391987, 'total_loss': 4.610918045043945}, 'sample_time_ms': 242643.923, 'grad_time_ms': 698.085, 'load_time_ms': 1.7, 'update_time_ms': 2.541}",268800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},268800,cda-server-3,-49.00649469013475
+7ffa6ff4607a442eb508661143530d5b,55714.48773908615,50.0,False,-83.55056700243956,225,5400,1756450133,-52.85868581510861,1566858,1200,2025-08-29_08-48-53,{},256.82727098464966,24,225,55714.48773908615,"{'num_steps_sampled': 270000, 'num_steps_trained': 270000, 'default': {'policy_loss': -0.13200251758098602, 'vf_explained_var': 0.9513610005378723, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 6.916146278381348, 'entropy': 13.240900993347168, 'kl': 0.016578860580921173, 'total_loss': 6.800930023193359}, 'sample_time_ms': 245150.936, 'grad_time_ms': 699.226, 'load_time_ms': 1.708, 'update_time_ms': 2.534}",270000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},270000,cda-server-3,-49.00649469013475
+7ffa6ff4607a442eb508661143530d5b,55974.45828509331,50.0,False,-83.55056700243956,226,5424,1756450393,-52.82738876249813,1566858,1200,2025-08-29_08-53-13,{},259.9705460071564,24,226,55974.45828509331,"{'num_steps_sampled': 271200, 'num_steps_trained': 271200, 'default': {'policy_loss': -0.12473750114440918, 'vf_explained_var': 0.9689039587974548, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 4.646268844604492, 'entropy': 13.287884712219238, 'kl': 0.01698196679353714, 'total_loss': 4.538724899291992}, 'sample_time_ms': 245165.588, 'grad_time_ms': 696.612, 'load_time_ms': 1.62, 'update_time_ms': 2.564}",271200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},271200,cda-server-3,-49.016792454608456
+7ffa6ff4607a442eb508661143530d5b,56223.66062140465,50.0,False,-79.4545443855248,227,5448,1756450642,-52.9500375272901,1566858,1200,2025-08-29_08-57-22,{},249.20233631134033,24,227,56223.66062140465,"{'num_steps_sampled': 272400, 'num_steps_trained': 272400, 'default': {'policy_loss': -0.10819558054208755, 'vf_explained_var': 0.8816754817962646, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 23.217864990234375, 'entropy': 13.26015853881836, 'kl': 0.012501864694058895, 'total_loss': 23.12232780456543}, 'sample_time_ms': 245719.133, 'grad_time_ms': 696.818, 'load_time_ms': 1.61, 'update_time_ms': 2.574}",272400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},272400,cda-server-3,-49.268852078605434
+7ffa6ff4607a442eb508661143530d5b,56507.24248743057,50.0,False,-79.4545443855248,228,5472,1756450925,-52.91810579853349,1566858,1200,2025-08-29_09-02-05,{},283.5818660259247,24,228,56507.24248743057,"{'num_steps_sampled': 273600, 'num_steps_trained': 273600, 'default': {'policy_loss': -0.10992512106895447, 'vf_explained_var': 0.944269597530365, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 7.72075080871582, 'entropy': 13.22465705871582, 'kl': 0.016507161781191826, 'total_loss': 7.627538204193115}, 'sample_time_ms': 251065.61, 'grad_time_ms': 696.614, 'load_time_ms': 1.599, 'update_time_ms': 2.572}",273600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},273600,cda-server-3,-49.98911850932992
+7ffa6ff4607a442eb508661143530d5b,56702.564005851746,50.0,False,-79.4545443855248,229,5496,1756451121,-52.85347165246375,1566858,1200,2025-08-29_09-05-21,{},195.3215184211731,24,229,56702.564005851746,"{'num_steps_sampled': 274800, 'num_steps_trained': 274800, 'default': {'policy_loss': -0.1320653110742569, 'vf_explained_var': 0.9556113481521606, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 6.415472984313965, 'entropy': 13.11414909362793, 'kl': 0.016584740951657295, 'total_loss': 6.300199508666992}, 'sample_time_ms': 245944.854, 'grad_time_ms': 696.672, 'load_time_ms': 1.598, 'update_time_ms': 2.527}",274800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},274800,cda-server-3,-49.98911850932992
+7ffa6ff4607a442eb508661143530d5b,56951.91757917404,50.0,False,-79.4545443855248,230,5520,1756451370,-52.92350903145639,1566858,1200,2025-08-29_09-09-30,{},249.35357332229614,24,230,56951.91757917404,"{'num_steps_sampled': 276000, 'num_steps_trained': 276000, 'default': {'policy_loss': -0.11662941426038742, 'vf_explained_var': 0.9661198854446411, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 4.510845184326172, 'entropy': 13.191387176513672, 'kl': 0.01542899664491415, 'total_loss': 4.40983772277832}, 'sample_time_ms': 246813.773, 'grad_time_ms': 696.606, 'load_time_ms': 1.602, 'update_time_ms': 2.518}",276000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},276000,cda-server-3,-50.02913413293667
+7ffa6ff4607a442eb508661143530d5b,57180.85185909271,50.0,False,-66.7089208892692,231,5544,1756451599,-52.592358692493825,1566858,1200,2025-08-29_09-13-19,{},228.93427991867065,24,231,57180.85185909271,"{'num_steps_sampled': 277200, 'num_steps_trained': 277200, 'default': {'policy_loss': -0.13687659800052643, 'vf_explained_var': 0.9492168426513672, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 6.889738082885742, 'entropy': 12.978316307067871, 'kl': 0.01719477027654648, 'total_loss': 6.770271301269531}, 'sample_time_ms': 245731.909, 'grad_time_ms': 697.838, 'load_time_ms': 1.582, 'update_time_ms': 2.513}",277200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},277200,cda-server-3,-49.17351010815454
+7ffa6ff4607a442eb508661143530d5b,57436.04451966286,50.0,False,-66.7089208892692,232,5568,1756451854,-52.62568365697358,1566858,1200,2025-08-29_09-17-34,{},255.19266057014465,24,232,57436.04451966286,"{'num_steps_sampled': 278400, 'num_steps_trained': 278400, 'default': {'policy_loss': -0.14635403454303741, 'vf_explained_var': 0.9654095768928528, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 4.514674186706543, 'entropy': 13.11203384399414, 'kl': 0.016351299360394478, 'total_loss': 4.384875774383545}, 'sample_time_ms': 246673.487, 'grad_time_ms': 697.352, 'load_time_ms': 1.581, 'update_time_ms': 2.472}",278400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},278400,cda-server-3,-49.17351010815454
+7ffa6ff4607a442eb508661143530d5b,57669.30855512619,50.0,False,-66.7089208892692,233,5592,1756452087,-52.547124175309,1566858,1200,2025-08-29_09-21-27,{},233.26403546333313,24,233,57669.30855512619,"{'num_steps_sampled': 279600, 'num_steps_trained': 279600, 'default': {'policy_loss': -0.14203177392482758, 'vf_explained_var': 0.965411901473999, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 4.680802822113037, 'entropy': 13.123396873474121, 'kl': 0.015472842380404472, 'total_loss': 4.554436683654785}, 'sample_time_ms': 241372.063, 'grad_time_ms': 697.741, 'load_time_ms': 1.555, 'update_time_ms': 2.509}",279600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},279600,cda-server-3,-49.17351010815454
+7ffa6ff4607a442eb508661143530d5b,57916.46813702583,50.0,False,-66.7089208892692,234,5616,1756452335,-52.47950947759737,1566858,1200,2025-08-29_09-25-35,{},247.15958189964294,24,234,57916.46813702583,"{'num_steps_sampled': 280800, 'num_steps_trained': 280800, 'default': {'policy_loss': -0.1272757351398468, 'vf_explained_var': 0.9736604690551758, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 3.4182353019714355, 'entropy': 13.120083808898926, 'kl': 0.01562454178929329, 'total_loss': 3.306779384613037}, 'sample_time_ms': 245174.253, 'grad_time_ms': 697.181, 'load_time_ms': 1.549, 'update_time_ms': 2.539}",280800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},280800,cda-server-3,-49.17351010815454
+7ffa6ff4607a442eb508661143530d5b,58124.95299601555,50.0,False,-66.7089208892692,235,5640,1756452543,-52.54500402832971,1566858,1200,2025-08-29_09-29-03,{},208.48485898971558,24,235,58124.95299601555,"{'num_steps_sampled': 282000, 'num_steps_trained': 282000, 'default': {'policy_loss': -0.11984744668006897, 'vf_explained_var': 0.9667076468467712, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 4.498193740844727, 'entropy': 12.998368263244629, 'kl': 0.014812729321420193, 'total_loss': 4.393343925476074}, 'sample_time_ms': 240340.756, 'grad_time_ms': 696.409, 'load_time_ms': 1.566, 'update_time_ms': 2.515}",282000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},282000,cda-server-3,-49.879847194777106
+7ffa6ff4607a442eb508661143530d5b,58354.85333657265,50.0,False,-63.120537966067694,236,5664,1756452773,-52.38867305401343,1566858,1200,2025-08-29_09-32-53,{},229.9003405570984,24,236,58354.85333657265,"{'num_steps_sampled': 283200, 'num_steps_trained': 283200, 'default': {'policy_loss': -0.12795832753181458, 'vf_explained_var': 0.9684709906578064, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 4.145485877990723, 'entropy': 12.91740894317627, 'kl': 0.01682090386748314, 'total_loss': 4.0345587730407715}, 'sample_time_ms': 237333.004, 'grad_time_ms': 697.025, 'load_time_ms': 1.646, 'update_time_ms': 2.515}",283200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},283200,cda-server-3,-49.41547090352766
+7ffa6ff4607a442eb508661143530d5b,58596.74061131477,50.0,False,-63.120537966067694,237,5688,1756453015,-52.378672504431236,1566858,1200,2025-08-29_09-36-55,{},241.88727474212646,24,237,58596.74061131477,"{'num_steps_sampled': 284400, 'num_steps_trained': 284400, 'default': {'policy_loss': -0.12086444348096848, 'vf_explained_var': 0.9703031182289124, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 4.048018932342529, 'entropy': 13.210933685302734, 'kl': 0.01684574969112873, 'total_loss': 3.944211006164551}, 'sample_time_ms': 236600.769, 'grad_time_ms': 697.81, 'load_time_ms': 1.621, 'update_time_ms': 2.511}",284400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},284400,cda-server-3,-49.41547090352766
+7ffa6ff4607a442eb508661143530d5b,58796.771169900894,50.0,False,-62.37009129837001,238,5712,1756453215,-52.37850576015482,1566858,1200,2025-08-29_09-40-15,{},200.0305585861206,24,238,58796.771169900894,"{'num_steps_sampled': 285600, 'num_steps_trained': 285600, 'default': {'policy_loss': -0.1238275095820427, 'vf_explained_var': 0.9677734375, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 4.313910484313965, 'entropy': 12.92751693725586, 'kl': 0.015617319382727146, 'total_loss': 4.205895900726318}, 'sample_time_ms': 228245.691, 'grad_time_ms': 697.581, 'load_time_ms': 1.699, 'update_time_ms': 2.532}",285600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},285600,cda-server-3,-49.41547090352766
+7ffa6ff4607a442eb508661143530d5b,59026.676966905594,50.0,False,-95.4942763001984,239,5736,1756453445,-52.737142631935086,1566858,1200,2025-08-29_09-44-05,{},229.9057970046997,24,239,59026.676966905594,"{'num_steps_sampled': 286800, 'num_steps_trained': 286800, 'default': {'policy_loss': -0.13358724117279053, 'vf_explained_var': 0.9385756254196167, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 12.510951042175293, 'entropy': 12.898584365844727, 'kl': 0.01375828217715025, 'total_loss': 12.391292572021484}, 'sample_time_ms': 231704.422, 'grad_time_ms': 697.294, 'load_time_ms': 1.688, 'update_time_ms': 2.559}",286800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},286800,cda-server-3,-49.21767791815008
+7ffa6ff4607a442eb508661143530d5b,59265.3185608387,50.0,False,-95.4942763001984,240,5760,1756453684,-52.989287994986306,1566858,1200,2025-08-29_09-48-04,{},238.64159393310547,24,240,59265.3185608387,"{'num_steps_sampled': 288000, 'num_steps_trained': 288000, 'default': {'policy_loss': -0.12578149139881134, 'vf_explained_var': 0.9672372341156006, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 4.648038864135742, 'entropy': 12.954557418823242, 'kl': 0.01652970165014267, 'total_loss': 4.5389933586120605}, 'sample_time_ms': 230634.254, 'grad_time_ms': 696.269, 'load_time_ms': 1.702, 'update_time_ms': 2.559}",288000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},288000,cda-server-3,-49.21767791815008
+7ffa6ff4607a442eb508661143530d5b,59519.89746642113,50.0,False,-106.44784318134155,241,5784,1756453938,-53.59184756133134,1566858,1200,2025-08-29_09-52-18,{},254.57890558242798,24,241,59519.89746642113,"{'num_steps_sampled': 289200, 'num_steps_trained': 289200, 'default': {'policy_loss': -0.11200863867998123, 'vf_explained_var': 0.9398728609085083, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 11.982730865478516, 'entropy': 12.876962661743164, 'kl': 0.012609120458364487, 'total_loss': 11.883487701416016}, 'sample_time_ms': 233197.913, 'grad_time_ms': 697.002, 'load_time_ms': 1.706, 'update_time_ms': 2.571}",289200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},289200,cda-server-3,-49.21767791815008
+7ffa6ff4607a442eb508661143530d5b,59724.84717440605,50.0,False,-106.44784318134155,242,5808,1756454143,-53.62086601566846,1566858,1200,2025-08-29_09-55-43,{},204.94970798492432,24,242,59724.84717440605,"{'num_steps_sampled': 290400, 'num_steps_trained': 290400, 'default': {'policy_loss': -0.12599098682403564, 'vf_explained_var': 0.9540507793426514, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 6.292912483215332, 'entropy': 12.756505966186523, 'kl': 0.015495683066546917, 'total_loss': 6.182610511779785}, 'sample_time_ms': 228172.987, 'grad_time_ms': 697.602, 'load_time_ms': 1.711, 'update_time_ms': 2.593}",290400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},290400,cda-server-3,-49.21767791815008
+7ffa6ff4607a442eb508661143530d5b,59956.89122271538,50.0,False,-106.44784318134155,243,5832,1756454375,-53.901326526581414,1566858,1200,2025-08-29_09-59-35,{},232.04404830932617,24,243,59956.89122271538,"{'num_steps_sampled': 291600, 'num_steps_trained': 291600, 'default': {'policy_loss': -0.12324307858943939, 'vf_explained_var': 0.9141952991485596, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 14.333452224731445, 'entropy': 13.002093315124512, 'kl': 0.014958103187382221, 'total_loss': 14.225353240966797}, 'sample_time_ms': 228052.492, 'grad_time_ms': 696.181, 'load_time_ms': 1.651, 'update_time_ms': 2.577}",291600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},291600,cda-server-3,-49.21767791815008
+7ffa6ff4607a442eb508661143530d5b,60170.40907239914,50.0,False,-106.44784318134155,244,5856,1756454589,-53.29756909889751,1566858,1200,2025-08-29_10-03-09,{},213.5178496837616,24,244,60170.40907239914,"{'num_steps_sampled': 292800, 'num_steps_trained': 292800, 'default': {'policy_loss': -0.13375505805015564, 'vf_explained_var': 0.97227942943573, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 3.7006442546844482, 'entropy': 12.993228912353516, 'kl': 0.016853027045726776, 'total_loss': 3.5839526653289795}, 'sample_time_ms': 224688.31, 'grad_time_ms': 696.174, 'load_time_ms': 1.645, 'update_time_ms': 2.576}",292800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},292800,cda-server-3,-49.240560247852144
+7ffa6ff4607a442eb508661143530d5b,60411.574466466904,50.0,False,-76.23910984773836,245,5880,1756454830,-52.81890130686282,1566858,1200,2025-08-29_10-07-10,{},241.16539406776428,24,245,60411.574466466904,"{'num_steps_sampled': 294000, 'num_steps_trained': 294000, 'default': {'policy_loss': -0.1345943808555603, 'vf_explained_var': 0.9743247628211975, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 3.4963855743408203, 'entropy': 12.831571578979492, 'kl': 0.016198769211769104, 'total_loss': 3.378192186355591}, 'sample_time_ms': 227954.699, 'grad_time_ms': 697.876, 'load_time_ms': 1.628, 'update_time_ms': 2.576}",294000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},294000,cda-server-3,-49.240560247852144
+7ffa6ff4607a442eb508661143530d5b,60602.57510614395,50.0,False,-76.23910984773836,246,5904,1756455021,-52.90135958003802,1566858,1200,2025-08-29_10-10-21,{},191.00063967704773,24,246,60602.57510614395,"{'num_steps_sampled': 295200, 'num_steps_trained': 295200, 'default': {'policy_loss': -0.1390654593706131, 'vf_explained_var': 0.9514430165290833, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 6.642275810241699, 'entropy': 12.809523582458496, 'kl': 0.018181614577770233, 'total_loss': 6.52161979675293}, 'sample_time_ms': 224064.105, 'grad_time_ms': 698.505, 'load_time_ms': 1.624, 'update_time_ms': 2.565}",295200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},295200,cda-server-3,-49.240560247852144
+7ffa6ff4607a442eb508661143530d5b,60830.046969652176,50.0,False,-65.48786138168421,247,5928,1756455248,-52.881967742395965,1566858,1200,2025-08-29_10-14-08,{},227.4718635082245,24,247,60830.046969652176,"{'num_steps_sampled': 296400, 'num_steps_trained': 296400, 'default': {'policy_loss': -0.13701820373535156, 'vf_explained_var': 0.9588128328323364, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 5.714297771453857, 'entropy': 12.85362720489502, 'kl': 0.017220674082636833, 'total_loss': 5.594715595245361}, 'sample_time_ms': 222621.545, 'grad_time_ms': 699.502, 'load_time_ms': 1.664, 'update_time_ms': 2.558}",296400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},296400,cda-server-3,-51.05344091696414
+7ffa6ff4607a442eb508661143530d5b,61065.82716369629,50.0,False,-65.48786138168421,248,5952,1756455484,-52.927681770163744,1566858,1200,2025-08-29_10-18-04,{},235.78019404411316,24,248,61065.82716369629,"{'num_steps_sampled': 297600, 'num_steps_trained': 297600, 'default': {'policy_loss': -0.1399531066417694, 'vf_explained_var': 0.9703459143638611, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 4.2092742919921875, 'entropy': 12.845855712890625, 'kl': 0.01608450338244438, 'total_loss': 4.085606575012207}, 'sample_time_ms': 226196.996, 'grad_time_ms': 699.192, 'load_time_ms': 1.588, 'update_time_ms': 2.532}",297600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},297600,cda-server-3,-51.05344091696414
+7ffa6ff4607a442eb508661143530d5b,61246.74543738365,50.0,False,-65.48786138168421,249,5976,1756455665,-52.78914995655172,1566858,1200,2025-08-29_10-21-05,{},180.91827368736267,24,249,61246.74543738365,"{'num_steps_sampled': 298800, 'num_steps_trained': 298800, 'default': {'policy_loss': -0.11524263024330139, 'vf_explained_var': 0.9645593166351318, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 4.863693714141846, 'entropy': 12.834324836730957, 'kl': 0.01413909625262022, 'total_loss': 4.762767314910889}, 'sample_time_ms': 221299.41, 'grad_time_ms': 698.133, 'load_time_ms': 1.508, 'update_time_ms': 2.56}",298800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},298800,cda-server-3,-50.57447261648545
+7ffa6ff4607a442eb508661143530d5b,61500.9609041214,50.0,False,-70.8772337757874,250,6000,1756455919,-52.827164561053394,1566858,1200,2025-08-29_10-25-19,{},254.2154667377472,24,250,61500.9609041214,"{'num_steps_sampled': 300000, 'num_steps_trained': 300000, 'default': {'policy_loss': -0.12152360379695892, 'vf_explained_var': 0.9502347111701965, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 8.935587882995605, 'entropy': 12.682344436645508, 'kl': 0.01290571317076683, 'total_loss': 8.827131271362305}, 'sample_time_ms': 222856.172, 'grad_time_ms': 698.697, 'load_time_ms': 1.507, 'update_time_ms': 2.556}",300000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},300000,cda-server-3,-49.381404257923435
+7ffa6ff4607a442eb508661143530d5b,61727.96933889389,50.0,False,-80.43938479448286,251,6024,1756456146,-52.932297495206534,1566858,1200,2025-08-29_10-29-06,{},227.00843477249146,24,251,61727.96933889389,"{'num_steps_sampled': 301200, 'num_steps_trained': 301200, 'default': {'policy_loss': -0.124129518866539, 'vf_explained_var': 0.9445521831512451, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 9.515353202819824, 'entropy': 12.694993019104004, 'kl': 0.013231638818979263, 'total_loss': 9.404621124267578}, 'sample_time_ms': 220099.801, 'grad_time_ms': 698.036, 'load_time_ms': 1.503, 'update_time_ms': 2.569}",301200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},301200,cda-server-3,-49.381404257923435
+7ffa6ff4607a442eb508661143530d5b,61935.81016087532,50.0,False,-83.02410042439696,252,6048,1756456354,-53.23362229005515,1566858,1200,2025-08-29_10-32-34,{},207.84082198143005,24,252,61935.81016087532,"{'num_steps_sampled': 302400, 'num_steps_trained': 302400, 'default': {'policy_loss': -0.1158803403377533, 'vf_explained_var': 0.8811068534851074, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 23.63001823425293, 'entropy': 12.623221397399902, 'kl': 0.012091527692973614, 'total_loss': 23.52638053894043}, 'sample_time_ms': 220389.057, 'grad_time_ms': 698.046, 'load_time_ms': 1.442, 'update_time_ms': 2.575}",302400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},302400,cda-server-3,-48.46283934118226
+7ffa6ff4607a442eb508661143530d5b,62156.379033088684,50.0,False,-83.02410042439696,253,6072,1756456575,-53.11197609884594,1566858,1200,2025-08-29_10-36-15,{},220.56887221336365,24,253,62156.379033088684,"{'num_steps_sampled': 303600, 'num_steps_trained': 303600, 'default': {'policy_loss': -0.12129177153110504, 'vf_explained_var': 0.9589307308197021, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 5.636325836181641, 'entropy': 12.391603469848633, 'kl': 0.016065770760178566, 'total_loss': 5.531301021575928}, 'sample_time_ms': 219241.656, 'grad_time_ms': 697.976, 'load_time_ms': 1.409, 'update_time_ms': 2.556}",303600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},303600,cda-server-3,-48.46283934118226
+7ffa6ff4607a442eb508661143530d5b,62395.67424201965,50.0,False,-83.02410042439696,254,6096,1756456814,-52.897401643507685,1566858,1200,2025-08-29_10-40-14,{},239.29520893096924,24,254,62395.67424201965,"{'num_steps_sampled': 304800, 'num_steps_trained': 304800, 'default': {'policy_loss': -0.13790710270404816, 'vf_explained_var': 0.9639573693275452, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 4.655649185180664, 'entropy': 12.867449760437012, 'kl': 0.016777753829956055, 'total_loss': 4.53472900390625}, 'sample_time_ms': 221819.661, 'grad_time_ms': 697.707, 'load_time_ms': 1.409, 'update_time_ms': 2.544}",304800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},304800,cda-server-3,-46.975067536221076
+7ffa6ff4607a442eb508661143530d5b,62574.46407747269,50.0,False,-83.02410042439696,255,6120,1756456993,-53.09295997154534,1566858,1200,2025-08-29_10-43-13,{},178.78983545303345,24,255,62574.46407747269,"{'num_steps_sampled': 306000, 'num_steps_trained': 306000, 'default': {'policy_loss': -0.1259656399488449, 'vf_explained_var': 0.9383307695388794, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 10.441603660583496, 'entropy': 12.83752727508545, 'kl': 0.012530826032161713, 'total_loss': 10.328326225280762}, 'sample_time_ms': 215582.737, 'grad_time_ms': 697.005, 'load_time_ms': 1.445, 'update_time_ms': 2.567}",306000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},306000,cda-server-3,-46.975067536221076
+7ffa6ff4607a442eb508661143530d5b,62805.72783088684,50.0,False,-83.02410042439696,256,6144,1756457224,-52.69068645877551,1566858,1200,2025-08-29_10-47-04,{},231.26375341415405,24,256,62805.72783088684,"{'num_steps_sampled': 307200, 'num_steps_trained': 307200, 'default': {'policy_loss': -0.11372081190347672, 'vf_explained_var': 0.9600616097450256, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 5.309256553649902, 'entropy': 12.717082977294922, 'kl': 0.015648726373910904, 'total_loss': 5.211379528045654}, 'sample_time_ms': 219609.757, 'grad_time_ms': 696.257, 'load_time_ms': 1.456, 'update_time_ms': 2.573}",307200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},307200,cda-server-3,-46.975067536221076
+7ffa6ff4607a442eb508661143530d5b,63022.77389717102,50.0,False,-76.95679255815752,257,6168,1756457441,-52.35233045584228,1566858,1200,2025-08-29_10-50-41,{},217.0460662841797,24,257,63022.77389717102,"{'num_steps_sampled': 308400, 'num_steps_trained': 308400, 'default': {'policy_loss': -0.14049550890922546, 'vf_explained_var': 0.9665980935096741, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 4.424448490142822, 'entropy': 12.783870697021484, 'kl': 0.015212688595056534, 'total_loss': 4.299355983734131}, 'sample_time_ms': 218569.116, 'grad_time_ms': 694.29, 'load_time_ms': 1.439, 'update_time_ms': 2.611}",308400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},308400,cda-server-3,-46.975067536221076
+7ffa6ff4607a442eb508661143530d5b,63204.996910095215,50.0,False,-76.95679255815752,258,6192,1756457623,-52.605614783542904,1566858,1200,2025-08-29_10-53-43,{},182.22301292419434,24,258,63204.996910095215,"{'num_steps_sampled': 309600, 'num_steps_trained': 309600, 'default': {'policy_loss': -0.11564840376377106, 'vf_explained_var': 0.9276121854782104, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 11.025399208068848, 'entropy': 12.666180610656738, 'kl': 0.01288242544978857, 'total_loss': 10.922794342041016}, 'sample_time_ms': 213212.693, 'grad_time_ms': 695.016, 'load_time_ms': 1.456, 'update_time_ms': 2.624}",309600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},309600,cda-server-3,-48.96675049775499
+7ffa6ff4607a442eb508661143530d5b,63413.304302453995,50.0,False,-79.38376949820108,259,6216,1756457832,-52.79132498828461,1566858,1200,2025-08-29_10-57-12,{},208.3073923587799,24,259,63413.304302453995,"{'num_steps_sampled': 310800, 'num_steps_trained': 310800, 'default': {'policy_loss': -0.13469654321670532, 'vf_explained_var': 0.9125310182571411, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 14.25716781616211, 'entropy': 12.729401588439941, 'kl': 0.014358220621943474, 'total_loss': 14.13701057434082}, 'sample_time_ms': 215951.335, 'grad_time_ms': 695.194, 'load_time_ms': 1.538, 'update_time_ms': 2.573}",310800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},310800,cda-server-3,-48.96675049775499
+7ffa6ff4607a442eb508661143530d5b,63619.37710595131,50.0,False,-79.38376949820108,260,6240,1756458038,-53.09396680432882,1566858,1200,2025-08-29_11-00-38,{},206.07280349731445,24,260,63619.37710595131,"{'num_steps_sampled': 312000, 'num_steps_trained': 312000, 'default': {'policy_loss': -0.12505127489566803, 'vf_explained_var': 0.9432923197746277, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 9.74711799621582, 'entropy': 12.539690017700195, 'kl': 0.013607031665742397, 'total_loss': 9.635843276977539}, 'sample_time_ms': 211137.637, 'grad_time_ms': 694.838, 'load_time_ms': 1.436, 'update_time_ms': 2.583}",312000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},312000,cda-server-3,-48.96675049775499
+7ffa6ff4607a442eb508661143530d5b,63809.00711917877,50.0,False,-79.38376949820108,261,6264,1756458227,-53.28716145224107,1566858,1200,2025-08-29_11-03-47,{},189.63001322746277,24,261,63809.00711917877,"{'num_steps_sampled': 313200, 'num_steps_trained': 313200, 'default': {'policy_loss': -0.12509626150131226, 'vf_explained_var': 0.9446278810501099, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 8.04684829711914, 'entropy': 12.705997467041016, 'kl': 0.014072345569729805, 'total_loss': 7.936000347137451}, 'sample_time_ms': 207399.587, 'grad_time_ms': 695.059, 'load_time_ms': 1.451, 'update_time_ms': 2.572}",313200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},313200,cda-server-3,-49.004492976462004
+7ffa6ff4607a442eb508661143530d5b,64035.38051056862,50.0,False,-79.38376949820108,262,6288,1756458454,-53.4176266055403,1566858,1200,2025-08-29_11-07-34,{},226.3733913898468,24,262,64035.38051056862,"{'num_steps_sampled': 314400, 'num_steps_trained': 314400, 'default': {'policy_loss': -0.13777390122413635, 'vf_explained_var': 0.9654431939125061, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 4.891932964324951, 'entropy': 12.455157279968262, 'kl': 0.015701068565249443, 'total_loss': 4.770056247711182}, 'sample_time_ms': 209252.26, 'grad_time_ms': 695.58, 'load_time_ms': 1.509, 'update_time_ms': 2.548}",314400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},314400,cda-server-3,-49.004492976462004
+7ffa6ff4607a442eb508661143530d5b,64277.10109376907,50.0,False,-83.8225622835028,263,6312,1756458696,-53.768203859822826,1566858,1200,2025-08-29_11-11-36,{},241.7205832004547,24,263,64277.10109376907,"{'num_steps_sampled': 315600, 'num_steps_trained': 315600, 'default': {'policy_loss': -0.11208131909370422, 'vf_explained_var': 0.8933252692222595, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 17.854284286499023, 'entropy': 12.356292724609375, 'kl': 0.01158389076590538, 'total_loss': 17.753929138183594}, 'sample_time_ms': 211366.547, 'grad_time_ms': 696.315, 'load_time_ms': 1.607, 'update_time_ms': 2.583}",315600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},315600,cda-server-3,-49.782612914095786
+7ffa6ff4607a442eb508661143530d5b,64485.63278698921,50.0,False,-83.8225622835028,264,6336,1756458904,-53.170355109342026,1566858,1200,2025-08-29_11-15-04,{},208.53169322013855,24,264,64485.63278698921,"{'num_steps_sampled': 316800, 'num_steps_trained': 316800, 'default': {'policy_loss': -0.14228513836860657, 'vf_explained_var': 0.9692507982254028, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 4.200347900390625, 'entropy': 12.575531005859375, 'kl': 0.01658741384744644, 'total_loss': 4.074857711791992}, 'sample_time_ms': 208290.047, 'grad_time_ms': 696.472, 'load_time_ms': 1.609, 'update_time_ms': 2.566}",316800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},316800,cda-server-3,-50.16941653944491
+7ffa6ff4607a442eb508661143530d5b,64703.80116915703,50.0,False,-83.8225622835028,265,6360,1756459122,-53.07160473149186,1566858,1200,2025-08-29_11-18-42,{},218.16838216781616,24,265,64703.80116915703,"{'num_steps_sampled': 318000, 'num_steps_trained': 318000, 'default': {'policy_loss': -0.13435477018356323, 'vf_explained_var': 0.9649702906608582, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 4.764406681060791, 'entropy': 12.417465209960938, 'kl': 0.015358511358499527, 'total_loss': 4.645602703094482}, 'sample_time_ms': 212228.495, 'grad_time_ms': 695.929, 'load_time_ms': 1.58, 'update_time_ms': 2.549}",318000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},318000,cda-server-3,-46.99046521985731
+7ffa6ff4607a442eb508661143530d5b,64931.42123794556,50.0,False,-83.8225622835028,266,6384,1756459350,-52.872884910836525,1566858,1200,2025-08-29_11-22-30,{},227.62006878852844,24,266,64931.42123794556,"{'num_steps_sampled': 319200, 'num_steps_trained': 319200, 'default': {'policy_loss': -0.12467009574174881, 'vf_explained_var': 0.97074294090271, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 3.9884033203125, 'entropy': 12.425530433654785, 'kl': 0.01615087501704693, 'total_loss': 3.8800861835479736}, 'sample_time_ms': 211864.165, 'grad_time_ms': 696.02, 'load_time_ms': 1.503, 'update_time_ms': 2.543}",319200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},319200,cda-server-3,-46.99046521985731
+7ffa6ff4607a442eb508661143530d5b,65124.32090330124,50.0,False,-63.57036311703964,267,6408,1756459543,-52.37472990453051,1566858,1200,2025-08-29_11-25-43,{},192.89966535568237,24,267,65124.32090330124,"{'num_steps_sampled': 320400, 'num_steps_trained': 320400, 'default': {'policy_loss': -0.13256537914276123, 'vf_explained_var': 0.957770586013794, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 5.696261405944824, 'entropy': 12.094939231872559, 'kl': 0.016220351681113243, 'total_loss': 5.580119609832764}, 'sample_time_ms': 209449.156, 'grad_time_ms': 696.343, 'load_time_ms': 1.515, 'update_time_ms': 2.54}",320400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},320400,cda-server-3,-46.99046521985731
+7ffa6ff4607a442eb508661143530d5b,65352.82435941696,50.0,False,-63.57036311703964,268,6432,1756459771,-52.32770520567257,1566858,1200,2025-08-29_11-29-31,{},228.50345611572266,24,268,65352.82435941696,"{'num_steps_sampled': 321600, 'num_steps_trained': 321600, 'default': {'policy_loss': -0.13483382761478424, 'vf_explained_var': 0.9603874683380127, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 5.443893909454346, 'entropy': 12.340784072875977, 'kl': 0.015873024240136147, 'total_loss': 5.325130939483643}, 'sample_time_ms': 214077.564, 'grad_time_ms': 695.929, 'load_time_ms': 1.495, 'update_time_ms': 2.539}",321600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},321600,cda-server-3,-46.99046521985731
+7ffa6ff4607a442eb508661143530d5b,65557.31867551804,50.0,False,-63.57036311703964,269,6456,1756459976,-52.411166516284226,1566858,1200,2025-08-29_11-32-56,{},204.49431610107422,24,269,65557.31867551804,"{'num_steps_sampled': 322800, 'num_steps_trained': 322800, 'default': {'policy_loss': -0.14043231308460236, 'vf_explained_var': 0.9675581455230713, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 4.18639612197876, 'entropy': 12.402804374694824, 'kl': 0.018088258802890778, 'total_loss': 4.064278602600098}, 'sample_time_ms': 213695.485, 'grad_time_ms': 696.66, 'load_time_ms': 1.494, 'update_time_ms': 2.578}",322800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},322800,cda-server-3,-49.284212041297145
+7ffa6ff4607a442eb508661143530d5b,65765.64012217522,50.0,False,-84.43411533360964,270,6480,1756460184,-52.88237131219012,1566858,1200,2025-08-29_11-36-24,{},208.3214466571808,24,270,65765.64012217522,"{'num_steps_sampled': 324000, 'num_steps_trained': 324000, 'default': {'policy_loss': -0.1212284192442894, 'vf_explained_var': 0.9362192153930664, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 11.846854209899902, 'entropy': 12.34295654296875, 'kl': 0.01328012440353632, 'total_loss': 11.7390718460083}, 'sample_time_ms': 213920.267, 'grad_time_ms': 696.66, 'load_time_ms': 1.539, 'update_time_ms': 2.571}",324000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},324000,cda-server-3,-49.284212041297145
+7ffa6ff4607a442eb508661143530d5b,65988.13902163506,50.0,False,-84.43411533360964,271,6504,1756460407,-52.73400011488515,1566858,1200,2025-08-29_11-40-07,{},222.49889945983887,24,271,65988.13902163506,"{'num_steps_sampled': 325200, 'num_steps_trained': 325200, 'default': {'policy_loss': -0.12005000561475754, 'vf_explained_var': 0.9790047407150269, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 2.753878593444824, 'entropy': 12.271784782409668, 'kl': 0.017051290720701218, 'total_loss': 2.651093006134033}, 'sample_time_ms': 217207.977, 'grad_time_ms': 696.019, 'load_time_ms': 1.434, 'update_time_ms': 2.564}",325200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},325200,cda-server-3,-49.284212041297145
+7ffa6ff4607a442eb508661143530d5b,66196.45666050911,50.0,False,-84.43411533360964,272,6528,1756460615,-53.14926512060034,1566858,1200,2025-08-29_11-43-35,{},208.31763887405396,24,272,66196.45666050911,"{'num_steps_sampled': 326400, 'num_steps_trained': 326400, 'default': {'policy_loss': -0.12172228842973709, 'vf_explained_var': 0.941199004650116, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 8.98120403289795, 'entropy': 12.484696388244629, 'kl': 0.015201661735773087, 'total_loss': 8.874873161315918}, 'sample_time_ms': 215402.317, 'grad_time_ms': 696.168, 'load_time_ms': 1.386, 'update_time_ms': 2.557}",326400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},326400,cda-server-3,-50.37665546265208
+7ffa6ff4607a442eb508661143530d5b,66390.12393069267,50.0,False,-84.43411533360964,273,6552,1756460809,-53.24081358545004,1566858,1200,2025-08-29_11-46-49,{},193.66727018356323,24,273,66390.12393069267,"{'num_steps_sampled': 327600, 'num_steps_trained': 327600, 'default': {'policy_loss': -0.1288047730922699, 'vf_explained_var': 0.9695960283279419, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 4.136238098144531, 'entropy': 12.348140716552734, 'kl': 0.016651269048452377, 'total_loss': 4.024292945861816}, 'sample_time_ms': 210596.173, 'grad_time_ms': 696.955, 'load_time_ms': 1.392, 'update_time_ms': 2.56}",327600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},327600,cda-server-3,-50.37665546265208
+7ffa6ff4607a442eb508661143530d5b,66652.66490268707,50.0,False,-78.3542301798375,274,6576,1756461071,-52.8686931909312,1566858,1200,2025-08-29_11-51-11,{},262.5409719944,24,274,66652.66490268707,"{'num_steps_sampled': 328800, 'num_steps_trained': 328800, 'default': {'policy_loss': -0.140442356467247, 'vf_explained_var': 0.96639484167099, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 4.548933506011963, 'entropy': 12.452632904052734, 'kl': 0.018309663981199265, 'total_loss': 4.427030086517334}, 'sample_time_ms': 215996.626, 'grad_time_ms': 697.463, 'load_time_ms': 1.403, 'update_time_ms': 2.545}",328800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},328800,cda-server-3,-50.37665546265208
+7ffa6ff4607a442eb508661143530d5b,66875.22850847244,50.0,False,-78.3542301798375,275,6600,1756461294,-52.76412100550012,1566858,1200,2025-08-29_11-54-54,{},222.56360578536987,24,275,66875.22850847244,"{'num_steps_sampled': 330000, 'num_steps_trained': 330000, 'default': {'policy_loss': -0.13039201498031616, 'vf_explained_var': 0.9707435965538025, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 3.792579174041748, 'entropy': 12.545645713806152, 'kl': 0.017142174765467644, 'total_loss': 3.6795437335968018}, 'sample_time_ms': 216436.407, 'grad_time_ms': 697.167, 'load_time_ms': 1.409, 'update_time_ms': 2.529}",330000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},330000,cda-server-3,-50.67591107693649
+7ffa6ff4607a442eb508661143530d5b,67104.32276844978,50.0,False,-71.39806989782852,276,6624,1756461523,-52.62207614615324,1566858,1200,2025-08-29_11-58-43,{},229.0942599773407,24,276,67104.32276844978,"{'num_steps_sampled': 331200, 'num_steps_trained': 331200, 'default': {'policy_loss': -0.1321687251329422, 'vf_explained_var': 0.9725034236907959, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 4.033144474029541, 'entropy': 12.464203834533691, 'kl': 0.01608506217598915, 'total_loss': 3.917262077331543}, 'sample_time_ms': 216582.319, 'grad_time_ms': 698.56, 'load_time_ms': 1.5, 'update_time_ms': 2.511}",331200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},331200,cda-server-3,-50.67591107693649
+7ffa6ff4607a442eb508661143530d5b,67301.52805280685,50.0,False,-86.9196750907215,277,6648,1756461720,-53.180265980102625,1566858,1200,2025-08-29_12-02-00,{},197.20528435707092,24,277,67301.52805280685,"{'num_steps_sampled': 332400, 'num_steps_trained': 332400, 'default': {'policy_loss': -0.1267719715833664, 'vf_explained_var': 0.9339027404785156, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 13.914371490478516, 'entropy': 12.239913940429688, 'kl': 0.014391104690730572, 'total_loss': 13.80217170715332}, 'sample_time_ms': 217012.603, 'grad_time_ms': 698.911, 'load_time_ms': 1.494, 'update_time_ms': 2.502}",332400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},332400,cda-server-3,-49.05128504421615
+7ffa6ff4607a442eb508661143530d5b,67517.49462890625,50.0,False,-86.9196750907215,278,6672,1756461936,-53.126583249710436,1566858,1200,2025-08-29_12-05-36,{},215.96657609939575,24,278,67517.49462890625,"{'num_steps_sampled': 333600, 'num_steps_trained': 333600, 'default': {'policy_loss': -0.1337561011314392, 'vf_explained_var': 0.957696259021759, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 6.064571380615234, 'entropy': 12.279397964477539, 'kl': 0.01595686562359333, 'total_loss': 5.946971893310547}, 'sample_time_ms': 215758.99, 'grad_time_ms': 698.815, 'load_time_ms': 1.508, 'update_time_ms': 2.525}",333600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},333600,cda-server-3,-49.05128504421615
+7ffa6ff4607a442eb508661143530d5b,67772.74753212929,50.0,False,-86.9196750907215,279,6696,1756462191,-53.49961996527838,1566858,1200,2025-08-29_12-09-51,{},255.25290322303772,24,279,67772.74753212929,"{'num_steps_sampled': 334800, 'num_steps_trained': 334800, 'default': {'policy_loss': -0.1112731322646141, 'vf_explained_var': 0.9488842487335205, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 7.727088928222656, 'entropy': 12.261554718017578, 'kl': 0.013475686311721802, 'total_loss': 7.629459857940674}, 'sample_time_ms': 220834.503, 'grad_time_ms': 699.083, 'load_time_ms': 1.506, 'update_time_ms': 2.619}",334800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},334800,cda-server-3,-49.05128504421615
+7ffa6ff4607a442eb508661143530d5b,67992.6490688324,50.0,False,-86.9196750907215,280,6720,1756462411,-53.34118500330564,1566858,1200,2025-08-29_12-13-31,{},219.90153670310974,24,280,67992.6490688324,"{'num_steps_sampled': 336000, 'num_steps_trained': 336000, 'default': {'policy_loss': -0.14288152754306793, 'vf_explained_var': 0.9715897440910339, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 3.7593188285827637, 'entropy': 12.291492462158203, 'kl': 0.016825037077069283, 'total_loss': 3.6334729194641113}, 'sample_time_ms': 221991.215, 'grad_time_ms': 700.27, 'load_time_ms': 1.564, 'update_time_ms': 2.64}",336000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},336000,cda-server-3,-49.05128504421615
+7ffa6ff4607a442eb508661143530d5b,68177.69842720032,50.0,False,-72.29489230435841,281,6744,1756462596,-52.63661777018459,1566858,1200,2025-08-29_12-16-36,{},185.04935836791992,24,281,68177.69842720032,"{'num_steps_sampled': 337200, 'num_steps_trained': 337200, 'default': {'policy_loss': -0.12455210089683533, 'vf_explained_var': 0.972270667552948, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 3.6177749633789062, 'entropy': 12.42072582244873, 'kl': 0.015108318999409676, 'total_loss': 3.5085201263427734}, 'sample_time_ms': 218244.897, 'grad_time_ms': 701.468, 'load_time_ms': 1.665, 'update_time_ms': 2.651}",337200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},337200,cda-server-3,-51.17460335793359
+7ffa6ff4607a442eb508661143530d5b,68388.46821856499,50.0,False,-78.03348874757802,282,6768,1756462807,-52.87258603097264,1566858,1200,2025-08-29_12-20-07,{},210.7697913646698,24,282,68388.46821856499,"{'num_steps_sampled': 338400, 'num_steps_trained': 338400, 'default': {'policy_loss': -0.11916964501142502, 'vf_explained_var': 0.9402625560760498, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 11.273205757141113, 'entropy': 12.366950988769531, 'kl': 0.012861553579568863, 'total_loss': 11.167058944702148}, 'sample_time_ms': 218490.18, 'grad_time_ms': 701.265, 'load_time_ms': 1.714, 'update_time_ms': 2.677}",338400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},338400,cda-server-3,-51.17460335793359
+7ffa6ff4607a442eb508661143530d5b,68587.79872131348,50.0,False,-78.03348874757802,283,6792,1756463006,-52.52309877177729,1566858,1200,2025-08-29_12-23-26,{},199.33050274848938,24,283,68587.79872131348,"{'num_steps_sampled': 339600, 'num_steps_trained': 339600, 'default': {'policy_loss': -0.13121232390403748, 'vf_explained_var': 0.9545206427574158, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 6.784745693206787, 'entropy': 12.493606567382812, 'kl': 0.014576302841305733, 'total_loss': 6.668292045593262}, 'sample_time_ms': 219056.931, 'grad_time_ms': 700.902, 'load_time_ms': 1.7, 'update_time_ms': 2.642}",339600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},339600,cda-server-3,-48.200563271012534
+7ffa6ff4607a442eb508661143530d5b,68831.42337942123,50.0,False,-78.03348874757802,284,6816,1756463250,-52.34025074477718,1566858,1200,2025-08-29_12-27-30,{},243.62465810775757,24,284,68831.42337942123,"{'num_steps_sampled': 340800, 'num_steps_trained': 340800, 'default': {'policy_loss': -0.1302146315574646, 'vf_explained_var': 0.9693320393562317, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 3.9507997035980225, 'entropy': 12.259281158447266, 'kl': 0.015657953917980194, 'total_loss': 3.8364388942718506}, 'sample_time_ms': 217165.955, 'grad_time_ms': 700.227, 'load_time_ms': 1.689, 'update_time_ms': 2.648}",340800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},340800,cda-server-3,-48.200563271012534
+7ffa6ff4607a442eb508661143530d5b,69071.45431423187,50.0,False,-78.03348874757802,285,6840,1756463490,-52.354673693428815,1566858,1200,2025-08-29_12-31-30,{},240.03093481063843,24,285,69071.45431423187,"{'num_steps_sampled': 342000, 'num_steps_trained': 342000, 'default': {'policy_loss': -0.1259268820285797, 'vf_explained_var': 0.9753335118293762, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 3.3924663066864014, 'entropy': 12.422459602355957, 'kl': 0.016515301540493965, 'total_loss': 3.283261299133301}, 'sample_time_ms': 218912.421, 'grad_time_ms': 700.466, 'load_time_ms': 1.708, 'update_time_ms': 2.687}",342000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},342000,cda-server-3,-48.200563271012534
+7ffa6ff4607a442eb508661143530d5b,69299.64997696877,50.0,False,-58.96335390541665,286,6864,1756463718,-52.059089461532785,1566858,1200,2025-08-29_12-35-18,{},228.1956627368927,24,286,69299.64997696877,"{'num_steps_sampled': 343200, 'num_steps_trained': 343200, 'default': {'policy_loss': -0.13080231845378876, 'vf_explained_var': 0.9585863947868347, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 5.377427101135254, 'entropy': 12.568329811096191, 'kl': 0.016125712543725967, 'total_loss': 5.262951850891113}, 'sample_time_ms': 218823.497, 'grad_time_ms': 699.55, 'load_time_ms': 1.7, 'update_time_ms': 2.679}",343200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},343200,cda-server-3,-48.200563271012534
+7ffa6ff4607a442eb508661143530d5b,69511.73801374435,50.0,False,-58.96335390541665,287,6888,1756463930,-52.12903332033729,1566858,1200,2025-08-29_12-38-50,{},212.088036775589,24,287,69511.73801374435,"{'num_steps_sampled': 344400, 'num_steps_trained': 344400, 'default': {'policy_loss': -0.12991659343242645, 'vf_explained_var': 0.9701218008995056, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 3.9993748664855957, 'entropy': 12.348908424377441, 'kl': 0.014908598735928535, 'total_loss': 3.8845536708831787}, 'sample_time_ms': 220312.014, 'grad_time_ms': 699.283, 'load_time_ms': 1.701, 'update_time_ms': 2.656}",344400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},344400,cda-server-3,-49.00580362206023
+7ffa6ff4607a442eb508661143530d5b,69728.40817785263,50.0,False,-58.96335390541665,288,6912,1756464147,-52.207700063283,1566858,1200,2025-08-29_12-42-27,{},216.67016410827637,24,288,69728.40817785263,"{'num_steps_sampled': 345600, 'num_steps_trained': 345600, 'default': {'policy_loss': -0.13974148035049438, 'vf_explained_var': 0.9652450084686279, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 4.558967590332031, 'entropy': 12.57193374633789, 'kl': 0.017402615398168564, 'total_loss': 4.4368462562561035}, 'sample_time_ms': 220382.521, 'grad_time_ms': 699.166, 'load_time_ms': 1.696, 'update_time_ms': 2.646}",345600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},345600,cda-server-3,-48.96425296443912
+7ffa6ff4607a442eb508661143530d5b,69953.82830810547,50.0,False,-93.07593011966938,289,6936,1756464372,-52.56730745048848,1566858,1200,2025-08-29_12-46-12,{},225.42013025283813,24,289,69953.82830810547,"{'num_steps_sampled': 346800, 'num_steps_trained': 346800, 'default': {'policy_loss': -0.10083112120628357, 'vf_explained_var': 0.8962631225585938, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 20.528160095214844, 'entropy': 12.43372631072998, 'kl': 0.011682498268783092, 'total_loss': 20.439159393310547}, 'sample_time_ms': 217399.421, 'grad_time_ms': 699.073, 'load_time_ms': 1.708, 'update_time_ms': 2.537}",346800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},346800,cda-server-3,-48.96425296443912
+7ffa6ff4607a442eb508661143530d5b,70200.05345344543,50.0,False,-93.07593011966938,290,6960,1756464619,-53.04621499979686,1566858,1200,2025-08-29_12-50-19,{},246.22514533996582,24,290,70200.05345344543,"{'num_steps_sampled': 348000, 'num_steps_trained': 348000, 'default': {'policy_loss': -0.11693020910024643, 'vf_explained_var': 0.8908771872520447, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 26.90326690673828, 'entropy': 12.324344635009766, 'kl': 0.011365074664354324, 'total_loss': 26.79784393310547}, 'sample_time_ms': 220032.701, 'grad_time_ms': 698.208, 'load_time_ms': 1.683, 'update_time_ms': 2.529}",348000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},348000,cda-server-3,-48.96425296443912
+7ffa6ff4607a442eb508661143530d5b,70410.31812143326,50.0,False,-93.07593011966938,291,6984,1756464829,-53.13178389336556,1566858,1200,2025-08-29_12-53-49,{},210.2646679878235,24,291,70410.31812143326,"{'num_steps_sampled': 349200, 'num_steps_trained': 349200, 'default': {'policy_loss': -0.13924799859523773, 'vf_explained_var': 0.967040479183197, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 4.398654937744141, 'entropy': 12.41601848602295, 'kl': 0.01773855648934841, 'total_loss': 4.27736759185791}, 'sample_time_ms': 222554.442, 'grad_time_ms': 697.992, 'load_time_ms': 1.693, 'update_time_ms': 2.536}",349200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},349200,cda-server-3,-48.96425296443912
+7ffa6ff4607a442eb508661143530d5b,70627.03892922401,50.0,False,-93.07593011966938,292,7008,1756465046,-53.17242746128206,1566858,1200,2025-08-29_12-57-26,{},216.72080779075623,24,292,70627.03892922401,"{'num_steps_sampled': 350400, 'num_steps_trained': 350400, 'default': {'policy_loss': -0.12980133295059204, 'vf_explained_var': 0.968231737613678, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 4.2248711585998535, 'entropy': 12.26395034790039, 'kl': 0.01560777798295021, 'total_loss': 4.110872745513916}, 'sample_time_ms': 223150.609, 'grad_time_ms': 697.043, 'load_time_ms': 1.661, 'update_time_ms': 2.506}",350400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},350400,cda-server-3,-49.349361346491975
+7ffa6ff4607a442eb508661143530d5b,70878.18247318268,50.0,False,-90.1025840196358,293,7032,1756465297,-52.778861706694286,1566858,1200,2025-08-29_13-01-37,{},251.14354395866394,24,293,70878.18247318268,"{'num_steps_sampled': 351600, 'num_steps_trained': 351600, 'default': {'policy_loss': -0.14350180327892303, 'vf_explained_var': 0.9764432907104492, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 3.0745840072631836, 'entropy': 12.347380638122559, 'kl': 0.016932280734181404, 'total_loss': 2.9482264518737793}, 'sample_time_ms': 228332.209, 'grad_time_ms': 696.889, 'load_time_ms': 1.593, 'update_time_ms': 2.5}",351600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},351600,cda-server-3,-49.349361346491975
+7ffa6ff4607a442eb508661143530d5b,71095.06284427643,50.0,False,-61.96288074410334,294,7056,1756465514,-52.413159036952635,1566858,1200,2025-08-29_13-05-14,{},216.88037109375,24,294,71095.06284427643,"{'num_steps_sampled': 352800, 'num_steps_trained': 352800, 'default': {'policy_loss': -0.1359146684408188, 'vf_explained_var': 0.9747341871261597, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 3.547532796859741, 'entropy': 12.351963996887207, 'kl': 0.01467402745038271, 'total_loss': 3.4264755249023438}, 'sample_time_ms': 225658.221, 'grad_time_ms': 696.484, 'load_time_ms': 1.581, 'update_time_ms': 2.531}",352800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},352800,cda-server-3,-50.951736905180546
+7ffa6ff4607a442eb508661143530d5b,71324.26915335655,50.0,False,-58.954857103882475,295,7080,1756465743,-52.2415230325622,1566858,1200,2025-08-29_13-09-03,{},229.2063090801239,24,295,71324.26915335655,"{'num_steps_sampled': 354000, 'num_steps_trained': 354000, 'default': {'policy_loss': -0.13213542103767395, 'vf_explained_var': 0.9717539548873901, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 3.67763352394104, 'entropy': 12.306523323059082, 'kl': 0.013029721565544605, 'total_loss': 3.5586907863616943}, 'sample_time_ms': 224574.938, 'grad_time_ms': 697.288, 'load_time_ms': 1.568, 'update_time_ms': 2.525}",354000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},354000,cda-server-3,-50.02923476252851
+7ffa6ff4607a442eb508661143530d5b,71543.36113262177,50.0,False,-56.309158459773386,296,7104,1756465962,-52.17289624307936,1566858,1200,2025-08-29_13-12-42,{},219.091979265213,24,296,71543.36113262177,"{'num_steps_sampled': 355200, 'num_steps_trained': 355200, 'default': {'policy_loss': -0.1349836140871048, 'vf_explained_var': 0.9557469487190247, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 5.835244178771973, 'entropy': 12.222107887268066, 'kl': 0.01717188209295273, 'total_loss': 5.717647075653076}, 'sample_time_ms': 223664.96, 'grad_time_ms': 696.93, 'load_time_ms': 1.529, 'update_time_ms': 2.564}",355200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},355200,cda-server-3,-46.895097690446974
+7ffa6ff4607a442eb508661143530d5b,71764.0941464901,50.0,False,-96.42450975252484,297,7128,1756466183,-52.551490195022886,1566858,1200,2025-08-29_13-16-23,{},220.7330138683319,24,297,71764.0941464901,"{'num_steps_sampled': 356400, 'num_steps_trained': 356400, 'default': {'policy_loss': -0.10262128710746765, 'vf_explained_var': 0.9111029505729675, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 16.357921600341797, 'entropy': 12.320260047912598, 'kl': 0.011174225248396397, 'total_loss': 16.266613006591797}, 'sample_time_ms': 224530.074, 'grad_time_ms': 696.329, 'load_time_ms': 1.538, 'update_time_ms': 2.562}",356400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},356400,cda-server-3,-46.895097690446974
+7ffa6ff4607a442eb508661143530d5b,71956.04703903198,50.0,False,-96.42450975252484,298,7152,1756466375,-52.72924235526778,1566858,1200,2025-08-29_13-19-35,{},191.95289254188538,24,298,71956.04703903198,"{'num_steps_sampled': 357600, 'num_steps_trained': 357600, 'default': {'policy_loss': -0.13917165994644165, 'vf_explained_var': 0.9431633353233337, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 8.362993240356445, 'entropy': 12.179462432861328, 'kl': 0.016141919419169426, 'total_loss': 8.240165710449219}, 'sample_time_ms': 222058.576, 'grad_time_ms': 696.136, 'load_time_ms': 1.528, 'update_time_ms': 2.57}",357600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},357600,cda-server-3,-46.895097690446974
+7ffa6ff4607a442eb508661143530d5b,72197.96976613998,50.0,False,-96.42450975252484,299,7176,1756466617,-53.04186033195124,1566858,1200,2025-08-29_13-23-37,{},241.9227271080017,24,299,72197.96976613998,"{'num_steps_sampled': 358800, 'num_steps_trained': 358800, 'default': {'policy_loss': -0.13167642056941986, 'vf_explained_var': 0.9527842402458191, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 7.93591833114624, 'entropy': 12.2572660446167, 'kl': 0.013497140258550644, 'total_loss': 7.81790828704834}, 'sample_time_ms': 223709.85, 'grad_time_ms': 695.264, 'load_time_ms': 1.463, 'update_time_ms': 2.553}",358800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},358800,cda-server-3,-46.895097690446974
+7ffa6ff4607a442eb508661143530d5b,72459.24091768265,50.0,False,-99.06848104185677,300,7200,1756466878,-53.682056333677174,1566858,1200,2025-08-29_13-27-58,{},261.2711515426636,24,300,72459.24091768265,"{'num_steps_sampled': 360000, 'num_steps_trained': 360000, 'default': {'policy_loss': -0.13141396641731262, 'vf_explained_var': 0.9265610575675964, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 13.346891403198242, 'entropy': 12.274971961975098, 'kl': 0.015094866044819355, 'total_loss': 13.230761528015137}, 'sample_time_ms': 225215.112, 'grad_time_ms': 694.581, 'load_time_ms': 1.466, 'update_time_ms': 2.564}",360000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},360000,cda-server-3,-48.35379212325632
+7ffa6ff4607a442eb508661143530d5b,72683.35219526291,50.0,False,-99.17453996516333,301,7224,1756467102,-53.750167833270154,1566858,1200,2025-08-29_13-31-42,{},224.11127758026123,24,301,72683.35219526291,"{'num_steps_sampled': 361200, 'num_steps_trained': 361200, 'default': {'policy_loss': -0.1376352310180664, 'vf_explained_var': 0.9457657933235168, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 9.347111701965332, 'entropy': 12.26346206665039, 'kl': 0.01422292459756136, 'total_loss': 9.223877906799316}, 'sample_time_ms': 226600.323, 'grad_time_ms': 694.031, 'load_time_ms': 1.449, 'update_time_ms': 2.571}",361200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},361200,cda-server-3,-48.35379212325632
+7ffa6ff4607a442eb508661143530d5b,72948.92363882065,50.0,False,-99.17453996516333,302,7248,1756467368,-53.607525853227514,1566858,1200,2025-08-29_13-36-08,{},265.57144355773926,24,302,72948.92363882065,"{'num_steps_sampled': 362400, 'num_steps_trained': 362400, 'default': {'policy_loss': -0.1350909024477005, 'vf_explained_var': 0.9636004567146301, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 4.889998435974121, 'entropy': 12.176090240478516, 'kl': 0.01710471510887146, 'total_loss': 4.772226333618164}, 'sample_time_ms': 231485.525, 'grad_time_ms': 693.899, 'load_time_ms': 1.453, 'update_time_ms': 2.591}",362400,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},362400,cda-server-3,-48.35379212325632
+7ffa6ff4607a442eb508661143530d5b,73200.5001718998,50.0,False,-99.17453996516333,303,7272,1756467619,-53.29212436288077,1566858,1200,2025-08-29_13-40-19,{},251.57653307914734,24,303,73200.5001718998,"{'num_steps_sampled': 363600, 'num_steps_trained': 363600, 'default': {'policy_loss': -0.1493072360754013, 'vf_explained_var': 0.9692809581756592, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 4.034963607788086, 'entropy': 12.088041305541992, 'kl': 0.016667162999510765, 'total_loss': 3.902531623840332}, 'sample_time_ms': 231528.872, 'grad_time_ms': 693.734, 'load_time_ms': 1.515, 'update_time_ms': 2.606}",363600,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},363600,cda-server-3,-50.15217415635844
+7ffa6ff4607a442eb508661143530d5b,73480.11277294159,50.0,False,-99.17453996516333,304,7296,1756467899,-52.89721532106234,1566858,1200,2025-08-29_13-44-59,{},279.6126010417938,24,304,73480.11277294159,"{'num_steps_sampled': 364800, 'num_steps_trained': 364800, 'default': {'policy_loss': -0.11796130239963531, 'vf_explained_var': 0.9274365305900574, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 10.442138671875, 'entropy': 12.077159881591797, 'kl': 0.013736975379288197, 'total_loss': 10.338085174560547}, 'sample_time_ms': 237800.827, 'grad_time_ms': 694.929, 'load_time_ms': 1.529, 'update_time_ms': 2.62}",364800,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},364800,cda-server-3,-49.92233445051167
+7ffa6ff4607a442eb508661143530d5b,73758.79197740555,50.0,False,-67.96758924730126,305,7320,1756468178,-52.48637423160558,1566858,1200,2025-08-29_13-49-38,{},278.67920446395874,24,305,73758.79197740555,"{'num_steps_sampled': 366000, 'num_steps_trained': 366000, 'default': {'policy_loss': -0.12833836674690247, 'vf_explained_var': 0.9781603217124939, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 2.9315381050109863, 'entropy': 11.94629955291748, 'kl': 0.015499631874263287, 'total_loss': 2.8188929557800293}, 'sample_time_ms': 242748.703, 'grad_time_ms': 694.368, 'load_time_ms': 1.537, 'update_time_ms': 2.623}",366000,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},366000,cda-server-3,-49.92233445051167
+7ffa6ff4607a442eb508661143530d5b,73987.31811928749,50.0,False,-67.96758924730126,306,7344,1756468406,-52.524258915937445,1566858,1200,2025-08-29_13-53-26,{},228.52614188194275,24,306,73987.31811928749,"{'num_steps_sampled': 367200, 'num_steps_trained': 367200, 'default': {'policy_loss': -0.12210477888584137, 'vf_explained_var': 0.9534997940063477, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 6.509614944458008, 'entropy': 11.96830940246582, 'kl': 0.012901661917567253, 'total_loss': 6.400572776794434}, 'sample_time_ms': 243691.988, 'grad_time_ms': 694.451, 'load_time_ms': 1.575, 'update_time_ms': 2.593}",367200,"{'input': 'sampler', 'simple_optimizer': False, 'tf_session_args': {'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'intra_op_parallelism_threads': 2}, 'postprocess_inputs': False, 'observation_filter': 'MeanStdFilter', 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'num_gpus': 0, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'grad_clip': None, 'vf_loss_coeff': 1.0, 'gamma': 0.99, 'input_evaluation': None, 'sample_async': False, 'vf_share_layers': False, 'sample_batch_size': 200, 'output_max_file_size': 67108864, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': True, 'run_valid': False}, 'clip_actions': True, 'kl_coeff': 0.2, 'num_envs_per_worker': 1, 'monitor': False, 'kl_target': 0.01, 'env': 'LEDRO_D_FC', 'lr_schedule': None, 'lr': 5e-05, 'collect_metrics_timeout': 180, 'lambda': 1.0, 'num_workers': 3, 'num_cpus_for_driver': 1, 'custom_resources_per_worker': {}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'train_batch_size': 1200, 'callbacks': {'on_episode_step': None, 'on_sample_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_episode_end': None}, 'optimizer': {}, 'num_gpus_per_worker': 0, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'synchronize_filters': True, 'output_compress_columns': ['obs', 'new_obs'], 'clip_rewards': None, 'log_level': 'INFO', 'compress_observations': False, 'model': {'conv_activation': 'relu', 'free_log_std': False, 'fcnet_activation': 'tanh', 'lstm_use_prev_action_reward': False, 'conv_filters': None, 'lstm_cell_size': 256, 'use_lstm': False, 'grayscale': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'custom_options': {}, 'framestack': True, 'custom_preprocessor': None, 'custom_model': None, 'zero_mean': True, 'squash_to_range': False}, 'batch_mode': 'truncate_episodes', 'vf_clip_param': 10.0, 'num_sgd_iter': 30, 'horizon': 50, 'straggler_mitigation': False, 'output': None, 'use_gae': True}",10.157.146.3,0,{},367200,cda-server-3,-48.9968998602918
diff --git a/experiments/ledro_d_fc_7nm_run3/PPO_LEDRO_D_FC_0_2025-08-28_17-19-59h7o8x_d0/result.json b/experiments/ledro_d_fc_7nm_run3/PPO_LEDRO_D_FC_0_2025-08-28_17-19-59h7o8x_d0/result.json
new file mode 100644
index 0000000..2b080c2
--- /dev/null
+++ b/experiments/ledro_d_fc_7nm_run3/PPO_LEDRO_D_FC_0_2025-08-28_17-19-59h7o8x_d0/result.json
@@ -0,0 +1,306 @@
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 231.39491868019104, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -146.78393839650298, "iterations_since_restore": 1, "episodes_total": 24, "timestamp": 1756394647, "episode_reward_mean": -129.08330393143353, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_17-24-07", "policy_reward_mean": {}, "time_this_iter_s": 231.39491868019104, "episodes_this_iter": 24, "training_iteration": 1, "time_total_s": 231.39491868019104, "info": {"num_steps_sampled": 1200, "num_steps_trained": 1200, "default": {"policy_loss": -0.12120606005191803, "vf_explained_var": 0.018705738708376884, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.20000000298023224, "vf_loss": 4254.23876953125, "entropy": 18.654157638549805, "kl": 0.02240253984928131, "total_loss": 4254.12255859375}, "sample_time_ms": 226832.15, "grad_time_ms": 2279.741, "load_time_ms": 148.38, "update_time_ms": 2016.317}, "timesteps_total": 1200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 1200, "hostname": "cda-server-3", "episode_reward_max": -99.99993258306239}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 439.889981508255, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -146.78393839650298, "iterations_since_restore": 2, "episodes_total": 48, "timestamp": 1756394856, "episode_reward_mean": -127.32490473992193, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_17-27-36", "policy_reward_mean": {}, "time_this_iter_s": 208.49506282806396, "episodes_this_iter": 24, "training_iteration": 2, "time_total_s": 439.889981508255, "info": {"num_steps_sampled": 2400, "num_steps_trained": 2400, "default": {"policy_loss": -0.12993724644184113, "vf_explained_var": 0.11479301005601883, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.30000001192092896, "vf_loss": 3653.26953125, "entropy": 18.634702682495117, "kl": 0.023673098534345627, "total_loss": 3653.146728515625}, "sample_time_ms": 217313.857, "grad_time_ms": 1484.979, "load_time_ms": 74.976, "update_time_ms": 1009.617}, "timesteps_total": 2400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 2400, "hostname": "cda-server-3", "episode_reward_max": -99.54185984989468}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 661.38379073143, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -146.78393839650298, "iterations_since_restore": 3, "episodes_total": 72, "timestamp": 1756395078, "episode_reward_mean": -127.62901381105137, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_17-31-18", "policy_reward_mean": {}, "time_this_iter_s": 221.49380922317505, "episodes_this_iter": 24, "training_iteration": 3, "time_total_s": 661.38379073143, "info": {"num_steps_sampled": 3600, "num_steps_trained": 3600, "default": {"policy_loss": -0.13941305875778198, "vf_explained_var": 0.11090646684169769, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.44999995827674866, "vf_loss": 3644.2900390625, "entropy": 18.60210418701172, "kl": 0.02471771091222763, "total_loss": 3644.161865234375}, "sample_time_ms": 218474.294, "grad_time_ms": 1219.646, "load_time_ms": 50.629, "update_time_ms": 673.919}, "timesteps_total": 3600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 3600, "hostname": "cda-server-3", "episode_reward_max": -99.54185984989468}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 891.4586873054504, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -146.78393839650298, "iterations_since_restore": 4, "episodes_total": 96, "timestamp": 1756395308, "episode_reward_mean": -125.83527627708632, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_17-35-08", "policy_reward_mean": {}, "time_this_iter_s": 230.07489657402039, "episodes_this_iter": 24, "training_iteration": 4, "time_total_s": 891.4586873054504, "info": {"num_steps_sampled": 4800, "num_steps_trained": 4800, "default": {"policy_loss": -0.12359528988599777, "vf_explained_var": 0.11000010371208191, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.675000011920929, "vf_loss": 3012.851806640625, "entropy": 18.575050354003906, "kl": 0.019558193162083626, "total_loss": 3012.7412109375}, "sample_time_ms": 221199.687, "grad_time_ms": 1086.971, "load_time_ms": 38.45, "update_time_ms": 506.159}, "timesteps_total": 4800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 4800, "hostname": "cda-server-3", "episode_reward_max": -98.49905122783261}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 1150.402874469757, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -146.0541023313413, "iterations_since_restore": 5, "episodes_total": 120, "timestamp": 1756395567, "episode_reward_mean": -124.10875304099744, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_17-39-27", "policy_reward_mean": {}, "time_this_iter_s": 258.94418716430664, "episodes_this_iter": 24, "training_iteration": 5, "time_total_s": 1150.402874469757, "info": {"num_steps_sampled": 6000, "num_steps_trained": 6000, "default": {"policy_loss": -0.12141091376543045, "vf_explained_var": 0.05904542654752731, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.675000011920929, "vf_loss": 2893.345703125, "entropy": 18.560523986816406, "kl": 0.0196517501026392, "total_loss": 2893.237548828125}, "sample_time_ms": 228606.987, "grad_time_ms": 1009.142, "load_time_ms": 31.135, "update_time_ms": 405.444}, "timesteps_total": 6000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 6000, "hostname": "cda-server-3", "episode_reward_max": -98.49905122783261}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 1408.9546167850494, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -146.0541023313413, "iterations_since_restore": 6, "episodes_total": 144, "timestamp": 1756395825, "episode_reward_mean": -122.72888846822445, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_17-43-45", "policy_reward_mean": {}, "time_this_iter_s": 258.55174231529236, "episodes_this_iter": 24, "training_iteration": 6, "time_total_s": 1408.9546167850494, "info": {"num_steps_sampled": 7200, "num_steps_trained": 7200, "default": {"policy_loss": -0.13973921537399292, "vf_explained_var": 0.011485014110803604, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.675000011920929, "vf_loss": 2471.14990234375, "entropy": 18.532447814941406, "kl": 0.019554639235138893, "total_loss": 2471.023193359375}, "sample_time_ms": 233480.97, "grad_time_ms": 956.137, "load_time_ms": 26.219, "update_time_ms": 338.316}, "timesteps_total": 7200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 7200, "hostname": "cda-server-3", "episode_reward_max": -98.49905122783261}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 1674.9645681381226, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -146.44951359018535, "iterations_since_restore": 7, "episodes_total": 168, "timestamp": 1756396091, "episode_reward_mean": -121.15475903464372, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_17-48-11", "policy_reward_mean": {}, "time_this_iter_s": 266.0099513530731, "episodes_this_iter": 24, "training_iteration": 7, "time_total_s": 1674.9645681381226, "info": {"num_steps_sampled": 8400, "num_steps_trained": 8400, "default": {"policy_loss": -0.13989777863025665, "vf_explained_var": 0.01834733597934246, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.675000011920929, "vf_loss": 2349.50146484375, "entropy": 18.50861358642578, "kl": 0.02123822271823883, "total_loss": 2349.376220703125}, "sample_time_ms": 238027.997, "grad_time_ms": 918.38, "load_time_ms": 22.601, "update_time_ms": 290.334}, "timesteps_total": 8400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 8400, "hostname": "cda-server-3", "episode_reward_max": -98.49905122783261}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 1941.3925409317017, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -146.44951359018535, "iterations_since_restore": 8, "episodes_total": 192, "timestamp": 1756396358, "episode_reward_mean": -120.81588605798613, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_17-52-38", "policy_reward_mean": {}, "time_this_iter_s": 266.4279727935791, "episodes_this_iter": 24, "training_iteration": 8, "time_total_s": 1941.3925409317017, "info": {"num_steps_sampled": 9600, "num_steps_trained": 9600, "default": {"policy_loss": -0.12228532880544662, "vf_explained_var": 0.009332027286291122, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 2376.759521484375, "entropy": 18.485597610473633, "kl": 0.017213426530361176, "total_loss": 2376.654541015625}, "sample_time_ms": 241490.303, "grad_time_ms": 890.103, "load_time_ms": 19.985, "update_time_ms": 254.345}, "timesteps_total": 9600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 9600, "hostname": "cda-server-3", "episode_reward_max": -88.09294395093761}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 2161.997076511383, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -146.83873104448023, "iterations_since_restore": 9, "episodes_total": 216, "timestamp": 1756396578, "episode_reward_mean": -119.28984459236621, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_17-56-18", "policy_reward_mean": {}, "time_this_iter_s": 220.6045355796814, "episodes_this_iter": 24, "training_iteration": 9, "time_total_s": 2161.997076511383, "info": {"num_steps_sampled": 10800, "num_steps_trained": 10800, "default": {"policy_loss": -0.13750998675823212, "vf_explained_var": 0.00047000250197015703, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 1895.60546875, "entropy": 18.46615219116211, "kl": 0.017844107002019882, "total_loss": 1895.48583984375}, "sample_time_ms": 239091.05, "grad_time_ms": 868.78, "load_time_ms": 17.938, "update_time_ms": 226.372}, "timesteps_total": 10800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 10800, "hostname": "cda-server-3", "episode_reward_max": -88.09294395093761}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 2368.387995481491, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -146.83873104448023, "iterations_since_restore": 10, "episodes_total": 240, "timestamp": 1756396785, "episode_reward_mean": -118.7602112144562, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_17-59-45", "policy_reward_mean": {}, "time_this_iter_s": 206.39091897010803, "episodes_this_iter": 24, "training_iteration": 10, "time_total_s": 2368.387995481491, "info": {"num_steps_sampled": 12000, "num_steps_trained": 12000, "default": {"policy_loss": -0.12456995993852615, "vf_explained_var": 0.041680652648210526, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 1867.90771484375, "entropy": 18.442859649658203, "kl": 0.018277890980243683, "total_loss": 1867.8016357421875}, "sample_time_ms": 235750.178, "grad_time_ms": 851.815, "load_time_ms": 16.329, "update_time_ms": 203.983}, "timesteps_total": 12000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 12000, "hostname": "cda-server-3", "episode_reward_max": -88.09294395093761}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 2639.416999101639, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -146.83873104448023, "iterations_since_restore": 11, "episodes_total": 264, "timestamp": 1756397056, "episode_reward_mean": -118.20574028935748, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_18-04-16", "policy_reward_mean": {}, "time_this_iter_s": 271.0290036201477, "episodes_this_iter": 24, "training_iteration": 11, "time_total_s": 2639.416999101639, "info": {"num_steps_sampled": 13200, "num_steps_trained": 13200, "default": {"policy_loss": -0.1394842118024826, "vf_explained_var": 0.02399369142949581, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 1760.54541015625, "entropy": 18.41582489013672, "kl": 0.0173909030854702, "total_loss": 1760.423583984375}, "sample_time_ms": 240099.86, "grad_time_ms": 692.911, "load_time_ms": 1.659, "update_time_ms": 2.59}, "timesteps_total": 13200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 13200, "hostname": "cda-server-3", "episode_reward_max": -88.09294395093761}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 2889.085036754608, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -146.83873104448023, "iterations_since_restore": 12, "episodes_total": 288, "timestamp": 1756397305, "episode_reward_mean": -116.34781812997744, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_18-08-25", "policy_reward_mean": {}, "time_this_iter_s": 249.66803765296936, "episodes_this_iter": 24, "training_iteration": 12, "time_total_s": 2889.085036754608, "info": {"num_steps_sampled": 14400, "num_steps_trained": 14400, "default": {"policy_loss": -0.131776362657547, "vf_explained_var": 0.08143580704927444, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 1517.3621826171875, "entropy": 18.392175674438477, "kl": 0.015726102516055107, "total_loss": 1517.24609375}, "sample_time_ms": 244216.386, "grad_time_ms": 693.713, "load_time_ms": 1.664, "update_time_ms": 2.543}, "timesteps_total": 14400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 14400, "hostname": "cda-server-3", "episode_reward_max": -95.21420483749228}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 3180.254895925522, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -142.98441497447922, "iterations_since_restore": 13, "episodes_total": 312, "timestamp": 1756397596, "episode_reward_mean": -115.62934410428164, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_18-13-16", "policy_reward_mean": {}, "time_this_iter_s": 291.1698591709137, "episodes_this_iter": 24, "training_iteration": 13, "time_total_s": 3180.254895925522, "info": {"num_steps_sampled": 15600, "num_steps_trained": 15600, "default": {"policy_loss": -0.14231985807418823, "vf_explained_var": 0.08726880699396133, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 1588.935791015625, "entropy": 18.384498596191406, "kl": 0.01738560199737549, "total_loss": 1588.8111572265625}, "sample_time_ms": 251184.496, "grad_time_ms": 693.321, "load_time_ms": 1.568, "update_time_ms": 2.557}, "timesteps_total": 15600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 15600, "hostname": "cda-server-3", "episode_reward_max": -83.97588886261303}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 3432.3409848213196, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -143.8383056089926, "iterations_since_restore": 14, "episodes_total": 336, "timestamp": 1756397849, "episode_reward_mean": -115.66906308452896, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_18-17-29", "policy_reward_mean": {}, "time_this_iter_s": 252.08608889579773, "episodes_this_iter": 24, "training_iteration": 14, "time_total_s": 3432.3409848213196, "info": {"num_steps_sampled": 16800, "num_steps_trained": 16800, "default": {"policy_loss": -0.13075391948223114, "vf_explained_var": 0.10596006363630295, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 1400.822509765625, "entropy": 18.35945701599121, "kl": 0.015562936663627625, "total_loss": 1400.7073974609375}, "sample_time_ms": 253385.056, "grad_time_ms": 693.955, "load_time_ms": 1.52, "update_time_ms": 2.523}, "timesteps_total": 16800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 16800, "hostname": "cda-server-3", "episode_reward_max": -83.97588886261303}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 3690.3307423591614, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -143.8383056089926, "iterations_since_restore": 15, "episodes_total": 360, "timestamp": 1756398107, "episode_reward_mean": -114.85649792242968, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_18-21-47", "policy_reward_mean": {}, "time_this_iter_s": 257.9897575378418, "episodes_this_iter": 24, "training_iteration": 15, "time_total_s": 3690.3307423591614, "info": {"num_steps_sampled": 18000, "num_steps_trained": 18000, "default": {"policy_loss": -0.13020434975624084, "vf_explained_var": 0.17911416292190552, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 1270.36865234375, "entropy": 18.33188819885254, "kl": 0.01751522161066532, "total_loss": 1270.256103515625}, "sample_time_ms": 253290.003, "grad_time_ms": 693.672, "load_time_ms": 1.478, "update_time_ms": 2.533}, "timesteps_total": 18000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 18000, "hostname": "cda-server-3", "episode_reward_max": -83.97588886261303}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 3912.750263929367, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -143.8383056089926, "iterations_since_restore": 16, "episodes_total": 384, "timestamp": 1756398329, "episode_reward_mean": -114.61370286216462, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_18-25-29", "policy_reward_mean": {}, "time_this_iter_s": 222.4195215702057, "episodes_this_iter": 24, "training_iteration": 16, "time_total_s": 3912.750263929367, "info": {"num_steps_sampled": 19200, "num_steps_trained": 19200, "default": {"policy_loss": -0.13605083525180817, "vf_explained_var": 0.17312727868556976, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 1203.89111328125, "entropy": 18.3139591217041, "kl": 0.017916101962327957, "total_loss": 1203.7730712890625}, "sample_time_ms": 249676.023, "grad_time_ms": 694.436, "load_time_ms": 1.49, "update_time_ms": 2.497}, "timesteps_total": 19200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 19200, "hostname": "cda-server-3", "episode_reward_max": -83.97588886261303}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 4148.901806116104, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -143.8383056089926, "iterations_since_restore": 17, "episodes_total": 408, "timestamp": 1756398565, "episode_reward_mean": -115.1950941298017, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_18-29-25", "policy_reward_mean": {}, "time_this_iter_s": 236.15154218673706, "episodes_this_iter": 24, "training_iteration": 17, "time_total_s": 4148.901806116104, "info": {"num_steps_sampled": 20400, "num_steps_trained": 20400, "default": {"policy_loss": -0.1500139832496643, "vf_explained_var": 0.20809487998485565, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 1293.311767578125, "entropy": 18.267717361450195, "kl": 0.019330434501171112, "total_loss": 1293.18115234375}, "sample_time_ms": 246689.11, "grad_time_ms": 695.366, "load_time_ms": 1.557, "update_time_ms": 2.53}, "timesteps_total": 20400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 20400, "hostname": "cda-server-3", "episode_reward_max": -98.04220398724607}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 4419.96648812294, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -145.8632685496317, "iterations_since_restore": 18, "episodes_total": 432, "timestamp": 1756398836, "episode_reward_mean": -114.82608095291198, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_18-33-56", "policy_reward_mean": {}, "time_this_iter_s": 271.06468200683594, "episodes_this_iter": 24, "training_iteration": 18, "time_total_s": 4419.96648812294, "info": {"num_steps_sampled": 21600, "num_steps_trained": 21600, "default": {"policy_loss": -0.1369973123073578, "vf_explained_var": 0.21514759957790375, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 1099.616943359375, "entropy": 18.250120162963867, "kl": 0.01694124937057495, "total_loss": 1099.4969482421875}, "sample_time_ms": 247152.753, "grad_time_ms": 695.384, "load_time_ms": 1.549, "update_time_ms": 2.557}, "timesteps_total": 21600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 21600, "hostname": "cda-server-3", "episode_reward_max": -94.07099127019934}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 4666.24494099617, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -145.8632685496317, "iterations_since_restore": 19, "episodes_total": 456, "timestamp": 1756399083, "episode_reward_mean": -113.63070519496996, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_18-38-03", "policy_reward_mean": {}, "time_this_iter_s": 246.27845287322998, "episodes_this_iter": 24, "training_iteration": 19, "time_total_s": 4666.24494099617, "info": {"num_steps_sampled": 22800, "num_steps_trained": 22800, "default": {"policy_loss": -0.13419102132320404, "vf_explained_var": 0.23938888311386108, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 996.186279296875, "entropy": 18.23851776123047, "kl": 0.01877405494451523, "total_loss": 996.071044921875}, "sample_time_ms": 249720.524, "grad_time_ms": 694.96, "load_time_ms": 1.56, "update_time_ms": 2.58}, "timesteps_total": 22800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 22800, "hostname": "cda-server-3", "episode_reward_max": -92.51656606985235}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 4908.511640548706, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -145.8632685496317, "iterations_since_restore": 20, "episodes_total": 480, "timestamp": 1756399325, "episode_reward_mean": -113.29456813555431, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_18-42-05", "policy_reward_mean": {}, "time_this_iter_s": 242.266699552536, "episodes_this_iter": 24, "training_iteration": 20, "time_total_s": 4908.511640548706, "info": {"num_steps_sampled": 24000, "num_steps_trained": 24000, "default": {"policy_loss": -0.1307111382484436, "vf_explained_var": 0.3056492805480957, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 885.0294189453125, "entropy": 18.227909088134766, "kl": 0.017692746594548225, "total_loss": 884.9165649414062}, "sample_time_ms": 253308.428, "grad_time_ms": 694.623, "load_time_ms": 1.537, "update_time_ms": 2.601}, "timesteps_total": 24000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 24000, "hostname": "cda-server-3", "episode_reward_max": -92.51656606985235}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 5115.891381978989, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -145.8632685496317, "iterations_since_restore": 21, "episodes_total": 504, "timestamp": 1756399532, "episode_reward_mean": -112.84483958739845, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_18-45-32", "policy_reward_mean": {}, "time_this_iter_s": 207.3797414302826, "episodes_this_iter": 24, "training_iteration": 21, "time_total_s": 5115.891381978989, "info": {"num_steps_sampled": 25200, "num_steps_trained": 25200, "default": {"policy_loss": -0.14466862380504608, "vf_explained_var": 0.31529197096824646, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 974.6930541992188, "entropy": 18.17812156677246, "kl": 0.017108624801039696, "total_loss": 974.5657348632812}, "sample_time_ms": 246943.138, "grad_time_ms": 695.042, "load_time_ms": 1.535, "update_time_ms": 2.59}, "timesteps_total": 25200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 25200, "hostname": "cda-server-3", "episode_reward_max": -92.51656606985235}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 5416.202656984329, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -145.31539173741282, "iterations_since_restore": 22, "episodes_total": 528, "timestamp": 1756399832, "episode_reward_mean": -110.93474544247985, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_18-50-32", "policy_reward_mean": {}, "time_this_iter_s": 300.3112750053406, "episodes_this_iter": 24, "training_iteration": 22, "time_total_s": 5416.202656984329, "info": {"num_steps_sampled": 26400, "num_steps_trained": 26400, "default": {"policy_loss": -0.13921838998794556, "vf_explained_var": 0.35455378890037537, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 688.4326171875, "entropy": 18.171295166015625, "kl": 0.016766492277383804, "total_loss": 688.3103637695312}, "sample_time_ms": 252007.87, "grad_time_ms": 694.557, "load_time_ms": 1.591, "update_time_ms": 2.634}, "timesteps_total": 26400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 26400, "hostname": "cda-server-3", "episode_reward_max": -89.64457416011744}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 5694.230200052261, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -144.2697605141167, "iterations_since_restore": 23, "episodes_total": 552, "timestamp": 1756400111, "episode_reward_mean": -110.89697706022662, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_18-55-11", "policy_reward_mean": {}, "time_this_iter_s": 278.02754306793213, "episodes_this_iter": 24, "training_iteration": 23, "time_total_s": 5694.230200052261, "info": {"num_steps_sampled": 27600, "num_steps_trained": 27600, "default": {"policy_loss": -0.13763722777366638, "vf_explained_var": 0.3888266980648041, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 731.5033569335938, "entropy": 18.151676177978516, "kl": 0.01764022745192051, "total_loss": 731.3836059570312}, "sample_time_ms": 250692.213, "grad_time_ms": 695.901, "load_time_ms": 1.648, "update_time_ms": 2.636}, "timesteps_total": 27600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 27600, "hostname": "cda-server-3", "episode_reward_max": -88.93574451772085}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 5979.111471414566, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -143.04836334373098, "iterations_since_restore": 24, "episodes_total": 576, "timestamp": 1756400395, "episode_reward_mean": -111.36213150222491, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_18-59-55", "policy_reward_mean": {}, "time_this_iter_s": 284.8812713623047, "episodes_this_iter": 24, "training_iteration": 24, "time_total_s": 5979.111471414566, "info": {"num_steps_sampled": 28800, "num_steps_trained": 28800, "default": {"policy_loss": -0.1553221344947815, "vf_explained_var": 0.3876085877418518, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 800.6702270507812, "entropy": 18.09413719177246, "kl": 0.018143318593502045, "total_loss": 800.5332641601562}, "sample_time_ms": 253971.919, "grad_time_ms": 695.703, "load_time_ms": 1.672, "update_time_ms": 2.644}, "timesteps_total": 28800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 28800, "hostname": "cda-server-3", "episode_reward_max": -88.93574451772085}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 6190.038968324661, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -142.52618813170668, "iterations_since_restore": 25, "episodes_total": 600, "timestamp": 1756400606, "episode_reward_mean": -110.11096078319713, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_19-03-26", "policy_reward_mean": {}, "time_this_iter_s": 210.92749691009521, "episodes_this_iter": 24, "training_iteration": 25, "time_total_s": 6190.038968324661, "info": {"num_steps_sampled": 30000, "num_steps_trained": 30000, "default": {"policy_loss": -0.13792775571346283, "vf_explained_var": 0.2672511339187622, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 757.8585205078125, "entropy": 18.086666107177734, "kl": 0.017636993899941444, "total_loss": 757.7384643554688}, "sample_time_ms": 249265.378, "grad_time_ms": 695.932, "load_time_ms": 1.705, "update_time_ms": 2.651}, "timesteps_total": 30000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 30000, "hostname": "cda-server-3", "episode_reward_max": -87.96881449444385}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 6434.35960817337, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -142.52618813170668, "iterations_since_restore": 26, "episodes_total": 624, "timestamp": 1756400851, "episode_reward_mean": -108.79258472972552, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_19-07-31", "policy_reward_mean": {}, "time_this_iter_s": 244.3206398487091, "episodes_this_iter": 24, "training_iteration": 26, "time_total_s": 6434.35960817337, "info": {"num_steps_sampled": 31200, "num_steps_trained": 31200, "default": {"policy_loss": -0.13855737447738647, "vf_explained_var": 0.3324964642524719, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 534.9935913085938, "entropy": 18.05270004272461, "kl": 0.015438605099916458, "total_loss": 534.8707275390625}, "sample_time_ms": 251456.213, "grad_time_ms": 695.196, "load_time_ms": 1.709, "update_time_ms": 2.694}, "timesteps_total": 31200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 31200, "hostname": "cda-server-3", "episode_reward_max": -87.96881449444385}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 6672.771792173386, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -141.16678514474953, "iterations_since_restore": 27, "episodes_total": 648, "timestamp": 1756401089, "episode_reward_mean": -106.84075375099816, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_19-11-29", "policy_reward_mean": {}, "time_this_iter_s": 238.41218400001526, "episodes_this_iter": 24, "training_iteration": 27, "time_total_s": 6672.771792173386, "info": {"num_steps_sampled": 32400, "num_steps_trained": 32400, "default": {"policy_loss": -0.14445364475250244, "vf_explained_var": 0.39279234409332275, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 483.4596862792969, "entropy": 18.03901481628418, "kl": 0.016610559076070786, "total_loss": 483.33209228515625}, "sample_time_ms": 251682.44, "grad_time_ms": 695.081, "load_time_ms": 1.711, "update_time_ms": 2.652}, "timesteps_total": 32400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 32400, "hostname": "cda-server-3", "episode_reward_max": -87.96881449444385}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 6921.277290582657, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -140.2992540424679, "iterations_since_restore": 28, "episodes_total": 672, "timestamp": 1756401338, "episode_reward_mean": -104.82396678370964, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_19-15-38", "policy_reward_mean": {}, "time_this_iter_s": 248.50549840927124, "episodes_this_iter": 24, "training_iteration": 28, "time_total_s": 6921.277290582657, "info": {"num_steps_sampled": 33600, "num_steps_trained": 33600, "default": {"policy_loss": -0.1346297711133957, "vf_explained_var": 0.4250890910625458, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 527.1061401367188, "entropy": 18.05461883544922, "kl": 0.016484878957271576, "total_loss": 526.9881591796875}, "sample_time_ms": 249426.827, "grad_time_ms": 694.746, "load_time_ms": 1.73, "update_time_ms": 2.652}, "timesteps_total": 33600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 33600, "hostname": "cda-server-3", "episode_reward_max": -87.96881449444385}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 7166.122593641281, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -143.76604889515352, "iterations_since_restore": 29, "episodes_total": 696, "timestamp": 1756401582, "episode_reward_mean": -103.82999386622753, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_19-19-42", "policy_reward_mean": {}, "time_this_iter_s": 244.84530305862427, "episodes_this_iter": 24, "training_iteration": 29, "time_total_s": 7166.122593641281, "info": {"num_steps_sampled": 34800, "num_steps_trained": 34800, "default": {"policy_loss": -0.1438552737236023, "vf_explained_var": 0.28951722383499146, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 612.649658203125, "entropy": 18.002059936523438, "kl": 0.016011489555239677, "total_loss": 612.5220336914062}, "sample_time_ms": 249283.478, "grad_time_ms": 694.771, "load_time_ms": 1.725, "update_time_ms": 2.634}, "timesteps_total": 34800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 34800, "hostname": "cda-server-3", "episode_reward_max": -88.04797756183808}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 7463.127463102341, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -143.76604889515352, "iterations_since_restore": 30, "episodes_total": 720, "timestamp": 1756401879, "episode_reward_mean": -103.3184289517542, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_19-24-39", "policy_reward_mean": {}, "time_this_iter_s": 297.00486946105957, "episodes_this_iter": 24, "training_iteration": 30, "time_total_s": 7463.127463102341, "info": {"num_steps_sampled": 36000, "num_steps_trained": 36000, "default": {"policy_loss": -0.1339775025844574, "vf_explained_var": 0.4751656949520111, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 410.6561279296875, "entropy": 17.993558883666992, "kl": 0.01672077737748623, "total_loss": 410.5390625}, "sample_time_ms": 254757.672, "grad_time_ms": 694.401, "load_time_ms": 1.736, "update_time_ms": 2.615}, "timesteps_total": 36000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 36000, "hostname": "cda-server-3", "episode_reward_max": -88.04797756183808}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 7693.591760635376, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -143.76604889515352, "iterations_since_restore": 31, "episodes_total": 744, "timestamp": 1756402110, "episode_reward_mean": -103.7415526760245, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_19-28-30", "policy_reward_mean": {}, "time_this_iter_s": 230.46429753303528, "episodes_this_iter": 24, "training_iteration": 31, "time_total_s": 7693.591760635376, "info": {"num_steps_sampled": 37200, "num_steps_trained": 37200, "default": {"policy_loss": -0.13384594023227692, "vf_explained_var": 0.3274219036102295, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 553.2936401367188, "entropy": 17.990142822265625, "kl": 0.017523042857646942, "total_loss": 553.177490234375}, "sample_time_ms": 257066.525, "grad_time_ms": 693.991, "load_time_ms": 1.726, "update_time_ms": 2.629}, "timesteps_total": 37200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 37200, "hostname": "cda-server-3", "episode_reward_max": -83.96823218772687}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 7949.828924655914, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -143.76604889515352, "iterations_since_restore": 32, "episodes_total": 768, "timestamp": 1756402366, "episode_reward_mean": -102.33990607931862, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_19-32-46", "policy_reward_mean": {}, "time_this_iter_s": 256.23716402053833, "episodes_this_iter": 24, "training_iteration": 32, "time_total_s": 7949.828924655914, "info": {"num_steps_sampled": 38400, "num_steps_trained": 38400, "default": {"policy_loss": -0.13505858182907104, "vf_explained_var": -0.02648478001356125, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 648.9166870117188, "entropy": 17.949193954467773, "kl": 0.015016328543424606, "total_loss": 648.7968139648438}, "sample_time_ms": 252659.187, "grad_time_ms": 693.963, "load_time_ms": 1.673, "update_time_ms": 2.595}, "timesteps_total": 38400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 38400, "hostname": "cda-server-3", "episode_reward_max": -82.06553763454826}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 8189.958149909973, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -141.17269706060515, "iterations_since_restore": 33, "episodes_total": 792, "timestamp": 1756402606, "episode_reward_mean": -103.5668895180602, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_19-36-46", "policy_reward_mean": {}, "time_this_iter_s": 240.12922525405884, "episodes_this_iter": 24, "training_iteration": 33, "time_total_s": 8189.958149909973, "info": {"num_steps_sampled": 39600, "num_steps_trained": 39600, "default": {"policy_loss": -0.13893601298332214, "vf_explained_var": 0.5408138036727905, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 424.24908447265625, "entropy": 17.949119567871094, "kl": 0.017221523448824883, "total_loss": 424.1275634765625}, "sample_time_ms": 248869.829, "grad_time_ms": 693.6, "load_time_ms": 1.623, "update_time_ms": 2.574}, "timesteps_total": 39600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 39600, "hostname": "cda-server-3", "episode_reward_max": -82.06553763454826}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 8483.517776966095, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -143.58513812624415, "iterations_since_restore": 34, "episodes_total": 816, "timestamp": 1756402900, "episode_reward_mean": -104.27082951918139, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_19-41-40", "policy_reward_mean": {}, "time_this_iter_s": 293.5596270561218, "episodes_this_iter": 24, "training_iteration": 34, "time_total_s": 8483.517776966095, "info": {"num_steps_sampled": 40800, "num_steps_trained": 40800, "default": {"policy_loss": -0.1295945793390274, "vf_explained_var": 0.5013567805290222, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 432.3161315917969, "entropy": 17.887298583984375, "kl": 0.01532017532736063, "total_loss": 432.2020263671875}, "sample_time_ms": 249737.248, "grad_time_ms": 694.012, "load_time_ms": 1.621, "update_time_ms": 2.585}, "timesteps_total": 40800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 40800, "hostname": "cda-server-3", "episode_reward_max": -82.06553763454826}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 8723.819400072098, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -148.21402368422488, "iterations_since_restore": 35, "episodes_total": 840, "timestamp": 1756403140, "episode_reward_mean": -103.90413005160178, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_19-45-40", "policy_reward_mean": {}, "time_this_iter_s": 240.3016231060028, "episodes_this_iter": 24, "training_iteration": 35, "time_total_s": 8723.819400072098, "info": {"num_steps_sampled": 42000, "num_steps_trained": 42000, "default": {"policy_loss": -0.11818749457597733, "vf_explained_var": 0.43253830075263977, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 439.0633239746094, "entropy": 17.906269073486328, "kl": 0.014970477670431137, "total_loss": 438.9602966308594}, "sample_time_ms": 252674.46, "grad_time_ms": 694.241, "load_time_ms": 1.623, "update_time_ms": 2.579}, "timesteps_total": 42000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 42000, "hostname": "cda-server-3", "episode_reward_max": -82.06553763454826}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 8991.142573833466, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -148.21402368422488, "iterations_since_restore": 36, "episodes_total": 864, "timestamp": 1756403408, "episode_reward_mean": -105.02438479051513, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_19-50-08", "policy_reward_mean": {}, "time_this_iter_s": 267.3231737613678, "episodes_this_iter": 24, "training_iteration": 36, "time_total_s": 8991.142573833466, "info": {"num_steps_sampled": 43200, "num_steps_trained": 43200, "default": {"policy_loss": -0.13264299929141998, "vf_explained_var": 0.5789927244186401, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 339.433837890625, "entropy": 17.89673614501953, "kl": 0.016630493104457855, "total_loss": 339.31805419921875}, "sample_time_ms": 254973.588, "grad_time_ms": 695.398, "load_time_ms": 1.612, "update_time_ms": 2.552}, "timesteps_total": 43200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 43200, "hostname": "cda-server-3", "episode_reward_max": -86.89631256715614}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 9251.871697187424, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -148.21402368422488, "iterations_since_restore": 37, "episodes_total": 888, "timestamp": 1756403668, "episode_reward_mean": -104.76125330698889, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_19-54-28", "policy_reward_mean": {}, "time_this_iter_s": 260.72912335395813, "episodes_this_iter": 24, "training_iteration": 37, "time_total_s": 9251.871697187424, "info": {"num_steps_sampled": 44400, "num_steps_trained": 44400, "default": {"policy_loss": -0.13514705002307892, "vf_explained_var": 0.5892637968063354, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 338.72479248046875, "entropy": 17.81587028503418, "kl": 0.017263438552618027, "total_loss": 338.6070861816406}, "sample_time_ms": 257205.886, "grad_time_ms": 694.738, "load_time_ms": 1.618, "update_time_ms": 2.592}, "timesteps_total": 44400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 44400, "hostname": "cda-server-3", "episode_reward_max": -86.89631256715614}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 9515.561694860458, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -148.21402368422488, "iterations_since_restore": 38, "episodes_total": 912, "timestamp": 1756403932, "episode_reward_mean": -102.16851522701262, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_19-58-52", "policy_reward_mean": {}, "time_this_iter_s": 263.68999767303467, "episodes_this_iter": 24, "training_iteration": 38, "time_total_s": 9515.561694860458, "info": {"num_steps_sampled": 45600, "num_steps_trained": 45600, "default": {"policy_loss": -0.13061577081680298, "vf_explained_var": 0.6929558515548706, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 212.41424560546875, "entropy": 17.837133407592773, "kl": 0.016778942197561264, "total_loss": 212.30059814453125}, "sample_time_ms": 258723.305, "grad_time_ms": 695.81, "load_time_ms": 1.603, "update_time_ms": 2.598}, "timesteps_total": 45600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 45600, "hostname": "cda-server-3", "episode_reward_max": -85.2176874172706}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 9773.700018405914, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -129.5024379654697, "iterations_since_restore": 39, "episodes_total": 936, "timestamp": 1756404190, "episode_reward_mean": -101.25596506657908, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_20-03-10", "policy_reward_mean": {}, "time_this_iter_s": 258.13832354545593, "episodes_this_iter": 24, "training_iteration": 39, "time_total_s": 9773.700018405914, "info": {"num_steps_sampled": 46800, "num_steps_trained": 46800, "default": {"policy_loss": -0.15072497725486755, "vf_explained_var": 0.7493559122085571, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 181.5271453857422, "entropy": 17.8424129486084, "kl": 0.016762135550379753, "total_loss": 181.3933868408203}, "sample_time_ms": 260052.985, "grad_time_ms": 695.428, "load_time_ms": 1.613, "update_time_ms": 2.596}, "timesteps_total": 46800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 46800, "hostname": "cda-server-3", "episode_reward_max": -85.2176874172706}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 10019.42602467537, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -134.83725819359995, "iterations_since_restore": 40, "episodes_total": 960, "timestamp": 1756404436, "episode_reward_mean": -100.88615860699981, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_20-07-16", "policy_reward_mean": {}, "time_this_iter_s": 245.72600626945496, "episodes_this_iter": 24, "training_iteration": 40, "time_total_s": 10019.42602467537, "info": {"num_steps_sampled": 48000, "num_steps_trained": 48000, "default": {"policy_loss": -0.14604660868644714, "vf_explained_var": 0.7916211485862732, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 139.4286346435547, "entropy": 17.7719783782959, "kl": 0.017864830791950226, "total_loss": 139.30067443847656}, "sample_time_ms": 254924.671, "grad_time_ms": 695.871, "load_time_ms": 1.6, "update_time_ms": 2.606}, "timesteps_total": 48000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 48000, "hostname": "cda-server-3", "episode_reward_max": -85.2176874172706}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 10276.95909500122, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -134.83725819359995, "iterations_since_restore": 41, "episodes_total": 984, "timestamp": 1756404693, "episode_reward_mean": -99.97430550424826, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_20-11-33", "policy_reward_mean": {}, "time_this_iter_s": 257.53307032585144, "episodes_this_iter": 24, "training_iteration": 41, "time_total_s": 10276.95909500122, "info": {"num_steps_sampled": 49200, "num_steps_trained": 49200, "default": {"policy_loss": -0.1547583043575287, "vf_explained_var": 0.7901754379272461, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 130.47581481933594, "entropy": 17.793487548828125, "kl": 0.016820203512907028, "total_loss": 130.3380889892578}, "sample_time_ms": 257630.172, "grad_time_ms": 697.229, "load_time_ms": 1.608, "update_time_ms": 2.586}, "timesteps_total": 49200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 49200, "hostname": "cda-server-3", "episode_reward_max": -81.97190564989381}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 10532.508011579514, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -134.83725819359995, "iterations_since_restore": 42, "episodes_total": 1008, "timestamp": 1756404949, "episode_reward_mean": -100.59323159474148, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_20-15-49", "policy_reward_mean": {}, "time_this_iter_s": 255.54891657829285, "episodes_this_iter": 24, "training_iteration": 42, "time_total_s": 10532.508011579514, "info": {"num_steps_sampled": 50400, "num_steps_trained": 50400, "default": {"policy_loss": -0.1485620141029358, "vf_explained_var": 0.8014824986457825, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 130.30760192871094, "entropy": 17.76481819152832, "kl": 0.016707023605704308, "total_loss": 130.17596435546875}, "sample_time_ms": 257561.944, "grad_time_ms": 696.633, "load_time_ms": 1.607, "update_time_ms": 2.571}, "timesteps_total": 50400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 50400, "hostname": "cda-server-3", "episode_reward_max": -81.97190564989381}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 10790.558824539185, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -144.4774719951156, "iterations_since_restore": 43, "episodes_total": 1032, "timestamp": 1756405207, "episode_reward_mean": -101.62419135575888, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_20-20-07", "policy_reward_mean": {}, "time_this_iter_s": 258.050812959671, "episodes_this_iter": 24, "training_iteration": 43, "time_total_s": 10790.558824539185, "info": {"num_steps_sampled": 51600, "num_steps_trained": 51600, "default": {"policy_loss": -0.1260344386100769, "vf_explained_var": 0.7056383490562439, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 193.17147827148438, "entropy": 17.764888763427734, "kl": 0.01669412851333618, "total_loss": 193.0623321533203}, "sample_time_ms": 259353.801, "grad_time_ms": 696.863, "load_time_ms": 1.658, "update_time_ms": 2.593}, "timesteps_total": 51600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 51600, "hostname": "cda-server-3", "episode_reward_max": -81.97190564989381}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 11004.175188064575, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -144.4774719951156, "iterations_since_restore": 44, "episodes_total": 1056, "timestamp": 1756405421, "episode_reward_mean": -101.60767664423524, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_20-23-41", "policy_reward_mean": {}, "time_this_iter_s": 213.61636352539062, "episodes_this_iter": 24, "training_iteration": 44, "time_total_s": 11004.175188064575, "info": {"num_steps_sampled": 52800, "num_steps_trained": 52800, "default": {"policy_loss": -0.148858442902565, "vf_explained_var": 0.7899549007415771, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 127.62850952148438, "entropy": 17.72422981262207, "kl": 0.017617570236325264, "total_loss": 127.49748992919922}, "sample_time_ms": 251359.431, "grad_time_ms": 696.923, "load_time_ms": 1.654, "update_time_ms": 2.562}, "timesteps_total": 52800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 52800, "hostname": "cda-server-3", "episode_reward_max": -81.97190564989381}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 11276.314458370209, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -144.4774719951156, "iterations_since_restore": 45, "episodes_total": 1080, "timestamp": 1756405693, "episode_reward_mean": -101.40711573503677, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_20-28-13", "policy_reward_mean": {}, "time_this_iter_s": 272.13927030563354, "episodes_this_iter": 24, "training_iteration": 45, "time_total_s": 11276.314458370209, "info": {"num_steps_sampled": 54000, "num_steps_trained": 54000, "default": {"policy_loss": -0.13800571858882904, "vf_explained_var": 0.8040595054626465, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 110.159912109375, "entropy": 17.731359481811523, "kl": 0.017722077667713165, "total_loss": 110.03984832763672}, "sample_time_ms": 254543.995, "grad_time_ms": 696.108, "load_time_ms": 1.667, "update_time_ms": 2.57}, "timesteps_total": 54000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 54000, "hostname": "cda-server-3", "episode_reward_max": -80.96407251778136}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 11516.05266880989, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -144.4774719951156, "iterations_since_restore": 46, "episodes_total": 1104, "timestamp": 1756405933, "episode_reward_mean": -101.97060669596017, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_20-32-13", "policy_reward_mean": {}, "time_this_iter_s": 239.738210439682, "episodes_this_iter": 24, "training_iteration": 46, "time_total_s": 11516.05266880989, "info": {"num_steps_sampled": 55200, "num_steps_trained": 55200, "default": {"policy_loss": -0.15162310004234314, "vf_explained_var": 0.8339415788650513, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 126.8819580078125, "entropy": 17.67001724243164, "kl": 0.018563542515039444, "total_loss": 126.74913024902344}, "sample_time_ms": 251785.723, "grad_time_ms": 695.899, "load_time_ms": 1.643, "update_time_ms": 2.599}, "timesteps_total": 55200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 55200, "hostname": "cda-server-3", "episode_reward_max": -72.23740427864698}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 11774.868111371994, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -135.64386258019744, "iterations_since_restore": 47, "episodes_total": 1128, "timestamp": 1756406191, "episode_reward_mean": -100.08848784529565, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_20-36-31", "policy_reward_mean": {}, "time_this_iter_s": 258.81544256210327, "episodes_this_iter": 24, "training_iteration": 47, "time_total_s": 11774.868111371994, "info": {"num_steps_sampled": 56400, "num_steps_trained": 56400, "default": {"policy_loss": -0.14888200163841248, "vf_explained_var": 0.8016077280044556, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 115.84388732910156, "entropy": 17.718650817871094, "kl": 0.017319880425930023, "total_loss": 115.7125244140625}, "sample_time_ms": 251593.678, "grad_time_ms": 696.586, "load_time_ms": 1.642, "update_time_ms": 2.592}, "timesteps_total": 56400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 56400, "hostname": "cda-server-3", "episode_reward_max": -69.29839344771064}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 12001.616872549057, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -135.64386258019744, "iterations_since_restore": 48, "episodes_total": 1152, "timestamp": 1756406418, "episode_reward_mean": -99.68269586736893, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_20-40-18", "policy_reward_mean": {}, "time_this_iter_s": 226.748761177063, "episodes_this_iter": 24, "training_iteration": 48, "time_total_s": 12001.616872549057, "info": {"num_steps_sampled": 57600, "num_steps_trained": 57600, "default": {"policy_loss": -0.15360401570796967, "vf_explained_var": 0.8236192464828491, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 103.33358001708984, "entropy": 17.707372665405273, "kl": 0.019352156668901443, "total_loss": 103.19956970214844}, "sample_time_ms": 247900.738, "grad_time_ms": 695.412, "load_time_ms": 1.626, "update_time_ms": 2.588}, "timesteps_total": 57600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 57600, "hostname": "cda-server-3", "episode_reward_max": -69.29839344771064}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 12236.425989627838, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -135.64386258019744, "iterations_since_restore": 49, "episodes_total": 1176, "timestamp": 1756406653, "episode_reward_mean": -98.22463176781638, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_20-44-13", "policy_reward_mean": {}, "time_this_iter_s": 234.80911707878113, "episodes_this_iter": 24, "training_iteration": 49, "time_total_s": 12236.425989627838, "info": {"num_steps_sampled": 58800, "num_steps_trained": 58800, "default": {"policy_loss": -0.1393449306488037, "vf_explained_var": 0.8465521335601807, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 76.96279907226562, "entropy": 17.65727996826172, "kl": 0.017094898968935013, "total_loss": 76.84076690673828}, "sample_time_ms": 245567.736, "grad_time_ms": 695.671, "load_time_ms": 1.564, "update_time_ms": 2.572}, "timesteps_total": 58800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 58800, "hostname": "cda-server-3", "episode_reward_max": -69.29839344771064}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 12468.61930012703, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -135.64386258019744, "iterations_since_restore": 50, "episodes_total": 1200, "timestamp": 1756406885, "episode_reward_mean": -96.12076030956199, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_20-48-05", "policy_reward_mean": {}, "time_this_iter_s": 232.19331049919128, "episodes_this_iter": 24, "training_iteration": 50, "time_total_s": 12468.61930012703, "info": {"num_steps_sampled": 60000, "num_steps_trained": 60000, "default": {"policy_loss": -0.14331084489822388, "vf_explained_var": 0.9255598783493042, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 37.3577995300293, "entropy": 17.61494255065918, "kl": 0.018930919468402863, "total_loss": 37.2336540222168}, "sample_time_ms": 244214.895, "grad_time_ms": 695.213, "load_time_ms": 1.565, "update_time_ms": 2.591}, "timesteps_total": 60000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 60000, "hostname": "cda-server-3", "episode_reward_max": -69.29839344771064}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 12709.341829061508, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -132.3752722797274, "iterations_since_restore": 51, "episodes_total": 1224, "timestamp": 1756407126, "episode_reward_mean": -95.85087433939978, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_20-52-06", "policy_reward_mean": {}, "time_this_iter_s": 240.72252893447876, "episodes_this_iter": 24, "training_iteration": 51, "time_total_s": 12709.341829061508, "info": {"num_steps_sampled": 61200, "num_steps_trained": 61200, "default": {"policy_loss": -0.14188522100448608, "vf_explained_var": 0.8768813610076904, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 71.55755615234375, "entropy": 17.609588623046875, "kl": 0.018651418387889862, "total_loss": 71.43455505371094}, "sample_time_ms": 242534.376, "grad_time_ms": 694.668, "load_time_ms": 1.564, "update_time_ms": 2.595}, "timesteps_total": 61200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 61200, "hostname": "cda-server-3", "episode_reward_max": -74.95478802659025}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 12948.8257188797, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -132.3752722797274, "iterations_since_restore": 52, "episodes_total": 1248, "timestamp": 1756407365, "episode_reward_mean": -94.87060266743552, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_20-56-05", "policy_reward_mean": {}, "time_this_iter_s": 239.48388981819153, "episodes_this_iter": 24, "training_iteration": 52, "time_total_s": 12948.8257188797, "info": {"num_steps_sampled": 62400, "num_steps_trained": 62400, "default": {"policy_loss": -0.1256731152534485, "vf_explained_var": 0.8760194182395935, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 63.51656723022461, "entropy": 17.582059860229492, "kl": 0.01717858947813511, "total_loss": 63.40829086303711}, "sample_time_ms": 240927.317, "grad_time_ms": 695.266, "load_time_ms": 1.531, "update_time_ms": 2.61}, "timesteps_total": 62400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 62400, "hostname": "cda-server-3", "episode_reward_max": -74.95383250565217}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 13182.688966751099, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -132.3752722797274, "iterations_since_restore": 53, "episodes_total": 1272, "timestamp": 1756407599, "episode_reward_mean": -95.34690342570403, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_20-59-59", "policy_reward_mean": {}, "time_this_iter_s": 233.86324787139893, "episodes_this_iter": 24, "training_iteration": 53, "time_total_s": 13182.688966751099, "info": {"num_steps_sampled": 63600, "num_steps_trained": 63600, "default": {"policy_loss": -0.14219270646572113, "vf_explained_var": 0.9002120494842529, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 50.38748550415039, "entropy": 17.57541847229004, "kl": 0.016468307003378868, "total_loss": 50.261962890625}, "sample_time_ms": 238508.049, "grad_time_ms": 695.711, "load_time_ms": 1.556, "update_time_ms": 2.613}, "timesteps_total": 63600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 63600, "hostname": "cda-server-3", "episode_reward_max": -72.95456854464868}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 13417.420874357224, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -132.3752722797274, "iterations_since_restore": 54, "episodes_total": 1296, "timestamp": 1756407834, "episode_reward_mean": -95.8701949185, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_21-03-54", "policy_reward_mean": {}, "time_this_iter_s": 234.73190760612488, "episodes_this_iter": 24, "training_iteration": 54, "time_total_s": 13417.420874357224, "info": {"num_steps_sampled": 64800, "num_steps_trained": 64800, "default": {"policy_loss": -0.1341078281402588, "vf_explained_var": 0.8943191170692444, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 55.06442642211914, "entropy": 17.553176879882812, "kl": 0.016393329948186874, "total_loss": 54.94691467285156}, "sample_time_ms": 240620.357, "grad_time_ms": 694.996, "load_time_ms": 1.535, "update_time_ms": 2.629}, "timesteps_total": 64800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 64800, "hostname": "cda-server-3", "episode_reward_max": -72.95456854464868}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 13653.380255937576, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -118.67192241336538, "iterations_since_restore": 55, "episodes_total": 1320, "timestamp": 1756408070, "episode_reward_mean": -95.79111107637159, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_21-07-50", "policy_reward_mean": {}, "time_this_iter_s": 235.95938158035278, "episodes_this_iter": 24, "training_iteration": 55, "time_total_s": 13653.380255937576, "info": {"num_steps_sampled": 66000, "num_steps_trained": 66000, "default": {"policy_loss": -0.1451943963766098, "vf_explained_var": 0.8970387578010559, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 59.29791259765625, "entropy": 17.52239227294922, "kl": 0.01855158805847168, "total_loss": 59.17150115966797}, "sample_time_ms": 237001.363, "grad_time_ms": 696.064, "load_time_ms": 1.505, "update_time_ms": 2.594}, "timesteps_total": 66000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 66000, "hostname": "cda-server-3", "episode_reward_max": -72.95456854464868}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 13936.009518384933, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -118.67192241336538, "iterations_since_restore": 56, "episodes_total": 1344, "timestamp": 1756408353, "episode_reward_mean": -95.66737848522412, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_21-12-33", "policy_reward_mean": {}, "time_this_iter_s": 282.6292624473572, "episodes_this_iter": 24, "training_iteration": 56, "time_total_s": 13936.009518384933, "info": {"num_steps_sampled": 67200, "num_steps_trained": 67200, "default": {"policy_loss": -0.13796259462833405, "vf_explained_var": 0.8547341227531433, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 80.74215698242188, "entropy": 17.47957992553711, "kl": 0.016449345275759697, "total_loss": 80.62085723876953}, "sample_time_ms": 241290.762, "grad_time_ms": 695.682, "load_time_ms": 1.535, "update_time_ms": 2.581}, "timesteps_total": 67200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 67200, "hostname": "cda-server-3", "episode_reward_max": -72.95456854464868}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 14193.073428630829, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -120.17837555190016, "iterations_since_restore": 57, "episodes_total": 1368, "timestamp": 1756408610, "episode_reward_mean": -96.01223746240512, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_21-16-50", "policy_reward_mean": {}, "time_this_iter_s": 257.0639102458954, "episodes_this_iter": 24, "training_iteration": 57, "time_total_s": 14193.073428630829, "info": {"num_steps_sampled": 68400, "num_steps_trained": 68400, "default": {"policy_loss": -0.13664299249649048, "vf_explained_var": 0.8982321619987488, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 57.72923278808594, "entropy": 17.488954544067383, "kl": 0.01833203062415123, "total_loss": 57.61115264892578}, "sample_time_ms": 241115.722, "grad_time_ms": 695.653, "load_time_ms": 1.486, "update_time_ms": 2.574}, "timesteps_total": 68400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 68400, "hostname": "cda-server-3", "episode_reward_max": -77.63105009300338}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 14403.944508075714, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -120.17837555190016, "iterations_since_restore": 58, "episodes_total": 1392, "timestamp": 1756408821, "episode_reward_mean": -95.81383784659482, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_21-20-21", "policy_reward_mean": {}, "time_this_iter_s": 210.87107944488525, "episodes_this_iter": 24, "training_iteration": 58, "time_total_s": 14403.944508075714, "info": {"num_steps_sampled": 69600, "num_steps_trained": 69600, "default": {"policy_loss": -0.1360078603029251, "vf_explained_var": 0.9107392430305481, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 46.64500045776367, "entropy": 17.508567810058594, "kl": 0.016890546306967735, "total_loss": 46.52609634399414}, "sample_time_ms": 239527.122, "grad_time_ms": 696.5, "load_time_ms": 1.493, "update_time_ms": 2.548}, "timesteps_total": 69600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 69600, "hostname": "cda-server-3", "episode_reward_max": -77.63105009300338}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 14628.449810504913, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -134.19846850030785, "iterations_since_restore": 59, "episodes_total": 1416, "timestamp": 1756409045, "episode_reward_mean": -96.00413438464108, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_21-24-05", "policy_reward_mean": {}, "time_this_iter_s": 224.50530242919922, "episodes_this_iter": 24, "training_iteration": 59, "time_total_s": 14628.449810504913, "info": {"num_steps_sampled": 70800, "num_steps_trained": 70800, "default": {"policy_loss": -0.13526791334152222, "vf_explained_var": 0.8764873743057251, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 70.6440658569336, "entropy": 17.406675338745117, "kl": 0.015590902417898178, "total_loss": 70.52458190917969}, "sample_time_ms": 238496.96, "grad_time_ms": 696.199, "load_time_ms": 1.53, "update_time_ms": 2.565}, "timesteps_total": 70800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 70800, "hostname": "cda-server-3", "episode_reward_max": -68.80640733491872}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 14892.913598299026, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -134.19846850030785, "iterations_since_restore": 60, "episodes_total": 1440, "timestamp": 1756409310, "episode_reward_mean": -95.28690626054942, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_21-28-30", "policy_reward_mean": {}, "time_this_iter_s": 264.46378779411316, "episodes_this_iter": 24, "training_iteration": 60, "time_total_s": 14892.913598299026, "info": {"num_steps_sampled": 72000, "num_steps_trained": 72000, "default": {"policy_loss": -0.1450229287147522, "vf_explained_var": 0.8648273944854736, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 73.43704223632812, "entropy": 17.41325569152832, "kl": 0.017410503700375557, "total_loss": 73.30965423583984}, "sample_time_ms": 241723.871, "grad_time_ms": 696.371, "load_time_ms": 1.535, "update_time_ms": 2.538}, "timesteps_total": 72000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 72000, "hostname": "cda-server-3", "episode_reward_max": -65.12883998949023}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 15171.576050519943, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -140.69425675750867, "iterations_since_restore": 61, "episodes_total": 1464, "timestamp": 1756409588, "episode_reward_mean": -95.57552015729631, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_21-33-08", "policy_reward_mean": {}, "time_this_iter_s": 278.66245222091675, "episodes_this_iter": 24, "training_iteration": 61, "time_total_s": 15171.576050519943, "info": {"num_steps_sampled": 73200, "num_steps_trained": 73200, "default": {"policy_loss": -0.16056376695632935, "vf_explained_var": 0.8698188066482544, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 78.02471923828125, "entropy": 17.357572555541992, "kl": 0.016973795369267464, "total_loss": 77.88133239746094}, "sample_time_ms": 245517.672, "grad_time_ms": 696.497, "load_time_ms": 1.534, "update_time_ms": 2.557}, "timesteps_total": 73200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 73200, "hostname": "cda-server-3", "episode_reward_max": -65.12883998949023}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 15447.08240532875, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -140.69425675750867, "iterations_since_restore": 62, "episodes_total": 1488, "timestamp": 1756409864, "episode_reward_mean": -93.79442351704975, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_21-37-44", "policy_reward_mean": {}, "time_this_iter_s": 275.5063548088074, "episodes_this_iter": 24, "training_iteration": 62, "time_total_s": 15447.08240532875, "info": {"num_steps_sampled": 74400, "num_steps_trained": 74400, "default": {"policy_loss": -0.1545441895723343, "vf_explained_var": 0.8350050449371338, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 69.55598449707031, "entropy": 17.437522888183594, "kl": 0.017163407057523727, "total_loss": 69.41881561279297}, "sample_time_ms": 249118.09, "grad_time_ms": 698.277, "load_time_ms": 1.554, "update_time_ms": 2.574}, "timesteps_total": 74400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 74400, "hostname": "cda-server-3", "episode_reward_max": -65.12883998949023}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 15697.26745390892, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -140.69425675750867, "iterations_since_restore": 63, "episodes_total": 1512, "timestamp": 1756410114, "episode_reward_mean": -92.36666563102112, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_21-41-54", "policy_reward_mean": {}, "time_this_iter_s": 250.18504858016968, "episodes_this_iter": 24, "training_iteration": 63, "time_total_s": 15697.26745390892, "info": {"num_steps_sampled": 75600, "num_steps_trained": 75600, "default": {"policy_loss": -0.14007754623889923, "vf_explained_var": 0.8591345548629761, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 73.84480285644531, "entropy": 17.366647720336914, "kl": 0.016919545829296112, "total_loss": 73.72185516357422}, "sample_time_ms": 250750.329, "grad_time_ms": 698.257, "load_time_ms": 1.524, "update_time_ms": 2.579}, "timesteps_total": 75600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 75600, "hostname": "cda-server-3", "episode_reward_max": -62.945926316347276}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 15952.925563812256, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -140.69425675750867, "iterations_since_restore": 64, "episodes_total": 1536, "timestamp": 1756410370, "episode_reward_mean": -91.95464920578206, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_21-46-10", "policy_reward_mean": {}, "time_this_iter_s": 255.65810990333557, "episodes_this_iter": 24, "training_iteration": 64, "time_total_s": 15952.925563812256, "info": {"num_steps_sampled": 76800, "num_steps_trained": 76800, "default": {"policy_loss": -0.14222145080566406, "vf_explained_var": 0.8870275616645813, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 54.59144592285156, "entropy": 17.29293441772461, "kl": 0.016513163223862648, "total_loss": 54.4659423828125}, "sample_time_ms": 252842.238, "grad_time_ms": 698.963, "load_time_ms": 1.542, "update_time_ms": 2.566}, "timesteps_total": 76800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 76800, "hostname": "cda-server-3", "episode_reward_max": -62.945926316347276}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 16182.57912182808, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -123.09070788121295, "iterations_since_restore": 65, "episodes_total": 1560, "timestamp": 1756410599, "episode_reward_mean": -89.69694503502396, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_21-49-59", "policy_reward_mean": {}, "time_this_iter_s": 229.65355801582336, "episodes_this_iter": 24, "training_iteration": 65, "time_total_s": 16182.57912182808, "info": {"num_steps_sampled": 78000, "num_steps_trained": 78000, "default": {"policy_loss": -0.13650605082511902, "vf_explained_var": 0.8334833979606628, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 79.48489379882812, "entropy": 17.300722122192383, "kl": 0.016983311623334885, "total_loss": 79.36558532714844}, "sample_time_ms": 252212.596, "grad_time_ms": 698.018, "load_time_ms": 1.542, "update_time_ms": 2.56}, "timesteps_total": 78000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 78000, "hostname": "cda-server-3", "episode_reward_max": -62.945926316347276}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 16448.787168741226, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -123.09070788121295, "iterations_since_restore": 66, "episodes_total": 1584, "timestamp": 1756410865, "episode_reward_mean": -88.2820038471582, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_21-54-25", "policy_reward_mean": {}, "time_this_iter_s": 266.208046913147, "episodes_this_iter": 24, "training_iteration": 66, "time_total_s": 16448.787168741226, "info": {"num_steps_sampled": 79200, "num_steps_trained": 79200, "default": {"policy_loss": -0.13701409101486206, "vf_explained_var": 0.8851307034492493, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 49.43205261230469, "entropy": 17.186141967773438, "kl": 0.01660430245101452, "total_loss": 49.311851501464844}, "sample_time_ms": 250570.621, "grad_time_ms": 697.943, "load_time_ms": 1.536, "update_time_ms": 2.553}, "timesteps_total": 79200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 79200, "hostname": "cda-server-3", "episode_reward_max": -62.945926316347276}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 16695.300344944, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -112.2154760288806, "iterations_since_restore": 67, "episodes_total": 1608, "timestamp": 1756411112, "episode_reward_mean": -87.30647296079995, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_21-58-32", "policy_reward_mean": {}, "time_this_iter_s": 246.51317620277405, "episodes_this_iter": 24, "training_iteration": 67, "time_total_s": 16695.300344944, "info": {"num_steps_sampled": 80400, "num_steps_trained": 80400, "default": {"policy_loss": -0.14472953975200653, "vf_explained_var": 0.8869979381561279, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 50.39473342895508, "entropy": 17.204143524169922, "kl": 0.01810036227107048, "total_loss": 50.268333435058594}, "sample_time_ms": 249516.096, "grad_time_ms": 697.373, "load_time_ms": 1.53, "update_time_ms": 2.542}, "timesteps_total": 80400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 80400, "hostname": "cda-server-3", "episode_reward_max": -60.97078129308109}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 16937.570281505585, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -104.9671725722534, "iterations_since_restore": 68, "episodes_total": 1632, "timestamp": 1756411354, "episode_reward_mean": -85.12118934184193, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_22-02-34", "policy_reward_mean": {}, "time_this_iter_s": 242.26993656158447, "episodes_this_iter": 24, "training_iteration": 68, "time_total_s": 16937.570281505585, "info": {"num_steps_sampled": 81600, "num_steps_trained": 81600, "default": {"policy_loss": -0.1376802623271942, "vf_explained_var": 0.8597739338874817, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 57.41520309448242, "entropy": 17.178375244140625, "kl": 0.0169665589928627, "total_loss": 57.29470443725586}, "sample_time_ms": 252656.029, "grad_time_ms": 697.251, "load_time_ms": 1.562, "update_time_ms": 2.569}, "timesteps_total": 81600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 81600, "hostname": "cda-server-3", "episode_reward_max": -60.95099421013692}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 17204.35671567917, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -108.20417373274827, "iterations_since_restore": 69, "episodes_total": 1656, "timestamp": 1756411621, "episode_reward_mean": -84.75867703744163, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_22-07-01", "policy_reward_mean": {}, "time_this_iter_s": 266.786434173584, "episodes_this_iter": 24, "training_iteration": 69, "time_total_s": 17204.35671567917, "info": {"num_steps_sampled": 82800, "num_steps_trained": 82800, "default": {"policy_loss": -0.13954412937164307, "vf_explained_var": 0.8834936618804932, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 52.70014190673828, "entropy": 17.090085983276367, "kl": 0.01663246750831604, "total_loss": 52.57743835449219}, "sample_time_ms": 256884.429, "grad_time_ms": 697.089, "load_time_ms": 1.488, "update_time_ms": 2.548}, "timesteps_total": 82800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 82800, "hostname": "cda-server-3", "episode_reward_max": -60.95099421013692}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 17439.835283517838, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -108.20417373274827, "iterations_since_restore": 70, "episodes_total": 1680, "timestamp": 1756411857, "episode_reward_mean": -84.66569654180248, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_22-10-57", "policy_reward_mean": {}, "time_this_iter_s": 235.47856783866882, "episodes_this_iter": 24, "training_iteration": 70, "time_total_s": 17439.835283517838, "info": {"num_steps_sampled": 84000, "num_steps_trained": 84000, "default": {"policy_loss": -0.13918136060237885, "vf_explained_var": 0.8703316450119019, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 57.281005859375, "entropy": 17.030242919921875, "kl": 0.015691058710217476, "total_loss": 57.15771484375}, "sample_time_ms": 253984.995, "grad_time_ms": 697.978, "load_time_ms": 1.486, "update_time_ms": 2.563}, "timesteps_total": 84000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 84000, "hostname": "cda-server-3", "episode_reward_max": -60.95099421013692}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 17697.609385490417, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -131.91481230341097, "iterations_since_restore": 71, "episodes_total": 1704, "timestamp": 1756412114, "episode_reward_mean": -84.41687713566581, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_22-15-14", "policy_reward_mean": {}, "time_this_iter_s": 257.77410197257996, "episodes_this_iter": 24, "training_iteration": 71, "time_total_s": 17697.609385490417, "info": {"num_steps_sampled": 85200, "num_steps_trained": 85200, "default": {"policy_loss": -0.14263315498828888, "vf_explained_var": 0.8583628535270691, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 61.98405075073242, "entropy": 17.083913803100586, "kl": 0.017013147473335266, "total_loss": 61.85863494873047}, "sample_time_ms": 251896.396, "grad_time_ms": 697.808, "load_time_ms": 1.491, "update_time_ms": 2.553}, "timesteps_total": 85200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 85200, "hostname": "cda-server-3", "episode_reward_max": -60.95099421013692}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 17942.44306564331, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -131.91481230341097, "iterations_since_restore": 72, "episodes_total": 1728, "timestamp": 1756412359, "episode_reward_mean": -83.9152839901135, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_22-19-19", "policy_reward_mean": {}, "time_this_iter_s": 244.83368015289307, "episodes_this_iter": 24, "training_iteration": 72, "time_total_s": 17942.44306564331, "info": {"num_steps_sampled": 86400, "num_steps_trained": 86400, "default": {"policy_loss": -0.1403069943189621, "vf_explained_var": 0.8636730909347534, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 56.658843994140625, "entropy": 17.043167114257812, "kl": 0.01649215817451477, "total_loss": 56.53523635864258}, "sample_time_ms": 248830.982, "grad_time_ms": 696.081, "load_time_ms": 1.428, "update_time_ms": 2.547}, "timesteps_total": 86400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 86400, "hostname": "cda-server-3", "episode_reward_max": -61.90480025645444}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 18184.41885781288, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -131.91481230341097, "iterations_since_restore": 73, "episodes_total": 1752, "timestamp": 1756412601, "episode_reward_mean": -83.86643944815816, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_22-23-21", "policy_reward_mean": {}, "time_this_iter_s": 241.97579216957092, "episodes_this_iter": 24, "training_iteration": 73, "time_total_s": 18184.41885781288, "info": {"num_steps_sampled": 87600, "num_steps_trained": 87600, "default": {"policy_loss": -0.14834047853946686, "vf_explained_var": 0.8909367322921753, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 44.6313362121582, "entropy": 16.992233276367188, "kl": 0.017693255096673965, "total_loss": 44.50090789794922}, "sample_time_ms": 248009.755, "grad_time_ms": 696.471, "load_time_ms": 1.402, "update_time_ms": 2.523}, "timesteps_total": 87600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 87600, "hostname": "cda-server-3", "episode_reward_max": -60.02371123132278}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 18448.48611831665, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -131.91481230341097, "iterations_since_restore": 74, "episodes_total": 1776, "timestamp": 1756412865, "episode_reward_mean": -83.91763020685005, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_22-27-45", "policy_reward_mean": {}, "time_this_iter_s": 264.0672605037689, "episodes_this_iter": 24, "training_iteration": 74, "time_total_s": 18448.48611831665, "info": {"num_steps_sampled": 88800, "num_steps_trained": 88800, "default": {"policy_loss": -0.13635270297527313, "vf_explained_var": 0.8877306580543518, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 50.658626556396484, "entropy": 16.9888916015625, "kl": 0.01725666970014572, "total_loss": 50.53974533081055}, "sample_time_ms": 248850.608, "grad_time_ms": 696.485, "load_time_ms": 1.416, "update_time_ms": 2.517}, "timesteps_total": 88800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 88800, "hostname": "cda-server-3", "episode_reward_max": -59.006022251229936}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 18711.91195678711, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -114.60479451289457, "iterations_since_restore": 75, "episodes_total": 1800, "timestamp": 1756413129, "episode_reward_mean": -83.25586565324383, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_22-32-09", "policy_reward_mean": {}, "time_this_iter_s": 263.425838470459, "episodes_this_iter": 24, "training_iteration": 75, "time_total_s": 18711.91195678711, "info": {"num_steps_sampled": 90000, "num_steps_trained": 90000, "default": {"policy_loss": -0.13750618696212769, "vf_explained_var": 0.8878066539764404, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 45.646209716796875, "entropy": 16.916126251220703, "kl": 0.01593046449124813, "total_loss": 45.52482986450195}, "sample_time_ms": 252226.95, "grad_time_ms": 697.303, "load_time_ms": 1.438, "update_time_ms": 2.541}, "timesteps_total": 90000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 90000, "hostname": "cda-server-3", "episode_reward_max": -54.96061487194269}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 18935.775758504868, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -114.60479451289457, "iterations_since_restore": 76, "episodes_total": 1824, "timestamp": 1756413353, "episode_reward_mean": -82.72014624301787, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_22-35-53", "policy_reward_mean": {}, "time_this_iter_s": 223.86380171775818, "episodes_this_iter": 24, "training_iteration": 76, "time_total_s": 18935.775758504868, "info": {"num_steps_sampled": 91200, "num_steps_trained": 91200, "default": {"policy_loss": -0.1411411315202713, "vf_explained_var": 0.90963214635849, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 31.231788635253906, "entropy": 16.93149185180664, "kl": 0.017530765384435654, "total_loss": 31.108394622802734}, "sample_time_ms": 247992.191, "grad_time_ms": 697.658, "load_time_ms": 1.458, "update_time_ms": 2.527}, "timesteps_total": 91200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 91200, "hostname": "cda-server-3", "episode_reward_max": -54.96061487194269}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 19178.031841754913, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -108.94272480428417, "iterations_since_restore": 77, "episodes_total": 1848, "timestamp": 1756413595, "episode_reward_mean": -80.92310797396698, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_22-39-55", "policy_reward_mean": {}, "time_this_iter_s": 242.25608325004578, "episodes_this_iter": 24, "training_iteration": 77, "time_total_s": 19178.031841754913, "info": {"num_steps_sampled": 92400, "num_steps_trained": 92400, "default": {"policy_loss": -0.14614935219287872, "vf_explained_var": 0.8987939357757568, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 35.67803955078125, "entropy": 16.90253448486328, "kl": 0.01667719893157482, "total_loss": 35.54877471923828}, "sample_time_ms": 247566.57, "grad_time_ms": 697.475, "load_time_ms": 1.53, "update_time_ms": 2.536}, "timesteps_total": 92400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 92400, "hostname": "cda-server-3", "episode_reward_max": -54.96061487194269}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 19408.83300757408, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -112.77217478784608, "iterations_since_restore": 78, "episodes_total": 1872, "timestamp": 1756413826, "episode_reward_mean": -78.66633419654116, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_22-43-46", "policy_reward_mean": {}, "time_this_iter_s": 230.8011658191681, "episodes_this_iter": 24, "training_iteration": 78, "time_total_s": 19408.83300757408, "info": {"num_steps_sampled": 93600, "num_steps_trained": 93600, "default": {"policy_loss": -0.14167816936969757, "vf_explained_var": 0.8663337826728821, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 49.84602355957031, "entropy": 16.82881736755371, "kl": 0.016407020390033722, "total_loss": 49.72095489501953}, "sample_time_ms": 246420.316, "grad_time_ms": 696.87, "load_time_ms": 1.52, "update_time_ms": 2.508}, "timesteps_total": 93600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 93600, "hostname": "cda-server-3", "episode_reward_max": -54.96061487194269}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 19628.77525162697, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -112.77217478784608, "iterations_since_restore": 79, "episodes_total": 1896, "timestamp": 1756414046, "episode_reward_mean": -76.82071840459376, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_22-47-26", "policy_reward_mean": {}, "time_this_iter_s": 219.94224405288696, "episodes_this_iter": 24, "training_iteration": 79, "time_total_s": 19628.77525162697, "info": {"num_steps_sampled": 94800, "num_steps_trained": 94800, "default": {"policy_loss": -0.13872185349464417, "vf_explained_var": 0.8788679838180542, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 42.41904067993164, "entropy": 16.846330642700195, "kl": 0.017035197466611862, "total_loss": 42.29756164550781}, "sample_time_ms": 241734.828, "grad_time_ms": 697.758, "load_time_ms": 1.631, "update_time_ms": 2.512}, "timesteps_total": 94800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 94800, "hostname": "cda-server-3", "episode_reward_max": -55.940889508221765}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 19877.09362578392, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -112.77217478784608, "iterations_since_restore": 80, "episodes_total": 1920, "timestamp": 1756414294, "episode_reward_mean": -75.66733800064131, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_22-51-34", "policy_reward_mean": {}, "time_this_iter_s": 248.3183741569519, "episodes_this_iter": 24, "training_iteration": 80, "time_total_s": 19877.09362578392, "info": {"num_steps_sampled": 96000, "num_steps_trained": 96000, "default": {"policy_loss": -0.146415576338768, "vf_explained_var": 0.8998842239379883, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 35.70315933227539, "entropy": 16.746917724609375, "kl": 0.01694786176085472, "total_loss": 35.57390213012695}, "sample_time_ms": 243019.57, "grad_time_ms": 696.957, "load_time_ms": 1.641, "update_time_ms": 2.523}, "timesteps_total": 96000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 96000, "hostname": "cda-server-3", "episode_reward_max": -55.940889508221765}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 20132.509190797806, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -112.77217478784608, "iterations_since_restore": 81, "episodes_total": 1944, "timestamp": 1756414549, "episode_reward_mean": -74.45318096784645, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_22-55-49", "policy_reward_mean": {}, "time_this_iter_s": 255.4155650138855, "episodes_this_iter": 24, "training_iteration": 81, "time_total_s": 20132.509190797806, "info": {"num_steps_sampled": 97200, "num_steps_trained": 97200, "default": {"policy_loss": -0.1437041163444519, "vf_explained_var": 0.8701409697532654, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 36.276241302490234, "entropy": 16.741798400878906, "kl": 0.015728479251265526, "total_loss": 36.14846420288086}, "sample_time_ms": 242784.541, "grad_time_ms": 696.233, "load_time_ms": 1.548, "update_time_ms": 2.548}, "timesteps_total": 97200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 97200, "hostname": "cda-server-3", "episode_reward_max": -55.940889508221765}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 20363.48011994362, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -112.77217478784608, "iterations_since_restore": 82, "episodes_total": 1968, "timestamp": 1756414780, "episode_reward_mean": -72.77709877049519, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_22-59-40", "policy_reward_mean": {}, "time_this_iter_s": 230.970929145813, "episodes_this_iter": 24, "training_iteration": 82, "time_total_s": 20363.48011994362, "info": {"num_steps_sampled": 98400, "num_steps_trained": 98400, "default": {"policy_loss": -0.14084871113300323, "vf_explained_var": 0.8655793070793152, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 34.792381286621094, "entropy": 16.7445068359375, "kl": 0.01601782813668251, "total_loss": 34.66774368286133}, "sample_time_ms": 241397.784, "grad_time_ms": 696.74, "load_time_ms": 1.538, "update_time_ms": 2.54}, "timesteps_total": 98400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 98400, "hostname": "cda-server-3", "episode_reward_max": -53.95587853910099}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 20580.654803276062, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -107.4522891873826, "iterations_since_restore": 83, "episodes_total": 1992, "timestamp": 1756414997, "episode_reward_mean": -70.81955430992147, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_23-03-17", "policy_reward_mean": {}, "time_this_iter_s": 217.17468333244324, "episodes_this_iter": 24, "training_iteration": 83, "time_total_s": 20580.654803276062, "info": {"num_steps_sampled": 99600, "num_steps_trained": 99600, "default": {"policy_loss": -0.13204234838485718, "vf_explained_var": 0.8760443925857544, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 31.32162094116211, "entropy": 16.793642044067383, "kl": 0.01535502914339304, "total_loss": 31.20512580871582}, "sample_time_ms": 238918.834, "grad_time_ms": 695.57, "load_time_ms": 1.534, "update_time_ms": 2.518}, "timesteps_total": 99600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 99600, "hostname": "cda-server-3", "episode_reward_max": -53.95587853910099}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 20815.180485486984, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -107.4522891873826, "iterations_since_restore": 84, "episodes_total": 2016, "timestamp": 1756415232, "episode_reward_mean": -68.76959735542866, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_23-07-12", "policy_reward_mean": {}, "time_this_iter_s": 234.52568221092224, "episodes_this_iter": 24, "training_iteration": 84, "time_total_s": 20815.180485486984, "info": {"num_steps_sampled": 100800, "num_steps_trained": 100800, "default": {"policy_loss": -0.14433318376541138, "vf_explained_var": 0.8722853064537048, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 29.641008377075195, "entropy": 16.78034210205078, "kl": 0.01663334108889103, "total_loss": 29.51351547241211}, "sample_time_ms": 235965.602, "grad_time_ms": 694.781, "load_time_ms": 1.439, "update_time_ms": 2.549}, "timesteps_total": 100800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 100800, "hostname": "cda-server-3", "episode_reward_max": -53.95587853910099}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 21029.106865644455, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -107.98561338414216, "iterations_since_restore": 85, "episodes_total": 2040, "timestamp": 1756415446, "episode_reward_mean": -69.05470528023939, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_23-10-46", "policy_reward_mean": {}, "time_this_iter_s": 213.9263801574707, "episodes_this_iter": 24, "training_iteration": 85, "time_total_s": 21029.106865644455, "info": {"num_steps_sampled": 102000, "num_steps_trained": 102000, "default": {"policy_loss": -0.14800840616226196, "vf_explained_var": 0.8737674355506897, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 44.28384780883789, "entropy": 16.667724609375, "kl": 0.017794229090213776, "total_loss": 44.15385818481445}, "sample_time_ms": 231016.692, "grad_time_ms": 693.88, "load_time_ms": 1.364, "update_time_ms": 2.556}, "timesteps_total": 102000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 102000, "hostname": "cda-server-3", "episode_reward_max": -53.95587853910099}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 21267.91470694542, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -107.98561338414216, "iterations_since_restore": 86, "episodes_total": 2064, "timestamp": 1756415685, "episode_reward_mean": -69.5951626072507, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_23-14-45", "policy_reward_mean": {}, "time_this_iter_s": 238.80784130096436, "episodes_this_iter": 24, "training_iteration": 86, "time_total_s": 21267.91470694542, "info": {"num_steps_sampled": 103200, "num_steps_trained": 103200, "default": {"policy_loss": -0.1315995305776596, "vf_explained_var": 0.8468186855316162, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 42.02323913574219, "entropy": 16.615787506103516, "kl": 0.016590215265750885, "total_loss": 41.90843963623047}, "sample_time_ms": 232511.672, "grad_time_ms": 693.298, "load_time_ms": 1.332, "update_time_ms": 2.554}, "timesteps_total": 103200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 103200, "hostname": "cda-server-3", "episode_reward_max": -54.95182090997833}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 21523.015555143356, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -107.98561338414216, "iterations_since_restore": 87, "episodes_total": 2088, "timestamp": 1756415940, "episode_reward_mean": -68.46944199107841, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_23-19-00", "policy_reward_mean": {}, "time_this_iter_s": 255.100848197937, "episodes_this_iter": 24, "training_iteration": 87, "time_total_s": 21523.015555143356, "info": {"num_steps_sampled": 104400, "num_steps_trained": 104400, "default": {"policy_loss": -0.13484853506088257, "vf_explained_var": 0.8937379121780396, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 24.742692947387695, "entropy": 16.481712341308594, "kl": 0.01563051901757717, "total_loss": 24.62367057800293}, "sample_time_ms": 233795.722, "grad_time_ms": 693.749, "load_time_ms": 1.314, "update_time_ms": 2.571}, "timesteps_total": 104400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 104400, "hostname": "cda-server-3", "episode_reward_max": -54.95182090997833}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 21755.724896669388, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -107.98561338414216, "iterations_since_restore": 88, "episodes_total": 2112, "timestamp": 1756416173, "episode_reward_mean": -68.90574880241981, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_23-22-53", "policy_reward_mean": {}, "time_this_iter_s": 232.7093415260315, "episodes_this_iter": 24, "training_iteration": 88, "time_total_s": 21755.724896669388, "info": {"num_steps_sampled": 105600, "num_steps_trained": 105600, "default": {"policy_loss": -0.14801417291164398, "vf_explained_var": 0.863982617855072, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 38.028564453125, "entropy": 16.538761138916016, "kl": 0.01715698093175888, "total_loss": 37.89792251586914}, "sample_time_ms": 233985.216, "grad_time_ms": 695.112, "load_time_ms": 1.293, "update_time_ms": 2.564}, "timesteps_total": 105600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 105600, "hostname": "cda-server-3", "episode_reward_max": -53.2230760042775}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 21995.29202914238, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -115.55456980047862, "iterations_since_restore": 89, "episodes_total": 2136, "timestamp": 1756416412, "episode_reward_mean": -68.03962091148274, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_23-26-52", "policy_reward_mean": {}, "time_this_iter_s": 239.56713247299194, "episodes_this_iter": 24, "training_iteration": 89, "time_total_s": 21995.29202914238, "info": {"num_steps_sampled": 106800, "num_steps_trained": 106800, "default": {"policy_loss": -0.13819807767868042, "vf_explained_var": 0.860944390296936, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 40.49483108520508, "entropy": 16.507343292236328, "kl": 0.015339210629463196, "total_loss": 40.37216567993164}, "sample_time_ms": 235947.864, "grad_time_ms": 694.981, "load_time_ms": 1.258, "update_time_ms": 2.587}, "timesteps_total": 106800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 106800, "hostname": "cda-server-3", "episode_reward_max": -53.2230760042775}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 22200.77853822708, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -115.55456980047862, "iterations_since_restore": 90, "episodes_total": 2160, "timestamp": 1756416618, "episode_reward_mean": -66.43045601954503, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_23-30-18", "policy_reward_mean": {}, "time_this_iter_s": 205.48650908470154, "episodes_this_iter": 24, "training_iteration": 90, "time_total_s": 22200.77853822708, "info": {"num_steps_sampled": 108000, "num_steps_trained": 108000, "default": {"policy_loss": -0.1232977956533432, "vf_explained_var": 0.8503206968307495, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 30.72481918334961, "entropy": 16.54416275024414, "kl": 0.015979347750544548, "total_loss": 30.61770248413086}, "sample_time_ms": 231664.322, "grad_time_ms": 695.498, "load_time_ms": 1.195, "update_time_ms": 2.564}, "timesteps_total": 108000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 108000, "hostname": "cda-server-3", "episode_reward_max": -53.2230760042775}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 22468.302712917328, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -115.55456980047862, "iterations_since_restore": 91, "episodes_total": 2184, "timestamp": 1756416885, "episode_reward_mean": -67.06299508675095, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_23-34-45", "policy_reward_mean": {}, "time_this_iter_s": 267.5241746902466, "episodes_this_iter": 24, "training_iteration": 91, "time_total_s": 22468.302712917328, "info": {"num_steps_sampled": 109200, "num_steps_trained": 109200, "default": {"policy_loss": -0.1417466253042221, "vf_explained_var": 0.8252907991409302, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 51.491268157958984, "entropy": 16.51049041748047, "kl": 0.0179302878677845, "total_loss": 51.367679595947266}, "sample_time_ms": 232874.007, "grad_time_ms": 696.569, "load_time_ms": 1.295, "update_time_ms": 2.534}, "timesteps_total": 109200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 109200, "hostname": "cda-server-3", "episode_reward_max": -53.2230760042775}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 22723.705909967422, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -115.55456980047862, "iterations_since_restore": 92, "episodes_total": 2208, "timestamp": 1756417141, "episode_reward_mean": -65.61862931952739, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_23-39-01", "policy_reward_mean": {}, "time_this_iter_s": 255.4031970500946, "episodes_this_iter": 24, "training_iteration": 92, "time_total_s": 22723.705909967422, "info": {"num_steps_sampled": 110400, "num_steps_trained": 110400, "default": {"policy_loss": -0.13279880583286285, "vf_explained_var": 0.9043550491333008, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 18.820959091186523, "entropy": 16.467430114746094, "kl": 0.016397977247834206, "total_loss": 18.70476531982422}, "sample_time_ms": 235317.525, "grad_time_ms": 696.121, "load_time_ms": 1.383, "update_time_ms": 2.551}, "timesteps_total": 110400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 110400, "hostname": "cda-server-3", "episode_reward_max": -53.2230760042775}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 22970.57584619522, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -115.55456980047862, "iterations_since_restore": 93, "episodes_total": 2232, "timestamp": 1756417387, "episode_reward_mean": -64.91044855525129, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_23-43-07", "policy_reward_mean": {}, "time_this_iter_s": 246.86993622779846, "episodes_this_iter": 24, "training_iteration": 93, "time_total_s": 22970.57584619522, "info": {"num_steps_sampled": 111600, "num_steps_trained": 111600, "default": {"policy_loss": -0.1461043804883957, "vf_explained_var": 0.8137485980987549, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 40.37269973754883, "entropy": 16.43319320678711, "kl": 0.017595432698726654, "total_loss": 40.24441146850586}, "sample_time_ms": 238287.126, "grad_time_ms": 695.95, "load_time_ms": 1.431, "update_time_ms": 2.577}, "timesteps_total": 111600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 111600, "hostname": "cda-server-3", "episode_reward_max": -53.897588277465395}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 23212.88718509674, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -98.42147392309447, "iterations_since_restore": 94, "episodes_total": 2256, "timestamp": 1756417630, "episode_reward_mean": -64.81923247327849, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_23-47-10", "policy_reward_mean": {}, "time_this_iter_s": 242.31133890151978, "episodes_this_iter": 24, "training_iteration": 94, "time_total_s": 23212.88718509674, "info": {"num_steps_sampled": 112800, "num_steps_trained": 112800, "default": {"policy_loss": -0.14040905237197876, "vf_explained_var": 0.8580853343009949, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 31.303335189819336, "entropy": 16.410274505615234, "kl": 0.015972889959812164, "total_loss": 31.17909812927246}, "sample_time_ms": 239064.399, "grad_time_ms": 697.275, "load_time_ms": 1.437, "update_time_ms": 2.554}, "timesteps_total": 112800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 112800, "hostname": "cda-server-3", "episode_reward_max": -54.8650017855454}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 23426.63425207138, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -98.42147392309447, "iterations_since_restore": 95, "episodes_total": 2280, "timestamp": 1756417844, "episode_reward_mean": -63.39130856250731, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_23-50-44", "policy_reward_mean": {}, "time_this_iter_s": 213.7470669746399, "episodes_this_iter": 24, "training_iteration": 95, "time_total_s": 23426.63425207138, "info": {"num_steps_sampled": 114000, "num_steps_trained": 114000, "default": {"policy_loss": -0.12778830528259277, "vf_explained_var": 0.8555526733398438, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 26.613889694213867, "entropy": 16.41890525817871, "kl": 0.01759319193661213, "total_loss": 26.503915786743164}, "sample_time_ms": 239045.459, "grad_time_ms": 698.177, "load_time_ms": 1.501, "update_time_ms": 2.552}, "timesteps_total": 114000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 114000, "hostname": "cda-server-3", "episode_reward_max": -54.074040013498}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 23677.734798192978, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -101.42589945490688, "iterations_since_restore": 96, "episodes_total": 2304, "timestamp": 1756418095, "episode_reward_mean": -63.60230280510545, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_23-54-55", "policy_reward_mean": {}, "time_this_iter_s": 251.1005461215973, "episodes_this_iter": 24, "training_iteration": 96, "time_total_s": 23677.734798192978, "info": {"num_steps_sampled": 115200, "num_steps_trained": 115200, "default": {"policy_loss": -0.13580124080181122, "vf_explained_var": 0.8498879075050354, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 35.0389404296875, "entropy": 16.359601974487305, "kl": 0.015551825053989887, "total_loss": 34.918888092041016}, "sample_time_ms": 240275.117, "grad_time_ms": 697.774, "load_time_ms": 1.513, "update_time_ms": 2.554}, "timesteps_total": 115200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 115200, "hostname": "cda-server-3", "episode_reward_max": -52.858943297092495}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 23935.555701732635, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -101.42589945490688, "iterations_since_restore": 97, "episodes_total": 2328, "timestamp": 1756418353, "episode_reward_mean": -64.01519855934126, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-28_23-59-13", "policy_reward_mean": {}, "time_this_iter_s": 257.8209035396576, "episodes_this_iter": 24, "training_iteration": 97, "time_total_s": 23935.555701732635, "info": {"num_steps_sampled": 116400, "num_steps_trained": 116400, "default": {"policy_loss": -0.14195483922958374, "vf_explained_var": 0.8827171921730042, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 26.063066482543945, "entropy": 16.319156646728516, "kl": 0.015602422878146172, "total_loss": 25.936906814575195}, "sample_time_ms": 240547.419, "grad_time_ms": 697.496, "load_time_ms": 1.509, "update_time_ms": 2.535}, "timesteps_total": 116400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 116400, "hostname": "cda-server-3", "episode_reward_max": -52.858943297092495}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 24136.122399806976, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -101.42589945490688, "iterations_since_restore": 98, "episodes_total": 2352, "timestamp": 1756418553, "episode_reward_mean": -63.12411026398803, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_00-02-33", "policy_reward_mean": {}, "time_this_iter_s": 200.56669807434082, "episodes_this_iter": 24, "training_iteration": 98, "time_total_s": 24136.122399806976, "info": {"num_steps_sampled": 117600, "num_steps_trained": 117600, "default": {"policy_loss": -0.12811775505542755, "vf_explained_var": 0.8606259822845459, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 26.62224578857422, "entropy": 16.33074188232422, "kl": 0.01618027687072754, "total_loss": 26.510509490966797}, "sample_time_ms": 237334.149, "grad_time_ms": 696.568, "load_time_ms": 1.489, "update_time_ms": 2.533}, "timesteps_total": 117600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 117600, "hostname": "cda-server-3", "episode_reward_max": -52.858943297092495}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 24407.357256412506, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -101.42589945490688, "iterations_since_restore": 99, "episodes_total": 2376, "timestamp": 1756418824, "episode_reward_mean": -62.44087108395161, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_00-07-04", "policy_reward_mean": {}, "time_this_iter_s": 271.2348566055298, "episodes_this_iter": 24, "training_iteration": 99, "time_total_s": 24407.357256412506, "info": {"num_steps_sampled": 118800, "num_steps_trained": 118800, "default": {"policy_loss": -0.1403992772102356, "vf_explained_var": 0.8786462545394897, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 19.873876571655273, "entropy": 16.25355339050293, "kl": 0.0183703675866127, "total_loss": 19.752073287963867}, "sample_time_ms": 240501.394, "grad_time_ms": 696.21, "load_time_ms": 1.433, "update_time_ms": 2.511}, "timesteps_total": 118800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 118800, "hostname": "cda-server-3", "episode_reward_max": -52.858943297092495}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 24657.685720443726, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -89.90023007400104, "iterations_since_restore": 100, "episodes_total": 2400, "timestamp": 1756419075, "episode_reward_mean": -61.653440944418, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_00-11-15", "policy_reward_mean": {}, "time_this_iter_s": 250.32846403121948, "episodes_this_iter": 24, "training_iteration": 100, "time_total_s": 24657.685720443726, "info": {"num_steps_sampled": 120000, "num_steps_trained": 120000, "default": {"policy_loss": -0.1290886104106903, "vf_explained_var": 0.8327670097351074, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 31.24372100830078, "entropy": 16.272443771362305, "kl": 0.015662631019949913, "total_loss": 31.1304931640625}, "sample_time_ms": 244985.593, "grad_time_ms": 696.091, "load_time_ms": 1.492, "update_time_ms": 2.499}, "timesteps_total": 120000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 120000, "hostname": "cda-server-3", "episode_reward_max": -52.93601767317048}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 24920.84255218506, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -89.90023007400104, "iterations_since_restore": 101, "episodes_total": 2424, "timestamp": 1756419338, "episode_reward_mean": -61.131917472065616, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_00-15-38", "policy_reward_mean": {}, "time_this_iter_s": 263.156831741333, "episodes_this_iter": 24, "training_iteration": 101, "time_total_s": 24920.84255218506, "info": {"num_steps_sampled": 121200, "num_steps_trained": 121200, "default": {"policy_loss": -0.11977836489677429, "vf_explained_var": 0.8679201006889343, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 26.77100372314453, "entropy": 16.270166397094727, "kl": 0.015529219061136246, "total_loss": 26.66695213317871}, "sample_time_ms": 244548.732, "grad_time_ms": 696.194, "load_time_ms": 1.493, "update_time_ms": 2.508}, "timesteps_total": 121200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 121200, "hostname": "cda-server-3", "episode_reward_max": -52.93601767317048}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 25163.190752744675, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -81.1903957303375, "iterations_since_restore": 102, "episodes_total": 2448, "timestamp": 1756419580, "episode_reward_mean": -60.72351474107361, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_00-19-40", "policy_reward_mean": {}, "time_this_iter_s": 242.3482005596161, "episodes_this_iter": 24, "training_iteration": 102, "time_total_s": 25163.190752744675, "info": {"num_steps_sampled": 122400, "num_steps_trained": 122400, "default": {"policy_loss": -0.12940487265586853, "vf_explained_var": 0.882462739944458, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 23.390724182128906, "entropy": 16.316390991210938, "kl": 0.015969369560480118, "total_loss": 23.277488708496094}, "sample_time_ms": 243243.22, "grad_time_ms": 696.232, "load_time_ms": 1.496, "update_time_ms": 2.468}, "timesteps_total": 122400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 122400, "hostname": "cda-server-3", "episode_reward_max": -52.93601767317048}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 25435.75412583351, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -81.1903957303375, "iterations_since_restore": 103, "episodes_total": 2472, "timestamp": 1756419853, "episode_reward_mean": -60.79222265253318, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_00-24-13", "policy_reward_mean": {}, "time_this_iter_s": 272.56337308883667, "episodes_this_iter": 24, "training_iteration": 103, "time_total_s": 25435.75412583351, "info": {"num_steps_sampled": 123600, "num_steps_trained": 123600, "default": {"policy_loss": -0.13579684495925903, "vf_explained_var": 0.8778722882270813, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 22.02468490600586, "entropy": 16.328903198242188, "kl": 0.016616467386484146, "total_loss": 21.90571403503418}, "sample_time_ms": 245811.227, "grad_time_ms": 697.59, "load_time_ms": 1.492, "update_time_ms": 2.459}, "timesteps_total": 123600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 123600, "hostname": "cda-server-3", "episode_reward_max": -52.93601767317048}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 25665.85821557045, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -81.1903957303375, "iterations_since_restore": 104, "episodes_total": 2496, "timestamp": 1756420083, "episode_reward_mean": -60.116771525483344, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_00-28-03", "policy_reward_mean": {}, "time_this_iter_s": 230.10408973693848, "episodes_this_iter": 24, "training_iteration": 104, "time_total_s": 25665.85821557045, "info": {"num_steps_sampled": 124800, "num_steps_trained": 124800, "default": {"policy_loss": -0.15344049036502838, "vf_explained_var": 0.8817589282989502, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 18.401994705200195, "entropy": 16.331209182739258, "kl": 0.016265608370304108, "total_loss": 18.26502227783203}, "sample_time_ms": 244590.369, "grad_time_ms": 697.667, "load_time_ms": 1.531, "update_time_ms": 2.454}, "timesteps_total": 124800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 124800, "hostname": "cda-server-3", "episode_reward_max": -52.95849628922025}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 25892.035324811935, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -82.16212772395187, "iterations_since_restore": 105, "episodes_total": 2520, "timestamp": 1756420309, "episode_reward_mean": -60.16023217998311, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_00-31-49", "policy_reward_mean": {}, "time_this_iter_s": 226.1771092414856, "episodes_this_iter": 24, "training_iteration": 105, "time_total_s": 25892.035324811935, "info": {"num_steps_sampled": 126000, "num_steps_trained": 126000, "default": {"policy_loss": -0.12750448286533356, "vf_explained_var": 0.8136303424835205, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 38.1964111328125, "entropy": 16.27743148803711, "kl": 0.016278643161058426, "total_loss": 38.08538818359375}, "sample_time_ms": 245834.201, "grad_time_ms": 697.003, "load_time_ms": 1.436, "update_time_ms": 2.444}, "timesteps_total": 126000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 126000, "hostname": "cda-server-3", "episode_reward_max": -52.93952025325732}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 26110.90698647499, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -82.16212772395187, "iterations_since_restore": 106, "episodes_total": 2544, "timestamp": 1756420528, "episode_reward_mean": -59.81542332779563, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_00-35-28", "policy_reward_mean": {}, "time_this_iter_s": 218.87166166305542, "episodes_this_iter": 24, "training_iteration": 106, "time_total_s": 26110.90698647499, "info": {"num_steps_sampled": 127200, "num_steps_trained": 127200, "default": {"policy_loss": -0.13325509428977966, "vf_explained_var": 0.8773702383041382, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 22.744340896606445, "entropy": 16.201231002807617, "kl": 0.016619432717561722, "total_loss": 22.627914428710938}, "sample_time_ms": 242611.106, "grad_time_ms": 697.237, "load_time_ms": 1.401, "update_time_ms": 2.481}, "timesteps_total": 127200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 127200, "hostname": "cda-server-3", "episode_reward_max": -52.914738431937806}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 26360.525168180466, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -82.16212772395187, "iterations_since_restore": 107, "episodes_total": 2568, "timestamp": 1756420778, "episode_reward_mean": -59.673469220947396, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_00-39-38", "policy_reward_mean": {}, "time_this_iter_s": 249.61818170547485, "episodes_this_iter": 24, "training_iteration": 107, "time_total_s": 26360.525168180466, "info": {"num_steps_sampled": 128400, "num_steps_trained": 128400, "default": {"policy_loss": -0.12265331298112869, "vf_explained_var": 0.8668314218521118, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 21.25311279296875, "entropy": 16.13929557800293, "kl": 0.017199309542775154, "total_loss": 21.14787483215332}, "sample_time_ms": 241790.366, "grad_time_ms": 697.759, "load_time_ms": 1.38, "update_time_ms": 2.478}, "timesteps_total": 128400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 128400, "hostname": "cda-server-3", "episode_reward_max": -51.02603246046728}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 26604.6365506649, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -82.16212772395187, "iterations_since_restore": 108, "episodes_total": 2592, "timestamp": 1756421022, "episode_reward_mean": -59.606878303662, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_00-43-42", "policy_reward_mean": {}, "time_this_iter_s": 244.11138248443604, "episodes_this_iter": 24, "training_iteration": 108, "time_total_s": 26604.6365506649, "info": {"num_steps_sampled": 129600, "num_steps_trained": 129600, "default": {"policy_loss": -0.13076123595237732, "vf_explained_var": 0.8132724761962891, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 33.19261169433594, "entropy": 16.225126266479492, "kl": 0.01657184027135372, "total_loss": 33.07863235473633}, "sample_time_ms": 246144.027, "grad_time_ms": 698.614, "load_time_ms": 1.333, "update_time_ms": 2.485}, "timesteps_total": 129600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 129600, "hostname": "cda-server-3", "episode_reward_max": -51.02603246046728}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 26834.84356546402, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -84.93840741162363, "iterations_since_restore": 109, "episodes_total": 2616, "timestamp": 1756421252, "episode_reward_mean": -59.694966777893185, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_00-47-32", "policy_reward_mean": {}, "time_this_iter_s": 230.20701479911804, "episodes_this_iter": 24, "training_iteration": 109, "time_total_s": 26834.84356546402, "info": {"num_steps_sampled": 130800, "num_steps_trained": 130800, "default": {"policy_loss": -0.12276914715766907, "vf_explained_var": 0.85801762342453, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 28.201007843017578, "entropy": 16.107158660888672, "kl": 0.015431146137416363, "total_loss": 28.093862533569336}, "sample_time_ms": 242041.052, "grad_time_ms": 698.686, "load_time_ms": 1.388, "update_time_ms": 2.481}, "timesteps_total": 130800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 130800, "hostname": "cda-server-3", "episode_reward_max": -50.069767460137605}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 27092.147441625595, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -84.93840741162363, "iterations_since_restore": 110, "episodes_total": 2640, "timestamp": 1756421509, "episode_reward_mean": -59.04001522812641, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_00-51-49", "policy_reward_mean": {}, "time_this_iter_s": 257.3038761615753, "episodes_this_iter": 24, "training_iteration": 110, "time_total_s": 27092.147441625595, "info": {"num_steps_sampled": 132000, "num_steps_trained": 132000, "default": {"policy_loss": -0.13041992485523224, "vf_explained_var": 0.8788143396377563, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 20.625926971435547, "entropy": 16.039676666259766, "kl": 0.017292585223913193, "total_loss": 20.513015747070312}, "sample_time_ms": 242737.964, "grad_time_ms": 699.245, "load_time_ms": 1.426, "update_time_ms": 2.5}, "timesteps_total": 132000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 132000, "hostname": "cda-server-3", "episode_reward_max": -50.069767460137605}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 27331.856004953384, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -84.93840741162363, "iterations_since_restore": 111, "episodes_total": 2664, "timestamp": 1756421749, "episode_reward_mean": -59.07273972534611, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_00-55-49", "policy_reward_mean": {}, "time_this_iter_s": 239.7085633277893, "episodes_this_iter": 24, "training_iteration": 111, "time_total_s": 27331.856004953384, "info": {"num_steps_sampled": 133200, "num_steps_trained": 133200, "default": {"policy_loss": -0.12182916700839996, "vf_explained_var": 0.8311696648597717, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 29.08080291748047, "entropy": 16.15522003173828, "kl": 0.016714682802557945, "total_loss": 28.97589874267578}, "sample_time_ms": 240394.014, "grad_time_ms": 698.393, "load_time_ms": 1.415, "update_time_ms": 2.512}, "timesteps_total": 133200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 133200, "hostname": "cda-server-3", "episode_reward_max": -50.069767460137605}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 27587.61087012291, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -86.78311202087484, "iterations_since_restore": 112, "episodes_total": 2688, "timestamp": 1756422005, "episode_reward_mean": -59.18881358171987, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_01-00-05", "policy_reward_mean": {}, "time_this_iter_s": 255.75486516952515, "episodes_this_iter": 24, "training_iteration": 112, "time_total_s": 27587.61087012291, "info": {"num_steps_sampled": 134400, "num_steps_trained": 134400, "default": {"policy_loss": -0.140395849943161, "vf_explained_var": 0.8482707738876343, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 28.473026275634766, "entropy": 16.06305694580078, "kl": 0.016294434666633606, "total_loss": 28.3491268157959}, "sample_time_ms": 241734.136, "grad_time_ms": 698.843, "load_time_ms": 1.411, "update_time_ms": 2.56}, "timesteps_total": 134400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 134400, "hostname": "cda-server-3", "episode_reward_max": -50.069767460137605}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 27806.619978904724, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -86.78311202087484, "iterations_since_restore": 113, "episodes_total": 2712, "timestamp": 1756422224, "episode_reward_mean": -58.635297871876844, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_01-03-44", "policy_reward_mean": {}, "time_this_iter_s": 219.00910878181458, "episodes_this_iter": 24, "training_iteration": 113, "time_total_s": 27806.619978904724, "info": {"num_steps_sampled": 135600, "num_steps_trained": 135600, "default": {"policy_loss": -0.1381041407585144, "vf_explained_var": 0.9284831285476685, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 11.675448417663574, "entropy": 16.15050506591797, "kl": 0.016876710578799248, "total_loss": 11.554431915283203}, "sample_time_ms": 236379.743, "grad_time_ms": 697.874, "load_time_ms": 1.368, "update_time_ms": 2.548}, "timesteps_total": 135600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 135600, "hostname": "cda-server-3", "episode_reward_max": -52.83280264414459}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 28034.539868831635, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -92.99670859655961, "iterations_since_restore": 114, "episodes_total": 2736, "timestamp": 1756422452, "episode_reward_mean": -58.661219019914526, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_01-07-32", "policy_reward_mean": {}, "time_this_iter_s": 227.9198899269104, "episodes_this_iter": 24, "training_iteration": 114, "time_total_s": 28034.539868831635, "info": {"num_steps_sampled": 136800, "num_steps_trained": 136800, "default": {"policy_loss": -0.13784296810626984, "vf_explained_var": 0.8285303115844727, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 34.57063293457031, "entropy": 16.13674545288086, "kl": 0.016130059957504272, "total_loss": 34.44912338256836}, "sample_time_ms": 236162.246, "grad_time_ms": 696.885, "load_time_ms": 1.405, "update_time_ms": 2.553}, "timesteps_total": 136800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 136800, "hostname": "cda-server-3", "episode_reward_max": -52.83280264414459}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 28336.070405721664, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -92.99670859655961, "iterations_since_restore": 115, "episodes_total": 2760, "timestamp": 1756422753, "episode_reward_mean": -58.39664888282129, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_01-12-33", "policy_reward_mean": {}, "time_this_iter_s": 301.5305368900299, "episodes_this_iter": 24, "training_iteration": 115, "time_total_s": 28336.070405721664, "info": {"num_steps_sampled": 138000, "num_steps_trained": 138000, "default": {"policy_loss": -0.12080780416727066, "vf_explained_var": 0.8865867853164673, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 17.852455139160156, "entropy": 16.0211238861084, "kl": 0.015340049751102924, "total_loss": 17.747180938720703}, "sample_time_ms": 243697.146, "grad_time_ms": 697.206, "load_time_ms": 1.493, "update_time_ms": 2.538}, "timesteps_total": 138000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 138000, "hostname": "cda-server-3", "episode_reward_max": -51.878619471983534}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 28640.148250341415, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -92.99670859655961, "iterations_since_restore": 116, "episodes_total": 2784, "timestamp": 1756423057, "episode_reward_mean": -57.572993058078616, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_01-17-37", "policy_reward_mean": {}, "time_this_iter_s": 304.077844619751, "episodes_this_iter": 24, "training_iteration": 116, "time_total_s": 28640.148250341415, "info": {"num_steps_sampled": 139200, "num_steps_trained": 139200, "default": {"policy_loss": -0.1292750984430313, "vf_explained_var": 0.8631255030632019, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 22.42864227294922, "entropy": 16.13391876220703, "kl": 0.01578795537352562, "total_loss": 22.315351486206055}, "sample_time_ms": 252216.644, "grad_time_ms": 698.308, "load_time_ms": 1.533, "update_time_ms": 2.518}, "timesteps_total": 139200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 139200, "hostname": "cda-server-3", "episode_reward_max": -51.878619471983534}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 28893.488532304764, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -92.99670859655961, "iterations_since_restore": 117, "episodes_total": 2808, "timestamp": 1756423311, "episode_reward_mean": -58.42551707762653, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_01-21-51", "policy_reward_mean": {}, "time_this_iter_s": 253.3402819633484, "episodes_this_iter": 24, "training_iteration": 117, "time_total_s": 28893.488532304764, "info": {"num_steps_sampled": 140400, "num_steps_trained": 140400, "default": {"policy_loss": -0.1352321207523346, "vf_explained_var": 0.8869233727455139, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 21.718400955200195, "entropy": 16.096532821655273, "kl": 0.014851750805974007, "total_loss": 21.59820556640625}, "sample_time_ms": 252588.37, "grad_time_ms": 698.676, "load_time_ms": 1.574, "update_time_ms": 2.512}, "timesteps_total": 140400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 140400, "hostname": "cda-server-3", "episode_reward_max": -51.878619471983534}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 29127.301443338394, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -88.65954468392255, "iterations_since_restore": 118, "episodes_total": 2832, "timestamp": 1756423544, "episode_reward_mean": -58.24708847794195, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_01-25-44", "policy_reward_mean": {}, "time_this_iter_s": 233.81291103363037, "episodes_this_iter": 24, "training_iteration": 118, "time_total_s": 29127.301443338394, "info": {"num_steps_sampled": 141600, "num_steps_trained": 141600, "default": {"policy_loss": -0.13132750988006592, "vf_explained_var": 0.7502151727676392, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 54.89358901977539, "entropy": 16.050901412963867, "kl": 0.015956096351146698, "total_loss": 54.778411865234375}, "sample_time_ms": 251559.104, "grad_time_ms": 698.078, "load_time_ms": 1.579, "update_time_ms": 2.541}, "timesteps_total": 141600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 141600, "hostname": "cda-server-3", "episode_reward_max": -51.86353434737764}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 29348.139184951782, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -88.65954468392255, "iterations_since_restore": 119, "episodes_total": 2856, "timestamp": 1756423765, "episode_reward_mean": -58.77166939777696, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_01-29-25", "policy_reward_mean": {}, "time_this_iter_s": 220.83774161338806, "episodes_this_iter": 24, "training_iteration": 119, "time_total_s": 29348.139184951782, "info": {"num_steps_sampled": 142800, "num_steps_trained": 142800, "default": {"policy_loss": -0.1422090232372284, "vf_explained_var": 0.9099141359329224, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 15.585625648498535, "entropy": 15.948657989501953, "kl": 0.01609078049659729, "total_loss": 15.459708213806152}, "sample_time_ms": 250621.264, "grad_time_ms": 699.035, "load_time_ms": 1.565, "update_time_ms": 2.559}, "timesteps_total": 142800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 142800, "hostname": "cda-server-3", "episode_reward_max": -51.86353434737764}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 29608.62323451042, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -88.65954468392255, "iterations_since_restore": 120, "episodes_total": 2880, "timestamp": 1756424026, "episode_reward_mean": -59.42504088928788, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_01-33-46", "policy_reward_mean": {}, "time_this_iter_s": 260.4840495586395, "episodes_this_iter": 24, "training_iteration": 120, "time_total_s": 29608.62323451042, "info": {"num_steps_sampled": 144000, "num_steps_trained": 144000, "default": {"policy_loss": -0.1321364790201187, "vf_explained_var": 0.8487840890884399, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 26.277753829956055, "entropy": 15.773978233337402, "kl": 0.01596074178814888, "total_loss": 26.16177749633789}, "sample_time_ms": 250940.818, "grad_time_ms": 697.606, "load_time_ms": 1.492, "update_time_ms": 2.549}, "timesteps_total": 144000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 144000, "hostname": "cda-server-3", "episode_reward_max": -51.15904062506867}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 29864.01040172577, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -105.43882619369613, "iterations_since_restore": 121, "episodes_total": 2904, "timestamp": 1756424281, "episode_reward_mean": -59.08303499192223, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_01-38-01", "policy_reward_mean": {}, "time_this_iter_s": 255.3871672153473, "episodes_this_iter": 24, "training_iteration": 121, "time_total_s": 29864.01040172577, "info": {"num_steps_sampled": 145200, "num_steps_trained": 145200, "default": {"policy_loss": -0.11356958746910095, "vf_explained_var": 0.7982986569404602, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 45.23063278198242, "entropy": 15.830936431884766, "kl": 0.01379266008734703, "total_loss": 45.13102722167969}, "sample_time_ms": 252508.147, "grad_time_ms": 698.153, "load_time_ms": 1.499, "update_time_ms": 2.525}, "timesteps_total": 145200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 145200, "hostname": "cda-server-3", "episode_reward_max": -51.15904062506867}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 30100.95377969742, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -105.43882619369613, "iterations_since_restore": 122, "episodes_total": 2928, "timestamp": 1756424518, "episode_reward_mean": -58.620452296311754, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_01-41-58", "policy_reward_mean": {}, "time_this_iter_s": 236.94337797164917, "episodes_this_iter": 24, "training_iteration": 122, "time_total_s": 30100.95377969742, "info": {"num_steps_sampled": 146400, "num_steps_trained": 146400, "default": {"policy_loss": -0.14042048156261444, "vf_explained_var": 0.9276683330535889, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 10.557514190673828, "entropy": 15.92667293548584, "kl": 0.016386190429329872, "total_loss": 10.433683395385742}, "sample_time_ms": 250627.109, "grad_time_ms": 698.127, "load_time_ms": 1.5, "update_time_ms": 2.486}, "timesteps_total": 146400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 146400, "hostname": "cda-server-3", "episode_reward_max": -51.15904062506867}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 30326.80412006378, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -105.43882619369613, "iterations_since_restore": 123, "episodes_total": 2952, "timestamp": 1756424744, "episode_reward_mean": -58.52559615811242, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_01-45-44", "policy_reward_mean": {}, "time_this_iter_s": 225.85034036636353, "episodes_this_iter": 24, "training_iteration": 123, "time_total_s": 30326.80412006378, "info": {"num_steps_sampled": 147600, "num_steps_trained": 147600, "default": {"policy_loss": -0.13525259494781494, "vf_explained_var": 0.8784549236297607, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 20.95810317993164, "entropy": 15.93128776550293, "kl": 0.014947210438549519, "total_loss": 20.837984085083008}, "sample_time_ms": 251310.891, "grad_time_ms": 698.384, "load_time_ms": 1.545, "update_time_ms": 2.509}, "timesteps_total": 147600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 147600, "hostname": "cda-server-3", "episode_reward_max": -51.15904062506867}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 30578.466166734695, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -105.43882619369613, "iterations_since_restore": 124, "episodes_total": 2976, "timestamp": 1756424996, "episode_reward_mean": -57.50727125609862, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_01-49-56", "policy_reward_mean": {}, "time_this_iter_s": 251.6620466709137, "episodes_this_iter": 24, "training_iteration": 124, "time_total_s": 30578.466166734695, "info": {"num_steps_sampled": 148800, "num_steps_trained": 148800, "default": {"policy_loss": -0.1361684650182724, "vf_explained_var": 0.8873589634895325, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 18.034313201904297, "entropy": 15.900761604309082, "kl": 0.01829693093895912, "total_loss": 17.916669845581055}, "sample_time_ms": 253684.863, "grad_time_ms": 698.555, "load_time_ms": 1.553, "update_time_ms": 2.52}, "timesteps_total": 148800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 148800, "hostname": "cda-server-3", "episode_reward_max": -51.15904062506867}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 30794.069765806198, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -86.28003722489746, "iterations_since_restore": 125, "episodes_total": 3000, "timestamp": 1756425211, "episode_reward_mean": -56.68986158951923, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_01-53-31", "policy_reward_mean": {}, "time_this_iter_s": 215.60359907150269, "episodes_this_iter": 24, "training_iteration": 125, "time_total_s": 30794.069765806198, "info": {"num_steps_sampled": 150000, "num_steps_trained": 150000, "default": {"policy_loss": -0.14660833775997162, "vf_explained_var": 0.9275010228157043, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 11.063407897949219, "entropy": 15.772184371948242, "kl": 0.016784558072686195, "total_loss": 10.933794021606445}, "sample_time_ms": 245091.181, "grad_time_ms": 699.565, "load_time_ms": 1.515, "update_time_ms": 2.549}, "timesteps_total": 150000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 150000, "hostname": "cda-server-3", "episode_reward_max": -51.562097171397795}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 31028.55344748497, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -86.28003722489746, "iterations_since_restore": 126, "episodes_total": 3024, "timestamp": 1756425446, "episode_reward_mean": -56.94375005421898, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_01-57-26", "policy_reward_mean": {}, "time_this_iter_s": 234.48368167877197, "episodes_this_iter": 24, "training_iteration": 126, "time_total_s": 31028.55344748497, "info": {"num_steps_sampled": 151200, "num_steps_trained": 151200, "default": {"policy_loss": -0.12616945803165436, "vf_explained_var": 0.9062788486480713, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 14.618449211120605, "entropy": 15.753960609436035, "kl": 0.017071321606636047, "total_loss": 14.509563446044922}, "sample_time_ms": 238132.026, "grad_time_ms": 699.342, "load_time_ms": 1.5, "update_time_ms": 2.547}, "timesteps_total": 151200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 151200, "hostname": "cda-server-3", "episode_reward_max": -51.562097171397795}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 31243.675163269043, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -80.45088177963235, "iterations_since_restore": 127, "episodes_total": 3048, "timestamp": 1756425661, "episode_reward_mean": -56.65103369765881, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_02-01-01", "policy_reward_mean": {}, "time_this_iter_s": 215.12171578407288, "episodes_this_iter": 24, "training_iteration": 127, "time_total_s": 31243.675163269043, "info": {"num_steps_sampled": 152400, "num_steps_trained": 152400, "default": {"policy_loss": -0.11479911208152771, "vf_explained_var": 0.7940958738327026, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 36.7393913269043, "entropy": 15.598017692565918, "kl": 0.015916500240564346, "total_loss": 36.640708923339844}, "sample_time_ms": 234310.54, "grad_time_ms": 699.01, "load_time_ms": 1.489, "update_time_ms": 2.553}, "timesteps_total": 152400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 152400, "hostname": "cda-server-3", "episode_reward_max": -51.562097171397795}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 31459.257354974747, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -79.52035184489046, "iterations_since_restore": 128, "episodes_total": 3072, "timestamp": 1756425876, "episode_reward_mean": -56.38341833475086, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_02-04-36", "policy_reward_mean": {}, "time_this_iter_s": 215.58219170570374, "episodes_this_iter": 24, "training_iteration": 128, "time_total_s": 31459.257354974747, "info": {"num_steps_sampled": 153600, "num_steps_trained": 153600, "default": {"policy_loss": -0.14602722227573395, "vf_explained_var": 0.9135898947715759, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 12.709991455078125, "entropy": 15.712790489196777, "kl": 0.017770998179912567, "total_loss": 12.58195686340332}, "sample_time_ms": 232487.546, "grad_time_ms": 698.863, "load_time_ms": 1.556, "update_time_ms": 2.519}, "timesteps_total": 153600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 153600, "hostname": "cda-server-3", "episode_reward_max": -51.562097171397795}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 31731.1027405262, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -79.52035184489046, "iterations_since_restore": 129, "episodes_total": 3096, "timestamp": 1756426148, "episode_reward_mean": -56.568582278886524, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_02-09-08", "policy_reward_mean": {}, "time_this_iter_s": 271.84538555145264, "episodes_this_iter": 24, "training_iteration": 129, "time_total_s": 31731.1027405262, "info": {"num_steps_sampled": 154800, "num_steps_trained": 154800, "default": {"policy_loss": -0.12171263247728348, "vf_explained_var": 0.8592672348022461, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 21.35623550415039, "entropy": 15.582194328308105, "kl": 0.016301354393363, "total_loss": 21.251028060913086}, "sample_time_ms": 237589.432, "grad_time_ms": 697.683, "load_time_ms": 1.595, "update_time_ms": 2.499}, "timesteps_total": 154800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 154800, "hostname": "cda-server-3", "episode_reward_max": -51.830023605268046}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 31959.038396835327, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -79.52035184489046, "iterations_since_restore": 130, "episodes_total": 3120, "timestamp": 1756426376, "episode_reward_mean": -56.192528320350384, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_02-12-56", "policy_reward_mean": {}, "time_this_iter_s": 227.9356563091278, "episodes_this_iter": 24, "training_iteration": 130, "time_total_s": 31959.038396835327, "info": {"num_steps_sampled": 156000, "num_steps_trained": 156000, "default": {"policy_loss": -0.12034373730421066, "vf_explained_var": 0.9029307961463928, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 14.961315155029297, "entropy": 15.58940315246582, "kl": 0.01572321727871895, "total_loss": 14.856891632080078}, "sample_time_ms": 234334.761, "grad_time_ms": 697.659, "load_time_ms": 1.537, "update_time_ms": 2.496}, "timesteps_total": 156000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 156000, "hostname": "cda-server-3", "episode_reward_max": -51.19035379947645}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 32195.998419046402, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -70.91395079921254, "iterations_since_restore": 131, "episodes_total": 3144, "timestamp": 1756426613, "episode_reward_mean": -55.76523066885816, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_02-16-53", "policy_reward_mean": {}, "time_this_iter_s": 236.96002221107483, "episodes_this_iter": 24, "training_iteration": 131, "time_total_s": 32195.998419046402, "info": {"num_steps_sampled": 157200, "num_steps_trained": 157200, "default": {"policy_loss": -0.13559547066688538, "vf_explained_var": 0.9158918857574463, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 12.444634437561035, "entropy": 15.584784507751465, "kl": 0.016098035499453545, "total_loss": 12.325338363647461}, "sample_time_ms": 232491.655, "grad_time_ms": 697.978, "load_time_ms": 1.559, "update_time_ms": 2.546}, "timesteps_total": 157200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 157200, "hostname": "cda-server-3", "episode_reward_max": -51.09991333542589}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 32449.557423353195, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -70.91395079921254, "iterations_since_restore": 132, "episodes_total": 3168, "timestamp": 1756426867, "episode_reward_mean": -55.86116142206185, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_02-21-07", "policy_reward_mean": {}, "time_this_iter_s": 253.5590043067932, "episodes_this_iter": 24, "training_iteration": 132, "time_total_s": 32449.557423353195, "info": {"num_steps_sampled": 158400, "num_steps_trained": 158400, "default": {"policy_loss": -0.12703874707221985, "vf_explained_var": 0.926753044128418, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 10.651493072509766, "entropy": 15.580692291259766, "kl": 0.016220103949308395, "total_loss": 10.540875434875488}, "sample_time_ms": 234153.813, "grad_time_ms": 697.494, "load_time_ms": 1.499, "update_time_ms": 2.553}, "timesteps_total": 158400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 158400, "hostname": "cda-server-3", "episode_reward_max": -51.09991333542589}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 32706.75931406021, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -93.98838629496043, "iterations_since_restore": 133, "episodes_total": 3192, "timestamp": 1756427124, "episode_reward_mean": -56.2012627641873, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_02-25-24", "policy_reward_mean": {}, "time_this_iter_s": 257.201890707016, "episodes_this_iter": 24, "training_iteration": 133, "time_total_s": 32706.75931406021, "info": {"num_steps_sampled": 159600, "num_steps_trained": 159600, "default": {"policy_loss": -0.1338438093662262, "vf_explained_var": 0.8740109205245972, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 23.77425193786621, "entropy": 15.500330924987793, "kl": 0.015482652932405472, "total_loss": 23.656084060668945}, "sample_time_ms": 237288.091, "grad_time_ms": 698.382, "load_time_ms": 1.487, "update_time_ms": 2.552}, "timesteps_total": 159600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 159600, "hostname": "cda-server-3", "episode_reward_max": -51.09991333542589}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 32972.81243276596, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -93.98838629496043, "iterations_since_restore": 134, "episodes_total": 3216, "timestamp": 1756427390, "episode_reward_mean": -56.35912897300799, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_02-29-50", "policy_reward_mean": {}, "time_this_iter_s": 266.0531187057495, "episodes_this_iter": 24, "training_iteration": 134, "time_total_s": 32972.81243276596, "info": {"num_steps_sampled": 160800, "num_steps_trained": 160800, "default": {"policy_loss": -0.13807255029678345, "vf_explained_var": 0.9234582185745239, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 12.561636924743652, "entropy": 15.425944328308105, "kl": 0.01584099791944027, "total_loss": 12.439602851867676}, "sample_time_ms": 238727.197, "grad_time_ms": 698.404, "load_time_ms": 1.465, "update_time_ms": 2.538}, "timesteps_total": 160800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 160800, "hostname": "cda-server-3", "episode_reward_max": -51.09991333542589}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 33229.83745789528, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -93.98838629496043, "iterations_since_restore": 135, "episodes_total": 3240, "timestamp": 1756427647, "episode_reward_mean": -56.45386895016317, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_02-34-07", "policy_reward_mean": {}, "time_this_iter_s": 257.02502512931824, "episodes_this_iter": 24, "training_iteration": 135, "time_total_s": 33229.83745789528, "info": {"num_steps_sampled": 162000, "num_steps_trained": 162000, "default": {"policy_loss": -0.12910763919353485, "vf_explained_var": 0.9062867760658264, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 13.637471199035645, "entropy": 15.366029739379883, "kl": 0.01572471857070923, "total_loss": 13.524285316467285}, "sample_time_ms": 242870.088, "grad_time_ms": 697.763, "load_time_ms": 1.412, "update_time_ms": 2.526}, "timesteps_total": 162000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 162000, "hostname": "cda-server-3", "episode_reward_max": -51.69027924314964}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 33496.372004032135, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -96.18207900565379, "iterations_since_restore": 136, "episodes_total": 3264, "timestamp": 1756427914, "episode_reward_mean": -56.74371575273542, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_02-38-34", "policy_reward_mean": {}, "time_this_iter_s": 266.5345461368561, "episodes_this_iter": 24, "training_iteration": 136, "time_total_s": 33496.372004032135, "info": {"num_steps_sampled": 163200, "num_steps_trained": 163200, "default": {"policy_loss": -0.12022534012794495, "vf_explained_var": 0.8324052095413208, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 36.34650421142578, "entropy": 15.361777305603027, "kl": 0.013458560220897198, "total_loss": 36.239906311035156}, "sample_time_ms": 246076.3, "grad_time_ms": 696.66, "load_time_ms": 1.378, "update_time_ms": 2.542}, "timesteps_total": 163200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 163200, "hostname": "cda-server-3", "episode_reward_max": -51.69027924314964}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 33734.41650533676, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -96.18207900565379, "iterations_since_restore": 137, "episodes_total": 3288, "timestamp": 1756428152, "episode_reward_mean": -56.32144548975378, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_02-42-32", "policy_reward_mean": {}, "time_this_iter_s": 238.04450130462646, "episodes_this_iter": 24, "training_iteration": 137, "time_total_s": 33734.41650533676, "info": {"num_steps_sampled": 164400, "num_steps_trained": 164400, "default": {"policy_loss": -0.14246992766857147, "vf_explained_var": 0.8585296273231506, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 23.249908447265625, "entropy": 15.368772506713867, "kl": 0.0162531528621912, "total_loss": 23.12389373779297}, "sample_time_ms": 248368.943, "grad_time_ms": 696.335, "load_time_ms": 1.371, "update_time_ms": 2.531}, "timesteps_total": 164400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 164400, "hostname": "cda-server-3", "episode_reward_max": -51.40951762538001}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 33984.96528124809, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -96.18207900565379, "iterations_since_restore": 138, "episodes_total": 3312, "timestamp": 1756428402, "episode_reward_mean": -55.87355432583267, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_02-46-42", "policy_reward_mean": {}, "time_this_iter_s": 250.54877591133118, "episodes_this_iter": 24, "training_iteration": 138, "time_total_s": 33984.96528124809, "info": {"num_steps_sampled": 165600, "num_steps_trained": 165600, "default": {"policy_loss": -0.1364402174949646, "vf_explained_var": 0.9217305779457092, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 11.053638458251953, "entropy": 15.37063980102539, "kl": 0.016554994508624077, "total_loss": 10.933959007263184}, "sample_time_ms": 251865.386, "grad_time_ms": 696.52, "load_time_ms": 1.384, "update_time_ms": 2.537}, "timesteps_total": 165600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 165600, "hostname": "cda-server-3", "episode_reward_max": -51.40951762538001}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 34215.42980790138, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -96.18207900565379, "iterations_since_restore": 139, "episodes_total": 3336, "timestamp": 1756428633, "episode_reward_mean": -55.7571264546207, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_02-50-33", "policy_reward_mean": {}, "time_this_iter_s": 230.4645266532898, "episodes_this_iter": 24, "training_iteration": 139, "time_total_s": 34215.42980790138, "info": {"num_steps_sampled": 166800, "num_steps_trained": 166800, "default": {"policy_loss": -0.11645391583442688, "vf_explained_var": 0.9018339514732361, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 14.361066818237305, "entropy": 15.37358570098877, "kl": 0.014754108153283596, "total_loss": 14.259552001953125}, "sample_time_ms": 247727.037, "grad_time_ms": 696.858, "load_time_ms": 1.332, "update_time_ms": 2.536}, "timesteps_total": 166800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 166800, "hostname": "cda-server-3", "episode_reward_max": -51.40951762538001}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 34444.063520908356, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -82.93349279790904, "iterations_since_restore": 140, "episodes_total": 3360, "timestamp": 1756428861, "episode_reward_mean": -55.31171767952917, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_02-54-21", "policy_reward_mean": {}, "time_this_iter_s": 228.63371300697327, "episodes_this_iter": 24, "training_iteration": 140, "time_total_s": 34444.063520908356, "info": {"num_steps_sampled": 168000, "num_steps_trained": 168000, "default": {"policy_loss": -0.1265363097190857, "vf_explained_var": 0.9019301533699036, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 15.231989860534668, "entropy": 15.134800910949707, "kl": 0.015528642572462559, "total_loss": 15.121174812316895}, "sample_time_ms": 247796.422, "grad_time_ms": 697.2, "load_time_ms": 1.367, "update_time_ms": 2.552}, "timesteps_total": 168000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 168000, "hostname": "cda-server-3", "episode_reward_max": -51.40951762538001}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 34734.807121276855, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -82.93349279790904, "iterations_since_restore": 141, "episodes_total": 3384, "timestamp": 1756429152, "episode_reward_mean": -55.52611278640221, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_02-59-12", "policy_reward_mean": {}, "time_this_iter_s": 290.74360036849976, "episodes_this_iter": 24, "training_iteration": 141, "time_total_s": 34734.807121276855, "info": {"num_steps_sampled": 169200, "num_steps_trained": 169200, "default": {"policy_loss": -0.12432999163866043, "vf_explained_var": 0.8699341416358948, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 20.217525482177734, "entropy": 15.227035522460938, "kl": 0.015340043231844902, "total_loss": 20.108726501464844}, "sample_time_ms": 253175.993, "grad_time_ms": 695.989, "load_time_ms": 1.347, "update_time_ms": 2.547}, "timesteps_total": 169200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 169200, "hostname": "cda-server-3", "episode_reward_max": -51.912489943053544}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 35009.46830415726, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -68.6920622405596, "iterations_since_restore": 142, "episodes_total": 3408, "timestamp": 1756429427, "episode_reward_mean": -55.2943012698868, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_03-03-47", "policy_reward_mean": {}, "time_this_iter_s": 274.6611828804016, "episodes_this_iter": 24, "training_iteration": 142, "time_total_s": 35009.46830415726, "info": {"num_steps_sampled": 170400, "num_steps_trained": 170400, "default": {"policy_loss": -0.12539464235305786, "vf_explained_var": 0.8912346959114075, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 16.17151641845703, "entropy": 15.258182525634766, "kl": 0.016979189589619637, "total_loss": 16.063312530517578}, "sample_time_ms": 255286.282, "grad_time_ms": 695.94, "load_time_ms": 1.322, "update_time_ms": 2.54}, "timesteps_total": 170400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 170400, "hostname": "cda-server-3", "episode_reward_max": -48.129169098879075}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 35289.0909883976, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -72.46281944527702, "iterations_since_restore": 143, "episodes_total": 3432, "timestamp": 1756429706, "episode_reward_mean": -55.369224463036765, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_03-08-26", "policy_reward_mean": {}, "time_this_iter_s": 279.6226842403412, "episodes_this_iter": 24, "training_iteration": 143, "time_total_s": 35289.0909883976, "info": {"num_steps_sampled": 171600, "num_steps_trained": 171600, "default": {"policy_loss": -0.1365930438041687, "vf_explained_var": 0.912811279296875, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 13.83117389678955, "entropy": 15.256481170654297, "kl": 0.017149154096841812, "total_loss": 13.711945533752441}, "sample_time_ms": 257528.771, "grad_time_ms": 695.525, "load_time_ms": 1.324, "update_time_ms": 2.547}, "timesteps_total": 171600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 171600, "hostname": "cda-server-3", "episode_reward_max": -48.129169098879075}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 35545.71752953529, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -75.52954077212628, "iterations_since_restore": 144, "episodes_total": 3456, "timestamp": 1756429963, "episode_reward_mean": -55.29145726709157, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_03-12-43", "policy_reward_mean": {}, "time_this_iter_s": 256.6265411376953, "episodes_this_iter": 24, "training_iteration": 144, "time_total_s": 35545.71752953529, "info": {"num_steps_sampled": 172800, "num_steps_trained": 172800, "default": {"policy_loss": -0.14175564050674438, "vf_explained_var": 0.9073739647865295, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 15.246339797973633, "entropy": 15.155366897583008, "kl": 0.015908382833003998, "total_loss": 15.120692253112793}, "sample_time_ms": 256586.634, "grad_time_ms": 694.93, "load_time_ms": 1.436, "update_time_ms": 2.567}, "timesteps_total": 172800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 172800, "hostname": "cda-server-3", "episode_reward_max": -48.129169098879075}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 35821.987554073334, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -75.52954077212628, "iterations_since_restore": 145, "episodes_total": 3480, "timestamp": 1756430239, "episode_reward_mean": -54.90900760315747, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_03-17-19", "policy_reward_mean": {}, "time_this_iter_s": 276.27002453804016, "episodes_this_iter": 24, "training_iteration": 145, "time_total_s": 35821.987554073334, "info": {"num_steps_sampled": 174000, "num_steps_trained": 174000, "default": {"policy_loss": -0.1382271647453308, "vf_explained_var": 0.9090858101844788, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 13.077757835388184, "entropy": 15.22294807434082, "kl": 0.017670560628175735, "total_loss": 12.95742130279541}, "sample_time_ms": 258511.631, "grad_time_ms": 694.44, "load_time_ms": 1.449, "update_time_ms": 2.561}, "timesteps_total": 174000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 174000, "hostname": "cda-server-3", "episode_reward_max": -48.129169098879075}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 36097.462760448456, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -79.94967820860617, "iterations_since_restore": 146, "episodes_total": 3504, "timestamp": 1756430515, "episode_reward_mean": -55.34494379447178, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_03-21-55", "policy_reward_mean": {}, "time_this_iter_s": 275.47520637512207, "episodes_this_iter": 24, "training_iteration": 146, "time_total_s": 36097.462760448456, "info": {"num_steps_sampled": 175200, "num_steps_trained": 175200, "default": {"policy_loss": -0.13017256557941437, "vf_explained_var": 0.8144359588623047, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 34.2513542175293, "entropy": 15.095757484436035, "kl": 0.014651145786046982, "total_loss": 34.136016845703125}, "sample_time_ms": 259405.121, "grad_time_ms": 694.972, "load_time_ms": 1.499, "update_time_ms": 2.528}, "timesteps_total": 175200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 175200, "hostname": "cda-server-3", "episode_reward_max": -49.86107777805505}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 36382.53430700302, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -79.94967820860617, "iterations_since_restore": 147, "episodes_total": 3528, "timestamp": 1756430800, "episode_reward_mean": -55.20145012855225, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_03-26-40", "policy_reward_mean": {}, "time_this_iter_s": 285.07154655456543, "episodes_this_iter": 24, "training_iteration": 147, "time_total_s": 36382.53430700302, "info": {"num_steps_sampled": 176400, "num_steps_trained": 176400, "default": {"policy_loss": -0.14096269011497498, "vf_explained_var": 0.9250853657722473, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 10.303423881530762, "entropy": 15.09123420715332, "kl": 0.01631304621696472, "total_loss": 10.178977966308594}, "sample_time_ms": 264107.325, "grad_time_ms": 695.414, "load_time_ms": 1.51, "update_time_ms": 2.538}, "timesteps_total": 176400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 176400, "hostname": "cda-server-3", "episode_reward_max": -49.86107777805505}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 36627.90810227394, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -79.94967820860617, "iterations_since_restore": 148, "episodes_total": 3552, "timestamp": 1756431045, "episode_reward_mean": -55.17519078805936, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_03-30-45", "policy_reward_mean": {}, "time_this_iter_s": 245.3737952709198, "episodes_this_iter": 24, "training_iteration": 148, "time_total_s": 36627.90810227394, "info": {"num_steps_sampled": 177600, "num_steps_trained": 177600, "default": {"policy_loss": -0.13445059955120087, "vf_explained_var": 0.8926759362220764, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 16.581031799316406, "entropy": 14.917000770568848, "kl": 0.017347920686006546, "total_loss": 16.46414566040039}, "sample_time_ms": 263589.876, "grad_time_ms": 695.333, "load_time_ms": 1.522, "update_time_ms": 2.577}, "timesteps_total": 177600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 177600, "hostname": "cda-server-3", "episode_reward_max": -49.868294210863574}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 36868.36815214157, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -83.15647612467512, "iterations_since_restore": 149, "episodes_total": 3576, "timestamp": 1756431286, "episode_reward_mean": -55.496444152964315, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_03-34-46", "policy_reward_mean": {}, "time_this_iter_s": 240.46004986763, "episodes_this_iter": 24, "training_iteration": 149, "time_total_s": 36868.36815214157, "info": {"num_steps_sampled": 178800, "num_steps_trained": 178800, "default": {"policy_loss": -0.1339377909898758, "vf_explained_var": 0.8692839741706848, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 22.630189895629883, "entropy": 14.89309310913086, "kl": 0.014757196418941021, "total_loss": 22.511194229125977}, "sample_time_ms": 264588.746, "grad_time_ms": 695.936, "load_time_ms": 1.571, "update_time_ms": 2.617}, "timesteps_total": 178800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 178800, "hostname": "cda-server-3", "episode_reward_max": -49.868294210863574}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 37109.659499168396, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -83.15647612467512, "iterations_since_restore": 150, "episodes_total": 3600, "timestamp": 1756431527, "episode_reward_mean": -54.72428538909617, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_03-38-47", "policy_reward_mean": {}, "time_this_iter_s": 241.29134702682495, "episodes_this_iter": 24, "training_iteration": 150, "time_total_s": 37109.659499168396, "info": {"num_steps_sampled": 180000, "num_steps_trained": 180000, "default": {"policy_loss": -0.12940925359725952, "vf_explained_var": 0.9131262302398682, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 14.03437614440918, "entropy": 14.959555625915527, "kl": 0.016797177493572235, "total_loss": 13.92197322845459}, "sample_time_ms": 265853.553, "grad_time_ms": 696.881, "load_time_ms": 1.582, "update_time_ms": 2.599}, "timesteps_total": 180000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 180000, "hostname": "cda-server-3", "episode_reward_max": -50.103271334104306}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 37372.81824541092, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -83.15647612467512, "iterations_since_restore": 151, "episodes_total": 3624, "timestamp": 1756431790, "episode_reward_mean": -54.95631083997977, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_03-43-10", "policy_reward_mean": {}, "time_this_iter_s": 263.1587462425232, "episodes_this_iter": 24, "training_iteration": 151, "time_total_s": 37372.81824541092, "info": {"num_steps_sampled": 181200, "num_steps_trained": 181200, "default": {"policy_loss": -0.13383673131465912, "vf_explained_var": 0.9046041965484619, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 14.824883460998535, "entropy": 15.047348022460938, "kl": 0.015503380447626114, "total_loss": 14.706741333007812}, "sample_time_ms": 263094.858, "grad_time_ms": 697.053, "load_time_ms": 1.576, "update_time_ms": 2.585}, "timesteps_total": 181200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 181200, "hostname": "cda-server-3", "episode_reward_max": -50.103271334104306}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 37592.00878381729, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -83.15647612467512, "iterations_since_restore": 152, "episodes_total": 3648, "timestamp": 1756432009, "episode_reward_mean": -55.042814484307165, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_03-46-49", "policy_reward_mean": {}, "time_this_iter_s": 219.19053840637207, "episodes_this_iter": 24, "training_iteration": 152, "time_total_s": 37592.00878381729, "info": {"num_steps_sampled": 182400, "num_steps_trained": 182400, "default": {"policy_loss": -0.14624041318893433, "vf_explained_var": 0.8944531679153442, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 18.525949478149414, "entropy": 15.080928802490234, "kl": 0.017322639003396034, "total_loss": 18.397249221801758}, "sample_time_ms": 257547.52, "grad_time_ms": 697.159, "load_time_ms": 1.677, "update_time_ms": 2.615}, "timesteps_total": 182400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 182400, "hostname": "cda-server-3", "episode_reward_max": -50.103271334104306}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 37824.8251748085, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -76.25276652916195, "iterations_since_restore": 153, "episodes_total": 3672, "timestamp": 1756432242, "episode_reward_mean": -54.80760574942528, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_03-50-42", "policy_reward_mean": {}, "time_this_iter_s": 232.81639099121094, "episodes_this_iter": 24, "training_iteration": 153, "time_total_s": 37824.8251748085, "info": {"num_steps_sampled": 183600, "num_steps_trained": 183600, "default": {"policy_loss": -0.12011555582284927, "vf_explained_var": 0.9176934361457825, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 13.568841934204102, "entropy": 14.749469757080078, "kl": 0.015085036866366863, "total_loss": 13.464000701904297}, "sample_time_ms": 252867.137, "grad_time_ms": 696.913, "load_time_ms": 1.679, "update_time_ms": 2.613}, "timesteps_total": 183600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 183600, "hostname": "cda-server-3", "episode_reward_max": -51.635439929331795}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 38087.21182632446, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -76.25276652916195, "iterations_since_restore": 154, "episodes_total": 3696, "timestamp": 1756432505, "episode_reward_mean": -54.710018271540406, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_03-55-05", "policy_reward_mean": {}, "time_this_iter_s": 262.3866515159607, "episodes_this_iter": 24, "training_iteration": 154, "time_total_s": 38087.21182632446, "info": {"num_steps_sampled": 184800, "num_steps_trained": 184800, "default": {"policy_loss": -0.11606475710868835, "vf_explained_var": 0.9142285585403442, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 11.576321601867676, "entropy": 14.832953453063965, "kl": 0.01606798730790615, "total_loss": 11.476527214050293}, "sample_time_ms": 253442.364, "grad_time_ms": 697.813, "load_time_ms": 1.578, "update_time_ms": 2.592}, "timesteps_total": 184800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 184800, "hostname": "cda-server-3", "episode_reward_max": -51.69439838421866}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 38328.99079108238, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -71.88802226923642, "iterations_since_restore": 155, "episodes_total": 3720, "timestamp": 1756432746, "episode_reward_mean": -54.24950328876382, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_03-59-06", "policy_reward_mean": {}, "time_this_iter_s": 241.7789647579193, "episodes_this_iter": 24, "training_iteration": 155, "time_total_s": 38328.99079108238, "info": {"num_steps_sampled": 186000, "num_steps_trained": 186000, "default": {"policy_loss": -0.12019169330596924, "vf_explained_var": 0.9199265241622925, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 10.817547798156738, "entropy": 14.937190055847168, "kl": 0.0172748900949955, "total_loss": 10.714847564697266}, "sample_time_ms": 249993.188, "grad_time_ms": 697.826, "load_time_ms": 1.591, "update_time_ms": 2.591}, "timesteps_total": 186000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 186000, "hostname": "cda-server-3", "episode_reward_max": -51.69439838421866}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 38605.58489322662, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -60.94899705446273, "iterations_since_restore": 156, "episodes_total": 3744, "timestamp": 1756433023, "episode_reward_mean": -53.82121373845912, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_04-03-43", "policy_reward_mean": {}, "time_this_iter_s": 276.59410214424133, "episodes_this_iter": 24, "training_iteration": 156, "time_total_s": 38605.58489322662, "info": {"num_steps_sampled": 187200, "num_steps_trained": 187200, "default": {"policy_loss": -0.11848673224449158, "vf_explained_var": 0.9233921766281128, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 11.039652824401855, "entropy": 14.721104621887207, "kl": 0.016296055167913437, "total_loss": 10.937665939331055}, "sample_time_ms": 250104.087, "grad_time_ms": 698.824, "load_time_ms": 1.582, "update_time_ms": 2.591}, "timesteps_total": 187200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 187200, "hostname": "cda-server-3", "episode_reward_max": -51.69439838421866}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 38854.769364118576, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -87.87251747175968, "iterations_since_restore": 157, "episodes_total": 3768, "timestamp": 1756433272, "episode_reward_mean": -54.420660136849435, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_04-07-52", "policy_reward_mean": {}, "time_this_iter_s": 249.18447089195251, "episodes_this_iter": 24, "training_iteration": 157, "time_total_s": 38854.769364118576, "info": {"num_steps_sampled": 188400, "num_steps_trained": 188400, "default": {"policy_loss": -0.11602246761322021, "vf_explained_var": 0.8534746766090393, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 34.05124282836914, "entropy": 14.746952056884766, "kl": 0.014781979843974113, "total_loss": 33.9501838684082}, "sample_time_ms": 246516.264, "grad_time_ms": 697.965, "load_time_ms": 1.588, "update_time_ms": 2.589}, "timesteps_total": 188400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 188400, "hostname": "cda-server-3", "episode_reward_max": -51.19677159146877}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 39079.19603562355, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -87.87251747175968, "iterations_since_restore": 158, "episodes_total": 3792, "timestamp": 1756433497, "episode_reward_mean": -54.49077811088377, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_04-11-37", "policy_reward_mean": {}, "time_this_iter_s": 224.42667150497437, "episodes_this_iter": 24, "training_iteration": 158, "time_total_s": 39079.19603562355, "info": {"num_steps_sampled": 189600, "num_steps_trained": 189600, "default": {"policy_loss": -0.1355181485414505, "vf_explained_var": 0.9379551410675049, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 9.295769691467285, "entropy": 14.72548770904541, "kl": 0.015183514915406704, "total_loss": 9.17562484741211}, "sample_time_ms": 244421.345, "grad_time_ms": 698.161, "load_time_ms": 1.564, "update_time_ms": 2.575}, "timesteps_total": 189600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 189600, "hostname": "cda-server-3", "episode_reward_max": -51.19677159146877}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 39353.902054309845, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -87.87251747175968, "iterations_since_restore": 159, "episodes_total": 3816, "timestamp": 1756433771, "episode_reward_mean": -54.94807630013864, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_04-16-11", "policy_reward_mean": {}, "time_this_iter_s": 274.70601868629456, "episodes_this_iter": 24, "training_iteration": 159, "time_total_s": 39353.902054309845, "info": {"num_steps_sampled": 190800, "num_steps_trained": 190800, "default": {"policy_loss": -0.13363111019134521, "vf_explained_var": 0.8988499045372009, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 15.78367805480957, "entropy": 14.716657638549805, "kl": 0.015655651688575745, "total_loss": 15.665897369384766}, "sample_time_ms": 247846.641, "grad_time_ms": 697.463, "load_time_ms": 1.576, "update_time_ms": 2.555}, "timesteps_total": 190800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 190800, "hostname": "cda-server-3", "episode_reward_max": -51.19677159146877}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 39582.731301784515, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -87.87251747175968, "iterations_since_restore": 160, "episodes_total": 3840, "timestamp": 1756434000, "episode_reward_mean": -54.99390824289015, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_04-20-00", "policy_reward_mean": {}, "time_this_iter_s": 228.8292474746704, "episodes_this_iter": 24, "training_iteration": 160, "time_total_s": 39582.731301784515, "info": {"num_steps_sampled": 192000, "num_steps_trained": 192000, "default": {"policy_loss": -0.13071568310260773, "vf_explained_var": 0.8984204530715942, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 14.689178466796875, "entropy": 14.589058876037598, "kl": 0.016704510897397995, "total_loss": 14.575374603271484}, "sample_time_ms": 246600.492, "grad_time_ms": 697.379, "load_time_ms": 1.582, "update_time_ms": 2.557}, "timesteps_total": 192000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 192000, "hostname": "cda-server-3", "episode_reward_max": -51.07453569163501}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 39832.147840976715, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -72.07512178954435, "iterations_since_restore": 161, "episodes_total": 3864, "timestamp": 1756434250, "episode_reward_mean": -54.470317514482815, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_04-24-10", "policy_reward_mean": {}, "time_this_iter_s": 249.4165391921997, "episodes_this_iter": 24, "training_iteration": 161, "time_total_s": 39832.147840976715, "info": {"num_steps_sampled": 193200, "num_steps_trained": 193200, "default": {"policy_loss": -0.12139880657196045, "vf_explained_var": 0.9051095247268677, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 13.678767204284668, "entropy": 14.655537605285645, "kl": 0.015876276418566704, "total_loss": 13.573442459106445}, "sample_time_ms": 245226.549, "grad_time_ms": 697.164, "load_time_ms": 1.581, "update_time_ms": 2.564}, "timesteps_total": 193200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 193200, "hostname": "cda-server-3", "episode_reward_max": -49.92447552813607}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 40083.27506804466, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -72.07512178954435, "iterations_since_restore": 162, "episodes_total": 3888, "timestamp": 1756434501, "episode_reward_mean": -54.33385886284182, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_04-28-21", "policy_reward_mean": {}, "time_this_iter_s": 251.1272270679474, "episodes_this_iter": 24, "training_iteration": 162, "time_total_s": 40083.27506804466, "info": {"num_steps_sampled": 194400, "num_steps_trained": 194400, "default": {"policy_loss": -0.11639168858528137, "vf_explained_var": 0.8642103672027588, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 18.328638076782227, "entropy": 14.6741943359375, "kl": 0.016865216195583344, "total_loss": 18.22932243347168}, "sample_time_ms": 248419.243, "grad_time_ms": 698.138, "load_time_ms": 1.585, "update_time_ms": 2.543}, "timesteps_total": 194400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 194400, "hostname": "cda-server-3", "episode_reward_max": -49.92447552813607}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 40346.9060986042, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -65.13800180278425, "iterations_since_restore": 163, "episodes_total": 3912, "timestamp": 1756434764, "episode_reward_mean": -53.99017250932294, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_04-32-44", "policy_reward_mean": {}, "time_this_iter_s": 263.6310305595398, "episodes_this_iter": 24, "training_iteration": 163, "time_total_s": 40346.9060986042, "info": {"num_steps_sampled": 195600, "num_steps_trained": 195600, "default": {"policy_loss": -0.0998261496424675, "vf_explained_var": 0.8992434740066528, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 13.860114097595215, "entropy": 14.415943145751953, "kl": 0.016176464036107063, "total_loss": 13.776667594909668}, "sample_time_ms": 251501.186, "grad_time_ms": 697.607, "load_time_ms": 1.609, "update_time_ms": 2.552}, "timesteps_total": 195600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 195600, "hostname": "cda-server-3", "episode_reward_max": -49.92447552813607}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 40603.62238764763, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -65.93216349559958, "iterations_since_restore": 164, "episodes_total": 3936, "timestamp": 1756435021, "episode_reward_mean": -53.87998544779606, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_04-37-01", "policy_reward_mean": {}, "time_this_iter_s": 256.7162890434265, "episodes_this_iter": 24, "training_iteration": 164, "time_total_s": 40603.62238764763, "info": {"num_steps_sampled": 196800, "num_steps_trained": 196800, "default": {"policy_loss": -0.14119286835193634, "vf_explained_var": 0.8982493281364441, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 14.692657470703125, "entropy": 14.567020416259766, "kl": 0.01636369712650776, "total_loss": 14.568032264709473}, "sample_time_ms": 250935.353, "grad_time_ms": 696.368, "load_time_ms": 1.616, "update_time_ms": 2.555}, "timesteps_total": 196800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 196800, "hostname": "cda-server-3", "episode_reward_max": -49.92447552813607}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 40852.17313194275, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -65.93216349559958, "iterations_since_restore": 165, "episodes_total": 3960, "timestamp": 1756435270, "episode_reward_mean": -53.61150029783123, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_04-41-10", "policy_reward_mean": {}, "time_this_iter_s": 248.55074429512024, "episodes_this_iter": 24, "training_iteration": 165, "time_total_s": 40852.17313194275, "info": {"num_steps_sampled": 198000, "num_steps_trained": 198000, "default": {"policy_loss": -0.1300608515739441, "vf_explained_var": 0.9516932368278503, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 6.523504257202148, "entropy": 14.476093292236328, "kl": 0.017224567010998726, "total_loss": 6.410882949829102}, "sample_time_ms": 251613.146, "grad_time_ms": 695.773, "load_time_ms": 1.634, "update_time_ms": 2.543}, "timesteps_total": 198000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 198000, "hostname": "cda-server-3", "episode_reward_max": -50.33426657153577}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 41124.5479888916, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -65.93216349559958, "iterations_since_restore": 166, "episodes_total": 3984, "timestamp": 1756435542, "episode_reward_mean": -53.50584114911244, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_04-45-42", "policy_reward_mean": {}, "time_this_iter_s": 272.37485694885254, "episodes_this_iter": 24, "training_iteration": 166, "time_total_s": 41124.5479888916, "info": {"num_steps_sampled": 199200, "num_steps_trained": 199200, "default": {"policy_loss": -0.13436605036258698, "vf_explained_var": 0.9507731199264526, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 6.58724308013916, "entropy": 14.292543411254883, "kl": 0.016184302046895027, "total_loss": 6.469264030456543}, "sample_time_ms": 251192.499, "grad_time_ms": 694.461, "load_time_ms": 1.646, "update_time_ms": 2.536}, "timesteps_total": 199200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 199200, "hostname": "cda-server-3", "episode_reward_max": -50.143069802916855}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 41352.61390995979, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -65.93216349559958, "iterations_since_restore": 167, "episodes_total": 4008, "timestamp": 1756435770, "episode_reward_mean": -53.56339851585321, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_04-49-30", "policy_reward_mean": {}, "time_this_iter_s": 228.06592106819153, "episodes_this_iter": 24, "training_iteration": 167, "time_total_s": 41352.61390995979, "info": {"num_steps_sampled": 200400, "num_steps_trained": 200400, "default": {"policy_loss": -0.1314341276884079, "vf_explained_var": 0.9463107585906982, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 7.555251121520996, "entropy": 14.319255828857422, "kl": 0.016974905505776405, "total_loss": 7.441004276275635}, "sample_time_ms": 249078.991, "grad_time_ms": 696.199, "load_time_ms": 1.574, "update_time_ms": 2.54}, "timesteps_total": 200400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 200400, "hostname": "cda-server-3", "episode_reward_max": -50.143069802916855}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 41594.20011138916, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -61.94201876237128, "iterations_since_restore": 168, "episodes_total": 4032, "timestamp": 1756436012, "episode_reward_mean": -53.30442686539963, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_04-53-32", "policy_reward_mean": {}, "time_this_iter_s": 241.58620142936707, "episodes_this_iter": 24, "training_iteration": 168, "time_total_s": 41594.20011138916, "info": {"num_steps_sampled": 201600, "num_steps_trained": 201600, "default": {"policy_loss": -0.12491725385189056, "vf_explained_var": 0.9548305869102478, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 6.068361759185791, "entropy": 14.498003005981445, "kl": 0.017109356820583344, "total_loss": 5.96076774597168}, "sample_time_ms": 250794.892, "grad_time_ms": 696.286, "load_time_ms": 1.578, "update_time_ms": 2.534}, "timesteps_total": 201600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 201600, "hostname": "cda-server-3", "episode_reward_max": -50.01706107894995}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 41838.673221588135, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -70.72055208052299, "iterations_since_restore": 169, "episodes_total": 4056, "timestamp": 1756436256, "episode_reward_mean": -53.589283976993016, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_04-57-36", "policy_reward_mean": {}, "time_this_iter_s": 244.4731101989746, "episodes_this_iter": 24, "training_iteration": 169, "time_total_s": 41838.673221588135, "info": {"num_steps_sampled": 202800, "num_steps_trained": 202800, "default": {"policy_loss": -0.12954078614711761, "vf_explained_var": 0.9378258585929871, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 9.549816131591797, "entropy": 14.280044555664062, "kl": 0.016108253970742226, "total_loss": 9.43658447265625}, "sample_time_ms": 247771.674, "grad_time_ms": 696.205, "load_time_ms": 1.54, "update_time_ms": 2.535}, "timesteps_total": 202800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 202800, "hostname": "cda-server-3", "episode_reward_max": -50.01706107894995}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 42089.681601285934, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -70.72055208052299, "iterations_since_restore": 170, "episodes_total": 4080, "timestamp": 1756436507, "episode_reward_mean": -53.57962096219589, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_05-01-47", "policy_reward_mean": {}, "time_this_iter_s": 251.00837969779968, "episodes_this_iter": 24, "training_iteration": 170, "time_total_s": 42089.681601285934, "info": {"num_steps_sampled": 204000, "num_steps_trained": 204000, "default": {"policy_loss": -0.12321165949106216, "vf_explained_var": 0.9296780824661255, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 10.322514533996582, "entropy": 14.262398719787598, "kl": 0.014291416853666306, "total_loss": 10.21377182006836}, "sample_time_ms": 249990.139, "grad_time_ms": 695.714, "load_time_ms": 1.488, "update_time_ms": 2.565}, "timesteps_total": 204000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 204000, "hostname": "cda-server-3", "episode_reward_max": -49.0508869398342}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 42328.8942193985, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -70.72055208052299, "iterations_since_restore": 171, "episodes_total": 4104, "timestamp": 1756436747, "episode_reward_mean": -53.66866427174036, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_05-05-47", "policy_reward_mean": {}, "time_this_iter_s": 239.2126181125641, "episodes_this_iter": 24, "training_iteration": 171, "time_total_s": 42328.8942193985, "info": {"num_steps_sampled": 205200, "num_steps_trained": 205200, "default": {"policy_loss": -0.12857241928577423, "vf_explained_var": 0.9397585988044739, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 8.941105842590332, "entropy": 14.35903263092041, "kl": 0.016312314197421074, "total_loss": 8.82905101776123}, "sample_time_ms": 248969.415, "grad_time_ms": 696.245, "load_time_ms": 1.408, "update_time_ms": 2.521}, "timesteps_total": 205200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 205200, "hostname": "cda-server-3", "episode_reward_max": -49.0508869398342}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 42626.244643211365, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -70.72055208052299, "iterations_since_restore": 172, "episodes_total": 4128, "timestamp": 1756437044, "episode_reward_mean": -53.580794914051395, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_05-10-44", "policy_reward_mean": {}, "time_this_iter_s": 297.3504238128662, "episodes_this_iter": 24, "training_iteration": 172, "time_total_s": 42626.244643211365, "info": {"num_steps_sampled": 206400, "num_steps_trained": 206400, "default": {"policy_loss": -0.12440269440412521, "vf_explained_var": 0.9441279172897339, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 7.573556900024414, "entropy": 14.359490394592285, "kl": 0.016533873975276947, "total_loss": 7.46589469909668}, "sample_time_ms": 253592.02, "grad_time_ms": 695.983, "load_time_ms": 1.393, "update_time_ms": 2.517}, "timesteps_total": 206400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 206400, "hostname": "cda-server-3", "episode_reward_max": -49.0508869398342}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 42860.58568787575, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -70.72055208052299, "iterations_since_restore": 173, "episodes_total": 4152, "timestamp": 1756437278, "episode_reward_mean": -53.7161237568239, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_05-14-38", "policy_reward_mean": {}, "time_this_iter_s": 234.34104466438293, "episodes_this_iter": 24, "training_iteration": 173, "time_total_s": 42860.58568787575, "info": {"num_steps_sampled": 207600, "num_steps_trained": 207600, "default": {"policy_loss": -0.12295085936784744, "vf_explained_var": 0.9145262837409973, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 12.39100170135498, "entropy": 14.055234909057617, "kl": 0.016166819259524345, "total_loss": 12.284420013427734}, "sample_time_ms": 250662.754, "grad_time_ms": 696.223, "load_time_ms": 1.405, "update_time_ms": 2.533}, "timesteps_total": 207600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 207600, "hostname": "cda-server-3", "episode_reward_max": -49.0508869398342}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 43113.22520804405, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -86.90779398729012, "iterations_since_restore": 174, "episodes_total": 4176, "timestamp": 1756437531, "episode_reward_mean": -53.890788490715124, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_05-18-51", "policy_reward_mean": {}, "time_this_iter_s": 252.63952016830444, "episodes_this_iter": 24, "training_iteration": 174, "time_total_s": 43113.22520804405, "info": {"num_steps_sampled": 208800, "num_steps_trained": 208800, "default": {"policy_loss": -0.13327403366565704, "vf_explained_var": 0.9170873165130615, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 14.936214447021484, "entropy": 14.28572940826416, "kl": 0.014670169912278652, "total_loss": 14.817794799804688}, "sample_time_ms": 250254.236, "grad_time_ms": 697.167, "load_time_ms": 1.331, "update_time_ms": 2.562}, "timesteps_total": 208800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 208800, "hostname": "cda-server-3", "episode_reward_max": -50.13486725085076}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 43354.569568157196, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -86.90779398729012, "iterations_since_restore": 175, "episodes_total": 4200, "timestamp": 1756437772, "episode_reward_mean": -53.70484142252989, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_05-22-52", "policy_reward_mean": {}, "time_this_iter_s": 241.34436011314392, "episodes_this_iter": 24, "training_iteration": 175, "time_total_s": 43354.569568157196, "info": {"num_steps_sampled": 210000, "num_steps_trained": 210000, "default": {"policy_loss": -0.1241101399064064, "vf_explained_var": 0.928949773311615, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 10.733738899230957, "entropy": 14.182540893554688, "kl": 0.01592331938445568, "total_loss": 10.625751495361328}, "sample_time_ms": 249532.855, "grad_time_ms": 697.821, "load_time_ms": 1.38, "update_time_ms": 2.569}, "timesteps_total": 210000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 210000, "hostname": "cda-server-3", "episode_reward_max": -50.13486725085076}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 43621.62365627289, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -86.90779398729012, "iterations_since_restore": 176, "episodes_total": 4224, "timestamp": 1756438039, "episode_reward_mean": -53.60701516354529, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_05-27-19", "policy_reward_mean": {}, "time_this_iter_s": 267.05408811569214, "episodes_this_iter": 24, "training_iteration": 176, "time_total_s": 43621.62365627289, "info": {"num_steps_sampled": 211200, "num_steps_trained": 211200, "default": {"policy_loss": -0.12065468728542328, "vf_explained_var": 0.9261561632156372, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 10.087909698486328, "entropy": 13.944937705993652, "kl": 0.015050739049911499, "total_loss": 9.98249340057373}, "sample_time_ms": 249000.493, "grad_time_ms": 698.123, "load_time_ms": 1.361, "update_time_ms": 2.578}, "timesteps_total": 211200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 211200, "hostname": "cda-server-3", "episode_reward_max": -50.13486725085076}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 43901.720831632614, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -86.90779398729012, "iterations_since_restore": 177, "episodes_total": 4248, "timestamp": 1756438319, "episode_reward_mean": -53.543342405927405, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_05-31-59", "policy_reward_mean": {}, "time_this_iter_s": 280.09717535972595, "episodes_this_iter": 24, "training_iteration": 177, "time_total_s": 43901.720831632614, "info": {"num_steps_sampled": 212400, "num_steps_trained": 212400, "default": {"policy_loss": -0.1298007220029831, "vf_explained_var": 0.9530531764030457, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 6.61334228515625, "entropy": 14.069295883178711, "kl": 0.01683618873357773, "total_loss": 6.500588417053223}, "sample_time_ms": 254205.562, "grad_time_ms": 696.216, "load_time_ms": 1.348, "update_time_ms": 2.603}, "timesteps_total": 212400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 212400, "hostname": "cda-server-3", "episode_reward_max": -50.69632375703871}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 44153.83974337578, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -66.96402946455778, "iterations_since_restore": 178, "episodes_total": 4272, "timestamp": 1756438572, "episode_reward_mean": -53.031808792535166, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_05-36-12", "policy_reward_mean": {}, "time_this_iter_s": 252.11891174316406, "episodes_this_iter": 24, "training_iteration": 178, "time_total_s": 44153.83974337578, "info": {"num_steps_sampled": 213600, "num_steps_trained": 213600, "default": {"policy_loss": -0.130199134349823, "vf_explained_var": 0.9504425525665283, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 6.463962078094482, "entropy": 13.97944164276123, "kl": 0.01592904143035412, "total_loss": 6.349891185760498}, "sample_time_ms": 255259.466, "grad_time_ms": 695.531, "load_time_ms": 1.36, "update_time_ms": 2.621}, "timesteps_total": 213600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 213600, "hostname": "cda-server-3", "episode_reward_max": -49.36445515990393}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 44386.934242248535, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -66.96402946455778, "iterations_since_restore": 179, "episodes_total": 4296, "timestamp": 1756438805, "episode_reward_mean": -53.042538560292826, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_05-40-05", "policy_reward_mean": {}, "time_this_iter_s": 233.09449887275696, "episodes_this_iter": 24, "training_iteration": 179, "time_total_s": 44386.934242248535, "info": {"num_steps_sampled": 214800, "num_steps_trained": 214800, "default": {"policy_loss": -0.13994605839252472, "vf_explained_var": 0.9725171327590942, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 3.6190366744995117, "entropy": 13.99028205871582, "kl": 0.01614346355199814, "total_loss": 3.495435953140259}, "sample_time_ms": 254121.206, "grad_time_ms": 695.892, "load_time_ms": 1.397, "update_time_ms": 2.636}, "timesteps_total": 214800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 214800, "hostname": "cda-server-3", "episode_reward_max": -49.36445515990393}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 44641.26664805412, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -66.96402946455778, "iterations_since_restore": 180, "episodes_total": 4320, "timestamp": 1756439059, "episode_reward_mean": -53.1373632716962, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_05-44-19", "policy_reward_mean": {}, "time_this_iter_s": 254.33240580558777, "episodes_this_iter": 24, "training_iteration": 180, "time_total_s": 44641.26664805412, "info": {"num_steps_sampled": 216000, "num_steps_trained": 216000, "default": {"policy_loss": -0.1175423189997673, "vf_explained_var": 0.9335753917694092, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 9.291361808776855, "entropy": 13.877095222473145, "kl": 0.015891285613179207, "total_loss": 9.189908981323242}, "sample_time_ms": 254453.815, "grad_time_ms": 695.543, "load_time_ms": 1.494, "update_time_ms": 2.601}, "timesteps_total": 216000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 216000, "hostname": "cda-server-3", "episode_reward_max": -49.36445515990393}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 44861.4182267189, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -94.56750234999927, "iterations_since_restore": 181, "episodes_total": 4344, "timestamp": 1756439279, "episode_reward_mean": -53.63649838877152, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_05-47-59", "policy_reward_mean": {}, "time_this_iter_s": 220.15157866477966, "episodes_this_iter": 24, "training_iteration": 181, "time_total_s": 44861.4182267189, "info": {"num_steps_sampled": 217200, "num_steps_trained": 217200, "default": {"policy_loss": -0.11929008364677429, "vf_explained_var": 0.9169760942459106, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 14.88999080657959, "entropy": 13.808137893676758, "kl": 0.013675041496753693, "total_loss": 14.7845458984375}, "sample_time_ms": 252547.651, "grad_time_ms": 695.443, "load_time_ms": 1.57, "update_time_ms": 2.619}, "timesteps_total": 217200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 217200, "hostname": "cda-server-3", "episode_reward_max": -49.36445515990393}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 45094.17157244682, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -94.56750234999927, "iterations_since_restore": 182, "episodes_total": 4368, "timestamp": 1756439512, "episode_reward_mean": -53.8451041786324, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_05-51-52", "policy_reward_mean": {}, "time_this_iter_s": 232.75334572792053, "episodes_this_iter": 24, "training_iteration": 182, "time_total_s": 45094.17157244682, "info": {"num_steps_sampled": 218400, "num_steps_trained": 218400, "default": {"policy_loss": -0.1277659684419632, "vf_explained_var": 0.9497382044792175, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 7.0899529457092285, "entropy": 13.709293365478516, "kl": 0.015457798726856709, "total_loss": 6.977838516235352}, "sample_time_ms": 246088.625, "grad_time_ms": 694.91, "load_time_ms": 1.472, "update_time_ms": 2.614}, "timesteps_total": 218400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 218400, "hostname": "cda-server-3", "episode_reward_max": -49.08233276373182}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 45367.272315979004, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -94.56750234999927, "iterations_since_restore": 183, "episodes_total": 4392, "timestamp": 1756439785, "episode_reward_mean": -54.12122982188653, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_05-56-25", "policy_reward_mean": {}, "time_this_iter_s": 273.1007435321808, "episodes_this_iter": 24, "training_iteration": 183, "time_total_s": 45367.272315979004, "info": {"num_steps_sampled": 219600, "num_steps_trained": 219600, "default": {"policy_loss": -0.11586789041757584, "vf_explained_var": 0.8821346759796143, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 20.151500701904297, "entropy": 13.90664291381836, "kl": 0.012427722103893757, "total_loss": 20.048213958740234}, "sample_time_ms": 249965.472, "grad_time_ms": 694.231, "load_time_ms": 1.356, "update_time_ms": 2.572}, "timesteps_total": 219600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 219600, "hostname": "cda-server-3", "episode_reward_max": -49.08233276373182}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 45608.537001371384, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -94.56750234999927, "iterations_since_restore": 184, "episodes_total": 4416, "timestamp": 1756440026, "episode_reward_mean": -54.261823213783686, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_06-00-26", "policy_reward_mean": {}, "time_this_iter_s": 241.26468539237976, "episodes_this_iter": 24, "training_iteration": 184, "time_total_s": 45608.537001371384, "info": {"num_steps_sampled": 220800, "num_steps_trained": 220800, "default": {"policy_loss": -0.1134781688451767, "vf_explained_var": 0.9582895636558533, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 6.243759632110596, "entropy": 13.678974151611328, "kl": 0.013173202984035015, "total_loss": 6.143619060516357}, "sample_time_ms": 248827.732, "grad_time_ms": 694.495, "load_time_ms": 1.368, "update_time_ms": 2.567}, "timesteps_total": 220800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 220800, "hostname": "cda-server-3", "episode_reward_max": -49.08233276373182}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 45841.35560679436, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -80.45771722108525, "iterations_since_restore": 185, "episodes_total": 4440, "timestamp": 1756440259, "episode_reward_mean": -53.90100144491721, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_06-04-19", "policy_reward_mean": {}, "time_this_iter_s": 232.81860542297363, "episodes_this_iter": 24, "training_iteration": 185, "time_total_s": 45841.35560679436, "info": {"num_steps_sampled": 222000, "num_steps_trained": 222000, "default": {"policy_loss": -0.12608960270881653, "vf_explained_var": 0.9605620503425598, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 5.352666854858398, "entropy": 13.728774070739746, "kl": 0.016028843820095062, "total_loss": 5.242806911468506}, "sample_time_ms": 247974.951, "grad_time_ms": 694.704, "load_time_ms": 1.354, "update_time_ms": 2.577}, "timesteps_total": 222000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 222000, "hostname": "cda-server-3", "episode_reward_max": -49.08233276373182}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 46075.51358270645, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -103.01053707639123, "iterations_since_restore": 186, "episodes_total": 4464, "timestamp": 1756440493, "episode_reward_mean": -54.77867174185004, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_06-08-13", "policy_reward_mean": {}, "time_this_iter_s": 234.15797591209412, "episodes_this_iter": 24, "training_iteration": 186, "time_total_s": 46075.51358270645, "info": {"num_steps_sampled": 223200, "num_steps_trained": 223200, "default": {"policy_loss": -0.1334741711616516, "vf_explained_var": 0.8342825174331665, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 47.81349563598633, "entropy": 13.694595336914062, "kl": 0.012813089415431023, "total_loss": 47.69300079345703}, "sample_time_ms": 244685.472, "grad_time_ms": 694.641, "load_time_ms": 1.328, "update_time_ms": 2.575}, "timesteps_total": 223200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 223200, "hostname": "cda-server-3", "episode_reward_max": -49.99546774844703}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 46318.27295923233, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -103.01053707639123, "iterations_since_restore": 187, "episodes_total": 4488, "timestamp": 1756440736, "episode_reward_mean": -54.5534802284662, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_06-12-16", "policy_reward_mean": {}, "time_this_iter_s": 242.7593765258789, "episodes_this_iter": 24, "training_iteration": 187, "time_total_s": 46318.27295923233, "info": {"num_steps_sampled": 224400, "num_steps_trained": 224400, "default": {"policy_loss": -0.12978488206863403, "vf_explained_var": 0.9535620212554932, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 6.927732467651367, "entropy": 13.717631340026855, "kl": 0.016308149322867393, "total_loss": 6.814460277557373}, "sample_time_ms": 240951.392, "grad_time_ms": 694.812, "load_time_ms": 1.384, "update_time_ms": 2.555}, "timesteps_total": 224400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 224400, "hostname": "cda-server-3", "episode_reward_max": -49.99546774844703}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 46580.00093770027, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -103.01053707639123, "iterations_since_restore": 188, "episodes_total": 4512, "timestamp": 1756440998, "episode_reward_mean": -54.33199623642102, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_06-16-38", "policy_reward_mean": {}, "time_this_iter_s": 261.7279784679413, "episodes_this_iter": 24, "training_iteration": 188, "time_total_s": 46580.00093770027, "info": {"num_steps_sampled": 225600, "num_steps_trained": 225600, "default": {"policy_loss": -0.14069527387619019, "vf_explained_var": 0.9462458491325378, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 7.247664451599121, "entropy": 13.783607482910156, "kl": 0.017661113291978836, "total_loss": 7.124850749969482}, "sample_time_ms": 241911.574, "grad_time_ms": 695.705, "load_time_ms": 1.292, "update_time_ms": 2.557}, "timesteps_total": 225600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 225600, "hostname": "cda-server-3", "episode_reward_max": -50.05406011084624}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 46799.67392349243, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -103.01053707639123, "iterations_since_restore": 189, "episodes_total": 4536, "timestamp": 1756441217, "episode_reward_mean": -54.52519962590397, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_06-20-17", "policy_reward_mean": {}, "time_this_iter_s": 219.67298579216003, "episodes_this_iter": 24, "training_iteration": 189, "time_total_s": 46799.67392349243, "info": {"num_steps_sampled": 226800, "num_steps_trained": 226800, "default": {"policy_loss": -0.1274680346250534, "vf_explained_var": 0.9378973841667175, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 9.567581176757812, "entropy": 13.739153861999512, "kl": 0.016897717490792274, "total_loss": 9.457221984863281}, "sample_time_ms": 240568.3, "grad_time_ms": 696.809, "load_time_ms": 1.279, "update_time_ms": 2.566}, "timesteps_total": 226800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 226800, "hostname": "cda-server-3", "episode_reward_max": -50.05406011084624}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 47040.63526558876, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -103.01053707639123, "iterations_since_restore": 190, "episodes_total": 4560, "timestamp": 1756441458, "episode_reward_mean": -53.97254179020705, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_06-24-18", "policy_reward_mean": {}, "time_this_iter_s": 240.96134209632874, "episodes_this_iter": 24, "training_iteration": 190, "time_total_s": 47040.63526558876, "info": {"num_steps_sampled": 228000, "num_steps_trained": 228000, "default": {"policy_loss": -0.12781214714050293, "vf_explained_var": 0.9580786824226379, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 6.02968168258667, "entropy": 13.766950607299805, "kl": 0.017274074256420135, "total_loss": 5.9193596839904785}, "sample_time_ms": 239230.328, "grad_time_ms": 697.689, "load_time_ms": 1.28, "update_time_ms": 2.571}, "timesteps_total": 228000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 228000, "hostname": "cda-server-3", "episode_reward_max": -50.59615050914242}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 47280.122878313065, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -101.10936583155627, "iterations_since_restore": 191, "episodes_total": 4584, "timestamp": 1756441698, "episode_reward_mean": -54.279260741314474, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_06-28-18", "policy_reward_mean": {}, "time_this_iter_s": 239.4876127243042, "episodes_this_iter": 24, "training_iteration": 191, "time_total_s": 47280.122878313065, "info": {"num_steps_sampled": 229200, "num_steps_trained": 229200, "default": {"policy_loss": -0.11484278738498688, "vf_explained_var": 0.8638635277748108, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 30.318471908569336, "entropy": 13.744145393371582, "kl": 0.013898147270083427, "total_loss": 30.21769905090332}, "sample_time_ms": 241163.985, "grad_time_ms": 697.753, "load_time_ms": 1.198, "update_time_ms": 2.583}, "timesteps_total": 229200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 229200, "hostname": "cda-server-3", "episode_reward_max": -50.59615050914242}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 47572.10169816017, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -101.10936583155627, "iterations_since_restore": 192, "episodes_total": 4608, "timestamp": 1756441990, "episode_reward_mean": -54.16387812212497, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_06-33-10", "policy_reward_mean": {}, "time_this_iter_s": 291.97881984710693, "episodes_this_iter": 24, "training_iteration": 192, "time_total_s": 47572.10169816017, "info": {"num_steps_sampled": 230400, "num_steps_trained": 230400, "default": {"policy_loss": -0.12756960093975067, "vf_explained_var": 0.9341971278190613, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 9.284131050109863, "entropy": 13.830009460449219, "kl": 0.014379401691257954, "total_loss": 9.171121597290039}, "sample_time_ms": 247086.161, "grad_time_ms": 697.944, "load_time_ms": 1.293, "update_time_ms": 2.578}, "timesteps_total": 230400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 230400, "hostname": "cda-server-3", "episode_reward_max": -50.59615050914242}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 47812.417081832886, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -101.10936583155627, "iterations_since_restore": 193, "episodes_total": 4632, "timestamp": 1756442230, "episode_reward_mean": -53.96007896743721, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_06-37-10", "policy_reward_mean": {}, "time_this_iter_s": 240.31538367271423, "episodes_this_iter": 24, "training_iteration": 193, "time_total_s": 47812.417081832886, "info": {"num_steps_sampled": 231600, "num_steps_trained": 231600, "default": {"policy_loss": -0.12245944887399673, "vf_explained_var": 0.9257941842079163, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 10.380656242370605, "entropy": 13.640023231506348, "kl": 0.015688113868236542, "total_loss": 10.274081230163574}, "sample_time_ms": 243806.656, "grad_time_ms": 698.762, "load_time_ms": 1.389, "update_time_ms": 2.619}, "timesteps_total": 231600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 231600, "hostname": "cda-server-3", "episode_reward_max": -50.59615050914242}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 48095.95903515816, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -101.10936583155627, "iterations_since_restore": 194, "episodes_total": 4656, "timestamp": 1756442514, "episode_reward_mean": -54.306236617855, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_06-41-54", "policy_reward_mean": {}, "time_this_iter_s": 283.5419533252716, "episodes_this_iter": 24, "training_iteration": 194, "time_total_s": 48095.95903515816, "info": {"num_steps_sampled": 232800, "num_steps_trained": 232800, "default": {"policy_loss": -0.1166752278804779, "vf_explained_var": 0.8864515423774719, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 21.87663459777832, "entropy": 13.669998168945312, "kl": 0.013523032888770103, "total_loss": 21.773651123046875}, "sample_time_ms": 248034.822, "grad_time_ms": 698.258, "load_time_ms": 1.439, "update_time_ms": 2.586}, "timesteps_total": 232800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 232800, "hostname": "cda-server-3", "episode_reward_max": -50.90256704987865}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 48327.729848623276, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -89.07687021099098, "iterations_since_restore": 195, "episodes_total": 4680, "timestamp": 1756442746, "episode_reward_mean": -53.548609026782785, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_06-45-46", "policy_reward_mean": {}, "time_this_iter_s": 231.7708134651184, "episodes_this_iter": 24, "training_iteration": 195, "time_total_s": 48327.729848623276, "info": {"num_steps_sampled": 234000, "num_steps_trained": 234000, "default": {"policy_loss": -0.10917246341705322, "vf_explained_var": 0.9413497447967529, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 9.061535835266113, "entropy": 13.525612831115723, "kl": 0.013985957019031048, "total_loss": 8.96652603149414}, "sample_time_ms": 247929.484, "grad_time_ms": 698.848, "load_time_ms": 1.42, "update_time_ms": 2.59}, "timesteps_total": 234000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 234000, "hostname": "cda-server-3", "episode_reward_max": -51.49734124044208}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 48549.923015117645, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -89.07687021099098, "iterations_since_restore": 196, "episodes_total": 4704, "timestamp": 1756442968, "episode_reward_mean": -53.54348130786682, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_06-49-28", "policy_reward_mean": {}, "time_this_iter_s": 222.1931664943695, "episodes_this_iter": 24, "training_iteration": 196, "time_total_s": 48549.923015117645, "info": {"num_steps_sampled": 235200, "num_steps_trained": 235200, "default": {"policy_loss": -0.1291184425354004, "vf_explained_var": 0.949661374092102, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 6.641875267028809, "entropy": 13.663838386535645, "kl": 0.015983549878001213, "total_loss": 6.528940200805664}, "sample_time_ms": 246731.703, "grad_time_ms": 700.173, "load_time_ms": 1.401, "update_time_ms": 2.595}, "timesteps_total": 235200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 235200, "hostname": "cda-server-3", "episode_reward_max": -50.9655152146521}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 48802.114077329636, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -89.07687021099098, "iterations_since_restore": 197, "episodes_total": 4728, "timestamp": 1756443220, "episode_reward_mean": -53.34710076680881, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_06-53-40", "policy_reward_mean": {}, "time_this_iter_s": 252.19106221199036, "episodes_this_iter": 24, "training_iteration": 197, "time_total_s": 48802.114077329636, "info": {"num_steps_sampled": 236400, "num_steps_trained": 236400, "default": {"policy_loss": -0.12881432473659515, "vf_explained_var": 0.9463976621627808, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 7.419828414916992, "entropy": 13.690502166748047, "kl": 0.015713712200522423, "total_loss": 7.306924819946289}, "sample_time_ms": 247675.32, "grad_time_ms": 699.706, "load_time_ms": 1.417, "update_time_ms": 2.593}, "timesteps_total": 236400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 236400, "hostname": "cda-server-3", "episode_reward_max": -49.31600089328854}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 49033.07736849785, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -62.32068669276827, "iterations_since_restore": 198, "episodes_total": 4752, "timestamp": 1756443451, "episode_reward_mean": -53.089172422911425, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_06-57-31", "policy_reward_mean": {}, "time_this_iter_s": 230.9632911682129, "episodes_this_iter": 24, "training_iteration": 198, "time_total_s": 49033.07736849785, "info": {"num_steps_sampled": 237600, "num_steps_trained": 237600, "default": {"policy_loss": -0.1262063831090927, "vf_explained_var": 0.9186666011810303, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 11.172323226928711, "entropy": 13.764321327209473, "kl": 0.014617557637393475, "total_loss": 11.060917854309082}, "sample_time_ms": 244599.413, "grad_time_ms": 698.993, "load_time_ms": 1.506, "update_time_ms": 2.574}, "timesteps_total": 237600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 237600, "hostname": "cda-server-3", "episode_reward_max": -49.31600089328854}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 49260.586948394775, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -62.32068669276827, "iterations_since_restore": 199, "episodes_total": 4776, "timestamp": 1756443678, "episode_reward_mean": -52.896120268548586, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_07-01-18", "policy_reward_mean": {}, "time_this_iter_s": 227.50957989692688, "episodes_this_iter": 24, "training_iteration": 199, "time_total_s": 49260.586948394775, "info": {"num_steps_sampled": 238800, "num_steps_trained": 238800, "default": {"policy_loss": -0.131291925907135, "vf_explained_var": 0.9453469514846802, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 7.727341651916504, "entropy": 13.57127571105957, "kl": 0.016682572662830353, "total_loss": 7.612940311431885}, "sample_time_ms": 245384.726, "grad_time_ms": 697.371, "load_time_ms": 1.513, "update_time_ms": 2.578}, "timesteps_total": 238800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 238800, "hostname": "cda-server-3", "episode_reward_max": -49.2260156024492}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 49541.825184345245, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -63.96882214668029, "iterations_since_restore": 200, "episodes_total": 4800, "timestamp": 1756443960, "episode_reward_mean": -53.008628398442994, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_07-06-00", "policy_reward_mean": {}, "time_this_iter_s": 281.23823595046997, "episodes_this_iter": 24, "training_iteration": 200, "time_total_s": 49541.825184345245, "info": {"num_steps_sampled": 240000, "num_steps_trained": 240000, "default": {"policy_loss": -0.12226442247629166, "vf_explained_var": 0.9560834169387817, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 6.315108776092529, "entropy": 13.709651947021484, "kl": 0.014527440071105957, "total_loss": 6.207553386688232}, "sample_time_ms": 249413.369, "grad_time_ms": 696.563, "load_time_ms": 1.415, "update_time_ms": 2.597}, "timesteps_total": 240000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 240000, "hostname": "cda-server-3", "episode_reward_max": -49.2260156024492}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 49783.74181032181, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -63.96882214668029, "iterations_since_restore": 201, "episodes_total": 4824, "timestamp": 1756444202, "episode_reward_mean": -52.91975331889113, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_07-10-02", "policy_reward_mean": {}, "time_this_iter_s": 241.9166259765625, "episodes_this_iter": 24, "training_iteration": 201, "time_total_s": 49783.74181032181, "info": {"num_steps_sampled": 241200, "num_steps_trained": 241200, "default": {"policy_loss": -0.13792450726032257, "vf_explained_var": 0.9654067158699036, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 4.6045002937316895, "entropy": 13.688363075256348, "kl": 0.015577022917568684, "total_loss": 4.4823479652404785}, "sample_time_ms": 249655.821, "grad_time_ms": 696.887, "load_time_ms": 1.501, "update_time_ms": 2.586}, "timesteps_total": 241200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 241200, "hostname": "cda-server-3", "episode_reward_max": -49.2260156024492}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 50030.31158399582, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -105.25511476379766, "iterations_since_restore": 202, "episodes_total": 4848, "timestamp": 1756444448, "episode_reward_mean": -53.19758526213469, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_07-14-08", "policy_reward_mean": {}, "time_this_iter_s": 246.56977367401123, "episodes_this_iter": 24, "training_iteration": 202, "time_total_s": 50030.31158399582, "info": {"num_steps_sampled": 242400, "num_steps_trained": 242400, "default": {"policy_loss": -0.0947578102350235, "vf_explained_var": 0.8161755204200745, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 43.95417785644531, "entropy": 13.589754104614258, "kl": 0.009557071141898632, "total_loss": 43.86909866333008}, "sample_time_ms": 245114.838, "grad_time_ms": 696.965, "load_time_ms": 1.498, "update_time_ms": 2.586}, "timesteps_total": 242400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 242400, "hostname": "cda-server-3", "episode_reward_max": -48.98603498873693}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 50312.89493370056, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -105.25511476379766, "iterations_since_restore": 203, "episodes_total": 4872, "timestamp": 1756444731, "episode_reward_mean": -53.27160994877568, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_07-18-51", "policy_reward_mean": {}, "time_this_iter_s": 282.58334970474243, "episodes_this_iter": 24, "training_iteration": 203, "time_total_s": 50312.89493370056, "info": {"num_steps_sampled": 243600, "num_steps_trained": 243600, "default": {"policy_loss": -0.12207228690385818, "vf_explained_var": 0.9586093425750732, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 5.939465045928955, "entropy": 13.629680633544922, "kl": 0.016084210947155952, "total_loss": 5.833678245544434}, "sample_time_ms": 249342.276, "grad_time_ms": 696.344, "load_time_ms": 1.497, "update_time_ms": 2.542}, "timesteps_total": 243600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 243600, "hostname": "cda-server-3", "episode_reward_max": -48.98603498873693}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 50540.21925139427, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -105.25511476379766, "iterations_since_restore": 204, "episodes_total": 4896, "timestamp": 1756444958, "episode_reward_mean": -53.370897240358936, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_07-22-38", "policy_reward_mean": {}, "time_this_iter_s": 227.32431769371033, "episodes_this_iter": 24, "training_iteration": 204, "time_total_s": 50540.21925139427, "info": {"num_steps_sampled": 244800, "num_steps_trained": 244800, "default": {"policy_loss": -0.134691059589386, "vf_explained_var": 0.9489078521728516, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 6.949552536010742, "entropy": 13.448970794677734, "kl": 0.017023924738168716, "total_loss": 6.832098007202148}, "sample_time_ms": 243720.45, "grad_time_ms": 696.352, "load_time_ms": 1.522, "update_time_ms": 2.551}, "timesteps_total": 244800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 244800, "hostname": "cda-server-3", "episode_reward_max": -48.98603498873693}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 50779.589007377625, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -105.25511476379766, "iterations_since_restore": 205, "episodes_total": 4920, "timestamp": 1756445197, "episode_reward_mean": -53.458245488786794, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_07-26-37", "policy_reward_mean": {}, "time_this_iter_s": 239.36975598335266, "episodes_this_iter": 24, "training_iteration": 205, "time_total_s": 50779.589007377625, "info": {"num_steps_sampled": 246000, "num_steps_trained": 246000, "default": {"policy_loss": -0.12922601401805878, "vf_explained_var": 0.9597580432891846, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 5.400381088256836, "entropy": 13.406126022338867, "kl": 0.017056623473763466, "total_loss": 5.288424968719482}, "sample_time_ms": 244481.14, "grad_time_ms": 695.513, "load_time_ms": 1.551, "update_time_ms": 2.528}, "timesteps_total": 246000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 246000, "hostname": "cda-server-3", "episode_reward_max": -48.98603498873693}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 51067.62697553635, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -58.935624792842, "iterations_since_restore": 206, "episodes_total": 4944, "timestamp": 1756445486, "episode_reward_mean": -53.01138822250478, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_07-31-26", "policy_reward_mean": {}, "time_this_iter_s": 288.0379681587219, "episodes_this_iter": 24, "training_iteration": 206, "time_total_s": 51067.62697553635, "info": {"num_steps_sampled": 247200, "num_steps_trained": 247200, "default": {"policy_loss": -0.1171593964099884, "vf_explained_var": 0.9476562142372131, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 6.902299880981445, "entropy": 13.519577026367188, "kl": 0.01573404110968113, "total_loss": 6.801071643829346}, "sample_time_ms": 251066.806, "grad_time_ms": 694.24, "load_time_ms": 1.59, "update_time_ms": 2.545}, "timesteps_total": 247200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 247200, "hostname": "cda-server-3", "episode_reward_max": -51.01486236176433}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 51325.64721798897, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -59.954047230685426, "iterations_since_restore": 207, "episodes_total": 4968, "timestamp": 1756445744, "episode_reward_mean": -53.17399045538728, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_07-35-44", "policy_reward_mean": {}, "time_this_iter_s": 258.02024245262146, "episodes_this_iter": 24, "training_iteration": 207, "time_total_s": 51325.64721798897, "info": {"num_steps_sampled": 248400, "num_steps_trained": 248400, "default": {"policy_loss": -0.12967216968536377, "vf_explained_var": 0.9467138648033142, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 7.576404094696045, "entropy": 13.4369478225708, "kl": 0.01681762933731079, "total_loss": 7.4637603759765625}, "sample_time_ms": 251649.088, "grad_time_ms": 694.83, "load_time_ms": 1.601, "update_time_ms": 2.567}, "timesteps_total": 248400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 248400, "hostname": "cda-server-3", "episode_reward_max": -51.01486236176433}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 51613.95212769508, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -61.44569830893842, "iterations_since_restore": 208, "episodes_total": 4992, "timestamp": 1756446032, "episode_reward_mean": -53.11367069586581, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_07-40-32", "policy_reward_mean": {}, "time_this_iter_s": 288.3049097061157, "episodes_this_iter": 24, "training_iteration": 208, "time_total_s": 51613.95212769508, "info": {"num_steps_sampled": 249600, "num_steps_trained": 249600, "default": {"policy_loss": -0.12367913126945496, "vf_explained_var": 0.9593546986579895, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 5.667877674102783, "entropy": 13.433245658874512, "kl": 0.015404744073748589, "total_loss": 5.55979585647583}, "sample_time_ms": 257382.956, "grad_time_ms": 695.117, "load_time_ms": 1.613, "update_time_ms": 2.55}, "timesteps_total": 249600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 249600, "hostname": "cda-server-3", "episode_reward_max": -50.029668242570246}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 51856.40980172157, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -71.96171297636684, "iterations_since_restore": 209, "episodes_total": 5016, "timestamp": 1756446274, "episode_reward_mean": -53.29923892735492, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_07-44-34", "policy_reward_mean": {}, "time_this_iter_s": 242.45767402648926, "episodes_this_iter": 24, "training_iteration": 209, "time_total_s": 51856.40980172157, "info": {"num_steps_sampled": 250800, "num_steps_trained": 250800, "default": {"policy_loss": -0.13099414110183716, "vf_explained_var": 0.9026677012443542, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 15.419004440307617, "entropy": 13.460000991821289, "kl": 0.015934377908706665, "total_loss": 15.304142951965332}, "sample_time_ms": 258877.945, "grad_time_ms": 695.007, "load_time_ms": 1.564, "update_time_ms": 2.538}, "timesteps_total": 250800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 250800, "hostname": "cda-server-3", "episode_reward_max": -48.49890370956543}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 52074.34491252899, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -76.06146106644461, "iterations_since_restore": 210, "episodes_total": 5040, "timestamp": 1756446492, "episode_reward_mean": -53.62399428423448, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_07-48-12", "policy_reward_mean": {}, "time_this_iter_s": 217.93511080741882, "episodes_this_iter": 24, "training_iteration": 210, "time_total_s": 52074.34491252899, "info": {"num_steps_sampled": 252000, "num_steps_trained": 252000, "default": {"policy_loss": -0.12491732090711594, "vf_explained_var": 0.8966451287269592, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 20.819692611694336, "entropy": 13.459056854248047, "kl": 0.014209000393748283, "total_loss": 20.70915985107422}, "sample_time_ms": 252547.281, "grad_time_ms": 695.311, "load_time_ms": 1.597, "update_time_ms": 2.512}, "timesteps_total": 252000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 252000, "hostname": "cda-server-3", "episode_reward_max": -48.49890370956543}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 52310.4198474884, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -88.33545886911972, "iterations_since_restore": 211, "episodes_total": 5064, "timestamp": 1756446728, "episode_reward_mean": -53.6863478223295, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_07-52-08", "policy_reward_mean": {}, "time_this_iter_s": 236.07493495941162, "episodes_this_iter": 24, "training_iteration": 211, "time_total_s": 52310.4198474884, "info": {"num_steps_sampled": 253200, "num_steps_trained": 253200, "default": {"policy_loss": -0.1190461590886116, "vf_explained_var": 0.9395532608032227, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 11.596328735351562, "entropy": 13.170246124267578, "kl": 0.013326210901141167, "total_loss": 11.490775108337402}, "sample_time_ms": 251962.736, "grad_time_ms": 695.664, "load_time_ms": 1.599, "update_time_ms": 2.514}, "timesteps_total": 253200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 253200, "hostname": "cda-server-3", "episode_reward_max": -48.40327379293791}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 52538.71108055115, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -88.33545886911972, "iterations_since_restore": 212, "episodes_total": 5088, "timestamp": 1756446957, "episode_reward_mean": -53.62617516991392, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_07-55-57", "policy_reward_mean": {}, "time_this_iter_s": 228.29123306274414, "episodes_this_iter": 24, "training_iteration": 212, "time_total_s": 52538.71108055115, "info": {"num_steps_sampled": 254400, "num_steps_trained": 254400, "default": {"policy_loss": -0.1376982182264328, "vf_explained_var": 0.9368199110031128, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 9.25528621673584, "entropy": 13.441559791564941, "kl": 0.01579122245311737, "total_loss": 9.133577346801758}, "sample_time_ms": 250135.485, "grad_time_ms": 695.088, "load_time_ms": 1.609, "update_time_ms": 2.514}, "timesteps_total": 254400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 254400, "hostname": "cda-server-3", "episode_reward_max": -48.388893830147204}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 52778.71068429947, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -88.33545886911972, "iterations_since_restore": 213, "episodes_total": 5112, "timestamp": 1756447197, "episode_reward_mean": -54.284821358814376, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_07-59-57", "policy_reward_mean": {}, "time_this_iter_s": 239.99960374832153, "episodes_this_iter": 24, "training_iteration": 213, "time_total_s": 52778.71068429947, "info": {"num_steps_sampled": 255600, "num_steps_trained": 255600, "default": {"policy_loss": -0.13345371186733246, "vf_explained_var": 0.9282054901123047, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 12.236493110656738, "entropy": 13.436868667602539, "kl": 0.01283181644976139, "total_loss": 12.116031646728516}, "sample_time_ms": 245877.083, "grad_time_ms": 695.115, "load_time_ms": 1.61, "update_time_ms": 2.515}, "timesteps_total": 255600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 255600, "hostname": "cda-server-3", "episode_reward_max": -48.388893830147204}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 53024.146672964096, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -88.33545886911972, "iterations_since_restore": 214, "episodes_total": 5136, "timestamp": 1756447442, "episode_reward_mean": -53.82445902246092, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_08-04-02", "policy_reward_mean": {}, "time_this_iter_s": 245.43598866462708, "episodes_this_iter": 24, "training_iteration": 214, "time_total_s": 53024.146672964096, "info": {"num_steps_sampled": 256800, "num_steps_trained": 256800, "default": {"policy_loss": -0.12373081594705582, "vf_explained_var": 0.9054085612297058, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 16.972644805908203, "entropy": 13.323928833007812, "kl": 0.013606571592390537, "total_loss": 16.86269187927246}, "sample_time_ms": 247686.897, "grad_time_ms": 696.479, "load_time_ms": 1.586, "update_time_ms": 2.517}, "timesteps_total": 256800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 256800, "hostname": "cda-server-3", "episode_reward_max": -48.388893830147204}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 53255.89246845245, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -81.13652323493616, "iterations_since_restore": 215, "episodes_total": 5160, "timestamp": 1756447674, "episode_reward_mean": -53.73372533272343, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_08-07-54", "policy_reward_mean": {}, "time_this_iter_s": 231.74579548835754, "episodes_this_iter": 24, "training_iteration": 215, "time_total_s": 53255.89246845245, "info": {"num_steps_sampled": 258000, "num_steps_trained": 258000, "default": {"policy_loss": -0.11627980321645737, "vf_explained_var": 0.9099230170249939, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 14.198071479797363, "entropy": 13.262800216674805, "kl": 0.01339254342019558, "total_loss": 14.095352172851562}, "sample_time_ms": 246925.159, "grad_time_ms": 695.831, "load_time_ms": 1.562, "update_time_ms": 2.554}, "timesteps_total": 258000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 258000, "hostname": "cda-server-3", "episode_reward_max": -48.388893830147204}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 53515.743619441986, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -92.46390703641067, "iterations_since_restore": 216, "episodes_total": 5184, "timestamp": 1756447934, "episode_reward_mean": -53.932576924530615, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_08-12-14", "policy_reward_mean": {}, "time_this_iter_s": 259.85115098953247, "episodes_this_iter": 24, "training_iteration": 216, "time_total_s": 53515.743619441986, "info": {"num_steps_sampled": 259200, "num_steps_trained": 259200, "default": {"policy_loss": -0.12003253400325775, "vf_explained_var": 0.9072751998901367, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 15.475444793701172, "entropy": 13.39101505279541, "kl": 0.013980243355035782, "total_loss": 15.36956787109375}, "sample_time_ms": 244104.479, "grad_time_ms": 697.843, "load_time_ms": 1.577, "update_time_ms": 2.535}, "timesteps_total": 259200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 259200, "hostname": "cda-server-3", "episode_reward_max": -47.03767859697603}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 53759.407838344574, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -92.46390703641067, "iterations_since_restore": 217, "episodes_total": 5208, "timestamp": 1756448177, "episode_reward_mean": -53.47457909992057, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_08-16-17", "policy_reward_mean": {}, "time_this_iter_s": 243.6642189025879, "episodes_this_iter": 24, "training_iteration": 217, "time_total_s": 53759.407838344574, "info": {"num_steps_sampled": 260400, "num_steps_trained": 260400, "default": {"policy_loss": -0.13741131126880646, "vf_explained_var": 0.9654526114463806, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 4.5877685546875, "entropy": 13.240228652954102, "kl": 0.01664682850241661, "total_loss": 4.467211723327637}, "sample_time_ms": 242669.242, "grad_time_ms": 697.574, "load_time_ms": 1.573, "update_time_ms": 2.499}, "timesteps_total": 260400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 260400, "hostname": "cda-server-3", "episode_reward_max": -47.03767859697603}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 53989.52684402466, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -92.46390703641067, "iterations_since_restore": 218, "episodes_total": 5232, "timestamp": 1756448408, "episode_reward_mean": -53.09185593325324, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_08-20-08", "policy_reward_mean": {}, "time_this_iter_s": 230.11900568008423, "episodes_this_iter": 24, "training_iteration": 218, "time_total_s": 53989.52684402466, "info": {"num_steps_sampled": 261600, "num_steps_trained": 261600, "default": {"policy_loss": -0.1212388426065445, "vf_explained_var": 0.9537698030471802, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 6.838181495666504, "entropy": 13.423412322998047, "kl": 0.017338156700134277, "total_loss": 6.7344970703125}, "sample_time_ms": 236850.174, "grad_time_ms": 698.088, "load_time_ms": 1.564, "update_time_ms": 2.498}, "timesteps_total": 261600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 261600, "hostname": "cda-server-3", "episode_reward_max": -47.03767859697603}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 54236.05536913872, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -92.46390703641067, "iterations_since_restore": 219, "episodes_total": 5256, "timestamp": 1756448654, "episode_reward_mean": -53.0488133532636, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_08-24-14", "policy_reward_mean": {}, "time_this_iter_s": 246.52852511405945, "episodes_this_iter": 24, "training_iteration": 219, "time_total_s": 54236.05536913872, "info": {"num_steps_sampled": 262800, "num_steps_trained": 262800, "default": {"policy_loss": -0.12424381822347641, "vf_explained_var": 0.9722467064857483, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 3.777590751647949, "entropy": 13.256404876708984, "kl": 0.016340035945177078, "total_loss": 3.669891357421875}, "sample_time_ms": 237256.053, "grad_time_ms": 699.231, "load_time_ms": 1.612, "update_time_ms": 2.504}, "timesteps_total": 262800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 262800, "hostname": "cda-server-3", "episode_reward_max": -47.03767859697603}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 54476.720437288284, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -59.73112114747605, "iterations_since_restore": 220, "episodes_total": 5280, "timestamp": 1756448895, "episode_reward_mean": -52.58953990415711, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_08-28-15", "policy_reward_mean": {}, "time_this_iter_s": 240.66506814956665, "episodes_this_iter": 24, "training_iteration": 220, "time_total_s": 54476.720437288284, "info": {"num_steps_sampled": 264000, "num_steps_trained": 264000, "default": {"policy_loss": -0.1257346272468567, "vf_explained_var": 0.9700483679771423, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 3.909719705581665, "entropy": 13.458242416381836, "kl": 0.01716863550245762, "total_loss": 3.801368236541748}, "sample_time_ms": 239528.368, "grad_time_ms": 699.809, "load_time_ms": 1.663, "update_time_ms": 2.522}, "timesteps_total": 264000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 264000, "hostname": "cda-server-3", "episode_reward_max": -49.35778091512252}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 54716.46133208275, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -59.73112114747605, "iterations_since_restore": 221, "episodes_total": 5304, "timestamp": 1756449135, "episode_reward_mean": -52.64133109806006, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_08-32-15", "policy_reward_mean": {}, "time_this_iter_s": 239.7408947944641, "episodes_this_iter": 24, "training_iteration": 221, "time_total_s": 54716.46133208275, "info": {"num_steps_sampled": 265200, "num_steps_trained": 265200, "default": {"policy_loss": -0.12260796129703522, "vf_explained_var": 0.9685428142547607, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 4.314360618591309, "entropy": 13.286518096923828, "kl": 0.015742920339107513, "total_loss": 4.207692623138428}, "sample_time_ms": 239897.071, "grad_time_ms": 697.716, "load_time_ms": 1.677, "update_time_ms": 2.503}, "timesteps_total": 265200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 265200, "hostname": "cda-server-3", "episode_reward_max": -49.35778091512252}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 54962.24299144745, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -59.73112114747605, "iterations_since_restore": 222, "episodes_total": 5328, "timestamp": 1756449380, "episode_reward_mean": -52.525968282336315, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_08-36-20", "policy_reward_mean": {}, "time_this_iter_s": 245.78165936470032, "episodes_this_iter": 24, "training_iteration": 222, "time_total_s": 54962.24299144745, "info": {"num_steps_sampled": 266400, "num_steps_trained": 266400, "default": {"policy_loss": -0.12170767784118652, "vf_explained_var": 0.9610524773597717, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 5.0196027755737305, "entropy": 13.212718963623047, "kl": 0.01548507995903492, "total_loss": 4.913573741912842}, "sample_time_ms": 241645.905, "grad_time_ms": 697.901, "load_time_ms": 1.665, "update_time_ms": 2.55}, "timesteps_total": 266400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 266400, "hostname": "cda-server-3", "episode_reward_max": -49.00649469013475}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 55248.51720046997, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -83.55056700243956, "iterations_since_restore": 223, "episodes_total": 5352, "timestamp": 1756449667, "episode_reward_mean": -52.698129910872005, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_08-41-07", "policy_reward_mean": {}, "time_this_iter_s": 286.274209022522, "episodes_this_iter": 24, "training_iteration": 223, "time_total_s": 55248.51720046997, "info": {"num_steps_sampled": 267600, "num_steps_trained": 267600, "default": {"policy_loss": -0.12211109697818756, "vf_explained_var": 0.9223343729972839, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 13.342047691345215, "entropy": 13.361546516418457, "kl": 0.012498829513788223, "total_loss": 13.23259162902832}, "sample_time_ms": 246272.877, "grad_time_ms": 698.403, "load_time_ms": 1.68, "update_time_ms": 2.542}, "timesteps_total": 267600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 267600, "hostname": "cda-server-3", "episode_reward_max": -49.00649469013475}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 55457.6604681015, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -83.55056700243956, "iterations_since_restore": 224, "episodes_total": 5376, "timestamp": 1756449876, "episode_reward_mean": -52.71015166295291, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_08-44-36", "policy_reward_mean": {}, "time_this_iter_s": 209.14326763153076, "episodes_this_iter": 24, "training_iteration": 224, "time_total_s": 55457.6604681015, "info": {"num_steps_sampled": 268800, "num_steps_trained": 268800, "default": {"policy_loss": -0.13790854811668396, "vf_explained_var": 0.9650555849075317, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 4.732025623321533, "entropy": 13.232372283935547, "kl": 0.01659400947391987, "total_loss": 4.610918045043945}, "sample_time_ms": 242643.923, "grad_time_ms": 698.085, "load_time_ms": 1.7, "update_time_ms": 2.541}, "timesteps_total": 268800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 268800, "hostname": "cda-server-3", "episode_reward_max": -49.00649469013475}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 55714.48773908615, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -83.55056700243956, "iterations_since_restore": 225, "episodes_total": 5400, "timestamp": 1756450133, "episode_reward_mean": -52.85868581510861, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_08-48-53", "policy_reward_mean": {}, "time_this_iter_s": 256.82727098464966, "episodes_this_iter": 24, "training_iteration": 225, "time_total_s": 55714.48773908615, "info": {"num_steps_sampled": 270000, "num_steps_trained": 270000, "default": {"policy_loss": -0.13200251758098602, "vf_explained_var": 0.9513610005378723, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 6.916146278381348, "entropy": 13.240900993347168, "kl": 0.016578860580921173, "total_loss": 6.800930023193359}, "sample_time_ms": 245150.936, "grad_time_ms": 699.226, "load_time_ms": 1.708, "update_time_ms": 2.534}, "timesteps_total": 270000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 270000, "hostname": "cda-server-3", "episode_reward_max": -49.00649469013475}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 55974.45828509331, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -83.55056700243956, "iterations_since_restore": 226, "episodes_total": 5424, "timestamp": 1756450393, "episode_reward_mean": -52.82738876249813, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_08-53-13", "policy_reward_mean": {}, "time_this_iter_s": 259.9705460071564, "episodes_this_iter": 24, "training_iteration": 226, "time_total_s": 55974.45828509331, "info": {"num_steps_sampled": 271200, "num_steps_trained": 271200, "default": {"policy_loss": -0.12473750114440918, "vf_explained_var": 0.9689039587974548, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 4.646268844604492, "entropy": 13.287884712219238, "kl": 0.01698196679353714, "total_loss": 4.538724899291992}, "sample_time_ms": 245165.588, "grad_time_ms": 696.612, "load_time_ms": 1.62, "update_time_ms": 2.564}, "timesteps_total": 271200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 271200, "hostname": "cda-server-3", "episode_reward_max": -49.016792454608456}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 56223.66062140465, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -79.4545443855248, "iterations_since_restore": 227, "episodes_total": 5448, "timestamp": 1756450642, "episode_reward_mean": -52.9500375272901, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_08-57-22", "policy_reward_mean": {}, "time_this_iter_s": 249.20233631134033, "episodes_this_iter": 24, "training_iteration": 227, "time_total_s": 56223.66062140465, "info": {"num_steps_sampled": 272400, "num_steps_trained": 272400, "default": {"policy_loss": -0.10819558054208755, "vf_explained_var": 0.8816754817962646, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 23.217864990234375, "entropy": 13.26015853881836, "kl": 0.012501864694058895, "total_loss": 23.12232780456543}, "sample_time_ms": 245719.133, "grad_time_ms": 696.818, "load_time_ms": 1.61, "update_time_ms": 2.574}, "timesteps_total": 272400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 272400, "hostname": "cda-server-3", "episode_reward_max": -49.268852078605434}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 56507.24248743057, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -79.4545443855248, "iterations_since_restore": 228, "episodes_total": 5472, "timestamp": 1756450925, "episode_reward_mean": -52.91810579853349, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_09-02-05", "policy_reward_mean": {}, "time_this_iter_s": 283.5818660259247, "episodes_this_iter": 24, "training_iteration": 228, "time_total_s": 56507.24248743057, "info": {"num_steps_sampled": 273600, "num_steps_trained": 273600, "default": {"policy_loss": -0.10992512106895447, "vf_explained_var": 0.944269597530365, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 7.72075080871582, "entropy": 13.22465705871582, "kl": 0.016507161781191826, "total_loss": 7.627538204193115}, "sample_time_ms": 251065.61, "grad_time_ms": 696.614, "load_time_ms": 1.599, "update_time_ms": 2.572}, "timesteps_total": 273600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 273600, "hostname": "cda-server-3", "episode_reward_max": -49.98911850932992}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 56702.564005851746, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -79.4545443855248, "iterations_since_restore": 229, "episodes_total": 5496, "timestamp": 1756451121, "episode_reward_mean": -52.85347165246375, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_09-05-21", "policy_reward_mean": {}, "time_this_iter_s": 195.3215184211731, "episodes_this_iter": 24, "training_iteration": 229, "time_total_s": 56702.564005851746, "info": {"num_steps_sampled": 274800, "num_steps_trained": 274800, "default": {"policy_loss": -0.1320653110742569, "vf_explained_var": 0.9556113481521606, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 6.415472984313965, "entropy": 13.11414909362793, "kl": 0.016584740951657295, "total_loss": 6.300199508666992}, "sample_time_ms": 245944.854, "grad_time_ms": 696.672, "load_time_ms": 1.598, "update_time_ms": 2.527}, "timesteps_total": 274800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 274800, "hostname": "cda-server-3", "episode_reward_max": -49.98911850932992}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 56951.91757917404, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -79.4545443855248, "iterations_since_restore": 230, "episodes_total": 5520, "timestamp": 1756451370, "episode_reward_mean": -52.92350903145639, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_09-09-30", "policy_reward_mean": {}, "time_this_iter_s": 249.35357332229614, "episodes_this_iter": 24, "training_iteration": 230, "time_total_s": 56951.91757917404, "info": {"num_steps_sampled": 276000, "num_steps_trained": 276000, "default": {"policy_loss": -0.11662941426038742, "vf_explained_var": 0.9661198854446411, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 4.510845184326172, "entropy": 13.191387176513672, "kl": 0.01542899664491415, "total_loss": 4.40983772277832}, "sample_time_ms": 246813.773, "grad_time_ms": 696.606, "load_time_ms": 1.602, "update_time_ms": 2.518}, "timesteps_total": 276000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 276000, "hostname": "cda-server-3", "episode_reward_max": -50.02913413293667}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 57180.85185909271, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -66.7089208892692, "iterations_since_restore": 231, "episodes_total": 5544, "timestamp": 1756451599, "episode_reward_mean": -52.592358692493825, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_09-13-19", "policy_reward_mean": {}, "time_this_iter_s": 228.93427991867065, "episodes_this_iter": 24, "training_iteration": 231, "time_total_s": 57180.85185909271, "info": {"num_steps_sampled": 277200, "num_steps_trained": 277200, "default": {"policy_loss": -0.13687659800052643, "vf_explained_var": 0.9492168426513672, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 6.889738082885742, "entropy": 12.978316307067871, "kl": 0.01719477027654648, "total_loss": 6.770271301269531}, "sample_time_ms": 245731.909, "grad_time_ms": 697.838, "load_time_ms": 1.582, "update_time_ms": 2.513}, "timesteps_total": 277200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 277200, "hostname": "cda-server-3", "episode_reward_max": -49.17351010815454}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 57436.04451966286, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -66.7089208892692, "iterations_since_restore": 232, "episodes_total": 5568, "timestamp": 1756451854, "episode_reward_mean": -52.62568365697358, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_09-17-34", "policy_reward_mean": {}, "time_this_iter_s": 255.19266057014465, "episodes_this_iter": 24, "training_iteration": 232, "time_total_s": 57436.04451966286, "info": {"num_steps_sampled": 278400, "num_steps_trained": 278400, "default": {"policy_loss": -0.14635403454303741, "vf_explained_var": 0.9654095768928528, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 4.514674186706543, "entropy": 13.11203384399414, "kl": 0.016351299360394478, "total_loss": 4.384875774383545}, "sample_time_ms": 246673.487, "grad_time_ms": 697.352, "load_time_ms": 1.581, "update_time_ms": 2.472}, "timesteps_total": 278400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 278400, "hostname": "cda-server-3", "episode_reward_max": -49.17351010815454}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 57669.30855512619, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -66.7089208892692, "iterations_since_restore": 233, "episodes_total": 5592, "timestamp": 1756452087, "episode_reward_mean": -52.547124175309, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_09-21-27", "policy_reward_mean": {}, "time_this_iter_s": 233.26403546333313, "episodes_this_iter": 24, "training_iteration": 233, "time_total_s": 57669.30855512619, "info": {"num_steps_sampled": 279600, "num_steps_trained": 279600, "default": {"policy_loss": -0.14203177392482758, "vf_explained_var": 0.965411901473999, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 4.680802822113037, "entropy": 13.123396873474121, "kl": 0.015472842380404472, "total_loss": 4.554436683654785}, "sample_time_ms": 241372.063, "grad_time_ms": 697.741, "load_time_ms": 1.555, "update_time_ms": 2.509}, "timesteps_total": 279600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 279600, "hostname": "cda-server-3", "episode_reward_max": -49.17351010815454}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 57916.46813702583, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -66.7089208892692, "iterations_since_restore": 234, "episodes_total": 5616, "timestamp": 1756452335, "episode_reward_mean": -52.47950947759737, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_09-25-35", "policy_reward_mean": {}, "time_this_iter_s": 247.15958189964294, "episodes_this_iter": 24, "training_iteration": 234, "time_total_s": 57916.46813702583, "info": {"num_steps_sampled": 280800, "num_steps_trained": 280800, "default": {"policy_loss": -0.1272757351398468, "vf_explained_var": 0.9736604690551758, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 3.4182353019714355, "entropy": 13.120083808898926, "kl": 0.01562454178929329, "total_loss": 3.306779384613037}, "sample_time_ms": 245174.253, "grad_time_ms": 697.181, "load_time_ms": 1.549, "update_time_ms": 2.539}, "timesteps_total": 280800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 280800, "hostname": "cda-server-3", "episode_reward_max": -49.17351010815454}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 58124.95299601555, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -66.7089208892692, "iterations_since_restore": 235, "episodes_total": 5640, "timestamp": 1756452543, "episode_reward_mean": -52.54500402832971, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_09-29-03", "policy_reward_mean": {}, "time_this_iter_s": 208.48485898971558, "episodes_this_iter": 24, "training_iteration": 235, "time_total_s": 58124.95299601555, "info": {"num_steps_sampled": 282000, "num_steps_trained": 282000, "default": {"policy_loss": -0.11984744668006897, "vf_explained_var": 0.9667076468467712, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 4.498193740844727, "entropy": 12.998368263244629, "kl": 0.014812729321420193, "total_loss": 4.393343925476074}, "sample_time_ms": 240340.756, "grad_time_ms": 696.409, "load_time_ms": 1.566, "update_time_ms": 2.515}, "timesteps_total": 282000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 282000, "hostname": "cda-server-3", "episode_reward_max": -49.879847194777106}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 58354.85333657265, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -63.120537966067694, "iterations_since_restore": 236, "episodes_total": 5664, "timestamp": 1756452773, "episode_reward_mean": -52.38867305401343, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_09-32-53", "policy_reward_mean": {}, "time_this_iter_s": 229.9003405570984, "episodes_this_iter": 24, "training_iteration": 236, "time_total_s": 58354.85333657265, "info": {"num_steps_sampled": 283200, "num_steps_trained": 283200, "default": {"policy_loss": -0.12795832753181458, "vf_explained_var": 0.9684709906578064, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 4.145485877990723, "entropy": 12.91740894317627, "kl": 0.01682090386748314, "total_loss": 4.0345587730407715}, "sample_time_ms": 237333.004, "grad_time_ms": 697.025, "load_time_ms": 1.646, "update_time_ms": 2.515}, "timesteps_total": 283200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 283200, "hostname": "cda-server-3", "episode_reward_max": -49.41547090352766}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 58596.74061131477, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -63.120537966067694, "iterations_since_restore": 237, "episodes_total": 5688, "timestamp": 1756453015, "episode_reward_mean": -52.378672504431236, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_09-36-55", "policy_reward_mean": {}, "time_this_iter_s": 241.88727474212646, "episodes_this_iter": 24, "training_iteration": 237, "time_total_s": 58596.74061131477, "info": {"num_steps_sampled": 284400, "num_steps_trained": 284400, "default": {"policy_loss": -0.12086444348096848, "vf_explained_var": 0.9703031182289124, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 4.048018932342529, "entropy": 13.210933685302734, "kl": 0.01684574969112873, "total_loss": 3.944211006164551}, "sample_time_ms": 236600.769, "grad_time_ms": 697.81, "load_time_ms": 1.621, "update_time_ms": 2.511}, "timesteps_total": 284400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 284400, "hostname": "cda-server-3", "episode_reward_max": -49.41547090352766}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 58796.771169900894, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -62.37009129837001, "iterations_since_restore": 238, "episodes_total": 5712, "timestamp": 1756453215, "episode_reward_mean": -52.37850576015482, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_09-40-15", "policy_reward_mean": {}, "time_this_iter_s": 200.0305585861206, "episodes_this_iter": 24, "training_iteration": 238, "time_total_s": 58796.771169900894, "info": {"num_steps_sampled": 285600, "num_steps_trained": 285600, "default": {"policy_loss": -0.1238275095820427, "vf_explained_var": 0.9677734375, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 4.313910484313965, "entropy": 12.92751693725586, "kl": 0.015617319382727146, "total_loss": 4.205895900726318}, "sample_time_ms": 228245.691, "grad_time_ms": 697.581, "load_time_ms": 1.699, "update_time_ms": 2.532}, "timesteps_total": 285600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 285600, "hostname": "cda-server-3", "episode_reward_max": -49.41547090352766}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 59026.676966905594, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -95.4942763001984, "iterations_since_restore": 239, "episodes_total": 5736, "timestamp": 1756453445, "episode_reward_mean": -52.737142631935086, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_09-44-05", "policy_reward_mean": {}, "time_this_iter_s": 229.9057970046997, "episodes_this_iter": 24, "training_iteration": 239, "time_total_s": 59026.676966905594, "info": {"num_steps_sampled": 286800, "num_steps_trained": 286800, "default": {"policy_loss": -0.13358724117279053, "vf_explained_var": 0.9385756254196167, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 12.510951042175293, "entropy": 12.898584365844727, "kl": 0.01375828217715025, "total_loss": 12.391292572021484}, "sample_time_ms": 231704.422, "grad_time_ms": 697.294, "load_time_ms": 1.688, "update_time_ms": 2.559}, "timesteps_total": 286800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 286800, "hostname": "cda-server-3", "episode_reward_max": -49.21767791815008}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 59265.3185608387, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -95.4942763001984, "iterations_since_restore": 240, "episodes_total": 5760, "timestamp": 1756453684, "episode_reward_mean": -52.989287994986306, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_09-48-04", "policy_reward_mean": {}, "time_this_iter_s": 238.64159393310547, "episodes_this_iter": 24, "training_iteration": 240, "time_total_s": 59265.3185608387, "info": {"num_steps_sampled": 288000, "num_steps_trained": 288000, "default": {"policy_loss": -0.12578149139881134, "vf_explained_var": 0.9672372341156006, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 4.648038864135742, "entropy": 12.954557418823242, "kl": 0.01652970165014267, "total_loss": 4.5389933586120605}, "sample_time_ms": 230634.254, "grad_time_ms": 696.269, "load_time_ms": 1.702, "update_time_ms": 2.559}, "timesteps_total": 288000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 288000, "hostname": "cda-server-3", "episode_reward_max": -49.21767791815008}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 59519.89746642113, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -106.44784318134155, "iterations_since_restore": 241, "episodes_total": 5784, "timestamp": 1756453938, "episode_reward_mean": -53.59184756133134, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_09-52-18", "policy_reward_mean": {}, "time_this_iter_s": 254.57890558242798, "episodes_this_iter": 24, "training_iteration": 241, "time_total_s": 59519.89746642113, "info": {"num_steps_sampled": 289200, "num_steps_trained": 289200, "default": {"policy_loss": -0.11200863867998123, "vf_explained_var": 0.9398728609085083, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 11.982730865478516, "entropy": 12.876962661743164, "kl": 0.012609120458364487, "total_loss": 11.883487701416016}, "sample_time_ms": 233197.913, "grad_time_ms": 697.002, "load_time_ms": 1.706, "update_time_ms": 2.571}, "timesteps_total": 289200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 289200, "hostname": "cda-server-3", "episode_reward_max": -49.21767791815008}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 59724.84717440605, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -106.44784318134155, "iterations_since_restore": 242, "episodes_total": 5808, "timestamp": 1756454143, "episode_reward_mean": -53.62086601566846, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_09-55-43", "policy_reward_mean": {}, "time_this_iter_s": 204.94970798492432, "episodes_this_iter": 24, "training_iteration": 242, "time_total_s": 59724.84717440605, "info": {"num_steps_sampled": 290400, "num_steps_trained": 290400, "default": {"policy_loss": -0.12599098682403564, "vf_explained_var": 0.9540507793426514, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 6.292912483215332, "entropy": 12.756505966186523, "kl": 0.015495683066546917, "total_loss": 6.182610511779785}, "sample_time_ms": 228172.987, "grad_time_ms": 697.602, "load_time_ms": 1.711, "update_time_ms": 2.593}, "timesteps_total": 290400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 290400, "hostname": "cda-server-3", "episode_reward_max": -49.21767791815008}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 59956.89122271538, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -106.44784318134155, "iterations_since_restore": 243, "episodes_total": 5832, "timestamp": 1756454375, "episode_reward_mean": -53.901326526581414, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_09-59-35", "policy_reward_mean": {}, "time_this_iter_s": 232.04404830932617, "episodes_this_iter": 24, "training_iteration": 243, "time_total_s": 59956.89122271538, "info": {"num_steps_sampled": 291600, "num_steps_trained": 291600, "default": {"policy_loss": -0.12324307858943939, "vf_explained_var": 0.9141952991485596, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 14.333452224731445, "entropy": 13.002093315124512, "kl": 0.014958103187382221, "total_loss": 14.225353240966797}, "sample_time_ms": 228052.492, "grad_time_ms": 696.181, "load_time_ms": 1.651, "update_time_ms": 2.577}, "timesteps_total": 291600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 291600, "hostname": "cda-server-3", "episode_reward_max": -49.21767791815008}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 60170.40907239914, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -106.44784318134155, "iterations_since_restore": 244, "episodes_total": 5856, "timestamp": 1756454589, "episode_reward_mean": -53.29756909889751, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_10-03-09", "policy_reward_mean": {}, "time_this_iter_s": 213.5178496837616, "episodes_this_iter": 24, "training_iteration": 244, "time_total_s": 60170.40907239914, "info": {"num_steps_sampled": 292800, "num_steps_trained": 292800, "default": {"policy_loss": -0.13375505805015564, "vf_explained_var": 0.97227942943573, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 3.7006442546844482, "entropy": 12.993228912353516, "kl": 0.016853027045726776, "total_loss": 3.5839526653289795}, "sample_time_ms": 224688.31, "grad_time_ms": 696.174, "load_time_ms": 1.645, "update_time_ms": 2.576}, "timesteps_total": 292800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 292800, "hostname": "cda-server-3", "episode_reward_max": -49.240560247852144}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 60411.574466466904, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -76.23910984773836, "iterations_since_restore": 245, "episodes_total": 5880, "timestamp": 1756454830, "episode_reward_mean": -52.81890130686282, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_10-07-10", "policy_reward_mean": {}, "time_this_iter_s": 241.16539406776428, "episodes_this_iter": 24, "training_iteration": 245, "time_total_s": 60411.574466466904, "info": {"num_steps_sampled": 294000, "num_steps_trained": 294000, "default": {"policy_loss": -0.1345943808555603, "vf_explained_var": 0.9743247628211975, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 3.4963855743408203, "entropy": 12.831571578979492, "kl": 0.016198769211769104, "total_loss": 3.378192186355591}, "sample_time_ms": 227954.699, "grad_time_ms": 697.876, "load_time_ms": 1.628, "update_time_ms": 2.576}, "timesteps_total": 294000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 294000, "hostname": "cda-server-3", "episode_reward_max": -49.240560247852144}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 60602.57510614395, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -76.23910984773836, "iterations_since_restore": 246, "episodes_total": 5904, "timestamp": 1756455021, "episode_reward_mean": -52.90135958003802, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_10-10-21", "policy_reward_mean": {}, "time_this_iter_s": 191.00063967704773, "episodes_this_iter": 24, "training_iteration": 246, "time_total_s": 60602.57510614395, "info": {"num_steps_sampled": 295200, "num_steps_trained": 295200, "default": {"policy_loss": -0.1390654593706131, "vf_explained_var": 0.9514430165290833, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 6.642275810241699, "entropy": 12.809523582458496, "kl": 0.018181614577770233, "total_loss": 6.52161979675293}, "sample_time_ms": 224064.105, "grad_time_ms": 698.505, "load_time_ms": 1.624, "update_time_ms": 2.565}, "timesteps_total": 295200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 295200, "hostname": "cda-server-3", "episode_reward_max": -49.240560247852144}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 60830.046969652176, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -65.48786138168421, "iterations_since_restore": 247, "episodes_total": 5928, "timestamp": 1756455248, "episode_reward_mean": -52.881967742395965, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_10-14-08", "policy_reward_mean": {}, "time_this_iter_s": 227.4718635082245, "episodes_this_iter": 24, "training_iteration": 247, "time_total_s": 60830.046969652176, "info": {"num_steps_sampled": 296400, "num_steps_trained": 296400, "default": {"policy_loss": -0.13701820373535156, "vf_explained_var": 0.9588128328323364, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 5.714297771453857, "entropy": 12.85362720489502, "kl": 0.017220674082636833, "total_loss": 5.594715595245361}, "sample_time_ms": 222621.545, "grad_time_ms": 699.502, "load_time_ms": 1.664, "update_time_ms": 2.558}, "timesteps_total": 296400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 296400, "hostname": "cda-server-3", "episode_reward_max": -51.05344091696414}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 61065.82716369629, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -65.48786138168421, "iterations_since_restore": 248, "episodes_total": 5952, "timestamp": 1756455484, "episode_reward_mean": -52.927681770163744, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_10-18-04", "policy_reward_mean": {}, "time_this_iter_s": 235.78019404411316, "episodes_this_iter": 24, "training_iteration": 248, "time_total_s": 61065.82716369629, "info": {"num_steps_sampled": 297600, "num_steps_trained": 297600, "default": {"policy_loss": -0.1399531066417694, "vf_explained_var": 0.9703459143638611, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 4.2092742919921875, "entropy": 12.845855712890625, "kl": 0.01608450338244438, "total_loss": 4.085606575012207}, "sample_time_ms": 226196.996, "grad_time_ms": 699.192, "load_time_ms": 1.588, "update_time_ms": 2.532}, "timesteps_total": 297600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 297600, "hostname": "cda-server-3", "episode_reward_max": -51.05344091696414}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 61246.74543738365, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -65.48786138168421, "iterations_since_restore": 249, "episodes_total": 5976, "timestamp": 1756455665, "episode_reward_mean": -52.78914995655172, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_10-21-05", "policy_reward_mean": {}, "time_this_iter_s": 180.91827368736267, "episodes_this_iter": 24, "training_iteration": 249, "time_total_s": 61246.74543738365, "info": {"num_steps_sampled": 298800, "num_steps_trained": 298800, "default": {"policy_loss": -0.11524263024330139, "vf_explained_var": 0.9645593166351318, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 4.863693714141846, "entropy": 12.834324836730957, "kl": 0.01413909625262022, "total_loss": 4.762767314910889}, "sample_time_ms": 221299.41, "grad_time_ms": 698.133, "load_time_ms": 1.508, "update_time_ms": 2.56}, "timesteps_total": 298800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 298800, "hostname": "cda-server-3", "episode_reward_max": -50.57447261648545}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 61500.9609041214, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -70.8772337757874, "iterations_since_restore": 250, "episodes_total": 6000, "timestamp": 1756455919, "episode_reward_mean": -52.827164561053394, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_10-25-19", "policy_reward_mean": {}, "time_this_iter_s": 254.2154667377472, "episodes_this_iter": 24, "training_iteration": 250, "time_total_s": 61500.9609041214, "info": {"num_steps_sampled": 300000, "num_steps_trained": 300000, "default": {"policy_loss": -0.12152360379695892, "vf_explained_var": 0.9502347111701965, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 8.935587882995605, "entropy": 12.682344436645508, "kl": 0.01290571317076683, "total_loss": 8.827131271362305}, "sample_time_ms": 222856.172, "grad_time_ms": 698.697, "load_time_ms": 1.507, "update_time_ms": 2.556}, "timesteps_total": 300000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 300000, "hostname": "cda-server-3", "episode_reward_max": -49.381404257923435}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 61727.96933889389, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -80.43938479448286, "iterations_since_restore": 251, "episodes_total": 6024, "timestamp": 1756456146, "episode_reward_mean": -52.932297495206534, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_10-29-06", "policy_reward_mean": {}, "time_this_iter_s": 227.00843477249146, "episodes_this_iter": 24, "training_iteration": 251, "time_total_s": 61727.96933889389, "info": {"num_steps_sampled": 301200, "num_steps_trained": 301200, "default": {"policy_loss": -0.124129518866539, "vf_explained_var": 0.9445521831512451, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 9.515353202819824, "entropy": 12.694993019104004, "kl": 0.013231638818979263, "total_loss": 9.404621124267578}, "sample_time_ms": 220099.801, "grad_time_ms": 698.036, "load_time_ms": 1.503, "update_time_ms": 2.569}, "timesteps_total": 301200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 301200, "hostname": "cda-server-3", "episode_reward_max": -49.381404257923435}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 61935.81016087532, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -83.02410042439696, "iterations_since_restore": 252, "episodes_total": 6048, "timestamp": 1756456354, "episode_reward_mean": -53.23362229005515, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_10-32-34", "policy_reward_mean": {}, "time_this_iter_s": 207.84082198143005, "episodes_this_iter": 24, "training_iteration": 252, "time_total_s": 61935.81016087532, "info": {"num_steps_sampled": 302400, "num_steps_trained": 302400, "default": {"policy_loss": -0.1158803403377533, "vf_explained_var": 0.8811068534851074, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 23.63001823425293, "entropy": 12.623221397399902, "kl": 0.012091527692973614, "total_loss": 23.52638053894043}, "sample_time_ms": 220389.057, "grad_time_ms": 698.046, "load_time_ms": 1.442, "update_time_ms": 2.575}, "timesteps_total": 302400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 302400, "hostname": "cda-server-3", "episode_reward_max": -48.46283934118226}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 62156.379033088684, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -83.02410042439696, "iterations_since_restore": 253, "episodes_total": 6072, "timestamp": 1756456575, "episode_reward_mean": -53.11197609884594, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_10-36-15", "policy_reward_mean": {}, "time_this_iter_s": 220.56887221336365, "episodes_this_iter": 24, "training_iteration": 253, "time_total_s": 62156.379033088684, "info": {"num_steps_sampled": 303600, "num_steps_trained": 303600, "default": {"policy_loss": -0.12129177153110504, "vf_explained_var": 0.9589307308197021, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 5.636325836181641, "entropy": 12.391603469848633, "kl": 0.016065770760178566, "total_loss": 5.531301021575928}, "sample_time_ms": 219241.656, "grad_time_ms": 697.976, "load_time_ms": 1.409, "update_time_ms": 2.556}, "timesteps_total": 303600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 303600, "hostname": "cda-server-3", "episode_reward_max": -48.46283934118226}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 62395.67424201965, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -83.02410042439696, "iterations_since_restore": 254, "episodes_total": 6096, "timestamp": 1756456814, "episode_reward_mean": -52.897401643507685, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_10-40-14", "policy_reward_mean": {}, "time_this_iter_s": 239.29520893096924, "episodes_this_iter": 24, "training_iteration": 254, "time_total_s": 62395.67424201965, "info": {"num_steps_sampled": 304800, "num_steps_trained": 304800, "default": {"policy_loss": -0.13790710270404816, "vf_explained_var": 0.9639573693275452, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 4.655649185180664, "entropy": 12.867449760437012, "kl": 0.016777753829956055, "total_loss": 4.53472900390625}, "sample_time_ms": 221819.661, "grad_time_ms": 697.707, "load_time_ms": 1.409, "update_time_ms": 2.544}, "timesteps_total": 304800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 304800, "hostname": "cda-server-3", "episode_reward_max": -46.975067536221076}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 62574.46407747269, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -83.02410042439696, "iterations_since_restore": 255, "episodes_total": 6120, "timestamp": 1756456993, "episode_reward_mean": -53.09295997154534, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_10-43-13", "policy_reward_mean": {}, "time_this_iter_s": 178.78983545303345, "episodes_this_iter": 24, "training_iteration": 255, "time_total_s": 62574.46407747269, "info": {"num_steps_sampled": 306000, "num_steps_trained": 306000, "default": {"policy_loss": -0.1259656399488449, "vf_explained_var": 0.9383307695388794, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 10.441603660583496, "entropy": 12.83752727508545, "kl": 0.012530826032161713, "total_loss": 10.328326225280762}, "sample_time_ms": 215582.737, "grad_time_ms": 697.005, "load_time_ms": 1.445, "update_time_ms": 2.567}, "timesteps_total": 306000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 306000, "hostname": "cda-server-3", "episode_reward_max": -46.975067536221076}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 62805.72783088684, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -83.02410042439696, "iterations_since_restore": 256, "episodes_total": 6144, "timestamp": 1756457224, "episode_reward_mean": -52.69068645877551, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_10-47-04", "policy_reward_mean": {}, "time_this_iter_s": 231.26375341415405, "episodes_this_iter": 24, "training_iteration": 256, "time_total_s": 62805.72783088684, "info": {"num_steps_sampled": 307200, "num_steps_trained": 307200, "default": {"policy_loss": -0.11372081190347672, "vf_explained_var": 0.9600616097450256, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 5.309256553649902, "entropy": 12.717082977294922, "kl": 0.015648726373910904, "total_loss": 5.211379528045654}, "sample_time_ms": 219609.757, "grad_time_ms": 696.257, "load_time_ms": 1.456, "update_time_ms": 2.573}, "timesteps_total": 307200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 307200, "hostname": "cda-server-3", "episode_reward_max": -46.975067536221076}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 63022.77389717102, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -76.95679255815752, "iterations_since_restore": 257, "episodes_total": 6168, "timestamp": 1756457441, "episode_reward_mean": -52.35233045584228, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_10-50-41", "policy_reward_mean": {}, "time_this_iter_s": 217.0460662841797, "episodes_this_iter": 24, "training_iteration": 257, "time_total_s": 63022.77389717102, "info": {"num_steps_sampled": 308400, "num_steps_trained": 308400, "default": {"policy_loss": -0.14049550890922546, "vf_explained_var": 0.9665980935096741, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 4.424448490142822, "entropy": 12.783870697021484, "kl": 0.015212688595056534, "total_loss": 4.299355983734131}, "sample_time_ms": 218569.116, "grad_time_ms": 694.29, "load_time_ms": 1.439, "update_time_ms": 2.611}, "timesteps_total": 308400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 308400, "hostname": "cda-server-3", "episode_reward_max": -46.975067536221076}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 63204.996910095215, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -76.95679255815752, "iterations_since_restore": 258, "episodes_total": 6192, "timestamp": 1756457623, "episode_reward_mean": -52.605614783542904, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_10-53-43", "policy_reward_mean": {}, "time_this_iter_s": 182.22301292419434, "episodes_this_iter": 24, "training_iteration": 258, "time_total_s": 63204.996910095215, "info": {"num_steps_sampled": 309600, "num_steps_trained": 309600, "default": {"policy_loss": -0.11564840376377106, "vf_explained_var": 0.9276121854782104, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 11.025399208068848, "entropy": 12.666180610656738, "kl": 0.01288242544978857, "total_loss": 10.922794342041016}, "sample_time_ms": 213212.693, "grad_time_ms": 695.016, "load_time_ms": 1.456, "update_time_ms": 2.624}, "timesteps_total": 309600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 309600, "hostname": "cda-server-3", "episode_reward_max": -48.96675049775499}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 63413.304302453995, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -79.38376949820108, "iterations_since_restore": 259, "episodes_total": 6216, "timestamp": 1756457832, "episode_reward_mean": -52.79132498828461, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_10-57-12", "policy_reward_mean": {}, "time_this_iter_s": 208.3073923587799, "episodes_this_iter": 24, "training_iteration": 259, "time_total_s": 63413.304302453995, "info": {"num_steps_sampled": 310800, "num_steps_trained": 310800, "default": {"policy_loss": -0.13469654321670532, "vf_explained_var": 0.9125310182571411, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 14.25716781616211, "entropy": 12.729401588439941, "kl": 0.014358220621943474, "total_loss": 14.13701057434082}, "sample_time_ms": 215951.335, "grad_time_ms": 695.194, "load_time_ms": 1.538, "update_time_ms": 2.573}, "timesteps_total": 310800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 310800, "hostname": "cda-server-3", "episode_reward_max": -48.96675049775499}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 63619.37710595131, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -79.38376949820108, "iterations_since_restore": 260, "episodes_total": 6240, "timestamp": 1756458038, "episode_reward_mean": -53.09396680432882, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_11-00-38", "policy_reward_mean": {}, "time_this_iter_s": 206.07280349731445, "episodes_this_iter": 24, "training_iteration": 260, "time_total_s": 63619.37710595131, "info": {"num_steps_sampled": 312000, "num_steps_trained": 312000, "default": {"policy_loss": -0.12505127489566803, "vf_explained_var": 0.9432923197746277, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 9.74711799621582, "entropy": 12.539690017700195, "kl": 0.013607031665742397, "total_loss": 9.635843276977539}, "sample_time_ms": 211137.637, "grad_time_ms": 694.838, "load_time_ms": 1.436, "update_time_ms": 2.583}, "timesteps_total": 312000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 312000, "hostname": "cda-server-3", "episode_reward_max": -48.96675049775499}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 63809.00711917877, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -79.38376949820108, "iterations_since_restore": 261, "episodes_total": 6264, "timestamp": 1756458227, "episode_reward_mean": -53.28716145224107, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_11-03-47", "policy_reward_mean": {}, "time_this_iter_s": 189.63001322746277, "episodes_this_iter": 24, "training_iteration": 261, "time_total_s": 63809.00711917877, "info": {"num_steps_sampled": 313200, "num_steps_trained": 313200, "default": {"policy_loss": -0.12509626150131226, "vf_explained_var": 0.9446278810501099, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 8.04684829711914, "entropy": 12.705997467041016, "kl": 0.014072345569729805, "total_loss": 7.936000347137451}, "sample_time_ms": 207399.587, "grad_time_ms": 695.059, "load_time_ms": 1.451, "update_time_ms": 2.572}, "timesteps_total": 313200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 313200, "hostname": "cda-server-3", "episode_reward_max": -49.004492976462004}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 64035.38051056862, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -79.38376949820108, "iterations_since_restore": 262, "episodes_total": 6288, "timestamp": 1756458454, "episode_reward_mean": -53.4176266055403, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_11-07-34", "policy_reward_mean": {}, "time_this_iter_s": 226.3733913898468, "episodes_this_iter": 24, "training_iteration": 262, "time_total_s": 64035.38051056862, "info": {"num_steps_sampled": 314400, "num_steps_trained": 314400, "default": {"policy_loss": -0.13777390122413635, "vf_explained_var": 0.9654431939125061, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 4.891932964324951, "entropy": 12.455157279968262, "kl": 0.015701068565249443, "total_loss": 4.770056247711182}, "sample_time_ms": 209252.26, "grad_time_ms": 695.58, "load_time_ms": 1.509, "update_time_ms": 2.548}, "timesteps_total": 314400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 314400, "hostname": "cda-server-3", "episode_reward_max": -49.004492976462004}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 64277.10109376907, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -83.8225622835028, "iterations_since_restore": 263, "episodes_total": 6312, "timestamp": 1756458696, "episode_reward_mean": -53.768203859822826, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_11-11-36", "policy_reward_mean": {}, "time_this_iter_s": 241.7205832004547, "episodes_this_iter": 24, "training_iteration": 263, "time_total_s": 64277.10109376907, "info": {"num_steps_sampled": 315600, "num_steps_trained": 315600, "default": {"policy_loss": -0.11208131909370422, "vf_explained_var": 0.8933252692222595, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 17.854284286499023, "entropy": 12.356292724609375, "kl": 0.01158389076590538, "total_loss": 17.753929138183594}, "sample_time_ms": 211366.547, "grad_time_ms": 696.315, "load_time_ms": 1.607, "update_time_ms": 2.583}, "timesteps_total": 315600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 315600, "hostname": "cda-server-3", "episode_reward_max": -49.782612914095786}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 64485.63278698921, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -83.8225622835028, "iterations_since_restore": 264, "episodes_total": 6336, "timestamp": 1756458904, "episode_reward_mean": -53.170355109342026, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_11-15-04", "policy_reward_mean": {}, "time_this_iter_s": 208.53169322013855, "episodes_this_iter": 24, "training_iteration": 264, "time_total_s": 64485.63278698921, "info": {"num_steps_sampled": 316800, "num_steps_trained": 316800, "default": {"policy_loss": -0.14228513836860657, "vf_explained_var": 0.9692507982254028, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 4.200347900390625, "entropy": 12.575531005859375, "kl": 0.01658741384744644, "total_loss": 4.074857711791992}, "sample_time_ms": 208290.047, "grad_time_ms": 696.472, "load_time_ms": 1.609, "update_time_ms": 2.566}, "timesteps_total": 316800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 316800, "hostname": "cda-server-3", "episode_reward_max": -50.16941653944491}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 64703.80116915703, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -83.8225622835028, "iterations_since_restore": 265, "episodes_total": 6360, "timestamp": 1756459122, "episode_reward_mean": -53.07160473149186, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_11-18-42", "policy_reward_mean": {}, "time_this_iter_s": 218.16838216781616, "episodes_this_iter": 24, "training_iteration": 265, "time_total_s": 64703.80116915703, "info": {"num_steps_sampled": 318000, "num_steps_trained": 318000, "default": {"policy_loss": -0.13435477018356323, "vf_explained_var": 0.9649702906608582, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 4.764406681060791, "entropy": 12.417465209960938, "kl": 0.015358511358499527, "total_loss": 4.645602703094482}, "sample_time_ms": 212228.495, "grad_time_ms": 695.929, "load_time_ms": 1.58, "update_time_ms": 2.549}, "timesteps_total": 318000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 318000, "hostname": "cda-server-3", "episode_reward_max": -46.99046521985731}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 64931.42123794556, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -83.8225622835028, "iterations_since_restore": 266, "episodes_total": 6384, "timestamp": 1756459350, "episode_reward_mean": -52.872884910836525, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_11-22-30", "policy_reward_mean": {}, "time_this_iter_s": 227.62006878852844, "episodes_this_iter": 24, "training_iteration": 266, "time_total_s": 64931.42123794556, "info": {"num_steps_sampled": 319200, "num_steps_trained": 319200, "default": {"policy_loss": -0.12467009574174881, "vf_explained_var": 0.97074294090271, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 3.9884033203125, "entropy": 12.425530433654785, "kl": 0.01615087501704693, "total_loss": 3.8800861835479736}, "sample_time_ms": 211864.165, "grad_time_ms": 696.02, "load_time_ms": 1.503, "update_time_ms": 2.543}, "timesteps_total": 319200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 319200, "hostname": "cda-server-3", "episode_reward_max": -46.99046521985731}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 65124.32090330124, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -63.57036311703964, "iterations_since_restore": 267, "episodes_total": 6408, "timestamp": 1756459543, "episode_reward_mean": -52.37472990453051, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_11-25-43", "policy_reward_mean": {}, "time_this_iter_s": 192.89966535568237, "episodes_this_iter": 24, "training_iteration": 267, "time_total_s": 65124.32090330124, "info": {"num_steps_sampled": 320400, "num_steps_trained": 320400, "default": {"policy_loss": -0.13256537914276123, "vf_explained_var": 0.957770586013794, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 5.696261405944824, "entropy": 12.094939231872559, "kl": 0.016220351681113243, "total_loss": 5.580119609832764}, "sample_time_ms": 209449.156, "grad_time_ms": 696.343, "load_time_ms": 1.515, "update_time_ms": 2.54}, "timesteps_total": 320400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 320400, "hostname": "cda-server-3", "episode_reward_max": -46.99046521985731}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 65352.82435941696, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -63.57036311703964, "iterations_since_restore": 268, "episodes_total": 6432, "timestamp": 1756459771, "episode_reward_mean": -52.32770520567257, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_11-29-31", "policy_reward_mean": {}, "time_this_iter_s": 228.50345611572266, "episodes_this_iter": 24, "training_iteration": 268, "time_total_s": 65352.82435941696, "info": {"num_steps_sampled": 321600, "num_steps_trained": 321600, "default": {"policy_loss": -0.13483382761478424, "vf_explained_var": 0.9603874683380127, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 5.443893909454346, "entropy": 12.340784072875977, "kl": 0.015873024240136147, "total_loss": 5.325130939483643}, "sample_time_ms": 214077.564, "grad_time_ms": 695.929, "load_time_ms": 1.495, "update_time_ms": 2.539}, "timesteps_total": 321600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 321600, "hostname": "cda-server-3", "episode_reward_max": -46.99046521985731}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 65557.31867551804, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -63.57036311703964, "iterations_since_restore": 269, "episodes_total": 6456, "timestamp": 1756459976, "episode_reward_mean": -52.411166516284226, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_11-32-56", "policy_reward_mean": {}, "time_this_iter_s": 204.49431610107422, "episodes_this_iter": 24, "training_iteration": 269, "time_total_s": 65557.31867551804, "info": {"num_steps_sampled": 322800, "num_steps_trained": 322800, "default": {"policy_loss": -0.14043231308460236, "vf_explained_var": 0.9675581455230713, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 4.18639612197876, "entropy": 12.402804374694824, "kl": 0.018088258802890778, "total_loss": 4.064278602600098}, "sample_time_ms": 213695.485, "grad_time_ms": 696.66, "load_time_ms": 1.494, "update_time_ms": 2.578}, "timesteps_total": 322800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 322800, "hostname": "cda-server-3", "episode_reward_max": -49.284212041297145}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 65765.64012217522, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -84.43411533360964, "iterations_since_restore": 270, "episodes_total": 6480, "timestamp": 1756460184, "episode_reward_mean": -52.88237131219012, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_11-36-24", "policy_reward_mean": {}, "time_this_iter_s": 208.3214466571808, "episodes_this_iter": 24, "training_iteration": 270, "time_total_s": 65765.64012217522, "info": {"num_steps_sampled": 324000, "num_steps_trained": 324000, "default": {"policy_loss": -0.1212284192442894, "vf_explained_var": 0.9362192153930664, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 11.846854209899902, "entropy": 12.34295654296875, "kl": 0.01328012440353632, "total_loss": 11.7390718460083}, "sample_time_ms": 213920.267, "grad_time_ms": 696.66, "load_time_ms": 1.539, "update_time_ms": 2.571}, "timesteps_total": 324000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 324000, "hostname": "cda-server-3", "episode_reward_max": -49.284212041297145}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 65988.13902163506, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -84.43411533360964, "iterations_since_restore": 271, "episodes_total": 6504, "timestamp": 1756460407, "episode_reward_mean": -52.73400011488515, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_11-40-07", "policy_reward_mean": {}, "time_this_iter_s": 222.49889945983887, "episodes_this_iter": 24, "training_iteration": 271, "time_total_s": 65988.13902163506, "info": {"num_steps_sampled": 325200, "num_steps_trained": 325200, "default": {"policy_loss": -0.12005000561475754, "vf_explained_var": 0.9790047407150269, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 2.753878593444824, "entropy": 12.271784782409668, "kl": 0.017051290720701218, "total_loss": 2.651093006134033}, "sample_time_ms": 217207.977, "grad_time_ms": 696.019, "load_time_ms": 1.434, "update_time_ms": 2.564}, "timesteps_total": 325200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 325200, "hostname": "cda-server-3", "episode_reward_max": -49.284212041297145}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 66196.45666050911, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -84.43411533360964, "iterations_since_restore": 272, "episodes_total": 6528, "timestamp": 1756460615, "episode_reward_mean": -53.14926512060034, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_11-43-35", "policy_reward_mean": {}, "time_this_iter_s": 208.31763887405396, "episodes_this_iter": 24, "training_iteration": 272, "time_total_s": 66196.45666050911, "info": {"num_steps_sampled": 326400, "num_steps_trained": 326400, "default": {"policy_loss": -0.12172228842973709, "vf_explained_var": 0.941199004650116, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 8.98120403289795, "entropy": 12.484696388244629, "kl": 0.015201661735773087, "total_loss": 8.874873161315918}, "sample_time_ms": 215402.317, "grad_time_ms": 696.168, "load_time_ms": 1.386, "update_time_ms": 2.557}, "timesteps_total": 326400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 326400, "hostname": "cda-server-3", "episode_reward_max": -50.37665546265208}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 66390.12393069267, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -84.43411533360964, "iterations_since_restore": 273, "episodes_total": 6552, "timestamp": 1756460809, "episode_reward_mean": -53.24081358545004, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_11-46-49", "policy_reward_mean": {}, "time_this_iter_s": 193.66727018356323, "episodes_this_iter": 24, "training_iteration": 273, "time_total_s": 66390.12393069267, "info": {"num_steps_sampled": 327600, "num_steps_trained": 327600, "default": {"policy_loss": -0.1288047730922699, "vf_explained_var": 0.9695960283279419, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 4.136238098144531, "entropy": 12.348140716552734, "kl": 0.016651269048452377, "total_loss": 4.024292945861816}, "sample_time_ms": 210596.173, "grad_time_ms": 696.955, "load_time_ms": 1.392, "update_time_ms": 2.56}, "timesteps_total": 327600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 327600, "hostname": "cda-server-3", "episode_reward_max": -50.37665546265208}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 66652.66490268707, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -78.3542301798375, "iterations_since_restore": 274, "episodes_total": 6576, "timestamp": 1756461071, "episode_reward_mean": -52.8686931909312, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_11-51-11", "policy_reward_mean": {}, "time_this_iter_s": 262.5409719944, "episodes_this_iter": 24, "training_iteration": 274, "time_total_s": 66652.66490268707, "info": {"num_steps_sampled": 328800, "num_steps_trained": 328800, "default": {"policy_loss": -0.140442356467247, "vf_explained_var": 0.96639484167099, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 4.548933506011963, "entropy": 12.452632904052734, "kl": 0.018309663981199265, "total_loss": 4.427030086517334}, "sample_time_ms": 215996.626, "grad_time_ms": 697.463, "load_time_ms": 1.403, "update_time_ms": 2.545}, "timesteps_total": 328800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 328800, "hostname": "cda-server-3", "episode_reward_max": -50.37665546265208}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 66875.22850847244, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -78.3542301798375, "iterations_since_restore": 275, "episodes_total": 6600, "timestamp": 1756461294, "episode_reward_mean": -52.76412100550012, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_11-54-54", "policy_reward_mean": {}, "time_this_iter_s": 222.56360578536987, "episodes_this_iter": 24, "training_iteration": 275, "time_total_s": 66875.22850847244, "info": {"num_steps_sampled": 330000, "num_steps_trained": 330000, "default": {"policy_loss": -0.13039201498031616, "vf_explained_var": 0.9707435965538025, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 3.792579174041748, "entropy": 12.545645713806152, "kl": 0.017142174765467644, "total_loss": 3.6795437335968018}, "sample_time_ms": 216436.407, "grad_time_ms": 697.167, "load_time_ms": 1.409, "update_time_ms": 2.529}, "timesteps_total": 330000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 330000, "hostname": "cda-server-3", "episode_reward_max": -50.67591107693649}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 67104.32276844978, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -71.39806989782852, "iterations_since_restore": 276, "episodes_total": 6624, "timestamp": 1756461523, "episode_reward_mean": -52.62207614615324, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_11-58-43", "policy_reward_mean": {}, "time_this_iter_s": 229.0942599773407, "episodes_this_iter": 24, "training_iteration": 276, "time_total_s": 67104.32276844978, "info": {"num_steps_sampled": 331200, "num_steps_trained": 331200, "default": {"policy_loss": -0.1321687251329422, "vf_explained_var": 0.9725034236907959, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 4.033144474029541, "entropy": 12.464203834533691, "kl": 0.01608506217598915, "total_loss": 3.917262077331543}, "sample_time_ms": 216582.319, "grad_time_ms": 698.56, "load_time_ms": 1.5, "update_time_ms": 2.511}, "timesteps_total": 331200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 331200, "hostname": "cda-server-3", "episode_reward_max": -50.67591107693649}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 67301.52805280685, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -86.9196750907215, "iterations_since_restore": 277, "episodes_total": 6648, "timestamp": 1756461720, "episode_reward_mean": -53.180265980102625, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_12-02-00", "policy_reward_mean": {}, "time_this_iter_s": 197.20528435707092, "episodes_this_iter": 24, "training_iteration": 277, "time_total_s": 67301.52805280685, "info": {"num_steps_sampled": 332400, "num_steps_trained": 332400, "default": {"policy_loss": -0.1267719715833664, "vf_explained_var": 0.9339027404785156, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 13.914371490478516, "entropy": 12.239913940429688, "kl": 0.014391104690730572, "total_loss": 13.80217170715332}, "sample_time_ms": 217012.603, "grad_time_ms": 698.911, "load_time_ms": 1.494, "update_time_ms": 2.502}, "timesteps_total": 332400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 332400, "hostname": "cda-server-3", "episode_reward_max": -49.05128504421615}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 67517.49462890625, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -86.9196750907215, "iterations_since_restore": 278, "episodes_total": 6672, "timestamp": 1756461936, "episode_reward_mean": -53.126583249710436, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_12-05-36", "policy_reward_mean": {}, "time_this_iter_s": 215.96657609939575, "episodes_this_iter": 24, "training_iteration": 278, "time_total_s": 67517.49462890625, "info": {"num_steps_sampled": 333600, "num_steps_trained": 333600, "default": {"policy_loss": -0.1337561011314392, "vf_explained_var": 0.957696259021759, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 6.064571380615234, "entropy": 12.279397964477539, "kl": 0.01595686562359333, "total_loss": 5.946971893310547}, "sample_time_ms": 215758.99, "grad_time_ms": 698.815, "load_time_ms": 1.508, "update_time_ms": 2.525}, "timesteps_total": 333600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 333600, "hostname": "cda-server-3", "episode_reward_max": -49.05128504421615}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 67772.74753212929, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -86.9196750907215, "iterations_since_restore": 279, "episodes_total": 6696, "timestamp": 1756462191, "episode_reward_mean": -53.49961996527838, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_12-09-51", "policy_reward_mean": {}, "time_this_iter_s": 255.25290322303772, "episodes_this_iter": 24, "training_iteration": 279, "time_total_s": 67772.74753212929, "info": {"num_steps_sampled": 334800, "num_steps_trained": 334800, "default": {"policy_loss": -0.1112731322646141, "vf_explained_var": 0.9488842487335205, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 7.727088928222656, "entropy": 12.261554718017578, "kl": 0.013475686311721802, "total_loss": 7.629459857940674}, "sample_time_ms": 220834.503, "grad_time_ms": 699.083, "load_time_ms": 1.506, "update_time_ms": 2.619}, "timesteps_total": 334800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 334800, "hostname": "cda-server-3", "episode_reward_max": -49.05128504421615}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 67992.6490688324, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -86.9196750907215, "iterations_since_restore": 280, "episodes_total": 6720, "timestamp": 1756462411, "episode_reward_mean": -53.34118500330564, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_12-13-31", "policy_reward_mean": {}, "time_this_iter_s": 219.90153670310974, "episodes_this_iter": 24, "training_iteration": 280, "time_total_s": 67992.6490688324, "info": {"num_steps_sampled": 336000, "num_steps_trained": 336000, "default": {"policy_loss": -0.14288152754306793, "vf_explained_var": 0.9715897440910339, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 3.7593188285827637, "entropy": 12.291492462158203, "kl": 0.016825037077069283, "total_loss": 3.6334729194641113}, "sample_time_ms": 221991.215, "grad_time_ms": 700.27, "load_time_ms": 1.564, "update_time_ms": 2.64}, "timesteps_total": 336000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 336000, "hostname": "cda-server-3", "episode_reward_max": -49.05128504421615}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 68177.69842720032, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -72.29489230435841, "iterations_since_restore": 281, "episodes_total": 6744, "timestamp": 1756462596, "episode_reward_mean": -52.63661777018459, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_12-16-36", "policy_reward_mean": {}, "time_this_iter_s": 185.04935836791992, "episodes_this_iter": 24, "training_iteration": 281, "time_total_s": 68177.69842720032, "info": {"num_steps_sampled": 337200, "num_steps_trained": 337200, "default": {"policy_loss": -0.12455210089683533, "vf_explained_var": 0.972270667552948, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 3.6177749633789062, "entropy": 12.42072582244873, "kl": 0.015108318999409676, "total_loss": 3.5085201263427734}, "sample_time_ms": 218244.897, "grad_time_ms": 701.468, "load_time_ms": 1.665, "update_time_ms": 2.651}, "timesteps_total": 337200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 337200, "hostname": "cda-server-3", "episode_reward_max": -51.17460335793359}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 68388.46821856499, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -78.03348874757802, "iterations_since_restore": 282, "episodes_total": 6768, "timestamp": 1756462807, "episode_reward_mean": -52.87258603097264, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_12-20-07", "policy_reward_mean": {}, "time_this_iter_s": 210.7697913646698, "episodes_this_iter": 24, "training_iteration": 282, "time_total_s": 68388.46821856499, "info": {"num_steps_sampled": 338400, "num_steps_trained": 338400, "default": {"policy_loss": -0.11916964501142502, "vf_explained_var": 0.9402625560760498, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 11.273205757141113, "entropy": 12.366950988769531, "kl": 0.012861553579568863, "total_loss": 11.167058944702148}, "sample_time_ms": 218490.18, "grad_time_ms": 701.265, "load_time_ms": 1.714, "update_time_ms": 2.677}, "timesteps_total": 338400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 338400, "hostname": "cda-server-3", "episode_reward_max": -51.17460335793359}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 68587.79872131348, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -78.03348874757802, "iterations_since_restore": 283, "episodes_total": 6792, "timestamp": 1756463006, "episode_reward_mean": -52.52309877177729, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_12-23-26", "policy_reward_mean": {}, "time_this_iter_s": 199.33050274848938, "episodes_this_iter": 24, "training_iteration": 283, "time_total_s": 68587.79872131348, "info": {"num_steps_sampled": 339600, "num_steps_trained": 339600, "default": {"policy_loss": -0.13121232390403748, "vf_explained_var": 0.9545206427574158, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 6.784745693206787, "entropy": 12.493606567382812, "kl": 0.014576302841305733, "total_loss": 6.668292045593262}, "sample_time_ms": 219056.931, "grad_time_ms": 700.902, "load_time_ms": 1.7, "update_time_ms": 2.642}, "timesteps_total": 339600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 339600, "hostname": "cda-server-3", "episode_reward_max": -48.200563271012534}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 68831.42337942123, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -78.03348874757802, "iterations_since_restore": 284, "episodes_total": 6816, "timestamp": 1756463250, "episode_reward_mean": -52.34025074477718, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_12-27-30", "policy_reward_mean": {}, "time_this_iter_s": 243.62465810775757, "episodes_this_iter": 24, "training_iteration": 284, "time_total_s": 68831.42337942123, "info": {"num_steps_sampled": 340800, "num_steps_trained": 340800, "default": {"policy_loss": -0.1302146315574646, "vf_explained_var": 0.9693320393562317, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 3.9507997035980225, "entropy": 12.259281158447266, "kl": 0.015657953917980194, "total_loss": 3.8364388942718506}, "sample_time_ms": 217165.955, "grad_time_ms": 700.227, "load_time_ms": 1.689, "update_time_ms": 2.648}, "timesteps_total": 340800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 340800, "hostname": "cda-server-3", "episode_reward_max": -48.200563271012534}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 69071.45431423187, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -78.03348874757802, "iterations_since_restore": 285, "episodes_total": 6840, "timestamp": 1756463490, "episode_reward_mean": -52.354673693428815, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_12-31-30", "policy_reward_mean": {}, "time_this_iter_s": 240.03093481063843, "episodes_this_iter": 24, "training_iteration": 285, "time_total_s": 69071.45431423187, "info": {"num_steps_sampled": 342000, "num_steps_trained": 342000, "default": {"policy_loss": -0.1259268820285797, "vf_explained_var": 0.9753335118293762, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 3.3924663066864014, "entropy": 12.422459602355957, "kl": 0.016515301540493965, "total_loss": 3.283261299133301}, "sample_time_ms": 218912.421, "grad_time_ms": 700.466, "load_time_ms": 1.708, "update_time_ms": 2.687}, "timesteps_total": 342000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 342000, "hostname": "cda-server-3", "episode_reward_max": -48.200563271012534}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 69299.64997696877, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -58.96335390541665, "iterations_since_restore": 286, "episodes_total": 6864, "timestamp": 1756463718, "episode_reward_mean": -52.059089461532785, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_12-35-18", "policy_reward_mean": {}, "time_this_iter_s": 228.1956627368927, "episodes_this_iter": 24, "training_iteration": 286, "time_total_s": 69299.64997696877, "info": {"num_steps_sampled": 343200, "num_steps_trained": 343200, "default": {"policy_loss": -0.13080231845378876, "vf_explained_var": 0.9585863947868347, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 5.377427101135254, "entropy": 12.568329811096191, "kl": 0.016125712543725967, "total_loss": 5.262951850891113}, "sample_time_ms": 218823.497, "grad_time_ms": 699.55, "load_time_ms": 1.7, "update_time_ms": 2.679}, "timesteps_total": 343200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 343200, "hostname": "cda-server-3", "episode_reward_max": -48.200563271012534}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 69511.73801374435, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -58.96335390541665, "iterations_since_restore": 287, "episodes_total": 6888, "timestamp": 1756463930, "episode_reward_mean": -52.12903332033729, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_12-38-50", "policy_reward_mean": {}, "time_this_iter_s": 212.088036775589, "episodes_this_iter": 24, "training_iteration": 287, "time_total_s": 69511.73801374435, "info": {"num_steps_sampled": 344400, "num_steps_trained": 344400, "default": {"policy_loss": -0.12991659343242645, "vf_explained_var": 0.9701218008995056, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 3.9993748664855957, "entropy": 12.348908424377441, "kl": 0.014908598735928535, "total_loss": 3.8845536708831787}, "sample_time_ms": 220312.014, "grad_time_ms": 699.283, "load_time_ms": 1.701, "update_time_ms": 2.656}, "timesteps_total": 344400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 344400, "hostname": "cda-server-3", "episode_reward_max": -49.00580362206023}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 69728.40817785263, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -58.96335390541665, "iterations_since_restore": 288, "episodes_total": 6912, "timestamp": 1756464147, "episode_reward_mean": -52.207700063283, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_12-42-27", "policy_reward_mean": {}, "time_this_iter_s": 216.67016410827637, "episodes_this_iter": 24, "training_iteration": 288, "time_total_s": 69728.40817785263, "info": {"num_steps_sampled": 345600, "num_steps_trained": 345600, "default": {"policy_loss": -0.13974148035049438, "vf_explained_var": 0.9652450084686279, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 4.558967590332031, "entropy": 12.57193374633789, "kl": 0.017402615398168564, "total_loss": 4.4368462562561035}, "sample_time_ms": 220382.521, "grad_time_ms": 699.166, "load_time_ms": 1.696, "update_time_ms": 2.646}, "timesteps_total": 345600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 345600, "hostname": "cda-server-3", "episode_reward_max": -48.96425296443912}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 69953.82830810547, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -93.07593011966938, "iterations_since_restore": 289, "episodes_total": 6936, "timestamp": 1756464372, "episode_reward_mean": -52.56730745048848, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_12-46-12", "policy_reward_mean": {}, "time_this_iter_s": 225.42013025283813, "episodes_this_iter": 24, "training_iteration": 289, "time_total_s": 69953.82830810547, "info": {"num_steps_sampled": 346800, "num_steps_trained": 346800, "default": {"policy_loss": -0.10083112120628357, "vf_explained_var": 0.8962631225585938, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 20.528160095214844, "entropy": 12.43372631072998, "kl": 0.011682498268783092, "total_loss": 20.439159393310547}, "sample_time_ms": 217399.421, "grad_time_ms": 699.073, "load_time_ms": 1.708, "update_time_ms": 2.537}, "timesteps_total": 346800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 346800, "hostname": "cda-server-3", "episode_reward_max": -48.96425296443912}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 70200.05345344543, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -93.07593011966938, "iterations_since_restore": 290, "episodes_total": 6960, "timestamp": 1756464619, "episode_reward_mean": -53.04621499979686, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_12-50-19", "policy_reward_mean": {}, "time_this_iter_s": 246.22514533996582, "episodes_this_iter": 24, "training_iteration": 290, "time_total_s": 70200.05345344543, "info": {"num_steps_sampled": 348000, "num_steps_trained": 348000, "default": {"policy_loss": -0.11693020910024643, "vf_explained_var": 0.8908771872520447, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 26.90326690673828, "entropy": 12.324344635009766, "kl": 0.011365074664354324, "total_loss": 26.79784393310547}, "sample_time_ms": 220032.701, "grad_time_ms": 698.208, "load_time_ms": 1.683, "update_time_ms": 2.529}, "timesteps_total": 348000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 348000, "hostname": "cda-server-3", "episode_reward_max": -48.96425296443912}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 70410.31812143326, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -93.07593011966938, "iterations_since_restore": 291, "episodes_total": 6984, "timestamp": 1756464829, "episode_reward_mean": -53.13178389336556, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_12-53-49", "policy_reward_mean": {}, "time_this_iter_s": 210.2646679878235, "episodes_this_iter": 24, "training_iteration": 291, "time_total_s": 70410.31812143326, "info": {"num_steps_sampled": 349200, "num_steps_trained": 349200, "default": {"policy_loss": -0.13924799859523773, "vf_explained_var": 0.967040479183197, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 4.398654937744141, "entropy": 12.41601848602295, "kl": 0.01773855648934841, "total_loss": 4.27736759185791}, "sample_time_ms": 222554.442, "grad_time_ms": 697.992, "load_time_ms": 1.693, "update_time_ms": 2.536}, "timesteps_total": 349200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 349200, "hostname": "cda-server-3", "episode_reward_max": -48.96425296443912}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 70627.03892922401, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -93.07593011966938, "iterations_since_restore": 292, "episodes_total": 7008, "timestamp": 1756465046, "episode_reward_mean": -53.17242746128206, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_12-57-26", "policy_reward_mean": {}, "time_this_iter_s": 216.72080779075623, "episodes_this_iter": 24, "training_iteration": 292, "time_total_s": 70627.03892922401, "info": {"num_steps_sampled": 350400, "num_steps_trained": 350400, "default": {"policy_loss": -0.12980133295059204, "vf_explained_var": 0.968231737613678, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 4.2248711585998535, "entropy": 12.26395034790039, "kl": 0.01560777798295021, "total_loss": 4.110872745513916}, "sample_time_ms": 223150.609, "grad_time_ms": 697.043, "load_time_ms": 1.661, "update_time_ms": 2.506}, "timesteps_total": 350400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 350400, "hostname": "cda-server-3", "episode_reward_max": -49.349361346491975}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 70878.18247318268, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -90.1025840196358, "iterations_since_restore": 293, "episodes_total": 7032, "timestamp": 1756465297, "episode_reward_mean": -52.778861706694286, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_13-01-37", "policy_reward_mean": {}, "time_this_iter_s": 251.14354395866394, "episodes_this_iter": 24, "training_iteration": 293, "time_total_s": 70878.18247318268, "info": {"num_steps_sampled": 351600, "num_steps_trained": 351600, "default": {"policy_loss": -0.14350180327892303, "vf_explained_var": 0.9764432907104492, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 3.0745840072631836, "entropy": 12.347380638122559, "kl": 0.016932280734181404, "total_loss": 2.9482264518737793}, "sample_time_ms": 228332.209, "grad_time_ms": 696.889, "load_time_ms": 1.593, "update_time_ms": 2.5}, "timesteps_total": 351600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 351600, "hostname": "cda-server-3", "episode_reward_max": -49.349361346491975}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 71095.06284427643, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -61.96288074410334, "iterations_since_restore": 294, "episodes_total": 7056, "timestamp": 1756465514, "episode_reward_mean": -52.413159036952635, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_13-05-14", "policy_reward_mean": {}, "time_this_iter_s": 216.88037109375, "episodes_this_iter": 24, "training_iteration": 294, "time_total_s": 71095.06284427643, "info": {"num_steps_sampled": 352800, "num_steps_trained": 352800, "default": {"policy_loss": -0.1359146684408188, "vf_explained_var": 0.9747341871261597, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 3.547532796859741, "entropy": 12.351963996887207, "kl": 0.01467402745038271, "total_loss": 3.4264755249023438}, "sample_time_ms": 225658.221, "grad_time_ms": 696.484, "load_time_ms": 1.581, "update_time_ms": 2.531}, "timesteps_total": 352800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 352800, "hostname": "cda-server-3", "episode_reward_max": -50.951736905180546}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 71324.26915335655, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -58.954857103882475, "iterations_since_restore": 295, "episodes_total": 7080, "timestamp": 1756465743, "episode_reward_mean": -52.2415230325622, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_13-09-03", "policy_reward_mean": {}, "time_this_iter_s": 229.2063090801239, "episodes_this_iter": 24, "training_iteration": 295, "time_total_s": 71324.26915335655, "info": {"num_steps_sampled": 354000, "num_steps_trained": 354000, "default": {"policy_loss": -0.13213542103767395, "vf_explained_var": 0.9717539548873901, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 3.67763352394104, "entropy": 12.306523323059082, "kl": 0.013029721565544605, "total_loss": 3.5586907863616943}, "sample_time_ms": 224574.938, "grad_time_ms": 697.288, "load_time_ms": 1.568, "update_time_ms": 2.525}, "timesteps_total": 354000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 354000, "hostname": "cda-server-3", "episode_reward_max": -50.02923476252851}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 71543.36113262177, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -56.309158459773386, "iterations_since_restore": 296, "episodes_total": 7104, "timestamp": 1756465962, "episode_reward_mean": -52.17289624307936, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_13-12-42", "policy_reward_mean": {}, "time_this_iter_s": 219.091979265213, "episodes_this_iter": 24, "training_iteration": 296, "time_total_s": 71543.36113262177, "info": {"num_steps_sampled": 355200, "num_steps_trained": 355200, "default": {"policy_loss": -0.1349836140871048, "vf_explained_var": 0.9557469487190247, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 5.835244178771973, "entropy": 12.222107887268066, "kl": 0.01717188209295273, "total_loss": 5.717647075653076}, "sample_time_ms": 223664.96, "grad_time_ms": 696.93, "load_time_ms": 1.529, "update_time_ms": 2.564}, "timesteps_total": 355200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 355200, "hostname": "cda-server-3", "episode_reward_max": -46.895097690446974}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 71764.0941464901, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -96.42450975252484, "iterations_since_restore": 297, "episodes_total": 7128, "timestamp": 1756466183, "episode_reward_mean": -52.551490195022886, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_13-16-23", "policy_reward_mean": {}, "time_this_iter_s": 220.7330138683319, "episodes_this_iter": 24, "training_iteration": 297, "time_total_s": 71764.0941464901, "info": {"num_steps_sampled": 356400, "num_steps_trained": 356400, "default": {"policy_loss": -0.10262128710746765, "vf_explained_var": 0.9111029505729675, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 16.357921600341797, "entropy": 12.320260047912598, "kl": 0.011174225248396397, "total_loss": 16.266613006591797}, "sample_time_ms": 224530.074, "grad_time_ms": 696.329, "load_time_ms": 1.538, "update_time_ms": 2.562}, "timesteps_total": 356400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 356400, "hostname": "cda-server-3", "episode_reward_max": -46.895097690446974}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 71956.04703903198, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -96.42450975252484, "iterations_since_restore": 298, "episodes_total": 7152, "timestamp": 1756466375, "episode_reward_mean": -52.72924235526778, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_13-19-35", "policy_reward_mean": {}, "time_this_iter_s": 191.95289254188538, "episodes_this_iter": 24, "training_iteration": 298, "time_total_s": 71956.04703903198, "info": {"num_steps_sampled": 357600, "num_steps_trained": 357600, "default": {"policy_loss": -0.13917165994644165, "vf_explained_var": 0.9431633353233337, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 8.362993240356445, "entropy": 12.179462432861328, "kl": 0.016141919419169426, "total_loss": 8.240165710449219}, "sample_time_ms": 222058.576, "grad_time_ms": 696.136, "load_time_ms": 1.528, "update_time_ms": 2.57}, "timesteps_total": 357600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 357600, "hostname": "cda-server-3", "episode_reward_max": -46.895097690446974}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 72197.96976613998, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -96.42450975252484, "iterations_since_restore": 299, "episodes_total": 7176, "timestamp": 1756466617, "episode_reward_mean": -53.04186033195124, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_13-23-37", "policy_reward_mean": {}, "time_this_iter_s": 241.9227271080017, "episodes_this_iter": 24, "training_iteration": 299, "time_total_s": 72197.96976613998, "info": {"num_steps_sampled": 358800, "num_steps_trained": 358800, "default": {"policy_loss": -0.13167642056941986, "vf_explained_var": 0.9527842402458191, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 7.93591833114624, "entropy": 12.2572660446167, "kl": 0.013497140258550644, "total_loss": 7.81790828704834}, "sample_time_ms": 223709.85, "grad_time_ms": 695.264, "load_time_ms": 1.463, "update_time_ms": 2.553}, "timesteps_total": 358800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 358800, "hostname": "cda-server-3", "episode_reward_max": -46.895097690446974}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 72459.24091768265, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -99.06848104185677, "iterations_since_restore": 300, "episodes_total": 7200, "timestamp": 1756466878, "episode_reward_mean": -53.682056333677174, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_13-27-58", "policy_reward_mean": {}, "time_this_iter_s": 261.2711515426636, "episodes_this_iter": 24, "training_iteration": 300, "time_total_s": 72459.24091768265, "info": {"num_steps_sampled": 360000, "num_steps_trained": 360000, "default": {"policy_loss": -0.13141396641731262, "vf_explained_var": 0.9265610575675964, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 13.346891403198242, "entropy": 12.274971961975098, "kl": 0.015094866044819355, "total_loss": 13.230761528015137}, "sample_time_ms": 225215.112, "grad_time_ms": 694.581, "load_time_ms": 1.466, "update_time_ms": 2.564}, "timesteps_total": 360000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 360000, "hostname": "cda-server-3", "episode_reward_max": -48.35379212325632}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 72683.35219526291, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -99.17453996516333, "iterations_since_restore": 301, "episodes_total": 7224, "timestamp": 1756467102, "episode_reward_mean": -53.750167833270154, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_13-31-42", "policy_reward_mean": {}, "time_this_iter_s": 224.11127758026123, "episodes_this_iter": 24, "training_iteration": 301, "time_total_s": 72683.35219526291, "info": {"num_steps_sampled": 361200, "num_steps_trained": 361200, "default": {"policy_loss": -0.1376352310180664, "vf_explained_var": 0.9457657933235168, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 9.347111701965332, "entropy": 12.26346206665039, "kl": 0.01422292459756136, "total_loss": 9.223877906799316}, "sample_time_ms": 226600.323, "grad_time_ms": 694.031, "load_time_ms": 1.449, "update_time_ms": 2.571}, "timesteps_total": 361200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 361200, "hostname": "cda-server-3", "episode_reward_max": -48.35379212325632}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 72948.92363882065, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -99.17453996516333, "iterations_since_restore": 302, "episodes_total": 7248, "timestamp": 1756467368, "episode_reward_mean": -53.607525853227514, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_13-36-08", "policy_reward_mean": {}, "time_this_iter_s": 265.57144355773926, "episodes_this_iter": 24, "training_iteration": 302, "time_total_s": 72948.92363882065, "info": {"num_steps_sampled": 362400, "num_steps_trained": 362400, "default": {"policy_loss": -0.1350909024477005, "vf_explained_var": 0.9636004567146301, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 4.889998435974121, "entropy": 12.176090240478516, "kl": 0.01710471510887146, "total_loss": 4.772226333618164}, "sample_time_ms": 231485.525, "grad_time_ms": 693.899, "load_time_ms": 1.453, "update_time_ms": 2.591}, "timesteps_total": 362400, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 362400, "hostname": "cda-server-3", "episode_reward_max": -48.35379212325632}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 73200.5001718998, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -99.17453996516333, "iterations_since_restore": 303, "episodes_total": 7272, "timestamp": 1756467619, "episode_reward_mean": -53.29212436288077, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_13-40-19", "policy_reward_mean": {}, "time_this_iter_s": 251.57653307914734, "episodes_this_iter": 24, "training_iteration": 303, "time_total_s": 73200.5001718998, "info": {"num_steps_sampled": 363600, "num_steps_trained": 363600, "default": {"policy_loss": -0.1493072360754013, "vf_explained_var": 0.9692809581756592, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 4.034963607788086, "entropy": 12.088041305541992, "kl": 0.016667162999510765, "total_loss": 3.902531623840332}, "sample_time_ms": 231528.872, "grad_time_ms": 693.734, "load_time_ms": 1.515, "update_time_ms": 2.606}, "timesteps_total": 363600, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 363600, "hostname": "cda-server-3", "episode_reward_max": -50.15217415635844}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 73480.11277294159, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -99.17453996516333, "iterations_since_restore": 304, "episodes_total": 7296, "timestamp": 1756467899, "episode_reward_mean": -52.89721532106234, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_13-44-59", "policy_reward_mean": {}, "time_this_iter_s": 279.6126010417938, "episodes_this_iter": 24, "training_iteration": 304, "time_total_s": 73480.11277294159, "info": {"num_steps_sampled": 364800, "num_steps_trained": 364800, "default": {"policy_loss": -0.11796130239963531, "vf_explained_var": 0.9274365305900574, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 10.442138671875, "entropy": 12.077159881591797, "kl": 0.013736975379288197, "total_loss": 10.338085174560547}, "sample_time_ms": 237800.827, "grad_time_ms": 694.929, "load_time_ms": 1.529, "update_time_ms": 2.62}, "timesteps_total": 364800, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 364800, "hostname": "cda-server-3", "episode_reward_max": -49.92233445051167}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 73758.79197740555, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -67.96758924730126, "iterations_since_restore": 305, "episodes_total": 7320, "timestamp": 1756468178, "episode_reward_mean": -52.48637423160558, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_13-49-38", "policy_reward_mean": {}, "time_this_iter_s": 278.67920446395874, "episodes_this_iter": 24, "training_iteration": 305, "time_total_s": 73758.79197740555, "info": {"num_steps_sampled": 366000, "num_steps_trained": 366000, "default": {"policy_loss": -0.12833836674690247, "vf_explained_var": 0.9781603217124939, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 2.9315381050109863, "entropy": 11.94629955291748, "kl": 0.015499631874263287, "total_loss": 2.8188929557800293}, "sample_time_ms": 242748.703, "grad_time_ms": 694.368, "load_time_ms": 1.537, "update_time_ms": 2.623}, "timesteps_total": 366000, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 366000, "hostname": "cda-server-3", "episode_reward_max": -49.92233445051167}
+{"experiment_id": "7ffa6ff4607a442eb508661143530d5b", "time_since_restore": 73987.31811928749, "episode_len_mean": 50.0, "done": false, "episode_reward_min": -67.96758924730126, "iterations_since_restore": 306, "episodes_total": 7344, "timestamp": 1756468406, "episode_reward_mean": -52.524258915937445, "pid": 1566858, "timesteps_this_iter": 1200, "date": "2025-08-29_13-53-26", "policy_reward_mean": {}, "time_this_iter_s": 228.52614188194275, "episodes_this_iter": 24, "training_iteration": 306, "time_total_s": 73987.31811928749, "info": {"num_steps_sampled": 367200, "num_steps_trained": 367200, "default": {"policy_loss": -0.12210477888584137, "vf_explained_var": 0.9534997940063477, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "vf_loss": 6.509614944458008, "entropy": 11.96830940246582, "kl": 0.012901661917567253, "total_loss": 6.400572776794434}, "sample_time_ms": 243691.988, "grad_time_ms": 694.451, "load_time_ms": 1.575, "update_time_ms": 2.593}, "timesteps_total": 367200, "config": {"input": "sampler", "simple_optimizer": false, "tf_session_args": {"allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "intra_op_parallelism_threads": 2}, "postprocess_inputs": false, "observation_filter": "MeanStdFilter", "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "num_gpus": 0, "sgd_minibatch_size": 128, "clip_param": 0.3, "grad_clip": null, "vf_loss_coeff": 1.0, "gamma": 0.99, "input_evaluation": null, "sample_async": false, "vf_share_layers": false, "sample_batch_size": 200, "output_max_file_size": 67108864, "preprocessor_pref": "deepmind", "env_config": {"generalize": true, "run_valid": false}, "clip_actions": true, "kl_coeff": 0.2, "num_envs_per_worker": 1, "monitor": false, "kl_target": 0.01, "env": "LEDRO_D_FC", "lr_schedule": null, "lr": 5e-05, "collect_metrics_timeout": 180, "lambda": 1.0, "num_workers": 3, "num_cpus_for_driver": 1, "custom_resources_per_worker": {}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "train_batch_size": 1200, "callbacks": {"on_episode_step": null, "on_sample_end": null, "on_episode_start": null, "on_train_result": null, "on_episode_end": null}, "optimizer": {}, "num_gpus_per_worker": 0, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "synchronize_filters": true, "output_compress_columns": ["obs", "new_obs"], "clip_rewards": null, "log_level": "INFO", "compress_observations": false, "model": {"conv_activation": "relu", "free_log_std": false, "fcnet_activation": "tanh", "lstm_use_prev_action_reward": false, "conv_filters": null, "lstm_cell_size": 256, "use_lstm": false, "grayscale": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "custom_options": {}, "framestack": true, "custom_preprocessor": null, "custom_model": null, "zero_mean": true, "squash_to_range": false}, "batch_mode": "truncate_episodes", "vf_clip_param": 10.0, "num_sgd_iter": 30, "horizon": 50, "straggler_mitigation": false, "output": null, "use_gae": true}, "node_ip": "10.157.146.3", "num_metric_batches_dropped": 0, "custom_metrics": {}, "timesteps_since_restore": 367200, "hostname": "cda-server-3", "episode_reward_max": -48.9968998602918}
diff --git a/experiments/ledro_d_fc_7nm_run4_horizon_50_range_10_400_400_start_33/PPO_LEDRO_D_FC_0_2025-08-29_14-36-17yoqm6ky6/events.out.tfevents.1756471232.cda-server-6 b/experiments/ledro_d_fc_7nm_run4_horizon_50_range_10_400_400_start_33/PPO_LEDRO_D_FC_0_2025-08-29_14-36-17yoqm6ky6/events.out.tfevents.1756471232.cda-server-6
new file mode 100644
index 0000000..7f039eb
Binary files /dev/null and b/experiments/ledro_d_fc_7nm_run4_horizon_50_range_10_400_400_start_33/PPO_LEDRO_D_FC_0_2025-08-29_14-36-17yoqm6ky6/events.out.tfevents.1756471232.cda-server-6 differ
diff --git a/experiments/ledro_d_fc_7nm_run4_horizon_50_range_10_400_400_start_33/PPO_LEDRO_D_FC_0_2025-08-29_14-36-17yoqm6ky6/final_checkpoint/checkpoint-690 b/experiments/ledro_d_fc_7nm_run4_horizon_50_range_10_400_400_start_33/PPO_LEDRO_D_FC_0_2025-08-29_14-36-17yoqm6ky6/final_checkpoint/checkpoint-690
new file mode 100644
index 0000000..54039f8
Binary files /dev/null and b/experiments/ledro_d_fc_7nm_run4_horizon_50_range_10_400_400_start_33/PPO_LEDRO_D_FC_0_2025-08-29_14-36-17yoqm6ky6/final_checkpoint/checkpoint-690 differ
diff --git a/experiments/ledro_d_fc_7nm_run4_horizon_50_range_10_400_400_start_33/PPO_LEDRO_D_FC_0_2025-08-29_14-36-17yoqm6ky6/final_checkpoint/checkpoint-690.tune_metadata b/experiments/ledro_d_fc_7nm_run4_horizon_50_range_10_400_400_start_33/PPO_LEDRO_D_FC_0_2025-08-29_14-36-17yoqm6ky6/final_checkpoint/checkpoint-690.tune_metadata
new file mode 100644
index 0000000..a9bb302
Binary files /dev/null and b/experiments/ledro_d_fc_7nm_run4_horizon_50_range_10_400_400_start_33/PPO_LEDRO_D_FC_0_2025-08-29_14-36-17yoqm6ky6/final_checkpoint/checkpoint-690.tune_metadata differ
diff --git a/experiments/ledro_d_fc_7nm_run4_horizon_50_range_10_400_400_start_33/PPO_LEDRO_D_FC_0_2025-08-29_14-36-17yoqm6ky6/params.json b/experiments/ledro_d_fc_7nm_run4_horizon_50_range_10_400_400_start_33/PPO_LEDRO_D_FC_0_2025-08-29_14-36-17yoqm6ky6/params.json
new file mode 100644
index 0000000..6b8cc2b
--- /dev/null
+++ b/experiments/ledro_d_fc_7nm_run4_horizon_50_range_10_400_400_start_33/PPO_LEDRO_D_FC_0_2025-08-29_14-36-17yoqm6ky6/params.json
@@ -0,0 +1,18 @@
+{
+  "env": "<class 'autockt.envs.ngspice_ledro_d_fc.LEDRO_D_FC'>",
+  "env_config": {
+    "generalize": true,
+    "run_valid": false
+  },
+  "horizon": 50,
+  "model": {
+    "fcnet_hiddens": [
+      128,
+      128,
+      128
+    ]
+  },
+  "num_gpus": 0,
+  "num_workers": 6,
+  "train_batch_size": 1200
+}
\ No newline at end of file
diff --git a/experiments/ledro_d_fc_7nm_run4_horizon_50_range_10_400_400_start_33/PPO_LEDRO_D_FC_0_2025-08-29_14-36-17yoqm6ky6/params.pkl b/experiments/ledro_d_fc_7nm_run4_horizon_50_range_10_400_400_start_33/PPO_LEDRO_D_FC_0_2025-08-29_14-36-17yoqm6ky6/params.pkl
new file mode 100644
index 0000000..66bf083
Binary files /dev/null and b/experiments/ledro_d_fc_7nm_run4_horizon_50_range_10_400_400_start_33/PPO_LEDRO_D_FC_0_2025-08-29_14-36-17yoqm6ky6/params.pkl differ
diff --git a/experiments/ledro_d_fc_7nm_run4_horizon_50_range_10_400_400_start_33/PPO_LEDRO_D_FC_0_2025-08-29_14-36-17yoqm6ky6/progress.csv b/experiments/ledro_d_fc_7nm_run4_horizon_50_range_10_400_400_start_33/PPO_LEDRO_D_FC_0_2025-08-29_14-36-17yoqm6ky6/progress.csv
new file mode 100644
index 0000000..ad46112
--- /dev/null
+++ b/experiments/ledro_d_fc_7nm_run4_horizon_50_range_10_400_400_start_33/PPO_LEDRO_D_FC_0_2025-08-29_14-36-17yoqm6ky6/progress.csv
@@ -0,0 +1,700 @@
+timesteps_total,experiment_id,done,info,pid,time_total_s,episode_reward_mean,hostname,episodes_this_iter,episode_reward_min,policy_reward_mean,episodes_total,node_ip,custom_metrics,episode_reward_max,num_metric_batches_dropped,timesteps_this_iter,date,training_iteration,config,timestamp,episode_len_mean,timesteps_since_restore,time_since_restore,time_this_iter_s,iterations_since_restore
+1200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 238752.488, 'num_steps_sampled': 1200, 'update_time_ms': 1494.553, 'num_steps_trained': 1200, 'load_time_ms': 91.451, 'default': {'kl': 0.02345726452767849, 'cur_lr': 4.999999873689376e-05, 'entropy': 18.652944564819336, 'total_loss': 13102.5712890625, 'cur_kl_coeff': 0.20000000298023224, 'policy_loss': -0.1253841370344162, 'vf_explained_var': -0.020561866462230682, 'vf_loss': 13102.69140625}, 'grad_time_ms': 1736.076}",3934253,242.16078996658325,-230.22058282191497,cda-server-6,24,-248.50570683339015,{},24,10.157.146.6,{},-189.17222398744005,0,1200,2025-08-29_14-40-32,1,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756471232,50.0,1200,242.16078996658325,242.16078996658325,1
+2400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 178035.505, 'num_steps_sampled': 2400, 'update_time_ms': 749.314, 'num_steps_trained': 2400, 'load_time_ms': 46.26, 'default': {'kl': 0.022505946457386017, 'cur_lr': 4.999999873689376e-05, 'entropy': 18.62984848022461, 'total_loss': 12515.01171875, 'cur_kl_coeff': 0.30000001192092896, 'policy_loss': -0.12131085991859436, 'vf_explained_var': 0.046773672103881836, 'vf_loss': 12515.125}, 'grad_time_ms': 1248.081}",3934253,360.25028228759766,-229.7708322779712,cda-server-6,24,-248.50570683339015,{},48,10.157.146.6,{},-189.17222398744005,0,1200,2025-08-29_14-42-30,2,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756471350,50.0,2400,360.25028228759766,118.0894923210144,2
+3600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 160903.856, 'num_steps_sampled': 3600, 'update_time_ms': 500.221, 'num_steps_trained': 3600, 'load_time_ms': 31.074, 'default': {'kl': 0.021168239414691925, 'cur_lr': 4.999999873689376e-05, 'entropy': 18.610870361328125, 'total_loss': 12362.8056640625, 'cur_kl_coeff': 0.44999995827674866, 'policy_loss': -0.12194083631038666, 'vf_explained_var': 0.0496826171875, 'vf_loss': 12362.91796875}, 'grad_time_ms': 1005.561}",3934253,487.41902899742126,-230.6458543464934,cda-server-6,24,-248.50570683339015,{},72,10.157.146.6,{},-189.17222398744005,0,1200,2025-08-29_14-44-37,3,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756471477,50.0,3600,487.41902899742126,127.16874670982361,3
+4800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 153296.846, 'num_steps_sampled': 4800, 'update_time_ms': 375.774, 'num_steps_trained': 4800, 'load_time_ms': 23.521, 'default': {'kl': 0.020337438210844994, 'cur_lr': 4.999999873689376e-05, 'entropy': 18.58652687072754, 'total_loss': 12319.80859375, 'cur_kl_coeff': 0.675000011920929, 'policy_loss': -0.12520265579223633, 'vf_explained_var': 0.05312725529074669, 'vf_loss': 12319.919921875}, 'grad_time_ms': 927.15}",3934253,618.5954301357269,-231.9126016253825,cda-server-6,24,-248.50570683339015,{},96,10.157.146.6,{},-189.17222398744005,0,1200,2025-08-29_14-46-49,4,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756471609,50.0,4800,618.5954301357269,131.17640113830566,4
+6000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 149198.611, 'num_steps_sampled': 6000, 'update_time_ms': 301.15, 'num_steps_trained': 6000, 'load_time_ms': 18.931, 'default': {'kl': 0.017712781205773354, 'cur_lr': 4.999999873689376e-05, 'entropy': 18.564531326293945, 'total_loss': 11199.1513671875, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13221319019794464, 'vf_explained_var': 0.030576281249523163, 'vf_loss': 11199.263671875}, 'grad_time_ms': 893.167}",3934253,752.1666700839996,-232.0932859758354,cda-server-6,24,-248.10200411755505,{},120,10.157.146.6,{},-200.99987523969685,0,1200,2025-08-29_14-49-02,5,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756471742,50.0,6000,752.1666700839996,133.5712399482727,5
+7200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 146583.585, 'num_steps_sampled': 7200, 'update_time_ms': 251.309, 'num_steps_trained': 7200, 'load_time_ms': 15.871, 'default': {'kl': 0.01696646213531494, 'cur_lr': 4.999999873689376e-05, 'entropy': 18.5582275390625, 'total_loss': 11126.30859375, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12488171458244324, 'vf_explained_var': 0.012747373431921005, 'vf_loss': 11126.4169921875}, 'grad_time_ms': 863.632}",3934253,886.3993492126465,-233.2256954990561,cda-server-6,24,-248.10200411755505,{},144,10.157.146.6,{},-200.99987523969685,0,1200,2025-08-29_14-51-16,6,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756471876,50.0,7200,886.3993492126465,134.23267912864685,6
+8400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 143834.975, 'num_steps_sampled': 8400, 'update_time_ms': 215.706, 'num_steps_trained': 8400, 'load_time_ms': 13.737, 'default': {'kl': 0.018511280417442322, 'cur_lr': 4.999999873689376e-05, 'entropy': 18.533920288085938, 'total_loss': 10328.9599609375, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12375900149345398, 'vf_explained_var': 0.007189598400145769, 'vf_loss': 10329.0654296875}, 'grad_time_ms': 849.341}",3934253,1014.5144400596619,-232.3667402438889,cda-server-6,24,-248.10200411755505,{},168,10.157.146.6,{},-199.95306198707857,0,1200,2025-08-29_14-53-24,7,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756472004,50.0,8400,1014.5144400596619,128.11509084701538,7
+9600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 141122.885, 'num_steps_sampled': 9600, 'update_time_ms': 189.046, 'num_steps_trained': 9600, 'load_time_ms': 12.13, 'default': {'kl': 0.016686219722032547, 'cur_lr': 4.999999873689376e-05, 'entropy': 18.514015197753906, 'total_loss': 9768.44140625, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1354256272315979, 'vf_explained_var': 0.004887203220278025, 'vf_loss': 9768.5595703125}, 'grad_time_ms': 837.745}",3934253,1137.4176816940308,-230.78368277525772,cda-server-6,24,-247.03019267128656,{},192,10.157.146.6,{},-197.89664123792278,0,1200,2025-08-29_14-55-27,8,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756472127,50.0,9600,1137.4176816940308,122.9032416343689,8
+10800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 140244.999, 'num_steps_sampled': 10800, 'update_time_ms': 168.316, 'num_steps_trained': 10800, 'load_time_ms': 10.847, 'default': {'kl': 0.016497083008289337, 'cur_lr': 4.999999873689376e-05, 'entropy': 18.499237060546875, 'total_loss': 9278.640625, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1313558965921402, 'vf_explained_var': 0.002922866027802229, 'vf_loss': 9278.7548828125}, 'grad_time_ms': 828.448}",3934253,1271.4018051624298,-229.5842021622292,cda-server-6,24,-247.858779289968,{},216,10.157.146.6,{},-197.89664123792278,0,1200,2025-08-29_14-57-41,9,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756472261,50.0,10800,1271.4018051624298,133.98412346839905,9
+12000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 138991.608, 'num_steps_sampled': 12000, 'update_time_ms': 151.715, 'num_steps_trained': 12000, 'load_time_ms': 9.854, 'default': {'kl': 0.018143020570278168, 'cur_lr': 4.999999873689376e-05, 'entropy': 18.48088264465332, 'total_loss': 9191.5791015625, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13637499511241913, 'vf_explained_var': 0.0037107665557414293, 'vf_loss': 9191.697265625}, 'grad_time_ms': 817.367}",3934253,1399.8384637832642,-228.35528496800046,cda-server-6,24,-247.858779289968,{},240,10.157.146.6,{},-195.66306370400125,0,1200,2025-08-29_14-59-50,10,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756472390,50.0,12000,1399.8384637832642,128.43665862083435,10
+13200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 126993.623, 'num_steps_sampled': 13200, 'update_time_ms': 2.449, 'num_steps_trained': 13200, 'load_time_ms': 0.766, 'default': {'kl': 0.016372594982385635, 'cur_lr': 4.999999873689376e-05, 'entropy': 18.44902229309082, 'total_loss': 8664.150390625, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12930560111999512, 'vf_explained_var': 0.014810138382017612, 'vf_loss': 8664.2626953125}, 'grad_time_ms': 693.016}",3934253,1519.110630273819,-226.7992343391553,cda-server-6,24,-247.858779289968,{},264,10.157.146.6,{},-188.91056735653865,0,1200,2025-08-29_15-01-49,11,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756472509,50.0,13200,1519.110630273819,119.27216649055481,11
+14400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 126796.976, 'num_steps_sampled': 14400, 'update_time_ms': 2.254, 'num_steps_trained': 14400, 'load_time_ms': 0.723, 'default': {'kl': 0.018367202952504158, 'cur_lr': 4.999999873689376e-05, 'entropy': 18.43258285522461, 'total_loss': 9163.8193359375, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1256006956100464, 'vf_explained_var': 0.001056631444953382, 'vf_loss': 9163.92578125}, 'grad_time_ms': 689.564}",3934253,1635.195505142212,-227.8824827519844,cda-server-6,24,-247.858779289968,{},288,10.157.146.6,{},-188.91056735653865,0,1200,2025-08-29_15-03-45,12,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756472625,50.0,14400,1635.195505142212,116.08487486839294,12
+15600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 122994.689, 'num_steps_sampled': 15600, 'update_time_ms': 2.27, 'num_steps_trained': 15600, 'load_time_ms': 0.718, 'default': {'kl': 0.018263446167111397, 'cur_lr': 4.999999873689376e-05, 'entropy': 18.406959533691406, 'total_loss': 8039.34375, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13872545957565308, 'vf_explained_var': 0.009270284324884415, 'vf_loss': 8039.46337890625}, 'grad_time_ms': 711.946}",3934253,1724.5654287338257,-226.95394541182313,cda-server-6,24,-246.89273563832404,{},312,10.157.146.6,{},-188.91056735653865,0,1200,2025-08-29_15-05-15,13,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756472715,50.0,15600,1724.5654287338257,89.36992359161377,13
+16800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 120749.929, 'num_steps_sampled': 16800, 'update_time_ms': 2.298, 'num_steps_trained': 16800, 'load_time_ms': 0.694, 'default': {'kl': 0.01851937174797058, 'cur_lr': 4.999999873689376e-05, 'entropy': 18.40781593322754, 'total_loss': 7785.65380859375, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1454668492078781, 'vf_explained_var': 0.0034669903106987476, 'vf_loss': 7785.7802734375}, 'grad_time_ms': 718.79}",3934253,1833.362226486206,-226.5395327474367,cda-server-6,24,-246.89273563832404,{},336,10.157.146.6,{},-188.91056735653865,0,1200,2025-08-29_15-07-03,14,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756472823,50.0,16800,1833.362226486206,108.79679775238037,14
+18000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 120444.62, 'num_steps_sampled': 18000, 'update_time_ms': 2.292, 'num_steps_trained': 18000, 'load_time_ms': 0.695, 'default': {'kl': 0.018088672310113907, 'cur_lr': 4.999999873689376e-05, 'entropy': 18.373947143554688, 'total_loss': 7424.033203125, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13359440863132477, 'vf_explained_var': -2.5298859327449463e-06, 'vf_loss': 7424.1494140625}, 'grad_time_ms': 707.939}",3934253,1963.7715697288513,-226.28930702200313,cda-server-6,24,-246.89273563832404,{},360,10.157.146.6,{},-192.68354188559,0,1200,2025-08-29_15-09-14,15,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756472954,50.0,18000,1963.7715697288513,130.40934324264526,15
+19200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 115962.542, 'num_steps_sampled': 19200, 'update_time_ms': 2.277, 'num_steps_trained': 19200, 'load_time_ms': 0.705, 'default': {'kl': 0.018010612577199936, 'cur_lr': 4.999999873689376e-05, 'entropy': 18.32969856262207, 'total_loss': 7933.4677734375, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13802139461040497, 'vf_explained_var': -0.001161250751465559, 'vf_loss': 7933.5869140625}, 'grad_time_ms': 717.734}",3934253,2053.281415939331,-225.430023675914,cda-server-6,24,-247.85240578397764,{},384,10.157.146.6,{},-192.68354188559,0,1200,2025-08-29_15-10-43,16,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756473043,50.0,19200,2053.281415939331,89.50984621047974,16
+20400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 115180.178, 'num_steps_sampled': 20400, 'update_time_ms': 2.306, 'num_steps_trained': 20400, 'load_time_ms': 0.674, 'default': {'kl': 0.01733492501080036, 'cur_lr': 4.999999873689376e-05, 'entropy': 18.352266311645508, 'total_loss': 6935.912109375, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13916505873203278, 'vf_explained_var': 0.0398666188120842, 'vf_loss': 6936.03369140625}, 'grad_time_ms': 715.961}",3934253,2173.555982351303,-224.31972516845806,cda-server-6,24,-247.85240578397764,{},408,10.157.146.6,{},-192.56745469224097,0,1200,2025-08-29_15-12-44,17,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756473164,50.0,20400,2173.555982351303,120.27456641197205,17
+21600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 115446.416, 'num_steps_sampled': 21600, 'update_time_ms': 2.353, 'num_steps_trained': 21600, 'load_time_ms': 0.645, 'default': {'kl': 0.018643349409103394, 'cur_lr': 4.999999873689376e-05, 'entropy': 18.32407569885254, 'total_loss': 7109.57861328125, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14262330532073975, 'vf_explained_var': 0.058559127151966095, 'vf_loss': 7109.7021484375}, 'grad_time_ms': 716.764}",3934253,2299.1294887065887,-224.86252533298918,cda-server-6,24,-248.00111036780248,{},432,10.157.146.6,{},-192.56745469224097,0,1200,2025-08-29_15-14-49,18,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756473289,50.0,21600,2299.1294887065887,125.57350635528564,18
+22800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 111634.23, 'num_steps_sampled': 22800, 'update_time_ms': 2.343, 'num_steps_trained': 22800, 'load_time_ms': 0.647, 'default': {'kl': 0.017198346555233, 'cur_lr': 4.999999873689376e-05, 'entropy': 18.320524215698242, 'total_loss': 6918.37060546875, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13064756989479065, 'vf_explained_var': 0.07814642041921616, 'vf_loss': 6918.48388671875}, 'grad_time_ms': 711.846}",3934253,2394.942296743393,-225.21955188410809,cda-server-6,24,-248.00111036780248,{},456,10.157.146.6,{},-192.56745469224097,0,1200,2025-08-29_15-16-25,19,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756473385,50.0,22800,2394.942296743393,95.8128080368042,19
+24000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 111642.021, 'num_steps_sampled': 24000, 'update_time_ms': 2.345, 'num_steps_trained': 24000, 'load_time_ms': 0.617, 'default': {'kl': 0.018709510564804077, 'cur_lr': 4.999999873689376e-05, 'entropy': 18.2652645111084, 'total_loss': 6797.3310546875, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14481525123119354, 'vf_explained_var': 0.09185083210468292, 'vf_loss': 6797.45703125}, 'grad_time_ms': 720.998}",3934253,2523.54922413826,-224.69537291467503,cda-server-6,24,-248.00111036780248,{},480,10.157.146.6,{},-190.85068285650394,0,1200,2025-08-29_15-18-34,20,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756473514,50.0,24000,2523.54922413826,128.60692739486694,20
+25200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 111823.423, 'num_steps_sampled': 25200, 'update_time_ms': 2.43, 'num_steps_trained': 25200, 'load_time_ms': 0.654, 'default': {'kl': 0.016120517626404762, 'cur_lr': 4.999999873689376e-05, 'entropy': 18.257076263427734, 'total_loss': 6505.86279296875, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14086978137493134, 'vf_explained_var': 0.0601482056081295, 'vf_loss': 6505.98779296875}, 'grad_time_ms': 743.136}",3934253,2644.859076499939,-225.42085905668347,cda-server-6,24,-248.00111036780248,{},504,10.157.146.6,{},-190.85068285650394,0,1200,2025-08-29_15-20-35,21,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756473635,50.0,25200,2644.859076499939,121.30985236167908,21
+26400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 108554.114, 'num_steps_sampled': 26400, 'update_time_ms': 2.528, 'num_steps_trained': 26400, 'load_time_ms': 0.653, 'default': {'kl': 0.01815476268529892, 'cur_lr': 4.999999873689376e-05, 'entropy': 18.25238037109375, 'total_loss': 6361.66943359375, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1422284096479416, 'vf_explained_var': 0.0871841087937355, 'vf_loss': 6361.79345703125}, 'grad_time_ms': 733.411}",3934253,2728.1552817821503,-227.12070903133855,cda-server-6,24,-247.372242841637,{},528,10.157.146.6,{},-190.85068285650394,0,1200,2025-08-29_15-21-58,22,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756473718,50.0,26400,2728.1552817821503,83.2962052822113,22
+27600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 113536.284, 'num_steps_sampled': 27600, 'update_time_ms': 2.523, 'num_steps_trained': 27600, 'load_time_ms': 0.646, 'default': {'kl': 0.01872488297522068, 'cur_lr': 4.999999873689376e-05, 'entropy': 18.202598571777344, 'total_loss': 5540.90380859375, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14064835011959076, 'vf_explained_var': 0.09507162123918533, 'vf_loss': 5541.025390625}, 'grad_time_ms': 721.676}",3934253,2867.229010820389,-224.52522155211645,cda-server-6,24,-247.372242841637,{},552,10.157.146.6,{},-188.93533640553093,0,1200,2025-08-29_15-24-17,23,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756473857,50.0,27600,2867.229010820389,139.07372903823853,23
+28800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 111666.508, 'num_steps_sampled': 28800, 'update_time_ms': 2.53, 'num_steps_trained': 28800, 'load_time_ms': 0.645, 'default': {'kl': 0.017991013824939728, 'cur_lr': 4.999999873689376e-05, 'entropy': 18.139867782592773, 'total_loss': 5488.4775390625, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.15115779638290405, 'vf_explained_var': 0.122310571372509, 'vf_loss': 5488.6103515625}, 'grad_time_ms': 706.538}",3934253,2957.178115129471,-222.86015856207715,cda-server-6,24,-248.2345499737599,{},576,10.157.146.6,{},-188.93533640553093,0,1200,2025-08-29_15-25-47,24,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756473947,50.0,28800,2957.178115129471,89.94910430908203,24
+30000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 110789.341, 'num_steps_sampled': 30000, 'update_time_ms': 2.507, 'num_steps_trained': 30000, 'load_time_ms': 0.649, 'default': {'kl': 0.018119478598237038, 'cur_lr': 4.999999873689376e-05, 'entropy': 18.104427337646484, 'total_loss': 5291.33203125, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1454295516014099, 'vf_explained_var': 0.1271432340145111, 'vf_loss': 5291.458984375}, 'grad_time_ms': 689.769}",3934253,3078.6474380493164,-220.54939918657251,cda-server-6,24,-248.2345499737599,{},600,10.157.146.6,{},-185.60920330149142,0,1200,2025-08-29_15-27-49,25,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756474069,50.0,30000,3078.6474380493164,121.46932291984558,25
+31200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 114266.039, 'num_steps_sampled': 31200, 'update_time_ms': 2.532, 'num_steps_trained': 31200, 'load_time_ms': 0.644, 'default': {'kl': 0.018067501485347748, 'cur_lr': 4.999999873689376e-05, 'entropy': 18.099180221557617, 'total_loss': 4856.0693359375, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1323235034942627, 'vf_explained_var': 0.12717147171497345, 'vf_loss': 4856.18310546875}, 'grad_time_ms': 666.322}",3934253,3202.6897122859955,-217.74776505287662,cda-server-6,24,-248.2345499737599,{},624,10.157.146.6,{},-185.60920330149142,0,1200,2025-08-29_15-29-53,26,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756474193,50.0,31200,3202.6897122859955,124.04227423667908,26
+32400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 114420.868, 'num_steps_sampled': 32400, 'update_time_ms': 2.546, 'num_steps_trained': 32400, 'load_time_ms': 0.642, 'default': {'kl': 0.01893593929708004, 'cur_lr': 4.999999873689376e-05, 'entropy': 18.082481384277344, 'total_loss': 4736.587890625, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14160507917404175, 'vf_explained_var': 0.1733734905719757, 'vf_loss': 4736.7099609375}, 'grad_time_ms': 654.305}",3934253,3324.3915185928345,-216.32067322708596,cda-server-6,24,-248.2345499737599,{},648,10.157.146.6,{},-185.60920330149142,0,1200,2025-08-29_15-31-55,27,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756474315,50.0,32400,3324.3915185928345,121.70180630683899,27
+33600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 113001.238, 'num_steps_sampled': 33600, 'update_time_ms': 2.484, 'num_steps_trained': 33600, 'load_time_ms': 0.644, 'default': {'kl': 0.018984422087669373, 'cur_lr': 4.999999873689376e-05, 'entropy': 18.03122329711914, 'total_loss': 4447.91552734375, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.15685193240642548, 'vf_explained_var': 0.14473694562911987, 'vf_loss': 4448.052734375}, 'grad_time_ms': 647.223}",3934253,3435.6978681087494,-213.80917812804458,cda-server-6,24,-248.83030415581862,{},672,10.157.146.6,{},-185.60920330149142,0,1200,2025-08-29_15-33-46,28,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756474426,50.0,33600,3435.6978681087494,111.30634951591492,28
+34800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 116696.335, 'num_steps_sampled': 34800, 'update_time_ms': 2.497, 'num_steps_trained': 34800, 'load_time_ms': 0.646, 'default': {'kl': 0.01779862865805626, 'cur_lr': 4.999999873689376e-05, 'entropy': 18.02900505065918, 'total_loss': 4699.4326171875, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13835091888904572, 'vf_explained_var': 0.21267952024936676, 'vf_loss': 4699.552734375}, 'grad_time_ms': 639.428}",3934253,3568.38410115242,-214.57597202649774,cda-server-6,24,-248.83030415581862,{},696,10.157.146.6,{},-191.44960194830855,0,1200,2025-08-29_15-35-59,29,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756474559,50.0,34800,3568.38410115242,132.68623304367065,29
+36000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 117910.592, 'num_steps_sampled': 36000, 'update_time_ms': 2.546, 'num_steps_trained': 36000, 'load_time_ms': 0.647, 'default': {'kl': 0.0186467245221138, 'cur_lr': 4.999999873689376e-05, 'entropy': 18.017282485961914, 'total_loss': 4788.78857421875, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14452102780342102, 'vf_explained_var': 0.1922873705625534, 'vf_loss': 4788.9140625}, 'grad_time_ms': 635.195}",3934253,3709.0914623737335,-216.39424869499814,cda-server-6,24,-248.83030415581862,{},720,10.157.146.6,{},-189.41091576437802,0,1200,2025-08-29_15-38-19,30,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756474699,50.0,36000,3709.0914623737335,140.70736122131348,30
+37200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 121207.566, 'num_steps_sampled': 37200, 'update_time_ms': 2.549, 'num_steps_trained': 37200, 'load_time_ms': 0.611, 'default': {'kl': 0.017331527546048164, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.992008209228516, 'total_loss': 4373.1201171875, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13839353621006012, 'vf_explained_var': 0.04371914640069008, 'vf_loss': 4373.24072265625}, 'grad_time_ms': 637.987}",3934253,3863.398061275482,-215.19791028193805,cda-server-6,24,-248.83030415581862,{},744,10.157.146.6,{},-186.86999539137864,0,1200,2025-08-29_15-40-54,31,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756474854,50.0,37200,3863.398061275482,154.30659890174866,31
+38400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 124453.716, 'num_steps_sampled': 38400, 'update_time_ms': 2.442, 'num_steps_trained': 38400, 'load_time_ms': 0.613, 'default': {'kl': 0.017102720215916634, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.92547607421875, 'total_loss': 3819.66357421875, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13893364369869232, 'vf_explained_var': 0.1954089254140854, 'vf_loss': 3819.78515625}, 'grad_time_ms': 644.967}",3934253,3979.224608182907,-215.13311737404922,cda-server-6,24,-246.02100713653664,{},768,10.157.146.6,{},-186.86999539137864,0,1200,2025-08-29_15-42-50,32,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756474970,50.0,38400,3979.224608182907,115.82654690742493,32
+39600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 123454.297, 'num_steps_sampled': 39600, 'update_time_ms': 2.494, 'num_steps_trained': 39600, 'load_time_ms': 0.612, 'default': {'kl': 0.017682187259197235, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.938262939453125, 'total_loss': 3737.1103515625, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14358346164226532, 'vf_explained_var': 0.1921062171459198, 'vf_loss': 3737.236083984375}, 'grad_time_ms': 659.685}",3934253,4108.452016592026,-213.94500279124793,cda-server-6,24,-246.02100713653664,{},792,10.157.146.6,{},-186.86999539137864,0,1200,2025-08-29_15-44-59,33,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756475099,50.0,39600,4108.452016592026,129.22740840911865,33
+40800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 128326.13, 'num_steps_sampled': 40800, 'update_time_ms': 2.44, 'num_steps_trained': 40800, 'load_time_ms': 0.608, 'default': {'kl': 0.017134059220552444, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.834041595458984, 'total_loss': 3461.917724609375, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12815701961517334, 'vf_explained_var': 0.15495187044143677, 'vf_loss': 3462.0283203125}, 'grad_time_ms': 675.352}",3934253,4247.277045726776,-211.12190019537888,cda-server-6,24,-246.02100713653664,{},816,10.157.146.6,{},-186.86999539137864,0,1200,2025-08-29_15-47-18,34,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756475238,50.0,40800,4247.277045726776,138.82502913475037,34
+42000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 125027.49, 'num_steps_sampled': 42000, 'update_time_ms': 2.422, 'num_steps_trained': 42000, 'load_time_ms': 0.614, 'default': {'kl': 0.018565503880381584, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.86197280883789, 'total_loss': 4044.3408203125, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14776770770549774, 'vf_explained_var': 0.1975460797548294, 'vf_loss': 4044.4697265625}, 'grad_time_ms': 709.139}",3934253,4336.0987548828125,-211.779697417606,cda-server-6,24,-244.79919426101299,{},840,10.157.146.6,{},-185.87812229652314,0,1200,2025-08-29_15-48-46,35,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756475326,50.0,42000,4336.0987548828125,88.82170915603638,35
+43200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 124788.062, 'num_steps_sampled': 43200, 'update_time_ms': 2.438, 'num_steps_trained': 43200, 'load_time_ms': 0.615, 'default': {'kl': 0.017858348786830902, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.815601348876953, 'total_loss': 3304.437255859375, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14674967527389526, 'vf_explained_var': 0.30027350783348083, 'vf_loss': 3304.56591796875}, 'grad_time_ms': 723.817}",3934253,4457.893758058548,-212.04843016952287,cda-server-6,24,-245.58104877489959,{},864,10.157.146.6,{},-185.87812229652314,0,1200,2025-08-29_15-50-48,36,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756475448,50.0,43200,4457.893758058548,121.79500317573547,36
+44400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 124188.457, 'num_steps_sampled': 44400, 'update_time_ms': 2.4, 'num_steps_trained': 44400, 'load_time_ms': 0.611, 'default': {'kl': 0.01844792626798153, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.81826400756836, 'total_loss': 3297.3232421875, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1480633020401001, 'vf_explained_var': 0.19995717704296112, 'vf_loss': 3297.452392578125}, 'grad_time_ms': 735.92}",3934253,4573.720880746841,-211.19359964775035,cda-server-6,24,-245.58104877489959,{},888,10.157.146.6,{},-185.87812229652314,0,1200,2025-08-29_15-52-44,37,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756475564,50.0,44400,4573.720880746841,115.82712268829346,37
+45600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 126123.452, 'num_steps_sampled': 45600, 'update_time_ms': 2.4, 'num_steps_trained': 45600, 'load_time_ms': 0.649, 'default': {'kl': 0.018443183973431587, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.755903244018555, 'total_loss': 3353.221435546875, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.15454323589801788, 'vf_explained_var': 0.2896014153957367, 'vf_loss': 3353.357177734375}, 'grad_time_ms': 738.131}",3934253,4704.400423049927,-213.00286027217822,cda-server-6,24,-247.5537867115574,{},912,10.157.146.6,{},-185.87812229652314,0,1200,2025-08-29_15-54-55,38,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756475695,50.0,45600,4704.400423049927,130.67954230308533,38
+46800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 121236.767, 'num_steps_sampled': 46800, 'update_time_ms': 2.451, 'num_steps_trained': 46800, 'load_time_ms': 0.646, 'default': {'kl': 0.018317891284823418, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.811492919921875, 'total_loss': 3417.5546875, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1502545177936554, 'vf_explained_var': 0.2569473087787628, 'vf_loss': 3417.686279296875}, 'grad_time_ms': 758.619}",3934253,4788.425406217575,-212.3051676911543,cda-server-6,24,-247.5537867115574,{},936,10.157.146.6,{},-181.43706975607378,0,1200,2025-08-29_15-56-19,39,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756475779,50.0,46800,4788.425406217575,84.02498316764832,39
+48000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 119440.389, 'num_steps_sampled': 48000, 'update_time_ms': 2.464, 'num_steps_trained': 48000, 'load_time_ms': 0.648, 'default': {'kl': 0.01919081062078476, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.807842254638672, 'total_loss': 3161.85986328125, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.15894289314746857, 'vf_explained_var': 0.35566556453704834, 'vf_loss': 3161.999267578125}, 'grad_time_ms': 738.052}",3934253,4910.962848186493,-213.84192706556107,cda-server-6,24,-247.5537867115574,{},960,10.157.146.6,{},-181.43706975607378,0,1200,2025-08-29_15-58-21,40,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756475901,50.0,48000,4910.962848186493,122.53744196891785,40
+49200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 115781.532, 'num_steps_sampled': 49200, 'update_time_ms': 2.471, 'num_steps_trained': 49200, 'load_time_ms': 0.65, 'default': {'kl': 0.018592309206724167, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.775829315185547, 'total_loss': 3190.97412109375, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1547202467918396, 'vf_explained_var': 0.2281986027956009, 'vf_loss': 3191.1103515625}, 'grad_time_ms': 717.619}",3934253,5028.476491689682,-213.4334468931419,cda-server-6,24,-247.5537867115574,{},984,10.157.146.6,{},-175.2855057359052,0,1200,2025-08-29_16-00-19,41,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756476019,50.0,49200,5028.476491689682,117.51364350318909,41
+50400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 116700.271, 'num_steps_sampled': 50400, 'update_time_ms': 2.521, 'num_steps_trained': 50400, 'load_time_ms': 0.649, 'default': {'kl': 0.017873523756861687, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.768165588378906, 'total_loss': 2994.9541015625, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1501152515411377, 'vf_explained_var': 0.32763707637786865, 'vf_loss': 2995.0859375}, 'grad_time_ms': 708.999}",3934253,5153.405420064926,-215.7174857830358,cda-server-6,24,-246.37354808212874,{},1008,10.157.146.6,{},-175.2855057359052,0,1200,2025-08-29_16-02-24,42,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756476144,50.0,50400,5153.405420064926,124.92892837524414,42
+51600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 113745.523, 'num_steps_sampled': 51600, 'update_time_ms': 2.494, 'num_steps_trained': 51600, 'load_time_ms': 0.652, 'default': {'kl': 0.018063882365822792, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.706390380859375, 'total_loss': 2835.5146484375, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1458158642053604, 'vf_explained_var': 0.32134178280830383, 'vf_loss': 2835.642333984375}, 'grad_time_ms': 712.86}",3934253,5253.124094724655,-214.39119330004388,cda-server-6,24,-246.37354808212874,{},1032,10.157.146.6,{},-175.05672191815188,0,1200,2025-08-29_16-04-04,43,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756476244,50.0,51600,5253.124094724655,99.718674659729,43
+52800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 112197.151, 'num_steps_sampled': 52800, 'update_time_ms': 2.539, 'num_steps_trained': 52800, 'load_time_ms': 0.693, 'default': {'kl': 0.018111437559127808, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.677021026611328, 'total_loss': 3190.59130859375, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14791905879974365, 'vf_explained_var': 0.15911920368671417, 'vf_loss': 3190.720947265625}, 'grad_time_ms': 710.067}",3934253,5376.435137987137,-213.18503772057986,cda-server-6,24,-246.37354808212874,{},1056,10.157.146.6,{},-175.05672191815188,0,1200,2025-08-29_16-06-07,44,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756476367,50.0,52800,5376.435137987137,123.31104326248169,44
+54000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 116778.42, 'num_steps_sampled': 54000, 'update_time_ms': 2.573, 'num_steps_trained': 54000, 'load_time_ms': 0.695, 'default': {'kl': 0.01823728159070015, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.698951721191406, 'total_loss': 2804.24169921875, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.15112829208374023, 'vf_explained_var': 0.2769123613834381, 'vf_loss': 2804.37451171875}, 'grad_time_ms': 704.293}",3934253,5511.011833429337,-213.08326170254938,cda-server-6,24,-245.10308690094269,{},1080,10.157.146.6,{},-175.05672191815188,0,1200,2025-08-29_16-08-22,45,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756476502,50.0,54000,5511.011833429337,134.5766954421997,45
+55200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 118468.282, 'num_steps_sampled': 55200, 'update_time_ms': 2.579, 'num_steps_trained': 55200, 'load_time_ms': 0.722, 'default': {'kl': 0.017772618681192398, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.67725372314453, 'total_loss': 2877.27392578125, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1525329202413559, 'vf_explained_var': 0.30773845314979553, 'vf_loss': 2877.40869140625}, 'grad_time_ms': 706.245}",3934253,5649.724349737167,-211.9924811523262,cda-server-6,24,-244.81933204732172,{},1104,10.157.146.6,{},-175.05672191815188,0,1200,2025-08-29_16-10-40,46,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756476640,50.0,55200,5649.724349737167,138.7125163078308,46
+56400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 119917.311, 'num_steps_sampled': 56400, 'update_time_ms': 2.571, 'num_steps_trained': 56400, 'load_time_ms': 0.729, 'default': {'kl': 0.017335502430796623, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.574216842651367, 'total_loss': 2686.016845703125, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.15624472498893738, 'vf_explained_var': 0.31639328598976135, 'vf_loss': 2686.155517578125}, 'grad_time_ms': 704.712}",3934253,5780.025140762329,-212.06696124329548,cda-server-6,24,-244.81933204732172,{},1128,10.157.146.6,{},-176.47354464694985,0,1200,2025-08-29_16-12-51,47,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756476771,50.0,56400,5780.025140762329,130.30079102516174,47
+57600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 120133.195, 'num_steps_sampled': 57600, 'update_time_ms': 2.578, 'num_steps_trained': 57600, 'load_time_ms': 0.692, 'default': {'kl': 0.018136359751224518, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.61043930053711, 'total_loss': 2544.2529296875, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.15641115605831146, 'vf_explained_var': 0.32302284240722656, 'vf_loss': 2544.39111328125}, 'grad_time_ms': 705.707}",3934253,5912.872404336929,-211.27840171927173,cda-server-6,24,-242.75502909465445,{},1152,10.157.146.6,{},-180.22750393736035,0,1200,2025-08-29_16-15-03,48,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756476903,50.0,57600,5912.872404336929,132.84726357460022,48
+58800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 126388.469, 'num_steps_sampled': 58800, 'update_time_ms': 2.5, 'num_steps_trained': 58800, 'load_time_ms': 0.692, 'default': {'kl': 0.017506470903754234, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.62823486328125, 'total_loss': 3480.99951171875, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.15134403109550476, 'vf_explained_var': 0.1799653172492981, 'vf_loss': 3481.13330078125}, 'grad_time_ms': 699.242}",3934253,6059.384567737579,-211.70786122380647,cda-server-6,24,-243.36017384063356,{},1176,10.157.146.6,{},-165.89434605077207,0,1200,2025-08-29_16-17-30,49,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756477050,50.0,58800,6059.384567737579,146.51216340065002,49
+60000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 127471.196, 'num_steps_sampled': 60000, 'update_time_ms': 2.503, 'num_steps_trained': 60000, 'load_time_ms': 0.688, 'default': {'kl': 0.0181845985352993, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.62104606628418, 'total_loss': 3795.71875, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14132875204086304, 'vf_explained_var': -0.15382134914398193, 'vf_loss': 3795.842041015625}, 'grad_time_ms': 717.066}",3934253,6192.928519487381,-210.11993828827156,cda-server-6,24,-243.36017384063356,{},1200,10.157.146.6,{},-165.89434605077207,0,1200,2025-08-29_16-19-44,50,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756477184,50.0,60000,6192.928519487381,133.54395174980164,50
+61200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 127189.731, 'num_steps_sampled': 61200, 'update_time_ms': 2.526, 'num_steps_trained': 61200, 'load_time_ms': 0.684, 'default': {'kl': 0.018260452896356583, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.566057205200195, 'total_loss': 3529.8896484375, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1244841143488884, 'vf_explained_var': -0.031975701451301575, 'vf_loss': 3529.995361328125}, 'grad_time_ms': 746.291}",3934253,6307.920372962952,-208.46888390923715,cda-server-6,24,-243.36017384063356,{},1224,10.157.146.6,{},-165.89434605077207,0,1200,2025-08-29_16-21-39,51,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756477299,50.0,61200,6307.920372962952,114.99185347557068,51
+62400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 126173.789, 'num_steps_sampled': 62400, 'update_time_ms': 2.55, 'num_steps_trained': 62400, 'load_time_ms': 0.69, 'default': {'kl': 0.018367886543273926, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.582782745361328, 'total_loss': 2911.344482421875, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.15388014912605286, 'vf_explained_var': 0.11462072283029556, 'vf_loss': 2911.47998046875}, 'grad_time_ms': 762.265}",3934253,6422.849180936813,-207.44610162930013,cda-server-6,24,-243.36017384063356,{},1248,10.157.146.6,{},-165.89434605077207,0,1200,2025-08-29_16-23-34,52,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756477414,50.0,62400,6422.849180936813,114.9288079738617,52
+63600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 127713.001, 'num_steps_sampled': 63600, 'update_time_ms': 2.559, 'num_steps_trained': 63600, 'load_time_ms': 0.695, 'default': {'kl': 0.0152328722178936, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.559120178222656, 'total_loss': 2936.9033203125, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12449096143245697, 'vf_explained_var': 0.13940726220607758, 'vf_loss': 2937.01220703125}, 'grad_time_ms': 754.196}",3934253,6537.878677845001,-205.3037430007791,cda-server-6,24,-243.33831834713772,{},1272,10.157.146.6,{},-165.89434605077207,0,1200,2025-08-29_16-25-29,53,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756477529,50.0,63600,6537.878677845001,115.02949690818787,53
+64800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 128614.03, 'num_steps_sampled': 64800, 'update_time_ms': 2.534, 'num_steps_trained': 64800, 'load_time_ms': 0.655, 'default': {'kl': 0.015593416057527065, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.57250213623047, 'total_loss': 3269.6923828125, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12995809316635132, 'vf_explained_var': 0.041274651885032654, 'vf_loss': 3269.806640625}, 'grad_time_ms': 745.365}",3934253,6670.112357854843,-205.87594885722905,cda-server-6,24,-243.33831834713772,{},1296,10.157.146.6,{},-171.90663959860424,0,1200,2025-08-29_16-27-41,54,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756477661,50.0,64800,6670.112357854843,132.23368000984192,54
+66000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 129046.204, 'num_steps_sampled': 66000, 'update_time_ms': 2.52, 'num_steps_trained': 66000, 'load_time_ms': 0.639, 'default': {'kl': 0.01628641039133072, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.494834899902344, 'total_loss': 3003.40478515625, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.133028045296669, 'vf_explained_var': -0.06501490622758865, 'vf_loss': 3003.521240234375}, 'grad_time_ms': 721.143}",3934253,6808.767722606659,-204.17025147553716,cda-server-6,24,-239.4554018600887,{},1320,10.157.146.6,{},-174.49680020462705,0,1200,2025-08-29_16-29-59,55,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756477799,50.0,66000,6808.767722606659,138.6553647518158,55
+67200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 124872.43, 'num_steps_sampled': 67200, 'update_time_ms': 2.474, 'num_steps_trained': 67200, 'load_time_ms': 0.617, 'default': {'kl': 0.018313659355044365, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.51993751525879, 'total_loss': 3227.48779296875, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14256832003593445, 'vf_explained_var': -0.046293098479509354, 'vf_loss': 3227.612060546875}, 'grad_time_ms': 724.948}",3934253,6905.780424118042,-202.69798806398597,cda-server-6,24,-239.4554018600887,{},1344,10.157.146.6,{},-174.40608955184834,0,1200,2025-08-29_16-31-36,56,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756477896,50.0,67200,6905.780424118042,97.01270151138306,56
+68400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 124572.464, 'num_steps_sampled': 68400, 'update_time_ms': 2.557, 'num_steps_trained': 68400, 'load_time_ms': 0.617, 'default': {'kl': 0.015577811747789383, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.429256439208984, 'total_loss': 2839.56689453125, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1422598659992218, 'vf_explained_var': 0.25796782970428467, 'vf_loss': 2839.693115234375}, 'grad_time_ms': 725.939}",3934253,7033.093000173569,-203.0628973147633,cda-server-6,24,-236.39727673502475,{},1368,10.157.146.6,{},-174.40608955184834,0,1200,2025-08-29_16-33-44,57,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756478024,50.0,68400,7033.093000173569,127.31257605552673,57
+69600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 127368.019, 'num_steps_sampled': 69600, 'update_time_ms': 2.587, 'num_steps_trained': 69600, 'load_time_ms': 0.644, 'default': {'kl': 0.01565130613744259, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.373971939086914, 'total_loss': 3137.237548828125, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1458209902048111, 'vf_explained_var': 0.18359674513339996, 'vf_loss': 3137.36767578125}, 'grad_time_ms': 699.675}",3934253,7193.634396314621,-201.6865593275633,cda-server-6,24,-237.16475391834197,{},1392,10.157.146.6,{},-162.37320864558674,0,1200,2025-08-29_16-36-24,58,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756478184,50.0,69600,7193.634396314621,160.54139614105225,58
+70800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 126269.84, 'num_steps_sampled': 70800, 'update_time_ms': 2.615, 'num_steps_trained': 70800, 'load_time_ms': 0.643, 'default': {'kl': 0.017643585801124573, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.52008819580078, 'total_loss': 2227.716064453125, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14641273021697998, 'vf_explained_var': 0.3743492662906647, 'vf_loss': 2227.8447265625}, 'grad_time_ms': 696.813}",3934253,7329.136283874512,-202.4014445057027,cda-server-6,24,-237.16475391834197,{},1416,10.157.146.6,{},-162.37320864558674,0,1200,2025-08-29_16-38-40,59,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756478320,50.0,70800,7329.136283874512,135.50188755989075,59
+72000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 126855.389, 'num_steps_sampled': 72000, 'update_time_ms': 2.553, 'num_steps_trained': 72000, 'load_time_ms': 0.641, 'default': {'kl': 0.0166630856692791, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.444067001342773, 'total_loss': 2494.462646484375, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1459917575120926, 'vf_explained_var': 0.32033035159111023, 'vf_loss': 2494.591796875}, 'grad_time_ms': 699.478}",3934253,7468.560915708542,-203.28037131250483,cda-server-6,24,-242.41267235711027,{},1440,10.157.146.6,{},-162.37320864558674,0,1200,2025-08-29_16-40-59,60,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756478459,50.0,72000,7468.560915708542,139.42463183403015,60
+73200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 127224.631, 'num_steps_sampled': 73200, 'update_time_ms': 2.522, 'num_steps_trained': 73200, 'load_time_ms': 0.678, 'default': {'kl': 0.0184915941208601, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.35077667236328, 'total_loss': 2228.360595703125, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.15222874283790588, 'vf_explained_var': 0.32440924644470215, 'vf_loss': 2228.493896484375}, 'grad_time_ms': 692.227}",3934253,7587.17391872406,-201.8855045823159,cda-server-6,24,-242.41267235711027,{},1464,10.157.146.6,{},-162.37320864558674,0,1200,2025-08-29_16-42-58,61,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756478578,50.0,73200,7587.17391872406,118.61300301551819,61
+74400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 129470.924, 'num_steps_sampled': 74400, 'update_time_ms': 2.492, 'num_steps_trained': 74400, 'load_time_ms': 0.668, 'default': {'kl': 0.01812606118619442, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.345386505126953, 'total_loss': 1536.971435546875, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14230865240097046, 'vf_explained_var': 0.4932720363140106, 'vf_loss': 1537.095458984375}, 'grad_time_ms': 690.446}",3934253,7724.547788619995,-203.61260778759706,cda-server-6,24,-242.41267235711027,{},1488,10.157.146.6,{},-167.70166226128026,0,1200,2025-08-29_16-45-15,62,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756478715,50.0,74400,7724.547788619995,137.37386989593506,62
+75600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 130895.803, 'num_steps_sampled': 75600, 'update_time_ms': 2.494, 'num_steps_trained': 75600, 'load_time_ms': 0.666, 'default': {'kl': 0.018034812062978745, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.338903427124023, 'total_loss': 1522.239990234375, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.15658150613307953, 'vf_explained_var': 0.5048775672912598, 'vf_loss': 1522.37841796875}, 'grad_time_ms': 689.206}",3934253,7853.81393122673,-204.79683966833977,cda-server-6,24,-243.82422338554372,{},1512,10.157.146.6,{},-178.07009410244865,0,1200,2025-08-29_16-47-25,63,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756478845,50.0,75600,7853.81393122673,129.26614260673523,63
+76800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 128562.827, 'num_steps_sampled': 76800, 'update_time_ms': 2.455, 'num_steps_trained': 76800, 'load_time_ms': 0.668, 'default': {'kl': 0.01748146489262581, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.300491333007812, 'total_loss': 1020.3151245117188, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1468556821346283, 'vf_explained_var': 0.628902018070221, 'vf_loss': 1020.4442138671875}, 'grad_time_ms': 685.694}",3934253,7962.6811876297,-204.60964781539147,cda-server-6,24,-243.82422338554372,{},1536,10.157.146.6,{},-176.72126537076102,0,1200,2025-08-29_16-49-14,64,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756478954,50.0,76800,7962.6811876297,108.86725640296936,64
+78000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 130065.401, 'num_steps_sampled': 78000, 'update_time_ms': 2.495, 'num_steps_trained': 78000, 'load_time_ms': 0.671, 'default': {'kl': 0.01788967289030552, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.299461364746094, 'total_loss': 1186.3619384765625, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14163149893283844, 'vf_explained_var': 0.5919825434684753, 'vf_loss': 1186.4854736328125}, 'grad_time_ms': 706.33}",3934253,8116.570593595505,-206.1822075156246,cda-server-6,24,-243.82422338554372,{},1560,10.157.146.6,{},-176.72126537076102,0,1200,2025-08-29_16-51-47,65,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756479107,50.0,78000,8116.570593595505,153.88940596580505,65
+79200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 133131.583, 'num_steps_sampled': 79200, 'update_time_ms': 2.57, 'num_steps_trained': 79200, 'load_time_ms': 0.685, 'default': {'kl': 0.017699653282761574, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.267019271850586, 'total_loss': 845.4718627929688, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1545608788728714, 'vf_explained_var': 0.7317812442779541, 'vf_loss': 845.6085815429688}, 'grad_time_ms': 682.49}",3934253,8244.00701546669,-204.67036275163156,cda-server-6,24,-243.82422338554372,{},1584,10.157.146.6,{},-176.72126537076102,0,1200,2025-08-29_16-53-55,66,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756479235,50.0,79200,8244.00701546669,127.4364218711853,66
+80400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 134628.525, 'num_steps_sampled': 80400, 'update_time_ms': 2.499, 'num_steps_trained': 80400, 'load_time_ms': 0.681, 'default': {'kl': 0.018020590767264366, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.243600845336914, 'total_loss': 908.90869140625, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.15663856267929077, 'vf_explained_var': 0.6649714708328247, 'vf_loss': 909.047119140625}, 'grad_time_ms': 684.762}",3934253,8386.31137752533,-203.45399373806507,cda-server-6,24,-236.6240604926094,{},1608,10.157.146.6,{},-176.72126537076102,0,1200,2025-08-29_16-56-17,67,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756479377,50.0,80400,8386.31137752533,142.30436205863953,67
+81600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 127800.101, 'num_steps_sampled': 81600, 'update_time_ms': 2.453, 'num_steps_trained': 81600, 'load_time_ms': 0.659, 'default': {'kl': 0.01779426634311676, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.173952102661133, 'total_loss': 923.4046020507812, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14696913957595825, 'vf_explained_var': 0.6245005130767822, 'vf_loss': 923.5335083007812}, 'grad_time_ms': 714.332}",3934253,8478.86295580864,-201.6099014965169,cda-server-6,24,-236.6240604926094,{},1632,10.157.146.6,{},-170.85541536790782,0,1200,2025-08-29_16-57-50,68,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756479470,50.0,81600,8478.86295580864,92.55157828330994,68
+82800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 127706.637, 'num_steps_sampled': 82800, 'update_time_ms': 2.508, 'num_steps_trained': 82800, 'load_time_ms': 0.664, 'default': {'kl': 0.017506642267107964, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.228662490844727, 'total_loss': 955.548828125, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13391107320785522, 'vf_explained_var': 0.6843433976173401, 'vf_loss': 955.6649169921875}, 'grad_time_ms': 717.92}",3934253,8613.466737508774,-199.76279681389474,cda-server-6,24,-237.87893357886605,{},1656,10.157.146.6,{},-169.67883789220647,0,1200,2025-08-29_17-00-04,69,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756479604,50.0,82800,8613.466737508774,134.60378170013428,69
+84000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 128395.735, 'num_steps_sampled': 84000, 'update_time_ms': 2.614, 'num_steps_trained': 84000, 'load_time_ms': 0.666, 'default': {'kl': 0.01776537112891674, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.27729034423828, 'total_loss': 858.9427490234375, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14407379925251007, 'vf_explained_var': 0.6505129337310791, 'vf_loss': 859.0687255859375}, 'grad_time_ms': 718.019}",3934253,8759.78401517868,-200.28976271340775,cda-server-6,24,-237.87893357886605,{},1680,10.157.146.6,{},-166.50156901737446,0,1200,2025-08-29_17-02-31,70,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756479751,50.0,84000,8759.78401517868,146.31727766990662,70
+85200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 127439.452, 'num_steps_sampled': 85200, 'update_time_ms': 2.607, 'num_steps_trained': 85200, 'load_time_ms': 0.634, 'default': {'kl': 0.017438506707549095, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.173513412475586, 'total_loss': 497.2986145019531, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14505235850811005, 'vf_explained_var': 0.8089240193367004, 'vf_loss': 497.4259948730469}, 'grad_time_ms': 715.196}",3934253,8868.804517507553,-196.78183297555998,cda-server-6,24,-237.87893357886605,{},1704,10.157.146.6,{},-162.7454707928377,0,1200,2025-08-29_17-04-20,71,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756479860,50.0,85200,8868.804517507553,109.02050232887268,71
+86400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 126949.793, 'num_steps_sampled': 86400, 'update_time_ms': 2.563, 'num_steps_trained': 86400, 'load_time_ms': 0.632, 'default': {'kl': 0.017478276044130325, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.1412296295166, 'total_loss': 537.347412109375, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1449865847826004, 'vf_explained_var': 0.8066643476486206, 'vf_loss': 537.4746704101562}, 'grad_time_ms': 716.498}",3934253,9001.29467010498,-196.7515997280192,cda-server-6,24,-237.87893357886605,{},1728,10.157.146.6,{},-162.7454707928377,0,1200,2025-08-29_17-06-32,72,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756479992,50.0,86400,9001.29467010498,132.49015259742737,72
+87600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 126478.744, 'num_steps_sampled': 87600, 'update_time_ms': 2.579, 'num_steps_trained': 87600, 'load_time_ms': 0.628, 'default': {'kl': 0.016992026939988136, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.1573486328125, 'total_loss': 668.7613525390625, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.15834328532218933, 'vf_explained_var': 0.7176796793937683, 'vf_loss': 668.9024658203125}, 'grad_time_ms': 720.878}",3934253,9125.894088745117,-196.29779407045845,cda-server-6,24,-235.77930229587113,{},1752,10.157.146.6,{},-160.0539174982735,0,1200,2025-08-29_17-08-37,73,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756480117,50.0,87600,9125.894088745117,124.59941864013672,73
+88800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 127925.017, 'num_steps_sampled': 88800, 'update_time_ms': 2.58, 'num_steps_trained': 88800, 'load_time_ms': 0.638, 'default': {'kl': 0.01787766069173813, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.137168884277344, 'total_loss': 539.1329956054688, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13451358675956726, 'vf_explained_var': 0.7756462097167969, 'vf_loss': 539.2493286132812}, 'grad_time_ms': 745.174}",3934253,9249.467748641968,-196.06748029454903,cda-server-6,24,-241.6755977787709,{},1776,10.157.146.6,{},-160.0539174982735,0,1200,2025-08-29_17-10-41,74,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756480241,50.0,88800,9249.467748641968,123.57365989685059,74
+90000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 124662.659, 'num_steps_sampled': 90000, 'update_time_ms': 2.552, 'num_steps_trained': 90000, 'load_time_ms': 0.646, 'default': {'kl': 0.016736924648284912, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.0623836517334, 'total_loss': 505.48822021484375, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.141299769282341, 'vf_explained_var': 0.784087598323822, 'vf_loss': 505.6125793457031}, 'grad_time_ms': 746.333}",3934253,9370.744490146637,-195.75643804258007,cda-server-6,24,-241.6755977787709,{},1800,10.157.146.6,{},-160.0539174982735,0,1200,2025-08-29_17-12-42,75,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756480362,50.0,90000,9370.744490146637,121.27674150466919,75
+91200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 121177.374, 'num_steps_sampled': 91200, 'update_time_ms': 2.489, 'num_steps_trained': 91200, 'load_time_ms': 0.624, 'default': {'kl': 0.018218128010630608, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.026023864746094, 'total_loss': 539.190673828125, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14476412534713745, 'vf_explained_var': 0.7949026823043823, 'vf_loss': 539.31689453125}, 'grad_time_ms': 763.486}",3934253,9463.499910831451,-197.00243101656838,cda-server-6,24,-241.6755977787709,{},1824,10.157.146.6,{},-160.0539174982735,0,1200,2025-08-29_17-14-15,76,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756480455,50.0,91200,9463.499910831451,92.75542068481445,76
+92400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 121798.333, 'num_steps_sampled': 92400, 'update_time_ms': 2.498, 'num_steps_trained': 92400, 'load_time_ms': 0.62, 'default': {'kl': 0.017787037417292595, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.07424545288086, 'total_loss': 433.3902587890625, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1485578417778015, 'vf_explained_var': 0.8211551308631897, 'vf_loss': 433.52081298828125}, 'grad_time_ms': 761.874}",3934253,9611.997594594955,-196.73452598520976,cda-server-6,24,-241.6755977787709,{},1848,10.157.146.6,{},-164.4817344017371,0,1200,2025-08-29_17-16-43,77,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756480603,50.0,92400,9611.997594594955,148.49768376350403,77
+93600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 128079.512, 'num_steps_sampled': 93600, 'update_time_ms': 2.497, 'num_steps_trained': 93600, 'load_time_ms': 0.645, 'default': {'kl': 0.01852409727871418, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.058555603027344, 'total_loss': 397.9156799316406, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.16270986199378967, 'vf_explained_var': 0.8211359977722168, 'vf_loss': 398.0596618652344}, 'grad_time_ms': 752.817}",3934253,9767.270104885101,-195.6968907137477,cda-server-6,24,-235.19605511971818,{},1872,10.157.146.6,{},-164.4817344017371,0,1200,2025-08-29_17-19-18,78,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756480758,50.0,93600,9767.270104885101,155.27251029014587,78
+94800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 124008.762, 'num_steps_sampled': 94800, 'update_time_ms': 2.44, 'num_steps_trained': 94800, 'load_time_ms': 0.644, 'default': {'kl': 0.01609645038843155, 'cur_lr': 4.999999873689376e-05, 'entropy': 17.04368019104004, 'total_loss': 314.5567626953125, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.15425236523151398, 'vf_explained_var': 0.8700137138366699, 'vf_loss': 314.6947021484375}, 'grad_time_ms': 759.731}",3934253,9861.234502792358,-196.28833283553197,cda-server-6,24,-235.19605511971818,{},1896,10.157.146.6,{},-164.4817344017371,0,1200,2025-08-29_17-20-52,79,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756480852,50.0,94800,9861.234502792358,93.96439790725708,79
+96000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 119963.043, 'num_steps_sampled': 96000, 'update_time_ms': 2.322, 'num_steps_trained': 96000, 'load_time_ms': 0.648, 'default': {'kl': 0.017412256449460983, 'cur_lr': 4.999999873689376e-05, 'entropy': 16.991172790527344, 'total_loss': 300.1842956542969, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.15490752458572388, 'vf_explained_var': 0.8661372661590576, 'vf_loss': 300.32159423828125}, 'grad_time_ms': 746.461}",3934253,9966.960909605026,-195.29564945059207,cda-server-6,24,-235.19605511971818,{},1920,10.157.146.6,{},-159.59112747436288,0,1200,2025-08-29_17-22-38,80,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756480958,50.0,96000,9966.960909605026,105.72640681266785,80
+97200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 123085.136, 'num_steps_sampled': 97200, 'update_time_ms': 2.358, 'num_steps_trained': 97200, 'load_time_ms': 0.65, 'default': {'kl': 0.018388399854302406, 'cur_lr': 4.999999873689376e-05, 'entropy': 16.957988739013672, 'total_loss': 435.7005310058594, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.15358111262321472, 'vf_explained_var': 0.8013516068458557, 'vf_loss': 435.8354797363281}, 'grad_time_ms': 738.744}",3934253,10107.12469124794,-195.21138806142923,cda-server-6,24,-238.3792524057925,{},1944,10.157.146.6,{},-159.59112747436288,0,1200,2025-08-29_17-24-58,81,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756481098,50.0,97200,10107.12469124794,140.16378164291382,81
+98400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 122775.768, 'num_steps_sampled': 98400, 'update_time_ms': 2.377, 'num_steps_trained': 98400, 'load_time_ms': 0.669, 'default': {'kl': 0.01676376722753048, 'cur_lr': 4.999999873689376e-05, 'entropy': 16.881912231445312, 'total_loss': 455.4905700683594, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.15382982790470123, 'vf_explained_var': 0.7882832884788513, 'vf_loss': 455.62738037109375}, 'grad_time_ms': 733.703}",3934253,10236.471656560898,-193.51017683169036,cda-server-6,24,-238.3792524057925,{},1968,10.157.146.6,{},-159.59112747436288,0,1200,2025-08-29_17-27-08,82,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756481228,50.0,98400,10236.471656560898,129.34696531295776,82
+99600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 122992.217, 'num_steps_sampled': 99600, 'update_time_ms': 2.418, 'num_steps_trained': 99600, 'load_time_ms': 0.667, 'default': {'kl': 0.016289807856082916, 'cur_lr': 4.999999873689376e-05, 'entropy': 16.883893966674805, 'total_loss': 278.7664794921875, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14257968962192535, 'vf_explained_var': 0.8755154013633728, 'vf_loss': 278.8926086425781}, 'grad_time_ms': 718.016}",3934253,10363.079635858536,-193.8101555905133,cda-server-6,24,-238.3792524057925,{},1992,10.157.146.6,{},-159.59112747436288,0,1200,2025-08-29_17-29-14,83,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756481354,50.0,99600,10363.079635858536,126.60797929763794,83
+100800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 121729.185, 'num_steps_sampled': 100800, 'update_time_ms': 2.458, 'num_steps_trained': 100800, 'load_time_ms': 0.657, 'default': {'kl': 0.01808132603764534, 'cur_lr': 4.999999873689376e-05, 'entropy': 16.88953399658203, 'total_loss': 364.16656494140625, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1611376404762268, 'vf_explained_var': 0.8535504341125488, 'vf_loss': 364.30938720703125}, 'grad_time_ms': 689.813}",3934253,10473.741010189056,-194.8083754000186,cda-server-6,24,-244.0834730499058,{},2016,10.157.146.6,{},-158.90891938732824,0,1200,2025-08-29_17-31-05,84,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756481465,50.0,100800,10473.741010189056,110.66137433052063,84
+102000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 121568.223, 'num_steps_sampled': 102000, 'update_time_ms': 2.407, 'num_steps_trained': 102000, 'load_time_ms': 0.648, 'default': {'kl': 0.016419248655438423, 'cur_lr': 4.999999873689376e-05, 'entropy': 16.816686630249023, 'total_loss': 237.03546142578125, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14151573181152344, 'vf_explained_var': 0.8933451175689697, 'vf_loss': 237.16033935546875}, 'grad_time_ms': 673.73}",3934253,10593.246505260468,-192.0402432573778,cda-server-6,24,-244.0834730499058,{},2040,10.157.146.6,{},-158.90891938732824,0,1200,2025-08-29_17-33-04,85,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756481584,50.0,102000,10593.246505260468,119.50549507141113,85
+103200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 126660.424, 'num_steps_sampled': 103200, 'update_time_ms': 2.477, 'num_steps_trained': 103200, 'load_time_ms': 0.651, 'default': {'kl': 0.017432495951652527, 'cur_lr': 4.999999873689376e-05, 'entropy': 16.767534255981445, 'total_loss': 315.4970397949219, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14589375257492065, 'vf_explained_var': 0.8593595027923584, 'vf_loss': 315.6252746582031}, 'grad_time_ms': 668.927}",3934253,10736.875820159912,-192.24686534121082,cda-server-6,24,-244.0834730499058,{},2064,10.157.146.6,{},-156.46359577259705,0,1200,2025-08-29_17-35-28,86,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756481728,50.0,103200,10736.875820159912,143.62931489944458,86
+104400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 125743.944, 'num_steps_sampled': 104400, 'update_time_ms': 2.492, 'num_steps_trained': 104400, 'load_time_ms': 0.656, 'default': {'kl': 0.017669349908828735, 'cur_lr': 4.999999873689376e-05, 'entropy': 16.812036514282227, 'total_loss': 267.5138854980469, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.15393000841140747, 'vf_explained_var': 0.8753257989883423, 'vf_loss': 267.64990234375}, 'grad_time_ms': 668.674}",3934253,10876.206056833267,-191.51076350055698,cda-server-6,24,-244.0834730499058,{},2088,10.157.146.6,{},-156.46359577259705,0,1200,2025-08-29_17-37-47,87,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756481867,50.0,104400,10876.206056833267,139.3302366733551,87
+105600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 120972.7, 'num_steps_sampled': 105600, 'update_time_ms': 2.506, 'num_steps_trained': 105600, 'load_time_ms': 0.623, 'default': {'kl': 0.01689998432993889, 'cur_lr': 4.999999873689376e-05, 'entropy': 16.69136619567871, 'total_loss': 439.05120849609375, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1567053645849228, 'vf_explained_var': 0.805030107498169, 'vf_loss': 439.1907958984375}, 'grad_time_ms': 681.062}",3934253,10983.889906644821,-189.84582066774183,cda-server-6,24,-240.50411683754677,{},2112,10.157.146.6,{},-152.51348529183588,0,1200,2025-08-29_17-39-35,88,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756481975,50.0,105600,10983.889906644821,107.68384981155396,88
+106800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 123934.882, 'num_steps_sampled': 106800, 'update_time_ms': 2.49, 'num_steps_trained': 106800, 'load_time_ms': 0.626, 'default': {'kl': 0.01723390817642212, 'cur_lr': 4.999999873689376e-05, 'entropy': 16.839763641357422, 'total_loss': 313.3089294433594, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14374259114265442, 'vf_explained_var': 0.8504605889320374, 'vf_loss': 313.4351806640625}, 'grad_time_ms': 669.345}",3934253,11107.359429359436,-190.61900295321735,cda-server-6,24,-240.50411683754677,{},2136,10.157.146.6,{},-152.51348529183588,0,1200,2025-08-29_17-41-39,89,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756482099,50.0,106800,11107.359429359436,123.46952271461487,89
+108000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 126152.382, 'num_steps_sampled': 108000, 'update_time_ms': 2.516, 'num_steps_trained': 108000, 'load_time_ms': 0.623, 'default': {'kl': 0.01680140011012554, 'cur_lr': 4.999999873689376e-05, 'entropy': 16.745079040527344, 'total_loss': 342.0080871582031, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.15599854290485382, 'vf_explained_var': 0.8507482409477234, 'vf_loss': 342.14703369140625}, 'grad_time_ms': 659.328}",3934253,11235.161835432053,-190.20998737125626,cda-server-6,24,-240.50411683754677,{},2160,10.157.146.6,{},-152.51348529183588,0,1200,2025-08-29_17-43-46,90,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756482226,50.0,108000,11235.161835432053,127.80240607261658,90
+109200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 124292.415, 'num_steps_sampled': 109200, 'update_time_ms': 2.439, 'num_steps_trained': 109200, 'load_time_ms': 0.617, 'default': {'kl': 0.015435642562806606, 'cur_lr': 4.999999873689376e-05, 'entropy': 16.718061447143555, 'total_loss': 403.6151123046875, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.129756897687912, 'vf_explained_var': 0.8099173903465271, 'vf_loss': 403.729248046875}, 'grad_time_ms': 640.826}",3934253,11356.541090488434,-189.15599179625715,cda-server-6,24,-240.14707734147564,{},2184,10.157.146.6,{},-152.51348529183588,0,1200,2025-08-29_17-45-48,91,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756482348,50.0,109200,11356.541090488434,121.37925505638123,91
+110400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 121373.638, 'num_steps_sampled': 110400, 'update_time_ms': 2.509, 'num_steps_trained': 110400, 'load_time_ms': 0.598, 'default': {'kl': 0.015910038724541664, 'cur_lr': 4.999999873689376e-05, 'entropy': 16.68692970275879, 'total_loss': 359.96844482421875, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.15589465200901031, 'vf_explained_var': 0.8525227904319763, 'vf_loss': 360.1082458496094}, 'grad_time_ms': 650.758}",3934253,11456.798621892929,-185.9974027787964,cda-server-6,24,-240.14707734147564,{},2208,10.157.146.6,{},-152.51348529183588,0,1200,2025-08-29_17-47-28,92,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756482448,50.0,110400,11456.798621892929,100.25753140449524,92
+111600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 120579.803, 'num_steps_sampled': 111600, 'update_time_ms': 2.452, 'num_steps_trained': 111600, 'load_time_ms': 0.598, 'default': {'kl': 0.016870131716132164, 'cur_lr': 4.999999873689376e-05, 'entropy': 16.627105712890625, 'total_loss': 202.50332641601562, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13515739142894745, 'vf_explained_var': 0.9027056097984314, 'vf_loss': 202.62139892578125}, 'grad_time_ms': 664.662}",3934253,11575.607246160507,-184.28075541258278,cda-server-6,24,-240.14707734147564,{},2232,10.157.146.6,{},-156.2375228182839,0,1200,2025-08-29_17-49-27,93,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756482567,50.0,111600,11575.607246160507,118.80862426757812,93
+112800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 118513.786, 'num_steps_sampled': 112800, 'update_time_ms': 2.458, 'num_steps_trained': 112800, 'load_time_ms': 0.604, 'default': {'kl': 0.01635323092341423, 'cur_lr': 4.999999873689376e-05, 'entropy': 16.571773529052734, 'total_loss': 202.59608459472656, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13777993619441986, 'vf_explained_var': 0.8907999396324158, 'vf_loss': 202.71730041503906}, 'grad_time_ms': 689.211}",3934253,11665.854831933975,-183.06815936431977,cda-server-6,24,-230.12884374648553,{},2256,10.157.146.6,{},-155.35197419791174,0,1200,2025-08-29_17-50-57,94,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756482657,50.0,112800,11665.854831933975,90.24758577346802,94
+114000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 118112.503, 'num_steps_sampled': 114000, 'update_time_ms': 2.541, 'num_steps_trained': 114000, 'load_time_ms': 0.638, 'default': {'kl': 0.01679901033639908, 'cur_lr': 4.999999873689376e-05, 'entropy': 16.693180084228516, 'total_loss': 392.57073974609375, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.15203702449798584, 'vf_explained_var': 0.8344202637672424, 'vf_loss': 392.70574951171875}, 'grad_time_ms': 689.018}",3934253,11781.346488714218,-184.8951815855976,cda-server-6,24,-236.2370975894316,{},2280,10.157.146.6,{},-155.35197419791174,0,1200,2025-08-29_17-52-53,95,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756482773,50.0,114000,11781.346488714218,115.49165678024292,95
+115200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 113381.279, 'num_steps_sampled': 115200, 'update_time_ms': 2.48, 'num_steps_trained': 115200, 'load_time_ms': 0.636, 'default': {'kl': 0.017182350158691406, 'cur_lr': 4.999999873689376e-05, 'entropy': 16.59419822692871, 'total_loss': 327.04345703125, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14678317308425903, 'vf_explained_var': 0.8305256366729736, 'vf_loss': 327.1728515625}, 'grad_time_ms': 690.153}",3934253,11877.674539804459,-184.5234958852344,cda-server-6,24,-236.2370975894316,{},2304,10.157.146.6,{},-153.70410475921176,0,1200,2025-08-29_17-54-29,96,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756482869,50.0,115200,11877.674539804459,96.32805109024048,96
+116400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 113362.315, 'num_steps_sampled': 116400, 'update_time_ms': 2.472, 'num_steps_trained': 116400, 'load_time_ms': 0.636, 'default': {'kl': 0.017371561378240585, 'cur_lr': 4.999999873689376e-05, 'entropy': 16.490705490112305, 'total_loss': 211.58644104003906, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14773549139499664, 'vf_explained_var': 0.8857764005661011, 'vf_loss': 211.7165985107422}, 'grad_time_ms': 678.808}",3934253,12016.701777458191,-182.23667207649603,cda-server-6,24,-236.2370975894316,{},2328,10.157.146.6,{},-153.70410475921176,0,1200,2025-08-29_17-56-48,97,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756483008,50.0,116400,12016.701777458191,139.0272376537323,97
+117600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 113857.263, 'num_steps_sampled': 117600, 'update_time_ms': 2.434, 'num_steps_trained': 117600, 'load_time_ms': 0.639, 'default': {'kl': 0.015952367335557938, 'cur_lr': 4.999999873689376e-05, 'entropy': 16.48573112487793, 'total_loss': 260.2500915527344, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12603165209293365, 'vf_explained_var': 0.8630385994911194, 'vf_loss': 260.3599853515625}, 'grad_time_ms': 671.948}",3934253,12129.268003940582,-181.74283275609204,cda-server-6,24,-236.2370975894316,{},2352,10.157.146.6,{},-153.70410475921176,0,1200,2025-08-29_17-58-41,98,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756483121,50.0,117600,12129.268003940582,112.56622648239136,98
+118800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 111223.736, 'num_steps_sampled': 118800, 'update_time_ms': 2.448, 'num_steps_trained': 118800, 'load_time_ms': 0.636, 'default': {'kl': 0.01815967448055744, 'cur_lr': 4.999999873689376e-05, 'entropy': 16.53923225402832, 'total_loss': 143.78089904785156, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.15580715239048004, 'vf_explained_var': 0.9172838926315308, 'vf_loss': 143.91831970214844}, 'grad_time_ms': 669.875}",3934253,12226.381784915924,-177.3244781328566,cda-server-6,24,-223.9890509880485,{},2376,10.157.146.6,{},-153.70410475921176,0,1200,2025-08-29_18-00-18,99,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756483218,50.0,118800,12226.381784915924,97.1137809753418,99
+120000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 110873.774, 'num_steps_sampled': 120000, 'update_time_ms': 2.437, 'num_steps_trained': 120000, 'load_time_ms': 0.633, 'default': {'kl': 0.016468364745378494, 'cur_lr': 4.999999873689376e-05, 'entropy': 16.499685287475586, 'total_loss': 194.18292236328125, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14151686429977417, 'vf_explained_var': 0.9113339185714722, 'vf_loss': 194.30775451660156}, 'grad_time_ms': 686.587}",3934253,12350.85043144226,-177.8404594305838,cda-server-6,24,-223.9890509880485,{},2400,10.157.146.6,{},-153.55256333374888,0,1200,2025-08-29_18-02-22,100,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756483342,50.0,120000,12350.85043144226,124.46864652633667,100
+121200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 111372.389, 'num_steps_sampled': 121200, 'update_time_ms': 2.463, 'num_steps_trained': 121200, 'load_time_ms': 0.638, 'default': {'kl': 0.015280604362487793, 'cur_lr': 4.999999873689376e-05, 'entropy': 16.443017959594727, 'total_loss': 351.51165771484375, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14789825677871704, 'vf_explained_var': 0.8464590311050415, 'vf_loss': 351.64410400390625}, 'grad_time_ms': 706.421}",3934253,12477.413677215576,-177.50363631361705,cda-server-6,24,-237.2865543757983,{},2424,10.157.146.6,{},-153.55256333374888,0,1200,2025-08-29_18-04-29,101,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756483469,50.0,121200,12477.413677215576,126.56324577331543,101
+122400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 116905.836, 'num_steps_sampled': 122400, 'update_time_ms': 2.469, 'num_steps_trained': 122400, 'load_time_ms': 0.641, 'default': {'kl': 0.017815299332141876, 'cur_lr': 4.999999873689376e-05, 'entropy': 16.31475067138672, 'total_loss': 196.4730682373047, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1293335109949112, 'vf_explained_var': 0.8965740203857422, 'vf_loss': 196.5843505859375}, 'grad_time_ms': 698.142}",3934253,12632.923156023026,-176.86709660749798,cda-server-6,24,-237.2865543757983,{},2448,10.157.146.6,{},-152.76490594743353,0,1200,2025-08-29_18-07-04,102,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756483624,50.0,122400,12632.923156023026,155.50947880744934,102
+123600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 113790.619, 'num_steps_sampled': 123600, 'update_time_ms': 2.447, 'num_steps_trained': 123600, 'load_time_ms': 0.645, 'default': {'kl': 0.01563744992017746, 'cur_lr': 4.999999873689376e-05, 'entropy': 16.338083267211914, 'total_loss': 151.3992919921875, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14109545946121216, 'vf_explained_var': 0.9077298045158386, 'vf_loss': 151.52456665039062}, 'grad_time_ms': 691.221}",3934253,12720.509969711304,-175.99193290191877,cda-server-6,24,-237.2865543757983,{},2472,10.157.146.6,{},-147.00338003430244,0,1200,2025-08-29_18-08-32,103,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756483712,50.0,123600,12720.509969711304,87.5868136882782,103
+124800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 114789.433, 'num_steps_sampled': 124800, 'update_time_ms': 2.446, 'num_steps_trained': 124800, 'load_time_ms': 0.643, 'default': {'kl': 0.016803696751594543, 'cur_lr': 4.999999873689376e-05, 'entropy': 16.251419067382812, 'total_loss': 151.03599548339844, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13679622113704681, 'vf_explained_var': 0.8967797756195068, 'vf_loss': 151.15579223632812}, 'grad_time_ms': 680.611}",3934253,12820.63918542862,-172.28727233323306,cda-server-6,24,-237.2865543757983,{},2496,10.157.146.6,{},-147.00338003430244,0,1200,2025-08-29_18-10-12,104,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756483812,50.0,124800,12820.63918542862,100.12921571731567,104
+126000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 116485.609, 'num_steps_sampled': 126000, 'update_time_ms': 2.39, 'num_steps_trained': 126000, 'load_time_ms': 0.609, 'default': {'kl': 0.016549859195947647, 'cur_lr': 4.999999873689376e-05, 'entropy': 16.36214256286621, 'total_loss': 301.8638916015625, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1474459022283554, 'vf_explained_var': 0.866607666015625, 'vf_loss': 301.99456787109375}, 'grad_time_ms': 696.338}",3934253,12953.248711824417,-173.19153721824375,cda-server-6,24,-228.24084146483688,{},2520,10.157.146.6,{},-147.00338003430244,0,1200,2025-08-29_18-12-25,105,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756483945,50.0,126000,12953.248711824417,132.60952639579773,105
+127200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 116791.533, 'num_steps_sampled': 127200, 'update_time_ms': 2.492, 'num_steps_trained': 127200, 'load_time_ms': 0.608, 'default': {'kl': 0.01571556180715561, 'cur_lr': 4.999999873689376e-05, 'entropy': 16.307790756225586, 'total_loss': 150.79681396484375, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1507481187582016, 'vf_explained_var': 0.9222152233123779, 'vf_loss': 150.93165588378906}, 'grad_time_ms': 712.378}",3934253,13052.797505378723,-172.00315892886397,cda-server-6,24,-228.24084146483688,{},2544,10.157.146.6,{},-147.00338003430244,0,1200,2025-08-29_18-14-04,106,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756484044,50.0,127200,13052.797505378723,99.54879355430603,106
+128400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 114973.748, 'num_steps_sampled': 128400, 'update_time_ms': 2.506, 'num_steps_trained': 128400, 'load_time_ms': 0.604, 'default': {'kl': 0.016194190829992294, 'cur_lr': 4.999999873689376e-05, 'entropy': 16.16952896118164, 'total_loss': 188.38453674316406, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12826089560985565, 'vf_explained_var': 0.8953073024749756, 'vf_loss': 188.4963836669922}, 'grad_time_ms': 717.54}",3934253,13173.698773622513,-171.93660035227012,cda-server-6,24,-228.24084146483688,{},2568,10.157.146.6,{},-154.05940271714744,0,1200,2025-08-29_18-16-05,107,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756484165,50.0,128400,13173.698773622513,120.90126824378967,107
+129600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 113312.925, 'num_steps_sampled': 129600, 'update_time_ms': 2.55, 'num_steps_trained': 129600, 'load_time_ms': 0.605, 'default': {'kl': 0.015851590782403946, 'cur_lr': 4.999999873689376e-05, 'entropy': 16.239519119262695, 'total_loss': 147.88504028320312, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13959604501724243, 'vf_explained_var': 0.9218350648880005, 'vf_loss': 148.0085906982422}, 'grad_time_ms': 717.604}",3934253,13269.655487060547,-172.38800804952464,cda-server-6,24,-228.24084146483688,{},2592,10.157.146.6,{},-154.05940271714744,0,1200,2025-08-29_18-17-41,108,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756484261,50.0,129600,13269.655487060547,95.95671343803406,108
+130800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 117926.066, 'num_steps_sampled': 130800, 'update_time_ms': 2.534, 'num_steps_trained': 130800, 'load_time_ms': 0.605, 'default': {'kl': 0.017764806747436523, 'cur_lr': 4.999999873689376e-05, 'entropy': 16.124168395996094, 'total_loss': 137.75177001953125, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1361183226108551, 'vf_explained_var': 0.9212970733642578, 'vf_loss': 137.86990356445312}, 'grad_time_ms': 713.76}",3934253,13412.86143398285,-170.3833210749433,cda-server-6,24,-228.24084146483688,{},2616,10.157.146.6,{},-152.87937694663307,0,1200,2025-08-29_18-20-04,109,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756484404,50.0,130800,13412.86143398285,143.20594692230225,109
+132000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 115004.932, 'num_steps_sampled': 132000, 'update_time_ms': 2.5, 'num_steps_trained': 132000, 'load_time_ms': 0.606, 'default': {'kl': 0.01462532114237547, 'cur_lr': 4.999999873689376e-05, 'entropy': 16.235450744628906, 'total_loss': 312.9838562011719, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12912686169147491, 'vf_explained_var': 0.8360607624053955, 'vf_loss': 313.09820556640625}, 'grad_time_ms': 720.145}",3934253,13508.183268070221,-170.65942585523808,cda-server-6,24,-235.71808497253244,{},2640,10.157.146.6,{},-152.87937694663307,0,1200,2025-08-29_18-21-40,110,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756484500,50.0,132000,13508.183268070221,95.32183408737183,110
+133200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 110919.135, 'num_steps_sampled': 133200, 'update_time_ms': 2.516, 'num_steps_trained': 133200, 'load_time_ms': 0.602, 'default': {'kl': 0.015565955080091953, 'cur_lr': 4.999999873689376e-05, 'entropy': 16.11193084716797, 'total_loss': 167.30422973632812, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12671928107738495, 'vf_explained_var': 0.8889510035514832, 'vf_loss': 167.4152069091797}, 'grad_time_ms': 730.481}",3934253,13593.992814540863,-169.53994936434026,cda-server-6,24,-235.71808497253244,{},2664,10.157.146.6,{},-151.91960658986196,0,1200,2025-08-29_18-23-06,111,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756484586,50.0,133200,13593.992814540863,85.80954647064209,111
+134400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 106473.289, 'num_steps_sampled': 134400, 'update_time_ms': 2.471, 'num_steps_trained': 134400, 'load_time_ms': 0.613, 'default': {'kl': 0.016392739489674568, 'cur_lr': 4.999999873689376e-05, 'entropy': 16.099382400512695, 'total_loss': 139.86541748046875, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13682633638381958, 'vf_explained_var': 0.9135033488273621, 'vf_loss': 139.98565673828125}, 'grad_time_ms': 731.735}",3934253,13705.056573867798,-169.04459473864682,cda-server-6,24,-235.71808497253244,{},2688,10.157.146.6,{},-151.91960658986196,0,1200,2025-08-29_18-24-57,112,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756484697,50.0,134400,13705.056573867798,111.06375932693481,112
+135600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 110040.376, 'num_steps_sampled': 135600, 'update_time_ms': 2.501, 'num_steps_trained': 135600, 'load_time_ms': 0.617, 'default': {'kl': 0.013566691428422928, 'cur_lr': 4.999999873689376e-05, 'entropy': 16.00737762451172, 'total_loss': 143.7192840576172, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.10995927453041077, 'vf_explained_var': 0.9082484841346741, 'vf_loss': 143.8155059814453}, 'grad_time_ms': 731.457}",3934253,13828.311593294144,-167.68415176884224,cda-server-6,24,-235.71808497253244,{},2712,10.157.146.6,{},-151.91960658986196,0,1200,2025-08-29_18-27-00,113,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756484820,50.0,135600,13828.311593294144,123.25501942634583,113
+136800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 111408.427, 'num_steps_sampled': 136800, 'update_time_ms': 2.489, 'num_steps_trained': 136800, 'load_time_ms': 0.623, 'default': {'kl': 0.01726832240819931, 'cur_lr': 4.999999873689376e-05, 'entropy': 16.0635929107666, 'total_loss': 108.0864486694336, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.15256041288375854, 'vf_explained_var': 0.9264135360717773, 'vf_loss': 108.22151947021484}, 'grad_time_ms': 730.998}",3934253,13942.116770505905,-164.90202950385196,cda-server-6,24,-210.5466717526865,{},2736,10.157.146.6,{},-151.91960658986196,0,1200,2025-08-29_18-28-54,114,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756484934,50.0,136800,13942.116770505905,113.80517721176147,114
+138000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 108091.929, 'num_steps_sampled': 138000, 'update_time_ms': 2.5, 'num_steps_trained': 138000, 'load_time_ms': 0.642, 'default': {'kl': 0.015876974910497665, 'cur_lr': 4.999999873689376e-05, 'entropy': 16.05762481689453, 'total_loss': 195.14218139648438, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13380476832389832, 'vf_explained_var': 0.8996444344520569, 'vf_loss': 195.25990295410156}, 'grad_time_ms': 738.229}",3934253,14041.634573221207,-165.66463873140276,cda-server-6,24,-210.5466717526865,{},2760,10.157.146.6,{},-151.9062574171948,0,1200,2025-08-29_18-30-33,115,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756485033,50.0,138000,14041.634573221207,99.51780271530151,115
+139200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 108473.617, 'num_steps_sampled': 139200, 'update_time_ms': 2.427, 'num_steps_trained': 139200, 'load_time_ms': 0.652, 'default': {'kl': 0.014280934818089008, 'cur_lr': 4.999999873689376e-05, 'entropy': 15.890507698059082, 'total_loss': 205.2573699951172, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12453499436378479, 'vf_explained_var': 0.874573826789856, 'vf_loss': 205.367431640625}, 'grad_time_ms': 727.677}",3934253,14144.893615484238,-164.95825059903262,cda-server-6,24,-223.89982514164038,{},2784,10.157.146.6,{},-145.5091252897312,0,1200,2025-08-29_18-32-17,116,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756485137,50.0,139200,14144.893615484238,103.259042263031,116
+140400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 106538.732, 'num_steps_sampled': 140400, 'update_time_ms': 2.408, 'num_steps_trained': 140400, 'load_time_ms': 0.652, 'default': {'kl': 0.015535826794803143, 'cur_lr': 4.999999873689376e-05, 'entropy': 15.938193321228027, 'total_loss': 172.31068420410156, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1428217738866806, 'vf_explained_var': 0.8901649117469788, 'vf_loss': 172.43780517578125}, 'grad_time_ms': 733.555}",3934253,14246.504431962967,-165.22754313461462,cda-server-6,24,-223.89982514164038,{},2808,10.157.146.6,{},-142.7293238662343,0,1200,2025-08-29_18-33-58,117,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756485238,50.0,140400,14246.504431962967,101.61081647872925,117
+141600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 109051.889, 'num_steps_sampled': 141600, 'update_time_ms': 2.398, 'num_steps_trained': 141600, 'load_time_ms': 0.679, 'default': {'kl': 0.015633488073945045, 'cur_lr': 4.999999873689376e-05, 'entropy': 15.816776275634766, 'total_loss': 69.72467803955078, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14318110048770905, 'vf_explained_var': 0.9485836029052734, 'vf_loss': 69.85203552246094}, 'grad_time_ms': 735.071}",3934253,14367.609112024307,-164.35507615599417,cda-server-6,24,-223.89982514164038,{},2832,10.157.146.6,{},-142.7293238662343,0,1200,2025-08-29_18-35-59,118,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756485359,50.0,141600,14367.609112024307,121.10468006134033,118
+142800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 104404.834, 'num_steps_sampled': 142800, 'update_time_ms': 2.474, 'num_steps_trained': 142800, 'load_time_ms': 0.681, 'default': {'kl': 0.016464034095406532, 'cur_lr': 4.999999873689376e-05, 'entropy': 15.754087448120117, 'total_loss': 113.65615844726562, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13386313617229462, 'vf_explained_var': 0.9267792105674744, 'vf_loss': 113.77334594726562}, 'grad_time_ms': 744.731}",3934253,14464.442219495773,-163.03480213112596,cda-server-6,24,-223.89982514164038,{},2856,10.157.146.6,{},-142.7293238662343,0,1200,2025-08-29_18-37-36,119,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756485456,50.0,142800,14464.442219495773,96.83310747146606,119
+144000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 106612.481, 'num_steps_sampled': 144000, 'update_time_ms': 2.491, 'num_steps_trained': 144000, 'load_time_ms': 0.717, 'default': {'kl': 0.016114315018057823, 'cur_lr': 4.999999873689376e-05, 'entropy': 15.789478302001953, 'total_loss': 94.16368865966797, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1432938277721405, 'vf_explained_var': 0.9434927701950073, 'vf_loss': 94.2906723022461}, 'grad_time_ms': 744.017}",3934253,14581.834088563919,-162.69901184530545,cda-server-6,24,-227.78725353717078,{},2880,10.157.146.6,{},-142.7293238662343,0,1200,2025-08-29_18-39-34,120,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756485574,50.0,144000,14581.834088563919,117.39186906814575,120
+145200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 108981.101, 'num_steps_sampled': 145200, 'update_time_ms': 2.477, 'num_steps_trained': 145200, 'load_time_ms': 0.725, 'default': {'kl': 0.015237444080412388, 'cur_lr': 4.999999873689376e-05, 'entropy': 15.758185386657715, 'total_loss': 102.03178405761719, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13658057153224945, 'vf_explained_var': 0.9302859902381897, 'vf_loss': 102.15293884277344}, 'grad_time_ms': 741.072}",3934253,14691.300345897675,-162.34126236260016,cda-server-6,24,-227.78725353717078,{},2904,10.157.146.6,{},-142.7293238662343,0,1200,2025-08-29_18-41-23,121,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756485683,50.0,145200,14691.300345897675,109.4662573337555,121
+146400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 107680.629, 'num_steps_sampled': 146400, 'update_time_ms': 2.47, 'num_steps_trained': 146400, 'load_time_ms': 0.712, 'default': {'kl': 0.015177453868091106, 'cur_lr': 4.999999873689376e-05, 'entropy': 15.74573802947998, 'total_loss': 118.48878479003906, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13045638799667358, 'vf_explained_var': 0.9191161394119263, 'vf_loss': 118.60386657714844}, 'grad_time_ms': 752.242}",3934253,14789.470313310623,-162.87203130228417,cda-server-6,24,-227.78725353717078,{},2928,10.157.146.6,{},-152.73308602597515,0,1200,2025-08-29_18-43-01,122,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756485781,50.0,146400,14789.470313310623,98.16996741294861,122
+147600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 106273.709, 'num_steps_sampled': 147600, 'update_time_ms': 2.451, 'num_steps_trained': 147600, 'load_time_ms': 0.704, 'default': {'kl': 0.0166685301810503, 'cur_lr': 4.999999873689376e-05, 'entropy': 15.755717277526855, 'total_loss': 85.09651947021484, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13483008742332458, 'vf_explained_var': 0.94509357213974, 'vf_loss': 85.21446228027344}, 'grad_time_ms': 757.57}",3934253,14898.709458351135,-162.7500207409775,cda-server-6,24,-227.78725353717078,{},2952,10.157.146.6,{},-152.3745728662264,0,1200,2025-08-29_18-44-51,123,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756485891,50.0,147600,14898.709458351135,109.23914504051208,123
+148800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 105721.462, 'num_steps_sampled': 148800, 'update_time_ms': 2.425, 'num_steps_trained': 148800, 'load_time_ms': 0.702, 'default': {'kl': 0.016147322952747345, 'cur_lr': 4.999999873689376e-05, 'entropy': 15.723305702209473, 'total_loss': 119.27034759521484, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13226349651813507, 'vf_explained_var': 0.9263350963592529, 'vf_loss': 119.38626098632812}, 'grad_time_ms': 760.658}",3934253,15007.022426128387,-162.13066795735972,cda-server-6,24,-222.88002538887568,{},2976,10.157.146.6,{},-152.3745728662264,0,1200,2025-08-29_18-46-39,124,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756485999,50.0,148800,15007.022426128387,108.3129677772522,124
+150000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 105027.21, 'num_steps_sampled': 150000, 'update_time_ms': 2.406, 'num_steps_trained': 150000, 'load_time_ms': 0.684, 'default': {'kl': 0.016684727743268013, 'cur_lr': 4.999999873689376e-05, 'entropy': 15.590709686279297, 'total_loss': 77.29227447509766, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.15790709853172302, 'vf_explained_var': 0.9456202387809753, 'vf_loss': 77.43329620361328}, 'grad_time_ms': 739.797}",3934253,15099.387891292572,-161.97012023780732,cda-server-6,24,-196.12841532848358,{},3000,10.157.146.6,{},-152.3745728662264,0,1200,2025-08-29_18-48-11,125,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756486091,50.0,150000,15099.387891292572,92.36546516418457,125
+151200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 104640.818, 'num_steps_sampled': 151200, 'update_time_ms': 2.413, 'num_steps_trained': 151200, 'load_time_ms': 0.675, 'default': {'kl': 0.015469375997781754, 'cur_lr': 4.999999873689376e-05, 'entropy': 15.370908737182617, 'total_loss': 56.76454162597656, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.134979248046875, 'vf_explained_var': 0.9565190076828003, 'vf_loss': 56.88386154174805}, 'grad_time_ms': 736.857}",3934253,15198.75416469574,-161.44737111172932,cda-server-6,24,-196.12841532848358,{},3024,10.157.146.6,{},-152.36681112874857,0,1200,2025-08-29_18-49-51,126,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756486191,50.0,151200,15198.75416469574,99.36627340316772,126
+152400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 105887.097, 'num_steps_sampled': 152400, 'update_time_ms': 2.475, 'num_steps_trained': 152400, 'load_time_ms': 0.681, 'default': {'kl': 0.017822375521063805, 'cur_lr': 4.999999873689376e-05, 'entropy': 15.559758186340332, 'total_loss': 93.37821197509766, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.15308107435703278, 'vf_explained_var': 0.9373614192008972, 'vf_loss': 93.51325225830078}, 'grad_time_ms': 745.519}",3934253,15312.915374994278,-160.98241869124263,cda-server-6,24,-196.12841532848358,{},3048,10.157.146.6,{},-152.04356348579236,0,1200,2025-08-29_18-51-45,127,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756486305,50.0,152400,15312.915374994278,114.16121029853821,127
+153600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 104508.826, 'num_steps_sampled': 153600, 'update_time_ms': 2.481, 'num_steps_trained': 153600, 'load_time_ms': 0.652, 'default': {'kl': 0.01617765799164772, 'cur_lr': 4.999999873689376e-05, 'entropy': 15.50704574584961, 'total_loss': 83.95415496826172, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1417163461446762, 'vf_explained_var': 0.9401677250862122, 'vf_loss': 84.07949829101562}, 'grad_time_ms': 749.997}",3934253,15420.28134059906,-160.89652670146586,cda-server-6,24,-196.12841532848358,{},3072,10.157.146.6,{},-149.96283505629324,0,1200,2025-08-29_18-53-32,128,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756486412,50.0,153600,15420.28134059906,107.3659656047821,128
+154800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 102807.243, 'num_steps_sampled': 154800, 'update_time_ms': 2.451, 'num_steps_trained': 154800, 'load_time_ms': 0.655, 'default': {'kl': 0.012704680673778057, 'cur_lr': 4.999999873689376e-05, 'entropy': 15.458696365356445, 'total_loss': 92.21479034423828, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1063886359333992, 'vf_explained_var': 0.9457715153694153, 'vf_loss': 92.30831909179688}, 'grad_time_ms': 746.283}",3934253,15500.06122136116,-160.04755913315933,cda-server-6,24,-196.3103197721101,{},3096,10.157.146.6,{},-149.96283505629324,0,1200,2025-08-29_18-54-52,129,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756486492,50.0,154800,15500.06122136116,79.77988076210022,129
+156000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 103082.504, 'num_steps_sampled': 156000, 'update_time_ms': 2.458, 'num_steps_trained': 156000, 'load_time_ms': 0.624, 'default': {'kl': 0.015438392758369446, 'cur_lr': 4.999999873689376e-05, 'entropy': 15.547718048095703, 'total_loss': 95.83563232421875, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11330587416887283, 'vf_explained_var': 0.9335554838180542, 'vf_loss': 95.93331146240234}, 'grad_time_ms': 745.026}",3934253,15620.19240450859,-160.06733349064882,cda-server-6,24,-196.3103197721101,{},3120,10.157.146.6,{},-149.96283505629324,0,1200,2025-08-29_18-56-52,130,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756486612,50.0,156000,15620.19240450859,120.13118314743042,130
+157200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 102758.833, 'num_steps_sampled': 157200, 'update_time_ms': 2.466, 'num_steps_trained': 157200, 'load_time_ms': 0.615, 'default': {'kl': 0.01456800103187561, 'cur_lr': 4.999999873689376e-05, 'entropy': 15.418561935424805, 'total_loss': 153.66900634765625, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13157440721988678, 'vf_explained_var': 0.8986132740974426, 'vf_loss': 153.78582763671875}, 'grad_time_ms': 742.747}",3934253,15726.398941993713,-159.49411724190676,cda-server-6,24,-202.14320656776363,{},3144,10.157.146.6,{},-149.96283505629324,0,1200,2025-08-29_18-58-38,131,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756486718,50.0,157200,15726.398941993713,106.20653748512268,131
+158400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 103739.538, 'num_steps_sampled': 158400, 'update_time_ms': 2.501, 'num_steps_trained': 158400, 'load_time_ms': 0.614, 'default': {'kl': 0.016706252470612526, 'cur_lr': 4.999999873689376e-05, 'entropy': 15.317606925964355, 'total_loss': 98.88345336914062, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1393449604511261, 'vf_explained_var': 0.933607816696167, 'vf_loss': 99.0058822631836}, 'grad_time_ms': 710.562}",3934253,15834.054826974869,-159.85676489001088,cda-server-6,24,-202.14320656776363,{},3168,10.157.146.6,{},-150.4201484124871,0,1200,2025-08-29_19-00-26,132,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756486826,50.0,158400,15834.054826974869,107.6558849811554,132
+159600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 103062.235, 'num_steps_sampled': 159600, 'update_time_ms': 2.536, 'num_steps_trained': 159600, 'load_time_ms': 0.624, 'default': {'kl': 0.016824984923005104, 'cur_lr': 4.999999873689376e-05, 'entropy': 15.423134803771973, 'total_loss': 95.9524917602539, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12300290167331696, 'vf_explained_var': 0.9352494478225708, 'vf_loss': 96.05846405029297}, 'grad_time_ms': 700.816}",3934253,15936.423606872559,-159.00856716484094,cda-server-6,24,-202.14320656776363,{},3192,10.157.146.6,{},-147.035794824748,0,1200,2025-08-29_19-02-08,133,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756486928,50.0,159600,15936.423606872559,102.36877989768982,133
+160800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 104477.854, 'num_steps_sampled': 160800, 'update_time_ms': 2.555, 'num_steps_trained': 160800, 'load_time_ms': 0.651, 'default': {'kl': 0.01582499034702778, 'cur_lr': 4.999999873689376e-05, 'entropy': 15.176227569580078, 'total_loss': 150.65570068359375, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14522379636764526, 'vf_explained_var': 0.9030457735061646, 'vf_loss': 150.78488159179688}, 'grad_time_ms': 673.787}",3934253,16058.623097419739,-159.1646082147905,cda-server-6,24,-202.14320656776363,{},3216,10.157.146.6,{},-147.035794824748,0,1200,2025-08-29_19-04-11,134,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756487051,50.0,160800,16058.623097419739,122.19949054718018,134
+162000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 106125.728, 'num_steps_sampled': 162000, 'update_time_ms': 2.586, 'num_steps_trained': 162000, 'load_time_ms': 0.656, 'default': {'kl': 0.01506539061665535, 'cur_lr': 4.999999873689376e-05, 'entropy': 15.253995895385742, 'total_loss': 106.41146850585938, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11677607893943787, 'vf_explained_var': 0.9423614144325256, 'vf_loss': 106.51298522949219}, 'grad_time_ms': 696.908}",3934253,16167.699571847916,-158.73587543872088,cda-server-6,24,-193.33495906545753,{},3240,10.157.146.6,{},-147.035794824748,0,1200,2025-08-29_19-06-00,135,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756487160,50.0,162000,16167.699571847916,109.07647442817688,135
+163200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 106775.9, 'num_steps_sampled': 163200, 'update_time_ms': 2.556, 'num_steps_trained': 163200, 'load_time_ms': 0.653, 'default': {'kl': 0.014284864068031311, 'cur_lr': 4.999999873689376e-05, 'entropy': 15.149747848510742, 'total_loss': 78.15953063964844, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13005171716213226, 'vf_explained_var': 0.9475562572479248, 'vf_loss': 78.27511596679688}, 'grad_time_ms': 702.728}",3934253,16273.625362873077,-158.2200610019019,cda-server-6,24,-194.0735576508897,{},3264,10.157.146.6,{},-147.035794824748,0,1200,2025-08-29_19-07-46,136,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756487266,50.0,163200,16273.625362873077,105.92579102516174,136
+164400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 105439.688, 'num_steps_sampled': 164400, 'update_time_ms': 2.471, 'num_steps_trained': 164400, 'load_time_ms': 0.652, 'default': {'kl': 0.015326268039643764, 'cur_lr': 4.999999873689376e-05, 'entropy': 15.038931846618652, 'total_loss': 76.04287719726562, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1274718940258026, 'vf_explained_var': 0.9446787238121033, 'vf_loss': 76.15482330322266}, 'grad_time_ms': 704.662}",3934253,16374.442579507828,-158.5093182311461,cda-server-6,24,-194.0735576508897,{},3288,10.157.146.6,{},-151.32592374317068,0,1200,2025-08-29_19-09-26,137,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756487366,50.0,164400,16374.442579507828,100.81721663475037,137
+165600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 105544.13, 'num_steps_sampled': 165600, 'update_time_ms': 2.483, 'num_steps_trained': 165600, 'load_time_ms': 0.653, 'default': {'kl': 0.01429035235196352, 'cur_lr': 4.999999873689376e-05, 'entropy': 15.274619102478027, 'total_loss': 113.89822387695312, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.119236521422863, 'vf_explained_var': 0.9221948981285095, 'vf_loss': 114.00298309326172}, 'grad_time_ms': 691.319}",3934253,16482.721665859222,-158.44117571903706,cda-server-6,24,-195.68461275679073,{},3312,10.157.146.6,{},-151.32592374317068,0,1200,2025-08-29_19-11-15,138,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756487475,50.0,165600,16482.721665859222,108.27908635139465,138
+166800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 108306.367, 'num_steps_sampled': 166800, 'update_time_ms': 2.444, 'num_steps_trained': 166800, 'load_time_ms': 0.647, 'default': {'kl': 0.015218976885080338, 'cur_lr': 4.999999873689376e-05, 'entropy': 15.024642944335938, 'total_loss': 92.8395004272461, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12442895770072937, 'vf_explained_var': 0.9352640509605408, 'vf_loss': 92.94851684570312}, 'grad_time_ms': 685.966}",3934253,16590.070190668106,-158.71721453232985,cda-server-6,24,-195.68461275679073,{},3336,10.157.146.6,{},-146.55230270325862,0,1200,2025-08-29_19-13-02,139,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756487582,50.0,166800,16590.070190668106,107.34852480888367,139
+168000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 107962.214, 'num_steps_sampled': 168000, 'update_time_ms': 2.448, 'num_steps_trained': 168000, 'load_time_ms': 0.642, 'default': {'kl': 0.012888466008007526, 'cur_lr': 4.999999873689376e-05, 'entropy': 15.229165077209473, 'total_loss': 126.61551666259766, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11669489741325378, 'vf_explained_var': 0.9207143783569336, 'vf_loss': 126.71916961669922}, 'grad_time_ms': 678.166}",3934253,16706.68172430992,-159.03158914373972,cda-server-6,24,-209.50328456745822,{},3360,10.157.146.6,{},-141.81058536609197,0,1200,2025-08-29_19-14-59,140,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756487699,50.0,168000,16706.68172430992,116.61153364181519,140
+169200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 108109.572, 'num_steps_sampled': 169200, 'update_time_ms': 2.434, 'num_steps_trained': 169200, 'load_time_ms': 0.641, 'default': {'kl': 0.014938879758119583, 'cur_lr': 4.999999873689376e-05, 'entropy': 15.037114143371582, 'total_loss': 56.33360290527344, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12748420238494873, 'vf_explained_var': 0.9595043659210205, 'vf_loss': 56.44596862792969}, 'grad_time_ms': 681.575}",3934253,16814.394966363907,-158.5527541966109,cda-server-6,24,-209.50328456745822,{},3384,10.157.146.6,{},-141.81058536609197,0,1200,2025-08-29_19-16-46,141,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756487806,50.0,169200,16814.394966363907,107.7132420539856,141
+170400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 106676.728, 'num_steps_sampled': 170400, 'update_time_ms': 2.39, 'num_steps_trained': 170400, 'load_time_ms': 0.64, 'default': {'kl': 0.015551741234958172, 'cur_lr': 4.999999873689376e-05, 'entropy': 15.132568359375, 'total_loss': 95.65824890136719, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12652461230754852, 'vf_explained_var': 0.9271260499954224, 'vf_loss': 95.76902770996094}, 'grad_time_ms': 703.401}",3934253,16907.940058231354,-158.10055911942175,cda-server-6,24,-209.50328456745822,{},3408,10.157.146.6,{},-141.81058536609197,0,1200,2025-08-29_19-18-20,142,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756487900,50.0,170400,16907.940058231354,93.5450918674469,142
+171600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 106873.675, 'num_steps_sampled': 171600, 'update_time_ms': 2.316, 'num_steps_trained': 171600, 'load_time_ms': 0.638, 'default': {'kl': 0.01617261953651905, 'cur_lr': 4.999999873689376e-05, 'entropy': 15.013951301574707, 'total_loss': 65.23526000976562, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13598722219467163, 'vf_explained_var': 0.9518048763275146, 'vf_loss': 65.35486602783203}, 'grad_time_ms': 719.478}",3934253,17012.4382250309,-158.30730094810116,cda-server-6,24,-209.50328456745822,{},3432,10.157.146.6,{},-141.81058536609197,0,1200,2025-08-29_19-20-05,143,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756488005,50.0,171600,17012.4382250309,104.49816679954529,143
+172800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 106235.145, 'num_steps_sampled': 172800, 'update_time_ms': 2.349, 'num_steps_trained': 172800, 'load_time_ms': 0.622, 'default': {'kl': 0.015435976907610893, 'cur_lr': 4.999999873689376e-05, 'entropy': 15.000235557556152, 'total_loss': 62.51327896118164, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13944146037101746, 'vf_explained_var': 0.9515180587768555, 'vf_loss': 62.63710021972656}, 'grad_time_ms': 750.126}",3934253,17128.5585501194,-156.8989274949609,cda-server-6,24,-175.5255590819791,{},3456,10.157.146.6,{},-149.70738469206646,0,1200,2025-08-29_19-22-01,144,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756488121,50.0,172800,17128.5585501194,116.12032508850098,144
+174000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 105283.376, 'num_steps_sampled': 174000, 'update_time_ms': 2.302, 'num_steps_trained': 174000, 'load_time_ms': 0.619, 'default': {'kl': 0.014956353232264519, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.847784996032715, 'total_loss': 104.35578918457031, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12986616790294647, 'vf_explained_var': 0.9379231333732605, 'vf_loss': 104.47049713134766}, 'grad_time_ms': 733.99}",3934253,17227.954606294632,-156.9433194148839,cda-server-6,24,-187.17942537200705,{},3480,10.157.146.6,{},-149.70738469206646,0,1200,2025-08-29_19-23-40,145,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756488220,50.0,174000,17227.954606294632,99.39605617523193,145
+175200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 105196.062, 'num_steps_sampled': 175200, 'update_time_ms': 2.314, 'num_steps_trained': 175200, 'load_time_ms': 0.621, 'default': {'kl': 0.013884143903851509, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.91396713256836, 'total_loss': 66.7122802734375, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13310521841049194, 'vf_explained_var': 0.9542436599731445, 'vf_loss': 66.83132934570312}, 'grad_time_ms': 707.662}",3934253,17332.743657827377,-157.06993405255005,cda-server-6,24,-202.21004607666393,{},3504,10.157.146.6,{},-149.70738469206646,0,1200,2025-08-29_19-25-25,146,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756488325,50.0,175200,17332.743657827377,104.78905153274536,146
+176400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 105773.671, 'num_steps_sampled': 176400, 'update_time_ms': 2.328, 'num_steps_trained': 176400, 'load_time_ms': 0.616, 'default': {'kl': 0.015176494605839252, 'cur_lr': 4.999999873689376e-05, 'entropy': 15.008373260498047, 'total_loss': 79.77460479736328, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11993683874607086, 'vf_explained_var': 0.9480642676353455, 'vf_loss': 79.87918090820312}, 'grad_time_ms': 704.527}",3934253,17439.30501151085,-157.1401521045944,cda-server-6,24,-202.21004607666393,{},3528,10.157.146.6,{},-147.43059014043487,0,1200,2025-08-29_19-27-11,147,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756488431,50.0,176400,17439.30501151085,106.56135368347168,147
+177600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 102626.23, 'num_steps_sampled': 177600, 'update_time_ms': 2.288, 'num_steps_trained': 177600, 'load_time_ms': 0.614, 'default': {'kl': 0.016340788453817368, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.866175651550293, 'total_loss': 50.99203872680664, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.127852201461792, 'vf_explained_var': 0.9572170972824097, 'vf_loss': 51.10334777832031}, 'grad_time_ms': 713.616}",3934253,17516.197714090347,-156.9326692679125,cda-server-6,24,-202.21004607666393,{},3552,10.157.146.6,{},-145.1666515668931,0,1200,2025-08-29_19-28-28,148,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756488508,50.0,177600,17516.197714090347,76.89270257949829,148
+178800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 102912.524, 'num_steps_sampled': 178800, 'update_time_ms': 2.288, 'num_steps_trained': 178800, 'load_time_ms': 0.611, 'default': {'kl': 0.015348482877016068, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.877336502075195, 'total_loss': 92.67220306396484, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.15013960003852844, 'vf_explained_var': 0.9410419464111328, 'vf_loss': 92.80680847167969}, 'grad_time_ms': 722.665}",3934253,17626.49950647354,-158.18542591613408,cda-server-6,24,-232.173069817677,{},3576,10.157.146.6,{},-145.1666515668931,0,1200,2025-08-29_19-30-19,149,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756488619,50.0,178800,17626.49950647354,110.30179238319397,149
+180000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 103219.799, 'num_steps_sampled': 180000, 'update_time_ms': 2.304, 'num_steps_trained': 180000, 'load_time_ms': 0.611, 'default': {'kl': 0.014295445755124092, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.858844757080078, 'total_loss': 46.206031799316406, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11927267909049988, 'vf_explained_var': 0.9663113355636597, 'vf_loss': 46.310829162597656}, 'grad_time_ms': 728.864}",3934253,17746.24654841423,-158.00782030045582,cda-server-6,24,-232.173069817677,{},3600,10.157.146.6,{},-145.1666515668931,0,1200,2025-08-29_19-32-18,150,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756488738,50.0,180000,17746.24654841423,119.74704194068909,150
+181200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 103434.054, 'num_steps_sampled': 181200, 'update_time_ms': 2.36, 'num_steps_trained': 181200, 'load_time_ms': 0.615, 'default': {'kl': 0.015794552862644196, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.848892211914062, 'total_loss': 82.28297424316406, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12699836492538452, 'vf_explained_var': 0.9383652806282043, 'vf_loss': 82.39397430419922}, 'grad_time_ms': 718.235}",3934253,17855.997240543365,-157.82890956270467,cda-server-6,24,-232.173069817677,{},3624,10.157.146.6,{},-145.1666515668931,0,1200,2025-08-29_19-34-08,151,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756488848,50.0,181200,17855.997240543365,109.75069212913513,151
+182400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 106840.299, 'num_steps_sampled': 182400, 'update_time_ms': 2.391, 'num_steps_trained': 182400, 'load_time_ms': 0.621, 'default': {'kl': 0.01783747598528862, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.777881622314453, 'total_loss': 92.23494720458984, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1375618278980255, 'vf_explained_var': 0.9388156533241272, 'vf_loss': 92.35443878173828}, 'grad_time_ms': 703.231}",3934253,17983.454869747162,-157.61030282202955,cda-server-6,24,-232.173069817677,{},3648,10.157.146.6,{},-148.19687584877354,0,1200,2025-08-29_19-36-16,152,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756488976,50.0,182400,17983.454869747162,127.45762920379639,152
+183600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 107353.866, 'num_steps_sampled': 183600, 'update_time_ms': 2.486, 'num_steps_trained': 183600, 'load_time_ms': 0.649, 'default': {'kl': 0.014833658933639526, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.644444465637207, 'total_loss': 77.48524475097656, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12767963111400604, 'vf_explained_var': 0.9482372999191284, 'vf_loss': 77.597900390625}, 'grad_time_ms': 670.73}",3934253,18092.76464152336,-156.80859157196807,cda-server-6,24,-232.173069817677,{},3672,10.157.146.6,{},-147.6635856393042,0,1200,2025-08-29_19-38-05,153,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756489085,50.0,183600,18092.76464152336,109.30977177619934,153
+184800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 106945.08, 'num_steps_sampled': 184800, 'update_time_ms': 2.504, 'num_steps_trained': 184800, 'load_time_ms': 0.626, 'default': {'kl': 0.014095836319029331, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.716404914855957, 'total_loss': 50.62611770629883, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11327210813760757, 'vf_explained_var': 0.9626729488372803, 'vf_loss': 50.72511672973633}, 'grad_time_ms': 643.517}",3934253,18204.524663448334,-155.84383666926186,cda-server-6,24,-187.26780230902494,{},3696,10.157.146.6,{},-147.6635856393042,0,1200,2025-08-29_19-39-57,154,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756489197,50.0,184800,18204.524663448334,111.76002192497253,154
+186000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 106655.26, 'num_steps_sampled': 186000, 'update_time_ms': 2.491, 'num_steps_trained': 186000, 'load_time_ms': 0.629, 'default': {'kl': 0.014999334700405598, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.71993350982666, 'total_loss': 34.203369140625, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1288701295852661, 'vf_explained_var': 0.9726163148880005, 'vf_loss': 34.31705093383789}, 'grad_time_ms': 661.285}",3934253,18301.200717687607,-155.7455358243003,cda-server-6,24,-187.26780230902494,{},3720,10.157.146.6,{},-147.6635856393042,0,1200,2025-08-29_19-41-33,155,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756489293,50.0,186000,18301.200717687607,96.67605423927307,155
+187200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 106523.155, 'num_steps_sampled': 187200, 'update_time_ms': 2.514, 'num_steps_trained': 187200, 'load_time_ms': 0.636, 'default': {'kl': 0.01529185101389885, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.741146087646484, 'total_loss': 63.08943557739258, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13563477993011475, 'vf_explained_var': 0.9613681435585022, 'vf_loss': 63.20958709716797}, 'grad_time_ms': 687.403}",3934253,18404.930746793747,-156.05749131747933,cda-server-6,24,-187.26780230902494,{},3744,10.157.146.6,{},-147.6635856393042,0,1200,2025-08-29_19-43-17,156,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756489397,50.0,187200,18404.930746793747,103.73002910614014,156
+188400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 106234.606, 'num_steps_sampled': 188400, 'update_time_ms': 2.53, 'num_steps_trained': 188400, 'load_time_ms': 0.638, 'default': {'kl': 0.01576061360538006, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.539962768554688, 'total_loss': 51.49734878540039, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12901757657527924, 'vf_explained_var': 0.9635226726531982, 'vf_loss': 51.61040496826172}, 'grad_time_ms': 680.89}",3934253,18508.54259133339,-156.18697868414674,cda-server-6,24,-187.26780230902494,{},3768,10.157.146.6,{},-149.05326009298292,0,1200,2025-08-29_19-45-01,157,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756489501,50.0,188400,18508.54259133339,103.61184453964233,157
+189600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 110393.008, 'num_steps_sampled': 189600, 'update_time_ms': 2.544, 'num_steps_trained': 189600, 'load_time_ms': 0.639, 'default': {'kl': 0.015366671606898308, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.503620147705078, 'total_loss': 44.8004264831543, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1365458071231842, 'vf_explained_var': 0.96863853931427, 'vf_loss': 44.921409606933594}, 'grad_time_ms': 683.531}",3934253,18627.046046733856,-156.31557634699521,cda-server-6,24,-170.84411173980249,{},3792,10.157.146.6,{},-150.2876891507201,0,1200,2025-08-29_19-46-59,158,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756489619,50.0,189600,18627.046046733856,118.50345540046692,158
+190800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 111784.543, 'num_steps_sampled': 190800, 'update_time_ms': 2.52, 'num_steps_trained': 190800, 'load_time_ms': 0.64, 'default': {'kl': 0.015097062103450298, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.573460578918457, 'total_loss': 45.253807067871094, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12723152339458466, 'vf_explained_var': 0.9695051908493042, 'vf_loss': 45.36575698852539}, 'grad_time_ms': 680.895}",3934253,18751.23653268814,-156.06897775264233,cda-server-6,24,-170.84411173980249,{},3816,10.157.146.6,{},-142.36662116168563,0,1200,2025-08-29_19-49-04,159,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756489744,50.0,190800,18751.23653268814,124.19048595428467,159
+192000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 110586.829, 'num_steps_sampled': 192000, 'update_time_ms': 2.531, 'num_steps_trained': 192000, 'load_time_ms': 0.642, 'default': {'kl': 0.015620950609445572, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.42264175415039, 'total_loss': 44.00412368774414, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12604941427707672, 'vf_explained_var': 0.9683871865272522, 'vf_loss': 44.11436462402344}, 'grad_time_ms': 669.18}",3934253,18858.888377189636,-155.75848397267933,cda-server-6,24,-168.91110461407595,{},3840,10.157.146.6,{},-142.36662116168563,0,1200,2025-08-29_19-50-51,160,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756489851,50.0,192000,18858.888377189636,107.65184450149536,160
+193200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 111276.767, 'num_steps_sampled': 193200, 'update_time_ms': 2.516, 'num_steps_trained': 193200, 'load_time_ms': 0.647, 'default': {'kl': 0.014775075949728489, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.54749870300293, 'total_loss': 58.11050033569336, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1309185028076172, 'vf_explained_var': 0.9599100947380066, 'vf_loss': 58.22645950317383}, 'grad_time_ms': 689.36}",3934253,18975.739804506302,-155.97364649677118,cda-server-6,24,-192.82730108260392,{},3864,10.157.146.6,{},-142.36662116168563,0,1200,2025-08-29_19-52-48,161,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756489968,50.0,193200,18975.739804506302,116.85142731666565,161
+194400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 107563.772, 'num_steps_sampled': 194400, 'update_time_ms': 2.474, 'num_steps_trained': 194400, 'load_time_ms': 0.641, 'default': {'kl': 0.015671495348215103, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.508405685424805, 'total_loss': 40.06678009033203, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12871819734573364, 'vf_explained_var': 0.9688021540641785, 'vf_loss': 40.179630279541016}, 'grad_time_ms': 698.056}",3934253,19066.154118299484,-155.86087650370283,cda-server-6,24,-192.82730108260392,{},3888,10.157.146.6,{},-142.36662116168563,0,1200,2025-08-29_19-54-19,162,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756490059,50.0,194400,19066.154118299484,90.41431379318237,162
+195600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 107835.158, 'num_steps_sampled': 195600, 'update_time_ms': 2.403, 'num_steps_trained': 195600, 'load_time_ms': 0.609, 'default': {'kl': 0.01576964743435383, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.222159385681152, 'total_loss': 38.615726470947266, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12422147393226624, 'vf_explained_var': 0.972466766834259, 'vf_loss': 38.72397994995117}, 'grad_time_ms': 734.539}",3934253,19178.542206048965,-155.77523854605596,cda-server-6,24,-192.82730108260392,{},3912,10.157.146.6,{},-150.75634943073578,0,1200,2025-08-29_19-56-11,163,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756490171,50.0,195600,19178.542206048965,112.3880877494812,163
+196800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 105948.854, 'num_steps_sampled': 196800, 'update_time_ms': 2.353, 'num_steps_trained': 196800, 'load_time_ms': 0.613, 'default': {'kl': 0.01632661558687687, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.407248497009277, 'total_loss': 66.69595336914062, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1468474119901657, 'vf_explained_var': 0.9592094421386719, 'vf_loss': 66.82626342773438}, 'grad_time_ms': 758.658}",3934253,19271.680288791656,-155.52057609509816,cda-server-6,24,-192.82730108260392,{},3936,10.157.146.6,{},-150.59467953216102,0,1200,2025-08-29_19-57-44,164,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756490264,50.0,196800,19271.680288791656,93.13808274269104,164
+198000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 106547.882, 'num_steps_sampled': 198000, 'update_time_ms': 2.368, 'num_steps_trained': 198000, 'load_time_ms': 0.612, 'default': {'kl': 0.014598803594708443, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.533857345581055, 'total_loss': 43.06224060058594, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12842096388339996, 'vf_explained_var': 0.9679848551750183, 'vf_loss': 43.17587661743164}, 'grad_time_ms': 757.885}",3934253,19374.33864402771,-155.1683275163884,cda-server-6,24,-186.20441058789976,{},3960,10.157.146.6,{},-149.0035912566383,0,1200,2025-08-29_19-59-27,165,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756490367,50.0,198000,19374.33864402771,102.65835523605347,165
+199200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 105139.279, 'num_steps_sampled': 199200, 'update_time_ms': 2.332, 'num_steps_trained': 199200, 'load_time_ms': 0.608, 'default': {'kl': 0.014788919128477573, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.377288818359375, 'total_loss': 48.58959197998047, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12106100469827652, 'vf_explained_var': 0.9630370736122131, 'vf_loss': 48.6956787109375}, 'grad_time_ms': 758.957}",3934253,19463.992821216583,-154.9477786673612,cda-server-6,24,-186.20441058789976,{},3984,10.157.146.6,{},-139.68382772036009,0,1200,2025-08-29_20-00-56,166,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756490456,50.0,199200,19463.992821216583,89.65417718887329,166
+200400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 107294.494, 'num_steps_sampled': 200400, 'update_time_ms': 2.31, 'num_steps_trained': 200400, 'load_time_ms': 0.607, 'default': {'kl': 0.015912381932139397, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.272615432739258, 'total_loss': 42.7900390625, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13069111108779907, 'vf_explained_var': 0.9659023284912109, 'vf_loss': 42.90461730957031}, 'grad_time_ms': 754.259}",3934253,19589.108632087708,-155.09633164691525,cda-server-6,24,-186.20441058789976,{},4008,10.157.146.6,{},-139.68382772036009,0,1200,2025-08-29_20-03-02,167,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756490582,50.0,200400,19589.108632087708,125.11581087112427,167
+201600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 105697.83, 'num_steps_sampled': 201600, 'update_time_ms': 2.295, 'num_steps_trained': 201600, 'load_time_ms': 0.607, 'default': {'kl': 0.014985193498432636, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.434755325317383, 'total_loss': 35.87843322753906, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13099879026412964, 'vf_explained_var': 0.9744190573692322, 'vf_loss': 35.994258880615234}, 'grad_time_ms': 757.804}",3934253,19691.680990934372,-155.6347589901296,cda-server-6,24,-186.20441058789976,{},4032,10.157.146.6,{},-138.59291754226575,0,1200,2025-08-29_20-04-44,168,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756490684,50.0,201600,19691.680990934372,102.57235884666443,168
+202800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 102117.547, 'num_steps_sampled': 202800, 'update_time_ms': 2.31, 'num_steps_trained': 202800, 'load_time_ms': 0.623, 'default': {'kl': 0.015808604657649994, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.588302612304688, 'total_loss': 55.970699310302734, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13252593576908112, 'vf_explained_var': 0.9560667872428894, 'vf_loss': 56.08721923828125}, 'grad_time_ms': 754.829}",3934253,19780.03944683075,-155.08221493769696,cda-server-6,24,-169.66817220868816,{},4056,10.157.146.6,{},-138.59291754226575,0,1200,2025-08-29_20-06-13,169,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756490773,50.0,202800,19780.03944683075,88.35845589637756,169
+204000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 101115.095, 'num_steps_sampled': 204000, 'update_time_ms': 2.281, 'num_steps_trained': 204000, 'load_time_ms': 0.621, 'default': {'kl': 0.01640515774488449, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.44264030456543, 'total_loss': 33.83430099487305, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12805338203907013, 'vf_explained_var': 0.9746472835540771, 'vf_loss': 33.94574737548828}, 'grad_time_ms': 776.615}",3934253,19877.884481191635,-155.26188435914753,cda-server-6,24,-169.66817220868816,{},4080,10.157.146.6,{},-138.59291754226575,0,1200,2025-08-29_20-07-50,170,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756490870,50.0,204000,19877.884481191635,97.84503436088562,170
+205200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 98892.183, 'num_steps_sampled': 205200, 'update_time_ms': 2.217, 'num_steps_trained': 205200, 'load_time_ms': 0.621, 'default': {'kl': 0.015521807596087456, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.46370792388916, 'total_loss': 60.55887222290039, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1447797566652298, 'vf_explained_var': 0.9552225470542908, 'vf_loss': 60.68794250488281}, 'grad_time_ms': 763.954}",3934253,19972.380245923996,-155.33247669421817,cda-server-6,24,-171.77568078754396,{},4104,10.157.146.6,{},-138.59291754226575,0,1200,2025-08-29_20-09-25,171,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756490965,50.0,205200,19972.380245923996,94.49576473236084,171
+206400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 100614.225, 'num_steps_sampled': 206400, 'update_time_ms': 2.248, 'num_steps_trained': 206400, 'load_time_ms': 0.622, 'default': {'kl': 0.015789611265063286, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.3331298828125, 'total_loss': 48.4068717956543, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13671469688415527, 'vf_explained_var': 0.9638553261756897, 'vf_loss': 48.5275993347168}, 'grad_time_ms': 775.318}",3934253,20080.128808498383,-155.01792419325568,cda-server-6,24,-171.77568078754396,{},4128,10.157.146.6,{},-144.12471496163798,0,1200,2025-08-29_20-11-13,172,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756491073,50.0,206400,20080.128808498383,107.7485625743866,172
+207600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 98688.004, 'num_steps_sampled': 207600, 'update_time_ms': 2.24, 'num_steps_trained': 207600, 'load_time_ms': 0.622, 'default': {'kl': 0.014612250961363316, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.156961441040039, 'total_loss': 42.88018035888672, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11420790106058121, 'vf_explained_var': 0.9699710011482239, 'vf_loss': 42.97959899902344}, 'grad_time_ms': 761.07}",3934253,20173.1121134758,-155.37836022919845,cda-server-6,24,-171.77568078754396,{},4152,10.157.146.6,{},-144.12471496163798,0,1200,2025-08-29_20-12-46,173,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756491166,50.0,207600,20173.1121134758,92.98330497741699,173
+208800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 99523.342, 'num_steps_sampled': 208800, 'update_time_ms': 2.206, 'num_steps_trained': 208800, 'load_time_ms': 0.621, 'default': {'kl': 0.014946643263101578, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.175942420959473, 'total_loss': 57.44399642944336, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13504861295223236, 'vf_explained_var': 0.9574512839317322, 'vf_loss': 57.56391143798828}, 'grad_time_ms': 765.866}",3934253,20274.651047468185,-155.56842982858154,cda-server-6,24,-185.3305242842277,{},4176,10.157.146.6,{},-144.12471496163798,0,1200,2025-08-29_20-14-27,174,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756491267,50.0,208800,20274.651047468185,101.53893399238586,174
+210000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 98719.862, 'num_steps_sampled': 210000, 'update_time_ms': 2.231, 'num_steps_trained': 210000, 'load_time_ms': 0.622, 'default': {'kl': 0.014225161634385586, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.324098587036133, 'total_loss': 59.64179229736328, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12911520898342133, 'vf_explained_var': 0.9586576819419861, 'vf_loss': 59.75650405883789}, 'grad_time_ms': 739.584}",3934253,20369.012630462646,-155.78960833378852,cda-server-6,24,-185.3305242842277,{},4200,10.157.146.6,{},-144.12471496163798,0,1200,2025-08-29_20-16-02,175,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756491362,50.0,210000,20369.012630462646,94.36158299446106,175
+211200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 98927.785, 'num_steps_sampled': 211200, 'update_time_ms': 2.238, 'num_steps_trained': 211200, 'load_time_ms': 0.621, 'default': {'kl': 0.015747396275401115, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.27517032623291, 'total_loss': 35.0083122253418, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.137986421585083, 'vf_explained_var': 0.9727128148078918, 'vf_loss': 35.13035202026367}, 'grad_time_ms': 746.11}",3934253,20460.81170296669,-155.69055132115284,cda-server-6,24,-185.3305242842277,{},4224,10.157.146.6,{},-148.52867451145093,0,1200,2025-08-29_20-17-33,176,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756491453,50.0,211200,20460.81170296669,91.79907250404358,176
+212400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94410.29, 'num_steps_sampled': 212400, 'update_time_ms': 2.289, 'num_steps_trained': 212400, 'load_time_ms': 0.621, 'default': {'kl': 0.01412759255617857, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.326051712036133, 'total_loss': 44.30991744995117, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12913967669010162, 'vf_explained_var': 0.9653099775314331, 'vf_loss': 44.42475891113281}, 'grad_time_ms': 758.482}",3934253,20540.877601861954,-155.4291076016693,cda-server-6,24,-185.3305242842277,{},4248,10.157.146.6,{},-148.52867451145093,0,1200,2025-08-29_20-18-53,177,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756491533,50.0,212400,20540.877601861954,80.06589889526367,177
+213600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94658.357, 'num_steps_sampled': 213600, 'update_time_ms': 2.329, 'num_steps_trained': 213600, 'load_time_ms': 0.617, 'default': {'kl': 0.014271329157054424, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.212542533874512, 'total_loss': 57.12761688232422, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12536929547786713, 'vf_explained_var': 0.9578894376754761, 'vf_loss': 57.23854064941406}, 'grad_time_ms': 738.686}",3934253,20645.73306274414,-155.17733970045182,cda-server-6,24,-175.80811120532408,{},4272,10.157.146.6,{},-148.15369681094623,0,1200,2025-08-29_20-20-38,178,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756491638,50.0,213600,20645.73306274414,104.85546088218689,178
+214800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94257.458, 'num_steps_sampled': 214800, 'update_time_ms': 2.356, 'num_steps_trained': 214800, 'load_time_ms': 0.602, 'default': {'kl': 0.014027887023985386, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.08896255493164, 'total_loss': 54.14302062988281, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13360297679901123, 'vf_explained_var': 0.9601472020149231, 'vf_loss': 54.26241683959961}, 'grad_time_ms': 753.871}",3934253,20730.234143018723,-154.9975954160479,cda-server-6,24,-174.65220154558435,{},4296,10.157.146.6,{},-145.09918014006897,0,1200,2025-08-29_20-22-03,179,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756491723,50.0,214800,20730.234143018723,84.50108027458191,179
+216000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94974.4, 'num_steps_sampled': 216000, 'update_time_ms': 2.376, 'num_steps_trained': 216000, 'load_time_ms': 0.604, 'default': {'kl': 0.015153449028730392, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.264097213745117, 'total_loss': 61.21241760253906, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13657930493354797, 'vf_explained_var': 0.9583113789558411, 'vf_loss': 61.33365249633789}, 'grad_time_ms': 739.851}",3934253,20835.10924553871,-155.41010977496163,cda-server-6,24,-187.8065284956767,{},4320,10.157.146.6,{},-143.37941258015238,0,1200,2025-08-29_20-23-48,180,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756491828,50.0,216000,20835.10924553871,104.87510251998901,180
+217200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93982.285, 'num_steps_sampled': 217200, 'update_time_ms': 2.417, 'num_steps_trained': 217200, 'load_time_ms': 0.606, 'default': {'kl': 0.016186289489269257, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.127467155456543, 'total_loss': 64.62361145019531, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13219882547855377, 'vf_explained_var': 0.9601544141769409, 'vf_loss': 64.73941040039062}, 'grad_time_ms': 749.797}",3934253,20919.783405065536,-155.7737927614949,cda-server-6,24,-187.8065284956767,{},4344,10.157.146.6,{},-143.37941258015238,0,1200,2025-08-29_20-25-12,181,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756491912,50.0,217200,20919.783405065536,84.67415952682495,181
+218400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93673.265, 'num_steps_sampled': 218400, 'update_time_ms': 2.428, 'num_steps_trained': 218400, 'load_time_ms': 0.612, 'default': {'kl': 0.016756556928157806, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.09090805053711, 'total_loss': 32.69347381591797, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13112007081508636, 'vf_explained_var': 0.9762242436408997, 'vf_loss': 32.8076286315918}, 'grad_time_ms': 753.985}",3934253,21024.484308958054,-155.6975634315122,cda-server-6,24,-187.8065284956767,{},4368,10.157.146.6,{},-143.37941258015238,0,1200,2025-08-29_20-26-57,182,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756492017,50.0,218400,21024.484308958054,104.70090389251709,182
+219600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 96073.239, 'num_steps_sampled': 219600, 'update_time_ms': 2.455, 'num_steps_trained': 219600, 'load_time_ms': 0.609, 'default': {'kl': 0.014003668911755085, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.073108673095703, 'total_loss': 43.03472137451172, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12060434371232986, 'vf_explained_var': 0.9658010005950928, 'vf_loss': 43.14114761352539}, 'grad_time_ms': 756.764}",3934253,21141.494768619537,-155.79708932386183,cda-server-6,24,-187.8065284956767,{},4392,10.157.146.6,{},-143.37941258015238,0,1200,2025-08-29_20-28-54,183,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756492134,50.0,219600,21141.494768619537,117.01045966148376,183
+220800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93381.741, 'num_steps_sampled': 220800, 'update_time_ms': 2.479, 'num_steps_trained': 220800, 'load_time_ms': 0.607, 'default': {'kl': 0.015979474410414696, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.951452255249023, 'total_loss': 28.970035552978516, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13051539659500122, 'vf_explained_var': 0.9753679633140564, 'vf_loss': 29.084373474121094}, 'grad_time_ms': 750.692}",3934253,21216.059225797653,-155.2159485927954,cda-server-6,24,-174.74615890433003,{},4416,10.157.146.6,{},-149.9222426574402,0,1200,2025-08-29_20-30-09,184,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756492209,50.0,220800,21216.059225797653,74.56445717811584,184
+222000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 96436.116, 'num_steps_sampled': 222000, 'update_time_ms': 2.503, 'num_steps_trained': 222000, 'load_time_ms': 0.606, 'default': {'kl': 0.015772182494401932, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.0059232711792, 'total_loss': 60.55994415283203, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1361880898475647, 'vf_explained_var': 0.9553515315055847, 'vf_loss': 60.68016052246094}, 'grad_time_ms': 762.586}",3934253,21341.083225011826,-154.90547833395576,cda-server-6,24,-180.30431492076218,{},4440,10.157.146.6,{},-139.678197164373,0,1200,2025-08-29_20-32-14,185,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756492334,50.0,222000,21341.083225011826,125.02399921417236,185
+223200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 95140.264, 'num_steps_sampled': 223200, 'update_time_ms': 2.507, 'num_steps_trained': 223200, 'load_time_ms': 0.605, 'default': {'kl': 0.015124676749110222, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.924979209899902, 'total_loss': 37.755821228027344, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13534162938594818, 'vf_explained_var': 0.9738060832023621, 'vf_loss': 37.87584686279297}, 'grad_time_ms': 752.513}",3934253,21419.822728157043,-154.85165366221167,cda-server-6,24,-180.30431492076218,{},4464,10.157.146.6,{},-139.678197164373,0,1200,2025-08-29_20-33-33,186,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756492413,50.0,223200,21419.822728157043,78.7395031452179,186
+224400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 97230.341, 'num_steps_sampled': 224400, 'update_time_ms': 2.447, 'num_steps_trained': 224400, 'load_time_ms': 0.603, 'default': {'kl': 0.01550869271159172, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.100944519042969, 'total_loss': 33.599151611328125, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1279132217168808, 'vf_explained_var': 0.9754032492637634, 'vf_loss': 33.711360931396484}, 'grad_time_ms': 745.508}",3934253,21520.718727827072,-154.45393718739763,cda-server-6,24,-180.30431492076218,{},4488,10.157.146.6,{},-139.678197164373,0,1200,2025-08-29_20-35-13,187,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756492513,50.0,224400,21520.718727827072,100.89599967002869,187
+225600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 96492.054, 'num_steps_sampled': 225600, 'update_time_ms': 2.439, 'num_steps_trained': 225600, 'load_time_ms': 0.606, 'default': {'kl': 0.015070527791976929, 'cur_lr': 4.999999873689376e-05, 'entropy': 14.055828094482422, 'total_loss': 31.14375114440918, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1401119828224182, 'vf_explained_var': 0.9760143756866455, 'vf_loss': 31.26860237121582}, 'grad_time_ms': 770.442}",3934253,21618.440562963486,-154.46611208847494,cda-server-6,24,-180.30431492076218,{},4512,10.157.146.6,{},-139.678197164373,0,1200,2025-08-29_20-36-51,188,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756492611,50.0,225600,21618.440562963486,97.72183513641357,188
+226800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 97484.15, 'num_steps_sampled': 226800, 'update_time_ms': 2.429, 'num_steps_trained': 226800, 'load_time_ms': 0.609, 'default': {'kl': 0.017055794596672058, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.9029541015625, 'total_loss': 34.64968490600586, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13037782907485962, 'vf_explained_var': 0.975419282913208, 'vf_loss': 34.76279830932617}, 'grad_time_ms': 758.748}",3934253,21712.745859384537,-154.22806128008008,cda-server-6,24,-165.64550611361074,{},4536,10.157.146.6,{},-150.59684708886275,0,1200,2025-08-29_20-38-26,189,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756492706,50.0,226800,21712.745859384537,94.30529642105103,189
+228000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 98561.022, 'num_steps_sampled': 228000, 'update_time_ms': 2.417, 'num_steps_trained': 228000, 'load_time_ms': 0.636, 'default': {'kl': 0.015165035612881184, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.919445037841797, 'total_loss': 50.03436279296875, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13474352657794952, 'vf_explained_var': 0.9623463153839111, 'vf_loss': 50.153751373291016}, 'grad_time_ms': 757.404}",3934253,21828.377017736435,-153.72495777307597,cda-server-6,24,-165.64550611361074,{},4560,10.157.146.6,{},-138.56659806083067,0,1200,2025-08-29_20-40-21,190,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756492821,50.0,228000,21828.377017736435,115.6311583518982,190
+229200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 101165.068, 'num_steps_sampled': 229200, 'update_time_ms': 2.484, 'num_steps_trained': 229200, 'load_time_ms': 0.661, 'default': {'kl': 0.015464269556105137, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.737651824951172, 'total_loss': 23.389896392822266, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13375920057296753, 'vf_explained_var': 0.9811168313026428, 'vf_loss': 23.50799560546875}, 'grad_time_ms': 738.619}",3934253,21938.90476822853,-153.30432291500162,cda-server-6,24,-165.64550611361074,{},4584,10.157.146.6,{},-138.56659806083067,0,1200,2025-08-29_20-42-12,191,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756492932,50.0,229200,21938.90476822853,110.52775049209595,191
+230400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 101400.198, 'num_steps_sampled': 230400, 'update_time_ms': 2.456, 'num_steps_trained': 230400, 'load_time_ms': 0.657, 'default': {'kl': 0.01649424433708191, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.909981727600098, 'total_loss': 30.5107421875, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1406993716955185, 'vf_explained_var': 0.9759019017219543, 'vf_loss': 30.63473892211914}, 'grad_time_ms': 709.028}",3934253,22045.659630537033,-153.2856807334686,cda-server-6,24,-169.60459859319087,{},4608,10.157.146.6,{},-138.56659806083067,0,1200,2025-08-29_20-43-59,192,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756493039,50.0,230400,22045.659630537033,106.7548623085022,192
+231600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 99165.403, 'num_steps_sampled': 231600, 'update_time_ms': 2.423, 'num_steps_trained': 231600, 'load_time_ms': 0.655, 'default': {'kl': 0.014766073785722256, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.603525161743164, 'total_loss': 46.67988586425781, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12098463624715805, 'vf_explained_var': 0.9633685350418091, 'vf_loss': 46.78591537475586}, 'grad_time_ms': 715.39}",3934253,22140.386114120483,-153.8011387577607,cda-server-6,24,-169.60459859319087,{},4632,10.157.146.6,{},-138.56659806083067,0,1200,2025-08-29_20-45-33,193,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756493133,50.0,231600,22140.386114120483,94.72648358345032,193
+232800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 103001.441, 'num_steps_sampled': 232800, 'update_time_ms': 2.447, 'num_steps_trained': 232800, 'load_time_ms': 0.673, 'default': {'kl': 0.016012491658329964, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.908878326416016, 'total_loss': 31.52902603149414, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12783116102218628, 'vf_explained_var': 0.9771274924278259, 'vf_loss': 31.64064598083496}, 'grad_time_ms': 727.675}",3934253,22253.433773756027,-154.14178573010508,cda-server-6,24,-169.60459859319087,{},4656,10.157.146.6,{},-138.56659806083067,0,1200,2025-08-29_20-47-26,194,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756493246,50.0,232800,22253.433773756027,113.04765963554382,194
+234000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 101708.056, 'num_steps_sampled': 234000, 'update_time_ms': 2.457, 'num_steps_trained': 234000, 'load_time_ms': 0.669, 'default': {'kl': 0.015001552179455757, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.77999496459961, 'total_loss': 35.390708923339844, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12304878234863281, 'vf_explained_var': 0.9735833406448364, 'vf_loss': 35.498565673828125}, 'grad_time_ms': 728.105}",3934253,22365.52901148796,-154.76540725376347,cda-server-6,24,-169.60459859319087,{},4680,10.157.146.6,{},-150.01169480783062,0,1200,2025-08-29_20-49-18,195,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756493358,50.0,234000,22365.52901148796,112.0952377319336,195
+235200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 101804.077, 'num_steps_sampled': 235200, 'update_time_ms': 2.433, 'num_steps_trained': 235200, 'load_time_ms': 0.671, 'default': {'kl': 0.01647140271961689, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.635623931884766, 'total_loss': 52.579586029052734, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13822194933891296, 'vf_explained_var': 0.9653752446174622, 'vf_loss': 52.70112609863281}, 'grad_time_ms': 738.72}",3934253,22445.33472752571,-154.83888058703687,cda-server-6,24,-177.26881957412837,{},4704,10.157.146.6,{},-146.65800145858734,0,1200,2025-08-29_20-50-38,196,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756493438,50.0,235200,22445.33472752571,79.80571603775024,196
+236400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 102468.947, 'num_steps_sampled': 236400, 'update_time_ms': 2.481, 'num_steps_trained': 236400, 'load_time_ms': 0.678, 'default': {'kl': 0.015982117503881454, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.740926742553711, 'total_loss': 18.595247268676758, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12767238914966583, 'vf_explained_var': 0.9844462275505066, 'vf_loss': 18.706737518310547}, 'grad_time_ms': 738.975}",3934253,22552.882929325104,-154.33678146760286,cda-server-6,24,-177.26881957412837,{},4728,10.157.146.6,{},-146.65800145858734,0,1200,2025-08-29_20-52-26,197,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756493546,50.0,236400,22552.882929325104,107.5482017993927,197
+237600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 103790.417, 'num_steps_sampled': 237600, 'update_time_ms': 2.534, 'num_steps_trained': 237600, 'load_time_ms': 0.673, 'default': {'kl': 0.014276721514761448, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.760214805603027, 'total_loss': 41.77705383300781, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1205190122127533, 'vf_explained_var': 0.969501793384552, 'vf_loss': 41.88311767578125}, 'grad_time_ms': 718.444}",3934253,22663.61433315277,-154.44646720506114,cda-server-6,24,-201.16762912816088,{},4752,10.157.146.6,{},-146.65800145858734,0,1200,2025-08-29_20-54-17,198,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756493657,50.0,237600,22663.61433315277,110.73140382766724,198
+238800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 104968.257, 'num_steps_sampled': 238800, 'update_time_ms': 2.498, 'num_steps_trained': 238800, 'load_time_ms': 0.673, 'default': {'kl': 0.01621420495212078, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.574341773986816, 'total_loss': 46.5653076171875, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13176356256008148, 'vf_explained_var': 0.9670212268829346, 'vf_loss': 46.68064880371094}, 'grad_time_ms': 720.256}",3934253,22769.716091156006,-154.59433723746173,cda-server-6,24,-201.16762912816088,{},4776,10.157.146.6,{},-146.65800145858734,0,1200,2025-08-29_20-56-03,199,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756493763,50.0,238800,22769.716091156006,106.10175800323486,199
+240000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 105216.055, 'num_steps_sampled': 240000, 'update_time_ms': 2.462, 'num_steps_trained': 240000, 'load_time_ms': 0.641, 'default': {'kl': 0.014780566096305847, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.378012657165527, 'total_loss': 36.66807174682617, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14128637313842773, 'vf_explained_var': 0.9747660756111145, 'vf_loss': 36.79439163208008}, 'grad_time_ms': 725.314}",3934253,22887.873666524887,-154.4375084794087,cda-server-6,24,-201.16762912816088,{},4800,10.157.146.6,{},-149.0978238513307,0,1200,2025-08-29_20-58-01,200,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756493881,50.0,240000,22887.873666524887,118.15757536888123,200
+241200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 104910.777, 'num_steps_sampled': 241200, 'update_time_ms': 2.452, 'num_steps_trained': 241200, 'load_time_ms': 0.606, 'default': {'kl': 0.013666907325387001, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.640439987182617, 'total_loss': 49.74296188354492, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12500447034835815, 'vf_explained_var': 0.9647335410118103, 'vf_loss': 49.85413360595703}, 'grad_time_ms': 735.828}",3934253,22995.453704595566,-154.5080193255974,cda-server-6,24,-201.16762912816088,{},4824,10.157.146.6,{},-146.52584462153817,0,1200,2025-08-29_20-59-48,201,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756493988,50.0,241200,22995.453704595566,107.58003807067871,201
+242400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 102243.239, 'num_steps_sampled': 242400, 'update_time_ms': 2.469, 'num_steps_trained': 242400, 'load_time_ms': 0.604, 'default': {'kl': 0.015573102980852127, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.60585880279541, 'total_loss': 44.72560501098633, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11865009367465973, 'vf_explained_var': 0.9653467535972595, 'vf_loss': 44.828487396240234}, 'grad_time_ms': 732.415}",3934253,23075.499824762344,-154.390515036229,cda-server-6,24,-201.16762912816088,{},4848,10.157.146.6,{},-144.64655797683017,0,1200,2025-08-29_21-01-09,202,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756494069,50.0,242400,23075.499824762344,80.04612016677856,202
+243600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 103775.09, 'num_steps_sampled': 243600, 'update_time_ms': 2.511, 'num_steps_trained': 243600, 'load_time_ms': 0.607, 'default': {'kl': 0.01503191888332367, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.590577125549316, 'total_loss': 42.913047790527344, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11701390147209167, 'vf_explained_var': 0.9663113355636597, 'vf_loss': 43.01484298706055}, 'grad_time_ms': 733.825}",3934253,23185.55954527855,-153.60317569799324,cda-server-6,24,-165.37361769890444,{},4872,10.157.146.6,{},-138.32310226038112,0,1200,2025-08-29_21-02-59,203,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756494179,50.0,243600,23185.55954527855,110.05972051620483,203
+244800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 102549.786, 'num_steps_sampled': 244800, 'update_time_ms': 2.504, 'num_steps_trained': 244800, 'load_time_ms': 0.591, 'default': {'kl': 0.016744563356041908, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.430876731872559, 'total_loss': 37.94887924194336, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13519436120986938, 'vf_explained_var': 0.9705941677093506, 'vf_loss': 38.06712341308594}, 'grad_time_ms': 721.255}",3934253,23286.228005886078,-153.52169316652558,cda-server-6,24,-168.51605431528077,{},4896,10.157.146.6,{},-138.32310226038112,0,1200,2025-08-29_21-04-39,204,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756494279,50.0,244800,23286.228005886078,100.66846060752869,204
+246000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 101212.226, 'num_steps_sampled': 246000, 'update_time_ms': 2.459, 'num_steps_trained': 246000, 'load_time_ms': 0.596, 'default': {'kl': 0.01710333861410618, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.417792320251465, 'total_loss': 38.24384689331055, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.144325852394104, 'vf_explained_var': 0.9721401929855347, 'vf_loss': 38.37085723876953}, 'grad_time_ms': 737.0}",3934253,23385.1042368412,-153.58170670594885,cda-server-6,24,-168.51605431528077,{},4920,10.157.146.6,{},-138.32310226038112,0,1200,2025-08-29_21-06-18,205,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756494378,50.0,246000,23385.1042368412,98.8762309551239,205
+247200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 103806.858, 'num_steps_sampled': 247200, 'update_time_ms': 2.565, 'num_steps_trained': 247200, 'load_time_ms': 0.614, 'default': {'kl': 0.015271955169737339, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.395512580871582, 'total_loss': 54.9863166809082, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14978620409965515, 'vf_explained_var': 0.9647194743156433, 'vf_loss': 55.12063980102539}, 'grad_time_ms': 729.754}",3934253,23490.784667491913,-153.93582146379998,cda-server-6,24,-168.51605431528077,{},4944,10.157.146.6,{},-138.32310226038112,0,1200,2025-08-29_21-08-04,206,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756494484,50.0,247200,23490.784667491913,105.68043065071106,206
+248400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 103302.599, 'num_steps_sampled': 248400, 'update_time_ms': 2.567, 'num_steps_trained': 248400, 'load_time_ms': 0.611, 'default': {'kl': 0.013181351125240326, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.397079467773438, 'total_loss': 47.21424865722656, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1278305947780609, 'vf_explained_var': 0.9659013748168945, 'vf_loss': 47.328731536865234}, 'grad_time_ms': 724.667}",3934253,23593.239156246185,-154.25386999328757,cda-server-6,24,-181.2020651411598,{},4968,10.157.146.6,{},-140.24452928526324,0,1200,2025-08-29_21-09-46,207,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756494586,50.0,248400,23593.239156246185,102.45448875427246,207
+249600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 102177.445, 'num_steps_sampled': 249600, 'update_time_ms': 2.522, 'num_steps_trained': 249600, 'load_time_ms': 0.621, 'default': {'kl': 0.014789672568440437, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.347824096679688, 'total_loss': 56.15548324584961, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.139645516872406, 'vf_explained_var': 0.9593076705932617, 'vf_loss': 56.2801513671875}, 'grad_time_ms': 736.067}",3934253,23692.833278894424,-154.4865686886029,cda-server-6,24,-181.2020651411598,{},4992,10.157.146.6,{},-146.07667147403822,0,1200,2025-08-29_21-11-26,208,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756494686,50.0,249600,23692.833278894424,99.59412264823914,208
+250800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 101683.031, 'num_steps_sampled': 250800, 'update_time_ms': 2.546, 'num_steps_trained': 250800, 'load_time_ms': 0.626, 'default': {'kl': 0.015958771109580994, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.283158302307129, 'total_loss': 32.21907424926758, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14139731228351593, 'vf_explained_var': 0.9757466912269592, 'vf_loss': 32.34431457519531}, 'grad_time_ms': 744.585}",3934253,23794.076202869415,-154.57491315828824,cda-server-6,24,-181.2020651411598,{},5016,10.157.146.6,{},-146.07667147403822,0,1200,2025-08-29_21-13-07,209,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756494787,50.0,250800,23794.076202869415,101.24292397499084,209
+252000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 100320.453, 'num_steps_sampled': 252000, 'update_time_ms': 2.589, 'num_steps_trained': 252000, 'load_time_ms': 0.627, 'default': {'kl': 0.016961511224508286, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.437080383300781, 'total_loss': 28.432422637939453, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1382811963558197, 'vf_explained_var': 0.9765098094940186, 'vf_loss': 28.55352783203125}, 'grad_time_ms': 750.972}",3934253,23898.673114538193,-154.64418535655625,cda-server-6,24,-181.2020651411598,{},5040,10.157.146.6,{},-144.40869175206473,0,1200,2025-08-29_21-14-52,210,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756494892,50.0,252000,23898.673114538193,104.59691166877747,210
+253200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 101961.698, 'num_steps_sampled': 253200, 'update_time_ms': 2.533, 'num_steps_trained': 253200, 'load_time_ms': 0.649, 'default': {'kl': 0.015320269390940666, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.378397941589355, 'total_loss': 38.70890808105469, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13138148188591003, 'vf_explained_var': 0.9688937067985535, 'vf_loss': 38.82477951049805}, 'grad_time_ms': 745.729}",3934253,24022.612620592117,-154.84949540505792,cda-server-6,24,-177.23204123604674,{},5064,10.157.146.6,{},-144.40869175206473,0,1200,2025-08-29_21-16-56,211,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756495016,50.0,253200,24022.612620592117,123.93950605392456,211
+254400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 104314.751, 'num_steps_sampled': 254400, 'update_time_ms': 2.506, 'num_steps_trained': 254400, 'load_time_ms': 0.649, 'default': {'kl': 0.015276423655450344, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.541495323181152, 'total_loss': 35.86064910888672, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.135739266872406, 'vf_explained_var': 0.9777436852455139, 'vf_loss': 35.980918884277344}, 'grad_time_ms': 759.486}",3934253,24126.327362060547,-154.75495105972402,cda-server-6,24,-175.558753189674,{},5088,10.157.146.6,{},-142.65037420939933,0,1200,2025-08-29_21-18-40,212,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756495120,50.0,254400,24126.327362060547,103.71474146842957,212
+255600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 106540.291, 'num_steps_sampled': 255600, 'update_time_ms': 2.506, 'num_steps_trained': 255600, 'load_time_ms': 0.658, 'default': {'kl': 0.014562960714101791, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.229193687438965, 'total_loss': 27.504392623901367, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12833461165428162, 'vf_explained_var': 0.9786010384559631, 'vf_loss': 27.617982864379883}, 'grad_time_ms': 736.482}",3934253,24258.412103414536,-154.48851868906385,cda-server-6,24,-175.558753189674,{},5112,10.157.146.6,{},-142.65037420939933,0,1200,2025-08-29_21-20-52,213,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756495252,50.0,255600,24258.412103414536,132.08474135398865,213
+256800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 105849.683, 'num_steps_sampled': 256800, 'update_time_ms': 2.509, 'num_steps_trained': 256800, 'load_time_ms': 0.659, 'default': {'kl': 0.014660666696727276, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.363061904907227, 'total_loss': 40.02897644042969, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13153332471847534, 'vf_explained_var': 0.9764943718910217, 'vf_loss': 40.14567184448242}, 'grad_time_ms': 728.893}",3934253,24352.10121202469,-154.46203690448567,cda-server-6,24,-175.558753189674,{},5136,10.157.146.6,{},-142.65037420939933,0,1200,2025-08-29_21-22-25,214,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756495345,50.0,256800,24352.10121202469,93.6891086101532,214
+258000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 106030.498, 'num_steps_sampled': 258000, 'update_time_ms': 2.55, 'num_steps_trained': 258000, 'load_time_ms': 0.658, 'default': {'kl': 0.015574107877910137, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.24034595489502, 'total_loss': 23.518882751464844, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13245254755020142, 'vf_explained_var': 0.9813408255577087, 'vf_loss': 23.63556671142578}, 'grad_time_ms': 724.611}",3934253,24452.742853164673,-153.56616856118634,cda-server-6,24,-175.558753189674,{},5160,10.157.146.6,{},-142.65037420939933,0,1200,2025-08-29_21-24-06,215,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756495446,50.0,258000,24452.742853164673,100.64164113998413,215
+259200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 106625.713, 'num_steps_sampled': 259200, 'update_time_ms': 2.448, 'num_steps_trained': 259200, 'load_time_ms': 0.639, 'default': {'kl': 0.015010246075689793, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.155643463134766, 'total_loss': 42.44038009643555, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12642936408519745, 'vf_explained_var': 0.9697035551071167, 'vf_loss': 42.55160903930664}, 'grad_time_ms': 724.094}",3934253,24564.368947267532,-154.02823510503526,cda-server-6,24,-178.46962133035237,{},5184,10.157.146.6,{},-142.65037420939933,0,1200,2025-08-29_21-25-58,216,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756495558,50.0,259200,24564.368947267532,111.6260941028595,216
+260400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 106940.569, 'num_steps_sampled': 260400, 'update_time_ms': 2.416, 'num_steps_trained': 260400, 'load_time_ms': 0.636, 'default': {'kl': 0.015397397801280022, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.084989547729492, 'total_loss': 37.89418029785156, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1234256848692894, 'vf_explained_var': 0.9787766933441162, 'vf_loss': 38.002017974853516}, 'grad_time_ms': 719.41}",3934253,24669.925053358078,-154.47670628352498,cda-server-6,24,-178.46962133035237,{},5208,10.157.146.6,{},-144.31778136586442,0,1200,2025-08-29_21-27-43,217,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756495663,50.0,260400,24669.925053358078,105.55610609054565,217
+261600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 107460.8, 'num_steps_sampled': 261600, 'update_time_ms': 2.437, 'num_steps_trained': 261600, 'load_time_ms': 0.636, 'default': {'kl': 0.015226908959448338, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.149221420288086, 'total_loss': 47.839778900146484, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13463148474693298, 'vf_explained_var': 0.9676254987716675, 'vf_loss': 47.95899200439453}, 'grad_time_ms': 716.797}",3934253,24774.695830106735,-154.79985125114234,cda-server-6,24,-178.46962133035237,{},5232,10.157.146.6,{},-143.7615888181636,0,1200,2025-08-29_21-29-28,218,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756495768,50.0,261600,24774.695830106735,104.77077674865723,218
+262800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 109240.82, 'num_steps_sampled': 262800, 'update_time_ms': 2.408, 'num_steps_trained': 262800, 'load_time_ms': 0.629, 'default': {'kl': 0.013625938445329666, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.160884857177734, 'total_loss': 38.04711151123047, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12461742758750916, 'vf_explained_var': 0.9737904667854309, 'vf_loss': 38.15793228149414}, 'grad_time_ms': 707.953}",3934253,24893.649383544922,-154.8291380370024,cda-server-6,24,-178.46962133035237,{},5256,10.157.146.6,{},-143.7615888181636,0,1200,2025-08-29_21-31-27,219,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756495887,50.0,262800,24893.649383544922,118.95355343818665,219
+264000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 106807.186, 'num_steps_sampled': 264000, 'update_time_ms': 2.388, 'num_steps_trained': 264000, 'load_time_ms': 0.63, 'default': {'kl': 0.01404307596385479, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.15298080444336, 'total_loss': 49.057411193847656, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13220664858818054, 'vf_explained_var': 0.965358316898346, 'vf_loss': 49.17539978027344}, 'grad_time_ms': 709.126}",3934253,24973.92138981819,-154.6194946052812,cda-server-6,24,-172.94731992277121,{},5280,10.157.146.6,{},-143.7615888181636,0,1200,2025-08-29_21-32-47,220,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756495967,50.0,264000,24973.92138981819,80.27200627326965,220
+265200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 100237.639, 'num_steps_sampled': 265200, 'update_time_ms': 2.377, 'num_steps_trained': 265200, 'load_time_ms': 0.616, 'default': {'kl': 0.014865408651530743, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.083892822265625, 'total_loss': 21.751710891723633, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13358891010284424, 'vf_explained_var': 0.9818400144577026, 'vf_loss': 21.870248794555664}, 'grad_time_ms': 722.184}",3934253,25032.295438051224,-154.0848343995392,cda-server-6,24,-172.94731992277121,{},5304,10.157.146.6,{},-143.7615888181636,0,1200,2025-08-29_21-33-46,221,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756496026,50.0,265200,25032.295438051224,58.37404823303223,221
+266400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 102143.166, 'num_steps_sampled': 266400, 'update_time_ms': 2.42, 'num_steps_trained': 266400, 'load_time_ms': 0.617, 'default': {'kl': 0.014355365186929703, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.014341354370117, 'total_loss': 67.55355072021484, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13376568257808685, 'vf_explained_var': 0.9518985748291016, 'vf_loss': 67.67278289794922}, 'grad_time_ms': 737.906}",3934253,25155.22252869606,-154.03806347040836,cda-server-6,24,-174.09409334392393,{},5328,10.157.146.6,{},-145.41766044712392,0,1200,2025-08-29_21-35-49,222,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756496149,50.0,266400,25155.22252869606,122.92709064483643,222
+267600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 99729.598, 'num_steps_sampled': 267600, 'update_time_ms': 2.413, 'num_steps_trained': 267600, 'load_time_ms': 0.605, 'default': {'kl': 0.015129496343433857, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.16669750213623, 'total_loss': 23.677480697631836, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13773919641971588, 'vf_explained_var': 0.9821985960006714, 'vf_loss': 23.79990005493164}, 'grad_time_ms': 742.503}",3934253,25263.21758890152,-153.84540569107764,cda-server-6,24,-174.09409334392393,{},5352,10.157.146.6,{},-145.41766044712392,0,1200,2025-08-29_21-37-37,223,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756496257,50.0,267600,25263.21758890152,107.9950602054596,223
+268800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 99750.405, 'num_steps_sampled': 268800, 'update_time_ms': 2.491, 'num_steps_trained': 268800, 'load_time_ms': 0.613, 'default': {'kl': 0.014904823154211044, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.1945161819458, 'total_loss': 19.52242088317871, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14050191640853882, 'vf_explained_var': 0.9843916296958923, 'vf_loss': 19.647830963134766}, 'grad_time_ms': 760.738}",3934253,25357.295568943024,-153.5902486105291,cda-server-6,24,-175.99024313429615,{},5376,10.157.146.6,{},-145.11019265055916,0,1200,2025-08-29_21-39-11,224,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756496351,50.0,268800,25357.295568943024,94.0779800415039,224
+270000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 100893.525, 'num_steps_sampled': 270000, 'update_time_ms': 2.487, 'num_steps_trained': 270000, 'load_time_ms': 0.617, 'default': {'kl': 0.015589192509651184, 'cur_lr': 4.999999873689376e-05, 'entropy': 12.922922134399414, 'total_loss': 29.725852966308594, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13020819425582886, 'vf_explained_var': 0.9754431247711182, 'vf_loss': 29.84027862548828}, 'grad_time_ms': 755.303}",3934253,25469.313912391663,-153.95590331783544,cda-server-6,24,-175.99024313429615,{},5400,10.157.146.6,{},-144.9118933600018,0,1200,2025-08-29_21-41-03,225,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756496463,50.0,270000,25469.313912391663,112.01834344863892,225
+271200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 100926.159, 'num_steps_sampled': 271200, 'update_time_ms': 2.492, 'num_steps_trained': 271200, 'load_time_ms': 0.614, 'default': {'kl': 0.01505206897854805, 'cur_lr': 4.999999873689376e-05, 'entropy': 12.80807876586914, 'total_loss': 23.48046112060547, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13089901208877563, 'vf_explained_var': 0.980962872505188, 'vf_loss': 23.596118927001953}, 'grad_time_ms': 754.195}",3934253,25581.256008148193,-153.83885704993364,cda-server-6,24,-175.99024313429615,{},5424,10.157.146.6,{},-144.9118933600018,0,1200,2025-08-29_21-42-55,226,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756496575,50.0,271200,25581.256008148193,111.94209575653076,226
+272400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 100114.556, 'num_steps_sampled': 272400, 'update_time_ms': 2.515, 'num_steps_trained': 272400, 'load_time_ms': 0.613, 'default': {'kl': 0.015062487684190273, 'cur_lr': 4.999999873689376e-05, 'entropy': 12.996514320373535, 'total_loss': 24.47572898864746, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1414356827735901, 'vf_explained_var': 0.9804410934448242, 'vf_loss': 24.601913452148438}, 'grad_time_ms': 755.148}",3934253,25678.705996513367,-154.2308098880995,cda-server-6,24,-175.99024313429615,{},5448,10.157.146.6,{},-144.9118933600018,0,1200,2025-08-29_21-44-32,227,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756496672,50.0,272400,25678.705996513367,97.44998836517334,227
+273600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 97764.171, 'num_steps_sampled': 273600, 'update_time_ms': 2.513, 'num_steps_trained': 273600, 'load_time_ms': 0.605, 'default': {'kl': 0.014948169700801373, 'cur_lr': 4.999999873689376e-05, 'entropy': 12.985085487365723, 'total_loss': 51.06395721435547, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14840246737003326, 'vf_explained_var': 0.9613332748413086, 'vf_loss': 51.197227478027344}, 'grad_time_ms': 767.314}",3934253,25760.094562768936,-154.3562061237597,cda-server-6,24,-172.89268666728373,{},5472,10.157.146.6,{},-144.9118933600018,0,1200,2025-08-29_21-45-54,228,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756496754,50.0,273600,25760.094562768936,81.38856625556946,228
+274800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 95601.535, 'num_steps_sampled': 274800, 'update_time_ms': 2.6, 'num_steps_trained': 274800, 'load_time_ms': 0.608, 'default': {'kl': 0.014542028307914734, 'cur_lr': 4.999999873689376e-05, 'entropy': 13.030766487121582, 'total_loss': 61.48118591308594, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13130980730056763, 'vf_explained_var': 0.9557677507400513, 'vf_loss': 61.5977783203125}, 'grad_time_ms': 769.226}",3934253,25857.44341278076,-155.07597284154912,cda-server-6,24,-191.1136767254141,{},5496,10.157.146.6,{},-148.96356347694825,0,1200,2025-08-29_21-47-31,229,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756496851,50.0,274800,25857.44341278076,97.34885001182556,229
+276000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 96856.808, 'num_steps_sampled': 276000, 'update_time_ms': 2.746, 'num_steps_trained': 276000, 'load_time_ms': 0.616, 'default': {'kl': 0.01313636265695095, 'cur_lr': 4.999999873689376e-05, 'entropy': 12.705184936523438, 'total_loss': 44.72980499267578, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12996193766593933, 'vf_explained_var': 0.966231644153595, 'vf_loss': 44.84646987915039}, 'grad_time_ms': 764.339}",3934253,25950.22126197815,-155.30187061257263,cda-server-6,24,-191.1136767254141,{},5520,10.157.146.6,{},-148.96356347694825,0,1200,2025-08-29_21-49-04,230,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756496944,50.0,276000,25950.22126197815,92.7778491973877,230
+277200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 101806.465, 'num_steps_sampled': 277200, 'update_time_ms': 2.732, 'num_steps_trained': 277200, 'load_time_ms': 0.619, 'default': {'kl': 0.016049357131123543, 'cur_lr': 4.999999873689376e-05, 'entropy': 12.747896194458008, 'total_loss': 39.389190673828125, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1357201188802719, 'vf_explained_var': 0.9743813276290894, 'vf_loss': 39.508663177490234}, 'grad_time_ms': 767.366}",3934253,26058.122532606125,-154.81526937116584,cda-server-6,24,-191.1136767254141,{},5544,10.157.146.6,{},-141.56158667514845,0,1200,2025-08-29_21-50-52,231,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756497052,50.0,277200,26058.122532606125,107.90127062797546,231
+278400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 99243.229, 'num_steps_sampled': 278400, 'update_time_ms': 2.714, 'num_steps_trained': 278400, 'load_time_ms': 0.616, 'default': {'kl': 0.014159131795167923, 'cur_lr': 4.999999873689376e-05, 'entropy': 12.914978981018066, 'total_loss': 33.23030471801758, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14277423918247223, 'vf_explained_var': 0.9747536182403564, 'vf_loss': 33.35874557495117}, 'grad_time_ms': 758.329}",3934253,26155.325921297073,-154.74883742173165,cda-server-6,24,-191.1136767254141,{},5568,10.157.146.6,{},-137.5857586828239,0,1200,2025-08-29_21-52-29,232,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756497149,50.0,278400,26155.325921297073,97.20338869094849,232
+279600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 99070.339, 'num_steps_sampled': 279600, 'update_time_ms': 2.659, 'num_steps_trained': 279600, 'load_time_ms': 0.619, 'default': {'kl': 0.014392811805009842, 'cur_lr': 4.999999873689376e-05, 'entropy': 12.926675796508789, 'total_loss': 25.39544105529785, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13040010631084442, 'vf_explained_var': 0.9801141023635864, 'vf_loss': 25.511268615722656}, 'grad_time_ms': 766.947}",3934253,26261.67698597908,-154.05910708740407,cda-server-6,24,-169.70926420317127,{},5592,10.157.146.6,{},-137.5857586828239,0,1200,2025-08-29_21-54-15,233,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756497255,50.0,279600,26261.67698597908,106.35106468200684,233
+280800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 99423.125, 'num_steps_sampled': 280800, 'update_time_ms': 2.548, 'num_steps_trained': 280800, 'load_time_ms': 0.608, 'default': {'kl': 0.015516189858317375, 'cur_lr': 4.999999873689376e-05, 'entropy': 12.509271621704102, 'total_loss': 37.31974792480469, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13313306868076324, 'vf_explained_var': 0.9727855324745178, 'vf_loss': 37.437171936035156}, 'grad_time_ms': 756.131}",3934253,26359.173065185547,-154.56187542044893,cda-server-6,24,-175.45024040060775,{},5616,10.157.146.6,{},-137.5857586828239,0,1200,2025-08-29_21-55-53,234,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756497353,50.0,280800,26359.173065185547,97.49607920646667,234
+282000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 99400.701, 'num_steps_sampled': 282000, 'update_time_ms': 2.538, 'num_steps_trained': 282000, 'load_time_ms': 0.61, 'default': {'kl': 0.015087624080479145, 'cur_lr': 4.999999873689376e-05, 'entropy': 12.51517105102539, 'total_loss': 36.4234619140625, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1278027892112732, 'vf_explained_var': 0.9724928736686707, 'vf_loss': 36.53599548339844}, 'grad_time_ms': 757.099}",3934253,26470.97898197174,-154.6107954352704,cda-server-6,24,-175.45024040060775,{},5640,10.157.146.6,{},-137.5857586828239,0,1200,2025-08-29_21-57-45,235,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756497465,50.0,282000,26470.97898197174,111.80591678619385,235
+283200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 95406.385, 'num_steps_sampled': 283200, 'update_time_ms': 2.563, 'num_steps_trained': 283200, 'load_time_ms': 0.647, 'default': {'kl': 0.015108389779925346, 'cur_lr': 4.999999873689376e-05, 'entropy': 12.653817176818848, 'total_loss': 48.8950309753418, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13136011362075806, 'vf_explained_var': 0.9658221006393433, 'vf_loss': 49.01109313964844}, 'grad_time_ms': 743.824}",3934253,26542.84624195099,-154.18766838139035,cda-server-6,24,-175.45024040060775,{},5664,10.157.146.6,{},-147.4771196656932,0,1200,2025-08-29_21-58-56,236,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756497536,50.0,283200,26542.84624195099,71.86725997924805,236
+284400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94211.608, 'num_steps_sampled': 284400, 'update_time_ms': 2.569, 'num_steps_trained': 284400, 'load_time_ms': 0.657, 'default': {'kl': 0.014272380620241165, 'cur_lr': 4.999999873689376e-05, 'entropy': 12.560246467590332, 'total_loss': 31.587806701660156, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1402655392885208, 'vf_explained_var': 0.9775816798210144, 'vf_loss': 31.713619232177734}, 'grad_time_ms': 752.183}",3934253,26628.431704998016,-154.84538605775754,cda-server-6,24,-175.45024040060775,{},5688,10.157.146.6,{},-147.4771196656932,0,1200,2025-08-29_22-00-22,237,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756497622,50.0,284400,26628.431704998016,85.58546304702759,237
+285600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93826.904, 'num_steps_sampled': 285600, 'update_time_ms': 2.608, 'num_steps_trained': 285600, 'load_time_ms': 0.661, 'default': {'kl': 0.015821723267436028, 'cur_lr': 4.999999873689376e-05, 'entropy': 12.670042037963867, 'total_loss': 30.40340232849121, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12687571346759796, 'vf_explained_var': 0.9778980612754822, 'vf_loss': 30.514259338378906}, 'grad_time_ms': 749.683}",3934253,26705.948573827744,-154.4982256142866,cda-server-6,24,-172.66039303845443,{},5712,10.157.146.6,{},-142.12198176583468,0,1200,2025-08-29_22-01-40,238,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756497700,50.0,285600,26705.948573827744,77.51686882972717,238
+286800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94663.624, 'num_steps_sampled': 286800, 'update_time_ms': 2.587, 'num_steps_trained': 286800, 'load_time_ms': 0.671, 'default': {'kl': 0.01557975821197033, 'cur_lr': 4.999999873689376e-05, 'entropy': 12.703690528869629, 'total_loss': 32.40293502807617, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.139328271150589, 'vf_explained_var': 0.9742265343666077, 'vf_loss': 32.5264892578125}, 'grad_time_ms': 743.241}",3934253,26811.59946990013,-154.7133937321576,cda-server-6,24,-172.66039303845443,{},5736,10.157.146.6,{},-142.12198176583468,0,1200,2025-08-29_22-03-25,239,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756497805,50.0,286800,26811.59946990013,105.6508960723877,239
+288000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 95221.891, 'num_steps_sampled': 288000, 'update_time_ms': 2.448, 'num_steps_trained': 288000, 'load_time_ms': 0.667, 'default': {'kl': 0.015021582134068012, 'cur_lr': 4.999999873689376e-05, 'entropy': 12.68139362335205, 'total_loss': 51.14398956298828, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12773293256759644, 'vf_explained_var': 0.9638887047767639, 'vf_loss': 51.25651550292969}, 'grad_time_ms': 739.327}",3934253,26909.918827056885,-155.13402580695703,cda-server-6,24,-174.34265858004116,{},5760,10.157.146.6,{},-142.12198176583468,0,1200,2025-08-29_22-05-04,240,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756497904,50.0,288000,26909.918827056885,98.31935715675354,240
+289200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 95494.256, 'num_steps_sampled': 289200, 'update_time_ms': 2.609, 'num_steps_trained': 289200, 'load_time_ms': 0.661, 'default': {'kl': 0.01462772861123085, 'cur_lr': 4.999999873689376e-05, 'entropy': 12.194981575012207, 'total_loss': 20.053916931152344, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1390572488307953, 'vf_explained_var': 0.9844868779182434, 'vf_loss': 20.17816162109375}, 'grad_time_ms': 731.619}",3934253,27020.467235326767,-154.3404811106415,cda-server-6,24,-174.34265858004116,{},5784,10.157.146.6,{},-142.12198176583468,0,1200,2025-08-29_22-06-54,241,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756498014,50.0,289200,27020.467235326767,110.5484082698822,241
+290400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 95563.006, 'num_steps_sampled': 290400, 'update_time_ms': 2.582, 'num_steps_trained': 290400, 'load_time_ms': 0.67, 'default': {'kl': 0.016566181555390358, 'cur_lr': 4.999999873689376e-05, 'entropy': 12.55049991607666, 'total_loss': 25.23848533630371, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13654492795467377, 'vf_explained_var': 0.9805251359939575, 'vf_loss': 25.35825538635254}, 'grad_time_ms': 724.998}",3934253,27118.29235434532,-154.16136676098563,cda-server-6,24,-174.34265858004116,{},5808,10.157.146.6,{},-148.8217025152694,0,1200,2025-08-29_22-08-32,242,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756498112,50.0,290400,27118.29235434532,97.82511901855469,242
+291600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94718.135, 'num_steps_sampled': 291600, 'update_time_ms': 2.636, 'num_steps_trained': 291600, 'load_time_ms': 0.67, 'default': {'kl': 0.014852155931293964, 'cur_lr': 4.999999873689376e-05, 'entropy': 12.296875953674316, 'total_loss': 28.0606689453125, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13112103939056396, 'vf_explained_var': 0.9789355397224426, 'vf_loss': 28.1767520904541}, 'grad_time_ms': 734.402}",3934253,27216.289939165115,-154.16419404181408,cda-server-6,24,-174.34265858004116,{},5832,10.157.146.6,{},-144.2930427633367,0,1200,2025-08-29_22-10-10,243,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756498210,50.0,291600,27216.289939165115,97.9975848197937,243
+292800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94072.851, 'num_steps_sampled': 292800, 'update_time_ms': 2.692, 'num_steps_trained': 292800, 'load_time_ms': 0.678, 'default': {'kl': 0.01521742157638073, 'cur_lr': 4.999999873689376e-05, 'entropy': 12.436162948608398, 'total_loss': 32.87732696533203, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1397152990102768, 'vf_explained_var': 0.974628746509552, 'vf_loss': 33.00163269042969}, 'grad_time_ms': 729.856}",3934253,27307.288112401962,-154.1744086331289,cda-server-6,24,-173.09618343276952,{},5856,10.157.146.6,{},-144.2930427633367,0,1200,2025-08-29_22-11-41,244,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756498301,50.0,292800,27307.288112401962,90.99817323684692,244
+294000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92770.585, 'num_steps_sampled': 294000, 'update_time_ms': 2.66, 'num_steps_trained': 294000, 'load_time_ms': 0.669, 'default': {'kl': 0.015452582389116287, 'cur_lr': 4.999999873689376e-05, 'entropy': 12.431663513183594, 'total_loss': 28.786949157714844, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12592917680740356, 'vf_explained_var': 0.9775936603546143, 'vf_loss': 28.89723777770996}, 'grad_time_ms': 734.721}",3934253,27406.1181910038,-154.34016486305367,cda-server-6,24,-173.09618343276952,{},5880,10.157.146.6,{},-144.2930427633367,0,1200,2025-08-29_22-13-20,245,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756498400,50.0,294000,27406.1181910038,98.83007860183716,245
+295200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 95930.382, 'num_steps_sampled': 295200, 'update_time_ms': 2.688, 'num_steps_trained': 295200, 'load_time_ms': 0.632, 'default': {'kl': 0.014374022372066975, 'cur_lr': 4.999999873689376e-05, 'entropy': 12.280024528503418, 'total_loss': 37.74338912963867, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11980906873941422, 'vf_explained_var': 0.9736410975456238, 'vf_loss': 37.8486442565918}, 'grad_time_ms': 747.384}",3934253,27509.708899497986,-154.27605406898746,cda-server-6,24,-173.09618343276952,{},5904,10.157.146.6,{},-144.2930427633367,0,1200,2025-08-29_22-15-03,246,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756498503,50.0,295200,27509.708899497986,103.5907084941864,246
+296400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94837.908, 'num_steps_sampled': 296400, 'update_time_ms': 2.657, 'num_steps_trained': 296400, 'load_time_ms': 0.629, 'default': {'kl': 0.01566668227314949, 'cur_lr': 4.999999873689376e-05, 'entropy': 12.17396068572998, 'total_loss': 28.47240447998047, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12497733533382416, 'vf_explained_var': 0.9772866368293762, 'vf_loss': 28.58152198791504}, 'grad_time_ms': 753.058}",3934253,27584.426176071167,-154.29560239216406,cda-server-6,24,-175.1037563369774,{},5928,10.157.146.6,{},-151.14767500096642,0,1200,2025-08-29_22-16-18,247,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756498578,50.0,296400,27584.426176071167,74.71727657318115,247
+297600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 96071.038, 'num_steps_sampled': 297600, 'update_time_ms': 2.61, 'num_steps_trained': 297600, 'load_time_ms': 0.63, 'default': {'kl': 0.013279435224831104, 'cur_lr': 4.999999873689376e-05, 'entropy': 12.279629707336426, 'total_loss': 42.234100341796875, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12782859802246094, 'vf_explained_var': 0.9741078615188599, 'vf_loss': 42.34848403930664}, 'grad_time_ms': 753.748}",3934253,27674.280586481094,-153.9695664898226,cda-server-6,24,-175.1037563369774,{},5952,10.157.146.6,{},-149.32841745117312,0,1200,2025-08-29_22-17-48,248,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756498668,50.0,297600,27674.280586481094,89.85441040992737,248
+298800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 97574.462, 'num_steps_sampled': 298800, 'update_time_ms': 2.616, 'num_steps_trained': 298800, 'load_time_ms': 0.651, 'default': {'kl': 0.01410535629838705, 'cur_lr': 4.999999873689376e-05, 'entropy': 12.100536346435547, 'total_loss': 19.91636085510254, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12572787702083588, 'vf_explained_var': 0.9843169450759888, 'vf_loss': 20.027809143066406}, 'grad_time_ms': 758.636}",3934253,27795.013806581497,-153.71891833490415,cda-server-6,24,-175.1037563369774,{},5976,10.157.146.6,{},-149.32841745117312,0,1200,2025-08-29_22-19-49,249,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756498789,50.0,298800,27795.013806581497,120.73322010040283,249
+300000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 97666.622, 'num_steps_sampled': 300000, 'update_time_ms': 2.658, 'num_steps_trained': 300000, 'load_time_ms': 0.651, 'default': {'kl': 0.012680845335125923, 'cur_lr': 4.999999873689376e-05, 'entropy': 12.221396446228027, 'total_loss': 41.20733642578125, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11321382969617844, 'vf_explained_var': 0.9742316007614136, 'vf_loss': 41.307708740234375}, 'grad_time_ms': 763.965}",3934253,27894.30849289894,-154.03355792080626,cda-server-6,24,-201.81562551481366,{},6000,10.157.146.6,{},-149.32841745117312,0,1200,2025-08-29_22-21-28,250,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756498888,50.0,300000,27894.30849289894,99.29468631744385,250
+301200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94007.579, 'num_steps_sampled': 301200, 'update_time_ms': 2.523, 'num_steps_trained': 301200, 'load_time_ms': 0.647, 'default': {'kl': 0.013563835062086582, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.968669891357422, 'total_loss': 31.392887115478516, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11377114802598953, 'vf_explained_var': 0.9757980704307556, 'vf_loss': 31.492923736572266}, 'grad_time_ms': 744.0}",3934253,27968.066175222397,-153.65693731382558,cda-server-6,24,-201.81562551481366,{},6024,10.157.146.6,{},-149.32841745117312,0,1200,2025-08-29_22-22-42,251,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756498962,50.0,301200,27968.066175222397,73.75768232345581,251
+302400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92510.76, 'num_steps_sampled': 302400, 'update_time_ms': 2.579, 'num_steps_trained': 302400, 'load_time_ms': 0.648, 'default': {'kl': 0.013669435866177082, 'cur_lr': 4.999999873689376e-05, 'entropy': 12.033707618713379, 'total_loss': 17.814746856689453, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11148720234632492, 'vf_explained_var': 0.9851120710372925, 'vf_loss': 17.912391662597656}, 'grad_time_ms': 751.818}",3934253,28051.0013692379,-153.92671987302916,cda-server-6,24,-201.81562551481366,{},6048,10.157.146.6,{},-149.90883747438755,0,1200,2025-08-29_22-24-05,252,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756499045,50.0,302400,28051.0013692379,82.93519401550293,252
+303600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92284.865, 'num_steps_sampled': 303600, 'update_time_ms': 2.535, 'num_steps_trained': 303600, 'load_time_ms': 0.657, 'default': {'kl': 0.01406802423298359, 'cur_lr': 4.999999873689376e-05, 'entropy': 12.27514362335205, 'total_loss': 20.965513229370117, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1320834904909134, 'vf_explained_var': 0.9830424189567566, 'vf_loss': 21.083351135253906}, 'grad_time_ms': 750.709}",3934253,28146.728314638138,-153.97191238060424,cda-server-6,24,-201.81562551481366,{},6072,10.157.146.6,{},-141.37306239201038,0,1200,2025-08-29_22-25-41,253,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756499141,50.0,303600,28146.728314638138,95.72694540023804,253
+304800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 91604.615, 'num_steps_sampled': 304800, 'update_time_ms': 2.51, 'num_steps_trained': 304800, 'load_time_ms': 0.665, 'default': {'kl': 0.014106563292443752, 'cur_lr': 4.999999873689376e-05, 'entropy': 12.195647239685059, 'total_loss': 38.15617752075195, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1277208924293518, 'vf_explained_var': 0.9729253053665161, 'vf_loss': 38.269615173339844}, 'grad_time_ms': 756.57}",3934253,28230.983020067215,-153.40373628066334,cda-server-6,24,-175.32770252462922,{},6096,10.157.146.6,{},-141.37306239201038,0,1200,2025-08-29_22-27-05,254,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756499225,50.0,304800,28230.983020067215,84.25470542907715,254
+306000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 90304.885, 'num_steps_sampled': 306000, 'update_time_ms': 2.523, 'num_steps_trained': 306000, 'load_time_ms': 0.669, 'default': {'kl': 0.014886324293911457, 'cur_lr': 4.999999873689376e-05, 'entropy': 12.2487211227417, 'total_loss': 19.486772537231445, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13814154267311096, 'vf_explained_var': 0.984747052192688, 'vf_loss': 19.609840393066406}, 'grad_time_ms': 749.583}",3934253,28316.745934963226,-153.5950026973953,cda-server-6,24,-175.32770252462922,{},6120,10.157.146.6,{},-141.37306239201038,0,1200,2025-08-29_22-28-31,255,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756499311,50.0,306000,28316.745934963226,85.76291489601135,255
+307200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 87739.019, 'num_steps_sampled': 307200, 'update_time_ms': 2.509, 'num_steps_trained': 307200, 'load_time_ms': 0.67, 'default': {'kl': 0.01419132947921753, 'cur_lr': 4.999999873689376e-05, 'entropy': 12.179950714111328, 'total_loss': 44.02378845214844, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12743514776229858, 'vf_explained_var': 0.9703550338745117, 'vf_loss': 44.1368522644043}, 'grad_time_ms': 743.555}",3934253,28394.618319272995,-153.71739596982954,cda-server-6,24,-175.32770252462922,{},6144,10.157.146.6,{},-141.37306239201038,0,1200,2025-08-29_22-29-49,256,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756499389,50.0,307200,28394.618319272995,77.87238430976868,256
+308400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 89687.698, 'num_steps_sampled': 308400, 'update_time_ms': 2.549, 'num_steps_trained': 308400, 'load_time_ms': 0.664, 'default': {'kl': 0.014530722051858902, 'cur_lr': 4.999999873689376e-05, 'entropy': 12.120244026184082, 'total_loss': 26.150606155395508, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.125518798828125, 'vf_explained_var': 0.9807274341583252, 'vf_loss': 26.261411666870117}, 'grad_time_ms': 747.631}",3934253,28488.863465070724,-153.58796723004997,cda-server-6,24,-175.32770252462922,{},6168,10.157.146.6,{},-141.45347079017628,0,1200,2025-08-29_22-31-23,257,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756499483,50.0,308400,28488.863465070724,94.24514579772949,257
+309600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 89355.613, 'num_steps_sampled': 309600, 'update_time_ms': 2.538, 'num_steps_trained': 309600, 'load_time_ms': 0.658, 'default': {'kl': 0.014274870045483112, 'cur_lr': 4.999999873689376e-05, 'entropy': 12.029433250427246, 'total_loss': 21.19289779663086, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14656893908977509, 'vf_explained_var': 0.9849755764007568, 'vf_loss': 21.325014114379883}, 'grad_time_ms': 743.267}",3934253,28575.35304093361,-153.65874506459247,cda-server-6,24,-167.30001100256214,{},6192,10.157.146.6,{},-141.45347079017628,0,1200,2025-08-29_22-32-49,258,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756499569,50.0,309600,28575.35304093361,86.48957586288452,258
+310800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 87597.555, 'num_steps_sampled': 310800, 'update_time_ms': 2.485, 'num_steps_trained': 310800, 'load_time_ms': 0.628, 'default': {'kl': 0.01563265360891819, 'cur_lr': 4.999999873689376e-05, 'entropy': 12.04366397857666, 'total_loss': 24.3173885345459, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13971100747585297, 'vf_explained_var': 0.9832693934440613, 'vf_loss': 24.441268920898438}, 'grad_time_ms': 740.667}",3934253,28678.47874569893,-153.58450695244758,cda-server-6,24,-167.7332204385451,{},6216,10.157.146.6,{},-141.45347079017628,0,1200,2025-08-29_22-34-32,259,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756499672,50.0,310800,28678.47874569893,103.12570476531982,259
+312000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 87057.199, 'num_steps_sampled': 312000, 'update_time_ms': 2.422, 'num_steps_trained': 312000, 'load_time_ms': 0.632, 'default': {'kl': 0.013417969457805157, 'cur_lr': 4.999999873689376e-05, 'entropy': 12.221627235412598, 'total_loss': 37.70539474487305, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12108760327100754, 'vf_explained_var': 0.9734055995941162, 'vf_loss': 37.81289291381836}, 'grad_time_ms': 740.404}",3934253,28772.3668551445,-153.13736615788864,cda-server-6,24,-170.00570466065776,{},6240,10.157.146.6,{},-140.7502885744889,0,1200,2025-08-29_22-36-06,260,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756499766,50.0,312000,28772.3668551445,93.8881094455719,260
+313200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 89045.252, 'num_steps_sampled': 313200, 'update_time_ms': 2.386, 'num_steps_trained': 313200, 'load_time_ms': 0.631, 'default': {'kl': 0.012220478616654873, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.781728744506836, 'total_loss': 74.40132904052734, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11190219968557358, 'vf_explained_var': 0.9513096213340759, 'vf_loss': 74.50086212158203}, 'grad_time_ms': 762.39}",3934253,28866.223863124847,-153.94081905848125,cda-server-6,24,-195.83850086707832,{},6264,10.157.146.6,{},-140.7502885744889,0,1200,2025-08-29_22-37-40,261,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756499860,50.0,313200,28866.223863124847,93.85700798034668,261
+314400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 89071.642, 'num_steps_sampled': 314400, 'update_time_ms': 2.394, 'num_steps_trained': 314400, 'load_time_ms': 0.625, 'default': {'kl': 0.014541917480528355, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.741612434387207, 'total_loss': 17.651187896728516, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13121682405471802, 'vf_explained_var': 0.9867935180664062, 'vf_loss': 17.76767921447754}, 'grad_time_ms': 775.037}",3934253,28949.54998254776,-153.74686526915812,cda-server-6,24,-195.83850086707832,{},6288,10.157.146.6,{},-140.7502885744889,0,1200,2025-08-29_22-39-04,262,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756499944,50.0,314400,28949.54998254776,83.3261194229126,262
+315600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 88088.332, 'num_steps_sampled': 315600, 'update_time_ms': 2.525, 'num_steps_trained': 315600, 'load_time_ms': 0.613, 'default': {'kl': 0.013870678842067719, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.782343864440918, 'total_loss': 18.725406646728516, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12153424322605133, 'vf_explained_var': 0.9850756525993347, 'vf_loss': 18.832895278930664}, 'grad_time_ms': 772.561}",3934253,29035.42023253441,-153.9387682014451,cda-server-6,24,-195.83850086707832,{},6312,10.157.146.6,{},-140.7502885744889,0,1200,2025-08-29_22-40-30,263,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756500030,50.0,315600,29035.42023253441,85.87024998664856,263
+316800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 88319.086, 'num_steps_sampled': 316800, 'update_time_ms': 2.537, 'num_steps_trained': 316800, 'load_time_ms': 0.604, 'default': {'kl': 0.015589484013617039, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.815381050109863, 'total_loss': 45.58415222167969, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13468068838119507, 'vf_explained_var': 0.9687883853912354, 'vf_loss': 45.70304870605469}, 'grad_time_ms': 773.986}",3934253,29121.998387098312,-154.28611412240772,cda-server-6,24,-195.83850086707832,{},6336,10.157.146.6,{},-149.05647309909892,0,1200,2025-08-29_22-41-56,264,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756500116,50.0,316800,29121.998387098312,86.57815456390381,264
+318000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 88821.475, 'num_steps_sampled': 318000, 'update_time_ms': 2.55, 'num_steps_trained': 318000, 'load_time_ms': 0.607, 'default': {'kl': 0.015006310306489468, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.8653564453125, 'total_loss': 29.010637283325195, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13054674863815308, 'vf_explained_var': 0.9786375761032104, 'vf_loss': 29.125986099243164}, 'grad_time_ms': 780.571}",3934253,29212.850786685944,-154.1596053466124,cda-server-6,24,-176.4381663197646,{},6360,10.157.146.6,{},-148.19820052487748,0,1200,2025-08-29_22-43-27,265,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756500207,50.0,318000,29212.850786685944,90.85239958763123,265
+319200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 88283.819, 'num_steps_sampled': 319200, 'update_time_ms': 2.533, 'num_steps_trained': 319200, 'load_time_ms': 0.611, 'default': {'kl': 0.016107451170682907, 'cur_lr': 4.999999873689376e-05, 'entropy': 12.022677421569824, 'total_loss': 37.852230072021484, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1311512589454651, 'vf_explained_var': 0.974249541759491, 'vf_loss': 37.967071533203125}, 'grad_time_ms': 794.547}",3934253,29285.48614835739,-154.15685653819614,cda-server-6,24,-176.4381663197646,{},6384,10.157.146.6,{},-136.70630152775394,0,1200,2025-08-29_22-44-40,266,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756500280,50.0,319200,29285.48614835739,72.63536167144775,266
+320400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 88743.608, 'num_steps_sampled': 320400, 'update_time_ms': 2.52, 'num_steps_trained': 320400, 'load_time_ms': 0.61, 'default': {'kl': 0.014153753407299519, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.821681022644043, 'total_loss': 27.39217758178711, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12194425612688065, 'vf_explained_var': 0.9820153713226318, 'vf_loss': 27.499794006347656}, 'grad_time_ms': 793.183}",3934253,29384.31538414955,-153.96803814397418,cda-server-6,24,-176.4381663197646,{},6408,10.157.146.6,{},-136.70630152775394,0,1200,2025-08-29_22-46-18,267,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756500378,50.0,320400,29384.31538414955,98.82923579216003,267
+321600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 87746.756, 'num_steps_sampled': 321600, 'update_time_ms': 2.571, 'num_steps_trained': 321600, 'load_time_ms': 0.612, 'default': {'kl': 0.013911773450672626, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.718981742858887, 'total_loss': 40.44329071044922, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13097091019153595, 'vf_explained_var': 0.9710770845413208, 'vf_loss': 40.560176849365234}, 'grad_time_ms': 797.005}",3934253,29460.875306606293,-153.7755560748365,cda-server-6,24,-176.4381663197646,{},6432,10.157.146.6,{},-136.70630152775394,0,1200,2025-08-29_22-47-35,268,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756500455,50.0,321600,29460.875306606293,76.55992245674133,268
+322800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 84188.524, 'num_steps_sampled': 322800, 'update_time_ms': 2.593, 'num_steps_trained': 322800, 'load_time_ms': 0.607, 'default': {'kl': 0.016193203628063202, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.588141441345215, 'total_loss': 32.77817153930664, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13464587926864624, 'vf_explained_var': 0.9762402772903442, 'vf_loss': 32.896419525146484}, 'grad_time_ms': 806.453}",3934253,29528.51364827156,-153.4607327425086,cda-server-6,24,-171.40863771827642,{},6456,10.157.146.6,{},-136.70630152775394,0,1200,2025-08-29_22-48-43,269,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756500523,50.0,322800,29528.51364827156,67.63834166526794,269
+324000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 84408.661, 'num_steps_sampled': 324000, 'update_time_ms': 2.626, 'num_steps_trained': 324000, 'load_time_ms': 0.596, 'default': {'kl': 0.01516958698630333, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.557772636413574, 'total_loss': 23.42417335510254, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12869912385940552, 'vf_explained_var': 0.9817376732826233, 'vf_loss': 23.537513732910156}, 'grad_time_ms': 806.745}",3934253,29624.60574412346,-153.33992347144647,cda-server-6,24,-171.40863771827642,{},6480,10.157.146.6,{},-142.72273321439698,0,1200,2025-08-29_22-50-19,270,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756500619,50.0,324000,29624.60574412346,96.0920958518982,270
+325200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 81621.057, 'num_steps_sampled': 325200, 'update_time_ms': 2.665, 'num_steps_trained': 325200, 'load_time_ms': 0.606, 'default': {'kl': 0.0140716303139925, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.617931365966797, 'total_loss': 23.010072708129883, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1258062869310379, 'vf_explained_var': 0.9814040660858154, 'vf_loss': 23.121633529663086}, 'grad_time_ms': 807.68}",3934253,29690.5972969532,-153.17287745568458,cda-server-6,24,-171.40863771827642,{},6504,10.157.146.6,{},-142.72273321439698,0,1200,2025-08-29_22-51-25,271,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756500685,50.0,325200,29690.5972969532,65.99155282974243,271
+326400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 82244.568, 'num_steps_sampled': 326400, 'update_time_ms': 2.656, 'num_steps_trained': 326400, 'load_time_ms': 0.61, 'default': {'kl': 0.013999907299876213, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.388032913208008, 'total_loss': 18.105144500732422, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11585116386413574, 'vf_explained_var': 0.9850890040397644, 'vf_loss': 18.20682144165039}, 'grad_time_ms': 788.997}",3934253,29779.971660375595,-152.95437416580322,cda-server-6,24,-166.7981294945134,{},6528,10.157.146.6,{},-142.31050554669037,0,1200,2025-08-29_22-52-54,272,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756500774,50.0,326400,29779.971660375595,89.3743634223938,272
+327600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 80115.644, 'num_steps_sampled': 327600, 'update_time_ms': 2.58, 'num_steps_trained': 327600, 'load_time_ms': 0.618, 'default': {'kl': 0.014399628154933453, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.7221097946167, 'total_loss': 35.62514877319336, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12929335236549377, 'vf_explained_var': 0.9736959934234619, 'vf_loss': 35.739864349365234}, 'grad_time_ms': 793.414}",3934253,29844.59642982483,-153.57078695792043,cda-server-6,24,-180.0083391494624,{},6552,10.157.146.6,{},-142.31050554669037,0,1200,2025-08-29_22-53-59,273,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756500839,50.0,327600,29844.59642982483,64.62476944923401,273
+328800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 81093.68, 'num_steps_sampled': 328800, 'update_time_ms': 2.564, 'num_steps_trained': 328800, 'load_time_ms': 0.614, 'default': {'kl': 0.013647317886352539, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.217588424682617, 'total_loss': 42.10578918457031, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.10328339040279388, 'vf_explained_var': 0.9690133333206177, 'vf_loss': 42.19525909423828}, 'grad_time_ms': 794.475}",3934253,29940.964215040207,-153.39609191716633,cda-server-6,24,-180.0083391494624,{},6576,10.157.146.6,{},-142.31050554669037,0,1200,2025-08-29_22-55-35,274,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756500935,50.0,328800,29940.964215040207,96.36778521537781,274
+330000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 82563.125, 'num_steps_sampled': 330000, 'update_time_ms': 2.6, 'num_steps_trained': 330000, 'load_time_ms': 0.606, 'default': {'kl': 0.014787460677325726, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.442232131958008, 'total_loss': 25.26143455505371, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11275593191385269, 'vf_explained_var': 0.9793703556060791, 'vf_loss': 25.359216690063477}, 'grad_time_ms': 794.462}",3934253,30046.511551856995,-153.3767483996174,cda-server-6,24,-180.0083391494624,{},6600,10.157.146.6,{},-142.31050554669037,0,1200,2025-08-29_22-57-21,275,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756501041,50.0,330000,30046.511551856995,105.54733681678772,275
+331200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 85483.028, 'num_steps_sampled': 331200, 'update_time_ms': 2.634, 'num_steps_trained': 331200, 'load_time_ms': 0.6, 'default': {'kl': 0.015072625130414963, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.500537872314453, 'total_loss': 21.24437141418457, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13162878155708313, 'vf_explained_var': 0.9849632978439331, 'vf_loss': 21.36073875427246}, 'grad_time_ms': 778.258}",3934253,30148.183248519897,-153.38630465945496,cda-server-6,24,-180.0083391494624,{},6624,10.157.146.6,{},-145.2196053826522,0,1200,2025-08-29_22-59-02,276,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756501142,50.0,331200,30148.183248519897,101.67169666290283,276
+332400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 84406.381, 'num_steps_sampled': 332400, 'update_time_ms': 2.596, 'num_steps_trained': 332400, 'load_time_ms': 0.6, 'default': {'kl': 0.014994761906564236, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.437612533569336, 'total_loss': 18.316537857055664, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12036796659231186, 'vf_explained_var': 0.9855210781097412, 'vf_loss': 18.421722412109375}, 'grad_time_ms': 761.188}",3934253,30236.075475215912,-152.83274076860297,cda-server-6,24,-165.82521908204325,{},6648,10.157.146.6,{},-145.2196053826522,0,1200,2025-08-29_23-00-30,277,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756501230,50.0,332400,30236.075475215912,87.8922266960144,277
+333600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 85115.306, 'num_steps_sampled': 333600, 'update_time_ms': 2.554, 'num_steps_trained': 333600, 'load_time_ms': 0.604, 'default': {'kl': 0.013223753310739994, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.365351676940918, 'total_loss': 25.293102264404297, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12207407504320145, 'vf_explained_var': 0.9820523858070374, 'vf_loss': 25.40178871154785}, 'grad_time_ms': 757.229}",3934253,30319.68391394615,-152.7504248056896,cda-server-6,24,-165.82521908204325,{},6672,10.157.146.6,{},-145.2196053826522,0,1200,2025-08-29_23-01-54,278,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756501314,50.0,333600,30319.68391394615,83.60843873023987,278
+334800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 85352.692, 'num_steps_sampled': 334800, 'update_time_ms': 2.507, 'num_steps_trained': 334800, 'load_time_ms': 0.601, 'default': {'kl': 0.010769886896014214, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.56566333770752, 'total_loss': 98.25940704345703, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.10573761910200119, 'vf_explained_var': 0.9470511674880981, 'vf_loss': 98.354248046875}, 'grad_time_ms': 751.919}",3934253,30389.643027305603,-153.30131133278667,cda-server-6,24,-208.3227003464183,{},6696,10.157.146.6,{},-145.2196053826522,0,1200,2025-08-29_23-03-04,279,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756501384,50.0,334800,30389.643027305603,69.9591133594513,279
+336000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 85807.115, 'num_steps_sampled': 336000, 'update_time_ms': 2.518, 'num_steps_trained': 336000, 'load_time_ms': 0.604, 'default': {'kl': 0.015613911673426628, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.319066047668457, 'total_loss': 13.783968925476074, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12649664282798767, 'vf_explained_var': 0.9884146451950073, 'vf_loss': 13.89465618133545}, 'grad_time_ms': 742.985}",3934253,30490.19049167633,-153.73297503235312,cda-server-6,24,-208.3227003464183,{},6720,10.157.146.6,{},-145.24336047937695,0,1200,2025-08-29_23-04-44,280,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756501484,50.0,336000,30490.19049167633,100.54746437072754,280
+337200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 89366.171, 'num_steps_sampled': 337200, 'update_time_ms': 2.458, 'num_steps_trained': 337200, 'load_time_ms': 0.598, 'default': {'kl': 0.01393085066229105, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.271801948547363, 'total_loss': 63.68611526489258, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12504935264587402, 'vf_explained_var': 0.9535910487174988, 'vf_loss': 63.79706573486328}, 'grad_time_ms': 735.058}",3934253,30591.69241476059,-154.0611767016651,cda-server-6,24,-208.3227003464183,{},6744,10.157.146.6,{},-145.24336047937695,0,1200,2025-08-29_23-06-26,281,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756501586,50.0,337200,30591.69241476059,101.50192308425903,281
+338400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 89531.295, 'num_steps_sampled': 338400, 'update_time_ms': 2.404, 'num_steps_trained': 338400, 'load_time_ms': 0.6, 'default': {'kl': 0.01404589880257845, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.205625534057617, 'total_loss': 21.548248291015625, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12210464477539062, 'vf_explained_var': 0.9836018681526184, 'vf_loss': 21.656131744384766}, 'grad_time_ms': 748.553}",3934253,30682.852532863617,-154.06282255443577,cda-server-6,24,-208.3227003464183,{},6768,10.157.146.6,{},-146.79730571525536,0,1200,2025-08-29_23-07-57,282,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756501677,50.0,338400,30682.852532863617,91.16011810302734,282
+339600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93866.94, 'num_steps_sampled': 339600, 'update_time_ms': 2.363, 'num_steps_trained': 339600, 'load_time_ms': 0.602, 'default': {'kl': 0.013868219219148159, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.38871955871582, 'total_loss': 22.872215270996094, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12734149396419525, 'vf_explained_var': 0.9838337302207947, 'vf_loss': 22.985517501831055}, 'grad_time_ms': 741.84}",3934253,30790.766562223434,-153.490601175543,cda-server-6,24,-186.98396846066603,{},6792,10.157.146.6,{},-146.79730571525536,0,1200,2025-08-29_23-09-45,283,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756501785,50.0,339600,30790.766562223434,107.9140293598175,283
+340800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92716.905, 'num_steps_sampled': 340800, 'update_time_ms': 2.316, 'num_steps_trained': 340800, 'load_time_ms': 0.606, 'default': {'kl': 0.01389007456600666, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.565324783325195, 'total_loss': 53.0439453125, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12358132749795914, 'vf_explained_var': 0.9608864188194275, 'vf_loss': 53.15346145629883}, 'grad_time_ms': 743.247}",3934253,30875.64744758606,-153.8480949080955,cda-server-6,24,-186.98396846066603,{},6816,10.157.146.6,{},-146.79730571525536,0,1200,2025-08-29_23-11-10,284,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756501870,50.0,340800,30875.64744758606,84.88088536262512,284
+342000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 90635.975, 'num_steps_sampled': 342000, 'update_time_ms': 2.262, 'num_steps_trained': 342000, 'load_time_ms': 0.611, 'default': {'kl': 0.014106114394962788, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.181747436523438, 'total_loss': 36.09983825683594, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11997734010219574, 'vf_explained_var': 0.9704306125640869, 'vf_loss': 36.20553207397461}, 'grad_time_ms': 743.898}",3934253,30960.3914706707,-153.69546458851175,cda-server-6,24,-184.65606171714566,{},6840,10.157.146.6,{},-136.9307972088323,0,1200,2025-08-29_23-12-35,285,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756501955,50.0,342000,30960.3914706707,84.7440230846405,285
+343200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 90821.993, 'num_steps_sampled': 343200, 'update_time_ms': 2.237, 'num_steps_trained': 343200, 'load_time_ms': 0.614, 'default': {'kl': 0.014162329956889153, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.337715148925781, 'total_loss': 29.2408447265625, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13232357800006866, 'vf_explained_var': 0.9764517545700073, 'vf_loss': 29.35883331298828}, 'grad_time_ms': 762.872}",3934253,31064.113805532455,-153.9291175871248,cda-server-6,24,-184.65606171714566,{},6864,10.157.146.6,{},-136.9307972088323,0,1200,2025-08-29_23-14-19,286,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756502059,50.0,343200,31064.113805532455,103.72233486175537,286
+344400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 91537.605, 'num_steps_sampled': 344400, 'update_time_ms': 2.268, 'num_steps_trained': 344400, 'load_time_ms': 0.618, 'default': {'kl': 0.015963837504386902, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.328529357910156, 'total_loss': 17.16999053955078, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.131949320435524, 'vf_explained_var': 0.9855950474739075, 'vf_loss': 17.285778045654297}, 'grad_time_ms': 770.754}",3934253,31159.240578889847,-154.0807793508338,cda-server-6,24,-184.65606171714566,{},6888,10.157.146.6,{},-136.9307972088323,0,1200,2025-08-29_23-15-54,287,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756502154,50.0,344400,31159.240578889847,95.12677335739136,287
+345600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93518.384, 'num_steps_sampled': 345600, 'update_time_ms': 2.275, 'num_steps_trained': 345600, 'load_time_ms': 0.618, 'default': {'kl': 0.014267970807850361, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.001362800598145, 'total_loss': 29.061933517456055, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1258041262626648, 'vf_explained_var': 0.9764705300331116, 'vf_loss': 29.17329216003418}, 'grad_time_ms': 761.355}",3934253,31262.563413619995,-153.38289002657675,cda-server-6,24,-169.46693858971975,{},6912,10.157.146.6,{},-136.9307972088323,0,1200,2025-08-29_23-17-37,288,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756502257,50.0,345600,31262.563413619995,103.32283473014832,288
+346800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94912.713, 'num_steps_sampled': 346800, 'update_time_ms': 2.331, 'num_steps_trained': 346800, 'load_time_ms': 0.635, 'default': {'kl': 0.013144236989319324, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.226943016052246, 'total_loss': 24.29330062866211, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1239776462316513, 'vf_explained_var': 0.9844390153884888, 'vf_loss': 24.40397071838379}, 'grad_time_ms': 762.003}",3934253,31346.472144842148,-153.57627731987313,cda-server-6,24,-170.88801007674104,{},6936,10.157.146.6,{},-144.3950308917359,0,1200,2025-08-29_23-19-01,289,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756502341,50.0,346800,31346.472144842148,83.90873122215271,289
+348000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 95128.303, 'num_steps_sampled': 348000, 'update_time_ms': 2.287, 'num_steps_trained': 348000, 'load_time_ms': 0.634, 'default': {'kl': 0.015516340732574463, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.11108112335205, 'total_loss': 22.668201446533203, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13011670112609863, 'vf_explained_var': 0.9813645482063293, 'vf_loss': 22.782609939575195}, 'grad_time_ms': 768.12}",3934253,31449.235904693604,-153.4808211215403,cda-server-6,24,-170.88801007674104,{},6960,10.157.146.6,{},-144.3950308917359,0,1200,2025-08-29_23-20-44,290,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756502444,50.0,348000,31449.235904693604,102.76375985145569,290
+349200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 95007.017, 'num_steps_sampled': 349200, 'update_time_ms': 2.297, 'num_steps_trained': 349200, 'load_time_ms': 0.638, 'default': {'kl': 0.013895703479647636, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.218277931213379, 'total_loss': 53.47324752807617, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12617962062358856, 'vf_explained_var': 0.9618358612060547, 'vf_loss': 53.585357666015625}, 'grad_time_ms': 768.239}",3934253,31549.526314735413,-153.55709118338893,cda-server-6,24,-185.80293929008243,{},6984,10.157.146.6,{},-144.3950308917359,0,1200,2025-08-29_23-22-24,291,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756502544,50.0,349200,31549.526314735413,100.29041004180908,291
+350400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 95377.448, 'num_steps_sampled': 350400, 'update_time_ms': 2.285, 'num_steps_trained': 350400, 'load_time_ms': 0.635, 'default': {'kl': 0.013131446205079556, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.09090805053711, 'total_loss': 13.908455848693848, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13256239891052246, 'vf_explained_var': 0.9884033203125, 'vf_loss': 14.027721405029297}, 'grad_time_ms': 772.362}",3934253,31644.43196439743,-153.58899087363505,cda-server-6,24,-185.80293929008243,{},7008,10.157.146.6,{},-144.3950308917359,0,1200,2025-08-29_23-23-59,292,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756502639,50.0,350400,31644.43196439743,94.90564966201782,292
+351600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 95129.044, 'num_steps_sampled': 351600, 'update_time_ms': 2.323, 'num_steps_trained': 351600, 'load_time_ms': 0.626, 'default': {'kl': 0.01519844401627779, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.170174598693848, 'total_loss': 22.778303146362305, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1352260261774063, 'vf_explained_var': 0.9831691384315491, 'vf_loss': 22.89813995361328}, 'grad_time_ms': 772.593}",3934253,31749.863520383835,-153.29731566182426,cda-server-6,24,-185.80293929008243,{},7032,10.157.146.6,{},-145.8788879310617,0,1200,2025-08-29_23-25-44,293,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756502744,50.0,351600,31749.863520383835,105.43155598640442,293
+352800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 96644.061, 'num_steps_sampled': 352800, 'update_time_ms': 2.419, 'num_steps_trained': 352800, 'load_time_ms': 0.622, 'default': {'kl': 0.01330583542585373, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.097810745239258, 'total_loss': 36.368648529052734, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12001624703407288, 'vf_explained_var': 0.9719719290733337, 'vf_loss': 36.47519302368164}, 'grad_time_ms': 769.725}",3934253,31849.86645746231,-153.5049688801624,cda-server-6,24,-185.80293929008243,{},7056,10.157.146.6,{},-139.82080949651424,0,1200,2025-08-29_23-27-24,294,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756502844,50.0,352800,31849.86645746231,100.00293707847595,294
+354000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 96999.372, 'num_steps_sampled': 354000, 'update_time_ms': 2.436, 'num_steps_trained': 354000, 'load_time_ms': 0.627, 'default': {'kl': 0.015100941061973572, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.145347595214844, 'total_loss': 31.30360221862793, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12340303510427475, 'vf_explained_var': 0.9782091975212097, 'vf_loss': 31.41171646118164}, 'grad_time_ms': 767.442}",3934253,31938.141626119614,-153.3523614012057,cda-server-6,24,-181.32258316814773,{},7080,10.157.146.6,{},-139.15408264827664,0,1200,2025-08-29_23-28-53,295,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756502933,50.0,354000,31938.141626119614,88.27516865730286,295
+355200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94766.538, 'num_steps_sampled': 355200, 'update_time_ms': 2.442, 'num_steps_trained': 355200, 'load_time_ms': 0.634, 'default': {'kl': 0.015226011164486408, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.920625686645508, 'total_loss': 17.984262466430664, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12347279489040375, 'vf_explained_var': 0.9853192567825317, 'vf_loss': 18.092321395874023}, 'grad_time_ms': 759.294}",3934253,32019.453699350357,-153.4454585060366,cda-server-6,24,-181.32258316814773,{},7104,10.157.146.6,{},-139.15408264827664,0,1200,2025-08-29_23-30-14,296,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756503014,50.0,355200,32019.453699350357,81.31207323074341,296
+356400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92443.191, 'num_steps_sampled': 356400, 'update_time_ms': 2.467, 'num_steps_trained': 356400, 'load_time_ms': 0.664, 'default': {'kl': 0.014233733527362347, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.99919605255127, 'total_loss': 12.16675853729248, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1281324028968811, 'vf_explained_var': 0.99040287733078, 'vf_loss': 12.280479431152344}, 'grad_time_ms': 760.707}",3934253,32091.361676692963,-153.30487583861384,cda-server-6,24,-181.32258316814773,{},7128,10.157.146.6,{},-139.15408264827664,0,1200,2025-08-29_23-31-26,297,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756503086,50.0,356400,32091.361676692963,71.90797734260559,297
+357600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92704.121, 'num_steps_sampled': 357600, 'update_time_ms': 2.481, 'num_steps_trained': 357600, 'load_time_ms': 0.66, 'default': {'kl': 0.013451273553073406, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.026782989501953, 'total_loss': 21.95667266845703, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1233801320195198, 'vf_explained_var': 0.9825711846351624, 'vf_loss': 22.06643295288086}, 'grad_time_ms': 762.934}",3934253,32197.31569838524,-152.81307272750516,cda-server-6,24,-163.96797787962552,{},7152,10.157.146.6,{},-139.15408264827664,0,1200,2025-08-29_23-33-12,298,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756503192,50.0,357600,32197.31569838524,105.954021692276,298
+358800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94347.891, 'num_steps_sampled': 358800, 'update_time_ms': 2.435, 'num_steps_trained': 358800, 'load_time_ms': 0.649, 'default': {'kl': 0.015564335510134697, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.200122833251953, 'total_loss': 27.603986740112305, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14806872606277466, 'vf_explained_var': 0.9808406829833984, 'vf_loss': 27.73629379272461}, 'grad_time_ms': 767.521}",3934253,32297.707879304886,-152.7437017894222,cda-server-6,24,-164.73387901983173,{},7176,10.157.146.6,{},-139.15408264827664,0,1200,2025-08-29_23-34-52,299,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756503292,50.0,358800,32297.707879304886,100.39218091964722,299
+360000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93078.785, 'num_steps_sampled': 360000, 'update_time_ms': 2.486, 'num_steps_trained': 360000, 'load_time_ms': 0.657, 'default': {'kl': 0.014852085150778294, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.155905723571777, 'total_loss': 15.688905715942383, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14254923164844513, 'vf_explained_var': 0.9873740673065186, 'vf_loss': 15.81641674041748}, 'grad_time_ms': 766.199}",3934253,32387.767731428146,-153.14312093140904,cda-server-6,24,-169.91469154306978,{},7200,10.157.146.6,{},-140.8243464522184,0,1200,2025-08-29_23-36-22,300,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756503382,50.0,360000,32387.767731428146,90.0598521232605,300
+361200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92802.854, 'num_steps_sampled': 361200, 'update_time_ms': 2.522, 'num_steps_trained': 361200, 'load_time_ms': 0.655, 'default': {'kl': 0.016245905309915543, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.024404525756836, 'total_loss': 11.871007919311523, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13858658075332642, 'vf_explained_var': 0.99014812707901, 'vf_loss': 11.993144989013672}, 'grad_time_ms': 762.687}",3934253,32485.263649463654,-153.2274074502331,cda-server-6,24,-169.91469154306978,{},7224,10.157.146.6,{},-140.8243464522184,0,1200,2025-08-29_23-38-00,301,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756503480,50.0,361200,32485.263649463654,97.4959180355072,301
+362400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92911.094, 'num_steps_sampled': 362400, 'update_time_ms': 2.569, 'num_steps_trained': 362400, 'load_time_ms': 0.655, 'default': {'kl': 0.014216229319572449, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.159814834594727, 'total_loss': 35.544677734375, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12864679098129272, 'vf_explained_var': 0.9736400246620178, 'vf_loss': 35.658931732177734}, 'grad_time_ms': 762.43}",3934253,32581.249537229538,-153.71020029202208,cda-server-6,24,-169.91469154306978,{},7248,10.157.146.6,{},-149.21272310850614,0,1200,2025-08-29_23-39-36,302,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756503576,50.0,362400,32581.249537229538,95.9858877658844,302
+363600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 88828.401, 'num_steps_sampled': 363600, 'update_time_ms': 2.568, 'num_steps_trained': 363600, 'load_time_ms': 0.653, 'default': {'kl': 0.015200129710137844, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.10995101928711, 'total_loss': 23.112335205078125, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1372426450252533, 'vf_explained_var': 0.9830207824707031, 'vf_loss': 23.23418617248535}, 'grad_time_ms': 763.732}",3934253,32645.868771076202,-153.62237696956078,cda-server-6,24,-169.91469154306978,{},7272,10.157.146.6,{},-148.23228434829258,0,1200,2025-08-29_23-40-41,303,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756503641,50.0,363600,32645.868771076202,64.61923384666443,303
+364800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 89234.035, 'num_steps_sampled': 364800, 'update_time_ms': 2.594, 'num_steps_trained': 364800, 'load_time_ms': 0.651, 'default': {'kl': 0.014623595401644707, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.935812950134277, 'total_loss': 18.714929580688477, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12618975341320038, 'vf_explained_var': 0.985697329044342, 'vf_loss': 18.826313018798828}, 'grad_time_ms': 762.85}",3934253,32749.919049024582,-153.52869796702987,cda-server-6,24,-166.35021138292797,{},7296,10.157.146.6,{},-148.23228434829258,0,1200,2025-08-29_23-42-25,304,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756503745,50.0,364800,32749.919049024582,104.05027794837952,304
+366000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 87893.805, 'num_steps_sampled': 366000, 'update_time_ms': 2.593, 'num_steps_trained': 366000, 'load_time_ms': 0.643, 'default': {'kl': 0.015481146052479744, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.092779159545898, 'total_loss': 23.730798721313477, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14704284071922302, 'vf_explained_var': 0.9847856163978577, 'vf_loss': 23.86216926574707}, 'grad_time_ms': 753.279}",3934253,32824.69520068169,-154.023138854144,cda-server-6,24,-167.08198004963523,{},7320,10.157.146.6,{},-147.8016334886118,0,1200,2025-08-29_23-43-39,305,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756503819,50.0,366000,32824.69520068169,74.77615165710449,305
+367200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 89572.983, 'num_steps_sampled': 367200, 'update_time_ms': 2.602, 'num_steps_trained': 367200, 'load_time_ms': 0.638, 'default': {'kl': 0.013067873194813728, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.859930992126465, 'total_loss': 31.82198143005371, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14084021747112274, 'vf_explained_var': 0.9786883592605591, 'vf_loss': 31.949594497680664}, 'grad_time_ms': 726.482}",3934253,32922.53137564659,-153.78323260138052,cda-server-6,24,-167.08198004963523,{},7344,10.157.146.6,{},-147.8016334886118,0,1200,2025-08-29_23-45-17,306,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756503917,50.0,367200,32922.53137564659,97.83617496490479,306
+368400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93512.777, 'num_steps_sampled': 368400, 'update_time_ms': 2.596, 'num_steps_trained': 368400, 'load_time_ms': 0.604, 'default': {'kl': 0.014852987602353096, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.933476448059082, 'total_loss': 21.214004516601562, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13704806566238403, 'vf_explained_var': 0.9833498001098633, 'vf_loss': 21.336013793945312}, 'grad_time_ms': 711.308}",3934253,33033.6856508255,-153.88048444856662,cda-server-6,24,-170.91292767388077,{},7368,10.157.146.6,{},-147.8016334886118,0,1200,2025-08-29_23-47-08,307,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756504028,50.0,368400,33033.6856508255,111.1542751789093,307
+369600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 91802.15, 'num_steps_sampled': 369600, 'update_time_ms': 2.62, 'num_steps_trained': 369600, 'load_time_ms': 0.612, 'default': {'kl': 0.01284022256731987, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.249340057373047, 'total_loss': 48.84939193725586, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14142972230911255, 'vf_explained_var': 0.9649655818939209, 'vf_loss': 48.977821350097656}, 'grad_time_ms': 709.303}",3934253,33122.514219760895,-154.2712712317214,cda-server-6,24,-186.36841074023712,{},7392,10.157.146.6,{},-144.26847544598456,0,1200,2025-08-29_23-48-37,308,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756504117,50.0,369600,33122.514219760895,88.82856893539429,308
+370800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 90123.807, 'num_steps_sampled': 370800, 'update_time_ms': 2.665, 'num_steps_trained': 370800, 'load_time_ms': 0.604, 'default': {'kl': 0.013471885584294796, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.025983810424805, 'total_loss': 25.35476303100586, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13464468717575073, 'vf_explained_var': 0.9827299118041992, 'vf_loss': 25.475767135620117}, 'grad_time_ms': 703.0}",3934253,33206.06060504913,-153.94511450306916,cda-server-6,24,-186.36841074023712,{},7416,10.157.146.6,{},-142.45030726659775,0,1200,2025-08-29_23-50-01,309,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756504201,50.0,370800,33206.06060504913,83.54638528823853,309
+372000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 90496.011, 'num_steps_sampled': 372000, 'update_time_ms': 2.641, 'num_steps_trained': 372000, 'load_time_ms': 0.597, 'default': {'kl': 0.01515925396233797, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.127731323242188, 'total_loss': 23.858789443969727, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12599676847457886, 'vf_explained_var': 0.9824094772338867, 'vf_loss': 23.969438552856445}, 'grad_time_ms': 712.061}",3934253,33299.933065891266,-154.24905917335306,cda-server-6,24,-186.36841074023712,{},7440,10.157.146.6,{},-141.46524261832909,0,1200,2025-08-29_23-51-35,310,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756504295,50.0,372000,33299.933065891266,93.87246084213257,310
+373200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92302.612, 'num_steps_sampled': 373200, 'update_time_ms': 2.63, 'num_steps_trained': 373200, 'load_time_ms': 0.608, 'default': {'kl': 0.015349972993135452, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.800884246826172, 'total_loss': 13.16865348815918, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1375599354505539, 'vf_explained_var': 0.9889466762542725, 'vf_loss': 13.290670394897461}, 'grad_time_ms': 720.193}",3934253,33415.57654643059,-153.81849049903275,cda-server-6,24,-186.36841074023712,{},7464,10.157.146.6,{},-141.46524261832909,0,1200,2025-08-29_23-53-30,311,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756504410,50.0,373200,33415.57654643059,115.6434805393219,311
+374400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92804.591, 'num_steps_sampled': 374400, 'update_time_ms': 2.579, 'num_steps_trained': 374400, 'load_time_ms': 0.603, 'default': {'kl': 0.014131312258541584, 'cur_lr': 4.999999873689376e-05, 'entropy': 11.05422592163086, 'total_loss': 23.799354553222656, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13450416922569275, 'vf_explained_var': 0.9824861884117126, 'vf_loss': 23.91954803466797}, 'grad_time_ms': 710.768}",3934253,33516.487151145935,-153.691471397228,cda-server-6,24,-174.5455242556761,{},7488,10.157.146.6,{},-141.46524261832909,0,1200,2025-08-29_23-55-11,312,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756504511,50.0,374400,33516.487151145935,100.91060471534729,312
+375600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 96374.432, 'num_steps_sampled': 375600, 'update_time_ms': 2.526, 'num_steps_trained': 375600, 'load_time_ms': 0.606, 'default': {'kl': 0.014769317582249641, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.969765663146973, 'total_loss': 24.39408302307129, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1261298954486847, 'vf_explained_var': 0.980952799320221, 'vf_loss': 24.505258560180664}, 'grad_time_ms': 700.257}",3934253,33616.69808459282,-153.32532619977394,cda-server-6,24,-174.5455242556761,{},7512,10.157.146.6,{},-138.3540792562646,0,1200,2025-08-29_23-56-52,313,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756504612,50.0,375600,33616.69808459282,100.21093344688416,313
+376800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 96242.033, 'num_steps_sampled': 376800, 'update_time_ms': 2.497, 'num_steps_trained': 376800, 'load_time_ms': 0.606, 'default': {'kl': 0.012455091811716557, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.836710929870605, 'total_loss': 39.87970733642578, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.10243361443281174, 'vf_explained_var': 0.9777176976203918, 'vf_loss': 39.96952819824219}, 'grad_time_ms': 692.382}",3934253,33719.34510588646,-153.10512817751962,cda-server-6,24,-174.5455242556761,{},7536,10.157.146.6,{},-138.3540792562646,0,1200,2025-08-29_23-58-34,314,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756504714,50.0,376800,33719.34510588646,102.64702129364014,314
+378000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 96745.536, 'num_steps_sampled': 378000, 'update_time_ms': 2.53, 'num_steps_trained': 378000, 'load_time_ms': 0.606, 'default': {'kl': 0.012768601067364216, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.945272445678711, 'total_loss': 48.44010925292969, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1169797033071518, 'vf_explained_var': 0.9687525629997253, 'vf_loss': 48.544151306152344}, 'grad_time_ms': 704.269}",3934253,33799.27585601807,-153.3753794364622,cda-server-6,24,-182.4550995827381,{},7560,10.157.146.6,{},-138.3540792562646,0,1200,2025-08-29_23-59-54,315,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756504794,50.0,378000,33799.27585601807,79.93075013160706,315
+379200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 97378.354, 'num_steps_sampled': 379200, 'update_time_ms': 2.497, 'num_steps_trained': 379200, 'load_time_ms': 0.603, 'default': {'kl': 0.014992697164416313, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.970458984375, 'total_loss': 37.55704116821289, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13573689758777618, 'vf_explained_var': 0.9713044762611389, 'vf_loss': 37.67759704589844}, 'grad_time_ms': 729.514}",3934253,33903.69194102287,-153.12148182322898,cda-server-6,24,-182.4550995827381,{},7584,10.157.146.6,{},-138.3540792562646,0,1200,2025-08-30_00-01-39,316,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756504899,50.0,379200,33903.69194102287,104.41608500480652,316
+380400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 95875.166, 'num_steps_sampled': 380400, 'update_time_ms': 2.454, 'num_steps_trained': 380400, 'load_time_ms': 0.605, 'default': {'kl': 0.014862080104649067, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.844161987304688, 'total_loss': 21.56414222717285, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12421739101409912, 'vf_explained_var': 0.9830238819122314, 'vf_loss': 21.67331314086914}, 'grad_time_ms': 751.727}",3934253,34000.03533434868,-153.2457239279507,cda-server-6,24,-182.4550995827381,{},7608,10.157.146.6,{},-142.5929949692987,0,1200,2025-08-30_00-03-15,317,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756504995,50.0,380400,34000.03533434868,96.34339332580566,317
+381600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 97708.083, 'num_steps_sampled': 381600, 'update_time_ms': 2.406, 'num_steps_trained': 381600, 'load_time_ms': 0.629, 'default': {'kl': 0.014282830990850925, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.415968894958496, 'total_loss': 22.82317352294922, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1225418746471405, 'vf_explained_var': 0.9830620884895325, 'vf_loss': 22.931251525878906}, 'grad_time_ms': 754.055}",3934253,34107.21705150604,-152.96947395657688,cda-server-6,24,-182.4550995827381,{},7632,10.157.146.6,{},-143.11070441906222,0,1200,2025-08-30_00-05-02,318,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756505102,50.0,381600,34107.21705150604,107.18171715736389,318
+382800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 100184.811, 'num_steps_sampled': 382800, 'update_time_ms': 2.423, 'num_steps_trained': 382800, 'load_time_ms': 0.63, 'default': {'kl': 0.01591685228049755, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.475652694702148, 'total_loss': 11.753562927246094, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13239659368991852, 'vf_explained_var': 0.9901783466339111, 'vf_loss': 11.869844436645508}, 'grad_time_ms': 739.596}",3934253,34215.38590621948,-152.57093134687875,cda-server-6,24,-175.74868372203048,{},7656,10.157.146.6,{},-143.11070441906222,0,1200,2025-08-30_00-06-50,319,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756505210,50.0,382800,34215.38590621948,108.16885471343994,319
+384000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 101709.565, 'num_steps_sampled': 384000, 'update_time_ms': 2.429, 'num_steps_trained': 384000, 'load_time_ms': 0.636, 'default': {'kl': 0.014203101396560669, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.735393524169922, 'total_loss': 23.69377326965332, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12848956882953644, 'vf_explained_var': 0.9825847148895264, 'vf_loss': 23.80788230895996}, 'grad_time_ms': 735.134}",3934253,34324.46160006523,-152.58352243026727,cda-server-6,24,-175.74868372203048,{},7680,10.157.146.6,{},-143.11070441906222,0,1200,2025-08-30_00-08-39,320,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756505319,50.0,384000,34324.46160006523,109.0756938457489,320
+385200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 99365.659, 'num_steps_sampled': 385200, 'update_time_ms': 2.482, 'num_steps_trained': 385200, 'load_time_ms': 0.618, 'default': {'kl': 0.014924119226634502, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.55162525177002, 'total_loss': 19.39442253112793, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12613314390182495, 'vf_explained_var': 0.9840491414070129, 'vf_loss': 19.50544548034668}, 'grad_time_ms': 736.471}",3934253,34416.68057346344,-152.4897771954675,cda-server-6,24,-170.05123202179706,{},7704,10.157.146.6,{},-148.94070225783665,0,1200,2025-08-30_00-10-12,321,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756505412,50.0,385200,34416.68057346344,92.21897339820862,321
+386400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 101335.245, 'num_steps_sampled': 386400, 'update_time_ms': 2.512, 'num_steps_trained': 386400, 'load_time_ms': 0.619, 'default': {'kl': 0.012489722110331059, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.611146926879883, 'total_loss': 42.83867645263672, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12331356108188629, 'vf_explained_var': 0.9723660349845886, 'vf_loss': 42.94934844970703}, 'grad_time_ms': 738.868}",3934253,34537.31090283394,-153.15623692414303,cda-server-6,24,-180.00500045552593,{},7728,10.157.146.6,{},-148.94070225783665,0,1200,2025-08-30_00-12-12,322,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756505532,50.0,386400,34537.31090283394,120.63032937049866,322
+387600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 102548.43, 'num_steps_sampled': 387600, 'update_time_ms': 2.596, 'num_steps_trained': 387600, 'load_time_ms': 0.616, 'default': {'kl': 0.013788405805826187, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.14149284362793, 'total_loss': 22.343345642089844, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11049012094736099, 'vf_explained_var': 0.9818713068962097, 'vf_loss': 22.43987464904785}, 'grad_time_ms': 751.021}",3934253,34649.776156425476,-153.4625475023141,cda-server-6,24,-180.00500045552593,{},7752,10.157.146.6,{},-148.94070225783665,0,1200,2025-08-30_00-14-05,323,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756505645,50.0,387600,34649.776156425476,112.46525359153748,323
+388800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 100600.696, 'num_steps_sampled': 388800, 'update_time_ms': 2.617, 'num_steps_trained': 388800, 'load_time_ms': 0.621, 'default': {'kl': 0.015624160878360271, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.596100807189941, 'total_loss': 22.377880096435547, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1312115639448166, 'vf_explained_var': 0.9831936955451965, 'vf_loss': 22.49327278137207}, 'grad_time_ms': 759.895}",3934253,34733.0354244709,-153.77975317555422,cda-server-6,24,-180.00500045552593,{},7776,10.157.146.6,{},-148.94070225783665,0,1200,2025-08-30_00-15-28,324,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756505728,50.0,388800,34733.0354244709,83.25926804542542,324
+390000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 103876.041, 'num_steps_sampled': 390000, 'update_time_ms': 2.579, 'num_steps_trained': 390000, 'load_time_ms': 0.625, 'default': {'kl': 0.01323324628174305, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.411630630493164, 'total_loss': 44.34865188598633, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1147596687078476, 'vf_explained_var': 0.9732678532600403, 'vf_loss': 44.450016021728516}, 'grad_time_ms': 725.227}",3934253,34845.3717956543,-154.14158061826183,cda-server-6,24,-180.00500045552593,{},7800,10.157.146.6,{},-150.57069385002504,0,1200,2025-08-30_00-17-20,325,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756505840,50.0,390000,34845.3717956543,112.33637118339539,325
+391200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 101697.002, 'num_steps_sampled': 391200, 'update_time_ms': 2.57, 'num_steps_trained': 391200, 'load_time_ms': 0.628, 'default': {'kl': 0.012857540510594845, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.455910682678223, 'total_loss': 42.997108459472656, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.10881756246089935, 'vf_explained_var': 0.9767987132072449, 'vf_loss': 43.09290313720703}, 'grad_time_ms': 731.369}",3934253,34928.06006979942,-154.09453792189086,cda-server-6,24,-173.1302892079539,{},7824,10.157.146.6,{},-150.75378690688086,0,1200,2025-08-30_00-18-43,326,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756505923,50.0,391200,34928.06006979942,82.68827414512634,326
+392400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 99412.19, 'num_steps_sampled': 392400, 'update_time_ms': 2.608, 'num_steps_trained': 392400, 'load_time_ms': 0.632, 'default': {'kl': 0.013225565664470196, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.42746353149414, 'total_loss': 30.64324951171875, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13256524503231049, 'vf_explained_var': 0.9776370525360107, 'vf_loss': 30.76242446899414}, 'grad_time_ms': 726.856}",3934253,35001.51141524315,-154.43401371835216,cda-server-6,24,-180.4741776622837,{},7848,10.157.146.6,{},-150.64127333487605,0,1200,2025-08-30_00-19-57,327,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756505997,50.0,392400,35001.51141524315,73.45134544372559,327
+393600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 98206.757, 'num_steps_sampled': 393600, 'update_time_ms': 2.612, 'num_steps_trained': 393600, 'load_time_ms': 0.598, 'default': {'kl': 0.013027322478592396, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.334811210632324, 'total_loss': 25.57097053527832, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11095554381608963, 'vf_explained_var': 0.9810521006584167, 'vf_loss': 25.668737411499023}, 'grad_time_ms': 726.985}",3934253,35096.638957738876,-154.35407762027717,cda-server-6,24,-180.4741776622837,{},7872,10.157.146.6,{},-150.64127333487605,0,1200,2025-08-30_00-21-32,328,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756506092,50.0,393600,35096.638957738876,95.12754249572754,328
+394800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 99099.85, 'num_steps_sampled': 394800, 'update_time_ms': 2.616, 'num_steps_trained': 394800, 'load_time_ms': 0.609, 'default': {'kl': 0.015124778263270855, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.097905158996582, 'total_loss': 23.35348129272461, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1195986419916153, 'vf_explained_var': 0.9812294840812683, 'vf_loss': 23.457765579223633}, 'grad_time_ms': 747.878}",3934253,35213.948383808136,-153.77713772000587,cda-server-6,24,-180.4741776622837,{},7896,10.157.146.6,{},-136.8694429954124,0,1200,2025-08-30_00-23-29,329,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756506209,50.0,394800,35213.948383808136,117.30942606925964,329
+396000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 96400.676, 'num_steps_sampled': 396000, 'update_time_ms': 2.616, 'num_steps_trained': 396000, 'load_time_ms': 0.608, 'default': {'kl': 0.014633645303547382, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.538222312927246, 'total_loss': 20.841421127319336, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12716291844844818, 'vf_explained_var': 0.9844285249710083, 'vf_loss': 20.953765869140625}, 'grad_time_ms': 746.647}",3934253,35296.019594192505,-153.28856495343746,cda-server-6,24,-180.4741776622837,{},7920,10.157.146.6,{},-136.8694429954124,0,1200,2025-08-30_00-24-51,330,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756506291,50.0,396000,35296.019594192505,82.0712103843689,330
+397200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 97662.735, 'num_steps_sampled': 397200, 'update_time_ms': 2.72, 'num_steps_trained': 397200, 'load_time_ms': 0.609, 'default': {'kl': 0.014507361687719822, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.390003204345703, 'total_loss': 28.46442413330078, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1269027292728424, 'vf_explained_var': 0.9785017371177673, 'vf_loss': 28.57663917541504}, 'grad_time_ms': 737.279}",3934253,35400.76520228386,-152.84106423066166,cda-server-6,24,-180.4741776622837,{},7944,10.157.146.6,{},-135.7076686254385,0,1200,2025-08-30_00-26-36,331,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756506396,50.0,397200,35400.76520228386,104.74560809135437,331
+398400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94954.544, 'num_steps_sampled': 398400, 'update_time_ms': 2.706, 'num_steps_trained': 398400, 'load_time_ms': 0.621, 'default': {'kl': 0.014371686615049839, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.481554985046387, 'total_loss': 26.985797882080078, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13098128139972687, 'vf_explained_var': 0.9793742299079895, 'vf_loss': 27.10222816467285}, 'grad_time_ms': 742.071}",3934253,35494.36348748207,-152.3610456543385,cda-server-6,24,-166.77579605740746,{},7968,10.157.146.6,{},-135.7076686254385,0,1200,2025-08-30_00-28-10,332,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756506490,50.0,398400,35494.36348748207,93.59828519821167,332
+399600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 91593.414, 'num_steps_sampled': 399600, 'update_time_ms': 2.679, 'num_steps_trained': 399600, 'load_time_ms': 0.625, 'default': {'kl': 0.013958621770143509, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.51937484741211, 'total_loss': 40.451904296875, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13136720657348633, 'vf_explained_var': 0.9713349938392639, 'vf_loss': 40.56913757324219}, 'grad_time_ms': 744.421}",3934253,35573.24069619179,-152.6889494291554,cda-server-6,24,-177.64100823331634,{},7992,10.157.146.6,{},-135.7076686254385,0,1200,2025-08-30_00-29-28,333,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756506568,50.0,399600,35573.24069619179,78.8772087097168,333
+400800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 91368.618, 'num_steps_sampled': 400800, 'update_time_ms': 2.637, 'num_steps_trained': 400800, 'load_time_ms': 0.628, 'default': {'kl': 0.015249352902173996, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.27700424194336, 'total_loss': 21.162511825561523, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11858128011226654, 'vf_explained_var': 0.9836852550506592, 'vf_loss': 21.26565170288086}, 'grad_time_ms': 752.607}",3934253,35654.33391952515,-152.6987609356839,cda-server-6,24,-177.64100823331634,{},8016,10.157.146.6,{},-135.7076686254385,0,1200,2025-08-30_00-30-50,334,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756506650,50.0,400800,35654.33391952515,81.09322333335876,334
+402000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 88729.159, 'num_steps_sampled': 402000, 'update_time_ms': 2.675, 'num_steps_trained': 402000, 'load_time_ms': 0.63, 'default': {'kl': 0.013706881552934647, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.258893013000488, 'total_loss': 18.555627822875977, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12699751555919647, 'vf_explained_var': 0.986332356929779, 'vf_loss': 18.668746948242188}, 'grad_time_ms': 788.154}",3934253,35740.63249707222,-152.9703099260085,cda-server-6,24,-177.64100823331634,{},8040,10.157.146.6,{},-142.11140543958143,0,1200,2025-08-30_00-32-16,335,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756506736,50.0,402000,35740.63249707222,86.29857754707336,335
+403200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 91513.753, 'num_steps_sampled': 403200, 'update_time_ms': 2.708, 'num_steps_trained': 403200, 'load_time_ms': 0.627, 'default': {'kl': 0.013812141492962837, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.123869895935059, 'total_loss': 17.128286361694336, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.10887904465198517, 'vf_explained_var': 0.9872063398361206, 'vf_loss': 17.223176956176758}, 'grad_time_ms': 783.817}",3934253,35851.12422943115,-153.04831488940408,cda-server-6,24,-177.64100823331634,{},8064,10.157.146.6,{},-142.11140543958143,0,1200,2025-08-30_00-34-06,336,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756506846,50.0,403200,35851.12422943115,110.4917323589325,336
+404400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92711.829, 'num_steps_sampled': 404400, 'update_time_ms': 2.691, 'num_steps_trained': 404400, 'load_time_ms': 0.634, 'default': {'kl': 0.013465446420013905, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.17501449584961, 'total_loss': 22.101633071899414, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12934455275535583, 'vf_explained_var': 0.9826427102088928, 'vf_loss': 22.217344284057617}, 'grad_time_ms': 781.355}",3934253,35936.53139543533,-152.91974841361036,cda-server-6,24,-167.6798048261915,{},8088,10.157.146.6,{},-144.01814896022987,0,1200,2025-08-30_00-35-32,337,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756506932,50.0,404400,35936.53139543533,85.40716600418091,337
+405600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94088.489, 'num_steps_sampled': 405600, 'update_time_ms': 2.633, 'num_steps_trained': 405600, 'load_time_ms': 0.652, 'default': {'kl': 0.01327629666775465, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.075685501098633, 'total_loss': 20.67936897277832, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.128595769405365, 'vf_explained_var': 0.9839978814125061, 'vf_loss': 20.79452133178711}, 'grad_time_ms': 781.972}",3934253,36045.43131017685,-152.76994038362417,cda-server-6,24,-171.73506361888798,{},8112,10.157.146.6,{},-144.01814896022987,0,1200,2025-08-30_00-37-21,338,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756507041,50.0,405600,36045.43131017685,108.89991474151611,338
+406800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 91540.836, 'num_steps_sampled': 406800, 'update_time_ms': 2.577, 'num_steps_trained': 406800, 'load_time_ms': 0.653, 'default': {'kl': 0.01496865227818489, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.436251640319824, 'total_loss': 32.833805084228516, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12757453322410583, 'vf_explained_var': 0.9752024412155151, 'vf_loss': 32.946224212646484}, 'grad_time_ms': 782.538}",3934253,36137.26930594444,-152.87661447578267,cda-server-6,24,-178.246255970889,{},8136,10.157.146.6,{},-139.1453355829173,0,1200,2025-08-30_00-38-53,339,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756507133,50.0,406800,36137.26930594444,91.83799576759338,339
+408000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 91825.392, 'num_steps_sampled': 408000, 'update_time_ms': 2.581, 'num_steps_trained': 408000, 'load_time_ms': 0.647, 'default': {'kl': 0.014040197245776653, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.187368392944336, 'total_loss': 21.68220329284668, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13107901811599731, 'vf_explained_var': 0.9829478859901428, 'vf_loss': 21.799068450927734}, 'grad_time_ms': 790.481}",3934253,36222.26623415947,-152.5864977452388,cda-server-6,24,-178.246255970889,{},8160,10.157.146.6,{},-139.1453355829173,0,1200,2025-08-30_00-40-18,340,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756507218,50.0,408000,36222.26623415947,84.99692821502686,340
+409200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92400.945, 'num_steps_sampled': 409200, 'update_time_ms': 2.409, 'num_steps_trained': 409200, 'load_time_ms': 0.681, 'default': {'kl': 0.014228183776140213, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.1898193359375, 'total_loss': 19.298744201660156, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11869990825653076, 'vf_explained_var': 0.9837184548377991, 'vf_loss': 19.403038024902344}, 'grad_time_ms': 792.406}",3934253,36332.785865306854,-152.8219143853639,cda-server-6,24,-178.246255970889,{},8184,10.157.146.6,{},-139.1453355829173,0,1200,2025-08-30_00-42-08,341,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756507328,50.0,409200,36332.785865306854,110.51963114738464,341
+410400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 91987.235, 'num_steps_sampled': 410400, 'update_time_ms': 2.385, 'num_steps_trained': 410400, 'load_time_ms': 0.673, 'default': {'kl': 0.013174712657928467, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.154784202575684, 'total_loss': 17.16404914855957, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13054805994033813, 'vf_explained_var': 0.9870219826698303, 'vf_loss': 17.281259536743164}, 'grad_time_ms': 783.421}",3934253,36422.15473651886,-152.79249832994313,cda-server-6,24,-178.246255970889,{},8208,10.157.146.6,{},-139.1453355829173,0,1200,2025-08-30_00-43-38,342,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756507418,50.0,410400,36422.15473651886,89.36887121200562,342
+411600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93259.94, 'num_steps_sampled': 411600, 'update_time_ms': 2.39, 'num_steps_trained': 411600, 'load_time_ms': 0.682, 'default': {'kl': 0.013398093171417713, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.21140193939209, 'total_loss': 15.42952823638916, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12429417669773102, 'vf_explained_var': 0.988605260848999, 'vf_loss': 15.54025650024414}, 'grad_time_ms': 788.74}",3934253,36513.812532663345,-152.4947968460862,cda-server-6,24,-164.25618485757914,{},8232,10.157.146.6,{},-147.63720264870892,0,1200,2025-08-30_00-45-09,343,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756507509,50.0,411600,36513.812532663345,91.65779614448547,343
+412800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94727.256, 'num_steps_sampled': 412800, 'update_time_ms': 2.402, 'num_steps_trained': 412800, 'load_time_ms': 0.673, 'default': {'kl': 0.015052050352096558, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.440613746643066, 'total_loss': 25.006467819213867, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1175057590007782, 'vf_explained_var': 0.9807634353637695, 'vf_loss': 25.108734130859375}, 'grad_time_ms': 784.412}",3934253,36609.53568506241,-153.21520828059778,cda-server-6,24,-168.82503659059702,{},8256,10.157.146.6,{},-147.63720264870892,0,1200,2025-08-30_00-46-45,344,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756507605,50.0,412800,36609.53568506241,95.72315239906311,344
+414000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 96656.326, 'num_steps_sampled': 414000, 'update_time_ms': 2.368, 'num_steps_trained': 414000, 'load_time_ms': 0.668, 'default': {'kl': 0.015476263128221035, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.44300651550293, 'total_loss': 12.492606163024902, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12842413783073425, 'vf_explained_var': 0.989512026309967, 'vf_loss': 12.605360984802246}, 'grad_time_ms': 781.723}",3934253,36715.097074747086,-153.3844868213551,cda-server-6,24,-168.82503659059702,{},8280,10.157.146.6,{},-147.63720264870892,0,1200,2025-08-30_00-48-30,345,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756507710,50.0,414000,36715.097074747086,105.56138968467712,345
+415200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94261.095, 'num_steps_sampled': 415200, 'update_time_ms': 2.333, 'num_steps_trained': 415200, 'load_time_ms': 0.67, 'default': {'kl': 0.013878900557756424, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.181175231933594, 'total_loss': 18.723909378051758, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1245008334517479, 'vf_explained_var': 0.9861525297164917, 'vf_loss': 18.83435821533203}, 'grad_time_ms': 768.491}",3934253,36801.50307202339,-153.39538590524927,cda-server-6,24,-168.82503659059702,{},8304,10.157.146.6,{},-147.63720264870892,0,1200,2025-08-30_00-49-57,346,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756507797,50.0,415200,36801.50307202339,86.40599727630615,346
+416400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 95108.192, 'num_steps_sampled': 416400, 'update_time_ms': 2.361, 'num_steps_trained': 416400, 'load_time_ms': 0.662, 'default': {'kl': 0.014218274503946304, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.210870742797852, 'total_loss': 18.950908660888672, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12428196519613266, 'vf_explained_var': 0.9845414757728577, 'vf_loss': 19.060794830322266}, 'grad_time_ms': 764.217}",3934253,36895.33891892433,-153.16668440198112,cda-server-6,24,-168.82503659059702,{},8328,10.157.146.6,{},-148.03892181301913,0,1200,2025-08-30_00-51-31,347,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756507891,50.0,416400,36895.33891892433,93.83584690093994,347
+417600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 91907.856, 'num_steps_sampled': 417600, 'update_time_ms': 2.428, 'num_steps_trained': 417600, 'load_time_ms': 0.654, 'default': {'kl': 0.014065904542803764, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.311721801757812, 'total_loss': 22.437252044677734, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12689092755317688, 'vf_explained_var': 0.983727216720581, 'vf_loss': 22.549901962280273}, 'grad_time_ms': 771.482}",3934253,36972.30895447731,-152.7423944307145,cda-server-6,24,-165.470864728126,{},8352,10.157.146.6,{},-149.157812667166,0,1200,2025-08-30_00-52-48,348,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756507968,50.0,417600,36972.30895447731,76.97003555297852,348
+418800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92743.246, 'num_steps_sampled': 418800, 'update_time_ms': 2.443, 'num_steps_trained': 418800, 'load_time_ms': 0.646, 'default': {'kl': 0.014622226357460022, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.095756530761719, 'total_loss': 13.963083267211914, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13011474907398224, 'vf_explained_var': 0.9886112213134766, 'vf_loss': 14.078393936157227}, 'grad_time_ms': 761.339}",3934253,37072.39999341965,-152.570437889023,cda-server-6,24,-168.57609319041728,{},8376,10.157.146.6,{},-150.24807205629406,0,1200,2025-08-30_00-54-28,349,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756508068,50.0,418800,37072.39999341965,100.09103894233704,349
+420000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93945.555, 'num_steps_sampled': 420000, 'update_time_ms': 2.414, 'num_steps_trained': 420000, 'load_time_ms': 0.651, 'default': {'kl': 0.013052679598331451, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.948760986328125, 'total_loss': 26.701265335083008, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.111075259745121, 'vf_explained_var': 0.9798588156700134, 'vf_loss': 26.799123764038086}, 'grad_time_ms': 760.168}",3934253,37169.40801501274,-152.35406502911871,cda-server-6,24,-168.57609319041728,{},8400,10.157.146.6,{},-142.43713855171399,0,1200,2025-08-30_00-56-05,350,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756508165,50.0,420000,37169.40801501274,97.00802159309387,350
+421200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93551.288, 'num_steps_sampled': 421200, 'update_time_ms': 2.427, 'num_steps_trained': 421200, 'load_time_ms': 0.614, 'default': {'kl': 0.013322807848453522, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.31839370727539, 'total_loss': 39.58547592163086, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12193938344717026, 'vf_explained_var': 0.9701064229011536, 'vf_loss': 39.69392395019531}, 'grad_time_ms': 766.501}",3934253,37276.0480325222,-152.9349523520042,cda-server-6,24,-182.25825795156348,{},8424,10.157.146.6,{},-142.43713855171399,0,1200,2025-08-30_00-57-52,351,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756508272,50.0,421200,37276.0480325222,106.64001750946045,351
+422400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 96615.82, 'num_steps_sampled': 422400, 'update_time_ms': 2.446, 'num_steps_trained': 422400, 'load_time_ms': 0.613, 'default': {'kl': 0.014840834774076939, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.174718856811523, 'total_loss': 31.508209228515625, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1351870745420456, 'vf_explained_var': 0.9790176749229431, 'vf_loss': 31.62837028503418}, 'grad_time_ms': 769.346}",3934253,37396.09178161621,-153.35956760196896,cda-server-6,24,-182.25825795156348,{},8448,10.157.146.6,{},-142.43713855171399,0,1200,2025-08-30_00-59-52,352,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756508392,50.0,422400,37396.09178161621,120.0437490940094,352
+423600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 97717.845, 'num_steps_sampled': 423600, 'update_time_ms': 2.44, 'num_steps_trained': 423600, 'load_time_ms': 0.605, 'default': {'kl': 0.014833922497928143, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.910870552062988, 'total_loss': 21.269311904907227, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1376529335975647, 'vf_explained_var': 0.9843950271606445, 'vf_loss': 21.391944885253906}, 'grad_time_ms': 759.658}",3934253,37498.67289829254,-153.08415396170028,cda-server-6,24,-182.25825795156348,{},8472,10.157.146.6,{},-142.43713855171399,0,1200,2025-08-30_01-01-34,353,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756508494,50.0,423600,37498.67289829254,102.58111667633057,353
+424800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 98199.752, 'num_steps_sampled': 424800, 'update_time_ms': 2.418, 'num_steps_trained': 424800, 'load_time_ms': 0.604, 'default': {'kl': 0.01393041666597128, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.231510162353516, 'total_loss': 19.14379119873047, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1328810304403305, 'vf_explained_var': 0.9846649169921875, 'vf_loss': 19.262569427490234}, 'grad_time_ms': 751.339}",3934253,37599.13117814064,-153.2069426241487,cda-server-6,24,-182.25825795156348,{},8496,10.157.146.6,{},-139.1586138095392,0,1200,2025-08-30_01-03-15,354,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756508595,50.0,424800,37599.13117814064,100.45827984809875,354
+426000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 96474.088, 'num_steps_sampled': 426000, 'update_time_ms': 2.442, 'num_steps_trained': 426000, 'load_time_ms': 0.606, 'default': {'kl': 0.013703294098377228, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.181726455688477, 'total_loss': 22.11202621459961, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12982912361621857, 'vf_explained_var': 0.9826943278312683, 'vf_loss': 22.227983474731445}, 'grad_time_ms': 754.057}",3934253,37687.463785886765,-152.87976951541432,cda-server-6,24,-178.5151443402442,{},8520,10.157.146.6,{},-139.1586138095392,0,1200,2025-08-30_01-04-43,355,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756508683,50.0,426000,37687.463785886765,88.33260774612427,355
+427200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 98364.902, 'num_steps_sampled': 427200, 'update_time_ms': 2.483, 'num_steps_trained': 427200, 'load_time_ms': 0.604, 'default': {'kl': 0.014798227697610855, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.146353721618652, 'total_loss': 19.512731552124023, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11665691435337067, 'vf_explained_var': 0.9837243556976318, 'vf_loss': 19.614402770996094}, 'grad_time_ms': 762.176}",3934253,37792.859236478806,-152.4326080480917,cda-server-6,24,-168.48851998476675,{},8544,10.157.146.6,{},-139.1586138095392,0,1200,2025-08-30_01-06-28,356,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756508788,50.0,427200,37792.859236478806,105.39545059204102,356
+428400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 96947.825, 'num_steps_sampled': 428400, 'update_time_ms': 2.416, 'num_steps_trained': 428400, 'load_time_ms': 0.608, 'default': {'kl': 0.014719611965119839, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.013218879699707, 'total_loss': 15.863059043884277, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13711626827716827, 'vf_explained_var': 0.9880774021148682, 'vf_loss': 15.985271453857422}, 'grad_time_ms': 772.157}",3934253,37872.6226978302,-152.81097276852893,cda-server-6,24,-168.48851998476675,{},8568,10.157.146.6,{},-139.1586138095392,0,1200,2025-08-30_01-07-48,357,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756508868,50.0,428400,37872.6226978302,79.76346135139465,357
+429600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 98484.83, 'num_steps_sampled': 429600, 'update_time_ms': 2.418, 'num_steps_trained': 429600, 'load_time_ms': 0.595, 'default': {'kl': 0.013437781482934952, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.048007011413574, 'total_loss': 26.254295349121094, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1137915551662445, 'vf_explained_var': 0.9829705357551575, 'vf_loss': 26.354480743408203}, 'grad_time_ms': 767.708}",3934253,37964.91802740097,-152.98573683136482,cda-server-6,24,-168.48851998476675,{},8592,10.157.146.6,{},-143.0228323504369,0,1200,2025-08-30_01-09-20,358,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756508960,50.0,429600,37964.91802740097,92.29532957077026,358
+430800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 98218.345, 'num_steps_sampled': 430800, 'update_time_ms': 2.451, 'num_steps_trained': 430800, 'load_time_ms': 0.597, 'default': {'kl': 0.013722885400056839, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.970488548278809, 'total_loss': 13.448766708374023, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1254318505525589, 'vf_explained_var': 0.9887028932571411, 'vf_loss': 13.56030559539795}, 'grad_time_ms': 777.334}",3934253,38062.439425468445,-152.59503919828575,cda-server-6,24,-163.3151418152035,{},8616,10.157.146.6,{},-143.94562985426637,0,1200,2025-08-30_01-10-58,359,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756509058,50.0,430800,38062.439425468445,97.52139806747437,359
+432000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 98022.492, 'num_steps_sampled': 432000, 'update_time_ms': 2.485, 'num_steps_trained': 432000, 'load_time_ms': 0.595, 'default': {'kl': 0.01442575454711914, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.238739013671875, 'total_loss': 29.425323486328125, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13105913996696472, 'vf_explained_var': 0.9780151844024658, 'vf_loss': 29.541778564453125}, 'grad_time_ms': 778.193}",3934253,38157.49730968475,-152.59521854700185,cda-server-6,24,-163.75715808807124,{},8640,10.157.146.6,{},-143.94562985426637,0,1200,2025-08-30_01-12-33,360,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756509153,50.0,432000,38157.49730968475,95.0578842163086,360
+433200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 96048.622, 'num_steps_sampled': 433200, 'update_time_ms': 2.476, 'num_steps_trained': 433200, 'load_time_ms': 0.606, 'default': {'kl': 0.01245577447116375, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.976419448852539, 'total_loss': 17.008989334106445, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12027224898338318, 'vf_explained_var': 0.9869714379310608, 'vf_loss': 17.11665153503418}, 'grad_time_ms': 785.689}",3934253,38244.47419548035,-152.5972637993256,cda-server-6,24,-164.38796960241405,{},8664,10.157.146.6,{},-143.94562985426637,0,1200,2025-08-30_01-14-00,361,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756509240,50.0,433200,38244.47419548035,86.97688579559326,361
+434400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94103.607, 'num_steps_sampled': 434400, 'update_time_ms': 2.541, 'num_steps_trained': 434400, 'load_time_ms': 0.606, 'default': {'kl': 0.013436969369649887, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.918680191040039, 'total_loss': 33.949283599853516, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12893246114253998, 'vf_explained_var': 0.9761844277381897, 'vf_loss': 34.06460952758789}, 'grad_time_ms': 782.457}",3934253,38345.03595113754,-152.69931875687953,cda-server-6,24,-170.43808917486143,{},8688,10.157.146.6,{},-143.0843494317296,0,1200,2025-08-30_01-15-41,362,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756509341,50.0,434400,38345.03595113754,100.56175565719604,362
+435600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94747.806, 'num_steps_sampled': 435600, 'update_time_ms': 2.617, 'num_steps_trained': 435600, 'load_time_ms': 0.609, 'default': {'kl': 0.015112587250769138, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.319666862487793, 'total_loss': 37.49136734008789, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1251940131187439, 'vf_explained_var': 0.9763219356536865, 'vf_loss': 37.601261138916016}, 'grad_time_ms': 791.851}",3934253,38454.15379524231,-153.22232896328572,cda-server-6,24,-175.87434224939994,{},8712,10.157.146.6,{},-143.0843494317296,0,1200,2025-08-30_01-17-30,363,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756509450,50.0,435600,38454.15379524231,109.11784410476685,363
+436800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93394.588, 'num_steps_sampled': 436800, 'update_time_ms': 2.647, 'num_steps_trained': 436800, 'load_time_ms': 0.609, 'default': {'kl': 0.013049306347966194, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.128003120422363, 'total_loss': 40.55475997924805, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12103336304426193, 'vf_explained_var': 0.9705398082733154, 'vf_loss': 40.66258239746094}, 'grad_time_ms': 798.195}",3934253,38541.14335441589,-153.27688113916284,cda-server-6,24,-175.87434224939994,{},8736,10.157.146.6,{},-143.0843494317296,0,1200,2025-08-30_01-18-57,364,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756509537,50.0,436800,38541.14335441589,86.98955917358398,364
+438000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 95569.423, 'num_steps_sampled': 438000, 'update_time_ms': 2.643, 'num_steps_trained': 438000, 'load_time_ms': 0.604, 'default': {'kl': 0.013601518236100674, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.885064125061035, 'total_loss': 24.32900619506836, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13153356313705444, 'vf_explained_var': 0.9816988706588745, 'vf_loss': 24.446767807006836}, 'grad_time_ms': 779.284}",3934253,38651.03580594063,-153.14458819004005,cda-server-6,24,-175.87434224939994,{},8760,10.157.146.6,{},-143.0843494317296,0,1200,2025-08-30_01-20-47,365,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756509647,50.0,438000,38651.03580594063,109.8924515247345,365
+439200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94534.394, 'num_steps_sampled': 439200, 'update_time_ms': 2.634, 'num_steps_trained': 439200, 'load_time_ms': 0.62, 'default': {'kl': 0.01434319093823433, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.187789916992188, 'total_loss': 27.139606475830078, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1373453140258789, 'vf_explained_var': 0.9785805940628052, 'vf_loss': 27.26243019104004}, 'grad_time_ms': 784.596}",3934253,38746.134162187576,-153.03023594593262,cda-server-6,24,-175.87434224939994,{},8784,10.157.146.6,{},-145.97616584542013,0,1200,2025-08-30_01-22-22,366,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756509742,50.0,439200,38746.134162187576,95.09835624694824,366
+440400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 95815.865, 'num_steps_sampled': 440400, 'update_time_ms': 2.681, 'num_steps_trained': 440400, 'load_time_ms': 0.614, 'default': {'kl': 0.01304242480546236, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.783220291137695, 'total_loss': 21.39423179626465, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1273837685585022, 'vf_explained_var': 0.9835090637207031, 'vf_loss': 21.50840950012207}, 'grad_time_ms': 777.45}",3934253,38838.64204645157,-152.98505145091403,cda-server-6,24,-175.1536698558524,{},8808,10.157.146.6,{},-147.98162832608875,0,1200,2025-08-30_01-23-54,367,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756509834,50.0,440400,38838.64204645157,92.50788426399231,367
+441600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 95877.34, 'num_steps_sampled': 441600, 'update_time_ms': 2.732, 'num_steps_trained': 441600, 'load_time_ms': 0.625, 'default': {'kl': 0.014993922784924507, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.211225509643555, 'total_loss': 30.539302825927734, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13054004311561584, 'vf_explained_var': 0.9768690466880798, 'vf_loss': 30.654659271240234}, 'grad_time_ms': 774.471}",3934253,38931.52576327324,-153.22040865837252,cda-server-6,24,-175.1536698558524,{},8832,10.157.146.6,{},-147.98162832608875,0,1200,2025-08-30_01-25-27,368,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756509927,50.0,441600,38931.52576327324,92.88371682167053,368
+442800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 95571.739, 'num_steps_sampled': 442800, 'update_time_ms': 2.779, 'num_steps_trained': 442800, 'load_time_ms': 0.63, 'default': {'kl': 0.014243930578231812, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.84453010559082, 'total_loss': 14.643656730651855, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12754985690116882, 'vf_explained_var': 0.9877651929855347, 'vf_loss': 14.75678539276123}, 'grad_time_ms': 774.089}",3934253,39025.988913059235,-153.35602109097817,cda-server-6,24,-175.1536698558524,{},8856,10.157.146.6,{},-147.98162832608875,0,1200,2025-08-30_01-27-02,369,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756510022,50.0,442800,39025.988913059235,94.46314978599548,369
+444000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93135.38, 'num_steps_sampled': 444000, 'update_time_ms': 2.732, 'num_steps_trained': 444000, 'load_time_ms': 0.629, 'default': {'kl': 0.014785230159759521, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.96976089477539, 'total_loss': 14.757744789123535, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11156058311462402, 'vf_explained_var': 0.9873138070106506, 'vf_loss': 14.854334831237793}, 'grad_time_ms': 773.513}",3934253,39096.677599191666,-153.33171487671436,cda-server-6,24,-175.1536698558524,{},8880,10.157.146.6,{},-149.2437295888303,0,1200,2025-08-30_01-28-12,370,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756510092,50.0,444000,39096.677599191666,70.68868613243103,370
+445200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94533.882, 'num_steps_sampled': 445200, 'update_time_ms': 2.737, 'num_steps_trained': 445200, 'load_time_ms': 0.635, 'default': {'kl': 0.014057965949177742, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.287542343139648, 'total_loss': 23.995384216308594, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12851697206497192, 'vf_explained_var': 0.9828624725341797, 'vf_loss': 24.10966682434082}, 'grad_time_ms': 766.421}",3934253,39197.56882786751,-153.44320350684313,cda-server-6,24,-171.5362803146453,{},8904,10.157.146.6,{},-143.9455142032621,0,1200,2025-08-30_01-29-53,371,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756510193,50.0,445200,39197.56882786751,100.89122867584229,371
+446400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93615.93, 'num_steps_sampled': 446400, 'update_time_ms': 2.668, 'num_steps_trained': 446400, 'load_time_ms': 0.63, 'default': {'kl': 0.01378762349486351, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.977514266967773, 'total_loss': 16.470462799072266, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12618333101272583, 'vf_explained_var': 0.9869677424430847, 'vf_loss': 16.582687377929688}, 'grad_time_ms': 770.079}",3934253,39288.986879348755,-153.08341630954703,cda-server-6,24,-171.5362803146453,{},8928,10.157.146.6,{},-143.9455142032621,0,1200,2025-08-30_01-31-25,372,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756510285,50.0,446400,39288.986879348755,91.41805148124695,372
+447600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94375.551, 'num_steps_sampled': 447600, 'update_time_ms': 2.64, 'num_steps_trained': 447600, 'load_time_ms': 0.662, 'default': {'kl': 0.013898391276597977, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.216779708862305, 'total_loss': 48.11854934692383, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12654566764831543, 'vf_explained_var': 0.9678885340690613, 'vf_loss': 48.23102569580078}, 'grad_time_ms': 763.214}",3934253,39405.63260102272,-153.18250980534327,cda-server-6,24,-171.5362803146453,{},8952,10.157.146.6,{},-143.9455142032621,0,1200,2025-08-30_01-33-21,373,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756510401,50.0,447600,39405.63260102272,116.64572167396545,373
+448800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94646.345, 'num_steps_sampled': 448800, 'update_time_ms': 2.658, 'num_steps_trained': 448800, 'load_time_ms': 0.673, 'default': {'kl': 0.01273138914257288, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.943889617919922, 'total_loss': 28.784555435180664, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1258401721715927, 'vf_explained_var': 0.977308988571167, 'vf_loss': 28.897504806518555}, 'grad_time_ms': 767.596}",3934253,39495.37490296364,-153.0939093284892,cda-server-6,24,-171.5362803146453,{},8976,10.157.146.6,{},-142.9277414104081,0,1200,2025-08-30_01-34-51,374,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756510491,50.0,448800,39495.37490296364,89.74230194091797,374
+450000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92320.277, 'num_steps_sampled': 450000, 'update_time_ms': 2.638, 'num_steps_trained': 450000, 'load_time_ms': 0.67, 'default': {'kl': 0.012571917846798897, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.955538749694824, 'total_loss': 23.156606674194336, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1303580403327942, 'vf_explained_var': 0.9838725328445435, 'vf_loss': 23.274234771728516}, 'grad_time_ms': 780.454}",3934253,39582.134382009506,-153.18728333636233,cda-server-6,24,-170.6081921394304,{},9000,10.157.146.6,{},-142.9277414104081,0,1200,2025-08-30_01-36-18,375,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756510578,50.0,450000,39582.134382009506,86.75947904586792,375
+451200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92309.316, 'num_steps_sampled': 451200, 'update_time_ms': 2.649, 'num_steps_trained': 451200, 'load_time_ms': 0.65, 'default': {'kl': 0.014042828232049942, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.61319351196289, 'total_loss': 29.14134979248047, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12289823591709137, 'vf_explained_var': 0.9794071912765503, 'vf_loss': 29.25002670288086}, 'grad_time_ms': 779.417}",3934253,39677.111968278885,-153.18059563870236,cda-server-6,24,-174.89906397580594,{},9024,10.157.146.6,{},-142.9277414104081,0,1200,2025-08-30_01-37-53,376,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756510673,50.0,451200,39677.111968278885,94.97758626937866,376
+452400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92738.748, 'num_steps_sampled': 452400, 'update_time_ms': 2.664, 'num_steps_trained': 452400, 'load_time_ms': 0.652, 'default': {'kl': 0.012846022844314575, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.973522186279297, 'total_loss': 34.768245697021484, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1277947723865509, 'vf_explained_var': 0.9744422435760498, 'vf_loss': 34.883033752441406}, 'grad_time_ms': 791.139}",3934253,39774.030656814575,-153.291892610524,cda-server-6,24,-174.89906397580594,{},9048,10.157.146.6,{},-136.53761693354755,0,1200,2025-08-30_01-39-30,377,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756510770,50.0,452400,39774.030656814575,96.91868853569031,377
+453600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 91769.429, 'num_steps_sampled': 453600, 'update_time_ms': 2.585, 'num_steps_trained': 453600, 'load_time_ms': 0.646, 'default': {'kl': 0.015167261473834515, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.005805969238281, 'total_loss': 22.82137680053711, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13752031326293945, 'vf_explained_var': 0.9811097383499146, 'vf_loss': 22.943540573120117}, 'grad_time_ms': 801.995}",3934253,39857.32714128494,-153.35642537200582,cda-server-6,24,-174.89906397580594,{},9072,10.157.146.6,{},-136.53761693354755,0,1200,2025-08-30_01-40-53,378,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756510853,50.0,453600,39857.32714128494,83.29648447036743,378
+454800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93552.532, 'num_steps_sampled': 454800, 'update_time_ms': 2.553, 'num_steps_trained': 454800, 'load_time_ms': 0.644, 'default': {'kl': 0.01317631546407938, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.828235626220703, 'total_loss': 17.909996032714844, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12949572503566742, 'vf_explained_var': 0.9854044318199158, 'vf_loss': 18.02614974975586}, 'grad_time_ms': 788.433}",3934253,39969.48629593849,-153.18384773613363,cda-server-6,24,-174.89906397580594,{},9096,10.157.146.6,{},-136.53761693354755,0,1200,2025-08-30_01-42-45,379,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756510965,50.0,454800,39969.48629593849,112.1591546535492,379
+456000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93344.313, 'num_steps_sampled': 456000, 'update_time_ms': 2.541, 'num_steps_trained': 456000, 'load_time_ms': 0.643, 'default': {'kl': 0.014248888939619064, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.349405288696289, 'total_loss': 17.249818801879883, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1263115406036377, 'vf_explained_var': 0.9867851734161377, 'vf_loss': 17.36170196533203}, 'grad_time_ms': 772.99}",3934253,40037.937469005585,-153.1766155089574,cda-server-6,24,-174.89906397580594,{},9120,10.157.146.6,{},-136.53761693354755,0,1200,2025-08-30_01-43-54,380,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756511034,50.0,456000,40037.937469005585,68.4511730670929,380
+457200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94568.446, 'num_steps_sampled': 457200, 'update_time_ms': 2.599, 'num_steps_trained': 457200, 'load_time_ms': 0.632, 'default': {'kl': 0.014296084642410278, 'cur_lr': 4.999999873689376e-05, 'entropy': 10.027332305908203, 'total_loss': 19.0135555267334, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12623052299022675, 'vf_explained_var': 0.9851264953613281, 'vf_loss': 19.125308990478516}, 'grad_time_ms': 777.1}",3934253,40151.110609054565,-152.8896881821496,cda-server-6,24,-168.73716899846337,{},9144,10.157.146.6,{},-147.7964379594772,0,1200,2025-08-30_01-45-47,381,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756511147,50.0,457200,40151.110609054565,113.17314004898071,381
+458400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92486.574, 'num_steps_sampled': 458400, 'update_time_ms': 2.597, 'num_steps_trained': 458400, 'load_time_ms': 0.638, 'default': {'kl': 0.014583314768970013, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.759105682373047, 'total_loss': 17.389978408813477, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1328737437725067, 'vf_explained_var': 0.9858565926551819, 'vf_loss': 17.508085250854492}, 'grad_time_ms': 785.307}",3934253,40221.79202866554,-152.79855423647666,cda-server-6,24,-164.1867128581947,{},9168,10.157.146.6,{},-136.55946156197663,0,1200,2025-08-30_01-46-58,382,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756511218,50.0,458400,40221.79202866554,70.68141961097717,382
+459600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92935.526, 'num_steps_sampled': 459600, 'update_time_ms': 2.556, 'num_steps_trained': 459600, 'load_time_ms': 0.603, 'default': {'kl': 0.013046178966760635, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.58828067779541, 'total_loss': 29.252241134643555, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13703730702400208, 'vf_explained_var': 0.9791484475135803, 'vf_loss': 29.376068115234375}, 'grad_time_ms': 771.747}",3934253,40342.79056477547,-153.13422255735932,cda-server-6,24,-174.47439067250346,{},9192,10.157.146.6,{},-136.55946156197663,0,1200,2025-08-30_01-48-59,383,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756511339,50.0,459600,40342.79056477547,120.99853610992432,383
+460800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93259.448, 'num_steps_sampled': 460800, 'update_time_ms': 2.518, 'num_steps_trained': 460800, 'load_time_ms': 0.601, 'default': {'kl': 0.014214631170034409, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.635729789733887, 'total_loss': 14.057104110717773, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1296011358499527, 'vf_explained_var': 0.9884568452835083, 'vf_loss': 14.172313690185547}, 'grad_time_ms': 773.144}",3934253,40435.78492999077,-153.0059882991506,cda-server-6,24,-174.47439067250346,{},9216,10.157.146.6,{},-136.55946156197663,0,1200,2025-08-30_01-50-32,384,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756511432,50.0,460800,40435.78492999077,92.99436521530151,384
+462000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94043.3, 'num_steps_sampled': 462000, 'update_time_ms': 2.555, 'num_steps_trained': 462000, 'load_time_ms': 0.603, 'default': {'kl': 0.01449158787727356, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.566226959228516, 'total_loss': 22.213275909423828, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12301838397979736, 'vf_explained_var': 0.9816312789916992, 'vf_loss': 22.321619033813477}, 'grad_time_ms': 765.474}",3934253,40530.30609059334,-152.85925076260227,cda-server-6,24,-174.47439067250346,{},9240,10.157.146.6,{},-136.55946156197663,0,1200,2025-08-30_01-52-06,385,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756511526,50.0,462000,40530.30609059334,94.52116060256958,385
+463200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 95899.053, 'num_steps_sampled': 463200, 'update_time_ms': 2.533, 'num_steps_trained': 463200, 'load_time_ms': 0.614, 'default': {'kl': 0.013922227546572685, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.574094772338867, 'total_loss': 23.11071014404297, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.115452341735363, 'vf_explained_var': 0.9839463829994202, 'vf_loss': 23.212068557739258}, 'grad_time_ms': 767.397}",3934253,40643.86023974419,-153.37401042518425,cda-server-6,24,-174.47439067250346,{},9264,10.157.146.6,{},-136.55946156197663,0,1200,2025-08-30_01-54-00,386,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756511640,50.0,463200,40643.86023974419,113.55414915084839,386
+464400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94600.447, 'num_steps_sampled': 464400, 'update_time_ms': 2.467, 'num_steps_trained': 464400, 'load_time_ms': 0.617, 'default': {'kl': 0.013455020263791084, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.93942928314209, 'total_loss': 71.57559204101562, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1256643831729889, 'vf_explained_var': 0.9553078413009644, 'vf_loss': 71.68763732910156}, 'grad_time_ms': 760.01}",3934253,40727.71838593483,-153.81044741787505,cda-server-6,24,-185.61971742619494,{},9288,10.157.146.6,{},-142.7858068921068,0,1200,2025-08-30_01-55-24,387,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756511724,50.0,464400,40727.71838593483,83.85814619064331,387
+465600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 95143.577, 'num_steps_sampled': 465600, 'update_time_ms': 2.487, 'num_steps_trained': 465600, 'load_time_ms': 0.628, 'default': {'kl': 0.014179746620357037, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.57951545715332, 'total_loss': 22.397836685180664, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12766240537166595, 'vf_explained_var': 0.9822462797164917, 'vf_loss': 22.51114273071289}, 'grad_time_ms': 761.875}",3934253,40816.4643805027,-153.7662331758303,cda-server-6,24,-185.61971742619494,{},9312,10.157.146.6,{},-141.64657409231407,0,1200,2025-08-30_01-56-53,388,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756511813,50.0,465600,40816.4643805027,88.7459945678711,388
+466800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94702.824, 'num_steps_sampled': 466800, 'update_time_ms': 2.473, 'num_steps_trained': 466800, 'load_time_ms': 0.624, 'default': {'kl': 0.013959686271846294, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.685425758361816, 'total_loss': 20.270750045776367, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13417869806289673, 'vf_explained_var': 0.98442143201828, 'vf_loss': 20.390796661376953}, 'grad_time_ms': 760.271}",3934253,40924.1979534626,-153.9711238325928,cda-server-6,24,-185.61971742619494,{},9336,10.157.146.6,{},-141.64657409231407,0,1200,2025-08-30_01-58-40,389,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756511920,50.0,466800,40924.1979534626,107.7335729598999,389
+468000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 97748.726, 'num_steps_sampled': 468000, 'update_time_ms': 2.538, 'num_steps_trained': 468000, 'load_time_ms': 0.629, 'default': {'kl': 0.0150027209892869, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.611435890197754, 'total_loss': 16.69760513305664, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1160043478012085, 'vf_explained_var': 0.9859545230865479, 'vf_loss': 16.798418045043945}, 'grad_time_ms': 776.435}",3934253,41023.27092075348,-153.2059437076237,cda-server-6,24,-185.61971742619494,{},9360,10.157.146.6,{},-141.64657409231407,0,1200,2025-08-30_02-00-19,390,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756512019,50.0,468000,41023.27092075348,99.0729672908783,390
+469200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 97941.064, 'num_steps_sampled': 469200, 'update_time_ms': 2.545, 'num_steps_trained': 469200, 'load_time_ms': 0.625, 'default': {'kl': 0.01452625822275877, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.65519905090332, 'total_loss': 22.100902557373047, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12013532221317291, 'vf_explained_var': 0.982020378112793, 'vf_loss': 22.206329345703125}, 'grad_time_ms': 765.075}",3934253,41138.254877090454,-152.90577764465885,cda-server-6,24,-170.25628936587407,{},9384,10.157.146.6,{},-141.64657409231407,0,1200,2025-08-30_02-02-14,391,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756512134,50.0,469200,41138.254877090454,114.9839563369751,391
+470400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 100327.709, 'num_steps_sampled': 470400, 'update_time_ms': 2.58, 'num_steps_trained': 470400, 'load_time_ms': 0.627, 'default': {'kl': 0.01367896981537342, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.717622756958008, 'total_loss': 20.730247497558594, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12303749471902847, 'vf_explained_var': 0.9840138554573059, 'vf_loss': 20.839435577392578}, 'grad_time_ms': 740.551}",3934253,41232.55836844444,-152.76562004405554,cda-server-6,24,-169.46345236421746,{},9408,10.157.146.6,{},-146.8892861391005,0,1200,2025-08-30_02-03-49,392,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756512229,50.0,470400,41232.55836844444,94.30349135398865,392
+471600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 98909.243, 'num_steps_sampled': 471600, 'update_time_ms': 2.595, 'num_steps_trained': 471600, 'load_time_ms': 0.63, 'default': {'kl': 0.01300249807536602, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.604305267333984, 'total_loss': 19.531492233276367, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11763381958007812, 'vf_explained_var': 0.9843325018882751, 'vf_loss': 19.635961532592773}, 'grad_time_ms': 758.83}",3934253,41339.5549621582,-152.6976787690023,cda-server-6,24,-169.46345236421746,{},9432,10.157.146.6,{},-142.83068117605868,0,1200,2025-08-30_02-05-36,393,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756512336,50.0,471600,41339.5549621582,106.99659371376038,393
+472800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 98506.519, 'num_steps_sampled': 472800, 'update_time_ms': 2.567, 'num_steps_trained': 472800, 'load_time_ms': 0.624, 'default': {'kl': 0.013971512205898762, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.62321949005127, 'total_loss': 13.953452110290527, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12165407091379166, 'vf_explained_var': 0.9881808757781982, 'vf_loss': 14.06096076965332}, 'grad_time_ms': 755.993}",3934253,41428.493270635605,-152.73886156700593,cda-server-6,24,-169.46345236421746,{},9456,10.157.146.6,{},-142.81457270615553,0,1200,2025-08-30_02-07-05,394,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756512425,50.0,472800,41428.493270635605,88.93830847740173,394
+474000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 97189.632, 'num_steps_sampled': 474000, 'update_time_ms': 2.492, 'num_steps_trained': 474000, 'load_time_ms': 0.628, 'default': {'kl': 0.012882490642368793, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.573514938354492, 'total_loss': 30.2314453125, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11516463756561279, 'vf_explained_var': 0.978480875492096, 'vf_loss': 30.333566665649414}, 'grad_time_ms': 755.275}",3934253,41509.83872747421,-152.55249194049549,cda-server-6,24,-165.33702468179493,{},9480,10.157.146.6,{},-142.81457270615553,0,1200,2025-08-30_02-08-26,395,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756512506,50.0,474000,41509.83872747421,81.34545683860779,395
+475200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 97357.778, 'num_steps_sampled': 475200, 'update_time_ms': 2.494, 'num_steps_trained': 475200, 'load_time_ms': 0.626, 'default': {'kl': 0.015613549388945103, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.676960945129395, 'total_loss': 20.19458770751953, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12485632300376892, 'vf_explained_var': 0.9847643375396729, 'vf_loss': 20.303634643554688}, 'grad_time_ms': 730.936}",3934253,41624.83124899864,-152.67328401582608,cda-server-6,24,-165.33702468179493,{},9504,10.157.146.6,{},-142.81457270615553,0,1200,2025-08-30_02-10-21,396,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756512621,50.0,475200,41624.83124899864,114.99252152442932,396
+476400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 100373.912, 'num_steps_sampled': 476400, 'update_time_ms': 2.536, 'num_steps_trained': 476400, 'load_time_ms': 0.621, 'default': {'kl': 0.014947790652513504, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.738167762756348, 'total_loss': 26.864194869995117, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14435940980911255, 'vf_explained_var': 0.9804407954216003, 'vf_loss': 26.99342155456543}, 'grad_time_ms': 726.922}",3934253,41738.81172847748,-152.73994919692365,cda-server-6,24,-165.33702468179493,{},9528,10.157.146.6,{},-142.81457270615553,0,1200,2025-08-30_02-12-15,397,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756512735,50.0,476400,41738.81172847748,113.98047947883606,397
+477600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 99110.223, 'num_steps_sampled': 477600, 'update_time_ms': 2.541, 'num_steps_trained': 477600, 'load_time_ms': 0.621, 'default': {'kl': 0.014783354476094246, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.937175750732422, 'total_loss': 36.52134323120117, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.125640869140625, 'vf_explained_var': 0.9722763895988464, 'vf_loss': 36.632015228271484}, 'grad_time_ms': 725.375}",3934253,41814.905596494675,-153.10580437943494,cda-server-6,24,-178.8284532302404,{},9552,10.157.146.6,{},-148.82691292199615,0,1200,2025-08-30_02-13-31,398,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756512811,50.0,477600,41814.905596494675,76.09386801719666,398
+478800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 97041.268, 'num_steps_sampled': 478800, 'update_time_ms': 2.524, 'num_steps_trained': 478800, 'load_time_ms': 0.626, 'default': {'kl': 0.01445402018725872, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.523843765258789, 'total_loss': 20.581594467163086, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12159392237663269, 'vf_explained_var': 0.9837309718132019, 'vf_loss': 20.68855094909668}, 'grad_time_ms': 734.791}",3934253,41902.04425191879,-153.46935723412918,cda-server-6,24,-178.8284532302404,{},9576,10.157.146.6,{},-148.82691292199615,0,1200,2025-08-30_02-14-58,399,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756512898,50.0,478800,41902.04425191879,87.13865542411804,399
+480000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 96533.831, 'num_steps_sampled': 480000, 'update_time_ms': 2.47, 'num_steps_trained': 480000, 'load_time_ms': 0.622, 'default': {'kl': 0.01431234646588564, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.579992294311523, 'total_loss': 22.560794830322266, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12019583582878113, 'vf_explained_var': 0.9842327833175659, 'vf_loss': 22.666500091552734}, 'grad_time_ms': 707.123}",3934253,41995.76532769203,-153.08571561344462,cda-server-6,24,-178.8284532302404,{},9600,10.157.146.6,{},-148.82691292199615,0,1200,2025-08-30_02-16-32,400,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756512992,50.0,480000,41995.76532769203,93.72107577323914,400
+481200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 95440.939, 'num_steps_sampled': 481200, 'update_time_ms': 2.412, 'num_steps_trained': 481200, 'load_time_ms': 0.627, 'default': {'kl': 0.01310575008392334, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.719040870666504, 'total_loss': 35.705787658691406, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13067464530467987, 'vf_explained_var': 0.9781382083892822, 'vf_loss': 35.82319641113281}, 'grad_time_ms': 720.716}",3934253,42099.95502829552,-153.3988099397184,cda-server-6,24,-178.8284532302404,{},9624,10.157.146.6,{},-145.95915465653817,0,1200,2025-08-30_02-18-16,401,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756513096,50.0,481200,42099.95502829552,104.18970060348511,401
+482400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94308.325, 'num_steps_sampled': 482400, 'update_time_ms': 2.409, 'num_steps_trained': 482400, 'load_time_ms': 0.62, 'default': {'kl': 0.013833809643983841, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.736509323120117, 'total_loss': 35.20651626586914, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1259187012910843, 'vf_explained_var': 0.9735874533653259, 'vf_loss': 35.31842803955078}, 'grad_time_ms': 732.584}",3934253,42183.0499727726,-152.7485907641062,cda-server-6,24,-172.2784810744398,{},9648,10.157.146.6,{},-136.54575402752465,0,1200,2025-08-30_02-19-39,402,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756513179,50.0,482400,42183.0499727726,83.0949444770813,402
+483600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94824.157, 'num_steps_sampled': 483600, 'update_time_ms': 2.383, 'num_steps_trained': 483600, 'load_time_ms': 0.614, 'default': {'kl': 0.012754004448652267, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.690858840942383, 'total_loss': 21.811321258544922, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1276492029428482, 'vf_explained_var': 0.9835841655731201, 'vf_loss': 21.926057815551758}, 'grad_time_ms': 713.208}",3934253,42295.01004576683,-152.46891549800432,cda-server-6,24,-165.81996427857436,{},9672,10.157.146.6,{},-136.54575402752465,0,1200,2025-08-30_02-21-31,403,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756513291,50.0,483600,42295.01004576683,111.96007299423218,403
+484800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 97164.078, 'num_steps_sampled': 484800, 'update_time_ms': 2.413, 'num_steps_trained': 484800, 'load_time_ms': 0.609, 'default': {'kl': 0.014857407659292221, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.539432525634766, 'total_loss': 26.76873207092285, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13504831492900848, 'vf_explained_var': 0.9832797646522522, 'vf_loss': 26.888736724853516}, 'grad_time_ms': 691.336}",3934253,42407.1293554306,-152.53595371969553,cda-server-6,24,-165.81996427857436,{},9696,10.157.146.6,{},-136.54575402752465,0,1200,2025-08-30_02-23-23,404,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756513403,50.0,484800,42407.1293554306,112.11930966377258,404
+486000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 98961.935, 'num_steps_sampled': 486000, 'update_time_ms': 2.452, 'num_steps_trained': 486000, 'load_time_ms': 0.613, 'default': {'kl': 0.012585025280714035, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.700153350830078, 'total_loss': 33.97825622558594, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11734248697757721, 'vf_explained_var': 0.9767182469367981, 'vf_loss': 34.08285903930664}, 'grad_time_ms': 706.634}",3934253,42506.60624504089,-152.02951228995173,cda-server-6,24,-164.54826698210027,{},9720,10.157.146.6,{},-136.54575402752465,0,1200,2025-08-30_02-25-03,405,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756513503,50.0,486000,42506.60624504089,99.47688961029053,405
+487200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 97683.436, 'num_steps_sampled': 487200, 'update_time_ms': 2.47, 'num_steps_trained': 487200, 'load_time_ms': 0.605, 'default': {'kl': 0.012815814465284348, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.51749324798584, 'total_loss': 18.358110427856445, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13039404153823853, 'vf_explained_var': 0.9866368770599365, 'vf_loss': 18.475528717041016}, 'grad_time_ms': 721.45}",3934253,42608.96180129051,-152.5057609427979,cda-server-6,24,-164.98823848315914,{},9744,10.157.146.6,{},-145.99157178352348,0,1200,2025-08-30_02-26-45,406,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756513605,50.0,487200,42608.96180129051,102.35555624961853,406
+488400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 97026.104, 'num_steps_sampled': 488400, 'update_time_ms': 2.467, 'num_steps_trained': 488400, 'load_time_ms': 0.609, 'default': {'kl': 0.013667297549545765, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.660782814025879, 'total_loss': 34.40043258666992, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.124124675989151, 'vf_explained_var': 0.9725708365440369, 'vf_loss': 34.510719299316406}, 'grad_time_ms': 729.874}",3934253,42716.45296001434,-152.4718104965969,cda-server-6,24,-164.98823848315914,{},9768,10.157.146.6,{},-143.33162856010452,0,1200,2025-08-30_02-28-33,407,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756513713,50.0,488400,42716.45296001434,107.49115872383118,407
+489600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 98824.481, 'num_steps_sampled': 489600, 'update_time_ms': 2.472, 'num_steps_trained': 489600, 'load_time_ms': 0.609, 'default': {'kl': 0.013919343240559101, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.630985260009766, 'total_loss': 16.17458152770996, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11430396139621735, 'vf_explained_var': 0.9877437949180603, 'vf_loss': 16.274789810180664}, 'grad_time_ms': 718.413}",3934253,42810.41572546959,-152.49322413360747,cda-server-6,24,-167.22391862857077,{},9792,10.157.146.6,{},-143.33162856010452,0,1200,2025-08-30_02-30-07,408,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756513807,50.0,489600,42810.41572546959,93.96276545524597,408
+490800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 100598.573, 'num_steps_sampled': 490800, 'update_time_ms': 2.456, 'num_steps_trained': 490800, 'load_time_ms': 0.604, 'default': {'kl': 0.013683994300663471, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.548572540283203, 'total_loss': 19.05156898498535, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1258140206336975, 'vf_explained_var': 0.9866318106651306, 'vf_loss': 19.163530349731445}, 'grad_time_ms': 716.211}",3934253,42915.273431539536,-152.54198270127512,cda-server-6,24,-171.02813922101154,{},9816,10.157.146.6,{},-142.7902382364414,0,1200,2025-08-30_02-31-52,409,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756513912,50.0,490800,42915.273431539536,104.85770606994629,409
+492000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 99761.434, 'num_steps_sampled': 492000, 'update_time_ms': 2.489, 'num_steps_trained': 492000, 'load_time_ms': 0.601, 'default': {'kl': 0.013874795287847519, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.748285293579102, 'total_loss': 21.56228256225586, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12434862554073334, 'vf_explained_var': 0.9823559522628784, 'vf_loss': 21.672584533691406}, 'grad_time_ms': 734.541}",3934253,43000.80782318115,-152.27884884345352,cda-server-6,24,-171.02813922101154,{},9840,10.157.146.6,{},-142.7902382364414,0,1200,2025-08-30_02-33-17,410,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756513997,50.0,492000,43000.80782318115,85.53439164161682,410
+493200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 98640.007, 'num_steps_sampled': 493200, 'update_time_ms': 2.536, 'num_steps_trained': 493200, 'load_time_ms': 0.617, 'default': {'kl': 0.013062255457043648, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.480387687683105, 'total_loss': 23.92295265197754, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14083310961723328, 'vf_explained_var': 0.9820898771286011, 'vf_loss': 24.050559997558594}, 'grad_time_ms': 731.141}",3934253,43093.75035619736,-152.388119586282,cda-server-6,24,-171.02813922101154,{},9864,10.157.146.6,{},-142.7902382364414,0,1200,2025-08-30_02-34-50,411,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756514090,50.0,493200,43093.75035619736,92.94253301620483,411
+494400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 100133.017, 'num_steps_sampled': 494400, 'update_time_ms': 2.551, 'num_steps_trained': 494400, 'load_time_ms': 0.62, 'default': {'kl': 0.01390067394822836, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.697103500366211, 'total_loss': 25.10484504699707, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13179221749305725, 'vf_explained_var': 0.9813117980957031, 'vf_loss': 25.22256088256836}, 'grad_time_ms': 732.214}",3934253,43191.7867565155,-152.50038821208054,cda-server-6,24,-171.02813922101154,{},9888,10.157.146.6,{},-142.7902382364414,0,1200,2025-08-30_02-36-28,412,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756514188,50.0,494400,43191.7867565155,98.03640031814575,412
+495600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 101028.588, 'num_steps_sampled': 495600, 'update_time_ms': 2.505, 'num_steps_trained': 495600, 'load_time_ms': 0.622, 'default': {'kl': 0.014487986452877522, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.295341491699219, 'total_loss': 20.39866065979004, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12015184760093689, 'vf_explained_var': 0.9833239316940308, 'vf_loss': 20.5041446685791}, 'grad_time_ms': 747.509}",3934253,43312.855503320694,-152.38164456540886,cda-server-6,24,-167.1559509614097,{},9912,10.157.146.6,{},-135.364826567015,0,1200,2025-08-30_02-38-29,413,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756514309,50.0,495600,43312.855503320694,121.06874680519104,413
+496800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 99359.069, 'num_steps_sampled': 496800, 'update_time_ms': 2.459, 'num_steps_trained': 496800, 'load_time_ms': 0.636, 'default': {'kl': 0.014094003476202488, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.570438385009766, 'total_loss': 25.21484375, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13121233880519867, 'vf_explained_var': 0.9804350733757019, 'vf_loss': 25.331787109375}, 'grad_time_ms': 760.267}",3934253,43408.40692996979,-152.84416168800163,cda-server-6,24,-167.1559509614097,{},9936,10.157.146.6,{},-135.364826567015,0,1200,2025-08-30_02-40-05,414,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756514405,50.0,496800,43408.40692996979,95.55142664909363,414
+498000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 99718.859, 'num_steps_sampled': 498000, 'update_time_ms': 2.471, 'num_steps_trained': 498000, 'load_time_ms': 0.634, 'default': {'kl': 0.013480665162205696, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.567373275756836, 'total_loss': 14.828624725341797, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12480054795742035, 'vf_explained_var': 0.9876997470855713, 'vf_loss': 14.939777374267578}, 'grad_time_ms': 757.832}",3934253,43511.4573700428,-152.41611989014177,cda-server-6,24,-167.1559509614097,{},9960,10.157.146.6,{},-135.364826567015,0,1200,2025-08-30_02-41-48,415,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756514508,50.0,498000,43511.4573700428,103.0504400730133,415
+499200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 99487.673, 'num_steps_sampled': 499200, 'update_time_ms': 2.494, 'num_steps_trained': 499200, 'load_time_ms': 0.671, 'default': {'kl': 0.014436847530305386, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.49398422241211, 'total_loss': 21.52405548095703, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13773185014724731, 'vf_explained_var': 0.9835493564605713, 'vf_loss': 21.64716911315918}, 'grad_time_ms': 762.62}",3934253,43611.55019903183,-152.60514110878364,cda-server-6,24,-166.84073942014268,{},9984,10.157.146.6,{},-135.364826567015,0,1200,2025-08-30_02-43-28,416,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756514608,50.0,499200,43611.55019903183,100.09282898902893,416
+500400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 98961.509, 'num_steps_sampled': 500400, 'update_time_ms': 2.496, 'num_steps_trained': 500400, 'load_time_ms': 0.673, 'default': {'kl': 0.013998076319694519, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.702149391174316, 'total_loss': 27.09682846069336, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14793071150779724, 'vf_explained_var': 0.980864405632019, 'vf_loss': 27.2305850982666}, 'grad_time_ms': 763.849}",3934253,43713.79194974899,-152.75236425338213,cda-server-6,24,-166.84073942014268,{},10008,10.157.146.6,{},-140.077182822348,0,1200,2025-08-30_02-45-10,417,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756514710,50.0,500400,43713.79194974899,102.24175071716309,417
+501600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 99558.243, 'num_steps_sampled': 501600, 'update_time_ms': 2.51, 'num_steps_trained': 501600, 'load_time_ms': 0.663, 'default': {'kl': 0.014370894990861416, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.21036434173584, 'total_loss': 20.671241760253906, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1176142692565918, 'vf_explained_var': 0.9830334782600403, 'vf_loss': 20.77430534362793}, 'grad_time_ms': 759.136}",3934253,43813.67440891266,-152.36210487112976,cda-server-6,24,-166.61907491036374,{},10032,10.157.146.6,{},-140.077182822348,0,1200,2025-08-30_02-46-50,418,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756514810,50.0,501600,43813.67440891266,99.88245916366577,418
+502800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 99253.648, 'num_steps_sampled': 502800, 'update_time_ms': 2.526, 'num_steps_trained': 502800, 'load_time_ms': 0.66, 'default': {'kl': 0.011671670712530613, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.367462158203125, 'total_loss': 23.715415954589844, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12150892615318298, 'vf_explained_var': 0.9807304739952087, 'vf_loss': 23.825103759765625}, 'grad_time_ms': 753.453}",3934253,43915.42871594429,-152.4740142506281,cda-server-6,24,-166.61907491036374,{},10056,10.157.146.6,{},-140.077182822348,0,1200,2025-08-30_02-48-32,419,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756514912,50.0,502800,43915.42871594429,101.75430703163147,419
+504000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 101192.681, 'num_steps_sampled': 504000, 'update_time_ms': 2.561, 'num_steps_trained': 504000, 'load_time_ms': 0.663, 'default': {'kl': 0.013619640842080116, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.553508758544922, 'total_loss': 19.23631477355957, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11064037680625916, 'vf_explained_var': 0.9852237701416016, 'vf_loss': 19.333168029785156}, 'grad_time_ms': 752.56}",3934253,44020.34438610077,-152.088058321042,cda-server-6,24,-166.61907491036374,{},10080,10.157.146.6,{},-140.077182822348,0,1200,2025-08-30_02-50-17,420,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756515017,50.0,504000,44020.34438610077,104.91567015647888,420
+505200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 102467.95, 'num_steps_sampled': 505200, 'update_time_ms': 2.496, 'num_steps_trained': 505200, 'load_time_ms': 0.65, 'default': {'kl': 0.01381174847483635, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.478511810302734, 'total_loss': 16.577302932739258, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1256970316171646, 'vf_explained_var': 0.9875710606575012, 'vf_loss': 16.689016342163086}, 'grad_time_ms': 756.674}",3934253,44126.080137491226,-152.20027245584026,cda-server-6,24,-163.9500105131882,{},10104,10.157.146.6,{},-142.6992763566649,0,1200,2025-08-30_02-52-03,421,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756515123,50.0,505200,44126.080137491226,105.73575139045715,421
+506400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 100725.323, 'num_steps_sampled': 506400, 'update_time_ms': 2.505, 'num_steps_trained': 506400, 'load_time_ms': 0.655, 'default': {'kl': 0.014820229262113571, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.623552322387695, 'total_loss': 15.060821533203125, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12630988657474518, 'vf_explained_var': 0.9873186945915222, 'vf_loss': 15.172125816345215}, 'grad_time_ms': 768.013}",3934253,44206.80386471748,-152.1666959661188,cda-server-6,24,-164.13063243563758,{},10128,10.157.146.6,{},-142.6992763566649,0,1200,2025-08-30_02-53-23,422,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756515203,50.0,506400,44206.80386471748,80.72372722625732,422
+507600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 99141.36, 'num_steps_sampled': 507600, 'update_time_ms': 2.558, 'num_steps_trained': 507600, 'load_time_ms': 0.662, 'default': {'kl': 0.014279918745160103, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.518680572509766, 'total_loss': 20.14760398864746, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12270474433898926, 'vf_explained_var': 0.9837811589241028, 'vf_loss': 20.255849838256836}, 'grad_time_ms': 760.582}",3934253,44311.95928025246,-152.37089182857787,cda-server-6,24,-164.13063243563758,{},10152,10.157.146.6,{},-142.6992763566649,0,1200,2025-08-30_02-55-09,423,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756515309,50.0,507600,44311.95928025246,105.15541553497314,423
+508800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 100358.021, 'num_steps_sampled': 508800, 'update_time_ms': 2.585, 'num_steps_trained': 508800, 'load_time_ms': 0.663, 'default': {'kl': 0.012729505077004433, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.574199676513672, 'total_loss': 24.127349853515625, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12281505018472672, 'vf_explained_var': 0.9814075827598572, 'vf_loss': 24.237276077270508}, 'grad_time_ms': 745.356}",3934253,44419.52580022812,-152.83940788648562,cda-server-6,24,-169.17921882612953,{},10176,10.157.146.6,{},-143.74108753127996,0,1200,2025-08-30_02-56-56,424,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756515416,50.0,508800,44419.52580022812,107.56651997566223,424
+510000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 96418.653, 'num_steps_sampled': 510000, 'update_time_ms': 2.585, 'num_steps_trained': 510000, 'load_time_ms': 0.661, 'default': {'kl': 0.014946307986974716, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.48218822479248, 'total_loss': 16.20340919494629, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14104242622852325, 'vf_explained_var': 0.9878532886505127, 'vf_loss': 16.32931900024414}, 'grad_time_ms': 749.272}",3934253,44483.22181510925,-152.96896037243326,cda-server-6,24,-169.17921882612953,{},10200,10.157.146.6,{},-143.74108753127996,0,1200,2025-08-30_02-58-00,425,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756515480,50.0,510000,44483.22181510925,63.69601488113403,425
+511200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94771.723, 'num_steps_sampled': 511200, 'update_time_ms': 2.541, 'num_steps_trained': 511200, 'load_time_ms': 0.625, 'default': {'kl': 0.013613752089440823, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.491787910461426, 'total_loss': 31.104705810546875, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13406051695346832, 'vf_explained_var': 0.9770567417144775, 'vf_loss': 31.22498321533203}, 'grad_time_ms': 752.077}",3934253,44566.871950387955,-153.15485623507504,cda-server-6,24,-176.3212741594545,{},10224,10.157.146.6,{},-142.76878927498908,0,1200,2025-08-30_02-59-24,426,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756515564,50.0,511200,44566.871950387955,83.65013527870178,426
+512400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92743.774, 'num_steps_sampled': 512400, 'update_time_ms': 2.568, 'num_steps_trained': 512400, 'load_time_ms': 0.622, 'default': {'kl': 0.01447269693017006, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.206316947937012, 'total_loss': 16.799468994140625, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12001865357160568, 'vf_explained_var': 0.9866235256195068, 'vf_loss': 16.904834747314453}, 'grad_time_ms': 740.284}",3934253,44648.71591639519,-153.16727095351285,cda-server-6,24,-176.3212741594545,{},10248,10.157.146.6,{},-142.76878927498908,0,1200,2025-08-30_03-00-45,427,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756515645,50.0,512400,44648.71591639519,81.84396600723267,427
+513600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93115.004, 'num_steps_sampled': 513600, 'update_time_ms': 2.549, 'num_steps_trained': 513600, 'load_time_ms': 0.659, 'default': {'kl': 0.015185288153588772, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.132720947265625, 'total_loss': 31.58395004272461, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1356636881828308, 'vf_explained_var': 0.9850590825080872, 'vf_loss': 31.70423698425293}, 'grad_time_ms': 745.147}",3934253,44752.36105489731,-152.47133940099715,cda-server-6,24,-176.3212741594545,{},10272,10.157.146.6,{},-136.65559761541954,0,1200,2025-08-30_03-02-29,428,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756515749,50.0,513600,44752.36105489731,103.64513850212097,428
+514800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93212.02, 'num_steps_sampled': 514800, 'update_time_ms': 2.565, 'num_steps_trained': 514800, 'load_time_ms': 0.659, 'default': {'kl': 0.012950624339282513, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.307674407958984, 'total_loss': 20.67955780029297, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1103539988398552, 'vf_explained_var': 0.983638346195221, 'vf_loss': 20.77680015563965}, 'grad_time_ms': 755.405}",3934253,44855.18939137459,-152.44805865292292,cda-server-6,24,-176.3212741594545,{},10296,10.157.146.6,{},-136.65559761541954,0,1200,2025-08-30_03-04-12,429,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756515852,50.0,514800,44855.18939137459,102.82833647727966,429
+516000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 91066.479, 'num_steps_sampled': 516000, 'update_time_ms': 2.577, 'num_steps_trained': 516000, 'load_time_ms': 0.662, 'default': {'kl': 0.014143170788884163, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.144468307495117, 'total_loss': 20.466529846191406, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12884706258773804, 'vf_explained_var': 0.9840419292449951, 'vf_loss': 20.5810546875}, 'grad_time_ms': 760.555}",3934253,44938.701545238495,-152.37429926190597,cda-server-6,24,-164.15191290750363,{},10320,10.157.146.6,{},-136.65559761541954,0,1200,2025-08-30_03-05-35,430,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756515935,50.0,516000,44938.701545238495,83.51215386390686,430
+517200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 87798.525, 'num_steps_sampled': 517200, 'update_time_ms': 2.592, 'num_steps_trained': 517200, 'load_time_ms': 0.659, 'default': {'kl': 0.012897643260657787, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.147050857543945, 'total_loss': 23.396202087402344, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12415405362844467, 'vf_explained_var': 0.9816821217536926, 'vf_loss': 23.50729751586914}, 'grad_time_ms': 753.518}",3934253,45011.686506032944,-152.49162581204905,cda-server-6,24,-164.15191290750363,{},10344,10.157.146.6,{},-136.65559761541954,0,1200,2025-08-30_03-06-49,431,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756516009,50.0,517200,45011.686506032944,72.98496079444885,431
+518400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 87706.415, 'num_steps_sampled': 518400, 'update_time_ms': 2.562, 'num_steps_trained': 518400, 'load_time_ms': 0.67, 'default': {'kl': 0.01292494498193264, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.16193675994873, 'total_loss': 22.140846252441406, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12487272173166275, 'vf_explained_var': 0.982728123664856, 'vf_loss': 22.252634048461914}, 'grad_time_ms': 750.037}",3934253,45091.453741550446,-152.63505965031305,cda-server-6,24,-164.15191290750363,{},10368,10.157.146.6,{},-136.65559761541954,0,1200,2025-08-30_03-08-08,432,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756516088,50.0,518400,45091.453741550446,79.76723551750183,432
+519600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 86294.257, 'num_steps_sampled': 519600, 'update_time_ms': 2.543, 'num_steps_trained': 519600, 'load_time_ms': 0.697, 'default': {'kl': 0.014303537085652351, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.481611251831055, 'total_loss': 28.225297927856445, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13561999797821045, 'vf_explained_var': 0.9792253971099854, 'vf_loss': 28.346435546875}, 'grad_time_ms': 753.54}",3934253,45182.52351999283,-152.83210305416438,cda-server-6,24,-164.15191290750363,{},10392,10.157.146.6,{},-141.56123354539693,0,1200,2025-08-30_03-09-39,433,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756516179,50.0,519600,45182.52351999283,91.06977844238281,433
+520800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 87916.656, 'num_steps_sampled': 520800, 'update_time_ms': 2.533, 'num_steps_trained': 520800, 'load_time_ms': 0.692, 'default': {'kl': 0.013387994840741158, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.373644828796387, 'total_loss': 35.60469055175781, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1338808387517929, 'vf_explained_var': 0.9731928706169128, 'vf_loss': 35.72500991821289}, 'grad_time_ms': 779.642}",3934253,45306.57466197014,-152.94840318610505,cda-server-6,24,-164.67520643826325,{},10416,10.157.146.6,{},-141.56123354539693,0,1200,2025-08-30_03-11-43,434,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756516303,50.0,520800,45306.57466197014,124.05114197731018,434
+522000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 90730.781, 'num_steps_sampled': 522000, 'update_time_ms': 2.591, 'num_steps_trained': 522000, 'load_time_ms': 0.694, 'default': {'kl': 0.013694589026272297, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.236662864685059, 'total_loss': 25.01688003540039, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12344694137573242, 'vf_explained_var': 0.9816955924034119, 'vf_loss': 25.126461029052734}, 'grad_time_ms': 775.417}",3934253,45398.37049865723,-153.29016551966026,cda-server-6,24,-166.39962864199666,{},10440,10.157.146.6,{},-141.56123354539693,0,1200,2025-08-30_03-13-15,435,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756516395,50.0,522000,45398.37049865723,91.79583668708801,435
+523200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92707.667, 'num_steps_sampled': 523200, 'update_time_ms': 2.606, 'num_steps_trained': 523200, 'load_time_ms': 0.696, 'default': {'kl': 0.015608757734298706, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.019153594970703, 'total_loss': 14.81684684753418, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13161876797676086, 'vf_explained_var': 0.9873616099357605, 'vf_loss': 14.932661056518555}, 'grad_time_ms': 775.044}",3934253,45501.78622722626,-153.08923072182094,cda-server-6,24,-166.39962864199666,{},10464,10.157.146.6,{},-141.56123354539693,0,1200,2025-08-30_03-14-59,436,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756516499,50.0,523200,45501.78622722626,103.41572856903076,436
+524400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93646.448, 'num_steps_sampled': 524400, 'update_time_ms': 2.68, 'num_steps_trained': 524400, 'load_time_ms': 0.696, 'default': {'kl': 0.01425144076347351, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.15731430053711, 'total_loss': 30.321533203125, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1165459007024765, 'vf_explained_var': 0.976507306098938, 'vf_loss': 30.423648834228516}, 'grad_time_ms': 775.914}",3934253,45593.028044462204,-153.07520775521334,cda-server-6,24,-166.39962864199666,{},10488,10.157.146.6,{},-147.22449379964385,0,1200,2025-08-30_03-16-30,437,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756516590,50.0,524400,45593.028044462204,91.24181723594666,437
+525600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 91598.038, 'num_steps_sampled': 525600, 'update_time_ms': 2.7, 'num_steps_trained': 525600, 'load_time_ms': 0.683, 'default': {'kl': 0.014275365509092808, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.111166000366211, 'total_loss': 21.981903076171875, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13030636310577393, 'vf_explained_var': 0.9825233817100525, 'vf_loss': 22.097755432128906}, 'grad_time_ms': 775.419}",3934253,45676.183108091354,-152.90180067816212,cda-server-6,24,-167.3678219403425,{},10512,10.157.146.6,{},-142.91137618987028,0,1200,2025-08-30_03-17-53,438,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756516673,50.0,525600,45676.183108091354,83.15506362915039,438
+526800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92189.35, 'num_steps_sampled': 526800, 'update_time_ms': 2.637, 'num_steps_trained': 526800, 'load_time_ms': 0.682, 'default': {'kl': 0.014680023305118084, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.524951934814453, 'total_loss': 16.266441345214844, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12172594666481018, 'vf_explained_var': 0.9866619110107422, 'vf_loss': 16.37330436706543}, 'grad_time_ms': 764.032}",3934253,45784.80823278427,-152.5567861979773,cda-server-6,24,-167.3678219403425,{},10536,10.157.146.6,{},-140.51117984519468,0,1200,2025-08-30_03-19-42,439,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756516782,50.0,526800,45784.80823278427,108.62512469291687,439
+528000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 91884.362, 'num_steps_sampled': 528000, 'update_time_ms': 2.573, 'num_steps_trained': 528000, 'load_time_ms': 0.68, 'default': {'kl': 0.012988438829779625, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.752195358276367, 'total_loss': 14.445332527160645, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12197425961494446, 'vf_explained_var': 0.9885706305503845, 'vf_loss': 14.554155349731445}, 'grad_time_ms': 769.323}",3934253,45865.32222414017,-152.43594000190504,cda-server-6,24,-167.3678219403425,{},10560,10.157.146.6,{},-140.51117984519468,0,1200,2025-08-30_03-21-02,440,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756516862,50.0,528000,45865.32222414017,80.513991355896,440
+529200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92350.812, 'num_steps_sampled': 529200, 'update_time_ms': 2.622, 'num_steps_trained': 529200, 'load_time_ms': 0.68, 'default': {'kl': 0.014562004245817661, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.24899673461914, 'total_loss': 13.435138702392578, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12867429852485657, 'vf_explained_var': 0.9890771508216858, 'vf_loss': 13.549068450927734}, 'grad_time_ms': 775.906}",3934253,45943.03843998909,-152.21569410457278,cda-server-6,24,-167.3678219403425,{},10584,10.157.146.6,{},-140.51117984519468,0,1200,2025-08-30_03-22-20,441,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756516940,50.0,529200,45943.03843998909,77.71621584892273,441
+530400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92189.01, 'num_steps_sampled': 530400, 'update_time_ms': 2.579, 'num_steps_trained': 530400, 'load_time_ms': 0.662, 'default': {'kl': 0.0120732756331563, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.865851402282715, 'total_loss': 20.69765853881836, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11634629219770432, 'vf_explained_var': 0.9846157431602478, 'vf_loss': 20.801780700683594}, 'grad_time_ms': 769.497}",3934253,46021.12298822403,-152.15796697777017,cda-server-6,24,-163.17462601974535,{},10608,10.157.146.6,{},-140.51117984519468,0,1200,2025-08-30_03-23-38,442,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756517018,50.0,530400,46021.12298822403,78.08454823493958,442
+531600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92083.776, 'num_steps_sampled': 531600, 'update_time_ms': 2.534, 'num_steps_trained': 531600, 'load_time_ms': 0.624, 'default': {'kl': 0.012755469419062138, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.95416259765625, 'total_loss': 24.801151275634766, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1164705753326416, 'vf_explained_var': 0.979554295539856, 'vf_loss': 24.904706954956055}, 'grad_time_ms': 776.602}",3934253,46111.20990753174,-152.36619517929225,cda-server-6,24,-165.71090088526697,{},10632,10.157.146.6,{},-149.24255595970118,0,1200,2025-08-30_03-25-08,443,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756517108,50.0,531600,46111.20990753174,90.08691930770874,443
+532800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 88291.327, 'num_steps_sampled': 532800, 'update_time_ms': 2.566, 'num_steps_trained': 532800, 'load_time_ms': 0.622, 'default': {'kl': 0.01175283920019865, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.902250289916992, 'total_loss': 21.50499725341797, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12178131937980652, 'vf_explained_var': 0.9841468334197998, 'vf_loss': 21.614879608154297}, 'grad_time_ms': 754.912}",3934253,46197.119389534,-152.58799610219123,cda-server-6,24,-165.71090088526697,{},10656,10.157.146.6,{},-148.19138459858985,0,1200,2025-08-30_03-26-34,444,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756517194,50.0,532800,46197.119389534,85.9094820022583,444
+534000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 88752.555, 'num_steps_sampled': 534000, 'update_time_ms': 2.491, 'num_steps_trained': 534000, 'load_time_ms': 0.629, 'default': {'kl': 0.014107207767665386, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.85167407989502, 'total_loss': 16.065641403198242, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1293773055076599, 'vf_explained_var': 0.9869747161865234, 'vf_loss': 16.180734634399414}, 'grad_time_ms': 756.331}",3934253,46293.54178571701,-152.4441623789422,cda-server-6,24,-165.71090088526697,{},10680,10.157.146.6,{},-148.19138459858985,0,1200,2025-08-30_03-28-11,445,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756517291,50.0,534000,46293.54178571701,96.42239618301392,445
+535200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 87968.815, 'num_steps_sampled': 535200, 'update_time_ms': 2.489, 'num_steps_trained': 535200, 'load_time_ms': 0.635, 'default': {'kl': 0.014973337762057781, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.602691650390625, 'total_loss': 27.49502182006836, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14575064182281494, 'vf_explained_var': 0.97819584608078, 'vf_loss': 27.6256103515625}, 'grad_time_ms': 764.849}",3934253,46389.205899477005,-152.85829004269831,cda-server-6,24,-166.8271505938669,{},10704,10.157.146.6,{},-139.14836065978687,0,1200,2025-08-30_03-29-46,446,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756517386,50.0,535200,46389.205899477005,95.6641137599945,446
+536400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 87626.363, 'num_steps_sampled': 536400, 'update_time_ms': 2.417, 'num_steps_trained': 536400, 'load_time_ms': 0.643, 'default': {'kl': 0.013655421324074268, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.15749740600586, 'total_loss': 25.52581787109375, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12191127240657806, 'vf_explained_var': 0.9806229472160339, 'vf_loss': 25.63390350341797}, 'grad_time_ms': 763.984}",3934253,46477.0133357048,-152.46147072903958,cda-server-6,24,-166.8271505938669,{},10728,10.157.146.6,{},-139.14836065978687,0,1200,2025-08-30_03-31-14,447,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756517474,50.0,536400,46477.0133357048,87.80743622779846,447
+537600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 89246.139, 'num_steps_sampled': 537600, 'update_time_ms': 2.385, 'num_steps_trained': 537600, 'load_time_ms': 0.627, 'default': {'kl': 0.01547261606901884, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.981388092041016, 'total_loss': 20.75351333618164, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12472319602966309, 'vf_explained_var': 0.9833012819290161, 'vf_loss': 20.86256980895996}, 'grad_time_ms': 766.874}",3934253,46576.39440321922,-152.82945239896245,cda-server-6,24,-169.23393279477395,{},10752,10.157.146.6,{},-135.55991159320467,0,1200,2025-08-30_03-32-54,448,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756517574,50.0,537600,46576.39440321922,99.38106751441956,448
+538800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 86122.555, 'num_steps_sampled': 538800, 'update_time_ms': 2.412, 'num_steps_trained': 538800, 'load_time_ms': 0.634, 'default': {'kl': 0.013270992785692215, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.998639106750488, 'total_loss': 17.40472412109375, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12813928723335266, 'vf_explained_var': 0.9874011278152466, 'vf_loss': 17.519426345825195}, 'grad_time_ms': 779.815}",3934253,46653.91430091858,-152.52047795142636,cda-server-6,24,-169.23393279477395,{},10776,10.157.146.6,{},-135.55991159320467,0,1200,2025-08-30_03-34-11,449,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756517651,50.0,538800,46653.91430091858,77.51989769935608,449
+540000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 84794.443, 'num_steps_sampled': 540000, 'update_time_ms': 2.416, 'num_steps_trained': 540000, 'load_time_ms': 0.635, 'default': {'kl': 0.013216478750109673, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.117257118225098, 'total_loss': 21.370153427124023, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13916881382465363, 'vf_explained_var': 0.9849511384963989, 'vf_loss': 21.49593734741211}, 'grad_time_ms': 779.671}",3934253,46721.145233392715,-152.30260405709933,cda-server-6,24,-169.23393279477395,{},10800,10.157.146.6,{},-135.55991159320467,0,1200,2025-08-30_03-35-18,450,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756517718,50.0,540000,46721.145233392715,67.23093247413635,450
+541200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 86414.3, 'num_steps_sampled': 541200, 'update_time_ms': 2.406, 'num_steps_trained': 541200, 'load_time_ms': 0.637, 'default': {'kl': 0.011747285723686218, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.846776962280273, 'total_loss': 35.44596862792969, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12402357161045074, 'vf_explained_var': 0.97218257188797, 'vf_loss': 35.558101654052734}, 'grad_time_ms': 771.091}",3934253,46814.974937200546,-152.2823230757062,cda-server-6,24,-169.23393279477395,{},10824,10.157.146.6,{},-135.55991159320467,0,1200,2025-08-30_03-36-52,451,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756517812,50.0,541200,46814.974937200546,93.82970380783081,451
+542400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 88969.508, 'num_steps_sampled': 542400, 'update_time_ms': 2.502, 'num_steps_trained': 542400, 'load_time_ms': 0.641, 'default': {'kl': 0.014603732153773308, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.174540519714355, 'total_loss': 17.92264747619629, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1435505747795105, 'vf_explained_var': 0.9859344959259033, 'vf_loss': 18.051414489746094}, 'grad_time_ms': 775.126}",3934253,46918.65322470665,-152.32697364347348,cda-server-6,24,-169.23393279477395,{},10848,10.157.146.6,{},-140.8153902235786,0,1200,2025-08-30_03-38-36,452,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756517916,50.0,542400,46918.65322470665,103.67828750610352,452
+543600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 89585.511, 'num_steps_sampled': 543600, 'update_time_ms': 2.542, 'num_steps_trained': 543600, 'load_time_ms': 0.653, 'default': {'kl': 0.014241022989153862, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.966078758239746, 'total_loss': 21.33045196533203, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12030242383480072, 'vf_explained_var': 0.9839779734611511, 'vf_loss': 21.43633460998535}, 'grad_time_ms': 772.482}",3934253,47014.87502336502,-152.05236692518466,cda-server-6,24,-166.94974357746918,{},10872,10.157.146.6,{},-140.8153902235786,0,1200,2025-08-30_03-40-12,453,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756518012,50.0,543600,47014.87502336502,96.22179865837097,453
+544800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 89867.981, 'num_steps_sampled': 544800, 'update_time_ms': 2.514, 'num_steps_trained': 544800, 'load_time_ms': 0.654, 'default': {'kl': 0.013131268322467804, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.861820220947266, 'total_loss': 20.30666160583496, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1259278655052185, 'vf_explained_var': 0.9839560389518738, 'vf_loss': 20.419294357299805}, 'grad_time_ms': 781.308}",3934253,47103.69718146324,-152.21997083426987,cda-server-6,24,-167.6812075607711,{},10896,10.157.146.6,{},-143.9082405590833,0,1200,2025-08-30_03-41-41,454,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756518101,50.0,544800,47103.69718146324,88.82215809822083,454
+546000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 89019.008, 'num_steps_sampled': 546000, 'update_time_ms': 2.574, 'num_steps_trained': 546000, 'load_time_ms': 0.646, 'default': {'kl': 0.013202676549553871, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.931380271911621, 'total_loss': 20.238691329956055, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12394557893276215, 'vf_explained_var': 0.9842751026153564, 'vf_loss': 20.349267959594727}, 'grad_time_ms': 776.822}",3934253,47191.58376741409,-152.22845068858172,cda-server-6,24,-167.6812075607711,{},10920,10.157.146.6,{},-143.9082405590833,0,1200,2025-08-30_03-43-09,455,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756518189,50.0,546000,47191.58376741409,87.88658595085144,455
+547200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 87597.737, 'num_steps_sampled': 547200, 'update_time_ms': 2.56, 'num_steps_trained': 547200, 'load_time_ms': 0.645, 'default': {'kl': 0.013700922951102257, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.581720352172852, 'total_loss': 15.576580047607422, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11471442133188248, 'vf_explained_var': 0.9878559112548828, 'vf_loss': 15.677420616149902}, 'grad_time_ms': 778.745}",3934253,47273.0536134243,-151.89341081545788,cda-server-6,24,-167.6812075607711,{},10944,10.157.146.6,{},-143.9082405590833,0,1200,2025-08-30_03-44-30,456,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756518270,50.0,547200,47273.0536134243,81.46984601020813,456
+548400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 87216.144, 'num_steps_sampled': 548400, 'update_time_ms': 2.516, 'num_steps_trained': 548400, 'load_time_ms': 0.642, 'default': {'kl': 0.01370406523346901, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.93803596496582, 'total_loss': 12.964447975158691, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13340796530246735, 'vf_explained_var': 0.9900917410850525, 'vf_loss': 13.083980560302734}, 'grad_time_ms': 780.955}",3934253,47357.06767082214,-152.15835333609377,cda-server-6,24,-167.6812075607711,{},10968,10.157.146.6,{},-144.85171769932617,0,1200,2025-08-30_03-45-54,457,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756518354,50.0,548400,47357.06767082214,84.01405739784241,457
+549600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 85739.61, 'num_steps_sampled': 549600, 'update_time_ms': 2.575, 'num_steps_trained': 549600, 'load_time_ms': 0.634, 'default': {'kl': 0.014458566904067993, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.13646411895752, 'total_loss': 24.75263214111328, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1529289335012436, 'vf_explained_var': 0.9856938123703003, 'vf_loss': 24.89092254638672}, 'grad_time_ms': 787.371}",3934253,47441.748109817505,-152.45268015512374,cda-server-6,24,-163.47316165078425,{},10992,10.157.146.6,{},-141.83832716227093,0,1200,2025-08-30_03-47-19,458,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756518439,50.0,549600,47441.748109817505,84.68043899536133,458
+550800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 86245.352, 'num_steps_sampled': 550800, 'update_time_ms': 2.582, 'num_steps_trained': 550800, 'load_time_ms': 0.629, 'default': {'kl': 0.013391264714300632, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.823755264282227, 'total_loss': 14.624773025512695, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13322040438652039, 'vf_explained_var': 0.9883681535720825, 'vf_loss': 14.744434356689453}, 'grad_time_ms': 775.532}",3934253,47524.207596063614,-152.56532788778122,cda-server-6,24,-167.05595446037233,{},11016,10.157.146.6,{},-141.83832716227093,0,1200,2025-08-30_03-48-41,459,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756518521,50.0,550800,47524.207596063614,82.45948624610901,459
+552000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 87682.644, 'num_steps_sampled': 552000, 'update_time_ms': 2.574, 'num_steps_trained': 552000, 'load_time_ms': 0.628, 'default': {'kl': 0.013323888182640076, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.730342864990234, 'total_loss': 11.686019897460938, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12599381804466248, 'vf_explained_var': 0.9910435080528259, 'vf_loss': 11.798521995544434}, 'grad_time_ms': 762.306}",3934253,47605.679342508316,-152.69599782071492,cda-server-6,24,-167.15027913277754,{},11040,10.157.146.6,{},-141.83832716227093,0,1200,2025-08-30_03-50-03,460,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756518603,50.0,552000,47605.679342508316,81.47174644470215,460
+553200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 85658.694, 'num_steps_sampled': 553200, 'update_time_ms': 2.538, 'num_steps_trained': 553200, 'load_time_ms': 0.629, 'default': {'kl': 0.013982264325022697, 'cur_lr': 4.999999873689376e-05, 'entropy': 9.205830574035645, 'total_loss': 15.154325485229492, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14719703793525696, 'vf_explained_var': 0.9879705905914307, 'vf_loss': 15.28736400604248}, 'grad_time_ms': 771.098}",3934253,47679.35620856285,-152.83043235107942,cda-server-6,24,-167.15027913277754,{},11064,10.157.146.6,{},-141.83832716227093,0,1200,2025-08-30_03-51-17,461,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756518677,50.0,553200,47679.35620856285,73.67686605453491,461
+554400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 83275.878, 'num_steps_sampled': 554400, 'update_time_ms': 2.468, 'num_steps_trained': 554400, 'load_time_ms': 0.626, 'default': {'kl': 0.012878802604973316, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.50555419921875, 'total_loss': 23.786239624023438, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.10327385365962982, 'vf_explained_var': 0.9826846718788147, 'vf_loss': 23.876474380493164}, 'grad_time_ms': 775.122}",3934253,47759.24594569206,-152.7505983426883,cda-server-6,24,-167.15027913277754,{},11088,10.157.146.6,{},-142.76403805622115,0,1200,2025-08-30_03-52-37,462,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756518757,50.0,554400,47759.24594569206,79.88973712921143,462
+555600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 82794.033, 'num_steps_sampled': 555600, 'update_time_ms': 2.455, 'num_steps_trained': 555600, 'load_time_ms': 0.617, 'default': {'kl': 0.015895912423729897, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.813871383666992, 'total_loss': 14.076557159423828, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13516120612621307, 'vf_explained_var': 0.9894052147865295, 'vf_loss': 14.195623397827148}, 'grad_time_ms': 782.395}",3934253,47850.721262931824,-152.2892577230175,cda-server-6,24,-167.15027913277754,{},11112,10.157.146.6,{},-141.34770473592064,0,1200,2025-08-30_03-54-08,463,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756518848,50.0,555600,47850.721262931824,91.47531723976135,463
+556800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 82909.562, 'num_steps_sampled': 556800, 'update_time_ms': 2.463, 'num_steps_trained': 556800, 'load_time_ms': 0.611, 'default': {'kl': 0.011852155439555645, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.566987991333008, 'total_loss': 18.03278350830078, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12470168620347977, 'vf_explained_var': 0.9847335815429688, 'vf_loss': 18.14548683166504}, 'grad_time_ms': 789.835}",3934253,47940.77296257019,-152.30313201018302,cda-server-6,24,-167.06550295241124,{},11136,10.157.146.6,{},-141.34770473592064,0,1200,2025-08-30_03-55-38,464,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756518938,50.0,556800,47940.77296257019,90.0516996383667,464
+558000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 84216.927, 'num_steps_sampled': 558000, 'update_time_ms': 2.396, 'num_steps_trained': 558000, 'load_time_ms': 0.608, 'default': {'kl': 0.012260083109140396, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.692615509033203, 'total_loss': 18.573740005493164, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11373353004455566, 'vf_explained_var': 0.9856255650520325, 'vf_loss': 18.675060272216797}, 'grad_time_ms': 791.581}",3934253,48041.7510638237,-152.37701671887567,cda-server-6,24,-167.06550295241124,{},11160,10.157.146.6,{},-141.3475296198611,0,1200,2025-08-30_03-57-19,465,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756519039,50.0,558000,48041.7510638237,100.97810125350952,465
+559200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 86656.837, 'num_steps_sampled': 559200, 'update_time_ms': 2.46, 'num_steps_trained': 559200, 'load_time_ms': 0.605, 'default': {'kl': 0.012025618925690651, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.53043270111084, 'total_loss': 22.949411392211914, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.09604374319314957, 'vf_explained_var': 0.9813482761383057, 'vf_loss': 23.03327751159668}, 'grad_time_ms': 780.629}",3934253,48147.51311826706,-152.1334569143758,cda-server-6,24,-165.1671981814466,{},11184,10.157.146.6,{},-141.3475296198611,0,1200,2025-08-30_03-59-05,466,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756519145,50.0,559200,48147.51311826706,105.76205444335938,466
+560400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 84268.461, 'num_steps_sampled': 560400, 'update_time_ms': 2.471, 'num_steps_trained': 560400, 'load_time_ms': 0.596, 'default': {'kl': 0.013515968807041645, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.63956069946289, 'total_loss': 35.26797103881836, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1302550584077835, 'vf_explained_var': 0.9756333827972412, 'vf_loss': 35.38453674316406}, 'grad_time_ms': 772.352}",3934253,48207.5612487793,-152.34913469895858,cda-server-6,24,-165.1671981814466,{},11208,10.157.146.6,{},-141.3475296198611,0,1200,2025-08-30_04-00-05,467,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756519205,50.0,560400,48207.5612487793,60.04813051223755,467
+561600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 86247.813, 'num_steps_sampled': 561600, 'update_time_ms': 2.396, 'num_steps_trained': 561600, 'load_time_ms': 0.616, 'default': {'kl': 0.01517908088862896, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.516483306884766, 'total_loss': 25.675064086914062, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13278795778751373, 'vf_explained_var': 0.9793300628662109, 'vf_loss': 25.79248046875}, 'grad_time_ms': 735.951}",3934253,48311.67094898224,-152.33652022821164,cda-server-6,24,-171.78358159200687,{},11232,10.157.146.6,{},-141.3475296198611,0,1200,2025-08-30_04-01-49,468,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756519309,50.0,561600,48311.67094898224,104.1097002029419,468
+562800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 85308.638, 'num_steps_sampled': 562800, 'update_time_ms': 2.412, 'num_steps_trained': 562800, 'load_time_ms': 0.631, 'default': {'kl': 0.014354195445775986, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.716632843017578, 'total_loss': 18.791744232177734, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13407041132450104, 'vf_explained_var': 0.9842908382415771, 'vf_loss': 18.911279678344727}, 'grad_time_ms': 716.768}",3934253,48384.54709339142,-152.1603091373918,cda-server-6,24,-171.78358159200687,{},11256,10.157.146.6,{},-142.66110503693395,0,1200,2025-08-30_04-03-02,469,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756519382,50.0,562800,48384.54709339142,72.87614440917969,469
+564000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 85557.386, 'num_steps_sampled': 564000, 'update_time_ms': 2.487, 'num_steps_trained': 564000, 'load_time_ms': 0.629, 'default': {'kl': 0.012945041991770267, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.680624008178711, 'total_loss': 14.99290657043457, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1172991693019867, 'vf_explained_var': 0.9875587821006775, 'vf_loss': 15.09709644317627}, 'grad_time_ms': 727.509}",3934253,48468.61529612541,-152.16666849056782,cda-server-6,24,-171.78358159200687,{},11280,10.157.146.6,{},-142.66110503693395,0,1200,2025-08-30_04-04-26,470,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756519466,50.0,564000,48468.61529612541,84.06820273399353,470
+565200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 84829.604, 'num_steps_sampled': 565200, 'update_time_ms': 2.513, 'num_steps_trained': 565200, 'load_time_ms': 0.628, 'default': {'kl': 0.013851411640644073, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.776378631591797, 'total_loss': 18.787683486938477, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12572117149829865, 'vf_explained_var': 0.9839603900909424, 'vf_loss': 18.89937973022461}, 'grad_time_ms': 720.516}",3934253,48534.94466614723,-151.8701079268161,cda-server-6,24,-171.78358159200687,{},11304,10.157.146.6,{},-140.12124004568955,0,1200,2025-08-30_04-05-32,471,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756519532,50.0,565200,48534.94466614723,66.32937002182007,471
+566400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 87558.517, 'num_steps_sampled': 566400, 'update_time_ms': 2.515, 'num_steps_trained': 566400, 'load_time_ms': 0.633, 'default': {'kl': 0.014027898199856281, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.957261085510254, 'total_loss': 13.951068878173828, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12973517179489136, 'vf_explained_var': 0.9884995222091675, 'vf_loss': 14.066600799560547}, 'grad_time_ms': 712.553}",3934253,48642.04382133484,-151.58204971842872,cda-server-6,24,-163.73309523071484,{},11328,10.157.146.6,{},-140.12124004568955,0,1200,2025-08-30_04-07-20,472,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756519640,50.0,566400,48642.04382133484,107.09915518760681,472
+567600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 89974.294, 'num_steps_sampled': 567600, 'update_time_ms': 2.496, 'num_steps_trained': 567600, 'load_time_ms': 0.64, 'default': {'kl': 0.013087683357298374, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.811269760131836, 'total_loss': 18.32082176208496, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12677785754203796, 'vf_explained_var': 0.9860605597496033, 'vf_loss': 18.43434715270996}, 'grad_time_ms': 711.183}",3934253,48757.663786411285,-151.90309347607905,cda-server-6,24,-172.55473715921238,{},11352,10.157.146.6,{},-140.12124004568955,0,1200,2025-08-30_04-09-15,473,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756519755,50.0,567600,48757.663786411285,115.61996507644653,473
+568800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 88965.22, 'num_steps_sampled': 568800, 'update_time_ms': 2.509, 'num_steps_trained': 568800, 'load_time_ms': 0.644, 'default': {'kl': 0.012866493314504623, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.510658264160156, 'total_loss': 26.638233184814453, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12175793200731277, 'vf_explained_var': 0.9810941219329834, 'vf_loss': 26.746965408325195}, 'grad_time_ms': 709.255}",3934253,48837.60676407814,-152.0306529598313,cda-server-6,24,-172.55473715921238,{},11376,10.157.146.6,{},-140.12124004568955,0,1200,2025-08-30_04-10-35,474,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756519835,50.0,568800,48837.60676407814,79.94297766685486,474
+570000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 90873.243, 'num_steps_sampled': 570000, 'update_time_ms': 2.543, 'num_steps_trained': 570000, 'load_time_ms': 0.644, 'default': {'kl': 0.014776766300201416, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.7134370803833, 'total_loss': 16.30389976501465, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12294605374336243, 'vf_explained_var': 0.98764967918396, 'vf_loss': 16.411884307861328}, 'grad_time_ms': 703.627}",3934253,48957.60911512375,-152.09120920384555,cda-server-6,24,-172.55473715921238,{},11400,10.157.146.6,{},-139.91291809163678,0,1200,2025-08-30_04-12-35,475,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756519955,50.0,570000,48957.60911512375,120.00235104560852,475
+571200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 90429.236, 'num_steps_sampled': 571200, 'update_time_ms': 2.448, 'num_steps_trained': 571200, 'load_time_ms': 0.642, 'default': {'kl': 0.01419066358357668, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.54990005493164, 'total_loss': 25.738264083862305, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1428092122077942, 'vf_explained_var': 0.9800757169723511, 'vf_loss': 25.866703033447266}, 'grad_time_ms': 706.412}",3934253,49058.956107616425,-152.22941988879649,cda-server-6,24,-172.55473715921238,{},11424,10.157.146.6,{},-136.4136753827509,0,1200,2025-08-30_04-14-17,476,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756520057,50.0,571200,49058.956107616425,101.34699249267578,476
+572400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93479.099, 'num_steps_sampled': 572400, 'update_time_ms': 2.507, 'num_steps_trained': 572400, 'load_time_ms': 0.642, 'default': {'kl': 0.013474556617438793, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.342805862426758, 'total_loss': 14.449737548828125, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11618823558092117, 'vf_explained_var': 0.9880461096763611, 'vf_loss': 14.55228328704834}, 'grad_time_ms': 705.134}",3934253,49149.48967766762,-151.62238611297823,cda-server-6,24,-164.26034009197124,{},11448,10.157.146.6,{},-136.4136753827509,0,1200,2025-08-30_04-15-47,477,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756520147,50.0,572400,49149.48967766762,90.53357005119324,477
+573600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93793.331, 'num_steps_sampled': 573600, 'update_time_ms': 2.49, 'num_steps_trained': 573600, 'load_time_ms': 0.626, 'default': {'kl': 0.01338463556021452, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.503240585327148, 'total_loss': 9.148031234741211, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13191653788089752, 'vf_explained_var': 0.9921321868896484, 'vf_loss': 9.266396522521973}, 'grad_time_ms': 741.434}",3934253,49257.10363698006,-151.4530620575066,cda-server-6,24,-164.26034009197124,{},11472,10.157.146.6,{},-135.57837804089226,0,1200,2025-08-30_04-17-35,478,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756520255,50.0,573600,49257.10363698006,107.61395931243896,478
+574800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 97189.048, 'num_steps_sampled': 574800, 'update_time_ms': 2.439, 'num_steps_trained': 574800, 'load_time_ms': 0.615, 'default': {'kl': 0.011861172504723072, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.364619255065918, 'total_loss': 19.182300567626953, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.10482161492109299, 'vf_explained_var': 0.9860363006591797, 'vf_loss': 19.27511215209961}, 'grad_time_ms': 755.483}",3934253,49364.076297044754,-151.58091026932988,cda-server-6,24,-166.55116997370476,{},11496,10.157.146.6,{},-135.57837804089226,0,1200,2025-08-30_04-19-22,479,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756520362,50.0,574800,49364.076297044754,106.97266006469727,479
+576000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 98683.422, 'num_steps_sampled': 576000, 'update_time_ms': 2.427, 'num_steps_trained': 576000, 'load_time_ms': 0.622, 'default': {'kl': 0.01613686792552471, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.356700897216797, 'total_loss': 24.950077056884766, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12751537561416626, 'vf_explained_var': 0.9812971949577332, 'vf_loss': 25.06125259399414}, 'grad_time_ms': 730.311}",3934253,49462.835492134094,-151.87481690855805,cda-server-6,24,-166.55116997370476,{},11520,10.157.146.6,{},-135.57837804089226,0,1200,2025-08-30_04-21-00,480,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756520460,50.0,576000,49462.835492134094,98.75919508934021,480
+577200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 100784.428, 'num_steps_sampled': 577200, 'update_time_ms': 2.385, 'num_steps_trained': 577200, 'load_time_ms': 0.616, 'default': {'kl': 0.012163571082055569, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.392812728881836, 'total_loss': 25.000938415527344, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12458840012550354, 'vf_explained_var': 0.9825544357299805, 'vf_loss': 25.11321258544922}, 'grad_time_ms': 737.015}",3934253,49550.242958545685,-151.85538016827485,cda-server-6,24,-166.55116997370476,{},11544,10.157.146.6,{},-135.57837804089226,0,1200,2025-08-30_04-22-28,481,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756520548,50.0,577200,49550.242958545685,87.40746641159058,481
+578400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 100695.819, 'num_steps_sampled': 578400, 'update_time_ms': 2.41, 'num_steps_trained': 578400, 'load_time_ms': 0.609, 'default': {'kl': 0.013876695185899734, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.447154998779297, 'total_loss': 19.025917053222656, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12835945188999176, 'vf_explained_var': 0.9851945042610168, 'vf_loss': 19.14022445678711}, 'grad_time_ms': 737.976}",3934253,49656.465804338455,-152.47601961931696,cda-server-6,24,-168.89862092308448,{},11568,10.157.146.6,{},-145.96097054937832,0,1200,2025-08-30_04-24-14,482,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756520654,50.0,578400,49656.465804338455,106.22284579277039,482
+579600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 98965.575, 'num_steps_sampled': 579600, 'update_time_ms': 2.424, 'num_steps_trained': 579600, 'load_time_ms': 0.602, 'default': {'kl': 0.012843552976846695, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.421581268310547, 'total_loss': 28.655893325805664, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1217130795121193, 'vf_explained_var': 0.981257438659668, 'vf_loss': 28.764604568481445}, 'grad_time_ms': 737.339}",3934253,49754.775631427765,-152.4899519121384,cda-server-6,24,-168.89862092308448,{},11592,10.157.146.6,{},-145.96097054937832,0,1200,2025-08-30_04-25-53,483,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756520753,50.0,579600,49754.775631427765,98.30982708930969,483
+580800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 99783.682, 'num_steps_sampled': 580800, 'update_time_ms': 2.383, 'num_steps_trained': 580800, 'load_time_ms': 0.601, 'default': {'kl': 0.01166777778416872, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.177492141723633, 'total_loss': 34.3708610534668, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11253535747528076, 'vf_explained_var': 0.9757702350616455, 'vf_loss': 34.47157669067383}, 'grad_time_ms': 733.529}",3934253,49842.862073898315,-152.56202090243394,cda-server-6,24,-168.89862092308448,{},11616,10.157.146.6,{},-139.9760204444557,0,1200,2025-08-30_04-27-21,484,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756520841,50.0,580800,49842.862073898315,88.08644247055054,484
+582000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 98990.706, 'num_steps_sampled': 582000, 'update_time_ms': 2.384, 'num_steps_trained': 582000, 'load_time_ms': 0.606, 'default': {'kl': 0.013997341506183147, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.29512882232666, 'total_loss': 22.684200286865234, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12494519352912903, 'vf_explained_var': 0.9818886518478394, 'vf_loss': 22.79497528076172}, 'grad_time_ms': 736.962}",3934253,49954.96886229515,-152.57537375459523,cda-server-6,24,-168.89862092308448,{},11640,10.157.146.6,{},-139.9760204444557,0,1200,2025-08-30_04-29-13,485,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756520953,50.0,582000,49954.96886229515,112.10678839683533,485
+583200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 96576.534, 'num_steps_sampled': 583200, 'update_time_ms': 2.437, 'num_steps_trained': 583200, 'load_time_ms': 0.607, 'default': {'kl': 0.013433815911412239, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.316619873046875, 'total_loss': 12.3467378616333, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13029375672340393, 'vf_explained_var': 0.9899523258209229, 'vf_loss': 12.46342945098877}, 'grad_time_ms': 731.844}",3934253,50032.12375879288,-152.43522240052872,cda-server-6,24,-166.16920054641602,{},11664,10.157.146.6,{},-139.9760204444557,0,1200,2025-08-30_04-30-30,486,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756521030,50.0,583200,50032.12375879288,77.15489649772644,486
+584400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 97872.595, 'num_steps_sampled': 584400, 'update_time_ms': 2.376, 'num_steps_trained': 584400, 'load_time_ms': 0.613, 'default': {'kl': 0.01336054690182209, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.06357479095459, 'total_loss': 14.853938102722168, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11478282511234283, 'vf_explained_var': 0.9875580668449402, 'vf_loss': 14.955193519592285}, 'grad_time_ms': 744.769}",3934253,50135.74773335457,-152.2744356165756,cda-server-6,24,-166.16920054641602,{},11688,10.157.146.6,{},-139.9760204444557,0,1200,2025-08-30_04-32-14,487,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756521134,50.0,584400,50135.74773335457,103.62397456169128,487
+585600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93514.198, 'num_steps_sampled': 585600, 'update_time_ms': 2.391, 'num_steps_trained': 585600, 'load_time_ms': 0.623, 'default': {'kl': 0.012713328003883362, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.406123161315918, 'total_loss': 9.236263275146484, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13359849154949188, 'vf_explained_var': 0.9921019673347473, 'vf_loss': 9.356989860534668}, 'grad_time_ms': 744.189}",3934253,50199.77256655693,-151.7673940732708,cda-server-6,24,-163.00463867105913,{},11712,10.157.146.6,{},-141.86458163390066,0,1200,2025-08-30_04-33-18,488,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756521198,50.0,585600,50199.77256655693,64.02483320236206,488
+586800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 90967.011, 'num_steps_sampled': 586800, 'update_time_ms': 2.398, 'num_steps_trained': 586800, 'load_time_ms': 0.616, 'default': {'kl': 0.01239168830215931, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.362218856811523, 'total_loss': 16.686716079711914, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13526107370853424, 'vf_explained_var': 0.9881305694580078, 'vf_loss': 16.809431076049805}, 'grad_time_ms': 760.819}",3934253,50281.43963265419,-151.5349348740325,cda-server-6,24,-162.58932785547924,{},11736,10.157.146.6,{},-141.86458163390066,0,1200,2025-08-30_04-34-39,489,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756521279,50.0,586800,50281.43963265419,81.66706609725952,489
+588000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92896.958, 'num_steps_sampled': 588000, 'update_time_ms': 2.35, 'num_steps_trained': 588000, 'load_time_ms': 0.613, 'default': {'kl': 0.012361129745841026, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.23472785949707, 'total_loss': 17.43859100341797, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.10937649011611938, 'vf_explained_var': 0.9870246052742004, 'vf_loss': 17.53545379638672}, 'grad_time_ms': 782.39}",3934253,50399.713121175766,-151.58134547998327,cda-server-6,24,-166.551374223564,{},11760,10.157.146.6,{},-141.86458163390066,0,1200,2025-08-30_04-36-38,490,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756521398,50.0,588000,50399.713121175766,118.27348852157593,490
+589200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92667.249, 'num_steps_sampled': 589200, 'update_time_ms': 2.376, 'num_steps_trained': 589200, 'load_time_ms': 0.62, 'default': {'kl': 0.013915492221713066, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.18729019165039, 'total_loss': 21.70315170288086, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11174440383911133, 'vf_explained_var': 0.9853160381317139, 'vf_loss': 21.80080795288086}, 'grad_time_ms': 755.628}",3934253,50484.555617809296,-151.50221318432668,cda-server-6,24,-166.551374223564,{},11784,10.157.146.6,{},-141.86458163390066,0,1200,2025-08-30_04-38-02,491,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756521482,50.0,589200,50484.555617809296,84.84249663352966,491
+590400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92900.83, 'num_steps_sampled': 590400, 'update_time_ms': 2.378, 'num_steps_trained': 590400, 'load_time_ms': 0.625, 'default': {'kl': 0.014017928391695023, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.306546211242676, 'total_loss': 17.22860336303711, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13493818044662476, 'vf_explained_var': 0.9866151809692383, 'vf_loss': 17.349348068237305}, 'grad_time_ms': 753.323}",3934253,50593.09105873108,-151.9797859047839,cda-server-6,24,-166.551374223564,{},11808,10.157.146.6,{},-142.82675790269593,0,1200,2025-08-30_04-39-51,492,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756521591,50.0,590400,50593.09105873108,108.53544092178345,492
+591600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 91710.711, 'num_steps_sampled': 591600, 'update_time_ms': 2.399, 'num_steps_trained': 591600, 'load_time_ms': 0.626, 'default': {'kl': 0.014049972407519817, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.360414505004883, 'total_loss': 17.243886947631836, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13506677746772766, 'vf_explained_var': 0.9864630103111267, 'vf_loss': 17.364728927612305}, 'grad_time_ms': 739.928}",3934253,50679.36665248871,-152.28057967114154,cda-server-6,24,-166.551374223564,{},11832,10.157.146.6,{},-142.94920052597337,0,1200,2025-08-30_04-41-17,493,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756521677,50.0,591600,50679.36665248871,86.2755937576294,493
+592800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94009.661, 'num_steps_sampled': 592800, 'update_time_ms': 2.403, 'num_steps_trained': 592800, 'load_time_ms': 0.626, 'default': {'kl': 0.012254327535629272, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.261372566223145, 'total_loss': 24.526485443115234, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11333407461643219, 'vf_explained_var': 0.98112553358078, 'vf_loss': 24.627412796020508}, 'grad_time_ms': 745.345}",3934253,50790.49547314644,-152.2664411603055,cda-server-6,24,-165.55358103574406,{},11856,10.157.146.6,{},-142.94920052597337,0,1200,2025-08-30_04-43-08,494,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756521788,50.0,592800,50790.49547314644,111.1288206577301,494
+594000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93719.151, 'num_steps_sampled': 594000, 'update_time_ms': 2.353, 'num_steps_trained': 594000, 'load_time_ms': 0.623, 'default': {'kl': 0.010306322015821934, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.569117546081543, 'total_loss': 38.06904983520508, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12895271182060242, 'vf_explained_var': 0.9726418256759644, 'vf_loss': 38.18756866455078}, 'grad_time_ms': 743.518}",3934253,50899.678308963776,-152.4053046281917,cda-server-6,24,-179.23954249428897,{},11880,10.157.146.6,{},-142.94920052597337,0,1200,2025-08-30_04-44-58,495,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756521898,50.0,594000,50899.678308963776,109.18283581733704,495
+595200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 95340.754, 'num_steps_sampled': 595200, 'update_time_ms': 2.369, 'num_steps_trained': 595200, 'load_time_ms': 0.622, 'default': {'kl': 0.014301293529570103, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.337230682373047, 'total_loss': 23.737653732299805, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11855091154575348, 'vf_explained_var': 0.9828669428825378, 'vf_loss': 23.841726303100586}, 'grad_time_ms': 753.814}",3934253,50993.152535676956,-152.48441120424198,cda-server-6,24,-179.23954249428897,{},11904,10.157.146.6,{},-143.24911084280703,0,1200,2025-08-30_04-46-31,496,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756521991,50.0,595200,50993.152535676956,93.47422671318054,496
+596400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93168.107, 'num_steps_sampled': 596400, 'update_time_ms': 2.414, 'num_steps_trained': 596400, 'load_time_ms': 0.622, 'default': {'kl': 0.011234988458454609, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.054550170898438, 'total_loss': 32.349212646484375, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.10083127021789551, 'vf_explained_var': 0.9761930108070374, 'vf_loss': 32.43867111206055}, 'grad_time_ms': 745.001}",3934253,51074.96179127693,-152.2923890436924,cda-server-6,24,-179.23954249428897,{},11928,10.157.146.6,{},-143.24911084280703,0,1200,2025-08-30_04-47-53,497,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756522073,50.0,596400,51074.96179127693,81.80925559997559,497
+597600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 96494.6, 'num_steps_sampled': 597600, 'update_time_ms': 2.411, 'num_steps_trained': 597600, 'load_time_ms': 0.606, 'default': {'kl': 0.013591241091489792, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.476066589355469, 'total_loss': 22.050931930541992, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13895396888256073, 'vf_explained_var': 0.9850466847419739, 'vf_loss': 22.176122665405273}, 'grad_time_ms': 745.967}",3934253,51172.260909318924,-152.56113232132276,cda-server-6,24,-179.23954249428897,{},11952,10.157.146.6,{},-143.24911084280703,0,1200,2025-08-30_04-49-30,498,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756522170,50.0,597600,51172.260909318924,97.29911804199219,498
+598800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 97191.043, 'num_steps_sampled': 598800, 'update_time_ms': 2.462, 'num_steps_trained': 598800, 'load_time_ms': 0.607, 'default': {'kl': 0.01398612093180418, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.27603530883789, 'total_loss': 11.802041053771973, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1316160410642624, 'vf_explained_var': 0.9910869598388672, 'vf_loss': 11.919496536254883}, 'grad_time_ms': 742.414}",3934253,51260.85743522644,-152.5133723821843,cda-server-6,24,-179.23954249428897,{},11976,10.157.146.6,{},-141.76588621311848,0,1200,2025-08-30_04-50-59,499,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756522259,50.0,598800,51260.85743522644,88.59652590751648,499
+600000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 95862.436, 'num_steps_sampled': 600000, 'update_time_ms': 2.474, 'num_steps_trained': 600000, 'load_time_ms': 0.618, 'default': {'kl': 0.01472895685583353, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.435802459716797, 'total_loss': 18.317811965942383, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13494382798671722, 'vf_explained_var': 0.987172544002533, 'vf_loss': 18.437843322753906}, 'grad_time_ms': 734.813}",3934253,51365.77009224892,-152.01744841803412,cda-server-6,24,-168.45596695942382,{},12000,10.157.146.6,{},-141.76588621311848,0,1200,2025-08-30_04-52-44,500,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756522364,50.0,600000,51365.77009224892,104.9126570224762,500
+601200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 95968.686, 'num_steps_sampled': 601200, 'update_time_ms': 2.619, 'num_steps_trained': 601200, 'load_time_ms': 0.609, 'default': {'kl': 0.012464533559978008, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.986090660095215, 'total_loss': 15.645466804504395, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12583625316619873, 'vf_explained_var': 0.9872433543205261, 'vf_loss': 15.758684158325195}, 'grad_time_ms': 736.879}",3934253,51451.69588470459,-152.01037099071374,cda-server-6,24,-168.45596695942382,{},12024,10.157.146.6,{},-141.76588621311848,0,1200,2025-08-30_04-54-10,501,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756522450,50.0,601200,51451.69588470459,85.92579245567322,501
+602400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93102.896, 'num_steps_sampled': 602400, 'update_time_ms': 2.611, 'num_steps_trained': 602400, 'load_time_ms': 0.613, 'default': {'kl': 0.012951488606631756, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.401609420776367, 'total_loss': 14.38691520690918, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11934472620487213, 'vf_explained_var': 0.9900305867195129, 'vf_loss': 14.493144989013672}, 'grad_time_ms': 738.486}",3934253,51531.589405059814,-151.48011399393036,cda-server-6,24,-164.17799719138918,{},12048,10.157.146.6,{},-141.76588621311848,0,1200,2025-08-30_04-55-30,502,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756522530,50.0,602400,51531.589405059814,79.89352035522461,502
+603600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92845.764, 'num_steps_sampled': 603600, 'update_time_ms': 2.592, 'num_steps_trained': 603600, 'load_time_ms': 0.611, 'default': {'kl': 0.012631156481802464, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.266646385192871, 'total_loss': 20.765531539916992, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13049106299877167, 'vf_explained_var': 0.9859540462493896, 'vf_loss': 20.88323402404785}, 'grad_time_ms': 749.962}",3934253,51615.408281326294,-151.95040094615155,cda-server-6,24,-164.17799719138918,{},12072,10.157.146.6,{},-142.91358491840785,0,1200,2025-08-30_04-56-53,503,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756522613,50.0,603600,51615.408281326294,83.81887626647949,503
+604800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 91623.159, 'num_steps_sampled': 604800, 'update_time_ms': 2.684, 'num_steps_trained': 604800, 'load_time_ms': 0.615, 'default': {'kl': 0.0131832305341959, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.261452674865723, 'total_loss': 21.291887283325195, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13001152873039246, 'vf_explained_var': 0.9833104610443115, 'vf_loss': 21.408550262451172}, 'grad_time_ms': 748.329}",3934253,51714.29527378082,-152.11592553945118,cda-server-6,24,-169.47437276213114,{},12096,10.157.146.6,{},-142.91358491840785,0,1200,2025-08-30_04-58-32,504,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756522712,50.0,604800,51714.29527378082,98.88699245452881,504
+606000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 91136.225, 'num_steps_sampled': 606000, 'update_time_ms': 2.73, 'num_steps_trained': 606000, 'load_time_ms': 0.622, 'default': {'kl': 0.012735579162836075, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.163020133972168, 'total_loss': 32.51218795776367, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12349916994571686, 'vf_explained_var': 0.9749259948730469, 'vf_loss': 32.62278747558594}, 'grad_time_ms': 744.669}",3934253,51818.57286596298,-152.21681742415493,cda-server-6,24,-174.96017940841094,{},12120,10.157.146.6,{},-142.91358491840785,0,1200,2025-08-30_05-00-17,505,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756522817,50.0,606000,51818.57286596298,104.27759218215942,505
+607200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 91654.218, 'num_steps_sampled': 607200, 'update_time_ms': 2.733, 'num_steps_trained': 607200, 'load_time_ms': 0.629, 'default': {'kl': 0.010551582090556622, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.147479057312012, 'total_loss': 24.14088249206543, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1115213930606842, 'vf_explained_var': 0.9835327863693237, 'vf_loss': 24.241722106933594}, 'grad_time_ms': 730.711}",3934253,51917.086246967316,-152.5065032769895,cda-server-6,24,-174.96017940841094,{},12144,10.157.146.6,{},-145.65283452681913,0,1200,2025-08-30_05-01-55,506,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756522915,50.0,607200,51917.086246967316,98.5133810043335,506
+608400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92937.584, 'num_steps_sampled': 608400, 'update_time_ms': 2.651, 'num_steps_trained': 608400, 'load_time_ms': 0.627, 'default': {'kl': 0.013679493218660355, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.322196006774902, 'total_loss': 17.807706832885742, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13080990314483643, 'vf_explained_var': 0.989324152469635, 'vf_loss': 17.924665451049805}, 'grad_time_ms': 723.807}",3934253,52011.65894627571,-152.62199344445517,cda-server-6,24,-174.96017940841094,{},12168,10.157.146.6,{},-145.65283452681913,0,1200,2025-08-30_05-03-30,507,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756523010,50.0,608400,52011.65894627571,94.57269930839539,507
+609600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94056.282, 'num_steps_sampled': 609600, 'update_time_ms': 2.661, 'num_steps_trained': 609600, 'load_time_ms': 0.636, 'default': {'kl': 0.01215057447552681, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.190593719482422, 'total_loss': 19.476789474487305, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1280270367860794, 'vf_explained_var': 0.9847090840339661, 'vf_loss': 19.592514038085938}, 'grad_time_ms': 700.216}",3934253,52119.90881872177,-152.45247066530314,cda-server-6,24,-174.96017940841094,{},12192,10.157.146.6,{},-145.65283452681913,0,1200,2025-08-30_05-05-18,508,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756523118,50.0,609600,52119.90881872177,108.24987244606018,508
+610800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 95930.862, 'num_steps_sampled': 610800, 'update_time_ms': 2.656, 'num_steps_trained': 610800, 'load_time_ms': 0.642, 'default': {'kl': 0.012087873183190823, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.145371437072754, 'total_loss': 15.570717811584473, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.10609038174152374, 'vf_explained_var': 0.986748456954956, 'vf_loss': 15.664569854736328}, 'grad_time_ms': 692.213}",3934253,52227.17141199112,-151.90335354787902,cda-server-6,24,-166.31865727551698,{},12216,10.157.146.6,{},-137.2146438832549,0,1200,2025-08-30_05-07-05,509,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756523225,50.0,610800,52227.17141199112,107.26259326934814,509
+612000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 95583.025, 'num_steps_sampled': 612000, 'update_time_ms': 2.643, 'num_steps_trained': 612000, 'load_time_ms': 0.629, 'default': {'kl': 0.013264824636280537, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.246790885925293, 'total_loss': 45.29621505737305, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12984015047550201, 'vf_explained_var': 0.9686688184738159, 'vf_loss': 45.41261672973633}, 'grad_time_ms': 703.069}",3934253,52328.713398218155,-151.84296176241773,cda-server-6,24,-176.07474622271582,{},12240,10.157.146.6,{},-137.2146438832549,0,1200,2025-08-30_05-08-47,510,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756523327,50.0,612000,52328.713398218155,101.54198622703552,510
+613200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 97924.306, 'num_steps_sampled': 613200, 'update_time_ms': 2.498, 'num_steps_trained': 613200, 'load_time_ms': 0.628, 'default': {'kl': 0.01422956120222807, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.146068572998047, 'total_loss': 11.832422256469727, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13532468676567078, 'vf_explained_var': 0.99064040184021, 'vf_loss': 11.953340530395508}, 'grad_time_ms': 719.987}",3934253,52438.22039580345,-151.5841077330452,cda-server-6,24,-176.07474622271582,{},12264,10.157.146.6,{},-137.2146438832549,0,1200,2025-08-30_05-10-36,511,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756523436,50.0,613200,52438.22039580345,109.50699758529663,511
+614400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 102984.168, 'num_steps_sampled': 614400, 'update_time_ms': 2.622, 'num_steps_trained': 614400, 'load_time_ms': 0.65, 'default': {'kl': 0.01368715986609459, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.12667465209961, 'total_loss': 10.103468894958496, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12915891408920288, 'vf_explained_var': 0.9917065501213074, 'vf_loss': 10.218769073486328}, 'grad_time_ms': 721.669}",3934253,52568.73124575615,-151.36754937198694,cda-server-6,24,-176.07474622271582,{},12288,10.157.146.6,{},-135.6766711022273,0,1200,2025-08-30_05-12-47,512,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756523567,50.0,614400,52568.73124575615,130.51084995269775,512
+615600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 102785.433, 'num_steps_sampled': 615600, 'update_time_ms': 2.633, 'num_steps_trained': 615600, 'load_time_ms': 0.653, 'default': {'kl': 0.01425766758620739, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.303292274475098, 'total_loss': 15.37277889251709, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12664847075939178, 'vf_explained_var': 0.9880255460739136, 'vf_loss': 15.484992027282715}, 'grad_time_ms': 707.702}",3934253,52650.423523426056,-152.04099381919596,cda-server-6,24,-176.07474622271582,{},12312,10.157.146.6,{},-135.6766711022273,0,1200,2025-08-30_05-14-09,513,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756523649,50.0,615600,52650.423523426056,81.69227766990662,513
+616800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 100567.557, 'num_steps_sampled': 616800, 'update_time_ms': 2.548, 'num_steps_trained': 616800, 'load_time_ms': 0.652, 'default': {'kl': 0.014286945573985577, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.151420593261719, 'total_loss': 13.630146026611328, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13689583539962769, 'vf_explained_var': 0.9897435307502747, 'vf_loss': 13.752577781677246}, 'grad_time_ms': 716.56}",3934253,52727.22015619278,-152.27760701819744,cda-server-6,24,-170.78339176081246,{},12336,10.157.146.6,{},-135.6766711022273,0,1200,2025-08-30_05-15-25,514,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756523725,50.0,616800,52727.22015619278,76.79663276672363,514
+618000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 99823.146, 'num_steps_sampled': 618000, 'update_time_ms': 2.531, 'num_steps_trained': 618000, 'load_time_ms': 0.676, 'default': {'kl': 0.012816226109862328, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.943474769592285, 'total_loss': 11.330946922302246, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12894707918167114, 'vf_explained_var': 0.991180956363678, 'vf_loss': 11.446918487548828}, 'grad_time_ms': 717.567}",3934253,52824.06447529793,-152.1601072845309,cda-server-6,24,-167.464972589186,{},12360,10.157.146.6,{},-135.6766711022273,0,1200,2025-08-30_05-17-02,515,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756523822,50.0,618000,52824.06447529793,96.84431910514832,515
+619200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 96189.219, 'num_steps_sampled': 619200, 'update_time_ms': 2.517, 'num_steps_trained': 619200, 'load_time_ms': 0.669, 'default': {'kl': 0.012791362591087818, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.24141788482666, 'total_loss': 26.494110107421875, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.10487866401672363, 'vf_explained_var': 0.9813768863677979, 'vf_loss': 26.58603858947754}, 'grad_time_ms': 727.341}",3934253,52886.338240385056,-152.80565974195426,cda-server-6,24,-188.88444817631853,{},12384,10.157.146.6,{},-142.63657027284142,0,1200,2025-08-30_05-18-05,516,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756523885,50.0,619200,52886.338240385056,62.273765087127686,516
+620400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 98201.82, 'num_steps_sampled': 620400, 'update_time_ms': 2.59, 'num_steps_trained': 620400, 'load_time_ms': 0.669, 'default': {'kl': 0.014150070026516914, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.084158897399902, 'total_loss': 23.739412307739258, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11772307753562927, 'vf_explained_var': 0.9816194176673889, 'vf_loss': 23.84280776977539}, 'grad_time_ms': 744.37}",3934253,53001.20790696144,-152.8964755557505,cda-server-6,24,-188.88444817631853,{},12408,10.157.146.6,{},-142.63657027284142,0,1200,2025-08-30_05-19-59,517,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756523999,50.0,620400,53001.20790696144,114.8696665763855,517
+621600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 98627.304, 'num_steps_sampled': 621600, 'update_time_ms': 2.552, 'num_steps_trained': 621600, 'load_time_ms': 0.662, 'default': {'kl': 0.013758014887571335, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.227802276611328, 'total_loss': 17.798114776611328, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13919270038604736, 'vf_explained_var': 0.9861811399459839, 'vf_loss': 17.923377990722656}, 'grad_time_ms': 759.585}",3934253,53113.86532020569,-152.3823699226433,cda-server-6,24,-188.88444817631853,{},12432,10.157.146.6,{},-142.97483859918682,0,1200,2025-08-30_05-21-52,518,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756524112,50.0,621600,53113.86532020569,112.65741324424744,518
+622800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 96507.54, 'num_steps_sampled': 622800, 'update_time_ms': 2.547, 'num_steps_trained': 622800, 'load_time_ms': 0.662, 'default': {'kl': 0.014047209173440933, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.386871337890625, 'total_loss': 11.968228340148926, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12979204952716827, 'vf_explained_var': 0.9908723831176758, 'vf_loss': 12.083797454833984}, 'grad_time_ms': 772.976}",3934253,53200.06404042244,-152.4626276036031,cda-server-6,24,-188.88444817631853,{},12456,10.157.146.6,{},-142.3687594400822,0,1200,2025-08-30_05-23-18,519,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756524198,50.0,622800,53200.06404042244,86.1987202167511,519
+624000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 97227.837, 'num_steps_sampled': 624000, 'update_time_ms': 2.585, 'num_steps_trained': 624000, 'load_time_ms': 0.663, 'default': {'kl': 0.012714684940874577, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.912516117095947, 'total_loss': 10.766222953796387, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1207198053598404, 'vf_explained_var': 0.9909854531288147, 'vf_loss': 10.874068260192871}, 'grad_time_ms': 766.835}",3934253,53308.747881650925,-151.79671619332342,cda-server-6,24,-167.87898398359434,{},12480,10.157.146.6,{},-141.7748335402267,0,1200,2025-08-30_05-25-07,520,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756524307,50.0,624000,53308.747881650925,108.68384122848511,520
+625200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94634.396, 'num_steps_sampled': 625200, 'update_time_ms': 2.608, 'num_steps_trained': 625200, 'load_time_ms': 0.668, 'default': {'kl': 0.012906880117952824, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.208747863769531, 'total_loss': 11.932040214538574, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12314458936452866, 'vf_explained_var': 0.990728497505188, 'vf_loss': 12.042116165161133}, 'grad_time_ms': 767.734}",3934253,53392.32917332649,-151.6300232368595,cda-server-6,24,-167.87898398359434,{},12504,10.157.146.6,{},-141.7748335402267,0,1200,2025-08-30_05-26-31,521,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756524391,50.0,625200,53392.32917332649,83.58129167556763,521
+626400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92912.862, 'num_steps_sampled': 626400, 'update_time_ms': 2.461, 'num_steps_trained': 626400, 'load_time_ms': 0.64, 'default': {'kl': 0.01441223919391632, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.211857795715332, 'total_loss': 14.67701530456543, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12073574960231781, 'vf_explained_var': 0.9877294898033142, 'vf_loss': 14.783159255981445}, 'grad_time_ms': 766.158}",3934253,53505.60668492317,-151.439543385995,cda-server-6,24,-167.87898398359434,{},12528,10.157.146.6,{},-139.45819028197874,0,1200,2025-08-30_05-28-24,522,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756524504,50.0,626400,53505.60668492317,113.27751159667969,522
+627600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93068.389, 'num_steps_sampled': 627600, 'update_time_ms': 2.534, 'num_steps_trained': 627600, 'load_time_ms': 0.644, 'default': {'kl': 0.011968232691287994, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.311710357666016, 'total_loss': 15.748764038085938, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12205375730991364, 'vf_explained_var': 0.9866352081298828, 'vf_loss': 15.858699798583984}, 'grad_time_ms': 786.6}",3934253,53589.059653282166,-151.3334212564389,cda-server-6,24,-167.87898398359434,{},12552,10.157.146.6,{},-139.45819028197874,0,1200,2025-08-30_05-29-47,523,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756524587,50.0,627600,53589.059653282166,83.45296835899353,523
+628800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 95102.69, 'num_steps_sampled': 628800, 'update_time_ms': 2.546, 'num_steps_trained': 628800, 'load_time_ms': 0.646, 'default': {'kl': 0.011504167690873146, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.257884979248047, 'total_loss': 20.620460510253906, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11923030763864517, 'vf_explained_var': 0.9844631552696228, 'vf_loss': 20.72804069519043}, 'grad_time_ms': 778.226}",3934253,53686.11592555046,-151.36060793239966,cda-server-6,24,-162.56349252872974,{},12576,10.157.146.6,{},-139.45819028197874,0,1200,2025-08-30_05-31-25,524,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756524685,50.0,628800,53686.11592555046,97.05627226829529,524
+630000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 95618.693, 'num_steps_sampled': 630000, 'update_time_ms': 2.56, 'num_steps_trained': 630000, 'load_time_ms': 0.616, 'default': {'kl': 0.012765922583639622, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.11794662475586, 'total_loss': 11.24935531616211, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1303068846464157, 'vf_explained_var': 0.9913408756256104, 'vf_loss': 11.36673641204834}, 'grad_time_ms': 785.336}",3934253,53788.19004368782,-151.2742824012452,cda-server-6,24,-162.56349252872974,{},12600,10.157.146.6,{},-139.45819028197874,0,1200,2025-08-30_05-33-07,525,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756524787,50.0,630000,53788.19004368782,102.07411813735962,525
+631200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 98916.172, 'num_steps_sampled': 631200, 'update_time_ms': 2.524, 'num_steps_trained': 631200, 'load_time_ms': 0.615, 'default': {'kl': 0.014033918268978596, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.2867431640625, 'total_loss': 21.977487564086914, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12659567594528198, 'vf_explained_var': 0.9823175072669983, 'vf_loss': 22.089872360229492}, 'grad_time_ms': 773.845}",3934253,53883.322149038315,-151.7377933753082,cda-server-6,24,-166.93235202604248,{},12624,10.157.146.6,{},-140.14347767908308,0,1200,2025-08-30_05-34-42,526,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756524882,50.0,631200,53883.322149038315,95.13210535049438,526
+632400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 99015.324, 'num_steps_sampled': 632400, 'update_time_ms': 2.479, 'num_steps_trained': 632400, 'load_time_ms': 0.616, 'default': {'kl': 0.01316943857818842, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.11813735961914, 'total_loss': 15.774693489074707, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11189457774162292, 'vf_explained_var': 0.988402783870697, 'vf_loss': 15.87325382232666}, 'grad_time_ms': 772.287}",3934253,53999.16732788086,-151.79679673759537,cda-server-6,24,-166.93235202604248,{},12648,10.157.146.6,{},-142.85611414435792,0,1200,2025-08-30_05-36-38,527,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756524998,50.0,632400,53999.16732788086,115.84517884254456,527
+633600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 97399.361, 'num_steps_sampled': 633600, 'update_time_ms': 2.551, 'num_steps_trained': 633600, 'load_time_ms': 0.618, 'default': {'kl': 0.013452763669192791, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.95552921295166, 'total_loss': 11.074514389038086, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12565070390701294, 'vf_explained_var': 0.9907246828079224, 'vf_loss': 11.186546325683594}, 'grad_time_ms': 779.538}",3934253,54095.73775577545,-151.85492234567778,cda-server-6,24,-166.93235202604248,{},12672,10.157.146.6,{},-142.85611414435792,0,1200,2025-08-30_05-38-14,528,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756525094,50.0,633600,54095.73775577545,96.57042789459229,528
+634800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 98868.009, 'num_steps_sampled': 634800, 'update_time_ms': 2.695, 'num_steps_trained': 634800, 'load_time_ms': 0.614, 'default': {'kl': 0.012571911327540874, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.765262126922607, 'total_loss': 20.411996841430664, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11248551309108734, 'vf_explained_var': 0.984770655632019, 'vf_loss': 20.511754989624023}, 'grad_time_ms': 771.55}",3934253,54196.54490971565,-151.80911372745547,cda-server-6,24,-169.4209576894632,{},12696,10.157.146.6,{},-139.84469927279616,0,1200,2025-08-30_05-39-55,529,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756525195,50.0,634800,54196.54490971565,100.8071539402008,529
+636000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 97273.899, 'num_steps_sampled': 636000, 'update_time_ms': 2.68, 'num_steps_trained': 636000, 'load_time_ms': 0.612, 'default': {'kl': 0.013294359669089317, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.232682228088379, 'total_loss': 13.754680633544922, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12237784266471863, 'vf_explained_var': 0.9897999167442322, 'vf_loss': 13.86359977722168}, 'grad_time_ms': 774.521}",3934253,54289.31747460365,-151.66786411049014,cda-server-6,24,-169.4209576894632,{},12720,10.157.146.6,{},-139.84469927279616,0,1200,2025-08-30_05-41-28,530,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756525288,50.0,636000,54289.31747460365,92.77256488800049,530
+637200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 96229.918, 'num_steps_sampled': 637200, 'update_time_ms': 2.633, 'num_steps_trained': 637200, 'load_time_ms': 0.613, 'default': {'kl': 0.01316928118467331, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.252899169921875, 'total_loss': 14.948100090026855, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12974220514297485, 'vf_explained_var': 0.9902970790863037, 'vf_loss': 15.064509391784668}, 'grad_time_ms': 772.885}",3934253,54362.44271707535,-151.8159965155838,cda-server-6,24,-169.4209576894632,{},12744,10.157.146.6,{},-139.84469927279616,0,1200,2025-08-30_05-42-41,531,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756525361,50.0,637200,54362.44271707535,73.12524247169495,531
+638400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 96145.331, 'num_steps_sampled': 638400, 'update_time_ms': 2.666, 'num_steps_trained': 638400, 'load_time_ms': 0.62, 'default': {'kl': 0.012331483885645866, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.109546661376953, 'total_loss': 11.662945747375488, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12200065702199936, 'vf_explained_var': 0.9907290935516357, 'vf_loss': 11.772459983825684}, 'grad_time_ms': 773.306}",3934253,54474.878903627396,-151.90677020646783,cda-server-6,24,-169.4209576894632,{},12768,10.157.146.6,{},-139.84469927279616,0,1200,2025-08-30_05-44-33,532,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756525473,50.0,638400,54474.878903627396,112.43618655204773,532
+639600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 95973.23, 'num_steps_sampled': 639600, 'update_time_ms': 2.589, 'num_steps_trained': 639600, 'load_time_ms': 0.618, 'default': {'kl': 0.011274803429841995, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.791914939880371, 'total_loss': 13.35634708404541, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.10990992188453674, 'vf_explained_var': 0.9885459542274475, 'vf_loss': 13.454841613769531}, 'grad_time_ms': 769.58}",3934253,54556.572207927704,-152.0021072586479,cda-server-6,24,-163.8275029739961,{},12792,10.157.146.6,{},-141.7869101792552,0,1200,2025-08-30_05-45-55,533,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756525555,50.0,639600,54556.572207927704,81.69330430030823,533
+640800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 95133.223, 'num_steps_sampled': 640800, 'update_time_ms': 2.603, 'num_steps_trained': 640800, 'load_time_ms': 0.618, 'default': {'kl': 0.011796173639595509, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.725955486297607, 'total_loss': 17.79370880126953, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11688640713691711, 'vf_explained_var': 0.9858031868934631, 'vf_loss': 17.898653030395508}, 'grad_time_ms': 775.256}",3934253,54645.28475642204,-151.91061175978035,cda-server-6,24,-163.8275029739961,{},12816,10.157.146.6,{},-141.7869101792552,0,1200,2025-08-30_05-47-24,534,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756525644,50.0,640800,54645.28475642204,88.71254849433899,534
+642000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 95814.997, 'num_steps_sampled': 642000, 'update_time_ms': 2.577, 'num_steps_trained': 642000, 'load_time_ms': 0.617, 'default': {'kl': 0.01341434195637703, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.816812515258789, 'total_loss': 14.266355514526367, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12442073225975037, 'vf_explained_var': 0.9879933595657349, 'vf_loss': 14.377195358276367}, 'grad_time_ms': 775.052}",3934253,54754.17452979088,-151.75500545859387,cda-server-6,24,-163.8275029739961,{},12840,10.157.146.6,{},-142.79085044915752,0,1200,2025-08-30_05-49-13,535,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756525753,50.0,642000,54754.17452979088,108.88977336883545,535
+643200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 96548.363, 'num_steps_sampled': 643200, 'update_time_ms': 2.567, 'num_steps_trained': 643200, 'load_time_ms': 0.616, 'default': {'kl': 0.01187937706708908, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.564441204071045, 'total_loss': 13.592453002929688, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.09899282455444336, 'vf_explained_var': 0.9898480176925659, 'vf_loss': 13.679417610168457}, 'grad_time_ms': 776.95}",3934253,54856.658707141876,-151.69387446085312,cda-server-6,24,-163.9252472156271,{},12864,10.157.146.6,{},-149.25603792487527,0,1200,2025-08-30_05-50-55,536,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756525855,50.0,643200,54856.658707141876,102.48417735099792,536
+644400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93374.482, 'num_steps_sampled': 644400, 'update_time_ms': 2.65, 'num_steps_trained': 644400, 'load_time_ms': 0.617, 'default': {'kl': 0.013803391717374325, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.7664923667907715, 'total_loss': 10.183890342712402, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12922273576259613, 'vf_explained_var': 0.9913797378540039, 'vf_loss': 10.299137115478516}, 'grad_time_ms': 774.203}",3934253,54940.73849415779,-151.52124492364973,cda-server-6,24,-163.9252472156271,{},12888,10.157.146.6,{},-148.7753803736122,0,1200,2025-08-30_05-52-19,537,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756525939,50.0,644400,54940.73849415779,84.07978701591492,537
+645600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93288.352, 'num_steps_sampled': 645600, 'update_time_ms': 2.676, 'num_steps_trained': 645600, 'load_time_ms': 0.63, 'default': {'kl': 0.01337174791842699, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.903218746185303, 'total_loss': 7.999932289123535, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13875660300254822, 'vf_explained_var': 0.993107259273529, 'vf_loss': 8.125149726867676}, 'grad_time_ms': 775.502}",3934253,55036.46237754822,-151.58003477042269,cda-server-6,24,-163.9252472156271,{},12912,10.157.146.6,{},-147.62447533124597,0,1200,2025-08-30_05-53-55,538,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756526035,50.0,645600,55036.46237754822,95.72388339042664,538
+646800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94409.314, 'num_steps_sampled': 646800, 'update_time_ms': 2.543, 'num_steps_trained': 646800, 'load_time_ms': 0.631, 'default': {'kl': 0.011509610339999199, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.807576656341553, 'total_loss': 12.251175880432129, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1061524972319603, 'vf_explained_var': 0.9901471734046936, 'vf_loss': 12.345675468444824}, 'grad_time_ms': 768.137}",3934253,55148.40368771553,-151.5295869223695,cda-server-6,24,-163.9252472156271,{},12936,10.157.146.6,{},-141.74760840253305,0,1200,2025-08-30_05-55-47,539,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756526147,50.0,646800,55148.40368771553,111.94131016731262,539
+648000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94642.933, 'num_steps_sampled': 648000, 'update_time_ms': 2.522, 'num_steps_trained': 648000, 'load_time_ms': 0.636, 'default': {'kl': 0.01324335765093565, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.777318954467773, 'total_loss': 14.313945770263672, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.10932556539773941, 'vf_explained_var': 0.9886135458946228, 'vf_loss': 14.40986442565918}, 'grad_time_ms': 775.809}",3934253,55243.58929491043,-151.74086113916158,cda-server-6,24,-166.98272412453377,{},12960,10.157.146.6,{},-141.74760840253305,0,1200,2025-08-30_05-57-22,540,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756526242,50.0,648000,55243.58929491043,95.18560719490051,540
+649200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 95782.371, 'num_steps_sampled': 649200, 'update_time_ms': 2.528, 'num_steps_trained': 649200, 'load_time_ms': 0.639, 'default': {'kl': 0.011101160198450089, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.8202033042907715, 'total_loss': 24.006174087524414, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1093890443444252, 'vf_explained_var': 0.9816538691520691, 'vf_loss': 24.104326248168945}, 'grad_time_ms': 785.284}",3934253,55328.203587055206,-151.7548923149819,cda-server-6,24,-166.98272412453377,{},12984,10.157.146.6,{},-139.9202484174889,0,1200,2025-08-30_05-58-47,541,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756526327,50.0,649200,55328.203587055206,84.61429214477539,541
+650400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93046.918, 'num_steps_sampled': 650400, 'update_time_ms': 2.545, 'num_steps_trained': 650400, 'load_time_ms': 0.628, 'default': {'kl': 0.013351892121136189, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.874947547912598, 'total_loss': 13.548004150390625, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12411337345838547, 'vf_explained_var': 0.9898288249969482, 'vf_loss': 13.658597946166992}, 'grad_time_ms': 789.284}",3934253,55413.32578778267,-151.8367207524007,cda-server-6,24,-166.98272412453377,{},13008,10.157.146.6,{},-139.9202484174889,0,1200,2025-08-30_06-00-12,542,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756526412,50.0,650400,55413.32578778267,85.12220072746277,542
+651600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 97231.22, 'num_steps_sampled': 651600, 'update_time_ms': 2.556, 'num_steps_trained': 651600, 'load_time_ms': 0.622, 'default': {'kl': 0.014025096781551838, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.527444839477539, 'total_loss': 16.716171264648438, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12651662528514862, 'vf_explained_var': 0.9879534840583801, 'vf_loss': 16.828487396240234}, 'grad_time_ms': 774.998}",3934253,55536.71937775612,-152.20230023532304,cda-server-6,24,-167.6957739032894,{},13032,10.157.146.6,{},-139.9202484174889,0,1200,2025-08-30_06-02-16,543,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756526536,50.0,651600,55536.71937775612,123.3935899734497,543
+652800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 96703.712, 'num_steps_sampled': 652800, 'update_time_ms': 2.543, 'num_steps_trained': 652800, 'load_time_ms': 0.633, 'default': {'kl': 0.010980258695781231, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.6602020263671875, 'total_loss': 22.34575653076172, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.10523133724927902, 'vf_explained_var': 0.9839035868644714, 'vf_loss': 22.439870834350586}, 'grad_time_ms': 767.295}",3934253,55620.079362392426,-152.33134642985738,cda-server-6,24,-167.6957739032894,{},13056,10.157.146.6,{},-139.9202484174889,0,1200,2025-08-30_06-03-39,544,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756526619,50.0,652800,55620.079362392426,83.35998463630676,544
+654000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 96466.977, 'num_steps_sampled': 654000, 'update_time_ms': 2.52, 'num_steps_trained': 654000, 'load_time_ms': 0.641, 'default': {'kl': 0.011783335357904434, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.79296875, 'total_loss': 40.88715362548828, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.10244444757699966, 'vf_explained_var': 0.9700209498405457, 'vf_loss': 40.9776611328125}, 'grad_time_ms': 765.164}",3934253,55726.58039832115,-152.20774698978352,cda-server-6,24,-172.32353041127666,{},13080,10.157.146.6,{},-149.34913540216635,0,1200,2025-08-30_06-05-25,545,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756526725,50.0,654000,55726.58039832115,106.5010359287262,545
+655200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94113.276, 'num_steps_sampled': 655200, 'update_time_ms': 2.559, 'num_steps_trained': 655200, 'load_time_ms': 0.652, 'default': {'kl': 0.012306980788707733, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.727290630340576, 'total_loss': 10.178478240966797, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12441620230674744, 'vf_explained_var': 0.9918663501739502, 'vf_loss': 10.290432929992676}, 'grad_time_ms': 773.947}",3934253,55805.616351127625,-152.20533783139092,cda-server-6,24,-172.32353041127666,{},13104,10.157.146.6,{},-143.8546421528748,0,1200,2025-08-30_06-06-44,546,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756526804,50.0,655200,55805.616351127625,79.03595280647278,546
+656400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93427.926, 'num_steps_sampled': 656400, 'update_time_ms': 2.466, 'num_steps_trained': 656400, 'load_time_ms': 0.643, 'default': {'kl': 0.011928428895771503, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.634652137756348, 'total_loss': 16.324533462524414, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.10499259829521179, 'vf_explained_var': 0.9873420000076294, 'vf_loss': 16.417448043823242}, 'grad_time_ms': 773.586}",3934253,55882.83739686012,-151.81330852174514,cda-server-6,24,-172.32353041127666,{},13128,10.157.146.6,{},-143.8546421528748,0,1200,2025-08-30_06-08-02,547,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756526882,50.0,656400,55882.83739686012,77.22104573249817,547
+657600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94058.335, 'num_steps_sampled': 657600, 'update_time_ms': 2.362, 'num_steps_trained': 657600, 'load_time_ms': 0.634, 'default': {'kl': 0.011866304092109203, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.796850204467773, 'total_loss': 22.88044548034668, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11830038577318192, 'vf_explained_var': 0.9822542667388916, 'vf_loss': 22.986730575561523}, 'grad_time_ms': 766.724}",3934253,55984.79539489746,-151.95285161137662,cda-server-6,24,-172.32353041127666,{},13152,10.157.146.6,{},-143.8546421528748,0,1200,2025-08-30_06-09-44,548,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756526984,50.0,657600,55984.79539489746,101.95799803733826,548
+658800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94776.906, 'num_steps_sampled': 658800, 'update_time_ms': 2.377, 'num_steps_trained': 658800, 'load_time_ms': 0.635, 'default': {'kl': 0.013383209705352783, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.047952651977539, 'total_loss': 16.600008010864258, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1312945932149887, 'vf_explained_var': 0.987158477306366, 'vf_loss': 16.71775245666504}, 'grad_time_ms': 775.892}",3934253,56104.01416516304,-151.82635310445673,cda-server-6,24,-166.28430668358237,{},13176,10.157.146.6,{},-139.8730050272048,0,1200,2025-08-30_06-11-43,549,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756527103,50.0,658800,56104.01416516304,119.21877026557922,549
+660000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 95396.522, 'num_steps_sampled': 660000, 'update_time_ms': 2.399, 'num_steps_trained': 660000, 'load_time_ms': 0.631, 'default': {'kl': 0.012394605204463005, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.464038372039795, 'total_loss': 13.411670684814453, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11062879860401154, 'vf_explained_var': 0.9897158741950989, 'vf_loss': 13.509750366210938}, 'grad_time_ms': 766.048}",3934253,56205.296759843826,-151.7888369248003,cda-server-6,24,-166.28430668358237,{},13200,10.157.146.6,{},-139.8730050272048,0,1200,2025-08-30_06-13-24,550,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756527204,50.0,660000,56205.296759843826,101.28259468078613,550
+661200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 95110.739, 'num_steps_sampled': 661200, 'update_time_ms': 2.409, 'num_steps_trained': 661200, 'load_time_ms': 0.633, 'default': {'kl': 0.013078085146844387, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.584109783172607, 'total_loss': 15.645307540893555, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11028580367565155, 'vf_explained_var': 0.9869313836097717, 'vf_loss': 15.742351531982422}, 'grad_time_ms': 755.638}",3934253,56286.949072122574,-151.88660863617798,cda-server-6,24,-166.28430668358237,{},13224,10.157.146.6,{},-139.8730050272048,0,1200,2025-08-30_06-14-46,551,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756527286,50.0,661200,56286.949072122574,81.65231227874756,551
+662400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 97874.593, 'num_steps_sampled': 662400, 'update_time_ms': 2.444, 'num_steps_trained': 662400, 'load_time_ms': 0.639, 'default': {'kl': 0.013991860672831535, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.786781311035156, 'total_loss': 15.687580108642578, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12217790633440018, 'vf_explained_var': 0.9863888621330261, 'vf_loss': 15.795589447021484}, 'grad_time_ms': 749.511}",3934253,56399.64902329445,-151.60787893259965,cda-server-6,24,-164.2084314069166,{},13248,10.157.146.6,{},-139.8730050272048,0,1200,2025-08-30_06-16-39,552,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756527399,50.0,662400,56399.64902329445,112.699951171875,552
+663600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94479.078, 'num_steps_sampled': 663600, 'update_time_ms': 2.41, 'num_steps_trained': 663600, 'load_time_ms': 0.65, 'default': {'kl': 0.011322933249175549, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.6803412437438965, 'total_loss': 15.122419357299805, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11909367144107819, 'vf_explained_var': 0.9879716038703918, 'vf_loss': 15.230048179626465}, 'grad_time_ms': 762.713}",3934253,56489.219517707825,-151.44552527452606,cda-server-6,24,-164.2084314069166,{},13272,10.157.146.6,{},-139.8730050272048,0,1200,2025-08-30_06-18-08,553,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756527488,50.0,663600,56489.219517707825,89.57049441337585,553
+664800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 96160.343, 'num_steps_sampled': 664800, 'update_time_ms': 2.455, 'num_steps_trained': 664800, 'load_time_ms': 0.631, 'default': {'kl': 0.0125638572499156, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.583347797393799, 'total_loss': 11.01961612701416, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12256471067667007, 'vf_explained_var': 0.9910979866981506, 'vf_loss': 11.129459381103516}, 'grad_time_ms': 771.023}",3934253,56589.475972890854,-151.67157253702425,cda-server-6,24,-164.2084314069166,{},13296,10.157.146.6,{},-142.75703188287594,0,1200,2025-08-30_06-19-48,554,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756527588,50.0,664800,56589.475972890854,100.25645518302917,554
+666000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 96789.175, 'num_steps_sampled': 666000, 'update_time_ms': 2.525, 'num_steps_trained': 666000, 'load_time_ms': 0.631, 'default': {'kl': 0.01608692668378353, 'cur_lr': 4.999999873689376e-05, 'entropy': 8.026680946350098, 'total_loss': 14.854989051818848, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13966526091098785, 'vf_explained_var': 0.9897687435150146, 'vf_loss': 14.978367805480957}, 'grad_time_ms': 774.245}",3934253,56702.29811143875,-151.56715217271983,cda-server-6,24,-168.90639455884744,{},13320,10.157.146.6,{},-143.36764966395847,0,1200,2025-08-30_06-21-41,555,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756527701,50.0,666000,56702.29811143875,112.82213854789734,555
+667200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 98435.435, 'num_steps_sampled': 667200, 'update_time_ms': 2.527, 'num_steps_trained': 667200, 'load_time_ms': 0.62, 'default': {'kl': 0.013392424210906029, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.8170342445373535, 'total_loss': 10.752395629882812, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11502734571695328, 'vf_explained_var': 0.9913275837898254, 'vf_loss': 10.853862762451172}, 'grad_time_ms': 770.789}",3934253,56797.761281490326,-151.40665633516022,cda-server-6,24,-168.90639455884744,{},13344,10.157.146.6,{},-139.96352003292222,0,1200,2025-08-30_06-23-17,556,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756527797,50.0,667200,56797.761281490326,95.4631700515747,556
+668400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 101548.632, 'num_steps_sampled': 668400, 'update_time_ms': 2.522, 'num_steps_trained': 668400, 'load_time_ms': 0.63, 'default': {'kl': 0.013542591594159603, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.707234859466553, 'total_loss': 9.735451698303223, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1209249496459961, 'vf_explained_var': 0.9922139644622803, 'vf_loss': 9.84266471862793}, 'grad_time_ms': 777.582}",3934253,56906.1828122139,-151.23620579021028,cda-server-6,24,-168.90639455884744,{},13368,10.157.146.6,{},-139.96352003292222,0,1200,2025-08-30_06-25-05,557,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756527905,50.0,668400,56906.1828122139,108.42153072357178,557
+669600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 102200.348, 'num_steps_sampled': 669600, 'update_time_ms': 2.554, 'num_steps_trained': 669600, 'load_time_ms': 0.628, 'default': {'kl': 0.01427131425589323, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.790090560913086, 'total_loss': 8.442832946777344, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1334570199251175, 'vf_explained_var': 0.9929354190826416, 'vf_loss': 8.561840057373047}, 'grad_time_ms': 762.454}",3934253,57014.50557184219,-151.2608926220695,cda-server-6,24,-168.90639455884744,{},13392,10.157.146.6,{},-139.96352003292222,0,1200,2025-08-30_06-26-54,558,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756528014,50.0,669600,57014.50557184219,108.3227596282959,558
+670800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 101061.44, 'num_steps_sampled': 670800, 'update_time_ms': 2.523, 'num_steps_trained': 670800, 'load_time_ms': 0.622, 'default': {'kl': 0.012106995098292828, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.880985736846924, 'total_loss': 13.949009895324707, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11816269904375076, 'vf_explained_var': 0.9890486598014832, 'vf_loss': 14.054914474487305}, 'grad_time_ms': 753.675}",3934253,57122.24686527252,-151.31124070736968,cda-server-6,24,-164.1500952171991,{},13416,10.157.146.6,{},-139.96352003292222,0,1200,2025-08-30_06-28-41,559,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756528121,50.0,670800,57122.24686527252,107.74129343032837,559
+672000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 99077.936, 'num_steps_sampled': 672000, 'update_time_ms': 2.475, 'num_steps_trained': 672000, 'load_time_ms': 0.625, 'default': {'kl': 0.012361031025648117, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.896833419799805, 'total_loss': 17.845319747924805, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1219933032989502, 'vf_explained_var': 0.9871928691864014, 'vf_loss': 17.954797744750977}, 'grad_time_ms': 751.704}",3934253,57203.67510128021,-151.56446937536896,cda-server-6,24,-164.47141499845398,{},13440,10.157.146.6,{},-143.1663559505958,0,1200,2025-08-30_06-30-03,560,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756528203,50.0,672000,57203.67510128021,81.42823600769043,560
+673200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 101133.18, 'num_steps_sampled': 673200, 'update_time_ms': 2.442, 'num_steps_trained': 673200, 'load_time_ms': 0.618, 'default': {'kl': 0.012184562161564827, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.8777337074279785, 'total_loss': 17.04519271850586, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12136489897966385, 'vf_explained_var': 0.9857383370399475, 'vf_loss': 17.154220581054688}, 'grad_time_ms': 763.265}",3934253,57305.99560403824,-151.73232247828938,cda-server-6,24,-164.47141499845398,{},13464,10.157.146.6,{},-139.79079619262694,0,1200,2025-08-30_06-31-45,561,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756528305,50.0,673200,57305.99560403824,102.32050275802612,561
+674400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 100718.488, 'num_steps_sampled': 674400, 'update_time_ms': 2.403, 'num_steps_trained': 674400, 'load_time_ms': 0.617, 'default': {'kl': 0.012234192341566086, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.9072394371032715, 'total_loss': 12.1405668258667, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12168225646018982, 'vf_explained_var': 0.9896350502967834, 'vf_loss': 12.249862670898438}, 'grad_time_ms': 763.304}",3934253,57414.548646211624,-151.86656038831188,cda-server-6,24,-164.47141499845398,{},13488,10.157.146.6,{},-139.79079619262694,0,1200,2025-08-30_06-33-34,562,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756528414,50.0,674400,57414.548646211624,108.55304217338562,562
+675600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 100828.693, 'num_steps_sampled': 675600, 'update_time_ms': 2.446, 'num_steps_trained': 675600, 'load_time_ms': 0.612, 'default': {'kl': 0.011146489530801773, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.461226463317871, 'total_loss': 10.990604400634766, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12205490469932556, 'vf_explained_var': 0.9911925792694092, 'vf_loss': 11.101373672485352}, 'grad_time_ms': 756.709}",3934253,57505.155586481094,-151.8312616787746,cda-server-6,24,-165.17639154659727,{},13512,10.157.146.6,{},-135.40392465635645,0,1200,2025-08-30_06-35-04,563,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756528504,50.0,675600,57505.155586481094,90.60694026947021,563
+676800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 99875.662, 'num_steps_sampled': 676800, 'update_time_ms': 2.389, 'num_steps_trained': 676800, 'load_time_ms': 0.615, 'default': {'kl': 0.013896778225898743, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.457207679748535, 'total_loss': 11.320537567138672, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13056457042694092, 'vf_explained_var': 0.9907848834991455, 'vf_loss': 11.437031745910645}, 'grad_time_ms': 762.526}",3934253,57595.93927574158,-152.12418592379265,cda-server-6,24,-168.22577448549237,{},13536,10.157.146.6,{},-135.40392465635645,0,1200,2025-08-30_06-36-35,564,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756528595,50.0,676800,57595.93927574158,90.78368926048279,564
+678000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 100426.129, 'num_steps_sampled': 678000, 'update_time_ms': 2.36, 'num_steps_trained': 678000, 'load_time_ms': 0.613, 'default': {'kl': 0.011276878416538239, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.278744220733643, 'total_loss': 16.736454010009766, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11820343136787415, 'vf_explained_var': 0.9870368242263794, 'vf_loss': 16.843238830566406}, 'grad_time_ms': 748.383}",3934253,57714.12493252754,-152.0202009410142,cda-server-6,24,-168.22577448549237,{},13560,10.157.146.6,{},-135.40392465635645,0,1200,2025-08-30_06-38-33,565,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756528713,50.0,678000,57714.12493252754,118.18565678596497,565
+679200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 101492.584, 'num_steps_sampled': 679200, 'update_time_ms': 2.34, 'num_steps_trained': 679200, 'load_time_ms': 0.615, 'default': {'kl': 0.014653812162578106, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.344961166381836, 'total_loss': 20.03702735900879, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11613241583108902, 'vf_explained_var': 0.9865771532058716, 'vf_loss': 20.138322830200195}, 'grad_time_ms': 735.91}",3934253,57820.13002371788,-151.91582745968978,cda-server-6,24,-168.22577448549237,{},13584,10.157.146.6,{},-135.40392465635645,0,1200,2025-08-30_06-40-19,566,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756528819,50.0,679200,57820.13002371788,106.00509119033813,566
+680400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 98846.678, 'num_steps_sampled': 680400, 'update_time_ms': 2.359, 'num_steps_trained': 680400, 'load_time_ms': 0.615, 'default': {'kl': 0.011863755993545055, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.693569660186768, 'total_loss': 20.87421226501465, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11812932044267654, 'vf_explained_var': 0.9834575653076172, 'vf_loss': 20.98032569885254}, 'grad_time_ms': 732.276}",3934253,57902.05630970001,-151.84447129846183,cda-server-6,24,-168.22577448549237,{},13608,10.157.146.6,{},-141.66634416044175,0,1200,2025-08-30_06-41-41,567,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756528901,50.0,680400,57902.05630970001,81.92628598213196,567
+681600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 97790.357, 'num_steps_sampled': 681600, 'update_time_ms': 2.397, 'num_steps_trained': 681600, 'load_time_ms': 0.616, 'default': {'kl': 0.011216883547604084, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.75992488861084, 'total_loss': 16.491910934448242, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12139460444450378, 'vf_explained_var': 0.98785400390625, 'vf_loss': 16.601947784423828}, 'grad_time_ms': 753.3}",3934253,58000.02692985535,-151.5986989681715,cda-server-6,24,-166.57318712299187,{},13632,10.157.146.6,{},-139.99448377052,0,1200,2025-08-30_06-43-19,568,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756528999,50.0,681600,58000.02692985535,97.97062015533447,568
+682800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 98730.33, 'num_steps_sampled': 682800, 'update_time_ms': 2.389, 'num_steps_trained': 682800, 'load_time_ms': 0.62, 'default': {'kl': 0.011672453954815865, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.440184593200684, 'total_loss': 13.130718231201172, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.10527868568897247, 'vf_explained_var': 0.9891159534454346, 'vf_loss': 13.224178314208984}, 'grad_time_ms': 760.107}",3934253,58117.23666000366,-151.80092093432214,cda-server-6,24,-166.57318712299187,{},13656,10.157.146.6,{},-139.99448377052,0,1200,2025-08-30_06-45-16,569,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756529116,50.0,682800,58117.23666000366,117.20973014831543,569
+684000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 97885.303, 'num_steps_sampled': 684000, 'update_time_ms': 2.389, 'num_steps_trained': 684000, 'load_time_ms': 0.614, 'default': {'kl': 0.014902864582836628, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.657007694244385, 'total_loss': 12.331796646118164, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1290094405412674, 'vf_explained_var': 0.989945650100708, 'vf_loss': 12.445716857910156}, 'grad_time_ms': 756.273}",3934253,58190.176151037216,-152.00770656228394,cda-server-6,24,-166.57318712299187,{},13680,10.157.146.6,{},-139.99448377052,0,1200,2025-08-30_06-46-29,570,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756529189,50.0,684000,58190.176151037216,72.93949103355408,570
+685200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94176.655, 'num_steps_sampled': 685200, 'update_time_ms': 2.514, 'num_steps_trained': 685200, 'load_time_ms': 0.617, 'default': {'kl': 0.013572430238127708, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.551823139190674, 'total_loss': 8.981759071350098, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13007181882858276, 'vf_explained_var': 0.9922204613685608, 'vf_loss': 9.098089218139648}, 'grad_time_ms': 753.349}",3934253,58255.38171863556,-151.82728255358478,cda-server-6,24,-166.57318712299187,{},13704,10.157.146.6,{},-139.99448377052,0,1200,2025-08-30_06-47-35,571,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756529255,50.0,685200,58255.38171863556,65.2055675983429,571
+686400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92049.621, 'num_steps_sampled': 686400, 'update_time_ms': 2.474, 'num_steps_trained': 686400, 'load_time_ms': 0.621, 'default': {'kl': 0.013356123119592667, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.2052764892578125, 'total_loss': 12.253599166870117, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.10353487730026245, 'vf_explained_var': 0.9895342588424683, 'vf_loss': 12.343612670898438}, 'grad_time_ms': 753.076}",3934253,58342.66126012802,-151.84706925774134,cda-server-6,24,-165.6289682061747,{},13728,10.157.146.6,{},-146.64909800243484,0,1200,2025-08-30_06-49-02,572,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756529342,50.0,686400,58342.66126012802,87.27954149246216,572
+687600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92856.237, 'num_steps_sampled': 687600, 'update_time_ms': 2.458, 'num_steps_trained': 687600, 'load_time_ms': 0.614, 'default': {'kl': 0.012467894703149796, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.665492534637451, 'total_loss': 12.708492279052734, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11531029641628265, 'vf_explained_var': 0.9901459217071533, 'vf_loss': 12.811178207397461}, 'grad_time_ms': 761.337}",3934253,58441.416241407394,-151.3989287948314,cda-server-6,24,-160.94876140781466,{},13752,10.157.146.6,{},-139.5995533319289,0,1200,2025-08-30_06-50-41,573,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756529441,50.0,687600,58441.416241407394,98.75498127937317,573
+688800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92962.609, 'num_steps_sampled': 688800, 'update_time_ms': 2.469, 'num_steps_trained': 688800, 'load_time_ms': 0.611, 'default': {'kl': 0.012100116349756718, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.34058141708374, 'total_loss': 18.82788848876953, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11172984540462494, 'vf_explained_var': 0.9857650399208069, 'vf_loss': 18.927371978759766}, 'grad_time_ms': 728.025}",3934253,58532.93010187149,-151.50244165879874,cda-server-6,24,-161.4437523974731,{},13776,10.157.146.6,{},-139.5995533319289,0,1200,2025-08-30_06-52-12,574,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756529532,50.0,688800,58532.93010187149,91.51386046409607,574
+690000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 90303.556, 'num_steps_sampled': 690000, 'update_time_ms': 2.483, 'num_steps_trained': 690000, 'load_time_ms': 0.61, 'default': {'kl': 0.012349085882306099, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.143519878387451, 'total_loss': 17.44886016845703, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11287827044725418, 'vf_explained_var': 0.9857209324836731, 'vf_loss': 17.549238204956055}, 'grad_time_ms': 718.251}",3934253,58624.427540779114,-151.5061001221446,cda-server-6,24,-161.4437523974731,{},13800,10.157.146.6,{},-139.5995533319289,0,1200,2025-08-30_06-53-44,575,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756529624,50.0,690000,58624.427540779114,91.49743890762329,575
+691200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 91299.366, 'num_steps_sampled': 691200, 'update_time_ms': 2.473, 'num_steps_trained': 691200, 'load_time_ms': 0.617, 'default': {'kl': 0.011632119305431843, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.450540542602539, 'total_loss': 18.479217529296875, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.113397017121315, 'vf_explained_var': 0.9858831763267517, 'vf_loss': 18.58083724975586}, 'grad_time_ms': 718.423}",3934253,58740.391570568085,-151.6670901938319,cda-server-6,24,-164.29363151307973,{},13824,10.157.146.6,{},-139.5995533319289,0,1200,2025-08-30_06-55-40,576,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756529740,50.0,691200,58740.391570568085,115.96402978897095,576
+692400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 90758.536, 'num_steps_sampled': 692400, 'update_time_ms': 2.517, 'num_steps_trained': 692400, 'load_time_ms': 0.618, 'default': {'kl': 0.014467747882008553, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.817798137664795, 'total_loss': 15.944793701171875, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13392749428749084, 'vf_explained_var': 0.9877843856811523, 'vf_loss': 16.06407356262207}, 'grad_time_ms': 723.72}",3934253,58816.963297605515,-151.96521562869458,cda-server-6,24,-167.04381562923297,{},13848,10.157.146.6,{},-142.44307414123705,0,1200,2025-08-30_06-56-56,577,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756529816,50.0,692400,58816.963297605515,76.57172703742981,577
+693600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93282.483, 'num_steps_sampled': 693600, 'update_time_ms': 2.52, 'num_steps_trained': 693600, 'load_time_ms': 0.627, 'default': {'kl': 0.01336402352899313, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.232810974121094, 'total_loss': 22.106884002685547, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11316641420125961, 'vf_explained_var': 0.9828341007232666, 'vf_loss': 22.206520080566406}, 'grad_time_ms': 715.479}",3934253,58940.09111189842,-151.83281265991272,cda-server-6,24,-167.04381562923297,{},13872,10.157.146.6,{},-140.01545140863857,0,1200,2025-08-30_06-58-59,578,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756529939,50.0,693600,58940.09111189842,123.12781429290771,578
+694800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 90937.401, 'num_steps_sampled': 694800, 'update_time_ms': 2.566, 'num_steps_trained': 694800, 'load_time_ms': 0.63, 'default': {'kl': 0.012695417739450932, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.237936973571777, 'total_loss': 11.189031600952148, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.10490371286869049, 'vf_explained_var': 0.9903163909912109, 'vf_loss': 11.281082153320312}, 'grad_time_ms': 726.687}",3934253,59033.962436914444,-151.86428952841857,cda-server-6,24,-167.04381562923297,{},13896,10.157.146.6,{},-140.01545140863857,0,1200,2025-08-30_07-00-33,579,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756530033,50.0,694800,59033.962436914444,93.87132501602173,579
+696000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92486.912, 'num_steps_sampled': 696000, 'update_time_ms': 2.619, 'num_steps_trained': 696000, 'load_time_ms': 0.632, 'default': {'kl': 0.010564768686890602, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.240657329559326, 'total_loss': 28.40843391418457, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.10259688645601273, 'vf_explained_var': 0.9848769307136536, 'vf_loss': 28.50033187866211}, 'grad_time_ms': 727.581}",3934253,59122.40687298775,-152.01809617008124,cda-server-6,24,-167.04381562923297,{},13920,10.157.146.6,{},-140.01545140863857,0,1200,2025-08-30_07-02-02,580,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756530122,50.0,696000,59122.40687298775,88.44443607330322,580
+697200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94174.302, 'num_steps_sampled': 697200, 'update_time_ms': 2.676, 'num_steps_trained': 697200, 'load_time_ms': 0.627, 'default': {'kl': 0.012403911910951138, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.399474143981934, 'total_loss': 14.142861366271973, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.10619829595088959, 'vf_explained_var': 0.9894328713417053, 'vf_loss': 14.23650074005127}, 'grad_time_ms': 729.301}",3934253,59204.50434041023,-152.04174332906396,cda-server-6,24,-165.16394158770373,{},13944,10.157.146.6,{},-140.01545140863857,0,1200,2025-08-30_07-03-24,581,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756530204,50.0,697200,59204.50434041023,82.09746742248535,581
+698400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93912.092, 'num_steps_sampled': 698400, 'update_time_ms': 2.694, 'num_steps_trained': 698400, 'load_time_ms': 0.63, 'default': {'kl': 0.012006421573460102, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.297507286071777, 'total_loss': 15.31088924407959, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.09045369178056717, 'vf_explained_var': 0.9878251552581787, 'vf_loss': 15.389185905456543}, 'grad_time_ms': 717.738}",3934253,59289.04621386528,-152.30105653435592,cda-server-6,24,-165.16394158770373,{},13968,10.157.146.6,{},-149.0772481269036,0,1200,2025-08-30_07-04-49,582,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756530289,50.0,698400,59289.04621386528,84.54187345504761,582
+699600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 91703.455, 'num_steps_sampled': 699600, 'update_time_ms': 2.692, 'num_steps_trained': 699600, 'load_time_ms': 0.633, 'default': {'kl': 0.013890719972550869, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.63686466217041, 'total_loss': 16.806406021118164, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13375477492809296, 'vf_explained_var': 0.9869916439056396, 'vf_loss': 16.926095962524414}, 'grad_time_ms': 716.911}",3934253,59365.7064769268,-152.14242325846607,cda-server-6,24,-165.10500275666027,{},13992,10.157.146.6,{},-141.06966000406916,0,1200,2025-08-30_07-06-05,583,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756530365,50.0,699600,59365.7064769268,76.66026306152344,583
+700800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92539.701, 'num_steps_sampled': 700800, 'update_time_ms': 2.683, 'num_steps_trained': 700800, 'load_time_ms': 0.632, 'default': {'kl': 0.012830524705350399, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.533829689025879, 'total_loss': 16.497915267944336, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11289564520120621, 'vf_explained_var': 0.9874927997589111, 'vf_loss': 16.59781837463379}, 'grad_time_ms': 720.897}",3934253,59465.62331390381,-151.95782594633437,cda-server-6,24,-165.10500275666027,{},14016,10.157.146.6,{},-141.06966000406916,0,1200,2025-08-30_07-07-45,584,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756530465,50.0,700800,59465.62331390381,99.916836977005,584
+702000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93571.579, 'num_steps_sampled': 702000, 'update_time_ms': 2.642, 'num_steps_trained': 702000, 'load_time_ms': 0.636, 'default': {'kl': 0.01353020966053009, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.338387489318848, 'total_loss': 13.563823699951172, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11937059462070465, 'vf_explained_var': 0.9893013834953308, 'vf_loss': 13.66949462890625}, 'grad_time_ms': 732.656}",3934253,59567.556359767914,-151.9279004109191,cda-server-6,24,-165.94330068728993,{},14040,10.157.146.6,{},-141.05374428274698,0,1200,2025-08-30_07-09-27,585,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756530567,50.0,702000,59567.556359767914,101.93304586410522,585
+703200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92809.295, 'num_steps_sampled': 703200, 'update_time_ms': 2.631, 'num_steps_trained': 703200, 'load_time_ms': 0.632, 'default': {'kl': 0.013093508780002594, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.247652053833008, 'total_loss': 9.93628978729248, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12289997935295105, 'vf_explained_var': 0.9934365749359131, 'vf_loss': 10.04593276977539}, 'grad_time_ms': 725.034}",3934253,59675.8199942112,-151.74111855739798,cda-server-6,24,-165.94330068728993,{},14064,10.157.146.6,{},-141.05374428274698,0,1200,2025-08-30_07-11-15,586,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756530675,50.0,703200,59675.8199942112,108.26363444328308,586
+704400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93204.657, 'num_steps_sampled': 704400, 'update_time_ms': 2.598, 'num_steps_trained': 704400, 'load_time_ms': 0.626, 'default': {'kl': 0.011846650391817093, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.4674248695373535, 'total_loss': 8.97598934173584, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12297610193490982, 'vf_explained_var': 0.992843747138977, 'vf_loss': 9.086971282958984}, 'grad_time_ms': 686.738}",3934253,59755.96127986908,-151.67899424222992,cda-server-6,24,-165.94330068728993,{},14088,10.157.146.6,{},-141.05374428274698,0,1200,2025-08-30_07-12-35,587,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756530755,50.0,704400,59755.96127986908,80.14128565788269,587
+705600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 90622.339, 'num_steps_sampled': 705600, 'update_time_ms': 2.583, 'num_steps_trained': 705600, 'load_time_ms': 0.621, 'default': {'kl': 0.012162242084741592, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.1651153564453125, 'total_loss': 10.699304580688477, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.09133824706077576, 'vf_explained_var': 0.9913658499717712, 'vf_loss': 10.778327941894531}, 'grad_time_ms': 690.449}",3934253,59853.30315685272,-151.6922593391394,cda-server-6,24,-165.94330068728993,{},14112,10.157.146.6,{},-141.05374428274698,0,1200,2025-08-30_07-14-13,588,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756530853,50.0,705600,59853.30315685272,97.34187698364258,588
+706800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92077.509, 'num_steps_sampled': 706800, 'update_time_ms': 2.504, 'num_steps_trained': 706800, 'load_time_ms': 0.65, 'default': {'kl': 0.01409607008099556, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.442818641662598, 'total_loss': 8.390382766723633, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12273070216178894, 'vf_explained_var': 0.994513213634491, 'vf_loss': 8.49884033203125}, 'grad_time_ms': 678.541}",3934253,59961.60695576668,-151.50156964718323,cda-server-6,24,-165.34163108568424,{},14136,10.157.146.6,{},-141.81389860999062,0,1200,2025-08-30_07-16-01,589,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756530961,50.0,706800,59961.60695576668,108.30379891395569,589
+708000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94196.583, 'num_steps_sampled': 708000, 'update_time_ms': 2.523, 'num_steps_trained': 708000, 'load_time_ms': 0.674, 'default': {'kl': 0.012521314434707165, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.323137283325195, 'total_loss': 10.42292308807373, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13767369091510773, 'vf_explained_var': 0.9919801354408264, 'vf_loss': 10.547918319702148}, 'grad_time_ms': 678.715}",3934253,60071.24426102638,-151.5101446258732,cda-server-6,24,-164.03042833185478,{},14160,10.157.146.6,{},-140.0657561986548,0,1200,2025-08-30_07-17-51,590,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756531071,50.0,708000,60071.24426102638,109.63730525970459,590
+709200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 96082.76, 'num_steps_sampled': 709200, 'update_time_ms': 2.382, 'num_steps_trained': 709200, 'load_time_ms': 0.687, 'default': {'kl': 0.011179720051586628, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.874238967895508, 'total_loss': 7.746560096740723, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12053953111171722, 'vf_explained_var': 0.993653416633606, 'vf_loss': 7.85577917098999}, 'grad_time_ms': 673.693}",3934253,60172.15154004097,-151.75990299087707,cda-server-6,24,-167.29179124485003,{},14184,10.157.146.6,{},-139.96449797766664,0,1200,2025-08-30_07-19-32,591,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756531172,50.0,709200,60172.15154004097,100.9072790145874,591
+710400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 98768.234, 'num_steps_sampled': 710400, 'update_time_ms': 2.353, 'num_steps_trained': 710400, 'load_time_ms': 0.697, 'default': {'kl': 0.011559142731130123, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.005263328552246, 'total_loss': 9.97242546081543, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11214432120323181, 'vf_explained_var': 0.9928156733512878, 'vf_loss': 10.07286548614502}, 'grad_time_ms': 679.973}",3934253,60283.61056137085,-151.78678105090998,cda-server-6,24,-167.29179124485003,{},14208,10.157.146.6,{},-139.96449797766664,0,1200,2025-08-30_07-21-23,592,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756531283,50.0,710400,60283.61056137085,111.45902132987976,592
+711600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 99394.054, 'num_steps_sampled': 711600, 'update_time_ms': 2.327, 'num_steps_trained': 711600, 'load_time_ms': 0.699, 'default': {'kl': 0.01326974667608738, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.2245941162109375, 'total_loss': 13.130340576171875, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1341947764158249, 'vf_explained_var': 0.9907307028770447, 'vf_loss': 13.251100540161133}, 'grad_time_ms': 673.367}",3934253,60366.462671756744,-151.6194461096379,cda-server-6,24,-167.29179124485003,{},14232,10.157.146.6,{},-139.96449797766664,0,1200,2025-08-30_07-22-46,593,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756531366,50.0,711600,60366.462671756744,82.85211038589478,593
+712800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 99127.994, 'num_steps_sampled': 712800, 'update_time_ms': 2.34, 'num_steps_trained': 712800, 'load_time_ms': 0.702, 'default': {'kl': 0.013715913519263268, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.543368816375732, 'total_loss': 12.581001281738281, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1392856240272522, 'vf_explained_var': 0.9903258085250854, 'vf_loss': 12.706399917602539}, 'grad_time_ms': 693.584}",3934253,60463.921142578125,-151.841262826727,cda-server-6,24,-167.29179124485003,{},14256,10.157.146.6,{},-135.49370618230293,0,1200,2025-08-30_07-24-24,594,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756531464,50.0,712800,60463.921142578125,97.45847082138062,594
+714000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 97260.312, 'num_steps_sampled': 714000, 'update_time_ms': 2.389, 'num_steps_trained': 714000, 'load_time_ms': 0.696, 'default': {'kl': 0.014189370907843113, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.186726093292236, 'total_loss': 13.266934394836426, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11609578132629395, 'vf_explained_var': 0.9903583526611328, 'vf_loss': 13.368663787841797}, 'grad_time_ms': 700.24}",3934253,60547.2446205616,-151.6338203087051,cda-server-6,24,-164.4763763376484,{},14280,10.157.146.6,{},-135.49370618230293,0,1200,2025-08-30_07-25-47,595,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756531547,50.0,714000,60547.2446205616,83.32347798347473,595
+715200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 95154.528, 'num_steps_sampled': 715200, 'update_time_ms': 2.427, 'num_steps_trained': 715200, 'load_time_ms': 0.691, 'default': {'kl': 0.011939617805182934, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.9514336585998535, 'total_loss': 15.354241371154785, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1097557544708252, 'vf_explained_var': 0.9887726306915283, 'vf_loss': 15.451909065246582}, 'grad_time_ms': 726.238}",3934253,60634.71063876152,-151.64690577669663,cda-server-6,24,-164.4763763376484,{},14304,10.157.146.6,{},-135.49370618230293,0,1200,2025-08-30_07-27-14,596,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756531634,50.0,715200,60634.71063876152,87.46601819992065,596
+716400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93652.735, 'num_steps_sampled': 716400, 'update_time_ms': 2.603, 'num_steps_trained': 716400, 'load_time_ms': 0.696, 'default': {'kl': 0.010730365291237831, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.129854202270508, 'total_loss': 18.592544555664062, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.10800933092832565, 'vf_explained_var': 0.9868574142456055, 'vf_loss': 18.68968963623047}, 'grad_time_ms': 760.154}",3934253,60700.175520420074,-151.62646291803293,cda-server-6,24,-164.4763763376484,{},14328,10.157.146.6,{},-135.49370618230293,0,1200,2025-08-30_07-28-20,597,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756531700,50.0,716400,60700.175520420074,65.46488165855408,597
+717600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92106.567, 'num_steps_sampled': 717600, 'update_time_ms': 2.634, 'num_steps_trained': 717600, 'load_time_ms': 0.695, 'default': {'kl': 0.01186525821685791, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.202608108520508, 'total_loss': 14.549711227416992, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.10322961211204529, 'vf_explained_var': 0.9883344173431396, 'vf_loss': 14.640926361083984}, 'grad_time_ms': 767.015}",3934253,60782.12470793724,-151.53312025163663,cda-server-6,24,-164.025584113289,{},14352,10.157.146.6,{},-140.24453536788127,0,1200,2025-08-30_07-29-42,598,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756531782,50.0,717600,60782.12470793724,81.94918751716614,598
+718800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 89806.981, 'num_steps_sampled': 718800, 'update_time_ms': 2.689, 'num_steps_trained': 718800, 'load_time_ms': 0.659, 'default': {'kl': 0.013243130408227444, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.225077152252197, 'total_loss': 18.396018981933594, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11471739411354065, 'vf_explained_var': 0.9890309572219849, 'vf_loss': 18.49732780456543}, 'grad_time_ms': 775.626}",3934253,60867.51846694946,-151.85888020618955,cda-server-6,24,-166.70198157607007,{},14376,10.157.146.6,{},-147.5689089852922,0,1200,2025-08-30_07-31-07,599,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756531867,50.0,718800,60867.51846694946,85.39375901222229,599
+720000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 91164.442, 'num_steps_sampled': 720000, 'update_time_ms': 2.654, 'num_steps_trained': 720000, 'load_time_ms': 0.636, 'default': {'kl': 0.01327840518206358, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.063553810119629, 'total_loss': 15.72727108001709, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.10396900773048401, 'vf_explained_var': 0.9870481491088867, 'vf_loss': 15.81779670715332}, 'grad_time_ms': 776.607}",3934253,60990.73926758766,-151.6618704476836,cda-server-6,24,-166.70198157607007,{},14400,10.157.146.6,{},-147.3681517481075,0,1200,2025-08-30_07-33-10,600,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756531990,50.0,720000,60990.73926758766,123.22080063819885,600
+721200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 91809.072, 'num_steps_sampled': 721200, 'update_time_ms': 2.679, 'num_steps_trained': 721200, 'load_time_ms': 0.627, 'default': {'kl': 0.011526600457727909, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.281680583953857, 'total_loss': 18.19324493408203, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11207922548055649, 'vf_explained_var': 0.9853324890136719, 'vf_loss': 18.29365348815918}, 'grad_time_ms': 767.64}",3934253,61098.00409555435,-151.7562869870905,cda-server-6,24,-166.70198157607007,{},14424,10.157.146.6,{},-147.3681517481075,0,1200,2025-08-30_07-34-58,601,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756532098,50.0,721200,61098.00409555435,107.26482796669006,601
+722400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 90087.989, 'num_steps_sampled': 722400, 'update_time_ms': 2.721, 'num_steps_trained': 722400, 'load_time_ms': 0.617, 'default': {'kl': 0.01224952470511198, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.450062274932861, 'total_loss': 20.476715087890625, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11732758581638336, 'vf_explained_var': 0.9841304421424866, 'vf_loss': 20.581642150878906}, 'grad_time_ms': 783.345}",3934253,61192.40952897072,-152.16321712634695,cda-server-6,24,-166.70198157607007,{},14448,10.157.146.6,{},-147.3681517481075,0,1200,2025-08-30_07-36-32,602,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756532192,50.0,722400,61192.40952897072,94.40543341636658,602
+723600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 90615.528, 'num_steps_sampled': 723600, 'update_time_ms': 2.768, 'num_steps_trained': 723600, 'load_time_ms': 0.614, 'default': {'kl': 0.015451265498995781, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.148335933685303, 'total_loss': 11.77541732788086, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11515364050865173, 'vf_explained_var': 0.9903786182403564, 'vf_loss': 11.874926567077637}, 'grad_time_ms': 787.36}",3934253,61280.579090833664,-152.08872249419608,cda-server-6,24,-167.47636487522485,{},14472,10.157.146.6,{},-142.45120966923372,0,1200,2025-08-30_07-38-00,603,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756532280,50.0,723600,61280.579090833664,88.16956186294556,603
+724800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 87780.925, 'num_steps_sampled': 724800, 'update_time_ms': 2.845, 'num_steps_trained': 724800, 'load_time_ms': 0.615, 'default': {'kl': 0.014070438221096992, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.109999656677246, 'total_loss': 10.172300338745117, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12829262018203735, 'vf_explained_var': 0.9918432235717773, 'vf_loss': 10.286346435546875}, 'grad_time_ms': 784.586}",3934253,61349.66434311867,-152.43345766828455,cda-server-6,24,-167.9578979275503,{},14496,10.157.146.6,{},-142.45120966923372,0,1200,2025-08-30_07-39-10,604,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756532350,50.0,724800,61349.66434311867,69.08525228500366,604
+726000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 86887.291, 'num_steps_sampled': 726000, 'update_time_ms': 2.863, 'num_steps_trained': 726000, 'load_time_ms': 0.611, 'default': {'kl': 0.014225076884031296, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.7051849365234375, 'total_loss': 12.970050811767578, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12973900139331818, 'vf_explained_var': 0.9914548397064209, 'vf_loss': 13.085387229919434}, 'grad_time_ms': 790.49}",3934253,61424.110256910324,-152.20568940453862,cda-server-6,24,-167.9578979275503,{},14520,10.157.146.6,{},-141.36383384103294,0,1200,2025-08-30_07-40-24,605,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756532424,50.0,726000,61424.110256910324,74.4459137916565,605
+727200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 86061.442, 'num_steps_sampled': 727200, 'update_time_ms': 2.874, 'num_steps_trained': 727200, 'load_time_ms': 0.614, 'default': {'kl': 0.01197892241179943, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.155910015106201, 'total_loss': 16.024038314819336, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12084892392158508, 'vf_explained_var': 0.9875774383544922, 'vf_loss': 16.13275909423828}, 'grad_time_ms': 785.744}",3934253,61503.27158164978,-151.8809027765825,cda-server-6,24,-167.9578979275503,{},14544,10.157.146.6,{},-141.36383384103294,0,1200,2025-08-30_07-41-43,606,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756532503,50.0,727200,61503.27158164978,79.16132473945618,606
+728400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 89229.81, 'num_steps_sampled': 728400, 'update_time_ms': 2.72, 'num_steps_trained': 728400, 'load_time_ms': 0.609, 'default': {'kl': 0.012574922293424606, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.90366792678833, 'total_loss': 15.371590614318848, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11707106977701187, 'vf_explained_var': 0.9888659715652466, 'vf_loss': 15.475930213928223}, 'grad_time_ms': 786.113}",3934253,61600.42127537727,-151.49330662677073,cda-server-6,24,-167.9578979275503,{},14568,10.157.146.6,{},-141.36383384103294,0,1200,2025-08-30_07-43-20,607,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756532600,50.0,728400,61600.42127537727,97.14969372749329,607
+729600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 89682.331, 'num_steps_sampled': 729600, 'update_time_ms': 2.642, 'num_steps_trained': 729600, 'load_time_ms': 0.603, 'default': {'kl': 0.011613764800131321, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.039552688598633, 'total_loss': 18.735050201416016, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.09857099503278732, 'vf_explained_var': 0.9856353402137756, 'vf_loss': 18.821861267089844}, 'grad_time_ms': 775.753}",3934253,61686.7905664444,-151.40655440639014,cda-server-6,24,-165.37392545490812,{},14592,10.157.146.6,{},-141.36383384103294,0,1200,2025-08-30_07-44-47,608,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756532687,50.0,729600,61686.7905664444,86.36929106712341,608
+730800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92765.788, 'num_steps_sampled': 730800, 'update_time_ms': 2.676, 'num_steps_trained': 730800, 'load_time_ms': 0.608, 'default': {'kl': 0.01337195560336113, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.899675369262695, 'total_loss': 14.00875186920166, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.10345722734928131, 'vf_explained_var': 0.9890311360359192, 'vf_loss': 14.09867000579834}, 'grad_time_ms': 771.632}",3934253,61802.97908568382,-151.37933562448453,cda-server-6,24,-165.37392545490812,{},14616,10.157.146.6,{},-141.66864327226546,0,1200,2025-08-30_07-46-43,609,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756532803,50.0,730800,61802.97908568382,116.18851923942566,609
+732000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 88623.712, 'num_steps_sampled': 732000, 'update_time_ms': 2.678, 'num_steps_trained': 732000, 'load_time_ms': 0.608, 'default': {'kl': 0.012054665014147758, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.8780741691589355, 'total_loss': 19.48150634765625, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.10850019007921219, 'vf_explained_var': 0.9851784110069275, 'vf_loss': 19.577804565429688}, 'grad_time_ms': 774.118}",3934253,61884.80423927307,-151.41443393500313,cda-server-6,24,-161.8105244534275,{},14640,10.157.146.6,{},-141.63613739987613,0,1200,2025-08-30_07-48-05,610,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756532885,50.0,732000,61884.80423927307,81.82515358924866,610
+733200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 86950.836, 'num_steps_sampled': 733200, 'update_time_ms': 2.646, 'num_steps_trained': 733200, 'load_time_ms': 0.605, 'default': {'kl': 0.010721195489168167, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.638162136077881, 'total_loss': 11.81612491607666, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.09991056472063065, 'vf_explained_var': 0.9899557828903198, 'vf_loss': 11.905179977416992}, 'grad_time_ms': 787.336}",3934253,61975.47169351578,-151.543765128637,cda-server-6,24,-161.8105244534275,{},14664,10.157.146.6,{},-141.63613739987613,0,1200,2025-08-30_07-49-36,611,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756532976,50.0,733200,61975.47169351578,90.6674542427063,611
+734400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 85627.85, 'num_steps_sampled': 734400, 'update_time_ms': 2.679, 'num_steps_trained': 734400, 'load_time_ms': 0.603, 'default': {'kl': 0.013192672282457352, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.051061630249023, 'total_loss': 7.227845191955566, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1238882839679718, 'vf_explained_var': 0.9936915636062622, 'vf_loss': 7.338375568389893}, 'grad_time_ms': 784.194}",3934253,62056.61653780937,-151.44520802968128,cda-server-6,24,-161.8105244534275,{},14688,10.157.146.6,{},-141.63613739987613,0,1200,2025-08-30_07-50-57,612,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756533057,50.0,734400,62056.61653780937,81.14484429359436,612
+735600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 83882.7, 'num_steps_sampled': 735600, 'update_time_ms': 2.682, 'num_steps_trained': 735600, 'load_time_ms': 0.603, 'default': {'kl': 0.011554243043065071, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.660586833953857, 'total_loss': 10.637908935546875, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.09981474280357361, 'vf_explained_var': 0.9911506175994873, 'vf_loss': 10.726024627685547}, 'grad_time_ms': 786.349}",3934253,62127.3542406559,-151.22924727354598,cda-server-6,24,-159.87547682683376,{},14712,10.157.146.6,{},-139.68615046976356,0,1200,2025-08-30_07-52-07,613,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756533127,50.0,735600,62127.3542406559,70.7377028465271,613
+736800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 85648.444, 'num_steps_sampled': 736800, 'update_time_ms': 2.603, 'num_steps_trained': 736800, 'load_time_ms': 0.602, 'default': {'kl': 0.013088869862258434, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.049310207366943, 'total_loss': 12.22148609161377, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13127782940864563, 'vf_explained_var': 0.990606963634491, 'vf_loss': 12.33951187133789}, 'grad_time_ms': 792.797}",3934253,62214.16077184677,-151.31984968712513,cda-server-6,24,-162.72055261835348,{},14736,10.157.146.6,{},-139.68615046976356,0,1200,2025-08-30_07-53-34,614,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756533214,50.0,736800,62214.16077184677,86.80653119087219,614
+738000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 88803.749, 'num_steps_sampled': 738000, 'update_time_ms': 2.56, 'num_steps_trained': 738000, 'load_time_ms': 0.607, 'default': {'kl': 0.012645702809095383, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.928812026977539, 'total_loss': 10.566925048828125, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11527398228645325, 'vf_explained_var': 0.9913132190704346, 'vf_loss': 10.669394493103027}, 'grad_time_ms': 785.529}",3934253,62320.08752441406,-151.36229052843026,cda-server-6,24,-162.72055261835348,{},14760,10.157.146.6,{},-139.68615046976356,0,1200,2025-08-30_07-55-20,615,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756533320,50.0,738000,62320.08752441406,105.92675256729126,615
+739200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92349.761, 'num_steps_sampled': 739200, 'update_time_ms': 2.568, 'num_steps_trained': 739200, 'load_time_ms': 0.632, 'default': {'kl': 0.01190970279276371, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.102513790130615, 'total_loss': 9.939801216125488, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11454781144857407, 'vf_explained_var': 0.9917420148849487, 'vf_loss': 10.042292594909668}, 'grad_time_ms': 756.918}",3934253,62434.422278404236,-151.60210316670384,cda-server-6,24,-162.72055261835348,{},14784,10.157.146.6,{},-139.68615046976356,0,1200,2025-08-30_07-57-15,616,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756533435,50.0,739200,62434.422278404236,114.33475399017334,616
+740400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 91534.552, 'num_steps_sampled': 740400, 'update_time_ms': 2.573, 'num_steps_trained': 740400, 'load_time_ms': 0.633, 'default': {'kl': 0.013185751624405384, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.751632213592529, 'total_loss': 10.361977577209473, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1103510633111, 'vf_explained_var': 0.9916035532951355, 'vf_loss': 10.458977699279785}, 'grad_time_ms': 752.487}",3934253,62523.37660694122,-151.44191442940803,cda-server-6,24,-162.72055261835348,{},14808,10.157.146.6,{},-139.50587769520746,0,1200,2025-08-30_07-58-43,617,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756533523,50.0,740400,62523.37660694122,88.9543285369873,617
+741600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92642.693, 'num_steps_sampled': 741600, 'update_time_ms': 2.659, 'num_steps_trained': 741600, 'load_time_ms': 0.637, 'default': {'kl': 0.012119187042117119, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.803467750549316, 'total_loss': 8.588187217712402, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.10707652568817139, 'vf_explained_var': 0.9933609366416931, 'vf_loss': 8.682992935180664}, 'grad_time_ms': 761.442}",3934253,62620.91872525215,-151.5307977259673,cda-server-6,24,-164.73135388198196,{},14832,10.157.146.6,{},-139.50587769520746,0,1200,2025-08-30_08-00-21,618,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756533621,50.0,741600,62620.91872525215,97.54211831092834,618
+742800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 91459.981, 'num_steps_sampled': 742800, 'update_time_ms': 2.627, 'num_steps_trained': 742800, 'load_time_ms': 0.658, 'default': {'kl': 0.013423633761703968, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.8948893547058105, 'total_loss': 12.06845474243164, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11208604276180267, 'vf_explained_var': 0.9899507164955139, 'vf_loss': 12.166949272155762}, 'grad_time_ms': 756.378}",3934253,62725.23010516167,-151.49945627137046,cda-server-6,24,-164.73135388198196,{},14856,10.157.146.6,{},-139.50587769520746,0,1200,2025-08-30_08-02-05,619,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756533725,50.0,742800,62725.23010516167,104.31137990951538,619
+744000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93561.719, 'num_steps_sampled': 744000, 'update_time_ms': 2.654, 'num_steps_trained': 744000, 'load_time_ms': 0.66, 'default': {'kl': 0.01322434563189745, 'cur_lr': 4.999999873689376e-05, 'entropy': 7.0396013259887695, 'total_loss': 13.521455764770508, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11213520169258118, 'vf_explained_var': 0.9895057678222656, 'vf_loss': 13.62020206451416}, 'grad_time_ms': 756.048}",3934253,62828.070397138596,-151.12993458929512,cda-server-6,24,-164.73135388198196,{},14880,10.157.146.6,{},-139.50587769520746,0,1200,2025-08-30_08-03-48,620,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756533828,50.0,744000,62828.070397138596,102.84029197692871,620
+745200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93545.314, 'num_steps_sampled': 745200, 'update_time_ms': 2.694, 'num_steps_trained': 745200, 'load_time_ms': 0.663, 'default': {'kl': 0.012171603739261627, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.692158222198486, 'total_loss': 6.1855010986328125, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11720164865255356, 'vf_explained_var': 0.9949302673339844, 'vf_loss': 6.290379047393799}, 'grad_time_ms': 752.822}",3934253,62918.541640520096,-151.14761090808298,cda-server-6,24,-164.73135388198196,{},14904,10.157.146.6,{},-140.95648442901637,0,1200,2025-08-30_08-05-19,621,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756533919,50.0,745200,62918.541640520096,90.47124338150024,621
+746400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93932.102, 'num_steps_sampled': 746400, 'update_time_ms': 2.631, 'num_steps_trained': 746400, 'load_time_ms': 0.661, 'default': {'kl': 0.013156522065401077, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.82674503326416, 'total_loss': 14.24813461303711, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11366318166255951, 'vf_explained_var': 0.9880519509315491, 'vf_loss': 14.34847640991211}, 'grad_time_ms': 751.554}",3934253,63003.54139351845,-151.18667908639287,cda-server-6,24,-164.73135388198196,{},14928,10.157.146.6,{},-139.44292993723454,0,1200,2025-08-30_08-06-44,622,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756534004,50.0,746400,63003.54139351845,84.99975299835205,622
+747600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 97851.94, 'num_steps_sampled': 747600, 'update_time_ms': 2.617, 'num_steps_trained': 747600, 'load_time_ms': 0.662, 'default': {'kl': 0.01315502543002367, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.802591323852539, 'total_loss': 7.619611740112305, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12538450956344604, 'vf_explained_var': 0.9940614700317383, 'vf_loss': 7.7316765785217285}, 'grad_time_ms': 752.627}",3934253,63113.488800525665,-151.09440919344684,cda-server-6,24,-164.42489643038954,{},14952,10.157.146.6,{},-139.44292993723454,0,1200,2025-08-30_08-08-34,623,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756534114,50.0,747600,63113.488800525665,109.94740700721741,623
+748800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 98750.161, 'num_steps_sampled': 748800, 'update_time_ms': 2.613, 'num_steps_trained': 748800, 'load_time_ms': 0.668, 'default': {'kl': 0.011096199974417686, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.810266494750977, 'total_loss': 11.71121597290039, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11723963171243668, 'vf_explained_var': 0.9900689721107483, 'vf_loss': 11.817220687866211}, 'grad_time_ms': 747.582}",3934253,63209.22741794586,-151.22068244121274,cda-server-6,24,-164.42489643038954,{},14976,10.157.146.6,{},-139.44292993723454,0,1200,2025-08-30_08-10-09,624,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756534209,50.0,748800,63209.22741794586,95.73861742019653,624
+750000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 100088.435, 'num_steps_sampled': 750000, 'update_time_ms': 2.645, 'num_steps_trained': 750000, 'load_time_ms': 0.668, 'default': {'kl': 0.010650668293237686, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.672452926635742, 'total_loss': 11.082969665527344, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.110077865421772, 'vf_explained_var': 0.9915443062782288, 'vf_loss': 11.18226432800293}, 'grad_time_ms': 757.859}",3934253,63328.63909459114,-151.40743659097222,cda-server-6,24,-164.42489643038954,{},15000,10.157.146.6,{},-139.44292993723454,0,1200,2025-08-30_08-12-09,625,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756534329,50.0,750000,63328.63909459114,119.41167664527893,625
+751200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 100166.948, 'num_steps_sampled': 751200, 'update_time_ms': 2.642, 'num_steps_trained': 751200, 'load_time_ms': 0.64, 'default': {'kl': 0.010317239910364151, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.8698625564575195, 'total_loss': 23.211606979370117, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.10611388087272644, 'vf_explained_var': 0.9846295118331909, 'vf_loss': 23.307273864746094}, 'grad_time_ms': 773.449}",3934253,63443.91581988335,-151.66759500747776,cda-server-6,24,-163.6711908111485,{},15024,10.157.146.6,{},-144.90419533232387,0,1200,2025-08-30_08-14-04,626,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756534444,50.0,751200,63443.91581988335,115.27672529220581,626
+752400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 103369.137, 'num_steps_sampled': 752400, 'update_time_ms': 2.692, 'num_steps_trained': 752400, 'load_time_ms': 0.631, 'default': {'kl': 0.013233959674835205, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.71226692199707, 'total_loss': 15.275715827941895, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12592655420303345, 'vf_explained_var': 0.989207923412323, 'vf_loss': 15.38824462890625}, 'grad_time_ms': 744.545}",3934253,63564.602367162704,-151.4929936336819,cda-server-6,24,-163.6711908111485,{},15048,10.157.146.6,{},-139.5958818274101,0,1200,2025-08-30_08-16-05,627,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756534565,50.0,752400,63564.602367162704,120.68654727935791,627
+753600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 102544.866, 'num_steps_sampled': 753600, 'update_time_ms': 2.595, 'num_steps_trained': 753600, 'load_time_ms': 0.631, 'default': {'kl': 0.012792283669114113, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.9640302658081055, 'total_loss': 19.60162925720215, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11187508702278137, 'vf_explained_var': 0.9851052761077881, 'vf_loss': 19.700551986694336}, 'grad_time_ms': 736.195}",3934253,63653.81639122963,-151.669466943407,cda-server-6,24,-166.4776514019978,{},15072,10.157.146.6,{},-139.5958818274101,0,1200,2025-08-30_08-17-34,628,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756534654,50.0,753600,63653.81639122963,89.21402406692505,628
+754800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 101229.522, 'num_steps_sampled': 754800, 'update_time_ms': 2.535, 'num_steps_trained': 754800, 'load_time_ms': 0.607, 'default': {'kl': 0.010650486685335636, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.8045148849487305, 'total_loss': 13.200957298278809, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12197298556566238, 'vf_explained_var': 0.9894353151321411, 'vf_loss': 13.312145233154297}, 'grad_time_ms': 745.2}",3934253,63745.061317682266,-151.63851588055306,cda-server-6,24,-166.4776514019978,{},15096,10.157.146.6,{},-139.5958818274101,0,1200,2025-08-30_08-19-05,629,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756534745,50.0,754800,63745.061317682266,91.24492645263672,629
+756000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 100842.923, 'num_steps_sampled': 756000, 'update_time_ms': 2.551, 'num_steps_trained': 756000, 'load_time_ms': 0.609, 'default': {'kl': 0.010836427100002766, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.896514415740967, 'total_loss': 20.006378173828125, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11461702734231949, 'vf_explained_var': 0.9843152165412903, 'vf_loss': 20.110023498535156}, 'grad_time_ms': 724.066}",3934253,63843.82303214073,-151.58272379672468,cda-server-6,24,-166.4776514019978,{},15120,10.157.146.6,{},-139.5958818274101,0,1200,2025-08-30_08-20-44,630,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756534844,50.0,756000,63843.82303214073,98.76171445846558,630
+757200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 101480.276, 'num_steps_sampled': 757200, 'update_time_ms': 2.489, 'num_steps_trained': 757200, 'load_time_ms': 0.61, 'default': {'kl': 0.012623208574950695, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.808897972106934, 'total_loss': 15.05218505859375, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.10825130343437195, 'vf_explained_var': 0.9871785640716553, 'vf_loss': 15.147655487060547}, 'grad_time_ms': 723.758}",3934253,63940.66364145279,-151.53546933288317,cda-server-6,24,-166.4776514019978,{},15144,10.157.146.6,{},-141.66980860902888,0,1200,2025-08-30_08-22-21,631,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756534941,50.0,757200,63940.66364145279,96.8406093120575,631
+758400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 100884.692, 'num_steps_sampled': 758400, 'update_time_ms': 2.45, 'num_steps_trained': 758400, 'load_time_ms': 0.64, 'default': {'kl': 0.01185892429202795, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.723665714263916, 'total_loss': 11.030750274658203, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.10723483562469482, 'vf_explained_var': 0.9907653331756592, 'vf_loss': 11.125978469848633}, 'grad_time_ms': 717.742}",3934253,64019.64652919769,-151.36588981547644,cda-server-6,24,-158.80067592354442,{},15168,10.157.146.6,{},-141.66980860902888,0,1200,2025-08-30_08-23-40,632,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756535020,50.0,758400,64019.64652919769,78.98288774490356,632
+759600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 98671.08, 'num_steps_sampled': 759600, 'update_time_ms': 2.454, 'num_steps_trained': 759600, 'load_time_ms': 0.646, 'default': {'kl': 0.012938495725393295, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.659440994262695, 'total_loss': 13.684261322021484, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11048747599124908, 'vf_explained_var': 0.9885939359664917, 'vf_loss': 13.781648635864258}, 'grad_time_ms': 709.359}",3934253,64107.37429046631,-151.65608875992902,cda-server-6,24,-164.02453192680858,{},15192,10.157.146.6,{},-142.51797225071994,0,1200,2025-08-30_08-25-08,633,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756535108,50.0,759600,64107.37429046631,87.72776126861572,633
+760800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 98553.06, 'num_steps_sampled': 760800, 'update_time_ms': 2.495, 'num_steps_trained': 760800, 'load_time_ms': 0.636, 'default': {'kl': 0.012192122638225555, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.7756500244140625, 'total_loss': 8.989873886108398, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11869990825653076, 'vf_explained_var': 0.9927349090576172, 'vf_loss': 9.096230506896973}, 'grad_time_ms': 714.761}",3934253,64201.98797130585,-151.59236133085568,cda-server-6,24,-164.02453192680858,{},15216,10.157.146.6,{},-147.74976120463958,0,1200,2025-08-30_08-26-42,634,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756535202,50.0,760800,64201.98797130585,94.61368083953857,634
+762000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 99148.287, 'num_steps_sampled': 762000, 'update_time_ms': 2.504, 'num_steps_trained': 762000, 'load_time_ms': 0.633, 'default': {'kl': 0.012157265096902847, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.482801914215088, 'total_loss': 9.540739059448242, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11832654476165771, 'vf_explained_var': 0.9925000071525574, 'vf_loss': 9.646757125854492}, 'grad_time_ms': 704.804}",3934253,64327.25306916237,-151.5300366605358,cda-server-6,24,-164.02453192680858,{},15240,10.157.146.6,{},-145.57923844267256,0,1200,2025-08-30_08-28-48,635,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756535328,50.0,762000,64327.25306916237,125.2650978565216,635
+763200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94685.493, 'num_steps_sampled': 763200, 'update_time_ms': 2.451, 'num_steps_trained': 763200, 'load_time_ms': 0.639, 'default': {'kl': 0.011522796005010605, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.750631332397461, 'total_loss': 14.481304168701172, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11807700991630554, 'vf_explained_var': 0.9886033535003662, 'vf_loss': 14.587714195251465}, 'grad_time_ms': 725.526}",3934253,64398.10787272453,-151.58026426985145,cda-server-6,24,-166.86872080682477,{},15264,10.157.146.6,{},-135.66465642046649,0,1200,2025-08-30_08-29-59,636,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756535399,50.0,763200,64398.10787272453,70.8548035621643,636
+764400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 91776.876, 'num_steps_sampled': 764400, 'update_time_ms': 2.38, 'num_steps_trained': 764400, 'load_time_ms': 0.647, 'default': {'kl': 0.012320362962782383, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.598195552825928, 'total_loss': 13.947826385498047, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.10195771604776382, 'vf_explained_var': 0.9885042905807495, 'vf_loss': 14.037308692932129}, 'grad_time_ms': 759.452}",3934253,64490.04764533043,-151.43070890493792,cda-server-6,24,-166.86872080682477,{},15288,10.157.146.6,{},-135.66465642046649,0,1200,2025-08-30_08-31-30,637,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756535490,50.0,764400,64490.04764533043,91.939772605896,637
+765600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94764.538, 'num_steps_sampled': 765600, 'update_time_ms': 2.38, 'num_steps_trained': 765600, 'load_time_ms': 0.642, 'default': {'kl': 0.01230735331773758, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.373239040374756, 'total_loss': 10.451953887939453, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11258859187364578, 'vf_explained_var': 0.991771399974823, 'vf_loss': 10.552081108093262}, 'grad_time_ms': 756.828}",3934253,64609.111683130264,-151.24051930669168,cda-server-6,24,-166.86872080682477,{},15312,10.157.146.6,{},-135.66465642046649,0,1200,2025-08-30_08-33-30,638,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756535610,50.0,765600,64609.111683130264,119.0640377998352,638
+766800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94182.613, 'num_steps_sampled': 766800, 'update_time_ms': 2.45, 'num_steps_trained': 766800, 'load_time_ms': 0.644, 'default': {'kl': 0.01306148525327444, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.652033805847168, 'total_loss': 11.028017044067383, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11691049486398697, 'vf_explained_var': 0.9918647408485413, 'vf_loss': 11.131702423095703}, 'grad_time_ms': 757.641}",3934253,64694.54643154144,-151.55331459979587,cda-server-6,24,-166.86872080682477,{},15336,10.157.146.6,{},-135.66465642046649,0,1200,2025-08-30_08-34-55,639,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756535695,50.0,766800,64694.54643154144,85.43474841117859,639
+768000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93906.791, 'num_steps_sampled': 768000, 'update_time_ms': 2.421, 'num_steps_trained': 768000, 'load_time_ms': 0.637, 'default': {'kl': 0.01332173403352499, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.823115825653076, 'total_loss': 10.166665077209473, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12121745198965073, 'vf_explained_var': 0.9914849400520325, 'vf_loss': 10.274394989013672}, 'grad_time_ms': 780.376}",3934253,64790.77740550041,-151.35041920654274,cda-server-6,24,-163.88208498966546,{},15360,10.157.146.6,{},-139.95728698257986,0,1200,2025-08-30_08-36-31,640,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756535791,50.0,768000,64790.77740550041,96.23097395896912,640
+769200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 96050.788, 'num_steps_sampled': 769200, 'update_time_ms': 2.539, 'num_steps_trained': 769200, 'load_time_ms': 0.635, 'default': {'kl': 0.012392531149089336, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.514824390411377, 'total_loss': 7.781041622161865, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12088058888912201, 'vf_explained_var': 0.9940726161003113, 'vf_loss': 7.889374732971191}, 'grad_time_ms': 778.119}",3934253,64909.03731918335,-150.96115774447182,cda-server-6,24,-163.88208498966546,{},15384,10.157.146.6,{},-139.95728698257986,0,1200,2025-08-30_08-38-30,641,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756535910,50.0,769200,64909.03731918335,118.25991368293762,641
+770400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 99890.034, 'num_steps_sampled': 770400, 'update_time_ms': 2.583, 'num_steps_trained': 770400, 'load_time_ms': 0.598, 'default': {'kl': 0.013650444336235523, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.526227951049805, 'total_loss': 17.587209701538086, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.10258938372135162, 'vf_explained_var': 0.9885136485099792, 'vf_loss': 17.67597770690918}, 'grad_time_ms': 782.955}",3934253,65026.46193361282,-151.0723561949242,cda-server-6,24,-163.88208498966546,{},15408,10.157.146.6,{},-142.86892682381847,0,1200,2025-08-30_08-40-27,642,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756536027,50.0,770400,65026.46193361282,117.42461442947388,642
+771600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 101276.207, 'num_steps_sampled': 771600, 'update_time_ms': 2.602, 'num_steps_trained': 771600, 'load_time_ms': 0.601, 'default': {'kl': 0.013796964660286903, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.629274368286133, 'total_loss': 8.684115409851074, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12487681955099106, 'vf_explained_var': 0.9934294819831848, 'vf_loss': 8.795022964477539}, 'grad_time_ms': 778.614}",3934253,65128.00844717026,-151.140397750438,cda-server-6,24,-165.09382066300637,{},15432,10.157.146.6,{},-141.67803283239894,0,1200,2025-08-30_08-42-09,643,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756536129,50.0,771600,65128.00844717026,101.54651355743408,643
+772800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 98711.301, 'num_steps_sampled': 772800, 'update_time_ms': 2.525, 'num_steps_trained': 772800, 'load_time_ms': 0.606, 'default': {'kl': 0.011933304369449615, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.656396865844727, 'total_loss': 10.540224075317383, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12175066024065018, 'vf_explained_var': 0.9919617176055908, 'vf_loss': 10.649892807006836}, 'grad_time_ms': 774.185}",3934253,65196.92683053017,-151.43561850808175,cda-server-6,24,-165.09382066300637,{},15456,10.157.146.6,{},-141.67803283239894,0,1200,2025-08-30_08-43-17,644,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756536197,50.0,772800,65196.92683053017,68.91838335990906,644
+774000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94945.91, 'num_steps_sampled': 774000, 'update_time_ms': 2.5, 'num_steps_trained': 774000, 'load_time_ms': 0.622, 'default': {'kl': 0.012951802462339401, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.6081223487854, 'total_loss': 11.552346229553223, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12751348316669464, 'vf_explained_var': 0.9913455247879028, 'vf_loss': 11.66674518585205}, 'grad_time_ms': 776.546}",3934253,65284.56107521057,-151.55425962251707,cda-server-6,24,-165.09382066300637,{},15480,10.157.146.6,{},-139.4596296357344,0,1200,2025-08-30_08-44-45,645,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756536285,50.0,774000,65284.56107521057,87.63424468040466,645
+775200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 97436.799, 'num_steps_sampled': 775200, 'update_time_ms': 2.503, 'num_steps_trained': 775200, 'load_time_ms': 0.616, 'default': {'kl': 0.01226724311709404, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.506907939910889, 'total_loss': 11.610782623291016, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11629611998796463, 'vf_explained_var': 0.990890622138977, 'vf_loss': 11.7146577835083}, 'grad_time_ms': 776.118}",3934253,65380.31948065758,-151.60373988103257,cda-server-6,24,-165.09382066300637,{},15504,10.157.146.6,{},-139.4596296357344,0,1200,2025-08-30_08-46-21,646,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756536381,50.0,775200,65380.31948065758,95.75840544700623,646
+776400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 98575.832, 'num_steps_sampled': 776400, 'update_time_ms': 2.522, 'num_steps_trained': 776400, 'load_time_ms': 0.612, 'default': {'kl': 0.013378623872995377, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.336060047149658, 'total_loss': 6.171751022338867, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11012449115514755, 'vf_explained_var': 0.9950565695762634, 'vf_loss': 6.268329620361328}, 'grad_time_ms': 770.747}",3934253,65483.59596991539,-151.69143272461713,cda-server-6,24,-164.05178551685933,{},15528,10.157.146.6,{},-139.4596296357344,0,1200,2025-08-30_08-48-04,647,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756536484,50.0,776400,65483.59596991539,103.2764892578125,647
+777600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 98555.02, 'num_steps_sampled': 777600, 'update_time_ms': 2.559, 'num_steps_trained': 777600, 'load_time_ms': 0.62, 'default': {'kl': 0.012983070686459541, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.5856804847717285, 'total_loss': 7.57802677154541, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11344198137521744, 'vf_explained_var': 0.9940193891525269, 'vf_loss': 7.678323745727539}, 'grad_time_ms': 779.093}",3934253,65602.53673911095,-151.45275960946202,cda-server-6,24,-164.05178551685933,{},15552,10.157.146.6,{},-139.4596296357344,0,1200,2025-08-30_08-50-03,648,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756536603,50.0,777600,65602.53673911095,118.94076919555664,648
+778800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 99848.798, 'num_steps_sampled': 778800, 'update_time_ms': 2.549, 'num_steps_trained': 778800, 'load_time_ms': 0.617, 'default': {'kl': 0.011338386684656143, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.613151550292969, 'total_loss': 12.30356216430664, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.10434151440858841, 'vf_explained_var': 0.9906575679779053, 'vf_loss': 12.39642333984375}, 'grad_time_ms': 763.442}",3934253,65700.7525241375,-151.33954524857702,cda-server-6,24,-164.05178551685933,{},15576,10.157.146.6,{},-141.78754009526514,0,1200,2025-08-30_08-51-41,649,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756536701,50.0,778800,65700.7525241375,98.2157850265503,649
+780000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 100781.345, 'num_steps_sampled': 780000, 'update_time_ms': 2.527, 'num_steps_trained': 780000, 'load_time_ms': 0.622, 'default': {'kl': 0.013383557088673115, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.252384185791016, 'total_loss': 9.627680778503418, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11854615807533264, 'vf_explained_var': 0.9921794533729553, 'vf_loss': 9.732675552368164}, 'grad_time_ms': 765.889}",3934253,65806.33282995224,-151.20732308144824,cda-server-6,24,-164.05178551685933,{},15600,10.157.146.6,{},-141.78754009526514,0,1200,2025-08-30_08-53-27,650,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756536807,50.0,780000,65806.33282995224,105.58030581474304,650
+781200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 98930.099, 'num_steps_sampled': 781200, 'update_time_ms': 2.402, 'num_steps_trained': 781200, 'load_time_ms': 0.621, 'default': {'kl': 0.012757916003465652, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.42793083190918, 'total_loss': 10.180928230285645, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1097208559513092, 'vf_explained_var': 0.99164879322052, 'vf_loss': 10.277731895446777}, 'grad_time_ms': 763.95}",3934253,65906.05948472023,-150.76600787910772,cda-server-6,24,-161.78974099861574,{},15624,10.157.146.6,{},-141.78754009526514,0,1200,2025-08-30_08-55-07,651,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756536907,50.0,781200,65906.05948472023,99.72665476799011,651
+782400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 95713.624, 'num_steps_sampled': 782400, 'update_time_ms': 2.422, 'num_steps_trained': 782400, 'load_time_ms': 0.626, 'default': {'kl': 0.011412886902689934, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.393667221069336, 'total_loss': 19.408985137939453, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11556919664144516, 'vf_explained_var': 0.9846268892288208, 'vf_loss': 19.512996673583984}, 'grad_time_ms': 767.191}",3934253,65991.35186958313,-151.0416711676692,cda-server-6,24,-162.9573703906747,{},15648,10.157.146.6,{},-142.75696429563217,0,1200,2025-08-30_08-56-32,652,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756536992,50.0,782400,65991.35186958313,85.29238486289978,652
+783600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94709.237, 'num_steps_sampled': 783600, 'update_time_ms': 2.422, 'num_steps_trained': 783600, 'load_time_ms': 0.624, 'default': {'kl': 0.012586956843733788, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.694999694824219, 'total_loss': 8.255680084228516, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12337406724691391, 'vf_explained_var': 0.9931978583335876, 'vf_loss': 8.36630916595459}, 'grad_time_ms': 776.443}",3934253,66082.94680023193,-151.26611398768958,cda-server-6,24,-164.28386676227794,{},15672,10.157.146.6,{},-142.75696429563217,0,1200,2025-08-30_08-58-04,653,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756537084,50.0,783600,66082.94680023193,91.59493064880371,653
+784800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93480.09, 'num_steps_sampled': 784800, 'update_time_ms': 2.477, 'num_steps_trained': 784800, 'load_time_ms': 0.63, 'default': {'kl': 0.011648065410554409, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.439423561096191, 'total_loss': 6.595895290374756, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1131308376789093, 'vf_explained_var': 0.9945122599601746, 'vf_loss': 6.697232723236084}, 'grad_time_ms': 782.817}",3934253,66139.63784337044,-151.421835252641,cda-server-6,24,-166.17811680513293,{},15696,10.157.146.6,{},-142.75696429563217,0,1200,2025-08-30_08-59-00,654,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756537140,50.0,784800,66139.63784337044,56.69104313850403,654
+786000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93421.758, 'num_steps_sampled': 786000, 'update_time_ms': 2.448, 'num_steps_trained': 786000, 'load_time_ms': 0.617, 'default': {'kl': 0.012986731715500355, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.728307723999023, 'total_loss': 12.930699348449707, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12061098217964172, 'vf_explained_var': 0.9898444414138794, 'vf_loss': 13.038162231445312}, 'grad_time_ms': 757.218}",3934253,66226.43191671371,-151.55709439030414,cda-server-6,24,-166.17811680513293,{},15720,10.157.146.6,{},-141.89106674327246,0,1200,2025-08-30_09-00-27,655,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756537227,50.0,786000,66226.43191671371,86.79407334327698,655
+787200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 91060.581, 'num_steps_sampled': 787200, 'update_time_ms': 2.515, 'num_steps_trained': 787200, 'load_time_ms': 0.615, 'default': {'kl': 0.012636389583349228, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.8368353843688965, 'total_loss': 14.384733200073242, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13676336407661438, 'vf_explained_var': 0.9892227649688721, 'vf_loss': 14.50870132446289}, 'grad_time_ms': 754.775}",3934253,66298.55557537079,-151.40458382084128,cda-server-6,24,-166.17811680513293,{},15744,10.157.146.6,{},-141.54462597260832,0,1200,2025-08-30_09-01-39,656,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756537299,50.0,787200,66298.55557537079,72.12365865707397,656
+788400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 86574.116, 'num_steps_sampled': 788400, 'update_time_ms': 2.507, 'num_steps_trained': 788400, 'load_time_ms': 0.619, 'default': {'kl': 0.013919010758399963, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.683310508728027, 'total_loss': 8.733895301818848, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11779823899269104, 'vf_explained_var': 0.992950439453125, 'vf_loss': 8.837601661682129}, 'grad_time_ms': 761.237}",3934253,66357.03185558319,-151.25175747424433,cda-server-6,24,-166.17811680513293,{},15768,10.157.146.6,{},-141.54462597260832,0,1200,2025-08-30_09-02-38,657,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756537358,50.0,788400,66357.03185558319,58.476280212402344,657
+789600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 82118.274, 'num_steps_sampled': 789600, 'update_time_ms': 2.47, 'num_steps_trained': 789600, 'load_time_ms': 0.616, 'default': {'kl': 0.012269611470401287, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.552437782287598, 'total_loss': 12.102431297302246, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1195855513215065, 'vf_explained_var': 0.990055501461029, 'vf_loss': 12.209592819213867}, 'grad_time_ms': 766.057}",3934253,66431.46171355247,-151.0359636759865,cda-server-6,24,-163.4725483196033,{},15792,10.157.146.6,{},-141.54462597260832,0,1200,2025-08-30_09-03-52,658,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756537432,50.0,789600,66431.46171355247,74.42985796928406,658
+790800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 83903.982, 'num_steps_sampled': 790800, 'update_time_ms': 2.472, 'num_steps_trained': 790800, 'load_time_ms': 0.62, 'default': {'kl': 0.007937086746096611, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.613508701324463, 'total_loss': 45.66404724121094, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1019890308380127, 'vf_explained_var': 0.9751158952713013, 'vf_loss': 45.757999420166016}, 'grad_time_ms': 774.19}",3934253,66547.61732769012,-151.75462206130666,cda-server-6,24,-209.2673208160466,{},15816,10.157.146.6,{},-141.54462597260832,0,1200,2025-08-30_09-05-48,659,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756537548,50.0,790800,66547.61732769012,116.15561413764954,659
+792000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 82488.539, 'num_steps_sampled': 792000, 'update_time_ms': 2.46, 'num_steps_trained': 792000, 'load_time_ms': 0.622, 'default': {'kl': 0.012799741700291634, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.50419807434082, 'total_loss': 8.887038230895996, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1166180744767189, 'vf_explained_var': 0.9929201602935791, 'vf_loss': 8.990696907043457}, 'grad_time_ms': 780.299}",3934253,66639.10441493988,-152.13930837402907,cda-server-6,24,-209.2673208160466,{},15840,10.157.146.6,{},-141.75838048415804,0,1200,2025-08-30_09-07-20,660,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756537640,50.0,792000,66639.10441493988,91.48708724975586,660
+793200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 81544.232, 'num_steps_sampled': 793200, 'update_time_ms': 2.483, 'num_steps_trained': 793200, 'load_time_ms': 0.623, 'default': {'kl': 0.013526301831007004, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.520646572113037, 'total_loss': 6.78563117980957, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1247837170958519, 'vf_explained_var': 0.9944746494293213, 'vf_loss': 6.896719455718994}, 'grad_time_ms': 787.181}",3934253,66729.45693945885,-152.25459962815407,cda-server-6,24,-209.2673208160466,{},15864,10.157.146.6,{},-141.75838048415804,0,1200,2025-08-30_09-08-50,661,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756537730,50.0,793200,66729.45693945885,90.35252451896667,661
+794400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 81566.335, 'num_steps_sampled': 794400, 'update_time_ms': 2.481, 'num_steps_trained': 794400, 'load_time_ms': 0.624, 'default': {'kl': 0.009709502570331097, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.697580814361572, 'total_loss': 31.00704574584961, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.10691169649362564, 'vf_explained_var': 0.9766644239425659, 'vf_loss': 31.1041259765625}, 'grad_time_ms': 784.331}",3934253,66814.94206523895,-152.15130963223993,cda-server-6,24,-209.2673208160466,{},15888,10.157.146.6,{},-141.75838048415804,0,1200,2025-08-30_09-10-16,662,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756537816,50.0,794400,66814.94206523895,85.48512578010559,662
+795600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 81604.465, 'num_steps_sampled': 795600, 'update_time_ms': 2.449, 'num_steps_trained': 795600, 'load_time_ms': 0.63, 'default': {'kl': 0.011459432542324066, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.440579891204834, 'total_loss': 9.810572624206543, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11177754402160645, 'vf_explained_var': 0.9926278591156006, 'vf_loss': 9.910746574401855}, 'grad_time_ms': 753.241}",3934253,66906.60725140572,-151.43457264234567,cda-server-6,24,-164.53212164937042,{},15912,10.157.146.6,{},-141.75838048415804,0,1200,2025-08-30_09-11-47,663,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756537907,50.0,795600,66906.60725140572,91.6651861667633,663
+796800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 85209.039, 'num_steps_sampled': 796800, 'update_time_ms': 2.44, 'num_steps_trained': 796800, 'load_time_ms': 0.62, 'default': {'kl': 0.014888007193803787, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.557436466217041, 'total_loss': 7.459188461303711, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1355879008769989, 'vf_explained_var': 0.994841992855072, 'vf_loss': 7.579701900482178}, 'grad_time_ms': 754.921}",3934253,66999.36083936691,-151.34236627439955,cda-server-6,24,-164.53212164937042,{},15936,10.157.146.6,{},-142.46980255395553,0,1200,2025-08-30_09-13-20,664,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756538000,50.0,796800,66999.36083936691,92.7535879611969,664
+798000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 86016.806, 'num_steps_sampled': 798000, 'update_time_ms': 2.522, 'num_steps_trained': 798000, 'load_time_ms': 0.624, 'default': {'kl': 0.011667725630104542, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.511973857879639, 'total_loss': 17.17188262939453, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11145953088998795, 'vf_explained_var': 0.9879921674728394, 'vf_loss': 17.271528244018555}, 'grad_time_ms': 770.477}",3934253,67094.38917398453,-151.15047415516864,cda-server-6,24,-159.77875482028378,{},15960,10.157.146.6,{},-142.46980255395553,0,1200,2025-08-30_09-14-55,665,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756538095,50.0,798000,67094.38917398453,95.02833461761475,665
+799200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 87249.057, 'num_steps_sampled': 799200, 'update_time_ms': 2.486, 'num_steps_trained': 799200, 'load_time_ms': 0.627, 'default': {'kl': 0.012102197855710983, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.43237829208374, 'total_loss': 7.126491069793701, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11670617014169693, 'vf_explained_var': 0.994476318359375, 'vf_loss': 7.23094367980957}, 'grad_time_ms': 770.622}",3934253,67178.83634185791,-151.30152287858394,cda-server-6,24,-159.77875482028378,{},15984,10.157.146.6,{},-142.46980255395553,0,1200,2025-08-30_09-16-20,666,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756538180,50.0,799200,67178.83634185791,84.44716787338257,666
+800400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 91353.758, 'num_steps_sampled': 800400, 'update_time_ms': 2.512, 'num_steps_trained': 800400, 'load_time_ms': 0.628, 'default': {'kl': 0.011202414520084858, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.938111782073975, 'total_loss': 28.343528747558594, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11333584785461426, 'vf_explained_var': 0.9814093112945557, 'vf_loss': 28.44552230834961}, 'grad_time_ms': 744.531}",3934253,67278.0993475914,-151.50161338262103,cda-server-6,24,-165.1941954418082,{},16008,10.157.146.6,{},-142.46980255395553,0,1200,2025-08-30_09-17-59,667,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756538279,50.0,800400,67278.0993475914,99.26300573348999,667
+801600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94170.663, 'num_steps_sampled': 801600, 'update_time_ms': 2.597, 'num_steps_trained': 801600, 'load_time_ms': 0.64, 'default': {'kl': 0.013727385550737381, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.836697578430176, 'total_loss': 8.947104454040527, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.13056008517742157, 'vf_explained_var': 0.9923450946807861, 'vf_loss': 9.063766479492188}, 'grad_time_ms': 728.366}",3934253,67380.53780794144,-151.21565188693177,cda-server-6,24,-165.1941954418082,{},16032,10.157.146.6,{},-142.47529502612474,0,1200,2025-08-30_09-19-41,668,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756538381,50.0,801600,67380.53780794144,102.43846035003662,668
+802800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93225.319, 'num_steps_sampled': 802800, 'update_time_ms': 2.595, 'num_steps_trained': 802800, 'load_time_ms': 0.641, 'default': {'kl': 0.012475317344069481, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.533681392669678, 'total_loss': 8.152522087097168, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11396972090005875, 'vf_explained_var': 0.9932054877281189, 'vf_loss': 8.253859519958496}, 'grad_time_ms': 722.125}",3934253,67487.17651033401,-151.30825228574636,cda-server-6,24,-165.1941954418082,{},16056,10.157.146.6,{},-142.47529502612474,0,1200,2025-08-30_09-21-28,669,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756538488,50.0,802800,67487.17651033401,106.63870239257812,669
+804000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93995.465, 'num_steps_sampled': 804000, 'update_time_ms': 2.617, 'num_steps_trained': 804000, 'load_time_ms': 0.64, 'default': {'kl': 0.012943493202328682, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.564505100250244, 'total_loss': 6.670261383056641, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11613664031028748, 'vf_explained_var': 0.9946820139884949, 'vf_loss': 6.773292541503906}, 'grad_time_ms': 719.747}",3934253,67586.34124970436,-151.18661510618227,cda-server-6,24,-165.1941954418082,{},16080,10.157.146.6,{},-142.47529502612474,0,1200,2025-08-30_09-23-07,670,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756538587,50.0,804000,67586.34124970436,99.16473937034607,670
+805200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94262.434, 'num_steps_sampled': 805200, 'update_time_ms': 2.627, 'num_steps_trained': 805200, 'load_time_ms': 0.641, 'default': {'kl': 0.01226672250777483, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.056154727935791, 'total_loss': 8.908513069152832, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12133461982011795, 'vf_explained_var': 0.9923565983772278, 'vf_loss': 9.017428398132324}, 'grad_time_ms': 718.622}",3934253,67679.35307192802,-151.23372935764777,cda-server-6,24,-165.1941954418082,{},16104,10.157.146.6,{},-142.47529502612474,0,1200,2025-08-30_09-24-40,671,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756538680,50.0,805200,67679.35307192802,93.01182222366333,671
+806400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 95903.582, 'num_steps_sampled': 806400, 'update_time_ms': 2.629, 'num_steps_trained': 806400, 'load_time_ms': 0.64, 'default': {'kl': 0.013150524348020554, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.534552574157715, 'total_loss': 10.642876625061035, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12220504879951477, 'vf_explained_var': 0.9922248125076294, 'vf_loss': 10.751766204833984}, 'grad_time_ms': 725.111}",3934253,67781.31496477127,-151.34883223728843,cda-server-6,24,-163.48883436689144,{},16128,10.157.146.6,{},-144.58835193512377,0,1200,2025-08-30_09-26-22,672,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756538782,50.0,806400,67781.31496477127,101.96189284324646,672
+807600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 96976.531, 'num_steps_sampled': 807600, 'update_time_ms': 2.639, 'num_steps_trained': 807600, 'load_time_ms': 0.628, 'default': {'kl': 0.012908346019685268, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.433506011962891, 'total_loss': 11.394515037536621, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11172091960906982, 'vf_explained_var': 0.990711510181427, 'vf_loss': 11.493165969848633}, 'grad_time_ms': 745.565}",3934253,67883.91454315186,-151.22890771549737,cda-server-6,24,-163.48883436689144,{},16152,10.157.146.6,{},-139.43140026304368,0,1200,2025-08-30_09-28-05,673,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756538885,50.0,807600,67883.91454315186,102.59957838058472,673
+808800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 98556.756, 'num_steps_sampled': 808800, 'update_time_ms': 2.654, 'num_steps_trained': 808800, 'load_time_ms': 0.634, 'default': {'kl': 0.013200155459344387, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.696569442749023, 'total_loss': 7.806126117706299, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12211307138204575, 'vf_explained_var': 0.9940935969352722, 'vf_loss': 7.9148736000061035}, 'grad_time_ms': 741.058}",3934253,67992.4255001545,-151.68195875737942,cda-server-6,24,-164.95892603061685,{},16176,10.157.146.6,{},-139.43140026304368,0,1200,2025-08-30_09-29-53,674,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756538993,50.0,808800,67992.4255001545,108.51095700263977,674
+810000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 100854.048, 'num_steps_sampled': 810000, 'update_time_ms': 2.611, 'num_steps_trained': 810000, 'load_time_ms': 0.628, 'default': {'kl': 0.011847835965454578, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.6236677169799805, 'total_loss': 12.153740882873535, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11479135602712631, 'vf_explained_var': 0.9907311201095581, 'vf_loss': 12.256536483764648}, 'grad_time_ms': 750.617}",3934253,68110.52215981483,-151.57957172871915,cda-server-6,24,-164.95892603061685,{},16200,10.157.146.6,{},-139.43140026304368,0,1200,2025-08-30_09-31-52,675,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756539112,50.0,810000,68110.52215981483,118.09665966033936,675
+811200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 102943.044, 'num_steps_sampled': 811200, 'update_time_ms': 2.666, 'num_steps_trained': 811200, 'load_time_ms': 0.647, 'default': {'kl': 0.012600626796483994, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.64918851852417, 'total_loss': 16.147125244140625, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.14403095841407776, 'vf_explained_var': 0.98751300573349, 'vf_loss': 16.278398513793945}, 'grad_time_ms': 744.666}",3934253,68215.8010263443,-151.69943842256066,cda-server-6,24,-168.19080211933337,{},16224,10.157.146.6,{},-139.43140026304368,0,1200,2025-08-30_09-33-37,676,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756539217,50.0,811200,68215.8010263443,105.27886652946472,676
+812400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 101904.919, 'num_steps_sampled': 812400, 'update_time_ms': 2.604, 'num_steps_trained': 812400, 'load_time_ms': 0.647, 'default': {'kl': 0.012451926246285439, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.550738334655762, 'total_loss': 8.950202941894531, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11671951413154602, 'vf_explained_var': 0.9930202960968018, 'vf_loss': 9.054315567016602}, 'grad_time_ms': 767.029}",3934253,68304.90540742874,-151.9255237656048,cda-server-6,24,-168.19080211933337,{},16248,10.157.146.6,{},-141.6557397808477,0,1200,2025-08-30_09-35-06,677,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756539306,50.0,812400,68304.90540742874,89.10438108444214,677
+813600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 100236.082, 'num_steps_sampled': 813600, 'update_time_ms': 2.596, 'num_steps_trained': 813600, 'load_time_ms': 0.634, 'default': {'kl': 0.011645686812698841, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.426385879516602, 'total_loss': 25.895009994506836, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.10874418914318085, 'vf_explained_var': 0.9853691458702087, 'vf_loss': 25.991962432861328}, 'grad_time_ms': 781.1}",3934253,68390.79599404335,-151.39686840499604,cda-server-6,24,-168.19080211933337,{},16272,10.157.146.6,{},-141.6557397808477,0,1200,2025-08-30_09-36-32,678,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756539392,50.0,813600,68390.79599404335,85.89058661460876,678
+814800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 100186.238, 'num_steps_sampled': 814800, 'update_time_ms': 2.597, 'num_steps_trained': 814800, 'load_time_ms': 0.633, 'default': {'kl': 0.012054681777954102, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.241293907165527, 'total_loss': 9.844844818115234, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.10538104176521301, 'vf_explained_var': 0.9917342066764832, 'vf_loss': 9.938020706176758}, 'grad_time_ms': 786.948}",3934253,68496.99503946304,-151.08533412484206,cda-server-6,24,-168.19080211933337,{},16296,10.157.146.6,{},-141.74999265829365,0,1200,2025-08-30_09-38-18,679,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756539498,50.0,814800,68496.99503946304,106.199045419693,679
+816000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 99076.14, 'num_steps_sampled': 816000, 'update_time_ms': 2.567, 'num_steps_trained': 816000, 'load_time_ms': 0.629, 'default': {'kl': 0.012802320532500744, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.331047534942627, 'total_loss': 10.05265998840332, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11535504460334778, 'vf_explained_var': 0.9921693801879883, 'vf_loss': 10.155052185058594}, 'grad_time_ms': 781.558}",3934253,68585.0056154728,-150.79877807890264,cda-server-6,24,-162.53422148169122,{},16320,10.157.146.6,{},-141.74999265829365,0,1200,2025-08-30_09-39-46,680,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756539586,50.0,816000,68585.0056154728,88.01057600975037,680
+817200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 97339.498, 'num_steps_sampled': 817200, 'update_time_ms': 2.579, 'num_steps_trained': 817200, 'load_time_ms': 0.626, 'default': {'kl': 0.012418713420629501, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.361508846282959, 'total_loss': 8.864505767822266, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12446033954620361, 'vf_explained_var': 0.9929365515708923, 'vf_loss': 8.976390838623047}, 'grad_time_ms': 780.2}",3934253,68660.64840269089,-150.8476379489054,cda-server-6,24,-163.65163740307503,{},16344,10.157.146.6,{},-140.52325129365028,0,1200,2025-08-30_09-41-02,681,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756539662,50.0,817200,68660.64840269089,75.64278721809387,681
+818400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 95654.015, 'num_steps_sampled': 818400, 'update_time_ms': 2.58, 'num_steps_trained': 818400, 'load_time_ms': 0.625, 'default': {'kl': 0.011963529512286186, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.352933883666992, 'total_loss': 14.166751861572266, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.12253758311271667, 'vf_explained_var': 0.9886897206306458, 'vf_loss': 14.277175903320312}, 'grad_time_ms': 779.43}",3934253,68745.74711084366,-150.81457327193596,cda-server-6,24,-163.87497421953273,{},16368,10.157.146.6,{},-140.52325129365028,0,1200,2025-08-30_09-42-27,682,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756539747,50.0,818400,68745.74711084366,85.098708152771,682
+819600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 96394.793, 'num_steps_sampled': 819600, 'update_time_ms': 2.6, 'num_steps_trained': 819600, 'load_time_ms': 0.642, 'default': {'kl': 0.011911649256944656, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.103545188903809, 'total_loss': 9.033626556396484, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1012423187494278, 'vf_explained_var': 0.9925553202629089, 'vf_loss': 9.122809410095215}, 'grad_time_ms': 785.224}",3934253,68855.81179380417,-150.8460074407685,cda-server-6,24,-163.87497421953273,{},16392,10.157.146.6,{},-140.52325129365028,0,1200,2025-08-30_09-44-17,683,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756539857,50.0,819600,68855.81179380417,110.06468296051025,683
+820800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 96089.793, 'num_steps_sampled': 820800, 'update_time_ms': 2.585, 'num_steps_trained': 820800, 'load_time_ms': 0.646, 'default': {'kl': 0.01197890192270279, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.369986534118652, 'total_loss': 9.048433303833008, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11695381999015808, 'vf_explained_var': 0.9941478371620178, 'vf_loss': 9.15325927734375}, 'grad_time_ms': 779.6}",3934253,68961.21634984016,-151.20101435769047,cda-server-6,24,-163.87497421953273,{},16416,10.157.146.6,{},-140.52325129365028,0,1200,2025-08-30_09-46-02,684,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756539962,50.0,820800,68961.21634984016,105.40455603599548,684
+822000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 95277.527, 'num_steps_sampled': 822000, 'update_time_ms': 2.612, 'num_steps_trained': 822000, 'load_time_ms': 0.643, 'default': {'kl': 0.012461802922189236, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.272339344024658, 'total_loss': 5.204405784606934, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11976167559623718, 'vf_explained_var': 0.9955686926841736, 'vf_loss': 5.311550617218018}, 'grad_time_ms': 781.68}",3934253,69071.21107387543,-151.26061614676337,cda-server-6,24,-163.87497421953273,{},16440,10.157.146.6,{},-141.8100592191962,0,1200,2025-08-30_09-47-52,685,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756540072,50.0,822000,69071.21107387543,109.99472403526306,685
+823200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 92447.797, 'num_steps_sampled': 823200, 'update_time_ms': 2.543, 'num_steps_trained': 823200, 'load_time_ms': 0.629, 'default': {'kl': 0.01256785448640585, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.144095420837402, 'total_loss': 8.30500602722168, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11857112497091293, 'vf_explained_var': 0.9932448863983154, 'vf_loss': 8.410853385925293}, 'grad_time_ms': 787.828}",3934253,69148.25281834602,-151.32705938647703,cda-server-6,24,-163.87497421953273,{},16464,10.157.146.6,{},-142.57374849668588,0,1200,2025-08-30_09-49-09,686,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756540149,50.0,823200,69148.25281834602,77.04174447059631,686
+824400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 86656.142, 'num_steps_sampled': 824400, 'update_time_ms': 2.651, 'num_steps_trained': 824400, 'load_time_ms': 0.625, 'default': {'kl': 0.013023233972489834, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.194946765899658, 'total_loss': 7.450124740600586, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11979203671216965, 'vf_explained_var': 0.9941511154174805, 'vf_loss': 7.556732177734375}, 'grad_time_ms': 776.974}",3934253,69179.33352923393,-151.38487842314197,cda-server-6,24,-162.7455905758164,{},16488,10.157.146.6,{},-142.57374849668588,0,1200,2025-08-30_09-49-41,687,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756540181,50.0,824400,69179.33352923393,31.080710887908936,687
+825600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 87077.504, 'num_steps_sampled': 825600, 'update_time_ms': 2.579, 'num_steps_trained': 825600, 'load_time_ms': 0.655, 'default': {'kl': 0.012215284630656242, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.197381496429443, 'total_loss': 6.406160354614258, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11759992688894272, 'vf_explained_var': 0.9950463771820068, 'vf_loss': 6.511392116546631}, 'grad_time_ms': 767.738}",3934253,69269.34405446053,-151.17998303169554,cda-server-6,24,-161.4520066765237,{},16512,10.157.146.6,{},-142.57374849668588,0,1200,2025-08-30_09-51-11,688,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756540271,50.0,825600,69269.34405446053,90.01052522659302,688
+826800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 85577.639, 'num_steps_sampled': 826800, 'update_time_ms': 2.554, 'num_steps_trained': 826800, 'load_time_ms': 0.653, 'default': {'kl': 0.012390440329909325, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.316177845001221, 'total_loss': 18.18695640563965, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11650380492210388, 'vf_explained_var': 0.9914601445198059, 'vf_loss': 18.290916442871094}, 'grad_time_ms': 778.028}",3934253,69360.6469142437,-151.49063416896567,cda-server-6,24,-165.0456315643184,{},16536,10.157.146.6,{},-142.57374849668588,0,1200,2025-08-30_09-52-42,689,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756540362,50.0,826800,69360.6469142437,91.30285978317261,689
+828000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 86750.332, 'num_steps_sampled': 828000, 'update_time_ms': 2.59, 'num_steps_trained': 828000, 'load_time_ms': 0.658, 'default': {'kl': 0.011441261507570744, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.2853240966796875, 'total_loss': 22.910051345825195, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11486013978719711, 'vf_explained_var': 0.9828611016273499, 'vf_loss': 23.013328552246094}, 'grad_time_ms': 770.52}",3934253,69460.30961084366,-151.7659706244583,cda-server-6,24,-180.0312363975615,{},16560,10.157.146.6,{},-147.80484426119497,0,1200,2025-08-30_09-54-22,690,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756540462,50.0,828000,69460.30961084366,99.66269659996033,690
+829200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 90554.163, 'num_steps_sampled': 829200, 'update_time_ms': 2.575, 'num_steps_trained': 829200, 'load_time_ms': 0.659, 'default': {'kl': 0.012882929295301437, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.380704879760742, 'total_loss': 14.827506065368652, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11432640999555588, 'vf_explained_var': 0.9901928305625916, 'vf_loss': 14.928787231445312}, 'grad_time_ms': 765.682}",3934253,69573.93123292923,-151.96510791490692,cda-server-6,24,-180.0312363975615,{},16584,10.157.146.6,{},-146.67734841385254,0,1200,2025-08-30_09-56-15,691,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756540575,50.0,829200,69573.93123292923,113.62162208557129,691
+830400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94301.75, 'num_steps_sampled': 830400, 'update_time_ms': 2.544, 'num_steps_trained': 830400, 'load_time_ms': 0.653, 'default': {'kl': 0.013330933637917042, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.488500595092773, 'total_loss': 25.625591278076172, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11284230649471283, 'vf_explained_var': 0.9840977191925049, 'vf_loss': 25.724937438964844}, 'grad_time_ms': 729.438}",3934253,69696.14327788353,-152.45992568128085,cda-server-6,24,-180.0312363975615,{},16608,10.157.146.6,{},-146.67734841385254,0,1200,2025-08-30_09-58-17,692,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756540697,50.0,830400,69696.14327788353,122.21204495429993,692
+831600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 93609.137, 'num_steps_sampled': 831600, 'update_time_ms': 2.539, 'num_steps_trained': 831600, 'load_time_ms': 0.641, 'default': {'kl': 0.013981933705508709, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.311878681182861, 'total_loss': 6.803781986236572, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11857353150844574, 'vf_explained_var': 0.9953944087028503, 'vf_loss': 6.908199310302734}, 'grad_time_ms': 718.791}",3934253,69799.17583036423,-152.2516817528202,cda-server-6,24,-180.0312363975615,{},16632,10.157.146.6,{},-146.67734841385254,0,1200,2025-08-30_10-00-01,693,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756540801,50.0,831600,69799.17583036423,103.03255248069763,693
+832800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 96258.397, 'num_steps_sampled': 832800, 'update_time_ms': 2.525, 'num_steps_trained': 832800, 'load_time_ms': 0.646, 'default': {'kl': 0.011710396967828274, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.321974754333496, 'total_loss': 7.118447303771973, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11277797818183899, 'vf_explained_var': 0.9942653179168701, 'vf_loss': 7.219368934631348}, 'grad_time_ms': 704.768}",3934253,69930.9327340126,-152.43928058541786,cda-server-6,24,-180.0312363975615,{},16656,10.157.146.6,{},-146.67734841385254,0,1200,2025-08-30_10-02-12,694,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756540932,50.0,832800,69930.9327340126,131.75690364837646,694
+834000,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 94101.325, 'num_steps_sampled': 834000, 'update_time_ms': 2.504, 'num_steps_trained': 834000, 'load_time_ms': 0.643, 'default': {'kl': 0.009334594011306763, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.432497501373291, 'total_loss': 42.389686584472656, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.0987766683101654, 'vf_explained_var': 0.9710657596588135, 'vf_loss': 42.479007720947266}, 'grad_time_ms': 674.781}",3934253,70019.05616569519,-152.5862841135043,cda-server-6,24,-215.12316385063616,{},16680,10.157.146.6,{},-139.70947457469018,0,1200,2025-08-30_10-03-40,695,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756541020,50.0,834000,70019.05616569519,88.12343168258667,695
+835200,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 97703.421, 'num_steps_sampled': 835200, 'update_time_ms': 2.461, 'num_steps_trained': 835200, 'load_time_ms': 0.642, 'default': {'kl': 0.010365894995629787, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.277856349945068, 'total_loss': 31.63107681274414, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.10792961716651917, 'vf_explained_var': 0.9769017696380615, 'vf_loss': 31.72850799560547}, 'grad_time_ms': 674.391}",3934253,70132.1143321991,-152.69711119289224,cda-server-6,24,-215.12316385063616,{},16704,10.157.146.6,{},-139.70947457469018,0,1200,2025-08-30_10-05-33,696,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756541133,50.0,835200,70132.1143321991,113.05816650390625,696
+836400,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 100679.433, 'num_steps_sampled': 836400, 'update_time_ms': 2.366, 'num_steps_trained': 836400, 'load_time_ms': 0.642, 'default': {'kl': 0.012433375231921673, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.009059429168701, 'total_loss': 14.474651336669922, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11254024505615234, 'vf_explained_var': 0.9880602359771729, 'vf_loss': 14.574604034423828}, 'grad_time_ms': 689.482}",3934253,70193.10514330864,-152.4112371065005,cda-server-6,24,-215.12316385063616,{},16728,10.157.146.6,{},-139.70947457469018,0,1200,2025-08-30_10-06-34,697,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756541194,50.0,836400,70193.10514330864,60.99081110954285,697
+837600,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 102270.979, 'num_steps_sampled': 837600, 'update_time_ms': 2.433, 'num_steps_trained': 837600, 'load_time_ms': 0.613, 'default': {'kl': 0.012350209057331085, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.168177127838135, 'total_loss': 10.318385124206543, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1254514455795288, 'vf_explained_var': 0.9916518330574036, 'vf_loss': 10.431331634521484}, 'grad_time_ms': 692.615}",3934253,70299.0635895729,-152.33370792697596,cda-server-6,24,-215.12316385063616,{},16752,10.157.146.6,{},-139.70947457469018,0,1200,2025-08-30_10-08-20,698,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756541300,50.0,837600,70299.0635895729,105.95844626426697,698
+838800,28bf8d7c89244732ac12356321e5be58,False,"{'sample_time_ms': 101079.944, 'num_steps_sampled': 838800, 'update_time_ms': 2.454, 'num_steps_trained': 838800, 'load_time_ms': 0.619, 'default': {'kl': 0.012040354311466217, 'cur_lr': 4.999999873689376e-05, 'entropy': 6.06229305267334, 'total_loss': 10.639694213867188, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.11114271730184555, 'vf_explained_var': 0.991613507270813, 'vf_loss': 10.738645553588867}, 'grad_time_ms': 687.555}",3934253,70378.40663385391,-152.0317558586114,cda-server-6,24,-186.7766576967727,{},16776,10.157.146.6,{},-141.7210758642898,0,1200,2025-08-30_10-09-40,699,"{'compress_observations': False, 'use_gae': True, 'num_envs_per_worker': 1, 'straggler_mitigation': False, 'input_evaluation': None, 'entropy_coeff': 0.0, 'output_max_file_size': 67108864, 'vf_share_layers': False, 'env_config': {'generalize': True, 'run_valid': False}, 'batch_mode': 'truncate_episodes', 'vf_loss_coeff': 1.0, 'observation_filter': 'MeanStdFilter', 'preprocessor_pref': 'deepmind', 'multiagent': {'policy_graphs': {}, 'policy_mapping_fn': None, 'policies_to_train': None}, 'lambda': 1.0, 'gamma': 0.99, 'num_cpus_for_driver': 1, 'log_level': 'INFO', 'num_cpus_per_worker': 1, 'clip_actions': True, 'synchronize_filters': True, 'sample_batch_size': 200, 'monitor': False, 'sample_async': False, 'num_workers': 6, 'num_sgd_iter': 30, 'postprocess_inputs': False, 'num_gpus_per_worker': 0, 'clip_param': 0.3, 'env': 'LEDRO_D_FC', 'vf_clip_param': 10.0, 'grad_clip': None, 'lr': 5e-05, 'simple_optimizer': False, 'kl_target': 0.01, 'optimizer': {}, 'tf_session_args': {'log_device_placement': False, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'allow_soft_placement': True}, 'sgd_minibatch_size': 128, 'horizon': 50, 'model': {'fcnet_hiddens': [128, 128, 128], 'grayscale': False, 'zero_mean': True, 'custom_preprocessor': None, 'fcnet_activation': 'tanh', 'framestack': True, 'free_log_std': False, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_cell_size': 256, 'lstm_use_prev_action_reward': False, 'dim': 84, 'custom_options': {}, 'use_lstm': False, 'squash_to_range': False, 'conv_filters': None, 'custom_model': None}, 'lr_schedule': None, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'output': None, 'kl_coeff': 0.2, 'clip_rewards': None, 'collect_metrics_timeout': 180, 'callbacks': {'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'num_gpus': 0, 'custom_resources_per_worker': {}, 'train_batch_size': 1200, 'output_compress_columns': ['obs', 'new_obs']}",1756541380,50.0,838800,70378.40663385391,79.34304428100586,699
diff --git a/experiments/ledro_d_fc_7nm_run4_horizon_50_range_10_400_400_start_33/PPO_LEDRO_D_FC_0_2025-08-29_14-36-17yoqm6ky6/result.json b/experiments/ledro_d_fc_7nm_run4_horizon_50_range_10_400_400_start_33/PPO_LEDRO_D_FC_0_2025-08-29_14-36-17yoqm6ky6/result.json
new file mode 100644
index 0000000..b1ef045
--- /dev/null
+++ b/experiments/ledro_d_fc_7nm_run4_horizon_50_range_10_400_400_start_33/PPO_LEDRO_D_FC_0_2025-08-29_14-36-17yoqm6ky6/result.json
@@ -0,0 +1,699 @@
+{"timesteps_total": 1200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 238752.488, "num_steps_sampled": 1200, "update_time_ms": 1494.553, "num_steps_trained": 1200, "load_time_ms": 91.451, "default": {"kl": 0.02345726452767849, "cur_lr": 4.999999873689376e-05, "entropy": 18.652944564819336, "total_loss": 13102.5712890625, "cur_kl_coeff": 0.20000000298023224, "policy_loss": -0.1253841370344162, "vf_explained_var": -0.020561866462230682, "vf_loss": 13102.69140625}, "grad_time_ms": 1736.076}, "pid": 3934253, "time_total_s": 242.16078996658325, "episode_reward_mean": -230.22058282191497, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -248.50570683339015, "policy_reward_mean": {}, "episodes_total": 24, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -189.17222398744005, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_14-40-32", "training_iteration": 1, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756471232, "episode_len_mean": 50.0, "timesteps_since_restore": 1200, "time_since_restore": 242.16078996658325, "time_this_iter_s": 242.16078996658325, "iterations_since_restore": 1}
+{"timesteps_total": 2400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 178035.505, "num_steps_sampled": 2400, "update_time_ms": 749.314, "num_steps_trained": 2400, "load_time_ms": 46.26, "default": {"kl": 0.022505946457386017, "cur_lr": 4.999999873689376e-05, "entropy": 18.62984848022461, "total_loss": 12515.01171875, "cur_kl_coeff": 0.30000001192092896, "policy_loss": -0.12131085991859436, "vf_explained_var": 0.046773672103881836, "vf_loss": 12515.125}, "grad_time_ms": 1248.081}, "pid": 3934253, "time_total_s": 360.25028228759766, "episode_reward_mean": -229.7708322779712, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -248.50570683339015, "policy_reward_mean": {}, "episodes_total": 48, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -189.17222398744005, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_14-42-30", "training_iteration": 2, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756471350, "episode_len_mean": 50.0, "timesteps_since_restore": 2400, "time_since_restore": 360.25028228759766, "time_this_iter_s": 118.0894923210144, "iterations_since_restore": 2}
+{"timesteps_total": 3600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 160903.856, "num_steps_sampled": 3600, "update_time_ms": 500.221, "num_steps_trained": 3600, "load_time_ms": 31.074, "default": {"kl": 0.021168239414691925, "cur_lr": 4.999999873689376e-05, "entropy": 18.610870361328125, "total_loss": 12362.8056640625, "cur_kl_coeff": 0.44999995827674866, "policy_loss": -0.12194083631038666, "vf_explained_var": 0.0496826171875, "vf_loss": 12362.91796875}, "grad_time_ms": 1005.561}, "pid": 3934253, "time_total_s": 487.41902899742126, "episode_reward_mean": -230.6458543464934, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -248.50570683339015, "policy_reward_mean": {}, "episodes_total": 72, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -189.17222398744005, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_14-44-37", "training_iteration": 3, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756471477, "episode_len_mean": 50.0, "timesteps_since_restore": 3600, "time_since_restore": 487.41902899742126, "time_this_iter_s": 127.16874670982361, "iterations_since_restore": 3}
+{"timesteps_total": 4800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 153296.846, "num_steps_sampled": 4800, "update_time_ms": 375.774, "num_steps_trained": 4800, "load_time_ms": 23.521, "default": {"kl": 0.020337438210844994, "cur_lr": 4.999999873689376e-05, "entropy": 18.58652687072754, "total_loss": 12319.80859375, "cur_kl_coeff": 0.675000011920929, "policy_loss": -0.12520265579223633, "vf_explained_var": 0.05312725529074669, "vf_loss": 12319.919921875}, "grad_time_ms": 927.15}, "pid": 3934253, "time_total_s": 618.5954301357269, "episode_reward_mean": -231.9126016253825, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -248.50570683339015, "policy_reward_mean": {}, "episodes_total": 96, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -189.17222398744005, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_14-46-49", "training_iteration": 4, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756471609, "episode_len_mean": 50.0, "timesteps_since_restore": 4800, "time_since_restore": 618.5954301357269, "time_this_iter_s": 131.17640113830566, "iterations_since_restore": 4}
+{"timesteps_total": 6000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 149198.611, "num_steps_sampled": 6000, "update_time_ms": 301.15, "num_steps_trained": 6000, "load_time_ms": 18.931, "default": {"kl": 0.017712781205773354, "cur_lr": 4.999999873689376e-05, "entropy": 18.564531326293945, "total_loss": 11199.1513671875, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13221319019794464, "vf_explained_var": 0.030576281249523163, "vf_loss": 11199.263671875}, "grad_time_ms": 893.167}, "pid": 3934253, "time_total_s": 752.1666700839996, "episode_reward_mean": -232.0932859758354, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -248.10200411755505, "policy_reward_mean": {}, "episodes_total": 120, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -200.99987523969685, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_14-49-02", "training_iteration": 5, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756471742, "episode_len_mean": 50.0, "timesteps_since_restore": 6000, "time_since_restore": 752.1666700839996, "time_this_iter_s": 133.5712399482727, "iterations_since_restore": 5}
+{"timesteps_total": 7200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 146583.585, "num_steps_sampled": 7200, "update_time_ms": 251.309, "num_steps_trained": 7200, "load_time_ms": 15.871, "default": {"kl": 0.01696646213531494, "cur_lr": 4.999999873689376e-05, "entropy": 18.5582275390625, "total_loss": 11126.30859375, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12488171458244324, "vf_explained_var": 0.012747373431921005, "vf_loss": 11126.4169921875}, "grad_time_ms": 863.632}, "pid": 3934253, "time_total_s": 886.3993492126465, "episode_reward_mean": -233.2256954990561, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -248.10200411755505, "policy_reward_mean": {}, "episodes_total": 144, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -200.99987523969685, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_14-51-16", "training_iteration": 6, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756471876, "episode_len_mean": 50.0, "timesteps_since_restore": 7200, "time_since_restore": 886.3993492126465, "time_this_iter_s": 134.23267912864685, "iterations_since_restore": 6}
+{"timesteps_total": 8400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 143834.975, "num_steps_sampled": 8400, "update_time_ms": 215.706, "num_steps_trained": 8400, "load_time_ms": 13.737, "default": {"kl": 0.018511280417442322, "cur_lr": 4.999999873689376e-05, "entropy": 18.533920288085938, "total_loss": 10328.9599609375, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12375900149345398, "vf_explained_var": 0.007189598400145769, "vf_loss": 10329.0654296875}, "grad_time_ms": 849.341}, "pid": 3934253, "time_total_s": 1014.5144400596619, "episode_reward_mean": -232.3667402438889, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -248.10200411755505, "policy_reward_mean": {}, "episodes_total": 168, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -199.95306198707857, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_14-53-24", "training_iteration": 7, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756472004, "episode_len_mean": 50.0, "timesteps_since_restore": 8400, "time_since_restore": 1014.5144400596619, "time_this_iter_s": 128.11509084701538, "iterations_since_restore": 7}
+{"timesteps_total": 9600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 141122.885, "num_steps_sampled": 9600, "update_time_ms": 189.046, "num_steps_trained": 9600, "load_time_ms": 12.13, "default": {"kl": 0.016686219722032547, "cur_lr": 4.999999873689376e-05, "entropy": 18.514015197753906, "total_loss": 9768.44140625, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1354256272315979, "vf_explained_var": 0.004887203220278025, "vf_loss": 9768.5595703125}, "grad_time_ms": 837.745}, "pid": 3934253, "time_total_s": 1137.4176816940308, "episode_reward_mean": -230.78368277525772, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -247.03019267128656, "policy_reward_mean": {}, "episodes_total": 192, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -197.89664123792278, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_14-55-27", "training_iteration": 8, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756472127, "episode_len_mean": 50.0, "timesteps_since_restore": 9600, "time_since_restore": 1137.4176816940308, "time_this_iter_s": 122.9032416343689, "iterations_since_restore": 8}
+{"timesteps_total": 10800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 140244.999, "num_steps_sampled": 10800, "update_time_ms": 168.316, "num_steps_trained": 10800, "load_time_ms": 10.847, "default": {"kl": 0.016497083008289337, "cur_lr": 4.999999873689376e-05, "entropy": 18.499237060546875, "total_loss": 9278.640625, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1313558965921402, "vf_explained_var": 0.002922866027802229, "vf_loss": 9278.7548828125}, "grad_time_ms": 828.448}, "pid": 3934253, "time_total_s": 1271.4018051624298, "episode_reward_mean": -229.5842021622292, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -247.858779289968, "policy_reward_mean": {}, "episodes_total": 216, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -197.89664123792278, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_14-57-41", "training_iteration": 9, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756472261, "episode_len_mean": 50.0, "timesteps_since_restore": 10800, "time_since_restore": 1271.4018051624298, "time_this_iter_s": 133.98412346839905, "iterations_since_restore": 9}
+{"timesteps_total": 12000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 138991.608, "num_steps_sampled": 12000, "update_time_ms": 151.715, "num_steps_trained": 12000, "load_time_ms": 9.854, "default": {"kl": 0.018143020570278168, "cur_lr": 4.999999873689376e-05, "entropy": 18.48088264465332, "total_loss": 9191.5791015625, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13637499511241913, "vf_explained_var": 0.0037107665557414293, "vf_loss": 9191.697265625}, "grad_time_ms": 817.367}, "pid": 3934253, "time_total_s": 1399.8384637832642, "episode_reward_mean": -228.35528496800046, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -247.858779289968, "policy_reward_mean": {}, "episodes_total": 240, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -195.66306370400125, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_14-59-50", "training_iteration": 10, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756472390, "episode_len_mean": 50.0, "timesteps_since_restore": 12000, "time_since_restore": 1399.8384637832642, "time_this_iter_s": 128.43665862083435, "iterations_since_restore": 10}
+{"timesteps_total": 13200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 126993.623, "num_steps_sampled": 13200, "update_time_ms": 2.449, "num_steps_trained": 13200, "load_time_ms": 0.766, "default": {"kl": 0.016372594982385635, "cur_lr": 4.999999873689376e-05, "entropy": 18.44902229309082, "total_loss": 8664.150390625, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12930560111999512, "vf_explained_var": 0.014810138382017612, "vf_loss": 8664.2626953125}, "grad_time_ms": 693.016}, "pid": 3934253, "time_total_s": 1519.110630273819, "episode_reward_mean": -226.7992343391553, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -247.858779289968, "policy_reward_mean": {}, "episodes_total": 264, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -188.91056735653865, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_15-01-49", "training_iteration": 11, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756472509, "episode_len_mean": 50.0, "timesteps_since_restore": 13200, "time_since_restore": 1519.110630273819, "time_this_iter_s": 119.27216649055481, "iterations_since_restore": 11}
+{"timesteps_total": 14400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 126796.976, "num_steps_sampled": 14400, "update_time_ms": 2.254, "num_steps_trained": 14400, "load_time_ms": 0.723, "default": {"kl": 0.018367202952504158, "cur_lr": 4.999999873689376e-05, "entropy": 18.43258285522461, "total_loss": 9163.8193359375, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1256006956100464, "vf_explained_var": 0.001056631444953382, "vf_loss": 9163.92578125}, "grad_time_ms": 689.564}, "pid": 3934253, "time_total_s": 1635.195505142212, "episode_reward_mean": -227.8824827519844, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -247.858779289968, "policy_reward_mean": {}, "episodes_total": 288, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -188.91056735653865, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_15-03-45", "training_iteration": 12, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756472625, "episode_len_mean": 50.0, "timesteps_since_restore": 14400, "time_since_restore": 1635.195505142212, "time_this_iter_s": 116.08487486839294, "iterations_since_restore": 12}
+{"timesteps_total": 15600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 122994.689, "num_steps_sampled": 15600, "update_time_ms": 2.27, "num_steps_trained": 15600, "load_time_ms": 0.718, "default": {"kl": 0.018263446167111397, "cur_lr": 4.999999873689376e-05, "entropy": 18.406959533691406, "total_loss": 8039.34375, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13872545957565308, "vf_explained_var": 0.009270284324884415, "vf_loss": 8039.46337890625}, "grad_time_ms": 711.946}, "pid": 3934253, "time_total_s": 1724.5654287338257, "episode_reward_mean": -226.95394541182313, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -246.89273563832404, "policy_reward_mean": {}, "episodes_total": 312, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -188.91056735653865, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_15-05-15", "training_iteration": 13, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756472715, "episode_len_mean": 50.0, "timesteps_since_restore": 15600, "time_since_restore": 1724.5654287338257, "time_this_iter_s": 89.36992359161377, "iterations_since_restore": 13}
+{"timesteps_total": 16800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 120749.929, "num_steps_sampled": 16800, "update_time_ms": 2.298, "num_steps_trained": 16800, "load_time_ms": 0.694, "default": {"kl": 0.01851937174797058, "cur_lr": 4.999999873689376e-05, "entropy": 18.40781593322754, "total_loss": 7785.65380859375, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1454668492078781, "vf_explained_var": 0.0034669903106987476, "vf_loss": 7785.7802734375}, "grad_time_ms": 718.79}, "pid": 3934253, "time_total_s": 1833.362226486206, "episode_reward_mean": -226.5395327474367, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -246.89273563832404, "policy_reward_mean": {}, "episodes_total": 336, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -188.91056735653865, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_15-07-03", "training_iteration": 14, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756472823, "episode_len_mean": 50.0, "timesteps_since_restore": 16800, "time_since_restore": 1833.362226486206, "time_this_iter_s": 108.79679775238037, "iterations_since_restore": 14}
+{"timesteps_total": 18000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 120444.62, "num_steps_sampled": 18000, "update_time_ms": 2.292, "num_steps_trained": 18000, "load_time_ms": 0.695, "default": {"kl": 0.018088672310113907, "cur_lr": 4.999999873689376e-05, "entropy": 18.373947143554688, "total_loss": 7424.033203125, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13359440863132477, "vf_explained_var": -2.5298859327449463e-06, "vf_loss": 7424.1494140625}, "grad_time_ms": 707.939}, "pid": 3934253, "time_total_s": 1963.7715697288513, "episode_reward_mean": -226.28930702200313, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -246.89273563832404, "policy_reward_mean": {}, "episodes_total": 360, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -192.68354188559, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_15-09-14", "training_iteration": 15, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756472954, "episode_len_mean": 50.0, "timesteps_since_restore": 18000, "time_since_restore": 1963.7715697288513, "time_this_iter_s": 130.40934324264526, "iterations_since_restore": 15}
+{"timesteps_total": 19200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 115962.542, "num_steps_sampled": 19200, "update_time_ms": 2.277, "num_steps_trained": 19200, "load_time_ms": 0.705, "default": {"kl": 0.018010612577199936, "cur_lr": 4.999999873689376e-05, "entropy": 18.32969856262207, "total_loss": 7933.4677734375, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13802139461040497, "vf_explained_var": -0.001161250751465559, "vf_loss": 7933.5869140625}, "grad_time_ms": 717.734}, "pid": 3934253, "time_total_s": 2053.281415939331, "episode_reward_mean": -225.430023675914, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -247.85240578397764, "policy_reward_mean": {}, "episodes_total": 384, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -192.68354188559, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_15-10-43", "training_iteration": 16, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756473043, "episode_len_mean": 50.0, "timesteps_since_restore": 19200, "time_since_restore": 2053.281415939331, "time_this_iter_s": 89.50984621047974, "iterations_since_restore": 16}
+{"timesteps_total": 20400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 115180.178, "num_steps_sampled": 20400, "update_time_ms": 2.306, "num_steps_trained": 20400, "load_time_ms": 0.674, "default": {"kl": 0.01733492501080036, "cur_lr": 4.999999873689376e-05, "entropy": 18.352266311645508, "total_loss": 6935.912109375, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13916505873203278, "vf_explained_var": 0.0398666188120842, "vf_loss": 6936.03369140625}, "grad_time_ms": 715.961}, "pid": 3934253, "time_total_s": 2173.555982351303, "episode_reward_mean": -224.31972516845806, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -247.85240578397764, "policy_reward_mean": {}, "episodes_total": 408, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -192.56745469224097, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_15-12-44", "training_iteration": 17, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756473164, "episode_len_mean": 50.0, "timesteps_since_restore": 20400, "time_since_restore": 2173.555982351303, "time_this_iter_s": 120.27456641197205, "iterations_since_restore": 17}
+{"timesteps_total": 21600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 115446.416, "num_steps_sampled": 21600, "update_time_ms": 2.353, "num_steps_trained": 21600, "load_time_ms": 0.645, "default": {"kl": 0.018643349409103394, "cur_lr": 4.999999873689376e-05, "entropy": 18.32407569885254, "total_loss": 7109.57861328125, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14262330532073975, "vf_explained_var": 0.058559127151966095, "vf_loss": 7109.7021484375}, "grad_time_ms": 716.764}, "pid": 3934253, "time_total_s": 2299.1294887065887, "episode_reward_mean": -224.86252533298918, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -248.00111036780248, "policy_reward_mean": {}, "episodes_total": 432, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -192.56745469224097, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_15-14-49", "training_iteration": 18, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756473289, "episode_len_mean": 50.0, "timesteps_since_restore": 21600, "time_since_restore": 2299.1294887065887, "time_this_iter_s": 125.57350635528564, "iterations_since_restore": 18}
+{"timesteps_total": 22800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 111634.23, "num_steps_sampled": 22800, "update_time_ms": 2.343, "num_steps_trained": 22800, "load_time_ms": 0.647, "default": {"kl": 0.017198346555233, "cur_lr": 4.999999873689376e-05, "entropy": 18.320524215698242, "total_loss": 6918.37060546875, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13064756989479065, "vf_explained_var": 0.07814642041921616, "vf_loss": 6918.48388671875}, "grad_time_ms": 711.846}, "pid": 3934253, "time_total_s": 2394.942296743393, "episode_reward_mean": -225.21955188410809, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -248.00111036780248, "policy_reward_mean": {}, "episodes_total": 456, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -192.56745469224097, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_15-16-25", "training_iteration": 19, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756473385, "episode_len_mean": 50.0, "timesteps_since_restore": 22800, "time_since_restore": 2394.942296743393, "time_this_iter_s": 95.8128080368042, "iterations_since_restore": 19}
+{"timesteps_total": 24000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 111642.021, "num_steps_sampled": 24000, "update_time_ms": 2.345, "num_steps_trained": 24000, "load_time_ms": 0.617, "default": {"kl": 0.018709510564804077, "cur_lr": 4.999999873689376e-05, "entropy": 18.2652645111084, "total_loss": 6797.3310546875, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14481525123119354, "vf_explained_var": 0.09185083210468292, "vf_loss": 6797.45703125}, "grad_time_ms": 720.998}, "pid": 3934253, "time_total_s": 2523.54922413826, "episode_reward_mean": -224.69537291467503, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -248.00111036780248, "policy_reward_mean": {}, "episodes_total": 480, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -190.85068285650394, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_15-18-34", "training_iteration": 20, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756473514, "episode_len_mean": 50.0, "timesteps_since_restore": 24000, "time_since_restore": 2523.54922413826, "time_this_iter_s": 128.60692739486694, "iterations_since_restore": 20}
+{"timesteps_total": 25200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 111823.423, "num_steps_sampled": 25200, "update_time_ms": 2.43, "num_steps_trained": 25200, "load_time_ms": 0.654, "default": {"kl": 0.016120517626404762, "cur_lr": 4.999999873689376e-05, "entropy": 18.257076263427734, "total_loss": 6505.86279296875, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14086978137493134, "vf_explained_var": 0.0601482056081295, "vf_loss": 6505.98779296875}, "grad_time_ms": 743.136}, "pid": 3934253, "time_total_s": 2644.859076499939, "episode_reward_mean": -225.42085905668347, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -248.00111036780248, "policy_reward_mean": {}, "episodes_total": 504, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -190.85068285650394, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_15-20-35", "training_iteration": 21, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756473635, "episode_len_mean": 50.0, "timesteps_since_restore": 25200, "time_since_restore": 2644.859076499939, "time_this_iter_s": 121.30985236167908, "iterations_since_restore": 21}
+{"timesteps_total": 26400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 108554.114, "num_steps_sampled": 26400, "update_time_ms": 2.528, "num_steps_trained": 26400, "load_time_ms": 0.653, "default": {"kl": 0.01815476268529892, "cur_lr": 4.999999873689376e-05, "entropy": 18.25238037109375, "total_loss": 6361.66943359375, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1422284096479416, "vf_explained_var": 0.0871841087937355, "vf_loss": 6361.79345703125}, "grad_time_ms": 733.411}, "pid": 3934253, "time_total_s": 2728.1552817821503, "episode_reward_mean": -227.12070903133855, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -247.372242841637, "policy_reward_mean": {}, "episodes_total": 528, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -190.85068285650394, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_15-21-58", "training_iteration": 22, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756473718, "episode_len_mean": 50.0, "timesteps_since_restore": 26400, "time_since_restore": 2728.1552817821503, "time_this_iter_s": 83.2962052822113, "iterations_since_restore": 22}
+{"timesteps_total": 27600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 113536.284, "num_steps_sampled": 27600, "update_time_ms": 2.523, "num_steps_trained": 27600, "load_time_ms": 0.646, "default": {"kl": 0.01872488297522068, "cur_lr": 4.999999873689376e-05, "entropy": 18.202598571777344, "total_loss": 5540.90380859375, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14064835011959076, "vf_explained_var": 0.09507162123918533, "vf_loss": 5541.025390625}, "grad_time_ms": 721.676}, "pid": 3934253, "time_total_s": 2867.229010820389, "episode_reward_mean": -224.52522155211645, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -247.372242841637, "policy_reward_mean": {}, "episodes_total": 552, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -188.93533640553093, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_15-24-17", "training_iteration": 23, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756473857, "episode_len_mean": 50.0, "timesteps_since_restore": 27600, "time_since_restore": 2867.229010820389, "time_this_iter_s": 139.07372903823853, "iterations_since_restore": 23}
+{"timesteps_total": 28800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 111666.508, "num_steps_sampled": 28800, "update_time_ms": 2.53, "num_steps_trained": 28800, "load_time_ms": 0.645, "default": {"kl": 0.017991013824939728, "cur_lr": 4.999999873689376e-05, "entropy": 18.139867782592773, "total_loss": 5488.4775390625, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.15115779638290405, "vf_explained_var": 0.122310571372509, "vf_loss": 5488.6103515625}, "grad_time_ms": 706.538}, "pid": 3934253, "time_total_s": 2957.178115129471, "episode_reward_mean": -222.86015856207715, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -248.2345499737599, "policy_reward_mean": {}, "episodes_total": 576, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -188.93533640553093, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_15-25-47", "training_iteration": 24, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756473947, "episode_len_mean": 50.0, "timesteps_since_restore": 28800, "time_since_restore": 2957.178115129471, "time_this_iter_s": 89.94910430908203, "iterations_since_restore": 24}
+{"timesteps_total": 30000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 110789.341, "num_steps_sampled": 30000, "update_time_ms": 2.507, "num_steps_trained": 30000, "load_time_ms": 0.649, "default": {"kl": 0.018119478598237038, "cur_lr": 4.999999873689376e-05, "entropy": 18.104427337646484, "total_loss": 5291.33203125, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1454295516014099, "vf_explained_var": 0.1271432340145111, "vf_loss": 5291.458984375}, "grad_time_ms": 689.769}, "pid": 3934253, "time_total_s": 3078.6474380493164, "episode_reward_mean": -220.54939918657251, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -248.2345499737599, "policy_reward_mean": {}, "episodes_total": 600, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -185.60920330149142, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_15-27-49", "training_iteration": 25, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756474069, "episode_len_mean": 50.0, "timesteps_since_restore": 30000, "time_since_restore": 3078.6474380493164, "time_this_iter_s": 121.46932291984558, "iterations_since_restore": 25}
+{"timesteps_total": 31200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 114266.039, "num_steps_sampled": 31200, "update_time_ms": 2.532, "num_steps_trained": 31200, "load_time_ms": 0.644, "default": {"kl": 0.018067501485347748, "cur_lr": 4.999999873689376e-05, "entropy": 18.099180221557617, "total_loss": 4856.0693359375, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1323235034942627, "vf_explained_var": 0.12717147171497345, "vf_loss": 4856.18310546875}, "grad_time_ms": 666.322}, "pid": 3934253, "time_total_s": 3202.6897122859955, "episode_reward_mean": -217.74776505287662, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -248.2345499737599, "policy_reward_mean": {}, "episodes_total": 624, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -185.60920330149142, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_15-29-53", "training_iteration": 26, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756474193, "episode_len_mean": 50.0, "timesteps_since_restore": 31200, "time_since_restore": 3202.6897122859955, "time_this_iter_s": 124.04227423667908, "iterations_since_restore": 26}
+{"timesteps_total": 32400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 114420.868, "num_steps_sampled": 32400, "update_time_ms": 2.546, "num_steps_trained": 32400, "load_time_ms": 0.642, "default": {"kl": 0.01893593929708004, "cur_lr": 4.999999873689376e-05, "entropy": 18.082481384277344, "total_loss": 4736.587890625, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14160507917404175, "vf_explained_var": 0.1733734905719757, "vf_loss": 4736.7099609375}, "grad_time_ms": 654.305}, "pid": 3934253, "time_total_s": 3324.3915185928345, "episode_reward_mean": -216.32067322708596, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -248.2345499737599, "policy_reward_mean": {}, "episodes_total": 648, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -185.60920330149142, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_15-31-55", "training_iteration": 27, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756474315, "episode_len_mean": 50.0, "timesteps_since_restore": 32400, "time_since_restore": 3324.3915185928345, "time_this_iter_s": 121.70180630683899, "iterations_since_restore": 27}
+{"timesteps_total": 33600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 113001.238, "num_steps_sampled": 33600, "update_time_ms": 2.484, "num_steps_trained": 33600, "load_time_ms": 0.644, "default": {"kl": 0.018984422087669373, "cur_lr": 4.999999873689376e-05, "entropy": 18.03122329711914, "total_loss": 4447.91552734375, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.15685193240642548, "vf_explained_var": 0.14473694562911987, "vf_loss": 4448.052734375}, "grad_time_ms": 647.223}, "pid": 3934253, "time_total_s": 3435.6978681087494, "episode_reward_mean": -213.80917812804458, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -248.83030415581862, "policy_reward_mean": {}, "episodes_total": 672, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -185.60920330149142, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_15-33-46", "training_iteration": 28, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756474426, "episode_len_mean": 50.0, "timesteps_since_restore": 33600, "time_since_restore": 3435.6978681087494, "time_this_iter_s": 111.30634951591492, "iterations_since_restore": 28}
+{"timesteps_total": 34800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 116696.335, "num_steps_sampled": 34800, "update_time_ms": 2.497, "num_steps_trained": 34800, "load_time_ms": 0.646, "default": {"kl": 0.01779862865805626, "cur_lr": 4.999999873689376e-05, "entropy": 18.02900505065918, "total_loss": 4699.4326171875, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13835091888904572, "vf_explained_var": 0.21267952024936676, "vf_loss": 4699.552734375}, "grad_time_ms": 639.428}, "pid": 3934253, "time_total_s": 3568.38410115242, "episode_reward_mean": -214.57597202649774, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -248.83030415581862, "policy_reward_mean": {}, "episodes_total": 696, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -191.44960194830855, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_15-35-59", "training_iteration": 29, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756474559, "episode_len_mean": 50.0, "timesteps_since_restore": 34800, "time_since_restore": 3568.38410115242, "time_this_iter_s": 132.68623304367065, "iterations_since_restore": 29}
+{"timesteps_total": 36000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 117910.592, "num_steps_sampled": 36000, "update_time_ms": 2.546, "num_steps_trained": 36000, "load_time_ms": 0.647, "default": {"kl": 0.0186467245221138, "cur_lr": 4.999999873689376e-05, "entropy": 18.017282485961914, "total_loss": 4788.78857421875, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14452102780342102, "vf_explained_var": 0.1922873705625534, "vf_loss": 4788.9140625}, "grad_time_ms": 635.195}, "pid": 3934253, "time_total_s": 3709.0914623737335, "episode_reward_mean": -216.39424869499814, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -248.83030415581862, "policy_reward_mean": {}, "episodes_total": 720, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -189.41091576437802, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_15-38-19", "training_iteration": 30, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756474699, "episode_len_mean": 50.0, "timesteps_since_restore": 36000, "time_since_restore": 3709.0914623737335, "time_this_iter_s": 140.70736122131348, "iterations_since_restore": 30}
+{"timesteps_total": 37200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 121207.566, "num_steps_sampled": 37200, "update_time_ms": 2.549, "num_steps_trained": 37200, "load_time_ms": 0.611, "default": {"kl": 0.017331527546048164, "cur_lr": 4.999999873689376e-05, "entropy": 17.992008209228516, "total_loss": 4373.1201171875, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13839353621006012, "vf_explained_var": 0.04371914640069008, "vf_loss": 4373.24072265625}, "grad_time_ms": 637.987}, "pid": 3934253, "time_total_s": 3863.398061275482, "episode_reward_mean": -215.19791028193805, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -248.83030415581862, "policy_reward_mean": {}, "episodes_total": 744, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -186.86999539137864, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_15-40-54", "training_iteration": 31, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756474854, "episode_len_mean": 50.0, "timesteps_since_restore": 37200, "time_since_restore": 3863.398061275482, "time_this_iter_s": 154.30659890174866, "iterations_since_restore": 31}
+{"timesteps_total": 38400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 124453.716, "num_steps_sampled": 38400, "update_time_ms": 2.442, "num_steps_trained": 38400, "load_time_ms": 0.613, "default": {"kl": 0.017102720215916634, "cur_lr": 4.999999873689376e-05, "entropy": 17.92547607421875, "total_loss": 3819.66357421875, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13893364369869232, "vf_explained_var": 0.1954089254140854, "vf_loss": 3819.78515625}, "grad_time_ms": 644.967}, "pid": 3934253, "time_total_s": 3979.224608182907, "episode_reward_mean": -215.13311737404922, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -246.02100713653664, "policy_reward_mean": {}, "episodes_total": 768, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -186.86999539137864, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_15-42-50", "training_iteration": 32, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756474970, "episode_len_mean": 50.0, "timesteps_since_restore": 38400, "time_since_restore": 3979.224608182907, "time_this_iter_s": 115.82654690742493, "iterations_since_restore": 32}
+{"timesteps_total": 39600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 123454.297, "num_steps_sampled": 39600, "update_time_ms": 2.494, "num_steps_trained": 39600, "load_time_ms": 0.612, "default": {"kl": 0.017682187259197235, "cur_lr": 4.999999873689376e-05, "entropy": 17.938262939453125, "total_loss": 3737.1103515625, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14358346164226532, "vf_explained_var": 0.1921062171459198, "vf_loss": 3737.236083984375}, "grad_time_ms": 659.685}, "pid": 3934253, "time_total_s": 4108.452016592026, "episode_reward_mean": -213.94500279124793, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -246.02100713653664, "policy_reward_mean": {}, "episodes_total": 792, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -186.86999539137864, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_15-44-59", "training_iteration": 33, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756475099, "episode_len_mean": 50.0, "timesteps_since_restore": 39600, "time_since_restore": 4108.452016592026, "time_this_iter_s": 129.22740840911865, "iterations_since_restore": 33}
+{"timesteps_total": 40800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 128326.13, "num_steps_sampled": 40800, "update_time_ms": 2.44, "num_steps_trained": 40800, "load_time_ms": 0.608, "default": {"kl": 0.017134059220552444, "cur_lr": 4.999999873689376e-05, "entropy": 17.834041595458984, "total_loss": 3461.917724609375, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12815701961517334, "vf_explained_var": 0.15495187044143677, "vf_loss": 3462.0283203125}, "grad_time_ms": 675.352}, "pid": 3934253, "time_total_s": 4247.277045726776, "episode_reward_mean": -211.12190019537888, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -246.02100713653664, "policy_reward_mean": {}, "episodes_total": 816, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -186.86999539137864, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_15-47-18", "training_iteration": 34, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756475238, "episode_len_mean": 50.0, "timesteps_since_restore": 40800, "time_since_restore": 4247.277045726776, "time_this_iter_s": 138.82502913475037, "iterations_since_restore": 34}
+{"timesteps_total": 42000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 125027.49, "num_steps_sampled": 42000, "update_time_ms": 2.422, "num_steps_trained": 42000, "load_time_ms": 0.614, "default": {"kl": 0.018565503880381584, "cur_lr": 4.999999873689376e-05, "entropy": 17.86197280883789, "total_loss": 4044.3408203125, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14776770770549774, "vf_explained_var": 0.1975460797548294, "vf_loss": 4044.4697265625}, "grad_time_ms": 709.139}, "pid": 3934253, "time_total_s": 4336.0987548828125, "episode_reward_mean": -211.779697417606, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -244.79919426101299, "policy_reward_mean": {}, "episodes_total": 840, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -185.87812229652314, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_15-48-46", "training_iteration": 35, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756475326, "episode_len_mean": 50.0, "timesteps_since_restore": 42000, "time_since_restore": 4336.0987548828125, "time_this_iter_s": 88.82170915603638, "iterations_since_restore": 35}
+{"timesteps_total": 43200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 124788.062, "num_steps_sampled": 43200, "update_time_ms": 2.438, "num_steps_trained": 43200, "load_time_ms": 0.615, "default": {"kl": 0.017858348786830902, "cur_lr": 4.999999873689376e-05, "entropy": 17.815601348876953, "total_loss": 3304.437255859375, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14674967527389526, "vf_explained_var": 0.30027350783348083, "vf_loss": 3304.56591796875}, "grad_time_ms": 723.817}, "pid": 3934253, "time_total_s": 4457.893758058548, "episode_reward_mean": -212.04843016952287, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -245.58104877489959, "policy_reward_mean": {}, "episodes_total": 864, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -185.87812229652314, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_15-50-48", "training_iteration": 36, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756475448, "episode_len_mean": 50.0, "timesteps_since_restore": 43200, "time_since_restore": 4457.893758058548, "time_this_iter_s": 121.79500317573547, "iterations_since_restore": 36}
+{"timesteps_total": 44400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 124188.457, "num_steps_sampled": 44400, "update_time_ms": 2.4, "num_steps_trained": 44400, "load_time_ms": 0.611, "default": {"kl": 0.01844792626798153, "cur_lr": 4.999999873689376e-05, "entropy": 17.81826400756836, "total_loss": 3297.3232421875, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1480633020401001, "vf_explained_var": 0.19995717704296112, "vf_loss": 3297.452392578125}, "grad_time_ms": 735.92}, "pid": 3934253, "time_total_s": 4573.720880746841, "episode_reward_mean": -211.19359964775035, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -245.58104877489959, "policy_reward_mean": {}, "episodes_total": 888, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -185.87812229652314, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_15-52-44", "training_iteration": 37, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756475564, "episode_len_mean": 50.0, "timesteps_since_restore": 44400, "time_since_restore": 4573.720880746841, "time_this_iter_s": 115.82712268829346, "iterations_since_restore": 37}
+{"timesteps_total": 45600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 126123.452, "num_steps_sampled": 45600, "update_time_ms": 2.4, "num_steps_trained": 45600, "load_time_ms": 0.649, "default": {"kl": 0.018443183973431587, "cur_lr": 4.999999873689376e-05, "entropy": 17.755903244018555, "total_loss": 3353.221435546875, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.15454323589801788, "vf_explained_var": 0.2896014153957367, "vf_loss": 3353.357177734375}, "grad_time_ms": 738.131}, "pid": 3934253, "time_total_s": 4704.400423049927, "episode_reward_mean": -213.00286027217822, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -247.5537867115574, "policy_reward_mean": {}, "episodes_total": 912, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -185.87812229652314, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_15-54-55", "training_iteration": 38, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756475695, "episode_len_mean": 50.0, "timesteps_since_restore": 45600, "time_since_restore": 4704.400423049927, "time_this_iter_s": 130.67954230308533, "iterations_since_restore": 38}
+{"timesteps_total": 46800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 121236.767, "num_steps_sampled": 46800, "update_time_ms": 2.451, "num_steps_trained": 46800, "load_time_ms": 0.646, "default": {"kl": 0.018317891284823418, "cur_lr": 4.999999873689376e-05, "entropy": 17.811492919921875, "total_loss": 3417.5546875, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1502545177936554, "vf_explained_var": 0.2569473087787628, "vf_loss": 3417.686279296875}, "grad_time_ms": 758.619}, "pid": 3934253, "time_total_s": 4788.425406217575, "episode_reward_mean": -212.3051676911543, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -247.5537867115574, "policy_reward_mean": {}, "episodes_total": 936, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -181.43706975607378, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_15-56-19", "training_iteration": 39, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756475779, "episode_len_mean": 50.0, "timesteps_since_restore": 46800, "time_since_restore": 4788.425406217575, "time_this_iter_s": 84.02498316764832, "iterations_since_restore": 39}
+{"timesteps_total": 48000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 119440.389, "num_steps_sampled": 48000, "update_time_ms": 2.464, "num_steps_trained": 48000, "load_time_ms": 0.648, "default": {"kl": 0.01919081062078476, "cur_lr": 4.999999873689376e-05, "entropy": 17.807842254638672, "total_loss": 3161.85986328125, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.15894289314746857, "vf_explained_var": 0.35566556453704834, "vf_loss": 3161.999267578125}, "grad_time_ms": 738.052}, "pid": 3934253, "time_total_s": 4910.962848186493, "episode_reward_mean": -213.84192706556107, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -247.5537867115574, "policy_reward_mean": {}, "episodes_total": 960, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -181.43706975607378, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_15-58-21", "training_iteration": 40, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756475901, "episode_len_mean": 50.0, "timesteps_since_restore": 48000, "time_since_restore": 4910.962848186493, "time_this_iter_s": 122.53744196891785, "iterations_since_restore": 40}
+{"timesteps_total": 49200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 115781.532, "num_steps_sampled": 49200, "update_time_ms": 2.471, "num_steps_trained": 49200, "load_time_ms": 0.65, "default": {"kl": 0.018592309206724167, "cur_lr": 4.999999873689376e-05, "entropy": 17.775829315185547, "total_loss": 3190.97412109375, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1547202467918396, "vf_explained_var": 0.2281986027956009, "vf_loss": 3191.1103515625}, "grad_time_ms": 717.619}, "pid": 3934253, "time_total_s": 5028.476491689682, "episode_reward_mean": -213.4334468931419, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -247.5537867115574, "policy_reward_mean": {}, "episodes_total": 984, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -175.2855057359052, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_16-00-19", "training_iteration": 41, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756476019, "episode_len_mean": 50.0, "timesteps_since_restore": 49200, "time_since_restore": 5028.476491689682, "time_this_iter_s": 117.51364350318909, "iterations_since_restore": 41}
+{"timesteps_total": 50400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 116700.271, "num_steps_sampled": 50400, "update_time_ms": 2.521, "num_steps_trained": 50400, "load_time_ms": 0.649, "default": {"kl": 0.017873523756861687, "cur_lr": 4.999999873689376e-05, "entropy": 17.768165588378906, "total_loss": 2994.9541015625, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1501152515411377, "vf_explained_var": 0.32763707637786865, "vf_loss": 2995.0859375}, "grad_time_ms": 708.999}, "pid": 3934253, "time_total_s": 5153.405420064926, "episode_reward_mean": -215.7174857830358, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -246.37354808212874, "policy_reward_mean": {}, "episodes_total": 1008, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -175.2855057359052, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_16-02-24", "training_iteration": 42, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756476144, "episode_len_mean": 50.0, "timesteps_since_restore": 50400, "time_since_restore": 5153.405420064926, "time_this_iter_s": 124.92892837524414, "iterations_since_restore": 42}
+{"timesteps_total": 51600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 113745.523, "num_steps_sampled": 51600, "update_time_ms": 2.494, "num_steps_trained": 51600, "load_time_ms": 0.652, "default": {"kl": 0.018063882365822792, "cur_lr": 4.999999873689376e-05, "entropy": 17.706390380859375, "total_loss": 2835.5146484375, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1458158642053604, "vf_explained_var": 0.32134178280830383, "vf_loss": 2835.642333984375}, "grad_time_ms": 712.86}, "pid": 3934253, "time_total_s": 5253.124094724655, "episode_reward_mean": -214.39119330004388, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -246.37354808212874, "policy_reward_mean": {}, "episodes_total": 1032, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -175.05672191815188, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_16-04-04", "training_iteration": 43, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756476244, "episode_len_mean": 50.0, "timesteps_since_restore": 51600, "time_since_restore": 5253.124094724655, "time_this_iter_s": 99.718674659729, "iterations_since_restore": 43}
+{"timesteps_total": 52800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 112197.151, "num_steps_sampled": 52800, "update_time_ms": 2.539, "num_steps_trained": 52800, "load_time_ms": 0.693, "default": {"kl": 0.018111437559127808, "cur_lr": 4.999999873689376e-05, "entropy": 17.677021026611328, "total_loss": 3190.59130859375, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14791905879974365, "vf_explained_var": 0.15911920368671417, "vf_loss": 3190.720947265625}, "grad_time_ms": 710.067}, "pid": 3934253, "time_total_s": 5376.435137987137, "episode_reward_mean": -213.18503772057986, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -246.37354808212874, "policy_reward_mean": {}, "episodes_total": 1056, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -175.05672191815188, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_16-06-07", "training_iteration": 44, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756476367, "episode_len_mean": 50.0, "timesteps_since_restore": 52800, "time_since_restore": 5376.435137987137, "time_this_iter_s": 123.31104326248169, "iterations_since_restore": 44}
+{"timesteps_total": 54000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 116778.42, "num_steps_sampled": 54000, "update_time_ms": 2.573, "num_steps_trained": 54000, "load_time_ms": 0.695, "default": {"kl": 0.01823728159070015, "cur_lr": 4.999999873689376e-05, "entropy": 17.698951721191406, "total_loss": 2804.24169921875, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.15112829208374023, "vf_explained_var": 0.2769123613834381, "vf_loss": 2804.37451171875}, "grad_time_ms": 704.293}, "pid": 3934253, "time_total_s": 5511.011833429337, "episode_reward_mean": -213.08326170254938, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -245.10308690094269, "policy_reward_mean": {}, "episodes_total": 1080, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -175.05672191815188, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_16-08-22", "training_iteration": 45, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756476502, "episode_len_mean": 50.0, "timesteps_since_restore": 54000, "time_since_restore": 5511.011833429337, "time_this_iter_s": 134.5766954421997, "iterations_since_restore": 45}
+{"timesteps_total": 55200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 118468.282, "num_steps_sampled": 55200, "update_time_ms": 2.579, "num_steps_trained": 55200, "load_time_ms": 0.722, "default": {"kl": 0.017772618681192398, "cur_lr": 4.999999873689376e-05, "entropy": 17.67725372314453, "total_loss": 2877.27392578125, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1525329202413559, "vf_explained_var": 0.30773845314979553, "vf_loss": 2877.40869140625}, "grad_time_ms": 706.245}, "pid": 3934253, "time_total_s": 5649.724349737167, "episode_reward_mean": -211.9924811523262, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -244.81933204732172, "policy_reward_mean": {}, "episodes_total": 1104, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -175.05672191815188, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_16-10-40", "training_iteration": 46, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756476640, "episode_len_mean": 50.0, "timesteps_since_restore": 55200, "time_since_restore": 5649.724349737167, "time_this_iter_s": 138.7125163078308, "iterations_since_restore": 46}
+{"timesteps_total": 56400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 119917.311, "num_steps_sampled": 56400, "update_time_ms": 2.571, "num_steps_trained": 56400, "load_time_ms": 0.729, "default": {"kl": 0.017335502430796623, "cur_lr": 4.999999873689376e-05, "entropy": 17.574216842651367, "total_loss": 2686.016845703125, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.15624472498893738, "vf_explained_var": 0.31639328598976135, "vf_loss": 2686.155517578125}, "grad_time_ms": 704.712}, "pid": 3934253, "time_total_s": 5780.025140762329, "episode_reward_mean": -212.06696124329548, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -244.81933204732172, "policy_reward_mean": {}, "episodes_total": 1128, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -176.47354464694985, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_16-12-51", "training_iteration": 47, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756476771, "episode_len_mean": 50.0, "timesteps_since_restore": 56400, "time_since_restore": 5780.025140762329, "time_this_iter_s": 130.30079102516174, "iterations_since_restore": 47}
+{"timesteps_total": 57600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 120133.195, "num_steps_sampled": 57600, "update_time_ms": 2.578, "num_steps_trained": 57600, "load_time_ms": 0.692, "default": {"kl": 0.018136359751224518, "cur_lr": 4.999999873689376e-05, "entropy": 17.61043930053711, "total_loss": 2544.2529296875, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.15641115605831146, "vf_explained_var": 0.32302284240722656, "vf_loss": 2544.39111328125}, "grad_time_ms": 705.707}, "pid": 3934253, "time_total_s": 5912.872404336929, "episode_reward_mean": -211.27840171927173, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -242.75502909465445, "policy_reward_mean": {}, "episodes_total": 1152, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -180.22750393736035, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_16-15-03", "training_iteration": 48, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756476903, "episode_len_mean": 50.0, "timesteps_since_restore": 57600, "time_since_restore": 5912.872404336929, "time_this_iter_s": 132.84726357460022, "iterations_since_restore": 48}
+{"timesteps_total": 58800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 126388.469, "num_steps_sampled": 58800, "update_time_ms": 2.5, "num_steps_trained": 58800, "load_time_ms": 0.692, "default": {"kl": 0.017506470903754234, "cur_lr": 4.999999873689376e-05, "entropy": 17.62823486328125, "total_loss": 3480.99951171875, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.15134403109550476, "vf_explained_var": 0.1799653172492981, "vf_loss": 3481.13330078125}, "grad_time_ms": 699.242}, "pid": 3934253, "time_total_s": 6059.384567737579, "episode_reward_mean": -211.70786122380647, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -243.36017384063356, "policy_reward_mean": {}, "episodes_total": 1176, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -165.89434605077207, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_16-17-30", "training_iteration": 49, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756477050, "episode_len_mean": 50.0, "timesteps_since_restore": 58800, "time_since_restore": 6059.384567737579, "time_this_iter_s": 146.51216340065002, "iterations_since_restore": 49}
+{"timesteps_total": 60000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 127471.196, "num_steps_sampled": 60000, "update_time_ms": 2.503, "num_steps_trained": 60000, "load_time_ms": 0.688, "default": {"kl": 0.0181845985352993, "cur_lr": 4.999999873689376e-05, "entropy": 17.62104606628418, "total_loss": 3795.71875, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14132875204086304, "vf_explained_var": -0.15382134914398193, "vf_loss": 3795.842041015625}, "grad_time_ms": 717.066}, "pid": 3934253, "time_total_s": 6192.928519487381, "episode_reward_mean": -210.11993828827156, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -243.36017384063356, "policy_reward_mean": {}, "episodes_total": 1200, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -165.89434605077207, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_16-19-44", "training_iteration": 50, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756477184, "episode_len_mean": 50.0, "timesteps_since_restore": 60000, "time_since_restore": 6192.928519487381, "time_this_iter_s": 133.54395174980164, "iterations_since_restore": 50}
+{"timesteps_total": 61200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 127189.731, "num_steps_sampled": 61200, "update_time_ms": 2.526, "num_steps_trained": 61200, "load_time_ms": 0.684, "default": {"kl": 0.018260452896356583, "cur_lr": 4.999999873689376e-05, "entropy": 17.566057205200195, "total_loss": 3529.8896484375, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1244841143488884, "vf_explained_var": -0.031975701451301575, "vf_loss": 3529.995361328125}, "grad_time_ms": 746.291}, "pid": 3934253, "time_total_s": 6307.920372962952, "episode_reward_mean": -208.46888390923715, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -243.36017384063356, "policy_reward_mean": {}, "episodes_total": 1224, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -165.89434605077207, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_16-21-39", "training_iteration": 51, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756477299, "episode_len_mean": 50.0, "timesteps_since_restore": 61200, "time_since_restore": 6307.920372962952, "time_this_iter_s": 114.99185347557068, "iterations_since_restore": 51}
+{"timesteps_total": 62400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 126173.789, "num_steps_sampled": 62400, "update_time_ms": 2.55, "num_steps_trained": 62400, "load_time_ms": 0.69, "default": {"kl": 0.018367886543273926, "cur_lr": 4.999999873689376e-05, "entropy": 17.582782745361328, "total_loss": 2911.344482421875, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.15388014912605286, "vf_explained_var": 0.11462072283029556, "vf_loss": 2911.47998046875}, "grad_time_ms": 762.265}, "pid": 3934253, "time_total_s": 6422.849180936813, "episode_reward_mean": -207.44610162930013, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -243.36017384063356, "policy_reward_mean": {}, "episodes_total": 1248, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -165.89434605077207, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_16-23-34", "training_iteration": 52, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756477414, "episode_len_mean": 50.0, "timesteps_since_restore": 62400, "time_since_restore": 6422.849180936813, "time_this_iter_s": 114.9288079738617, "iterations_since_restore": 52}
+{"timesteps_total": 63600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 127713.001, "num_steps_sampled": 63600, "update_time_ms": 2.559, "num_steps_trained": 63600, "load_time_ms": 0.695, "default": {"kl": 0.0152328722178936, "cur_lr": 4.999999873689376e-05, "entropy": 17.559120178222656, "total_loss": 2936.9033203125, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12449096143245697, "vf_explained_var": 0.13940726220607758, "vf_loss": 2937.01220703125}, "grad_time_ms": 754.196}, "pid": 3934253, "time_total_s": 6537.878677845001, "episode_reward_mean": -205.3037430007791, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -243.33831834713772, "policy_reward_mean": {}, "episodes_total": 1272, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -165.89434605077207, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_16-25-29", "training_iteration": 53, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756477529, "episode_len_mean": 50.0, "timesteps_since_restore": 63600, "time_since_restore": 6537.878677845001, "time_this_iter_s": 115.02949690818787, "iterations_since_restore": 53}
+{"timesteps_total": 64800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 128614.03, "num_steps_sampled": 64800, "update_time_ms": 2.534, "num_steps_trained": 64800, "load_time_ms": 0.655, "default": {"kl": 0.015593416057527065, "cur_lr": 4.999999873689376e-05, "entropy": 17.57250213623047, "total_loss": 3269.6923828125, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12995809316635132, "vf_explained_var": 0.041274651885032654, "vf_loss": 3269.806640625}, "grad_time_ms": 745.365}, "pid": 3934253, "time_total_s": 6670.112357854843, "episode_reward_mean": -205.87594885722905, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -243.33831834713772, "policy_reward_mean": {}, "episodes_total": 1296, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -171.90663959860424, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_16-27-41", "training_iteration": 54, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756477661, "episode_len_mean": 50.0, "timesteps_since_restore": 64800, "time_since_restore": 6670.112357854843, "time_this_iter_s": 132.23368000984192, "iterations_since_restore": 54}
+{"timesteps_total": 66000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 129046.204, "num_steps_sampled": 66000, "update_time_ms": 2.52, "num_steps_trained": 66000, "load_time_ms": 0.639, "default": {"kl": 0.01628641039133072, "cur_lr": 4.999999873689376e-05, "entropy": 17.494834899902344, "total_loss": 3003.40478515625, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.133028045296669, "vf_explained_var": -0.06501490622758865, "vf_loss": 3003.521240234375}, "grad_time_ms": 721.143}, "pid": 3934253, "time_total_s": 6808.767722606659, "episode_reward_mean": -204.17025147553716, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -239.4554018600887, "policy_reward_mean": {}, "episodes_total": 1320, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -174.49680020462705, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_16-29-59", "training_iteration": 55, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756477799, "episode_len_mean": 50.0, "timesteps_since_restore": 66000, "time_since_restore": 6808.767722606659, "time_this_iter_s": 138.6553647518158, "iterations_since_restore": 55}
+{"timesteps_total": 67200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 124872.43, "num_steps_sampled": 67200, "update_time_ms": 2.474, "num_steps_trained": 67200, "load_time_ms": 0.617, "default": {"kl": 0.018313659355044365, "cur_lr": 4.999999873689376e-05, "entropy": 17.51993751525879, "total_loss": 3227.48779296875, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14256832003593445, "vf_explained_var": -0.046293098479509354, "vf_loss": 3227.612060546875}, "grad_time_ms": 724.948}, "pid": 3934253, "time_total_s": 6905.780424118042, "episode_reward_mean": -202.69798806398597, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -239.4554018600887, "policy_reward_mean": {}, "episodes_total": 1344, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -174.40608955184834, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_16-31-36", "training_iteration": 56, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756477896, "episode_len_mean": 50.0, "timesteps_since_restore": 67200, "time_since_restore": 6905.780424118042, "time_this_iter_s": 97.01270151138306, "iterations_since_restore": 56}
+{"timesteps_total": 68400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 124572.464, "num_steps_sampled": 68400, "update_time_ms": 2.557, "num_steps_trained": 68400, "load_time_ms": 0.617, "default": {"kl": 0.015577811747789383, "cur_lr": 4.999999873689376e-05, "entropy": 17.429256439208984, "total_loss": 2839.56689453125, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1422598659992218, "vf_explained_var": 0.25796782970428467, "vf_loss": 2839.693115234375}, "grad_time_ms": 725.939}, "pid": 3934253, "time_total_s": 7033.093000173569, "episode_reward_mean": -203.0628973147633, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -236.39727673502475, "policy_reward_mean": {}, "episodes_total": 1368, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -174.40608955184834, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_16-33-44", "training_iteration": 57, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756478024, "episode_len_mean": 50.0, "timesteps_since_restore": 68400, "time_since_restore": 7033.093000173569, "time_this_iter_s": 127.31257605552673, "iterations_since_restore": 57}
+{"timesteps_total": 69600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 127368.019, "num_steps_sampled": 69600, "update_time_ms": 2.587, "num_steps_trained": 69600, "load_time_ms": 0.644, "default": {"kl": 0.01565130613744259, "cur_lr": 4.999999873689376e-05, "entropy": 17.373971939086914, "total_loss": 3137.237548828125, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1458209902048111, "vf_explained_var": 0.18359674513339996, "vf_loss": 3137.36767578125}, "grad_time_ms": 699.675}, "pid": 3934253, "time_total_s": 7193.634396314621, "episode_reward_mean": -201.6865593275633, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -237.16475391834197, "policy_reward_mean": {}, "episodes_total": 1392, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -162.37320864558674, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_16-36-24", "training_iteration": 58, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756478184, "episode_len_mean": 50.0, "timesteps_since_restore": 69600, "time_since_restore": 7193.634396314621, "time_this_iter_s": 160.54139614105225, "iterations_since_restore": 58}
+{"timesteps_total": 70800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 126269.84, "num_steps_sampled": 70800, "update_time_ms": 2.615, "num_steps_trained": 70800, "load_time_ms": 0.643, "default": {"kl": 0.017643585801124573, "cur_lr": 4.999999873689376e-05, "entropy": 17.52008819580078, "total_loss": 2227.716064453125, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14641273021697998, "vf_explained_var": 0.3743492662906647, "vf_loss": 2227.8447265625}, "grad_time_ms": 696.813}, "pid": 3934253, "time_total_s": 7329.136283874512, "episode_reward_mean": -202.4014445057027, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -237.16475391834197, "policy_reward_mean": {}, "episodes_total": 1416, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -162.37320864558674, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_16-38-40", "training_iteration": 59, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756478320, "episode_len_mean": 50.0, "timesteps_since_restore": 70800, "time_since_restore": 7329.136283874512, "time_this_iter_s": 135.50188755989075, "iterations_since_restore": 59}
+{"timesteps_total": 72000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 126855.389, "num_steps_sampled": 72000, "update_time_ms": 2.553, "num_steps_trained": 72000, "load_time_ms": 0.641, "default": {"kl": 0.0166630856692791, "cur_lr": 4.999999873689376e-05, "entropy": 17.444067001342773, "total_loss": 2494.462646484375, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1459917575120926, "vf_explained_var": 0.32033035159111023, "vf_loss": 2494.591796875}, "grad_time_ms": 699.478}, "pid": 3934253, "time_total_s": 7468.560915708542, "episode_reward_mean": -203.28037131250483, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -242.41267235711027, "policy_reward_mean": {}, "episodes_total": 1440, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -162.37320864558674, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_16-40-59", "training_iteration": 60, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756478459, "episode_len_mean": 50.0, "timesteps_since_restore": 72000, "time_since_restore": 7468.560915708542, "time_this_iter_s": 139.42463183403015, "iterations_since_restore": 60}
+{"timesteps_total": 73200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 127224.631, "num_steps_sampled": 73200, "update_time_ms": 2.522, "num_steps_trained": 73200, "load_time_ms": 0.678, "default": {"kl": 0.0184915941208601, "cur_lr": 4.999999873689376e-05, "entropy": 17.35077667236328, "total_loss": 2228.360595703125, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.15222874283790588, "vf_explained_var": 0.32440924644470215, "vf_loss": 2228.493896484375}, "grad_time_ms": 692.227}, "pid": 3934253, "time_total_s": 7587.17391872406, "episode_reward_mean": -201.8855045823159, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -242.41267235711027, "policy_reward_mean": {}, "episodes_total": 1464, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -162.37320864558674, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_16-42-58", "training_iteration": 61, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756478578, "episode_len_mean": 50.0, "timesteps_since_restore": 73200, "time_since_restore": 7587.17391872406, "time_this_iter_s": 118.61300301551819, "iterations_since_restore": 61}
+{"timesteps_total": 74400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 129470.924, "num_steps_sampled": 74400, "update_time_ms": 2.492, "num_steps_trained": 74400, "load_time_ms": 0.668, "default": {"kl": 0.01812606118619442, "cur_lr": 4.999999873689376e-05, "entropy": 17.345386505126953, "total_loss": 1536.971435546875, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14230865240097046, "vf_explained_var": 0.4932720363140106, "vf_loss": 1537.095458984375}, "grad_time_ms": 690.446}, "pid": 3934253, "time_total_s": 7724.547788619995, "episode_reward_mean": -203.61260778759706, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -242.41267235711027, "policy_reward_mean": {}, "episodes_total": 1488, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -167.70166226128026, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_16-45-15", "training_iteration": 62, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756478715, "episode_len_mean": 50.0, "timesteps_since_restore": 74400, "time_since_restore": 7724.547788619995, "time_this_iter_s": 137.37386989593506, "iterations_since_restore": 62}
+{"timesteps_total": 75600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 130895.803, "num_steps_sampled": 75600, "update_time_ms": 2.494, "num_steps_trained": 75600, "load_time_ms": 0.666, "default": {"kl": 0.018034812062978745, "cur_lr": 4.999999873689376e-05, "entropy": 17.338903427124023, "total_loss": 1522.239990234375, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.15658150613307953, "vf_explained_var": 0.5048775672912598, "vf_loss": 1522.37841796875}, "grad_time_ms": 689.206}, "pid": 3934253, "time_total_s": 7853.81393122673, "episode_reward_mean": -204.79683966833977, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -243.82422338554372, "policy_reward_mean": {}, "episodes_total": 1512, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -178.07009410244865, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_16-47-25", "training_iteration": 63, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756478845, "episode_len_mean": 50.0, "timesteps_since_restore": 75600, "time_since_restore": 7853.81393122673, "time_this_iter_s": 129.26614260673523, "iterations_since_restore": 63}
+{"timesteps_total": 76800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 128562.827, "num_steps_sampled": 76800, "update_time_ms": 2.455, "num_steps_trained": 76800, "load_time_ms": 0.668, "default": {"kl": 0.01748146489262581, "cur_lr": 4.999999873689376e-05, "entropy": 17.300491333007812, "total_loss": 1020.3151245117188, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1468556821346283, "vf_explained_var": 0.628902018070221, "vf_loss": 1020.4442138671875}, "grad_time_ms": 685.694}, "pid": 3934253, "time_total_s": 7962.6811876297, "episode_reward_mean": -204.60964781539147, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -243.82422338554372, "policy_reward_mean": {}, "episodes_total": 1536, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -176.72126537076102, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_16-49-14", "training_iteration": 64, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756478954, "episode_len_mean": 50.0, "timesteps_since_restore": 76800, "time_since_restore": 7962.6811876297, "time_this_iter_s": 108.86725640296936, "iterations_since_restore": 64}
+{"timesteps_total": 78000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 130065.401, "num_steps_sampled": 78000, "update_time_ms": 2.495, "num_steps_trained": 78000, "load_time_ms": 0.671, "default": {"kl": 0.01788967289030552, "cur_lr": 4.999999873689376e-05, "entropy": 17.299461364746094, "total_loss": 1186.3619384765625, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14163149893283844, "vf_explained_var": 0.5919825434684753, "vf_loss": 1186.4854736328125}, "grad_time_ms": 706.33}, "pid": 3934253, "time_total_s": 8116.570593595505, "episode_reward_mean": -206.1822075156246, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -243.82422338554372, "policy_reward_mean": {}, "episodes_total": 1560, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -176.72126537076102, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_16-51-47", "training_iteration": 65, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756479107, "episode_len_mean": 50.0, "timesteps_since_restore": 78000, "time_since_restore": 8116.570593595505, "time_this_iter_s": 153.88940596580505, "iterations_since_restore": 65}
+{"timesteps_total": 79200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 133131.583, "num_steps_sampled": 79200, "update_time_ms": 2.57, "num_steps_trained": 79200, "load_time_ms": 0.685, "default": {"kl": 0.017699653282761574, "cur_lr": 4.999999873689376e-05, "entropy": 17.267019271850586, "total_loss": 845.4718627929688, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1545608788728714, "vf_explained_var": 0.7317812442779541, "vf_loss": 845.6085815429688}, "grad_time_ms": 682.49}, "pid": 3934253, "time_total_s": 8244.00701546669, "episode_reward_mean": -204.67036275163156, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -243.82422338554372, "policy_reward_mean": {}, "episodes_total": 1584, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -176.72126537076102, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_16-53-55", "training_iteration": 66, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756479235, "episode_len_mean": 50.0, "timesteps_since_restore": 79200, "time_since_restore": 8244.00701546669, "time_this_iter_s": 127.4364218711853, "iterations_since_restore": 66}
+{"timesteps_total": 80400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 134628.525, "num_steps_sampled": 80400, "update_time_ms": 2.499, "num_steps_trained": 80400, "load_time_ms": 0.681, "default": {"kl": 0.018020590767264366, "cur_lr": 4.999999873689376e-05, "entropy": 17.243600845336914, "total_loss": 908.90869140625, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.15663856267929077, "vf_explained_var": 0.6649714708328247, "vf_loss": 909.047119140625}, "grad_time_ms": 684.762}, "pid": 3934253, "time_total_s": 8386.31137752533, "episode_reward_mean": -203.45399373806507, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -236.6240604926094, "policy_reward_mean": {}, "episodes_total": 1608, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -176.72126537076102, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_16-56-17", "training_iteration": 67, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756479377, "episode_len_mean": 50.0, "timesteps_since_restore": 80400, "time_since_restore": 8386.31137752533, "time_this_iter_s": 142.30436205863953, "iterations_since_restore": 67}
+{"timesteps_total": 81600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 127800.101, "num_steps_sampled": 81600, "update_time_ms": 2.453, "num_steps_trained": 81600, "load_time_ms": 0.659, "default": {"kl": 0.01779426634311676, "cur_lr": 4.999999873689376e-05, "entropy": 17.173952102661133, "total_loss": 923.4046020507812, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14696913957595825, "vf_explained_var": 0.6245005130767822, "vf_loss": 923.5335083007812}, "grad_time_ms": 714.332}, "pid": 3934253, "time_total_s": 8478.86295580864, "episode_reward_mean": -201.6099014965169, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -236.6240604926094, "policy_reward_mean": {}, "episodes_total": 1632, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -170.85541536790782, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_16-57-50", "training_iteration": 68, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756479470, "episode_len_mean": 50.0, "timesteps_since_restore": 81600, "time_since_restore": 8478.86295580864, "time_this_iter_s": 92.55157828330994, "iterations_since_restore": 68}
+{"timesteps_total": 82800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 127706.637, "num_steps_sampled": 82800, "update_time_ms": 2.508, "num_steps_trained": 82800, "load_time_ms": 0.664, "default": {"kl": 0.017506642267107964, "cur_lr": 4.999999873689376e-05, "entropy": 17.228662490844727, "total_loss": 955.548828125, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13391107320785522, "vf_explained_var": 0.6843433976173401, "vf_loss": 955.6649169921875}, "grad_time_ms": 717.92}, "pid": 3934253, "time_total_s": 8613.466737508774, "episode_reward_mean": -199.76279681389474, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -237.87893357886605, "policy_reward_mean": {}, "episodes_total": 1656, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -169.67883789220647, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_17-00-04", "training_iteration": 69, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756479604, "episode_len_mean": 50.0, "timesteps_since_restore": 82800, "time_since_restore": 8613.466737508774, "time_this_iter_s": 134.60378170013428, "iterations_since_restore": 69}
+{"timesteps_total": 84000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 128395.735, "num_steps_sampled": 84000, "update_time_ms": 2.614, "num_steps_trained": 84000, "load_time_ms": 0.666, "default": {"kl": 0.01776537112891674, "cur_lr": 4.999999873689376e-05, "entropy": 17.27729034423828, "total_loss": 858.9427490234375, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14407379925251007, "vf_explained_var": 0.6505129337310791, "vf_loss": 859.0687255859375}, "grad_time_ms": 718.019}, "pid": 3934253, "time_total_s": 8759.78401517868, "episode_reward_mean": -200.28976271340775, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -237.87893357886605, "policy_reward_mean": {}, "episodes_total": 1680, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -166.50156901737446, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_17-02-31", "training_iteration": 70, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756479751, "episode_len_mean": 50.0, "timesteps_since_restore": 84000, "time_since_restore": 8759.78401517868, "time_this_iter_s": 146.31727766990662, "iterations_since_restore": 70}
+{"timesteps_total": 85200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 127439.452, "num_steps_sampled": 85200, "update_time_ms": 2.607, "num_steps_trained": 85200, "load_time_ms": 0.634, "default": {"kl": 0.017438506707549095, "cur_lr": 4.999999873689376e-05, "entropy": 17.173513412475586, "total_loss": 497.2986145019531, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14505235850811005, "vf_explained_var": 0.8089240193367004, "vf_loss": 497.4259948730469}, "grad_time_ms": 715.196}, "pid": 3934253, "time_total_s": 8868.804517507553, "episode_reward_mean": -196.78183297555998, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -237.87893357886605, "policy_reward_mean": {}, "episodes_total": 1704, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -162.7454707928377, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_17-04-20", "training_iteration": 71, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756479860, "episode_len_mean": 50.0, "timesteps_since_restore": 85200, "time_since_restore": 8868.804517507553, "time_this_iter_s": 109.02050232887268, "iterations_since_restore": 71}
+{"timesteps_total": 86400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 126949.793, "num_steps_sampled": 86400, "update_time_ms": 2.563, "num_steps_trained": 86400, "load_time_ms": 0.632, "default": {"kl": 0.017478276044130325, "cur_lr": 4.999999873689376e-05, "entropy": 17.1412296295166, "total_loss": 537.347412109375, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1449865847826004, "vf_explained_var": 0.8066643476486206, "vf_loss": 537.4746704101562}, "grad_time_ms": 716.498}, "pid": 3934253, "time_total_s": 9001.29467010498, "episode_reward_mean": -196.7515997280192, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -237.87893357886605, "policy_reward_mean": {}, "episodes_total": 1728, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -162.7454707928377, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_17-06-32", "training_iteration": 72, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756479992, "episode_len_mean": 50.0, "timesteps_since_restore": 86400, "time_since_restore": 9001.29467010498, "time_this_iter_s": 132.49015259742737, "iterations_since_restore": 72}
+{"timesteps_total": 87600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 126478.744, "num_steps_sampled": 87600, "update_time_ms": 2.579, "num_steps_trained": 87600, "load_time_ms": 0.628, "default": {"kl": 0.016992026939988136, "cur_lr": 4.999999873689376e-05, "entropy": 17.1573486328125, "total_loss": 668.7613525390625, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.15834328532218933, "vf_explained_var": 0.7176796793937683, "vf_loss": 668.9024658203125}, "grad_time_ms": 720.878}, "pid": 3934253, "time_total_s": 9125.894088745117, "episode_reward_mean": -196.29779407045845, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -235.77930229587113, "policy_reward_mean": {}, "episodes_total": 1752, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -160.0539174982735, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_17-08-37", "training_iteration": 73, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756480117, "episode_len_mean": 50.0, "timesteps_since_restore": 87600, "time_since_restore": 9125.894088745117, "time_this_iter_s": 124.59941864013672, "iterations_since_restore": 73}
+{"timesteps_total": 88800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 127925.017, "num_steps_sampled": 88800, "update_time_ms": 2.58, "num_steps_trained": 88800, "load_time_ms": 0.638, "default": {"kl": 0.01787766069173813, "cur_lr": 4.999999873689376e-05, "entropy": 17.137168884277344, "total_loss": 539.1329956054688, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13451358675956726, "vf_explained_var": 0.7756462097167969, "vf_loss": 539.2493286132812}, "grad_time_ms": 745.174}, "pid": 3934253, "time_total_s": 9249.467748641968, "episode_reward_mean": -196.06748029454903, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -241.6755977787709, "policy_reward_mean": {}, "episodes_total": 1776, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -160.0539174982735, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_17-10-41", "training_iteration": 74, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756480241, "episode_len_mean": 50.0, "timesteps_since_restore": 88800, "time_since_restore": 9249.467748641968, "time_this_iter_s": 123.57365989685059, "iterations_since_restore": 74}
+{"timesteps_total": 90000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 124662.659, "num_steps_sampled": 90000, "update_time_ms": 2.552, "num_steps_trained": 90000, "load_time_ms": 0.646, "default": {"kl": 0.016736924648284912, "cur_lr": 4.999999873689376e-05, "entropy": 17.0623836517334, "total_loss": 505.48822021484375, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.141299769282341, "vf_explained_var": 0.784087598323822, "vf_loss": 505.6125793457031}, "grad_time_ms": 746.333}, "pid": 3934253, "time_total_s": 9370.744490146637, "episode_reward_mean": -195.75643804258007, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -241.6755977787709, "policy_reward_mean": {}, "episodes_total": 1800, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -160.0539174982735, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_17-12-42", "training_iteration": 75, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756480362, "episode_len_mean": 50.0, "timesteps_since_restore": 90000, "time_since_restore": 9370.744490146637, "time_this_iter_s": 121.27674150466919, "iterations_since_restore": 75}
+{"timesteps_total": 91200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 121177.374, "num_steps_sampled": 91200, "update_time_ms": 2.489, "num_steps_trained": 91200, "load_time_ms": 0.624, "default": {"kl": 0.018218128010630608, "cur_lr": 4.999999873689376e-05, "entropy": 17.026023864746094, "total_loss": 539.190673828125, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14476412534713745, "vf_explained_var": 0.7949026823043823, "vf_loss": 539.31689453125}, "grad_time_ms": 763.486}, "pid": 3934253, "time_total_s": 9463.499910831451, "episode_reward_mean": -197.00243101656838, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -241.6755977787709, "policy_reward_mean": {}, "episodes_total": 1824, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -160.0539174982735, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_17-14-15", "training_iteration": 76, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756480455, "episode_len_mean": 50.0, "timesteps_since_restore": 91200, "time_since_restore": 9463.499910831451, "time_this_iter_s": 92.75542068481445, "iterations_since_restore": 76}
+{"timesteps_total": 92400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 121798.333, "num_steps_sampled": 92400, "update_time_ms": 2.498, "num_steps_trained": 92400, "load_time_ms": 0.62, "default": {"kl": 0.017787037417292595, "cur_lr": 4.999999873689376e-05, "entropy": 17.07424545288086, "total_loss": 433.3902587890625, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1485578417778015, "vf_explained_var": 0.8211551308631897, "vf_loss": 433.52081298828125}, "grad_time_ms": 761.874}, "pid": 3934253, "time_total_s": 9611.997594594955, "episode_reward_mean": -196.73452598520976, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -241.6755977787709, "policy_reward_mean": {}, "episodes_total": 1848, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -164.4817344017371, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_17-16-43", "training_iteration": 77, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756480603, "episode_len_mean": 50.0, "timesteps_since_restore": 92400, "time_since_restore": 9611.997594594955, "time_this_iter_s": 148.49768376350403, "iterations_since_restore": 77}
+{"timesteps_total": 93600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 128079.512, "num_steps_sampled": 93600, "update_time_ms": 2.497, "num_steps_trained": 93600, "load_time_ms": 0.645, "default": {"kl": 0.01852409727871418, "cur_lr": 4.999999873689376e-05, "entropy": 17.058555603027344, "total_loss": 397.9156799316406, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.16270986199378967, "vf_explained_var": 0.8211359977722168, "vf_loss": 398.0596618652344}, "grad_time_ms": 752.817}, "pid": 3934253, "time_total_s": 9767.270104885101, "episode_reward_mean": -195.6968907137477, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -235.19605511971818, "policy_reward_mean": {}, "episodes_total": 1872, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -164.4817344017371, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_17-19-18", "training_iteration": 78, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756480758, "episode_len_mean": 50.0, "timesteps_since_restore": 93600, "time_since_restore": 9767.270104885101, "time_this_iter_s": 155.27251029014587, "iterations_since_restore": 78}
+{"timesteps_total": 94800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 124008.762, "num_steps_sampled": 94800, "update_time_ms": 2.44, "num_steps_trained": 94800, "load_time_ms": 0.644, "default": {"kl": 0.01609645038843155, "cur_lr": 4.999999873689376e-05, "entropy": 17.04368019104004, "total_loss": 314.5567626953125, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.15425236523151398, "vf_explained_var": 0.8700137138366699, "vf_loss": 314.6947021484375}, "grad_time_ms": 759.731}, "pid": 3934253, "time_total_s": 9861.234502792358, "episode_reward_mean": -196.28833283553197, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -235.19605511971818, "policy_reward_mean": {}, "episodes_total": 1896, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -164.4817344017371, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_17-20-52", "training_iteration": 79, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756480852, "episode_len_mean": 50.0, "timesteps_since_restore": 94800, "time_since_restore": 9861.234502792358, "time_this_iter_s": 93.96439790725708, "iterations_since_restore": 79}
+{"timesteps_total": 96000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 119963.043, "num_steps_sampled": 96000, "update_time_ms": 2.322, "num_steps_trained": 96000, "load_time_ms": 0.648, "default": {"kl": 0.017412256449460983, "cur_lr": 4.999999873689376e-05, "entropy": 16.991172790527344, "total_loss": 300.1842956542969, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.15490752458572388, "vf_explained_var": 0.8661372661590576, "vf_loss": 300.32159423828125}, "grad_time_ms": 746.461}, "pid": 3934253, "time_total_s": 9966.960909605026, "episode_reward_mean": -195.29564945059207, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -235.19605511971818, "policy_reward_mean": {}, "episodes_total": 1920, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -159.59112747436288, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_17-22-38", "training_iteration": 80, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756480958, "episode_len_mean": 50.0, "timesteps_since_restore": 96000, "time_since_restore": 9966.960909605026, "time_this_iter_s": 105.72640681266785, "iterations_since_restore": 80}
+{"timesteps_total": 97200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 123085.136, "num_steps_sampled": 97200, "update_time_ms": 2.358, "num_steps_trained": 97200, "load_time_ms": 0.65, "default": {"kl": 0.018388399854302406, "cur_lr": 4.999999873689376e-05, "entropy": 16.957988739013672, "total_loss": 435.7005310058594, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.15358111262321472, "vf_explained_var": 0.8013516068458557, "vf_loss": 435.8354797363281}, "grad_time_ms": 738.744}, "pid": 3934253, "time_total_s": 10107.12469124794, "episode_reward_mean": -195.21138806142923, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -238.3792524057925, "policy_reward_mean": {}, "episodes_total": 1944, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -159.59112747436288, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_17-24-58", "training_iteration": 81, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756481098, "episode_len_mean": 50.0, "timesteps_since_restore": 97200, "time_since_restore": 10107.12469124794, "time_this_iter_s": 140.16378164291382, "iterations_since_restore": 81}
+{"timesteps_total": 98400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 122775.768, "num_steps_sampled": 98400, "update_time_ms": 2.377, "num_steps_trained": 98400, "load_time_ms": 0.669, "default": {"kl": 0.01676376722753048, "cur_lr": 4.999999873689376e-05, "entropy": 16.881912231445312, "total_loss": 455.4905700683594, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.15382982790470123, "vf_explained_var": 0.7882832884788513, "vf_loss": 455.62738037109375}, "grad_time_ms": 733.703}, "pid": 3934253, "time_total_s": 10236.471656560898, "episode_reward_mean": -193.51017683169036, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -238.3792524057925, "policy_reward_mean": {}, "episodes_total": 1968, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -159.59112747436288, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_17-27-08", "training_iteration": 82, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756481228, "episode_len_mean": 50.0, "timesteps_since_restore": 98400, "time_since_restore": 10236.471656560898, "time_this_iter_s": 129.34696531295776, "iterations_since_restore": 82}
+{"timesteps_total": 99600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 122992.217, "num_steps_sampled": 99600, "update_time_ms": 2.418, "num_steps_trained": 99600, "load_time_ms": 0.667, "default": {"kl": 0.016289807856082916, "cur_lr": 4.999999873689376e-05, "entropy": 16.883893966674805, "total_loss": 278.7664794921875, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14257968962192535, "vf_explained_var": 0.8755154013633728, "vf_loss": 278.8926086425781}, "grad_time_ms": 718.016}, "pid": 3934253, "time_total_s": 10363.079635858536, "episode_reward_mean": -193.8101555905133, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -238.3792524057925, "policy_reward_mean": {}, "episodes_total": 1992, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -159.59112747436288, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_17-29-14", "training_iteration": 83, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756481354, "episode_len_mean": 50.0, "timesteps_since_restore": 99600, "time_since_restore": 10363.079635858536, "time_this_iter_s": 126.60797929763794, "iterations_since_restore": 83}
+{"timesteps_total": 100800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 121729.185, "num_steps_sampled": 100800, "update_time_ms": 2.458, "num_steps_trained": 100800, "load_time_ms": 0.657, "default": {"kl": 0.01808132603764534, "cur_lr": 4.999999873689376e-05, "entropy": 16.88953399658203, "total_loss": 364.16656494140625, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1611376404762268, "vf_explained_var": 0.8535504341125488, "vf_loss": 364.30938720703125}, "grad_time_ms": 689.813}, "pid": 3934253, "time_total_s": 10473.741010189056, "episode_reward_mean": -194.8083754000186, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -244.0834730499058, "policy_reward_mean": {}, "episodes_total": 2016, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -158.90891938732824, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_17-31-05", "training_iteration": 84, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756481465, "episode_len_mean": 50.0, "timesteps_since_restore": 100800, "time_since_restore": 10473.741010189056, "time_this_iter_s": 110.66137433052063, "iterations_since_restore": 84}
+{"timesteps_total": 102000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 121568.223, "num_steps_sampled": 102000, "update_time_ms": 2.407, "num_steps_trained": 102000, "load_time_ms": 0.648, "default": {"kl": 0.016419248655438423, "cur_lr": 4.999999873689376e-05, "entropy": 16.816686630249023, "total_loss": 237.03546142578125, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14151573181152344, "vf_explained_var": 0.8933451175689697, "vf_loss": 237.16033935546875}, "grad_time_ms": 673.73}, "pid": 3934253, "time_total_s": 10593.246505260468, "episode_reward_mean": -192.0402432573778, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -244.0834730499058, "policy_reward_mean": {}, "episodes_total": 2040, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -158.90891938732824, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_17-33-04", "training_iteration": 85, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756481584, "episode_len_mean": 50.0, "timesteps_since_restore": 102000, "time_since_restore": 10593.246505260468, "time_this_iter_s": 119.50549507141113, "iterations_since_restore": 85}
+{"timesteps_total": 103200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 126660.424, "num_steps_sampled": 103200, "update_time_ms": 2.477, "num_steps_trained": 103200, "load_time_ms": 0.651, "default": {"kl": 0.017432495951652527, "cur_lr": 4.999999873689376e-05, "entropy": 16.767534255981445, "total_loss": 315.4970397949219, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14589375257492065, "vf_explained_var": 0.8593595027923584, "vf_loss": 315.6252746582031}, "grad_time_ms": 668.927}, "pid": 3934253, "time_total_s": 10736.875820159912, "episode_reward_mean": -192.24686534121082, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -244.0834730499058, "policy_reward_mean": {}, "episodes_total": 2064, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -156.46359577259705, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_17-35-28", "training_iteration": 86, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756481728, "episode_len_mean": 50.0, "timesteps_since_restore": 103200, "time_since_restore": 10736.875820159912, "time_this_iter_s": 143.62931489944458, "iterations_since_restore": 86}
+{"timesteps_total": 104400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 125743.944, "num_steps_sampled": 104400, "update_time_ms": 2.492, "num_steps_trained": 104400, "load_time_ms": 0.656, "default": {"kl": 0.017669349908828735, "cur_lr": 4.999999873689376e-05, "entropy": 16.812036514282227, "total_loss": 267.5138854980469, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.15393000841140747, "vf_explained_var": 0.8753257989883423, "vf_loss": 267.64990234375}, "grad_time_ms": 668.674}, "pid": 3934253, "time_total_s": 10876.206056833267, "episode_reward_mean": -191.51076350055698, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -244.0834730499058, "policy_reward_mean": {}, "episodes_total": 2088, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -156.46359577259705, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_17-37-47", "training_iteration": 87, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756481867, "episode_len_mean": 50.0, "timesteps_since_restore": 104400, "time_since_restore": 10876.206056833267, "time_this_iter_s": 139.3302366733551, "iterations_since_restore": 87}
+{"timesteps_total": 105600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 120972.7, "num_steps_sampled": 105600, "update_time_ms": 2.506, "num_steps_trained": 105600, "load_time_ms": 0.623, "default": {"kl": 0.01689998432993889, "cur_lr": 4.999999873689376e-05, "entropy": 16.69136619567871, "total_loss": 439.05120849609375, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1567053645849228, "vf_explained_var": 0.805030107498169, "vf_loss": 439.1907958984375}, "grad_time_ms": 681.062}, "pid": 3934253, "time_total_s": 10983.889906644821, "episode_reward_mean": -189.84582066774183, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -240.50411683754677, "policy_reward_mean": {}, "episodes_total": 2112, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -152.51348529183588, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_17-39-35", "training_iteration": 88, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756481975, "episode_len_mean": 50.0, "timesteps_since_restore": 105600, "time_since_restore": 10983.889906644821, "time_this_iter_s": 107.68384981155396, "iterations_since_restore": 88}
+{"timesteps_total": 106800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 123934.882, "num_steps_sampled": 106800, "update_time_ms": 2.49, "num_steps_trained": 106800, "load_time_ms": 0.626, "default": {"kl": 0.01723390817642212, "cur_lr": 4.999999873689376e-05, "entropy": 16.839763641357422, "total_loss": 313.3089294433594, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14374259114265442, "vf_explained_var": 0.8504605889320374, "vf_loss": 313.4351806640625}, "grad_time_ms": 669.345}, "pid": 3934253, "time_total_s": 11107.359429359436, "episode_reward_mean": -190.61900295321735, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -240.50411683754677, "policy_reward_mean": {}, "episodes_total": 2136, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -152.51348529183588, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_17-41-39", "training_iteration": 89, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756482099, "episode_len_mean": 50.0, "timesteps_since_restore": 106800, "time_since_restore": 11107.359429359436, "time_this_iter_s": 123.46952271461487, "iterations_since_restore": 89}
+{"timesteps_total": 108000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 126152.382, "num_steps_sampled": 108000, "update_time_ms": 2.516, "num_steps_trained": 108000, "load_time_ms": 0.623, "default": {"kl": 0.01680140011012554, "cur_lr": 4.999999873689376e-05, "entropy": 16.745079040527344, "total_loss": 342.0080871582031, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.15599854290485382, "vf_explained_var": 0.8507482409477234, "vf_loss": 342.14703369140625}, "grad_time_ms": 659.328}, "pid": 3934253, "time_total_s": 11235.161835432053, "episode_reward_mean": -190.20998737125626, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -240.50411683754677, "policy_reward_mean": {}, "episodes_total": 2160, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -152.51348529183588, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_17-43-46", "training_iteration": 90, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756482226, "episode_len_mean": 50.0, "timesteps_since_restore": 108000, "time_since_restore": 11235.161835432053, "time_this_iter_s": 127.80240607261658, "iterations_since_restore": 90}
+{"timesteps_total": 109200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 124292.415, "num_steps_sampled": 109200, "update_time_ms": 2.439, "num_steps_trained": 109200, "load_time_ms": 0.617, "default": {"kl": 0.015435642562806606, "cur_lr": 4.999999873689376e-05, "entropy": 16.718061447143555, "total_loss": 403.6151123046875, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.129756897687912, "vf_explained_var": 0.8099173903465271, "vf_loss": 403.729248046875}, "grad_time_ms": 640.826}, "pid": 3934253, "time_total_s": 11356.541090488434, "episode_reward_mean": -189.15599179625715, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -240.14707734147564, "policy_reward_mean": {}, "episodes_total": 2184, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -152.51348529183588, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_17-45-48", "training_iteration": 91, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756482348, "episode_len_mean": 50.0, "timesteps_since_restore": 109200, "time_since_restore": 11356.541090488434, "time_this_iter_s": 121.37925505638123, "iterations_since_restore": 91}
+{"timesteps_total": 110400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 121373.638, "num_steps_sampled": 110400, "update_time_ms": 2.509, "num_steps_trained": 110400, "load_time_ms": 0.598, "default": {"kl": 0.015910038724541664, "cur_lr": 4.999999873689376e-05, "entropy": 16.68692970275879, "total_loss": 359.96844482421875, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.15589465200901031, "vf_explained_var": 0.8525227904319763, "vf_loss": 360.1082458496094}, "grad_time_ms": 650.758}, "pid": 3934253, "time_total_s": 11456.798621892929, "episode_reward_mean": -185.9974027787964, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -240.14707734147564, "policy_reward_mean": {}, "episodes_total": 2208, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -152.51348529183588, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_17-47-28", "training_iteration": 92, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756482448, "episode_len_mean": 50.0, "timesteps_since_restore": 110400, "time_since_restore": 11456.798621892929, "time_this_iter_s": 100.25753140449524, "iterations_since_restore": 92}
+{"timesteps_total": 111600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 120579.803, "num_steps_sampled": 111600, "update_time_ms": 2.452, "num_steps_trained": 111600, "load_time_ms": 0.598, "default": {"kl": 0.016870131716132164, "cur_lr": 4.999999873689376e-05, "entropy": 16.627105712890625, "total_loss": 202.50332641601562, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13515739142894745, "vf_explained_var": 0.9027056097984314, "vf_loss": 202.62139892578125}, "grad_time_ms": 664.662}, "pid": 3934253, "time_total_s": 11575.607246160507, "episode_reward_mean": -184.28075541258278, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -240.14707734147564, "policy_reward_mean": {}, "episodes_total": 2232, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -156.2375228182839, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_17-49-27", "training_iteration": 93, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756482567, "episode_len_mean": 50.0, "timesteps_since_restore": 111600, "time_since_restore": 11575.607246160507, "time_this_iter_s": 118.80862426757812, "iterations_since_restore": 93}
+{"timesteps_total": 112800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 118513.786, "num_steps_sampled": 112800, "update_time_ms": 2.458, "num_steps_trained": 112800, "load_time_ms": 0.604, "default": {"kl": 0.01635323092341423, "cur_lr": 4.999999873689376e-05, "entropy": 16.571773529052734, "total_loss": 202.59608459472656, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13777993619441986, "vf_explained_var": 0.8907999396324158, "vf_loss": 202.71730041503906}, "grad_time_ms": 689.211}, "pid": 3934253, "time_total_s": 11665.854831933975, "episode_reward_mean": -183.06815936431977, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -230.12884374648553, "policy_reward_mean": {}, "episodes_total": 2256, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -155.35197419791174, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_17-50-57", "training_iteration": 94, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756482657, "episode_len_mean": 50.0, "timesteps_since_restore": 112800, "time_since_restore": 11665.854831933975, "time_this_iter_s": 90.24758577346802, "iterations_since_restore": 94}
+{"timesteps_total": 114000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 118112.503, "num_steps_sampled": 114000, "update_time_ms": 2.541, "num_steps_trained": 114000, "load_time_ms": 0.638, "default": {"kl": 0.01679901033639908, "cur_lr": 4.999999873689376e-05, "entropy": 16.693180084228516, "total_loss": 392.57073974609375, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.15203702449798584, "vf_explained_var": 0.8344202637672424, "vf_loss": 392.70574951171875}, "grad_time_ms": 689.018}, "pid": 3934253, "time_total_s": 11781.346488714218, "episode_reward_mean": -184.8951815855976, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -236.2370975894316, "policy_reward_mean": {}, "episodes_total": 2280, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -155.35197419791174, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_17-52-53", "training_iteration": 95, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756482773, "episode_len_mean": 50.0, "timesteps_since_restore": 114000, "time_since_restore": 11781.346488714218, "time_this_iter_s": 115.49165678024292, "iterations_since_restore": 95}
+{"timesteps_total": 115200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 113381.279, "num_steps_sampled": 115200, "update_time_ms": 2.48, "num_steps_trained": 115200, "load_time_ms": 0.636, "default": {"kl": 0.017182350158691406, "cur_lr": 4.999999873689376e-05, "entropy": 16.59419822692871, "total_loss": 327.04345703125, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14678317308425903, "vf_explained_var": 0.8305256366729736, "vf_loss": 327.1728515625}, "grad_time_ms": 690.153}, "pid": 3934253, "time_total_s": 11877.674539804459, "episode_reward_mean": -184.5234958852344, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -236.2370975894316, "policy_reward_mean": {}, "episodes_total": 2304, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -153.70410475921176, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_17-54-29", "training_iteration": 96, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756482869, "episode_len_mean": 50.0, "timesteps_since_restore": 115200, "time_since_restore": 11877.674539804459, "time_this_iter_s": 96.32805109024048, "iterations_since_restore": 96}
+{"timesteps_total": 116400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 113362.315, "num_steps_sampled": 116400, "update_time_ms": 2.472, "num_steps_trained": 116400, "load_time_ms": 0.636, "default": {"kl": 0.017371561378240585, "cur_lr": 4.999999873689376e-05, "entropy": 16.490705490112305, "total_loss": 211.58644104003906, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14773549139499664, "vf_explained_var": 0.8857764005661011, "vf_loss": 211.7165985107422}, "grad_time_ms": 678.808}, "pid": 3934253, "time_total_s": 12016.701777458191, "episode_reward_mean": -182.23667207649603, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -236.2370975894316, "policy_reward_mean": {}, "episodes_total": 2328, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -153.70410475921176, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_17-56-48", "training_iteration": 97, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756483008, "episode_len_mean": 50.0, "timesteps_since_restore": 116400, "time_since_restore": 12016.701777458191, "time_this_iter_s": 139.0272376537323, "iterations_since_restore": 97}
+{"timesteps_total": 117600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 113857.263, "num_steps_sampled": 117600, "update_time_ms": 2.434, "num_steps_trained": 117600, "load_time_ms": 0.639, "default": {"kl": 0.015952367335557938, "cur_lr": 4.999999873689376e-05, "entropy": 16.48573112487793, "total_loss": 260.2500915527344, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12603165209293365, "vf_explained_var": 0.8630385994911194, "vf_loss": 260.3599853515625}, "grad_time_ms": 671.948}, "pid": 3934253, "time_total_s": 12129.268003940582, "episode_reward_mean": -181.74283275609204, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -236.2370975894316, "policy_reward_mean": {}, "episodes_total": 2352, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -153.70410475921176, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_17-58-41", "training_iteration": 98, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756483121, "episode_len_mean": 50.0, "timesteps_since_restore": 117600, "time_since_restore": 12129.268003940582, "time_this_iter_s": 112.56622648239136, "iterations_since_restore": 98}
+{"timesteps_total": 118800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 111223.736, "num_steps_sampled": 118800, "update_time_ms": 2.448, "num_steps_trained": 118800, "load_time_ms": 0.636, "default": {"kl": 0.01815967448055744, "cur_lr": 4.999999873689376e-05, "entropy": 16.53923225402832, "total_loss": 143.78089904785156, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.15580715239048004, "vf_explained_var": 0.9172838926315308, "vf_loss": 143.91831970214844}, "grad_time_ms": 669.875}, "pid": 3934253, "time_total_s": 12226.381784915924, "episode_reward_mean": -177.3244781328566, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -223.9890509880485, "policy_reward_mean": {}, "episodes_total": 2376, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -153.70410475921176, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_18-00-18", "training_iteration": 99, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756483218, "episode_len_mean": 50.0, "timesteps_since_restore": 118800, "time_since_restore": 12226.381784915924, "time_this_iter_s": 97.1137809753418, "iterations_since_restore": 99}
+{"timesteps_total": 120000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 110873.774, "num_steps_sampled": 120000, "update_time_ms": 2.437, "num_steps_trained": 120000, "load_time_ms": 0.633, "default": {"kl": 0.016468364745378494, "cur_lr": 4.999999873689376e-05, "entropy": 16.499685287475586, "total_loss": 194.18292236328125, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14151686429977417, "vf_explained_var": 0.9113339185714722, "vf_loss": 194.30775451660156}, "grad_time_ms": 686.587}, "pid": 3934253, "time_total_s": 12350.85043144226, "episode_reward_mean": -177.8404594305838, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -223.9890509880485, "policy_reward_mean": {}, "episodes_total": 2400, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -153.55256333374888, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_18-02-22", "training_iteration": 100, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756483342, "episode_len_mean": 50.0, "timesteps_since_restore": 120000, "time_since_restore": 12350.85043144226, "time_this_iter_s": 124.46864652633667, "iterations_since_restore": 100}
+{"timesteps_total": 121200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 111372.389, "num_steps_sampled": 121200, "update_time_ms": 2.463, "num_steps_trained": 121200, "load_time_ms": 0.638, "default": {"kl": 0.015280604362487793, "cur_lr": 4.999999873689376e-05, "entropy": 16.443017959594727, "total_loss": 351.51165771484375, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14789825677871704, "vf_explained_var": 0.8464590311050415, "vf_loss": 351.64410400390625}, "grad_time_ms": 706.421}, "pid": 3934253, "time_total_s": 12477.413677215576, "episode_reward_mean": -177.50363631361705, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -237.2865543757983, "policy_reward_mean": {}, "episodes_total": 2424, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -153.55256333374888, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_18-04-29", "training_iteration": 101, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756483469, "episode_len_mean": 50.0, "timesteps_since_restore": 121200, "time_since_restore": 12477.413677215576, "time_this_iter_s": 126.56324577331543, "iterations_since_restore": 101}
+{"timesteps_total": 122400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 116905.836, "num_steps_sampled": 122400, "update_time_ms": 2.469, "num_steps_trained": 122400, "load_time_ms": 0.641, "default": {"kl": 0.017815299332141876, "cur_lr": 4.999999873689376e-05, "entropy": 16.31475067138672, "total_loss": 196.4730682373047, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1293335109949112, "vf_explained_var": 0.8965740203857422, "vf_loss": 196.5843505859375}, "grad_time_ms": 698.142}, "pid": 3934253, "time_total_s": 12632.923156023026, "episode_reward_mean": -176.86709660749798, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -237.2865543757983, "policy_reward_mean": {}, "episodes_total": 2448, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -152.76490594743353, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_18-07-04", "training_iteration": 102, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756483624, "episode_len_mean": 50.0, "timesteps_since_restore": 122400, "time_since_restore": 12632.923156023026, "time_this_iter_s": 155.50947880744934, "iterations_since_restore": 102}
+{"timesteps_total": 123600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 113790.619, "num_steps_sampled": 123600, "update_time_ms": 2.447, "num_steps_trained": 123600, "load_time_ms": 0.645, "default": {"kl": 0.01563744992017746, "cur_lr": 4.999999873689376e-05, "entropy": 16.338083267211914, "total_loss": 151.3992919921875, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14109545946121216, "vf_explained_var": 0.9077298045158386, "vf_loss": 151.52456665039062}, "grad_time_ms": 691.221}, "pid": 3934253, "time_total_s": 12720.509969711304, "episode_reward_mean": -175.99193290191877, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -237.2865543757983, "policy_reward_mean": {}, "episodes_total": 2472, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -147.00338003430244, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_18-08-32", "training_iteration": 103, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756483712, "episode_len_mean": 50.0, "timesteps_since_restore": 123600, "time_since_restore": 12720.509969711304, "time_this_iter_s": 87.5868136882782, "iterations_since_restore": 103}
+{"timesteps_total": 124800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 114789.433, "num_steps_sampled": 124800, "update_time_ms": 2.446, "num_steps_trained": 124800, "load_time_ms": 0.643, "default": {"kl": 0.016803696751594543, "cur_lr": 4.999999873689376e-05, "entropy": 16.251419067382812, "total_loss": 151.03599548339844, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13679622113704681, "vf_explained_var": 0.8967797756195068, "vf_loss": 151.15579223632812}, "grad_time_ms": 680.611}, "pid": 3934253, "time_total_s": 12820.63918542862, "episode_reward_mean": -172.28727233323306, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -237.2865543757983, "policy_reward_mean": {}, "episodes_total": 2496, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -147.00338003430244, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_18-10-12", "training_iteration": 104, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756483812, "episode_len_mean": 50.0, "timesteps_since_restore": 124800, "time_since_restore": 12820.63918542862, "time_this_iter_s": 100.12921571731567, "iterations_since_restore": 104}
+{"timesteps_total": 126000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 116485.609, "num_steps_sampled": 126000, "update_time_ms": 2.39, "num_steps_trained": 126000, "load_time_ms": 0.609, "default": {"kl": 0.016549859195947647, "cur_lr": 4.999999873689376e-05, "entropy": 16.36214256286621, "total_loss": 301.8638916015625, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1474459022283554, "vf_explained_var": 0.866607666015625, "vf_loss": 301.99456787109375}, "grad_time_ms": 696.338}, "pid": 3934253, "time_total_s": 12953.248711824417, "episode_reward_mean": -173.19153721824375, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -228.24084146483688, "policy_reward_mean": {}, "episodes_total": 2520, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -147.00338003430244, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_18-12-25", "training_iteration": 105, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756483945, "episode_len_mean": 50.0, "timesteps_since_restore": 126000, "time_since_restore": 12953.248711824417, "time_this_iter_s": 132.60952639579773, "iterations_since_restore": 105}
+{"timesteps_total": 127200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 116791.533, "num_steps_sampled": 127200, "update_time_ms": 2.492, "num_steps_trained": 127200, "load_time_ms": 0.608, "default": {"kl": 0.01571556180715561, "cur_lr": 4.999999873689376e-05, "entropy": 16.307790756225586, "total_loss": 150.79681396484375, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1507481187582016, "vf_explained_var": 0.9222152233123779, "vf_loss": 150.93165588378906}, "grad_time_ms": 712.378}, "pid": 3934253, "time_total_s": 13052.797505378723, "episode_reward_mean": -172.00315892886397, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -228.24084146483688, "policy_reward_mean": {}, "episodes_total": 2544, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -147.00338003430244, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_18-14-04", "training_iteration": 106, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756484044, "episode_len_mean": 50.0, "timesteps_since_restore": 127200, "time_since_restore": 13052.797505378723, "time_this_iter_s": 99.54879355430603, "iterations_since_restore": 106}
+{"timesteps_total": 128400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 114973.748, "num_steps_sampled": 128400, "update_time_ms": 2.506, "num_steps_trained": 128400, "load_time_ms": 0.604, "default": {"kl": 0.016194190829992294, "cur_lr": 4.999999873689376e-05, "entropy": 16.16952896118164, "total_loss": 188.38453674316406, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12826089560985565, "vf_explained_var": 0.8953073024749756, "vf_loss": 188.4963836669922}, "grad_time_ms": 717.54}, "pid": 3934253, "time_total_s": 13173.698773622513, "episode_reward_mean": -171.93660035227012, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -228.24084146483688, "policy_reward_mean": {}, "episodes_total": 2568, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -154.05940271714744, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_18-16-05", "training_iteration": 107, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756484165, "episode_len_mean": 50.0, "timesteps_since_restore": 128400, "time_since_restore": 13173.698773622513, "time_this_iter_s": 120.90126824378967, "iterations_since_restore": 107}
+{"timesteps_total": 129600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 113312.925, "num_steps_sampled": 129600, "update_time_ms": 2.55, "num_steps_trained": 129600, "load_time_ms": 0.605, "default": {"kl": 0.015851590782403946, "cur_lr": 4.999999873689376e-05, "entropy": 16.239519119262695, "total_loss": 147.88504028320312, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13959604501724243, "vf_explained_var": 0.9218350648880005, "vf_loss": 148.0085906982422}, "grad_time_ms": 717.604}, "pid": 3934253, "time_total_s": 13269.655487060547, "episode_reward_mean": -172.38800804952464, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -228.24084146483688, "policy_reward_mean": {}, "episodes_total": 2592, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -154.05940271714744, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_18-17-41", "training_iteration": 108, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756484261, "episode_len_mean": 50.0, "timesteps_since_restore": 129600, "time_since_restore": 13269.655487060547, "time_this_iter_s": 95.95671343803406, "iterations_since_restore": 108}
+{"timesteps_total": 130800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 117926.066, "num_steps_sampled": 130800, "update_time_ms": 2.534, "num_steps_trained": 130800, "load_time_ms": 0.605, "default": {"kl": 0.017764806747436523, "cur_lr": 4.999999873689376e-05, "entropy": 16.124168395996094, "total_loss": 137.75177001953125, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1361183226108551, "vf_explained_var": 0.9212970733642578, "vf_loss": 137.86990356445312}, "grad_time_ms": 713.76}, "pid": 3934253, "time_total_s": 13412.86143398285, "episode_reward_mean": -170.3833210749433, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -228.24084146483688, "policy_reward_mean": {}, "episodes_total": 2616, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -152.87937694663307, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_18-20-04", "training_iteration": 109, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756484404, "episode_len_mean": 50.0, "timesteps_since_restore": 130800, "time_since_restore": 13412.86143398285, "time_this_iter_s": 143.20594692230225, "iterations_since_restore": 109}
+{"timesteps_total": 132000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 115004.932, "num_steps_sampled": 132000, "update_time_ms": 2.5, "num_steps_trained": 132000, "load_time_ms": 0.606, "default": {"kl": 0.01462532114237547, "cur_lr": 4.999999873689376e-05, "entropy": 16.235450744628906, "total_loss": 312.9838562011719, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12912686169147491, "vf_explained_var": 0.8360607624053955, "vf_loss": 313.09820556640625}, "grad_time_ms": 720.145}, "pid": 3934253, "time_total_s": 13508.183268070221, "episode_reward_mean": -170.65942585523808, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -235.71808497253244, "policy_reward_mean": {}, "episodes_total": 2640, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -152.87937694663307, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_18-21-40", "training_iteration": 110, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756484500, "episode_len_mean": 50.0, "timesteps_since_restore": 132000, "time_since_restore": 13508.183268070221, "time_this_iter_s": 95.32183408737183, "iterations_since_restore": 110}
+{"timesteps_total": 133200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 110919.135, "num_steps_sampled": 133200, "update_time_ms": 2.516, "num_steps_trained": 133200, "load_time_ms": 0.602, "default": {"kl": 0.015565955080091953, "cur_lr": 4.999999873689376e-05, "entropy": 16.11193084716797, "total_loss": 167.30422973632812, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12671928107738495, "vf_explained_var": 0.8889510035514832, "vf_loss": 167.4152069091797}, "grad_time_ms": 730.481}, "pid": 3934253, "time_total_s": 13593.992814540863, "episode_reward_mean": -169.53994936434026, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -235.71808497253244, "policy_reward_mean": {}, "episodes_total": 2664, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -151.91960658986196, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_18-23-06", "training_iteration": 111, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756484586, "episode_len_mean": 50.0, "timesteps_since_restore": 133200, "time_since_restore": 13593.992814540863, "time_this_iter_s": 85.80954647064209, "iterations_since_restore": 111}
+{"timesteps_total": 134400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 106473.289, "num_steps_sampled": 134400, "update_time_ms": 2.471, "num_steps_trained": 134400, "load_time_ms": 0.613, "default": {"kl": 0.016392739489674568, "cur_lr": 4.999999873689376e-05, "entropy": 16.099382400512695, "total_loss": 139.86541748046875, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13682633638381958, "vf_explained_var": 0.9135033488273621, "vf_loss": 139.98565673828125}, "grad_time_ms": 731.735}, "pid": 3934253, "time_total_s": 13705.056573867798, "episode_reward_mean": -169.04459473864682, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -235.71808497253244, "policy_reward_mean": {}, "episodes_total": 2688, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -151.91960658986196, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_18-24-57", "training_iteration": 112, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756484697, "episode_len_mean": 50.0, "timesteps_since_restore": 134400, "time_since_restore": 13705.056573867798, "time_this_iter_s": 111.06375932693481, "iterations_since_restore": 112}
+{"timesteps_total": 135600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 110040.376, "num_steps_sampled": 135600, "update_time_ms": 2.501, "num_steps_trained": 135600, "load_time_ms": 0.617, "default": {"kl": 0.013566691428422928, "cur_lr": 4.999999873689376e-05, "entropy": 16.00737762451172, "total_loss": 143.7192840576172, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.10995927453041077, "vf_explained_var": 0.9082484841346741, "vf_loss": 143.8155059814453}, "grad_time_ms": 731.457}, "pid": 3934253, "time_total_s": 13828.311593294144, "episode_reward_mean": -167.68415176884224, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -235.71808497253244, "policy_reward_mean": {}, "episodes_total": 2712, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -151.91960658986196, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_18-27-00", "training_iteration": 113, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756484820, "episode_len_mean": 50.0, "timesteps_since_restore": 135600, "time_since_restore": 13828.311593294144, "time_this_iter_s": 123.25501942634583, "iterations_since_restore": 113}
+{"timesteps_total": 136800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 111408.427, "num_steps_sampled": 136800, "update_time_ms": 2.489, "num_steps_trained": 136800, "load_time_ms": 0.623, "default": {"kl": 0.01726832240819931, "cur_lr": 4.999999873689376e-05, "entropy": 16.0635929107666, "total_loss": 108.0864486694336, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.15256041288375854, "vf_explained_var": 0.9264135360717773, "vf_loss": 108.22151947021484}, "grad_time_ms": 730.998}, "pid": 3934253, "time_total_s": 13942.116770505905, "episode_reward_mean": -164.90202950385196, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -210.5466717526865, "policy_reward_mean": {}, "episodes_total": 2736, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -151.91960658986196, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_18-28-54", "training_iteration": 114, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756484934, "episode_len_mean": 50.0, "timesteps_since_restore": 136800, "time_since_restore": 13942.116770505905, "time_this_iter_s": 113.80517721176147, "iterations_since_restore": 114}
+{"timesteps_total": 138000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 108091.929, "num_steps_sampled": 138000, "update_time_ms": 2.5, "num_steps_trained": 138000, "load_time_ms": 0.642, "default": {"kl": 0.015876974910497665, "cur_lr": 4.999999873689376e-05, "entropy": 16.05762481689453, "total_loss": 195.14218139648438, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13380476832389832, "vf_explained_var": 0.8996444344520569, "vf_loss": 195.25990295410156}, "grad_time_ms": 738.229}, "pid": 3934253, "time_total_s": 14041.634573221207, "episode_reward_mean": -165.66463873140276, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -210.5466717526865, "policy_reward_mean": {}, "episodes_total": 2760, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -151.9062574171948, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_18-30-33", "training_iteration": 115, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756485033, "episode_len_mean": 50.0, "timesteps_since_restore": 138000, "time_since_restore": 14041.634573221207, "time_this_iter_s": 99.51780271530151, "iterations_since_restore": 115}
+{"timesteps_total": 139200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 108473.617, "num_steps_sampled": 139200, "update_time_ms": 2.427, "num_steps_trained": 139200, "load_time_ms": 0.652, "default": {"kl": 0.014280934818089008, "cur_lr": 4.999999873689376e-05, "entropy": 15.890507698059082, "total_loss": 205.2573699951172, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12453499436378479, "vf_explained_var": 0.874573826789856, "vf_loss": 205.367431640625}, "grad_time_ms": 727.677}, "pid": 3934253, "time_total_s": 14144.893615484238, "episode_reward_mean": -164.95825059903262, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -223.89982514164038, "policy_reward_mean": {}, "episodes_total": 2784, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -145.5091252897312, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_18-32-17", "training_iteration": 116, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756485137, "episode_len_mean": 50.0, "timesteps_since_restore": 139200, "time_since_restore": 14144.893615484238, "time_this_iter_s": 103.259042263031, "iterations_since_restore": 116}
+{"timesteps_total": 140400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 106538.732, "num_steps_sampled": 140400, "update_time_ms": 2.408, "num_steps_trained": 140400, "load_time_ms": 0.652, "default": {"kl": 0.015535826794803143, "cur_lr": 4.999999873689376e-05, "entropy": 15.938193321228027, "total_loss": 172.31068420410156, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1428217738866806, "vf_explained_var": 0.8901649117469788, "vf_loss": 172.43780517578125}, "grad_time_ms": 733.555}, "pid": 3934253, "time_total_s": 14246.504431962967, "episode_reward_mean": -165.22754313461462, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -223.89982514164038, "policy_reward_mean": {}, "episodes_total": 2808, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.7293238662343, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_18-33-58", "training_iteration": 117, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756485238, "episode_len_mean": 50.0, "timesteps_since_restore": 140400, "time_since_restore": 14246.504431962967, "time_this_iter_s": 101.61081647872925, "iterations_since_restore": 117}
+{"timesteps_total": 141600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 109051.889, "num_steps_sampled": 141600, "update_time_ms": 2.398, "num_steps_trained": 141600, "load_time_ms": 0.679, "default": {"kl": 0.015633488073945045, "cur_lr": 4.999999873689376e-05, "entropy": 15.816776275634766, "total_loss": 69.72467803955078, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14318110048770905, "vf_explained_var": 0.9485836029052734, "vf_loss": 69.85203552246094}, "grad_time_ms": 735.071}, "pid": 3934253, "time_total_s": 14367.609112024307, "episode_reward_mean": -164.35507615599417, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -223.89982514164038, "policy_reward_mean": {}, "episodes_total": 2832, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.7293238662343, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_18-35-59", "training_iteration": 118, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756485359, "episode_len_mean": 50.0, "timesteps_since_restore": 141600, "time_since_restore": 14367.609112024307, "time_this_iter_s": 121.10468006134033, "iterations_since_restore": 118}
+{"timesteps_total": 142800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 104404.834, "num_steps_sampled": 142800, "update_time_ms": 2.474, "num_steps_trained": 142800, "load_time_ms": 0.681, "default": {"kl": 0.016464034095406532, "cur_lr": 4.999999873689376e-05, "entropy": 15.754087448120117, "total_loss": 113.65615844726562, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13386313617229462, "vf_explained_var": 0.9267792105674744, "vf_loss": 113.77334594726562}, "grad_time_ms": 744.731}, "pid": 3934253, "time_total_s": 14464.442219495773, "episode_reward_mean": -163.03480213112596, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -223.89982514164038, "policy_reward_mean": {}, "episodes_total": 2856, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.7293238662343, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_18-37-36", "training_iteration": 119, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756485456, "episode_len_mean": 50.0, "timesteps_since_restore": 142800, "time_since_restore": 14464.442219495773, "time_this_iter_s": 96.83310747146606, "iterations_since_restore": 119}
+{"timesteps_total": 144000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 106612.481, "num_steps_sampled": 144000, "update_time_ms": 2.491, "num_steps_trained": 144000, "load_time_ms": 0.717, "default": {"kl": 0.016114315018057823, "cur_lr": 4.999999873689376e-05, "entropy": 15.789478302001953, "total_loss": 94.16368865966797, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1432938277721405, "vf_explained_var": 0.9434927701950073, "vf_loss": 94.2906723022461}, "grad_time_ms": 744.017}, "pid": 3934253, "time_total_s": 14581.834088563919, "episode_reward_mean": -162.69901184530545, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -227.78725353717078, "policy_reward_mean": {}, "episodes_total": 2880, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.7293238662343, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_18-39-34", "training_iteration": 120, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756485574, "episode_len_mean": 50.0, "timesteps_since_restore": 144000, "time_since_restore": 14581.834088563919, "time_this_iter_s": 117.39186906814575, "iterations_since_restore": 120}
+{"timesteps_total": 145200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 108981.101, "num_steps_sampled": 145200, "update_time_ms": 2.477, "num_steps_trained": 145200, "load_time_ms": 0.725, "default": {"kl": 0.015237444080412388, "cur_lr": 4.999999873689376e-05, "entropy": 15.758185386657715, "total_loss": 102.03178405761719, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13658057153224945, "vf_explained_var": 0.9302859902381897, "vf_loss": 102.15293884277344}, "grad_time_ms": 741.072}, "pid": 3934253, "time_total_s": 14691.300345897675, "episode_reward_mean": -162.34126236260016, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -227.78725353717078, "policy_reward_mean": {}, "episodes_total": 2904, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.7293238662343, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_18-41-23", "training_iteration": 121, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756485683, "episode_len_mean": 50.0, "timesteps_since_restore": 145200, "time_since_restore": 14691.300345897675, "time_this_iter_s": 109.4662573337555, "iterations_since_restore": 121}
+{"timesteps_total": 146400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 107680.629, "num_steps_sampled": 146400, "update_time_ms": 2.47, "num_steps_trained": 146400, "load_time_ms": 0.712, "default": {"kl": 0.015177453868091106, "cur_lr": 4.999999873689376e-05, "entropy": 15.74573802947998, "total_loss": 118.48878479003906, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13045638799667358, "vf_explained_var": 0.9191161394119263, "vf_loss": 118.60386657714844}, "grad_time_ms": 752.242}, "pid": 3934253, "time_total_s": 14789.470313310623, "episode_reward_mean": -162.87203130228417, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -227.78725353717078, "policy_reward_mean": {}, "episodes_total": 2928, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -152.73308602597515, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_18-43-01", "training_iteration": 122, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756485781, "episode_len_mean": 50.0, "timesteps_since_restore": 146400, "time_since_restore": 14789.470313310623, "time_this_iter_s": 98.16996741294861, "iterations_since_restore": 122}
+{"timesteps_total": 147600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 106273.709, "num_steps_sampled": 147600, "update_time_ms": 2.451, "num_steps_trained": 147600, "load_time_ms": 0.704, "default": {"kl": 0.0166685301810503, "cur_lr": 4.999999873689376e-05, "entropy": 15.755717277526855, "total_loss": 85.09651947021484, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13483008742332458, "vf_explained_var": 0.94509357213974, "vf_loss": 85.21446228027344}, "grad_time_ms": 757.57}, "pid": 3934253, "time_total_s": 14898.709458351135, "episode_reward_mean": -162.7500207409775, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -227.78725353717078, "policy_reward_mean": {}, "episodes_total": 2952, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -152.3745728662264, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_18-44-51", "training_iteration": 123, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756485891, "episode_len_mean": 50.0, "timesteps_since_restore": 147600, "time_since_restore": 14898.709458351135, "time_this_iter_s": 109.23914504051208, "iterations_since_restore": 123}
+{"timesteps_total": 148800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 105721.462, "num_steps_sampled": 148800, "update_time_ms": 2.425, "num_steps_trained": 148800, "load_time_ms": 0.702, "default": {"kl": 0.016147322952747345, "cur_lr": 4.999999873689376e-05, "entropy": 15.723305702209473, "total_loss": 119.27034759521484, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13226349651813507, "vf_explained_var": 0.9263350963592529, "vf_loss": 119.38626098632812}, "grad_time_ms": 760.658}, "pid": 3934253, "time_total_s": 15007.022426128387, "episode_reward_mean": -162.13066795735972, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -222.88002538887568, "policy_reward_mean": {}, "episodes_total": 2976, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -152.3745728662264, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_18-46-39", "training_iteration": 124, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756485999, "episode_len_mean": 50.0, "timesteps_since_restore": 148800, "time_since_restore": 15007.022426128387, "time_this_iter_s": 108.3129677772522, "iterations_since_restore": 124}
+{"timesteps_total": 150000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 105027.21, "num_steps_sampled": 150000, "update_time_ms": 2.406, "num_steps_trained": 150000, "load_time_ms": 0.684, "default": {"kl": 0.016684727743268013, "cur_lr": 4.999999873689376e-05, "entropy": 15.590709686279297, "total_loss": 77.29227447509766, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.15790709853172302, "vf_explained_var": 0.9456202387809753, "vf_loss": 77.43329620361328}, "grad_time_ms": 739.797}, "pid": 3934253, "time_total_s": 15099.387891292572, "episode_reward_mean": -161.97012023780732, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -196.12841532848358, "policy_reward_mean": {}, "episodes_total": 3000, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -152.3745728662264, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_18-48-11", "training_iteration": 125, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756486091, "episode_len_mean": 50.0, "timesteps_since_restore": 150000, "time_since_restore": 15099.387891292572, "time_this_iter_s": 92.36546516418457, "iterations_since_restore": 125}
+{"timesteps_total": 151200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 104640.818, "num_steps_sampled": 151200, "update_time_ms": 2.413, "num_steps_trained": 151200, "load_time_ms": 0.675, "default": {"kl": 0.015469375997781754, "cur_lr": 4.999999873689376e-05, "entropy": 15.370908737182617, "total_loss": 56.76454162597656, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.134979248046875, "vf_explained_var": 0.9565190076828003, "vf_loss": 56.88386154174805}, "grad_time_ms": 736.857}, "pid": 3934253, "time_total_s": 15198.75416469574, "episode_reward_mean": -161.44737111172932, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -196.12841532848358, "policy_reward_mean": {}, "episodes_total": 3024, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -152.36681112874857, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_18-49-51", "training_iteration": 126, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756486191, "episode_len_mean": 50.0, "timesteps_since_restore": 151200, "time_since_restore": 15198.75416469574, "time_this_iter_s": 99.36627340316772, "iterations_since_restore": 126}
+{"timesteps_total": 152400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 105887.097, "num_steps_sampled": 152400, "update_time_ms": 2.475, "num_steps_trained": 152400, "load_time_ms": 0.681, "default": {"kl": 0.017822375521063805, "cur_lr": 4.999999873689376e-05, "entropy": 15.559758186340332, "total_loss": 93.37821197509766, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.15308107435703278, "vf_explained_var": 0.9373614192008972, "vf_loss": 93.51325225830078}, "grad_time_ms": 745.519}, "pid": 3934253, "time_total_s": 15312.915374994278, "episode_reward_mean": -160.98241869124263, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -196.12841532848358, "policy_reward_mean": {}, "episodes_total": 3048, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -152.04356348579236, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_18-51-45", "training_iteration": 127, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756486305, "episode_len_mean": 50.0, "timesteps_since_restore": 152400, "time_since_restore": 15312.915374994278, "time_this_iter_s": 114.16121029853821, "iterations_since_restore": 127}
+{"timesteps_total": 153600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 104508.826, "num_steps_sampled": 153600, "update_time_ms": 2.481, "num_steps_trained": 153600, "load_time_ms": 0.652, "default": {"kl": 0.01617765799164772, "cur_lr": 4.999999873689376e-05, "entropy": 15.50704574584961, "total_loss": 83.95415496826172, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1417163461446762, "vf_explained_var": 0.9401677250862122, "vf_loss": 84.07949829101562}, "grad_time_ms": 749.997}, "pid": 3934253, "time_total_s": 15420.28134059906, "episode_reward_mean": -160.89652670146586, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -196.12841532848358, "policy_reward_mean": {}, "episodes_total": 3072, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -149.96283505629324, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_18-53-32", "training_iteration": 128, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756486412, "episode_len_mean": 50.0, "timesteps_since_restore": 153600, "time_since_restore": 15420.28134059906, "time_this_iter_s": 107.3659656047821, "iterations_since_restore": 128}
+{"timesteps_total": 154800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 102807.243, "num_steps_sampled": 154800, "update_time_ms": 2.451, "num_steps_trained": 154800, "load_time_ms": 0.655, "default": {"kl": 0.012704680673778057, "cur_lr": 4.999999873689376e-05, "entropy": 15.458696365356445, "total_loss": 92.21479034423828, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1063886359333992, "vf_explained_var": 0.9457715153694153, "vf_loss": 92.30831909179688}, "grad_time_ms": 746.283}, "pid": 3934253, "time_total_s": 15500.06122136116, "episode_reward_mean": -160.04755913315933, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -196.3103197721101, "policy_reward_mean": {}, "episodes_total": 3096, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -149.96283505629324, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_18-54-52", "training_iteration": 129, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756486492, "episode_len_mean": 50.0, "timesteps_since_restore": 154800, "time_since_restore": 15500.06122136116, "time_this_iter_s": 79.77988076210022, "iterations_since_restore": 129}
+{"timesteps_total": 156000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 103082.504, "num_steps_sampled": 156000, "update_time_ms": 2.458, "num_steps_trained": 156000, "load_time_ms": 0.624, "default": {"kl": 0.015438392758369446, "cur_lr": 4.999999873689376e-05, "entropy": 15.547718048095703, "total_loss": 95.83563232421875, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11330587416887283, "vf_explained_var": 0.9335554838180542, "vf_loss": 95.93331146240234}, "grad_time_ms": 745.026}, "pid": 3934253, "time_total_s": 15620.19240450859, "episode_reward_mean": -160.06733349064882, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -196.3103197721101, "policy_reward_mean": {}, "episodes_total": 3120, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -149.96283505629324, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_18-56-52", "training_iteration": 130, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756486612, "episode_len_mean": 50.0, "timesteps_since_restore": 156000, "time_since_restore": 15620.19240450859, "time_this_iter_s": 120.13118314743042, "iterations_since_restore": 130}
+{"timesteps_total": 157200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 102758.833, "num_steps_sampled": 157200, "update_time_ms": 2.466, "num_steps_trained": 157200, "load_time_ms": 0.615, "default": {"kl": 0.01456800103187561, "cur_lr": 4.999999873689376e-05, "entropy": 15.418561935424805, "total_loss": 153.66900634765625, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13157440721988678, "vf_explained_var": 0.8986132740974426, "vf_loss": 153.78582763671875}, "grad_time_ms": 742.747}, "pid": 3934253, "time_total_s": 15726.398941993713, "episode_reward_mean": -159.49411724190676, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -202.14320656776363, "policy_reward_mean": {}, "episodes_total": 3144, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -149.96283505629324, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_18-58-38", "training_iteration": 131, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756486718, "episode_len_mean": 50.0, "timesteps_since_restore": 157200, "time_since_restore": 15726.398941993713, "time_this_iter_s": 106.20653748512268, "iterations_since_restore": 131}
+{"timesteps_total": 158400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 103739.538, "num_steps_sampled": 158400, "update_time_ms": 2.501, "num_steps_trained": 158400, "load_time_ms": 0.614, "default": {"kl": 0.016706252470612526, "cur_lr": 4.999999873689376e-05, "entropy": 15.317606925964355, "total_loss": 98.88345336914062, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1393449604511261, "vf_explained_var": 0.933607816696167, "vf_loss": 99.0058822631836}, "grad_time_ms": 710.562}, "pid": 3934253, "time_total_s": 15834.054826974869, "episode_reward_mean": -159.85676489001088, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -202.14320656776363, "policy_reward_mean": {}, "episodes_total": 3168, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -150.4201484124871, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_19-00-26", "training_iteration": 132, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756486826, "episode_len_mean": 50.0, "timesteps_since_restore": 158400, "time_since_restore": 15834.054826974869, "time_this_iter_s": 107.6558849811554, "iterations_since_restore": 132}
+{"timesteps_total": 159600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 103062.235, "num_steps_sampled": 159600, "update_time_ms": 2.536, "num_steps_trained": 159600, "load_time_ms": 0.624, "default": {"kl": 0.016824984923005104, "cur_lr": 4.999999873689376e-05, "entropy": 15.423134803771973, "total_loss": 95.9524917602539, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12300290167331696, "vf_explained_var": 0.9352494478225708, "vf_loss": 96.05846405029297}, "grad_time_ms": 700.816}, "pid": 3934253, "time_total_s": 15936.423606872559, "episode_reward_mean": -159.00856716484094, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -202.14320656776363, "policy_reward_mean": {}, "episodes_total": 3192, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -147.035794824748, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_19-02-08", "training_iteration": 133, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756486928, "episode_len_mean": 50.0, "timesteps_since_restore": 159600, "time_since_restore": 15936.423606872559, "time_this_iter_s": 102.36877989768982, "iterations_since_restore": 133}
+{"timesteps_total": 160800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 104477.854, "num_steps_sampled": 160800, "update_time_ms": 2.555, "num_steps_trained": 160800, "load_time_ms": 0.651, "default": {"kl": 0.01582499034702778, "cur_lr": 4.999999873689376e-05, "entropy": 15.176227569580078, "total_loss": 150.65570068359375, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14522379636764526, "vf_explained_var": 0.9030457735061646, "vf_loss": 150.78488159179688}, "grad_time_ms": 673.787}, "pid": 3934253, "time_total_s": 16058.623097419739, "episode_reward_mean": -159.1646082147905, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -202.14320656776363, "policy_reward_mean": {}, "episodes_total": 3216, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -147.035794824748, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_19-04-11", "training_iteration": 134, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756487051, "episode_len_mean": 50.0, "timesteps_since_restore": 160800, "time_since_restore": 16058.623097419739, "time_this_iter_s": 122.19949054718018, "iterations_since_restore": 134}
+{"timesteps_total": 162000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 106125.728, "num_steps_sampled": 162000, "update_time_ms": 2.586, "num_steps_trained": 162000, "load_time_ms": 0.656, "default": {"kl": 0.01506539061665535, "cur_lr": 4.999999873689376e-05, "entropy": 15.253995895385742, "total_loss": 106.41146850585938, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11677607893943787, "vf_explained_var": 0.9423614144325256, "vf_loss": 106.51298522949219}, "grad_time_ms": 696.908}, "pid": 3934253, "time_total_s": 16167.699571847916, "episode_reward_mean": -158.73587543872088, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -193.33495906545753, "policy_reward_mean": {}, "episodes_total": 3240, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -147.035794824748, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_19-06-00", "training_iteration": 135, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756487160, "episode_len_mean": 50.0, "timesteps_since_restore": 162000, "time_since_restore": 16167.699571847916, "time_this_iter_s": 109.07647442817688, "iterations_since_restore": 135}
+{"timesteps_total": 163200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 106775.9, "num_steps_sampled": 163200, "update_time_ms": 2.556, "num_steps_trained": 163200, "load_time_ms": 0.653, "default": {"kl": 0.014284864068031311, "cur_lr": 4.999999873689376e-05, "entropy": 15.149747848510742, "total_loss": 78.15953063964844, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13005171716213226, "vf_explained_var": 0.9475562572479248, "vf_loss": 78.27511596679688}, "grad_time_ms": 702.728}, "pid": 3934253, "time_total_s": 16273.625362873077, "episode_reward_mean": -158.2200610019019, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -194.0735576508897, "policy_reward_mean": {}, "episodes_total": 3264, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -147.035794824748, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_19-07-46", "training_iteration": 136, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756487266, "episode_len_mean": 50.0, "timesteps_since_restore": 163200, "time_since_restore": 16273.625362873077, "time_this_iter_s": 105.92579102516174, "iterations_since_restore": 136}
+{"timesteps_total": 164400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 105439.688, "num_steps_sampled": 164400, "update_time_ms": 2.471, "num_steps_trained": 164400, "load_time_ms": 0.652, "default": {"kl": 0.015326268039643764, "cur_lr": 4.999999873689376e-05, "entropy": 15.038931846618652, "total_loss": 76.04287719726562, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1274718940258026, "vf_explained_var": 0.9446787238121033, "vf_loss": 76.15482330322266}, "grad_time_ms": 704.662}, "pid": 3934253, "time_total_s": 16374.442579507828, "episode_reward_mean": -158.5093182311461, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -194.0735576508897, "policy_reward_mean": {}, "episodes_total": 3288, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -151.32592374317068, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_19-09-26", "training_iteration": 137, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756487366, "episode_len_mean": 50.0, "timesteps_since_restore": 164400, "time_since_restore": 16374.442579507828, "time_this_iter_s": 100.81721663475037, "iterations_since_restore": 137}
+{"timesteps_total": 165600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 105544.13, "num_steps_sampled": 165600, "update_time_ms": 2.483, "num_steps_trained": 165600, "load_time_ms": 0.653, "default": {"kl": 0.01429035235196352, "cur_lr": 4.999999873689376e-05, "entropy": 15.274619102478027, "total_loss": 113.89822387695312, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.119236521422863, "vf_explained_var": 0.9221948981285095, "vf_loss": 114.00298309326172}, "grad_time_ms": 691.319}, "pid": 3934253, "time_total_s": 16482.721665859222, "episode_reward_mean": -158.44117571903706, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -195.68461275679073, "policy_reward_mean": {}, "episodes_total": 3312, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -151.32592374317068, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_19-11-15", "training_iteration": 138, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756487475, "episode_len_mean": 50.0, "timesteps_since_restore": 165600, "time_since_restore": 16482.721665859222, "time_this_iter_s": 108.27908635139465, "iterations_since_restore": 138}
+{"timesteps_total": 166800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 108306.367, "num_steps_sampled": 166800, "update_time_ms": 2.444, "num_steps_trained": 166800, "load_time_ms": 0.647, "default": {"kl": 0.015218976885080338, "cur_lr": 4.999999873689376e-05, "entropy": 15.024642944335938, "total_loss": 92.8395004272461, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12442895770072937, "vf_explained_var": 0.9352640509605408, "vf_loss": 92.94851684570312}, "grad_time_ms": 685.966}, "pid": 3934253, "time_total_s": 16590.070190668106, "episode_reward_mean": -158.71721453232985, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -195.68461275679073, "policy_reward_mean": {}, "episodes_total": 3336, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -146.55230270325862, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_19-13-02", "training_iteration": 139, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756487582, "episode_len_mean": 50.0, "timesteps_since_restore": 166800, "time_since_restore": 16590.070190668106, "time_this_iter_s": 107.34852480888367, "iterations_since_restore": 139}
+{"timesteps_total": 168000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 107962.214, "num_steps_sampled": 168000, "update_time_ms": 2.448, "num_steps_trained": 168000, "load_time_ms": 0.642, "default": {"kl": 0.012888466008007526, "cur_lr": 4.999999873689376e-05, "entropy": 15.229165077209473, "total_loss": 126.61551666259766, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11669489741325378, "vf_explained_var": 0.9207143783569336, "vf_loss": 126.71916961669922}, "grad_time_ms": 678.166}, "pid": 3934253, "time_total_s": 16706.68172430992, "episode_reward_mean": -159.03158914373972, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -209.50328456745822, "policy_reward_mean": {}, "episodes_total": 3360, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.81058536609197, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_19-14-59", "training_iteration": 140, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756487699, "episode_len_mean": 50.0, "timesteps_since_restore": 168000, "time_since_restore": 16706.68172430992, "time_this_iter_s": 116.61153364181519, "iterations_since_restore": 140}
+{"timesteps_total": 169200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 108109.572, "num_steps_sampled": 169200, "update_time_ms": 2.434, "num_steps_trained": 169200, "load_time_ms": 0.641, "default": {"kl": 0.014938879758119583, "cur_lr": 4.999999873689376e-05, "entropy": 15.037114143371582, "total_loss": 56.33360290527344, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12748420238494873, "vf_explained_var": 0.9595043659210205, "vf_loss": 56.44596862792969}, "grad_time_ms": 681.575}, "pid": 3934253, "time_total_s": 16814.394966363907, "episode_reward_mean": -158.5527541966109, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -209.50328456745822, "policy_reward_mean": {}, "episodes_total": 3384, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.81058536609197, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_19-16-46", "training_iteration": 141, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756487806, "episode_len_mean": 50.0, "timesteps_since_restore": 169200, "time_since_restore": 16814.394966363907, "time_this_iter_s": 107.7132420539856, "iterations_since_restore": 141}
+{"timesteps_total": 170400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 106676.728, "num_steps_sampled": 170400, "update_time_ms": 2.39, "num_steps_trained": 170400, "load_time_ms": 0.64, "default": {"kl": 0.015551741234958172, "cur_lr": 4.999999873689376e-05, "entropy": 15.132568359375, "total_loss": 95.65824890136719, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12652461230754852, "vf_explained_var": 0.9271260499954224, "vf_loss": 95.76902770996094}, "grad_time_ms": 703.401}, "pid": 3934253, "time_total_s": 16907.940058231354, "episode_reward_mean": -158.10055911942175, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -209.50328456745822, "policy_reward_mean": {}, "episodes_total": 3408, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.81058536609197, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_19-18-20", "training_iteration": 142, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756487900, "episode_len_mean": 50.0, "timesteps_since_restore": 170400, "time_since_restore": 16907.940058231354, "time_this_iter_s": 93.5450918674469, "iterations_since_restore": 142}
+{"timesteps_total": 171600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 106873.675, "num_steps_sampled": 171600, "update_time_ms": 2.316, "num_steps_trained": 171600, "load_time_ms": 0.638, "default": {"kl": 0.01617261953651905, "cur_lr": 4.999999873689376e-05, "entropy": 15.013951301574707, "total_loss": 65.23526000976562, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13598722219467163, "vf_explained_var": 0.9518048763275146, "vf_loss": 65.35486602783203}, "grad_time_ms": 719.478}, "pid": 3934253, "time_total_s": 17012.4382250309, "episode_reward_mean": -158.30730094810116, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -209.50328456745822, "policy_reward_mean": {}, "episodes_total": 3432, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.81058536609197, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_19-20-05", "training_iteration": 143, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756488005, "episode_len_mean": 50.0, "timesteps_since_restore": 171600, "time_since_restore": 17012.4382250309, "time_this_iter_s": 104.49816679954529, "iterations_since_restore": 143}
+{"timesteps_total": 172800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 106235.145, "num_steps_sampled": 172800, "update_time_ms": 2.349, "num_steps_trained": 172800, "load_time_ms": 0.622, "default": {"kl": 0.015435976907610893, "cur_lr": 4.999999873689376e-05, "entropy": 15.000235557556152, "total_loss": 62.51327896118164, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13944146037101746, "vf_explained_var": 0.9515180587768555, "vf_loss": 62.63710021972656}, "grad_time_ms": 750.126}, "pid": 3934253, "time_total_s": 17128.5585501194, "episode_reward_mean": -156.8989274949609, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -175.5255590819791, "policy_reward_mean": {}, "episodes_total": 3456, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -149.70738469206646, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_19-22-01", "training_iteration": 144, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756488121, "episode_len_mean": 50.0, "timesteps_since_restore": 172800, "time_since_restore": 17128.5585501194, "time_this_iter_s": 116.12032508850098, "iterations_since_restore": 144}
+{"timesteps_total": 174000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 105283.376, "num_steps_sampled": 174000, "update_time_ms": 2.302, "num_steps_trained": 174000, "load_time_ms": 0.619, "default": {"kl": 0.014956353232264519, "cur_lr": 4.999999873689376e-05, "entropy": 14.847784996032715, "total_loss": 104.35578918457031, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12986616790294647, "vf_explained_var": 0.9379231333732605, "vf_loss": 104.47049713134766}, "grad_time_ms": 733.99}, "pid": 3934253, "time_total_s": 17227.954606294632, "episode_reward_mean": -156.9433194148839, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -187.17942537200705, "policy_reward_mean": {}, "episodes_total": 3480, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -149.70738469206646, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_19-23-40", "training_iteration": 145, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756488220, "episode_len_mean": 50.0, "timesteps_since_restore": 174000, "time_since_restore": 17227.954606294632, "time_this_iter_s": 99.39605617523193, "iterations_since_restore": 145}
+{"timesteps_total": 175200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 105196.062, "num_steps_sampled": 175200, "update_time_ms": 2.314, "num_steps_trained": 175200, "load_time_ms": 0.621, "default": {"kl": 0.013884143903851509, "cur_lr": 4.999999873689376e-05, "entropy": 14.91396713256836, "total_loss": 66.7122802734375, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13310521841049194, "vf_explained_var": 0.9542436599731445, "vf_loss": 66.83132934570312}, "grad_time_ms": 707.662}, "pid": 3934253, "time_total_s": 17332.743657827377, "episode_reward_mean": -157.06993405255005, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -202.21004607666393, "policy_reward_mean": {}, "episodes_total": 3504, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -149.70738469206646, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_19-25-25", "training_iteration": 146, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756488325, "episode_len_mean": 50.0, "timesteps_since_restore": 175200, "time_since_restore": 17332.743657827377, "time_this_iter_s": 104.78905153274536, "iterations_since_restore": 146}
+{"timesteps_total": 176400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 105773.671, "num_steps_sampled": 176400, "update_time_ms": 2.328, "num_steps_trained": 176400, "load_time_ms": 0.616, "default": {"kl": 0.015176494605839252, "cur_lr": 4.999999873689376e-05, "entropy": 15.008373260498047, "total_loss": 79.77460479736328, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11993683874607086, "vf_explained_var": 0.9480642676353455, "vf_loss": 79.87918090820312}, "grad_time_ms": 704.527}, "pid": 3934253, "time_total_s": 17439.30501151085, "episode_reward_mean": -157.1401521045944, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -202.21004607666393, "policy_reward_mean": {}, "episodes_total": 3528, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -147.43059014043487, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_19-27-11", "training_iteration": 147, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756488431, "episode_len_mean": 50.0, "timesteps_since_restore": 176400, "time_since_restore": 17439.30501151085, "time_this_iter_s": 106.56135368347168, "iterations_since_restore": 147}
+{"timesteps_total": 177600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 102626.23, "num_steps_sampled": 177600, "update_time_ms": 2.288, "num_steps_trained": 177600, "load_time_ms": 0.614, "default": {"kl": 0.016340788453817368, "cur_lr": 4.999999873689376e-05, "entropy": 14.866175651550293, "total_loss": 50.99203872680664, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.127852201461792, "vf_explained_var": 0.9572170972824097, "vf_loss": 51.10334777832031}, "grad_time_ms": 713.616}, "pid": 3934253, "time_total_s": 17516.197714090347, "episode_reward_mean": -156.9326692679125, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -202.21004607666393, "policy_reward_mean": {}, "episodes_total": 3552, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -145.1666515668931, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_19-28-28", "training_iteration": 148, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756488508, "episode_len_mean": 50.0, "timesteps_since_restore": 177600, "time_since_restore": 17516.197714090347, "time_this_iter_s": 76.89270257949829, "iterations_since_restore": 148}
+{"timesteps_total": 178800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 102912.524, "num_steps_sampled": 178800, "update_time_ms": 2.288, "num_steps_trained": 178800, "load_time_ms": 0.611, "default": {"kl": 0.015348482877016068, "cur_lr": 4.999999873689376e-05, "entropy": 14.877336502075195, "total_loss": 92.67220306396484, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.15013960003852844, "vf_explained_var": 0.9410419464111328, "vf_loss": 92.80680847167969}, "grad_time_ms": 722.665}, "pid": 3934253, "time_total_s": 17626.49950647354, "episode_reward_mean": -158.18542591613408, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -232.173069817677, "policy_reward_mean": {}, "episodes_total": 3576, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -145.1666515668931, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_19-30-19", "training_iteration": 149, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756488619, "episode_len_mean": 50.0, "timesteps_since_restore": 178800, "time_since_restore": 17626.49950647354, "time_this_iter_s": 110.30179238319397, "iterations_since_restore": 149}
+{"timesteps_total": 180000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 103219.799, "num_steps_sampled": 180000, "update_time_ms": 2.304, "num_steps_trained": 180000, "load_time_ms": 0.611, "default": {"kl": 0.014295445755124092, "cur_lr": 4.999999873689376e-05, "entropy": 14.858844757080078, "total_loss": 46.206031799316406, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11927267909049988, "vf_explained_var": 0.9663113355636597, "vf_loss": 46.310829162597656}, "grad_time_ms": 728.864}, "pid": 3934253, "time_total_s": 17746.24654841423, "episode_reward_mean": -158.00782030045582, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -232.173069817677, "policy_reward_mean": {}, "episodes_total": 3600, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -145.1666515668931, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_19-32-18", "training_iteration": 150, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756488738, "episode_len_mean": 50.0, "timesteps_since_restore": 180000, "time_since_restore": 17746.24654841423, "time_this_iter_s": 119.74704194068909, "iterations_since_restore": 150}
+{"timesteps_total": 181200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 103434.054, "num_steps_sampled": 181200, "update_time_ms": 2.36, "num_steps_trained": 181200, "load_time_ms": 0.615, "default": {"kl": 0.015794552862644196, "cur_lr": 4.999999873689376e-05, "entropy": 14.848892211914062, "total_loss": 82.28297424316406, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12699836492538452, "vf_explained_var": 0.9383652806282043, "vf_loss": 82.39397430419922}, "grad_time_ms": 718.235}, "pid": 3934253, "time_total_s": 17855.997240543365, "episode_reward_mean": -157.82890956270467, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -232.173069817677, "policy_reward_mean": {}, "episodes_total": 3624, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -145.1666515668931, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_19-34-08", "training_iteration": 151, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756488848, "episode_len_mean": 50.0, "timesteps_since_restore": 181200, "time_since_restore": 17855.997240543365, "time_this_iter_s": 109.75069212913513, "iterations_since_restore": 151}
+{"timesteps_total": 182400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 106840.299, "num_steps_sampled": 182400, "update_time_ms": 2.391, "num_steps_trained": 182400, "load_time_ms": 0.621, "default": {"kl": 0.01783747598528862, "cur_lr": 4.999999873689376e-05, "entropy": 14.777881622314453, "total_loss": 92.23494720458984, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1375618278980255, "vf_explained_var": 0.9388156533241272, "vf_loss": 92.35443878173828}, "grad_time_ms": 703.231}, "pid": 3934253, "time_total_s": 17983.454869747162, "episode_reward_mean": -157.61030282202955, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -232.173069817677, "policy_reward_mean": {}, "episodes_total": 3648, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -148.19687584877354, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_19-36-16", "training_iteration": 152, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756488976, "episode_len_mean": 50.0, "timesteps_since_restore": 182400, "time_since_restore": 17983.454869747162, "time_this_iter_s": 127.45762920379639, "iterations_since_restore": 152}
+{"timesteps_total": 183600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 107353.866, "num_steps_sampled": 183600, "update_time_ms": 2.486, "num_steps_trained": 183600, "load_time_ms": 0.649, "default": {"kl": 0.014833658933639526, "cur_lr": 4.999999873689376e-05, "entropy": 14.644444465637207, "total_loss": 77.48524475097656, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12767963111400604, "vf_explained_var": 0.9482372999191284, "vf_loss": 77.597900390625}, "grad_time_ms": 670.73}, "pid": 3934253, "time_total_s": 18092.76464152336, "episode_reward_mean": -156.80859157196807, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -232.173069817677, "policy_reward_mean": {}, "episodes_total": 3672, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -147.6635856393042, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_19-38-05", "training_iteration": 153, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756489085, "episode_len_mean": 50.0, "timesteps_since_restore": 183600, "time_since_restore": 18092.76464152336, "time_this_iter_s": 109.30977177619934, "iterations_since_restore": 153}
+{"timesteps_total": 184800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 106945.08, "num_steps_sampled": 184800, "update_time_ms": 2.504, "num_steps_trained": 184800, "load_time_ms": 0.626, "default": {"kl": 0.014095836319029331, "cur_lr": 4.999999873689376e-05, "entropy": 14.716404914855957, "total_loss": 50.62611770629883, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11327210813760757, "vf_explained_var": 0.9626729488372803, "vf_loss": 50.72511672973633}, "grad_time_ms": 643.517}, "pid": 3934253, "time_total_s": 18204.524663448334, "episode_reward_mean": -155.84383666926186, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -187.26780230902494, "policy_reward_mean": {}, "episodes_total": 3696, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -147.6635856393042, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_19-39-57", "training_iteration": 154, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756489197, "episode_len_mean": 50.0, "timesteps_since_restore": 184800, "time_since_restore": 18204.524663448334, "time_this_iter_s": 111.76002192497253, "iterations_since_restore": 154}
+{"timesteps_total": 186000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 106655.26, "num_steps_sampled": 186000, "update_time_ms": 2.491, "num_steps_trained": 186000, "load_time_ms": 0.629, "default": {"kl": 0.014999334700405598, "cur_lr": 4.999999873689376e-05, "entropy": 14.71993350982666, "total_loss": 34.203369140625, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1288701295852661, "vf_explained_var": 0.9726163148880005, "vf_loss": 34.31705093383789}, "grad_time_ms": 661.285}, "pid": 3934253, "time_total_s": 18301.200717687607, "episode_reward_mean": -155.7455358243003, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -187.26780230902494, "policy_reward_mean": {}, "episodes_total": 3720, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -147.6635856393042, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_19-41-33", "training_iteration": 155, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756489293, "episode_len_mean": 50.0, "timesteps_since_restore": 186000, "time_since_restore": 18301.200717687607, "time_this_iter_s": 96.67605423927307, "iterations_since_restore": 155}
+{"timesteps_total": 187200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 106523.155, "num_steps_sampled": 187200, "update_time_ms": 2.514, "num_steps_trained": 187200, "load_time_ms": 0.636, "default": {"kl": 0.01529185101389885, "cur_lr": 4.999999873689376e-05, "entropy": 14.741146087646484, "total_loss": 63.08943557739258, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13563477993011475, "vf_explained_var": 0.9613681435585022, "vf_loss": 63.20958709716797}, "grad_time_ms": 687.403}, "pid": 3934253, "time_total_s": 18404.930746793747, "episode_reward_mean": -156.05749131747933, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -187.26780230902494, "policy_reward_mean": {}, "episodes_total": 3744, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -147.6635856393042, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_19-43-17", "training_iteration": 156, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756489397, "episode_len_mean": 50.0, "timesteps_since_restore": 187200, "time_since_restore": 18404.930746793747, "time_this_iter_s": 103.73002910614014, "iterations_since_restore": 156}
+{"timesteps_total": 188400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 106234.606, "num_steps_sampled": 188400, "update_time_ms": 2.53, "num_steps_trained": 188400, "load_time_ms": 0.638, "default": {"kl": 0.01576061360538006, "cur_lr": 4.999999873689376e-05, "entropy": 14.539962768554688, "total_loss": 51.49734878540039, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12901757657527924, "vf_explained_var": 0.9635226726531982, "vf_loss": 51.61040496826172}, "grad_time_ms": 680.89}, "pid": 3934253, "time_total_s": 18508.54259133339, "episode_reward_mean": -156.18697868414674, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -187.26780230902494, "policy_reward_mean": {}, "episodes_total": 3768, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -149.05326009298292, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_19-45-01", "training_iteration": 157, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756489501, "episode_len_mean": 50.0, "timesteps_since_restore": 188400, "time_since_restore": 18508.54259133339, "time_this_iter_s": 103.61184453964233, "iterations_since_restore": 157}
+{"timesteps_total": 189600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 110393.008, "num_steps_sampled": 189600, "update_time_ms": 2.544, "num_steps_trained": 189600, "load_time_ms": 0.639, "default": {"kl": 0.015366671606898308, "cur_lr": 4.999999873689376e-05, "entropy": 14.503620147705078, "total_loss": 44.8004264831543, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1365458071231842, "vf_explained_var": 0.96863853931427, "vf_loss": 44.921409606933594}, "grad_time_ms": 683.531}, "pid": 3934253, "time_total_s": 18627.046046733856, "episode_reward_mean": -156.31557634699521, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -170.84411173980249, "policy_reward_mean": {}, "episodes_total": 3792, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -150.2876891507201, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_19-46-59", "training_iteration": 158, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756489619, "episode_len_mean": 50.0, "timesteps_since_restore": 189600, "time_since_restore": 18627.046046733856, "time_this_iter_s": 118.50345540046692, "iterations_since_restore": 158}
+{"timesteps_total": 190800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 111784.543, "num_steps_sampled": 190800, "update_time_ms": 2.52, "num_steps_trained": 190800, "load_time_ms": 0.64, "default": {"kl": 0.015097062103450298, "cur_lr": 4.999999873689376e-05, "entropy": 14.573460578918457, "total_loss": 45.253807067871094, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12723152339458466, "vf_explained_var": 0.9695051908493042, "vf_loss": 45.36575698852539}, "grad_time_ms": 680.895}, "pid": 3934253, "time_total_s": 18751.23653268814, "episode_reward_mean": -156.06897775264233, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -170.84411173980249, "policy_reward_mean": {}, "episodes_total": 3816, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.36662116168563, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_19-49-04", "training_iteration": 159, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756489744, "episode_len_mean": 50.0, "timesteps_since_restore": 190800, "time_since_restore": 18751.23653268814, "time_this_iter_s": 124.19048595428467, "iterations_since_restore": 159}
+{"timesteps_total": 192000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 110586.829, "num_steps_sampled": 192000, "update_time_ms": 2.531, "num_steps_trained": 192000, "load_time_ms": 0.642, "default": {"kl": 0.015620950609445572, "cur_lr": 4.999999873689376e-05, "entropy": 14.42264175415039, "total_loss": 44.00412368774414, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12604941427707672, "vf_explained_var": 0.9683871865272522, "vf_loss": 44.11436462402344}, "grad_time_ms": 669.18}, "pid": 3934253, "time_total_s": 18858.888377189636, "episode_reward_mean": -155.75848397267933, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -168.91110461407595, "policy_reward_mean": {}, "episodes_total": 3840, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.36662116168563, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_19-50-51", "training_iteration": 160, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756489851, "episode_len_mean": 50.0, "timesteps_since_restore": 192000, "time_since_restore": 18858.888377189636, "time_this_iter_s": 107.65184450149536, "iterations_since_restore": 160}
+{"timesteps_total": 193200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 111276.767, "num_steps_sampled": 193200, "update_time_ms": 2.516, "num_steps_trained": 193200, "load_time_ms": 0.647, "default": {"kl": 0.014775075949728489, "cur_lr": 4.999999873689376e-05, "entropy": 14.54749870300293, "total_loss": 58.11050033569336, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1309185028076172, "vf_explained_var": 0.9599100947380066, "vf_loss": 58.22645950317383}, "grad_time_ms": 689.36}, "pid": 3934253, "time_total_s": 18975.739804506302, "episode_reward_mean": -155.97364649677118, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -192.82730108260392, "policy_reward_mean": {}, "episodes_total": 3864, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.36662116168563, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_19-52-48", "training_iteration": 161, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756489968, "episode_len_mean": 50.0, "timesteps_since_restore": 193200, "time_since_restore": 18975.739804506302, "time_this_iter_s": 116.85142731666565, "iterations_since_restore": 161}
+{"timesteps_total": 194400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 107563.772, "num_steps_sampled": 194400, "update_time_ms": 2.474, "num_steps_trained": 194400, "load_time_ms": 0.641, "default": {"kl": 0.015671495348215103, "cur_lr": 4.999999873689376e-05, "entropy": 14.508405685424805, "total_loss": 40.06678009033203, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12871819734573364, "vf_explained_var": 0.9688021540641785, "vf_loss": 40.179630279541016}, "grad_time_ms": 698.056}, "pid": 3934253, "time_total_s": 19066.154118299484, "episode_reward_mean": -155.86087650370283, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -192.82730108260392, "policy_reward_mean": {}, "episodes_total": 3888, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.36662116168563, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_19-54-19", "training_iteration": 162, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756490059, "episode_len_mean": 50.0, "timesteps_since_restore": 194400, "time_since_restore": 19066.154118299484, "time_this_iter_s": 90.41431379318237, "iterations_since_restore": 162}
+{"timesteps_total": 195600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 107835.158, "num_steps_sampled": 195600, "update_time_ms": 2.403, "num_steps_trained": 195600, "load_time_ms": 0.609, "default": {"kl": 0.01576964743435383, "cur_lr": 4.999999873689376e-05, "entropy": 14.222159385681152, "total_loss": 38.615726470947266, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12422147393226624, "vf_explained_var": 0.972466766834259, "vf_loss": 38.72397994995117}, "grad_time_ms": 734.539}, "pid": 3934253, "time_total_s": 19178.542206048965, "episode_reward_mean": -155.77523854605596, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -192.82730108260392, "policy_reward_mean": {}, "episodes_total": 3912, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -150.75634943073578, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_19-56-11", "training_iteration": 163, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756490171, "episode_len_mean": 50.0, "timesteps_since_restore": 195600, "time_since_restore": 19178.542206048965, "time_this_iter_s": 112.3880877494812, "iterations_since_restore": 163}
+{"timesteps_total": 196800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 105948.854, "num_steps_sampled": 196800, "update_time_ms": 2.353, "num_steps_trained": 196800, "load_time_ms": 0.613, "default": {"kl": 0.01632661558687687, "cur_lr": 4.999999873689376e-05, "entropy": 14.407248497009277, "total_loss": 66.69595336914062, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1468474119901657, "vf_explained_var": 0.9592094421386719, "vf_loss": 66.82626342773438}, "grad_time_ms": 758.658}, "pid": 3934253, "time_total_s": 19271.680288791656, "episode_reward_mean": -155.52057609509816, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -192.82730108260392, "policy_reward_mean": {}, "episodes_total": 3936, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -150.59467953216102, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_19-57-44", "training_iteration": 164, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756490264, "episode_len_mean": 50.0, "timesteps_since_restore": 196800, "time_since_restore": 19271.680288791656, "time_this_iter_s": 93.13808274269104, "iterations_since_restore": 164}
+{"timesteps_total": 198000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 106547.882, "num_steps_sampled": 198000, "update_time_ms": 2.368, "num_steps_trained": 198000, "load_time_ms": 0.612, "default": {"kl": 0.014598803594708443, "cur_lr": 4.999999873689376e-05, "entropy": 14.533857345581055, "total_loss": 43.06224060058594, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12842096388339996, "vf_explained_var": 0.9679848551750183, "vf_loss": 43.17587661743164}, "grad_time_ms": 757.885}, "pid": 3934253, "time_total_s": 19374.33864402771, "episode_reward_mean": -155.1683275163884, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -186.20441058789976, "policy_reward_mean": {}, "episodes_total": 3960, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -149.0035912566383, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_19-59-27", "training_iteration": 165, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756490367, "episode_len_mean": 50.0, "timesteps_since_restore": 198000, "time_since_restore": 19374.33864402771, "time_this_iter_s": 102.65835523605347, "iterations_since_restore": 165}
+{"timesteps_total": 199200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 105139.279, "num_steps_sampled": 199200, "update_time_ms": 2.332, "num_steps_trained": 199200, "load_time_ms": 0.608, "default": {"kl": 0.014788919128477573, "cur_lr": 4.999999873689376e-05, "entropy": 14.377288818359375, "total_loss": 48.58959197998047, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12106100469827652, "vf_explained_var": 0.9630370736122131, "vf_loss": 48.6956787109375}, "grad_time_ms": 758.957}, "pid": 3934253, "time_total_s": 19463.992821216583, "episode_reward_mean": -154.9477786673612, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -186.20441058789976, "policy_reward_mean": {}, "episodes_total": 3984, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.68382772036009, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_20-00-56", "training_iteration": 166, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756490456, "episode_len_mean": 50.0, "timesteps_since_restore": 199200, "time_since_restore": 19463.992821216583, "time_this_iter_s": 89.65417718887329, "iterations_since_restore": 166}
+{"timesteps_total": 200400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 107294.494, "num_steps_sampled": 200400, "update_time_ms": 2.31, "num_steps_trained": 200400, "load_time_ms": 0.607, "default": {"kl": 0.015912381932139397, "cur_lr": 4.999999873689376e-05, "entropy": 14.272615432739258, "total_loss": 42.7900390625, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13069111108779907, "vf_explained_var": 0.9659023284912109, "vf_loss": 42.90461730957031}, "grad_time_ms": 754.259}, "pid": 3934253, "time_total_s": 19589.108632087708, "episode_reward_mean": -155.09633164691525, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -186.20441058789976, "policy_reward_mean": {}, "episodes_total": 4008, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.68382772036009, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_20-03-02", "training_iteration": 167, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756490582, "episode_len_mean": 50.0, "timesteps_since_restore": 200400, "time_since_restore": 19589.108632087708, "time_this_iter_s": 125.11581087112427, "iterations_since_restore": 167}
+{"timesteps_total": 201600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 105697.83, "num_steps_sampled": 201600, "update_time_ms": 2.295, "num_steps_trained": 201600, "load_time_ms": 0.607, "default": {"kl": 0.014985193498432636, "cur_lr": 4.999999873689376e-05, "entropy": 14.434755325317383, "total_loss": 35.87843322753906, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13099879026412964, "vf_explained_var": 0.9744190573692322, "vf_loss": 35.994258880615234}, "grad_time_ms": 757.804}, "pid": 3934253, "time_total_s": 19691.680990934372, "episode_reward_mean": -155.6347589901296, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -186.20441058789976, "policy_reward_mean": {}, "episodes_total": 4032, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -138.59291754226575, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_20-04-44", "training_iteration": 168, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756490684, "episode_len_mean": 50.0, "timesteps_since_restore": 201600, "time_since_restore": 19691.680990934372, "time_this_iter_s": 102.57235884666443, "iterations_since_restore": 168}
+{"timesteps_total": 202800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 102117.547, "num_steps_sampled": 202800, "update_time_ms": 2.31, "num_steps_trained": 202800, "load_time_ms": 0.623, "default": {"kl": 0.015808604657649994, "cur_lr": 4.999999873689376e-05, "entropy": 14.588302612304688, "total_loss": 55.970699310302734, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13252593576908112, "vf_explained_var": 0.9560667872428894, "vf_loss": 56.08721923828125}, "grad_time_ms": 754.829}, "pid": 3934253, "time_total_s": 19780.03944683075, "episode_reward_mean": -155.08221493769696, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -169.66817220868816, "policy_reward_mean": {}, "episodes_total": 4056, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -138.59291754226575, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_20-06-13", "training_iteration": 169, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756490773, "episode_len_mean": 50.0, "timesteps_since_restore": 202800, "time_since_restore": 19780.03944683075, "time_this_iter_s": 88.35845589637756, "iterations_since_restore": 169}
+{"timesteps_total": 204000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 101115.095, "num_steps_sampled": 204000, "update_time_ms": 2.281, "num_steps_trained": 204000, "load_time_ms": 0.621, "default": {"kl": 0.01640515774488449, "cur_lr": 4.999999873689376e-05, "entropy": 14.44264030456543, "total_loss": 33.83430099487305, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12805338203907013, "vf_explained_var": 0.9746472835540771, "vf_loss": 33.94574737548828}, "grad_time_ms": 776.615}, "pid": 3934253, "time_total_s": 19877.884481191635, "episode_reward_mean": -155.26188435914753, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -169.66817220868816, "policy_reward_mean": {}, "episodes_total": 4080, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -138.59291754226575, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_20-07-50", "training_iteration": 170, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756490870, "episode_len_mean": 50.0, "timesteps_since_restore": 204000, "time_since_restore": 19877.884481191635, "time_this_iter_s": 97.84503436088562, "iterations_since_restore": 170}
+{"timesteps_total": 205200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 98892.183, "num_steps_sampled": 205200, "update_time_ms": 2.217, "num_steps_trained": 205200, "load_time_ms": 0.621, "default": {"kl": 0.015521807596087456, "cur_lr": 4.999999873689376e-05, "entropy": 14.46370792388916, "total_loss": 60.55887222290039, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1447797566652298, "vf_explained_var": 0.9552225470542908, "vf_loss": 60.68794250488281}, "grad_time_ms": 763.954}, "pid": 3934253, "time_total_s": 19972.380245923996, "episode_reward_mean": -155.33247669421817, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -171.77568078754396, "policy_reward_mean": {}, "episodes_total": 4104, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -138.59291754226575, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_20-09-25", "training_iteration": 171, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756490965, "episode_len_mean": 50.0, "timesteps_since_restore": 205200, "time_since_restore": 19972.380245923996, "time_this_iter_s": 94.49576473236084, "iterations_since_restore": 171}
+{"timesteps_total": 206400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 100614.225, "num_steps_sampled": 206400, "update_time_ms": 2.248, "num_steps_trained": 206400, "load_time_ms": 0.622, "default": {"kl": 0.015789611265063286, "cur_lr": 4.999999873689376e-05, "entropy": 14.3331298828125, "total_loss": 48.4068717956543, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13671469688415527, "vf_explained_var": 0.9638553261756897, "vf_loss": 48.5275993347168}, "grad_time_ms": 775.318}, "pid": 3934253, "time_total_s": 20080.128808498383, "episode_reward_mean": -155.01792419325568, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -171.77568078754396, "policy_reward_mean": {}, "episodes_total": 4128, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -144.12471496163798, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_20-11-13", "training_iteration": 172, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756491073, "episode_len_mean": 50.0, "timesteps_since_restore": 206400, "time_since_restore": 20080.128808498383, "time_this_iter_s": 107.7485625743866, "iterations_since_restore": 172}
+{"timesteps_total": 207600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 98688.004, "num_steps_sampled": 207600, "update_time_ms": 2.24, "num_steps_trained": 207600, "load_time_ms": 0.622, "default": {"kl": 0.014612250961363316, "cur_lr": 4.999999873689376e-05, "entropy": 14.156961441040039, "total_loss": 42.88018035888672, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11420790106058121, "vf_explained_var": 0.9699710011482239, "vf_loss": 42.97959899902344}, "grad_time_ms": 761.07}, "pid": 3934253, "time_total_s": 20173.1121134758, "episode_reward_mean": -155.37836022919845, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -171.77568078754396, "policy_reward_mean": {}, "episodes_total": 4152, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -144.12471496163798, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_20-12-46", "training_iteration": 173, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756491166, "episode_len_mean": 50.0, "timesteps_since_restore": 207600, "time_since_restore": 20173.1121134758, "time_this_iter_s": 92.98330497741699, "iterations_since_restore": 173}
+{"timesteps_total": 208800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 99523.342, "num_steps_sampled": 208800, "update_time_ms": 2.206, "num_steps_trained": 208800, "load_time_ms": 0.621, "default": {"kl": 0.014946643263101578, "cur_lr": 4.999999873689376e-05, "entropy": 14.175942420959473, "total_loss": 57.44399642944336, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13504861295223236, "vf_explained_var": 0.9574512839317322, "vf_loss": 57.56391143798828}, "grad_time_ms": 765.866}, "pid": 3934253, "time_total_s": 20274.651047468185, "episode_reward_mean": -155.56842982858154, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -185.3305242842277, "policy_reward_mean": {}, "episodes_total": 4176, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -144.12471496163798, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_20-14-27", "training_iteration": 174, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756491267, "episode_len_mean": 50.0, "timesteps_since_restore": 208800, "time_since_restore": 20274.651047468185, "time_this_iter_s": 101.53893399238586, "iterations_since_restore": 174}
+{"timesteps_total": 210000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 98719.862, "num_steps_sampled": 210000, "update_time_ms": 2.231, "num_steps_trained": 210000, "load_time_ms": 0.622, "default": {"kl": 0.014225161634385586, "cur_lr": 4.999999873689376e-05, "entropy": 14.324098587036133, "total_loss": 59.64179229736328, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12911520898342133, "vf_explained_var": 0.9586576819419861, "vf_loss": 59.75650405883789}, "grad_time_ms": 739.584}, "pid": 3934253, "time_total_s": 20369.012630462646, "episode_reward_mean": -155.78960833378852, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -185.3305242842277, "policy_reward_mean": {}, "episodes_total": 4200, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -144.12471496163798, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_20-16-02", "training_iteration": 175, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756491362, "episode_len_mean": 50.0, "timesteps_since_restore": 210000, "time_since_restore": 20369.012630462646, "time_this_iter_s": 94.36158299446106, "iterations_since_restore": 175}
+{"timesteps_total": 211200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 98927.785, "num_steps_sampled": 211200, "update_time_ms": 2.238, "num_steps_trained": 211200, "load_time_ms": 0.621, "default": {"kl": 0.015747396275401115, "cur_lr": 4.999999873689376e-05, "entropy": 14.27517032623291, "total_loss": 35.0083122253418, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.137986421585083, "vf_explained_var": 0.9727128148078918, "vf_loss": 35.13035202026367}, "grad_time_ms": 746.11}, "pid": 3934253, "time_total_s": 20460.81170296669, "episode_reward_mean": -155.69055132115284, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -185.3305242842277, "policy_reward_mean": {}, "episodes_total": 4224, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -148.52867451145093, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_20-17-33", "training_iteration": 176, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756491453, "episode_len_mean": 50.0, "timesteps_since_restore": 211200, "time_since_restore": 20460.81170296669, "time_this_iter_s": 91.79907250404358, "iterations_since_restore": 176}
+{"timesteps_total": 212400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94410.29, "num_steps_sampled": 212400, "update_time_ms": 2.289, "num_steps_trained": 212400, "load_time_ms": 0.621, "default": {"kl": 0.01412759255617857, "cur_lr": 4.999999873689376e-05, "entropy": 14.326051712036133, "total_loss": 44.30991744995117, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12913967669010162, "vf_explained_var": 0.9653099775314331, "vf_loss": 44.42475891113281}, "grad_time_ms": 758.482}, "pid": 3934253, "time_total_s": 20540.877601861954, "episode_reward_mean": -155.4291076016693, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -185.3305242842277, "policy_reward_mean": {}, "episodes_total": 4248, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -148.52867451145093, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_20-18-53", "training_iteration": 177, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756491533, "episode_len_mean": 50.0, "timesteps_since_restore": 212400, "time_since_restore": 20540.877601861954, "time_this_iter_s": 80.06589889526367, "iterations_since_restore": 177}
+{"timesteps_total": 213600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94658.357, "num_steps_sampled": 213600, "update_time_ms": 2.329, "num_steps_trained": 213600, "load_time_ms": 0.617, "default": {"kl": 0.014271329157054424, "cur_lr": 4.999999873689376e-05, "entropy": 14.212542533874512, "total_loss": 57.12761688232422, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12536929547786713, "vf_explained_var": 0.9578894376754761, "vf_loss": 57.23854064941406}, "grad_time_ms": 738.686}, "pid": 3934253, "time_total_s": 20645.73306274414, "episode_reward_mean": -155.17733970045182, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -175.80811120532408, "policy_reward_mean": {}, "episodes_total": 4272, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -148.15369681094623, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_20-20-38", "training_iteration": 178, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756491638, "episode_len_mean": 50.0, "timesteps_since_restore": 213600, "time_since_restore": 20645.73306274414, "time_this_iter_s": 104.85546088218689, "iterations_since_restore": 178}
+{"timesteps_total": 214800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94257.458, "num_steps_sampled": 214800, "update_time_ms": 2.356, "num_steps_trained": 214800, "load_time_ms": 0.602, "default": {"kl": 0.014027887023985386, "cur_lr": 4.999999873689376e-05, "entropy": 14.08896255493164, "total_loss": 54.14302062988281, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13360297679901123, "vf_explained_var": 0.9601472020149231, "vf_loss": 54.26241683959961}, "grad_time_ms": 753.871}, "pid": 3934253, "time_total_s": 20730.234143018723, "episode_reward_mean": -154.9975954160479, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -174.65220154558435, "policy_reward_mean": {}, "episodes_total": 4296, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -145.09918014006897, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_20-22-03", "training_iteration": 179, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756491723, "episode_len_mean": 50.0, "timesteps_since_restore": 214800, "time_since_restore": 20730.234143018723, "time_this_iter_s": 84.50108027458191, "iterations_since_restore": 179}
+{"timesteps_total": 216000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94974.4, "num_steps_sampled": 216000, "update_time_ms": 2.376, "num_steps_trained": 216000, "load_time_ms": 0.604, "default": {"kl": 0.015153449028730392, "cur_lr": 4.999999873689376e-05, "entropy": 14.264097213745117, "total_loss": 61.21241760253906, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13657930493354797, "vf_explained_var": 0.9583113789558411, "vf_loss": 61.33365249633789}, "grad_time_ms": 739.851}, "pid": 3934253, "time_total_s": 20835.10924553871, "episode_reward_mean": -155.41010977496163, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -187.8065284956767, "policy_reward_mean": {}, "episodes_total": 4320, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -143.37941258015238, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_20-23-48", "training_iteration": 180, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756491828, "episode_len_mean": 50.0, "timesteps_since_restore": 216000, "time_since_restore": 20835.10924553871, "time_this_iter_s": 104.87510251998901, "iterations_since_restore": 180}
+{"timesteps_total": 217200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93982.285, "num_steps_sampled": 217200, "update_time_ms": 2.417, "num_steps_trained": 217200, "load_time_ms": 0.606, "default": {"kl": 0.016186289489269257, "cur_lr": 4.999999873689376e-05, "entropy": 14.127467155456543, "total_loss": 64.62361145019531, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13219882547855377, "vf_explained_var": 0.9601544141769409, "vf_loss": 64.73941040039062}, "grad_time_ms": 749.797}, "pid": 3934253, "time_total_s": 20919.783405065536, "episode_reward_mean": -155.7737927614949, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -187.8065284956767, "policy_reward_mean": {}, "episodes_total": 4344, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -143.37941258015238, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_20-25-12", "training_iteration": 181, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756491912, "episode_len_mean": 50.0, "timesteps_since_restore": 217200, "time_since_restore": 20919.783405065536, "time_this_iter_s": 84.67415952682495, "iterations_since_restore": 181}
+{"timesteps_total": 218400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93673.265, "num_steps_sampled": 218400, "update_time_ms": 2.428, "num_steps_trained": 218400, "load_time_ms": 0.612, "default": {"kl": 0.016756556928157806, "cur_lr": 4.999999873689376e-05, "entropy": 14.09090805053711, "total_loss": 32.69347381591797, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13112007081508636, "vf_explained_var": 0.9762242436408997, "vf_loss": 32.8076286315918}, "grad_time_ms": 753.985}, "pid": 3934253, "time_total_s": 21024.484308958054, "episode_reward_mean": -155.6975634315122, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -187.8065284956767, "policy_reward_mean": {}, "episodes_total": 4368, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -143.37941258015238, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_20-26-57", "training_iteration": 182, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756492017, "episode_len_mean": 50.0, "timesteps_since_restore": 218400, "time_since_restore": 21024.484308958054, "time_this_iter_s": 104.70090389251709, "iterations_since_restore": 182}
+{"timesteps_total": 219600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 96073.239, "num_steps_sampled": 219600, "update_time_ms": 2.455, "num_steps_trained": 219600, "load_time_ms": 0.609, "default": {"kl": 0.014003668911755085, "cur_lr": 4.999999873689376e-05, "entropy": 14.073108673095703, "total_loss": 43.03472137451172, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12060434371232986, "vf_explained_var": 0.9658010005950928, "vf_loss": 43.14114761352539}, "grad_time_ms": 756.764}, "pid": 3934253, "time_total_s": 21141.494768619537, "episode_reward_mean": -155.79708932386183, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -187.8065284956767, "policy_reward_mean": {}, "episodes_total": 4392, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -143.37941258015238, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_20-28-54", "training_iteration": 183, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756492134, "episode_len_mean": 50.0, "timesteps_since_restore": 219600, "time_since_restore": 21141.494768619537, "time_this_iter_s": 117.01045966148376, "iterations_since_restore": 183}
+{"timesteps_total": 220800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93381.741, "num_steps_sampled": 220800, "update_time_ms": 2.479, "num_steps_trained": 220800, "load_time_ms": 0.607, "default": {"kl": 0.015979474410414696, "cur_lr": 4.999999873689376e-05, "entropy": 13.951452255249023, "total_loss": 28.970035552978516, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13051539659500122, "vf_explained_var": 0.9753679633140564, "vf_loss": 29.084373474121094}, "grad_time_ms": 750.692}, "pid": 3934253, "time_total_s": 21216.059225797653, "episode_reward_mean": -155.2159485927954, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -174.74615890433003, "policy_reward_mean": {}, "episodes_total": 4416, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -149.9222426574402, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_20-30-09", "training_iteration": 184, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756492209, "episode_len_mean": 50.0, "timesteps_since_restore": 220800, "time_since_restore": 21216.059225797653, "time_this_iter_s": 74.56445717811584, "iterations_since_restore": 184}
+{"timesteps_total": 222000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 96436.116, "num_steps_sampled": 222000, "update_time_ms": 2.503, "num_steps_trained": 222000, "load_time_ms": 0.606, "default": {"kl": 0.015772182494401932, "cur_lr": 4.999999873689376e-05, "entropy": 14.0059232711792, "total_loss": 60.55994415283203, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1361880898475647, "vf_explained_var": 0.9553515315055847, "vf_loss": 60.68016052246094}, "grad_time_ms": 762.586}, "pid": 3934253, "time_total_s": 21341.083225011826, "episode_reward_mean": -154.90547833395576, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -180.30431492076218, "policy_reward_mean": {}, "episodes_total": 4440, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.678197164373, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_20-32-14", "training_iteration": 185, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756492334, "episode_len_mean": 50.0, "timesteps_since_restore": 222000, "time_since_restore": 21341.083225011826, "time_this_iter_s": 125.02399921417236, "iterations_since_restore": 185}
+{"timesteps_total": 223200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 95140.264, "num_steps_sampled": 223200, "update_time_ms": 2.507, "num_steps_trained": 223200, "load_time_ms": 0.605, "default": {"kl": 0.015124676749110222, "cur_lr": 4.999999873689376e-05, "entropy": 13.924979209899902, "total_loss": 37.755821228027344, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13534162938594818, "vf_explained_var": 0.9738060832023621, "vf_loss": 37.87584686279297}, "grad_time_ms": 752.513}, "pid": 3934253, "time_total_s": 21419.822728157043, "episode_reward_mean": -154.85165366221167, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -180.30431492076218, "policy_reward_mean": {}, "episodes_total": 4464, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.678197164373, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_20-33-33", "training_iteration": 186, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756492413, "episode_len_mean": 50.0, "timesteps_since_restore": 223200, "time_since_restore": 21419.822728157043, "time_this_iter_s": 78.7395031452179, "iterations_since_restore": 186}
+{"timesteps_total": 224400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 97230.341, "num_steps_sampled": 224400, "update_time_ms": 2.447, "num_steps_trained": 224400, "load_time_ms": 0.603, "default": {"kl": 0.01550869271159172, "cur_lr": 4.999999873689376e-05, "entropy": 14.100944519042969, "total_loss": 33.599151611328125, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1279132217168808, "vf_explained_var": 0.9754032492637634, "vf_loss": 33.711360931396484}, "grad_time_ms": 745.508}, "pid": 3934253, "time_total_s": 21520.718727827072, "episode_reward_mean": -154.45393718739763, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -180.30431492076218, "policy_reward_mean": {}, "episodes_total": 4488, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.678197164373, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_20-35-13", "training_iteration": 187, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756492513, "episode_len_mean": 50.0, "timesteps_since_restore": 224400, "time_since_restore": 21520.718727827072, "time_this_iter_s": 100.89599967002869, "iterations_since_restore": 187}
+{"timesteps_total": 225600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 96492.054, "num_steps_sampled": 225600, "update_time_ms": 2.439, "num_steps_trained": 225600, "load_time_ms": 0.606, "default": {"kl": 0.015070527791976929, "cur_lr": 4.999999873689376e-05, "entropy": 14.055828094482422, "total_loss": 31.14375114440918, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1401119828224182, "vf_explained_var": 0.9760143756866455, "vf_loss": 31.26860237121582}, "grad_time_ms": 770.442}, "pid": 3934253, "time_total_s": 21618.440562963486, "episode_reward_mean": -154.46611208847494, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -180.30431492076218, "policy_reward_mean": {}, "episodes_total": 4512, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.678197164373, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_20-36-51", "training_iteration": 188, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756492611, "episode_len_mean": 50.0, "timesteps_since_restore": 225600, "time_since_restore": 21618.440562963486, "time_this_iter_s": 97.72183513641357, "iterations_since_restore": 188}
+{"timesteps_total": 226800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 97484.15, "num_steps_sampled": 226800, "update_time_ms": 2.429, "num_steps_trained": 226800, "load_time_ms": 0.609, "default": {"kl": 0.017055794596672058, "cur_lr": 4.999999873689376e-05, "entropy": 13.9029541015625, "total_loss": 34.64968490600586, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13037782907485962, "vf_explained_var": 0.975419282913208, "vf_loss": 34.76279830932617}, "grad_time_ms": 758.748}, "pid": 3934253, "time_total_s": 21712.745859384537, "episode_reward_mean": -154.22806128008008, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.64550611361074, "policy_reward_mean": {}, "episodes_total": 4536, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -150.59684708886275, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_20-38-26", "training_iteration": 189, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756492706, "episode_len_mean": 50.0, "timesteps_since_restore": 226800, "time_since_restore": 21712.745859384537, "time_this_iter_s": 94.30529642105103, "iterations_since_restore": 189}
+{"timesteps_total": 228000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 98561.022, "num_steps_sampled": 228000, "update_time_ms": 2.417, "num_steps_trained": 228000, "load_time_ms": 0.636, "default": {"kl": 0.015165035612881184, "cur_lr": 4.999999873689376e-05, "entropy": 13.919445037841797, "total_loss": 50.03436279296875, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13474352657794952, "vf_explained_var": 0.9623463153839111, "vf_loss": 50.153751373291016}, "grad_time_ms": 757.404}, "pid": 3934253, "time_total_s": 21828.377017736435, "episode_reward_mean": -153.72495777307597, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.64550611361074, "policy_reward_mean": {}, "episodes_total": 4560, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -138.56659806083067, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_20-40-21", "training_iteration": 190, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756492821, "episode_len_mean": 50.0, "timesteps_since_restore": 228000, "time_since_restore": 21828.377017736435, "time_this_iter_s": 115.6311583518982, "iterations_since_restore": 190}
+{"timesteps_total": 229200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 101165.068, "num_steps_sampled": 229200, "update_time_ms": 2.484, "num_steps_trained": 229200, "load_time_ms": 0.661, "default": {"kl": 0.015464269556105137, "cur_lr": 4.999999873689376e-05, "entropy": 13.737651824951172, "total_loss": 23.389896392822266, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13375920057296753, "vf_explained_var": 0.9811168313026428, "vf_loss": 23.50799560546875}, "grad_time_ms": 738.619}, "pid": 3934253, "time_total_s": 21938.90476822853, "episode_reward_mean": -153.30432291500162, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.64550611361074, "policy_reward_mean": {}, "episodes_total": 4584, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -138.56659806083067, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_20-42-12", "training_iteration": 191, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756492932, "episode_len_mean": 50.0, "timesteps_since_restore": 229200, "time_since_restore": 21938.90476822853, "time_this_iter_s": 110.52775049209595, "iterations_since_restore": 191}
+{"timesteps_total": 230400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 101400.198, "num_steps_sampled": 230400, "update_time_ms": 2.456, "num_steps_trained": 230400, "load_time_ms": 0.657, "default": {"kl": 0.01649424433708191, "cur_lr": 4.999999873689376e-05, "entropy": 13.909981727600098, "total_loss": 30.5107421875, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1406993716955185, "vf_explained_var": 0.9759019017219543, "vf_loss": 30.63473892211914}, "grad_time_ms": 709.028}, "pid": 3934253, "time_total_s": 22045.659630537033, "episode_reward_mean": -153.2856807334686, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -169.60459859319087, "policy_reward_mean": {}, "episodes_total": 4608, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -138.56659806083067, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_20-43-59", "training_iteration": 192, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756493039, "episode_len_mean": 50.0, "timesteps_since_restore": 230400, "time_since_restore": 22045.659630537033, "time_this_iter_s": 106.7548623085022, "iterations_since_restore": 192}
+{"timesteps_total": 231600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 99165.403, "num_steps_sampled": 231600, "update_time_ms": 2.423, "num_steps_trained": 231600, "load_time_ms": 0.655, "default": {"kl": 0.014766073785722256, "cur_lr": 4.999999873689376e-05, "entropy": 13.603525161743164, "total_loss": 46.67988586425781, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12098463624715805, "vf_explained_var": 0.9633685350418091, "vf_loss": 46.78591537475586}, "grad_time_ms": 715.39}, "pid": 3934253, "time_total_s": 22140.386114120483, "episode_reward_mean": -153.8011387577607, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -169.60459859319087, "policy_reward_mean": {}, "episodes_total": 4632, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -138.56659806083067, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_20-45-33", "training_iteration": 193, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756493133, "episode_len_mean": 50.0, "timesteps_since_restore": 231600, "time_since_restore": 22140.386114120483, "time_this_iter_s": 94.72648358345032, "iterations_since_restore": 193}
+{"timesteps_total": 232800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 103001.441, "num_steps_sampled": 232800, "update_time_ms": 2.447, "num_steps_trained": 232800, "load_time_ms": 0.673, "default": {"kl": 0.016012491658329964, "cur_lr": 4.999999873689376e-05, "entropy": 13.908878326416016, "total_loss": 31.52902603149414, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12783116102218628, "vf_explained_var": 0.9771274924278259, "vf_loss": 31.64064598083496}, "grad_time_ms": 727.675}, "pid": 3934253, "time_total_s": 22253.433773756027, "episode_reward_mean": -154.14178573010508, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -169.60459859319087, "policy_reward_mean": {}, "episodes_total": 4656, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -138.56659806083067, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_20-47-26", "training_iteration": 194, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756493246, "episode_len_mean": 50.0, "timesteps_since_restore": 232800, "time_since_restore": 22253.433773756027, "time_this_iter_s": 113.04765963554382, "iterations_since_restore": 194}
+{"timesteps_total": 234000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 101708.056, "num_steps_sampled": 234000, "update_time_ms": 2.457, "num_steps_trained": 234000, "load_time_ms": 0.669, "default": {"kl": 0.015001552179455757, "cur_lr": 4.999999873689376e-05, "entropy": 13.77999496459961, "total_loss": 35.390708923339844, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12304878234863281, "vf_explained_var": 0.9735833406448364, "vf_loss": 35.498565673828125}, "grad_time_ms": 728.105}, "pid": 3934253, "time_total_s": 22365.52901148796, "episode_reward_mean": -154.76540725376347, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -169.60459859319087, "policy_reward_mean": {}, "episodes_total": 4680, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -150.01169480783062, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_20-49-18", "training_iteration": 195, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756493358, "episode_len_mean": 50.0, "timesteps_since_restore": 234000, "time_since_restore": 22365.52901148796, "time_this_iter_s": 112.0952377319336, "iterations_since_restore": 195}
+{"timesteps_total": 235200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 101804.077, "num_steps_sampled": 235200, "update_time_ms": 2.433, "num_steps_trained": 235200, "load_time_ms": 0.671, "default": {"kl": 0.01647140271961689, "cur_lr": 4.999999873689376e-05, "entropy": 13.635623931884766, "total_loss": 52.579586029052734, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13822194933891296, "vf_explained_var": 0.9653752446174622, "vf_loss": 52.70112609863281}, "grad_time_ms": 738.72}, "pid": 3934253, "time_total_s": 22445.33472752571, "episode_reward_mean": -154.83888058703687, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -177.26881957412837, "policy_reward_mean": {}, "episodes_total": 4704, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -146.65800145858734, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_20-50-38", "training_iteration": 196, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756493438, "episode_len_mean": 50.0, "timesteps_since_restore": 235200, "time_since_restore": 22445.33472752571, "time_this_iter_s": 79.80571603775024, "iterations_since_restore": 196}
+{"timesteps_total": 236400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 102468.947, "num_steps_sampled": 236400, "update_time_ms": 2.481, "num_steps_trained": 236400, "load_time_ms": 0.678, "default": {"kl": 0.015982117503881454, "cur_lr": 4.999999873689376e-05, "entropy": 13.740926742553711, "total_loss": 18.595247268676758, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12767238914966583, "vf_explained_var": 0.9844462275505066, "vf_loss": 18.706737518310547}, "grad_time_ms": 738.975}, "pid": 3934253, "time_total_s": 22552.882929325104, "episode_reward_mean": -154.33678146760286, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -177.26881957412837, "policy_reward_mean": {}, "episodes_total": 4728, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -146.65800145858734, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_20-52-26", "training_iteration": 197, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756493546, "episode_len_mean": 50.0, "timesteps_since_restore": 236400, "time_since_restore": 22552.882929325104, "time_this_iter_s": 107.5482017993927, "iterations_since_restore": 197}
+{"timesteps_total": 237600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 103790.417, "num_steps_sampled": 237600, "update_time_ms": 2.534, "num_steps_trained": 237600, "load_time_ms": 0.673, "default": {"kl": 0.014276721514761448, "cur_lr": 4.999999873689376e-05, "entropy": 13.760214805603027, "total_loss": 41.77705383300781, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1205190122127533, "vf_explained_var": 0.969501793384552, "vf_loss": 41.88311767578125}, "grad_time_ms": 718.444}, "pid": 3934253, "time_total_s": 22663.61433315277, "episode_reward_mean": -154.44646720506114, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -201.16762912816088, "policy_reward_mean": {}, "episodes_total": 4752, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -146.65800145858734, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_20-54-17", "training_iteration": 198, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756493657, "episode_len_mean": 50.0, "timesteps_since_restore": 237600, "time_since_restore": 22663.61433315277, "time_this_iter_s": 110.73140382766724, "iterations_since_restore": 198}
+{"timesteps_total": 238800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 104968.257, "num_steps_sampled": 238800, "update_time_ms": 2.498, "num_steps_trained": 238800, "load_time_ms": 0.673, "default": {"kl": 0.01621420495212078, "cur_lr": 4.999999873689376e-05, "entropy": 13.574341773986816, "total_loss": 46.5653076171875, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13176356256008148, "vf_explained_var": 0.9670212268829346, "vf_loss": 46.68064880371094}, "grad_time_ms": 720.256}, "pid": 3934253, "time_total_s": 22769.716091156006, "episode_reward_mean": -154.59433723746173, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -201.16762912816088, "policy_reward_mean": {}, "episodes_total": 4776, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -146.65800145858734, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_20-56-03", "training_iteration": 199, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756493763, "episode_len_mean": 50.0, "timesteps_since_restore": 238800, "time_since_restore": 22769.716091156006, "time_this_iter_s": 106.10175800323486, "iterations_since_restore": 199}
+{"timesteps_total": 240000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 105216.055, "num_steps_sampled": 240000, "update_time_ms": 2.462, "num_steps_trained": 240000, "load_time_ms": 0.641, "default": {"kl": 0.014780566096305847, "cur_lr": 4.999999873689376e-05, "entropy": 13.378012657165527, "total_loss": 36.66807174682617, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14128637313842773, "vf_explained_var": 0.9747660756111145, "vf_loss": 36.79439163208008}, "grad_time_ms": 725.314}, "pid": 3934253, "time_total_s": 22887.873666524887, "episode_reward_mean": -154.4375084794087, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -201.16762912816088, "policy_reward_mean": {}, "episodes_total": 4800, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -149.0978238513307, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_20-58-01", "training_iteration": 200, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756493881, "episode_len_mean": 50.0, "timesteps_since_restore": 240000, "time_since_restore": 22887.873666524887, "time_this_iter_s": 118.15757536888123, "iterations_since_restore": 200}
+{"timesteps_total": 241200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 104910.777, "num_steps_sampled": 241200, "update_time_ms": 2.452, "num_steps_trained": 241200, "load_time_ms": 0.606, "default": {"kl": 0.013666907325387001, "cur_lr": 4.999999873689376e-05, "entropy": 13.640439987182617, "total_loss": 49.74296188354492, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12500447034835815, "vf_explained_var": 0.9647335410118103, "vf_loss": 49.85413360595703}, "grad_time_ms": 735.828}, "pid": 3934253, "time_total_s": 22995.453704595566, "episode_reward_mean": -154.5080193255974, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -201.16762912816088, "policy_reward_mean": {}, "episodes_total": 4824, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -146.52584462153817, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_20-59-48", "training_iteration": 201, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756493988, "episode_len_mean": 50.0, "timesteps_since_restore": 241200, "time_since_restore": 22995.453704595566, "time_this_iter_s": 107.58003807067871, "iterations_since_restore": 201}
+{"timesteps_total": 242400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 102243.239, "num_steps_sampled": 242400, "update_time_ms": 2.469, "num_steps_trained": 242400, "load_time_ms": 0.604, "default": {"kl": 0.015573102980852127, "cur_lr": 4.999999873689376e-05, "entropy": 13.60585880279541, "total_loss": 44.72560501098633, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11865009367465973, "vf_explained_var": 0.9653467535972595, "vf_loss": 44.828487396240234}, "grad_time_ms": 732.415}, "pid": 3934253, "time_total_s": 23075.499824762344, "episode_reward_mean": -154.390515036229, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -201.16762912816088, "policy_reward_mean": {}, "episodes_total": 4848, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -144.64655797683017, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_21-01-09", "training_iteration": 202, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756494069, "episode_len_mean": 50.0, "timesteps_since_restore": 242400, "time_since_restore": 23075.499824762344, "time_this_iter_s": 80.04612016677856, "iterations_since_restore": 202}
+{"timesteps_total": 243600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 103775.09, "num_steps_sampled": 243600, "update_time_ms": 2.511, "num_steps_trained": 243600, "load_time_ms": 0.607, "default": {"kl": 0.01503191888332367, "cur_lr": 4.999999873689376e-05, "entropy": 13.590577125549316, "total_loss": 42.913047790527344, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11701390147209167, "vf_explained_var": 0.9663113355636597, "vf_loss": 43.01484298706055}, "grad_time_ms": 733.825}, "pid": 3934253, "time_total_s": 23185.55954527855, "episode_reward_mean": -153.60317569799324, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.37361769890444, "policy_reward_mean": {}, "episodes_total": 4872, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -138.32310226038112, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_21-02-59", "training_iteration": 203, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756494179, "episode_len_mean": 50.0, "timesteps_since_restore": 243600, "time_since_restore": 23185.55954527855, "time_this_iter_s": 110.05972051620483, "iterations_since_restore": 203}
+{"timesteps_total": 244800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 102549.786, "num_steps_sampled": 244800, "update_time_ms": 2.504, "num_steps_trained": 244800, "load_time_ms": 0.591, "default": {"kl": 0.016744563356041908, "cur_lr": 4.999999873689376e-05, "entropy": 13.430876731872559, "total_loss": 37.94887924194336, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13519436120986938, "vf_explained_var": 0.9705941677093506, "vf_loss": 38.06712341308594}, "grad_time_ms": 721.255}, "pid": 3934253, "time_total_s": 23286.228005886078, "episode_reward_mean": -153.52169316652558, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -168.51605431528077, "policy_reward_mean": {}, "episodes_total": 4896, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -138.32310226038112, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_21-04-39", "training_iteration": 204, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756494279, "episode_len_mean": 50.0, "timesteps_since_restore": 244800, "time_since_restore": 23286.228005886078, "time_this_iter_s": 100.66846060752869, "iterations_since_restore": 204}
+{"timesteps_total": 246000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 101212.226, "num_steps_sampled": 246000, "update_time_ms": 2.459, "num_steps_trained": 246000, "load_time_ms": 0.596, "default": {"kl": 0.01710333861410618, "cur_lr": 4.999999873689376e-05, "entropy": 13.417792320251465, "total_loss": 38.24384689331055, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.144325852394104, "vf_explained_var": 0.9721401929855347, "vf_loss": 38.37085723876953}, "grad_time_ms": 737.0}, "pid": 3934253, "time_total_s": 23385.1042368412, "episode_reward_mean": -153.58170670594885, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -168.51605431528077, "policy_reward_mean": {}, "episodes_total": 4920, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -138.32310226038112, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_21-06-18", "training_iteration": 205, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756494378, "episode_len_mean": 50.0, "timesteps_since_restore": 246000, "time_since_restore": 23385.1042368412, "time_this_iter_s": 98.8762309551239, "iterations_since_restore": 205}
+{"timesteps_total": 247200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 103806.858, "num_steps_sampled": 247200, "update_time_ms": 2.565, "num_steps_trained": 247200, "load_time_ms": 0.614, "default": {"kl": 0.015271955169737339, "cur_lr": 4.999999873689376e-05, "entropy": 13.395512580871582, "total_loss": 54.9863166809082, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14978620409965515, "vf_explained_var": 0.9647194743156433, "vf_loss": 55.12063980102539}, "grad_time_ms": 729.754}, "pid": 3934253, "time_total_s": 23490.784667491913, "episode_reward_mean": -153.93582146379998, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -168.51605431528077, "policy_reward_mean": {}, "episodes_total": 4944, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -138.32310226038112, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_21-08-04", "training_iteration": 206, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756494484, "episode_len_mean": 50.0, "timesteps_since_restore": 247200, "time_since_restore": 23490.784667491913, "time_this_iter_s": 105.68043065071106, "iterations_since_restore": 206}
+{"timesteps_total": 248400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 103302.599, "num_steps_sampled": 248400, "update_time_ms": 2.567, "num_steps_trained": 248400, "load_time_ms": 0.611, "default": {"kl": 0.013181351125240326, "cur_lr": 4.999999873689376e-05, "entropy": 13.397079467773438, "total_loss": 47.21424865722656, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1278305947780609, "vf_explained_var": 0.9659013748168945, "vf_loss": 47.328731536865234}, "grad_time_ms": 724.667}, "pid": 3934253, "time_total_s": 23593.239156246185, "episode_reward_mean": -154.25386999328757, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -181.2020651411598, "policy_reward_mean": {}, "episodes_total": 4968, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -140.24452928526324, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_21-09-46", "training_iteration": 207, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756494586, "episode_len_mean": 50.0, "timesteps_since_restore": 248400, "time_since_restore": 23593.239156246185, "time_this_iter_s": 102.45448875427246, "iterations_since_restore": 207}
+{"timesteps_total": 249600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 102177.445, "num_steps_sampled": 249600, "update_time_ms": 2.522, "num_steps_trained": 249600, "load_time_ms": 0.621, "default": {"kl": 0.014789672568440437, "cur_lr": 4.999999873689376e-05, "entropy": 13.347824096679688, "total_loss": 56.15548324584961, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.139645516872406, "vf_explained_var": 0.9593076705932617, "vf_loss": 56.2801513671875}, "grad_time_ms": 736.067}, "pid": 3934253, "time_total_s": 23692.833278894424, "episode_reward_mean": -154.4865686886029, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -181.2020651411598, "policy_reward_mean": {}, "episodes_total": 4992, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -146.07667147403822, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_21-11-26", "training_iteration": 208, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756494686, "episode_len_mean": 50.0, "timesteps_since_restore": 249600, "time_since_restore": 23692.833278894424, "time_this_iter_s": 99.59412264823914, "iterations_since_restore": 208}
+{"timesteps_total": 250800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 101683.031, "num_steps_sampled": 250800, "update_time_ms": 2.546, "num_steps_trained": 250800, "load_time_ms": 0.626, "default": {"kl": 0.015958771109580994, "cur_lr": 4.999999873689376e-05, "entropy": 13.283158302307129, "total_loss": 32.21907424926758, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14139731228351593, "vf_explained_var": 0.9757466912269592, "vf_loss": 32.34431457519531}, "grad_time_ms": 744.585}, "pid": 3934253, "time_total_s": 23794.076202869415, "episode_reward_mean": -154.57491315828824, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -181.2020651411598, "policy_reward_mean": {}, "episodes_total": 5016, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -146.07667147403822, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_21-13-07", "training_iteration": 209, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756494787, "episode_len_mean": 50.0, "timesteps_since_restore": 250800, "time_since_restore": 23794.076202869415, "time_this_iter_s": 101.24292397499084, "iterations_since_restore": 209}
+{"timesteps_total": 252000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 100320.453, "num_steps_sampled": 252000, "update_time_ms": 2.589, "num_steps_trained": 252000, "load_time_ms": 0.627, "default": {"kl": 0.016961511224508286, "cur_lr": 4.999999873689376e-05, "entropy": 13.437080383300781, "total_loss": 28.432422637939453, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1382811963558197, "vf_explained_var": 0.9765098094940186, "vf_loss": 28.55352783203125}, "grad_time_ms": 750.972}, "pid": 3934253, "time_total_s": 23898.673114538193, "episode_reward_mean": -154.64418535655625, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -181.2020651411598, "policy_reward_mean": {}, "episodes_total": 5040, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -144.40869175206473, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_21-14-52", "training_iteration": 210, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756494892, "episode_len_mean": 50.0, "timesteps_since_restore": 252000, "time_since_restore": 23898.673114538193, "time_this_iter_s": 104.59691166877747, "iterations_since_restore": 210}
+{"timesteps_total": 253200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 101961.698, "num_steps_sampled": 253200, "update_time_ms": 2.533, "num_steps_trained": 253200, "load_time_ms": 0.649, "default": {"kl": 0.015320269390940666, "cur_lr": 4.999999873689376e-05, "entropy": 13.378397941589355, "total_loss": 38.70890808105469, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13138148188591003, "vf_explained_var": 0.9688937067985535, "vf_loss": 38.82477951049805}, "grad_time_ms": 745.729}, "pid": 3934253, "time_total_s": 24022.612620592117, "episode_reward_mean": -154.84949540505792, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -177.23204123604674, "policy_reward_mean": {}, "episodes_total": 5064, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -144.40869175206473, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_21-16-56", "training_iteration": 211, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756495016, "episode_len_mean": 50.0, "timesteps_since_restore": 253200, "time_since_restore": 24022.612620592117, "time_this_iter_s": 123.93950605392456, "iterations_since_restore": 211}
+{"timesteps_total": 254400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 104314.751, "num_steps_sampled": 254400, "update_time_ms": 2.506, "num_steps_trained": 254400, "load_time_ms": 0.649, "default": {"kl": 0.015276423655450344, "cur_lr": 4.999999873689376e-05, "entropy": 13.541495323181152, "total_loss": 35.86064910888672, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.135739266872406, "vf_explained_var": 0.9777436852455139, "vf_loss": 35.980918884277344}, "grad_time_ms": 759.486}, "pid": 3934253, "time_total_s": 24126.327362060547, "episode_reward_mean": -154.75495105972402, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -175.558753189674, "policy_reward_mean": {}, "episodes_total": 5088, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.65037420939933, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_21-18-40", "training_iteration": 212, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756495120, "episode_len_mean": 50.0, "timesteps_since_restore": 254400, "time_since_restore": 24126.327362060547, "time_this_iter_s": 103.71474146842957, "iterations_since_restore": 212}
+{"timesteps_total": 255600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 106540.291, "num_steps_sampled": 255600, "update_time_ms": 2.506, "num_steps_trained": 255600, "load_time_ms": 0.658, "default": {"kl": 0.014562960714101791, "cur_lr": 4.999999873689376e-05, "entropy": 13.229193687438965, "total_loss": 27.504392623901367, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12833461165428162, "vf_explained_var": 0.9786010384559631, "vf_loss": 27.617982864379883}, "grad_time_ms": 736.482}, "pid": 3934253, "time_total_s": 24258.412103414536, "episode_reward_mean": -154.48851868906385, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -175.558753189674, "policy_reward_mean": {}, "episodes_total": 5112, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.65037420939933, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_21-20-52", "training_iteration": 213, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756495252, "episode_len_mean": 50.0, "timesteps_since_restore": 255600, "time_since_restore": 24258.412103414536, "time_this_iter_s": 132.08474135398865, "iterations_since_restore": 213}
+{"timesteps_total": 256800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 105849.683, "num_steps_sampled": 256800, "update_time_ms": 2.509, "num_steps_trained": 256800, "load_time_ms": 0.659, "default": {"kl": 0.014660666696727276, "cur_lr": 4.999999873689376e-05, "entropy": 13.363061904907227, "total_loss": 40.02897644042969, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13153332471847534, "vf_explained_var": 0.9764943718910217, "vf_loss": 40.14567184448242}, "grad_time_ms": 728.893}, "pid": 3934253, "time_total_s": 24352.10121202469, "episode_reward_mean": -154.46203690448567, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -175.558753189674, "policy_reward_mean": {}, "episodes_total": 5136, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.65037420939933, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_21-22-25", "training_iteration": 214, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756495345, "episode_len_mean": 50.0, "timesteps_since_restore": 256800, "time_since_restore": 24352.10121202469, "time_this_iter_s": 93.6891086101532, "iterations_since_restore": 214}
+{"timesteps_total": 258000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 106030.498, "num_steps_sampled": 258000, "update_time_ms": 2.55, "num_steps_trained": 258000, "load_time_ms": 0.658, "default": {"kl": 0.015574107877910137, "cur_lr": 4.999999873689376e-05, "entropy": 13.24034595489502, "total_loss": 23.518882751464844, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13245254755020142, "vf_explained_var": 0.9813408255577087, "vf_loss": 23.63556671142578}, "grad_time_ms": 724.611}, "pid": 3934253, "time_total_s": 24452.742853164673, "episode_reward_mean": -153.56616856118634, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -175.558753189674, "policy_reward_mean": {}, "episodes_total": 5160, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.65037420939933, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_21-24-06", "training_iteration": 215, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756495446, "episode_len_mean": 50.0, "timesteps_since_restore": 258000, "time_since_restore": 24452.742853164673, "time_this_iter_s": 100.64164113998413, "iterations_since_restore": 215}
+{"timesteps_total": 259200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 106625.713, "num_steps_sampled": 259200, "update_time_ms": 2.448, "num_steps_trained": 259200, "load_time_ms": 0.639, "default": {"kl": 0.015010246075689793, "cur_lr": 4.999999873689376e-05, "entropy": 13.155643463134766, "total_loss": 42.44038009643555, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12642936408519745, "vf_explained_var": 0.9697035551071167, "vf_loss": 42.55160903930664}, "grad_time_ms": 724.094}, "pid": 3934253, "time_total_s": 24564.368947267532, "episode_reward_mean": -154.02823510503526, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -178.46962133035237, "policy_reward_mean": {}, "episodes_total": 5184, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.65037420939933, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_21-25-58", "training_iteration": 216, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756495558, "episode_len_mean": 50.0, "timesteps_since_restore": 259200, "time_since_restore": 24564.368947267532, "time_this_iter_s": 111.6260941028595, "iterations_since_restore": 216}
+{"timesteps_total": 260400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 106940.569, "num_steps_sampled": 260400, "update_time_ms": 2.416, "num_steps_trained": 260400, "load_time_ms": 0.636, "default": {"kl": 0.015397397801280022, "cur_lr": 4.999999873689376e-05, "entropy": 13.084989547729492, "total_loss": 37.89418029785156, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1234256848692894, "vf_explained_var": 0.9787766933441162, "vf_loss": 38.002017974853516}, "grad_time_ms": 719.41}, "pid": 3934253, "time_total_s": 24669.925053358078, "episode_reward_mean": -154.47670628352498, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -178.46962133035237, "policy_reward_mean": {}, "episodes_total": 5208, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -144.31778136586442, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_21-27-43", "training_iteration": 217, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756495663, "episode_len_mean": 50.0, "timesteps_since_restore": 260400, "time_since_restore": 24669.925053358078, "time_this_iter_s": 105.55610609054565, "iterations_since_restore": 217}
+{"timesteps_total": 261600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 107460.8, "num_steps_sampled": 261600, "update_time_ms": 2.437, "num_steps_trained": 261600, "load_time_ms": 0.636, "default": {"kl": 0.015226908959448338, "cur_lr": 4.999999873689376e-05, "entropy": 13.149221420288086, "total_loss": 47.839778900146484, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13463148474693298, "vf_explained_var": 0.9676254987716675, "vf_loss": 47.95899200439453}, "grad_time_ms": 716.797}, "pid": 3934253, "time_total_s": 24774.695830106735, "episode_reward_mean": -154.79985125114234, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -178.46962133035237, "policy_reward_mean": {}, "episodes_total": 5232, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -143.7615888181636, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_21-29-28", "training_iteration": 218, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756495768, "episode_len_mean": 50.0, "timesteps_since_restore": 261600, "time_since_restore": 24774.695830106735, "time_this_iter_s": 104.77077674865723, "iterations_since_restore": 218}
+{"timesteps_total": 262800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 109240.82, "num_steps_sampled": 262800, "update_time_ms": 2.408, "num_steps_trained": 262800, "load_time_ms": 0.629, "default": {"kl": 0.013625938445329666, "cur_lr": 4.999999873689376e-05, "entropy": 13.160884857177734, "total_loss": 38.04711151123047, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12461742758750916, "vf_explained_var": 0.9737904667854309, "vf_loss": 38.15793228149414}, "grad_time_ms": 707.953}, "pid": 3934253, "time_total_s": 24893.649383544922, "episode_reward_mean": -154.8291380370024, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -178.46962133035237, "policy_reward_mean": {}, "episodes_total": 5256, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -143.7615888181636, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_21-31-27", "training_iteration": 219, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756495887, "episode_len_mean": 50.0, "timesteps_since_restore": 262800, "time_since_restore": 24893.649383544922, "time_this_iter_s": 118.95355343818665, "iterations_since_restore": 219}
+{"timesteps_total": 264000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 106807.186, "num_steps_sampled": 264000, "update_time_ms": 2.388, "num_steps_trained": 264000, "load_time_ms": 0.63, "default": {"kl": 0.01404307596385479, "cur_lr": 4.999999873689376e-05, "entropy": 13.15298080444336, "total_loss": 49.057411193847656, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13220664858818054, "vf_explained_var": 0.965358316898346, "vf_loss": 49.17539978027344}, "grad_time_ms": 709.126}, "pid": 3934253, "time_total_s": 24973.92138981819, "episode_reward_mean": -154.6194946052812, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -172.94731992277121, "policy_reward_mean": {}, "episodes_total": 5280, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -143.7615888181636, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_21-32-47", "training_iteration": 220, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756495967, "episode_len_mean": 50.0, "timesteps_since_restore": 264000, "time_since_restore": 24973.92138981819, "time_this_iter_s": 80.27200627326965, "iterations_since_restore": 220}
+{"timesteps_total": 265200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 100237.639, "num_steps_sampled": 265200, "update_time_ms": 2.377, "num_steps_trained": 265200, "load_time_ms": 0.616, "default": {"kl": 0.014865408651530743, "cur_lr": 4.999999873689376e-05, "entropy": 13.083892822265625, "total_loss": 21.751710891723633, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13358891010284424, "vf_explained_var": 0.9818400144577026, "vf_loss": 21.870248794555664}, "grad_time_ms": 722.184}, "pid": 3934253, "time_total_s": 25032.295438051224, "episode_reward_mean": -154.0848343995392, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -172.94731992277121, "policy_reward_mean": {}, "episodes_total": 5304, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -143.7615888181636, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_21-33-46", "training_iteration": 221, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756496026, "episode_len_mean": 50.0, "timesteps_since_restore": 265200, "time_since_restore": 25032.295438051224, "time_this_iter_s": 58.37404823303223, "iterations_since_restore": 221}
+{"timesteps_total": 266400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 102143.166, "num_steps_sampled": 266400, "update_time_ms": 2.42, "num_steps_trained": 266400, "load_time_ms": 0.617, "default": {"kl": 0.014355365186929703, "cur_lr": 4.999999873689376e-05, "entropy": 13.014341354370117, "total_loss": 67.55355072021484, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13376568257808685, "vf_explained_var": 0.9518985748291016, "vf_loss": 67.67278289794922}, "grad_time_ms": 737.906}, "pid": 3934253, "time_total_s": 25155.22252869606, "episode_reward_mean": -154.03806347040836, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -174.09409334392393, "policy_reward_mean": {}, "episodes_total": 5328, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -145.41766044712392, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_21-35-49", "training_iteration": 222, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756496149, "episode_len_mean": 50.0, "timesteps_since_restore": 266400, "time_since_restore": 25155.22252869606, "time_this_iter_s": 122.92709064483643, "iterations_since_restore": 222}
+{"timesteps_total": 267600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 99729.598, "num_steps_sampled": 267600, "update_time_ms": 2.413, "num_steps_trained": 267600, "load_time_ms": 0.605, "default": {"kl": 0.015129496343433857, "cur_lr": 4.999999873689376e-05, "entropy": 13.16669750213623, "total_loss": 23.677480697631836, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13773919641971588, "vf_explained_var": 0.9821985960006714, "vf_loss": 23.79990005493164}, "grad_time_ms": 742.503}, "pid": 3934253, "time_total_s": 25263.21758890152, "episode_reward_mean": -153.84540569107764, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -174.09409334392393, "policy_reward_mean": {}, "episodes_total": 5352, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -145.41766044712392, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_21-37-37", "training_iteration": 223, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756496257, "episode_len_mean": 50.0, "timesteps_since_restore": 267600, "time_since_restore": 25263.21758890152, "time_this_iter_s": 107.9950602054596, "iterations_since_restore": 223}
+{"timesteps_total": 268800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 99750.405, "num_steps_sampled": 268800, "update_time_ms": 2.491, "num_steps_trained": 268800, "load_time_ms": 0.613, "default": {"kl": 0.014904823154211044, "cur_lr": 4.999999873689376e-05, "entropy": 13.1945161819458, "total_loss": 19.52242088317871, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14050191640853882, "vf_explained_var": 0.9843916296958923, "vf_loss": 19.647830963134766}, "grad_time_ms": 760.738}, "pid": 3934253, "time_total_s": 25357.295568943024, "episode_reward_mean": -153.5902486105291, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -175.99024313429615, "policy_reward_mean": {}, "episodes_total": 5376, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -145.11019265055916, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_21-39-11", "training_iteration": 224, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756496351, "episode_len_mean": 50.0, "timesteps_since_restore": 268800, "time_since_restore": 25357.295568943024, "time_this_iter_s": 94.0779800415039, "iterations_since_restore": 224}
+{"timesteps_total": 270000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 100893.525, "num_steps_sampled": 270000, "update_time_ms": 2.487, "num_steps_trained": 270000, "load_time_ms": 0.617, "default": {"kl": 0.015589192509651184, "cur_lr": 4.999999873689376e-05, "entropy": 12.922922134399414, "total_loss": 29.725852966308594, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13020819425582886, "vf_explained_var": 0.9754431247711182, "vf_loss": 29.84027862548828}, "grad_time_ms": 755.303}, "pid": 3934253, "time_total_s": 25469.313912391663, "episode_reward_mean": -153.95590331783544, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -175.99024313429615, "policy_reward_mean": {}, "episodes_total": 5400, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -144.9118933600018, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_21-41-03", "training_iteration": 225, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756496463, "episode_len_mean": 50.0, "timesteps_since_restore": 270000, "time_since_restore": 25469.313912391663, "time_this_iter_s": 112.01834344863892, "iterations_since_restore": 225}
+{"timesteps_total": 271200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 100926.159, "num_steps_sampled": 271200, "update_time_ms": 2.492, "num_steps_trained": 271200, "load_time_ms": 0.614, "default": {"kl": 0.01505206897854805, "cur_lr": 4.999999873689376e-05, "entropy": 12.80807876586914, "total_loss": 23.48046112060547, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13089901208877563, "vf_explained_var": 0.980962872505188, "vf_loss": 23.596118927001953}, "grad_time_ms": 754.195}, "pid": 3934253, "time_total_s": 25581.256008148193, "episode_reward_mean": -153.83885704993364, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -175.99024313429615, "policy_reward_mean": {}, "episodes_total": 5424, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -144.9118933600018, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_21-42-55", "training_iteration": 226, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756496575, "episode_len_mean": 50.0, "timesteps_since_restore": 271200, "time_since_restore": 25581.256008148193, "time_this_iter_s": 111.94209575653076, "iterations_since_restore": 226}
+{"timesteps_total": 272400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 100114.556, "num_steps_sampled": 272400, "update_time_ms": 2.515, "num_steps_trained": 272400, "load_time_ms": 0.613, "default": {"kl": 0.015062487684190273, "cur_lr": 4.999999873689376e-05, "entropy": 12.996514320373535, "total_loss": 24.47572898864746, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1414356827735901, "vf_explained_var": 0.9804410934448242, "vf_loss": 24.601913452148438}, "grad_time_ms": 755.148}, "pid": 3934253, "time_total_s": 25678.705996513367, "episode_reward_mean": -154.2308098880995, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -175.99024313429615, "policy_reward_mean": {}, "episodes_total": 5448, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -144.9118933600018, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_21-44-32", "training_iteration": 227, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756496672, "episode_len_mean": 50.0, "timesteps_since_restore": 272400, "time_since_restore": 25678.705996513367, "time_this_iter_s": 97.44998836517334, "iterations_since_restore": 227}
+{"timesteps_total": 273600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 97764.171, "num_steps_sampled": 273600, "update_time_ms": 2.513, "num_steps_trained": 273600, "load_time_ms": 0.605, "default": {"kl": 0.014948169700801373, "cur_lr": 4.999999873689376e-05, "entropy": 12.985085487365723, "total_loss": 51.06395721435547, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14840246737003326, "vf_explained_var": 0.9613332748413086, "vf_loss": 51.197227478027344}, "grad_time_ms": 767.314}, "pid": 3934253, "time_total_s": 25760.094562768936, "episode_reward_mean": -154.3562061237597, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -172.89268666728373, "policy_reward_mean": {}, "episodes_total": 5472, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -144.9118933600018, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_21-45-54", "training_iteration": 228, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756496754, "episode_len_mean": 50.0, "timesteps_since_restore": 273600, "time_since_restore": 25760.094562768936, "time_this_iter_s": 81.38856625556946, "iterations_since_restore": 228}
+{"timesteps_total": 274800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 95601.535, "num_steps_sampled": 274800, "update_time_ms": 2.6, "num_steps_trained": 274800, "load_time_ms": 0.608, "default": {"kl": 0.014542028307914734, "cur_lr": 4.999999873689376e-05, "entropy": 13.030766487121582, "total_loss": 61.48118591308594, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13130980730056763, "vf_explained_var": 0.9557677507400513, "vf_loss": 61.5977783203125}, "grad_time_ms": 769.226}, "pid": 3934253, "time_total_s": 25857.44341278076, "episode_reward_mean": -155.07597284154912, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -191.1136767254141, "policy_reward_mean": {}, "episodes_total": 5496, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -148.96356347694825, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_21-47-31", "training_iteration": 229, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756496851, "episode_len_mean": 50.0, "timesteps_since_restore": 274800, "time_since_restore": 25857.44341278076, "time_this_iter_s": 97.34885001182556, "iterations_since_restore": 229}
+{"timesteps_total": 276000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 96856.808, "num_steps_sampled": 276000, "update_time_ms": 2.746, "num_steps_trained": 276000, "load_time_ms": 0.616, "default": {"kl": 0.01313636265695095, "cur_lr": 4.999999873689376e-05, "entropy": 12.705184936523438, "total_loss": 44.72980499267578, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12996193766593933, "vf_explained_var": 0.966231644153595, "vf_loss": 44.84646987915039}, "grad_time_ms": 764.339}, "pid": 3934253, "time_total_s": 25950.22126197815, "episode_reward_mean": -155.30187061257263, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -191.1136767254141, "policy_reward_mean": {}, "episodes_total": 5520, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -148.96356347694825, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_21-49-04", "training_iteration": 230, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756496944, "episode_len_mean": 50.0, "timesteps_since_restore": 276000, "time_since_restore": 25950.22126197815, "time_this_iter_s": 92.7778491973877, "iterations_since_restore": 230}
+{"timesteps_total": 277200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 101806.465, "num_steps_sampled": 277200, "update_time_ms": 2.732, "num_steps_trained": 277200, "load_time_ms": 0.619, "default": {"kl": 0.016049357131123543, "cur_lr": 4.999999873689376e-05, "entropy": 12.747896194458008, "total_loss": 39.389190673828125, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1357201188802719, "vf_explained_var": 0.9743813276290894, "vf_loss": 39.508663177490234}, "grad_time_ms": 767.366}, "pid": 3934253, "time_total_s": 26058.122532606125, "episode_reward_mean": -154.81526937116584, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -191.1136767254141, "policy_reward_mean": {}, "episodes_total": 5544, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.56158667514845, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_21-50-52", "training_iteration": 231, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756497052, "episode_len_mean": 50.0, "timesteps_since_restore": 277200, "time_since_restore": 26058.122532606125, "time_this_iter_s": 107.90127062797546, "iterations_since_restore": 231}
+{"timesteps_total": 278400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 99243.229, "num_steps_sampled": 278400, "update_time_ms": 2.714, "num_steps_trained": 278400, "load_time_ms": 0.616, "default": {"kl": 0.014159131795167923, "cur_lr": 4.999999873689376e-05, "entropy": 12.914978981018066, "total_loss": 33.23030471801758, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14277423918247223, "vf_explained_var": 0.9747536182403564, "vf_loss": 33.35874557495117}, "grad_time_ms": 758.329}, "pid": 3934253, "time_total_s": 26155.325921297073, "episode_reward_mean": -154.74883742173165, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -191.1136767254141, "policy_reward_mean": {}, "episodes_total": 5568, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -137.5857586828239, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_21-52-29", "training_iteration": 232, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756497149, "episode_len_mean": 50.0, "timesteps_since_restore": 278400, "time_since_restore": 26155.325921297073, "time_this_iter_s": 97.20338869094849, "iterations_since_restore": 232}
+{"timesteps_total": 279600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 99070.339, "num_steps_sampled": 279600, "update_time_ms": 2.659, "num_steps_trained": 279600, "load_time_ms": 0.619, "default": {"kl": 0.014392811805009842, "cur_lr": 4.999999873689376e-05, "entropy": 12.926675796508789, "total_loss": 25.39544105529785, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13040010631084442, "vf_explained_var": 0.9801141023635864, "vf_loss": 25.511268615722656}, "grad_time_ms": 766.947}, "pid": 3934253, "time_total_s": 26261.67698597908, "episode_reward_mean": -154.05910708740407, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -169.70926420317127, "policy_reward_mean": {}, "episodes_total": 5592, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -137.5857586828239, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_21-54-15", "training_iteration": 233, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756497255, "episode_len_mean": 50.0, "timesteps_since_restore": 279600, "time_since_restore": 26261.67698597908, "time_this_iter_s": 106.35106468200684, "iterations_since_restore": 233}
+{"timesteps_total": 280800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 99423.125, "num_steps_sampled": 280800, "update_time_ms": 2.548, "num_steps_trained": 280800, "load_time_ms": 0.608, "default": {"kl": 0.015516189858317375, "cur_lr": 4.999999873689376e-05, "entropy": 12.509271621704102, "total_loss": 37.31974792480469, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13313306868076324, "vf_explained_var": 0.9727855324745178, "vf_loss": 37.437171936035156}, "grad_time_ms": 756.131}, "pid": 3934253, "time_total_s": 26359.173065185547, "episode_reward_mean": -154.56187542044893, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -175.45024040060775, "policy_reward_mean": {}, "episodes_total": 5616, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -137.5857586828239, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_21-55-53", "training_iteration": 234, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756497353, "episode_len_mean": 50.0, "timesteps_since_restore": 280800, "time_since_restore": 26359.173065185547, "time_this_iter_s": 97.49607920646667, "iterations_since_restore": 234}
+{"timesteps_total": 282000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 99400.701, "num_steps_sampled": 282000, "update_time_ms": 2.538, "num_steps_trained": 282000, "load_time_ms": 0.61, "default": {"kl": 0.015087624080479145, "cur_lr": 4.999999873689376e-05, "entropy": 12.51517105102539, "total_loss": 36.4234619140625, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1278027892112732, "vf_explained_var": 0.9724928736686707, "vf_loss": 36.53599548339844}, "grad_time_ms": 757.099}, "pid": 3934253, "time_total_s": 26470.97898197174, "episode_reward_mean": -154.6107954352704, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -175.45024040060775, "policy_reward_mean": {}, "episodes_total": 5640, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -137.5857586828239, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_21-57-45", "training_iteration": 235, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756497465, "episode_len_mean": 50.0, "timesteps_since_restore": 282000, "time_since_restore": 26470.97898197174, "time_this_iter_s": 111.80591678619385, "iterations_since_restore": 235}
+{"timesteps_total": 283200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 95406.385, "num_steps_sampled": 283200, "update_time_ms": 2.563, "num_steps_trained": 283200, "load_time_ms": 0.647, "default": {"kl": 0.015108389779925346, "cur_lr": 4.999999873689376e-05, "entropy": 12.653817176818848, "total_loss": 48.8950309753418, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13136011362075806, "vf_explained_var": 0.9658221006393433, "vf_loss": 49.01109313964844}, "grad_time_ms": 743.824}, "pid": 3934253, "time_total_s": 26542.84624195099, "episode_reward_mean": -154.18766838139035, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -175.45024040060775, "policy_reward_mean": {}, "episodes_total": 5664, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -147.4771196656932, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_21-58-56", "training_iteration": 236, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756497536, "episode_len_mean": 50.0, "timesteps_since_restore": 283200, "time_since_restore": 26542.84624195099, "time_this_iter_s": 71.86725997924805, "iterations_since_restore": 236}
+{"timesteps_total": 284400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94211.608, "num_steps_sampled": 284400, "update_time_ms": 2.569, "num_steps_trained": 284400, "load_time_ms": 0.657, "default": {"kl": 0.014272380620241165, "cur_lr": 4.999999873689376e-05, "entropy": 12.560246467590332, "total_loss": 31.587806701660156, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1402655392885208, "vf_explained_var": 0.9775816798210144, "vf_loss": 31.713619232177734}, "grad_time_ms": 752.183}, "pid": 3934253, "time_total_s": 26628.431704998016, "episode_reward_mean": -154.84538605775754, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -175.45024040060775, "policy_reward_mean": {}, "episodes_total": 5688, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -147.4771196656932, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-00-22", "training_iteration": 237, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756497622, "episode_len_mean": 50.0, "timesteps_since_restore": 284400, "time_since_restore": 26628.431704998016, "time_this_iter_s": 85.58546304702759, "iterations_since_restore": 237}
+{"timesteps_total": 285600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93826.904, "num_steps_sampled": 285600, "update_time_ms": 2.608, "num_steps_trained": 285600, "load_time_ms": 0.661, "default": {"kl": 0.015821723267436028, "cur_lr": 4.999999873689376e-05, "entropy": 12.670042037963867, "total_loss": 30.40340232849121, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12687571346759796, "vf_explained_var": 0.9778980612754822, "vf_loss": 30.514259338378906}, "grad_time_ms": 749.683}, "pid": 3934253, "time_total_s": 26705.948573827744, "episode_reward_mean": -154.4982256142866, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -172.66039303845443, "policy_reward_mean": {}, "episodes_total": 5712, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.12198176583468, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-01-40", "training_iteration": 238, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756497700, "episode_len_mean": 50.0, "timesteps_since_restore": 285600, "time_since_restore": 26705.948573827744, "time_this_iter_s": 77.51686882972717, "iterations_since_restore": 238}
+{"timesteps_total": 286800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94663.624, "num_steps_sampled": 286800, "update_time_ms": 2.587, "num_steps_trained": 286800, "load_time_ms": 0.671, "default": {"kl": 0.01557975821197033, "cur_lr": 4.999999873689376e-05, "entropy": 12.703690528869629, "total_loss": 32.40293502807617, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.139328271150589, "vf_explained_var": 0.9742265343666077, "vf_loss": 32.5264892578125}, "grad_time_ms": 743.241}, "pid": 3934253, "time_total_s": 26811.59946990013, "episode_reward_mean": -154.7133937321576, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -172.66039303845443, "policy_reward_mean": {}, "episodes_total": 5736, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.12198176583468, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-03-25", "training_iteration": 239, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756497805, "episode_len_mean": 50.0, "timesteps_since_restore": 286800, "time_since_restore": 26811.59946990013, "time_this_iter_s": 105.6508960723877, "iterations_since_restore": 239}
+{"timesteps_total": 288000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 95221.891, "num_steps_sampled": 288000, "update_time_ms": 2.448, "num_steps_trained": 288000, "load_time_ms": 0.667, "default": {"kl": 0.015021582134068012, "cur_lr": 4.999999873689376e-05, "entropy": 12.68139362335205, "total_loss": 51.14398956298828, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12773293256759644, "vf_explained_var": 0.9638887047767639, "vf_loss": 51.25651550292969}, "grad_time_ms": 739.327}, "pid": 3934253, "time_total_s": 26909.918827056885, "episode_reward_mean": -155.13402580695703, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -174.34265858004116, "policy_reward_mean": {}, "episodes_total": 5760, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.12198176583468, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-05-04", "training_iteration": 240, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756497904, "episode_len_mean": 50.0, "timesteps_since_restore": 288000, "time_since_restore": 26909.918827056885, "time_this_iter_s": 98.31935715675354, "iterations_since_restore": 240}
+{"timesteps_total": 289200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 95494.256, "num_steps_sampled": 289200, "update_time_ms": 2.609, "num_steps_trained": 289200, "load_time_ms": 0.661, "default": {"kl": 0.01462772861123085, "cur_lr": 4.999999873689376e-05, "entropy": 12.194981575012207, "total_loss": 20.053916931152344, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1390572488307953, "vf_explained_var": 0.9844868779182434, "vf_loss": 20.17816162109375}, "grad_time_ms": 731.619}, "pid": 3934253, "time_total_s": 27020.467235326767, "episode_reward_mean": -154.3404811106415, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -174.34265858004116, "policy_reward_mean": {}, "episodes_total": 5784, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.12198176583468, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-06-54", "training_iteration": 241, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756498014, "episode_len_mean": 50.0, "timesteps_since_restore": 289200, "time_since_restore": 27020.467235326767, "time_this_iter_s": 110.5484082698822, "iterations_since_restore": 241}
+{"timesteps_total": 290400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 95563.006, "num_steps_sampled": 290400, "update_time_ms": 2.582, "num_steps_trained": 290400, "load_time_ms": 0.67, "default": {"kl": 0.016566181555390358, "cur_lr": 4.999999873689376e-05, "entropy": 12.55049991607666, "total_loss": 25.23848533630371, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13654492795467377, "vf_explained_var": 0.9805251359939575, "vf_loss": 25.35825538635254}, "grad_time_ms": 724.998}, "pid": 3934253, "time_total_s": 27118.29235434532, "episode_reward_mean": -154.16136676098563, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -174.34265858004116, "policy_reward_mean": {}, "episodes_total": 5808, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -148.8217025152694, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-08-32", "training_iteration": 242, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756498112, "episode_len_mean": 50.0, "timesteps_since_restore": 290400, "time_since_restore": 27118.29235434532, "time_this_iter_s": 97.82511901855469, "iterations_since_restore": 242}
+{"timesteps_total": 291600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94718.135, "num_steps_sampled": 291600, "update_time_ms": 2.636, "num_steps_trained": 291600, "load_time_ms": 0.67, "default": {"kl": 0.014852155931293964, "cur_lr": 4.999999873689376e-05, "entropy": 12.296875953674316, "total_loss": 28.0606689453125, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13112103939056396, "vf_explained_var": 0.9789355397224426, "vf_loss": 28.1767520904541}, "grad_time_ms": 734.402}, "pid": 3934253, "time_total_s": 27216.289939165115, "episode_reward_mean": -154.16419404181408, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -174.34265858004116, "policy_reward_mean": {}, "episodes_total": 5832, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -144.2930427633367, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-10-10", "training_iteration": 243, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756498210, "episode_len_mean": 50.0, "timesteps_since_restore": 291600, "time_since_restore": 27216.289939165115, "time_this_iter_s": 97.9975848197937, "iterations_since_restore": 243}
+{"timesteps_total": 292800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94072.851, "num_steps_sampled": 292800, "update_time_ms": 2.692, "num_steps_trained": 292800, "load_time_ms": 0.678, "default": {"kl": 0.01521742157638073, "cur_lr": 4.999999873689376e-05, "entropy": 12.436162948608398, "total_loss": 32.87732696533203, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1397152990102768, "vf_explained_var": 0.974628746509552, "vf_loss": 33.00163269042969}, "grad_time_ms": 729.856}, "pid": 3934253, "time_total_s": 27307.288112401962, "episode_reward_mean": -154.1744086331289, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -173.09618343276952, "policy_reward_mean": {}, "episodes_total": 5856, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -144.2930427633367, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-11-41", "training_iteration": 244, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756498301, "episode_len_mean": 50.0, "timesteps_since_restore": 292800, "time_since_restore": 27307.288112401962, "time_this_iter_s": 90.99817323684692, "iterations_since_restore": 244}
+{"timesteps_total": 294000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92770.585, "num_steps_sampled": 294000, "update_time_ms": 2.66, "num_steps_trained": 294000, "load_time_ms": 0.669, "default": {"kl": 0.015452582389116287, "cur_lr": 4.999999873689376e-05, "entropy": 12.431663513183594, "total_loss": 28.786949157714844, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12592917680740356, "vf_explained_var": 0.9775936603546143, "vf_loss": 28.89723777770996}, "grad_time_ms": 734.721}, "pid": 3934253, "time_total_s": 27406.1181910038, "episode_reward_mean": -154.34016486305367, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -173.09618343276952, "policy_reward_mean": {}, "episodes_total": 5880, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -144.2930427633367, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-13-20", "training_iteration": 245, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756498400, "episode_len_mean": 50.0, "timesteps_since_restore": 294000, "time_since_restore": 27406.1181910038, "time_this_iter_s": 98.83007860183716, "iterations_since_restore": 245}
+{"timesteps_total": 295200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 95930.382, "num_steps_sampled": 295200, "update_time_ms": 2.688, "num_steps_trained": 295200, "load_time_ms": 0.632, "default": {"kl": 0.014374022372066975, "cur_lr": 4.999999873689376e-05, "entropy": 12.280024528503418, "total_loss": 37.74338912963867, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11980906873941422, "vf_explained_var": 0.9736410975456238, "vf_loss": 37.8486442565918}, "grad_time_ms": 747.384}, "pid": 3934253, "time_total_s": 27509.708899497986, "episode_reward_mean": -154.27605406898746, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -173.09618343276952, "policy_reward_mean": {}, "episodes_total": 5904, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -144.2930427633367, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-15-03", "training_iteration": 246, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756498503, "episode_len_mean": 50.0, "timesteps_since_restore": 295200, "time_since_restore": 27509.708899497986, "time_this_iter_s": 103.5907084941864, "iterations_since_restore": 246}
+{"timesteps_total": 296400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94837.908, "num_steps_sampled": 296400, "update_time_ms": 2.657, "num_steps_trained": 296400, "load_time_ms": 0.629, "default": {"kl": 0.01566668227314949, "cur_lr": 4.999999873689376e-05, "entropy": 12.17396068572998, "total_loss": 28.47240447998047, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12497733533382416, "vf_explained_var": 0.9772866368293762, "vf_loss": 28.58152198791504}, "grad_time_ms": 753.058}, "pid": 3934253, "time_total_s": 27584.426176071167, "episode_reward_mean": -154.29560239216406, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -175.1037563369774, "policy_reward_mean": {}, "episodes_total": 5928, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -151.14767500096642, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-16-18", "training_iteration": 247, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756498578, "episode_len_mean": 50.0, "timesteps_since_restore": 296400, "time_since_restore": 27584.426176071167, "time_this_iter_s": 74.71727657318115, "iterations_since_restore": 247}
+{"timesteps_total": 297600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 96071.038, "num_steps_sampled": 297600, "update_time_ms": 2.61, "num_steps_trained": 297600, "load_time_ms": 0.63, "default": {"kl": 0.013279435224831104, "cur_lr": 4.999999873689376e-05, "entropy": 12.279629707336426, "total_loss": 42.234100341796875, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12782859802246094, "vf_explained_var": 0.9741078615188599, "vf_loss": 42.34848403930664}, "grad_time_ms": 753.748}, "pid": 3934253, "time_total_s": 27674.280586481094, "episode_reward_mean": -153.9695664898226, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -175.1037563369774, "policy_reward_mean": {}, "episodes_total": 5952, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -149.32841745117312, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-17-48", "training_iteration": 248, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756498668, "episode_len_mean": 50.0, "timesteps_since_restore": 297600, "time_since_restore": 27674.280586481094, "time_this_iter_s": 89.85441040992737, "iterations_since_restore": 248}
+{"timesteps_total": 298800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 97574.462, "num_steps_sampled": 298800, "update_time_ms": 2.616, "num_steps_trained": 298800, "load_time_ms": 0.651, "default": {"kl": 0.01410535629838705, "cur_lr": 4.999999873689376e-05, "entropy": 12.100536346435547, "total_loss": 19.91636085510254, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12572787702083588, "vf_explained_var": 0.9843169450759888, "vf_loss": 20.027809143066406}, "grad_time_ms": 758.636}, "pid": 3934253, "time_total_s": 27795.013806581497, "episode_reward_mean": -153.71891833490415, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -175.1037563369774, "policy_reward_mean": {}, "episodes_total": 5976, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -149.32841745117312, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-19-49", "training_iteration": 249, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756498789, "episode_len_mean": 50.0, "timesteps_since_restore": 298800, "time_since_restore": 27795.013806581497, "time_this_iter_s": 120.73322010040283, "iterations_since_restore": 249}
+{"timesteps_total": 300000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 97666.622, "num_steps_sampled": 300000, "update_time_ms": 2.658, "num_steps_trained": 300000, "load_time_ms": 0.651, "default": {"kl": 0.012680845335125923, "cur_lr": 4.999999873689376e-05, "entropy": 12.221396446228027, "total_loss": 41.20733642578125, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11321382969617844, "vf_explained_var": 0.9742316007614136, "vf_loss": 41.307708740234375}, "grad_time_ms": 763.965}, "pid": 3934253, "time_total_s": 27894.30849289894, "episode_reward_mean": -154.03355792080626, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -201.81562551481366, "policy_reward_mean": {}, "episodes_total": 6000, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -149.32841745117312, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-21-28", "training_iteration": 250, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756498888, "episode_len_mean": 50.0, "timesteps_since_restore": 300000, "time_since_restore": 27894.30849289894, "time_this_iter_s": 99.29468631744385, "iterations_since_restore": 250}
+{"timesteps_total": 301200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94007.579, "num_steps_sampled": 301200, "update_time_ms": 2.523, "num_steps_trained": 301200, "load_time_ms": 0.647, "default": {"kl": 0.013563835062086582, "cur_lr": 4.999999873689376e-05, "entropy": 11.968669891357422, "total_loss": 31.392887115478516, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11377114802598953, "vf_explained_var": 0.9757980704307556, "vf_loss": 31.492923736572266}, "grad_time_ms": 744.0}, "pid": 3934253, "time_total_s": 27968.066175222397, "episode_reward_mean": -153.65693731382558, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -201.81562551481366, "policy_reward_mean": {}, "episodes_total": 6024, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -149.32841745117312, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-22-42", "training_iteration": 251, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756498962, "episode_len_mean": 50.0, "timesteps_since_restore": 301200, "time_since_restore": 27968.066175222397, "time_this_iter_s": 73.75768232345581, "iterations_since_restore": 251}
+{"timesteps_total": 302400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92510.76, "num_steps_sampled": 302400, "update_time_ms": 2.579, "num_steps_trained": 302400, "load_time_ms": 0.648, "default": {"kl": 0.013669435866177082, "cur_lr": 4.999999873689376e-05, "entropy": 12.033707618713379, "total_loss": 17.814746856689453, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11148720234632492, "vf_explained_var": 0.9851120710372925, "vf_loss": 17.912391662597656}, "grad_time_ms": 751.818}, "pid": 3934253, "time_total_s": 28051.0013692379, "episode_reward_mean": -153.92671987302916, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -201.81562551481366, "policy_reward_mean": {}, "episodes_total": 6048, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -149.90883747438755, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-24-05", "training_iteration": 252, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756499045, "episode_len_mean": 50.0, "timesteps_since_restore": 302400, "time_since_restore": 28051.0013692379, "time_this_iter_s": 82.93519401550293, "iterations_since_restore": 252}
+{"timesteps_total": 303600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92284.865, "num_steps_sampled": 303600, "update_time_ms": 2.535, "num_steps_trained": 303600, "load_time_ms": 0.657, "default": {"kl": 0.01406802423298359, "cur_lr": 4.999999873689376e-05, "entropy": 12.27514362335205, "total_loss": 20.965513229370117, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1320834904909134, "vf_explained_var": 0.9830424189567566, "vf_loss": 21.083351135253906}, "grad_time_ms": 750.709}, "pid": 3934253, "time_total_s": 28146.728314638138, "episode_reward_mean": -153.97191238060424, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -201.81562551481366, "policy_reward_mean": {}, "episodes_total": 6072, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.37306239201038, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-25-41", "training_iteration": 253, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756499141, "episode_len_mean": 50.0, "timesteps_since_restore": 303600, "time_since_restore": 28146.728314638138, "time_this_iter_s": 95.72694540023804, "iterations_since_restore": 253}
+{"timesteps_total": 304800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 91604.615, "num_steps_sampled": 304800, "update_time_ms": 2.51, "num_steps_trained": 304800, "load_time_ms": 0.665, "default": {"kl": 0.014106563292443752, "cur_lr": 4.999999873689376e-05, "entropy": 12.195647239685059, "total_loss": 38.15617752075195, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1277208924293518, "vf_explained_var": 0.9729253053665161, "vf_loss": 38.269615173339844}, "grad_time_ms": 756.57}, "pid": 3934253, "time_total_s": 28230.983020067215, "episode_reward_mean": -153.40373628066334, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -175.32770252462922, "policy_reward_mean": {}, "episodes_total": 6096, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.37306239201038, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-27-05", "training_iteration": 254, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756499225, "episode_len_mean": 50.0, "timesteps_since_restore": 304800, "time_since_restore": 28230.983020067215, "time_this_iter_s": 84.25470542907715, "iterations_since_restore": 254}
+{"timesteps_total": 306000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 90304.885, "num_steps_sampled": 306000, "update_time_ms": 2.523, "num_steps_trained": 306000, "load_time_ms": 0.669, "default": {"kl": 0.014886324293911457, "cur_lr": 4.999999873689376e-05, "entropy": 12.2487211227417, "total_loss": 19.486772537231445, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13814154267311096, "vf_explained_var": 0.984747052192688, "vf_loss": 19.609840393066406}, "grad_time_ms": 749.583}, "pid": 3934253, "time_total_s": 28316.745934963226, "episode_reward_mean": -153.5950026973953, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -175.32770252462922, "policy_reward_mean": {}, "episodes_total": 6120, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.37306239201038, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-28-31", "training_iteration": 255, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756499311, "episode_len_mean": 50.0, "timesteps_since_restore": 306000, "time_since_restore": 28316.745934963226, "time_this_iter_s": 85.76291489601135, "iterations_since_restore": 255}
+{"timesteps_total": 307200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 87739.019, "num_steps_sampled": 307200, "update_time_ms": 2.509, "num_steps_trained": 307200, "load_time_ms": 0.67, "default": {"kl": 0.01419132947921753, "cur_lr": 4.999999873689376e-05, "entropy": 12.179950714111328, "total_loss": 44.02378845214844, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12743514776229858, "vf_explained_var": 0.9703550338745117, "vf_loss": 44.1368522644043}, "grad_time_ms": 743.555}, "pid": 3934253, "time_total_s": 28394.618319272995, "episode_reward_mean": -153.71739596982954, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -175.32770252462922, "policy_reward_mean": {}, "episodes_total": 6144, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.37306239201038, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-29-49", "training_iteration": 256, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756499389, "episode_len_mean": 50.0, "timesteps_since_restore": 307200, "time_since_restore": 28394.618319272995, "time_this_iter_s": 77.87238430976868, "iterations_since_restore": 256}
+{"timesteps_total": 308400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 89687.698, "num_steps_sampled": 308400, "update_time_ms": 2.549, "num_steps_trained": 308400, "load_time_ms": 0.664, "default": {"kl": 0.014530722051858902, "cur_lr": 4.999999873689376e-05, "entropy": 12.120244026184082, "total_loss": 26.150606155395508, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.125518798828125, "vf_explained_var": 0.9807274341583252, "vf_loss": 26.261411666870117}, "grad_time_ms": 747.631}, "pid": 3934253, "time_total_s": 28488.863465070724, "episode_reward_mean": -153.58796723004997, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -175.32770252462922, "policy_reward_mean": {}, "episodes_total": 6168, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.45347079017628, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-31-23", "training_iteration": 257, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756499483, "episode_len_mean": 50.0, "timesteps_since_restore": 308400, "time_since_restore": 28488.863465070724, "time_this_iter_s": 94.24514579772949, "iterations_since_restore": 257}
+{"timesteps_total": 309600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 89355.613, "num_steps_sampled": 309600, "update_time_ms": 2.538, "num_steps_trained": 309600, "load_time_ms": 0.658, "default": {"kl": 0.014274870045483112, "cur_lr": 4.999999873689376e-05, "entropy": 12.029433250427246, "total_loss": 21.19289779663086, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14656893908977509, "vf_explained_var": 0.9849755764007568, "vf_loss": 21.325014114379883}, "grad_time_ms": 743.267}, "pid": 3934253, "time_total_s": 28575.35304093361, "episode_reward_mean": -153.65874506459247, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.30001100256214, "policy_reward_mean": {}, "episodes_total": 6192, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.45347079017628, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-32-49", "training_iteration": 258, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756499569, "episode_len_mean": 50.0, "timesteps_since_restore": 309600, "time_since_restore": 28575.35304093361, "time_this_iter_s": 86.48957586288452, "iterations_since_restore": 258}
+{"timesteps_total": 310800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 87597.555, "num_steps_sampled": 310800, "update_time_ms": 2.485, "num_steps_trained": 310800, "load_time_ms": 0.628, "default": {"kl": 0.01563265360891819, "cur_lr": 4.999999873689376e-05, "entropy": 12.04366397857666, "total_loss": 24.3173885345459, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13971100747585297, "vf_explained_var": 0.9832693934440613, "vf_loss": 24.441268920898438}, "grad_time_ms": 740.667}, "pid": 3934253, "time_total_s": 28678.47874569893, "episode_reward_mean": -153.58450695244758, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.7332204385451, "policy_reward_mean": {}, "episodes_total": 6216, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.45347079017628, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-34-32", "training_iteration": 259, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756499672, "episode_len_mean": 50.0, "timesteps_since_restore": 310800, "time_since_restore": 28678.47874569893, "time_this_iter_s": 103.12570476531982, "iterations_since_restore": 259}
+{"timesteps_total": 312000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 87057.199, "num_steps_sampled": 312000, "update_time_ms": 2.422, "num_steps_trained": 312000, "load_time_ms": 0.632, "default": {"kl": 0.013417969457805157, "cur_lr": 4.999999873689376e-05, "entropy": 12.221627235412598, "total_loss": 37.70539474487305, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12108760327100754, "vf_explained_var": 0.9734055995941162, "vf_loss": 37.81289291381836}, "grad_time_ms": 740.404}, "pid": 3934253, "time_total_s": 28772.3668551445, "episode_reward_mean": -153.13736615788864, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -170.00570466065776, "policy_reward_mean": {}, "episodes_total": 6240, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -140.7502885744889, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-36-06", "training_iteration": 260, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756499766, "episode_len_mean": 50.0, "timesteps_since_restore": 312000, "time_since_restore": 28772.3668551445, "time_this_iter_s": 93.8881094455719, "iterations_since_restore": 260}
+{"timesteps_total": 313200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 89045.252, "num_steps_sampled": 313200, "update_time_ms": 2.386, "num_steps_trained": 313200, "load_time_ms": 0.631, "default": {"kl": 0.012220478616654873, "cur_lr": 4.999999873689376e-05, "entropy": 11.781728744506836, "total_loss": 74.40132904052734, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11190219968557358, "vf_explained_var": 0.9513096213340759, "vf_loss": 74.50086212158203}, "grad_time_ms": 762.39}, "pid": 3934253, "time_total_s": 28866.223863124847, "episode_reward_mean": -153.94081905848125, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -195.83850086707832, "policy_reward_mean": {}, "episodes_total": 6264, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -140.7502885744889, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-37-40", "training_iteration": 261, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756499860, "episode_len_mean": 50.0, "timesteps_since_restore": 313200, "time_since_restore": 28866.223863124847, "time_this_iter_s": 93.85700798034668, "iterations_since_restore": 261}
+{"timesteps_total": 314400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 89071.642, "num_steps_sampled": 314400, "update_time_ms": 2.394, "num_steps_trained": 314400, "load_time_ms": 0.625, "default": {"kl": 0.014541917480528355, "cur_lr": 4.999999873689376e-05, "entropy": 11.741612434387207, "total_loss": 17.651187896728516, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13121682405471802, "vf_explained_var": 0.9867935180664062, "vf_loss": 17.76767921447754}, "grad_time_ms": 775.037}, "pid": 3934253, "time_total_s": 28949.54998254776, "episode_reward_mean": -153.74686526915812, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -195.83850086707832, "policy_reward_mean": {}, "episodes_total": 6288, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -140.7502885744889, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-39-04", "training_iteration": 262, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756499944, "episode_len_mean": 50.0, "timesteps_since_restore": 314400, "time_since_restore": 28949.54998254776, "time_this_iter_s": 83.3261194229126, "iterations_since_restore": 262}
+{"timesteps_total": 315600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 88088.332, "num_steps_sampled": 315600, "update_time_ms": 2.525, "num_steps_trained": 315600, "load_time_ms": 0.613, "default": {"kl": 0.013870678842067719, "cur_lr": 4.999999873689376e-05, "entropy": 11.782343864440918, "total_loss": 18.725406646728516, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12153424322605133, "vf_explained_var": 0.9850756525993347, "vf_loss": 18.832895278930664}, "grad_time_ms": 772.561}, "pid": 3934253, "time_total_s": 29035.42023253441, "episode_reward_mean": -153.9387682014451, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -195.83850086707832, "policy_reward_mean": {}, "episodes_total": 6312, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -140.7502885744889, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-40-30", "training_iteration": 263, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756500030, "episode_len_mean": 50.0, "timesteps_since_restore": 315600, "time_since_restore": 29035.42023253441, "time_this_iter_s": 85.87024998664856, "iterations_since_restore": 263}
+{"timesteps_total": 316800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 88319.086, "num_steps_sampled": 316800, "update_time_ms": 2.537, "num_steps_trained": 316800, "load_time_ms": 0.604, "default": {"kl": 0.015589484013617039, "cur_lr": 4.999999873689376e-05, "entropy": 11.815381050109863, "total_loss": 45.58415222167969, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13468068838119507, "vf_explained_var": 0.9687883853912354, "vf_loss": 45.70304870605469}, "grad_time_ms": 773.986}, "pid": 3934253, "time_total_s": 29121.998387098312, "episode_reward_mean": -154.28611412240772, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -195.83850086707832, "policy_reward_mean": {}, "episodes_total": 6336, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -149.05647309909892, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-41-56", "training_iteration": 264, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756500116, "episode_len_mean": 50.0, "timesteps_since_restore": 316800, "time_since_restore": 29121.998387098312, "time_this_iter_s": 86.57815456390381, "iterations_since_restore": 264}
+{"timesteps_total": 318000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 88821.475, "num_steps_sampled": 318000, "update_time_ms": 2.55, "num_steps_trained": 318000, "load_time_ms": 0.607, "default": {"kl": 0.015006310306489468, "cur_lr": 4.999999873689376e-05, "entropy": 11.8653564453125, "total_loss": 29.010637283325195, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13054674863815308, "vf_explained_var": 0.9786375761032104, "vf_loss": 29.125986099243164}, "grad_time_ms": 780.571}, "pid": 3934253, "time_total_s": 29212.850786685944, "episode_reward_mean": -154.1596053466124, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -176.4381663197646, "policy_reward_mean": {}, "episodes_total": 6360, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -148.19820052487748, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-43-27", "training_iteration": 265, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756500207, "episode_len_mean": 50.0, "timesteps_since_restore": 318000, "time_since_restore": 29212.850786685944, "time_this_iter_s": 90.85239958763123, "iterations_since_restore": 265}
+{"timesteps_total": 319200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 88283.819, "num_steps_sampled": 319200, "update_time_ms": 2.533, "num_steps_trained": 319200, "load_time_ms": 0.611, "default": {"kl": 0.016107451170682907, "cur_lr": 4.999999873689376e-05, "entropy": 12.022677421569824, "total_loss": 37.852230072021484, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1311512589454651, "vf_explained_var": 0.974249541759491, "vf_loss": 37.967071533203125}, "grad_time_ms": 794.547}, "pid": 3934253, "time_total_s": 29285.48614835739, "episode_reward_mean": -154.15685653819614, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -176.4381663197646, "policy_reward_mean": {}, "episodes_total": 6384, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -136.70630152775394, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-44-40", "training_iteration": 266, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756500280, "episode_len_mean": 50.0, "timesteps_since_restore": 319200, "time_since_restore": 29285.48614835739, "time_this_iter_s": 72.63536167144775, "iterations_since_restore": 266}
+{"timesteps_total": 320400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 88743.608, "num_steps_sampled": 320400, "update_time_ms": 2.52, "num_steps_trained": 320400, "load_time_ms": 0.61, "default": {"kl": 0.014153753407299519, "cur_lr": 4.999999873689376e-05, "entropy": 11.821681022644043, "total_loss": 27.39217758178711, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12194425612688065, "vf_explained_var": 0.9820153713226318, "vf_loss": 27.499794006347656}, "grad_time_ms": 793.183}, "pid": 3934253, "time_total_s": 29384.31538414955, "episode_reward_mean": -153.96803814397418, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -176.4381663197646, "policy_reward_mean": {}, "episodes_total": 6408, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -136.70630152775394, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-46-18", "training_iteration": 267, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756500378, "episode_len_mean": 50.0, "timesteps_since_restore": 320400, "time_since_restore": 29384.31538414955, "time_this_iter_s": 98.82923579216003, "iterations_since_restore": 267}
+{"timesteps_total": 321600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 87746.756, "num_steps_sampled": 321600, "update_time_ms": 2.571, "num_steps_trained": 321600, "load_time_ms": 0.612, "default": {"kl": 0.013911773450672626, "cur_lr": 4.999999873689376e-05, "entropy": 11.718981742858887, "total_loss": 40.44329071044922, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13097091019153595, "vf_explained_var": 0.9710770845413208, "vf_loss": 40.560176849365234}, "grad_time_ms": 797.005}, "pid": 3934253, "time_total_s": 29460.875306606293, "episode_reward_mean": -153.7755560748365, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -176.4381663197646, "policy_reward_mean": {}, "episodes_total": 6432, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -136.70630152775394, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-47-35", "training_iteration": 268, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756500455, "episode_len_mean": 50.0, "timesteps_since_restore": 321600, "time_since_restore": 29460.875306606293, "time_this_iter_s": 76.55992245674133, "iterations_since_restore": 268}
+{"timesteps_total": 322800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 84188.524, "num_steps_sampled": 322800, "update_time_ms": 2.593, "num_steps_trained": 322800, "load_time_ms": 0.607, "default": {"kl": 0.016193203628063202, "cur_lr": 4.999999873689376e-05, "entropy": 11.588141441345215, "total_loss": 32.77817153930664, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13464587926864624, "vf_explained_var": 0.9762402772903442, "vf_loss": 32.896419525146484}, "grad_time_ms": 806.453}, "pid": 3934253, "time_total_s": 29528.51364827156, "episode_reward_mean": -153.4607327425086, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -171.40863771827642, "policy_reward_mean": {}, "episodes_total": 6456, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -136.70630152775394, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-48-43", "training_iteration": 269, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756500523, "episode_len_mean": 50.0, "timesteps_since_restore": 322800, "time_since_restore": 29528.51364827156, "time_this_iter_s": 67.63834166526794, "iterations_since_restore": 269}
+{"timesteps_total": 324000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 84408.661, "num_steps_sampled": 324000, "update_time_ms": 2.626, "num_steps_trained": 324000, "load_time_ms": 0.596, "default": {"kl": 0.01516958698630333, "cur_lr": 4.999999873689376e-05, "entropy": 11.557772636413574, "total_loss": 23.42417335510254, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12869912385940552, "vf_explained_var": 0.9817376732826233, "vf_loss": 23.537513732910156}, "grad_time_ms": 806.745}, "pid": 3934253, "time_total_s": 29624.60574412346, "episode_reward_mean": -153.33992347144647, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -171.40863771827642, "policy_reward_mean": {}, "episodes_total": 6480, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.72273321439698, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-50-19", "training_iteration": 270, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756500619, "episode_len_mean": 50.0, "timesteps_since_restore": 324000, "time_since_restore": 29624.60574412346, "time_this_iter_s": 96.0920958518982, "iterations_since_restore": 270}
+{"timesteps_total": 325200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 81621.057, "num_steps_sampled": 325200, "update_time_ms": 2.665, "num_steps_trained": 325200, "load_time_ms": 0.606, "default": {"kl": 0.0140716303139925, "cur_lr": 4.999999873689376e-05, "entropy": 11.617931365966797, "total_loss": 23.010072708129883, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1258062869310379, "vf_explained_var": 0.9814040660858154, "vf_loss": 23.121633529663086}, "grad_time_ms": 807.68}, "pid": 3934253, "time_total_s": 29690.5972969532, "episode_reward_mean": -153.17287745568458, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -171.40863771827642, "policy_reward_mean": {}, "episodes_total": 6504, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.72273321439698, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-51-25", "training_iteration": 271, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756500685, "episode_len_mean": 50.0, "timesteps_since_restore": 325200, "time_since_restore": 29690.5972969532, "time_this_iter_s": 65.99155282974243, "iterations_since_restore": 271}
+{"timesteps_total": 326400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 82244.568, "num_steps_sampled": 326400, "update_time_ms": 2.656, "num_steps_trained": 326400, "load_time_ms": 0.61, "default": {"kl": 0.013999907299876213, "cur_lr": 4.999999873689376e-05, "entropy": 11.388032913208008, "total_loss": 18.105144500732422, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11585116386413574, "vf_explained_var": 0.9850890040397644, "vf_loss": 18.20682144165039}, "grad_time_ms": 788.997}, "pid": 3934253, "time_total_s": 29779.971660375595, "episode_reward_mean": -152.95437416580322, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.7981294945134, "policy_reward_mean": {}, "episodes_total": 6528, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.31050554669037, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-52-54", "training_iteration": 272, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756500774, "episode_len_mean": 50.0, "timesteps_since_restore": 326400, "time_since_restore": 29779.971660375595, "time_this_iter_s": 89.3743634223938, "iterations_since_restore": 272}
+{"timesteps_total": 327600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 80115.644, "num_steps_sampled": 327600, "update_time_ms": 2.58, "num_steps_trained": 327600, "load_time_ms": 0.618, "default": {"kl": 0.014399628154933453, "cur_lr": 4.999999873689376e-05, "entropy": 11.7221097946167, "total_loss": 35.62514877319336, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12929335236549377, "vf_explained_var": 0.9736959934234619, "vf_loss": 35.739864349365234}, "grad_time_ms": 793.414}, "pid": 3934253, "time_total_s": 29844.59642982483, "episode_reward_mean": -153.57078695792043, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -180.0083391494624, "policy_reward_mean": {}, "episodes_total": 6552, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.31050554669037, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-53-59", "training_iteration": 273, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756500839, "episode_len_mean": 50.0, "timesteps_since_restore": 327600, "time_since_restore": 29844.59642982483, "time_this_iter_s": 64.62476944923401, "iterations_since_restore": 273}
+{"timesteps_total": 328800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 81093.68, "num_steps_sampled": 328800, "update_time_ms": 2.564, "num_steps_trained": 328800, "load_time_ms": 0.614, "default": {"kl": 0.013647317886352539, "cur_lr": 4.999999873689376e-05, "entropy": 11.217588424682617, "total_loss": 42.10578918457031, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.10328339040279388, "vf_explained_var": 0.9690133333206177, "vf_loss": 42.19525909423828}, "grad_time_ms": 794.475}, "pid": 3934253, "time_total_s": 29940.964215040207, "episode_reward_mean": -153.39609191716633, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -180.0083391494624, "policy_reward_mean": {}, "episodes_total": 6576, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.31050554669037, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-55-35", "training_iteration": 274, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756500935, "episode_len_mean": 50.0, "timesteps_since_restore": 328800, "time_since_restore": 29940.964215040207, "time_this_iter_s": 96.36778521537781, "iterations_since_restore": 274}
+{"timesteps_total": 330000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 82563.125, "num_steps_sampled": 330000, "update_time_ms": 2.6, "num_steps_trained": 330000, "load_time_ms": 0.606, "default": {"kl": 0.014787460677325726, "cur_lr": 4.999999873689376e-05, "entropy": 11.442232131958008, "total_loss": 25.26143455505371, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11275593191385269, "vf_explained_var": 0.9793703556060791, "vf_loss": 25.359216690063477}, "grad_time_ms": 794.462}, "pid": 3934253, "time_total_s": 30046.511551856995, "episode_reward_mean": -153.3767483996174, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -180.0083391494624, "policy_reward_mean": {}, "episodes_total": 6600, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.31050554669037, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-57-21", "training_iteration": 275, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756501041, "episode_len_mean": 50.0, "timesteps_since_restore": 330000, "time_since_restore": 30046.511551856995, "time_this_iter_s": 105.54733681678772, "iterations_since_restore": 275}
+{"timesteps_total": 331200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 85483.028, "num_steps_sampled": 331200, "update_time_ms": 2.634, "num_steps_trained": 331200, "load_time_ms": 0.6, "default": {"kl": 0.015072625130414963, "cur_lr": 4.999999873689376e-05, "entropy": 11.500537872314453, "total_loss": 21.24437141418457, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13162878155708313, "vf_explained_var": 0.9849632978439331, "vf_loss": 21.36073875427246}, "grad_time_ms": 778.258}, "pid": 3934253, "time_total_s": 30148.183248519897, "episode_reward_mean": -153.38630465945496, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -180.0083391494624, "policy_reward_mean": {}, "episodes_total": 6624, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -145.2196053826522, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_22-59-02", "training_iteration": 276, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756501142, "episode_len_mean": 50.0, "timesteps_since_restore": 331200, "time_since_restore": 30148.183248519897, "time_this_iter_s": 101.67169666290283, "iterations_since_restore": 276}
+{"timesteps_total": 332400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 84406.381, "num_steps_sampled": 332400, "update_time_ms": 2.596, "num_steps_trained": 332400, "load_time_ms": 0.6, "default": {"kl": 0.014994761906564236, "cur_lr": 4.999999873689376e-05, "entropy": 11.437612533569336, "total_loss": 18.316537857055664, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12036796659231186, "vf_explained_var": 0.9855210781097412, "vf_loss": 18.421722412109375}, "grad_time_ms": 761.188}, "pid": 3934253, "time_total_s": 30236.075475215912, "episode_reward_mean": -152.83274076860297, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.82521908204325, "policy_reward_mean": {}, "episodes_total": 6648, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -145.2196053826522, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-00-30", "training_iteration": 277, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756501230, "episode_len_mean": 50.0, "timesteps_since_restore": 332400, "time_since_restore": 30236.075475215912, "time_this_iter_s": 87.8922266960144, "iterations_since_restore": 277}
+{"timesteps_total": 333600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 85115.306, "num_steps_sampled": 333600, "update_time_ms": 2.554, "num_steps_trained": 333600, "load_time_ms": 0.604, "default": {"kl": 0.013223753310739994, "cur_lr": 4.999999873689376e-05, "entropy": 11.365351676940918, "total_loss": 25.293102264404297, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12207407504320145, "vf_explained_var": 0.9820523858070374, "vf_loss": 25.40178871154785}, "grad_time_ms": 757.229}, "pid": 3934253, "time_total_s": 30319.68391394615, "episode_reward_mean": -152.7504248056896, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.82521908204325, "policy_reward_mean": {}, "episodes_total": 6672, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -145.2196053826522, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-01-54", "training_iteration": 278, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756501314, "episode_len_mean": 50.0, "timesteps_since_restore": 333600, "time_since_restore": 30319.68391394615, "time_this_iter_s": 83.60843873023987, "iterations_since_restore": 278}
+{"timesteps_total": 334800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 85352.692, "num_steps_sampled": 334800, "update_time_ms": 2.507, "num_steps_trained": 334800, "load_time_ms": 0.601, "default": {"kl": 0.010769886896014214, "cur_lr": 4.999999873689376e-05, "entropy": 11.56566333770752, "total_loss": 98.25940704345703, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.10573761910200119, "vf_explained_var": 0.9470511674880981, "vf_loss": 98.354248046875}, "grad_time_ms": 751.919}, "pid": 3934253, "time_total_s": 30389.643027305603, "episode_reward_mean": -153.30131133278667, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -208.3227003464183, "policy_reward_mean": {}, "episodes_total": 6696, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -145.2196053826522, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-03-04", "training_iteration": 279, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756501384, "episode_len_mean": 50.0, "timesteps_since_restore": 334800, "time_since_restore": 30389.643027305603, "time_this_iter_s": 69.9591133594513, "iterations_since_restore": 279}
+{"timesteps_total": 336000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 85807.115, "num_steps_sampled": 336000, "update_time_ms": 2.518, "num_steps_trained": 336000, "load_time_ms": 0.604, "default": {"kl": 0.015613911673426628, "cur_lr": 4.999999873689376e-05, "entropy": 11.319066047668457, "total_loss": 13.783968925476074, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12649664282798767, "vf_explained_var": 0.9884146451950073, "vf_loss": 13.89465618133545}, "grad_time_ms": 742.985}, "pid": 3934253, "time_total_s": 30490.19049167633, "episode_reward_mean": -153.73297503235312, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -208.3227003464183, "policy_reward_mean": {}, "episodes_total": 6720, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -145.24336047937695, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-04-44", "training_iteration": 280, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756501484, "episode_len_mean": 50.0, "timesteps_since_restore": 336000, "time_since_restore": 30490.19049167633, "time_this_iter_s": 100.54746437072754, "iterations_since_restore": 280}
+{"timesteps_total": 337200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 89366.171, "num_steps_sampled": 337200, "update_time_ms": 2.458, "num_steps_trained": 337200, "load_time_ms": 0.598, "default": {"kl": 0.01393085066229105, "cur_lr": 4.999999873689376e-05, "entropy": 11.271801948547363, "total_loss": 63.68611526489258, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12504935264587402, "vf_explained_var": 0.9535910487174988, "vf_loss": 63.79706573486328}, "grad_time_ms": 735.058}, "pid": 3934253, "time_total_s": 30591.69241476059, "episode_reward_mean": -154.0611767016651, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -208.3227003464183, "policy_reward_mean": {}, "episodes_total": 6744, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -145.24336047937695, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-06-26", "training_iteration": 281, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756501586, "episode_len_mean": 50.0, "timesteps_since_restore": 337200, "time_since_restore": 30591.69241476059, "time_this_iter_s": 101.50192308425903, "iterations_since_restore": 281}
+{"timesteps_total": 338400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 89531.295, "num_steps_sampled": 338400, "update_time_ms": 2.404, "num_steps_trained": 338400, "load_time_ms": 0.6, "default": {"kl": 0.01404589880257845, "cur_lr": 4.999999873689376e-05, "entropy": 11.205625534057617, "total_loss": 21.548248291015625, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12210464477539062, "vf_explained_var": 0.9836018681526184, "vf_loss": 21.656131744384766}, "grad_time_ms": 748.553}, "pid": 3934253, "time_total_s": 30682.852532863617, "episode_reward_mean": -154.06282255443577, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -208.3227003464183, "policy_reward_mean": {}, "episodes_total": 6768, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -146.79730571525536, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-07-57", "training_iteration": 282, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756501677, "episode_len_mean": 50.0, "timesteps_since_restore": 338400, "time_since_restore": 30682.852532863617, "time_this_iter_s": 91.16011810302734, "iterations_since_restore": 282}
+{"timesteps_total": 339600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93866.94, "num_steps_sampled": 339600, "update_time_ms": 2.363, "num_steps_trained": 339600, "load_time_ms": 0.602, "default": {"kl": 0.013868219219148159, "cur_lr": 4.999999873689376e-05, "entropy": 11.38871955871582, "total_loss": 22.872215270996094, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12734149396419525, "vf_explained_var": 0.9838337302207947, "vf_loss": 22.985517501831055}, "grad_time_ms": 741.84}, "pid": 3934253, "time_total_s": 30790.766562223434, "episode_reward_mean": -153.490601175543, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -186.98396846066603, "policy_reward_mean": {}, "episodes_total": 6792, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -146.79730571525536, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-09-45", "training_iteration": 283, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756501785, "episode_len_mean": 50.0, "timesteps_since_restore": 339600, "time_since_restore": 30790.766562223434, "time_this_iter_s": 107.9140293598175, "iterations_since_restore": 283}
+{"timesteps_total": 340800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92716.905, "num_steps_sampled": 340800, "update_time_ms": 2.316, "num_steps_trained": 340800, "load_time_ms": 0.606, "default": {"kl": 0.01389007456600666, "cur_lr": 4.999999873689376e-05, "entropy": 11.565324783325195, "total_loss": 53.0439453125, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12358132749795914, "vf_explained_var": 0.9608864188194275, "vf_loss": 53.15346145629883}, "grad_time_ms": 743.247}, "pid": 3934253, "time_total_s": 30875.64744758606, "episode_reward_mean": -153.8480949080955, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -186.98396846066603, "policy_reward_mean": {}, "episodes_total": 6816, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -146.79730571525536, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-11-10", "training_iteration": 284, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756501870, "episode_len_mean": 50.0, "timesteps_since_restore": 340800, "time_since_restore": 30875.64744758606, "time_this_iter_s": 84.88088536262512, "iterations_since_restore": 284}
+{"timesteps_total": 342000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 90635.975, "num_steps_sampled": 342000, "update_time_ms": 2.262, "num_steps_trained": 342000, "load_time_ms": 0.611, "default": {"kl": 0.014106114394962788, "cur_lr": 4.999999873689376e-05, "entropy": 11.181747436523438, "total_loss": 36.09983825683594, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11997734010219574, "vf_explained_var": 0.9704306125640869, "vf_loss": 36.20553207397461}, "grad_time_ms": 743.898}, "pid": 3934253, "time_total_s": 30960.3914706707, "episode_reward_mean": -153.69546458851175, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -184.65606171714566, "policy_reward_mean": {}, "episodes_total": 6840, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -136.9307972088323, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-12-35", "training_iteration": 285, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756501955, "episode_len_mean": 50.0, "timesteps_since_restore": 342000, "time_since_restore": 30960.3914706707, "time_this_iter_s": 84.7440230846405, "iterations_since_restore": 285}
+{"timesteps_total": 343200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 90821.993, "num_steps_sampled": 343200, "update_time_ms": 2.237, "num_steps_trained": 343200, "load_time_ms": 0.614, "default": {"kl": 0.014162329956889153, "cur_lr": 4.999999873689376e-05, "entropy": 11.337715148925781, "total_loss": 29.2408447265625, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13232357800006866, "vf_explained_var": 0.9764517545700073, "vf_loss": 29.35883331298828}, "grad_time_ms": 762.872}, "pid": 3934253, "time_total_s": 31064.113805532455, "episode_reward_mean": -153.9291175871248, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -184.65606171714566, "policy_reward_mean": {}, "episodes_total": 6864, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -136.9307972088323, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-14-19", "training_iteration": 286, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756502059, "episode_len_mean": 50.0, "timesteps_since_restore": 343200, "time_since_restore": 31064.113805532455, "time_this_iter_s": 103.72233486175537, "iterations_since_restore": 286}
+{"timesteps_total": 344400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 91537.605, "num_steps_sampled": 344400, "update_time_ms": 2.268, "num_steps_trained": 344400, "load_time_ms": 0.618, "default": {"kl": 0.015963837504386902, "cur_lr": 4.999999873689376e-05, "entropy": 11.328529357910156, "total_loss": 17.16999053955078, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.131949320435524, "vf_explained_var": 0.9855950474739075, "vf_loss": 17.285778045654297}, "grad_time_ms": 770.754}, "pid": 3934253, "time_total_s": 31159.240578889847, "episode_reward_mean": -154.0807793508338, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -184.65606171714566, "policy_reward_mean": {}, "episodes_total": 6888, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -136.9307972088323, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-15-54", "training_iteration": 287, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756502154, "episode_len_mean": 50.0, "timesteps_since_restore": 344400, "time_since_restore": 31159.240578889847, "time_this_iter_s": 95.12677335739136, "iterations_since_restore": 287}
+{"timesteps_total": 345600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93518.384, "num_steps_sampled": 345600, "update_time_ms": 2.275, "num_steps_trained": 345600, "load_time_ms": 0.618, "default": {"kl": 0.014267970807850361, "cur_lr": 4.999999873689376e-05, "entropy": 11.001362800598145, "total_loss": 29.061933517456055, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1258041262626648, "vf_explained_var": 0.9764705300331116, "vf_loss": 29.17329216003418}, "grad_time_ms": 761.355}, "pid": 3934253, "time_total_s": 31262.563413619995, "episode_reward_mean": -153.38289002657675, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -169.46693858971975, "policy_reward_mean": {}, "episodes_total": 6912, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -136.9307972088323, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-17-37", "training_iteration": 288, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756502257, "episode_len_mean": 50.0, "timesteps_since_restore": 345600, "time_since_restore": 31262.563413619995, "time_this_iter_s": 103.32283473014832, "iterations_since_restore": 288}
+{"timesteps_total": 346800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94912.713, "num_steps_sampled": 346800, "update_time_ms": 2.331, "num_steps_trained": 346800, "load_time_ms": 0.635, "default": {"kl": 0.013144236989319324, "cur_lr": 4.999999873689376e-05, "entropy": 11.226943016052246, "total_loss": 24.29330062866211, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1239776462316513, "vf_explained_var": 0.9844390153884888, "vf_loss": 24.40397071838379}, "grad_time_ms": 762.003}, "pid": 3934253, "time_total_s": 31346.472144842148, "episode_reward_mean": -153.57627731987313, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -170.88801007674104, "policy_reward_mean": {}, "episodes_total": 6936, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -144.3950308917359, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-19-01", "training_iteration": 289, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756502341, "episode_len_mean": 50.0, "timesteps_since_restore": 346800, "time_since_restore": 31346.472144842148, "time_this_iter_s": 83.90873122215271, "iterations_since_restore": 289}
+{"timesteps_total": 348000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 95128.303, "num_steps_sampled": 348000, "update_time_ms": 2.287, "num_steps_trained": 348000, "load_time_ms": 0.634, "default": {"kl": 0.015516340732574463, "cur_lr": 4.999999873689376e-05, "entropy": 11.11108112335205, "total_loss": 22.668201446533203, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13011670112609863, "vf_explained_var": 0.9813645482063293, "vf_loss": 22.782609939575195}, "grad_time_ms": 768.12}, "pid": 3934253, "time_total_s": 31449.235904693604, "episode_reward_mean": -153.4808211215403, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -170.88801007674104, "policy_reward_mean": {}, "episodes_total": 6960, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -144.3950308917359, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-20-44", "training_iteration": 290, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756502444, "episode_len_mean": 50.0, "timesteps_since_restore": 348000, "time_since_restore": 31449.235904693604, "time_this_iter_s": 102.76375985145569, "iterations_since_restore": 290}
+{"timesteps_total": 349200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 95007.017, "num_steps_sampled": 349200, "update_time_ms": 2.297, "num_steps_trained": 349200, "load_time_ms": 0.638, "default": {"kl": 0.013895703479647636, "cur_lr": 4.999999873689376e-05, "entropy": 11.218277931213379, "total_loss": 53.47324752807617, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12617962062358856, "vf_explained_var": 0.9618358612060547, "vf_loss": 53.585357666015625}, "grad_time_ms": 768.239}, "pid": 3934253, "time_total_s": 31549.526314735413, "episode_reward_mean": -153.55709118338893, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -185.80293929008243, "policy_reward_mean": {}, "episodes_total": 6984, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -144.3950308917359, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-22-24", "training_iteration": 291, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756502544, "episode_len_mean": 50.0, "timesteps_since_restore": 349200, "time_since_restore": 31549.526314735413, "time_this_iter_s": 100.29041004180908, "iterations_since_restore": 291}
+{"timesteps_total": 350400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 95377.448, "num_steps_sampled": 350400, "update_time_ms": 2.285, "num_steps_trained": 350400, "load_time_ms": 0.635, "default": {"kl": 0.013131446205079556, "cur_lr": 4.999999873689376e-05, "entropy": 11.09090805053711, "total_loss": 13.908455848693848, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13256239891052246, "vf_explained_var": 0.9884033203125, "vf_loss": 14.027721405029297}, "grad_time_ms": 772.362}, "pid": 3934253, "time_total_s": 31644.43196439743, "episode_reward_mean": -153.58899087363505, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -185.80293929008243, "policy_reward_mean": {}, "episodes_total": 7008, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -144.3950308917359, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-23-59", "training_iteration": 292, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756502639, "episode_len_mean": 50.0, "timesteps_since_restore": 350400, "time_since_restore": 31644.43196439743, "time_this_iter_s": 94.90564966201782, "iterations_since_restore": 292}
+{"timesteps_total": 351600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 95129.044, "num_steps_sampled": 351600, "update_time_ms": 2.323, "num_steps_trained": 351600, "load_time_ms": 0.626, "default": {"kl": 0.01519844401627779, "cur_lr": 4.999999873689376e-05, "entropy": 11.170174598693848, "total_loss": 22.778303146362305, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1352260261774063, "vf_explained_var": 0.9831691384315491, "vf_loss": 22.89813995361328}, "grad_time_ms": 772.593}, "pid": 3934253, "time_total_s": 31749.863520383835, "episode_reward_mean": -153.29731566182426, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -185.80293929008243, "policy_reward_mean": {}, "episodes_total": 7032, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -145.8788879310617, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-25-44", "training_iteration": 293, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756502744, "episode_len_mean": 50.0, "timesteps_since_restore": 351600, "time_since_restore": 31749.863520383835, "time_this_iter_s": 105.43155598640442, "iterations_since_restore": 293}
+{"timesteps_total": 352800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 96644.061, "num_steps_sampled": 352800, "update_time_ms": 2.419, "num_steps_trained": 352800, "load_time_ms": 0.622, "default": {"kl": 0.01330583542585373, "cur_lr": 4.999999873689376e-05, "entropy": 11.097810745239258, "total_loss": 36.368648529052734, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12001624703407288, "vf_explained_var": 0.9719719290733337, "vf_loss": 36.47519302368164}, "grad_time_ms": 769.725}, "pid": 3934253, "time_total_s": 31849.86645746231, "episode_reward_mean": -153.5049688801624, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -185.80293929008243, "policy_reward_mean": {}, "episodes_total": 7056, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.82080949651424, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-27-24", "training_iteration": 294, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756502844, "episode_len_mean": 50.0, "timesteps_since_restore": 352800, "time_since_restore": 31849.86645746231, "time_this_iter_s": 100.00293707847595, "iterations_since_restore": 294}
+{"timesteps_total": 354000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 96999.372, "num_steps_sampled": 354000, "update_time_ms": 2.436, "num_steps_trained": 354000, "load_time_ms": 0.627, "default": {"kl": 0.015100941061973572, "cur_lr": 4.999999873689376e-05, "entropy": 11.145347595214844, "total_loss": 31.30360221862793, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12340303510427475, "vf_explained_var": 0.9782091975212097, "vf_loss": 31.41171646118164}, "grad_time_ms": 767.442}, "pid": 3934253, "time_total_s": 31938.141626119614, "episode_reward_mean": -153.3523614012057, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -181.32258316814773, "policy_reward_mean": {}, "episodes_total": 7080, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.15408264827664, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-28-53", "training_iteration": 295, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756502933, "episode_len_mean": 50.0, "timesteps_since_restore": 354000, "time_since_restore": 31938.141626119614, "time_this_iter_s": 88.27516865730286, "iterations_since_restore": 295}
+{"timesteps_total": 355200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94766.538, "num_steps_sampled": 355200, "update_time_ms": 2.442, "num_steps_trained": 355200, "load_time_ms": 0.634, "default": {"kl": 0.015226011164486408, "cur_lr": 4.999999873689376e-05, "entropy": 10.920625686645508, "total_loss": 17.984262466430664, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12347279489040375, "vf_explained_var": 0.9853192567825317, "vf_loss": 18.092321395874023}, "grad_time_ms": 759.294}, "pid": 3934253, "time_total_s": 32019.453699350357, "episode_reward_mean": -153.4454585060366, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -181.32258316814773, "policy_reward_mean": {}, "episodes_total": 7104, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.15408264827664, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-30-14", "training_iteration": 296, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756503014, "episode_len_mean": 50.0, "timesteps_since_restore": 355200, "time_since_restore": 32019.453699350357, "time_this_iter_s": 81.31207323074341, "iterations_since_restore": 296}
+{"timesteps_total": 356400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92443.191, "num_steps_sampled": 356400, "update_time_ms": 2.467, "num_steps_trained": 356400, "load_time_ms": 0.664, "default": {"kl": 0.014233733527362347, "cur_lr": 4.999999873689376e-05, "entropy": 10.99919605255127, "total_loss": 12.16675853729248, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1281324028968811, "vf_explained_var": 0.99040287733078, "vf_loss": 12.280479431152344}, "grad_time_ms": 760.707}, "pid": 3934253, "time_total_s": 32091.361676692963, "episode_reward_mean": -153.30487583861384, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -181.32258316814773, "policy_reward_mean": {}, "episodes_total": 7128, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.15408264827664, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-31-26", "training_iteration": 297, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756503086, "episode_len_mean": 50.0, "timesteps_since_restore": 356400, "time_since_restore": 32091.361676692963, "time_this_iter_s": 71.90797734260559, "iterations_since_restore": 297}
+{"timesteps_total": 357600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92704.121, "num_steps_sampled": 357600, "update_time_ms": 2.481, "num_steps_trained": 357600, "load_time_ms": 0.66, "default": {"kl": 0.013451273553073406, "cur_lr": 4.999999873689376e-05, "entropy": 11.026782989501953, "total_loss": 21.95667266845703, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1233801320195198, "vf_explained_var": 0.9825711846351624, "vf_loss": 22.06643295288086}, "grad_time_ms": 762.934}, "pid": 3934253, "time_total_s": 32197.31569838524, "episode_reward_mean": -152.81307272750516, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -163.96797787962552, "policy_reward_mean": {}, "episodes_total": 7152, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.15408264827664, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-33-12", "training_iteration": 298, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756503192, "episode_len_mean": 50.0, "timesteps_since_restore": 357600, "time_since_restore": 32197.31569838524, "time_this_iter_s": 105.954021692276, "iterations_since_restore": 298}
+{"timesteps_total": 358800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94347.891, "num_steps_sampled": 358800, "update_time_ms": 2.435, "num_steps_trained": 358800, "load_time_ms": 0.649, "default": {"kl": 0.015564335510134697, "cur_lr": 4.999999873689376e-05, "entropy": 11.200122833251953, "total_loss": 27.603986740112305, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14806872606277466, "vf_explained_var": 0.9808406829833984, "vf_loss": 27.73629379272461}, "grad_time_ms": 767.521}, "pid": 3934253, "time_total_s": 32297.707879304886, "episode_reward_mean": -152.7437017894222, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.73387901983173, "policy_reward_mean": {}, "episodes_total": 7176, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.15408264827664, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-34-52", "training_iteration": 299, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756503292, "episode_len_mean": 50.0, "timesteps_since_restore": 358800, "time_since_restore": 32297.707879304886, "time_this_iter_s": 100.39218091964722, "iterations_since_restore": 299}
+{"timesteps_total": 360000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93078.785, "num_steps_sampled": 360000, "update_time_ms": 2.486, "num_steps_trained": 360000, "load_time_ms": 0.657, "default": {"kl": 0.014852085150778294, "cur_lr": 4.999999873689376e-05, "entropy": 11.155905723571777, "total_loss": 15.688905715942383, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14254923164844513, "vf_explained_var": 0.9873740673065186, "vf_loss": 15.81641674041748}, "grad_time_ms": 766.199}, "pid": 3934253, "time_total_s": 32387.767731428146, "episode_reward_mean": -153.14312093140904, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -169.91469154306978, "policy_reward_mean": {}, "episodes_total": 7200, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -140.8243464522184, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-36-22", "training_iteration": 300, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756503382, "episode_len_mean": 50.0, "timesteps_since_restore": 360000, "time_since_restore": 32387.767731428146, "time_this_iter_s": 90.0598521232605, "iterations_since_restore": 300}
+{"timesteps_total": 361200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92802.854, "num_steps_sampled": 361200, "update_time_ms": 2.522, "num_steps_trained": 361200, "load_time_ms": 0.655, "default": {"kl": 0.016245905309915543, "cur_lr": 4.999999873689376e-05, "entropy": 11.024404525756836, "total_loss": 11.871007919311523, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13858658075332642, "vf_explained_var": 0.99014812707901, "vf_loss": 11.993144989013672}, "grad_time_ms": 762.687}, "pid": 3934253, "time_total_s": 32485.263649463654, "episode_reward_mean": -153.2274074502331, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -169.91469154306978, "policy_reward_mean": {}, "episodes_total": 7224, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -140.8243464522184, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-38-00", "training_iteration": 301, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756503480, "episode_len_mean": 50.0, "timesteps_since_restore": 361200, "time_since_restore": 32485.263649463654, "time_this_iter_s": 97.4959180355072, "iterations_since_restore": 301}
+{"timesteps_total": 362400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92911.094, "num_steps_sampled": 362400, "update_time_ms": 2.569, "num_steps_trained": 362400, "load_time_ms": 0.655, "default": {"kl": 0.014216229319572449, "cur_lr": 4.999999873689376e-05, "entropy": 11.159814834594727, "total_loss": 35.544677734375, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12864679098129272, "vf_explained_var": 0.9736400246620178, "vf_loss": 35.658931732177734}, "grad_time_ms": 762.43}, "pid": 3934253, "time_total_s": 32581.249537229538, "episode_reward_mean": -153.71020029202208, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -169.91469154306978, "policy_reward_mean": {}, "episodes_total": 7248, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -149.21272310850614, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-39-36", "training_iteration": 302, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756503576, "episode_len_mean": 50.0, "timesteps_since_restore": 362400, "time_since_restore": 32581.249537229538, "time_this_iter_s": 95.9858877658844, "iterations_since_restore": 302}
+{"timesteps_total": 363600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 88828.401, "num_steps_sampled": 363600, "update_time_ms": 2.568, "num_steps_trained": 363600, "load_time_ms": 0.653, "default": {"kl": 0.015200129710137844, "cur_lr": 4.999999873689376e-05, "entropy": 11.10995101928711, "total_loss": 23.112335205078125, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1372426450252533, "vf_explained_var": 0.9830207824707031, "vf_loss": 23.23418617248535}, "grad_time_ms": 763.732}, "pid": 3934253, "time_total_s": 32645.868771076202, "episode_reward_mean": -153.62237696956078, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -169.91469154306978, "policy_reward_mean": {}, "episodes_total": 7272, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -148.23228434829258, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-40-41", "training_iteration": 303, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756503641, "episode_len_mean": 50.0, "timesteps_since_restore": 363600, "time_since_restore": 32645.868771076202, "time_this_iter_s": 64.61923384666443, "iterations_since_restore": 303}
+{"timesteps_total": 364800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 89234.035, "num_steps_sampled": 364800, "update_time_ms": 2.594, "num_steps_trained": 364800, "load_time_ms": 0.651, "default": {"kl": 0.014623595401644707, "cur_lr": 4.999999873689376e-05, "entropy": 10.935812950134277, "total_loss": 18.714929580688477, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12618975341320038, "vf_explained_var": 0.985697329044342, "vf_loss": 18.826313018798828}, "grad_time_ms": 762.85}, "pid": 3934253, "time_total_s": 32749.919049024582, "episode_reward_mean": -153.52869796702987, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.35021138292797, "policy_reward_mean": {}, "episodes_total": 7296, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -148.23228434829258, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-42-25", "training_iteration": 304, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756503745, "episode_len_mean": 50.0, "timesteps_since_restore": 364800, "time_since_restore": 32749.919049024582, "time_this_iter_s": 104.05027794837952, "iterations_since_restore": 304}
+{"timesteps_total": 366000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 87893.805, "num_steps_sampled": 366000, "update_time_ms": 2.593, "num_steps_trained": 366000, "load_time_ms": 0.643, "default": {"kl": 0.015481146052479744, "cur_lr": 4.999999873689376e-05, "entropy": 11.092779159545898, "total_loss": 23.730798721313477, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14704284071922302, "vf_explained_var": 0.9847856163978577, "vf_loss": 23.86216926574707}, "grad_time_ms": 753.279}, "pid": 3934253, "time_total_s": 32824.69520068169, "episode_reward_mean": -154.023138854144, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.08198004963523, "policy_reward_mean": {}, "episodes_total": 7320, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -147.8016334886118, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-43-39", "training_iteration": 305, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756503819, "episode_len_mean": 50.0, "timesteps_since_restore": 366000, "time_since_restore": 32824.69520068169, "time_this_iter_s": 74.77615165710449, "iterations_since_restore": 305}
+{"timesteps_total": 367200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 89572.983, "num_steps_sampled": 367200, "update_time_ms": 2.602, "num_steps_trained": 367200, "load_time_ms": 0.638, "default": {"kl": 0.013067873194813728, "cur_lr": 4.999999873689376e-05, "entropy": 10.859930992126465, "total_loss": 31.82198143005371, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14084021747112274, "vf_explained_var": 0.9786883592605591, "vf_loss": 31.949594497680664}, "grad_time_ms": 726.482}, "pid": 3934253, "time_total_s": 32922.53137564659, "episode_reward_mean": -153.78323260138052, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.08198004963523, "policy_reward_mean": {}, "episodes_total": 7344, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -147.8016334886118, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-45-17", "training_iteration": 306, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756503917, "episode_len_mean": 50.0, "timesteps_since_restore": 367200, "time_since_restore": 32922.53137564659, "time_this_iter_s": 97.83617496490479, "iterations_since_restore": 306}
+{"timesteps_total": 368400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93512.777, "num_steps_sampled": 368400, "update_time_ms": 2.596, "num_steps_trained": 368400, "load_time_ms": 0.604, "default": {"kl": 0.014852987602353096, "cur_lr": 4.999999873689376e-05, "entropy": 10.933476448059082, "total_loss": 21.214004516601562, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13704806566238403, "vf_explained_var": 0.9833498001098633, "vf_loss": 21.336013793945312}, "grad_time_ms": 711.308}, "pid": 3934253, "time_total_s": 33033.6856508255, "episode_reward_mean": -153.88048444856662, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -170.91292767388077, "policy_reward_mean": {}, "episodes_total": 7368, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -147.8016334886118, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-47-08", "training_iteration": 307, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756504028, "episode_len_mean": 50.0, "timesteps_since_restore": 368400, "time_since_restore": 33033.6856508255, "time_this_iter_s": 111.1542751789093, "iterations_since_restore": 307}
+{"timesteps_total": 369600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 91802.15, "num_steps_sampled": 369600, "update_time_ms": 2.62, "num_steps_trained": 369600, "load_time_ms": 0.612, "default": {"kl": 0.01284022256731987, "cur_lr": 4.999999873689376e-05, "entropy": 11.249340057373047, "total_loss": 48.84939193725586, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14142972230911255, "vf_explained_var": 0.9649655818939209, "vf_loss": 48.977821350097656}, "grad_time_ms": 709.303}, "pid": 3934253, "time_total_s": 33122.514219760895, "episode_reward_mean": -154.2712712317214, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -186.36841074023712, "policy_reward_mean": {}, "episodes_total": 7392, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -144.26847544598456, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-48-37", "training_iteration": 308, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756504117, "episode_len_mean": 50.0, "timesteps_since_restore": 369600, "time_since_restore": 33122.514219760895, "time_this_iter_s": 88.82856893539429, "iterations_since_restore": 308}
+{"timesteps_total": 370800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 90123.807, "num_steps_sampled": 370800, "update_time_ms": 2.665, "num_steps_trained": 370800, "load_time_ms": 0.604, "default": {"kl": 0.013471885584294796, "cur_lr": 4.999999873689376e-05, "entropy": 11.025983810424805, "total_loss": 25.35476303100586, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13464468717575073, "vf_explained_var": 0.9827299118041992, "vf_loss": 25.475767135620117}, "grad_time_ms": 703.0}, "pid": 3934253, "time_total_s": 33206.06060504913, "episode_reward_mean": -153.94511450306916, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -186.36841074023712, "policy_reward_mean": {}, "episodes_total": 7416, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.45030726659775, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-50-01", "training_iteration": 309, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756504201, "episode_len_mean": 50.0, "timesteps_since_restore": 370800, "time_since_restore": 33206.06060504913, "time_this_iter_s": 83.54638528823853, "iterations_since_restore": 309}
+{"timesteps_total": 372000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 90496.011, "num_steps_sampled": 372000, "update_time_ms": 2.641, "num_steps_trained": 372000, "load_time_ms": 0.597, "default": {"kl": 0.01515925396233797, "cur_lr": 4.999999873689376e-05, "entropy": 11.127731323242188, "total_loss": 23.858789443969727, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12599676847457886, "vf_explained_var": 0.9824094772338867, "vf_loss": 23.969438552856445}, "grad_time_ms": 712.061}, "pid": 3934253, "time_total_s": 33299.933065891266, "episode_reward_mean": -154.24905917335306, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -186.36841074023712, "policy_reward_mean": {}, "episodes_total": 7440, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.46524261832909, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-51-35", "training_iteration": 310, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756504295, "episode_len_mean": 50.0, "timesteps_since_restore": 372000, "time_since_restore": 33299.933065891266, "time_this_iter_s": 93.87246084213257, "iterations_since_restore": 310}
+{"timesteps_total": 373200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92302.612, "num_steps_sampled": 373200, "update_time_ms": 2.63, "num_steps_trained": 373200, "load_time_ms": 0.608, "default": {"kl": 0.015349972993135452, "cur_lr": 4.999999873689376e-05, "entropy": 10.800884246826172, "total_loss": 13.16865348815918, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1375599354505539, "vf_explained_var": 0.9889466762542725, "vf_loss": 13.290670394897461}, "grad_time_ms": 720.193}, "pid": 3934253, "time_total_s": 33415.57654643059, "episode_reward_mean": -153.81849049903275, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -186.36841074023712, "policy_reward_mean": {}, "episodes_total": 7464, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.46524261832909, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-53-30", "training_iteration": 311, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756504410, "episode_len_mean": 50.0, "timesteps_since_restore": 373200, "time_since_restore": 33415.57654643059, "time_this_iter_s": 115.6434805393219, "iterations_since_restore": 311}
+{"timesteps_total": 374400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92804.591, "num_steps_sampled": 374400, "update_time_ms": 2.579, "num_steps_trained": 374400, "load_time_ms": 0.603, "default": {"kl": 0.014131312258541584, "cur_lr": 4.999999873689376e-05, "entropy": 11.05422592163086, "total_loss": 23.799354553222656, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13450416922569275, "vf_explained_var": 0.9824861884117126, "vf_loss": 23.91954803466797}, "grad_time_ms": 710.768}, "pid": 3934253, "time_total_s": 33516.487151145935, "episode_reward_mean": -153.691471397228, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -174.5455242556761, "policy_reward_mean": {}, "episodes_total": 7488, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.46524261832909, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-55-11", "training_iteration": 312, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756504511, "episode_len_mean": 50.0, "timesteps_since_restore": 374400, "time_since_restore": 33516.487151145935, "time_this_iter_s": 100.91060471534729, "iterations_since_restore": 312}
+{"timesteps_total": 375600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 96374.432, "num_steps_sampled": 375600, "update_time_ms": 2.526, "num_steps_trained": 375600, "load_time_ms": 0.606, "default": {"kl": 0.014769317582249641, "cur_lr": 4.999999873689376e-05, "entropy": 10.969765663146973, "total_loss": 24.39408302307129, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1261298954486847, "vf_explained_var": 0.980952799320221, "vf_loss": 24.505258560180664}, "grad_time_ms": 700.257}, "pid": 3934253, "time_total_s": 33616.69808459282, "episode_reward_mean": -153.32532619977394, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -174.5455242556761, "policy_reward_mean": {}, "episodes_total": 7512, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -138.3540792562646, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-56-52", "training_iteration": 313, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756504612, "episode_len_mean": 50.0, "timesteps_since_restore": 375600, "time_since_restore": 33616.69808459282, "time_this_iter_s": 100.21093344688416, "iterations_since_restore": 313}
+{"timesteps_total": 376800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 96242.033, "num_steps_sampled": 376800, "update_time_ms": 2.497, "num_steps_trained": 376800, "load_time_ms": 0.606, "default": {"kl": 0.012455091811716557, "cur_lr": 4.999999873689376e-05, "entropy": 10.836710929870605, "total_loss": 39.87970733642578, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.10243361443281174, "vf_explained_var": 0.9777176976203918, "vf_loss": 39.96952819824219}, "grad_time_ms": 692.382}, "pid": 3934253, "time_total_s": 33719.34510588646, "episode_reward_mean": -153.10512817751962, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -174.5455242556761, "policy_reward_mean": {}, "episodes_total": 7536, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -138.3540792562646, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-58-34", "training_iteration": 314, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756504714, "episode_len_mean": 50.0, "timesteps_since_restore": 376800, "time_since_restore": 33719.34510588646, "time_this_iter_s": 102.64702129364014, "iterations_since_restore": 314}
+{"timesteps_total": 378000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 96745.536, "num_steps_sampled": 378000, "update_time_ms": 2.53, "num_steps_trained": 378000, "load_time_ms": 0.606, "default": {"kl": 0.012768601067364216, "cur_lr": 4.999999873689376e-05, "entropy": 10.945272445678711, "total_loss": 48.44010925292969, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1169797033071518, "vf_explained_var": 0.9687525629997253, "vf_loss": 48.544151306152344}, "grad_time_ms": 704.269}, "pid": 3934253, "time_total_s": 33799.27585601807, "episode_reward_mean": -153.3753794364622, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -182.4550995827381, "policy_reward_mean": {}, "episodes_total": 7560, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -138.3540792562646, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-29_23-59-54", "training_iteration": 315, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756504794, "episode_len_mean": 50.0, "timesteps_since_restore": 378000, "time_since_restore": 33799.27585601807, "time_this_iter_s": 79.93075013160706, "iterations_since_restore": 315}
+{"timesteps_total": 379200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 97378.354, "num_steps_sampled": 379200, "update_time_ms": 2.497, "num_steps_trained": 379200, "load_time_ms": 0.603, "default": {"kl": 0.014992697164416313, "cur_lr": 4.999999873689376e-05, "entropy": 10.970458984375, "total_loss": 37.55704116821289, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13573689758777618, "vf_explained_var": 0.9713044762611389, "vf_loss": 37.67759704589844}, "grad_time_ms": 729.514}, "pid": 3934253, "time_total_s": 33903.69194102287, "episode_reward_mean": -153.12148182322898, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -182.4550995827381, "policy_reward_mean": {}, "episodes_total": 7584, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -138.3540792562646, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_00-01-39", "training_iteration": 316, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756504899, "episode_len_mean": 50.0, "timesteps_since_restore": 379200, "time_since_restore": 33903.69194102287, "time_this_iter_s": 104.41608500480652, "iterations_since_restore": 316}
+{"timesteps_total": 380400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 95875.166, "num_steps_sampled": 380400, "update_time_ms": 2.454, "num_steps_trained": 380400, "load_time_ms": 0.605, "default": {"kl": 0.014862080104649067, "cur_lr": 4.999999873689376e-05, "entropy": 10.844161987304688, "total_loss": 21.56414222717285, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12421739101409912, "vf_explained_var": 0.9830238819122314, "vf_loss": 21.67331314086914}, "grad_time_ms": 751.727}, "pid": 3934253, "time_total_s": 34000.03533434868, "episode_reward_mean": -153.2457239279507, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -182.4550995827381, "policy_reward_mean": {}, "episodes_total": 7608, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.5929949692987, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_00-03-15", "training_iteration": 317, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756504995, "episode_len_mean": 50.0, "timesteps_since_restore": 380400, "time_since_restore": 34000.03533434868, "time_this_iter_s": 96.34339332580566, "iterations_since_restore": 317}
+{"timesteps_total": 381600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 97708.083, "num_steps_sampled": 381600, "update_time_ms": 2.406, "num_steps_trained": 381600, "load_time_ms": 0.629, "default": {"kl": 0.014282830990850925, "cur_lr": 4.999999873689376e-05, "entropy": 10.415968894958496, "total_loss": 22.82317352294922, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1225418746471405, "vf_explained_var": 0.9830620884895325, "vf_loss": 22.931251525878906}, "grad_time_ms": 754.055}, "pid": 3934253, "time_total_s": 34107.21705150604, "episode_reward_mean": -152.96947395657688, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -182.4550995827381, "policy_reward_mean": {}, "episodes_total": 7632, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -143.11070441906222, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_00-05-02", "training_iteration": 318, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756505102, "episode_len_mean": 50.0, "timesteps_since_restore": 381600, "time_since_restore": 34107.21705150604, "time_this_iter_s": 107.18171715736389, "iterations_since_restore": 318}
+{"timesteps_total": 382800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 100184.811, "num_steps_sampled": 382800, "update_time_ms": 2.423, "num_steps_trained": 382800, "load_time_ms": 0.63, "default": {"kl": 0.01591685228049755, "cur_lr": 4.999999873689376e-05, "entropy": 10.475652694702148, "total_loss": 11.753562927246094, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13239659368991852, "vf_explained_var": 0.9901783466339111, "vf_loss": 11.869844436645508}, "grad_time_ms": 739.596}, "pid": 3934253, "time_total_s": 34215.38590621948, "episode_reward_mean": -152.57093134687875, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -175.74868372203048, "policy_reward_mean": {}, "episodes_total": 7656, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -143.11070441906222, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_00-06-50", "training_iteration": 319, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756505210, "episode_len_mean": 50.0, "timesteps_since_restore": 382800, "time_since_restore": 34215.38590621948, "time_this_iter_s": 108.16885471343994, "iterations_since_restore": 319}
+{"timesteps_total": 384000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 101709.565, "num_steps_sampled": 384000, "update_time_ms": 2.429, "num_steps_trained": 384000, "load_time_ms": 0.636, "default": {"kl": 0.014203101396560669, "cur_lr": 4.999999873689376e-05, "entropy": 10.735393524169922, "total_loss": 23.69377326965332, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12848956882953644, "vf_explained_var": 0.9825847148895264, "vf_loss": 23.80788230895996}, "grad_time_ms": 735.134}, "pid": 3934253, "time_total_s": 34324.46160006523, "episode_reward_mean": -152.58352243026727, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -175.74868372203048, "policy_reward_mean": {}, "episodes_total": 7680, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -143.11070441906222, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_00-08-39", "training_iteration": 320, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756505319, "episode_len_mean": 50.0, "timesteps_since_restore": 384000, "time_since_restore": 34324.46160006523, "time_this_iter_s": 109.0756938457489, "iterations_since_restore": 320}
+{"timesteps_total": 385200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 99365.659, "num_steps_sampled": 385200, "update_time_ms": 2.482, "num_steps_trained": 385200, "load_time_ms": 0.618, "default": {"kl": 0.014924119226634502, "cur_lr": 4.999999873689376e-05, "entropy": 10.55162525177002, "total_loss": 19.39442253112793, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12613314390182495, "vf_explained_var": 0.9840491414070129, "vf_loss": 19.50544548034668}, "grad_time_ms": 736.471}, "pid": 3934253, "time_total_s": 34416.68057346344, "episode_reward_mean": -152.4897771954675, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -170.05123202179706, "policy_reward_mean": {}, "episodes_total": 7704, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -148.94070225783665, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_00-10-12", "training_iteration": 321, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756505412, "episode_len_mean": 50.0, "timesteps_since_restore": 385200, "time_since_restore": 34416.68057346344, "time_this_iter_s": 92.21897339820862, "iterations_since_restore": 321}
+{"timesteps_total": 386400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 101335.245, "num_steps_sampled": 386400, "update_time_ms": 2.512, "num_steps_trained": 386400, "load_time_ms": 0.619, "default": {"kl": 0.012489722110331059, "cur_lr": 4.999999873689376e-05, "entropy": 10.611146926879883, "total_loss": 42.83867645263672, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12331356108188629, "vf_explained_var": 0.9723660349845886, "vf_loss": 42.94934844970703}, "grad_time_ms": 738.868}, "pid": 3934253, "time_total_s": 34537.31090283394, "episode_reward_mean": -153.15623692414303, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -180.00500045552593, "policy_reward_mean": {}, "episodes_total": 7728, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -148.94070225783665, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_00-12-12", "training_iteration": 322, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756505532, "episode_len_mean": 50.0, "timesteps_since_restore": 386400, "time_since_restore": 34537.31090283394, "time_this_iter_s": 120.63032937049866, "iterations_since_restore": 322}
+{"timesteps_total": 387600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 102548.43, "num_steps_sampled": 387600, "update_time_ms": 2.596, "num_steps_trained": 387600, "load_time_ms": 0.616, "default": {"kl": 0.013788405805826187, "cur_lr": 4.999999873689376e-05, "entropy": 10.14149284362793, "total_loss": 22.343345642089844, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11049012094736099, "vf_explained_var": 0.9818713068962097, "vf_loss": 22.43987464904785}, "grad_time_ms": 751.021}, "pid": 3934253, "time_total_s": 34649.776156425476, "episode_reward_mean": -153.4625475023141, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -180.00500045552593, "policy_reward_mean": {}, "episodes_total": 7752, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -148.94070225783665, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_00-14-05", "training_iteration": 323, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756505645, "episode_len_mean": 50.0, "timesteps_since_restore": 387600, "time_since_restore": 34649.776156425476, "time_this_iter_s": 112.46525359153748, "iterations_since_restore": 323}
+{"timesteps_total": 388800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 100600.696, "num_steps_sampled": 388800, "update_time_ms": 2.617, "num_steps_trained": 388800, "load_time_ms": 0.621, "default": {"kl": 0.015624160878360271, "cur_lr": 4.999999873689376e-05, "entropy": 10.596100807189941, "total_loss": 22.377880096435547, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1312115639448166, "vf_explained_var": 0.9831936955451965, "vf_loss": 22.49327278137207}, "grad_time_ms": 759.895}, "pid": 3934253, "time_total_s": 34733.0354244709, "episode_reward_mean": -153.77975317555422, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -180.00500045552593, "policy_reward_mean": {}, "episodes_total": 7776, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -148.94070225783665, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_00-15-28", "training_iteration": 324, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756505728, "episode_len_mean": 50.0, "timesteps_since_restore": 388800, "time_since_restore": 34733.0354244709, "time_this_iter_s": 83.25926804542542, "iterations_since_restore": 324}
+{"timesteps_total": 390000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 103876.041, "num_steps_sampled": 390000, "update_time_ms": 2.579, "num_steps_trained": 390000, "load_time_ms": 0.625, "default": {"kl": 0.01323324628174305, "cur_lr": 4.999999873689376e-05, "entropy": 10.411630630493164, "total_loss": 44.34865188598633, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1147596687078476, "vf_explained_var": 0.9732678532600403, "vf_loss": 44.450016021728516}, "grad_time_ms": 725.227}, "pid": 3934253, "time_total_s": 34845.3717956543, "episode_reward_mean": -154.14158061826183, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -180.00500045552593, "policy_reward_mean": {}, "episodes_total": 7800, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -150.57069385002504, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_00-17-20", "training_iteration": 325, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756505840, "episode_len_mean": 50.0, "timesteps_since_restore": 390000, "time_since_restore": 34845.3717956543, "time_this_iter_s": 112.33637118339539, "iterations_since_restore": 325}
+{"timesteps_total": 391200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 101697.002, "num_steps_sampled": 391200, "update_time_ms": 2.57, "num_steps_trained": 391200, "load_time_ms": 0.628, "default": {"kl": 0.012857540510594845, "cur_lr": 4.999999873689376e-05, "entropy": 10.455910682678223, "total_loss": 42.997108459472656, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.10881756246089935, "vf_explained_var": 0.9767987132072449, "vf_loss": 43.09290313720703}, "grad_time_ms": 731.369}, "pid": 3934253, "time_total_s": 34928.06006979942, "episode_reward_mean": -154.09453792189086, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -173.1302892079539, "policy_reward_mean": {}, "episodes_total": 7824, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -150.75378690688086, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_00-18-43", "training_iteration": 326, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756505923, "episode_len_mean": 50.0, "timesteps_since_restore": 391200, "time_since_restore": 34928.06006979942, "time_this_iter_s": 82.68827414512634, "iterations_since_restore": 326}
+{"timesteps_total": 392400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 99412.19, "num_steps_sampled": 392400, "update_time_ms": 2.608, "num_steps_trained": 392400, "load_time_ms": 0.632, "default": {"kl": 0.013225565664470196, "cur_lr": 4.999999873689376e-05, "entropy": 10.42746353149414, "total_loss": 30.64324951171875, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13256524503231049, "vf_explained_var": 0.9776370525360107, "vf_loss": 30.76242446899414}, "grad_time_ms": 726.856}, "pid": 3934253, "time_total_s": 35001.51141524315, "episode_reward_mean": -154.43401371835216, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -180.4741776622837, "policy_reward_mean": {}, "episodes_total": 7848, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -150.64127333487605, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_00-19-57", "training_iteration": 327, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756505997, "episode_len_mean": 50.0, "timesteps_since_restore": 392400, "time_since_restore": 35001.51141524315, "time_this_iter_s": 73.45134544372559, "iterations_since_restore": 327}
+{"timesteps_total": 393600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 98206.757, "num_steps_sampled": 393600, "update_time_ms": 2.612, "num_steps_trained": 393600, "load_time_ms": 0.598, "default": {"kl": 0.013027322478592396, "cur_lr": 4.999999873689376e-05, "entropy": 10.334811210632324, "total_loss": 25.57097053527832, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11095554381608963, "vf_explained_var": 0.9810521006584167, "vf_loss": 25.668737411499023}, "grad_time_ms": 726.985}, "pid": 3934253, "time_total_s": 35096.638957738876, "episode_reward_mean": -154.35407762027717, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -180.4741776622837, "policy_reward_mean": {}, "episodes_total": 7872, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -150.64127333487605, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_00-21-32", "training_iteration": 328, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756506092, "episode_len_mean": 50.0, "timesteps_since_restore": 393600, "time_since_restore": 35096.638957738876, "time_this_iter_s": 95.12754249572754, "iterations_since_restore": 328}
+{"timesteps_total": 394800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 99099.85, "num_steps_sampled": 394800, "update_time_ms": 2.616, "num_steps_trained": 394800, "load_time_ms": 0.609, "default": {"kl": 0.015124778263270855, "cur_lr": 4.999999873689376e-05, "entropy": 10.097905158996582, "total_loss": 23.35348129272461, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1195986419916153, "vf_explained_var": 0.9812294840812683, "vf_loss": 23.457765579223633}, "grad_time_ms": 747.878}, "pid": 3934253, "time_total_s": 35213.948383808136, "episode_reward_mean": -153.77713772000587, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -180.4741776622837, "policy_reward_mean": {}, "episodes_total": 7896, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -136.8694429954124, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_00-23-29", "training_iteration": 329, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756506209, "episode_len_mean": 50.0, "timesteps_since_restore": 394800, "time_since_restore": 35213.948383808136, "time_this_iter_s": 117.30942606925964, "iterations_since_restore": 329}
+{"timesteps_total": 396000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 96400.676, "num_steps_sampled": 396000, "update_time_ms": 2.616, "num_steps_trained": 396000, "load_time_ms": 0.608, "default": {"kl": 0.014633645303547382, "cur_lr": 4.999999873689376e-05, "entropy": 10.538222312927246, "total_loss": 20.841421127319336, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12716291844844818, "vf_explained_var": 0.9844285249710083, "vf_loss": 20.953765869140625}, "grad_time_ms": 746.647}, "pid": 3934253, "time_total_s": 35296.019594192505, "episode_reward_mean": -153.28856495343746, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -180.4741776622837, "policy_reward_mean": {}, "episodes_total": 7920, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -136.8694429954124, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_00-24-51", "training_iteration": 330, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756506291, "episode_len_mean": 50.0, "timesteps_since_restore": 396000, "time_since_restore": 35296.019594192505, "time_this_iter_s": 82.0712103843689, "iterations_since_restore": 330}
+{"timesteps_total": 397200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 97662.735, "num_steps_sampled": 397200, "update_time_ms": 2.72, "num_steps_trained": 397200, "load_time_ms": 0.609, "default": {"kl": 0.014507361687719822, "cur_lr": 4.999999873689376e-05, "entropy": 10.390003204345703, "total_loss": 28.46442413330078, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1269027292728424, "vf_explained_var": 0.9785017371177673, "vf_loss": 28.57663917541504}, "grad_time_ms": 737.279}, "pid": 3934253, "time_total_s": 35400.76520228386, "episode_reward_mean": -152.84106423066166, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -180.4741776622837, "policy_reward_mean": {}, "episodes_total": 7944, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -135.7076686254385, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_00-26-36", "training_iteration": 331, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756506396, "episode_len_mean": 50.0, "timesteps_since_restore": 397200, "time_since_restore": 35400.76520228386, "time_this_iter_s": 104.74560809135437, "iterations_since_restore": 331}
+{"timesteps_total": 398400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94954.544, "num_steps_sampled": 398400, "update_time_ms": 2.706, "num_steps_trained": 398400, "load_time_ms": 0.621, "default": {"kl": 0.014371686615049839, "cur_lr": 4.999999873689376e-05, "entropy": 10.481554985046387, "total_loss": 26.985797882080078, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13098128139972687, "vf_explained_var": 0.9793742299079895, "vf_loss": 27.10222816467285}, "grad_time_ms": 742.071}, "pid": 3934253, "time_total_s": 35494.36348748207, "episode_reward_mean": -152.3610456543385, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.77579605740746, "policy_reward_mean": {}, "episodes_total": 7968, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -135.7076686254385, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_00-28-10", "training_iteration": 332, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756506490, "episode_len_mean": 50.0, "timesteps_since_restore": 398400, "time_since_restore": 35494.36348748207, "time_this_iter_s": 93.59828519821167, "iterations_since_restore": 332}
+{"timesteps_total": 399600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 91593.414, "num_steps_sampled": 399600, "update_time_ms": 2.679, "num_steps_trained": 399600, "load_time_ms": 0.625, "default": {"kl": 0.013958621770143509, "cur_lr": 4.999999873689376e-05, "entropy": 10.51937484741211, "total_loss": 40.451904296875, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13136720657348633, "vf_explained_var": 0.9713349938392639, "vf_loss": 40.56913757324219}, "grad_time_ms": 744.421}, "pid": 3934253, "time_total_s": 35573.24069619179, "episode_reward_mean": -152.6889494291554, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -177.64100823331634, "policy_reward_mean": {}, "episodes_total": 7992, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -135.7076686254385, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_00-29-28", "training_iteration": 333, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756506568, "episode_len_mean": 50.0, "timesteps_since_restore": 399600, "time_since_restore": 35573.24069619179, "time_this_iter_s": 78.8772087097168, "iterations_since_restore": 333}
+{"timesteps_total": 400800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 91368.618, "num_steps_sampled": 400800, "update_time_ms": 2.637, "num_steps_trained": 400800, "load_time_ms": 0.628, "default": {"kl": 0.015249352902173996, "cur_lr": 4.999999873689376e-05, "entropy": 10.27700424194336, "total_loss": 21.162511825561523, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11858128011226654, "vf_explained_var": 0.9836852550506592, "vf_loss": 21.26565170288086}, "grad_time_ms": 752.607}, "pid": 3934253, "time_total_s": 35654.33391952515, "episode_reward_mean": -152.6987609356839, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -177.64100823331634, "policy_reward_mean": {}, "episodes_total": 8016, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -135.7076686254385, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_00-30-50", "training_iteration": 334, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756506650, "episode_len_mean": 50.0, "timesteps_since_restore": 400800, "time_since_restore": 35654.33391952515, "time_this_iter_s": 81.09322333335876, "iterations_since_restore": 334}
+{"timesteps_total": 402000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 88729.159, "num_steps_sampled": 402000, "update_time_ms": 2.675, "num_steps_trained": 402000, "load_time_ms": 0.63, "default": {"kl": 0.013706881552934647, "cur_lr": 4.999999873689376e-05, "entropy": 10.258893013000488, "total_loss": 18.555627822875977, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12699751555919647, "vf_explained_var": 0.986332356929779, "vf_loss": 18.668746948242188}, "grad_time_ms": 788.154}, "pid": 3934253, "time_total_s": 35740.63249707222, "episode_reward_mean": -152.9703099260085, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -177.64100823331634, "policy_reward_mean": {}, "episodes_total": 8040, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.11140543958143, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_00-32-16", "training_iteration": 335, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756506736, "episode_len_mean": 50.0, "timesteps_since_restore": 402000, "time_since_restore": 35740.63249707222, "time_this_iter_s": 86.29857754707336, "iterations_since_restore": 335}
+{"timesteps_total": 403200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 91513.753, "num_steps_sampled": 403200, "update_time_ms": 2.708, "num_steps_trained": 403200, "load_time_ms": 0.627, "default": {"kl": 0.013812141492962837, "cur_lr": 4.999999873689376e-05, "entropy": 10.123869895935059, "total_loss": 17.128286361694336, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.10887904465198517, "vf_explained_var": 0.9872063398361206, "vf_loss": 17.223176956176758}, "grad_time_ms": 783.817}, "pid": 3934253, "time_total_s": 35851.12422943115, "episode_reward_mean": -153.04831488940408, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -177.64100823331634, "policy_reward_mean": {}, "episodes_total": 8064, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.11140543958143, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_00-34-06", "training_iteration": 336, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756506846, "episode_len_mean": 50.0, "timesteps_since_restore": 403200, "time_since_restore": 35851.12422943115, "time_this_iter_s": 110.4917323589325, "iterations_since_restore": 336}
+{"timesteps_total": 404400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92711.829, "num_steps_sampled": 404400, "update_time_ms": 2.691, "num_steps_trained": 404400, "load_time_ms": 0.634, "default": {"kl": 0.013465446420013905, "cur_lr": 4.999999873689376e-05, "entropy": 10.17501449584961, "total_loss": 22.101633071899414, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12934455275535583, "vf_explained_var": 0.9826427102088928, "vf_loss": 22.217344284057617}, "grad_time_ms": 781.355}, "pid": 3934253, "time_total_s": 35936.53139543533, "episode_reward_mean": -152.91974841361036, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.6798048261915, "policy_reward_mean": {}, "episodes_total": 8088, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -144.01814896022987, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_00-35-32", "training_iteration": 337, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756506932, "episode_len_mean": 50.0, "timesteps_since_restore": 404400, "time_since_restore": 35936.53139543533, "time_this_iter_s": 85.40716600418091, "iterations_since_restore": 337}
+{"timesteps_total": 405600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94088.489, "num_steps_sampled": 405600, "update_time_ms": 2.633, "num_steps_trained": 405600, "load_time_ms": 0.652, "default": {"kl": 0.01327629666775465, "cur_lr": 4.999999873689376e-05, "entropy": 10.075685501098633, "total_loss": 20.67936897277832, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.128595769405365, "vf_explained_var": 0.9839978814125061, "vf_loss": 20.79452133178711}, "grad_time_ms": 781.972}, "pid": 3934253, "time_total_s": 36045.43131017685, "episode_reward_mean": -152.76994038362417, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -171.73506361888798, "policy_reward_mean": {}, "episodes_total": 8112, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -144.01814896022987, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_00-37-21", "training_iteration": 338, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756507041, "episode_len_mean": 50.0, "timesteps_since_restore": 405600, "time_since_restore": 36045.43131017685, "time_this_iter_s": 108.89991474151611, "iterations_since_restore": 338}
+{"timesteps_total": 406800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 91540.836, "num_steps_sampled": 406800, "update_time_ms": 2.577, "num_steps_trained": 406800, "load_time_ms": 0.653, "default": {"kl": 0.01496865227818489, "cur_lr": 4.999999873689376e-05, "entropy": 10.436251640319824, "total_loss": 32.833805084228516, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12757453322410583, "vf_explained_var": 0.9752024412155151, "vf_loss": 32.946224212646484}, "grad_time_ms": 782.538}, "pid": 3934253, "time_total_s": 36137.26930594444, "episode_reward_mean": -152.87661447578267, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -178.246255970889, "policy_reward_mean": {}, "episodes_total": 8136, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.1453355829173, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_00-38-53", "training_iteration": 339, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756507133, "episode_len_mean": 50.0, "timesteps_since_restore": 406800, "time_since_restore": 36137.26930594444, "time_this_iter_s": 91.83799576759338, "iterations_since_restore": 339}
+{"timesteps_total": 408000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 91825.392, "num_steps_sampled": 408000, "update_time_ms": 2.581, "num_steps_trained": 408000, "load_time_ms": 0.647, "default": {"kl": 0.014040197245776653, "cur_lr": 4.999999873689376e-05, "entropy": 10.187368392944336, "total_loss": 21.68220329284668, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13107901811599731, "vf_explained_var": 0.9829478859901428, "vf_loss": 21.799068450927734}, "grad_time_ms": 790.481}, "pid": 3934253, "time_total_s": 36222.26623415947, "episode_reward_mean": -152.5864977452388, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -178.246255970889, "policy_reward_mean": {}, "episodes_total": 8160, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.1453355829173, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_00-40-18", "training_iteration": 340, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756507218, "episode_len_mean": 50.0, "timesteps_since_restore": 408000, "time_since_restore": 36222.26623415947, "time_this_iter_s": 84.99692821502686, "iterations_since_restore": 340}
+{"timesteps_total": 409200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92400.945, "num_steps_sampled": 409200, "update_time_ms": 2.409, "num_steps_trained": 409200, "load_time_ms": 0.681, "default": {"kl": 0.014228183776140213, "cur_lr": 4.999999873689376e-05, "entropy": 10.1898193359375, "total_loss": 19.298744201660156, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11869990825653076, "vf_explained_var": 0.9837184548377991, "vf_loss": 19.403038024902344}, "grad_time_ms": 792.406}, "pid": 3934253, "time_total_s": 36332.785865306854, "episode_reward_mean": -152.8219143853639, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -178.246255970889, "policy_reward_mean": {}, "episodes_total": 8184, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.1453355829173, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_00-42-08", "training_iteration": 341, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756507328, "episode_len_mean": 50.0, "timesteps_since_restore": 409200, "time_since_restore": 36332.785865306854, "time_this_iter_s": 110.51963114738464, "iterations_since_restore": 341}
+{"timesteps_total": 410400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 91987.235, "num_steps_sampled": 410400, "update_time_ms": 2.385, "num_steps_trained": 410400, "load_time_ms": 0.673, "default": {"kl": 0.013174712657928467, "cur_lr": 4.999999873689376e-05, "entropy": 10.154784202575684, "total_loss": 17.16404914855957, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13054805994033813, "vf_explained_var": 0.9870219826698303, "vf_loss": 17.281259536743164}, "grad_time_ms": 783.421}, "pid": 3934253, "time_total_s": 36422.15473651886, "episode_reward_mean": -152.79249832994313, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -178.246255970889, "policy_reward_mean": {}, "episodes_total": 8208, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.1453355829173, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_00-43-38", "training_iteration": 342, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756507418, "episode_len_mean": 50.0, "timesteps_since_restore": 410400, "time_since_restore": 36422.15473651886, "time_this_iter_s": 89.36887121200562, "iterations_since_restore": 342}
+{"timesteps_total": 411600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93259.94, "num_steps_sampled": 411600, "update_time_ms": 2.39, "num_steps_trained": 411600, "load_time_ms": 0.682, "default": {"kl": 0.013398093171417713, "cur_lr": 4.999999873689376e-05, "entropy": 10.21140193939209, "total_loss": 15.42952823638916, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12429417669773102, "vf_explained_var": 0.988605260848999, "vf_loss": 15.54025650024414}, "grad_time_ms": 788.74}, "pid": 3934253, "time_total_s": 36513.812532663345, "episode_reward_mean": -152.4947968460862, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.25618485757914, "policy_reward_mean": {}, "episodes_total": 8232, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -147.63720264870892, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_00-45-09", "training_iteration": 343, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756507509, "episode_len_mean": 50.0, "timesteps_since_restore": 411600, "time_since_restore": 36513.812532663345, "time_this_iter_s": 91.65779614448547, "iterations_since_restore": 343}
+{"timesteps_total": 412800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94727.256, "num_steps_sampled": 412800, "update_time_ms": 2.402, "num_steps_trained": 412800, "load_time_ms": 0.673, "default": {"kl": 0.015052050352096558, "cur_lr": 4.999999873689376e-05, "entropy": 10.440613746643066, "total_loss": 25.006467819213867, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1175057590007782, "vf_explained_var": 0.9807634353637695, "vf_loss": 25.108734130859375}, "grad_time_ms": 784.412}, "pid": 3934253, "time_total_s": 36609.53568506241, "episode_reward_mean": -153.21520828059778, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -168.82503659059702, "policy_reward_mean": {}, "episodes_total": 8256, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -147.63720264870892, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_00-46-45", "training_iteration": 344, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756507605, "episode_len_mean": 50.0, "timesteps_since_restore": 412800, "time_since_restore": 36609.53568506241, "time_this_iter_s": 95.72315239906311, "iterations_since_restore": 344}
+{"timesteps_total": 414000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 96656.326, "num_steps_sampled": 414000, "update_time_ms": 2.368, "num_steps_trained": 414000, "load_time_ms": 0.668, "default": {"kl": 0.015476263128221035, "cur_lr": 4.999999873689376e-05, "entropy": 10.44300651550293, "total_loss": 12.492606163024902, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12842413783073425, "vf_explained_var": 0.989512026309967, "vf_loss": 12.605360984802246}, "grad_time_ms": 781.723}, "pid": 3934253, "time_total_s": 36715.097074747086, "episode_reward_mean": -153.3844868213551, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -168.82503659059702, "policy_reward_mean": {}, "episodes_total": 8280, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -147.63720264870892, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_00-48-30", "training_iteration": 345, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756507710, "episode_len_mean": 50.0, "timesteps_since_restore": 414000, "time_since_restore": 36715.097074747086, "time_this_iter_s": 105.56138968467712, "iterations_since_restore": 345}
+{"timesteps_total": 415200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94261.095, "num_steps_sampled": 415200, "update_time_ms": 2.333, "num_steps_trained": 415200, "load_time_ms": 0.67, "default": {"kl": 0.013878900557756424, "cur_lr": 4.999999873689376e-05, "entropy": 10.181175231933594, "total_loss": 18.723909378051758, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1245008334517479, "vf_explained_var": 0.9861525297164917, "vf_loss": 18.83435821533203}, "grad_time_ms": 768.491}, "pid": 3934253, "time_total_s": 36801.50307202339, "episode_reward_mean": -153.39538590524927, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -168.82503659059702, "policy_reward_mean": {}, "episodes_total": 8304, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -147.63720264870892, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_00-49-57", "training_iteration": 346, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756507797, "episode_len_mean": 50.0, "timesteps_since_restore": 415200, "time_since_restore": 36801.50307202339, "time_this_iter_s": 86.40599727630615, "iterations_since_restore": 346}
+{"timesteps_total": 416400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 95108.192, "num_steps_sampled": 416400, "update_time_ms": 2.361, "num_steps_trained": 416400, "load_time_ms": 0.662, "default": {"kl": 0.014218274503946304, "cur_lr": 4.999999873689376e-05, "entropy": 10.210870742797852, "total_loss": 18.950908660888672, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12428196519613266, "vf_explained_var": 0.9845414757728577, "vf_loss": 19.060794830322266}, "grad_time_ms": 764.217}, "pid": 3934253, "time_total_s": 36895.33891892433, "episode_reward_mean": -153.16668440198112, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -168.82503659059702, "policy_reward_mean": {}, "episodes_total": 8328, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -148.03892181301913, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_00-51-31", "training_iteration": 347, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756507891, "episode_len_mean": 50.0, "timesteps_since_restore": 416400, "time_since_restore": 36895.33891892433, "time_this_iter_s": 93.83584690093994, "iterations_since_restore": 347}
+{"timesteps_total": 417600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 91907.856, "num_steps_sampled": 417600, "update_time_ms": 2.428, "num_steps_trained": 417600, "load_time_ms": 0.654, "default": {"kl": 0.014065904542803764, "cur_lr": 4.999999873689376e-05, "entropy": 10.311721801757812, "total_loss": 22.437252044677734, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12689092755317688, "vf_explained_var": 0.983727216720581, "vf_loss": 22.549901962280273}, "grad_time_ms": 771.482}, "pid": 3934253, "time_total_s": 36972.30895447731, "episode_reward_mean": -152.7423944307145, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.470864728126, "policy_reward_mean": {}, "episodes_total": 8352, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -149.157812667166, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_00-52-48", "training_iteration": 348, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756507968, "episode_len_mean": 50.0, "timesteps_since_restore": 417600, "time_since_restore": 36972.30895447731, "time_this_iter_s": 76.97003555297852, "iterations_since_restore": 348}
+{"timesteps_total": 418800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92743.246, "num_steps_sampled": 418800, "update_time_ms": 2.443, "num_steps_trained": 418800, "load_time_ms": 0.646, "default": {"kl": 0.014622226357460022, "cur_lr": 4.999999873689376e-05, "entropy": 10.095756530761719, "total_loss": 13.963083267211914, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13011474907398224, "vf_explained_var": 0.9886112213134766, "vf_loss": 14.078393936157227}, "grad_time_ms": 761.339}, "pid": 3934253, "time_total_s": 37072.39999341965, "episode_reward_mean": -152.570437889023, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -168.57609319041728, "policy_reward_mean": {}, "episodes_total": 8376, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -150.24807205629406, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_00-54-28", "training_iteration": 349, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756508068, "episode_len_mean": 50.0, "timesteps_since_restore": 418800, "time_since_restore": 37072.39999341965, "time_this_iter_s": 100.09103894233704, "iterations_since_restore": 349}
+{"timesteps_total": 420000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93945.555, "num_steps_sampled": 420000, "update_time_ms": 2.414, "num_steps_trained": 420000, "load_time_ms": 0.651, "default": {"kl": 0.013052679598331451, "cur_lr": 4.999999873689376e-05, "entropy": 9.948760986328125, "total_loss": 26.701265335083008, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.111075259745121, "vf_explained_var": 0.9798588156700134, "vf_loss": 26.799123764038086}, "grad_time_ms": 760.168}, "pid": 3934253, "time_total_s": 37169.40801501274, "episode_reward_mean": -152.35406502911871, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -168.57609319041728, "policy_reward_mean": {}, "episodes_total": 8400, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.43713855171399, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_00-56-05", "training_iteration": 350, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756508165, "episode_len_mean": 50.0, "timesteps_since_restore": 420000, "time_since_restore": 37169.40801501274, "time_this_iter_s": 97.00802159309387, "iterations_since_restore": 350}
+{"timesteps_total": 421200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93551.288, "num_steps_sampled": 421200, "update_time_ms": 2.427, "num_steps_trained": 421200, "load_time_ms": 0.614, "default": {"kl": 0.013322807848453522, "cur_lr": 4.999999873689376e-05, "entropy": 10.31839370727539, "total_loss": 39.58547592163086, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12193938344717026, "vf_explained_var": 0.9701064229011536, "vf_loss": 39.69392395019531}, "grad_time_ms": 766.501}, "pid": 3934253, "time_total_s": 37276.0480325222, "episode_reward_mean": -152.9349523520042, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -182.25825795156348, "policy_reward_mean": {}, "episodes_total": 8424, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.43713855171399, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_00-57-52", "training_iteration": 351, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756508272, "episode_len_mean": 50.0, "timesteps_since_restore": 421200, "time_since_restore": 37276.0480325222, "time_this_iter_s": 106.64001750946045, "iterations_since_restore": 351}
+{"timesteps_total": 422400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 96615.82, "num_steps_sampled": 422400, "update_time_ms": 2.446, "num_steps_trained": 422400, "load_time_ms": 0.613, "default": {"kl": 0.014840834774076939, "cur_lr": 4.999999873689376e-05, "entropy": 10.174718856811523, "total_loss": 31.508209228515625, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1351870745420456, "vf_explained_var": 0.9790176749229431, "vf_loss": 31.62837028503418}, "grad_time_ms": 769.346}, "pid": 3934253, "time_total_s": 37396.09178161621, "episode_reward_mean": -153.35956760196896, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -182.25825795156348, "policy_reward_mean": {}, "episodes_total": 8448, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.43713855171399, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_00-59-52", "training_iteration": 352, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756508392, "episode_len_mean": 50.0, "timesteps_since_restore": 422400, "time_since_restore": 37396.09178161621, "time_this_iter_s": 120.0437490940094, "iterations_since_restore": 352}
+{"timesteps_total": 423600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 97717.845, "num_steps_sampled": 423600, "update_time_ms": 2.44, "num_steps_trained": 423600, "load_time_ms": 0.605, "default": {"kl": 0.014833922497928143, "cur_lr": 4.999999873689376e-05, "entropy": 9.910870552062988, "total_loss": 21.269311904907227, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1376529335975647, "vf_explained_var": 0.9843950271606445, "vf_loss": 21.391944885253906}, "grad_time_ms": 759.658}, "pid": 3934253, "time_total_s": 37498.67289829254, "episode_reward_mean": -153.08415396170028, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -182.25825795156348, "policy_reward_mean": {}, "episodes_total": 8472, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.43713855171399, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_01-01-34", "training_iteration": 353, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756508494, "episode_len_mean": 50.0, "timesteps_since_restore": 423600, "time_since_restore": 37498.67289829254, "time_this_iter_s": 102.58111667633057, "iterations_since_restore": 353}
+{"timesteps_total": 424800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 98199.752, "num_steps_sampled": 424800, "update_time_ms": 2.418, "num_steps_trained": 424800, "load_time_ms": 0.604, "default": {"kl": 0.01393041666597128, "cur_lr": 4.999999873689376e-05, "entropy": 10.231510162353516, "total_loss": 19.14379119873047, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1328810304403305, "vf_explained_var": 0.9846649169921875, "vf_loss": 19.262569427490234}, "grad_time_ms": 751.339}, "pid": 3934253, "time_total_s": 37599.13117814064, "episode_reward_mean": -153.2069426241487, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -182.25825795156348, "policy_reward_mean": {}, "episodes_total": 8496, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.1586138095392, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_01-03-15", "training_iteration": 354, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756508595, "episode_len_mean": 50.0, "timesteps_since_restore": 424800, "time_since_restore": 37599.13117814064, "time_this_iter_s": 100.45827984809875, "iterations_since_restore": 354}
+{"timesteps_total": 426000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 96474.088, "num_steps_sampled": 426000, "update_time_ms": 2.442, "num_steps_trained": 426000, "load_time_ms": 0.606, "default": {"kl": 0.013703294098377228, "cur_lr": 4.999999873689376e-05, "entropy": 10.181726455688477, "total_loss": 22.11202621459961, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12982912361621857, "vf_explained_var": 0.9826943278312683, "vf_loss": 22.227983474731445}, "grad_time_ms": 754.057}, "pid": 3934253, "time_total_s": 37687.463785886765, "episode_reward_mean": -152.87976951541432, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -178.5151443402442, "policy_reward_mean": {}, "episodes_total": 8520, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.1586138095392, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_01-04-43", "training_iteration": 355, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756508683, "episode_len_mean": 50.0, "timesteps_since_restore": 426000, "time_since_restore": 37687.463785886765, "time_this_iter_s": 88.33260774612427, "iterations_since_restore": 355}
+{"timesteps_total": 427200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 98364.902, "num_steps_sampled": 427200, "update_time_ms": 2.483, "num_steps_trained": 427200, "load_time_ms": 0.604, "default": {"kl": 0.014798227697610855, "cur_lr": 4.999999873689376e-05, "entropy": 10.146353721618652, "total_loss": 19.512731552124023, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11665691435337067, "vf_explained_var": 0.9837243556976318, "vf_loss": 19.614402770996094}, "grad_time_ms": 762.176}, "pid": 3934253, "time_total_s": 37792.859236478806, "episode_reward_mean": -152.4326080480917, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -168.48851998476675, "policy_reward_mean": {}, "episodes_total": 8544, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.1586138095392, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_01-06-28", "training_iteration": 356, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756508788, "episode_len_mean": 50.0, "timesteps_since_restore": 427200, "time_since_restore": 37792.859236478806, "time_this_iter_s": 105.39545059204102, "iterations_since_restore": 356}
+{"timesteps_total": 428400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 96947.825, "num_steps_sampled": 428400, "update_time_ms": 2.416, "num_steps_trained": 428400, "load_time_ms": 0.608, "default": {"kl": 0.014719611965119839, "cur_lr": 4.999999873689376e-05, "entropy": 10.013218879699707, "total_loss": 15.863059043884277, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13711626827716827, "vf_explained_var": 0.9880774021148682, "vf_loss": 15.985271453857422}, "grad_time_ms": 772.157}, "pid": 3934253, "time_total_s": 37872.6226978302, "episode_reward_mean": -152.81097276852893, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -168.48851998476675, "policy_reward_mean": {}, "episodes_total": 8568, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.1586138095392, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_01-07-48", "training_iteration": 357, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756508868, "episode_len_mean": 50.0, "timesteps_since_restore": 428400, "time_since_restore": 37872.6226978302, "time_this_iter_s": 79.76346135139465, "iterations_since_restore": 357}
+{"timesteps_total": 429600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 98484.83, "num_steps_sampled": 429600, "update_time_ms": 2.418, "num_steps_trained": 429600, "load_time_ms": 0.595, "default": {"kl": 0.013437781482934952, "cur_lr": 4.999999873689376e-05, "entropy": 10.048007011413574, "total_loss": 26.254295349121094, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1137915551662445, "vf_explained_var": 0.9829705357551575, "vf_loss": 26.354480743408203}, "grad_time_ms": 767.708}, "pid": 3934253, "time_total_s": 37964.91802740097, "episode_reward_mean": -152.98573683136482, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -168.48851998476675, "policy_reward_mean": {}, "episodes_total": 8592, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -143.0228323504369, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_01-09-20", "training_iteration": 358, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756508960, "episode_len_mean": 50.0, "timesteps_since_restore": 429600, "time_since_restore": 37964.91802740097, "time_this_iter_s": 92.29532957077026, "iterations_since_restore": 358}
+{"timesteps_total": 430800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 98218.345, "num_steps_sampled": 430800, "update_time_ms": 2.451, "num_steps_trained": 430800, "load_time_ms": 0.597, "default": {"kl": 0.013722885400056839, "cur_lr": 4.999999873689376e-05, "entropy": 9.970488548278809, "total_loss": 13.448766708374023, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1254318505525589, "vf_explained_var": 0.9887028932571411, "vf_loss": 13.56030559539795}, "grad_time_ms": 777.334}, "pid": 3934253, "time_total_s": 38062.439425468445, "episode_reward_mean": -152.59503919828575, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -163.3151418152035, "policy_reward_mean": {}, "episodes_total": 8616, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -143.94562985426637, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_01-10-58", "training_iteration": 359, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756509058, "episode_len_mean": 50.0, "timesteps_since_restore": 430800, "time_since_restore": 38062.439425468445, "time_this_iter_s": 97.52139806747437, "iterations_since_restore": 359}
+{"timesteps_total": 432000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 98022.492, "num_steps_sampled": 432000, "update_time_ms": 2.485, "num_steps_trained": 432000, "load_time_ms": 0.595, "default": {"kl": 0.01442575454711914, "cur_lr": 4.999999873689376e-05, "entropy": 10.238739013671875, "total_loss": 29.425323486328125, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13105913996696472, "vf_explained_var": 0.9780151844024658, "vf_loss": 29.541778564453125}, "grad_time_ms": 778.193}, "pid": 3934253, "time_total_s": 38157.49730968475, "episode_reward_mean": -152.59521854700185, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -163.75715808807124, "policy_reward_mean": {}, "episodes_total": 8640, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -143.94562985426637, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_01-12-33", "training_iteration": 360, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756509153, "episode_len_mean": 50.0, "timesteps_since_restore": 432000, "time_since_restore": 38157.49730968475, "time_this_iter_s": 95.0578842163086, "iterations_since_restore": 360}
+{"timesteps_total": 433200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 96048.622, "num_steps_sampled": 433200, "update_time_ms": 2.476, "num_steps_trained": 433200, "load_time_ms": 0.606, "default": {"kl": 0.01245577447116375, "cur_lr": 4.999999873689376e-05, "entropy": 9.976419448852539, "total_loss": 17.008989334106445, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12027224898338318, "vf_explained_var": 0.9869714379310608, "vf_loss": 17.11665153503418}, "grad_time_ms": 785.689}, "pid": 3934253, "time_total_s": 38244.47419548035, "episode_reward_mean": -152.5972637993256, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.38796960241405, "policy_reward_mean": {}, "episodes_total": 8664, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -143.94562985426637, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_01-14-00", "training_iteration": 361, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756509240, "episode_len_mean": 50.0, "timesteps_since_restore": 433200, "time_since_restore": 38244.47419548035, "time_this_iter_s": 86.97688579559326, "iterations_since_restore": 361}
+{"timesteps_total": 434400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94103.607, "num_steps_sampled": 434400, "update_time_ms": 2.541, "num_steps_trained": 434400, "load_time_ms": 0.606, "default": {"kl": 0.013436969369649887, "cur_lr": 4.999999873689376e-05, "entropy": 9.918680191040039, "total_loss": 33.949283599853516, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12893246114253998, "vf_explained_var": 0.9761844277381897, "vf_loss": 34.06460952758789}, "grad_time_ms": 782.457}, "pid": 3934253, "time_total_s": 38345.03595113754, "episode_reward_mean": -152.69931875687953, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -170.43808917486143, "policy_reward_mean": {}, "episodes_total": 8688, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -143.0843494317296, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_01-15-41", "training_iteration": 362, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756509341, "episode_len_mean": 50.0, "timesteps_since_restore": 434400, "time_since_restore": 38345.03595113754, "time_this_iter_s": 100.56175565719604, "iterations_since_restore": 362}
+{"timesteps_total": 435600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94747.806, "num_steps_sampled": 435600, "update_time_ms": 2.617, "num_steps_trained": 435600, "load_time_ms": 0.609, "default": {"kl": 0.015112587250769138, "cur_lr": 4.999999873689376e-05, "entropy": 10.319666862487793, "total_loss": 37.49136734008789, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1251940131187439, "vf_explained_var": 0.9763219356536865, "vf_loss": 37.601261138916016}, "grad_time_ms": 791.851}, "pid": 3934253, "time_total_s": 38454.15379524231, "episode_reward_mean": -153.22232896328572, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -175.87434224939994, "policy_reward_mean": {}, "episodes_total": 8712, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -143.0843494317296, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_01-17-30", "training_iteration": 363, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756509450, "episode_len_mean": 50.0, "timesteps_since_restore": 435600, "time_since_restore": 38454.15379524231, "time_this_iter_s": 109.11784410476685, "iterations_since_restore": 363}
+{"timesteps_total": 436800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93394.588, "num_steps_sampled": 436800, "update_time_ms": 2.647, "num_steps_trained": 436800, "load_time_ms": 0.609, "default": {"kl": 0.013049306347966194, "cur_lr": 4.999999873689376e-05, "entropy": 10.128003120422363, "total_loss": 40.55475997924805, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12103336304426193, "vf_explained_var": 0.9705398082733154, "vf_loss": 40.66258239746094}, "grad_time_ms": 798.195}, "pid": 3934253, "time_total_s": 38541.14335441589, "episode_reward_mean": -153.27688113916284, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -175.87434224939994, "policy_reward_mean": {}, "episodes_total": 8736, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -143.0843494317296, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_01-18-57", "training_iteration": 364, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756509537, "episode_len_mean": 50.0, "timesteps_since_restore": 436800, "time_since_restore": 38541.14335441589, "time_this_iter_s": 86.98955917358398, "iterations_since_restore": 364}
+{"timesteps_total": 438000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 95569.423, "num_steps_sampled": 438000, "update_time_ms": 2.643, "num_steps_trained": 438000, "load_time_ms": 0.604, "default": {"kl": 0.013601518236100674, "cur_lr": 4.999999873689376e-05, "entropy": 9.885064125061035, "total_loss": 24.32900619506836, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13153356313705444, "vf_explained_var": 0.9816988706588745, "vf_loss": 24.446767807006836}, "grad_time_ms": 779.284}, "pid": 3934253, "time_total_s": 38651.03580594063, "episode_reward_mean": -153.14458819004005, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -175.87434224939994, "policy_reward_mean": {}, "episodes_total": 8760, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -143.0843494317296, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_01-20-47", "training_iteration": 365, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756509647, "episode_len_mean": 50.0, "timesteps_since_restore": 438000, "time_since_restore": 38651.03580594063, "time_this_iter_s": 109.8924515247345, "iterations_since_restore": 365}
+{"timesteps_total": 439200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94534.394, "num_steps_sampled": 439200, "update_time_ms": 2.634, "num_steps_trained": 439200, "load_time_ms": 0.62, "default": {"kl": 0.01434319093823433, "cur_lr": 4.999999873689376e-05, "entropy": 10.187789916992188, "total_loss": 27.139606475830078, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1373453140258789, "vf_explained_var": 0.9785805940628052, "vf_loss": 27.26243019104004}, "grad_time_ms": 784.596}, "pid": 3934253, "time_total_s": 38746.134162187576, "episode_reward_mean": -153.03023594593262, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -175.87434224939994, "policy_reward_mean": {}, "episodes_total": 8784, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -145.97616584542013, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_01-22-22", "training_iteration": 366, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756509742, "episode_len_mean": 50.0, "timesteps_since_restore": 439200, "time_since_restore": 38746.134162187576, "time_this_iter_s": 95.09835624694824, "iterations_since_restore": 366}
+{"timesteps_total": 440400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 95815.865, "num_steps_sampled": 440400, "update_time_ms": 2.681, "num_steps_trained": 440400, "load_time_ms": 0.614, "default": {"kl": 0.01304242480546236, "cur_lr": 4.999999873689376e-05, "entropy": 9.783220291137695, "total_loss": 21.39423179626465, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1273837685585022, "vf_explained_var": 0.9835090637207031, "vf_loss": 21.50840950012207}, "grad_time_ms": 777.45}, "pid": 3934253, "time_total_s": 38838.64204645157, "episode_reward_mean": -152.98505145091403, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -175.1536698558524, "policy_reward_mean": {}, "episodes_total": 8808, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -147.98162832608875, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_01-23-54", "training_iteration": 367, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756509834, "episode_len_mean": 50.0, "timesteps_since_restore": 440400, "time_since_restore": 38838.64204645157, "time_this_iter_s": 92.50788426399231, "iterations_since_restore": 367}
+{"timesteps_total": 441600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 95877.34, "num_steps_sampled": 441600, "update_time_ms": 2.732, "num_steps_trained": 441600, "load_time_ms": 0.625, "default": {"kl": 0.014993922784924507, "cur_lr": 4.999999873689376e-05, "entropy": 10.211225509643555, "total_loss": 30.539302825927734, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13054004311561584, "vf_explained_var": 0.9768690466880798, "vf_loss": 30.654659271240234}, "grad_time_ms": 774.471}, "pid": 3934253, "time_total_s": 38931.52576327324, "episode_reward_mean": -153.22040865837252, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -175.1536698558524, "policy_reward_mean": {}, "episodes_total": 8832, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -147.98162832608875, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_01-25-27", "training_iteration": 368, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756509927, "episode_len_mean": 50.0, "timesteps_since_restore": 441600, "time_since_restore": 38931.52576327324, "time_this_iter_s": 92.88371682167053, "iterations_since_restore": 368}
+{"timesteps_total": 442800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 95571.739, "num_steps_sampled": 442800, "update_time_ms": 2.779, "num_steps_trained": 442800, "load_time_ms": 0.63, "default": {"kl": 0.014243930578231812, "cur_lr": 4.999999873689376e-05, "entropy": 9.84453010559082, "total_loss": 14.643656730651855, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12754985690116882, "vf_explained_var": 0.9877651929855347, "vf_loss": 14.75678539276123}, "grad_time_ms": 774.089}, "pid": 3934253, "time_total_s": 39025.988913059235, "episode_reward_mean": -153.35602109097817, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -175.1536698558524, "policy_reward_mean": {}, "episodes_total": 8856, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -147.98162832608875, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_01-27-02", "training_iteration": 369, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756510022, "episode_len_mean": 50.0, "timesteps_since_restore": 442800, "time_since_restore": 39025.988913059235, "time_this_iter_s": 94.46314978599548, "iterations_since_restore": 369}
+{"timesteps_total": 444000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93135.38, "num_steps_sampled": 444000, "update_time_ms": 2.732, "num_steps_trained": 444000, "load_time_ms": 0.629, "default": {"kl": 0.014785230159759521, "cur_lr": 4.999999873689376e-05, "entropy": 9.96976089477539, "total_loss": 14.757744789123535, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11156058311462402, "vf_explained_var": 0.9873138070106506, "vf_loss": 14.854334831237793}, "grad_time_ms": 773.513}, "pid": 3934253, "time_total_s": 39096.677599191666, "episode_reward_mean": -153.33171487671436, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -175.1536698558524, "policy_reward_mean": {}, "episodes_total": 8880, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -149.2437295888303, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_01-28-12", "training_iteration": 370, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756510092, "episode_len_mean": 50.0, "timesteps_since_restore": 444000, "time_since_restore": 39096.677599191666, "time_this_iter_s": 70.68868613243103, "iterations_since_restore": 370}
+{"timesteps_total": 445200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94533.882, "num_steps_sampled": 445200, "update_time_ms": 2.737, "num_steps_trained": 445200, "load_time_ms": 0.635, "default": {"kl": 0.014057965949177742, "cur_lr": 4.999999873689376e-05, "entropy": 10.287542343139648, "total_loss": 23.995384216308594, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12851697206497192, "vf_explained_var": 0.9828624725341797, "vf_loss": 24.10966682434082}, "grad_time_ms": 766.421}, "pid": 3934253, "time_total_s": 39197.56882786751, "episode_reward_mean": -153.44320350684313, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -171.5362803146453, "policy_reward_mean": {}, "episodes_total": 8904, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -143.9455142032621, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_01-29-53", "training_iteration": 371, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756510193, "episode_len_mean": 50.0, "timesteps_since_restore": 445200, "time_since_restore": 39197.56882786751, "time_this_iter_s": 100.89122867584229, "iterations_since_restore": 371}
+{"timesteps_total": 446400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93615.93, "num_steps_sampled": 446400, "update_time_ms": 2.668, "num_steps_trained": 446400, "load_time_ms": 0.63, "default": {"kl": 0.01378762349486351, "cur_lr": 4.999999873689376e-05, "entropy": 9.977514266967773, "total_loss": 16.470462799072266, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12618333101272583, "vf_explained_var": 0.9869677424430847, "vf_loss": 16.582687377929688}, "grad_time_ms": 770.079}, "pid": 3934253, "time_total_s": 39288.986879348755, "episode_reward_mean": -153.08341630954703, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -171.5362803146453, "policy_reward_mean": {}, "episodes_total": 8928, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -143.9455142032621, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_01-31-25", "training_iteration": 372, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756510285, "episode_len_mean": 50.0, "timesteps_since_restore": 446400, "time_since_restore": 39288.986879348755, "time_this_iter_s": 91.41805148124695, "iterations_since_restore": 372}
+{"timesteps_total": 447600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94375.551, "num_steps_sampled": 447600, "update_time_ms": 2.64, "num_steps_trained": 447600, "load_time_ms": 0.662, "default": {"kl": 0.013898391276597977, "cur_lr": 4.999999873689376e-05, "entropy": 10.216779708862305, "total_loss": 48.11854934692383, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12654566764831543, "vf_explained_var": 0.9678885340690613, "vf_loss": 48.23102569580078}, "grad_time_ms": 763.214}, "pid": 3934253, "time_total_s": 39405.63260102272, "episode_reward_mean": -153.18250980534327, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -171.5362803146453, "policy_reward_mean": {}, "episodes_total": 8952, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -143.9455142032621, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_01-33-21", "training_iteration": 373, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756510401, "episode_len_mean": 50.0, "timesteps_since_restore": 447600, "time_since_restore": 39405.63260102272, "time_this_iter_s": 116.64572167396545, "iterations_since_restore": 373}
+{"timesteps_total": 448800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94646.345, "num_steps_sampled": 448800, "update_time_ms": 2.658, "num_steps_trained": 448800, "load_time_ms": 0.673, "default": {"kl": 0.01273138914257288, "cur_lr": 4.999999873689376e-05, "entropy": 9.943889617919922, "total_loss": 28.784555435180664, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1258401721715927, "vf_explained_var": 0.977308988571167, "vf_loss": 28.897504806518555}, "grad_time_ms": 767.596}, "pid": 3934253, "time_total_s": 39495.37490296364, "episode_reward_mean": -153.0939093284892, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -171.5362803146453, "policy_reward_mean": {}, "episodes_total": 8976, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.9277414104081, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_01-34-51", "training_iteration": 374, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756510491, "episode_len_mean": 50.0, "timesteps_since_restore": 448800, "time_since_restore": 39495.37490296364, "time_this_iter_s": 89.74230194091797, "iterations_since_restore": 374}
+{"timesteps_total": 450000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92320.277, "num_steps_sampled": 450000, "update_time_ms": 2.638, "num_steps_trained": 450000, "load_time_ms": 0.67, "default": {"kl": 0.012571917846798897, "cur_lr": 4.999999873689376e-05, "entropy": 9.955538749694824, "total_loss": 23.156606674194336, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1303580403327942, "vf_explained_var": 0.9838725328445435, "vf_loss": 23.274234771728516}, "grad_time_ms": 780.454}, "pid": 3934253, "time_total_s": 39582.134382009506, "episode_reward_mean": -153.18728333636233, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -170.6081921394304, "policy_reward_mean": {}, "episodes_total": 9000, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.9277414104081, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_01-36-18", "training_iteration": 375, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756510578, "episode_len_mean": 50.0, "timesteps_since_restore": 450000, "time_since_restore": 39582.134382009506, "time_this_iter_s": 86.75947904586792, "iterations_since_restore": 375}
+{"timesteps_total": 451200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92309.316, "num_steps_sampled": 451200, "update_time_ms": 2.649, "num_steps_trained": 451200, "load_time_ms": 0.65, "default": {"kl": 0.014042828232049942, "cur_lr": 4.999999873689376e-05, "entropy": 9.61319351196289, "total_loss": 29.14134979248047, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12289823591709137, "vf_explained_var": 0.9794071912765503, "vf_loss": 29.25002670288086}, "grad_time_ms": 779.417}, "pid": 3934253, "time_total_s": 39677.111968278885, "episode_reward_mean": -153.18059563870236, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -174.89906397580594, "policy_reward_mean": {}, "episodes_total": 9024, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.9277414104081, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_01-37-53", "training_iteration": 376, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756510673, "episode_len_mean": 50.0, "timesteps_since_restore": 451200, "time_since_restore": 39677.111968278885, "time_this_iter_s": 94.97758626937866, "iterations_since_restore": 376}
+{"timesteps_total": 452400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92738.748, "num_steps_sampled": 452400, "update_time_ms": 2.664, "num_steps_trained": 452400, "load_time_ms": 0.652, "default": {"kl": 0.012846022844314575, "cur_lr": 4.999999873689376e-05, "entropy": 9.973522186279297, "total_loss": 34.768245697021484, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1277947723865509, "vf_explained_var": 0.9744422435760498, "vf_loss": 34.883033752441406}, "grad_time_ms": 791.139}, "pid": 3934253, "time_total_s": 39774.030656814575, "episode_reward_mean": -153.291892610524, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -174.89906397580594, "policy_reward_mean": {}, "episodes_total": 9048, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -136.53761693354755, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_01-39-30", "training_iteration": 377, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756510770, "episode_len_mean": 50.0, "timesteps_since_restore": 452400, "time_since_restore": 39774.030656814575, "time_this_iter_s": 96.91868853569031, "iterations_since_restore": 377}
+{"timesteps_total": 453600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 91769.429, "num_steps_sampled": 453600, "update_time_ms": 2.585, "num_steps_trained": 453600, "load_time_ms": 0.646, "default": {"kl": 0.015167261473834515, "cur_lr": 4.999999873689376e-05, "entropy": 10.005805969238281, "total_loss": 22.82137680053711, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13752031326293945, "vf_explained_var": 0.9811097383499146, "vf_loss": 22.943540573120117}, "grad_time_ms": 801.995}, "pid": 3934253, "time_total_s": 39857.32714128494, "episode_reward_mean": -153.35642537200582, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -174.89906397580594, "policy_reward_mean": {}, "episodes_total": 9072, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -136.53761693354755, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_01-40-53", "training_iteration": 378, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756510853, "episode_len_mean": 50.0, "timesteps_since_restore": 453600, "time_since_restore": 39857.32714128494, "time_this_iter_s": 83.29648447036743, "iterations_since_restore": 378}
+{"timesteps_total": 454800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93552.532, "num_steps_sampled": 454800, "update_time_ms": 2.553, "num_steps_trained": 454800, "load_time_ms": 0.644, "default": {"kl": 0.01317631546407938, "cur_lr": 4.999999873689376e-05, "entropy": 9.828235626220703, "total_loss": 17.909996032714844, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12949572503566742, "vf_explained_var": 0.9854044318199158, "vf_loss": 18.02614974975586}, "grad_time_ms": 788.433}, "pid": 3934253, "time_total_s": 39969.48629593849, "episode_reward_mean": -153.18384773613363, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -174.89906397580594, "policy_reward_mean": {}, "episodes_total": 9096, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -136.53761693354755, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_01-42-45", "training_iteration": 379, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756510965, "episode_len_mean": 50.0, "timesteps_since_restore": 454800, "time_since_restore": 39969.48629593849, "time_this_iter_s": 112.1591546535492, "iterations_since_restore": 379}
+{"timesteps_total": 456000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93344.313, "num_steps_sampled": 456000, "update_time_ms": 2.541, "num_steps_trained": 456000, "load_time_ms": 0.643, "default": {"kl": 0.014248888939619064, "cur_lr": 4.999999873689376e-05, "entropy": 9.349405288696289, "total_loss": 17.249818801879883, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1263115406036377, "vf_explained_var": 0.9867851734161377, "vf_loss": 17.36170196533203}, "grad_time_ms": 772.99}, "pid": 3934253, "time_total_s": 40037.937469005585, "episode_reward_mean": -153.1766155089574, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -174.89906397580594, "policy_reward_mean": {}, "episodes_total": 9120, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -136.53761693354755, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_01-43-54", "training_iteration": 380, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756511034, "episode_len_mean": 50.0, "timesteps_since_restore": 456000, "time_since_restore": 40037.937469005585, "time_this_iter_s": 68.4511730670929, "iterations_since_restore": 380}
+{"timesteps_total": 457200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94568.446, "num_steps_sampled": 457200, "update_time_ms": 2.599, "num_steps_trained": 457200, "load_time_ms": 0.632, "default": {"kl": 0.014296084642410278, "cur_lr": 4.999999873689376e-05, "entropy": 10.027332305908203, "total_loss": 19.0135555267334, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12623052299022675, "vf_explained_var": 0.9851264953613281, "vf_loss": 19.125308990478516}, "grad_time_ms": 777.1}, "pid": 3934253, "time_total_s": 40151.110609054565, "episode_reward_mean": -152.8896881821496, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -168.73716899846337, "policy_reward_mean": {}, "episodes_total": 9144, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -147.7964379594772, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_01-45-47", "training_iteration": 381, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756511147, "episode_len_mean": 50.0, "timesteps_since_restore": 457200, "time_since_restore": 40151.110609054565, "time_this_iter_s": 113.17314004898071, "iterations_since_restore": 381}
+{"timesteps_total": 458400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92486.574, "num_steps_sampled": 458400, "update_time_ms": 2.597, "num_steps_trained": 458400, "load_time_ms": 0.638, "default": {"kl": 0.014583314768970013, "cur_lr": 4.999999873689376e-05, "entropy": 9.759105682373047, "total_loss": 17.389978408813477, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1328737437725067, "vf_explained_var": 0.9858565926551819, "vf_loss": 17.508085250854492}, "grad_time_ms": 785.307}, "pid": 3934253, "time_total_s": 40221.79202866554, "episode_reward_mean": -152.79855423647666, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.1867128581947, "policy_reward_mean": {}, "episodes_total": 9168, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -136.55946156197663, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_01-46-58", "training_iteration": 382, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756511218, "episode_len_mean": 50.0, "timesteps_since_restore": 458400, "time_since_restore": 40221.79202866554, "time_this_iter_s": 70.68141961097717, "iterations_since_restore": 382}
+{"timesteps_total": 459600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92935.526, "num_steps_sampled": 459600, "update_time_ms": 2.556, "num_steps_trained": 459600, "load_time_ms": 0.603, "default": {"kl": 0.013046178966760635, "cur_lr": 4.999999873689376e-05, "entropy": 9.58828067779541, "total_loss": 29.252241134643555, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13703730702400208, "vf_explained_var": 0.9791484475135803, "vf_loss": 29.376068115234375}, "grad_time_ms": 771.747}, "pid": 3934253, "time_total_s": 40342.79056477547, "episode_reward_mean": -153.13422255735932, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -174.47439067250346, "policy_reward_mean": {}, "episodes_total": 9192, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -136.55946156197663, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_01-48-59", "training_iteration": 383, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756511339, "episode_len_mean": 50.0, "timesteps_since_restore": 459600, "time_since_restore": 40342.79056477547, "time_this_iter_s": 120.99853610992432, "iterations_since_restore": 383}
+{"timesteps_total": 460800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93259.448, "num_steps_sampled": 460800, "update_time_ms": 2.518, "num_steps_trained": 460800, "load_time_ms": 0.601, "default": {"kl": 0.014214631170034409, "cur_lr": 4.999999873689376e-05, "entropy": 9.635729789733887, "total_loss": 14.057104110717773, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1296011358499527, "vf_explained_var": 0.9884568452835083, "vf_loss": 14.172313690185547}, "grad_time_ms": 773.144}, "pid": 3934253, "time_total_s": 40435.78492999077, "episode_reward_mean": -153.0059882991506, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -174.47439067250346, "policy_reward_mean": {}, "episodes_total": 9216, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -136.55946156197663, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_01-50-32", "training_iteration": 384, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756511432, "episode_len_mean": 50.0, "timesteps_since_restore": 460800, "time_since_restore": 40435.78492999077, "time_this_iter_s": 92.99436521530151, "iterations_since_restore": 384}
+{"timesteps_total": 462000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94043.3, "num_steps_sampled": 462000, "update_time_ms": 2.555, "num_steps_trained": 462000, "load_time_ms": 0.603, "default": {"kl": 0.01449158787727356, "cur_lr": 4.999999873689376e-05, "entropy": 9.566226959228516, "total_loss": 22.213275909423828, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12301838397979736, "vf_explained_var": 0.9816312789916992, "vf_loss": 22.321619033813477}, "grad_time_ms": 765.474}, "pid": 3934253, "time_total_s": 40530.30609059334, "episode_reward_mean": -152.85925076260227, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -174.47439067250346, "policy_reward_mean": {}, "episodes_total": 9240, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -136.55946156197663, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_01-52-06", "training_iteration": 385, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756511526, "episode_len_mean": 50.0, "timesteps_since_restore": 462000, "time_since_restore": 40530.30609059334, "time_this_iter_s": 94.52116060256958, "iterations_since_restore": 385}
+{"timesteps_total": 463200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 95899.053, "num_steps_sampled": 463200, "update_time_ms": 2.533, "num_steps_trained": 463200, "load_time_ms": 0.614, "default": {"kl": 0.013922227546572685, "cur_lr": 4.999999873689376e-05, "entropy": 9.574094772338867, "total_loss": 23.11071014404297, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.115452341735363, "vf_explained_var": 0.9839463829994202, "vf_loss": 23.212068557739258}, "grad_time_ms": 767.397}, "pid": 3934253, "time_total_s": 40643.86023974419, "episode_reward_mean": -153.37401042518425, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -174.47439067250346, "policy_reward_mean": {}, "episodes_total": 9264, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -136.55946156197663, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_01-54-00", "training_iteration": 386, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756511640, "episode_len_mean": 50.0, "timesteps_since_restore": 463200, "time_since_restore": 40643.86023974419, "time_this_iter_s": 113.55414915084839, "iterations_since_restore": 386}
+{"timesteps_total": 464400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94600.447, "num_steps_sampled": 464400, "update_time_ms": 2.467, "num_steps_trained": 464400, "load_time_ms": 0.617, "default": {"kl": 0.013455020263791084, "cur_lr": 4.999999873689376e-05, "entropy": 9.93942928314209, "total_loss": 71.57559204101562, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1256643831729889, "vf_explained_var": 0.9553078413009644, "vf_loss": 71.68763732910156}, "grad_time_ms": 760.01}, "pid": 3934253, "time_total_s": 40727.71838593483, "episode_reward_mean": -153.81044741787505, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -185.61971742619494, "policy_reward_mean": {}, "episodes_total": 9288, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.7858068921068, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_01-55-24", "training_iteration": 387, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756511724, "episode_len_mean": 50.0, "timesteps_since_restore": 464400, "time_since_restore": 40727.71838593483, "time_this_iter_s": 83.85814619064331, "iterations_since_restore": 387}
+{"timesteps_total": 465600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 95143.577, "num_steps_sampled": 465600, "update_time_ms": 2.487, "num_steps_trained": 465600, "load_time_ms": 0.628, "default": {"kl": 0.014179746620357037, "cur_lr": 4.999999873689376e-05, "entropy": 9.57951545715332, "total_loss": 22.397836685180664, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12766240537166595, "vf_explained_var": 0.9822462797164917, "vf_loss": 22.51114273071289}, "grad_time_ms": 761.875}, "pid": 3934253, "time_total_s": 40816.4643805027, "episode_reward_mean": -153.7662331758303, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -185.61971742619494, "policy_reward_mean": {}, "episodes_total": 9312, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.64657409231407, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_01-56-53", "training_iteration": 388, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756511813, "episode_len_mean": 50.0, "timesteps_since_restore": 465600, "time_since_restore": 40816.4643805027, "time_this_iter_s": 88.7459945678711, "iterations_since_restore": 388}
+{"timesteps_total": 466800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94702.824, "num_steps_sampled": 466800, "update_time_ms": 2.473, "num_steps_trained": 466800, "load_time_ms": 0.624, "default": {"kl": 0.013959686271846294, "cur_lr": 4.999999873689376e-05, "entropy": 9.685425758361816, "total_loss": 20.270750045776367, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13417869806289673, "vf_explained_var": 0.98442143201828, "vf_loss": 20.390796661376953}, "grad_time_ms": 760.271}, "pid": 3934253, "time_total_s": 40924.1979534626, "episode_reward_mean": -153.9711238325928, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -185.61971742619494, "policy_reward_mean": {}, "episodes_total": 9336, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.64657409231407, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_01-58-40", "training_iteration": 389, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756511920, "episode_len_mean": 50.0, "timesteps_since_restore": 466800, "time_since_restore": 40924.1979534626, "time_this_iter_s": 107.7335729598999, "iterations_since_restore": 389}
+{"timesteps_total": 468000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 97748.726, "num_steps_sampled": 468000, "update_time_ms": 2.538, "num_steps_trained": 468000, "load_time_ms": 0.629, "default": {"kl": 0.0150027209892869, "cur_lr": 4.999999873689376e-05, "entropy": 9.611435890197754, "total_loss": 16.69760513305664, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1160043478012085, "vf_explained_var": 0.9859545230865479, "vf_loss": 16.798418045043945}, "grad_time_ms": 776.435}, "pid": 3934253, "time_total_s": 41023.27092075348, "episode_reward_mean": -153.2059437076237, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -185.61971742619494, "policy_reward_mean": {}, "episodes_total": 9360, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.64657409231407, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_02-00-19", "training_iteration": 390, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756512019, "episode_len_mean": 50.0, "timesteps_since_restore": 468000, "time_since_restore": 41023.27092075348, "time_this_iter_s": 99.0729672908783, "iterations_since_restore": 390}
+{"timesteps_total": 469200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 97941.064, "num_steps_sampled": 469200, "update_time_ms": 2.545, "num_steps_trained": 469200, "load_time_ms": 0.625, "default": {"kl": 0.01452625822275877, "cur_lr": 4.999999873689376e-05, "entropy": 9.65519905090332, "total_loss": 22.100902557373047, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12013532221317291, "vf_explained_var": 0.982020378112793, "vf_loss": 22.206329345703125}, "grad_time_ms": 765.075}, "pid": 3934253, "time_total_s": 41138.254877090454, "episode_reward_mean": -152.90577764465885, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -170.25628936587407, "policy_reward_mean": {}, "episodes_total": 9384, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.64657409231407, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_02-02-14", "training_iteration": 391, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756512134, "episode_len_mean": 50.0, "timesteps_since_restore": 469200, "time_since_restore": 41138.254877090454, "time_this_iter_s": 114.9839563369751, "iterations_since_restore": 391}
+{"timesteps_total": 470400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 100327.709, "num_steps_sampled": 470400, "update_time_ms": 2.58, "num_steps_trained": 470400, "load_time_ms": 0.627, "default": {"kl": 0.01367896981537342, "cur_lr": 4.999999873689376e-05, "entropy": 9.717622756958008, "total_loss": 20.730247497558594, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12303749471902847, "vf_explained_var": 0.9840138554573059, "vf_loss": 20.839435577392578}, "grad_time_ms": 740.551}, "pid": 3934253, "time_total_s": 41232.55836844444, "episode_reward_mean": -152.76562004405554, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -169.46345236421746, "policy_reward_mean": {}, "episodes_total": 9408, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -146.8892861391005, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_02-03-49", "training_iteration": 392, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756512229, "episode_len_mean": 50.0, "timesteps_since_restore": 470400, "time_since_restore": 41232.55836844444, "time_this_iter_s": 94.30349135398865, "iterations_since_restore": 392}
+{"timesteps_total": 471600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 98909.243, "num_steps_sampled": 471600, "update_time_ms": 2.595, "num_steps_trained": 471600, "load_time_ms": 0.63, "default": {"kl": 0.01300249807536602, "cur_lr": 4.999999873689376e-05, "entropy": 9.604305267333984, "total_loss": 19.531492233276367, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11763381958007812, "vf_explained_var": 0.9843325018882751, "vf_loss": 19.635961532592773}, "grad_time_ms": 758.83}, "pid": 3934253, "time_total_s": 41339.5549621582, "episode_reward_mean": -152.6976787690023, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -169.46345236421746, "policy_reward_mean": {}, "episodes_total": 9432, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.83068117605868, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_02-05-36", "training_iteration": 393, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756512336, "episode_len_mean": 50.0, "timesteps_since_restore": 471600, "time_since_restore": 41339.5549621582, "time_this_iter_s": 106.99659371376038, "iterations_since_restore": 393}
+{"timesteps_total": 472800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 98506.519, "num_steps_sampled": 472800, "update_time_ms": 2.567, "num_steps_trained": 472800, "load_time_ms": 0.624, "default": {"kl": 0.013971512205898762, "cur_lr": 4.999999873689376e-05, "entropy": 9.62321949005127, "total_loss": 13.953452110290527, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12165407091379166, "vf_explained_var": 0.9881808757781982, "vf_loss": 14.06096076965332}, "grad_time_ms": 755.993}, "pid": 3934253, "time_total_s": 41428.493270635605, "episode_reward_mean": -152.73886156700593, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -169.46345236421746, "policy_reward_mean": {}, "episodes_total": 9456, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.81457270615553, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_02-07-05", "training_iteration": 394, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756512425, "episode_len_mean": 50.0, "timesteps_since_restore": 472800, "time_since_restore": 41428.493270635605, "time_this_iter_s": 88.93830847740173, "iterations_since_restore": 394}
+{"timesteps_total": 474000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 97189.632, "num_steps_sampled": 474000, "update_time_ms": 2.492, "num_steps_trained": 474000, "load_time_ms": 0.628, "default": {"kl": 0.012882490642368793, "cur_lr": 4.999999873689376e-05, "entropy": 9.573514938354492, "total_loss": 30.2314453125, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11516463756561279, "vf_explained_var": 0.978480875492096, "vf_loss": 30.333566665649414}, "grad_time_ms": 755.275}, "pid": 3934253, "time_total_s": 41509.83872747421, "episode_reward_mean": -152.55249194049549, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.33702468179493, "policy_reward_mean": {}, "episodes_total": 9480, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.81457270615553, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_02-08-26", "training_iteration": 395, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756512506, "episode_len_mean": 50.0, "timesteps_since_restore": 474000, "time_since_restore": 41509.83872747421, "time_this_iter_s": 81.34545683860779, "iterations_since_restore": 395}
+{"timesteps_total": 475200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 97357.778, "num_steps_sampled": 475200, "update_time_ms": 2.494, "num_steps_trained": 475200, "load_time_ms": 0.626, "default": {"kl": 0.015613549388945103, "cur_lr": 4.999999873689376e-05, "entropy": 9.676960945129395, "total_loss": 20.19458770751953, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12485632300376892, "vf_explained_var": 0.9847643375396729, "vf_loss": 20.303634643554688}, "grad_time_ms": 730.936}, "pid": 3934253, "time_total_s": 41624.83124899864, "episode_reward_mean": -152.67328401582608, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.33702468179493, "policy_reward_mean": {}, "episodes_total": 9504, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.81457270615553, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_02-10-21", "training_iteration": 396, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756512621, "episode_len_mean": 50.0, "timesteps_since_restore": 475200, "time_since_restore": 41624.83124899864, "time_this_iter_s": 114.99252152442932, "iterations_since_restore": 396}
+{"timesteps_total": 476400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 100373.912, "num_steps_sampled": 476400, "update_time_ms": 2.536, "num_steps_trained": 476400, "load_time_ms": 0.621, "default": {"kl": 0.014947790652513504, "cur_lr": 4.999999873689376e-05, "entropy": 9.738167762756348, "total_loss": 26.864194869995117, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14435940980911255, "vf_explained_var": 0.9804407954216003, "vf_loss": 26.99342155456543}, "grad_time_ms": 726.922}, "pid": 3934253, "time_total_s": 41738.81172847748, "episode_reward_mean": -152.73994919692365, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.33702468179493, "policy_reward_mean": {}, "episodes_total": 9528, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.81457270615553, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_02-12-15", "training_iteration": 397, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756512735, "episode_len_mean": 50.0, "timesteps_since_restore": 476400, "time_since_restore": 41738.81172847748, "time_this_iter_s": 113.98047947883606, "iterations_since_restore": 397}
+{"timesteps_total": 477600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 99110.223, "num_steps_sampled": 477600, "update_time_ms": 2.541, "num_steps_trained": 477600, "load_time_ms": 0.621, "default": {"kl": 0.014783354476094246, "cur_lr": 4.999999873689376e-05, "entropy": 9.937175750732422, "total_loss": 36.52134323120117, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.125640869140625, "vf_explained_var": 0.9722763895988464, "vf_loss": 36.632015228271484}, "grad_time_ms": 725.375}, "pid": 3934253, "time_total_s": 41814.905596494675, "episode_reward_mean": -153.10580437943494, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -178.8284532302404, "policy_reward_mean": {}, "episodes_total": 9552, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -148.82691292199615, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_02-13-31", "training_iteration": 398, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756512811, "episode_len_mean": 50.0, "timesteps_since_restore": 477600, "time_since_restore": 41814.905596494675, "time_this_iter_s": 76.09386801719666, "iterations_since_restore": 398}
+{"timesteps_total": 478800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 97041.268, "num_steps_sampled": 478800, "update_time_ms": 2.524, "num_steps_trained": 478800, "load_time_ms": 0.626, "default": {"kl": 0.01445402018725872, "cur_lr": 4.999999873689376e-05, "entropy": 9.523843765258789, "total_loss": 20.581594467163086, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12159392237663269, "vf_explained_var": 0.9837309718132019, "vf_loss": 20.68855094909668}, "grad_time_ms": 734.791}, "pid": 3934253, "time_total_s": 41902.04425191879, "episode_reward_mean": -153.46935723412918, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -178.8284532302404, "policy_reward_mean": {}, "episodes_total": 9576, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -148.82691292199615, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_02-14-58", "training_iteration": 399, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756512898, "episode_len_mean": 50.0, "timesteps_since_restore": 478800, "time_since_restore": 41902.04425191879, "time_this_iter_s": 87.13865542411804, "iterations_since_restore": 399}
+{"timesteps_total": 480000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 96533.831, "num_steps_sampled": 480000, "update_time_ms": 2.47, "num_steps_trained": 480000, "load_time_ms": 0.622, "default": {"kl": 0.01431234646588564, "cur_lr": 4.999999873689376e-05, "entropy": 9.579992294311523, "total_loss": 22.560794830322266, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12019583582878113, "vf_explained_var": 0.9842327833175659, "vf_loss": 22.666500091552734}, "grad_time_ms": 707.123}, "pid": 3934253, "time_total_s": 41995.76532769203, "episode_reward_mean": -153.08571561344462, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -178.8284532302404, "policy_reward_mean": {}, "episodes_total": 9600, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -148.82691292199615, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_02-16-32", "training_iteration": 400, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756512992, "episode_len_mean": 50.0, "timesteps_since_restore": 480000, "time_since_restore": 41995.76532769203, "time_this_iter_s": 93.72107577323914, "iterations_since_restore": 400}
+{"timesteps_total": 481200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 95440.939, "num_steps_sampled": 481200, "update_time_ms": 2.412, "num_steps_trained": 481200, "load_time_ms": 0.627, "default": {"kl": 0.01310575008392334, "cur_lr": 4.999999873689376e-05, "entropy": 9.719040870666504, "total_loss": 35.705787658691406, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13067464530467987, "vf_explained_var": 0.9781382083892822, "vf_loss": 35.82319641113281}, "grad_time_ms": 720.716}, "pid": 3934253, "time_total_s": 42099.95502829552, "episode_reward_mean": -153.3988099397184, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -178.8284532302404, "policy_reward_mean": {}, "episodes_total": 9624, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -145.95915465653817, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_02-18-16", "training_iteration": 401, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756513096, "episode_len_mean": 50.0, "timesteps_since_restore": 481200, "time_since_restore": 42099.95502829552, "time_this_iter_s": 104.18970060348511, "iterations_since_restore": 401}
+{"timesteps_total": 482400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94308.325, "num_steps_sampled": 482400, "update_time_ms": 2.409, "num_steps_trained": 482400, "load_time_ms": 0.62, "default": {"kl": 0.013833809643983841, "cur_lr": 4.999999873689376e-05, "entropy": 9.736509323120117, "total_loss": 35.20651626586914, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1259187012910843, "vf_explained_var": 0.9735874533653259, "vf_loss": 35.31842803955078}, "grad_time_ms": 732.584}, "pid": 3934253, "time_total_s": 42183.0499727726, "episode_reward_mean": -152.7485907641062, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -172.2784810744398, "policy_reward_mean": {}, "episodes_total": 9648, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -136.54575402752465, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_02-19-39", "training_iteration": 402, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756513179, "episode_len_mean": 50.0, "timesteps_since_restore": 482400, "time_since_restore": 42183.0499727726, "time_this_iter_s": 83.0949444770813, "iterations_since_restore": 402}
+{"timesteps_total": 483600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94824.157, "num_steps_sampled": 483600, "update_time_ms": 2.383, "num_steps_trained": 483600, "load_time_ms": 0.614, "default": {"kl": 0.012754004448652267, "cur_lr": 4.999999873689376e-05, "entropy": 9.690858840942383, "total_loss": 21.811321258544922, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1276492029428482, "vf_explained_var": 0.9835841655731201, "vf_loss": 21.926057815551758}, "grad_time_ms": 713.208}, "pid": 3934253, "time_total_s": 42295.01004576683, "episode_reward_mean": -152.46891549800432, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.81996427857436, "policy_reward_mean": {}, "episodes_total": 9672, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -136.54575402752465, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_02-21-31", "training_iteration": 403, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756513291, "episode_len_mean": 50.0, "timesteps_since_restore": 483600, "time_since_restore": 42295.01004576683, "time_this_iter_s": 111.96007299423218, "iterations_since_restore": 403}
+{"timesteps_total": 484800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 97164.078, "num_steps_sampled": 484800, "update_time_ms": 2.413, "num_steps_trained": 484800, "load_time_ms": 0.609, "default": {"kl": 0.014857407659292221, "cur_lr": 4.999999873689376e-05, "entropy": 9.539432525634766, "total_loss": 26.76873207092285, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13504831492900848, "vf_explained_var": 0.9832797646522522, "vf_loss": 26.888736724853516}, "grad_time_ms": 691.336}, "pid": 3934253, "time_total_s": 42407.1293554306, "episode_reward_mean": -152.53595371969553, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.81996427857436, "policy_reward_mean": {}, "episodes_total": 9696, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -136.54575402752465, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_02-23-23", "training_iteration": 404, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756513403, "episode_len_mean": 50.0, "timesteps_since_restore": 484800, "time_since_restore": 42407.1293554306, "time_this_iter_s": 112.11930966377258, "iterations_since_restore": 404}
+{"timesteps_total": 486000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 98961.935, "num_steps_sampled": 486000, "update_time_ms": 2.452, "num_steps_trained": 486000, "load_time_ms": 0.613, "default": {"kl": 0.012585025280714035, "cur_lr": 4.999999873689376e-05, "entropy": 9.700153350830078, "total_loss": 33.97825622558594, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11734248697757721, "vf_explained_var": 0.9767182469367981, "vf_loss": 34.08285903930664}, "grad_time_ms": 706.634}, "pid": 3934253, "time_total_s": 42506.60624504089, "episode_reward_mean": -152.02951228995173, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.54826698210027, "policy_reward_mean": {}, "episodes_total": 9720, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -136.54575402752465, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_02-25-03", "training_iteration": 405, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756513503, "episode_len_mean": 50.0, "timesteps_since_restore": 486000, "time_since_restore": 42506.60624504089, "time_this_iter_s": 99.47688961029053, "iterations_since_restore": 405}
+{"timesteps_total": 487200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 97683.436, "num_steps_sampled": 487200, "update_time_ms": 2.47, "num_steps_trained": 487200, "load_time_ms": 0.605, "default": {"kl": 0.012815814465284348, "cur_lr": 4.999999873689376e-05, "entropy": 9.51749324798584, "total_loss": 18.358110427856445, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13039404153823853, "vf_explained_var": 0.9866368770599365, "vf_loss": 18.475528717041016}, "grad_time_ms": 721.45}, "pid": 3934253, "time_total_s": 42608.96180129051, "episode_reward_mean": -152.5057609427979, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.98823848315914, "policy_reward_mean": {}, "episodes_total": 9744, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -145.99157178352348, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_02-26-45", "training_iteration": 406, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756513605, "episode_len_mean": 50.0, "timesteps_since_restore": 487200, "time_since_restore": 42608.96180129051, "time_this_iter_s": 102.35555624961853, "iterations_since_restore": 406}
+{"timesteps_total": 488400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 97026.104, "num_steps_sampled": 488400, "update_time_ms": 2.467, "num_steps_trained": 488400, "load_time_ms": 0.609, "default": {"kl": 0.013667297549545765, "cur_lr": 4.999999873689376e-05, "entropy": 9.660782814025879, "total_loss": 34.40043258666992, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.124124675989151, "vf_explained_var": 0.9725708365440369, "vf_loss": 34.510719299316406}, "grad_time_ms": 729.874}, "pid": 3934253, "time_total_s": 42716.45296001434, "episode_reward_mean": -152.4718104965969, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.98823848315914, "policy_reward_mean": {}, "episodes_total": 9768, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -143.33162856010452, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_02-28-33", "training_iteration": 407, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756513713, "episode_len_mean": 50.0, "timesteps_since_restore": 488400, "time_since_restore": 42716.45296001434, "time_this_iter_s": 107.49115872383118, "iterations_since_restore": 407}
+{"timesteps_total": 489600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 98824.481, "num_steps_sampled": 489600, "update_time_ms": 2.472, "num_steps_trained": 489600, "load_time_ms": 0.609, "default": {"kl": 0.013919343240559101, "cur_lr": 4.999999873689376e-05, "entropy": 9.630985260009766, "total_loss": 16.17458152770996, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11430396139621735, "vf_explained_var": 0.9877437949180603, "vf_loss": 16.274789810180664}, "grad_time_ms": 718.413}, "pid": 3934253, "time_total_s": 42810.41572546959, "episode_reward_mean": -152.49322413360747, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.22391862857077, "policy_reward_mean": {}, "episodes_total": 9792, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -143.33162856010452, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_02-30-07", "training_iteration": 408, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756513807, "episode_len_mean": 50.0, "timesteps_since_restore": 489600, "time_since_restore": 42810.41572546959, "time_this_iter_s": 93.96276545524597, "iterations_since_restore": 408}
+{"timesteps_total": 490800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 100598.573, "num_steps_sampled": 490800, "update_time_ms": 2.456, "num_steps_trained": 490800, "load_time_ms": 0.604, "default": {"kl": 0.013683994300663471, "cur_lr": 4.999999873689376e-05, "entropy": 9.548572540283203, "total_loss": 19.05156898498535, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1258140206336975, "vf_explained_var": 0.9866318106651306, "vf_loss": 19.163530349731445}, "grad_time_ms": 716.211}, "pid": 3934253, "time_total_s": 42915.273431539536, "episode_reward_mean": -152.54198270127512, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -171.02813922101154, "policy_reward_mean": {}, "episodes_total": 9816, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.7902382364414, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_02-31-52", "training_iteration": 409, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756513912, "episode_len_mean": 50.0, "timesteps_since_restore": 490800, "time_since_restore": 42915.273431539536, "time_this_iter_s": 104.85770606994629, "iterations_since_restore": 409}
+{"timesteps_total": 492000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 99761.434, "num_steps_sampled": 492000, "update_time_ms": 2.489, "num_steps_trained": 492000, "load_time_ms": 0.601, "default": {"kl": 0.013874795287847519, "cur_lr": 4.999999873689376e-05, "entropy": 9.748285293579102, "total_loss": 21.56228256225586, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12434862554073334, "vf_explained_var": 0.9823559522628784, "vf_loss": 21.672584533691406}, "grad_time_ms": 734.541}, "pid": 3934253, "time_total_s": 43000.80782318115, "episode_reward_mean": -152.27884884345352, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -171.02813922101154, "policy_reward_mean": {}, "episodes_total": 9840, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.7902382364414, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_02-33-17", "training_iteration": 410, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756513997, "episode_len_mean": 50.0, "timesteps_since_restore": 492000, "time_since_restore": 43000.80782318115, "time_this_iter_s": 85.53439164161682, "iterations_since_restore": 410}
+{"timesteps_total": 493200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 98640.007, "num_steps_sampled": 493200, "update_time_ms": 2.536, "num_steps_trained": 493200, "load_time_ms": 0.617, "default": {"kl": 0.013062255457043648, "cur_lr": 4.999999873689376e-05, "entropy": 9.480387687683105, "total_loss": 23.92295265197754, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14083310961723328, "vf_explained_var": 0.9820898771286011, "vf_loss": 24.050559997558594}, "grad_time_ms": 731.141}, "pid": 3934253, "time_total_s": 43093.75035619736, "episode_reward_mean": -152.388119586282, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -171.02813922101154, "policy_reward_mean": {}, "episodes_total": 9864, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.7902382364414, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_02-34-50", "training_iteration": 411, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756514090, "episode_len_mean": 50.0, "timesteps_since_restore": 493200, "time_since_restore": 43093.75035619736, "time_this_iter_s": 92.94253301620483, "iterations_since_restore": 411}
+{"timesteps_total": 494400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 100133.017, "num_steps_sampled": 494400, "update_time_ms": 2.551, "num_steps_trained": 494400, "load_time_ms": 0.62, "default": {"kl": 0.01390067394822836, "cur_lr": 4.999999873689376e-05, "entropy": 9.697103500366211, "total_loss": 25.10484504699707, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13179221749305725, "vf_explained_var": 0.9813117980957031, "vf_loss": 25.22256088256836}, "grad_time_ms": 732.214}, "pid": 3934253, "time_total_s": 43191.7867565155, "episode_reward_mean": -152.50038821208054, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -171.02813922101154, "policy_reward_mean": {}, "episodes_total": 9888, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.7902382364414, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_02-36-28", "training_iteration": 412, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756514188, "episode_len_mean": 50.0, "timesteps_since_restore": 494400, "time_since_restore": 43191.7867565155, "time_this_iter_s": 98.03640031814575, "iterations_since_restore": 412}
+{"timesteps_total": 495600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 101028.588, "num_steps_sampled": 495600, "update_time_ms": 2.505, "num_steps_trained": 495600, "load_time_ms": 0.622, "default": {"kl": 0.014487986452877522, "cur_lr": 4.999999873689376e-05, "entropy": 9.295341491699219, "total_loss": 20.39866065979004, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12015184760093689, "vf_explained_var": 0.9833239316940308, "vf_loss": 20.5041446685791}, "grad_time_ms": 747.509}, "pid": 3934253, "time_total_s": 43312.855503320694, "episode_reward_mean": -152.38164456540886, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.1559509614097, "policy_reward_mean": {}, "episodes_total": 9912, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -135.364826567015, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_02-38-29", "training_iteration": 413, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756514309, "episode_len_mean": 50.0, "timesteps_since_restore": 495600, "time_since_restore": 43312.855503320694, "time_this_iter_s": 121.06874680519104, "iterations_since_restore": 413}
+{"timesteps_total": 496800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 99359.069, "num_steps_sampled": 496800, "update_time_ms": 2.459, "num_steps_trained": 496800, "load_time_ms": 0.636, "default": {"kl": 0.014094003476202488, "cur_lr": 4.999999873689376e-05, "entropy": 9.570438385009766, "total_loss": 25.21484375, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13121233880519867, "vf_explained_var": 0.9804350733757019, "vf_loss": 25.331787109375}, "grad_time_ms": 760.267}, "pid": 3934253, "time_total_s": 43408.40692996979, "episode_reward_mean": -152.84416168800163, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.1559509614097, "policy_reward_mean": {}, "episodes_total": 9936, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -135.364826567015, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_02-40-05", "training_iteration": 414, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756514405, "episode_len_mean": 50.0, "timesteps_since_restore": 496800, "time_since_restore": 43408.40692996979, "time_this_iter_s": 95.55142664909363, "iterations_since_restore": 414}
+{"timesteps_total": 498000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 99718.859, "num_steps_sampled": 498000, "update_time_ms": 2.471, "num_steps_trained": 498000, "load_time_ms": 0.634, "default": {"kl": 0.013480665162205696, "cur_lr": 4.999999873689376e-05, "entropy": 9.567373275756836, "total_loss": 14.828624725341797, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12480054795742035, "vf_explained_var": 0.9876997470855713, "vf_loss": 14.939777374267578}, "grad_time_ms": 757.832}, "pid": 3934253, "time_total_s": 43511.4573700428, "episode_reward_mean": -152.41611989014177, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.1559509614097, "policy_reward_mean": {}, "episodes_total": 9960, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -135.364826567015, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_02-41-48", "training_iteration": 415, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756514508, "episode_len_mean": 50.0, "timesteps_since_restore": 498000, "time_since_restore": 43511.4573700428, "time_this_iter_s": 103.0504400730133, "iterations_since_restore": 415}
+{"timesteps_total": 499200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 99487.673, "num_steps_sampled": 499200, "update_time_ms": 2.494, "num_steps_trained": 499200, "load_time_ms": 0.671, "default": {"kl": 0.014436847530305386, "cur_lr": 4.999999873689376e-05, "entropy": 9.49398422241211, "total_loss": 21.52405548095703, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13773185014724731, "vf_explained_var": 0.9835493564605713, "vf_loss": 21.64716911315918}, "grad_time_ms": 762.62}, "pid": 3934253, "time_total_s": 43611.55019903183, "episode_reward_mean": -152.60514110878364, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.84073942014268, "policy_reward_mean": {}, "episodes_total": 9984, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -135.364826567015, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_02-43-28", "training_iteration": 416, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756514608, "episode_len_mean": 50.0, "timesteps_since_restore": 499200, "time_since_restore": 43611.55019903183, "time_this_iter_s": 100.09282898902893, "iterations_since_restore": 416}
+{"timesteps_total": 500400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 98961.509, "num_steps_sampled": 500400, "update_time_ms": 2.496, "num_steps_trained": 500400, "load_time_ms": 0.673, "default": {"kl": 0.013998076319694519, "cur_lr": 4.999999873689376e-05, "entropy": 9.702149391174316, "total_loss": 27.09682846069336, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14793071150779724, "vf_explained_var": 0.980864405632019, "vf_loss": 27.2305850982666}, "grad_time_ms": 763.849}, "pid": 3934253, "time_total_s": 43713.79194974899, "episode_reward_mean": -152.75236425338213, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.84073942014268, "policy_reward_mean": {}, "episodes_total": 10008, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -140.077182822348, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_02-45-10", "training_iteration": 417, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756514710, "episode_len_mean": 50.0, "timesteps_since_restore": 500400, "time_since_restore": 43713.79194974899, "time_this_iter_s": 102.24175071716309, "iterations_since_restore": 417}
+{"timesteps_total": 501600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 99558.243, "num_steps_sampled": 501600, "update_time_ms": 2.51, "num_steps_trained": 501600, "load_time_ms": 0.663, "default": {"kl": 0.014370894990861416, "cur_lr": 4.999999873689376e-05, "entropy": 9.21036434173584, "total_loss": 20.671241760253906, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1176142692565918, "vf_explained_var": 0.9830334782600403, "vf_loss": 20.77430534362793}, "grad_time_ms": 759.136}, "pid": 3934253, "time_total_s": 43813.67440891266, "episode_reward_mean": -152.36210487112976, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.61907491036374, "policy_reward_mean": {}, "episodes_total": 10032, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -140.077182822348, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_02-46-50", "training_iteration": 418, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756514810, "episode_len_mean": 50.0, "timesteps_since_restore": 501600, "time_since_restore": 43813.67440891266, "time_this_iter_s": 99.88245916366577, "iterations_since_restore": 418}
+{"timesteps_total": 502800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 99253.648, "num_steps_sampled": 502800, "update_time_ms": 2.526, "num_steps_trained": 502800, "load_time_ms": 0.66, "default": {"kl": 0.011671670712530613, "cur_lr": 4.999999873689376e-05, "entropy": 9.367462158203125, "total_loss": 23.715415954589844, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12150892615318298, "vf_explained_var": 0.9807304739952087, "vf_loss": 23.825103759765625}, "grad_time_ms": 753.453}, "pid": 3934253, "time_total_s": 43915.42871594429, "episode_reward_mean": -152.4740142506281, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.61907491036374, "policy_reward_mean": {}, "episodes_total": 10056, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -140.077182822348, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_02-48-32", "training_iteration": 419, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756514912, "episode_len_mean": 50.0, "timesteps_since_restore": 502800, "time_since_restore": 43915.42871594429, "time_this_iter_s": 101.75430703163147, "iterations_since_restore": 419}
+{"timesteps_total": 504000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 101192.681, "num_steps_sampled": 504000, "update_time_ms": 2.561, "num_steps_trained": 504000, "load_time_ms": 0.663, "default": {"kl": 0.013619640842080116, "cur_lr": 4.999999873689376e-05, "entropy": 9.553508758544922, "total_loss": 19.23631477355957, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11064037680625916, "vf_explained_var": 0.9852237701416016, "vf_loss": 19.333168029785156}, "grad_time_ms": 752.56}, "pid": 3934253, "time_total_s": 44020.34438610077, "episode_reward_mean": -152.088058321042, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.61907491036374, "policy_reward_mean": {}, "episodes_total": 10080, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -140.077182822348, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_02-50-17", "training_iteration": 420, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756515017, "episode_len_mean": 50.0, "timesteps_since_restore": 504000, "time_since_restore": 44020.34438610077, "time_this_iter_s": 104.91567015647888, "iterations_since_restore": 420}
+{"timesteps_total": 505200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 102467.95, "num_steps_sampled": 505200, "update_time_ms": 2.496, "num_steps_trained": 505200, "load_time_ms": 0.65, "default": {"kl": 0.01381174847483635, "cur_lr": 4.999999873689376e-05, "entropy": 9.478511810302734, "total_loss": 16.577302932739258, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1256970316171646, "vf_explained_var": 0.9875710606575012, "vf_loss": 16.689016342163086}, "grad_time_ms": 756.674}, "pid": 3934253, "time_total_s": 44126.080137491226, "episode_reward_mean": -152.20027245584026, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -163.9500105131882, "policy_reward_mean": {}, "episodes_total": 10104, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.6992763566649, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_02-52-03", "training_iteration": 421, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756515123, "episode_len_mean": 50.0, "timesteps_since_restore": 505200, "time_since_restore": 44126.080137491226, "time_this_iter_s": 105.73575139045715, "iterations_since_restore": 421}
+{"timesteps_total": 506400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 100725.323, "num_steps_sampled": 506400, "update_time_ms": 2.505, "num_steps_trained": 506400, "load_time_ms": 0.655, "default": {"kl": 0.014820229262113571, "cur_lr": 4.999999873689376e-05, "entropy": 9.623552322387695, "total_loss": 15.060821533203125, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12630988657474518, "vf_explained_var": 0.9873186945915222, "vf_loss": 15.172125816345215}, "grad_time_ms": 768.013}, "pid": 3934253, "time_total_s": 44206.80386471748, "episode_reward_mean": -152.1666959661188, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.13063243563758, "policy_reward_mean": {}, "episodes_total": 10128, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.6992763566649, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_02-53-23", "training_iteration": 422, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756515203, "episode_len_mean": 50.0, "timesteps_since_restore": 506400, "time_since_restore": 44206.80386471748, "time_this_iter_s": 80.72372722625732, "iterations_since_restore": 422}
+{"timesteps_total": 507600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 99141.36, "num_steps_sampled": 507600, "update_time_ms": 2.558, "num_steps_trained": 507600, "load_time_ms": 0.662, "default": {"kl": 0.014279918745160103, "cur_lr": 4.999999873689376e-05, "entropy": 9.518680572509766, "total_loss": 20.14760398864746, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12270474433898926, "vf_explained_var": 0.9837811589241028, "vf_loss": 20.255849838256836}, "grad_time_ms": 760.582}, "pid": 3934253, "time_total_s": 44311.95928025246, "episode_reward_mean": -152.37089182857787, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.13063243563758, "policy_reward_mean": {}, "episodes_total": 10152, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.6992763566649, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_02-55-09", "training_iteration": 423, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756515309, "episode_len_mean": 50.0, "timesteps_since_restore": 507600, "time_since_restore": 44311.95928025246, "time_this_iter_s": 105.15541553497314, "iterations_since_restore": 423}
+{"timesteps_total": 508800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 100358.021, "num_steps_sampled": 508800, "update_time_ms": 2.585, "num_steps_trained": 508800, "load_time_ms": 0.663, "default": {"kl": 0.012729505077004433, "cur_lr": 4.999999873689376e-05, "entropy": 9.574199676513672, "total_loss": 24.127349853515625, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12281505018472672, "vf_explained_var": 0.9814075827598572, "vf_loss": 24.237276077270508}, "grad_time_ms": 745.356}, "pid": 3934253, "time_total_s": 44419.52580022812, "episode_reward_mean": -152.83940788648562, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -169.17921882612953, "policy_reward_mean": {}, "episodes_total": 10176, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -143.74108753127996, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_02-56-56", "training_iteration": 424, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756515416, "episode_len_mean": 50.0, "timesteps_since_restore": 508800, "time_since_restore": 44419.52580022812, "time_this_iter_s": 107.56651997566223, "iterations_since_restore": 424}
+{"timesteps_total": 510000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 96418.653, "num_steps_sampled": 510000, "update_time_ms": 2.585, "num_steps_trained": 510000, "load_time_ms": 0.661, "default": {"kl": 0.014946307986974716, "cur_lr": 4.999999873689376e-05, "entropy": 9.48218822479248, "total_loss": 16.20340919494629, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14104242622852325, "vf_explained_var": 0.9878532886505127, "vf_loss": 16.32931900024414}, "grad_time_ms": 749.272}, "pid": 3934253, "time_total_s": 44483.22181510925, "episode_reward_mean": -152.96896037243326, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -169.17921882612953, "policy_reward_mean": {}, "episodes_total": 10200, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -143.74108753127996, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_02-58-00", "training_iteration": 425, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756515480, "episode_len_mean": 50.0, "timesteps_since_restore": 510000, "time_since_restore": 44483.22181510925, "time_this_iter_s": 63.69601488113403, "iterations_since_restore": 425}
+{"timesteps_total": 511200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94771.723, "num_steps_sampled": 511200, "update_time_ms": 2.541, "num_steps_trained": 511200, "load_time_ms": 0.625, "default": {"kl": 0.013613752089440823, "cur_lr": 4.999999873689376e-05, "entropy": 9.491787910461426, "total_loss": 31.104705810546875, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13406051695346832, "vf_explained_var": 0.9770567417144775, "vf_loss": 31.22498321533203}, "grad_time_ms": 752.077}, "pid": 3934253, "time_total_s": 44566.871950387955, "episode_reward_mean": -153.15485623507504, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -176.3212741594545, "policy_reward_mean": {}, "episodes_total": 10224, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.76878927498908, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_02-59-24", "training_iteration": 426, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756515564, "episode_len_mean": 50.0, "timesteps_since_restore": 511200, "time_since_restore": 44566.871950387955, "time_this_iter_s": 83.65013527870178, "iterations_since_restore": 426}
+{"timesteps_total": 512400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92743.774, "num_steps_sampled": 512400, "update_time_ms": 2.568, "num_steps_trained": 512400, "load_time_ms": 0.622, "default": {"kl": 0.01447269693017006, "cur_lr": 4.999999873689376e-05, "entropy": 9.206316947937012, "total_loss": 16.799468994140625, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12001865357160568, "vf_explained_var": 0.9866235256195068, "vf_loss": 16.904834747314453}, "grad_time_ms": 740.284}, "pid": 3934253, "time_total_s": 44648.71591639519, "episode_reward_mean": -153.16727095351285, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -176.3212741594545, "policy_reward_mean": {}, "episodes_total": 10248, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.76878927498908, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-00-45", "training_iteration": 427, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756515645, "episode_len_mean": 50.0, "timesteps_since_restore": 512400, "time_since_restore": 44648.71591639519, "time_this_iter_s": 81.84396600723267, "iterations_since_restore": 427}
+{"timesteps_total": 513600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93115.004, "num_steps_sampled": 513600, "update_time_ms": 2.549, "num_steps_trained": 513600, "load_time_ms": 0.659, "default": {"kl": 0.015185288153588772, "cur_lr": 4.999999873689376e-05, "entropy": 9.132720947265625, "total_loss": 31.58395004272461, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1356636881828308, "vf_explained_var": 0.9850590825080872, "vf_loss": 31.70423698425293}, "grad_time_ms": 745.147}, "pid": 3934253, "time_total_s": 44752.36105489731, "episode_reward_mean": -152.47133940099715, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -176.3212741594545, "policy_reward_mean": {}, "episodes_total": 10272, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -136.65559761541954, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-02-29", "training_iteration": 428, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756515749, "episode_len_mean": 50.0, "timesteps_since_restore": 513600, "time_since_restore": 44752.36105489731, "time_this_iter_s": 103.64513850212097, "iterations_since_restore": 428}
+{"timesteps_total": 514800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93212.02, "num_steps_sampled": 514800, "update_time_ms": 2.565, "num_steps_trained": 514800, "load_time_ms": 0.659, "default": {"kl": 0.012950624339282513, "cur_lr": 4.999999873689376e-05, "entropy": 9.307674407958984, "total_loss": 20.67955780029297, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1103539988398552, "vf_explained_var": 0.983638346195221, "vf_loss": 20.77680015563965}, "grad_time_ms": 755.405}, "pid": 3934253, "time_total_s": 44855.18939137459, "episode_reward_mean": -152.44805865292292, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -176.3212741594545, "policy_reward_mean": {}, "episodes_total": 10296, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -136.65559761541954, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-04-12", "training_iteration": 429, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756515852, "episode_len_mean": 50.0, "timesteps_since_restore": 514800, "time_since_restore": 44855.18939137459, "time_this_iter_s": 102.82833647727966, "iterations_since_restore": 429}
+{"timesteps_total": 516000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 91066.479, "num_steps_sampled": 516000, "update_time_ms": 2.577, "num_steps_trained": 516000, "load_time_ms": 0.662, "default": {"kl": 0.014143170788884163, "cur_lr": 4.999999873689376e-05, "entropy": 9.144468307495117, "total_loss": 20.466529846191406, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12884706258773804, "vf_explained_var": 0.9840419292449951, "vf_loss": 20.5810546875}, "grad_time_ms": 760.555}, "pid": 3934253, "time_total_s": 44938.701545238495, "episode_reward_mean": -152.37429926190597, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.15191290750363, "policy_reward_mean": {}, "episodes_total": 10320, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -136.65559761541954, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-05-35", "training_iteration": 430, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756515935, "episode_len_mean": 50.0, "timesteps_since_restore": 516000, "time_since_restore": 44938.701545238495, "time_this_iter_s": 83.51215386390686, "iterations_since_restore": 430}
+{"timesteps_total": 517200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 87798.525, "num_steps_sampled": 517200, "update_time_ms": 2.592, "num_steps_trained": 517200, "load_time_ms": 0.659, "default": {"kl": 0.012897643260657787, "cur_lr": 4.999999873689376e-05, "entropy": 9.147050857543945, "total_loss": 23.396202087402344, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12415405362844467, "vf_explained_var": 0.9816821217536926, "vf_loss": 23.50729751586914}, "grad_time_ms": 753.518}, "pid": 3934253, "time_total_s": 45011.686506032944, "episode_reward_mean": -152.49162581204905, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.15191290750363, "policy_reward_mean": {}, "episodes_total": 10344, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -136.65559761541954, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-06-49", "training_iteration": 431, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756516009, "episode_len_mean": 50.0, "timesteps_since_restore": 517200, "time_since_restore": 45011.686506032944, "time_this_iter_s": 72.98496079444885, "iterations_since_restore": 431}
+{"timesteps_total": 518400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 87706.415, "num_steps_sampled": 518400, "update_time_ms": 2.562, "num_steps_trained": 518400, "load_time_ms": 0.67, "default": {"kl": 0.01292494498193264, "cur_lr": 4.999999873689376e-05, "entropy": 9.16193675994873, "total_loss": 22.140846252441406, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12487272173166275, "vf_explained_var": 0.982728123664856, "vf_loss": 22.252634048461914}, "grad_time_ms": 750.037}, "pid": 3934253, "time_total_s": 45091.453741550446, "episode_reward_mean": -152.63505965031305, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.15191290750363, "policy_reward_mean": {}, "episodes_total": 10368, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -136.65559761541954, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-08-08", "training_iteration": 432, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756516088, "episode_len_mean": 50.0, "timesteps_since_restore": 518400, "time_since_restore": 45091.453741550446, "time_this_iter_s": 79.76723551750183, "iterations_since_restore": 432}
+{"timesteps_total": 519600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 86294.257, "num_steps_sampled": 519600, "update_time_ms": 2.543, "num_steps_trained": 519600, "load_time_ms": 0.697, "default": {"kl": 0.014303537085652351, "cur_lr": 4.999999873689376e-05, "entropy": 9.481611251831055, "total_loss": 28.225297927856445, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13561999797821045, "vf_explained_var": 0.9792253971099854, "vf_loss": 28.346435546875}, "grad_time_ms": 753.54}, "pid": 3934253, "time_total_s": 45182.52351999283, "episode_reward_mean": -152.83210305416438, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.15191290750363, "policy_reward_mean": {}, "episodes_total": 10392, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.56123354539693, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-09-39", "training_iteration": 433, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756516179, "episode_len_mean": 50.0, "timesteps_since_restore": 519600, "time_since_restore": 45182.52351999283, "time_this_iter_s": 91.06977844238281, "iterations_since_restore": 433}
+{"timesteps_total": 520800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 87916.656, "num_steps_sampled": 520800, "update_time_ms": 2.533, "num_steps_trained": 520800, "load_time_ms": 0.692, "default": {"kl": 0.013387994840741158, "cur_lr": 4.999999873689376e-05, "entropy": 9.373644828796387, "total_loss": 35.60469055175781, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1338808387517929, "vf_explained_var": 0.9731928706169128, "vf_loss": 35.72500991821289}, "grad_time_ms": 779.642}, "pid": 3934253, "time_total_s": 45306.57466197014, "episode_reward_mean": -152.94840318610505, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.67520643826325, "policy_reward_mean": {}, "episodes_total": 10416, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.56123354539693, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-11-43", "training_iteration": 434, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756516303, "episode_len_mean": 50.0, "timesteps_since_restore": 520800, "time_since_restore": 45306.57466197014, "time_this_iter_s": 124.05114197731018, "iterations_since_restore": 434}
+{"timesteps_total": 522000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 90730.781, "num_steps_sampled": 522000, "update_time_ms": 2.591, "num_steps_trained": 522000, "load_time_ms": 0.694, "default": {"kl": 0.013694589026272297, "cur_lr": 4.999999873689376e-05, "entropy": 9.236662864685059, "total_loss": 25.01688003540039, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12344694137573242, "vf_explained_var": 0.9816955924034119, "vf_loss": 25.126461029052734}, "grad_time_ms": 775.417}, "pid": 3934253, "time_total_s": 45398.37049865723, "episode_reward_mean": -153.29016551966026, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.39962864199666, "policy_reward_mean": {}, "episodes_total": 10440, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.56123354539693, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-13-15", "training_iteration": 435, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756516395, "episode_len_mean": 50.0, "timesteps_since_restore": 522000, "time_since_restore": 45398.37049865723, "time_this_iter_s": 91.79583668708801, "iterations_since_restore": 435}
+{"timesteps_total": 523200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92707.667, "num_steps_sampled": 523200, "update_time_ms": 2.606, "num_steps_trained": 523200, "load_time_ms": 0.696, "default": {"kl": 0.015608757734298706, "cur_lr": 4.999999873689376e-05, "entropy": 9.019153594970703, "total_loss": 14.81684684753418, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13161876797676086, "vf_explained_var": 0.9873616099357605, "vf_loss": 14.932661056518555}, "grad_time_ms": 775.044}, "pid": 3934253, "time_total_s": 45501.78622722626, "episode_reward_mean": -153.08923072182094, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.39962864199666, "policy_reward_mean": {}, "episodes_total": 10464, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.56123354539693, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-14-59", "training_iteration": 436, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756516499, "episode_len_mean": 50.0, "timesteps_since_restore": 523200, "time_since_restore": 45501.78622722626, "time_this_iter_s": 103.41572856903076, "iterations_since_restore": 436}
+{"timesteps_total": 524400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93646.448, "num_steps_sampled": 524400, "update_time_ms": 2.68, "num_steps_trained": 524400, "load_time_ms": 0.696, "default": {"kl": 0.01425144076347351, "cur_lr": 4.999999873689376e-05, "entropy": 9.15731430053711, "total_loss": 30.321533203125, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1165459007024765, "vf_explained_var": 0.976507306098938, "vf_loss": 30.423648834228516}, "grad_time_ms": 775.914}, "pid": 3934253, "time_total_s": 45593.028044462204, "episode_reward_mean": -153.07520775521334, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.39962864199666, "policy_reward_mean": {}, "episodes_total": 10488, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -147.22449379964385, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-16-30", "training_iteration": 437, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756516590, "episode_len_mean": 50.0, "timesteps_since_restore": 524400, "time_since_restore": 45593.028044462204, "time_this_iter_s": 91.24181723594666, "iterations_since_restore": 437}
+{"timesteps_total": 525600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 91598.038, "num_steps_sampled": 525600, "update_time_ms": 2.7, "num_steps_trained": 525600, "load_time_ms": 0.683, "default": {"kl": 0.014275365509092808, "cur_lr": 4.999999873689376e-05, "entropy": 9.111166000366211, "total_loss": 21.981903076171875, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13030636310577393, "vf_explained_var": 0.9825233817100525, "vf_loss": 22.097755432128906}, "grad_time_ms": 775.419}, "pid": 3934253, "time_total_s": 45676.183108091354, "episode_reward_mean": -152.90180067816212, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.3678219403425, "policy_reward_mean": {}, "episodes_total": 10512, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.91137618987028, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-17-53", "training_iteration": 438, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756516673, "episode_len_mean": 50.0, "timesteps_since_restore": 525600, "time_since_restore": 45676.183108091354, "time_this_iter_s": 83.15506362915039, "iterations_since_restore": 438}
+{"timesteps_total": 526800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92189.35, "num_steps_sampled": 526800, "update_time_ms": 2.637, "num_steps_trained": 526800, "load_time_ms": 0.682, "default": {"kl": 0.014680023305118084, "cur_lr": 4.999999873689376e-05, "entropy": 9.524951934814453, "total_loss": 16.266441345214844, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12172594666481018, "vf_explained_var": 0.9866619110107422, "vf_loss": 16.37330436706543}, "grad_time_ms": 764.032}, "pid": 3934253, "time_total_s": 45784.80823278427, "episode_reward_mean": -152.5567861979773, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.3678219403425, "policy_reward_mean": {}, "episodes_total": 10536, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -140.51117984519468, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-19-42", "training_iteration": 439, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756516782, "episode_len_mean": 50.0, "timesteps_since_restore": 526800, "time_since_restore": 45784.80823278427, "time_this_iter_s": 108.62512469291687, "iterations_since_restore": 439}
+{"timesteps_total": 528000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 91884.362, "num_steps_sampled": 528000, "update_time_ms": 2.573, "num_steps_trained": 528000, "load_time_ms": 0.68, "default": {"kl": 0.012988438829779625, "cur_lr": 4.999999873689376e-05, "entropy": 8.752195358276367, "total_loss": 14.445332527160645, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12197425961494446, "vf_explained_var": 0.9885706305503845, "vf_loss": 14.554155349731445}, "grad_time_ms": 769.323}, "pid": 3934253, "time_total_s": 45865.32222414017, "episode_reward_mean": -152.43594000190504, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.3678219403425, "policy_reward_mean": {}, "episodes_total": 10560, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -140.51117984519468, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-21-02", "training_iteration": 440, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756516862, "episode_len_mean": 50.0, "timesteps_since_restore": 528000, "time_since_restore": 45865.32222414017, "time_this_iter_s": 80.513991355896, "iterations_since_restore": 440}
+{"timesteps_total": 529200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92350.812, "num_steps_sampled": 529200, "update_time_ms": 2.622, "num_steps_trained": 529200, "load_time_ms": 0.68, "default": {"kl": 0.014562004245817661, "cur_lr": 4.999999873689376e-05, "entropy": 9.24899673461914, "total_loss": 13.435138702392578, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12867429852485657, "vf_explained_var": 0.9890771508216858, "vf_loss": 13.549068450927734}, "grad_time_ms": 775.906}, "pid": 3934253, "time_total_s": 45943.03843998909, "episode_reward_mean": -152.21569410457278, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.3678219403425, "policy_reward_mean": {}, "episodes_total": 10584, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -140.51117984519468, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-22-20", "training_iteration": 441, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756516940, "episode_len_mean": 50.0, "timesteps_since_restore": 529200, "time_since_restore": 45943.03843998909, "time_this_iter_s": 77.71621584892273, "iterations_since_restore": 441}
+{"timesteps_total": 530400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92189.01, "num_steps_sampled": 530400, "update_time_ms": 2.579, "num_steps_trained": 530400, "load_time_ms": 0.662, "default": {"kl": 0.0120732756331563, "cur_lr": 4.999999873689376e-05, "entropy": 8.865851402282715, "total_loss": 20.69765853881836, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11634629219770432, "vf_explained_var": 0.9846157431602478, "vf_loss": 20.801780700683594}, "grad_time_ms": 769.497}, "pid": 3934253, "time_total_s": 46021.12298822403, "episode_reward_mean": -152.15796697777017, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -163.17462601974535, "policy_reward_mean": {}, "episodes_total": 10608, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -140.51117984519468, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-23-38", "training_iteration": 442, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756517018, "episode_len_mean": 50.0, "timesteps_since_restore": 530400, "time_since_restore": 46021.12298822403, "time_this_iter_s": 78.08454823493958, "iterations_since_restore": 442}
+{"timesteps_total": 531600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92083.776, "num_steps_sampled": 531600, "update_time_ms": 2.534, "num_steps_trained": 531600, "load_time_ms": 0.624, "default": {"kl": 0.012755469419062138, "cur_lr": 4.999999873689376e-05, "entropy": 8.95416259765625, "total_loss": 24.801151275634766, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1164705753326416, "vf_explained_var": 0.979554295539856, "vf_loss": 24.904706954956055}, "grad_time_ms": 776.602}, "pid": 3934253, "time_total_s": 46111.20990753174, "episode_reward_mean": -152.36619517929225, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.71090088526697, "policy_reward_mean": {}, "episodes_total": 10632, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -149.24255595970118, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-25-08", "training_iteration": 443, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756517108, "episode_len_mean": 50.0, "timesteps_since_restore": 531600, "time_since_restore": 46111.20990753174, "time_this_iter_s": 90.08691930770874, "iterations_since_restore": 443}
+{"timesteps_total": 532800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 88291.327, "num_steps_sampled": 532800, "update_time_ms": 2.566, "num_steps_trained": 532800, "load_time_ms": 0.622, "default": {"kl": 0.01175283920019865, "cur_lr": 4.999999873689376e-05, "entropy": 8.902250289916992, "total_loss": 21.50499725341797, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12178131937980652, "vf_explained_var": 0.9841468334197998, "vf_loss": 21.614879608154297}, "grad_time_ms": 754.912}, "pid": 3934253, "time_total_s": 46197.119389534, "episode_reward_mean": -152.58799610219123, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.71090088526697, "policy_reward_mean": {}, "episodes_total": 10656, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -148.19138459858985, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-26-34", "training_iteration": 444, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756517194, "episode_len_mean": 50.0, "timesteps_since_restore": 532800, "time_since_restore": 46197.119389534, "time_this_iter_s": 85.9094820022583, "iterations_since_restore": 444}
+{"timesteps_total": 534000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 88752.555, "num_steps_sampled": 534000, "update_time_ms": 2.491, "num_steps_trained": 534000, "load_time_ms": 0.629, "default": {"kl": 0.014107207767665386, "cur_lr": 4.999999873689376e-05, "entropy": 8.85167407989502, "total_loss": 16.065641403198242, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1293773055076599, "vf_explained_var": 0.9869747161865234, "vf_loss": 16.180734634399414}, "grad_time_ms": 756.331}, "pid": 3934253, "time_total_s": 46293.54178571701, "episode_reward_mean": -152.4441623789422, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.71090088526697, "policy_reward_mean": {}, "episodes_total": 10680, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -148.19138459858985, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-28-11", "training_iteration": 445, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756517291, "episode_len_mean": 50.0, "timesteps_since_restore": 534000, "time_since_restore": 46293.54178571701, "time_this_iter_s": 96.42239618301392, "iterations_since_restore": 445}
+{"timesteps_total": 535200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 87968.815, "num_steps_sampled": 535200, "update_time_ms": 2.489, "num_steps_trained": 535200, "load_time_ms": 0.635, "default": {"kl": 0.014973337762057781, "cur_lr": 4.999999873689376e-05, "entropy": 9.602691650390625, "total_loss": 27.49502182006836, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14575064182281494, "vf_explained_var": 0.97819584608078, "vf_loss": 27.6256103515625}, "grad_time_ms": 764.849}, "pid": 3934253, "time_total_s": 46389.205899477005, "episode_reward_mean": -152.85829004269831, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.8271505938669, "policy_reward_mean": {}, "episodes_total": 10704, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.14836065978687, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-29-46", "training_iteration": 446, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756517386, "episode_len_mean": 50.0, "timesteps_since_restore": 535200, "time_since_restore": 46389.205899477005, "time_this_iter_s": 95.6641137599945, "iterations_since_restore": 446}
+{"timesteps_total": 536400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 87626.363, "num_steps_sampled": 536400, "update_time_ms": 2.417, "num_steps_trained": 536400, "load_time_ms": 0.643, "default": {"kl": 0.013655421324074268, "cur_lr": 4.999999873689376e-05, "entropy": 9.15749740600586, "total_loss": 25.52581787109375, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12191127240657806, "vf_explained_var": 0.9806229472160339, "vf_loss": 25.63390350341797}, "grad_time_ms": 763.984}, "pid": 3934253, "time_total_s": 46477.0133357048, "episode_reward_mean": -152.46147072903958, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.8271505938669, "policy_reward_mean": {}, "episodes_total": 10728, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.14836065978687, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-31-14", "training_iteration": 447, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756517474, "episode_len_mean": 50.0, "timesteps_since_restore": 536400, "time_since_restore": 46477.0133357048, "time_this_iter_s": 87.80743622779846, "iterations_since_restore": 447}
+{"timesteps_total": 537600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 89246.139, "num_steps_sampled": 537600, "update_time_ms": 2.385, "num_steps_trained": 537600, "load_time_ms": 0.627, "default": {"kl": 0.01547261606901884, "cur_lr": 4.999999873689376e-05, "entropy": 8.981388092041016, "total_loss": 20.75351333618164, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12472319602966309, "vf_explained_var": 0.9833012819290161, "vf_loss": 20.86256980895996}, "grad_time_ms": 766.874}, "pid": 3934253, "time_total_s": 46576.39440321922, "episode_reward_mean": -152.82945239896245, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -169.23393279477395, "policy_reward_mean": {}, "episodes_total": 10752, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -135.55991159320467, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-32-54", "training_iteration": 448, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756517574, "episode_len_mean": 50.0, "timesteps_since_restore": 537600, "time_since_restore": 46576.39440321922, "time_this_iter_s": 99.38106751441956, "iterations_since_restore": 448}
+{"timesteps_total": 538800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 86122.555, "num_steps_sampled": 538800, "update_time_ms": 2.412, "num_steps_trained": 538800, "load_time_ms": 0.634, "default": {"kl": 0.013270992785692215, "cur_lr": 4.999999873689376e-05, "entropy": 8.998639106750488, "total_loss": 17.40472412109375, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12813928723335266, "vf_explained_var": 0.9874011278152466, "vf_loss": 17.519426345825195}, "grad_time_ms": 779.815}, "pid": 3934253, "time_total_s": 46653.91430091858, "episode_reward_mean": -152.52047795142636, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -169.23393279477395, "policy_reward_mean": {}, "episodes_total": 10776, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -135.55991159320467, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-34-11", "training_iteration": 449, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756517651, "episode_len_mean": 50.0, "timesteps_since_restore": 538800, "time_since_restore": 46653.91430091858, "time_this_iter_s": 77.51989769935608, "iterations_since_restore": 449}
+{"timesteps_total": 540000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 84794.443, "num_steps_sampled": 540000, "update_time_ms": 2.416, "num_steps_trained": 540000, "load_time_ms": 0.635, "default": {"kl": 0.013216478750109673, "cur_lr": 4.999999873689376e-05, "entropy": 9.117257118225098, "total_loss": 21.370153427124023, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13916881382465363, "vf_explained_var": 0.9849511384963989, "vf_loss": 21.49593734741211}, "grad_time_ms": 779.671}, "pid": 3934253, "time_total_s": 46721.145233392715, "episode_reward_mean": -152.30260405709933, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -169.23393279477395, "policy_reward_mean": {}, "episodes_total": 10800, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -135.55991159320467, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-35-18", "training_iteration": 450, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756517718, "episode_len_mean": 50.0, "timesteps_since_restore": 540000, "time_since_restore": 46721.145233392715, "time_this_iter_s": 67.23093247413635, "iterations_since_restore": 450}
+{"timesteps_total": 541200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 86414.3, "num_steps_sampled": 541200, "update_time_ms": 2.406, "num_steps_trained": 541200, "load_time_ms": 0.637, "default": {"kl": 0.011747285723686218, "cur_lr": 4.999999873689376e-05, "entropy": 8.846776962280273, "total_loss": 35.44596862792969, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12402357161045074, "vf_explained_var": 0.97218257188797, "vf_loss": 35.558101654052734}, "grad_time_ms": 771.091}, "pid": 3934253, "time_total_s": 46814.974937200546, "episode_reward_mean": -152.2823230757062, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -169.23393279477395, "policy_reward_mean": {}, "episodes_total": 10824, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -135.55991159320467, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-36-52", "training_iteration": 451, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756517812, "episode_len_mean": 50.0, "timesteps_since_restore": 541200, "time_since_restore": 46814.974937200546, "time_this_iter_s": 93.82970380783081, "iterations_since_restore": 451}
+{"timesteps_total": 542400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 88969.508, "num_steps_sampled": 542400, "update_time_ms": 2.502, "num_steps_trained": 542400, "load_time_ms": 0.641, "default": {"kl": 0.014603732153773308, "cur_lr": 4.999999873689376e-05, "entropy": 9.174540519714355, "total_loss": 17.92264747619629, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1435505747795105, "vf_explained_var": 0.9859344959259033, "vf_loss": 18.051414489746094}, "grad_time_ms": 775.126}, "pid": 3934253, "time_total_s": 46918.65322470665, "episode_reward_mean": -152.32697364347348, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -169.23393279477395, "policy_reward_mean": {}, "episodes_total": 10848, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -140.8153902235786, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-38-36", "training_iteration": 452, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756517916, "episode_len_mean": 50.0, "timesteps_since_restore": 542400, "time_since_restore": 46918.65322470665, "time_this_iter_s": 103.67828750610352, "iterations_since_restore": 452}
+{"timesteps_total": 543600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 89585.511, "num_steps_sampled": 543600, "update_time_ms": 2.542, "num_steps_trained": 543600, "load_time_ms": 0.653, "default": {"kl": 0.014241022989153862, "cur_lr": 4.999999873689376e-05, "entropy": 8.966078758239746, "total_loss": 21.33045196533203, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12030242383480072, "vf_explained_var": 0.9839779734611511, "vf_loss": 21.43633460998535}, "grad_time_ms": 772.482}, "pid": 3934253, "time_total_s": 47014.87502336502, "episode_reward_mean": -152.05236692518466, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.94974357746918, "policy_reward_mean": {}, "episodes_total": 10872, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -140.8153902235786, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-40-12", "training_iteration": 453, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756518012, "episode_len_mean": 50.0, "timesteps_since_restore": 543600, "time_since_restore": 47014.87502336502, "time_this_iter_s": 96.22179865837097, "iterations_since_restore": 453}
+{"timesteps_total": 544800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 89867.981, "num_steps_sampled": 544800, "update_time_ms": 2.514, "num_steps_trained": 544800, "load_time_ms": 0.654, "default": {"kl": 0.013131268322467804, "cur_lr": 4.999999873689376e-05, "entropy": 8.861820220947266, "total_loss": 20.30666160583496, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1259278655052185, "vf_explained_var": 0.9839560389518738, "vf_loss": 20.419294357299805}, "grad_time_ms": 781.308}, "pid": 3934253, "time_total_s": 47103.69718146324, "episode_reward_mean": -152.21997083426987, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.6812075607711, "policy_reward_mean": {}, "episodes_total": 10896, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -143.9082405590833, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-41-41", "training_iteration": 454, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756518101, "episode_len_mean": 50.0, "timesteps_since_restore": 544800, "time_since_restore": 47103.69718146324, "time_this_iter_s": 88.82215809822083, "iterations_since_restore": 454}
+{"timesteps_total": 546000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 89019.008, "num_steps_sampled": 546000, "update_time_ms": 2.574, "num_steps_trained": 546000, "load_time_ms": 0.646, "default": {"kl": 0.013202676549553871, "cur_lr": 4.999999873689376e-05, "entropy": 8.931380271911621, "total_loss": 20.238691329956055, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12394557893276215, "vf_explained_var": 0.9842751026153564, "vf_loss": 20.349267959594727}, "grad_time_ms": 776.822}, "pid": 3934253, "time_total_s": 47191.58376741409, "episode_reward_mean": -152.22845068858172, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.6812075607711, "policy_reward_mean": {}, "episodes_total": 10920, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -143.9082405590833, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-43-09", "training_iteration": 455, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756518189, "episode_len_mean": 50.0, "timesteps_since_restore": 546000, "time_since_restore": 47191.58376741409, "time_this_iter_s": 87.88658595085144, "iterations_since_restore": 455}
+{"timesteps_total": 547200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 87597.737, "num_steps_sampled": 547200, "update_time_ms": 2.56, "num_steps_trained": 547200, "load_time_ms": 0.645, "default": {"kl": 0.013700922951102257, "cur_lr": 4.999999873689376e-05, "entropy": 8.581720352172852, "total_loss": 15.576580047607422, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11471442133188248, "vf_explained_var": 0.9878559112548828, "vf_loss": 15.677420616149902}, "grad_time_ms": 778.745}, "pid": 3934253, "time_total_s": 47273.0536134243, "episode_reward_mean": -151.89341081545788, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.6812075607711, "policy_reward_mean": {}, "episodes_total": 10944, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -143.9082405590833, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-44-30", "training_iteration": 456, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756518270, "episode_len_mean": 50.0, "timesteps_since_restore": 547200, "time_since_restore": 47273.0536134243, "time_this_iter_s": 81.46984601020813, "iterations_since_restore": 456}
+{"timesteps_total": 548400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 87216.144, "num_steps_sampled": 548400, "update_time_ms": 2.516, "num_steps_trained": 548400, "load_time_ms": 0.642, "default": {"kl": 0.01370406523346901, "cur_lr": 4.999999873689376e-05, "entropy": 8.93803596496582, "total_loss": 12.964447975158691, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13340796530246735, "vf_explained_var": 0.9900917410850525, "vf_loss": 13.083980560302734}, "grad_time_ms": 780.955}, "pid": 3934253, "time_total_s": 47357.06767082214, "episode_reward_mean": -152.15835333609377, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.6812075607711, "policy_reward_mean": {}, "episodes_total": 10968, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -144.85171769932617, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-45-54", "training_iteration": 457, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756518354, "episode_len_mean": 50.0, "timesteps_since_restore": 548400, "time_since_restore": 47357.06767082214, "time_this_iter_s": 84.01405739784241, "iterations_since_restore": 457}
+{"timesteps_total": 549600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 85739.61, "num_steps_sampled": 549600, "update_time_ms": 2.575, "num_steps_trained": 549600, "load_time_ms": 0.634, "default": {"kl": 0.014458566904067993, "cur_lr": 4.999999873689376e-05, "entropy": 9.13646411895752, "total_loss": 24.75263214111328, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1529289335012436, "vf_explained_var": 0.9856938123703003, "vf_loss": 24.89092254638672}, "grad_time_ms": 787.371}, "pid": 3934253, "time_total_s": 47441.748109817505, "episode_reward_mean": -152.45268015512374, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -163.47316165078425, "policy_reward_mean": {}, "episodes_total": 10992, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.83832716227093, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-47-19", "training_iteration": 458, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756518439, "episode_len_mean": 50.0, "timesteps_since_restore": 549600, "time_since_restore": 47441.748109817505, "time_this_iter_s": 84.68043899536133, "iterations_since_restore": 458}
+{"timesteps_total": 550800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 86245.352, "num_steps_sampled": 550800, "update_time_ms": 2.582, "num_steps_trained": 550800, "load_time_ms": 0.629, "default": {"kl": 0.013391264714300632, "cur_lr": 4.999999873689376e-05, "entropy": 8.823755264282227, "total_loss": 14.624773025512695, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13322040438652039, "vf_explained_var": 0.9883681535720825, "vf_loss": 14.744434356689453}, "grad_time_ms": 775.532}, "pid": 3934253, "time_total_s": 47524.207596063614, "episode_reward_mean": -152.56532788778122, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.05595446037233, "policy_reward_mean": {}, "episodes_total": 11016, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.83832716227093, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-48-41", "training_iteration": 459, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756518521, "episode_len_mean": 50.0, "timesteps_since_restore": 550800, "time_since_restore": 47524.207596063614, "time_this_iter_s": 82.45948624610901, "iterations_since_restore": 459}
+{"timesteps_total": 552000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 87682.644, "num_steps_sampled": 552000, "update_time_ms": 2.574, "num_steps_trained": 552000, "load_time_ms": 0.628, "default": {"kl": 0.013323888182640076, "cur_lr": 4.999999873689376e-05, "entropy": 8.730342864990234, "total_loss": 11.686019897460938, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12599381804466248, "vf_explained_var": 0.9910435080528259, "vf_loss": 11.798521995544434}, "grad_time_ms": 762.306}, "pid": 3934253, "time_total_s": 47605.679342508316, "episode_reward_mean": -152.69599782071492, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.15027913277754, "policy_reward_mean": {}, "episodes_total": 11040, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.83832716227093, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-50-03", "training_iteration": 460, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756518603, "episode_len_mean": 50.0, "timesteps_since_restore": 552000, "time_since_restore": 47605.679342508316, "time_this_iter_s": 81.47174644470215, "iterations_since_restore": 460}
+{"timesteps_total": 553200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 85658.694, "num_steps_sampled": 553200, "update_time_ms": 2.538, "num_steps_trained": 553200, "load_time_ms": 0.629, "default": {"kl": 0.013982264325022697, "cur_lr": 4.999999873689376e-05, "entropy": 9.205830574035645, "total_loss": 15.154325485229492, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14719703793525696, "vf_explained_var": 0.9879705905914307, "vf_loss": 15.28736400604248}, "grad_time_ms": 771.098}, "pid": 3934253, "time_total_s": 47679.35620856285, "episode_reward_mean": -152.83043235107942, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.15027913277754, "policy_reward_mean": {}, "episodes_total": 11064, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.83832716227093, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-51-17", "training_iteration": 461, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756518677, "episode_len_mean": 50.0, "timesteps_since_restore": 553200, "time_since_restore": 47679.35620856285, "time_this_iter_s": 73.67686605453491, "iterations_since_restore": 461}
+{"timesteps_total": 554400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 83275.878, "num_steps_sampled": 554400, "update_time_ms": 2.468, "num_steps_trained": 554400, "load_time_ms": 0.626, "default": {"kl": 0.012878802604973316, "cur_lr": 4.999999873689376e-05, "entropy": 8.50555419921875, "total_loss": 23.786239624023438, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.10327385365962982, "vf_explained_var": 0.9826846718788147, "vf_loss": 23.876474380493164}, "grad_time_ms": 775.122}, "pid": 3934253, "time_total_s": 47759.24594569206, "episode_reward_mean": -152.7505983426883, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.15027913277754, "policy_reward_mean": {}, "episodes_total": 11088, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.76403805622115, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-52-37", "training_iteration": 462, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756518757, "episode_len_mean": 50.0, "timesteps_since_restore": 554400, "time_since_restore": 47759.24594569206, "time_this_iter_s": 79.88973712921143, "iterations_since_restore": 462}
+{"timesteps_total": 555600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 82794.033, "num_steps_sampled": 555600, "update_time_ms": 2.455, "num_steps_trained": 555600, "load_time_ms": 0.617, "default": {"kl": 0.015895912423729897, "cur_lr": 4.999999873689376e-05, "entropy": 8.813871383666992, "total_loss": 14.076557159423828, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13516120612621307, "vf_explained_var": 0.9894052147865295, "vf_loss": 14.195623397827148}, "grad_time_ms": 782.395}, "pid": 3934253, "time_total_s": 47850.721262931824, "episode_reward_mean": -152.2892577230175, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.15027913277754, "policy_reward_mean": {}, "episodes_total": 11112, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.34770473592064, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-54-08", "training_iteration": 463, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756518848, "episode_len_mean": 50.0, "timesteps_since_restore": 555600, "time_since_restore": 47850.721262931824, "time_this_iter_s": 91.47531723976135, "iterations_since_restore": 463}
+{"timesteps_total": 556800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 82909.562, "num_steps_sampled": 556800, "update_time_ms": 2.463, "num_steps_trained": 556800, "load_time_ms": 0.611, "default": {"kl": 0.011852155439555645, "cur_lr": 4.999999873689376e-05, "entropy": 8.566987991333008, "total_loss": 18.03278350830078, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12470168620347977, "vf_explained_var": 0.9847335815429688, "vf_loss": 18.14548683166504}, "grad_time_ms": 789.835}, "pid": 3934253, "time_total_s": 47940.77296257019, "episode_reward_mean": -152.30313201018302, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.06550295241124, "policy_reward_mean": {}, "episodes_total": 11136, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.34770473592064, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-55-38", "training_iteration": 464, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756518938, "episode_len_mean": 50.0, "timesteps_since_restore": 556800, "time_since_restore": 47940.77296257019, "time_this_iter_s": 90.0516996383667, "iterations_since_restore": 464}
+{"timesteps_total": 558000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 84216.927, "num_steps_sampled": 558000, "update_time_ms": 2.396, "num_steps_trained": 558000, "load_time_ms": 0.608, "default": {"kl": 0.012260083109140396, "cur_lr": 4.999999873689376e-05, "entropy": 8.692615509033203, "total_loss": 18.573740005493164, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11373353004455566, "vf_explained_var": 0.9856255650520325, "vf_loss": 18.675060272216797}, "grad_time_ms": 791.581}, "pid": 3934253, "time_total_s": 48041.7510638237, "episode_reward_mean": -152.37701671887567, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.06550295241124, "policy_reward_mean": {}, "episodes_total": 11160, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.3475296198611, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-57-19", "training_iteration": 465, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756519039, "episode_len_mean": 50.0, "timesteps_since_restore": 558000, "time_since_restore": 48041.7510638237, "time_this_iter_s": 100.97810125350952, "iterations_since_restore": 465}
+{"timesteps_total": 559200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 86656.837, "num_steps_sampled": 559200, "update_time_ms": 2.46, "num_steps_trained": 559200, "load_time_ms": 0.605, "default": {"kl": 0.012025618925690651, "cur_lr": 4.999999873689376e-05, "entropy": 8.53043270111084, "total_loss": 22.949411392211914, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.09604374319314957, "vf_explained_var": 0.9813482761383057, "vf_loss": 23.03327751159668}, "grad_time_ms": 780.629}, "pid": 3934253, "time_total_s": 48147.51311826706, "episode_reward_mean": -152.1334569143758, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.1671981814466, "policy_reward_mean": {}, "episodes_total": 11184, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.3475296198611, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_03-59-05", "training_iteration": 466, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756519145, "episode_len_mean": 50.0, "timesteps_since_restore": 559200, "time_since_restore": 48147.51311826706, "time_this_iter_s": 105.76205444335938, "iterations_since_restore": 466}
+{"timesteps_total": 560400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 84268.461, "num_steps_sampled": 560400, "update_time_ms": 2.471, "num_steps_trained": 560400, "load_time_ms": 0.596, "default": {"kl": 0.013515968807041645, "cur_lr": 4.999999873689376e-05, "entropy": 8.63956069946289, "total_loss": 35.26797103881836, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1302550584077835, "vf_explained_var": 0.9756333827972412, "vf_loss": 35.38453674316406}, "grad_time_ms": 772.352}, "pid": 3934253, "time_total_s": 48207.5612487793, "episode_reward_mean": -152.34913469895858, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.1671981814466, "policy_reward_mean": {}, "episodes_total": 11208, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.3475296198611, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_04-00-05", "training_iteration": 467, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756519205, "episode_len_mean": 50.0, "timesteps_since_restore": 560400, "time_since_restore": 48207.5612487793, "time_this_iter_s": 60.04813051223755, "iterations_since_restore": 467}
+{"timesteps_total": 561600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 86247.813, "num_steps_sampled": 561600, "update_time_ms": 2.396, "num_steps_trained": 561600, "load_time_ms": 0.616, "default": {"kl": 0.01517908088862896, "cur_lr": 4.999999873689376e-05, "entropy": 8.516483306884766, "total_loss": 25.675064086914062, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13278795778751373, "vf_explained_var": 0.9793300628662109, "vf_loss": 25.79248046875}, "grad_time_ms": 735.951}, "pid": 3934253, "time_total_s": 48311.67094898224, "episode_reward_mean": -152.33652022821164, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -171.78358159200687, "policy_reward_mean": {}, "episodes_total": 11232, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.3475296198611, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_04-01-49", "training_iteration": 468, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756519309, "episode_len_mean": 50.0, "timesteps_since_restore": 561600, "time_since_restore": 48311.67094898224, "time_this_iter_s": 104.1097002029419, "iterations_since_restore": 468}
+{"timesteps_total": 562800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 85308.638, "num_steps_sampled": 562800, "update_time_ms": 2.412, "num_steps_trained": 562800, "load_time_ms": 0.631, "default": {"kl": 0.014354195445775986, "cur_lr": 4.999999873689376e-05, "entropy": 8.716632843017578, "total_loss": 18.791744232177734, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13407041132450104, "vf_explained_var": 0.9842908382415771, "vf_loss": 18.911279678344727}, "grad_time_ms": 716.768}, "pid": 3934253, "time_total_s": 48384.54709339142, "episode_reward_mean": -152.1603091373918, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -171.78358159200687, "policy_reward_mean": {}, "episodes_total": 11256, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.66110503693395, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_04-03-02", "training_iteration": 469, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756519382, "episode_len_mean": 50.0, "timesteps_since_restore": 562800, "time_since_restore": 48384.54709339142, "time_this_iter_s": 72.87614440917969, "iterations_since_restore": 469}
+{"timesteps_total": 564000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 85557.386, "num_steps_sampled": 564000, "update_time_ms": 2.487, "num_steps_trained": 564000, "load_time_ms": 0.629, "default": {"kl": 0.012945041991770267, "cur_lr": 4.999999873689376e-05, "entropy": 8.680624008178711, "total_loss": 14.99290657043457, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1172991693019867, "vf_explained_var": 0.9875587821006775, "vf_loss": 15.09709644317627}, "grad_time_ms": 727.509}, "pid": 3934253, "time_total_s": 48468.61529612541, "episode_reward_mean": -152.16666849056782, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -171.78358159200687, "policy_reward_mean": {}, "episodes_total": 11280, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.66110503693395, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_04-04-26", "training_iteration": 470, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756519466, "episode_len_mean": 50.0, "timesteps_since_restore": 564000, "time_since_restore": 48468.61529612541, "time_this_iter_s": 84.06820273399353, "iterations_since_restore": 470}
+{"timesteps_total": 565200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 84829.604, "num_steps_sampled": 565200, "update_time_ms": 2.513, "num_steps_trained": 565200, "load_time_ms": 0.628, "default": {"kl": 0.013851411640644073, "cur_lr": 4.999999873689376e-05, "entropy": 8.776378631591797, "total_loss": 18.787683486938477, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12572117149829865, "vf_explained_var": 0.9839603900909424, "vf_loss": 18.89937973022461}, "grad_time_ms": 720.516}, "pid": 3934253, "time_total_s": 48534.94466614723, "episode_reward_mean": -151.8701079268161, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -171.78358159200687, "policy_reward_mean": {}, "episodes_total": 11304, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -140.12124004568955, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_04-05-32", "training_iteration": 471, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756519532, "episode_len_mean": 50.0, "timesteps_since_restore": 565200, "time_since_restore": 48534.94466614723, "time_this_iter_s": 66.32937002182007, "iterations_since_restore": 471}
+{"timesteps_total": 566400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 87558.517, "num_steps_sampled": 566400, "update_time_ms": 2.515, "num_steps_trained": 566400, "load_time_ms": 0.633, "default": {"kl": 0.014027898199856281, "cur_lr": 4.999999873689376e-05, "entropy": 8.957261085510254, "total_loss": 13.951068878173828, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12973517179489136, "vf_explained_var": 0.9884995222091675, "vf_loss": 14.066600799560547}, "grad_time_ms": 712.553}, "pid": 3934253, "time_total_s": 48642.04382133484, "episode_reward_mean": -151.58204971842872, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -163.73309523071484, "policy_reward_mean": {}, "episodes_total": 11328, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -140.12124004568955, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_04-07-20", "training_iteration": 472, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756519640, "episode_len_mean": 50.0, "timesteps_since_restore": 566400, "time_since_restore": 48642.04382133484, "time_this_iter_s": 107.09915518760681, "iterations_since_restore": 472}
+{"timesteps_total": 567600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 89974.294, "num_steps_sampled": 567600, "update_time_ms": 2.496, "num_steps_trained": 567600, "load_time_ms": 0.64, "default": {"kl": 0.013087683357298374, "cur_lr": 4.999999873689376e-05, "entropy": 8.811269760131836, "total_loss": 18.32082176208496, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12677785754203796, "vf_explained_var": 0.9860605597496033, "vf_loss": 18.43434715270996}, "grad_time_ms": 711.183}, "pid": 3934253, "time_total_s": 48757.663786411285, "episode_reward_mean": -151.90309347607905, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -172.55473715921238, "policy_reward_mean": {}, "episodes_total": 11352, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -140.12124004568955, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_04-09-15", "training_iteration": 473, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756519755, "episode_len_mean": 50.0, "timesteps_since_restore": 567600, "time_since_restore": 48757.663786411285, "time_this_iter_s": 115.61996507644653, "iterations_since_restore": 473}
+{"timesteps_total": 568800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 88965.22, "num_steps_sampled": 568800, "update_time_ms": 2.509, "num_steps_trained": 568800, "load_time_ms": 0.644, "default": {"kl": 0.012866493314504623, "cur_lr": 4.999999873689376e-05, "entropy": 8.510658264160156, "total_loss": 26.638233184814453, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12175793200731277, "vf_explained_var": 0.9810941219329834, "vf_loss": 26.746965408325195}, "grad_time_ms": 709.255}, "pid": 3934253, "time_total_s": 48837.60676407814, "episode_reward_mean": -152.0306529598313, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -172.55473715921238, "policy_reward_mean": {}, "episodes_total": 11376, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -140.12124004568955, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_04-10-35", "training_iteration": 474, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756519835, "episode_len_mean": 50.0, "timesteps_since_restore": 568800, "time_since_restore": 48837.60676407814, "time_this_iter_s": 79.94297766685486, "iterations_since_restore": 474}
+{"timesteps_total": 570000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 90873.243, "num_steps_sampled": 570000, "update_time_ms": 2.543, "num_steps_trained": 570000, "load_time_ms": 0.644, "default": {"kl": 0.014776766300201416, "cur_lr": 4.999999873689376e-05, "entropy": 8.7134370803833, "total_loss": 16.30389976501465, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12294605374336243, "vf_explained_var": 0.98764967918396, "vf_loss": 16.411884307861328}, "grad_time_ms": 703.627}, "pid": 3934253, "time_total_s": 48957.60911512375, "episode_reward_mean": -152.09120920384555, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -172.55473715921238, "policy_reward_mean": {}, "episodes_total": 11400, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.91291809163678, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_04-12-35", "training_iteration": 475, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756519955, "episode_len_mean": 50.0, "timesteps_since_restore": 570000, "time_since_restore": 48957.60911512375, "time_this_iter_s": 120.00235104560852, "iterations_since_restore": 475}
+{"timesteps_total": 571200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 90429.236, "num_steps_sampled": 571200, "update_time_ms": 2.448, "num_steps_trained": 571200, "load_time_ms": 0.642, "default": {"kl": 0.01419066358357668, "cur_lr": 4.999999873689376e-05, "entropy": 8.54990005493164, "total_loss": 25.738264083862305, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1428092122077942, "vf_explained_var": 0.9800757169723511, "vf_loss": 25.866703033447266}, "grad_time_ms": 706.412}, "pid": 3934253, "time_total_s": 49058.956107616425, "episode_reward_mean": -152.22941988879649, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -172.55473715921238, "policy_reward_mean": {}, "episodes_total": 11424, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -136.4136753827509, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_04-14-17", "training_iteration": 476, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756520057, "episode_len_mean": 50.0, "timesteps_since_restore": 571200, "time_since_restore": 49058.956107616425, "time_this_iter_s": 101.34699249267578, "iterations_since_restore": 476}
+{"timesteps_total": 572400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93479.099, "num_steps_sampled": 572400, "update_time_ms": 2.507, "num_steps_trained": 572400, "load_time_ms": 0.642, "default": {"kl": 0.013474556617438793, "cur_lr": 4.999999873689376e-05, "entropy": 8.342805862426758, "total_loss": 14.449737548828125, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11618823558092117, "vf_explained_var": 0.9880461096763611, "vf_loss": 14.55228328704834}, "grad_time_ms": 705.134}, "pid": 3934253, "time_total_s": 49149.48967766762, "episode_reward_mean": -151.62238611297823, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.26034009197124, "policy_reward_mean": {}, "episodes_total": 11448, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -136.4136753827509, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_04-15-47", "training_iteration": 477, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756520147, "episode_len_mean": 50.0, "timesteps_since_restore": 572400, "time_since_restore": 49149.48967766762, "time_this_iter_s": 90.53357005119324, "iterations_since_restore": 477}
+{"timesteps_total": 573600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93793.331, "num_steps_sampled": 573600, "update_time_ms": 2.49, "num_steps_trained": 573600, "load_time_ms": 0.626, "default": {"kl": 0.01338463556021452, "cur_lr": 4.999999873689376e-05, "entropy": 8.503240585327148, "total_loss": 9.148031234741211, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13191653788089752, "vf_explained_var": 0.9921321868896484, "vf_loss": 9.266396522521973}, "grad_time_ms": 741.434}, "pid": 3934253, "time_total_s": 49257.10363698006, "episode_reward_mean": -151.4530620575066, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.26034009197124, "policy_reward_mean": {}, "episodes_total": 11472, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -135.57837804089226, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_04-17-35", "training_iteration": 478, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756520255, "episode_len_mean": 50.0, "timesteps_since_restore": 573600, "time_since_restore": 49257.10363698006, "time_this_iter_s": 107.61395931243896, "iterations_since_restore": 478}
+{"timesteps_total": 574800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 97189.048, "num_steps_sampled": 574800, "update_time_ms": 2.439, "num_steps_trained": 574800, "load_time_ms": 0.615, "default": {"kl": 0.011861172504723072, "cur_lr": 4.999999873689376e-05, "entropy": 8.364619255065918, "total_loss": 19.182300567626953, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.10482161492109299, "vf_explained_var": 0.9860363006591797, "vf_loss": 19.27511215209961}, "grad_time_ms": 755.483}, "pid": 3934253, "time_total_s": 49364.076297044754, "episode_reward_mean": -151.58091026932988, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.55116997370476, "policy_reward_mean": {}, "episodes_total": 11496, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -135.57837804089226, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_04-19-22", "training_iteration": 479, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756520362, "episode_len_mean": 50.0, "timesteps_since_restore": 574800, "time_since_restore": 49364.076297044754, "time_this_iter_s": 106.97266006469727, "iterations_since_restore": 479}
+{"timesteps_total": 576000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 98683.422, "num_steps_sampled": 576000, "update_time_ms": 2.427, "num_steps_trained": 576000, "load_time_ms": 0.622, "default": {"kl": 0.01613686792552471, "cur_lr": 4.999999873689376e-05, "entropy": 8.356700897216797, "total_loss": 24.950077056884766, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12751537561416626, "vf_explained_var": 0.9812971949577332, "vf_loss": 25.06125259399414}, "grad_time_ms": 730.311}, "pid": 3934253, "time_total_s": 49462.835492134094, "episode_reward_mean": -151.87481690855805, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.55116997370476, "policy_reward_mean": {}, "episodes_total": 11520, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -135.57837804089226, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_04-21-00", "training_iteration": 480, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756520460, "episode_len_mean": 50.0, "timesteps_since_restore": 576000, "time_since_restore": 49462.835492134094, "time_this_iter_s": 98.75919508934021, "iterations_since_restore": 480}
+{"timesteps_total": 577200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 100784.428, "num_steps_sampled": 577200, "update_time_ms": 2.385, "num_steps_trained": 577200, "load_time_ms": 0.616, "default": {"kl": 0.012163571082055569, "cur_lr": 4.999999873689376e-05, "entropy": 8.392812728881836, "total_loss": 25.000938415527344, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12458840012550354, "vf_explained_var": 0.9825544357299805, "vf_loss": 25.11321258544922}, "grad_time_ms": 737.015}, "pid": 3934253, "time_total_s": 49550.242958545685, "episode_reward_mean": -151.85538016827485, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.55116997370476, "policy_reward_mean": {}, "episodes_total": 11544, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -135.57837804089226, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_04-22-28", "training_iteration": 481, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756520548, "episode_len_mean": 50.0, "timesteps_since_restore": 577200, "time_since_restore": 49550.242958545685, "time_this_iter_s": 87.40746641159058, "iterations_since_restore": 481}
+{"timesteps_total": 578400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 100695.819, "num_steps_sampled": 578400, "update_time_ms": 2.41, "num_steps_trained": 578400, "load_time_ms": 0.609, "default": {"kl": 0.013876695185899734, "cur_lr": 4.999999873689376e-05, "entropy": 8.447154998779297, "total_loss": 19.025917053222656, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12835945188999176, "vf_explained_var": 0.9851945042610168, "vf_loss": 19.14022445678711}, "grad_time_ms": 737.976}, "pid": 3934253, "time_total_s": 49656.465804338455, "episode_reward_mean": -152.47601961931696, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -168.89862092308448, "policy_reward_mean": {}, "episodes_total": 11568, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -145.96097054937832, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_04-24-14", "training_iteration": 482, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756520654, "episode_len_mean": 50.0, "timesteps_since_restore": 578400, "time_since_restore": 49656.465804338455, "time_this_iter_s": 106.22284579277039, "iterations_since_restore": 482}
+{"timesteps_total": 579600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 98965.575, "num_steps_sampled": 579600, "update_time_ms": 2.424, "num_steps_trained": 579600, "load_time_ms": 0.602, "default": {"kl": 0.012843552976846695, "cur_lr": 4.999999873689376e-05, "entropy": 8.421581268310547, "total_loss": 28.655893325805664, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1217130795121193, "vf_explained_var": 0.981257438659668, "vf_loss": 28.764604568481445}, "grad_time_ms": 737.339}, "pid": 3934253, "time_total_s": 49754.775631427765, "episode_reward_mean": -152.4899519121384, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -168.89862092308448, "policy_reward_mean": {}, "episodes_total": 11592, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -145.96097054937832, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_04-25-53", "training_iteration": 483, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756520753, "episode_len_mean": 50.0, "timesteps_since_restore": 579600, "time_since_restore": 49754.775631427765, "time_this_iter_s": 98.30982708930969, "iterations_since_restore": 483}
+{"timesteps_total": 580800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 99783.682, "num_steps_sampled": 580800, "update_time_ms": 2.383, "num_steps_trained": 580800, "load_time_ms": 0.601, "default": {"kl": 0.01166777778416872, "cur_lr": 4.999999873689376e-05, "entropy": 8.177492141723633, "total_loss": 34.3708610534668, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11253535747528076, "vf_explained_var": 0.9757702350616455, "vf_loss": 34.47157669067383}, "grad_time_ms": 733.529}, "pid": 3934253, "time_total_s": 49842.862073898315, "episode_reward_mean": -152.56202090243394, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -168.89862092308448, "policy_reward_mean": {}, "episodes_total": 11616, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.9760204444557, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_04-27-21", "training_iteration": 484, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756520841, "episode_len_mean": 50.0, "timesteps_since_restore": 580800, "time_since_restore": 49842.862073898315, "time_this_iter_s": 88.08644247055054, "iterations_since_restore": 484}
+{"timesteps_total": 582000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 98990.706, "num_steps_sampled": 582000, "update_time_ms": 2.384, "num_steps_trained": 582000, "load_time_ms": 0.606, "default": {"kl": 0.013997341506183147, "cur_lr": 4.999999873689376e-05, "entropy": 8.29512882232666, "total_loss": 22.684200286865234, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12494519352912903, "vf_explained_var": 0.9818886518478394, "vf_loss": 22.79497528076172}, "grad_time_ms": 736.962}, "pid": 3934253, "time_total_s": 49954.96886229515, "episode_reward_mean": -152.57537375459523, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -168.89862092308448, "policy_reward_mean": {}, "episodes_total": 11640, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.9760204444557, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_04-29-13", "training_iteration": 485, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756520953, "episode_len_mean": 50.0, "timesteps_since_restore": 582000, "time_since_restore": 49954.96886229515, "time_this_iter_s": 112.10678839683533, "iterations_since_restore": 485}
+{"timesteps_total": 583200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 96576.534, "num_steps_sampled": 583200, "update_time_ms": 2.437, "num_steps_trained": 583200, "load_time_ms": 0.607, "default": {"kl": 0.013433815911412239, "cur_lr": 4.999999873689376e-05, "entropy": 8.316619873046875, "total_loss": 12.3467378616333, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13029375672340393, "vf_explained_var": 0.9899523258209229, "vf_loss": 12.46342945098877}, "grad_time_ms": 731.844}, "pid": 3934253, "time_total_s": 50032.12375879288, "episode_reward_mean": -152.43522240052872, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.16920054641602, "policy_reward_mean": {}, "episodes_total": 11664, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.9760204444557, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_04-30-30", "training_iteration": 486, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756521030, "episode_len_mean": 50.0, "timesteps_since_restore": 583200, "time_since_restore": 50032.12375879288, "time_this_iter_s": 77.15489649772644, "iterations_since_restore": 486}
+{"timesteps_total": 584400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 97872.595, "num_steps_sampled": 584400, "update_time_ms": 2.376, "num_steps_trained": 584400, "load_time_ms": 0.613, "default": {"kl": 0.01336054690182209, "cur_lr": 4.999999873689376e-05, "entropy": 8.06357479095459, "total_loss": 14.853938102722168, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11478282511234283, "vf_explained_var": 0.9875580668449402, "vf_loss": 14.955193519592285}, "grad_time_ms": 744.769}, "pid": 3934253, "time_total_s": 50135.74773335457, "episode_reward_mean": -152.2744356165756, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.16920054641602, "policy_reward_mean": {}, "episodes_total": 11688, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.9760204444557, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_04-32-14", "training_iteration": 487, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756521134, "episode_len_mean": 50.0, "timesteps_since_restore": 584400, "time_since_restore": 50135.74773335457, "time_this_iter_s": 103.62397456169128, "iterations_since_restore": 487}
+{"timesteps_total": 585600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93514.198, "num_steps_sampled": 585600, "update_time_ms": 2.391, "num_steps_trained": 585600, "load_time_ms": 0.623, "default": {"kl": 0.012713328003883362, "cur_lr": 4.999999873689376e-05, "entropy": 8.406123161315918, "total_loss": 9.236263275146484, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13359849154949188, "vf_explained_var": 0.9921019673347473, "vf_loss": 9.356989860534668}, "grad_time_ms": 744.189}, "pid": 3934253, "time_total_s": 50199.77256655693, "episode_reward_mean": -151.7673940732708, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -163.00463867105913, "policy_reward_mean": {}, "episodes_total": 11712, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.86458163390066, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_04-33-18", "training_iteration": 488, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756521198, "episode_len_mean": 50.0, "timesteps_since_restore": 585600, "time_since_restore": 50199.77256655693, "time_this_iter_s": 64.02483320236206, "iterations_since_restore": 488}
+{"timesteps_total": 586800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 90967.011, "num_steps_sampled": 586800, "update_time_ms": 2.398, "num_steps_trained": 586800, "load_time_ms": 0.616, "default": {"kl": 0.01239168830215931, "cur_lr": 4.999999873689376e-05, "entropy": 8.362218856811523, "total_loss": 16.686716079711914, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13526107370853424, "vf_explained_var": 0.9881305694580078, "vf_loss": 16.809431076049805}, "grad_time_ms": 760.819}, "pid": 3934253, "time_total_s": 50281.43963265419, "episode_reward_mean": -151.5349348740325, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -162.58932785547924, "policy_reward_mean": {}, "episodes_total": 11736, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.86458163390066, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_04-34-39", "training_iteration": 489, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756521279, "episode_len_mean": 50.0, "timesteps_since_restore": 586800, "time_since_restore": 50281.43963265419, "time_this_iter_s": 81.66706609725952, "iterations_since_restore": 489}
+{"timesteps_total": 588000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92896.958, "num_steps_sampled": 588000, "update_time_ms": 2.35, "num_steps_trained": 588000, "load_time_ms": 0.613, "default": {"kl": 0.012361129745841026, "cur_lr": 4.999999873689376e-05, "entropy": 8.23472785949707, "total_loss": 17.43859100341797, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.10937649011611938, "vf_explained_var": 0.9870246052742004, "vf_loss": 17.53545379638672}, "grad_time_ms": 782.39}, "pid": 3934253, "time_total_s": 50399.713121175766, "episode_reward_mean": -151.58134547998327, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.551374223564, "policy_reward_mean": {}, "episodes_total": 11760, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.86458163390066, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_04-36-38", "training_iteration": 490, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756521398, "episode_len_mean": 50.0, "timesteps_since_restore": 588000, "time_since_restore": 50399.713121175766, "time_this_iter_s": 118.27348852157593, "iterations_since_restore": 490}
+{"timesteps_total": 589200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92667.249, "num_steps_sampled": 589200, "update_time_ms": 2.376, "num_steps_trained": 589200, "load_time_ms": 0.62, "default": {"kl": 0.013915492221713066, "cur_lr": 4.999999873689376e-05, "entropy": 8.18729019165039, "total_loss": 21.70315170288086, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11174440383911133, "vf_explained_var": 0.9853160381317139, "vf_loss": 21.80080795288086}, "grad_time_ms": 755.628}, "pid": 3934253, "time_total_s": 50484.555617809296, "episode_reward_mean": -151.50221318432668, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.551374223564, "policy_reward_mean": {}, "episodes_total": 11784, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.86458163390066, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_04-38-02", "training_iteration": 491, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756521482, "episode_len_mean": 50.0, "timesteps_since_restore": 589200, "time_since_restore": 50484.555617809296, "time_this_iter_s": 84.84249663352966, "iterations_since_restore": 491}
+{"timesteps_total": 590400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92900.83, "num_steps_sampled": 590400, "update_time_ms": 2.378, "num_steps_trained": 590400, "load_time_ms": 0.625, "default": {"kl": 0.014017928391695023, "cur_lr": 4.999999873689376e-05, "entropy": 8.306546211242676, "total_loss": 17.22860336303711, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13493818044662476, "vf_explained_var": 0.9866151809692383, "vf_loss": 17.349348068237305}, "grad_time_ms": 753.323}, "pid": 3934253, "time_total_s": 50593.09105873108, "episode_reward_mean": -151.9797859047839, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.551374223564, "policy_reward_mean": {}, "episodes_total": 11808, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.82675790269593, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_04-39-51", "training_iteration": 492, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756521591, "episode_len_mean": 50.0, "timesteps_since_restore": 590400, "time_since_restore": 50593.09105873108, "time_this_iter_s": 108.53544092178345, "iterations_since_restore": 492}
+{"timesteps_total": 591600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 91710.711, "num_steps_sampled": 591600, "update_time_ms": 2.399, "num_steps_trained": 591600, "load_time_ms": 0.626, "default": {"kl": 0.014049972407519817, "cur_lr": 4.999999873689376e-05, "entropy": 8.360414505004883, "total_loss": 17.243886947631836, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13506677746772766, "vf_explained_var": 0.9864630103111267, "vf_loss": 17.364728927612305}, "grad_time_ms": 739.928}, "pid": 3934253, "time_total_s": 50679.36665248871, "episode_reward_mean": -152.28057967114154, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.551374223564, "policy_reward_mean": {}, "episodes_total": 11832, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.94920052597337, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_04-41-17", "training_iteration": 493, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756521677, "episode_len_mean": 50.0, "timesteps_since_restore": 591600, "time_since_restore": 50679.36665248871, "time_this_iter_s": 86.2755937576294, "iterations_since_restore": 493}
+{"timesteps_total": 592800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94009.661, "num_steps_sampled": 592800, "update_time_ms": 2.403, "num_steps_trained": 592800, "load_time_ms": 0.626, "default": {"kl": 0.012254327535629272, "cur_lr": 4.999999873689376e-05, "entropy": 8.261372566223145, "total_loss": 24.526485443115234, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11333407461643219, "vf_explained_var": 0.98112553358078, "vf_loss": 24.627412796020508}, "grad_time_ms": 745.345}, "pid": 3934253, "time_total_s": 50790.49547314644, "episode_reward_mean": -152.2664411603055, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.55358103574406, "policy_reward_mean": {}, "episodes_total": 11856, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.94920052597337, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_04-43-08", "training_iteration": 494, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756521788, "episode_len_mean": 50.0, "timesteps_since_restore": 592800, "time_since_restore": 50790.49547314644, "time_this_iter_s": 111.1288206577301, "iterations_since_restore": 494}
+{"timesteps_total": 594000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93719.151, "num_steps_sampled": 594000, "update_time_ms": 2.353, "num_steps_trained": 594000, "load_time_ms": 0.623, "default": {"kl": 0.010306322015821934, "cur_lr": 4.999999873689376e-05, "entropy": 8.569117546081543, "total_loss": 38.06904983520508, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12895271182060242, "vf_explained_var": 0.9726418256759644, "vf_loss": 38.18756866455078}, "grad_time_ms": 743.518}, "pid": 3934253, "time_total_s": 50899.678308963776, "episode_reward_mean": -152.4053046281917, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -179.23954249428897, "policy_reward_mean": {}, "episodes_total": 11880, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.94920052597337, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_04-44-58", "training_iteration": 495, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756521898, "episode_len_mean": 50.0, "timesteps_since_restore": 594000, "time_since_restore": 50899.678308963776, "time_this_iter_s": 109.18283581733704, "iterations_since_restore": 495}
+{"timesteps_total": 595200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 95340.754, "num_steps_sampled": 595200, "update_time_ms": 2.369, "num_steps_trained": 595200, "load_time_ms": 0.622, "default": {"kl": 0.014301293529570103, "cur_lr": 4.999999873689376e-05, "entropy": 8.337230682373047, "total_loss": 23.737653732299805, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11855091154575348, "vf_explained_var": 0.9828669428825378, "vf_loss": 23.841726303100586}, "grad_time_ms": 753.814}, "pid": 3934253, "time_total_s": 50993.152535676956, "episode_reward_mean": -152.48441120424198, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -179.23954249428897, "policy_reward_mean": {}, "episodes_total": 11904, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -143.24911084280703, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_04-46-31", "training_iteration": 496, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756521991, "episode_len_mean": 50.0, "timesteps_since_restore": 595200, "time_since_restore": 50993.152535676956, "time_this_iter_s": 93.47422671318054, "iterations_since_restore": 496}
+{"timesteps_total": 596400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93168.107, "num_steps_sampled": 596400, "update_time_ms": 2.414, "num_steps_trained": 596400, "load_time_ms": 0.622, "default": {"kl": 0.011234988458454609, "cur_lr": 4.999999873689376e-05, "entropy": 8.054550170898438, "total_loss": 32.349212646484375, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.10083127021789551, "vf_explained_var": 0.9761930108070374, "vf_loss": 32.43867111206055}, "grad_time_ms": 745.001}, "pid": 3934253, "time_total_s": 51074.96179127693, "episode_reward_mean": -152.2923890436924, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -179.23954249428897, "policy_reward_mean": {}, "episodes_total": 11928, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -143.24911084280703, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_04-47-53", "training_iteration": 497, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756522073, "episode_len_mean": 50.0, "timesteps_since_restore": 596400, "time_since_restore": 51074.96179127693, "time_this_iter_s": 81.80925559997559, "iterations_since_restore": 497}
+{"timesteps_total": 597600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 96494.6, "num_steps_sampled": 597600, "update_time_ms": 2.411, "num_steps_trained": 597600, "load_time_ms": 0.606, "default": {"kl": 0.013591241091489792, "cur_lr": 4.999999873689376e-05, "entropy": 8.476066589355469, "total_loss": 22.050931930541992, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13895396888256073, "vf_explained_var": 0.9850466847419739, "vf_loss": 22.176122665405273}, "grad_time_ms": 745.967}, "pid": 3934253, "time_total_s": 51172.260909318924, "episode_reward_mean": -152.56113232132276, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -179.23954249428897, "policy_reward_mean": {}, "episodes_total": 11952, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -143.24911084280703, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_04-49-30", "training_iteration": 498, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756522170, "episode_len_mean": 50.0, "timesteps_since_restore": 597600, "time_since_restore": 51172.260909318924, "time_this_iter_s": 97.29911804199219, "iterations_since_restore": 498}
+{"timesteps_total": 598800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 97191.043, "num_steps_sampled": 598800, "update_time_ms": 2.462, "num_steps_trained": 598800, "load_time_ms": 0.607, "default": {"kl": 0.01398612093180418, "cur_lr": 4.999999873689376e-05, "entropy": 8.27603530883789, "total_loss": 11.802041053771973, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1316160410642624, "vf_explained_var": 0.9910869598388672, "vf_loss": 11.919496536254883}, "grad_time_ms": 742.414}, "pid": 3934253, "time_total_s": 51260.85743522644, "episode_reward_mean": -152.5133723821843, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -179.23954249428897, "policy_reward_mean": {}, "episodes_total": 11976, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.76588621311848, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_04-50-59", "training_iteration": 499, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756522259, "episode_len_mean": 50.0, "timesteps_since_restore": 598800, "time_since_restore": 51260.85743522644, "time_this_iter_s": 88.59652590751648, "iterations_since_restore": 499}
+{"timesteps_total": 600000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 95862.436, "num_steps_sampled": 600000, "update_time_ms": 2.474, "num_steps_trained": 600000, "load_time_ms": 0.618, "default": {"kl": 0.01472895685583353, "cur_lr": 4.999999873689376e-05, "entropy": 8.435802459716797, "total_loss": 18.317811965942383, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13494382798671722, "vf_explained_var": 0.987172544002533, "vf_loss": 18.437843322753906}, "grad_time_ms": 734.813}, "pid": 3934253, "time_total_s": 51365.77009224892, "episode_reward_mean": -152.01744841803412, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -168.45596695942382, "policy_reward_mean": {}, "episodes_total": 12000, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.76588621311848, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_04-52-44", "training_iteration": 500, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756522364, "episode_len_mean": 50.0, "timesteps_since_restore": 600000, "time_since_restore": 51365.77009224892, "time_this_iter_s": 104.9126570224762, "iterations_since_restore": 500}
+{"timesteps_total": 601200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 95968.686, "num_steps_sampled": 601200, "update_time_ms": 2.619, "num_steps_trained": 601200, "load_time_ms": 0.609, "default": {"kl": 0.012464533559978008, "cur_lr": 4.999999873689376e-05, "entropy": 7.986090660095215, "total_loss": 15.645466804504395, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12583625316619873, "vf_explained_var": 0.9872433543205261, "vf_loss": 15.758684158325195}, "grad_time_ms": 736.879}, "pid": 3934253, "time_total_s": 51451.69588470459, "episode_reward_mean": -152.01037099071374, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -168.45596695942382, "policy_reward_mean": {}, "episodes_total": 12024, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.76588621311848, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_04-54-10", "training_iteration": 501, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756522450, "episode_len_mean": 50.0, "timesteps_since_restore": 601200, "time_since_restore": 51451.69588470459, "time_this_iter_s": 85.92579245567322, "iterations_since_restore": 501}
+{"timesteps_total": 602400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93102.896, "num_steps_sampled": 602400, "update_time_ms": 2.611, "num_steps_trained": 602400, "load_time_ms": 0.613, "default": {"kl": 0.012951488606631756, "cur_lr": 4.999999873689376e-05, "entropy": 8.401609420776367, "total_loss": 14.38691520690918, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11934472620487213, "vf_explained_var": 0.9900305867195129, "vf_loss": 14.493144989013672}, "grad_time_ms": 738.486}, "pid": 3934253, "time_total_s": 51531.589405059814, "episode_reward_mean": -151.48011399393036, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.17799719138918, "policy_reward_mean": {}, "episodes_total": 12048, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.76588621311848, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_04-55-30", "training_iteration": 502, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756522530, "episode_len_mean": 50.0, "timesteps_since_restore": 602400, "time_since_restore": 51531.589405059814, "time_this_iter_s": 79.89352035522461, "iterations_since_restore": 502}
+{"timesteps_total": 603600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92845.764, "num_steps_sampled": 603600, "update_time_ms": 2.592, "num_steps_trained": 603600, "load_time_ms": 0.611, "default": {"kl": 0.012631156481802464, "cur_lr": 4.999999873689376e-05, "entropy": 8.266646385192871, "total_loss": 20.765531539916992, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13049106299877167, "vf_explained_var": 0.9859540462493896, "vf_loss": 20.88323402404785}, "grad_time_ms": 749.962}, "pid": 3934253, "time_total_s": 51615.408281326294, "episode_reward_mean": -151.95040094615155, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.17799719138918, "policy_reward_mean": {}, "episodes_total": 12072, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.91358491840785, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_04-56-53", "training_iteration": 503, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756522613, "episode_len_mean": 50.0, "timesteps_since_restore": 603600, "time_since_restore": 51615.408281326294, "time_this_iter_s": 83.81887626647949, "iterations_since_restore": 503}
+{"timesteps_total": 604800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 91623.159, "num_steps_sampled": 604800, "update_time_ms": 2.684, "num_steps_trained": 604800, "load_time_ms": 0.615, "default": {"kl": 0.0131832305341959, "cur_lr": 4.999999873689376e-05, "entropy": 8.261452674865723, "total_loss": 21.291887283325195, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13001152873039246, "vf_explained_var": 0.9833104610443115, "vf_loss": 21.408550262451172}, "grad_time_ms": 748.329}, "pid": 3934253, "time_total_s": 51714.29527378082, "episode_reward_mean": -152.11592553945118, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -169.47437276213114, "policy_reward_mean": {}, "episodes_total": 12096, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.91358491840785, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_04-58-32", "training_iteration": 504, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756522712, "episode_len_mean": 50.0, "timesteps_since_restore": 604800, "time_since_restore": 51714.29527378082, "time_this_iter_s": 98.88699245452881, "iterations_since_restore": 504}
+{"timesteps_total": 606000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 91136.225, "num_steps_sampled": 606000, "update_time_ms": 2.73, "num_steps_trained": 606000, "load_time_ms": 0.622, "default": {"kl": 0.012735579162836075, "cur_lr": 4.999999873689376e-05, "entropy": 8.163020133972168, "total_loss": 32.51218795776367, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12349916994571686, "vf_explained_var": 0.9749259948730469, "vf_loss": 32.62278747558594}, "grad_time_ms": 744.669}, "pid": 3934253, "time_total_s": 51818.57286596298, "episode_reward_mean": -152.21681742415493, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -174.96017940841094, "policy_reward_mean": {}, "episodes_total": 12120, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.91358491840785, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_05-00-17", "training_iteration": 505, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756522817, "episode_len_mean": 50.0, "timesteps_since_restore": 606000, "time_since_restore": 51818.57286596298, "time_this_iter_s": 104.27759218215942, "iterations_since_restore": 505}
+{"timesteps_total": 607200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 91654.218, "num_steps_sampled": 607200, "update_time_ms": 2.733, "num_steps_trained": 607200, "load_time_ms": 0.629, "default": {"kl": 0.010551582090556622, "cur_lr": 4.999999873689376e-05, "entropy": 8.147479057312012, "total_loss": 24.14088249206543, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1115213930606842, "vf_explained_var": 0.9835327863693237, "vf_loss": 24.241722106933594}, "grad_time_ms": 730.711}, "pid": 3934253, "time_total_s": 51917.086246967316, "episode_reward_mean": -152.5065032769895, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -174.96017940841094, "policy_reward_mean": {}, "episodes_total": 12144, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -145.65283452681913, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_05-01-55", "training_iteration": 506, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756522915, "episode_len_mean": 50.0, "timesteps_since_restore": 607200, "time_since_restore": 51917.086246967316, "time_this_iter_s": 98.5133810043335, "iterations_since_restore": 506}
+{"timesteps_total": 608400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92937.584, "num_steps_sampled": 608400, "update_time_ms": 2.651, "num_steps_trained": 608400, "load_time_ms": 0.627, "default": {"kl": 0.013679493218660355, "cur_lr": 4.999999873689376e-05, "entropy": 8.322196006774902, "total_loss": 17.807706832885742, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13080990314483643, "vf_explained_var": 0.989324152469635, "vf_loss": 17.924665451049805}, "grad_time_ms": 723.807}, "pid": 3934253, "time_total_s": 52011.65894627571, "episode_reward_mean": -152.62199344445517, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -174.96017940841094, "policy_reward_mean": {}, "episodes_total": 12168, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -145.65283452681913, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_05-03-30", "training_iteration": 507, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756523010, "episode_len_mean": 50.0, "timesteps_since_restore": 608400, "time_since_restore": 52011.65894627571, "time_this_iter_s": 94.57269930839539, "iterations_since_restore": 507}
+{"timesteps_total": 609600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94056.282, "num_steps_sampled": 609600, "update_time_ms": 2.661, "num_steps_trained": 609600, "load_time_ms": 0.636, "default": {"kl": 0.01215057447552681, "cur_lr": 4.999999873689376e-05, "entropy": 8.190593719482422, "total_loss": 19.476789474487305, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1280270367860794, "vf_explained_var": 0.9847090840339661, "vf_loss": 19.592514038085938}, "grad_time_ms": 700.216}, "pid": 3934253, "time_total_s": 52119.90881872177, "episode_reward_mean": -152.45247066530314, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -174.96017940841094, "policy_reward_mean": {}, "episodes_total": 12192, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -145.65283452681913, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_05-05-18", "training_iteration": 508, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756523118, "episode_len_mean": 50.0, "timesteps_since_restore": 609600, "time_since_restore": 52119.90881872177, "time_this_iter_s": 108.24987244606018, "iterations_since_restore": 508}
+{"timesteps_total": 610800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 95930.862, "num_steps_sampled": 610800, "update_time_ms": 2.656, "num_steps_trained": 610800, "load_time_ms": 0.642, "default": {"kl": 0.012087873183190823, "cur_lr": 4.999999873689376e-05, "entropy": 8.145371437072754, "total_loss": 15.570717811584473, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.10609038174152374, "vf_explained_var": 0.986748456954956, "vf_loss": 15.664569854736328}, "grad_time_ms": 692.213}, "pid": 3934253, "time_total_s": 52227.17141199112, "episode_reward_mean": -151.90335354787902, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.31865727551698, "policy_reward_mean": {}, "episodes_total": 12216, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -137.2146438832549, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_05-07-05", "training_iteration": 509, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756523225, "episode_len_mean": 50.0, "timesteps_since_restore": 610800, "time_since_restore": 52227.17141199112, "time_this_iter_s": 107.26259326934814, "iterations_since_restore": 509}
+{"timesteps_total": 612000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 95583.025, "num_steps_sampled": 612000, "update_time_ms": 2.643, "num_steps_trained": 612000, "load_time_ms": 0.629, "default": {"kl": 0.013264824636280537, "cur_lr": 4.999999873689376e-05, "entropy": 8.246790885925293, "total_loss": 45.29621505737305, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12984015047550201, "vf_explained_var": 0.9686688184738159, "vf_loss": 45.41261672973633}, "grad_time_ms": 703.069}, "pid": 3934253, "time_total_s": 52328.713398218155, "episode_reward_mean": -151.84296176241773, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -176.07474622271582, "policy_reward_mean": {}, "episodes_total": 12240, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -137.2146438832549, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_05-08-47", "training_iteration": 510, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756523327, "episode_len_mean": 50.0, "timesteps_since_restore": 612000, "time_since_restore": 52328.713398218155, "time_this_iter_s": 101.54198622703552, "iterations_since_restore": 510}
+{"timesteps_total": 613200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 97924.306, "num_steps_sampled": 613200, "update_time_ms": 2.498, "num_steps_trained": 613200, "load_time_ms": 0.628, "default": {"kl": 0.01422956120222807, "cur_lr": 4.999999873689376e-05, "entropy": 8.146068572998047, "total_loss": 11.832422256469727, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13532468676567078, "vf_explained_var": 0.99064040184021, "vf_loss": 11.953340530395508}, "grad_time_ms": 719.987}, "pid": 3934253, "time_total_s": 52438.22039580345, "episode_reward_mean": -151.5841077330452, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -176.07474622271582, "policy_reward_mean": {}, "episodes_total": 12264, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -137.2146438832549, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_05-10-36", "training_iteration": 511, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756523436, "episode_len_mean": 50.0, "timesteps_since_restore": 613200, "time_since_restore": 52438.22039580345, "time_this_iter_s": 109.50699758529663, "iterations_since_restore": 511}
+{"timesteps_total": 614400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 102984.168, "num_steps_sampled": 614400, "update_time_ms": 2.622, "num_steps_trained": 614400, "load_time_ms": 0.65, "default": {"kl": 0.01368715986609459, "cur_lr": 4.999999873689376e-05, "entropy": 8.12667465209961, "total_loss": 10.103468894958496, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12915891408920288, "vf_explained_var": 0.9917065501213074, "vf_loss": 10.218769073486328}, "grad_time_ms": 721.669}, "pid": 3934253, "time_total_s": 52568.73124575615, "episode_reward_mean": -151.36754937198694, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -176.07474622271582, "policy_reward_mean": {}, "episodes_total": 12288, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -135.6766711022273, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_05-12-47", "training_iteration": 512, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756523567, "episode_len_mean": 50.0, "timesteps_since_restore": 614400, "time_since_restore": 52568.73124575615, "time_this_iter_s": 130.51084995269775, "iterations_since_restore": 512}
+{"timesteps_total": 615600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 102785.433, "num_steps_sampled": 615600, "update_time_ms": 2.633, "num_steps_trained": 615600, "load_time_ms": 0.653, "default": {"kl": 0.01425766758620739, "cur_lr": 4.999999873689376e-05, "entropy": 8.303292274475098, "total_loss": 15.37277889251709, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12664847075939178, "vf_explained_var": 0.9880255460739136, "vf_loss": 15.484992027282715}, "grad_time_ms": 707.702}, "pid": 3934253, "time_total_s": 52650.423523426056, "episode_reward_mean": -152.04099381919596, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -176.07474622271582, "policy_reward_mean": {}, "episodes_total": 12312, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -135.6766711022273, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_05-14-09", "training_iteration": 513, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756523649, "episode_len_mean": 50.0, "timesteps_since_restore": 615600, "time_since_restore": 52650.423523426056, "time_this_iter_s": 81.69227766990662, "iterations_since_restore": 513}
+{"timesteps_total": 616800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 100567.557, "num_steps_sampled": 616800, "update_time_ms": 2.548, "num_steps_trained": 616800, "load_time_ms": 0.652, "default": {"kl": 0.014286945573985577, "cur_lr": 4.999999873689376e-05, "entropy": 8.151420593261719, "total_loss": 13.630146026611328, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13689583539962769, "vf_explained_var": 0.9897435307502747, "vf_loss": 13.752577781677246}, "grad_time_ms": 716.56}, "pid": 3934253, "time_total_s": 52727.22015619278, "episode_reward_mean": -152.27760701819744, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -170.78339176081246, "policy_reward_mean": {}, "episodes_total": 12336, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -135.6766711022273, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_05-15-25", "training_iteration": 514, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756523725, "episode_len_mean": 50.0, "timesteps_since_restore": 616800, "time_since_restore": 52727.22015619278, "time_this_iter_s": 76.79663276672363, "iterations_since_restore": 514}
+{"timesteps_total": 618000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 99823.146, "num_steps_sampled": 618000, "update_time_ms": 2.531, "num_steps_trained": 618000, "load_time_ms": 0.676, "default": {"kl": 0.012816226109862328, "cur_lr": 4.999999873689376e-05, "entropy": 7.943474769592285, "total_loss": 11.330946922302246, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12894707918167114, "vf_explained_var": 0.991180956363678, "vf_loss": 11.446918487548828}, "grad_time_ms": 717.567}, "pid": 3934253, "time_total_s": 52824.06447529793, "episode_reward_mean": -152.1601072845309, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.464972589186, "policy_reward_mean": {}, "episodes_total": 12360, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -135.6766711022273, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_05-17-02", "training_iteration": 515, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756523822, "episode_len_mean": 50.0, "timesteps_since_restore": 618000, "time_since_restore": 52824.06447529793, "time_this_iter_s": 96.84431910514832, "iterations_since_restore": 515}
+{"timesteps_total": 619200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 96189.219, "num_steps_sampled": 619200, "update_time_ms": 2.517, "num_steps_trained": 619200, "load_time_ms": 0.669, "default": {"kl": 0.012791362591087818, "cur_lr": 4.999999873689376e-05, "entropy": 8.24141788482666, "total_loss": 26.494110107421875, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.10487866401672363, "vf_explained_var": 0.9813768863677979, "vf_loss": 26.58603858947754}, "grad_time_ms": 727.341}, "pid": 3934253, "time_total_s": 52886.338240385056, "episode_reward_mean": -152.80565974195426, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -188.88444817631853, "policy_reward_mean": {}, "episodes_total": 12384, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.63657027284142, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_05-18-05", "training_iteration": 516, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756523885, "episode_len_mean": 50.0, "timesteps_since_restore": 619200, "time_since_restore": 52886.338240385056, "time_this_iter_s": 62.273765087127686, "iterations_since_restore": 516}
+{"timesteps_total": 620400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 98201.82, "num_steps_sampled": 620400, "update_time_ms": 2.59, "num_steps_trained": 620400, "load_time_ms": 0.669, "default": {"kl": 0.014150070026516914, "cur_lr": 4.999999873689376e-05, "entropy": 8.084158897399902, "total_loss": 23.739412307739258, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11772307753562927, "vf_explained_var": 0.9816194176673889, "vf_loss": 23.84280776977539}, "grad_time_ms": 744.37}, "pid": 3934253, "time_total_s": 53001.20790696144, "episode_reward_mean": -152.8964755557505, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -188.88444817631853, "policy_reward_mean": {}, "episodes_total": 12408, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.63657027284142, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_05-19-59", "training_iteration": 517, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756523999, "episode_len_mean": 50.0, "timesteps_since_restore": 620400, "time_since_restore": 53001.20790696144, "time_this_iter_s": 114.8696665763855, "iterations_since_restore": 517}
+{"timesteps_total": 621600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 98627.304, "num_steps_sampled": 621600, "update_time_ms": 2.552, "num_steps_trained": 621600, "load_time_ms": 0.662, "default": {"kl": 0.013758014887571335, "cur_lr": 4.999999873689376e-05, "entropy": 8.227802276611328, "total_loss": 17.798114776611328, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13919270038604736, "vf_explained_var": 0.9861811399459839, "vf_loss": 17.923377990722656}, "grad_time_ms": 759.585}, "pid": 3934253, "time_total_s": 53113.86532020569, "episode_reward_mean": -152.3823699226433, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -188.88444817631853, "policy_reward_mean": {}, "episodes_total": 12432, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.97483859918682, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_05-21-52", "training_iteration": 518, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756524112, "episode_len_mean": 50.0, "timesteps_since_restore": 621600, "time_since_restore": 53113.86532020569, "time_this_iter_s": 112.65741324424744, "iterations_since_restore": 518}
+{"timesteps_total": 622800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 96507.54, "num_steps_sampled": 622800, "update_time_ms": 2.547, "num_steps_trained": 622800, "load_time_ms": 0.662, "default": {"kl": 0.014047209173440933, "cur_lr": 4.999999873689376e-05, "entropy": 8.386871337890625, "total_loss": 11.968228340148926, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12979204952716827, "vf_explained_var": 0.9908723831176758, "vf_loss": 12.083797454833984}, "grad_time_ms": 772.976}, "pid": 3934253, "time_total_s": 53200.06404042244, "episode_reward_mean": -152.4626276036031, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -188.88444817631853, "policy_reward_mean": {}, "episodes_total": 12456, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.3687594400822, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_05-23-18", "training_iteration": 519, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756524198, "episode_len_mean": 50.0, "timesteps_since_restore": 622800, "time_since_restore": 53200.06404042244, "time_this_iter_s": 86.1987202167511, "iterations_since_restore": 519}
+{"timesteps_total": 624000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 97227.837, "num_steps_sampled": 624000, "update_time_ms": 2.585, "num_steps_trained": 624000, "load_time_ms": 0.663, "default": {"kl": 0.012714684940874577, "cur_lr": 4.999999873689376e-05, "entropy": 7.912516117095947, "total_loss": 10.766222953796387, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1207198053598404, "vf_explained_var": 0.9909854531288147, "vf_loss": 10.874068260192871}, "grad_time_ms": 766.835}, "pid": 3934253, "time_total_s": 53308.747881650925, "episode_reward_mean": -151.79671619332342, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.87898398359434, "policy_reward_mean": {}, "episodes_total": 12480, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.7748335402267, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_05-25-07", "training_iteration": 520, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756524307, "episode_len_mean": 50.0, "timesteps_since_restore": 624000, "time_since_restore": 53308.747881650925, "time_this_iter_s": 108.68384122848511, "iterations_since_restore": 520}
+{"timesteps_total": 625200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94634.396, "num_steps_sampled": 625200, "update_time_ms": 2.608, "num_steps_trained": 625200, "load_time_ms": 0.668, "default": {"kl": 0.012906880117952824, "cur_lr": 4.999999873689376e-05, "entropy": 8.208747863769531, "total_loss": 11.932040214538574, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12314458936452866, "vf_explained_var": 0.990728497505188, "vf_loss": 12.042116165161133}, "grad_time_ms": 767.734}, "pid": 3934253, "time_total_s": 53392.32917332649, "episode_reward_mean": -151.6300232368595, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.87898398359434, "policy_reward_mean": {}, "episodes_total": 12504, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.7748335402267, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_05-26-31", "training_iteration": 521, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756524391, "episode_len_mean": 50.0, "timesteps_since_restore": 625200, "time_since_restore": 53392.32917332649, "time_this_iter_s": 83.58129167556763, "iterations_since_restore": 521}
+{"timesteps_total": 626400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92912.862, "num_steps_sampled": 626400, "update_time_ms": 2.461, "num_steps_trained": 626400, "load_time_ms": 0.64, "default": {"kl": 0.01441223919391632, "cur_lr": 4.999999873689376e-05, "entropy": 8.211857795715332, "total_loss": 14.67701530456543, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12073574960231781, "vf_explained_var": 0.9877294898033142, "vf_loss": 14.783159255981445}, "grad_time_ms": 766.158}, "pid": 3934253, "time_total_s": 53505.60668492317, "episode_reward_mean": -151.439543385995, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.87898398359434, "policy_reward_mean": {}, "episodes_total": 12528, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.45819028197874, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_05-28-24", "training_iteration": 522, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756524504, "episode_len_mean": 50.0, "timesteps_since_restore": 626400, "time_since_restore": 53505.60668492317, "time_this_iter_s": 113.27751159667969, "iterations_since_restore": 522}
+{"timesteps_total": 627600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93068.389, "num_steps_sampled": 627600, "update_time_ms": 2.534, "num_steps_trained": 627600, "load_time_ms": 0.644, "default": {"kl": 0.011968232691287994, "cur_lr": 4.999999873689376e-05, "entropy": 8.311710357666016, "total_loss": 15.748764038085938, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12205375730991364, "vf_explained_var": 0.9866352081298828, "vf_loss": 15.858699798583984}, "grad_time_ms": 786.6}, "pid": 3934253, "time_total_s": 53589.059653282166, "episode_reward_mean": -151.3334212564389, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.87898398359434, "policy_reward_mean": {}, "episodes_total": 12552, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.45819028197874, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_05-29-47", "training_iteration": 523, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756524587, "episode_len_mean": 50.0, "timesteps_since_restore": 627600, "time_since_restore": 53589.059653282166, "time_this_iter_s": 83.45296835899353, "iterations_since_restore": 523}
+{"timesteps_total": 628800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 95102.69, "num_steps_sampled": 628800, "update_time_ms": 2.546, "num_steps_trained": 628800, "load_time_ms": 0.646, "default": {"kl": 0.011504167690873146, "cur_lr": 4.999999873689376e-05, "entropy": 8.257884979248047, "total_loss": 20.620460510253906, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11923030763864517, "vf_explained_var": 0.9844631552696228, "vf_loss": 20.72804069519043}, "grad_time_ms": 778.226}, "pid": 3934253, "time_total_s": 53686.11592555046, "episode_reward_mean": -151.36060793239966, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -162.56349252872974, "policy_reward_mean": {}, "episodes_total": 12576, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.45819028197874, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_05-31-25", "training_iteration": 524, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756524685, "episode_len_mean": 50.0, "timesteps_since_restore": 628800, "time_since_restore": 53686.11592555046, "time_this_iter_s": 97.05627226829529, "iterations_since_restore": 524}
+{"timesteps_total": 630000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 95618.693, "num_steps_sampled": 630000, "update_time_ms": 2.56, "num_steps_trained": 630000, "load_time_ms": 0.616, "default": {"kl": 0.012765922583639622, "cur_lr": 4.999999873689376e-05, "entropy": 8.11794662475586, "total_loss": 11.24935531616211, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1303068846464157, "vf_explained_var": 0.9913408756256104, "vf_loss": 11.36673641204834}, "grad_time_ms": 785.336}, "pid": 3934253, "time_total_s": 53788.19004368782, "episode_reward_mean": -151.2742824012452, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -162.56349252872974, "policy_reward_mean": {}, "episodes_total": 12600, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.45819028197874, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_05-33-07", "training_iteration": 525, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756524787, "episode_len_mean": 50.0, "timesteps_since_restore": 630000, "time_since_restore": 53788.19004368782, "time_this_iter_s": 102.07411813735962, "iterations_since_restore": 525}
+{"timesteps_total": 631200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 98916.172, "num_steps_sampled": 631200, "update_time_ms": 2.524, "num_steps_trained": 631200, "load_time_ms": 0.615, "default": {"kl": 0.014033918268978596, "cur_lr": 4.999999873689376e-05, "entropy": 8.2867431640625, "total_loss": 21.977487564086914, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12659567594528198, "vf_explained_var": 0.9823175072669983, "vf_loss": 22.089872360229492}, "grad_time_ms": 773.845}, "pid": 3934253, "time_total_s": 53883.322149038315, "episode_reward_mean": -151.7377933753082, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.93235202604248, "policy_reward_mean": {}, "episodes_total": 12624, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -140.14347767908308, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_05-34-42", "training_iteration": 526, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756524882, "episode_len_mean": 50.0, "timesteps_since_restore": 631200, "time_since_restore": 53883.322149038315, "time_this_iter_s": 95.13210535049438, "iterations_since_restore": 526}
+{"timesteps_total": 632400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 99015.324, "num_steps_sampled": 632400, "update_time_ms": 2.479, "num_steps_trained": 632400, "load_time_ms": 0.616, "default": {"kl": 0.01316943857818842, "cur_lr": 4.999999873689376e-05, "entropy": 8.11813735961914, "total_loss": 15.774693489074707, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11189457774162292, "vf_explained_var": 0.988402783870697, "vf_loss": 15.87325382232666}, "grad_time_ms": 772.287}, "pid": 3934253, "time_total_s": 53999.16732788086, "episode_reward_mean": -151.79679673759537, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.93235202604248, "policy_reward_mean": {}, "episodes_total": 12648, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.85611414435792, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_05-36-38", "training_iteration": 527, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756524998, "episode_len_mean": 50.0, "timesteps_since_restore": 632400, "time_since_restore": 53999.16732788086, "time_this_iter_s": 115.84517884254456, "iterations_since_restore": 527}
+{"timesteps_total": 633600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 97399.361, "num_steps_sampled": 633600, "update_time_ms": 2.551, "num_steps_trained": 633600, "load_time_ms": 0.618, "default": {"kl": 0.013452763669192791, "cur_lr": 4.999999873689376e-05, "entropy": 7.95552921295166, "total_loss": 11.074514389038086, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12565070390701294, "vf_explained_var": 0.9907246828079224, "vf_loss": 11.186546325683594}, "grad_time_ms": 779.538}, "pid": 3934253, "time_total_s": 54095.73775577545, "episode_reward_mean": -151.85492234567778, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.93235202604248, "policy_reward_mean": {}, "episodes_total": 12672, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.85611414435792, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_05-38-14", "training_iteration": 528, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756525094, "episode_len_mean": 50.0, "timesteps_since_restore": 633600, "time_since_restore": 54095.73775577545, "time_this_iter_s": 96.57042789459229, "iterations_since_restore": 528}
+{"timesteps_total": 634800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 98868.009, "num_steps_sampled": 634800, "update_time_ms": 2.695, "num_steps_trained": 634800, "load_time_ms": 0.614, "default": {"kl": 0.012571911327540874, "cur_lr": 4.999999873689376e-05, "entropy": 7.765262126922607, "total_loss": 20.411996841430664, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11248551309108734, "vf_explained_var": 0.984770655632019, "vf_loss": 20.511754989624023}, "grad_time_ms": 771.55}, "pid": 3934253, "time_total_s": 54196.54490971565, "episode_reward_mean": -151.80911372745547, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -169.4209576894632, "policy_reward_mean": {}, "episodes_total": 12696, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.84469927279616, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_05-39-55", "training_iteration": 529, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756525195, "episode_len_mean": 50.0, "timesteps_since_restore": 634800, "time_since_restore": 54196.54490971565, "time_this_iter_s": 100.8071539402008, "iterations_since_restore": 529}
+{"timesteps_total": 636000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 97273.899, "num_steps_sampled": 636000, "update_time_ms": 2.68, "num_steps_trained": 636000, "load_time_ms": 0.612, "default": {"kl": 0.013294359669089317, "cur_lr": 4.999999873689376e-05, "entropy": 8.232682228088379, "total_loss": 13.754680633544922, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12237784266471863, "vf_explained_var": 0.9897999167442322, "vf_loss": 13.86359977722168}, "grad_time_ms": 774.521}, "pid": 3934253, "time_total_s": 54289.31747460365, "episode_reward_mean": -151.66786411049014, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -169.4209576894632, "policy_reward_mean": {}, "episodes_total": 12720, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.84469927279616, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_05-41-28", "training_iteration": 530, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756525288, "episode_len_mean": 50.0, "timesteps_since_restore": 636000, "time_since_restore": 54289.31747460365, "time_this_iter_s": 92.77256488800049, "iterations_since_restore": 530}
+{"timesteps_total": 637200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 96229.918, "num_steps_sampled": 637200, "update_time_ms": 2.633, "num_steps_trained": 637200, "load_time_ms": 0.613, "default": {"kl": 0.01316928118467331, "cur_lr": 4.999999873689376e-05, "entropy": 8.252899169921875, "total_loss": 14.948100090026855, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12974220514297485, "vf_explained_var": 0.9902970790863037, "vf_loss": 15.064509391784668}, "grad_time_ms": 772.885}, "pid": 3934253, "time_total_s": 54362.44271707535, "episode_reward_mean": -151.8159965155838, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -169.4209576894632, "policy_reward_mean": {}, "episodes_total": 12744, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.84469927279616, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_05-42-41", "training_iteration": 531, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756525361, "episode_len_mean": 50.0, "timesteps_since_restore": 637200, "time_since_restore": 54362.44271707535, "time_this_iter_s": 73.12524247169495, "iterations_since_restore": 531}
+{"timesteps_total": 638400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 96145.331, "num_steps_sampled": 638400, "update_time_ms": 2.666, "num_steps_trained": 638400, "load_time_ms": 0.62, "default": {"kl": 0.012331483885645866, "cur_lr": 4.999999873689376e-05, "entropy": 8.109546661376953, "total_loss": 11.662945747375488, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12200065702199936, "vf_explained_var": 0.9907290935516357, "vf_loss": 11.772459983825684}, "grad_time_ms": 773.306}, "pid": 3934253, "time_total_s": 54474.878903627396, "episode_reward_mean": -151.90677020646783, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -169.4209576894632, "policy_reward_mean": {}, "episodes_total": 12768, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.84469927279616, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_05-44-33", "training_iteration": 532, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756525473, "episode_len_mean": 50.0, "timesteps_since_restore": 638400, "time_since_restore": 54474.878903627396, "time_this_iter_s": 112.43618655204773, "iterations_since_restore": 532}
+{"timesteps_total": 639600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 95973.23, "num_steps_sampled": 639600, "update_time_ms": 2.589, "num_steps_trained": 639600, "load_time_ms": 0.618, "default": {"kl": 0.011274803429841995, "cur_lr": 4.999999873689376e-05, "entropy": 7.791914939880371, "total_loss": 13.35634708404541, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.10990992188453674, "vf_explained_var": 0.9885459542274475, "vf_loss": 13.454841613769531}, "grad_time_ms": 769.58}, "pid": 3934253, "time_total_s": 54556.572207927704, "episode_reward_mean": -152.0021072586479, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -163.8275029739961, "policy_reward_mean": {}, "episodes_total": 12792, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.7869101792552, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_05-45-55", "training_iteration": 533, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756525555, "episode_len_mean": 50.0, "timesteps_since_restore": 639600, "time_since_restore": 54556.572207927704, "time_this_iter_s": 81.69330430030823, "iterations_since_restore": 533}
+{"timesteps_total": 640800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 95133.223, "num_steps_sampled": 640800, "update_time_ms": 2.603, "num_steps_trained": 640800, "load_time_ms": 0.618, "default": {"kl": 0.011796173639595509, "cur_lr": 4.999999873689376e-05, "entropy": 7.725955486297607, "total_loss": 17.79370880126953, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11688640713691711, "vf_explained_var": 0.9858031868934631, "vf_loss": 17.898653030395508}, "grad_time_ms": 775.256}, "pid": 3934253, "time_total_s": 54645.28475642204, "episode_reward_mean": -151.91061175978035, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -163.8275029739961, "policy_reward_mean": {}, "episodes_total": 12816, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.7869101792552, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_05-47-24", "training_iteration": 534, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756525644, "episode_len_mean": 50.0, "timesteps_since_restore": 640800, "time_since_restore": 54645.28475642204, "time_this_iter_s": 88.71254849433899, "iterations_since_restore": 534}
+{"timesteps_total": 642000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 95814.997, "num_steps_sampled": 642000, "update_time_ms": 2.577, "num_steps_trained": 642000, "load_time_ms": 0.617, "default": {"kl": 0.01341434195637703, "cur_lr": 4.999999873689376e-05, "entropy": 7.816812515258789, "total_loss": 14.266355514526367, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12442073225975037, "vf_explained_var": 0.9879933595657349, "vf_loss": 14.377195358276367}, "grad_time_ms": 775.052}, "pid": 3934253, "time_total_s": 54754.17452979088, "episode_reward_mean": -151.75500545859387, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -163.8275029739961, "policy_reward_mean": {}, "episodes_total": 12840, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.79085044915752, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_05-49-13", "training_iteration": 535, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756525753, "episode_len_mean": 50.0, "timesteps_since_restore": 642000, "time_since_restore": 54754.17452979088, "time_this_iter_s": 108.88977336883545, "iterations_since_restore": 535}
+{"timesteps_total": 643200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 96548.363, "num_steps_sampled": 643200, "update_time_ms": 2.567, "num_steps_trained": 643200, "load_time_ms": 0.616, "default": {"kl": 0.01187937706708908, "cur_lr": 4.999999873689376e-05, "entropy": 7.564441204071045, "total_loss": 13.592453002929688, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.09899282455444336, "vf_explained_var": 0.9898480176925659, "vf_loss": 13.679417610168457}, "grad_time_ms": 776.95}, "pid": 3934253, "time_total_s": 54856.658707141876, "episode_reward_mean": -151.69387446085312, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -163.9252472156271, "policy_reward_mean": {}, "episodes_total": 12864, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -149.25603792487527, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_05-50-55", "training_iteration": 536, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756525855, "episode_len_mean": 50.0, "timesteps_since_restore": 643200, "time_since_restore": 54856.658707141876, "time_this_iter_s": 102.48417735099792, "iterations_since_restore": 536}
+{"timesteps_total": 644400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93374.482, "num_steps_sampled": 644400, "update_time_ms": 2.65, "num_steps_trained": 644400, "load_time_ms": 0.617, "default": {"kl": 0.013803391717374325, "cur_lr": 4.999999873689376e-05, "entropy": 7.7664923667907715, "total_loss": 10.183890342712402, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12922273576259613, "vf_explained_var": 0.9913797378540039, "vf_loss": 10.299137115478516}, "grad_time_ms": 774.203}, "pid": 3934253, "time_total_s": 54940.73849415779, "episode_reward_mean": -151.52124492364973, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -163.9252472156271, "policy_reward_mean": {}, "episodes_total": 12888, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -148.7753803736122, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_05-52-19", "training_iteration": 537, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756525939, "episode_len_mean": 50.0, "timesteps_since_restore": 644400, "time_since_restore": 54940.73849415779, "time_this_iter_s": 84.07978701591492, "iterations_since_restore": 537}
+{"timesteps_total": 645600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93288.352, "num_steps_sampled": 645600, "update_time_ms": 2.676, "num_steps_trained": 645600, "load_time_ms": 0.63, "default": {"kl": 0.01337174791842699, "cur_lr": 4.999999873689376e-05, "entropy": 7.903218746185303, "total_loss": 7.999932289123535, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13875660300254822, "vf_explained_var": 0.993107259273529, "vf_loss": 8.125149726867676}, "grad_time_ms": 775.502}, "pid": 3934253, "time_total_s": 55036.46237754822, "episode_reward_mean": -151.58003477042269, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -163.9252472156271, "policy_reward_mean": {}, "episodes_total": 12912, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -147.62447533124597, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_05-53-55", "training_iteration": 538, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756526035, "episode_len_mean": 50.0, "timesteps_since_restore": 645600, "time_since_restore": 55036.46237754822, "time_this_iter_s": 95.72388339042664, "iterations_since_restore": 538}
+{"timesteps_total": 646800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94409.314, "num_steps_sampled": 646800, "update_time_ms": 2.543, "num_steps_trained": 646800, "load_time_ms": 0.631, "default": {"kl": 0.011509610339999199, "cur_lr": 4.999999873689376e-05, "entropy": 7.807576656341553, "total_loss": 12.251175880432129, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1061524972319603, "vf_explained_var": 0.9901471734046936, "vf_loss": 12.345675468444824}, "grad_time_ms": 768.137}, "pid": 3934253, "time_total_s": 55148.40368771553, "episode_reward_mean": -151.5295869223695, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -163.9252472156271, "policy_reward_mean": {}, "episodes_total": 12936, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.74760840253305, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_05-55-47", "training_iteration": 539, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756526147, "episode_len_mean": 50.0, "timesteps_since_restore": 646800, "time_since_restore": 55148.40368771553, "time_this_iter_s": 111.94131016731262, "iterations_since_restore": 539}
+{"timesteps_total": 648000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94642.933, "num_steps_sampled": 648000, "update_time_ms": 2.522, "num_steps_trained": 648000, "load_time_ms": 0.636, "default": {"kl": 0.01324335765093565, "cur_lr": 4.999999873689376e-05, "entropy": 7.777318954467773, "total_loss": 14.313945770263672, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.10932556539773941, "vf_explained_var": 0.9886135458946228, "vf_loss": 14.40986442565918}, "grad_time_ms": 775.809}, "pid": 3934253, "time_total_s": 55243.58929491043, "episode_reward_mean": -151.74086113916158, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.98272412453377, "policy_reward_mean": {}, "episodes_total": 12960, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.74760840253305, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_05-57-22", "training_iteration": 540, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756526242, "episode_len_mean": 50.0, "timesteps_since_restore": 648000, "time_since_restore": 55243.58929491043, "time_this_iter_s": 95.18560719490051, "iterations_since_restore": 540}
+{"timesteps_total": 649200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 95782.371, "num_steps_sampled": 649200, "update_time_ms": 2.528, "num_steps_trained": 649200, "load_time_ms": 0.639, "default": {"kl": 0.011101160198450089, "cur_lr": 4.999999873689376e-05, "entropy": 7.8202033042907715, "total_loss": 24.006174087524414, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1093890443444252, "vf_explained_var": 0.9816538691520691, "vf_loss": 24.104326248168945}, "grad_time_ms": 785.284}, "pid": 3934253, "time_total_s": 55328.203587055206, "episode_reward_mean": -151.7548923149819, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.98272412453377, "policy_reward_mean": {}, "episodes_total": 12984, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.9202484174889, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_05-58-47", "training_iteration": 541, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756526327, "episode_len_mean": 50.0, "timesteps_since_restore": 649200, "time_since_restore": 55328.203587055206, "time_this_iter_s": 84.61429214477539, "iterations_since_restore": 541}
+{"timesteps_total": 650400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93046.918, "num_steps_sampled": 650400, "update_time_ms": 2.545, "num_steps_trained": 650400, "load_time_ms": 0.628, "default": {"kl": 0.013351892121136189, "cur_lr": 4.999999873689376e-05, "entropy": 7.874947547912598, "total_loss": 13.548004150390625, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12411337345838547, "vf_explained_var": 0.9898288249969482, "vf_loss": 13.658597946166992}, "grad_time_ms": 789.284}, "pid": 3934253, "time_total_s": 55413.32578778267, "episode_reward_mean": -151.8367207524007, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.98272412453377, "policy_reward_mean": {}, "episodes_total": 13008, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.9202484174889, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_06-00-12", "training_iteration": 542, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756526412, "episode_len_mean": 50.0, "timesteps_since_restore": 650400, "time_since_restore": 55413.32578778267, "time_this_iter_s": 85.12220072746277, "iterations_since_restore": 542}
+{"timesteps_total": 651600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 97231.22, "num_steps_sampled": 651600, "update_time_ms": 2.556, "num_steps_trained": 651600, "load_time_ms": 0.622, "default": {"kl": 0.014025096781551838, "cur_lr": 4.999999873689376e-05, "entropy": 7.527444839477539, "total_loss": 16.716171264648438, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12651662528514862, "vf_explained_var": 0.9879534840583801, "vf_loss": 16.828487396240234}, "grad_time_ms": 774.998}, "pid": 3934253, "time_total_s": 55536.71937775612, "episode_reward_mean": -152.20230023532304, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.6957739032894, "policy_reward_mean": {}, "episodes_total": 13032, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.9202484174889, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_06-02-16", "training_iteration": 543, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756526536, "episode_len_mean": 50.0, "timesteps_since_restore": 651600, "time_since_restore": 55536.71937775612, "time_this_iter_s": 123.3935899734497, "iterations_since_restore": 543}
+{"timesteps_total": 652800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 96703.712, "num_steps_sampled": 652800, "update_time_ms": 2.543, "num_steps_trained": 652800, "load_time_ms": 0.633, "default": {"kl": 0.010980258695781231, "cur_lr": 4.999999873689376e-05, "entropy": 7.6602020263671875, "total_loss": 22.34575653076172, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.10523133724927902, "vf_explained_var": 0.9839035868644714, "vf_loss": 22.439870834350586}, "grad_time_ms": 767.295}, "pid": 3934253, "time_total_s": 55620.079362392426, "episode_reward_mean": -152.33134642985738, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.6957739032894, "policy_reward_mean": {}, "episodes_total": 13056, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.9202484174889, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_06-03-39", "training_iteration": 544, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756526619, "episode_len_mean": 50.0, "timesteps_since_restore": 652800, "time_since_restore": 55620.079362392426, "time_this_iter_s": 83.35998463630676, "iterations_since_restore": 544}
+{"timesteps_total": 654000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 96466.977, "num_steps_sampled": 654000, "update_time_ms": 2.52, "num_steps_trained": 654000, "load_time_ms": 0.641, "default": {"kl": 0.011783335357904434, "cur_lr": 4.999999873689376e-05, "entropy": 7.79296875, "total_loss": 40.88715362548828, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.10244444757699966, "vf_explained_var": 0.9700209498405457, "vf_loss": 40.9776611328125}, "grad_time_ms": 765.164}, "pid": 3934253, "time_total_s": 55726.58039832115, "episode_reward_mean": -152.20774698978352, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -172.32353041127666, "policy_reward_mean": {}, "episodes_total": 13080, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -149.34913540216635, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_06-05-25", "training_iteration": 545, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756526725, "episode_len_mean": 50.0, "timesteps_since_restore": 654000, "time_since_restore": 55726.58039832115, "time_this_iter_s": 106.5010359287262, "iterations_since_restore": 545}
+{"timesteps_total": 655200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94113.276, "num_steps_sampled": 655200, "update_time_ms": 2.559, "num_steps_trained": 655200, "load_time_ms": 0.652, "default": {"kl": 0.012306980788707733, "cur_lr": 4.999999873689376e-05, "entropy": 7.727290630340576, "total_loss": 10.178478240966797, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12441620230674744, "vf_explained_var": 0.9918663501739502, "vf_loss": 10.290432929992676}, "grad_time_ms": 773.947}, "pid": 3934253, "time_total_s": 55805.616351127625, "episode_reward_mean": -152.20533783139092, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -172.32353041127666, "policy_reward_mean": {}, "episodes_total": 13104, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -143.8546421528748, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_06-06-44", "training_iteration": 546, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756526804, "episode_len_mean": 50.0, "timesteps_since_restore": 655200, "time_since_restore": 55805.616351127625, "time_this_iter_s": 79.03595280647278, "iterations_since_restore": 546}
+{"timesteps_total": 656400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93427.926, "num_steps_sampled": 656400, "update_time_ms": 2.466, "num_steps_trained": 656400, "load_time_ms": 0.643, "default": {"kl": 0.011928428895771503, "cur_lr": 4.999999873689376e-05, "entropy": 7.634652137756348, "total_loss": 16.324533462524414, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.10499259829521179, "vf_explained_var": 0.9873420000076294, "vf_loss": 16.417448043823242}, "grad_time_ms": 773.586}, "pid": 3934253, "time_total_s": 55882.83739686012, "episode_reward_mean": -151.81330852174514, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -172.32353041127666, "policy_reward_mean": {}, "episodes_total": 13128, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -143.8546421528748, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_06-08-02", "training_iteration": 547, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756526882, "episode_len_mean": 50.0, "timesteps_since_restore": 656400, "time_since_restore": 55882.83739686012, "time_this_iter_s": 77.22104573249817, "iterations_since_restore": 547}
+{"timesteps_total": 657600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94058.335, "num_steps_sampled": 657600, "update_time_ms": 2.362, "num_steps_trained": 657600, "load_time_ms": 0.634, "default": {"kl": 0.011866304092109203, "cur_lr": 4.999999873689376e-05, "entropy": 7.796850204467773, "total_loss": 22.88044548034668, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11830038577318192, "vf_explained_var": 0.9822542667388916, "vf_loss": 22.986730575561523}, "grad_time_ms": 766.724}, "pid": 3934253, "time_total_s": 55984.79539489746, "episode_reward_mean": -151.95285161137662, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -172.32353041127666, "policy_reward_mean": {}, "episodes_total": 13152, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -143.8546421528748, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_06-09-44", "training_iteration": 548, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756526984, "episode_len_mean": 50.0, "timesteps_since_restore": 657600, "time_since_restore": 55984.79539489746, "time_this_iter_s": 101.95799803733826, "iterations_since_restore": 548}
+{"timesteps_total": 658800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94776.906, "num_steps_sampled": 658800, "update_time_ms": 2.377, "num_steps_trained": 658800, "load_time_ms": 0.635, "default": {"kl": 0.013383209705352783, "cur_lr": 4.999999873689376e-05, "entropy": 8.047952651977539, "total_loss": 16.600008010864258, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1312945932149887, "vf_explained_var": 0.987158477306366, "vf_loss": 16.71775245666504}, "grad_time_ms": 775.892}, "pid": 3934253, "time_total_s": 56104.01416516304, "episode_reward_mean": -151.82635310445673, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.28430668358237, "policy_reward_mean": {}, "episodes_total": 13176, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.8730050272048, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_06-11-43", "training_iteration": 549, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756527103, "episode_len_mean": 50.0, "timesteps_since_restore": 658800, "time_since_restore": 56104.01416516304, "time_this_iter_s": 119.21877026557922, "iterations_since_restore": 549}
+{"timesteps_total": 660000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 95396.522, "num_steps_sampled": 660000, "update_time_ms": 2.399, "num_steps_trained": 660000, "load_time_ms": 0.631, "default": {"kl": 0.012394605204463005, "cur_lr": 4.999999873689376e-05, "entropy": 7.464038372039795, "total_loss": 13.411670684814453, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11062879860401154, "vf_explained_var": 0.9897158741950989, "vf_loss": 13.509750366210938}, "grad_time_ms": 766.048}, "pid": 3934253, "time_total_s": 56205.296759843826, "episode_reward_mean": -151.7888369248003, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.28430668358237, "policy_reward_mean": {}, "episodes_total": 13200, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.8730050272048, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_06-13-24", "training_iteration": 550, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756527204, "episode_len_mean": 50.0, "timesteps_since_restore": 660000, "time_since_restore": 56205.296759843826, "time_this_iter_s": 101.28259468078613, "iterations_since_restore": 550}
+{"timesteps_total": 661200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 95110.739, "num_steps_sampled": 661200, "update_time_ms": 2.409, "num_steps_trained": 661200, "load_time_ms": 0.633, "default": {"kl": 0.013078085146844387, "cur_lr": 4.999999873689376e-05, "entropy": 7.584109783172607, "total_loss": 15.645307540893555, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11028580367565155, "vf_explained_var": 0.9869313836097717, "vf_loss": 15.742351531982422}, "grad_time_ms": 755.638}, "pid": 3934253, "time_total_s": 56286.949072122574, "episode_reward_mean": -151.88660863617798, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.28430668358237, "policy_reward_mean": {}, "episodes_total": 13224, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.8730050272048, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_06-14-46", "training_iteration": 551, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756527286, "episode_len_mean": 50.0, "timesteps_since_restore": 661200, "time_since_restore": 56286.949072122574, "time_this_iter_s": 81.65231227874756, "iterations_since_restore": 551}
+{"timesteps_total": 662400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 97874.593, "num_steps_sampled": 662400, "update_time_ms": 2.444, "num_steps_trained": 662400, "load_time_ms": 0.639, "default": {"kl": 0.013991860672831535, "cur_lr": 4.999999873689376e-05, "entropy": 7.786781311035156, "total_loss": 15.687580108642578, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12217790633440018, "vf_explained_var": 0.9863888621330261, "vf_loss": 15.795589447021484}, "grad_time_ms": 749.511}, "pid": 3934253, "time_total_s": 56399.64902329445, "episode_reward_mean": -151.60787893259965, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.2084314069166, "policy_reward_mean": {}, "episodes_total": 13248, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.8730050272048, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_06-16-39", "training_iteration": 552, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756527399, "episode_len_mean": 50.0, "timesteps_since_restore": 662400, "time_since_restore": 56399.64902329445, "time_this_iter_s": 112.699951171875, "iterations_since_restore": 552}
+{"timesteps_total": 663600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94479.078, "num_steps_sampled": 663600, "update_time_ms": 2.41, "num_steps_trained": 663600, "load_time_ms": 0.65, "default": {"kl": 0.011322933249175549, "cur_lr": 4.999999873689376e-05, "entropy": 7.6803412437438965, "total_loss": 15.122419357299805, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11909367144107819, "vf_explained_var": 0.9879716038703918, "vf_loss": 15.230048179626465}, "grad_time_ms": 762.713}, "pid": 3934253, "time_total_s": 56489.219517707825, "episode_reward_mean": -151.44552527452606, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.2084314069166, "policy_reward_mean": {}, "episodes_total": 13272, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.8730050272048, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_06-18-08", "training_iteration": 553, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756527488, "episode_len_mean": 50.0, "timesteps_since_restore": 663600, "time_since_restore": 56489.219517707825, "time_this_iter_s": 89.57049441337585, "iterations_since_restore": 553}
+{"timesteps_total": 664800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 96160.343, "num_steps_sampled": 664800, "update_time_ms": 2.455, "num_steps_trained": 664800, "load_time_ms": 0.631, "default": {"kl": 0.0125638572499156, "cur_lr": 4.999999873689376e-05, "entropy": 7.583347797393799, "total_loss": 11.01961612701416, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12256471067667007, "vf_explained_var": 0.9910979866981506, "vf_loss": 11.129459381103516}, "grad_time_ms": 771.023}, "pid": 3934253, "time_total_s": 56589.475972890854, "episode_reward_mean": -151.67157253702425, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.2084314069166, "policy_reward_mean": {}, "episodes_total": 13296, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.75703188287594, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_06-19-48", "training_iteration": 554, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756527588, "episode_len_mean": 50.0, "timesteps_since_restore": 664800, "time_since_restore": 56589.475972890854, "time_this_iter_s": 100.25645518302917, "iterations_since_restore": 554}
+{"timesteps_total": 666000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 96789.175, "num_steps_sampled": 666000, "update_time_ms": 2.525, "num_steps_trained": 666000, "load_time_ms": 0.631, "default": {"kl": 0.01608692668378353, "cur_lr": 4.999999873689376e-05, "entropy": 8.026680946350098, "total_loss": 14.854989051818848, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13966526091098785, "vf_explained_var": 0.9897687435150146, "vf_loss": 14.978367805480957}, "grad_time_ms": 774.245}, "pid": 3934253, "time_total_s": 56702.29811143875, "episode_reward_mean": -151.56715217271983, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -168.90639455884744, "policy_reward_mean": {}, "episodes_total": 13320, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -143.36764966395847, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_06-21-41", "training_iteration": 555, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756527701, "episode_len_mean": 50.0, "timesteps_since_restore": 666000, "time_since_restore": 56702.29811143875, "time_this_iter_s": 112.82213854789734, "iterations_since_restore": 555}
+{"timesteps_total": 667200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 98435.435, "num_steps_sampled": 667200, "update_time_ms": 2.527, "num_steps_trained": 667200, "load_time_ms": 0.62, "default": {"kl": 0.013392424210906029, "cur_lr": 4.999999873689376e-05, "entropy": 7.8170342445373535, "total_loss": 10.752395629882812, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11502734571695328, "vf_explained_var": 0.9913275837898254, "vf_loss": 10.853862762451172}, "grad_time_ms": 770.789}, "pid": 3934253, "time_total_s": 56797.761281490326, "episode_reward_mean": -151.40665633516022, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -168.90639455884744, "policy_reward_mean": {}, "episodes_total": 13344, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.96352003292222, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_06-23-17", "training_iteration": 556, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756527797, "episode_len_mean": 50.0, "timesteps_since_restore": 667200, "time_since_restore": 56797.761281490326, "time_this_iter_s": 95.4631700515747, "iterations_since_restore": 556}
+{"timesteps_total": 668400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 101548.632, "num_steps_sampled": 668400, "update_time_ms": 2.522, "num_steps_trained": 668400, "load_time_ms": 0.63, "default": {"kl": 0.013542591594159603, "cur_lr": 4.999999873689376e-05, "entropy": 7.707234859466553, "total_loss": 9.735451698303223, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1209249496459961, "vf_explained_var": 0.9922139644622803, "vf_loss": 9.84266471862793}, "grad_time_ms": 777.582}, "pid": 3934253, "time_total_s": 56906.1828122139, "episode_reward_mean": -151.23620579021028, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -168.90639455884744, "policy_reward_mean": {}, "episodes_total": 13368, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.96352003292222, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_06-25-05", "training_iteration": 557, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756527905, "episode_len_mean": 50.0, "timesteps_since_restore": 668400, "time_since_restore": 56906.1828122139, "time_this_iter_s": 108.42153072357178, "iterations_since_restore": 557}
+{"timesteps_total": 669600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 102200.348, "num_steps_sampled": 669600, "update_time_ms": 2.554, "num_steps_trained": 669600, "load_time_ms": 0.628, "default": {"kl": 0.01427131425589323, "cur_lr": 4.999999873689376e-05, "entropy": 7.790090560913086, "total_loss": 8.442832946777344, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1334570199251175, "vf_explained_var": 0.9929354190826416, "vf_loss": 8.561840057373047}, "grad_time_ms": 762.454}, "pid": 3934253, "time_total_s": 57014.50557184219, "episode_reward_mean": -151.2608926220695, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -168.90639455884744, "policy_reward_mean": {}, "episodes_total": 13392, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.96352003292222, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_06-26-54", "training_iteration": 558, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756528014, "episode_len_mean": 50.0, "timesteps_since_restore": 669600, "time_since_restore": 57014.50557184219, "time_this_iter_s": 108.3227596282959, "iterations_since_restore": 558}
+{"timesteps_total": 670800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 101061.44, "num_steps_sampled": 670800, "update_time_ms": 2.523, "num_steps_trained": 670800, "load_time_ms": 0.622, "default": {"kl": 0.012106995098292828, "cur_lr": 4.999999873689376e-05, "entropy": 7.880985736846924, "total_loss": 13.949009895324707, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11816269904375076, "vf_explained_var": 0.9890486598014832, "vf_loss": 14.054914474487305}, "grad_time_ms": 753.675}, "pid": 3934253, "time_total_s": 57122.24686527252, "episode_reward_mean": -151.31124070736968, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.1500952171991, "policy_reward_mean": {}, "episodes_total": 13416, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.96352003292222, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_06-28-41", "training_iteration": 559, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756528121, "episode_len_mean": 50.0, "timesteps_since_restore": 670800, "time_since_restore": 57122.24686527252, "time_this_iter_s": 107.74129343032837, "iterations_since_restore": 559}
+{"timesteps_total": 672000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 99077.936, "num_steps_sampled": 672000, "update_time_ms": 2.475, "num_steps_trained": 672000, "load_time_ms": 0.625, "default": {"kl": 0.012361031025648117, "cur_lr": 4.999999873689376e-05, "entropy": 7.896833419799805, "total_loss": 17.845319747924805, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1219933032989502, "vf_explained_var": 0.9871928691864014, "vf_loss": 17.954797744750977}, "grad_time_ms": 751.704}, "pid": 3934253, "time_total_s": 57203.67510128021, "episode_reward_mean": -151.56446937536896, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.47141499845398, "policy_reward_mean": {}, "episodes_total": 13440, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -143.1663559505958, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_06-30-03", "training_iteration": 560, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756528203, "episode_len_mean": 50.0, "timesteps_since_restore": 672000, "time_since_restore": 57203.67510128021, "time_this_iter_s": 81.42823600769043, "iterations_since_restore": 560}
+{"timesteps_total": 673200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 101133.18, "num_steps_sampled": 673200, "update_time_ms": 2.442, "num_steps_trained": 673200, "load_time_ms": 0.618, "default": {"kl": 0.012184562161564827, "cur_lr": 4.999999873689376e-05, "entropy": 7.8777337074279785, "total_loss": 17.04519271850586, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12136489897966385, "vf_explained_var": 0.9857383370399475, "vf_loss": 17.154220581054688}, "grad_time_ms": 763.265}, "pid": 3934253, "time_total_s": 57305.99560403824, "episode_reward_mean": -151.73232247828938, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.47141499845398, "policy_reward_mean": {}, "episodes_total": 13464, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.79079619262694, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_06-31-45", "training_iteration": 561, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756528305, "episode_len_mean": 50.0, "timesteps_since_restore": 673200, "time_since_restore": 57305.99560403824, "time_this_iter_s": 102.32050275802612, "iterations_since_restore": 561}
+{"timesteps_total": 674400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 100718.488, "num_steps_sampled": 674400, "update_time_ms": 2.403, "num_steps_trained": 674400, "load_time_ms": 0.617, "default": {"kl": 0.012234192341566086, "cur_lr": 4.999999873689376e-05, "entropy": 7.9072394371032715, "total_loss": 12.1405668258667, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12168225646018982, "vf_explained_var": 0.9896350502967834, "vf_loss": 12.249862670898438}, "grad_time_ms": 763.304}, "pid": 3934253, "time_total_s": 57414.548646211624, "episode_reward_mean": -151.86656038831188, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.47141499845398, "policy_reward_mean": {}, "episodes_total": 13488, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.79079619262694, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_06-33-34", "training_iteration": 562, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756528414, "episode_len_mean": 50.0, "timesteps_since_restore": 674400, "time_since_restore": 57414.548646211624, "time_this_iter_s": 108.55304217338562, "iterations_since_restore": 562}
+{"timesteps_total": 675600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 100828.693, "num_steps_sampled": 675600, "update_time_ms": 2.446, "num_steps_trained": 675600, "load_time_ms": 0.612, "default": {"kl": 0.011146489530801773, "cur_lr": 4.999999873689376e-05, "entropy": 7.461226463317871, "total_loss": 10.990604400634766, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12205490469932556, "vf_explained_var": 0.9911925792694092, "vf_loss": 11.101373672485352}, "grad_time_ms": 756.709}, "pid": 3934253, "time_total_s": 57505.155586481094, "episode_reward_mean": -151.8312616787746, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.17639154659727, "policy_reward_mean": {}, "episodes_total": 13512, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -135.40392465635645, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_06-35-04", "training_iteration": 563, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756528504, "episode_len_mean": 50.0, "timesteps_since_restore": 675600, "time_since_restore": 57505.155586481094, "time_this_iter_s": 90.60694026947021, "iterations_since_restore": 563}
+{"timesteps_total": 676800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 99875.662, "num_steps_sampled": 676800, "update_time_ms": 2.389, "num_steps_trained": 676800, "load_time_ms": 0.615, "default": {"kl": 0.013896778225898743, "cur_lr": 4.999999873689376e-05, "entropy": 7.457207679748535, "total_loss": 11.320537567138672, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13056457042694092, "vf_explained_var": 0.9907848834991455, "vf_loss": 11.437031745910645}, "grad_time_ms": 762.526}, "pid": 3934253, "time_total_s": 57595.93927574158, "episode_reward_mean": -152.12418592379265, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -168.22577448549237, "policy_reward_mean": {}, "episodes_total": 13536, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -135.40392465635645, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_06-36-35", "training_iteration": 564, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756528595, "episode_len_mean": 50.0, "timesteps_since_restore": 676800, "time_since_restore": 57595.93927574158, "time_this_iter_s": 90.78368926048279, "iterations_since_restore": 564}
+{"timesteps_total": 678000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 100426.129, "num_steps_sampled": 678000, "update_time_ms": 2.36, "num_steps_trained": 678000, "load_time_ms": 0.613, "default": {"kl": 0.011276878416538239, "cur_lr": 4.999999873689376e-05, "entropy": 7.278744220733643, "total_loss": 16.736454010009766, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11820343136787415, "vf_explained_var": 0.9870368242263794, "vf_loss": 16.843238830566406}, "grad_time_ms": 748.383}, "pid": 3934253, "time_total_s": 57714.12493252754, "episode_reward_mean": -152.0202009410142, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -168.22577448549237, "policy_reward_mean": {}, "episodes_total": 13560, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -135.40392465635645, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_06-38-33", "training_iteration": 565, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756528713, "episode_len_mean": 50.0, "timesteps_since_restore": 678000, "time_since_restore": 57714.12493252754, "time_this_iter_s": 118.18565678596497, "iterations_since_restore": 565}
+{"timesteps_total": 679200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 101492.584, "num_steps_sampled": 679200, "update_time_ms": 2.34, "num_steps_trained": 679200, "load_time_ms": 0.615, "default": {"kl": 0.014653812162578106, "cur_lr": 4.999999873689376e-05, "entropy": 7.344961166381836, "total_loss": 20.03702735900879, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11613241583108902, "vf_explained_var": 0.9865771532058716, "vf_loss": 20.138322830200195}, "grad_time_ms": 735.91}, "pid": 3934253, "time_total_s": 57820.13002371788, "episode_reward_mean": -151.91582745968978, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -168.22577448549237, "policy_reward_mean": {}, "episodes_total": 13584, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -135.40392465635645, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_06-40-19", "training_iteration": 566, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756528819, "episode_len_mean": 50.0, "timesteps_since_restore": 679200, "time_since_restore": 57820.13002371788, "time_this_iter_s": 106.00509119033813, "iterations_since_restore": 566}
+{"timesteps_total": 680400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 98846.678, "num_steps_sampled": 680400, "update_time_ms": 2.359, "num_steps_trained": 680400, "load_time_ms": 0.615, "default": {"kl": 0.011863755993545055, "cur_lr": 4.999999873689376e-05, "entropy": 7.693569660186768, "total_loss": 20.87421226501465, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11812932044267654, "vf_explained_var": 0.9834575653076172, "vf_loss": 20.98032569885254}, "grad_time_ms": 732.276}, "pid": 3934253, "time_total_s": 57902.05630970001, "episode_reward_mean": -151.84447129846183, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -168.22577448549237, "policy_reward_mean": {}, "episodes_total": 13608, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.66634416044175, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_06-41-41", "training_iteration": 567, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756528901, "episode_len_mean": 50.0, "timesteps_since_restore": 680400, "time_since_restore": 57902.05630970001, "time_this_iter_s": 81.92628598213196, "iterations_since_restore": 567}
+{"timesteps_total": 681600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 97790.357, "num_steps_sampled": 681600, "update_time_ms": 2.397, "num_steps_trained": 681600, "load_time_ms": 0.616, "default": {"kl": 0.011216883547604084, "cur_lr": 4.999999873689376e-05, "entropy": 7.75992488861084, "total_loss": 16.491910934448242, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12139460444450378, "vf_explained_var": 0.98785400390625, "vf_loss": 16.601947784423828}, "grad_time_ms": 753.3}, "pid": 3934253, "time_total_s": 58000.02692985535, "episode_reward_mean": -151.5986989681715, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.57318712299187, "policy_reward_mean": {}, "episodes_total": 13632, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.99448377052, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_06-43-19", "training_iteration": 568, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756528999, "episode_len_mean": 50.0, "timesteps_since_restore": 681600, "time_since_restore": 58000.02692985535, "time_this_iter_s": 97.97062015533447, "iterations_since_restore": 568}
+{"timesteps_total": 682800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 98730.33, "num_steps_sampled": 682800, "update_time_ms": 2.389, "num_steps_trained": 682800, "load_time_ms": 0.62, "default": {"kl": 0.011672453954815865, "cur_lr": 4.999999873689376e-05, "entropy": 7.440184593200684, "total_loss": 13.130718231201172, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.10527868568897247, "vf_explained_var": 0.9891159534454346, "vf_loss": 13.224178314208984}, "grad_time_ms": 760.107}, "pid": 3934253, "time_total_s": 58117.23666000366, "episode_reward_mean": -151.80092093432214, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.57318712299187, "policy_reward_mean": {}, "episodes_total": 13656, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.99448377052, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_06-45-16", "training_iteration": 569, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756529116, "episode_len_mean": 50.0, "timesteps_since_restore": 682800, "time_since_restore": 58117.23666000366, "time_this_iter_s": 117.20973014831543, "iterations_since_restore": 569}
+{"timesteps_total": 684000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 97885.303, "num_steps_sampled": 684000, "update_time_ms": 2.389, "num_steps_trained": 684000, "load_time_ms": 0.614, "default": {"kl": 0.014902864582836628, "cur_lr": 4.999999873689376e-05, "entropy": 7.657007694244385, "total_loss": 12.331796646118164, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1290094405412674, "vf_explained_var": 0.989945650100708, "vf_loss": 12.445716857910156}, "grad_time_ms": 756.273}, "pid": 3934253, "time_total_s": 58190.176151037216, "episode_reward_mean": -152.00770656228394, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.57318712299187, "policy_reward_mean": {}, "episodes_total": 13680, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.99448377052, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_06-46-29", "training_iteration": 570, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756529189, "episode_len_mean": 50.0, "timesteps_since_restore": 684000, "time_since_restore": 58190.176151037216, "time_this_iter_s": 72.93949103355408, "iterations_since_restore": 570}
+{"timesteps_total": 685200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94176.655, "num_steps_sampled": 685200, "update_time_ms": 2.514, "num_steps_trained": 685200, "load_time_ms": 0.617, "default": {"kl": 0.013572430238127708, "cur_lr": 4.999999873689376e-05, "entropy": 7.551823139190674, "total_loss": 8.981759071350098, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13007181882858276, "vf_explained_var": 0.9922204613685608, "vf_loss": 9.098089218139648}, "grad_time_ms": 753.349}, "pid": 3934253, "time_total_s": 58255.38171863556, "episode_reward_mean": -151.82728255358478, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.57318712299187, "policy_reward_mean": {}, "episodes_total": 13704, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.99448377052, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_06-47-35", "training_iteration": 571, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756529255, "episode_len_mean": 50.0, "timesteps_since_restore": 685200, "time_since_restore": 58255.38171863556, "time_this_iter_s": 65.2055675983429, "iterations_since_restore": 571}
+{"timesteps_total": 686400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92049.621, "num_steps_sampled": 686400, "update_time_ms": 2.474, "num_steps_trained": 686400, "load_time_ms": 0.621, "default": {"kl": 0.013356123119592667, "cur_lr": 4.999999873689376e-05, "entropy": 7.2052764892578125, "total_loss": 12.253599166870117, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.10353487730026245, "vf_explained_var": 0.9895342588424683, "vf_loss": 12.343612670898438}, "grad_time_ms": 753.076}, "pid": 3934253, "time_total_s": 58342.66126012802, "episode_reward_mean": -151.84706925774134, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.6289682061747, "policy_reward_mean": {}, "episodes_total": 13728, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -146.64909800243484, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_06-49-02", "training_iteration": 572, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756529342, "episode_len_mean": 50.0, "timesteps_since_restore": 686400, "time_since_restore": 58342.66126012802, "time_this_iter_s": 87.27954149246216, "iterations_since_restore": 572}
+{"timesteps_total": 687600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92856.237, "num_steps_sampled": 687600, "update_time_ms": 2.458, "num_steps_trained": 687600, "load_time_ms": 0.614, "default": {"kl": 0.012467894703149796, "cur_lr": 4.999999873689376e-05, "entropy": 7.665492534637451, "total_loss": 12.708492279052734, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11531029641628265, "vf_explained_var": 0.9901459217071533, "vf_loss": 12.811178207397461}, "grad_time_ms": 761.337}, "pid": 3934253, "time_total_s": 58441.416241407394, "episode_reward_mean": -151.3989287948314, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -160.94876140781466, "policy_reward_mean": {}, "episodes_total": 13752, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.5995533319289, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_06-50-41", "training_iteration": 573, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756529441, "episode_len_mean": 50.0, "timesteps_since_restore": 687600, "time_since_restore": 58441.416241407394, "time_this_iter_s": 98.75498127937317, "iterations_since_restore": 573}
+{"timesteps_total": 688800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92962.609, "num_steps_sampled": 688800, "update_time_ms": 2.469, "num_steps_trained": 688800, "load_time_ms": 0.611, "default": {"kl": 0.012100116349756718, "cur_lr": 4.999999873689376e-05, "entropy": 7.34058141708374, "total_loss": 18.82788848876953, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11172984540462494, "vf_explained_var": 0.9857650399208069, "vf_loss": 18.927371978759766}, "grad_time_ms": 728.025}, "pid": 3934253, "time_total_s": 58532.93010187149, "episode_reward_mean": -151.50244165879874, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -161.4437523974731, "policy_reward_mean": {}, "episodes_total": 13776, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.5995533319289, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_06-52-12", "training_iteration": 574, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756529532, "episode_len_mean": 50.0, "timesteps_since_restore": 688800, "time_since_restore": 58532.93010187149, "time_this_iter_s": 91.51386046409607, "iterations_since_restore": 574}
+{"timesteps_total": 690000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 90303.556, "num_steps_sampled": 690000, "update_time_ms": 2.483, "num_steps_trained": 690000, "load_time_ms": 0.61, "default": {"kl": 0.012349085882306099, "cur_lr": 4.999999873689376e-05, "entropy": 7.143519878387451, "total_loss": 17.44886016845703, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11287827044725418, "vf_explained_var": 0.9857209324836731, "vf_loss": 17.549238204956055}, "grad_time_ms": 718.251}, "pid": 3934253, "time_total_s": 58624.427540779114, "episode_reward_mean": -151.5061001221446, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -161.4437523974731, "policy_reward_mean": {}, "episodes_total": 13800, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.5995533319289, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_06-53-44", "training_iteration": 575, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756529624, "episode_len_mean": 50.0, "timesteps_since_restore": 690000, "time_since_restore": 58624.427540779114, "time_this_iter_s": 91.49743890762329, "iterations_since_restore": 575}
+{"timesteps_total": 691200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 91299.366, "num_steps_sampled": 691200, "update_time_ms": 2.473, "num_steps_trained": 691200, "load_time_ms": 0.617, "default": {"kl": 0.011632119305431843, "cur_lr": 4.999999873689376e-05, "entropy": 7.450540542602539, "total_loss": 18.479217529296875, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.113397017121315, "vf_explained_var": 0.9858831763267517, "vf_loss": 18.58083724975586}, "grad_time_ms": 718.423}, "pid": 3934253, "time_total_s": 58740.391570568085, "episode_reward_mean": -151.6670901938319, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.29363151307973, "policy_reward_mean": {}, "episodes_total": 13824, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.5995533319289, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_06-55-40", "training_iteration": 576, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756529740, "episode_len_mean": 50.0, "timesteps_since_restore": 691200, "time_since_restore": 58740.391570568085, "time_this_iter_s": 115.96402978897095, "iterations_since_restore": 576}
+{"timesteps_total": 692400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 90758.536, "num_steps_sampled": 692400, "update_time_ms": 2.517, "num_steps_trained": 692400, "load_time_ms": 0.618, "default": {"kl": 0.014467747882008553, "cur_lr": 4.999999873689376e-05, "entropy": 7.817798137664795, "total_loss": 15.944793701171875, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13392749428749084, "vf_explained_var": 0.9877843856811523, "vf_loss": 16.06407356262207}, "grad_time_ms": 723.72}, "pid": 3934253, "time_total_s": 58816.963297605515, "episode_reward_mean": -151.96521562869458, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.04381562923297, "policy_reward_mean": {}, "episodes_total": 13848, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.44307414123705, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_06-56-56", "training_iteration": 577, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756529816, "episode_len_mean": 50.0, "timesteps_since_restore": 692400, "time_since_restore": 58816.963297605515, "time_this_iter_s": 76.57172703742981, "iterations_since_restore": 577}
+{"timesteps_total": 693600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93282.483, "num_steps_sampled": 693600, "update_time_ms": 2.52, "num_steps_trained": 693600, "load_time_ms": 0.627, "default": {"kl": 0.01336402352899313, "cur_lr": 4.999999873689376e-05, "entropy": 7.232810974121094, "total_loss": 22.106884002685547, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11316641420125961, "vf_explained_var": 0.9828341007232666, "vf_loss": 22.206520080566406}, "grad_time_ms": 715.479}, "pid": 3934253, "time_total_s": 58940.09111189842, "episode_reward_mean": -151.83281265991272, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.04381562923297, "policy_reward_mean": {}, "episodes_total": 13872, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -140.01545140863857, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_06-58-59", "training_iteration": 578, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756529939, "episode_len_mean": 50.0, "timesteps_since_restore": 693600, "time_since_restore": 58940.09111189842, "time_this_iter_s": 123.12781429290771, "iterations_since_restore": 578}
+{"timesteps_total": 694800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 90937.401, "num_steps_sampled": 694800, "update_time_ms": 2.566, "num_steps_trained": 694800, "load_time_ms": 0.63, "default": {"kl": 0.012695417739450932, "cur_lr": 4.999999873689376e-05, "entropy": 7.237936973571777, "total_loss": 11.189031600952148, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.10490371286869049, "vf_explained_var": 0.9903163909912109, "vf_loss": 11.281082153320312}, "grad_time_ms": 726.687}, "pid": 3934253, "time_total_s": 59033.962436914444, "episode_reward_mean": -151.86428952841857, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.04381562923297, "policy_reward_mean": {}, "episodes_total": 13896, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -140.01545140863857, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-00-33", "training_iteration": 579, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756530033, "episode_len_mean": 50.0, "timesteps_since_restore": 694800, "time_since_restore": 59033.962436914444, "time_this_iter_s": 93.87132501602173, "iterations_since_restore": 579}
+{"timesteps_total": 696000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92486.912, "num_steps_sampled": 696000, "update_time_ms": 2.619, "num_steps_trained": 696000, "load_time_ms": 0.632, "default": {"kl": 0.010564768686890602, "cur_lr": 4.999999873689376e-05, "entropy": 7.240657329559326, "total_loss": 28.40843391418457, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.10259688645601273, "vf_explained_var": 0.9848769307136536, "vf_loss": 28.50033187866211}, "grad_time_ms": 727.581}, "pid": 3934253, "time_total_s": 59122.40687298775, "episode_reward_mean": -152.01809617008124, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.04381562923297, "policy_reward_mean": {}, "episodes_total": 13920, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -140.01545140863857, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-02-02", "training_iteration": 580, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756530122, "episode_len_mean": 50.0, "timesteps_since_restore": 696000, "time_since_restore": 59122.40687298775, "time_this_iter_s": 88.44443607330322, "iterations_since_restore": 580}
+{"timesteps_total": 697200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94174.302, "num_steps_sampled": 697200, "update_time_ms": 2.676, "num_steps_trained": 697200, "load_time_ms": 0.627, "default": {"kl": 0.012403911910951138, "cur_lr": 4.999999873689376e-05, "entropy": 7.399474143981934, "total_loss": 14.142861366271973, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.10619829595088959, "vf_explained_var": 0.9894328713417053, "vf_loss": 14.23650074005127}, "grad_time_ms": 729.301}, "pid": 3934253, "time_total_s": 59204.50434041023, "episode_reward_mean": -152.04174332906396, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.16394158770373, "policy_reward_mean": {}, "episodes_total": 13944, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -140.01545140863857, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-03-24", "training_iteration": 581, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756530204, "episode_len_mean": 50.0, "timesteps_since_restore": 697200, "time_since_restore": 59204.50434041023, "time_this_iter_s": 82.09746742248535, "iterations_since_restore": 581}
+{"timesteps_total": 698400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93912.092, "num_steps_sampled": 698400, "update_time_ms": 2.694, "num_steps_trained": 698400, "load_time_ms": 0.63, "default": {"kl": 0.012006421573460102, "cur_lr": 4.999999873689376e-05, "entropy": 7.297507286071777, "total_loss": 15.31088924407959, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.09045369178056717, "vf_explained_var": 0.9878251552581787, "vf_loss": 15.389185905456543}, "grad_time_ms": 717.738}, "pid": 3934253, "time_total_s": 59289.04621386528, "episode_reward_mean": -152.30105653435592, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.16394158770373, "policy_reward_mean": {}, "episodes_total": 13968, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -149.0772481269036, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-04-49", "training_iteration": 582, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756530289, "episode_len_mean": 50.0, "timesteps_since_restore": 698400, "time_since_restore": 59289.04621386528, "time_this_iter_s": 84.54187345504761, "iterations_since_restore": 582}
+{"timesteps_total": 699600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 91703.455, "num_steps_sampled": 699600, "update_time_ms": 2.692, "num_steps_trained": 699600, "load_time_ms": 0.633, "default": {"kl": 0.013890719972550869, "cur_lr": 4.999999873689376e-05, "entropy": 7.63686466217041, "total_loss": 16.806406021118164, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13375477492809296, "vf_explained_var": 0.9869916439056396, "vf_loss": 16.926095962524414}, "grad_time_ms": 716.911}, "pid": 3934253, "time_total_s": 59365.7064769268, "episode_reward_mean": -152.14242325846607, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.10500275666027, "policy_reward_mean": {}, "episodes_total": 13992, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.06966000406916, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-06-05", "training_iteration": 583, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756530365, "episode_len_mean": 50.0, "timesteps_since_restore": 699600, "time_since_restore": 59365.7064769268, "time_this_iter_s": 76.66026306152344, "iterations_since_restore": 583}
+{"timesteps_total": 700800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92539.701, "num_steps_sampled": 700800, "update_time_ms": 2.683, "num_steps_trained": 700800, "load_time_ms": 0.632, "default": {"kl": 0.012830524705350399, "cur_lr": 4.999999873689376e-05, "entropy": 7.533829689025879, "total_loss": 16.497915267944336, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11289564520120621, "vf_explained_var": 0.9874927997589111, "vf_loss": 16.59781837463379}, "grad_time_ms": 720.897}, "pid": 3934253, "time_total_s": 59465.62331390381, "episode_reward_mean": -151.95782594633437, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.10500275666027, "policy_reward_mean": {}, "episodes_total": 14016, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.06966000406916, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-07-45", "training_iteration": 584, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756530465, "episode_len_mean": 50.0, "timesteps_since_restore": 700800, "time_since_restore": 59465.62331390381, "time_this_iter_s": 99.916836977005, "iterations_since_restore": 584}
+{"timesteps_total": 702000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93571.579, "num_steps_sampled": 702000, "update_time_ms": 2.642, "num_steps_trained": 702000, "load_time_ms": 0.636, "default": {"kl": 0.01353020966053009, "cur_lr": 4.999999873689376e-05, "entropy": 7.338387489318848, "total_loss": 13.563823699951172, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11937059462070465, "vf_explained_var": 0.9893013834953308, "vf_loss": 13.66949462890625}, "grad_time_ms": 732.656}, "pid": 3934253, "time_total_s": 59567.556359767914, "episode_reward_mean": -151.9279004109191, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.94330068728993, "policy_reward_mean": {}, "episodes_total": 14040, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.05374428274698, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-09-27", "training_iteration": 585, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756530567, "episode_len_mean": 50.0, "timesteps_since_restore": 702000, "time_since_restore": 59567.556359767914, "time_this_iter_s": 101.93304586410522, "iterations_since_restore": 585}
+{"timesteps_total": 703200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92809.295, "num_steps_sampled": 703200, "update_time_ms": 2.631, "num_steps_trained": 703200, "load_time_ms": 0.632, "default": {"kl": 0.013093508780002594, "cur_lr": 4.999999873689376e-05, "entropy": 7.247652053833008, "total_loss": 9.93628978729248, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12289997935295105, "vf_explained_var": 0.9934365749359131, "vf_loss": 10.04593276977539}, "grad_time_ms": 725.034}, "pid": 3934253, "time_total_s": 59675.8199942112, "episode_reward_mean": -151.74111855739798, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.94330068728993, "policy_reward_mean": {}, "episodes_total": 14064, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.05374428274698, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-11-15", "training_iteration": 586, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756530675, "episode_len_mean": 50.0, "timesteps_since_restore": 703200, "time_since_restore": 59675.8199942112, "time_this_iter_s": 108.26363444328308, "iterations_since_restore": 586}
+{"timesteps_total": 704400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93204.657, "num_steps_sampled": 704400, "update_time_ms": 2.598, "num_steps_trained": 704400, "load_time_ms": 0.626, "default": {"kl": 0.011846650391817093, "cur_lr": 4.999999873689376e-05, "entropy": 7.4674248695373535, "total_loss": 8.97598934173584, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12297610193490982, "vf_explained_var": 0.992843747138977, "vf_loss": 9.086971282958984}, "grad_time_ms": 686.738}, "pid": 3934253, "time_total_s": 59755.96127986908, "episode_reward_mean": -151.67899424222992, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.94330068728993, "policy_reward_mean": {}, "episodes_total": 14088, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.05374428274698, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-12-35", "training_iteration": 587, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756530755, "episode_len_mean": 50.0, "timesteps_since_restore": 704400, "time_since_restore": 59755.96127986908, "time_this_iter_s": 80.14128565788269, "iterations_since_restore": 587}
+{"timesteps_total": 705600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 90622.339, "num_steps_sampled": 705600, "update_time_ms": 2.583, "num_steps_trained": 705600, "load_time_ms": 0.621, "default": {"kl": 0.012162242084741592, "cur_lr": 4.999999873689376e-05, "entropy": 7.1651153564453125, "total_loss": 10.699304580688477, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.09133824706077576, "vf_explained_var": 0.9913658499717712, "vf_loss": 10.778327941894531}, "grad_time_ms": 690.449}, "pid": 3934253, "time_total_s": 59853.30315685272, "episode_reward_mean": -151.6922593391394, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.94330068728993, "policy_reward_mean": {}, "episodes_total": 14112, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.05374428274698, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-14-13", "training_iteration": 588, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756530853, "episode_len_mean": 50.0, "timesteps_since_restore": 705600, "time_since_restore": 59853.30315685272, "time_this_iter_s": 97.34187698364258, "iterations_since_restore": 588}
+{"timesteps_total": 706800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92077.509, "num_steps_sampled": 706800, "update_time_ms": 2.504, "num_steps_trained": 706800, "load_time_ms": 0.65, "default": {"kl": 0.01409607008099556, "cur_lr": 4.999999873689376e-05, "entropy": 7.442818641662598, "total_loss": 8.390382766723633, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12273070216178894, "vf_explained_var": 0.994513213634491, "vf_loss": 8.49884033203125}, "grad_time_ms": 678.541}, "pid": 3934253, "time_total_s": 59961.60695576668, "episode_reward_mean": -151.50156964718323, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.34163108568424, "policy_reward_mean": {}, "episodes_total": 14136, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.81389860999062, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-16-01", "training_iteration": 589, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756530961, "episode_len_mean": 50.0, "timesteps_since_restore": 706800, "time_since_restore": 59961.60695576668, "time_this_iter_s": 108.30379891395569, "iterations_since_restore": 589}
+{"timesteps_total": 708000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94196.583, "num_steps_sampled": 708000, "update_time_ms": 2.523, "num_steps_trained": 708000, "load_time_ms": 0.674, "default": {"kl": 0.012521314434707165, "cur_lr": 4.999999873689376e-05, "entropy": 7.323137283325195, "total_loss": 10.42292308807373, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13767369091510773, "vf_explained_var": 0.9919801354408264, "vf_loss": 10.547918319702148}, "grad_time_ms": 678.715}, "pid": 3934253, "time_total_s": 60071.24426102638, "episode_reward_mean": -151.5101446258732, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.03042833185478, "policy_reward_mean": {}, "episodes_total": 14160, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -140.0657561986548, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-17-51", "training_iteration": 590, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756531071, "episode_len_mean": 50.0, "timesteps_since_restore": 708000, "time_since_restore": 60071.24426102638, "time_this_iter_s": 109.63730525970459, "iterations_since_restore": 590}
+{"timesteps_total": 709200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 96082.76, "num_steps_sampled": 709200, "update_time_ms": 2.382, "num_steps_trained": 709200, "load_time_ms": 0.687, "default": {"kl": 0.011179720051586628, "cur_lr": 4.999999873689376e-05, "entropy": 6.874238967895508, "total_loss": 7.746560096740723, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12053953111171722, "vf_explained_var": 0.993653416633606, "vf_loss": 7.85577917098999}, "grad_time_ms": 673.693}, "pid": 3934253, "time_total_s": 60172.15154004097, "episode_reward_mean": -151.75990299087707, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.29179124485003, "policy_reward_mean": {}, "episodes_total": 14184, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.96449797766664, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-19-32", "training_iteration": 591, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756531172, "episode_len_mean": 50.0, "timesteps_since_restore": 709200, "time_since_restore": 60172.15154004097, "time_this_iter_s": 100.9072790145874, "iterations_since_restore": 591}
+{"timesteps_total": 710400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 98768.234, "num_steps_sampled": 710400, "update_time_ms": 2.353, "num_steps_trained": 710400, "load_time_ms": 0.697, "default": {"kl": 0.011559142731130123, "cur_lr": 4.999999873689376e-05, "entropy": 7.005263328552246, "total_loss": 9.97242546081543, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11214432120323181, "vf_explained_var": 0.9928156733512878, "vf_loss": 10.07286548614502}, "grad_time_ms": 679.973}, "pid": 3934253, "time_total_s": 60283.61056137085, "episode_reward_mean": -151.78678105090998, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.29179124485003, "policy_reward_mean": {}, "episodes_total": 14208, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.96449797766664, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-21-23", "training_iteration": 592, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756531283, "episode_len_mean": 50.0, "timesteps_since_restore": 710400, "time_since_restore": 60283.61056137085, "time_this_iter_s": 111.45902132987976, "iterations_since_restore": 592}
+{"timesteps_total": 711600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 99394.054, "num_steps_sampled": 711600, "update_time_ms": 2.327, "num_steps_trained": 711600, "load_time_ms": 0.699, "default": {"kl": 0.01326974667608738, "cur_lr": 4.999999873689376e-05, "entropy": 7.2245941162109375, "total_loss": 13.130340576171875, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1341947764158249, "vf_explained_var": 0.9907307028770447, "vf_loss": 13.251100540161133}, "grad_time_ms": 673.367}, "pid": 3934253, "time_total_s": 60366.462671756744, "episode_reward_mean": -151.6194461096379, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.29179124485003, "policy_reward_mean": {}, "episodes_total": 14232, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.96449797766664, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-22-46", "training_iteration": 593, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756531366, "episode_len_mean": 50.0, "timesteps_since_restore": 711600, "time_since_restore": 60366.462671756744, "time_this_iter_s": 82.85211038589478, "iterations_since_restore": 593}
+{"timesteps_total": 712800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 99127.994, "num_steps_sampled": 712800, "update_time_ms": 2.34, "num_steps_trained": 712800, "load_time_ms": 0.702, "default": {"kl": 0.013715913519263268, "cur_lr": 4.999999873689376e-05, "entropy": 7.543368816375732, "total_loss": 12.581001281738281, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1392856240272522, "vf_explained_var": 0.9903258085250854, "vf_loss": 12.706399917602539}, "grad_time_ms": 693.584}, "pid": 3934253, "time_total_s": 60463.921142578125, "episode_reward_mean": -151.841262826727, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.29179124485003, "policy_reward_mean": {}, "episodes_total": 14256, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -135.49370618230293, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-24-24", "training_iteration": 594, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756531464, "episode_len_mean": 50.0, "timesteps_since_restore": 712800, "time_since_restore": 60463.921142578125, "time_this_iter_s": 97.45847082138062, "iterations_since_restore": 594}
+{"timesteps_total": 714000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 97260.312, "num_steps_sampled": 714000, "update_time_ms": 2.389, "num_steps_trained": 714000, "load_time_ms": 0.696, "default": {"kl": 0.014189370907843113, "cur_lr": 4.999999873689376e-05, "entropy": 7.186726093292236, "total_loss": 13.266934394836426, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11609578132629395, "vf_explained_var": 0.9903583526611328, "vf_loss": 13.368663787841797}, "grad_time_ms": 700.24}, "pid": 3934253, "time_total_s": 60547.2446205616, "episode_reward_mean": -151.6338203087051, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.4763763376484, "policy_reward_mean": {}, "episodes_total": 14280, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -135.49370618230293, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-25-47", "training_iteration": 595, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756531547, "episode_len_mean": 50.0, "timesteps_since_restore": 714000, "time_since_restore": 60547.2446205616, "time_this_iter_s": 83.32347798347473, "iterations_since_restore": 595}
+{"timesteps_total": 715200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 95154.528, "num_steps_sampled": 715200, "update_time_ms": 2.427, "num_steps_trained": 715200, "load_time_ms": 0.691, "default": {"kl": 0.011939617805182934, "cur_lr": 4.999999873689376e-05, "entropy": 6.9514336585998535, "total_loss": 15.354241371154785, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1097557544708252, "vf_explained_var": 0.9887726306915283, "vf_loss": 15.451909065246582}, "grad_time_ms": 726.238}, "pid": 3934253, "time_total_s": 60634.71063876152, "episode_reward_mean": -151.64690577669663, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.4763763376484, "policy_reward_mean": {}, "episodes_total": 14304, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -135.49370618230293, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-27-14", "training_iteration": 596, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756531634, "episode_len_mean": 50.0, "timesteps_since_restore": 715200, "time_since_restore": 60634.71063876152, "time_this_iter_s": 87.46601819992065, "iterations_since_restore": 596}
+{"timesteps_total": 716400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93652.735, "num_steps_sampled": 716400, "update_time_ms": 2.603, "num_steps_trained": 716400, "load_time_ms": 0.696, "default": {"kl": 0.010730365291237831, "cur_lr": 4.999999873689376e-05, "entropy": 7.129854202270508, "total_loss": 18.592544555664062, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.10800933092832565, "vf_explained_var": 0.9868574142456055, "vf_loss": 18.68968963623047}, "grad_time_ms": 760.154}, "pid": 3934253, "time_total_s": 60700.175520420074, "episode_reward_mean": -151.62646291803293, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.4763763376484, "policy_reward_mean": {}, "episodes_total": 14328, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -135.49370618230293, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-28-20", "training_iteration": 597, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756531700, "episode_len_mean": 50.0, "timesteps_since_restore": 716400, "time_since_restore": 60700.175520420074, "time_this_iter_s": 65.46488165855408, "iterations_since_restore": 597}
+{"timesteps_total": 717600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92106.567, "num_steps_sampled": 717600, "update_time_ms": 2.634, "num_steps_trained": 717600, "load_time_ms": 0.695, "default": {"kl": 0.01186525821685791, "cur_lr": 4.999999873689376e-05, "entropy": 7.202608108520508, "total_loss": 14.549711227416992, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.10322961211204529, "vf_explained_var": 0.9883344173431396, "vf_loss": 14.640926361083984}, "grad_time_ms": 767.015}, "pid": 3934253, "time_total_s": 60782.12470793724, "episode_reward_mean": -151.53312025163663, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.025584113289, "policy_reward_mean": {}, "episodes_total": 14352, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -140.24453536788127, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-29-42", "training_iteration": 598, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756531782, "episode_len_mean": 50.0, "timesteps_since_restore": 717600, "time_since_restore": 60782.12470793724, "time_this_iter_s": 81.94918751716614, "iterations_since_restore": 598}
+{"timesteps_total": 718800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 89806.981, "num_steps_sampled": 718800, "update_time_ms": 2.689, "num_steps_trained": 718800, "load_time_ms": 0.659, "default": {"kl": 0.013243130408227444, "cur_lr": 4.999999873689376e-05, "entropy": 7.225077152252197, "total_loss": 18.396018981933594, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11471739411354065, "vf_explained_var": 0.9890309572219849, "vf_loss": 18.49732780456543}, "grad_time_ms": 775.626}, "pid": 3934253, "time_total_s": 60867.51846694946, "episode_reward_mean": -151.85888020618955, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.70198157607007, "policy_reward_mean": {}, "episodes_total": 14376, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -147.5689089852922, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-31-07", "training_iteration": 599, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756531867, "episode_len_mean": 50.0, "timesteps_since_restore": 718800, "time_since_restore": 60867.51846694946, "time_this_iter_s": 85.39375901222229, "iterations_since_restore": 599}
+{"timesteps_total": 720000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 91164.442, "num_steps_sampled": 720000, "update_time_ms": 2.654, "num_steps_trained": 720000, "load_time_ms": 0.636, "default": {"kl": 0.01327840518206358, "cur_lr": 4.999999873689376e-05, "entropy": 7.063553810119629, "total_loss": 15.72727108001709, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.10396900773048401, "vf_explained_var": 0.9870481491088867, "vf_loss": 15.81779670715332}, "grad_time_ms": 776.607}, "pid": 3934253, "time_total_s": 60990.73926758766, "episode_reward_mean": -151.6618704476836, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.70198157607007, "policy_reward_mean": {}, "episodes_total": 14400, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -147.3681517481075, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-33-10", "training_iteration": 600, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756531990, "episode_len_mean": 50.0, "timesteps_since_restore": 720000, "time_since_restore": 60990.73926758766, "time_this_iter_s": 123.22080063819885, "iterations_since_restore": 600}
+{"timesteps_total": 721200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 91809.072, "num_steps_sampled": 721200, "update_time_ms": 2.679, "num_steps_trained": 721200, "load_time_ms": 0.627, "default": {"kl": 0.011526600457727909, "cur_lr": 4.999999873689376e-05, "entropy": 7.281680583953857, "total_loss": 18.19324493408203, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11207922548055649, "vf_explained_var": 0.9853324890136719, "vf_loss": 18.29365348815918}, "grad_time_ms": 767.64}, "pid": 3934253, "time_total_s": 61098.00409555435, "episode_reward_mean": -151.7562869870905, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.70198157607007, "policy_reward_mean": {}, "episodes_total": 14424, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -147.3681517481075, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-34-58", "training_iteration": 601, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756532098, "episode_len_mean": 50.0, "timesteps_since_restore": 721200, "time_since_restore": 61098.00409555435, "time_this_iter_s": 107.26482796669006, "iterations_since_restore": 601}
+{"timesteps_total": 722400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 90087.989, "num_steps_sampled": 722400, "update_time_ms": 2.721, "num_steps_trained": 722400, "load_time_ms": 0.617, "default": {"kl": 0.01224952470511198, "cur_lr": 4.999999873689376e-05, "entropy": 7.450062274932861, "total_loss": 20.476715087890625, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11732758581638336, "vf_explained_var": 0.9841304421424866, "vf_loss": 20.581642150878906}, "grad_time_ms": 783.345}, "pid": 3934253, "time_total_s": 61192.40952897072, "episode_reward_mean": -152.16321712634695, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.70198157607007, "policy_reward_mean": {}, "episodes_total": 14448, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -147.3681517481075, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-36-32", "training_iteration": 602, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756532192, "episode_len_mean": 50.0, "timesteps_since_restore": 722400, "time_since_restore": 61192.40952897072, "time_this_iter_s": 94.40543341636658, "iterations_since_restore": 602}
+{"timesteps_total": 723600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 90615.528, "num_steps_sampled": 723600, "update_time_ms": 2.768, "num_steps_trained": 723600, "load_time_ms": 0.614, "default": {"kl": 0.015451265498995781, "cur_lr": 4.999999873689376e-05, "entropy": 7.148335933685303, "total_loss": 11.77541732788086, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11515364050865173, "vf_explained_var": 0.9903786182403564, "vf_loss": 11.874926567077637}, "grad_time_ms": 787.36}, "pid": 3934253, "time_total_s": 61280.579090833664, "episode_reward_mean": -152.08872249419608, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.47636487522485, "policy_reward_mean": {}, "episodes_total": 14472, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.45120966923372, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-38-00", "training_iteration": 603, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756532280, "episode_len_mean": 50.0, "timesteps_since_restore": 723600, "time_since_restore": 61280.579090833664, "time_this_iter_s": 88.16956186294556, "iterations_since_restore": 603}
+{"timesteps_total": 724800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 87780.925, "num_steps_sampled": 724800, "update_time_ms": 2.845, "num_steps_trained": 724800, "load_time_ms": 0.615, "default": {"kl": 0.014070438221096992, "cur_lr": 4.999999873689376e-05, "entropy": 7.109999656677246, "total_loss": 10.172300338745117, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12829262018203735, "vf_explained_var": 0.9918432235717773, "vf_loss": 10.286346435546875}, "grad_time_ms": 784.586}, "pid": 3934253, "time_total_s": 61349.66434311867, "episode_reward_mean": -152.43345766828455, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.9578979275503, "policy_reward_mean": {}, "episodes_total": 14496, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.45120966923372, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-39-10", "training_iteration": 604, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756532350, "episode_len_mean": 50.0, "timesteps_since_restore": 724800, "time_since_restore": 61349.66434311867, "time_this_iter_s": 69.08525228500366, "iterations_since_restore": 604}
+{"timesteps_total": 726000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 86887.291, "num_steps_sampled": 726000, "update_time_ms": 2.863, "num_steps_trained": 726000, "load_time_ms": 0.611, "default": {"kl": 0.014225076884031296, "cur_lr": 4.999999873689376e-05, "entropy": 6.7051849365234375, "total_loss": 12.970050811767578, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12973900139331818, "vf_explained_var": 0.9914548397064209, "vf_loss": 13.085387229919434}, "grad_time_ms": 790.49}, "pid": 3934253, "time_total_s": 61424.110256910324, "episode_reward_mean": -152.20568940453862, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.9578979275503, "policy_reward_mean": {}, "episodes_total": 14520, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.36383384103294, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-40-24", "training_iteration": 605, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756532424, "episode_len_mean": 50.0, "timesteps_since_restore": 726000, "time_since_restore": 61424.110256910324, "time_this_iter_s": 74.4459137916565, "iterations_since_restore": 605}
+{"timesteps_total": 727200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 86061.442, "num_steps_sampled": 727200, "update_time_ms": 2.874, "num_steps_trained": 727200, "load_time_ms": 0.614, "default": {"kl": 0.01197892241179943, "cur_lr": 4.999999873689376e-05, "entropy": 7.155910015106201, "total_loss": 16.024038314819336, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12084892392158508, "vf_explained_var": 0.9875774383544922, "vf_loss": 16.13275909423828}, "grad_time_ms": 785.744}, "pid": 3934253, "time_total_s": 61503.27158164978, "episode_reward_mean": -151.8809027765825, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.9578979275503, "policy_reward_mean": {}, "episodes_total": 14544, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.36383384103294, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-41-43", "training_iteration": 606, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756532503, "episode_len_mean": 50.0, "timesteps_since_restore": 727200, "time_since_restore": 61503.27158164978, "time_this_iter_s": 79.16132473945618, "iterations_since_restore": 606}
+{"timesteps_total": 728400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 89229.81, "num_steps_sampled": 728400, "update_time_ms": 2.72, "num_steps_trained": 728400, "load_time_ms": 0.609, "default": {"kl": 0.012574922293424606, "cur_lr": 4.999999873689376e-05, "entropy": 6.90366792678833, "total_loss": 15.371590614318848, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11707106977701187, "vf_explained_var": 0.9888659715652466, "vf_loss": 15.475930213928223}, "grad_time_ms": 786.113}, "pid": 3934253, "time_total_s": 61600.42127537727, "episode_reward_mean": -151.49330662677073, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -167.9578979275503, "policy_reward_mean": {}, "episodes_total": 14568, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.36383384103294, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-43-20", "training_iteration": 607, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756532600, "episode_len_mean": 50.0, "timesteps_since_restore": 728400, "time_since_restore": 61600.42127537727, "time_this_iter_s": 97.14969372749329, "iterations_since_restore": 607}
+{"timesteps_total": 729600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 89682.331, "num_steps_sampled": 729600, "update_time_ms": 2.642, "num_steps_trained": 729600, "load_time_ms": 0.603, "default": {"kl": 0.011613764800131321, "cur_lr": 4.999999873689376e-05, "entropy": 7.039552688598633, "total_loss": 18.735050201416016, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.09857099503278732, "vf_explained_var": 0.9856353402137756, "vf_loss": 18.821861267089844}, "grad_time_ms": 775.753}, "pid": 3934253, "time_total_s": 61686.7905664444, "episode_reward_mean": -151.40655440639014, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.37392545490812, "policy_reward_mean": {}, "episodes_total": 14592, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.36383384103294, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-44-47", "training_iteration": 608, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756532687, "episode_len_mean": 50.0, "timesteps_since_restore": 729600, "time_since_restore": 61686.7905664444, "time_this_iter_s": 86.36929106712341, "iterations_since_restore": 608}
+{"timesteps_total": 730800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92765.788, "num_steps_sampled": 730800, "update_time_ms": 2.676, "num_steps_trained": 730800, "load_time_ms": 0.608, "default": {"kl": 0.01337195560336113, "cur_lr": 4.999999873689376e-05, "entropy": 6.899675369262695, "total_loss": 14.00875186920166, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.10345722734928131, "vf_explained_var": 0.9890311360359192, "vf_loss": 14.09867000579834}, "grad_time_ms": 771.632}, "pid": 3934253, "time_total_s": 61802.97908568382, "episode_reward_mean": -151.37933562448453, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.37392545490812, "policy_reward_mean": {}, "episodes_total": 14616, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.66864327226546, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-46-43", "training_iteration": 609, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756532803, "episode_len_mean": 50.0, "timesteps_since_restore": 730800, "time_since_restore": 61802.97908568382, "time_this_iter_s": 116.18851923942566, "iterations_since_restore": 609}
+{"timesteps_total": 732000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 88623.712, "num_steps_sampled": 732000, "update_time_ms": 2.678, "num_steps_trained": 732000, "load_time_ms": 0.608, "default": {"kl": 0.012054665014147758, "cur_lr": 4.999999873689376e-05, "entropy": 6.8780741691589355, "total_loss": 19.48150634765625, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.10850019007921219, "vf_explained_var": 0.9851784110069275, "vf_loss": 19.577804565429688}, "grad_time_ms": 774.118}, "pid": 3934253, "time_total_s": 61884.80423927307, "episode_reward_mean": -151.41443393500313, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -161.8105244534275, "policy_reward_mean": {}, "episodes_total": 14640, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.63613739987613, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-48-05", "training_iteration": 610, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756532885, "episode_len_mean": 50.0, "timesteps_since_restore": 732000, "time_since_restore": 61884.80423927307, "time_this_iter_s": 81.82515358924866, "iterations_since_restore": 610}
+{"timesteps_total": 733200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 86950.836, "num_steps_sampled": 733200, "update_time_ms": 2.646, "num_steps_trained": 733200, "load_time_ms": 0.605, "default": {"kl": 0.010721195489168167, "cur_lr": 4.999999873689376e-05, "entropy": 6.638162136077881, "total_loss": 11.81612491607666, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.09991056472063065, "vf_explained_var": 0.9899557828903198, "vf_loss": 11.905179977416992}, "grad_time_ms": 787.336}, "pid": 3934253, "time_total_s": 61975.47169351578, "episode_reward_mean": -151.543765128637, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -161.8105244534275, "policy_reward_mean": {}, "episodes_total": 14664, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.63613739987613, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-49-36", "training_iteration": 611, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756532976, "episode_len_mean": 50.0, "timesteps_since_restore": 733200, "time_since_restore": 61975.47169351578, "time_this_iter_s": 90.6674542427063, "iterations_since_restore": 611}
+{"timesteps_total": 734400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 85627.85, "num_steps_sampled": 734400, "update_time_ms": 2.679, "num_steps_trained": 734400, "load_time_ms": 0.603, "default": {"kl": 0.013192672282457352, "cur_lr": 4.999999873689376e-05, "entropy": 7.051061630249023, "total_loss": 7.227845191955566, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1238882839679718, "vf_explained_var": 0.9936915636062622, "vf_loss": 7.338375568389893}, "grad_time_ms": 784.194}, "pid": 3934253, "time_total_s": 62056.61653780937, "episode_reward_mean": -151.44520802968128, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -161.8105244534275, "policy_reward_mean": {}, "episodes_total": 14688, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.63613739987613, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-50-57", "training_iteration": 612, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756533057, "episode_len_mean": 50.0, "timesteps_since_restore": 734400, "time_since_restore": 62056.61653780937, "time_this_iter_s": 81.14484429359436, "iterations_since_restore": 612}
+{"timesteps_total": 735600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 83882.7, "num_steps_sampled": 735600, "update_time_ms": 2.682, "num_steps_trained": 735600, "load_time_ms": 0.603, "default": {"kl": 0.011554243043065071, "cur_lr": 4.999999873689376e-05, "entropy": 6.660586833953857, "total_loss": 10.637908935546875, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.09981474280357361, "vf_explained_var": 0.9911506175994873, "vf_loss": 10.726024627685547}, "grad_time_ms": 786.349}, "pid": 3934253, "time_total_s": 62127.3542406559, "episode_reward_mean": -151.22924727354598, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -159.87547682683376, "policy_reward_mean": {}, "episodes_total": 14712, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.68615046976356, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-52-07", "training_iteration": 613, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756533127, "episode_len_mean": 50.0, "timesteps_since_restore": 735600, "time_since_restore": 62127.3542406559, "time_this_iter_s": 70.7377028465271, "iterations_since_restore": 613}
+{"timesteps_total": 736800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 85648.444, "num_steps_sampled": 736800, "update_time_ms": 2.603, "num_steps_trained": 736800, "load_time_ms": 0.602, "default": {"kl": 0.013088869862258434, "cur_lr": 4.999999873689376e-05, "entropy": 7.049310207366943, "total_loss": 12.22148609161377, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13127782940864563, "vf_explained_var": 0.990606963634491, "vf_loss": 12.33951187133789}, "grad_time_ms": 792.797}, "pid": 3934253, "time_total_s": 62214.16077184677, "episode_reward_mean": -151.31984968712513, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -162.72055261835348, "policy_reward_mean": {}, "episodes_total": 14736, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.68615046976356, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-53-34", "training_iteration": 614, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756533214, "episode_len_mean": 50.0, "timesteps_since_restore": 736800, "time_since_restore": 62214.16077184677, "time_this_iter_s": 86.80653119087219, "iterations_since_restore": 614}
+{"timesteps_total": 738000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 88803.749, "num_steps_sampled": 738000, "update_time_ms": 2.56, "num_steps_trained": 738000, "load_time_ms": 0.607, "default": {"kl": 0.012645702809095383, "cur_lr": 4.999999873689376e-05, "entropy": 6.928812026977539, "total_loss": 10.566925048828125, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11527398228645325, "vf_explained_var": 0.9913132190704346, "vf_loss": 10.669394493103027}, "grad_time_ms": 785.529}, "pid": 3934253, "time_total_s": 62320.08752441406, "episode_reward_mean": -151.36229052843026, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -162.72055261835348, "policy_reward_mean": {}, "episodes_total": 14760, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.68615046976356, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-55-20", "training_iteration": 615, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756533320, "episode_len_mean": 50.0, "timesteps_since_restore": 738000, "time_since_restore": 62320.08752441406, "time_this_iter_s": 105.92675256729126, "iterations_since_restore": 615}
+{"timesteps_total": 739200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92349.761, "num_steps_sampled": 739200, "update_time_ms": 2.568, "num_steps_trained": 739200, "load_time_ms": 0.632, "default": {"kl": 0.01190970279276371, "cur_lr": 4.999999873689376e-05, "entropy": 7.102513790130615, "total_loss": 9.939801216125488, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11454781144857407, "vf_explained_var": 0.9917420148849487, "vf_loss": 10.042292594909668}, "grad_time_ms": 756.918}, "pid": 3934253, "time_total_s": 62434.422278404236, "episode_reward_mean": -151.60210316670384, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -162.72055261835348, "policy_reward_mean": {}, "episodes_total": 14784, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.68615046976356, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-57-15", "training_iteration": 616, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756533435, "episode_len_mean": 50.0, "timesteps_since_restore": 739200, "time_since_restore": 62434.422278404236, "time_this_iter_s": 114.33475399017334, "iterations_since_restore": 616}
+{"timesteps_total": 740400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 91534.552, "num_steps_sampled": 740400, "update_time_ms": 2.573, "num_steps_trained": 740400, "load_time_ms": 0.633, "default": {"kl": 0.013185751624405384, "cur_lr": 4.999999873689376e-05, "entropy": 6.751632213592529, "total_loss": 10.361977577209473, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1103510633111, "vf_explained_var": 0.9916035532951355, "vf_loss": 10.458977699279785}, "grad_time_ms": 752.487}, "pid": 3934253, "time_total_s": 62523.37660694122, "episode_reward_mean": -151.44191442940803, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -162.72055261835348, "policy_reward_mean": {}, "episodes_total": 14808, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.50587769520746, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_07-58-43", "training_iteration": 617, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756533523, "episode_len_mean": 50.0, "timesteps_since_restore": 740400, "time_since_restore": 62523.37660694122, "time_this_iter_s": 88.9543285369873, "iterations_since_restore": 617}
+{"timesteps_total": 741600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92642.693, "num_steps_sampled": 741600, "update_time_ms": 2.659, "num_steps_trained": 741600, "load_time_ms": 0.637, "default": {"kl": 0.012119187042117119, "cur_lr": 4.999999873689376e-05, "entropy": 6.803467750549316, "total_loss": 8.588187217712402, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.10707652568817139, "vf_explained_var": 0.9933609366416931, "vf_loss": 8.682992935180664}, "grad_time_ms": 761.442}, "pid": 3934253, "time_total_s": 62620.91872525215, "episode_reward_mean": -151.5307977259673, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.73135388198196, "policy_reward_mean": {}, "episodes_total": 14832, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.50587769520746, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_08-00-21", "training_iteration": 618, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756533621, "episode_len_mean": 50.0, "timesteps_since_restore": 741600, "time_since_restore": 62620.91872525215, "time_this_iter_s": 97.54211831092834, "iterations_since_restore": 618}
+{"timesteps_total": 742800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 91459.981, "num_steps_sampled": 742800, "update_time_ms": 2.627, "num_steps_trained": 742800, "load_time_ms": 0.658, "default": {"kl": 0.013423633761703968, "cur_lr": 4.999999873689376e-05, "entropy": 6.8948893547058105, "total_loss": 12.06845474243164, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11208604276180267, "vf_explained_var": 0.9899507164955139, "vf_loss": 12.166949272155762}, "grad_time_ms": 756.378}, "pid": 3934253, "time_total_s": 62725.23010516167, "episode_reward_mean": -151.49945627137046, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.73135388198196, "policy_reward_mean": {}, "episodes_total": 14856, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.50587769520746, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_08-02-05", "training_iteration": 619, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756533725, "episode_len_mean": 50.0, "timesteps_since_restore": 742800, "time_since_restore": 62725.23010516167, "time_this_iter_s": 104.31137990951538, "iterations_since_restore": 619}
+{"timesteps_total": 744000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93561.719, "num_steps_sampled": 744000, "update_time_ms": 2.654, "num_steps_trained": 744000, "load_time_ms": 0.66, "default": {"kl": 0.01322434563189745, "cur_lr": 4.999999873689376e-05, "entropy": 7.0396013259887695, "total_loss": 13.521455764770508, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11213520169258118, "vf_explained_var": 0.9895057678222656, "vf_loss": 13.62020206451416}, "grad_time_ms": 756.048}, "pid": 3934253, "time_total_s": 62828.070397138596, "episode_reward_mean": -151.12993458929512, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.73135388198196, "policy_reward_mean": {}, "episodes_total": 14880, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.50587769520746, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_08-03-48", "training_iteration": 620, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756533828, "episode_len_mean": 50.0, "timesteps_since_restore": 744000, "time_since_restore": 62828.070397138596, "time_this_iter_s": 102.84029197692871, "iterations_since_restore": 620}
+{"timesteps_total": 745200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93545.314, "num_steps_sampled": 745200, "update_time_ms": 2.694, "num_steps_trained": 745200, "load_time_ms": 0.663, "default": {"kl": 0.012171603739261627, "cur_lr": 4.999999873689376e-05, "entropy": 6.692158222198486, "total_loss": 6.1855010986328125, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11720164865255356, "vf_explained_var": 0.9949302673339844, "vf_loss": 6.290379047393799}, "grad_time_ms": 752.822}, "pid": 3934253, "time_total_s": 62918.541640520096, "episode_reward_mean": -151.14761090808298, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.73135388198196, "policy_reward_mean": {}, "episodes_total": 14904, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -140.95648442901637, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_08-05-19", "training_iteration": 621, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756533919, "episode_len_mean": 50.0, "timesteps_since_restore": 745200, "time_since_restore": 62918.541640520096, "time_this_iter_s": 90.47124338150024, "iterations_since_restore": 621}
+{"timesteps_total": 746400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93932.102, "num_steps_sampled": 746400, "update_time_ms": 2.631, "num_steps_trained": 746400, "load_time_ms": 0.661, "default": {"kl": 0.013156522065401077, "cur_lr": 4.999999873689376e-05, "entropy": 6.82674503326416, "total_loss": 14.24813461303711, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11366318166255951, "vf_explained_var": 0.9880519509315491, "vf_loss": 14.34847640991211}, "grad_time_ms": 751.554}, "pid": 3934253, "time_total_s": 63003.54139351845, "episode_reward_mean": -151.18667908639287, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.73135388198196, "policy_reward_mean": {}, "episodes_total": 14928, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.44292993723454, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_08-06-44", "training_iteration": 622, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756534004, "episode_len_mean": 50.0, "timesteps_since_restore": 746400, "time_since_restore": 63003.54139351845, "time_this_iter_s": 84.99975299835205, "iterations_since_restore": 622}
+{"timesteps_total": 747600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 97851.94, "num_steps_sampled": 747600, "update_time_ms": 2.617, "num_steps_trained": 747600, "load_time_ms": 0.662, "default": {"kl": 0.01315502543002367, "cur_lr": 4.999999873689376e-05, "entropy": 6.802591323852539, "total_loss": 7.619611740112305, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12538450956344604, "vf_explained_var": 0.9940614700317383, "vf_loss": 7.7316765785217285}, "grad_time_ms": 752.627}, "pid": 3934253, "time_total_s": 63113.488800525665, "episode_reward_mean": -151.09440919344684, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.42489643038954, "policy_reward_mean": {}, "episodes_total": 14952, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.44292993723454, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_08-08-34", "training_iteration": 623, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756534114, "episode_len_mean": 50.0, "timesteps_since_restore": 747600, "time_since_restore": 63113.488800525665, "time_this_iter_s": 109.94740700721741, "iterations_since_restore": 623}
+{"timesteps_total": 748800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 98750.161, "num_steps_sampled": 748800, "update_time_ms": 2.613, "num_steps_trained": 748800, "load_time_ms": 0.668, "default": {"kl": 0.011096199974417686, "cur_lr": 4.999999873689376e-05, "entropy": 6.810266494750977, "total_loss": 11.71121597290039, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11723963171243668, "vf_explained_var": 0.9900689721107483, "vf_loss": 11.817220687866211}, "grad_time_ms": 747.582}, "pid": 3934253, "time_total_s": 63209.22741794586, "episode_reward_mean": -151.22068244121274, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.42489643038954, "policy_reward_mean": {}, "episodes_total": 14976, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.44292993723454, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_08-10-09", "training_iteration": 624, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756534209, "episode_len_mean": 50.0, "timesteps_since_restore": 748800, "time_since_restore": 63209.22741794586, "time_this_iter_s": 95.73861742019653, "iterations_since_restore": 624}
+{"timesteps_total": 750000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 100088.435, "num_steps_sampled": 750000, "update_time_ms": 2.645, "num_steps_trained": 750000, "load_time_ms": 0.668, "default": {"kl": 0.010650668293237686, "cur_lr": 4.999999873689376e-05, "entropy": 6.672452926635742, "total_loss": 11.082969665527344, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.110077865421772, "vf_explained_var": 0.9915443062782288, "vf_loss": 11.18226432800293}, "grad_time_ms": 757.859}, "pid": 3934253, "time_total_s": 63328.63909459114, "episode_reward_mean": -151.40743659097222, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.42489643038954, "policy_reward_mean": {}, "episodes_total": 15000, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.44292993723454, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_08-12-09", "training_iteration": 625, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756534329, "episode_len_mean": 50.0, "timesteps_since_restore": 750000, "time_since_restore": 63328.63909459114, "time_this_iter_s": 119.41167664527893, "iterations_since_restore": 625}
+{"timesteps_total": 751200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 100166.948, "num_steps_sampled": 751200, "update_time_ms": 2.642, "num_steps_trained": 751200, "load_time_ms": 0.64, "default": {"kl": 0.010317239910364151, "cur_lr": 4.999999873689376e-05, "entropy": 6.8698625564575195, "total_loss": 23.211606979370117, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.10611388087272644, "vf_explained_var": 0.9846295118331909, "vf_loss": 23.307273864746094}, "grad_time_ms": 773.449}, "pid": 3934253, "time_total_s": 63443.91581988335, "episode_reward_mean": -151.66759500747776, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -163.6711908111485, "policy_reward_mean": {}, "episodes_total": 15024, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -144.90419533232387, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_08-14-04", "training_iteration": 626, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756534444, "episode_len_mean": 50.0, "timesteps_since_restore": 751200, "time_since_restore": 63443.91581988335, "time_this_iter_s": 115.27672529220581, "iterations_since_restore": 626}
+{"timesteps_total": 752400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 103369.137, "num_steps_sampled": 752400, "update_time_ms": 2.692, "num_steps_trained": 752400, "load_time_ms": 0.631, "default": {"kl": 0.013233959674835205, "cur_lr": 4.999999873689376e-05, "entropy": 6.71226692199707, "total_loss": 15.275715827941895, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12592655420303345, "vf_explained_var": 0.989207923412323, "vf_loss": 15.38824462890625}, "grad_time_ms": 744.545}, "pid": 3934253, "time_total_s": 63564.602367162704, "episode_reward_mean": -151.4929936336819, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -163.6711908111485, "policy_reward_mean": {}, "episodes_total": 15048, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.5958818274101, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_08-16-05", "training_iteration": 627, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756534565, "episode_len_mean": 50.0, "timesteps_since_restore": 752400, "time_since_restore": 63564.602367162704, "time_this_iter_s": 120.68654727935791, "iterations_since_restore": 627}
+{"timesteps_total": 753600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 102544.866, "num_steps_sampled": 753600, "update_time_ms": 2.595, "num_steps_trained": 753600, "load_time_ms": 0.631, "default": {"kl": 0.012792283669114113, "cur_lr": 4.999999873689376e-05, "entropy": 6.9640302658081055, "total_loss": 19.60162925720215, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11187508702278137, "vf_explained_var": 0.9851052761077881, "vf_loss": 19.700551986694336}, "grad_time_ms": 736.195}, "pid": 3934253, "time_total_s": 63653.81639122963, "episode_reward_mean": -151.669466943407, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.4776514019978, "policy_reward_mean": {}, "episodes_total": 15072, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.5958818274101, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_08-17-34", "training_iteration": 628, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756534654, "episode_len_mean": 50.0, "timesteps_since_restore": 753600, "time_since_restore": 63653.81639122963, "time_this_iter_s": 89.21402406692505, "iterations_since_restore": 628}
+{"timesteps_total": 754800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 101229.522, "num_steps_sampled": 754800, "update_time_ms": 2.535, "num_steps_trained": 754800, "load_time_ms": 0.607, "default": {"kl": 0.010650486685335636, "cur_lr": 4.999999873689376e-05, "entropy": 6.8045148849487305, "total_loss": 13.200957298278809, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12197298556566238, "vf_explained_var": 0.9894353151321411, "vf_loss": 13.312145233154297}, "grad_time_ms": 745.2}, "pid": 3934253, "time_total_s": 63745.061317682266, "episode_reward_mean": -151.63851588055306, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.4776514019978, "policy_reward_mean": {}, "episodes_total": 15096, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.5958818274101, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_08-19-05", "training_iteration": 629, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756534745, "episode_len_mean": 50.0, "timesteps_since_restore": 754800, "time_since_restore": 63745.061317682266, "time_this_iter_s": 91.24492645263672, "iterations_since_restore": 629}
+{"timesteps_total": 756000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 100842.923, "num_steps_sampled": 756000, "update_time_ms": 2.551, "num_steps_trained": 756000, "load_time_ms": 0.609, "default": {"kl": 0.010836427100002766, "cur_lr": 4.999999873689376e-05, "entropy": 6.896514415740967, "total_loss": 20.006378173828125, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11461702734231949, "vf_explained_var": 0.9843152165412903, "vf_loss": 20.110023498535156}, "grad_time_ms": 724.066}, "pid": 3934253, "time_total_s": 63843.82303214073, "episode_reward_mean": -151.58272379672468, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.4776514019978, "policy_reward_mean": {}, "episodes_total": 15120, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.5958818274101, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_08-20-44", "training_iteration": 630, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756534844, "episode_len_mean": 50.0, "timesteps_since_restore": 756000, "time_since_restore": 63843.82303214073, "time_this_iter_s": 98.76171445846558, "iterations_since_restore": 630}
+{"timesteps_total": 757200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 101480.276, "num_steps_sampled": 757200, "update_time_ms": 2.489, "num_steps_trained": 757200, "load_time_ms": 0.61, "default": {"kl": 0.012623208574950695, "cur_lr": 4.999999873689376e-05, "entropy": 6.808897972106934, "total_loss": 15.05218505859375, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.10825130343437195, "vf_explained_var": 0.9871785640716553, "vf_loss": 15.147655487060547}, "grad_time_ms": 723.758}, "pid": 3934253, "time_total_s": 63940.66364145279, "episode_reward_mean": -151.53546933288317, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.4776514019978, "policy_reward_mean": {}, "episodes_total": 15144, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.66980860902888, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_08-22-21", "training_iteration": 631, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756534941, "episode_len_mean": 50.0, "timesteps_since_restore": 757200, "time_since_restore": 63940.66364145279, "time_this_iter_s": 96.8406093120575, "iterations_since_restore": 631}
+{"timesteps_total": 758400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 100884.692, "num_steps_sampled": 758400, "update_time_ms": 2.45, "num_steps_trained": 758400, "load_time_ms": 0.64, "default": {"kl": 0.01185892429202795, "cur_lr": 4.999999873689376e-05, "entropy": 6.723665714263916, "total_loss": 11.030750274658203, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.10723483562469482, "vf_explained_var": 0.9907653331756592, "vf_loss": 11.125978469848633}, "grad_time_ms": 717.742}, "pid": 3934253, "time_total_s": 64019.64652919769, "episode_reward_mean": -151.36588981547644, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -158.80067592354442, "policy_reward_mean": {}, "episodes_total": 15168, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.66980860902888, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_08-23-40", "training_iteration": 632, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756535020, "episode_len_mean": 50.0, "timesteps_since_restore": 758400, "time_since_restore": 64019.64652919769, "time_this_iter_s": 78.98288774490356, "iterations_since_restore": 632}
+{"timesteps_total": 759600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 98671.08, "num_steps_sampled": 759600, "update_time_ms": 2.454, "num_steps_trained": 759600, "load_time_ms": 0.646, "default": {"kl": 0.012938495725393295, "cur_lr": 4.999999873689376e-05, "entropy": 6.659440994262695, "total_loss": 13.684261322021484, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11048747599124908, "vf_explained_var": 0.9885939359664917, "vf_loss": 13.781648635864258}, "grad_time_ms": 709.359}, "pid": 3934253, "time_total_s": 64107.37429046631, "episode_reward_mean": -151.65608875992902, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.02453192680858, "policy_reward_mean": {}, "episodes_total": 15192, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.51797225071994, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_08-25-08", "training_iteration": 633, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756535108, "episode_len_mean": 50.0, "timesteps_since_restore": 759600, "time_since_restore": 64107.37429046631, "time_this_iter_s": 87.72776126861572, "iterations_since_restore": 633}
+{"timesteps_total": 760800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 98553.06, "num_steps_sampled": 760800, "update_time_ms": 2.495, "num_steps_trained": 760800, "load_time_ms": 0.636, "default": {"kl": 0.012192122638225555, "cur_lr": 4.999999873689376e-05, "entropy": 6.7756500244140625, "total_loss": 8.989873886108398, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11869990825653076, "vf_explained_var": 0.9927349090576172, "vf_loss": 9.096230506896973}, "grad_time_ms": 714.761}, "pid": 3934253, "time_total_s": 64201.98797130585, "episode_reward_mean": -151.59236133085568, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.02453192680858, "policy_reward_mean": {}, "episodes_total": 15216, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -147.74976120463958, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_08-26-42", "training_iteration": 634, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756535202, "episode_len_mean": 50.0, "timesteps_since_restore": 760800, "time_since_restore": 64201.98797130585, "time_this_iter_s": 94.61368083953857, "iterations_since_restore": 634}
+{"timesteps_total": 762000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 99148.287, "num_steps_sampled": 762000, "update_time_ms": 2.504, "num_steps_trained": 762000, "load_time_ms": 0.633, "default": {"kl": 0.012157265096902847, "cur_lr": 4.999999873689376e-05, "entropy": 6.482801914215088, "total_loss": 9.540739059448242, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11832654476165771, "vf_explained_var": 0.9925000071525574, "vf_loss": 9.646757125854492}, "grad_time_ms": 704.804}, "pid": 3934253, "time_total_s": 64327.25306916237, "episode_reward_mean": -151.5300366605358, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.02453192680858, "policy_reward_mean": {}, "episodes_total": 15240, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -145.57923844267256, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_08-28-48", "training_iteration": 635, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756535328, "episode_len_mean": 50.0, "timesteps_since_restore": 762000, "time_since_restore": 64327.25306916237, "time_this_iter_s": 125.2650978565216, "iterations_since_restore": 635}
+{"timesteps_total": 763200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94685.493, "num_steps_sampled": 763200, "update_time_ms": 2.451, "num_steps_trained": 763200, "load_time_ms": 0.639, "default": {"kl": 0.011522796005010605, "cur_lr": 4.999999873689376e-05, "entropy": 6.750631332397461, "total_loss": 14.481304168701172, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11807700991630554, "vf_explained_var": 0.9886033535003662, "vf_loss": 14.587714195251465}, "grad_time_ms": 725.526}, "pid": 3934253, "time_total_s": 64398.10787272453, "episode_reward_mean": -151.58026426985145, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.86872080682477, "policy_reward_mean": {}, "episodes_total": 15264, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -135.66465642046649, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_08-29-59", "training_iteration": 636, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756535399, "episode_len_mean": 50.0, "timesteps_since_restore": 763200, "time_since_restore": 64398.10787272453, "time_this_iter_s": 70.8548035621643, "iterations_since_restore": 636}
+{"timesteps_total": 764400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 91776.876, "num_steps_sampled": 764400, "update_time_ms": 2.38, "num_steps_trained": 764400, "load_time_ms": 0.647, "default": {"kl": 0.012320362962782383, "cur_lr": 4.999999873689376e-05, "entropy": 6.598195552825928, "total_loss": 13.947826385498047, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.10195771604776382, "vf_explained_var": 0.9885042905807495, "vf_loss": 14.037308692932129}, "grad_time_ms": 759.452}, "pid": 3934253, "time_total_s": 64490.04764533043, "episode_reward_mean": -151.43070890493792, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.86872080682477, "policy_reward_mean": {}, "episodes_total": 15288, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -135.66465642046649, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_08-31-30", "training_iteration": 637, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756535490, "episode_len_mean": 50.0, "timesteps_since_restore": 764400, "time_since_restore": 64490.04764533043, "time_this_iter_s": 91.939772605896, "iterations_since_restore": 637}
+{"timesteps_total": 765600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94764.538, "num_steps_sampled": 765600, "update_time_ms": 2.38, "num_steps_trained": 765600, "load_time_ms": 0.642, "default": {"kl": 0.01230735331773758, "cur_lr": 4.999999873689376e-05, "entropy": 6.373239040374756, "total_loss": 10.451953887939453, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11258859187364578, "vf_explained_var": 0.991771399974823, "vf_loss": 10.552081108093262}, "grad_time_ms": 756.828}, "pid": 3934253, "time_total_s": 64609.111683130264, "episode_reward_mean": -151.24051930669168, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.86872080682477, "policy_reward_mean": {}, "episodes_total": 15312, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -135.66465642046649, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_08-33-30", "training_iteration": 638, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756535610, "episode_len_mean": 50.0, "timesteps_since_restore": 765600, "time_since_restore": 64609.111683130264, "time_this_iter_s": 119.0640377998352, "iterations_since_restore": 638}
+{"timesteps_total": 766800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94182.613, "num_steps_sampled": 766800, "update_time_ms": 2.45, "num_steps_trained": 766800, "load_time_ms": 0.644, "default": {"kl": 0.01306148525327444, "cur_lr": 4.999999873689376e-05, "entropy": 6.652033805847168, "total_loss": 11.028017044067383, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11691049486398697, "vf_explained_var": 0.9918647408485413, "vf_loss": 11.131702423095703}, "grad_time_ms": 757.641}, "pid": 3934253, "time_total_s": 64694.54643154144, "episode_reward_mean": -151.55331459979587, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.86872080682477, "policy_reward_mean": {}, "episodes_total": 15336, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -135.66465642046649, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_08-34-55", "training_iteration": 639, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756535695, "episode_len_mean": 50.0, "timesteps_since_restore": 766800, "time_since_restore": 64694.54643154144, "time_this_iter_s": 85.43474841117859, "iterations_since_restore": 639}
+{"timesteps_total": 768000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93906.791, "num_steps_sampled": 768000, "update_time_ms": 2.421, "num_steps_trained": 768000, "load_time_ms": 0.637, "default": {"kl": 0.01332173403352499, "cur_lr": 4.999999873689376e-05, "entropy": 6.823115825653076, "total_loss": 10.166665077209473, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12121745198965073, "vf_explained_var": 0.9914849400520325, "vf_loss": 10.274394989013672}, "grad_time_ms": 780.376}, "pid": 3934253, "time_total_s": 64790.77740550041, "episode_reward_mean": -151.35041920654274, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -163.88208498966546, "policy_reward_mean": {}, "episodes_total": 15360, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.95728698257986, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_08-36-31", "training_iteration": 640, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756535791, "episode_len_mean": 50.0, "timesteps_since_restore": 768000, "time_since_restore": 64790.77740550041, "time_this_iter_s": 96.23097395896912, "iterations_since_restore": 640}
+{"timesteps_total": 769200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 96050.788, "num_steps_sampled": 769200, "update_time_ms": 2.539, "num_steps_trained": 769200, "load_time_ms": 0.635, "default": {"kl": 0.012392531149089336, "cur_lr": 4.999999873689376e-05, "entropy": 6.514824390411377, "total_loss": 7.781041622161865, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12088058888912201, "vf_explained_var": 0.9940726161003113, "vf_loss": 7.889374732971191}, "grad_time_ms": 778.119}, "pid": 3934253, "time_total_s": 64909.03731918335, "episode_reward_mean": -150.96115774447182, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -163.88208498966546, "policy_reward_mean": {}, "episodes_total": 15384, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.95728698257986, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_08-38-30", "training_iteration": 641, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756535910, "episode_len_mean": 50.0, "timesteps_since_restore": 769200, "time_since_restore": 64909.03731918335, "time_this_iter_s": 118.25991368293762, "iterations_since_restore": 641}
+{"timesteps_total": 770400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 99890.034, "num_steps_sampled": 770400, "update_time_ms": 2.583, "num_steps_trained": 770400, "load_time_ms": 0.598, "default": {"kl": 0.013650444336235523, "cur_lr": 4.999999873689376e-05, "entropy": 6.526227951049805, "total_loss": 17.587209701538086, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.10258938372135162, "vf_explained_var": 0.9885136485099792, "vf_loss": 17.67597770690918}, "grad_time_ms": 782.955}, "pid": 3934253, "time_total_s": 65026.46193361282, "episode_reward_mean": -151.0723561949242, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -163.88208498966546, "policy_reward_mean": {}, "episodes_total": 15408, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.86892682381847, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_08-40-27", "training_iteration": 642, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756536027, "episode_len_mean": 50.0, "timesteps_since_restore": 770400, "time_since_restore": 65026.46193361282, "time_this_iter_s": 117.42461442947388, "iterations_since_restore": 642}
+{"timesteps_total": 771600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 101276.207, "num_steps_sampled": 771600, "update_time_ms": 2.602, "num_steps_trained": 771600, "load_time_ms": 0.601, "default": {"kl": 0.013796964660286903, "cur_lr": 4.999999873689376e-05, "entropy": 6.629274368286133, "total_loss": 8.684115409851074, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12487681955099106, "vf_explained_var": 0.9934294819831848, "vf_loss": 8.795022964477539}, "grad_time_ms": 778.614}, "pid": 3934253, "time_total_s": 65128.00844717026, "episode_reward_mean": -151.140397750438, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.09382066300637, "policy_reward_mean": {}, "episodes_total": 15432, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.67803283239894, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_08-42-09", "training_iteration": 643, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756536129, "episode_len_mean": 50.0, "timesteps_since_restore": 771600, "time_since_restore": 65128.00844717026, "time_this_iter_s": 101.54651355743408, "iterations_since_restore": 643}
+{"timesteps_total": 772800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 98711.301, "num_steps_sampled": 772800, "update_time_ms": 2.525, "num_steps_trained": 772800, "load_time_ms": 0.606, "default": {"kl": 0.011933304369449615, "cur_lr": 4.999999873689376e-05, "entropy": 6.656396865844727, "total_loss": 10.540224075317383, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12175066024065018, "vf_explained_var": 0.9919617176055908, "vf_loss": 10.649892807006836}, "grad_time_ms": 774.185}, "pid": 3934253, "time_total_s": 65196.92683053017, "episode_reward_mean": -151.43561850808175, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.09382066300637, "policy_reward_mean": {}, "episodes_total": 15456, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.67803283239894, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_08-43-17", "training_iteration": 644, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756536197, "episode_len_mean": 50.0, "timesteps_since_restore": 772800, "time_since_restore": 65196.92683053017, "time_this_iter_s": 68.91838335990906, "iterations_since_restore": 644}
+{"timesteps_total": 774000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94945.91, "num_steps_sampled": 774000, "update_time_ms": 2.5, "num_steps_trained": 774000, "load_time_ms": 0.622, "default": {"kl": 0.012951802462339401, "cur_lr": 4.999999873689376e-05, "entropy": 6.6081223487854, "total_loss": 11.552346229553223, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12751348316669464, "vf_explained_var": 0.9913455247879028, "vf_loss": 11.66674518585205}, "grad_time_ms": 776.546}, "pid": 3934253, "time_total_s": 65284.56107521057, "episode_reward_mean": -151.55425962251707, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.09382066300637, "policy_reward_mean": {}, "episodes_total": 15480, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.4596296357344, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_08-44-45", "training_iteration": 645, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756536285, "episode_len_mean": 50.0, "timesteps_since_restore": 774000, "time_since_restore": 65284.56107521057, "time_this_iter_s": 87.63424468040466, "iterations_since_restore": 645}
+{"timesteps_total": 775200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 97436.799, "num_steps_sampled": 775200, "update_time_ms": 2.503, "num_steps_trained": 775200, "load_time_ms": 0.616, "default": {"kl": 0.01226724311709404, "cur_lr": 4.999999873689376e-05, "entropy": 6.506907939910889, "total_loss": 11.610782623291016, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11629611998796463, "vf_explained_var": 0.990890622138977, "vf_loss": 11.7146577835083}, "grad_time_ms": 776.118}, "pid": 3934253, "time_total_s": 65380.31948065758, "episode_reward_mean": -151.60373988103257, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.09382066300637, "policy_reward_mean": {}, "episodes_total": 15504, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.4596296357344, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_08-46-21", "training_iteration": 646, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756536381, "episode_len_mean": 50.0, "timesteps_since_restore": 775200, "time_since_restore": 65380.31948065758, "time_this_iter_s": 95.75840544700623, "iterations_since_restore": 646}
+{"timesteps_total": 776400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 98575.832, "num_steps_sampled": 776400, "update_time_ms": 2.522, "num_steps_trained": 776400, "load_time_ms": 0.612, "default": {"kl": 0.013378623872995377, "cur_lr": 4.999999873689376e-05, "entropy": 6.336060047149658, "total_loss": 6.171751022338867, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11012449115514755, "vf_explained_var": 0.9950565695762634, "vf_loss": 6.268329620361328}, "grad_time_ms": 770.747}, "pid": 3934253, "time_total_s": 65483.59596991539, "episode_reward_mean": -151.69143272461713, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.05178551685933, "policy_reward_mean": {}, "episodes_total": 15528, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.4596296357344, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_08-48-04", "training_iteration": 647, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756536484, "episode_len_mean": 50.0, "timesteps_since_restore": 776400, "time_since_restore": 65483.59596991539, "time_this_iter_s": 103.2764892578125, "iterations_since_restore": 647}
+{"timesteps_total": 777600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 98555.02, "num_steps_sampled": 777600, "update_time_ms": 2.559, "num_steps_trained": 777600, "load_time_ms": 0.62, "default": {"kl": 0.012983070686459541, "cur_lr": 4.999999873689376e-05, "entropy": 6.5856804847717285, "total_loss": 7.57802677154541, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11344198137521744, "vf_explained_var": 0.9940193891525269, "vf_loss": 7.678323745727539}, "grad_time_ms": 779.093}, "pid": 3934253, "time_total_s": 65602.53673911095, "episode_reward_mean": -151.45275960946202, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.05178551685933, "policy_reward_mean": {}, "episodes_total": 15552, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.4596296357344, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_08-50-03", "training_iteration": 648, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756536603, "episode_len_mean": 50.0, "timesteps_since_restore": 777600, "time_since_restore": 65602.53673911095, "time_this_iter_s": 118.94076919555664, "iterations_since_restore": 648}
+{"timesteps_total": 778800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 99848.798, "num_steps_sampled": 778800, "update_time_ms": 2.549, "num_steps_trained": 778800, "load_time_ms": 0.617, "default": {"kl": 0.011338386684656143, "cur_lr": 4.999999873689376e-05, "entropy": 6.613151550292969, "total_loss": 12.30356216430664, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.10434151440858841, "vf_explained_var": 0.9906575679779053, "vf_loss": 12.39642333984375}, "grad_time_ms": 763.442}, "pid": 3934253, "time_total_s": 65700.7525241375, "episode_reward_mean": -151.33954524857702, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.05178551685933, "policy_reward_mean": {}, "episodes_total": 15576, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.78754009526514, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_08-51-41", "training_iteration": 649, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756536701, "episode_len_mean": 50.0, "timesteps_since_restore": 778800, "time_since_restore": 65700.7525241375, "time_this_iter_s": 98.2157850265503, "iterations_since_restore": 649}
+{"timesteps_total": 780000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 100781.345, "num_steps_sampled": 780000, "update_time_ms": 2.527, "num_steps_trained": 780000, "load_time_ms": 0.622, "default": {"kl": 0.013383557088673115, "cur_lr": 4.999999873689376e-05, "entropy": 6.252384185791016, "total_loss": 9.627680778503418, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11854615807533264, "vf_explained_var": 0.9921794533729553, "vf_loss": 9.732675552368164}, "grad_time_ms": 765.889}, "pid": 3934253, "time_total_s": 65806.33282995224, "episode_reward_mean": -151.20732308144824, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.05178551685933, "policy_reward_mean": {}, "episodes_total": 15600, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.78754009526514, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_08-53-27", "training_iteration": 650, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756536807, "episode_len_mean": 50.0, "timesteps_since_restore": 780000, "time_since_restore": 65806.33282995224, "time_this_iter_s": 105.58030581474304, "iterations_since_restore": 650}
+{"timesteps_total": 781200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 98930.099, "num_steps_sampled": 781200, "update_time_ms": 2.402, "num_steps_trained": 781200, "load_time_ms": 0.621, "default": {"kl": 0.012757916003465652, "cur_lr": 4.999999873689376e-05, "entropy": 6.42793083190918, "total_loss": 10.180928230285645, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1097208559513092, "vf_explained_var": 0.99164879322052, "vf_loss": 10.277731895446777}, "grad_time_ms": 763.95}, "pid": 3934253, "time_total_s": 65906.05948472023, "episode_reward_mean": -150.76600787910772, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -161.78974099861574, "policy_reward_mean": {}, "episodes_total": 15624, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.78754009526514, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_08-55-07", "training_iteration": 651, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756536907, "episode_len_mean": 50.0, "timesteps_since_restore": 781200, "time_since_restore": 65906.05948472023, "time_this_iter_s": 99.72665476799011, "iterations_since_restore": 651}
+{"timesteps_total": 782400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 95713.624, "num_steps_sampled": 782400, "update_time_ms": 2.422, "num_steps_trained": 782400, "load_time_ms": 0.626, "default": {"kl": 0.011412886902689934, "cur_lr": 4.999999873689376e-05, "entropy": 6.393667221069336, "total_loss": 19.408985137939453, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11556919664144516, "vf_explained_var": 0.9846268892288208, "vf_loss": 19.512996673583984}, "grad_time_ms": 767.191}, "pid": 3934253, "time_total_s": 65991.35186958313, "episode_reward_mean": -151.0416711676692, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -162.9573703906747, "policy_reward_mean": {}, "episodes_total": 15648, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.75696429563217, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_08-56-32", "training_iteration": 652, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756536992, "episode_len_mean": 50.0, "timesteps_since_restore": 782400, "time_since_restore": 65991.35186958313, "time_this_iter_s": 85.29238486289978, "iterations_since_restore": 652}
+{"timesteps_total": 783600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94709.237, "num_steps_sampled": 783600, "update_time_ms": 2.422, "num_steps_trained": 783600, "load_time_ms": 0.624, "default": {"kl": 0.012586956843733788, "cur_lr": 4.999999873689376e-05, "entropy": 6.694999694824219, "total_loss": 8.255680084228516, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12337406724691391, "vf_explained_var": 0.9931978583335876, "vf_loss": 8.36630916595459}, "grad_time_ms": 776.443}, "pid": 3934253, "time_total_s": 66082.94680023193, "episode_reward_mean": -151.26611398768958, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.28386676227794, "policy_reward_mean": {}, "episodes_total": 15672, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.75696429563217, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_08-58-04", "training_iteration": 653, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756537084, "episode_len_mean": 50.0, "timesteps_since_restore": 783600, "time_since_restore": 66082.94680023193, "time_this_iter_s": 91.59493064880371, "iterations_since_restore": 653}
+{"timesteps_total": 784800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93480.09, "num_steps_sampled": 784800, "update_time_ms": 2.477, "num_steps_trained": 784800, "load_time_ms": 0.63, "default": {"kl": 0.011648065410554409, "cur_lr": 4.999999873689376e-05, "entropy": 6.439423561096191, "total_loss": 6.595895290374756, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1131308376789093, "vf_explained_var": 0.9945122599601746, "vf_loss": 6.697232723236084}, "grad_time_ms": 782.817}, "pid": 3934253, "time_total_s": 66139.63784337044, "episode_reward_mean": -151.421835252641, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.17811680513293, "policy_reward_mean": {}, "episodes_total": 15696, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.75696429563217, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_08-59-00", "training_iteration": 654, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756537140, "episode_len_mean": 50.0, "timesteps_since_restore": 784800, "time_since_restore": 66139.63784337044, "time_this_iter_s": 56.69104313850403, "iterations_since_restore": 654}
+{"timesteps_total": 786000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93421.758, "num_steps_sampled": 786000, "update_time_ms": 2.448, "num_steps_trained": 786000, "load_time_ms": 0.617, "default": {"kl": 0.012986731715500355, "cur_lr": 4.999999873689376e-05, "entropy": 6.728307723999023, "total_loss": 12.930699348449707, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12061098217964172, "vf_explained_var": 0.9898444414138794, "vf_loss": 13.038162231445312}, "grad_time_ms": 757.218}, "pid": 3934253, "time_total_s": 66226.43191671371, "episode_reward_mean": -151.55709439030414, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.17811680513293, "policy_reward_mean": {}, "episodes_total": 15720, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.89106674327246, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_09-00-27", "training_iteration": 655, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756537227, "episode_len_mean": 50.0, "timesteps_since_restore": 786000, "time_since_restore": 66226.43191671371, "time_this_iter_s": 86.79407334327698, "iterations_since_restore": 655}
+{"timesteps_total": 787200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 91060.581, "num_steps_sampled": 787200, "update_time_ms": 2.515, "num_steps_trained": 787200, "load_time_ms": 0.615, "default": {"kl": 0.012636389583349228, "cur_lr": 4.999999873689376e-05, "entropy": 6.8368353843688965, "total_loss": 14.384733200073242, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13676336407661438, "vf_explained_var": 0.9892227649688721, "vf_loss": 14.50870132446289}, "grad_time_ms": 754.775}, "pid": 3934253, "time_total_s": 66298.55557537079, "episode_reward_mean": -151.40458382084128, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.17811680513293, "policy_reward_mean": {}, "episodes_total": 15744, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.54462597260832, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_09-01-39", "training_iteration": 656, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756537299, "episode_len_mean": 50.0, "timesteps_since_restore": 787200, "time_since_restore": 66298.55557537079, "time_this_iter_s": 72.12365865707397, "iterations_since_restore": 656}
+{"timesteps_total": 788400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 86574.116, "num_steps_sampled": 788400, "update_time_ms": 2.507, "num_steps_trained": 788400, "load_time_ms": 0.619, "default": {"kl": 0.013919010758399963, "cur_lr": 4.999999873689376e-05, "entropy": 6.683310508728027, "total_loss": 8.733895301818848, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11779823899269104, "vf_explained_var": 0.992950439453125, "vf_loss": 8.837601661682129}, "grad_time_ms": 761.237}, "pid": 3934253, "time_total_s": 66357.03185558319, "episode_reward_mean": -151.25175747424433, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -166.17811680513293, "policy_reward_mean": {}, "episodes_total": 15768, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.54462597260832, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_09-02-38", "training_iteration": 657, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756537358, "episode_len_mean": 50.0, "timesteps_since_restore": 788400, "time_since_restore": 66357.03185558319, "time_this_iter_s": 58.476280212402344, "iterations_since_restore": 657}
+{"timesteps_total": 789600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 82118.274, "num_steps_sampled": 789600, "update_time_ms": 2.47, "num_steps_trained": 789600, "load_time_ms": 0.616, "default": {"kl": 0.012269611470401287, "cur_lr": 4.999999873689376e-05, "entropy": 6.552437782287598, "total_loss": 12.102431297302246, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1195855513215065, "vf_explained_var": 0.990055501461029, "vf_loss": 12.209592819213867}, "grad_time_ms": 766.057}, "pid": 3934253, "time_total_s": 66431.46171355247, "episode_reward_mean": -151.0359636759865, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -163.4725483196033, "policy_reward_mean": {}, "episodes_total": 15792, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.54462597260832, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_09-03-52", "training_iteration": 658, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756537432, "episode_len_mean": 50.0, "timesteps_since_restore": 789600, "time_since_restore": 66431.46171355247, "time_this_iter_s": 74.42985796928406, "iterations_since_restore": 658}
+{"timesteps_total": 790800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 83903.982, "num_steps_sampled": 790800, "update_time_ms": 2.472, "num_steps_trained": 790800, "load_time_ms": 0.62, "default": {"kl": 0.007937086746096611, "cur_lr": 4.999999873689376e-05, "entropy": 6.613508701324463, "total_loss": 45.66404724121094, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1019890308380127, "vf_explained_var": 0.9751158952713013, "vf_loss": 45.757999420166016}, "grad_time_ms": 774.19}, "pid": 3934253, "time_total_s": 66547.61732769012, "episode_reward_mean": -151.75462206130666, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -209.2673208160466, "policy_reward_mean": {}, "episodes_total": 15816, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.54462597260832, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_09-05-48", "training_iteration": 659, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756537548, "episode_len_mean": 50.0, "timesteps_since_restore": 790800, "time_since_restore": 66547.61732769012, "time_this_iter_s": 116.15561413764954, "iterations_since_restore": 659}
+{"timesteps_total": 792000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 82488.539, "num_steps_sampled": 792000, "update_time_ms": 2.46, "num_steps_trained": 792000, "load_time_ms": 0.622, "default": {"kl": 0.012799741700291634, "cur_lr": 4.999999873689376e-05, "entropy": 6.50419807434082, "total_loss": 8.887038230895996, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1166180744767189, "vf_explained_var": 0.9929201602935791, "vf_loss": 8.990696907043457}, "grad_time_ms": 780.299}, "pid": 3934253, "time_total_s": 66639.10441493988, "episode_reward_mean": -152.13930837402907, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -209.2673208160466, "policy_reward_mean": {}, "episodes_total": 15840, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.75838048415804, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_09-07-20", "training_iteration": 660, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756537640, "episode_len_mean": 50.0, "timesteps_since_restore": 792000, "time_since_restore": 66639.10441493988, "time_this_iter_s": 91.48708724975586, "iterations_since_restore": 660}
+{"timesteps_total": 793200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 81544.232, "num_steps_sampled": 793200, "update_time_ms": 2.483, "num_steps_trained": 793200, "load_time_ms": 0.623, "default": {"kl": 0.013526301831007004, "cur_lr": 4.999999873689376e-05, "entropy": 6.520646572113037, "total_loss": 6.78563117980957, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1247837170958519, "vf_explained_var": 0.9944746494293213, "vf_loss": 6.896719455718994}, "grad_time_ms": 787.181}, "pid": 3934253, "time_total_s": 66729.45693945885, "episode_reward_mean": -152.25459962815407, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -209.2673208160466, "policy_reward_mean": {}, "episodes_total": 15864, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.75838048415804, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_09-08-50", "training_iteration": 661, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756537730, "episode_len_mean": 50.0, "timesteps_since_restore": 793200, "time_since_restore": 66729.45693945885, "time_this_iter_s": 90.35252451896667, "iterations_since_restore": 661}
+{"timesteps_total": 794400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 81566.335, "num_steps_sampled": 794400, "update_time_ms": 2.481, "num_steps_trained": 794400, "load_time_ms": 0.624, "default": {"kl": 0.009709502570331097, "cur_lr": 4.999999873689376e-05, "entropy": 6.697580814361572, "total_loss": 31.00704574584961, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.10691169649362564, "vf_explained_var": 0.9766644239425659, "vf_loss": 31.1041259765625}, "grad_time_ms": 784.331}, "pid": 3934253, "time_total_s": 66814.94206523895, "episode_reward_mean": -152.15130963223993, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -209.2673208160466, "policy_reward_mean": {}, "episodes_total": 15888, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.75838048415804, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_09-10-16", "training_iteration": 662, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756537816, "episode_len_mean": 50.0, "timesteps_since_restore": 794400, "time_since_restore": 66814.94206523895, "time_this_iter_s": 85.48512578010559, "iterations_since_restore": 662}
+{"timesteps_total": 795600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 81604.465, "num_steps_sampled": 795600, "update_time_ms": 2.449, "num_steps_trained": 795600, "load_time_ms": 0.63, "default": {"kl": 0.011459432542324066, "cur_lr": 4.999999873689376e-05, "entropy": 6.440579891204834, "total_loss": 9.810572624206543, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11177754402160645, "vf_explained_var": 0.9926278591156006, "vf_loss": 9.910746574401855}, "grad_time_ms": 753.241}, "pid": 3934253, "time_total_s": 66906.60725140572, "episode_reward_mean": -151.43457264234567, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.53212164937042, "policy_reward_mean": {}, "episodes_total": 15912, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.75838048415804, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_09-11-47", "training_iteration": 663, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756537907, "episode_len_mean": 50.0, "timesteps_since_restore": 795600, "time_since_restore": 66906.60725140572, "time_this_iter_s": 91.6651861667633, "iterations_since_restore": 663}
+{"timesteps_total": 796800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 85209.039, "num_steps_sampled": 796800, "update_time_ms": 2.44, "num_steps_trained": 796800, "load_time_ms": 0.62, "default": {"kl": 0.014888007193803787, "cur_lr": 4.999999873689376e-05, "entropy": 6.557436466217041, "total_loss": 7.459188461303711, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1355879008769989, "vf_explained_var": 0.994841992855072, "vf_loss": 7.579701900482178}, "grad_time_ms": 754.921}, "pid": 3934253, "time_total_s": 66999.36083936691, "episode_reward_mean": -151.34236627439955, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.53212164937042, "policy_reward_mean": {}, "episodes_total": 15936, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.46980255395553, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_09-13-20", "training_iteration": 664, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756538000, "episode_len_mean": 50.0, "timesteps_since_restore": 796800, "time_since_restore": 66999.36083936691, "time_this_iter_s": 92.7535879611969, "iterations_since_restore": 664}
+{"timesteps_total": 798000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 86016.806, "num_steps_sampled": 798000, "update_time_ms": 2.522, "num_steps_trained": 798000, "load_time_ms": 0.624, "default": {"kl": 0.011667725630104542, "cur_lr": 4.999999873689376e-05, "entropy": 6.511973857879639, "total_loss": 17.17188262939453, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11145953088998795, "vf_explained_var": 0.9879921674728394, "vf_loss": 17.271528244018555}, "grad_time_ms": 770.477}, "pid": 3934253, "time_total_s": 67094.38917398453, "episode_reward_mean": -151.15047415516864, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -159.77875482028378, "policy_reward_mean": {}, "episodes_total": 15960, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.46980255395553, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_09-14-55", "training_iteration": 665, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756538095, "episode_len_mean": 50.0, "timesteps_since_restore": 798000, "time_since_restore": 67094.38917398453, "time_this_iter_s": 95.02833461761475, "iterations_since_restore": 665}
+{"timesteps_total": 799200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 87249.057, "num_steps_sampled": 799200, "update_time_ms": 2.486, "num_steps_trained": 799200, "load_time_ms": 0.627, "default": {"kl": 0.012102197855710983, "cur_lr": 4.999999873689376e-05, "entropy": 6.43237829208374, "total_loss": 7.126491069793701, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11670617014169693, "vf_explained_var": 0.994476318359375, "vf_loss": 7.23094367980957}, "grad_time_ms": 770.622}, "pid": 3934253, "time_total_s": 67178.83634185791, "episode_reward_mean": -151.30152287858394, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -159.77875482028378, "policy_reward_mean": {}, "episodes_total": 15984, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.46980255395553, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_09-16-20", "training_iteration": 666, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756538180, "episode_len_mean": 50.0, "timesteps_since_restore": 799200, "time_since_restore": 67178.83634185791, "time_this_iter_s": 84.44716787338257, "iterations_since_restore": 666}
+{"timesteps_total": 800400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 91353.758, "num_steps_sampled": 800400, "update_time_ms": 2.512, "num_steps_trained": 800400, "load_time_ms": 0.628, "default": {"kl": 0.011202414520084858, "cur_lr": 4.999999873689376e-05, "entropy": 6.938111782073975, "total_loss": 28.343528747558594, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11333584785461426, "vf_explained_var": 0.9814093112945557, "vf_loss": 28.44552230834961}, "grad_time_ms": 744.531}, "pid": 3934253, "time_total_s": 67278.0993475914, "episode_reward_mean": -151.50161338262103, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.1941954418082, "policy_reward_mean": {}, "episodes_total": 16008, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.46980255395553, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_09-17-59", "training_iteration": 667, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756538279, "episode_len_mean": 50.0, "timesteps_since_restore": 800400, "time_since_restore": 67278.0993475914, "time_this_iter_s": 99.26300573348999, "iterations_since_restore": 667}
+{"timesteps_total": 801600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94170.663, "num_steps_sampled": 801600, "update_time_ms": 2.597, "num_steps_trained": 801600, "load_time_ms": 0.64, "default": {"kl": 0.013727385550737381, "cur_lr": 4.999999873689376e-05, "entropy": 6.836697578430176, "total_loss": 8.947104454040527, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.13056008517742157, "vf_explained_var": 0.9923450946807861, "vf_loss": 9.063766479492188}, "grad_time_ms": 728.366}, "pid": 3934253, "time_total_s": 67380.53780794144, "episode_reward_mean": -151.21565188693177, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.1941954418082, "policy_reward_mean": {}, "episodes_total": 16032, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.47529502612474, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_09-19-41", "training_iteration": 668, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756538381, "episode_len_mean": 50.0, "timesteps_since_restore": 801600, "time_since_restore": 67380.53780794144, "time_this_iter_s": 102.43846035003662, "iterations_since_restore": 668}
+{"timesteps_total": 802800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93225.319, "num_steps_sampled": 802800, "update_time_ms": 2.595, "num_steps_trained": 802800, "load_time_ms": 0.641, "default": {"kl": 0.012475317344069481, "cur_lr": 4.999999873689376e-05, "entropy": 6.533681392669678, "total_loss": 8.152522087097168, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11396972090005875, "vf_explained_var": 0.9932054877281189, "vf_loss": 8.253859519958496}, "grad_time_ms": 722.125}, "pid": 3934253, "time_total_s": 67487.17651033401, "episode_reward_mean": -151.30825228574636, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.1941954418082, "policy_reward_mean": {}, "episodes_total": 16056, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.47529502612474, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_09-21-28", "training_iteration": 669, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756538488, "episode_len_mean": 50.0, "timesteps_since_restore": 802800, "time_since_restore": 67487.17651033401, "time_this_iter_s": 106.63870239257812, "iterations_since_restore": 669}
+{"timesteps_total": 804000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93995.465, "num_steps_sampled": 804000, "update_time_ms": 2.617, "num_steps_trained": 804000, "load_time_ms": 0.64, "default": {"kl": 0.012943493202328682, "cur_lr": 4.999999873689376e-05, "entropy": 6.564505100250244, "total_loss": 6.670261383056641, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11613664031028748, "vf_explained_var": 0.9946820139884949, "vf_loss": 6.773292541503906}, "grad_time_ms": 719.747}, "pid": 3934253, "time_total_s": 67586.34124970436, "episode_reward_mean": -151.18661510618227, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.1941954418082, "policy_reward_mean": {}, "episodes_total": 16080, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.47529502612474, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_09-23-07", "training_iteration": 670, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756538587, "episode_len_mean": 50.0, "timesteps_since_restore": 804000, "time_since_restore": 67586.34124970436, "time_this_iter_s": 99.16473937034607, "iterations_since_restore": 670}
+{"timesteps_total": 805200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94262.434, "num_steps_sampled": 805200, "update_time_ms": 2.627, "num_steps_trained": 805200, "load_time_ms": 0.641, "default": {"kl": 0.01226672250777483, "cur_lr": 4.999999873689376e-05, "entropy": 6.056154727935791, "total_loss": 8.908513069152832, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12133461982011795, "vf_explained_var": 0.9923565983772278, "vf_loss": 9.017428398132324}, "grad_time_ms": 718.622}, "pid": 3934253, "time_total_s": 67679.35307192802, "episode_reward_mean": -151.23372935764777, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.1941954418082, "policy_reward_mean": {}, "episodes_total": 16104, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.47529502612474, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_09-24-40", "training_iteration": 671, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756538680, "episode_len_mean": 50.0, "timesteps_since_restore": 805200, "time_since_restore": 67679.35307192802, "time_this_iter_s": 93.01182222366333, "iterations_since_restore": 671}
+{"timesteps_total": 806400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 95903.582, "num_steps_sampled": 806400, "update_time_ms": 2.629, "num_steps_trained": 806400, "load_time_ms": 0.64, "default": {"kl": 0.013150524348020554, "cur_lr": 4.999999873689376e-05, "entropy": 6.534552574157715, "total_loss": 10.642876625061035, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12220504879951477, "vf_explained_var": 0.9922248125076294, "vf_loss": 10.751766204833984}, "grad_time_ms": 725.111}, "pid": 3934253, "time_total_s": 67781.31496477127, "episode_reward_mean": -151.34883223728843, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -163.48883436689144, "policy_reward_mean": {}, "episodes_total": 16128, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -144.58835193512377, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_09-26-22", "training_iteration": 672, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756538782, "episode_len_mean": 50.0, "timesteps_since_restore": 806400, "time_since_restore": 67781.31496477127, "time_this_iter_s": 101.96189284324646, "iterations_since_restore": 672}
+{"timesteps_total": 807600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 96976.531, "num_steps_sampled": 807600, "update_time_ms": 2.639, "num_steps_trained": 807600, "load_time_ms": 0.628, "default": {"kl": 0.012908346019685268, "cur_lr": 4.999999873689376e-05, "entropy": 6.433506011962891, "total_loss": 11.394515037536621, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11172091960906982, "vf_explained_var": 0.990711510181427, "vf_loss": 11.493165969848633}, "grad_time_ms": 745.565}, "pid": 3934253, "time_total_s": 67883.91454315186, "episode_reward_mean": -151.22890771549737, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -163.48883436689144, "policy_reward_mean": {}, "episodes_total": 16152, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.43140026304368, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_09-28-05", "training_iteration": 673, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756538885, "episode_len_mean": 50.0, "timesteps_since_restore": 807600, "time_since_restore": 67883.91454315186, "time_this_iter_s": 102.59957838058472, "iterations_since_restore": 673}
+{"timesteps_total": 808800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 98556.756, "num_steps_sampled": 808800, "update_time_ms": 2.654, "num_steps_trained": 808800, "load_time_ms": 0.634, "default": {"kl": 0.013200155459344387, "cur_lr": 4.999999873689376e-05, "entropy": 6.696569442749023, "total_loss": 7.806126117706299, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12211307138204575, "vf_explained_var": 0.9940935969352722, "vf_loss": 7.9148736000061035}, "grad_time_ms": 741.058}, "pid": 3934253, "time_total_s": 67992.4255001545, "episode_reward_mean": -151.68195875737942, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.95892603061685, "policy_reward_mean": {}, "episodes_total": 16176, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.43140026304368, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_09-29-53", "training_iteration": 674, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756538993, "episode_len_mean": 50.0, "timesteps_since_restore": 808800, "time_since_restore": 67992.4255001545, "time_this_iter_s": 108.51095700263977, "iterations_since_restore": 674}
+{"timesteps_total": 810000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 100854.048, "num_steps_sampled": 810000, "update_time_ms": 2.611, "num_steps_trained": 810000, "load_time_ms": 0.628, "default": {"kl": 0.011847835965454578, "cur_lr": 4.999999873689376e-05, "entropy": 6.6236677169799805, "total_loss": 12.153740882873535, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11479135602712631, "vf_explained_var": 0.9907311201095581, "vf_loss": 12.256536483764648}, "grad_time_ms": 750.617}, "pid": 3934253, "time_total_s": 68110.52215981483, "episode_reward_mean": -151.57957172871915, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -164.95892603061685, "policy_reward_mean": {}, "episodes_total": 16200, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.43140026304368, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_09-31-52", "training_iteration": 675, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756539112, "episode_len_mean": 50.0, "timesteps_since_restore": 810000, "time_since_restore": 68110.52215981483, "time_this_iter_s": 118.09665966033936, "iterations_since_restore": 675}
+{"timesteps_total": 811200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 102943.044, "num_steps_sampled": 811200, "update_time_ms": 2.666, "num_steps_trained": 811200, "load_time_ms": 0.647, "default": {"kl": 0.012600626796483994, "cur_lr": 4.999999873689376e-05, "entropy": 6.64918851852417, "total_loss": 16.147125244140625, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.14403095841407776, "vf_explained_var": 0.98751300573349, "vf_loss": 16.278398513793945}, "grad_time_ms": 744.666}, "pid": 3934253, "time_total_s": 68215.8010263443, "episode_reward_mean": -151.69943842256066, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -168.19080211933337, "policy_reward_mean": {}, "episodes_total": 16224, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.43140026304368, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_09-33-37", "training_iteration": 676, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756539217, "episode_len_mean": 50.0, "timesteps_since_restore": 811200, "time_since_restore": 68215.8010263443, "time_this_iter_s": 105.27886652946472, "iterations_since_restore": 676}
+{"timesteps_total": 812400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 101904.919, "num_steps_sampled": 812400, "update_time_ms": 2.604, "num_steps_trained": 812400, "load_time_ms": 0.647, "default": {"kl": 0.012451926246285439, "cur_lr": 4.999999873689376e-05, "entropy": 6.550738334655762, "total_loss": 8.950202941894531, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11671951413154602, "vf_explained_var": 0.9930202960968018, "vf_loss": 9.054315567016602}, "grad_time_ms": 767.029}, "pid": 3934253, "time_total_s": 68304.90540742874, "episode_reward_mean": -151.9255237656048, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -168.19080211933337, "policy_reward_mean": {}, "episodes_total": 16248, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.6557397808477, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_09-35-06", "training_iteration": 677, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756539306, "episode_len_mean": 50.0, "timesteps_since_restore": 812400, "time_since_restore": 68304.90540742874, "time_this_iter_s": 89.10438108444214, "iterations_since_restore": 677}
+{"timesteps_total": 813600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 100236.082, "num_steps_sampled": 813600, "update_time_ms": 2.596, "num_steps_trained": 813600, "load_time_ms": 0.634, "default": {"kl": 0.011645686812698841, "cur_lr": 4.999999873689376e-05, "entropy": 6.426385879516602, "total_loss": 25.895009994506836, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.10874418914318085, "vf_explained_var": 0.9853691458702087, "vf_loss": 25.991962432861328}, "grad_time_ms": 781.1}, "pid": 3934253, "time_total_s": 68390.79599404335, "episode_reward_mean": -151.39686840499604, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -168.19080211933337, "policy_reward_mean": {}, "episodes_total": 16272, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.6557397808477, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_09-36-32", "training_iteration": 678, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756539392, "episode_len_mean": 50.0, "timesteps_since_restore": 813600, "time_since_restore": 68390.79599404335, "time_this_iter_s": 85.89058661460876, "iterations_since_restore": 678}
+{"timesteps_total": 814800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 100186.238, "num_steps_sampled": 814800, "update_time_ms": 2.597, "num_steps_trained": 814800, "load_time_ms": 0.633, "default": {"kl": 0.012054681777954102, "cur_lr": 4.999999873689376e-05, "entropy": 6.241293907165527, "total_loss": 9.844844818115234, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.10538104176521301, "vf_explained_var": 0.9917342066764832, "vf_loss": 9.938020706176758}, "grad_time_ms": 786.948}, "pid": 3934253, "time_total_s": 68496.99503946304, "episode_reward_mean": -151.08533412484206, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -168.19080211933337, "policy_reward_mean": {}, "episodes_total": 16296, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.74999265829365, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_09-38-18", "training_iteration": 679, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756539498, "episode_len_mean": 50.0, "timesteps_since_restore": 814800, "time_since_restore": 68496.99503946304, "time_this_iter_s": 106.199045419693, "iterations_since_restore": 679}
+{"timesteps_total": 816000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 99076.14, "num_steps_sampled": 816000, "update_time_ms": 2.567, "num_steps_trained": 816000, "load_time_ms": 0.629, "default": {"kl": 0.012802320532500744, "cur_lr": 4.999999873689376e-05, "entropy": 6.331047534942627, "total_loss": 10.05265998840332, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11535504460334778, "vf_explained_var": 0.9921693801879883, "vf_loss": 10.155052185058594}, "grad_time_ms": 781.558}, "pid": 3934253, "time_total_s": 68585.0056154728, "episode_reward_mean": -150.79877807890264, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -162.53422148169122, "policy_reward_mean": {}, "episodes_total": 16320, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.74999265829365, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_09-39-46", "training_iteration": 680, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756539586, "episode_len_mean": 50.0, "timesteps_since_restore": 816000, "time_since_restore": 68585.0056154728, "time_this_iter_s": 88.01057600975037, "iterations_since_restore": 680}
+{"timesteps_total": 817200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 97339.498, "num_steps_sampled": 817200, "update_time_ms": 2.579, "num_steps_trained": 817200, "load_time_ms": 0.626, "default": {"kl": 0.012418713420629501, "cur_lr": 4.999999873689376e-05, "entropy": 6.361508846282959, "total_loss": 8.864505767822266, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12446033954620361, "vf_explained_var": 0.9929365515708923, "vf_loss": 8.976390838623047}, "grad_time_ms": 780.2}, "pid": 3934253, "time_total_s": 68660.64840269089, "episode_reward_mean": -150.8476379489054, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -163.65163740307503, "policy_reward_mean": {}, "episodes_total": 16344, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -140.52325129365028, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_09-41-02", "training_iteration": 681, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756539662, "episode_len_mean": 50.0, "timesteps_since_restore": 817200, "time_since_restore": 68660.64840269089, "time_this_iter_s": 75.64278721809387, "iterations_since_restore": 681}
+{"timesteps_total": 818400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 95654.015, "num_steps_sampled": 818400, "update_time_ms": 2.58, "num_steps_trained": 818400, "load_time_ms": 0.625, "default": {"kl": 0.011963529512286186, "cur_lr": 4.999999873689376e-05, "entropy": 6.352933883666992, "total_loss": 14.166751861572266, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.12253758311271667, "vf_explained_var": 0.9886897206306458, "vf_loss": 14.277175903320312}, "grad_time_ms": 779.43}, "pid": 3934253, "time_total_s": 68745.74711084366, "episode_reward_mean": -150.81457327193596, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -163.87497421953273, "policy_reward_mean": {}, "episodes_total": 16368, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -140.52325129365028, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_09-42-27", "training_iteration": 682, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756539747, "episode_len_mean": 50.0, "timesteps_since_restore": 818400, "time_since_restore": 68745.74711084366, "time_this_iter_s": 85.098708152771, "iterations_since_restore": 682}
+{"timesteps_total": 819600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 96394.793, "num_steps_sampled": 819600, "update_time_ms": 2.6, "num_steps_trained": 819600, "load_time_ms": 0.642, "default": {"kl": 0.011911649256944656, "cur_lr": 4.999999873689376e-05, "entropy": 6.103545188903809, "total_loss": 9.033626556396484, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1012423187494278, "vf_explained_var": 0.9925553202629089, "vf_loss": 9.122809410095215}, "grad_time_ms": 785.224}, "pid": 3934253, "time_total_s": 68855.81179380417, "episode_reward_mean": -150.8460074407685, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -163.87497421953273, "policy_reward_mean": {}, "episodes_total": 16392, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -140.52325129365028, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_09-44-17", "training_iteration": 683, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756539857, "episode_len_mean": 50.0, "timesteps_since_restore": 819600, "time_since_restore": 68855.81179380417, "time_this_iter_s": 110.06468296051025, "iterations_since_restore": 683}
+{"timesteps_total": 820800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 96089.793, "num_steps_sampled": 820800, "update_time_ms": 2.585, "num_steps_trained": 820800, "load_time_ms": 0.646, "default": {"kl": 0.01197890192270279, "cur_lr": 4.999999873689376e-05, "entropy": 6.369986534118652, "total_loss": 9.048433303833008, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11695381999015808, "vf_explained_var": 0.9941478371620178, "vf_loss": 9.15325927734375}, "grad_time_ms": 779.6}, "pid": 3934253, "time_total_s": 68961.21634984016, "episode_reward_mean": -151.20101435769047, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -163.87497421953273, "policy_reward_mean": {}, "episodes_total": 16416, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -140.52325129365028, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_09-46-02", "training_iteration": 684, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756539962, "episode_len_mean": 50.0, "timesteps_since_restore": 820800, "time_since_restore": 68961.21634984016, "time_this_iter_s": 105.40455603599548, "iterations_since_restore": 684}
+{"timesteps_total": 822000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 95277.527, "num_steps_sampled": 822000, "update_time_ms": 2.612, "num_steps_trained": 822000, "load_time_ms": 0.643, "default": {"kl": 0.012461802922189236, "cur_lr": 4.999999873689376e-05, "entropy": 6.272339344024658, "total_loss": 5.204405784606934, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11976167559623718, "vf_explained_var": 0.9955686926841736, "vf_loss": 5.311550617218018}, "grad_time_ms": 781.68}, "pid": 3934253, "time_total_s": 69071.21107387543, "episode_reward_mean": -151.26061614676337, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -163.87497421953273, "policy_reward_mean": {}, "episodes_total": 16440, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.8100592191962, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_09-47-52", "training_iteration": 685, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756540072, "episode_len_mean": 50.0, "timesteps_since_restore": 822000, "time_since_restore": 69071.21107387543, "time_this_iter_s": 109.99472403526306, "iterations_since_restore": 685}
+{"timesteps_total": 823200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 92447.797, "num_steps_sampled": 823200, "update_time_ms": 2.543, "num_steps_trained": 823200, "load_time_ms": 0.629, "default": {"kl": 0.01256785448640585, "cur_lr": 4.999999873689376e-05, "entropy": 6.144095420837402, "total_loss": 8.30500602722168, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11857112497091293, "vf_explained_var": 0.9932448863983154, "vf_loss": 8.410853385925293}, "grad_time_ms": 787.828}, "pid": 3934253, "time_total_s": 69148.25281834602, "episode_reward_mean": -151.32705938647703, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -163.87497421953273, "policy_reward_mean": {}, "episodes_total": 16464, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.57374849668588, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_09-49-09", "training_iteration": 686, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756540149, "episode_len_mean": 50.0, "timesteps_since_restore": 823200, "time_since_restore": 69148.25281834602, "time_this_iter_s": 77.04174447059631, "iterations_since_restore": 686}
+{"timesteps_total": 824400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 86656.142, "num_steps_sampled": 824400, "update_time_ms": 2.651, "num_steps_trained": 824400, "load_time_ms": 0.625, "default": {"kl": 0.013023233972489834, "cur_lr": 4.999999873689376e-05, "entropy": 6.194946765899658, "total_loss": 7.450124740600586, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11979203671216965, "vf_explained_var": 0.9941511154174805, "vf_loss": 7.556732177734375}, "grad_time_ms": 776.974}, "pid": 3934253, "time_total_s": 69179.33352923393, "episode_reward_mean": -151.38487842314197, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -162.7455905758164, "policy_reward_mean": {}, "episodes_total": 16488, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.57374849668588, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_09-49-41", "training_iteration": 687, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756540181, "episode_len_mean": 50.0, "timesteps_since_restore": 824400, "time_since_restore": 69179.33352923393, "time_this_iter_s": 31.080710887908936, "iterations_since_restore": 687}
+{"timesteps_total": 825600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 87077.504, "num_steps_sampled": 825600, "update_time_ms": 2.579, "num_steps_trained": 825600, "load_time_ms": 0.655, "default": {"kl": 0.012215284630656242, "cur_lr": 4.999999873689376e-05, "entropy": 6.197381496429443, "total_loss": 6.406160354614258, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11759992688894272, "vf_explained_var": 0.9950463771820068, "vf_loss": 6.511392116546631}, "grad_time_ms": 767.738}, "pid": 3934253, "time_total_s": 69269.34405446053, "episode_reward_mean": -151.17998303169554, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -161.4520066765237, "policy_reward_mean": {}, "episodes_total": 16512, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.57374849668588, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_09-51-11", "training_iteration": 688, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756540271, "episode_len_mean": 50.0, "timesteps_since_restore": 825600, "time_since_restore": 69269.34405446053, "time_this_iter_s": 90.01052522659302, "iterations_since_restore": 688}
+{"timesteps_total": 826800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 85577.639, "num_steps_sampled": 826800, "update_time_ms": 2.554, "num_steps_trained": 826800, "load_time_ms": 0.653, "default": {"kl": 0.012390440329909325, "cur_lr": 4.999999873689376e-05, "entropy": 6.316177845001221, "total_loss": 18.18695640563965, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11650380492210388, "vf_explained_var": 0.9914601445198059, "vf_loss": 18.290916442871094}, "grad_time_ms": 778.028}, "pid": 3934253, "time_total_s": 69360.6469142437, "episode_reward_mean": -151.49063416896567, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -165.0456315643184, "policy_reward_mean": {}, "episodes_total": 16536, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -142.57374849668588, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_09-52-42", "training_iteration": 689, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756540362, "episode_len_mean": 50.0, "timesteps_since_restore": 826800, "time_since_restore": 69360.6469142437, "time_this_iter_s": 91.30285978317261, "iterations_since_restore": 689}
+{"timesteps_total": 828000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 86750.332, "num_steps_sampled": 828000, "update_time_ms": 2.59, "num_steps_trained": 828000, "load_time_ms": 0.658, "default": {"kl": 0.011441261507570744, "cur_lr": 4.999999873689376e-05, "entropy": 6.2853240966796875, "total_loss": 22.910051345825195, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11486013978719711, "vf_explained_var": 0.9828611016273499, "vf_loss": 23.013328552246094}, "grad_time_ms": 770.52}, "pid": 3934253, "time_total_s": 69460.30961084366, "episode_reward_mean": -151.7659706244583, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -180.0312363975615, "policy_reward_mean": {}, "episodes_total": 16560, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -147.80484426119497, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_09-54-22", "training_iteration": 690, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756540462, "episode_len_mean": 50.0, "timesteps_since_restore": 828000, "time_since_restore": 69460.30961084366, "time_this_iter_s": 99.66269659996033, "iterations_since_restore": 690}
+{"timesteps_total": 829200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 90554.163, "num_steps_sampled": 829200, "update_time_ms": 2.575, "num_steps_trained": 829200, "load_time_ms": 0.659, "default": {"kl": 0.012882929295301437, "cur_lr": 4.999999873689376e-05, "entropy": 6.380704879760742, "total_loss": 14.827506065368652, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11432640999555588, "vf_explained_var": 0.9901928305625916, "vf_loss": 14.928787231445312}, "grad_time_ms": 765.682}, "pid": 3934253, "time_total_s": 69573.93123292923, "episode_reward_mean": -151.96510791490692, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -180.0312363975615, "policy_reward_mean": {}, "episodes_total": 16584, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -146.67734841385254, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_09-56-15", "training_iteration": 691, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756540575, "episode_len_mean": 50.0, "timesteps_since_restore": 829200, "time_since_restore": 69573.93123292923, "time_this_iter_s": 113.62162208557129, "iterations_since_restore": 691}
+{"timesteps_total": 830400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94301.75, "num_steps_sampled": 830400, "update_time_ms": 2.544, "num_steps_trained": 830400, "load_time_ms": 0.653, "default": {"kl": 0.013330933637917042, "cur_lr": 4.999999873689376e-05, "entropy": 6.488500595092773, "total_loss": 25.625591278076172, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11284230649471283, "vf_explained_var": 0.9840977191925049, "vf_loss": 25.724937438964844}, "grad_time_ms": 729.438}, "pid": 3934253, "time_total_s": 69696.14327788353, "episode_reward_mean": -152.45992568128085, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -180.0312363975615, "policy_reward_mean": {}, "episodes_total": 16608, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -146.67734841385254, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_09-58-17", "training_iteration": 692, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756540697, "episode_len_mean": 50.0, "timesteps_since_restore": 830400, "time_since_restore": 69696.14327788353, "time_this_iter_s": 122.21204495429993, "iterations_since_restore": 692}
+{"timesteps_total": 831600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 93609.137, "num_steps_sampled": 831600, "update_time_ms": 2.539, "num_steps_trained": 831600, "load_time_ms": 0.641, "default": {"kl": 0.013981933705508709, "cur_lr": 4.999999873689376e-05, "entropy": 6.311878681182861, "total_loss": 6.803781986236572, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11857353150844574, "vf_explained_var": 0.9953944087028503, "vf_loss": 6.908199310302734}, "grad_time_ms": 718.791}, "pid": 3934253, "time_total_s": 69799.17583036423, "episode_reward_mean": -152.2516817528202, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -180.0312363975615, "policy_reward_mean": {}, "episodes_total": 16632, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -146.67734841385254, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_10-00-01", "training_iteration": 693, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756540801, "episode_len_mean": 50.0, "timesteps_since_restore": 831600, "time_since_restore": 69799.17583036423, "time_this_iter_s": 103.03255248069763, "iterations_since_restore": 693}
+{"timesteps_total": 832800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 96258.397, "num_steps_sampled": 832800, "update_time_ms": 2.525, "num_steps_trained": 832800, "load_time_ms": 0.646, "default": {"kl": 0.011710396967828274, "cur_lr": 4.999999873689376e-05, "entropy": 6.321974754333496, "total_loss": 7.118447303771973, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11277797818183899, "vf_explained_var": 0.9942653179168701, "vf_loss": 7.219368934631348}, "grad_time_ms": 704.768}, "pid": 3934253, "time_total_s": 69930.9327340126, "episode_reward_mean": -152.43928058541786, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -180.0312363975615, "policy_reward_mean": {}, "episodes_total": 16656, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -146.67734841385254, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_10-02-12", "training_iteration": 694, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756540932, "episode_len_mean": 50.0, "timesteps_since_restore": 832800, "time_since_restore": 69930.9327340126, "time_this_iter_s": 131.75690364837646, "iterations_since_restore": 694}
+{"timesteps_total": 834000, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 94101.325, "num_steps_sampled": 834000, "update_time_ms": 2.504, "num_steps_trained": 834000, "load_time_ms": 0.643, "default": {"kl": 0.009334594011306763, "cur_lr": 4.999999873689376e-05, "entropy": 6.432497501373291, "total_loss": 42.389686584472656, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.0987766683101654, "vf_explained_var": 0.9710657596588135, "vf_loss": 42.479007720947266}, "grad_time_ms": 674.781}, "pid": 3934253, "time_total_s": 70019.05616569519, "episode_reward_mean": -152.5862841135043, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -215.12316385063616, "policy_reward_mean": {}, "episodes_total": 16680, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.70947457469018, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_10-03-40", "training_iteration": 695, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756541020, "episode_len_mean": 50.0, "timesteps_since_restore": 834000, "time_since_restore": 70019.05616569519, "time_this_iter_s": 88.12343168258667, "iterations_since_restore": 695}
+{"timesteps_total": 835200, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 97703.421, "num_steps_sampled": 835200, "update_time_ms": 2.461, "num_steps_trained": 835200, "load_time_ms": 0.642, "default": {"kl": 0.010365894995629787, "cur_lr": 4.999999873689376e-05, "entropy": 6.277856349945068, "total_loss": 31.63107681274414, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.10792961716651917, "vf_explained_var": 0.9769017696380615, "vf_loss": 31.72850799560547}, "grad_time_ms": 674.391}, "pid": 3934253, "time_total_s": 70132.1143321991, "episode_reward_mean": -152.69711119289224, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -215.12316385063616, "policy_reward_mean": {}, "episodes_total": 16704, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.70947457469018, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_10-05-33", "training_iteration": 696, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756541133, "episode_len_mean": 50.0, "timesteps_since_restore": 835200, "time_since_restore": 70132.1143321991, "time_this_iter_s": 113.05816650390625, "iterations_since_restore": 696}
+{"timesteps_total": 836400, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 100679.433, "num_steps_sampled": 836400, "update_time_ms": 2.366, "num_steps_trained": 836400, "load_time_ms": 0.642, "default": {"kl": 0.012433375231921673, "cur_lr": 4.999999873689376e-05, "entropy": 6.009059429168701, "total_loss": 14.474651336669922, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11254024505615234, "vf_explained_var": 0.9880602359771729, "vf_loss": 14.574604034423828}, "grad_time_ms": 689.482}, "pid": 3934253, "time_total_s": 70193.10514330864, "episode_reward_mean": -152.4112371065005, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -215.12316385063616, "policy_reward_mean": {}, "episodes_total": 16728, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.70947457469018, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_10-06-34", "training_iteration": 697, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756541194, "episode_len_mean": 50.0, "timesteps_since_restore": 836400, "time_since_restore": 70193.10514330864, "time_this_iter_s": 60.99081110954285, "iterations_since_restore": 697}
+{"timesteps_total": 837600, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 102270.979, "num_steps_sampled": 837600, "update_time_ms": 2.433, "num_steps_trained": 837600, "load_time_ms": 0.613, "default": {"kl": 0.012350209057331085, "cur_lr": 4.999999873689376e-05, "entropy": 6.168177127838135, "total_loss": 10.318385124206543, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1254514455795288, "vf_explained_var": 0.9916518330574036, "vf_loss": 10.431331634521484}, "grad_time_ms": 692.615}, "pid": 3934253, "time_total_s": 70299.0635895729, "episode_reward_mean": -152.33370792697596, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -215.12316385063616, "policy_reward_mean": {}, "episodes_total": 16752, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -139.70947457469018, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_10-08-20", "training_iteration": 698, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756541300, "episode_len_mean": 50.0, "timesteps_since_restore": 837600, "time_since_restore": 70299.0635895729, "time_this_iter_s": 105.95844626426697, "iterations_since_restore": 698}
+{"timesteps_total": 838800, "experiment_id": "28bf8d7c89244732ac12356321e5be58", "done": false, "info": {"sample_time_ms": 101079.944, "num_steps_sampled": 838800, "update_time_ms": 2.454, "num_steps_trained": 838800, "load_time_ms": 0.619, "default": {"kl": 0.012040354311466217, "cur_lr": 4.999999873689376e-05, "entropy": 6.06229305267334, "total_loss": 10.639694213867188, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.11114271730184555, "vf_explained_var": 0.991613507270813, "vf_loss": 10.738645553588867}, "grad_time_ms": 687.555}, "pid": 3934253, "time_total_s": 70378.40663385391, "episode_reward_mean": -152.0317558586114, "hostname": "cda-server-6", "episodes_this_iter": 24, "episode_reward_min": -186.7766576967727, "policy_reward_mean": {}, "episodes_total": 16776, "node_ip": "10.157.146.6", "custom_metrics": {}, "episode_reward_max": -141.7210758642898, "num_metric_batches_dropped": 0, "timesteps_this_iter": 1200, "date": "2025-08-30_10-09-40", "training_iteration": 699, "config": {"compress_observations": false, "use_gae": true, "num_envs_per_worker": 1, "straggler_mitigation": false, "input_evaluation": null, "entropy_coeff": 0.0, "output_max_file_size": 67108864, "vf_share_layers": false, "env_config": {"generalize": true, "run_valid": false}, "batch_mode": "truncate_episodes", "vf_loss_coeff": 1.0, "observation_filter": "MeanStdFilter", "preprocessor_pref": "deepmind", "multiagent": {"policy_graphs": {}, "policy_mapping_fn": null, "policies_to_train": null}, "lambda": 1.0, "gamma": 0.99, "num_cpus_for_driver": 1, "log_level": "INFO", "num_cpus_per_worker": 1, "clip_actions": true, "synchronize_filters": true, "sample_batch_size": 200, "monitor": false, "sample_async": false, "num_workers": 6, "num_sgd_iter": 30, "postprocess_inputs": false, "num_gpus_per_worker": 0, "clip_param": 0.3, "env": "LEDRO_D_FC", "vf_clip_param": 10.0, "grad_clip": null, "lr": 5e-05, "simple_optimizer": false, "kl_target": 0.01, "optimizer": {}, "tf_session_args": {"log_device_placement": false, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "allow_soft_placement": true}, "sgd_minibatch_size": 128, "horizon": 50, "model": {"fcnet_hiddens": [128, 128, 128], "grayscale": false, "zero_mean": true, "custom_preprocessor": null, "fcnet_activation": "tanh", "framestack": true, "free_log_std": false, "conv_activation": "relu", "max_seq_len": 20, "lstm_cell_size": 256, "lstm_use_prev_action_reward": false, "dim": 84, "custom_options": {}, "use_lstm": false, "squash_to_range": false, "conv_filters": null, "custom_model": null}, "lr_schedule": null, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "output": null, "kl_coeff": 0.2, "clip_rewards": null, "collect_metrics_timeout": 180, "callbacks": {"on_train_result": null, "on_sample_end": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "num_gpus": 0, "custom_resources_per_worker": {}, "train_batch_size": 1200, "output_compress_columns": ["obs", "new_obs"]}, "timestamp": 1756541380, "episode_len_mean": 50.0, "timesteps_since_restore": 838800, "time_since_restore": 70378.40663385391, "time_this_iter_s": 79.34304428100586, "iterations_since_restore": 699}
diff --git a/experiments/ledro_d_fc_7nm_run4_horizon_50_range_10_400_400_start_33/README.md b/experiments/ledro_d_fc_7nm_run4_horizon_50_range_10_400_400_start_33/README.md
new file mode 100644
index 0000000..65c0ffd
--- /dev/null
+++ b/experiments/ledro_d_fc_7nm_run4_horizon_50_range_10_400_400_start_33/README.md
@@ -0,0 +1,2 @@
+The maximum ray/tune/episode_reward_max is just for -135.7 for the horizon length of 50
+-> Thus the average FoM is : -2.71
\ No newline at end of file
diff --git a/experiments/ledro_d_fc_7nm_run4_horizon_50_range_10_400_400_start_33/image.png b/experiments/ledro_d_fc_7nm_run4_horizon_50_range_10_400_400_start_33/image.png
new file mode 100644
index 0000000..8a298a5
Binary files /dev/null and b/experiments/ledro_d_fc_7nm_run4_horizon_50_range_10_400_400_start_33/image.png differ
diff --git a/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/PPO_Zhenxin_S_FC_0_2025-09-04_16-10-519x116nc6/ckt_910/checkpoint-910 b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/PPO_Zhenxin_S_FC_0_2025-09-04_16-10-519x116nc6/ckt_910/checkpoint-910
new file mode 100644
index 0000000..462dec1
Binary files /dev/null and b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/PPO_Zhenxin_S_FC_0_2025-09-04_16-10-519x116nc6/ckt_910/checkpoint-910 differ
diff --git a/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/PPO_Zhenxin_S_FC_0_2025-09-04_16-10-519x116nc6/ckt_910/checkpoint-910.tune_metadata b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/PPO_Zhenxin_S_FC_0_2025-09-04_16-10-519x116nc6/ckt_910/checkpoint-910.tune_metadata
new file mode 100644
index 0000000..4239608
Binary files /dev/null and b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/PPO_Zhenxin_S_FC_0_2025-09-04_16-10-519x116nc6/ckt_910/checkpoint-910.tune_metadata differ
diff --git a/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/PPO_Zhenxin_S_FC_0_2025-09-04_16-10-519x116nc6/error_2025-09-04_23-19-28.txt b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/PPO_Zhenxin_S_FC_0_2025-09-04_16-10-519x116nc6/error_2025-09-04_23-19-28.txt
new file mode 100644
index 0000000..4fe1c09
--- /dev/null
+++ b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/PPO_Zhenxin_S_FC_0_2025-09-04_16-10-519x116nc6/error_2025-09-04_23-19-28.txt
@@ -0,0 +1,52 @@
+Traceback (most recent call last):
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/tune/trial_runner.py", line 378, in _process_events
+    result = self.trial_executor.fetch_result(trial)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/tune/ray_trial_executor.py", line 228, in fetch_result
+    result = ray.get(trial_future[0])
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/worker.py", line 2132, in get
+    raise value
+ray.worker.RayTaskError: [36mray_worker[39m (pid=3651948, host=cda-server-2)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/agents/agent.py", line 284, in train
+    result = Trainable.train(self)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/tune/trainable.py", line 151, in train
+    result = self._train()
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/agents/ppo/ppo.py", line 103, in _train
+    fetches = self.optimizer.step()
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/optimizers/multi_gpu_optimizer.py", line 125, in step
+    self.num_envs_per_worker, self.train_batch_size)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/optimizers/rollout.py", line 28, in collect_samples
+    next_sample = ray.get(fut_sample)
+ray.worker.RayTaskError: [36mray_worker[39m (pid=3651954, host=cda-server-2)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/evaluation/policy_evaluator.py", line 368, in sample
+    batches = [self.input_reader.next()]
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/offline/input_reader.py", line 31, in next
+    batches = [self.sampler.get_data()]
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/evaluation/sampler.py", line 65, in get_data
+    item = next(self.rollout_provider)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/evaluation/sampler.py", line 267, in _env_runner
+    preprocessors, obs_filters, unroll_length, pack, callbacks)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/evaluation/sampler.py", line 403, in _process_observations
+    resetted_obs = base_env.try_reset(env_id)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/env/base_env.py", line 257, in try_reset
+    return {_DUMMY_AGENT_ID: self.vector_env.reset_at(env_id)}
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/env/vector_env.py", line 88, in reset_at
+    return self.envs[index].reset()
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run14/autockt/envs/ngspice_zhenxin_s_fc.py", line 344, in reset
+    self.cur_specs = self.update(self.cur_params_idx)
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run14/autockt/envs/ngspice_zhenxin_s_fc.py", line 496, in update
+    self.sim_env.create_design_and_simulate(param_val[0])[1].items(),
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run14/eval_engines/ngspice/ngspice_wrapper.py", line 133, in create_design_and_simulate
+    specs = self.translate_result(design_folder)
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run14/eval_engines/ngspice/Zhenxin_S_FC.py", line 29, in translate_result
+    freq, vout, ibias = self.parse_output(output_path)
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run14/eval_engines/ngspice/Zhenxin_S_FC.py", line 46, in parse_output
+    ac_raw_outputs = np.genfromtxt(ac_fname, skip_header=1)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/numpy/lib/npyio.py", line 1744, in genfromtxt
+    fhd = iter(np.lib._datasource.open(fname, 'rt', encoding=encoding))
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/numpy/lib/_datasource.py", line 266, in open
+    return ds.open(path, mode, encoding=encoding, newline=newline)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/numpy/lib/_datasource.py", line 624, in open
+    raise IOError("%s not found." % path)
+OSError: /tmp/ckt_da/designs_Zhenxin_S_FC/Zhenxin_S_FC_242.843_133.808_292.648_198.925_139.809_131.131_0.657_0.178_0.686_0.305_1.02109/ac.csv not found.
+
+
diff --git a/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/PPO_Zhenxin_S_FC_0_2025-09-04_16-10-519x116nc6/error_2025-09-05_00-32-02.txt b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/PPO_Zhenxin_S_FC_0_2025-09-04_16-10-519x116nc6/error_2025-09-05_00-32-02.txt
new file mode 100644
index 0000000..d719bcc
--- /dev/null
+++ b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/PPO_Zhenxin_S_FC_0_2025-09-04_16-10-519x116nc6/error_2025-09-05_00-32-02.txt
@@ -0,0 +1,52 @@
+Traceback (most recent call last):
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/tune/trial_runner.py", line 378, in _process_events
+    result = self.trial_executor.fetch_result(trial)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/tune/ray_trial_executor.py", line 228, in fetch_result
+    result = ray.get(trial_future[0])
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/worker.py", line 2132, in get
+    raise value
+ray.worker.RayTaskError: [36mray_worker[39m (pid=3651947, host=cda-server-2)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/agents/agent.py", line 284, in train
+    result = Trainable.train(self)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/tune/trainable.py", line 151, in train
+    result = self._train()
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/agents/ppo/ppo.py", line 103, in _train
+    fetches = self.optimizer.step()
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/optimizers/multi_gpu_optimizer.py", line 125, in step
+    self.num_envs_per_worker, self.train_batch_size)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/optimizers/rollout.py", line 28, in collect_samples
+    next_sample = ray.get(fut_sample)
+ray.worker.RayTaskError: [36mray_worker[39m (pid=3651950, host=cda-server-2)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/evaluation/policy_evaluator.py", line 368, in sample
+    batches = [self.input_reader.next()]
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/offline/input_reader.py", line 31, in next
+    batches = [self.sampler.get_data()]
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/evaluation/sampler.py", line 65, in get_data
+    item = next(self.rollout_provider)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/evaluation/sampler.py", line 267, in _env_runner
+    preprocessors, obs_filters, unroll_length, pack, callbacks)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/evaluation/sampler.py", line 403, in _process_observations
+    resetted_obs = base_env.try_reset(env_id)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/env/base_env.py", line 257, in try_reset
+    return {_DUMMY_AGENT_ID: self.vector_env.reset_at(env_id)}
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/env/vector_env.py", line 88, in reset_at
+    return self.envs[index].reset()
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run14/autockt/envs/ngspice_zhenxin_s_fc.py", line 344, in reset
+    self.cur_specs = self.update(self.cur_params_idx)
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run14/autockt/envs/ngspice_zhenxin_s_fc.py", line 496, in update
+    self.sim_env.create_design_and_simulate(param_val[0])[1].items(),
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run14/eval_engines/ngspice/ngspice_wrapper.py", line 133, in create_design_and_simulate
+    specs = self.translate_result(design_folder)
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run14/eval_engines/ngspice/Zhenxin_S_FC.py", line 29, in translate_result
+    freq, vout, ibias = self.parse_output(output_path)
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run14/eval_engines/ngspice/Zhenxin_S_FC.py", line 46, in parse_output
+    ac_raw_outputs = np.genfromtxt(ac_fname, skip_header=1)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/numpy/lib/npyio.py", line 1744, in genfromtxt
+    fhd = iter(np.lib._datasource.open(fname, 'rt', encoding=encoding))
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/numpy/lib/_datasource.py", line 266, in open
+    return ds.open(path, mode, encoding=encoding, newline=newline)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/numpy/lib/_datasource.py", line 624, in open
+    raise IOError("%s not found." % path)
+OSError: /tmp/ckt_da/designs_Zhenxin_S_FC/Zhenxin_S_FC_242.843_133.808_292.648_198.925_139.809_131.131_0.657_0.178_0.686_0.305_1.09580/ac.csv not found.
+
+
diff --git a/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/PPO_Zhenxin_S_FC_0_2025-09-04_16-10-519x116nc6/error_2025-09-05_01-18-02.txt b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/PPO_Zhenxin_S_FC_0_2025-09-04_16-10-519x116nc6/error_2025-09-05_01-18-02.txt
new file mode 100644
index 0000000..ed8455b
--- /dev/null
+++ b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/PPO_Zhenxin_S_FC_0_2025-09-04_16-10-519x116nc6/error_2025-09-05_01-18-02.txt
@@ -0,0 +1,52 @@
+Traceback (most recent call last):
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/tune/trial_runner.py", line 378, in _process_events
+    result = self.trial_executor.fetch_result(trial)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/tune/ray_trial_executor.py", line 228, in fetch_result
+    result = ray.get(trial_future[0])
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/worker.py", line 2132, in get
+    raise value
+ray.worker.RayTaskError: [36mray_worker[39m (pid=3651946, host=cda-server-2)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/agents/agent.py", line 284, in train
+    result = Trainable.train(self)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/tune/trainable.py", line 151, in train
+    result = self._train()
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/agents/ppo/ppo.py", line 103, in _train
+    fetches = self.optimizer.step()
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/optimizers/multi_gpu_optimizer.py", line 125, in step
+    self.num_envs_per_worker, self.train_batch_size)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/optimizers/rollout.py", line 28, in collect_samples
+    next_sample = ray.get(fut_sample)
+ray.worker.RayTaskError: [36mray_worker[39m (pid=3651940, host=cda-server-2)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/evaluation/policy_evaluator.py", line 368, in sample
+    batches = [self.input_reader.next()]
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/offline/input_reader.py", line 31, in next
+    batches = [self.sampler.get_data()]
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/evaluation/sampler.py", line 65, in get_data
+    item = next(self.rollout_provider)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/evaluation/sampler.py", line 267, in _env_runner
+    preprocessors, obs_filters, unroll_length, pack, callbacks)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/evaluation/sampler.py", line 403, in _process_observations
+    resetted_obs = base_env.try_reset(env_id)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/env/base_env.py", line 257, in try_reset
+    return {_DUMMY_AGENT_ID: self.vector_env.reset_at(env_id)}
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/env/vector_env.py", line 88, in reset_at
+    return self.envs[index].reset()
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run14/autockt/envs/ngspice_zhenxin_s_fc.py", line 344, in reset
+    self.cur_specs = self.update(self.cur_params_idx)
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run14/autockt/envs/ngspice_zhenxin_s_fc.py", line 496, in update
+    self.sim_env.create_design_and_simulate(param_val[0])[1].items(),
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run14/eval_engines/ngspice/ngspice_wrapper.py", line 133, in create_design_and_simulate
+    specs = self.translate_result(design_folder)
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run14/eval_engines/ngspice/Zhenxin_S_FC.py", line 29, in translate_result
+    freq, vout, ibias = self.parse_output(output_path)
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run14/eval_engines/ngspice/Zhenxin_S_FC.py", line 46, in parse_output
+    ac_raw_outputs = np.genfromtxt(ac_fname, skip_header=1)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/numpy/lib/npyio.py", line 1744, in genfromtxt
+    fhd = iter(np.lib._datasource.open(fname, 'rt', encoding=encoding))
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/numpy/lib/_datasource.py", line 266, in open
+    return ds.open(path, mode, encoding=encoding, newline=newline)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/numpy/lib/_datasource.py", line 624, in open
+    raise IOError("%s not found." % path)
+OSError: /tmp/ckt_da/designs_Zhenxin_S_FC/Zhenxin_S_FC_242.843_133.808_292.648_198.925_139.809_131.131_0.657_0.178_0.686_0.305_1.04127/ac.csv not found.
+
+
diff --git a/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/PPO_Zhenxin_S_FC_0_2025-09-04_16-10-519x116nc6/error_2025-09-05_03-08-18.txt b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/PPO_Zhenxin_S_FC_0_2025-09-04_16-10-519x116nc6/error_2025-09-05_03-08-18.txt
new file mode 100644
index 0000000..e01c1dc
--- /dev/null
+++ b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/PPO_Zhenxin_S_FC_0_2025-09-04_16-10-519x116nc6/error_2025-09-05_03-08-18.txt
@@ -0,0 +1,52 @@
+Traceback (most recent call last):
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/tune/trial_runner.py", line 378, in _process_events
+    result = self.trial_executor.fetch_result(trial)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/tune/ray_trial_executor.py", line 228, in fetch_result
+    result = ray.get(trial_future[0])
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/worker.py", line 2132, in get
+    raise value
+ray.worker.RayTaskError: [36mray_worker[39m (pid=3651949, host=cda-server-2)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/agents/agent.py", line 284, in train
+    result = Trainable.train(self)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/tune/trainable.py", line 151, in train
+    result = self._train()
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/agents/ppo/ppo.py", line 103, in _train
+    fetches = self.optimizer.step()
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/optimizers/multi_gpu_optimizer.py", line 125, in step
+    self.num_envs_per_worker, self.train_batch_size)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/optimizers/rollout.py", line 28, in collect_samples
+    next_sample = ray.get(fut_sample)
+ray.worker.RayTaskError: [36mray_worker[39m (pid=3651952, host=cda-server-2)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/evaluation/policy_evaluator.py", line 368, in sample
+    batches = [self.input_reader.next()]
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/offline/input_reader.py", line 31, in next
+    batches = [self.sampler.get_data()]
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/evaluation/sampler.py", line 65, in get_data
+    item = next(self.rollout_provider)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/evaluation/sampler.py", line 267, in _env_runner
+    preprocessors, obs_filters, unroll_length, pack, callbacks)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/evaluation/sampler.py", line 403, in _process_observations
+    resetted_obs = base_env.try_reset(env_id)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/env/base_env.py", line 257, in try_reset
+    return {_DUMMY_AGENT_ID: self.vector_env.reset_at(env_id)}
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/env/vector_env.py", line 88, in reset_at
+    return self.envs[index].reset()
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run14/autockt/envs/ngspice_zhenxin_s_fc.py", line 344, in reset
+    self.cur_specs = self.update(self.cur_params_idx)
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run14/autockt/envs/ngspice_zhenxin_s_fc.py", line 496, in update
+    self.sim_env.create_design_and_simulate(param_val[0])[1].items(),
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run14/eval_engines/ngspice/ngspice_wrapper.py", line 133, in create_design_and_simulate
+    specs = self.translate_result(design_folder)
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run14/eval_engines/ngspice/Zhenxin_S_FC.py", line 29, in translate_result
+    freq, vout, ibias = self.parse_output(output_path)
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run14/eval_engines/ngspice/Zhenxin_S_FC.py", line 46, in parse_output
+    ac_raw_outputs = np.genfromtxt(ac_fname, skip_header=1)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/numpy/lib/npyio.py", line 1744, in genfromtxt
+    fhd = iter(np.lib._datasource.open(fname, 'rt', encoding=encoding))
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/numpy/lib/_datasource.py", line 266, in open
+    return ds.open(path, mode, encoding=encoding, newline=newline)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/numpy/lib/_datasource.py", line 624, in open
+    raise IOError("%s not found." % path)
+OSError: /tmp/ckt_da/designs_Zhenxin_S_FC/Zhenxin_S_FC_242.843_133.808_292.648_198.925_139.809_131.131_0.657_0.178_0.686_0.305_1.02397/ac.csv not found.
+
+
diff --git a/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/PPO_Zhenxin_S_FC_0_2025-09-04_16-10-519x116nc6/events.out.tfevents.1756995307.cda-server-2 b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/PPO_Zhenxin_S_FC_0_2025-09-04_16-10-519x116nc6/events.out.tfevents.1756995307.cda-server-2
new file mode 100644
index 0000000..58947ff
Binary files /dev/null and b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/PPO_Zhenxin_S_FC_0_2025-09-04_16-10-519x116nc6/events.out.tfevents.1756995307.cda-server-2 differ
diff --git a/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/PPO_Zhenxin_S_FC_0_2025-09-04_16-10-519x116nc6/params.json b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/PPO_Zhenxin_S_FC_0_2025-09-04_16-10-519x116nc6/params.json
new file mode 100644
index 0000000..76563ea
--- /dev/null
+++ b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/PPO_Zhenxin_S_FC_0_2025-09-04_16-10-519x116nc6/params.json
@@ -0,0 +1,18 @@
+{
+  "env": "<class 'autockt.envs.ngspice_zhenxin_s_fc.Zhenxin_S_FC'>",
+  "env_config": {
+    "generalize": false,
+    "run_valid": false
+  },
+  "horizon": 50,
+  "model": {
+    "fcnet_hiddens": [
+      128,
+      128,
+      128
+    ]
+  },
+  "num_gpus": 0,
+  "num_workers": 3,
+  "train_batch_size": 1200
+}
\ No newline at end of file
diff --git a/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/PPO_Zhenxin_S_FC_0_2025-09-04_16-10-519x116nc6/params.pkl b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/PPO_Zhenxin_S_FC_0_2025-09-04_16-10-519x116nc6/params.pkl
new file mode 100644
index 0000000..f6f5f94
Binary files /dev/null and b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/PPO_Zhenxin_S_FC_0_2025-09-04_16-10-519x116nc6/params.pkl differ
diff --git a/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/PPO_Zhenxin_S_FC_0_2025-09-04_16-10-519x116nc6/progress.csv b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/PPO_Zhenxin_S_FC_0_2025-09-04_16-10-519x116nc6/progress.csv
new file mode 100644
index 0000000..cc8498f
--- /dev/null
+++ b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/PPO_Zhenxin_S_FC_0_2025-09-04_16-10-519x116nc6/progress.csv
@@ -0,0 +1,941 @@
+hostname,done,time_since_restore,info,training_iteration,config,time_this_iter_s,num_metric_batches_dropped,policy_reward_mean,experiment_id,node_ip,timesteps_this_iter,timesteps_since_restore,timesteps_total,custom_metrics,iterations_since_restore,episodes_this_iter,episode_reward_min,date,episode_reward_max,pid,timestamp,episode_reward_mean,time_total_s,episodes_total,episode_len_mean
+cda-server-2,False,140.99133276939392,"{'sample_time_ms': 139859.504, 'num_steps_trained': 1200, 'grad_time_ms': 653.542, 'default': {'cur_kl_coeff': 0.20000000298023224, 'vf_loss': 2231.562255859375, 'policy_loss': -0.11362738162279129, 'vf_explained_var': -0.0003447002964094281, 'entropy': 15.597346305847168, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2231.454833984375, 'kl': 0.03053244948387146}, 'load_time_ms': 27.299, 'num_steps_sampled': 1200, 'update_time_ms': 416.916}",1,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",140.99133276939392,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,1200,1200,{},1,24,-100.0666019790363,2025-09-04_16-15-07,-93.22332074316793,3651948,1756995307,-97.30795660981228,140.99133276939392,24,50.0
+cda-server-2,False,187.5420961380005,"{'sample_time_ms': 92992.711, 'num_steps_trained': 2400, 'grad_time_ms': 534.807, 'default': {'cur_kl_coeff': 0.30000001192092896, 'vf_loss': 2008.263427734375, 'policy_loss': -0.11293138563632965, 'vf_explained_var': -0.0319129154086113, 'entropy': 15.605307579040527, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2008.15966796875, 'kl': 0.030827680602669716}, 'load_time_ms': 14.011, 'num_steps_sampled': 2400, 'update_time_ms': 209.994}",2,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.55076336860657,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,2400,2400,{},2,24,-100.0666019790363,2025-09-04_16-15-53,-93.22332074316793,3651948,1756995353,-97.6085290053284,187.5420961380005,48,50.0
+cda-server-2,False,248.49070477485657,"{'sample_time_ms': 82189.195, 'num_steps_trained': 3600, 'grad_time_ms': 475.83, 'default': {'cur_kl_coeff': 0.44999995827674866, 'vf_loss': 1854.1104736328125, 'policy_loss': -0.10487513989210129, 'vf_explained_var': -0.018647870048880577, 'entropy': 15.596461296081543, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1854.0181884765625, 'kl': 0.02738937921822071}, 'load_time_ms': 9.619, 'num_steps_sampled': 3600, 'update_time_ms': 140.997}",3,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",60.94860863685608,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,3600,3600,{},3,24,-100.0666019790363,2025-09-04_16-16-54,-93.22332074316793,3651948,1756995414,-97.54624563833285,248.49070477485657,72,50.0
+cda-server-2,False,289.3633248806,"{'sample_time_ms': 71768.578, 'num_steps_trained': 4800, 'grad_time_ms': 446.461, 'default': {'cur_kl_coeff': 0.675000011920929, 'vf_loss': 1733.2108154296875, 'policy_loss': -0.11116102337837219, 'vf_explained_var': -0.05004839599132538, 'entropy': 15.587655067443848, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1733.1148681640625, 'kl': 0.022528911009430885}, 'load_time_ms': 7.375, 'num_steps_sampled': 4800, 'update_time_ms': 106.338}",4,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.87262010574341,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,4800,4800,{},4,24,-100.0666019790363,2025-09-04_16-17-35,-91.89653622755112,3651948,1756995455,-97.5726961111477,289.3633248806,96,50.0
+cda-server-2,False,329.5035173892975,"{'sample_time_ms': 65366.457, 'num_steps_trained': 6000, 'grad_time_ms': 432.08, 'default': {'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 1653.20263671875, 'policy_loss': -0.10911934822797775, 'vf_explained_var': -0.07681050896644592, 'entropy': 15.577970504760742, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1653.112548828125, 'kl': 0.01889631897211075}, 'load_time_ms': 6.065, 'num_steps_sampled': 6000, 'update_time_ms': 85.553}",5,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.14019250869751,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,6000,6000,{},5,24,-99.99385424763929,2025-09-04_16-18-15,-91.89653622755112,3651948,1756995495,-97.58844576213276,329.5035173892975,120,50.0
+cda-server-2,False,369.60118436813354,"{'sample_time_ms': 61089.625, 'num_steps_trained': 7200, 'grad_time_ms': 424.118, 'default': {'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 1622.42236328125, 'policy_loss': -0.0988093689084053, 'vf_explained_var': -0.13713043928146362, 'entropy': 15.560051918029785, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1622.34228515625, 'kl': 0.018548818305134773}, 'load_time_ms': 5.173, 'num_steps_sampled': 7200, 'update_time_ms': 71.689}",6,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.09766697883606,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,7200,7200,{},6,24,-99.99385424763929,2025-09-04_16-18-55,-91.89653622755112,3651948,1756995535,-97.54368201093162,369.60118436813354,144,50.0
+cda-server-2,False,409.36658096313477,"{'sample_time_ms': 57991.308, 'num_steps_trained': 8400, 'grad_time_ms': 414.365, 'default': {'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 1449.89404296875, 'policy_loss': -0.10638123005628586, 'vf_explained_var': -0.13925179839134216, 'entropy': 15.54902172088623, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1449.80712890625, 'kl': 0.019342221319675446}, 'load_time_ms': 4.528, 'num_steps_sampled': 8400, 'update_time_ms': 61.871}",7,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.76539659500122,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,8400,8400,{},7,24,-99.99385424763929,2025-09-04_16-19-35,-30.71669919267596,3651948,1756995575,-96.51648214196463,409.36658096313477,168,49.64
+cda-server-2,False,449.37567710876465,"{'sample_time_ms': 55695.786, 'num_steps_trained': 9600, 'grad_time_ms': 409.353, 'default': {'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 1406.4390869140625, 'policy_loss': -0.10367625206708908, 'vf_explained_var': -0.18408912420272827, 'entropy': 15.551528930664062, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1406.35302734375, 'kl': 0.01746782474219799}, 'load_time_ms': 4.044, 'num_steps_sampled': 9600, 'update_time_ms': 54.458}",8,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.00909614562988,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,9600,9600,{},8,24,-99.89664753970594,2025-09-04_16-20-15,-24.47619018840004,3651948,1756995615,-95.89876277925154,449.37567710876465,192,49.33
+cda-server-2,False,490.18978786468506,"{'sample_time_ms': 53999.365, 'num_steps_trained': 10800, 'grad_time_ms': 405.921, 'default': {'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 1334.082275390625, 'policy_loss': -0.10778095573186874, 'vf_explained_var': -0.20987066626548767, 'entropy': 15.519222259521484, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1333.9931640625, 'kl': 0.01847856305539608}, 'load_time_ms': 3.674, 'num_steps_sampled': 10800, 'update_time_ms': 48.693}",9,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.81411075592041,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,10800,10800,{},9,25,-99.89664753970594,2025-09-04_16-20-56,-23.04501059558644,3651948,1756995656,-95.2285475105528,490.18978786468506,217,49.01
+cda-server-2,False,530.0455119609833,"{'sample_time_ms': 52548.508, 'num_steps_trained': 12000, 'grad_time_ms': 401.092, 'default': {'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 1255.589599609375, 'policy_loss': -0.11320510506629944, 'vf_explained_var': -0.24970334768295288, 'entropy': 15.53376293182373, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1255.4962158203125, 'kl': 0.019503416493535042}, 'load_time_ms': 3.373, 'num_steps_sampled': 12000, 'update_time_ms': 44.053}",10,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.85572409629822,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,12000,12000,{},10,24,-99.89664753970594,2025-09-04_16-21-36,-23.04501059558644,3651948,1756995696,-94.32109097779768,530.0455119609833,241,48.7
+cda-server-2,False,569.8694930076599,"{'sample_time_ms': 42508.571, 'num_steps_trained': 13200, 'grad_time_ms': 371.291, 'default': {'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 1171.419677734375, 'policy_loss': -0.10418149828910828, 'vf_explained_var': -0.26429101824760437, 'entropy': 15.501246452331543, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1171.3345947265625, 'kl': 0.01891779899597168}, 'load_time_ms': 0.705, 'num_steps_sampled': 13200, 'update_time_ms': 2.679}",11,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.823981046676636,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,13200,13200,{},11,25,-99.9892110402293,2025-09-04_16-22-16,-23.04501059558644,3651948,1756995736,-94.70175302960016,569.8694930076599,266,48.81
+cda-server-2,False,609.4798724651337,"{'sample_time_ms': 41820.453, 'num_steps_trained': 14400, 'grad_time_ms': 365.48, 'default': {'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 1192.4371337890625, 'policy_loss': -0.10855650901794434, 'vf_explained_var': -0.3701235353946686, 'entropy': 15.489436149597168, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1192.3475341796875, 'kl': 0.018641583621501923}, 'load_time_ms': 0.704, 'num_steps_sampled': 14400, 'update_time_ms': 2.628}",12,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.610379457473755,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,14400,14400,{},12,24,-99.9892110402293,2025-09-04_16-22-55,-23.04501059558644,3651948,1756995775,-95.53298387289084,609.4798724651337,290,49.13
+cda-server-2,False,649.2679927349091,"{'sample_time_ms': 39703.982, 'num_steps_trained': 15600, 'grad_time_ms': 365.999, 'default': {'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 1188.027099609375, 'policy_loss': -0.10490735620260239, 'vf_explained_var': -0.46393129229545593, 'entropy': 15.496283531188965, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1187.9417724609375, 'kl': 0.019278578460216522}, 'load_time_ms': 0.698, 'num_steps_sampled': 15600, 'update_time_ms': 2.577}",13,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.78812026977539,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,15600,15600,{},13,24,-99.9892110402293,2025-09-04_16-23-35,-25.85968405258626,3651948,1756995815,-96.20017378990354,649.2679927349091,314,49.45
+cda-server-2,False,689.2937431335449,"{'sample_time_ms': 39617.616, 'num_steps_trained': 16800, 'grad_time_ms': 367.68, 'default': {'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 1119.98095703125, 'policy_loss': -0.1071331575512886, 'vf_explained_var': -0.3960515260696411, 'entropy': 15.486916542053223, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1119.8934326171875, 'kl': 0.019492844119668007}, 'load_time_ms': 0.713, 'num_steps_sampled': 16800, 'update_time_ms': 2.57}",14,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.025750398635864,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,16800,16800,{},14,24,-100.10138569553668,2025-09-04_16-24-15,-38.72316905582058,3651948,1756995855,-97.13363621111745,689.2937431335449,338,49.76
+cda-server-2,False,729.1800971031189,"{'sample_time_ms': 39591.578, 'num_steps_trained': 18000, 'grad_time_ms': 368.351, 'default': {'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 1143.7335205078125, 'policy_loss': -0.10774454474449158, 'vf_explained_var': -0.4819021224975586, 'entropy': 15.48103141784668, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1143.6439208984375, 'kl': 0.017882168292999268}, 'load_time_ms': 0.697, 'num_steps_sampled': 18000, 'update_time_ms': 2.57}",15,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.886353969573975,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,18000,18000,{},15,24,-100.10138569553668,2025-09-04_16-24-55,-92.41579714679654,3651948,1756995895,-97.83491767123333,729.1800971031189,362,50.0
+cda-server-2,False,769.293693780899,"{'sample_time_ms': 39595.882, 'num_steps_trained': 19200, 'grad_time_ms': 365.663, 'default': {'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 1088.394287109375, 'policy_loss': -0.1057095155119896, 'vf_explained_var': -0.46451839804649353, 'entropy': 15.46332836151123, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1088.307373046875, 'kl': 0.01861894316971302}, 'load_time_ms': 0.689, 'num_steps_sampled': 19200, 'update_time_ms': 2.606}",16,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.11359667778015,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,19200,19200,{},16,24,-100.10138569553668,2025-09-04_16-25-35,-92.41579714679654,3651948,1756995935,-97.72628511499211,769.293693780899,386,50.0
+cda-server-2,False,808.9712433815002,"{'sample_time_ms': 39585.098, 'num_steps_trained': 20400, 'grad_time_ms': 367.68, 'default': {'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 1159.6478271484375, 'policy_loss': -0.12469884753227234, 'vf_explained_var': -0.5814424157142639, 'entropy': 15.468914031982422, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1159.5428466796875, 'kl': 0.01942109689116478}, 'load_time_ms': 0.7, 'num_steps_sampled': 20400, 'update_time_ms': 2.561}",17,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.677549600601196,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,20400,20400,{},17,24,-100.10138569553668,2025-09-04_16-26-15,-94.52557691990086,3651948,1756995975,-97.73629758608034,808.9712433815002,410,50.0
+cda-server-2,False,849.0680379867554,"{'sample_time_ms': 39592.423, 'num_steps_trained': 21600, 'grad_time_ms': 369.09, 'default': {'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 1102.488037109375, 'policy_loss': -0.10093361139297485, 'vf_explained_var': -0.46737515926361084, 'entropy': 15.47008228302002, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1102.40625, 'kl': 0.01886645331978798}, 'load_time_ms': 0.73, 'num_steps_sampled': 21600, 'update_time_ms': 2.575}",18,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.09679460525513,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,21600,21600,{},18,25,-99.94909641233812,2025-09-04_16-26-55,-1.137450634299789,3651948,1756996015,-95.90983970514493,849.0680379867554,435,49.19
+cda-server-2,False,888.7057158946991,"{'sample_time_ms': 39476.752, 'num_steps_trained': 22800, 'grad_time_ms': 367.102, 'default': {'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 1188.67138671875, 'policy_loss': -0.11527708917856216, 'vf_explained_var': -0.5554392337799072, 'entropy': 15.453225135803223, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1188.5748291015625, 'kl': 0.018716327846050262}, 'load_time_ms': 0.722, 'num_steps_sampled': 22800, 'update_time_ms': 2.588}",19,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.637677907943726,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,22800,22800,{},19,24,-99.85778078216784,2025-09-04_16-27-35,-1.137450634299789,3651948,1756996055,-95.80412959682307,888.7057158946991,459,49.19
+cda-server-2,False,928.5402855873108,"{'sample_time_ms': 39473.313, 'num_steps_trained': 24000, 'grad_time_ms': 368.399, 'default': {'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 1222.9095458984375, 'policy_loss': -0.1030873954296112, 'vf_explained_var': -0.6650868654251099, 'entropy': 15.46270751953125, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1222.82666015625, 'kl': 0.019915420562028885}, 'load_time_ms': 0.726, 'num_steps_sampled': 24000, 'update_time_ms': 2.605}",20,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.834569692611694,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,24000,24000,{},20,24,-99.85778078216784,2025-09-04_16-28-15,-1.137450634299789,3651948,1756996095,-95.87886228236576,928.5402855873108,483,49.19
+cda-server-2,False,968.6658818721771,"{'sample_time_ms': 39501.469, 'num_steps_trained': 25200, 'grad_time_ms': 370.435, 'default': {'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 1268.17236328125, 'policy_loss': -0.09783076494932175, 'vf_explained_var': -0.7616844177246094, 'entropy': 15.439361572265625, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1268.0931396484375, 'kl': 0.018327785655856133}, 'load_time_ms': 0.733, 'num_steps_sampled': 25200, 'update_time_ms': 2.6}",21,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.12559628486633,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,25200,25200,{},21,24,-99.86032434277038,2025-09-04_16-28-55,-1.137450634299789,3651948,1756996135,-95.82387425761877,968.6658818721771,507,49.19
+cda-server-2,False,1008.8821487426758,"{'sample_time_ms': 39559.169, 'num_steps_trained': 26400, 'grad_time_ms': 373.318, 'default': {'cur_kl_coeff': 1.0125000476837158, 'vf_loss': 1154.8974609375, 'policy_loss': -0.10972815752029419, 'vf_explained_var': -0.6122896671295166, 'entropy': 15.398881912231445, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1154.80810546875, 'kl': 0.02011170983314514}, 'load_time_ms': 0.735, 'num_steps_sampled': 26400, 'update_time_ms': 2.583}",22,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.21626687049866,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,26400,26400,{},22,24,-99.86032434277038,2025-09-04_16-29-35,-90.4005844146529,3651948,1756996175,-97.62980122668787,1008.8821487426758,531,50.0
+cda-server-2,False,1048.678347826004,"{'sample_time_ms': 39560.576, 'num_steps_trained': 27600, 'grad_time_ms': 372.732, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1281.469970703125, 'policy_loss': -0.10534890741109848, 'vf_explained_var': -0.8017933964729309, 'entropy': 15.448863983154297, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1281.388916015625, 'kl': 0.015983637422323227}, 'load_time_ms': 0.726, 'num_steps_sampled': 27600, 'update_time_ms': 2.585}",23,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.79619908332825,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,27600,27600,{},23,24,-99.86032434277038,2025-09-04_16-30-15,-90.4005844146529,3651948,1756996215,-97.49737593284527,1048.678347826004,555,50.0
+cda-server-2,False,1089.2785403728485,"{'sample_time_ms': 39620.043, 'num_steps_trained': 28800, 'grad_time_ms': 370.708, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1191.23193359375, 'policy_loss': -0.09724703431129456, 'vf_explained_var': -0.7418419718742371, 'entropy': 15.407340049743652, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1191.15380859375, 'kl': 0.01257497537881136}, 'load_time_ms': 0.723, 'num_steps_sampled': 28800, 'update_time_ms': 2.588}",24,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.60019254684448,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,28800,28800,{},24,24,-99.98463372714971,2025-09-04_16-30-55,-90.4005844146529,3651948,1756996255,-97.50489288226183,1089.2785403728485,579,50.0
+cda-server-2,False,1129.0712842941284,"{'sample_time_ms': 39613.007, 'num_steps_trained': 30000, 'grad_time_ms': 368.383, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1242.32080078125, 'policy_loss': -0.12498721480369568, 'vf_explained_var': -0.7720822095870972, 'entropy': 15.434539794921875, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1242.2161865234375, 'kl': 0.013309704139828682}, 'load_time_ms': 0.727, 'num_steps_sampled': 30000, 'update_time_ms': 2.583}",25,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.79274392127991,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,30000,30000,{},25,24,-100.10329485311799,2025-09-04_16-31-35,-94.09882496122897,3651948,1756996295,-97.35178240898782,1129.0712842941284,603,50.0
+cda-server-2,False,1168.7032897472382,"{'sample_time_ms': 39562.756, 'num_steps_trained': 31200, 'grad_time_ms': 370.497, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1173.93701171875, 'policy_loss': -0.10411402583122253, 'vf_explained_var': -0.6004043221473694, 'entropy': 15.364545822143555, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1173.8564453125, 'kl': 0.01551245991140604}, 'load_time_ms': 0.725, 'num_steps_sampled': 31200, 'update_time_ms': 2.535}",26,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.63200545310974,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,31200,31200,{},26,24,-100.10329485311799,2025-09-04_16-32-15,-57.801233031301635,3651948,1756996335,-97.0011269918407,1168.7032897472382,627,49.86
+cda-server-2,False,1208.4105989933014,"{'sample_time_ms': 39565.133, 'num_steps_trained': 32400, 'grad_time_ms': 371.029, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1281.2742919921875, 'policy_loss': -0.10503542423248291, 'vf_explained_var': -0.700732946395874, 'entropy': 15.384541511535645, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1281.1903076171875, 'kl': 0.013778585940599442}, 'load_time_ms': 0.749, 'num_steps_sampled': 32400, 'update_time_ms': 2.55}",27,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.70730924606323,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,32400,32400,{},27,24,-100.10329485311799,2025-09-04_16-32-55,-57.801233031301635,3651948,1756996375,-97.03697085146841,1208.4105989933014,651,49.86
+cda-server-2,False,1248.9155259132385,"{'sample_time_ms': 39606.656, 'num_steps_trained': 33600, 'grad_time_ms': 370.364, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1321.213623046875, 'policy_loss': -0.10575778782367706, 'vf_explained_var': -0.8148228526115417, 'entropy': 15.369461059570312, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1321.1295166015625, 'kl': 0.014238353818655014}, 'load_time_ms': 0.72, 'num_steps_sampled': 33600, 'update_time_ms': 2.546}",28,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.504926919937134,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,33600,33600,{},28,24,-100.10329485311799,2025-09-04_16-33-35,-57.801233031301635,3651948,1756996415,-97.03483582868591,1248.9155259132385,675,49.86
+cda-server-2,False,1288.9718182086945,"{'sample_time_ms': 39647.71, 'num_steps_trained': 34800, 'grad_time_ms': 371.231, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1341.10400390625, 'policy_loss': -0.10665473341941833, 'vf_explained_var': -0.8043767213821411, 'entropy': 15.401509284973145, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1341.019775390625, 'kl': 0.014626596122980118}, 'load_time_ms': 0.72, 'num_steps_sampled': 34800, 'update_time_ms': 2.513}",29,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.05629229545593,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,34800,34800,{},29,24,-99.95508627430446,2025-09-04_16-34-15,-57.801233031301635,3651948,1756996455,-97.0966372787425,1288.9718182086945,699,49.86
+cda-server-2,False,1328.9700276851654,"{'sample_time_ms': 39662.755, 'num_steps_trained': 36000, 'grad_time_ms': 372.537, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1277.83251953125, 'policy_loss': -0.10264497995376587, 'vf_explained_var': -0.7749524712562561, 'entropy': 15.299591064453125, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1277.75146484375, 'kl': 0.014280046336352825}, 'load_time_ms': 0.715, 'num_steps_sampled': 36000, 'update_time_ms': 2.514}",30,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.99820947647095,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,36000,36000,{},30,25,-99.99093155757775,2025-09-04_16-34-55,0.0015531449246815043,3651948,1756996495,-96.37514610728846,1328.9700276851654,724,49.56
+cda-server-2,False,1369.1333026885986,"{'sample_time_ms': 39665.146, 'num_steps_trained': 37200, 'grad_time_ms': 373.787, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1310.75341796875, 'policy_loss': -0.10099545121192932, 'vf_explained_var': -0.7382559180259705, 'entropy': 15.32412052154541, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1310.672119140625, 'kl': 0.012976918369531631}, 'load_time_ms': 0.725, 'num_steps_sampled': 37200, 'update_time_ms': 2.568}",31,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.16327500343323,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,37200,37200,{},31,25,-99.99093155757775,2025-09-04_16-35-36,0.0015531449246815043,3651948,1756996536,-95.63129160278804,1369.1333026885986,749,49.21
+cda-server-2,False,1408.7570397853851,"{'sample_time_ms': 39608.775, 'num_steps_trained': 38400, 'grad_time_ms': 370.909, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1223.63525390625, 'policy_loss': -0.12073878198862076, 'vf_explained_var': -0.7618313431739807, 'entropy': 15.325020790100098, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1223.53466796875, 'kl': 0.01335633173584938}, 'load_time_ms': 0.731, 'num_steps_sampled': 38400, 'update_time_ms': 2.589}",32,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.6237370967865,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,38400,38400,{},32,24,-99.99093155757775,2025-09-04_16-36-15,0.0015531449246815043,3651948,1756996575,-95.55989689348331,1408.7570397853851,773,49.21
+cda-server-2,False,1448.3962044715881,"{'sample_time_ms': 39589.868, 'num_steps_trained': 39600, 'grad_time_ms': 374.091, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1231.0386962890625, 'policy_loss': -0.11493682861328125, 'vf_explained_var': -0.7585346698760986, 'entropy': 15.28339672088623, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1230.9471435546875, 'kl': 0.015361123718321323}, 'load_time_ms': 0.733, 'num_steps_sampled': 39600, 'update_time_ms': 2.56}",33,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.639164686203,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,39600,39600,{},33,24,-99.99093155757775,2025-09-04_16-36-55,0.0015531449246815043,3651948,1756996615,-95.615816928204,1448.3962044715881,797,49.21
+cda-server-2,False,1488.3905136585236,"{'sample_time_ms': 39528.843, 'num_steps_trained': 40800, 'grad_time_ms': 374.478, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1203.33447265625, 'policy_loss': -0.10448554903268814, 'vf_explained_var': -0.7520565390586853, 'entropy': 15.311238288879395, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1203.2515869140625, 'kl': 0.014262043870985508}, 'load_time_ms': 0.723, 'num_steps_sampled': 40800, 'update_time_ms': 2.637}",34,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.994309186935425,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,40800,40800,{},34,24,-99.73257844882728,2025-09-04_16-37-35,-16.290060169030422,3651948,1756996655,-96.62528324751145,1488.3905136585236,821,49.65
+cda-server-2,False,1528.3656723499298,"{'sample_time_ms': 39545.009, 'num_steps_trained': 42000, 'grad_time_ms': 376.545, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1227.427978515625, 'policy_loss': -0.11075553297996521, 'vf_explained_var': -0.801076352596283, 'entropy': 15.274660110473633, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1227.34033203125, 'kl': 0.015269107185304165}, 'load_time_ms': 0.725, 'num_steps_sampled': 42000, 'update_time_ms': 2.623}",35,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.97515869140625,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,42000,42000,{},35,24,-99.73257844882728,2025-09-04_16-38-15,-77.82174753169423,3651948,1756996695,-97.0927170250508,1528.3656723499298,845,49.95
+cda-server-2,False,1568.491044998169,"{'sample_time_ms': 39596.393, 'num_steps_trained': 43200, 'grad_time_ms': 374.488, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1230.39404296875, 'policy_loss': -0.1102805882692337, 'vf_explained_var': -0.7730542421340942, 'entropy': 15.220480918884277, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1230.304931640625, 'kl': 0.013823870569467545}, 'load_time_ms': 0.728, 'num_steps_sampled': 43200, 'update_time_ms': 2.645}",36,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.125372648239136,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,43200,43200,{},36,24,-99.99007305617893,2025-09-04_16-38-55,-77.82174753169423,3651948,1756996735,-97.28325003911186,1568.491044998169,869,49.95
+cda-server-2,False,1608.1779806613922,"{'sample_time_ms': 39594.501, 'num_steps_trained': 44400, 'grad_time_ms': 374.389, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1233.9117431640625, 'policy_loss': -0.1051551029086113, 'vf_explained_var': -0.6987488865852356, 'entropy': 15.250106811523438, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1233.82861328125, 'kl': 0.014496508985757828}, 'load_time_ms': 0.694, 'num_steps_sampled': 44400, 'update_time_ms': 2.627}",37,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.68693566322327,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,44400,44400,{},37,24,-99.99007305617893,2025-09-04_16-39-35,-77.82174753169423,3651948,1756996775,-97.21012824430167,1608.1779806613922,893,49.95
+cda-server-2,False,1648.4379494190216,"{'sample_time_ms': 39570.653, 'num_steps_trained': 45600, 'grad_time_ms': 373.73, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1277.79052734375, 'policy_loss': -0.10825362056493759, 'vf_explained_var': -0.7801445126533508, 'entropy': 15.28171157836914, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1277.70361328125, 'kl': 0.013901184312999249}, 'load_time_ms': 0.694, 'num_steps_sampled': 45600, 'update_time_ms': 2.637}",38,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.259968757629395,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,45600,45600,{},38,24,-99.99007305617893,2025-09-04_16-40-15,-77.82174753169423,3651948,1756996815,-97.04979273483048,1648.4379494190216,917,49.95
+cda-server-2,False,1688.43723654747,"{'sample_time_ms': 39563.71, 'num_steps_trained': 46800, 'grad_time_ms': 374.899, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1167.91552734375, 'policy_loss': -0.10696208477020264, 'vf_explained_var': -0.7553014755249023, 'entropy': 15.204646110534668, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1167.8319091796875, 'kl': 0.015371869318187237}, 'load_time_ms': 0.703, 'num_steps_sampled': 46800, 'update_time_ms': 2.655}",39,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.999287128448486,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,46800,46800,{},39,25,-99.99007305617893,2025-09-04_16-40-55,-15.99934133821527,3651948,1756996855,-96.36363020491022,1688.43723654747,942,49.59
+cda-server-2,False,1729.0509288311005,"{'sample_time_ms': 39625.919, 'num_steps_trained': 48000, 'grad_time_ms': 374.175, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1148.047119140625, 'policy_loss': -0.10330415517091751, 'vf_explained_var': -0.7272942662239075, 'entropy': 15.175899505615234, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1147.966552734375, 'kl': 0.015090687200427055}, 'load_time_ms': 0.721, 'num_steps_sampled': 48000, 'update_time_ms': 2.669}",40,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.61369228363037,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,48000,48000,{},40,24,-99.95344412932664,2025-09-04_16-41-36,-15.99934133821527,3651948,1756996896,-96.24264843934478,1729.0509288311005,966,49.59
+cda-server-2,False,1769.8827843666077,"{'sample_time_ms': 39694.499, 'num_steps_trained': 49200, 'grad_time_ms': 372.5, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1252.537109375, 'policy_loss': -0.11457589268684387, 'vf_explained_var': -0.7772528529167175, 'entropy': 15.200519561767578, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1252.4432373046875, 'kl': 0.013611800968647003}, 'load_time_ms': 0.725, 'num_steps_sampled': 49200, 'update_time_ms': 2.658}",41,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.8318555355072,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,49200,49200,{},41,24,-99.95344412932664,2025-09-04_16-42-17,-15.99934133821527,3651948,1756996937,-96.22698868572897,1769.8827843666077,990,49.59
+cda-server-2,False,1809.5630688667297,"{'sample_time_ms': 39697.47, 'num_steps_trained': 50400, 'grad_time_ms': 375.234, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1227.67529296875, 'policy_loss': -0.10887836664915085, 'vf_explained_var': -0.778679609298706, 'entropy': 15.25713062286377, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1227.587158203125, 'kl': 0.013566892594099045}, 'load_time_ms': 0.718, 'num_steps_sampled': 50400, 'update_time_ms': 2.617}",42,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.68028450012207,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,50400,50400,{},42,24,-99.95344412932664,2025-09-04_16-42-56,-15.99934133821527,3651948,1756996976,-96.22189939411399,1809.5630688667297,1014,49.59
+cda-server-2,False,1849.4926145076752,"{'sample_time_ms': 39729.576, 'num_steps_trained': 51600, 'grad_time_ms': 372.205, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1097.594970703125, 'policy_loss': -0.11680027842521667, 'vf_explained_var': -0.6031178832054138, 'entropy': 15.132685661315918, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1097.4976806640625, 'kl': 0.012929944321513176}, 'load_time_ms': 0.72, 'num_steps_sampled': 51600, 'update_time_ms': 2.628}",43,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.929545640945435,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,51600,51600,{},43,24,-99.84089460076768,2025-09-04_16-43-36,-83.19525614553856,3651948,1756997016,-97.00053722716505,1849.4926145076752,1038,49.98
+cda-server-2,False,1889.2982964515686,"{'sample_time_ms': 39710.673, 'num_steps_trained': 52800, 'grad_time_ms': 372.29, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1327.10302734375, 'policy_loss': -0.11665192991495132, 'vf_explained_var': -0.7370307445526123, 'entropy': 15.16311264038086, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1327.0091552734375, 'kl': 0.014845062047243118}, 'load_time_ms': 0.718, 'num_steps_sampled': 52800, 'update_time_ms': 2.547}",44,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.80568194389343,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,52800,52800,{},44,24,-99.84089460076768,2025-09-04_16-44-16,-47.30665988731469,3651948,1756997056,-96.36052394042983,1889.2982964515686,1062,49.79
+cda-server-2,False,1929.0171658992767,"{'sample_time_ms': 39686.403, 'num_steps_trained': 54000, 'grad_time_ms': 370.849, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1300.06591796875, 'policy_loss': -0.11423023790121078, 'vf_explained_var': -0.7665535807609558, 'entropy': 15.056652069091797, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1299.973388671875, 'kl': 0.014357775449752808}, 'load_time_ms': 0.715, 'num_steps_sampled': 54000, 'update_time_ms': 2.623}",45,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.71886944770813,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,54000,54000,{},45,24,-99.84089460076768,2025-09-04_16-44-56,-47.30665988731469,3651948,1756997096,-96.35048571213896,1929.0171658992767,1086,49.79
+cda-server-2,False,1968.8651938438416,"{'sample_time_ms': 39658.494, 'num_steps_trained': 55200, 'grad_time_ms': 370.962, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1358.3763427734375, 'policy_loss': -0.1065993681550026, 'vf_explained_var': -0.79640793800354, 'entropy': 15.09638500213623, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1358.2899169921875, 'kl': 0.013298786245286465}, 'load_time_ms': 0.713, 'num_steps_sampled': 55200, 'update_time_ms': 2.665}",46,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.84802794456482,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,55200,55200,{},46,24,-99.84089460076768,2025-09-04_16-45-36,-47.30665988731469,3651948,1756997136,-96.46923531968903,1968.8651938438416,1110,49.79
+cda-server-2,False,2010.0142283439636,"{'sample_time_ms': 39805.123, 'num_steps_trained': 56400, 'grad_time_ms': 370.536, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1360.581298828125, 'policy_loss': -0.11323577910661697, 'vf_explained_var': -0.7683766484260559, 'entropy': 15.034567832946777, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1360.4910888671875, 'kl': 0.015101809985935688}, 'load_time_ms': 0.717, 'num_steps_sampled': 56400, 'update_time_ms': 2.664}",47,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.14903450012207,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,56400,56400,{},47,24,-99.70491179654027,2025-09-04_16-46-17,-47.30665988731469,3651948,1756997177,-96.50030034668707,2010.0142283439636,1134,49.79
+cda-server-2,False,2050.1419506073,"{'sample_time_ms': 39793.815, 'num_steps_trained': 57600, 'grad_time_ms': 368.623, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1230.81640625, 'policy_loss': -0.11603689193725586, 'vf_explained_var': -0.7617323994636536, 'entropy': 14.98969554901123, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1230.7230224609375, 'kl': 0.014867722988128662}, 'load_time_ms': 0.721, 'num_steps_sampled': 57600, 'update_time_ms': 2.658}",48,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.12772226333618,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,57600,57600,{},48,25,-99.70491179654027,2025-09-04_16-46-57,-50.47800847607699,3651948,1756997217,-96.78667045656734,2050.1419506073,1159,49.83
+cda-server-2,False,2090.207808494568,"{'sample_time_ms': 39800.839, 'num_steps_trained': 58800, 'grad_time_ms': 368.33, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1210.0145263671875, 'policy_loss': -0.1278069019317627, 'vf_explained_var': -0.7858371138572693, 'entropy': 14.963143348693848, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1209.9093017578125, 'kl': 0.014916043728590012}, 'load_time_ms': 0.716, 'num_steps_sampled': 58800, 'update_time_ms': 2.632}",49,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.065857887268066,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,58800,58800,{},49,24,-99.69965493226601,2025-09-04_16-47-37,-36.92857428593311,3651948,1756997257,-96.00154953185834,2090.207808494568,1183,49.58
+cda-server-2,False,2130.0400941371918,"{'sample_time_ms': 39722.489, 'num_steps_trained': 60000, 'grad_time_ms': 368.589, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1181.7391357421875, 'policy_loss': -0.11024336516857147, 'vf_explained_var': -0.7595869302749634, 'entropy': 14.997981071472168, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1181.6502685546875, 'kl': 0.014109021984040737}, 'load_time_ms': 0.704, 'num_steps_sampled': 60000, 'update_time_ms': 2.607}",50,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.8322856426239,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,60000,60000,{},50,26,-99.69965493226601,2025-09-04_16-48-17,2.000894818521134,3651948,1756997297,-94.21600584758427,2130.0400941371918,1209,48.88
+cda-server-2,False,2169.8263907432556,"{'sample_time_ms': 39616.721, 'num_steps_trained': 61200, 'grad_time_ms': 369.792, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1206.790771484375, 'policy_loss': -0.10038409382104874, 'vf_explained_var': -0.7725622653961182, 'entropy': 14.993680953979492, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1206.7130126953125, 'kl': 0.014860378578305244}, 'load_time_ms': 0.699, 'num_steps_sampled': 61200, 'update_time_ms': 2.575}",51,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.78629660606384,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,61200,61200,{},51,24,-99.69965493226601,2025-09-04_16-48-57,2.000894818521134,3651948,1756997337,-94.16899019027835,2169.8263907432556,1233,48.88
+cda-server-2,False,2210.4999437332153,"{'sample_time_ms': 39718.94, 'num_steps_trained': 62400, 'grad_time_ms': 366.862, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1131.96240234375, 'policy_loss': -0.11758121848106384, 'vf_explained_var': -0.6979755163192749, 'entropy': 14.95267105102539, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1131.8658447265625, 'kl': 0.013862605206668377}, 'load_time_ms': 0.691, 'num_steps_sampled': 62400, 'update_time_ms': 2.612}",52,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.67355298995972,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,62400,62400,{},52,26,-99.69965493226601,2025-09-04_16-49-37,8.000000567682516,3651948,1756997377,-92.0585035779024,2210.4999437332153,1259,47.93
+cda-server-2,False,2250.7435400485992,"{'sample_time_ms': 39748.417, 'num_steps_trained': 63600, 'grad_time_ms': 368.77, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1224.529541015625, 'policy_loss': -0.09991131722927094, 'vf_explained_var': -0.7694526314735413, 'entropy': 14.912704467773438, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1224.4503173828125, 'kl': 0.013661215081810951}, 'load_time_ms': 0.691, 'num_steps_sampled': 63600, 'update_time_ms': 2.613}",53,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.24359631538391,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,63600,63600,{},53,25,-99.68827816877031,2025-09-04_16-50-18,8.000000567682516,3651948,1756997418,-91.20529984729008,2250.7435400485992,1284,47.52
+cda-server-2,False,2290.6784195899963,"{'sample_time_ms': 39758.858, 'num_steps_trained': 64800, 'grad_time_ms': 371.236, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1310.67138671875, 'policy_loss': -0.10968722403049469, 'vf_explained_var': -0.8816094398498535, 'entropy': 15.012337684631348, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1310.582763671875, 'kl': 0.013880123384296894}, 'load_time_ms': 0.688, 'num_steps_sampled': 64800, 'update_time_ms': 2.624}",54,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.934879541397095,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,64800,64800,{},54,24,-99.68827816877031,2025-09-04_16-50-58,8.000000567682516,3651948,1756997458,-92.94233478779394,2290.6784195899963,1308,48.22
+cda-server-2,False,2330.734453201294,"{'sample_time_ms': 39790.737, 'num_steps_trained': 66000, 'grad_time_ms': 373.097, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1422.956787109375, 'policy_loss': -0.12223473936319351, 'vf_explained_var': -0.8387157320976257, 'entropy': 15.144838333129883, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1422.8563232421875, 'kl': 0.01441657543182373}, 'load_time_ms': 0.702, 'num_steps_sampled': 66000, 'update_time_ms': 2.597}",55,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.05603361129761,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,66000,66000,{},55,25,-99.68827816877031,2025-09-04_16-51-38,8.000000567682516,3651948,1756997498,-91.4661865953845,2330.734453201294,1333,47.67
+cda-server-2,False,2370.54008436203,"{'sample_time_ms': 39784.586, 'num_steps_trained': 67200, 'grad_time_ms': 375.042, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1342.798828125, 'policy_loss': -0.11646595597267151, 'vf_explained_var': -0.7877098917961121, 'entropy': 15.047779083251953, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1342.707275390625, 'kl': 0.016279883682727814}, 'load_time_ms': 0.714, 'num_steps_sampled': 67200, 'update_time_ms': 2.59}",56,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.805631160736084,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,67200,67200,{},56,24,-99.22056810823626,2025-09-04_16-52-17,1.1405470155882025,3651948,1756997537,-93.87697515324817,2370.54008436203,1357,48.79
+cda-server-2,False,2410.359657764435,"{'sample_time_ms': 39652.665, 'num_steps_trained': 68400, 'grad_time_ms': 373.994, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1294.26953125, 'policy_loss': -0.1283871829509735, 'vf_explained_var': -0.7179339528083801, 'entropy': 14.984747886657715, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1294.1630859375, 'kl': 0.014505099505186081}, 'load_time_ms': 0.709, 'num_steps_sampled': 68400, 'update_time_ms': 2.615}",57,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.819573402404785,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,68400,68400,{},57,24,-99.30733801768991,2025-09-04_16-52-57,1.1405470155882025,3651948,1756997577,-94.32058205387851,2410.359657764435,1381,49.01
+cda-server-2,False,2451.774926185608,"{'sample_time_ms': 39781.232, 'num_steps_trained': 69600, 'grad_time_ms': 374.189, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1268.938720703125, 'policy_loss': -0.11768833547830582, 'vf_explained_var': -0.7330797910690308, 'entropy': 14.87173080444336, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1268.8406982421875, 'kl': 0.01305652316659689}, 'load_time_ms': 0.7, 'num_steps_sampled': 69600, 'update_time_ms': 2.616}",58,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.415268421173096,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,69600,69600,{},58,24,-99.30733801768991,2025-09-04_16-53-39,-3.6157548869232627,3651948,1756997619,-95.15196150291067,2451.774926185608,1405,49.44
+cda-server-2,False,2492.544373989105,"{'sample_time_ms': 39851.185, 'num_steps_trained': 70800, 'grad_time_ms': 374.531, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1244.011474609375, 'policy_loss': -0.11157584190368652, 'vf_explained_var': -0.7300561666488647, 'entropy': 14.927780151367188, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1243.9197998046875, 'kl': 0.013102485798299313}, 'load_time_ms': 0.699, 'num_steps_sampled': 70800, 'update_time_ms': 2.636}",59,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.769447803497314,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,70800,70800,{},59,25,-99.30733801768991,2025-09-04_16-54-19,-3.6157548869232627,3651948,1756997659,-94.71678434113755,2492.544373989105,1430,49.24
+cda-server-2,False,2532.3875205516815,"{'sample_time_ms': 39852.211, 'num_steps_trained': 72000, 'grad_time_ms': 374.575, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1167.0535888671875, 'policy_loss': -0.11288302391767502, 'vf_explained_var': -0.7880843281745911, 'entropy': 14.89885139465332, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1166.9609375, 'kl': 0.013332750648260117}, 'load_time_ms': 0.706, 'num_steps_sampled': 72000, 'update_time_ms': 2.64}",60,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.843146562576294,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,72000,72000,{},60,25,-99.60113338733126,2025-09-04_16-54-59,-43.26172837301939,3651948,1756997699,-95.24715711171521,2532.3875205516815,1455,49.54
+cda-server-2,False,2572.3899228572845,"{'sample_time_ms': 39874.653, 'num_steps_trained': 73200, 'grad_time_ms': 373.813, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1214.6409912109375, 'policy_loss': -0.11584869027137756, 'vf_explained_var': -0.7653178572654724, 'entropy': 14.912324905395508, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1214.54638671875, 'kl': 0.014048927463591099}, 'load_time_ms': 0.691, 'num_steps_sampled': 73200, 'update_time_ms': 2.639}",61,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.00240230560303,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,73200,73200,{},61,24,-99.60113338733126,2025-09-04_16-55-39,-39.9027328754405,3651948,1756997739,-94.50576187376137,2572.3899228572845,1479,49.3
+cda-server-2,False,2612.1271228790283,"{'sample_time_ms': 39778.975, 'num_steps_trained': 74400, 'grad_time_ms': 375.838, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1259.583984375, 'policy_loss': -0.11178527772426605, 'vf_explained_var': -0.7795595526695251, 'entropy': 14.82375431060791, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1259.4942626953125, 'kl': 0.014546235091984272}, 'load_time_ms': 0.695, 'num_steps_sampled': 74400, 'update_time_ms': 2.646}",62,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.737200021743774,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,74400,74400,{},62,25,-99.97254170911407,2025-09-04_16-56-19,2.1591405978752833,3651948,1756997779,-93.35622147695085,2612.1271228790283,1504,48.81
+cda-server-2,False,2652.1977066993713,"{'sample_time_ms': 39763.604, 'num_steps_trained': 75600, 'grad_time_ms': 373.908, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1356.56787109375, 'policy_loss': -0.10862504690885544, 'vf_explained_var': -0.7592952847480774, 'entropy': 14.951154708862305, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1356.4798583984375, 'kl': 0.013558438047766685}, 'load_time_ms': 0.694, 'num_steps_sampled': 75600, 'update_time_ms': 2.647}",63,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.07058382034302,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,75600,75600,{},63,25,-99.97254170911407,2025-09-04_16-56-59,6.000001326755738,3651948,1756997819,-92.5705083925217,2652.1977066993713,1529,48.41
+cda-server-2,False,2692.412809610367,"{'sample_time_ms': 39792.826, 'num_steps_trained': 76800, 'grad_time_ms': 372.736, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1189.119873046875, 'policy_loss': -0.12759803235530853, 'vf_explained_var': -0.7264623045921326, 'entropy': 14.669437408447266, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1189.014404296875, 'kl': 0.01455807313323021}, 'load_time_ms': 0.697, 'num_steps_sampled': 76800, 'update_time_ms': 2.635}",64,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.21510291099548,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,76800,76800,{},64,24,-99.97254170911407,2025-09-04_16-57-40,6.000001326755738,3651948,1756997860,-92.60180417143867,2692.412809610367,1553,48.39
+cda-server-2,False,2732.490079641342,"{'sample_time_ms': 39797.621, 'num_steps_trained': 78000, 'grad_time_ms': 370.136, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1244.51416015625, 'policy_loss': -0.11783421039581299, 'vf_explained_var': -0.7883577942848206, 'entropy': 14.744547843933105, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1244.4168701171875, 'kl': 0.013561917468905449}, 'load_time_ms': 0.677, 'num_steps_sampled': 78000, 'update_time_ms': 2.622}",65,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.07727003097534,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,78000,78000,{},65,25,-99.97254170911407,2025-09-04_16-58-20,6.000001326755738,3651948,1756997900,-92.77911973728547,2732.490079641342,1578,48.36
+cda-server-2,False,2772.6015956401825,"{'sample_time_ms': 39828.28, 'num_steps_trained': 79200, 'grad_time_ms': 370.099, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1261.6090087890625, 'policy_loss': -0.11495360732078552, 'vf_explained_var': -0.7529252171516418, 'entropy': 14.982555389404297, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1261.513427734375, 'kl': 0.012708180584013462}, 'load_time_ms': 0.676, 'num_steps_sampled': 79200, 'update_time_ms': 2.561}",66,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.11151599884033,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,79200,79200,{},66,25,-99.72677078360388,2025-09-04_16-59-00,6.000001326755738,3651948,1756997940,-93.05071050827317,2772.6015956401825,1603,48.6
+cda-server-2,False,2812.351597547531,"{'sample_time_ms': 39820.574, 'num_steps_trained': 80400, 'grad_time_ms': 370.846, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1198.54150390625, 'policy_loss': -0.12078271806240082, 'vf_explained_var': -0.8323256969451904, 'entropy': 14.662151336669922, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1198.443603515625, 'kl': 0.014926041476428509}, 'load_time_ms': 0.682, 'num_steps_sampled': 80400, 'update_time_ms': 2.553}",67,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.75000190734863,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,80400,80400,{},67,25,-99.72677078360388,2025-09-04_16-59-39,-33.96508927336994,3651948,1756997979,-94.36946534877416,2812.351597547531,1628,49.14
+cda-server-2,False,2852.031061410904,"{'sample_time_ms': 39645.242, 'num_steps_trained': 81600, 'grad_time_ms': 372.573, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1221.2003173828125, 'policy_loss': -0.10780903697013855, 'vf_explained_var': -0.8038766384124756, 'entropy': 14.78492546081543, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1221.1131591796875, 'kl': 0.013653003610670567}, 'load_time_ms': 0.686, 'num_steps_sampled': 81600, 'update_time_ms': 2.537}",68,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.6794638633728,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,81600,81600,{},68,24,-99.58787226122642,2025-09-04_17-00-19,-25.2159638771289,3651948,1756998019,-94.04441640538226,2852.031061410904,1652,48.97
+cda-server-2,False,2891.8031606674194,"{'sample_time_ms': 39547.375, 'num_steps_trained': 82800, 'grad_time_ms': 370.732, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1223.3162841796875, 'policy_loss': -0.11841960996389389, 'vf_explained_var': -0.8032306432723999, 'entropy': 14.663142204284668, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1223.2208251953125, 'kl': 0.015099359676241875}, 'load_time_ms': 0.685, 'num_steps_sampled': 82800, 'update_time_ms': 2.526}",69,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.7720992565155,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,82800,82800,{},69,25,-99.99162556002155,2025-09-04_17-00-59,-0.7702540579181019,3651948,1756998059,-93.08991260626364,2891.8031606674194,1677,48.65
+cda-server-2,False,2931.6492550373077,"{'sample_time_ms': 39548.229, 'num_steps_trained': 84000, 'grad_time_ms': 370.219, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1172.17431640625, 'policy_loss': -0.1396070122718811, 'vf_explained_var': -0.7034938335418701, 'entropy': 14.607905387878418, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1172.0589599609375, 'kl': 0.015890225768089294}, 'load_time_ms': 0.671, 'num_steps_sampled': 84000, 'update_time_ms': 2.544}",70,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.846094369888306,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,84000,84000,{},70,24,-99.99162556002155,2025-09-04_17-01-39,-0.7702540579181019,3651948,1756998099,-93.36784562070854,2931.6492550373077,1701,48.68
+cda-server-2,False,2971.3676204681396,"{'sample_time_ms': 39519.912, 'num_steps_trained': 85200, 'grad_time_ms': 370.109, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1292.23876953125, 'policy_loss': -0.1328306645154953, 'vf_explained_var': -0.7532870769500732, 'entropy': 14.943361282348633, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1292.128173828125, 'kl': 0.014537609182298183}, 'load_time_ms': 0.674, 'num_steps_sampled': 85200, 'update_time_ms': 2.531}",71,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.71836543083191,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,85200,85200,{},71,24,-99.99162556002155,2025-09-04_17-02-19,-0.7702540579181019,3651948,1756998139,-92.87745475202908,2971.3676204681396,1725,48.64
+cda-server-2,False,3011.002952814102,"{'sample_time_ms': 39510.118, 'num_steps_trained': 86400, 'grad_time_ms': 369.717, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1240.18310546875, 'policy_loss': -0.11488083750009537, 'vf_explained_var': -0.6741650104522705, 'entropy': 14.941850662231445, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1240.0899658203125, 'kl': 0.014264964498579502}, 'load_time_ms': 0.671, 'num_steps_sampled': 86400, 'update_time_ms': 2.534}",72,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.635332345962524,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,86400,86400,{},72,27,-99.99162556002155,2025-09-04_17-02-58,-0.7702540579181019,3651948,1756998178,-91.20535606157559,3011.002952814102,1752,48.02
+cda-server-2,False,3050.5706675052643,"{'sample_time_ms': 39458.188, 'num_steps_trained': 87600, 'grad_time_ms': 371.345, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1113.804443359375, 'policy_loss': -0.11882533133029938, 'vf_explained_var': -0.7840087413787842, 'entropy': 14.758036613464355, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1113.7073974609375, 'kl': 0.014246370643377304}, 'load_time_ms': 0.665, 'num_steps_sampled': 87600, 'update_time_ms': 2.549}",73,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.56771469116211,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,87600,87600,{},73,24,-99.6792457992007,2025-09-04_17-03-38,-15.576939134117044,3651948,1756998218,-92.18438998251895,3050.5706675052643,1776,48.52
+cda-server-2,False,3091.4167096614838,"{'sample_time_ms': 39521.164, 'num_steps_trained': 88800, 'grad_time_ms': 371.391, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1172.51708984375, 'policy_loss': -0.12917476892471313, 'vf_explained_var': -0.7146407961845398, 'entropy': 14.7467041015625, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1172.4105224609375, 'kl': 0.014921224676072598}, 'load_time_ms': 0.674, 'num_steps_sampled': 88800, 'update_time_ms': 2.571}",74,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.84604215621948,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,88800,88800,{},74,25,-99.6792457992007,2025-09-04_17-04-19,-3.999500710162776,3651948,1756998259,-91.32126179142608,3091.4167096614838,1801,48.21
+cda-server-2,False,3131.535984277725,"{'sample_time_ms': 39524.336, 'num_steps_trained': 90000, 'grad_time_ms': 372.342, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1171.7374267578125, 'policy_loss': -0.11464173346757889, 'vf_explained_var': -0.7707966566085815, 'entropy': 14.599848747253418, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1171.64208984375, 'kl': 0.012648598290979862}, 'load_time_ms': 0.679, 'num_steps_sampled': 90000, 'update_time_ms': 2.587}",75,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.119274616241455,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,90000,90000,{},75,24,-99.63079658416484,2025-09-04_17-04-59,-3.999500710162776,3651948,1756998299,-92.15717888342807,3131.535984277725,1825,48.44
+cda-server-2,False,3171.6466183662415,"{'sample_time_ms': 39524.771, 'num_steps_trained': 91200, 'grad_time_ms': 371.805, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1277.7818603515625, 'policy_loss': -0.11734982579946518, 'vf_explained_var': -0.7334659099578857, 'entropy': 14.809412956237793, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1277.6856689453125, 'kl': 0.01380773726850748}, 'load_time_ms': 0.674, 'num_steps_sampled': 91200, 'update_time_ms': 2.622}",76,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.110634088516235,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,91200,91200,{},76,24,-99.63079658416484,2025-09-04_17-05-39,-3.999500710162776,3651948,1756998339,-92.27201614128585,3171.6466183662415,1849,48.75
+cda-server-2,False,3211.787467956543,"{'sample_time_ms': 39563.643, 'num_steps_trained': 92400, 'grad_time_ms': 372.018, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1321.55908203125, 'policy_loss': -0.12810860574245453, 'vf_explained_var': -0.7949018478393555, 'entropy': 14.77613353729248, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1321.45458984375, 'kl': 0.015502896159887314}, 'load_time_ms': 0.678, 'num_steps_sampled': 92400, 'update_time_ms': 2.623}",77,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.140849590301514,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,92400,92400,{},77,25,-98.73718296318454,2025-09-04_17-06-19,-3.999500710162776,3651948,1756998379,-92.93486778479472,3211.787467956543,1874,49.01
+cda-server-2,False,3252.4975650310516,"{'sample_time_ms': 39667.332, 'num_steps_trained': 93600, 'grad_time_ms': 371.34, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1272.25634765625, 'policy_loss': -0.12087935954332352, 'vf_explained_var': -0.7115300297737122, 'entropy': 14.752005577087402, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1272.1575927734375, 'kl': 0.014506997540593147}, 'load_time_ms': 0.675, 'num_steps_sampled': 93600, 'update_time_ms': 2.629}",78,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.71009707450867,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,93600,93600,{},78,24,-98.6604206333207,2025-09-04_17-07-00,-55.892082802026835,3651948,1756998420,-94.11221293511282,3252.4975650310516,1898,49.55
+cda-server-2,False,3293.6832132339478,"{'sample_time_ms': 39806.354, 'num_steps_trained': 94800, 'grad_time_ms': 373.642, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1292.762939453125, 'policy_loss': -0.11956813931465149, 'vf_explained_var': -0.7240657806396484, 'entropy': 14.862645149230957, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1292.663818359375, 'kl': 0.013549041002988815}, 'load_time_ms': 0.671, 'num_steps_sampled': 94800, 'update_time_ms': 2.652}",79,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.18564820289612,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,94800,94800,{},79,24,-98.6604206333207,2025-09-04_17-07-41,-55.892082802026835,3651948,1756998461,-93.72617925382933,3293.6832132339478,1922,49.53
+cda-server-2,False,3333.982837200165,"{'sample_time_ms': 39853.736, 'num_steps_trained': 96000, 'grad_time_ms': 371.603, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1276.9134521484375, 'policy_loss': -0.11261190474033356, 'vf_explained_var': -0.7686378955841064, 'entropy': 15.086308479309082, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1276.8209228515625, 'kl': 0.013302515260875225}, 'load_time_ms': 0.668, 'num_steps_sampled': 96000, 'update_time_ms': 2.649}",80,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.29962396621704,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,96000,96000,{},80,26,-98.6604206333207,2025-09-04_17-08-21,-8.733419482830186,3651948,1756998501,-93.15560433947206,3333.982837200165,1948,49.12
+cda-server-2,False,3374.2282209396362,"{'sample_time_ms': 39908.36, 'num_steps_trained': 97200, 'grad_time_ms': 369.724, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1151.8021240234375, 'policy_loss': -0.11964704096317291, 'vf_explained_var': -0.6800518035888672, 'entropy': 14.558051109313965, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1151.703125, 'kl': 0.013682969845831394}, 'load_time_ms': 0.672, 'num_steps_sampled': 97200, 'update_time_ms': 2.634}",81,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.245383739471436,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,97200,97200,{},81,24,-99.26104626550475,2025-09-04_17-09-02,-8.733419482830186,3651948,1756998542,-93.1911542427198,3374.2282209396362,1972,49.15
+cda-server-2,False,3413.907021045685,"{'sample_time_ms': 39914.318, 'num_steps_trained': 98400, 'grad_time_ms': 368.136, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1271.07568359375, 'policy_loss': -0.11927060037851334, 'vf_explained_var': -0.7267799973487854, 'entropy': 14.841487884521484, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1270.9776611328125, 'kl': 0.013944336213171482}, 'load_time_ms': 0.672, 'num_steps_sampled': 98400, 'update_time_ms': 2.608}",82,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.678800106048584,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,98400,98400,{},82,24,-99.26104626550475,2025-09-04_17-09-41,-8.733419482830186,3651948,1756998581,-93.12007318425577,3413.907021045685,1996,49.15
+cda-server-2,False,3453.756364107132,"{'sample_time_ms': 39943.947, 'num_steps_trained': 99600, 'grad_time_ms': 366.691, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1233.8282470703125, 'policy_loss': -0.12820306420326233, 'vf_explained_var': -0.7392103672027588, 'entropy': 14.829949378967285, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1233.7203369140625, 'kl': 0.013510401360690594}, 'load_time_ms': 0.678, 'num_steps_sampled': 99600, 'update_time_ms': 2.609}",83,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.849343061447144,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,99600,99600,{},83,25,-99.26104626550475,2025-09-04_17-10-21,-8.733419482830186,3651948,1756998621,-92.26810527420496,3453.756364107132,2021,48.8
+cda-server-2,False,3493.5548133850098,"{'sample_time_ms': 39839.005, 'num_steps_trained': 100800, 'grad_time_ms': 366.936, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1215.7237548828125, 'policy_loss': -0.11922930181026459, 'vf_explained_var': -0.7129600048065186, 'entropy': 14.783453941345215, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1215.6236572265625, 'kl': 0.012615455314517021}, 'load_time_ms': 0.678, 'num_steps_sampled': 100800, 'update_time_ms': 2.588}",84,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.79844927787781,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,100800,100800,{},84,24,-99.26104626550475,2025-09-04_17-11-01,-13.917609120055879,3651948,1756998661,-92.80197099116748,3493.5548133850098,2045,49.17
+cda-server-2,False,3533.712546348572,"{'sample_time_ms': 39842.159, 'num_steps_trained': 102000, 'grad_time_ms': 367.639, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1278.0333251953125, 'policy_loss': -0.1087045967578888, 'vf_explained_var': -0.7911555767059326, 'entropy': 14.793651580810547, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1277.946044921875, 'kl': 0.014129284769296646}, 'load_time_ms': 0.672, 'num_steps_sampled': 102000, 'update_time_ms': 2.585}",85,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.15773296356201,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,102000,102000,{},85,25,-98.52128822180254,2025-09-04_17-11-41,-13.917609120055879,3651948,1756998701,-92.42686715994115,3533.712546348572,2070,48.98
+cda-server-2,False,3573.3178622722626,"{'sample_time_ms': 39791.294, 'num_steps_trained': 103200, 'grad_time_ms': 367.951, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1206.2105712890625, 'policy_loss': -0.11693794280290604, 'vf_explained_var': -0.7791456580162048, 'entropy': 14.77348518371582, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1206.1171875, 'kl': 0.015465127304196358}, 'load_time_ms': 0.669, 'num_steps_sampled': 103200, 'update_time_ms': 2.611}",86,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.605315923690796,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,103200,103200,{},86,25,-98.52128822180254,2025-09-04_17-12-21,-13.917609120055879,3651948,1756998741,-91.01069362105486,3573.3178622722626,2095,48.48
+cda-server-2,False,3613.9034507274628,"{'sample_time_ms': 39835.727, 'num_steps_trained': 104400, 'grad_time_ms': 368.041, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1148.5584716796875, 'policy_loss': -0.12584802508354187, 'vf_explained_var': -0.7068888545036316, 'entropy': 14.55543327331543, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1148.4549560546875, 'kl': 0.014751442708075047}, 'load_time_ms': 0.67, 'num_steps_sampled': 104400, 'update_time_ms': 2.583}",87,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.585588455200195,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,104400,104400,{},87,25,-98.72888046726543,2025-09-04_17-13-02,-25.99462355474143,3651948,1756998782,-90.95479067292243,3613.9034507274628,2120,48.46
+cda-server-2,False,3654.366242647171,"{'sample_time_ms': 39810.132, 'num_steps_trained': 105600, 'grad_time_ms': 368.977, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1196.8033447265625, 'policy_loss': -0.12734419107437134, 'vf_explained_var': -0.647044837474823, 'entropy': 14.450883865356445, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1196.6951904296875, 'kl': 0.012654243037104607}, 'load_time_ms': 0.676, 'num_steps_sampled': 105600, 'update_time_ms': 2.584}",88,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.46279191970825,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,105600,105600,{},88,24,-98.77030807707597,2025-09-04_17-13-42,-5.722962107342848,3651948,1756998822,-90.80268153204094,3654.366242647171,2144,48.24
+cda-server-2,False,3694.164056777954,"{'sample_time_ms': 39671.88, 'num_steps_trained': 106800, 'grad_time_ms': 368.472, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1234.7669677734375, 'policy_loss': -0.12505359947681427, 'vf_explained_var': -0.7778708338737488, 'entropy': 14.69221305847168, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1234.66162109375, 'kl': 0.012969114817678928}, 'load_time_ms': 0.685, 'num_steps_sampled': 106800, 'update_time_ms': 2.551}",89,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.79781413078308,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,106800,106800,{},89,26,-99.54022066114896,2025-09-04_17-14-22,-5.722962107342848,3651948,1756998862,-89.86875535557246,3694.164056777954,2170,47.89
+cda-server-2,False,3733.7502102851868,"{'sample_time_ms': 39599.99, 'num_steps_trained': 108000, 'grad_time_ms': 369.036, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1285.6556396484375, 'policy_loss': -0.12674559652805328, 'vf_explained_var': -0.8289951682090759, 'entropy': 14.869439125061035, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1285.5496826171875, 'kl': 0.01376924104988575}, 'load_time_ms': 0.685, 'num_steps_sampled': 108000, 'update_time_ms': 2.537}",90,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.586153507232666,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,108000,108000,{},90,24,-99.54022066114896,2025-09-04_17-15-01,-5.722962107342848,3651948,1756998901,-91.13390358708877,3733.7502102851868,2194,48.39
+cda-server-2,False,3774.2825310230255,"{'sample_time_ms': 39628.094, 'num_steps_trained': 109200, 'grad_time_ms': 369.618, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1224.0098876953125, 'policy_loss': -0.10955886542797089, 'vf_explained_var': -0.7773178815841675, 'entropy': 14.64888858795166, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1223.9169921875, 'kl': 0.011099190451204777}, 'load_time_ms': 0.702, 'num_steps_sampled': 109200, 'update_time_ms': 2.519}",91,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.532320737838745,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,109200,109200,{},91,25,-99.54022066114896,2025-09-04_17-15-42,-5.722962107342848,3651948,1756998942,-91.20847519918264,3774.2825310230255,2219,48.4
+cda-server-2,False,3814.0616085529327,"{'sample_time_ms': 39634.879, 'num_steps_trained': 110400, 'grad_time_ms': 372.838, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1189.8040771484375, 'policy_loss': -0.12425579130649567, 'vf_explained_var': -0.7224305272102356, 'entropy': 14.687872886657715, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1189.700927734375, 'kl': 0.013974593952298164}, 'load_time_ms': 0.705, 'num_steps_sampled': 110400, 'update_time_ms': 2.504}",92,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.77907752990723,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,110400,110400,{},92,26,-99.54022066114896,2025-09-04_17-16-22,1.4474787914261587,3651948,1756998982,-89.48766277537257,3814.0616085529327,2245,47.8
+cda-server-2,False,3854.6090116500854,"{'sample_time_ms': 39702.751, 'num_steps_trained': 111600, 'grad_time_ms': 374.732, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1208.7021484375, 'policy_loss': -0.11913042515516281, 'vf_explained_var': -0.6939985752105713, 'entropy': 14.28215503692627, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1208.60400390625, 'kl': 0.013752754777669907}, 'load_time_ms': 0.7, 'num_steps_sampled': 111600, 'update_time_ms': 2.531}",93,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.54740309715271,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,111600,111600,{},93,24,-99.36198879809118,2025-09-04_17-17-02,1.4474787914261587,3651948,1756999022,-90.58949901698992,3854.6090116500854,2269,48.22
+cda-server-2,False,3894.819942712784,"{'sample_time_ms': 39744.693, 'num_steps_trained': 112800, 'grad_time_ms': 374.001, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1184.99560546875, 'policy_loss': -0.12463506311178207, 'vf_explained_var': -0.643320620059967, 'entropy': 14.60263442993164, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1184.8944091796875, 'kl': 0.015387635678052902}, 'load_time_ms': 0.691, 'num_steps_sampled': 112800, 'update_time_ms': 2.53}",94,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.210931062698364,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,112800,112800,{},94,25,-99.36198879809118,2025-09-04_17-17-43,1.4474787914261587,3651948,1756999063,-89.95456546353162,3894.819942712784,2294,48.04
+cda-server-2,False,3934.89609003067,"{'sample_time_ms': 39737.281, 'num_steps_trained': 114000, 'grad_time_ms': 373.233, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1267.3551025390625, 'policy_loss': -0.12714111804962158, 'vf_explained_var': -0.7729015350341797, 'entropy': 14.54859447479248, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1267.2496337890625, 'kl': 0.014290733262896538}, 'load_time_ms': 0.689, 'num_steps_sampled': 114000, 'update_time_ms': 2.541}",95,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.07614731788635,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,114000,114000,{},95,25,-99.36198879809118,2025-09-04_17-18-23,1.4474787914261587,3651948,1756999103,-89.21487080403091,3934.89609003067,2319,47.81
+cda-server-2,False,3974.9890925884247,"{'sample_time_ms': 39785.839, 'num_steps_trained': 115200, 'grad_time_ms': 373.399, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1199.9796142578125, 'policy_loss': -0.12493264675140381, 'vf_explained_var': -0.7098046541213989, 'entropy': 14.439332962036133, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1199.87451171875, 'kl': 0.013081979006528854}, 'load_time_ms': 0.695, 'num_steps_sampled': 115200, 'update_time_ms': 2.574}",96,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.09300255775452,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,115200,115200,{},96,25,-99.36198879809118,2025-09-04_17-19-03,-28.275172311855314,3651948,1756999143,-90.65294534009193,3974.9890925884247,2344,48.51
+cda-server-2,False,4014.6931591033936,"{'sample_time_ms': 39698.153, 'num_steps_trained': 116400, 'grad_time_ms': 373.004, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1210.350341796875, 'policy_loss': -0.11625361442565918, 'vf_explained_var': -0.7325482368469238, 'entropy': 14.540125846862793, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1210.2540283203125, 'kl': 0.013076062314212322}, 'load_time_ms': 0.68, 'num_steps_sampled': 116400, 'update_time_ms': 2.558}",97,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.70406651496887,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,116400,116400,{},97,24,-97.95559873759191,2025-09-04_17-19-43,-35.95092867650534,3651948,1756999183,-91.17967484303084,4014.6931591033936,2368,48.85
+cda-server-2,False,4055.768358230591,"{'sample_time_ms': 39759.339, 'num_steps_trained': 117600, 'grad_time_ms': 373.009, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1190.3453369140625, 'policy_loss': -0.11981771886348724, 'vf_explained_var': -0.6935294270515442, 'entropy': 14.405661582946777, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1190.245849609375, 'kl': 0.013433661311864853}, 'load_time_ms': 0.685, 'num_steps_sampled': 117600, 'update_time_ms': 2.552}",98,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.075199127197266,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,117600,117600,{},98,25,-97.95559873759191,2025-09-04_17-20-24,0.5107333925751831,3651948,1756999224,-89.58005055925892,4055.768358230591,2393,48.15
+cda-server-2,False,4095.5292184352875,"{'sample_time_ms': 39757.793, 'num_steps_trained': 118800, 'grad_time_ms': 370.868, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1296.869140625, 'policy_loss': -0.1273031383752823, 'vf_explained_var': -0.7066032886505127, 'entropy': 14.593509674072266, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1296.7630615234375, 'kl': 0.013859516941010952}, 'load_time_ms': 0.679, 'num_steps_sampled': 118800, 'update_time_ms': 2.572}",99,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.760860204696655,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,118800,118800,{},99,24,-97.95559873759191,2025-09-04_17-21-03,0.5107333925751831,3651948,1756999263,-90.90190257334996,4095.5292184352875,2417,48.75
+cda-server-2,False,4135.280607700348,"{'sample_time_ms': 39771.754, 'num_steps_trained': 120000, 'grad_time_ms': 373.397, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1311.7376708984375, 'policy_loss': -0.13152579963207245, 'vf_explained_var': -0.6952612996101379, 'entropy': 14.473356246948242, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1311.62744140625, 'kl': 0.014029532670974731}, 'load_time_ms': 0.689, 'num_steps_sampled': 120000, 'update_time_ms': 2.588}",100,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.751389265060425,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,120000,120000,{},100,25,-98.5273936104996,2025-09-04_17-21-43,0.5107333925751831,3651948,1756999303,-90.455652480023,4135.280607700348,2442,48.5
+cda-server-2,False,4175.344631195068,"{'sample_time_ms': 39722.412, 'num_steps_trained': 121200, 'grad_time_ms': 375.911, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1326.9588623046875, 'policy_loss': -0.14080630242824554, 'vf_explained_var': -0.7763766050338745, 'entropy': 14.496570587158203, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1326.8421630859375, 'kl': 0.015901949256658554}, 'load_time_ms': 0.675, 'num_steps_sampled': 121200, 'update_time_ms': 2.616}",101,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.06402349472046,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,121200,121200,{},101,26,-98.5273936104996,2025-09-04_17-22-23,6.000664555683574,3651948,1756999343,-88.72845558193077,4175.344631195068,2468,47.76
+cda-server-2,False,4215.645416736603,"{'sample_time_ms': 39774.876, 'num_steps_trained': 122400, 'grad_time_ms': 375.573, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1194.6558837890625, 'policy_loss': -0.1253173053264618, 'vf_explained_var': -0.7658072710037231, 'entropy': 14.514446258544922, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1194.5496826171875, 'kl': 0.012578372843563557}, 'load_time_ms': 0.679, 'num_steps_sampled': 122400, 'update_time_ms': 2.664}",102,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.300785541534424,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,122400,122400,{},102,25,-98.5273936104996,2025-09-04_17-23-04,6.000664555683574,3651948,1756999384,-89.66162941043045,4215.645416736603,2493,48.25
+cda-server-2,False,4255.7618935108185,"{'sample_time_ms': 39733.237, 'num_steps_trained': 123600, 'grad_time_ms': 374.02, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1156.4312744140625, 'policy_loss': -0.1374259740114212, 'vf_explained_var': -0.6683142781257629, 'entropy': 14.21220874786377, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1156.3155517578125, 'kl': 0.014314512722194195}, 'load_time_ms': 0.678, 'num_steps_sampled': 123600, 'update_time_ms': 2.677}",103,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.1164767742157,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,123600,123600,{},103,25,-98.5273936104996,2025-09-04_17-23-44,6.000664555683574,3651948,1756999424,-88.23683398251121,4255.7618935108185,2518,47.59
+cda-server-2,False,4297.668802499771,"{'sample_time_ms': 39901.639, 'num_steps_trained': 124800, 'grad_time_ms': 375.174, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1237.98388671875, 'policy_loss': -0.12278148531913757, 'vf_explained_var': -0.6365931630134583, 'entropy': 14.33677864074707, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1237.88037109375, 'kl': 0.012673246674239635}, 'load_time_ms': 0.697, 'num_steps_sampled': 124800, 'update_time_ms': 2.728}",104,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.90690898895264,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,124800,124800,{},104,28,-97.46309625411676,2025-09-04_17-24-26,6.000664555683574,3651948,1756999466,-84.16640483824541,4297.668802499771,2546,45.78
+cda-server-2,False,4337.651317119598,"{'sample_time_ms': 39889.857, 'num_steps_trained': 126000, 'grad_time_ms': 377.575, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1278.95947265625, 'policy_loss': -0.12983882427215576, 'vf_explained_var': -0.6369035840034485, 'entropy': 14.396255493164062, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1278.85009765625, 'kl': 0.013471391052007675}, 'load_time_ms': 0.715, 'num_steps_sampled': 126000, 'update_time_ms': 2.716}",105,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.98251461982727,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,126000,126000,{},105,25,-97.45426535558042,2025-09-04_17-25-06,6.000003544694097,3651948,1756999506,-85.2422938899056,4337.651317119598,2571,46.3
+cda-server-2,False,4378.0724902153015,"{'sample_time_ms': 39924.688, 'num_steps_trained': 127200, 'grad_time_ms': 375.586, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1178.966552734375, 'policy_loss': -0.1314598172903061, 'vf_explained_var': -0.6940706968307495, 'entropy': 14.413055419921875, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1178.8572998046875, 'kl': 0.014483694918453693}, 'load_time_ms': 0.708, 'num_steps_sampled': 127200, 'update_time_ms': 2.682}",106,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.421173095703125,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,127200,127200,{},106,28,-97.15961541343583,2025-09-04_17-25-46,6.000003544694097,3651948,1756999546,-82.70880042113075,4378.0724902153015,2599,45.08
+cda-server-2,False,4419.78364610672,"{'sample_time_ms': 40123.747, 'num_steps_trained': 128400, 'grad_time_ms': 377.182, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1233.5357666015625, 'policy_loss': -0.12721286714076996, 'vf_explained_var': -0.7277848720550537, 'entropy': 14.43802261352539, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1233.4302978515625, 'kl': 0.014336716383695602}, 'load_time_ms': 0.729, 'num_steps_sampled': 128400, 'update_time_ms': 2.697}",107,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.71115589141846,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,128400,128400,{},107,25,-98.2978558218741,2025-09-04_17-26-28,2.1440509234017577,3651948,1756999588,-84.86409343511512,4419.78364610672,2624,46.06
+cda-server-2,False,4460.092601776123,"{'sample_time_ms': 40046.852, 'num_steps_trained': 129600, 'grad_time_ms': 377.472, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1257.62548828125, 'policy_loss': -0.12686073780059814, 'vf_explained_var': -0.6250575184822083, 'entropy': 14.22714614868164, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1257.5218505859375, 'kl': 0.015301553532481194}, 'load_time_ms': 0.724, 'num_steps_sampled': 129600, 'update_time_ms': 2.693}",108,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.308955669403076,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,129600,129600,{},108,25,-98.2978558218741,2025-09-04_17-27-08,3.0193488702176747,3651948,1756999628,-86.37986970879447,4460.092601776123,2649,46.67
+cda-server-2,False,4500.163435935974,"{'sample_time_ms': 40077.132, 'num_steps_trained': 130800, 'grad_time_ms': 378.158, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1223.0604248046875, 'policy_loss': -0.13701944053173065, 'vf_explained_var': -0.6192005276679993, 'entropy': 14.382627487182617, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1222.9482421875, 'kl': 0.016335275024175644}, 'load_time_ms': 0.723, 'num_steps_sampled': 130800, 'update_time_ms': 2.697}",109,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.070834159851074,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,130800,130800,{},109,26,-98.2978558218741,2025-09-04_17-27-48,3.0193488702176747,3651948,1756999668,-86.45667733670398,4500.163435935974,2675,46.77
+cda-server-2,False,4541.299084186554,"{'sample_time_ms': 40215.232, 'num_steps_trained': 132000, 'grad_time_ms': 378.476, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1271.205322265625, 'policy_loss': -0.13974149525165558, 'vf_explained_var': -0.5736344456672668, 'entropy': 14.173750877380371, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1271.0859375, 'kl': 0.01340469066053629}, 'load_time_ms': 0.725, 'num_steps_sampled': 132000, 'update_time_ms': 2.696}",110,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.135648250579834,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,132000,132000,{},110,27,-99.64931377321552,2025-09-04_17-28-29,3.0193488702176747,3651948,1756999709,-85.65938928896858,4541.299084186554,2702,46.35
+cda-server-2,False,4581.27139878273,"{'sample_time_ms': 40206.484, 'num_steps_trained': 133200, 'grad_time_ms': 378.024, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1239.5079345703125, 'policy_loss': -0.12589646875858307, 'vf_explained_var': -0.6094751954078674, 'entropy': 14.06795883178711, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1239.40234375, 'kl': 0.013416077941656113}, 'load_time_ms': 0.727, 'num_steps_sampled': 133200, 'update_time_ms': 2.708}",111,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.97231459617615,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,133200,133200,{},111,24,-99.64931377321552,2025-09-04_17-29-10,3.0193488702176747,3651948,1756999750,-85.355216547187,4581.27139878273,2726,46.29
+cda-server-2,False,4621.051965236664,"{'sample_time_ms': 40156.241, 'num_steps_trained': 134400, 'grad_time_ms': 376.258, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1339.635009765625, 'policy_loss': -0.1412985920906067, 'vf_explained_var': -0.592364490032196, 'entropy': 14.377864837646484, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1339.51513671875, 'kl': 0.014054707251489162}, 'load_time_ms': 0.718, 'num_steps_sampled': 134400, 'update_time_ms': 2.694}",112,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.780566453933716,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,134400,134400,{},112,25,-99.64931377321552,2025-09-04_17-29-49,-1.849715851617404,3651948,1756999789,-86.26141017081436,4621.051965236664,2751,46.8
+cda-server-2,False,4661.2936680316925,"{'sample_time_ms': 40167.92, 'num_steps_trained': 135600, 'grad_time_ms': 377.197, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1229.363037109375, 'policy_loss': -0.1360459327697754, 'vf_explained_var': -0.5663503408432007, 'entropy': 14.140381813049316, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1229.2481689453125, 'kl': 0.013758447952568531}, 'load_time_ms': 0.727, 'num_steps_sampled': 135600, 'update_time_ms': 2.661}",113,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.24170279502869,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,135600,135600,{},113,28,-99.64931377321552,2025-09-04_17-30-30,-1.849715851617404,3651948,1756999830,-84.13588032368352,4661.2936680316925,2779,45.91
+cda-server-2,False,4701.200223684311,"{'sample_time_ms': 39968.296, 'num_steps_trained': 136800, 'grad_time_ms': 376.908, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1215.121337890625, 'policy_loss': -0.1374468207359314, 'vf_explained_var': -0.622351884841919, 'entropy': 14.042511940002441, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1215.00537109375, 'kl': 0.014193039387464523}, 'load_time_ms': 0.713, 'num_steps_sampled': 136800, 'update_time_ms': 2.603}",114,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.90655565261841,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,136800,136800,{},114,27,-97.28639060982673,2025-09-04_17-31-09,2.000004349898961,3651948,1756999869,-84.21676647970006,4701.200223684311,2806,46.08
+cda-server-2,False,4740.942209243774,"{'sample_time_ms': 39946.04, 'num_steps_trained': 138000, 'grad_time_ms': 375.175, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1228.0399169921875, 'policy_loss': -0.1427999883890152, 'vf_explained_var': -0.6482807993888855, 'entropy': 14.210469245910645, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1227.91748046875, 'kl': 0.013438764959573746}, 'load_time_ms': 0.719, 'num_steps_sampled': 138000, 'update_time_ms': 2.585}",115,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.7419855594635,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,138000,138000,{},115,25,-97.46278423272653,2025-09-04_17-31-49,2.000004349898961,3651948,1756999909,-84.02052648087194,4740.942209243774,2831,46.04
+cda-server-2,False,4780.744037866592,"{'sample_time_ms': 39880.803, 'num_steps_trained': 139200, 'grad_time_ms': 378.501, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1398.448974609375, 'policy_loss': -0.13323861360549927, 'vf_explained_var': -0.7571742534637451, 'entropy': 14.20920467376709, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1398.337646484375, 'kl': 0.014472413808107376}, 'load_time_ms': 0.736, 'num_steps_sampled': 139200, 'update_time_ms': 2.536}",116,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.80182862281799,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,139200,139200,{},116,24,-97.46278423272653,2025-09-04_17-32-29,2.000004349898961,3651948,1756999949,-84.00878538868815,4780.744037866592,2855,46.0
+cda-server-2,False,4820.50555896759,"{'sample_time_ms': 39688.761, 'num_steps_trained': 140400, 'grad_time_ms': 375.63, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1149.515380859375, 'policy_loss': -0.12735703587532043, 'vf_explained_var': -0.6808863878250122, 'entropy': 13.910858154296875, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1149.405517578125, 'kl': 0.01153584010899067}, 'load_time_ms': 0.717, 'num_steps_sampled': 140400, 'update_time_ms': 2.537}",117,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.761521100997925,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,140400,140400,{},117,27,-97.46278423272653,2025-09-04_17-33-09,-2.9198034618987947,3651948,1756999989,-86.9114394525108,4820.50555896759,2882,47.45
+cda-server-2,False,4860.424870014191,"{'sample_time_ms': 39652.325, 'num_steps_trained': 141600, 'grad_time_ms': 373.139, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1287.9305419921875, 'policy_loss': -0.13839703798294067, 'vf_explained_var': -0.6928651332855225, 'entropy': 14.062501907348633, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1287.81640625, 'kl': 0.01598420925438404}, 'load_time_ms': 0.713, 'num_steps_sampled': 141600, 'update_time_ms': 2.516}",118,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.91931104660034,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,141600,141600,{},118,26,-97.46278423272653,2025-09-04_17-33-49,-2.9198034618987947,3651948,1757000029,-86.97735539907637,4860.424870014191,2908,47.41
+cda-server-2,False,4901.108229875565,"{'sample_time_ms': 39714.083, 'num_steps_trained': 142800, 'grad_time_ms': 372.653, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1239.31298828125, 'policy_loss': -0.14445358514785767, 'vf_explained_var': -0.7411688566207886, 'entropy': 14.128597259521484, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1239.1910400390625, 'kl': 0.014916145242750645}, 'load_time_ms': 0.712, 'num_steps_sampled': 142800, 'update_time_ms': 2.522}",119,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.6833598613739,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,142800,142800,{},119,27,-97.12466194862068,2025-09-04_17-34-29,7.805300910529125,3651948,1757000069,-84.39691080163124,4901.108229875565,2935,46.3
+cda-server-2,False,4941.155441761017,"{'sample_time_ms': 39607.559, 'num_steps_trained': 144000, 'grad_time_ms': 370.35, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1206.25048828125, 'policy_loss': -0.12830425798892975, 'vf_explained_var': -0.652219831943512, 'entropy': 14.344528198242188, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1206.142333984375, 'kl': 0.01337106991559267}, 'load_time_ms': 0.712, 'num_steps_sampled': 144000, 'update_time_ms': 2.504}",120,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.04721188545227,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,144000,144000,{},120,26,-97.12466194862068,2025-09-04_17-35-09,7.805300910529125,3651948,1757000109,-82.81832333655902,4941.155441761017,2961,45.62
+cda-server-2,False,4981.022238731384,"{'sample_time_ms': 39599.494, 'num_steps_trained': 145200, 'grad_time_ms': 367.911, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1186.442138671875, 'policy_loss': -0.1330496370792389, 'vf_explained_var': -0.6136595606803894, 'entropy': 14.419291496276855, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1186.3292236328125, 'kl': 0.013351598754525185}, 'load_time_ms': 0.701, 'num_steps_sampled': 145200, 'update_time_ms': 2.481}",121,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.86679697036743,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,145200,145200,{},121,26,-97.12466194862068,2025-09-04_17-35-49,7.805300910529125,3651948,1757000149,-81.44347113403737,4981.022238731384,2987,45.06
+cda-server-2,False,5020.848915338516,"{'sample_time_ms': 39604.063, 'num_steps_trained': 146400, 'grad_time_ms': 367.975, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1180.305419921875, 'policy_loss': -0.13235728442668915, 'vf_explained_var': -0.553139865398407, 'entropy': 14.17344856262207, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1180.1942138671875, 'kl': 0.013966232538223267}, 'load_time_ms': 0.704, 'num_steps_sampled': 146400, 'update_time_ms': 2.469}",122,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.82667660713196,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,146400,146400,{},122,27,-96.53858566931319,2025-09-04_17-36-29,7.805300910529125,3651948,1757000189,-82.05372274573158,5020.848915338516,3014,45.31
+cda-server-2,False,5060.564336061478,"{'sample_time_ms': 39551.678, 'num_steps_trained': 147600, 'grad_time_ms': 367.708, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1200.6090087890625, 'policy_loss': -0.14686201512813568, 'vf_explained_var': -0.4810258448123932, 'entropy': 14.21179485321045, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1200.483154296875, 'kl': 0.01375659555196762}, 'load_time_ms': 0.693, 'num_steps_sampled': 147600, 'update_time_ms': 2.472}",123,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.715420722961426,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,147600,147600,{},123,26,-96.53858566931319,2025-09-04_17-37-09,-1.4890587415309486,3651948,1757000229,-83.17987228195717,5060.564336061478,3040,45.85
+cda-server-2,False,5100.991299629211,"{'sample_time_ms': 39605.376, 'num_steps_trained': 148800, 'grad_time_ms': 365.949, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1039.895751953125, 'policy_loss': -0.14113567769527435, 'vf_explained_var': -0.5060775876045227, 'entropy': 13.987238883972168, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1039.7767333984375, 'kl': 0.014459229074418545}, 'load_time_ms': 0.692, 'num_steps_sampled': 148800, 'update_time_ms': 2.55}",124,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.426963567733765,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,148800,148800,{},124,25,-96.53858566931319,2025-09-04_17-37-49,-1.4890587415309486,3651948,1757000269,-82.2096470112448,5100.991299629211,3065,45.5
+cda-server-2,False,5140.684392690659,"{'sample_time_ms': 39602.107, 'num_steps_trained': 150000, 'grad_time_ms': 364.369, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 1045.89404296875, 'policy_loss': -0.1301415115594864, 'vf_explained_var': -0.6093275547027588, 'entropy': 14.328471183776855, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1045.78515625, 'kl': 0.013961934484541416}, 'load_time_ms': 0.67, 'num_steps_sampled': 150000, 'update_time_ms': 2.543}",125,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.693093061447144,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,150000,150000,{},125,26,-96.53858566931319,2025-09-04_17-38-29,-1.4890587415309486,3651948,1757000309,-83.63141672561046,5140.684392690659,3091,46.22
+cda-server-2,False,5180.632479429245,"{'sample_time_ms': 39617.571, 'num_steps_trained': 151200, 'grad_time_ms': 363.531, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 757.4061279296875, 'policy_loss': -0.13331261277198792, 'vf_explained_var': -0.2395211011171341, 'entropy': 14.12633991241455, 'cur_lr': 4.999999873689376e-05, 'total_loss': 757.2942504882812, 'kl': 0.014148239977657795}, 'load_time_ms': 0.659, 'num_steps_sampled': 151200, 'update_time_ms': 2.538}",126,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.948086738586426,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,151200,151200,{},126,26,-96.40172250854067,2025-09-04_17-39-09,-1.4890587415309486,3651948,1757000349,-83.57069733948921,5180.632479429245,3117,46.48
+cda-server-2,False,5220.544438838959,"{'sample_time_ms': 39629.25, 'num_steps_trained': 152400, 'grad_time_ms': 366.799, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 601.220458984375, 'policy_loss': -0.13246841728687286, 'vf_explained_var': -0.1447088122367859, 'entropy': 14.11307430267334, 'cur_lr': 4.999999873689376e-05, 'total_loss': 601.1065673828125, 'kl': 0.012203659862279892}, 'load_time_ms': 0.661, 'num_steps_sampled': 152400, 'update_time_ms': 2.599}",127,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.911959409713745,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,152400,152400,{},127,28,-96.33489906872681,2025-09-04_17-39-49,6.00000171303838,3651948,1757000389,-82.60059780921091,5220.544438838959,3145,46.14
+cda-server-2,False,5261.096935510635,"{'sample_time_ms': 39690.801, 'num_steps_trained': 153600, 'grad_time_ms': 368.482, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 506.0225830078125, 'policy_loss': -0.12658780813217163, 'vf_explained_var': -0.06294663995504379, 'entropy': 14.06998062133789, 'cur_lr': 4.999999873689376e-05, 'total_loss': 505.9153747558594, 'kl': 0.012763193808495998}, 'load_time_ms': 0.666, 'num_steps_sampled': 153600, 'update_time_ms': 2.658}",128,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.552496671676636,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,153600,153600,{},128,25,-96.33489906872681,2025-09-04_17-40-30,6.00000171303838,3651948,1757000430,-83.05137308127264,5261.096935510635,3170,46.31
+cda-server-2,False,5300.679358243942,"{'sample_time_ms': 39578.543, 'num_steps_trained': 154800, 'grad_time_ms': 370.609, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 431.7116394042969, 'policy_loss': -0.15474864840507507, 'vf_explained_var': -0.01031529251486063, 'entropy': 14.282392501831055, 'cur_lr': 4.999999873689376e-05, 'total_loss': 431.57843017578125, 'kl': 0.01416665967553854}, 'load_time_ms': 0.681, 'num_steps_sampled': 154800, 'update_time_ms': 2.658}",129,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.582422733306885,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,154800,154800,{},129,24,-95.68258263100707,2025-09-04_17-41-09,6.00000171303838,3651948,1757000469,-83.72035979343802,5300.679358243942,3194,46.6
+cda-server-2,False,5340.522296190262,"{'sample_time_ms': 39556.789, 'num_steps_trained': 156000, 'grad_time_ms': 371.925, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 437.48919677734375, 'policy_loss': -0.15160608291625977, 'vf_explained_var': 0.0015125274658203125, 'entropy': 14.29353141784668, 'cur_lr': 4.999999873689376e-05, 'total_loss': 437.3584899902344, 'kl': 0.0137290358543396}, 'load_time_ms': 0.674, 'num_steps_sampled': 156000, 'update_time_ms': 2.657}",130,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.84293794631958,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,156000,156000,{},130,25,-95.68258263100707,2025-09-04_17-41-49,6.00000171303838,3651948,1757000509,-84.13483640434106,5340.522296190262,3219,46.62
+cda-server-2,False,5380.822713375092,"{'sample_time_ms': 39598.8, 'num_steps_trained': 157200, 'grad_time_ms': 373.285, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 529.89306640625, 'policy_loss': -0.13991203904151917, 'vf_explained_var': 0.0049516428261995316, 'entropy': 13.942055702209473, 'cur_lr': 4.999999873689376e-05, 'total_loss': 529.7734375, 'kl': 0.013350359164178371}, 'load_time_ms': 0.672, 'num_steps_sampled': 157200, 'update_time_ms': 2.644}",131,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.30041718482971,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,157200,157200,{},131,26,-98.09153998826689,2025-09-04_17-42-30,0.0009420488181604014,3651948,1757000550,-85.1697245143577,5380.822713375092,3245,47.13
+cda-server-2,False,5421.157953977585,"{'sample_time_ms': 39650.571, 'num_steps_trained': 158400, 'grad_time_ms': 372.43, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 466.9972229003906, 'policy_loss': -0.16029267013072968, 'vf_explained_var': 0.00613213237375021, 'entropy': 13.89816665649414, 'cur_lr': 4.999999873689376e-05, 'total_loss': 466.85931396484375, 'kl': 0.014697965234518051}, 'load_time_ms': 0.67, 'num_steps_sampled': 158400, 'update_time_ms': 2.623}",132,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.335240602493286,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,158400,158400,{},132,28,-98.09153998826689,2025-09-04_17-43-10,0.0009420488181604014,3651948,1757000590,-83.4383318103255,5421.157953977585,3273,46.48
+cda-server-2,False,5461.025522947311,"{'sample_time_ms': 39664.748, 'num_steps_trained': 159600, 'grad_time_ms': 373.541, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 435.2093200683594, 'policy_loss': -0.14789816737174988, 'vf_explained_var': 0.018822822719812393, 'entropy': 13.995210647583008, 'cur_lr': 4.999999873689376e-05, 'total_loss': 435.0834045410156, 'kl': 0.014483905397355556}, 'load_time_ms': 0.672, 'num_steps_sampled': 159600, 'update_time_ms': 2.6}",133,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.86756896972656,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,159600,159600,{},133,27,-98.09153998826689,2025-09-04_17-43-50,0.0009420488181604014,3651948,1757000630,-80.48768962719447,5461.025522947311,3300,45.15
+cda-server-2,False,5502.38499712944,"{'sample_time_ms': 39756.354, 'num_steps_trained': 160800, 'grad_time_ms': 375.214, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 497.5989685058594, 'policy_loss': -0.1495353728532791, 'vf_explained_var': 0.03133540600538254, 'entropy': 14.031764030456543, 'cur_lr': 4.999999873689376e-05, 'total_loss': 497.4719543457031, 'kl': 0.014864559285342693}, 'load_time_ms': 0.676, 'num_steps_sampled': 160800, 'update_time_ms': 2.575}",134,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.359474182128906,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,160800,160800,{},134,28,-96.25872951173972,2025-09-04_17-44-31,-5.1776342299954425,3651948,1757000671,-77.20826072261913,5502.38499712944,3328,43.67
+cda-server-2,False,5542.784331083298,"{'sample_time_ms': 39823.63, 'num_steps_trained': 162000, 'grad_time_ms': 378.518, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 494.53619384765625, 'policy_loss': -0.15687929093837738, 'vf_explained_var': 0.006207088474184275, 'entropy': 13.837095260620117, 'cur_lr': 4.999999873689376e-05, 'total_loss': 494.3984375, 'kl': 0.012575294822454453}, 'load_time_ms': 0.688, 'num_steps_sampled': 162000, 'update_time_ms': 2.586}",135,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.39933395385742,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,162000,162000,{},135,30,-96.70286184158135,2025-09-04_17-45-12,8.000000400002254,3651948,1757000712,-75.40999040364656,5542.784331083298,3358,42.73
+cda-server-2,False,5582.566870212555,"{'sample_time_ms': 39807.303, 'num_steps_trained': 163200, 'grad_time_ms': 378.286, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 429.1787109375, 'policy_loss': -0.13850900530815125, 'vf_explained_var': 0.004715243820101023, 'entropy': 13.751395225524902, 'cur_lr': 4.999999873689376e-05, 'total_loss': 429.0587463378906, 'kl': 0.01221616193652153}, 'load_time_ms': 0.693, 'num_steps_sampled': 163200, 'update_time_ms': 2.603}",136,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.7825391292572,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,163200,163200,{},136,24,-96.70286184158135,2025-09-04_17-45-51,8.000000400002254,3651948,1757000751,-77.38409159796784,5582.566870212555,3382,43.6
+cda-server-2,False,5622.550188064575,"{'sample_time_ms': 39815.366, 'num_steps_trained': 164400, 'grad_time_ms': 377.402, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 519.8641357421875, 'policy_loss': -0.15484751760959625, 'vf_explained_var': 9.56919466261752e-05, 'entropy': 14.056158065795898, 'cur_lr': 4.999999873689376e-05, 'total_loss': 519.7298583984375, 'kl': 0.013529930263757706}, 'load_time_ms': 0.695, 'num_steps_sampled': 164400, 'update_time_ms': 2.568}",137,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.983317852020264,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,164400,164400,{},137,25,-96.70286184158135,2025-09-04_17-46-31,8.000000400002254,3651948,1757000791,-78.37530479396784,5622.550188064575,3407,44.37
+cda-server-2,False,5662.401572704315,"{'sample_time_ms': 39744.196, 'num_steps_trained': 165600, 'grad_time_ms': 378.524, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 511.96624755859375, 'policy_loss': -0.14721018075942993, 'vf_explained_var': 0.022053804248571396, 'entropy': 13.871037483215332, 'cur_lr': 4.999999873689376e-05, 'total_loss': 511.83843994140625, 'kl': 0.012805236503481865}, 'load_time_ms': 0.686, 'num_steps_sampled': 165600, 'update_time_ms': 2.52}",138,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.85138463973999,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,165600,165600,{},138,29,-96.70286184158135,2025-09-04_17-47-11,6.000004628464221,3651948,1757000831,-80.62368275993127,5662.401572704315,3436,45.52
+cda-server-2,False,5702.67907166481,"{'sample_time_ms': 39815.884, 'num_steps_trained': 166800, 'grad_time_ms': 376.383, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 462.9251403808594, 'policy_loss': -0.14543704688549042, 'vf_explained_var': 0.013895895332098007, 'entropy': 13.724479675292969, 'cur_lr': 4.999999873689376e-05, 'total_loss': 462.7996826171875, 'kl': 0.013188743032515049}, 'load_time_ms': 0.678, 'num_steps_sampled': 166800, 'update_time_ms': 2.513}",139,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.277498960494995,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,166800,166800,{},139,26,-96.3706927890899,2025-09-04_17-47-51,6.000004628464221,3651948,1757000871,-82.57511411226803,5702.67907166481,3462,46.38
+cda-server-2,False,5742.838150262833,"{'sample_time_ms': 39847.8, 'num_steps_trained': 168000, 'grad_time_ms': 376.118, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 468.1904296875, 'policy_loss': -0.12903155386447906, 'vf_explained_var': 0.010596592910587788, 'entropy': 13.66910457611084, 'cur_lr': 4.999999873689376e-05, 'total_loss': 468.0818786621094, 'kl': 0.013512490317225456}, 'load_time_ms': 0.673, 'num_steps_sampled': 168000, 'update_time_ms': 2.509}",140,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.15907859802246,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,168000,168000,{},140,25,-96.3706927890899,2025-09-04_17-48-32,4.00041902346528,3651948,1757000912,-81.06491087767878,5742.838150262833,3487,45.78
+cda-server-2,False,5783.118670940399,"{'sample_time_ms': 39845.818, 'num_steps_trained': 169200, 'grad_time_ms': 376.048, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 519.5208129882812, 'policy_loss': -0.14394643902778625, 'vf_explained_var': 0.007588174659758806, 'entropy': 13.70052433013916, 'cur_lr': 4.999999873689376e-05, 'total_loss': 519.397705078125, 'kl': 0.01370695885270834}, 'load_time_ms': 0.678, 'num_steps_sampled': 169200, 'update_time_ms': 2.517}",141,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.28052067756653,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,169200,169200,{},141,30,-94.9174978999614,2025-09-04_17-49-12,4.00041902346528,3651948,1757000952,-78.30766103408874,5783.118670940399,3517,44.28
+cda-server-2,False,5823.950105428696,"{'sample_time_ms': 39894.033, 'num_steps_trained': 170400, 'grad_time_ms': 377.402, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 533.2041015625, 'policy_loss': -0.15218709409236908, 'vf_explained_var': 0.027479078620672226, 'entropy': 14.154834747314453, 'cur_lr': 4.999999873689376e-05, 'total_loss': 533.073486328125, 'kl': 0.014139831066131592}, 'load_time_ms': 0.687, 'num_steps_sampled': 170400, 'update_time_ms': 2.548}",142,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.83143448829651,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,170400,170400,{},142,28,-95.80786370762291,2025-09-04_17-49-53,2.000266023377246,3651948,1757000993,-75.77111625323947,5823.950105428696,3545,43.22
+cda-server-2,False,5864.083309173584,"{'sample_time_ms': 39920.658, 'num_steps_trained': 171600, 'grad_time_ms': 377.249, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 447.897216796875, 'policy_loss': -0.14685262739658356, 'vf_explained_var': 0.012203852646052837, 'entropy': 13.77534008026123, 'cur_lr': 4.999999873689376e-05, 'total_loss': 447.7716979980469, 'kl': 0.014064337126910686}, 'load_time_ms': 0.698, 'num_steps_sampled': 171600, 'update_time_ms': 2.559}",143,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.133203744888306,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,171600,171600,{},143,28,-95.80786370762291,2025-09-04_17-50-33,2.000266023377246,3651948,1757001033,-74.91504953685117,5864.083309173584,3573,42.82
+cda-server-2,False,5904.289658069611,"{'sample_time_ms': 39806.058, 'num_steps_trained': 172800, 'grad_time_ms': 376.511, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 439.82000732421875, 'policy_loss': -0.15573416650295258, 'vf_explained_var': 0.010575804859399796, 'entropy': 13.51430892944336, 'cur_lr': 4.999999873689376e-05, 'total_loss': 439.6846008300781, 'kl': 0.013372303918004036}, 'load_time_ms': 0.689, 'num_steps_sampled': 172800, 'update_time_ms': 2.545}",144,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.20634889602661,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,172800,172800,{},144,26,-96.95658790248578,2025-09-04_17-51-13,2.000266023377246,3651948,1757001073,-77.47728638204703,5904.289658069611,3599,43.86
+cda-server-2,False,5944.542104482651,"{'sample_time_ms': 39793.73, 'num_steps_trained': 174000, 'grad_time_ms': 374.167, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 489.4002685546875, 'policy_loss': -0.15363189578056335, 'vf_explained_var': 0.010992010124027729, 'entropy': 13.861942291259766, 'cur_lr': 4.999999873689376e-05, 'total_loss': 489.2677307128906, 'kl': 0.013880307786166668}, 'load_time_ms': 0.683, 'num_steps_sampled': 174000, 'update_time_ms': 2.551}",145,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.25244641304016,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,174000,174000,{},145,30,-96.95658790248578,2025-09-04_17-51-53,6.00050672631794,3651948,1757001113,-77.48228222365948,5944.542104482651,3629,43.74
+cda-server-2,False,5984.474422693253,"{'sample_time_ms': 39808.244, 'num_steps_trained': 175200, 'grad_time_ms': 374.642, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 483.8934326171875, 'policy_loss': -0.16133642196655273, 'vf_explained_var': 0.004873269237577915, 'entropy': 13.626518249511719, 'cur_lr': 4.999999873689376e-05, 'total_loss': 483.7530517578125, 'kl': 0.013784998096525669}, 'load_time_ms': 0.681, 'num_steps_sampled': 175200, 'update_time_ms': 2.542}",146,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.93231821060181,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,175200,175200,{},146,25,-96.95658790248578,2025-09-04_17-52-33,6.00050672631794,3651948,1757001153,-77.00879523596886,5984.474422693253,3654,43.39
+cda-server-2,False,6024.323261499405,"{'sample_time_ms': 39797.488, 'num_steps_trained': 176400, 'grad_time_ms': 371.987, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 489.1770324707031, 'policy_loss': -0.1577053815126419, 'vf_explained_var': 0.02425098419189453, 'entropy': 13.7898530960083, 'cur_lr': 4.999999873689376e-05, 'total_loss': 489.03948974609375, 'kl': 0.013261471875011921}, 'load_time_ms': 0.676, 'num_steps_sampled': 176400, 'update_time_ms': 2.547}",147,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.848838806152344,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,176400,176400,{},147,28,-96.95658790248578,2025-09-04_17-53-13,6.00050672631794,3651948,1757001193,-76.72782283086792,6024.323261499405,3682,43.29
+cda-server-2,False,6064.125794410706,"{'sample_time_ms': 39792.766, 'num_steps_trained': 177600, 'grad_time_ms': 371.849, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 526.368408203125, 'policy_loss': -0.14639145135879517, 'vf_explained_var': 0.020639657974243164, 'entropy': 13.701428413391113, 'cur_lr': 4.999999873689376e-05, 'total_loss': 526.2421875, 'kl': 0.013283911161124706}, 'load_time_ms': 0.686, 'num_steps_sampled': 177600, 'update_time_ms': 2.554}",148,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.80253291130066,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,177600,177600,{},148,27,-96.31788008641165,2025-09-04_17-53-53,6.00050672631794,3651948,1757001233,-77.02193331284515,6064.125794410706,3709,43.53
+cda-server-2,False,6104.521768093109,"{'sample_time_ms': 39804.917, 'num_steps_trained': 178800, 'grad_time_ms': 371.567, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 534.6456298828125, 'policy_loss': -0.14344368875026703, 'vf_explained_var': 0.032623257488012314, 'entropy': 13.884628295898438, 'cur_lr': 4.999999873689376e-05, 'total_loss': 534.522705078125, 'kl': 0.013491793535649776}, 'load_time_ms': 0.68, 'num_steps_sampled': 178800, 'update_time_ms': 2.547}",149,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.395973682403564,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,178800,178800,{},149,27,-96.31788008641165,2025-09-04_17-54-34,4.000905065352485,3651948,1757001274,-77.59475084319799,6104.521768093109,3736,44.08
+cda-server-2,False,6144.585580587387,"{'sample_time_ms': 39797.247, 'num_steps_trained': 180000, 'grad_time_ms': 369.718, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 589.8328857421875, 'policy_loss': -0.15737102925777435, 'vf_explained_var': 0.0029666093178093433, 'entropy': 13.93885326385498, 'cur_lr': 4.999999873689376e-05, 'total_loss': 589.6962280273438, 'kl': 0.013605907559394836}, 'load_time_ms': 0.682, 'num_steps_sampled': 180000, 'update_time_ms': 2.553}",150,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.063812494277954,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,180000,180000,{},150,28,-96.31788008641165,2025-09-04_17-55-14,4.000905065352485,3651948,1757001314,-75.6539729494931,6144.585580587387,3764,43.33
+cda-server-2,False,6185.331671714783,"{'sample_time_ms': 39844.811, 'num_steps_trained': 181200, 'grad_time_ms': 368.735, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 573.21142578125, 'policy_loss': -0.1537049263715744, 'vf_explained_var': 0.009622778743505478, 'entropy': 13.354726791381836, 'cur_lr': 4.999999873689376e-05, 'total_loss': 573.0790405273438, 'kl': 0.01405271515250206}, 'load_time_ms': 0.673, 'num_steps_sampled': 181200, 'update_time_ms': 2.562}",151,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.74609112739563,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,181200,181200,{},151,33,-96.06327662108316,2025-09-04_17-55-54,6.000005684032507,3651948,1757001354,-73.6287210840856,6185.331671714783,3797,42.29
+cda-server-2,False,6225.614793539047,"{'sample_time_ms': 39791.345, 'num_steps_trained': 182400, 'grad_time_ms': 367.327, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 563.124755859375, 'policy_loss': -0.14891427755355835, 'vf_explained_var': 0.00879173818975687, 'entropy': 13.944217681884766, 'cur_lr': 4.999999873689376e-05, 'total_loss': 562.9971923828125, 'kl': 0.014039833098649979}, 'load_time_ms': 0.658, 'num_steps_sampled': 182400, 'update_time_ms': 2.626}",152,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.283121824264526,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,182400,182400,{},152,29,-96.06327662108316,2025-09-04_17-56-35,6.000005684032507,3651948,1757001395,-69.42951983223737,6225.614793539047,3826,40.17
+cda-server-2,False,6263.704438686371,"{'sample_time_ms': 39589.201, 'num_steps_trained': 183600, 'grad_time_ms': 365.196, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 451.091796875, 'policy_loss': -0.16401776671409607, 'vf_explained_var': 0.008112185634672642, 'entropy': 13.623714447021484, 'cur_lr': 4.999999873689376e-05, 'total_loss': 450.9493103027344, 'kl': 0.014164643362164497}, 'load_time_ms': 0.653, 'num_steps_sampled': 183600, 'update_time_ms': 2.607}",153,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",38.08964514732361,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,183600,183600,{},153,27,-96.06327662108316,2025-09-04_17-57-13,6.000005684032507,3651948,1757001433,-72.39619258771732,6263.704438686371,3853,41.43
+cda-server-2,False,6297.63969874382,"{'sample_time_ms': 38960.78, 'num_steps_trained': 184800, 'grad_time_ms': 366.522, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 426.76007080078125, 'policy_loss': -0.1499679982662201, 'vf_explained_var': 0.019961846992373466, 'entropy': 14.01634407043457, 'cur_lr': 4.999999873689376e-05, 'total_loss': 426.6302185058594, 'kl': 0.01324660424143076}, 'load_time_ms': 0.675, 'num_steps_sampled': 184800, 'update_time_ms': 2.571}",154,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.93526005744934,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,184800,184800,{},154,27,-96.02294955272997,2025-09-04_17-57-47,6.000005684032507,3651948,1757001467,-73.46839023207444,6297.63969874382,3880,42.25
+cda-server-2,False,6330.8898866176605,"{'sample_time_ms': 38258.875, 'num_steps_trained': 186000, 'grad_time_ms': 368.158, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 463.51904296875, 'policy_loss': -0.14390847086906433, 'vf_explained_var': 0.0144983334466815, 'entropy': 13.602646827697754, 'cur_lr': 4.999999873689376e-05, 'total_loss': 463.39495849609375, 'kl': 0.013063447549939156}, 'load_time_ms': 0.683, 'num_steps_sampled': 186000, 'update_time_ms': 2.576}",155,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.25018787384033,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,186000,186000,{},155,28,-96.02294955272997,2025-09-04_17-58-20,6.000153967687247,3651948,1757001500,-74.1287173082405,6330.8898866176605,3908,42.73
+cda-server-2,False,6365.358276844025,"{'sample_time_ms': 37712.506, 'num_steps_trained': 187200, 'grad_time_ms': 368.12, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 447.3106384277344, 'policy_loss': -0.1546049267053604, 'vf_explained_var': 0.0173814557492733, 'entropy': 13.743790626525879, 'cur_lr': 4.999999873689376e-05, 'total_loss': 447.1781311035156, 'kl': 0.014562149532139301}, 'load_time_ms': 0.677, 'num_steps_sampled': 187200, 'update_time_ms': 2.598}",156,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.468390226364136,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,187200,187200,{},156,29,-96.02294955272997,2025-09-04_17-58-55,6.000153967687247,3651948,1757001535,-73.961188285357,6365.358276844025,3937,42.69
+cda-server-2,False,6398.991594314575,"{'sample_time_ms': 37090.133, 'num_steps_trained': 188400, 'grad_time_ms': 368.892, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 432.24102783203125, 'policy_loss': -0.16239456832408905, 'vf_explained_var': 0.02992052584886551, 'entropy': 13.820674896240234, 'cur_lr': 4.999999873689376e-05, 'total_loss': 432.09716796875, 'kl': 0.012198535725474358}, 'load_time_ms': 0.68, 'num_steps_sampled': 188400, 'update_time_ms': 2.579}",157,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.63331747055054,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,188400,188400,{},157,28,-94.76394572856147,2025-09-04_17-59-28,6.000153967687247,3651948,1757001568,-73.47760643679179,6398.991594314575,3965,42.53
+cda-server-2,False,6432.306711435318,"{'sample_time_ms': 36440.832, 'num_steps_trained': 189600, 'grad_time_ms': 369.403, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 460.80865478515625, 'policy_loss': -0.15355131030082703, 'vf_explained_var': 0.014817522838711739, 'entropy': 13.547548294067383, 'cur_lr': 4.999999873689376e-05, 'total_loss': 460.6759948730469, 'kl': 0.013771760277450085}, 'load_time_ms': 0.688, 'num_steps_sampled': 189600, 'update_time_ms': 2.583}",158,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.3151171207428,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,189600,189600,{},158,27,-94.76394572856147,2025-09-04_18-00-02,4.000566881068873,3651948,1757001602,-74.17728514692062,6432.306711435318,3992,42.67
+cda-server-2,False,6465.709766387939,"{'sample_time_ms': 35739.848, 'num_steps_trained': 190800, 'grad_time_ms': 371.059, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 503.6580810546875, 'policy_loss': -0.15453101694583893, 'vf_explained_var': 0.01870148628950119, 'entropy': 13.329124450683594, 'cur_lr': 4.999999873689376e-05, 'total_loss': 503.5256042480469, 'kl': 0.014533232897520065}, 'load_time_ms': 0.693, 'num_steps_sampled': 190800, 'update_time_ms': 2.617}",159,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.40305495262146,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,190800,190800,{},159,31,-95.1787811615368,2025-09-04_18-00-35,4.000566881068873,3651948,1757001635,-73.62973317615167,6465.709766387939,4023,42.36
+cda-server-2,False,6499.890940904617,"{'sample_time_ms': 35151.71, 'num_steps_trained': 192000, 'grad_time_ms': 370.927, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 504.2874450683594, 'policy_loss': -0.16084225475788116, 'vf_explained_var': 0.008933212608098984, 'entropy': 13.373307228088379, 'cur_lr': 4.999999873689376e-05, 'total_loss': 504.1483154296875, 'kl': 0.014286703430116177}, 'load_time_ms': 0.698, 'num_steps_sampled': 192000, 'update_time_ms': 2.6}",160,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.181174516677856,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,192000,192000,{},160,28,-95.1787811615368,2025-09-04_18-01-09,4.000566881068873,3651948,1757001669,-71.18900937259428,6499.890940904617,4051,41.31
+cda-server-2,False,6533.306238651276,"{'sample_time_ms': 34417.313, 'num_steps_trained': 193200, 'grad_time_ms': 372.291, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 443.4478759765625, 'policy_loss': -0.14680147171020508, 'vf_explained_var': 0.030300889164209366, 'entropy': 13.579971313476562, 'cur_lr': 4.999999873689376e-05, 'total_loss': 443.3230285644531, 'kl': 0.014476616866886616}, 'load_time_ms': 0.704, 'num_steps_sampled': 193200, 'update_time_ms': 2.579}",161,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.415297746658325,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,193200,193200,{},161,29,-95.1787811615368,2025-09-04_18-01-43,5.039762891774004,3651948,1757001703,-69.76854035672953,6533.306238651276,4080,40.67
+cda-server-2,False,6566.520789146423,"{'sample_time_ms': 33708.97, 'num_steps_trained': 194400, 'grad_time_ms': 373.746, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 498.4832458496094, 'policy_loss': -0.15090115368366241, 'vf_explained_var': 0.02782423608005047, 'entropy': 13.286617279052734, 'cur_lr': 4.999999873689376e-05, 'total_loss': 498.3533020019531, 'kl': 0.013792970217764378}, 'load_time_ms': 0.731, 'num_steps_sampled': 194400, 'update_time_ms': 2.501}",162,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.214550495147705,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,194400,194400,{},162,27,-95.11817286038946,2025-09-04_18-02-16,5.039762891774004,3651948,1757001736,-72.1282965410242,6566.520789146423,4107,41.9
+cda-server-2,False,6600.906383752823,"{'sample_time_ms': 33337.011, 'num_steps_trained': 195600, 'grad_time_ms': 375.233, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 498.46148681640625, 'policy_loss': -0.15607160329818726, 'vf_explained_var': 0.01455751433968544, 'entropy': 13.587542533874512, 'cur_lr': 4.999999873689376e-05, 'total_loss': 498.3251953125, 'kl': 0.012981893494725227}, 'load_time_ms': 0.73, 'num_steps_sampled': 195600, 'update_time_ms': 2.558}",163,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.385594606399536,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,195600,195600,{},163,30,-94.88398095419217,2025-09-04_18-02-50,5.039762891774004,3651948,1757001770,-72.87153451901149,6600.906383752823,4137,42.22
+cda-server-2,False,6634.513481616974,"{'sample_time_ms': 33304.768, 'num_steps_trained': 196800, 'grad_time_ms': 374.63, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 469.6560363769531, 'policy_loss': -0.15397673845291138, 'vf_explained_var': 0.018685288727283478, 'entropy': 13.264029502868652, 'cur_lr': 4.999999873689376e-05, 'total_loss': 469.5223388671875, 'kl': 0.013345572166144848}, 'load_time_ms': 0.728, 'num_steps_sampled': 196800, 'update_time_ms': 2.584}",164,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.607097864151,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,196800,196800,{},164,27,-96.75490613689337,2025-09-04_18-03-24,4.000333877647177,3651948,1757001804,-74.19180616935152,6634.513481616974,4164,42.63
+cda-server-2,False,6667.584945678711,"{'sample_time_ms': 33289.103, 'num_steps_trained': 198000, 'grad_time_ms': 372.48, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 494.9625549316406, 'policy_loss': -0.15671184659004211, 'vf_explained_var': 0.012010018341243267, 'entropy': 13.140623092651367, 'cur_lr': 4.999999873689376e-05, 'total_loss': 494.8278503417969, 'kl': 0.014488577842712402}, 'load_time_ms': 0.71, 'num_steps_sampled': 198000, 'update_time_ms': 2.588}",165,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.07146406173706,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,198000,198000,{},165,28,-96.75490613689337,2025-09-04_18-03-57,4.000333877647177,3651948,1757001837,-73.97899578124846,6667.584945678711,4192,42.41
+cda-server-2,False,6700.747930765152,"{'sample_time_ms': 33159.297, 'num_steps_trained': 199200, 'grad_time_ms': 371.752, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 479.74163818359375, 'policy_loss': -0.16004471480846405, 'vf_explained_var': 0.022694991901516914, 'entropy': 13.23586368560791, 'cur_lr': 4.999999873689376e-05, 'total_loss': 479.6025390625, 'kl': 0.01381033007055521}, 'load_time_ms': 0.719, 'num_steps_sampled': 199200, 'update_time_ms': 2.576}",166,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.16298508644104,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,199200,199200,{},166,27,-96.75490613689337,2025-09-04_18-04-30,4.000038700747987,3651948,1757001870,-74.60556796545686,6700.747930765152,4219,42.7
+cda-server-2,False,6734.210085391998,"{'sample_time_ms': 33141.034, 'num_steps_trained': 200400, 'grad_time_ms': 372.896, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 481.43072509765625, 'policy_loss': -0.16376127302646637, 'vf_explained_var': 0.02091793902218342, 'entropy': 12.862247467041016, 'cur_lr': 4.999999873689376e-05, 'total_loss': 481.28900146484375, 'kl': 0.014525890350341797}, 'load_time_ms': 0.715, 'num_steps_sampled': 200400, 'update_time_ms': 2.6}",167,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.46215462684631,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,200400,200400,{},167,28,-96.75490613689337,2025-09-04_18-05-04,4.000213607189957,3651948,1757001904,-75.69941167396468,6734.210085391998,4247,43.31
+cda-server-2,False,6768.151931285858,"{'sample_time_ms': 33205.106, 'num_steps_trained': 201600, 'grad_time_ms': 371.545, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 431.3326721191406, 'policy_loss': -0.15331611037254333, 'vf_explained_var': 0.0383436493575573, 'entropy': 13.03227424621582, 'cur_lr': 4.999999873689376e-05, 'total_loss': 431.20166015625, 'kl': 0.014662904664874077}, 'load_time_ms': 0.701, 'num_steps_sampled': 201600, 'update_time_ms': 2.606}",168,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.94184589385986,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,201600,201600,{},168,28,-96.37598652716197,2025-09-04_18-05-38,6.000130978520583,3651948,1757001938,-75.83625850182565,6768.151931285858,4275,43.39
+cda-server-2,False,6801.593436717987,"{'sample_time_ms': 33208.048, 'num_steps_trained': 202800, 'grad_time_ms': 372.423, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 445.61370849609375, 'policy_loss': -0.15942586958408356, 'vf_explained_var': 0.006676660850644112, 'entropy': 13.269512176513672, 'cur_lr': 4.999999873689376e-05, 'total_loss': 445.47357177734375, 'kl': 0.012679451145231724}, 'load_time_ms': 0.715, 'num_steps_sampled': 202800, 'update_time_ms': 2.582}",169,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.441505432128906,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,202800,202800,{},169,29,-96.63690140637001,2025-09-04_18-06-11,6.000130978520583,3651948,1757001971,-74.06123125540654,6801.593436717987,4304,42.65
+cda-server-2,False,6834.95436167717,"{'sample_time_ms': 33122.278, 'num_steps_trained': 204000, 'grad_time_ms': 376.1, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 462.88909912109375, 'policy_loss': -0.14820978045463562, 'vf_explained_var': 0.022156503051519394, 'entropy': 12.96584415435791, 'cur_lr': 4.999999873689376e-05, 'total_loss': 462.76019287109375, 'kl': 0.012699018232524395}, 'load_time_ms': 0.736, 'num_steps_sampled': 204000, 'update_time_ms': 2.628}",170,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.36092495918274,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,204000,204000,{},170,26,-96.63690140637001,2025-09-04_18-06-44,6.000130978520583,3651948,1757002004,-76.51463005896723,6834.95436167717,4330,43.76
+cda-server-2,False,6868.499571561813,"{'sample_time_ms': 33135.07, 'num_steps_trained': 205200, 'grad_time_ms': 376.271, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 477.64007568359375, 'policy_loss': -0.14878112077713013, 'vf_explained_var': 0.024289535358548164, 'entropy': 13.268444061279297, 'cur_lr': 4.999999873689376e-05, 'total_loss': 477.5120544433594, 'kl': 0.013624078594148159}, 'load_time_ms': 0.738, 'num_steps_sampled': 205200, 'update_time_ms': 2.64}",171,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.545209884643555,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,205200,205200,{},171,32,-96.63690140637001,2025-09-04_18-07-18,8.000069988583551,3651948,1757002038,-73.74854474290508,6868.499571561813,4362,42.39
+cda-server-2,False,6901.951131343842,"{'sample_time_ms': 33159.103, 'num_steps_trained': 206400, 'grad_time_ms': 376.037, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 530.1824951171875, 'policy_loss': -0.16158553957939148, 'vf_explained_var': 0.020052360370755196, 'entropy': 13.253538131713867, 'cur_lr': 4.999999873689376e-05, 'total_loss': 530.0426025390625, 'kl': 0.014295194298028946}, 'load_time_ms': 0.717, 'num_steps_sampled': 206400, 'update_time_ms': 2.634}",172,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.4515597820282,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,206400,206400,{},172,32,-95.13871117544228,2025-09-04_18-07-52,8.000069988583551,3651948,1757002072,-68.18772978706642,6901.951131343842,4394,39.92
+cda-server-2,False,6935.213408470154,"{'sample_time_ms': 33045.654, 'num_steps_trained': 207600, 'grad_time_ms': 377.213, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 471.45257568359375, 'policy_loss': -0.16813132166862488, 'vf_explained_var': 0.016370773315429688, 'entropy': 13.099279403686523, 'cur_lr': 4.999999873689376e-05, 'total_loss': 471.30706787109375, 'kl': 0.01488409098237753}, 'load_time_ms': 0.714, 'num_steps_sampled': 207600, 'update_time_ms': 2.573}",173,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.262277126312256,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,207600,207600,{},173,29,-95.06222590109232,2025-09-04_18-08-25,8.000069988583551,3651948,1757002105,-66.36500553024902,6935.213408470154,4423,39.06
+cda-server-2,False,6968.752385139465,"{'sample_time_ms': 33038.375, 'num_steps_trained': 208800, 'grad_time_ms': 377.726, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 489.8381042480469, 'policy_loss': -0.14878961443901062, 'vf_explained_var': 0.023384928703308105, 'entropy': 13.308280944824219, 'cur_lr': 4.999999873689376e-05, 'total_loss': 489.7087707519531, 'kl': 0.01280286256223917}, 'load_time_ms': 0.711, 'num_steps_sampled': 208800, 'update_time_ms': 2.573}",174,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.53897666931152,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,208800,208800,{},174,30,-93.55236840867342,2025-09-04_18-08-58,8.000109714939725,3651948,1757002138,-65.7865687842101,6968.752385139465,4453,38.8
+cda-server-2,False,7003.800618886948,"{'sample_time_ms': 33234.718, 'num_steps_trained': 210000, 'grad_time_ms': 379.053, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 441.1793518066406, 'policy_loss': -0.14626182615756989, 'vf_explained_var': 0.043350908905267715, 'entropy': 13.320549964904785, 'cur_lr': 4.999999873689376e-05, 'total_loss': 441.05364990234375, 'kl': 0.013550628907978535}, 'load_time_ms': 0.718, 'num_steps_sampled': 210000, 'update_time_ms': 2.562}",175,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",35.0482337474823,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,210000,210000,{},175,31,-93.82099905489598,2025-09-04_18-09-33,8.000109714939725,3651948,1757002173,-68.23131268739769,7003.800618886948,4484,40.02
+cda-server-2,False,7037.028426885605,"{'sample_time_ms': 33242.547, 'num_steps_trained': 211200, 'grad_time_ms': 377.756, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 464.3078308105469, 'policy_loss': -0.15784205496311188, 'vf_explained_var': 0.021135879680514336, 'entropy': 13.235689163208008, 'cur_lr': 4.999999873689376e-05, 'total_loss': 464.1710205078125, 'kl': 0.013846870511770248}, 'load_time_ms': 0.724, 'num_steps_sampled': 211200, 'update_time_ms': 2.543}",176,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.22780799865723,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,211200,211200,{},176,27,-93.82099905489598,2025-09-04_18-10-07,8.000109714939725,3651948,1757002207,-71.104299140994,7037.028426885605,4511,41.46
+cda-server-2,False,7070.750869989395,"{'sample_time_ms': 33268.921, 'num_steps_trained': 212400, 'grad_time_ms': 377.48, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 520.8988647460938, 'policy_loss': -0.14671167731285095, 'vf_explained_var': 0.02725188620388508, 'entropy': 13.615344047546387, 'cur_lr': 4.999999873689376e-05, 'total_loss': 520.772705078125, 'kl': 0.01349978893995285}, 'load_time_ms': 0.724, 'num_steps_sampled': 212400, 'update_time_ms': 2.5}",177,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.72244310379028,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,212400,212400,{},177,30,-94.34293914620837,2025-09-04_18-10-40,8.000109714939725,3651948,1757002240,-67.67515993134072,7070.750869989395,4541,40.06
+cda-server-2,False,7105.745890855789,"{'sample_time_ms': 33374.45, 'num_steps_trained': 213600, 'grad_time_ms': 377.206, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 487.3653869628906, 'policy_loss': -0.1492527723312378, 'vf_explained_var': 0.019449617713689804, 'entropy': 13.086959838867188, 'cur_lr': 4.999999873689376e-05, 'total_loss': 487.2371520996094, 'kl': 0.013814833015203476}, 'load_time_ms': 0.728, 'num_steps_sampled': 213600, 'update_time_ms': 2.473}",178,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.99502086639404,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,213600,213600,{},178,29,-94.34293914620837,2025-09-04_18-11-15,8.000000429594232,3651948,1757002275,-68.10825736939901,7105.745890855789,4570,40.38
+cda-server-2,False,7139.0679042339325,"{'sample_time_ms': 33363.25, 'num_steps_trained': 214800, 'grad_time_ms': 376.485, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 482.8249206542969, 'policy_loss': -0.16203825175762177, 'vf_explained_var': 0.027035892009735107, 'entropy': 12.97227954864502, 'cur_lr': 4.999999873689376e-05, 'total_loss': 482.6842346191406, 'kl': 0.014075911603868008}, 'load_time_ms': 0.711, 'num_steps_sampled': 214800, 'update_time_ms': 2.498}",179,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.32201337814331,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,214800,214800,{},179,27,-95.53219191490898,2025-09-04_18-11-49,6.00005790227189,3651948,1757002309,-71.26538427002218,7139.0679042339325,4597,41.74
+cda-server-2,False,7172.459059238434,"{'sample_time_ms': 33369.89, 'num_steps_trained': 216000, 'grad_time_ms': 372.917, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 475.3916015625, 'policy_loss': -0.16252401471138, 'vf_explained_var': 0.03283761069178581, 'entropy': 12.606663703918457, 'cur_lr': 4.999999873689376e-05, 'total_loss': 475.2503356933594, 'kl': 0.014003436081111431}, 'load_time_ms': 0.684, 'num_steps_sampled': 216000, 'update_time_ms': 2.474}",180,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.39115500450134,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,216000,216000,{},180,29,-95.53219191490898,2025-09-04_18-12-22,6.00005790227189,3651948,1757002342,-73.30657166827612,7172.459059238434,4626,42.73
+cda-server-2,False,7206.650817155838,"{'sample_time_ms': 33436.797, 'num_steps_trained': 217200, 'grad_time_ms': 370.619, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 506.8238525390625, 'policy_loss': -0.1711304485797882, 'vf_explained_var': 0.027346935123205185, 'entropy': 12.956379890441895, 'cur_lr': 4.999999873689376e-05, 'total_loss': 506.6749572753906, 'kl': 0.01460947748273611}, 'load_time_ms': 0.685, 'num_steps_sampled': 217200, 'update_time_ms': 2.53}",181,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.191757917404175,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,217200,217200,{},181,31,-95.53219191490898,2025-09-04_18-12-56,8.000000440074153,3651948,1757002376,-70.12293610759806,7206.650817155838,4657,41.11
+cda-server-2,False,7240.108816862106,"{'sample_time_ms': 33437.607, 'num_steps_trained': 218400, 'grad_time_ms': 370.449, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 408.64678955078125, 'policy_loss': -0.15670305490493774, 'vf_explained_var': 0.03384535014629364, 'entropy': 13.208443641662598, 'cur_lr': 4.999999873689376e-05, 'total_loss': 408.5120544433594, 'kl': 0.014430741779506207}, 'load_time_ms': 0.684, 'num_steps_sampled': 218400, 'update_time_ms': 2.524}",182,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.45799970626831,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,218400,218400,{},182,27,-94.45431820690045,2025-09-04_18-13-30,8.000000440074153,3651948,1757002410,-70.88982028946353,7240.108816862106,4684,41.66
+cda-server-2,False,7273.374994516373,"{'sample_time_ms': 33439.775, 'num_steps_trained': 219600, 'grad_time_ms': 368.62, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 541.272705078125, 'policy_loss': -0.1531658172607422, 'vf_explained_var': 0.011464131996035576, 'entropy': 12.912820816040039, 'cur_lr': 4.999999873689376e-05, 'total_loss': 541.1414184570312, 'kl': 0.014355059713125229}, 'load_time_ms': 0.685, 'num_steps_sampled': 219600, 'update_time_ms': 2.562}",183,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.26617765426636,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,219600,219600,{},183,28,-95.21932780078414,2025-09-04_18-14-03,8.000000440074153,3651948,1757002443,-71.28978875642596,7273.374994516373,4712,41.93
+cda-server-2,False,7307.477123260498,"{'sample_time_ms': 33497.021, 'num_steps_trained': 220800, 'grad_time_ms': 367.646, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 559.41015625, 'policy_loss': -0.1447771191596985, 'vf_explained_var': 0.022654525935649872, 'entropy': 12.68217945098877, 'cur_lr': 4.999999873689376e-05, 'total_loss': 559.286865234375, 'kl': 0.014179195277392864}, 'load_time_ms': 0.669, 'num_steps_sampled': 220800, 'update_time_ms': 2.602}",184,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.102128744125366,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,220800,220800,{},184,32,-95.21932780078414,2025-09-04_18-14-37,6.0000256872259685,3651948,1757002477,-68.85681651830801,7307.477123260498,4744,40.73
+cda-server-2,False,7341.242619752884,"{'sample_time_ms': 33368.626, 'num_steps_trained': 222000, 'grad_time_ms': 367.768, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 474.8887939453125, 'policy_loss': -0.17067062854766846, 'vf_explained_var': 0.029077045619487762, 'entropy': 12.845396041870117, 'cur_lr': 4.999999873689376e-05, 'total_loss': 474.73822021484375, 'kl': 0.013275043107569218}, 'load_time_ms': 0.665, 'num_steps_sampled': 222000, 'update_time_ms': 2.562}",185,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.765496492385864,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,222000,222000,{},185,31,-95.21932780078414,2025-09-04_18-15-11,6.0000256872259685,3651948,1757002511,-68.1395418292209,7341.242619752884,4775,40.19
+cda-server-2,False,7376.1856777668,"{'sample_time_ms': 33539.186, 'num_steps_trained': 223200, 'grad_time_ms': 368.711, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 506.6676940917969, 'policy_loss': -0.16878332197666168, 'vf_explained_var': 0.018831439316272736, 'entropy': 12.581832885742188, 'cur_lr': 4.999999873689376e-05, 'total_loss': 506.5218200683594, 'kl': 0.015099719166755676}, 'load_time_ms': 0.655, 'num_steps_sampled': 223200, 'update_time_ms': 2.574}",186,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.943058013916016,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,223200,223200,{},186,27,-95.83189376358192,2025-09-04_18-15-46,6.000001728989278,3651948,1757002546,-69.54346150398968,7376.1856777668,4802,40.66
+cda-server-2,False,7409.781413793564,"{'sample_time_ms': 33527.805, 'num_steps_trained': 224400, 'grad_time_ms': 367.409, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 461.66259765625, 'policy_loss': -0.15208211541175842, 'vf_explained_var': 0.024997631087899208, 'entropy': 13.037174224853516, 'cur_lr': 4.999999873689376e-05, 'total_loss': 461.5320129394531, 'kl': 0.014166755601763725}, 'load_time_ms': 0.661, 'num_steps_sampled': 224400, 'update_time_ms': 2.574}",187,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.595736026763916,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,224400,224400,{},187,32,-95.83189376358192,2025-09-04_18-16-20,2.0001916476801034,3651948,1757002580,-70.26994574194738,7409.781413793564,4834,40.89
+cda-server-2,False,7443.122005939484,"{'sample_time_ms': 33364.201, 'num_steps_trained': 225600, 'grad_time_ms': 365.665, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 431.95404052734375, 'policy_loss': -0.16554684937000275, 'vf_explained_var': 0.03322778642177582, 'entropy': 12.807843208312988, 'cur_lr': 4.999999873689376e-05, 'total_loss': 431.8093566894531, 'kl': 0.013717424124479294}, 'load_time_ms': 0.659, 'num_steps_sampled': 225600, 'update_time_ms': 2.571}",188,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.3405921459198,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,225600,225600,{},188,26,-95.83189376358192,2025-09-04_18-16-53,1.7789538112237562,3651948,1757002613,-70.59327772699594,7443.122005939484,4860,41.15
+cda-server-2,False,7476.492438316345,"{'sample_time_ms': 33368.417, 'num_steps_trained': 226800, 'grad_time_ms': 366.289, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 455.0348205566406, 'policy_loss': -0.15835967659950256, 'vf_explained_var': 0.03563562408089638, 'entropy': 12.52796745300293, 'cur_lr': 4.999999873689376e-05, 'total_loss': 454.89776611328125, 'kl': 0.014046341180801392}, 'load_time_ms': 0.663, 'num_steps_sampled': 226800, 'update_time_ms': 2.535}",189,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.37043237686157,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,226800,226800,{},189,28,-95.40900359037315,2025-09-04_18-17-26,1.7789538112237562,3651948,1757002646,-72.52180366277011,7476.492438316345,4888,42.0
+cda-server-2,False,7509.6339473724365,"{'sample_time_ms': 33340.973, 'num_steps_trained': 228000, 'grad_time_ms': 368.748, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 447.1451721191406, 'policy_loss': -0.1697927862405777, 'vf_explained_var': 0.04534539952874184, 'entropy': 12.65049934387207, 'cur_lr': 4.999999873689376e-05, 'total_loss': 446.9970397949219, 'kl': 0.014240365475416183}, 'load_time_ms': 0.672, 'num_steps_sampled': 228000, 'update_time_ms': 2.524}",190,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.14150905609131,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,228000,228000,{},190,29,-93.99593714288171,2025-09-04_18-18-00,4.000255539698237,3651948,1757002680,-73.6454396869818,7509.6339473724365,4917,42.72
+cda-server-2,False,7543.576703071594,"{'sample_time_ms': 33313.244, 'num_steps_trained': 229200, 'grad_time_ms': 371.637, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 435.88616943359375, 'policy_loss': -0.16152003407478333, 'vf_explained_var': 0.028656788170337677, 'entropy': 12.934611320495605, 'cur_lr': 4.999999873689376e-05, 'total_loss': 435.74530029296875, 'kl': 0.013617919757962227}, 'load_time_ms': 0.675, 'num_steps_sampled': 229200, 'update_time_ms': 2.463}",191,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.942755699157715,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,229200,229200,{},191,28,-93.99593714288171,2025-09-04_18-18-34,4.000257012599587,3651948,1757002714,-73.94141473983446,7543.576703071594,4945,43.03
+cda-server-2,False,7578.093836784363,"{'sample_time_ms': 33416.772, 'num_steps_trained': 230400, 'grad_time_ms': 373.977, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 457.99609375, 'policy_loss': -0.16294731199741364, 'vf_explained_var': 0.02682061307132244, 'entropy': 13.026744842529297, 'cur_lr': 4.999999873689376e-05, 'total_loss': 457.8548278808594, 'kl': 0.01424330659210682}, 'load_time_ms': 0.682, 'num_steps_sampled': 230400, 'update_time_ms': 2.478}",192,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.517133712768555,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,230400,230400,{},192,27,-95.5472888620737,2025-09-04_18-19-08,4.000257012599587,3651948,1757002748,-73.16517307924585,7578.093836784363,4972,42.85
+cda-server-2,False,7611.424062490463,"{'sample_time_ms': 33420.426, 'num_steps_trained': 231600, 'grad_time_ms': 376.692, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 509.8204345703125, 'policy_loss': -0.16708210110664368, 'vf_explained_var': 0.019589563831686974, 'entropy': 12.410161972045898, 'cur_lr': 4.999999873689376e-05, 'total_loss': 509.67681884765625, 'kl': 0.015443297103047371}, 'load_time_ms': 0.701, 'num_steps_sampled': 231600, 'update_time_ms': 2.48}",193,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.330225706100464,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,231600,231600,{},193,29,-95.5472888620737,2025-09-04_18-19-41,4.000257012599587,3651948,1757002781,-72.8662915684726,7611.424062490463,5001,42.7
+cda-server-2,False,7644.909424304962,"{'sample_time_ms': 33358.604, 'num_steps_trained': 232800, 'grad_time_ms': 376.924, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 483.5562744140625, 'policy_loss': -0.15306442975997925, 'vf_explained_var': 0.02964412420988083, 'entropy': 12.852642059326172, 'cur_lr': 4.999999873689376e-05, 'total_loss': 483.4244384765625, 'kl': 0.013986443169414997}, 'load_time_ms': 0.712, 'num_steps_sampled': 232800, 'update_time_ms': 2.419}",194,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.4853618144989,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,232800,232800,{},194,24,-95.5472888620737,2025-09-04_18-20-15,4.000017886379702,3651948,1757002815,-76.33770108549413,7644.909424304962,5025,44.22
+cda-server-2,False,7679.199877500534,"{'sample_time_ms': 33411.757, 'num_steps_trained': 234000, 'grad_time_ms': 376.213, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 506.1232604980469, 'policy_loss': -0.1687338948249817, 'vf_explained_var': 0.03247503936290741, 'entropy': 12.751094818115234, 'cur_lr': 4.999999873689376e-05, 'total_loss': 505.9776916503906, 'kl': 0.015258345752954483}, 'load_time_ms': 0.708, 'num_steps_sampled': 234000, 'update_time_ms': 2.455}",195,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.2904531955719,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,234000,234000,{},195,31,-96.21196756648438,2025-09-04_18-20-49,4.000017886379702,3651948,1757002849,-74.40327719050362,7679.199877500534,5056,43.19
+cda-server-2,False,7713.31763625145,"{'sample_time_ms': 33330.199, 'num_steps_trained': 235200, 'grad_time_ms': 375.18, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 442.1346435546875, 'policy_loss': -0.16684409976005554, 'vf_explained_var': 0.031153075397014618, 'entropy': 12.824676513671875, 'cur_lr': 4.999999873689376e-05, 'total_loss': 441.98858642578125, 'kl': 0.013674840331077576}, 'load_time_ms': 0.716, 'num_steps_sampled': 235200, 'update_time_ms': 2.505}",196,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.11775875091553,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,235200,235200,{},196,30,-96.21196756648438,2025-09-04_18-21-23,6.002070167660171,3651948,1757002883,-72.27055099438103,7713.31763625145,5086,42.12
+cda-server-2,False,7746.8098311424255,"{'sample_time_ms': 33318.688, 'num_steps_trained': 236400, 'grad_time_ms': 376.25, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 504.9436340332031, 'policy_loss': -0.1752660572528839, 'vf_explained_var': 0.052433982491493225, 'entropy': 12.876564979553223, 'cur_lr': 4.999999873689376e-05, 'total_loss': 504.7928161621094, 'kl': 0.01613185554742813}, 'load_time_ms': 0.715, 'num_steps_sampled': 236400, 'update_time_ms': 2.528}",197,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.49219489097595,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,236400,236400,{},197,34,-96.21196756648438,2025-09-04_18-21-57,8.000242692043646,3651948,1757002917,-65.35815674165814,7746.8098311424255,5120,39.21
+cda-server-2,False,7780.365607500076,"{'sample_time_ms': 33339.802, 'num_steps_trained': 237600, 'grad_time_ms': 376.558, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 416.38665771484375, 'policy_loss': -0.1583482027053833, 'vf_explained_var': 0.008243918418884277, 'entropy': 13.000116348266602, 'cur_lr': 4.999999873689376e-05, 'total_loss': 416.25006103515625, 'kl': 0.01429493073374033}, 'load_time_ms': 0.714, 'num_steps_sampled': 237600, 'update_time_ms': 2.613}",198,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.55577635765076,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,237600,237600,{},198,25,-96.21196756648438,2025-09-04_18-22-30,8.000242692043646,3651948,1757002950,-68.68605460087782,7780.365607500076,5145,41.06
+cda-server-2,False,7813.889029741287,"{'sample_time_ms': 33355.593, 'num_steps_trained': 238800, 'grad_time_ms': 376.104, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 456.09765625, 'policy_loss': -0.15889257192611694, 'vf_explained_var': 0.02178768254816532, 'entropy': 12.65239429473877, 'cur_lr': 4.999999873689376e-05, 'total_loss': 455.9606628417969, 'kl': 0.014413093216717243}, 'load_time_ms': 0.714, 'num_steps_sampled': 238800, 'update_time_ms': 2.603}",199,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.52342224121094,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,238800,238800,{},199,27,-95.60804949833211,2025-09-04_18-23-04,8.000242692043646,3651948,1757002984,-70.32519611813332,7813.889029741287,5172,41.79
+cda-server-2,False,7846.953207492828,"{'sample_time_ms': 33347.681, 'num_steps_trained': 240000, 'grad_time_ms': 376.3, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 485.8211669921875, 'policy_loss': -0.1690763682126999, 'vf_explained_var': 0.02998235449194908, 'entropy': 12.54977798461914, 'cur_lr': 4.999999873689376e-05, 'total_loss': 485.6736755371094, 'kl': 0.014191006310284138}, 'load_time_ms': 0.703, 'num_steps_sampled': 240000, 'update_time_ms': 2.589}",200,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.06417775154114,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,240000,240000,{},200,30,-95.60804949833211,2025-09-04_18-23-37,1.0952821156691535,3651948,1757003017,-69.21935034442157,7846.953207492828,5202,41.4
+cda-server-2,False,7881.645069122314,"{'sample_time_ms': 33423.48, 'num_steps_trained': 241200, 'grad_time_ms': 375.39, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 438.78692626953125, 'policy_loss': -0.16150593757629395, 'vf_explained_var': 0.02985469438135624, 'entropy': 12.441953659057617, 'cur_lr': 4.999999873689376e-05, 'total_loss': 438.64642333984375, 'kl': 0.013840895146131516}, 'load_time_ms': 0.694, 'num_steps_sampled': 241200, 'update_time_ms': 2.612}",201,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.691861629486084,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,241200,241200,{},201,28,-95.60804949833211,2025-09-04_18-24-12,0.0010491070470486363,3651948,1757003052,-72.67710039707534,7881.645069122314,5230,43.11
+cda-server-2,False,7915.277950763702,"{'sample_time_ms': 33336.976, 'num_steps_trained': 242400, 'grad_time_ms': 373.51, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 528.7056274414062, 'policy_loss': -0.164224773645401, 'vf_explained_var': 0.013893438503146172, 'entropy': 12.260029792785645, 'cur_lr': 4.999999873689376e-05, 'total_loss': 528.563232421875, 'kl': 0.014393393881618977}, 'load_time_ms': 0.692, 'num_steps_sampled': 242400, 'update_time_ms': 2.605}",202,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.63288164138794,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,242400,242400,{},202,34,-93.56909818892126,2025-09-04_18-24-46,8.000011402220146,3651948,1757003086,-65.56545058732408,7915.277950763702,5264,39.49
+cda-server-2,False,7948.64150595665,"{'sample_time_ms': 33341.681, 'num_steps_trained': 243600, 'grad_time_ms': 372.193, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 504.7474365234375, 'policy_loss': -0.14668802917003632, 'vf_explained_var': 0.030628588050603867, 'entropy': 12.595661163330078, 'cur_lr': 4.999999873689376e-05, 'total_loss': 504.6220703125, 'kl': 0.014047231525182724}, 'load_time_ms': 0.673, 'num_steps_sampled': 243600, 'update_time_ms': 2.623}",203,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.36355519294739,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,243600,243600,{},203,29,-93.56909818892126,2025-09-04_18-25-19,8.000011402220146,3651948,1757003119,-65.31403438116699,7948.64150595665,5293,39.22
+cda-server-2,False,7982.057063341141,"{'sample_time_ms': 33334.772, 'num_steps_trained': 244800, 'grad_time_ms': 372.076, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 450.298583984375, 'policy_loss': -0.16483943164348602, 'vf_explained_var': 0.06417058408260345, 'entropy': 12.538618087768555, 'cur_lr': 4.999999873689376e-05, 'total_loss': 450.15496826171875, 'kl': 0.013958992436528206}, 'load_time_ms': 0.67, 'num_steps_sampled': 244800, 'update_time_ms': 2.644}",204,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.41555738449097,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,244800,244800,{},204,33,-93.19348353972086,2025-09-04_18-25-52,8.000032462470926,3651948,1757003152,-63.282461117190714,7982.057063341141,5326,38.18
+cda-server-2,False,8015.771010875702,"{'sample_time_ms': 33278.228, 'num_steps_trained': 246000, 'grad_time_ms': 371.012, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 446.9205322265625, 'policy_loss': -0.15768620371818542, 'vf_explained_var': 0.036962032318115234, 'entropy': 12.585735321044922, 'cur_lr': 4.999999873689376e-05, 'total_loss': 446.7854309082031, 'kl': 0.01488898042589426}, 'load_time_ms': 0.671, 'num_steps_sampled': 246000, 'update_time_ms': 2.653}",205,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.71394753456116,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,246000,246000,{},205,28,-93.63480907981032,2025-09-04_18-26-26,8.000032462470926,3651948,1757003186,-65.35059535319327,8015.771010875702,5354,39.43
+cda-server-2,False,8049.1763389110565,"{'sample_time_ms': 33207.42, 'num_steps_trained': 247200, 'grad_time_ms': 370.664, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 475.2734375, 'policy_loss': -0.15967623889446259, 'vf_explained_var': 0.033230237662792206, 'entropy': 12.491169929504395, 'cur_lr': 4.999999873689376e-05, 'total_loss': 475.1365966796875, 'kl': 0.015001079998910427}, 'load_time_ms': 0.659, 'num_steps_sampled': 247200, 'update_time_ms': 2.602}",206,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.405328035354614,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,247200,247200,{},206,29,-95.0799406703004,2025-09-04_18-26-59,8.000032462470926,3651948,1757003219,-67.66203927731692,8049.1763389110565,5383,40.71
+cda-server-2,False,8083.296813249588,"{'sample_time_ms': 33269.992, 'num_steps_trained': 248400, 'grad_time_ms': 370.995, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 446.5125427246094, 'policy_loss': -0.17522785067558289, 'vf_explained_var': 0.03150990977883339, 'entropy': 12.790533065795898, 'cur_lr': 4.999999873689376e-05, 'total_loss': 446.3612060546875, 'kl': 0.015740180388092995}, 'load_time_ms': 0.67, 'num_steps_sampled': 248400, 'update_time_ms': 2.575}",207,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.120474338531494,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,248400,248400,{},207,29,-95.0799406703004,2025-09-04_18-27-34,8.000032462470926,3651948,1757003254,-68.76872612698419,8083.296813249588,5412,41.03
+cda-server-2,False,8116.955354452133,"{'sample_time_ms': 33280.061, 'num_steps_trained': 249600, 'grad_time_ms': 371.251, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 547.6825561523438, 'policy_loss': -0.1566251516342163, 'vf_explained_var': 0.02517450600862503, 'entropy': 12.358968734741211, 'cur_lr': 4.999999873689376e-05, 'total_loss': 547.5484008789062, 'kl': 0.014785553328692913}, 'load_time_ms': 0.675, 'num_steps_sampled': 249600, 'update_time_ms': 2.515}",208,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.658541202545166,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,249600,249600,{},208,29,-95.0799406703004,2025-09-04_18-28-07,4.000291038650434,3651948,1757003287,-68.98315664091089,8116.955354452133,5441,41.1
+cda-server-2,False,8151.842911720276,"{'sample_time_ms': 33417.949, 'num_steps_trained': 250800, 'grad_time_ms': 369.804, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 447.9426574707031, 'policy_loss': -0.16055484116077423, 'vf_explained_var': 0.016253961250185966, 'entropy': 12.735525131225586, 'cur_lr': 4.999999873689376e-05, 'total_loss': 447.80487060546875, 'kl': 0.015008926391601562}, 'load_time_ms': 0.671, 'num_steps_sampled': 250800, 'update_time_ms': 2.51}",209,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.8875572681427,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,250800,250800,{},209,28,-93.77040153773555,2025-09-04_18-28-42,4.000291038650434,3651948,1757003322,-70.58435784835198,8151.842911720276,5469,41.72
+cda-server-2,False,8185.894082307816,"{'sample_time_ms': 33518.732, 'num_steps_trained': 252000, 'grad_time_ms': 367.734, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 510.38629150390625, 'policy_loss': -0.16351114213466644, 'vf_explained_var': 0.025241592898964882, 'entropy': 12.427091598510742, 'cur_lr': 4.999999873689376e-05, 'total_loss': 510.2453308105469, 'kl': 0.014884104020893574}, 'load_time_ms': 0.687, 'num_steps_sampled': 252000, 'update_time_ms': 2.513}",210,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.05117058753967,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,252000,252000,{},210,33,-93.77040153773555,2025-09-04_18-29-16,6.000473203830543,3651948,1757003356,-68.06821898003427,8185.894082307816,5502,40.71
+cda-server-2,False,8219.247455835342,"{'sample_time_ms': 33386.554, 'num_steps_trained': 253200, 'grad_time_ms': 366.039, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 449.7999267578125, 'policy_loss': -0.1619112491607666, 'vf_explained_var': 0.03780033811926842, 'entropy': 12.094733238220215, 'cur_lr': 4.999999873689376e-05, 'total_loss': 449.66009521484375, 'kl': 0.014554371125996113}, 'load_time_ms': 0.687, 'num_steps_sampled': 253200, 'update_time_ms': 2.46}",211,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.353373527526855,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,253200,253200,{},211,32,-93.6279369839979,2025-09-04_18-29-50,8.000000667069283,3651948,1757003390,-65.20491987533221,8219.247455835342,5534,39.3
+cda-server-2,False,8252.84744977951,"{'sample_time_ms': 33385.07, 'num_steps_trained': 254400, 'grad_time_ms': 364.229, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 497.3307800292969, 'policy_loss': -0.16077612340450287, 'vf_explained_var': 0.035886500030756, 'entropy': 12.381339073181152, 'cur_lr': 4.999999873689376e-05, 'total_loss': 497.1937255859375, 'kl': 0.015604168176651001}, 'load_time_ms': 0.679, 'num_steps_sampled': 254400, 'update_time_ms': 2.486}",212,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.59999394416809,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,254400,254400,{},212,30,-93.6279369839979,2025-09-04_18-30-23,8.000000667069283,3651948,1757003423,-62.45875354009866,8252.84744977951,5564,38.05
+cda-server-2,False,8287.260428905487,"{'sample_time_ms': 33490.409, 'num_steps_trained': 255600, 'grad_time_ms': 363.844, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 512.883056640625, 'policy_loss': -0.17092293500900269, 'vf_explained_var': 0.027442097663879395, 'entropy': 12.155288696289062, 'cur_lr': 4.999999873689376e-05, 'total_loss': 512.7354736328125, 'kl': 0.015318612568080425}, 'load_time_ms': 0.677, 'num_steps_sampled': 255600, 'update_time_ms': 2.464}",213,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.41297912597656,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,255600,255600,{},213,31,-93.6279369839979,2025-09-04_18-30-58,8.000000667069283,3651948,1757003458,-61.96758689936211,8287.260428905487,5595,37.75
+cda-server-2,False,8320.60078382492,"{'sample_time_ms': 33482.986, 'num_steps_trained': 256800, 'grad_time_ms': 363.767, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 459.37249755859375, 'policy_loss': -0.16169892251491547, 'vf_explained_var': 0.02173599973320961, 'entropy': 12.374711036682129, 'cur_lr': 4.999999873689376e-05, 'total_loss': 459.2326354980469, 'kl': 0.014371867291629314}, 'load_time_ms': 0.677, 'num_steps_sampled': 256800, 'update_time_ms': 2.455}",214,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.340354919433594,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,256800,256800,{},214,33,-93.6279369839979,2025-09-04_18-31-31,6.000034402189836,3651948,1757003491,-63.38828660104511,8320.60078382492,5628,38.32
+cda-server-2,False,8354.387178182602,"{'sample_time_ms': 33488.327, 'num_steps_trained': 258000, 'grad_time_ms': 365.69, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 504.76953125, 'policy_loss': -0.1607033908367157, 'vf_explained_var': 0.014909658581018448, 'entropy': 12.613929748535156, 'cur_lr': 4.999999873689376e-05, 'total_loss': 504.6307373046875, 'kl': 0.014423470944166183}, 'load_time_ms': 0.691, 'num_steps_sampled': 258000, 'update_time_ms': 2.411}",215,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.786394357681274,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,258000,258000,{},215,32,-93.63772402806477,2025-09-04_18-32-05,6.000006885068439,3651948,1757003525,-62.11349040983944,8354.387178182602,5660,37.78
+cda-server-2,False,8388.01570558548,"{'sample_time_ms': 33508.098, 'num_steps_trained': 259200, 'grad_time_ms': 368.138, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 484.1788330078125, 'policy_loss': -0.16928161680698395, 'vf_explained_var': 0.028671972453594208, 'entropy': 12.11899471282959, 'cur_lr': 4.999999873689376e-05, 'total_loss': 484.0320129394531, 'kl': 0.01483107265084982}, 'load_time_ms': 0.699, 'num_steps_sampled': 259200, 'update_time_ms': 2.44}",216,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.62852740287781,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,259200,259200,{},216,30,-94.87738322979997,2025-09-04_18-32-39,6.000033280248075,3651948,1757003559,-61.03114630598341,8388.01570558548,5690,37.16
+cda-server-2,False,8421.57034111023,"{'sample_time_ms': 33450.914, 'num_steps_trained': 260400, 'grad_time_ms': 368.741, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 474.89111328125, 'policy_loss': -0.16506989300251007, 'vf_explained_var': 0.017899474129080772, 'entropy': 12.297295570373535, 'cur_lr': 4.999999873689376e-05, 'total_loss': 474.7478942871094, 'kl': 0.014392748475074768}, 'load_time_ms': 0.683, 'num_steps_sampled': 260400, 'update_time_ms': 2.465}",217,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.554635524749756,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,260400,260400,{},217,36,-94.87738322979997,2025-09-04_18-33-12,6.000033280248075,3651948,1757003592,-58.55471967135243,8421.57034111023,5726,36.21
+cda-server-2,False,8455.177167654037,"{'sample_time_ms': 33444.751, 'num_steps_trained': 261600, 'grad_time_ms': 369.745, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 457.5904846191406, 'policy_loss': -0.15295682847499847, 'vf_explained_var': 0.02529967576265335, 'entropy': 12.191746711730957, 'cur_lr': 4.999999873689376e-05, 'total_loss': 457.4587097167969, 'kl': 0.013913111761212349}, 'load_time_ms': 0.69, 'num_steps_sampled': 261600, 'update_time_ms': 2.452}",218,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.60682654380798,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,261600,261600,{},218,30,-94.87738322979997,2025-09-04_18-33-46,6.000033280248075,3651948,1757003626,-59.80524415553662,8455.177167654037,5756,36.98
+cda-server-2,False,8488.736039161682,"{'sample_time_ms': 33312.104, 'num_steps_trained': 262800, 'grad_time_ms': 369.461, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 502.29730224609375, 'policy_loss': -0.17624081671237946, 'vf_explained_var': 0.02473224513232708, 'entropy': 12.325740814208984, 'cur_lr': 4.999999873689376e-05, 'total_loss': 502.14306640625, 'kl': 0.01449984684586525}, 'load_time_ms': 0.687, 'num_steps_sampled': 262800, 'update_time_ms': 2.463}",219,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.55887150764465,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,262800,262800,{},219,32,-92.68477240724081,2025-09-04_18-34-19,6.000001307149937,3651948,1757003659,-58.989134541468914,8488.736039161682,5788,36.65
+cda-server-2,False,8522.322809696198,"{'sample_time_ms': 33263.505, 'num_steps_trained': 264000, 'grad_time_ms': 371.579, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 494.7518005371094, 'policy_loss': -0.17339009046554565, 'vf_explained_var': 0.019748859107494354, 'entropy': 11.994256973266602, 'cur_lr': 4.999999873689376e-05, 'total_loss': 494.6004638671875, 'kl': 0.014561583288013935}, 'load_time_ms': 0.681, 'num_steps_sampled': 264000, 'update_time_ms': 2.506}",220,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.58677053451538,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,264000,264000,{},220,33,-92.68477240724081,2025-09-04_18-34-53,6.000001307149937,3651948,1757003693,-61.583950956835054,8522.322809696198,5821,37.68
+cda-server-2,False,8556.517718076706,"{'sample_time_ms': 33347.762, 'num_steps_trained': 265200, 'grad_time_ms': 371.472, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 480.7444763183594, 'policy_loss': -0.17422175407409668, 'vf_explained_var': 0.03855053707957268, 'entropy': 12.05868911743164, 'cur_lr': 4.999999873689376e-05, 'total_loss': 480.5936279296875, 'kl': 0.015407336875796318}, 'load_time_ms': 0.685, 'num_steps_sampled': 265200, 'update_time_ms': 2.58}",221,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.19490838050842,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,265200,265200,{},221,34,-92.68477240724081,2025-09-04_18-35-27,6.000001307149937,3651948,1757003727,-58.61488066202075,8556.517718076706,5855,36.22
+cda-server-2,False,8590.381103038788,"{'sample_time_ms': 33373.788, 'num_steps_trained': 266400, 'grad_time_ms': 371.794, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 465.3026123046875, 'policy_loss': -0.16076049208641052, 'vf_explained_var': 0.013659258373081684, 'entropy': 12.263897895812988, 'cur_lr': 4.999999873689376e-05, 'total_loss': 465.1667175292969, 'kl': 0.016368364915251732}, 'load_time_ms': 0.695, 'num_steps_sampled': 266400, 'update_time_ms': 2.548}",222,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.86338496208191,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,266400,266400,{},222,34,-92.65719252126992,2025-09-04_18-36-01,8.000000506173045,3651948,1757003761,-57.24653802731454,8590.381103038788,5889,35.82
+cda-server-2,False,8624.816487312317,"{'sample_time_ms': 33374.658, 'num_steps_trained': 267600, 'grad_time_ms': 373.171, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 450.2386474609375, 'policy_loss': -0.17680014669895172, 'vf_explained_var': 0.023019777610898018, 'entropy': 11.894817352294922, 'cur_lr': 4.999999873689376e-05, 'total_loss': 450.0855407714844, 'kl': 0.015569154173135757}, 'load_time_ms': 0.705, 'num_steps_sampled': 267600, 'update_time_ms': 2.51}",223,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.43538427352905,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,267600,267600,{},223,34,-92.8331001949819,2025-09-04_18-36-36,8.000000506173045,3651948,1757003796,-56.41039121202906,8624.816487312317,5923,35.46
+cda-server-2,False,8657.887679338455,"{'sample_time_ms': 33349.505, 'num_steps_trained': 268800, 'grad_time_ms': 371.394, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 537.3810424804688, 'policy_loss': -0.16604220867156982, 'vf_explained_var': 0.01993529684841633, 'entropy': 11.660624504089355, 'cur_lr': 4.999999873689376e-05, 'total_loss': 537.23876953125, 'kl': 0.015647679567337036}, 'load_time_ms': 0.701, 'num_steps_sampled': 268800, 'update_time_ms': 2.556}",224,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.071192026138306,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,268800,268800,{},224,29,-93.81865513420475,2025-09-04_18-37-09,8.000000506173045,3651948,1757003829,-59.83576275009328,8657.887679338455,5952,36.98
+cda-server-2,False,8691.416977643967,"{'sample_time_ms': 33326.098, 'num_steps_trained': 270000, 'grad_time_ms': 369.077, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 508.33740234375, 'policy_loss': -0.16329897940158844, 'vf_explained_var': 0.02697630040347576, 'entropy': 12.403926849365234, 'cur_lr': 4.999999873689376e-05, 'total_loss': 508.1960754394531, 'kl': 0.014454166404902935}, 'load_time_ms': 0.695, 'num_steps_sampled': 270000, 'update_time_ms': 2.584}",225,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.529298305511475,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,270000,270000,{},225,31,-93.81865513420475,2025-09-04_18-37-42,8.000000406666924,3651948,1757003862,-62.80773614513645,8691.416977643967,5983,38.18
+cda-server-2,False,8725.05351448059,"{'sample_time_ms': 33329.061, 'num_steps_trained': 271200, 'grad_time_ms': 366.944, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 487.5612487792969, 'policy_loss': -0.16774672269821167, 'vf_explained_var': 0.01808946020901203, 'entropy': 12.464456558227539, 'cur_lr': 4.999999873689376e-05, 'total_loss': 487.41497802734375, 'kl': 0.014172756113111973}, 'load_time_ms': 0.682, 'num_steps_sampled': 271200, 'update_time_ms': 2.571}",226,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.636536836624146,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,271200,271200,{},226,30,-93.81865513420475,2025-09-04_18-38-16,8.000000433543274,3651948,1757003896,-64.92589373827938,8725.05351448059,6013,39.31
+cda-server-2,False,8758.123383283615,"{'sample_time_ms': 33281.457, 'num_steps_trained': 272400, 'grad_time_ms': 366.033, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 469.1771240234375, 'policy_loss': -0.17603828012943268, 'vf_explained_var': 0.030873127281665802, 'entropy': 11.629398345947266, 'cur_lr': 4.999999873689376e-05, 'total_loss': 469.0252380371094, 'kl': 0.015914278104901314}, 'load_time_ms': 0.684, 'num_steps_sampled': 272400, 'update_time_ms': 2.578}",227,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.06986880302429,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,272400,272400,{},227,32,-92.0961907308189,2025-09-04_18-38-49,8.000000433543274,3651948,1757003929,-65.39002211193822,8758.123383283615,6045,39.64
+cda-server-2,False,8791.669610738754,"{'sample_time_ms': 33276.525, 'num_steps_trained': 273600, 'grad_time_ms': 364.904, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 480.46771240234375, 'policy_loss': -0.15781445801258087, 'vf_explained_var': 0.02216174267232418, 'entropy': 11.83214282989502, 'cur_lr': 4.999999873689376e-05, 'total_loss': 480.3331298828125, 'kl': 0.015275244601070881}, 'load_time_ms': 0.674, 'num_steps_sampled': 273600, 'update_time_ms': 2.595}",228,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.54622745513916,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,273600,273600,{},228,33,-92.50693433778561,2025-09-04_18-39-22,8.000000433543274,3651948,1757003962,-62.27324965840894,8791.669610738754,6078,37.92
+cda-server-2,False,8825.53575849533,"{'sample_time_ms': 33305.359, 'num_steps_trained': 274800, 'grad_time_ms': 366.757, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 526.8289794921875, 'policy_loss': -0.16418081521987915, 'vf_explained_var': 0.01841430552303791, 'entropy': 11.820015907287598, 'cur_lr': 4.999999873689376e-05, 'total_loss': 526.6889038085938, 'kl': 0.015894444659352303}, 'load_time_ms': 0.681, 'num_steps_sampled': 274800, 'update_time_ms': 2.626}",229,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.86614775657654,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,274800,274800,{},229,33,-93.84268985082524,2025-09-04_18-39-56,6.0005564529203665,3651948,1757003996,-61.21300704792242,8825.53575849533,6111,37.23
+cda-server-2,False,8859.073387145996,"{'sample_time_ms': 33299.837, 'num_steps_trained': 276000, 'grad_time_ms': 367.377, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 518.92041015625, 'policy_loss': -0.16965606808662415, 'vf_explained_var': 0.027118226513266563, 'entropy': 11.502217292785645, 'cur_lr': 4.999999873689376e-05, 'total_loss': 518.77490234375, 'kl': 0.01592307724058628}, 'load_time_ms': 0.692, 'num_steps_sampled': 276000, 'update_time_ms': 2.589}",230,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.53762865066528,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,276000,276000,{},230,32,-93.84268985082524,2025-09-04_18-40-30,6.0005564529203665,3651948,1757004030,-59.24914097370995,8859.073387145996,6143,36.38
+cda-server-2,False,8892.482960700989,"{'sample_time_ms': 33219.391, 'num_steps_trained': 277200, 'grad_time_ms': 369.319, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 493.50482177734375, 'policy_loss': -0.17525163292884827, 'vf_explained_var': 0.026482833549380302, 'entropy': 11.950725555419922, 'cur_lr': 4.999999873689376e-05, 'total_loss': 493.3524169921875, 'kl': 0.01507889200001955}, 'load_time_ms': 0.695, 'num_steps_sampled': 277200, 'update_time_ms': 2.542}",231,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.409573554992676,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,277200,277200,{},231,35,-93.93805342725528,2025-09-04_18-41-03,6.000051157608556,3651948,1757004063,-58.93394690622315,8892.482960700989,6178,36.31
+cda-server-2,False,8926.56376671791,"{'sample_time_ms': 33239.182, 'num_steps_trained': 278400, 'grad_time_ms': 371.247, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 477.0397033691406, 'policy_loss': -0.1522827297449112, 'vf_explained_var': 0.024695463478565216, 'entropy': 12.114645004272461, 'cur_lr': 4.999999873689376e-05, 'total_loss': 476.9099426269531, 'kl': 0.014842814765870571}, 'load_time_ms': 0.7, 'num_steps_sampled': 278400, 'update_time_ms': 2.557}",232,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.080806016922,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,278400,278400,{},232,35,-93.93805342725528,2025-09-04_18-41-37,6.000051157608556,3651948,1757004097,-57.25040114733103,8926.56376671791,6213,35.59
+cda-server-2,False,8960.791088581085,"{'sample_time_ms': 33220.342, 'num_steps_trained': 279600, 'grad_time_ms': 369.251, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 463.5008544921875, 'policy_loss': -0.18232877552509308, 'vf_explained_var': 0.022623876109719276, 'entropy': 11.372271537780762, 'cur_lr': 4.999999873689376e-05, 'total_loss': 463.34088134765625, 'kl': 0.014735642820596695}, 'load_time_ms': 0.685, 'num_steps_sampled': 279600, 'update_time_ms': 2.589}",233,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.22732186317444,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,279600,279600,{},233,33,-93.93805342725528,2025-09-04_18-42-12,6.000025070402176,3651948,1757004132,-55.39362406723989,8960.791088581085,6246,34.64
+cda-server-2,False,8994.085668563843,"{'sample_time_ms': 33242.289, 'num_steps_trained': 280800, 'grad_time_ms': 369.641, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 465.8112487792969, 'policy_loss': -0.15602374076843262, 'vf_explained_var': 0.043435726314783096, 'entropy': 12.00288200378418, 'cur_lr': 4.999999873689376e-05, 'total_loss': 465.6771240234375, 'kl': 0.014424502849578857}, 'load_time_ms': 0.689, 'num_steps_sampled': 280800, 'update_time_ms': 2.565}",234,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.29457998275757,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,280800,280800,{},234,32,-93.07855688625773,2025-09-04_18-42-45,6.000025070402176,3651948,1757004165,-56.94350179907652,8994.085668563843,6278,35.68
+cda-server-2,False,9027.672051429749,"{'sample_time_ms': 33245.241, 'num_steps_trained': 282000, 'grad_time_ms': 372.427, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 537.2978515625, 'policy_loss': -0.16486559808254242, 'vf_explained_var': 0.02764366753399372, 'entropy': 11.935712814331055, 'cur_lr': 4.999999873689376e-05, 'total_loss': 537.1552124023438, 'kl': 0.01467643678188324}, 'load_time_ms': 0.694, 'num_steps_sampled': 282000, 'update_time_ms': 2.541}",235,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.58638286590576,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,282000,282000,{},235,30,-93.07855688625773,2025-09-04_18-43-19,6.000025070402176,3651948,1757004199,-58.26857565715705,9027.672051429749,6308,36.4
+cda-server-2,False,9061.819860935211,"{'sample_time_ms': 33297.025, 'num_steps_trained': 283200, 'grad_time_ms': 371.802, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 552.9977416992188, 'policy_loss': -0.15926803648471832, 'vf_explained_var': 0.023812182247638702, 'entropy': 11.88892650604248, 'cur_lr': 4.999999873689376e-05, 'total_loss': 552.8607177734375, 'kl': 0.014615191146731377}, 'load_time_ms': 0.695, 'num_steps_sampled': 283200, 'update_time_ms': 2.536}",236,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.14780950546265,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,283200,283200,{},236,33,-92.59710856730977,2025-09-04_18-43-53,8.000068323775915,3651948,1757004233,-61.44614542643216,9061.819860935211,6341,37.82
+cda-server-2,False,9095.312840461731,"{'sample_time_ms': 33338.48, 'num_steps_trained': 284400, 'grad_time_ms': 372.653, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 462.8885192871094, 'policy_loss': -0.18361049890518188, 'vf_explained_var': 0.02978028915822506, 'entropy': 11.811455726623535, 'cur_lr': 4.999999873689376e-05, 'total_loss': 462.72698974609375, 'kl': 0.014550920575857162}, 'load_time_ms': 0.698, 'num_steps_sampled': 284400, 'update_time_ms': 2.543}",237,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.492979526519775,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,284400,284400,{},237,31,-95.66316184995254,2025-09-04_18-44-26,8.000068323775915,3651948,1757004266,-63.84925295945575,9095.312840461731,6372,38.73
+cda-server-2,False,9128.5523583889,"{'sample_time_ms': 33307.224, 'num_steps_trained': 285600, 'grad_time_ms': 373.24, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 482.65777587890625, 'policy_loss': -0.16565656661987305, 'vf_explained_var': 0.0365450456738472, 'entropy': 12.015816688537598, 'cur_lr': 4.999999873689376e-05, 'total_loss': 482.5158386230469, 'kl': 0.015651242807507515}, 'load_time_ms': 0.704, 'num_steps_sampled': 285600, 'update_time_ms': 2.529}",238,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.2395179271698,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,285600,285600,{},238,34,-95.66316184995254,2025-09-04_18-45-00,8.000068323775915,3651948,1757004300,-62.42745717113413,9128.5523583889,6406,38.06
+cda-server-2,False,9163.238487005234,"{'sample_time_ms': 33387.815, 'num_steps_trained': 286800, 'grad_time_ms': 374.688, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 439.43817138671875, 'policy_loss': -0.17008011043071747, 'vf_explained_var': 0.025046832859516144, 'entropy': 12.047761917114258, 'cur_lr': 4.999999873689376e-05, 'total_loss': 439.2913513183594, 'kl': 0.01528315432369709}, 'load_time_ms': 0.698, 'num_steps_sampled': 286800, 'update_time_ms': 2.507}",239,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.68612861633301,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,286800,286800,{},239,30,-95.66316184995254,2025-09-04_18-45-34,6.00007350824956,3651948,1757004334,-63.69194950752015,9163.238487005234,6436,38.83
+cda-server-2,False,9197.054631233215,"{'sample_time_ms': 33417.206, 'num_steps_trained': 288000, 'grad_time_ms': 373.11, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 479.13433837890625, 'policy_loss': -0.16308458149433136, 'vf_explained_var': 0.041000742465257645, 'entropy': 12.105916976928711, 'cur_lr': 4.999999873689376e-05, 'total_loss': 478.9933776855469, 'kl': 0.01457090862095356}, 'load_time_ms': 0.705, 'num_steps_sampled': 288000, 'update_time_ms': 2.543}",240,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.81614422798157,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,288000,288000,{},240,32,-91.67071305108782,2025-09-04_18-46-08,6.00007350824956,3651948,1757004368,-58.72263234325682,9197.054631233215,6468,36.91
+cda-server-2,False,9230.33184838295,"{'sample_time_ms': 33405.928, 'num_steps_trained': 289200, 'grad_time_ms': 371.198, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 472.53179931640625, 'policy_loss': -0.16461673378944397, 'vf_explained_var': 0.016277603805065155, 'entropy': 12.22976303100586, 'cur_lr': 4.999999873689376e-05, 'total_loss': 472.39068603515625, 'kl': 0.015477120876312256}, 'load_time_ms': 0.703, 'num_steps_sampled': 289200, 'update_time_ms': 2.505}",241,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.2772171497345,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,289200,289200,{},241,35,-92.50884099974769,2025-09-04_18-46-41,6.000044439385878,3651948,1757004401,-58.68430621255006,9230.33184838295,6503,36.9
+cda-server-2,False,9264.127333402634,"{'sample_time_ms': 33377.388, 'num_steps_trained': 290400, 'grad_time_ms': 371.17, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 457.06732177734375, 'policy_loss': -0.17669327557086945, 'vf_explained_var': 0.02635866403579712, 'entropy': 11.52662181854248, 'cur_lr': 4.999999873689376e-05, 'total_loss': 456.9132080078125, 'kl': 0.01483425684273243}, 'load_time_ms': 0.713, 'num_steps_sampled': 290400, 'update_time_ms': 2.495}",242,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.79548501968384,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,290400,290400,{},242,33,-94.35696984520187,2025-09-04_18-47-15,8.000000402653834,3651948,1757004435,-58.24223301701984,9264.127333402634,6536,36.42
+cda-server-2,False,9298.336977005005,"{'sample_time_ms': 33374.345, 'num_steps_trained': 291600, 'grad_time_ms': 372.454, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 497.88671875, 'policy_loss': -0.16106237471103668, 'vf_explained_var': 0.03792598471045494, 'entropy': 11.966264724731445, 'cur_lr': 4.999999873689376e-05, 'total_loss': 497.7486877441406, 'kl': 0.015170086175203323}, 'load_time_ms': 0.711, 'num_steps_sampled': 291600, 'update_time_ms': 2.501}",243,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.209643602371216,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,291600,291600,{},243,30,-94.35696984520187,2025-09-04_18-47-49,8.000000402653834,3651948,1757004469,-57.96694031513576,9298.336977005005,6566,36.01
+cda-server-2,False,9331.860694169998,"{'sample_time_ms': 33395.731, 'num_steps_trained': 292800, 'grad_time_ms': 373.965, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 564.9078979492188, 'policy_loss': -0.16683726012706757, 'vf_explained_var': 0.02323988452553749, 'entropy': 11.774674415588379, 'cur_lr': 4.999999873689376e-05, 'total_loss': 564.7649536132812, 'kl': 0.0157768651843071}, 'load_time_ms': 0.709, 'num_steps_sampled': 292800, 'update_time_ms': 2.473}",244,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.523717164993286,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,292800,292800,{},244,35,-94.35696984520187,2025-09-04_18-48-23,8.000000402653834,3651948,1757004503,-58.10606370958501,9331.860694169998,6601,36.2
+cda-server-2,False,9365.360492706299,"{'sample_time_ms': 33388.358, 'num_steps_trained': 294000, 'grad_time_ms': 372.607, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 525.4404907226562, 'policy_loss': -0.17092472314834595, 'vf_explained_var': 0.030833972617983818, 'entropy': 12.102313041687012, 'cur_lr': 4.999999873689376e-05, 'total_loss': 525.2924194335938, 'kl': 0.015038705430924892}, 'load_time_ms': 0.711, 'num_steps_sampled': 294000, 'update_time_ms': 2.535}",245,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.49979853630066,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,294000,294000,{},245,39,-92.67283625827994,2025-09-04_18-48-57,8.000000401008807,3651948,1757004537,-53.75262255852712,9365.360492706299,6640,34.39
+cda-server-2,False,9399.292599201202,"{'sample_time_ms': 33366.768, 'num_steps_trained': 295200, 'grad_time_ms': 372.608, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 503.8609619140625, 'policy_loss': -0.1675948053598404, 'vf_explained_var': 0.014279961585998535, 'entropy': 11.799020767211914, 'cur_lr': 4.999999873689376e-05, 'total_loss': 503.7156677246094, 'kl': 0.014678357169032097}, 'load_time_ms': 0.72, 'num_steps_sampled': 295200, 'update_time_ms': 2.56}",246,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.932106494903564,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,295200,295200,{},246,34,-91.12291953131009,2025-09-04_18-49-30,8.000000401008807,3651948,1757004570,-52.047525918583716,9399.292599201202,6674,33.62
+cda-server-2,False,9433.063627958298,"{'sample_time_ms': 33394.902, 'num_steps_trained': 296400, 'grad_time_ms': 372.305, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 482.9005126953125, 'policy_loss': -0.17791959643363953, 'vf_explained_var': 0.02709423191845417, 'entropy': 12.1153564453125, 'cur_lr': 4.999999873689376e-05, 'total_loss': 482.7449035644531, 'kl': 0.014708485454320908}, 'load_time_ms': 0.727, 'num_steps_sampled': 296400, 'update_time_ms': 2.534}",247,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.77102875709534,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,296400,296400,{},247,34,-91.4407548251745,2025-09-04_18-50-04,8.000000400008329,3651948,1757004604,-51.35171391690495,9433.063627958298,6708,33.29
+cda-server-2,False,9466.194394826889,"{'sample_time_ms': 33384.891, 'num_steps_trained': 297600, 'grad_time_ms': 371.499, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 510.83685302734375, 'policy_loss': -0.17384184896945953, 'vf_explained_var': 0.014701505191624165, 'entropy': 11.439382553100586, 'cur_lr': 4.999999873689376e-05, 'total_loss': 510.68658447265625, 'kl': 0.015532774850726128}, 'load_time_ms': 0.718, 'num_steps_sampled': 297600, 'update_time_ms': 2.512}",248,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.13076686859131,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,297600,297600,{},248,32,-91.44445958853663,2025-09-04_18-50-37,8.000000625473389,3651948,1757004637,-55.1829405642252,9466.194394826889,6740,34.99
+cda-server-2,False,9499.82013463974,"{'sample_time_ms': 33282.448, 'num_steps_trained': 298800, 'grad_time_ms': 367.948, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 498.81988525390625, 'policy_loss': -0.15983320772647858, 'vf_explained_var': 0.018894175067543983, 'entropy': 11.790884971618652, 'cur_lr': 4.999999873689376e-05, 'total_loss': 498.68408203125, 'kl': 0.015838027000427246}, 'load_time_ms': 0.72, 'num_steps_sampled': 298800, 'update_time_ms': 2.49}",249,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.62573981285095,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,298800,298800,{},249,34,-93.8386863279901,2025-09-04_18-51-11,8.000000625473389,3651948,1757004671,-57.87083837237296,9499.82013463974,6774,36.09
+cda-server-2,False,9533.402312994003,"{'sample_time_ms': 33261.054, 'num_steps_trained': 300000, 'grad_time_ms': 366.013, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 493.55804443359375, 'policy_loss': -0.16028568148612976, 'vf_explained_var': 0.02670077420771122, 'entropy': 11.616454124450684, 'cur_lr': 4.999999873689376e-05, 'total_loss': 493.42083740234375, 'kl': 0.015181425958871841}, 'load_time_ms': 0.696, 'num_steps_sampled': 300000, 'update_time_ms': 2.449}",250,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.582178354263306,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,300000,300000,{},250,36,-93.8386863279901,2025-09-04_18-51-45,8.000000625473389,3651948,1757004705,-57.23362154027995,9533.402312994003,6810,35.7
+cda-server-2,False,9566.642753839493,"{'sample_time_ms': 33255.008, 'num_steps_trained': 301200, 'grad_time_ms': 368.254, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 444.5202331542969, 'policy_loss': -0.16525143384933472, 'vf_explained_var': 0.032825905829668045, 'entropy': 11.39554214477539, 'cur_lr': 4.999999873689376e-05, 'total_loss': 444.3780822753906, 'kl': 0.015219918452203274}, 'load_time_ms': 0.699, 'num_steps_sampled': 301200, 'update_time_ms': 2.562}",251,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.2404408454895,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,301200,301200,{},251,33,-93.07010464848874,2025-09-04_18-52-18,8.00000040304245,3651948,1757004738,-55.47286553294055,9566.642753839493,6843,35.11
+cda-server-2,False,9600.813539981842,"{'sample_time_ms': 33293.166, 'num_steps_trained': 302400, 'grad_time_ms': 367.724, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 490.7688903808594, 'policy_loss': -0.181904137134552, 'vf_explained_var': 0.03228212893009186, 'entropy': 12.051400184631348, 'cur_lr': 4.999999873689376e-05, 'total_loss': 490.61029052734375, 'kl': 0.015358841978013515}, 'load_time_ms': 0.675, 'num_steps_sampled': 302400, 'update_time_ms': 2.552}",252,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.17078614234924,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,302400,302400,{},252,37,-93.1502064041992,2025-09-04_18-52-52,6.00001167450546,3651948,1757004772,-53.44209251089664,9600.813539981842,6880,34.15
+cda-server-2,False,9634.56543135643,"{'sample_time_ms': 33249.286, 'num_steps_trained': 303600, 'grad_time_ms': 365.85, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 438.65264892578125, 'policy_loss': -0.1741490662097931, 'vf_explained_var': 0.03822045028209686, 'entropy': 11.78211498260498, 'cur_lr': 4.999999873689376e-05, 'total_loss': 438.5022888183594, 'kl': 0.015649745240807533}, 'load_time_ms': 0.685, 'num_steps_sampled': 303600, 'update_time_ms': 2.515}",253,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.75189137458801,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,303600,303600,{},253,34,-93.1502064041992,2025-09-04_18-53-26,4.055704940266937,3651948,1757004806,-53.492828528782695,9634.56543135643,6914,34.28
+cda-server-2,False,9669.068894147873,"{'sample_time_ms': 33346.713, 'num_steps_trained': 304800, 'grad_time_ms': 366.41, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 502.4017028808594, 'policy_loss': -0.176845520734787, 'vf_explained_var': 0.03880747780203819, 'entropy': 11.777851104736328, 'cur_lr': 4.999999873689376e-05, 'total_loss': 502.2478332519531, 'kl': 0.015134657733142376}, 'load_time_ms': 0.69, 'num_steps_sampled': 304800, 'update_time_ms': 2.528}",254,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.50346279144287,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,304800,304800,{},254,36,-93.38752497946227,2025-09-04_18-54-00,5.312839912494095,3651948,1757004840,-52.2676855411649,9669.068894147873,6950,33.61
+cda-server-2,False,9702.425583600998,"{'sample_time_ms': 33331.79, 'num_steps_trained': 306000, 'grad_time_ms': 367.077, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 496.5535583496094, 'policy_loss': -0.16783879697322845, 'vf_explained_var': 0.017874909564852715, 'entropy': 11.913069725036621, 'cur_lr': 4.999999873689376e-05, 'total_loss': 496.4104309082031, 'kl': 0.016264840960502625}, 'load_time_ms': 0.682, 'num_steps_sampled': 306000, 'update_time_ms': 2.473}",255,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.356689453125,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,306000,306000,{},255,35,-93.38752497946227,2025-09-04_18-54-34,6.000102246417464,3651948,1757004874,-52.95659910840507,9702.425583600998,6985,33.75
+cda-server-2,False,9736.113502502441,"{'sample_time_ms': 33306.613, 'num_steps_trained': 307200, 'grad_time_ms': 367.862, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 501.1930847167969, 'policy_loss': -0.17009110748767853, 'vf_explained_var': 0.03265717998147011, 'entropy': 11.818390846252441, 'cur_lr': 4.999999873689376e-05, 'total_loss': 501.0460510253906, 'kl': 0.015193293802440166}, 'load_time_ms': 0.682, 'num_steps_sampled': 307200, 'update_time_ms': 2.441}",256,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.68791890144348,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,307200,307200,{},256,39,-92.67251074277206,2025-09-04_18-55-07,6.000109429998887,3651948,1757004907,-49.49791261277659,9736.113502502441,7024,32.13
+cda-server-2,False,9769.884490966797,"{'sample_time_ms': 33307.422, 'num_steps_trained': 308400, 'grad_time_ms': 367.01, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 498.14794921875, 'policy_loss': -0.16582104563713074, 'vf_explained_var': 0.024809036403894424, 'entropy': 11.592876434326172, 'cur_lr': 4.999999873689376e-05, 'total_loss': 498.0042419433594, 'kl': 0.0145410830155015}, 'load_time_ms': 0.668, 'num_steps_sampled': 308400, 'update_time_ms': 2.452}",257,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.77098846435547,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,308400,308400,{},257,43,-91.53659906537581,2025-09-04_18-55-41,6.000109429998887,3651948,1757004941,-43.73236682884013,9769.884490966797,7067,29.5
+cda-server-2,False,9804.377316713333,"{'sample_time_ms': 33442.048, 'num_steps_trained': 309600, 'grad_time_ms': 368.504, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 474.3194885253906, 'policy_loss': -0.17338663339614868, 'vf_explained_var': 0.027189724147319794, 'entropy': 11.489995956420898, 'cur_lr': 4.999999873689376e-05, 'total_loss': 474.17138671875, 'kl': 0.016618233174085617}, 'load_time_ms': 0.673, 'num_steps_sampled': 309600, 'update_time_ms': 2.499}",258,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.492825746536255,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,309600,309600,{},258,39,-91.35076520477672,2025-09-04_18-56-16,4.000352388379444,3651948,1757004976,-42.154622521712774,9804.377316713333,7106,28.72
+cda-server-2,False,9837.982171058655,"{'sample_time_ms': 33437.854, 'num_steps_trained': 310800, 'grad_time_ms': 370.569, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 441.2422790527344, 'policy_loss': -0.1783483773469925, 'vf_explained_var': 0.036072149872779846, 'entropy': 11.615463256835938, 'cur_lr': 4.999999873689376e-05, 'total_loss': 441.0879211425781, 'kl': 0.015805954113602638}, 'load_time_ms': 0.67, 'num_steps_sampled': 310800, 'update_time_ms': 2.501}",259,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.604854345321655,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,310800,310800,{},259,34,-91.35076520477672,2025-09-04_18-56-49,2.0005359728741396,3651948,1757005009,-48.61172280956397,9837.982171058655,7140,31.96
+cda-server-2,False,9871.78459239006,"{'sample_time_ms': 33457.814, 'num_steps_trained': 312000, 'grad_time_ms': 372.539, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 456.3844299316406, 'policy_loss': -0.18062280118465424, 'vf_explained_var': 0.0369785837829113, 'entropy': 11.31128978729248, 'cur_lr': 4.999999873689376e-05, 'total_loss': 456.2292175292969, 'kl': 0.016710573807358742}, 'load_time_ms': 0.672, 'num_steps_sampled': 312000, 'update_time_ms': 2.575}",260,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.80242133140564,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,312000,312000,{},260,36,-92.4291552854384,2025-09-04_18-57-23,6.000080980608969,3651948,1757005043,-52.84823083865218,9871.78459239006,7176,34.19
+cda-server-2,False,9905.303673744202,"{'sample_time_ms': 33486.184, 'num_steps_trained': 313200, 'grad_time_ms': 372.131, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 445.8668212890625, 'policy_loss': -0.17220252752304077, 'vf_explained_var': 0.027600638568401337, 'entropy': 11.534998893737793, 'cur_lr': 4.999999873689376e-05, 'total_loss': 445.7190856933594, 'kl': 0.016097839921712875}, 'load_time_ms': 0.668, 'num_steps_sampled': 313200, 'update_time_ms': 2.504}",261,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.519081354141235,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,313200,313200,{},261,32,-92.4291552854384,2025-09-04_18-57-57,6.000080980608969,3651948,1757005077,-55.41658854010331,9905.303673744202,7208,35.25
+cda-server-2,False,9939.227750062943,"{'sample_time_ms': 33460.782, 'num_steps_trained': 314400, 'grad_time_ms': 372.764, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 454.6693115234375, 'policy_loss': -0.16877640783786774, 'vf_explained_var': 0.017379429191350937, 'entropy': 11.471319198608398, 'cur_lr': 4.999999873689376e-05, 'total_loss': 454.52459716796875, 'kl': 0.015870148316025734}, 'load_time_ms': 0.678, 'num_steps_sampled': 314400, 'update_time_ms': 2.522}",262,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.924076318740845,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,314400,314400,{},262,33,-92.4291552854384,2025-09-04_18-58-31,6.000086958096147,3651948,1757005111,-56.424942778632506,9939.227750062943,7241,35.48
+cda-server-2,False,9973.117554426193,"{'sample_time_ms': 33472.645, 'num_steps_trained': 315600, 'grad_time_ms': 374.627, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 514.4802856445312, 'policy_loss': -0.16580967605113983, 'vf_explained_var': 0.030511697754263878, 'entropy': 11.81280517578125, 'cur_lr': 4.999999873689376e-05, 'total_loss': 514.3388061523438, 'kl': 0.015987424179911613}, 'load_time_ms': 0.672, 'num_steps_sampled': 315600, 'update_time_ms': 2.558}",263,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.88980436325073,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,315600,315600,{},263,36,-91.77151161971379,2025-09-04_18-59-05,6.000086958096147,3651948,1757005145,-55.9312512364152,9973.117554426193,7277,35.37
+cda-server-2,False,10007.813853263855,"{'sample_time_ms': 33491.385, 'num_steps_trained': 316800, 'grad_time_ms': 375.175, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 447.14453125, 'policy_loss': -0.1734510362148285, 'vf_explained_var': 0.02611129730939865, 'entropy': 10.773795127868652, 'cur_lr': 4.999999873689376e-05, 'total_loss': 446.99371337890625, 'kl': 0.014916815795004368}, 'load_time_ms': 0.664, 'num_steps_sampled': 316800, 'update_time_ms': 2.58}",264,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.69629883766174,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,316800,316800,{},264,42,-91.53913098515123,2025-09-04_18-59-39,6.000575166421358,3651948,1757005179,-49.16608473715471,10007.813853263855,7319,32.08
+cda-server-2,False,10040.971177101135,"{'sample_time_ms': 33473.134, 'num_steps_trained': 318000, 'grad_time_ms': 373.482, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 522.8036499023438, 'policy_loss': -0.16708451509475708, 'vf_explained_var': 0.020491890609264374, 'entropy': 11.706774711608887, 'cur_lr': 4.999999873689376e-05, 'total_loss': 522.6589965820312, 'kl': 0.014792154543101788}, 'load_time_ms': 0.664, 'num_steps_sampled': 318000, 'update_time_ms': 2.586}",265,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.15732383728027,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,318000,318000,{},265,37,-91.0761048981628,2025-09-04_19-00-13,6.000575166421358,3651948,1757005213,-47.178333058434504,10040.971177101135,7356,31.15
+cda-server-2,False,10074.561195135117,"{'sample_time_ms': 33464.165, 'num_steps_trained': 319200, 'grad_time_ms': 372.685, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 446.42901611328125, 'policy_loss': -0.16864469647407532, 'vf_explained_var': 0.020345423370599747, 'entropy': 11.407777786254883, 'cur_lr': 4.999999873689376e-05, 'total_loss': 446.2832946777344, 'kl': 0.015111408196389675}, 'load_time_ms': 0.663, 'num_steps_sampled': 319200, 'update_time_ms': 2.599}",266,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.59001803398132,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,319200,319200,{},266,35,-92.17183099341096,2025-09-04_19-00-46,8.000000403929597,3651948,1757005246,-50.03188182993689,10074.561195135117,7391,32.47
+cda-server-2,False,10108.989178180695,"{'sample_time_ms': 33529.985, 'num_steps_trained': 320400, 'grad_time_ms': 372.617, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 521.6529541015625, 'policy_loss': -0.17513184249401093, 'vf_explained_var': 0.023661097511649132, 'entropy': 11.008745193481445, 'cur_lr': 4.999999873689376e-05, 'total_loss': 521.501953125, 'kl': 0.015934422612190247}, 'load_time_ms': 0.675, 'num_steps_sampled': 320400, 'update_time_ms': 2.589}",267,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.427983045578,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,320400,320400,{},267,42,-92.17183099341096,2025-09-04_19-01-21,8.000003200551006,3651948,1757005281,-47.14156567128666,10108.989178180695,7433,31.2
+cda-server-2,False,10143.616182804108,"{'sample_time_ms': 33542.544, 'num_steps_trained': 321600, 'grad_time_ms': 373.486, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 496.2048034667969, 'policy_loss': -0.1643340140581131, 'vf_explained_var': 0.01232109498232603, 'entropy': 11.45879077911377, 'cur_lr': 4.999999873689376e-05, 'total_loss': 496.0647277832031, 'kl': 0.015981314703822136}, 'load_time_ms': 0.699, 'num_steps_sampled': 321600, 'update_time_ms': 2.566}",268,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.627004623413086,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,321600,321600,{},268,42,-93.49556735773535,2025-09-04_19-01-55,8.000003200551006,3651948,1757005315,-42.24551633872482,10143.616182804108,7475,28.59
+cda-server-2,False,10177.26104593277,"{'sample_time_ms': 33547.64, 'num_steps_trained': 322800, 'grad_time_ms': 372.376, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 473.0905456542969, 'policy_loss': -0.18091005086898804, 'vf_explained_var': 0.03324628621339798, 'entropy': 11.576276779174805, 'cur_lr': 4.999999873689376e-05, 'total_loss': 472.9339599609375, 'kl': 0.015997041016817093}, 'load_time_ms': 0.696, 'num_steps_sampled': 322800, 'update_time_ms': 2.573}",269,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.64486312866211,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,322800,322800,{},269,45,-93.49556735773535,2025-09-04_19-02-29,6.000151534633431,3651948,1757005349,-41.814555740237004,10177.26104593277,7520,28.3
+cda-server-2,False,10212.144480705261,"{'sample_time_ms': 33656.169, 'num_steps_trained': 324000, 'grad_time_ms': 371.946, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 484.0221862792969, 'policy_loss': -0.16421444714069366, 'vf_explained_var': 0.01682865619659424, 'entropy': 11.210699081420898, 'cur_lr': 4.999999873689376e-05, 'total_loss': 483.8819580078125, 'kl': 0.015759721398353577}, 'load_time_ms': 0.692, 'num_steps_sampled': 324000, 'update_time_ms': 2.53}",270,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.883434772491455,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,324000,324000,{},270,43,-93.49556735773535,2025-09-04_19-03-04,6.000151534633431,3651948,1757005384,-42.90693813406929,10212.144480705261,7563,28.76
+cda-server-2,False,10245.876401901245,"{'sample_time_ms': 33679.183, 'num_steps_trained': 325200, 'grad_time_ms': 370.133, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 479.9202880859375, 'policy_loss': -0.1779698133468628, 'vf_explained_var': 0.023097369819879532, 'entropy': 10.930511474609375, 'cur_lr': 4.999999873689376e-05, 'total_loss': 479.7669372558594, 'kl': 0.016181154176592827}, 'load_time_ms': 0.695, 'num_steps_sampled': 325200, 'update_time_ms': 2.613}",271,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.73192119598389,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,325200,325200,{},271,36,-93.68366487961454,2025-09-04_19-03-38,4.000525533646388,3651948,1757005418,-42.65263693139008,10245.876401901245,7599,28.76
+cda-server-2,False,10279.449191570282,"{'sample_time_ms': 33644.665, 'num_steps_trained': 326400, 'grad_time_ms': 369.57, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 484.3214111328125, 'policy_loss': -0.16890767216682434, 'vf_explained_var': 0.033569660037755966, 'entropy': 11.223655700683594, 'cur_lr': 4.999999873689376e-05, 'total_loss': 484.1768798828125, 'kl': 0.016036422923207283}, 'load_time_ms': 0.693, 'num_steps_sampled': 326400, 'update_time_ms': 2.591}",272,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.572789669036865,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,326400,326400,{},272,41,-93.68366487961454,2025-09-04_19-04-11,8.000000473594405,3651948,1757005451,-45.00275549680281,10279.449191570282,7640,30.04
+cda-server-2,False,10313.695538282394,"{'sample_time_ms': 33680.507, 'num_steps_trained': 327600, 'grad_time_ms': 369.417, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 427.5572509765625, 'policy_loss': -0.16799139976501465, 'vf_explained_var': 0.02995210886001587, 'entropy': 11.145977020263672, 'cur_lr': 4.999999873689376e-05, 'total_loss': 427.41265869140625, 'kl': 0.01543845422565937}, 'load_time_ms': 0.715, 'num_steps_sampled': 327600, 'update_time_ms': 2.579}",273,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.24634671211243,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,327600,327600,{},273,40,-93.68366487961454,2025-09-04_19-04-45,8.000000473594405,3651948,1757005485,-46.60512579057071,10313.695538282394,7680,30.86
+cda-server-2,False,10347.263674736023,"{'sample_time_ms': 33567.666, 'num_steps_trained': 328800, 'grad_time_ms': 369.409, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 502.9129333496094, 'policy_loss': -0.17614038288593292, 'vf_explained_var': 0.022216200828552246, 'entropy': 11.216800689697266, 'cur_lr': 4.999999873689376e-05, 'total_loss': 502.7601013183594, 'kl': 0.015363307669758797}, 'load_time_ms': 0.727, 'num_steps_sampled': 328800, 'update_time_ms': 2.56}",274,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.56813645362854,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,328800,328800,{},274,38,-91.98634031365813,2025-09-04_19-05-19,8.000225089274451,3651948,1757005519,-43.859947842870355,10347.263674736023,7718,29.61
+cda-server-2,False,10381.212057828903,"{'sample_time_ms': 33646.788, 'num_steps_trained': 330000, 'grad_time_ms': 369.366, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 453.77984619140625, 'policy_loss': -0.16606299579143524, 'vf_explained_var': 0.03338143602013588, 'entropy': 10.97883415222168, 'cur_lr': 4.999999873689376e-05, 'total_loss': 453.6378479003906, 'kl': 0.015875400975346565}, 'load_time_ms': 0.726, 'num_steps_sampled': 330000, 'update_time_ms': 2.615}",275,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.94838309288025,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,330000,330000,{},275,39,-91.98634031365813,2025-09-04_19-05-53,8.000225089274451,3651948,1757005553,-46.33955160056749,10381.212057828903,7757,30.69
+cda-server-2,False,10415.166213274002,"{'sample_time_ms': 33680.273, 'num_steps_trained': 331200, 'grad_time_ms': 372.268, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 450.1102294921875, 'policy_loss': -0.17988114058971405, 'vf_explained_var': 0.025934258475899696, 'entropy': 11.465625762939453, 'cur_lr': 4.999999873689376e-05, 'total_loss': 449.95477294921875, 'kl': 0.016104480251669884}, 'load_time_ms': 0.742, 'num_steps_sampled': 331200, 'update_time_ms': 2.587}",276,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.95415544509888,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,331200,331200,{},276,37,-90.53218214614839,2025-09-04_19-06-27,8.000225089274451,3651948,1757005587,-49.45591814832428,10415.166213274002,7794,32.37
+cda-server-2,False,10450.337350845337,"{'sample_time_ms': 33754.495, 'num_steps_trained': 332400, 'grad_time_ms': 372.366, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 469.13031005859375, 'policy_loss': -0.16875097155570984, 'vf_explained_var': 0.023109469562768936, 'entropy': 11.081283569335938, 'cur_lr': 4.999999873689376e-05, 'total_loss': 468.9852294921875, 'kl': 0.015559237450361252}, 'load_time_ms': 0.73, 'num_steps_sampled': 332400, 'update_time_ms': 2.592}",277,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",35.17113757133484,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,332400,332400,{},277,43,-90.53218214614839,2025-09-04_19-07-02,8.000071739314354,3651948,1757005622,-44.07394949871933,10450.337350845337,7837,29.69
+cda-server-2,False,10484.945219278336,"{'sample_time_ms': 33754.833, 'num_steps_trained': 333600, 'grad_time_ms': 370.167, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 543.11328125, 'policy_loss': -0.17992782592773438, 'vf_explained_var': 0.018156178295612335, 'entropy': 10.869085311889648, 'cur_lr': 4.999999873689376e-05, 'total_loss': 542.9584350585938, 'kl': 0.01653093658387661}, 'load_time_ms': 0.705, 'num_steps_sampled': 333600, 'update_time_ms': 2.579}",278,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.60786843299866,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,333600,333600,{},278,41,-91.15067117704314,2025-09-04_19-07-37,8.000071739314354,3651948,1757005657,-42.293963324320195,10484.945219278336,7878,28.67
+cda-server-2,False,10518.67206120491,"{'sample_time_ms': 33760.475, 'num_steps_trained': 334800, 'grad_time_ms': 372.736, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 473.5882263183594, 'policy_loss': -0.17750756442546844, 'vf_explained_var': 0.03091849945485592, 'entropy': 11.348112106323242, 'cur_lr': 4.999999873689376e-05, 'total_loss': 473.4354248046875, 'kl': 0.01630318909883499}, 'load_time_ms': 0.713, 'num_steps_sampled': 334800, 'update_time_ms': 2.583}",279,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.72684192657471,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,334800,334800,{},279,41,-91.15067117704314,2025-09-04_19-08-11,8.000004903249033,3651948,1757005691,-44.9513265938712,10518.67206120491,7919,29.95
+cda-server-2,False,10552.616226434708,"{'sample_time_ms': 33665.889, 'num_steps_trained': 336000, 'grad_time_ms': 373.425, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 491.8249816894531, 'policy_loss': -0.17976070940494537, 'vf_explained_var': 0.02973158471286297, 'entropy': 10.85261058807373, 'cur_lr': 4.999999873689376e-05, 'total_loss': 491.6720886230469, 'kl': 0.017699040472507477}, 'load_time_ms': 0.718, 'num_steps_sampled': 336000, 'update_time_ms': 2.594}",280,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.94416522979736,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,336000,336000,{},280,38,-95.3722150015734,2025-09-04_19-08-44,8.000004903249033,3651948,1757005724,-44.50705614322201,10552.616226434708,7957,29.95
+cda-server-2,False,10586.572783470154,"{'sample_time_ms': 33685.632, 'num_steps_trained': 337200, 'grad_time_ms': 376.163, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 488.8636169433594, 'policy_loss': -0.1731945276260376, 'vf_explained_var': 0.04734458401799202, 'entropy': 11.287887573242188, 'cur_lr': 4.999999873689376e-05, 'total_loss': 488.71331787109375, 'kl': 0.015083376318216324}, 'load_time_ms': 0.716, 'num_steps_sampled': 337200, 'update_time_ms': 2.562}",281,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.95655703544617,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,337200,337200,{},281,36,-95.3722150015734,2025-09-04_19-09-19,6.000347435424667,3651948,1757005759,-48.719626192050356,10586.572783470154,7993,32.19
+cda-server-2,False,10620.745208978653,"{'sample_time_ms': 33745.513, 'num_steps_trained': 338400, 'grad_time_ms': 376.235, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 491.0636901855469, 'policy_loss': -0.17348407208919525, 'vf_explained_var': 0.02385639399290085, 'entropy': 10.733929634094238, 'cur_lr': 4.999999873689376e-05, 'total_loss': 490.9172668457031, 'kl': 0.017822520807385445}, 'load_time_ms': 0.711, 'num_steps_sampled': 338400, 'update_time_ms': 2.588}",282,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.172425508499146,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,338400,338400,{},282,45,-91.86570982637153,2025-09-04_19-09-53,6.001391594613905,3651948,1757005793,-44.18720843152826,10620.745208978653,8038,29.89
+cda-server-2,False,10654.505257368088,"{'sample_time_ms': 33698.56, 'num_steps_trained': 339600, 'grad_time_ms': 374.566, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 443.69537353515625, 'policy_loss': -0.17414651811122894, 'vf_explained_var': 0.032790109515190125, 'entropy': 11.28775691986084, 'cur_lr': 4.999999873689376e-05, 'total_loss': 443.5450744628906, 'kl': 0.015703819692134857}, 'load_time_ms': 0.684, 'num_steps_sampled': 339600, 'update_time_ms': 2.592}",283,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.760048389434814,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,339600,339600,{},283,39,-91.8255611391432,2025-09-04_19-10-26,6.001391594613905,3651948,1757005826,-43.44958326804987,10654.505257368088,8077,29.28
+cda-server-2,False,10688.552230834961,"{'sample_time_ms': 33748.997, 'num_steps_trained': 340800, 'grad_time_ms': 372.023, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 443.31854248046875, 'policy_loss': -0.18360702693462372, 'vf_explained_var': 0.026069827377796173, 'entropy': 10.978754997253418, 'cur_lr': 4.999999873689376e-05, 'total_loss': 443.1598815917969, 'kl': 0.01643957756459713}, 'load_time_ms': 0.672, 'num_steps_sampled': 340800, 'update_time_ms': 2.593}",284,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.04697346687317,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,340800,340800,{},284,38,-91.8255611391432,2025-09-04_19-11-01,8.00000043651723,3651948,1757005861,-47.55785499302104,10688.552230834961,8115,31.36
+cda-server-2,False,10721.957757472992,"{'sample_time_ms': 33694.925, 'num_steps_trained': 342000, 'grad_time_ms': 371.863, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 499.5901184082031, 'policy_loss': -0.17610689997673035, 'vf_explained_var': 0.019171714782714844, 'entropy': 10.866064071655273, 'cur_lr': 4.999999873689376e-05, 'total_loss': 499.4377746582031, 'kl': 0.015659630298614502}, 'load_time_ms': 0.668, 'num_steps_sampled': 342000, 'update_time_ms': 2.537}",285,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.405526638031006,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,342000,342000,{},285,40,-91.22999134012633,2025-09-04_19-11-34,8.000052252170565,3651948,1757005894,-45.63354421876618,10721.957757472992,8155,30.29
+cda-server-2,False,10756.137785673141,"{'sample_time_ms': 33718.46, 'num_steps_trained': 343200, 'grad_time_ms': 370.937, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 465.80670166015625, 'policy_loss': -0.17610350251197815, 'vf_explained_var': 0.034203190356492996, 'entropy': 10.926987648010254, 'cur_lr': 4.999999873689376e-05, 'total_loss': 465.6551208496094, 'kl': 0.016123224049806595}, 'load_time_ms': 0.654, 'num_steps_sampled': 343200, 'update_time_ms': 2.537}",286,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.180028200149536,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,343200,343200,{},286,41,-91.22999134012633,2025-09-04_19-12-08,8.000052252170565,3651948,1757005928,-44.48674554696858,10756.137785673141,8196,29.72
+cda-server-2,False,10790.090457201004,"{'sample_time_ms': 33595.784, 'num_steps_trained': 344400, 'grad_time_ms': 371.739, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 509.7332763671875, 'policy_loss': -0.18097235262393951, 'vf_explained_var': 0.026486733928322792, 'entropy': 11.022765159606934, 'cur_lr': 4.999999873689376e-05, 'total_loss': 509.57720947265625, 'kl': 0.016459709033370018}, 'load_time_ms': 0.657, 'num_steps_sampled': 344400, 'update_time_ms': 2.535}",287,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.95267152786255,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,344400,344400,{},287,39,-90.82597945393007,2025-09-04_19-12-42,6.000163794206194,3651948,1757005962,-43.89554236020127,10790.090457201004,8235,29.7
+cda-server-2,False,10824.339283704758,"{'sample_time_ms': 33558.228, 'num_steps_trained': 345600, 'grad_time_ms': 373.358, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 479.1529846191406, 'policy_loss': -0.17926204204559326, 'vf_explained_var': 0.021100951358675957, 'entropy': 11.003413200378418, 'cur_lr': 4.999999873689376e-05, 'total_loss': 478.9981689453125, 'kl': 0.016063014045357704}, 'load_time_ms': 0.66, 'num_steps_sampled': 345600, 'update_time_ms': 2.549}",288,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.24882650375366,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,345600,345600,{},288,47,-90.82597945393007,2025-09-04_19-13-16,8.000000787655095,3651948,1757005996,-42.089675947863626,10824.339283704758,8282,28.73
+cda-server-2,False,10857.90751862526,"{'sample_time_ms': 33545.668, 'num_steps_trained': 346800, 'grad_time_ms': 370.082, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 489.45941162109375, 'policy_loss': -0.16726961731910706, 'vf_explained_var': 0.021498076617717743, 'entropy': 11.020486831665039, 'cur_lr': 4.999999873689376e-05, 'total_loss': 489.3161315917969, 'kl': 0.015811540186405182}, 'load_time_ms': 0.656, 'num_steps_sampled': 346800, 'update_time_ms': 2.557}",289,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.56823492050171,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,346800,346800,{},289,44,-92.1446320532424,2025-09-04_19-13-50,8.000000787655095,3651948,1757006030,-38.038023044437594,10857.90751862526,8326,26.54
+cda-server-2,False,10891.880641222,"{'sample_time_ms': 33547.73, 'num_steps_trained': 348000, 'grad_time_ms': 370.899, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 477.1534423828125, 'policy_loss': -0.18578127026557922, 'vf_explained_var': 0.020566217601299286, 'entropy': 11.158267974853516, 'cur_lr': 4.999999873689376e-05, 'total_loss': 476.99273681640625, 'kl': 0.016526976600289345}, 'load_time_ms': 0.674, 'num_steps_sampled': 348000, 'update_time_ms': 2.548}",290,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.97312259674072,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,348000,348000,{},290,40,-92.1446320532424,2025-09-04_19-14-24,6.00023374893414,3651948,1757006064,-43.65306031492569,10891.880641222,8366,29.34
+cda-server-2,False,10927.529315710068,"{'sample_time_ms': 33717.148, 'num_steps_trained': 349200, 'grad_time_ms': 370.706, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 486.17718505859375, 'policy_loss': -0.16736049950122833, 'vf_explained_var': 0.017367621883749962, 'entropy': 11.131400108337402, 'cur_lr': 4.999999873689376e-05, 'total_loss': 486.0347900390625, 'kl': 0.01641010493040085}, 'load_time_ms': 0.685, 'num_steps_sampled': 349200, 'update_time_ms': 2.533}",291,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",35.64867448806763,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,349200,349200,{},291,41,-92.21221438592339,2025-09-04_19-15-00,8.000000400008378,3651948,1757006100,-43.812856947642615,10927.529315710068,8407,29.49
+cda-server-2,False,10963.153591632843,"{'sample_time_ms': 33864.213, 'num_steps_trained': 350400, 'grad_time_ms': 368.848, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 459.4781799316406, 'policy_loss': -0.17313633859157562, 'vf_explained_var': 0.01630322076380253, 'entropy': 10.939611434936523, 'cur_lr': 4.999999873689376e-05, 'total_loss': 459.33050537109375, 'kl': 0.016762765124440193}, 'load_time_ms': 0.687, 'num_steps_sampled': 350400, 'update_time_ms': 2.517}",292,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",35.62427592277527,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,350400,350400,{},292,41,-92.72521688390759,2025-09-04_19-15-35,8.000000400008378,3651948,1757006135,-44.099940482126186,10963.153591632843,8448,29.8
+cda-server-2,False,10997.174255371094,"{'sample_time_ms': 33888.988, 'num_steps_trained': 351600, 'grad_time_ms': 370.137, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 427.449462890625, 'policy_loss': -0.1794745922088623, 'vf_explained_var': 0.028868675231933594, 'entropy': 11.113698959350586, 'cur_lr': 4.999999873689376e-05, 'total_loss': 427.29345703125, 'kl': 0.015439452603459358}, 'load_time_ms': 0.692, 'num_steps_sampled': 351600, 'update_time_ms': 2.493}",293,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.02066373825073,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,351600,351600,{},293,43,-92.72521688390759,2025-09-04_19-16-09,8.000000414224198,3651948,1757006169,-42.17512389247495,10997.174255371094,8491,29.01
+cda-server-2,False,11031.405236959457,"{'sample_time_ms': 33907.047, 'num_steps_trained': 352800, 'grad_time_ms': 370.504, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 510.30328369140625, 'policy_loss': -0.18082945048809052, 'vf_explained_var': 0.014124538749456406, 'entropy': 11.173457145690918, 'cur_lr': 4.999999873689376e-05, 'total_loss': 510.14752197265625, 'kl': 0.01647772826254368}, 'load_time_ms': 0.692, 'num_steps_sampled': 352800, 'update_time_ms': 2.501}",294,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.23098158836365,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,352800,352800,{},294,39,-92.72521688390759,2025-09-04_19-16-44,8.000000414224198,3651948,1757006204,-40.4530542152126,11031.405236959457,8530,27.98
+cda-server-2,False,11065.227889537811,"{'sample_time_ms': 33947.023, 'num_steps_trained': 354000, 'grad_time_ms': 372.241, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 533.9700927734375, 'policy_loss': -0.18131543695926666, 'vf_explained_var': 0.018143661320209503, 'entropy': 10.805140495300293, 'cur_lr': 4.999999873689376e-05, 'total_loss': 533.8145751953125, 'kl': 0.016999023035168648}, 'load_time_ms': 0.697, 'num_steps_sampled': 354000, 'update_time_ms': 2.498}",295,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.82265257835388,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,354000,354000,{},295,38,-92.81093397258293,2025-09-04_19-17-17,6.000249367189705,3651948,1757006237,-46.47372406120076,11065.227889537811,8568,30.75
+cda-server-2,False,11100.164932012558,"{'sample_time_ms': 34022.613, 'num_steps_trained': 355200, 'grad_time_ms': 372.335, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 457.92620849609375, 'policy_loss': -0.16722075641155243, 'vf_explained_var': 0.03289921581745148, 'entropy': 11.11696720123291, 'cur_lr': 4.999999873689376e-05, 'total_loss': 457.78167724609375, 'kl': 0.014939261600375175}, 'load_time_ms': 0.703, 'num_steps_sampled': 355200, 'update_time_ms': 2.498}",296,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.937042474746704,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,355200,355200,{},296,43,-92.81093397258293,2025-09-04_19-17-52,8.000185893064492,3651948,1757006272,-45.086113935137554,11100.164932012558,8611,29.87
+cda-server-2,False,11134.67031955719,"{'sample_time_ms': 34077.17, 'num_steps_trained': 356400, 'grad_time_ms': 373.02, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 457.5201721191406, 'policy_loss': -0.16585397720336914, 'vf_explained_var': 0.01322248950600624, 'entropy': 10.969801902770996, 'cur_lr': 4.999999873689376e-05, 'total_loss': 457.3786926269531, 'kl': 0.016034726053476334}, 'load_time_ms': 0.707, 'num_steps_sampled': 356400, 'update_time_ms': 2.507}",297,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.50538754463196,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,356400,356400,{},297,44,-91.00477448244305,2025-09-04_19-18-27,8.000185893064492,3651948,1757006307,-44.24866296136565,11134.67031955719,8655,29.73
+cda-server-2,False,11168.482450246811,"{'sample_time_ms': 34032.64, 'num_steps_trained': 357600, 'grad_time_ms': 373.878, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 438.6772155761719, 'policy_loss': -0.17128852009773254, 'vf_explained_var': 0.04709920659661293, 'entropy': 10.442963600158691, 'cur_lr': 4.999999873689376e-05, 'total_loss': 438.5312805175781, 'kl': 0.016678836196660995}, 'load_time_ms': 0.706, 'num_steps_sampled': 357600, 'update_time_ms': 2.507}",298,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.81213068962097,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,357600,357600,{},298,39,-91.00477448244305,2025-09-04_19-19-01,4.000119808434576,3651948,1757006341,-42.03931444679164,11168.482450246811,8694,28.7
+cda-server-2,False,11201.78668999672,"{'sample_time_ms': 34004.342, 'num_steps_trained': 358800, 'grad_time_ms': 375.751, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 447.9620361328125, 'policy_loss': -0.16031722724437714, 'vf_explained_var': 0.02535586804151535, 'entropy': 11.190040588378906, 'cur_lr': 4.999999873689376e-05, 'total_loss': 447.82476806640625, 'kl': 0.015202601440250874}, 'load_time_ms': 0.708, 'num_steps_sampled': 358800, 'update_time_ms': 2.519}",299,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.30423974990845,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,358800,358800,{},299,37,-90.47411887573381,2025-09-04_19-19-34,4.000031670263265,3651948,1757006374,-45.819786978871925,11201.78668999672,8731,30.58
+cda-server-2,False,11236.350129127502,"{'sample_time_ms': 34066.232, 'num_steps_trained': 360000, 'grad_time_ms': 372.985, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 470.8668212890625, 'policy_loss': -0.17791648209095, 'vf_explained_var': 0.025730881839990616, 'entropy': 10.827828407287598, 'cur_lr': 4.999999873689376e-05, 'total_loss': 470.7132568359375, 'kl': 0.01607631705701351}, 'load_time_ms': 0.684, 'num_steps_sampled': 360000, 'update_time_ms': 2.496}",300,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.56343913078308,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,360000,360000,{},300,42,-89.7114173671742,2025-09-04_19-20-09,4.000438841326207,3651948,1757006409,-43.891822344584035,11236.350129127502,8773,29.8
+cda-server-2,False,11270.30946135521,"{'sample_time_ms': 33899.468, 'num_steps_trained': 361200, 'grad_time_ms': 370.843, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 465.0353088378906, 'policy_loss': -0.17757363617420197, 'vf_explained_var': 0.025346828624606133, 'entropy': 10.962993621826172, 'cur_lr': 4.999999873689376e-05, 'total_loss': 464.88232421875, 'kl': 0.016150841489434242}, 'load_time_ms': 0.673, 'num_steps_sampled': 361200, 'update_time_ms': 2.498}",301,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.95933222770691,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,361200,361200,{},301,43,-90.85085832516624,2025-09-04_19-20-43,4.000807212266899,3651948,1757006443,-41.096598915944796,11270.30946135521,8816,28.4
+cda-server-2,False,11304.162751197815,"{'sample_time_ms': 33720.232, 'num_steps_trained': 362400, 'grad_time_ms': 372.928, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 440.8446960449219, 'policy_loss': -0.1764705777168274, 'vf_explained_var': 0.03883038088679314, 'entropy': 10.327861785888672, 'cur_lr': 4.999999873689376e-05, 'total_loss': 440.6927185058594, 'kl': 0.016116444021463394}, 'load_time_ms': 0.664, 'num_steps_sampled': 362400, 'update_time_ms': 2.526}",302,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.85328984260559,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,362400,362400,{},302,41,-90.85085832516624,2025-09-04_19-21-17,6.000016819112087,3651948,1757006477,-40.31461772771617,11304.162751197815,8857,27.8
+cda-server-2,False,11337.90143108368,"{'sample_time_ms': 33691.236, 'num_steps_trained': 363600, 'grad_time_ms': 373.751, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 488.3429870605469, 'policy_loss': -0.17381690442562103, 'vf_explained_var': 0.00864805094897747, 'entropy': 10.813539505004883, 'cur_lr': 4.999999873689376e-05, 'total_loss': 488.19244384765625, 'kl': 0.015300876460969448}, 'load_time_ms': 0.677, 'num_steps_sampled': 363600, 'update_time_ms': 2.546}",303,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.73867988586426,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,363600,363600,{},303,49,-90.38188123848992,2025-09-04_19-21-50,8.00014073366246,3651948,1757006510,-39.27054027924591,11337.90143108368,8906,27.24
+cda-server-2,False,11372.542692661285,"{'sample_time_ms': 33733.143, 'num_steps_trained': 364800, 'grad_time_ms': 372.899, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 452.9057312011719, 'policy_loss': -0.17092859745025635, 'vf_explained_var': 0.041277069598436356, 'entropy': 10.396652221679688, 'cur_lr': 4.999999873689376e-05, 'total_loss': 452.75872802734375, 'kl': 0.015768442302942276}, 'load_time_ms': 0.679, 'num_steps_sampled': 364800, 'update_time_ms': 2.516}",304,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.6412615776062,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,364800,364800,{},304,45,-90.7861691416485,2025-09-04_19-22-25,8.00014073366246,3651948,1757006545,-36.5787179220657,11372.542692661285,8951,25.85
+cda-server-2,False,11406.358407497406,"{'sample_time_ms': 33733.764, 'num_steps_trained': 366000, 'grad_time_ms': 371.583, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 446.9495849609375, 'policy_loss': -0.17110978066921234, 'vf_explained_var': 0.03779573738574982, 'entropy': 10.373178482055664, 'cur_lr': 4.999999873689376e-05, 'total_loss': 446.8055419921875, 'kl': 0.0178191140294075}, 'load_time_ms': 0.676, 'num_steps_sampled': 366000, 'update_time_ms': 2.511}",305,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.815714836120605,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,366000,366000,{},305,39,-92.60063372662192,2025-09-04_19-22-59,6.000007229369329,3651948,1757006579,-39.96323283805395,11406.358407497406,8990,27.7
+cda-server-2,False,11439.82025885582,"{'sample_time_ms': 33585.514, 'num_steps_trained': 367200, 'grad_time_ms': 372.256, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 436.24420166015625, 'policy_loss': -0.17119070887565613, 'vf_explained_var': 0.0166848823428154, 'entropy': 10.841540336608887, 'cur_lr': 4.999999873689376e-05, 'total_loss': 436.0961608886719, 'kl': 0.015268008224666119}, 'load_time_ms': 0.686, 'num_steps_sampled': 367200, 'update_time_ms': 2.526}",306,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.461851358413696,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,367200,367200,{},306,41,-92.60063372662192,2025-09-04_19-23-32,6.000004586562605,3651948,1757006612,-40.937305473336274,11439.82025885582,9031,28.35
+cda-server-2,False,11474.576438903809,"{'sample_time_ms': 33611.464, 'num_steps_trained': 368400, 'grad_time_ms': 371.401, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 468.3873291015625, 'policy_loss': -0.16533058881759644, 'vf_explained_var': 0.018551025539636612, 'entropy': 10.50613021850586, 'cur_lr': 4.999999873689376e-05, 'total_loss': 468.24755859375, 'kl': 0.016813894733786583}, 'load_time_ms': 0.684, 'num_steps_sampled': 368400, 'update_time_ms': 2.529}",307,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.75618004798889,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,368400,368400,{},307,48,-92.60063372662192,2025-09-04_19-24-07,8.000000400007286,3651948,1757006647,-41.111321091324605,11474.576438903809,9079,28.19
+cda-server-2,False,11509.679752349854,"{'sample_time_ms': 33741.183, 'num_steps_trained': 369600, 'grad_time_ms': 370.742, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 470.12060546875, 'policy_loss': -0.18637312948703766, 'vf_explained_var': 0.030650615692138672, 'entropy': 10.451064109802246, 'cur_lr': 4.999999873689376e-05, 'total_loss': 469.9599609375, 'kl': 0.016943683847784996}, 'load_time_ms': 0.695, 'num_steps_sampled': 369600, 'update_time_ms': 2.561}",308,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",35.10331344604492,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,369600,369600,{},308,51,-91.00169171281546,2025-09-04_19-24-42,8.000000400007286,3651948,1757006682,-34.03625109420629,11509.679752349854,9130,24.58
+cda-server-2,False,11543.63292002678,"{'sample_time_ms': 33807.24, 'num_steps_trained': 370800, 'grad_time_ms': 369.547, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 442.1883239746094, 'policy_loss': -0.1690937876701355, 'vf_explained_var': 0.02821219712495804, 'entropy': 10.33169174194336, 'cur_lr': 4.999999873689376e-05, 'total_loss': 442.0450744628906, 'kl': 0.017036719247698784}, 'load_time_ms': 0.696, 'num_steps_sampled': 370800, 'update_time_ms': 2.551}",309,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.95316767692566,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,370800,370800,{},309,47,-90.53602674662793,2025-09-04_19-25-16,8.000000798729044,3651948,1757006716,-34.02483593865472,11543.63292002678,9177,24.64
+cda-server-2,False,11579.952924489975,"{'sample_time_ms': 33982.89, 'num_steps_trained': 372000, 'grad_time_ms': 369.496, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 454.09228515625, 'policy_loss': -0.1684252768754959, 'vf_explained_var': 0.023490898311138153, 'entropy': 10.880743980407715, 'cur_lr': 4.999999873689376e-05, 'total_loss': 453.9481506347656, 'kl': 0.01598125509917736}, 'load_time_ms': 0.699, 'num_steps_sampled': 372000, 'update_time_ms': 2.593}",310,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",36.3200044631958,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,372000,372000,{},310,39,-90.92068676932722,2025-09-04_19-25-52,8.000000862998787,3651948,1757006752,-39.42615856737131,11579.952924489975,9216,27.46
+cda-server-2,False,11614.5580804348,"{'sample_time_ms': 34047.864, 'num_steps_trained': 373200, 'grad_time_ms': 369.15, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 457.7786560058594, 'policy_loss': -0.1775304675102234, 'vf_explained_var': 0.0441647432744503, 'entropy': 10.423691749572754, 'cur_lr': 4.999999873689376e-05, 'total_loss': 457.62640380859375, 'kl': 0.016661131754517555}, 'load_time_ms': 0.698, 'num_steps_sampled': 373200, 'update_time_ms': 2.534}",311,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.60515594482422,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,373200,373200,{},311,42,-90.92068676932722,2025-09-04_19-26-27,8.000000862998787,3651948,1757006787,-43.4336529885708,11614.5580804348,9258,29.6
+cda-server-2,False,11649.249782562256,"{'sample_time_ms': 34131.489, 'num_steps_trained': 374400, 'grad_time_ms': 369.354, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 432.60369873046875, 'policy_loss': -0.17828994989395142, 'vf_explained_var': 0.022118397057056427, 'entropy': 10.850200653076172, 'cur_lr': 4.999999873689376e-05, 'total_loss': 432.4488220214844, 'kl': 0.015431063249707222}, 'load_time_ms': 0.718, 'num_steps_sampled': 374400, 'update_time_ms': 2.521}",312,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.691702127456665,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,374400,374400,{},312,40,-90.92068676932722,2025-09-04_19-27-02,6.000735919372879,3651948,1757006822,-42.25150743222122,11649.249782562256,9298,29.17
+cda-server-2,False,11682.78334569931,"{'sample_time_ms': 34111.719, 'num_steps_trained': 375600, 'grad_time_ms': 368.598, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 459.1776123046875, 'policy_loss': -0.16833318769931793, 'vf_explained_var': 0.026400724425911903, 'entropy': 10.802581787109375, 'cur_lr': 4.999999873689376e-05, 'total_loss': 459.03466796875, 'kl': 0.016738150268793106}, 'load_time_ms': 0.704, 'num_steps_sampled': 375600, 'update_time_ms': 2.515}",313,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.53356313705444,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,375600,375600,{},313,42,-91.18932892772914,2025-09-04_19-27-35,6.000122607347135,3651948,1757006855,-41.76542683120597,11682.78334569931,9340,28.87
+cda-server-2,False,11716.662359952927,"{'sample_time_ms': 34033.137, 'num_steps_trained': 376800, 'grad_time_ms': 370.927, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 485.48138427734375, 'policy_loss': -0.17875385284423828, 'vf_explained_var': 0.027348611503839493, 'entropy': 10.68716812133789, 'cur_lr': 4.999999873689376e-05, 'total_loss': 485.32855224609375, 'kl': 0.01707782968878746}, 'load_time_ms': 0.704, 'num_steps_sampled': 376800, 'update_time_ms': 2.547}",314,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.87901425361633,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,376800,376800,{},314,42,-91.18932892772914,2025-09-04_19-28-09,6.000089715762789,3651948,1757006889,-40.81040170179933,11716.662359952927,9382,28.27
+cda-server-2,False,11751.556572198868,"{'sample_time_ms': 34139.255, 'num_steps_trained': 378000, 'grad_time_ms': 372.558, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 476.6417541503906, 'policy_loss': -0.17584042251110077, 'vf_explained_var': 0.024531476199626923, 'entropy': 10.380701065063477, 'cur_lr': 4.999999873689376e-05, 'total_loss': 476.48974609375, 'kl': 0.015712270513176918}, 'load_time_ms': 0.71, 'num_steps_sampled': 378000, 'update_time_ms': 2.589}",315,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.89421224594116,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,378000,378000,{},315,42,-91.48104105416093,2025-09-04_19-28-44,4.0007128072887825,3651948,1757006924,-41.17581426210382,11751.556572198868,9424,28.3
+cda-server-2,False,11785.116604804993,"{'sample_time_ms': 34150.172, 'num_steps_trained': 379200, 'grad_time_ms': 371.473, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 384.29254150390625, 'policy_loss': -0.1812402904033661, 'vf_explained_var': 0.0466405488550663, 'entropy': 10.41860294342041, 'cur_lr': 4.999999873689376e-05, 'total_loss': 384.13897705078125, 'kl': 0.018215632066130638}, 'load_time_ms': 0.7, 'num_steps_sampled': 379200, 'update_time_ms': 2.611}",316,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.56003260612488,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,379200,379200,{},316,51,-91.48104105416093,2025-09-04_19-29-18,8.000002855581583,3651948,1757006958,-37.85689061438333,11785.116604804993,9475,26.68
+cda-server-2,False,11819.322497367859,"{'sample_time_ms': 34095.459, 'num_steps_trained': 380400, 'grad_time_ms': 371.202, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 415.83062744140625, 'policy_loss': -0.17209358513355255, 'vf_explained_var': 0.027635348960757256, 'entropy': 10.5113525390625, 'cur_lr': 4.999999873689376e-05, 'total_loss': 415.6828918457031, 'kl': 0.016044579446315765}, 'load_time_ms': 0.696, 'num_steps_sampled': 380400, 'update_time_ms': 2.583}",317,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.20589256286621,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,380400,380400,{},317,51,-88.86592084271396,2025-09-04_19-29-52,8.00008632033351,3651948,1757006992,-31.692435923445323,11819.322497367859,9526,23.74
+cda-server-2,False,11853.869593143463,"{'sample_time_ms': 34041.677, 'num_steps_trained': 381600, 'grad_time_ms': 369.43, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 425.4674072265625, 'policy_loss': -0.1668584793806076, 'vf_explained_var': 0.018289612606167793, 'entropy': 10.087419509887695, 'cur_lr': 4.999999873689376e-05, 'total_loss': 425.3260192871094, 'kl': 0.016720084473490715}, 'load_time_ms': 0.678, 'num_steps_sampled': 381600, 'update_time_ms': 2.542}",318,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.54709577560425,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,381600,381600,{},318,53,-88.86592084271396,2025-09-04_19-30-27,8.000000403908986,3651948,1757007027,-29.71029033445762,11853.869593143463,9579,22.75
+cda-server-2,False,11887.57539987564,"{'sample_time_ms': 34015.048, 'num_steps_trained': 382800, 'grad_time_ms': 371.326, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 417.201171875, 'policy_loss': -0.17120924592018127, 'vf_explained_var': 0.034845318645238876, 'entropy': 10.042140007019043, 'cur_lr': 4.999999873689376e-05, 'total_loss': 417.05718994140625, 'kl': 0.017931900918483734}, 'load_time_ms': 0.68, 'num_steps_sampled': 382800, 'update_time_ms': 2.521}",319,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.705806732177734,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,382800,382800,{},319,40,-90.3618584300389,2025-09-04_19-31-00,8.000088781906566,3651948,1757007060,-35.939346751680006,11887.57539987564,9619,25.8
+cda-server-2,False,11921.361751317978,"{'sample_time_ms': 33761.574, 'num_steps_trained': 384000, 'grad_time_ms': 371.469, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 457.16656494140625, 'policy_loss': -0.18198245763778687, 'vf_explained_var': 0.013436595909297466, 'entropy': 10.356392860412598, 'cur_lr': 4.999999873689376e-05, 'total_loss': 457.0089416503906, 'kl': 0.01606649160385132}, 'load_time_ms': 0.681, 'num_steps_sampled': 384000, 'update_time_ms': 2.496}",320,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.786351442337036,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,384000,384000,{},320,48,-90.3618584300389,2025-09-04_19-31-34,10.0,3651948,1757007094,-37.11216717509862,11921.361751317978,9667,26.4
+cda-server-2,False,11956.108426094055,"{'sample_time_ms': 33773.094, 'num_steps_trained': 385200, 'grad_time_ms': 374.036, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 386.59881591796875, 'policy_loss': -0.16370391845703125, 'vf_explained_var': 0.02832198143005371, 'entropy': 9.846466064453125, 'cur_lr': 4.999999873689376e-05, 'total_loss': 386.4592590332031, 'kl': 0.015905356034636497}, 'load_time_ms': 0.692, 'num_steps_sampled': 385200, 'update_time_ms': 2.5}",321,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.74667477607727,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,385200,385200,{},321,59,-88.47117760721373,2025-09-04_19-32-09,10.0,3651948,1757007129,-28.40865093339731,11956.108426094055,9726,22.03
+cda-server-2,False,11989.999118328094,"{'sample_time_ms': 33693.055, 'num_steps_trained': 386400, 'grad_time_ms': 373.996, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 372.04437255859375, 'policy_loss': -0.16547948122024536, 'vf_explained_var': 0.043456368148326874, 'entropy': 10.279644012451172, 'cur_lr': 4.999999873689376e-05, 'total_loss': 371.90472412109375, 'kl': 0.016999872401356697}, 'load_time_ms': 0.679, 'num_steps_sampled': 386400, 'update_time_ms': 2.53}",322,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.89069223403931,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,386400,386400,{},322,40,-89.53242538543225,2025-09-04_19-32-43,8.000425996567381,3651948,1757007163,-32.815327842877174,11989.999118328094,9766,24.51
+cda-server-2,False,12024.175191640854,"{'sample_time_ms': 33757.041, 'num_steps_trained': 387600, 'grad_time_ms': 374.23, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 489.5959167480469, 'policy_loss': -0.1738227903842926, 'vf_explained_var': 0.023348549380898476, 'entropy': 10.526703834533691, 'cur_lr': 4.999999873689376e-05, 'total_loss': 489.4485778808594, 'kl': 0.01741768978536129}, 'load_time_ms': 0.697, 'num_steps_sampled': 387600, 'update_time_ms': 2.52}",323,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.1760733127594,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,387600,387600,{},323,52,-89.53242538543225,2025-09-04_19-33-17,8.001431129957744,3651948,1757007197,-34.47625280541841,12024.175191640854,9818,25.18
+cda-server-2,False,12059.069237470627,"{'sample_time_ms': 33860.581, 'num_steps_trained': 388800, 'grad_time_ms': 372.195, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 440.6160888671875, 'policy_loss': -0.18319621682167053, 'vf_explained_var': 0.03996426612138748, 'entropy': 10.28986930847168, 'cur_lr': 4.999999873689376e-05, 'total_loss': 440.45819091796875, 'kl': 0.01664073020219803}, 'load_time_ms': 0.699, 'num_steps_sampled': 388800, 'update_time_ms': 2.511}",324,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.89404582977295,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,388800,388800,{},324,44,-89.8807812709613,2025-09-04_19-33-52,8.001431129957744,3651948,1757007232,-34.75706033933923,12059.069237470627,9862,25.01
+cda-server-2,False,12093.288192510605,"{'sample_time_ms': 33793.196, 'num_steps_trained': 390000, 'grad_time_ms': 372.144, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 507.6988525390625, 'policy_loss': -0.17963431775569916, 'vf_explained_var': 0.016723016276955605, 'entropy': 10.052237510681152, 'cur_lr': 4.999999873689376e-05, 'total_loss': 507.5438232421875, 'kl': 0.01622912287712097}, 'load_time_ms': 0.702, 'num_steps_sampled': 390000, 'update_time_ms': 2.472}",325,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.21895503997803,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,390000,390000,{},325,42,-89.8807812709613,2025-09-04_19-34-26,8.001431129957744,3651948,1757007266,-36.93958016580334,12093.288192510605,9904,26.11
+cda-server-2,False,12127.234577655792,"{'sample_time_ms': 33833.444, 'num_steps_trained': 391200, 'grad_time_ms': 370.617, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 478.32574462890625, 'policy_loss': -0.16879968345165253, 'vf_explained_var': 0.04178478196263313, 'entropy': 9.682168960571289, 'cur_lr': 4.999999873689376e-05, 'total_loss': 478.1843566894531, 'kl': 0.018091507256031036}, 'load_time_ms': 0.689, 'num_steps_sampled': 391200, 'update_time_ms': 2.442}",326,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.94638514518738,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,391200,391200,{},326,48,-90.19253982500018,2025-09-04_19-35-00,6.000000800106407,3651948,1757007300,-37.00160192012961,12127.234577655792,9952,26.28
+cda-server-2,False,12161.142486095428,"{'sample_time_ms': 33802.232, 'num_steps_trained': 392400, 'grad_time_ms': 371.967, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 454.6077880859375, 'policy_loss': -0.18222576379776, 'vf_explained_var': 0.03381510451436043, 'entropy': 10.573821067810059, 'cur_lr': 4.999999873689376e-05, 'total_loss': 454.4508056640625, 'kl': 0.0166572667658329}, 'load_time_ms': 0.696, 'num_steps_sampled': 392400, 'update_time_ms': 2.491}",327,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.90790843963623,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,392400,392400,{},327,43,-91.57674154747771,2025-09-04_19-35-34,6.00000411929137,3651948,1757007334,-39.444600090042655,12161.142486095428,9995,27.34
+cda-server-2,False,12194.925875902176,"{'sample_time_ms': 33723.657, 'num_steps_trained': 393600, 'grad_time_ms': 374.075, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 458.1942138671875, 'policy_loss': -0.1842077076435089, 'vf_explained_var': 0.03987787663936615, 'entropy': 10.133516311645508, 'cur_lr': 4.999999873689376e-05, 'total_loss': 458.0357971191406, 'kl': 0.016979089006781578}, 'load_time_ms': 0.698, 'num_steps_sampled': 393600, 'update_time_ms': 2.536}",328,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.78338980674744,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,393600,393600,{},328,52,-91.57674154747771,2025-09-04_19-36-08,8.000056522565014,3651948,1757007368,-36.65842037138543,12194.925875902176,10047,25.97
+cda-server-2,False,12228.733886957169,"{'sample_time_ms': 33736.663, 'num_steps_trained': 394800, 'grad_time_ms': 371.248, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 393.3811950683594, 'policy_loss': -0.17357520759105682, 'vf_explained_var': 0.0357980877161026, 'entropy': 10.196868896484375, 'cur_lr': 4.999999873689376e-05, 'total_loss': 393.2325744628906, 'kl': 0.016411934047937393}, 'load_time_ms': 0.694, 'num_steps_sampled': 394800, 'update_time_ms': 2.613}",329,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.808011054992676,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,394800,394800,{},329,51,-91.04302995749633,2025-09-04_19-36-42,8.000056522565014,3651948,1757007402,-30.52933196730402,12228.733886957169,10098,22.97
+cda-server-2,False,12262.225366592407,"{'sample_time_ms': 33705.83, 'num_steps_trained': 396000, 'grad_time_ms': 372.564, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 460.1976013183594, 'policy_loss': -0.16239674389362335, 'vf_explained_var': 0.028911564499139786, 'entropy': 9.807985305786133, 'cur_lr': 4.999999873689376e-05, 'total_loss': 460.06298828125, 'kl': 0.018334100022912025}, 'load_time_ms': 0.697, 'num_steps_sampled': 396000, 'update_time_ms': 2.616}",330,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.49147963523865,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,396000,396000,{},330,54,-91.04302995749633,2025-09-04_19-37-15,8.000016476484692,3651948,1757007435,-29.211292415069355,12262.225366592407,10152,22.39
+cda-server-2,False,12295.86148929596,"{'sample_time_ms': 33596.572, 'num_steps_trained': 397200, 'grad_time_ms': 370.79, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 444.2686462402344, 'policy_loss': -0.18200664222240448, 'vf_explained_var': 0.02418290264904499, 'entropy': 10.006134033203125, 'cur_lr': 4.999999873689376e-05, 'total_loss': 444.1136474609375, 'kl': 0.017796959728002548}, 'load_time_ms': 0.69, 'num_steps_sampled': 397200, 'update_time_ms': 2.642}",331,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.636122703552246,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,397200,397200,{},331,49,-92.5131862655504,2025-09-04_19-37-49,8.000016476484692,3651948,1757007469,-31.506307522804214,12295.86148929596,10201,23.42
+cda-server-2,False,12329.590245008469,"{'sample_time_ms': 33579.446, 'num_steps_trained': 398400, 'grad_time_ms': 371.749, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 420.9778747558594, 'policy_loss': -0.1725282073020935, 'vf_explained_var': 0.03219058737158775, 'entropy': 10.413145065307617, 'cur_lr': 4.999999873689376e-05, 'total_loss': 420.8314208984375, 'kl': 0.017172694206237793}, 'load_time_ms': 0.686, 'num_steps_sampled': 398400, 'update_time_ms': 2.614}",332,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.728755712509155,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,398400,398400,{},332,52,-92.5131862655504,2025-09-04_19-38-23,8.00000079838559,3651948,1757007503,-31.67599185907574,12329.590245008469,10253,23.77
+cda-server-2,False,12363.33668923378,"{'sample_time_ms': 33537.076, 'num_steps_trained': 399600, 'grad_time_ms': 371.145, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 411.8221130371094, 'policy_loss': -0.17770729959011078, 'vf_explained_var': 0.023092150688171387, 'entropy': 9.869694709777832, 'cur_lr': 4.999999873689376e-05, 'total_loss': 411.67071533203125, 'kl': 0.017328284680843353}, 'load_time_ms': 0.68, 'num_steps_sampled': 399600, 'update_time_ms': 2.624}",333,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.74644422531128,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,399600,399600,{},333,48,-90.46378407689798,2025-09-04_19-38-56,8.000012068655842,3651948,1757007536,-31.981388016325546,12363.33668923378,10301,23.92
+cda-server-2,False,12396.86396741867,"{'sample_time_ms': 33400.582, 'num_steps_trained': 400800, 'grad_time_ms': 370.955, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 413.9346923828125, 'policy_loss': -0.17096306383609772, 'vf_explained_var': 0.029395541176199913, 'entropy': 10.063179016113281, 'cur_lr': 4.999999873689376e-05, 'total_loss': 413.7904968261719, 'kl': 0.017636030912399292}, 'load_time_ms': 0.679, 'num_steps_sampled': 400800, 'update_time_ms': 2.625}",334,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.52727818489075,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,400800,400800,{},334,53,-90.15161401563806,2025-09-04_19-39-30,8.000012068655842,3651948,1757007570,-31.55424944512829,12396.86396741867,10354,23.56
+cda-server-2,False,12431.238450527191,"{'sample_time_ms': 33416.36, 'num_steps_trained': 402000, 'grad_time_ms': 370.713, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 399.13482666015625, 'policy_loss': -0.17379695177078247, 'vf_explained_var': 0.027004705742001534, 'entropy': 9.99160099029541, 'cur_lr': 4.999999873689376e-05, 'total_loss': 398.9884033203125, 'kl': 0.018025698140263557}, 'load_time_ms': 0.67, 'num_steps_sampled': 402000, 'update_time_ms': 2.643}",335,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.37448310852051,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,402000,402000,{},335,47,-89.7706388726001,2025-09-04_19-40-04,8.000003450078843,3651948,1757007604,-32.67628960781086,12431.238450527191,10401,24.22
+cda-server-2,False,12466.360349416733,"{'sample_time_ms': 33534.046, 'num_steps_trained': 403200, 'grad_time_ms': 370.576, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 462.3807067871094, 'policy_loss': -0.17687784135341644, 'vf_explained_var': 0.03196879103779793, 'entropy': 9.953373908996582, 'cur_lr': 4.999999873689376e-05, 'total_loss': 462.2281494140625, 'kl': 0.016013547778129578}, 'load_time_ms': 0.667, 'num_steps_sampled': 403200, 'update_time_ms': 2.637}",336,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",35.121898889541626,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,403200,403200,{},336,48,-90.71343893449779,2025-09-04_19-40-39,8.000039580994097,3651948,1757007639,-34.02233865251927,12466.360349416733,10449,24.92
+cda-server-2,False,12500.164155006409,"{'sample_time_ms': 33524.415, 'num_steps_trained': 404400, 'grad_time_ms': 369.817, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 405.3450927734375, 'policy_loss': -0.15513576567173004, 'vf_explained_var': 0.04755732789635658, 'entropy': 9.821985244750977, 'cur_lr': 4.999999873689376e-05, 'total_loss': 405.2188720703125, 'kl': 0.019034268334507942}, 'load_time_ms': 0.674, 'num_steps_sampled': 404400, 'update_time_ms': 2.591}",337,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.8038055896759,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,404400,404400,{},337,53,-90.71343893449779,2025-09-04_19-41-13,8.000175876177645,3651948,1757007673,-30.839615923559972,12500.164155006409,10502,23.29
+cda-server-2,False,12534.323317050934,"{'sample_time_ms': 33560.971, 'num_steps_trained': 405600, 'grad_time_ms': 370.799, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 423.502197265625, 'policy_loss': -0.1640964299440384, 'vf_explained_var': 0.02169586531817913, 'entropy': 10.113418579101562, 'cur_lr': 4.999999873689376e-05, 'total_loss': 423.36187744140625, 'kl': 0.015655517578125}, 'load_time_ms': 0.694, 'num_steps_sampled': 405600, 'update_time_ms': 2.569}",338,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.15916204452515,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,405600,405600,{},338,59,-88.64704893157999,2025-09-04_19-41-47,8.000175876177645,3651948,1757007707,-29.41639047896397,12534.323317050934,10561,22.53
+cda-server-2,False,12569.255161523819,"{'sample_time_ms': 33671.241, 'num_steps_trained': 406800, 'grad_time_ms': 372.866, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 383.4759216308594, 'policy_loss': -0.17542091012001038, 'vf_explained_var': 0.035720545798540115, 'entropy': 9.911641120910645, 'cur_lr': 4.999999873689376e-05, 'total_loss': 383.3271484375, 'kl': 0.0175609327852726}, 'load_time_ms': 0.699, 'num_steps_sampled': 406800, 'update_time_ms': 2.558}",339,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.93184447288513,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,406800,406800,{},339,54,-88.95639733666384,2025-09-04_19-42-22,8.000058437428255,3651948,1757007742,-27.918244561996463,12569.255161523819,10615,21.57
+cda-server-2,False,12603.29483294487,"{'sample_time_ms': 33726.576, 'num_steps_trained': 408000, 'grad_time_ms': 372.281, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 403.29644775390625, 'policy_loss': -0.1811588853597641, 'vf_explained_var': 0.0359710268676281, 'entropy': 10.170073509216309, 'cur_lr': 4.999999873689376e-05, 'total_loss': 403.1409912109375, 'kl': 0.016941126435995102}, 'load_time_ms': 0.707, 'num_steps_sampled': 408000, 'update_time_ms': 2.58}",340,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.039671421051025,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,408000,408000,{},340,57,-88.95639733666384,2025-09-04_19-42-56,8.000000400035175,3651948,1757007776,-29.118594932413465,12603.29483294487,10672,22.42
+cda-server-2,False,12637.108101844788,"{'sample_time_ms': 33743.381, 'num_steps_trained': 409200, 'grad_time_ms': 373.145, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 424.63726806640625, 'policy_loss': -0.16347110271453857, 'vf_explained_var': 0.01010894775390625, 'entropy': 9.663955688476562, 'cur_lr': 4.999999873689376e-05, 'total_loss': 424.49853515625, 'kl': 0.01630197837948799}, 'load_time_ms': 0.705, 'num_steps_sampled': 409200, 'update_time_ms': 2.578}",341,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.8132688999176,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,409200,409200,{},341,53,-90.20769829520017,2025-09-04_19-43-30,6.00013661095259,3651948,1757007810,-27.016400122087536,12637.108101844788,10725,21.22
+cda-server-2,False,12671.506431818008,"{'sample_time_ms': 33811.34, 'num_steps_trained': 410400, 'grad_time_ms': 372.123, 'default': {'cur_kl_coeff': 1.5187499523162842, 'vf_loss': 449.7720642089844, 'policy_loss': -0.16926951706409454, 'vf_explained_var': 0.023888012394309044, 'entropy': 10.053503036499023, 'cur_lr': 4.999999873689376e-05, 'total_loss': 449.6346435546875, 'kl': 0.020978741347789764}, 'load_time_ms': 0.703, 'num_steps_sampled': 410400, 'update_time_ms': 2.601}",342,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.398329973220825,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,410400,410400,{},342,53,-91.16869126360704,2025-09-04_19-44-05,6.000537418055949,3651948,1757007845,-30.113403214695477,12671.506431818008,10778,22.61
+cda-server-2,False,12705.677307367325,"{'sample_time_ms': 33852.925, 'num_steps_trained': 411600, 'grad_time_ms': 373.041, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 439.0072021484375, 'policy_loss': -0.16299201548099518, 'vf_explained_var': 0.03032485581934452, 'entropy': 9.606775283813477, 'cur_lr': 4.999999873689376e-05, 'total_loss': 438.87518310546875, 'kl': 0.013596983626484871}, 'load_time_ms': 0.693, 'num_steps_sampled': 411600, 'update_time_ms': 2.607}",343,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.170875549316406,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,411600,411600,{},343,48,-91.6940993715843,2025-09-04_19-44-39,6.000537418055949,3651948,1757007879,-32.992714094059394,12705.677307367325,10826,24.04
+cda-server-2,False,12739.35609960556,"{'sample_time_ms': 33866.384, 'num_steps_trained': 412800, 'grad_time_ms': 374.732, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 446.5347595214844, 'policy_loss': -0.1601501703262329, 'vf_explained_var': 0.03740853816270828, 'entropy': 9.86202621459961, 'cur_lr': 4.999999873689376e-05, 'total_loss': 446.40704345703125, 'kl': 0.014236312359571457}, 'load_time_ms': 0.691, 'num_steps_sampled': 412800, 'update_time_ms': 2.584}",344,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.678792238235474,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,412800,412800,{},344,49,-91.6940993715843,2025-09-04_19-45-13,8.000000558693417,3651948,1757007913,-33.83636061839598,12739.35609960556,10875,24.63
+cda-server-2,False,12774.302807807922,"{'sample_time_ms': 33925.112, 'num_steps_trained': 414000, 'grad_time_ms': 373.227, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 488.3459167480469, 'policy_loss': -0.15767335891723633, 'vf_explained_var': 0.021632233634591103, 'entropy': 9.496479988098145, 'cur_lr': 4.999999873689376e-05, 'total_loss': 488.2213439941406, 'kl': 0.014542263001203537}, 'load_time_ms': 0.69, 'num_steps_sampled': 414000, 'update_time_ms': 2.588}",345,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.94670820236206,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,414000,414000,{},345,45,-93.34928755288458,2025-09-04_19-45-48,8.000000558693417,3651948,1757007948,-34.39253631504618,12774.302807807922,10920,24.92
+cda-server-2,False,12808.581895112991,"{'sample_time_ms': 33838.976, 'num_steps_trained': 415200, 'grad_time_ms': 375.046, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 492.27984619140625, 'policy_loss': -0.1693073809146881, 'vf_explained_var': 0.02376851812005043, 'entropy': 9.99674129486084, 'cur_lr': 4.999999873689376e-05, 'total_loss': 492.14208984375, 'kl': 0.013864864595234394}, 'load_time_ms': 0.694, 'num_steps_sampled': 415200, 'update_time_ms': 2.58}",346,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.27908730506897,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,415200,415200,{},346,56,-93.34928755288458,2025-09-04_19-46-22,8.000000400000136,3651948,1757007982,-31.76091932012032,12808.581895112991,10976,23.41
+cda-server-2,False,12842.978868246078,"{'sample_time_ms': 33900.113, 'num_steps_trained': 416400, 'grad_time_ms': 373.212, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 410.708740234375, 'policy_loss': -0.16634632647037506, 'vf_explained_var': 0.02237485535442829, 'entropy': 9.893744468688965, 'cur_lr': 4.999999873689376e-05, 'total_loss': 410.57379150390625, 'kl': 0.013760336674749851}, 'load_time_ms': 0.683, 'num_steps_sampled': 416400, 'update_time_ms': 2.613}",347,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.39697313308716,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,416400,416400,{},347,52,-91.73648583108125,2025-09-04_19-46-56,8.000025663690788,3651948,1757008016,-27.793360037345355,12842.978868246078,11028,21.75
+cda-server-2,False,12876.585081338882,"{'sample_time_ms': 33845.898, 'num_steps_trained': 417600, 'grad_time_ms': 372.207, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 476.0789794921875, 'policy_loss': -0.17810894548892975, 'vf_explained_var': 0.021973775699734688, 'entropy': 10.166853904724121, 'cur_lr': 4.999999873689376e-05, 'total_loss': 475.93109130859375, 'kl': 0.013259019702672958}, 'load_time_ms': 0.672, 'num_steps_sampled': 417600, 'update_time_ms': 2.604}",348,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.606213092803955,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,417600,417600,{},348,47,-88.64009437858603,2025-09-04_19-47-30,8.000025663690788,3651948,1757008050,-32.03545341435674,12876.585081338882,11075,24.11
+cda-server-2,False,12911.08446264267,"{'sample_time_ms': 33803.342, 'num_steps_trained': 418800, 'grad_time_ms': 371.594, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 453.6725769042969, 'policy_loss': -0.16002562642097473, 'vf_explained_var': 0.01317038107663393, 'entropy': 9.815576553344727, 'cur_lr': 4.999999873689376e-05, 'total_loss': 453.5440673828125, 'kl': 0.013857332058250904}, 'load_time_ms': 0.669, 'num_steps_sampled': 418800, 'update_time_ms': 2.589}",349,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.49938130378723,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,418800,418800,{},349,55,-90.00761375590767,2025-09-04_19-48-04,8.000005925901757,3651948,1757008084,-30.707022201649437,12911.08446264267,11130,23.22
+cda-server-2,False,12945.261041402817,"{'sample_time_ms': 33817.869, 'num_steps_trained': 420000, 'grad_time_ms': 370.853, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 407.9132995605469, 'policy_loss': -0.16499578952789307, 'vf_explained_var': 0.03471194952726364, 'entropy': 9.714946746826172, 'cur_lr': 4.999999873689376e-05, 'total_loss': 407.78009033203125, 'kl': 0.013945111073553562}, 'load_time_ms': 0.66, 'num_steps_sampled': 420000, 'update_time_ms': 2.544}",350,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.176578760147095,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,420000,420000,{},350,51,-90.00761375590767,2025-09-04_19-48-39,8.000005925901757,3651948,1757008119,-30.900000083980526,12945.261041402817,11181,23.31
+cda-server-2,False,12979.243041276932,"{'sample_time_ms': 33834.387, 'num_steps_trained': 421200, 'grad_time_ms': 371.215, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 537.1176147460938, 'policy_loss': -0.17601019144058228, 'vf_explained_var': 0.02266140840947628, 'entropy': 9.728290557861328, 'cur_lr': 4.999999873689376e-05, 'total_loss': 536.9721069335938, 'kl': 0.01338786631822586}, 'load_time_ms': 0.677, 'num_steps_sampled': 421200, 'update_time_ms': 2.534}",351,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.98199987411499,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,421200,421200,{},351,48,-90.79064585737844,2025-09-04_19-49-13,8.000002448755124,3651948,1757008153,-33.23412642428405,12979.243041276932,11229,24.62
+cda-server-2,False,13014.3508746624,"{'sample_time_ms': 33905.471, 'num_steps_trained': 422400, 'grad_time_ms': 370.991, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 408.62109375, 'policy_loss': -0.16284993290901184, 'vf_explained_var': 0.02897910214960575, 'entropy': 9.529528617858887, 'cur_lr': 4.999999873689376e-05, 'total_loss': 408.4875793457031, 'kl': 0.012877307832241058}, 'load_time_ms': 0.686, 'num_steps_sampled': 422400, 'update_time_ms': 2.538}",352,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",35.10783338546753,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,422400,422400,{},352,51,-90.79064585737844,2025-09-04_19-49-48,8.001778770566665,3651948,1757008188,-32.80922522194475,13014.3508746624,11280,24.32
+cda-server-2,False,13048.411231994629,"{'sample_time_ms': 33894.548, 'num_steps_trained': 423600, 'grad_time_ms': 370.781, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 435.6541442871094, 'policy_loss': -0.16300548613071442, 'vf_explained_var': 0.023583777248859406, 'entropy': 9.866662979125977, 'cur_lr': 4.999999873689376e-05, 'total_loss': 435.5221252441406, 'kl': 0.013616513460874557}, 'load_time_ms': 0.697, 'num_steps_sampled': 423600, 'update_time_ms': 2.544}",353,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.060357332229614,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,423600,423600,{},353,52,-89.77622935353544,2025-09-04_19-50-22,8.001778770566665,3651948,1757008222,-29.7972654921513,13048.411231994629,11332,22.84
+cda-server-2,False,13082.31562924385,"{'sample_time_ms': 33916.361, 'num_steps_trained': 424800, 'grad_time_ms': 371.457, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 426.9761047363281, 'policy_loss': -0.17525018751621246, 'vf_explained_var': 0.03275012969970703, 'entropy': 9.468761444091797, 'cur_lr': 4.999999873689376e-05, 'total_loss': 426.8311462402344, 'kl': 0.013292660936713219}, 'load_time_ms': 0.706, 'num_steps_sampled': 424800, 'update_time_ms': 2.595}",354,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",33.9043972492218,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,424800,424800,{},354,55,-89.38275743036891,2025-09-04_19-50-56,8.002367688676628,3651948,1757008256,-29.41284275895553,13082.31562924385,11387,22.39
+cda-server-2,False,13116.891928434372,"{'sample_time_ms': 33879.38, 'num_steps_trained': 426000, 'grad_time_ms': 371.365, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 413.310302734375, 'policy_loss': -0.16663283109664917, 'vf_explained_var': 0.02166224829852581, 'entropy': 9.784157752990723, 'cur_lr': 4.999999873689376e-05, 'total_loss': 413.1813049316406, 'kl': 0.016536220908164978}, 'load_time_ms': 0.706, 'num_steps_sampled': 426000, 'update_time_ms': 2.631}",355,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.57629919052124,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,426000,426000,{},355,50,-90.10231683526233,2025-09-04_19-51-30,8.002367688676628,3651948,1757008290,-29.290278504249542,13116.891928434372,11437,22.49
+cda-server-2,False,13151.868121147156,"{'sample_time_ms': 33947.937, 'num_steps_trained': 427200, 'grad_time_ms': 372.465, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 486.1282958984375, 'policy_loss': -0.17111438512802124, 'vf_explained_var': 0.014239702373743057, 'entropy': 9.42212200164795, 'cur_lr': 4.999999873689376e-05, 'total_loss': 485.98779296875, 'kl': 0.013429854065179825}, 'load_time_ms': 0.718, 'num_steps_sampled': 427200, 'update_time_ms': 2.635}",356,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.97619271278381,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,427200,427200,{},356,54,-90.10231683526233,2025-09-04_19-52-05,8.000029955293169,3651948,1757008325,-29.83568825574139,13151.868121147156,11491,22.68
+cda-server-2,False,13186.134541034698,"{'sample_time_ms': 33932.595, 'num_steps_trained': 428400, 'grad_time_ms': 374.671, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 427.9323425292969, 'policy_loss': -0.16929209232330322, 'vf_explained_var': 0.01650114171206951, 'entropy': 9.972504615783691, 'cur_lr': 4.999999873689376e-05, 'total_loss': 427.7929992675781, 'kl': 0.013160786591470242}, 'load_time_ms': 0.715, 'num_steps_sampled': 428400, 'update_time_ms': 2.638}",357,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",34.266419887542725,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,428400,428400,{},357,51,-88.82757409968143,2025-09-04_19-52-40,8.000629019591925,3651948,1757008360,-30.30186789684934,13186.134541034698,11542,23.02
+cda-server-2,False,13221.57733464241,"{'sample_time_ms': 34117.193, 'num_steps_trained': 429600, 'grad_time_ms': 373.729, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 398.54595947265625, 'policy_loss': -0.17490650713443756, 'vf_explained_var': 0.026144007220864296, 'entropy': 9.909229278564453, 'cur_lr': 4.999999873689376e-05, 'total_loss': 398.4010925292969, 'kl': 0.01319141685962677}, 'load_time_ms': 0.709, 'num_steps_sampled': 429600, 'update_time_ms': 2.68}",358,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",35.44279360771179,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,429600,429600,{},358,47,-91.63522504734092,2025-09-04_19-53-15,8.000629019591925,3651948,1757008395,-33.281730390489905,13221.57733464241,11589,24.82
+cda-server-2,False,13261.919956684113,"{'sample_time_ms': 34701.109, 'num_steps_trained': 430800, 'grad_time_ms': 374.187, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 452.0755615234375, 'policy_loss': -0.16567420959472656, 'vf_explained_var': 0.030823178589344025, 'entropy': 9.092144966125488, 'cur_lr': 4.999999873689376e-05, 'total_loss': 451.9403991699219, 'kl': 0.01339884102344513}, 'load_time_ms': 0.722, 'num_steps_sampled': 430800, 'update_time_ms': 2.628}",359,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.34262204170227,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,430800,430800,{},359,47,-91.82475131787795,2025-09-04_19-53-55,8.000045128377083,3651948,1757008435,-32.980668447373354,13261.919956684113,11636,24.54
+cda-server-2,False,13302.515436410904,"{'sample_time_ms': 35340.513, 'num_steps_trained': 432000, 'grad_time_ms': 376.642, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 337.7193298339844, 'policy_loss': -0.17150822281837463, 'vf_explained_var': 0.06921210139989853, 'entropy': 9.250479698181152, 'cur_lr': 4.999999873689376e-05, 'total_loss': 337.5768127441406, 'kl': 0.01273456308990717}, 'load_time_ms': 0.724, 'num_steps_sampled': 432000, 'update_time_ms': 2.642}",360,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.59547972679138,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,432000,432000,{},360,52,-91.82475131787795,2025-09-04_19-54-36,6.0000902681365496,3651948,1757008476,-33.06721707520575,13302.515436410904,11688,24.49
+cda-server-2,False,13343.17271733284,"{'sample_time_ms': 36010.026, 'num_steps_trained': 433200, 'grad_time_ms': 374.677, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 418.0478820800781, 'policy_loss': -0.14703959226608276, 'vf_explained_var': 0.011033753864467144, 'entropy': 10.082448959350586, 'cur_lr': 4.999999873689376e-05, 'total_loss': 417.92901611328125, 'kl': 0.012359730899333954}, 'load_time_ms': 0.709, 'num_steps_sampled': 433200, 'update_time_ms': 2.679}",361,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.657280921936035,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,433200,433200,{},361,52,-89.92808180406912,2025-09-04_19-55-17,6.000208357574652,3651948,1757008517,-29.601588486112334,13343.17271733284,11740,22.67
+cda-server-2,False,13383.87813782692,"{'sample_time_ms': 36569.48, 'num_steps_trained': 434400, 'grad_time_ms': 375.044, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 423.71539306640625, 'policy_loss': -0.15861457586288452, 'vf_explained_var': 0.03651801869273186, 'entropy': 9.447165489196777, 'cur_lr': 4.999999873689376e-05, 'total_loss': 423.5886535644531, 'kl': 0.013986926525831223}, 'load_time_ms': 0.719, 'num_steps_sampled': 434400, 'update_time_ms': 2.637}",362,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.70542049407959,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,434400,434400,{},362,50,-89.92808180406912,2025-09-04_19-55-58,8.000000400012878,3651948,1757008558,-30.085141804347266,13383.87813782692,11790,22.97
+cda-server-2,False,13424.643053531647,"{'sample_time_ms': 37240.139, 'num_steps_trained': 435600, 'grad_time_ms': 374.911, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 517.852294921875, 'policy_loss': -0.15835538506507874, 'vf_explained_var': 0.014234628528356552, 'entropy': 9.38388442993164, 'cur_lr': 4.999999873689376e-05, 'total_loss': 517.7247314453125, 'kl': 0.013516398146748543}, 'load_time_ms': 0.704, 'num_steps_sampled': 435600, 'update_time_ms': 2.648}",363,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.76491570472717,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,435600,435600,{},363,51,-90.54177969504582,2025-09-04_19-56-38,8.000000953335292,3651948,1757008598,-32.38749691000124,13424.643053531647,11841,24.02
+cda-server-2,False,13465.295440912247,"{'sample_time_ms': 37915.171, 'num_steps_trained': 436800, 'grad_time_ms': 374.717, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 351.9696350097656, 'policy_loss': -0.16030652821063995, 'vf_explained_var': 0.03496674820780754, 'entropy': 9.348217964172363, 'cur_lr': 4.999999873689376e-05, 'total_loss': 351.8398132324219, 'kl': 0.013371977023780346}, 'load_time_ms': 0.706, 'num_steps_sampled': 436800, 'update_time_ms': 2.635}",364,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.652387380599976,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,436800,436800,{},364,50,-90.54177969504582,2025-09-04_19-57-19,8.000000953335292,3651948,1757008639,-32.644767126636886,13465.295440912247,11891,24.3
+cda-server-2,False,13506.65328836441,"{'sample_time_ms': 38593.073, 'num_steps_trained': 438000, 'grad_time_ms': 375.016, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 417.3665771484375, 'policy_loss': -0.1613299399614334, 'vf_explained_var': 0.03704684227705002, 'entropy': 9.711258888244629, 'cur_lr': 4.999999873689376e-05, 'total_loss': 417.2366027832031, 'kl': 0.013744776137173176}, 'load_time_ms': 0.709, 'num_steps_sampled': 438000, 'update_time_ms': 2.588}",365,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.357847452163696,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,438000,438000,{},365,57,-90.32940556313206,2025-09-04_19-58-00,8.000000515834063,3651948,1757008680,-29.322009071777508,13506.65328836441,11948,22.72
+cda-server-2,False,13547.770455598831,"{'sample_time_ms': 39210.356, 'num_steps_trained': 439200, 'grad_time_ms': 371.913, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 422.9631652832031, 'policy_loss': -0.1678367406129837, 'vf_explained_var': 0.015686094760894775, 'entropy': 9.463945388793945, 'cur_lr': 4.999999873689376e-05, 'total_loss': 422.8275146484375, 'kl': 0.014120825566351414}, 'load_time_ms': 0.694, 'num_steps_sampled': 439200, 'update_time_ms': 2.593}",366,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.117167234420776,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,439200,439200,{},366,51,-90.5094447473157,2025-09-04_19-58-42,8.000001058500953,3651948,1757008722,-28.59939437734714,13547.770455598831,11999,22.21
+cda-server-2,False,13589.815601110458,"{'sample_time_ms': 39991.09, 'num_steps_trained': 440400, 'grad_time_ms': 369.185, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 399.17279052734375, 'policy_loss': -0.16194237768650055, 'vf_explained_var': 0.03682759031653404, 'entropy': 9.822941780090332, 'cur_lr': 4.999999873689376e-05, 'total_loss': 399.04144287109375, 'kl': 0.01344168558716774}, 'load_time_ms': 0.693, 'num_steps_sampled': 440400, 'update_time_ms': 2.552}",367,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.0451455116272,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,440400,440400,{},367,63,-90.5094447473157,2025-09-04_19-59-24,8.000102789460353,3651948,1757008764,-25.033929352215065,13589.815601110458,12062,20.45
+cda-server-2,False,13631.255574464798,"{'sample_time_ms': 40592.363, 'num_steps_trained': 441600, 'grad_time_ms': 367.641, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 358.0179443359375, 'policy_loss': -0.17408449947834015, 'vf_explained_var': 0.042325105518102646, 'entropy': 9.080735206604004, 'cur_lr': 4.999999873689376e-05, 'total_loss': 357.87310791015625, 'kl': 0.01283906027674675}, 'load_time_ms': 0.694, 'num_steps_sampled': 441600, 'update_time_ms': 2.485}",368,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.4399733543396,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,441600,441600,{},368,65,-87.88851058948934,2025-09-04_20-00-05,8.000062048492094,3651948,1757008805,-24.182147381921666,13631.255574464798,12127,19.84
+cda-server-2,False,13672.156474590302,"{'sample_time_ms': 40650.12, 'num_steps_trained': 442800, 'grad_time_ms': 365.681, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 454.3436584472656, 'policy_loss': -0.16536158323287964, 'vf_explained_var': 0.009322080761194229, 'entropy': 9.624226570129395, 'cur_lr': 4.999999873689376e-05, 'total_loss': 454.2071838378906, 'kl': 0.012673533521592617}, 'load_time_ms': 0.682, 'num_steps_sampled': 442800, 'update_time_ms': 2.532}",369,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.90090012550354,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,442800,442800,{},369,44,-87.88851058948934,2025-09-04_20-00-46,8.000062048492094,3651948,1757008846,-28.460736643779697,13672.156474590302,12171,22.0
+cda-server-2,False,13713.61516404152,"{'sample_time_ms': 40736.241, 'num_steps_trained': 444000, 'grad_time_ms': 365.856, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 368.1820373535156, 'policy_loss': -0.1646040827035904, 'vf_explained_var': 0.02997763268649578, 'entropy': 9.514936447143555, 'cur_lr': 4.999999873689376e-05, 'total_loss': 368.04901123046875, 'kl': 0.01386441383510828}, 'load_time_ms': 0.686, 'num_steps_sampled': 444000, 'update_time_ms': 2.515}",370,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.45868945121765,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,444000,444000,{},370,55,-87.94120920451901,2025-09-04_20-01-27,8.000000643938543,3651948,1757008887,-32.296061636067925,13713.61516404152,12226,24.11
+cda-server-2,False,13754.44764304161,"{'sample_time_ms': 40752.545, 'num_steps_trained': 445200, 'grad_time_ms': 367.047, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 405.9430847167969, 'policy_loss': -0.1600293219089508, 'vf_explained_var': 0.024258123710751534, 'entropy': 9.467537879943848, 'cur_lr': 4.999999873689376e-05, 'total_loss': 405.8106994628906, 'kl': 0.012127561494708061}, 'load_time_ms': 0.697, 'num_steps_sampled': 445200, 'update_time_ms': 2.503}",371,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.83247900009155,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,445200,445200,{},371,55,-87.94120920451901,2025-09-04_20-02-08,8.000144909312752,3651948,1757008928,-28.713782958618218,13754.44764304161,12281,22.24
+cda-server-2,False,13795.328585147858,"{'sample_time_ms': 40770.655, 'num_steps_trained': 446400, 'grad_time_ms': 366.513, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 456.3870544433594, 'policy_loss': -0.1620740294456482, 'vf_explained_var': 0.01017056591808796, 'entropy': 9.62911605834961, 'cur_lr': 4.999999873689376e-05, 'total_loss': 456.2552185058594, 'kl': 0.013279477134346962}, 'load_time_ms': 0.684, 'num_steps_sampled': 446400, 'update_time_ms': 2.523}",372,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.88094210624695,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,446400,446400,{},372,58,-89.48098546853737,2025-09-04_20-02-49,8.000144909312752,3651948,1757008969,-25.558417428568774,13795.328585147858,12339,20.73
+cda-server-2,False,13836.142918586731,"{'sample_time_ms': 40775.215, 'num_steps_trained': 447600, 'grad_time_ms': 366.855, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 414.3948059082031, 'policy_loss': -0.16606897115707397, 'vf_explained_var': 0.0313444547355175, 'entropy': 9.408416748046875, 'cur_lr': 4.999999873689376e-05, 'total_loss': 414.2598876953125, 'kl': 0.013675946742296219}, 'load_time_ms': 0.693, 'num_steps_sampled': 447600, 'update_time_ms': 2.502}",373,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.81433343887329,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,447600,447600,{},373,55,-89.48098546853737,2025-09-04_20-03-30,8.000030911466938,3651948,1757009010,-26.950057909762915,13836.142918586731,12394,21.42
+cda-server-2,False,13876.879835128784,"{'sample_time_ms': 40783.808, 'num_steps_trained': 448800, 'grad_time_ms': 366.716, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 429.29058837890625, 'policy_loss': -0.16602841019630432, 'vf_explained_var': 0.02585785835981369, 'entropy': 9.908772468566895, 'cur_lr': 4.999999873689376e-05, 'total_loss': 429.1557312011719, 'kl': 0.01369208749383688}, 'load_time_ms': 0.681, 'num_steps_sampled': 448800, 'update_time_ms': 2.509}",374,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.73691654205322,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,448800,448800,{},374,46,-88.70048957065029,2025-09-04_20-04-11,8.00000041171073,3651948,1757009051,-31.440366763057263,13876.879835128784,12440,23.98
+cda-server-2,False,13917.71957039833,"{'sample_time_ms': 40732.519, 'num_steps_trained': 450000, 'grad_time_ms': 366.135, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 419.1043395996094, 'policy_loss': -0.16186374425888062, 'vf_explained_var': 0.018550297245383263, 'entropy': 9.463047981262207, 'cur_lr': 4.999999873689376e-05, 'total_loss': 418.9734802246094, 'kl': 0.01360340416431427}, 'load_time_ms': 0.688, 'num_steps_sampled': 450000, 'update_time_ms': 2.533}",375,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.83973526954651,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,450000,450000,{},375,66,-88.70048957065029,2025-09-04_20-04-52,8.000211419224676,3651948,1757009092,-26.563536613376524,13917.71957039833,12506,21.25
+cda-server-2,False,13958.300779104233,"{'sample_time_ms': 40678.661, 'num_steps_trained': 451200, 'grad_time_ms': 366.376, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 341.96826171875, 'policy_loss': -0.16432610154151917, 'vf_explained_var': 0.058409616351127625, 'entropy': 9.503949165344238, 'cur_lr': 4.999999873689376e-05, 'total_loss': 341.83319091796875, 'kl': 0.012845533899962902}, 'load_time_ms': 0.69, 'num_steps_sampled': 451200, 'update_time_ms': 2.547}",376,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.5812087059021,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,451200,451200,{},376,51,-88.40622192230724,2025-09-04_20-05-32,8.000211419224676,3651948,1757009132,-26.488740991512877,13958.300779104233,12557,21.14
+cda-server-2,False,13998.84181547165,"{'sample_time_ms': 40527.821, 'num_steps_trained': 452400, 'grad_time_ms': 366.813, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 400.8475036621094, 'policy_loss': -0.14988702535629272, 'vf_explained_var': 0.022728238254785538, 'entropy': 9.669713973999023, 'cur_lr': 4.999999873689376e-05, 'total_loss': 400.728515625, 'kl': 0.013556399382650852}, 'load_time_ms': 0.696, 'num_steps_sampled': 452400, 'update_time_ms': 2.555}",377,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.54103636741638,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,452400,452400,{},377,55,-90.1056422956086,2025-09-04_20-06-13,8.00056570814457,3651948,1757009173,-29.022988951470996,13998.84181547165,12612,22.47
+cda-server-2,False,14039.874541521072,"{'sample_time_ms': 40484.34, 'num_steps_trained': 453600, 'grad_time_ms': 369.549, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 316.0495910644531, 'policy_loss': -0.1594245731830597, 'vf_explained_var': 0.042283281683921814, 'entropy': 9.659835815429688, 'cur_lr': 4.999999873689376e-05, 'total_loss': 315.9207458496094, 'kl': 0.013414965011179447}, 'load_time_ms': 0.696, 'num_steps_sampled': 453600, 'update_time_ms': 2.589}",378,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.03272604942322,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,453600,453600,{},378,57,-90.1056422956086,2025-09-04_20-06-54,8.00056570814457,3651948,1757009214,-26.929301530074344,14039.874541521072,12669,21.38
+cda-server-2,False,14080.765124797821,"{'sample_time_ms': 40480.4, 'num_steps_trained': 454800, 'grad_time_ms': 372.458, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 435.4676818847656, 'policy_loss': -0.1634068638086319, 'vf_explained_var': 0.011056158691644669, 'entropy': 9.445538520812988, 'cur_lr': 4.999999873689376e-05, 'total_loss': 435.33685302734375, 'kl': 0.014295559376478195}, 'load_time_ms': 0.698, 'num_steps_sampled': 454800, 'update_time_ms': 2.585}",379,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.89058327674866,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,454800,454800,{},379,52,-87.64420739712868,2025-09-04_20-07-35,8.000242219782981,3651948,1757009255,-28.247261511853285,14080.765124797821,12721,22.07
+cda-server-2,False,14121.779526948929,"{'sample_time_ms': 40437.328, 'num_steps_trained': 456000, 'grad_time_ms': 371.061, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 386.6919250488281, 'policy_loss': -0.1640903651714325, 'vf_explained_var': 0.04491328448057175, 'entropy': 9.564139366149902, 'cur_lr': 4.999999873689376e-05, 'total_loss': 386.5631103515625, 'kl': 0.015498373657464981}, 'load_time_ms': 0.684, 'num_steps_sampled': 456000, 'update_time_ms': 2.621}",380,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.01440215110779,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,456000,456000,{},380,58,-88.34600534138386,2025-09-04_20-08-16,8.000242219782981,3651948,1757009296,-26.5321176185136,14121.779526948929,12779,21.23
+cda-server-2,False,14163.406922578812,"{'sample_time_ms': 40516.053, 'num_steps_trained': 457200, 'grad_time_ms': 371.811, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 426.4010009765625, 'policy_loss': -0.1595669388771057, 'vf_explained_var': 0.0193032156676054, 'entropy': 9.629157066345215, 'cur_lr': 4.999999873689376e-05, 'total_loss': 426.2713623046875, 'kl': 0.013127539306879044}, 'load_time_ms': 0.675, 'num_steps_sampled': 457200, 'update_time_ms': 2.618}",381,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.62739562988281,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,457200,457200,{},381,55,-88.34600534138386,2025-09-04_20-08-58,8.000000676992856,3651948,1757009338,-26.956296022717453,14163.406922578812,12834,21.46
+cda-server-2,False,14204.033453941345,"{'sample_time_ms': 40489.187, 'num_steps_trained': 458400, 'grad_time_ms': 373.168, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 369.1617736816406, 'policy_loss': -0.16840365529060364, 'vf_explained_var': 0.03676861524581909, 'entropy': 9.394706726074219, 'cur_lr': 4.999999873689376e-05, 'total_loss': 369.0248718261719, 'kl': 0.01381840929389}, 'load_time_ms': 0.697, 'num_steps_sampled': 458400, 'update_time_ms': 2.656}",382,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.62653136253357,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,458400,458400,{},382,60,-91.67659381090598,2025-09-04_20-09-38,8.000002013209494,3651948,1757009378,-24.28655712964201,14204.033453941345,12894,20.16
+cda-server-2,False,14244.760761737823,"{'sample_time_ms': 40481.404, 'num_steps_trained': 459600, 'grad_time_ms': 372.245, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 454.9277648925781, 'policy_loss': -0.17204974591732025, 'vf_explained_var': 0.0228937529027462, 'entropy': 9.530159950256348, 'cur_lr': 4.999999873689376e-05, 'total_loss': 454.7872619628906, 'kl': 0.013844618573784828}, 'load_time_ms': 0.7, 'num_steps_sampled': 459600, 'update_time_ms': 2.673}",383,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.72730779647827,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,459600,459600,{},383,46,-91.67659381090598,2025-09-04_20-10-19,8.000002013209494,3651948,1757009419,-30.569119944998008,14244.760761737823,12940,23.15
+cda-server-2,False,14285.703725337982,"{'sample_time_ms': 40503.776, 'num_steps_trained': 460800, 'grad_time_ms': 370.483, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 379.1144714355469, 'policy_loss': -0.1502944678068161, 'vf_explained_var': 0.02822817675769329, 'entropy': 9.340314865112305, 'cur_lr': 4.999999873689376e-05, 'total_loss': 378.99749755859375, 'kl': 0.014621545560657978}, 'load_time_ms': 0.712, 'num_steps_sampled': 460800, 'update_time_ms': 2.648}",384,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.94296360015869,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,460800,460800,{},384,53,-89.63771809272924,2025-09-04_20-11-00,8.000121973071964,3651948,1757009460,-31.947966056254174,14285.703725337982,12993,24.02
+cda-server-2,False,14326.910396814346,"{'sample_time_ms': 40538.964, 'num_steps_trained': 462000, 'grad_time_ms': 372.018, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 427.7789001464844, 'policy_loss': -0.1649748533964157, 'vf_explained_var': 0.02137676253914833, 'entropy': 8.925230026245117, 'cur_lr': 4.999999873689376e-05, 'total_loss': 427.64898681640625, 'kl': 0.015390059910714626}, 'load_time_ms': 0.702, 'num_steps_sampled': 462000, 'update_time_ms': 2.624}",385,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.206671476364136,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,462000,462000,{},385,60,-87.39165532447993,2025-09-04_20-11-41,8.000121973071964,3651948,1757009501,-25.95266022397698,14326.910396814346,13053,20.98
+cda-server-2,False,14367.425111293793,"{'sample_time_ms': 40531.064, 'num_steps_trained': 463200, 'grad_time_ms': 373.23, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 405.1592102050781, 'policy_loss': -0.16958096623420715, 'vf_explained_var': 0.03342774137854576, 'entropy': 9.57955265045166, 'cur_lr': 4.999999873689376e-05, 'total_loss': 405.0227966308594, 'kl': 0.014559010975062847}, 'load_time_ms': 0.708, 'num_steps_sampled': 463200, 'update_time_ms': 2.611}",386,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.51471447944641,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,463200,463200,{},386,50,-87.86350126831186,2025-09-04_20-12-22,6.0000964397704015,3651948,1757009542,-28.921221890397575,14367.425111293793,13103,22.53
+cda-server-2,False,14409.479347467422,"{'sample_time_ms': 40682.346, 'num_steps_trained': 464400, 'grad_time_ms': 373.202, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 447.49566650390625, 'policy_loss': -0.16376593708992004, 'vf_explained_var': 0.007484721019864082, 'entropy': 9.31185531616211, 'cur_lr': 4.999999873689376e-05, 'total_loss': 447.3653259277344, 'kl': 0.014663223177194595}, 'load_time_ms': 0.706, 'num_steps_sampled': 464400, 'update_time_ms': 2.635}",387,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.05423617362976,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,464400,464400,{},387,51,-89.42840434782649,2025-09-04_20-13-04,8.000000418458303,3651948,1757009584,-31.67022643060836,14409.479347467422,13154,23.57
+cda-server-2,False,14450.809123754501,"{'sample_time_ms': 40711.965, 'num_steps_trained': 465600, 'grad_time_ms': 373.285, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 395.99224853515625, 'policy_loss': -0.16208644211292267, 'vf_explained_var': 0.028500132262706757, 'entropy': 8.899362564086914, 'cur_lr': 4.999999873689376e-05, 'total_loss': 395.8634033203125, 'kl': 0.014577767811715603}, 'load_time_ms': 0.72, 'num_steps_sampled': 465600, 'update_time_ms': 2.638}",388,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.32977628707886,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,465600,465600,{},388,67,-90.16215763428154,2025-09-04_20-13-45,8.000110995598888,3651948,1757009625,-25.940163846362545,14450.809123754501,13221,20.32
+cda-server-2,False,14491.643397331238,"{'sample_time_ms': 40709.286, 'num_steps_trained': 466800, 'grad_time_ms': 370.361, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 403.9291076660156, 'policy_loss': -0.16290004551410675, 'vf_explained_var': 0.01675303839147091, 'entropy': 9.276033401489258, 'cur_lr': 4.999999873689376e-05, 'total_loss': 403.7976989746094, 'kl': 0.013814728707075119}, 'load_time_ms': 0.723, 'num_steps_sampled': 466800, 'update_time_ms': 2.613}",389,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.83427357673645,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,466800,466800,{},389,53,-90.16215763428154,2025-09-04_20-14-26,8.00134407488727,3651948,1757009666,-22.927386873399293,14491.643397331238,13274,19.03
+cda-server-2,False,14532.366207122803,"{'sample_time_ms': 40681.65, 'num_steps_trained': 468000, 'grad_time_ms': 368.945, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 429.4143371582031, 'policy_loss': -0.16146515309810638, 'vf_explained_var': 0.026131371036171913, 'entropy': 9.468842506408691, 'cur_lr': 4.999999873689376e-05, 'total_loss': 429.2826843261719, 'kl': 0.013080236501991749}, 'load_time_ms': 0.723, 'num_steps_sampled': 468000, 'update_time_ms': 2.594}",390,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.72280979156494,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,468000,468000,{},390,45,-90.54016901974268,2025-09-04_20-15-07,8.00134407488727,3651948,1757009707,-30.35186924277821,14532.366207122803,13319,23.24
+cda-server-2,False,14573.639463424683,"{'sample_time_ms': 40646.132, 'num_steps_trained': 469200, 'grad_time_ms': 369.035, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 487.1026916503906, 'policy_loss': -0.1664435863494873, 'vf_explained_var': 0.027938902378082275, 'entropy': 9.025018692016602, 'cur_lr': 4.999999873689376e-05, 'total_loss': 486.9728088378906, 'kl': 0.0160539373755455}, 'load_time_ms': 0.729, 'num_steps_sampled': 469200, 'update_time_ms': 2.573}",391,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.27325630187988,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,469200,469200,{},391,60,-90.54016901974268,2025-09-04_20-15-48,8.000111657128002,3651948,1757009748,-30.182975917074646,14573.639463424683,13379,22.94
+cda-server-2,False,14614.474596261978,"{'sample_time_ms': 40667.889, 'num_steps_trained': 470400, 'grad_time_ms': 368.189, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 321.1077575683594, 'policy_loss': -0.164377361536026, 'vf_explained_var': 0.019441213458776474, 'entropy': 9.312178611755371, 'cur_lr': 4.999999873689376e-05, 'total_loss': 320.9761962890625, 'kl': 0.014411866664886475}, 'load_time_ms': 0.709, 'num_steps_sampled': 470400, 'update_time_ms': 2.529}",392,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.83513283729553,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,470400,470400,{},392,61,-88.94411633292573,2025-09-04_20-16-29,8.00027034236108,3651948,1757009789,-22.698768921422488,14614.474596261978,13440,19.31
+cda-server-2,False,14655.467163801193,"{'sample_time_ms': 40696.22, 'num_steps_trained': 471600, 'grad_time_ms': 366.417, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 371.70098876953125, 'policy_loss': -0.16502158343791962, 'vf_explained_var': 0.02959388494491577, 'entropy': 9.293415069580078, 'cur_lr': 4.999999873689376e-05, 'total_loss': 371.5666809082031, 'kl': 0.013496254570782185}, 'load_time_ms': 0.705, 'num_steps_sampled': 471600, 'update_time_ms': 2.528}",393,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.99256753921509,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,471600,471600,{},393,63,-87.27054088007134,2025-09-04_20-17-10,8.002463732136958,3651948,1757009830,-22.09301271758532,14655.467163801193,13503,19.13
+cda-server-2,False,14696.118603467941,"{'sample_time_ms': 40666.56, 'num_steps_trained': 472800, 'grad_time_ms': 366.908, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 288.21826171875, 'policy_loss': -0.1636689454317093, 'vf_explained_var': 0.041789062321186066, 'entropy': 9.057210922241211, 'cur_lr': 4.999999873689376e-05, 'total_loss': 288.0855712890625, 'kl': 0.013619553297758102}, 'load_time_ms': 0.703, 'num_steps_sampled': 472800, 'update_time_ms': 2.504}",394,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.65143966674805,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,472800,472800,{},394,65,-87.27054088007134,2025-09-04_20-17-51,8.002463732136958,3651948,1757009871,-20.577291466937563,14696.118603467941,13568,18.27
+cda-server-2,False,14737.008077859879,"{'sample_time_ms': 40635.738, 'num_steps_trained': 474000, 'grad_time_ms': 366.008, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 371.5557861328125, 'policy_loss': -0.15123039484024048, 'vf_explained_var': 0.026034004986286163, 'entropy': 8.815576553344727, 'cur_lr': 4.999999873689376e-05, 'total_loss': 371.4381103515625, 'kl': 0.014736750163137913}, 'load_time_ms': 0.705, 'num_steps_sampled': 474000, 'update_time_ms': 2.528}",395,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.889474391937256,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,474000,474000,{},395,65,-88.93210368807651,2025-09-04_20-18-31,8.000782773261495,3651948,1757009911,-21.1190401483267,14737.008077859879,13633,18.36
+cda-server-2,False,14778.32446694374,"{'sample_time_ms': 40715.737, 'num_steps_trained': 475200, 'grad_time_ms': 366.141, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 367.843017578125, 'policy_loss': -0.1676916778087616, 'vf_explained_var': 0.031155500560998917, 'entropy': 9.684024810791016, 'cur_lr': 4.999999873689376e-05, 'total_loss': 367.703857421875, 'kl': 0.01251928135752678}, 'load_time_ms': 0.699, 'num_steps_sampled': 475200, 'update_time_ms': 2.533}",396,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.316389083862305,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,475200,475200,{},396,57,-93.22473450272642,2025-09-04_20-19-13,8.000526899887358,3651948,1757009953,-24.300092952611994,14778.32446694374,13690,19.97
+cda-server-2,False,14819.988945007324,"{'sample_time_ms': 40676.638, 'num_steps_trained': 476400, 'grad_time_ms': 366.285, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 365.5447082519531, 'policy_loss': -0.17106308043003082, 'vf_explained_var': 0.04816317558288574, 'entropy': 9.278183937072754, 'cur_lr': 4.999999873689376e-05, 'total_loss': 365.40704345703125, 'kl': 0.014639385975897312}, 'load_time_ms': 0.698, 'num_steps_sampled': 476400, 'update_time_ms': 2.542}",397,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.664478063583374,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,476400,476400,{},397,55,-87.72401504139262,2025-09-04_20-19-54,8.000040918922195,3651948,1757009994,-25.846434901990747,14819.988945007324,13745,20.99
+cda-server-2,False,14860.932942867279,"{'sample_time_ms': 40638.65, 'num_steps_trained': 477600, 'grad_time_ms': 365.779, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 445.75152587890625, 'policy_loss': -0.1681382954120636, 'vf_explained_var': 0.036400895565748215, 'entropy': 9.017210006713867, 'cur_lr': 4.999999873689376e-05, 'total_loss': 445.6226806640625, 'kl': 0.017247028648853302}, 'load_time_ms': 0.681, 'num_steps_sampled': 477600, 'update_time_ms': 2.507}",398,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.943997859954834,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,477600,477600,{},398,58,-89.13693164817103,2025-09-04_20-20-35,8.000040918922195,3651948,1757010035,-26.30384903736493,14860.932942867279,13803,20.94
+cda-server-2,False,14903.178161382675,"{'sample_time_ms': 40776.198, 'num_steps_trained': 478800, 'grad_time_ms': 369.258, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 325.0050048828125, 'policy_loss': -0.1537511646747589, 'vf_explained_var': 0.05926014482975006, 'entropy': 9.142744064331055, 'cur_lr': 4.999999873689376e-05, 'total_loss': 324.8810119628906, 'kl': 0.013057458214461803}, 'load_time_ms': 0.688, 'num_steps_sampled': 478800, 'update_time_ms': 2.53}",399,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.24521851539612,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,478800,478800,{},399,74,-89.13693164817103,2025-09-04_20-21-18,8.000100239433214,3651948,1757010078,-20.542233135222364,14903.178161382675,13877,17.71
+cda-server-2,False,14944.027264595032,"{'sample_time_ms': 40786.85, 'num_steps_trained': 480000, 'grad_time_ms': 371.183, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 363.21917724609375, 'policy_loss': -0.16554878652095795, 'vf_explained_var': 0.03735869377851486, 'entropy': 8.781224250793457, 'cur_lr': 4.999999873689376e-05, 'total_loss': 363.0849914550781, 'kl': 0.013765843585133553}, 'load_time_ms': 0.697, 'num_steps_sampled': 480000, 'update_time_ms': 2.524}",400,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.84910321235657,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,480000,480000,{},400,56,-89.46152612989916,2025-09-04_20-21-59,8.00016840275882,3651948,1757010119,-21.505756565397533,14944.027264595032,13933,18.4
+cda-server-2,False,14985.088542938232,"{'sample_time_ms': 40764.756, 'num_steps_trained': 481200, 'grad_time_ms': 372.139, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 384.45416259765625, 'policy_loss': -0.16606341302394867, 'vf_explained_var': 0.03621109947562218, 'entropy': 8.954419136047363, 'cur_lr': 4.999999873689376e-05, 'total_loss': 384.3221435546875, 'kl': 0.014945581555366516}, 'load_time_ms': 0.708, 'num_steps_sampled': 481200, 'update_time_ms': 2.527}",401,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.061278343200684,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,481200,481200,{},401,62,-88.78279717902913,2025-09-04_20-22-40,8.000649660237048,3651948,1757010160,-22.178985335804878,14985.088542938232,13995,18.94
+cda-server-2,False,15026.196497917175,"{'sample_time_ms': 40794.298, 'num_steps_trained': 482400, 'grad_time_ms': 369.928, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 398.8265380859375, 'policy_loss': -0.1774124801158905, 'vf_explained_var': 0.029825767502188683, 'entropy': 9.167211532592773, 'cur_lr': 4.999999873689376e-05, 'total_loss': 398.6807861328125, 'kl': 0.013916068710386753}, 'load_time_ms': 0.711, 'num_steps_sampled': 482400, 'update_time_ms': 2.526}",402,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.10795497894287,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,482400,482400,{},402,57,-88.28649652581946,2025-09-04_20-23-21,8.000649660237048,3651948,1757010201,-25.26251572338901,15026.196497917175,14052,20.54
+cda-server-2,False,15066.95999789238,"{'sample_time_ms': 40770.654, 'num_steps_trained': 483600, 'grad_time_ms': 370.621, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 468.6005859375, 'policy_loss': -0.15460431575775146, 'vf_explained_var': 0.013424217700958252, 'entropy': 8.968843460083008, 'cur_lr': 4.999999873689376e-05, 'total_loss': 468.4796142578125, 'kl': 0.01474261749535799}, 'load_time_ms': 0.713, 'num_steps_sampled': 483600, 'update_time_ms': 2.513}",403,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.76349997520447,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,483600,483600,{},403,64,-90.62365731373188,2025-09-04_20-24-02,8.000064498918023,3651948,1757010242,-26.25160861817275,15066.95999789238,14116,20.91
+cda-server-2,False,15107.76928973198,"{'sample_time_ms': 40784.239, 'num_steps_trained': 484800, 'grad_time_ms': 372.769, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 341.62896728515625, 'policy_loss': -0.15651313960552216, 'vf_explained_var': 0.02480602264404297, 'entropy': 9.093782424926758, 'cur_lr': 4.999999873689376e-05, 'total_loss': 341.5036926269531, 'kl': 0.01371256448328495}, 'load_time_ms': 0.716, 'num_steps_sampled': 484800, 'update_time_ms': 2.562}",404,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.80929183959961,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,484800,484800,{},404,57,-90.62365731373188,2025-09-04_20-24-42,8.000064498918023,3651948,1757010282,-22.69270314497754,15107.76928973198,14173,19.11
+cda-server-2,False,15149.706801652908,"{'sample_time_ms': 40887.744, 'num_steps_trained': 486000, 'grad_time_ms': 374.035, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 356.63665771484375, 'policy_loss': -0.1520189642906189, 'vf_explained_var': 0.04524644836783409, 'entropy': 8.970779418945312, 'cur_lr': 4.999999873689376e-05, 'total_loss': 356.5178527832031, 'kl': 0.014575008302927017}, 'load_time_ms': 0.709, 'num_steps_sampled': 486000, 'update_time_ms': 2.593}",405,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.937511920928955,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,486000,486000,{},405,66,-87.43413320958629,2025-09-04_20-25-24,8.000628943879118,3651948,1757010324,-23.06051815945549,15149.706801652908,14239,19.23
+cda-server-2,False,15190.235967874527,"{'sample_time_ms': 40807.353, 'num_steps_trained': 487200, 'grad_time_ms': 375.696, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 338.1393737792969, 'policy_loss': -0.155076265335083, 'vf_explained_var': 0.046628501266241074, 'entropy': 8.94325065612793, 'cur_lr': 4.999999873689376e-05, 'total_loss': 338.01953125, 'kl': 0.015466567128896713}, 'load_time_ms': 0.712, 'num_steps_sampled': 487200, 'update_time_ms': 2.602}",406,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.52916622161865,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,487200,487200,{},406,59,-90.0509973386746,2025-09-04_20-26-05,8.000186777192573,3651948,1757010365,-23.565941168375375,15190.235967874527,14298,19.52
+cda-server-2,False,15231.009989500046,"{'sample_time_ms': 40718.354, 'num_steps_trained': 488400, 'grad_time_ms': 375.663, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 379.54412841796875, 'policy_loss': -0.17857927083969116, 'vf_explained_var': 0.02515769749879837, 'entropy': 9.250743865966797, 'cur_lr': 4.999999873689376e-05, 'total_loss': 379.3961486816406, 'kl': 0.013426919467747211}, 'load_time_ms': 0.715, 'num_steps_sampled': 488400, 'update_time_ms': 2.587}",407,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.7740216255188,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,488400,488400,{},407,60,-90.0509973386746,2025-09-04_20-26-46,8.000000718700344,3651948,1757010406,-23.898297838288936,15231.009989500046,14358,19.94
+cda-server-2,False,15271.720307350159,"{'sample_time_ms': 40693.749, 'num_steps_trained': 489600, 'grad_time_ms': 376.866, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 342.9323425292969, 'policy_loss': -0.1711226999759674, 'vf_explained_var': 0.032989416271448135, 'entropy': 9.607444763183594, 'cur_lr': 4.999999873689376e-05, 'total_loss': 342.7926025390625, 'kl': 0.01377950981259346}, 'load_time_ms': 0.73, 'num_steps_sampled': 489600, 'update_time_ms': 2.596}",408,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.710317850112915,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,489600,489600,{},408,55,-88.34572210914138,2025-09-04_20-27-26,8.001231774066822,3651948,1757010446,-24.977491475832686,15271.720307350159,14413,20.5
+cda-server-2,False,15313.139620065689,"{'sample_time_ms': 40614.501, 'num_steps_trained': 490800, 'grad_time_ms': 373.588, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 357.11383056640625, 'policy_loss': -0.155589297413826, 'vf_explained_var': 0.04398070275783539, 'entropy': 9.158653259277344, 'cur_lr': 4.999999873689376e-05, 'total_loss': 356.9899597167969, 'kl': 0.013927659951150417}, 'load_time_ms': 0.721, 'num_steps_sampled': 490800, 'update_time_ms': 2.567}",409,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.419312715530396,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,490800,490800,{},409,65,-88.34572210914138,2025-09-04_20-28-08,8.001232736280405,3651948,1757010488,-22.277063366041194,15313.139620065689,14478,19.01
+cda-server-2,False,15354.477598190308,"{'sample_time_ms': 40662.644, 'num_steps_trained': 492000, 'grad_time_ms': 374.315, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 337.18524169921875, 'policy_loss': -0.15743833780288696, 'vf_explained_var': 0.04267461597919464, 'entropy': 8.85062026977539, 'cur_lr': 4.999999873689376e-05, 'total_loss': 337.0594482421875, 'kl': 0.013875171542167664}, 'load_time_ms': 0.721, 'num_steps_sampled': 492000, 'update_time_ms': 2.599}",410,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.33797812461853,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,492000,492000,{},410,65,-86.17369014343335,2025-09-04_20-28-49,8.001232736280405,3651948,1757010529,-21.66543818727694,15354.477598190308,14543,18.7
+cda-server-2,False,15395.615855932236,"{'sample_time_ms': 40672.516, 'num_steps_trained': 493200, 'grad_time_ms': 372.115, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 397.2659912109375, 'policy_loss': -0.1600235104560852, 'vf_explained_var': 0.027716312557458878, 'entropy': 9.102761268615723, 'cur_lr': 4.999999873689376e-05, 'total_loss': 397.1380615234375, 'kl': 0.014104213565587997}, 'load_time_ms': 0.707, 'num_steps_sampled': 493200, 'update_time_ms': 2.616}",411,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.1382577419281,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,493200,493200,{},411,58,-90.11870080925362,2025-09-04_20-29-30,8.000309162350467,3651948,1757010570,-22.313247212803297,15395.615855932236,14601,19.06
+cda-server-2,False,15436.477092981339,"{'sample_time_ms': 40645.312, 'num_steps_trained': 494400, 'grad_time_ms': 374.636, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 257.9275207519531, 'policy_loss': -0.17039088904857635, 'vf_explained_var': 0.04173828661441803, 'entropy': 8.86276626586914, 'cur_lr': 4.999999873689376e-05, 'total_loss': 257.7919616699219, 'kl': 0.015289144590497017}, 'load_time_ms': 0.698, 'num_steps_sampled': 494400, 'update_time_ms': 2.619}",412,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.86123704910278,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,494400,494400,{},412,59,-90.11870080925362,2025-09-04_20-30-11,8.000309162350467,3651948,1757010611,-23.694892449798267,15436.477092981339,14660,19.97
+cda-server-2,False,15477.587541103363,"{'sample_time_ms': 40678.015, 'num_steps_trained': 495600, 'grad_time_ms': 376.678, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 406.9647521972656, 'policy_loss': -0.16801682114601135, 'vf_explained_var': 0.02449742890894413, 'entropy': 9.003397941589355, 'cur_lr': 4.999999873689376e-05, 'total_loss': 406.8297424316406, 'kl': 0.014499634504318237}, 'load_time_ms': 0.694, 'num_steps_sampled': 495600, 'update_time_ms': 2.619}",413,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.110448122024536,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,495600,495600,{},413,64,-89.96225009423195,2025-09-04_20-30-52,8.000000418517125,3651948,1757010652,-22.641117558423833,15477.587541103363,14724,19.24
+cda-server-2,False,15518.879135847092,"{'sample_time_ms': 40728.988, 'num_steps_trained': 496800, 'grad_time_ms': 374.005, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 360.8838195800781, 'policy_loss': -0.16797587275505066, 'vf_explained_var': 0.02211601845920086, 'entropy': 8.923038482666016, 'cur_lr': 4.999999873689376e-05, 'total_loss': 360.7455139160156, 'kl': 0.013053220696747303}, 'load_time_ms': 0.683, 'num_steps_sampled': 496800, 'update_time_ms': 2.605}",414,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.29159474372864,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,496800,496800,{},414,70,-89.29466862761319,2025-09-04_20-31-34,8.000049041274412,3651948,1757010694,-20.614226509945286,15518.879135847092,14794,18.07
+cda-server-2,False,15559.707585334778,"{'sample_time_ms': 40619.13, 'num_steps_trained': 498000, 'grad_time_ms': 372.965, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 336.3121337890625, 'policy_loss': -0.1546928435564041, 'vf_explained_var': 0.039485231041908264, 'entropy': 8.942896842956543, 'cur_lr': 4.999999873689376e-05, 'total_loss': 336.1910095214844, 'kl': 0.014735047705471516}, 'load_time_ms': 0.689, 'num_steps_sampled': 498000, 'update_time_ms': 2.54}",415,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.82844948768616,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,498000,498000,{},415,50,-88.01235413526035,2025-09-04_20-32-15,8.000049041274412,3651948,1757010735,-23.266062617247893,15559.707585334778,14844,19.66
+cda-server-2,False,15600.588601827621,"{'sample_time_ms': 40655.156, 'num_steps_trained': 499200, 'grad_time_ms': 372.174, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 329.1138916015625, 'policy_loss': -0.15749989449977875, 'vf_explained_var': 0.026625534519553185, 'entropy': 8.95058536529541, 'cur_lr': 4.999999873689376e-05, 'total_loss': 328.990478515625, 'kl': 0.01498242374509573}, 'load_time_ms': 0.686, 'num_steps_sampled': 499200, 'update_time_ms': 2.551}",416,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.88101649284363,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,499200,499200,{},416,55,-88.01235413526035,2025-09-04_20-32-55,8.000000400009691,3651948,1757010775,-29.239176798381415,15600.588601827621,14899,22.97
+cda-server-2,False,15642.138316392899,"{'sample_time_ms': 40730.243, 'num_steps_trained': 500400, 'grad_time_ms': 374.539, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 272.2426452636719, 'policy_loss': -0.15297353267669678, 'vf_explained_var': 0.03704400733113289, 'entropy': 8.66805362701416, 'cur_lr': 4.999999873689376e-05, 'total_loss': 272.1225891113281, 'kl': 0.014451836235821247}, 'load_time_ms': 0.688, 'num_steps_sampled': 500400, 'update_time_ms': 2.568}",417,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.5497145652771,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,500400,500400,{},417,76,-88.21630131251572,2025-09-04_20-33-37,8.000073497850853,3651948,1757010817,-17.679283504079056,15642.138316392899,14975,16.74
+cda-server-2,False,15683.509728908539,"{'sample_time_ms': 40799.427, 'num_steps_trained': 501600, 'grad_time_ms': 371.44, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 248.32025146484375, 'policy_loss': -0.15737244486808777, 'vf_explained_var': 0.04494946449995041, 'entropy': 8.678549766540527, 'cur_lr': 4.999999873689376e-05, 'total_loss': 248.19451904296875, 'kl': 0.01389290764927864}, 'load_time_ms': 0.68, 'num_steps_sampled': 501600, 'update_time_ms': 2.604}",418,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.37141251564026,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,501600,501600,{},418,73,-87.07637775054621,2025-09-04_20-34-18,8.000046023517019,3651948,1757010858,-16.262294965535656,15683.509728908539,15048,15.88
+cda-server-2,False,15725.7066116333,"{'sample_time_ms': 40875.873, 'num_steps_trained': 502800, 'grad_time_ms': 372.738, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 340.843994140625, 'policy_loss': -0.1627647578716278, 'vf_explained_var': 0.050581760704517365, 'entropy': 8.839759826660156, 'cur_lr': 4.999999873689376e-05, 'total_loss': 340.71539306640625, 'kl': 0.014986970461905003}, 'load_time_ms': 0.677, 'num_steps_sampled': 502800, 'update_time_ms': 2.591}",419,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.19688272476196,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,502800,502800,{},419,70,-86.54102131912431,2025-09-04_20-35-01,8.000198525211543,3651948,1757010901,-17.980034185103467,15725.7066116333,15118,16.73
+cda-server-2,False,15766.780923604965,"{'sample_time_ms': 40849.658, 'num_steps_trained': 504000, 'grad_time_ms': 372.638, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 318.67681884765625, 'policy_loss': -0.16638629138469696, 'vf_explained_var': 0.026680052280426025, 'entropy': 8.905611038208008, 'cur_lr': 4.999999873689376e-05, 'total_loss': 318.5440368652344, 'kl': 0.014751172624528408}, 'load_time_ms': 0.667, 'num_steps_sampled': 504000, 'update_time_ms': 2.556}",420,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.07431197166443,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,504000,504000,{},420,69,-86.5520037264815,2025-09-04_20-35-42,8.000133491272962,3651948,1757010942,-19.51052381653333,15766.780923604965,15187,17.71
+cda-server-2,False,15808.38918685913,"{'sample_time_ms': 40897.437, 'num_steps_trained': 505200, 'grad_time_ms': 371.831, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 337.9524230957031, 'policy_loss': -0.16272571682929993, 'vf_explained_var': 0.03287976235151291, 'entropy': 8.645221710205078, 'cur_lr': 4.999999873689376e-05, 'total_loss': 337.8250427246094, 'kl': 0.015531342476606369}, 'load_time_ms': 0.664, 'num_steps_sampled': 505200, 'update_time_ms': 2.613}",421,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.60826325416565,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,505200,505200,{},421,61,-88.78650310319185,2025-09-04_20-36-23,8.000133491272962,3651948,1757010983,-21.506250790355175,15808.38918685913,15248,18.63
+cda-server-2,False,15849.308934688568,"{'sample_time_ms': 40906.205, 'num_steps_trained': 506400, 'grad_time_ms': 368.897, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 297.020751953125, 'policy_loss': -0.1772303581237793, 'vf_explained_var': 0.04066776484251022, 'entropy': 8.614079475402832, 'cur_lr': 4.999999873689376e-05, 'total_loss': 296.8775329589844, 'kl': 0.014923757873475552}, 'load_time_ms': 0.669, 'num_steps_sampled': 506400, 'update_time_ms': 2.616}",422,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.919747829437256,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,506400,506400,{},422,62,-88.78650310319185,2025-09-04_20-37-04,8.000122212751483,3651948,1757011024,-23.060168047597784,15849.308934688568,15310,19.56
+cda-server-2,False,15890.32418012619,"{'sample_time_ms': 40896.764, 'num_steps_trained': 507600, 'grad_time_ms': 368.83, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 385.34967041015625, 'policy_loss': -0.1683931201696396, 'vf_explained_var': 0.02904464863240719, 'entropy': 8.951404571533203, 'cur_lr': 4.999999873689376e-05, 'total_loss': 385.2170715332031, 'kl': 0.01571129448711872}, 'load_time_ms': 0.665, 'num_steps_sampled': 507600, 'update_time_ms': 2.615}",423,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.01524543762207,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,507600,507600,{},423,53,-88.4753479922558,2025-09-04_20-37-45,8.000303363649481,3651948,1757011065,-25.800704915984554,15890.32418012619,15363,21.06
+cda-server-2,False,15933.161979436874,"{'sample_time_ms': 41049.649, 'num_steps_trained': 508800, 'grad_time_ms': 370.584, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 249.62008666992188, 'policy_loss': -0.16717633605003357, 'vf_explained_var': 0.06472889333963394, 'entropy': 9.280853271484375, 'cur_lr': 4.999999873689376e-05, 'total_loss': 249.48416137695312, 'kl': 0.013700157403945923}, 'load_time_ms': 0.674, 'num_steps_sampled': 508800, 'update_time_ms': 2.585}",424,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.837799310684204,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,508800,508800,{},424,62,-88.4753479922558,2025-09-04_20-38-28,8.000303363649481,3651948,1757011108,-25.162971277519446,15933.161979436874,15425,20.74
+cda-server-2,False,15974.887422084808,"{'sample_time_ms': 41137.57, 'num_steps_trained': 510000, 'grad_time_ms': 372.385, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 278.6687927246094, 'policy_loss': -0.15017859637737274, 'vf_explained_var': 0.04893035441637039, 'entropy': 8.757755279541016, 'cur_lr': 4.999999873689376e-05, 'total_loss': 278.5521240234375, 'kl': 0.014712914824485779}, 'load_time_ms': 0.682, 'num_steps_sampled': 510000, 'update_time_ms': 2.603}",425,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.72544264793396,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,510000,510000,{},425,78,-87.41739124364128,2025-09-04_20-39-10,8.000000576653324,3651948,1757011150,-17.38091832113621,15974.887422084808,15503,16.53
+cda-server-2,False,16016.248041629791,"{'sample_time_ms': 41186.426, 'num_steps_trained': 511200, 'grad_time_ms': 371.474, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 367.4398193359375, 'policy_loss': -0.16482672095298767, 'vf_explained_var': 0.02282983809709549, 'entropy': 9.066640853881836, 'cur_lr': 4.999999873689376e-05, 'total_loss': 367.3052978515625, 'kl': 0.013300522230565548}, 'load_time_ms': 0.696, 'num_steps_sampled': 511200, 'update_time_ms': 2.595}",426,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.36061954498291,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,511200,511200,{},426,59,-87.36783953007203,2025-09-04_20-39-51,8.000372268868835,3651948,1757011191,-21.251164770190165,16016.248041629791,15562,18.51
+cda-server-2,False,16057.148822069168,"{'sample_time_ms': 41123.02, 'num_steps_trained': 512400, 'grad_time_ms': 370.033, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 384.1492614746094, 'policy_loss': -0.1670141965150833, 'vf_explained_var': 0.04643003270030022, 'entropy': 8.743922233581543, 'cur_lr': 4.999999873689376e-05, 'total_loss': 384.01422119140625, 'kl': 0.014027304016053677}, 'load_time_ms': 0.694, 'num_steps_sampled': 512400, 'update_time_ms': 2.58}",427,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.90078043937683,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,512400,512400,{},427,64,-87.7358976901057,2025-09-04_20-40-32,8.000372268868835,3651948,1757011232,-21.298042743251134,16057.148822069168,15626,18.39
+cda-server-2,False,16098.29258608818,"{'sample_time_ms': 41100.097, 'num_steps_trained': 513600, 'grad_time_ms': 370.204, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 315.5397644042969, 'policy_loss': -0.16934019327163696, 'vf_explained_var': 0.03011532686650753, 'entropy': 8.76919937133789, 'cur_lr': 4.999999873689376e-05, 'total_loss': 315.4030456542969, 'kl': 0.014322774484753609}, 'load_time_ms': 0.686, 'num_steps_sampled': 513600, 'update_time_ms': 2.58}",428,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.14376401901245,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,513600,513600,{},428,71,-87.7358976901057,2025-09-04_20-41-13,8.000580944936152,3651948,1757011273,-19.053094048889122,16098.29258608818,15697,17.31
+cda-server-2,False,16140.245764255524,"{'sample_time_ms': 41074.145, 'num_steps_trained': 514800, 'grad_time_ms': 371.714, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 346.0904541015625, 'policy_loss': -0.15643729269504547, 'vf_explained_var': 0.027360280975699425, 'entropy': 8.556154251098633, 'cur_lr': 4.999999873689376e-05, 'total_loss': 345.9683837890625, 'kl': 0.015092356130480766}, 'load_time_ms': 0.7, 'num_steps_sampled': 514800, 'update_time_ms': 2.579}",429,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.95317816734314,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,514800,514800,{},429,67,-89.88324149646371,2025-09-04_20-41-55,8.000002145866585,3651948,1757011315,-20.291947756535507,16140.245764255524,15764,17.8
+cda-server-2,False,16181.876400232315,"{'sample_time_ms': 41132.037, 'num_steps_trained': 516000, 'grad_time_ms': 369.429, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 313.5926513671875, 'policy_loss': -0.15500952303409576, 'vf_explained_var': 0.03515625, 'entropy': 8.963751792907715, 'cur_lr': 4.999999873689376e-05, 'total_loss': 313.47021484375, 'kl': 0.014299273490905762}, 'load_time_ms': 0.706, 'num_steps_sampled': 516000, 'update_time_ms': 2.605}",430,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.63063597679138,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,516000,516000,{},430,62,-89.21387403888859,2025-09-04_20-42-37,8.000025486195257,3651948,1757011357,-21.170838996596707,16181.876400232315,15826,18.47
+cda-server-2,False,16223.264105081558,"{'sample_time_ms': 41107.196, 'num_steps_trained': 517200, 'grad_time_ms': 372.25, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 319.3018798828125, 'policy_loss': -0.1622197926044464, 'vf_explained_var': 0.036697857081890106, 'entropy': 8.870936393737793, 'cur_lr': 4.999999873689376e-05, 'total_loss': 319.16925048828125, 'kl': 0.0129969147965312}, 'load_time_ms': 0.721, 'num_steps_sampled': 517200, 'update_time_ms': 2.508}",431,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.387704849243164,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,517200,517200,{},431,71,-88.88322066238273,2025-09-04_20-43-19,8.00021796775948,3651948,1757011399,-19.235878452041984,16223.264105081558,15897,17.37
+cda-server-2,False,16264.251901388168,"{'sample_time_ms': 41113.298, 'num_steps_trained': 518400, 'grad_time_ms': 372.889, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 316.2972412109375, 'policy_loss': -0.15378178656101227, 'vf_explained_var': 0.04921703040599823, 'entropy': 8.469070434570312, 'cur_lr': 4.999999873689376e-05, 'total_loss': 316.1748962402344, 'kl': 0.013782855123281479}, 'load_time_ms': 0.73, 'num_steps_sampled': 518400, 'update_time_ms': 2.522}",432,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.98779630661011,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,518400,518400,{},432,68,-86.84082784043173,2025-09-04_20-44-00,8.00034664042358,3651948,1757011440,-19.35597032575904,16264.251901388168,15965,17.35
+cda-server-2,False,16305.171558618546,"{'sample_time_ms': 41105.105, 'num_steps_trained': 519600, 'grad_time_ms': 371.462, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 314.1938781738281, 'policy_loss': -0.15594321489334106, 'vf_explained_var': 0.027978135272860527, 'entropy': 8.679997444152832, 'cur_lr': 4.999999873689376e-05, 'total_loss': 314.0681457519531, 'kl': 0.013278153724968433}, 'load_time_ms': 0.732, 'num_steps_sampled': 519600, 'update_time_ms': 2.51}",433,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.9196572303772,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,519600,519600,{},433,71,-88.80748243867461,2025-09-04_20-44-40,8.001276994407831,3651948,1757011480,-18.51521611093584,16305.171558618546,16036,16.79
+cda-server-2,False,16346.109334468842,"{'sample_time_ms': 40915.475, 'num_steps_trained': 520800, 'grad_time_ms': 370.989, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 338.2723693847656, 'policy_loss': -0.15147621929645538, 'vf_explained_var': 0.044524677097797394, 'entropy': 8.881685256958008, 'cur_lr': 4.999999873689376e-05, 'total_loss': 338.156005859375, 'kl': 0.015402843244373798}, 'load_time_ms': 0.729, 'num_steps_sampled': 520800, 'update_time_ms': 2.55}",434,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.93777585029602,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,520800,520800,{},434,65,-88.64775466310672,2025-09-04_20-45-21,8.001276994407831,3651948,1757011521,-19.979875043752536,16346.109334468842,16101,17.69
+cda-server-2,False,16388.005512714386,"{'sample_time_ms': 40933.02, 'num_steps_trained': 522000, 'grad_time_ms': 370.457, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 309.99200439453125, 'policy_loss': -0.15323799848556519, 'vf_explained_var': 0.04143669083714485, 'entropy': 8.597495079040527, 'cur_lr': 4.999999873689376e-05, 'total_loss': 309.87548828125, 'kl': 0.0161251500248909}, 'load_time_ms': 0.728, 'num_steps_sampled': 522000, 'update_time_ms': 2.593}",435,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.896178245544434,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,522000,522000,{},435,68,-86.39453445540397,2025-09-04_20-46-03,8.00002282974312,3651948,1757011563,-19.94524785610513,16388.005512714386,16169,17.9
+cda-server-2,False,16429.511291265488,"{'sample_time_ms': 40946.253, 'num_steps_trained': 523200, 'grad_time_ms': 371.756, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 342.5484619140625, 'policy_loss': -0.147806316614151, 'vf_explained_var': 0.028934823349118233, 'entropy': 9.265068054199219, 'cur_lr': 4.999999873689376e-05, 'total_loss': 342.4322204589844, 'kl': 0.013850619085133076}, 'load_time_ms': 0.709, 'num_steps_sampled': 523200, 'update_time_ms': 2.604}",436,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.505778551101685,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,523200,523200,{},436,72,-86.41977100309569,2025-09-04_20-46-45,8.000033196464619,3651948,1757011605,-19.240552723068152,16429.511291265488,16241,17.43
+cda-server-2,False,16470.664858818054,"{'sample_time_ms': 40971.658, 'num_steps_trained': 524400, 'grad_time_ms': 371.669, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 364.4984436035156, 'policy_loss': -0.16167707741260529, 'vf_explained_var': 0.045816823840141296, 'entropy': 8.512593269348145, 'cur_lr': 4.999999873689376e-05, 'total_loss': 364.37127685546875, 'kl': 0.015125438570976257}, 'load_time_ms': 0.706, 'num_steps_sampled': 524400, 'update_time_ms': 2.595}",437,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.15356755256653,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,524400,524400,{},437,61,-86.41977100309569,2025-09-04_20-47-26,8.000000835511225,3651948,1757011646,-21.402012256572934,16470.664858818054,16302,18.45
+cda-server-2,False,16511.818156003952,"{'sample_time_ms': 40970.266, 'num_steps_trained': 525600, 'grad_time_ms': 373.921, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 385.24468994140625, 'policy_loss': -0.1535537838935852, 'vf_explained_var': 0.035642359405756, 'entropy': 8.525103569030762, 'cur_lr': 4.999999873689376e-05, 'total_loss': 385.1243591308594, 'kl': 0.014598245732486248}, 'load_time_ms': 0.726, 'num_steps_sampled': 525600, 'update_time_ms': 2.596}",438,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.15329718589783,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,525600,525600,{},438,68,-89.89362692541498,2025-09-04_20-48-07,8.000018341866456,3651948,1757011687,-20.951401441454294,16511.818156003952,16370,18.2
+cda-server-2,False,16553.65321779251,"{'sample_time_ms': 40959.44, 'num_steps_trained': 526800, 'grad_time_ms': 372.979, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 355.47296142578125, 'policy_loss': -0.1548500955104828, 'vf_explained_var': 0.035611316561698914, 'entropy': 8.34416675567627, 'cur_lr': 4.999999873689376e-05, 'total_loss': 355.3534851074219, 'kl': 0.01554470881819725}, 'load_time_ms': 0.713, 'num_steps_sampled': 526800, 'update_time_ms': 2.635}",439,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.83506178855896,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,526800,526800,{},439,76,-87.30425045952317,2025-09-04_20-48-49,8.000062272518257,3651948,1757011729,-17.817107062266913,16553.65321779251,16446,16.55
+cda-server-2,False,16595.434185028076,"{'sample_time_ms': 40973.372, 'num_steps_trained': 528000, 'grad_time_ms': 374.091, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 414.3402099609375, 'policy_loss': -0.1643889993429184, 'vf_explained_var': 0.03891804441809654, 'entropy': 8.819328308105469, 'cur_lr': 4.999999873689376e-05, 'total_loss': 414.2076110839844, 'kl': 0.013955799862742424}, 'load_time_ms': 0.714, 'num_steps_sampled': 528000, 'update_time_ms': 2.621}",440,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.780967235565186,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,528000,528000,{},440,73,-87.03746228171902,2025-09-04_20-49-31,8.000193163737467,3651948,1757011771,-16.514277600802984,16595.434185028076,16519,15.74
+cda-server-2,False,16637.182630062103,"{'sample_time_ms': 41010.094, 'num_steps_trained': 529200, 'grad_time_ms': 373.472, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 281.71002197265625, 'policy_loss': -0.15865615010261536, 'vf_explained_var': 0.01832013577222824, 'entropy': 8.66702651977539, 'cur_lr': 4.999999873689376e-05, 'total_loss': 281.5833435058594, 'kl': 0.014038166962563992}, 'load_time_ms': 0.702, 'num_steps_sampled': 529200, 'update_time_ms': 2.614}",441,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.7484450340271,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,529200,529200,{},441,77,-87.03746228171902,2025-09-04_20-50-13,8.000000929489092,3651948,1757011813,-18.099141394017842,16637.182630062103,16596,16.63
+cda-server-2,False,16679.03945326805,"{'sample_time_ms': 41097.119, 'num_steps_trained': 530400, 'grad_time_ms': 373.397, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 379.4559020996094, 'policy_loss': -0.15498653054237366, 'vf_explained_var': 0.029985547065734863, 'entropy': 8.676912307739258, 'cur_lr': 4.999999873689376e-05, 'total_loss': 379.3329162597656, 'kl': 0.014052795246243477}, 'load_time_ms': 0.691, 'num_steps_sampled': 530400, 'update_time_ms': 2.593}",442,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.856823205947876,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,530400,530400,{},442,69,-87.8607226904853,2025-09-04_20-50-55,8.000010497723688,3651948,1757011855,-19.481709087181883,16679.03945326805,16665,17.45
+cda-server-2,False,16720.618898153305,"{'sample_time_ms': 41161.866, 'num_steps_trained': 531600, 'grad_time_ms': 374.636, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 320.0054626464844, 'policy_loss': -0.16083712875843048, 'vf_explained_var': 0.04631289467215538, 'entropy': 8.030533790588379, 'cur_lr': 4.999999873689376e-05, 'total_loss': 319.877197265625, 'kl': 0.014289619401097298}, 'load_time_ms': 0.69, 'num_steps_sampled': 531600, 'update_time_ms': 2.602}",443,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.579444885253906,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,531600,531600,{},443,83,-87.61995030853359,2025-09-04_20-51-36,8.000301482042897,3651948,1757011896,-12.899752233581278,16720.618898153305,16748,13.8
+cda-server-2,False,16762.03003191948,"{'sample_time_ms': 41210.451, 'num_steps_trained': 532800, 'grad_time_ms': 373.476, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 334.7008056640625, 'policy_loss': -0.1596754640340805, 'vf_explained_var': 0.04282053932547569, 'entropy': 8.831731796264648, 'cur_lr': 4.999999873689376e-05, 'total_loss': 334.5743408203125, 'kl': 0.01455344632267952}, 'load_time_ms': 0.686, 'num_steps_sampled': 532800, 'update_time_ms': 2.594}",444,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.411133766174316,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,532800,532800,{},444,64,-88.81839473896785,2025-09-04_20-52-18,8.000016245196393,3651948,1757011938,-18.987936818539836,16762.03003191948,16812,17.3
+cda-server-2,False,16804.291570425034,"{'sample_time_ms': 41247.39, 'num_steps_trained': 534000, 'grad_time_ms': 373.179, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 291.1845397949219, 'policy_loss': -0.16169238090515137, 'vf_explained_var': 0.0301960501819849, 'entropy': 8.103074073791504, 'cur_lr': 4.999999873689376e-05, 'total_loss': 291.0556945800781, 'kl': 0.01442566979676485}, 'load_time_ms': 0.673, 'num_steps_sampled': 534000, 'update_time_ms': 2.527}",445,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.2615385055542,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,534000,534000,{},445,79,-85.35315981367188,2025-09-04_20-53-00,8.000084072096763,3651948,1757011980,-14.920949637008876,16804.291570425034,16891,14.98
+cda-server-2,False,16845.300713777542,"{'sample_time_ms': 41199.007, 'num_steps_trained': 535200, 'grad_time_ms': 371.881, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 338.442138671875, 'policy_loss': -0.15294824540615082, 'vf_explained_var': 0.03564156964421272, 'entropy': 8.482898712158203, 'cur_lr': 4.999999873689376e-05, 'total_loss': 338.3228454589844, 'kl': 0.014768613502383232}, 'load_time_ms': 0.68, 'num_steps_sampled': 535200, 'update_time_ms': 2.499}",446,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.009143352508545,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,535200,535200,{},446,58,-88.5915819217999,2025-09-04_20-53-41,8.00002514491476,3651948,1757012021,-19.8870777818862,16845.300713777542,16949,17.73
+cda-server-2,False,16886.91087770462,"{'sample_time_ms': 41244.008, 'num_steps_trained': 536400, 'grad_time_ms': 372.521, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 175.49859619140625, 'policy_loss': -0.15918566286563873, 'vf_explained_var': 0.0374857522547245, 'entropy': 8.244630813598633, 'cur_lr': 4.999999873689376e-05, 'total_loss': 175.37261962890625, 'kl': 0.01456509530544281}, 'load_time_ms': 0.681, 'num_steps_sampled': 536400, 'update_time_ms': 2.53}",447,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.61016392707825,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,536400,536400,{},447,85,-82.83504604852666,2025-09-04_20-54-22,8.000089276407737,3651948,1757012062,-14.488990583660609,16886.91087770462,17034,14.77
+cda-server-2,False,16927.87378692627,"{'sample_time_ms': 41226.985, 'num_steps_trained': 537600, 'grad_time_ms': 370.566, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 284.6360778808594, 'policy_loss': -0.15949472784996033, 'vf_explained_var': 0.03629742190241814, 'entropy': 8.63432502746582, 'cur_lr': 4.999999873689376e-05, 'total_loss': 284.5114440917969, 'kl': 0.015297316946089268}, 'load_time_ms': 0.664, 'num_steps_sampled': 537600, 'update_time_ms': 2.485}",448,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",40.96290922164917,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,537600,537600,{},448,73,-87.3940341602237,2025-09-04_20-55-03,8.000302562516929,3651948,1757012103,-14.556468628799866,16927.87378692627,17107,14.87
+cda-server-2,False,16969.17755842209,"{'sample_time_ms': 41174.344, 'num_steps_trained': 538800, 'grad_time_ms': 370.061, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 231.8226776123047, 'policy_loss': -0.1713278889656067, 'vf_explained_var': 0.048882465809583664, 'entropy': 8.455493927001953, 'cur_lr': 4.999999873689376e-05, 'total_loss': 231.6845703125, 'kl': 0.014588426798582077}, 'load_time_ms': 0.662, 'num_steps_sampled': 538800, 'update_time_ms': 2.474}",449,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.30377149581909,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,538800,538800,{},449,77,-71.82392088658297,2025-09-04_20-55-45,8.000001172878449,3651948,1757012145,-15.705366250989869,16969.17755842209,17184,15.75
+cda-server-2,False,17010.63756752014,"{'sample_time_ms': 41142.753, 'num_steps_trained': 540000, 'grad_time_ms': 369.542, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 281.6278076171875, 'policy_loss': -0.1522459238767624, 'vf_explained_var': 0.05002821236848831, 'entropy': 8.116762161254883, 'cur_lr': 4.999999873689376e-05, 'total_loss': 281.5114440917969, 'kl': 0.01575664058327675}, 'load_time_ms': 0.667, 'num_steps_sampled': 540000, 'update_time_ms': 2.485}",450,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.46000909805298,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,540000,540000,{},450,80,-84.15010302375366,2025-09-04_20-56-26,8.00005827544259,3651948,1757012186,-14.93996309152615,17010.63756752014,17264,15.09
+cda-server-2,False,17051.653188228607,"{'sample_time_ms': 41071.39, 'num_steps_trained': 541200, 'grad_time_ms': 367.579, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 319.8498229980469, 'policy_loss': -0.1568194031715393, 'vf_explained_var': 0.018670465797185898, 'entropy': 8.665520668029785, 'cur_lr': 4.999999873689376e-05, 'total_loss': 319.7239990234375, 'kl': 0.013618793338537216}, 'load_time_ms': 0.661, 'num_steps_sampled': 541200, 'update_time_ms': 2.58}",451,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.015620708465576,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,541200,541200,{},451,69,-87.26869020953562,2025-09-04_20-57-07,8.000050737390461,3651948,1757012227,-19.006085120852394,17051.653188228607,17333,17.34
+cda-server-2,False,17092.9470539093,"{'sample_time_ms': 41014.507, 'num_steps_trained': 542400, 'grad_time_ms': 368.17, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 288.7252502441406, 'policy_loss': -0.1631011813879013, 'vf_explained_var': 0.029342809692025185, 'entropy': 8.429981231689453, 'cur_lr': 4.999999873689376e-05, 'total_loss': 288.5946044921875, 'kl': 0.014258328825235367}, 'load_time_ms': 0.66, 'num_steps_sampled': 542400, 'update_time_ms': 2.56}",452,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.29386568069458,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,542400,542400,{},452,74,-87.34813542686608,2025-09-04_20-57-49,8.000189292670523,3651948,1757012269,-18.18275225378042,17092.9470539093,17407,16.83
+cda-server-2,False,17134.125964164734,"{'sample_time_ms': 40974.083, 'num_steps_trained': 543600, 'grad_time_ms': 368.54, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 394.4097900390625, 'policy_loss': -0.16569074988365173, 'vf_explained_var': 0.03131605684757233, 'entropy': 8.512945175170898, 'cur_lr': 4.999999873689376e-05, 'total_loss': 394.2773742675781, 'kl': 0.014615214429795742}, 'load_time_ms': 0.664, 'num_steps_sampled': 543600, 'update_time_ms': 2.614}",453,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.17891025543213,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,543600,543600,{},453,64,-90.00949107692566,2025-09-04_20-58-30,8.000245652836771,3651948,1757012310,-19.285058586526443,17134.125964164734,17471,17.48
+cda-server-2,False,17176.44965982437,"{'sample_time_ms': 41062.823, 'num_steps_trained': 544800, 'grad_time_ms': 371.057, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 358.07147216796875, 'policy_loss': -0.147636279463768, 'vf_explained_var': 0.03243735060095787, 'entropy': 8.070189476013184, 'cur_lr': 4.999999873689376e-05, 'total_loss': 357.9606628417969, 'kl': 0.01616663858294487}, 'load_time_ms': 0.675, 'num_steps_sampled': 544800, 'update_time_ms': 2.586}",454,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.32369565963745,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,544800,544800,{},454,84,-90.00949107692566,2025-09-04_20-59-12,8.000010170167442,3651948,1757012352,-15.418296576200568,17176.44965982437,17555,15.15
+cda-server-2,False,17218.774721622467,"{'sample_time_ms': 41068.327, 'num_steps_trained': 546000, 'grad_time_ms': 371.816, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 274.8625183105469, 'policy_loss': -0.15433499217033386, 'vf_explained_var': 0.04063411429524422, 'entropy': 8.161273956298828, 'cur_lr': 4.999999873689376e-05, 'total_loss': 274.7413330078125, 'kl': 0.014555818401277065}, 'load_time_ms': 0.691, 'num_steps_sampled': 546000, 'update_time_ms': 2.608}",455,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.3250617980957,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,546000,546000,{},455,78,-87.03464169534483,2025-09-04_20-59-55,8.001451916235133,3651948,1757012395,-14.942562569436975,17218.774721622467,17633,14.96
+cda-server-2,False,17260.553253889084,"{'sample_time_ms': 41144.626, 'num_steps_trained': 547200, 'grad_time_ms': 372.396, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 259.0595703125, 'policy_loss': -0.15590450167655945, 'vf_explained_var': 0.05277172848582268, 'entropy': 7.884790897369385, 'cur_lr': 4.999999873689376e-05, 'total_loss': 258.9333801269531, 'kl': 0.013034400530159473}, 'load_time_ms': 0.695, 'num_steps_sampled': 547200, 'update_time_ms': 2.671}",456,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.77853226661682,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,547200,547200,{},456,90,-88.63748942824976,2025-09-04_21-00-36,8.001124234118306,3651948,1757012436,-12.186383781204604,17260.553253889084,17723,13.37
+cda-server-2,False,17303.146927833557,"{'sample_time_ms': 41242.352, 'num_steps_trained': 548400, 'grad_time_ms': 372.992, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 234.77056884765625, 'policy_loss': -0.1650943160057068, 'vf_explained_var': 0.03529277816414833, 'entropy': 8.531253814697266, 'cur_lr': 4.999999873689376e-05, 'total_loss': 234.63693237304688, 'kl': 0.013813511468470097}, 'load_time_ms': 0.706, 'num_steps_sampled': 548400, 'update_time_ms': 2.666}",457,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.59367394447327,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,548400,548400,{},457,88,-84.94318505630861,2025-09-04_21-01-19,8.000029127239786,3651948,1757012479,-11.773299884421103,17303.146927833557,17811,13.41
+cda-server-2,False,17344.81735086441,"{'sample_time_ms': 41312.334, 'num_steps_trained': 549600, 'grad_time_ms': 373.744, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 226.6254425048828, 'policy_loss': -0.16493502259254456, 'vf_explained_var': 0.042032089084386826, 'entropy': 8.069854736328125, 'cur_lr': 4.999999873689376e-05, 'total_loss': 226.49737548828125, 'kl': 0.016184350475668907}, 'load_time_ms': 0.701, 'num_steps_sampled': 549600, 'update_time_ms': 2.704}",458,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.67042303085327,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,549600,549600,{},458,70,-87.02378533047025,2025-09-04_21-02-01,8.000029423041246,3651948,1757012521,-17.5357891026734,17344.81735086441,17881,16.62
+cda-server-2,False,17384.00404715538,"{'sample_time_ms': 41099.307, 'num_steps_trained': 550800, 'grad_time_ms': 375.05, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 232.12977600097656, 'policy_loss': -0.14683347940444946, 'vf_explained_var': 0.03351776301860809, 'entropy': 8.242464065551758, 'cur_lr': 4.999999873689376e-05, 'total_loss': 232.02127075195312, 'kl': 0.016831597313284874}, 'load_time_ms': 0.708, 'num_steps_sampled': 550800, 'update_time_ms': 2.729}",459,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.18669629096985,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,550800,550800,{},459,87,-87.02378533047025,2025-09-04_21-02-40,8.000038132613607,3651948,1757012560,-13.801652622181992,17384.00404715538,17968,14.44
+cda-server-2,False,17423.686593294144,"{'sample_time_ms': 40922.125, 'num_steps_trained': 552000, 'grad_time_ms': 374.485, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 234.0694122314453, 'policy_loss': -0.15866075456142426, 'vf_explained_var': 0.035337552428245544, 'entropy': 8.417089462280273, 'cur_lr': 4.999999873689376e-05, 'total_loss': 233.94387817382812, 'kl': 0.01453636959195137}, 'load_time_ms': 0.704, 'num_steps_sampled': 552000, 'update_time_ms': 2.716}",460,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",39.68254613876343,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,552000,552000,{},460,77,-83.88185249257836,2025-09-04_21-03-20,8.000636031322111,3651948,1757012600,-14.473103590357972,17423.686593294144,18045,14.93
+cda-server-2,False,17464.750234603882,"{'sample_time_ms': 40923.764, 'num_steps_trained': 553200, 'grad_time_ms': 377.604, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 301.85015869140625, 'policy_loss': -0.17026448249816895, 'vf_explained_var': 0.026150895282626152, 'entropy': 8.212603569030762, 'cur_lr': 4.999999873689376e-05, 'total_loss': 301.7120361328125, 'kl': 0.014113317243754864}, 'load_time_ms': 0.719, 'num_steps_sampled': 553200, 'update_time_ms': 2.657}",461,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.06364130973816,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,553200,553200,{},461,72,-86.74672593739993,2025-09-04_21-04-01,8.000563786902937,3651948,1757012641,-18.313983170418428,17464.750234603882,18117,17.1
+cda-server-2,False,17506.31477212906,"{'sample_time_ms': 40951.639, 'num_steps_trained': 554400, 'grad_time_ms': 376.803, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 244.6202850341797, 'policy_loss': -0.1634778082370758, 'vf_explained_var': 0.07023818045854568, 'entropy': 8.577519416809082, 'cur_lr': 4.999999873689376e-05, 'total_loss': 244.48876953125, 'kl': 0.014043360948562622}, 'load_time_ms': 0.715, 'num_steps_sampled': 554400, 'update_time_ms': 2.705}",462,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.564537525177,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,554400,554400,{},462,76,-87.00423157440254,2025-09-04_21-04-42,8.00011506562049,3651948,1757012682,-15.492103045760286,17506.31477212906,18193,15.58
+cda-server-2,False,17547.55945444107,"{'sample_time_ms': 40959.104, 'num_steps_trained': 555600, 'grad_time_ms': 375.928, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 257.6145935058594, 'policy_loss': -0.15277798473834991, 'vf_explained_var': 0.05817045271396637, 'entropy': 8.55958366394043, 'cur_lr': 4.999999873689376e-05, 'total_loss': 257.4984130859375, 'kl': 0.01608334667980671}, 'load_time_ms': 0.715, 'num_steps_sampled': 555600, 'update_time_ms': 2.65}",463,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.24468231201172,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,555600,555600,{},463,73,-87.47294627550268,2025-09-04_21-05-24,8.000169021854774,3651948,1757012724,-16.830785683922095,17547.55945444107,18266,16.2
+cda-server-2,False,17589.918608427048,"{'sample_time_ms': 40961.879, 'num_steps_trained': 556800, 'grad_time_ms': 376.652, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 211.51295471191406, 'policy_loss': -0.1506921648979187, 'vf_explained_var': 0.04846331849694252, 'entropy': 8.07451343536377, 'cur_lr': 4.999999873689376e-05, 'total_loss': 211.39886474609375, 'kl': 0.016063140705227852}, 'load_time_ms': 0.724, 'num_steps_sampled': 556800, 'update_time_ms': 2.646}",464,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.35915398597717,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,556800,556800,{},464,96,-84.9705695047172,2025-09-04_21-06-06,8.00009345027309,3651948,1757012766,-10.908602615462316,17589.918608427048,18362,12.85
+cda-server-2,False,17631.50919151306,"{'sample_time_ms': 40890.134, 'num_steps_trained': 558000, 'grad_time_ms': 374.93, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 307.7181091308594, 'policy_loss': -0.1529518961906433, 'vf_explained_var': 0.03323771059513092, 'entropy': 8.194103240966797, 'cur_lr': 4.999999873689376e-05, 'total_loss': 307.5993347167969, 'kl': 0.014989580027759075}, 'load_time_ms': 0.714, 'num_steps_sampled': 558000, 'update_time_ms': 2.64}",465,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.590583086013794,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,558000,558000,{},465,72,-85.39355564165294,2025-09-04_21-06-47,8.000000981212601,3651948,1757012807,-16.09407457830146,17631.50919151306,18434,15.67
+cda-server-2,False,17672.830092430115,"{'sample_time_ms': 40845.424, 'num_steps_trained': 559200, 'grad_time_ms': 373.882, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 324.7706298828125, 'policy_loss': -0.14864295721054077, 'vf_explained_var': 0.07129890471696854, 'entropy': 8.121540069580078, 'cur_lr': 4.999999873689376e-05, 'total_loss': 324.65435791015625, 'kl': 0.014201385900378227}, 'load_time_ms': 0.734, 'num_steps_sampled': 559200, 'update_time_ms': 2.645}",466,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.32090091705322,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,559200,559200,{},466,72,-86.69817533466964,2025-09-04_21-07-29,8.000000981212601,3651948,1757012849,-17.88563546355931,17672.830092430115,18506,16.68
+cda-server-2,False,17714.86853003502,"{'sample_time_ms': 40790.17, 'num_steps_trained': 560400, 'grad_time_ms': 373.663, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 305.15966796875, 'policy_loss': -0.14870496094226837, 'vf_explained_var': 0.050349798053503036, 'entropy': 8.24783992767334, 'cur_lr': 4.999999873689376e-05, 'total_loss': 305.0430908203125, 'kl': 0.014107043854892254}, 'load_time_ms': 0.727, 'num_steps_sampled': 560400, 'update_time_ms': 2.617}",467,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.038437604904175,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,560400,560400,{},467,73,-87.01498676038369,2025-09-04_21-08-11,8.000242708047294,3651948,1757012891,-16.99994393394948,17714.86853003502,18579,16.14
+cda-server-2,False,17757.885385751724,"{'sample_time_ms': 40925.756, 'num_steps_trained': 561600, 'grad_time_ms': 372.726, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 267.5435791015625, 'policy_loss': -0.15850119292736053, 'vf_explained_var': 0.04324857518076897, 'entropy': 8.296599388122559, 'cur_lr': 4.999999873689376e-05, 'total_loss': 267.42022705078125, 'kl': 0.015434009954333305}, 'load_time_ms': 0.741, 'num_steps_sampled': 561600, 'update_time_ms': 2.627}",468,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.01685571670532,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,561600,561600,{},468,76,-84.67355768924301,2025-09-04_21-08-54,8.000242708047294,3651948,1757012934,-17.36202630460213,17757.885385751724,18655,16.49
+cda-server-2,False,17800.227256536484,"{'sample_time_ms': 41243.709, 'num_steps_trained': 562800, 'grad_time_ms': 370.323, 'default': {'cur_kl_coeff': 2.278125047683716, 'vf_loss': 196.42506408691406, 'policy_loss': -0.1404145359992981, 'vf_explained_var': 0.0622972697019577, 'entropy': 8.130264282226562, 'cur_lr': 4.999999873689376e-05, 'total_loss': 196.33262634277344, 'kl': 0.021073700860142708}, 'load_time_ms': 0.741, 'num_steps_sampled': 562800, 'update_time_ms': 2.608}",469,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.34187078475952,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,562800,562800,{},469,82,-83.35466161554041,2025-09-04_21-09-36,8.000000400449515,3651948,1757012976,-14.09392057265725,17800.227256536484,18737,14.71
+cda-server-2,False,17842.053878068924,"{'sample_time_ms': 41456.792, 'num_steps_trained': 564000, 'grad_time_ms': 371.673, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 225.6439208984375, 'policy_loss': -0.1375613808631897, 'vf_explained_var': 0.08121463656425476, 'entropy': 8.127840042114258, 'cur_lr': 4.999999873689376e-05, 'total_loss': 225.542724609375, 'kl': 0.010645460337400436}, 'load_time_ms': 0.74, 'num_steps_sampled': 564000, 'update_time_ms': 2.589}",470,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.826621532440186,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,564000,564000,{},470,84,-87.60770839305536,2025-09-04_21-10-18,8.000000406113983,3651948,1757013018,-12.47544421668838,17842.053878068924,18821,13.76
+cda-server-2,False,17883.36307120323,"{'sample_time_ms': 41484.563, 'num_steps_trained': 565200, 'grad_time_ms': 368.478, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 395.8850402832031, 'policy_loss': -0.1417011171579361, 'vf_explained_var': 0.0316615104675293, 'entropy': 8.629416465759277, 'cur_lr': 4.999999873689376e-05, 'total_loss': 395.7802429199219, 'kl': 0.010803967714309692}, 'load_time_ms': 0.731, 'num_steps_sampled': 565200, 'update_time_ms': 2.635}",471,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.30919313430786,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,565200,565200,{},471,79,-87.47708512475148,2025-09-04_21-11-00,8.000576421701625,3651948,1757013060,-13.227012858516819,17883.36307120323,18900,14.02
+cda-server-2,False,17924.94619822502,"{'sample_time_ms': 41484.285, 'num_steps_trained': 566400, 'grad_time_ms': 370.58, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 314.4154968261719, 'policy_loss': -0.15358594059944153, 'vf_explained_var': 0.04043276980519295, 'entropy': 8.475257873535156, 'cur_lr': 4.999999873689376e-05, 'total_loss': 314.2979736328125, 'kl': 0.010557727888226509}, 'load_time_ms': 0.737, 'num_steps_sampled': 566400, 'update_time_ms': 2.607}",472,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.58312702178955,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,566400,566400,{},472,76,-87.13177188269114,2025-09-04_21-11-41,8.000055159235595,3651948,1757013101,-16.99260804384653,17924.94619822502,18976,16.12
+cda-server-2,False,17966.750247716904,"{'sample_time_ms': 41542.479, 'num_steps_trained': 567600, 'grad_time_ms': 368.348, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 273.8243103027344, 'policy_loss': -0.1353476345539093, 'vf_explained_var': 0.05185036361217499, 'entropy': 8.484976768493652, 'cur_lr': 4.999999873689376e-05, 'total_loss': 273.7279052734375, 'kl': 0.011385568417608738}, 'load_time_ms': 0.728, 'num_steps_sampled': 567600, 'update_time_ms': 2.625}",473,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.804049491882324,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,567600,567600,{},473,81,-86.55932765284689,2025-09-04_21-12-23,8.000000588705433,3651948,1757013143,-13.989362262801153,17966.750247716904,19057,14.53
+cda-server-2,False,18008.82496738434,"{'sample_time_ms': 41517.291, 'num_steps_trained': 568800, 'grad_time_ms': 365.168, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 256.0528564453125, 'policy_loss': -0.15473327040672302, 'vf_explained_var': 0.0509008951485157, 'entropy': 7.856842994689941, 'cur_lr': 4.999999873689376e-05, 'total_loss': 255.9336700439453, 'kl': 0.010404815897345543}, 'load_time_ms': 0.716, 'num_steps_sampled': 568800, 'update_time_ms': 2.63}",474,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.07471966743469,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,568800,568800,{},474,83,-81.52972203296628,2025-09-04_21-13-05,8.0002414412144,3651948,1757013185,-14.391012181483756,18008.82496738434,19140,14.68
+cda-server-2,False,18050.66978764534,"{'sample_time_ms': 41542.297, 'num_steps_trained': 570000, 'grad_time_ms': 365.636, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 308.62677001953125, 'policy_loss': -0.1460433006286621, 'vf_explained_var': 0.03346286341547966, 'entropy': 8.371639251708984, 'cur_lr': 4.999999873689376e-05, 'total_loss': 308.5193786621094, 'kl': 0.011313981376588345}, 'load_time_ms': 0.727, 'num_steps_sampled': 570000, 'update_time_ms': 2.634}",475,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.84482026100159,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,570000,570000,{},475,69,-85.97524171398528,2025-09-04_21-13-47,8.0002414412144,3651948,1757013227,-19.02973859829269,18050.66978764534,19209,17.31
+cda-server-2,False,18092.151755332947,"{'sample_time_ms': 41557.563, 'num_steps_trained': 571200, 'grad_time_ms': 366.533, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 319.2445068359375, 'policy_loss': -0.13714276254177094, 'vf_explained_var': 0.04726093262434006, 'entropy': 7.806724548339844, 'cur_lr': 4.999999873689376e-05, 'total_loss': 319.1560363769531, 'kl': 0.014237035065889359}, 'load_time_ms': 0.704, 'num_steps_sampled': 571200, 'update_time_ms': 2.595}",476,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.48196768760681,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,571200,571200,{},476,78,-87.78543487703158,2025-09-04_21-14-28,8.001416105329282,3651948,1757013268,-14.876747676421784,18092.151755332947,19287,14.96
+cda-server-2,False,18134.105527162552,"{'sample_time_ms': 41548.717, 'num_steps_trained': 572400, 'grad_time_ms': 366.91, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 217.2244110107422, 'policy_loss': -0.15130357444286346, 'vf_explained_var': 0.03335639461874962, 'entropy': 7.664278507232666, 'cur_lr': 4.999999873689376e-05, 'total_loss': 217.1077423095703, 'kl': 0.010144203901290894}, 'load_time_ms': 0.705, 'num_steps_sampled': 572400, 'update_time_ms': 2.613}",477,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.9537718296051,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,572400,572400,{},477,90,-85.62620526679551,2025-09-04_21-15-10,8.000000408650061,3651948,1757013310,-11.832322942400586,18134.105527162552,19377,13.26
+cda-server-2,False,18176.570024728775,"{'sample_time_ms': 41490.993, 'num_steps_trained': 573600, 'grad_time_ms': 369.408, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 240.44708251953125, 'policy_loss': -0.13824151456356049, 'vf_explained_var': 0.041959889233112335, 'entropy': 8.172922134399414, 'cur_lr': 4.999999873689376e-05, 'total_loss': 240.34580993652344, 'kl': 0.010818732902407646}, 'load_time_ms': 0.724, 'num_steps_sampled': 573600, 'update_time_ms': 2.572}",478,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.464497566223145,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,573600,573600,{},478,82,-86.89646622239142,2025-09-04_21-15-53,8.000167905287384,3651948,1757013353,-13.68312573920506,18176.570024728775,19459,14.43
+cda-server-2,False,18218.882836580276,"{'sample_time_ms': 41485.94, 'num_steps_trained': 574800, 'grad_time_ms': 371.547, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 191.9720916748047, 'policy_loss': -0.14333170652389526, 'vf_explained_var': 0.0873849019408226, 'entropy': 8.113423347473145, 'cur_lr': 4.999999873689376e-05, 'total_loss': 191.86610412597656, 'kl': 0.01093095913529396}, 'load_time_ms': 0.719, 'num_steps_sampled': 574800, 'update_time_ms': 2.558}",479,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.312811851501465,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,574800,574800,{},479,85,-69.91975954756731,2025-09-04_21-16-35,8.0024867008069,3651948,1757013395,-11.845564886456053,18218.882836580276,19544,13.47
+cda-server-2,False,18260.60901069641,"{'sample_time_ms': 41477.532, 'num_steps_trained': 576000, 'grad_time_ms': 369.917, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 255.5122833251953, 'policy_loss': -0.14694522321224213, 'vf_explained_var': 0.0370616652071476, 'entropy': 7.742955684661865, 'cur_lr': 4.999999873689376e-05, 'total_loss': 255.4047088623047, 'kl': 0.011521845124661922}, 'load_time_ms': 0.712, 'num_steps_sampled': 576000, 'update_time_ms': 2.582}",480,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.726174116134644,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,576000,576000,{},480,80,-69.38365356743621,2025-09-04_21-17-17,8.0024867008069,3651948,1757013437,-14.388228990457339,18260.60901069641,19624,14.88
+cda-server-2,False,18302.56862616539,"{'sample_time_ms': 41542.479, 'num_steps_trained': 577200, 'grad_time_ms': 369.968, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 239.53497314453125, 'policy_loss': -0.15021011233329773, 'vf_explained_var': 0.06270802021026611, 'entropy': 8.896788597106934, 'cur_lr': 4.999999873689376e-05, 'total_loss': 239.42184448242188, 'kl': 0.010851171799004078}, 'load_time_ms': 0.705, 'num_steps_sampled': 577200, 'update_time_ms': 2.632}",481,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.95961546897888,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,577200,577200,{},481,74,-83.22713405036208,2025-09-04_21-17-59,8.00002845257644,3651948,1757013479,-16.78376223473995,18302.56862616539,19698,16.22
+cda-server-2,False,18344.443053245544,"{'sample_time_ms': 41571.379, 'num_steps_trained': 578400, 'grad_time_ms': 370.209, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 243.20068359375, 'policy_loss': -0.15146000683307648, 'vf_explained_var': 0.07553044706583023, 'entropy': 8.30219554901123, 'cur_lr': 4.999999873689376e-05, 'total_loss': 243.08531188964844, 'kl': 0.010568010620772839}, 'load_time_ms': 0.715, 'num_steps_sampled': 578400, 'update_time_ms': 2.637}",482,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.87442708015442,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,578400,578400,{},482,82,-82.03602098541046,2025-09-04_21-18-41,8.000262047940932,3651948,1757013521,-13.913369093101737,18344.443053245544,19780,14.57
+cda-server-2,False,18387.00535440445,"{'sample_time_ms': 41644.671, 'num_steps_trained': 579600, 'grad_time_ms': 372.728, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 294.4358825683594, 'policy_loss': -0.14570266008377075, 'vf_explained_var': 0.04153982922434807, 'entropy': 8.038591384887695, 'cur_lr': 4.999999873689376e-05, 'total_loss': 294.3316650390625, 'kl': 0.012156561017036438}, 'load_time_ms': 0.714, 'num_steps_sampled': 579600, 'update_time_ms': 2.626}",483,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.56230115890503,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,579600,579600,{},483,86,-85.34388832913162,2025-09-04_21-19-23,8.000020010806644,3651948,1757013563,-13.433089765628749,18387.00535440445,19866,14.17
+cda-server-2,False,18428.3811314106,"{'sample_time_ms': 41574.855, 'num_steps_trained': 580800, 'grad_time_ms': 372.621, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 251.95838928222656, 'policy_loss': -0.140852153301239, 'vf_explained_var': 0.05595090612769127, 'entropy': 8.06338119506836, 'cur_lr': 4.999999873689376e-05, 'total_loss': 251.8585662841797, 'kl': 0.012006484903395176}, 'load_time_ms': 0.71, 'num_steps_sampled': 580800, 'update_time_ms': 2.641}",484,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.37577700614929,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,580800,580800,{},484,82,-85.5026981462562,2025-09-04_21-20-05,8.000003756576547,3651948,1757013605,-15.357466498791851,18428.3811314106,19948,15.33
+cda-server-2,False,18470.653317928314,"{'sample_time_ms': 41618.58, 'num_steps_trained': 582000, 'grad_time_ms': 371.639, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 226.7355194091797, 'policy_loss': -0.13351666927337646, 'vf_explained_var': 0.044881563633680344, 'entropy': 7.895392417907715, 'cur_lr': 4.999999873689376e-05, 'total_loss': 226.64395141601562, 'kl': 0.012266373261809349}, 'load_time_ms': 0.707, 'num_steps_sampled': 582000, 'update_time_ms': 2.634}",485,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.272186517715454,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,582000,582000,{},485,91,-85.5026981462562,2025-09-04_21-20-47,8.0001818373437,3651948,1757013647,-11.712298226184485,18470.653317928314,20039,13.24
+cda-server-2,False,18512.860308885574,"{'sample_time_ms': 41691.245, 'num_steps_trained': 583200, 'grad_time_ms': 371.496, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 177.91851806640625, 'policy_loss': -0.14544419944286346, 'vf_explained_var': 0.062186818569898605, 'entropy': 7.850541114807129, 'cur_lr': 4.999999873689376e-05, 'total_loss': 177.8248291015625, 'kl': 0.015139114111661911}, 'load_time_ms': 0.705, 'num_steps_sampled': 583200, 'update_time_ms': 2.619}",486,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.20699095726013,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,583200,583200,{},486,87,-72.88723044974441,2025-09-04_21-21-29,8.000000425461572,3651948,1757013689,-13.211649018999122,18512.860308885574,20126,14.18
+cda-server-2,False,18554.72178196907,"{'sample_time_ms': 41681.549, 'num_steps_trained': 584400, 'grad_time_ms': 371.942, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 220.20993041992188, 'policy_loss': -0.1493559181690216, 'vf_explained_var': 0.05542575567960739, 'entropy': 8.345026969909668, 'cur_lr': 4.999999873689376e-05, 'total_loss': 220.09539794921875, 'kl': 0.010188949294388294}, 'load_time_ms': 0.715, 'num_steps_sampled': 584400, 'update_time_ms': 2.579}",487,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.861473083496094,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,584400,584400,{},487,84,-85.36710238689737,2025-09-04_21-22-11,8.00017241267457,3651948,1757013731,-13.453084415477218,18554.72178196907,20210,14.39
+cda-server-2,False,18596.359052419662,"{'sample_time_ms': 41599.759, 'num_steps_trained': 585600, 'grad_time_ms': 370.993, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 154.37660217285156, 'policy_loss': -0.1398123949766159, 'vf_explained_var': 0.03538002073764801, 'entropy': 8.030010223388672, 'cur_lr': 4.999999873689376e-05, 'total_loss': 154.27552795410156, 'kl': 0.011330515146255493}, 'load_time_ms': 0.703, 'num_steps_sampled': 585600, 'update_time_ms': 2.596}",488,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.63727045059204,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,585600,585600,{},488,83,-58.349158582427094,2025-09-04_21-22-53,8.000038198750534,3651948,1757013773,-13.73840384895593,18596.359052419662,20293,14.61
+cda-server-2,False,18639.371886968613,"{'sample_time_ms': 41672.031, 'num_steps_trained': 586800, 'grad_time_ms': 368.754, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 298.9637145996094, 'policy_loss': -0.14437498152256012, 'vf_explained_var': 0.036520641297101974, 'entropy': 8.234903335571289, 'cur_lr': 4.999999873689376e-05, 'total_loss': 298.8560485839844, 'kl': 0.010744307190179825}, 'load_time_ms': 0.705, 'num_steps_sampled': 586800, 'update_time_ms': 2.59}",489,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.012834548950195,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,586800,586800,{},489,76,-83.90387052434679,2025-09-04_21-23-36,8.000121486043561,3651948,1757013816,-14.819772329091979,18639.371886968613,20369,15.26
+cda-server-2,False,18680.802632570267,"{'sample_time_ms': 41642.37, 'num_steps_trained': 588000, 'grad_time_ms': 368.84, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 270.6208190917969, 'policy_loss': -0.14302177727222443, 'vf_explained_var': 0.035059988498687744, 'entropy': 8.234389305114746, 'cur_lr': 4.999999873689376e-05, 'total_loss': 270.5148010253906, 'kl': 0.010817685164511204}, 'load_time_ms': 0.714, 'num_steps_sampled': 588000, 'update_time_ms': 2.569}",490,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.43074560165405,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,588000,588000,{},490,82,-88.57029168170826,2025-09-04_21-24-17,8.00024900433902,3651948,1757013857,-16.010917741917307,18680.802632570267,20451,15.75
+cda-server-2,False,18722.966340780258,"{'sample_time_ms': 41662.296, 'num_steps_trained': 589200, 'grad_time_ms': 369.404, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 308.23187255859375, 'policy_loss': -0.1413438767194748, 'vf_explained_var': 0.05475946143269539, 'entropy': 8.307570457458496, 'cur_lr': 4.999999873689376e-05, 'total_loss': 308.12884521484375, 'kl': 0.011216908693313599}, 'load_time_ms': 0.712, 'num_steps_sampled': 589200, 'update_time_ms': 2.459}",491,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.163708209991455,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,589200,589200,{},491,84,-85.10439443954823,2025-09-04_21-25-00,8.000032190182104,3651948,1757013900,-13.215847781637063,18722.966340780258,20535,14.19
+cda-server-2,False,18764.273517370224,"{'sample_time_ms': 41606.297, 'num_steps_trained': 590400, 'grad_time_ms': 368.711, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 333.9530944824219, 'policy_loss': -0.12836137413978577, 'vf_explained_var': 0.023143529891967773, 'entropy': 8.049270629882812, 'cur_lr': 4.999999873689376e-05, 'total_loss': 333.8704528808594, 'kl': 0.013377728872001171}, 'load_time_ms': 0.704, 'num_steps_sampled': 590400, 'update_time_ms': 2.461}",492,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.30717658996582,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,590400,590400,{},492,75,-90.14017845056321,2025-09-04_21-25-41,8.000000400039598,3651948,1757013941,-15.350974614268544,18764.273517370224,20610,15.16
+cda-server-2,False,18805.587491750717,"{'sample_time_ms': 41481.795, 'num_steps_trained': 591600, 'grad_time_ms': 368.342, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 322.06427001953125, 'policy_loss': -0.14064206182956696, 'vf_explained_var': 0.023292958736419678, 'entropy': 7.97336483001709, 'cur_lr': 4.999999873689376e-05, 'total_loss': 321.9604187011719, 'kl': 0.010765206068754196}, 'load_time_ms': 0.716, 'num_steps_sampled': 591600, 'update_time_ms': 2.462}",493,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.313974380493164,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,591600,591600,{},493,80,-86.66675106723396,2025-09-04_21-26-22,8.000050889980269,3651948,1757013982,-15.626723614996253,18805.587491750717,20690,15.24
+cda-server-2,False,18847.166501522064,"{'sample_time_ms': 41501.811, 'num_steps_trained': 592800, 'grad_time_ms': 368.62, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 320.3753662109375, 'policy_loss': -0.15322066843509674, 'vf_explained_var': 0.052800972014665604, 'entropy': 8.03237533569336, 'cur_lr': 4.999999873689376e-05, 'total_loss': 320.260009765625, 'kl': 0.011088002473115921}, 'load_time_ms': 0.714, 'num_steps_sampled': 592800, 'update_time_ms': 2.497}",494,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.579009771347046,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,592800,592800,{},494,76,-86.6857093331291,2025-09-04_21-27-04,8.000071705452596,3651948,1757014024,-13.958478779205585,18847.166501522064,20766,14.54
+cda-server-2,False,18890.30220270157,"{'sample_time_ms': 41586.374, 'num_steps_trained': 594000, 'grad_time_ms': 370.329, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 176.98995971679688, 'policy_loss': -0.1451566517353058, 'vf_explained_var': 0.05666474997997284, 'entropy': 7.881124019622803, 'cur_lr': 4.999999873689376e-05, 'total_loss': 176.88229370117188, 'kl': 0.010970203205943108}, 'load_time_ms': 0.714, 'num_steps_sampled': 594000, 'update_time_ms': 2.497}",495,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.135701179504395,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,594000,594000,{},495,101,-83.68284583938473,2025-09-04_21-27-47,8.000077517396324,3651948,1757014067,-10.270964668990766,18890.30220270157,20867,12.465346534653465
+cda-server-2,False,18931.804030179977,"{'sample_time_ms': 41515.342, 'num_steps_trained': 595200, 'grad_time_ms': 370.796, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 217.40060424804688, 'policy_loss': -0.1363876461982727, 'vf_explained_var': 0.04078206792473793, 'entropy': 8.477455139160156, 'cur_lr': 4.999999873689376e-05, 'total_loss': 217.304443359375, 'kl': 0.011769948527216911}, 'load_time_ms': 0.719, 'num_steps_sampled': 595200, 'update_time_ms': 2.488}",496,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.50182747840881,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,595200,595200,{},496,87,-81.89818780485777,2025-09-04_21-28-28,8.000077897314387,3651948,1757014108,-11.506748530268467,18931.804030179977,20954,13.3
+cda-server-2,False,18973.457051038742,"{'sample_time_ms': 41494.912, 'num_steps_trained': 596400, 'grad_time_ms': 370.361, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 191.2285919189453, 'policy_loss': -0.142458975315094, 'vf_explained_var': 0.02932678908109665, 'entropy': 7.927573204040527, 'cur_lr': 4.999999873689376e-05, 'total_loss': 191.1237030029297, 'kl': 0.010983546264469624}, 'load_time_ms': 0.705, 'num_steps_sampled': 596400, 'update_time_ms': 2.547}",497,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.65302085876465,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,596400,596400,{},497,87,-85.96878336102286,2025-09-04_21-29-10,8.000152657205481,3651948,1757014150,-12.040197633921432,18973.457051038742,21041,13.56
+cda-server-2,False,19015.47111916542,"{'sample_time_ms': 41533.256, 'num_steps_trained': 597600, 'grad_time_ms': 369.677, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 171.41409301757812, 'policy_loss': -0.13801419734954834, 'vf_explained_var': 0.07307276874780655, 'entropy': 7.996822834014893, 'cur_lr': 4.999999873689376e-05, 'total_loss': 171.31585693359375, 'kl': 0.011637212708592415}, 'load_time_ms': 0.69, 'num_steps_sampled': 597600, 'update_time_ms': 2.56}",498,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.01406812667847,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,597600,597600,{},498,97,-81.78525146421343,2025-09-04_21-29-52,8.00011910772374,3651948,1757014192,-10.233689571593073,19015.47111916542,21138,12.48
+cda-server-2,False,19057.868161678314,"{'sample_time_ms': 41469.932, 'num_steps_trained': 598800, 'grad_time_ms': 371.355, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 203.18177795410156, 'policy_loss': -0.14015284180641174, 'vf_explained_var': 0.07815537601709366, 'entropy': 8.00692367553711, 'cur_lr': 4.999999873689376e-05, 'total_loss': 203.07766723632812, 'kl': 0.01054619625210762}, 'load_time_ms': 0.688, 'num_steps_sampled': 598800, 'update_time_ms': 2.57}",499,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.39704251289368,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,598800,598800,{},499,98,-84.37047594622636,2025-09-04_21-30-35,8.000067198878867,3651948,1757014235,-9.81541174713408,19057.868161678314,21236,12.29
+cda-server-2,False,19100.248570919037,"{'sample_time_ms': 41565.004, 'num_steps_trained': 600000, 'grad_time_ms': 371.225, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 228.5944061279297, 'policy_loss': -0.13729991018772125, 'vf_explained_var': 0.06894998252391815, 'entropy': 8.258490562438965, 'cur_lr': 4.999999873689376e-05, 'total_loss': 228.5061798095703, 'kl': 0.014364050701260567}, 'load_time_ms': 0.68, 'num_steps_sampled': 600000, 'update_time_ms': 2.607}",500,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.380409240722656,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,600000,600000,{},500,107,-85.03451509587148,2025-09-04_21-31-17,8.000095531447425,3651948,1757014277,-8.105283058888311,19100.248570919037,21343,11.233644859813085
+cda-server-2,False,19142.855487585068,"{'sample_time_ms': 41607.908, 'num_steps_trained': 601200, 'grad_time_ms': 372.662, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 235.8614044189453, 'policy_loss': -0.14118488132953644, 'vf_explained_var': 0.0441315695643425, 'entropy': 7.8184638023376465, 'cur_lr': 4.999999873689376e-05, 'total_loss': 235.7564239501953, 'kl': 0.010595940053462982}, 'load_time_ms': 0.687, 'num_steps_sampled': 601200, 'update_time_ms': 2.622}",501,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.606916666030884,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,601200,601200,{},501,102,-83.40710671169376,2025-09-04_21-32-00,8.000040356716635,3651948,1757014320,-8.77457060067311,19142.855487585068,21445,11.647058823529411
+cda-server-2,False,19185.00794363022,"{'sample_time_ms': 41693.855, 'num_steps_trained': 602400, 'grad_time_ms': 371.213, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 171.4715118408203, 'policy_loss': -0.1402779221534729, 'vf_explained_var': 0.05734093859791756, 'entropy': 8.267672538757324, 'cur_lr': 4.999999873689376e-05, 'total_loss': 171.36724853515625, 'kl': 0.010545175522565842}, 'load_time_ms': 0.687, 'num_steps_sampled': 602400, 'update_time_ms': 2.637}",502,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.15245604515076,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,602400,602400,{},502,92,-79.99049099733877,2025-09-04_21-32-42,8.000000510065377,3651948,1757014362,-11.151294582043896,19185.00794363022,21537,13.07
+cda-server-2,False,19226.318054676056,"{'sample_time_ms': 41693.802, 'num_steps_trained': 603600, 'grad_time_ms': 370.91, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 243.47238159179688, 'policy_loss': -0.14067596197128296, 'vf_explained_var': 0.0448896624147892, 'entropy': 7.9817070960998535, 'cur_lr': 4.999999873689376e-05, 'total_loss': 243.37454223632812, 'kl': 0.012534737586975098}, 'load_time_ms': 0.685, 'num_steps_sampled': 603600, 'update_time_ms': 2.64}",503,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.3101110458374,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,603600,603600,{},503,82,-85.32329285777173,2025-09-04_21-33-23,8.000089403141466,3651948,1757014403,-12.466998373239223,19226.318054676056,21619,13.69
+cda-server-2,False,19268.337609052658,"{'sample_time_ms': 41735.891, 'num_steps_trained': 604800, 'grad_time_ms': 372.908, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 214.1730194091797, 'policy_loss': -0.1486336588859558, 'vf_explained_var': 0.058973655104637146, 'entropy': 7.902002334594727, 'cur_lr': 4.999999873689376e-05, 'total_loss': 214.05941772460938, 'kl': 0.01025424711406231}, 'load_time_ms': 0.687, 'num_steps_sampled': 604800, 'update_time_ms': 2.584}",504,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.01955437660217,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,604800,604800,{},504,88,-85.55724740222443,2025-09-04_21-34-05,8.000128399267489,3651948,1757014445,-11.976474986293942,19268.337609052658,21707,13.49
+cda-server-2,False,19310.27505350113,"{'sample_time_ms': 41617.261, 'num_steps_trained': 606000, 'grad_time_ms': 371.731, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 231.47146606445312, 'policy_loss': -0.14275382459163666, 'vf_explained_var': 0.06723830848932266, 'entropy': 7.642672061920166, 'cur_lr': 4.999999873689376e-05, 'total_loss': 231.36834716796875, 'kl': 0.01160765066742897}, 'load_time_ms': 0.675, 'num_steps_sampled': 606000, 'update_time_ms': 2.58}",505,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.93744444847107,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,606000,606000,{},505,99,-85.36671799581443,2025-09-04_21-34-47,8.000237627338208,3651948,1757014487,-9.127520334398966,19310.27505350113,21806,11.79
+cda-server-2,False,19351.926946878433,"{'sample_time_ms': 41632.964, 'num_steps_trained': 607200, 'grad_time_ms': 371.038, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 272.1002502441406, 'policy_loss': -0.14265893399715424, 'vf_explained_var': 0.05283678323030472, 'entropy': 8.153338432312012, 'cur_lr': 4.999999873689376e-05, 'total_loss': 271.9993896484375, 'kl': 0.012219791300594807}, 'load_time_ms': 0.672, 'num_steps_sampled': 607200, 'update_time_ms': 2.606}",506,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.65189337730408,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,607200,607200,{},506,80,-83.23732806632651,2025-09-04_21-35-29,8.000237627338208,3651948,1757014529,-13.198573957128403,19351.926946878433,21886,14.29
+cda-server-2,False,19394.843361377716,"{'sample_time_ms': 41761.77, 'num_steps_trained': 608400, 'grad_time_ms': 368.611, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 275.6209716796875, 'policy_loss': -0.14859682321548462, 'vf_explained_var': 0.04044681042432785, 'entropy': 7.9257965087890625, 'cur_lr': 4.999999873689376e-05, 'total_loss': 275.51068115234375, 'kl': 0.011200634762644768}, 'load_time_ms': 0.676, 'num_steps_sampled': 608400, 'update_time_ms': 2.591}",507,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.91641449928284,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,608400,608400,{},507,87,-85.27599767400417,2025-09-04_21-36-12,8.0000977022113,3651948,1757014572,-12.962113395581076,19394.843361377716,21973,14.0
+cda-server-2,False,19437.19703555107,"{'sample_time_ms': 41795.476, 'num_steps_trained': 609600, 'grad_time_ms': 368.913, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 225.57896423339844, 'policy_loss': -0.15414175391197205, 'vf_explained_var': 0.04575726017355919, 'entropy': 7.972322463989258, 'cur_lr': 4.999999873689376e-05, 'total_loss': 225.46044921875, 'kl': 0.010422691702842712}, 'load_time_ms': 0.672, 'num_steps_sampled': 609600, 'update_time_ms': 2.549}",508,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.3536741733551,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,609600,609600,{},508,91,-83.26347834598693,2025-09-04_21-36-54,8.00026367214025,3651948,1757014614,-10.85026440743498,19437.19703555107,22064,12.9
+cda-server-2,False,19478.833067178726,"{'sample_time_ms': 41719.28, 'num_steps_trained': 610800, 'grad_time_ms': 368.994, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 202.0901641845703, 'policy_loss': -0.14258527755737305, 'vf_explained_var': 0.04914379119873047, 'entropy': 7.961720943450928, 'cur_lr': 4.999999873689376e-05, 'total_loss': 201.99142456054688, 'kl': 0.012831298634409904}, 'load_time_ms': 0.672, 'num_steps_sampled': 610800, 'update_time_ms': 2.583}",509,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.63603162765503,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,610800,610800,{},509,86,-84.14968091451667,2025-09-04_21-37-36,8.000110315983827,3651948,1757014656,-13.132585803095791,19478.833067178726,22150,14.16
+cda-server-2,False,19521.673230409622,"{'sample_time_ms': 41763.259, 'num_steps_trained': 612000, 'grad_time_ms': 370.994, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 169.8279266357422, 'policy_loss': -0.16057568788528442, 'vf_explained_var': 0.05376378074288368, 'entropy': 8.064464569091797, 'cur_lr': 4.999999873689376e-05, 'total_loss': 169.70916748046875, 'kl': 0.012240959331393242}, 'load_time_ms': 0.687, 'num_steps_sampled': 612000, 'update_time_ms': 2.56}",510,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.840163230895996,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,612000,612000,{},510,94,-55.10036498289578,2025-09-04_21-38-19,8.000166144923092,3651948,1757014699,-9.811099317125645,19521.673230409622,22244,12.41
+cda-server-2,False,19564.705486774445,"{'sample_time_ms': 41806.25, 'num_steps_trained': 613200, 'grad_time_ms': 370.523, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 187.50811767578125, 'policy_loss': -0.1564158797264099, 'vf_explained_var': 0.06112748384475708, 'entropy': 7.912282943725586, 'cur_lr': 4.999999873689376e-05, 'total_loss': 187.3908233642578, 'kl': 0.011446958407759666}, 'load_time_ms': 0.69, 'num_steps_sampled': 613200, 'update_time_ms': 2.52}",511,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.03225636482239,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,613200,613200,{},511,95,-82.31459558586661,2025-09-04_21-39-02,8.00001957593356,3651948,1757014742,-10.898860485843786,19564.705486774445,22339,12.88
+cda-server-2,False,19607.551896333694,"{'sample_time_ms': 41875.607, 'num_steps_trained': 614400, 'grad_time_ms': 370.587, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 234.76763916015625, 'policy_loss': -0.13921450078487396, 'vf_explained_var': 0.0512005016207695, 'entropy': 7.785059452056885, 'cur_lr': 4.999999873689376e-05, 'total_loss': 234.6659393310547, 'kl': 0.010978585109114647}, 'load_time_ms': 0.69, 'num_steps_sampled': 614400, 'update_time_ms': 2.515}",512,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.84640955924988,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,614400,614400,{},512,92,-86.59427325417099,2025-09-04_21-39-45,8.000028056359978,3651948,1757014785,-11.19351792817233,19607.551896333694,22431,12.97
+cda-server-2,False,19649.291892528534,"{'sample_time_ms': 41920.281, 'num_steps_trained': 615600, 'grad_time_ms': 368.975, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 283.98846435546875, 'policy_loss': -0.14622753858566284, 'vf_explained_var': 0.05408765748143196, 'entropy': 8.071061134338379, 'cur_lr': 4.999999873689376e-05, 'total_loss': 283.8768005371094, 'kl': 0.010110199451446533}, 'load_time_ms': 0.683, 'num_steps_sampled': 615600, 'update_time_ms': 2.486}",513,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.73999619483948,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,615600,615600,{},513,82,-88.18906040253121,2025-09-04_21-40-26,8.000000799052916,3651948,1757014826,-14.583852783262136,19649.291892528534,22513,14.93
+cda-server-2,False,19691.59937596321,"{'sample_time_ms': 41950.944, 'num_steps_trained': 616800, 'grad_time_ms': 367.111, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 167.95440673828125, 'policy_loss': -0.14656759798526764, 'vf_explained_var': 0.05410350114107132, 'entropy': 7.895658016204834, 'cur_lr': 4.999999873689376e-05, 'total_loss': 167.83981323242188, 'kl': 0.009352294728159904}, 'load_time_ms': 0.679, 'num_steps_sampled': 616800, 'update_time_ms': 2.512}",514,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.307483434677124,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,616800,616800,{},514,102,-65.38370327928517,2025-09-04_21-41-09,8.000010020065147,3651948,1757014869,-8.787935336787926,19691.59937596321,22615,11.705882352941176
+cda-server-2,False,19734.171117067337,"{'sample_time_ms': 42012.093, 'num_steps_trained': 618000, 'grad_time_ms': 369.426, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 203.5995330810547, 'policy_loss': -0.13262474536895752, 'vf_explained_var': 0.05613193288445473, 'entropy': 7.793171405792236, 'cur_lr': 4.999999873689376e-05, 'total_loss': 203.51361083984375, 'kl': 0.013668078929185867}, 'load_time_ms': 0.686, 'num_steps_sampled': 618000, 'update_time_ms': 2.548}",515,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.57174110412598,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,618000,618000,{},515,96,-82.70095046531756,2025-09-04_21-41-51,8.000124115491843,3651948,1757014911,-10.216002144067112,19734.171117067337,22711,12.5
+cda-server-2,False,19777.31126642227,"{'sample_time_ms': 42162.224, 'num_steps_trained': 619200, 'grad_time_ms': 368.153, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 198.68246459960938, 'policy_loss': -0.15813376009464264, 'vf_explained_var': 0.041515424847602844, 'entropy': 8.062461853027344, 'cur_lr': 4.999999873689376e-05, 'total_loss': 198.56333923339844, 'kl': 0.011416195891797543}, 'load_time_ms': 0.687, 'num_steps_sampled': 619200, 'update_time_ms': 2.538}",516,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.14014935493469,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,619200,619200,{},516,90,-71.87562082100415,2025-09-04_21-42-34,10.0,3651948,1757014954,-11.338310907119634,19777.31126642227,22801,13.24
+cda-server-2,False,19818.962617635727,"{'sample_time_ms': 42036.298, 'num_steps_trained': 620400, 'grad_time_ms': 367.631, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 229.8743438720703, 'policy_loss': -0.15090160071849823, 'vf_explained_var': 0.060195956379175186, 'entropy': 7.647896766662598, 'cur_lr': 4.999999873689376e-05, 'total_loss': 229.7586212158203, 'kl': 0.010290677659213543}, 'load_time_ms': 0.679, 'num_steps_sampled': 620400, 'update_time_ms': 2.499}",517,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.6513512134552,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,620400,620400,{},517,83,-86.42919798304267,2025-09-04_21-43-16,8.000240581087791,3651948,1757014996,-12.626468233448689,19818.962617635727,22884,13.76
+cda-server-2,False,19860.863934993744,"{'sample_time_ms': 41992.832, 'num_steps_trained': 621600, 'grad_time_ms': 365.9, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 263.2057189941406, 'policy_loss': -0.1419185847043991, 'vf_explained_var': 0.06125001236796379, 'entropy': 7.386011600494385, 'cur_lr': 4.999999873689376e-05, 'total_loss': 263.1047058105469, 'kl': 0.011972821317613125}, 'load_time_ms': 0.683, 'num_steps_sampled': 621600, 'update_time_ms': 2.5}",518,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.90131735801697,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,621600,621600,{},518,93,-90.94633259277349,2025-09-04_21-43-58,8.000256359887995,3651948,1757015038,-11.775377329612343,19860.863934993744,22977,13.18
+cda-server-2,False,19904.311608552933,"{'sample_time_ms': 42174.543, 'num_steps_trained': 622800, 'grad_time_ms': 365.422, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 214.76736450195312, 'policy_loss': -0.14149066805839539, 'vf_explained_var': 0.05032728239893913, 'entropy': 7.764161109924316, 'cur_lr': 4.999999873689376e-05, 'total_loss': 214.66229248046875, 'kl': 0.010659274645149708}, 'load_time_ms': 0.686, 'num_steps_sampled': 622800, 'update_time_ms': 2.46}",519,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.44767355918884,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,622800,622800,{},519,100,-82.56335530104904,2025-09-04_21-44-41,8.000054979352926,3651948,1757015081,-9.432898509410775,19904.311608552933,23077,12.04
+cda-server-2,False,19946.00028705597,"{'sample_time_ms': 42059.589, 'num_steps_trained': 624000, 'grad_time_ms': 365.233, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 219.71600341796875, 'policy_loss': -0.1405024528503418, 'vf_explained_var': 0.05571660026907921, 'entropy': 8.026354789733887, 'cur_lr': 4.999999873689376e-05, 'total_loss': 219.6128387451172, 'kl': 0.010930254124104977}, 'load_time_ms': 0.68, 'num_steps_sampled': 624000, 'update_time_ms': 2.458}",520,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.6886785030365,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,624000,624000,{},520,94,-68.88135622270947,2025-09-04_21-45-23,8.001130149147663,3651948,1757015123,-10.280514974476594,19946.00028705597,23171,12.65
+cda-server-2,False,19988.20765209198,"{'sample_time_ms': 41976.038, 'num_steps_trained': 625200, 'grad_time_ms': 366.25, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 236.67010498046875, 'policy_loss': -0.13375553488731384, 'vf_explained_var': 0.05492662638425827, 'entropy': 7.896309852600098, 'cur_lr': 4.999999873689376e-05, 'total_loss': 236.57696533203125, 'kl': 0.011888116598129272}, 'load_time_ms': 0.673, 'num_steps_sampled': 625200, 'update_time_ms': 2.556}",521,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.20736503601074,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,625200,625200,{},521,103,-86.73095527556067,2025-09-04_21-46-05,8.000027274938793,3651948,1757015165,-8.453045250321795,19988.20765209198,23274,11.427184466019417
+cda-server-2,False,20030.421869277954,"{'sample_time_ms': 41910.561, 'num_steps_trained': 626400, 'grad_time_ms': 368.48, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 201.26467895507812, 'policy_loss': -0.14536257088184357, 'vf_explained_var': 0.054645001888275146, 'entropy': 8.036338806152344, 'cur_lr': 4.999999873689376e-05, 'total_loss': 201.15565490722656, 'kl': 0.010635611601173878}, 'load_time_ms': 0.672, 'num_steps_sampled': 626400, 'update_time_ms': 2.566}",522,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.21421718597412,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,626400,626400,{},522,91,-82.13765561179979,2025-09-04_21-46-48,8.000044330717463,3651948,1757015208,-11.049306426188457,20030.421869277954,23365,13.09
+cda-server-2,False,20073.167887210846,"{'sample_time_ms': 42010.584, 'num_steps_trained': 627600, 'grad_time_ms': 368.963, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 190.387939453125, 'policy_loss': -0.1575956642627716, 'vf_explained_var': 0.05341558903455734, 'entropy': 7.737266540527344, 'cur_lr': 4.999999873689376e-05, 'total_loss': 190.26390075683594, 'kl': 0.009819424711167812}, 'load_time_ms': 0.676, 'num_steps_sampled': 627600, 'update_time_ms': 2.583}",523,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.746017932891846,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,627600,627600,{},523,108,-87.63316378268442,2025-09-04_21-47-30,8.000067181155115,3651948,1757015250,-8.18975483820423,20073.167887210846,23473,11.24074074074074
+cda-server-2,False,20115.03004169464,"{'sample_time_ms': 41966.073, 'num_steps_trained': 628800, 'grad_time_ms': 368.868, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 265.75616455078125, 'policy_loss': -0.1417827606201172, 'vf_explained_var': 0.047600045800209045, 'entropy': 7.7846832275390625, 'cur_lr': 4.999999873689376e-05, 'total_loss': 265.66131591796875, 'kl': 0.013741587288677692}, 'load_time_ms': 0.676, 'num_steps_sampled': 628800, 'update_time_ms': 2.603}",524,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.862154483795166,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,628800,628800,{},524,92,-86.3289429558955,2025-09-04_21-48-12,8.000313690816663,3651948,1757015292,-11.135327043898128,20115.03004169464,23565,12.95
+cda-server-2,False,20157.006575107574,"{'sample_time_ms': 41907.452, 'num_steps_trained': 630000, 'grad_time_ms': 367.909, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 178.26414489746094, 'policy_loss': -0.15132449567317963, 'vf_explained_var': 0.04761023074388504, 'entropy': 7.840459823608398, 'cur_lr': 4.999999873689376e-05, 'total_loss': 178.15179443359375, 'kl': 0.011396270245313644}, 'load_time_ms': 0.676, 'num_steps_sampled': 630000, 'update_time_ms': 2.595}",525,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.97653341293335,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,630000,630000,{},525,103,-66.89724537728738,2025-09-04_21-48-54,8.000001494058395,3651948,1757015334,-8.953779715239303,20157.006575107574,23668,11.815533980582524
+cda-server-2,False,20198.9055352211,"{'sample_time_ms': 41783.106, 'num_steps_trained': 631200, 'grad_time_ms': 368.134, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 216.79884338378906, 'policy_loss': -0.14230404794216156, 'vf_explained_var': 0.04844113066792488, 'entropy': 8.409723281860352, 'cur_lr': 4.999999873689376e-05, 'total_loss': 216.6897430419922, 'kl': 0.009710962884128094}, 'load_time_ms': 0.671, 'num_steps_sampled': 631200, 'update_time_ms': 2.611}",526,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.89896011352539,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,631200,631200,{},526,88,-83.77667437844606,2025-09-04_21-49-36,8.00013842138809,3651948,1757015376,-10.576268163691191,20198.9055352211,23756,12.89
+cda-server-2,False,20243.040204524994,"{'sample_time_ms': 42030.599, 'num_steps_trained': 632400, 'grad_time_ms': 368.897, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 113.05033111572266, 'policy_loss': -0.15707647800445557, 'vf_explained_var': 0.07800179719924927, 'entropy': 7.7117438316345215, 'cur_lr': 4.999999873689376e-05, 'total_loss': 112.93242645263672, 'kl': 0.01146283932030201}, 'load_time_ms': 0.671, 'num_steps_sampled': 632400, 'update_time_ms': 2.649}",527,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",44.13466930389404,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,632400,632400,{},527,101,-83.94824658273092,2025-09-04_21-50-20,8.000012988207692,3651948,1757015420,-9.315383407119686,20243.040204524994,23857,12.07920792079208
+cda-server-2,False,20285.569366931915,"{'sample_time_ms': 42090.799, 'num_steps_trained': 633600, 'grad_time_ms': 371.397, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 167.38116455078125, 'policy_loss': -0.15174798667430878, 'vf_explained_var': 0.06229621171951294, 'entropy': 7.947242736816406, 'cur_lr': 4.999999873689376e-05, 'total_loss': 167.26669311523438, 'kl': 0.010910822078585625}, 'load_time_ms': 0.677, 'num_steps_sampled': 633600, 'update_time_ms': 2.661}",528,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.52916240692139,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,633600,633600,{},528,99,-70.66269968829573,2025-09-04_21-51-03,8.00021981389855,3651948,1757015463,-9.506490660360424,20285.569366931915,23956,12.24
+cda-server-2,False,20327.706107139587,"{'sample_time_ms': 41959.027, 'num_steps_trained': 634800, 'grad_time_ms': 371.992, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 240.8870391845703, 'policy_loss': -0.14231714606285095, 'vf_explained_var': 0.03474872559309006, 'entropy': 8.10819149017334, 'cur_lr': 4.999999873689376e-05, 'total_loss': 240.78103637695312, 'kl': 0.010623510926961899}, 'load_time_ms': 0.691, 'num_steps_sampled': 634800, 'update_time_ms': 2.701}",529,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.13674020767212,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,634800,634800,{},529,91,-85.239240953459,2025-09-04_21-51-45,8.000204314450299,3651948,1757015505,-10.078748363195434,20327.706107139587,24047,12.44
+cda-server-2,False,20369.63042449951,"{'sample_time_ms': 41982.939, 'num_steps_trained': 636000, 'grad_time_ms': 371.612, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 206.69680786132812, 'policy_loss': -0.14226245880126953, 'vf_explained_var': 0.07164441049098969, 'entropy': 7.701772689819336, 'cur_lr': 4.999999873689376e-05, 'total_loss': 206.5907440185547, 'kl': 0.010596277192234993}, 'load_time_ms': 0.681, 'num_steps_sampled': 636000, 'update_time_ms': 2.716}",530,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.924317359924316,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,636000,636000,{},530,96,-66.25400937910553,2025-09-04_21-52-27,8.000051483620119,3651948,1757015547,-10.437434672321645,20369.63042449951,24143,12.75
+cda-server-2,False,20411.682535409927,"{'sample_time_ms': 41968.271, 'num_steps_trained': 637200, 'grad_time_ms': 370.594, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 183.31382751464844, 'policy_loss': -0.14274880290031433, 'vf_explained_var': 0.07200777530670166, 'entropy': 8.17143440246582, 'cur_lr': 4.999999873689376e-05, 'total_loss': 183.21058654785156, 'kl': 0.011561138555407524}, 'load_time_ms': 0.69, 'num_steps_sampled': 637200, 'update_time_ms': 2.834}",531,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.05211091041565,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,637200,637200,{},531,96,-84.72100763733563,2025-09-04_21-53-09,8.000220490082432,3651948,1757015589,-11.260624423523332,20411.682535409927,24239,13.16
+cda-server-2,False,20453.583587169647,"{'sample_time_ms': 41938.881, 'num_steps_trained': 638400, 'grad_time_ms': 368.67, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 160.25613403320312, 'policy_loss': -0.13671061396598816, 'vf_explained_var': 0.04929812252521515, 'entropy': 7.601922988891602, 'cur_lr': 4.999999873689376e-05, 'total_loss': 160.16278076171875, 'kl': 0.012693586759269238}, 'load_time_ms': 0.688, 'num_steps_sampled': 638400, 'update_time_ms': 2.798}",532,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.90105175971985,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,638400,638400,{},532,98,-55.67049051819933,2025-09-04_21-53-51,8.000001499128857,3651948,1757015631,-9.812918485032277,20453.583587169647,24337,12.38
+cda-server-2,False,20495.79337143898,"{'sample_time_ms': 41884.443, 'num_steps_trained': 639600, 'grad_time_ms': 369.485, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 220.09242248535156, 'policy_loss': -0.14294356107711792, 'vf_explained_var': 0.05856436491012573, 'entropy': 7.793384075164795, 'cur_lr': 4.999999873689376e-05, 'total_loss': 219.98651123046875, 'kl': 0.01083542313426733}, 'load_time_ms': 0.702, 'num_steps_sampled': 639600, 'update_time_ms': 2.842}",533,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.209784269332886,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,639600,639600,{},533,89,-85.23888771043163,2025-09-04_21-54-33,8.000471842720263,3651948,1757015673,-12.360378156761135,20495.79337143898,24426,13.8
+cda-server-2,False,20538.58450126648,"{'sample_time_ms': 41975.985, 'num_steps_trained': 640800, 'grad_time_ms': 370.911, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 210.44073486328125, 'policy_loss': -0.12847492098808289, 'vf_explained_var': 0.05711045488715172, 'entropy': 7.832577228546143, 'cur_lr': 4.999999873689376e-05, 'total_loss': 210.3465118408203, 'kl': 0.01003289595246315}, 'load_time_ms': 0.702, 'num_steps_sampled': 640800, 'update_time_ms': 2.796}",534,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.79112982749939,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,640800,640800,{},534,114,-85.3605670180534,2025-09-04_21-55-16,8.000115383356453,3651948,1757015716,-6.244545209865517,20538.58450126648,24540,10.263157894736842
+cda-server-2,False,20581.17125558853,"{'sample_time_ms': 42036.439, 'num_steps_trained': 642000, 'grad_time_ms': 371.452, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 180.33758544921875, 'policy_loss': -0.14919494092464447, 'vf_explained_var': 0.08063942939043045, 'entropy': 7.371814250946045, 'cur_lr': 4.999999873689376e-05, 'total_loss': 180.2249298095703, 'kl': 0.010697085410356522}, 'load_time_ms': 0.703, 'num_steps_sampled': 642000, 'update_time_ms': 2.778}",535,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.586754322052,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,642000,642000,{},535,105,-82.15509683219827,2025-09-04_21-55-59,8.000187407552426,3651948,1757015759,-8.857732547181975,20581.17125558853,24645,11.676190476190476
+cda-server-2,False,20623.618741750717,"{'sample_time_ms': 42088.729, 'num_steps_trained': 643200, 'grad_time_ms': 373.929, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 193.4102020263672, 'policy_loss': -0.14119069278240204, 'vf_explained_var': 0.07007483392953873, 'entropy': 7.85939359664917, 'cur_lr': 4.999999873689376e-05, 'total_loss': 193.30856323242188, 'kl': 0.011583573184907436}, 'load_time_ms': 0.717, 'num_steps_sampled': 643200, 'update_time_ms': 2.767}",536,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.44748616218567,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,643200,643200,{},536,107,-73.07308658846257,2025-09-04_21-56-41,8.000246705335524,3651948,1757015801,-7.952332301154359,20623.618741750717,24752,11.22429906542056
+cda-server-2,False,20666.022399425507,"{'sample_time_ms': 41913.773, 'num_steps_trained': 644400, 'grad_time_ms': 375.822, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 183.60745239257812, 'policy_loss': -0.14092332124710083, 'vf_explained_var': 0.07595738768577576, 'entropy': 7.580621719360352, 'cur_lr': 4.999999873689376e-05, 'total_loss': 183.50210571289062, 'kl': 0.010412870906293392}, 'load_time_ms': 0.724, 'num_steps_sampled': 644400, 'update_time_ms': 2.734}",537,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.40365767478943,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,644400,644400,{},537,102,-76.6381068952044,2025-09-04_21-57-24,8.000060991204217,3651948,1757015844,-9.224174098292405,20666.022399425507,24854,11.872549019607844
+cda-server-2,False,20708.202874422073,"{'sample_time_ms': 41878.127, 'num_steps_trained': 645600, 'grad_time_ms': 376.595, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 150.78045654296875, 'policy_loss': -0.14036937057971954, 'vf_explained_var': 0.0604521706700325, 'entropy': 8.07420539855957, 'cur_lr': 4.999999873689376e-05, 'total_loss': 150.67779541015625, 'kl': 0.011033102869987488}, 'load_time_ms': 0.725, 'num_steps_sampled': 645600, 'update_time_ms': 2.751}",538,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.18047499656677,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,645600,645600,{},538,93,-64.0044632570487,2025-09-04_21-58-06,8.000109288083836,3651948,1757015886,-10.368055644929912,20708.202874422073,24947,12.76
+cda-server-2,False,20751.16945695877,"{'sample_time_ms': 41962.579, 'num_steps_trained': 646800, 'grad_time_ms': 375.167, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 250.36949157714844, 'policy_loss': -0.1359543353319168, 'vf_explained_var': 0.06793617457151413, 'entropy': 7.885825157165527, 'cur_lr': 4.999999873689376e-05, 'total_loss': 250.27215576171875, 'kl': 0.011291067115962505}, 'load_time_ms': 0.713, 'num_steps_sampled': 646800, 'update_time_ms': 2.763}",539,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.96658253669739,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,646800,646800,{},539,106,-83.60032782351799,2025-09-04_21-58-49,8.000732029336234,3651948,1757015929,-8.182262984756873,20751.16945695877,25053,11.273584905660377
+cda-server-2,False,20793.905032873154,"{'sample_time_ms': 42044.398, 'num_steps_trained': 648000, 'grad_time_ms': 374.484, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 118.68406677246094, 'policy_loss': -0.15886139869689941, 'vf_explained_var': 0.07198840379714966, 'entropy': 8.058353424072266, 'cur_lr': 4.999999873689376e-05, 'total_loss': 118.56088256835938, 'kl': 0.010437482967972755}, 'load_time_ms': 0.715, 'num_steps_sampled': 648000, 'update_time_ms': 2.739}",540,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.735575914382935,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,648000,648000,{},540,108,-51.326081797036,2025-09-04_21-59-31,8.000190443829876,3651948,1757015971,-7.674543735063982,20793.905032873154,25161,11.175925925925926
+cda-server-2,False,20835.970939397812,"{'sample_time_ms': 42044.815, 'num_steps_trained': 649200, 'grad_time_ms': 375.55, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 236.36314392089844, 'policy_loss': -0.1319597363471985, 'vf_explained_var': 0.05775655806064606, 'entropy': 7.766454219818115, 'cur_lr': 4.999999873689376e-05, 'total_loss': 236.2706756591797, 'kl': 0.01154718641191721}, 'load_time_ms': 0.725, 'num_steps_sampled': 649200, 'update_time_ms': 2.633}",541,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.0659065246582,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,649200,649200,{},541,98,-87.4248928458613,2025-09-04_22-00-14,8.000020624924144,3651948,1757016014,-9.628970222012954,20835.970939397812,25259,12.23
+cda-server-2,False,20879.48354935646,"{'sample_time_ms': 42206.986, 'num_steps_trained': 650400, 'grad_time_ms': 374.532, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 255.753662109375, 'policy_loss': -0.1421698033809662, 'vf_explained_var': 0.05161063000559807, 'entropy': 7.748743057250977, 'cur_lr': 4.999999873689376e-05, 'total_loss': 255.64759826660156, 'kl': 0.010566272772848606}, 'load_time_ms': 0.724, 'num_steps_sampled': 650400, 'update_time_ms': 2.642}",542,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.51260995864868,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,650400,650400,{},542,98,-79.70860967904791,2025-09-04_22-00-57,8.002317469381081,3651948,1757016057,-9.308876267997848,20879.48354935646,25357,11.97
+cda-server-2,False,20922.198652267456,"{'sample_time_ms': 42255.839, 'num_steps_trained': 651600, 'grad_time_ms': 376.177, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 150.107177734375, 'policy_loss': -0.1413421779870987, 'vf_explained_var': 0.05147850513458252, 'entropy': 7.405312538146973, 'cur_lr': 4.999999873689376e-05, 'total_loss': 150.0113983154297, 'kl': 0.013330676592886448}, 'load_time_ms': 0.719, 'num_steps_sampled': 651600, 'update_time_ms': 2.64}",543,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.71510291099548,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,651600,651600,{},543,107,-55.664909103574814,2025-09-04_22-01-40,8.000392496864999,3651948,1757016100,-7.928721134357941,20922.198652267456,25464,11.214953271028037
+cda-server-2,False,20964.614531993866,"{'sample_time_ms': 42218.177, 'num_steps_trained': 652800, 'grad_time_ms': 376.25, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 192.20309448242188, 'policy_loss': -0.14467547833919525, 'vf_explained_var': 0.07436954975128174, 'entropy': 7.856789588928223, 'cur_lr': 4.999999873689376e-05, 'total_loss': 192.09791564941406, 'kl': 0.01155995111912489}, 'load_time_ms': 0.725, 'num_steps_sampled': 652800, 'update_time_ms': 2.688}",544,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.41587972640991,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,652800,652800,{},544,103,-67.23049233796695,2025-09-04_22-02-22,8.000194762814644,3651948,1757016142,-8.917267175899491,20964.614531993866,25567,11.951456310679612
+cda-server-2,False,21007.03317785263,"{'sample_time_ms': 42202.123, 'num_steps_trained': 654000, 'grad_time_ms': 375.528, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 192.97984313964844, 'policy_loss': -0.1451786607503891, 'vf_explained_var': 0.04516826197504997, 'entropy': 7.384739398956299, 'cur_lr': 4.999999873689376e-05, 'total_loss': 192.8732147216797, 'kl': 0.01127211656421423}, 'load_time_ms': 0.724, 'num_steps_sampled': 654000, 'update_time_ms': 2.733}",545,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.41864585876465,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,654000,654000,{},545,100,-61.937393190048056,2025-09-04_22-03-05,8.00012882417301,3651948,1757016185,-9.143666493636106,21007.03317785263,25667,11.96
+cda-server-2,False,21048.709080934525,"{'sample_time_ms': 42126.098, 'num_steps_trained': 655200, 'grad_time_ms': 374.427, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 257.3942565917969, 'policy_loss': -0.15175125002861023, 'vf_explained_var': 0.03823421895503998, 'entropy': 7.957895278930664, 'cur_lr': 4.999999873689376e-05, 'total_loss': 257.2807312011719, 'kl': 0.011188051663339138}, 'load_time_ms': 0.712, 'num_steps_sampled': 655200, 'update_time_ms': 2.722}",546,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",41.67590308189392,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,655200,655200,{},546,90,-84.22003202697721,2025-09-04_22-03-46,8.000097196435748,3651948,1757016226,-11.166475644820652,21048.709080934525,25757,13.2
+cda-server-2,False,21091.521733522415,"{'sample_time_ms': 42165.858, 'num_steps_trained': 656400, 'grad_time_ms': 375.512, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 252.97341918945312, 'policy_loss': -0.13348990678787231, 'vf_explained_var': 0.0418059304356575, 'entropy': 7.556629657745361, 'cur_lr': 4.999999873689376e-05, 'total_loss': 252.874755859375, 'kl': 0.010195381008088589}, 'load_time_ms': 0.722, 'num_steps_sampled': 656400, 'update_time_ms': 2.746}",547,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.812652587890625,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,656400,656400,{},547,106,-84.09118564531299,2025-09-04_22-04-29,8.000027542621563,3651948,1757016269,-8.242486668822895,21091.521733522415,25863,11.320754716981131
+cda-server-2,False,21134.377695083618,"{'sample_time_ms': 42235.05, 'num_steps_trained': 657600, 'grad_time_ms': 373.911, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 178.17941284179688, 'policy_loss': -0.13027864694595337, 'vf_explained_var': 0.05408206209540367, 'entropy': 7.640100479125977, 'cur_lr': 4.999999873689376e-05, 'total_loss': 178.09715270996094, 'kl': 0.014050977304577827}, 'load_time_ms': 0.713, 'num_steps_sampled': 657600, 'update_time_ms': 2.746}",548,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.855961561203,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,657600,657600,{},548,113,-66.75009070089386,2025-09-04_22-05-12,8.000064064065864,3651948,1757016312,-6.585518287778024,21134.377695083618,25976,10.495575221238939
+cda-server-2,False,21177.441816091537,"{'sample_time_ms': 42243.892, 'num_steps_trained': 658800, 'grad_time_ms': 374.828, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 162.55364990234375, 'policy_loss': -0.13918906450271606, 'vf_explained_var': 0.0474405363202095, 'entropy': 7.54951286315918, 'cur_lr': 4.999999873689376e-05, 'total_loss': 162.45347595214844, 'kl': 0.011418992653489113}, 'load_time_ms': 0.705, 'num_steps_sampled': 658800, 'update_time_ms': 2.683}",549,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.06412100791931,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,658800,658800,{},549,115,-84.39965680099289,2025-09-04_22-05-55,8.001022642143228,3651948,1757016355,-6.673317749432404,21177.441816091537,26091,10.521739130434783
+cda-server-2,False,21219.882758378983,"{'sample_time_ms': 42214.87, 'num_steps_trained': 660000, 'grad_time_ms': 374.429, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 133.2684326171875, 'policy_loss': -0.15127120912075043, 'vf_explained_var': 0.07853060215711594, 'entropy': 7.763479232788086, 'cur_lr': 4.999999873689376e-05, 'total_loss': 133.15692138671875, 'kl': 0.01163527276366949}, 'load_time_ms': 0.707, 'num_steps_sampled': 660000, 'update_time_ms': 2.704}",550,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.44094228744507,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,660000,660000,{},550,105,-59.6595376409971,2025-09-04_22-06-38,8.00063865225193,3651948,1757016398,-8.13644679828116,21219.882758378983,26196,11.342857142857143
+cda-server-2,False,21262.44256210327,"{'sample_time_ms': 42267.126, 'num_steps_trained': 661200, 'grad_time_ms': 371.657, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 106.95640563964844, 'policy_loss': -0.1507752686738968, 'vf_explained_var': 0.0752321109175682, 'entropy': 7.224944114685059, 'cur_lr': 4.999999873689376e-05, 'total_loss': 106.84326171875, 'kl': 0.011010591872036457}, 'load_time_ms': 0.695, 'num_steps_sampled': 661200, 'update_time_ms': 2.627}",551,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.55980372428894,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,661200,661200,{},551,116,-55.20205252954118,2025-09-04_22-07-20,8.00011688316286,3651948,1757016440,-6.506058239324532,21262.44256210327,26312,10.413793103448276
+cda-server-2,False,21304.658202648163,"{'sample_time_ms': 42136.556, 'num_steps_trained': 662400, 'grad_time_ms': 372.579, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 196.15733337402344, 'policy_loss': -0.14689193665981293, 'vf_explained_var': 0.066288523375988, 'entropy': 8.02047061920166, 'cur_lr': 4.999999873689376e-05, 'total_loss': 196.051025390625, 'kl': 0.011877370066940784}, 'load_time_ms': 0.696, 'num_steps_sampled': 662400, 'update_time_ms': 2.63}",552,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.21564054489136,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,662400,662400,{},552,97,-79.67103052029469,2025-09-04_22-08-03,8.00124451505714,3651948,1757016483,-9.210449480975706,21304.658202648163,26409,12.09
+cda-server-2,False,21348.155327796936,"{'sample_time_ms': 42215.424, 'num_steps_trained': 663600, 'grad_time_ms': 371.927, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 128.71673583984375, 'policy_loss': -0.12534157931804657, 'vf_explained_var': 0.07487869262695312, 'entropy': 7.696089744567871, 'cur_lr': 4.999999873689376e-05, 'total_loss': 128.62692260742188, 'kl': 0.010400541126728058}, 'load_time_ms': 0.683, 'num_steps_sampled': 663600, 'update_time_ms': 2.619}",553,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.49712514877319,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,663600,663600,{},553,119,-83.2373949676278,2025-09-04_22-08-46,8.00022207384256,3651948,1757016526,-6.358082025069993,21348.155327796936,26528,10.352941176470589
+cda-server-2,False,21391.43908548355,"{'sample_time_ms': 42303.912, 'num_steps_trained': 664800, 'grad_time_ms': 370.249, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 211.26190185546875, 'policy_loss': -0.12464182823896408, 'vf_explained_var': 0.05803931504487991, 'entropy': 8.136405944824219, 'cur_lr': 4.999999873689376e-05, 'total_loss': 211.18016052246094, 'kl': 0.012556111440062523}, 'load_time_ms': 0.693, 'num_steps_sampled': 664800, 'update_time_ms': 2.612}",554,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.28375768661499,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,664800,664800,{},554,107,-83.01182986977857,2025-09-04_22-09-29,8.000725324496882,3651948,1757016569,-7.971736350739526,21391.43908548355,26635,11.261682242990654
+cda-server-2,False,21434.582239627838,"{'sample_time_ms': 42376.524, 'num_steps_trained': 666000, 'grad_time_ms': 370.143, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 125.87883758544922, 'policy_loss': -0.14883939921855927, 'vf_explained_var': 0.07278783619403839, 'entropy': 7.4547247886657715, 'cur_lr': 4.999999873689376e-05, 'total_loss': 125.76923370361328, 'kl': 0.011482727713882923}, 'load_time_ms': 0.693, 'num_steps_sampled': 666000, 'update_time_ms': 2.578}",555,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.14315414428711,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,666000,666000,{},555,124,-53.88776320042786,2025-09-04_22-10-13,8.000704435079951,3651948,1757016613,-5.172610377890699,21434.582239627838,26759,9.661290322580646
+cda-server-2,False,21477.246037244797,"{'sample_time_ms': 42477.191, 'num_steps_trained': 667200, 'grad_time_ms': 368.311, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 143.22914123535156, 'policy_loss': -0.13829833269119263, 'vf_explained_var': 0.09276745468378067, 'entropy': 7.771801471710205, 'cur_lr': 4.999999873689376e-05, 'total_loss': 143.12408447265625, 'kl': 0.009724327363073826}, 'load_time_ms': 0.692, 'num_steps_sampled': 667200, 'update_time_ms': 2.582}",556,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.66379761695862,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,667200,667200,{},556,104,-59.879564087317746,2025-09-04_22-10-55,8.000214842733033,3651948,1757016655,-8.070791586781151,21477.246037244797,26863,11.35576923076923
+cda-server-2,False,21519.86287546158,"{'sample_time_ms': 42459.365, 'num_steps_trained': 668400, 'grad_time_ms': 366.616, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 221.02940368652344, 'policy_loss': -0.12886519730091095, 'vf_explained_var': 0.06552401930093765, 'entropy': 7.7118377685546875, 'cur_lr': 4.999999873689376e-05, 'total_loss': 220.93482971191406, 'kl': 0.010023903101682663}, 'load_time_ms': 0.677, 'num_steps_sampled': 668400, 'update_time_ms': 2.572}",557,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.616838216781616,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,668400,668400,{},557,112,-84.4354191148986,2025-09-04_22-11-38,8.000294390878413,3651948,1757016698,-7.5135190840836215,21519.86287546158,26975,10.964285714285714
+cda-server-2,False,21561.864362716675,"{'sample_time_ms': 42373.089, 'num_steps_trained': 669600, 'grad_time_ms': 367.431, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 139.33462524414062, 'policy_loss': -0.14680179953575134, 'vf_explained_var': 0.06770966947078705, 'entropy': 7.684025287628174, 'cur_lr': 4.999999873689376e-05, 'total_loss': 139.23477172851562, 'kl': 0.013734077103435993}, 'load_time_ms': 0.679, 'num_steps_sampled': 669600, 'update_time_ms': 2.563}",558,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.001487255096436,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,669600,669600,{},558,98,-58.38346503878951,2025-09-04_22-12-20,8.000045804554109,3651948,1757016740,-8.793975598499975,21561.864362716675,27073,11.87
+cda-server-2,False,21604.379405260086,"{'sample_time_ms': 42319.686, 'num_steps_trained': 670800, 'grad_time_ms': 365.936, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 145.839111328125, 'policy_loss': -0.1504814624786377, 'vf_explained_var': 0.07926931977272034, 'entropy': 7.459970951080322, 'cur_lr': 4.999999873689376e-05, 'total_loss': 145.7266845703125, 'kl': 0.011130633763968945}, 'load_time_ms': 0.682, 'num_steps_sampled': 670800, 'update_time_ms': 2.607}",559,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.515042543411255,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,670800,670800,{},559,107,-56.354664746722065,2025-09-04_22-13-02,8.000833928321104,3651948,1757016782,-8.075514133723603,21604.379405260086,27180,11.317757009345794
+cda-server-2,False,21647.21959042549,"{'sample_time_ms': 42357.983, 'num_steps_trained': 672000, 'grad_time_ms': 367.547, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 159.48631286621094, 'policy_loss': -0.13445042073726654, 'vf_explained_var': 0.09145782142877579, 'entropy': 7.627590656280518, 'cur_lr': 4.999999873689376e-05, 'total_loss': 159.3946990966797, 'kl': 0.012530959211289883}, 'load_time_ms': 0.681, 'num_steps_sampled': 672000, 'update_time_ms': 2.588}",560,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.84018516540527,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,672000,672000,{},560,115,-66.33505633171917,2025-09-04_22-13-45,8.00009120135479,3651948,1757016825,-6.0452420411654595,21647.21959042549,27295,10.173913043478262
+cda-server-2,False,21691.032320976257,"{'sample_time_ms': 42480.611, 'num_steps_trained': 673200, 'grad_time_ms': 370.136, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 120.06874084472656, 'policy_loss': -0.1362529695034027, 'vf_explained_var': 0.07216636091470718, 'entropy': 6.824906349182129, 'cur_lr': 4.999999873689376e-05, 'total_loss': 119.97330474853516, 'kl': 0.011949594132602215}, 'load_time_ms': 0.682, 'num_steps_sampled': 673200, 'update_time_ms': 2.609}",561,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.81273055076599,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,673200,673200,{},561,129,-52.10596212722329,2025-09-04_22-14-29,8.00011735640512,3651948,1757016869,-5.093333995757722,21691.032320976257,27424,9.527131782945736
+cda-server-2,False,21733.87010025978,"{'sample_time_ms': 42543.074, 'num_steps_trained': 674400, 'grad_time_ms': 369.86, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 105.38618469238281, 'policy_loss': -0.1297050267457962, 'vf_explained_var': 0.0827423632144928, 'entropy': 6.8894147872924805, 'cur_lr': 4.999999873689376e-05, 'total_loss': 105.29486083984375, 'kl': 0.011231918819248676}, 'load_time_ms': 0.684, 'num_steps_sampled': 674400, 'update_time_ms': 2.616}",562,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.83777928352356,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,674400,674400,{},562,119,-57.96373070942089,2025-09-04_22-15-12,8.000232362221062,3651948,1757016912,-6.140445976676297,21733.87010025978,27543,10.109243697478991
+cda-server-2,False,21776.769562005997,"{'sample_time_ms': 42484.513, 'num_steps_trained': 675600, 'grad_time_ms': 368.693, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 204.86996459960938, 'policy_loss': -0.13395991921424866, 'vf_explained_var': 0.0822979137301445, 'entropy': 7.190834999084473, 'cur_lr': 4.999999873689376e-05, 'total_loss': 204.776611328125, 'kl': 0.011884557083249092}, 'load_time_ms': 0.696, 'num_steps_sampled': 675600, 'update_time_ms': 2.574}",563,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.89946174621582,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,675600,675600,{},563,117,-81.75435628911879,2025-09-04_22-15-55,8.000441655375283,3651948,1757016955,-6.406610327960005,21776.769562005997,27660,10.333333333333334
+cda-server-2,False,21820.96600151062,"{'sample_time_ms': 42575.677, 'num_steps_trained': 676800, 'grad_time_ms': 368.815, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 180.16827392578125, 'policy_loss': -0.1367030143737793, 'vf_explained_var': 0.07517794519662857, 'entropy': 7.484841346740723, 'cur_lr': 4.999999873689376e-05, 'total_loss': 180.07052612304688, 'kl': 0.011397531256079674}, 'load_time_ms': 0.68, 'num_steps_sampled': 676800, 'update_time_ms': 2.553}",564,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",44.19643950462341,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,676800,676800,{},564,112,-64.82634901042515,2025-09-04_22-16-39,8.000092940990312,3651948,1757016999,-6.589729884115301,21820.96600151062,27772,10.517857142857142
+cda-server-2,False,21863.813071250916,"{'sample_time_ms': 42544.47, 'num_steps_trained': 678000, 'grad_time_ms': 370.431, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 198.84449768066406, 'policy_loss': -0.14143936336040497, 'vf_explained_var': 0.06615026295185089, 'entropy': 6.939062118530273, 'cur_lr': 4.999999873689376e-05, 'total_loss': 198.74237060546875, 'kl': 0.011502007953822613}, 'load_time_ms': 0.675, 'num_steps_sampled': 678000, 'update_time_ms': 2.561}",565,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.84706974029541,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,678000,678000,{},565,109,-86.60146354034627,2025-09-04_22-17-22,8.000039436187995,3651948,1757017042,-7.526828884385483,21863.813071250916,27881,10.853211009174313
+cda-server-2,False,21906.536709070206,"{'sample_time_ms': 42546.89, 'num_steps_trained': 679200, 'grad_time_ms': 373.969, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 147.68374633789062, 'policy_loss': -0.155631884932518, 'vf_explained_var': 0.06244520843029022, 'entropy': 7.263120174407959, 'cur_lr': 4.999999873689376e-05, 'total_loss': 147.57229614257812, 'kl': 0.012926424853503704}, 'load_time_ms': 0.692, 'num_steps_sampled': 679200, 'update_time_ms': 2.558}",566,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.72363781929016,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,679200,679200,{},566,107,-54.63605971540724,2025-09-04_22-18-05,8.000003062458518,3651948,1757017085,-7.979791943836602,21906.536709070206,27988,11.317757009345794
+cda-server-2,False,21949.84335541725,"{'sample_time_ms': 42616.995, 'num_steps_trained': 680400, 'grad_time_ms': 372.824, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 155.88766479492188, 'policy_loss': -0.13775783777236938, 'vf_explained_var': 0.058890633285045624, 'entropy': 7.494391441345215, 'cur_lr': 4.999999873689376e-05, 'total_loss': 155.78729248046875, 'kl': 0.010931625962257385}, 'load_time_ms': 0.69, 'num_steps_sampled': 680400, 'update_time_ms': 2.549}",567,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.3066463470459,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,680400,680400,{},567,112,-84.02993638479828,2025-09-04_22-18-48,8.00024140639188,3651948,1757017128,-7.55994395399298,21949.84335541725,28100,10.928571428571429
+cda-server-2,False,21992.533579826355,"{'sample_time_ms': 42686.179, 'num_steps_trained': 681600, 'grad_time_ms': 372.55, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 152.74652099609375, 'policy_loss': -0.15492337942123413, 'vf_explained_var': 0.058588724583387375, 'entropy': 7.213345050811768, 'cur_lr': 4.999999873689376e-05, 'total_loss': 152.63485717773438, 'kl': 0.012657254002988338}, 'load_time_ms': 0.694, 'num_steps_sampled': 681600, 'update_time_ms': 2.546}",568,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.690224409103394,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,681600,681600,{},568,110,-50.905645282197014,2025-09-04_22-19-31,8.000048079203719,3651948,1757017171,-7.11440875099205,21992.533579826355,28210,10.745454545454546
+cda-server-2,False,22035.043923854828,"{'sample_time_ms': 42684.105, 'num_steps_trained': 682800, 'grad_time_ms': 374.156, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 135.70074462890625, 'policy_loss': -0.14947375655174255, 'vf_explained_var': 0.05739326775074005, 'entropy': 6.931785583496094, 'cur_lr': 4.999999873689376e-05, 'total_loss': 135.59986877441406, 'kl': 0.01421891525387764}, 'load_time_ms': 0.695, 'num_steps_sampled': 682800, 'update_time_ms': 2.539}",569,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.5103440284729,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,682800,682800,{},569,106,-62.53338617710244,2025-09-04_22-20-13,8.000107733981825,3651948,1757017213,-8.046965783119704,22035.043923854828,28316,11.339622641509434
+cda-server-2,False,22077.84760403633,"{'sample_time_ms': 42678.69, 'num_steps_trained': 684000, 'grad_time_ms': 375.862, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 112.93285369873047, 'policy_loss': -0.1449345052242279, 'vf_explained_var': 0.08518168330192566, 'entropy': 7.19413423538208, 'cur_lr': 4.999999873689376e-05, 'total_loss': 112.82575225830078, 'kl': 0.011071660555899143}, 'load_time_ms': 0.711, 'num_steps_sampled': 684000, 'update_time_ms': 2.536}",570,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.803680181503296,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,684000,684000,{},570,122,-48.24851714742445,2025-09-04_22-20-56,8.000055241613577,3651948,1757017256,-5.624446084612276,22077.84760403633,28438,9.918032786885245
+cda-server-2,False,22120.38676905632,"{'sample_time_ms': 42551.255, 'num_steps_trained': 685200, 'grad_time_ms': 375.928, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 133.19151306152344, 'policy_loss': -0.1502912938594818, 'vf_explained_var': 0.07893572002649307, 'entropy': 7.2277045249938965, 'cur_lr': 4.999999873689376e-05, 'total_loss': 133.07899475097656, 'kl': 0.011048024520277977}, 'load_time_ms': 0.722, 'num_steps_sampled': 685200, 'update_time_ms': 2.572}",571,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.539165019989014,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,685200,685200,{},571,113,-85.25417927993146,2025-09-04_22-21-39,8.000087952482096,3651948,1757017299,-7.091387358571522,22120.38676905632,28551,10.690265486725664
+cda-server-2,False,22162.90586090088,"{'sample_time_ms': 42517.234, 'num_steps_trained': 686400, 'grad_time_ms': 378.059, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 182.99456787109375, 'policy_loss': -0.13071544468402863, 'vf_explained_var': 0.07520709931850433, 'entropy': 7.410926818847656, 'cur_lr': 4.999999873689376e-05, 'total_loss': 182.89974975585938, 'kl': 0.010507463477551937}, 'load_time_ms': 0.725, 'num_steps_sampled': 686400, 'update_time_ms': 2.572}",572,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.519091844558716,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,686400,686400,{},572,115,-82.94677043031537,2025-09-04_22-22-21,8.000496942292274,3651948,1757017341,-6.136495311014474,22162.90586090088,28666,10.156521739130435
+cda-server-2,False,22205.807220220566,"{'sample_time_ms': 42518.564, 'num_steps_trained': 687600, 'grad_time_ms': 376.914, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 122.54331970214844, 'policy_loss': -0.13683006167411804, 'vf_explained_var': 0.0526929572224617, 'entropy': 7.163827896118164, 'cur_lr': 4.999999873689376e-05, 'total_loss': 122.44371032714844, 'kl': 0.010894465260207653}, 'load_time_ms': 0.711, 'num_steps_sampled': 687600, 'update_time_ms': 2.605}",573,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.90135931968689,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,687600,687600,{},573,122,-68.4526222955332,2025-09-04_22-23-04,10.0,3651948,1757017384,-5.682447918716967,22205.807220220566,28788,9.959016393442623
+cda-server-2,False,22248.536956310272,"{'sample_time_ms': 42370.332, 'num_steps_trained': 688800, 'grad_time_ms': 378.452, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 209.05628967285156, 'policy_loss': -0.1234748512506485, 'vf_explained_var': 0.06602538377046585, 'entropy': 7.409505367279053, 'cur_lr': 4.999999873689376e-05, 'total_loss': 208.97499084472656, 'kl': 0.012348907068371773}, 'load_time_ms': 0.709, 'num_steps_sampled': 688800, 'update_time_ms': 2.581}",574,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.72973608970642,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,688800,688800,{},574,109,-74.35816990238168,2025-09-04_22-23-47,8.00172516925269,3651948,1757017427,-7.325131015657343,22248.536956310272,28897,10.972477064220184
+cda-server-2,False,22291.571404218674,"{'sample_time_ms': 42390.463, 'num_steps_trained': 690000, 'grad_time_ms': 377.016, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 130.4335174560547, 'policy_loss': -0.1544542908668518, 'vf_explained_var': 0.06219371780753136, 'entropy': 6.913965225219727, 'cur_lr': 4.999999873689376e-05, 'total_loss': 130.3199005126953, 'kl': 0.011956276372075081}, 'load_time_ms': 0.722, 'num_steps_sampled': 690000, 'update_time_ms': 2.576}",575,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.03444790840149,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,690000,690000,{},575,113,-54.22765412618301,2025-09-04_22-24-30,8.000057655930751,3651948,1757017470,-7.287234470903005,22291.571404218674,29010,10.858407079646017
+cda-server-2,False,22335.940213918686,"{'sample_time_ms': 42558.047, 'num_steps_trained': 691200, 'grad_time_ms': 373.959, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 168.27389526367188, 'policy_loss': -0.13689130544662476, 'vf_explained_var': 0.07498934864997864, 'entropy': 7.524739742279053, 'cur_lr': 4.999999873689376e-05, 'total_loss': 168.1717071533203, 'kl': 0.010151694528758526}, 'load_time_ms': 0.708, 'num_steps_sampled': 691200, 'update_time_ms': 2.596}",576,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",44.36880970001221,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,691200,691200,{},576,110,-70.2475338971699,2025-09-04_22-25-14,8.00002636638029,3651948,1757017514,-6.757685599026747,22335.940213918686,29120,10.672727272727272
+cda-server-2,False,22378.950961351395,"{'sample_time_ms': 42525.88, 'num_steps_trained': 692400, 'grad_time_ms': 376.477, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 136.9923553466797, 'policy_loss': -0.140699565410614, 'vf_explained_var': 0.09320604801177979, 'entropy': 7.144749164581299, 'cur_lr': 4.999999873689376e-05, 'total_loss': 136.8886260986328, 'kl': 0.010824107564985752}, 'load_time_ms': 0.72, 'num_steps_sampled': 692400, 'update_time_ms': 2.585}",577,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.01074743270874,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,692400,692400,{},577,126,-54.93737929459731,2025-09-04_22-25-57,8.000693779503983,3651948,1757017557,-5.148831116193629,22378.950961351395,29246,9.642857142857142
+cda-server-2,False,22423.185261964798,"{'sample_time_ms': 42680.617, 'num_steps_trained': 693600, 'grad_time_ms': 376.063, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 174.09930419921875, 'policy_loss': -0.1358547955751419, 'vf_explained_var': 0.07100100070238113, 'entropy': 6.8559722900390625, 'cur_lr': 4.999999873689376e-05, 'total_loss': 174.0040283203125, 'kl': 0.01187346875667572}, 'load_time_ms': 0.721, 'num_steps_sampled': 693600, 'update_time_ms': 2.612}",578,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",44.23430061340332,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,693600,693600,{},578,118,-83.06991680825949,2025-09-04_22-26-42,8.00003230595356,3651948,1757017602,-6.179279727686898,22423.185261964798,29364,10.177966101694915
+cda-server-2,False,22466.4621822834,"{'sample_time_ms': 42756.586, 'num_steps_trained': 694800, 'grad_time_ms': 376.764, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 139.19488525390625, 'policy_loss': -0.13023453950881958, 'vf_explained_var': 0.07461045682430267, 'entropy': 6.996879577636719, 'cur_lr': 4.999999873689376e-05, 'total_loss': 139.10948181152344, 'kl': 0.013118831440806389}, 'load_time_ms': 0.716, 'num_steps_sampled': 694800, 'update_time_ms': 2.601}",579,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.276920318603516,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,694800,694800,{},579,121,-47.700735280103274,2025-09-04_22-27-25,8.000156903274824,3651948,1757017645,-4.957898628346339,22466.4621822834,29485,9.537190082644628
+cda-server-2,False,22509.432641267776,"{'sample_time_ms': 42776.12, 'num_steps_trained': 696000, 'grad_time_ms': 373.96, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 94.98158264160156, 'policy_loss': -0.1420704573392868, 'vf_explained_var': 0.07674945890903473, 'entropy': 7.213596820831299, 'cur_lr': 4.999999873689376e-05, 'total_loss': 94.87638092041016, 'kl': 0.010787763632833958}, 'load_time_ms': 0.707, 'num_steps_sampled': 696000, 'update_time_ms': 2.622}",580,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.970458984375,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,696000,696000,{},580,119,-66.57485710214135,2025-09-04_22-28-08,8.000062790663561,3651948,1757017688,-6.65762503572369,22509.432641267776,29604,10.504201680672269
+cda-server-2,False,22552.289803743362,"{'sample_time_ms': 42810.573, 'num_steps_trained': 697200, 'grad_time_ms': 371.38, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 128.8344268798828, 'policy_loss': -0.1312500238418579, 'vf_explained_var': 0.09103263169527054, 'entropy': 7.415947914123535, 'cur_lr': 4.999999873689376e-05, 'total_loss': 128.74192810058594, 'kl': 0.011338096112012863}, 'load_time_ms': 0.701, 'num_steps_sampled': 697200, 'update_time_ms': 2.526}",581,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.85716247558594,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,697200,697200,{},581,121,-57.68848140224077,2025-09-04_22-28-51,8.00019220691321,3651948,1757017731,-5.39508747106984,22552.289803743362,29725,9.84297520661157
+cda-server-2,False,22595.954249620438,"{'sample_time_ms': 42927.164, 'num_steps_trained': 698400, 'grad_time_ms': 369.282, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 122.69112396240234, 'policy_loss': -0.1308661699295044, 'vf_explained_var': 0.07427005469799042, 'entropy': 7.18864107131958, 'cur_lr': 4.999999873689376e-05, 'total_loss': 122.60426330566406, 'kl': 0.012876071035861969}, 'load_time_ms': 0.698, 'num_steps_sampled': 698400, 'update_time_ms': 2.557}",582,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.664445877075195,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,698400,698400,{},582,117,-57.31496480522384,2025-09-04_22-29-35,8.000219740887788,3651948,1757017775,-5.87037731655807,22595.954249620438,29842,10.136752136752136
+cda-server-2,False,22638.80445575714,"{'sample_time_ms': 42919.357, 'num_steps_trained': 699600, 'grad_time_ms': 371.931, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 115.34535217285156, 'policy_loss': -0.12993019819259644, 'vf_explained_var': 0.09734512865543365, 'entropy': 7.098825454711914, 'cur_lr': 4.999999873689376e-05, 'total_loss': 115.25001525878906, 'kl': 0.01012202724814415}, 'load_time_ms': 0.712, 'num_steps_sampled': 699600, 'update_time_ms': 2.582}",583,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.85020613670349,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,699600,699600,{},583,128,-56.91603174569671,2025-09-04_22-30-17,8.000145350968783,3651948,1757017817,-4.829231435358762,22638.80445575714,29970,9.515625
+cda-server-2,False,22684.14041852951,"{'sample_time_ms': 43181.283, 'num_steps_trained': 700800, 'grad_time_ms': 370.648, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 133.59213256835938, 'policy_loss': -0.14230309426784515, 'vf_explained_var': 0.06981848180294037, 'entropy': 6.67290735244751, 'cur_lr': 4.999999873689376e-05, 'total_loss': 133.49095153808594, 'kl': 0.01203584298491478}, 'load_time_ms': 0.725, 'num_steps_sampled': 700800, 'update_time_ms': 2.588}",584,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",45.335962772369385,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,700800,700800,{},584,123,-57.59628058778699,2025-09-04_22-31-03,8.000117909117819,3651948,1757017863,-5.26294073240756,22684.14041852951,30093,9.691056910569106
+cda-server-2,False,22727.164251089096,"{'sample_time_ms': 43179.759, 'num_steps_trained': 702000, 'grad_time_ms': 371.127, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 142.23223876953125, 'policy_loss': -0.12671436369419098, 'vf_explained_var': 0.08032892644405365, 'entropy': 7.343288898468018, 'cur_lr': 4.999999873689376e-05, 'total_loss': 142.15101623535156, 'kl': 0.01330479048192501}, 'load_time_ms': 0.717, 'num_steps_sampled': 702000, 'update_time_ms': 2.585}",585,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.02383255958557,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,702000,702000,{},585,119,-63.36495358766278,2025-09-04_22-31-46,8.000246534700047,3651948,1757017906,-5.878659310265259,22727.164251089096,30212,10.109243697478991
+cda-server-2,False,22770.384961128235,"{'sample_time_ms': 43063.488, 'num_steps_trained': 703200, 'grad_time_ms': 372.602, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 91.35843658447266, 'policy_loss': -0.15350015461444855, 'vf_explained_var': 0.1072445660829544, 'entropy': 7.050044536590576, 'cur_lr': 4.999999873689376e-05, 'total_loss': 91.24449157714844, 'kl': 0.011577222496271133}, 'load_time_ms': 0.715, 'num_steps_sampled': 703200, 'update_time_ms': 2.567}",586,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.220710039138794,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,703200,703200,{},586,125,-47.96183202814019,2025-09-04_22-32-29,8.000505277038918,3651948,1757017949,-5.040616298416622,22770.384961128235,30337,9.56
+cda-server-2,False,22814.914575338364,"{'sample_time_ms': 43215.761, 'num_steps_trained': 704400, 'grad_time_ms': 372.286, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 93.92406463623047, 'policy_loss': -0.12293097376823425, 'vf_explained_var': 0.12784144282341003, 'entropy': 6.780979156494141, 'cur_lr': 4.999999873689376e-05, 'total_loss': 93.8482666015625, 'kl': 0.013793894089758396}, 'load_time_ms': 0.705, 'num_steps_sampled': 704400, 'update_time_ms': 2.583}",587,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",44.529614210128784,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,704400,704400,{},587,120,-42.88386129363812,2025-09-04_22-33-14,8.000040180223671,3651948,1757017994,-5.753513069942545,22814.914575338364,30457,9.966666666666667
+cda-server-2,False,22859.455120801926,"{'sample_time_ms': 43246.856, 'num_steps_trained': 705600, 'grad_time_ms': 371.89, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 77.65475463867188, 'policy_loss': -0.13246053457260132, 'vf_explained_var': 0.09905927628278732, 'entropy': 6.938627243041992, 'cur_lr': 4.999999873689376e-05, 'total_loss': 77.56002044677734, 'kl': 0.01103940699249506}, 'load_time_ms': 0.7, 'num_steps_sampled': 705600, 'update_time_ms': 2.552}",588,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",44.54054546356201,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,705600,705600,{},588,149,-44.73748164195726,2025-09-04_22-33-58,8.00008797216531,3651948,1757018038,-2.6113752468583518,22859.455120801926,30606,8.12751677852349
+cda-server-2,False,22903.96373772621,"{'sample_time_ms': 43369.467, 'num_steps_trained': 706800, 'grad_time_ms': 372.391, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 121.15181732177734, 'policy_loss': -0.1183452308177948, 'vf_explained_var': 0.07469463348388672, 'entropy': 6.563516139984131, 'cur_lr': 4.999999873689376e-05, 'total_loss': 121.072265625, 'kl': 0.011357057839632034}, 'load_time_ms': 0.716, 'num_steps_sampled': 706800, 'update_time_ms': 2.517}",589,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",44.50861692428589,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,706800,706800,{},589,135,-71.19111453046314,2025-09-04_22-34-43,8.000053933585503,3651948,1757018083,-4.193839701913829,22903.96373772621,30741,8.992592592592592
+cda-server-2,False,22947.06484746933,"{'sample_time_ms': 43382.958, 'num_steps_trained': 708000, 'grad_time_ms': 371.98, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 141.84280395507812, 'policy_loss': -0.12761473655700684, 'vf_explained_var': 0.0985998809337616, 'entropy': 7.402409076690674, 'cur_lr': 4.999999873689376e-05, 'total_loss': 141.76817321777344, 'kl': 0.01550805103033781}, 'load_time_ms': 0.707, 'num_steps_sampled': 708000, 'update_time_ms': 2.512}",590,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.101109743118286,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,708000,708000,{},590,121,-71.80392788298023,2025-09-04_22-35-26,8.000476339571728,3651948,1757018126,-5.264783734877008,22947.06484746933,30862,9.801652892561984
+cda-server-2,False,22990.538947582245,"{'sample_time_ms': 43443.705, 'num_steps_trained': 709200, 'grad_time_ms': 372.915, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 119.58562469482422, 'policy_loss': -0.14314739406108856, 'vf_explained_var': 0.08791525661945343, 'entropy': 7.169406414031982, 'cur_lr': 4.999999873689376e-05, 'total_loss': 119.47736358642578, 'kl': 0.010210275650024414}, 'load_time_ms': 0.701, 'num_steps_sampled': 709200, 'update_time_ms': 2.575}",591,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.47410011291504,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,709200,709200,{},591,115,-57.33659681872386,2025-09-04_22-36-09,8.000032141378654,3651948,1757018169,-6.406518425550268,22990.538947582245,30977,10.417391304347825
+cda-server-2,False,23034.84391260147,"{'sample_time_ms': 43507.588, 'num_steps_trained': 710400, 'grad_time_ms': 373.119, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 151.1319122314453, 'policy_loss': -0.13063140213489532, 'vf_explained_var': 0.04749082773923874, 'entropy': 7.191324234008789, 'cur_lr': 4.999999873689376e-05, 'total_loss': 151.0413360595703, 'kl': 0.011724242940545082}, 'load_time_ms': 0.703, 'num_steps_sampled': 710400, 'update_time_ms': 2.528}",592,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",44.304965019226074,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,710400,710400,{},592,132,-48.77108419299691,2025-09-04_22-36-54,8.000195820089234,3651948,1757018214,-3.725944518014065,23034.84391260147,31109,8.856060606060606
+cda-server-2,False,23080.382224321365,"{'sample_time_ms': 43777.358, 'num_steps_trained': 711600, 'grad_time_ms': 372.202, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 107.67868041992188, 'policy_loss': -0.138823002576828, 'vf_explained_var': 0.07654394954442978, 'entropy': 6.84686279296875, 'cur_lr': 4.999999873689376e-05, 'total_loss': 107.58744812011719, 'kl': 0.013926461338996887}, 'load_time_ms': 0.71, 'num_steps_sampled': 711600, 'update_time_ms': 2.488}",593,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",45.53831171989441,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,711600,711600,{},593,133,-66.42029840822644,2025-09-04_22-37-39,8.000138517453546,3651948,1757018259,-4.4259443809062144,23080.382224321365,31242,9.210526315789474
+cda-server-2,False,23125.05748963356,"{'sample_time_ms': 43711.507, 'num_steps_trained': 712800, 'grad_time_ms': 371.969, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 156.84869384765625, 'policy_loss': -0.12441955506801605, 'vf_explained_var': 0.08332864940166473, 'entropy': 6.674763202667236, 'cur_lr': 4.999999873689376e-05, 'total_loss': 156.7620086669922, 'kl': 0.011046051979064941}, 'load_time_ms': 0.707, 'num_steps_sampled': 712800, 'update_time_ms': 2.481}",594,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",44.675265312194824,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,712800,712800,{},594,125,-68.77151196250325,2025-09-04_22-38-24,8.001414850232228,3651948,1757018304,-4.839392487965561,23125.05748963356,31367,9.4
+cda-server-2,False,23168.927923202515,"{'sample_time_ms': 43795.331, 'num_steps_trained': 714000, 'grad_time_ms': 372.795, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 118.53201293945312, 'policy_loss': -0.12804369628429413, 'vf_explained_var': 0.0854819267988205, 'entropy': 6.8159966468811035, 'cur_lr': 4.999999873689376e-05, 'total_loss': 118.44461822509766, 'kl': 0.01189707312732935}, 'load_time_ms': 0.715, 'num_steps_sampled': 714000, 'update_time_ms': 2.454}",595,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.87043356895447,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,714000,714000,{},595,150,-84.89429218265892,2025-09-04_22-39-08,8.000200131851521,3651948,1757018348,-2.795488517206502,23168.927923202515,31517,8.213333333333333
+cda-server-2,False,23212.9437186718,"{'sample_time_ms': 43874.525, 'num_steps_trained': 715200, 'grad_time_ms': 373.034, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 89.91404724121094, 'policy_loss': -0.13218335807323456, 'vf_explained_var': 0.1509593278169632, 'entropy': 6.593450546264648, 'cur_lr': 4.999999873689376e-05, 'total_loss': 89.82585906982422, 'kl': 0.012874918058514595}, 'load_time_ms': 0.723, 'num_steps_sampled': 715200, 'update_time_ms': 2.448}",596,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",44.01579546928406,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,715200,715200,{},596,146,-46.89106432634683,2025-09-04_22-39-52,8.000059176342543,3651948,1757018392,-2.718115021179101,23212.9437186718,31663,8.184931506849315
+cda-server-2,False,23256.91022491455,"{'sample_time_ms': 43817.494, 'num_steps_trained': 716400, 'grad_time_ms': 373.682, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 131.62042236328125, 'policy_loss': -0.12891115248203278, 'vf_explained_var': 0.0633602887392044, 'entropy': 6.955478191375732, 'cur_lr': 4.999999873689376e-05, 'total_loss': 131.52967834472656, 'kl': 0.011169587261974812}, 'load_time_ms': 0.73, 'num_steps_sampled': 716400, 'update_time_ms': 2.46}",597,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.966506242752075,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,716400,716400,{},597,133,-60.22632302654492,2025-09-04_22-40-36,8.000883760389728,3651948,1757018436,-4.196563868691215,23256.91022491455,31796,9.090225563909774
+cda-server-2,False,23301.675994873047,"{'sample_time_ms': 43840.693, 'num_steps_trained': 717600, 'grad_time_ms': 372.935, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 108.18599700927734, 'policy_loss': -0.118685282766819, 'vf_explained_var': 0.11735150218009949, 'entropy': 6.502457141876221, 'cur_lr': 4.999999873689376e-05, 'total_loss': 108.11123657226562, 'kl': 0.012854685075581074}, 'load_time_ms': 0.73, 'num_steps_sampled': 717600, 'update_time_ms': 2.517}",598,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",44.765769958496094,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,717600,717600,{},598,152,-67.82491122735355,2025-09-04_22-41-21,8.00003680404728,3651948,1757018481,-2.197598254975347,23301.675994873047,31948,7.848684210526316
+cda-server-2,False,23344.57385659218,"{'sample_time_ms': 43682.56, 'num_steps_trained': 718800, 'grad_time_ms': 370.037, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 133.1768798828125, 'policy_loss': -0.13704553246498108, 'vf_explained_var': 0.09473087638616562, 'entropy': 6.754085063934326, 'cur_lr': 4.999999873689376e-05, 'total_loss': 133.0796356201172, 'kl': 0.011645477265119553}, 'load_time_ms': 0.722, 'num_steps_sampled': 718800, 'update_time_ms': 2.56}",599,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.89786171913147,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,718800,718800,{},599,120,-63.29919197088866,2025-09-04_22-42-04,8.000100690883038,3651948,1757018524,-5.870295952205978,23344.57385659218,32068,10.083333333333334
+cda-server-2,False,23387.79086279869,"{'sample_time_ms': 43693.575, 'num_steps_trained': 720000, 'grad_time_ms': 370.578, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 89.28089141845703, 'policy_loss': -0.14922183752059937, 'vf_explained_var': 0.11266271024942398, 'entropy': 6.479259014129639, 'cur_lr': 4.999999873689376e-05, 'total_loss': 89.17571258544922, 'kl': 0.012887951917946339}, 'load_time_ms': 0.722, 'num_steps_sampled': 720000, 'update_time_ms': 2.536}",600,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.21700620651245,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,720000,720000,{},600,129,-47.30832296448869,2025-09-04_22-42-47,8.00003757225402,3651948,1757018567,-4.727779757085776,23387.79086279869,32197,9.294573643410853
+cda-server-2,False,23431.2193338871,"{'sample_time_ms': 43686.949, 'num_steps_trained': 721200, 'grad_time_ms': 372.533, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 95.62168884277344, 'policy_loss': -0.12089570611715317, 'vf_explained_var': 0.09228457510471344, 'entropy': 6.7667927742004395, 'cur_lr': 4.999999873689376e-05, 'total_loss': 95.5384521484375, 'kl': 0.01102022361010313}, 'load_time_ms': 0.723, 'num_steps_sampled': 721200, 'update_time_ms': 2.559}",601,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.428471088409424,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,721200,721200,{},601,138,-57.95461426237044,2025-09-04_22-43-30,8.000672331053476,3651948,1757018610,-3.609454058582472,23431.2193338871,32335,8.72463768115942
+cda-server-2,False,23474.939210653305,"{'sample_time_ms': 43626.161, 'num_steps_trained': 722400, 'grad_time_ms': 374.735, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 74.19865417480469, 'policy_loss': -0.12589259445667267, 'vf_explained_var': 0.11768775433301926, 'entropy': 5.9769673347473145, 'cur_lr': 4.999999873689376e-05, 'total_loss': 74.11507415771484, 'kl': 0.01238187775015831}, 'load_time_ms': 0.727, 'num_steps_sampled': 722400, 'update_time_ms': 2.576}",602,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.719876766204834,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,722400,722400,{},602,155,-38.30536829261998,2025-09-04_22-44-14,8.000132867335541,3651948,1757018654,-1.9368118449596428,23474.939210653305,32490,7.658064516129032
+cda-server-2,False,23519.12417769432,"{'sample_time_ms': 43490.588, 'num_steps_trained': 723600, 'grad_time_ms': 374.963, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 83.46903991699219, 'policy_loss': -0.1172410100698471, 'vf_explained_var': 0.1085447371006012, 'entropy': 6.539908409118652, 'cur_lr': 4.999999873689376e-05, 'total_loss': 83.40992736816406, 'kl': 0.017011698335409164}, 'load_time_ms': 0.713, 'num_steps_sampled': 723600, 'update_time_ms': 2.587}",603,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",44.184967041015625,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,723600,723600,{},603,139,-45.90818513752913,2025-09-04_22-44-58,8.000326986938695,3651948,1757018698,-3.7029299404763436,23519.12417769432,32629,8.762589928057555
+cda-server-2,False,23562.857536554337,"{'sample_time_ms': 43395.735, 'num_steps_trained': 724800, 'grad_time_ms': 375.529, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 103.1093978881836, 'policy_loss': -0.1405450701713562, 'vf_explained_var': 0.11952368170022964, 'entropy': 6.960071086883545, 'cur_lr': 4.999999873689376e-05, 'total_loss': 103.00732421875, 'kl': 0.011259738355875015}, 'load_time_ms': 0.704, 'num_steps_sampled': 724800, 'update_time_ms': 2.648}",604,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.73335886001587,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,724800,724800,{},604,128,-47.65175200995771,2025-09-04_22-45-42,8.000083883919991,3651948,1757018742,-4.491569973848575,23562.857536554337,32757,9.2578125
+cda-server-2,False,23606.357277154922,"{'sample_time_ms': 43361.803, 'num_steps_trained': 726000, 'grad_time_ms': 372.361, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 90.22853088378906, 'policy_loss': -0.12851108610630035, 'vf_explained_var': 0.12002600729465485, 'entropy': 6.432928085327148, 'cur_lr': 4.999999873689376e-05, 'total_loss': 90.14180755615234, 'kl': 0.012228470295667648}, 'load_time_ms': 0.696, 'num_steps_sampled': 726000, 'update_time_ms': 2.712}",605,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.49974060058594,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,726000,726000,{},605,132,-53.97147874809213,2025-09-04_22-46-25,8.000298934506844,3651948,1757018785,-4.387812240105299,23606.357277154922,32889,9.151515151515152
+cda-server-2,False,23650.741208314896,"{'sample_time_ms': 43399.828, 'num_steps_trained': 727200, 'grad_time_ms': 371.198, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 100.70307922363281, 'policy_loss': -0.14291277527809143, 'vf_explained_var': 0.10846755653619766, 'entropy': 6.764704704284668, 'cur_lr': 4.999999873689376e-05, 'total_loss': 100.59479522705078, 'kl': 0.01013493537902832}, 'load_time_ms': 0.691, 'num_steps_sampled': 727200, 'update_time_ms': 2.721}",606,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",44.383931159973145,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,727200,727200,{},606,148,-53.87825800993699,2025-09-04_22-47-10,8.001652829584234,3651948,1757018830,-2.2901905647498775,23650.741208314896,33037,7.9324324324324325
+cda-server-2,False,23695.062483549118,"{'sample_time_ms': 43436.722, 'num_steps_trained': 728400, 'grad_time_ms': 369.762, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 62.03611755371094, 'policy_loss': -0.12948085367679596, 'vf_explained_var': 0.12581761181354523, 'entropy': 6.543361663818359, 'cur_lr': 4.999999873689376e-05, 'total_loss': 61.94514465332031, 'kl': 0.011268743313848972}, 'load_time_ms': 0.695, 'num_steps_sampled': 728400, 'update_time_ms': 2.728}",607,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",44.32127523422241,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,728400,728400,{},607,155,-50.7471301644085,2025-09-04_22-47-54,10.0,3651948,1757018874,-2.3390846226268893,23695.062483549118,33192,7.941935483870968
+cda-server-2,False,23738.654263973236,"{'sample_time_ms': 43317.573, 'num_steps_trained': 729600, 'grad_time_ms': 371.483, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 99.25454711914062, 'policy_loss': -0.12160660326480865, 'vf_explained_var': 0.1230609118938446, 'entropy': 6.74321174621582, 'cur_lr': 4.999999873689376e-05, 'total_loss': 99.17286682128906, 'kl': 0.011683410033583641}, 'load_time_ms': 0.704, 'num_steps_sampled': 729600, 'update_time_ms': 2.714}",608,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.59178042411804,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,729600,729600,{},608,139,-48.03150689939424,2025-09-04_22-48-38,8.00045191681889,3651948,1757018918,-2.999305298071618,23738.654263973236,33331,8.388489208633093
+cda-server-2,False,23782.10429239273,"{'sample_time_ms': 43369.897, 'num_steps_trained': 730800, 'grad_time_ms': 374.336, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 75.23072052001953, 'policy_loss': -0.12343779951334, 'vf_explained_var': 0.12303393334150314, 'entropy': 6.567841529846191, 'cur_lr': 4.999999873689376e-05, 'total_loss': 75.13880920410156, 'kl': 0.009223658591508865}, 'load_time_ms': 0.702, 'num_steps_sampled': 730800, 'update_time_ms': 2.714}",609,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.45002841949463,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,730800,730800,{},609,148,-52.06682091221565,2025-09-04_22-49-21,8.001783886918624,3651948,1757018961,-2.7639513994668614,23782.10429239273,33479,8.243243243243244
+cda-server-2,False,23825.765317440033,"{'sample_time_ms': 43413.4, 'num_steps_trained': 732000, 'grad_time_ms': 375.169, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 103.58061981201172, 'policy_loss': -0.12942402064800262, 'vf_explained_var': 0.09735243767499924, 'entropy': 6.212673664093018, 'cur_lr': 4.999999873689376e-05, 'total_loss': 103.48749542236328, 'kl': 0.010623730719089508}, 'load_time_ms': 0.703, 'num_steps_sampled': 732000, 'update_time_ms': 2.789}",610,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.661025047302246,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,732000,732000,{},610,143,-62.01605145781362,2025-09-04_22-50-05,8.000033550722925,3651948,1757019005,-2.9132776826894746,23825.765317440033,33622,8.286713286713287
+cda-server-2,False,23870.447543382645,"{'sample_time_ms': 43539.937, 'num_steps_trained': 733200, 'grad_time_ms': 374.066, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 87.480712890625, 'policy_loss': -0.1381773203611374, 'vf_explained_var': 0.13044473528862, 'entropy': 6.746407985687256, 'cur_lr': 4.999999873689376e-05, 'total_loss': 87.3785171508789, 'kl': 0.010530880652368069}, 'load_time_ms': 0.7, 'num_steps_sampled': 733200, 'update_time_ms': 2.733}",611,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",44.682225942611694,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,733200,733200,{},611,156,-47.74921806817137,2025-09-04_22-50-50,8.0000941196506,3651948,1757019050,-2.0150252691354487,23870.447543382645,33778,7.8076923076923075
+cda-server-2,False,23913.03826022148,"{'sample_time_ms': 43428.226, 'num_steps_trained': 734400, 'grad_time_ms': 372.778, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 115.05916595458984, 'policy_loss': -0.13818299770355225, 'vf_explained_var': 0.08191430568695068, 'entropy': 6.76662540435791, 'cur_lr': 4.999999873689376e-05, 'total_loss': 114.96686553955078, 'kl': 0.013425699435174465}, 'load_time_ms': 0.691, 'num_steps_sampled': 734400, 'update_time_ms': 2.8}",612,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",42.59071683883667,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,734400,734400,{},612,115,-49.67916648419274,2025-09-04_22-51-32,8.000300123651812,3651948,1757019092,-6.248643446342032,23913.03826022148,33893,10.339130434782609
+cda-server-2,False,23957.83992266655,"{'sample_time_ms': 43489.08, 'num_steps_trained': 735600, 'grad_time_ms': 373.518, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 80.71265411376953, 'policy_loss': -0.13465330004692078, 'vf_explained_var': 0.11793039739131927, 'entropy': 6.302291393280029, 'cur_lr': 4.999999873689376e-05, 'total_loss': 80.63780212402344, 'kl': 0.017498981207609177}, 'load_time_ms': 0.701, 'num_steps_sampled': 735600, 'update_time_ms': 2.832}",613,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",44.80166244506836,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,735600,735600,{},613,152,-43.75999672188685,2025-09-04_22-52-17,8.00014029262937,3651948,1757019137,-2.481013239972887,23957.83992266655,34045,7.980263157894737
+cda-server-2,False,24001.833251714706,"{'sample_time_ms': 43512.734, 'num_steps_trained': 736800, 'grad_time_ms': 375.891, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 87.89940643310547, 'policy_loss': -0.1337495893239975, 'vf_explained_var': 0.1053292378783226, 'entropy': 6.355923652648926, 'cur_lr': 4.999999873689376e-05, 'total_loss': 87.80087280273438, 'kl': 0.010308354161679745}, 'load_time_ms': 0.715, 'num_steps_sampled': 736800, 'update_time_ms': 2.79}",614,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.99332904815674,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,736800,736800,{},614,151,-52.692293882623645,2025-09-04_22-53-01,8.00005365016508,3651948,1757019181,-2.3395078662194324,24001.833251714706,34196,7.940397350993377
+cda-server-2,False,24045.63971400261,"{'sample_time_ms': 43541.909, 'num_steps_trained': 738000, 'grad_time_ms': 377.403, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 59.33376693725586, 'policy_loss': -0.11895520240068436, 'vf_explained_var': 0.13744482398033142, 'entropy': 6.331945419311523, 'cur_lr': 4.999999873689376e-05, 'total_loss': 59.25489807128906, 'kl': 0.011729689314961433}, 'load_time_ms': 0.713, 'num_steps_sampled': 738000, 'update_time_ms': 2.736}",615,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.80646228790283,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,738000,738000,{},615,154,-48.34869160915936,2025-09-04_22-53-45,8.000059264052199,3651948,1757019225,-2.210588445461337,24045.63971400261,34350,7.8311688311688314
+cda-server-2,False,24089.56317305565,"{'sample_time_ms': 43494.818, 'num_steps_trained': 739200, 'grad_time_ms': 378.397, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 80.76864624023438, 'policy_loss': -0.13747276365756989, 'vf_explained_var': 0.1064247190952301, 'entropy': 6.598756790161133, 'cur_lr': 4.999999873689376e-05, 'total_loss': 80.67037963867188, 'kl': 0.011474408209323883}, 'load_time_ms': 0.72, 'num_steps_sampled': 739200, 'update_time_ms': 2.786}",616,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.92345905303955,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,739200,739200,{},616,143,-43.274968244869726,2025-09-04_22-54-29,8.00034231418727,3651948,1757019269,-2.892525819712943,24089.56317305565,34493,8.314685314685315
+cda-server-2,False,24132.587853193283,"{'sample_time_ms': 43367.12, 'num_steps_trained': 740400, 'grad_time_ms': 376.518, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 196.58050537109375, 'policy_loss': -0.12371982634067535, 'vf_explained_var': 0.08463575690984726, 'entropy': 7.091447353363037, 'cur_lr': 4.999999873689376e-05, 'total_loss': 196.49053955078125, 'kl': 0.009876329451799393}, 'load_time_ms': 0.702, 'num_steps_sampled': 740400, 'update_time_ms': 2.776}",617,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.02468013763428,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,740400,740400,{},617,128,-84.37941586798468,2025-09-04_22-55-12,8.000285617819653,3651948,1757019312,-4.624479288788307,24132.587853193283,34621,9.2890625
+cda-server-2,False,24176.85699081421,"{'sample_time_ms': 43434.809, 'num_steps_trained': 741600, 'grad_time_ms': 376.645, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 80.58283233642578, 'policy_loss': -0.12967443466186523, 'vf_explained_var': 0.10440634936094284, 'entropy': 6.300535202026367, 'cur_lr': 4.999999873689376e-05, 'total_loss': 80.50260925292969, 'kl': 0.014469693414866924}, 'load_time_ms': 0.699, 'num_steps_sampled': 741600, 'update_time_ms': 2.738}",618,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",44.2691376209259,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,741600,741600,{},618,149,-41.537811579281005,2025-09-04_22-55-56,8.000343860107382,3651948,1757019356,-2.679667372974014,24176.85699081421,34770,8.167785234899329
+cda-server-2,False,24221.655776262283,"{'sample_time_ms': 43571.083, 'num_steps_trained': 742800, 'grad_time_ms': 375.321, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 75.33663940429688, 'policy_loss': -0.1256122887134552, 'vf_explained_var': 0.1342889964580536, 'entropy': 6.3217339515686035, 'cur_lr': 4.999999873689376e-05, 'total_loss': 75.2529296875, 'kl': 0.012261205352842808}, 'load_time_ms': 0.693, 'num_steps_sampled': 742800, 'update_time_ms': 2.705}",619,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",44.79878544807434,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,742800,742800,{},619,156,-44.620420730516805,2025-09-04_22-56-41,8.000067229446792,3651948,1757019401,-1.8540265913132556,24221.655776262283,34926,7.673076923076923
+cda-server-2,False,24264.91754412651,"{'sample_time_ms': 43533.036, 'num_steps_trained': 744000, 'grad_time_ms': 373.499, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 95.90986633300781, 'policy_loss': -0.13190573453903198, 'vf_explained_var': 0.09556801617145538, 'entropy': 6.6097893714904785, 'cur_lr': 4.999999873689376e-05, 'total_loss': 95.8134765625, 'kl': 0.010394017212092876}, 'load_time_ms': 0.703, 'num_steps_sampled': 744000, 'update_time_ms': 2.633}",620,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.261767864227295,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,744000,744000,{},620,144,-80.9832114175946,2025-09-04_22-57-24,8.001205774148408,3651948,1757019444,-2.9950229317180774,24264.91754412651,35070,8.32638888888889
+cda-server-2,False,24309.009521722794,"{'sample_time_ms': 43475.999, 'num_steps_trained': 745200, 'grad_time_ms': 371.539, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 69.21296691894531, 'policy_loss': -0.1333545297384262, 'vf_explained_var': 0.11814220994710922, 'entropy': 6.632723331451416, 'cur_lr': 4.999999873689376e-05, 'total_loss': 69.12251281738281, 'kl': 0.01255726721137762}, 'load_time_ms': 0.702, 'num_steps_sampled': 745200, 'update_time_ms': 2.656}",621,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",44.09197759628296,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,745200,745200,{},621,156,-41.969145148756176,2025-09-04_22-58-09,8.000122929567713,3651948,1757019489,-1.945971003510623,24309.009521722794,35226,7.743589743589744
+cda-server-2,False,24352.62490963936,"{'sample_time_ms': 43579.795, 'num_steps_trained': 746400, 'grad_time_ms': 370.359, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 147.01626586914062, 'policy_loss': -0.12787127494812012, 'vf_explained_var': 0.12394154071807861, 'entropy': 6.46849250793457, 'cur_lr': 4.999999873689376e-05, 'total_loss': 146.9237518310547, 'kl': 0.010346510447561741}, 'load_time_ms': 0.705, 'num_steps_sampled': 746400, 'update_time_ms': 2.586}",622,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.61538791656494,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,746400,746400,{},622,146,-82.50721364693268,2025-09-04_22-58-52,8.000054162007205,3651948,1757019532,-2.8609263828961082,24352.62490963936,35372,8.198630136986301
+cda-server-2,False,24396.891786575317,"{'sample_time_ms': 43528.037, 'num_steps_trained': 747600, 'grad_time_ms': 368.726, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 128.25091552734375, 'policy_loss': -0.11456486582756042, 'vf_explained_var': 0.11836099624633789, 'entropy': 6.185139179229736, 'cur_lr': 4.999999873689376e-05, 'total_loss': 128.16693115234375, 'kl': 0.008946657180786133}, 'load_time_ms': 0.695, 'num_steps_sampled': 747600, 'update_time_ms': 2.532}",623,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",44.26687693595886,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,747600,747600,{},623,155,-85.04620785738832,2025-09-04_22-59-36,8.000154097887364,3651948,1757019576,-2.152161328113019,24396.891786575317,35527,7.754838709677419
+cda-server-2,False,24442.364223718643,"{'sample_time_ms': 43679.584, 'num_steps_trained': 748800, 'grad_time_ms': 365.217, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 87.53225708007812, 'policy_loss': -0.12074670195579529, 'vf_explained_var': 0.1277458518743515, 'entropy': 6.682364463806152, 'cur_lr': 4.999999873689376e-05, 'total_loss': 87.46076965332031, 'kl': 0.014415502548217773}, 'load_time_ms': 0.676, 'num_steps_sampled': 748800, 'update_time_ms': 2.503}",624,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",45.472437143325806,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,748800,748800,{},624,157,-46.17701575138811,2025-09-04_23-00-22,8.000141397449267,3651948,1757019622,-1.8435011198408267,24442.364223718643,35684,7.687898089171974
+cda-server-2,False,24487.214854002,"{'sample_time_ms': 43785.715, 'num_steps_trained': 750000, 'grad_time_ms': 363.547, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 75.34528350830078, 'policy_loss': -0.1255345344543457, 'vf_explained_var': 0.13604828715324402, 'entropy': 6.4094929695129395, 'cur_lr': 4.999999873689376e-05, 'total_loss': 75.26229858398438, 'kl': 0.012451428920030594}, 'load_time_ms': 0.673, 'num_steps_sampled': 750000, 'update_time_ms': 2.51}",625,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",44.85063028335571,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,750000,750000,{},625,156,-40.759977403879,2025-09-04_23-01-07,8.000353468310337,3651948,1757019667,-1.7018728022929461,24487.214854002,35840,7.596153846153846
+cda-server-2,False,24532.998854875565,"{'sample_time_ms': 43972.231, 'num_steps_trained': 751200, 'grad_time_ms': 363.122, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 101.50741577148438, 'policy_loss': -0.12551593780517578, 'vf_explained_var': 0.09942556172609329, 'entropy': 6.604660987854004, 'cur_lr': 4.999999873689376e-05, 'total_loss': 101.4166259765625, 'kl': 0.01015991810709238}, 'load_time_ms': 0.663, 'num_steps_sampled': 751200, 'update_time_ms': 2.44}",626,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",45.784000873565674,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,751200,751200,{},626,151,-55.83485696934436,2025-09-04_23-01-53,8.000416785293512,3651948,1757019713,-2.4108761205014515,24532.998854875565,35991,7.9801324503311255
+cda-server-2,False,24578.68521976471,"{'sample_time_ms': 44238.021, 'num_steps_trained': 752400, 'grad_time_ms': 363.44, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 102.60040283203125, 'policy_loss': -0.1330137997865677, 'vf_explained_var': 0.1471284031867981, 'entropy': 6.186196327209473, 'cur_lr': 4.999999873689376e-05, 'total_loss': 102.50945281982422, 'kl': 0.012312407605350018}, 'load_time_ms': 0.668, 'num_steps_sampled': 752400, 'update_time_ms': 2.453}",627,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",45.6863648891449,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,752400,752400,{},627,167,-54.97736939145061,2025-09-04_23-02-38,8.001673668214465,3651948,1757019758,-0.9532556604035017,24578.68521976471,36158,7.11377245508982
+cda-server-2,False,24622.602730989456,"{'sample_time_ms': 44203.22, 'num_steps_trained': 753600, 'grad_time_ms': 363.045, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 78.02803802490234, 'policy_loss': -0.12999826669692993, 'vf_explained_var': 0.12903517484664917, 'entropy': 6.610939979553223, 'cur_lr': 4.999999873689376e-05, 'total_loss': 77.93390655517578, 'kl': 0.010497664101421833}, 'load_time_ms': 0.661, 'num_steps_sampled': 753600, 'update_time_ms': 2.464}",628,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.917511224746704,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,753600,753600,{},628,149,-45.96642426016081,2025-09-04_23-03-22,8.000423726653253,3651948,1757019802,-2.5990424894013713,24622.602730989456,36307,8.134228187919463
+cda-server-2,False,24666.221581220627,"{'sample_time_ms': 44084.546, 'num_steps_trained': 754800, 'grad_time_ms': 363.648, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 89.68988800048828, 'policy_loss': -0.12220560014247894, 'vf_explained_var': 0.1673087626695633, 'entropy': 6.403261184692383, 'cur_lr': 4.999999873689376e-05, 'total_loss': 89.6006088256836, 'kl': 0.009637761861085892}, 'load_time_ms': 0.674, 'num_steps_sampled': 754800, 'update_time_ms': 2.487}",629,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.618850231170654,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,754800,754800,{},629,144,-57.61103400776423,2025-09-04_23-04-06,8.000681241852664,3651948,1757019846,-3.0005569397759198,24666.221581220627,36451,8.354166666666666
+cda-server-2,False,24710.076257944107,"{'sample_time_ms': 44141.343, 'num_steps_trained': 756000, 'grad_time_ms': 366.074, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 97.13150024414062, 'policy_loss': -0.12444964796304703, 'vf_explained_var': 0.1308441162109375, 'entropy': 5.918638229370117, 'cur_lr': 4.999999873689376e-05, 'total_loss': 97.04147338867188, 'kl': 0.010075706988573074}, 'load_time_ms': 0.671, 'num_steps_sampled': 756000, 'update_time_ms': 2.495}",630,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.854676723480225,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,756000,756000,{},630,156,-49.30420801763324,2025-09-04_23-04-50,8.000077690402945,3651948,1757019890,-2.0673539638389835,24710.076257944107,36607,7.7243589743589745
+cda-server-2,False,24754.239033460617,"{'sample_time_ms': 44146.504, 'num_steps_trained': 757200, 'grad_time_ms': 368.023, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 63.48638153076172, 'policy_loss': -0.13635939359664917, 'vf_explained_var': 0.16754120588302612, 'entropy': 6.467654705047607, 'cur_lr': 4.999999873689376e-05, 'total_loss': 63.38639450073242, 'kl': 0.01064166147261858}, 'load_time_ms': 0.665, 'num_steps_sampled': 757200, 'update_time_ms': 2.508}",631,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",44.16277551651001,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,757200,757200,{},631,153,-41.49477237485326,2025-09-04_23-05-34,8.000474989383674,3651948,1757019934,-1.986536782886692,24754.239033460617,36760,7.784313725490196
+cda-server-2,False,24800.753933668137,"{'sample_time_ms': 44434.667, 'num_steps_trained': 758400, 'grad_time_ms': 369.802, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 135.25201416015625, 'policy_loss': -0.12403617799282074, 'vf_explained_var': 0.1265505999326706, 'entropy': 6.6458587646484375, 'cur_lr': 4.999999873689376e-05, 'total_loss': 135.15782165527344, 'kl': 0.008736205287277699}, 'load_time_ms': 0.665, 'num_steps_sampled': 758400, 'update_time_ms': 2.473}",632,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.51490020751953,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,758400,758400,{},632,147,-87.41027328389559,2025-09-04_23-06-20,8.00020151228481,3651948,1757019980,-2.720434909127688,24800.753933668137,36907,8.224489795918368
+cda-server-2,False,24844.62259864807,"{'sample_time_ms': 44395.801, 'num_steps_trained': 759600, 'grad_time_ms': 368.813, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 49.94691848754883, 'policy_loss': -0.13533106446266174, 'vf_explained_var': 0.12871311604976654, 'entropy': 6.056528568267822, 'cur_lr': 4.999999873689376e-05, 'total_loss': 49.860191345214844, 'kl': 0.01422378420829773}, 'load_time_ms': 0.671, 'num_steps_sampled': 759600, 'update_time_ms': 2.506}",633,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.86866497993469,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,759600,759600,{},633,171,-31.30959013821765,2025-09-04_23-07-04,8.002170197632399,3651948,1757020024,-0.8340321662332024,24844.62259864807,37078,7.046783625730995
+cda-server-2,False,24888.49089694023,"{'sample_time_ms': 44231.95, 'num_steps_trained': 760800, 'grad_time_ms': 372.16, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 57.65977096557617, 'policy_loss': -0.12249165028333664, 'vf_explained_var': 0.19498319923877716, 'entropy': 6.04954719543457, 'cur_lr': 4.999999873689376e-05, 'total_loss': 57.57786560058594, 'kl': 0.011876864358782768}, 'load_time_ms': 0.69, 'num_steps_sampled': 760800, 'update_time_ms': 2.512}",634,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.868298292160034,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,760800,760800,{},634,163,-35.48862864066596,2025-09-04_23-07-48,8.00050602784834,3651948,1757020068,-1.2299932753925056,24888.49089694023,37241,7.269938650306749
+cda-server-2,False,24933.387457370758,"{'sample_time_ms': 44235.127, 'num_steps_trained': 762000, 'grad_time_ms': 373.55, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 66.62899017333984, 'policy_loss': -0.12201017886400223, 'vf_explained_var': 0.11644628643989563, 'entropy': 6.242872714996338, 'cur_lr': 4.999999873689376e-05, 'total_loss': 66.56243896484375, 'kl': 0.01623382419347763}, 'load_time_ms': 0.694, 'num_steps_sampled': 762000, 'update_time_ms': 2.525}",635,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",44.89656043052673,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,762000,762000,{},635,168,-39.96698073579465,2025-09-04_23-08-33,8.002326108816517,3651948,1757020113,-0.9746926353012546,24933.387457370758,37409,7.208333333333333
+cda-server-2,False,24977.66113090515,"{'sample_time_ms': 44084.915, 'num_steps_trained': 763200, 'grad_time_ms': 372.696, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 56.20417022705078, 'policy_loss': -0.13505983352661133, 'vf_explained_var': 0.1695346236228943, 'entropy': 6.184922695159912, 'cur_lr': 4.999999873689376e-05, 'total_loss': 56.1068229675293, 'kl': 0.011036181822419167}, 'load_time_ms': 0.696, 'num_steps_sampled': 763200, 'update_time_ms': 2.523}",636,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",44.27367353439331,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,763200,763200,{},636,165,-34.25751985972118,2025-09-04_23-09-17,8.000235318453338,3651948,1757020157,-1.191852890732927,24977.66113090515,37574,7.2727272727272725
+cda-server-2,False,25021.974050998688,"{'sample_time_ms': 43944.906, 'num_steps_trained': 764400, 'grad_time_ms': 375.315, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 58.89943313598633, 'policy_loss': -0.12993454933166504, 'vf_explained_var': 0.1601342409849167, 'entropy': 6.27501916885376, 'cur_lr': 4.999999873689376e-05, 'total_loss': 58.80284881591797, 'kl': 0.009758922271430492}, 'load_time_ms': 0.724, 'num_steps_sampled': 764400, 'update_time_ms': 2.536}",637,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",44.31292009353638,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,764400,764400,{},637,161,-46.09734988824823,2025-09-04_23-10-02,8.000186043016656,3651948,1757020202,-1.416363866425865,25021.974050998688,37735,7.422360248447205
+cda-server-2,False,25068.162934303284,"{'sample_time_ms': 44173.718, 'num_steps_trained': 765600, 'grad_time_ms': 373.69, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 72.19373321533203, 'policy_loss': -0.1261482536792755, 'vf_explained_var': 0.15021146833896637, 'entropy': 5.87333869934082, 'cur_lr': 4.999999873689376e-05, 'total_loss': 72.1015625, 'kl': 0.009941894561052322}, 'load_time_ms': 0.726, 'num_steps_sampled': 765600, 'update_time_ms': 2.519}",638,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.18888330459595,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,765600,765600,{},638,169,-50.312506479116315,2025-09-04_23-10-48,8.000159502364632,3651948,1757020248,-0.95737282468245,25068.162934303284,37904,7.136094674556213
+cda-server-2,False,25111.163761615753,"{'sample_time_ms': 44114.069, 'num_steps_trained': 766800, 'grad_time_ms': 371.575, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 94.76095581054688, 'policy_loss': -0.1292141079902649, 'vf_explained_var': 0.13159912824630737, 'entropy': 6.698611736297607, 'cur_lr': 4.999999873689376e-05, 'total_loss': 94.67372131347656, 'kl': 0.012286549434065819}, 'load_time_ms': 0.712, 'num_steps_sampled': 766800, 'update_time_ms': 2.491}",639,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.00082731246948,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,766800,766800,{},639,131,-55.47845012881969,2025-09-04_23-11-31,8.000006753771736,3651948,1757020291,-3.9606470500245923,25111.163761615753,38035,8.908396946564885
+cda-server-2,False,25155.178235292435,"{'sample_time_ms': 44132.72, 'num_steps_trained': 768000, 'grad_time_ms': 369.019, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 83.28701782226562, 'policy_loss': -0.14332841336727142, 'vf_explained_var': 0.16322636604309082, 'entropy': 6.342925071716309, 'cur_lr': 4.999999873689376e-05, 'total_loss': 83.18607330322266, 'kl': 0.012402743101119995}, 'load_time_ms': 0.705, 'num_steps_sampled': 768000, 'update_time_ms': 2.496}",640,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",44.01447367668152,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,768000,768000,{},640,152,-49.45546957041463,2025-09-04_23-12-15,8.00152596236635,3651948,1757020335,-2.256861185451964,25155.178235292435,38187,7.947368421052632
+cda-server-2,False,25199.824682474136,"{'sample_time_ms': 44182.438, 'num_steps_trained': 769200, 'grad_time_ms': 367.626, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 85.19735717773438, 'policy_loss': -0.12319857627153397, 'vf_explained_var': 0.15076127648353577, 'entropy': 6.567890167236328, 'cur_lr': 4.999999873689376e-05, 'total_loss': 85.11085510253906, 'kl': 0.01073968131095171}, 'load_time_ms': 0.708, 'num_steps_sampled': 769200, 'update_time_ms': 2.512}",641,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",44.64644718170166,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,769200,769200,{},641,163,-59.73300312535099,2025-09-04_23-13-00,8.000303664208356,3651948,1757020380,-1.2574134934606342,25199.824682474136,38350,7.374233128834356
+cda-server-2,False,25244.16807460785,"{'sample_time_ms': 43967.364, 'num_steps_trained': 770400, 'grad_time_ms': 365.571, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 44.156490325927734, 'policy_loss': -0.12580448389053345, 'vf_explained_var': 0.22070711851119995, 'entropy': 5.61702299118042, 'cur_lr': 4.999999873689376e-05, 'total_loss': 44.07794952392578, 'kl': 0.013830197975039482}, 'load_time_ms': 0.712, 'num_steps_sampled': 770400, 'update_time_ms': 2.533}",642,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",44.34339213371277,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,770400,770400,{},642,180,-31.859189695407828,2025-09-04_23-13-44,8.00001502181127,3651948,1757020424,-0.2685069614762518,25244.16807460785,38530,6.655555555555556
+cda-server-2,False,25289.16328573227,"{'sample_time_ms': 44078.562, 'num_steps_trained': 771600, 'grad_time_ms': 366.989, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 52.407814025878906, 'policy_loss': -0.13617174327373505, 'vf_explained_var': 0.17225253582000732, 'entropy': 6.01146125793457, 'cur_lr': 4.999999873689376e-05, 'total_loss': 52.309391021728516, 'kl': 0.011046170257031918}, 'load_time_ms': 0.705, 'num_steps_sampled': 771600, 'update_time_ms': 2.489}",643,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",44.995211124420166,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,771600,771600,{},643,180,-45.39402818782199,2025-09-04_23-14-29,8.000541824214974,3651948,1757020469,-0.2954727960442065,25289.16328573227,38710,6.716666666666667
+cda-server-2,False,25334.301076173782,"{'sample_time_ms': 44208.303, 'num_steps_trained': 772800, 'grad_time_ms': 364.212, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 74.90103149414062, 'policy_loss': -0.1326437145471573, 'vf_explained_var': 0.14354650676250458, 'entropy': 5.894720077514648, 'cur_lr': 4.999999873689376e-05, 'total_loss': 74.80452728271484, 'kl': 0.01057159248739481}, 'load_time_ms': 0.69, 'num_steps_sampled': 772800, 'update_time_ms': 2.524}",644,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",45.13779044151306,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,772800,772800,{},644,174,-51.61607029080748,2025-09-04_23-15-14,8.000028939890152,3651948,1757020514,-0.6184026541082966,25334.301076173782,38884,6.9655172413793105
+cda-server-2,False,25379.033576965332,"{'sample_time_ms': 44191.664, 'num_steps_trained': 774000, 'grad_time_ms': 364.451, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 58.47435760498047, 'policy_loss': -0.1249840259552002, 'vf_explained_var': 0.18261970579624176, 'entropy': 6.09347677230835, 'cur_lr': 4.999999873689376e-05, 'total_loss': 58.39113998413086, 'kl': 0.012223862111568451}, 'load_time_ms': 0.688, 'num_steps_sampled': 774000, 'update_time_ms': 2.505}",645,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",44.73250079154968,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,774000,774000,{},645,173,-36.35054553935688,2025-09-04_23-15-59,8.000086752426387,3651948,1757020559,-0.5923463946100265,25379.033576965332,39057,6.895953757225434
+cda-server-2,False,25423.75276517868,"{'sample_time_ms': 44235.68, 'num_steps_trained': 775200, 'grad_time_ms': 364.998, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 78.30078125, 'policy_loss': -0.13311919569969177, 'vf_explained_var': 0.1764691174030304, 'entropy': 6.262962341308594, 'cur_lr': 4.999999873689376e-05, 'total_loss': 78.20417022705078, 'kl': 0.010683656670153141}, 'load_time_ms': 0.693, 'num_steps_sampled': 775200, 'update_time_ms': 2.533}",646,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",44.71918821334839,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,775200,775200,{},646,160,-45.67624841012206,2025-09-04_23-16-44,8.000071928434444,3651948,1757020604,-1.5840930736773107,25423.75276517868,39217,7.475
+cda-server-2,False,25468.24201607704,"{'sample_time_ms': 44254.541, 'num_steps_trained': 776400, 'grad_time_ms': 363.852, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 74.37799835205078, 'policy_loss': -0.13237418234348297, 'vf_explained_var': 0.1862848401069641, 'entropy': 6.353860855102539, 'cur_lr': 4.999999873689376e-05, 'total_loss': 74.28138732910156, 'kl': 0.010467816144227982}, 'load_time_ms': 0.665, 'num_steps_sampled': 776400, 'update_time_ms': 2.478}",647,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",44.489250898361206,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,776400,776400,{},647,160,-51.045424512164175,2025-09-04_23-17-28,8.000171233385412,3651948,1757020648,-1.5128781970789107,25468.24201607704,39377,7.50625
+cda-server-2,False,25512.02780008316,"{'sample_time_ms': 44012.555, 'num_steps_trained': 777600, 'grad_time_ms': 365.473, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 81.03668975830078, 'policy_loss': -0.12070560455322266, 'vf_explained_var': 0.1592569500207901, 'entropy': 6.48253059387207, 'cur_lr': 4.999999873689376e-05, 'total_loss': 80.95088958740234, 'kl': 0.010214617475867271}, 'load_time_ms': 0.668, 'num_steps_sampled': 777600, 'update_time_ms': 2.501}",648,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",43.785784006118774,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,777600,777600,{},648,158,-56.738729062171075,2025-09-04_23-18-12,8.000098480557286,3651948,1757020692,-1.6814214758854766,25512.02780008316,39535,7.620253164556962
+cda-server-2,False,25557.458827733994,"{'sample_time_ms': 44253.806, 'num_steps_trained': 778800, 'grad_time_ms': 367.205, 'default': {'cur_kl_coeff': 3.417187452316284, 'vf_loss': 71.04450988769531, 'policy_loss': -0.13149532675743103, 'vf_explained_var': 0.15487469732761383, 'entropy': 6.051618576049805, 'cur_lr': 4.999999873689376e-05, 'total_loss': 70.95345306396484, 'kl': 0.011835633777081966}, 'load_time_ms': 0.681, 'num_steps_sampled': 778800, 'update_time_ms': 2.541}",649,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_rewards': None, 'clip_param': 0.3, 'num_envs_per_worker': 1, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'sample_async': False, 'optimizer': {}, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_step': None, 'on_episode_start': None, 'on_episode_end': None}, 'straggler_mitigation': False, 'lr': 5e-05, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'log_level': 'INFO', 'postprocess_inputs': False, 'use_gae': True, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",45.43102765083313,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,778800,778800,{},649,180,-38.79409213084881,2025-09-04_23-18-57,8.000220374057966,3651948,1757020737,-0.13380163012770663,25557.458827733994,39715,6.6722222222222225
+cda-server-2,False,49.171587228775024,"{'sample_time_ms': 48035.472, 'num_steps_trained': 769200, 'grad_time_ms': 658.142, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 80.39810943603516, 'cur_kl_coeff': 3.417187452316284, 'policy_loss': -0.1255156397819519, 'vf_explained_var': 0.1464996486902237, 'entropy': 6.043203353881836, 'total_loss': 80.30876922607422, 'kl': 0.01058445405215025}, 'load_time_ms': 32.209, 'num_steps_sampled': 769200, 'update_time_ms': 425.86}",641,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",49.171587228775024,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,1200,769200,{},1,165,-51.01398471661906,2025-09-04_23-20-27,8.00008693886987,3651947,1757020827,-1.0061105095131504,25204.34982252121,38352,7.16969696969697
+cda-server-2,False,92.87554669380188,"{'sample_time_ms': 45672.924, 'num_steps_trained': 770400, 'grad_time_ms': 521.629, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 59.50916290283203, 'cur_kl_coeff': 0.20000000298023224, 'policy_loss': -0.16246187686920166, 'vf_explained_var': 0.14330193400382996, 'entropy': 6.238642692565918, 'total_loss': 59.35683822631836, 'kl': 0.05069645121693611}, 'load_time_ms': 16.522, 'num_steps_sampled': 770400, 'update_time_ms': 214.116}",642,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",43.703959465026855,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,2400,770400,{},2,162,-29.439730138293463,2025-09-04_23-21-11,8.000001114768118,3651947,1757020871,-1.4558712941185261,25248.053781986237,38514,7.450617283950617
+cda-server-2,False,136.97035884857178,"{'sample_time_ms': 45020.759, 'num_steps_trained': 771600, 'grad_time_ms': 470.839, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 76.09286499023438, 'cur_kl_coeff': 0.30000001192092896, 'policy_loss': -0.14440931379795074, 'vf_explained_var': 0.175571471452713, 'entropy': 5.886499881744385, 'total_loss': 75.96224212646484, 'kl': 0.04594428837299347}, 'load_time_ms': 11.24, 'num_steps_sampled': 771600, 'update_time_ms': 143.618}",643,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",44.0948121547699,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,3600,771600,{},3,176,-44.25181005787245,2025-09-04_23-21-55,8.000157673943901,3651947,1757020915,-0.40405477821694546,25292.148594141006,38690,6.840909090909091
+cda-server-2,False,181.23059058189392,"{'sample_time_ms': 44737.901, 'num_steps_trained': 772800, 'grad_time_ms': 443.813, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 102.93730163574219, 'cur_kl_coeff': 0.44999995827674866, 'policy_loss': -0.1430501639842987, 'vf_explained_var': 0.13208433985710144, 'entropy': 6.184451580047607, 'total_loss': 102.80974578857422, 'kl': 0.03442486748099327}, 'load_time_ms': 8.596, 'num_steps_sampled': 772800, 'update_time_ms': 108.397}",644,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",44.260231733322144,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,4800,772800,{},4,161,-44.12001068039525,2025-09-04_23-22-40,8.000031808846654,3651947,1757020960,-0.975076751191758,25336.40882587433,38851,7.192546583850931
+cda-server-2,False,226.11338710784912,"{'sample_time_ms': 44690.604, 'num_steps_trained': 774000, 'grad_time_ms': 429.686, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 95.57435607910156, 'cur_kl_coeff': 0.675000011920929, 'policy_loss': -0.12285302579402924, 'vf_explained_var': 0.1429286152124405, 'entropy': 5.850916385650635, 'total_loss': 95.47222900390625, 'kl': 0.0307097639888525}, 'load_time_ms': 7.026, 'num_steps_sampled': 774000, 'update_time_ms': 87.196}",645,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",44.8827965259552,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,6000,774000,{},5,182,-78.25757381970666,2025-09-04_23-23-24,8.000250772352839,3651947,1757021004,-0.33489644070277547,25381.291622400284,39033,6.747252747252747
+cda-server-2,False,270.35734510421753,"{'sample_time_ms': 44550.027, 'num_steps_trained': 775200, 'grad_time_ms': 422.678, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 48.1241569519043, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.1484123319387436, 'vf_explained_var': 0.19235184788703918, 'entropy': 6.080326557159424, 'total_loss': 48.00688934326172, 'kl': 0.030759645625948906}, 'load_time_ms': 5.975, 'num_steps_sampled': 775200, 'update_time_ms': 73.07}",646,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",44.24395799636841,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,7200,775200,{},6,178,-37.51212203780169,2025-09-04_23-24-09,8.000157856662643,3651947,1757021049,-0.2909470011072178,25425.535580396652,39211,6.758426966292135
+cda-server-2,False,316.5271723270416,"{'sample_time_ms': 44726.874, 'num_steps_trained': 776400, 'grad_time_ms': 415.546, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 86.42475128173828, 'cur_kl_coeff': 1.5187499523162842, 'policy_loss': -0.12338193506002426, 'vf_explained_var': 0.1892755925655365, 'entropy': 5.520815372467041, 'total_loss': 86.34359741210938, 'kl': 0.027807703241705894}, 'load_time_ms': 5.216, 'num_steps_sampled': 776400, 'update_time_ms': 63.018}",647,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",46.1698272228241,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,8400,776400,{},7,176,-55.95493109002247,2025-09-04_23-24-55,8.000083218792803,3651947,1757021095,-0.5961270299818546,25471.705407619476,39387,6.892045454545454
+cda-server-2,False,361.74718618392944,"{'sample_time_ms': 44739.606, 'num_steps_trained': 777600, 'grad_time_ms': 411.273, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 113.408203125, 'cur_kl_coeff': 2.278125047683716, 'policy_loss': -0.12122918665409088, 'vf_explained_var': 0.17214380204677582, 'entropy': 5.716729640960693, 'total_loss': 113.32117462158203, 'kl': 0.015010855160653591}, 'load_time_ms': 4.651, 'num_steps_sampled': 777600, 'update_time_ms': 55.57}",648,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",45.22001385688782,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,9600,777600,{},8,183,-78.73519817331818,2025-09-04_23-25-40,8.001581479005628,3651947,1757021140,0.020421928998772477,25516.925421476364,39570,6.530054644808743
+cda-server-2,False,405.73359274864197,"{'sample_time_ms': 44612.565, 'num_steps_trained': 778800, 'grad_time_ms': 407.992, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 91.44491577148438, 'cur_kl_coeff': 2.278125047683716, 'policy_loss': -0.12602534890174866, 'vf_explained_var': 0.18112537264823914, 'entropy': 6.0855255126953125, 'total_loss': 91.3521728515625, 'kl': 0.014609340578317642}, 'load_time_ms': 4.204, 'num_steps_sampled': 778800, 'update_time_ms': 49.681}",649,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",43.986406564712524,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,10800,778800,{},9,159,-59.37940086547401,2025-09-04_23-26-24,8.000040145160105,3651947,1757021184,-1.4770342364397093,25560.911828041077,39729,7.433962264150943
+cda-server-2,False,450.1522297859192,"{'sample_time_ms': 44553.201, 'num_steps_trained': 780000, 'grad_time_ms': 406.306, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 56.77754592895508, 'cur_kl_coeff': 2.278125047683716, 'policy_loss': -0.13296259939670563, 'vf_explained_var': 0.21793025732040405, 'entropy': 5.715707778930664, 'total_loss': 56.674400329589844, 'kl': 0.013089141808450222}, 'load_time_ms': 3.867, 'num_steps_sampled': 780000, 'update_time_ms': 44.964}",650,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",44.41863703727722,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,12000,780000,{},10,183,-44.98278044619995,2025-09-04_23-27-09,8.000034881855434,3651947,1757021229,-0.1042382943825305,25605.330465078354,39912,6.666666666666667
+cda-server-2,False,494.83312129974365,"{'sample_time_ms': 44178.447, 'num_steps_trained': 781200, 'grad_time_ms': 378.741, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 63.68096160888672, 'cur_kl_coeff': 2.278125047683716, 'policy_loss': -0.13753175735473633, 'vf_explained_var': 0.18605300784111023, 'entropy': 5.709993362426758, 'total_loss': 63.57604217529297, 'kl': 0.014315648004412651}, 'load_time_ms': 0.729, 'num_steps_sampled': 781200, 'update_time_ms': 2.688}",651,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",44.68089151382446,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,13200,781200,{},11,181,-44.5715967312163,2025-09-04_23-27-53,8.000142848258454,3651947,1757021273,0.07179095830126418,25650.01135659218,40093,6.530386740331492
+cda-server-2,False,540.5377907752991,"{'sample_time_ms': 44379.498, 'num_steps_trained': 782400, 'grad_time_ms': 377.719, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 56.64405822753906, 'cur_kl_coeff': 2.278125047683716, 'policy_loss': -0.12208235263824463, 'vf_explained_var': 0.2421044558286667, 'entropy': 5.548465251922607, 'total_loss': 56.55010223388672, 'kl': 0.012348240241408348}, 'load_time_ms': 0.722, 'num_steps_sampled': 782400, 'update_time_ms': 2.726}",652,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",45.70466947555542,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,14400,782400,{},12,192,-45.844932623928244,2025-09-04_23-28-39,8.000027808861791,3651947,1757021319,0.34657583016566823,25695.716026067734,40285,6.359375
+cda-server-2,False,585.3861379623413,"{'sample_time_ms': 44455.498, 'num_steps_trained': 783600, 'grad_time_ms': 377.128, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 43.1224365234375, 'cur_kl_coeff': 2.278125047683716, 'policy_loss': -0.11802230775356293, 'vf_explained_var': 0.212782621383667, 'entropy': 5.450656890869141, 'total_loss': 43.03515625, 'kl': 0.013498026877641678}, 'load_time_ms': 0.729, 'num_steps_sampled': 783600, 'update_time_ms': 2.736}",653,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",44.848347187042236,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,15600,783600,{},13,198,-42.28307275126343,2025-09-04_23-29-24,8.000742460745652,3651947,1757021364,0.8650437457537659,25740.564373254776,40483,6.015151515151516
+cda-server-2,False,629.6491882801056,"{'sample_time_ms': 44455.938, 'num_steps_trained': 784800, 'grad_time_ms': 376.972, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 35.976253509521484, 'cur_kl_coeff': 2.278125047683716, 'policy_loss': -0.12478828430175781, 'vf_explained_var': 0.20753701031208038, 'entropy': 5.734801292419434, 'total_loss': 35.886383056640625, 'kl': 0.01532667689025402}, 'load_time_ms': 0.731, 'num_steps_sampled': 784800, 'update_time_ms': 2.69}",654,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",44.26305031776428,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,16800,784800,{},14,179,-26.925111122125088,2025-09-04_23-30-08,8.000073103811902,3651947,1757021408,-0.25536267353591746,25784.82742357254,40662,6.692737430167598
+cda-server-2,False,673.8481390476227,"{'sample_time_ms': 44388.919, 'num_steps_trained': 786000, 'grad_time_ms': 375.613, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 80.87190246582031, 'cur_kl_coeff': 2.278125047683716, 'policy_loss': -0.1281072199344635, 'vf_explained_var': 0.17109166085720062, 'entropy': 5.943303108215332, 'total_loss': 80.77613830566406, 'kl': 0.014199022203683853}, 'load_time_ms': 0.727, 'num_steps_sampled': 786000, 'update_time_ms': 2.684}",655,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",44.19895076751709,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,18000,786000,{},15,177,-65.37146581760679,2025-09-04_23-30-52,8.000347745166987,3651947,1757021452,-0.40892512614434534,25829.026374340057,40839,6.830508474576271
+cda-server-2,False,718.9396080970764,"{'sample_time_ms': 44475.401, 'num_steps_trained': 787200, 'grad_time_ms': 373.923, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 49.944305419921875, 'cur_kl_coeff': 2.278125047683716, 'policy_loss': -0.11831830441951752, 'vf_explained_var': 0.23415027558803558, 'entropy': 5.348814487457275, 'total_loss': 49.86027145385742, 'kl': 0.015046972781419754}, 'load_time_ms': 0.723, 'num_steps_sampled': 787200, 'update_time_ms': 2.671}",656,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",45.091469049453735,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,19200,787200,{},16,195,-47.67059051017336,2025-09-04_23-31-38,8.00011914570923,3651947,1757021498,0.5777705556420285,25874.11784338951,41034,6.17948717948718
+cda-server-2,False,763.9840202331543,"{'sample_time_ms': 44362.228, 'num_steps_trained': 788400, 'grad_time_ms': 374.544, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 55.97596740722656, 'cur_kl_coeff': 2.278125047683716, 'policy_loss': -0.12983694672584534, 'vf_explained_var': 0.18978098034858704, 'entropy': 5.546915054321289, 'total_loss': 55.8853645324707, 'kl': 0.017223402857780457}, 'load_time_ms': 0.718, 'num_steps_sampled': 788400, 'update_time_ms': 2.682}",657,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",45.04441213607788,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,20400,788400,{},17,185,-45.1517098015243,2025-09-04_23-32-23,8.000063786623432,3651947,1757021543,0.2701023951341103,25919.16225552559,41219,6.383783783783784
+cda-server-2,False,809.0964961051941,"{'sample_time_ms': 44353.29, 'num_steps_trained': 789600, 'grad_time_ms': 372.868, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 69.65789031982422, 'cur_kl_coeff': 2.278125047683716, 'policy_loss': -0.10145619511604309, 'vf_explained_var': 0.17257185280323029, 'entropy': 5.02720308303833, 'total_loss': 69.60121154785156, 'kl': 0.01965337060391903}, 'load_time_ms': 0.71, 'num_steps_sampled': 789600, 'update_time_ms': 2.606}",658,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",45.112475872039795,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,21600,789600,{},18,201,-64.98972680038437,2025-09-04_23-33-08,8.000097602415536,3651947,1757021588,0.8802702053814631,25964.27473139763,41420,6.019900497512438
+cda-server-2,False,854.399516582489,"{'sample_time_ms': 44486.773, 'num_steps_trained': 790800, 'grad_time_ms': 371.047, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 54.54829025268555, 'cur_kl_coeff': 2.278125047683716, 'policy_loss': -0.14157640933990479, 'vf_explained_var': 0.2028069794178009, 'entropy': 5.475508213043213, 'total_loss': 54.43379592895508, 'kl': 0.011889781802892685}, 'load_time_ms': 0.712, 'num_steps_sampled': 790800, 'update_time_ms': 2.596}",659,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",45.30302047729492,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,22800,790800,{},19,196,-45.850798797415365,2025-09-04_23-33-53,8.001177423550006,3651947,1757021633,0.8742673896110602,26009.577751874924,41616,6.045918367346939
+cda-server-2,False,899.9549326896667,"{'sample_time_ms': 44602.517, 'num_steps_trained': 792000, 'grad_time_ms': 369.031, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 44.974159240722656, 'cur_kl_coeff': 2.278125047683716, 'policy_loss': -0.1250247359275818, 'vf_explained_var': 0.23093955218791962, 'entropy': 5.719305515289307, 'total_loss': 44.884029388427734, 'kl': 0.015319590456783772}, 'load_time_ms': 0.699, 'num_steps_sampled': 792000, 'update_time_ms': 2.59}",660,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",45.555416107177734,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,24000,792000,{},20,185,-35.04796864063427,2025-09-04_23-34-39,8.000493474008953,3651947,1757021679,0.037015927697965446,26055.1331679821,41801,6.589189189189189
+cda-server-2,False,945.4489457607269,"{'sample_time_ms': 44682.84, 'num_steps_trained': 793200, 'grad_time_ms': 370.143, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 36.74909591674805, 'cur_kl_coeff': 2.278125047683716, 'policy_loss': -0.12051972001791, 'vf_explained_var': 0.24064922332763672, 'entropy': 5.199189186096191, 'total_loss': 36.65876770019531, 'kl': 0.01325086411088705}, 'load_time_ms': 0.691, 'num_steps_sampled': 793200, 'update_time_ms': 2.522}",661,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",45.49401307106018,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,25200,793200,{},21,209,-39.681957257770044,2025-09-04_23-35-24,8.000275863011161,3651947,1757021724,1.387292508648218,26100.62718105316,42010,5.712918660287081
+cda-server-2,False,990.379124879837,"{'sample_time_ms': 44606.615, 'num_steps_trained': 794400, 'grad_time_ms': 368.948, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 42.93064880371094, 'cur_kl_coeff': 2.278125047683716, 'policy_loss': -0.11987128853797913, 'vf_explained_var': 0.2201704978942871, 'entropy': 5.277359962463379, 'total_loss': 42.84127426147461, 'kl': 0.013386152684688568}, 'load_time_ms': 0.678, 'num_steps_sampled': 794400, 'update_time_ms': 2.515}",662,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",44.93017911911011,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,26400,794400,{},22,197,-43.35083907526241,2025-09-04_23-36-09,8.000037223687016,3651947,1757021769,0.6875811895780369,26145.55736017227,42207,6.121827411167513
+cda-server-2,False,1035.5377969741821,"{'sample_time_ms': 44636.979, 'num_steps_trained': 795600, 'grad_time_ms': 369.604, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 61.62825393676758, 'cur_kl_coeff': 2.278125047683716, 'policy_loss': -0.12032897025346756, 'vf_explained_var': 0.2165907770395279, 'entropy': 5.845945358276367, 'total_loss': 61.54192352294922, 'kl': 0.014922077767550945}, 'load_time_ms': 0.675, 'num_steps_sampled': 795600, 'update_time_ms': 2.502}",663,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",45.15867209434509,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,27600,795600,{},23,183,-58.21461659548312,2025-09-04_23-36-54,8.00040239126019,3651947,1757021814,0.13866083116593356,26190.716032266617,42390,6.5136612021857925
+cda-server-2,False,1081.0638763904572,"{'sample_time_ms': 44763.182, 'num_steps_trained': 796800, 'grad_time_ms': 369.648, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 33.9642333984375, 'cur_kl_coeff': 2.278125047683716, 'policy_loss': -0.12466225028038025, 'vf_explained_var': 0.25159433484077454, 'entropy': 5.293583393096924, 'total_loss': 33.87174606323242, 'kl': 0.01412378903478384}, 'load_time_ms': 0.673, 'num_steps_sampled': 796800, 'update_time_ms': 2.536}",664,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",45.526079416275024,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,28800,796800,{},24,195,-40.69437990214462,2025-09-04_23-37-40,8.000296837780727,3651947,1757021860,0.6098290167509591,26236.242111682892,42585,6.2
+cda-server-2,False,1125.7389600276947,"{'sample_time_ms': 44808.083, 'num_steps_trained': 798000, 'grad_time_ms': 372.214, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 52.32118606567383, 'cur_kl_coeff': 2.278125047683716, 'policy_loss': -0.1294259876012802, 'vf_explained_var': 0.24719592928886414, 'entropy': 5.405237674713135, 'total_loss': 52.22242736816406, 'kl': 0.013461814261972904}, 'load_time_ms': 0.67, 'num_steps_sampled': 798000, 'update_time_ms': 2.552}",665,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",44.67508363723755,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,30000,798000,{},25,195,-38.498745869441926,2025-09-04_23-38-25,8.000070550566782,3651947,1757021905,0.6551816421254213,26280.91719532013,42780,6.143589743589744
+cda-server-2,False,1171.0526955127716,"{'sample_time_ms': 44830.711, 'num_steps_trained': 799200, 'grad_time_ms': 371.812, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 38.177764892578125, 'cur_kl_coeff': 2.278125047683716, 'policy_loss': -0.11706037074327469, 'vf_explained_var': 0.23632574081420898, 'entropy': 4.860657215118408, 'total_loss': 38.09125900268555, 'kl': 0.013413351960480213}, 'load_time_ms': 0.679, 'num_steps_sampled': 799200, 'update_time_ms': 2.566}",666,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",45.313735485076904,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,31200,799200,{},26,215,-35.12925402894308,2025-09-04_23-39-10,8.000830990614764,3651947,1757021950,1.6261670936304542,26326.230930805206,42995,5.530232558139535
+cda-server-2,False,1215.927493572235,"{'sample_time_ms': 44815.717, 'num_steps_trained': 800400, 'grad_time_ms': 369.93, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 33.41366195678711, 'cur_kl_coeff': 2.278125047683716, 'policy_loss': -0.1383817344903946, 'vf_explained_var': 0.22734716534614563, 'entropy': 5.135607719421387, 'total_loss': 33.31162643432617, 'kl': 0.015954695641994476}, 'load_time_ms': 0.681, 'num_steps_sampled': 800400, 'update_time_ms': 2.528}",667,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",44.8747980594635,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,32400,800400,{},27,201,-27.462859210559884,2025-09-04_23-39-55,8.000123605264683,3651947,1757021995,0.9348612168659016,26371.10572886467,43196,5.9950248756218905
+cda-server-2,False,1261.8195703029633,"{'sample_time_ms': 44890.892, 'num_steps_trained': 801600, 'grad_time_ms': 372.65, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 35.195194244384766, 'cur_kl_coeff': 2.278125047683716, 'policy_loss': -0.1105131208896637, 'vf_explained_var': 0.27388784289360046, 'entropy': 4.7763848304748535, 'total_loss': 35.11569595336914, 'kl': 0.013614475727081299}, 'load_time_ms': 0.702, 'num_steps_sampled': 801600, 'update_time_ms': 2.515}",668,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",45.89207673072815,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,33600,801600,{},28,224,-33.62043392646845,2025-09-04_23-40-41,8.000203944907547,3651947,1757022041,1.8492366591700886,26416.997805595398,43420,5.40625
+cda-server-2,False,1307.6148715019226,"{'sample_time_ms': 44939.0, 'num_steps_trained': 802800, 'grad_time_ms': 373.657, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 34.7144775390625, 'cur_kl_coeff': 2.278125047683716, 'policy_loss': -0.11451967805624008, 'vf_explained_var': 0.2770408093929291, 'entropy': 4.928555011749268, 'total_loss': 34.6353874206543, 'kl': 0.015551049262285233}, 'load_time_ms': 0.708, 'num_steps_sampled': 802800, 'update_time_ms': 2.544}",669,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",45.79530119895935,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,34800,802800,{},29,211,-30.87080522972294,2025-09-04_23-41-26,8.000065735985554,3651947,1757022086,1.3544957190944287,26462.793106794357,43631,5.682464454976303
+cda-server-2,False,1352.7094790935516,"{'sample_time_ms': 44891.559, 'num_steps_trained': 804000, 'grad_time_ms': 374.952, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 50.53966522216797, 'cur_kl_coeff': 2.278125047683716, 'policy_loss': -0.11584460735321045, 'vf_explained_var': 0.22542423009872437, 'entropy': 5.154943466186523, 'total_loss': 50.45745849609375, 'kl': 0.014764294028282166}, 'load_time_ms': 0.708, 'num_steps_sampled': 804000, 'update_time_ms': 2.575}",670,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",45.09460759162903,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,36000,804000,{},30,205,-39.661008442806754,2025-09-04_23-42-12,8.000056559355581,3651947,1757022132,1.1623952181782655,26507.887714385986,43836,5.824390243902439
+cda-server-2,False,1397.40673995018,"{'sample_time_ms': 44813.697, 'num_steps_trained': 805200, 'grad_time_ms': 373.182, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 54.982933044433594, 'cur_kl_coeff': 2.278125047683716, 'policy_loss': -0.11039525270462036, 'vf_explained_var': 0.25463879108428955, 'entropy': 4.86466121673584, 'total_loss': 54.90930938720703, 'kl': 0.016139768064022064}, 'load_time_ms': 0.709, 'num_steps_sampled': 805200, 'update_time_ms': 2.612}",671,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",44.69726085662842,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,37200,805200,{},31,203,-44.024063786882884,2025-09-04_23-42-56,8.00003487371069,3651947,1757022176,0.9380072839085655,26552.584975242615,44039,5.935960591133005
+cda-server-2,False,1443.2561042308807,"{'sample_time_ms': 44905.554, 'num_steps_trained': 806400, 'grad_time_ms': 373.207, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 25.35186004638672, 'cur_kl_coeff': 2.278125047683716, 'policy_loss': -0.12760642170906067, 'vf_explained_var': 0.2716485261917114, 'entropy': 4.429327487945557, 'total_loss': 25.25782012939453, 'kl': 0.014733772724866867}, 'load_time_ms': 0.713, 'num_steps_sampled': 806400, 'update_time_ms': 2.597}",672,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",45.849364280700684,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,38400,806400,{},32,222,-31.323198545069644,2025-09-04_23-43-42,8.000037960439514,3651947,1757022222,1.8188486432445576,26598.434339523315,44261,5.396396396396397
+cda-server-2,False,1489.0317306518555,"{'sample_time_ms': 44966.614, 'num_steps_trained': 807600, 'grad_time_ms': 373.81, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 25.199703216552734, 'cur_kl_coeff': 2.278125047683716, 'policy_loss': -0.11255758255720139, 'vf_explained_var': 0.30344411730766296, 'entropy': 4.501504898071289, 'total_loss': 25.113109588623047, 'kl': 0.011397127993404865}, 'load_time_ms': 0.717, 'num_steps_sampled': 807600, 'update_time_ms': 2.587}",673,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",45.77562642097473,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,39600,807600,{},33,226,-36.46241334684141,2025-09-04_23-44-28,8.0001096686023,3651947,1757022268,2.0325452432038214,26644.20996594429,44487,5.283185840707965
+cda-server-2,False,1533.8942770957947,"{'sample_time_ms': 44900.098, 'num_steps_trained': 808800, 'grad_time_ms': 373.993, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 32.96345138549805, 'cur_kl_coeff': 2.278125047683716, 'policy_loss': -0.11006785929203033, 'vf_explained_var': 0.3334667384624481, 'entropy': 5.090214729309082, 'total_loss': 32.88323974609375, 'kl': 0.013107547536492348}, 'load_time_ms': 0.716, 'num_steps_sampled': 808800, 'update_time_ms': 2.574}",674,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",44.86254644393921,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,40800,808800,{},34,202,-26.312977717310936,2025-09-04_23-45-13,8.000104340232854,3651947,1757022313,1.11009000835695,26689.07251238823,44689,5.871287128712871
+cda-server-2,False,1578.7702877521515,"{'sample_time_ms': 44919.257, 'num_steps_trained': 810000, 'grad_time_ms': 375.022, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 51.09336853027344, 'cur_kl_coeff': 2.278125047683716, 'policy_loss': -0.1132146418094635, 'vf_explained_var': 0.26288503408432007, 'entropy': 4.930473327636719, 'total_loss': 51.00904083251953, 'kl': 0.012678191065788269}, 'load_time_ms': 0.721, 'num_steps_sampled': 810000, 'update_time_ms': 2.552}",675,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",44.87601065635681,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,42000,810000,{},35,206,-51.0417323859044,2025-09-04_23-45-58,8.00026226483387,3651947,1757022358,1.0642628138436567,26733.948523044586,44895,5.922330097087379
+cda-server-2,False,1623.6381359100342,"{'sample_time_ms': 44872.54, 'num_steps_trained': 811200, 'grad_time_ms': 377.163, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 47.72408676147461, 'cur_kl_coeff': 2.278125047683716, 'policy_loss': -0.12084172666072845, 'vf_explained_var': 0.289846271276474, 'entropy': 4.756955623626709, 'total_loss': 47.63309097290039, 'kl': 0.013101667165756226}, 'load_time_ms': 0.714, 'num_steps_sampled': 811200, 'update_time_ms': 2.574}",676,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",44.86784815788269,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,43200,811200,{},36,205,-41.855391642439734,2025-09-04_23-46-43,8.00021452106471,3651947,1757022403,1.08842748446094,26778.81637120247,45100,5.8585365853658535
+cda-server-2,False,1669.1616306304932,"{'sample_time_ms': 44935.677, 'num_steps_trained': 812400, 'grad_time_ms': 378.799, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 46.421443939208984, 'cur_kl_coeff': 2.278125047683716, 'policy_loss': -0.1014418676495552, 'vf_explained_var': 0.26303741335868835, 'entropy': 4.09953498840332, 'total_loss': 46.349037170410156, 'kl': 0.012744201347231865}, 'load_time_ms': 0.719, 'num_steps_sampled': 812400, 'update_time_ms': 2.601}",677,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",45.523494720458984,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,44400,812400,{},37,221,-53.92958741396319,2025-09-04_23-47-28,8.000100413163354,3651947,1757022448,1.725258672383097,26824.339865922928,45321,5.4434389140271495
+cda-server-2,False,1714.7320952415466,"{'sample_time_ms': 44906.237, 'num_steps_trained': 813600, 'grad_time_ms': 376.05, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 25.21841812133789, 'cur_kl_coeff': 2.278125047683716, 'policy_loss': -0.11103672534227371, 'vf_explained_var': 0.3182068467140198, 'entropy': 4.209366321563721, 'total_loss': 25.141395568847656, 'kl': 0.01492943987250328}, 'load_time_ms': 0.705, 'num_steps_sampled': 813600, 'update_time_ms': 2.602}",678,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",45.57046461105347,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,45600,813600,{},38,236,-28.413637460438224,2025-09-04_23-48-14,8.000458522212895,3651947,1757022494,2.3552411870206993,26869.91033053398,45557,5.084745762711864
+cda-server-2,False,1762.8893086910248,"{'sample_time_ms': 45143.221, 'num_steps_trained': 814800, 'grad_time_ms': 375.308, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 26.07421112060547, 'cur_kl_coeff': 2.278125047683716, 'policy_loss': -0.11071144044399261, 'vf_explained_var': 0.3554925322532654, 'entropy': 3.9571533203125, 'total_loss': 25.987592697143555, 'kl': 0.010575653985142708}, 'load_time_ms': 0.699, 'num_steps_sampled': 814800, 'update_time_ms': 2.618}",679,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",48.15721344947815,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,46800,814800,{},39,244,-31.20026672780964,2025-09-04_23-49-02,10.0,3651947,1757022542,2.7279709710992877,26918.06754398346,45801,4.844262295081967
+cda-server-2,False,1808.5713317394257,"{'sample_time_ms': 45203.036, 'num_steps_trained': 816000, 'grad_time_ms': 374.193, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 39.99162292480469, 'cur_kl_coeff': 2.278125047683716, 'policy_loss': -0.11236973851919174, 'vf_explained_var': 0.2974632978439331, 'entropy': 4.766204357147217, 'total_loss': 39.909339904785156, 'kl': 0.01320748869329691}, 'load_time_ms': 0.699, 'num_steps_sampled': 816000, 'update_time_ms': 2.574}",680,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",45.68202304840088,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,48000,816000,{},40,224,-42.005266572671324,2025-09-04_23-49-48,8.000121456246195,3651947,1757022588,1.8229990918099992,26963.74956703186,46025,5.428571428571429
+cda-server-2,False,1854.3741126060486,"{'sample_time_ms': 45311.67, 'num_steps_trained': 817200, 'grad_time_ms': 375.919, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 20.1705322265625, 'cur_kl_coeff': 2.278125047683716, 'policy_loss': -0.10597968846559525, 'vf_explained_var': 0.37855952978134155, 'entropy': 4.278032302856445, 'total_loss': 20.095693588256836, 'kl': 0.013669062405824661}, 'load_time_ms': 0.698, 'num_steps_sampled': 817200, 'update_time_ms': 2.653}",681,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",45.802780866622925,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,49200,817200,{},41,230,-23.039651296811073,2025-09-04_23-50-34,8.000111549539966,3651947,1757022634,2.119041598304144,27009.552347898483,46255,5.2043478260869565
+cda-server-2,False,1900.3360126018524,"{'sample_time_ms': 45322.935, 'num_steps_trained': 818400, 'grad_time_ms': 375.914, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 33.26652526855469, 'cur_kl_coeff': 2.278125047683716, 'policy_loss': -0.0896776020526886, 'vf_explained_var': 0.2946290075778961, 'entropy': 3.887026786804199, 'total_loss': 33.2002067565918, 'kl': 0.010254154913127422}, 'load_time_ms': 0.695, 'num_steps_sampled': 818400, 'update_time_ms': 2.661}",682,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",45.96189999580383,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,50400,818400,{},42,247,-52.97668807427179,2025-09-04_23-51-20,8.000153198259685,3651947,1757022680,2.6885484381136426,27055.514247894287,46502,4.874493927125506
+cda-server-2,False,1946.71591258049,"{'sample_time_ms': 45384.9, 'num_steps_trained': 819600, 'grad_time_ms': 374.42, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 20.370283126831055, 'cur_kl_coeff': 2.278125047683716, 'policy_loss': -0.10092522203922272, 'vf_explained_var': 0.30661991238594055, 'entropy': 3.812130928039551, 'total_loss': 20.326799392700195, 'kl': 0.025214217603206635}, 'load_time_ms': 0.686, 'num_steps_sampled': 819600, 'update_time_ms': 2.657}",683,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",46.379899978637695,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,51600,819600,{},43,248,-25.692715770948595,2025-09-04_23-52-06,8.00004353166473,3651947,1757022726,2.7354757145783526,27101.894147872925,46750,4.826612903225806
+cda-server-2,False,1992.2334678173065,"{'sample_time_ms': 45450.43, 'num_steps_trained': 820800, 'grad_time_ms': 374.387, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 38.21272277832031, 'cur_kl_coeff': 3.417187452316284, 'policy_loss': -0.09470480680465698, 'vf_explained_var': 0.2592650055885315, 'entropy': 4.263044357299805, 'total_loss': 38.15930938720703, 'kl': 0.01208446267992258}, 'load_time_ms': 0.685, 'num_steps_sampled': 820800, 'update_time_ms': 2.658}",684,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",45.517555236816406,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,52800,820800,{},44,230,-45.83795802461822,2025-09-04_23-52-51,8.000986299434812,3651947,1757022771,2.1549766711363594,27147.41170310974,46980,5.2
+cda-server-2,False,2038.8074345588684,"{'sample_time_ms': 45623.539, 'num_steps_trained': 822000, 'grad_time_ms': 371.069, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 19.502605438232422, 'cur_kl_coeff': 3.417187452316284, 'policy_loss': -0.09870563447475433, 'vf_explained_var': 0.3662871718406677, 'entropy': 3.827545166015625, 'total_loss': 19.437639236450195, 'kl': 0.00987254548817873}, 'load_time_ms': 0.679, 'num_steps_sampled': 822000, 'update_time_ms': 2.675}",685,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",46.57396674156189,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,54000,822000,{},45,246,-27.886526359770727,2025-09-04_23-53-38,8.000052507444792,3651947,1757022818,2.6572154273389628,27193.985669851303,47226,4.8861788617886175
+cda-server-2,False,2084.5611431598663,"{'sample_time_ms': 45714.511, 'num_steps_trained': 823200, 'grad_time_ms': 368.644, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 26.020296096801758, 'cur_kl_coeff': 3.417187452316284, 'policy_loss': -0.0952225998044014, 'vf_explained_var': 0.36607956886291504, 'entropy': 4.083105087280273, 'total_loss': 25.966880798339844, 'kl': 0.012233107350766659}, 'load_time_ms': 0.675, 'num_steps_sampled': 823200, 'update_time_ms': 2.651}",686,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",45.753708600997925,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,55200,823200,{},46,233,-31.675725465750638,2025-09-04_23-54-24,8.000062316218074,3651947,1757022864,2.2040891490296857,27239.7393784523,47459,5.1373390557939915
+cda-server-2,False,2130.6540355682373,"{'sample_time_ms': 45771.937, 'num_steps_trained': 824400, 'grad_time_ms': 368.183, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 27.39217758178711, 'cur_kl_coeff': 3.417187452316284, 'policy_loss': -0.09471426904201508, 'vf_explained_var': 0.32949918508529663, 'entropy': 4.074531555175781, 'total_loss': 27.33019256591797, 'kl': 0.009578406810760498}, 'load_time_ms': 0.675, 'num_steps_sampled': 824400, 'update_time_ms': 2.624}",687,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",46.09289240837097,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,56400,824400,{},47,240,-28.73202633247127,2025-09-04_23-55-10,8.000046742088735,3651947,1757022910,2.5360759930993373,27285.832270860672,47699,4.975
+cda-server-2,False,2177.10223197937,"{'sample_time_ms': 45858.23, 'num_steps_trained': 825600, 'grad_time_ms': 369.739, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 24.265281677246094, 'cur_kl_coeff': 3.417187452316284, 'policy_loss': -0.08551517128944397, 'vf_explained_var': 0.3369382619857788, 'entropy': 3.921107769012451, 'total_loss': 24.211639404296875, 'kl': 0.009327537380158901}, 'load_time_ms': 0.676, 'num_steps_sampled': 825600, 'update_time_ms': 2.627}",688,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",46.44819641113281,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,57600,825600,{},48,234,-28.18351258581726,2025-09-04_23-55-56,8.000037329418017,3651947,1757022956,2.2101262666385373,27332.280467271805,47933,5.162393162393163
+cda-server-2,False,2222.396988391876,"{'sample_time_ms': 45572.549, 'num_steps_trained': 826800, 'grad_time_ms': 369.215, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 18.31333351135254, 'cur_kl_coeff': 3.417187452316284, 'policy_loss': -0.11753928661346436, 'vf_explained_var': 0.3489692211151123, 'entropy': 4.211871147155762, 'total_loss': 18.22791290283203, 'kl': 0.009398790076375008}, 'load_time_ms': 0.68, 'num_steps_sampled': 826800, 'update_time_ms': 2.567}",689,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",45.2947564125061,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,58800,826800,{},49,236,-21.46640907944748,2025-09-04_23-56-42,8.000062387216154,3651947,1757023002,2.3390708113989294,27377.57522368431,48169,5.101694915254237
+cda-server-2,False,2268.6880073547363,"{'sample_time_ms': 45632.634, 'num_steps_trained': 828000, 'grad_time_ms': 370.06, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 22.923683166503906, 'cur_kl_coeff': 3.417187452316284, 'policy_loss': -0.10533839464187622, 'vf_explained_var': 0.3062151074409485, 'entropy': 4.0076003074646, 'total_loss': 22.845335006713867, 'kl': 0.007898930460214615}, 'load_time_ms': 0.678, 'num_steps_sampled': 828000, 'update_time_ms': 2.59}",690,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",46.29101896286011,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,60000,828000,{},50,236,-35.438403936551865,2025-09-04_23-57-28,8.000014463707025,3651947,1757023048,2.2960326855448656,27423.86624264717,48405,5.080508474576271
+cda-server-2,False,2314.1386063098907,"{'sample_time_ms': 45598.0, 'num_steps_trained': 829200, 'grad_time_ms': 369.685, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 39.06608581542969, 'cur_kl_coeff': 3.417187452316284, 'policy_loss': -0.10068418085575104, 'vf_explained_var': 0.30122214555740356, 'entropy': 4.316643238067627, 'total_loss': 38.994544982910156, 'kl': 0.00852908380329609}, 'load_time_ms': 0.678, 'num_steps_sampled': 829200, 'update_time_ms': 2.463}",691,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",45.45059895515442,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,61200,829200,{},51,222,-44.2886555456217,2025-09-04_23-58-14,8.0000136264972,3651947,1757023094,1.8110764046072114,27469.316841602325,48627,5.400900900900901
+cda-server-2,False,2360.267109632492,"{'sample_time_ms': 45615.099, 'num_steps_trained': 830400, 'grad_time_ms': 369.287, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 28.4263858795166, 'cur_kl_coeff': 3.417187452316284, 'policy_loss': -0.0924384593963623, 'vf_explained_var': 0.311334490776062, 'entropy': 4.158641815185547, 'total_loss': 28.411972045898438, 'kl': 0.022832728922367096}, 'load_time_ms': 0.681, 'num_steps_sampled': 830400, 'update_time_ms': 2.45}",692,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",46.12850332260132,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,62400,830400,{},52,231,-28.544174064684533,2025-09-04_23-59-00,8.000075723233019,3651947,1757023140,2.1830580373795043,27515.445344924927,48858,5.207792207792208
+cda-server-2,False,2406.292500257492,"{'sample_time_ms': 45579.713, 'num_steps_trained': 831600, 'grad_time_ms': 369.222, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 18.492910385131836, 'cur_kl_coeff': 5.125781059265137, 'policy_loss': -0.0924345999956131, 'vf_explained_var': 0.3897292912006378, 'entropy': 3.4774138927459717, 'total_loss': 18.42829132080078, 'kl': 0.005427065305411816}, 'load_time_ms': 0.682, 'num_steps_sampled': 831600, 'update_time_ms': 2.447}",693,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",46.025390625,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,63600,831600,{},53,255,-33.99333575272079,2025-09-04_23-59-46,8.000483205321288,3651947,1757023186,2.9133893310222883,27561.470735549927,49113,4.705882352941177
+cda-server-2,False,2453.794445037842,"{'sample_time_ms': 45776.969, 'num_steps_trained': 832800, 'grad_time_ms': 370.372, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 19.945158004760742, 'cur_kl_coeff': 5.125781059265137, 'policy_loss': -0.08766285330057144, 'vf_explained_var': 0.3745752274990082, 'entropy': 3.586599111557007, 'total_loss': 19.889028549194336, 'kl': 0.006151752080768347}, 'load_time_ms': 0.69, 'num_steps_sampled': 832800, 'update_time_ms': 2.423}",694,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",47.50194478034973,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,64800,832800,{},54,250,-35.834870898374945,2025-09-05_00-00-33,8.000053038291991,3651947,1757023233,2.8140092911234733,27608.972680330276,49363,4.796
+cda-server-2,False,2500.2112040519714,"{'sample_time_ms': 45760.551, 'num_steps_trained': 834000, 'grad_time_ms': 371.106, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 21.671066284179688, 'cur_kl_coeff': 5.125781059265137, 'policy_loss': -0.08804267644882202, 'vf_explained_var': 0.36468225717544556, 'entropy': 3.9830448627471924, 'total_loss': 21.612377166748047, 'kl': 0.005727276671677828}, 'load_time_ms': 0.691, 'num_steps_sampled': 834000, 'update_time_ms': 2.409}",695,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",46.41675901412964,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,66000,834000,{},55,242,-28.959408747237276,2025-09-05_00-01-20,8.000110532415139,3651947,1757023280,2.6203789680064515,27655.389439344406,49605,4.917355371900826
+cda-server-2,False,2548.130709171295,"{'sample_time_ms': 45975.987, 'num_steps_trained': 835200, 'grad_time_ms': 372.303, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 23.02083396911621, 'cur_kl_coeff': 5.125781059265137, 'policy_loss': -0.08154700696468353, 'vf_explained_var': 0.3930407762527466, 'entropy': 3.54258394241333, 'total_loss': 22.966352462768555, 'kl': 0.005280703771859407}, 'load_time_ms': 0.693, 'num_steps_sampled': 835200, 'update_time_ms': 2.399}",696,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",47.91950511932373,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,67200,835200,{},56,250,-36.17692362531083,2025-09-05_00-02-08,8.000071122194017,3651947,1757023328,2.790335409871374,27703.30894446373,49855,4.804
+cda-server-2,False,2594.7809772491455,"{'sample_time_ms': 46031.904, 'num_steps_trained': 836400, 'grad_time_ms': 372.116, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 24.553421020507812, 'cur_kl_coeff': 5.125781059265137, 'policy_loss': -0.09851668775081635, 'vf_explained_var': 0.3637484610080719, 'entropy': 3.9232969284057617, 'total_loss': 24.485055923461914, 'kl': 0.005882933735847473}, 'load_time_ms': 0.686, 'num_steps_sampled': 836400, 'update_time_ms': 2.394}",697,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",46.65026807785034,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,68400,836400,{},57,244,-29.634267765182685,2025-09-05_00-02-54,8.000422985103917,3651947,1757023374,2.6535923777146553,27749.95921254158,50099,4.905737704918033
+cda-server-2,False,2641.803017616272,"{'sample_time_ms': 46089.789, 'num_steps_trained': 837600, 'grad_time_ms': 371.533, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 20.05363655090332, 'cur_kl_coeff': 5.125781059265137, 'policy_loss': -0.08109728991985321, 'vf_explained_var': 0.3776855766773224, 'entropy': 3.494898796081543, 'total_loss': 19.998289108276367, 'kl': 0.005023529753088951}, 'load_time_ms': 0.68, 'num_steps_sampled': 837600, 'update_time_ms': 2.406}",698,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",47.022040367126465,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,69600,837600,{},58,255,-31.342953328465626,2025-09-05_00-03-41,8.00002653177848,3651947,1757023421,2.8137301623159416,27796.981252908707,50354,4.772549019607843
+cda-server-2,False,2689.7521953582764,"{'sample_time_ms': 46353.701, 'num_steps_trained': 838800, 'grad_time_ms': 373.008, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 23.673885345458984, 'cur_kl_coeff': 5.125781059265137, 'policy_loss': -0.08906450867652893, 'vf_explained_var': 0.37318751215934753, 'entropy': 3.4568328857421875, 'total_loss': 23.611942291259766, 'kl': 0.00529090128839016}, 'load_time_ms': 0.682, 'num_steps_sampled': 838800, 'update_time_ms': 2.465}",699,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",47.949177742004395,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,70800,838800,{},59,246,-34.01843889200904,2025-09-05_00-04-29,8.00003337242132,3651947,1757023469,2.676038276358482,27844.93043065071,50600,4.853658536585366
+cda-server-2,False,2735.9882276058197,"{'sample_time_ms': 46350.661, 'num_steps_trained': 840000, 'grad_time_ms': 370.582, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 18.364973068237305, 'cur_kl_coeff': 5.125781059265137, 'policy_loss': -0.0899556428194046, 'vf_explained_var': 0.33644577860832214, 'entropy': 3.8288726806640625, 'total_loss': 18.32174301147461, 'kl': 0.009115674532949924}, 'load_time_ms': 0.677, 'num_steps_sampled': 840000, 'update_time_ms': 2.46}",700,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",46.236032247543335,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,72000,840000,{},60,240,-26.072475345441987,2025-09-05_00-05-16,8.000126565405562,3651947,1757023516,2.4382448170064226,27891.166462898254,50840,5.008333333333334
+cda-server-2,False,2782.124693632126,"{'sample_time_ms': 46418.885, 'num_steps_trained': 841200, 'grad_time_ms': 370.797, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 18.015798568725586, 'cur_kl_coeff': 5.125781059265137, 'policy_loss': -0.0949694961309433, 'vf_explained_var': 0.38648679852485657, 'entropy': 3.605668783187866, 'total_loss': 17.95746612548828, 'kl': 0.007147365249693394}, 'load_time_ms': 0.669, 'num_steps_sampled': 841200, 'update_time_ms': 2.613}",701,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",46.13646602630615,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,73200,841200,{},61,247,-32.53581779156435,2025-09-05_00-06-02,8.000731287254961,3651947,1757023562,2.7484119177474615,27937.30292892456,51087,4.838056680161944
+cda-server-2,False,2828.820511817932,"{'sample_time_ms': 46474.504, 'num_steps_trained': 842400, 'grad_time_ms': 371.866, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 22.48615837097168, 'cur_kl_coeff': 5.125781059265137, 'policy_loss': -0.0782257467508316, 'vf_explained_var': 0.38535141944885254, 'entropy': 3.672297954559326, 'total_loss': 22.43346405029297, 'kl': 0.004980933386832476}, 'load_time_ms': 0.667, 'num_steps_sampled': 842400, 'update_time_ms': 2.645}",702,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",46.695818185806274,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,74400,842400,{},62,249,-30.512234717932195,2025-09-05_00-06-48,8.000339213512484,3651947,1757023608,2.7417556246248953,27983.998747110367,51336,4.815261044176707
+cda-server-2,False,2875.672497034073,"{'sample_time_ms': 46553.505, 'num_steps_trained': 843600, 'grad_time_ms': 375.505, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 10.897947311401367, 'cur_kl_coeff': 2.5628905296325684, 'policy_loss': -0.10184511542320251, 'vf_explained_var': 0.44461530447006226, 'entropy': 3.5678024291992188, 'total_loss': 10.819283485412598, 'kl': 0.009044832549989223}, 'load_time_ms': 0.67, 'num_steps_sampled': 843600, 'update_time_ms': 2.632}",703,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",46.85198521614075,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,75600,843600,{},63,253,-15.637942489142603,2025-09-05_00-07-35,8.000093791804058,3651947,1757023655,2.8552245182600067,28030.850732326508,51589,4.762845849802371
+cda-server-2,False,2922.5279846191406,"{'sample_time_ms': 46490.105, 'num_steps_trained': 844800, 'grad_time_ms': 374.243, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 21.747812271118164, 'cur_kl_coeff': 2.5628905296325684, 'policy_loss': -0.08856526017189026, 'vf_explained_var': 0.3574591875076294, 'entropy': 3.3065967559814453, 'total_loss': 21.676549911499023, 'kl': 0.00675173569470644}, 'load_time_ms': 0.663, 'num_steps_sampled': 844800, 'update_time_ms': 2.65}",704,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",46.85548758506775,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,76800,844800,{},64,256,-31.094574812658422,2025-09-05_00-08-22,8.000045120574933,3651947,1757023702,2.968602281348618,28077.706219911575,51845,4.6875
+cda-server-2,False,2968.942771911621,"{'sample_time_ms': 46487.444, 'num_steps_trained': 846000, 'grad_time_ms': 376.6, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 20.095355987548828, 'cur_kl_coeff': 2.5628905296325684, 'policy_loss': -0.09232830256223679, 'vf_explained_var': 0.41118118166923523, 'entropy': 3.3624517917633057, 'total_loss': 20.024757385253906, 'kl': 0.008477847091853619}, 'load_time_ms': 0.668, 'num_steps_sampled': 846000, 'update_time_ms': 2.681}",705,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",46.41478729248047,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,78000,846000,{},65,253,-30.661359582329993,2025-09-05_00-09-09,8.00091015858126,3651947,1757023749,2.875977254342749,28124.121007204056,52098,4.7272727272727275
+cda-server-2,False,3015.3129580020905,"{'sample_time_ms': 46332.031, 'num_steps_trained': 847200, 'grad_time_ms': 376.964, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 10.395467758178711, 'cur_kl_coeff': 2.5628905296325684, 'policy_loss': -0.08874928951263428, 'vf_explained_var': 0.48560789227485657, 'entropy': 2.913358211517334, 'total_loss': 10.328511238098145, 'kl': 0.008503603748977184}, 'load_time_ms': 0.663, 'num_steps_sampled': 847200, 'update_time_ms': 2.687}",706,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",46.37018609046936,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,79200,847200,{},66,269,-25.203466682672065,2025-09-05_00-09-55,8.000071265521461,3651947,1757023795,3.267096453091576,28170.491193294525,52367,4.4684014869888475
+cda-server-2,False,3062.5225052833557,"{'sample_time_ms': 46387.344, 'num_steps_trained': 848400, 'grad_time_ms': 377.588, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 10.933013916015625, 'cur_kl_coeff': 2.5628905296325684, 'policy_loss': -0.07779070734977722, 'vf_explained_var': 0.43059083819389343, 'entropy': 2.923530340194702, 'total_loss': 10.891273498535156, 'kl': 0.014066466130316257}, 'load_time_ms': 0.666, 'num_steps_sampled': 848400, 'update_time_ms': 2.712}",707,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",47.20954728126526,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,80400,848400,{},67,272,-14.993927343121719,2025-09-05_00-10-42,8.00002406751684,3651947,1757023842,3.4807626959049185,28217.70074057579,52639,4.360294117647059
+cda-server-2,False,3109.1843745708466,"{'sample_time_ms': 46350.702, 'num_steps_trained': 849600, 'grad_time_ms': 378.268, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 14.548519134521484, 'cur_kl_coeff': 2.5628905296325684, 'policy_loss': -0.08129000663757324, 'vf_explained_var': 0.40845823287963867, 'entropy': 3.379908561706543, 'total_loss': 14.496715545654297, 'kl': 0.011505262926220894}, 'load_time_ms': 0.674, 'num_steps_sampled': 849600, 'update_time_ms': 2.661}",708,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",46.661869287490845,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,81600,849600,{},68,263,-32.35425534450611,2025-09-05_00-11-29,8.000000506413096,3651947,1757023889,3.045566337120995,28264.36260986328,52902,4.634980988593156
+cda-server-2,False,3156.0025663375854,"{'sample_time_ms': 46236.685, 'num_steps_trained': 850800, 'grad_time_ms': 379.107, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 19.041440963745117, 'cur_kl_coeff': 2.5628905296325684, 'policy_loss': -0.07008924335241318, 'vf_explained_var': 0.4180201590061188, 'entropy': 3.1364493370056152, 'total_loss': 18.986976623535156, 'kl': 0.006095509976148605}, 'load_time_ms': 0.67, 'num_steps_sampled': 850800, 'update_time_ms': 2.651}",709,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",46.81819176673889,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,82800,850800,{},69,264,-38.008709475992845,2025-09-05_00-12-16,8.000051236475214,3651947,1757023936,3.1849787357643424,28311.18080163002,53166,4.526515151515151
+cda-server-2,False,3202.405710220337,"{'sample_time_ms': 46252.736, 'num_steps_trained': 852000, 'grad_time_ms': 379.714, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 13.956635475158691, 'cur_kl_coeff': 2.5628905296325684, 'policy_loss': -0.08226403594017029, 'vf_explained_var': 0.4574727416038513, 'entropy': 3.1847519874572754, 'total_loss': 13.90140151977539, 'kl': 0.010546525940299034}, 'load_time_ms': 0.67, 'num_steps_sampled': 852000, 'update_time_ms': 2.643}",710,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",46.403143882751465,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,84000,852000,{},70,262,-26.30637679999954,2025-09-05_00-13-02,8.000196248389745,3651947,1757023982,3.091944312839223,28357.58394551277,53428,4.587786259541985
+cda-server-2,False,3248.526032924652,"{'sample_time_ms': 46251.395, 'num_steps_trained': 853200, 'grad_time_ms': 379.431, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 8.423760414123535, 'cur_kl_coeff': 2.5628905296325684, 'policy_loss': -0.09352359175682068, 'vf_explained_var': 0.5000796318054199, 'entropy': 2.9549989700317383, 'total_loss': 8.35595989227295, 'kl': 0.010036887601017952}, 'load_time_ms': 0.667, 'num_steps_sampled': 853200, 'update_time_ms': 2.579}",711,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",46.120322704315186,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,85200,853200,{},71,268,-21.370431055449654,2025-09-05_00-13-48,8.000026311516713,3651947,1757024028,3.2506917069680656,28403.704268217087,53696,4.4888059701492535
+cda-server-2,False,3295.822465658188,"{'sample_time_ms': 46310.371, 'num_steps_trained': 854400, 'grad_time_ms': 380.46, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 9.886219024658203, 'cur_kl_coeff': 2.5628905296325684, 'policy_loss': -0.08912031352519989, 'vf_explained_var': 0.4919545352458954, 'entropy': 2.9815707206726074, 'total_loss': 9.818304061889648, 'kl': 0.008273966610431671}, 'load_time_ms': 0.672, 'num_steps_sampled': 854400, 'update_time_ms': 2.573}",712,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",47.29643273353577,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,86400,854400,{},72,271,-20.25757557351079,2025-09-05_00-14-36,8.000048798868667,3651947,1757024076,3.364667535127587,28451.000700950623,53967,4.424354243542435
+cda-server-2,False,3342.28800201416,"{'sample_time_ms': 46272.646, 'num_steps_trained': 855600, 'grad_time_ms': 379.513, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 11.11208438873291, 'cur_kl_coeff': 2.5628905296325684, 'policy_loss': -0.09259523451328278, 'vf_explained_var': 0.45920121669769287, 'entropy': 3.3032469749450684, 'total_loss': 11.049617767333984, 'kl': 0.011755743995308876}, 'load_time_ms': 0.664, 'num_steps_sampled': 855600, 'update_time_ms': 2.612}",713,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",46.46553635597229,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,87600,855600,{},73,260,-18.00896345769336,2025-09-05_00-15-22,8.000019869201463,3651947,1757024122,3.0988931512054565,28497.466237306595,54227,4.588461538461538
+cda-server-2,False,3389.0381722450256,"{'sample_time_ms': 46259.423, 'num_steps_trained': 856800, 'grad_time_ms': 382.153, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 15.24755859375, 'cur_kl_coeff': 2.5628905296325684, 'policy_loss': -0.08448615670204163, 'vf_explained_var': 0.4383828938007355, 'entropy': 3.083890199661255, 'total_loss': 15.185324668884277, 'kl': 0.008682480081915855}, 'load_time_ms': 0.661, 'num_steps_sampled': 856800, 'update_time_ms': 2.62}",714,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",46.75017023086548,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,88800,856800,{},74,262,-26.652847832941326,2025-09-05_00-16-09,8.000045001535248,3651947,1757024169,3.148076696258404,28544.21640753746,54489,4.561068702290076
+cda-server-2,False,3436.1214196681976,"{'sample_time_ms': 46327.623, 'num_steps_trained': 858000, 'grad_time_ms': 380.765, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 8.626786231994629, 'cur_kl_coeff': 2.5628905296325684, 'policy_loss': -0.08935275673866272, 'vf_explained_var': 0.4825197458267212, 'entropy': 2.945988416671753, 'total_loss': 8.564618110656738, 'kl': 0.010607601143419743}, 'load_time_ms': 0.648, 'num_steps_sampled': 858000, 'update_time_ms': 2.653}",715,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",47.083247423172,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,90000,858000,{},75,273,-20.310087306013106,2025-09-05_00-16-56,8.000071305921006,3651947,1757024216,3.364069705333792,28591.299654960632,54762,4.428571428571429
+cda-server-2,False,3482.877682209015,"{'sample_time_ms': 46367.026, 'num_steps_trained': 859200, 'grad_time_ms': 379.963, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 5.832857131958008, 'cur_kl_coeff': 2.5628905296325684, 'policy_loss': -0.08042430877685547, 'vf_explained_var': 0.5615320205688477, 'entropy': 3.0603370666503906, 'total_loss': 5.779318809509277, 'kl': 0.01049027033150196}, 'load_time_ms': 0.661, 'num_steps_sampled': 859200, 'update_time_ms': 2.723}",716,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",46.75626254081726,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,91200,859200,{},76,269,-17.04546011809048,2025-09-05_00-17-43,8.000278447989203,3651947,1757024263,3.3099764630801607,28638.05591750145,55031,4.4646840148698885
+cda-server-2,False,3529.5195393562317,"{'sample_time_ms': 46310.512, 'num_steps_trained': 860400, 'grad_time_ms': 379.64, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 15.390300750732422, 'cur_kl_coeff': 2.5628905296325684, 'policy_loss': -0.09058582782745361, 'vf_explained_var': 0.4222276210784912, 'entropy': 3.284696340560913, 'total_loss': 15.33092212677002, 'kl': 0.012176419608294964}, 'load_time_ms': 0.661, 'num_steps_sampled': 860400, 'update_time_ms': 2.732}",717,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",46.6418571472168,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,92400,860400,{},77,256,-29.825870573145558,2025-09-05_00-18-29,8.000019361627396,3651947,1757024309,2.9447175589626724,28684.697774648666,55287,4.6796875
+cda-server-2,False,3576.730393886566,"{'sample_time_ms': 46364.957, 'num_steps_trained': 861600, 'grad_time_ms': 380.013, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 11.509320259094238, 'cur_kl_coeff': 2.5628905296325684, 'policy_loss': -0.08916350454092026, 'vf_explained_var': 0.4413018822669983, 'entropy': 2.8452816009521484, 'total_loss': 11.440098762512207, 'kl': 0.007780800107866526}, 'load_time_ms': 0.659, 'num_steps_sampled': 861600, 'update_time_ms': 2.79}",718,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",47.21085453033447,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,93600,861600,{},78,272,-35.58424454992572,2025-09-05_00-19-17,8.000145093826061,3651947,1757024357,3.3670553265429093,28731.908629179,55559,4.415441176470588
+cda-server-2,False,3623.8617174625397,"{'sample_time_ms': 46396.216, 'num_steps_trained': 862800, 'grad_time_ms': 380.105, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 10.809052467346191, 'cur_kl_coeff': 2.5628905296325684, 'policy_loss': -0.06924965977668762, 'vf_explained_var': 0.4762766659259796, 'entropy': 2.7126989364624023, 'total_loss': 10.769659996032715, 'kl': 0.011649557389318943}, 'load_time_ms': 0.66, 'num_steps_sampled': 862800, 'update_time_ms': 2.76}",719,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",47.13132357597351,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,94800,862800,{},79,273,-22.089529522759932,2025-09-05_00-20-04,8.000017898641568,3651947,1757024404,3.42979719643761,28779.039952754974,55832,4.373626373626373
+cda-server-2,False,3671.192057609558,"{'sample_time_ms': 46488.954, 'num_steps_trained': 864000, 'grad_time_ms': 380.06, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 3.241161346435547, 'cur_kl_coeff': 2.5628905296325684, 'policy_loss': -0.0673958882689476, 'vf_explained_var': 0.6360262036323547, 'entropy': 2.518385887145996, 'total_loss': 3.212399482727051, 'kl': 0.015074353665113449}, 'load_time_ms': 0.669, 'num_steps_sampled': 864000, 'update_time_ms': 2.791}",720,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",47.33034014701843,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,96000,864000,{},80,278,-15.266491252988406,2025-09-05_00-20-51,8.000536107095432,3651947,1757024451,3.5300221895315302,28826.370292901993,56110,4.330935251798561
+cda-server-2,False,3717.9396743774414,"{'sample_time_ms': 46551.81, 'num_steps_trained': 865200, 'grad_time_ms': 380.034, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 11.02731990814209, 'cur_kl_coeff': 2.5628905296325684, 'policy_loss': -0.07797694206237793, 'vf_explained_var': 0.48665347695350647, 'entropy': 2.7421581745147705, 'total_loss': 10.972485542297363, 'kl': 0.009030384942889214}, 'load_time_ms': 0.67, 'num_steps_sampled': 865200, 'update_time_ms': 2.727}",721,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",46.7476167678833,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,97200,865200,{},81,277,-33.26573092002807,2025-09-05_00-21-38,8.001062685075288,3651947,1757024498,3.47922257909384,28873.117909669876,56387,4.346570397111913
+cda-server-2,False,3765.3334896564484,"{'sample_time_ms': 46562.748, 'num_steps_trained': 866400, 'grad_time_ms': 378.782, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 9.901885986328125, 'cur_kl_coeff': 2.5628905296325684, 'policy_loss': -0.08068516850471497, 'vf_explained_var': 0.5179368853569031, 'entropy': 2.73091983795166, 'total_loss': 9.847756385803223, 'kl': 0.01036145631223917}, 'load_time_ms': 0.669, 'num_steps_sampled': 866400, 'update_time_ms': 2.696}",722,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",47.39381527900696,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,98400,866400,{},82,270,-19.923465788829557,2025-09-05_00-22-25,8.000151182972646,3651947,1757024545,3.3268052655764717,28920.511724948883,56657,4.440740740740741
+cda-server-2,False,3811.302745103836,"{'sample_time_ms': 46512.378, 'num_steps_trained': 867600, 'grad_time_ms': 379.476, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 20.326995849609375, 'cur_kl_coeff': 2.5628905296325684, 'policy_loss': -0.08308325707912445, 'vf_explained_var': 0.348272442817688, 'entropy': 3.1172304153442383, 'total_loss': 20.29005241394043, 'kl': 0.01800324209034443}, 'load_time_ms': 0.67, 'num_steps_sampled': 867600, 'update_time_ms': 2.734}",723,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",45.969255447387695,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,99600,867600,{},83,256,-27.409793084418126,2025-09-05_00-23-11,8.000034678409563,3651947,1757024591,2.943829164403142,28966.48098039627,56913,4.6796875
+cda-server-2,False,3857.9213016033173,"{'sample_time_ms': 46498.858, 'num_steps_trained': 868800, 'grad_time_ms': 379.808, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 16.8582763671875, 'cur_kl_coeff': 2.5628905296325684, 'policy_loss': -0.06791261583566666, 'vf_explained_var': 0.3720639944076538, 'entropy': 2.4986538887023926, 'total_loss': 16.815534591674805, 'kl': 0.009820827282965183}, 'load_time_ms': 0.694, 'num_steps_sampled': 868800, 'update_time_ms': 2.75}",724,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",46.6185564994812,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,100800,868800,{},84,271,-29.84793747667375,2025-09-05_00-23-58,8.000172424884868,3651947,1757024638,3.321710883118062,29013.099536895752,57184,4.439114391143911
+cda-server-2,False,3905.05015873909,"{'sample_time_ms': 46505.631, 'num_steps_trained': 870000, 'grad_time_ms': 377.685, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 11.090794563293457, 'cur_kl_coeff': 2.5628905296325684, 'policy_loss': -0.07219991087913513, 'vf_explained_var': 0.5242128372192383, 'entropy': 2.560317039489746, 'total_loss': 11.037960052490234, 'kl': 0.007556334137916565}, 'load_time_ms': 0.691, 'num_steps_sampled': 870000, 'update_time_ms': 2.708}",725,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",47.128857135772705,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,102000,870000,{},85,281,-36.24064463232036,2025-09-05_00-24-45,8.000035228203407,3651947,1757024685,3.624096387251869,29060.228394031525,57465,4.252669039145908
+cda-server-2,False,3951.67906999588,"{'sample_time_ms': 46493.497, 'num_steps_trained': 871200, 'grad_time_ms': 377.16, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 18.921977996826172, 'cur_kl_coeff': 2.5628905296325684, 'policy_loss': -0.08155166357755661, 'vf_explained_var': 0.40494421124458313, 'entropy': 2.993685483932495, 'total_loss': 18.866363525390625, 'kl': 0.010120230726897717}, 'load_time_ms': 0.687, 'num_steps_sampled': 871200, 'update_time_ms': 2.654}",726,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",46.62891125679016,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,103200,871200,{},86,260,-30.3448061750018,2025-09-05_00-25-32,8.000038512943608,3651947,1757024732,3.026740964189752,29106.857305288315,57725,4.630769230769231
+cda-server-2,False,3998.3986616134644,"{'sample_time_ms': 46501.811, 'num_steps_trained': 872400, 'grad_time_ms': 376.626, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 6.25697660446167, 'cur_kl_coeff': 2.5628905296325684, 'policy_loss': -0.092364102602005, 'vf_explained_var': 0.5412502884864807, 'entropy': 2.757176399230957, 'total_loss': 6.1928324699401855, 'kl': 0.011011307127773762}, 'load_time_ms': 0.694, 'num_steps_sampled': 872400, 'update_time_ms': 2.614}",727,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",46.71959161758423,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,104400,872400,{},87,274,-17.31742520543737,2025-09-05_00-26-19,8.000000506305511,3651947,1757024779,3.427162098359765,29153.5768969059,57999,4.37956204379562
+cda-server-2,False,4045.3620221614838,"{'sample_time_ms': 46476.534, 'num_steps_trained': 873600, 'grad_time_ms': 377.121, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 7.723629474639893, 'cur_kl_coeff': 2.5628905296325684, 'policy_loss': -0.06784352660179138, 'vf_explained_var': 0.6001351475715637, 'entropy': 2.568483829498291, 'total_loss': 7.674904823303223, 'kl': 0.0074600898660719395}, 'load_time_ms': 0.697, 'num_steps_sampled': 873600, 'update_time_ms': 2.617}",728,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",46.96336054801941,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,105600,873600,{},88,280,-21.897753561519192,2025-09-05_00-27-06,8.000020597503449,3651947,1757024826,3.568644497477941,29200.54025745392,58279,4.2821428571428575
+cda-server-2,False,4092.2305996418,"{'sample_time_ms': 46449.759, 'num_steps_trained': 874800, 'grad_time_ms': 377.658, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 5.032718658447266, 'cur_kl_coeff': 2.5628905296325684, 'policy_loss': -0.06987176835536957, 'vf_explained_var': 0.6171102523803711, 'entropy': 2.566596031188965, 'total_loss': 4.980493545532227, 'kl': 0.006885468494147062}, 'load_time_ms': 0.691, 'num_steps_sampled': 874800, 'update_time_ms': 2.628}",729,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",46.86857748031616,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,106800,874800,{},89,283,-17.62443240684487,2025-09-05_00-27-52,8.000031365785473,3651947,1757024872,3.686039953968932,29247.408834934235,58562,4.229681978798586
+cda-server-2,False,4139.1349403858185,"{'sample_time_ms': 46406.891, 'num_steps_trained': 876000, 'grad_time_ms': 377.91, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 14.186030387878418, 'cur_kl_coeff': 2.5628905296325684, 'policy_loss': -0.07504018396139145, 'vf_explained_var': 0.3799859285354614, 'entropy': 2.8820865154266357, 'total_loss': 14.131270408630371, 'kl': 0.007913511246442795}, 'load_time_ms': 0.684, 'num_steps_sampled': 876000, 'update_time_ms': 2.619}",730,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",46.904340744018555,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,108000,876000,{},90,271,-34.642946426208134,2025-09-05_00-28-39,8.000049883580655,3651947,1757024919,3.320845003022244,29294.313175678253,58833,4.450184501845018
+cda-server-2,False,4185.574823856354,"{'sample_time_ms': 46377.522, 'num_steps_trained': 877200, 'grad_time_ms': 376.417, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 6.646142959594727, 'cur_kl_coeff': 2.5628905296325684, 'policy_loss': -0.06841918081045151, 'vf_explained_var': 0.5770161151885986, 'entropy': 2.8252432346343994, 'total_loss': 6.597856521606445, 'kl': 0.007855374366044998}, 'load_time_ms': 0.692, 'num_steps_sampled': 877200, 'update_time_ms': 2.727}",731,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",46.43988347053528,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,109200,877200,{},91,269,-15.727646521120409,2025-09-05_00-29-26,8.000000530303748,3651947,1757024966,3.3184268441065745,29340.75305914879,59102,4.4572490706319705
+cda-server-2,False,4232.155312299728,"{'sample_time_ms': 46295.642, 'num_steps_trained': 878400, 'grad_time_ms': 377.055, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 5.050663948059082, 'cur_kl_coeff': 2.5628905296325684, 'policy_loss': -0.07120595872402191, 'vf_explained_var': 0.5886048078536987, 'entropy': 2.470914125442505, 'total_loss': 4.999657154083252, 'kl': 0.007881563156843185}, 'load_time_ms': 0.698, 'num_steps_sampled': 878400, 'update_time_ms': 2.739}",732,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",46.580488443374634,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,110400,878400,{},92,283,-20.166795150347834,2025-09-05_00-30-12,8.000006800312939,3651947,1757025012,3.646886440726949,29387.333547592163,59385,4.243816254416961
+cda-server-2,False,4279.249795198441,"{'sample_time_ms': 46408.886, 'num_steps_trained': 879600, 'grad_time_ms': 376.343, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 5.111292362213135, 'cur_kl_coeff': 2.5628905296325684, 'policy_loss': -0.06189640238881111, 'vf_explained_var': 0.5947400331497192, 'entropy': 2.4335429668426514, 'total_loss': 5.073536396026611, 'kl': 0.009418894536793232}, 'load_time_ms': 0.703, 'num_steps_sampled': 879600, 'update_time_ms': 2.679}",733,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",47.09448289871216,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,111600,879600,{},93,285,-19.670616629682968,2025-09-05_00-31-00,8.000100171132532,3651947,1757025060,3.707545304214019,29434.428030490875,59670,4.203508771929824
+cda-server-2,False,4326.509482622147,"{'sample_time_ms': 46473.852, 'num_steps_trained': 880800, 'grad_time_ms': 375.486, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 6.908471584320068, 'cur_kl_coeff': 2.5628905296325684, 'policy_loss': -0.07086292654275894, 'vf_explained_var': 0.5395858287811279, 'entropy': 2.5147078037261963, 'total_loss': 6.8816447257995605, 'kl': 0.01718215085566044}, 'load_time_ms': 0.693, 'num_steps_sampled': 880800, 'update_time_ms': 2.675}",734,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'vf_loss_coeff': 1.0, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'env_config': {'generalize': False, 'run_valid': False}, 'custom_resources_per_worker': {}, 'output_max_file_size': 67108864, 'sample_async': False, 'vf_clip_param': 10.0, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_sample_end': None, 'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_episode_start': None}, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'num_cpus_for_driver': 1, 'output': None, 'lr_schedule': None, 'env': 'Zhenxin_S_FC', 'num_cpus_per_worker': 1, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'conv_filters': None, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'max_seq_len': 20, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'train_batch_size': 1200, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0}",47.259687423706055,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,112800,880800,{},94,278,-21.357376095154702,2025-09-05_00-31-47,8.000043550016438,3651947,1757025107,3.5422173085621296,29481.68771791458,59948,4.302158273381295
+cda-server-2,False,51.37072706222534,"{'sample_time_ms': 50255.23, 'num_steps_sampled': 877200, 'grad_time_ms': 644.119, 'load_time_ms': 30.837, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 2.757443904876709, 'cur_kl_coeff': 2.5628905296325684, 'policy_loss': -0.06545218080282211, 'vf_explained_var': 0.7160266041755676, 'entropy': 2.517226219177246, 'total_loss': 2.709300994873047, 'kl': 0.006753734778612852}, 'num_steps_trained': 877200, 'update_time_ms': 419.61}",731,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",51.37072706222534,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,1200,877200,{},1,286,-15.63979681503266,2025-09-05_00-33-04,8.000428065231587,3651946,1757025184,3.766429130103205,29345.68390274048,59119,4.174825174825175
+cda-server-2,False,98.52884483337402,"{'sample_time_ms': 48508.027, 'num_steps_sampled': 878400, 'grad_time_ms': 515.882, 'load_time_ms': 15.738, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 2.82240891456604, 'cur_kl_coeff': 0.20000000298023224, 'policy_loss': -0.07866965234279633, 'vf_explained_var': 0.704016923904419, 'entropy': 2.650355339050293, 'total_loss': 2.7508230209350586, 'kl': 0.035418108105659485}, 'num_steps_trained': 878400, 'update_time_ms': 211.147}",732,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.15811777114868,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,2400,878400,{},2,281,-10.21646425354498,2025-09-05_00-33-51,8.000007095791503,3651946,1757025231,3.6234410643776283,29392.842020511627,59400,4.263345195729538
+cda-server-2,False,145.44398641586304,"{'sample_time_ms': 47850.038, 'num_steps_sampled': 879600, 'grad_time_ms': 467.731, 'load_time_ms': 10.748, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 5.903356075286865, 'cur_kl_coeff': 0.30000001192092896, 'policy_loss': -0.08864539116621017, 'vf_explained_var': 0.5746915340423584, 'entropy': 2.428527355194092, 'total_loss': 5.824267864227295, 'kl': 0.03185740113258362}, 'num_steps_trained': 879600, 'update_time_ms': 141.694}",733,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.915141582489014,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,3600,879600,{},3,277,-13.90984164579,2025-09-05_00-34-38,8.00001979376061,3651946,1757025278,3.4883242262017045,29439.757162094116,59677,4.324909747292419
+cda-server-2,False,192.16951775550842,"{'sample_time_ms': 47472.781, 'num_steps_sampled': 880800, 'grad_time_ms': 444.559, 'load_time_ms': 8.221, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 5.837953090667725, 'cur_kl_coeff': 0.44999995827674866, 'policy_loss': -0.08470302820205688, 'vf_explained_var': 0.604572057723999, 'entropy': 2.6007485389709473, 'total_loss': 5.766128063201904, 'kl': 0.028617437928915024}, 'num_steps_trained': 880800, 'update_time_ms': 106.839}",734,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.725531339645386,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,4800,880800,{},4,276,-19.68662802056178,2025-09-05_00-35-25,4.151264166506329,3651946,1757025325,3.425130972179667,29486.48269343376,59953,4.3731884057971016
+cda-server-2,False,239.78782200813293,"{'sample_time_ms': 47424.901, 'num_steps_sampled': 882000, 'grad_time_ms': 430.681, 'load_time_ms': 6.733, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 1.7892976999282837, 'cur_kl_coeff': 0.675000011920929, 'policy_loss': -0.07782699167728424, 'vf_explained_var': 0.7722499370574951, 'entropy': 2.1428143978118896, 'total_loss': 1.7271603345870972, 'kl': 0.02324373461306095}, 'num_steps_trained': 882000, 'update_time_ms': 86.049}",735,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.61830425262451,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,6000,882000,{},5,291,-8.219440340264054,2025-09-05_00-36-12,8.000131683144222,3651946,1757025372,3.8288531592261497,29534.100997686386,60244,4.120274914089347
+cda-server-2,False,287.04843401908875,"{'sample_time_ms': 47335.482, 'num_steps_sampled': 883200, 'grad_time_ms': 419.475, 'load_time_ms': 5.72, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 1.7316595315933228, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.06017966568470001, 'vf_explained_var': 0.7954539060592651, 'entropy': 2.148533821105957, 'total_loss': 1.6863609552383423, 'kl': 0.014697511680424213}, 'num_steps_trained': 883200, 'update_time_ms': 72.121}",736,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.26061201095581,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,7200,883200,{},6,291,-10.483582385177808,2025-09-05_00-37-00,8.000025212410838,3651946,1757025420,3.8384142471468294,29581.361609697342,60535,4.11340206185567
+cda-server-2,False,334.61439299583435,"{'sample_time_ms': 47314.895, 'num_steps_sampled': 884400, 'grad_time_ms': 411.76, 'load_time_ms': 5.004, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 1.9764469861984253, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.06290214508771896, 'vf_explained_var': 0.7574695944786072, 'entropy': 2.184715509414673, 'total_loss': 1.9268689155578613, 'kl': 0.013159679248929024}, 'num_steps_trained': 884400, 'update_time_ms': 62.175}",737,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.565958976745605,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,8400,884400,{},7,291,-8.023271051496412,2025-09-05_00-37-47,7.023995085919162,3651946,1757025467,3.8347218686210556,29628.927568674088,60826,4.120274914089347
+cda-server-2,False,381.60341811180115,"{'sample_time_ms': 47227.894, 'num_steps_sampled': 885600, 'grad_time_ms': 405.384, 'load_time_ms': 4.455, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 2.834179162979126, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.06365206092596054, 'vf_explained_var': 0.7102543711662292, 'entropy': 2.224116802215576, 'total_loss': 2.7815675735473633, 'kl': 0.010904477909207344}, 'num_steps_trained': 885600, 'update_time_ms': 54.712}",738,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.9890251159668,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,9600,885600,{},8,285,-15.972884287985934,2025-09-05_00-38-34,8.0000295037339,3651946,1757025514,3.6705258690296185,29675.916593790054,61111,4.224561403508772
+cda-server-2,False,428.8181712627411,"{'sample_time_ms': 47182.026, 'num_steps_sampled': 886800, 'grad_time_ms': 403.739, 'load_time_ms': 4.045, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 6.863865852355957, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.072520412504673, 'vf_explained_var': 0.5383694171905518, 'entropy': 2.2339959144592285, 'total_loss': 6.808557033538818, 'kl': 0.016999250277876854}, 'num_steps_trained': 886800, 'update_time_ms': 48.891}",739,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.21475315093994,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,10800,886800,{},9,281,-26.667691536904634,2025-09-05_00-39-21,8.000028136390261,3651946,1757025561,3.6138708879956787,29723.131346940994,61392,4.259786476868327
+cda-server-2,False,476.0368766784668,"{'sample_time_ms': 47145.202, 'num_steps_sampled': 888000, 'grad_time_ms': 402.95, 'load_time_ms': 3.715, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 30.431575775146484, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.07045107334852219, 'vf_explained_var': 0.41874897480010986, 'entropy': 2.376946449279785, 'total_loss': 30.371877670288086, 'kl': 0.01061793603003025}, 'num_steps_trained': 888000, 'update_time_ms': 44.245}",740,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.21870541572571,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,12000,888000,{},10,279,-59.05907563110662,2025-09-05_00-40-09,8.000030418811848,3651946,1757025609,3.5417181212822686,29770.35005235672,61671,4.304659498207886
+cda-server-2,False,523.2426319122314,"{'sample_time_ms': 46801.328, 'num_steps_sampled': 889200, 'grad_time_ms': 376.549, 'load_time_ms': 0.699, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 5.343428134918213, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.07987173646688461, 'vf_explained_var': 0.5977872014045715, 'entropy': 2.2722535133361816, 'total_loss': 5.2818779945373535, 'kl': 0.018095334991812706}, 'num_steps_trained': 889200, 'update_time_ms': 2.553}",741,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.20575523376465,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,13200,889200,{},11,284,-18.097665306019596,2025-09-05_00-40-56,8.000023350018065,3651946,1757025656,3.6538322136585846,29817.555807590485,61955,4.22887323943662
+cda-server-2,False,570.2855298519135,"{'sample_time_ms': 46791.193, 'num_steps_sampled': 890400, 'grad_time_ms': 375.237, 'load_time_ms': 0.703, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 4.663482666015625, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.0864449143409729, 'vf_explained_var': 0.6121327877044678, 'entropy': 2.26259708404541, 'total_loss': 4.596853256225586, 'kl': 0.01957099884748459}, 'num_steps_trained': 890400, 'update_time_ms': 2.537}",742,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.04289793968201,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,14400,890400,{},12,284,-14.581270665352228,2025-09-05_00-41-43,8.000023922826255,3651946,1757025703,3.63538998271352,29864.598705530167,62239,4.235915492957746
+cda-server-2,False,616.8720459938049,"{'sample_time_ms': 46758.824, 'num_steps_sampled': 891600, 'grad_time_ms': 374.797, 'load_time_ms': 0.693, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 3.075674057006836, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.07681259512901306, 'vf_explained_var': 0.6700502038002014, 'entropy': 2.2327585220336914, 'total_loss': 3.0228796005249023, 'kl': 0.023721568286418915}, 'num_steps_trained': 891600, 'update_time_ms': 2.507}",743,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.58651614189148,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,15600,891600,{},13,288,-11.860608985074286,2025-09-05_00-42-30,8.000049286677438,3651946,1757025750,3.7590176523967744,29911.185221672058,62527,4.15625
+cda-server-2,False,663.5976617336273,"{'sample_time_ms': 46757.835, 'num_steps_sampled': 892800, 'grad_time_ms': 375.773, 'load_time_ms': 0.7, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 3.446500062942505, 'cur_kl_coeff': 1.5187499523162842, 'policy_loss': -0.065461665391922, 'vf_explained_var': 0.6744142174720764, 'entropy': 2.196315288543701, 'total_loss': 3.398273229598999, 'kl': 0.011347964406013489}, 'num_steps_trained': 892800, 'update_time_ms': 2.508}",744,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.72561573982239,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,16800,892800,{},14,285,-14.499308406275883,2025-09-05_00-43-16,8.000000550827266,3651946,1757025796,3.6625870164337764,29957.91083741188,62812,4.217543859649123
+cda-server-2,False,710.6882572174072,"{'sample_time_ms': 46706.204, 'num_steps_sampled': 894000, 'grad_time_ms': 374.632, 'load_time_ms': 0.692, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 2.7077999114990234, 'cur_kl_coeff': 1.5187499523162842, 'policy_loss': -0.06709850579500198, 'vf_explained_var': 0.7486275434494019, 'entropy': 2.110781669616699, 'total_loss': 2.655268669128418, 'kl': 0.009591775946319103}, 'num_steps_trained': 894000, 'update_time_ms': 2.506}",745,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.09059548377991,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,18000,894000,{},15,290,-17.46548281771164,2025-09-05_00-44-03,8.000287384166736,3651946,1757025843,3.8059023495548634,30005.00143289566,63102,4.13448275862069
+cda-server-2,False,757.5581822395325,"{'sample_time_ms': 46666.184, 'num_steps_sampled': 895200, 'grad_time_ms': 375.562, 'load_time_ms': 0.696, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 1.3441556692123413, 'cur_kl_coeff': 1.5187499523162842, 'policy_loss': -0.07237453758716583, 'vf_explained_var': 0.8276771903038025, 'entropy': 2.147783041000366, 'total_loss': 1.2861649990081787, 'kl': 0.009470919147133827}, 'num_steps_trained': 895200, 'update_time_ms': 2.505}",746,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.869925022125244,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,19200,895200,{},16,293,-10.233729541154727,2025-09-05_00-44-50,8.000077229562166,3651946,1757025890,3.8663022002656935,30051.871357917786,63395,4.092150170648464
+cda-server-2,False,805.0831966400146,"{'sample_time_ms': 46662.676, 'num_steps_sampled': 896400, 'grad_time_ms': 374.992, 'load_time_ms': 0.685, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 3.182039976119995, 'cur_kl_coeff': 1.5187499523162842, 'policy_loss': -0.0653173103928566, 'vf_explained_var': 0.7064453363418579, 'entropy': 2.1646270751953125, 'total_loss': 3.1286532878875732, 'kl': 0.007855619303882122}, 'num_steps_trained': 896400, 'update_time_ms': 2.484}",747,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.52501440048218,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,20400,896400,{},17,286,-10.768000822716967,2025-09-05_00-45-38,8.00002646899012,3651946,1757025938,3.7181498219123434,30099.396372318268,63681,4.188811188811189
+cda-server-2,False,851.8751463890076,"{'sample_time_ms': 46642.685, 'num_steps_sampled': 897600, 'grad_time_ms': 375.297, 'load_time_ms': 0.695, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 5.418216705322266, 'cur_kl_coeff': 1.5187499523162842, 'policy_loss': -0.06901151686906815, 'vf_explained_var': 0.6305850148200989, 'entropy': 2.42480731010437, 'total_loss': 5.365065574645996, 'kl': 0.010443081147968769}, 'num_steps_trained': 897600, 'update_time_ms': 2.498}",748,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.79194974899292,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,21600,897600,{},18,280,-21.04422672642532,2025-09-05_00-46-25,8.0000012869185,3651946,1757025985,3.5812138922683285,30146.18832206726,63961,4.292857142857143
+cda-server-2,False,899.5503449440002,"{'sample_time_ms': 46689.241, 'num_steps_sampled': 898800, 'grad_time_ms': 374.778, 'load_time_ms': 0.691, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.966882586479187, 'cur_kl_coeff': 1.5187499523162842, 'policy_loss': -0.06444099545478821, 'vf_explained_var': 0.8585163950920105, 'entropy': 1.9598612785339355, 'total_loss': 0.9176361560821533, 'kl': 0.010004710406064987}, 'num_steps_trained': 898800, 'update_time_ms': 2.503}",749,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.675198554992676,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,22800,898800,{},19,294,-7.156435126544029,2025-09-05_00-47-12,5.006220064224614,3651946,1757026032,3.8742650526256477,30193.863520622253,64255,4.085034013605442
+cda-server-2,False,946.906375169754,"{'sample_time_ms': 46703.824, 'num_steps_sampled': 900000, 'grad_time_ms': 373.825, 'load_time_ms': 0.694, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 1.9599549770355225, 'cur_kl_coeff': 1.5187499523162842, 'policy_loss': -0.05036471039056778, 'vf_explained_var': 0.769665002822876, 'entropy': 1.9341177940368652, 'total_loss': 1.9194469451904297, 'kl': 0.006490045692771673}, 'num_steps_trained': 900000, 'update_time_ms': 2.528}",750,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.356030225753784,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,24000,900000,{},20,291,-12.417183202285436,2025-09-05_00-48-00,8.000020497310967,3651946,1757026080,3.827909401140039,30241.219550848007,64546,4.109965635738831
+cda-server-2,False,993.5681178569794,"{'sample_time_ms': 46649.872, 'num_steps_sampled': 901200, 'grad_time_ms': 373.321, 'load_time_ms': 0.689, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 1.1924660205841064, 'cur_kl_coeff': 1.5187499523162842, 'policy_loss': -0.055155880749225616, 'vf_explained_var': 0.8331034183502197, 'entropy': 1.963564157485962, 'total_loss': 1.1522517204284668, 'kl': 0.009838176891207695}, 'num_steps_trained': 901200, 'update_time_ms': 2.526}",751,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.66174268722534,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,25200,901200,{},21,294,-8.014700964460296,2025-09-05_00-48-46,8.000081302487182,3651946,1757026126,3.856448872159633,30287.881293535233,64840,4.091836734693878
+cda-server-2,False,1040.7652094364166,"{'sample_time_ms': 46663.7, 'num_steps_sampled': 902400, 'grad_time_ms': 374.839, 'load_time_ms': 0.682, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 3.3636016845703125, 'cur_kl_coeff': 1.5187499523162842, 'policy_loss': -0.058115165680646896, 'vf_explained_var': 0.6844215989112854, 'entropy': 2.001267194747925, 'total_loss': 3.319319486618042, 'kl': 0.009108071215450764}, 'num_steps_trained': 902400, 'update_time_ms': 2.526}",752,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.197091579437256,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,26400,902400,{},22,288,-16.769227463652225,2025-09-05_00-49-34,8.000003331035625,3651946,1757026174,3.745986875609415,30335.07838511467,65128,4.166666666666667
+cda-server-2,False,1087.9503815174103,"{'sample_time_ms': 46723.952, 'num_steps_sampled': 903600, 'grad_time_ms': 374.386, 'load_time_ms': 0.689, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.5753068327903748, 'cur_kl_coeff': 1.5187499523162842, 'policy_loss': -0.0639975443482399, 'vf_explained_var': 0.9057748317718506, 'entropy': 1.8623218536376953, 'total_loss': 0.5323663949966431, 'kl': 0.013864720240235329}, 'num_steps_trained': 903600, 'update_time_ms': 2.568}",753,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.18517208099365,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,27600,903600,{},23,295,-6.585781991973349,2025-09-05_00-50-21,4.142384938761737,3651946,1757026221,3.8931401774311887,30382.263557195663,65423,4.071186440677966
+cda-server-2,False,1136.2893908023834,"{'sample_time_ms': 46885.196, 'num_steps_sampled': 904800, 'grad_time_ms': 374.532, 'load_time_ms': 0.686, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 1.7282322645187378, 'cur_kl_coeff': 1.5187499523162842, 'policy_loss': -0.04838193207979202, 'vf_explained_var': 0.7900778651237488, 'entropy': 2.0110979080200195, 'total_loss': 1.6923675537109375, 'kl': 0.008241821080446243}, 'num_steps_trained': 904800, 'update_time_ms': 2.564}",754,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",48.339009284973145,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,28800,904800,{},24,292,-11.56023833904667,2025-09-05_00-51-09,4.983661140020629,3651946,1757026269,3.83356178138226,30430.602566480637,65715,4.109589041095891
+cda-server-2,False,1183.1218509674072,"{'sample_time_ms': 46859.446, 'num_steps_sampled': 906000, 'grad_time_ms': 374.529, 'load_time_ms': 0.684, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 1.5535991191864014, 'cur_kl_coeff': 1.5187499523162842, 'policy_loss': -0.04831709340214729, 'vf_explained_var': 0.8219261765480042, 'entropy': 1.9546822309494019, 'total_loss': 1.51687753200531, 'kl': 0.0076349047012627125}, 'num_steps_trained': 906000, 'update_time_ms': 2.543}",755,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.832460165023804,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,30000,906000,{},25,294,-9.86583055741805,2025-09-05_00-51-56,4.106511992796452,3651946,1757026316,3.849252125650591,30477.43502664566,66009,4.095238095238095
+cda-server-2,False,1229.7373206615448,"{'sample_time_ms': 46835.34, 'num_steps_sampled': 907200, 'grad_time_ms': 373.125, 'load_time_ms': 0.684, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 5.297676086425781, 'cur_kl_coeff': 1.5187499523162842, 'policy_loss': -0.05537404119968414, 'vf_explained_var': 0.6569035053253174, 'entropy': 2.070859670639038, 'total_loss': 5.249495506286621, 'kl': 0.004736693575978279}, 'num_steps_trained': 907200, 'update_time_ms': 2.552}",756,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.61546969413757,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,31200,907200,{},26,289,-29.28841041210508,2025-09-05_00-52-43,4.002615996342401,3651946,1757026363,3.767955028791489,30524.050496339798,66298,4.145328719723183
+cda-server-2,False,1276.9345707893372,"{'sample_time_ms': 46799.988, 'num_steps_sampled': 908400, 'grad_time_ms': 375.649, 'load_time_ms': 0.699, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 3.9263293743133545, 'cur_kl_coeff': 0.7593749761581421, 'policy_loss': -0.058822259306907654, 'vf_explained_var': 0.6741502285003662, 'entropy': 2.136699914932251, 'total_loss': 3.889329195022583, 'kl': 0.028736749663949013}, 'num_steps_trained': 908400, 'update_time_ms': 2.553}",757,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.19725012779236,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,32400,908400,{},27,287,-20.18232179504566,2025-09-05_00-53-30,8.000017481990522,3651946,1757026410,3.736034700889114,30571.24774646759,66585,4.174216027874564
+cda-server-2,False,1323.8899717330933,"{'sample_time_ms': 46816.893, 'num_steps_sampled': 909600, 'grad_time_ms': 375.066, 'load_time_ms': 0.697, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 5.565729141235352, 'cur_kl_coeff': 1.139062523841858, 'policy_loss': -0.0506330206990242, 'vf_explained_var': 0.6052297353744507, 'entropy': 1.989142894744873, 'total_loss': 5.527322292327881, 'kl': 0.010733265429735184}, 'num_steps_trained': 909600, 'update_time_ms': 2.574}",758,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.9554009437561,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,33600,909600,{},28,290,-24.829486851198794,2025-09-05_00-54-17,8.000060744316851,3651946,1757026457,3.777224669021877,30618.203147411346,66875,4.144827586206897
+cda-server-2,False,1371.0296182632446,"{'sample_time_ms': 46763.367, 'num_steps_sampled': 910800, 'grad_time_ms': 374.995, 'load_time_ms': 0.696, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 2.501784563064575, 'cur_kl_coeff': 1.139062523841858, 'policy_loss': -0.059095755219459534, 'vf_explained_var': 0.7160967588424683, 'entropy': 1.9628499746322632, 'total_loss': 2.4916887283325195, 'kl': 0.04301762580871582}, 'num_steps_trained': 910800, 'update_time_ms': 2.607}",759,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.13964653015137,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,34800,910800,{},29,288,-11.780509092009758,2025-09-05_00-55-04,4.000989966947292,3651946,1757026504,3.755538409299826,30665.342793941498,67163,4.15625
+cda-server-2,False,1418.2535438537598,"{'sample_time_ms': 46752.966, 'num_steps_sampled': 912000, 'grad_time_ms': 372.306, 'load_time_ms': 0.684, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 2.2747597694396973, 'cur_kl_coeff': 1.708593726158142, 'policy_loss': -0.05887572094798088, 'vf_explained_var': 0.7684090733528137, 'entropy': 1.9990357160568237, 'total_loss': 2.2269842624664307, 'kl': 0.00649667764082551}, 'num_steps_trained': 912000, 'update_time_ms': 2.598}",760,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.22392559051514,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,36000,912000,{},30,291,-19.74093652901318,2025-09-05_00-55-51,5.502330570062896,3651946,1757026551,3.796380304913446,30712.566719532013,67454,4.1271477663230245
+cda-server-2,False,1465.2916657924652,"{'sample_time_ms': 46790.791, 'num_steps_sampled': 913200, 'grad_time_ms': 372.05, 'load_time_ms': 0.687, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 3.733677387237549, 'cur_kl_coeff': 1.708593726158142, 'policy_loss': -0.06684742867946625, 'vf_explained_var': 0.6711017489433289, 'entropy': 2.162313461303711, 'total_loss': 3.6854870319366455, 'kl': 0.010919542983174324}, 'num_steps_trained': 913200, 'update_time_ms': 2.634}",761,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.038121938705444,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,37200,913200,{},31,284,-18.80590203704147,2025-09-05_00-56-38,4.100088669613918,3651946,1757026598,3.666076323286445,30759.60484147072,67738,4.221830985915493
+cda-server-2,False,1513.3106949329376,"{'sample_time_ms': 46875.575, 'num_steps_sampled': 914400, 'grad_time_ms': 369.424, 'load_time_ms': 0.691, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 3.3427648544311523, 'cur_kl_coeff': 1.708593726158142, 'policy_loss': -0.05309293791651726, 'vf_explained_var': 0.7214845418930054, 'entropy': 1.996940016746521, 'total_loss': 3.305532693862915, 'kl': 0.009283188730478287}, 'num_steps_trained': 914400, 'update_time_ms': 2.665}",762,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",48.01902914047241,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,38400,914400,{},32,289,-19.02872107031565,2025-09-05_00-57-26,8.000000521115968,3651946,1757026646,3.7687700117198597,30807.62387061119,68027,4.14878892733564
+cda-server-2,False,1560.8343374729156,"{'sample_time_ms': 46907.807, 'num_steps_sampled': 915600, 'grad_time_ms': 371.119, 'load_time_ms': 0.679, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 2.529505729675293, 'cur_kl_coeff': 1.708593726158142, 'policy_loss': -0.06161157786846161, 'vf_explained_var': 0.7259671092033386, 'entropy': 2.2362306118011475, 'total_loss': 2.4820244312286377, 'kl': 0.008270077407360077}, 'num_steps_trained': 915600, 'update_time_ms': 2.627}",763,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.52364253997803,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,39600,915600,{},33,287,-13.032147027614243,2025-09-05_00-58-14,5.0118155810203895,3651946,1757026694,3.7187382927629975,30855.14751315117,68314,4.191637630662021
+cda-server-2,False,1607.6388757228851,"{'sample_time_ms': 46754.006, 'num_steps_sampled': 916800, 'grad_time_ms': 371.454, 'load_time_ms': 0.68, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 3.095893383026123, 'cur_kl_coeff': 1.708593726158142, 'policy_loss': -0.05758281424641609, 'vf_explained_var': 0.7039374709129333, 'entropy': 1.8250925540924072, 'total_loss': 3.058149814605713, 'kl': 0.011611266992986202}, 'num_steps_trained': 916800, 'update_time_ms': 2.668}",764,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.80453824996948,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,40800,916800,{},34,290,-15.405464045090536,2025-09-05_00-59-01,4.101943775072241,3651946,1757026741,3.760532188373482,30901.95205140114,68604,4.1482758620689655
+cda-server-2,False,1654.4262464046478,"{'sample_time_ms': 46749.439, 'num_steps_sampled': 918000, 'grad_time_ms': 371.511, 'load_time_ms': 0.681, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 5.60544490814209, 'cur_kl_coeff': 1.708593726158142, 'policy_loss': -0.045216772705316544, 'vf_explained_var': 0.6065601706504822, 'entropy': 2.1049537658691406, 'total_loss': 5.587712287902832, 'kl': 0.016085775569081306}, 'num_steps_trained': 918000, 'update_time_ms': 2.657}",765,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.787370681762695,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,42000,918000,{},35,284,-23.6895425258586,2025-09-05_00-59-48,4.001086082575656,3651946,1757026788,3.669152911224492,30948.7394220829,68888,4.207746478873239
+cda-server-2,False,1701.4659514427185,"{'sample_time_ms': 46791.69, 'num_steps_sampled': 919200, 'grad_time_ms': 371.68, 'load_time_ms': 0.676, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 1.3845746517181396, 'cur_kl_coeff': 1.708593726158142, 'policy_loss': -0.04864999279379845, 'vf_explained_var': 0.8147275447845459, 'entropy': 1.8801261186599731, 'total_loss': 1.3486356735229492, 'kl': 0.007439528126269579}, 'num_steps_trained': 919200, 'update_time_ms': 2.668}",766,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.03970503807068,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,43200,919200,{},36,294,-11.958277723890621,2025-09-05_01-00-35,8.000003116702734,3651946,1757026835,3.8941448277293755,30995.77912712097,69182,4.071428571428571
+cda-server-2,False,1748.6571514606476,"{'sample_time_ms': 46793.19, 'num_steps_sampled': 920400, 'grad_time_ms': 369.533, 'load_time_ms': 0.675, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 2.241079330444336, 'cur_kl_coeff': 1.708593726158142, 'policy_loss': -0.05559562146663666, 'vf_explained_var': 0.7553683519363403, 'entropy': 1.8627183437347412, 'total_loss': 2.200254440307617, 'kl': 0.00864488072693348}, 'num_steps_trained': 920400, 'update_time_ms': 2.712}",767,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.19120001792908,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,44400,920400,{},37,291,-15.270401846881054,2025-09-05_01-01-22,4.109935601198734,3651946,1757026882,3.8054175794698,31042.9703271389,69473,4.1271477663230245
+cda-server-2,False,1796.2981708049774,"{'sample_time_ms': 46859.035, 'num_steps_sampled': 921600, 'grad_time_ms': 372.262, 'load_time_ms': 0.681, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 3.658536672592163, 'cur_kl_coeff': 1.708593726158142, 'policy_loss': -0.052428171038627625, 'vf_explained_var': 0.7163556218147278, 'entropy': 1.8900055885314941, 'total_loss': 3.6253576278686523, 'kl': 0.011266032233834267}, 'num_steps_trained': 921600, 'update_time_ms': 2.679}",768,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.641019344329834,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,45600,921600,{},38,289,-21.77859812250777,2025-09-05_01-02-09,4.126091784186673,3651946,1757026929,3.7549427429645186,31090.61134648323,69762,4.159169550173011
+cda-server-2,False,1844.1948111057281,"{'sample_time_ms': 46934.512, 'num_steps_sampled': 922800, 'grad_time_ms': 372.491, 'load_time_ms': 0.685, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 3.9979138374328613, 'cur_kl_coeff': 1.708593726158142, 'policy_loss': -0.0605757050216198, 'vf_explained_var': 0.6288023591041565, 'entropy': 1.9570708274841309, 'total_loss': 3.953638792037964, 'kl': 0.009540567174553871}, 'num_steps_trained': 922800, 'update_time_ms': 2.665}",769,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.89664030075073,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,46800,922800,{},39,285,-20.098995017968985,2025-09-05_01-02-57,5.205426811179739,3651946,1757026977,3.66778813282919,31138.50798678398,70047,4.2105263157894735
+cda-server-2,False,1891.3065786361694,"{'sample_time_ms': 46922.462, 'num_steps_sampled': 924000, 'grad_time_ms': 373.286, 'load_time_ms': 0.686, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 2.0683321952819824, 'cur_kl_coeff': 1.708593726158142, 'policy_loss': -0.044321898370981216, 'vf_explained_var': 0.7987402081489563, 'entropy': 1.8195881843566895, 'total_loss': 2.0326194763183594, 'kl': 0.005038855131715536}, 'num_steps_trained': 924000, 'update_time_ms': 2.657}",770,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.111767530441284,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,48000,924000,{},40,295,-16.05550411167573,2025-09-05_01-03-45,4.592011325067769,3651946,1757027025,3.9061346613050865,31185.619754314423,70342,4.064406779661017
+cda-server-2,False,1938.3917880058289,"{'sample_time_ms': 46928.13, 'num_steps_sampled': 925200, 'grad_time_ms': 372.466, 'load_time_ms': 0.681, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 5.500292778015137, 'cur_kl_coeff': 1.708593726158142, 'policy_loss': -0.05776253715157509, 'vf_explained_var': 0.6448712944984436, 'entropy': 2.2128381729125977, 'total_loss': 5.457508563995361, 'kl': 0.008766286075115204}, 'num_steps_trained': 925200, 'update_time_ms': 2.594}",771,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.085209369659424,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,49200,925200,{},41,283,-26.04057689857185,2025-09-05_01-04-32,4.002401863734518,3651946,1757027072,3.636368039128188,31232.704963684082,70625,4.23321554770318
+cda-server-2,False,1984.8419890403748,"{'sample_time_ms': 46771.66, 'num_steps_sampled': 926400, 'grad_time_ms': 372.114, 'load_time_ms': 0.681, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 12.420703887939453, 'cur_kl_coeff': 1.708593726158142, 'policy_loss': -0.05916784703731537, 'vf_explained_var': 0.522458553314209, 'entropy': 2.136233329772949, 'total_loss': 12.379623413085938, 'kl': 0.010586130432784557}, 'num_steps_trained': 926400, 'update_time_ms': 2.567}",772,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.4502010345459,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,50400,926400,{},42,279,-39.33067773468262,2025-09-05_01-05-18,4.092580515738035,3651946,1757027118,3.515820113005836,31279.155164718628,70904,4.308243727598566
+cda-server-2,False,2031.839220046997,"{'sample_time_ms': 46718.226, 'num_steps_sampled': 927600, 'grad_time_ms': 372.883, 'load_time_ms': 0.692, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 6.606550216674805, 'cur_kl_coeff': 1.708593726158142, 'policy_loss': -0.06816405057907104, 'vf_explained_var': 0.5809977054595947, 'entropy': 1.9930299520492554, 'total_loss': 6.560443878173828, 'kl': 0.012910023331642151}, 'num_steps_trained': 927600, 'update_time_ms': 2.581}",773,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.997231006622314,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,51600,927600,{},43,283,-21.88796172680281,2025-09-05_01-06-05,4.002439810687289,3651946,1757027165,3.612397638943765,31326.15239572525,71187,4.247349823321555
+cda-server-2,False,2078.8071944713593,"{'sample_time_ms': 46735.43, 'num_steps_sampled': 928800, 'grad_time_ms': 371.922, 'load_time_ms': 0.689, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 2.415851354598999, 'cur_kl_coeff': 1.708593726158142, 'policy_loss': -0.07837872952222824, 'vf_explained_var': 0.7386643886566162, 'entropy': 1.9028277397155762, 'total_loss': 2.3538591861724854, 'kl': 0.00959052238613367}, 'num_steps_trained': 928800, 'update_time_ms': 2.67}",774,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.96797442436218,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,52800,928800,{},44,287,-12.10505425469865,2025-09-05_01-06-52,4.0019870945357,3651946,1757027212,3.7305935253341027,31373.120370149612,71474,4.174216027874564
+cda-server-2,False,2125.933746099472,"{'sample_time_ms': 46769.426, 'num_steps_sampled': 930000, 'grad_time_ms': 371.785, 'load_time_ms': 0.686, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 1.8429656028747559, 'cur_kl_coeff': 1.708593726158142, 'policy_loss': -0.04755048826336861, 'vf_explained_var': 0.7892983555793762, 'entropy': 1.7938878536224365, 'total_loss': 1.809276819229126, 'kl': 0.008112970739603043}, 'num_steps_trained': 930000, 'update_time_ms': 2.697}",775,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.12655162811279,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,54000,930000,{},45,294,-13.78541047688628,2025-09-05_01-07-39,4.064681068362106,3651946,1757027259,3.865382094416491,31420.246921777725,71768,4.085034013605442
+cda-server-2,False,2172.9108469486237,"{'sample_time_ms': 46763.129, 'num_steps_sampled': 931200, 'grad_time_ms': 371.872, 'load_time_ms': 0.687, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 4.4395365715026855, 'cur_kl_coeff': 1.708593726158142, 'policy_loss': -0.04413954168558121, 'vf_explained_var': 0.6769609451293945, 'entropy': 1.8190557956695557, 'total_loss': 4.407191276550293, 'kl': 0.0069029685109853745}, 'num_steps_trained': 931200, 'update_time_ms': 2.688}",776,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.97710084915161,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,55200,931200,{},46,291,-23.977696050912584,2025-09-05_01-08-26,8.000033070321237,3651946,1757027306,3.798016183340947,31467.224022626877,72059,4.130584192439863
+cda-server-2,False,2219.4841015338898,"{'sample_time_ms': 46701.596, 'num_steps_sampled': 932400, 'grad_time_ms': 371.708, 'load_time_ms': 0.674, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 2.954724073410034, 'cur_kl_coeff': 1.708593726158142, 'policy_loss': -0.05634055659174919, 'vf_explained_var': 0.6867001056671143, 'entropy': 2.0110385417938232, 'total_loss': 2.9130592346191406, 'kl': 0.008589200675487518}, 'num_steps_trained': 932400, 'update_time_ms': 2.641}",777,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.57325458526611,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,56400,932400,{},47,286,-12.047988655655782,2025-09-05_01-09-13,4.350972925973858,3651946,1757027353,3.6947120059361707,31513.797277212143,72345,4.195804195804196
+cda-server-2,False,2266.5658695697784,"{'sample_time_ms': 46645.782, 'num_steps_sampled': 933600, 'grad_time_ms': 371.628, 'load_time_ms': 0.675, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 2.6642534732818604, 'cur_kl_coeff': 1.708593726158142, 'policy_loss': -0.04670833796262741, 'vf_explained_var': 0.6989669799804688, 'entropy': 1.9170633554458618, 'total_loss': 2.63336181640625, 'kl': 0.009257161058485508}, 'num_steps_trained': 933600, 'update_time_ms': 2.621}",778,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.08176803588867,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,57600,933600,{},48,289,-10.348640951962327,2025-09-05_01-10-00,4.002221755706053,3651946,1757027400,3.7923208806491115,31560.87904524803,72634,4.141868512110727
+cda-server-2,False,2313.4038367271423,"{'sample_time_ms': 46539.462, 'num_steps_sampled': 934800, 'grad_time_ms': 372.071, 'load_time_ms': 0.675, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.362484335899353, 'cur_kl_coeff': 1.708593726158142, 'policy_loss': -0.062406666576862335, 'vf_explained_var': 0.9415891170501709, 'entropy': 1.7499221563339233, 'total_loss': 0.3161599040031433, 'kl': 0.009412539191544056}, 'num_steps_trained': 934800, 'update_time_ms': 2.638}",779,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.83796715736389,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,58800,934800,{},49,296,-5.06328498551769,2025-09-05_01-10-47,4.117140791597043,3651946,1757027447,3.9165722485046945,31607.717012405396,72930,4.054054054054054
+cda-server-2,False,2361.142077922821,"{'sample_time_ms': 46600.847, 'num_steps_sampled': 936000, 'grad_time_ms': 373.36, 'load_time_ms': 0.676, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 1.1525019407272339, 'cur_kl_coeff': 1.708593726158142, 'policy_loss': -0.045695994049310684, 'vf_explained_var': 0.8327200412750244, 'entropy': 1.7713196277618408, 'total_loss': 1.1177312135696411, 'kl': 0.006394288036972284}, 'num_steps_trained': 936000, 'update_time_ms': 2.63}",780,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.73824119567871,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,60000,936000,{},50,295,-8.59429343910615,2025-09-05_01-11-35,4.154023467959979,3651946,1757027495,3.8926968020858577,31655.455253601074,73225,4.071186440677966
+cda-server-2,False,2408.5858132839203,"{'sample_time_ms': 46636.516, 'num_steps_sampled': 937200, 'grad_time_ms': 373.411, 'load_time_ms': 0.699, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 1.8505889177322388, 'cur_kl_coeff': 1.708593726158142, 'policy_loss': -0.06169609725475311, 'vf_explained_var': 0.7730779647827148, 'entropy': 1.8604083061218262, 'total_loss': 1.8047436475753784, 'kl': 0.009277136996388435}, 'num_steps_trained': 937200, 'update_time_ms': 2.647}",781,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.44373536109924,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,61200,937200,{},51,290,-10.083785416447018,2025-09-05_01-12-22,4.392711964661583,3651946,1757027542,3.7665839765890223,31702.898988962173,73515,4.1482758620689655
+cda-server-2,False,2455.3863422870636,"{'sample_time_ms': 46671.265, 'num_steps_sampled': 938400, 'grad_time_ms': 373.716, 'load_time_ms': 0.697, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 3.5524978637695312, 'cur_kl_coeff': 1.708593726158142, 'policy_loss': -0.05039419233798981, 'vf_explained_var': 0.7071776986122131, 'entropy': 1.9242134094238281, 'total_loss': 3.5340025424957275, 'kl': 0.018669771030545235}, 'num_steps_trained': 938400, 'update_time_ms': 2.656}",782,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.80052900314331,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,62400,938400,{},52,285,-18.5029933956362,2025-09-05_01-13-09,4.001542615606032,3651946,1757027589,3.686333737405312,31749.699517965317,73800,4.2
+cda-server-2,False,2502.4582917690277,"{'sample_time_ms': 46678.74, 'num_steps_sampled': 939600, 'grad_time_ms': 373.655, 'load_time_ms': 0.709, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 5.03559684753418, 'cur_kl_coeff': 1.708593726158142, 'policy_loss': -0.06031392142176628, 'vf_explained_var': 0.5796419382095337, 'entropy': 2.035823345184326, 'total_loss': 4.999176502227783, 'kl': 0.01398418378084898}, 'num_steps_trained': 939600, 'update_time_ms': 2.653}",783,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.07194948196411,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,63600,939600,{},53,284,-21.840290534614667,2025-09-05_01-13-56,4.001584936178242,3651946,1757027636,3.641597409847955,31796.77146744728,74084,4.235915492957746
+cda-server-2,False,2551.2730057239532,"{'sample_time_ms': 46864.77, 'num_steps_sampled': 940800, 'grad_time_ms': 372.387, 'load_time_ms': 0.72, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 4.303224563598633, 'cur_kl_coeff': 1.708593726158142, 'policy_loss': -0.05835850536823273, 'vf_explained_var': 0.606787919998169, 'entropy': 1.9617383480072021, 'total_loss': 4.258739471435547, 'kl': 0.008119616657495499}, 'num_steps_trained': 940800, 'update_time_ms': 2.574}",784,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",48.81471395492554,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,64800,940800,{},54,285,-15.377537604738691,2025-09-05_01-14-45,4.020792989221064,3651946,1757027685,3.663630381865669,31845.586181402206,74369,4.2105263157894735
+cda-server-2,False,2598.3692677021027,"{'sample_time_ms': 46859.844, 'num_steps_sampled': 942000, 'grad_time_ms': 374.344, 'load_time_ms': 0.727, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.6878752112388611, 'cur_kl_coeff': 1.708593726158142, 'policy_loss': -0.05567542091012001, 'vf_explained_var': 0.8880141973495483, 'entropy': 1.6891648769378662, 'total_loss': 0.6541071534156799, 'kl': 0.012821835465729237}, 'num_steps_trained': 942000, 'update_time_ms': 2.526}",785,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.096261978149414,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,66000,942000,{},55,295,-2.1602375685593795,2025-09-05_01-15-32,8.000052124494673,3651946,1757027732,3.9152287397209276,31892.682443380356,74664,4.061016949152543
+cda-server-2,False,2645.4723284244537,"{'sample_time_ms': 46872.238, 'num_steps_sampled': 943200, 'grad_time_ms': 374.543, 'load_time_ms': 0.734, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 3.5516011714935303, 'cur_kl_coeff': 1.708593726158142, 'policy_loss': -0.05592495948076248, 'vf_explained_var': 0.6857667565345764, 'entropy': 1.9146186113357544, 'total_loss': 3.513665199279785, 'kl': 0.01052860077470541}, 'num_steps_trained': 943200, 'update_time_ms': 2.539}",786,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.103060722351074,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,67200,943200,{},56,288,-17.055190062858692,2025-09-05_01-16-19,4.151147511426473,3651946,1757027779,3.742135272957436,31939.785504102707,74952,4.163194444444445
+cda-server-2,False,2692.3276150226593,"{'sample_time_ms': 46897.224, 'num_steps_sampled': 944400, 'grad_time_ms': 377.628, 'load_time_ms': 0.753, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 9.774484634399414, 'cur_kl_coeff': 1.708593726158142, 'policy_loss': -0.07012740522623062, 'vf_explained_var': 0.5126588344573975, 'entropy': 2.1517908573150635, 'total_loss': 9.721240043640137, 'kl': 0.009880815632641315}, 'num_steps_trained': 944400, 'update_time_ms': 2.559}",787,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.855286598205566,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,68400,944400,{},57,278,-32.373501323479616,2025-09-05_01-17-06,8.000032734282158,3651946,1757027826,3.523573781630109,31986.640790700912,75230,4.302158273381295
+cda-server-2,False,2739.5533571243286,"{'sample_time_ms': 46910.383, 'num_steps_sampled': 945600, 'grad_time_ms': 378.833, 'load_time_ms': 0.75, 'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 2.4646711349487305, 'cur_kl_coeff': 1.708593726158142, 'policy_loss': -0.06321736425161362, 'vf_explained_var': 0.7288916707038879, 'entropy': 1.8632335662841797, 'total_loss': 2.421541929244995, 'kl': 0.011756868101656437}, 'num_steps_trained': 945600, 'update_time_ms': 2.588}",788,"{'clip_actions': True, 'vf_share_layers': False, 'sgd_minibatch_size': 128, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'custom_resources_per_worker': {}, 'callbacks': {'on_sample_end': None, 'on_train_result': None, 'on_episode_start': None, 'on_episode_end': None, 'on_episode_step': None}, 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'use_gae': True, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'entropy_coeff': 0.0, 'num_gpus': 0, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'input': 'sampler', 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'clip_rewards': None, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'lr_schedule': None, 'kl_coeff': 0.2, 'straggler_mitigation': False, 'tf_session_args': {'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'output': None, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'output_max_file_size': 67108864, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.22574210166931,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,69600,945600,{},58,291,-11.991513132469333,2025-09-05_01-17-53,8.00001788597729,3651946,1757027873,3.782112459354446,32033.86653280258,75521,4.140893470790378
+cda-server-2,False,51.66564321517944,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.9922509789466858, 'cur_kl_coeff': 1.708593726158142, 'policy_loss': -0.054242223501205444, 'vf_explained_var': 0.8546984195709229, 'entropy': 1.8489820957183838, 'total_loss': 0.9491172432899475, 'kl': 0.006501571275293827}, 'sample_time_ms': 50597.815, 'num_steps_sampled': 937200, 'grad_time_ms': 647.607, 'num_steps_trained': 937200, 'load_time_ms': 30.291, 'update_time_ms': 368.902}",781,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",51.66564321517944,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,1200,937200,{},1,291,-14.976873928364402,2025-09-05_01-19-03,4.002509303514523,3651949,1757027943,3.8545046042374915,31707.120896816254,73516,4.092783505154639
+cda-server-2,False,99.1927056312561,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 2.9489707946777344, 'cur_kl_coeff': 0.20000000298023224, 'policy_loss': -0.06298628449440002, 'vf_explained_var': 0.6915463805198669, 'entropy': 1.8564648628234863, 'total_loss': 2.893836259841919, 'kl': 0.039258651435375214}, 'sample_time_ms': 48865.899, 'num_steps_sampled': 938400, 'grad_time_ms': 515.502, 'num_steps_trained': 938400, 'load_time_ms': 15.518, 'update_time_ms': 185.758}",782,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.52706241607666,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,2400,938400,{},2,288,-12.264256535839294,2025-09-05_01-19-51,8.000036670659627,3651949,1757027991,3.718140981724725,31754.64795923233,73804,4.177083333333333
+cda-server-2,False,146.26294922828674,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 1.8496922254562378, 'cur_kl_coeff': 0.30000001192092896, 'policy_loss': -0.07667955011129379, 'vf_explained_var': 0.7851062417030334, 'entropy': 1.8610098361968994, 'total_loss': 1.7795567512512207, 'kl': 0.021813293918967247}, 'sample_time_ms': 48139.086, 'num_steps_sampled': 939600, 'grad_time_ms': 468.525, 'num_steps_trained': 939600, 'load_time_ms': 10.566, 'update_time_ms': 124.756}",783,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.07024359703064,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,3600,939600,{},3,290,-10.064511670467962,2025-09-05_01-20-38,4.026854004253584,3651949,1757028038,3.776355211402988,31801.71820282936,74094,4.1482758620689655
+cda-server-2,False,193.2772831916809,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 1.7610725164413452, 'cur_kl_coeff': 0.44999995827674866, 'policy_loss': -0.0601881742477417, 'vf_explained_var': 0.8007305860519409, 'entropy': 1.8276609182357788, 'total_loss': 1.7076600790023804, 'kl': 0.015057351440191269}, 'sample_time_ms': 47765.869, 'num_steps_sampled': 940800, 'grad_time_ms': 441.014, 'num_steps_trained': 940800, 'load_time_ms': 8.085, 'update_time_ms': 94.317}",784,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.014333963394165,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,4800,940800,{},4,292,-13.549796048554573,2025-09-05_01-21-25,4.006583956578801,3651949,1757028085,3.838442210095396,31848.732536792755,74386,4.113013698630137
+cda-server-2,False,242.63713192939758,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 1.4205937385559082, 'cur_kl_coeff': 0.44999995827674866, 'policy_loss': -0.050313714891672134, 'vf_explained_var': 0.8278232216835022, 'entropy': 1.7518596649169922, 'total_loss': 1.3765041828155518, 'kl': 0.013831070624291897}, 'sample_time_ms': 48007.749, 'num_steps_sampled': 942000, 'grad_time_ms': 427.871, 'num_steps_trained': 942000, 'load_time_ms': 6.591, 'update_time_ms': 75.96}",785,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",49.359848737716675,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,6000,942000,{},5,294,-13.06073049907241,2025-09-05_01-22-14,4.128189074343364,3651949,1757028134,3.9022232455595676,31898.09238553047,74680,4.068027210884353
+cda-server-2,False,289.53229904174805,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.4408969283103943, 'cur_kl_coeff': 0.44999995827674866, 'policy_loss': -0.05928817018866539, 'vf_explained_var': 0.926021158695221, 'entropy': 1.74524986743927, 'total_loss': 0.3913138806819916, 'kl': 0.021566830575466156}, 'sample_time_ms': 47760.908, 'num_steps_sampled': 943200, 'grad_time_ms': 416.361, 'num_steps_trained': 943200, 'load_time_ms': 5.599, 'update_time_ms': 63.697}",786,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.895167112350464,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,7200,943200,{},6,298,-2.1567221200411755,2025-09-05_01-23-01,8.000010802354078,3651949,1757028181,3.96651188022375,31944.987552642822,74978,4.030201342281879
+cda-server-2,False,336.5793924331665,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.22498305141925812, 'cur_kl_coeff': 0.675000011920929, 'policy_loss': -0.042830690741539, 'vf_explained_var': 0.9598996639251709, 'entropy': 1.6507837772369385, 'total_loss': 0.19249561429023743, 'kl': 0.015323377214372158}, 'sample_time_ms': 47606.235, 'num_steps_sampled': 944400, 'grad_time_ms': 408.122, 'num_steps_trained': 944400, 'load_time_ms': 4.891, 'update_time_ms': 54.96}",787,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.04709339141846,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,8400,944400,{},7,298,-2.024536533868339,2025-09-05_01-23-48,4.124295920144162,3651949,1757028228,3.9601303116462363,31992.03464603424,75276,4.026845637583893
+cda-server-2,False,383.75608229637146,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 2.5072805881500244, 'cur_kl_coeff': 0.675000011920929, 'policy_loss': -0.0695737674832344, 'vf_explained_var': 0.7216205596923828, 'entropy': 1.8538966178894043, 'total_loss': 2.451732635498047, 'kl': 0.020778659731149673}, 'sample_time_ms': 47503.384, 'num_steps_sampled': 945600, 'grad_time_ms': 405.125, 'num_steps_trained': 945600, 'load_time_ms': 4.36, 'update_time_ms': 48.391}",788,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.176689863204956,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,9600,945600,{},8,289,-12.91145736728022,2025-09-05_01-24-36,4.0205117253454805,3651949,1757028276,3.752205695488996,32039.211335897446,75565,4.155709342560554
+cda-server-2,False,430.90940523147583,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 5.012481689453125, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.059946220368146896, 'vf_explained_var': 0.6565014719963074, 'entropy': 1.9285272359848022, 'total_loss': 4.964396953582764, 'kl': 0.011715345084667206}, 'sample_time_ms': 47422.232, 'num_steps_sampled': 946800, 'grad_time_ms': 401.341, 'num_steps_trained': 946800, 'load_time_ms': 3.953, 'update_time_ms': 43.302}",789,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.15332293510437,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,10800,946800,{},9,289,-25.47250893244872,2025-09-05_01-25-23,4.12287126366258,3651949,1757028323,3.7499060035607386,32086.36465883255,75854,4.1522491349480966
+cda-server-2,False,478.20979285240173,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 2.250943183898926, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.06416141986846924, 'vf_explained_var': 0.7748057842254639, 'entropy': 1.8672207593917847, 'total_loss': 2.2019548416137695, 'kl': 0.014985635876655579}, 'sample_time_ms': 47370.318, 'num_steps_sampled': 948000, 'grad_time_ms': 399.985, 'num_steps_trained': 948000, 'load_time_ms': 3.62, 'update_time_ms': 39.226}",790,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.3003876209259,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,12000,948000,{},10,290,-14.061992362304128,2025-09-05_01-26-10,8.000028237344964,3651949,1757028370,3.8105384396577486,32133.665046453476,76144,4.127586206896551
+cda-server-2,False,525.4595472812653,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.9491912126541138, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.049380749464035034, 'vf_explained_var': 0.8589465618133545, 'entropy': 1.8180402517318726, 'total_loss': 0.9103296995162964, 'kl': 0.010389466769993305}, 'sample_time_ms': 46996.824, 'num_steps_sampled': 949200, 'grad_time_ms': 372.868, 'num_steps_trained': 949200, 'load_time_ms': 0.663, 'update_time_ms': 2.622}",791,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.249754428863525,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,13200,949200,{},11,294,-5.406530040356589,2025-09-05_01-26-57,4.094243137303819,3651949,1757028417,3.879864113613836,32180.91480088234,76438,4.081632653061225
+cda-server-2,False,572.4544923305511,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.4377812147140503, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.06339593976736069, 'vf_explained_var': 0.9286383390426636, 'entropy': 1.7569670677185059, 'total_loss': 0.3850562870502472, 'kl': 0.010539311915636063}, 'sample_time_ms': 46945.37, 'num_steps_sampled': 950400, 'grad_time_ms': 371.132, 'num_steps_trained': 950400, 'load_time_ms': 0.656, 'update_time_ms': 2.657}",792,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.99494504928589,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,14400,950400,{},12,296,-4.968387219343455,2025-09-05_01-27-44,8.000353116834368,3651949,1757028464,3.928256344203121,32227.909745931625,76734,4.054054054054054
+cda-server-2,False,619.7707614898682,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 6.112908840179443, 'cur_kl_coeff': 1.0125000476837158, 'policy_loss': -0.04459194839000702, 'vf_explained_var': 0.5795450806617737, 'entropy': 1.667588710784912, 'total_loss': 6.097717761993408, 'kl': 0.0290378425270319}, 'sample_time_ms': 46971.848, 'num_steps_sampled': 951600, 'grad_time_ms': 369.421, 'num_steps_trained': 951600, 'load_time_ms': 0.652, 'update_time_ms': 2.608}",793,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.31626915931702,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,15600,951600,{},13,291,-24.589137243397587,2025-09-05_01-28-32,4.036547243347274,3651949,1757028512,3.88809978551038,32275.226015090942,77025,4.072164948453608
+cda-server-2,False,666.9650793075562,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 1.718286395072937, 'cur_kl_coeff': 1.5187499523162842, 'policy_loss': -0.06419695913791656, 'vf_explained_var': 0.7822743654251099, 'entropy': 1.86990487575531, 'total_loss': 1.6808961629867554, 'kl': 0.01765047013759613}, 'sample_time_ms': 46988.306, 'num_steps_sampled': 952800, 'grad_time_ms': 371.019, 'num_steps_trained': 952800, 'load_time_ms': 0.648, 'update_time_ms': 2.552}",794,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.19431781768799,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,16800,952800,{},14,289,-12.701008803173178,2025-09-05_01-29-19,4.203500124253747,3651949,1757028559,3.676192982592369,32322.42033290863,77314,4.211072664359862
+cda-server-2,False,713.8903295993805,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 4.264537334442139, 'cur_kl_coeff': 1.5187499523162842, 'policy_loss': -0.04881961643695831, 'vf_explained_var': 0.6670060157775879, 'entropy': 1.85612952709198, 'total_loss': 4.239828109741211, 'kl': 0.01587512157857418}, 'sample_time_ms': 46743.49, 'num_steps_sampled': 954000, 'grad_time_ms': 372.268, 'num_steps_trained': 954000, 'load_time_ms': 0.665, 'update_time_ms': 2.582}",795,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.92525029182434,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,18000,954000,{},15,288,-12.980148394396917,2025-09-05_01-30-06,4.065503414672037,3651949,1757028606,3.7922930521983074,32369.345583200455,77602,4.131944444444445
+cda-server-2,False,761.1560180187225,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.30072930455207825, 'cur_kl_coeff': 1.5187499523162842, 'policy_loss': -0.05964440107345581, 'vf_explained_var': 0.9533084034919739, 'entropy': 1.6481891870498657, 'total_loss': 0.2712497115135193, 'kl': 0.019861610606312752}, 'sample_time_ms': 46778.854, 'num_steps_sampled': 955200, 'grad_time_ms': 373.989, 'num_steps_trained': 955200, 'load_time_ms': 0.665, 'update_time_ms': 2.611}",796,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.26568841934204,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,19200,955200,{},16,298,-9.968730862637617,2025-09-05_01-30-53,4.0024867475246,3651949,1757028653,3.8975311680485905,32416.611271619797,77900,4.067114093959732
+cda-server-2,False,808.0145020484924,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.8040688633918762, 'cur_kl_coeff': 1.5187499523162842, 'policy_loss': -0.032848622649908066, 'vf_explained_var': 0.915114164352417, 'entropy': 1.5866845846176147, 'total_loss': 0.7948029637336731, 'kl': 0.01552779134362936}, 'sample_time_ms': 46760.331, 'num_steps_sampled': 956400, 'grad_time_ms': 373.74, 'num_steps_trained': 956400, 'load_time_ms': 0.662, 'update_time_ms': 2.629}",797,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.8584840297699,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,20400,956400,{},17,297,-13.755648820316434,2025-09-05_01-31-40,4.001205095622689,3651949,1757028700,3.9404580151675765,32463.469755649567,78197,4.040404040404041
+cda-server-2,False,855.3551073074341,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 1.7433048486709595, 'cur_kl_coeff': 1.5187499523162842, 'policy_loss': -0.03473437577486038, 'vf_explained_var': 0.8053309321403503, 'entropy': 1.6424217224121094, 'total_loss': 1.7213722467422485, 'kl': 0.008429242298007011}, 'sample_time_ms': 46777.43, 'num_steps_sampled': 957600, 'grad_time_ms': 373.041, 'num_steps_trained': 957600, 'load_time_ms': 0.671, 'update_time_ms': 2.614}",798,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.34060525894165,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,21600,957600,{},18,296,-15.330119717390737,2025-09-05_01-32-27,8.000000401861136,3651949,1757028747,3.9213278219855128,32510.81036090851,78493,4.050675675675675
+cda-server-2,False,902.4068982601166,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 3.922396421432495, 'cur_kl_coeff': 1.5187499523162842, 'policy_loss': -0.045828308910131454, 'vf_explained_var': 0.6741072535514832, 'entropy': 1.671573281288147, 'total_loss': 3.9039247035980225, 'kl': 0.018012363463640213}, 'sample_time_ms': 46768.543, 'num_steps_sampled': 958800, 'grad_time_ms': 371.807, 'num_steps_trained': 958800, 'load_time_ms': 0.666, 'update_time_ms': 2.59}",799,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.051790952682495,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,22800,958800,{},19,292,-23.708678122556933,2025-09-05_01-33-14,4.001030656455413,3651949,1757028794,3.8258956724124005,32557.86215186119,78785,4.109589041095891
+cda-server-2,False,949.1350507736206,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 1.8681204319000244, 'cur_kl_coeff': 1.5187499523162842, 'policy_loss': -0.06701643019914627, 'vf_explained_var': 0.7929180264472961, 'entropy': 1.9429833889007568, 'total_loss': 1.827116847038269, 'kl': 0.017127802595496178}, 'sample_time_ms': 46714.402, 'num_steps_sampled': 960000, 'grad_time_ms': 368.803, 'num_steps_trained': 960000, 'load_time_ms': 0.678, 'update_time_ms': 2.564}",800,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.72815251350403,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,24000,960000,{},20,288,-12.98841631792866,2025-09-05_01-34-01,4.002175431387786,3651949,1757028841,3.7431750070060352,32604.590304374695,79073,4.163194444444445
+cda-server-2,False,997.0902171134949,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.3580002188682556, 'cur_kl_coeff': 1.5187499523162842, 'policy_loss': -0.05703965947031975, 'vf_explained_var': 0.9418891072273254, 'entropy': 1.6511077880859375, 'total_loss': 0.31548604369163513, 'kl': 0.009564097970724106}, 'sample_time_ms': 46785.388, 'num_steps_sampled': 961200, 'grad_time_ms': 368.434, 'num_steps_trained': 961200, 'load_time_ms': 0.676, 'update_time_ms': 2.57}",801,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.95516633987427,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,25200,961200,{},21,297,-4.085459592416555,2025-09-05_01-34-49,4.162939948548514,3651949,1757028889,3.9406939439213287,32652.54547071457,79370,4.040404040404041
+cda-server-2,False,1044.357929944992,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.18730320036411285, 'cur_kl_coeff': 1.5187499523162842, 'policy_loss': -0.04268259555101395, 'vf_explained_var': 0.9681369066238403, 'entropy': 1.6600903272628784, 'total_loss': 0.15792995691299438, 'kl': 0.00876335147768259}, 'sample_time_ms': 46811.914, 'num_steps_sampled': 962400, 'grad_time_ms': 369.199, 'num_steps_trained': 962400, 'load_time_ms': 0.679, 'update_time_ms': 2.536}",802,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.26771283149719,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,26400,962400,{},22,299,-2.0613225091415845,2025-09-05_01-35-36,4.02449057563354,3651949,1757028936,3.980055908652997,32699.813183546066,79669,4.013377926421405
+cda-server-2,False,1091.4220464229584,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.708747923374176, 'cur_kl_coeff': 1.5187499523162842, 'policy_loss': -0.05166047438979149, 'vf_explained_var': 0.8876267671585083, 'entropy': 1.7017515897750854, 'total_loss': 0.6666974425315857, 'kl': 0.006327613722532988}, 'sample_time_ms': 46784.316, 'num_steps_sampled': 963600, 'grad_time_ms': 371.494, 'num_steps_trained': 963600, 'load_time_ms': 0.695, 'update_time_ms': 2.546}",803,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.06411647796631,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,27600,963600,{},23,297,-3.7565080186063238,2025-09-05_01-36-24,8.000000616166519,3651949,1757028984,3.9177281391629033,32746.877300024033,79966,4.053872053872054
+cda-server-2,False,1139.3512353897095,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.6867063045501709, 'cur_kl_coeff': 1.5187499523162842, 'policy_loss': -0.037311896681785583, 'vf_explained_var': 0.903723418712616, 'entropy': 1.8005733489990234, 'total_loss': 0.6543222069740295, 'kl': 0.003244699677452445}, 'sample_time_ms': 46857.686, 'num_steps_sampled': 964800, 'grad_time_ms': 371.531, 'num_steps_trained': 964800, 'load_time_ms': 0.698, 'update_time_ms': 2.574}",804,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.9291889667511,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,28800,964800,{},24,295,-5.504860003203149,2025-09-05_01-37-11,4.130190802436839,3651949,1757029031,3.928988667431524,32794.806488990784,80261,4.047457627118644
+cda-server-2,False,1186.4974427223206,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.7119202017784119, 'cur_kl_coeff': 0.7593749761581421, 'policy_loss': -0.050469715148210526, 'vf_explained_var': 0.8853400945663452, 'entropy': 1.776171326637268, 'total_loss': 0.6910502910614014, 'kl': 0.03897910937666893}, 'sample_time_ms': 46880.225, 'num_steps_sampled': 966000, 'grad_time_ms': 371.179, 'num_steps_trained': 966000, 'load_time_ms': 0.682, 'update_time_ms': 2.557}",805,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.146207332611084,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,30000,966000,{},25,296,-6.568379425077559,2025-09-05_01-37-59,8.000022452656822,3651949,1757029079,3.897963507153022,32841.952696323395,80557,4.070945945945946
+cda-server-2,False,1235.047001838684,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 1.4876036643981934, 'cur_kl_coeff': 1.139062523841858, 'policy_loss': -0.05569356679916382, 'vf_explained_var': 0.7973092794418335, 'entropy': 1.8454415798187256, 'total_loss': 1.4398431777954102, 'kl': 0.006964581087231636}, 'sample_time_ms': 47008.397, 'num_steps_sampled': 967200, 'grad_time_ms': 371.409, 'num_steps_trained': 967200, 'load_time_ms': 0.676, 'update_time_ms': 2.527}",806,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",48.549559116363525,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,31200,967200,{},26,290,-8.652763661169601,2025-09-05_01-38-47,4.016446949720436,3651949,1757029127,3.8287529921794836,32890.50225543976,80847,4.113793103448276
+cda-server-2,False,1281.8840281963348,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 6.264103412628174, 'cur_kl_coeff': 1.139062523841858, 'policy_loss': -0.05899304896593094, 'vf_explained_var': 0.5897148251533508, 'entropy': 2.0083160400390625, 'total_loss': 6.223005294799805, 'kl': 0.015710312873125076}, 'sample_time_ms': 47005.169, 'num_steps_sampled': 968400, 'grad_time_ms': 372.504, 'num_steps_trained': 968400, 'load_time_ms': 0.689, 'update_time_ms': 2.518}",807,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.83702635765076,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,32400,968400,{},27,287,-21.911524032019354,2025-09-05_01-39-34,4.7794433488924115,3651949,1757029174,3.695486852089204,32937.33928179741,81134,4.195121951219512
+cda-server-2,False,1329.7248368263245,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 1.4413554668426514, 'cur_kl_coeff': 1.139062523841858, 'policy_loss': -0.05914253741502762, 'vf_explained_var': 0.8244356513023376, 'entropy': 1.827782154083252, 'total_loss': 1.394775390625, 'kl': 0.011028682813048363}, 'sample_time_ms': 47057.533, 'num_steps_sampled': 969600, 'grad_time_ms': 370.213, 'num_steps_trained': 969600, 'load_time_ms': 0.676, 'update_time_ms': 2.515}",808,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.840808629989624,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,33600,969600,{},28,292,-9.395980129400694,2025-09-05_01-40-22,4.1590783756023155,3651949,1757029222,3.8544892844564207,32985.1800904274,81426,4.102739726027397
+cda-server-2,False,1377.2052764892578,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.7015355825424194, 'cur_kl_coeff': 1.139062523841858, 'policy_loss': -0.04539366811513901, 'vf_explained_var': 0.9010327458381653, 'entropy': 1.6855577230453491, 'total_loss': 0.6637807488441467, 'kl': 0.006706247106194496}, 'sample_time_ms': 47097.643, 'num_steps_sampled': 970800, 'grad_time_ms': 372.945, 'num_steps_trained': 970800, 'load_time_ms': 0.677, 'update_time_ms': 2.511}",809,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.48043966293335,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,34800,970800,{},29,295,-7.3428326232683965,2025-09-05_01-41-09,4.413765057282951,3651949,1757029269,3.9358162676219055,33032.66053009033,81721,4.047457627118644
+cda-server-2,False,1424.1667184829712,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 1.8058637380599976, 'cur_kl_coeff': 1.139062523841858, 'policy_loss': -0.04731789603829384, 'vf_explained_var': 0.7754788994789124, 'entropy': 1.6680302619934082, 'total_loss': 1.7740479707717896, 'kl': 0.01360949594527483}, 'sample_time_ms': 47119.038, 'num_steps_sampled': 972000, 'grad_time_ms': 374.771, 'num_steps_trained': 972000, 'load_time_ms': 0.667, 'update_time_ms': 2.536}",810,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.96144199371338,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,36000,972000,{},30,295,-10.516404672326125,2025-09-05_01-41-56,8.000012660669258,3651949,1757029316,3.847911428426083,33079.621972084045,82016,4.098305084745762
+cda-server-2,False,1471.9550507068634,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.7151005268096924, 'cur_kl_coeff': 1.139062523841858, 'policy_loss': -0.050695180892944336, 'vf_explained_var': 0.8930562138557434, 'entropy': 1.7088598012924194, 'total_loss': 0.6887589693069458, 'kl': 0.021380571648478508}, 'sample_time_ms': 47103.509, 'num_steps_sampled': 973200, 'grad_time_ms': 373.547, 'num_steps_trained': 973200, 'load_time_ms': 0.668, 'update_time_ms': 2.597}",811,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.78833222389221,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,37200,973200,{},31,295,-6.557950140927627,2025-09-05_01-42-44,8.000019141972288,3651949,1757029364,3.9000041977097872,33127.41030430794,82311,4.064406779661017
+cda-server-2,False,1518.968185186386,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 3.846207618713379, 'cur_kl_coeff': 1.708593726158142, 'policy_loss': -0.0323285274207592, 'vf_explained_var': 0.6994062662124634, 'entropy': 1.7498440742492676, 'total_loss': 3.844479560852051, 'kl': 0.017909592017531395}, 'sample_time_ms': 47078.915, 'num_steps_sampled': 974400, 'grad_time_ms': 372.627, 'num_steps_trained': 974400, 'load_time_ms': 0.665, 'update_time_ms': 2.581}",812,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.013134479522705,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,38400,974400,{},32,292,-20.47005127444236,2025-09-05_01-43-31,4.162667764236382,3651949,1757029411,3.8325548653714554,33174.42343878746,82603,4.109589041095891
+cda-server-2,False,1566.1076924800873,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 2.445774793624878, 'cur_kl_coeff': 1.708593726158142, 'policy_loss': -0.045447684824466705, 'vf_explained_var': 0.7744918465614319, 'entropy': 1.6828818321228027, 'total_loss': 2.407973527908325, 'kl': 0.004475479479879141}, 'sample_time_ms': 47087.186, 'num_steps_sampled': 975600, 'grad_time_ms': 371.87, 'num_steps_trained': 975600, 'load_time_ms': 0.655, 'update_time_ms': 2.651}",813,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.13950729370117,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,39600,975600,{},33,294,-20.252988802667094,2025-09-05_01-44-18,4.026454987915971,3651949,1757029458,3.8777027598765352,33221.56294608116,82897,4.081632653061225
+cda-server-2,False,1613.4467389583588,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.47300609946250916, 'cur_kl_coeff': 0.854296863079071, 'policy_loss': -0.057291433215141296, 'vf_explained_var': 0.9230258464813232, 'entropy': 1.5881778001785278, 'total_loss': 0.4345957636833191, 'kl': 0.022101333364844322}, 'sample_time_ms': 47027.47, 'num_steps_sampled': 976800, 'grad_time_ms': 372.629, 'num_steps_trained': 976800, 'load_time_ms': 0.666, 'update_time_ms': 2.621}",814,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.339046478271484,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,40800,976800,{},34,297,-4.0787353271623665,2025-09-05_01-45-06,4.00314741677162,3651949,1757029506,3.9363969553082097,33268.90199255943,83194,4.043771043771044
+cda-server-2,False,1660.20107960701,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 2.3579092025756836, 'cur_kl_coeff': 1.2814452648162842, 'policy_loss': -0.0439508855342865, 'vf_explained_var': 0.752430260181427, 'entropy': 1.8941396474838257, 'total_loss': 2.323559522628784, 'kl': 0.0074925231747329235}, 'sample_time_ms': 46988.425, 'num_steps_sampled': 978000, 'grad_time_ms': 372.503, 'num_steps_trained': 978000, 'load_time_ms': 0.67, 'update_time_ms': 2.615}",815,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.75434064865112,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,42000,978000,{},35,291,-15.850401724105637,2025-09-05_01-45-53,4.295421785432054,3651949,1757029553,3.8307856738404347,33315.656333208084,83485,4.11340206185567
+cda-server-2,False,1707.0376374721527,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.8707294464111328, 'cur_kl_coeff': 1.2814452648162842, 'policy_loss': -0.040706999599933624, 'vf_explained_var': 0.8828989863395691, 'entropy': 1.745435357093811, 'total_loss': 0.8379433155059814, 'kl': 0.006181230768561363}, 'sample_time_ms': 46817.656, 'num_steps_sampled': 979200, 'grad_time_ms': 371.985, 'num_steps_trained': 979200, 'load_time_ms': 0.681, 'update_time_ms': 2.609}",816,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.83655786514282,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,43200,979200,{},36,294,-6.977797278917819,2025-09-05_01-46-39,6.014182721436078,3651949,1757029599,3.8778004777755335,33362.49289107323,83779,4.078231292517007
+cda-server-2,False,1754.92271900177,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.2831428647041321, 'cur_kl_coeff': 1.2814452648162842, 'policy_loss': -0.0387619249522686, 'vf_explained_var': 0.950989305973053, 'entropy': 1.6422532796859741, 'total_loss': 0.2551690340042114, 'kl': 0.008418700657784939}, 'sample_time_ms': 46920.809, 'num_steps_sampled': 980400, 'grad_time_ms': 373.585, 'num_steps_trained': 980400, 'load_time_ms': 0.686, 'update_time_ms': 2.596}",817,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.88508152961731,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,44400,980400,{},37,297,-2.094870018555298,2025-09-05_01-47-27,4.004102837999562,3651949,1757029647,3.934081516235194,33410.377972602844,84076,4.043771043771044
+cda-server-2,False,1802.4472270011902,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.018896961584687233, 'cur_kl_coeff': 1.2814452648162842, 'policy_loss': -0.029149293899536133, 'vf_explained_var': 0.9966424107551575, 'entropy': 1.5248656272888184, 'total_loss': 0.004489346407353878, 'kl': 0.011503946036100388}, 'sample_time_ms': 46887.154, 'num_steps_sampled': 981600, 'grad_time_ms': 375.555, 'num_steps_trained': 981600, 'load_time_ms': 0.692, 'update_time_ms': 2.625}",818,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.524507999420166,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,45600,981600,{},38,300,4.000074564187001,2025-09-05_01-48-15,5.025365209335014,3651949,1757029695,4.003906200630369,33457.902480602264,84376,4.0
+cda-server-2,False,1849.8041031360626,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.6453438997268677, 'cur_kl_coeff': 1.2814452648162842, 'policy_loss': -0.04249809309840202, 'vf_explained_var': 0.9167090654373169, 'entropy': 1.6513155698776245, 'total_loss': 0.6087195873260498, 'kl': 0.00458371639251709}, 'sample_time_ms': 46877.909, 'num_steps_sampled': 982800, 'grad_time_ms': 372.472, 'num_steps_trained': 982800, 'load_time_ms': 0.69, 'update_time_ms': 2.641}",819,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.35687613487244,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,46800,982800,{},39,298,-10.90554380198309,2025-09-05_01-49-02,8.000000650903239,3651949,1757029742,3.9313736255395266,33505.25935673714,84674,4.043624161073826
+cda-server-2,False,1898.446433544159,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.06971941888332367, 'cur_kl_coeff': 0.6407226324081421, 'policy_loss': -0.03713615611195564, 'vf_explained_var': 0.9876842498779297, 'entropy': 1.5876364707946777, 'total_loss': 0.04077058285474777, 'kl': 0.012778243981301785}, 'sample_time_ms': 47047.778, 'num_steps_sampled': 984000, 'grad_time_ms': 370.778, 'num_steps_trained': 984000, 'load_time_ms': 0.692, 'update_time_ms': 2.63}",820,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",48.64233040809631,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,48000,984000,{},40,300,4.000073832819711,2025-09-05_01-49-51,7.0225889626646305,3651949,1757029791,4.010305626357008,33553.90168714523,84974,3.9966666666666666
+cda-server-2,False,1945.9118869304657,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.45672476291656494, 'cur_kl_coeff': 0.6407226324081421, 'policy_loss': -0.039986565709114075, 'vf_explained_var': 0.9329177141189575, 'entropy': 1.629403829574585, 'total_loss': 0.4218178987503052, 'kl': 0.007928045466542244}, 'sample_time_ms': 47012.644, 'num_steps_sampled': 985200, 'grad_time_ms': 373.683, 'num_steps_trained': 985200, 'load_time_ms': 0.692, 'update_time_ms': 2.524}",821,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.46545338630676,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,49200,985200,{},41,296,-6.565736108482088,2025-09-05_01-50-38,4.008295094160271,3651949,1757029838,3.933905593295191,33601.36714053154,85270,4.043918918918919
+cda-server-2,False,1993.0809333324432,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.4314078986644745, 'cur_kl_coeff': 0.6407226324081421, 'policy_loss': -0.04592595249414444, 'vf_explained_var': 0.9293683171272278, 'entropy': 1.659238338470459, 'total_loss': 0.39231163263320923, 'kl': 0.010659330524504185}, 'sample_time_ms': 47026.958, 'num_steps_sampled': 986400, 'grad_time_ms': 374.914, 'num_steps_trained': 986400, 'load_time_ms': 0.686, 'update_time_ms': 2.545}",822,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.16904640197754,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,50400,986400,{},42,297,-5.6757054842679615,2025-09-05_01-51-26,5.235548155599991,3651949,1757029886,3.9428765355605506,33648.53618693352,85567,4.040404040404041
+cda-server-2,False,2039.9213824272156,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.5089528560638428, 'cur_kl_coeff': 0.6407226324081421, 'policy_loss': -0.03401399031281471, 'vf_explained_var': 0.922917366027832, 'entropy': 1.7040413618087769, 'total_loss': 0.49460160732269287, 'kl': 0.030688460916280746}, 'sample_time_ms': 46997.095, 'num_steps_sampled': 987600, 'grad_time_ms': 374.821, 'num_steps_trained': 987600, 'load_time_ms': 0.685, 'update_time_ms': 2.525}",823,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.84044909477234,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,51600,987600,{},43,295,-6.6121411046581,2025-09-05_01-52-12,4.108682707183751,3651949,1757029932,3.9076012637444864,33695.37663602829,85862,4.064406779661017
+cda-server-2,False,2087.2078564167023,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 1.1404789686203003, 'cur_kl_coeff': 0.9610840678215027, 'policy_loss': -0.039709579199552536, 'vf_explained_var': 0.845872163772583, 'entropy': 1.638351559638977, 'total_loss': 1.1233168840408325, 'kl': 0.023460354655981064}, 'sample_time_ms': 46991.99, 'num_steps_sampled': 988800, 'grad_time_ms': 374.628, 'num_steps_trained': 988800, 'load_time_ms': 0.677, 'update_time_ms': 2.581}",824,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.286473989486694,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,52800,988800,{},44,294,-8.143959451174759,2025-09-05_01-53-00,4.00212314965405,3651949,1757029980,3.848402377541737,33742.66311001778,86156,4.095238095238095
+cda-server-2,False,2134.2769277095795,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 1.7005854845046997, 'cur_kl_coeff': 1.441625952720642, 'policy_loss': -0.03192416951060295, 'vf_explained_var': 0.8220586776733398, 'entropy': 1.6427675485610962, 'total_loss': 1.6911768913269043, 'kl': 0.015618092380464077}, 'sample_time_ms': 47026.055, 'num_steps_sampled': 990000, 'grad_time_ms': 372.013, 'num_steps_trained': 990000, 'load_time_ms': 0.672, 'update_time_ms': 2.582}",825,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.0690712928772,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,54000,990000,{},45,295,-15.536150481328825,2025-09-05_01-53-47,4.807690528253136,3651949,1757030027,3.919624825657352,33789.732181310654,86451,4.054237288135593
+cda-server-2,False,2182.042104244232,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.38604265451431274, 'cur_kl_coeff': 1.441625952720642, 'policy_loss': -0.04679034650325775, 'vf_explained_var': 0.939765214920044, 'entropy': 1.768547773361206, 'total_loss': 0.35393983125686646, 'kl': 0.010188158601522446}, 'sample_time_ms': 47120.443, 'num_steps_sampled': 991200, 'grad_time_ms': 370.431, 'num_steps_trained': 991200, 'load_time_ms': 0.668, 'update_time_ms': 2.597}",826,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.76517653465271,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,55200,991200,{},46,297,-6.033127112083864,2025-09-05_01-54-35,4.005169908150885,3651949,1757030075,3.9243020513043256,33837.49735784531,86748,4.05050505050505
+cda-server-2,False,2229.09677529335,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.635163426399231, 'cur_kl_coeff': 1.441625952720642, 'policy_loss': -0.03038494847714901, 'vf_explained_var': 0.9094793796539307, 'entropy': 1.6650561094284058, 'total_loss': 0.6262122392654419, 'kl': 0.01486778724938631}, 'sample_time_ms': 47039.827, 'num_steps_sampled': 992400, 'grad_time_ms': 368.081, 'num_steps_trained': 992400, 'load_time_ms': 0.663, 'update_time_ms': 2.586}",827,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.05467104911804,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,56400,992400,{},47,296,-7.024247210587671,2025-09-05_01-55-22,4.0011468467636035,3651949,1757030122,3.920057117680865,33884.552028894424,87044,4.050675675675675
+cda-server-2,False,2276.7545762062073,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.6999471187591553, 'cur_kl_coeff': 1.441625952720642, 'policy_loss': -0.030680673196911812, 'vf_explained_var': 0.8954805731773376, 'entropy': 1.6117959022521973, 'total_loss': 0.6958112716674805, 'kl': 0.01841317117214203}, 'sample_time_ms': 47051.993, 'num_steps_sampled': 993600, 'grad_time_ms': 369.248, 'num_steps_trained': 993600, 'load_time_ms': 0.658, 'update_time_ms': 2.567}",828,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.657800912857056,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,57600,993600,{},48,297,-8.890578178095616,2025-09-05_01-56-09,4.00169898411644,3651949,1757030169,3.943147987212985,33932.20982980728,87341,4.037037037037037
+cda-server-2,False,2323.897565126419,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.77970290184021, 'cur_kl_coeff': 1.441625952720642, 'policy_loss': -0.03267605975270271, 'vf_explained_var': 0.8793459534645081, 'entropy': 1.5757498741149902, 'total_loss': 0.7723354697227478, 'kl': 0.017555641010403633}, 'sample_time_ms': 47029.896, 'num_steps_sampled': 994800, 'grad_time_ms': 369.836, 'num_steps_trained': 994800, 'load_time_ms': 0.663, 'update_time_ms': 2.566}",829,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.14298892021179,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,58800,994800,{},49,297,-8.222418084432903,2025-09-05_01-56-57,4.001790133079298,3651949,1757030217,3.932019531520677,33979.35281872749,87638,4.043771043771044
+cda-server-2,False,2370.9230823516846,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.9294682741165161, 'cur_kl_coeff': 1.441625952720642, 'policy_loss': -0.032422881573438644, 'vf_explained_var': 0.865056574344635, 'entropy': 1.6917376518249512, 'total_loss': 0.9142765402793884, 'kl': 0.011952572502195835}, 'sample_time_ms': 46868.697, 'num_steps_sampled': 996000, 'grad_time_ms': 369.332, 'num_steps_trained': 996000, 'load_time_ms': 0.663, 'update_time_ms': 2.569}",830,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.0255172252655,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,60000,996000,{},50,296,-9.300588835898967,2025-09-05_01-57-44,5.1430368160958,3651949,1757030264,3.931883483272182,34026.37833595276,87934,4.047297297297297
+cda-server-2,False,2417.963764667511,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 1.0987236499786377, 'cur_kl_coeff': 1.441625952720642, 'policy_loss': -0.04377513751387596, 'vf_explained_var': 0.8681024312973022, 'entropy': 1.7562556266784668, 'total_loss': 1.060706615447998, 'kl': 0.0039943247102200985}, 'sample_time_ms': 46827.398, 'num_steps_sampled': 997200, 'grad_time_ms': 368.127, 'num_steps_trained': 997200, 'load_time_ms': 0.665, 'update_time_ms': 2.606}",831,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.040682315826416,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,61200,997200,{},51,297,-12.745162180962872,2025-09-05_01-58-31,7.02983745904732,3651949,1757030311,3.939681231334518,34073.419018268585,88231,4.05050505050505
+cda-server-2,False,2465.346343755722,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.13873285055160522, 'cur_kl_coeff': 0.720812976360321, 'policy_loss': -0.0576799176633358, 'vf_explained_var': 0.9778363108634949, 'entropy': 1.6161856651306152, 'total_loss': 0.09548873454332352, 'kl': 0.020027123391628265}, 'sample_time_ms': 46850.782, 'num_steps_sampled': 998400, 'grad_time_ms': 366.186, 'num_steps_trained': 998400, 'load_time_ms': 0.666, 'update_time_ms': 2.606}",832,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.38257908821106,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,62400,998400,{},52,299,-2.147231516732976,2025-09-05_01-59-18,4.095067117194328,3651949,1757030358,3.9799889385349365,34120.801597356796,88530,4.013377926421405
+cda-server-2,False,2512.917120218277,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.2457091212272644, 'cur_kl_coeff': 1.0812194347381592, 'policy_loss': -0.02650185115635395, 'vf_explained_var': 0.9576071500778198, 'entropy': 1.5629717111587524, 'total_loss': 0.2660810649394989, 'kl': 0.04335271939635277}, 'sample_time_ms': 46923.492, 'num_steps_sampled': 999600, 'grad_time_ms': 366.587, 'num_steps_trained': 999600, 'load_time_ms': 0.667, 'update_time_ms': 2.581}",833,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.57077646255493,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,63600,999600,{},53,299,-4.067028611526574,2025-09-05_02-00-06,4.002652899814295,3651949,1757030406,3.965485489524469,34168.37237381935,88829,4.023411371237458
+cda-server-2,False,2560.136365890503,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.1777401566505432, 'cur_kl_coeff': 1.6218292713165283, 'policy_loss': -0.03697414696216583, 'vf_explained_var': 0.9705994129180908, 'entropy': 1.5341241359710693, 'total_loss': 0.1595187485218048, 'kl': 0.011562712490558624}, 'sample_time_ms': 46917.701, 'num_steps_sampled': 1000800, 'grad_time_ms': 365.683, 'num_steps_trained': 1000800, 'load_time_ms': 0.666, 'update_time_ms': 2.508}",834,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.21924567222595,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,64800,1000800,{},54,296,-3.8470397589171252,2025-09-05_02-00-53,4.0097646123115815,3651949,1757030453,3.950852984420732,34215.59161949158,89125,4.033783783783784
+cda-server-2,False,2607.7824144363403,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.0038141896948218346, 'cur_kl_coeff': 1.6218292713165283, 'policy_loss': -0.10900921374559402, 'vf_explained_var': 0.9992968440055847, 'entropy': 1.586694359779358, 'total_loss': -0.05552603676915169, 'kl': 0.030625291168689728}, 'sample_time_ms': 46973.064, 'num_steps_sampled': 1002000, 'grad_time_ms': 368.008, 'num_steps_trained': 1002000, 'load_time_ms': 0.673, 'update_time_ms': 2.525}",835,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.6460485458374,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,66000,1002000,{},55,300,4.000079768933953,2025-09-05_02-01-41,4.001702279138652,3651949,1757030501,4.0002246964451595,34263.237668037415,89425,4.0
+cda-server-2,False,2654.4209916591644,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 2.109739303588867, 'cur_kl_coeff': 2.432743787765503, 'policy_loss': -0.04223893955349922, 'vf_explained_var': 0.7424198389053345, 'entropy': 1.7431635856628418, 'total_loss': 2.084862470626831, 'kl': 0.007136723026633263}, 'sample_time_ms': 46857.348, 'num_steps_sampled': 1003200, 'grad_time_ms': 371.02, 'num_steps_trained': 1003200, 'load_time_ms': 0.69, 'update_time_ms': 2.523}",836,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.6385772228241,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,67200,1003200,{},56,291,-6.951200583934202,2025-09-05_02-02-27,4.0024479785942555,3651949,1757030547,3.808239847125168,34309.87624526024,89716,4.123711340206185
+cda-server-2,False,2702.0383739471436,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 6.08589506149292, 'cur_kl_coeff': 2.432743787765503, 'policy_loss': -0.059231605380773544, 'vf_explained_var': 0.5848007798194885, 'entropy': 1.8705410957336426, 'total_loss': 6.044958591461182, 'kl': 0.007520413026213646}, 'sample_time_ms': 46912.26, 'num_steps_sampled': 1004400, 'grad_time_ms': 372.301, 'num_steps_trained': 1004400, 'load_time_ms': 0.688, 'update_time_ms': 2.568}",837,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.617382287979126,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,68400,1004400,{},57,287,-21.969267051290664,2025-09-05_02-03-15,4.002718773356998,3651949,1757030595,3.695349864450316,34357.49362754822,90003,4.195121951219512
+cda-server-2,False,2748.893737077713,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 2.9250335693359375, 'cur_kl_coeff': 2.432743787765503, 'policy_loss': -0.06444211304187775, 'vf_explained_var': 0.6794325709342957, 'entropy': 1.9101426601409912, 'total_loss': 2.895181179046631, 'kl': 0.014218462631106377}, 'sample_time_ms': 46833.444, 'num_steps_sampled': 1005600, 'grad_time_ms': 370.834, 'num_steps_trained': 1005600, 'load_time_ms': 0.686, 'update_time_ms': 2.566}",838,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.85536313056946,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,69600,1005600,{},58,286,-13.15736932629656,2025-09-05_02-04-02,4.001995336854362,3651949,1757030642,3.7075084388967254,34404.34899067879,90289,4.185314685314685
+cda-server-2,False,2796.1250982284546,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.7307040691375732, 'cur_kl_coeff': 2.432743787765503, 'policy_loss': -0.04437698423862457, 'vf_explained_var': 0.8905224204063416, 'entropy': 1.7138915061950684, 'total_loss': 0.7109454274177551, 'kl': 0.010119595564901829}, 'sample_time_ms': 46839.632, 'num_steps_sampled': 1006800, 'grad_time_ms': 373.49, 'num_steps_trained': 1006800, 'load_time_ms': 0.694, 'update_time_ms': 2.594}",839,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.23136115074158,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,70800,1006800,{},59,295,-7.067287220283557,2025-09-05_02-04-49,4.0160442478173355,3651949,1757030689,3.90216877290391,34451.58035182953,90584,4.064406779661017
+cda-server-2,False,2843.541459083557,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.6730295419692993, 'cur_kl_coeff': 2.432743787765503, 'policy_loss': -0.051897481083869934, 'vf_explained_var': 0.8944464921951294, 'entropy': 1.6187870502471924, 'total_loss': 0.6266192197799683, 'kl': 0.0022555519826710224}, 'sample_time_ms': 46877.723, 'num_steps_sampled': 1008000, 'grad_time_ms': 374.493, 'num_steps_trained': 1008000, 'load_time_ms': 0.69, 'update_time_ms': 2.616}",840,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.41636085510254,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,72000,1008000,{},60,297,-6.623467773245288,2025-09-05_02-05-36,5.028262547214235,3651949,1757030736,3.932894433019231,34498.99671268463,90881,4.047138047138047
+cda-server-2,False,2892.0355756282806,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.014225517399609089, 'cur_kl_coeff': 1.2163718938827515, 'policy_loss': -0.09503839910030365, 'vf_explained_var': 0.9973185062408447, 'entropy': 1.5763732194900513, 'total_loss': -0.05183200538158417, 'kl': 0.023825662210583687}, 'sample_time_ms': 47023.204, 'num_steps_sampled': 1009200, 'grad_time_ms': 374.407, 'num_steps_trained': 1009200, 'load_time_ms': 0.679, 'update_time_ms': 2.592}",841,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",48.49411654472351,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,73200,1009200,{},61,300,4.000054628599927,2025-09-05_02-06-25,4.005483043406404,3651949,1757030785,4.00024954384086,34547.490829229355,91181,4.0
+cda-server-2,False,2939.398644924164,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.783150851726532, 'cur_kl_coeff': 1.8245577812194824, 'policy_loss': -0.032420676201581955, 'vf_explained_var': 0.8862425684928894, 'entropy': 1.589916706085205, 'total_loss': 0.7971222996711731, 'kl': 0.02542654052376747}, 'sample_time_ms': 47019.846, 'num_steps_sampled': 1010400, 'grad_time_ms': 375.712, 'num_steps_trained': 1010400, 'load_time_ms': 0.683, 'update_time_ms': 2.614}",842,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.36306929588318,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,74400,1010400,{},62,299,-6.313502860682476,2025-09-05_02-07-12,7.0249180039085815,3651949,1757030832,3.9758396316724185,34594.85389852524,91480,4.0200668896321075
+cda-server-2,False,2986.665239095688,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.34120887517929077, 'cur_kl_coeff': 2.7368369102478027, 'policy_loss': -0.048503000289201736, 'vf_explained_var': 0.9429805278778076, 'entropy': 1.6626811027526855, 'total_loss': 0.3047863841056824, 'kl': 0.004414035473018885}, 'sample_time_ms': 46989.827, 'num_steps_sampled': 1011600, 'grad_time_ms': 375.314, 'num_steps_trained': 1011600, 'load_time_ms': 0.675, 'update_time_ms': 2.645}",843,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.26659417152405,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,75600,1011600,{},63,296,-7.844585469642691,2025-09-05_02-08-00,4.103040915534221,3651949,1757030880,3.926104031881041,34642.12049269676,91776,4.047297297297297
+cda-server-2,False,3033.6946427822113,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 1.7640461921691895, 'cur_kl_coeff': 1.3684184551239014, 'policy_loss': -0.048718929290771484, 'vf_explained_var': 0.7972148060798645, 'entropy': 1.7225337028503418, 'total_loss': 1.7359509468078613, 'kl': 0.015071181580424309}, 'sample_time_ms': 46971.756, 'num_steps_sampled': 1012800, 'grad_time_ms': 374.371, 'num_steps_trained': 1012800, 'load_time_ms': 0.676, 'update_time_ms': 2.658}",844,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.02940368652344,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,76800,1012800,{},64,293,-10.947529744655213,2025-09-05_02-08-47,4.003919068362274,3651949,1757030927,3.855561278102881,34689.149896383286,92069,4.09556313993174
+cda-server-2,False,3081.054685115814,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.11681367456912994, 'cur_kl_coeff': 1.3684184551239014, 'policy_loss': -0.054528847336769104, 'vf_explained_var': 0.9810612797737122, 'entropy': 1.6391432285308838, 'total_loss': 0.08083418011665344, 'kl': 0.013555314391851425}, 'sample_time_ms': 46943.11, 'num_steps_sampled': 1014000, 'grad_time_ms': 374.353, 'num_steps_trained': 1014000, 'load_time_ms': 0.692, 'update_time_ms': 2.664}",845,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.360042333602905,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,78000,1014000,{},65,298,-3.8104298060247075,2025-09-05_02-09-34,4.0021551713484484,3651949,1757030974,3.974042861101505,34736.50993871689,92367,4.02013422818792
+cda-server-2,False,3128.471792936325,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 6.564021587371826, 'cur_kl_coeff': 1.3684184551239014, 'policy_loss': -0.05545325577259064, 'vf_explained_var': 0.6222854256629944, 'entropy': 1.926668643951416, 'total_loss': 6.520650863647461, 'kl': 0.0088294493034482}, 'sample_time_ms': 47023.704, 'num_steps_sampled': 1015200, 'grad_time_ms': 371.66, 'num_steps_trained': 1015200, 'load_time_ms': 0.673, 'update_time_ms': 2.689}",846,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.417107820510864,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,79200,1015200,{},66,286,-22.18296229789366,2025-09-05_02-10-22,4.0009488497783146,3651949,1757031022,3.7816032490069897,34783.9270465374,92653,4.143356643356643
+cda-server-2,False,3175.341913461685,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.9627919793128967, 'cur_kl_coeff': 1.3684184551239014, 'policy_loss': -0.06439124047756195, 'vf_explained_var': 0.8632643818855286, 'entropy': 1.6867482662200928, 'total_loss': 0.9128870368003845, 'kl': 0.010586160235106945}, 'sample_time_ms': 46949.055, 'num_steps_sampled': 1016400, 'grad_time_ms': 371.604, 'num_steps_trained': 1016400, 'load_time_ms': 0.667, 'update_time_ms': 2.68}",847,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.87012052536011,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,80400,1016400,{},67,296,-22.6179959140363,2025-09-05_02-11-08,4.002575296955297,3651949,1757031068,3.831446230988727,34830.79716706276,92949,4.10472972972973
+cda-server-2,False,3222.875273704529,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 1.5744482278823853, 'cur_kl_coeff': 1.3684184551239014, 'policy_loss': -0.04186302050948143, 'vf_explained_var': 0.805033266544342, 'entropy': 1.647596836090088, 'total_loss': 1.5444416999816895, 'kl': 0.008664320223033428}, 'sample_time_ms': 47015.608, 'num_steps_sampled': 1017600, 'grad_time_ms': 372.874, 'num_steps_trained': 1017600, 'load_time_ms': 0.667, 'update_time_ms': 2.704}",848,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.53336024284363,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,81600,1017600,{},68,295,-13.01126053137859,2025-09-05_02-11-56,4.002531271831623,3651949,1757031116,3.8875773331045975,34878.3305273056,93244,4.074576271186441
+cda-server-2,False,3270.9713361263275,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.5337961316108704, 'cur_kl_coeff': 1.3684184551239014, 'policy_loss': -0.03373105078935623, 'vf_explained_var': 0.9197341203689575, 'entropy': 1.52744722366333, 'total_loss': 0.5145151019096375, 'kl': 0.010559634305536747}, 'sample_time_ms': 47105.408, 'num_steps_sampled': 1018800, 'grad_time_ms': 369.658, 'num_steps_trained': 1018800, 'load_time_ms': 0.652, 'update_time_ms': 2.675}",849,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",48.096062421798706,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,82800,1018800,{},69,297,-6.030843978558636,2025-09-05_02-12-44,4.0022888603229845,3651949,1757031164,3.9326035464886924,34926.4265897274,93541,4.040404040404041
+cda-server-2,False,3318.1038093566895,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.17231231927871704, 'cur_kl_coeff': 1.3684184551239014, 'policy_loss': -0.040909189730882645, 'vf_explained_var': 0.969477117061615, 'entropy': 1.5548286437988281, 'total_loss': 0.15273785591125488, 'kl': 0.01559081207960844}, 'sample_time_ms': 47077.918, 'num_steps_sampled': 1020000, 'grad_time_ms': 368.771, 'num_steps_trained': 1020000, 'load_time_ms': 0.649, 'update_time_ms': 2.641}",850,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.13247323036194,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,84000,1020000,{},70,299,-2.0964218592211097,2025-09-05_02-13-31,4.100479878668449,3651949,1757031211,3.9801735274010057,34973.559062957764,93840,4.013377926421405
+cda-server-2,False,3365.2187576293945,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 3.737804889678955, 'cur_kl_coeff': 1.3684184551239014, 'policy_loss': -0.04222143813967705, 'vf_explained_var': 0.7075552344322205, 'entropy': 1.907225251197815, 'total_loss': 3.7077810764312744, 'kl': 0.008913558907806873}, 'sample_time_ms': 46941.779, 'num_steps_sampled': 1021200, 'grad_time_ms': 366.88, 'num_steps_trained': 1021200, 'load_time_ms': 0.652, 'update_time_ms': 2.777}",851,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.11494827270508,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,85200,1021200,{},71,292,-20.45980288708402,2025-09-05_02-14-18,4.003708898444644,3651949,1757031258,3.832519360572173,35020.67401123047,94132,4.109589041095891
+cda-server-2,False,3412.5559413433075,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.5083017945289612, 'cur_kl_coeff': 1.3684184551239014, 'policy_loss': -0.04789041355252266, 'vf_explained_var': 0.9286045432090759, 'entropy': 1.7039881944656372, 'total_loss': 0.4770981967449188, 'kl': 0.012194222770631313}, 'sample_time_ms': 46938.688, 'num_steps_sampled': 1022400, 'grad_time_ms': 367.508, 'num_steps_trained': 1022400, 'load_time_ms': 0.65, 'update_time_ms': 2.724}",852,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.337183713912964,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,86400,1022400,{},72,298,-10.305195964145561,2025-09-05_02-15-06,4.001530080673005,3651949,1757031306,3.9386926428444164,35068.01119494438,94430,4.040268456375839
+cda-server-2,False,3461.169378042221,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.9372121095657349, 'cur_kl_coeff': 1.3684184551239014, 'policy_loss': -0.04090845212340355, 'vf_explained_var': 0.8610450029373169, 'entropy': 1.8454023599624634, 'total_loss': 0.9138251543045044, 'kl': 0.012804157100617886}, 'sample_time_ms': 47072.679, 'num_steps_sampled': 1023600, 'grad_time_ms': 368.146, 'num_steps_trained': 1023600, 'load_time_ms': 0.672, 'update_time_ms': 2.734}",853,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",48.613436698913574,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,87600,1023600,{},73,294,-6.752795301199743,2025-09-05_02-15-54,4.001648529056688,3651949,1757031354,3.8833382461296617,35116.624631643295,94724,4.074829931972789
+cda-server-2,False,3508.2650122642517,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.9866107106208801, 'cur_kl_coeff': 1.3684184551239014, 'policy_loss': -0.03655135631561279, 'vf_explained_var': 0.8712561726570129, 'entropy': 1.7019932270050049, 'total_loss': 0.9718363881111145, 'kl': 0.01591402105987072}, 'sample_time_ms': 47079.812, 'num_steps_sampled': 1024800, 'grad_time_ms': 367.695, 'num_steps_trained': 1024800, 'load_time_ms': 0.672, 'update_time_ms': 2.773}",854,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.09563422203064,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,88800,1024800,{},74,297,-10.947154128957422,2025-09-05_02-16-42,4.155761849921854,3651949,1757031402,3.937459962800192,35163.720265865326,95021,4.043771043771044
+cda-server-2,False,3555.659045934677,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.29008471965789795, 'cur_kl_coeff': 1.3684184551239014, 'policy_loss': -0.04245949909090996, 'vf_explained_var': 0.9557339549064636, 'entropy': 1.6644426584243774, 'total_loss': 0.25923487544059753, 'kl': 0.008484016172587872}, 'sample_time_ms': 47084.179, 'num_steps_sampled': 1026000, 'grad_time_ms': 366.68, 'num_steps_trained': 1026000, 'load_time_ms': 0.655, 'update_time_ms': 2.755}",855,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.394033670425415,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,90000,1026000,{},75,297,-3.0937475399149967,2025-09-05_02-17-29,4.111535597011368,3651949,1757031449,3.9604825164549546,35211.11429953575,95318,4.026936026936027
+cda-server-2,False,3602.757490158081,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.42554929852485657, 'cur_kl_coeff': 1.3684184551239014, 'policy_loss': -0.03615068271756172, 'vf_explained_var': 0.9381406307220459, 'entropy': 1.572040319442749, 'total_loss': 0.3967033922672272, 'kl': 0.005338112823665142}, 'sample_time_ms': 47050.886, 'num_steps_sampled': 1027200, 'grad_time_ms': 368.127, 'num_steps_trained': 1027200, 'load_time_ms': 0.653, 'update_time_ms': 2.747}",856,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.09844422340393,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,91200,1027200,{},76,298,-9.032099651438411,2025-09-05_02-18-16,4.002385814516934,3651949,1757031496,3.9564894929866226,35258.212743759155,95616,4.030201342281879
+cda-server-2,False,3649.9481089115143,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 1.4891831874847412, 'cur_kl_coeff': 1.3684184551239014, 'policy_loss': -0.046019166707992554, 'vf_explained_var': 0.8592383861541748, 'entropy': 1.877967357635498, 'total_loss': 1.4562660455703735, 'kl': 0.009574709460139275}, 'sample_time_ms': 47084.627, 'num_steps_sampled': 1028400, 'grad_time_ms': 366.468, 'num_steps_trained': 1028400, 'load_time_ms': 0.653, 'update_time_ms': 2.744}",857,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.19061875343323,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,92400,1028400,{},77,293,-18.206337076477084,2025-09-05_02-19-03,4.0019244035208015,3651949,1757031543,3.85261970829871,35305.40336251259,95909,4.098976109215017
+cda-server-2,False,3698.411008119583,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.951488196849823, 'cur_kl_coeff': 1.3684184551239014, 'policy_loss': -0.03943841904401779, 'vf_explained_var': 0.8684049248695374, 'entropy': 1.7809098958969116, 'total_loss': 0.9446311593055725, 'kl': 0.023809516802430153}, 'sample_time_ms': 47178.333, 'num_steps_sampled': 1029600, 'grad_time_ms': 365.734, 'num_steps_trained': 1029600, 'load_time_ms': 0.659, 'update_time_ms': 2.72}",858,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",48.46289920806885,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,93600,1029600,{},78,296,-8.768533616429245,2025-09-05_02-19-52,6.0080410600827285,3651949,1757031592,3.929065338838763,35353.86626172066,96205,4.050675675675675
+cda-server-2,False,3745.399493455887,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.15092967450618744, 'cur_kl_coeff': 2.0526275634765625, 'policy_loss': -0.04178021848201752, 'vf_explained_var': 0.97370445728302, 'entropy': 1.6728134155273438, 'total_loss': 0.1301470547914505, 'kl': 0.010229609906673431}, 'sample_time_ms': 47066.693, 'num_steps_sampled': 1030800, 'grad_time_ms': 366.571, 'num_steps_trained': 1030800, 'load_time_ms': 0.664, 'update_time_ms': 2.733}",859,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.98848533630371,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,94800,1030800,{},79,299,-2.063900500181365,2025-09-05_02-20-39,4.001913774707609,3651949,1757031639,3.9799500736541122,35400.85474705696,96504,4.013377926421405
+cda-server-2,False,3792.646115064621,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.08895605057477951, 'cur_kl_coeff': 2.0526275634765625, 'policy_loss': -0.03882890194654465, 'vf_explained_var': 0.9836444854736328, 'entropy': 1.5997546911239624, 'total_loss': 0.06255945563316345, 'kl': 0.006056779995560646}, 'sample_time_ms': 47076.069, 'num_steps_sampled': 1032000, 'grad_time_ms': 368.547, 'num_steps_trained': 1032000, 'load_time_ms': 0.668, 'update_time_ms': 2.726}",860,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.24662160873413,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,96000,1032000,{},80,300,-0.029156556361344954,2025-09-05_02-21-26,4.000943291599288,3651949,1757031686,3.9867878021114804,35448.101368665695,96804,4.01
+cda-server-2,False,3839.9683599472046,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.00448631402105093, 'cur_kl_coeff': 2.0526275634765625, 'policy_loss': -0.04847244918346405, 'vf_explained_var': 0.9991893768310547, 'entropy': 1.626355767250061, 'total_loss': -0.004763439297676086, 'kl': 0.019108539447188377}, 'sample_time_ms': 47093.837, 'num_steps_sampled': 1033200, 'grad_time_ms': 371.567, 'num_steps_trained': 1033200, 'load_time_ms': 0.676, 'update_time_ms': 2.601}",861,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.32224488258362,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,97200,1033200,{},81,300,4.000071485714502,2025-09-05_02-22-13,4.004060045472517,3651949,1757031733,4.000229414012279,35495.42361354828,97104,4.0
+cda-server-2,False,3887.524997472763,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.22216840088367462, 'cur_kl_coeff': 2.0526275634765625, 'policy_loss': -0.030925869941711426, 'vf_explained_var': 0.961039662361145, 'entropy': 1.690726399421692, 'total_loss': 0.19594722986221313, 'kl': 0.0022920460905879736}, 'sample_time_ms': 47117.983, 'num_steps_sampled': 1034400, 'grad_time_ms': 369.372, 'num_steps_trained': 1034400, 'load_time_ms': 0.673, 'update_time_ms': 2.634}",862,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.55663752555847,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,98400,1034400,{},82,298,-2.9009658105735845,2025-09-05_02-23-01,4.153891133343445,3651949,1757031781,3.9575125160733085,35542.98025107384,97402,4.030201342281879
+cda-server-2,False,3934.716385126114,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 1.4149174690246582, 'cur_kl_coeff': 1.0263137817382812, 'policy_loss': -0.028615090996026993, 'vf_explained_var': 0.8368207812309265, 'entropy': 1.80344557762146, 'total_loss': 1.3911685943603516, 'kl': 0.0047414242289960384}, 'sample_time_ms': 46975.155, 'num_steps_sampled': 1035600, 'grad_time_ms': 369.995, 'num_steps_trained': 1035600, 'load_time_ms': 0.661, 'update_time_ms': 2.587}",863,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.19138765335083,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,99600,1035600,{},83,297,-14.568411083173391,2025-09-05_02-23-48,4.0021343322353475,3651949,1757031828,3.9377038734228167,35590.17163872719,97699,4.040404040404041
+cda-server-2,False,3981.683268070221,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.028436502441763878, 'cur_kl_coeff': 0.5131568908691406, 'policy_loss': -0.06831005960702896, 'vf_explained_var': 0.9948043823242188, 'entropy': 1.5992634296417236, 'total_loss': -0.019522948190569878, 'kl': 0.03965768218040466}, 'sample_time_ms': 46959.895, 'num_steps_sampled': 1036800, 'grad_time_ms': 372.304, 'num_steps_trained': 1036800, 'load_time_ms': 0.664, 'update_time_ms': 2.571}",864,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.966882944107056,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,100800,1036800,{},84,299,2.5430514569442053,2025-09-05_02-24-35,4.097906543848747,3651949,1757031875,3.995679893304896,35637.138521671295,97998,4.003344481605351
+cda-server-2,False,4029.087103366852,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 1.0207265615463257, 'cur_kl_coeff': 0.7697353363037109, 'policy_loss': -0.03795013204216957, 'vf_explained_var': 0.8686723113059998, 'entropy': 1.7936816215515137, 'total_loss': 0.9861171245574951, 'kl': 0.004340069368481636}, 'sample_time_ms': 46959.544, 'num_steps_sampled': 1038000, 'grad_time_ms': 373.739, 'num_steps_trained': 1038000, 'load_time_ms': 0.657, 'update_time_ms': 2.569}",865,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.40383529663086,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,102000,1038000,{},85,296,-10.615523740509985,2025-09-05_02-25-23,4.001541045338795,3651949,1757031923,3.912718043270071,35684.542356967926,98294,4.0574324324324325
+cda-server-2,False,4076.687091112137,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 1.0759044885635376, 'cur_kl_coeff': 0.38486766815185547, 'policy_loss': -0.06365203857421875, 'vf_explained_var': 0.8513641953468323, 'entropy': 1.7185730934143066, 'total_loss': 1.0180267095565796, 'kl': 0.015002868138253689}, 'sample_time_ms': 47008.785, 'num_steps_sampled': 1039200, 'grad_time_ms': 374.66, 'num_steps_trained': 1039200, 'load_time_ms': 0.659, 'update_time_ms': 2.582}",866,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.599987745285034,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,103200,1039200,{},86,293,-8.442591539847172,2025-09-05_02-26-10,4.134358960548335,3651949,1757031970,3.8611631546510012,35732.14234471321,98587,4.088737201365188
+cda-server-2,False,4123.634033203125,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 2.012903928756714, 'cur_kl_coeff': 0.38486766815185547, 'policy_loss': -0.055759914219379425, 'vf_explained_var': 0.7706321477890015, 'entropy': 1.8083112239837646, 'total_loss': 1.9681257009506226, 'kl': 0.02853398770093918}, 'sample_time_ms': 46984.056, 'num_steps_sampled': 1040400, 'grad_time_ms': 375.05, 'num_steps_trained': 1040400, 'load_time_ms': 0.661, 'update_time_ms': 2.546}",867,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.94694209098816,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,104400,1040400,{},87,291,-8.633827227810752,2025-09-05_02-26-57,8.000034105696873,3651949,1757032017,3.811383140448338,35779.0892868042,98878,4.123711340206185
+cda-server-2,False,4170.876131296158,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 2.61270809173584, 'cur_kl_coeff': 0.5773015022277832, 'policy_loss': -0.05995117872953415, 'vf_explained_var': 0.7350280284881592, 'entropy': 1.8723901510238647, 'total_loss': 2.5706839561462402, 'kl': 0.031053271144628525}, 'sample_time_ms': 46863.587, 'num_steps_sampled': 1041600, 'grad_time_ms': 373.377, 'num_steps_trained': 1041600, 'load_time_ms': 0.659, 'update_time_ms': 2.593}",868,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.24209809303284,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,105600,1041600,{},88,288,-14.332236758290303,2025-09-05_02-27-44,4.0084490855803345,3651949,1757032064,3.7660020275860706,35826.33138489723,99166,4.15625
+cda-server-2,False,4218.02410697937,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 1.6040679216384888, 'cur_kl_coeff': 0.8659522533416748, 'policy_loss': -0.045723091810941696, 'vf_explained_var': 0.7927010655403137, 'entropy': 1.7627092599868774, 'total_loss': 1.5658777952194214, 'kl': 0.008699173107743263}, 'sample_time_ms': 46879.924, 'num_steps_sampled': 1042800, 'grad_time_ms': 372.932, 'num_steps_trained': 1042800, 'load_time_ms': 0.654, 'update_time_ms': 2.578}",869,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.14797568321228,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,106800,1042800,{},89,295,-10.237191955210637,2025-09-05_02-28-32,4.344108000962315,3651949,1757032112,3.8888261688516033,35873.479360580444,99461,4.071186440677966
+cda-server-2,False,4264.8796372413635,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 3.9907429218292236, 'cur_kl_coeff': 0.8659522533416748, 'policy_loss': -0.03930972144007683, 'vf_explained_var': 0.6695454716682434, 'entropy': 1.773967981338501, 'total_loss': 3.9705400466918945, 'kl': 0.022063931450247765}, 'sample_time_ms': 46839.657, 'num_steps_sampled': 1044000, 'grad_time_ms': 374.063, 'num_steps_trained': 1044000, 'load_time_ms': 0.665, 'update_time_ms': 2.636}",870,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.85553026199341,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,108000,1044000,{},90,292,-20.969019081543124,2025-09-05_02-29-18,4.000975294547331,3651949,1757032158,3.8130491590673063,35920.33489084244,99753,4.11986301369863
+cda-server-2,False,4311.608902692795,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 2.4754321575164795, 'cur_kl_coeff': 1.2989283800125122, 'policy_loss': -0.050115033984184265, 'vf_explained_var': 0.7231003642082214, 'entropy': 1.8573485612869263, 'total_loss': 2.438021183013916, 'kl': 0.009780575521290302}, 'sample_time_ms': 46782.984, 'num_steps_sampled': 1045200, 'grad_time_ms': 371.452, 'num_steps_trained': 1045200, 'load_time_ms': 0.661, 'update_time_ms': 2.682}",871,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.729265451431274,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,109200,1045200,{},91,291,-10.805479711689856,2025-09-05_02-30-05,4.152770239447509,3651949,1757032205,3.8123680193373417,35967.06415629387,100044,4.1271477663230245
+cda-server-2,False,4358.617847442627,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 4.531902313232422, 'cur_kl_coeff': 1.2989283800125122, 'policy_loss': -0.04319247603416443, 'vf_explained_var': 0.6909646391868591, 'entropy': 1.690366268157959, 'total_loss': 4.495872497558594, 'kl': 0.005514280870556831}, 'sample_time_ms': 46727.646, 'num_steps_sampled': 1046400, 'grad_time_ms': 372.025, 'num_steps_trained': 1046400, 'load_time_ms': 0.657, 'update_time_ms': 2.662}",872,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.00894474983215,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,110400,1046400,{},92,292,-25.84163814989553,2025-09-05_02-30-52,8.00000040038638,3651949,1757032252,3.8490710389223346,36014.0731010437,100336,4.0993150684931505
+cda-server-2,False,4405.620505571365,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 2.6366374492645264, 'cur_kl_coeff': 1.2989283800125122, 'policy_loss': -0.05803981050848961, 'vf_explained_var': 0.6993056535720825, 'entropy': 1.8889535665512085, 'total_loss': 2.592402219772339, 'kl': 0.010627496987581253}, 'sample_time_ms': 46709.217, 'num_steps_sampled': 1047600, 'grad_time_ms': 371.614, 'num_steps_trained': 1047600, 'load_time_ms': 0.658, 'update_time_ms': 2.688}",873,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.0026581287384,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,111600,1047600,{},93,292,-14.402527847863233,2025-09-05_02-31-39,4.144746568904516,3651949,1757032299,3.8086088942115413,36061.07575917244,100628,4.126712328767123
+cda-server-2,False,4452.6467180252075,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 1.4375331401824951, 'cur_kl_coeff': 1.2989283800125122, 'policy_loss': -0.05303184688091278, 'vf_explained_var': 0.7942469120025635, 'entropy': 1.7751680612564087, 'total_loss': 1.4004120826721191, 'kl': 0.012249093502759933}, 'sample_time_ms': 46717.601, 'num_steps_sampled': 1048800, 'grad_time_ms': 369.234, 'num_steps_trained': 1048800, 'load_time_ms': 0.65, 'update_time_ms': 2.684}",874,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.02621245384216,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,112800,1048800,{},94,289,-6.070105589983218,2025-09-05_02-32-26,4.025424877601431,3651949,1757032346,3.8043935583327024,36108.10197162628,100917,4.131487889273356
+cda-server-2,False,4499.890250205994,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 2.1109554767608643, 'cur_kl_coeff': 1.2989283800125122, 'policy_loss': -0.04051174595952034, 'vf_explained_var': 0.7790870666503906, 'entropy': 1.6913646459579468, 'total_loss': 2.08211088180542, 'kl': 0.008982077240943909}, 'sample_time_ms': 46703.177, 'num_steps_sampled': 1050000, 'grad_time_ms': 367.624, 'num_steps_trained': 1050000, 'load_time_ms': 0.652, 'update_time_ms': 2.661}",875,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.24353218078613,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,114000,1050000,{},95,296,-17.520288488662782,2025-09-05_02-33-14,4.002623502880692,3651949,1757032394,3.885369529685228,36155.34550380707,101213,4.070945945945946
+cda-server-2,False,4549.380757570267,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.08191846311092377, 'cur_kl_coeff': 1.2989283800125122, 'policy_loss': -0.05402367189526558, 'vf_explained_var': 0.9858669638633728, 'entropy': 1.666379690170288, 'total_loss': 0.042791612446308136, 'kl': 0.011468542739748955}, 'sample_time_ms': 46894.061, 'num_steps_sampled': 1051200, 'grad_time_ms': 365.753, 'num_steps_trained': 1051200, 'load_time_ms': 0.664, 'update_time_ms': 2.657}",876,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",49.49050736427307,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,115200,1051200,{},96,298,-1.1716103910594278,2025-09-05_02-34-03,4.0014497598455065,3651949,1757032443,3.972802016711378,36204.83601117134,101511,4.02013422818792
+cda-server-2,False,4596.379050016403,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.010374766774475574, 'cur_kl_coeff': 1.2989283800125122, 'policy_loss': -0.07171420753002167, 'vf_explained_var': 0.9980847835540771, 'entropy': 1.6615816354751587, 'total_loss': -0.0277959443628788, 'kl': 0.02582397870719433}, 'sample_time_ms': 46898.966, 'num_steps_sampled': 1052400, 'grad_time_ms': 365.953, 'num_steps_trained': 1052400, 'load_time_ms': 0.663, 'update_time_ms': 2.664}",877,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.998292446136475,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,116400,1052400,{},97,300,4.000078448041956,2025-09-05_02-34-50,4.098817023428135,3651949,1757032490,4.000537573356013,36251.83430361748,101811,4.0
+cda-server-2,False,4643.824803829193,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 2.7474539279937744, 'cur_kl_coeff': 1.948392629623413, 'policy_loss': -0.04414926841855049, 'vf_explained_var': 0.7470448613166809, 'entropy': 1.794586181640625, 'total_loss': 2.712033271789551, 'kl': 0.004480044357478619}, 'sample_time_ms': 46916.579, 'num_steps_sampled': 1053600, 'grad_time_ms': 368.716, 'num_steps_trained': 1053600, 'load_time_ms': 0.663, 'update_time_ms': 2.619}",878,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.44575381278992,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,117600,1053600,{},98,291,-18.465596458805322,2025-09-05_02-35-38,4.740949061502659,3651949,1757032538,3.8188354037476553,36299.28005743027,102102,4.116838487972508
+cda-server-2,False,4690.8918998241425,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 4.36021614074707, 'cur_kl_coeff': 0.9741963148117065, 'policy_loss': -0.05083365738391876, 'vf_explained_var': 0.683496356010437, 'entropy': 1.7298600673675537, 'total_loss': 4.3148627281188965, 'kl': 0.005625119898468256}, 'sample_time_ms': 46907.361, 'num_steps_sampled': 1054800, 'grad_time_ms': 369.844, 'num_steps_trained': 1054800, 'load_time_ms': 0.672, 'update_time_ms': 2.638}",879,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.06709599494934,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,118800,1054800,{},99,292,-24.172852530160384,2025-09-05_02-36-25,4.001776322429072,3651949,1757032585,3.8113737426614356,36346.34715342522,102394,4.11986301369863
+cda-server-2,False,4737.693937063217,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 3.805392026901245, 'cur_kl_coeff': 0.9741963148117065, 'policy_loss': -0.04470294341444969, 'vf_explained_var': 0.6905941367149353, 'entropy': 1.8461089134216309, 'total_loss': 3.786196708679199, 'kl': 0.02618289738893509}, 'sample_time_ms': 46904.596, 'num_steps_sampled': 1056000, 'grad_time_ms': 367.309, 'num_steps_trained': 1056000, 'load_time_ms': 0.656, 'update_time_ms': 2.64}",880,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.80203723907471,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,120000,1056000,{},100,291,-22.90934195242167,2025-09-05_02-37-12,4.190513806122592,3651949,1757032632,3.8116798598960164,36393.14919066429,102685,4.123711340206185
+cda-server-2,False,4784.721884489059,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.28617578744888306, 'cur_kl_coeff': 1.461294412612915, 'policy_loss': -0.06089896708726883, 'vf_explained_var': 0.9583684206008911, 'entropy': 1.6390106678009033, 'total_loss': 0.24192661046981812, 'kl': 0.011393861845135689}, 'sample_time_ms': 46935.025, 'num_steps_sampled': 1057200, 'grad_time_ms': 366.763, 'num_steps_trained': 1057200, 'load_time_ms': 0.657, 'update_time_ms': 2.637}",881,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.027947425842285,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,121200,1057200,{},101,299,-6.96937072763734,2025-09-05_02-37-59,4.050369193835761,3651949,1757032679,3.963673689134469,36440.177138090134,102984,4.0200668896321075
+cda-server-2,False,4832.137006282806,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.5397180914878845, 'cur_kl_coeff': 1.461294412612915, 'policy_loss': -0.04076986014842987, 'vf_explained_var': 0.9104292392730713, 'entropy': 1.6930409669876099, 'total_loss': 0.5123088359832764, 'kl': 0.009142959490418434}, 'sample_time_ms': 46974.138, 'num_steps_sampled': 1058400, 'grad_time_ms': 368.194, 'num_steps_trained': 1058400, 'load_time_ms': 0.658, 'update_time_ms': 2.653}",882,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.41512179374695,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,122400,1058400,{},102,296,-4.058740189097739,2025-09-05_02-38-46,4.002076441453823,3651949,1757032726,3.9355529976656647,36487.59225988388,103280,4.043918918918919
+cda-server-2,False,4879.119877576828,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.6877517104148865, 'cur_kl_coeff': 1.461294412612915, 'policy_loss': -0.03623541444540024, 'vf_explained_var': 0.9030869603157043, 'entropy': 1.737912893295288, 'total_loss': 0.6572979688644409, 'kl': 0.003956564702093601}, 'sample_time_ms': 46971.374, 'num_steps_sampled': 1059600, 'grad_time_ms': 368.98, 'num_steps_trained': 1059600, 'load_time_ms': 0.657, 'update_time_ms': 2.64}",883,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.982871294021606,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,123600,1059600,{},103,297,-9.764382124850606,2025-09-05_02-39-33,8.000000543811925,3651949,1757032773,3.940758314162735,36534.5751311779,103577,4.043771043771044
+cda-server-2,False,4926.45415687561,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.9016821384429932, 'cur_kl_coeff': 0.7306472063064575, 'policy_loss': -0.050413258373737335, 'vf_explained_var': 0.8733535408973694, 'entropy': 1.8559746742248535, 'total_loss': 0.8578717708587646, 'kl': 0.009037166833877563}, 'sample_time_ms': 47000.169, 'num_steps_sampled': 1060800, 'grad_time_ms': 370.958, 'num_steps_trained': 1060800, 'load_time_ms': 0.664, 'update_time_ms': 2.621}",884,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.33427929878235,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,124800,1060800,{},104,293,-6.88334672493346,2025-09-05_02-40-20,4.1658625029783085,3651949,1757032820,3.851568891388484,36581.909410476685,103870,4.09556313993174
+cda-server-2,False,4973.314180612564,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.5732951760292053, 'cur_kl_coeff': 0.7306472063064575, 'policy_loss': -0.03666526451706886, 'vf_explained_var': 0.9228690266609192, 'entropy': 1.7589308023452759, 'total_loss': 0.544025182723999, 'kl': 0.010121528059244156}, 'sample_time_ms': 46963.043, 'num_steps_sampled': 1062000, 'grad_time_ms': 369.77, 'num_steps_trained': 1062000, 'load_time_ms': 0.665, 'update_time_ms': 2.653}",885,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.860023736953735,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,126000,1062000,{},105,295,-11.496498011761279,2025-09-05_02-41-07,4.008836288361233,3651949,1757032867,3.913771857398418,36628.76943421364,104165,4.057627118644068
+cda-server-2,False,5020.626423597336,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.5960099101066589, 'cur_kl_coeff': 0.7306472063064575, 'policy_loss': -0.036775778979063034, 'vf_explained_var': 0.9043925404548645, 'entropy': 1.6872469186782837, 'total_loss': 0.5790513753890991, 'kl': 0.027122920379042625}, 'sample_time_ms': 46744.043, 'num_steps_sampled': 1063200, 'grad_time_ms': 370.983, 'num_steps_trained': 1063200, 'load_time_ms': 0.66, 'update_time_ms': 2.614}",886,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.31224298477173,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,127200,1063200,{},106,296,-4.7433799063483235,2025-09-05_02-41-55,4.095289308937806,3651949,1757032915,3.9287165412323044,36676.08167719841,104461,4.047297297297297
+cda-server-2,False,5067.875581979752,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.4121336340904236, 'cur_kl_coeff': 1.095970869064331, 'policy_loss': -0.04310419782996178, 'vf_explained_var': 0.932977557182312, 'entropy': 1.690892219543457, 'total_loss': 0.3808630108833313, 'kl': 0.010797310620546341}, 'sample_time_ms': 46766.607, 'num_steps_sampled': 1064400, 'grad_time_ms': 373.488, 'num_steps_trained': 1064400, 'load_time_ms': 0.669, 'update_time_ms': 2.615}",887,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.24915838241577,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,128400,1064400,{},107,297,-2.0857158829012263,2025-09-05_02-42-42,4.002645196931428,3651949,1757032962,3.9592997422415044,36723.330835580826,104758,4.026936026936027
+cda-server-2,False,5115.0283489227295,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.27969759702682495, 'cur_kl_coeff': 1.095970869064331, 'policy_loss': -0.03837059065699577, 'vf_explained_var': 0.9554041624069214, 'entropy': 1.6551342010498047, 'total_loss': 0.24782387912273407, 'kl': 0.005927965976297855}, 'sample_time_ms': 46737.826, 'num_steps_sampled': 1065600, 'grad_time_ms': 373.007, 'num_steps_trained': 1065600, 'load_time_ms': 0.668, 'update_time_ms': 2.641}",888,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.152766942977905,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,129600,1065600,{},108,299,-4.134992348498914,2025-09-05_02-43-29,4.11362182172817,3651949,1757033009,3.943352652712832,36770.483602523804,105057,4.036789297658863
+cda-server-2,False,5162.040598630905,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.6938936114311218, 'cur_kl_coeff': 1.095970869064331, 'policy_loss': -0.037294093519449234, 'vf_explained_var': 0.8946120142936707, 'entropy': 1.740850567817688, 'total_loss': 0.6664432287216187, 'kl': 0.008981702849268913}, 'sample_time_ms': 46733.195, 'num_steps_sampled': 1066800, 'grad_time_ms': 372.173, 'num_steps_trained': 1066800, 'load_time_ms': 0.669, 'update_time_ms': 2.666}",889,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.01224970817566,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,130800,1066800,{},109,297,-6.7087742382483775,2025-09-05_02-44-16,4.020778264405768,3651949,1757033056,3.929619645125384,36817.49585223198,105354,4.047138047138047
+cda-server-2,False,5209.26691365242,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.899989128112793, 'cur_kl_coeff': 1.095970869064331, 'policy_loss': -0.03782425820827484, 'vf_explained_var': 0.8698816895484924, 'entropy': 1.7120951414108276, 'total_loss': 0.8721082210540771, 'kl': 0.009072682820260525}, 'sample_time_ms': 46776.242, 'num_steps_sampled': 1068000, 'grad_time_ms': 371.55, 'num_steps_trained': 1068000, 'load_time_ms': 0.677, 'update_time_ms': 2.649}",890,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.22631502151489,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,132000,1068000,{},110,297,-10.053639210287667,2025-09-05_02-45-03,4.266469976934626,3651949,1757033103,3.9336813886014497,36864.722167253494,105651,4.040404040404041
+cda-server-2,False,5256.301217556,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 2.759617328643799, 'cur_kl_coeff': 1.095970869064331, 'policy_loss': -0.046280644834041595, 'vf_explained_var': 0.7130245566368103, 'entropy': 1.799234390258789, 'total_loss': 2.723513603210449, 'kl': 0.009285876527428627}, 'sample_time_ms': 46776.765, 'num_steps_sampled': 1069200, 'grad_time_ms': 371.702, 'num_steps_trained': 1069200, 'load_time_ms': 0.671, 'update_time_ms': 2.627}",891,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.03430390357971,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,133200,1069200,{},111,291,-18.307916490467935,2025-09-05_02-45-51,4.002604687615128,3651949,1757033151,3.8079124917476403,36911.756471157074,105942,4.123711340206185
+cda-server-2,False,5303.68047785759,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.4721151888370514, 'cur_kl_coeff': 1.095970869064331, 'policy_loss': -0.04699081927537918, 'vf_explained_var': 0.9227263331413269, 'entropy': 1.6817357540130615, 'total_loss': 0.43441906571388245, 'kl': 0.008480795659124851}, 'sample_time_ms': 46772.906, 'num_steps_sampled': 1070400, 'grad_time_ms': 372.005, 'num_steps_trained': 1070400, 'load_time_ms': 0.673, 'update_time_ms': 2.595}",892,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.379260301589966,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,134400,1070400,{},112,297,-6.038535520083222,2025-09-05_02-46-38,4.135109194132127,3651949,1757033198,3.946062820473973,36959.135731458664,106239,4.033670033670034
+cda-server-2,False,5350.6843984127045,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 1.7970614433288574, 'cur_kl_coeff': 1.095970869064331, 'policy_loss': -0.0522477813065052, 'vf_explained_var': 0.7884857654571533, 'entropy': 1.8698594570159912, 'total_loss': 1.7521368265151978, 'kl': 0.006681882310658693}, 'sample_time_ms': 46775.321, 'num_steps_sampled': 1071600, 'grad_time_ms': 371.68, 'num_steps_trained': 1071600, 'load_time_ms': 0.672, 'update_time_ms': 2.618}",893,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.003920555114746,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,135600,1071600,{},113,291,-13.745583807755729,2025-09-05_02-47-25,4.416917507335905,3651949,1757033245,3.8267432889839528,37006.13965201378,106530,4.116838487972508
+cda-server-2,False,5397.945260763168,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 2.713960886001587, 'cur_kl_coeff': 1.095970869064331, 'policy_loss': -0.03935150429606438, 'vf_explained_var': 0.7668807506561279, 'entropy': 1.818472146987915, 'total_loss': 2.6847376823425293, 'kl': 0.009241162799298763}, 'sample_time_ms': 46766.398, 'num_steps_sampled': 1072800, 'grad_time_ms': 373.22, 'num_steps_trained': 1072800, 'load_time_ms': 0.686, 'update_time_ms': 2.648}",894,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.26086235046387,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,136800,1072800,{},114,294,-17.249778558549597,2025-09-05_02-48-12,4.163614829428042,3651949,1757033292,3.8594631902865277,37053.40051436424,106824,4.091836734693878
+cda-server-2,False,5445.086297273636,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.10369556397199631, 'cur_kl_coeff': 1.095970869064331, 'policy_loss': -0.02356908842921257, 'vf_explained_var': 0.9814754128456116, 'entropy': 1.6760879755020142, 'total_loss': 0.09424015879631042, 'kl': 0.012877783738076687}, 'sample_time_ms': 46792.359, 'num_steps_sampled': 1074000, 'grad_time_ms': 375.339, 'num_steps_trained': 1074000, 'load_time_ms': 0.686, 'update_time_ms': 2.676}",895,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.14103651046753,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,138000,1074000,{},115,299,-0.031555037362107186,2025-09-05_02-48-59,4.191379142086214,3651949,1757033339,3.9842481849621962,37100.54155087471,107123,4.013377926421405
+cda-server-2,False,5491.909555435181,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.5763661861419678, 'cur_kl_coeff': 1.095970869064331, 'policy_loss': -0.031372055411338806, 'vf_explained_var': 0.9221466779708862, 'entropy': 1.6882249116897583, 'total_loss': 0.574187159538269, 'kl': 0.026636656373739243}, 'sample_time_ms': 46743.517, 'num_steps_sampled': 1075200, 'grad_time_ms': 375.275, 'num_steps_trained': 1075200, 'load_time_ms': 0.686, 'update_time_ms': 2.677}",896,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.8232581615448,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,139200,1075200,{},116,297,-9.979543017466682,2025-09-05_02-49-46,4.161848498952017,3651949,1757033386,3.9476482385784197,37147.364809036255,107420,4.037037037037037
+cda-server-2,False,5539.260118484497,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.49259281158447266, 'cur_kl_coeff': 1.6439563035964966, 'policy_loss': -0.033091820776462555, 'vf_explained_var': 0.9307975769042969, 'entropy': 1.7111220359802246, 'total_loss': 0.47319602966308594, 'kl': 0.008330505341291428}, 'sample_time_ms': 46754.082, 'num_steps_sampled': 1076400, 'grad_time_ms': 374.842, 'num_steps_trained': 1076400, 'load_time_ms': 0.681, 'update_time_ms': 2.689}",897,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.350563049316406,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,140400,1076400,{},117,298,-7.166350155397293,2025-09-05_02-50-34,4.0038304862762,3651949,1757033434,3.9424373322039,37194.71537208557,107718,4.0369127516778525
+cda-server-2,False,5586.411970376968,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 3.5017998218536377, 'cur_kl_coeff': 1.6439563035964966, 'policy_loss': -0.039462730288505554, 'vf_explained_var': 0.7700036764144897, 'entropy': 1.814970850944519, 'total_loss': 3.46822190284729, 'kl': 0.003579681972041726}, 'sample_time_ms': 46754.347, 'num_steps_sampled': 1077600, 'grad_time_ms': 374.398, 'num_steps_trained': 1077600, 'load_time_ms': 0.683, 'update_time_ms': 2.696}",898,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.15185189247131,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,141600,1077600,{},118,291,-25.087125731798764,2025-09-05_02-51-21,4.001346690610941,3651949,1757033481,3.8632689902371355,37241.86722397804,108009,4.0893470790378
+cda-server-2,False,5634.371858358383,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.32681289315223694, 'cur_kl_coeff': 0.8219781517982483, 'policy_loss': -0.054572828114032745, 'vf_explained_var': 0.9426939487457275, 'entropy': 1.5868582725524902, 'total_loss': 0.2952921986579895, 'kl': 0.02804473787546158}, 'sample_time_ms': 46849.064, 'num_steps_sampled': 1078800, 'grad_time_ms': 374.373, 'num_steps_trained': 1078800, 'load_time_ms': 0.672, 'update_time_ms': 2.733}",899,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.959887981414795,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,142800,1078800,{},119,299,-2.2536769498871116,2025-09-05_02-52-09,4.002123115679182,3651949,1757033529,3.931380586483746,37289.82711195946,108308,4.050167224080267
+cda-server-2,False,5681.578128814697,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.4795079827308655, 'cur_kl_coeff': 1.2329672574996948, 'policy_loss': -0.0424935556948185, 'vf_explained_var': 0.9212221503257751, 'entropy': 1.77272629737854, 'total_loss': 0.45257535576820374, 'kl': 0.012620753608644009}, 'sample_time_ms': 46846.575, 'num_steps_sampled': 1080000, 'grad_time_ms': 374.849, 'num_steps_trained': 1080000, 'load_time_ms': 0.667, 'update_time_ms': 2.751}",900,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.20627045631409,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,144000,1080000,{},120,296,-2.988042588931627,2025-09-05_02-52-56,4.000800762474745,3651949,1757033576,3.9459430751420728,37337.03338241577,108604,4.04054054054054
+cda-server-2,False,5728.386974811554,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.6655850410461426, 'cur_kl_coeff': 1.2329672574996948, 'policy_loss': -0.037903402000665665, 'vf_explained_var': 0.9012076258659363, 'entropy': 1.761465311050415, 'total_loss': 0.6372129917144775, 'kl': 0.007730389013886452}, 'sample_time_ms': 46821.314, 'num_steps_sampled': 1081200, 'grad_time_ms': 377.563, 'num_steps_trained': 1081200, 'load_time_ms': 0.676, 'update_time_ms': 2.716}",901,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.80884599685669,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,145200,1081200,{},121,297,-6.174561097195088,2025-09-05_02-53-43,4.089252805379677,3651949,1757033623,3.92688879717915,37383.84222841263,108901,4.047138047138047
+cda-server-2,False,5775.551279306412,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.171039879322052, 'cur_kl_coeff': 1.2329672574996948, 'policy_loss': -0.04213587939739227, 'vf_explained_var': 0.9681374430656433, 'entropy': 1.6764439344406128, 'total_loss': 0.14072200655937195, 'kl': 0.009585012681782246}, 'sample_time_ms': 46799.281, 'num_steps_sampled': 1082400, 'grad_time_ms': 378.052, 'num_steps_trained': 1082400, 'load_time_ms': 0.675, 'update_time_ms': 2.78}",902,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.16430449485779,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,146400,1082400,{},122,297,-4.03311021608916,2025-09-05_02-54-30,4.13466924484949,3651949,1757033670,3.9496003397005945,37431.006532907486,109198,4.033670033670034
+cda-server-2,False,5822.614198207855,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.09765538573265076, 'cur_kl_coeff': 1.2329672574996948, 'policy_loss': -0.029740571975708008, 'vf_explained_var': 0.9826189875602722, 'entropy': 1.6684578657150269, 'total_loss': 0.08354974538087845, 'kl': 0.012680732645094395}, 'sample_time_ms': 46806.342, 'num_steps_sampled': 1083600, 'grad_time_ms': 376.857, 'num_steps_trained': 1083600, 'load_time_ms': 0.673, 'update_time_ms': 2.758}",903,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.06291890144348,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,147600,1083600,{},123,299,4.000084782639999,2025-09-05_02-55-17,4.166484561267723,3651949,1757033717,4.000754760716125,37478.06945180893,109497,4.0
+cda-server-2,False,5870.258234739304,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 1.1872496604919434, 'cur_kl_coeff': 1.2329672574996948, 'policy_loss': -0.03866337984800339, 'vf_explained_var': 0.8462570905685425, 'entropy': 1.7076233625411987, 'total_loss': 1.1553927659988403, 'kl': 0.0055202278308570385}, 'sample_time_ms': 46846.239, 'num_steps_sampled': 1084800, 'grad_time_ms': 375.242, 'num_steps_trained': 1084800, 'load_time_ms': 0.67, 'update_time_ms': 2.783}",904,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.644036531448364,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,148800,1084800,{},124,295,-11.222962823557705,2025-09-05_02-56-05,4.50534781335083,3651949,1757033765,3.8742699562983804,37525.71348834038,109792,4.084745762711864
+cda-server-2,False,5918.874381065369,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.348245233297348, 'cur_kl_coeff': 1.2329672574996948, 'policy_loss': -0.037835970520973206, 'vf_explained_var': 0.944329023361206, 'entropy': 1.6153223514556885, 'total_loss': 0.32013019919395447, 'kl': 0.007884159684181213}, 'sample_time_ms': 46993.235, 'num_steps_sampled': 1086000, 'grad_time_ms': 375.657, 'num_steps_trained': 1086000, 'load_time_ms': 0.681, 'update_time_ms': 2.781}",905,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",48.61614632606506,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,150000,1086000,{},125,297,-6.536665427125055,2025-09-05_02-56-53,4.001335252121653,3651949,1757033813,3.941152580223552,37574.32963466644,110089,4.037037037037037
+cda-server-2,False,5965.760763883591,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.08283431082963943, 'cur_kl_coeff': 1.2329672574996948, 'policy_loss': -0.042511459439992905, 'vf_explained_var': 0.9853301644325256, 'entropy': 1.63007390499115, 'total_loss': 0.05353569611907005, 'kl': 0.010716300457715988}, 'sample_time_ms': 46998.929, 'num_steps_sampled': 1087200, 'grad_time_ms': 376.187, 'num_steps_trained': 1087200, 'load_time_ms': 0.682, 'update_time_ms': 2.841}",906,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.886382818222046,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,151200,1087200,{},126,299,-0.04245865820154471,2025-09-05_02-57-40,4.00143553875155,3651949,1757033860,3.986681393814414,37621.216017484665,110388,4.010033444816053
+cda-server-2,False,6013.07399225235,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.0032169807236641645, 'cur_kl_coeff': 1.2329672574996948, 'policy_loss': -0.1030496209859848, 'vf_explained_var': 0.9994156956672668, 'entropy': 1.659559965133667, 'total_loss': -0.0704251229763031, 'kl': 0.023851003497838974}, 'sample_time_ms': 46995.559, 'num_steps_sampled': 1088400, 'grad_time_ms': 375.787, 'num_steps_trained': 1088400, 'load_time_ms': 0.69, 'update_time_ms': 2.86}",907,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.313228368759155,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,152400,1088400,{},127,300,4.000079229778374,2025-09-05_02-58-28,4.155390242731852,3651949,1757033908,4.000726101986216,37668.529245853424,110688,4.0
+cda-server-2,False,6060.871701717377,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.8205611705780029, 'cur_kl_coeff': 1.8494508266448975, 'policy_loss': -0.05103403329849243, 'vf_explained_var': 0.872207760810852, 'entropy': 1.6825008392333984, 'total_loss': 0.7823768854141235, 'kl': 0.0069478172808885574}, 'sample_time_ms': 47059.525, 'num_steps_sampled': 1089600, 'grad_time_ms': 376.45, 'num_steps_trained': 1089600, 'load_time_ms': 0.692, 'update_time_ms': 2.842}",908,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.797709465026855,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,153600,1089600,{},128,295,-8.109032572593708,2025-09-05_02-59-15,4.002247635056653,3651949,1757033955,3.8875018287193615,37716.32695531845,110983,4.074576271186441
+cda-server-2,False,6107.252467870712,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 1.3974435329437256, 'cur_kl_coeff': 1.8494508266448975, 'policy_loss': -0.03511720895767212, 'vf_explained_var': 0.8257991075515747, 'entropy': 1.7969785928726196, 'total_loss': 1.378829836845398, 'kl': 0.008923310786485672}, 'sample_time_ms': 46902.404, 'num_steps_sampled': 1090800, 'grad_time_ms': 375.794, 'num_steps_trained': 1090800, 'load_time_ms': 0.693, 'update_time_ms': 2.761}",909,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.38076615333557,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,154800,1090800,{},129,292,-10.445097759987831,2025-09-05_03-00-02,4.002368141152433,3651949,1757034002,3.8083283991034387,37762.70772147179,111275,4.11986301369863
+cda-server-2,False,6154.848546504974,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.0062546562403440475, 'cur_kl_coeff': 1.8494508266448975, 'policy_loss': -0.09956976026296616, 'vf_explained_var': 0.9988368153572083, 'entropy': 1.6119977235794067, 'total_loss': -0.05805457383394241, 'kl': 0.019065406173467636}, 'sample_time_ms': 46938.898, 'num_steps_sampled': 1092000, 'grad_time_ms': 378.177, 'num_steps_trained': 1092000, 'load_time_ms': 0.732, 'update_time_ms': 2.732}",910,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.596078634262085,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,156000,1092000,{},130,300,4.000071359967125,2025-09-05_03-00-49,4.001047534662767,3651949,1757034049,4.000205901437618,37810.30380010605,111575,4.0
+cda-server-2,False,6202.097699642181,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.6251590251922607, 'cur_kl_coeff': 1.8494508266448975, 'policy_loss': -0.028948571532964706, 'vf_explained_var': 0.9052460193634033, 'entropy': 1.7085204124450684, 'total_loss': 0.6010306477546692, 'kl': 0.002606305293738842}, 'sample_time_ms': 46983.395, 'num_steps_sampled': 1093200, 'grad_time_ms': 377.549, 'num_steps_trained': 1093200, 'load_time_ms': 0.722, 'update_time_ms': 2.873}",911,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.24915313720703,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,157200,1093200,{},131,298,-8.681836160411386,2025-09-05_03-01-37,4.4167532534090475,3651949,1757034097,3.96016927547165,37857.552953243256,111873,4.026845637583893
+cda-server-2,False,6249.153947591782,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.6695041656494141, 'cur_kl_coeff': 0.9247254133224487, 'policy_loss': -0.039134785532951355, 'vf_explained_var': 0.90013188123703, 'entropy': 1.6588191986083984, 'total_loss': 0.6479641199111938, 'kl': 0.019026966765522957}, 'sample_time_ms': 46974.381, 'num_steps_sampled': 1094400, 'grad_time_ms': 375.768, 'num_steps_trained': 1094400, 'load_time_ms': 0.727, 'update_time_ms': 2.839}",912,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.05624794960022,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,158400,1094400,{},132,296,-5.102389635603522,2025-09-05_03-02-24,4.244200512234446,3651949,1757034144,3.9565869946037306,37904.609201192856,112169,4.030405405405405
+cda-server-2,False,6296.295668840408,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.008423120714724064, 'cur_kl_coeff': 0.9247254133224487, 'policy_loss': -0.047248583287000656, 'vf_explained_var': 0.9983489513397217, 'entropy': 1.6233975887298584, 'total_loss': -0.02756035327911377, 'kl': 0.012182105332612991}, 'sample_time_ms': 46984.165, 'num_steps_sampled': 1095600, 'grad_time_ms': 373.939, 'num_steps_trained': 1095600, 'load_time_ms': 0.718, 'update_time_ms': 2.846}",913,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.14172124862671,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,159600,1095600,{},133,300,-4.0368726176782985,2025-09-05_03-03-11,4.000725931831873,3651949,1757034191,3.973399068350616,37951.75092244148,112469,4.016666666666667
+cda-server-2,False,6343.30012345314,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.552894651889801, 'cur_kl_coeff': 0.9247254133224487, 'policy_loss': -0.036006052047014236, 'vf_explained_var': 0.931046187877655, 'entropy': 1.7760496139526367, 'total_loss': 0.5230053067207336, 'kl': 0.006614684127271175}, 'sample_time_ms': 46919.318, 'num_steps_sampled': 1096800, 'grad_time_ms': 374.83, 'num_steps_trained': 1096800, 'load_time_ms': 0.722, 'update_time_ms': 2.801}",914,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.004454612731934,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,160800,1096800,{},134,296,-6.024787100581303,2025-09-05_03-03-58,4.002575908744511,3651949,1757034238,3.9198022842876283,37998.755377054214,112765,4.050675675675675
+cda-server-2,False,6390.3256759643555,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.2663804292678833, 'cur_kl_coeff': 0.9247254133224487, 'policy_loss': -0.029532097280025482, 'vf_explained_var': 0.9555729627609253, 'entropy': 1.5449742078781128, 'total_loss': 0.24412457644939423, 'kl': 0.007868574000895023}, 'sample_time_ms': 46760.09, 'num_steps_sampled': 1098000, 'grad_time_ms': 375.112, 'num_steps_trained': 1098000, 'load_time_ms': 0.71, 'update_time_ms': 2.769}",915,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.02555251121521,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,162000,1098000,{},135,298,-4.096244807617365,2025-09-05_03-04-45,4.005924476954452,3651949,1757034285,3.9597168225653534,38045.78092956543,113063,4.023489932885906
+cda-server-2,False,6437.271858453751,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.0021694996394217014, 'cur_kl_coeff': 0.9247254133224487, 'policy_loss': -0.1111738532781601, 'vf_explained_var': 0.9995922446250916, 'entropy': 1.6540554761886597, 'total_loss': -0.08195843547582626, 'kl': 0.029247526079416275}, 'sample_time_ms': 46765.871, 'num_steps_sampled': 1099200, 'grad_time_ms': 375.423, 'num_steps_trained': 1099200, 'load_time_ms': 0.706, 'update_time_ms': 2.72}",916,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.94618248939514,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,163200,1099200,{},136,300,4.000068956729939,2025-09-05_03-05-32,4.306151855380639,3651949,1757034332,4.001476746470644,38092.727112054825,113363,4.0
+cda-server-2,False,6484.297063112259,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 0.5783279538154602, 'cur_kl_coeff': 1.3870880603790283, 'policy_loss': -0.03263545408844948, 'vf_explained_var': 0.9230349659919739, 'entropy': 1.7275382280349731, 'total_loss': 0.549310564994812, 'kl': 0.002608383074402809}, 'sample_time_ms': 46738.849, 'num_steps_sampled': 1100400, 'grad_time_ms': 373.732, 'num_steps_trained': 1100400, 'load_time_ms': 0.693, 'update_time_ms': 2.686}",917,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",47.0252046585083,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,164400,1100400,{},137,297,-11.673738478321681,2025-09-05_03-06-19,4.002616083422177,3651949,1757034379,3.9404715761026687,38139.75231671333,113660,4.047138047138047
+cda-server-2,False,6531.163638830185,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 1.669813632965088, 'cur_kl_coeff': 0.6935440301895142, 'policy_loss': -0.0387318879365921, 'vf_explained_var': 0.799774706363678, 'entropy': 1.750069499015808, 'total_loss': 1.6407551765441895, 'kl': 0.013947629369795322}, 'sample_time_ms': 46646.563, 'num_steps_sampled': 1101600, 'grad_time_ms': 372.928, 'num_steps_trained': 1101600, 'load_time_ms': 0.688, 'update_time_ms': 2.681}",918,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.866575717926025,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,165600,1101600,{},138,295,-13.61323078722381,2025-09-05_03-07-06,4.001927960708255,3651949,1757034426,3.8888666033676937,38186.61889243126,113955,4.074576271186441
+cda-server-2,False,6577.984277009964,"{'default': {'cur_lr': 4.999999873689376e-05, 'vf_loss': 2.418276786804199, 'cur_kl_coeff': 0.6935440301895142, 'policy_loss': -0.046036407351493835, 'vf_explained_var': 0.7593923211097717, 'entropy': 1.7718133926391602, 'total_loss': 2.378685235977173, 'kl': 0.009292426519095898}, 'sample_time_ms': 46687.135, 'num_steps_sampled': 1102800, 'grad_time_ms': 376.168, 'num_steps_trained': 1102800, 'load_time_ms': 0.711, 'update_time_ms': 2.739}",919,"{'clip_actions': True, 'vf_share_layers': False, 'entropy_coeff': 0.0, 'clip_param': 0.3, 'lr': 5e-05, 'monitor': False, 'observation_filter': 'MeanStdFilter', 'input': 'sampler', 'sample_async': False, 'multiagent': {'policies_to_train': None, 'policy_graphs': {}, 'policy_mapping_fn': None}, 'tf_session_args': {'device_count': {'CPU': 1}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False, 'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'collect_metrics_timeout': 180, 'synchronize_filters': True, 'sgd_minibatch_size': 128, 'output': None, 'use_gae': True, 'num_gpus_per_worker': 0, 'batch_mode': 'truncate_episodes', 'compress_observations': False, 'local_evaluator_tf_session_args': {'inter_op_parallelism_threads': 8, 'intra_op_parallelism_threads': 8}, 'custom_resources_per_worker': {}, 'num_sgd_iter': 30, 'simple_optimizer': False, 'num_workers': 3, 'output_max_file_size': 67108864, 'input_evaluation': None, 'num_envs_per_worker': 1, 'preprocessor_pref': 'deepmind', 'callbacks': {'on_train_result': None, 'on_episode_step': None, 'on_sample_end': None, 'on_episode_end': None, 'on_episode_start': None}, 'num_gpus': 0, 'straggler_mitigation': False, 'grad_clip': None, 'output_compress_columns': ['obs', 'new_obs'], 'kl_target': 0.01, 'vf_loss_coeff': 1.0, 'num_cpus_for_driver': 1, 'num_cpus_per_worker': 1, 'env': 'Zhenxin_S_FC', 'lr_schedule': None, 'vf_clip_param': 10.0, 'log_level': 'INFO', 'postprocess_inputs': False, 'optimizer': {}, 'model': {'use_lstm': False, 'dim': 84, 'max_seq_len': 20, 'fcnet_hiddens': [128, 128, 128], 'zero_mean': True, 'custom_preprocessor': None, 'grayscale': False, 'squash_to_range': False, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'conv_filters': None, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'framestack': True, 'custom_model': None, 'custom_options': {}, 'fcnet_activation': 'tanh'}, 'env_config': {'generalize': False, 'run_valid': False}, 'horizon': 50, 'gamma': 0.99, 'clip_rewards': None, 'kl_coeff': 0.2, 'sample_batch_size': 200, 'lambda': 1.0, 'train_batch_size': 1200}",46.82063817977905,0,{},881ce36181fe42dabe29289bda5f7577,10.157.146.2,1200,166800,1102800,{},139,293,-19.70253313989107,2025-09-05_03-07-53,4.198803029835787,3651949,1757034473,3.877643137113445,38233.43953061104,114248,4.081911262798635
diff --git a/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/PPO_Zhenxin_S_FC_0_2025-09-04_16-10-519x116nc6/result.json b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/PPO_Zhenxin_S_FC_0_2025-09-04_16-10-519x116nc6/result.json
new file mode 100644
index 0000000..273688e
--- /dev/null
+++ b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/PPO_Zhenxin_S_FC_0_2025-09-04_16-10-519x116nc6/result.json
@@ -0,0 +1,940 @@
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 140.99133276939392, "info": {"sample_time_ms": 139859.504, "num_steps_trained": 1200, "grad_time_ms": 653.542, "default": {"cur_kl_coeff": 0.20000000298023224, "vf_loss": 2231.562255859375, "policy_loss": -0.11362738162279129, "vf_explained_var": -0.0003447002964094281, "entropy": 15.597346305847168, "cur_lr": 4.999999873689376e-05, "total_loss": 2231.454833984375, "kl": 0.03053244948387146}, "load_time_ms": 27.299, "num_steps_sampled": 1200, "update_time_ms": 416.916}, "training_iteration": 1, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 140.99133276939392, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 1200, "timesteps_total": 1200, "custom_metrics": {}, "iterations_since_restore": 1, "episodes_this_iter": 24, "episode_reward_min": -100.0666019790363, "date": "2025-09-04_16-15-07", "episode_reward_max": -93.22332074316793, "pid": 3651948, "timestamp": 1756995307, "episode_reward_mean": -97.30795660981228, "time_total_s": 140.99133276939392, "episodes_total": 24, "episode_len_mean": 50.0}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 187.5420961380005, "info": {"sample_time_ms": 92992.711, "num_steps_trained": 2400, "grad_time_ms": 534.807, "default": {"cur_kl_coeff": 0.30000001192092896, "vf_loss": 2008.263427734375, "policy_loss": -0.11293138563632965, "vf_explained_var": -0.0319129154086113, "entropy": 15.605307579040527, "cur_lr": 4.999999873689376e-05, "total_loss": 2008.15966796875, "kl": 0.030827680602669716}, "load_time_ms": 14.011, "num_steps_sampled": 2400, "update_time_ms": 209.994}, "training_iteration": 2, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.55076336860657, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 2400, "timesteps_total": 2400, "custom_metrics": {}, "iterations_since_restore": 2, "episodes_this_iter": 24, "episode_reward_min": -100.0666019790363, "date": "2025-09-04_16-15-53", "episode_reward_max": -93.22332074316793, "pid": 3651948, "timestamp": 1756995353, "episode_reward_mean": -97.6085290053284, "time_total_s": 187.5420961380005, "episodes_total": 48, "episode_len_mean": 50.0}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 248.49070477485657, "info": {"sample_time_ms": 82189.195, "num_steps_trained": 3600, "grad_time_ms": 475.83, "default": {"cur_kl_coeff": 0.44999995827674866, "vf_loss": 1854.1104736328125, "policy_loss": -0.10487513989210129, "vf_explained_var": -0.018647870048880577, "entropy": 15.596461296081543, "cur_lr": 4.999999873689376e-05, "total_loss": 1854.0181884765625, "kl": 0.02738937921822071}, "load_time_ms": 9.619, "num_steps_sampled": 3600, "update_time_ms": 140.997}, "training_iteration": 3, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 60.94860863685608, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 3600, "timesteps_total": 3600, "custom_metrics": {}, "iterations_since_restore": 3, "episodes_this_iter": 24, "episode_reward_min": -100.0666019790363, "date": "2025-09-04_16-16-54", "episode_reward_max": -93.22332074316793, "pid": 3651948, "timestamp": 1756995414, "episode_reward_mean": -97.54624563833285, "time_total_s": 248.49070477485657, "episodes_total": 72, "episode_len_mean": 50.0}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 289.3633248806, "info": {"sample_time_ms": 71768.578, "num_steps_trained": 4800, "grad_time_ms": 446.461, "default": {"cur_kl_coeff": 0.675000011920929, "vf_loss": 1733.2108154296875, "policy_loss": -0.11116102337837219, "vf_explained_var": -0.05004839599132538, "entropy": 15.587655067443848, "cur_lr": 4.999999873689376e-05, "total_loss": 1733.1148681640625, "kl": 0.022528911009430885}, "load_time_ms": 7.375, "num_steps_sampled": 4800, "update_time_ms": 106.338}, "training_iteration": 4, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.87262010574341, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 4800, "timesteps_total": 4800, "custom_metrics": {}, "iterations_since_restore": 4, "episodes_this_iter": 24, "episode_reward_min": -100.0666019790363, "date": "2025-09-04_16-17-35", "episode_reward_max": -91.89653622755112, "pid": 3651948, "timestamp": 1756995455, "episode_reward_mean": -97.5726961111477, "time_total_s": 289.3633248806, "episodes_total": 96, "episode_len_mean": 50.0}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 329.5035173892975, "info": {"sample_time_ms": 65366.457, "num_steps_trained": 6000, "grad_time_ms": 432.08, "default": {"cur_kl_coeff": 1.0125000476837158, "vf_loss": 1653.20263671875, "policy_loss": -0.10911934822797775, "vf_explained_var": -0.07681050896644592, "entropy": 15.577970504760742, "cur_lr": 4.999999873689376e-05, "total_loss": 1653.112548828125, "kl": 0.01889631897211075}, "load_time_ms": 6.065, "num_steps_sampled": 6000, "update_time_ms": 85.553}, "training_iteration": 5, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.14019250869751, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 6000, "timesteps_total": 6000, "custom_metrics": {}, "iterations_since_restore": 5, "episodes_this_iter": 24, "episode_reward_min": -99.99385424763929, "date": "2025-09-04_16-18-15", "episode_reward_max": -91.89653622755112, "pid": 3651948, "timestamp": 1756995495, "episode_reward_mean": -97.58844576213276, "time_total_s": 329.5035173892975, "episodes_total": 120, "episode_len_mean": 50.0}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 369.60118436813354, "info": {"sample_time_ms": 61089.625, "num_steps_trained": 7200, "grad_time_ms": 424.118, "default": {"cur_kl_coeff": 1.0125000476837158, "vf_loss": 1622.42236328125, "policy_loss": -0.0988093689084053, "vf_explained_var": -0.13713043928146362, "entropy": 15.560051918029785, "cur_lr": 4.999999873689376e-05, "total_loss": 1622.34228515625, "kl": 0.018548818305134773}, "load_time_ms": 5.173, "num_steps_sampled": 7200, "update_time_ms": 71.689}, "training_iteration": 6, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.09766697883606, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 7200, "timesteps_total": 7200, "custom_metrics": {}, "iterations_since_restore": 6, "episodes_this_iter": 24, "episode_reward_min": -99.99385424763929, "date": "2025-09-04_16-18-55", "episode_reward_max": -91.89653622755112, "pid": 3651948, "timestamp": 1756995535, "episode_reward_mean": -97.54368201093162, "time_total_s": 369.60118436813354, "episodes_total": 144, "episode_len_mean": 50.0}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 409.36658096313477, "info": {"sample_time_ms": 57991.308, "num_steps_trained": 8400, "grad_time_ms": 414.365, "default": {"cur_kl_coeff": 1.0125000476837158, "vf_loss": 1449.89404296875, "policy_loss": -0.10638123005628586, "vf_explained_var": -0.13925179839134216, "entropy": 15.54902172088623, "cur_lr": 4.999999873689376e-05, "total_loss": 1449.80712890625, "kl": 0.019342221319675446}, "load_time_ms": 4.528, "num_steps_sampled": 8400, "update_time_ms": 61.871}, "training_iteration": 7, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.76539659500122, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 8400, "timesteps_total": 8400, "custom_metrics": {}, "iterations_since_restore": 7, "episodes_this_iter": 24, "episode_reward_min": -99.99385424763929, "date": "2025-09-04_16-19-35", "episode_reward_max": -30.71669919267596, "pid": 3651948, "timestamp": 1756995575, "episode_reward_mean": -96.51648214196463, "time_total_s": 409.36658096313477, "episodes_total": 168, "episode_len_mean": 49.64}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 449.37567710876465, "info": {"sample_time_ms": 55695.786, "num_steps_trained": 9600, "grad_time_ms": 409.353, "default": {"cur_kl_coeff": 1.0125000476837158, "vf_loss": 1406.4390869140625, "policy_loss": -0.10367625206708908, "vf_explained_var": -0.18408912420272827, "entropy": 15.551528930664062, "cur_lr": 4.999999873689376e-05, "total_loss": 1406.35302734375, "kl": 0.01746782474219799}, "load_time_ms": 4.044, "num_steps_sampled": 9600, "update_time_ms": 54.458}, "training_iteration": 8, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.00909614562988, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 9600, "timesteps_total": 9600, "custom_metrics": {}, "iterations_since_restore": 8, "episodes_this_iter": 24, "episode_reward_min": -99.89664753970594, "date": "2025-09-04_16-20-15", "episode_reward_max": -24.47619018840004, "pid": 3651948, "timestamp": 1756995615, "episode_reward_mean": -95.89876277925154, "time_total_s": 449.37567710876465, "episodes_total": 192, "episode_len_mean": 49.33}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 490.18978786468506, "info": {"sample_time_ms": 53999.365, "num_steps_trained": 10800, "grad_time_ms": 405.921, "default": {"cur_kl_coeff": 1.0125000476837158, "vf_loss": 1334.082275390625, "policy_loss": -0.10778095573186874, "vf_explained_var": -0.20987066626548767, "entropy": 15.519222259521484, "cur_lr": 4.999999873689376e-05, "total_loss": 1333.9931640625, "kl": 0.01847856305539608}, "load_time_ms": 3.674, "num_steps_sampled": 10800, "update_time_ms": 48.693}, "training_iteration": 9, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.81411075592041, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 10800, "timesteps_total": 10800, "custom_metrics": {}, "iterations_since_restore": 9, "episodes_this_iter": 25, "episode_reward_min": -99.89664753970594, "date": "2025-09-04_16-20-56", "episode_reward_max": -23.04501059558644, "pid": 3651948, "timestamp": 1756995656, "episode_reward_mean": -95.2285475105528, "time_total_s": 490.18978786468506, "episodes_total": 217, "episode_len_mean": 49.01}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 530.0455119609833, "info": {"sample_time_ms": 52548.508, "num_steps_trained": 12000, "grad_time_ms": 401.092, "default": {"cur_kl_coeff": 1.0125000476837158, "vf_loss": 1255.589599609375, "policy_loss": -0.11320510506629944, "vf_explained_var": -0.24970334768295288, "entropy": 15.53376293182373, "cur_lr": 4.999999873689376e-05, "total_loss": 1255.4962158203125, "kl": 0.019503416493535042}, "load_time_ms": 3.373, "num_steps_sampled": 12000, "update_time_ms": 44.053}, "training_iteration": 10, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.85572409629822, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 12000, "timesteps_total": 12000, "custom_metrics": {}, "iterations_since_restore": 10, "episodes_this_iter": 24, "episode_reward_min": -99.89664753970594, "date": "2025-09-04_16-21-36", "episode_reward_max": -23.04501059558644, "pid": 3651948, "timestamp": 1756995696, "episode_reward_mean": -94.32109097779768, "time_total_s": 530.0455119609833, "episodes_total": 241, "episode_len_mean": 48.7}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 569.8694930076599, "info": {"sample_time_ms": 42508.571, "num_steps_trained": 13200, "grad_time_ms": 371.291, "default": {"cur_kl_coeff": 1.0125000476837158, "vf_loss": 1171.419677734375, "policy_loss": -0.10418149828910828, "vf_explained_var": -0.26429101824760437, "entropy": 15.501246452331543, "cur_lr": 4.999999873689376e-05, "total_loss": 1171.3345947265625, "kl": 0.01891779899597168}, "load_time_ms": 0.705, "num_steps_sampled": 13200, "update_time_ms": 2.679}, "training_iteration": 11, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.823981046676636, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 13200, "timesteps_total": 13200, "custom_metrics": {}, "iterations_since_restore": 11, "episodes_this_iter": 25, "episode_reward_min": -99.9892110402293, "date": "2025-09-04_16-22-16", "episode_reward_max": -23.04501059558644, "pid": 3651948, "timestamp": 1756995736, "episode_reward_mean": -94.70175302960016, "time_total_s": 569.8694930076599, "episodes_total": 266, "episode_len_mean": 48.81}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 609.4798724651337, "info": {"sample_time_ms": 41820.453, "num_steps_trained": 14400, "grad_time_ms": 365.48, "default": {"cur_kl_coeff": 1.0125000476837158, "vf_loss": 1192.4371337890625, "policy_loss": -0.10855650901794434, "vf_explained_var": -0.3701235353946686, "entropy": 15.489436149597168, "cur_lr": 4.999999873689376e-05, "total_loss": 1192.3475341796875, "kl": 0.018641583621501923}, "load_time_ms": 0.704, "num_steps_sampled": 14400, "update_time_ms": 2.628}, "training_iteration": 12, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.610379457473755, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 14400, "timesteps_total": 14400, "custom_metrics": {}, "iterations_since_restore": 12, "episodes_this_iter": 24, "episode_reward_min": -99.9892110402293, "date": "2025-09-04_16-22-55", "episode_reward_max": -23.04501059558644, "pid": 3651948, "timestamp": 1756995775, "episode_reward_mean": -95.53298387289084, "time_total_s": 609.4798724651337, "episodes_total": 290, "episode_len_mean": 49.13}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 649.2679927349091, "info": {"sample_time_ms": 39703.982, "num_steps_trained": 15600, "grad_time_ms": 365.999, "default": {"cur_kl_coeff": 1.0125000476837158, "vf_loss": 1188.027099609375, "policy_loss": -0.10490735620260239, "vf_explained_var": -0.46393129229545593, "entropy": 15.496283531188965, "cur_lr": 4.999999873689376e-05, "total_loss": 1187.9417724609375, "kl": 0.019278578460216522}, "load_time_ms": 0.698, "num_steps_sampled": 15600, "update_time_ms": 2.577}, "training_iteration": 13, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.78812026977539, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 15600, "timesteps_total": 15600, "custom_metrics": {}, "iterations_since_restore": 13, "episodes_this_iter": 24, "episode_reward_min": -99.9892110402293, "date": "2025-09-04_16-23-35", "episode_reward_max": -25.85968405258626, "pid": 3651948, "timestamp": 1756995815, "episode_reward_mean": -96.20017378990354, "time_total_s": 649.2679927349091, "episodes_total": 314, "episode_len_mean": 49.45}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 689.2937431335449, "info": {"sample_time_ms": 39617.616, "num_steps_trained": 16800, "grad_time_ms": 367.68, "default": {"cur_kl_coeff": 1.0125000476837158, "vf_loss": 1119.98095703125, "policy_loss": -0.1071331575512886, "vf_explained_var": -0.3960515260696411, "entropy": 15.486916542053223, "cur_lr": 4.999999873689376e-05, "total_loss": 1119.8934326171875, "kl": 0.019492844119668007}, "load_time_ms": 0.713, "num_steps_sampled": 16800, "update_time_ms": 2.57}, "training_iteration": 14, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.025750398635864, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 16800, "timesteps_total": 16800, "custom_metrics": {}, "iterations_since_restore": 14, "episodes_this_iter": 24, "episode_reward_min": -100.10138569553668, "date": "2025-09-04_16-24-15", "episode_reward_max": -38.72316905582058, "pid": 3651948, "timestamp": 1756995855, "episode_reward_mean": -97.13363621111745, "time_total_s": 689.2937431335449, "episodes_total": 338, "episode_len_mean": 49.76}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 729.1800971031189, "info": {"sample_time_ms": 39591.578, "num_steps_trained": 18000, "grad_time_ms": 368.351, "default": {"cur_kl_coeff": 1.0125000476837158, "vf_loss": 1143.7335205078125, "policy_loss": -0.10774454474449158, "vf_explained_var": -0.4819021224975586, "entropy": 15.48103141784668, "cur_lr": 4.999999873689376e-05, "total_loss": 1143.6439208984375, "kl": 0.017882168292999268}, "load_time_ms": 0.697, "num_steps_sampled": 18000, "update_time_ms": 2.57}, "training_iteration": 15, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.886353969573975, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 18000, "timesteps_total": 18000, "custom_metrics": {}, "iterations_since_restore": 15, "episodes_this_iter": 24, "episode_reward_min": -100.10138569553668, "date": "2025-09-04_16-24-55", "episode_reward_max": -92.41579714679654, "pid": 3651948, "timestamp": 1756995895, "episode_reward_mean": -97.83491767123333, "time_total_s": 729.1800971031189, "episodes_total": 362, "episode_len_mean": 50.0}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 769.293693780899, "info": {"sample_time_ms": 39595.882, "num_steps_trained": 19200, "grad_time_ms": 365.663, "default": {"cur_kl_coeff": 1.0125000476837158, "vf_loss": 1088.394287109375, "policy_loss": -0.1057095155119896, "vf_explained_var": -0.46451839804649353, "entropy": 15.46332836151123, "cur_lr": 4.999999873689376e-05, "total_loss": 1088.307373046875, "kl": 0.01861894316971302}, "load_time_ms": 0.689, "num_steps_sampled": 19200, "update_time_ms": 2.606}, "training_iteration": 16, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.11359667778015, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 19200, "timesteps_total": 19200, "custom_metrics": {}, "iterations_since_restore": 16, "episodes_this_iter": 24, "episode_reward_min": -100.10138569553668, "date": "2025-09-04_16-25-35", "episode_reward_max": -92.41579714679654, "pid": 3651948, "timestamp": 1756995935, "episode_reward_mean": -97.72628511499211, "time_total_s": 769.293693780899, "episodes_total": 386, "episode_len_mean": 50.0}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 808.9712433815002, "info": {"sample_time_ms": 39585.098, "num_steps_trained": 20400, "grad_time_ms": 367.68, "default": {"cur_kl_coeff": 1.0125000476837158, "vf_loss": 1159.6478271484375, "policy_loss": -0.12469884753227234, "vf_explained_var": -0.5814424157142639, "entropy": 15.468914031982422, "cur_lr": 4.999999873689376e-05, "total_loss": 1159.5428466796875, "kl": 0.01942109689116478}, "load_time_ms": 0.7, "num_steps_sampled": 20400, "update_time_ms": 2.561}, "training_iteration": 17, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.677549600601196, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 20400, "timesteps_total": 20400, "custom_metrics": {}, "iterations_since_restore": 17, "episodes_this_iter": 24, "episode_reward_min": -100.10138569553668, "date": "2025-09-04_16-26-15", "episode_reward_max": -94.52557691990086, "pid": 3651948, "timestamp": 1756995975, "episode_reward_mean": -97.73629758608034, "time_total_s": 808.9712433815002, "episodes_total": 410, "episode_len_mean": 50.0}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 849.0680379867554, "info": {"sample_time_ms": 39592.423, "num_steps_trained": 21600, "grad_time_ms": 369.09, "default": {"cur_kl_coeff": 1.0125000476837158, "vf_loss": 1102.488037109375, "policy_loss": -0.10093361139297485, "vf_explained_var": -0.46737515926361084, "entropy": 15.47008228302002, "cur_lr": 4.999999873689376e-05, "total_loss": 1102.40625, "kl": 0.01886645331978798}, "load_time_ms": 0.73, "num_steps_sampled": 21600, "update_time_ms": 2.575}, "training_iteration": 18, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.09679460525513, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 21600, "timesteps_total": 21600, "custom_metrics": {}, "iterations_since_restore": 18, "episodes_this_iter": 25, "episode_reward_min": -99.94909641233812, "date": "2025-09-04_16-26-55", "episode_reward_max": -1.137450634299789, "pid": 3651948, "timestamp": 1756996015, "episode_reward_mean": -95.90983970514493, "time_total_s": 849.0680379867554, "episodes_total": 435, "episode_len_mean": 49.19}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 888.7057158946991, "info": {"sample_time_ms": 39476.752, "num_steps_trained": 22800, "grad_time_ms": 367.102, "default": {"cur_kl_coeff": 1.0125000476837158, "vf_loss": 1188.67138671875, "policy_loss": -0.11527708917856216, "vf_explained_var": -0.5554392337799072, "entropy": 15.453225135803223, "cur_lr": 4.999999873689376e-05, "total_loss": 1188.5748291015625, "kl": 0.018716327846050262}, "load_time_ms": 0.722, "num_steps_sampled": 22800, "update_time_ms": 2.588}, "training_iteration": 19, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.637677907943726, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 22800, "timesteps_total": 22800, "custom_metrics": {}, "iterations_since_restore": 19, "episodes_this_iter": 24, "episode_reward_min": -99.85778078216784, "date": "2025-09-04_16-27-35", "episode_reward_max": -1.137450634299789, "pid": 3651948, "timestamp": 1756996055, "episode_reward_mean": -95.80412959682307, "time_total_s": 888.7057158946991, "episodes_total": 459, "episode_len_mean": 49.19}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 928.5402855873108, "info": {"sample_time_ms": 39473.313, "num_steps_trained": 24000, "grad_time_ms": 368.399, "default": {"cur_kl_coeff": 1.0125000476837158, "vf_loss": 1222.9095458984375, "policy_loss": -0.1030873954296112, "vf_explained_var": -0.6650868654251099, "entropy": 15.46270751953125, "cur_lr": 4.999999873689376e-05, "total_loss": 1222.82666015625, "kl": 0.019915420562028885}, "load_time_ms": 0.726, "num_steps_sampled": 24000, "update_time_ms": 2.605}, "training_iteration": 20, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.834569692611694, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 24000, "timesteps_total": 24000, "custom_metrics": {}, "iterations_since_restore": 20, "episodes_this_iter": 24, "episode_reward_min": -99.85778078216784, "date": "2025-09-04_16-28-15", "episode_reward_max": -1.137450634299789, "pid": 3651948, "timestamp": 1756996095, "episode_reward_mean": -95.87886228236576, "time_total_s": 928.5402855873108, "episodes_total": 483, "episode_len_mean": 49.19}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 968.6658818721771, "info": {"sample_time_ms": 39501.469, "num_steps_trained": 25200, "grad_time_ms": 370.435, "default": {"cur_kl_coeff": 1.0125000476837158, "vf_loss": 1268.17236328125, "policy_loss": -0.09783076494932175, "vf_explained_var": -0.7616844177246094, "entropy": 15.439361572265625, "cur_lr": 4.999999873689376e-05, "total_loss": 1268.0931396484375, "kl": 0.018327785655856133}, "load_time_ms": 0.733, "num_steps_sampled": 25200, "update_time_ms": 2.6}, "training_iteration": 21, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.12559628486633, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 25200, "timesteps_total": 25200, "custom_metrics": {}, "iterations_since_restore": 21, "episodes_this_iter": 24, "episode_reward_min": -99.86032434277038, "date": "2025-09-04_16-28-55", "episode_reward_max": -1.137450634299789, "pid": 3651948, "timestamp": 1756996135, "episode_reward_mean": -95.82387425761877, "time_total_s": 968.6658818721771, "episodes_total": 507, "episode_len_mean": 49.19}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1008.8821487426758, "info": {"sample_time_ms": 39559.169, "num_steps_trained": 26400, "grad_time_ms": 373.318, "default": {"cur_kl_coeff": 1.0125000476837158, "vf_loss": 1154.8974609375, "policy_loss": -0.10972815752029419, "vf_explained_var": -0.6122896671295166, "entropy": 15.398881912231445, "cur_lr": 4.999999873689376e-05, "total_loss": 1154.80810546875, "kl": 0.02011170983314514}, "load_time_ms": 0.735, "num_steps_sampled": 26400, "update_time_ms": 2.583}, "training_iteration": 22, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.21626687049866, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 26400, "timesteps_total": 26400, "custom_metrics": {}, "iterations_since_restore": 22, "episodes_this_iter": 24, "episode_reward_min": -99.86032434277038, "date": "2025-09-04_16-29-35", "episode_reward_max": -90.4005844146529, "pid": 3651948, "timestamp": 1756996175, "episode_reward_mean": -97.62980122668787, "time_total_s": 1008.8821487426758, "episodes_total": 531, "episode_len_mean": 50.0}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1048.678347826004, "info": {"sample_time_ms": 39560.576, "num_steps_trained": 27600, "grad_time_ms": 372.732, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1281.469970703125, "policy_loss": -0.10534890741109848, "vf_explained_var": -0.8017933964729309, "entropy": 15.448863983154297, "cur_lr": 4.999999873689376e-05, "total_loss": 1281.388916015625, "kl": 0.015983637422323227}, "load_time_ms": 0.726, "num_steps_sampled": 27600, "update_time_ms": 2.585}, "training_iteration": 23, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.79619908332825, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 27600, "timesteps_total": 27600, "custom_metrics": {}, "iterations_since_restore": 23, "episodes_this_iter": 24, "episode_reward_min": -99.86032434277038, "date": "2025-09-04_16-30-15", "episode_reward_max": -90.4005844146529, "pid": 3651948, "timestamp": 1756996215, "episode_reward_mean": -97.49737593284527, "time_total_s": 1048.678347826004, "episodes_total": 555, "episode_len_mean": 50.0}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1089.2785403728485, "info": {"sample_time_ms": 39620.043, "num_steps_trained": 28800, "grad_time_ms": 370.708, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1191.23193359375, "policy_loss": -0.09724703431129456, "vf_explained_var": -0.7418419718742371, "entropy": 15.407340049743652, "cur_lr": 4.999999873689376e-05, "total_loss": 1191.15380859375, "kl": 0.01257497537881136}, "load_time_ms": 0.723, "num_steps_sampled": 28800, "update_time_ms": 2.588}, "training_iteration": 24, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.60019254684448, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 28800, "timesteps_total": 28800, "custom_metrics": {}, "iterations_since_restore": 24, "episodes_this_iter": 24, "episode_reward_min": -99.98463372714971, "date": "2025-09-04_16-30-55", "episode_reward_max": -90.4005844146529, "pid": 3651948, "timestamp": 1756996255, "episode_reward_mean": -97.50489288226183, "time_total_s": 1089.2785403728485, "episodes_total": 579, "episode_len_mean": 50.0}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1129.0712842941284, "info": {"sample_time_ms": 39613.007, "num_steps_trained": 30000, "grad_time_ms": 368.383, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1242.32080078125, "policy_loss": -0.12498721480369568, "vf_explained_var": -0.7720822095870972, "entropy": 15.434539794921875, "cur_lr": 4.999999873689376e-05, "total_loss": 1242.2161865234375, "kl": 0.013309704139828682}, "load_time_ms": 0.727, "num_steps_sampled": 30000, "update_time_ms": 2.583}, "training_iteration": 25, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.79274392127991, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 30000, "timesteps_total": 30000, "custom_metrics": {}, "iterations_since_restore": 25, "episodes_this_iter": 24, "episode_reward_min": -100.10329485311799, "date": "2025-09-04_16-31-35", "episode_reward_max": -94.09882496122897, "pid": 3651948, "timestamp": 1756996295, "episode_reward_mean": -97.35178240898782, "time_total_s": 1129.0712842941284, "episodes_total": 603, "episode_len_mean": 50.0}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1168.7032897472382, "info": {"sample_time_ms": 39562.756, "num_steps_trained": 31200, "grad_time_ms": 370.497, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1173.93701171875, "policy_loss": -0.10411402583122253, "vf_explained_var": -0.6004043221473694, "entropy": 15.364545822143555, "cur_lr": 4.999999873689376e-05, "total_loss": 1173.8564453125, "kl": 0.01551245991140604}, "load_time_ms": 0.725, "num_steps_sampled": 31200, "update_time_ms": 2.535}, "training_iteration": 26, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.63200545310974, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 31200, "timesteps_total": 31200, "custom_metrics": {}, "iterations_since_restore": 26, "episodes_this_iter": 24, "episode_reward_min": -100.10329485311799, "date": "2025-09-04_16-32-15", "episode_reward_max": -57.801233031301635, "pid": 3651948, "timestamp": 1756996335, "episode_reward_mean": -97.0011269918407, "time_total_s": 1168.7032897472382, "episodes_total": 627, "episode_len_mean": 49.86}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1208.4105989933014, "info": {"sample_time_ms": 39565.133, "num_steps_trained": 32400, "grad_time_ms": 371.029, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1281.2742919921875, "policy_loss": -0.10503542423248291, "vf_explained_var": -0.700732946395874, "entropy": 15.384541511535645, "cur_lr": 4.999999873689376e-05, "total_loss": 1281.1903076171875, "kl": 0.013778585940599442}, "load_time_ms": 0.749, "num_steps_sampled": 32400, "update_time_ms": 2.55}, "training_iteration": 27, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.70730924606323, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 32400, "timesteps_total": 32400, "custom_metrics": {}, "iterations_since_restore": 27, "episodes_this_iter": 24, "episode_reward_min": -100.10329485311799, "date": "2025-09-04_16-32-55", "episode_reward_max": -57.801233031301635, "pid": 3651948, "timestamp": 1756996375, "episode_reward_mean": -97.03697085146841, "time_total_s": 1208.4105989933014, "episodes_total": 651, "episode_len_mean": 49.86}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1248.9155259132385, "info": {"sample_time_ms": 39606.656, "num_steps_trained": 33600, "grad_time_ms": 370.364, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1321.213623046875, "policy_loss": -0.10575778782367706, "vf_explained_var": -0.8148228526115417, "entropy": 15.369461059570312, "cur_lr": 4.999999873689376e-05, "total_loss": 1321.1295166015625, "kl": 0.014238353818655014}, "load_time_ms": 0.72, "num_steps_sampled": 33600, "update_time_ms": 2.546}, "training_iteration": 28, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.504926919937134, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 33600, "timesteps_total": 33600, "custom_metrics": {}, "iterations_since_restore": 28, "episodes_this_iter": 24, "episode_reward_min": -100.10329485311799, "date": "2025-09-04_16-33-35", "episode_reward_max": -57.801233031301635, "pid": 3651948, "timestamp": 1756996415, "episode_reward_mean": -97.03483582868591, "time_total_s": 1248.9155259132385, "episodes_total": 675, "episode_len_mean": 49.86}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1288.9718182086945, "info": {"sample_time_ms": 39647.71, "num_steps_trained": 34800, "grad_time_ms": 371.231, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1341.10400390625, "policy_loss": -0.10665473341941833, "vf_explained_var": -0.8043767213821411, "entropy": 15.401509284973145, "cur_lr": 4.999999873689376e-05, "total_loss": 1341.019775390625, "kl": 0.014626596122980118}, "load_time_ms": 0.72, "num_steps_sampled": 34800, "update_time_ms": 2.513}, "training_iteration": 29, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.05629229545593, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 34800, "timesteps_total": 34800, "custom_metrics": {}, "iterations_since_restore": 29, "episodes_this_iter": 24, "episode_reward_min": -99.95508627430446, "date": "2025-09-04_16-34-15", "episode_reward_max": -57.801233031301635, "pid": 3651948, "timestamp": 1756996455, "episode_reward_mean": -97.0966372787425, "time_total_s": 1288.9718182086945, "episodes_total": 699, "episode_len_mean": 49.86}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1328.9700276851654, "info": {"sample_time_ms": 39662.755, "num_steps_trained": 36000, "grad_time_ms": 372.537, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1277.83251953125, "policy_loss": -0.10264497995376587, "vf_explained_var": -0.7749524712562561, "entropy": 15.299591064453125, "cur_lr": 4.999999873689376e-05, "total_loss": 1277.75146484375, "kl": 0.014280046336352825}, "load_time_ms": 0.715, "num_steps_sampled": 36000, "update_time_ms": 2.514}, "training_iteration": 30, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.99820947647095, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 36000, "timesteps_total": 36000, "custom_metrics": {}, "iterations_since_restore": 30, "episodes_this_iter": 25, "episode_reward_min": -99.99093155757775, "date": "2025-09-04_16-34-55", "episode_reward_max": 0.0015531449246815043, "pid": 3651948, "timestamp": 1756996495, "episode_reward_mean": -96.37514610728846, "time_total_s": 1328.9700276851654, "episodes_total": 724, "episode_len_mean": 49.56}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1369.1333026885986, "info": {"sample_time_ms": 39665.146, "num_steps_trained": 37200, "grad_time_ms": 373.787, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1310.75341796875, "policy_loss": -0.10099545121192932, "vf_explained_var": -0.7382559180259705, "entropy": 15.32412052154541, "cur_lr": 4.999999873689376e-05, "total_loss": 1310.672119140625, "kl": 0.012976918369531631}, "load_time_ms": 0.725, "num_steps_sampled": 37200, "update_time_ms": 2.568}, "training_iteration": 31, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.16327500343323, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 37200, "timesteps_total": 37200, "custom_metrics": {}, "iterations_since_restore": 31, "episodes_this_iter": 25, "episode_reward_min": -99.99093155757775, "date": "2025-09-04_16-35-36", "episode_reward_max": 0.0015531449246815043, "pid": 3651948, "timestamp": 1756996536, "episode_reward_mean": -95.63129160278804, "time_total_s": 1369.1333026885986, "episodes_total": 749, "episode_len_mean": 49.21}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1408.7570397853851, "info": {"sample_time_ms": 39608.775, "num_steps_trained": 38400, "grad_time_ms": 370.909, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1223.63525390625, "policy_loss": -0.12073878198862076, "vf_explained_var": -0.7618313431739807, "entropy": 15.325020790100098, "cur_lr": 4.999999873689376e-05, "total_loss": 1223.53466796875, "kl": 0.01335633173584938}, "load_time_ms": 0.731, "num_steps_sampled": 38400, "update_time_ms": 2.589}, "training_iteration": 32, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.6237370967865, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 38400, "timesteps_total": 38400, "custom_metrics": {}, "iterations_since_restore": 32, "episodes_this_iter": 24, "episode_reward_min": -99.99093155757775, "date": "2025-09-04_16-36-15", "episode_reward_max": 0.0015531449246815043, "pid": 3651948, "timestamp": 1756996575, "episode_reward_mean": -95.55989689348331, "time_total_s": 1408.7570397853851, "episodes_total": 773, "episode_len_mean": 49.21}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1448.3962044715881, "info": {"sample_time_ms": 39589.868, "num_steps_trained": 39600, "grad_time_ms": 374.091, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1231.0386962890625, "policy_loss": -0.11493682861328125, "vf_explained_var": -0.7585346698760986, "entropy": 15.28339672088623, "cur_lr": 4.999999873689376e-05, "total_loss": 1230.9471435546875, "kl": 0.015361123718321323}, "load_time_ms": 0.733, "num_steps_sampled": 39600, "update_time_ms": 2.56}, "training_iteration": 33, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.639164686203, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 39600, "timesteps_total": 39600, "custom_metrics": {}, "iterations_since_restore": 33, "episodes_this_iter": 24, "episode_reward_min": -99.99093155757775, "date": "2025-09-04_16-36-55", "episode_reward_max": 0.0015531449246815043, "pid": 3651948, "timestamp": 1756996615, "episode_reward_mean": -95.615816928204, "time_total_s": 1448.3962044715881, "episodes_total": 797, "episode_len_mean": 49.21}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1488.3905136585236, "info": {"sample_time_ms": 39528.843, "num_steps_trained": 40800, "grad_time_ms": 374.478, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1203.33447265625, "policy_loss": -0.10448554903268814, "vf_explained_var": -0.7520565390586853, "entropy": 15.311238288879395, "cur_lr": 4.999999873689376e-05, "total_loss": 1203.2515869140625, "kl": 0.014262043870985508}, "load_time_ms": 0.723, "num_steps_sampled": 40800, "update_time_ms": 2.637}, "training_iteration": 34, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.994309186935425, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 40800, "timesteps_total": 40800, "custom_metrics": {}, "iterations_since_restore": 34, "episodes_this_iter": 24, "episode_reward_min": -99.73257844882728, "date": "2025-09-04_16-37-35", "episode_reward_max": -16.290060169030422, "pid": 3651948, "timestamp": 1756996655, "episode_reward_mean": -96.62528324751145, "time_total_s": 1488.3905136585236, "episodes_total": 821, "episode_len_mean": 49.65}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1528.3656723499298, "info": {"sample_time_ms": 39545.009, "num_steps_trained": 42000, "grad_time_ms": 376.545, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1227.427978515625, "policy_loss": -0.11075553297996521, "vf_explained_var": -0.801076352596283, "entropy": 15.274660110473633, "cur_lr": 4.999999873689376e-05, "total_loss": 1227.34033203125, "kl": 0.015269107185304165}, "load_time_ms": 0.725, "num_steps_sampled": 42000, "update_time_ms": 2.623}, "training_iteration": 35, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.97515869140625, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 42000, "timesteps_total": 42000, "custom_metrics": {}, "iterations_since_restore": 35, "episodes_this_iter": 24, "episode_reward_min": -99.73257844882728, "date": "2025-09-04_16-38-15", "episode_reward_max": -77.82174753169423, "pid": 3651948, "timestamp": 1756996695, "episode_reward_mean": -97.0927170250508, "time_total_s": 1528.3656723499298, "episodes_total": 845, "episode_len_mean": 49.95}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1568.491044998169, "info": {"sample_time_ms": 39596.393, "num_steps_trained": 43200, "grad_time_ms": 374.488, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1230.39404296875, "policy_loss": -0.1102805882692337, "vf_explained_var": -0.7730542421340942, "entropy": 15.220480918884277, "cur_lr": 4.999999873689376e-05, "total_loss": 1230.304931640625, "kl": 0.013823870569467545}, "load_time_ms": 0.728, "num_steps_sampled": 43200, "update_time_ms": 2.645}, "training_iteration": 36, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.125372648239136, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 43200, "timesteps_total": 43200, "custom_metrics": {}, "iterations_since_restore": 36, "episodes_this_iter": 24, "episode_reward_min": -99.99007305617893, "date": "2025-09-04_16-38-55", "episode_reward_max": -77.82174753169423, "pid": 3651948, "timestamp": 1756996735, "episode_reward_mean": -97.28325003911186, "time_total_s": 1568.491044998169, "episodes_total": 869, "episode_len_mean": 49.95}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1608.1779806613922, "info": {"sample_time_ms": 39594.501, "num_steps_trained": 44400, "grad_time_ms": 374.389, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1233.9117431640625, "policy_loss": -0.1051551029086113, "vf_explained_var": -0.6987488865852356, "entropy": 15.250106811523438, "cur_lr": 4.999999873689376e-05, "total_loss": 1233.82861328125, "kl": 0.014496508985757828}, "load_time_ms": 0.694, "num_steps_sampled": 44400, "update_time_ms": 2.627}, "training_iteration": 37, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.68693566322327, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 44400, "timesteps_total": 44400, "custom_metrics": {}, "iterations_since_restore": 37, "episodes_this_iter": 24, "episode_reward_min": -99.99007305617893, "date": "2025-09-04_16-39-35", "episode_reward_max": -77.82174753169423, "pid": 3651948, "timestamp": 1756996775, "episode_reward_mean": -97.21012824430167, "time_total_s": 1608.1779806613922, "episodes_total": 893, "episode_len_mean": 49.95}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1648.4379494190216, "info": {"sample_time_ms": 39570.653, "num_steps_trained": 45600, "grad_time_ms": 373.73, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1277.79052734375, "policy_loss": -0.10825362056493759, "vf_explained_var": -0.7801445126533508, "entropy": 15.28171157836914, "cur_lr": 4.999999873689376e-05, "total_loss": 1277.70361328125, "kl": 0.013901184312999249}, "load_time_ms": 0.694, "num_steps_sampled": 45600, "update_time_ms": 2.637}, "training_iteration": 38, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.259968757629395, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 45600, "timesteps_total": 45600, "custom_metrics": {}, "iterations_since_restore": 38, "episodes_this_iter": 24, "episode_reward_min": -99.99007305617893, "date": "2025-09-04_16-40-15", "episode_reward_max": -77.82174753169423, "pid": 3651948, "timestamp": 1756996815, "episode_reward_mean": -97.04979273483048, "time_total_s": 1648.4379494190216, "episodes_total": 917, "episode_len_mean": 49.95}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1688.43723654747, "info": {"sample_time_ms": 39563.71, "num_steps_trained": 46800, "grad_time_ms": 374.899, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1167.91552734375, "policy_loss": -0.10696208477020264, "vf_explained_var": -0.7553014755249023, "entropy": 15.204646110534668, "cur_lr": 4.999999873689376e-05, "total_loss": 1167.8319091796875, "kl": 0.015371869318187237}, "load_time_ms": 0.703, "num_steps_sampled": 46800, "update_time_ms": 2.655}, "training_iteration": 39, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.999287128448486, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 46800, "timesteps_total": 46800, "custom_metrics": {}, "iterations_since_restore": 39, "episodes_this_iter": 25, "episode_reward_min": -99.99007305617893, "date": "2025-09-04_16-40-55", "episode_reward_max": -15.99934133821527, "pid": 3651948, "timestamp": 1756996855, "episode_reward_mean": -96.36363020491022, "time_total_s": 1688.43723654747, "episodes_total": 942, "episode_len_mean": 49.59}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1729.0509288311005, "info": {"sample_time_ms": 39625.919, "num_steps_trained": 48000, "grad_time_ms": 374.175, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1148.047119140625, "policy_loss": -0.10330415517091751, "vf_explained_var": -0.7272942662239075, "entropy": 15.175899505615234, "cur_lr": 4.999999873689376e-05, "total_loss": 1147.966552734375, "kl": 0.015090687200427055}, "load_time_ms": 0.721, "num_steps_sampled": 48000, "update_time_ms": 2.669}, "training_iteration": 40, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.61369228363037, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 48000, "timesteps_total": 48000, "custom_metrics": {}, "iterations_since_restore": 40, "episodes_this_iter": 24, "episode_reward_min": -99.95344412932664, "date": "2025-09-04_16-41-36", "episode_reward_max": -15.99934133821527, "pid": 3651948, "timestamp": 1756996896, "episode_reward_mean": -96.24264843934478, "time_total_s": 1729.0509288311005, "episodes_total": 966, "episode_len_mean": 49.59}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1769.8827843666077, "info": {"sample_time_ms": 39694.499, "num_steps_trained": 49200, "grad_time_ms": 372.5, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1252.537109375, "policy_loss": -0.11457589268684387, "vf_explained_var": -0.7772528529167175, "entropy": 15.200519561767578, "cur_lr": 4.999999873689376e-05, "total_loss": 1252.4432373046875, "kl": 0.013611800968647003}, "load_time_ms": 0.725, "num_steps_sampled": 49200, "update_time_ms": 2.658}, "training_iteration": 41, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.8318555355072, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 49200, "timesteps_total": 49200, "custom_metrics": {}, "iterations_since_restore": 41, "episodes_this_iter": 24, "episode_reward_min": -99.95344412932664, "date": "2025-09-04_16-42-17", "episode_reward_max": -15.99934133821527, "pid": 3651948, "timestamp": 1756996937, "episode_reward_mean": -96.22698868572897, "time_total_s": 1769.8827843666077, "episodes_total": 990, "episode_len_mean": 49.59}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1809.5630688667297, "info": {"sample_time_ms": 39697.47, "num_steps_trained": 50400, "grad_time_ms": 375.234, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1227.67529296875, "policy_loss": -0.10887836664915085, "vf_explained_var": -0.778679609298706, "entropy": 15.25713062286377, "cur_lr": 4.999999873689376e-05, "total_loss": 1227.587158203125, "kl": 0.013566892594099045}, "load_time_ms": 0.718, "num_steps_sampled": 50400, "update_time_ms": 2.617}, "training_iteration": 42, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.68028450012207, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 50400, "timesteps_total": 50400, "custom_metrics": {}, "iterations_since_restore": 42, "episodes_this_iter": 24, "episode_reward_min": -99.95344412932664, "date": "2025-09-04_16-42-56", "episode_reward_max": -15.99934133821527, "pid": 3651948, "timestamp": 1756996976, "episode_reward_mean": -96.22189939411399, "time_total_s": 1809.5630688667297, "episodes_total": 1014, "episode_len_mean": 49.59}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1849.4926145076752, "info": {"sample_time_ms": 39729.576, "num_steps_trained": 51600, "grad_time_ms": 372.205, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1097.594970703125, "policy_loss": -0.11680027842521667, "vf_explained_var": -0.6031178832054138, "entropy": 15.132685661315918, "cur_lr": 4.999999873689376e-05, "total_loss": 1097.4976806640625, "kl": 0.012929944321513176}, "load_time_ms": 0.72, "num_steps_sampled": 51600, "update_time_ms": 2.628}, "training_iteration": 43, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.929545640945435, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 51600, "timesteps_total": 51600, "custom_metrics": {}, "iterations_since_restore": 43, "episodes_this_iter": 24, "episode_reward_min": -99.84089460076768, "date": "2025-09-04_16-43-36", "episode_reward_max": -83.19525614553856, "pid": 3651948, "timestamp": 1756997016, "episode_reward_mean": -97.00053722716505, "time_total_s": 1849.4926145076752, "episodes_total": 1038, "episode_len_mean": 49.98}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1889.2982964515686, "info": {"sample_time_ms": 39710.673, "num_steps_trained": 52800, "grad_time_ms": 372.29, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1327.10302734375, "policy_loss": -0.11665192991495132, "vf_explained_var": -0.7370307445526123, "entropy": 15.16311264038086, "cur_lr": 4.999999873689376e-05, "total_loss": 1327.0091552734375, "kl": 0.014845062047243118}, "load_time_ms": 0.718, "num_steps_sampled": 52800, "update_time_ms": 2.547}, "training_iteration": 44, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.80568194389343, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 52800, "timesteps_total": 52800, "custom_metrics": {}, "iterations_since_restore": 44, "episodes_this_iter": 24, "episode_reward_min": -99.84089460076768, "date": "2025-09-04_16-44-16", "episode_reward_max": -47.30665988731469, "pid": 3651948, "timestamp": 1756997056, "episode_reward_mean": -96.36052394042983, "time_total_s": 1889.2982964515686, "episodes_total": 1062, "episode_len_mean": 49.79}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1929.0171658992767, "info": {"sample_time_ms": 39686.403, "num_steps_trained": 54000, "grad_time_ms": 370.849, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1300.06591796875, "policy_loss": -0.11423023790121078, "vf_explained_var": -0.7665535807609558, "entropy": 15.056652069091797, "cur_lr": 4.999999873689376e-05, "total_loss": 1299.973388671875, "kl": 0.014357775449752808}, "load_time_ms": 0.715, "num_steps_sampled": 54000, "update_time_ms": 2.623}, "training_iteration": 45, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.71886944770813, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 54000, "timesteps_total": 54000, "custom_metrics": {}, "iterations_since_restore": 45, "episodes_this_iter": 24, "episode_reward_min": -99.84089460076768, "date": "2025-09-04_16-44-56", "episode_reward_max": -47.30665988731469, "pid": 3651948, "timestamp": 1756997096, "episode_reward_mean": -96.35048571213896, "time_total_s": 1929.0171658992767, "episodes_total": 1086, "episode_len_mean": 49.79}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1968.8651938438416, "info": {"sample_time_ms": 39658.494, "num_steps_trained": 55200, "grad_time_ms": 370.962, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1358.3763427734375, "policy_loss": -0.1065993681550026, "vf_explained_var": -0.79640793800354, "entropy": 15.09638500213623, "cur_lr": 4.999999873689376e-05, "total_loss": 1358.2899169921875, "kl": 0.013298786245286465}, "load_time_ms": 0.713, "num_steps_sampled": 55200, "update_time_ms": 2.665}, "training_iteration": 46, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.84802794456482, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 55200, "timesteps_total": 55200, "custom_metrics": {}, "iterations_since_restore": 46, "episodes_this_iter": 24, "episode_reward_min": -99.84089460076768, "date": "2025-09-04_16-45-36", "episode_reward_max": -47.30665988731469, "pid": 3651948, "timestamp": 1756997136, "episode_reward_mean": -96.46923531968903, "time_total_s": 1968.8651938438416, "episodes_total": 1110, "episode_len_mean": 49.79}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2010.0142283439636, "info": {"sample_time_ms": 39805.123, "num_steps_trained": 56400, "grad_time_ms": 370.536, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1360.581298828125, "policy_loss": -0.11323577910661697, "vf_explained_var": -0.7683766484260559, "entropy": 15.034567832946777, "cur_lr": 4.999999873689376e-05, "total_loss": 1360.4910888671875, "kl": 0.015101809985935688}, "load_time_ms": 0.717, "num_steps_sampled": 56400, "update_time_ms": 2.664}, "training_iteration": 47, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.14903450012207, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 56400, "timesteps_total": 56400, "custom_metrics": {}, "iterations_since_restore": 47, "episodes_this_iter": 24, "episode_reward_min": -99.70491179654027, "date": "2025-09-04_16-46-17", "episode_reward_max": -47.30665988731469, "pid": 3651948, "timestamp": 1756997177, "episode_reward_mean": -96.50030034668707, "time_total_s": 2010.0142283439636, "episodes_total": 1134, "episode_len_mean": 49.79}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2050.1419506073, "info": {"sample_time_ms": 39793.815, "num_steps_trained": 57600, "grad_time_ms": 368.623, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1230.81640625, "policy_loss": -0.11603689193725586, "vf_explained_var": -0.7617323994636536, "entropy": 14.98969554901123, "cur_lr": 4.999999873689376e-05, "total_loss": 1230.7230224609375, "kl": 0.014867722988128662}, "load_time_ms": 0.721, "num_steps_sampled": 57600, "update_time_ms": 2.658}, "training_iteration": 48, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.12772226333618, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 57600, "timesteps_total": 57600, "custom_metrics": {}, "iterations_since_restore": 48, "episodes_this_iter": 25, "episode_reward_min": -99.70491179654027, "date": "2025-09-04_16-46-57", "episode_reward_max": -50.47800847607699, "pid": 3651948, "timestamp": 1756997217, "episode_reward_mean": -96.78667045656734, "time_total_s": 2050.1419506073, "episodes_total": 1159, "episode_len_mean": 49.83}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2090.207808494568, "info": {"sample_time_ms": 39800.839, "num_steps_trained": 58800, "grad_time_ms": 368.33, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1210.0145263671875, "policy_loss": -0.1278069019317627, "vf_explained_var": -0.7858371138572693, "entropy": 14.963143348693848, "cur_lr": 4.999999873689376e-05, "total_loss": 1209.9093017578125, "kl": 0.014916043728590012}, "load_time_ms": 0.716, "num_steps_sampled": 58800, "update_time_ms": 2.632}, "training_iteration": 49, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.065857887268066, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 58800, "timesteps_total": 58800, "custom_metrics": {}, "iterations_since_restore": 49, "episodes_this_iter": 24, "episode_reward_min": -99.69965493226601, "date": "2025-09-04_16-47-37", "episode_reward_max": -36.92857428593311, "pid": 3651948, "timestamp": 1756997257, "episode_reward_mean": -96.00154953185834, "time_total_s": 2090.207808494568, "episodes_total": 1183, "episode_len_mean": 49.58}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2130.0400941371918, "info": {"sample_time_ms": 39722.489, "num_steps_trained": 60000, "grad_time_ms": 368.589, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1181.7391357421875, "policy_loss": -0.11024336516857147, "vf_explained_var": -0.7595869302749634, "entropy": 14.997981071472168, "cur_lr": 4.999999873689376e-05, "total_loss": 1181.6502685546875, "kl": 0.014109021984040737}, "load_time_ms": 0.704, "num_steps_sampled": 60000, "update_time_ms": 2.607}, "training_iteration": 50, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.8322856426239, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 60000, "timesteps_total": 60000, "custom_metrics": {}, "iterations_since_restore": 50, "episodes_this_iter": 26, "episode_reward_min": -99.69965493226601, "date": "2025-09-04_16-48-17", "episode_reward_max": 2.000894818521134, "pid": 3651948, "timestamp": 1756997297, "episode_reward_mean": -94.21600584758427, "time_total_s": 2130.0400941371918, "episodes_total": 1209, "episode_len_mean": 48.88}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2169.8263907432556, "info": {"sample_time_ms": 39616.721, "num_steps_trained": 61200, "grad_time_ms": 369.792, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1206.790771484375, "policy_loss": -0.10038409382104874, "vf_explained_var": -0.7725622653961182, "entropy": 14.993680953979492, "cur_lr": 4.999999873689376e-05, "total_loss": 1206.7130126953125, "kl": 0.014860378578305244}, "load_time_ms": 0.699, "num_steps_sampled": 61200, "update_time_ms": 2.575}, "training_iteration": 51, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.78629660606384, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 61200, "timesteps_total": 61200, "custom_metrics": {}, "iterations_since_restore": 51, "episodes_this_iter": 24, "episode_reward_min": -99.69965493226601, "date": "2025-09-04_16-48-57", "episode_reward_max": 2.000894818521134, "pid": 3651948, "timestamp": 1756997337, "episode_reward_mean": -94.16899019027835, "time_total_s": 2169.8263907432556, "episodes_total": 1233, "episode_len_mean": 48.88}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2210.4999437332153, "info": {"sample_time_ms": 39718.94, "num_steps_trained": 62400, "grad_time_ms": 366.862, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1131.96240234375, "policy_loss": -0.11758121848106384, "vf_explained_var": -0.6979755163192749, "entropy": 14.95267105102539, "cur_lr": 4.999999873689376e-05, "total_loss": 1131.8658447265625, "kl": 0.013862605206668377}, "load_time_ms": 0.691, "num_steps_sampled": 62400, "update_time_ms": 2.612}, "training_iteration": 52, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.67355298995972, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 62400, "timesteps_total": 62400, "custom_metrics": {}, "iterations_since_restore": 52, "episodes_this_iter": 26, "episode_reward_min": -99.69965493226601, "date": "2025-09-04_16-49-37", "episode_reward_max": 8.000000567682516, "pid": 3651948, "timestamp": 1756997377, "episode_reward_mean": -92.0585035779024, "time_total_s": 2210.4999437332153, "episodes_total": 1259, "episode_len_mean": 47.93}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2250.7435400485992, "info": {"sample_time_ms": 39748.417, "num_steps_trained": 63600, "grad_time_ms": 368.77, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1224.529541015625, "policy_loss": -0.09991131722927094, "vf_explained_var": -0.7694526314735413, "entropy": 14.912704467773438, "cur_lr": 4.999999873689376e-05, "total_loss": 1224.4503173828125, "kl": 0.013661215081810951}, "load_time_ms": 0.691, "num_steps_sampled": 63600, "update_time_ms": 2.613}, "training_iteration": 53, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.24359631538391, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 63600, "timesteps_total": 63600, "custom_metrics": {}, "iterations_since_restore": 53, "episodes_this_iter": 25, "episode_reward_min": -99.68827816877031, "date": "2025-09-04_16-50-18", "episode_reward_max": 8.000000567682516, "pid": 3651948, "timestamp": 1756997418, "episode_reward_mean": -91.20529984729008, "time_total_s": 2250.7435400485992, "episodes_total": 1284, "episode_len_mean": 47.52}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2290.6784195899963, "info": {"sample_time_ms": 39758.858, "num_steps_trained": 64800, "grad_time_ms": 371.236, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1310.67138671875, "policy_loss": -0.10968722403049469, "vf_explained_var": -0.8816094398498535, "entropy": 15.012337684631348, "cur_lr": 4.999999873689376e-05, "total_loss": 1310.582763671875, "kl": 0.013880123384296894}, "load_time_ms": 0.688, "num_steps_sampled": 64800, "update_time_ms": 2.624}, "training_iteration": 54, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.934879541397095, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 64800, "timesteps_total": 64800, "custom_metrics": {}, "iterations_since_restore": 54, "episodes_this_iter": 24, "episode_reward_min": -99.68827816877031, "date": "2025-09-04_16-50-58", "episode_reward_max": 8.000000567682516, "pid": 3651948, "timestamp": 1756997458, "episode_reward_mean": -92.94233478779394, "time_total_s": 2290.6784195899963, "episodes_total": 1308, "episode_len_mean": 48.22}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2330.734453201294, "info": {"sample_time_ms": 39790.737, "num_steps_trained": 66000, "grad_time_ms": 373.097, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1422.956787109375, "policy_loss": -0.12223473936319351, "vf_explained_var": -0.8387157320976257, "entropy": 15.144838333129883, "cur_lr": 4.999999873689376e-05, "total_loss": 1422.8563232421875, "kl": 0.01441657543182373}, "load_time_ms": 0.702, "num_steps_sampled": 66000, "update_time_ms": 2.597}, "training_iteration": 55, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.05603361129761, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 66000, "timesteps_total": 66000, "custom_metrics": {}, "iterations_since_restore": 55, "episodes_this_iter": 25, "episode_reward_min": -99.68827816877031, "date": "2025-09-04_16-51-38", "episode_reward_max": 8.000000567682516, "pid": 3651948, "timestamp": 1756997498, "episode_reward_mean": -91.4661865953845, "time_total_s": 2330.734453201294, "episodes_total": 1333, "episode_len_mean": 47.67}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2370.54008436203, "info": {"sample_time_ms": 39784.586, "num_steps_trained": 67200, "grad_time_ms": 375.042, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1342.798828125, "policy_loss": -0.11646595597267151, "vf_explained_var": -0.7877098917961121, "entropy": 15.047779083251953, "cur_lr": 4.999999873689376e-05, "total_loss": 1342.707275390625, "kl": 0.016279883682727814}, "load_time_ms": 0.714, "num_steps_sampled": 67200, "update_time_ms": 2.59}, "training_iteration": 56, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.805631160736084, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 67200, "timesteps_total": 67200, "custom_metrics": {}, "iterations_since_restore": 56, "episodes_this_iter": 24, "episode_reward_min": -99.22056810823626, "date": "2025-09-04_16-52-17", "episode_reward_max": 1.1405470155882025, "pid": 3651948, "timestamp": 1756997537, "episode_reward_mean": -93.87697515324817, "time_total_s": 2370.54008436203, "episodes_total": 1357, "episode_len_mean": 48.79}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2410.359657764435, "info": {"sample_time_ms": 39652.665, "num_steps_trained": 68400, "grad_time_ms": 373.994, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1294.26953125, "policy_loss": -0.1283871829509735, "vf_explained_var": -0.7179339528083801, "entropy": 14.984747886657715, "cur_lr": 4.999999873689376e-05, "total_loss": 1294.1630859375, "kl": 0.014505099505186081}, "load_time_ms": 0.709, "num_steps_sampled": 68400, "update_time_ms": 2.615}, "training_iteration": 57, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.819573402404785, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 68400, "timesteps_total": 68400, "custom_metrics": {}, "iterations_since_restore": 57, "episodes_this_iter": 24, "episode_reward_min": -99.30733801768991, "date": "2025-09-04_16-52-57", "episode_reward_max": 1.1405470155882025, "pid": 3651948, "timestamp": 1756997577, "episode_reward_mean": -94.32058205387851, "time_total_s": 2410.359657764435, "episodes_total": 1381, "episode_len_mean": 49.01}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2451.774926185608, "info": {"sample_time_ms": 39781.232, "num_steps_trained": 69600, "grad_time_ms": 374.189, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1268.938720703125, "policy_loss": -0.11768833547830582, "vf_explained_var": -0.7330797910690308, "entropy": 14.87173080444336, "cur_lr": 4.999999873689376e-05, "total_loss": 1268.8406982421875, "kl": 0.01305652316659689}, "load_time_ms": 0.7, "num_steps_sampled": 69600, "update_time_ms": 2.616}, "training_iteration": 58, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.415268421173096, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 69600, "timesteps_total": 69600, "custom_metrics": {}, "iterations_since_restore": 58, "episodes_this_iter": 24, "episode_reward_min": -99.30733801768991, "date": "2025-09-04_16-53-39", "episode_reward_max": -3.6157548869232627, "pid": 3651948, "timestamp": 1756997619, "episode_reward_mean": -95.15196150291067, "time_total_s": 2451.774926185608, "episodes_total": 1405, "episode_len_mean": 49.44}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2492.544373989105, "info": {"sample_time_ms": 39851.185, "num_steps_trained": 70800, "grad_time_ms": 374.531, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1244.011474609375, "policy_loss": -0.11157584190368652, "vf_explained_var": -0.7300561666488647, "entropy": 14.927780151367188, "cur_lr": 4.999999873689376e-05, "total_loss": 1243.9197998046875, "kl": 0.013102485798299313}, "load_time_ms": 0.699, "num_steps_sampled": 70800, "update_time_ms": 2.636}, "training_iteration": 59, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.769447803497314, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 70800, "timesteps_total": 70800, "custom_metrics": {}, "iterations_since_restore": 59, "episodes_this_iter": 25, "episode_reward_min": -99.30733801768991, "date": "2025-09-04_16-54-19", "episode_reward_max": -3.6157548869232627, "pid": 3651948, "timestamp": 1756997659, "episode_reward_mean": -94.71678434113755, "time_total_s": 2492.544373989105, "episodes_total": 1430, "episode_len_mean": 49.24}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2532.3875205516815, "info": {"sample_time_ms": 39852.211, "num_steps_trained": 72000, "grad_time_ms": 374.575, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1167.0535888671875, "policy_loss": -0.11288302391767502, "vf_explained_var": -0.7880843281745911, "entropy": 14.89885139465332, "cur_lr": 4.999999873689376e-05, "total_loss": 1166.9609375, "kl": 0.013332750648260117}, "load_time_ms": 0.706, "num_steps_sampled": 72000, "update_time_ms": 2.64}, "training_iteration": 60, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.843146562576294, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 72000, "timesteps_total": 72000, "custom_metrics": {}, "iterations_since_restore": 60, "episodes_this_iter": 25, "episode_reward_min": -99.60113338733126, "date": "2025-09-04_16-54-59", "episode_reward_max": -43.26172837301939, "pid": 3651948, "timestamp": 1756997699, "episode_reward_mean": -95.24715711171521, "time_total_s": 2532.3875205516815, "episodes_total": 1455, "episode_len_mean": 49.54}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2572.3899228572845, "info": {"sample_time_ms": 39874.653, "num_steps_trained": 73200, "grad_time_ms": 373.813, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1214.6409912109375, "policy_loss": -0.11584869027137756, "vf_explained_var": -0.7653178572654724, "entropy": 14.912324905395508, "cur_lr": 4.999999873689376e-05, "total_loss": 1214.54638671875, "kl": 0.014048927463591099}, "load_time_ms": 0.691, "num_steps_sampled": 73200, "update_time_ms": 2.639}, "training_iteration": 61, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.00240230560303, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 73200, "timesteps_total": 73200, "custom_metrics": {}, "iterations_since_restore": 61, "episodes_this_iter": 24, "episode_reward_min": -99.60113338733126, "date": "2025-09-04_16-55-39", "episode_reward_max": -39.9027328754405, "pid": 3651948, "timestamp": 1756997739, "episode_reward_mean": -94.50576187376137, "time_total_s": 2572.3899228572845, "episodes_total": 1479, "episode_len_mean": 49.3}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2612.1271228790283, "info": {"sample_time_ms": 39778.975, "num_steps_trained": 74400, "grad_time_ms": 375.838, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1259.583984375, "policy_loss": -0.11178527772426605, "vf_explained_var": -0.7795595526695251, "entropy": 14.82375431060791, "cur_lr": 4.999999873689376e-05, "total_loss": 1259.4942626953125, "kl": 0.014546235091984272}, "load_time_ms": 0.695, "num_steps_sampled": 74400, "update_time_ms": 2.646}, "training_iteration": 62, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.737200021743774, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 74400, "timesteps_total": 74400, "custom_metrics": {}, "iterations_since_restore": 62, "episodes_this_iter": 25, "episode_reward_min": -99.97254170911407, "date": "2025-09-04_16-56-19", "episode_reward_max": 2.1591405978752833, "pid": 3651948, "timestamp": 1756997779, "episode_reward_mean": -93.35622147695085, "time_total_s": 2612.1271228790283, "episodes_total": 1504, "episode_len_mean": 48.81}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2652.1977066993713, "info": {"sample_time_ms": 39763.604, "num_steps_trained": 75600, "grad_time_ms": 373.908, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1356.56787109375, "policy_loss": -0.10862504690885544, "vf_explained_var": -0.7592952847480774, "entropy": 14.951154708862305, "cur_lr": 4.999999873689376e-05, "total_loss": 1356.4798583984375, "kl": 0.013558438047766685}, "load_time_ms": 0.694, "num_steps_sampled": 75600, "update_time_ms": 2.647}, "training_iteration": 63, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.07058382034302, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 75600, "timesteps_total": 75600, "custom_metrics": {}, "iterations_since_restore": 63, "episodes_this_iter": 25, "episode_reward_min": -99.97254170911407, "date": "2025-09-04_16-56-59", "episode_reward_max": 6.000001326755738, "pid": 3651948, "timestamp": 1756997819, "episode_reward_mean": -92.5705083925217, "time_total_s": 2652.1977066993713, "episodes_total": 1529, "episode_len_mean": 48.41}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2692.412809610367, "info": {"sample_time_ms": 39792.826, "num_steps_trained": 76800, "grad_time_ms": 372.736, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1189.119873046875, "policy_loss": -0.12759803235530853, "vf_explained_var": -0.7264623045921326, "entropy": 14.669437408447266, "cur_lr": 4.999999873689376e-05, "total_loss": 1189.014404296875, "kl": 0.01455807313323021}, "load_time_ms": 0.697, "num_steps_sampled": 76800, "update_time_ms": 2.635}, "training_iteration": 64, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.21510291099548, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 76800, "timesteps_total": 76800, "custom_metrics": {}, "iterations_since_restore": 64, "episodes_this_iter": 24, "episode_reward_min": -99.97254170911407, "date": "2025-09-04_16-57-40", "episode_reward_max": 6.000001326755738, "pid": 3651948, "timestamp": 1756997860, "episode_reward_mean": -92.60180417143867, "time_total_s": 2692.412809610367, "episodes_total": 1553, "episode_len_mean": 48.39}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2732.490079641342, "info": {"sample_time_ms": 39797.621, "num_steps_trained": 78000, "grad_time_ms": 370.136, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1244.51416015625, "policy_loss": -0.11783421039581299, "vf_explained_var": -0.7883577942848206, "entropy": 14.744547843933105, "cur_lr": 4.999999873689376e-05, "total_loss": 1244.4168701171875, "kl": 0.013561917468905449}, "load_time_ms": 0.677, "num_steps_sampled": 78000, "update_time_ms": 2.622}, "training_iteration": 65, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.07727003097534, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 78000, "timesteps_total": 78000, "custom_metrics": {}, "iterations_since_restore": 65, "episodes_this_iter": 25, "episode_reward_min": -99.97254170911407, "date": "2025-09-04_16-58-20", "episode_reward_max": 6.000001326755738, "pid": 3651948, "timestamp": 1756997900, "episode_reward_mean": -92.77911973728547, "time_total_s": 2732.490079641342, "episodes_total": 1578, "episode_len_mean": 48.36}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2772.6015956401825, "info": {"sample_time_ms": 39828.28, "num_steps_trained": 79200, "grad_time_ms": 370.099, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1261.6090087890625, "policy_loss": -0.11495360732078552, "vf_explained_var": -0.7529252171516418, "entropy": 14.982555389404297, "cur_lr": 4.999999873689376e-05, "total_loss": 1261.513427734375, "kl": 0.012708180584013462}, "load_time_ms": 0.676, "num_steps_sampled": 79200, "update_time_ms": 2.561}, "training_iteration": 66, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.11151599884033, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 79200, "timesteps_total": 79200, "custom_metrics": {}, "iterations_since_restore": 66, "episodes_this_iter": 25, "episode_reward_min": -99.72677078360388, "date": "2025-09-04_16-59-00", "episode_reward_max": 6.000001326755738, "pid": 3651948, "timestamp": 1756997940, "episode_reward_mean": -93.05071050827317, "time_total_s": 2772.6015956401825, "episodes_total": 1603, "episode_len_mean": 48.6}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2812.351597547531, "info": {"sample_time_ms": 39820.574, "num_steps_trained": 80400, "grad_time_ms": 370.846, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1198.54150390625, "policy_loss": -0.12078271806240082, "vf_explained_var": -0.8323256969451904, "entropy": 14.662151336669922, "cur_lr": 4.999999873689376e-05, "total_loss": 1198.443603515625, "kl": 0.014926041476428509}, "load_time_ms": 0.682, "num_steps_sampled": 80400, "update_time_ms": 2.553}, "training_iteration": 67, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.75000190734863, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 80400, "timesteps_total": 80400, "custom_metrics": {}, "iterations_since_restore": 67, "episodes_this_iter": 25, "episode_reward_min": -99.72677078360388, "date": "2025-09-04_16-59-39", "episode_reward_max": -33.96508927336994, "pid": 3651948, "timestamp": 1756997979, "episode_reward_mean": -94.36946534877416, "time_total_s": 2812.351597547531, "episodes_total": 1628, "episode_len_mean": 49.14}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2852.031061410904, "info": {"sample_time_ms": 39645.242, "num_steps_trained": 81600, "grad_time_ms": 372.573, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1221.2003173828125, "policy_loss": -0.10780903697013855, "vf_explained_var": -0.8038766384124756, "entropy": 14.78492546081543, "cur_lr": 4.999999873689376e-05, "total_loss": 1221.1131591796875, "kl": 0.013653003610670567}, "load_time_ms": 0.686, "num_steps_sampled": 81600, "update_time_ms": 2.537}, "training_iteration": 68, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.6794638633728, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 81600, "timesteps_total": 81600, "custom_metrics": {}, "iterations_since_restore": 68, "episodes_this_iter": 24, "episode_reward_min": -99.58787226122642, "date": "2025-09-04_17-00-19", "episode_reward_max": -25.2159638771289, "pid": 3651948, "timestamp": 1756998019, "episode_reward_mean": -94.04441640538226, "time_total_s": 2852.031061410904, "episodes_total": 1652, "episode_len_mean": 48.97}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2891.8031606674194, "info": {"sample_time_ms": 39547.375, "num_steps_trained": 82800, "grad_time_ms": 370.732, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1223.3162841796875, "policy_loss": -0.11841960996389389, "vf_explained_var": -0.8032306432723999, "entropy": 14.663142204284668, "cur_lr": 4.999999873689376e-05, "total_loss": 1223.2208251953125, "kl": 0.015099359676241875}, "load_time_ms": 0.685, "num_steps_sampled": 82800, "update_time_ms": 2.526}, "training_iteration": 69, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.7720992565155, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 82800, "timesteps_total": 82800, "custom_metrics": {}, "iterations_since_restore": 69, "episodes_this_iter": 25, "episode_reward_min": -99.99162556002155, "date": "2025-09-04_17-00-59", "episode_reward_max": -0.7702540579181019, "pid": 3651948, "timestamp": 1756998059, "episode_reward_mean": -93.08991260626364, "time_total_s": 2891.8031606674194, "episodes_total": 1677, "episode_len_mean": 48.65}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2931.6492550373077, "info": {"sample_time_ms": 39548.229, "num_steps_trained": 84000, "grad_time_ms": 370.219, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1172.17431640625, "policy_loss": -0.1396070122718811, "vf_explained_var": -0.7034938335418701, "entropy": 14.607905387878418, "cur_lr": 4.999999873689376e-05, "total_loss": 1172.0589599609375, "kl": 0.015890225768089294}, "load_time_ms": 0.671, "num_steps_sampled": 84000, "update_time_ms": 2.544}, "training_iteration": 70, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.846094369888306, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 84000, "timesteps_total": 84000, "custom_metrics": {}, "iterations_since_restore": 70, "episodes_this_iter": 24, "episode_reward_min": -99.99162556002155, "date": "2025-09-04_17-01-39", "episode_reward_max": -0.7702540579181019, "pid": 3651948, "timestamp": 1756998099, "episode_reward_mean": -93.36784562070854, "time_total_s": 2931.6492550373077, "episodes_total": 1701, "episode_len_mean": 48.68}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2971.3676204681396, "info": {"sample_time_ms": 39519.912, "num_steps_trained": 85200, "grad_time_ms": 370.109, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1292.23876953125, "policy_loss": -0.1328306645154953, "vf_explained_var": -0.7532870769500732, "entropy": 14.943361282348633, "cur_lr": 4.999999873689376e-05, "total_loss": 1292.128173828125, "kl": 0.014537609182298183}, "load_time_ms": 0.674, "num_steps_sampled": 85200, "update_time_ms": 2.531}, "training_iteration": 71, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.71836543083191, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 85200, "timesteps_total": 85200, "custom_metrics": {}, "iterations_since_restore": 71, "episodes_this_iter": 24, "episode_reward_min": -99.99162556002155, "date": "2025-09-04_17-02-19", "episode_reward_max": -0.7702540579181019, "pid": 3651948, "timestamp": 1756998139, "episode_reward_mean": -92.87745475202908, "time_total_s": 2971.3676204681396, "episodes_total": 1725, "episode_len_mean": 48.64}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3011.002952814102, "info": {"sample_time_ms": 39510.118, "num_steps_trained": 86400, "grad_time_ms": 369.717, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1240.18310546875, "policy_loss": -0.11488083750009537, "vf_explained_var": -0.6741650104522705, "entropy": 14.941850662231445, "cur_lr": 4.999999873689376e-05, "total_loss": 1240.0899658203125, "kl": 0.014264964498579502}, "load_time_ms": 0.671, "num_steps_sampled": 86400, "update_time_ms": 2.534}, "training_iteration": 72, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.635332345962524, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 86400, "timesteps_total": 86400, "custom_metrics": {}, "iterations_since_restore": 72, "episodes_this_iter": 27, "episode_reward_min": -99.99162556002155, "date": "2025-09-04_17-02-58", "episode_reward_max": -0.7702540579181019, "pid": 3651948, "timestamp": 1756998178, "episode_reward_mean": -91.20535606157559, "time_total_s": 3011.002952814102, "episodes_total": 1752, "episode_len_mean": 48.02}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3050.5706675052643, "info": {"sample_time_ms": 39458.188, "num_steps_trained": 87600, "grad_time_ms": 371.345, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1113.804443359375, "policy_loss": -0.11882533133029938, "vf_explained_var": -0.7840087413787842, "entropy": 14.758036613464355, "cur_lr": 4.999999873689376e-05, "total_loss": 1113.7073974609375, "kl": 0.014246370643377304}, "load_time_ms": 0.665, "num_steps_sampled": 87600, "update_time_ms": 2.549}, "training_iteration": 73, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.56771469116211, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 87600, "timesteps_total": 87600, "custom_metrics": {}, "iterations_since_restore": 73, "episodes_this_iter": 24, "episode_reward_min": -99.6792457992007, "date": "2025-09-04_17-03-38", "episode_reward_max": -15.576939134117044, "pid": 3651948, "timestamp": 1756998218, "episode_reward_mean": -92.18438998251895, "time_total_s": 3050.5706675052643, "episodes_total": 1776, "episode_len_mean": 48.52}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3091.4167096614838, "info": {"sample_time_ms": 39521.164, "num_steps_trained": 88800, "grad_time_ms": 371.391, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1172.51708984375, "policy_loss": -0.12917476892471313, "vf_explained_var": -0.7146407961845398, "entropy": 14.7467041015625, "cur_lr": 4.999999873689376e-05, "total_loss": 1172.4105224609375, "kl": 0.014921224676072598}, "load_time_ms": 0.674, "num_steps_sampled": 88800, "update_time_ms": 2.571}, "training_iteration": 74, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.84604215621948, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 88800, "timesteps_total": 88800, "custom_metrics": {}, "iterations_since_restore": 74, "episodes_this_iter": 25, "episode_reward_min": -99.6792457992007, "date": "2025-09-04_17-04-19", "episode_reward_max": -3.999500710162776, "pid": 3651948, "timestamp": 1756998259, "episode_reward_mean": -91.32126179142608, "time_total_s": 3091.4167096614838, "episodes_total": 1801, "episode_len_mean": 48.21}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3131.535984277725, "info": {"sample_time_ms": 39524.336, "num_steps_trained": 90000, "grad_time_ms": 372.342, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1171.7374267578125, "policy_loss": -0.11464173346757889, "vf_explained_var": -0.7707966566085815, "entropy": 14.599848747253418, "cur_lr": 4.999999873689376e-05, "total_loss": 1171.64208984375, "kl": 0.012648598290979862}, "load_time_ms": 0.679, "num_steps_sampled": 90000, "update_time_ms": 2.587}, "training_iteration": 75, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.119274616241455, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 90000, "timesteps_total": 90000, "custom_metrics": {}, "iterations_since_restore": 75, "episodes_this_iter": 24, "episode_reward_min": -99.63079658416484, "date": "2025-09-04_17-04-59", "episode_reward_max": -3.999500710162776, "pid": 3651948, "timestamp": 1756998299, "episode_reward_mean": -92.15717888342807, "time_total_s": 3131.535984277725, "episodes_total": 1825, "episode_len_mean": 48.44}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3171.6466183662415, "info": {"sample_time_ms": 39524.771, "num_steps_trained": 91200, "grad_time_ms": 371.805, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1277.7818603515625, "policy_loss": -0.11734982579946518, "vf_explained_var": -0.7334659099578857, "entropy": 14.809412956237793, "cur_lr": 4.999999873689376e-05, "total_loss": 1277.6856689453125, "kl": 0.01380773726850748}, "load_time_ms": 0.674, "num_steps_sampled": 91200, "update_time_ms": 2.622}, "training_iteration": 76, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.110634088516235, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 91200, "timesteps_total": 91200, "custom_metrics": {}, "iterations_since_restore": 76, "episodes_this_iter": 24, "episode_reward_min": -99.63079658416484, "date": "2025-09-04_17-05-39", "episode_reward_max": -3.999500710162776, "pid": 3651948, "timestamp": 1756998339, "episode_reward_mean": -92.27201614128585, "time_total_s": 3171.6466183662415, "episodes_total": 1849, "episode_len_mean": 48.75}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3211.787467956543, "info": {"sample_time_ms": 39563.643, "num_steps_trained": 92400, "grad_time_ms": 372.018, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1321.55908203125, "policy_loss": -0.12810860574245453, "vf_explained_var": -0.7949018478393555, "entropy": 14.77613353729248, "cur_lr": 4.999999873689376e-05, "total_loss": 1321.45458984375, "kl": 0.015502896159887314}, "load_time_ms": 0.678, "num_steps_sampled": 92400, "update_time_ms": 2.623}, "training_iteration": 77, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.140849590301514, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 92400, "timesteps_total": 92400, "custom_metrics": {}, "iterations_since_restore": 77, "episodes_this_iter": 25, "episode_reward_min": -98.73718296318454, "date": "2025-09-04_17-06-19", "episode_reward_max": -3.999500710162776, "pid": 3651948, "timestamp": 1756998379, "episode_reward_mean": -92.93486778479472, "time_total_s": 3211.787467956543, "episodes_total": 1874, "episode_len_mean": 49.01}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3252.4975650310516, "info": {"sample_time_ms": 39667.332, "num_steps_trained": 93600, "grad_time_ms": 371.34, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1272.25634765625, "policy_loss": -0.12087935954332352, "vf_explained_var": -0.7115300297737122, "entropy": 14.752005577087402, "cur_lr": 4.999999873689376e-05, "total_loss": 1272.1575927734375, "kl": 0.014506997540593147}, "load_time_ms": 0.675, "num_steps_sampled": 93600, "update_time_ms": 2.629}, "training_iteration": 78, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.71009707450867, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 93600, "timesteps_total": 93600, "custom_metrics": {}, "iterations_since_restore": 78, "episodes_this_iter": 24, "episode_reward_min": -98.6604206333207, "date": "2025-09-04_17-07-00", "episode_reward_max": -55.892082802026835, "pid": 3651948, "timestamp": 1756998420, "episode_reward_mean": -94.11221293511282, "time_total_s": 3252.4975650310516, "episodes_total": 1898, "episode_len_mean": 49.55}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3293.6832132339478, "info": {"sample_time_ms": 39806.354, "num_steps_trained": 94800, "grad_time_ms": 373.642, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1292.762939453125, "policy_loss": -0.11956813931465149, "vf_explained_var": -0.7240657806396484, "entropy": 14.862645149230957, "cur_lr": 4.999999873689376e-05, "total_loss": 1292.663818359375, "kl": 0.013549041002988815}, "load_time_ms": 0.671, "num_steps_sampled": 94800, "update_time_ms": 2.652}, "training_iteration": 79, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.18564820289612, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 94800, "timesteps_total": 94800, "custom_metrics": {}, "iterations_since_restore": 79, "episodes_this_iter": 24, "episode_reward_min": -98.6604206333207, "date": "2025-09-04_17-07-41", "episode_reward_max": -55.892082802026835, "pid": 3651948, "timestamp": 1756998461, "episode_reward_mean": -93.72617925382933, "time_total_s": 3293.6832132339478, "episodes_total": 1922, "episode_len_mean": 49.53}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3333.982837200165, "info": {"sample_time_ms": 39853.736, "num_steps_trained": 96000, "grad_time_ms": 371.603, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1276.9134521484375, "policy_loss": -0.11261190474033356, "vf_explained_var": -0.7686378955841064, "entropy": 15.086308479309082, "cur_lr": 4.999999873689376e-05, "total_loss": 1276.8209228515625, "kl": 0.013302515260875225}, "load_time_ms": 0.668, "num_steps_sampled": 96000, "update_time_ms": 2.649}, "training_iteration": 80, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.29962396621704, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 96000, "timesteps_total": 96000, "custom_metrics": {}, "iterations_since_restore": 80, "episodes_this_iter": 26, "episode_reward_min": -98.6604206333207, "date": "2025-09-04_17-08-21", "episode_reward_max": -8.733419482830186, "pid": 3651948, "timestamp": 1756998501, "episode_reward_mean": -93.15560433947206, "time_total_s": 3333.982837200165, "episodes_total": 1948, "episode_len_mean": 49.12}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3374.2282209396362, "info": {"sample_time_ms": 39908.36, "num_steps_trained": 97200, "grad_time_ms": 369.724, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1151.8021240234375, "policy_loss": -0.11964704096317291, "vf_explained_var": -0.6800518035888672, "entropy": 14.558051109313965, "cur_lr": 4.999999873689376e-05, "total_loss": 1151.703125, "kl": 0.013682969845831394}, "load_time_ms": 0.672, "num_steps_sampled": 97200, "update_time_ms": 2.634}, "training_iteration": 81, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.245383739471436, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 97200, "timesteps_total": 97200, "custom_metrics": {}, "iterations_since_restore": 81, "episodes_this_iter": 24, "episode_reward_min": -99.26104626550475, "date": "2025-09-04_17-09-02", "episode_reward_max": -8.733419482830186, "pid": 3651948, "timestamp": 1756998542, "episode_reward_mean": -93.1911542427198, "time_total_s": 3374.2282209396362, "episodes_total": 1972, "episode_len_mean": 49.15}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3413.907021045685, "info": {"sample_time_ms": 39914.318, "num_steps_trained": 98400, "grad_time_ms": 368.136, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1271.07568359375, "policy_loss": -0.11927060037851334, "vf_explained_var": -0.7267799973487854, "entropy": 14.841487884521484, "cur_lr": 4.999999873689376e-05, "total_loss": 1270.9776611328125, "kl": 0.013944336213171482}, "load_time_ms": 0.672, "num_steps_sampled": 98400, "update_time_ms": 2.608}, "training_iteration": 82, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.678800106048584, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 98400, "timesteps_total": 98400, "custom_metrics": {}, "iterations_since_restore": 82, "episodes_this_iter": 24, "episode_reward_min": -99.26104626550475, "date": "2025-09-04_17-09-41", "episode_reward_max": -8.733419482830186, "pid": 3651948, "timestamp": 1756998581, "episode_reward_mean": -93.12007318425577, "time_total_s": 3413.907021045685, "episodes_total": 1996, "episode_len_mean": 49.15}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3453.756364107132, "info": {"sample_time_ms": 39943.947, "num_steps_trained": 99600, "grad_time_ms": 366.691, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1233.8282470703125, "policy_loss": -0.12820306420326233, "vf_explained_var": -0.7392103672027588, "entropy": 14.829949378967285, "cur_lr": 4.999999873689376e-05, "total_loss": 1233.7203369140625, "kl": 0.013510401360690594}, "load_time_ms": 0.678, "num_steps_sampled": 99600, "update_time_ms": 2.609}, "training_iteration": 83, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.849343061447144, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 99600, "timesteps_total": 99600, "custom_metrics": {}, "iterations_since_restore": 83, "episodes_this_iter": 25, "episode_reward_min": -99.26104626550475, "date": "2025-09-04_17-10-21", "episode_reward_max": -8.733419482830186, "pid": 3651948, "timestamp": 1756998621, "episode_reward_mean": -92.26810527420496, "time_total_s": 3453.756364107132, "episodes_total": 2021, "episode_len_mean": 48.8}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3493.5548133850098, "info": {"sample_time_ms": 39839.005, "num_steps_trained": 100800, "grad_time_ms": 366.936, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1215.7237548828125, "policy_loss": -0.11922930181026459, "vf_explained_var": -0.7129600048065186, "entropy": 14.783453941345215, "cur_lr": 4.999999873689376e-05, "total_loss": 1215.6236572265625, "kl": 0.012615455314517021}, "load_time_ms": 0.678, "num_steps_sampled": 100800, "update_time_ms": 2.588}, "training_iteration": 84, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.79844927787781, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 100800, "timesteps_total": 100800, "custom_metrics": {}, "iterations_since_restore": 84, "episodes_this_iter": 24, "episode_reward_min": -99.26104626550475, "date": "2025-09-04_17-11-01", "episode_reward_max": -13.917609120055879, "pid": 3651948, "timestamp": 1756998661, "episode_reward_mean": -92.80197099116748, "time_total_s": 3493.5548133850098, "episodes_total": 2045, "episode_len_mean": 49.17}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3533.712546348572, "info": {"sample_time_ms": 39842.159, "num_steps_trained": 102000, "grad_time_ms": 367.639, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1278.0333251953125, "policy_loss": -0.1087045967578888, "vf_explained_var": -0.7911555767059326, "entropy": 14.793651580810547, "cur_lr": 4.999999873689376e-05, "total_loss": 1277.946044921875, "kl": 0.014129284769296646}, "load_time_ms": 0.672, "num_steps_sampled": 102000, "update_time_ms": 2.585}, "training_iteration": 85, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.15773296356201, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 102000, "timesteps_total": 102000, "custom_metrics": {}, "iterations_since_restore": 85, "episodes_this_iter": 25, "episode_reward_min": -98.52128822180254, "date": "2025-09-04_17-11-41", "episode_reward_max": -13.917609120055879, "pid": 3651948, "timestamp": 1756998701, "episode_reward_mean": -92.42686715994115, "time_total_s": 3533.712546348572, "episodes_total": 2070, "episode_len_mean": 48.98}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3573.3178622722626, "info": {"sample_time_ms": 39791.294, "num_steps_trained": 103200, "grad_time_ms": 367.951, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1206.2105712890625, "policy_loss": -0.11693794280290604, "vf_explained_var": -0.7791456580162048, "entropy": 14.77348518371582, "cur_lr": 4.999999873689376e-05, "total_loss": 1206.1171875, "kl": 0.015465127304196358}, "load_time_ms": 0.669, "num_steps_sampled": 103200, "update_time_ms": 2.611}, "training_iteration": 86, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.605315923690796, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 103200, "timesteps_total": 103200, "custom_metrics": {}, "iterations_since_restore": 86, "episodes_this_iter": 25, "episode_reward_min": -98.52128822180254, "date": "2025-09-04_17-12-21", "episode_reward_max": -13.917609120055879, "pid": 3651948, "timestamp": 1756998741, "episode_reward_mean": -91.01069362105486, "time_total_s": 3573.3178622722626, "episodes_total": 2095, "episode_len_mean": 48.48}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3613.9034507274628, "info": {"sample_time_ms": 39835.727, "num_steps_trained": 104400, "grad_time_ms": 368.041, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1148.5584716796875, "policy_loss": -0.12584802508354187, "vf_explained_var": -0.7068888545036316, "entropy": 14.55543327331543, "cur_lr": 4.999999873689376e-05, "total_loss": 1148.4549560546875, "kl": 0.014751442708075047}, "load_time_ms": 0.67, "num_steps_sampled": 104400, "update_time_ms": 2.583}, "training_iteration": 87, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.585588455200195, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 104400, "timesteps_total": 104400, "custom_metrics": {}, "iterations_since_restore": 87, "episodes_this_iter": 25, "episode_reward_min": -98.72888046726543, "date": "2025-09-04_17-13-02", "episode_reward_max": -25.99462355474143, "pid": 3651948, "timestamp": 1756998782, "episode_reward_mean": -90.95479067292243, "time_total_s": 3613.9034507274628, "episodes_total": 2120, "episode_len_mean": 48.46}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3654.366242647171, "info": {"sample_time_ms": 39810.132, "num_steps_trained": 105600, "grad_time_ms": 368.977, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1196.8033447265625, "policy_loss": -0.12734419107437134, "vf_explained_var": -0.647044837474823, "entropy": 14.450883865356445, "cur_lr": 4.999999873689376e-05, "total_loss": 1196.6951904296875, "kl": 0.012654243037104607}, "load_time_ms": 0.676, "num_steps_sampled": 105600, "update_time_ms": 2.584}, "training_iteration": 88, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.46279191970825, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 105600, "timesteps_total": 105600, "custom_metrics": {}, "iterations_since_restore": 88, "episodes_this_iter": 24, "episode_reward_min": -98.77030807707597, "date": "2025-09-04_17-13-42", "episode_reward_max": -5.722962107342848, "pid": 3651948, "timestamp": 1756998822, "episode_reward_mean": -90.80268153204094, "time_total_s": 3654.366242647171, "episodes_total": 2144, "episode_len_mean": 48.24}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3694.164056777954, "info": {"sample_time_ms": 39671.88, "num_steps_trained": 106800, "grad_time_ms": 368.472, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1234.7669677734375, "policy_loss": -0.12505359947681427, "vf_explained_var": -0.7778708338737488, "entropy": 14.69221305847168, "cur_lr": 4.999999873689376e-05, "total_loss": 1234.66162109375, "kl": 0.012969114817678928}, "load_time_ms": 0.685, "num_steps_sampled": 106800, "update_time_ms": 2.551}, "training_iteration": 89, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.79781413078308, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 106800, "timesteps_total": 106800, "custom_metrics": {}, "iterations_since_restore": 89, "episodes_this_iter": 26, "episode_reward_min": -99.54022066114896, "date": "2025-09-04_17-14-22", "episode_reward_max": -5.722962107342848, "pid": 3651948, "timestamp": 1756998862, "episode_reward_mean": -89.86875535557246, "time_total_s": 3694.164056777954, "episodes_total": 2170, "episode_len_mean": 47.89}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3733.7502102851868, "info": {"sample_time_ms": 39599.99, "num_steps_trained": 108000, "grad_time_ms": 369.036, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1285.6556396484375, "policy_loss": -0.12674559652805328, "vf_explained_var": -0.8289951682090759, "entropy": 14.869439125061035, "cur_lr": 4.999999873689376e-05, "total_loss": 1285.5496826171875, "kl": 0.01376924104988575}, "load_time_ms": 0.685, "num_steps_sampled": 108000, "update_time_ms": 2.537}, "training_iteration": 90, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.586153507232666, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 108000, "timesteps_total": 108000, "custom_metrics": {}, "iterations_since_restore": 90, "episodes_this_iter": 24, "episode_reward_min": -99.54022066114896, "date": "2025-09-04_17-15-01", "episode_reward_max": -5.722962107342848, "pid": 3651948, "timestamp": 1756998901, "episode_reward_mean": -91.13390358708877, "time_total_s": 3733.7502102851868, "episodes_total": 2194, "episode_len_mean": 48.39}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3774.2825310230255, "info": {"sample_time_ms": 39628.094, "num_steps_trained": 109200, "grad_time_ms": 369.618, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1224.0098876953125, "policy_loss": -0.10955886542797089, "vf_explained_var": -0.7773178815841675, "entropy": 14.64888858795166, "cur_lr": 4.999999873689376e-05, "total_loss": 1223.9169921875, "kl": 0.011099190451204777}, "load_time_ms": 0.702, "num_steps_sampled": 109200, "update_time_ms": 2.519}, "training_iteration": 91, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.532320737838745, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 109200, "timesteps_total": 109200, "custom_metrics": {}, "iterations_since_restore": 91, "episodes_this_iter": 25, "episode_reward_min": -99.54022066114896, "date": "2025-09-04_17-15-42", "episode_reward_max": -5.722962107342848, "pid": 3651948, "timestamp": 1756998942, "episode_reward_mean": -91.20847519918264, "time_total_s": 3774.2825310230255, "episodes_total": 2219, "episode_len_mean": 48.4}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3814.0616085529327, "info": {"sample_time_ms": 39634.879, "num_steps_trained": 110400, "grad_time_ms": 372.838, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1189.8040771484375, "policy_loss": -0.12425579130649567, "vf_explained_var": -0.7224305272102356, "entropy": 14.687872886657715, "cur_lr": 4.999999873689376e-05, "total_loss": 1189.700927734375, "kl": 0.013974593952298164}, "load_time_ms": 0.705, "num_steps_sampled": 110400, "update_time_ms": 2.504}, "training_iteration": 92, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.77907752990723, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 110400, "timesteps_total": 110400, "custom_metrics": {}, "iterations_since_restore": 92, "episodes_this_iter": 26, "episode_reward_min": -99.54022066114896, "date": "2025-09-04_17-16-22", "episode_reward_max": 1.4474787914261587, "pid": 3651948, "timestamp": 1756998982, "episode_reward_mean": -89.48766277537257, "time_total_s": 3814.0616085529327, "episodes_total": 2245, "episode_len_mean": 47.8}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3854.6090116500854, "info": {"sample_time_ms": 39702.751, "num_steps_trained": 111600, "grad_time_ms": 374.732, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1208.7021484375, "policy_loss": -0.11913042515516281, "vf_explained_var": -0.6939985752105713, "entropy": 14.28215503692627, "cur_lr": 4.999999873689376e-05, "total_loss": 1208.60400390625, "kl": 0.013752754777669907}, "load_time_ms": 0.7, "num_steps_sampled": 111600, "update_time_ms": 2.531}, "training_iteration": 93, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.54740309715271, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 111600, "timesteps_total": 111600, "custom_metrics": {}, "iterations_since_restore": 93, "episodes_this_iter": 24, "episode_reward_min": -99.36198879809118, "date": "2025-09-04_17-17-02", "episode_reward_max": 1.4474787914261587, "pid": 3651948, "timestamp": 1756999022, "episode_reward_mean": -90.58949901698992, "time_total_s": 3854.6090116500854, "episodes_total": 2269, "episode_len_mean": 48.22}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3894.819942712784, "info": {"sample_time_ms": 39744.693, "num_steps_trained": 112800, "grad_time_ms": 374.001, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1184.99560546875, "policy_loss": -0.12463506311178207, "vf_explained_var": -0.643320620059967, "entropy": 14.60263442993164, "cur_lr": 4.999999873689376e-05, "total_loss": 1184.8944091796875, "kl": 0.015387635678052902}, "load_time_ms": 0.691, "num_steps_sampled": 112800, "update_time_ms": 2.53}, "training_iteration": 94, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.210931062698364, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 112800, "timesteps_total": 112800, "custom_metrics": {}, "iterations_since_restore": 94, "episodes_this_iter": 25, "episode_reward_min": -99.36198879809118, "date": "2025-09-04_17-17-43", "episode_reward_max": 1.4474787914261587, "pid": 3651948, "timestamp": 1756999063, "episode_reward_mean": -89.95456546353162, "time_total_s": 3894.819942712784, "episodes_total": 2294, "episode_len_mean": 48.04}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3934.89609003067, "info": {"sample_time_ms": 39737.281, "num_steps_trained": 114000, "grad_time_ms": 373.233, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1267.3551025390625, "policy_loss": -0.12714111804962158, "vf_explained_var": -0.7729015350341797, "entropy": 14.54859447479248, "cur_lr": 4.999999873689376e-05, "total_loss": 1267.2496337890625, "kl": 0.014290733262896538}, "load_time_ms": 0.689, "num_steps_sampled": 114000, "update_time_ms": 2.541}, "training_iteration": 95, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.07614731788635, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 114000, "timesteps_total": 114000, "custom_metrics": {}, "iterations_since_restore": 95, "episodes_this_iter": 25, "episode_reward_min": -99.36198879809118, "date": "2025-09-04_17-18-23", "episode_reward_max": 1.4474787914261587, "pid": 3651948, "timestamp": 1756999103, "episode_reward_mean": -89.21487080403091, "time_total_s": 3934.89609003067, "episodes_total": 2319, "episode_len_mean": 47.81}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3974.9890925884247, "info": {"sample_time_ms": 39785.839, "num_steps_trained": 115200, "grad_time_ms": 373.399, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1199.9796142578125, "policy_loss": -0.12493264675140381, "vf_explained_var": -0.7098046541213989, "entropy": 14.439332962036133, "cur_lr": 4.999999873689376e-05, "total_loss": 1199.87451171875, "kl": 0.013081979006528854}, "load_time_ms": 0.695, "num_steps_sampled": 115200, "update_time_ms": 2.574}, "training_iteration": 96, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.09300255775452, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 115200, "timesteps_total": 115200, "custom_metrics": {}, "iterations_since_restore": 96, "episodes_this_iter": 25, "episode_reward_min": -99.36198879809118, "date": "2025-09-04_17-19-03", "episode_reward_max": -28.275172311855314, "pid": 3651948, "timestamp": 1756999143, "episode_reward_mean": -90.65294534009193, "time_total_s": 3974.9890925884247, "episodes_total": 2344, "episode_len_mean": 48.51}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4014.6931591033936, "info": {"sample_time_ms": 39698.153, "num_steps_trained": 116400, "grad_time_ms": 373.004, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1210.350341796875, "policy_loss": -0.11625361442565918, "vf_explained_var": -0.7325482368469238, "entropy": 14.540125846862793, "cur_lr": 4.999999873689376e-05, "total_loss": 1210.2540283203125, "kl": 0.013076062314212322}, "load_time_ms": 0.68, "num_steps_sampled": 116400, "update_time_ms": 2.558}, "training_iteration": 97, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.70406651496887, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 116400, "timesteps_total": 116400, "custom_metrics": {}, "iterations_since_restore": 97, "episodes_this_iter": 24, "episode_reward_min": -97.95559873759191, "date": "2025-09-04_17-19-43", "episode_reward_max": -35.95092867650534, "pid": 3651948, "timestamp": 1756999183, "episode_reward_mean": -91.17967484303084, "time_total_s": 4014.6931591033936, "episodes_total": 2368, "episode_len_mean": 48.85}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4055.768358230591, "info": {"sample_time_ms": 39759.339, "num_steps_trained": 117600, "grad_time_ms": 373.009, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1190.3453369140625, "policy_loss": -0.11981771886348724, "vf_explained_var": -0.6935294270515442, "entropy": 14.405661582946777, "cur_lr": 4.999999873689376e-05, "total_loss": 1190.245849609375, "kl": 0.013433661311864853}, "load_time_ms": 0.685, "num_steps_sampled": 117600, "update_time_ms": 2.552}, "training_iteration": 98, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.075199127197266, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 117600, "timesteps_total": 117600, "custom_metrics": {}, "iterations_since_restore": 98, "episodes_this_iter": 25, "episode_reward_min": -97.95559873759191, "date": "2025-09-04_17-20-24", "episode_reward_max": 0.5107333925751831, "pid": 3651948, "timestamp": 1756999224, "episode_reward_mean": -89.58005055925892, "time_total_s": 4055.768358230591, "episodes_total": 2393, "episode_len_mean": 48.15}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4095.5292184352875, "info": {"sample_time_ms": 39757.793, "num_steps_trained": 118800, "grad_time_ms": 370.868, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1296.869140625, "policy_loss": -0.1273031383752823, "vf_explained_var": -0.7066032886505127, "entropy": 14.593509674072266, "cur_lr": 4.999999873689376e-05, "total_loss": 1296.7630615234375, "kl": 0.013859516941010952}, "load_time_ms": 0.679, "num_steps_sampled": 118800, "update_time_ms": 2.572}, "training_iteration": 99, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.760860204696655, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 118800, "timesteps_total": 118800, "custom_metrics": {}, "iterations_since_restore": 99, "episodes_this_iter": 24, "episode_reward_min": -97.95559873759191, "date": "2025-09-04_17-21-03", "episode_reward_max": 0.5107333925751831, "pid": 3651948, "timestamp": 1756999263, "episode_reward_mean": -90.90190257334996, "time_total_s": 4095.5292184352875, "episodes_total": 2417, "episode_len_mean": 48.75}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4135.280607700348, "info": {"sample_time_ms": 39771.754, "num_steps_trained": 120000, "grad_time_ms": 373.397, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1311.7376708984375, "policy_loss": -0.13152579963207245, "vf_explained_var": -0.6952612996101379, "entropy": 14.473356246948242, "cur_lr": 4.999999873689376e-05, "total_loss": 1311.62744140625, "kl": 0.014029532670974731}, "load_time_ms": 0.689, "num_steps_sampled": 120000, "update_time_ms": 2.588}, "training_iteration": 100, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.751389265060425, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 120000, "timesteps_total": 120000, "custom_metrics": {}, "iterations_since_restore": 100, "episodes_this_iter": 25, "episode_reward_min": -98.5273936104996, "date": "2025-09-04_17-21-43", "episode_reward_max": 0.5107333925751831, "pid": 3651948, "timestamp": 1756999303, "episode_reward_mean": -90.455652480023, "time_total_s": 4135.280607700348, "episodes_total": 2442, "episode_len_mean": 48.5}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4175.344631195068, "info": {"sample_time_ms": 39722.412, "num_steps_trained": 121200, "grad_time_ms": 375.911, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1326.9588623046875, "policy_loss": -0.14080630242824554, "vf_explained_var": -0.7763766050338745, "entropy": 14.496570587158203, "cur_lr": 4.999999873689376e-05, "total_loss": 1326.8421630859375, "kl": 0.015901949256658554}, "load_time_ms": 0.675, "num_steps_sampled": 121200, "update_time_ms": 2.616}, "training_iteration": 101, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.06402349472046, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 121200, "timesteps_total": 121200, "custom_metrics": {}, "iterations_since_restore": 101, "episodes_this_iter": 26, "episode_reward_min": -98.5273936104996, "date": "2025-09-04_17-22-23", "episode_reward_max": 6.000664555683574, "pid": 3651948, "timestamp": 1756999343, "episode_reward_mean": -88.72845558193077, "time_total_s": 4175.344631195068, "episodes_total": 2468, "episode_len_mean": 47.76}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4215.645416736603, "info": {"sample_time_ms": 39774.876, "num_steps_trained": 122400, "grad_time_ms": 375.573, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1194.6558837890625, "policy_loss": -0.1253173053264618, "vf_explained_var": -0.7658072710037231, "entropy": 14.514446258544922, "cur_lr": 4.999999873689376e-05, "total_loss": 1194.5496826171875, "kl": 0.012578372843563557}, "load_time_ms": 0.679, "num_steps_sampled": 122400, "update_time_ms": 2.664}, "training_iteration": 102, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.300785541534424, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 122400, "timesteps_total": 122400, "custom_metrics": {}, "iterations_since_restore": 102, "episodes_this_iter": 25, "episode_reward_min": -98.5273936104996, "date": "2025-09-04_17-23-04", "episode_reward_max": 6.000664555683574, "pid": 3651948, "timestamp": 1756999384, "episode_reward_mean": -89.66162941043045, "time_total_s": 4215.645416736603, "episodes_total": 2493, "episode_len_mean": 48.25}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4255.7618935108185, "info": {"sample_time_ms": 39733.237, "num_steps_trained": 123600, "grad_time_ms": 374.02, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1156.4312744140625, "policy_loss": -0.1374259740114212, "vf_explained_var": -0.6683142781257629, "entropy": 14.21220874786377, "cur_lr": 4.999999873689376e-05, "total_loss": 1156.3155517578125, "kl": 0.014314512722194195}, "load_time_ms": 0.678, "num_steps_sampled": 123600, "update_time_ms": 2.677}, "training_iteration": 103, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.1164767742157, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 123600, "timesteps_total": 123600, "custom_metrics": {}, "iterations_since_restore": 103, "episodes_this_iter": 25, "episode_reward_min": -98.5273936104996, "date": "2025-09-04_17-23-44", "episode_reward_max": 6.000664555683574, "pid": 3651948, "timestamp": 1756999424, "episode_reward_mean": -88.23683398251121, "time_total_s": 4255.7618935108185, "episodes_total": 2518, "episode_len_mean": 47.59}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4297.668802499771, "info": {"sample_time_ms": 39901.639, "num_steps_trained": 124800, "grad_time_ms": 375.174, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1237.98388671875, "policy_loss": -0.12278148531913757, "vf_explained_var": -0.6365931630134583, "entropy": 14.33677864074707, "cur_lr": 4.999999873689376e-05, "total_loss": 1237.88037109375, "kl": 0.012673246674239635}, "load_time_ms": 0.697, "num_steps_sampled": 124800, "update_time_ms": 2.728}, "training_iteration": 104, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.90690898895264, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 124800, "timesteps_total": 124800, "custom_metrics": {}, "iterations_since_restore": 104, "episodes_this_iter": 28, "episode_reward_min": -97.46309625411676, "date": "2025-09-04_17-24-26", "episode_reward_max": 6.000664555683574, "pid": 3651948, "timestamp": 1756999466, "episode_reward_mean": -84.16640483824541, "time_total_s": 4297.668802499771, "episodes_total": 2546, "episode_len_mean": 45.78}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4337.651317119598, "info": {"sample_time_ms": 39889.857, "num_steps_trained": 126000, "grad_time_ms": 377.575, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1278.95947265625, "policy_loss": -0.12983882427215576, "vf_explained_var": -0.6369035840034485, "entropy": 14.396255493164062, "cur_lr": 4.999999873689376e-05, "total_loss": 1278.85009765625, "kl": 0.013471391052007675}, "load_time_ms": 0.715, "num_steps_sampled": 126000, "update_time_ms": 2.716}, "training_iteration": 105, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.98251461982727, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 126000, "timesteps_total": 126000, "custom_metrics": {}, "iterations_since_restore": 105, "episodes_this_iter": 25, "episode_reward_min": -97.45426535558042, "date": "2025-09-04_17-25-06", "episode_reward_max": 6.000003544694097, "pid": 3651948, "timestamp": 1756999506, "episode_reward_mean": -85.2422938899056, "time_total_s": 4337.651317119598, "episodes_total": 2571, "episode_len_mean": 46.3}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4378.0724902153015, "info": {"sample_time_ms": 39924.688, "num_steps_trained": 127200, "grad_time_ms": 375.586, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1178.966552734375, "policy_loss": -0.1314598172903061, "vf_explained_var": -0.6940706968307495, "entropy": 14.413055419921875, "cur_lr": 4.999999873689376e-05, "total_loss": 1178.8572998046875, "kl": 0.014483694918453693}, "load_time_ms": 0.708, "num_steps_sampled": 127200, "update_time_ms": 2.682}, "training_iteration": 106, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.421173095703125, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 127200, "timesteps_total": 127200, "custom_metrics": {}, "iterations_since_restore": 106, "episodes_this_iter": 28, "episode_reward_min": -97.15961541343583, "date": "2025-09-04_17-25-46", "episode_reward_max": 6.000003544694097, "pid": 3651948, "timestamp": 1756999546, "episode_reward_mean": -82.70880042113075, "time_total_s": 4378.0724902153015, "episodes_total": 2599, "episode_len_mean": 45.08}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4419.78364610672, "info": {"sample_time_ms": 40123.747, "num_steps_trained": 128400, "grad_time_ms": 377.182, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1233.5357666015625, "policy_loss": -0.12721286714076996, "vf_explained_var": -0.7277848720550537, "entropy": 14.43802261352539, "cur_lr": 4.999999873689376e-05, "total_loss": 1233.4302978515625, "kl": 0.014336716383695602}, "load_time_ms": 0.729, "num_steps_sampled": 128400, "update_time_ms": 2.697}, "training_iteration": 107, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.71115589141846, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 128400, "timesteps_total": 128400, "custom_metrics": {}, "iterations_since_restore": 107, "episodes_this_iter": 25, "episode_reward_min": -98.2978558218741, "date": "2025-09-04_17-26-28", "episode_reward_max": 2.1440509234017577, "pid": 3651948, "timestamp": 1756999588, "episode_reward_mean": -84.86409343511512, "time_total_s": 4419.78364610672, "episodes_total": 2624, "episode_len_mean": 46.06}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4460.092601776123, "info": {"sample_time_ms": 40046.852, "num_steps_trained": 129600, "grad_time_ms": 377.472, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1257.62548828125, "policy_loss": -0.12686073780059814, "vf_explained_var": -0.6250575184822083, "entropy": 14.22714614868164, "cur_lr": 4.999999873689376e-05, "total_loss": 1257.5218505859375, "kl": 0.015301553532481194}, "load_time_ms": 0.724, "num_steps_sampled": 129600, "update_time_ms": 2.693}, "training_iteration": 108, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.308955669403076, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 129600, "timesteps_total": 129600, "custom_metrics": {}, "iterations_since_restore": 108, "episodes_this_iter": 25, "episode_reward_min": -98.2978558218741, "date": "2025-09-04_17-27-08", "episode_reward_max": 3.0193488702176747, "pid": 3651948, "timestamp": 1756999628, "episode_reward_mean": -86.37986970879447, "time_total_s": 4460.092601776123, "episodes_total": 2649, "episode_len_mean": 46.67}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4500.163435935974, "info": {"sample_time_ms": 40077.132, "num_steps_trained": 130800, "grad_time_ms": 378.158, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1223.0604248046875, "policy_loss": -0.13701944053173065, "vf_explained_var": -0.6192005276679993, "entropy": 14.382627487182617, "cur_lr": 4.999999873689376e-05, "total_loss": 1222.9482421875, "kl": 0.016335275024175644}, "load_time_ms": 0.723, "num_steps_sampled": 130800, "update_time_ms": 2.697}, "training_iteration": 109, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.070834159851074, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 130800, "timesteps_total": 130800, "custom_metrics": {}, "iterations_since_restore": 109, "episodes_this_iter": 26, "episode_reward_min": -98.2978558218741, "date": "2025-09-04_17-27-48", "episode_reward_max": 3.0193488702176747, "pid": 3651948, "timestamp": 1756999668, "episode_reward_mean": -86.45667733670398, "time_total_s": 4500.163435935974, "episodes_total": 2675, "episode_len_mean": 46.77}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4541.299084186554, "info": {"sample_time_ms": 40215.232, "num_steps_trained": 132000, "grad_time_ms": 378.476, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1271.205322265625, "policy_loss": -0.13974149525165558, "vf_explained_var": -0.5736344456672668, "entropy": 14.173750877380371, "cur_lr": 4.999999873689376e-05, "total_loss": 1271.0859375, "kl": 0.01340469066053629}, "load_time_ms": 0.725, "num_steps_sampled": 132000, "update_time_ms": 2.696}, "training_iteration": 110, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.135648250579834, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 132000, "timesteps_total": 132000, "custom_metrics": {}, "iterations_since_restore": 110, "episodes_this_iter": 27, "episode_reward_min": -99.64931377321552, "date": "2025-09-04_17-28-29", "episode_reward_max": 3.0193488702176747, "pid": 3651948, "timestamp": 1756999709, "episode_reward_mean": -85.65938928896858, "time_total_s": 4541.299084186554, "episodes_total": 2702, "episode_len_mean": 46.35}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4581.27139878273, "info": {"sample_time_ms": 40206.484, "num_steps_trained": 133200, "grad_time_ms": 378.024, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1239.5079345703125, "policy_loss": -0.12589646875858307, "vf_explained_var": -0.6094751954078674, "entropy": 14.06795883178711, "cur_lr": 4.999999873689376e-05, "total_loss": 1239.40234375, "kl": 0.013416077941656113}, "load_time_ms": 0.727, "num_steps_sampled": 133200, "update_time_ms": 2.708}, "training_iteration": 111, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.97231459617615, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 133200, "timesteps_total": 133200, "custom_metrics": {}, "iterations_since_restore": 111, "episodes_this_iter": 24, "episode_reward_min": -99.64931377321552, "date": "2025-09-04_17-29-10", "episode_reward_max": 3.0193488702176747, "pid": 3651948, "timestamp": 1756999750, "episode_reward_mean": -85.355216547187, "time_total_s": 4581.27139878273, "episodes_total": 2726, "episode_len_mean": 46.29}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4621.051965236664, "info": {"sample_time_ms": 40156.241, "num_steps_trained": 134400, "grad_time_ms": 376.258, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1339.635009765625, "policy_loss": -0.1412985920906067, "vf_explained_var": -0.592364490032196, "entropy": 14.377864837646484, "cur_lr": 4.999999873689376e-05, "total_loss": 1339.51513671875, "kl": 0.014054707251489162}, "load_time_ms": 0.718, "num_steps_sampled": 134400, "update_time_ms": 2.694}, "training_iteration": 112, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.780566453933716, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 134400, "timesteps_total": 134400, "custom_metrics": {}, "iterations_since_restore": 112, "episodes_this_iter": 25, "episode_reward_min": -99.64931377321552, "date": "2025-09-04_17-29-49", "episode_reward_max": -1.849715851617404, "pid": 3651948, "timestamp": 1756999789, "episode_reward_mean": -86.26141017081436, "time_total_s": 4621.051965236664, "episodes_total": 2751, "episode_len_mean": 46.8}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4661.2936680316925, "info": {"sample_time_ms": 40167.92, "num_steps_trained": 135600, "grad_time_ms": 377.197, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1229.363037109375, "policy_loss": -0.1360459327697754, "vf_explained_var": -0.5663503408432007, "entropy": 14.140381813049316, "cur_lr": 4.999999873689376e-05, "total_loss": 1229.2481689453125, "kl": 0.013758447952568531}, "load_time_ms": 0.727, "num_steps_sampled": 135600, "update_time_ms": 2.661}, "training_iteration": 113, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.24170279502869, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 135600, "timesteps_total": 135600, "custom_metrics": {}, "iterations_since_restore": 113, "episodes_this_iter": 28, "episode_reward_min": -99.64931377321552, "date": "2025-09-04_17-30-30", "episode_reward_max": -1.849715851617404, "pid": 3651948, "timestamp": 1756999830, "episode_reward_mean": -84.13588032368352, "time_total_s": 4661.2936680316925, "episodes_total": 2779, "episode_len_mean": 45.91}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4701.200223684311, "info": {"sample_time_ms": 39968.296, "num_steps_trained": 136800, "grad_time_ms": 376.908, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1215.121337890625, "policy_loss": -0.1374468207359314, "vf_explained_var": -0.622351884841919, "entropy": 14.042511940002441, "cur_lr": 4.999999873689376e-05, "total_loss": 1215.00537109375, "kl": 0.014193039387464523}, "load_time_ms": 0.713, "num_steps_sampled": 136800, "update_time_ms": 2.603}, "training_iteration": 114, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.90655565261841, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 136800, "timesteps_total": 136800, "custom_metrics": {}, "iterations_since_restore": 114, "episodes_this_iter": 27, "episode_reward_min": -97.28639060982673, "date": "2025-09-04_17-31-09", "episode_reward_max": 2.000004349898961, "pid": 3651948, "timestamp": 1756999869, "episode_reward_mean": -84.21676647970006, "time_total_s": 4701.200223684311, "episodes_total": 2806, "episode_len_mean": 46.08}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4740.942209243774, "info": {"sample_time_ms": 39946.04, "num_steps_trained": 138000, "grad_time_ms": 375.175, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1228.0399169921875, "policy_loss": -0.1427999883890152, "vf_explained_var": -0.6482807993888855, "entropy": 14.210469245910645, "cur_lr": 4.999999873689376e-05, "total_loss": 1227.91748046875, "kl": 0.013438764959573746}, "load_time_ms": 0.719, "num_steps_sampled": 138000, "update_time_ms": 2.585}, "training_iteration": 115, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.7419855594635, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 138000, "timesteps_total": 138000, "custom_metrics": {}, "iterations_since_restore": 115, "episodes_this_iter": 25, "episode_reward_min": -97.46278423272653, "date": "2025-09-04_17-31-49", "episode_reward_max": 2.000004349898961, "pid": 3651948, "timestamp": 1756999909, "episode_reward_mean": -84.02052648087194, "time_total_s": 4740.942209243774, "episodes_total": 2831, "episode_len_mean": 46.04}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4780.744037866592, "info": {"sample_time_ms": 39880.803, "num_steps_trained": 139200, "grad_time_ms": 378.501, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1398.448974609375, "policy_loss": -0.13323861360549927, "vf_explained_var": -0.7571742534637451, "entropy": 14.20920467376709, "cur_lr": 4.999999873689376e-05, "total_loss": 1398.337646484375, "kl": 0.014472413808107376}, "load_time_ms": 0.736, "num_steps_sampled": 139200, "update_time_ms": 2.536}, "training_iteration": 116, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.80182862281799, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 139200, "timesteps_total": 139200, "custom_metrics": {}, "iterations_since_restore": 116, "episodes_this_iter": 24, "episode_reward_min": -97.46278423272653, "date": "2025-09-04_17-32-29", "episode_reward_max": 2.000004349898961, "pid": 3651948, "timestamp": 1756999949, "episode_reward_mean": -84.00878538868815, "time_total_s": 4780.744037866592, "episodes_total": 2855, "episode_len_mean": 46.0}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4820.50555896759, "info": {"sample_time_ms": 39688.761, "num_steps_trained": 140400, "grad_time_ms": 375.63, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1149.515380859375, "policy_loss": -0.12735703587532043, "vf_explained_var": -0.6808863878250122, "entropy": 13.910858154296875, "cur_lr": 4.999999873689376e-05, "total_loss": 1149.405517578125, "kl": 0.01153584010899067}, "load_time_ms": 0.717, "num_steps_sampled": 140400, "update_time_ms": 2.537}, "training_iteration": 117, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.761521100997925, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 140400, "timesteps_total": 140400, "custom_metrics": {}, "iterations_since_restore": 117, "episodes_this_iter": 27, "episode_reward_min": -97.46278423272653, "date": "2025-09-04_17-33-09", "episode_reward_max": -2.9198034618987947, "pid": 3651948, "timestamp": 1756999989, "episode_reward_mean": -86.9114394525108, "time_total_s": 4820.50555896759, "episodes_total": 2882, "episode_len_mean": 47.45}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4860.424870014191, "info": {"sample_time_ms": 39652.325, "num_steps_trained": 141600, "grad_time_ms": 373.139, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1287.9305419921875, "policy_loss": -0.13839703798294067, "vf_explained_var": -0.6928651332855225, "entropy": 14.062501907348633, "cur_lr": 4.999999873689376e-05, "total_loss": 1287.81640625, "kl": 0.01598420925438404}, "load_time_ms": 0.713, "num_steps_sampled": 141600, "update_time_ms": 2.516}, "training_iteration": 118, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.91931104660034, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 141600, "timesteps_total": 141600, "custom_metrics": {}, "iterations_since_restore": 118, "episodes_this_iter": 26, "episode_reward_min": -97.46278423272653, "date": "2025-09-04_17-33-49", "episode_reward_max": -2.9198034618987947, "pid": 3651948, "timestamp": 1757000029, "episode_reward_mean": -86.97735539907637, "time_total_s": 4860.424870014191, "episodes_total": 2908, "episode_len_mean": 47.41}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4901.108229875565, "info": {"sample_time_ms": 39714.083, "num_steps_trained": 142800, "grad_time_ms": 372.653, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1239.31298828125, "policy_loss": -0.14445358514785767, "vf_explained_var": -0.7411688566207886, "entropy": 14.128597259521484, "cur_lr": 4.999999873689376e-05, "total_loss": 1239.1910400390625, "kl": 0.014916145242750645}, "load_time_ms": 0.712, "num_steps_sampled": 142800, "update_time_ms": 2.522}, "training_iteration": 119, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.6833598613739, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 142800, "timesteps_total": 142800, "custom_metrics": {}, "iterations_since_restore": 119, "episodes_this_iter": 27, "episode_reward_min": -97.12466194862068, "date": "2025-09-04_17-34-29", "episode_reward_max": 7.805300910529125, "pid": 3651948, "timestamp": 1757000069, "episode_reward_mean": -84.39691080163124, "time_total_s": 4901.108229875565, "episodes_total": 2935, "episode_len_mean": 46.3}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4941.155441761017, "info": {"sample_time_ms": 39607.559, "num_steps_trained": 144000, "grad_time_ms": 370.35, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1206.25048828125, "policy_loss": -0.12830425798892975, "vf_explained_var": -0.652219831943512, "entropy": 14.344528198242188, "cur_lr": 4.999999873689376e-05, "total_loss": 1206.142333984375, "kl": 0.01337106991559267}, "load_time_ms": 0.712, "num_steps_sampled": 144000, "update_time_ms": 2.504}, "training_iteration": 120, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.04721188545227, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 144000, "timesteps_total": 144000, "custom_metrics": {}, "iterations_since_restore": 120, "episodes_this_iter": 26, "episode_reward_min": -97.12466194862068, "date": "2025-09-04_17-35-09", "episode_reward_max": 7.805300910529125, "pid": 3651948, "timestamp": 1757000109, "episode_reward_mean": -82.81832333655902, "time_total_s": 4941.155441761017, "episodes_total": 2961, "episode_len_mean": 45.62}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4981.022238731384, "info": {"sample_time_ms": 39599.494, "num_steps_trained": 145200, "grad_time_ms": 367.911, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1186.442138671875, "policy_loss": -0.1330496370792389, "vf_explained_var": -0.6136595606803894, "entropy": 14.419291496276855, "cur_lr": 4.999999873689376e-05, "total_loss": 1186.3292236328125, "kl": 0.013351598754525185}, "load_time_ms": 0.701, "num_steps_sampled": 145200, "update_time_ms": 2.481}, "training_iteration": 121, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.86679697036743, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 145200, "timesteps_total": 145200, "custom_metrics": {}, "iterations_since_restore": 121, "episodes_this_iter": 26, "episode_reward_min": -97.12466194862068, "date": "2025-09-04_17-35-49", "episode_reward_max": 7.805300910529125, "pid": 3651948, "timestamp": 1757000149, "episode_reward_mean": -81.44347113403737, "time_total_s": 4981.022238731384, "episodes_total": 2987, "episode_len_mean": 45.06}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5020.848915338516, "info": {"sample_time_ms": 39604.063, "num_steps_trained": 146400, "grad_time_ms": 367.975, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1180.305419921875, "policy_loss": -0.13235728442668915, "vf_explained_var": -0.553139865398407, "entropy": 14.17344856262207, "cur_lr": 4.999999873689376e-05, "total_loss": 1180.1942138671875, "kl": 0.013966232538223267}, "load_time_ms": 0.704, "num_steps_sampled": 146400, "update_time_ms": 2.469}, "training_iteration": 122, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.82667660713196, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 146400, "timesteps_total": 146400, "custom_metrics": {}, "iterations_since_restore": 122, "episodes_this_iter": 27, "episode_reward_min": -96.53858566931319, "date": "2025-09-04_17-36-29", "episode_reward_max": 7.805300910529125, "pid": 3651948, "timestamp": 1757000189, "episode_reward_mean": -82.05372274573158, "time_total_s": 5020.848915338516, "episodes_total": 3014, "episode_len_mean": 45.31}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5060.564336061478, "info": {"sample_time_ms": 39551.678, "num_steps_trained": 147600, "grad_time_ms": 367.708, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1200.6090087890625, "policy_loss": -0.14686201512813568, "vf_explained_var": -0.4810258448123932, "entropy": 14.21179485321045, "cur_lr": 4.999999873689376e-05, "total_loss": 1200.483154296875, "kl": 0.01375659555196762}, "load_time_ms": 0.693, "num_steps_sampled": 147600, "update_time_ms": 2.472}, "training_iteration": 123, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.715420722961426, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 147600, "timesteps_total": 147600, "custom_metrics": {}, "iterations_since_restore": 123, "episodes_this_iter": 26, "episode_reward_min": -96.53858566931319, "date": "2025-09-04_17-37-09", "episode_reward_max": -1.4890587415309486, "pid": 3651948, "timestamp": 1757000229, "episode_reward_mean": -83.17987228195717, "time_total_s": 5060.564336061478, "episodes_total": 3040, "episode_len_mean": 45.85}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5100.991299629211, "info": {"sample_time_ms": 39605.376, "num_steps_trained": 148800, "grad_time_ms": 365.949, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1039.895751953125, "policy_loss": -0.14113567769527435, "vf_explained_var": -0.5060775876045227, "entropy": 13.987238883972168, "cur_lr": 4.999999873689376e-05, "total_loss": 1039.7767333984375, "kl": 0.014459229074418545}, "load_time_ms": 0.692, "num_steps_sampled": 148800, "update_time_ms": 2.55}, "training_iteration": 124, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.426963567733765, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 148800, "timesteps_total": 148800, "custom_metrics": {}, "iterations_since_restore": 124, "episodes_this_iter": 25, "episode_reward_min": -96.53858566931319, "date": "2025-09-04_17-37-49", "episode_reward_max": -1.4890587415309486, "pid": 3651948, "timestamp": 1757000269, "episode_reward_mean": -82.2096470112448, "time_total_s": 5100.991299629211, "episodes_total": 3065, "episode_len_mean": 45.5}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5140.684392690659, "info": {"sample_time_ms": 39602.107, "num_steps_trained": 150000, "grad_time_ms": 364.369, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 1045.89404296875, "policy_loss": -0.1301415115594864, "vf_explained_var": -0.6093275547027588, "entropy": 14.328471183776855, "cur_lr": 4.999999873689376e-05, "total_loss": 1045.78515625, "kl": 0.013961934484541416}, "load_time_ms": 0.67, "num_steps_sampled": 150000, "update_time_ms": 2.543}, "training_iteration": 125, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.693093061447144, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 150000, "timesteps_total": 150000, "custom_metrics": {}, "iterations_since_restore": 125, "episodes_this_iter": 26, "episode_reward_min": -96.53858566931319, "date": "2025-09-04_17-38-29", "episode_reward_max": -1.4890587415309486, "pid": 3651948, "timestamp": 1757000309, "episode_reward_mean": -83.63141672561046, "time_total_s": 5140.684392690659, "episodes_total": 3091, "episode_len_mean": 46.22}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5180.632479429245, "info": {"sample_time_ms": 39617.571, "num_steps_trained": 151200, "grad_time_ms": 363.531, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 757.4061279296875, "policy_loss": -0.13331261277198792, "vf_explained_var": -0.2395211011171341, "entropy": 14.12633991241455, "cur_lr": 4.999999873689376e-05, "total_loss": 757.2942504882812, "kl": 0.014148239977657795}, "load_time_ms": 0.659, "num_steps_sampled": 151200, "update_time_ms": 2.538}, "training_iteration": 126, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.948086738586426, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 151200, "timesteps_total": 151200, "custom_metrics": {}, "iterations_since_restore": 126, "episodes_this_iter": 26, "episode_reward_min": -96.40172250854067, "date": "2025-09-04_17-39-09", "episode_reward_max": -1.4890587415309486, "pid": 3651948, "timestamp": 1757000349, "episode_reward_mean": -83.57069733948921, "time_total_s": 5180.632479429245, "episodes_total": 3117, "episode_len_mean": 46.48}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5220.544438838959, "info": {"sample_time_ms": 39629.25, "num_steps_trained": 152400, "grad_time_ms": 366.799, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 601.220458984375, "policy_loss": -0.13246841728687286, "vf_explained_var": -0.1447088122367859, "entropy": 14.11307430267334, "cur_lr": 4.999999873689376e-05, "total_loss": 601.1065673828125, "kl": 0.012203659862279892}, "load_time_ms": 0.661, "num_steps_sampled": 152400, "update_time_ms": 2.599}, "training_iteration": 127, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.911959409713745, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 152400, "timesteps_total": 152400, "custom_metrics": {}, "iterations_since_restore": 127, "episodes_this_iter": 28, "episode_reward_min": -96.33489906872681, "date": "2025-09-04_17-39-49", "episode_reward_max": 6.00000171303838, "pid": 3651948, "timestamp": 1757000389, "episode_reward_mean": -82.60059780921091, "time_total_s": 5220.544438838959, "episodes_total": 3145, "episode_len_mean": 46.14}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5261.096935510635, "info": {"sample_time_ms": 39690.801, "num_steps_trained": 153600, "grad_time_ms": 368.482, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 506.0225830078125, "policy_loss": -0.12658780813217163, "vf_explained_var": -0.06294663995504379, "entropy": 14.06998062133789, "cur_lr": 4.999999873689376e-05, "total_loss": 505.9153747558594, "kl": 0.012763193808495998}, "load_time_ms": 0.666, "num_steps_sampled": 153600, "update_time_ms": 2.658}, "training_iteration": 128, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.552496671676636, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 153600, "timesteps_total": 153600, "custom_metrics": {}, "iterations_since_restore": 128, "episodes_this_iter": 25, "episode_reward_min": -96.33489906872681, "date": "2025-09-04_17-40-30", "episode_reward_max": 6.00000171303838, "pid": 3651948, "timestamp": 1757000430, "episode_reward_mean": -83.05137308127264, "time_total_s": 5261.096935510635, "episodes_total": 3170, "episode_len_mean": 46.31}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5300.679358243942, "info": {"sample_time_ms": 39578.543, "num_steps_trained": 154800, "grad_time_ms": 370.609, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 431.7116394042969, "policy_loss": -0.15474864840507507, "vf_explained_var": -0.01031529251486063, "entropy": 14.282392501831055, "cur_lr": 4.999999873689376e-05, "total_loss": 431.57843017578125, "kl": 0.01416665967553854}, "load_time_ms": 0.681, "num_steps_sampled": 154800, "update_time_ms": 2.658}, "training_iteration": 129, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.582422733306885, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 154800, "timesteps_total": 154800, "custom_metrics": {}, "iterations_since_restore": 129, "episodes_this_iter": 24, "episode_reward_min": -95.68258263100707, "date": "2025-09-04_17-41-09", "episode_reward_max": 6.00000171303838, "pid": 3651948, "timestamp": 1757000469, "episode_reward_mean": -83.72035979343802, "time_total_s": 5300.679358243942, "episodes_total": 3194, "episode_len_mean": 46.6}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5340.522296190262, "info": {"sample_time_ms": 39556.789, "num_steps_trained": 156000, "grad_time_ms": 371.925, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 437.48919677734375, "policy_loss": -0.15160608291625977, "vf_explained_var": 0.0015125274658203125, "entropy": 14.29353141784668, "cur_lr": 4.999999873689376e-05, "total_loss": 437.3584899902344, "kl": 0.0137290358543396}, "load_time_ms": 0.674, "num_steps_sampled": 156000, "update_time_ms": 2.657}, "training_iteration": 130, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.84293794631958, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 156000, "timesteps_total": 156000, "custom_metrics": {}, "iterations_since_restore": 130, "episodes_this_iter": 25, "episode_reward_min": -95.68258263100707, "date": "2025-09-04_17-41-49", "episode_reward_max": 6.00000171303838, "pid": 3651948, "timestamp": 1757000509, "episode_reward_mean": -84.13483640434106, "time_total_s": 5340.522296190262, "episodes_total": 3219, "episode_len_mean": 46.62}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5380.822713375092, "info": {"sample_time_ms": 39598.8, "num_steps_trained": 157200, "grad_time_ms": 373.285, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 529.89306640625, "policy_loss": -0.13991203904151917, "vf_explained_var": 0.0049516428261995316, "entropy": 13.942055702209473, "cur_lr": 4.999999873689376e-05, "total_loss": 529.7734375, "kl": 0.013350359164178371}, "load_time_ms": 0.672, "num_steps_sampled": 157200, "update_time_ms": 2.644}, "training_iteration": 131, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.30041718482971, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 157200, "timesteps_total": 157200, "custom_metrics": {}, "iterations_since_restore": 131, "episodes_this_iter": 26, "episode_reward_min": -98.09153998826689, "date": "2025-09-04_17-42-30", "episode_reward_max": 0.0009420488181604014, "pid": 3651948, "timestamp": 1757000550, "episode_reward_mean": -85.1697245143577, "time_total_s": 5380.822713375092, "episodes_total": 3245, "episode_len_mean": 47.13}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5421.157953977585, "info": {"sample_time_ms": 39650.571, "num_steps_trained": 158400, "grad_time_ms": 372.43, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 466.9972229003906, "policy_loss": -0.16029267013072968, "vf_explained_var": 0.00613213237375021, "entropy": 13.89816665649414, "cur_lr": 4.999999873689376e-05, "total_loss": 466.85931396484375, "kl": 0.014697965234518051}, "load_time_ms": 0.67, "num_steps_sampled": 158400, "update_time_ms": 2.623}, "training_iteration": 132, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.335240602493286, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 158400, "timesteps_total": 158400, "custom_metrics": {}, "iterations_since_restore": 132, "episodes_this_iter": 28, "episode_reward_min": -98.09153998826689, "date": "2025-09-04_17-43-10", "episode_reward_max": 0.0009420488181604014, "pid": 3651948, "timestamp": 1757000590, "episode_reward_mean": -83.4383318103255, "time_total_s": 5421.157953977585, "episodes_total": 3273, "episode_len_mean": 46.48}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5461.025522947311, "info": {"sample_time_ms": 39664.748, "num_steps_trained": 159600, "grad_time_ms": 373.541, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 435.2093200683594, "policy_loss": -0.14789816737174988, "vf_explained_var": 0.018822822719812393, "entropy": 13.995210647583008, "cur_lr": 4.999999873689376e-05, "total_loss": 435.0834045410156, "kl": 0.014483905397355556}, "load_time_ms": 0.672, "num_steps_sampled": 159600, "update_time_ms": 2.6}, "training_iteration": 133, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.86756896972656, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 159600, "timesteps_total": 159600, "custom_metrics": {}, "iterations_since_restore": 133, "episodes_this_iter": 27, "episode_reward_min": -98.09153998826689, "date": "2025-09-04_17-43-50", "episode_reward_max": 0.0009420488181604014, "pid": 3651948, "timestamp": 1757000630, "episode_reward_mean": -80.48768962719447, "time_total_s": 5461.025522947311, "episodes_total": 3300, "episode_len_mean": 45.15}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5502.38499712944, "info": {"sample_time_ms": 39756.354, "num_steps_trained": 160800, "grad_time_ms": 375.214, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 497.5989685058594, "policy_loss": -0.1495353728532791, "vf_explained_var": 0.03133540600538254, "entropy": 14.031764030456543, "cur_lr": 4.999999873689376e-05, "total_loss": 497.4719543457031, "kl": 0.014864559285342693}, "load_time_ms": 0.676, "num_steps_sampled": 160800, "update_time_ms": 2.575}, "training_iteration": 134, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.359474182128906, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 160800, "timesteps_total": 160800, "custom_metrics": {}, "iterations_since_restore": 134, "episodes_this_iter": 28, "episode_reward_min": -96.25872951173972, "date": "2025-09-04_17-44-31", "episode_reward_max": -5.1776342299954425, "pid": 3651948, "timestamp": 1757000671, "episode_reward_mean": -77.20826072261913, "time_total_s": 5502.38499712944, "episodes_total": 3328, "episode_len_mean": 43.67}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5542.784331083298, "info": {"sample_time_ms": 39823.63, "num_steps_trained": 162000, "grad_time_ms": 378.518, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 494.53619384765625, "policy_loss": -0.15687929093837738, "vf_explained_var": 0.006207088474184275, "entropy": 13.837095260620117, "cur_lr": 4.999999873689376e-05, "total_loss": 494.3984375, "kl": 0.012575294822454453}, "load_time_ms": 0.688, "num_steps_sampled": 162000, "update_time_ms": 2.586}, "training_iteration": 135, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.39933395385742, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 162000, "timesteps_total": 162000, "custom_metrics": {}, "iterations_since_restore": 135, "episodes_this_iter": 30, "episode_reward_min": -96.70286184158135, "date": "2025-09-04_17-45-12", "episode_reward_max": 8.000000400002254, "pid": 3651948, "timestamp": 1757000712, "episode_reward_mean": -75.40999040364656, "time_total_s": 5542.784331083298, "episodes_total": 3358, "episode_len_mean": 42.73}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5582.566870212555, "info": {"sample_time_ms": 39807.303, "num_steps_trained": 163200, "grad_time_ms": 378.286, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 429.1787109375, "policy_loss": -0.13850900530815125, "vf_explained_var": 0.004715243820101023, "entropy": 13.751395225524902, "cur_lr": 4.999999873689376e-05, "total_loss": 429.0587463378906, "kl": 0.01221616193652153}, "load_time_ms": 0.693, "num_steps_sampled": 163200, "update_time_ms": 2.603}, "training_iteration": 136, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.7825391292572, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 163200, "timesteps_total": 163200, "custom_metrics": {}, "iterations_since_restore": 136, "episodes_this_iter": 24, "episode_reward_min": -96.70286184158135, "date": "2025-09-04_17-45-51", "episode_reward_max": 8.000000400002254, "pid": 3651948, "timestamp": 1757000751, "episode_reward_mean": -77.38409159796784, "time_total_s": 5582.566870212555, "episodes_total": 3382, "episode_len_mean": 43.6}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5622.550188064575, "info": {"sample_time_ms": 39815.366, "num_steps_trained": 164400, "grad_time_ms": 377.402, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 519.8641357421875, "policy_loss": -0.15484751760959625, "vf_explained_var": 9.56919466261752e-05, "entropy": 14.056158065795898, "cur_lr": 4.999999873689376e-05, "total_loss": 519.7298583984375, "kl": 0.013529930263757706}, "load_time_ms": 0.695, "num_steps_sampled": 164400, "update_time_ms": 2.568}, "training_iteration": 137, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.983317852020264, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 164400, "timesteps_total": 164400, "custom_metrics": {}, "iterations_since_restore": 137, "episodes_this_iter": 25, "episode_reward_min": -96.70286184158135, "date": "2025-09-04_17-46-31", "episode_reward_max": 8.000000400002254, "pid": 3651948, "timestamp": 1757000791, "episode_reward_mean": -78.37530479396784, "time_total_s": 5622.550188064575, "episodes_total": 3407, "episode_len_mean": 44.37}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5662.401572704315, "info": {"sample_time_ms": 39744.196, "num_steps_trained": 165600, "grad_time_ms": 378.524, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 511.96624755859375, "policy_loss": -0.14721018075942993, "vf_explained_var": 0.022053804248571396, "entropy": 13.871037483215332, "cur_lr": 4.999999873689376e-05, "total_loss": 511.83843994140625, "kl": 0.012805236503481865}, "load_time_ms": 0.686, "num_steps_sampled": 165600, "update_time_ms": 2.52}, "training_iteration": 138, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.85138463973999, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 165600, "timesteps_total": 165600, "custom_metrics": {}, "iterations_since_restore": 138, "episodes_this_iter": 29, "episode_reward_min": -96.70286184158135, "date": "2025-09-04_17-47-11", "episode_reward_max": 6.000004628464221, "pid": 3651948, "timestamp": 1757000831, "episode_reward_mean": -80.62368275993127, "time_total_s": 5662.401572704315, "episodes_total": 3436, "episode_len_mean": 45.52}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5702.67907166481, "info": {"sample_time_ms": 39815.884, "num_steps_trained": 166800, "grad_time_ms": 376.383, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 462.9251403808594, "policy_loss": -0.14543704688549042, "vf_explained_var": 0.013895895332098007, "entropy": 13.724479675292969, "cur_lr": 4.999999873689376e-05, "total_loss": 462.7996826171875, "kl": 0.013188743032515049}, "load_time_ms": 0.678, "num_steps_sampled": 166800, "update_time_ms": 2.513}, "training_iteration": 139, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.277498960494995, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 166800, "timesteps_total": 166800, "custom_metrics": {}, "iterations_since_restore": 139, "episodes_this_iter": 26, "episode_reward_min": -96.3706927890899, "date": "2025-09-04_17-47-51", "episode_reward_max": 6.000004628464221, "pid": 3651948, "timestamp": 1757000871, "episode_reward_mean": -82.57511411226803, "time_total_s": 5702.67907166481, "episodes_total": 3462, "episode_len_mean": 46.38}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5742.838150262833, "info": {"sample_time_ms": 39847.8, "num_steps_trained": 168000, "grad_time_ms": 376.118, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 468.1904296875, "policy_loss": -0.12903155386447906, "vf_explained_var": 0.010596592910587788, "entropy": 13.66910457611084, "cur_lr": 4.999999873689376e-05, "total_loss": 468.0818786621094, "kl": 0.013512490317225456}, "load_time_ms": 0.673, "num_steps_sampled": 168000, "update_time_ms": 2.509}, "training_iteration": 140, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.15907859802246, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 168000, "timesteps_total": 168000, "custom_metrics": {}, "iterations_since_restore": 140, "episodes_this_iter": 25, "episode_reward_min": -96.3706927890899, "date": "2025-09-04_17-48-32", "episode_reward_max": 4.00041902346528, "pid": 3651948, "timestamp": 1757000912, "episode_reward_mean": -81.06491087767878, "time_total_s": 5742.838150262833, "episodes_total": 3487, "episode_len_mean": 45.78}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5783.118670940399, "info": {"sample_time_ms": 39845.818, "num_steps_trained": 169200, "grad_time_ms": 376.048, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 519.5208129882812, "policy_loss": -0.14394643902778625, "vf_explained_var": 0.007588174659758806, "entropy": 13.70052433013916, "cur_lr": 4.999999873689376e-05, "total_loss": 519.397705078125, "kl": 0.01370695885270834}, "load_time_ms": 0.678, "num_steps_sampled": 169200, "update_time_ms": 2.517}, "training_iteration": 141, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.28052067756653, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 169200, "timesteps_total": 169200, "custom_metrics": {}, "iterations_since_restore": 141, "episodes_this_iter": 30, "episode_reward_min": -94.9174978999614, "date": "2025-09-04_17-49-12", "episode_reward_max": 4.00041902346528, "pid": 3651948, "timestamp": 1757000952, "episode_reward_mean": -78.30766103408874, "time_total_s": 5783.118670940399, "episodes_total": 3517, "episode_len_mean": 44.28}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5823.950105428696, "info": {"sample_time_ms": 39894.033, "num_steps_trained": 170400, "grad_time_ms": 377.402, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 533.2041015625, "policy_loss": -0.15218709409236908, "vf_explained_var": 0.027479078620672226, "entropy": 14.154834747314453, "cur_lr": 4.999999873689376e-05, "total_loss": 533.073486328125, "kl": 0.014139831066131592}, "load_time_ms": 0.687, "num_steps_sampled": 170400, "update_time_ms": 2.548}, "training_iteration": 142, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.83143448829651, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 170400, "timesteps_total": 170400, "custom_metrics": {}, "iterations_since_restore": 142, "episodes_this_iter": 28, "episode_reward_min": -95.80786370762291, "date": "2025-09-04_17-49-53", "episode_reward_max": 2.000266023377246, "pid": 3651948, "timestamp": 1757000993, "episode_reward_mean": -75.77111625323947, "time_total_s": 5823.950105428696, "episodes_total": 3545, "episode_len_mean": 43.22}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5864.083309173584, "info": {"sample_time_ms": 39920.658, "num_steps_trained": 171600, "grad_time_ms": 377.249, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 447.897216796875, "policy_loss": -0.14685262739658356, "vf_explained_var": 0.012203852646052837, "entropy": 13.77534008026123, "cur_lr": 4.999999873689376e-05, "total_loss": 447.7716979980469, "kl": 0.014064337126910686}, "load_time_ms": 0.698, "num_steps_sampled": 171600, "update_time_ms": 2.559}, "training_iteration": 143, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.133203744888306, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 171600, "timesteps_total": 171600, "custom_metrics": {}, "iterations_since_restore": 143, "episodes_this_iter": 28, "episode_reward_min": -95.80786370762291, "date": "2025-09-04_17-50-33", "episode_reward_max": 2.000266023377246, "pid": 3651948, "timestamp": 1757001033, "episode_reward_mean": -74.91504953685117, "time_total_s": 5864.083309173584, "episodes_total": 3573, "episode_len_mean": 42.82}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5904.289658069611, "info": {"sample_time_ms": 39806.058, "num_steps_trained": 172800, "grad_time_ms": 376.511, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 439.82000732421875, "policy_loss": -0.15573416650295258, "vf_explained_var": 0.010575804859399796, "entropy": 13.51430892944336, "cur_lr": 4.999999873689376e-05, "total_loss": 439.6846008300781, "kl": 0.013372303918004036}, "load_time_ms": 0.689, "num_steps_sampled": 172800, "update_time_ms": 2.545}, "training_iteration": 144, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.20634889602661, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 172800, "timesteps_total": 172800, "custom_metrics": {}, "iterations_since_restore": 144, "episodes_this_iter": 26, "episode_reward_min": -96.95658790248578, "date": "2025-09-04_17-51-13", "episode_reward_max": 2.000266023377246, "pid": 3651948, "timestamp": 1757001073, "episode_reward_mean": -77.47728638204703, "time_total_s": 5904.289658069611, "episodes_total": 3599, "episode_len_mean": 43.86}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5944.542104482651, "info": {"sample_time_ms": 39793.73, "num_steps_trained": 174000, "grad_time_ms": 374.167, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 489.4002685546875, "policy_loss": -0.15363189578056335, "vf_explained_var": 0.010992010124027729, "entropy": 13.861942291259766, "cur_lr": 4.999999873689376e-05, "total_loss": 489.2677307128906, "kl": 0.013880307786166668}, "load_time_ms": 0.683, "num_steps_sampled": 174000, "update_time_ms": 2.551}, "training_iteration": 145, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.25244641304016, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 174000, "timesteps_total": 174000, "custom_metrics": {}, "iterations_since_restore": 145, "episodes_this_iter": 30, "episode_reward_min": -96.95658790248578, "date": "2025-09-04_17-51-53", "episode_reward_max": 6.00050672631794, "pid": 3651948, "timestamp": 1757001113, "episode_reward_mean": -77.48228222365948, "time_total_s": 5944.542104482651, "episodes_total": 3629, "episode_len_mean": 43.74}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5984.474422693253, "info": {"sample_time_ms": 39808.244, "num_steps_trained": 175200, "grad_time_ms": 374.642, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 483.8934326171875, "policy_loss": -0.16133642196655273, "vf_explained_var": 0.004873269237577915, "entropy": 13.626518249511719, "cur_lr": 4.999999873689376e-05, "total_loss": 483.7530517578125, "kl": 0.013784998096525669}, "load_time_ms": 0.681, "num_steps_sampled": 175200, "update_time_ms": 2.542}, "training_iteration": 146, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.93231821060181, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 175200, "timesteps_total": 175200, "custom_metrics": {}, "iterations_since_restore": 146, "episodes_this_iter": 25, "episode_reward_min": -96.95658790248578, "date": "2025-09-04_17-52-33", "episode_reward_max": 6.00050672631794, "pid": 3651948, "timestamp": 1757001153, "episode_reward_mean": -77.00879523596886, "time_total_s": 5984.474422693253, "episodes_total": 3654, "episode_len_mean": 43.39}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6024.323261499405, "info": {"sample_time_ms": 39797.488, "num_steps_trained": 176400, "grad_time_ms": 371.987, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 489.1770324707031, "policy_loss": -0.1577053815126419, "vf_explained_var": 0.02425098419189453, "entropy": 13.7898530960083, "cur_lr": 4.999999873689376e-05, "total_loss": 489.03948974609375, "kl": 0.013261471875011921}, "load_time_ms": 0.676, "num_steps_sampled": 176400, "update_time_ms": 2.547}, "training_iteration": 147, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.848838806152344, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 176400, "timesteps_total": 176400, "custom_metrics": {}, "iterations_since_restore": 147, "episodes_this_iter": 28, "episode_reward_min": -96.95658790248578, "date": "2025-09-04_17-53-13", "episode_reward_max": 6.00050672631794, "pid": 3651948, "timestamp": 1757001193, "episode_reward_mean": -76.72782283086792, "time_total_s": 6024.323261499405, "episodes_total": 3682, "episode_len_mean": 43.29}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6064.125794410706, "info": {"sample_time_ms": 39792.766, "num_steps_trained": 177600, "grad_time_ms": 371.849, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 526.368408203125, "policy_loss": -0.14639145135879517, "vf_explained_var": 0.020639657974243164, "entropy": 13.701428413391113, "cur_lr": 4.999999873689376e-05, "total_loss": 526.2421875, "kl": 0.013283911161124706}, "load_time_ms": 0.686, "num_steps_sampled": 177600, "update_time_ms": 2.554}, "training_iteration": 148, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.80253291130066, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 177600, "timesteps_total": 177600, "custom_metrics": {}, "iterations_since_restore": 148, "episodes_this_iter": 27, "episode_reward_min": -96.31788008641165, "date": "2025-09-04_17-53-53", "episode_reward_max": 6.00050672631794, "pid": 3651948, "timestamp": 1757001233, "episode_reward_mean": -77.02193331284515, "time_total_s": 6064.125794410706, "episodes_total": 3709, "episode_len_mean": 43.53}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6104.521768093109, "info": {"sample_time_ms": 39804.917, "num_steps_trained": 178800, "grad_time_ms": 371.567, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 534.6456298828125, "policy_loss": -0.14344368875026703, "vf_explained_var": 0.032623257488012314, "entropy": 13.884628295898438, "cur_lr": 4.999999873689376e-05, "total_loss": 534.522705078125, "kl": 0.013491793535649776}, "load_time_ms": 0.68, "num_steps_sampled": 178800, "update_time_ms": 2.547}, "training_iteration": 149, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.395973682403564, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 178800, "timesteps_total": 178800, "custom_metrics": {}, "iterations_since_restore": 149, "episodes_this_iter": 27, "episode_reward_min": -96.31788008641165, "date": "2025-09-04_17-54-34", "episode_reward_max": 4.000905065352485, "pid": 3651948, "timestamp": 1757001274, "episode_reward_mean": -77.59475084319799, "time_total_s": 6104.521768093109, "episodes_total": 3736, "episode_len_mean": 44.08}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6144.585580587387, "info": {"sample_time_ms": 39797.247, "num_steps_trained": 180000, "grad_time_ms": 369.718, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 589.8328857421875, "policy_loss": -0.15737102925777435, "vf_explained_var": 0.0029666093178093433, "entropy": 13.93885326385498, "cur_lr": 4.999999873689376e-05, "total_loss": 589.6962280273438, "kl": 0.013605907559394836}, "load_time_ms": 0.682, "num_steps_sampled": 180000, "update_time_ms": 2.553}, "training_iteration": 150, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.063812494277954, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 180000, "timesteps_total": 180000, "custom_metrics": {}, "iterations_since_restore": 150, "episodes_this_iter": 28, "episode_reward_min": -96.31788008641165, "date": "2025-09-04_17-55-14", "episode_reward_max": 4.000905065352485, "pid": 3651948, "timestamp": 1757001314, "episode_reward_mean": -75.6539729494931, "time_total_s": 6144.585580587387, "episodes_total": 3764, "episode_len_mean": 43.33}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6185.331671714783, "info": {"sample_time_ms": 39844.811, "num_steps_trained": 181200, "grad_time_ms": 368.735, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 573.21142578125, "policy_loss": -0.1537049263715744, "vf_explained_var": 0.009622778743505478, "entropy": 13.354726791381836, "cur_lr": 4.999999873689376e-05, "total_loss": 573.0790405273438, "kl": 0.01405271515250206}, "load_time_ms": 0.673, "num_steps_sampled": 181200, "update_time_ms": 2.562}, "training_iteration": 151, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.74609112739563, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 181200, "timesteps_total": 181200, "custom_metrics": {}, "iterations_since_restore": 151, "episodes_this_iter": 33, "episode_reward_min": -96.06327662108316, "date": "2025-09-04_17-55-54", "episode_reward_max": 6.000005684032507, "pid": 3651948, "timestamp": 1757001354, "episode_reward_mean": -73.6287210840856, "time_total_s": 6185.331671714783, "episodes_total": 3797, "episode_len_mean": 42.29}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6225.614793539047, "info": {"sample_time_ms": 39791.345, "num_steps_trained": 182400, "grad_time_ms": 367.327, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 563.124755859375, "policy_loss": -0.14891427755355835, "vf_explained_var": 0.00879173818975687, "entropy": 13.944217681884766, "cur_lr": 4.999999873689376e-05, "total_loss": 562.9971923828125, "kl": 0.014039833098649979}, "load_time_ms": 0.658, "num_steps_sampled": 182400, "update_time_ms": 2.626}, "training_iteration": 152, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.283121824264526, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 182400, "timesteps_total": 182400, "custom_metrics": {}, "iterations_since_restore": 152, "episodes_this_iter": 29, "episode_reward_min": -96.06327662108316, "date": "2025-09-04_17-56-35", "episode_reward_max": 6.000005684032507, "pid": 3651948, "timestamp": 1757001395, "episode_reward_mean": -69.42951983223737, "time_total_s": 6225.614793539047, "episodes_total": 3826, "episode_len_mean": 40.17}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6263.704438686371, "info": {"sample_time_ms": 39589.201, "num_steps_trained": 183600, "grad_time_ms": 365.196, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 451.091796875, "policy_loss": -0.16401776671409607, "vf_explained_var": 0.008112185634672642, "entropy": 13.623714447021484, "cur_lr": 4.999999873689376e-05, "total_loss": 450.9493103027344, "kl": 0.014164643362164497}, "load_time_ms": 0.653, "num_steps_sampled": 183600, "update_time_ms": 2.607}, "training_iteration": 153, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 38.08964514732361, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 183600, "timesteps_total": 183600, "custom_metrics": {}, "iterations_since_restore": 153, "episodes_this_iter": 27, "episode_reward_min": -96.06327662108316, "date": "2025-09-04_17-57-13", "episode_reward_max": 6.000005684032507, "pid": 3651948, "timestamp": 1757001433, "episode_reward_mean": -72.39619258771732, "time_total_s": 6263.704438686371, "episodes_total": 3853, "episode_len_mean": 41.43}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6297.63969874382, "info": {"sample_time_ms": 38960.78, "num_steps_trained": 184800, "grad_time_ms": 366.522, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 426.76007080078125, "policy_loss": -0.1499679982662201, "vf_explained_var": 0.019961846992373466, "entropy": 14.01634407043457, "cur_lr": 4.999999873689376e-05, "total_loss": 426.6302185058594, "kl": 0.01324660424143076}, "load_time_ms": 0.675, "num_steps_sampled": 184800, "update_time_ms": 2.571}, "training_iteration": 154, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.93526005744934, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 184800, "timesteps_total": 184800, "custom_metrics": {}, "iterations_since_restore": 154, "episodes_this_iter": 27, "episode_reward_min": -96.02294955272997, "date": "2025-09-04_17-57-47", "episode_reward_max": 6.000005684032507, "pid": 3651948, "timestamp": 1757001467, "episode_reward_mean": -73.46839023207444, "time_total_s": 6297.63969874382, "episodes_total": 3880, "episode_len_mean": 42.25}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6330.8898866176605, "info": {"sample_time_ms": 38258.875, "num_steps_trained": 186000, "grad_time_ms": 368.158, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 463.51904296875, "policy_loss": -0.14390847086906433, "vf_explained_var": 0.0144983334466815, "entropy": 13.602646827697754, "cur_lr": 4.999999873689376e-05, "total_loss": 463.39495849609375, "kl": 0.013063447549939156}, "load_time_ms": 0.683, "num_steps_sampled": 186000, "update_time_ms": 2.576}, "training_iteration": 155, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.25018787384033, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 186000, "timesteps_total": 186000, "custom_metrics": {}, "iterations_since_restore": 155, "episodes_this_iter": 28, "episode_reward_min": -96.02294955272997, "date": "2025-09-04_17-58-20", "episode_reward_max": 6.000153967687247, "pid": 3651948, "timestamp": 1757001500, "episode_reward_mean": -74.1287173082405, "time_total_s": 6330.8898866176605, "episodes_total": 3908, "episode_len_mean": 42.73}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6365.358276844025, "info": {"sample_time_ms": 37712.506, "num_steps_trained": 187200, "grad_time_ms": 368.12, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 447.3106384277344, "policy_loss": -0.1546049267053604, "vf_explained_var": 0.0173814557492733, "entropy": 13.743790626525879, "cur_lr": 4.999999873689376e-05, "total_loss": 447.1781311035156, "kl": 0.014562149532139301}, "load_time_ms": 0.677, "num_steps_sampled": 187200, "update_time_ms": 2.598}, "training_iteration": 156, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.468390226364136, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 187200, "timesteps_total": 187200, "custom_metrics": {}, "iterations_since_restore": 156, "episodes_this_iter": 29, "episode_reward_min": -96.02294955272997, "date": "2025-09-04_17-58-55", "episode_reward_max": 6.000153967687247, "pid": 3651948, "timestamp": 1757001535, "episode_reward_mean": -73.961188285357, "time_total_s": 6365.358276844025, "episodes_total": 3937, "episode_len_mean": 42.69}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6398.991594314575, "info": {"sample_time_ms": 37090.133, "num_steps_trained": 188400, "grad_time_ms": 368.892, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 432.24102783203125, "policy_loss": -0.16239456832408905, "vf_explained_var": 0.02992052584886551, "entropy": 13.820674896240234, "cur_lr": 4.999999873689376e-05, "total_loss": 432.09716796875, "kl": 0.012198535725474358}, "load_time_ms": 0.68, "num_steps_sampled": 188400, "update_time_ms": 2.579}, "training_iteration": 157, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.63331747055054, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 188400, "timesteps_total": 188400, "custom_metrics": {}, "iterations_since_restore": 157, "episodes_this_iter": 28, "episode_reward_min": -94.76394572856147, "date": "2025-09-04_17-59-28", "episode_reward_max": 6.000153967687247, "pid": 3651948, "timestamp": 1757001568, "episode_reward_mean": -73.47760643679179, "time_total_s": 6398.991594314575, "episodes_total": 3965, "episode_len_mean": 42.53}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6432.306711435318, "info": {"sample_time_ms": 36440.832, "num_steps_trained": 189600, "grad_time_ms": 369.403, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 460.80865478515625, "policy_loss": -0.15355131030082703, "vf_explained_var": 0.014817522838711739, "entropy": 13.547548294067383, "cur_lr": 4.999999873689376e-05, "total_loss": 460.6759948730469, "kl": 0.013771760277450085}, "load_time_ms": 0.688, "num_steps_sampled": 189600, "update_time_ms": 2.583}, "training_iteration": 158, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.3151171207428, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 189600, "timesteps_total": 189600, "custom_metrics": {}, "iterations_since_restore": 158, "episodes_this_iter": 27, "episode_reward_min": -94.76394572856147, "date": "2025-09-04_18-00-02", "episode_reward_max": 4.000566881068873, "pid": 3651948, "timestamp": 1757001602, "episode_reward_mean": -74.17728514692062, "time_total_s": 6432.306711435318, "episodes_total": 3992, "episode_len_mean": 42.67}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6465.709766387939, "info": {"sample_time_ms": 35739.848, "num_steps_trained": 190800, "grad_time_ms": 371.059, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 503.6580810546875, "policy_loss": -0.15453101694583893, "vf_explained_var": 0.01870148628950119, "entropy": 13.329124450683594, "cur_lr": 4.999999873689376e-05, "total_loss": 503.5256042480469, "kl": 0.014533232897520065}, "load_time_ms": 0.693, "num_steps_sampled": 190800, "update_time_ms": 2.617}, "training_iteration": 159, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.40305495262146, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 190800, "timesteps_total": 190800, "custom_metrics": {}, "iterations_since_restore": 159, "episodes_this_iter": 31, "episode_reward_min": -95.1787811615368, "date": "2025-09-04_18-00-35", "episode_reward_max": 4.000566881068873, "pid": 3651948, "timestamp": 1757001635, "episode_reward_mean": -73.62973317615167, "time_total_s": 6465.709766387939, "episodes_total": 4023, "episode_len_mean": 42.36}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6499.890940904617, "info": {"sample_time_ms": 35151.71, "num_steps_trained": 192000, "grad_time_ms": 370.927, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 504.2874450683594, "policy_loss": -0.16084225475788116, "vf_explained_var": 0.008933212608098984, "entropy": 13.373307228088379, "cur_lr": 4.999999873689376e-05, "total_loss": 504.1483154296875, "kl": 0.014286703430116177}, "load_time_ms": 0.698, "num_steps_sampled": 192000, "update_time_ms": 2.6}, "training_iteration": 160, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.181174516677856, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 192000, "timesteps_total": 192000, "custom_metrics": {}, "iterations_since_restore": 160, "episodes_this_iter": 28, "episode_reward_min": -95.1787811615368, "date": "2025-09-04_18-01-09", "episode_reward_max": 4.000566881068873, "pid": 3651948, "timestamp": 1757001669, "episode_reward_mean": -71.18900937259428, "time_total_s": 6499.890940904617, "episodes_total": 4051, "episode_len_mean": 41.31}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6533.306238651276, "info": {"sample_time_ms": 34417.313, "num_steps_trained": 193200, "grad_time_ms": 372.291, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 443.4478759765625, "policy_loss": -0.14680147171020508, "vf_explained_var": 0.030300889164209366, "entropy": 13.579971313476562, "cur_lr": 4.999999873689376e-05, "total_loss": 443.3230285644531, "kl": 0.014476616866886616}, "load_time_ms": 0.704, "num_steps_sampled": 193200, "update_time_ms": 2.579}, "training_iteration": 161, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.415297746658325, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 193200, "timesteps_total": 193200, "custom_metrics": {}, "iterations_since_restore": 161, "episodes_this_iter": 29, "episode_reward_min": -95.1787811615368, "date": "2025-09-04_18-01-43", "episode_reward_max": 5.039762891774004, "pid": 3651948, "timestamp": 1757001703, "episode_reward_mean": -69.76854035672953, "time_total_s": 6533.306238651276, "episodes_total": 4080, "episode_len_mean": 40.67}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6566.520789146423, "info": {"sample_time_ms": 33708.97, "num_steps_trained": 194400, "grad_time_ms": 373.746, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 498.4832458496094, "policy_loss": -0.15090115368366241, "vf_explained_var": 0.02782423608005047, "entropy": 13.286617279052734, "cur_lr": 4.999999873689376e-05, "total_loss": 498.3533020019531, "kl": 0.013792970217764378}, "load_time_ms": 0.731, "num_steps_sampled": 194400, "update_time_ms": 2.501}, "training_iteration": 162, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.214550495147705, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 194400, "timesteps_total": 194400, "custom_metrics": {}, "iterations_since_restore": 162, "episodes_this_iter": 27, "episode_reward_min": -95.11817286038946, "date": "2025-09-04_18-02-16", "episode_reward_max": 5.039762891774004, "pid": 3651948, "timestamp": 1757001736, "episode_reward_mean": -72.1282965410242, "time_total_s": 6566.520789146423, "episodes_total": 4107, "episode_len_mean": 41.9}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6600.906383752823, "info": {"sample_time_ms": 33337.011, "num_steps_trained": 195600, "grad_time_ms": 375.233, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 498.46148681640625, "policy_loss": -0.15607160329818726, "vf_explained_var": 0.01455751433968544, "entropy": 13.587542533874512, "cur_lr": 4.999999873689376e-05, "total_loss": 498.3251953125, "kl": 0.012981893494725227}, "load_time_ms": 0.73, "num_steps_sampled": 195600, "update_time_ms": 2.558}, "training_iteration": 163, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.385594606399536, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 195600, "timesteps_total": 195600, "custom_metrics": {}, "iterations_since_restore": 163, "episodes_this_iter": 30, "episode_reward_min": -94.88398095419217, "date": "2025-09-04_18-02-50", "episode_reward_max": 5.039762891774004, "pid": 3651948, "timestamp": 1757001770, "episode_reward_mean": -72.87153451901149, "time_total_s": 6600.906383752823, "episodes_total": 4137, "episode_len_mean": 42.22}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6634.513481616974, "info": {"sample_time_ms": 33304.768, "num_steps_trained": 196800, "grad_time_ms": 374.63, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 469.6560363769531, "policy_loss": -0.15397673845291138, "vf_explained_var": 0.018685288727283478, "entropy": 13.264029502868652, "cur_lr": 4.999999873689376e-05, "total_loss": 469.5223388671875, "kl": 0.013345572166144848}, "load_time_ms": 0.728, "num_steps_sampled": 196800, "update_time_ms": 2.584}, "training_iteration": 164, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.607097864151, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 196800, "timesteps_total": 196800, "custom_metrics": {}, "iterations_since_restore": 164, "episodes_this_iter": 27, "episode_reward_min": -96.75490613689337, "date": "2025-09-04_18-03-24", "episode_reward_max": 4.000333877647177, "pid": 3651948, "timestamp": 1757001804, "episode_reward_mean": -74.19180616935152, "time_total_s": 6634.513481616974, "episodes_total": 4164, "episode_len_mean": 42.63}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6667.584945678711, "info": {"sample_time_ms": 33289.103, "num_steps_trained": 198000, "grad_time_ms": 372.48, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 494.9625549316406, "policy_loss": -0.15671184659004211, "vf_explained_var": 0.012010018341243267, "entropy": 13.140623092651367, "cur_lr": 4.999999873689376e-05, "total_loss": 494.8278503417969, "kl": 0.014488577842712402}, "load_time_ms": 0.71, "num_steps_sampled": 198000, "update_time_ms": 2.588}, "training_iteration": 165, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.07146406173706, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 198000, "timesteps_total": 198000, "custom_metrics": {}, "iterations_since_restore": 165, "episodes_this_iter": 28, "episode_reward_min": -96.75490613689337, "date": "2025-09-04_18-03-57", "episode_reward_max": 4.000333877647177, "pid": 3651948, "timestamp": 1757001837, "episode_reward_mean": -73.97899578124846, "time_total_s": 6667.584945678711, "episodes_total": 4192, "episode_len_mean": 42.41}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6700.747930765152, "info": {"sample_time_ms": 33159.297, "num_steps_trained": 199200, "grad_time_ms": 371.752, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 479.74163818359375, "policy_loss": -0.16004471480846405, "vf_explained_var": 0.022694991901516914, "entropy": 13.23586368560791, "cur_lr": 4.999999873689376e-05, "total_loss": 479.6025390625, "kl": 0.01381033007055521}, "load_time_ms": 0.719, "num_steps_sampled": 199200, "update_time_ms": 2.576}, "training_iteration": 166, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.16298508644104, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 199200, "timesteps_total": 199200, "custom_metrics": {}, "iterations_since_restore": 166, "episodes_this_iter": 27, "episode_reward_min": -96.75490613689337, "date": "2025-09-04_18-04-30", "episode_reward_max": 4.000038700747987, "pid": 3651948, "timestamp": 1757001870, "episode_reward_mean": -74.60556796545686, "time_total_s": 6700.747930765152, "episodes_total": 4219, "episode_len_mean": 42.7}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6734.210085391998, "info": {"sample_time_ms": 33141.034, "num_steps_trained": 200400, "grad_time_ms": 372.896, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 481.43072509765625, "policy_loss": -0.16376127302646637, "vf_explained_var": 0.02091793902218342, "entropy": 12.862247467041016, "cur_lr": 4.999999873689376e-05, "total_loss": 481.28900146484375, "kl": 0.014525890350341797}, "load_time_ms": 0.715, "num_steps_sampled": 200400, "update_time_ms": 2.6}, "training_iteration": 167, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.46215462684631, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 200400, "timesteps_total": 200400, "custom_metrics": {}, "iterations_since_restore": 167, "episodes_this_iter": 28, "episode_reward_min": -96.75490613689337, "date": "2025-09-04_18-05-04", "episode_reward_max": 4.000213607189957, "pid": 3651948, "timestamp": 1757001904, "episode_reward_mean": -75.69941167396468, "time_total_s": 6734.210085391998, "episodes_total": 4247, "episode_len_mean": 43.31}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6768.151931285858, "info": {"sample_time_ms": 33205.106, "num_steps_trained": 201600, "grad_time_ms": 371.545, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 431.3326721191406, "policy_loss": -0.15331611037254333, "vf_explained_var": 0.0383436493575573, "entropy": 13.03227424621582, "cur_lr": 4.999999873689376e-05, "total_loss": 431.20166015625, "kl": 0.014662904664874077}, "load_time_ms": 0.701, "num_steps_sampled": 201600, "update_time_ms": 2.606}, "training_iteration": 168, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.94184589385986, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 201600, "timesteps_total": 201600, "custom_metrics": {}, "iterations_since_restore": 168, "episodes_this_iter": 28, "episode_reward_min": -96.37598652716197, "date": "2025-09-04_18-05-38", "episode_reward_max": 6.000130978520583, "pid": 3651948, "timestamp": 1757001938, "episode_reward_mean": -75.83625850182565, "time_total_s": 6768.151931285858, "episodes_total": 4275, "episode_len_mean": 43.39}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6801.593436717987, "info": {"sample_time_ms": 33208.048, "num_steps_trained": 202800, "grad_time_ms": 372.423, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 445.61370849609375, "policy_loss": -0.15942586958408356, "vf_explained_var": 0.006676660850644112, "entropy": 13.269512176513672, "cur_lr": 4.999999873689376e-05, "total_loss": 445.47357177734375, "kl": 0.012679451145231724}, "load_time_ms": 0.715, "num_steps_sampled": 202800, "update_time_ms": 2.582}, "training_iteration": 169, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.441505432128906, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 202800, "timesteps_total": 202800, "custom_metrics": {}, "iterations_since_restore": 169, "episodes_this_iter": 29, "episode_reward_min": -96.63690140637001, "date": "2025-09-04_18-06-11", "episode_reward_max": 6.000130978520583, "pid": 3651948, "timestamp": 1757001971, "episode_reward_mean": -74.06123125540654, "time_total_s": 6801.593436717987, "episodes_total": 4304, "episode_len_mean": 42.65}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6834.95436167717, "info": {"sample_time_ms": 33122.278, "num_steps_trained": 204000, "grad_time_ms": 376.1, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 462.88909912109375, "policy_loss": -0.14820978045463562, "vf_explained_var": 0.022156503051519394, "entropy": 12.96584415435791, "cur_lr": 4.999999873689376e-05, "total_loss": 462.76019287109375, "kl": 0.012699018232524395}, "load_time_ms": 0.736, "num_steps_sampled": 204000, "update_time_ms": 2.628}, "training_iteration": 170, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.36092495918274, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 204000, "timesteps_total": 204000, "custom_metrics": {}, "iterations_since_restore": 170, "episodes_this_iter": 26, "episode_reward_min": -96.63690140637001, "date": "2025-09-04_18-06-44", "episode_reward_max": 6.000130978520583, "pid": 3651948, "timestamp": 1757002004, "episode_reward_mean": -76.51463005896723, "time_total_s": 6834.95436167717, "episodes_total": 4330, "episode_len_mean": 43.76}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6868.499571561813, "info": {"sample_time_ms": 33135.07, "num_steps_trained": 205200, "grad_time_ms": 376.271, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 477.64007568359375, "policy_loss": -0.14878112077713013, "vf_explained_var": 0.024289535358548164, "entropy": 13.268444061279297, "cur_lr": 4.999999873689376e-05, "total_loss": 477.5120544433594, "kl": 0.013624078594148159}, "load_time_ms": 0.738, "num_steps_sampled": 205200, "update_time_ms": 2.64}, "training_iteration": 171, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.545209884643555, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 205200, "timesteps_total": 205200, "custom_metrics": {}, "iterations_since_restore": 171, "episodes_this_iter": 32, "episode_reward_min": -96.63690140637001, "date": "2025-09-04_18-07-18", "episode_reward_max": 8.000069988583551, "pid": 3651948, "timestamp": 1757002038, "episode_reward_mean": -73.74854474290508, "time_total_s": 6868.499571561813, "episodes_total": 4362, "episode_len_mean": 42.39}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6901.951131343842, "info": {"sample_time_ms": 33159.103, "num_steps_trained": 206400, "grad_time_ms": 376.037, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 530.1824951171875, "policy_loss": -0.16158553957939148, "vf_explained_var": 0.020052360370755196, "entropy": 13.253538131713867, "cur_lr": 4.999999873689376e-05, "total_loss": 530.0426025390625, "kl": 0.014295194298028946}, "load_time_ms": 0.717, "num_steps_sampled": 206400, "update_time_ms": 2.634}, "training_iteration": 172, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.4515597820282, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 206400, "timesteps_total": 206400, "custom_metrics": {}, "iterations_since_restore": 172, "episodes_this_iter": 32, "episode_reward_min": -95.13871117544228, "date": "2025-09-04_18-07-52", "episode_reward_max": 8.000069988583551, "pid": 3651948, "timestamp": 1757002072, "episode_reward_mean": -68.18772978706642, "time_total_s": 6901.951131343842, "episodes_total": 4394, "episode_len_mean": 39.92}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6935.213408470154, "info": {"sample_time_ms": 33045.654, "num_steps_trained": 207600, "grad_time_ms": 377.213, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 471.45257568359375, "policy_loss": -0.16813132166862488, "vf_explained_var": 0.016370773315429688, "entropy": 13.099279403686523, "cur_lr": 4.999999873689376e-05, "total_loss": 471.30706787109375, "kl": 0.01488409098237753}, "load_time_ms": 0.714, "num_steps_sampled": 207600, "update_time_ms": 2.573}, "training_iteration": 173, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.262277126312256, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 207600, "timesteps_total": 207600, "custom_metrics": {}, "iterations_since_restore": 173, "episodes_this_iter": 29, "episode_reward_min": -95.06222590109232, "date": "2025-09-04_18-08-25", "episode_reward_max": 8.000069988583551, "pid": 3651948, "timestamp": 1757002105, "episode_reward_mean": -66.36500553024902, "time_total_s": 6935.213408470154, "episodes_total": 4423, "episode_len_mean": 39.06}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6968.752385139465, "info": {"sample_time_ms": 33038.375, "num_steps_trained": 208800, "grad_time_ms": 377.726, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 489.8381042480469, "policy_loss": -0.14878961443901062, "vf_explained_var": 0.023384928703308105, "entropy": 13.308280944824219, "cur_lr": 4.999999873689376e-05, "total_loss": 489.7087707519531, "kl": 0.01280286256223917}, "load_time_ms": 0.711, "num_steps_sampled": 208800, "update_time_ms": 2.573}, "training_iteration": 174, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.53897666931152, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 208800, "timesteps_total": 208800, "custom_metrics": {}, "iterations_since_restore": 174, "episodes_this_iter": 30, "episode_reward_min": -93.55236840867342, "date": "2025-09-04_18-08-58", "episode_reward_max": 8.000109714939725, "pid": 3651948, "timestamp": 1757002138, "episode_reward_mean": -65.7865687842101, "time_total_s": 6968.752385139465, "episodes_total": 4453, "episode_len_mean": 38.8}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 7003.800618886948, "info": {"sample_time_ms": 33234.718, "num_steps_trained": 210000, "grad_time_ms": 379.053, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 441.1793518066406, "policy_loss": -0.14626182615756989, "vf_explained_var": 0.043350908905267715, "entropy": 13.320549964904785, "cur_lr": 4.999999873689376e-05, "total_loss": 441.05364990234375, "kl": 0.013550628907978535}, "load_time_ms": 0.718, "num_steps_sampled": 210000, "update_time_ms": 2.562}, "training_iteration": 175, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 35.0482337474823, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 210000, "timesteps_total": 210000, "custom_metrics": {}, "iterations_since_restore": 175, "episodes_this_iter": 31, "episode_reward_min": -93.82099905489598, "date": "2025-09-04_18-09-33", "episode_reward_max": 8.000109714939725, "pid": 3651948, "timestamp": 1757002173, "episode_reward_mean": -68.23131268739769, "time_total_s": 7003.800618886948, "episodes_total": 4484, "episode_len_mean": 40.02}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 7037.028426885605, "info": {"sample_time_ms": 33242.547, "num_steps_trained": 211200, "grad_time_ms": 377.756, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 464.3078308105469, "policy_loss": -0.15784205496311188, "vf_explained_var": 0.021135879680514336, "entropy": 13.235689163208008, "cur_lr": 4.999999873689376e-05, "total_loss": 464.1710205078125, "kl": 0.013846870511770248}, "load_time_ms": 0.724, "num_steps_sampled": 211200, "update_time_ms": 2.543}, "training_iteration": 176, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.22780799865723, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 211200, "timesteps_total": 211200, "custom_metrics": {}, "iterations_since_restore": 176, "episodes_this_iter": 27, "episode_reward_min": -93.82099905489598, "date": "2025-09-04_18-10-07", "episode_reward_max": 8.000109714939725, "pid": 3651948, "timestamp": 1757002207, "episode_reward_mean": -71.104299140994, "time_total_s": 7037.028426885605, "episodes_total": 4511, "episode_len_mean": 41.46}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 7070.750869989395, "info": {"sample_time_ms": 33268.921, "num_steps_trained": 212400, "grad_time_ms": 377.48, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 520.8988647460938, "policy_loss": -0.14671167731285095, "vf_explained_var": 0.02725188620388508, "entropy": 13.615344047546387, "cur_lr": 4.999999873689376e-05, "total_loss": 520.772705078125, "kl": 0.01349978893995285}, "load_time_ms": 0.724, "num_steps_sampled": 212400, "update_time_ms": 2.5}, "training_iteration": 177, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.72244310379028, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 212400, "timesteps_total": 212400, "custom_metrics": {}, "iterations_since_restore": 177, "episodes_this_iter": 30, "episode_reward_min": -94.34293914620837, "date": "2025-09-04_18-10-40", "episode_reward_max": 8.000109714939725, "pid": 3651948, "timestamp": 1757002240, "episode_reward_mean": -67.67515993134072, "time_total_s": 7070.750869989395, "episodes_total": 4541, "episode_len_mean": 40.06}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 7105.745890855789, "info": {"sample_time_ms": 33374.45, "num_steps_trained": 213600, "grad_time_ms": 377.206, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 487.3653869628906, "policy_loss": -0.1492527723312378, "vf_explained_var": 0.019449617713689804, "entropy": 13.086959838867188, "cur_lr": 4.999999873689376e-05, "total_loss": 487.2371520996094, "kl": 0.013814833015203476}, "load_time_ms": 0.728, "num_steps_sampled": 213600, "update_time_ms": 2.473}, "training_iteration": 178, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.99502086639404, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 213600, "timesteps_total": 213600, "custom_metrics": {}, "iterations_since_restore": 178, "episodes_this_iter": 29, "episode_reward_min": -94.34293914620837, "date": "2025-09-04_18-11-15", "episode_reward_max": 8.000000429594232, "pid": 3651948, "timestamp": 1757002275, "episode_reward_mean": -68.10825736939901, "time_total_s": 7105.745890855789, "episodes_total": 4570, "episode_len_mean": 40.38}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 7139.0679042339325, "info": {"sample_time_ms": 33363.25, "num_steps_trained": 214800, "grad_time_ms": 376.485, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 482.8249206542969, "policy_loss": -0.16203825175762177, "vf_explained_var": 0.027035892009735107, "entropy": 12.97227954864502, "cur_lr": 4.999999873689376e-05, "total_loss": 482.6842346191406, "kl": 0.014075911603868008}, "load_time_ms": 0.711, "num_steps_sampled": 214800, "update_time_ms": 2.498}, "training_iteration": 179, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.32201337814331, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 214800, "timesteps_total": 214800, "custom_metrics": {}, "iterations_since_restore": 179, "episodes_this_iter": 27, "episode_reward_min": -95.53219191490898, "date": "2025-09-04_18-11-49", "episode_reward_max": 6.00005790227189, "pid": 3651948, "timestamp": 1757002309, "episode_reward_mean": -71.26538427002218, "time_total_s": 7139.0679042339325, "episodes_total": 4597, "episode_len_mean": 41.74}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 7172.459059238434, "info": {"sample_time_ms": 33369.89, "num_steps_trained": 216000, "grad_time_ms": 372.917, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 475.3916015625, "policy_loss": -0.16252401471138, "vf_explained_var": 0.03283761069178581, "entropy": 12.606663703918457, "cur_lr": 4.999999873689376e-05, "total_loss": 475.2503356933594, "kl": 0.014003436081111431}, "load_time_ms": 0.684, "num_steps_sampled": 216000, "update_time_ms": 2.474}, "training_iteration": 180, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.39115500450134, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 216000, "timesteps_total": 216000, "custom_metrics": {}, "iterations_since_restore": 180, "episodes_this_iter": 29, "episode_reward_min": -95.53219191490898, "date": "2025-09-04_18-12-22", "episode_reward_max": 6.00005790227189, "pid": 3651948, "timestamp": 1757002342, "episode_reward_mean": -73.30657166827612, "time_total_s": 7172.459059238434, "episodes_total": 4626, "episode_len_mean": 42.73}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 7206.650817155838, "info": {"sample_time_ms": 33436.797, "num_steps_trained": 217200, "grad_time_ms": 370.619, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 506.8238525390625, "policy_loss": -0.1711304485797882, "vf_explained_var": 0.027346935123205185, "entropy": 12.956379890441895, "cur_lr": 4.999999873689376e-05, "total_loss": 506.6749572753906, "kl": 0.01460947748273611}, "load_time_ms": 0.685, "num_steps_sampled": 217200, "update_time_ms": 2.53}, "training_iteration": 181, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.191757917404175, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 217200, "timesteps_total": 217200, "custom_metrics": {}, "iterations_since_restore": 181, "episodes_this_iter": 31, "episode_reward_min": -95.53219191490898, "date": "2025-09-04_18-12-56", "episode_reward_max": 8.000000440074153, "pid": 3651948, "timestamp": 1757002376, "episode_reward_mean": -70.12293610759806, "time_total_s": 7206.650817155838, "episodes_total": 4657, "episode_len_mean": 41.11}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 7240.108816862106, "info": {"sample_time_ms": 33437.607, "num_steps_trained": 218400, "grad_time_ms": 370.449, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 408.64678955078125, "policy_loss": -0.15670305490493774, "vf_explained_var": 0.03384535014629364, "entropy": 13.208443641662598, "cur_lr": 4.999999873689376e-05, "total_loss": 408.5120544433594, "kl": 0.014430741779506207}, "load_time_ms": 0.684, "num_steps_sampled": 218400, "update_time_ms": 2.524}, "training_iteration": 182, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.45799970626831, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 218400, "timesteps_total": 218400, "custom_metrics": {}, "iterations_since_restore": 182, "episodes_this_iter": 27, "episode_reward_min": -94.45431820690045, "date": "2025-09-04_18-13-30", "episode_reward_max": 8.000000440074153, "pid": 3651948, "timestamp": 1757002410, "episode_reward_mean": -70.88982028946353, "time_total_s": 7240.108816862106, "episodes_total": 4684, "episode_len_mean": 41.66}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 7273.374994516373, "info": {"sample_time_ms": 33439.775, "num_steps_trained": 219600, "grad_time_ms": 368.62, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 541.272705078125, "policy_loss": -0.1531658172607422, "vf_explained_var": 0.011464131996035576, "entropy": 12.912820816040039, "cur_lr": 4.999999873689376e-05, "total_loss": 541.1414184570312, "kl": 0.014355059713125229}, "load_time_ms": 0.685, "num_steps_sampled": 219600, "update_time_ms": 2.562}, "training_iteration": 183, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.26617765426636, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 219600, "timesteps_total": 219600, "custom_metrics": {}, "iterations_since_restore": 183, "episodes_this_iter": 28, "episode_reward_min": -95.21932780078414, "date": "2025-09-04_18-14-03", "episode_reward_max": 8.000000440074153, "pid": 3651948, "timestamp": 1757002443, "episode_reward_mean": -71.28978875642596, "time_total_s": 7273.374994516373, "episodes_total": 4712, "episode_len_mean": 41.93}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 7307.477123260498, "info": {"sample_time_ms": 33497.021, "num_steps_trained": 220800, "grad_time_ms": 367.646, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 559.41015625, "policy_loss": -0.1447771191596985, "vf_explained_var": 0.022654525935649872, "entropy": 12.68217945098877, "cur_lr": 4.999999873689376e-05, "total_loss": 559.286865234375, "kl": 0.014179195277392864}, "load_time_ms": 0.669, "num_steps_sampled": 220800, "update_time_ms": 2.602}, "training_iteration": 184, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.102128744125366, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 220800, "timesteps_total": 220800, "custom_metrics": {}, "iterations_since_restore": 184, "episodes_this_iter": 32, "episode_reward_min": -95.21932780078414, "date": "2025-09-04_18-14-37", "episode_reward_max": 6.0000256872259685, "pid": 3651948, "timestamp": 1757002477, "episode_reward_mean": -68.85681651830801, "time_total_s": 7307.477123260498, "episodes_total": 4744, "episode_len_mean": 40.73}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 7341.242619752884, "info": {"sample_time_ms": 33368.626, "num_steps_trained": 222000, "grad_time_ms": 367.768, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 474.8887939453125, "policy_loss": -0.17067062854766846, "vf_explained_var": 0.029077045619487762, "entropy": 12.845396041870117, "cur_lr": 4.999999873689376e-05, "total_loss": 474.73822021484375, "kl": 0.013275043107569218}, "load_time_ms": 0.665, "num_steps_sampled": 222000, "update_time_ms": 2.562}, "training_iteration": 185, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.765496492385864, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 222000, "timesteps_total": 222000, "custom_metrics": {}, "iterations_since_restore": 185, "episodes_this_iter": 31, "episode_reward_min": -95.21932780078414, "date": "2025-09-04_18-15-11", "episode_reward_max": 6.0000256872259685, "pid": 3651948, "timestamp": 1757002511, "episode_reward_mean": -68.1395418292209, "time_total_s": 7341.242619752884, "episodes_total": 4775, "episode_len_mean": 40.19}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 7376.1856777668, "info": {"sample_time_ms": 33539.186, "num_steps_trained": 223200, "grad_time_ms": 368.711, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 506.6676940917969, "policy_loss": -0.16878332197666168, "vf_explained_var": 0.018831439316272736, "entropy": 12.581832885742188, "cur_lr": 4.999999873689376e-05, "total_loss": 506.5218200683594, "kl": 0.015099719166755676}, "load_time_ms": 0.655, "num_steps_sampled": 223200, "update_time_ms": 2.574}, "training_iteration": 186, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.943058013916016, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 223200, "timesteps_total": 223200, "custom_metrics": {}, "iterations_since_restore": 186, "episodes_this_iter": 27, "episode_reward_min": -95.83189376358192, "date": "2025-09-04_18-15-46", "episode_reward_max": 6.000001728989278, "pid": 3651948, "timestamp": 1757002546, "episode_reward_mean": -69.54346150398968, "time_total_s": 7376.1856777668, "episodes_total": 4802, "episode_len_mean": 40.66}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 7409.781413793564, "info": {"sample_time_ms": 33527.805, "num_steps_trained": 224400, "grad_time_ms": 367.409, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 461.66259765625, "policy_loss": -0.15208211541175842, "vf_explained_var": 0.024997631087899208, "entropy": 13.037174224853516, "cur_lr": 4.999999873689376e-05, "total_loss": 461.5320129394531, "kl": 0.014166755601763725}, "load_time_ms": 0.661, "num_steps_sampled": 224400, "update_time_ms": 2.574}, "training_iteration": 187, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.595736026763916, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 224400, "timesteps_total": 224400, "custom_metrics": {}, "iterations_since_restore": 187, "episodes_this_iter": 32, "episode_reward_min": -95.83189376358192, "date": "2025-09-04_18-16-20", "episode_reward_max": 2.0001916476801034, "pid": 3651948, "timestamp": 1757002580, "episode_reward_mean": -70.26994574194738, "time_total_s": 7409.781413793564, "episodes_total": 4834, "episode_len_mean": 40.89}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 7443.122005939484, "info": {"sample_time_ms": 33364.201, "num_steps_trained": 225600, "grad_time_ms": 365.665, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 431.95404052734375, "policy_loss": -0.16554684937000275, "vf_explained_var": 0.03322778642177582, "entropy": 12.807843208312988, "cur_lr": 4.999999873689376e-05, "total_loss": 431.8093566894531, "kl": 0.013717424124479294}, "load_time_ms": 0.659, "num_steps_sampled": 225600, "update_time_ms": 2.571}, "training_iteration": 188, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.3405921459198, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 225600, "timesteps_total": 225600, "custom_metrics": {}, "iterations_since_restore": 188, "episodes_this_iter": 26, "episode_reward_min": -95.83189376358192, "date": "2025-09-04_18-16-53", "episode_reward_max": 1.7789538112237562, "pid": 3651948, "timestamp": 1757002613, "episode_reward_mean": -70.59327772699594, "time_total_s": 7443.122005939484, "episodes_total": 4860, "episode_len_mean": 41.15}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 7476.492438316345, "info": {"sample_time_ms": 33368.417, "num_steps_trained": 226800, "grad_time_ms": 366.289, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 455.0348205566406, "policy_loss": -0.15835967659950256, "vf_explained_var": 0.03563562408089638, "entropy": 12.52796745300293, "cur_lr": 4.999999873689376e-05, "total_loss": 454.89776611328125, "kl": 0.014046341180801392}, "load_time_ms": 0.663, "num_steps_sampled": 226800, "update_time_ms": 2.535}, "training_iteration": 189, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.37043237686157, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 226800, "timesteps_total": 226800, "custom_metrics": {}, "iterations_since_restore": 189, "episodes_this_iter": 28, "episode_reward_min": -95.40900359037315, "date": "2025-09-04_18-17-26", "episode_reward_max": 1.7789538112237562, "pid": 3651948, "timestamp": 1757002646, "episode_reward_mean": -72.52180366277011, "time_total_s": 7476.492438316345, "episodes_total": 4888, "episode_len_mean": 42.0}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 7509.6339473724365, "info": {"sample_time_ms": 33340.973, "num_steps_trained": 228000, "grad_time_ms": 368.748, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 447.1451721191406, "policy_loss": -0.1697927862405777, "vf_explained_var": 0.04534539952874184, "entropy": 12.65049934387207, "cur_lr": 4.999999873689376e-05, "total_loss": 446.9970397949219, "kl": 0.014240365475416183}, "load_time_ms": 0.672, "num_steps_sampled": 228000, "update_time_ms": 2.524}, "training_iteration": 190, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.14150905609131, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 228000, "timesteps_total": 228000, "custom_metrics": {}, "iterations_since_restore": 190, "episodes_this_iter": 29, "episode_reward_min": -93.99593714288171, "date": "2025-09-04_18-18-00", "episode_reward_max": 4.000255539698237, "pid": 3651948, "timestamp": 1757002680, "episode_reward_mean": -73.6454396869818, "time_total_s": 7509.6339473724365, "episodes_total": 4917, "episode_len_mean": 42.72}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 7543.576703071594, "info": {"sample_time_ms": 33313.244, "num_steps_trained": 229200, "grad_time_ms": 371.637, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 435.88616943359375, "policy_loss": -0.16152003407478333, "vf_explained_var": 0.028656788170337677, "entropy": 12.934611320495605, "cur_lr": 4.999999873689376e-05, "total_loss": 435.74530029296875, "kl": 0.013617919757962227}, "load_time_ms": 0.675, "num_steps_sampled": 229200, "update_time_ms": 2.463}, "training_iteration": 191, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.942755699157715, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 229200, "timesteps_total": 229200, "custom_metrics": {}, "iterations_since_restore": 191, "episodes_this_iter": 28, "episode_reward_min": -93.99593714288171, "date": "2025-09-04_18-18-34", "episode_reward_max": 4.000257012599587, "pid": 3651948, "timestamp": 1757002714, "episode_reward_mean": -73.94141473983446, "time_total_s": 7543.576703071594, "episodes_total": 4945, "episode_len_mean": 43.03}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 7578.093836784363, "info": {"sample_time_ms": 33416.772, "num_steps_trained": 230400, "grad_time_ms": 373.977, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 457.99609375, "policy_loss": -0.16294731199741364, "vf_explained_var": 0.02682061307132244, "entropy": 13.026744842529297, "cur_lr": 4.999999873689376e-05, "total_loss": 457.8548278808594, "kl": 0.01424330659210682}, "load_time_ms": 0.682, "num_steps_sampled": 230400, "update_time_ms": 2.478}, "training_iteration": 192, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.517133712768555, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 230400, "timesteps_total": 230400, "custom_metrics": {}, "iterations_since_restore": 192, "episodes_this_iter": 27, "episode_reward_min": -95.5472888620737, "date": "2025-09-04_18-19-08", "episode_reward_max": 4.000257012599587, "pid": 3651948, "timestamp": 1757002748, "episode_reward_mean": -73.16517307924585, "time_total_s": 7578.093836784363, "episodes_total": 4972, "episode_len_mean": 42.85}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 7611.424062490463, "info": {"sample_time_ms": 33420.426, "num_steps_trained": 231600, "grad_time_ms": 376.692, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 509.8204345703125, "policy_loss": -0.16708210110664368, "vf_explained_var": 0.019589563831686974, "entropy": 12.410161972045898, "cur_lr": 4.999999873689376e-05, "total_loss": 509.67681884765625, "kl": 0.015443297103047371}, "load_time_ms": 0.701, "num_steps_sampled": 231600, "update_time_ms": 2.48}, "training_iteration": 193, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.330225706100464, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 231600, "timesteps_total": 231600, "custom_metrics": {}, "iterations_since_restore": 193, "episodes_this_iter": 29, "episode_reward_min": -95.5472888620737, "date": "2025-09-04_18-19-41", "episode_reward_max": 4.000257012599587, "pid": 3651948, "timestamp": 1757002781, "episode_reward_mean": -72.8662915684726, "time_total_s": 7611.424062490463, "episodes_total": 5001, "episode_len_mean": 42.7}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 7644.909424304962, "info": {"sample_time_ms": 33358.604, "num_steps_trained": 232800, "grad_time_ms": 376.924, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 483.5562744140625, "policy_loss": -0.15306442975997925, "vf_explained_var": 0.02964412420988083, "entropy": 12.852642059326172, "cur_lr": 4.999999873689376e-05, "total_loss": 483.4244384765625, "kl": 0.013986443169414997}, "load_time_ms": 0.712, "num_steps_sampled": 232800, "update_time_ms": 2.419}, "training_iteration": 194, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.4853618144989, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 232800, "timesteps_total": 232800, "custom_metrics": {}, "iterations_since_restore": 194, "episodes_this_iter": 24, "episode_reward_min": -95.5472888620737, "date": "2025-09-04_18-20-15", "episode_reward_max": 4.000017886379702, "pid": 3651948, "timestamp": 1757002815, "episode_reward_mean": -76.33770108549413, "time_total_s": 7644.909424304962, "episodes_total": 5025, "episode_len_mean": 44.22}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 7679.199877500534, "info": {"sample_time_ms": 33411.757, "num_steps_trained": 234000, "grad_time_ms": 376.213, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 506.1232604980469, "policy_loss": -0.1687338948249817, "vf_explained_var": 0.03247503936290741, "entropy": 12.751094818115234, "cur_lr": 4.999999873689376e-05, "total_loss": 505.9776916503906, "kl": 0.015258345752954483}, "load_time_ms": 0.708, "num_steps_sampled": 234000, "update_time_ms": 2.455}, "training_iteration": 195, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.2904531955719, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 234000, "timesteps_total": 234000, "custom_metrics": {}, "iterations_since_restore": 195, "episodes_this_iter": 31, "episode_reward_min": -96.21196756648438, "date": "2025-09-04_18-20-49", "episode_reward_max": 4.000017886379702, "pid": 3651948, "timestamp": 1757002849, "episode_reward_mean": -74.40327719050362, "time_total_s": 7679.199877500534, "episodes_total": 5056, "episode_len_mean": 43.19}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 7713.31763625145, "info": {"sample_time_ms": 33330.199, "num_steps_trained": 235200, "grad_time_ms": 375.18, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 442.1346435546875, "policy_loss": -0.16684409976005554, "vf_explained_var": 0.031153075397014618, "entropy": 12.824676513671875, "cur_lr": 4.999999873689376e-05, "total_loss": 441.98858642578125, "kl": 0.013674840331077576}, "load_time_ms": 0.716, "num_steps_sampled": 235200, "update_time_ms": 2.505}, "training_iteration": 196, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.11775875091553, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 235200, "timesteps_total": 235200, "custom_metrics": {}, "iterations_since_restore": 196, "episodes_this_iter": 30, "episode_reward_min": -96.21196756648438, "date": "2025-09-04_18-21-23", "episode_reward_max": 6.002070167660171, "pid": 3651948, "timestamp": 1757002883, "episode_reward_mean": -72.27055099438103, "time_total_s": 7713.31763625145, "episodes_total": 5086, "episode_len_mean": 42.12}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 7746.8098311424255, "info": {"sample_time_ms": 33318.688, "num_steps_trained": 236400, "grad_time_ms": 376.25, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 504.9436340332031, "policy_loss": -0.1752660572528839, "vf_explained_var": 0.052433982491493225, "entropy": 12.876564979553223, "cur_lr": 4.999999873689376e-05, "total_loss": 504.7928161621094, "kl": 0.01613185554742813}, "load_time_ms": 0.715, "num_steps_sampled": 236400, "update_time_ms": 2.528}, "training_iteration": 197, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.49219489097595, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 236400, "timesteps_total": 236400, "custom_metrics": {}, "iterations_since_restore": 197, "episodes_this_iter": 34, "episode_reward_min": -96.21196756648438, "date": "2025-09-04_18-21-57", "episode_reward_max": 8.000242692043646, "pid": 3651948, "timestamp": 1757002917, "episode_reward_mean": -65.35815674165814, "time_total_s": 7746.8098311424255, "episodes_total": 5120, "episode_len_mean": 39.21}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 7780.365607500076, "info": {"sample_time_ms": 33339.802, "num_steps_trained": 237600, "grad_time_ms": 376.558, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 416.38665771484375, "policy_loss": -0.1583482027053833, "vf_explained_var": 0.008243918418884277, "entropy": 13.000116348266602, "cur_lr": 4.999999873689376e-05, "total_loss": 416.25006103515625, "kl": 0.01429493073374033}, "load_time_ms": 0.714, "num_steps_sampled": 237600, "update_time_ms": 2.613}, "training_iteration": 198, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.55577635765076, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 237600, "timesteps_total": 237600, "custom_metrics": {}, "iterations_since_restore": 198, "episodes_this_iter": 25, "episode_reward_min": -96.21196756648438, "date": "2025-09-04_18-22-30", "episode_reward_max": 8.000242692043646, "pid": 3651948, "timestamp": 1757002950, "episode_reward_mean": -68.68605460087782, "time_total_s": 7780.365607500076, "episodes_total": 5145, "episode_len_mean": 41.06}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 7813.889029741287, "info": {"sample_time_ms": 33355.593, "num_steps_trained": 238800, "grad_time_ms": 376.104, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 456.09765625, "policy_loss": -0.15889257192611694, "vf_explained_var": 0.02178768254816532, "entropy": 12.65239429473877, "cur_lr": 4.999999873689376e-05, "total_loss": 455.9606628417969, "kl": 0.014413093216717243}, "load_time_ms": 0.714, "num_steps_sampled": 238800, "update_time_ms": 2.603}, "training_iteration": 199, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.52342224121094, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 238800, "timesteps_total": 238800, "custom_metrics": {}, "iterations_since_restore": 199, "episodes_this_iter": 27, "episode_reward_min": -95.60804949833211, "date": "2025-09-04_18-23-04", "episode_reward_max": 8.000242692043646, "pid": 3651948, "timestamp": 1757002984, "episode_reward_mean": -70.32519611813332, "time_total_s": 7813.889029741287, "episodes_total": 5172, "episode_len_mean": 41.79}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 7846.953207492828, "info": {"sample_time_ms": 33347.681, "num_steps_trained": 240000, "grad_time_ms": 376.3, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 485.8211669921875, "policy_loss": -0.1690763682126999, "vf_explained_var": 0.02998235449194908, "entropy": 12.54977798461914, "cur_lr": 4.999999873689376e-05, "total_loss": 485.6736755371094, "kl": 0.014191006310284138}, "load_time_ms": 0.703, "num_steps_sampled": 240000, "update_time_ms": 2.589}, "training_iteration": 200, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.06417775154114, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 240000, "timesteps_total": 240000, "custom_metrics": {}, "iterations_since_restore": 200, "episodes_this_iter": 30, "episode_reward_min": -95.60804949833211, "date": "2025-09-04_18-23-37", "episode_reward_max": 1.0952821156691535, "pid": 3651948, "timestamp": 1757003017, "episode_reward_mean": -69.21935034442157, "time_total_s": 7846.953207492828, "episodes_total": 5202, "episode_len_mean": 41.4}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 7881.645069122314, "info": {"sample_time_ms": 33423.48, "num_steps_trained": 241200, "grad_time_ms": 375.39, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 438.78692626953125, "policy_loss": -0.16150593757629395, "vf_explained_var": 0.02985469438135624, "entropy": 12.441953659057617, "cur_lr": 4.999999873689376e-05, "total_loss": 438.64642333984375, "kl": 0.013840895146131516}, "load_time_ms": 0.694, "num_steps_sampled": 241200, "update_time_ms": 2.612}, "training_iteration": 201, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.691861629486084, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 241200, "timesteps_total": 241200, "custom_metrics": {}, "iterations_since_restore": 201, "episodes_this_iter": 28, "episode_reward_min": -95.60804949833211, "date": "2025-09-04_18-24-12", "episode_reward_max": 0.0010491070470486363, "pid": 3651948, "timestamp": 1757003052, "episode_reward_mean": -72.67710039707534, "time_total_s": 7881.645069122314, "episodes_total": 5230, "episode_len_mean": 43.11}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 7915.277950763702, "info": {"sample_time_ms": 33336.976, "num_steps_trained": 242400, "grad_time_ms": 373.51, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 528.7056274414062, "policy_loss": -0.164224773645401, "vf_explained_var": 0.013893438503146172, "entropy": 12.260029792785645, "cur_lr": 4.999999873689376e-05, "total_loss": 528.563232421875, "kl": 0.014393393881618977}, "load_time_ms": 0.692, "num_steps_sampled": 242400, "update_time_ms": 2.605}, "training_iteration": 202, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.63288164138794, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 242400, "timesteps_total": 242400, "custom_metrics": {}, "iterations_since_restore": 202, "episodes_this_iter": 34, "episode_reward_min": -93.56909818892126, "date": "2025-09-04_18-24-46", "episode_reward_max": 8.000011402220146, "pid": 3651948, "timestamp": 1757003086, "episode_reward_mean": -65.56545058732408, "time_total_s": 7915.277950763702, "episodes_total": 5264, "episode_len_mean": 39.49}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 7948.64150595665, "info": {"sample_time_ms": 33341.681, "num_steps_trained": 243600, "grad_time_ms": 372.193, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 504.7474365234375, "policy_loss": -0.14668802917003632, "vf_explained_var": 0.030628588050603867, "entropy": 12.595661163330078, "cur_lr": 4.999999873689376e-05, "total_loss": 504.6220703125, "kl": 0.014047231525182724}, "load_time_ms": 0.673, "num_steps_sampled": 243600, "update_time_ms": 2.623}, "training_iteration": 203, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.36355519294739, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 243600, "timesteps_total": 243600, "custom_metrics": {}, "iterations_since_restore": 203, "episodes_this_iter": 29, "episode_reward_min": -93.56909818892126, "date": "2025-09-04_18-25-19", "episode_reward_max": 8.000011402220146, "pid": 3651948, "timestamp": 1757003119, "episode_reward_mean": -65.31403438116699, "time_total_s": 7948.64150595665, "episodes_total": 5293, "episode_len_mean": 39.22}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 7982.057063341141, "info": {"sample_time_ms": 33334.772, "num_steps_trained": 244800, "grad_time_ms": 372.076, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 450.298583984375, "policy_loss": -0.16483943164348602, "vf_explained_var": 0.06417058408260345, "entropy": 12.538618087768555, "cur_lr": 4.999999873689376e-05, "total_loss": 450.15496826171875, "kl": 0.013958992436528206}, "load_time_ms": 0.67, "num_steps_sampled": 244800, "update_time_ms": 2.644}, "training_iteration": 204, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.41555738449097, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 244800, "timesteps_total": 244800, "custom_metrics": {}, "iterations_since_restore": 204, "episodes_this_iter": 33, "episode_reward_min": -93.19348353972086, "date": "2025-09-04_18-25-52", "episode_reward_max": 8.000032462470926, "pid": 3651948, "timestamp": 1757003152, "episode_reward_mean": -63.282461117190714, "time_total_s": 7982.057063341141, "episodes_total": 5326, "episode_len_mean": 38.18}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 8015.771010875702, "info": {"sample_time_ms": 33278.228, "num_steps_trained": 246000, "grad_time_ms": 371.012, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 446.9205322265625, "policy_loss": -0.15768620371818542, "vf_explained_var": 0.036962032318115234, "entropy": 12.585735321044922, "cur_lr": 4.999999873689376e-05, "total_loss": 446.7854309082031, "kl": 0.01488898042589426}, "load_time_ms": 0.671, "num_steps_sampled": 246000, "update_time_ms": 2.653}, "training_iteration": 205, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.71394753456116, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 246000, "timesteps_total": 246000, "custom_metrics": {}, "iterations_since_restore": 205, "episodes_this_iter": 28, "episode_reward_min": -93.63480907981032, "date": "2025-09-04_18-26-26", "episode_reward_max": 8.000032462470926, "pid": 3651948, "timestamp": 1757003186, "episode_reward_mean": -65.35059535319327, "time_total_s": 8015.771010875702, "episodes_total": 5354, "episode_len_mean": 39.43}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 8049.1763389110565, "info": {"sample_time_ms": 33207.42, "num_steps_trained": 247200, "grad_time_ms": 370.664, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 475.2734375, "policy_loss": -0.15967623889446259, "vf_explained_var": 0.033230237662792206, "entropy": 12.491169929504395, "cur_lr": 4.999999873689376e-05, "total_loss": 475.1365966796875, "kl": 0.015001079998910427}, "load_time_ms": 0.659, "num_steps_sampled": 247200, "update_time_ms": 2.602}, "training_iteration": 206, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.405328035354614, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 247200, "timesteps_total": 247200, "custom_metrics": {}, "iterations_since_restore": 206, "episodes_this_iter": 29, "episode_reward_min": -95.0799406703004, "date": "2025-09-04_18-26-59", "episode_reward_max": 8.000032462470926, "pid": 3651948, "timestamp": 1757003219, "episode_reward_mean": -67.66203927731692, "time_total_s": 8049.1763389110565, "episodes_total": 5383, "episode_len_mean": 40.71}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 8083.296813249588, "info": {"sample_time_ms": 33269.992, "num_steps_trained": 248400, "grad_time_ms": 370.995, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 446.5125427246094, "policy_loss": -0.17522785067558289, "vf_explained_var": 0.03150990977883339, "entropy": 12.790533065795898, "cur_lr": 4.999999873689376e-05, "total_loss": 446.3612060546875, "kl": 0.015740180388092995}, "load_time_ms": 0.67, "num_steps_sampled": 248400, "update_time_ms": 2.575}, "training_iteration": 207, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.120474338531494, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 248400, "timesteps_total": 248400, "custom_metrics": {}, "iterations_since_restore": 207, "episodes_this_iter": 29, "episode_reward_min": -95.0799406703004, "date": "2025-09-04_18-27-34", "episode_reward_max": 8.000032462470926, "pid": 3651948, "timestamp": 1757003254, "episode_reward_mean": -68.76872612698419, "time_total_s": 8083.296813249588, "episodes_total": 5412, "episode_len_mean": 41.03}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 8116.955354452133, "info": {"sample_time_ms": 33280.061, "num_steps_trained": 249600, "grad_time_ms": 371.251, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 547.6825561523438, "policy_loss": -0.1566251516342163, "vf_explained_var": 0.02517450600862503, "entropy": 12.358968734741211, "cur_lr": 4.999999873689376e-05, "total_loss": 547.5484008789062, "kl": 0.014785553328692913}, "load_time_ms": 0.675, "num_steps_sampled": 249600, "update_time_ms": 2.515}, "training_iteration": 208, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.658541202545166, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 249600, "timesteps_total": 249600, "custom_metrics": {}, "iterations_since_restore": 208, "episodes_this_iter": 29, "episode_reward_min": -95.0799406703004, "date": "2025-09-04_18-28-07", "episode_reward_max": 4.000291038650434, "pid": 3651948, "timestamp": 1757003287, "episode_reward_mean": -68.98315664091089, "time_total_s": 8116.955354452133, "episodes_total": 5441, "episode_len_mean": 41.1}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 8151.842911720276, "info": {"sample_time_ms": 33417.949, "num_steps_trained": 250800, "grad_time_ms": 369.804, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 447.9426574707031, "policy_loss": -0.16055484116077423, "vf_explained_var": 0.016253961250185966, "entropy": 12.735525131225586, "cur_lr": 4.999999873689376e-05, "total_loss": 447.80487060546875, "kl": 0.015008926391601562}, "load_time_ms": 0.671, "num_steps_sampled": 250800, "update_time_ms": 2.51}, "training_iteration": 209, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.8875572681427, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 250800, "timesteps_total": 250800, "custom_metrics": {}, "iterations_since_restore": 209, "episodes_this_iter": 28, "episode_reward_min": -93.77040153773555, "date": "2025-09-04_18-28-42", "episode_reward_max": 4.000291038650434, "pid": 3651948, "timestamp": 1757003322, "episode_reward_mean": -70.58435784835198, "time_total_s": 8151.842911720276, "episodes_total": 5469, "episode_len_mean": 41.72}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 8185.894082307816, "info": {"sample_time_ms": 33518.732, "num_steps_trained": 252000, "grad_time_ms": 367.734, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 510.38629150390625, "policy_loss": -0.16351114213466644, "vf_explained_var": 0.025241592898964882, "entropy": 12.427091598510742, "cur_lr": 4.999999873689376e-05, "total_loss": 510.2453308105469, "kl": 0.014884104020893574}, "load_time_ms": 0.687, "num_steps_sampled": 252000, "update_time_ms": 2.513}, "training_iteration": 210, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.05117058753967, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 252000, "timesteps_total": 252000, "custom_metrics": {}, "iterations_since_restore": 210, "episodes_this_iter": 33, "episode_reward_min": -93.77040153773555, "date": "2025-09-04_18-29-16", "episode_reward_max": 6.000473203830543, "pid": 3651948, "timestamp": 1757003356, "episode_reward_mean": -68.06821898003427, "time_total_s": 8185.894082307816, "episodes_total": 5502, "episode_len_mean": 40.71}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 8219.247455835342, "info": {"sample_time_ms": 33386.554, "num_steps_trained": 253200, "grad_time_ms": 366.039, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 449.7999267578125, "policy_loss": -0.1619112491607666, "vf_explained_var": 0.03780033811926842, "entropy": 12.094733238220215, "cur_lr": 4.999999873689376e-05, "total_loss": 449.66009521484375, "kl": 0.014554371125996113}, "load_time_ms": 0.687, "num_steps_sampled": 253200, "update_time_ms": 2.46}, "training_iteration": 211, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.353373527526855, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 253200, "timesteps_total": 253200, "custom_metrics": {}, "iterations_since_restore": 211, "episodes_this_iter": 32, "episode_reward_min": -93.6279369839979, "date": "2025-09-04_18-29-50", "episode_reward_max": 8.000000667069283, "pid": 3651948, "timestamp": 1757003390, "episode_reward_mean": -65.20491987533221, "time_total_s": 8219.247455835342, "episodes_total": 5534, "episode_len_mean": 39.3}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 8252.84744977951, "info": {"sample_time_ms": 33385.07, "num_steps_trained": 254400, "grad_time_ms": 364.229, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 497.3307800292969, "policy_loss": -0.16077612340450287, "vf_explained_var": 0.035886500030756, "entropy": 12.381339073181152, "cur_lr": 4.999999873689376e-05, "total_loss": 497.1937255859375, "kl": 0.015604168176651001}, "load_time_ms": 0.679, "num_steps_sampled": 254400, "update_time_ms": 2.486}, "training_iteration": 212, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.59999394416809, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 254400, "timesteps_total": 254400, "custom_metrics": {}, "iterations_since_restore": 212, "episodes_this_iter": 30, "episode_reward_min": -93.6279369839979, "date": "2025-09-04_18-30-23", "episode_reward_max": 8.000000667069283, "pid": 3651948, "timestamp": 1757003423, "episode_reward_mean": -62.45875354009866, "time_total_s": 8252.84744977951, "episodes_total": 5564, "episode_len_mean": 38.05}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 8287.260428905487, "info": {"sample_time_ms": 33490.409, "num_steps_trained": 255600, "grad_time_ms": 363.844, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 512.883056640625, "policy_loss": -0.17092293500900269, "vf_explained_var": 0.027442097663879395, "entropy": 12.155288696289062, "cur_lr": 4.999999873689376e-05, "total_loss": 512.7354736328125, "kl": 0.015318612568080425}, "load_time_ms": 0.677, "num_steps_sampled": 255600, "update_time_ms": 2.464}, "training_iteration": 213, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.41297912597656, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 255600, "timesteps_total": 255600, "custom_metrics": {}, "iterations_since_restore": 213, "episodes_this_iter": 31, "episode_reward_min": -93.6279369839979, "date": "2025-09-04_18-30-58", "episode_reward_max": 8.000000667069283, "pid": 3651948, "timestamp": 1757003458, "episode_reward_mean": -61.96758689936211, "time_total_s": 8287.260428905487, "episodes_total": 5595, "episode_len_mean": 37.75}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 8320.60078382492, "info": {"sample_time_ms": 33482.986, "num_steps_trained": 256800, "grad_time_ms": 363.767, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 459.37249755859375, "policy_loss": -0.16169892251491547, "vf_explained_var": 0.02173599973320961, "entropy": 12.374711036682129, "cur_lr": 4.999999873689376e-05, "total_loss": 459.2326354980469, "kl": 0.014371867291629314}, "load_time_ms": 0.677, "num_steps_sampled": 256800, "update_time_ms": 2.455}, "training_iteration": 214, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.340354919433594, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 256800, "timesteps_total": 256800, "custom_metrics": {}, "iterations_since_restore": 214, "episodes_this_iter": 33, "episode_reward_min": -93.6279369839979, "date": "2025-09-04_18-31-31", "episode_reward_max": 6.000034402189836, "pid": 3651948, "timestamp": 1757003491, "episode_reward_mean": -63.38828660104511, "time_total_s": 8320.60078382492, "episodes_total": 5628, "episode_len_mean": 38.32}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 8354.387178182602, "info": {"sample_time_ms": 33488.327, "num_steps_trained": 258000, "grad_time_ms": 365.69, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 504.76953125, "policy_loss": -0.1607033908367157, "vf_explained_var": 0.014909658581018448, "entropy": 12.613929748535156, "cur_lr": 4.999999873689376e-05, "total_loss": 504.6307373046875, "kl": 0.014423470944166183}, "load_time_ms": 0.691, "num_steps_sampled": 258000, "update_time_ms": 2.411}, "training_iteration": 215, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.786394357681274, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 258000, "timesteps_total": 258000, "custom_metrics": {}, "iterations_since_restore": 215, "episodes_this_iter": 32, "episode_reward_min": -93.63772402806477, "date": "2025-09-04_18-32-05", "episode_reward_max": 6.000006885068439, "pid": 3651948, "timestamp": 1757003525, "episode_reward_mean": -62.11349040983944, "time_total_s": 8354.387178182602, "episodes_total": 5660, "episode_len_mean": 37.78}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 8388.01570558548, "info": {"sample_time_ms": 33508.098, "num_steps_trained": 259200, "grad_time_ms": 368.138, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 484.1788330078125, "policy_loss": -0.16928161680698395, "vf_explained_var": 0.028671972453594208, "entropy": 12.11899471282959, "cur_lr": 4.999999873689376e-05, "total_loss": 484.0320129394531, "kl": 0.01483107265084982}, "load_time_ms": 0.699, "num_steps_sampled": 259200, "update_time_ms": 2.44}, "training_iteration": 216, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.62852740287781, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 259200, "timesteps_total": 259200, "custom_metrics": {}, "iterations_since_restore": 216, "episodes_this_iter": 30, "episode_reward_min": -94.87738322979997, "date": "2025-09-04_18-32-39", "episode_reward_max": 6.000033280248075, "pid": 3651948, "timestamp": 1757003559, "episode_reward_mean": -61.03114630598341, "time_total_s": 8388.01570558548, "episodes_total": 5690, "episode_len_mean": 37.16}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 8421.57034111023, "info": {"sample_time_ms": 33450.914, "num_steps_trained": 260400, "grad_time_ms": 368.741, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 474.89111328125, "policy_loss": -0.16506989300251007, "vf_explained_var": 0.017899474129080772, "entropy": 12.297295570373535, "cur_lr": 4.999999873689376e-05, "total_loss": 474.7478942871094, "kl": 0.014392748475074768}, "load_time_ms": 0.683, "num_steps_sampled": 260400, "update_time_ms": 2.465}, "training_iteration": 217, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.554635524749756, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 260400, "timesteps_total": 260400, "custom_metrics": {}, "iterations_since_restore": 217, "episodes_this_iter": 36, "episode_reward_min": -94.87738322979997, "date": "2025-09-04_18-33-12", "episode_reward_max": 6.000033280248075, "pid": 3651948, "timestamp": 1757003592, "episode_reward_mean": -58.55471967135243, "time_total_s": 8421.57034111023, "episodes_total": 5726, "episode_len_mean": 36.21}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 8455.177167654037, "info": {"sample_time_ms": 33444.751, "num_steps_trained": 261600, "grad_time_ms": 369.745, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 457.5904846191406, "policy_loss": -0.15295682847499847, "vf_explained_var": 0.02529967576265335, "entropy": 12.191746711730957, "cur_lr": 4.999999873689376e-05, "total_loss": 457.4587097167969, "kl": 0.013913111761212349}, "load_time_ms": 0.69, "num_steps_sampled": 261600, "update_time_ms": 2.452}, "training_iteration": 218, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.60682654380798, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 261600, "timesteps_total": 261600, "custom_metrics": {}, "iterations_since_restore": 218, "episodes_this_iter": 30, "episode_reward_min": -94.87738322979997, "date": "2025-09-04_18-33-46", "episode_reward_max": 6.000033280248075, "pid": 3651948, "timestamp": 1757003626, "episode_reward_mean": -59.80524415553662, "time_total_s": 8455.177167654037, "episodes_total": 5756, "episode_len_mean": 36.98}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 8488.736039161682, "info": {"sample_time_ms": 33312.104, "num_steps_trained": 262800, "grad_time_ms": 369.461, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 502.29730224609375, "policy_loss": -0.17624081671237946, "vf_explained_var": 0.02473224513232708, "entropy": 12.325740814208984, "cur_lr": 4.999999873689376e-05, "total_loss": 502.14306640625, "kl": 0.01449984684586525}, "load_time_ms": 0.687, "num_steps_sampled": 262800, "update_time_ms": 2.463}, "training_iteration": 219, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.55887150764465, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 262800, "timesteps_total": 262800, "custom_metrics": {}, "iterations_since_restore": 219, "episodes_this_iter": 32, "episode_reward_min": -92.68477240724081, "date": "2025-09-04_18-34-19", "episode_reward_max": 6.000001307149937, "pid": 3651948, "timestamp": 1757003659, "episode_reward_mean": -58.989134541468914, "time_total_s": 8488.736039161682, "episodes_total": 5788, "episode_len_mean": 36.65}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 8522.322809696198, "info": {"sample_time_ms": 33263.505, "num_steps_trained": 264000, "grad_time_ms": 371.579, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 494.7518005371094, "policy_loss": -0.17339009046554565, "vf_explained_var": 0.019748859107494354, "entropy": 11.994256973266602, "cur_lr": 4.999999873689376e-05, "total_loss": 494.6004638671875, "kl": 0.014561583288013935}, "load_time_ms": 0.681, "num_steps_sampled": 264000, "update_time_ms": 2.506}, "training_iteration": 220, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.58677053451538, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 264000, "timesteps_total": 264000, "custom_metrics": {}, "iterations_since_restore": 220, "episodes_this_iter": 33, "episode_reward_min": -92.68477240724081, "date": "2025-09-04_18-34-53", "episode_reward_max": 6.000001307149937, "pid": 3651948, "timestamp": 1757003693, "episode_reward_mean": -61.583950956835054, "time_total_s": 8522.322809696198, "episodes_total": 5821, "episode_len_mean": 37.68}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 8556.517718076706, "info": {"sample_time_ms": 33347.762, "num_steps_trained": 265200, "grad_time_ms": 371.472, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 480.7444763183594, "policy_loss": -0.17422175407409668, "vf_explained_var": 0.03855053707957268, "entropy": 12.05868911743164, "cur_lr": 4.999999873689376e-05, "total_loss": 480.5936279296875, "kl": 0.015407336875796318}, "load_time_ms": 0.685, "num_steps_sampled": 265200, "update_time_ms": 2.58}, "training_iteration": 221, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.19490838050842, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 265200, "timesteps_total": 265200, "custom_metrics": {}, "iterations_since_restore": 221, "episodes_this_iter": 34, "episode_reward_min": -92.68477240724081, "date": "2025-09-04_18-35-27", "episode_reward_max": 6.000001307149937, "pid": 3651948, "timestamp": 1757003727, "episode_reward_mean": -58.61488066202075, "time_total_s": 8556.517718076706, "episodes_total": 5855, "episode_len_mean": 36.22}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 8590.381103038788, "info": {"sample_time_ms": 33373.788, "num_steps_trained": 266400, "grad_time_ms": 371.794, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 465.3026123046875, "policy_loss": -0.16076049208641052, "vf_explained_var": 0.013659258373081684, "entropy": 12.263897895812988, "cur_lr": 4.999999873689376e-05, "total_loss": 465.1667175292969, "kl": 0.016368364915251732}, "load_time_ms": 0.695, "num_steps_sampled": 266400, "update_time_ms": 2.548}, "training_iteration": 222, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.86338496208191, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 266400, "timesteps_total": 266400, "custom_metrics": {}, "iterations_since_restore": 222, "episodes_this_iter": 34, "episode_reward_min": -92.65719252126992, "date": "2025-09-04_18-36-01", "episode_reward_max": 8.000000506173045, "pid": 3651948, "timestamp": 1757003761, "episode_reward_mean": -57.24653802731454, "time_total_s": 8590.381103038788, "episodes_total": 5889, "episode_len_mean": 35.82}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 8624.816487312317, "info": {"sample_time_ms": 33374.658, "num_steps_trained": 267600, "grad_time_ms": 373.171, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 450.2386474609375, "policy_loss": -0.17680014669895172, "vf_explained_var": 0.023019777610898018, "entropy": 11.894817352294922, "cur_lr": 4.999999873689376e-05, "total_loss": 450.0855407714844, "kl": 0.015569154173135757}, "load_time_ms": 0.705, "num_steps_sampled": 267600, "update_time_ms": 2.51}, "training_iteration": 223, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.43538427352905, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 267600, "timesteps_total": 267600, "custom_metrics": {}, "iterations_since_restore": 223, "episodes_this_iter": 34, "episode_reward_min": -92.8331001949819, "date": "2025-09-04_18-36-36", "episode_reward_max": 8.000000506173045, "pid": 3651948, "timestamp": 1757003796, "episode_reward_mean": -56.41039121202906, "time_total_s": 8624.816487312317, "episodes_total": 5923, "episode_len_mean": 35.46}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 8657.887679338455, "info": {"sample_time_ms": 33349.505, "num_steps_trained": 268800, "grad_time_ms": 371.394, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 537.3810424804688, "policy_loss": -0.16604220867156982, "vf_explained_var": 0.01993529684841633, "entropy": 11.660624504089355, "cur_lr": 4.999999873689376e-05, "total_loss": 537.23876953125, "kl": 0.015647679567337036}, "load_time_ms": 0.701, "num_steps_sampled": 268800, "update_time_ms": 2.556}, "training_iteration": 224, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.071192026138306, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 268800, "timesteps_total": 268800, "custom_metrics": {}, "iterations_since_restore": 224, "episodes_this_iter": 29, "episode_reward_min": -93.81865513420475, "date": "2025-09-04_18-37-09", "episode_reward_max": 8.000000506173045, "pid": 3651948, "timestamp": 1757003829, "episode_reward_mean": -59.83576275009328, "time_total_s": 8657.887679338455, "episodes_total": 5952, "episode_len_mean": 36.98}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 8691.416977643967, "info": {"sample_time_ms": 33326.098, "num_steps_trained": 270000, "grad_time_ms": 369.077, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 508.33740234375, "policy_loss": -0.16329897940158844, "vf_explained_var": 0.02697630040347576, "entropy": 12.403926849365234, "cur_lr": 4.999999873689376e-05, "total_loss": 508.1960754394531, "kl": 0.014454166404902935}, "load_time_ms": 0.695, "num_steps_sampled": 270000, "update_time_ms": 2.584}, "training_iteration": 225, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.529298305511475, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 270000, "timesteps_total": 270000, "custom_metrics": {}, "iterations_since_restore": 225, "episodes_this_iter": 31, "episode_reward_min": -93.81865513420475, "date": "2025-09-04_18-37-42", "episode_reward_max": 8.000000406666924, "pid": 3651948, "timestamp": 1757003862, "episode_reward_mean": -62.80773614513645, "time_total_s": 8691.416977643967, "episodes_total": 5983, "episode_len_mean": 38.18}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 8725.05351448059, "info": {"sample_time_ms": 33329.061, "num_steps_trained": 271200, "grad_time_ms": 366.944, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 487.5612487792969, "policy_loss": -0.16774672269821167, "vf_explained_var": 0.01808946020901203, "entropy": 12.464456558227539, "cur_lr": 4.999999873689376e-05, "total_loss": 487.41497802734375, "kl": 0.014172756113111973}, "load_time_ms": 0.682, "num_steps_sampled": 271200, "update_time_ms": 2.571}, "training_iteration": 226, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.636536836624146, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 271200, "timesteps_total": 271200, "custom_metrics": {}, "iterations_since_restore": 226, "episodes_this_iter": 30, "episode_reward_min": -93.81865513420475, "date": "2025-09-04_18-38-16", "episode_reward_max": 8.000000433543274, "pid": 3651948, "timestamp": 1757003896, "episode_reward_mean": -64.92589373827938, "time_total_s": 8725.05351448059, "episodes_total": 6013, "episode_len_mean": 39.31}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 8758.123383283615, "info": {"sample_time_ms": 33281.457, "num_steps_trained": 272400, "grad_time_ms": 366.033, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 469.1771240234375, "policy_loss": -0.17603828012943268, "vf_explained_var": 0.030873127281665802, "entropy": 11.629398345947266, "cur_lr": 4.999999873689376e-05, "total_loss": 469.0252380371094, "kl": 0.015914278104901314}, "load_time_ms": 0.684, "num_steps_sampled": 272400, "update_time_ms": 2.578}, "training_iteration": 227, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.06986880302429, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 272400, "timesteps_total": 272400, "custom_metrics": {}, "iterations_since_restore": 227, "episodes_this_iter": 32, "episode_reward_min": -92.0961907308189, "date": "2025-09-04_18-38-49", "episode_reward_max": 8.000000433543274, "pid": 3651948, "timestamp": 1757003929, "episode_reward_mean": -65.39002211193822, "time_total_s": 8758.123383283615, "episodes_total": 6045, "episode_len_mean": 39.64}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 8791.669610738754, "info": {"sample_time_ms": 33276.525, "num_steps_trained": 273600, "grad_time_ms": 364.904, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 480.46771240234375, "policy_loss": -0.15781445801258087, "vf_explained_var": 0.02216174267232418, "entropy": 11.83214282989502, "cur_lr": 4.999999873689376e-05, "total_loss": 480.3331298828125, "kl": 0.015275244601070881}, "load_time_ms": 0.674, "num_steps_sampled": 273600, "update_time_ms": 2.595}, "training_iteration": 228, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.54622745513916, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 273600, "timesteps_total": 273600, "custom_metrics": {}, "iterations_since_restore": 228, "episodes_this_iter": 33, "episode_reward_min": -92.50693433778561, "date": "2025-09-04_18-39-22", "episode_reward_max": 8.000000433543274, "pid": 3651948, "timestamp": 1757003962, "episode_reward_mean": -62.27324965840894, "time_total_s": 8791.669610738754, "episodes_total": 6078, "episode_len_mean": 37.92}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 8825.53575849533, "info": {"sample_time_ms": 33305.359, "num_steps_trained": 274800, "grad_time_ms": 366.757, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 526.8289794921875, "policy_loss": -0.16418081521987915, "vf_explained_var": 0.01841430552303791, "entropy": 11.820015907287598, "cur_lr": 4.999999873689376e-05, "total_loss": 526.6889038085938, "kl": 0.015894444659352303}, "load_time_ms": 0.681, "num_steps_sampled": 274800, "update_time_ms": 2.626}, "training_iteration": 229, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.86614775657654, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 274800, "timesteps_total": 274800, "custom_metrics": {}, "iterations_since_restore": 229, "episodes_this_iter": 33, "episode_reward_min": -93.84268985082524, "date": "2025-09-04_18-39-56", "episode_reward_max": 6.0005564529203665, "pid": 3651948, "timestamp": 1757003996, "episode_reward_mean": -61.21300704792242, "time_total_s": 8825.53575849533, "episodes_total": 6111, "episode_len_mean": 37.23}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 8859.073387145996, "info": {"sample_time_ms": 33299.837, "num_steps_trained": 276000, "grad_time_ms": 367.377, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 518.92041015625, "policy_loss": -0.16965606808662415, "vf_explained_var": 0.027118226513266563, "entropy": 11.502217292785645, "cur_lr": 4.999999873689376e-05, "total_loss": 518.77490234375, "kl": 0.01592307724058628}, "load_time_ms": 0.692, "num_steps_sampled": 276000, "update_time_ms": 2.589}, "training_iteration": 230, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.53762865066528, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 276000, "timesteps_total": 276000, "custom_metrics": {}, "iterations_since_restore": 230, "episodes_this_iter": 32, "episode_reward_min": -93.84268985082524, "date": "2025-09-04_18-40-30", "episode_reward_max": 6.0005564529203665, "pid": 3651948, "timestamp": 1757004030, "episode_reward_mean": -59.24914097370995, "time_total_s": 8859.073387145996, "episodes_total": 6143, "episode_len_mean": 36.38}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 8892.482960700989, "info": {"sample_time_ms": 33219.391, "num_steps_trained": 277200, "grad_time_ms": 369.319, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 493.50482177734375, "policy_loss": -0.17525163292884827, "vf_explained_var": 0.026482833549380302, "entropy": 11.950725555419922, "cur_lr": 4.999999873689376e-05, "total_loss": 493.3524169921875, "kl": 0.01507889200001955}, "load_time_ms": 0.695, "num_steps_sampled": 277200, "update_time_ms": 2.542}, "training_iteration": 231, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.409573554992676, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 277200, "timesteps_total": 277200, "custom_metrics": {}, "iterations_since_restore": 231, "episodes_this_iter": 35, "episode_reward_min": -93.93805342725528, "date": "2025-09-04_18-41-03", "episode_reward_max": 6.000051157608556, "pid": 3651948, "timestamp": 1757004063, "episode_reward_mean": -58.93394690622315, "time_total_s": 8892.482960700989, "episodes_total": 6178, "episode_len_mean": 36.31}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 8926.56376671791, "info": {"sample_time_ms": 33239.182, "num_steps_trained": 278400, "grad_time_ms": 371.247, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 477.0397033691406, "policy_loss": -0.1522827297449112, "vf_explained_var": 0.024695463478565216, "entropy": 12.114645004272461, "cur_lr": 4.999999873689376e-05, "total_loss": 476.9099426269531, "kl": 0.014842814765870571}, "load_time_ms": 0.7, "num_steps_sampled": 278400, "update_time_ms": 2.557}, "training_iteration": 232, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.080806016922, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 278400, "timesteps_total": 278400, "custom_metrics": {}, "iterations_since_restore": 232, "episodes_this_iter": 35, "episode_reward_min": -93.93805342725528, "date": "2025-09-04_18-41-37", "episode_reward_max": 6.000051157608556, "pid": 3651948, "timestamp": 1757004097, "episode_reward_mean": -57.25040114733103, "time_total_s": 8926.56376671791, "episodes_total": 6213, "episode_len_mean": 35.59}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 8960.791088581085, "info": {"sample_time_ms": 33220.342, "num_steps_trained": 279600, "grad_time_ms": 369.251, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 463.5008544921875, "policy_loss": -0.18232877552509308, "vf_explained_var": 0.022623876109719276, "entropy": 11.372271537780762, "cur_lr": 4.999999873689376e-05, "total_loss": 463.34088134765625, "kl": 0.014735642820596695}, "load_time_ms": 0.685, "num_steps_sampled": 279600, "update_time_ms": 2.589}, "training_iteration": 233, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.22732186317444, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 279600, "timesteps_total": 279600, "custom_metrics": {}, "iterations_since_restore": 233, "episodes_this_iter": 33, "episode_reward_min": -93.93805342725528, "date": "2025-09-04_18-42-12", "episode_reward_max": 6.000025070402176, "pid": 3651948, "timestamp": 1757004132, "episode_reward_mean": -55.39362406723989, "time_total_s": 8960.791088581085, "episodes_total": 6246, "episode_len_mean": 34.64}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 8994.085668563843, "info": {"sample_time_ms": 33242.289, "num_steps_trained": 280800, "grad_time_ms": 369.641, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 465.8112487792969, "policy_loss": -0.15602374076843262, "vf_explained_var": 0.043435726314783096, "entropy": 12.00288200378418, "cur_lr": 4.999999873689376e-05, "total_loss": 465.6771240234375, "kl": 0.014424502849578857}, "load_time_ms": 0.689, "num_steps_sampled": 280800, "update_time_ms": 2.565}, "training_iteration": 234, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.29457998275757, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 280800, "timesteps_total": 280800, "custom_metrics": {}, "iterations_since_restore": 234, "episodes_this_iter": 32, "episode_reward_min": -93.07855688625773, "date": "2025-09-04_18-42-45", "episode_reward_max": 6.000025070402176, "pid": 3651948, "timestamp": 1757004165, "episode_reward_mean": -56.94350179907652, "time_total_s": 8994.085668563843, "episodes_total": 6278, "episode_len_mean": 35.68}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 9027.672051429749, "info": {"sample_time_ms": 33245.241, "num_steps_trained": 282000, "grad_time_ms": 372.427, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 537.2978515625, "policy_loss": -0.16486559808254242, "vf_explained_var": 0.02764366753399372, "entropy": 11.935712814331055, "cur_lr": 4.999999873689376e-05, "total_loss": 537.1552124023438, "kl": 0.01467643678188324}, "load_time_ms": 0.694, "num_steps_sampled": 282000, "update_time_ms": 2.541}, "training_iteration": 235, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.58638286590576, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 282000, "timesteps_total": 282000, "custom_metrics": {}, "iterations_since_restore": 235, "episodes_this_iter": 30, "episode_reward_min": -93.07855688625773, "date": "2025-09-04_18-43-19", "episode_reward_max": 6.000025070402176, "pid": 3651948, "timestamp": 1757004199, "episode_reward_mean": -58.26857565715705, "time_total_s": 9027.672051429749, "episodes_total": 6308, "episode_len_mean": 36.4}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 9061.819860935211, "info": {"sample_time_ms": 33297.025, "num_steps_trained": 283200, "grad_time_ms": 371.802, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 552.9977416992188, "policy_loss": -0.15926803648471832, "vf_explained_var": 0.023812182247638702, "entropy": 11.88892650604248, "cur_lr": 4.999999873689376e-05, "total_loss": 552.8607177734375, "kl": 0.014615191146731377}, "load_time_ms": 0.695, "num_steps_sampled": 283200, "update_time_ms": 2.536}, "training_iteration": 236, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.14780950546265, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 283200, "timesteps_total": 283200, "custom_metrics": {}, "iterations_since_restore": 236, "episodes_this_iter": 33, "episode_reward_min": -92.59710856730977, "date": "2025-09-04_18-43-53", "episode_reward_max": 8.000068323775915, "pid": 3651948, "timestamp": 1757004233, "episode_reward_mean": -61.44614542643216, "time_total_s": 9061.819860935211, "episodes_total": 6341, "episode_len_mean": 37.82}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 9095.312840461731, "info": {"sample_time_ms": 33338.48, "num_steps_trained": 284400, "grad_time_ms": 372.653, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 462.8885192871094, "policy_loss": -0.18361049890518188, "vf_explained_var": 0.02978028915822506, "entropy": 11.811455726623535, "cur_lr": 4.999999873689376e-05, "total_loss": 462.72698974609375, "kl": 0.014550920575857162}, "load_time_ms": 0.698, "num_steps_sampled": 284400, "update_time_ms": 2.543}, "training_iteration": 237, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.492979526519775, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 284400, "timesteps_total": 284400, "custom_metrics": {}, "iterations_since_restore": 237, "episodes_this_iter": 31, "episode_reward_min": -95.66316184995254, "date": "2025-09-04_18-44-26", "episode_reward_max": 8.000068323775915, "pid": 3651948, "timestamp": 1757004266, "episode_reward_mean": -63.84925295945575, "time_total_s": 9095.312840461731, "episodes_total": 6372, "episode_len_mean": 38.73}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 9128.5523583889, "info": {"sample_time_ms": 33307.224, "num_steps_trained": 285600, "grad_time_ms": 373.24, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 482.65777587890625, "policy_loss": -0.16565656661987305, "vf_explained_var": 0.0365450456738472, "entropy": 12.015816688537598, "cur_lr": 4.999999873689376e-05, "total_loss": 482.5158386230469, "kl": 0.015651242807507515}, "load_time_ms": 0.704, "num_steps_sampled": 285600, "update_time_ms": 2.529}, "training_iteration": 238, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.2395179271698, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 285600, "timesteps_total": 285600, "custom_metrics": {}, "iterations_since_restore": 238, "episodes_this_iter": 34, "episode_reward_min": -95.66316184995254, "date": "2025-09-04_18-45-00", "episode_reward_max": 8.000068323775915, "pid": 3651948, "timestamp": 1757004300, "episode_reward_mean": -62.42745717113413, "time_total_s": 9128.5523583889, "episodes_total": 6406, "episode_len_mean": 38.06}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 9163.238487005234, "info": {"sample_time_ms": 33387.815, "num_steps_trained": 286800, "grad_time_ms": 374.688, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 439.43817138671875, "policy_loss": -0.17008011043071747, "vf_explained_var": 0.025046832859516144, "entropy": 12.047761917114258, "cur_lr": 4.999999873689376e-05, "total_loss": 439.2913513183594, "kl": 0.01528315432369709}, "load_time_ms": 0.698, "num_steps_sampled": 286800, "update_time_ms": 2.507}, "training_iteration": 239, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.68612861633301, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 286800, "timesteps_total": 286800, "custom_metrics": {}, "iterations_since_restore": 239, "episodes_this_iter": 30, "episode_reward_min": -95.66316184995254, "date": "2025-09-04_18-45-34", "episode_reward_max": 6.00007350824956, "pid": 3651948, "timestamp": 1757004334, "episode_reward_mean": -63.69194950752015, "time_total_s": 9163.238487005234, "episodes_total": 6436, "episode_len_mean": 38.83}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 9197.054631233215, "info": {"sample_time_ms": 33417.206, "num_steps_trained": 288000, "grad_time_ms": 373.11, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 479.13433837890625, "policy_loss": -0.16308458149433136, "vf_explained_var": 0.041000742465257645, "entropy": 12.105916976928711, "cur_lr": 4.999999873689376e-05, "total_loss": 478.9933776855469, "kl": 0.01457090862095356}, "load_time_ms": 0.705, "num_steps_sampled": 288000, "update_time_ms": 2.543}, "training_iteration": 240, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.81614422798157, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 288000, "timesteps_total": 288000, "custom_metrics": {}, "iterations_since_restore": 240, "episodes_this_iter": 32, "episode_reward_min": -91.67071305108782, "date": "2025-09-04_18-46-08", "episode_reward_max": 6.00007350824956, "pid": 3651948, "timestamp": 1757004368, "episode_reward_mean": -58.72263234325682, "time_total_s": 9197.054631233215, "episodes_total": 6468, "episode_len_mean": 36.91}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 9230.33184838295, "info": {"sample_time_ms": 33405.928, "num_steps_trained": 289200, "grad_time_ms": 371.198, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 472.53179931640625, "policy_loss": -0.16461673378944397, "vf_explained_var": 0.016277603805065155, "entropy": 12.22976303100586, "cur_lr": 4.999999873689376e-05, "total_loss": 472.39068603515625, "kl": 0.015477120876312256}, "load_time_ms": 0.703, "num_steps_sampled": 289200, "update_time_ms": 2.505}, "training_iteration": 241, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.2772171497345, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 289200, "timesteps_total": 289200, "custom_metrics": {}, "iterations_since_restore": 241, "episodes_this_iter": 35, "episode_reward_min": -92.50884099974769, "date": "2025-09-04_18-46-41", "episode_reward_max": 6.000044439385878, "pid": 3651948, "timestamp": 1757004401, "episode_reward_mean": -58.68430621255006, "time_total_s": 9230.33184838295, "episodes_total": 6503, "episode_len_mean": 36.9}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 9264.127333402634, "info": {"sample_time_ms": 33377.388, "num_steps_trained": 290400, "grad_time_ms": 371.17, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 457.06732177734375, "policy_loss": -0.17669327557086945, "vf_explained_var": 0.02635866403579712, "entropy": 11.52662181854248, "cur_lr": 4.999999873689376e-05, "total_loss": 456.9132080078125, "kl": 0.01483425684273243}, "load_time_ms": 0.713, "num_steps_sampled": 290400, "update_time_ms": 2.495}, "training_iteration": 242, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.79548501968384, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 290400, "timesteps_total": 290400, "custom_metrics": {}, "iterations_since_restore": 242, "episodes_this_iter": 33, "episode_reward_min": -94.35696984520187, "date": "2025-09-04_18-47-15", "episode_reward_max": 8.000000402653834, "pid": 3651948, "timestamp": 1757004435, "episode_reward_mean": -58.24223301701984, "time_total_s": 9264.127333402634, "episodes_total": 6536, "episode_len_mean": 36.42}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 9298.336977005005, "info": {"sample_time_ms": 33374.345, "num_steps_trained": 291600, "grad_time_ms": 372.454, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 497.88671875, "policy_loss": -0.16106237471103668, "vf_explained_var": 0.03792598471045494, "entropy": 11.966264724731445, "cur_lr": 4.999999873689376e-05, "total_loss": 497.7486877441406, "kl": 0.015170086175203323}, "load_time_ms": 0.711, "num_steps_sampled": 291600, "update_time_ms": 2.501}, "training_iteration": 243, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.209643602371216, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 291600, "timesteps_total": 291600, "custom_metrics": {}, "iterations_since_restore": 243, "episodes_this_iter": 30, "episode_reward_min": -94.35696984520187, "date": "2025-09-04_18-47-49", "episode_reward_max": 8.000000402653834, "pid": 3651948, "timestamp": 1757004469, "episode_reward_mean": -57.96694031513576, "time_total_s": 9298.336977005005, "episodes_total": 6566, "episode_len_mean": 36.01}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 9331.860694169998, "info": {"sample_time_ms": 33395.731, "num_steps_trained": 292800, "grad_time_ms": 373.965, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 564.9078979492188, "policy_loss": -0.16683726012706757, "vf_explained_var": 0.02323988452553749, "entropy": 11.774674415588379, "cur_lr": 4.999999873689376e-05, "total_loss": 564.7649536132812, "kl": 0.0157768651843071}, "load_time_ms": 0.709, "num_steps_sampled": 292800, "update_time_ms": 2.473}, "training_iteration": 244, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.523717164993286, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 292800, "timesteps_total": 292800, "custom_metrics": {}, "iterations_since_restore": 244, "episodes_this_iter": 35, "episode_reward_min": -94.35696984520187, "date": "2025-09-04_18-48-23", "episode_reward_max": 8.000000402653834, "pid": 3651948, "timestamp": 1757004503, "episode_reward_mean": -58.10606370958501, "time_total_s": 9331.860694169998, "episodes_total": 6601, "episode_len_mean": 36.2}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 9365.360492706299, "info": {"sample_time_ms": 33388.358, "num_steps_trained": 294000, "grad_time_ms": 372.607, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 525.4404907226562, "policy_loss": -0.17092472314834595, "vf_explained_var": 0.030833972617983818, "entropy": 12.102313041687012, "cur_lr": 4.999999873689376e-05, "total_loss": 525.2924194335938, "kl": 0.015038705430924892}, "load_time_ms": 0.711, "num_steps_sampled": 294000, "update_time_ms": 2.535}, "training_iteration": 245, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.49979853630066, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 294000, "timesteps_total": 294000, "custom_metrics": {}, "iterations_since_restore": 245, "episodes_this_iter": 39, "episode_reward_min": -92.67283625827994, "date": "2025-09-04_18-48-57", "episode_reward_max": 8.000000401008807, "pid": 3651948, "timestamp": 1757004537, "episode_reward_mean": -53.75262255852712, "time_total_s": 9365.360492706299, "episodes_total": 6640, "episode_len_mean": 34.39}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 9399.292599201202, "info": {"sample_time_ms": 33366.768, "num_steps_trained": 295200, "grad_time_ms": 372.608, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 503.8609619140625, "policy_loss": -0.1675948053598404, "vf_explained_var": 0.014279961585998535, "entropy": 11.799020767211914, "cur_lr": 4.999999873689376e-05, "total_loss": 503.7156677246094, "kl": 0.014678357169032097}, "load_time_ms": 0.72, "num_steps_sampled": 295200, "update_time_ms": 2.56}, "training_iteration": 246, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.932106494903564, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 295200, "timesteps_total": 295200, "custom_metrics": {}, "iterations_since_restore": 246, "episodes_this_iter": 34, "episode_reward_min": -91.12291953131009, "date": "2025-09-04_18-49-30", "episode_reward_max": 8.000000401008807, "pid": 3651948, "timestamp": 1757004570, "episode_reward_mean": -52.047525918583716, "time_total_s": 9399.292599201202, "episodes_total": 6674, "episode_len_mean": 33.62}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 9433.063627958298, "info": {"sample_time_ms": 33394.902, "num_steps_trained": 296400, "grad_time_ms": 372.305, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 482.9005126953125, "policy_loss": -0.17791959643363953, "vf_explained_var": 0.02709423191845417, "entropy": 12.1153564453125, "cur_lr": 4.999999873689376e-05, "total_loss": 482.7449035644531, "kl": 0.014708485454320908}, "load_time_ms": 0.727, "num_steps_sampled": 296400, "update_time_ms": 2.534}, "training_iteration": 247, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.77102875709534, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 296400, "timesteps_total": 296400, "custom_metrics": {}, "iterations_since_restore": 247, "episodes_this_iter": 34, "episode_reward_min": -91.4407548251745, "date": "2025-09-04_18-50-04", "episode_reward_max": 8.000000400008329, "pid": 3651948, "timestamp": 1757004604, "episode_reward_mean": -51.35171391690495, "time_total_s": 9433.063627958298, "episodes_total": 6708, "episode_len_mean": 33.29}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 9466.194394826889, "info": {"sample_time_ms": 33384.891, "num_steps_trained": 297600, "grad_time_ms": 371.499, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 510.83685302734375, "policy_loss": -0.17384184896945953, "vf_explained_var": 0.014701505191624165, "entropy": 11.439382553100586, "cur_lr": 4.999999873689376e-05, "total_loss": 510.68658447265625, "kl": 0.015532774850726128}, "load_time_ms": 0.718, "num_steps_sampled": 297600, "update_time_ms": 2.512}, "training_iteration": 248, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.13076686859131, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 297600, "timesteps_total": 297600, "custom_metrics": {}, "iterations_since_restore": 248, "episodes_this_iter": 32, "episode_reward_min": -91.44445958853663, "date": "2025-09-04_18-50-37", "episode_reward_max": 8.000000625473389, "pid": 3651948, "timestamp": 1757004637, "episode_reward_mean": -55.1829405642252, "time_total_s": 9466.194394826889, "episodes_total": 6740, "episode_len_mean": 34.99}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 9499.82013463974, "info": {"sample_time_ms": 33282.448, "num_steps_trained": 298800, "grad_time_ms": 367.948, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 498.81988525390625, "policy_loss": -0.15983320772647858, "vf_explained_var": 0.018894175067543983, "entropy": 11.790884971618652, "cur_lr": 4.999999873689376e-05, "total_loss": 498.68408203125, "kl": 0.015838027000427246}, "load_time_ms": 0.72, "num_steps_sampled": 298800, "update_time_ms": 2.49}, "training_iteration": 249, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.62573981285095, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 298800, "timesteps_total": 298800, "custom_metrics": {}, "iterations_since_restore": 249, "episodes_this_iter": 34, "episode_reward_min": -93.8386863279901, "date": "2025-09-04_18-51-11", "episode_reward_max": 8.000000625473389, "pid": 3651948, "timestamp": 1757004671, "episode_reward_mean": -57.87083837237296, "time_total_s": 9499.82013463974, "episodes_total": 6774, "episode_len_mean": 36.09}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 9533.402312994003, "info": {"sample_time_ms": 33261.054, "num_steps_trained": 300000, "grad_time_ms": 366.013, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 493.55804443359375, "policy_loss": -0.16028568148612976, "vf_explained_var": 0.02670077420771122, "entropy": 11.616454124450684, "cur_lr": 4.999999873689376e-05, "total_loss": 493.42083740234375, "kl": 0.015181425958871841}, "load_time_ms": 0.696, "num_steps_sampled": 300000, "update_time_ms": 2.449}, "training_iteration": 250, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.582178354263306, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 300000, "timesteps_total": 300000, "custom_metrics": {}, "iterations_since_restore": 250, "episodes_this_iter": 36, "episode_reward_min": -93.8386863279901, "date": "2025-09-04_18-51-45", "episode_reward_max": 8.000000625473389, "pid": 3651948, "timestamp": 1757004705, "episode_reward_mean": -57.23362154027995, "time_total_s": 9533.402312994003, "episodes_total": 6810, "episode_len_mean": 35.7}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 9566.642753839493, "info": {"sample_time_ms": 33255.008, "num_steps_trained": 301200, "grad_time_ms": 368.254, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 444.5202331542969, "policy_loss": -0.16525143384933472, "vf_explained_var": 0.032825905829668045, "entropy": 11.39554214477539, "cur_lr": 4.999999873689376e-05, "total_loss": 444.3780822753906, "kl": 0.015219918452203274}, "load_time_ms": 0.699, "num_steps_sampled": 301200, "update_time_ms": 2.562}, "training_iteration": 251, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.2404408454895, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 301200, "timesteps_total": 301200, "custom_metrics": {}, "iterations_since_restore": 251, "episodes_this_iter": 33, "episode_reward_min": -93.07010464848874, "date": "2025-09-04_18-52-18", "episode_reward_max": 8.00000040304245, "pid": 3651948, "timestamp": 1757004738, "episode_reward_mean": -55.47286553294055, "time_total_s": 9566.642753839493, "episodes_total": 6843, "episode_len_mean": 35.11}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 9600.813539981842, "info": {"sample_time_ms": 33293.166, "num_steps_trained": 302400, "grad_time_ms": 367.724, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 490.7688903808594, "policy_loss": -0.181904137134552, "vf_explained_var": 0.03228212893009186, "entropy": 12.051400184631348, "cur_lr": 4.999999873689376e-05, "total_loss": 490.61029052734375, "kl": 0.015358841978013515}, "load_time_ms": 0.675, "num_steps_sampled": 302400, "update_time_ms": 2.552}, "training_iteration": 252, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.17078614234924, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 302400, "timesteps_total": 302400, "custom_metrics": {}, "iterations_since_restore": 252, "episodes_this_iter": 37, "episode_reward_min": -93.1502064041992, "date": "2025-09-04_18-52-52", "episode_reward_max": 6.00001167450546, "pid": 3651948, "timestamp": 1757004772, "episode_reward_mean": -53.44209251089664, "time_total_s": 9600.813539981842, "episodes_total": 6880, "episode_len_mean": 34.15}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 9634.56543135643, "info": {"sample_time_ms": 33249.286, "num_steps_trained": 303600, "grad_time_ms": 365.85, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 438.65264892578125, "policy_loss": -0.1741490662097931, "vf_explained_var": 0.03822045028209686, "entropy": 11.78211498260498, "cur_lr": 4.999999873689376e-05, "total_loss": 438.5022888183594, "kl": 0.015649745240807533}, "load_time_ms": 0.685, "num_steps_sampled": 303600, "update_time_ms": 2.515}, "training_iteration": 253, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.75189137458801, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 303600, "timesteps_total": 303600, "custom_metrics": {}, "iterations_since_restore": 253, "episodes_this_iter": 34, "episode_reward_min": -93.1502064041992, "date": "2025-09-04_18-53-26", "episode_reward_max": 4.055704940266937, "pid": 3651948, "timestamp": 1757004806, "episode_reward_mean": -53.492828528782695, "time_total_s": 9634.56543135643, "episodes_total": 6914, "episode_len_mean": 34.28}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 9669.068894147873, "info": {"sample_time_ms": 33346.713, "num_steps_trained": 304800, "grad_time_ms": 366.41, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 502.4017028808594, "policy_loss": -0.176845520734787, "vf_explained_var": 0.03880747780203819, "entropy": 11.777851104736328, "cur_lr": 4.999999873689376e-05, "total_loss": 502.2478332519531, "kl": 0.015134657733142376}, "load_time_ms": 0.69, "num_steps_sampled": 304800, "update_time_ms": 2.528}, "training_iteration": 254, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.50346279144287, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 304800, "timesteps_total": 304800, "custom_metrics": {}, "iterations_since_restore": 254, "episodes_this_iter": 36, "episode_reward_min": -93.38752497946227, "date": "2025-09-04_18-54-00", "episode_reward_max": 5.312839912494095, "pid": 3651948, "timestamp": 1757004840, "episode_reward_mean": -52.2676855411649, "time_total_s": 9669.068894147873, "episodes_total": 6950, "episode_len_mean": 33.61}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 9702.425583600998, "info": {"sample_time_ms": 33331.79, "num_steps_trained": 306000, "grad_time_ms": 367.077, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 496.5535583496094, "policy_loss": -0.16783879697322845, "vf_explained_var": 0.017874909564852715, "entropy": 11.913069725036621, "cur_lr": 4.999999873689376e-05, "total_loss": 496.4104309082031, "kl": 0.016264840960502625}, "load_time_ms": 0.682, "num_steps_sampled": 306000, "update_time_ms": 2.473}, "training_iteration": 255, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.356689453125, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 306000, "timesteps_total": 306000, "custom_metrics": {}, "iterations_since_restore": 255, "episodes_this_iter": 35, "episode_reward_min": -93.38752497946227, "date": "2025-09-04_18-54-34", "episode_reward_max": 6.000102246417464, "pid": 3651948, "timestamp": 1757004874, "episode_reward_mean": -52.95659910840507, "time_total_s": 9702.425583600998, "episodes_total": 6985, "episode_len_mean": 33.75}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 9736.113502502441, "info": {"sample_time_ms": 33306.613, "num_steps_trained": 307200, "grad_time_ms": 367.862, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 501.1930847167969, "policy_loss": -0.17009110748767853, "vf_explained_var": 0.03265717998147011, "entropy": 11.818390846252441, "cur_lr": 4.999999873689376e-05, "total_loss": 501.0460510253906, "kl": 0.015193293802440166}, "load_time_ms": 0.682, "num_steps_sampled": 307200, "update_time_ms": 2.441}, "training_iteration": 256, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.68791890144348, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 307200, "timesteps_total": 307200, "custom_metrics": {}, "iterations_since_restore": 256, "episodes_this_iter": 39, "episode_reward_min": -92.67251074277206, "date": "2025-09-04_18-55-07", "episode_reward_max": 6.000109429998887, "pid": 3651948, "timestamp": 1757004907, "episode_reward_mean": -49.49791261277659, "time_total_s": 9736.113502502441, "episodes_total": 7024, "episode_len_mean": 32.13}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 9769.884490966797, "info": {"sample_time_ms": 33307.422, "num_steps_trained": 308400, "grad_time_ms": 367.01, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 498.14794921875, "policy_loss": -0.16582104563713074, "vf_explained_var": 0.024809036403894424, "entropy": 11.592876434326172, "cur_lr": 4.999999873689376e-05, "total_loss": 498.0042419433594, "kl": 0.0145410830155015}, "load_time_ms": 0.668, "num_steps_sampled": 308400, "update_time_ms": 2.452}, "training_iteration": 257, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.77098846435547, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 308400, "timesteps_total": 308400, "custom_metrics": {}, "iterations_since_restore": 257, "episodes_this_iter": 43, "episode_reward_min": -91.53659906537581, "date": "2025-09-04_18-55-41", "episode_reward_max": 6.000109429998887, "pid": 3651948, "timestamp": 1757004941, "episode_reward_mean": -43.73236682884013, "time_total_s": 9769.884490966797, "episodes_total": 7067, "episode_len_mean": 29.5}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 9804.377316713333, "info": {"sample_time_ms": 33442.048, "num_steps_trained": 309600, "grad_time_ms": 368.504, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 474.3194885253906, "policy_loss": -0.17338663339614868, "vf_explained_var": 0.027189724147319794, "entropy": 11.489995956420898, "cur_lr": 4.999999873689376e-05, "total_loss": 474.17138671875, "kl": 0.016618233174085617}, "load_time_ms": 0.673, "num_steps_sampled": 309600, "update_time_ms": 2.499}, "training_iteration": 258, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.492825746536255, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 309600, "timesteps_total": 309600, "custom_metrics": {}, "iterations_since_restore": 258, "episodes_this_iter": 39, "episode_reward_min": -91.35076520477672, "date": "2025-09-04_18-56-16", "episode_reward_max": 4.000352388379444, "pid": 3651948, "timestamp": 1757004976, "episode_reward_mean": -42.154622521712774, "time_total_s": 9804.377316713333, "episodes_total": 7106, "episode_len_mean": 28.72}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 9837.982171058655, "info": {"sample_time_ms": 33437.854, "num_steps_trained": 310800, "grad_time_ms": 370.569, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 441.2422790527344, "policy_loss": -0.1783483773469925, "vf_explained_var": 0.036072149872779846, "entropy": 11.615463256835938, "cur_lr": 4.999999873689376e-05, "total_loss": 441.0879211425781, "kl": 0.015805954113602638}, "load_time_ms": 0.67, "num_steps_sampled": 310800, "update_time_ms": 2.501}, "training_iteration": 259, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.604854345321655, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 310800, "timesteps_total": 310800, "custom_metrics": {}, "iterations_since_restore": 259, "episodes_this_iter": 34, "episode_reward_min": -91.35076520477672, "date": "2025-09-04_18-56-49", "episode_reward_max": 2.0005359728741396, "pid": 3651948, "timestamp": 1757005009, "episode_reward_mean": -48.61172280956397, "time_total_s": 9837.982171058655, "episodes_total": 7140, "episode_len_mean": 31.96}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 9871.78459239006, "info": {"sample_time_ms": 33457.814, "num_steps_trained": 312000, "grad_time_ms": 372.539, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 456.3844299316406, "policy_loss": -0.18062280118465424, "vf_explained_var": 0.0369785837829113, "entropy": 11.31128978729248, "cur_lr": 4.999999873689376e-05, "total_loss": 456.2292175292969, "kl": 0.016710573807358742}, "load_time_ms": 0.672, "num_steps_sampled": 312000, "update_time_ms": 2.575}, "training_iteration": 260, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.80242133140564, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 312000, "timesteps_total": 312000, "custom_metrics": {}, "iterations_since_restore": 260, "episodes_this_iter": 36, "episode_reward_min": -92.4291552854384, "date": "2025-09-04_18-57-23", "episode_reward_max": 6.000080980608969, "pid": 3651948, "timestamp": 1757005043, "episode_reward_mean": -52.84823083865218, "time_total_s": 9871.78459239006, "episodes_total": 7176, "episode_len_mean": 34.19}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 9905.303673744202, "info": {"sample_time_ms": 33486.184, "num_steps_trained": 313200, "grad_time_ms": 372.131, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 445.8668212890625, "policy_loss": -0.17220252752304077, "vf_explained_var": 0.027600638568401337, "entropy": 11.534998893737793, "cur_lr": 4.999999873689376e-05, "total_loss": 445.7190856933594, "kl": 0.016097839921712875}, "load_time_ms": 0.668, "num_steps_sampled": 313200, "update_time_ms": 2.504}, "training_iteration": 261, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.519081354141235, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 313200, "timesteps_total": 313200, "custom_metrics": {}, "iterations_since_restore": 261, "episodes_this_iter": 32, "episode_reward_min": -92.4291552854384, "date": "2025-09-04_18-57-57", "episode_reward_max": 6.000080980608969, "pid": 3651948, "timestamp": 1757005077, "episode_reward_mean": -55.41658854010331, "time_total_s": 9905.303673744202, "episodes_total": 7208, "episode_len_mean": 35.25}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 9939.227750062943, "info": {"sample_time_ms": 33460.782, "num_steps_trained": 314400, "grad_time_ms": 372.764, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 454.6693115234375, "policy_loss": -0.16877640783786774, "vf_explained_var": 0.017379429191350937, "entropy": 11.471319198608398, "cur_lr": 4.999999873689376e-05, "total_loss": 454.52459716796875, "kl": 0.015870148316025734}, "load_time_ms": 0.678, "num_steps_sampled": 314400, "update_time_ms": 2.522}, "training_iteration": 262, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.924076318740845, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 314400, "timesteps_total": 314400, "custom_metrics": {}, "iterations_since_restore": 262, "episodes_this_iter": 33, "episode_reward_min": -92.4291552854384, "date": "2025-09-04_18-58-31", "episode_reward_max": 6.000086958096147, "pid": 3651948, "timestamp": 1757005111, "episode_reward_mean": -56.424942778632506, "time_total_s": 9939.227750062943, "episodes_total": 7241, "episode_len_mean": 35.48}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 9973.117554426193, "info": {"sample_time_ms": 33472.645, "num_steps_trained": 315600, "grad_time_ms": 374.627, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 514.4802856445312, "policy_loss": -0.16580967605113983, "vf_explained_var": 0.030511697754263878, "entropy": 11.81280517578125, "cur_lr": 4.999999873689376e-05, "total_loss": 514.3388061523438, "kl": 0.015987424179911613}, "load_time_ms": 0.672, "num_steps_sampled": 315600, "update_time_ms": 2.558}, "training_iteration": 263, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.88980436325073, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 315600, "timesteps_total": 315600, "custom_metrics": {}, "iterations_since_restore": 263, "episodes_this_iter": 36, "episode_reward_min": -91.77151161971379, "date": "2025-09-04_18-59-05", "episode_reward_max": 6.000086958096147, "pid": 3651948, "timestamp": 1757005145, "episode_reward_mean": -55.9312512364152, "time_total_s": 9973.117554426193, "episodes_total": 7277, "episode_len_mean": 35.37}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 10007.813853263855, "info": {"sample_time_ms": 33491.385, "num_steps_trained": 316800, "grad_time_ms": 375.175, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 447.14453125, "policy_loss": -0.1734510362148285, "vf_explained_var": 0.02611129730939865, "entropy": 10.773795127868652, "cur_lr": 4.999999873689376e-05, "total_loss": 446.99371337890625, "kl": 0.014916815795004368}, "load_time_ms": 0.664, "num_steps_sampled": 316800, "update_time_ms": 2.58}, "training_iteration": 264, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.69629883766174, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 316800, "timesteps_total": 316800, "custom_metrics": {}, "iterations_since_restore": 264, "episodes_this_iter": 42, "episode_reward_min": -91.53913098515123, "date": "2025-09-04_18-59-39", "episode_reward_max": 6.000575166421358, "pid": 3651948, "timestamp": 1757005179, "episode_reward_mean": -49.16608473715471, "time_total_s": 10007.813853263855, "episodes_total": 7319, "episode_len_mean": 32.08}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 10040.971177101135, "info": {"sample_time_ms": 33473.134, "num_steps_trained": 318000, "grad_time_ms": 373.482, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 522.8036499023438, "policy_loss": -0.16708451509475708, "vf_explained_var": 0.020491890609264374, "entropy": 11.706774711608887, "cur_lr": 4.999999873689376e-05, "total_loss": 522.6589965820312, "kl": 0.014792154543101788}, "load_time_ms": 0.664, "num_steps_sampled": 318000, "update_time_ms": 2.586}, "training_iteration": 265, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.15732383728027, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 318000, "timesteps_total": 318000, "custom_metrics": {}, "iterations_since_restore": 265, "episodes_this_iter": 37, "episode_reward_min": -91.0761048981628, "date": "2025-09-04_19-00-13", "episode_reward_max": 6.000575166421358, "pid": 3651948, "timestamp": 1757005213, "episode_reward_mean": -47.178333058434504, "time_total_s": 10040.971177101135, "episodes_total": 7356, "episode_len_mean": 31.15}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 10074.561195135117, "info": {"sample_time_ms": 33464.165, "num_steps_trained": 319200, "grad_time_ms": 372.685, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 446.42901611328125, "policy_loss": -0.16864469647407532, "vf_explained_var": 0.020345423370599747, "entropy": 11.407777786254883, "cur_lr": 4.999999873689376e-05, "total_loss": 446.2832946777344, "kl": 0.015111408196389675}, "load_time_ms": 0.663, "num_steps_sampled": 319200, "update_time_ms": 2.599}, "training_iteration": 266, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.59001803398132, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 319200, "timesteps_total": 319200, "custom_metrics": {}, "iterations_since_restore": 266, "episodes_this_iter": 35, "episode_reward_min": -92.17183099341096, "date": "2025-09-04_19-00-46", "episode_reward_max": 8.000000403929597, "pid": 3651948, "timestamp": 1757005246, "episode_reward_mean": -50.03188182993689, "time_total_s": 10074.561195135117, "episodes_total": 7391, "episode_len_mean": 32.47}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 10108.989178180695, "info": {"sample_time_ms": 33529.985, "num_steps_trained": 320400, "grad_time_ms": 372.617, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 521.6529541015625, "policy_loss": -0.17513184249401093, "vf_explained_var": 0.023661097511649132, "entropy": 11.008745193481445, "cur_lr": 4.999999873689376e-05, "total_loss": 521.501953125, "kl": 0.015934422612190247}, "load_time_ms": 0.675, "num_steps_sampled": 320400, "update_time_ms": 2.589}, "training_iteration": 267, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.427983045578, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 320400, "timesteps_total": 320400, "custom_metrics": {}, "iterations_since_restore": 267, "episodes_this_iter": 42, "episode_reward_min": -92.17183099341096, "date": "2025-09-04_19-01-21", "episode_reward_max": 8.000003200551006, "pid": 3651948, "timestamp": 1757005281, "episode_reward_mean": -47.14156567128666, "time_total_s": 10108.989178180695, "episodes_total": 7433, "episode_len_mean": 31.2}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 10143.616182804108, "info": {"sample_time_ms": 33542.544, "num_steps_trained": 321600, "grad_time_ms": 373.486, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 496.2048034667969, "policy_loss": -0.1643340140581131, "vf_explained_var": 0.01232109498232603, "entropy": 11.45879077911377, "cur_lr": 4.999999873689376e-05, "total_loss": 496.0647277832031, "kl": 0.015981314703822136}, "load_time_ms": 0.699, "num_steps_sampled": 321600, "update_time_ms": 2.566}, "training_iteration": 268, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.627004623413086, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 321600, "timesteps_total": 321600, "custom_metrics": {}, "iterations_since_restore": 268, "episodes_this_iter": 42, "episode_reward_min": -93.49556735773535, "date": "2025-09-04_19-01-55", "episode_reward_max": 8.000003200551006, "pid": 3651948, "timestamp": 1757005315, "episode_reward_mean": -42.24551633872482, "time_total_s": 10143.616182804108, "episodes_total": 7475, "episode_len_mean": 28.59}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 10177.26104593277, "info": {"sample_time_ms": 33547.64, "num_steps_trained": 322800, "grad_time_ms": 372.376, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 473.0905456542969, "policy_loss": -0.18091005086898804, "vf_explained_var": 0.03324628621339798, "entropy": 11.576276779174805, "cur_lr": 4.999999873689376e-05, "total_loss": 472.9339599609375, "kl": 0.015997041016817093}, "load_time_ms": 0.696, "num_steps_sampled": 322800, "update_time_ms": 2.573}, "training_iteration": 269, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.64486312866211, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 322800, "timesteps_total": 322800, "custom_metrics": {}, "iterations_since_restore": 269, "episodes_this_iter": 45, "episode_reward_min": -93.49556735773535, "date": "2025-09-04_19-02-29", "episode_reward_max": 6.000151534633431, "pid": 3651948, "timestamp": 1757005349, "episode_reward_mean": -41.814555740237004, "time_total_s": 10177.26104593277, "episodes_total": 7520, "episode_len_mean": 28.3}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 10212.144480705261, "info": {"sample_time_ms": 33656.169, "num_steps_trained": 324000, "grad_time_ms": 371.946, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 484.0221862792969, "policy_loss": -0.16421444714069366, "vf_explained_var": 0.01682865619659424, "entropy": 11.210699081420898, "cur_lr": 4.999999873689376e-05, "total_loss": 483.8819580078125, "kl": 0.015759721398353577}, "load_time_ms": 0.692, "num_steps_sampled": 324000, "update_time_ms": 2.53}, "training_iteration": 270, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.883434772491455, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 324000, "timesteps_total": 324000, "custom_metrics": {}, "iterations_since_restore": 270, "episodes_this_iter": 43, "episode_reward_min": -93.49556735773535, "date": "2025-09-04_19-03-04", "episode_reward_max": 6.000151534633431, "pid": 3651948, "timestamp": 1757005384, "episode_reward_mean": -42.90693813406929, "time_total_s": 10212.144480705261, "episodes_total": 7563, "episode_len_mean": 28.76}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 10245.876401901245, "info": {"sample_time_ms": 33679.183, "num_steps_trained": 325200, "grad_time_ms": 370.133, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 479.9202880859375, "policy_loss": -0.1779698133468628, "vf_explained_var": 0.023097369819879532, "entropy": 10.930511474609375, "cur_lr": 4.999999873689376e-05, "total_loss": 479.7669372558594, "kl": 0.016181154176592827}, "load_time_ms": 0.695, "num_steps_sampled": 325200, "update_time_ms": 2.613}, "training_iteration": 271, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.73192119598389, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 325200, "timesteps_total": 325200, "custom_metrics": {}, "iterations_since_restore": 271, "episodes_this_iter": 36, "episode_reward_min": -93.68366487961454, "date": "2025-09-04_19-03-38", "episode_reward_max": 4.000525533646388, "pid": 3651948, "timestamp": 1757005418, "episode_reward_mean": -42.65263693139008, "time_total_s": 10245.876401901245, "episodes_total": 7599, "episode_len_mean": 28.76}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 10279.449191570282, "info": {"sample_time_ms": 33644.665, "num_steps_trained": 326400, "grad_time_ms": 369.57, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 484.3214111328125, "policy_loss": -0.16890767216682434, "vf_explained_var": 0.033569660037755966, "entropy": 11.223655700683594, "cur_lr": 4.999999873689376e-05, "total_loss": 484.1768798828125, "kl": 0.016036422923207283}, "load_time_ms": 0.693, "num_steps_sampled": 326400, "update_time_ms": 2.591}, "training_iteration": 272, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.572789669036865, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 326400, "timesteps_total": 326400, "custom_metrics": {}, "iterations_since_restore": 272, "episodes_this_iter": 41, "episode_reward_min": -93.68366487961454, "date": "2025-09-04_19-04-11", "episode_reward_max": 8.000000473594405, "pid": 3651948, "timestamp": 1757005451, "episode_reward_mean": -45.00275549680281, "time_total_s": 10279.449191570282, "episodes_total": 7640, "episode_len_mean": 30.04}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 10313.695538282394, "info": {"sample_time_ms": 33680.507, "num_steps_trained": 327600, "grad_time_ms": 369.417, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 427.5572509765625, "policy_loss": -0.16799139976501465, "vf_explained_var": 0.02995210886001587, "entropy": 11.145977020263672, "cur_lr": 4.999999873689376e-05, "total_loss": 427.41265869140625, "kl": 0.01543845422565937}, "load_time_ms": 0.715, "num_steps_sampled": 327600, "update_time_ms": 2.579}, "training_iteration": 273, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.24634671211243, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 327600, "timesteps_total": 327600, "custom_metrics": {}, "iterations_since_restore": 273, "episodes_this_iter": 40, "episode_reward_min": -93.68366487961454, "date": "2025-09-04_19-04-45", "episode_reward_max": 8.000000473594405, "pid": 3651948, "timestamp": 1757005485, "episode_reward_mean": -46.60512579057071, "time_total_s": 10313.695538282394, "episodes_total": 7680, "episode_len_mean": 30.86}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 10347.263674736023, "info": {"sample_time_ms": 33567.666, "num_steps_trained": 328800, "grad_time_ms": 369.409, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 502.9129333496094, "policy_loss": -0.17614038288593292, "vf_explained_var": 0.022216200828552246, "entropy": 11.216800689697266, "cur_lr": 4.999999873689376e-05, "total_loss": 502.7601013183594, "kl": 0.015363307669758797}, "load_time_ms": 0.727, "num_steps_sampled": 328800, "update_time_ms": 2.56}, "training_iteration": 274, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.56813645362854, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 328800, "timesteps_total": 328800, "custom_metrics": {}, "iterations_since_restore": 274, "episodes_this_iter": 38, "episode_reward_min": -91.98634031365813, "date": "2025-09-04_19-05-19", "episode_reward_max": 8.000225089274451, "pid": 3651948, "timestamp": 1757005519, "episode_reward_mean": -43.859947842870355, "time_total_s": 10347.263674736023, "episodes_total": 7718, "episode_len_mean": 29.61}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 10381.212057828903, "info": {"sample_time_ms": 33646.788, "num_steps_trained": 330000, "grad_time_ms": 369.366, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 453.77984619140625, "policy_loss": -0.16606299579143524, "vf_explained_var": 0.03338143602013588, "entropy": 10.97883415222168, "cur_lr": 4.999999873689376e-05, "total_loss": 453.6378479003906, "kl": 0.015875400975346565}, "load_time_ms": 0.726, "num_steps_sampled": 330000, "update_time_ms": 2.615}, "training_iteration": 275, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.94838309288025, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 330000, "timesteps_total": 330000, "custom_metrics": {}, "iterations_since_restore": 275, "episodes_this_iter": 39, "episode_reward_min": -91.98634031365813, "date": "2025-09-04_19-05-53", "episode_reward_max": 8.000225089274451, "pid": 3651948, "timestamp": 1757005553, "episode_reward_mean": -46.33955160056749, "time_total_s": 10381.212057828903, "episodes_total": 7757, "episode_len_mean": 30.69}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 10415.166213274002, "info": {"sample_time_ms": 33680.273, "num_steps_trained": 331200, "grad_time_ms": 372.268, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 450.1102294921875, "policy_loss": -0.17988114058971405, "vf_explained_var": 0.025934258475899696, "entropy": 11.465625762939453, "cur_lr": 4.999999873689376e-05, "total_loss": 449.95477294921875, "kl": 0.016104480251669884}, "load_time_ms": 0.742, "num_steps_sampled": 331200, "update_time_ms": 2.587}, "training_iteration": 276, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.95415544509888, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 331200, "timesteps_total": 331200, "custom_metrics": {}, "iterations_since_restore": 276, "episodes_this_iter": 37, "episode_reward_min": -90.53218214614839, "date": "2025-09-04_19-06-27", "episode_reward_max": 8.000225089274451, "pid": 3651948, "timestamp": 1757005587, "episode_reward_mean": -49.45591814832428, "time_total_s": 10415.166213274002, "episodes_total": 7794, "episode_len_mean": 32.37}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 10450.337350845337, "info": {"sample_time_ms": 33754.495, "num_steps_trained": 332400, "grad_time_ms": 372.366, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 469.13031005859375, "policy_loss": -0.16875097155570984, "vf_explained_var": 0.023109469562768936, "entropy": 11.081283569335938, "cur_lr": 4.999999873689376e-05, "total_loss": 468.9852294921875, "kl": 0.015559237450361252}, "load_time_ms": 0.73, "num_steps_sampled": 332400, "update_time_ms": 2.592}, "training_iteration": 277, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 35.17113757133484, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 332400, "timesteps_total": 332400, "custom_metrics": {}, "iterations_since_restore": 277, "episodes_this_iter": 43, "episode_reward_min": -90.53218214614839, "date": "2025-09-04_19-07-02", "episode_reward_max": 8.000071739314354, "pid": 3651948, "timestamp": 1757005622, "episode_reward_mean": -44.07394949871933, "time_total_s": 10450.337350845337, "episodes_total": 7837, "episode_len_mean": 29.69}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 10484.945219278336, "info": {"sample_time_ms": 33754.833, "num_steps_trained": 333600, "grad_time_ms": 370.167, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 543.11328125, "policy_loss": -0.17992782592773438, "vf_explained_var": 0.018156178295612335, "entropy": 10.869085311889648, "cur_lr": 4.999999873689376e-05, "total_loss": 542.9584350585938, "kl": 0.01653093658387661}, "load_time_ms": 0.705, "num_steps_sampled": 333600, "update_time_ms": 2.579}, "training_iteration": 278, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.60786843299866, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 333600, "timesteps_total": 333600, "custom_metrics": {}, "iterations_since_restore": 278, "episodes_this_iter": 41, "episode_reward_min": -91.15067117704314, "date": "2025-09-04_19-07-37", "episode_reward_max": 8.000071739314354, "pid": 3651948, "timestamp": 1757005657, "episode_reward_mean": -42.293963324320195, "time_total_s": 10484.945219278336, "episodes_total": 7878, "episode_len_mean": 28.67}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 10518.67206120491, "info": {"sample_time_ms": 33760.475, "num_steps_trained": 334800, "grad_time_ms": 372.736, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 473.5882263183594, "policy_loss": -0.17750756442546844, "vf_explained_var": 0.03091849945485592, "entropy": 11.348112106323242, "cur_lr": 4.999999873689376e-05, "total_loss": 473.4354248046875, "kl": 0.01630318909883499}, "load_time_ms": 0.713, "num_steps_sampled": 334800, "update_time_ms": 2.583}, "training_iteration": 279, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.72684192657471, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 334800, "timesteps_total": 334800, "custom_metrics": {}, "iterations_since_restore": 279, "episodes_this_iter": 41, "episode_reward_min": -91.15067117704314, "date": "2025-09-04_19-08-11", "episode_reward_max": 8.000004903249033, "pid": 3651948, "timestamp": 1757005691, "episode_reward_mean": -44.9513265938712, "time_total_s": 10518.67206120491, "episodes_total": 7919, "episode_len_mean": 29.95}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 10552.616226434708, "info": {"sample_time_ms": 33665.889, "num_steps_trained": 336000, "grad_time_ms": 373.425, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 491.8249816894531, "policy_loss": -0.17976070940494537, "vf_explained_var": 0.02973158471286297, "entropy": 10.85261058807373, "cur_lr": 4.999999873689376e-05, "total_loss": 491.6720886230469, "kl": 0.017699040472507477}, "load_time_ms": 0.718, "num_steps_sampled": 336000, "update_time_ms": 2.594}, "training_iteration": 280, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.94416522979736, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 336000, "timesteps_total": 336000, "custom_metrics": {}, "iterations_since_restore": 280, "episodes_this_iter": 38, "episode_reward_min": -95.3722150015734, "date": "2025-09-04_19-08-44", "episode_reward_max": 8.000004903249033, "pid": 3651948, "timestamp": 1757005724, "episode_reward_mean": -44.50705614322201, "time_total_s": 10552.616226434708, "episodes_total": 7957, "episode_len_mean": 29.95}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 10586.572783470154, "info": {"sample_time_ms": 33685.632, "num_steps_trained": 337200, "grad_time_ms": 376.163, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 488.8636169433594, "policy_loss": -0.1731945276260376, "vf_explained_var": 0.04734458401799202, "entropy": 11.287887573242188, "cur_lr": 4.999999873689376e-05, "total_loss": 488.71331787109375, "kl": 0.015083376318216324}, "load_time_ms": 0.716, "num_steps_sampled": 337200, "update_time_ms": 2.562}, "training_iteration": 281, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.95655703544617, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 337200, "timesteps_total": 337200, "custom_metrics": {}, "iterations_since_restore": 281, "episodes_this_iter": 36, "episode_reward_min": -95.3722150015734, "date": "2025-09-04_19-09-19", "episode_reward_max": 6.000347435424667, "pid": 3651948, "timestamp": 1757005759, "episode_reward_mean": -48.719626192050356, "time_total_s": 10586.572783470154, "episodes_total": 7993, "episode_len_mean": 32.19}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 10620.745208978653, "info": {"sample_time_ms": 33745.513, "num_steps_trained": 338400, "grad_time_ms": 376.235, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 491.0636901855469, "policy_loss": -0.17348407208919525, "vf_explained_var": 0.02385639399290085, "entropy": 10.733929634094238, "cur_lr": 4.999999873689376e-05, "total_loss": 490.9172668457031, "kl": 0.017822520807385445}, "load_time_ms": 0.711, "num_steps_sampled": 338400, "update_time_ms": 2.588}, "training_iteration": 282, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.172425508499146, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 338400, "timesteps_total": 338400, "custom_metrics": {}, "iterations_since_restore": 282, "episodes_this_iter": 45, "episode_reward_min": -91.86570982637153, "date": "2025-09-04_19-09-53", "episode_reward_max": 6.001391594613905, "pid": 3651948, "timestamp": 1757005793, "episode_reward_mean": -44.18720843152826, "time_total_s": 10620.745208978653, "episodes_total": 8038, "episode_len_mean": 29.89}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 10654.505257368088, "info": {"sample_time_ms": 33698.56, "num_steps_trained": 339600, "grad_time_ms": 374.566, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 443.69537353515625, "policy_loss": -0.17414651811122894, "vf_explained_var": 0.032790109515190125, "entropy": 11.28775691986084, "cur_lr": 4.999999873689376e-05, "total_loss": 443.5450744628906, "kl": 0.015703819692134857}, "load_time_ms": 0.684, "num_steps_sampled": 339600, "update_time_ms": 2.592}, "training_iteration": 283, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.760048389434814, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 339600, "timesteps_total": 339600, "custom_metrics": {}, "iterations_since_restore": 283, "episodes_this_iter": 39, "episode_reward_min": -91.8255611391432, "date": "2025-09-04_19-10-26", "episode_reward_max": 6.001391594613905, "pid": 3651948, "timestamp": 1757005826, "episode_reward_mean": -43.44958326804987, "time_total_s": 10654.505257368088, "episodes_total": 8077, "episode_len_mean": 29.28}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 10688.552230834961, "info": {"sample_time_ms": 33748.997, "num_steps_trained": 340800, "grad_time_ms": 372.023, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 443.31854248046875, "policy_loss": -0.18360702693462372, "vf_explained_var": 0.026069827377796173, "entropy": 10.978754997253418, "cur_lr": 4.999999873689376e-05, "total_loss": 443.1598815917969, "kl": 0.01643957756459713}, "load_time_ms": 0.672, "num_steps_sampled": 340800, "update_time_ms": 2.593}, "training_iteration": 284, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.04697346687317, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 340800, "timesteps_total": 340800, "custom_metrics": {}, "iterations_since_restore": 284, "episodes_this_iter": 38, "episode_reward_min": -91.8255611391432, "date": "2025-09-04_19-11-01", "episode_reward_max": 8.00000043651723, "pid": 3651948, "timestamp": 1757005861, "episode_reward_mean": -47.55785499302104, "time_total_s": 10688.552230834961, "episodes_total": 8115, "episode_len_mean": 31.36}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 10721.957757472992, "info": {"sample_time_ms": 33694.925, "num_steps_trained": 342000, "grad_time_ms": 371.863, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 499.5901184082031, "policy_loss": -0.17610689997673035, "vf_explained_var": 0.019171714782714844, "entropy": 10.866064071655273, "cur_lr": 4.999999873689376e-05, "total_loss": 499.4377746582031, "kl": 0.015659630298614502}, "load_time_ms": 0.668, "num_steps_sampled": 342000, "update_time_ms": 2.537}, "training_iteration": 285, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.405526638031006, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 342000, "timesteps_total": 342000, "custom_metrics": {}, "iterations_since_restore": 285, "episodes_this_iter": 40, "episode_reward_min": -91.22999134012633, "date": "2025-09-04_19-11-34", "episode_reward_max": 8.000052252170565, "pid": 3651948, "timestamp": 1757005894, "episode_reward_mean": -45.63354421876618, "time_total_s": 10721.957757472992, "episodes_total": 8155, "episode_len_mean": 30.29}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 10756.137785673141, "info": {"sample_time_ms": 33718.46, "num_steps_trained": 343200, "grad_time_ms": 370.937, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 465.80670166015625, "policy_loss": -0.17610350251197815, "vf_explained_var": 0.034203190356492996, "entropy": 10.926987648010254, "cur_lr": 4.999999873689376e-05, "total_loss": 465.6551208496094, "kl": 0.016123224049806595}, "load_time_ms": 0.654, "num_steps_sampled": 343200, "update_time_ms": 2.537}, "training_iteration": 286, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.180028200149536, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 343200, "timesteps_total": 343200, "custom_metrics": {}, "iterations_since_restore": 286, "episodes_this_iter": 41, "episode_reward_min": -91.22999134012633, "date": "2025-09-04_19-12-08", "episode_reward_max": 8.000052252170565, "pid": 3651948, "timestamp": 1757005928, "episode_reward_mean": -44.48674554696858, "time_total_s": 10756.137785673141, "episodes_total": 8196, "episode_len_mean": 29.72}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 10790.090457201004, "info": {"sample_time_ms": 33595.784, "num_steps_trained": 344400, "grad_time_ms": 371.739, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 509.7332763671875, "policy_loss": -0.18097235262393951, "vf_explained_var": 0.026486733928322792, "entropy": 11.022765159606934, "cur_lr": 4.999999873689376e-05, "total_loss": 509.57720947265625, "kl": 0.016459709033370018}, "load_time_ms": 0.657, "num_steps_sampled": 344400, "update_time_ms": 2.535}, "training_iteration": 287, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.95267152786255, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 344400, "timesteps_total": 344400, "custom_metrics": {}, "iterations_since_restore": 287, "episodes_this_iter": 39, "episode_reward_min": -90.82597945393007, "date": "2025-09-04_19-12-42", "episode_reward_max": 6.000163794206194, "pid": 3651948, "timestamp": 1757005962, "episode_reward_mean": -43.89554236020127, "time_total_s": 10790.090457201004, "episodes_total": 8235, "episode_len_mean": 29.7}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 10824.339283704758, "info": {"sample_time_ms": 33558.228, "num_steps_trained": 345600, "grad_time_ms": 373.358, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 479.1529846191406, "policy_loss": -0.17926204204559326, "vf_explained_var": 0.021100951358675957, "entropy": 11.003413200378418, "cur_lr": 4.999999873689376e-05, "total_loss": 478.9981689453125, "kl": 0.016063014045357704}, "load_time_ms": 0.66, "num_steps_sampled": 345600, "update_time_ms": 2.549}, "training_iteration": 288, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.24882650375366, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 345600, "timesteps_total": 345600, "custom_metrics": {}, "iterations_since_restore": 288, "episodes_this_iter": 47, "episode_reward_min": -90.82597945393007, "date": "2025-09-04_19-13-16", "episode_reward_max": 8.000000787655095, "pid": 3651948, "timestamp": 1757005996, "episode_reward_mean": -42.089675947863626, "time_total_s": 10824.339283704758, "episodes_total": 8282, "episode_len_mean": 28.73}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 10857.90751862526, "info": {"sample_time_ms": 33545.668, "num_steps_trained": 346800, "grad_time_ms": 370.082, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 489.45941162109375, "policy_loss": -0.16726961731910706, "vf_explained_var": 0.021498076617717743, "entropy": 11.020486831665039, "cur_lr": 4.999999873689376e-05, "total_loss": 489.3161315917969, "kl": 0.015811540186405182}, "load_time_ms": 0.656, "num_steps_sampled": 346800, "update_time_ms": 2.557}, "training_iteration": 289, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.56823492050171, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 346800, "timesteps_total": 346800, "custom_metrics": {}, "iterations_since_restore": 289, "episodes_this_iter": 44, "episode_reward_min": -92.1446320532424, "date": "2025-09-04_19-13-50", "episode_reward_max": 8.000000787655095, "pid": 3651948, "timestamp": 1757006030, "episode_reward_mean": -38.038023044437594, "time_total_s": 10857.90751862526, "episodes_total": 8326, "episode_len_mean": 26.54}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 10891.880641222, "info": {"sample_time_ms": 33547.73, "num_steps_trained": 348000, "grad_time_ms": 370.899, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 477.1534423828125, "policy_loss": -0.18578127026557922, "vf_explained_var": 0.020566217601299286, "entropy": 11.158267974853516, "cur_lr": 4.999999873689376e-05, "total_loss": 476.99273681640625, "kl": 0.016526976600289345}, "load_time_ms": 0.674, "num_steps_sampled": 348000, "update_time_ms": 2.548}, "training_iteration": 290, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.97312259674072, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 348000, "timesteps_total": 348000, "custom_metrics": {}, "iterations_since_restore": 290, "episodes_this_iter": 40, "episode_reward_min": -92.1446320532424, "date": "2025-09-04_19-14-24", "episode_reward_max": 6.00023374893414, "pid": 3651948, "timestamp": 1757006064, "episode_reward_mean": -43.65306031492569, "time_total_s": 10891.880641222, "episodes_total": 8366, "episode_len_mean": 29.34}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 10927.529315710068, "info": {"sample_time_ms": 33717.148, "num_steps_trained": 349200, "grad_time_ms": 370.706, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 486.17718505859375, "policy_loss": -0.16736049950122833, "vf_explained_var": 0.017367621883749962, "entropy": 11.131400108337402, "cur_lr": 4.999999873689376e-05, "total_loss": 486.0347900390625, "kl": 0.01641010493040085}, "load_time_ms": 0.685, "num_steps_sampled": 349200, "update_time_ms": 2.533}, "training_iteration": 291, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 35.64867448806763, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 349200, "timesteps_total": 349200, "custom_metrics": {}, "iterations_since_restore": 291, "episodes_this_iter": 41, "episode_reward_min": -92.21221438592339, "date": "2025-09-04_19-15-00", "episode_reward_max": 8.000000400008378, "pid": 3651948, "timestamp": 1757006100, "episode_reward_mean": -43.812856947642615, "time_total_s": 10927.529315710068, "episodes_total": 8407, "episode_len_mean": 29.49}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 10963.153591632843, "info": {"sample_time_ms": 33864.213, "num_steps_trained": 350400, "grad_time_ms": 368.848, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 459.4781799316406, "policy_loss": -0.17313633859157562, "vf_explained_var": 0.01630322076380253, "entropy": 10.939611434936523, "cur_lr": 4.999999873689376e-05, "total_loss": 459.33050537109375, "kl": 0.016762765124440193}, "load_time_ms": 0.687, "num_steps_sampled": 350400, "update_time_ms": 2.517}, "training_iteration": 292, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 35.62427592277527, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 350400, "timesteps_total": 350400, "custom_metrics": {}, "iterations_since_restore": 292, "episodes_this_iter": 41, "episode_reward_min": -92.72521688390759, "date": "2025-09-04_19-15-35", "episode_reward_max": 8.000000400008378, "pid": 3651948, "timestamp": 1757006135, "episode_reward_mean": -44.099940482126186, "time_total_s": 10963.153591632843, "episodes_total": 8448, "episode_len_mean": 29.8}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 10997.174255371094, "info": {"sample_time_ms": 33888.988, "num_steps_trained": 351600, "grad_time_ms": 370.137, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 427.449462890625, "policy_loss": -0.1794745922088623, "vf_explained_var": 0.028868675231933594, "entropy": 11.113698959350586, "cur_lr": 4.999999873689376e-05, "total_loss": 427.29345703125, "kl": 0.015439452603459358}, "load_time_ms": 0.692, "num_steps_sampled": 351600, "update_time_ms": 2.493}, "training_iteration": 293, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.02066373825073, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 351600, "timesteps_total": 351600, "custom_metrics": {}, "iterations_since_restore": 293, "episodes_this_iter": 43, "episode_reward_min": -92.72521688390759, "date": "2025-09-04_19-16-09", "episode_reward_max": 8.000000414224198, "pid": 3651948, "timestamp": 1757006169, "episode_reward_mean": -42.17512389247495, "time_total_s": 10997.174255371094, "episodes_total": 8491, "episode_len_mean": 29.01}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 11031.405236959457, "info": {"sample_time_ms": 33907.047, "num_steps_trained": 352800, "grad_time_ms": 370.504, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 510.30328369140625, "policy_loss": -0.18082945048809052, "vf_explained_var": 0.014124538749456406, "entropy": 11.173457145690918, "cur_lr": 4.999999873689376e-05, "total_loss": 510.14752197265625, "kl": 0.01647772826254368}, "load_time_ms": 0.692, "num_steps_sampled": 352800, "update_time_ms": 2.501}, "training_iteration": 294, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.23098158836365, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 352800, "timesteps_total": 352800, "custom_metrics": {}, "iterations_since_restore": 294, "episodes_this_iter": 39, "episode_reward_min": -92.72521688390759, "date": "2025-09-04_19-16-44", "episode_reward_max": 8.000000414224198, "pid": 3651948, "timestamp": 1757006204, "episode_reward_mean": -40.4530542152126, "time_total_s": 11031.405236959457, "episodes_total": 8530, "episode_len_mean": 27.98}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 11065.227889537811, "info": {"sample_time_ms": 33947.023, "num_steps_trained": 354000, "grad_time_ms": 372.241, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 533.9700927734375, "policy_loss": -0.18131543695926666, "vf_explained_var": 0.018143661320209503, "entropy": 10.805140495300293, "cur_lr": 4.999999873689376e-05, "total_loss": 533.8145751953125, "kl": 0.016999023035168648}, "load_time_ms": 0.697, "num_steps_sampled": 354000, "update_time_ms": 2.498}, "training_iteration": 295, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.82265257835388, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 354000, "timesteps_total": 354000, "custom_metrics": {}, "iterations_since_restore": 295, "episodes_this_iter": 38, "episode_reward_min": -92.81093397258293, "date": "2025-09-04_19-17-17", "episode_reward_max": 6.000249367189705, "pid": 3651948, "timestamp": 1757006237, "episode_reward_mean": -46.47372406120076, "time_total_s": 11065.227889537811, "episodes_total": 8568, "episode_len_mean": 30.75}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 11100.164932012558, "info": {"sample_time_ms": 34022.613, "num_steps_trained": 355200, "grad_time_ms": 372.335, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 457.92620849609375, "policy_loss": -0.16722075641155243, "vf_explained_var": 0.03289921581745148, "entropy": 11.11696720123291, "cur_lr": 4.999999873689376e-05, "total_loss": 457.78167724609375, "kl": 0.014939261600375175}, "load_time_ms": 0.703, "num_steps_sampled": 355200, "update_time_ms": 2.498}, "training_iteration": 296, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.937042474746704, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 355200, "timesteps_total": 355200, "custom_metrics": {}, "iterations_since_restore": 296, "episodes_this_iter": 43, "episode_reward_min": -92.81093397258293, "date": "2025-09-04_19-17-52", "episode_reward_max": 8.000185893064492, "pid": 3651948, "timestamp": 1757006272, "episode_reward_mean": -45.086113935137554, "time_total_s": 11100.164932012558, "episodes_total": 8611, "episode_len_mean": 29.87}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 11134.67031955719, "info": {"sample_time_ms": 34077.17, "num_steps_trained": 356400, "grad_time_ms": 373.02, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 457.5201721191406, "policy_loss": -0.16585397720336914, "vf_explained_var": 0.01322248950600624, "entropy": 10.969801902770996, "cur_lr": 4.999999873689376e-05, "total_loss": 457.3786926269531, "kl": 0.016034726053476334}, "load_time_ms": 0.707, "num_steps_sampled": 356400, "update_time_ms": 2.507}, "training_iteration": 297, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.50538754463196, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 356400, "timesteps_total": 356400, "custom_metrics": {}, "iterations_since_restore": 297, "episodes_this_iter": 44, "episode_reward_min": -91.00477448244305, "date": "2025-09-04_19-18-27", "episode_reward_max": 8.000185893064492, "pid": 3651948, "timestamp": 1757006307, "episode_reward_mean": -44.24866296136565, "time_total_s": 11134.67031955719, "episodes_total": 8655, "episode_len_mean": 29.73}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 11168.482450246811, "info": {"sample_time_ms": 34032.64, "num_steps_trained": 357600, "grad_time_ms": 373.878, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 438.6772155761719, "policy_loss": -0.17128852009773254, "vf_explained_var": 0.04709920659661293, "entropy": 10.442963600158691, "cur_lr": 4.999999873689376e-05, "total_loss": 438.5312805175781, "kl": 0.016678836196660995}, "load_time_ms": 0.706, "num_steps_sampled": 357600, "update_time_ms": 2.507}, "training_iteration": 298, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.81213068962097, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 357600, "timesteps_total": 357600, "custom_metrics": {}, "iterations_since_restore": 298, "episodes_this_iter": 39, "episode_reward_min": -91.00477448244305, "date": "2025-09-04_19-19-01", "episode_reward_max": 4.000119808434576, "pid": 3651948, "timestamp": 1757006341, "episode_reward_mean": -42.03931444679164, "time_total_s": 11168.482450246811, "episodes_total": 8694, "episode_len_mean": 28.7}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 11201.78668999672, "info": {"sample_time_ms": 34004.342, "num_steps_trained": 358800, "grad_time_ms": 375.751, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 447.9620361328125, "policy_loss": -0.16031722724437714, "vf_explained_var": 0.02535586804151535, "entropy": 11.190040588378906, "cur_lr": 4.999999873689376e-05, "total_loss": 447.82476806640625, "kl": 0.015202601440250874}, "load_time_ms": 0.708, "num_steps_sampled": 358800, "update_time_ms": 2.519}, "training_iteration": 299, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.30423974990845, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 358800, "timesteps_total": 358800, "custom_metrics": {}, "iterations_since_restore": 299, "episodes_this_iter": 37, "episode_reward_min": -90.47411887573381, "date": "2025-09-04_19-19-34", "episode_reward_max": 4.000031670263265, "pid": 3651948, "timestamp": 1757006374, "episode_reward_mean": -45.819786978871925, "time_total_s": 11201.78668999672, "episodes_total": 8731, "episode_len_mean": 30.58}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 11236.350129127502, "info": {"sample_time_ms": 34066.232, "num_steps_trained": 360000, "grad_time_ms": 372.985, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 470.8668212890625, "policy_loss": -0.17791648209095, "vf_explained_var": 0.025730881839990616, "entropy": 10.827828407287598, "cur_lr": 4.999999873689376e-05, "total_loss": 470.7132568359375, "kl": 0.01607631705701351}, "load_time_ms": 0.684, "num_steps_sampled": 360000, "update_time_ms": 2.496}, "training_iteration": 300, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.56343913078308, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 360000, "timesteps_total": 360000, "custom_metrics": {}, "iterations_since_restore": 300, "episodes_this_iter": 42, "episode_reward_min": -89.7114173671742, "date": "2025-09-04_19-20-09", "episode_reward_max": 4.000438841326207, "pid": 3651948, "timestamp": 1757006409, "episode_reward_mean": -43.891822344584035, "time_total_s": 11236.350129127502, "episodes_total": 8773, "episode_len_mean": 29.8}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 11270.30946135521, "info": {"sample_time_ms": 33899.468, "num_steps_trained": 361200, "grad_time_ms": 370.843, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 465.0353088378906, "policy_loss": -0.17757363617420197, "vf_explained_var": 0.025346828624606133, "entropy": 10.962993621826172, "cur_lr": 4.999999873689376e-05, "total_loss": 464.88232421875, "kl": 0.016150841489434242}, "load_time_ms": 0.673, "num_steps_sampled": 361200, "update_time_ms": 2.498}, "training_iteration": 301, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.95933222770691, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 361200, "timesteps_total": 361200, "custom_metrics": {}, "iterations_since_restore": 301, "episodes_this_iter": 43, "episode_reward_min": -90.85085832516624, "date": "2025-09-04_19-20-43", "episode_reward_max": 4.000807212266899, "pid": 3651948, "timestamp": 1757006443, "episode_reward_mean": -41.096598915944796, "time_total_s": 11270.30946135521, "episodes_total": 8816, "episode_len_mean": 28.4}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 11304.162751197815, "info": {"sample_time_ms": 33720.232, "num_steps_trained": 362400, "grad_time_ms": 372.928, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 440.8446960449219, "policy_loss": -0.1764705777168274, "vf_explained_var": 0.03883038088679314, "entropy": 10.327861785888672, "cur_lr": 4.999999873689376e-05, "total_loss": 440.6927185058594, "kl": 0.016116444021463394}, "load_time_ms": 0.664, "num_steps_sampled": 362400, "update_time_ms": 2.526}, "training_iteration": 302, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.85328984260559, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 362400, "timesteps_total": 362400, "custom_metrics": {}, "iterations_since_restore": 302, "episodes_this_iter": 41, "episode_reward_min": -90.85085832516624, "date": "2025-09-04_19-21-17", "episode_reward_max": 6.000016819112087, "pid": 3651948, "timestamp": 1757006477, "episode_reward_mean": -40.31461772771617, "time_total_s": 11304.162751197815, "episodes_total": 8857, "episode_len_mean": 27.8}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 11337.90143108368, "info": {"sample_time_ms": 33691.236, "num_steps_trained": 363600, "grad_time_ms": 373.751, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 488.3429870605469, "policy_loss": -0.17381690442562103, "vf_explained_var": 0.00864805094897747, "entropy": 10.813539505004883, "cur_lr": 4.999999873689376e-05, "total_loss": 488.19244384765625, "kl": 0.015300876460969448}, "load_time_ms": 0.677, "num_steps_sampled": 363600, "update_time_ms": 2.546}, "training_iteration": 303, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.73867988586426, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 363600, "timesteps_total": 363600, "custom_metrics": {}, "iterations_since_restore": 303, "episodes_this_iter": 49, "episode_reward_min": -90.38188123848992, "date": "2025-09-04_19-21-50", "episode_reward_max": 8.00014073366246, "pid": 3651948, "timestamp": 1757006510, "episode_reward_mean": -39.27054027924591, "time_total_s": 11337.90143108368, "episodes_total": 8906, "episode_len_mean": 27.24}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 11372.542692661285, "info": {"sample_time_ms": 33733.143, "num_steps_trained": 364800, "grad_time_ms": 372.899, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 452.9057312011719, "policy_loss": -0.17092859745025635, "vf_explained_var": 0.041277069598436356, "entropy": 10.396652221679688, "cur_lr": 4.999999873689376e-05, "total_loss": 452.75872802734375, "kl": 0.015768442302942276}, "load_time_ms": 0.679, "num_steps_sampled": 364800, "update_time_ms": 2.516}, "training_iteration": 304, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.6412615776062, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 364800, "timesteps_total": 364800, "custom_metrics": {}, "iterations_since_restore": 304, "episodes_this_iter": 45, "episode_reward_min": -90.7861691416485, "date": "2025-09-04_19-22-25", "episode_reward_max": 8.00014073366246, "pid": 3651948, "timestamp": 1757006545, "episode_reward_mean": -36.5787179220657, "time_total_s": 11372.542692661285, "episodes_total": 8951, "episode_len_mean": 25.85}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 11406.358407497406, "info": {"sample_time_ms": 33733.764, "num_steps_trained": 366000, "grad_time_ms": 371.583, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 446.9495849609375, "policy_loss": -0.17110978066921234, "vf_explained_var": 0.03779573738574982, "entropy": 10.373178482055664, "cur_lr": 4.999999873689376e-05, "total_loss": 446.8055419921875, "kl": 0.0178191140294075}, "load_time_ms": 0.676, "num_steps_sampled": 366000, "update_time_ms": 2.511}, "training_iteration": 305, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.815714836120605, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 366000, "timesteps_total": 366000, "custom_metrics": {}, "iterations_since_restore": 305, "episodes_this_iter": 39, "episode_reward_min": -92.60063372662192, "date": "2025-09-04_19-22-59", "episode_reward_max": 6.000007229369329, "pid": 3651948, "timestamp": 1757006579, "episode_reward_mean": -39.96323283805395, "time_total_s": 11406.358407497406, "episodes_total": 8990, "episode_len_mean": 27.7}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 11439.82025885582, "info": {"sample_time_ms": 33585.514, "num_steps_trained": 367200, "grad_time_ms": 372.256, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 436.24420166015625, "policy_loss": -0.17119070887565613, "vf_explained_var": 0.0166848823428154, "entropy": 10.841540336608887, "cur_lr": 4.999999873689376e-05, "total_loss": 436.0961608886719, "kl": 0.015268008224666119}, "load_time_ms": 0.686, "num_steps_sampled": 367200, "update_time_ms": 2.526}, "training_iteration": 306, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.461851358413696, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 367200, "timesteps_total": 367200, "custom_metrics": {}, "iterations_since_restore": 306, "episodes_this_iter": 41, "episode_reward_min": -92.60063372662192, "date": "2025-09-04_19-23-32", "episode_reward_max": 6.000004586562605, "pid": 3651948, "timestamp": 1757006612, "episode_reward_mean": -40.937305473336274, "time_total_s": 11439.82025885582, "episodes_total": 9031, "episode_len_mean": 28.35}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 11474.576438903809, "info": {"sample_time_ms": 33611.464, "num_steps_trained": 368400, "grad_time_ms": 371.401, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 468.3873291015625, "policy_loss": -0.16533058881759644, "vf_explained_var": 0.018551025539636612, "entropy": 10.50613021850586, "cur_lr": 4.999999873689376e-05, "total_loss": 468.24755859375, "kl": 0.016813894733786583}, "load_time_ms": 0.684, "num_steps_sampled": 368400, "update_time_ms": 2.529}, "training_iteration": 307, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.75618004798889, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 368400, "timesteps_total": 368400, "custom_metrics": {}, "iterations_since_restore": 307, "episodes_this_iter": 48, "episode_reward_min": -92.60063372662192, "date": "2025-09-04_19-24-07", "episode_reward_max": 8.000000400007286, "pid": 3651948, "timestamp": 1757006647, "episode_reward_mean": -41.111321091324605, "time_total_s": 11474.576438903809, "episodes_total": 9079, "episode_len_mean": 28.19}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 11509.679752349854, "info": {"sample_time_ms": 33741.183, "num_steps_trained": 369600, "grad_time_ms": 370.742, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 470.12060546875, "policy_loss": -0.18637312948703766, "vf_explained_var": 0.030650615692138672, "entropy": 10.451064109802246, "cur_lr": 4.999999873689376e-05, "total_loss": 469.9599609375, "kl": 0.016943683847784996}, "load_time_ms": 0.695, "num_steps_sampled": 369600, "update_time_ms": 2.561}, "training_iteration": 308, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 35.10331344604492, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 369600, "timesteps_total": 369600, "custom_metrics": {}, "iterations_since_restore": 308, "episodes_this_iter": 51, "episode_reward_min": -91.00169171281546, "date": "2025-09-04_19-24-42", "episode_reward_max": 8.000000400007286, "pid": 3651948, "timestamp": 1757006682, "episode_reward_mean": -34.03625109420629, "time_total_s": 11509.679752349854, "episodes_total": 9130, "episode_len_mean": 24.58}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 11543.63292002678, "info": {"sample_time_ms": 33807.24, "num_steps_trained": 370800, "grad_time_ms": 369.547, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 442.1883239746094, "policy_loss": -0.1690937876701355, "vf_explained_var": 0.02821219712495804, "entropy": 10.33169174194336, "cur_lr": 4.999999873689376e-05, "total_loss": 442.0450744628906, "kl": 0.017036719247698784}, "load_time_ms": 0.696, "num_steps_sampled": 370800, "update_time_ms": 2.551}, "training_iteration": 309, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.95316767692566, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 370800, "timesteps_total": 370800, "custom_metrics": {}, "iterations_since_restore": 309, "episodes_this_iter": 47, "episode_reward_min": -90.53602674662793, "date": "2025-09-04_19-25-16", "episode_reward_max": 8.000000798729044, "pid": 3651948, "timestamp": 1757006716, "episode_reward_mean": -34.02483593865472, "time_total_s": 11543.63292002678, "episodes_total": 9177, "episode_len_mean": 24.64}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 11579.952924489975, "info": {"sample_time_ms": 33982.89, "num_steps_trained": 372000, "grad_time_ms": 369.496, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 454.09228515625, "policy_loss": -0.1684252768754959, "vf_explained_var": 0.023490898311138153, "entropy": 10.880743980407715, "cur_lr": 4.999999873689376e-05, "total_loss": 453.9481506347656, "kl": 0.01598125509917736}, "load_time_ms": 0.699, "num_steps_sampled": 372000, "update_time_ms": 2.593}, "training_iteration": 310, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 36.3200044631958, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 372000, "timesteps_total": 372000, "custom_metrics": {}, "iterations_since_restore": 310, "episodes_this_iter": 39, "episode_reward_min": -90.92068676932722, "date": "2025-09-04_19-25-52", "episode_reward_max": 8.000000862998787, "pid": 3651948, "timestamp": 1757006752, "episode_reward_mean": -39.42615856737131, "time_total_s": 11579.952924489975, "episodes_total": 9216, "episode_len_mean": 27.46}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 11614.5580804348, "info": {"sample_time_ms": 34047.864, "num_steps_trained": 373200, "grad_time_ms": 369.15, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 457.7786560058594, "policy_loss": -0.1775304675102234, "vf_explained_var": 0.0441647432744503, "entropy": 10.423691749572754, "cur_lr": 4.999999873689376e-05, "total_loss": 457.62640380859375, "kl": 0.016661131754517555}, "load_time_ms": 0.698, "num_steps_sampled": 373200, "update_time_ms": 2.534}, "training_iteration": 311, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.60515594482422, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 373200, "timesteps_total": 373200, "custom_metrics": {}, "iterations_since_restore": 311, "episodes_this_iter": 42, "episode_reward_min": -90.92068676932722, "date": "2025-09-04_19-26-27", "episode_reward_max": 8.000000862998787, "pid": 3651948, "timestamp": 1757006787, "episode_reward_mean": -43.4336529885708, "time_total_s": 11614.5580804348, "episodes_total": 9258, "episode_len_mean": 29.6}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 11649.249782562256, "info": {"sample_time_ms": 34131.489, "num_steps_trained": 374400, "grad_time_ms": 369.354, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 432.60369873046875, "policy_loss": -0.17828994989395142, "vf_explained_var": 0.022118397057056427, "entropy": 10.850200653076172, "cur_lr": 4.999999873689376e-05, "total_loss": 432.4488220214844, "kl": 0.015431063249707222}, "load_time_ms": 0.718, "num_steps_sampled": 374400, "update_time_ms": 2.521}, "training_iteration": 312, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.691702127456665, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 374400, "timesteps_total": 374400, "custom_metrics": {}, "iterations_since_restore": 312, "episodes_this_iter": 40, "episode_reward_min": -90.92068676932722, "date": "2025-09-04_19-27-02", "episode_reward_max": 6.000735919372879, "pid": 3651948, "timestamp": 1757006822, "episode_reward_mean": -42.25150743222122, "time_total_s": 11649.249782562256, "episodes_total": 9298, "episode_len_mean": 29.17}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 11682.78334569931, "info": {"sample_time_ms": 34111.719, "num_steps_trained": 375600, "grad_time_ms": 368.598, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 459.1776123046875, "policy_loss": -0.16833318769931793, "vf_explained_var": 0.026400724425911903, "entropy": 10.802581787109375, "cur_lr": 4.999999873689376e-05, "total_loss": 459.03466796875, "kl": 0.016738150268793106}, "load_time_ms": 0.704, "num_steps_sampled": 375600, "update_time_ms": 2.515}, "training_iteration": 313, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.53356313705444, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 375600, "timesteps_total": 375600, "custom_metrics": {}, "iterations_since_restore": 313, "episodes_this_iter": 42, "episode_reward_min": -91.18932892772914, "date": "2025-09-04_19-27-35", "episode_reward_max": 6.000122607347135, "pid": 3651948, "timestamp": 1757006855, "episode_reward_mean": -41.76542683120597, "time_total_s": 11682.78334569931, "episodes_total": 9340, "episode_len_mean": 28.87}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 11716.662359952927, "info": {"sample_time_ms": 34033.137, "num_steps_trained": 376800, "grad_time_ms": 370.927, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 485.48138427734375, "policy_loss": -0.17875385284423828, "vf_explained_var": 0.027348611503839493, "entropy": 10.68716812133789, "cur_lr": 4.999999873689376e-05, "total_loss": 485.32855224609375, "kl": 0.01707782968878746}, "load_time_ms": 0.704, "num_steps_sampled": 376800, "update_time_ms": 2.547}, "training_iteration": 314, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.87901425361633, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 376800, "timesteps_total": 376800, "custom_metrics": {}, "iterations_since_restore": 314, "episodes_this_iter": 42, "episode_reward_min": -91.18932892772914, "date": "2025-09-04_19-28-09", "episode_reward_max": 6.000089715762789, "pid": 3651948, "timestamp": 1757006889, "episode_reward_mean": -40.81040170179933, "time_total_s": 11716.662359952927, "episodes_total": 9382, "episode_len_mean": 28.27}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 11751.556572198868, "info": {"sample_time_ms": 34139.255, "num_steps_trained": 378000, "grad_time_ms": 372.558, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 476.6417541503906, "policy_loss": -0.17584042251110077, "vf_explained_var": 0.024531476199626923, "entropy": 10.380701065063477, "cur_lr": 4.999999873689376e-05, "total_loss": 476.48974609375, "kl": 0.015712270513176918}, "load_time_ms": 0.71, "num_steps_sampled": 378000, "update_time_ms": 2.589}, "training_iteration": 315, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.89421224594116, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 378000, "timesteps_total": 378000, "custom_metrics": {}, "iterations_since_restore": 315, "episodes_this_iter": 42, "episode_reward_min": -91.48104105416093, "date": "2025-09-04_19-28-44", "episode_reward_max": 4.0007128072887825, "pid": 3651948, "timestamp": 1757006924, "episode_reward_mean": -41.17581426210382, "time_total_s": 11751.556572198868, "episodes_total": 9424, "episode_len_mean": 28.3}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 11785.116604804993, "info": {"sample_time_ms": 34150.172, "num_steps_trained": 379200, "grad_time_ms": 371.473, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 384.29254150390625, "policy_loss": -0.1812402904033661, "vf_explained_var": 0.0466405488550663, "entropy": 10.41860294342041, "cur_lr": 4.999999873689376e-05, "total_loss": 384.13897705078125, "kl": 0.018215632066130638}, "load_time_ms": 0.7, "num_steps_sampled": 379200, "update_time_ms": 2.611}, "training_iteration": 316, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.56003260612488, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 379200, "timesteps_total": 379200, "custom_metrics": {}, "iterations_since_restore": 316, "episodes_this_iter": 51, "episode_reward_min": -91.48104105416093, "date": "2025-09-04_19-29-18", "episode_reward_max": 8.000002855581583, "pid": 3651948, "timestamp": 1757006958, "episode_reward_mean": -37.85689061438333, "time_total_s": 11785.116604804993, "episodes_total": 9475, "episode_len_mean": 26.68}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 11819.322497367859, "info": {"sample_time_ms": 34095.459, "num_steps_trained": 380400, "grad_time_ms": 371.202, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 415.83062744140625, "policy_loss": -0.17209358513355255, "vf_explained_var": 0.027635348960757256, "entropy": 10.5113525390625, "cur_lr": 4.999999873689376e-05, "total_loss": 415.6828918457031, "kl": 0.016044579446315765}, "load_time_ms": 0.696, "num_steps_sampled": 380400, "update_time_ms": 2.583}, "training_iteration": 317, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.20589256286621, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 380400, "timesteps_total": 380400, "custom_metrics": {}, "iterations_since_restore": 317, "episodes_this_iter": 51, "episode_reward_min": -88.86592084271396, "date": "2025-09-04_19-29-52", "episode_reward_max": 8.00008632033351, "pid": 3651948, "timestamp": 1757006992, "episode_reward_mean": -31.692435923445323, "time_total_s": 11819.322497367859, "episodes_total": 9526, "episode_len_mean": 23.74}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 11853.869593143463, "info": {"sample_time_ms": 34041.677, "num_steps_trained": 381600, "grad_time_ms": 369.43, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 425.4674072265625, "policy_loss": -0.1668584793806076, "vf_explained_var": 0.018289612606167793, "entropy": 10.087419509887695, "cur_lr": 4.999999873689376e-05, "total_loss": 425.3260192871094, "kl": 0.016720084473490715}, "load_time_ms": 0.678, "num_steps_sampled": 381600, "update_time_ms": 2.542}, "training_iteration": 318, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.54709577560425, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 381600, "timesteps_total": 381600, "custom_metrics": {}, "iterations_since_restore": 318, "episodes_this_iter": 53, "episode_reward_min": -88.86592084271396, "date": "2025-09-04_19-30-27", "episode_reward_max": 8.000000403908986, "pid": 3651948, "timestamp": 1757007027, "episode_reward_mean": -29.71029033445762, "time_total_s": 11853.869593143463, "episodes_total": 9579, "episode_len_mean": 22.75}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 11887.57539987564, "info": {"sample_time_ms": 34015.048, "num_steps_trained": 382800, "grad_time_ms": 371.326, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 417.201171875, "policy_loss": -0.17120924592018127, "vf_explained_var": 0.034845318645238876, "entropy": 10.042140007019043, "cur_lr": 4.999999873689376e-05, "total_loss": 417.05718994140625, "kl": 0.017931900918483734}, "load_time_ms": 0.68, "num_steps_sampled": 382800, "update_time_ms": 2.521}, "training_iteration": 319, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.705806732177734, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 382800, "timesteps_total": 382800, "custom_metrics": {}, "iterations_since_restore": 319, "episodes_this_iter": 40, "episode_reward_min": -90.3618584300389, "date": "2025-09-04_19-31-00", "episode_reward_max": 8.000088781906566, "pid": 3651948, "timestamp": 1757007060, "episode_reward_mean": -35.939346751680006, "time_total_s": 11887.57539987564, "episodes_total": 9619, "episode_len_mean": 25.8}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 11921.361751317978, "info": {"sample_time_ms": 33761.574, "num_steps_trained": 384000, "grad_time_ms": 371.469, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 457.16656494140625, "policy_loss": -0.18198245763778687, "vf_explained_var": 0.013436595909297466, "entropy": 10.356392860412598, "cur_lr": 4.999999873689376e-05, "total_loss": 457.0089416503906, "kl": 0.01606649160385132}, "load_time_ms": 0.681, "num_steps_sampled": 384000, "update_time_ms": 2.496}, "training_iteration": 320, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.786351442337036, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 384000, "timesteps_total": 384000, "custom_metrics": {}, "iterations_since_restore": 320, "episodes_this_iter": 48, "episode_reward_min": -90.3618584300389, "date": "2025-09-04_19-31-34", "episode_reward_max": 10.0, "pid": 3651948, "timestamp": 1757007094, "episode_reward_mean": -37.11216717509862, "time_total_s": 11921.361751317978, "episodes_total": 9667, "episode_len_mean": 26.4}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 11956.108426094055, "info": {"sample_time_ms": 33773.094, "num_steps_trained": 385200, "grad_time_ms": 374.036, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 386.59881591796875, "policy_loss": -0.16370391845703125, "vf_explained_var": 0.02832198143005371, "entropy": 9.846466064453125, "cur_lr": 4.999999873689376e-05, "total_loss": 386.4592590332031, "kl": 0.015905356034636497}, "load_time_ms": 0.692, "num_steps_sampled": 385200, "update_time_ms": 2.5}, "training_iteration": 321, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.74667477607727, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 385200, "timesteps_total": 385200, "custom_metrics": {}, "iterations_since_restore": 321, "episodes_this_iter": 59, "episode_reward_min": -88.47117760721373, "date": "2025-09-04_19-32-09", "episode_reward_max": 10.0, "pid": 3651948, "timestamp": 1757007129, "episode_reward_mean": -28.40865093339731, "time_total_s": 11956.108426094055, "episodes_total": 9726, "episode_len_mean": 22.03}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 11989.999118328094, "info": {"sample_time_ms": 33693.055, "num_steps_trained": 386400, "grad_time_ms": 373.996, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 372.04437255859375, "policy_loss": -0.16547948122024536, "vf_explained_var": 0.043456368148326874, "entropy": 10.279644012451172, "cur_lr": 4.999999873689376e-05, "total_loss": 371.90472412109375, "kl": 0.016999872401356697}, "load_time_ms": 0.679, "num_steps_sampled": 386400, "update_time_ms": 2.53}, "training_iteration": 322, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.89069223403931, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 386400, "timesteps_total": 386400, "custom_metrics": {}, "iterations_since_restore": 322, "episodes_this_iter": 40, "episode_reward_min": -89.53242538543225, "date": "2025-09-04_19-32-43", "episode_reward_max": 8.000425996567381, "pid": 3651948, "timestamp": 1757007163, "episode_reward_mean": -32.815327842877174, "time_total_s": 11989.999118328094, "episodes_total": 9766, "episode_len_mean": 24.51}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 12024.175191640854, "info": {"sample_time_ms": 33757.041, "num_steps_trained": 387600, "grad_time_ms": 374.23, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 489.5959167480469, "policy_loss": -0.1738227903842926, "vf_explained_var": 0.023348549380898476, "entropy": 10.526703834533691, "cur_lr": 4.999999873689376e-05, "total_loss": 489.4485778808594, "kl": 0.01741768978536129}, "load_time_ms": 0.697, "num_steps_sampled": 387600, "update_time_ms": 2.52}, "training_iteration": 323, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.1760733127594, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 387600, "timesteps_total": 387600, "custom_metrics": {}, "iterations_since_restore": 323, "episodes_this_iter": 52, "episode_reward_min": -89.53242538543225, "date": "2025-09-04_19-33-17", "episode_reward_max": 8.001431129957744, "pid": 3651948, "timestamp": 1757007197, "episode_reward_mean": -34.47625280541841, "time_total_s": 12024.175191640854, "episodes_total": 9818, "episode_len_mean": 25.18}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 12059.069237470627, "info": {"sample_time_ms": 33860.581, "num_steps_trained": 388800, "grad_time_ms": 372.195, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 440.6160888671875, "policy_loss": -0.18319621682167053, "vf_explained_var": 0.03996426612138748, "entropy": 10.28986930847168, "cur_lr": 4.999999873689376e-05, "total_loss": 440.45819091796875, "kl": 0.01664073020219803}, "load_time_ms": 0.699, "num_steps_sampled": 388800, "update_time_ms": 2.511}, "training_iteration": 324, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.89404582977295, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 388800, "timesteps_total": 388800, "custom_metrics": {}, "iterations_since_restore": 324, "episodes_this_iter": 44, "episode_reward_min": -89.8807812709613, "date": "2025-09-04_19-33-52", "episode_reward_max": 8.001431129957744, "pid": 3651948, "timestamp": 1757007232, "episode_reward_mean": -34.75706033933923, "time_total_s": 12059.069237470627, "episodes_total": 9862, "episode_len_mean": 25.01}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 12093.288192510605, "info": {"sample_time_ms": 33793.196, "num_steps_trained": 390000, "grad_time_ms": 372.144, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 507.6988525390625, "policy_loss": -0.17963431775569916, "vf_explained_var": 0.016723016276955605, "entropy": 10.052237510681152, "cur_lr": 4.999999873689376e-05, "total_loss": 507.5438232421875, "kl": 0.01622912287712097}, "load_time_ms": 0.702, "num_steps_sampled": 390000, "update_time_ms": 2.472}, "training_iteration": 325, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.21895503997803, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 390000, "timesteps_total": 390000, "custom_metrics": {}, "iterations_since_restore": 325, "episodes_this_iter": 42, "episode_reward_min": -89.8807812709613, "date": "2025-09-04_19-34-26", "episode_reward_max": 8.001431129957744, "pid": 3651948, "timestamp": 1757007266, "episode_reward_mean": -36.93958016580334, "time_total_s": 12093.288192510605, "episodes_total": 9904, "episode_len_mean": 26.11}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 12127.234577655792, "info": {"sample_time_ms": 33833.444, "num_steps_trained": 391200, "grad_time_ms": 370.617, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 478.32574462890625, "policy_loss": -0.16879968345165253, "vf_explained_var": 0.04178478196263313, "entropy": 9.682168960571289, "cur_lr": 4.999999873689376e-05, "total_loss": 478.1843566894531, "kl": 0.018091507256031036}, "load_time_ms": 0.689, "num_steps_sampled": 391200, "update_time_ms": 2.442}, "training_iteration": 326, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.94638514518738, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 391200, "timesteps_total": 391200, "custom_metrics": {}, "iterations_since_restore": 326, "episodes_this_iter": 48, "episode_reward_min": -90.19253982500018, "date": "2025-09-04_19-35-00", "episode_reward_max": 6.000000800106407, "pid": 3651948, "timestamp": 1757007300, "episode_reward_mean": -37.00160192012961, "time_total_s": 12127.234577655792, "episodes_total": 9952, "episode_len_mean": 26.28}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 12161.142486095428, "info": {"sample_time_ms": 33802.232, "num_steps_trained": 392400, "grad_time_ms": 371.967, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 454.6077880859375, "policy_loss": -0.18222576379776, "vf_explained_var": 0.03381510451436043, "entropy": 10.573821067810059, "cur_lr": 4.999999873689376e-05, "total_loss": 454.4508056640625, "kl": 0.0166572667658329}, "load_time_ms": 0.696, "num_steps_sampled": 392400, "update_time_ms": 2.491}, "training_iteration": 327, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.90790843963623, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 392400, "timesteps_total": 392400, "custom_metrics": {}, "iterations_since_restore": 327, "episodes_this_iter": 43, "episode_reward_min": -91.57674154747771, "date": "2025-09-04_19-35-34", "episode_reward_max": 6.00000411929137, "pid": 3651948, "timestamp": 1757007334, "episode_reward_mean": -39.444600090042655, "time_total_s": 12161.142486095428, "episodes_total": 9995, "episode_len_mean": 27.34}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 12194.925875902176, "info": {"sample_time_ms": 33723.657, "num_steps_trained": 393600, "grad_time_ms": 374.075, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 458.1942138671875, "policy_loss": -0.1842077076435089, "vf_explained_var": 0.03987787663936615, "entropy": 10.133516311645508, "cur_lr": 4.999999873689376e-05, "total_loss": 458.0357971191406, "kl": 0.016979089006781578}, "load_time_ms": 0.698, "num_steps_sampled": 393600, "update_time_ms": 2.536}, "training_iteration": 328, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.78338980674744, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 393600, "timesteps_total": 393600, "custom_metrics": {}, "iterations_since_restore": 328, "episodes_this_iter": 52, "episode_reward_min": -91.57674154747771, "date": "2025-09-04_19-36-08", "episode_reward_max": 8.000056522565014, "pid": 3651948, "timestamp": 1757007368, "episode_reward_mean": -36.65842037138543, "time_total_s": 12194.925875902176, "episodes_total": 10047, "episode_len_mean": 25.97}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 12228.733886957169, "info": {"sample_time_ms": 33736.663, "num_steps_trained": 394800, "grad_time_ms": 371.248, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 393.3811950683594, "policy_loss": -0.17357520759105682, "vf_explained_var": 0.0357980877161026, "entropy": 10.196868896484375, "cur_lr": 4.999999873689376e-05, "total_loss": 393.2325744628906, "kl": 0.016411934047937393}, "load_time_ms": 0.694, "num_steps_sampled": 394800, "update_time_ms": 2.613}, "training_iteration": 329, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.808011054992676, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 394800, "timesteps_total": 394800, "custom_metrics": {}, "iterations_since_restore": 329, "episodes_this_iter": 51, "episode_reward_min": -91.04302995749633, "date": "2025-09-04_19-36-42", "episode_reward_max": 8.000056522565014, "pid": 3651948, "timestamp": 1757007402, "episode_reward_mean": -30.52933196730402, "time_total_s": 12228.733886957169, "episodes_total": 10098, "episode_len_mean": 22.97}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 12262.225366592407, "info": {"sample_time_ms": 33705.83, "num_steps_trained": 396000, "grad_time_ms": 372.564, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 460.1976013183594, "policy_loss": -0.16239674389362335, "vf_explained_var": 0.028911564499139786, "entropy": 9.807985305786133, "cur_lr": 4.999999873689376e-05, "total_loss": 460.06298828125, "kl": 0.018334100022912025}, "load_time_ms": 0.697, "num_steps_sampled": 396000, "update_time_ms": 2.616}, "training_iteration": 330, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.49147963523865, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 396000, "timesteps_total": 396000, "custom_metrics": {}, "iterations_since_restore": 330, "episodes_this_iter": 54, "episode_reward_min": -91.04302995749633, "date": "2025-09-04_19-37-15", "episode_reward_max": 8.000016476484692, "pid": 3651948, "timestamp": 1757007435, "episode_reward_mean": -29.211292415069355, "time_total_s": 12262.225366592407, "episodes_total": 10152, "episode_len_mean": 22.39}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 12295.86148929596, "info": {"sample_time_ms": 33596.572, "num_steps_trained": 397200, "grad_time_ms": 370.79, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 444.2686462402344, "policy_loss": -0.18200664222240448, "vf_explained_var": 0.02418290264904499, "entropy": 10.006134033203125, "cur_lr": 4.999999873689376e-05, "total_loss": 444.1136474609375, "kl": 0.017796959728002548}, "load_time_ms": 0.69, "num_steps_sampled": 397200, "update_time_ms": 2.642}, "training_iteration": 331, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.636122703552246, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 397200, "timesteps_total": 397200, "custom_metrics": {}, "iterations_since_restore": 331, "episodes_this_iter": 49, "episode_reward_min": -92.5131862655504, "date": "2025-09-04_19-37-49", "episode_reward_max": 8.000016476484692, "pid": 3651948, "timestamp": 1757007469, "episode_reward_mean": -31.506307522804214, "time_total_s": 12295.86148929596, "episodes_total": 10201, "episode_len_mean": 23.42}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 12329.590245008469, "info": {"sample_time_ms": 33579.446, "num_steps_trained": 398400, "grad_time_ms": 371.749, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 420.9778747558594, "policy_loss": -0.1725282073020935, "vf_explained_var": 0.03219058737158775, "entropy": 10.413145065307617, "cur_lr": 4.999999873689376e-05, "total_loss": 420.8314208984375, "kl": 0.017172694206237793}, "load_time_ms": 0.686, "num_steps_sampled": 398400, "update_time_ms": 2.614}, "training_iteration": 332, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.728755712509155, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 398400, "timesteps_total": 398400, "custom_metrics": {}, "iterations_since_restore": 332, "episodes_this_iter": 52, "episode_reward_min": -92.5131862655504, "date": "2025-09-04_19-38-23", "episode_reward_max": 8.00000079838559, "pid": 3651948, "timestamp": 1757007503, "episode_reward_mean": -31.67599185907574, "time_total_s": 12329.590245008469, "episodes_total": 10253, "episode_len_mean": 23.77}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 12363.33668923378, "info": {"sample_time_ms": 33537.076, "num_steps_trained": 399600, "grad_time_ms": 371.145, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 411.8221130371094, "policy_loss": -0.17770729959011078, "vf_explained_var": 0.023092150688171387, "entropy": 9.869694709777832, "cur_lr": 4.999999873689376e-05, "total_loss": 411.67071533203125, "kl": 0.017328284680843353}, "load_time_ms": 0.68, "num_steps_sampled": 399600, "update_time_ms": 2.624}, "training_iteration": 333, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.74644422531128, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 399600, "timesteps_total": 399600, "custom_metrics": {}, "iterations_since_restore": 333, "episodes_this_iter": 48, "episode_reward_min": -90.46378407689798, "date": "2025-09-04_19-38-56", "episode_reward_max": 8.000012068655842, "pid": 3651948, "timestamp": 1757007536, "episode_reward_mean": -31.981388016325546, "time_total_s": 12363.33668923378, "episodes_total": 10301, "episode_len_mean": 23.92}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 12396.86396741867, "info": {"sample_time_ms": 33400.582, "num_steps_trained": 400800, "grad_time_ms": 370.955, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 413.9346923828125, "policy_loss": -0.17096306383609772, "vf_explained_var": 0.029395541176199913, "entropy": 10.063179016113281, "cur_lr": 4.999999873689376e-05, "total_loss": 413.7904968261719, "kl": 0.017636030912399292}, "load_time_ms": 0.679, "num_steps_sampled": 400800, "update_time_ms": 2.625}, "training_iteration": 334, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.52727818489075, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 400800, "timesteps_total": 400800, "custom_metrics": {}, "iterations_since_restore": 334, "episodes_this_iter": 53, "episode_reward_min": -90.15161401563806, "date": "2025-09-04_19-39-30", "episode_reward_max": 8.000012068655842, "pid": 3651948, "timestamp": 1757007570, "episode_reward_mean": -31.55424944512829, "time_total_s": 12396.86396741867, "episodes_total": 10354, "episode_len_mean": 23.56}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 12431.238450527191, "info": {"sample_time_ms": 33416.36, "num_steps_trained": 402000, "grad_time_ms": 370.713, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 399.13482666015625, "policy_loss": -0.17379695177078247, "vf_explained_var": 0.027004705742001534, "entropy": 9.99160099029541, "cur_lr": 4.999999873689376e-05, "total_loss": 398.9884033203125, "kl": 0.018025698140263557}, "load_time_ms": 0.67, "num_steps_sampled": 402000, "update_time_ms": 2.643}, "training_iteration": 335, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.37448310852051, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 402000, "timesteps_total": 402000, "custom_metrics": {}, "iterations_since_restore": 335, "episodes_this_iter": 47, "episode_reward_min": -89.7706388726001, "date": "2025-09-04_19-40-04", "episode_reward_max": 8.000003450078843, "pid": 3651948, "timestamp": 1757007604, "episode_reward_mean": -32.67628960781086, "time_total_s": 12431.238450527191, "episodes_total": 10401, "episode_len_mean": 24.22}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 12466.360349416733, "info": {"sample_time_ms": 33534.046, "num_steps_trained": 403200, "grad_time_ms": 370.576, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 462.3807067871094, "policy_loss": -0.17687784135341644, "vf_explained_var": 0.03196879103779793, "entropy": 9.953373908996582, "cur_lr": 4.999999873689376e-05, "total_loss": 462.2281494140625, "kl": 0.016013547778129578}, "load_time_ms": 0.667, "num_steps_sampled": 403200, "update_time_ms": 2.637}, "training_iteration": 336, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 35.121898889541626, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 403200, "timesteps_total": 403200, "custom_metrics": {}, "iterations_since_restore": 336, "episodes_this_iter": 48, "episode_reward_min": -90.71343893449779, "date": "2025-09-04_19-40-39", "episode_reward_max": 8.000039580994097, "pid": 3651948, "timestamp": 1757007639, "episode_reward_mean": -34.02233865251927, "time_total_s": 12466.360349416733, "episodes_total": 10449, "episode_len_mean": 24.92}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 12500.164155006409, "info": {"sample_time_ms": 33524.415, "num_steps_trained": 404400, "grad_time_ms": 369.817, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 405.3450927734375, "policy_loss": -0.15513576567173004, "vf_explained_var": 0.04755732789635658, "entropy": 9.821985244750977, "cur_lr": 4.999999873689376e-05, "total_loss": 405.2188720703125, "kl": 0.019034268334507942}, "load_time_ms": 0.674, "num_steps_sampled": 404400, "update_time_ms": 2.591}, "training_iteration": 337, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.8038055896759, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 404400, "timesteps_total": 404400, "custom_metrics": {}, "iterations_since_restore": 337, "episodes_this_iter": 53, "episode_reward_min": -90.71343893449779, "date": "2025-09-04_19-41-13", "episode_reward_max": 8.000175876177645, "pid": 3651948, "timestamp": 1757007673, "episode_reward_mean": -30.839615923559972, "time_total_s": 12500.164155006409, "episodes_total": 10502, "episode_len_mean": 23.29}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 12534.323317050934, "info": {"sample_time_ms": 33560.971, "num_steps_trained": 405600, "grad_time_ms": 370.799, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 423.502197265625, "policy_loss": -0.1640964299440384, "vf_explained_var": 0.02169586531817913, "entropy": 10.113418579101562, "cur_lr": 4.999999873689376e-05, "total_loss": 423.36187744140625, "kl": 0.015655517578125}, "load_time_ms": 0.694, "num_steps_sampled": 405600, "update_time_ms": 2.569}, "training_iteration": 338, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.15916204452515, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 405600, "timesteps_total": 405600, "custom_metrics": {}, "iterations_since_restore": 338, "episodes_this_iter": 59, "episode_reward_min": -88.64704893157999, "date": "2025-09-04_19-41-47", "episode_reward_max": 8.000175876177645, "pid": 3651948, "timestamp": 1757007707, "episode_reward_mean": -29.41639047896397, "time_total_s": 12534.323317050934, "episodes_total": 10561, "episode_len_mean": 22.53}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 12569.255161523819, "info": {"sample_time_ms": 33671.241, "num_steps_trained": 406800, "grad_time_ms": 372.866, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 383.4759216308594, "policy_loss": -0.17542091012001038, "vf_explained_var": 0.035720545798540115, "entropy": 9.911641120910645, "cur_lr": 4.999999873689376e-05, "total_loss": 383.3271484375, "kl": 0.0175609327852726}, "load_time_ms": 0.699, "num_steps_sampled": 406800, "update_time_ms": 2.558}, "training_iteration": 339, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.93184447288513, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 406800, "timesteps_total": 406800, "custom_metrics": {}, "iterations_since_restore": 339, "episodes_this_iter": 54, "episode_reward_min": -88.95639733666384, "date": "2025-09-04_19-42-22", "episode_reward_max": 8.000058437428255, "pid": 3651948, "timestamp": 1757007742, "episode_reward_mean": -27.918244561996463, "time_total_s": 12569.255161523819, "episodes_total": 10615, "episode_len_mean": 21.57}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 12603.29483294487, "info": {"sample_time_ms": 33726.576, "num_steps_trained": 408000, "grad_time_ms": 372.281, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 403.29644775390625, "policy_loss": -0.1811588853597641, "vf_explained_var": 0.0359710268676281, "entropy": 10.170073509216309, "cur_lr": 4.999999873689376e-05, "total_loss": 403.1409912109375, "kl": 0.016941126435995102}, "load_time_ms": 0.707, "num_steps_sampled": 408000, "update_time_ms": 2.58}, "training_iteration": 340, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.039671421051025, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 408000, "timesteps_total": 408000, "custom_metrics": {}, "iterations_since_restore": 340, "episodes_this_iter": 57, "episode_reward_min": -88.95639733666384, "date": "2025-09-04_19-42-56", "episode_reward_max": 8.000000400035175, "pid": 3651948, "timestamp": 1757007776, "episode_reward_mean": -29.118594932413465, "time_total_s": 12603.29483294487, "episodes_total": 10672, "episode_len_mean": 22.42}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 12637.108101844788, "info": {"sample_time_ms": 33743.381, "num_steps_trained": 409200, "grad_time_ms": 373.145, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 424.63726806640625, "policy_loss": -0.16347110271453857, "vf_explained_var": 0.01010894775390625, "entropy": 9.663955688476562, "cur_lr": 4.999999873689376e-05, "total_loss": 424.49853515625, "kl": 0.01630197837948799}, "load_time_ms": 0.705, "num_steps_sampled": 409200, "update_time_ms": 2.578}, "training_iteration": 341, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.8132688999176, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 409200, "timesteps_total": 409200, "custom_metrics": {}, "iterations_since_restore": 341, "episodes_this_iter": 53, "episode_reward_min": -90.20769829520017, "date": "2025-09-04_19-43-30", "episode_reward_max": 6.00013661095259, "pid": 3651948, "timestamp": 1757007810, "episode_reward_mean": -27.016400122087536, "time_total_s": 12637.108101844788, "episodes_total": 10725, "episode_len_mean": 21.22}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 12671.506431818008, "info": {"sample_time_ms": 33811.34, "num_steps_trained": 410400, "grad_time_ms": 372.123, "default": {"cur_kl_coeff": 1.5187499523162842, "vf_loss": 449.7720642089844, "policy_loss": -0.16926951706409454, "vf_explained_var": 0.023888012394309044, "entropy": 10.053503036499023, "cur_lr": 4.999999873689376e-05, "total_loss": 449.6346435546875, "kl": 0.020978741347789764}, "load_time_ms": 0.703, "num_steps_sampled": 410400, "update_time_ms": 2.601}, "training_iteration": 342, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.398329973220825, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 410400, "timesteps_total": 410400, "custom_metrics": {}, "iterations_since_restore": 342, "episodes_this_iter": 53, "episode_reward_min": -91.16869126360704, "date": "2025-09-04_19-44-05", "episode_reward_max": 6.000537418055949, "pid": 3651948, "timestamp": 1757007845, "episode_reward_mean": -30.113403214695477, "time_total_s": 12671.506431818008, "episodes_total": 10778, "episode_len_mean": 22.61}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 12705.677307367325, "info": {"sample_time_ms": 33852.925, "num_steps_trained": 411600, "grad_time_ms": 373.041, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 439.0072021484375, "policy_loss": -0.16299201548099518, "vf_explained_var": 0.03032485581934452, "entropy": 9.606775283813477, "cur_lr": 4.999999873689376e-05, "total_loss": 438.87518310546875, "kl": 0.013596983626484871}, "load_time_ms": 0.693, "num_steps_sampled": 411600, "update_time_ms": 2.607}, "training_iteration": 343, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.170875549316406, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 411600, "timesteps_total": 411600, "custom_metrics": {}, "iterations_since_restore": 343, "episodes_this_iter": 48, "episode_reward_min": -91.6940993715843, "date": "2025-09-04_19-44-39", "episode_reward_max": 6.000537418055949, "pid": 3651948, "timestamp": 1757007879, "episode_reward_mean": -32.992714094059394, "time_total_s": 12705.677307367325, "episodes_total": 10826, "episode_len_mean": 24.04}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 12739.35609960556, "info": {"sample_time_ms": 33866.384, "num_steps_trained": 412800, "grad_time_ms": 374.732, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 446.5347595214844, "policy_loss": -0.1601501703262329, "vf_explained_var": 0.03740853816270828, "entropy": 9.86202621459961, "cur_lr": 4.999999873689376e-05, "total_loss": 446.40704345703125, "kl": 0.014236312359571457}, "load_time_ms": 0.691, "num_steps_sampled": 412800, "update_time_ms": 2.584}, "training_iteration": 344, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.678792238235474, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 412800, "timesteps_total": 412800, "custom_metrics": {}, "iterations_since_restore": 344, "episodes_this_iter": 49, "episode_reward_min": -91.6940993715843, "date": "2025-09-04_19-45-13", "episode_reward_max": 8.000000558693417, "pid": 3651948, "timestamp": 1757007913, "episode_reward_mean": -33.83636061839598, "time_total_s": 12739.35609960556, "episodes_total": 10875, "episode_len_mean": 24.63}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 12774.302807807922, "info": {"sample_time_ms": 33925.112, "num_steps_trained": 414000, "grad_time_ms": 373.227, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 488.3459167480469, "policy_loss": -0.15767335891723633, "vf_explained_var": 0.021632233634591103, "entropy": 9.496479988098145, "cur_lr": 4.999999873689376e-05, "total_loss": 488.2213439941406, "kl": 0.014542263001203537}, "load_time_ms": 0.69, "num_steps_sampled": 414000, "update_time_ms": 2.588}, "training_iteration": 345, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.94670820236206, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 414000, "timesteps_total": 414000, "custom_metrics": {}, "iterations_since_restore": 345, "episodes_this_iter": 45, "episode_reward_min": -93.34928755288458, "date": "2025-09-04_19-45-48", "episode_reward_max": 8.000000558693417, "pid": 3651948, "timestamp": 1757007948, "episode_reward_mean": -34.39253631504618, "time_total_s": 12774.302807807922, "episodes_total": 10920, "episode_len_mean": 24.92}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 12808.581895112991, "info": {"sample_time_ms": 33838.976, "num_steps_trained": 415200, "grad_time_ms": 375.046, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 492.27984619140625, "policy_loss": -0.1693073809146881, "vf_explained_var": 0.02376851812005043, "entropy": 9.99674129486084, "cur_lr": 4.999999873689376e-05, "total_loss": 492.14208984375, "kl": 0.013864864595234394}, "load_time_ms": 0.694, "num_steps_sampled": 415200, "update_time_ms": 2.58}, "training_iteration": 346, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.27908730506897, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 415200, "timesteps_total": 415200, "custom_metrics": {}, "iterations_since_restore": 346, "episodes_this_iter": 56, "episode_reward_min": -93.34928755288458, "date": "2025-09-04_19-46-22", "episode_reward_max": 8.000000400000136, "pid": 3651948, "timestamp": 1757007982, "episode_reward_mean": -31.76091932012032, "time_total_s": 12808.581895112991, "episodes_total": 10976, "episode_len_mean": 23.41}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 12842.978868246078, "info": {"sample_time_ms": 33900.113, "num_steps_trained": 416400, "grad_time_ms": 373.212, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 410.708740234375, "policy_loss": -0.16634632647037506, "vf_explained_var": 0.02237485535442829, "entropy": 9.893744468688965, "cur_lr": 4.999999873689376e-05, "total_loss": 410.57379150390625, "kl": 0.013760336674749851}, "load_time_ms": 0.683, "num_steps_sampled": 416400, "update_time_ms": 2.613}, "training_iteration": 347, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.39697313308716, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 416400, "timesteps_total": 416400, "custom_metrics": {}, "iterations_since_restore": 347, "episodes_this_iter": 52, "episode_reward_min": -91.73648583108125, "date": "2025-09-04_19-46-56", "episode_reward_max": 8.000025663690788, "pid": 3651948, "timestamp": 1757008016, "episode_reward_mean": -27.793360037345355, "time_total_s": 12842.978868246078, "episodes_total": 11028, "episode_len_mean": 21.75}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 12876.585081338882, "info": {"sample_time_ms": 33845.898, "num_steps_trained": 417600, "grad_time_ms": 372.207, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 476.0789794921875, "policy_loss": -0.17810894548892975, "vf_explained_var": 0.021973775699734688, "entropy": 10.166853904724121, "cur_lr": 4.999999873689376e-05, "total_loss": 475.93109130859375, "kl": 0.013259019702672958}, "load_time_ms": 0.672, "num_steps_sampled": 417600, "update_time_ms": 2.604}, "training_iteration": 348, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.606213092803955, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 417600, "timesteps_total": 417600, "custom_metrics": {}, "iterations_since_restore": 348, "episodes_this_iter": 47, "episode_reward_min": -88.64009437858603, "date": "2025-09-04_19-47-30", "episode_reward_max": 8.000025663690788, "pid": 3651948, "timestamp": 1757008050, "episode_reward_mean": -32.03545341435674, "time_total_s": 12876.585081338882, "episodes_total": 11075, "episode_len_mean": 24.11}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 12911.08446264267, "info": {"sample_time_ms": 33803.342, "num_steps_trained": 418800, "grad_time_ms": 371.594, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 453.6725769042969, "policy_loss": -0.16002562642097473, "vf_explained_var": 0.01317038107663393, "entropy": 9.815576553344727, "cur_lr": 4.999999873689376e-05, "total_loss": 453.5440673828125, "kl": 0.013857332058250904}, "load_time_ms": 0.669, "num_steps_sampled": 418800, "update_time_ms": 2.589}, "training_iteration": 349, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.49938130378723, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 418800, "timesteps_total": 418800, "custom_metrics": {}, "iterations_since_restore": 349, "episodes_this_iter": 55, "episode_reward_min": -90.00761375590767, "date": "2025-09-04_19-48-04", "episode_reward_max": 8.000005925901757, "pid": 3651948, "timestamp": 1757008084, "episode_reward_mean": -30.707022201649437, "time_total_s": 12911.08446264267, "episodes_total": 11130, "episode_len_mean": 23.22}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 12945.261041402817, "info": {"sample_time_ms": 33817.869, "num_steps_trained": 420000, "grad_time_ms": 370.853, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 407.9132995605469, "policy_loss": -0.16499578952789307, "vf_explained_var": 0.03471194952726364, "entropy": 9.714946746826172, "cur_lr": 4.999999873689376e-05, "total_loss": 407.78009033203125, "kl": 0.013945111073553562}, "load_time_ms": 0.66, "num_steps_sampled": 420000, "update_time_ms": 2.544}, "training_iteration": 350, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.176578760147095, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 420000, "timesteps_total": 420000, "custom_metrics": {}, "iterations_since_restore": 350, "episodes_this_iter": 51, "episode_reward_min": -90.00761375590767, "date": "2025-09-04_19-48-39", "episode_reward_max": 8.000005925901757, "pid": 3651948, "timestamp": 1757008119, "episode_reward_mean": -30.900000083980526, "time_total_s": 12945.261041402817, "episodes_total": 11181, "episode_len_mean": 23.31}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 12979.243041276932, "info": {"sample_time_ms": 33834.387, "num_steps_trained": 421200, "grad_time_ms": 371.215, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 537.1176147460938, "policy_loss": -0.17601019144058228, "vf_explained_var": 0.02266140840947628, "entropy": 9.728290557861328, "cur_lr": 4.999999873689376e-05, "total_loss": 536.9721069335938, "kl": 0.01338786631822586}, "load_time_ms": 0.677, "num_steps_sampled": 421200, "update_time_ms": 2.534}, "training_iteration": 351, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.98199987411499, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 421200, "timesteps_total": 421200, "custom_metrics": {}, "iterations_since_restore": 351, "episodes_this_iter": 48, "episode_reward_min": -90.79064585737844, "date": "2025-09-04_19-49-13", "episode_reward_max": 8.000002448755124, "pid": 3651948, "timestamp": 1757008153, "episode_reward_mean": -33.23412642428405, "time_total_s": 12979.243041276932, "episodes_total": 11229, "episode_len_mean": 24.62}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 13014.3508746624, "info": {"sample_time_ms": 33905.471, "num_steps_trained": 422400, "grad_time_ms": 370.991, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 408.62109375, "policy_loss": -0.16284993290901184, "vf_explained_var": 0.02897910214960575, "entropy": 9.529528617858887, "cur_lr": 4.999999873689376e-05, "total_loss": 408.4875793457031, "kl": 0.012877307832241058}, "load_time_ms": 0.686, "num_steps_sampled": 422400, "update_time_ms": 2.538}, "training_iteration": 352, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 35.10783338546753, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 422400, "timesteps_total": 422400, "custom_metrics": {}, "iterations_since_restore": 352, "episodes_this_iter": 51, "episode_reward_min": -90.79064585737844, "date": "2025-09-04_19-49-48", "episode_reward_max": 8.001778770566665, "pid": 3651948, "timestamp": 1757008188, "episode_reward_mean": -32.80922522194475, "time_total_s": 13014.3508746624, "episodes_total": 11280, "episode_len_mean": 24.32}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 13048.411231994629, "info": {"sample_time_ms": 33894.548, "num_steps_trained": 423600, "grad_time_ms": 370.781, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 435.6541442871094, "policy_loss": -0.16300548613071442, "vf_explained_var": 0.023583777248859406, "entropy": 9.866662979125977, "cur_lr": 4.999999873689376e-05, "total_loss": 435.5221252441406, "kl": 0.013616513460874557}, "load_time_ms": 0.697, "num_steps_sampled": 423600, "update_time_ms": 2.544}, "training_iteration": 353, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.060357332229614, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 423600, "timesteps_total": 423600, "custom_metrics": {}, "iterations_since_restore": 353, "episodes_this_iter": 52, "episode_reward_min": -89.77622935353544, "date": "2025-09-04_19-50-22", "episode_reward_max": 8.001778770566665, "pid": 3651948, "timestamp": 1757008222, "episode_reward_mean": -29.7972654921513, "time_total_s": 13048.411231994629, "episodes_total": 11332, "episode_len_mean": 22.84}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 13082.31562924385, "info": {"sample_time_ms": 33916.361, "num_steps_trained": 424800, "grad_time_ms": 371.457, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 426.9761047363281, "policy_loss": -0.17525018751621246, "vf_explained_var": 0.03275012969970703, "entropy": 9.468761444091797, "cur_lr": 4.999999873689376e-05, "total_loss": 426.8311462402344, "kl": 0.013292660936713219}, "load_time_ms": 0.706, "num_steps_sampled": 424800, "update_time_ms": 2.595}, "training_iteration": 354, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 33.9043972492218, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 424800, "timesteps_total": 424800, "custom_metrics": {}, "iterations_since_restore": 354, "episodes_this_iter": 55, "episode_reward_min": -89.38275743036891, "date": "2025-09-04_19-50-56", "episode_reward_max": 8.002367688676628, "pid": 3651948, "timestamp": 1757008256, "episode_reward_mean": -29.41284275895553, "time_total_s": 13082.31562924385, "episodes_total": 11387, "episode_len_mean": 22.39}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 13116.891928434372, "info": {"sample_time_ms": 33879.38, "num_steps_trained": 426000, "grad_time_ms": 371.365, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 413.310302734375, "policy_loss": -0.16663283109664917, "vf_explained_var": 0.02166224829852581, "entropy": 9.784157752990723, "cur_lr": 4.999999873689376e-05, "total_loss": 413.1813049316406, "kl": 0.016536220908164978}, "load_time_ms": 0.706, "num_steps_sampled": 426000, "update_time_ms": 2.631}, "training_iteration": 355, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.57629919052124, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 426000, "timesteps_total": 426000, "custom_metrics": {}, "iterations_since_restore": 355, "episodes_this_iter": 50, "episode_reward_min": -90.10231683526233, "date": "2025-09-04_19-51-30", "episode_reward_max": 8.002367688676628, "pid": 3651948, "timestamp": 1757008290, "episode_reward_mean": -29.290278504249542, "time_total_s": 13116.891928434372, "episodes_total": 11437, "episode_len_mean": 22.49}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 13151.868121147156, "info": {"sample_time_ms": 33947.937, "num_steps_trained": 427200, "grad_time_ms": 372.465, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 486.1282958984375, "policy_loss": -0.17111438512802124, "vf_explained_var": 0.014239702373743057, "entropy": 9.42212200164795, "cur_lr": 4.999999873689376e-05, "total_loss": 485.98779296875, "kl": 0.013429854065179825}, "load_time_ms": 0.718, "num_steps_sampled": 427200, "update_time_ms": 2.635}, "training_iteration": 356, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.97619271278381, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 427200, "timesteps_total": 427200, "custom_metrics": {}, "iterations_since_restore": 356, "episodes_this_iter": 54, "episode_reward_min": -90.10231683526233, "date": "2025-09-04_19-52-05", "episode_reward_max": 8.000029955293169, "pid": 3651948, "timestamp": 1757008325, "episode_reward_mean": -29.83568825574139, "time_total_s": 13151.868121147156, "episodes_total": 11491, "episode_len_mean": 22.68}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 13186.134541034698, "info": {"sample_time_ms": 33932.595, "num_steps_trained": 428400, "grad_time_ms": 374.671, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 427.9323425292969, "policy_loss": -0.16929209232330322, "vf_explained_var": 0.01650114171206951, "entropy": 9.972504615783691, "cur_lr": 4.999999873689376e-05, "total_loss": 427.7929992675781, "kl": 0.013160786591470242}, "load_time_ms": 0.715, "num_steps_sampled": 428400, "update_time_ms": 2.638}, "training_iteration": 357, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 34.266419887542725, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 428400, "timesteps_total": 428400, "custom_metrics": {}, "iterations_since_restore": 357, "episodes_this_iter": 51, "episode_reward_min": -88.82757409968143, "date": "2025-09-04_19-52-40", "episode_reward_max": 8.000629019591925, "pid": 3651948, "timestamp": 1757008360, "episode_reward_mean": -30.30186789684934, "time_total_s": 13186.134541034698, "episodes_total": 11542, "episode_len_mean": 23.02}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 13221.57733464241, "info": {"sample_time_ms": 34117.193, "num_steps_trained": 429600, "grad_time_ms": 373.729, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 398.54595947265625, "policy_loss": -0.17490650713443756, "vf_explained_var": 0.026144007220864296, "entropy": 9.909229278564453, "cur_lr": 4.999999873689376e-05, "total_loss": 398.4010925292969, "kl": 0.01319141685962677}, "load_time_ms": 0.709, "num_steps_sampled": 429600, "update_time_ms": 2.68}, "training_iteration": 358, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 35.44279360771179, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 429600, "timesteps_total": 429600, "custom_metrics": {}, "iterations_since_restore": 358, "episodes_this_iter": 47, "episode_reward_min": -91.63522504734092, "date": "2025-09-04_19-53-15", "episode_reward_max": 8.000629019591925, "pid": 3651948, "timestamp": 1757008395, "episode_reward_mean": -33.281730390489905, "time_total_s": 13221.57733464241, "episodes_total": 11589, "episode_len_mean": 24.82}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 13261.919956684113, "info": {"sample_time_ms": 34701.109, "num_steps_trained": 430800, "grad_time_ms": 374.187, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 452.0755615234375, "policy_loss": -0.16567420959472656, "vf_explained_var": 0.030823178589344025, "entropy": 9.092144966125488, "cur_lr": 4.999999873689376e-05, "total_loss": 451.9403991699219, "kl": 0.01339884102344513}, "load_time_ms": 0.722, "num_steps_sampled": 430800, "update_time_ms": 2.628}, "training_iteration": 359, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.34262204170227, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 430800, "timesteps_total": 430800, "custom_metrics": {}, "iterations_since_restore": 359, "episodes_this_iter": 47, "episode_reward_min": -91.82475131787795, "date": "2025-09-04_19-53-55", "episode_reward_max": 8.000045128377083, "pid": 3651948, "timestamp": 1757008435, "episode_reward_mean": -32.980668447373354, "time_total_s": 13261.919956684113, "episodes_total": 11636, "episode_len_mean": 24.54}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 13302.515436410904, "info": {"sample_time_ms": 35340.513, "num_steps_trained": 432000, "grad_time_ms": 376.642, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 337.7193298339844, "policy_loss": -0.17150822281837463, "vf_explained_var": 0.06921210139989853, "entropy": 9.250479698181152, "cur_lr": 4.999999873689376e-05, "total_loss": 337.5768127441406, "kl": 0.01273456308990717}, "load_time_ms": 0.724, "num_steps_sampled": 432000, "update_time_ms": 2.642}, "training_iteration": 360, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.59547972679138, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 432000, "timesteps_total": 432000, "custom_metrics": {}, "iterations_since_restore": 360, "episodes_this_iter": 52, "episode_reward_min": -91.82475131787795, "date": "2025-09-04_19-54-36", "episode_reward_max": 6.0000902681365496, "pid": 3651948, "timestamp": 1757008476, "episode_reward_mean": -33.06721707520575, "time_total_s": 13302.515436410904, "episodes_total": 11688, "episode_len_mean": 24.49}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 13343.17271733284, "info": {"sample_time_ms": 36010.026, "num_steps_trained": 433200, "grad_time_ms": 374.677, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 418.0478820800781, "policy_loss": -0.14703959226608276, "vf_explained_var": 0.011033753864467144, "entropy": 10.082448959350586, "cur_lr": 4.999999873689376e-05, "total_loss": 417.92901611328125, "kl": 0.012359730899333954}, "load_time_ms": 0.709, "num_steps_sampled": 433200, "update_time_ms": 2.679}, "training_iteration": 361, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.657280921936035, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 433200, "timesteps_total": 433200, "custom_metrics": {}, "iterations_since_restore": 361, "episodes_this_iter": 52, "episode_reward_min": -89.92808180406912, "date": "2025-09-04_19-55-17", "episode_reward_max": 6.000208357574652, "pid": 3651948, "timestamp": 1757008517, "episode_reward_mean": -29.601588486112334, "time_total_s": 13343.17271733284, "episodes_total": 11740, "episode_len_mean": 22.67}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 13383.87813782692, "info": {"sample_time_ms": 36569.48, "num_steps_trained": 434400, "grad_time_ms": 375.044, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 423.71539306640625, "policy_loss": -0.15861457586288452, "vf_explained_var": 0.03651801869273186, "entropy": 9.447165489196777, "cur_lr": 4.999999873689376e-05, "total_loss": 423.5886535644531, "kl": 0.013986926525831223}, "load_time_ms": 0.719, "num_steps_sampled": 434400, "update_time_ms": 2.637}, "training_iteration": 362, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.70542049407959, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 434400, "timesteps_total": 434400, "custom_metrics": {}, "iterations_since_restore": 362, "episodes_this_iter": 50, "episode_reward_min": -89.92808180406912, "date": "2025-09-04_19-55-58", "episode_reward_max": 8.000000400012878, "pid": 3651948, "timestamp": 1757008558, "episode_reward_mean": -30.085141804347266, "time_total_s": 13383.87813782692, "episodes_total": 11790, "episode_len_mean": 22.97}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 13424.643053531647, "info": {"sample_time_ms": 37240.139, "num_steps_trained": 435600, "grad_time_ms": 374.911, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 517.852294921875, "policy_loss": -0.15835538506507874, "vf_explained_var": 0.014234628528356552, "entropy": 9.38388442993164, "cur_lr": 4.999999873689376e-05, "total_loss": 517.7247314453125, "kl": 0.013516398146748543}, "load_time_ms": 0.704, "num_steps_sampled": 435600, "update_time_ms": 2.648}, "training_iteration": 363, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.76491570472717, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 435600, "timesteps_total": 435600, "custom_metrics": {}, "iterations_since_restore": 363, "episodes_this_iter": 51, "episode_reward_min": -90.54177969504582, "date": "2025-09-04_19-56-38", "episode_reward_max": 8.000000953335292, "pid": 3651948, "timestamp": 1757008598, "episode_reward_mean": -32.38749691000124, "time_total_s": 13424.643053531647, "episodes_total": 11841, "episode_len_mean": 24.02}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 13465.295440912247, "info": {"sample_time_ms": 37915.171, "num_steps_trained": 436800, "grad_time_ms": 374.717, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 351.9696350097656, "policy_loss": -0.16030652821063995, "vf_explained_var": 0.03496674820780754, "entropy": 9.348217964172363, "cur_lr": 4.999999873689376e-05, "total_loss": 351.8398132324219, "kl": 0.013371977023780346}, "load_time_ms": 0.706, "num_steps_sampled": 436800, "update_time_ms": 2.635}, "training_iteration": 364, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.652387380599976, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 436800, "timesteps_total": 436800, "custom_metrics": {}, "iterations_since_restore": 364, "episodes_this_iter": 50, "episode_reward_min": -90.54177969504582, "date": "2025-09-04_19-57-19", "episode_reward_max": 8.000000953335292, "pid": 3651948, "timestamp": 1757008639, "episode_reward_mean": -32.644767126636886, "time_total_s": 13465.295440912247, "episodes_total": 11891, "episode_len_mean": 24.3}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 13506.65328836441, "info": {"sample_time_ms": 38593.073, "num_steps_trained": 438000, "grad_time_ms": 375.016, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 417.3665771484375, "policy_loss": -0.1613299399614334, "vf_explained_var": 0.03704684227705002, "entropy": 9.711258888244629, "cur_lr": 4.999999873689376e-05, "total_loss": 417.2366027832031, "kl": 0.013744776137173176}, "load_time_ms": 0.709, "num_steps_sampled": 438000, "update_time_ms": 2.588}, "training_iteration": 365, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.357847452163696, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 438000, "timesteps_total": 438000, "custom_metrics": {}, "iterations_since_restore": 365, "episodes_this_iter": 57, "episode_reward_min": -90.32940556313206, "date": "2025-09-04_19-58-00", "episode_reward_max": 8.000000515834063, "pid": 3651948, "timestamp": 1757008680, "episode_reward_mean": -29.322009071777508, "time_total_s": 13506.65328836441, "episodes_total": 11948, "episode_len_mean": 22.72}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 13547.770455598831, "info": {"sample_time_ms": 39210.356, "num_steps_trained": 439200, "grad_time_ms": 371.913, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 422.9631652832031, "policy_loss": -0.1678367406129837, "vf_explained_var": 0.015686094760894775, "entropy": 9.463945388793945, "cur_lr": 4.999999873689376e-05, "total_loss": 422.8275146484375, "kl": 0.014120825566351414}, "load_time_ms": 0.694, "num_steps_sampled": 439200, "update_time_ms": 2.593}, "training_iteration": 366, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.117167234420776, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 439200, "timesteps_total": 439200, "custom_metrics": {}, "iterations_since_restore": 366, "episodes_this_iter": 51, "episode_reward_min": -90.5094447473157, "date": "2025-09-04_19-58-42", "episode_reward_max": 8.000001058500953, "pid": 3651948, "timestamp": 1757008722, "episode_reward_mean": -28.59939437734714, "time_total_s": 13547.770455598831, "episodes_total": 11999, "episode_len_mean": 22.21}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 13589.815601110458, "info": {"sample_time_ms": 39991.09, "num_steps_trained": 440400, "grad_time_ms": 369.185, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 399.17279052734375, "policy_loss": -0.16194237768650055, "vf_explained_var": 0.03682759031653404, "entropy": 9.822941780090332, "cur_lr": 4.999999873689376e-05, "total_loss": 399.04144287109375, "kl": 0.01344168558716774}, "load_time_ms": 0.693, "num_steps_sampled": 440400, "update_time_ms": 2.552}, "training_iteration": 367, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.0451455116272, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 440400, "timesteps_total": 440400, "custom_metrics": {}, "iterations_since_restore": 367, "episodes_this_iter": 63, "episode_reward_min": -90.5094447473157, "date": "2025-09-04_19-59-24", "episode_reward_max": 8.000102789460353, "pid": 3651948, "timestamp": 1757008764, "episode_reward_mean": -25.033929352215065, "time_total_s": 13589.815601110458, "episodes_total": 12062, "episode_len_mean": 20.45}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 13631.255574464798, "info": {"sample_time_ms": 40592.363, "num_steps_trained": 441600, "grad_time_ms": 367.641, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 358.0179443359375, "policy_loss": -0.17408449947834015, "vf_explained_var": 0.042325105518102646, "entropy": 9.080735206604004, "cur_lr": 4.999999873689376e-05, "total_loss": 357.87310791015625, "kl": 0.01283906027674675}, "load_time_ms": 0.694, "num_steps_sampled": 441600, "update_time_ms": 2.485}, "training_iteration": 368, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.4399733543396, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 441600, "timesteps_total": 441600, "custom_metrics": {}, "iterations_since_restore": 368, "episodes_this_iter": 65, "episode_reward_min": -87.88851058948934, "date": "2025-09-04_20-00-05", "episode_reward_max": 8.000062048492094, "pid": 3651948, "timestamp": 1757008805, "episode_reward_mean": -24.182147381921666, "time_total_s": 13631.255574464798, "episodes_total": 12127, "episode_len_mean": 19.84}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 13672.156474590302, "info": {"sample_time_ms": 40650.12, "num_steps_trained": 442800, "grad_time_ms": 365.681, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 454.3436584472656, "policy_loss": -0.16536158323287964, "vf_explained_var": 0.009322080761194229, "entropy": 9.624226570129395, "cur_lr": 4.999999873689376e-05, "total_loss": 454.2071838378906, "kl": 0.012673533521592617}, "load_time_ms": 0.682, "num_steps_sampled": 442800, "update_time_ms": 2.532}, "training_iteration": 369, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.90090012550354, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 442800, "timesteps_total": 442800, "custom_metrics": {}, "iterations_since_restore": 369, "episodes_this_iter": 44, "episode_reward_min": -87.88851058948934, "date": "2025-09-04_20-00-46", "episode_reward_max": 8.000062048492094, "pid": 3651948, "timestamp": 1757008846, "episode_reward_mean": -28.460736643779697, "time_total_s": 13672.156474590302, "episodes_total": 12171, "episode_len_mean": 22.0}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 13713.61516404152, "info": {"sample_time_ms": 40736.241, "num_steps_trained": 444000, "grad_time_ms": 365.856, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 368.1820373535156, "policy_loss": -0.1646040827035904, "vf_explained_var": 0.02997763268649578, "entropy": 9.514936447143555, "cur_lr": 4.999999873689376e-05, "total_loss": 368.04901123046875, "kl": 0.01386441383510828}, "load_time_ms": 0.686, "num_steps_sampled": 444000, "update_time_ms": 2.515}, "training_iteration": 370, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.45868945121765, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 444000, "timesteps_total": 444000, "custom_metrics": {}, "iterations_since_restore": 370, "episodes_this_iter": 55, "episode_reward_min": -87.94120920451901, "date": "2025-09-04_20-01-27", "episode_reward_max": 8.000000643938543, "pid": 3651948, "timestamp": 1757008887, "episode_reward_mean": -32.296061636067925, "time_total_s": 13713.61516404152, "episodes_total": 12226, "episode_len_mean": 24.11}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 13754.44764304161, "info": {"sample_time_ms": 40752.545, "num_steps_trained": 445200, "grad_time_ms": 367.047, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 405.9430847167969, "policy_loss": -0.1600293219089508, "vf_explained_var": 0.024258123710751534, "entropy": 9.467537879943848, "cur_lr": 4.999999873689376e-05, "total_loss": 405.8106994628906, "kl": 0.012127561494708061}, "load_time_ms": 0.697, "num_steps_sampled": 445200, "update_time_ms": 2.503}, "training_iteration": 371, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.83247900009155, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 445200, "timesteps_total": 445200, "custom_metrics": {}, "iterations_since_restore": 371, "episodes_this_iter": 55, "episode_reward_min": -87.94120920451901, "date": "2025-09-04_20-02-08", "episode_reward_max": 8.000144909312752, "pid": 3651948, "timestamp": 1757008928, "episode_reward_mean": -28.713782958618218, "time_total_s": 13754.44764304161, "episodes_total": 12281, "episode_len_mean": 22.24}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 13795.328585147858, "info": {"sample_time_ms": 40770.655, "num_steps_trained": 446400, "grad_time_ms": 366.513, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 456.3870544433594, "policy_loss": -0.1620740294456482, "vf_explained_var": 0.01017056591808796, "entropy": 9.62911605834961, "cur_lr": 4.999999873689376e-05, "total_loss": 456.2552185058594, "kl": 0.013279477134346962}, "load_time_ms": 0.684, "num_steps_sampled": 446400, "update_time_ms": 2.523}, "training_iteration": 372, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.88094210624695, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 446400, "timesteps_total": 446400, "custom_metrics": {}, "iterations_since_restore": 372, "episodes_this_iter": 58, "episode_reward_min": -89.48098546853737, "date": "2025-09-04_20-02-49", "episode_reward_max": 8.000144909312752, "pid": 3651948, "timestamp": 1757008969, "episode_reward_mean": -25.558417428568774, "time_total_s": 13795.328585147858, "episodes_total": 12339, "episode_len_mean": 20.73}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 13836.142918586731, "info": {"sample_time_ms": 40775.215, "num_steps_trained": 447600, "grad_time_ms": 366.855, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 414.3948059082031, "policy_loss": -0.16606897115707397, "vf_explained_var": 0.0313444547355175, "entropy": 9.408416748046875, "cur_lr": 4.999999873689376e-05, "total_loss": 414.2598876953125, "kl": 0.013675946742296219}, "load_time_ms": 0.693, "num_steps_sampled": 447600, "update_time_ms": 2.502}, "training_iteration": 373, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.81433343887329, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 447600, "timesteps_total": 447600, "custom_metrics": {}, "iterations_since_restore": 373, "episodes_this_iter": 55, "episode_reward_min": -89.48098546853737, "date": "2025-09-04_20-03-30", "episode_reward_max": 8.000030911466938, "pid": 3651948, "timestamp": 1757009010, "episode_reward_mean": -26.950057909762915, "time_total_s": 13836.142918586731, "episodes_total": 12394, "episode_len_mean": 21.42}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 13876.879835128784, "info": {"sample_time_ms": 40783.808, "num_steps_trained": 448800, "grad_time_ms": 366.716, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 429.29058837890625, "policy_loss": -0.16602841019630432, "vf_explained_var": 0.02585785835981369, "entropy": 9.908772468566895, "cur_lr": 4.999999873689376e-05, "total_loss": 429.1557312011719, "kl": 0.01369208749383688}, "load_time_ms": 0.681, "num_steps_sampled": 448800, "update_time_ms": 2.509}, "training_iteration": 374, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.73691654205322, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 448800, "timesteps_total": 448800, "custom_metrics": {}, "iterations_since_restore": 374, "episodes_this_iter": 46, "episode_reward_min": -88.70048957065029, "date": "2025-09-04_20-04-11", "episode_reward_max": 8.00000041171073, "pid": 3651948, "timestamp": 1757009051, "episode_reward_mean": -31.440366763057263, "time_total_s": 13876.879835128784, "episodes_total": 12440, "episode_len_mean": 23.98}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 13917.71957039833, "info": {"sample_time_ms": 40732.519, "num_steps_trained": 450000, "grad_time_ms": 366.135, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 419.1043395996094, "policy_loss": -0.16186374425888062, "vf_explained_var": 0.018550297245383263, "entropy": 9.463047981262207, "cur_lr": 4.999999873689376e-05, "total_loss": 418.9734802246094, "kl": 0.01360340416431427}, "load_time_ms": 0.688, "num_steps_sampled": 450000, "update_time_ms": 2.533}, "training_iteration": 375, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.83973526954651, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 450000, "timesteps_total": 450000, "custom_metrics": {}, "iterations_since_restore": 375, "episodes_this_iter": 66, "episode_reward_min": -88.70048957065029, "date": "2025-09-04_20-04-52", "episode_reward_max": 8.000211419224676, "pid": 3651948, "timestamp": 1757009092, "episode_reward_mean": -26.563536613376524, "time_total_s": 13917.71957039833, "episodes_total": 12506, "episode_len_mean": 21.25}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 13958.300779104233, "info": {"sample_time_ms": 40678.661, "num_steps_trained": 451200, "grad_time_ms": 366.376, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 341.96826171875, "policy_loss": -0.16432610154151917, "vf_explained_var": 0.058409616351127625, "entropy": 9.503949165344238, "cur_lr": 4.999999873689376e-05, "total_loss": 341.83319091796875, "kl": 0.012845533899962902}, "load_time_ms": 0.69, "num_steps_sampled": 451200, "update_time_ms": 2.547}, "training_iteration": 376, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.5812087059021, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 451200, "timesteps_total": 451200, "custom_metrics": {}, "iterations_since_restore": 376, "episodes_this_iter": 51, "episode_reward_min": -88.40622192230724, "date": "2025-09-04_20-05-32", "episode_reward_max": 8.000211419224676, "pid": 3651948, "timestamp": 1757009132, "episode_reward_mean": -26.488740991512877, "time_total_s": 13958.300779104233, "episodes_total": 12557, "episode_len_mean": 21.14}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 13998.84181547165, "info": {"sample_time_ms": 40527.821, "num_steps_trained": 452400, "grad_time_ms": 366.813, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 400.8475036621094, "policy_loss": -0.14988702535629272, "vf_explained_var": 0.022728238254785538, "entropy": 9.669713973999023, "cur_lr": 4.999999873689376e-05, "total_loss": 400.728515625, "kl": 0.013556399382650852}, "load_time_ms": 0.696, "num_steps_sampled": 452400, "update_time_ms": 2.555}, "training_iteration": 377, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.54103636741638, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 452400, "timesteps_total": 452400, "custom_metrics": {}, "iterations_since_restore": 377, "episodes_this_iter": 55, "episode_reward_min": -90.1056422956086, "date": "2025-09-04_20-06-13", "episode_reward_max": 8.00056570814457, "pid": 3651948, "timestamp": 1757009173, "episode_reward_mean": -29.022988951470996, "time_total_s": 13998.84181547165, "episodes_total": 12612, "episode_len_mean": 22.47}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 14039.874541521072, "info": {"sample_time_ms": 40484.34, "num_steps_trained": 453600, "grad_time_ms": 369.549, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 316.0495910644531, "policy_loss": -0.1594245731830597, "vf_explained_var": 0.042283281683921814, "entropy": 9.659835815429688, "cur_lr": 4.999999873689376e-05, "total_loss": 315.9207458496094, "kl": 0.013414965011179447}, "load_time_ms": 0.696, "num_steps_sampled": 453600, "update_time_ms": 2.589}, "training_iteration": 378, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.03272604942322, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 453600, "timesteps_total": 453600, "custom_metrics": {}, "iterations_since_restore": 378, "episodes_this_iter": 57, "episode_reward_min": -90.1056422956086, "date": "2025-09-04_20-06-54", "episode_reward_max": 8.00056570814457, "pid": 3651948, "timestamp": 1757009214, "episode_reward_mean": -26.929301530074344, "time_total_s": 14039.874541521072, "episodes_total": 12669, "episode_len_mean": 21.38}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 14080.765124797821, "info": {"sample_time_ms": 40480.4, "num_steps_trained": 454800, "grad_time_ms": 372.458, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 435.4676818847656, "policy_loss": -0.1634068638086319, "vf_explained_var": 0.011056158691644669, "entropy": 9.445538520812988, "cur_lr": 4.999999873689376e-05, "total_loss": 435.33685302734375, "kl": 0.014295559376478195}, "load_time_ms": 0.698, "num_steps_sampled": 454800, "update_time_ms": 2.585}, "training_iteration": 379, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.89058327674866, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 454800, "timesteps_total": 454800, "custom_metrics": {}, "iterations_since_restore": 379, "episodes_this_iter": 52, "episode_reward_min": -87.64420739712868, "date": "2025-09-04_20-07-35", "episode_reward_max": 8.000242219782981, "pid": 3651948, "timestamp": 1757009255, "episode_reward_mean": -28.247261511853285, "time_total_s": 14080.765124797821, "episodes_total": 12721, "episode_len_mean": 22.07}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 14121.779526948929, "info": {"sample_time_ms": 40437.328, "num_steps_trained": 456000, "grad_time_ms": 371.061, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 386.6919250488281, "policy_loss": -0.1640903651714325, "vf_explained_var": 0.04491328448057175, "entropy": 9.564139366149902, "cur_lr": 4.999999873689376e-05, "total_loss": 386.5631103515625, "kl": 0.015498373657464981}, "load_time_ms": 0.684, "num_steps_sampled": 456000, "update_time_ms": 2.621}, "training_iteration": 380, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.01440215110779, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 456000, "timesteps_total": 456000, "custom_metrics": {}, "iterations_since_restore": 380, "episodes_this_iter": 58, "episode_reward_min": -88.34600534138386, "date": "2025-09-04_20-08-16", "episode_reward_max": 8.000242219782981, "pid": 3651948, "timestamp": 1757009296, "episode_reward_mean": -26.5321176185136, "time_total_s": 14121.779526948929, "episodes_total": 12779, "episode_len_mean": 21.23}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 14163.406922578812, "info": {"sample_time_ms": 40516.053, "num_steps_trained": 457200, "grad_time_ms": 371.811, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 426.4010009765625, "policy_loss": -0.1595669388771057, "vf_explained_var": 0.0193032156676054, "entropy": 9.629157066345215, "cur_lr": 4.999999873689376e-05, "total_loss": 426.2713623046875, "kl": 0.013127539306879044}, "load_time_ms": 0.675, "num_steps_sampled": 457200, "update_time_ms": 2.618}, "training_iteration": 381, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.62739562988281, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 457200, "timesteps_total": 457200, "custom_metrics": {}, "iterations_since_restore": 381, "episodes_this_iter": 55, "episode_reward_min": -88.34600534138386, "date": "2025-09-04_20-08-58", "episode_reward_max": 8.000000676992856, "pid": 3651948, "timestamp": 1757009338, "episode_reward_mean": -26.956296022717453, "time_total_s": 14163.406922578812, "episodes_total": 12834, "episode_len_mean": 21.46}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 14204.033453941345, "info": {"sample_time_ms": 40489.187, "num_steps_trained": 458400, "grad_time_ms": 373.168, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 369.1617736816406, "policy_loss": -0.16840365529060364, "vf_explained_var": 0.03676861524581909, "entropy": 9.394706726074219, "cur_lr": 4.999999873689376e-05, "total_loss": 369.0248718261719, "kl": 0.01381840929389}, "load_time_ms": 0.697, "num_steps_sampled": 458400, "update_time_ms": 2.656}, "training_iteration": 382, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.62653136253357, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 458400, "timesteps_total": 458400, "custom_metrics": {}, "iterations_since_restore": 382, "episodes_this_iter": 60, "episode_reward_min": -91.67659381090598, "date": "2025-09-04_20-09-38", "episode_reward_max": 8.000002013209494, "pid": 3651948, "timestamp": 1757009378, "episode_reward_mean": -24.28655712964201, "time_total_s": 14204.033453941345, "episodes_total": 12894, "episode_len_mean": 20.16}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 14244.760761737823, "info": {"sample_time_ms": 40481.404, "num_steps_trained": 459600, "grad_time_ms": 372.245, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 454.9277648925781, "policy_loss": -0.17204974591732025, "vf_explained_var": 0.0228937529027462, "entropy": 9.530159950256348, "cur_lr": 4.999999873689376e-05, "total_loss": 454.7872619628906, "kl": 0.013844618573784828}, "load_time_ms": 0.7, "num_steps_sampled": 459600, "update_time_ms": 2.673}, "training_iteration": 383, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.72730779647827, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 459600, "timesteps_total": 459600, "custom_metrics": {}, "iterations_since_restore": 383, "episodes_this_iter": 46, "episode_reward_min": -91.67659381090598, "date": "2025-09-04_20-10-19", "episode_reward_max": 8.000002013209494, "pid": 3651948, "timestamp": 1757009419, "episode_reward_mean": -30.569119944998008, "time_total_s": 14244.760761737823, "episodes_total": 12940, "episode_len_mean": 23.15}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 14285.703725337982, "info": {"sample_time_ms": 40503.776, "num_steps_trained": 460800, "grad_time_ms": 370.483, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 379.1144714355469, "policy_loss": -0.1502944678068161, "vf_explained_var": 0.02822817675769329, "entropy": 9.340314865112305, "cur_lr": 4.999999873689376e-05, "total_loss": 378.99749755859375, "kl": 0.014621545560657978}, "load_time_ms": 0.712, "num_steps_sampled": 460800, "update_time_ms": 2.648}, "training_iteration": 384, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.94296360015869, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 460800, "timesteps_total": 460800, "custom_metrics": {}, "iterations_since_restore": 384, "episodes_this_iter": 53, "episode_reward_min": -89.63771809272924, "date": "2025-09-04_20-11-00", "episode_reward_max": 8.000121973071964, "pid": 3651948, "timestamp": 1757009460, "episode_reward_mean": -31.947966056254174, "time_total_s": 14285.703725337982, "episodes_total": 12993, "episode_len_mean": 24.02}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 14326.910396814346, "info": {"sample_time_ms": 40538.964, "num_steps_trained": 462000, "grad_time_ms": 372.018, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 427.7789001464844, "policy_loss": -0.1649748533964157, "vf_explained_var": 0.02137676253914833, "entropy": 8.925230026245117, "cur_lr": 4.999999873689376e-05, "total_loss": 427.64898681640625, "kl": 0.015390059910714626}, "load_time_ms": 0.702, "num_steps_sampled": 462000, "update_time_ms": 2.624}, "training_iteration": 385, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.206671476364136, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 462000, "timesteps_total": 462000, "custom_metrics": {}, "iterations_since_restore": 385, "episodes_this_iter": 60, "episode_reward_min": -87.39165532447993, "date": "2025-09-04_20-11-41", "episode_reward_max": 8.000121973071964, "pid": 3651948, "timestamp": 1757009501, "episode_reward_mean": -25.95266022397698, "time_total_s": 14326.910396814346, "episodes_total": 13053, "episode_len_mean": 20.98}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 14367.425111293793, "info": {"sample_time_ms": 40531.064, "num_steps_trained": 463200, "grad_time_ms": 373.23, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 405.1592102050781, "policy_loss": -0.16958096623420715, "vf_explained_var": 0.03342774137854576, "entropy": 9.57955265045166, "cur_lr": 4.999999873689376e-05, "total_loss": 405.0227966308594, "kl": 0.014559010975062847}, "load_time_ms": 0.708, "num_steps_sampled": 463200, "update_time_ms": 2.611}, "training_iteration": 386, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.51471447944641, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 463200, "timesteps_total": 463200, "custom_metrics": {}, "iterations_since_restore": 386, "episodes_this_iter": 50, "episode_reward_min": -87.86350126831186, "date": "2025-09-04_20-12-22", "episode_reward_max": 6.0000964397704015, "pid": 3651948, "timestamp": 1757009542, "episode_reward_mean": -28.921221890397575, "time_total_s": 14367.425111293793, "episodes_total": 13103, "episode_len_mean": 22.53}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 14409.479347467422, "info": {"sample_time_ms": 40682.346, "num_steps_trained": 464400, "grad_time_ms": 373.202, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 447.49566650390625, "policy_loss": -0.16376593708992004, "vf_explained_var": 0.007484721019864082, "entropy": 9.31185531616211, "cur_lr": 4.999999873689376e-05, "total_loss": 447.3653259277344, "kl": 0.014663223177194595}, "load_time_ms": 0.706, "num_steps_sampled": 464400, "update_time_ms": 2.635}, "training_iteration": 387, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.05423617362976, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 464400, "timesteps_total": 464400, "custom_metrics": {}, "iterations_since_restore": 387, "episodes_this_iter": 51, "episode_reward_min": -89.42840434782649, "date": "2025-09-04_20-13-04", "episode_reward_max": 8.000000418458303, "pid": 3651948, "timestamp": 1757009584, "episode_reward_mean": -31.67022643060836, "time_total_s": 14409.479347467422, "episodes_total": 13154, "episode_len_mean": 23.57}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 14450.809123754501, "info": {"sample_time_ms": 40711.965, "num_steps_trained": 465600, "grad_time_ms": 373.285, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 395.99224853515625, "policy_loss": -0.16208644211292267, "vf_explained_var": 0.028500132262706757, "entropy": 8.899362564086914, "cur_lr": 4.999999873689376e-05, "total_loss": 395.8634033203125, "kl": 0.014577767811715603}, "load_time_ms": 0.72, "num_steps_sampled": 465600, "update_time_ms": 2.638}, "training_iteration": 388, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.32977628707886, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 465600, "timesteps_total": 465600, "custom_metrics": {}, "iterations_since_restore": 388, "episodes_this_iter": 67, "episode_reward_min": -90.16215763428154, "date": "2025-09-04_20-13-45", "episode_reward_max": 8.000110995598888, "pid": 3651948, "timestamp": 1757009625, "episode_reward_mean": -25.940163846362545, "time_total_s": 14450.809123754501, "episodes_total": 13221, "episode_len_mean": 20.32}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 14491.643397331238, "info": {"sample_time_ms": 40709.286, "num_steps_trained": 466800, "grad_time_ms": 370.361, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 403.9291076660156, "policy_loss": -0.16290004551410675, "vf_explained_var": 0.01675303839147091, "entropy": 9.276033401489258, "cur_lr": 4.999999873689376e-05, "total_loss": 403.7976989746094, "kl": 0.013814728707075119}, "load_time_ms": 0.723, "num_steps_sampled": 466800, "update_time_ms": 2.613}, "training_iteration": 389, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.83427357673645, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 466800, "timesteps_total": 466800, "custom_metrics": {}, "iterations_since_restore": 389, "episodes_this_iter": 53, "episode_reward_min": -90.16215763428154, "date": "2025-09-04_20-14-26", "episode_reward_max": 8.00134407488727, "pid": 3651948, "timestamp": 1757009666, "episode_reward_mean": -22.927386873399293, "time_total_s": 14491.643397331238, "episodes_total": 13274, "episode_len_mean": 19.03}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 14532.366207122803, "info": {"sample_time_ms": 40681.65, "num_steps_trained": 468000, "grad_time_ms": 368.945, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 429.4143371582031, "policy_loss": -0.16146515309810638, "vf_explained_var": 0.026131371036171913, "entropy": 9.468842506408691, "cur_lr": 4.999999873689376e-05, "total_loss": 429.2826843261719, "kl": 0.013080236501991749}, "load_time_ms": 0.723, "num_steps_sampled": 468000, "update_time_ms": 2.594}, "training_iteration": 390, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.72280979156494, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 468000, "timesteps_total": 468000, "custom_metrics": {}, "iterations_since_restore": 390, "episodes_this_iter": 45, "episode_reward_min": -90.54016901974268, "date": "2025-09-04_20-15-07", "episode_reward_max": 8.00134407488727, "pid": 3651948, "timestamp": 1757009707, "episode_reward_mean": -30.35186924277821, "time_total_s": 14532.366207122803, "episodes_total": 13319, "episode_len_mean": 23.24}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 14573.639463424683, "info": {"sample_time_ms": 40646.132, "num_steps_trained": 469200, "grad_time_ms": 369.035, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 487.1026916503906, "policy_loss": -0.1664435863494873, "vf_explained_var": 0.027938902378082275, "entropy": 9.025018692016602, "cur_lr": 4.999999873689376e-05, "total_loss": 486.9728088378906, "kl": 0.0160539373755455}, "load_time_ms": 0.729, "num_steps_sampled": 469200, "update_time_ms": 2.573}, "training_iteration": 391, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.27325630187988, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 469200, "timesteps_total": 469200, "custom_metrics": {}, "iterations_since_restore": 391, "episodes_this_iter": 60, "episode_reward_min": -90.54016901974268, "date": "2025-09-04_20-15-48", "episode_reward_max": 8.000111657128002, "pid": 3651948, "timestamp": 1757009748, "episode_reward_mean": -30.182975917074646, "time_total_s": 14573.639463424683, "episodes_total": 13379, "episode_len_mean": 22.94}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 14614.474596261978, "info": {"sample_time_ms": 40667.889, "num_steps_trained": 470400, "grad_time_ms": 368.189, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 321.1077575683594, "policy_loss": -0.164377361536026, "vf_explained_var": 0.019441213458776474, "entropy": 9.312178611755371, "cur_lr": 4.999999873689376e-05, "total_loss": 320.9761962890625, "kl": 0.014411866664886475}, "load_time_ms": 0.709, "num_steps_sampled": 470400, "update_time_ms": 2.529}, "training_iteration": 392, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.83513283729553, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 470400, "timesteps_total": 470400, "custom_metrics": {}, "iterations_since_restore": 392, "episodes_this_iter": 61, "episode_reward_min": -88.94411633292573, "date": "2025-09-04_20-16-29", "episode_reward_max": 8.00027034236108, "pid": 3651948, "timestamp": 1757009789, "episode_reward_mean": -22.698768921422488, "time_total_s": 14614.474596261978, "episodes_total": 13440, "episode_len_mean": 19.31}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 14655.467163801193, "info": {"sample_time_ms": 40696.22, "num_steps_trained": 471600, "grad_time_ms": 366.417, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 371.70098876953125, "policy_loss": -0.16502158343791962, "vf_explained_var": 0.02959388494491577, "entropy": 9.293415069580078, "cur_lr": 4.999999873689376e-05, "total_loss": 371.5666809082031, "kl": 0.013496254570782185}, "load_time_ms": 0.705, "num_steps_sampled": 471600, "update_time_ms": 2.528}, "training_iteration": 393, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.99256753921509, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 471600, "timesteps_total": 471600, "custom_metrics": {}, "iterations_since_restore": 393, "episodes_this_iter": 63, "episode_reward_min": -87.27054088007134, "date": "2025-09-04_20-17-10", "episode_reward_max": 8.002463732136958, "pid": 3651948, "timestamp": 1757009830, "episode_reward_mean": -22.09301271758532, "time_total_s": 14655.467163801193, "episodes_total": 13503, "episode_len_mean": 19.13}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 14696.118603467941, "info": {"sample_time_ms": 40666.56, "num_steps_trained": 472800, "grad_time_ms": 366.908, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 288.21826171875, "policy_loss": -0.1636689454317093, "vf_explained_var": 0.041789062321186066, "entropy": 9.057210922241211, "cur_lr": 4.999999873689376e-05, "total_loss": 288.0855712890625, "kl": 0.013619553297758102}, "load_time_ms": 0.703, "num_steps_sampled": 472800, "update_time_ms": 2.504}, "training_iteration": 394, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.65143966674805, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 472800, "timesteps_total": 472800, "custom_metrics": {}, "iterations_since_restore": 394, "episodes_this_iter": 65, "episode_reward_min": -87.27054088007134, "date": "2025-09-04_20-17-51", "episode_reward_max": 8.002463732136958, "pid": 3651948, "timestamp": 1757009871, "episode_reward_mean": -20.577291466937563, "time_total_s": 14696.118603467941, "episodes_total": 13568, "episode_len_mean": 18.27}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 14737.008077859879, "info": {"sample_time_ms": 40635.738, "num_steps_trained": 474000, "grad_time_ms": 366.008, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 371.5557861328125, "policy_loss": -0.15123039484024048, "vf_explained_var": 0.026034004986286163, "entropy": 8.815576553344727, "cur_lr": 4.999999873689376e-05, "total_loss": 371.4381103515625, "kl": 0.014736750163137913}, "load_time_ms": 0.705, "num_steps_sampled": 474000, "update_time_ms": 2.528}, "training_iteration": 395, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.889474391937256, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 474000, "timesteps_total": 474000, "custom_metrics": {}, "iterations_since_restore": 395, "episodes_this_iter": 65, "episode_reward_min": -88.93210368807651, "date": "2025-09-04_20-18-31", "episode_reward_max": 8.000782773261495, "pid": 3651948, "timestamp": 1757009911, "episode_reward_mean": -21.1190401483267, "time_total_s": 14737.008077859879, "episodes_total": 13633, "episode_len_mean": 18.36}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 14778.32446694374, "info": {"sample_time_ms": 40715.737, "num_steps_trained": 475200, "grad_time_ms": 366.141, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 367.843017578125, "policy_loss": -0.1676916778087616, "vf_explained_var": 0.031155500560998917, "entropy": 9.684024810791016, "cur_lr": 4.999999873689376e-05, "total_loss": 367.703857421875, "kl": 0.01251928135752678}, "load_time_ms": 0.699, "num_steps_sampled": 475200, "update_time_ms": 2.533}, "training_iteration": 396, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.316389083862305, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 475200, "timesteps_total": 475200, "custom_metrics": {}, "iterations_since_restore": 396, "episodes_this_iter": 57, "episode_reward_min": -93.22473450272642, "date": "2025-09-04_20-19-13", "episode_reward_max": 8.000526899887358, "pid": 3651948, "timestamp": 1757009953, "episode_reward_mean": -24.300092952611994, "time_total_s": 14778.32446694374, "episodes_total": 13690, "episode_len_mean": 19.97}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 14819.988945007324, "info": {"sample_time_ms": 40676.638, "num_steps_trained": 476400, "grad_time_ms": 366.285, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 365.5447082519531, "policy_loss": -0.17106308043003082, "vf_explained_var": 0.04816317558288574, "entropy": 9.278183937072754, "cur_lr": 4.999999873689376e-05, "total_loss": 365.40704345703125, "kl": 0.014639385975897312}, "load_time_ms": 0.698, "num_steps_sampled": 476400, "update_time_ms": 2.542}, "training_iteration": 397, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.664478063583374, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 476400, "timesteps_total": 476400, "custom_metrics": {}, "iterations_since_restore": 397, "episodes_this_iter": 55, "episode_reward_min": -87.72401504139262, "date": "2025-09-04_20-19-54", "episode_reward_max": 8.000040918922195, "pid": 3651948, "timestamp": 1757009994, "episode_reward_mean": -25.846434901990747, "time_total_s": 14819.988945007324, "episodes_total": 13745, "episode_len_mean": 20.99}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 14860.932942867279, "info": {"sample_time_ms": 40638.65, "num_steps_trained": 477600, "grad_time_ms": 365.779, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 445.75152587890625, "policy_loss": -0.1681382954120636, "vf_explained_var": 0.036400895565748215, "entropy": 9.017210006713867, "cur_lr": 4.999999873689376e-05, "total_loss": 445.6226806640625, "kl": 0.017247028648853302}, "load_time_ms": 0.681, "num_steps_sampled": 477600, "update_time_ms": 2.507}, "training_iteration": 398, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.943997859954834, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 477600, "timesteps_total": 477600, "custom_metrics": {}, "iterations_since_restore": 398, "episodes_this_iter": 58, "episode_reward_min": -89.13693164817103, "date": "2025-09-04_20-20-35", "episode_reward_max": 8.000040918922195, "pid": 3651948, "timestamp": 1757010035, "episode_reward_mean": -26.30384903736493, "time_total_s": 14860.932942867279, "episodes_total": 13803, "episode_len_mean": 20.94}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 14903.178161382675, "info": {"sample_time_ms": 40776.198, "num_steps_trained": 478800, "grad_time_ms": 369.258, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 325.0050048828125, "policy_loss": -0.1537511646747589, "vf_explained_var": 0.05926014482975006, "entropy": 9.142744064331055, "cur_lr": 4.999999873689376e-05, "total_loss": 324.8810119628906, "kl": 0.013057458214461803}, "load_time_ms": 0.688, "num_steps_sampled": 478800, "update_time_ms": 2.53}, "training_iteration": 399, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.24521851539612, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 478800, "timesteps_total": 478800, "custom_metrics": {}, "iterations_since_restore": 399, "episodes_this_iter": 74, "episode_reward_min": -89.13693164817103, "date": "2025-09-04_20-21-18", "episode_reward_max": 8.000100239433214, "pid": 3651948, "timestamp": 1757010078, "episode_reward_mean": -20.542233135222364, "time_total_s": 14903.178161382675, "episodes_total": 13877, "episode_len_mean": 17.71}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 14944.027264595032, "info": {"sample_time_ms": 40786.85, "num_steps_trained": 480000, "grad_time_ms": 371.183, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 363.21917724609375, "policy_loss": -0.16554878652095795, "vf_explained_var": 0.03735869377851486, "entropy": 8.781224250793457, "cur_lr": 4.999999873689376e-05, "total_loss": 363.0849914550781, "kl": 0.013765843585133553}, "load_time_ms": 0.697, "num_steps_sampled": 480000, "update_time_ms": 2.524}, "training_iteration": 400, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.84910321235657, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 480000, "timesteps_total": 480000, "custom_metrics": {}, "iterations_since_restore": 400, "episodes_this_iter": 56, "episode_reward_min": -89.46152612989916, "date": "2025-09-04_20-21-59", "episode_reward_max": 8.00016840275882, "pid": 3651948, "timestamp": 1757010119, "episode_reward_mean": -21.505756565397533, "time_total_s": 14944.027264595032, "episodes_total": 13933, "episode_len_mean": 18.4}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 14985.088542938232, "info": {"sample_time_ms": 40764.756, "num_steps_trained": 481200, "grad_time_ms": 372.139, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 384.45416259765625, "policy_loss": -0.16606341302394867, "vf_explained_var": 0.03621109947562218, "entropy": 8.954419136047363, "cur_lr": 4.999999873689376e-05, "total_loss": 384.3221435546875, "kl": 0.014945581555366516}, "load_time_ms": 0.708, "num_steps_sampled": 481200, "update_time_ms": 2.527}, "training_iteration": 401, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.061278343200684, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 481200, "timesteps_total": 481200, "custom_metrics": {}, "iterations_since_restore": 401, "episodes_this_iter": 62, "episode_reward_min": -88.78279717902913, "date": "2025-09-04_20-22-40", "episode_reward_max": 8.000649660237048, "pid": 3651948, "timestamp": 1757010160, "episode_reward_mean": -22.178985335804878, "time_total_s": 14985.088542938232, "episodes_total": 13995, "episode_len_mean": 18.94}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 15026.196497917175, "info": {"sample_time_ms": 40794.298, "num_steps_trained": 482400, "grad_time_ms": 369.928, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 398.8265380859375, "policy_loss": -0.1774124801158905, "vf_explained_var": 0.029825767502188683, "entropy": 9.167211532592773, "cur_lr": 4.999999873689376e-05, "total_loss": 398.6807861328125, "kl": 0.013916068710386753}, "load_time_ms": 0.711, "num_steps_sampled": 482400, "update_time_ms": 2.526}, "training_iteration": 402, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.10795497894287, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 482400, "timesteps_total": 482400, "custom_metrics": {}, "iterations_since_restore": 402, "episodes_this_iter": 57, "episode_reward_min": -88.28649652581946, "date": "2025-09-04_20-23-21", "episode_reward_max": 8.000649660237048, "pid": 3651948, "timestamp": 1757010201, "episode_reward_mean": -25.26251572338901, "time_total_s": 15026.196497917175, "episodes_total": 14052, "episode_len_mean": 20.54}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 15066.95999789238, "info": {"sample_time_ms": 40770.654, "num_steps_trained": 483600, "grad_time_ms": 370.621, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 468.6005859375, "policy_loss": -0.15460431575775146, "vf_explained_var": 0.013424217700958252, "entropy": 8.968843460083008, "cur_lr": 4.999999873689376e-05, "total_loss": 468.4796142578125, "kl": 0.01474261749535799}, "load_time_ms": 0.713, "num_steps_sampled": 483600, "update_time_ms": 2.513}, "training_iteration": 403, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.76349997520447, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 483600, "timesteps_total": 483600, "custom_metrics": {}, "iterations_since_restore": 403, "episodes_this_iter": 64, "episode_reward_min": -90.62365731373188, "date": "2025-09-04_20-24-02", "episode_reward_max": 8.000064498918023, "pid": 3651948, "timestamp": 1757010242, "episode_reward_mean": -26.25160861817275, "time_total_s": 15066.95999789238, "episodes_total": 14116, "episode_len_mean": 20.91}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 15107.76928973198, "info": {"sample_time_ms": 40784.239, "num_steps_trained": 484800, "grad_time_ms": 372.769, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 341.62896728515625, "policy_loss": -0.15651313960552216, "vf_explained_var": 0.02480602264404297, "entropy": 9.093782424926758, "cur_lr": 4.999999873689376e-05, "total_loss": 341.5036926269531, "kl": 0.01371256448328495}, "load_time_ms": 0.716, "num_steps_sampled": 484800, "update_time_ms": 2.562}, "training_iteration": 404, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.80929183959961, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 484800, "timesteps_total": 484800, "custom_metrics": {}, "iterations_since_restore": 404, "episodes_this_iter": 57, "episode_reward_min": -90.62365731373188, "date": "2025-09-04_20-24-42", "episode_reward_max": 8.000064498918023, "pid": 3651948, "timestamp": 1757010282, "episode_reward_mean": -22.69270314497754, "time_total_s": 15107.76928973198, "episodes_total": 14173, "episode_len_mean": 19.11}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 15149.706801652908, "info": {"sample_time_ms": 40887.744, "num_steps_trained": 486000, "grad_time_ms": 374.035, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 356.63665771484375, "policy_loss": -0.1520189642906189, "vf_explained_var": 0.04524644836783409, "entropy": 8.970779418945312, "cur_lr": 4.999999873689376e-05, "total_loss": 356.5178527832031, "kl": 0.014575008302927017}, "load_time_ms": 0.709, "num_steps_sampled": 486000, "update_time_ms": 2.593}, "training_iteration": 405, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.937511920928955, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 486000, "timesteps_total": 486000, "custom_metrics": {}, "iterations_since_restore": 405, "episodes_this_iter": 66, "episode_reward_min": -87.43413320958629, "date": "2025-09-04_20-25-24", "episode_reward_max": 8.000628943879118, "pid": 3651948, "timestamp": 1757010324, "episode_reward_mean": -23.06051815945549, "time_total_s": 15149.706801652908, "episodes_total": 14239, "episode_len_mean": 19.23}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 15190.235967874527, "info": {"sample_time_ms": 40807.353, "num_steps_trained": 487200, "grad_time_ms": 375.696, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 338.1393737792969, "policy_loss": -0.155076265335083, "vf_explained_var": 0.046628501266241074, "entropy": 8.94325065612793, "cur_lr": 4.999999873689376e-05, "total_loss": 338.01953125, "kl": 0.015466567128896713}, "load_time_ms": 0.712, "num_steps_sampled": 487200, "update_time_ms": 2.602}, "training_iteration": 406, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.52916622161865, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 487200, "timesteps_total": 487200, "custom_metrics": {}, "iterations_since_restore": 406, "episodes_this_iter": 59, "episode_reward_min": -90.0509973386746, "date": "2025-09-04_20-26-05", "episode_reward_max": 8.000186777192573, "pid": 3651948, "timestamp": 1757010365, "episode_reward_mean": -23.565941168375375, "time_total_s": 15190.235967874527, "episodes_total": 14298, "episode_len_mean": 19.52}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 15231.009989500046, "info": {"sample_time_ms": 40718.354, "num_steps_trained": 488400, "grad_time_ms": 375.663, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 379.54412841796875, "policy_loss": -0.17857927083969116, "vf_explained_var": 0.02515769749879837, "entropy": 9.250743865966797, "cur_lr": 4.999999873689376e-05, "total_loss": 379.3961486816406, "kl": 0.013426919467747211}, "load_time_ms": 0.715, "num_steps_sampled": 488400, "update_time_ms": 2.587}, "training_iteration": 407, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.7740216255188, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 488400, "timesteps_total": 488400, "custom_metrics": {}, "iterations_since_restore": 407, "episodes_this_iter": 60, "episode_reward_min": -90.0509973386746, "date": "2025-09-04_20-26-46", "episode_reward_max": 8.000000718700344, "pid": 3651948, "timestamp": 1757010406, "episode_reward_mean": -23.898297838288936, "time_total_s": 15231.009989500046, "episodes_total": 14358, "episode_len_mean": 19.94}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 15271.720307350159, "info": {"sample_time_ms": 40693.749, "num_steps_trained": 489600, "grad_time_ms": 376.866, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 342.9323425292969, "policy_loss": -0.1711226999759674, "vf_explained_var": 0.032989416271448135, "entropy": 9.607444763183594, "cur_lr": 4.999999873689376e-05, "total_loss": 342.7926025390625, "kl": 0.01377950981259346}, "load_time_ms": 0.73, "num_steps_sampled": 489600, "update_time_ms": 2.596}, "training_iteration": 408, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.710317850112915, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 489600, "timesteps_total": 489600, "custom_metrics": {}, "iterations_since_restore": 408, "episodes_this_iter": 55, "episode_reward_min": -88.34572210914138, "date": "2025-09-04_20-27-26", "episode_reward_max": 8.001231774066822, "pid": 3651948, "timestamp": 1757010446, "episode_reward_mean": -24.977491475832686, "time_total_s": 15271.720307350159, "episodes_total": 14413, "episode_len_mean": 20.5}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 15313.139620065689, "info": {"sample_time_ms": 40614.501, "num_steps_trained": 490800, "grad_time_ms": 373.588, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 357.11383056640625, "policy_loss": -0.155589297413826, "vf_explained_var": 0.04398070275783539, "entropy": 9.158653259277344, "cur_lr": 4.999999873689376e-05, "total_loss": 356.9899597167969, "kl": 0.013927659951150417}, "load_time_ms": 0.721, "num_steps_sampled": 490800, "update_time_ms": 2.567}, "training_iteration": 409, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.419312715530396, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 490800, "timesteps_total": 490800, "custom_metrics": {}, "iterations_since_restore": 409, "episodes_this_iter": 65, "episode_reward_min": -88.34572210914138, "date": "2025-09-04_20-28-08", "episode_reward_max": 8.001232736280405, "pid": 3651948, "timestamp": 1757010488, "episode_reward_mean": -22.277063366041194, "time_total_s": 15313.139620065689, "episodes_total": 14478, "episode_len_mean": 19.01}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 15354.477598190308, "info": {"sample_time_ms": 40662.644, "num_steps_trained": 492000, "grad_time_ms": 374.315, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 337.18524169921875, "policy_loss": -0.15743833780288696, "vf_explained_var": 0.04267461597919464, "entropy": 8.85062026977539, "cur_lr": 4.999999873689376e-05, "total_loss": 337.0594482421875, "kl": 0.013875171542167664}, "load_time_ms": 0.721, "num_steps_sampled": 492000, "update_time_ms": 2.599}, "training_iteration": 410, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.33797812461853, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 492000, "timesteps_total": 492000, "custom_metrics": {}, "iterations_since_restore": 410, "episodes_this_iter": 65, "episode_reward_min": -86.17369014343335, "date": "2025-09-04_20-28-49", "episode_reward_max": 8.001232736280405, "pid": 3651948, "timestamp": 1757010529, "episode_reward_mean": -21.66543818727694, "time_total_s": 15354.477598190308, "episodes_total": 14543, "episode_len_mean": 18.7}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 15395.615855932236, "info": {"sample_time_ms": 40672.516, "num_steps_trained": 493200, "grad_time_ms": 372.115, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 397.2659912109375, "policy_loss": -0.1600235104560852, "vf_explained_var": 0.027716312557458878, "entropy": 9.102761268615723, "cur_lr": 4.999999873689376e-05, "total_loss": 397.1380615234375, "kl": 0.014104213565587997}, "load_time_ms": 0.707, "num_steps_sampled": 493200, "update_time_ms": 2.616}, "training_iteration": 411, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.1382577419281, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 493200, "timesteps_total": 493200, "custom_metrics": {}, "iterations_since_restore": 411, "episodes_this_iter": 58, "episode_reward_min": -90.11870080925362, "date": "2025-09-04_20-29-30", "episode_reward_max": 8.000309162350467, "pid": 3651948, "timestamp": 1757010570, "episode_reward_mean": -22.313247212803297, "time_total_s": 15395.615855932236, "episodes_total": 14601, "episode_len_mean": 19.06}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 15436.477092981339, "info": {"sample_time_ms": 40645.312, "num_steps_trained": 494400, "grad_time_ms": 374.636, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 257.9275207519531, "policy_loss": -0.17039088904857635, "vf_explained_var": 0.04173828661441803, "entropy": 8.86276626586914, "cur_lr": 4.999999873689376e-05, "total_loss": 257.7919616699219, "kl": 0.015289144590497017}, "load_time_ms": 0.698, "num_steps_sampled": 494400, "update_time_ms": 2.619}, "training_iteration": 412, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.86123704910278, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 494400, "timesteps_total": 494400, "custom_metrics": {}, "iterations_since_restore": 412, "episodes_this_iter": 59, "episode_reward_min": -90.11870080925362, "date": "2025-09-04_20-30-11", "episode_reward_max": 8.000309162350467, "pid": 3651948, "timestamp": 1757010611, "episode_reward_mean": -23.694892449798267, "time_total_s": 15436.477092981339, "episodes_total": 14660, "episode_len_mean": 19.97}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 15477.587541103363, "info": {"sample_time_ms": 40678.015, "num_steps_trained": 495600, "grad_time_ms": 376.678, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 406.9647521972656, "policy_loss": -0.16801682114601135, "vf_explained_var": 0.02449742890894413, "entropy": 9.003397941589355, "cur_lr": 4.999999873689376e-05, "total_loss": 406.8297424316406, "kl": 0.014499634504318237}, "load_time_ms": 0.694, "num_steps_sampled": 495600, "update_time_ms": 2.619}, "training_iteration": 413, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.110448122024536, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 495600, "timesteps_total": 495600, "custom_metrics": {}, "iterations_since_restore": 413, "episodes_this_iter": 64, "episode_reward_min": -89.96225009423195, "date": "2025-09-04_20-30-52", "episode_reward_max": 8.000000418517125, "pid": 3651948, "timestamp": 1757010652, "episode_reward_mean": -22.641117558423833, "time_total_s": 15477.587541103363, "episodes_total": 14724, "episode_len_mean": 19.24}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 15518.879135847092, "info": {"sample_time_ms": 40728.988, "num_steps_trained": 496800, "grad_time_ms": 374.005, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 360.8838195800781, "policy_loss": -0.16797587275505066, "vf_explained_var": 0.02211601845920086, "entropy": 8.923038482666016, "cur_lr": 4.999999873689376e-05, "total_loss": 360.7455139160156, "kl": 0.013053220696747303}, "load_time_ms": 0.683, "num_steps_sampled": 496800, "update_time_ms": 2.605}, "training_iteration": 414, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.29159474372864, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 496800, "timesteps_total": 496800, "custom_metrics": {}, "iterations_since_restore": 414, "episodes_this_iter": 70, "episode_reward_min": -89.29466862761319, "date": "2025-09-04_20-31-34", "episode_reward_max": 8.000049041274412, "pid": 3651948, "timestamp": 1757010694, "episode_reward_mean": -20.614226509945286, "time_total_s": 15518.879135847092, "episodes_total": 14794, "episode_len_mean": 18.07}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 15559.707585334778, "info": {"sample_time_ms": 40619.13, "num_steps_trained": 498000, "grad_time_ms": 372.965, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 336.3121337890625, "policy_loss": -0.1546928435564041, "vf_explained_var": 0.039485231041908264, "entropy": 8.942896842956543, "cur_lr": 4.999999873689376e-05, "total_loss": 336.1910095214844, "kl": 0.014735047705471516}, "load_time_ms": 0.689, "num_steps_sampled": 498000, "update_time_ms": 2.54}, "training_iteration": 415, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.82844948768616, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 498000, "timesteps_total": 498000, "custom_metrics": {}, "iterations_since_restore": 415, "episodes_this_iter": 50, "episode_reward_min": -88.01235413526035, "date": "2025-09-04_20-32-15", "episode_reward_max": 8.000049041274412, "pid": 3651948, "timestamp": 1757010735, "episode_reward_mean": -23.266062617247893, "time_total_s": 15559.707585334778, "episodes_total": 14844, "episode_len_mean": 19.66}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 15600.588601827621, "info": {"sample_time_ms": 40655.156, "num_steps_trained": 499200, "grad_time_ms": 372.174, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 329.1138916015625, "policy_loss": -0.15749989449977875, "vf_explained_var": 0.026625534519553185, "entropy": 8.95058536529541, "cur_lr": 4.999999873689376e-05, "total_loss": 328.990478515625, "kl": 0.01498242374509573}, "load_time_ms": 0.686, "num_steps_sampled": 499200, "update_time_ms": 2.551}, "training_iteration": 416, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.88101649284363, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 499200, "timesteps_total": 499200, "custom_metrics": {}, "iterations_since_restore": 416, "episodes_this_iter": 55, "episode_reward_min": -88.01235413526035, "date": "2025-09-04_20-32-55", "episode_reward_max": 8.000000400009691, "pid": 3651948, "timestamp": 1757010775, "episode_reward_mean": -29.239176798381415, "time_total_s": 15600.588601827621, "episodes_total": 14899, "episode_len_mean": 22.97}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 15642.138316392899, "info": {"sample_time_ms": 40730.243, "num_steps_trained": 500400, "grad_time_ms": 374.539, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 272.2426452636719, "policy_loss": -0.15297353267669678, "vf_explained_var": 0.03704400733113289, "entropy": 8.66805362701416, "cur_lr": 4.999999873689376e-05, "total_loss": 272.1225891113281, "kl": 0.014451836235821247}, "load_time_ms": 0.688, "num_steps_sampled": 500400, "update_time_ms": 2.568}, "training_iteration": 417, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.5497145652771, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 500400, "timesteps_total": 500400, "custom_metrics": {}, "iterations_since_restore": 417, "episodes_this_iter": 76, "episode_reward_min": -88.21630131251572, "date": "2025-09-04_20-33-37", "episode_reward_max": 8.000073497850853, "pid": 3651948, "timestamp": 1757010817, "episode_reward_mean": -17.679283504079056, "time_total_s": 15642.138316392899, "episodes_total": 14975, "episode_len_mean": 16.74}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 15683.509728908539, "info": {"sample_time_ms": 40799.427, "num_steps_trained": 501600, "grad_time_ms": 371.44, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 248.32025146484375, "policy_loss": -0.15737244486808777, "vf_explained_var": 0.04494946449995041, "entropy": 8.678549766540527, "cur_lr": 4.999999873689376e-05, "total_loss": 248.19451904296875, "kl": 0.01389290764927864}, "load_time_ms": 0.68, "num_steps_sampled": 501600, "update_time_ms": 2.604}, "training_iteration": 418, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.37141251564026, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 501600, "timesteps_total": 501600, "custom_metrics": {}, "iterations_since_restore": 418, "episodes_this_iter": 73, "episode_reward_min": -87.07637775054621, "date": "2025-09-04_20-34-18", "episode_reward_max": 8.000046023517019, "pid": 3651948, "timestamp": 1757010858, "episode_reward_mean": -16.262294965535656, "time_total_s": 15683.509728908539, "episodes_total": 15048, "episode_len_mean": 15.88}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 15725.7066116333, "info": {"sample_time_ms": 40875.873, "num_steps_trained": 502800, "grad_time_ms": 372.738, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 340.843994140625, "policy_loss": -0.1627647578716278, "vf_explained_var": 0.050581760704517365, "entropy": 8.839759826660156, "cur_lr": 4.999999873689376e-05, "total_loss": 340.71539306640625, "kl": 0.014986970461905003}, "load_time_ms": 0.677, "num_steps_sampled": 502800, "update_time_ms": 2.591}, "training_iteration": 419, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.19688272476196, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 502800, "timesteps_total": 502800, "custom_metrics": {}, "iterations_since_restore": 419, "episodes_this_iter": 70, "episode_reward_min": -86.54102131912431, "date": "2025-09-04_20-35-01", "episode_reward_max": 8.000198525211543, "pid": 3651948, "timestamp": 1757010901, "episode_reward_mean": -17.980034185103467, "time_total_s": 15725.7066116333, "episodes_total": 15118, "episode_len_mean": 16.73}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 15766.780923604965, "info": {"sample_time_ms": 40849.658, "num_steps_trained": 504000, "grad_time_ms": 372.638, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 318.67681884765625, "policy_loss": -0.16638629138469696, "vf_explained_var": 0.026680052280426025, "entropy": 8.905611038208008, "cur_lr": 4.999999873689376e-05, "total_loss": 318.5440368652344, "kl": 0.014751172624528408}, "load_time_ms": 0.667, "num_steps_sampled": 504000, "update_time_ms": 2.556}, "training_iteration": 420, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.07431197166443, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 504000, "timesteps_total": 504000, "custom_metrics": {}, "iterations_since_restore": 420, "episodes_this_iter": 69, "episode_reward_min": -86.5520037264815, "date": "2025-09-04_20-35-42", "episode_reward_max": 8.000133491272962, "pid": 3651948, "timestamp": 1757010942, "episode_reward_mean": -19.51052381653333, "time_total_s": 15766.780923604965, "episodes_total": 15187, "episode_len_mean": 17.71}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 15808.38918685913, "info": {"sample_time_ms": 40897.437, "num_steps_trained": 505200, "grad_time_ms": 371.831, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 337.9524230957031, "policy_loss": -0.16272571682929993, "vf_explained_var": 0.03287976235151291, "entropy": 8.645221710205078, "cur_lr": 4.999999873689376e-05, "total_loss": 337.8250427246094, "kl": 0.015531342476606369}, "load_time_ms": 0.664, "num_steps_sampled": 505200, "update_time_ms": 2.613}, "training_iteration": 421, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.60826325416565, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 505200, "timesteps_total": 505200, "custom_metrics": {}, "iterations_since_restore": 421, "episodes_this_iter": 61, "episode_reward_min": -88.78650310319185, "date": "2025-09-04_20-36-23", "episode_reward_max": 8.000133491272962, "pid": 3651948, "timestamp": 1757010983, "episode_reward_mean": -21.506250790355175, "time_total_s": 15808.38918685913, "episodes_total": 15248, "episode_len_mean": 18.63}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 15849.308934688568, "info": {"sample_time_ms": 40906.205, "num_steps_trained": 506400, "grad_time_ms": 368.897, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 297.020751953125, "policy_loss": -0.1772303581237793, "vf_explained_var": 0.04066776484251022, "entropy": 8.614079475402832, "cur_lr": 4.999999873689376e-05, "total_loss": 296.8775329589844, "kl": 0.014923757873475552}, "load_time_ms": 0.669, "num_steps_sampled": 506400, "update_time_ms": 2.616}, "training_iteration": 422, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.919747829437256, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 506400, "timesteps_total": 506400, "custom_metrics": {}, "iterations_since_restore": 422, "episodes_this_iter": 62, "episode_reward_min": -88.78650310319185, "date": "2025-09-04_20-37-04", "episode_reward_max": 8.000122212751483, "pid": 3651948, "timestamp": 1757011024, "episode_reward_mean": -23.060168047597784, "time_total_s": 15849.308934688568, "episodes_total": 15310, "episode_len_mean": 19.56}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 15890.32418012619, "info": {"sample_time_ms": 40896.764, "num_steps_trained": 507600, "grad_time_ms": 368.83, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 385.34967041015625, "policy_loss": -0.1683931201696396, "vf_explained_var": 0.02904464863240719, "entropy": 8.951404571533203, "cur_lr": 4.999999873689376e-05, "total_loss": 385.2170715332031, "kl": 0.01571129448711872}, "load_time_ms": 0.665, "num_steps_sampled": 507600, "update_time_ms": 2.615}, "training_iteration": 423, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.01524543762207, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 507600, "timesteps_total": 507600, "custom_metrics": {}, "iterations_since_restore": 423, "episodes_this_iter": 53, "episode_reward_min": -88.4753479922558, "date": "2025-09-04_20-37-45", "episode_reward_max": 8.000303363649481, "pid": 3651948, "timestamp": 1757011065, "episode_reward_mean": -25.800704915984554, "time_total_s": 15890.32418012619, "episodes_total": 15363, "episode_len_mean": 21.06}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 15933.161979436874, "info": {"sample_time_ms": 41049.649, "num_steps_trained": 508800, "grad_time_ms": 370.584, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 249.62008666992188, "policy_loss": -0.16717633605003357, "vf_explained_var": 0.06472889333963394, "entropy": 9.280853271484375, "cur_lr": 4.999999873689376e-05, "total_loss": 249.48416137695312, "kl": 0.013700157403945923}, "load_time_ms": 0.674, "num_steps_sampled": 508800, "update_time_ms": 2.585}, "training_iteration": 424, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.837799310684204, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 508800, "timesteps_total": 508800, "custom_metrics": {}, "iterations_since_restore": 424, "episodes_this_iter": 62, "episode_reward_min": -88.4753479922558, "date": "2025-09-04_20-38-28", "episode_reward_max": 8.000303363649481, "pid": 3651948, "timestamp": 1757011108, "episode_reward_mean": -25.162971277519446, "time_total_s": 15933.161979436874, "episodes_total": 15425, "episode_len_mean": 20.74}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 15974.887422084808, "info": {"sample_time_ms": 41137.57, "num_steps_trained": 510000, "grad_time_ms": 372.385, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 278.6687927246094, "policy_loss": -0.15017859637737274, "vf_explained_var": 0.04893035441637039, "entropy": 8.757755279541016, "cur_lr": 4.999999873689376e-05, "total_loss": 278.5521240234375, "kl": 0.014712914824485779}, "load_time_ms": 0.682, "num_steps_sampled": 510000, "update_time_ms": 2.603}, "training_iteration": 425, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.72544264793396, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 510000, "timesteps_total": 510000, "custom_metrics": {}, "iterations_since_restore": 425, "episodes_this_iter": 78, "episode_reward_min": -87.41739124364128, "date": "2025-09-04_20-39-10", "episode_reward_max": 8.000000576653324, "pid": 3651948, "timestamp": 1757011150, "episode_reward_mean": -17.38091832113621, "time_total_s": 15974.887422084808, "episodes_total": 15503, "episode_len_mean": 16.53}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 16016.248041629791, "info": {"sample_time_ms": 41186.426, "num_steps_trained": 511200, "grad_time_ms": 371.474, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 367.4398193359375, "policy_loss": -0.16482672095298767, "vf_explained_var": 0.02282983809709549, "entropy": 9.066640853881836, "cur_lr": 4.999999873689376e-05, "total_loss": 367.3052978515625, "kl": 0.013300522230565548}, "load_time_ms": 0.696, "num_steps_sampled": 511200, "update_time_ms": 2.595}, "training_iteration": 426, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.36061954498291, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 511200, "timesteps_total": 511200, "custom_metrics": {}, "iterations_since_restore": 426, "episodes_this_iter": 59, "episode_reward_min": -87.36783953007203, "date": "2025-09-04_20-39-51", "episode_reward_max": 8.000372268868835, "pid": 3651948, "timestamp": 1757011191, "episode_reward_mean": -21.251164770190165, "time_total_s": 16016.248041629791, "episodes_total": 15562, "episode_len_mean": 18.51}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 16057.148822069168, "info": {"sample_time_ms": 41123.02, "num_steps_trained": 512400, "grad_time_ms": 370.033, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 384.1492614746094, "policy_loss": -0.1670141965150833, "vf_explained_var": 0.04643003270030022, "entropy": 8.743922233581543, "cur_lr": 4.999999873689376e-05, "total_loss": 384.01422119140625, "kl": 0.014027304016053677}, "load_time_ms": 0.694, "num_steps_sampled": 512400, "update_time_ms": 2.58}, "training_iteration": 427, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.90078043937683, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 512400, "timesteps_total": 512400, "custom_metrics": {}, "iterations_since_restore": 427, "episodes_this_iter": 64, "episode_reward_min": -87.7358976901057, "date": "2025-09-04_20-40-32", "episode_reward_max": 8.000372268868835, "pid": 3651948, "timestamp": 1757011232, "episode_reward_mean": -21.298042743251134, "time_total_s": 16057.148822069168, "episodes_total": 15626, "episode_len_mean": 18.39}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 16098.29258608818, "info": {"sample_time_ms": 41100.097, "num_steps_trained": 513600, "grad_time_ms": 370.204, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 315.5397644042969, "policy_loss": -0.16934019327163696, "vf_explained_var": 0.03011532686650753, "entropy": 8.76919937133789, "cur_lr": 4.999999873689376e-05, "total_loss": 315.4030456542969, "kl": 0.014322774484753609}, "load_time_ms": 0.686, "num_steps_sampled": 513600, "update_time_ms": 2.58}, "training_iteration": 428, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.14376401901245, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 513600, "timesteps_total": 513600, "custom_metrics": {}, "iterations_since_restore": 428, "episodes_this_iter": 71, "episode_reward_min": -87.7358976901057, "date": "2025-09-04_20-41-13", "episode_reward_max": 8.000580944936152, "pid": 3651948, "timestamp": 1757011273, "episode_reward_mean": -19.053094048889122, "time_total_s": 16098.29258608818, "episodes_total": 15697, "episode_len_mean": 17.31}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 16140.245764255524, "info": {"sample_time_ms": 41074.145, "num_steps_trained": 514800, "grad_time_ms": 371.714, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 346.0904541015625, "policy_loss": -0.15643729269504547, "vf_explained_var": 0.027360280975699425, "entropy": 8.556154251098633, "cur_lr": 4.999999873689376e-05, "total_loss": 345.9683837890625, "kl": 0.015092356130480766}, "load_time_ms": 0.7, "num_steps_sampled": 514800, "update_time_ms": 2.579}, "training_iteration": 429, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.95317816734314, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 514800, "timesteps_total": 514800, "custom_metrics": {}, "iterations_since_restore": 429, "episodes_this_iter": 67, "episode_reward_min": -89.88324149646371, "date": "2025-09-04_20-41-55", "episode_reward_max": 8.000002145866585, "pid": 3651948, "timestamp": 1757011315, "episode_reward_mean": -20.291947756535507, "time_total_s": 16140.245764255524, "episodes_total": 15764, "episode_len_mean": 17.8}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 16181.876400232315, "info": {"sample_time_ms": 41132.037, "num_steps_trained": 516000, "grad_time_ms": 369.429, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 313.5926513671875, "policy_loss": -0.15500952303409576, "vf_explained_var": 0.03515625, "entropy": 8.963751792907715, "cur_lr": 4.999999873689376e-05, "total_loss": 313.47021484375, "kl": 0.014299273490905762}, "load_time_ms": 0.706, "num_steps_sampled": 516000, "update_time_ms": 2.605}, "training_iteration": 430, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.63063597679138, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 516000, "timesteps_total": 516000, "custom_metrics": {}, "iterations_since_restore": 430, "episodes_this_iter": 62, "episode_reward_min": -89.21387403888859, "date": "2025-09-04_20-42-37", "episode_reward_max": 8.000025486195257, "pid": 3651948, "timestamp": 1757011357, "episode_reward_mean": -21.170838996596707, "time_total_s": 16181.876400232315, "episodes_total": 15826, "episode_len_mean": 18.47}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 16223.264105081558, "info": {"sample_time_ms": 41107.196, "num_steps_trained": 517200, "grad_time_ms": 372.25, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 319.3018798828125, "policy_loss": -0.1622197926044464, "vf_explained_var": 0.036697857081890106, "entropy": 8.870936393737793, "cur_lr": 4.999999873689376e-05, "total_loss": 319.16925048828125, "kl": 0.0129969147965312}, "load_time_ms": 0.721, "num_steps_sampled": 517200, "update_time_ms": 2.508}, "training_iteration": 431, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.387704849243164, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 517200, "timesteps_total": 517200, "custom_metrics": {}, "iterations_since_restore": 431, "episodes_this_iter": 71, "episode_reward_min": -88.88322066238273, "date": "2025-09-04_20-43-19", "episode_reward_max": 8.00021796775948, "pid": 3651948, "timestamp": 1757011399, "episode_reward_mean": -19.235878452041984, "time_total_s": 16223.264105081558, "episodes_total": 15897, "episode_len_mean": 17.37}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 16264.251901388168, "info": {"sample_time_ms": 41113.298, "num_steps_trained": 518400, "grad_time_ms": 372.889, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 316.2972412109375, "policy_loss": -0.15378178656101227, "vf_explained_var": 0.04921703040599823, "entropy": 8.469070434570312, "cur_lr": 4.999999873689376e-05, "total_loss": 316.1748962402344, "kl": 0.013782855123281479}, "load_time_ms": 0.73, "num_steps_sampled": 518400, "update_time_ms": 2.522}, "training_iteration": 432, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.98779630661011, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 518400, "timesteps_total": 518400, "custom_metrics": {}, "iterations_since_restore": 432, "episodes_this_iter": 68, "episode_reward_min": -86.84082784043173, "date": "2025-09-04_20-44-00", "episode_reward_max": 8.00034664042358, "pid": 3651948, "timestamp": 1757011440, "episode_reward_mean": -19.35597032575904, "time_total_s": 16264.251901388168, "episodes_total": 15965, "episode_len_mean": 17.35}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 16305.171558618546, "info": {"sample_time_ms": 41105.105, "num_steps_trained": 519600, "grad_time_ms": 371.462, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 314.1938781738281, "policy_loss": -0.15594321489334106, "vf_explained_var": 0.027978135272860527, "entropy": 8.679997444152832, "cur_lr": 4.999999873689376e-05, "total_loss": 314.0681457519531, "kl": 0.013278153724968433}, "load_time_ms": 0.732, "num_steps_sampled": 519600, "update_time_ms": 2.51}, "training_iteration": 433, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.9196572303772, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 519600, "timesteps_total": 519600, "custom_metrics": {}, "iterations_since_restore": 433, "episodes_this_iter": 71, "episode_reward_min": -88.80748243867461, "date": "2025-09-04_20-44-40", "episode_reward_max": 8.001276994407831, "pid": 3651948, "timestamp": 1757011480, "episode_reward_mean": -18.51521611093584, "time_total_s": 16305.171558618546, "episodes_total": 16036, "episode_len_mean": 16.79}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 16346.109334468842, "info": {"sample_time_ms": 40915.475, "num_steps_trained": 520800, "grad_time_ms": 370.989, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 338.2723693847656, "policy_loss": -0.15147621929645538, "vf_explained_var": 0.044524677097797394, "entropy": 8.881685256958008, "cur_lr": 4.999999873689376e-05, "total_loss": 338.156005859375, "kl": 0.015402843244373798}, "load_time_ms": 0.729, "num_steps_sampled": 520800, "update_time_ms": 2.55}, "training_iteration": 434, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.93777585029602, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 520800, "timesteps_total": 520800, "custom_metrics": {}, "iterations_since_restore": 434, "episodes_this_iter": 65, "episode_reward_min": -88.64775466310672, "date": "2025-09-04_20-45-21", "episode_reward_max": 8.001276994407831, "pid": 3651948, "timestamp": 1757011521, "episode_reward_mean": -19.979875043752536, "time_total_s": 16346.109334468842, "episodes_total": 16101, "episode_len_mean": 17.69}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 16388.005512714386, "info": {"sample_time_ms": 40933.02, "num_steps_trained": 522000, "grad_time_ms": 370.457, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 309.99200439453125, "policy_loss": -0.15323799848556519, "vf_explained_var": 0.04143669083714485, "entropy": 8.597495079040527, "cur_lr": 4.999999873689376e-05, "total_loss": 309.87548828125, "kl": 0.0161251500248909}, "load_time_ms": 0.728, "num_steps_sampled": 522000, "update_time_ms": 2.593}, "training_iteration": 435, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.896178245544434, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 522000, "timesteps_total": 522000, "custom_metrics": {}, "iterations_since_restore": 435, "episodes_this_iter": 68, "episode_reward_min": -86.39453445540397, "date": "2025-09-04_20-46-03", "episode_reward_max": 8.00002282974312, "pid": 3651948, "timestamp": 1757011563, "episode_reward_mean": -19.94524785610513, "time_total_s": 16388.005512714386, "episodes_total": 16169, "episode_len_mean": 17.9}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 16429.511291265488, "info": {"sample_time_ms": 40946.253, "num_steps_trained": 523200, "grad_time_ms": 371.756, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 342.5484619140625, "policy_loss": -0.147806316614151, "vf_explained_var": 0.028934823349118233, "entropy": 9.265068054199219, "cur_lr": 4.999999873689376e-05, "total_loss": 342.4322204589844, "kl": 0.013850619085133076}, "load_time_ms": 0.709, "num_steps_sampled": 523200, "update_time_ms": 2.604}, "training_iteration": 436, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.505778551101685, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 523200, "timesteps_total": 523200, "custom_metrics": {}, "iterations_since_restore": 436, "episodes_this_iter": 72, "episode_reward_min": -86.41977100309569, "date": "2025-09-04_20-46-45", "episode_reward_max": 8.000033196464619, "pid": 3651948, "timestamp": 1757011605, "episode_reward_mean": -19.240552723068152, "time_total_s": 16429.511291265488, "episodes_total": 16241, "episode_len_mean": 17.43}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 16470.664858818054, "info": {"sample_time_ms": 40971.658, "num_steps_trained": 524400, "grad_time_ms": 371.669, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 364.4984436035156, "policy_loss": -0.16167707741260529, "vf_explained_var": 0.045816823840141296, "entropy": 8.512593269348145, "cur_lr": 4.999999873689376e-05, "total_loss": 364.37127685546875, "kl": 0.015125438570976257}, "load_time_ms": 0.706, "num_steps_sampled": 524400, "update_time_ms": 2.595}, "training_iteration": 437, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.15356755256653, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 524400, "timesteps_total": 524400, "custom_metrics": {}, "iterations_since_restore": 437, "episodes_this_iter": 61, "episode_reward_min": -86.41977100309569, "date": "2025-09-04_20-47-26", "episode_reward_max": 8.000000835511225, "pid": 3651948, "timestamp": 1757011646, "episode_reward_mean": -21.402012256572934, "time_total_s": 16470.664858818054, "episodes_total": 16302, "episode_len_mean": 18.45}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 16511.818156003952, "info": {"sample_time_ms": 40970.266, "num_steps_trained": 525600, "grad_time_ms": 373.921, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 385.24468994140625, "policy_loss": -0.1535537838935852, "vf_explained_var": 0.035642359405756, "entropy": 8.525103569030762, "cur_lr": 4.999999873689376e-05, "total_loss": 385.1243591308594, "kl": 0.014598245732486248}, "load_time_ms": 0.726, "num_steps_sampled": 525600, "update_time_ms": 2.596}, "training_iteration": 438, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.15329718589783, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 525600, "timesteps_total": 525600, "custom_metrics": {}, "iterations_since_restore": 438, "episodes_this_iter": 68, "episode_reward_min": -89.89362692541498, "date": "2025-09-04_20-48-07", "episode_reward_max": 8.000018341866456, "pid": 3651948, "timestamp": 1757011687, "episode_reward_mean": -20.951401441454294, "time_total_s": 16511.818156003952, "episodes_total": 16370, "episode_len_mean": 18.2}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 16553.65321779251, "info": {"sample_time_ms": 40959.44, "num_steps_trained": 526800, "grad_time_ms": 372.979, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 355.47296142578125, "policy_loss": -0.1548500955104828, "vf_explained_var": 0.035611316561698914, "entropy": 8.34416675567627, "cur_lr": 4.999999873689376e-05, "total_loss": 355.3534851074219, "kl": 0.01554470881819725}, "load_time_ms": 0.713, "num_steps_sampled": 526800, "update_time_ms": 2.635}, "training_iteration": 439, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.83506178855896, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 526800, "timesteps_total": 526800, "custom_metrics": {}, "iterations_since_restore": 439, "episodes_this_iter": 76, "episode_reward_min": -87.30425045952317, "date": "2025-09-04_20-48-49", "episode_reward_max": 8.000062272518257, "pid": 3651948, "timestamp": 1757011729, "episode_reward_mean": -17.817107062266913, "time_total_s": 16553.65321779251, "episodes_total": 16446, "episode_len_mean": 16.55}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 16595.434185028076, "info": {"sample_time_ms": 40973.372, "num_steps_trained": 528000, "grad_time_ms": 374.091, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 414.3402099609375, "policy_loss": -0.1643889993429184, "vf_explained_var": 0.03891804441809654, "entropy": 8.819328308105469, "cur_lr": 4.999999873689376e-05, "total_loss": 414.2076110839844, "kl": 0.013955799862742424}, "load_time_ms": 0.714, "num_steps_sampled": 528000, "update_time_ms": 2.621}, "training_iteration": 440, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.780967235565186, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 528000, "timesteps_total": 528000, "custom_metrics": {}, "iterations_since_restore": 440, "episodes_this_iter": 73, "episode_reward_min": -87.03746228171902, "date": "2025-09-04_20-49-31", "episode_reward_max": 8.000193163737467, "pid": 3651948, "timestamp": 1757011771, "episode_reward_mean": -16.514277600802984, "time_total_s": 16595.434185028076, "episodes_total": 16519, "episode_len_mean": 15.74}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 16637.182630062103, "info": {"sample_time_ms": 41010.094, "num_steps_trained": 529200, "grad_time_ms": 373.472, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 281.71002197265625, "policy_loss": -0.15865615010261536, "vf_explained_var": 0.01832013577222824, "entropy": 8.66702651977539, "cur_lr": 4.999999873689376e-05, "total_loss": 281.5833435058594, "kl": 0.014038166962563992}, "load_time_ms": 0.702, "num_steps_sampled": 529200, "update_time_ms": 2.614}, "training_iteration": 441, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.7484450340271, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 529200, "timesteps_total": 529200, "custom_metrics": {}, "iterations_since_restore": 441, "episodes_this_iter": 77, "episode_reward_min": -87.03746228171902, "date": "2025-09-04_20-50-13", "episode_reward_max": 8.000000929489092, "pid": 3651948, "timestamp": 1757011813, "episode_reward_mean": -18.099141394017842, "time_total_s": 16637.182630062103, "episodes_total": 16596, "episode_len_mean": 16.63}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 16679.03945326805, "info": {"sample_time_ms": 41097.119, "num_steps_trained": 530400, "grad_time_ms": 373.397, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 379.4559020996094, "policy_loss": -0.15498653054237366, "vf_explained_var": 0.029985547065734863, "entropy": 8.676912307739258, "cur_lr": 4.999999873689376e-05, "total_loss": 379.3329162597656, "kl": 0.014052795246243477}, "load_time_ms": 0.691, "num_steps_sampled": 530400, "update_time_ms": 2.593}, "training_iteration": 442, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.856823205947876, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 530400, "timesteps_total": 530400, "custom_metrics": {}, "iterations_since_restore": 442, "episodes_this_iter": 69, "episode_reward_min": -87.8607226904853, "date": "2025-09-04_20-50-55", "episode_reward_max": 8.000010497723688, "pid": 3651948, "timestamp": 1757011855, "episode_reward_mean": -19.481709087181883, "time_total_s": 16679.03945326805, "episodes_total": 16665, "episode_len_mean": 17.45}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 16720.618898153305, "info": {"sample_time_ms": 41161.866, "num_steps_trained": 531600, "grad_time_ms": 374.636, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 320.0054626464844, "policy_loss": -0.16083712875843048, "vf_explained_var": 0.04631289467215538, "entropy": 8.030533790588379, "cur_lr": 4.999999873689376e-05, "total_loss": 319.877197265625, "kl": 0.014289619401097298}, "load_time_ms": 0.69, "num_steps_sampled": 531600, "update_time_ms": 2.602}, "training_iteration": 443, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.579444885253906, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 531600, "timesteps_total": 531600, "custom_metrics": {}, "iterations_since_restore": 443, "episodes_this_iter": 83, "episode_reward_min": -87.61995030853359, "date": "2025-09-04_20-51-36", "episode_reward_max": 8.000301482042897, "pid": 3651948, "timestamp": 1757011896, "episode_reward_mean": -12.899752233581278, "time_total_s": 16720.618898153305, "episodes_total": 16748, "episode_len_mean": 13.8}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 16762.03003191948, "info": {"sample_time_ms": 41210.451, "num_steps_trained": 532800, "grad_time_ms": 373.476, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 334.7008056640625, "policy_loss": -0.1596754640340805, "vf_explained_var": 0.04282053932547569, "entropy": 8.831731796264648, "cur_lr": 4.999999873689376e-05, "total_loss": 334.5743408203125, "kl": 0.01455344632267952}, "load_time_ms": 0.686, "num_steps_sampled": 532800, "update_time_ms": 2.594}, "training_iteration": 444, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.411133766174316, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 532800, "timesteps_total": 532800, "custom_metrics": {}, "iterations_since_restore": 444, "episodes_this_iter": 64, "episode_reward_min": -88.81839473896785, "date": "2025-09-04_20-52-18", "episode_reward_max": 8.000016245196393, "pid": 3651948, "timestamp": 1757011938, "episode_reward_mean": -18.987936818539836, "time_total_s": 16762.03003191948, "episodes_total": 16812, "episode_len_mean": 17.3}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 16804.291570425034, "info": {"sample_time_ms": 41247.39, "num_steps_trained": 534000, "grad_time_ms": 373.179, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 291.1845397949219, "policy_loss": -0.16169238090515137, "vf_explained_var": 0.0301960501819849, "entropy": 8.103074073791504, "cur_lr": 4.999999873689376e-05, "total_loss": 291.0556945800781, "kl": 0.01442566979676485}, "load_time_ms": 0.673, "num_steps_sampled": 534000, "update_time_ms": 2.527}, "training_iteration": 445, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.2615385055542, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 534000, "timesteps_total": 534000, "custom_metrics": {}, "iterations_since_restore": 445, "episodes_this_iter": 79, "episode_reward_min": -85.35315981367188, "date": "2025-09-04_20-53-00", "episode_reward_max": 8.000084072096763, "pid": 3651948, "timestamp": 1757011980, "episode_reward_mean": -14.920949637008876, "time_total_s": 16804.291570425034, "episodes_total": 16891, "episode_len_mean": 14.98}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 16845.300713777542, "info": {"sample_time_ms": 41199.007, "num_steps_trained": 535200, "grad_time_ms": 371.881, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 338.442138671875, "policy_loss": -0.15294824540615082, "vf_explained_var": 0.03564156964421272, "entropy": 8.482898712158203, "cur_lr": 4.999999873689376e-05, "total_loss": 338.3228454589844, "kl": 0.014768613502383232}, "load_time_ms": 0.68, "num_steps_sampled": 535200, "update_time_ms": 2.499}, "training_iteration": 446, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.009143352508545, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 535200, "timesteps_total": 535200, "custom_metrics": {}, "iterations_since_restore": 446, "episodes_this_iter": 58, "episode_reward_min": -88.5915819217999, "date": "2025-09-04_20-53-41", "episode_reward_max": 8.00002514491476, "pid": 3651948, "timestamp": 1757012021, "episode_reward_mean": -19.8870777818862, "time_total_s": 16845.300713777542, "episodes_total": 16949, "episode_len_mean": 17.73}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 16886.91087770462, "info": {"sample_time_ms": 41244.008, "num_steps_trained": 536400, "grad_time_ms": 372.521, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 175.49859619140625, "policy_loss": -0.15918566286563873, "vf_explained_var": 0.0374857522547245, "entropy": 8.244630813598633, "cur_lr": 4.999999873689376e-05, "total_loss": 175.37261962890625, "kl": 0.01456509530544281}, "load_time_ms": 0.681, "num_steps_sampled": 536400, "update_time_ms": 2.53}, "training_iteration": 447, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.61016392707825, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 536400, "timesteps_total": 536400, "custom_metrics": {}, "iterations_since_restore": 447, "episodes_this_iter": 85, "episode_reward_min": -82.83504604852666, "date": "2025-09-04_20-54-22", "episode_reward_max": 8.000089276407737, "pid": 3651948, "timestamp": 1757012062, "episode_reward_mean": -14.488990583660609, "time_total_s": 16886.91087770462, "episodes_total": 17034, "episode_len_mean": 14.77}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 16927.87378692627, "info": {"sample_time_ms": 41226.985, "num_steps_trained": 537600, "grad_time_ms": 370.566, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 284.6360778808594, "policy_loss": -0.15949472784996033, "vf_explained_var": 0.03629742190241814, "entropy": 8.63432502746582, "cur_lr": 4.999999873689376e-05, "total_loss": 284.5114440917969, "kl": 0.015297316946089268}, "load_time_ms": 0.664, "num_steps_sampled": 537600, "update_time_ms": 2.485}, "training_iteration": 448, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 40.96290922164917, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 537600, "timesteps_total": 537600, "custom_metrics": {}, "iterations_since_restore": 448, "episodes_this_iter": 73, "episode_reward_min": -87.3940341602237, "date": "2025-09-04_20-55-03", "episode_reward_max": 8.000302562516929, "pid": 3651948, "timestamp": 1757012103, "episode_reward_mean": -14.556468628799866, "time_total_s": 16927.87378692627, "episodes_total": 17107, "episode_len_mean": 14.87}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 16969.17755842209, "info": {"sample_time_ms": 41174.344, "num_steps_trained": 538800, "grad_time_ms": 370.061, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 231.8226776123047, "policy_loss": -0.1713278889656067, "vf_explained_var": 0.048882465809583664, "entropy": 8.455493927001953, "cur_lr": 4.999999873689376e-05, "total_loss": 231.6845703125, "kl": 0.014588426798582077}, "load_time_ms": 0.662, "num_steps_sampled": 538800, "update_time_ms": 2.474}, "training_iteration": 449, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.30377149581909, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 538800, "timesteps_total": 538800, "custom_metrics": {}, "iterations_since_restore": 449, "episodes_this_iter": 77, "episode_reward_min": -71.82392088658297, "date": "2025-09-04_20-55-45", "episode_reward_max": 8.000001172878449, "pid": 3651948, "timestamp": 1757012145, "episode_reward_mean": -15.705366250989869, "time_total_s": 16969.17755842209, "episodes_total": 17184, "episode_len_mean": 15.75}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 17010.63756752014, "info": {"sample_time_ms": 41142.753, "num_steps_trained": 540000, "grad_time_ms": 369.542, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 281.6278076171875, "policy_loss": -0.1522459238767624, "vf_explained_var": 0.05002821236848831, "entropy": 8.116762161254883, "cur_lr": 4.999999873689376e-05, "total_loss": 281.5114440917969, "kl": 0.01575664058327675}, "load_time_ms": 0.667, "num_steps_sampled": 540000, "update_time_ms": 2.485}, "training_iteration": 450, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.46000909805298, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 540000, "timesteps_total": 540000, "custom_metrics": {}, "iterations_since_restore": 450, "episodes_this_iter": 80, "episode_reward_min": -84.15010302375366, "date": "2025-09-04_20-56-26", "episode_reward_max": 8.00005827544259, "pid": 3651948, "timestamp": 1757012186, "episode_reward_mean": -14.93996309152615, "time_total_s": 17010.63756752014, "episodes_total": 17264, "episode_len_mean": 15.09}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 17051.653188228607, "info": {"sample_time_ms": 41071.39, "num_steps_trained": 541200, "grad_time_ms": 367.579, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 319.8498229980469, "policy_loss": -0.1568194031715393, "vf_explained_var": 0.018670465797185898, "entropy": 8.665520668029785, "cur_lr": 4.999999873689376e-05, "total_loss": 319.7239990234375, "kl": 0.013618793338537216}, "load_time_ms": 0.661, "num_steps_sampled": 541200, "update_time_ms": 2.58}, "training_iteration": 451, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.015620708465576, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 541200, "timesteps_total": 541200, "custom_metrics": {}, "iterations_since_restore": 451, "episodes_this_iter": 69, "episode_reward_min": -87.26869020953562, "date": "2025-09-04_20-57-07", "episode_reward_max": 8.000050737390461, "pid": 3651948, "timestamp": 1757012227, "episode_reward_mean": -19.006085120852394, "time_total_s": 17051.653188228607, "episodes_total": 17333, "episode_len_mean": 17.34}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 17092.9470539093, "info": {"sample_time_ms": 41014.507, "num_steps_trained": 542400, "grad_time_ms": 368.17, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 288.7252502441406, "policy_loss": -0.1631011813879013, "vf_explained_var": 0.029342809692025185, "entropy": 8.429981231689453, "cur_lr": 4.999999873689376e-05, "total_loss": 288.5946044921875, "kl": 0.014258328825235367}, "load_time_ms": 0.66, "num_steps_sampled": 542400, "update_time_ms": 2.56}, "training_iteration": 452, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.29386568069458, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 542400, "timesteps_total": 542400, "custom_metrics": {}, "iterations_since_restore": 452, "episodes_this_iter": 74, "episode_reward_min": -87.34813542686608, "date": "2025-09-04_20-57-49", "episode_reward_max": 8.000189292670523, "pid": 3651948, "timestamp": 1757012269, "episode_reward_mean": -18.18275225378042, "time_total_s": 17092.9470539093, "episodes_total": 17407, "episode_len_mean": 16.83}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 17134.125964164734, "info": {"sample_time_ms": 40974.083, "num_steps_trained": 543600, "grad_time_ms": 368.54, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 394.4097900390625, "policy_loss": -0.16569074988365173, "vf_explained_var": 0.03131605684757233, "entropy": 8.512945175170898, "cur_lr": 4.999999873689376e-05, "total_loss": 394.2773742675781, "kl": 0.014615214429795742}, "load_time_ms": 0.664, "num_steps_sampled": 543600, "update_time_ms": 2.614}, "training_iteration": 453, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.17891025543213, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 543600, "timesteps_total": 543600, "custom_metrics": {}, "iterations_since_restore": 453, "episodes_this_iter": 64, "episode_reward_min": -90.00949107692566, "date": "2025-09-04_20-58-30", "episode_reward_max": 8.000245652836771, "pid": 3651948, "timestamp": 1757012310, "episode_reward_mean": -19.285058586526443, "time_total_s": 17134.125964164734, "episodes_total": 17471, "episode_len_mean": 17.48}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 17176.44965982437, "info": {"sample_time_ms": 41062.823, "num_steps_trained": 544800, "grad_time_ms": 371.057, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 358.07147216796875, "policy_loss": -0.147636279463768, "vf_explained_var": 0.03243735060095787, "entropy": 8.070189476013184, "cur_lr": 4.999999873689376e-05, "total_loss": 357.9606628417969, "kl": 0.01616663858294487}, "load_time_ms": 0.675, "num_steps_sampled": 544800, "update_time_ms": 2.586}, "training_iteration": 454, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.32369565963745, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 544800, "timesteps_total": 544800, "custom_metrics": {}, "iterations_since_restore": 454, "episodes_this_iter": 84, "episode_reward_min": -90.00949107692566, "date": "2025-09-04_20-59-12", "episode_reward_max": 8.000010170167442, "pid": 3651948, "timestamp": 1757012352, "episode_reward_mean": -15.418296576200568, "time_total_s": 17176.44965982437, "episodes_total": 17555, "episode_len_mean": 15.15}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 17218.774721622467, "info": {"sample_time_ms": 41068.327, "num_steps_trained": 546000, "grad_time_ms": 371.816, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 274.8625183105469, "policy_loss": -0.15433499217033386, "vf_explained_var": 0.04063411429524422, "entropy": 8.161273956298828, "cur_lr": 4.999999873689376e-05, "total_loss": 274.7413330078125, "kl": 0.014555818401277065}, "load_time_ms": 0.691, "num_steps_sampled": 546000, "update_time_ms": 2.608}, "training_iteration": 455, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.3250617980957, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 546000, "timesteps_total": 546000, "custom_metrics": {}, "iterations_since_restore": 455, "episodes_this_iter": 78, "episode_reward_min": -87.03464169534483, "date": "2025-09-04_20-59-55", "episode_reward_max": 8.001451916235133, "pid": 3651948, "timestamp": 1757012395, "episode_reward_mean": -14.942562569436975, "time_total_s": 17218.774721622467, "episodes_total": 17633, "episode_len_mean": 14.96}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 17260.553253889084, "info": {"sample_time_ms": 41144.626, "num_steps_trained": 547200, "grad_time_ms": 372.396, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 259.0595703125, "policy_loss": -0.15590450167655945, "vf_explained_var": 0.05277172848582268, "entropy": 7.884790897369385, "cur_lr": 4.999999873689376e-05, "total_loss": 258.9333801269531, "kl": 0.013034400530159473}, "load_time_ms": 0.695, "num_steps_sampled": 547200, "update_time_ms": 2.671}, "training_iteration": 456, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.77853226661682, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 547200, "timesteps_total": 547200, "custom_metrics": {}, "iterations_since_restore": 456, "episodes_this_iter": 90, "episode_reward_min": -88.63748942824976, "date": "2025-09-04_21-00-36", "episode_reward_max": 8.001124234118306, "pid": 3651948, "timestamp": 1757012436, "episode_reward_mean": -12.186383781204604, "time_total_s": 17260.553253889084, "episodes_total": 17723, "episode_len_mean": 13.37}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 17303.146927833557, "info": {"sample_time_ms": 41242.352, "num_steps_trained": 548400, "grad_time_ms": 372.992, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 234.77056884765625, "policy_loss": -0.1650943160057068, "vf_explained_var": 0.03529277816414833, "entropy": 8.531253814697266, "cur_lr": 4.999999873689376e-05, "total_loss": 234.63693237304688, "kl": 0.013813511468470097}, "load_time_ms": 0.706, "num_steps_sampled": 548400, "update_time_ms": 2.666}, "training_iteration": 457, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.59367394447327, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 548400, "timesteps_total": 548400, "custom_metrics": {}, "iterations_since_restore": 457, "episodes_this_iter": 88, "episode_reward_min": -84.94318505630861, "date": "2025-09-04_21-01-19", "episode_reward_max": 8.000029127239786, "pid": 3651948, "timestamp": 1757012479, "episode_reward_mean": -11.773299884421103, "time_total_s": 17303.146927833557, "episodes_total": 17811, "episode_len_mean": 13.41}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 17344.81735086441, "info": {"sample_time_ms": 41312.334, "num_steps_trained": 549600, "grad_time_ms": 373.744, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 226.6254425048828, "policy_loss": -0.16493502259254456, "vf_explained_var": 0.042032089084386826, "entropy": 8.069854736328125, "cur_lr": 4.999999873689376e-05, "total_loss": 226.49737548828125, "kl": 0.016184350475668907}, "load_time_ms": 0.701, "num_steps_sampled": 549600, "update_time_ms": 2.704}, "training_iteration": 458, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.67042303085327, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 549600, "timesteps_total": 549600, "custom_metrics": {}, "iterations_since_restore": 458, "episodes_this_iter": 70, "episode_reward_min": -87.02378533047025, "date": "2025-09-04_21-02-01", "episode_reward_max": 8.000029423041246, "pid": 3651948, "timestamp": 1757012521, "episode_reward_mean": -17.5357891026734, "time_total_s": 17344.81735086441, "episodes_total": 17881, "episode_len_mean": 16.62}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 17384.00404715538, "info": {"sample_time_ms": 41099.307, "num_steps_trained": 550800, "grad_time_ms": 375.05, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 232.12977600097656, "policy_loss": -0.14683347940444946, "vf_explained_var": 0.03351776301860809, "entropy": 8.242464065551758, "cur_lr": 4.999999873689376e-05, "total_loss": 232.02127075195312, "kl": 0.016831597313284874}, "load_time_ms": 0.708, "num_steps_sampled": 550800, "update_time_ms": 2.729}, "training_iteration": 459, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.18669629096985, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 550800, "timesteps_total": 550800, "custom_metrics": {}, "iterations_since_restore": 459, "episodes_this_iter": 87, "episode_reward_min": -87.02378533047025, "date": "2025-09-04_21-02-40", "episode_reward_max": 8.000038132613607, "pid": 3651948, "timestamp": 1757012560, "episode_reward_mean": -13.801652622181992, "time_total_s": 17384.00404715538, "episodes_total": 17968, "episode_len_mean": 14.44}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 17423.686593294144, "info": {"sample_time_ms": 40922.125, "num_steps_trained": 552000, "grad_time_ms": 374.485, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 234.0694122314453, "policy_loss": -0.15866075456142426, "vf_explained_var": 0.035337552428245544, "entropy": 8.417089462280273, "cur_lr": 4.999999873689376e-05, "total_loss": 233.94387817382812, "kl": 0.01453636959195137}, "load_time_ms": 0.704, "num_steps_sampled": 552000, "update_time_ms": 2.716}, "training_iteration": 460, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 39.68254613876343, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 552000, "timesteps_total": 552000, "custom_metrics": {}, "iterations_since_restore": 460, "episodes_this_iter": 77, "episode_reward_min": -83.88185249257836, "date": "2025-09-04_21-03-20", "episode_reward_max": 8.000636031322111, "pid": 3651948, "timestamp": 1757012600, "episode_reward_mean": -14.473103590357972, "time_total_s": 17423.686593294144, "episodes_total": 18045, "episode_len_mean": 14.93}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 17464.750234603882, "info": {"sample_time_ms": 40923.764, "num_steps_trained": 553200, "grad_time_ms": 377.604, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 301.85015869140625, "policy_loss": -0.17026448249816895, "vf_explained_var": 0.026150895282626152, "entropy": 8.212603569030762, "cur_lr": 4.999999873689376e-05, "total_loss": 301.7120361328125, "kl": 0.014113317243754864}, "load_time_ms": 0.719, "num_steps_sampled": 553200, "update_time_ms": 2.657}, "training_iteration": 461, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.06364130973816, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 553200, "timesteps_total": 553200, "custom_metrics": {}, "iterations_since_restore": 461, "episodes_this_iter": 72, "episode_reward_min": -86.74672593739993, "date": "2025-09-04_21-04-01", "episode_reward_max": 8.000563786902937, "pid": 3651948, "timestamp": 1757012641, "episode_reward_mean": -18.313983170418428, "time_total_s": 17464.750234603882, "episodes_total": 18117, "episode_len_mean": 17.1}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 17506.31477212906, "info": {"sample_time_ms": 40951.639, "num_steps_trained": 554400, "grad_time_ms": 376.803, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 244.6202850341797, "policy_loss": -0.1634778082370758, "vf_explained_var": 0.07023818045854568, "entropy": 8.577519416809082, "cur_lr": 4.999999873689376e-05, "total_loss": 244.48876953125, "kl": 0.014043360948562622}, "load_time_ms": 0.715, "num_steps_sampled": 554400, "update_time_ms": 2.705}, "training_iteration": 462, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.564537525177, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 554400, "timesteps_total": 554400, "custom_metrics": {}, "iterations_since_restore": 462, "episodes_this_iter": 76, "episode_reward_min": -87.00423157440254, "date": "2025-09-04_21-04-42", "episode_reward_max": 8.00011506562049, "pid": 3651948, "timestamp": 1757012682, "episode_reward_mean": -15.492103045760286, "time_total_s": 17506.31477212906, "episodes_total": 18193, "episode_len_mean": 15.58}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 17547.55945444107, "info": {"sample_time_ms": 40959.104, "num_steps_trained": 555600, "grad_time_ms": 375.928, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 257.6145935058594, "policy_loss": -0.15277798473834991, "vf_explained_var": 0.05817045271396637, "entropy": 8.55958366394043, "cur_lr": 4.999999873689376e-05, "total_loss": 257.4984130859375, "kl": 0.01608334667980671}, "load_time_ms": 0.715, "num_steps_sampled": 555600, "update_time_ms": 2.65}, "training_iteration": 463, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.24468231201172, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 555600, "timesteps_total": 555600, "custom_metrics": {}, "iterations_since_restore": 463, "episodes_this_iter": 73, "episode_reward_min": -87.47294627550268, "date": "2025-09-04_21-05-24", "episode_reward_max": 8.000169021854774, "pid": 3651948, "timestamp": 1757012724, "episode_reward_mean": -16.830785683922095, "time_total_s": 17547.55945444107, "episodes_total": 18266, "episode_len_mean": 16.2}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 17589.918608427048, "info": {"sample_time_ms": 40961.879, "num_steps_trained": 556800, "grad_time_ms": 376.652, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 211.51295471191406, "policy_loss": -0.1506921648979187, "vf_explained_var": 0.04846331849694252, "entropy": 8.07451343536377, "cur_lr": 4.999999873689376e-05, "total_loss": 211.39886474609375, "kl": 0.016063140705227852}, "load_time_ms": 0.724, "num_steps_sampled": 556800, "update_time_ms": 2.646}, "training_iteration": 464, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.35915398597717, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 556800, "timesteps_total": 556800, "custom_metrics": {}, "iterations_since_restore": 464, "episodes_this_iter": 96, "episode_reward_min": -84.9705695047172, "date": "2025-09-04_21-06-06", "episode_reward_max": 8.00009345027309, "pid": 3651948, "timestamp": 1757012766, "episode_reward_mean": -10.908602615462316, "time_total_s": 17589.918608427048, "episodes_total": 18362, "episode_len_mean": 12.85}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 17631.50919151306, "info": {"sample_time_ms": 40890.134, "num_steps_trained": 558000, "grad_time_ms": 374.93, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 307.7181091308594, "policy_loss": -0.1529518961906433, "vf_explained_var": 0.03323771059513092, "entropy": 8.194103240966797, "cur_lr": 4.999999873689376e-05, "total_loss": 307.5993347167969, "kl": 0.014989580027759075}, "load_time_ms": 0.714, "num_steps_sampled": 558000, "update_time_ms": 2.64}, "training_iteration": 465, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.590583086013794, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 558000, "timesteps_total": 558000, "custom_metrics": {}, "iterations_since_restore": 465, "episodes_this_iter": 72, "episode_reward_min": -85.39355564165294, "date": "2025-09-04_21-06-47", "episode_reward_max": 8.000000981212601, "pid": 3651948, "timestamp": 1757012807, "episode_reward_mean": -16.09407457830146, "time_total_s": 17631.50919151306, "episodes_total": 18434, "episode_len_mean": 15.67}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 17672.830092430115, "info": {"sample_time_ms": 40845.424, "num_steps_trained": 559200, "grad_time_ms": 373.882, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 324.7706298828125, "policy_loss": -0.14864295721054077, "vf_explained_var": 0.07129890471696854, "entropy": 8.121540069580078, "cur_lr": 4.999999873689376e-05, "total_loss": 324.65435791015625, "kl": 0.014201385900378227}, "load_time_ms": 0.734, "num_steps_sampled": 559200, "update_time_ms": 2.645}, "training_iteration": 466, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.32090091705322, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 559200, "timesteps_total": 559200, "custom_metrics": {}, "iterations_since_restore": 466, "episodes_this_iter": 72, "episode_reward_min": -86.69817533466964, "date": "2025-09-04_21-07-29", "episode_reward_max": 8.000000981212601, "pid": 3651948, "timestamp": 1757012849, "episode_reward_mean": -17.88563546355931, "time_total_s": 17672.830092430115, "episodes_total": 18506, "episode_len_mean": 16.68}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 17714.86853003502, "info": {"sample_time_ms": 40790.17, "num_steps_trained": 560400, "grad_time_ms": 373.663, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 305.15966796875, "policy_loss": -0.14870496094226837, "vf_explained_var": 0.050349798053503036, "entropy": 8.24783992767334, "cur_lr": 4.999999873689376e-05, "total_loss": 305.0430908203125, "kl": 0.014107043854892254}, "load_time_ms": 0.727, "num_steps_sampled": 560400, "update_time_ms": 2.617}, "training_iteration": 467, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.038437604904175, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 560400, "timesteps_total": 560400, "custom_metrics": {}, "iterations_since_restore": 467, "episodes_this_iter": 73, "episode_reward_min": -87.01498676038369, "date": "2025-09-04_21-08-11", "episode_reward_max": 8.000242708047294, "pid": 3651948, "timestamp": 1757012891, "episode_reward_mean": -16.99994393394948, "time_total_s": 17714.86853003502, "episodes_total": 18579, "episode_len_mean": 16.14}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 17757.885385751724, "info": {"sample_time_ms": 40925.756, "num_steps_trained": 561600, "grad_time_ms": 372.726, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 267.5435791015625, "policy_loss": -0.15850119292736053, "vf_explained_var": 0.04324857518076897, "entropy": 8.296599388122559, "cur_lr": 4.999999873689376e-05, "total_loss": 267.42022705078125, "kl": 0.015434009954333305}, "load_time_ms": 0.741, "num_steps_sampled": 561600, "update_time_ms": 2.627}, "training_iteration": 468, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.01685571670532, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 561600, "timesteps_total": 561600, "custom_metrics": {}, "iterations_since_restore": 468, "episodes_this_iter": 76, "episode_reward_min": -84.67355768924301, "date": "2025-09-04_21-08-54", "episode_reward_max": 8.000242708047294, "pid": 3651948, "timestamp": 1757012934, "episode_reward_mean": -17.36202630460213, "time_total_s": 17757.885385751724, "episodes_total": 18655, "episode_len_mean": 16.49}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 17800.227256536484, "info": {"sample_time_ms": 41243.709, "num_steps_trained": 562800, "grad_time_ms": 370.323, "default": {"cur_kl_coeff": 2.278125047683716, "vf_loss": 196.42506408691406, "policy_loss": -0.1404145359992981, "vf_explained_var": 0.0622972697019577, "entropy": 8.130264282226562, "cur_lr": 4.999999873689376e-05, "total_loss": 196.33262634277344, "kl": 0.021073700860142708}, "load_time_ms": 0.741, "num_steps_sampled": 562800, "update_time_ms": 2.608}, "training_iteration": 469, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.34187078475952, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 562800, "timesteps_total": 562800, "custom_metrics": {}, "iterations_since_restore": 469, "episodes_this_iter": 82, "episode_reward_min": -83.35466161554041, "date": "2025-09-04_21-09-36", "episode_reward_max": 8.000000400449515, "pid": 3651948, "timestamp": 1757012976, "episode_reward_mean": -14.09392057265725, "time_total_s": 17800.227256536484, "episodes_total": 18737, "episode_len_mean": 14.71}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 17842.053878068924, "info": {"sample_time_ms": 41456.792, "num_steps_trained": 564000, "grad_time_ms": 371.673, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 225.6439208984375, "policy_loss": -0.1375613808631897, "vf_explained_var": 0.08121463656425476, "entropy": 8.127840042114258, "cur_lr": 4.999999873689376e-05, "total_loss": 225.542724609375, "kl": 0.010645460337400436}, "load_time_ms": 0.74, "num_steps_sampled": 564000, "update_time_ms": 2.589}, "training_iteration": 470, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.826621532440186, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 564000, "timesteps_total": 564000, "custom_metrics": {}, "iterations_since_restore": 470, "episodes_this_iter": 84, "episode_reward_min": -87.60770839305536, "date": "2025-09-04_21-10-18", "episode_reward_max": 8.000000406113983, "pid": 3651948, "timestamp": 1757013018, "episode_reward_mean": -12.47544421668838, "time_total_s": 17842.053878068924, "episodes_total": 18821, "episode_len_mean": 13.76}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 17883.36307120323, "info": {"sample_time_ms": 41484.563, "num_steps_trained": 565200, "grad_time_ms": 368.478, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 395.8850402832031, "policy_loss": -0.1417011171579361, "vf_explained_var": 0.0316615104675293, "entropy": 8.629416465759277, "cur_lr": 4.999999873689376e-05, "total_loss": 395.7802429199219, "kl": 0.010803967714309692}, "load_time_ms": 0.731, "num_steps_sampled": 565200, "update_time_ms": 2.635}, "training_iteration": 471, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.30919313430786, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 565200, "timesteps_total": 565200, "custom_metrics": {}, "iterations_since_restore": 471, "episodes_this_iter": 79, "episode_reward_min": -87.47708512475148, "date": "2025-09-04_21-11-00", "episode_reward_max": 8.000576421701625, "pid": 3651948, "timestamp": 1757013060, "episode_reward_mean": -13.227012858516819, "time_total_s": 17883.36307120323, "episodes_total": 18900, "episode_len_mean": 14.02}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 17924.94619822502, "info": {"sample_time_ms": 41484.285, "num_steps_trained": 566400, "grad_time_ms": 370.58, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 314.4154968261719, "policy_loss": -0.15358594059944153, "vf_explained_var": 0.04043276980519295, "entropy": 8.475257873535156, "cur_lr": 4.999999873689376e-05, "total_loss": 314.2979736328125, "kl": 0.010557727888226509}, "load_time_ms": 0.737, "num_steps_sampled": 566400, "update_time_ms": 2.607}, "training_iteration": 472, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.58312702178955, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 566400, "timesteps_total": 566400, "custom_metrics": {}, "iterations_since_restore": 472, "episodes_this_iter": 76, "episode_reward_min": -87.13177188269114, "date": "2025-09-04_21-11-41", "episode_reward_max": 8.000055159235595, "pid": 3651948, "timestamp": 1757013101, "episode_reward_mean": -16.99260804384653, "time_total_s": 17924.94619822502, "episodes_total": 18976, "episode_len_mean": 16.12}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 17966.750247716904, "info": {"sample_time_ms": 41542.479, "num_steps_trained": 567600, "grad_time_ms": 368.348, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 273.8243103027344, "policy_loss": -0.1353476345539093, "vf_explained_var": 0.05185036361217499, "entropy": 8.484976768493652, "cur_lr": 4.999999873689376e-05, "total_loss": 273.7279052734375, "kl": 0.011385568417608738}, "load_time_ms": 0.728, "num_steps_sampled": 567600, "update_time_ms": 2.625}, "training_iteration": 473, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.804049491882324, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 567600, "timesteps_total": 567600, "custom_metrics": {}, "iterations_since_restore": 473, "episodes_this_iter": 81, "episode_reward_min": -86.55932765284689, "date": "2025-09-04_21-12-23", "episode_reward_max": 8.000000588705433, "pid": 3651948, "timestamp": 1757013143, "episode_reward_mean": -13.989362262801153, "time_total_s": 17966.750247716904, "episodes_total": 19057, "episode_len_mean": 14.53}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 18008.82496738434, "info": {"sample_time_ms": 41517.291, "num_steps_trained": 568800, "grad_time_ms": 365.168, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 256.0528564453125, "policy_loss": -0.15473327040672302, "vf_explained_var": 0.0509008951485157, "entropy": 7.856842994689941, "cur_lr": 4.999999873689376e-05, "total_loss": 255.9336700439453, "kl": 0.010404815897345543}, "load_time_ms": 0.716, "num_steps_sampled": 568800, "update_time_ms": 2.63}, "training_iteration": 474, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.07471966743469, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 568800, "timesteps_total": 568800, "custom_metrics": {}, "iterations_since_restore": 474, "episodes_this_iter": 83, "episode_reward_min": -81.52972203296628, "date": "2025-09-04_21-13-05", "episode_reward_max": 8.0002414412144, "pid": 3651948, "timestamp": 1757013185, "episode_reward_mean": -14.391012181483756, "time_total_s": 18008.82496738434, "episodes_total": 19140, "episode_len_mean": 14.68}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 18050.66978764534, "info": {"sample_time_ms": 41542.297, "num_steps_trained": 570000, "grad_time_ms": 365.636, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 308.62677001953125, "policy_loss": -0.1460433006286621, "vf_explained_var": 0.03346286341547966, "entropy": 8.371639251708984, "cur_lr": 4.999999873689376e-05, "total_loss": 308.5193786621094, "kl": 0.011313981376588345}, "load_time_ms": 0.727, "num_steps_sampled": 570000, "update_time_ms": 2.634}, "training_iteration": 475, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.84482026100159, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 570000, "timesteps_total": 570000, "custom_metrics": {}, "iterations_since_restore": 475, "episodes_this_iter": 69, "episode_reward_min": -85.97524171398528, "date": "2025-09-04_21-13-47", "episode_reward_max": 8.0002414412144, "pid": 3651948, "timestamp": 1757013227, "episode_reward_mean": -19.02973859829269, "time_total_s": 18050.66978764534, "episodes_total": 19209, "episode_len_mean": 17.31}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 18092.151755332947, "info": {"sample_time_ms": 41557.563, "num_steps_trained": 571200, "grad_time_ms": 366.533, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 319.2445068359375, "policy_loss": -0.13714276254177094, "vf_explained_var": 0.04726093262434006, "entropy": 7.806724548339844, "cur_lr": 4.999999873689376e-05, "total_loss": 319.1560363769531, "kl": 0.014237035065889359}, "load_time_ms": 0.704, "num_steps_sampled": 571200, "update_time_ms": 2.595}, "training_iteration": 476, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.48196768760681, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 571200, "timesteps_total": 571200, "custom_metrics": {}, "iterations_since_restore": 476, "episodes_this_iter": 78, "episode_reward_min": -87.78543487703158, "date": "2025-09-04_21-14-28", "episode_reward_max": 8.001416105329282, "pid": 3651948, "timestamp": 1757013268, "episode_reward_mean": -14.876747676421784, "time_total_s": 18092.151755332947, "episodes_total": 19287, "episode_len_mean": 14.96}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 18134.105527162552, "info": {"sample_time_ms": 41548.717, "num_steps_trained": 572400, "grad_time_ms": 366.91, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 217.2244110107422, "policy_loss": -0.15130357444286346, "vf_explained_var": 0.03335639461874962, "entropy": 7.664278507232666, "cur_lr": 4.999999873689376e-05, "total_loss": 217.1077423095703, "kl": 0.010144203901290894}, "load_time_ms": 0.705, "num_steps_sampled": 572400, "update_time_ms": 2.613}, "training_iteration": 477, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.9537718296051, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 572400, "timesteps_total": 572400, "custom_metrics": {}, "iterations_since_restore": 477, "episodes_this_iter": 90, "episode_reward_min": -85.62620526679551, "date": "2025-09-04_21-15-10", "episode_reward_max": 8.000000408650061, "pid": 3651948, "timestamp": 1757013310, "episode_reward_mean": -11.832322942400586, "time_total_s": 18134.105527162552, "episodes_total": 19377, "episode_len_mean": 13.26}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 18176.570024728775, "info": {"sample_time_ms": 41490.993, "num_steps_trained": 573600, "grad_time_ms": 369.408, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 240.44708251953125, "policy_loss": -0.13824151456356049, "vf_explained_var": 0.041959889233112335, "entropy": 8.172922134399414, "cur_lr": 4.999999873689376e-05, "total_loss": 240.34580993652344, "kl": 0.010818732902407646}, "load_time_ms": 0.724, "num_steps_sampled": 573600, "update_time_ms": 2.572}, "training_iteration": 478, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.464497566223145, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 573600, "timesteps_total": 573600, "custom_metrics": {}, "iterations_since_restore": 478, "episodes_this_iter": 82, "episode_reward_min": -86.89646622239142, "date": "2025-09-04_21-15-53", "episode_reward_max": 8.000167905287384, "pid": 3651948, "timestamp": 1757013353, "episode_reward_mean": -13.68312573920506, "time_total_s": 18176.570024728775, "episodes_total": 19459, "episode_len_mean": 14.43}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 18218.882836580276, "info": {"sample_time_ms": 41485.94, "num_steps_trained": 574800, "grad_time_ms": 371.547, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 191.9720916748047, "policy_loss": -0.14333170652389526, "vf_explained_var": 0.0873849019408226, "entropy": 8.113423347473145, "cur_lr": 4.999999873689376e-05, "total_loss": 191.86610412597656, "kl": 0.01093095913529396}, "load_time_ms": 0.719, "num_steps_sampled": 574800, "update_time_ms": 2.558}, "training_iteration": 479, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.312811851501465, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 574800, "timesteps_total": 574800, "custom_metrics": {}, "iterations_since_restore": 479, "episodes_this_iter": 85, "episode_reward_min": -69.91975954756731, "date": "2025-09-04_21-16-35", "episode_reward_max": 8.0024867008069, "pid": 3651948, "timestamp": 1757013395, "episode_reward_mean": -11.845564886456053, "time_total_s": 18218.882836580276, "episodes_total": 19544, "episode_len_mean": 13.47}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 18260.60901069641, "info": {"sample_time_ms": 41477.532, "num_steps_trained": 576000, "grad_time_ms": 369.917, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 255.5122833251953, "policy_loss": -0.14694522321224213, "vf_explained_var": 0.0370616652071476, "entropy": 7.742955684661865, "cur_lr": 4.999999873689376e-05, "total_loss": 255.4047088623047, "kl": 0.011521845124661922}, "load_time_ms": 0.712, "num_steps_sampled": 576000, "update_time_ms": 2.582}, "training_iteration": 480, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.726174116134644, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 576000, "timesteps_total": 576000, "custom_metrics": {}, "iterations_since_restore": 480, "episodes_this_iter": 80, "episode_reward_min": -69.38365356743621, "date": "2025-09-04_21-17-17", "episode_reward_max": 8.0024867008069, "pid": 3651948, "timestamp": 1757013437, "episode_reward_mean": -14.388228990457339, "time_total_s": 18260.60901069641, "episodes_total": 19624, "episode_len_mean": 14.88}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 18302.56862616539, "info": {"sample_time_ms": 41542.479, "num_steps_trained": 577200, "grad_time_ms": 369.968, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 239.53497314453125, "policy_loss": -0.15021011233329773, "vf_explained_var": 0.06270802021026611, "entropy": 8.896788597106934, "cur_lr": 4.999999873689376e-05, "total_loss": 239.42184448242188, "kl": 0.010851171799004078}, "load_time_ms": 0.705, "num_steps_sampled": 577200, "update_time_ms": 2.632}, "training_iteration": 481, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.95961546897888, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 577200, "timesteps_total": 577200, "custom_metrics": {}, "iterations_since_restore": 481, "episodes_this_iter": 74, "episode_reward_min": -83.22713405036208, "date": "2025-09-04_21-17-59", "episode_reward_max": 8.00002845257644, "pid": 3651948, "timestamp": 1757013479, "episode_reward_mean": -16.78376223473995, "time_total_s": 18302.56862616539, "episodes_total": 19698, "episode_len_mean": 16.22}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 18344.443053245544, "info": {"sample_time_ms": 41571.379, "num_steps_trained": 578400, "grad_time_ms": 370.209, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 243.20068359375, "policy_loss": -0.15146000683307648, "vf_explained_var": 0.07553044706583023, "entropy": 8.30219554901123, "cur_lr": 4.999999873689376e-05, "total_loss": 243.08531188964844, "kl": 0.010568010620772839}, "load_time_ms": 0.715, "num_steps_sampled": 578400, "update_time_ms": 2.637}, "training_iteration": 482, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.87442708015442, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 578400, "timesteps_total": 578400, "custom_metrics": {}, "iterations_since_restore": 482, "episodes_this_iter": 82, "episode_reward_min": -82.03602098541046, "date": "2025-09-04_21-18-41", "episode_reward_max": 8.000262047940932, "pid": 3651948, "timestamp": 1757013521, "episode_reward_mean": -13.913369093101737, "time_total_s": 18344.443053245544, "episodes_total": 19780, "episode_len_mean": 14.57}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 18387.00535440445, "info": {"sample_time_ms": 41644.671, "num_steps_trained": 579600, "grad_time_ms": 372.728, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 294.4358825683594, "policy_loss": -0.14570266008377075, "vf_explained_var": 0.04153982922434807, "entropy": 8.038591384887695, "cur_lr": 4.999999873689376e-05, "total_loss": 294.3316650390625, "kl": 0.012156561017036438}, "load_time_ms": 0.714, "num_steps_sampled": 579600, "update_time_ms": 2.626}, "training_iteration": 483, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.56230115890503, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 579600, "timesteps_total": 579600, "custom_metrics": {}, "iterations_since_restore": 483, "episodes_this_iter": 86, "episode_reward_min": -85.34388832913162, "date": "2025-09-04_21-19-23", "episode_reward_max": 8.000020010806644, "pid": 3651948, "timestamp": 1757013563, "episode_reward_mean": -13.433089765628749, "time_total_s": 18387.00535440445, "episodes_total": 19866, "episode_len_mean": 14.17}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 18428.3811314106, "info": {"sample_time_ms": 41574.855, "num_steps_trained": 580800, "grad_time_ms": 372.621, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 251.95838928222656, "policy_loss": -0.140852153301239, "vf_explained_var": 0.05595090612769127, "entropy": 8.06338119506836, "cur_lr": 4.999999873689376e-05, "total_loss": 251.8585662841797, "kl": 0.012006484903395176}, "load_time_ms": 0.71, "num_steps_sampled": 580800, "update_time_ms": 2.641}, "training_iteration": 484, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.37577700614929, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 580800, "timesteps_total": 580800, "custom_metrics": {}, "iterations_since_restore": 484, "episodes_this_iter": 82, "episode_reward_min": -85.5026981462562, "date": "2025-09-04_21-20-05", "episode_reward_max": 8.000003756576547, "pid": 3651948, "timestamp": 1757013605, "episode_reward_mean": -15.357466498791851, "time_total_s": 18428.3811314106, "episodes_total": 19948, "episode_len_mean": 15.33}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 18470.653317928314, "info": {"sample_time_ms": 41618.58, "num_steps_trained": 582000, "grad_time_ms": 371.639, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 226.7355194091797, "policy_loss": -0.13351666927337646, "vf_explained_var": 0.044881563633680344, "entropy": 7.895392417907715, "cur_lr": 4.999999873689376e-05, "total_loss": 226.64395141601562, "kl": 0.012266373261809349}, "load_time_ms": 0.707, "num_steps_sampled": 582000, "update_time_ms": 2.634}, "training_iteration": 485, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.272186517715454, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 582000, "timesteps_total": 582000, "custom_metrics": {}, "iterations_since_restore": 485, "episodes_this_iter": 91, "episode_reward_min": -85.5026981462562, "date": "2025-09-04_21-20-47", "episode_reward_max": 8.0001818373437, "pid": 3651948, "timestamp": 1757013647, "episode_reward_mean": -11.712298226184485, "time_total_s": 18470.653317928314, "episodes_total": 20039, "episode_len_mean": 13.24}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 18512.860308885574, "info": {"sample_time_ms": 41691.245, "num_steps_trained": 583200, "grad_time_ms": 371.496, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 177.91851806640625, "policy_loss": -0.14544419944286346, "vf_explained_var": 0.062186818569898605, "entropy": 7.850541114807129, "cur_lr": 4.999999873689376e-05, "total_loss": 177.8248291015625, "kl": 0.015139114111661911}, "load_time_ms": 0.705, "num_steps_sampled": 583200, "update_time_ms": 2.619}, "training_iteration": 486, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.20699095726013, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 583200, "timesteps_total": 583200, "custom_metrics": {}, "iterations_since_restore": 486, "episodes_this_iter": 87, "episode_reward_min": -72.88723044974441, "date": "2025-09-04_21-21-29", "episode_reward_max": 8.000000425461572, "pid": 3651948, "timestamp": 1757013689, "episode_reward_mean": -13.211649018999122, "time_total_s": 18512.860308885574, "episodes_total": 20126, "episode_len_mean": 14.18}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 18554.72178196907, "info": {"sample_time_ms": 41681.549, "num_steps_trained": 584400, "grad_time_ms": 371.942, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 220.20993041992188, "policy_loss": -0.1493559181690216, "vf_explained_var": 0.05542575567960739, "entropy": 8.345026969909668, "cur_lr": 4.999999873689376e-05, "total_loss": 220.09539794921875, "kl": 0.010188949294388294}, "load_time_ms": 0.715, "num_steps_sampled": 584400, "update_time_ms": 2.579}, "training_iteration": 487, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.861473083496094, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 584400, "timesteps_total": 584400, "custom_metrics": {}, "iterations_since_restore": 487, "episodes_this_iter": 84, "episode_reward_min": -85.36710238689737, "date": "2025-09-04_21-22-11", "episode_reward_max": 8.00017241267457, "pid": 3651948, "timestamp": 1757013731, "episode_reward_mean": -13.453084415477218, "time_total_s": 18554.72178196907, "episodes_total": 20210, "episode_len_mean": 14.39}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 18596.359052419662, "info": {"sample_time_ms": 41599.759, "num_steps_trained": 585600, "grad_time_ms": 370.993, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 154.37660217285156, "policy_loss": -0.1398123949766159, "vf_explained_var": 0.03538002073764801, "entropy": 8.030010223388672, "cur_lr": 4.999999873689376e-05, "total_loss": 154.27552795410156, "kl": 0.011330515146255493}, "load_time_ms": 0.703, "num_steps_sampled": 585600, "update_time_ms": 2.596}, "training_iteration": 488, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.63727045059204, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 585600, "timesteps_total": 585600, "custom_metrics": {}, "iterations_since_restore": 488, "episodes_this_iter": 83, "episode_reward_min": -58.349158582427094, "date": "2025-09-04_21-22-53", "episode_reward_max": 8.000038198750534, "pid": 3651948, "timestamp": 1757013773, "episode_reward_mean": -13.73840384895593, "time_total_s": 18596.359052419662, "episodes_total": 20293, "episode_len_mean": 14.61}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 18639.371886968613, "info": {"sample_time_ms": 41672.031, "num_steps_trained": 586800, "grad_time_ms": 368.754, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 298.9637145996094, "policy_loss": -0.14437498152256012, "vf_explained_var": 0.036520641297101974, "entropy": 8.234903335571289, "cur_lr": 4.999999873689376e-05, "total_loss": 298.8560485839844, "kl": 0.010744307190179825}, "load_time_ms": 0.705, "num_steps_sampled": 586800, "update_time_ms": 2.59}, "training_iteration": 489, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.012834548950195, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 586800, "timesteps_total": 586800, "custom_metrics": {}, "iterations_since_restore": 489, "episodes_this_iter": 76, "episode_reward_min": -83.90387052434679, "date": "2025-09-04_21-23-36", "episode_reward_max": 8.000121486043561, "pid": 3651948, "timestamp": 1757013816, "episode_reward_mean": -14.819772329091979, "time_total_s": 18639.371886968613, "episodes_total": 20369, "episode_len_mean": 15.26}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 18680.802632570267, "info": {"sample_time_ms": 41642.37, "num_steps_trained": 588000, "grad_time_ms": 368.84, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 270.6208190917969, "policy_loss": -0.14302177727222443, "vf_explained_var": 0.035059988498687744, "entropy": 8.234389305114746, "cur_lr": 4.999999873689376e-05, "total_loss": 270.5148010253906, "kl": 0.010817685164511204}, "load_time_ms": 0.714, "num_steps_sampled": 588000, "update_time_ms": 2.569}, "training_iteration": 490, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.43074560165405, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 588000, "timesteps_total": 588000, "custom_metrics": {}, "iterations_since_restore": 490, "episodes_this_iter": 82, "episode_reward_min": -88.57029168170826, "date": "2025-09-04_21-24-17", "episode_reward_max": 8.00024900433902, "pid": 3651948, "timestamp": 1757013857, "episode_reward_mean": -16.010917741917307, "time_total_s": 18680.802632570267, "episodes_total": 20451, "episode_len_mean": 15.75}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 18722.966340780258, "info": {"sample_time_ms": 41662.296, "num_steps_trained": 589200, "grad_time_ms": 369.404, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 308.23187255859375, "policy_loss": -0.1413438767194748, "vf_explained_var": 0.05475946143269539, "entropy": 8.307570457458496, "cur_lr": 4.999999873689376e-05, "total_loss": 308.12884521484375, "kl": 0.011216908693313599}, "load_time_ms": 0.712, "num_steps_sampled": 589200, "update_time_ms": 2.459}, "training_iteration": 491, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.163708209991455, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 589200, "timesteps_total": 589200, "custom_metrics": {}, "iterations_since_restore": 491, "episodes_this_iter": 84, "episode_reward_min": -85.10439443954823, "date": "2025-09-04_21-25-00", "episode_reward_max": 8.000032190182104, "pid": 3651948, "timestamp": 1757013900, "episode_reward_mean": -13.215847781637063, "time_total_s": 18722.966340780258, "episodes_total": 20535, "episode_len_mean": 14.19}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 18764.273517370224, "info": {"sample_time_ms": 41606.297, "num_steps_trained": 590400, "grad_time_ms": 368.711, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 333.9530944824219, "policy_loss": -0.12836137413978577, "vf_explained_var": 0.023143529891967773, "entropy": 8.049270629882812, "cur_lr": 4.999999873689376e-05, "total_loss": 333.8704528808594, "kl": 0.013377728872001171}, "load_time_ms": 0.704, "num_steps_sampled": 590400, "update_time_ms": 2.461}, "training_iteration": 492, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.30717658996582, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 590400, "timesteps_total": 590400, "custom_metrics": {}, "iterations_since_restore": 492, "episodes_this_iter": 75, "episode_reward_min": -90.14017845056321, "date": "2025-09-04_21-25-41", "episode_reward_max": 8.000000400039598, "pid": 3651948, "timestamp": 1757013941, "episode_reward_mean": -15.350974614268544, "time_total_s": 18764.273517370224, "episodes_total": 20610, "episode_len_mean": 15.16}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 18805.587491750717, "info": {"sample_time_ms": 41481.795, "num_steps_trained": 591600, "grad_time_ms": 368.342, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 322.06427001953125, "policy_loss": -0.14064206182956696, "vf_explained_var": 0.023292958736419678, "entropy": 7.97336483001709, "cur_lr": 4.999999873689376e-05, "total_loss": 321.9604187011719, "kl": 0.010765206068754196}, "load_time_ms": 0.716, "num_steps_sampled": 591600, "update_time_ms": 2.462}, "training_iteration": 493, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.313974380493164, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 591600, "timesteps_total": 591600, "custom_metrics": {}, "iterations_since_restore": 493, "episodes_this_iter": 80, "episode_reward_min": -86.66675106723396, "date": "2025-09-04_21-26-22", "episode_reward_max": 8.000050889980269, "pid": 3651948, "timestamp": 1757013982, "episode_reward_mean": -15.626723614996253, "time_total_s": 18805.587491750717, "episodes_total": 20690, "episode_len_mean": 15.24}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 18847.166501522064, "info": {"sample_time_ms": 41501.811, "num_steps_trained": 592800, "grad_time_ms": 368.62, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 320.3753662109375, "policy_loss": -0.15322066843509674, "vf_explained_var": 0.052800972014665604, "entropy": 8.03237533569336, "cur_lr": 4.999999873689376e-05, "total_loss": 320.260009765625, "kl": 0.011088002473115921}, "load_time_ms": 0.714, "num_steps_sampled": 592800, "update_time_ms": 2.497}, "training_iteration": 494, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.579009771347046, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 592800, "timesteps_total": 592800, "custom_metrics": {}, "iterations_since_restore": 494, "episodes_this_iter": 76, "episode_reward_min": -86.6857093331291, "date": "2025-09-04_21-27-04", "episode_reward_max": 8.000071705452596, "pid": 3651948, "timestamp": 1757014024, "episode_reward_mean": -13.958478779205585, "time_total_s": 18847.166501522064, "episodes_total": 20766, "episode_len_mean": 14.54}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 18890.30220270157, "info": {"sample_time_ms": 41586.374, "num_steps_trained": 594000, "grad_time_ms": 370.329, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 176.98995971679688, "policy_loss": -0.1451566517353058, "vf_explained_var": 0.05666474997997284, "entropy": 7.881124019622803, "cur_lr": 4.999999873689376e-05, "total_loss": 176.88229370117188, "kl": 0.010970203205943108}, "load_time_ms": 0.714, "num_steps_sampled": 594000, "update_time_ms": 2.497}, "training_iteration": 495, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.135701179504395, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 594000, "timesteps_total": 594000, "custom_metrics": {}, "iterations_since_restore": 495, "episodes_this_iter": 101, "episode_reward_min": -83.68284583938473, "date": "2025-09-04_21-27-47", "episode_reward_max": 8.000077517396324, "pid": 3651948, "timestamp": 1757014067, "episode_reward_mean": -10.270964668990766, "time_total_s": 18890.30220270157, "episodes_total": 20867, "episode_len_mean": 12.465346534653465}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 18931.804030179977, "info": {"sample_time_ms": 41515.342, "num_steps_trained": 595200, "grad_time_ms": 370.796, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 217.40060424804688, "policy_loss": -0.1363876461982727, "vf_explained_var": 0.04078206792473793, "entropy": 8.477455139160156, "cur_lr": 4.999999873689376e-05, "total_loss": 217.304443359375, "kl": 0.011769948527216911}, "load_time_ms": 0.719, "num_steps_sampled": 595200, "update_time_ms": 2.488}, "training_iteration": 496, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.50182747840881, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 595200, "timesteps_total": 595200, "custom_metrics": {}, "iterations_since_restore": 496, "episodes_this_iter": 87, "episode_reward_min": -81.89818780485777, "date": "2025-09-04_21-28-28", "episode_reward_max": 8.000077897314387, "pid": 3651948, "timestamp": 1757014108, "episode_reward_mean": -11.506748530268467, "time_total_s": 18931.804030179977, "episodes_total": 20954, "episode_len_mean": 13.3}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 18973.457051038742, "info": {"sample_time_ms": 41494.912, "num_steps_trained": 596400, "grad_time_ms": 370.361, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 191.2285919189453, "policy_loss": -0.142458975315094, "vf_explained_var": 0.02932678908109665, "entropy": 7.927573204040527, "cur_lr": 4.999999873689376e-05, "total_loss": 191.1237030029297, "kl": 0.010983546264469624}, "load_time_ms": 0.705, "num_steps_sampled": 596400, "update_time_ms": 2.547}, "training_iteration": 497, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.65302085876465, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 596400, "timesteps_total": 596400, "custom_metrics": {}, "iterations_since_restore": 497, "episodes_this_iter": 87, "episode_reward_min": -85.96878336102286, "date": "2025-09-04_21-29-10", "episode_reward_max": 8.000152657205481, "pid": 3651948, "timestamp": 1757014150, "episode_reward_mean": -12.040197633921432, "time_total_s": 18973.457051038742, "episodes_total": 21041, "episode_len_mean": 13.56}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 19015.47111916542, "info": {"sample_time_ms": 41533.256, "num_steps_trained": 597600, "grad_time_ms": 369.677, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 171.41409301757812, "policy_loss": -0.13801419734954834, "vf_explained_var": 0.07307276874780655, "entropy": 7.996822834014893, "cur_lr": 4.999999873689376e-05, "total_loss": 171.31585693359375, "kl": 0.011637212708592415}, "load_time_ms": 0.69, "num_steps_sampled": 597600, "update_time_ms": 2.56}, "training_iteration": 498, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.01406812667847, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 597600, "timesteps_total": 597600, "custom_metrics": {}, "iterations_since_restore": 498, "episodes_this_iter": 97, "episode_reward_min": -81.78525146421343, "date": "2025-09-04_21-29-52", "episode_reward_max": 8.00011910772374, "pid": 3651948, "timestamp": 1757014192, "episode_reward_mean": -10.233689571593073, "time_total_s": 19015.47111916542, "episodes_total": 21138, "episode_len_mean": 12.48}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 19057.868161678314, "info": {"sample_time_ms": 41469.932, "num_steps_trained": 598800, "grad_time_ms": 371.355, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 203.18177795410156, "policy_loss": -0.14015284180641174, "vf_explained_var": 0.07815537601709366, "entropy": 8.00692367553711, "cur_lr": 4.999999873689376e-05, "total_loss": 203.07766723632812, "kl": 0.01054619625210762}, "load_time_ms": 0.688, "num_steps_sampled": 598800, "update_time_ms": 2.57}, "training_iteration": 499, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.39704251289368, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 598800, "timesteps_total": 598800, "custom_metrics": {}, "iterations_since_restore": 499, "episodes_this_iter": 98, "episode_reward_min": -84.37047594622636, "date": "2025-09-04_21-30-35", "episode_reward_max": 8.000067198878867, "pid": 3651948, "timestamp": 1757014235, "episode_reward_mean": -9.81541174713408, "time_total_s": 19057.868161678314, "episodes_total": 21236, "episode_len_mean": 12.29}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 19100.248570919037, "info": {"sample_time_ms": 41565.004, "num_steps_trained": 600000, "grad_time_ms": 371.225, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 228.5944061279297, "policy_loss": -0.13729991018772125, "vf_explained_var": 0.06894998252391815, "entropy": 8.258490562438965, "cur_lr": 4.999999873689376e-05, "total_loss": 228.5061798095703, "kl": 0.014364050701260567}, "load_time_ms": 0.68, "num_steps_sampled": 600000, "update_time_ms": 2.607}, "training_iteration": 500, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.380409240722656, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 600000, "timesteps_total": 600000, "custom_metrics": {}, "iterations_since_restore": 500, "episodes_this_iter": 107, "episode_reward_min": -85.03451509587148, "date": "2025-09-04_21-31-17", "episode_reward_max": 8.000095531447425, "pid": 3651948, "timestamp": 1757014277, "episode_reward_mean": -8.105283058888311, "time_total_s": 19100.248570919037, "episodes_total": 21343, "episode_len_mean": 11.233644859813085}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 19142.855487585068, "info": {"sample_time_ms": 41607.908, "num_steps_trained": 601200, "grad_time_ms": 372.662, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 235.8614044189453, "policy_loss": -0.14118488132953644, "vf_explained_var": 0.0441315695643425, "entropy": 7.8184638023376465, "cur_lr": 4.999999873689376e-05, "total_loss": 235.7564239501953, "kl": 0.010595940053462982}, "load_time_ms": 0.687, "num_steps_sampled": 601200, "update_time_ms": 2.622}, "training_iteration": 501, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.606916666030884, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 601200, "timesteps_total": 601200, "custom_metrics": {}, "iterations_since_restore": 501, "episodes_this_iter": 102, "episode_reward_min": -83.40710671169376, "date": "2025-09-04_21-32-00", "episode_reward_max": 8.000040356716635, "pid": 3651948, "timestamp": 1757014320, "episode_reward_mean": -8.77457060067311, "time_total_s": 19142.855487585068, "episodes_total": 21445, "episode_len_mean": 11.647058823529411}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 19185.00794363022, "info": {"sample_time_ms": 41693.855, "num_steps_trained": 602400, "grad_time_ms": 371.213, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 171.4715118408203, "policy_loss": -0.1402779221534729, "vf_explained_var": 0.05734093859791756, "entropy": 8.267672538757324, "cur_lr": 4.999999873689376e-05, "total_loss": 171.36724853515625, "kl": 0.010545175522565842}, "load_time_ms": 0.687, "num_steps_sampled": 602400, "update_time_ms": 2.637}, "training_iteration": 502, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.15245604515076, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 602400, "timesteps_total": 602400, "custom_metrics": {}, "iterations_since_restore": 502, "episodes_this_iter": 92, "episode_reward_min": -79.99049099733877, "date": "2025-09-04_21-32-42", "episode_reward_max": 8.000000510065377, "pid": 3651948, "timestamp": 1757014362, "episode_reward_mean": -11.151294582043896, "time_total_s": 19185.00794363022, "episodes_total": 21537, "episode_len_mean": 13.07}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 19226.318054676056, "info": {"sample_time_ms": 41693.802, "num_steps_trained": 603600, "grad_time_ms": 370.91, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 243.47238159179688, "policy_loss": -0.14067596197128296, "vf_explained_var": 0.0448896624147892, "entropy": 7.9817070960998535, "cur_lr": 4.999999873689376e-05, "total_loss": 243.37454223632812, "kl": 0.012534737586975098}, "load_time_ms": 0.685, "num_steps_sampled": 603600, "update_time_ms": 2.64}, "training_iteration": 503, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.3101110458374, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 603600, "timesteps_total": 603600, "custom_metrics": {}, "iterations_since_restore": 503, "episodes_this_iter": 82, "episode_reward_min": -85.32329285777173, "date": "2025-09-04_21-33-23", "episode_reward_max": 8.000089403141466, "pid": 3651948, "timestamp": 1757014403, "episode_reward_mean": -12.466998373239223, "time_total_s": 19226.318054676056, "episodes_total": 21619, "episode_len_mean": 13.69}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 19268.337609052658, "info": {"sample_time_ms": 41735.891, "num_steps_trained": 604800, "grad_time_ms": 372.908, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 214.1730194091797, "policy_loss": -0.1486336588859558, "vf_explained_var": 0.058973655104637146, "entropy": 7.902002334594727, "cur_lr": 4.999999873689376e-05, "total_loss": 214.05941772460938, "kl": 0.01025424711406231}, "load_time_ms": 0.687, "num_steps_sampled": 604800, "update_time_ms": 2.584}, "training_iteration": 504, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.01955437660217, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 604800, "timesteps_total": 604800, "custom_metrics": {}, "iterations_since_restore": 504, "episodes_this_iter": 88, "episode_reward_min": -85.55724740222443, "date": "2025-09-04_21-34-05", "episode_reward_max": 8.000128399267489, "pid": 3651948, "timestamp": 1757014445, "episode_reward_mean": -11.976474986293942, "time_total_s": 19268.337609052658, "episodes_total": 21707, "episode_len_mean": 13.49}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 19310.27505350113, "info": {"sample_time_ms": 41617.261, "num_steps_trained": 606000, "grad_time_ms": 371.731, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 231.47146606445312, "policy_loss": -0.14275382459163666, "vf_explained_var": 0.06723830848932266, "entropy": 7.642672061920166, "cur_lr": 4.999999873689376e-05, "total_loss": 231.36834716796875, "kl": 0.01160765066742897}, "load_time_ms": 0.675, "num_steps_sampled": 606000, "update_time_ms": 2.58}, "training_iteration": 505, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.93744444847107, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 606000, "timesteps_total": 606000, "custom_metrics": {}, "iterations_since_restore": 505, "episodes_this_iter": 99, "episode_reward_min": -85.36671799581443, "date": "2025-09-04_21-34-47", "episode_reward_max": 8.000237627338208, "pid": 3651948, "timestamp": 1757014487, "episode_reward_mean": -9.127520334398966, "time_total_s": 19310.27505350113, "episodes_total": 21806, "episode_len_mean": 11.79}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 19351.926946878433, "info": {"sample_time_ms": 41632.964, "num_steps_trained": 607200, "grad_time_ms": 371.038, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 272.1002502441406, "policy_loss": -0.14265893399715424, "vf_explained_var": 0.05283678323030472, "entropy": 8.153338432312012, "cur_lr": 4.999999873689376e-05, "total_loss": 271.9993896484375, "kl": 0.012219791300594807}, "load_time_ms": 0.672, "num_steps_sampled": 607200, "update_time_ms": 2.606}, "training_iteration": 506, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.65189337730408, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 607200, "timesteps_total": 607200, "custom_metrics": {}, "iterations_since_restore": 506, "episodes_this_iter": 80, "episode_reward_min": -83.23732806632651, "date": "2025-09-04_21-35-29", "episode_reward_max": 8.000237627338208, "pid": 3651948, "timestamp": 1757014529, "episode_reward_mean": -13.198573957128403, "time_total_s": 19351.926946878433, "episodes_total": 21886, "episode_len_mean": 14.29}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 19394.843361377716, "info": {"sample_time_ms": 41761.77, "num_steps_trained": 608400, "grad_time_ms": 368.611, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 275.6209716796875, "policy_loss": -0.14859682321548462, "vf_explained_var": 0.04044681042432785, "entropy": 7.9257965087890625, "cur_lr": 4.999999873689376e-05, "total_loss": 275.51068115234375, "kl": 0.011200634762644768}, "load_time_ms": 0.676, "num_steps_sampled": 608400, "update_time_ms": 2.591}, "training_iteration": 507, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.91641449928284, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 608400, "timesteps_total": 608400, "custom_metrics": {}, "iterations_since_restore": 507, "episodes_this_iter": 87, "episode_reward_min": -85.27599767400417, "date": "2025-09-04_21-36-12", "episode_reward_max": 8.0000977022113, "pid": 3651948, "timestamp": 1757014572, "episode_reward_mean": -12.962113395581076, "time_total_s": 19394.843361377716, "episodes_total": 21973, "episode_len_mean": 14.0}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 19437.19703555107, "info": {"sample_time_ms": 41795.476, "num_steps_trained": 609600, "grad_time_ms": 368.913, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 225.57896423339844, "policy_loss": -0.15414175391197205, "vf_explained_var": 0.04575726017355919, "entropy": 7.972322463989258, "cur_lr": 4.999999873689376e-05, "total_loss": 225.46044921875, "kl": 0.010422691702842712}, "load_time_ms": 0.672, "num_steps_sampled": 609600, "update_time_ms": 2.549}, "training_iteration": 508, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.3536741733551, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 609600, "timesteps_total": 609600, "custom_metrics": {}, "iterations_since_restore": 508, "episodes_this_iter": 91, "episode_reward_min": -83.26347834598693, "date": "2025-09-04_21-36-54", "episode_reward_max": 8.00026367214025, "pid": 3651948, "timestamp": 1757014614, "episode_reward_mean": -10.85026440743498, "time_total_s": 19437.19703555107, "episodes_total": 22064, "episode_len_mean": 12.9}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 19478.833067178726, "info": {"sample_time_ms": 41719.28, "num_steps_trained": 610800, "grad_time_ms": 368.994, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 202.0901641845703, "policy_loss": -0.14258527755737305, "vf_explained_var": 0.04914379119873047, "entropy": 7.961720943450928, "cur_lr": 4.999999873689376e-05, "total_loss": 201.99142456054688, "kl": 0.012831298634409904}, "load_time_ms": 0.672, "num_steps_sampled": 610800, "update_time_ms": 2.583}, "training_iteration": 509, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.63603162765503, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 610800, "timesteps_total": 610800, "custom_metrics": {}, "iterations_since_restore": 509, "episodes_this_iter": 86, "episode_reward_min": -84.14968091451667, "date": "2025-09-04_21-37-36", "episode_reward_max": 8.000110315983827, "pid": 3651948, "timestamp": 1757014656, "episode_reward_mean": -13.132585803095791, "time_total_s": 19478.833067178726, "episodes_total": 22150, "episode_len_mean": 14.16}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 19521.673230409622, "info": {"sample_time_ms": 41763.259, "num_steps_trained": 612000, "grad_time_ms": 370.994, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 169.8279266357422, "policy_loss": -0.16057568788528442, "vf_explained_var": 0.05376378074288368, "entropy": 8.064464569091797, "cur_lr": 4.999999873689376e-05, "total_loss": 169.70916748046875, "kl": 0.012240959331393242}, "load_time_ms": 0.687, "num_steps_sampled": 612000, "update_time_ms": 2.56}, "training_iteration": 510, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.840163230895996, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 612000, "timesteps_total": 612000, "custom_metrics": {}, "iterations_since_restore": 510, "episodes_this_iter": 94, "episode_reward_min": -55.10036498289578, "date": "2025-09-04_21-38-19", "episode_reward_max": 8.000166144923092, "pid": 3651948, "timestamp": 1757014699, "episode_reward_mean": -9.811099317125645, "time_total_s": 19521.673230409622, "episodes_total": 22244, "episode_len_mean": 12.41}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 19564.705486774445, "info": {"sample_time_ms": 41806.25, "num_steps_trained": 613200, "grad_time_ms": 370.523, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 187.50811767578125, "policy_loss": -0.1564158797264099, "vf_explained_var": 0.06112748384475708, "entropy": 7.912282943725586, "cur_lr": 4.999999873689376e-05, "total_loss": 187.3908233642578, "kl": 0.011446958407759666}, "load_time_ms": 0.69, "num_steps_sampled": 613200, "update_time_ms": 2.52}, "training_iteration": 511, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.03225636482239, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 613200, "timesteps_total": 613200, "custom_metrics": {}, "iterations_since_restore": 511, "episodes_this_iter": 95, "episode_reward_min": -82.31459558586661, "date": "2025-09-04_21-39-02", "episode_reward_max": 8.00001957593356, "pid": 3651948, "timestamp": 1757014742, "episode_reward_mean": -10.898860485843786, "time_total_s": 19564.705486774445, "episodes_total": 22339, "episode_len_mean": 12.88}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 19607.551896333694, "info": {"sample_time_ms": 41875.607, "num_steps_trained": 614400, "grad_time_ms": 370.587, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 234.76763916015625, "policy_loss": -0.13921450078487396, "vf_explained_var": 0.0512005016207695, "entropy": 7.785059452056885, "cur_lr": 4.999999873689376e-05, "total_loss": 234.6659393310547, "kl": 0.010978585109114647}, "load_time_ms": 0.69, "num_steps_sampled": 614400, "update_time_ms": 2.515}, "training_iteration": 512, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.84640955924988, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 614400, "timesteps_total": 614400, "custom_metrics": {}, "iterations_since_restore": 512, "episodes_this_iter": 92, "episode_reward_min": -86.59427325417099, "date": "2025-09-04_21-39-45", "episode_reward_max": 8.000028056359978, "pid": 3651948, "timestamp": 1757014785, "episode_reward_mean": -11.19351792817233, "time_total_s": 19607.551896333694, "episodes_total": 22431, "episode_len_mean": 12.97}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 19649.291892528534, "info": {"sample_time_ms": 41920.281, "num_steps_trained": 615600, "grad_time_ms": 368.975, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 283.98846435546875, "policy_loss": -0.14622753858566284, "vf_explained_var": 0.05408765748143196, "entropy": 8.071061134338379, "cur_lr": 4.999999873689376e-05, "total_loss": 283.8768005371094, "kl": 0.010110199451446533}, "load_time_ms": 0.683, "num_steps_sampled": 615600, "update_time_ms": 2.486}, "training_iteration": 513, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.73999619483948, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 615600, "timesteps_total": 615600, "custom_metrics": {}, "iterations_since_restore": 513, "episodes_this_iter": 82, "episode_reward_min": -88.18906040253121, "date": "2025-09-04_21-40-26", "episode_reward_max": 8.000000799052916, "pid": 3651948, "timestamp": 1757014826, "episode_reward_mean": -14.583852783262136, "time_total_s": 19649.291892528534, "episodes_total": 22513, "episode_len_mean": 14.93}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 19691.59937596321, "info": {"sample_time_ms": 41950.944, "num_steps_trained": 616800, "grad_time_ms": 367.111, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 167.95440673828125, "policy_loss": -0.14656759798526764, "vf_explained_var": 0.05410350114107132, "entropy": 7.895658016204834, "cur_lr": 4.999999873689376e-05, "total_loss": 167.83981323242188, "kl": 0.009352294728159904}, "load_time_ms": 0.679, "num_steps_sampled": 616800, "update_time_ms": 2.512}, "training_iteration": 514, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.307483434677124, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 616800, "timesteps_total": 616800, "custom_metrics": {}, "iterations_since_restore": 514, "episodes_this_iter": 102, "episode_reward_min": -65.38370327928517, "date": "2025-09-04_21-41-09", "episode_reward_max": 8.000010020065147, "pid": 3651948, "timestamp": 1757014869, "episode_reward_mean": -8.787935336787926, "time_total_s": 19691.59937596321, "episodes_total": 22615, "episode_len_mean": 11.705882352941176}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 19734.171117067337, "info": {"sample_time_ms": 42012.093, "num_steps_trained": 618000, "grad_time_ms": 369.426, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 203.5995330810547, "policy_loss": -0.13262474536895752, "vf_explained_var": 0.05613193288445473, "entropy": 7.793171405792236, "cur_lr": 4.999999873689376e-05, "total_loss": 203.51361083984375, "kl": 0.013668078929185867}, "load_time_ms": 0.686, "num_steps_sampled": 618000, "update_time_ms": 2.548}, "training_iteration": 515, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.57174110412598, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 618000, "timesteps_total": 618000, "custom_metrics": {}, "iterations_since_restore": 515, "episodes_this_iter": 96, "episode_reward_min": -82.70095046531756, "date": "2025-09-04_21-41-51", "episode_reward_max": 8.000124115491843, "pid": 3651948, "timestamp": 1757014911, "episode_reward_mean": -10.216002144067112, "time_total_s": 19734.171117067337, "episodes_total": 22711, "episode_len_mean": 12.5}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 19777.31126642227, "info": {"sample_time_ms": 42162.224, "num_steps_trained": 619200, "grad_time_ms": 368.153, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 198.68246459960938, "policy_loss": -0.15813376009464264, "vf_explained_var": 0.041515424847602844, "entropy": 8.062461853027344, "cur_lr": 4.999999873689376e-05, "total_loss": 198.56333923339844, "kl": 0.011416195891797543}, "load_time_ms": 0.687, "num_steps_sampled": 619200, "update_time_ms": 2.538}, "training_iteration": 516, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.14014935493469, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 619200, "timesteps_total": 619200, "custom_metrics": {}, "iterations_since_restore": 516, "episodes_this_iter": 90, "episode_reward_min": -71.87562082100415, "date": "2025-09-04_21-42-34", "episode_reward_max": 10.0, "pid": 3651948, "timestamp": 1757014954, "episode_reward_mean": -11.338310907119634, "time_total_s": 19777.31126642227, "episodes_total": 22801, "episode_len_mean": 13.24}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 19818.962617635727, "info": {"sample_time_ms": 42036.298, "num_steps_trained": 620400, "grad_time_ms": 367.631, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 229.8743438720703, "policy_loss": -0.15090160071849823, "vf_explained_var": 0.060195956379175186, "entropy": 7.647896766662598, "cur_lr": 4.999999873689376e-05, "total_loss": 229.7586212158203, "kl": 0.010290677659213543}, "load_time_ms": 0.679, "num_steps_sampled": 620400, "update_time_ms": 2.499}, "training_iteration": 517, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.6513512134552, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 620400, "timesteps_total": 620400, "custom_metrics": {}, "iterations_since_restore": 517, "episodes_this_iter": 83, "episode_reward_min": -86.42919798304267, "date": "2025-09-04_21-43-16", "episode_reward_max": 8.000240581087791, "pid": 3651948, "timestamp": 1757014996, "episode_reward_mean": -12.626468233448689, "time_total_s": 19818.962617635727, "episodes_total": 22884, "episode_len_mean": 13.76}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 19860.863934993744, "info": {"sample_time_ms": 41992.832, "num_steps_trained": 621600, "grad_time_ms": 365.9, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 263.2057189941406, "policy_loss": -0.1419185847043991, "vf_explained_var": 0.06125001236796379, "entropy": 7.386011600494385, "cur_lr": 4.999999873689376e-05, "total_loss": 263.1047058105469, "kl": 0.011972821317613125}, "load_time_ms": 0.683, "num_steps_sampled": 621600, "update_time_ms": 2.5}, "training_iteration": 518, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.90131735801697, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 621600, "timesteps_total": 621600, "custom_metrics": {}, "iterations_since_restore": 518, "episodes_this_iter": 93, "episode_reward_min": -90.94633259277349, "date": "2025-09-04_21-43-58", "episode_reward_max": 8.000256359887995, "pid": 3651948, "timestamp": 1757015038, "episode_reward_mean": -11.775377329612343, "time_total_s": 19860.863934993744, "episodes_total": 22977, "episode_len_mean": 13.18}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 19904.311608552933, "info": {"sample_time_ms": 42174.543, "num_steps_trained": 622800, "grad_time_ms": 365.422, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 214.76736450195312, "policy_loss": -0.14149066805839539, "vf_explained_var": 0.05032728239893913, "entropy": 7.764161109924316, "cur_lr": 4.999999873689376e-05, "total_loss": 214.66229248046875, "kl": 0.010659274645149708}, "load_time_ms": 0.686, "num_steps_sampled": 622800, "update_time_ms": 2.46}, "training_iteration": 519, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.44767355918884, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 622800, "timesteps_total": 622800, "custom_metrics": {}, "iterations_since_restore": 519, "episodes_this_iter": 100, "episode_reward_min": -82.56335530104904, "date": "2025-09-04_21-44-41", "episode_reward_max": 8.000054979352926, "pid": 3651948, "timestamp": 1757015081, "episode_reward_mean": -9.432898509410775, "time_total_s": 19904.311608552933, "episodes_total": 23077, "episode_len_mean": 12.04}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 19946.00028705597, "info": {"sample_time_ms": 42059.589, "num_steps_trained": 624000, "grad_time_ms": 365.233, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 219.71600341796875, "policy_loss": -0.1405024528503418, "vf_explained_var": 0.05571660026907921, "entropy": 8.026354789733887, "cur_lr": 4.999999873689376e-05, "total_loss": 219.6128387451172, "kl": 0.010930254124104977}, "load_time_ms": 0.68, "num_steps_sampled": 624000, "update_time_ms": 2.458}, "training_iteration": 520, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.6886785030365, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 624000, "timesteps_total": 624000, "custom_metrics": {}, "iterations_since_restore": 520, "episodes_this_iter": 94, "episode_reward_min": -68.88135622270947, "date": "2025-09-04_21-45-23", "episode_reward_max": 8.001130149147663, "pid": 3651948, "timestamp": 1757015123, "episode_reward_mean": -10.280514974476594, "time_total_s": 19946.00028705597, "episodes_total": 23171, "episode_len_mean": 12.65}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 19988.20765209198, "info": {"sample_time_ms": 41976.038, "num_steps_trained": 625200, "grad_time_ms": 366.25, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 236.67010498046875, "policy_loss": -0.13375553488731384, "vf_explained_var": 0.05492662638425827, "entropy": 7.896309852600098, "cur_lr": 4.999999873689376e-05, "total_loss": 236.57696533203125, "kl": 0.011888116598129272}, "load_time_ms": 0.673, "num_steps_sampled": 625200, "update_time_ms": 2.556}, "training_iteration": 521, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.20736503601074, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 625200, "timesteps_total": 625200, "custom_metrics": {}, "iterations_since_restore": 521, "episodes_this_iter": 103, "episode_reward_min": -86.73095527556067, "date": "2025-09-04_21-46-05", "episode_reward_max": 8.000027274938793, "pid": 3651948, "timestamp": 1757015165, "episode_reward_mean": -8.453045250321795, "time_total_s": 19988.20765209198, "episodes_total": 23274, "episode_len_mean": 11.427184466019417}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 20030.421869277954, "info": {"sample_time_ms": 41910.561, "num_steps_trained": 626400, "grad_time_ms": 368.48, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 201.26467895507812, "policy_loss": -0.14536257088184357, "vf_explained_var": 0.054645001888275146, "entropy": 8.036338806152344, "cur_lr": 4.999999873689376e-05, "total_loss": 201.15565490722656, "kl": 0.010635611601173878}, "load_time_ms": 0.672, "num_steps_sampled": 626400, "update_time_ms": 2.566}, "training_iteration": 522, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.21421718597412, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 626400, "timesteps_total": 626400, "custom_metrics": {}, "iterations_since_restore": 522, "episodes_this_iter": 91, "episode_reward_min": -82.13765561179979, "date": "2025-09-04_21-46-48", "episode_reward_max": 8.000044330717463, "pid": 3651948, "timestamp": 1757015208, "episode_reward_mean": -11.049306426188457, "time_total_s": 20030.421869277954, "episodes_total": 23365, "episode_len_mean": 13.09}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 20073.167887210846, "info": {"sample_time_ms": 42010.584, "num_steps_trained": 627600, "grad_time_ms": 368.963, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 190.387939453125, "policy_loss": -0.1575956642627716, "vf_explained_var": 0.05341558903455734, "entropy": 7.737266540527344, "cur_lr": 4.999999873689376e-05, "total_loss": 190.26390075683594, "kl": 0.009819424711167812}, "load_time_ms": 0.676, "num_steps_sampled": 627600, "update_time_ms": 2.583}, "training_iteration": 523, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.746017932891846, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 627600, "timesteps_total": 627600, "custom_metrics": {}, "iterations_since_restore": 523, "episodes_this_iter": 108, "episode_reward_min": -87.63316378268442, "date": "2025-09-04_21-47-30", "episode_reward_max": 8.000067181155115, "pid": 3651948, "timestamp": 1757015250, "episode_reward_mean": -8.18975483820423, "time_total_s": 20073.167887210846, "episodes_total": 23473, "episode_len_mean": 11.24074074074074}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 20115.03004169464, "info": {"sample_time_ms": 41966.073, "num_steps_trained": 628800, "grad_time_ms": 368.868, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 265.75616455078125, "policy_loss": -0.1417827606201172, "vf_explained_var": 0.047600045800209045, "entropy": 7.7846832275390625, "cur_lr": 4.999999873689376e-05, "total_loss": 265.66131591796875, "kl": 0.013741587288677692}, "load_time_ms": 0.676, "num_steps_sampled": 628800, "update_time_ms": 2.603}, "training_iteration": 524, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.862154483795166, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 628800, "timesteps_total": 628800, "custom_metrics": {}, "iterations_since_restore": 524, "episodes_this_iter": 92, "episode_reward_min": -86.3289429558955, "date": "2025-09-04_21-48-12", "episode_reward_max": 8.000313690816663, "pid": 3651948, "timestamp": 1757015292, "episode_reward_mean": -11.135327043898128, "time_total_s": 20115.03004169464, "episodes_total": 23565, "episode_len_mean": 12.95}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 20157.006575107574, "info": {"sample_time_ms": 41907.452, "num_steps_trained": 630000, "grad_time_ms": 367.909, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 178.26414489746094, "policy_loss": -0.15132449567317963, "vf_explained_var": 0.04761023074388504, "entropy": 7.840459823608398, "cur_lr": 4.999999873689376e-05, "total_loss": 178.15179443359375, "kl": 0.011396270245313644}, "load_time_ms": 0.676, "num_steps_sampled": 630000, "update_time_ms": 2.595}, "training_iteration": 525, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.97653341293335, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 630000, "timesteps_total": 630000, "custom_metrics": {}, "iterations_since_restore": 525, "episodes_this_iter": 103, "episode_reward_min": -66.89724537728738, "date": "2025-09-04_21-48-54", "episode_reward_max": 8.000001494058395, "pid": 3651948, "timestamp": 1757015334, "episode_reward_mean": -8.953779715239303, "time_total_s": 20157.006575107574, "episodes_total": 23668, "episode_len_mean": 11.815533980582524}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 20198.9055352211, "info": {"sample_time_ms": 41783.106, "num_steps_trained": 631200, "grad_time_ms": 368.134, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 216.79884338378906, "policy_loss": -0.14230404794216156, "vf_explained_var": 0.04844113066792488, "entropy": 8.409723281860352, "cur_lr": 4.999999873689376e-05, "total_loss": 216.6897430419922, "kl": 0.009710962884128094}, "load_time_ms": 0.671, "num_steps_sampled": 631200, "update_time_ms": 2.611}, "training_iteration": 526, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.89896011352539, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 631200, "timesteps_total": 631200, "custom_metrics": {}, "iterations_since_restore": 526, "episodes_this_iter": 88, "episode_reward_min": -83.77667437844606, "date": "2025-09-04_21-49-36", "episode_reward_max": 8.00013842138809, "pid": 3651948, "timestamp": 1757015376, "episode_reward_mean": -10.576268163691191, "time_total_s": 20198.9055352211, "episodes_total": 23756, "episode_len_mean": 12.89}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 20243.040204524994, "info": {"sample_time_ms": 42030.599, "num_steps_trained": 632400, "grad_time_ms": 368.897, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 113.05033111572266, "policy_loss": -0.15707647800445557, "vf_explained_var": 0.07800179719924927, "entropy": 7.7117438316345215, "cur_lr": 4.999999873689376e-05, "total_loss": 112.93242645263672, "kl": 0.01146283932030201}, "load_time_ms": 0.671, "num_steps_sampled": 632400, "update_time_ms": 2.649}, "training_iteration": 527, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 44.13466930389404, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 632400, "timesteps_total": 632400, "custom_metrics": {}, "iterations_since_restore": 527, "episodes_this_iter": 101, "episode_reward_min": -83.94824658273092, "date": "2025-09-04_21-50-20", "episode_reward_max": 8.000012988207692, "pid": 3651948, "timestamp": 1757015420, "episode_reward_mean": -9.315383407119686, "time_total_s": 20243.040204524994, "episodes_total": 23857, "episode_len_mean": 12.07920792079208}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 20285.569366931915, "info": {"sample_time_ms": 42090.799, "num_steps_trained": 633600, "grad_time_ms": 371.397, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 167.38116455078125, "policy_loss": -0.15174798667430878, "vf_explained_var": 0.06229621171951294, "entropy": 7.947242736816406, "cur_lr": 4.999999873689376e-05, "total_loss": 167.26669311523438, "kl": 0.010910822078585625}, "load_time_ms": 0.677, "num_steps_sampled": 633600, "update_time_ms": 2.661}, "training_iteration": 528, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.52916240692139, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 633600, "timesteps_total": 633600, "custom_metrics": {}, "iterations_since_restore": 528, "episodes_this_iter": 99, "episode_reward_min": -70.66269968829573, "date": "2025-09-04_21-51-03", "episode_reward_max": 8.00021981389855, "pid": 3651948, "timestamp": 1757015463, "episode_reward_mean": -9.506490660360424, "time_total_s": 20285.569366931915, "episodes_total": 23956, "episode_len_mean": 12.24}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 20327.706107139587, "info": {"sample_time_ms": 41959.027, "num_steps_trained": 634800, "grad_time_ms": 371.992, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 240.8870391845703, "policy_loss": -0.14231714606285095, "vf_explained_var": 0.03474872559309006, "entropy": 8.10819149017334, "cur_lr": 4.999999873689376e-05, "total_loss": 240.78103637695312, "kl": 0.010623510926961899}, "load_time_ms": 0.691, "num_steps_sampled": 634800, "update_time_ms": 2.701}, "training_iteration": 529, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.13674020767212, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 634800, "timesteps_total": 634800, "custom_metrics": {}, "iterations_since_restore": 529, "episodes_this_iter": 91, "episode_reward_min": -85.239240953459, "date": "2025-09-04_21-51-45", "episode_reward_max": 8.000204314450299, "pid": 3651948, "timestamp": 1757015505, "episode_reward_mean": -10.078748363195434, "time_total_s": 20327.706107139587, "episodes_total": 24047, "episode_len_mean": 12.44}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 20369.63042449951, "info": {"sample_time_ms": 41982.939, "num_steps_trained": 636000, "grad_time_ms": 371.612, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 206.69680786132812, "policy_loss": -0.14226245880126953, "vf_explained_var": 0.07164441049098969, "entropy": 7.701772689819336, "cur_lr": 4.999999873689376e-05, "total_loss": 206.5907440185547, "kl": 0.010596277192234993}, "load_time_ms": 0.681, "num_steps_sampled": 636000, "update_time_ms": 2.716}, "training_iteration": 530, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.924317359924316, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 636000, "timesteps_total": 636000, "custom_metrics": {}, "iterations_since_restore": 530, "episodes_this_iter": 96, "episode_reward_min": -66.25400937910553, "date": "2025-09-04_21-52-27", "episode_reward_max": 8.000051483620119, "pid": 3651948, "timestamp": 1757015547, "episode_reward_mean": -10.437434672321645, "time_total_s": 20369.63042449951, "episodes_total": 24143, "episode_len_mean": 12.75}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 20411.682535409927, "info": {"sample_time_ms": 41968.271, "num_steps_trained": 637200, "grad_time_ms": 370.594, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 183.31382751464844, "policy_loss": -0.14274880290031433, "vf_explained_var": 0.07200777530670166, "entropy": 8.17143440246582, "cur_lr": 4.999999873689376e-05, "total_loss": 183.21058654785156, "kl": 0.011561138555407524}, "load_time_ms": 0.69, "num_steps_sampled": 637200, "update_time_ms": 2.834}, "training_iteration": 531, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.05211091041565, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 637200, "timesteps_total": 637200, "custom_metrics": {}, "iterations_since_restore": 531, "episodes_this_iter": 96, "episode_reward_min": -84.72100763733563, "date": "2025-09-04_21-53-09", "episode_reward_max": 8.000220490082432, "pid": 3651948, "timestamp": 1757015589, "episode_reward_mean": -11.260624423523332, "time_total_s": 20411.682535409927, "episodes_total": 24239, "episode_len_mean": 13.16}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 20453.583587169647, "info": {"sample_time_ms": 41938.881, "num_steps_trained": 638400, "grad_time_ms": 368.67, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 160.25613403320312, "policy_loss": -0.13671061396598816, "vf_explained_var": 0.04929812252521515, "entropy": 7.601922988891602, "cur_lr": 4.999999873689376e-05, "total_loss": 160.16278076171875, "kl": 0.012693586759269238}, "load_time_ms": 0.688, "num_steps_sampled": 638400, "update_time_ms": 2.798}, "training_iteration": 532, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.90105175971985, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 638400, "timesteps_total": 638400, "custom_metrics": {}, "iterations_since_restore": 532, "episodes_this_iter": 98, "episode_reward_min": -55.67049051819933, "date": "2025-09-04_21-53-51", "episode_reward_max": 8.000001499128857, "pid": 3651948, "timestamp": 1757015631, "episode_reward_mean": -9.812918485032277, "time_total_s": 20453.583587169647, "episodes_total": 24337, "episode_len_mean": 12.38}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 20495.79337143898, "info": {"sample_time_ms": 41884.443, "num_steps_trained": 639600, "grad_time_ms": 369.485, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 220.09242248535156, "policy_loss": -0.14294356107711792, "vf_explained_var": 0.05856436491012573, "entropy": 7.793384075164795, "cur_lr": 4.999999873689376e-05, "total_loss": 219.98651123046875, "kl": 0.01083542313426733}, "load_time_ms": 0.702, "num_steps_sampled": 639600, "update_time_ms": 2.842}, "training_iteration": 533, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.209784269332886, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 639600, "timesteps_total": 639600, "custom_metrics": {}, "iterations_since_restore": 533, "episodes_this_iter": 89, "episode_reward_min": -85.23888771043163, "date": "2025-09-04_21-54-33", "episode_reward_max": 8.000471842720263, "pid": 3651948, "timestamp": 1757015673, "episode_reward_mean": -12.360378156761135, "time_total_s": 20495.79337143898, "episodes_total": 24426, "episode_len_mean": 13.8}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 20538.58450126648, "info": {"sample_time_ms": 41975.985, "num_steps_trained": 640800, "grad_time_ms": 370.911, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 210.44073486328125, "policy_loss": -0.12847492098808289, "vf_explained_var": 0.05711045488715172, "entropy": 7.832577228546143, "cur_lr": 4.999999873689376e-05, "total_loss": 210.3465118408203, "kl": 0.01003289595246315}, "load_time_ms": 0.702, "num_steps_sampled": 640800, "update_time_ms": 2.796}, "training_iteration": 534, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.79112982749939, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 640800, "timesteps_total": 640800, "custom_metrics": {}, "iterations_since_restore": 534, "episodes_this_iter": 114, "episode_reward_min": -85.3605670180534, "date": "2025-09-04_21-55-16", "episode_reward_max": 8.000115383356453, "pid": 3651948, "timestamp": 1757015716, "episode_reward_mean": -6.244545209865517, "time_total_s": 20538.58450126648, "episodes_total": 24540, "episode_len_mean": 10.263157894736842}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 20581.17125558853, "info": {"sample_time_ms": 42036.439, "num_steps_trained": 642000, "grad_time_ms": 371.452, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 180.33758544921875, "policy_loss": -0.14919494092464447, "vf_explained_var": 0.08063942939043045, "entropy": 7.371814250946045, "cur_lr": 4.999999873689376e-05, "total_loss": 180.2249298095703, "kl": 0.010697085410356522}, "load_time_ms": 0.703, "num_steps_sampled": 642000, "update_time_ms": 2.778}, "training_iteration": 535, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.586754322052, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 642000, "timesteps_total": 642000, "custom_metrics": {}, "iterations_since_restore": 535, "episodes_this_iter": 105, "episode_reward_min": -82.15509683219827, "date": "2025-09-04_21-55-59", "episode_reward_max": 8.000187407552426, "pid": 3651948, "timestamp": 1757015759, "episode_reward_mean": -8.857732547181975, "time_total_s": 20581.17125558853, "episodes_total": 24645, "episode_len_mean": 11.676190476190476}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 20623.618741750717, "info": {"sample_time_ms": 42088.729, "num_steps_trained": 643200, "grad_time_ms": 373.929, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 193.4102020263672, "policy_loss": -0.14119069278240204, "vf_explained_var": 0.07007483392953873, "entropy": 7.85939359664917, "cur_lr": 4.999999873689376e-05, "total_loss": 193.30856323242188, "kl": 0.011583573184907436}, "load_time_ms": 0.717, "num_steps_sampled": 643200, "update_time_ms": 2.767}, "training_iteration": 536, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.44748616218567, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 643200, "timesteps_total": 643200, "custom_metrics": {}, "iterations_since_restore": 536, "episodes_this_iter": 107, "episode_reward_min": -73.07308658846257, "date": "2025-09-04_21-56-41", "episode_reward_max": 8.000246705335524, "pid": 3651948, "timestamp": 1757015801, "episode_reward_mean": -7.952332301154359, "time_total_s": 20623.618741750717, "episodes_total": 24752, "episode_len_mean": 11.22429906542056}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 20666.022399425507, "info": {"sample_time_ms": 41913.773, "num_steps_trained": 644400, "grad_time_ms": 375.822, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 183.60745239257812, "policy_loss": -0.14092332124710083, "vf_explained_var": 0.07595738768577576, "entropy": 7.580621719360352, "cur_lr": 4.999999873689376e-05, "total_loss": 183.50210571289062, "kl": 0.010412870906293392}, "load_time_ms": 0.724, "num_steps_sampled": 644400, "update_time_ms": 2.734}, "training_iteration": 537, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.40365767478943, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 644400, "timesteps_total": 644400, "custom_metrics": {}, "iterations_since_restore": 537, "episodes_this_iter": 102, "episode_reward_min": -76.6381068952044, "date": "2025-09-04_21-57-24", "episode_reward_max": 8.000060991204217, "pid": 3651948, "timestamp": 1757015844, "episode_reward_mean": -9.224174098292405, "time_total_s": 20666.022399425507, "episodes_total": 24854, "episode_len_mean": 11.872549019607844}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 20708.202874422073, "info": {"sample_time_ms": 41878.127, "num_steps_trained": 645600, "grad_time_ms": 376.595, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 150.78045654296875, "policy_loss": -0.14036937057971954, "vf_explained_var": 0.0604521706700325, "entropy": 8.07420539855957, "cur_lr": 4.999999873689376e-05, "total_loss": 150.67779541015625, "kl": 0.011033102869987488}, "load_time_ms": 0.725, "num_steps_sampled": 645600, "update_time_ms": 2.751}, "training_iteration": 538, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.18047499656677, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 645600, "timesteps_total": 645600, "custom_metrics": {}, "iterations_since_restore": 538, "episodes_this_iter": 93, "episode_reward_min": -64.0044632570487, "date": "2025-09-04_21-58-06", "episode_reward_max": 8.000109288083836, "pid": 3651948, "timestamp": 1757015886, "episode_reward_mean": -10.368055644929912, "time_total_s": 20708.202874422073, "episodes_total": 24947, "episode_len_mean": 12.76}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 20751.16945695877, "info": {"sample_time_ms": 41962.579, "num_steps_trained": 646800, "grad_time_ms": 375.167, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 250.36949157714844, "policy_loss": -0.1359543353319168, "vf_explained_var": 0.06793617457151413, "entropy": 7.885825157165527, "cur_lr": 4.999999873689376e-05, "total_loss": 250.27215576171875, "kl": 0.011291067115962505}, "load_time_ms": 0.713, "num_steps_sampled": 646800, "update_time_ms": 2.763}, "training_iteration": 539, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.96658253669739, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 646800, "timesteps_total": 646800, "custom_metrics": {}, "iterations_since_restore": 539, "episodes_this_iter": 106, "episode_reward_min": -83.60032782351799, "date": "2025-09-04_21-58-49", "episode_reward_max": 8.000732029336234, "pid": 3651948, "timestamp": 1757015929, "episode_reward_mean": -8.182262984756873, "time_total_s": 20751.16945695877, "episodes_total": 25053, "episode_len_mean": 11.273584905660377}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 20793.905032873154, "info": {"sample_time_ms": 42044.398, "num_steps_trained": 648000, "grad_time_ms": 374.484, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 118.68406677246094, "policy_loss": -0.15886139869689941, "vf_explained_var": 0.07198840379714966, "entropy": 8.058353424072266, "cur_lr": 4.999999873689376e-05, "total_loss": 118.56088256835938, "kl": 0.010437482967972755}, "load_time_ms": 0.715, "num_steps_sampled": 648000, "update_time_ms": 2.739}, "training_iteration": 540, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.735575914382935, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 648000, "timesteps_total": 648000, "custom_metrics": {}, "iterations_since_restore": 540, "episodes_this_iter": 108, "episode_reward_min": -51.326081797036, "date": "2025-09-04_21-59-31", "episode_reward_max": 8.000190443829876, "pid": 3651948, "timestamp": 1757015971, "episode_reward_mean": -7.674543735063982, "time_total_s": 20793.905032873154, "episodes_total": 25161, "episode_len_mean": 11.175925925925926}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 20835.970939397812, "info": {"sample_time_ms": 42044.815, "num_steps_trained": 649200, "grad_time_ms": 375.55, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 236.36314392089844, "policy_loss": -0.1319597363471985, "vf_explained_var": 0.05775655806064606, "entropy": 7.766454219818115, "cur_lr": 4.999999873689376e-05, "total_loss": 236.2706756591797, "kl": 0.01154718641191721}, "load_time_ms": 0.725, "num_steps_sampled": 649200, "update_time_ms": 2.633}, "training_iteration": 541, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.0659065246582, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 649200, "timesteps_total": 649200, "custom_metrics": {}, "iterations_since_restore": 541, "episodes_this_iter": 98, "episode_reward_min": -87.4248928458613, "date": "2025-09-04_22-00-14", "episode_reward_max": 8.000020624924144, "pid": 3651948, "timestamp": 1757016014, "episode_reward_mean": -9.628970222012954, "time_total_s": 20835.970939397812, "episodes_total": 25259, "episode_len_mean": 12.23}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 20879.48354935646, "info": {"sample_time_ms": 42206.986, "num_steps_trained": 650400, "grad_time_ms": 374.532, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 255.753662109375, "policy_loss": -0.1421698033809662, "vf_explained_var": 0.05161063000559807, "entropy": 7.748743057250977, "cur_lr": 4.999999873689376e-05, "total_loss": 255.64759826660156, "kl": 0.010566272772848606}, "load_time_ms": 0.724, "num_steps_sampled": 650400, "update_time_ms": 2.642}, "training_iteration": 542, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.51260995864868, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 650400, "timesteps_total": 650400, "custom_metrics": {}, "iterations_since_restore": 542, "episodes_this_iter": 98, "episode_reward_min": -79.70860967904791, "date": "2025-09-04_22-00-57", "episode_reward_max": 8.002317469381081, "pid": 3651948, "timestamp": 1757016057, "episode_reward_mean": -9.308876267997848, "time_total_s": 20879.48354935646, "episodes_total": 25357, "episode_len_mean": 11.97}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 20922.198652267456, "info": {"sample_time_ms": 42255.839, "num_steps_trained": 651600, "grad_time_ms": 376.177, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 150.107177734375, "policy_loss": -0.1413421779870987, "vf_explained_var": 0.05147850513458252, "entropy": 7.405312538146973, "cur_lr": 4.999999873689376e-05, "total_loss": 150.0113983154297, "kl": 0.013330676592886448}, "load_time_ms": 0.719, "num_steps_sampled": 651600, "update_time_ms": 2.64}, "training_iteration": 543, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.71510291099548, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 651600, "timesteps_total": 651600, "custom_metrics": {}, "iterations_since_restore": 543, "episodes_this_iter": 107, "episode_reward_min": -55.664909103574814, "date": "2025-09-04_22-01-40", "episode_reward_max": 8.000392496864999, "pid": 3651948, "timestamp": 1757016100, "episode_reward_mean": -7.928721134357941, "time_total_s": 20922.198652267456, "episodes_total": 25464, "episode_len_mean": 11.214953271028037}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 20964.614531993866, "info": {"sample_time_ms": 42218.177, "num_steps_trained": 652800, "grad_time_ms": 376.25, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 192.20309448242188, "policy_loss": -0.14467547833919525, "vf_explained_var": 0.07436954975128174, "entropy": 7.856789588928223, "cur_lr": 4.999999873689376e-05, "total_loss": 192.09791564941406, "kl": 0.01155995111912489}, "load_time_ms": 0.725, "num_steps_sampled": 652800, "update_time_ms": 2.688}, "training_iteration": 544, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.41587972640991, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 652800, "timesteps_total": 652800, "custom_metrics": {}, "iterations_since_restore": 544, "episodes_this_iter": 103, "episode_reward_min": -67.23049233796695, "date": "2025-09-04_22-02-22", "episode_reward_max": 8.000194762814644, "pid": 3651948, "timestamp": 1757016142, "episode_reward_mean": -8.917267175899491, "time_total_s": 20964.614531993866, "episodes_total": 25567, "episode_len_mean": 11.951456310679612}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 21007.03317785263, "info": {"sample_time_ms": 42202.123, "num_steps_trained": 654000, "grad_time_ms": 375.528, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 192.97984313964844, "policy_loss": -0.1451786607503891, "vf_explained_var": 0.04516826197504997, "entropy": 7.384739398956299, "cur_lr": 4.999999873689376e-05, "total_loss": 192.8732147216797, "kl": 0.01127211656421423}, "load_time_ms": 0.724, "num_steps_sampled": 654000, "update_time_ms": 2.733}, "training_iteration": 545, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.41864585876465, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 654000, "timesteps_total": 654000, "custom_metrics": {}, "iterations_since_restore": 545, "episodes_this_iter": 100, "episode_reward_min": -61.937393190048056, "date": "2025-09-04_22-03-05", "episode_reward_max": 8.00012882417301, "pid": 3651948, "timestamp": 1757016185, "episode_reward_mean": -9.143666493636106, "time_total_s": 21007.03317785263, "episodes_total": 25667, "episode_len_mean": 11.96}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 21048.709080934525, "info": {"sample_time_ms": 42126.098, "num_steps_trained": 655200, "grad_time_ms": 374.427, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 257.3942565917969, "policy_loss": -0.15175125002861023, "vf_explained_var": 0.03823421895503998, "entropy": 7.957895278930664, "cur_lr": 4.999999873689376e-05, "total_loss": 257.2807312011719, "kl": 0.011188051663339138}, "load_time_ms": 0.712, "num_steps_sampled": 655200, "update_time_ms": 2.722}, "training_iteration": 546, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 41.67590308189392, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 655200, "timesteps_total": 655200, "custom_metrics": {}, "iterations_since_restore": 546, "episodes_this_iter": 90, "episode_reward_min": -84.22003202697721, "date": "2025-09-04_22-03-46", "episode_reward_max": 8.000097196435748, "pid": 3651948, "timestamp": 1757016226, "episode_reward_mean": -11.166475644820652, "time_total_s": 21048.709080934525, "episodes_total": 25757, "episode_len_mean": 13.2}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 21091.521733522415, "info": {"sample_time_ms": 42165.858, "num_steps_trained": 656400, "grad_time_ms": 375.512, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 252.97341918945312, "policy_loss": -0.13348990678787231, "vf_explained_var": 0.0418059304356575, "entropy": 7.556629657745361, "cur_lr": 4.999999873689376e-05, "total_loss": 252.874755859375, "kl": 0.010195381008088589}, "load_time_ms": 0.722, "num_steps_sampled": 656400, "update_time_ms": 2.746}, "training_iteration": 547, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.812652587890625, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 656400, "timesteps_total": 656400, "custom_metrics": {}, "iterations_since_restore": 547, "episodes_this_iter": 106, "episode_reward_min": -84.09118564531299, "date": "2025-09-04_22-04-29", "episode_reward_max": 8.000027542621563, "pid": 3651948, "timestamp": 1757016269, "episode_reward_mean": -8.242486668822895, "time_total_s": 21091.521733522415, "episodes_total": 25863, "episode_len_mean": 11.320754716981131}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 21134.377695083618, "info": {"sample_time_ms": 42235.05, "num_steps_trained": 657600, "grad_time_ms": 373.911, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 178.17941284179688, "policy_loss": -0.13027864694595337, "vf_explained_var": 0.05408206209540367, "entropy": 7.640100479125977, "cur_lr": 4.999999873689376e-05, "total_loss": 178.09715270996094, "kl": 0.014050977304577827}, "load_time_ms": 0.713, "num_steps_sampled": 657600, "update_time_ms": 2.746}, "training_iteration": 548, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.855961561203, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 657600, "timesteps_total": 657600, "custom_metrics": {}, "iterations_since_restore": 548, "episodes_this_iter": 113, "episode_reward_min": -66.75009070089386, "date": "2025-09-04_22-05-12", "episode_reward_max": 8.000064064065864, "pid": 3651948, "timestamp": 1757016312, "episode_reward_mean": -6.585518287778024, "time_total_s": 21134.377695083618, "episodes_total": 25976, "episode_len_mean": 10.495575221238939}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 21177.441816091537, "info": {"sample_time_ms": 42243.892, "num_steps_trained": 658800, "grad_time_ms": 374.828, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 162.55364990234375, "policy_loss": -0.13918906450271606, "vf_explained_var": 0.0474405363202095, "entropy": 7.54951286315918, "cur_lr": 4.999999873689376e-05, "total_loss": 162.45347595214844, "kl": 0.011418992653489113}, "load_time_ms": 0.705, "num_steps_sampled": 658800, "update_time_ms": 2.683}, "training_iteration": 549, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.06412100791931, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 658800, "timesteps_total": 658800, "custom_metrics": {}, "iterations_since_restore": 549, "episodes_this_iter": 115, "episode_reward_min": -84.39965680099289, "date": "2025-09-04_22-05-55", "episode_reward_max": 8.001022642143228, "pid": 3651948, "timestamp": 1757016355, "episode_reward_mean": -6.673317749432404, "time_total_s": 21177.441816091537, "episodes_total": 26091, "episode_len_mean": 10.521739130434783}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 21219.882758378983, "info": {"sample_time_ms": 42214.87, "num_steps_trained": 660000, "grad_time_ms": 374.429, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 133.2684326171875, "policy_loss": -0.15127120912075043, "vf_explained_var": 0.07853060215711594, "entropy": 7.763479232788086, "cur_lr": 4.999999873689376e-05, "total_loss": 133.15692138671875, "kl": 0.01163527276366949}, "load_time_ms": 0.707, "num_steps_sampled": 660000, "update_time_ms": 2.704}, "training_iteration": 550, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.44094228744507, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 660000, "timesteps_total": 660000, "custom_metrics": {}, "iterations_since_restore": 550, "episodes_this_iter": 105, "episode_reward_min": -59.6595376409971, "date": "2025-09-04_22-06-38", "episode_reward_max": 8.00063865225193, "pid": 3651948, "timestamp": 1757016398, "episode_reward_mean": -8.13644679828116, "time_total_s": 21219.882758378983, "episodes_total": 26196, "episode_len_mean": 11.342857142857143}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 21262.44256210327, "info": {"sample_time_ms": 42267.126, "num_steps_trained": 661200, "grad_time_ms": 371.657, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 106.95640563964844, "policy_loss": -0.1507752686738968, "vf_explained_var": 0.0752321109175682, "entropy": 7.224944114685059, "cur_lr": 4.999999873689376e-05, "total_loss": 106.84326171875, "kl": 0.011010591872036457}, "load_time_ms": 0.695, "num_steps_sampled": 661200, "update_time_ms": 2.627}, "training_iteration": 551, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.55980372428894, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 661200, "timesteps_total": 661200, "custom_metrics": {}, "iterations_since_restore": 551, "episodes_this_iter": 116, "episode_reward_min": -55.20205252954118, "date": "2025-09-04_22-07-20", "episode_reward_max": 8.00011688316286, "pid": 3651948, "timestamp": 1757016440, "episode_reward_mean": -6.506058239324532, "time_total_s": 21262.44256210327, "episodes_total": 26312, "episode_len_mean": 10.413793103448276}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 21304.658202648163, "info": {"sample_time_ms": 42136.556, "num_steps_trained": 662400, "grad_time_ms": 372.579, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 196.15733337402344, "policy_loss": -0.14689193665981293, "vf_explained_var": 0.066288523375988, "entropy": 8.02047061920166, "cur_lr": 4.999999873689376e-05, "total_loss": 196.051025390625, "kl": 0.011877370066940784}, "load_time_ms": 0.696, "num_steps_sampled": 662400, "update_time_ms": 2.63}, "training_iteration": 552, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.21564054489136, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 662400, "timesteps_total": 662400, "custom_metrics": {}, "iterations_since_restore": 552, "episodes_this_iter": 97, "episode_reward_min": -79.67103052029469, "date": "2025-09-04_22-08-03", "episode_reward_max": 8.00124451505714, "pid": 3651948, "timestamp": 1757016483, "episode_reward_mean": -9.210449480975706, "time_total_s": 21304.658202648163, "episodes_total": 26409, "episode_len_mean": 12.09}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 21348.155327796936, "info": {"sample_time_ms": 42215.424, "num_steps_trained": 663600, "grad_time_ms": 371.927, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 128.71673583984375, "policy_loss": -0.12534157931804657, "vf_explained_var": 0.07487869262695312, "entropy": 7.696089744567871, "cur_lr": 4.999999873689376e-05, "total_loss": 128.62692260742188, "kl": 0.010400541126728058}, "load_time_ms": 0.683, "num_steps_sampled": 663600, "update_time_ms": 2.619}, "training_iteration": 553, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.49712514877319, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 663600, "timesteps_total": 663600, "custom_metrics": {}, "iterations_since_restore": 553, "episodes_this_iter": 119, "episode_reward_min": -83.2373949676278, "date": "2025-09-04_22-08-46", "episode_reward_max": 8.00022207384256, "pid": 3651948, "timestamp": 1757016526, "episode_reward_mean": -6.358082025069993, "time_total_s": 21348.155327796936, "episodes_total": 26528, "episode_len_mean": 10.352941176470589}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 21391.43908548355, "info": {"sample_time_ms": 42303.912, "num_steps_trained": 664800, "grad_time_ms": 370.249, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 211.26190185546875, "policy_loss": -0.12464182823896408, "vf_explained_var": 0.05803931504487991, "entropy": 8.136405944824219, "cur_lr": 4.999999873689376e-05, "total_loss": 211.18016052246094, "kl": 0.012556111440062523}, "load_time_ms": 0.693, "num_steps_sampled": 664800, "update_time_ms": 2.612}, "training_iteration": 554, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.28375768661499, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 664800, "timesteps_total": 664800, "custom_metrics": {}, "iterations_since_restore": 554, "episodes_this_iter": 107, "episode_reward_min": -83.01182986977857, "date": "2025-09-04_22-09-29", "episode_reward_max": 8.000725324496882, "pid": 3651948, "timestamp": 1757016569, "episode_reward_mean": -7.971736350739526, "time_total_s": 21391.43908548355, "episodes_total": 26635, "episode_len_mean": 11.261682242990654}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 21434.582239627838, "info": {"sample_time_ms": 42376.524, "num_steps_trained": 666000, "grad_time_ms": 370.143, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 125.87883758544922, "policy_loss": -0.14883939921855927, "vf_explained_var": 0.07278783619403839, "entropy": 7.4547247886657715, "cur_lr": 4.999999873689376e-05, "total_loss": 125.76923370361328, "kl": 0.011482727713882923}, "load_time_ms": 0.693, "num_steps_sampled": 666000, "update_time_ms": 2.578}, "training_iteration": 555, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.14315414428711, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 666000, "timesteps_total": 666000, "custom_metrics": {}, "iterations_since_restore": 555, "episodes_this_iter": 124, "episode_reward_min": -53.88776320042786, "date": "2025-09-04_22-10-13", "episode_reward_max": 8.000704435079951, "pid": 3651948, "timestamp": 1757016613, "episode_reward_mean": -5.172610377890699, "time_total_s": 21434.582239627838, "episodes_total": 26759, "episode_len_mean": 9.661290322580646}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 21477.246037244797, "info": {"sample_time_ms": 42477.191, "num_steps_trained": 667200, "grad_time_ms": 368.311, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 143.22914123535156, "policy_loss": -0.13829833269119263, "vf_explained_var": 0.09276745468378067, "entropy": 7.771801471710205, "cur_lr": 4.999999873689376e-05, "total_loss": 143.12408447265625, "kl": 0.009724327363073826}, "load_time_ms": 0.692, "num_steps_sampled": 667200, "update_time_ms": 2.582}, "training_iteration": 556, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.66379761695862, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 667200, "timesteps_total": 667200, "custom_metrics": {}, "iterations_since_restore": 556, "episodes_this_iter": 104, "episode_reward_min": -59.879564087317746, "date": "2025-09-04_22-10-55", "episode_reward_max": 8.000214842733033, "pid": 3651948, "timestamp": 1757016655, "episode_reward_mean": -8.070791586781151, "time_total_s": 21477.246037244797, "episodes_total": 26863, "episode_len_mean": 11.35576923076923}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 21519.86287546158, "info": {"sample_time_ms": 42459.365, "num_steps_trained": 668400, "grad_time_ms": 366.616, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 221.02940368652344, "policy_loss": -0.12886519730091095, "vf_explained_var": 0.06552401930093765, "entropy": 7.7118377685546875, "cur_lr": 4.999999873689376e-05, "total_loss": 220.93482971191406, "kl": 0.010023903101682663}, "load_time_ms": 0.677, "num_steps_sampled": 668400, "update_time_ms": 2.572}, "training_iteration": 557, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.616838216781616, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 668400, "timesteps_total": 668400, "custom_metrics": {}, "iterations_since_restore": 557, "episodes_this_iter": 112, "episode_reward_min": -84.4354191148986, "date": "2025-09-04_22-11-38", "episode_reward_max": 8.000294390878413, "pid": 3651948, "timestamp": 1757016698, "episode_reward_mean": -7.5135190840836215, "time_total_s": 21519.86287546158, "episodes_total": 26975, "episode_len_mean": 10.964285714285714}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 21561.864362716675, "info": {"sample_time_ms": 42373.089, "num_steps_trained": 669600, "grad_time_ms": 367.431, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 139.33462524414062, "policy_loss": -0.14680179953575134, "vf_explained_var": 0.06770966947078705, "entropy": 7.684025287628174, "cur_lr": 4.999999873689376e-05, "total_loss": 139.23477172851562, "kl": 0.013734077103435993}, "load_time_ms": 0.679, "num_steps_sampled": 669600, "update_time_ms": 2.563}, "training_iteration": 558, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.001487255096436, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 669600, "timesteps_total": 669600, "custom_metrics": {}, "iterations_since_restore": 558, "episodes_this_iter": 98, "episode_reward_min": -58.38346503878951, "date": "2025-09-04_22-12-20", "episode_reward_max": 8.000045804554109, "pid": 3651948, "timestamp": 1757016740, "episode_reward_mean": -8.793975598499975, "time_total_s": 21561.864362716675, "episodes_total": 27073, "episode_len_mean": 11.87}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 21604.379405260086, "info": {"sample_time_ms": 42319.686, "num_steps_trained": 670800, "grad_time_ms": 365.936, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 145.839111328125, "policy_loss": -0.1504814624786377, "vf_explained_var": 0.07926931977272034, "entropy": 7.459970951080322, "cur_lr": 4.999999873689376e-05, "total_loss": 145.7266845703125, "kl": 0.011130633763968945}, "load_time_ms": 0.682, "num_steps_sampled": 670800, "update_time_ms": 2.607}, "training_iteration": 559, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.515042543411255, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 670800, "timesteps_total": 670800, "custom_metrics": {}, "iterations_since_restore": 559, "episodes_this_iter": 107, "episode_reward_min": -56.354664746722065, "date": "2025-09-04_22-13-02", "episode_reward_max": 8.000833928321104, "pid": 3651948, "timestamp": 1757016782, "episode_reward_mean": -8.075514133723603, "time_total_s": 21604.379405260086, "episodes_total": 27180, "episode_len_mean": 11.317757009345794}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 21647.21959042549, "info": {"sample_time_ms": 42357.983, "num_steps_trained": 672000, "grad_time_ms": 367.547, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 159.48631286621094, "policy_loss": -0.13445042073726654, "vf_explained_var": 0.09145782142877579, "entropy": 7.627590656280518, "cur_lr": 4.999999873689376e-05, "total_loss": 159.3946990966797, "kl": 0.012530959211289883}, "load_time_ms": 0.681, "num_steps_sampled": 672000, "update_time_ms": 2.588}, "training_iteration": 560, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.84018516540527, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 672000, "timesteps_total": 672000, "custom_metrics": {}, "iterations_since_restore": 560, "episodes_this_iter": 115, "episode_reward_min": -66.33505633171917, "date": "2025-09-04_22-13-45", "episode_reward_max": 8.00009120135479, "pid": 3651948, "timestamp": 1757016825, "episode_reward_mean": -6.0452420411654595, "time_total_s": 21647.21959042549, "episodes_total": 27295, "episode_len_mean": 10.173913043478262}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 21691.032320976257, "info": {"sample_time_ms": 42480.611, "num_steps_trained": 673200, "grad_time_ms": 370.136, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 120.06874084472656, "policy_loss": -0.1362529695034027, "vf_explained_var": 0.07216636091470718, "entropy": 6.824906349182129, "cur_lr": 4.999999873689376e-05, "total_loss": 119.97330474853516, "kl": 0.011949594132602215}, "load_time_ms": 0.682, "num_steps_sampled": 673200, "update_time_ms": 2.609}, "training_iteration": 561, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.81273055076599, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 673200, "timesteps_total": 673200, "custom_metrics": {}, "iterations_since_restore": 561, "episodes_this_iter": 129, "episode_reward_min": -52.10596212722329, "date": "2025-09-04_22-14-29", "episode_reward_max": 8.00011735640512, "pid": 3651948, "timestamp": 1757016869, "episode_reward_mean": -5.093333995757722, "time_total_s": 21691.032320976257, "episodes_total": 27424, "episode_len_mean": 9.527131782945736}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 21733.87010025978, "info": {"sample_time_ms": 42543.074, "num_steps_trained": 674400, "grad_time_ms": 369.86, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 105.38618469238281, "policy_loss": -0.1297050267457962, "vf_explained_var": 0.0827423632144928, "entropy": 6.8894147872924805, "cur_lr": 4.999999873689376e-05, "total_loss": 105.29486083984375, "kl": 0.011231918819248676}, "load_time_ms": 0.684, "num_steps_sampled": 674400, "update_time_ms": 2.616}, "training_iteration": 562, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.83777928352356, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 674400, "timesteps_total": 674400, "custom_metrics": {}, "iterations_since_restore": 562, "episodes_this_iter": 119, "episode_reward_min": -57.96373070942089, "date": "2025-09-04_22-15-12", "episode_reward_max": 8.000232362221062, "pid": 3651948, "timestamp": 1757016912, "episode_reward_mean": -6.140445976676297, "time_total_s": 21733.87010025978, "episodes_total": 27543, "episode_len_mean": 10.109243697478991}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 21776.769562005997, "info": {"sample_time_ms": 42484.513, "num_steps_trained": 675600, "grad_time_ms": 368.693, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 204.86996459960938, "policy_loss": -0.13395991921424866, "vf_explained_var": 0.0822979137301445, "entropy": 7.190834999084473, "cur_lr": 4.999999873689376e-05, "total_loss": 204.776611328125, "kl": 0.011884557083249092}, "load_time_ms": 0.696, "num_steps_sampled": 675600, "update_time_ms": 2.574}, "training_iteration": 563, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.89946174621582, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 675600, "timesteps_total": 675600, "custom_metrics": {}, "iterations_since_restore": 563, "episodes_this_iter": 117, "episode_reward_min": -81.75435628911879, "date": "2025-09-04_22-15-55", "episode_reward_max": 8.000441655375283, "pid": 3651948, "timestamp": 1757016955, "episode_reward_mean": -6.406610327960005, "time_total_s": 21776.769562005997, "episodes_total": 27660, "episode_len_mean": 10.333333333333334}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 21820.96600151062, "info": {"sample_time_ms": 42575.677, "num_steps_trained": 676800, "grad_time_ms": 368.815, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 180.16827392578125, "policy_loss": -0.1367030143737793, "vf_explained_var": 0.07517794519662857, "entropy": 7.484841346740723, "cur_lr": 4.999999873689376e-05, "total_loss": 180.07052612304688, "kl": 0.011397531256079674}, "load_time_ms": 0.68, "num_steps_sampled": 676800, "update_time_ms": 2.553}, "training_iteration": 564, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 44.19643950462341, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 676800, "timesteps_total": 676800, "custom_metrics": {}, "iterations_since_restore": 564, "episodes_this_iter": 112, "episode_reward_min": -64.82634901042515, "date": "2025-09-04_22-16-39", "episode_reward_max": 8.000092940990312, "pid": 3651948, "timestamp": 1757016999, "episode_reward_mean": -6.589729884115301, "time_total_s": 21820.96600151062, "episodes_total": 27772, "episode_len_mean": 10.517857142857142}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 21863.813071250916, "info": {"sample_time_ms": 42544.47, "num_steps_trained": 678000, "grad_time_ms": 370.431, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 198.84449768066406, "policy_loss": -0.14143936336040497, "vf_explained_var": 0.06615026295185089, "entropy": 6.939062118530273, "cur_lr": 4.999999873689376e-05, "total_loss": 198.74237060546875, "kl": 0.011502007953822613}, "load_time_ms": 0.675, "num_steps_sampled": 678000, "update_time_ms": 2.561}, "training_iteration": 565, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.84706974029541, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 678000, "timesteps_total": 678000, "custom_metrics": {}, "iterations_since_restore": 565, "episodes_this_iter": 109, "episode_reward_min": -86.60146354034627, "date": "2025-09-04_22-17-22", "episode_reward_max": 8.000039436187995, "pid": 3651948, "timestamp": 1757017042, "episode_reward_mean": -7.526828884385483, "time_total_s": 21863.813071250916, "episodes_total": 27881, "episode_len_mean": 10.853211009174313}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 21906.536709070206, "info": {"sample_time_ms": 42546.89, "num_steps_trained": 679200, "grad_time_ms": 373.969, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 147.68374633789062, "policy_loss": -0.155631884932518, "vf_explained_var": 0.06244520843029022, "entropy": 7.263120174407959, "cur_lr": 4.999999873689376e-05, "total_loss": 147.57229614257812, "kl": 0.012926424853503704}, "load_time_ms": 0.692, "num_steps_sampled": 679200, "update_time_ms": 2.558}, "training_iteration": 566, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.72363781929016, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 679200, "timesteps_total": 679200, "custom_metrics": {}, "iterations_since_restore": 566, "episodes_this_iter": 107, "episode_reward_min": -54.63605971540724, "date": "2025-09-04_22-18-05", "episode_reward_max": 8.000003062458518, "pid": 3651948, "timestamp": 1757017085, "episode_reward_mean": -7.979791943836602, "time_total_s": 21906.536709070206, "episodes_total": 27988, "episode_len_mean": 11.317757009345794}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 21949.84335541725, "info": {"sample_time_ms": 42616.995, "num_steps_trained": 680400, "grad_time_ms": 372.824, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 155.88766479492188, "policy_loss": -0.13775783777236938, "vf_explained_var": 0.058890633285045624, "entropy": 7.494391441345215, "cur_lr": 4.999999873689376e-05, "total_loss": 155.78729248046875, "kl": 0.010931625962257385}, "load_time_ms": 0.69, "num_steps_sampled": 680400, "update_time_ms": 2.549}, "training_iteration": 567, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.3066463470459, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 680400, "timesteps_total": 680400, "custom_metrics": {}, "iterations_since_restore": 567, "episodes_this_iter": 112, "episode_reward_min": -84.02993638479828, "date": "2025-09-04_22-18-48", "episode_reward_max": 8.00024140639188, "pid": 3651948, "timestamp": 1757017128, "episode_reward_mean": -7.55994395399298, "time_total_s": 21949.84335541725, "episodes_total": 28100, "episode_len_mean": 10.928571428571429}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 21992.533579826355, "info": {"sample_time_ms": 42686.179, "num_steps_trained": 681600, "grad_time_ms": 372.55, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 152.74652099609375, "policy_loss": -0.15492337942123413, "vf_explained_var": 0.058588724583387375, "entropy": 7.213345050811768, "cur_lr": 4.999999873689376e-05, "total_loss": 152.63485717773438, "kl": 0.012657254002988338}, "load_time_ms": 0.694, "num_steps_sampled": 681600, "update_time_ms": 2.546}, "training_iteration": 568, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.690224409103394, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 681600, "timesteps_total": 681600, "custom_metrics": {}, "iterations_since_restore": 568, "episodes_this_iter": 110, "episode_reward_min": -50.905645282197014, "date": "2025-09-04_22-19-31", "episode_reward_max": 8.000048079203719, "pid": 3651948, "timestamp": 1757017171, "episode_reward_mean": -7.11440875099205, "time_total_s": 21992.533579826355, "episodes_total": 28210, "episode_len_mean": 10.745454545454546}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 22035.043923854828, "info": {"sample_time_ms": 42684.105, "num_steps_trained": 682800, "grad_time_ms": 374.156, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 135.70074462890625, "policy_loss": -0.14947375655174255, "vf_explained_var": 0.05739326775074005, "entropy": 6.931785583496094, "cur_lr": 4.999999873689376e-05, "total_loss": 135.59986877441406, "kl": 0.01421891525387764}, "load_time_ms": 0.695, "num_steps_sampled": 682800, "update_time_ms": 2.539}, "training_iteration": 569, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.5103440284729, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 682800, "timesteps_total": 682800, "custom_metrics": {}, "iterations_since_restore": 569, "episodes_this_iter": 106, "episode_reward_min": -62.53338617710244, "date": "2025-09-04_22-20-13", "episode_reward_max": 8.000107733981825, "pid": 3651948, "timestamp": 1757017213, "episode_reward_mean": -8.046965783119704, "time_total_s": 22035.043923854828, "episodes_total": 28316, "episode_len_mean": 11.339622641509434}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 22077.84760403633, "info": {"sample_time_ms": 42678.69, "num_steps_trained": 684000, "grad_time_ms": 375.862, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 112.93285369873047, "policy_loss": -0.1449345052242279, "vf_explained_var": 0.08518168330192566, "entropy": 7.19413423538208, "cur_lr": 4.999999873689376e-05, "total_loss": 112.82575225830078, "kl": 0.011071660555899143}, "load_time_ms": 0.711, "num_steps_sampled": 684000, "update_time_ms": 2.536}, "training_iteration": 570, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.803680181503296, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 684000, "timesteps_total": 684000, "custom_metrics": {}, "iterations_since_restore": 570, "episodes_this_iter": 122, "episode_reward_min": -48.24851714742445, "date": "2025-09-04_22-20-56", "episode_reward_max": 8.000055241613577, "pid": 3651948, "timestamp": 1757017256, "episode_reward_mean": -5.624446084612276, "time_total_s": 22077.84760403633, "episodes_total": 28438, "episode_len_mean": 9.918032786885245}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 22120.38676905632, "info": {"sample_time_ms": 42551.255, "num_steps_trained": 685200, "grad_time_ms": 375.928, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 133.19151306152344, "policy_loss": -0.1502912938594818, "vf_explained_var": 0.07893572002649307, "entropy": 7.2277045249938965, "cur_lr": 4.999999873689376e-05, "total_loss": 133.07899475097656, "kl": 0.011048024520277977}, "load_time_ms": 0.722, "num_steps_sampled": 685200, "update_time_ms": 2.572}, "training_iteration": 571, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.539165019989014, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 685200, "timesteps_total": 685200, "custom_metrics": {}, "iterations_since_restore": 571, "episodes_this_iter": 113, "episode_reward_min": -85.25417927993146, "date": "2025-09-04_22-21-39", "episode_reward_max": 8.000087952482096, "pid": 3651948, "timestamp": 1757017299, "episode_reward_mean": -7.091387358571522, "time_total_s": 22120.38676905632, "episodes_total": 28551, "episode_len_mean": 10.690265486725664}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 22162.90586090088, "info": {"sample_time_ms": 42517.234, "num_steps_trained": 686400, "grad_time_ms": 378.059, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 182.99456787109375, "policy_loss": -0.13071544468402863, "vf_explained_var": 0.07520709931850433, "entropy": 7.410926818847656, "cur_lr": 4.999999873689376e-05, "total_loss": 182.89974975585938, "kl": 0.010507463477551937}, "load_time_ms": 0.725, "num_steps_sampled": 686400, "update_time_ms": 2.572}, "training_iteration": 572, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.519091844558716, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 686400, "timesteps_total": 686400, "custom_metrics": {}, "iterations_since_restore": 572, "episodes_this_iter": 115, "episode_reward_min": -82.94677043031537, "date": "2025-09-04_22-22-21", "episode_reward_max": 8.000496942292274, "pid": 3651948, "timestamp": 1757017341, "episode_reward_mean": -6.136495311014474, "time_total_s": 22162.90586090088, "episodes_total": 28666, "episode_len_mean": 10.156521739130435}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 22205.807220220566, "info": {"sample_time_ms": 42518.564, "num_steps_trained": 687600, "grad_time_ms": 376.914, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 122.54331970214844, "policy_loss": -0.13683006167411804, "vf_explained_var": 0.0526929572224617, "entropy": 7.163827896118164, "cur_lr": 4.999999873689376e-05, "total_loss": 122.44371032714844, "kl": 0.010894465260207653}, "load_time_ms": 0.711, "num_steps_sampled": 687600, "update_time_ms": 2.605}, "training_iteration": 573, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.90135931968689, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 687600, "timesteps_total": 687600, "custom_metrics": {}, "iterations_since_restore": 573, "episodes_this_iter": 122, "episode_reward_min": -68.4526222955332, "date": "2025-09-04_22-23-04", "episode_reward_max": 10.0, "pid": 3651948, "timestamp": 1757017384, "episode_reward_mean": -5.682447918716967, "time_total_s": 22205.807220220566, "episodes_total": 28788, "episode_len_mean": 9.959016393442623}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 22248.536956310272, "info": {"sample_time_ms": 42370.332, "num_steps_trained": 688800, "grad_time_ms": 378.452, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 209.05628967285156, "policy_loss": -0.1234748512506485, "vf_explained_var": 0.06602538377046585, "entropy": 7.409505367279053, "cur_lr": 4.999999873689376e-05, "total_loss": 208.97499084472656, "kl": 0.012348907068371773}, "load_time_ms": 0.709, "num_steps_sampled": 688800, "update_time_ms": 2.581}, "training_iteration": 574, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.72973608970642, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 688800, "timesteps_total": 688800, "custom_metrics": {}, "iterations_since_restore": 574, "episodes_this_iter": 109, "episode_reward_min": -74.35816990238168, "date": "2025-09-04_22-23-47", "episode_reward_max": 8.00172516925269, "pid": 3651948, "timestamp": 1757017427, "episode_reward_mean": -7.325131015657343, "time_total_s": 22248.536956310272, "episodes_total": 28897, "episode_len_mean": 10.972477064220184}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 22291.571404218674, "info": {"sample_time_ms": 42390.463, "num_steps_trained": 690000, "grad_time_ms": 377.016, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 130.4335174560547, "policy_loss": -0.1544542908668518, "vf_explained_var": 0.06219371780753136, "entropy": 6.913965225219727, "cur_lr": 4.999999873689376e-05, "total_loss": 130.3199005126953, "kl": 0.011956276372075081}, "load_time_ms": 0.722, "num_steps_sampled": 690000, "update_time_ms": 2.576}, "training_iteration": 575, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.03444790840149, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 690000, "timesteps_total": 690000, "custom_metrics": {}, "iterations_since_restore": 575, "episodes_this_iter": 113, "episode_reward_min": -54.22765412618301, "date": "2025-09-04_22-24-30", "episode_reward_max": 8.000057655930751, "pid": 3651948, "timestamp": 1757017470, "episode_reward_mean": -7.287234470903005, "time_total_s": 22291.571404218674, "episodes_total": 29010, "episode_len_mean": 10.858407079646017}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 22335.940213918686, "info": {"sample_time_ms": 42558.047, "num_steps_trained": 691200, "grad_time_ms": 373.959, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 168.27389526367188, "policy_loss": -0.13689130544662476, "vf_explained_var": 0.07498934864997864, "entropy": 7.524739742279053, "cur_lr": 4.999999873689376e-05, "total_loss": 168.1717071533203, "kl": 0.010151694528758526}, "load_time_ms": 0.708, "num_steps_sampled": 691200, "update_time_ms": 2.596}, "training_iteration": 576, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 44.36880970001221, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 691200, "timesteps_total": 691200, "custom_metrics": {}, "iterations_since_restore": 576, "episodes_this_iter": 110, "episode_reward_min": -70.2475338971699, "date": "2025-09-04_22-25-14", "episode_reward_max": 8.00002636638029, "pid": 3651948, "timestamp": 1757017514, "episode_reward_mean": -6.757685599026747, "time_total_s": 22335.940213918686, "episodes_total": 29120, "episode_len_mean": 10.672727272727272}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 22378.950961351395, "info": {"sample_time_ms": 42525.88, "num_steps_trained": 692400, "grad_time_ms": 376.477, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 136.9923553466797, "policy_loss": -0.140699565410614, "vf_explained_var": 0.09320604801177979, "entropy": 7.144749164581299, "cur_lr": 4.999999873689376e-05, "total_loss": 136.8886260986328, "kl": 0.010824107564985752}, "load_time_ms": 0.72, "num_steps_sampled": 692400, "update_time_ms": 2.585}, "training_iteration": 577, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.01074743270874, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 692400, "timesteps_total": 692400, "custom_metrics": {}, "iterations_since_restore": 577, "episodes_this_iter": 126, "episode_reward_min": -54.93737929459731, "date": "2025-09-04_22-25-57", "episode_reward_max": 8.000693779503983, "pid": 3651948, "timestamp": 1757017557, "episode_reward_mean": -5.148831116193629, "time_total_s": 22378.950961351395, "episodes_total": 29246, "episode_len_mean": 9.642857142857142}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 22423.185261964798, "info": {"sample_time_ms": 42680.617, "num_steps_trained": 693600, "grad_time_ms": 376.063, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 174.09930419921875, "policy_loss": -0.1358547955751419, "vf_explained_var": 0.07100100070238113, "entropy": 6.8559722900390625, "cur_lr": 4.999999873689376e-05, "total_loss": 174.0040283203125, "kl": 0.01187346875667572}, "load_time_ms": 0.721, "num_steps_sampled": 693600, "update_time_ms": 2.612}, "training_iteration": 578, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 44.23430061340332, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 693600, "timesteps_total": 693600, "custom_metrics": {}, "iterations_since_restore": 578, "episodes_this_iter": 118, "episode_reward_min": -83.06991680825949, "date": "2025-09-04_22-26-42", "episode_reward_max": 8.00003230595356, "pid": 3651948, "timestamp": 1757017602, "episode_reward_mean": -6.179279727686898, "time_total_s": 22423.185261964798, "episodes_total": 29364, "episode_len_mean": 10.177966101694915}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 22466.4621822834, "info": {"sample_time_ms": 42756.586, "num_steps_trained": 694800, "grad_time_ms": 376.764, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 139.19488525390625, "policy_loss": -0.13023453950881958, "vf_explained_var": 0.07461045682430267, "entropy": 6.996879577636719, "cur_lr": 4.999999873689376e-05, "total_loss": 139.10948181152344, "kl": 0.013118831440806389}, "load_time_ms": 0.716, "num_steps_sampled": 694800, "update_time_ms": 2.601}, "training_iteration": 579, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.276920318603516, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 694800, "timesteps_total": 694800, "custom_metrics": {}, "iterations_since_restore": 579, "episodes_this_iter": 121, "episode_reward_min": -47.700735280103274, "date": "2025-09-04_22-27-25", "episode_reward_max": 8.000156903274824, "pid": 3651948, "timestamp": 1757017645, "episode_reward_mean": -4.957898628346339, "time_total_s": 22466.4621822834, "episodes_total": 29485, "episode_len_mean": 9.537190082644628}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 22509.432641267776, "info": {"sample_time_ms": 42776.12, "num_steps_trained": 696000, "grad_time_ms": 373.96, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 94.98158264160156, "policy_loss": -0.1420704573392868, "vf_explained_var": 0.07674945890903473, "entropy": 7.213596820831299, "cur_lr": 4.999999873689376e-05, "total_loss": 94.87638092041016, "kl": 0.010787763632833958}, "load_time_ms": 0.707, "num_steps_sampled": 696000, "update_time_ms": 2.622}, "training_iteration": 580, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.970458984375, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 696000, "timesteps_total": 696000, "custom_metrics": {}, "iterations_since_restore": 580, "episodes_this_iter": 119, "episode_reward_min": -66.57485710214135, "date": "2025-09-04_22-28-08", "episode_reward_max": 8.000062790663561, "pid": 3651948, "timestamp": 1757017688, "episode_reward_mean": -6.65762503572369, "time_total_s": 22509.432641267776, "episodes_total": 29604, "episode_len_mean": 10.504201680672269}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 22552.289803743362, "info": {"sample_time_ms": 42810.573, "num_steps_trained": 697200, "grad_time_ms": 371.38, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 128.8344268798828, "policy_loss": -0.1312500238418579, "vf_explained_var": 0.09103263169527054, "entropy": 7.415947914123535, "cur_lr": 4.999999873689376e-05, "total_loss": 128.74192810058594, "kl": 0.011338096112012863}, "load_time_ms": 0.701, "num_steps_sampled": 697200, "update_time_ms": 2.526}, "training_iteration": 581, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.85716247558594, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 697200, "timesteps_total": 697200, "custom_metrics": {}, "iterations_since_restore": 581, "episodes_this_iter": 121, "episode_reward_min": -57.68848140224077, "date": "2025-09-04_22-28-51", "episode_reward_max": 8.00019220691321, "pid": 3651948, "timestamp": 1757017731, "episode_reward_mean": -5.39508747106984, "time_total_s": 22552.289803743362, "episodes_total": 29725, "episode_len_mean": 9.84297520661157}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 22595.954249620438, "info": {"sample_time_ms": 42927.164, "num_steps_trained": 698400, "grad_time_ms": 369.282, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 122.69112396240234, "policy_loss": -0.1308661699295044, "vf_explained_var": 0.07427005469799042, "entropy": 7.18864107131958, "cur_lr": 4.999999873689376e-05, "total_loss": 122.60426330566406, "kl": 0.012876071035861969}, "load_time_ms": 0.698, "num_steps_sampled": 698400, "update_time_ms": 2.557}, "training_iteration": 582, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.664445877075195, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 698400, "timesteps_total": 698400, "custom_metrics": {}, "iterations_since_restore": 582, "episodes_this_iter": 117, "episode_reward_min": -57.31496480522384, "date": "2025-09-04_22-29-35", "episode_reward_max": 8.000219740887788, "pid": 3651948, "timestamp": 1757017775, "episode_reward_mean": -5.87037731655807, "time_total_s": 22595.954249620438, "episodes_total": 29842, "episode_len_mean": 10.136752136752136}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 22638.80445575714, "info": {"sample_time_ms": 42919.357, "num_steps_trained": 699600, "grad_time_ms": 371.931, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 115.34535217285156, "policy_loss": -0.12993019819259644, "vf_explained_var": 0.09734512865543365, "entropy": 7.098825454711914, "cur_lr": 4.999999873689376e-05, "total_loss": 115.25001525878906, "kl": 0.01012202724814415}, "load_time_ms": 0.712, "num_steps_sampled": 699600, "update_time_ms": 2.582}, "training_iteration": 583, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.85020613670349, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 699600, "timesteps_total": 699600, "custom_metrics": {}, "iterations_since_restore": 583, "episodes_this_iter": 128, "episode_reward_min": -56.91603174569671, "date": "2025-09-04_22-30-17", "episode_reward_max": 8.000145350968783, "pid": 3651948, "timestamp": 1757017817, "episode_reward_mean": -4.829231435358762, "time_total_s": 22638.80445575714, "episodes_total": 29970, "episode_len_mean": 9.515625}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 22684.14041852951, "info": {"sample_time_ms": 43181.283, "num_steps_trained": 700800, "grad_time_ms": 370.648, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 133.59213256835938, "policy_loss": -0.14230309426784515, "vf_explained_var": 0.06981848180294037, "entropy": 6.67290735244751, "cur_lr": 4.999999873689376e-05, "total_loss": 133.49095153808594, "kl": 0.01203584298491478}, "load_time_ms": 0.725, "num_steps_sampled": 700800, "update_time_ms": 2.588}, "training_iteration": 584, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 45.335962772369385, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 700800, "timesteps_total": 700800, "custom_metrics": {}, "iterations_since_restore": 584, "episodes_this_iter": 123, "episode_reward_min": -57.59628058778699, "date": "2025-09-04_22-31-03", "episode_reward_max": 8.000117909117819, "pid": 3651948, "timestamp": 1757017863, "episode_reward_mean": -5.26294073240756, "time_total_s": 22684.14041852951, "episodes_total": 30093, "episode_len_mean": 9.691056910569106}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 22727.164251089096, "info": {"sample_time_ms": 43179.759, "num_steps_trained": 702000, "grad_time_ms": 371.127, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 142.23223876953125, "policy_loss": -0.12671436369419098, "vf_explained_var": 0.08032892644405365, "entropy": 7.343288898468018, "cur_lr": 4.999999873689376e-05, "total_loss": 142.15101623535156, "kl": 0.01330479048192501}, "load_time_ms": 0.717, "num_steps_sampled": 702000, "update_time_ms": 2.585}, "training_iteration": 585, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.02383255958557, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 702000, "timesteps_total": 702000, "custom_metrics": {}, "iterations_since_restore": 585, "episodes_this_iter": 119, "episode_reward_min": -63.36495358766278, "date": "2025-09-04_22-31-46", "episode_reward_max": 8.000246534700047, "pid": 3651948, "timestamp": 1757017906, "episode_reward_mean": -5.878659310265259, "time_total_s": 22727.164251089096, "episodes_total": 30212, "episode_len_mean": 10.109243697478991}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 22770.384961128235, "info": {"sample_time_ms": 43063.488, "num_steps_trained": 703200, "grad_time_ms": 372.602, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 91.35843658447266, "policy_loss": -0.15350015461444855, "vf_explained_var": 0.1072445660829544, "entropy": 7.050044536590576, "cur_lr": 4.999999873689376e-05, "total_loss": 91.24449157714844, "kl": 0.011577222496271133}, "load_time_ms": 0.715, "num_steps_sampled": 703200, "update_time_ms": 2.567}, "training_iteration": 586, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.220710039138794, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 703200, "timesteps_total": 703200, "custom_metrics": {}, "iterations_since_restore": 586, "episodes_this_iter": 125, "episode_reward_min": -47.96183202814019, "date": "2025-09-04_22-32-29", "episode_reward_max": 8.000505277038918, "pid": 3651948, "timestamp": 1757017949, "episode_reward_mean": -5.040616298416622, "time_total_s": 22770.384961128235, "episodes_total": 30337, "episode_len_mean": 9.56}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 22814.914575338364, "info": {"sample_time_ms": 43215.761, "num_steps_trained": 704400, "grad_time_ms": 372.286, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 93.92406463623047, "policy_loss": -0.12293097376823425, "vf_explained_var": 0.12784144282341003, "entropy": 6.780979156494141, "cur_lr": 4.999999873689376e-05, "total_loss": 93.8482666015625, "kl": 0.013793894089758396}, "load_time_ms": 0.705, "num_steps_sampled": 704400, "update_time_ms": 2.583}, "training_iteration": 587, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 44.529614210128784, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 704400, "timesteps_total": 704400, "custom_metrics": {}, "iterations_since_restore": 587, "episodes_this_iter": 120, "episode_reward_min": -42.88386129363812, "date": "2025-09-04_22-33-14", "episode_reward_max": 8.000040180223671, "pid": 3651948, "timestamp": 1757017994, "episode_reward_mean": -5.753513069942545, "time_total_s": 22814.914575338364, "episodes_total": 30457, "episode_len_mean": 9.966666666666667}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 22859.455120801926, "info": {"sample_time_ms": 43246.856, "num_steps_trained": 705600, "grad_time_ms": 371.89, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 77.65475463867188, "policy_loss": -0.13246053457260132, "vf_explained_var": 0.09905927628278732, "entropy": 6.938627243041992, "cur_lr": 4.999999873689376e-05, "total_loss": 77.56002044677734, "kl": 0.01103940699249506}, "load_time_ms": 0.7, "num_steps_sampled": 705600, "update_time_ms": 2.552}, "training_iteration": 588, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 44.54054546356201, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 705600, "timesteps_total": 705600, "custom_metrics": {}, "iterations_since_restore": 588, "episodes_this_iter": 149, "episode_reward_min": -44.73748164195726, "date": "2025-09-04_22-33-58", "episode_reward_max": 8.00008797216531, "pid": 3651948, "timestamp": 1757018038, "episode_reward_mean": -2.6113752468583518, "time_total_s": 22859.455120801926, "episodes_total": 30606, "episode_len_mean": 8.12751677852349}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 22903.96373772621, "info": {"sample_time_ms": 43369.467, "num_steps_trained": 706800, "grad_time_ms": 372.391, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 121.15181732177734, "policy_loss": -0.1183452308177948, "vf_explained_var": 0.07469463348388672, "entropy": 6.563516139984131, "cur_lr": 4.999999873689376e-05, "total_loss": 121.072265625, "kl": 0.011357057839632034}, "load_time_ms": 0.716, "num_steps_sampled": 706800, "update_time_ms": 2.517}, "training_iteration": 589, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 44.50861692428589, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 706800, "timesteps_total": 706800, "custom_metrics": {}, "iterations_since_restore": 589, "episodes_this_iter": 135, "episode_reward_min": -71.19111453046314, "date": "2025-09-04_22-34-43", "episode_reward_max": 8.000053933585503, "pid": 3651948, "timestamp": 1757018083, "episode_reward_mean": -4.193839701913829, "time_total_s": 22903.96373772621, "episodes_total": 30741, "episode_len_mean": 8.992592592592592}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 22947.06484746933, "info": {"sample_time_ms": 43382.958, "num_steps_trained": 708000, "grad_time_ms": 371.98, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 141.84280395507812, "policy_loss": -0.12761473655700684, "vf_explained_var": 0.0985998809337616, "entropy": 7.402409076690674, "cur_lr": 4.999999873689376e-05, "total_loss": 141.76817321777344, "kl": 0.01550805103033781}, "load_time_ms": 0.707, "num_steps_sampled": 708000, "update_time_ms": 2.512}, "training_iteration": 590, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.101109743118286, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 708000, "timesteps_total": 708000, "custom_metrics": {}, "iterations_since_restore": 590, "episodes_this_iter": 121, "episode_reward_min": -71.80392788298023, "date": "2025-09-04_22-35-26", "episode_reward_max": 8.000476339571728, "pid": 3651948, "timestamp": 1757018126, "episode_reward_mean": -5.264783734877008, "time_total_s": 22947.06484746933, "episodes_total": 30862, "episode_len_mean": 9.801652892561984}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 22990.538947582245, "info": {"sample_time_ms": 43443.705, "num_steps_trained": 709200, "grad_time_ms": 372.915, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 119.58562469482422, "policy_loss": -0.14314739406108856, "vf_explained_var": 0.08791525661945343, "entropy": 7.169406414031982, "cur_lr": 4.999999873689376e-05, "total_loss": 119.47736358642578, "kl": 0.010210275650024414}, "load_time_ms": 0.701, "num_steps_sampled": 709200, "update_time_ms": 2.575}, "training_iteration": 591, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.47410011291504, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 709200, "timesteps_total": 709200, "custom_metrics": {}, "iterations_since_restore": 591, "episodes_this_iter": 115, "episode_reward_min": -57.33659681872386, "date": "2025-09-04_22-36-09", "episode_reward_max": 8.000032141378654, "pid": 3651948, "timestamp": 1757018169, "episode_reward_mean": -6.406518425550268, "time_total_s": 22990.538947582245, "episodes_total": 30977, "episode_len_mean": 10.417391304347825}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 23034.84391260147, "info": {"sample_time_ms": 43507.588, "num_steps_trained": 710400, "grad_time_ms": 373.119, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 151.1319122314453, "policy_loss": -0.13063140213489532, "vf_explained_var": 0.04749082773923874, "entropy": 7.191324234008789, "cur_lr": 4.999999873689376e-05, "total_loss": 151.0413360595703, "kl": 0.011724242940545082}, "load_time_ms": 0.703, "num_steps_sampled": 710400, "update_time_ms": 2.528}, "training_iteration": 592, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 44.304965019226074, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 710400, "timesteps_total": 710400, "custom_metrics": {}, "iterations_since_restore": 592, "episodes_this_iter": 132, "episode_reward_min": -48.77108419299691, "date": "2025-09-04_22-36-54", "episode_reward_max": 8.000195820089234, "pid": 3651948, "timestamp": 1757018214, "episode_reward_mean": -3.725944518014065, "time_total_s": 23034.84391260147, "episodes_total": 31109, "episode_len_mean": 8.856060606060606}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 23080.382224321365, "info": {"sample_time_ms": 43777.358, "num_steps_trained": 711600, "grad_time_ms": 372.202, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 107.67868041992188, "policy_loss": -0.138823002576828, "vf_explained_var": 0.07654394954442978, "entropy": 6.84686279296875, "cur_lr": 4.999999873689376e-05, "total_loss": 107.58744812011719, "kl": 0.013926461338996887}, "load_time_ms": 0.71, "num_steps_sampled": 711600, "update_time_ms": 2.488}, "training_iteration": 593, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 45.53831171989441, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 711600, "timesteps_total": 711600, "custom_metrics": {}, "iterations_since_restore": 593, "episodes_this_iter": 133, "episode_reward_min": -66.42029840822644, "date": "2025-09-04_22-37-39", "episode_reward_max": 8.000138517453546, "pid": 3651948, "timestamp": 1757018259, "episode_reward_mean": -4.4259443809062144, "time_total_s": 23080.382224321365, "episodes_total": 31242, "episode_len_mean": 9.210526315789474}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 23125.05748963356, "info": {"sample_time_ms": 43711.507, "num_steps_trained": 712800, "grad_time_ms": 371.969, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 156.84869384765625, "policy_loss": -0.12441955506801605, "vf_explained_var": 0.08332864940166473, "entropy": 6.674763202667236, "cur_lr": 4.999999873689376e-05, "total_loss": 156.7620086669922, "kl": 0.011046051979064941}, "load_time_ms": 0.707, "num_steps_sampled": 712800, "update_time_ms": 2.481}, "training_iteration": 594, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 44.675265312194824, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 712800, "timesteps_total": 712800, "custom_metrics": {}, "iterations_since_restore": 594, "episodes_this_iter": 125, "episode_reward_min": -68.77151196250325, "date": "2025-09-04_22-38-24", "episode_reward_max": 8.001414850232228, "pid": 3651948, "timestamp": 1757018304, "episode_reward_mean": -4.839392487965561, "time_total_s": 23125.05748963356, "episodes_total": 31367, "episode_len_mean": 9.4}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 23168.927923202515, "info": {"sample_time_ms": 43795.331, "num_steps_trained": 714000, "grad_time_ms": 372.795, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 118.53201293945312, "policy_loss": -0.12804369628429413, "vf_explained_var": 0.0854819267988205, "entropy": 6.8159966468811035, "cur_lr": 4.999999873689376e-05, "total_loss": 118.44461822509766, "kl": 0.01189707312732935}, "load_time_ms": 0.715, "num_steps_sampled": 714000, "update_time_ms": 2.454}, "training_iteration": 595, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.87043356895447, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 714000, "timesteps_total": 714000, "custom_metrics": {}, "iterations_since_restore": 595, "episodes_this_iter": 150, "episode_reward_min": -84.89429218265892, "date": "2025-09-04_22-39-08", "episode_reward_max": 8.000200131851521, "pid": 3651948, "timestamp": 1757018348, "episode_reward_mean": -2.795488517206502, "time_total_s": 23168.927923202515, "episodes_total": 31517, "episode_len_mean": 8.213333333333333}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 23212.9437186718, "info": {"sample_time_ms": 43874.525, "num_steps_trained": 715200, "grad_time_ms": 373.034, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 89.91404724121094, "policy_loss": -0.13218335807323456, "vf_explained_var": 0.1509593278169632, "entropy": 6.593450546264648, "cur_lr": 4.999999873689376e-05, "total_loss": 89.82585906982422, "kl": 0.012874918058514595}, "load_time_ms": 0.723, "num_steps_sampled": 715200, "update_time_ms": 2.448}, "training_iteration": 596, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 44.01579546928406, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 715200, "timesteps_total": 715200, "custom_metrics": {}, "iterations_since_restore": 596, "episodes_this_iter": 146, "episode_reward_min": -46.89106432634683, "date": "2025-09-04_22-39-52", "episode_reward_max": 8.000059176342543, "pid": 3651948, "timestamp": 1757018392, "episode_reward_mean": -2.718115021179101, "time_total_s": 23212.9437186718, "episodes_total": 31663, "episode_len_mean": 8.184931506849315}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 23256.91022491455, "info": {"sample_time_ms": 43817.494, "num_steps_trained": 716400, "grad_time_ms": 373.682, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 131.62042236328125, "policy_loss": -0.12891115248203278, "vf_explained_var": 0.0633602887392044, "entropy": 6.955478191375732, "cur_lr": 4.999999873689376e-05, "total_loss": 131.52967834472656, "kl": 0.011169587261974812}, "load_time_ms": 0.73, "num_steps_sampled": 716400, "update_time_ms": 2.46}, "training_iteration": 597, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.966506242752075, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 716400, "timesteps_total": 716400, "custom_metrics": {}, "iterations_since_restore": 597, "episodes_this_iter": 133, "episode_reward_min": -60.22632302654492, "date": "2025-09-04_22-40-36", "episode_reward_max": 8.000883760389728, "pid": 3651948, "timestamp": 1757018436, "episode_reward_mean": -4.196563868691215, "time_total_s": 23256.91022491455, "episodes_total": 31796, "episode_len_mean": 9.090225563909774}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 23301.675994873047, "info": {"sample_time_ms": 43840.693, "num_steps_trained": 717600, "grad_time_ms": 372.935, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 108.18599700927734, "policy_loss": -0.118685282766819, "vf_explained_var": 0.11735150218009949, "entropy": 6.502457141876221, "cur_lr": 4.999999873689376e-05, "total_loss": 108.11123657226562, "kl": 0.012854685075581074}, "load_time_ms": 0.73, "num_steps_sampled": 717600, "update_time_ms": 2.517}, "training_iteration": 598, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 44.765769958496094, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 717600, "timesteps_total": 717600, "custom_metrics": {}, "iterations_since_restore": 598, "episodes_this_iter": 152, "episode_reward_min": -67.82491122735355, "date": "2025-09-04_22-41-21", "episode_reward_max": 8.00003680404728, "pid": 3651948, "timestamp": 1757018481, "episode_reward_mean": -2.197598254975347, "time_total_s": 23301.675994873047, "episodes_total": 31948, "episode_len_mean": 7.848684210526316}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 23344.57385659218, "info": {"sample_time_ms": 43682.56, "num_steps_trained": 718800, "grad_time_ms": 370.037, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 133.1768798828125, "policy_loss": -0.13704553246498108, "vf_explained_var": 0.09473087638616562, "entropy": 6.754085063934326, "cur_lr": 4.999999873689376e-05, "total_loss": 133.0796356201172, "kl": 0.011645477265119553}, "load_time_ms": 0.722, "num_steps_sampled": 718800, "update_time_ms": 2.56}, "training_iteration": 599, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.89786171913147, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 718800, "timesteps_total": 718800, "custom_metrics": {}, "iterations_since_restore": 599, "episodes_this_iter": 120, "episode_reward_min": -63.29919197088866, "date": "2025-09-04_22-42-04", "episode_reward_max": 8.000100690883038, "pid": 3651948, "timestamp": 1757018524, "episode_reward_mean": -5.870295952205978, "time_total_s": 23344.57385659218, "episodes_total": 32068, "episode_len_mean": 10.083333333333334}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 23387.79086279869, "info": {"sample_time_ms": 43693.575, "num_steps_trained": 720000, "grad_time_ms": 370.578, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 89.28089141845703, "policy_loss": -0.14922183752059937, "vf_explained_var": 0.11266271024942398, "entropy": 6.479259014129639, "cur_lr": 4.999999873689376e-05, "total_loss": 89.17571258544922, "kl": 0.012887951917946339}, "load_time_ms": 0.722, "num_steps_sampled": 720000, "update_time_ms": 2.536}, "training_iteration": 600, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.21700620651245, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 720000, "timesteps_total": 720000, "custom_metrics": {}, "iterations_since_restore": 600, "episodes_this_iter": 129, "episode_reward_min": -47.30832296448869, "date": "2025-09-04_22-42-47", "episode_reward_max": 8.00003757225402, "pid": 3651948, "timestamp": 1757018567, "episode_reward_mean": -4.727779757085776, "time_total_s": 23387.79086279869, "episodes_total": 32197, "episode_len_mean": 9.294573643410853}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 23431.2193338871, "info": {"sample_time_ms": 43686.949, "num_steps_trained": 721200, "grad_time_ms": 372.533, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 95.62168884277344, "policy_loss": -0.12089570611715317, "vf_explained_var": 0.09228457510471344, "entropy": 6.7667927742004395, "cur_lr": 4.999999873689376e-05, "total_loss": 95.5384521484375, "kl": 0.01102022361010313}, "load_time_ms": 0.723, "num_steps_sampled": 721200, "update_time_ms": 2.559}, "training_iteration": 601, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.428471088409424, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 721200, "timesteps_total": 721200, "custom_metrics": {}, "iterations_since_restore": 601, "episodes_this_iter": 138, "episode_reward_min": -57.95461426237044, "date": "2025-09-04_22-43-30", "episode_reward_max": 8.000672331053476, "pid": 3651948, "timestamp": 1757018610, "episode_reward_mean": -3.609454058582472, "time_total_s": 23431.2193338871, "episodes_total": 32335, "episode_len_mean": 8.72463768115942}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 23474.939210653305, "info": {"sample_time_ms": 43626.161, "num_steps_trained": 722400, "grad_time_ms": 374.735, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 74.19865417480469, "policy_loss": -0.12589259445667267, "vf_explained_var": 0.11768775433301926, "entropy": 5.9769673347473145, "cur_lr": 4.999999873689376e-05, "total_loss": 74.11507415771484, "kl": 0.01238187775015831}, "load_time_ms": 0.727, "num_steps_sampled": 722400, "update_time_ms": 2.576}, "training_iteration": 602, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.719876766204834, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 722400, "timesteps_total": 722400, "custom_metrics": {}, "iterations_since_restore": 602, "episodes_this_iter": 155, "episode_reward_min": -38.30536829261998, "date": "2025-09-04_22-44-14", "episode_reward_max": 8.000132867335541, "pid": 3651948, "timestamp": 1757018654, "episode_reward_mean": -1.9368118449596428, "time_total_s": 23474.939210653305, "episodes_total": 32490, "episode_len_mean": 7.658064516129032}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 23519.12417769432, "info": {"sample_time_ms": 43490.588, "num_steps_trained": 723600, "grad_time_ms": 374.963, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 83.46903991699219, "policy_loss": -0.1172410100698471, "vf_explained_var": 0.1085447371006012, "entropy": 6.539908409118652, "cur_lr": 4.999999873689376e-05, "total_loss": 83.40992736816406, "kl": 0.017011698335409164}, "load_time_ms": 0.713, "num_steps_sampled": 723600, "update_time_ms": 2.587}, "training_iteration": 603, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 44.184967041015625, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 723600, "timesteps_total": 723600, "custom_metrics": {}, "iterations_since_restore": 603, "episodes_this_iter": 139, "episode_reward_min": -45.90818513752913, "date": "2025-09-04_22-44-58", "episode_reward_max": 8.000326986938695, "pid": 3651948, "timestamp": 1757018698, "episode_reward_mean": -3.7029299404763436, "time_total_s": 23519.12417769432, "episodes_total": 32629, "episode_len_mean": 8.762589928057555}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 23562.857536554337, "info": {"sample_time_ms": 43395.735, "num_steps_trained": 724800, "grad_time_ms": 375.529, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 103.1093978881836, "policy_loss": -0.1405450701713562, "vf_explained_var": 0.11952368170022964, "entropy": 6.960071086883545, "cur_lr": 4.999999873689376e-05, "total_loss": 103.00732421875, "kl": 0.011259738355875015}, "load_time_ms": 0.704, "num_steps_sampled": 724800, "update_time_ms": 2.648}, "training_iteration": 604, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.73335886001587, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 724800, "timesteps_total": 724800, "custom_metrics": {}, "iterations_since_restore": 604, "episodes_this_iter": 128, "episode_reward_min": -47.65175200995771, "date": "2025-09-04_22-45-42", "episode_reward_max": 8.000083883919991, "pid": 3651948, "timestamp": 1757018742, "episode_reward_mean": -4.491569973848575, "time_total_s": 23562.857536554337, "episodes_total": 32757, "episode_len_mean": 9.2578125}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 23606.357277154922, "info": {"sample_time_ms": 43361.803, "num_steps_trained": 726000, "grad_time_ms": 372.361, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 90.22853088378906, "policy_loss": -0.12851108610630035, "vf_explained_var": 0.12002600729465485, "entropy": 6.432928085327148, "cur_lr": 4.999999873689376e-05, "total_loss": 90.14180755615234, "kl": 0.012228470295667648}, "load_time_ms": 0.696, "num_steps_sampled": 726000, "update_time_ms": 2.712}, "training_iteration": 605, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.49974060058594, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 726000, "timesteps_total": 726000, "custom_metrics": {}, "iterations_since_restore": 605, "episodes_this_iter": 132, "episode_reward_min": -53.97147874809213, "date": "2025-09-04_22-46-25", "episode_reward_max": 8.000298934506844, "pid": 3651948, "timestamp": 1757018785, "episode_reward_mean": -4.387812240105299, "time_total_s": 23606.357277154922, "episodes_total": 32889, "episode_len_mean": 9.151515151515152}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 23650.741208314896, "info": {"sample_time_ms": 43399.828, "num_steps_trained": 727200, "grad_time_ms": 371.198, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 100.70307922363281, "policy_loss": -0.14291277527809143, "vf_explained_var": 0.10846755653619766, "entropy": 6.764704704284668, "cur_lr": 4.999999873689376e-05, "total_loss": 100.59479522705078, "kl": 0.01013493537902832}, "load_time_ms": 0.691, "num_steps_sampled": 727200, "update_time_ms": 2.721}, "training_iteration": 606, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 44.383931159973145, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 727200, "timesteps_total": 727200, "custom_metrics": {}, "iterations_since_restore": 606, "episodes_this_iter": 148, "episode_reward_min": -53.87825800993699, "date": "2025-09-04_22-47-10", "episode_reward_max": 8.001652829584234, "pid": 3651948, "timestamp": 1757018830, "episode_reward_mean": -2.2901905647498775, "time_total_s": 23650.741208314896, "episodes_total": 33037, "episode_len_mean": 7.9324324324324325}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 23695.062483549118, "info": {"sample_time_ms": 43436.722, "num_steps_trained": 728400, "grad_time_ms": 369.762, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 62.03611755371094, "policy_loss": -0.12948085367679596, "vf_explained_var": 0.12581761181354523, "entropy": 6.543361663818359, "cur_lr": 4.999999873689376e-05, "total_loss": 61.94514465332031, "kl": 0.011268743313848972}, "load_time_ms": 0.695, "num_steps_sampled": 728400, "update_time_ms": 2.728}, "training_iteration": 607, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 44.32127523422241, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 728400, "timesteps_total": 728400, "custom_metrics": {}, "iterations_since_restore": 607, "episodes_this_iter": 155, "episode_reward_min": -50.7471301644085, "date": "2025-09-04_22-47-54", "episode_reward_max": 10.0, "pid": 3651948, "timestamp": 1757018874, "episode_reward_mean": -2.3390846226268893, "time_total_s": 23695.062483549118, "episodes_total": 33192, "episode_len_mean": 7.941935483870968}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 23738.654263973236, "info": {"sample_time_ms": 43317.573, "num_steps_trained": 729600, "grad_time_ms": 371.483, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 99.25454711914062, "policy_loss": -0.12160660326480865, "vf_explained_var": 0.1230609118938446, "entropy": 6.74321174621582, "cur_lr": 4.999999873689376e-05, "total_loss": 99.17286682128906, "kl": 0.011683410033583641}, "load_time_ms": 0.704, "num_steps_sampled": 729600, "update_time_ms": 2.714}, "training_iteration": 608, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.59178042411804, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 729600, "timesteps_total": 729600, "custom_metrics": {}, "iterations_since_restore": 608, "episodes_this_iter": 139, "episode_reward_min": -48.03150689939424, "date": "2025-09-04_22-48-38", "episode_reward_max": 8.00045191681889, "pid": 3651948, "timestamp": 1757018918, "episode_reward_mean": -2.999305298071618, "time_total_s": 23738.654263973236, "episodes_total": 33331, "episode_len_mean": 8.388489208633093}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 23782.10429239273, "info": {"sample_time_ms": 43369.897, "num_steps_trained": 730800, "grad_time_ms": 374.336, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 75.23072052001953, "policy_loss": -0.12343779951334, "vf_explained_var": 0.12303393334150314, "entropy": 6.567841529846191, "cur_lr": 4.999999873689376e-05, "total_loss": 75.13880920410156, "kl": 0.009223658591508865}, "load_time_ms": 0.702, "num_steps_sampled": 730800, "update_time_ms": 2.714}, "training_iteration": 609, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.45002841949463, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 730800, "timesteps_total": 730800, "custom_metrics": {}, "iterations_since_restore": 609, "episodes_this_iter": 148, "episode_reward_min": -52.06682091221565, "date": "2025-09-04_22-49-21", "episode_reward_max": 8.001783886918624, "pid": 3651948, "timestamp": 1757018961, "episode_reward_mean": -2.7639513994668614, "time_total_s": 23782.10429239273, "episodes_total": 33479, "episode_len_mean": 8.243243243243244}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 23825.765317440033, "info": {"sample_time_ms": 43413.4, "num_steps_trained": 732000, "grad_time_ms": 375.169, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 103.58061981201172, "policy_loss": -0.12942402064800262, "vf_explained_var": 0.09735243767499924, "entropy": 6.212673664093018, "cur_lr": 4.999999873689376e-05, "total_loss": 103.48749542236328, "kl": 0.010623730719089508}, "load_time_ms": 0.703, "num_steps_sampled": 732000, "update_time_ms": 2.789}, "training_iteration": 610, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.661025047302246, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 732000, "timesteps_total": 732000, "custom_metrics": {}, "iterations_since_restore": 610, "episodes_this_iter": 143, "episode_reward_min": -62.01605145781362, "date": "2025-09-04_22-50-05", "episode_reward_max": 8.000033550722925, "pid": 3651948, "timestamp": 1757019005, "episode_reward_mean": -2.9132776826894746, "time_total_s": 23825.765317440033, "episodes_total": 33622, "episode_len_mean": 8.286713286713287}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 23870.447543382645, "info": {"sample_time_ms": 43539.937, "num_steps_trained": 733200, "grad_time_ms": 374.066, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 87.480712890625, "policy_loss": -0.1381773203611374, "vf_explained_var": 0.13044473528862, "entropy": 6.746407985687256, "cur_lr": 4.999999873689376e-05, "total_loss": 87.3785171508789, "kl": 0.010530880652368069}, "load_time_ms": 0.7, "num_steps_sampled": 733200, "update_time_ms": 2.733}, "training_iteration": 611, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 44.682225942611694, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 733200, "timesteps_total": 733200, "custom_metrics": {}, "iterations_since_restore": 611, "episodes_this_iter": 156, "episode_reward_min": -47.74921806817137, "date": "2025-09-04_22-50-50", "episode_reward_max": 8.0000941196506, "pid": 3651948, "timestamp": 1757019050, "episode_reward_mean": -2.0150252691354487, "time_total_s": 23870.447543382645, "episodes_total": 33778, "episode_len_mean": 7.8076923076923075}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 23913.03826022148, "info": {"sample_time_ms": 43428.226, "num_steps_trained": 734400, "grad_time_ms": 372.778, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 115.05916595458984, "policy_loss": -0.13818299770355225, "vf_explained_var": 0.08191430568695068, "entropy": 6.76662540435791, "cur_lr": 4.999999873689376e-05, "total_loss": 114.96686553955078, "kl": 0.013425699435174465}, "load_time_ms": 0.691, "num_steps_sampled": 734400, "update_time_ms": 2.8}, "training_iteration": 612, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 42.59071683883667, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 734400, "timesteps_total": 734400, "custom_metrics": {}, "iterations_since_restore": 612, "episodes_this_iter": 115, "episode_reward_min": -49.67916648419274, "date": "2025-09-04_22-51-32", "episode_reward_max": 8.000300123651812, "pid": 3651948, "timestamp": 1757019092, "episode_reward_mean": -6.248643446342032, "time_total_s": 23913.03826022148, "episodes_total": 33893, "episode_len_mean": 10.339130434782609}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 23957.83992266655, "info": {"sample_time_ms": 43489.08, "num_steps_trained": 735600, "grad_time_ms": 373.518, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 80.71265411376953, "policy_loss": -0.13465330004692078, "vf_explained_var": 0.11793039739131927, "entropy": 6.302291393280029, "cur_lr": 4.999999873689376e-05, "total_loss": 80.63780212402344, "kl": 0.017498981207609177}, "load_time_ms": 0.701, "num_steps_sampled": 735600, "update_time_ms": 2.832}, "training_iteration": 613, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 44.80166244506836, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 735600, "timesteps_total": 735600, "custom_metrics": {}, "iterations_since_restore": 613, "episodes_this_iter": 152, "episode_reward_min": -43.75999672188685, "date": "2025-09-04_22-52-17", "episode_reward_max": 8.00014029262937, "pid": 3651948, "timestamp": 1757019137, "episode_reward_mean": -2.481013239972887, "time_total_s": 23957.83992266655, "episodes_total": 34045, "episode_len_mean": 7.980263157894737}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 24001.833251714706, "info": {"sample_time_ms": 43512.734, "num_steps_trained": 736800, "grad_time_ms": 375.891, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 87.89940643310547, "policy_loss": -0.1337495893239975, "vf_explained_var": 0.1053292378783226, "entropy": 6.355923652648926, "cur_lr": 4.999999873689376e-05, "total_loss": 87.80087280273438, "kl": 0.010308354161679745}, "load_time_ms": 0.715, "num_steps_sampled": 736800, "update_time_ms": 2.79}, "training_iteration": 614, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.99332904815674, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 736800, "timesteps_total": 736800, "custom_metrics": {}, "iterations_since_restore": 614, "episodes_this_iter": 151, "episode_reward_min": -52.692293882623645, "date": "2025-09-04_22-53-01", "episode_reward_max": 8.00005365016508, "pid": 3651948, "timestamp": 1757019181, "episode_reward_mean": -2.3395078662194324, "time_total_s": 24001.833251714706, "episodes_total": 34196, "episode_len_mean": 7.940397350993377}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 24045.63971400261, "info": {"sample_time_ms": 43541.909, "num_steps_trained": 738000, "grad_time_ms": 377.403, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 59.33376693725586, "policy_loss": -0.11895520240068436, "vf_explained_var": 0.13744482398033142, "entropy": 6.331945419311523, "cur_lr": 4.999999873689376e-05, "total_loss": 59.25489807128906, "kl": 0.011729689314961433}, "load_time_ms": 0.713, "num_steps_sampled": 738000, "update_time_ms": 2.736}, "training_iteration": 615, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.80646228790283, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 738000, "timesteps_total": 738000, "custom_metrics": {}, "iterations_since_restore": 615, "episodes_this_iter": 154, "episode_reward_min": -48.34869160915936, "date": "2025-09-04_22-53-45", "episode_reward_max": 8.000059264052199, "pid": 3651948, "timestamp": 1757019225, "episode_reward_mean": -2.210588445461337, "time_total_s": 24045.63971400261, "episodes_total": 34350, "episode_len_mean": 7.8311688311688314}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 24089.56317305565, "info": {"sample_time_ms": 43494.818, "num_steps_trained": 739200, "grad_time_ms": 378.397, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 80.76864624023438, "policy_loss": -0.13747276365756989, "vf_explained_var": 0.1064247190952301, "entropy": 6.598756790161133, "cur_lr": 4.999999873689376e-05, "total_loss": 80.67037963867188, "kl": 0.011474408209323883}, "load_time_ms": 0.72, "num_steps_sampled": 739200, "update_time_ms": 2.786}, "training_iteration": 616, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.92345905303955, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 739200, "timesteps_total": 739200, "custom_metrics": {}, "iterations_since_restore": 616, "episodes_this_iter": 143, "episode_reward_min": -43.274968244869726, "date": "2025-09-04_22-54-29", "episode_reward_max": 8.00034231418727, "pid": 3651948, "timestamp": 1757019269, "episode_reward_mean": -2.892525819712943, "time_total_s": 24089.56317305565, "episodes_total": 34493, "episode_len_mean": 8.314685314685315}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 24132.587853193283, "info": {"sample_time_ms": 43367.12, "num_steps_trained": 740400, "grad_time_ms": 376.518, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 196.58050537109375, "policy_loss": -0.12371982634067535, "vf_explained_var": 0.08463575690984726, "entropy": 7.091447353363037, "cur_lr": 4.999999873689376e-05, "total_loss": 196.49053955078125, "kl": 0.009876329451799393}, "load_time_ms": 0.702, "num_steps_sampled": 740400, "update_time_ms": 2.776}, "training_iteration": 617, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.02468013763428, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 740400, "timesteps_total": 740400, "custom_metrics": {}, "iterations_since_restore": 617, "episodes_this_iter": 128, "episode_reward_min": -84.37941586798468, "date": "2025-09-04_22-55-12", "episode_reward_max": 8.000285617819653, "pid": 3651948, "timestamp": 1757019312, "episode_reward_mean": -4.624479288788307, "time_total_s": 24132.587853193283, "episodes_total": 34621, "episode_len_mean": 9.2890625}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 24176.85699081421, "info": {"sample_time_ms": 43434.809, "num_steps_trained": 741600, "grad_time_ms": 376.645, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 80.58283233642578, "policy_loss": -0.12967443466186523, "vf_explained_var": 0.10440634936094284, "entropy": 6.300535202026367, "cur_lr": 4.999999873689376e-05, "total_loss": 80.50260925292969, "kl": 0.014469693414866924}, "load_time_ms": 0.699, "num_steps_sampled": 741600, "update_time_ms": 2.738}, "training_iteration": 618, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 44.2691376209259, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 741600, "timesteps_total": 741600, "custom_metrics": {}, "iterations_since_restore": 618, "episodes_this_iter": 149, "episode_reward_min": -41.537811579281005, "date": "2025-09-04_22-55-56", "episode_reward_max": 8.000343860107382, "pid": 3651948, "timestamp": 1757019356, "episode_reward_mean": -2.679667372974014, "time_total_s": 24176.85699081421, "episodes_total": 34770, "episode_len_mean": 8.167785234899329}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 24221.655776262283, "info": {"sample_time_ms": 43571.083, "num_steps_trained": 742800, "grad_time_ms": 375.321, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 75.33663940429688, "policy_loss": -0.1256122887134552, "vf_explained_var": 0.1342889964580536, "entropy": 6.3217339515686035, "cur_lr": 4.999999873689376e-05, "total_loss": 75.2529296875, "kl": 0.012261205352842808}, "load_time_ms": 0.693, "num_steps_sampled": 742800, "update_time_ms": 2.705}, "training_iteration": 619, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 44.79878544807434, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 742800, "timesteps_total": 742800, "custom_metrics": {}, "iterations_since_restore": 619, "episodes_this_iter": 156, "episode_reward_min": -44.620420730516805, "date": "2025-09-04_22-56-41", "episode_reward_max": 8.000067229446792, "pid": 3651948, "timestamp": 1757019401, "episode_reward_mean": -1.8540265913132556, "time_total_s": 24221.655776262283, "episodes_total": 34926, "episode_len_mean": 7.673076923076923}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 24264.91754412651, "info": {"sample_time_ms": 43533.036, "num_steps_trained": 744000, "grad_time_ms": 373.499, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 95.90986633300781, "policy_loss": -0.13190573453903198, "vf_explained_var": 0.09556801617145538, "entropy": 6.6097893714904785, "cur_lr": 4.999999873689376e-05, "total_loss": 95.8134765625, "kl": 0.010394017212092876}, "load_time_ms": 0.703, "num_steps_sampled": 744000, "update_time_ms": 2.633}, "training_iteration": 620, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.261767864227295, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 744000, "timesteps_total": 744000, "custom_metrics": {}, "iterations_since_restore": 620, "episodes_this_iter": 144, "episode_reward_min": -80.9832114175946, "date": "2025-09-04_22-57-24", "episode_reward_max": 8.001205774148408, "pid": 3651948, "timestamp": 1757019444, "episode_reward_mean": -2.9950229317180774, "time_total_s": 24264.91754412651, "episodes_total": 35070, "episode_len_mean": 8.32638888888889}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 24309.009521722794, "info": {"sample_time_ms": 43475.999, "num_steps_trained": 745200, "grad_time_ms": 371.539, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 69.21296691894531, "policy_loss": -0.1333545297384262, "vf_explained_var": 0.11814220994710922, "entropy": 6.632723331451416, "cur_lr": 4.999999873689376e-05, "total_loss": 69.12251281738281, "kl": 0.01255726721137762}, "load_time_ms": 0.702, "num_steps_sampled": 745200, "update_time_ms": 2.656}, "training_iteration": 621, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 44.09197759628296, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 745200, "timesteps_total": 745200, "custom_metrics": {}, "iterations_since_restore": 621, "episodes_this_iter": 156, "episode_reward_min": -41.969145148756176, "date": "2025-09-04_22-58-09", "episode_reward_max": 8.000122929567713, "pid": 3651948, "timestamp": 1757019489, "episode_reward_mean": -1.945971003510623, "time_total_s": 24309.009521722794, "episodes_total": 35226, "episode_len_mean": 7.743589743589744}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 24352.62490963936, "info": {"sample_time_ms": 43579.795, "num_steps_trained": 746400, "grad_time_ms": 370.359, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 147.01626586914062, "policy_loss": -0.12787127494812012, "vf_explained_var": 0.12394154071807861, "entropy": 6.46849250793457, "cur_lr": 4.999999873689376e-05, "total_loss": 146.9237518310547, "kl": 0.010346510447561741}, "load_time_ms": 0.705, "num_steps_sampled": 746400, "update_time_ms": 2.586}, "training_iteration": 622, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.61538791656494, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 746400, "timesteps_total": 746400, "custom_metrics": {}, "iterations_since_restore": 622, "episodes_this_iter": 146, "episode_reward_min": -82.50721364693268, "date": "2025-09-04_22-58-52", "episode_reward_max": 8.000054162007205, "pid": 3651948, "timestamp": 1757019532, "episode_reward_mean": -2.8609263828961082, "time_total_s": 24352.62490963936, "episodes_total": 35372, "episode_len_mean": 8.198630136986301}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 24396.891786575317, "info": {"sample_time_ms": 43528.037, "num_steps_trained": 747600, "grad_time_ms": 368.726, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 128.25091552734375, "policy_loss": -0.11456486582756042, "vf_explained_var": 0.11836099624633789, "entropy": 6.185139179229736, "cur_lr": 4.999999873689376e-05, "total_loss": 128.16693115234375, "kl": 0.008946657180786133}, "load_time_ms": 0.695, "num_steps_sampled": 747600, "update_time_ms": 2.532}, "training_iteration": 623, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 44.26687693595886, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 747600, "timesteps_total": 747600, "custom_metrics": {}, "iterations_since_restore": 623, "episodes_this_iter": 155, "episode_reward_min": -85.04620785738832, "date": "2025-09-04_22-59-36", "episode_reward_max": 8.000154097887364, "pid": 3651948, "timestamp": 1757019576, "episode_reward_mean": -2.152161328113019, "time_total_s": 24396.891786575317, "episodes_total": 35527, "episode_len_mean": 7.754838709677419}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 24442.364223718643, "info": {"sample_time_ms": 43679.584, "num_steps_trained": 748800, "grad_time_ms": 365.217, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 87.53225708007812, "policy_loss": -0.12074670195579529, "vf_explained_var": 0.1277458518743515, "entropy": 6.682364463806152, "cur_lr": 4.999999873689376e-05, "total_loss": 87.46076965332031, "kl": 0.014415502548217773}, "load_time_ms": 0.676, "num_steps_sampled": 748800, "update_time_ms": 2.503}, "training_iteration": 624, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 45.472437143325806, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 748800, "timesteps_total": 748800, "custom_metrics": {}, "iterations_since_restore": 624, "episodes_this_iter": 157, "episode_reward_min": -46.17701575138811, "date": "2025-09-04_23-00-22", "episode_reward_max": 8.000141397449267, "pid": 3651948, "timestamp": 1757019622, "episode_reward_mean": -1.8435011198408267, "time_total_s": 24442.364223718643, "episodes_total": 35684, "episode_len_mean": 7.687898089171974}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 24487.214854002, "info": {"sample_time_ms": 43785.715, "num_steps_trained": 750000, "grad_time_ms": 363.547, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 75.34528350830078, "policy_loss": -0.1255345344543457, "vf_explained_var": 0.13604828715324402, "entropy": 6.4094929695129395, "cur_lr": 4.999999873689376e-05, "total_loss": 75.26229858398438, "kl": 0.012451428920030594}, "load_time_ms": 0.673, "num_steps_sampled": 750000, "update_time_ms": 2.51}, "training_iteration": 625, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 44.85063028335571, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 750000, "timesteps_total": 750000, "custom_metrics": {}, "iterations_since_restore": 625, "episodes_this_iter": 156, "episode_reward_min": -40.759977403879, "date": "2025-09-04_23-01-07", "episode_reward_max": 8.000353468310337, "pid": 3651948, "timestamp": 1757019667, "episode_reward_mean": -1.7018728022929461, "time_total_s": 24487.214854002, "episodes_total": 35840, "episode_len_mean": 7.596153846153846}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 24532.998854875565, "info": {"sample_time_ms": 43972.231, "num_steps_trained": 751200, "grad_time_ms": 363.122, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 101.50741577148438, "policy_loss": -0.12551593780517578, "vf_explained_var": 0.09942556172609329, "entropy": 6.604660987854004, "cur_lr": 4.999999873689376e-05, "total_loss": 101.4166259765625, "kl": 0.01015991810709238}, "load_time_ms": 0.663, "num_steps_sampled": 751200, "update_time_ms": 2.44}, "training_iteration": 626, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 45.784000873565674, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 751200, "timesteps_total": 751200, "custom_metrics": {}, "iterations_since_restore": 626, "episodes_this_iter": 151, "episode_reward_min": -55.83485696934436, "date": "2025-09-04_23-01-53", "episode_reward_max": 8.000416785293512, "pid": 3651948, "timestamp": 1757019713, "episode_reward_mean": -2.4108761205014515, "time_total_s": 24532.998854875565, "episodes_total": 35991, "episode_len_mean": 7.9801324503311255}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 24578.68521976471, "info": {"sample_time_ms": 44238.021, "num_steps_trained": 752400, "grad_time_ms": 363.44, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 102.60040283203125, "policy_loss": -0.1330137997865677, "vf_explained_var": 0.1471284031867981, "entropy": 6.186196327209473, "cur_lr": 4.999999873689376e-05, "total_loss": 102.50945281982422, "kl": 0.012312407605350018}, "load_time_ms": 0.668, "num_steps_sampled": 752400, "update_time_ms": 2.453}, "training_iteration": 627, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 45.6863648891449, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 752400, "timesteps_total": 752400, "custom_metrics": {}, "iterations_since_restore": 627, "episodes_this_iter": 167, "episode_reward_min": -54.97736939145061, "date": "2025-09-04_23-02-38", "episode_reward_max": 8.001673668214465, "pid": 3651948, "timestamp": 1757019758, "episode_reward_mean": -0.9532556604035017, "time_total_s": 24578.68521976471, "episodes_total": 36158, "episode_len_mean": 7.11377245508982}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 24622.602730989456, "info": {"sample_time_ms": 44203.22, "num_steps_trained": 753600, "grad_time_ms": 363.045, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 78.02803802490234, "policy_loss": -0.12999826669692993, "vf_explained_var": 0.12903517484664917, "entropy": 6.610939979553223, "cur_lr": 4.999999873689376e-05, "total_loss": 77.93390655517578, "kl": 0.010497664101421833}, "load_time_ms": 0.661, "num_steps_sampled": 753600, "update_time_ms": 2.464}, "training_iteration": 628, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.917511224746704, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 753600, "timesteps_total": 753600, "custom_metrics": {}, "iterations_since_restore": 628, "episodes_this_iter": 149, "episode_reward_min": -45.96642426016081, "date": "2025-09-04_23-03-22", "episode_reward_max": 8.000423726653253, "pid": 3651948, "timestamp": 1757019802, "episode_reward_mean": -2.5990424894013713, "time_total_s": 24622.602730989456, "episodes_total": 36307, "episode_len_mean": 8.134228187919463}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 24666.221581220627, "info": {"sample_time_ms": 44084.546, "num_steps_trained": 754800, "grad_time_ms": 363.648, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 89.68988800048828, "policy_loss": -0.12220560014247894, "vf_explained_var": 0.1673087626695633, "entropy": 6.403261184692383, "cur_lr": 4.999999873689376e-05, "total_loss": 89.6006088256836, "kl": 0.009637761861085892}, "load_time_ms": 0.674, "num_steps_sampled": 754800, "update_time_ms": 2.487}, "training_iteration": 629, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.618850231170654, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 754800, "timesteps_total": 754800, "custom_metrics": {}, "iterations_since_restore": 629, "episodes_this_iter": 144, "episode_reward_min": -57.61103400776423, "date": "2025-09-04_23-04-06", "episode_reward_max": 8.000681241852664, "pid": 3651948, "timestamp": 1757019846, "episode_reward_mean": -3.0005569397759198, "time_total_s": 24666.221581220627, "episodes_total": 36451, "episode_len_mean": 8.354166666666666}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 24710.076257944107, "info": {"sample_time_ms": 44141.343, "num_steps_trained": 756000, "grad_time_ms": 366.074, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 97.13150024414062, "policy_loss": -0.12444964796304703, "vf_explained_var": 0.1308441162109375, "entropy": 5.918638229370117, "cur_lr": 4.999999873689376e-05, "total_loss": 97.04147338867188, "kl": 0.010075706988573074}, "load_time_ms": 0.671, "num_steps_sampled": 756000, "update_time_ms": 2.495}, "training_iteration": 630, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.854676723480225, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 756000, "timesteps_total": 756000, "custom_metrics": {}, "iterations_since_restore": 630, "episodes_this_iter": 156, "episode_reward_min": -49.30420801763324, "date": "2025-09-04_23-04-50", "episode_reward_max": 8.000077690402945, "pid": 3651948, "timestamp": 1757019890, "episode_reward_mean": -2.0673539638389835, "time_total_s": 24710.076257944107, "episodes_total": 36607, "episode_len_mean": 7.7243589743589745}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 24754.239033460617, "info": {"sample_time_ms": 44146.504, "num_steps_trained": 757200, "grad_time_ms": 368.023, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 63.48638153076172, "policy_loss": -0.13635939359664917, "vf_explained_var": 0.16754120588302612, "entropy": 6.467654705047607, "cur_lr": 4.999999873689376e-05, "total_loss": 63.38639450073242, "kl": 0.01064166147261858}, "load_time_ms": 0.665, "num_steps_sampled": 757200, "update_time_ms": 2.508}, "training_iteration": 631, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 44.16277551651001, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 757200, "timesteps_total": 757200, "custom_metrics": {}, "iterations_since_restore": 631, "episodes_this_iter": 153, "episode_reward_min": -41.49477237485326, "date": "2025-09-04_23-05-34", "episode_reward_max": 8.000474989383674, "pid": 3651948, "timestamp": 1757019934, "episode_reward_mean": -1.986536782886692, "time_total_s": 24754.239033460617, "episodes_total": 36760, "episode_len_mean": 7.784313725490196}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 24800.753933668137, "info": {"sample_time_ms": 44434.667, "num_steps_trained": 758400, "grad_time_ms": 369.802, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 135.25201416015625, "policy_loss": -0.12403617799282074, "vf_explained_var": 0.1265505999326706, "entropy": 6.6458587646484375, "cur_lr": 4.999999873689376e-05, "total_loss": 135.15782165527344, "kl": 0.008736205287277699}, "load_time_ms": 0.665, "num_steps_sampled": 758400, "update_time_ms": 2.473}, "training_iteration": 632, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.51490020751953, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 758400, "timesteps_total": 758400, "custom_metrics": {}, "iterations_since_restore": 632, "episodes_this_iter": 147, "episode_reward_min": -87.41027328389559, "date": "2025-09-04_23-06-20", "episode_reward_max": 8.00020151228481, "pid": 3651948, "timestamp": 1757019980, "episode_reward_mean": -2.720434909127688, "time_total_s": 24800.753933668137, "episodes_total": 36907, "episode_len_mean": 8.224489795918368}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 24844.62259864807, "info": {"sample_time_ms": 44395.801, "num_steps_trained": 759600, "grad_time_ms": 368.813, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 49.94691848754883, "policy_loss": -0.13533106446266174, "vf_explained_var": 0.12871311604976654, "entropy": 6.056528568267822, "cur_lr": 4.999999873689376e-05, "total_loss": 49.860191345214844, "kl": 0.01422378420829773}, "load_time_ms": 0.671, "num_steps_sampled": 759600, "update_time_ms": 2.506}, "training_iteration": 633, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.86866497993469, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 759600, "timesteps_total": 759600, "custom_metrics": {}, "iterations_since_restore": 633, "episodes_this_iter": 171, "episode_reward_min": -31.30959013821765, "date": "2025-09-04_23-07-04", "episode_reward_max": 8.002170197632399, "pid": 3651948, "timestamp": 1757020024, "episode_reward_mean": -0.8340321662332024, "time_total_s": 24844.62259864807, "episodes_total": 37078, "episode_len_mean": 7.046783625730995}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 24888.49089694023, "info": {"sample_time_ms": 44231.95, "num_steps_trained": 760800, "grad_time_ms": 372.16, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 57.65977096557617, "policy_loss": -0.12249165028333664, "vf_explained_var": 0.19498319923877716, "entropy": 6.04954719543457, "cur_lr": 4.999999873689376e-05, "total_loss": 57.57786560058594, "kl": 0.011876864358782768}, "load_time_ms": 0.69, "num_steps_sampled": 760800, "update_time_ms": 2.512}, "training_iteration": 634, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.868298292160034, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 760800, "timesteps_total": 760800, "custom_metrics": {}, "iterations_since_restore": 634, "episodes_this_iter": 163, "episode_reward_min": -35.48862864066596, "date": "2025-09-04_23-07-48", "episode_reward_max": 8.00050602784834, "pid": 3651948, "timestamp": 1757020068, "episode_reward_mean": -1.2299932753925056, "time_total_s": 24888.49089694023, "episodes_total": 37241, "episode_len_mean": 7.269938650306749}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 24933.387457370758, "info": {"sample_time_ms": 44235.127, "num_steps_trained": 762000, "grad_time_ms": 373.55, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 66.62899017333984, "policy_loss": -0.12201017886400223, "vf_explained_var": 0.11644628643989563, "entropy": 6.242872714996338, "cur_lr": 4.999999873689376e-05, "total_loss": 66.56243896484375, "kl": 0.01623382419347763}, "load_time_ms": 0.694, "num_steps_sampled": 762000, "update_time_ms": 2.525}, "training_iteration": 635, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 44.89656043052673, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 762000, "timesteps_total": 762000, "custom_metrics": {}, "iterations_since_restore": 635, "episodes_this_iter": 168, "episode_reward_min": -39.96698073579465, "date": "2025-09-04_23-08-33", "episode_reward_max": 8.002326108816517, "pid": 3651948, "timestamp": 1757020113, "episode_reward_mean": -0.9746926353012546, "time_total_s": 24933.387457370758, "episodes_total": 37409, "episode_len_mean": 7.208333333333333}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 24977.66113090515, "info": {"sample_time_ms": 44084.915, "num_steps_trained": 763200, "grad_time_ms": 372.696, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 56.20417022705078, "policy_loss": -0.13505983352661133, "vf_explained_var": 0.1695346236228943, "entropy": 6.184922695159912, "cur_lr": 4.999999873689376e-05, "total_loss": 56.1068229675293, "kl": 0.011036181822419167}, "load_time_ms": 0.696, "num_steps_sampled": 763200, "update_time_ms": 2.523}, "training_iteration": 636, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 44.27367353439331, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 763200, "timesteps_total": 763200, "custom_metrics": {}, "iterations_since_restore": 636, "episodes_this_iter": 165, "episode_reward_min": -34.25751985972118, "date": "2025-09-04_23-09-17", "episode_reward_max": 8.000235318453338, "pid": 3651948, "timestamp": 1757020157, "episode_reward_mean": -1.191852890732927, "time_total_s": 24977.66113090515, "episodes_total": 37574, "episode_len_mean": 7.2727272727272725}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 25021.974050998688, "info": {"sample_time_ms": 43944.906, "num_steps_trained": 764400, "grad_time_ms": 375.315, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 58.89943313598633, "policy_loss": -0.12993454933166504, "vf_explained_var": 0.1601342409849167, "entropy": 6.27501916885376, "cur_lr": 4.999999873689376e-05, "total_loss": 58.80284881591797, "kl": 0.009758922271430492}, "load_time_ms": 0.724, "num_steps_sampled": 764400, "update_time_ms": 2.536}, "training_iteration": 637, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 44.31292009353638, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 764400, "timesteps_total": 764400, "custom_metrics": {}, "iterations_since_restore": 637, "episodes_this_iter": 161, "episode_reward_min": -46.09734988824823, "date": "2025-09-04_23-10-02", "episode_reward_max": 8.000186043016656, "pid": 3651948, "timestamp": 1757020202, "episode_reward_mean": -1.416363866425865, "time_total_s": 25021.974050998688, "episodes_total": 37735, "episode_len_mean": 7.422360248447205}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 25068.162934303284, "info": {"sample_time_ms": 44173.718, "num_steps_trained": 765600, "grad_time_ms": 373.69, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 72.19373321533203, "policy_loss": -0.1261482536792755, "vf_explained_var": 0.15021146833896637, "entropy": 5.87333869934082, "cur_lr": 4.999999873689376e-05, "total_loss": 72.1015625, "kl": 0.009941894561052322}, "load_time_ms": 0.726, "num_steps_sampled": 765600, "update_time_ms": 2.519}, "training_iteration": 638, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.18888330459595, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 765600, "timesteps_total": 765600, "custom_metrics": {}, "iterations_since_restore": 638, "episodes_this_iter": 169, "episode_reward_min": -50.312506479116315, "date": "2025-09-04_23-10-48", "episode_reward_max": 8.000159502364632, "pid": 3651948, "timestamp": 1757020248, "episode_reward_mean": -0.95737282468245, "time_total_s": 25068.162934303284, "episodes_total": 37904, "episode_len_mean": 7.136094674556213}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 25111.163761615753, "info": {"sample_time_ms": 44114.069, "num_steps_trained": 766800, "grad_time_ms": 371.575, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 94.76095581054688, "policy_loss": -0.1292141079902649, "vf_explained_var": 0.13159912824630737, "entropy": 6.698611736297607, "cur_lr": 4.999999873689376e-05, "total_loss": 94.67372131347656, "kl": 0.012286549434065819}, "load_time_ms": 0.712, "num_steps_sampled": 766800, "update_time_ms": 2.491}, "training_iteration": 639, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.00082731246948, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 766800, "timesteps_total": 766800, "custom_metrics": {}, "iterations_since_restore": 639, "episodes_this_iter": 131, "episode_reward_min": -55.47845012881969, "date": "2025-09-04_23-11-31", "episode_reward_max": 8.000006753771736, "pid": 3651948, "timestamp": 1757020291, "episode_reward_mean": -3.9606470500245923, "time_total_s": 25111.163761615753, "episodes_total": 38035, "episode_len_mean": 8.908396946564885}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 25155.178235292435, "info": {"sample_time_ms": 44132.72, "num_steps_trained": 768000, "grad_time_ms": 369.019, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 83.28701782226562, "policy_loss": -0.14332841336727142, "vf_explained_var": 0.16322636604309082, "entropy": 6.342925071716309, "cur_lr": 4.999999873689376e-05, "total_loss": 83.18607330322266, "kl": 0.012402743101119995}, "load_time_ms": 0.705, "num_steps_sampled": 768000, "update_time_ms": 2.496}, "training_iteration": 640, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 44.01447367668152, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 768000, "timesteps_total": 768000, "custom_metrics": {}, "iterations_since_restore": 640, "episodes_this_iter": 152, "episode_reward_min": -49.45546957041463, "date": "2025-09-04_23-12-15", "episode_reward_max": 8.00152596236635, "pid": 3651948, "timestamp": 1757020335, "episode_reward_mean": -2.256861185451964, "time_total_s": 25155.178235292435, "episodes_total": 38187, "episode_len_mean": 7.947368421052632}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 25199.824682474136, "info": {"sample_time_ms": 44182.438, "num_steps_trained": 769200, "grad_time_ms": 367.626, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 85.19735717773438, "policy_loss": -0.12319857627153397, "vf_explained_var": 0.15076127648353577, "entropy": 6.567890167236328, "cur_lr": 4.999999873689376e-05, "total_loss": 85.11085510253906, "kl": 0.01073968131095171}, "load_time_ms": 0.708, "num_steps_sampled": 769200, "update_time_ms": 2.512}, "training_iteration": 641, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 44.64644718170166, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 769200, "timesteps_total": 769200, "custom_metrics": {}, "iterations_since_restore": 641, "episodes_this_iter": 163, "episode_reward_min": -59.73300312535099, "date": "2025-09-04_23-13-00", "episode_reward_max": 8.000303664208356, "pid": 3651948, "timestamp": 1757020380, "episode_reward_mean": -1.2574134934606342, "time_total_s": 25199.824682474136, "episodes_total": 38350, "episode_len_mean": 7.374233128834356}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 25244.16807460785, "info": {"sample_time_ms": 43967.364, "num_steps_trained": 770400, "grad_time_ms": 365.571, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 44.156490325927734, "policy_loss": -0.12580448389053345, "vf_explained_var": 0.22070711851119995, "entropy": 5.61702299118042, "cur_lr": 4.999999873689376e-05, "total_loss": 44.07794952392578, "kl": 0.013830197975039482}, "load_time_ms": 0.712, "num_steps_sampled": 770400, "update_time_ms": 2.533}, "training_iteration": 642, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 44.34339213371277, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 770400, "timesteps_total": 770400, "custom_metrics": {}, "iterations_since_restore": 642, "episodes_this_iter": 180, "episode_reward_min": -31.859189695407828, "date": "2025-09-04_23-13-44", "episode_reward_max": 8.00001502181127, "pid": 3651948, "timestamp": 1757020424, "episode_reward_mean": -0.2685069614762518, "time_total_s": 25244.16807460785, "episodes_total": 38530, "episode_len_mean": 6.655555555555556}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 25289.16328573227, "info": {"sample_time_ms": 44078.562, "num_steps_trained": 771600, "grad_time_ms": 366.989, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 52.407814025878906, "policy_loss": -0.13617174327373505, "vf_explained_var": 0.17225253582000732, "entropy": 6.01146125793457, "cur_lr": 4.999999873689376e-05, "total_loss": 52.309391021728516, "kl": 0.011046170257031918}, "load_time_ms": 0.705, "num_steps_sampled": 771600, "update_time_ms": 2.489}, "training_iteration": 643, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 44.995211124420166, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 771600, "timesteps_total": 771600, "custom_metrics": {}, "iterations_since_restore": 643, "episodes_this_iter": 180, "episode_reward_min": -45.39402818782199, "date": "2025-09-04_23-14-29", "episode_reward_max": 8.000541824214974, "pid": 3651948, "timestamp": 1757020469, "episode_reward_mean": -0.2954727960442065, "time_total_s": 25289.16328573227, "episodes_total": 38710, "episode_len_mean": 6.716666666666667}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 25334.301076173782, "info": {"sample_time_ms": 44208.303, "num_steps_trained": 772800, "grad_time_ms": 364.212, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 74.90103149414062, "policy_loss": -0.1326437145471573, "vf_explained_var": 0.14354650676250458, "entropy": 5.894720077514648, "cur_lr": 4.999999873689376e-05, "total_loss": 74.80452728271484, "kl": 0.01057159248739481}, "load_time_ms": 0.69, "num_steps_sampled": 772800, "update_time_ms": 2.524}, "training_iteration": 644, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 45.13779044151306, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 772800, "timesteps_total": 772800, "custom_metrics": {}, "iterations_since_restore": 644, "episodes_this_iter": 174, "episode_reward_min": -51.61607029080748, "date": "2025-09-04_23-15-14", "episode_reward_max": 8.000028939890152, "pid": 3651948, "timestamp": 1757020514, "episode_reward_mean": -0.6184026541082966, "time_total_s": 25334.301076173782, "episodes_total": 38884, "episode_len_mean": 6.9655172413793105}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 25379.033576965332, "info": {"sample_time_ms": 44191.664, "num_steps_trained": 774000, "grad_time_ms": 364.451, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 58.47435760498047, "policy_loss": -0.1249840259552002, "vf_explained_var": 0.18261970579624176, "entropy": 6.09347677230835, "cur_lr": 4.999999873689376e-05, "total_loss": 58.39113998413086, "kl": 0.012223862111568451}, "load_time_ms": 0.688, "num_steps_sampled": 774000, "update_time_ms": 2.505}, "training_iteration": 645, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 44.73250079154968, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 774000, "timesteps_total": 774000, "custom_metrics": {}, "iterations_since_restore": 645, "episodes_this_iter": 173, "episode_reward_min": -36.35054553935688, "date": "2025-09-04_23-15-59", "episode_reward_max": 8.000086752426387, "pid": 3651948, "timestamp": 1757020559, "episode_reward_mean": -0.5923463946100265, "time_total_s": 25379.033576965332, "episodes_total": 39057, "episode_len_mean": 6.895953757225434}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 25423.75276517868, "info": {"sample_time_ms": 44235.68, "num_steps_trained": 775200, "grad_time_ms": 364.998, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 78.30078125, "policy_loss": -0.13311919569969177, "vf_explained_var": 0.1764691174030304, "entropy": 6.262962341308594, "cur_lr": 4.999999873689376e-05, "total_loss": 78.20417022705078, "kl": 0.010683656670153141}, "load_time_ms": 0.693, "num_steps_sampled": 775200, "update_time_ms": 2.533}, "training_iteration": 646, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 44.71918821334839, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 775200, "timesteps_total": 775200, "custom_metrics": {}, "iterations_since_restore": 646, "episodes_this_iter": 160, "episode_reward_min": -45.67624841012206, "date": "2025-09-04_23-16-44", "episode_reward_max": 8.000071928434444, "pid": 3651948, "timestamp": 1757020604, "episode_reward_mean": -1.5840930736773107, "time_total_s": 25423.75276517868, "episodes_total": 39217, "episode_len_mean": 7.475}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 25468.24201607704, "info": {"sample_time_ms": 44254.541, "num_steps_trained": 776400, "grad_time_ms": 363.852, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 74.37799835205078, "policy_loss": -0.13237418234348297, "vf_explained_var": 0.1862848401069641, "entropy": 6.353860855102539, "cur_lr": 4.999999873689376e-05, "total_loss": 74.28138732910156, "kl": 0.010467816144227982}, "load_time_ms": 0.665, "num_steps_sampled": 776400, "update_time_ms": 2.478}, "training_iteration": 647, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 44.489250898361206, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 776400, "timesteps_total": 776400, "custom_metrics": {}, "iterations_since_restore": 647, "episodes_this_iter": 160, "episode_reward_min": -51.045424512164175, "date": "2025-09-04_23-17-28", "episode_reward_max": 8.000171233385412, "pid": 3651948, "timestamp": 1757020648, "episode_reward_mean": -1.5128781970789107, "time_total_s": 25468.24201607704, "episodes_total": 39377, "episode_len_mean": 7.50625}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 25512.02780008316, "info": {"sample_time_ms": 44012.555, "num_steps_trained": 777600, "grad_time_ms": 365.473, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 81.03668975830078, "policy_loss": -0.12070560455322266, "vf_explained_var": 0.1592569500207901, "entropy": 6.48253059387207, "cur_lr": 4.999999873689376e-05, "total_loss": 80.95088958740234, "kl": 0.010214617475867271}, "load_time_ms": 0.668, "num_steps_sampled": 777600, "update_time_ms": 2.501}, "training_iteration": 648, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 43.785784006118774, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 777600, "timesteps_total": 777600, "custom_metrics": {}, "iterations_since_restore": 648, "episodes_this_iter": 158, "episode_reward_min": -56.738729062171075, "date": "2025-09-04_23-18-12", "episode_reward_max": 8.000098480557286, "pid": 3651948, "timestamp": 1757020692, "episode_reward_mean": -1.6814214758854766, "time_total_s": 25512.02780008316, "episodes_total": 39535, "episode_len_mean": 7.620253164556962}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 25557.458827733994, "info": {"sample_time_ms": 44253.806, "num_steps_trained": 778800, "grad_time_ms": 367.205, "default": {"cur_kl_coeff": 3.417187452316284, "vf_loss": 71.04450988769531, "policy_loss": -0.13149532675743103, "vf_explained_var": 0.15487469732761383, "entropy": 6.051618576049805, "cur_lr": 4.999999873689376e-05, "total_loss": 70.95345306396484, "kl": 0.011835633777081966}, "load_time_ms": 0.681, "num_steps_sampled": 778800, "update_time_ms": 2.541}, "training_iteration": 649, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_rewards": null, "clip_param": 0.3, "num_envs_per_worker": 1, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "sample_async": false, "optimizer": {}, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_step": null, "on_episode_start": null, "on_episode_end": null}, "straggler_mitigation": false, "lr": 5e-05, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "log_level": "INFO", "postprocess_inputs": false, "use_gae": true, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 45.43102765083313, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 778800, "timesteps_total": 778800, "custom_metrics": {}, "iterations_since_restore": 649, "episodes_this_iter": 180, "episode_reward_min": -38.79409213084881, "date": "2025-09-04_23-18-57", "episode_reward_max": 8.000220374057966, "pid": 3651948, "timestamp": 1757020737, "episode_reward_mean": -0.13380163012770663, "time_total_s": 25557.458827733994, "episodes_total": 39715, "episode_len_mean": 6.6722222222222225}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 49.171587228775024, "info": {"sample_time_ms": 48035.472, "num_steps_trained": 769200, "grad_time_ms": 658.142, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 80.39810943603516, "cur_kl_coeff": 3.417187452316284, "policy_loss": -0.1255156397819519, "vf_explained_var": 0.1464996486902237, "entropy": 6.043203353881836, "total_loss": 80.30876922607422, "kl": 0.01058445405215025}, "load_time_ms": 32.209, "num_steps_sampled": 769200, "update_time_ms": 425.86}, "training_iteration": 641, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 49.171587228775024, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": -1.0061105095131504, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 1200, "timesteps_total": 769200, "custom_metrics": {}, "iterations_since_restore": 1, "episodes_this_iter": 165, "episode_reward_min": -51.01398471661906, "date": "2025-09-04_23-20-27", "episode_reward_max": 8.00008693886987, "pid": 3651947, "timestamp": 1757020827, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 25204.34982252121, "episodes_total": 38352, "episode_len_mean": 7.16969696969697}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 92.87554669380188, "info": {"sample_time_ms": 45672.924, "num_steps_trained": 770400, "grad_time_ms": 521.629, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 59.50916290283203, "cur_kl_coeff": 0.20000000298023224, "policy_loss": -0.16246187686920166, "vf_explained_var": 0.14330193400382996, "entropy": 6.238642692565918, "total_loss": 59.35683822631836, "kl": 0.05069645121693611}, "load_time_ms": 16.522, "num_steps_sampled": 770400, "update_time_ms": 214.116}, "training_iteration": 642, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 43.703959465026855, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": -1.4558712941185261, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 2400, "timesteps_total": 770400, "custom_metrics": {}, "iterations_since_restore": 2, "episodes_this_iter": 162, "episode_reward_min": -29.439730138293463, "date": "2025-09-04_23-21-11", "episode_reward_max": 8.000001114768118, "pid": 3651947, "timestamp": 1757020871, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 25248.053781986237, "episodes_total": 38514, "episode_len_mean": 7.450617283950617}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 136.97035884857178, "info": {"sample_time_ms": 45020.759, "num_steps_trained": 771600, "grad_time_ms": 470.839, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 76.09286499023438, "cur_kl_coeff": 0.30000001192092896, "policy_loss": -0.14440931379795074, "vf_explained_var": 0.175571471452713, "entropy": 5.886499881744385, "total_loss": 75.96224212646484, "kl": 0.04594428837299347}, "load_time_ms": 11.24, "num_steps_sampled": 771600, "update_time_ms": 143.618}, "training_iteration": 643, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 44.0948121547699, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": -0.40405477821694546, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 3600, "timesteps_total": 771600, "custom_metrics": {}, "iterations_since_restore": 3, "episodes_this_iter": 176, "episode_reward_min": -44.25181005787245, "date": "2025-09-04_23-21-55", "episode_reward_max": 8.000157673943901, "pid": 3651947, "timestamp": 1757020915, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 25292.148594141006, "episodes_total": 38690, "episode_len_mean": 6.840909090909091}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 181.23059058189392, "info": {"sample_time_ms": 44737.901, "num_steps_trained": 772800, "grad_time_ms": 443.813, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 102.93730163574219, "cur_kl_coeff": 0.44999995827674866, "policy_loss": -0.1430501639842987, "vf_explained_var": 0.13208433985710144, "entropy": 6.184451580047607, "total_loss": 102.80974578857422, "kl": 0.03442486748099327}, "load_time_ms": 8.596, "num_steps_sampled": 772800, "update_time_ms": 108.397}, "training_iteration": 644, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 44.260231733322144, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": -0.975076751191758, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 4800, "timesteps_total": 772800, "custom_metrics": {}, "iterations_since_restore": 4, "episodes_this_iter": 161, "episode_reward_min": -44.12001068039525, "date": "2025-09-04_23-22-40", "episode_reward_max": 8.000031808846654, "pid": 3651947, "timestamp": 1757020960, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 25336.40882587433, "episodes_total": 38851, "episode_len_mean": 7.192546583850931}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 226.11338710784912, "info": {"sample_time_ms": 44690.604, "num_steps_trained": 774000, "grad_time_ms": 429.686, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 95.57435607910156, "cur_kl_coeff": 0.675000011920929, "policy_loss": -0.12285302579402924, "vf_explained_var": 0.1429286152124405, "entropy": 5.850916385650635, "total_loss": 95.47222900390625, "kl": 0.0307097639888525}, "load_time_ms": 7.026, "num_steps_sampled": 774000, "update_time_ms": 87.196}, "training_iteration": 645, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 44.8827965259552, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": -0.33489644070277547, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 6000, "timesteps_total": 774000, "custom_metrics": {}, "iterations_since_restore": 5, "episodes_this_iter": 182, "episode_reward_min": -78.25757381970666, "date": "2025-09-04_23-23-24", "episode_reward_max": 8.000250772352839, "pid": 3651947, "timestamp": 1757021004, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 25381.291622400284, "episodes_total": 39033, "episode_len_mean": 6.747252747252747}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 270.35734510421753, "info": {"sample_time_ms": 44550.027, "num_steps_trained": 775200, "grad_time_ms": 422.678, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 48.1241569519043, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.1484123319387436, "vf_explained_var": 0.19235184788703918, "entropy": 6.080326557159424, "total_loss": 48.00688934326172, "kl": 0.030759645625948906}, "load_time_ms": 5.975, "num_steps_sampled": 775200, "update_time_ms": 73.07}, "training_iteration": 646, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 44.24395799636841, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": -0.2909470011072178, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 7200, "timesteps_total": 775200, "custom_metrics": {}, "iterations_since_restore": 6, "episodes_this_iter": 178, "episode_reward_min": -37.51212203780169, "date": "2025-09-04_23-24-09", "episode_reward_max": 8.000157856662643, "pid": 3651947, "timestamp": 1757021049, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 25425.535580396652, "episodes_total": 39211, "episode_len_mean": 6.758426966292135}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 316.5271723270416, "info": {"sample_time_ms": 44726.874, "num_steps_trained": 776400, "grad_time_ms": 415.546, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 86.42475128173828, "cur_kl_coeff": 1.5187499523162842, "policy_loss": -0.12338193506002426, "vf_explained_var": 0.1892755925655365, "entropy": 5.520815372467041, "total_loss": 86.34359741210938, "kl": 0.027807703241705894}, "load_time_ms": 5.216, "num_steps_sampled": 776400, "update_time_ms": 63.018}, "training_iteration": 647, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 46.1698272228241, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": -0.5961270299818546, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 8400, "timesteps_total": 776400, "custom_metrics": {}, "iterations_since_restore": 7, "episodes_this_iter": 176, "episode_reward_min": -55.95493109002247, "date": "2025-09-04_23-24-55", "episode_reward_max": 8.000083218792803, "pid": 3651947, "timestamp": 1757021095, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 25471.705407619476, "episodes_total": 39387, "episode_len_mean": 6.892045454545454}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 361.74718618392944, "info": {"sample_time_ms": 44739.606, "num_steps_trained": 777600, "grad_time_ms": 411.273, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 113.408203125, "cur_kl_coeff": 2.278125047683716, "policy_loss": -0.12122918665409088, "vf_explained_var": 0.17214380204677582, "entropy": 5.716729640960693, "total_loss": 113.32117462158203, "kl": 0.015010855160653591}, "load_time_ms": 4.651, "num_steps_sampled": 777600, "update_time_ms": 55.57}, "training_iteration": 648, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 45.22001385688782, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 0.020421928998772477, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 9600, "timesteps_total": 777600, "custom_metrics": {}, "iterations_since_restore": 8, "episodes_this_iter": 183, "episode_reward_min": -78.73519817331818, "date": "2025-09-04_23-25-40", "episode_reward_max": 8.001581479005628, "pid": 3651947, "timestamp": 1757021140, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 25516.925421476364, "episodes_total": 39570, "episode_len_mean": 6.530054644808743}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 405.73359274864197, "info": {"sample_time_ms": 44612.565, "num_steps_trained": 778800, "grad_time_ms": 407.992, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 91.44491577148438, "cur_kl_coeff": 2.278125047683716, "policy_loss": -0.12602534890174866, "vf_explained_var": 0.18112537264823914, "entropy": 6.0855255126953125, "total_loss": 91.3521728515625, "kl": 0.014609340578317642}, "load_time_ms": 4.204, "num_steps_sampled": 778800, "update_time_ms": 49.681}, "training_iteration": 649, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 43.986406564712524, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": -1.4770342364397093, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 10800, "timesteps_total": 778800, "custom_metrics": {}, "iterations_since_restore": 9, "episodes_this_iter": 159, "episode_reward_min": -59.37940086547401, "date": "2025-09-04_23-26-24", "episode_reward_max": 8.000040145160105, "pid": 3651947, "timestamp": 1757021184, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 25560.911828041077, "episodes_total": 39729, "episode_len_mean": 7.433962264150943}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 450.1522297859192, "info": {"sample_time_ms": 44553.201, "num_steps_trained": 780000, "grad_time_ms": 406.306, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 56.77754592895508, "cur_kl_coeff": 2.278125047683716, "policy_loss": -0.13296259939670563, "vf_explained_var": 0.21793025732040405, "entropy": 5.715707778930664, "total_loss": 56.674400329589844, "kl": 0.013089141808450222}, "load_time_ms": 3.867, "num_steps_sampled": 780000, "update_time_ms": 44.964}, "training_iteration": 650, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 44.41863703727722, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": -0.1042382943825305, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 12000, "timesteps_total": 780000, "custom_metrics": {}, "iterations_since_restore": 10, "episodes_this_iter": 183, "episode_reward_min": -44.98278044619995, "date": "2025-09-04_23-27-09", "episode_reward_max": 8.000034881855434, "pid": 3651947, "timestamp": 1757021229, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 25605.330465078354, "episodes_total": 39912, "episode_len_mean": 6.666666666666667}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 494.83312129974365, "info": {"sample_time_ms": 44178.447, "num_steps_trained": 781200, "grad_time_ms": 378.741, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 63.68096160888672, "cur_kl_coeff": 2.278125047683716, "policy_loss": -0.13753175735473633, "vf_explained_var": 0.18605300784111023, "entropy": 5.709993362426758, "total_loss": 63.57604217529297, "kl": 0.014315648004412651}, "load_time_ms": 0.729, "num_steps_sampled": 781200, "update_time_ms": 2.688}, "training_iteration": 651, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 44.68089151382446, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 0.07179095830126418, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 13200, "timesteps_total": 781200, "custom_metrics": {}, "iterations_since_restore": 11, "episodes_this_iter": 181, "episode_reward_min": -44.5715967312163, "date": "2025-09-04_23-27-53", "episode_reward_max": 8.000142848258454, "pid": 3651947, "timestamp": 1757021273, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 25650.01135659218, "episodes_total": 40093, "episode_len_mean": 6.530386740331492}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 540.5377907752991, "info": {"sample_time_ms": 44379.498, "num_steps_trained": 782400, "grad_time_ms": 377.719, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 56.64405822753906, "cur_kl_coeff": 2.278125047683716, "policy_loss": -0.12208235263824463, "vf_explained_var": 0.2421044558286667, "entropy": 5.548465251922607, "total_loss": 56.55010223388672, "kl": 0.012348240241408348}, "load_time_ms": 0.722, "num_steps_sampled": 782400, "update_time_ms": 2.726}, "training_iteration": 652, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 45.70466947555542, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 0.34657583016566823, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 14400, "timesteps_total": 782400, "custom_metrics": {}, "iterations_since_restore": 12, "episodes_this_iter": 192, "episode_reward_min": -45.844932623928244, "date": "2025-09-04_23-28-39", "episode_reward_max": 8.000027808861791, "pid": 3651947, "timestamp": 1757021319, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 25695.716026067734, "episodes_total": 40285, "episode_len_mean": 6.359375}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 585.3861379623413, "info": {"sample_time_ms": 44455.498, "num_steps_trained": 783600, "grad_time_ms": 377.128, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 43.1224365234375, "cur_kl_coeff": 2.278125047683716, "policy_loss": -0.11802230775356293, "vf_explained_var": 0.212782621383667, "entropy": 5.450656890869141, "total_loss": 43.03515625, "kl": 0.013498026877641678}, "load_time_ms": 0.729, "num_steps_sampled": 783600, "update_time_ms": 2.736}, "training_iteration": 653, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 44.848347187042236, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 0.8650437457537659, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 15600, "timesteps_total": 783600, "custom_metrics": {}, "iterations_since_restore": 13, "episodes_this_iter": 198, "episode_reward_min": -42.28307275126343, "date": "2025-09-04_23-29-24", "episode_reward_max": 8.000742460745652, "pid": 3651947, "timestamp": 1757021364, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 25740.564373254776, "episodes_total": 40483, "episode_len_mean": 6.015151515151516}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 629.6491882801056, "info": {"sample_time_ms": 44455.938, "num_steps_trained": 784800, "grad_time_ms": 376.972, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 35.976253509521484, "cur_kl_coeff": 2.278125047683716, "policy_loss": -0.12478828430175781, "vf_explained_var": 0.20753701031208038, "entropy": 5.734801292419434, "total_loss": 35.886383056640625, "kl": 0.01532667689025402}, "load_time_ms": 0.731, "num_steps_sampled": 784800, "update_time_ms": 2.69}, "training_iteration": 654, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 44.26305031776428, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": -0.25536267353591746, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 16800, "timesteps_total": 784800, "custom_metrics": {}, "iterations_since_restore": 14, "episodes_this_iter": 179, "episode_reward_min": -26.925111122125088, "date": "2025-09-04_23-30-08", "episode_reward_max": 8.000073103811902, "pid": 3651947, "timestamp": 1757021408, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 25784.82742357254, "episodes_total": 40662, "episode_len_mean": 6.692737430167598}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 673.8481390476227, "info": {"sample_time_ms": 44388.919, "num_steps_trained": 786000, "grad_time_ms": 375.613, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 80.87190246582031, "cur_kl_coeff": 2.278125047683716, "policy_loss": -0.1281072199344635, "vf_explained_var": 0.17109166085720062, "entropy": 5.943303108215332, "total_loss": 80.77613830566406, "kl": 0.014199022203683853}, "load_time_ms": 0.727, "num_steps_sampled": 786000, "update_time_ms": 2.684}, "training_iteration": 655, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 44.19895076751709, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": -0.40892512614434534, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 18000, "timesteps_total": 786000, "custom_metrics": {}, "iterations_since_restore": 15, "episodes_this_iter": 177, "episode_reward_min": -65.37146581760679, "date": "2025-09-04_23-30-52", "episode_reward_max": 8.000347745166987, "pid": 3651947, "timestamp": 1757021452, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 25829.026374340057, "episodes_total": 40839, "episode_len_mean": 6.830508474576271}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 718.9396080970764, "info": {"sample_time_ms": 44475.401, "num_steps_trained": 787200, "grad_time_ms": 373.923, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 49.944305419921875, "cur_kl_coeff": 2.278125047683716, "policy_loss": -0.11831830441951752, "vf_explained_var": 0.23415027558803558, "entropy": 5.348814487457275, "total_loss": 49.86027145385742, "kl": 0.015046972781419754}, "load_time_ms": 0.723, "num_steps_sampled": 787200, "update_time_ms": 2.671}, "training_iteration": 656, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 45.091469049453735, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 0.5777705556420285, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 19200, "timesteps_total": 787200, "custom_metrics": {}, "iterations_since_restore": 16, "episodes_this_iter": 195, "episode_reward_min": -47.67059051017336, "date": "2025-09-04_23-31-38", "episode_reward_max": 8.00011914570923, "pid": 3651947, "timestamp": 1757021498, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 25874.11784338951, "episodes_total": 41034, "episode_len_mean": 6.17948717948718}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 763.9840202331543, "info": {"sample_time_ms": 44362.228, "num_steps_trained": 788400, "grad_time_ms": 374.544, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 55.97596740722656, "cur_kl_coeff": 2.278125047683716, "policy_loss": -0.12983694672584534, "vf_explained_var": 0.18978098034858704, "entropy": 5.546915054321289, "total_loss": 55.8853645324707, "kl": 0.017223402857780457}, "load_time_ms": 0.718, "num_steps_sampled": 788400, "update_time_ms": 2.682}, "training_iteration": 657, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 45.04441213607788, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 0.2701023951341103, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 20400, "timesteps_total": 788400, "custom_metrics": {}, "iterations_since_restore": 17, "episodes_this_iter": 185, "episode_reward_min": -45.1517098015243, "date": "2025-09-04_23-32-23", "episode_reward_max": 8.000063786623432, "pid": 3651947, "timestamp": 1757021543, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 25919.16225552559, "episodes_total": 41219, "episode_len_mean": 6.383783783783784}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 809.0964961051941, "info": {"sample_time_ms": 44353.29, "num_steps_trained": 789600, "grad_time_ms": 372.868, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 69.65789031982422, "cur_kl_coeff": 2.278125047683716, "policy_loss": -0.10145619511604309, "vf_explained_var": 0.17257185280323029, "entropy": 5.02720308303833, "total_loss": 69.60121154785156, "kl": 0.01965337060391903}, "load_time_ms": 0.71, "num_steps_sampled": 789600, "update_time_ms": 2.606}, "training_iteration": 658, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 45.112475872039795, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 0.8802702053814631, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 21600, "timesteps_total": 789600, "custom_metrics": {}, "iterations_since_restore": 18, "episodes_this_iter": 201, "episode_reward_min": -64.98972680038437, "date": "2025-09-04_23-33-08", "episode_reward_max": 8.000097602415536, "pid": 3651947, "timestamp": 1757021588, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 25964.27473139763, "episodes_total": 41420, "episode_len_mean": 6.019900497512438}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 854.399516582489, "info": {"sample_time_ms": 44486.773, "num_steps_trained": 790800, "grad_time_ms": 371.047, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 54.54829025268555, "cur_kl_coeff": 2.278125047683716, "policy_loss": -0.14157640933990479, "vf_explained_var": 0.2028069794178009, "entropy": 5.475508213043213, "total_loss": 54.43379592895508, "kl": 0.011889781802892685}, "load_time_ms": 0.712, "num_steps_sampled": 790800, "update_time_ms": 2.596}, "training_iteration": 659, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 45.30302047729492, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 0.8742673896110602, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 22800, "timesteps_total": 790800, "custom_metrics": {}, "iterations_since_restore": 19, "episodes_this_iter": 196, "episode_reward_min": -45.850798797415365, "date": "2025-09-04_23-33-53", "episode_reward_max": 8.001177423550006, "pid": 3651947, "timestamp": 1757021633, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 26009.577751874924, "episodes_total": 41616, "episode_len_mean": 6.045918367346939}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 899.9549326896667, "info": {"sample_time_ms": 44602.517, "num_steps_trained": 792000, "grad_time_ms": 369.031, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 44.974159240722656, "cur_kl_coeff": 2.278125047683716, "policy_loss": -0.1250247359275818, "vf_explained_var": 0.23093955218791962, "entropy": 5.719305515289307, "total_loss": 44.884029388427734, "kl": 0.015319590456783772}, "load_time_ms": 0.699, "num_steps_sampled": 792000, "update_time_ms": 2.59}, "training_iteration": 660, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 45.555416107177734, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 0.037015927697965446, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 24000, "timesteps_total": 792000, "custom_metrics": {}, "iterations_since_restore": 20, "episodes_this_iter": 185, "episode_reward_min": -35.04796864063427, "date": "2025-09-04_23-34-39", "episode_reward_max": 8.000493474008953, "pid": 3651947, "timestamp": 1757021679, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 26055.1331679821, "episodes_total": 41801, "episode_len_mean": 6.589189189189189}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 945.4489457607269, "info": {"sample_time_ms": 44682.84, "num_steps_trained": 793200, "grad_time_ms": 370.143, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 36.74909591674805, "cur_kl_coeff": 2.278125047683716, "policy_loss": -0.12051972001791, "vf_explained_var": 0.24064922332763672, "entropy": 5.199189186096191, "total_loss": 36.65876770019531, "kl": 0.01325086411088705}, "load_time_ms": 0.691, "num_steps_sampled": 793200, "update_time_ms": 2.522}, "training_iteration": 661, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 45.49401307106018, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 1.387292508648218, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 25200, "timesteps_total": 793200, "custom_metrics": {}, "iterations_since_restore": 21, "episodes_this_iter": 209, "episode_reward_min": -39.681957257770044, "date": "2025-09-04_23-35-24", "episode_reward_max": 8.000275863011161, "pid": 3651947, "timestamp": 1757021724, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 26100.62718105316, "episodes_total": 42010, "episode_len_mean": 5.712918660287081}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 990.379124879837, "info": {"sample_time_ms": 44606.615, "num_steps_trained": 794400, "grad_time_ms": 368.948, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 42.93064880371094, "cur_kl_coeff": 2.278125047683716, "policy_loss": -0.11987128853797913, "vf_explained_var": 0.2201704978942871, "entropy": 5.277359962463379, "total_loss": 42.84127426147461, "kl": 0.013386152684688568}, "load_time_ms": 0.678, "num_steps_sampled": 794400, "update_time_ms": 2.515}, "training_iteration": 662, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 44.93017911911011, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 0.6875811895780369, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 26400, "timesteps_total": 794400, "custom_metrics": {}, "iterations_since_restore": 22, "episodes_this_iter": 197, "episode_reward_min": -43.35083907526241, "date": "2025-09-04_23-36-09", "episode_reward_max": 8.000037223687016, "pid": 3651947, "timestamp": 1757021769, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 26145.55736017227, "episodes_total": 42207, "episode_len_mean": 6.121827411167513}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1035.5377969741821, "info": {"sample_time_ms": 44636.979, "num_steps_trained": 795600, "grad_time_ms": 369.604, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 61.62825393676758, "cur_kl_coeff": 2.278125047683716, "policy_loss": -0.12032897025346756, "vf_explained_var": 0.2165907770395279, "entropy": 5.845945358276367, "total_loss": 61.54192352294922, "kl": 0.014922077767550945}, "load_time_ms": 0.675, "num_steps_sampled": 795600, "update_time_ms": 2.502}, "training_iteration": 663, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 45.15867209434509, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 0.13866083116593356, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 27600, "timesteps_total": 795600, "custom_metrics": {}, "iterations_since_restore": 23, "episodes_this_iter": 183, "episode_reward_min": -58.21461659548312, "date": "2025-09-04_23-36-54", "episode_reward_max": 8.00040239126019, "pid": 3651947, "timestamp": 1757021814, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 26190.716032266617, "episodes_total": 42390, "episode_len_mean": 6.5136612021857925}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1081.0638763904572, "info": {"sample_time_ms": 44763.182, "num_steps_trained": 796800, "grad_time_ms": 369.648, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 33.9642333984375, "cur_kl_coeff": 2.278125047683716, "policy_loss": -0.12466225028038025, "vf_explained_var": 0.25159433484077454, "entropy": 5.293583393096924, "total_loss": 33.87174606323242, "kl": 0.01412378903478384}, "load_time_ms": 0.673, "num_steps_sampled": 796800, "update_time_ms": 2.536}, "training_iteration": 664, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 45.526079416275024, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 0.6098290167509591, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 28800, "timesteps_total": 796800, "custom_metrics": {}, "iterations_since_restore": 24, "episodes_this_iter": 195, "episode_reward_min": -40.69437990214462, "date": "2025-09-04_23-37-40", "episode_reward_max": 8.000296837780727, "pid": 3651947, "timestamp": 1757021860, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 26236.242111682892, "episodes_total": 42585, "episode_len_mean": 6.2}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1125.7389600276947, "info": {"sample_time_ms": 44808.083, "num_steps_trained": 798000, "grad_time_ms": 372.214, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 52.32118606567383, "cur_kl_coeff": 2.278125047683716, "policy_loss": -0.1294259876012802, "vf_explained_var": 0.24719592928886414, "entropy": 5.405237674713135, "total_loss": 52.22242736816406, "kl": 0.013461814261972904}, "load_time_ms": 0.67, "num_steps_sampled": 798000, "update_time_ms": 2.552}, "training_iteration": 665, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 44.67508363723755, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 0.6551816421254213, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 30000, "timesteps_total": 798000, "custom_metrics": {}, "iterations_since_restore": 25, "episodes_this_iter": 195, "episode_reward_min": -38.498745869441926, "date": "2025-09-04_23-38-25", "episode_reward_max": 8.000070550566782, "pid": 3651947, "timestamp": 1757021905, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 26280.91719532013, "episodes_total": 42780, "episode_len_mean": 6.143589743589744}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1171.0526955127716, "info": {"sample_time_ms": 44830.711, "num_steps_trained": 799200, "grad_time_ms": 371.812, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 38.177764892578125, "cur_kl_coeff": 2.278125047683716, "policy_loss": -0.11706037074327469, "vf_explained_var": 0.23632574081420898, "entropy": 4.860657215118408, "total_loss": 38.09125900268555, "kl": 0.013413351960480213}, "load_time_ms": 0.679, "num_steps_sampled": 799200, "update_time_ms": 2.566}, "training_iteration": 666, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 45.313735485076904, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 1.6261670936304542, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 31200, "timesteps_total": 799200, "custom_metrics": {}, "iterations_since_restore": 26, "episodes_this_iter": 215, "episode_reward_min": -35.12925402894308, "date": "2025-09-04_23-39-10", "episode_reward_max": 8.000830990614764, "pid": 3651947, "timestamp": 1757021950, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 26326.230930805206, "episodes_total": 42995, "episode_len_mean": 5.530232558139535}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1215.927493572235, "info": {"sample_time_ms": 44815.717, "num_steps_trained": 800400, "grad_time_ms": 369.93, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 33.41366195678711, "cur_kl_coeff": 2.278125047683716, "policy_loss": -0.1383817344903946, "vf_explained_var": 0.22734716534614563, "entropy": 5.135607719421387, "total_loss": 33.31162643432617, "kl": 0.015954695641994476}, "load_time_ms": 0.681, "num_steps_sampled": 800400, "update_time_ms": 2.528}, "training_iteration": 667, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 44.8747980594635, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 0.9348612168659016, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 32400, "timesteps_total": 800400, "custom_metrics": {}, "iterations_since_restore": 27, "episodes_this_iter": 201, "episode_reward_min": -27.462859210559884, "date": "2025-09-04_23-39-55", "episode_reward_max": 8.000123605264683, "pid": 3651947, "timestamp": 1757021995, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 26371.10572886467, "episodes_total": 43196, "episode_len_mean": 5.9950248756218905}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1261.8195703029633, "info": {"sample_time_ms": 44890.892, "num_steps_trained": 801600, "grad_time_ms": 372.65, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 35.195194244384766, "cur_kl_coeff": 2.278125047683716, "policy_loss": -0.1105131208896637, "vf_explained_var": 0.27388784289360046, "entropy": 4.7763848304748535, "total_loss": 35.11569595336914, "kl": 0.013614475727081299}, "load_time_ms": 0.702, "num_steps_sampled": 801600, "update_time_ms": 2.515}, "training_iteration": 668, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 45.89207673072815, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 1.8492366591700886, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 33600, "timesteps_total": 801600, "custom_metrics": {}, "iterations_since_restore": 28, "episodes_this_iter": 224, "episode_reward_min": -33.62043392646845, "date": "2025-09-04_23-40-41", "episode_reward_max": 8.000203944907547, "pid": 3651947, "timestamp": 1757022041, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 26416.997805595398, "episodes_total": 43420, "episode_len_mean": 5.40625}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1307.6148715019226, "info": {"sample_time_ms": 44939.0, "num_steps_trained": 802800, "grad_time_ms": 373.657, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 34.7144775390625, "cur_kl_coeff": 2.278125047683716, "policy_loss": -0.11451967805624008, "vf_explained_var": 0.2770408093929291, "entropy": 4.928555011749268, "total_loss": 34.6353874206543, "kl": 0.015551049262285233}, "load_time_ms": 0.708, "num_steps_sampled": 802800, "update_time_ms": 2.544}, "training_iteration": 669, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 45.79530119895935, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 1.3544957190944287, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 34800, "timesteps_total": 802800, "custom_metrics": {}, "iterations_since_restore": 29, "episodes_this_iter": 211, "episode_reward_min": -30.87080522972294, "date": "2025-09-04_23-41-26", "episode_reward_max": 8.000065735985554, "pid": 3651947, "timestamp": 1757022086, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 26462.793106794357, "episodes_total": 43631, "episode_len_mean": 5.682464454976303}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1352.7094790935516, "info": {"sample_time_ms": 44891.559, "num_steps_trained": 804000, "grad_time_ms": 374.952, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 50.53966522216797, "cur_kl_coeff": 2.278125047683716, "policy_loss": -0.11584460735321045, "vf_explained_var": 0.22542423009872437, "entropy": 5.154943466186523, "total_loss": 50.45745849609375, "kl": 0.014764294028282166}, "load_time_ms": 0.708, "num_steps_sampled": 804000, "update_time_ms": 2.575}, "training_iteration": 670, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 45.09460759162903, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 1.1623952181782655, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 36000, "timesteps_total": 804000, "custom_metrics": {}, "iterations_since_restore": 30, "episodes_this_iter": 205, "episode_reward_min": -39.661008442806754, "date": "2025-09-04_23-42-12", "episode_reward_max": 8.000056559355581, "pid": 3651947, "timestamp": 1757022132, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 26507.887714385986, "episodes_total": 43836, "episode_len_mean": 5.824390243902439}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1397.40673995018, "info": {"sample_time_ms": 44813.697, "num_steps_trained": 805200, "grad_time_ms": 373.182, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 54.982933044433594, "cur_kl_coeff": 2.278125047683716, "policy_loss": -0.11039525270462036, "vf_explained_var": 0.25463879108428955, "entropy": 4.86466121673584, "total_loss": 54.90930938720703, "kl": 0.016139768064022064}, "load_time_ms": 0.709, "num_steps_sampled": 805200, "update_time_ms": 2.612}, "training_iteration": 671, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 44.69726085662842, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 0.9380072839085655, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 37200, "timesteps_total": 805200, "custom_metrics": {}, "iterations_since_restore": 31, "episodes_this_iter": 203, "episode_reward_min": -44.024063786882884, "date": "2025-09-04_23-42-56", "episode_reward_max": 8.00003487371069, "pid": 3651947, "timestamp": 1757022176, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 26552.584975242615, "episodes_total": 44039, "episode_len_mean": 5.935960591133005}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1443.2561042308807, "info": {"sample_time_ms": 44905.554, "num_steps_trained": 806400, "grad_time_ms": 373.207, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 25.35186004638672, "cur_kl_coeff": 2.278125047683716, "policy_loss": -0.12760642170906067, "vf_explained_var": 0.2716485261917114, "entropy": 4.429327487945557, "total_loss": 25.25782012939453, "kl": 0.014733772724866867}, "load_time_ms": 0.713, "num_steps_sampled": 806400, "update_time_ms": 2.597}, "training_iteration": 672, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 45.849364280700684, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 1.8188486432445576, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 38400, "timesteps_total": 806400, "custom_metrics": {}, "iterations_since_restore": 32, "episodes_this_iter": 222, "episode_reward_min": -31.323198545069644, "date": "2025-09-04_23-43-42", "episode_reward_max": 8.000037960439514, "pid": 3651947, "timestamp": 1757022222, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 26598.434339523315, "episodes_total": 44261, "episode_len_mean": 5.396396396396397}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1489.0317306518555, "info": {"sample_time_ms": 44966.614, "num_steps_trained": 807600, "grad_time_ms": 373.81, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 25.199703216552734, "cur_kl_coeff": 2.278125047683716, "policy_loss": -0.11255758255720139, "vf_explained_var": 0.30344411730766296, "entropy": 4.501504898071289, "total_loss": 25.113109588623047, "kl": 0.011397127993404865}, "load_time_ms": 0.717, "num_steps_sampled": 807600, "update_time_ms": 2.587}, "training_iteration": 673, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 45.77562642097473, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 2.0325452432038214, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 39600, "timesteps_total": 807600, "custom_metrics": {}, "iterations_since_restore": 33, "episodes_this_iter": 226, "episode_reward_min": -36.46241334684141, "date": "2025-09-04_23-44-28", "episode_reward_max": 8.0001096686023, "pid": 3651947, "timestamp": 1757022268, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 26644.20996594429, "episodes_total": 44487, "episode_len_mean": 5.283185840707965}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1533.8942770957947, "info": {"sample_time_ms": 44900.098, "num_steps_trained": 808800, "grad_time_ms": 373.993, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 32.96345138549805, "cur_kl_coeff": 2.278125047683716, "policy_loss": -0.11006785929203033, "vf_explained_var": 0.3334667384624481, "entropy": 5.090214729309082, "total_loss": 32.88323974609375, "kl": 0.013107547536492348}, "load_time_ms": 0.716, "num_steps_sampled": 808800, "update_time_ms": 2.574}, "training_iteration": 674, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 44.86254644393921, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 1.11009000835695, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 40800, "timesteps_total": 808800, "custom_metrics": {}, "iterations_since_restore": 34, "episodes_this_iter": 202, "episode_reward_min": -26.312977717310936, "date": "2025-09-04_23-45-13", "episode_reward_max": 8.000104340232854, "pid": 3651947, "timestamp": 1757022313, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 26689.07251238823, "episodes_total": 44689, "episode_len_mean": 5.871287128712871}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1578.7702877521515, "info": {"sample_time_ms": 44919.257, "num_steps_trained": 810000, "grad_time_ms": 375.022, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 51.09336853027344, "cur_kl_coeff": 2.278125047683716, "policy_loss": -0.1132146418094635, "vf_explained_var": 0.26288503408432007, "entropy": 4.930473327636719, "total_loss": 51.00904083251953, "kl": 0.012678191065788269}, "load_time_ms": 0.721, "num_steps_sampled": 810000, "update_time_ms": 2.552}, "training_iteration": 675, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 44.87601065635681, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 1.0642628138436567, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 42000, "timesteps_total": 810000, "custom_metrics": {}, "iterations_since_restore": 35, "episodes_this_iter": 206, "episode_reward_min": -51.0417323859044, "date": "2025-09-04_23-45-58", "episode_reward_max": 8.00026226483387, "pid": 3651947, "timestamp": 1757022358, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 26733.948523044586, "episodes_total": 44895, "episode_len_mean": 5.922330097087379}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1623.6381359100342, "info": {"sample_time_ms": 44872.54, "num_steps_trained": 811200, "grad_time_ms": 377.163, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 47.72408676147461, "cur_kl_coeff": 2.278125047683716, "policy_loss": -0.12084172666072845, "vf_explained_var": 0.289846271276474, "entropy": 4.756955623626709, "total_loss": 47.63309097290039, "kl": 0.013101667165756226}, "load_time_ms": 0.714, "num_steps_sampled": 811200, "update_time_ms": 2.574}, "training_iteration": 676, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 44.86784815788269, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 1.08842748446094, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 43200, "timesteps_total": 811200, "custom_metrics": {}, "iterations_since_restore": 36, "episodes_this_iter": 205, "episode_reward_min": -41.855391642439734, "date": "2025-09-04_23-46-43", "episode_reward_max": 8.00021452106471, "pid": 3651947, "timestamp": 1757022403, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 26778.81637120247, "episodes_total": 45100, "episode_len_mean": 5.8585365853658535}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1669.1616306304932, "info": {"sample_time_ms": 44935.677, "num_steps_trained": 812400, "grad_time_ms": 378.799, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 46.421443939208984, "cur_kl_coeff": 2.278125047683716, "policy_loss": -0.1014418676495552, "vf_explained_var": 0.26303741335868835, "entropy": 4.09953498840332, "total_loss": 46.349037170410156, "kl": 0.012744201347231865}, "load_time_ms": 0.719, "num_steps_sampled": 812400, "update_time_ms": 2.601}, "training_iteration": 677, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 45.523494720458984, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 1.725258672383097, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 44400, "timesteps_total": 812400, "custom_metrics": {}, "iterations_since_restore": 37, "episodes_this_iter": 221, "episode_reward_min": -53.92958741396319, "date": "2025-09-04_23-47-28", "episode_reward_max": 8.000100413163354, "pid": 3651947, "timestamp": 1757022448, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 26824.339865922928, "episodes_total": 45321, "episode_len_mean": 5.4434389140271495}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1714.7320952415466, "info": {"sample_time_ms": 44906.237, "num_steps_trained": 813600, "grad_time_ms": 376.05, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 25.21841812133789, "cur_kl_coeff": 2.278125047683716, "policy_loss": -0.11103672534227371, "vf_explained_var": 0.3182068467140198, "entropy": 4.209366321563721, "total_loss": 25.141395568847656, "kl": 0.01492943987250328}, "load_time_ms": 0.705, "num_steps_sampled": 813600, "update_time_ms": 2.602}, "training_iteration": 678, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 45.57046461105347, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 2.3552411870206993, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 45600, "timesteps_total": 813600, "custom_metrics": {}, "iterations_since_restore": 38, "episodes_this_iter": 236, "episode_reward_min": -28.413637460438224, "date": "2025-09-04_23-48-14", "episode_reward_max": 8.000458522212895, "pid": 3651947, "timestamp": 1757022494, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 26869.91033053398, "episodes_total": 45557, "episode_len_mean": 5.084745762711864}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1762.8893086910248, "info": {"sample_time_ms": 45143.221, "num_steps_trained": 814800, "grad_time_ms": 375.308, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 26.07421112060547, "cur_kl_coeff": 2.278125047683716, "policy_loss": -0.11071144044399261, "vf_explained_var": 0.3554925322532654, "entropy": 3.9571533203125, "total_loss": 25.987592697143555, "kl": 0.010575653985142708}, "load_time_ms": 0.699, "num_steps_sampled": 814800, "update_time_ms": 2.618}, "training_iteration": 679, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 48.15721344947815, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 2.7279709710992877, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 46800, "timesteps_total": 814800, "custom_metrics": {}, "iterations_since_restore": 39, "episodes_this_iter": 244, "episode_reward_min": -31.20026672780964, "date": "2025-09-04_23-49-02", "episode_reward_max": 10.0, "pid": 3651947, "timestamp": 1757022542, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 26918.06754398346, "episodes_total": 45801, "episode_len_mean": 4.844262295081967}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1808.5713317394257, "info": {"sample_time_ms": 45203.036, "num_steps_trained": 816000, "grad_time_ms": 374.193, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 39.99162292480469, "cur_kl_coeff": 2.278125047683716, "policy_loss": -0.11236973851919174, "vf_explained_var": 0.2974632978439331, "entropy": 4.766204357147217, "total_loss": 39.909339904785156, "kl": 0.01320748869329691}, "load_time_ms": 0.699, "num_steps_sampled": 816000, "update_time_ms": 2.574}, "training_iteration": 680, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 45.68202304840088, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 1.8229990918099992, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 48000, "timesteps_total": 816000, "custom_metrics": {}, "iterations_since_restore": 40, "episodes_this_iter": 224, "episode_reward_min": -42.005266572671324, "date": "2025-09-04_23-49-48", "episode_reward_max": 8.000121456246195, "pid": 3651947, "timestamp": 1757022588, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 26963.74956703186, "episodes_total": 46025, "episode_len_mean": 5.428571428571429}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1854.3741126060486, "info": {"sample_time_ms": 45311.67, "num_steps_trained": 817200, "grad_time_ms": 375.919, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 20.1705322265625, "cur_kl_coeff": 2.278125047683716, "policy_loss": -0.10597968846559525, "vf_explained_var": 0.37855952978134155, "entropy": 4.278032302856445, "total_loss": 20.095693588256836, "kl": 0.013669062405824661}, "load_time_ms": 0.698, "num_steps_sampled": 817200, "update_time_ms": 2.653}, "training_iteration": 681, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 45.802780866622925, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 2.119041598304144, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 49200, "timesteps_total": 817200, "custom_metrics": {}, "iterations_since_restore": 41, "episodes_this_iter": 230, "episode_reward_min": -23.039651296811073, "date": "2025-09-04_23-50-34", "episode_reward_max": 8.000111549539966, "pid": 3651947, "timestamp": 1757022634, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 27009.552347898483, "episodes_total": 46255, "episode_len_mean": 5.2043478260869565}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1900.3360126018524, "info": {"sample_time_ms": 45322.935, "num_steps_trained": 818400, "grad_time_ms": 375.914, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 33.26652526855469, "cur_kl_coeff": 2.278125047683716, "policy_loss": -0.0896776020526886, "vf_explained_var": 0.2946290075778961, "entropy": 3.887026786804199, "total_loss": 33.2002067565918, "kl": 0.010254154913127422}, "load_time_ms": 0.695, "num_steps_sampled": 818400, "update_time_ms": 2.661}, "training_iteration": 682, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 45.96189999580383, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 2.6885484381136426, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 50400, "timesteps_total": 818400, "custom_metrics": {}, "iterations_since_restore": 42, "episodes_this_iter": 247, "episode_reward_min": -52.97668807427179, "date": "2025-09-04_23-51-20", "episode_reward_max": 8.000153198259685, "pid": 3651947, "timestamp": 1757022680, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 27055.514247894287, "episodes_total": 46502, "episode_len_mean": 4.874493927125506}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1946.71591258049, "info": {"sample_time_ms": 45384.9, "num_steps_trained": 819600, "grad_time_ms": 374.42, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 20.370283126831055, "cur_kl_coeff": 2.278125047683716, "policy_loss": -0.10092522203922272, "vf_explained_var": 0.30661991238594055, "entropy": 3.812130928039551, "total_loss": 20.326799392700195, "kl": 0.025214217603206635}, "load_time_ms": 0.686, "num_steps_sampled": 819600, "update_time_ms": 2.657}, "training_iteration": 683, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 46.379899978637695, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 2.7354757145783526, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 51600, "timesteps_total": 819600, "custom_metrics": {}, "iterations_since_restore": 43, "episodes_this_iter": 248, "episode_reward_min": -25.692715770948595, "date": "2025-09-04_23-52-06", "episode_reward_max": 8.00004353166473, "pid": 3651947, "timestamp": 1757022726, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 27101.894147872925, "episodes_total": 46750, "episode_len_mean": 4.826612903225806}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1992.2334678173065, "info": {"sample_time_ms": 45450.43, "num_steps_trained": 820800, "grad_time_ms": 374.387, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 38.21272277832031, "cur_kl_coeff": 3.417187452316284, "policy_loss": -0.09470480680465698, "vf_explained_var": 0.2592650055885315, "entropy": 4.263044357299805, "total_loss": 38.15930938720703, "kl": 0.01208446267992258}, "load_time_ms": 0.685, "num_steps_sampled": 820800, "update_time_ms": 2.658}, "training_iteration": 684, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 45.517555236816406, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 2.1549766711363594, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 52800, "timesteps_total": 820800, "custom_metrics": {}, "iterations_since_restore": 44, "episodes_this_iter": 230, "episode_reward_min": -45.83795802461822, "date": "2025-09-04_23-52-51", "episode_reward_max": 8.000986299434812, "pid": 3651947, "timestamp": 1757022771, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 27147.41170310974, "episodes_total": 46980, "episode_len_mean": 5.2}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2038.8074345588684, "info": {"sample_time_ms": 45623.539, "num_steps_trained": 822000, "grad_time_ms": 371.069, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 19.502605438232422, "cur_kl_coeff": 3.417187452316284, "policy_loss": -0.09870563447475433, "vf_explained_var": 0.3662871718406677, "entropy": 3.827545166015625, "total_loss": 19.437639236450195, "kl": 0.00987254548817873}, "load_time_ms": 0.679, "num_steps_sampled": 822000, "update_time_ms": 2.675}, "training_iteration": 685, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 46.57396674156189, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 2.6572154273389628, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 54000, "timesteps_total": 822000, "custom_metrics": {}, "iterations_since_restore": 45, "episodes_this_iter": 246, "episode_reward_min": -27.886526359770727, "date": "2025-09-04_23-53-38", "episode_reward_max": 8.000052507444792, "pid": 3651947, "timestamp": 1757022818, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 27193.985669851303, "episodes_total": 47226, "episode_len_mean": 4.8861788617886175}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2084.5611431598663, "info": {"sample_time_ms": 45714.511, "num_steps_trained": 823200, "grad_time_ms": 368.644, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 26.020296096801758, "cur_kl_coeff": 3.417187452316284, "policy_loss": -0.0952225998044014, "vf_explained_var": 0.36607956886291504, "entropy": 4.083105087280273, "total_loss": 25.966880798339844, "kl": 0.012233107350766659}, "load_time_ms": 0.675, "num_steps_sampled": 823200, "update_time_ms": 2.651}, "training_iteration": 686, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 45.753708600997925, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 2.2040891490296857, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 55200, "timesteps_total": 823200, "custom_metrics": {}, "iterations_since_restore": 46, "episodes_this_iter": 233, "episode_reward_min": -31.675725465750638, "date": "2025-09-04_23-54-24", "episode_reward_max": 8.000062316218074, "pid": 3651947, "timestamp": 1757022864, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 27239.7393784523, "episodes_total": 47459, "episode_len_mean": 5.1373390557939915}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2130.6540355682373, "info": {"sample_time_ms": 45771.937, "num_steps_trained": 824400, "grad_time_ms": 368.183, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 27.39217758178711, "cur_kl_coeff": 3.417187452316284, "policy_loss": -0.09471426904201508, "vf_explained_var": 0.32949918508529663, "entropy": 4.074531555175781, "total_loss": 27.33019256591797, "kl": 0.009578406810760498}, "load_time_ms": 0.675, "num_steps_sampled": 824400, "update_time_ms": 2.624}, "training_iteration": 687, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 46.09289240837097, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 2.5360759930993373, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 56400, "timesteps_total": 824400, "custom_metrics": {}, "iterations_since_restore": 47, "episodes_this_iter": 240, "episode_reward_min": -28.73202633247127, "date": "2025-09-04_23-55-10", "episode_reward_max": 8.000046742088735, "pid": 3651947, "timestamp": 1757022910, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 27285.832270860672, "episodes_total": 47699, "episode_len_mean": 4.975}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2177.10223197937, "info": {"sample_time_ms": 45858.23, "num_steps_trained": 825600, "grad_time_ms": 369.739, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 24.265281677246094, "cur_kl_coeff": 3.417187452316284, "policy_loss": -0.08551517128944397, "vf_explained_var": 0.3369382619857788, "entropy": 3.921107769012451, "total_loss": 24.211639404296875, "kl": 0.009327537380158901}, "load_time_ms": 0.676, "num_steps_sampled": 825600, "update_time_ms": 2.627}, "training_iteration": 688, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 46.44819641113281, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 2.2101262666385373, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 57600, "timesteps_total": 825600, "custom_metrics": {}, "iterations_since_restore": 48, "episodes_this_iter": 234, "episode_reward_min": -28.18351258581726, "date": "2025-09-04_23-55-56", "episode_reward_max": 8.000037329418017, "pid": 3651947, "timestamp": 1757022956, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 27332.280467271805, "episodes_total": 47933, "episode_len_mean": 5.162393162393163}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2222.396988391876, "info": {"sample_time_ms": 45572.549, "num_steps_trained": 826800, "grad_time_ms": 369.215, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 18.31333351135254, "cur_kl_coeff": 3.417187452316284, "policy_loss": -0.11753928661346436, "vf_explained_var": 0.3489692211151123, "entropy": 4.211871147155762, "total_loss": 18.22791290283203, "kl": 0.009398790076375008}, "load_time_ms": 0.68, "num_steps_sampled": 826800, "update_time_ms": 2.567}, "training_iteration": 689, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 45.2947564125061, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 2.3390708113989294, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 58800, "timesteps_total": 826800, "custom_metrics": {}, "iterations_since_restore": 49, "episodes_this_iter": 236, "episode_reward_min": -21.46640907944748, "date": "2025-09-04_23-56-42", "episode_reward_max": 8.000062387216154, "pid": 3651947, "timestamp": 1757023002, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 27377.57522368431, "episodes_total": 48169, "episode_len_mean": 5.101694915254237}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2268.6880073547363, "info": {"sample_time_ms": 45632.634, "num_steps_trained": 828000, "grad_time_ms": 370.06, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 22.923683166503906, "cur_kl_coeff": 3.417187452316284, "policy_loss": -0.10533839464187622, "vf_explained_var": 0.3062151074409485, "entropy": 4.0076003074646, "total_loss": 22.845335006713867, "kl": 0.007898930460214615}, "load_time_ms": 0.678, "num_steps_sampled": 828000, "update_time_ms": 2.59}, "training_iteration": 690, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 46.29101896286011, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 2.2960326855448656, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 60000, "timesteps_total": 828000, "custom_metrics": {}, "iterations_since_restore": 50, "episodes_this_iter": 236, "episode_reward_min": -35.438403936551865, "date": "2025-09-04_23-57-28", "episode_reward_max": 8.000014463707025, "pid": 3651947, "timestamp": 1757023048, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 27423.86624264717, "episodes_total": 48405, "episode_len_mean": 5.080508474576271}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2314.1386063098907, "info": {"sample_time_ms": 45598.0, "num_steps_trained": 829200, "grad_time_ms": 369.685, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 39.06608581542969, "cur_kl_coeff": 3.417187452316284, "policy_loss": -0.10068418085575104, "vf_explained_var": 0.30122214555740356, "entropy": 4.316643238067627, "total_loss": 38.994544982910156, "kl": 0.00852908380329609}, "load_time_ms": 0.678, "num_steps_sampled": 829200, "update_time_ms": 2.463}, "training_iteration": 691, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 45.45059895515442, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 1.8110764046072114, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 61200, "timesteps_total": 829200, "custom_metrics": {}, "iterations_since_restore": 51, "episodes_this_iter": 222, "episode_reward_min": -44.2886555456217, "date": "2025-09-04_23-58-14", "episode_reward_max": 8.0000136264972, "pid": 3651947, "timestamp": 1757023094, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 27469.316841602325, "episodes_total": 48627, "episode_len_mean": 5.400900900900901}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2360.267109632492, "info": {"sample_time_ms": 45615.099, "num_steps_trained": 830400, "grad_time_ms": 369.287, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 28.4263858795166, "cur_kl_coeff": 3.417187452316284, "policy_loss": -0.0924384593963623, "vf_explained_var": 0.311334490776062, "entropy": 4.158641815185547, "total_loss": 28.411972045898438, "kl": 0.022832728922367096}, "load_time_ms": 0.681, "num_steps_sampled": 830400, "update_time_ms": 2.45}, "training_iteration": 692, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 46.12850332260132, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 2.1830580373795043, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 62400, "timesteps_total": 830400, "custom_metrics": {}, "iterations_since_restore": 52, "episodes_this_iter": 231, "episode_reward_min": -28.544174064684533, "date": "2025-09-04_23-59-00", "episode_reward_max": 8.000075723233019, "pid": 3651947, "timestamp": 1757023140, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 27515.445344924927, "episodes_total": 48858, "episode_len_mean": 5.207792207792208}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2406.292500257492, "info": {"sample_time_ms": 45579.713, "num_steps_trained": 831600, "grad_time_ms": 369.222, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 18.492910385131836, "cur_kl_coeff": 5.125781059265137, "policy_loss": -0.0924345999956131, "vf_explained_var": 0.3897292912006378, "entropy": 3.4774138927459717, "total_loss": 18.42829132080078, "kl": 0.005427065305411816}, "load_time_ms": 0.682, "num_steps_sampled": 831600, "update_time_ms": 2.447}, "training_iteration": 693, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 46.025390625, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 2.9133893310222883, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 63600, "timesteps_total": 831600, "custom_metrics": {}, "iterations_since_restore": 53, "episodes_this_iter": 255, "episode_reward_min": -33.99333575272079, "date": "2025-09-04_23-59-46", "episode_reward_max": 8.000483205321288, "pid": 3651947, "timestamp": 1757023186, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 27561.470735549927, "episodes_total": 49113, "episode_len_mean": 4.705882352941177}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2453.794445037842, "info": {"sample_time_ms": 45776.969, "num_steps_trained": 832800, "grad_time_ms": 370.372, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 19.945158004760742, "cur_kl_coeff": 5.125781059265137, "policy_loss": -0.08766285330057144, "vf_explained_var": 0.3745752274990082, "entropy": 3.586599111557007, "total_loss": 19.889028549194336, "kl": 0.006151752080768347}, "load_time_ms": 0.69, "num_steps_sampled": 832800, "update_time_ms": 2.423}, "training_iteration": 694, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 47.50194478034973, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 2.8140092911234733, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 64800, "timesteps_total": 832800, "custom_metrics": {}, "iterations_since_restore": 54, "episodes_this_iter": 250, "episode_reward_min": -35.834870898374945, "date": "2025-09-05_00-00-33", "episode_reward_max": 8.000053038291991, "pid": 3651947, "timestamp": 1757023233, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 27608.972680330276, "episodes_total": 49363, "episode_len_mean": 4.796}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2500.2112040519714, "info": {"sample_time_ms": 45760.551, "num_steps_trained": 834000, "grad_time_ms": 371.106, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 21.671066284179688, "cur_kl_coeff": 5.125781059265137, "policy_loss": -0.08804267644882202, "vf_explained_var": 0.36468225717544556, "entropy": 3.9830448627471924, "total_loss": 21.612377166748047, "kl": 0.005727276671677828}, "load_time_ms": 0.691, "num_steps_sampled": 834000, "update_time_ms": 2.409}, "training_iteration": 695, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 46.41675901412964, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 2.6203789680064515, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 66000, "timesteps_total": 834000, "custom_metrics": {}, "iterations_since_restore": 55, "episodes_this_iter": 242, "episode_reward_min": -28.959408747237276, "date": "2025-09-05_00-01-20", "episode_reward_max": 8.000110532415139, "pid": 3651947, "timestamp": 1757023280, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 27655.389439344406, "episodes_total": 49605, "episode_len_mean": 4.917355371900826}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2548.130709171295, "info": {"sample_time_ms": 45975.987, "num_steps_trained": 835200, "grad_time_ms": 372.303, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 23.02083396911621, "cur_kl_coeff": 5.125781059265137, "policy_loss": -0.08154700696468353, "vf_explained_var": 0.3930407762527466, "entropy": 3.54258394241333, "total_loss": 22.966352462768555, "kl": 0.005280703771859407}, "load_time_ms": 0.693, "num_steps_sampled": 835200, "update_time_ms": 2.399}, "training_iteration": 696, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 47.91950511932373, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 2.790335409871374, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 67200, "timesteps_total": 835200, "custom_metrics": {}, "iterations_since_restore": 56, "episodes_this_iter": 250, "episode_reward_min": -36.17692362531083, "date": "2025-09-05_00-02-08", "episode_reward_max": 8.000071122194017, "pid": 3651947, "timestamp": 1757023328, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 27703.30894446373, "episodes_total": 49855, "episode_len_mean": 4.804}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2594.7809772491455, "info": {"sample_time_ms": 46031.904, "num_steps_trained": 836400, "grad_time_ms": 372.116, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 24.553421020507812, "cur_kl_coeff": 5.125781059265137, "policy_loss": -0.09851668775081635, "vf_explained_var": 0.3637484610080719, "entropy": 3.9232969284057617, "total_loss": 24.485055923461914, "kl": 0.005882933735847473}, "load_time_ms": 0.686, "num_steps_sampled": 836400, "update_time_ms": 2.394}, "training_iteration": 697, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 46.65026807785034, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 2.6535923777146553, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 68400, "timesteps_total": 836400, "custom_metrics": {}, "iterations_since_restore": 57, "episodes_this_iter": 244, "episode_reward_min": -29.634267765182685, "date": "2025-09-05_00-02-54", "episode_reward_max": 8.000422985103917, "pid": 3651947, "timestamp": 1757023374, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 27749.95921254158, "episodes_total": 50099, "episode_len_mean": 4.905737704918033}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2641.803017616272, "info": {"sample_time_ms": 46089.789, "num_steps_trained": 837600, "grad_time_ms": 371.533, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 20.05363655090332, "cur_kl_coeff": 5.125781059265137, "policy_loss": -0.08109728991985321, "vf_explained_var": 0.3776855766773224, "entropy": 3.494898796081543, "total_loss": 19.998289108276367, "kl": 0.005023529753088951}, "load_time_ms": 0.68, "num_steps_sampled": 837600, "update_time_ms": 2.406}, "training_iteration": 698, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 47.022040367126465, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 2.8137301623159416, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 69600, "timesteps_total": 837600, "custom_metrics": {}, "iterations_since_restore": 58, "episodes_this_iter": 255, "episode_reward_min": -31.342953328465626, "date": "2025-09-05_00-03-41", "episode_reward_max": 8.00002653177848, "pid": 3651947, "timestamp": 1757023421, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 27796.981252908707, "episodes_total": 50354, "episode_len_mean": 4.772549019607843}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2689.7521953582764, "info": {"sample_time_ms": 46353.701, "num_steps_trained": 838800, "grad_time_ms": 373.008, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 23.673885345458984, "cur_kl_coeff": 5.125781059265137, "policy_loss": -0.08906450867652893, "vf_explained_var": 0.37318751215934753, "entropy": 3.4568328857421875, "total_loss": 23.611942291259766, "kl": 0.00529090128839016}, "load_time_ms": 0.682, "num_steps_sampled": 838800, "update_time_ms": 2.465}, "training_iteration": 699, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 47.949177742004395, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 2.676038276358482, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 70800, "timesteps_total": 838800, "custom_metrics": {}, "iterations_since_restore": 59, "episodes_this_iter": 246, "episode_reward_min": -34.01843889200904, "date": "2025-09-05_00-04-29", "episode_reward_max": 8.00003337242132, "pid": 3651947, "timestamp": 1757023469, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 27844.93043065071, "episodes_total": 50600, "episode_len_mean": 4.853658536585366}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2735.9882276058197, "info": {"sample_time_ms": 46350.661, "num_steps_trained": 840000, "grad_time_ms": 370.582, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 18.364973068237305, "cur_kl_coeff": 5.125781059265137, "policy_loss": -0.0899556428194046, "vf_explained_var": 0.33644577860832214, "entropy": 3.8288726806640625, "total_loss": 18.32174301147461, "kl": 0.009115674532949924}, "load_time_ms": 0.677, "num_steps_sampled": 840000, "update_time_ms": 2.46}, "training_iteration": 700, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 46.236032247543335, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 2.4382448170064226, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 72000, "timesteps_total": 840000, "custom_metrics": {}, "iterations_since_restore": 60, "episodes_this_iter": 240, "episode_reward_min": -26.072475345441987, "date": "2025-09-05_00-05-16", "episode_reward_max": 8.000126565405562, "pid": 3651947, "timestamp": 1757023516, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 27891.166462898254, "episodes_total": 50840, "episode_len_mean": 5.008333333333334}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2782.124693632126, "info": {"sample_time_ms": 46418.885, "num_steps_trained": 841200, "grad_time_ms": 370.797, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 18.015798568725586, "cur_kl_coeff": 5.125781059265137, "policy_loss": -0.0949694961309433, "vf_explained_var": 0.38648679852485657, "entropy": 3.605668783187866, "total_loss": 17.95746612548828, "kl": 0.007147365249693394}, "load_time_ms": 0.669, "num_steps_sampled": 841200, "update_time_ms": 2.613}, "training_iteration": 701, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 46.13646602630615, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 2.7484119177474615, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 73200, "timesteps_total": 841200, "custom_metrics": {}, "iterations_since_restore": 61, "episodes_this_iter": 247, "episode_reward_min": -32.53581779156435, "date": "2025-09-05_00-06-02", "episode_reward_max": 8.000731287254961, "pid": 3651947, "timestamp": 1757023562, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 27937.30292892456, "episodes_total": 51087, "episode_len_mean": 4.838056680161944}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2828.820511817932, "info": {"sample_time_ms": 46474.504, "num_steps_trained": 842400, "grad_time_ms": 371.866, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 22.48615837097168, "cur_kl_coeff": 5.125781059265137, "policy_loss": -0.0782257467508316, "vf_explained_var": 0.38535141944885254, "entropy": 3.672297954559326, "total_loss": 22.43346405029297, "kl": 0.004980933386832476}, "load_time_ms": 0.667, "num_steps_sampled": 842400, "update_time_ms": 2.645}, "training_iteration": 702, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 46.695818185806274, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 2.7417556246248953, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 74400, "timesteps_total": 842400, "custom_metrics": {}, "iterations_since_restore": 62, "episodes_this_iter": 249, "episode_reward_min": -30.512234717932195, "date": "2025-09-05_00-06-48", "episode_reward_max": 8.000339213512484, "pid": 3651947, "timestamp": 1757023608, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 27983.998747110367, "episodes_total": 51336, "episode_len_mean": 4.815261044176707}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2875.672497034073, "info": {"sample_time_ms": 46553.505, "num_steps_trained": 843600, "grad_time_ms": 375.505, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 10.897947311401367, "cur_kl_coeff": 2.5628905296325684, "policy_loss": -0.10184511542320251, "vf_explained_var": 0.44461530447006226, "entropy": 3.5678024291992188, "total_loss": 10.819283485412598, "kl": 0.009044832549989223}, "load_time_ms": 0.67, "num_steps_sampled": 843600, "update_time_ms": 2.632}, "training_iteration": 703, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 46.85198521614075, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 2.8552245182600067, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 75600, "timesteps_total": 843600, "custom_metrics": {}, "iterations_since_restore": 63, "episodes_this_iter": 253, "episode_reward_min": -15.637942489142603, "date": "2025-09-05_00-07-35", "episode_reward_max": 8.000093791804058, "pid": 3651947, "timestamp": 1757023655, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 28030.850732326508, "episodes_total": 51589, "episode_len_mean": 4.762845849802371}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2922.5279846191406, "info": {"sample_time_ms": 46490.105, "num_steps_trained": 844800, "grad_time_ms": 374.243, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 21.747812271118164, "cur_kl_coeff": 2.5628905296325684, "policy_loss": -0.08856526017189026, "vf_explained_var": 0.3574591875076294, "entropy": 3.3065967559814453, "total_loss": 21.676549911499023, "kl": 0.00675173569470644}, "load_time_ms": 0.663, "num_steps_sampled": 844800, "update_time_ms": 2.65}, "training_iteration": 704, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 46.85548758506775, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 2.968602281348618, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 76800, "timesteps_total": 844800, "custom_metrics": {}, "iterations_since_restore": 64, "episodes_this_iter": 256, "episode_reward_min": -31.094574812658422, "date": "2025-09-05_00-08-22", "episode_reward_max": 8.000045120574933, "pid": 3651947, "timestamp": 1757023702, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 28077.706219911575, "episodes_total": 51845, "episode_len_mean": 4.6875}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2968.942771911621, "info": {"sample_time_ms": 46487.444, "num_steps_trained": 846000, "grad_time_ms": 376.6, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 20.095355987548828, "cur_kl_coeff": 2.5628905296325684, "policy_loss": -0.09232830256223679, "vf_explained_var": 0.41118118166923523, "entropy": 3.3624517917633057, "total_loss": 20.024757385253906, "kl": 0.008477847091853619}, "load_time_ms": 0.668, "num_steps_sampled": 846000, "update_time_ms": 2.681}, "training_iteration": 705, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 46.41478729248047, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 2.875977254342749, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 78000, "timesteps_total": 846000, "custom_metrics": {}, "iterations_since_restore": 65, "episodes_this_iter": 253, "episode_reward_min": -30.661359582329993, "date": "2025-09-05_00-09-09", "episode_reward_max": 8.00091015858126, "pid": 3651947, "timestamp": 1757023749, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 28124.121007204056, "episodes_total": 52098, "episode_len_mean": 4.7272727272727275}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3015.3129580020905, "info": {"sample_time_ms": 46332.031, "num_steps_trained": 847200, "grad_time_ms": 376.964, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 10.395467758178711, "cur_kl_coeff": 2.5628905296325684, "policy_loss": -0.08874928951263428, "vf_explained_var": 0.48560789227485657, "entropy": 2.913358211517334, "total_loss": 10.328511238098145, "kl": 0.008503603748977184}, "load_time_ms": 0.663, "num_steps_sampled": 847200, "update_time_ms": 2.687}, "training_iteration": 706, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 46.37018609046936, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 3.267096453091576, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 79200, "timesteps_total": 847200, "custom_metrics": {}, "iterations_since_restore": 66, "episodes_this_iter": 269, "episode_reward_min": -25.203466682672065, "date": "2025-09-05_00-09-55", "episode_reward_max": 8.000071265521461, "pid": 3651947, "timestamp": 1757023795, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 28170.491193294525, "episodes_total": 52367, "episode_len_mean": 4.4684014869888475}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3062.5225052833557, "info": {"sample_time_ms": 46387.344, "num_steps_trained": 848400, "grad_time_ms": 377.588, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 10.933013916015625, "cur_kl_coeff": 2.5628905296325684, "policy_loss": -0.07779070734977722, "vf_explained_var": 0.43059083819389343, "entropy": 2.923530340194702, "total_loss": 10.891273498535156, "kl": 0.014066466130316257}, "load_time_ms": 0.666, "num_steps_sampled": 848400, "update_time_ms": 2.712}, "training_iteration": 707, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 47.20954728126526, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 3.4807626959049185, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 80400, "timesteps_total": 848400, "custom_metrics": {}, "iterations_since_restore": 67, "episodes_this_iter": 272, "episode_reward_min": -14.993927343121719, "date": "2025-09-05_00-10-42", "episode_reward_max": 8.00002406751684, "pid": 3651947, "timestamp": 1757023842, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 28217.70074057579, "episodes_total": 52639, "episode_len_mean": 4.360294117647059}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3109.1843745708466, "info": {"sample_time_ms": 46350.702, "num_steps_trained": 849600, "grad_time_ms": 378.268, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 14.548519134521484, "cur_kl_coeff": 2.5628905296325684, "policy_loss": -0.08129000663757324, "vf_explained_var": 0.40845823287963867, "entropy": 3.379908561706543, "total_loss": 14.496715545654297, "kl": 0.011505262926220894}, "load_time_ms": 0.674, "num_steps_sampled": 849600, "update_time_ms": 2.661}, "training_iteration": 708, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 46.661869287490845, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 3.045566337120995, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 81600, "timesteps_total": 849600, "custom_metrics": {}, "iterations_since_restore": 68, "episodes_this_iter": 263, "episode_reward_min": -32.35425534450611, "date": "2025-09-05_00-11-29", "episode_reward_max": 8.000000506413096, "pid": 3651947, "timestamp": 1757023889, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 28264.36260986328, "episodes_total": 52902, "episode_len_mean": 4.634980988593156}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3156.0025663375854, "info": {"sample_time_ms": 46236.685, "num_steps_trained": 850800, "grad_time_ms": 379.107, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 19.041440963745117, "cur_kl_coeff": 2.5628905296325684, "policy_loss": -0.07008924335241318, "vf_explained_var": 0.4180201590061188, "entropy": 3.1364493370056152, "total_loss": 18.986976623535156, "kl": 0.006095509976148605}, "load_time_ms": 0.67, "num_steps_sampled": 850800, "update_time_ms": 2.651}, "training_iteration": 709, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 46.81819176673889, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 3.1849787357643424, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 82800, "timesteps_total": 850800, "custom_metrics": {}, "iterations_since_restore": 69, "episodes_this_iter": 264, "episode_reward_min": -38.008709475992845, "date": "2025-09-05_00-12-16", "episode_reward_max": 8.000051236475214, "pid": 3651947, "timestamp": 1757023936, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 28311.18080163002, "episodes_total": 53166, "episode_len_mean": 4.526515151515151}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3202.405710220337, "info": {"sample_time_ms": 46252.736, "num_steps_trained": 852000, "grad_time_ms": 379.714, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 13.956635475158691, "cur_kl_coeff": 2.5628905296325684, "policy_loss": -0.08226403594017029, "vf_explained_var": 0.4574727416038513, "entropy": 3.1847519874572754, "total_loss": 13.90140151977539, "kl": 0.010546525940299034}, "load_time_ms": 0.67, "num_steps_sampled": 852000, "update_time_ms": 2.643}, "training_iteration": 710, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 46.403143882751465, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 3.091944312839223, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 84000, "timesteps_total": 852000, "custom_metrics": {}, "iterations_since_restore": 70, "episodes_this_iter": 262, "episode_reward_min": -26.30637679999954, "date": "2025-09-05_00-13-02", "episode_reward_max": 8.000196248389745, "pid": 3651947, "timestamp": 1757023982, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 28357.58394551277, "episodes_total": 53428, "episode_len_mean": 4.587786259541985}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3248.526032924652, "info": {"sample_time_ms": 46251.395, "num_steps_trained": 853200, "grad_time_ms": 379.431, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 8.423760414123535, "cur_kl_coeff": 2.5628905296325684, "policy_loss": -0.09352359175682068, "vf_explained_var": 0.5000796318054199, "entropy": 2.9549989700317383, "total_loss": 8.35595989227295, "kl": 0.010036887601017952}, "load_time_ms": 0.667, "num_steps_sampled": 853200, "update_time_ms": 2.579}, "training_iteration": 711, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 46.120322704315186, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 3.2506917069680656, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 85200, "timesteps_total": 853200, "custom_metrics": {}, "iterations_since_restore": 71, "episodes_this_iter": 268, "episode_reward_min": -21.370431055449654, "date": "2025-09-05_00-13-48", "episode_reward_max": 8.000026311516713, "pid": 3651947, "timestamp": 1757024028, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 28403.704268217087, "episodes_total": 53696, "episode_len_mean": 4.4888059701492535}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3295.822465658188, "info": {"sample_time_ms": 46310.371, "num_steps_trained": 854400, "grad_time_ms": 380.46, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 9.886219024658203, "cur_kl_coeff": 2.5628905296325684, "policy_loss": -0.08912031352519989, "vf_explained_var": 0.4919545352458954, "entropy": 2.9815707206726074, "total_loss": 9.818304061889648, "kl": 0.008273966610431671}, "load_time_ms": 0.672, "num_steps_sampled": 854400, "update_time_ms": 2.573}, "training_iteration": 712, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 47.29643273353577, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 3.364667535127587, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 86400, "timesteps_total": 854400, "custom_metrics": {}, "iterations_since_restore": 72, "episodes_this_iter": 271, "episode_reward_min": -20.25757557351079, "date": "2025-09-05_00-14-36", "episode_reward_max": 8.000048798868667, "pid": 3651947, "timestamp": 1757024076, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 28451.000700950623, "episodes_total": 53967, "episode_len_mean": 4.424354243542435}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3342.28800201416, "info": {"sample_time_ms": 46272.646, "num_steps_trained": 855600, "grad_time_ms": 379.513, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 11.11208438873291, "cur_kl_coeff": 2.5628905296325684, "policy_loss": -0.09259523451328278, "vf_explained_var": 0.45920121669769287, "entropy": 3.3032469749450684, "total_loss": 11.049617767333984, "kl": 0.011755743995308876}, "load_time_ms": 0.664, "num_steps_sampled": 855600, "update_time_ms": 2.612}, "training_iteration": 713, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 46.46553635597229, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 3.0988931512054565, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 87600, "timesteps_total": 855600, "custom_metrics": {}, "iterations_since_restore": 73, "episodes_this_iter": 260, "episode_reward_min": -18.00896345769336, "date": "2025-09-05_00-15-22", "episode_reward_max": 8.000019869201463, "pid": 3651947, "timestamp": 1757024122, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 28497.466237306595, "episodes_total": 54227, "episode_len_mean": 4.588461538461538}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3389.0381722450256, "info": {"sample_time_ms": 46259.423, "num_steps_trained": 856800, "grad_time_ms": 382.153, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 15.24755859375, "cur_kl_coeff": 2.5628905296325684, "policy_loss": -0.08448615670204163, "vf_explained_var": 0.4383828938007355, "entropy": 3.083890199661255, "total_loss": 15.185324668884277, "kl": 0.008682480081915855}, "load_time_ms": 0.661, "num_steps_sampled": 856800, "update_time_ms": 2.62}, "training_iteration": 714, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 46.75017023086548, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 3.148076696258404, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 88800, "timesteps_total": 856800, "custom_metrics": {}, "iterations_since_restore": 74, "episodes_this_iter": 262, "episode_reward_min": -26.652847832941326, "date": "2025-09-05_00-16-09", "episode_reward_max": 8.000045001535248, "pid": 3651947, "timestamp": 1757024169, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 28544.21640753746, "episodes_total": 54489, "episode_len_mean": 4.561068702290076}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3436.1214196681976, "info": {"sample_time_ms": 46327.623, "num_steps_trained": 858000, "grad_time_ms": 380.765, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 8.626786231994629, "cur_kl_coeff": 2.5628905296325684, "policy_loss": -0.08935275673866272, "vf_explained_var": 0.4825197458267212, "entropy": 2.945988416671753, "total_loss": 8.564618110656738, "kl": 0.010607601143419743}, "load_time_ms": 0.648, "num_steps_sampled": 858000, "update_time_ms": 2.653}, "training_iteration": 715, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 47.083247423172, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 3.364069705333792, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 90000, "timesteps_total": 858000, "custom_metrics": {}, "iterations_since_restore": 75, "episodes_this_iter": 273, "episode_reward_min": -20.310087306013106, "date": "2025-09-05_00-16-56", "episode_reward_max": 8.000071305921006, "pid": 3651947, "timestamp": 1757024216, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 28591.299654960632, "episodes_total": 54762, "episode_len_mean": 4.428571428571429}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3482.877682209015, "info": {"sample_time_ms": 46367.026, "num_steps_trained": 859200, "grad_time_ms": 379.963, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 5.832857131958008, "cur_kl_coeff": 2.5628905296325684, "policy_loss": -0.08042430877685547, "vf_explained_var": 0.5615320205688477, "entropy": 3.0603370666503906, "total_loss": 5.779318809509277, "kl": 0.01049027033150196}, "load_time_ms": 0.661, "num_steps_sampled": 859200, "update_time_ms": 2.723}, "training_iteration": 716, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 46.75626254081726, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 3.3099764630801607, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 91200, "timesteps_total": 859200, "custom_metrics": {}, "iterations_since_restore": 76, "episodes_this_iter": 269, "episode_reward_min": -17.04546011809048, "date": "2025-09-05_00-17-43", "episode_reward_max": 8.000278447989203, "pid": 3651947, "timestamp": 1757024263, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 28638.05591750145, "episodes_total": 55031, "episode_len_mean": 4.4646840148698885}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3529.5195393562317, "info": {"sample_time_ms": 46310.512, "num_steps_trained": 860400, "grad_time_ms": 379.64, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 15.390300750732422, "cur_kl_coeff": 2.5628905296325684, "policy_loss": -0.09058582782745361, "vf_explained_var": 0.4222276210784912, "entropy": 3.284696340560913, "total_loss": 15.33092212677002, "kl": 0.012176419608294964}, "load_time_ms": 0.661, "num_steps_sampled": 860400, "update_time_ms": 2.732}, "training_iteration": 717, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 46.6418571472168, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 2.9447175589626724, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 92400, "timesteps_total": 860400, "custom_metrics": {}, "iterations_since_restore": 77, "episodes_this_iter": 256, "episode_reward_min": -29.825870573145558, "date": "2025-09-05_00-18-29", "episode_reward_max": 8.000019361627396, "pid": 3651947, "timestamp": 1757024309, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 28684.697774648666, "episodes_total": 55287, "episode_len_mean": 4.6796875}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3576.730393886566, "info": {"sample_time_ms": 46364.957, "num_steps_trained": 861600, "grad_time_ms": 380.013, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 11.509320259094238, "cur_kl_coeff": 2.5628905296325684, "policy_loss": -0.08916350454092026, "vf_explained_var": 0.4413018822669983, "entropy": 2.8452816009521484, "total_loss": 11.440098762512207, "kl": 0.007780800107866526}, "load_time_ms": 0.659, "num_steps_sampled": 861600, "update_time_ms": 2.79}, "training_iteration": 718, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 47.21085453033447, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 3.3670553265429093, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 93600, "timesteps_total": 861600, "custom_metrics": {}, "iterations_since_restore": 78, "episodes_this_iter": 272, "episode_reward_min": -35.58424454992572, "date": "2025-09-05_00-19-17", "episode_reward_max": 8.000145093826061, "pid": 3651947, "timestamp": 1757024357, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 28731.908629179, "episodes_total": 55559, "episode_len_mean": 4.415441176470588}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3623.8617174625397, "info": {"sample_time_ms": 46396.216, "num_steps_trained": 862800, "grad_time_ms": 380.105, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 10.809052467346191, "cur_kl_coeff": 2.5628905296325684, "policy_loss": -0.06924965977668762, "vf_explained_var": 0.4762766659259796, "entropy": 2.7126989364624023, "total_loss": 10.769659996032715, "kl": 0.011649557389318943}, "load_time_ms": 0.66, "num_steps_sampled": 862800, "update_time_ms": 2.76}, "training_iteration": 719, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 47.13132357597351, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 3.42979719643761, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 94800, "timesteps_total": 862800, "custom_metrics": {}, "iterations_since_restore": 79, "episodes_this_iter": 273, "episode_reward_min": -22.089529522759932, "date": "2025-09-05_00-20-04", "episode_reward_max": 8.000017898641568, "pid": 3651947, "timestamp": 1757024404, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 28779.039952754974, "episodes_total": 55832, "episode_len_mean": 4.373626373626373}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3671.192057609558, "info": {"sample_time_ms": 46488.954, "num_steps_trained": 864000, "grad_time_ms": 380.06, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 3.241161346435547, "cur_kl_coeff": 2.5628905296325684, "policy_loss": -0.0673958882689476, "vf_explained_var": 0.6360262036323547, "entropy": 2.518385887145996, "total_loss": 3.212399482727051, "kl": 0.015074353665113449}, "load_time_ms": 0.669, "num_steps_sampled": 864000, "update_time_ms": 2.791}, "training_iteration": 720, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 47.33034014701843, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 3.5300221895315302, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 96000, "timesteps_total": 864000, "custom_metrics": {}, "iterations_since_restore": 80, "episodes_this_iter": 278, "episode_reward_min": -15.266491252988406, "date": "2025-09-05_00-20-51", "episode_reward_max": 8.000536107095432, "pid": 3651947, "timestamp": 1757024451, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 28826.370292901993, "episodes_total": 56110, "episode_len_mean": 4.330935251798561}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3717.9396743774414, "info": {"sample_time_ms": 46551.81, "num_steps_trained": 865200, "grad_time_ms": 380.034, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 11.02731990814209, "cur_kl_coeff": 2.5628905296325684, "policy_loss": -0.07797694206237793, "vf_explained_var": 0.48665347695350647, "entropy": 2.7421581745147705, "total_loss": 10.972485542297363, "kl": 0.009030384942889214}, "load_time_ms": 0.67, "num_steps_sampled": 865200, "update_time_ms": 2.727}, "training_iteration": 721, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 46.7476167678833, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 3.47922257909384, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 97200, "timesteps_total": 865200, "custom_metrics": {}, "iterations_since_restore": 81, "episodes_this_iter": 277, "episode_reward_min": -33.26573092002807, "date": "2025-09-05_00-21-38", "episode_reward_max": 8.001062685075288, "pid": 3651947, "timestamp": 1757024498, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 28873.117909669876, "episodes_total": 56387, "episode_len_mean": 4.346570397111913}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3765.3334896564484, "info": {"sample_time_ms": 46562.748, "num_steps_trained": 866400, "grad_time_ms": 378.782, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 9.901885986328125, "cur_kl_coeff": 2.5628905296325684, "policy_loss": -0.08068516850471497, "vf_explained_var": 0.5179368853569031, "entropy": 2.73091983795166, "total_loss": 9.847756385803223, "kl": 0.01036145631223917}, "load_time_ms": 0.669, "num_steps_sampled": 866400, "update_time_ms": 2.696}, "training_iteration": 722, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 47.39381527900696, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 3.3268052655764717, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 98400, "timesteps_total": 866400, "custom_metrics": {}, "iterations_since_restore": 82, "episodes_this_iter": 270, "episode_reward_min": -19.923465788829557, "date": "2025-09-05_00-22-25", "episode_reward_max": 8.000151182972646, "pid": 3651947, "timestamp": 1757024545, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 28920.511724948883, "episodes_total": 56657, "episode_len_mean": 4.440740740740741}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3811.302745103836, "info": {"sample_time_ms": 46512.378, "num_steps_trained": 867600, "grad_time_ms": 379.476, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 20.326995849609375, "cur_kl_coeff": 2.5628905296325684, "policy_loss": -0.08308325707912445, "vf_explained_var": 0.348272442817688, "entropy": 3.1172304153442383, "total_loss": 20.29005241394043, "kl": 0.01800324209034443}, "load_time_ms": 0.67, "num_steps_sampled": 867600, "update_time_ms": 2.734}, "training_iteration": 723, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 45.969255447387695, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 2.943829164403142, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 99600, "timesteps_total": 867600, "custom_metrics": {}, "iterations_since_restore": 83, "episodes_this_iter": 256, "episode_reward_min": -27.409793084418126, "date": "2025-09-05_00-23-11", "episode_reward_max": 8.000034678409563, "pid": 3651947, "timestamp": 1757024591, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 28966.48098039627, "episodes_total": 56913, "episode_len_mean": 4.6796875}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3857.9213016033173, "info": {"sample_time_ms": 46498.858, "num_steps_trained": 868800, "grad_time_ms": 379.808, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 16.8582763671875, "cur_kl_coeff": 2.5628905296325684, "policy_loss": -0.06791261583566666, "vf_explained_var": 0.3720639944076538, "entropy": 2.4986538887023926, "total_loss": 16.815534591674805, "kl": 0.009820827282965183}, "load_time_ms": 0.694, "num_steps_sampled": 868800, "update_time_ms": 2.75}, "training_iteration": 724, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 46.6185564994812, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 3.321710883118062, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 100800, "timesteps_total": 868800, "custom_metrics": {}, "iterations_since_restore": 84, "episodes_this_iter": 271, "episode_reward_min": -29.84793747667375, "date": "2025-09-05_00-23-58", "episode_reward_max": 8.000172424884868, "pid": 3651947, "timestamp": 1757024638, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 29013.099536895752, "episodes_total": 57184, "episode_len_mean": 4.439114391143911}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3905.05015873909, "info": {"sample_time_ms": 46505.631, "num_steps_trained": 870000, "grad_time_ms": 377.685, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 11.090794563293457, "cur_kl_coeff": 2.5628905296325684, "policy_loss": -0.07219991087913513, "vf_explained_var": 0.5242128372192383, "entropy": 2.560317039489746, "total_loss": 11.037960052490234, "kl": 0.007556334137916565}, "load_time_ms": 0.691, "num_steps_sampled": 870000, "update_time_ms": 2.708}, "training_iteration": 725, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 47.128857135772705, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 3.624096387251869, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 102000, "timesteps_total": 870000, "custom_metrics": {}, "iterations_since_restore": 85, "episodes_this_iter": 281, "episode_reward_min": -36.24064463232036, "date": "2025-09-05_00-24-45", "episode_reward_max": 8.000035228203407, "pid": 3651947, "timestamp": 1757024685, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 29060.228394031525, "episodes_total": 57465, "episode_len_mean": 4.252669039145908}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3951.67906999588, "info": {"sample_time_ms": 46493.497, "num_steps_trained": 871200, "grad_time_ms": 377.16, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 18.921977996826172, "cur_kl_coeff": 2.5628905296325684, "policy_loss": -0.08155166357755661, "vf_explained_var": 0.40494421124458313, "entropy": 2.993685483932495, "total_loss": 18.866363525390625, "kl": 0.010120230726897717}, "load_time_ms": 0.687, "num_steps_sampled": 871200, "update_time_ms": 2.654}, "training_iteration": 726, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 46.62891125679016, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 3.026740964189752, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 103200, "timesteps_total": 871200, "custom_metrics": {}, "iterations_since_restore": 86, "episodes_this_iter": 260, "episode_reward_min": -30.3448061750018, "date": "2025-09-05_00-25-32", "episode_reward_max": 8.000038512943608, "pid": 3651947, "timestamp": 1757024732, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 29106.857305288315, "episodes_total": 57725, "episode_len_mean": 4.630769230769231}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3998.3986616134644, "info": {"sample_time_ms": 46501.811, "num_steps_trained": 872400, "grad_time_ms": 376.626, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 6.25697660446167, "cur_kl_coeff": 2.5628905296325684, "policy_loss": -0.092364102602005, "vf_explained_var": 0.5412502884864807, "entropy": 2.757176399230957, "total_loss": 6.1928324699401855, "kl": 0.011011307127773762}, "load_time_ms": 0.694, "num_steps_sampled": 872400, "update_time_ms": 2.614}, "training_iteration": 727, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 46.71959161758423, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 3.427162098359765, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 104400, "timesteps_total": 872400, "custom_metrics": {}, "iterations_since_restore": 87, "episodes_this_iter": 274, "episode_reward_min": -17.31742520543737, "date": "2025-09-05_00-26-19", "episode_reward_max": 8.000000506305511, "pid": 3651947, "timestamp": 1757024779, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 29153.5768969059, "episodes_total": 57999, "episode_len_mean": 4.37956204379562}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4045.3620221614838, "info": {"sample_time_ms": 46476.534, "num_steps_trained": 873600, "grad_time_ms": 377.121, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 7.723629474639893, "cur_kl_coeff": 2.5628905296325684, "policy_loss": -0.06784352660179138, "vf_explained_var": 0.6001351475715637, "entropy": 2.568483829498291, "total_loss": 7.674904823303223, "kl": 0.0074600898660719395}, "load_time_ms": 0.697, "num_steps_sampled": 873600, "update_time_ms": 2.617}, "training_iteration": 728, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 46.96336054801941, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 3.568644497477941, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 105600, "timesteps_total": 873600, "custom_metrics": {}, "iterations_since_restore": 88, "episodes_this_iter": 280, "episode_reward_min": -21.897753561519192, "date": "2025-09-05_00-27-06", "episode_reward_max": 8.000020597503449, "pid": 3651947, "timestamp": 1757024826, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 29200.54025745392, "episodes_total": 58279, "episode_len_mean": 4.2821428571428575}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4092.2305996418, "info": {"sample_time_ms": 46449.759, "num_steps_trained": 874800, "grad_time_ms": 377.658, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 5.032718658447266, "cur_kl_coeff": 2.5628905296325684, "policy_loss": -0.06987176835536957, "vf_explained_var": 0.6171102523803711, "entropy": 2.566596031188965, "total_loss": 4.980493545532227, "kl": 0.006885468494147062}, "load_time_ms": 0.691, "num_steps_sampled": 874800, "update_time_ms": 2.628}, "training_iteration": 729, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 46.86857748031616, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 3.686039953968932, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 106800, "timesteps_total": 874800, "custom_metrics": {}, "iterations_since_restore": 89, "episodes_this_iter": 283, "episode_reward_min": -17.62443240684487, "date": "2025-09-05_00-27-52", "episode_reward_max": 8.000031365785473, "pid": 3651947, "timestamp": 1757024872, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 29247.408834934235, "episodes_total": 58562, "episode_len_mean": 4.229681978798586}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4139.1349403858185, "info": {"sample_time_ms": 46406.891, "num_steps_trained": 876000, "grad_time_ms": 377.91, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 14.186030387878418, "cur_kl_coeff": 2.5628905296325684, "policy_loss": -0.07504018396139145, "vf_explained_var": 0.3799859285354614, "entropy": 2.8820865154266357, "total_loss": 14.131270408630371, "kl": 0.007913511246442795}, "load_time_ms": 0.684, "num_steps_sampled": 876000, "update_time_ms": 2.619}, "training_iteration": 730, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 46.904340744018555, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 3.320845003022244, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 108000, "timesteps_total": 876000, "custom_metrics": {}, "iterations_since_restore": 90, "episodes_this_iter": 271, "episode_reward_min": -34.642946426208134, "date": "2025-09-05_00-28-39", "episode_reward_max": 8.000049883580655, "pid": 3651947, "timestamp": 1757024919, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 29294.313175678253, "episodes_total": 58833, "episode_len_mean": 4.450184501845018}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4185.574823856354, "info": {"sample_time_ms": 46377.522, "num_steps_trained": 877200, "grad_time_ms": 376.417, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 6.646142959594727, "cur_kl_coeff": 2.5628905296325684, "policy_loss": -0.06841918081045151, "vf_explained_var": 0.5770161151885986, "entropy": 2.8252432346343994, "total_loss": 6.597856521606445, "kl": 0.007855374366044998}, "load_time_ms": 0.692, "num_steps_sampled": 877200, "update_time_ms": 2.727}, "training_iteration": 731, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 46.43988347053528, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 3.3184268441065745, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 109200, "timesteps_total": 877200, "custom_metrics": {}, "iterations_since_restore": 91, "episodes_this_iter": 269, "episode_reward_min": -15.727646521120409, "date": "2025-09-05_00-29-26", "episode_reward_max": 8.000000530303748, "pid": 3651947, "timestamp": 1757024966, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 29340.75305914879, "episodes_total": 59102, "episode_len_mean": 4.4572490706319705}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4232.155312299728, "info": {"sample_time_ms": 46295.642, "num_steps_trained": 878400, "grad_time_ms": 377.055, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 5.050663948059082, "cur_kl_coeff": 2.5628905296325684, "policy_loss": -0.07120595872402191, "vf_explained_var": 0.5886048078536987, "entropy": 2.470914125442505, "total_loss": 4.999657154083252, "kl": 0.007881563156843185}, "load_time_ms": 0.698, "num_steps_sampled": 878400, "update_time_ms": 2.739}, "training_iteration": 732, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 46.580488443374634, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 3.646886440726949, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 110400, "timesteps_total": 878400, "custom_metrics": {}, "iterations_since_restore": 92, "episodes_this_iter": 283, "episode_reward_min": -20.166795150347834, "date": "2025-09-05_00-30-12", "episode_reward_max": 8.000006800312939, "pid": 3651947, "timestamp": 1757025012, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 29387.333547592163, "episodes_total": 59385, "episode_len_mean": 4.243816254416961}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4279.249795198441, "info": {"sample_time_ms": 46408.886, "num_steps_trained": 879600, "grad_time_ms": 376.343, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 5.111292362213135, "cur_kl_coeff": 2.5628905296325684, "policy_loss": -0.06189640238881111, "vf_explained_var": 0.5947400331497192, "entropy": 2.4335429668426514, "total_loss": 5.073536396026611, "kl": 0.009418894536793232}, "load_time_ms": 0.703, "num_steps_sampled": 879600, "update_time_ms": 2.679}, "training_iteration": 733, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 47.09448289871216, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 3.707545304214019, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 111600, "timesteps_total": 879600, "custom_metrics": {}, "iterations_since_restore": 93, "episodes_this_iter": 285, "episode_reward_min": -19.670616629682968, "date": "2025-09-05_00-31-00", "episode_reward_max": 8.000100171132532, "pid": 3651947, "timestamp": 1757025060, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 29434.428030490875, "episodes_total": 59670, "episode_len_mean": 4.203508771929824}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4326.509482622147, "info": {"sample_time_ms": 46473.852, "num_steps_trained": 880800, "grad_time_ms": 375.486, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 6.908471584320068, "cur_kl_coeff": 2.5628905296325684, "policy_loss": -0.07086292654275894, "vf_explained_var": 0.5395858287811279, "entropy": 2.5147078037261963, "total_loss": 6.8816447257995605, "kl": 0.01718215085566044}, "load_time_ms": 0.693, "num_steps_sampled": 880800, "update_time_ms": 2.675}, "training_iteration": 734, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "vf_loss_coeff": 1.0, "monitor": false, "observation_filter": "MeanStdFilter", "env_config": {"generalize": false, "run_valid": false}, "custom_resources_per_worker": {}, "output_max_file_size": 67108864, "sample_async": false, "vf_clip_param": 10.0, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_sample_end": null, "on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_episode_start": null}, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "num_cpus_for_driver": 1, "output": null, "lr_schedule": null, "env": "Zhenxin_S_FC", "num_cpus_per_worker": 1, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "conv_filters": null, "lstm_cell_size": 256, "conv_activation": "relu", "max_seq_len": 20, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "train_batch_size": 1200, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0}, "time_this_iter_s": 47.259687423706055, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "episode_reward_mean": 3.5422173085621296, "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 112800, "timesteps_total": 880800, "custom_metrics": {}, "iterations_since_restore": 94, "episodes_this_iter": 278, "episode_reward_min": -21.357376095154702, "date": "2025-09-05_00-31-47", "episode_reward_max": 8.000043550016438, "pid": 3651947, "timestamp": 1757025107, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "time_total_s": 29481.68771791458, "episodes_total": 59948, "episode_len_mean": 4.302158273381295}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 51.37072706222534, "info": {"sample_time_ms": 50255.23, "num_steps_sampled": 877200, "grad_time_ms": 644.119, "load_time_ms": 30.837, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 2.757443904876709, "cur_kl_coeff": 2.5628905296325684, "policy_loss": -0.06545218080282211, "vf_explained_var": 0.7160266041755676, "entropy": 2.517226219177246, "total_loss": 2.709300994873047, "kl": 0.006753734778612852}, "num_steps_trained": 877200, "update_time_ms": 419.61}, "training_iteration": 731, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 51.37072706222534, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 1200, "timesteps_total": 877200, "custom_metrics": {}, "iterations_since_restore": 1, "episodes_this_iter": 286, "episode_reward_min": -15.63979681503266, "date": "2025-09-05_00-33-04", "episode_reward_max": 8.000428065231587, "pid": 3651946, "timestamp": 1757025184, "episode_reward_mean": 3.766429130103205, "time_total_s": 29345.68390274048, "episodes_total": 59119, "episode_len_mean": 4.174825174825175}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 98.52884483337402, "info": {"sample_time_ms": 48508.027, "num_steps_sampled": 878400, "grad_time_ms": 515.882, "load_time_ms": 15.738, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 2.82240891456604, "cur_kl_coeff": 0.20000000298023224, "policy_loss": -0.07866965234279633, "vf_explained_var": 0.704016923904419, "entropy": 2.650355339050293, "total_loss": 2.7508230209350586, "kl": 0.035418108105659485}, "num_steps_trained": 878400, "update_time_ms": 211.147}, "training_iteration": 732, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.15811777114868, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 2400, "timesteps_total": 878400, "custom_metrics": {}, "iterations_since_restore": 2, "episodes_this_iter": 281, "episode_reward_min": -10.21646425354498, "date": "2025-09-05_00-33-51", "episode_reward_max": 8.000007095791503, "pid": 3651946, "timestamp": 1757025231, "episode_reward_mean": 3.6234410643776283, "time_total_s": 29392.842020511627, "episodes_total": 59400, "episode_len_mean": 4.263345195729538}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 145.44398641586304, "info": {"sample_time_ms": 47850.038, "num_steps_sampled": 879600, "grad_time_ms": 467.731, "load_time_ms": 10.748, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 5.903356075286865, "cur_kl_coeff": 0.30000001192092896, "policy_loss": -0.08864539116621017, "vf_explained_var": 0.5746915340423584, "entropy": 2.428527355194092, "total_loss": 5.824267864227295, "kl": 0.03185740113258362}, "num_steps_trained": 879600, "update_time_ms": 141.694}, "training_iteration": 733, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.915141582489014, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 3600, "timesteps_total": 879600, "custom_metrics": {}, "iterations_since_restore": 3, "episodes_this_iter": 277, "episode_reward_min": -13.90984164579, "date": "2025-09-05_00-34-38", "episode_reward_max": 8.00001979376061, "pid": 3651946, "timestamp": 1757025278, "episode_reward_mean": 3.4883242262017045, "time_total_s": 29439.757162094116, "episodes_total": 59677, "episode_len_mean": 4.324909747292419}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 192.16951775550842, "info": {"sample_time_ms": 47472.781, "num_steps_sampled": 880800, "grad_time_ms": 444.559, "load_time_ms": 8.221, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 5.837953090667725, "cur_kl_coeff": 0.44999995827674866, "policy_loss": -0.08470302820205688, "vf_explained_var": 0.604572057723999, "entropy": 2.6007485389709473, "total_loss": 5.766128063201904, "kl": 0.028617437928915024}, "num_steps_trained": 880800, "update_time_ms": 106.839}, "training_iteration": 734, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.725531339645386, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 4800, "timesteps_total": 880800, "custom_metrics": {}, "iterations_since_restore": 4, "episodes_this_iter": 276, "episode_reward_min": -19.68662802056178, "date": "2025-09-05_00-35-25", "episode_reward_max": 4.151264166506329, "pid": 3651946, "timestamp": 1757025325, "episode_reward_mean": 3.425130972179667, "time_total_s": 29486.48269343376, "episodes_total": 59953, "episode_len_mean": 4.3731884057971016}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 239.78782200813293, "info": {"sample_time_ms": 47424.901, "num_steps_sampled": 882000, "grad_time_ms": 430.681, "load_time_ms": 6.733, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 1.7892976999282837, "cur_kl_coeff": 0.675000011920929, "policy_loss": -0.07782699167728424, "vf_explained_var": 0.7722499370574951, "entropy": 2.1428143978118896, "total_loss": 1.7271603345870972, "kl": 0.02324373461306095}, "num_steps_trained": 882000, "update_time_ms": 86.049}, "training_iteration": 735, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.61830425262451, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 6000, "timesteps_total": 882000, "custom_metrics": {}, "iterations_since_restore": 5, "episodes_this_iter": 291, "episode_reward_min": -8.219440340264054, "date": "2025-09-05_00-36-12", "episode_reward_max": 8.000131683144222, "pid": 3651946, "timestamp": 1757025372, "episode_reward_mean": 3.8288531592261497, "time_total_s": 29534.100997686386, "episodes_total": 60244, "episode_len_mean": 4.120274914089347}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 287.04843401908875, "info": {"sample_time_ms": 47335.482, "num_steps_sampled": 883200, "grad_time_ms": 419.475, "load_time_ms": 5.72, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 1.7316595315933228, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.06017966568470001, "vf_explained_var": 0.7954539060592651, "entropy": 2.148533821105957, "total_loss": 1.6863609552383423, "kl": 0.014697511680424213}, "num_steps_trained": 883200, "update_time_ms": 72.121}, "training_iteration": 736, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.26061201095581, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 7200, "timesteps_total": 883200, "custom_metrics": {}, "iterations_since_restore": 6, "episodes_this_iter": 291, "episode_reward_min": -10.483582385177808, "date": "2025-09-05_00-37-00", "episode_reward_max": 8.000025212410838, "pid": 3651946, "timestamp": 1757025420, "episode_reward_mean": 3.8384142471468294, "time_total_s": 29581.361609697342, "episodes_total": 60535, "episode_len_mean": 4.11340206185567}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 334.61439299583435, "info": {"sample_time_ms": 47314.895, "num_steps_sampled": 884400, "grad_time_ms": 411.76, "load_time_ms": 5.004, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 1.9764469861984253, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.06290214508771896, "vf_explained_var": 0.7574695944786072, "entropy": 2.184715509414673, "total_loss": 1.9268689155578613, "kl": 0.013159679248929024}, "num_steps_trained": 884400, "update_time_ms": 62.175}, "training_iteration": 737, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.565958976745605, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 8400, "timesteps_total": 884400, "custom_metrics": {}, "iterations_since_restore": 7, "episodes_this_iter": 291, "episode_reward_min": -8.023271051496412, "date": "2025-09-05_00-37-47", "episode_reward_max": 7.023995085919162, "pid": 3651946, "timestamp": 1757025467, "episode_reward_mean": 3.8347218686210556, "time_total_s": 29628.927568674088, "episodes_total": 60826, "episode_len_mean": 4.120274914089347}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 381.60341811180115, "info": {"sample_time_ms": 47227.894, "num_steps_sampled": 885600, "grad_time_ms": 405.384, "load_time_ms": 4.455, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 2.834179162979126, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.06365206092596054, "vf_explained_var": 0.7102543711662292, "entropy": 2.224116802215576, "total_loss": 2.7815675735473633, "kl": 0.010904477909207344}, "num_steps_trained": 885600, "update_time_ms": 54.712}, "training_iteration": 738, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.9890251159668, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 9600, "timesteps_total": 885600, "custom_metrics": {}, "iterations_since_restore": 8, "episodes_this_iter": 285, "episode_reward_min": -15.972884287985934, "date": "2025-09-05_00-38-34", "episode_reward_max": 8.0000295037339, "pid": 3651946, "timestamp": 1757025514, "episode_reward_mean": 3.6705258690296185, "time_total_s": 29675.916593790054, "episodes_total": 61111, "episode_len_mean": 4.224561403508772}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 428.8181712627411, "info": {"sample_time_ms": 47182.026, "num_steps_sampled": 886800, "grad_time_ms": 403.739, "load_time_ms": 4.045, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 6.863865852355957, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.072520412504673, "vf_explained_var": 0.5383694171905518, "entropy": 2.2339959144592285, "total_loss": 6.808557033538818, "kl": 0.016999250277876854}, "num_steps_trained": 886800, "update_time_ms": 48.891}, "training_iteration": 739, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.21475315093994, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 10800, "timesteps_total": 886800, "custom_metrics": {}, "iterations_since_restore": 9, "episodes_this_iter": 281, "episode_reward_min": -26.667691536904634, "date": "2025-09-05_00-39-21", "episode_reward_max": 8.000028136390261, "pid": 3651946, "timestamp": 1757025561, "episode_reward_mean": 3.6138708879956787, "time_total_s": 29723.131346940994, "episodes_total": 61392, "episode_len_mean": 4.259786476868327}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 476.0368766784668, "info": {"sample_time_ms": 47145.202, "num_steps_sampled": 888000, "grad_time_ms": 402.95, "load_time_ms": 3.715, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 30.431575775146484, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.07045107334852219, "vf_explained_var": 0.41874897480010986, "entropy": 2.376946449279785, "total_loss": 30.371877670288086, "kl": 0.01061793603003025}, "num_steps_trained": 888000, "update_time_ms": 44.245}, "training_iteration": 740, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.21870541572571, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 12000, "timesteps_total": 888000, "custom_metrics": {}, "iterations_since_restore": 10, "episodes_this_iter": 279, "episode_reward_min": -59.05907563110662, "date": "2025-09-05_00-40-09", "episode_reward_max": 8.000030418811848, "pid": 3651946, "timestamp": 1757025609, "episode_reward_mean": 3.5417181212822686, "time_total_s": 29770.35005235672, "episodes_total": 61671, "episode_len_mean": 4.304659498207886}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 523.2426319122314, "info": {"sample_time_ms": 46801.328, "num_steps_sampled": 889200, "grad_time_ms": 376.549, "load_time_ms": 0.699, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 5.343428134918213, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.07987173646688461, "vf_explained_var": 0.5977872014045715, "entropy": 2.2722535133361816, "total_loss": 5.2818779945373535, "kl": 0.018095334991812706}, "num_steps_trained": 889200, "update_time_ms": 2.553}, "training_iteration": 741, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.20575523376465, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 13200, "timesteps_total": 889200, "custom_metrics": {}, "iterations_since_restore": 11, "episodes_this_iter": 284, "episode_reward_min": -18.097665306019596, "date": "2025-09-05_00-40-56", "episode_reward_max": 8.000023350018065, "pid": 3651946, "timestamp": 1757025656, "episode_reward_mean": 3.6538322136585846, "time_total_s": 29817.555807590485, "episodes_total": 61955, "episode_len_mean": 4.22887323943662}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 570.2855298519135, "info": {"sample_time_ms": 46791.193, "num_steps_sampled": 890400, "grad_time_ms": 375.237, "load_time_ms": 0.703, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 4.663482666015625, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.0864449143409729, "vf_explained_var": 0.6121327877044678, "entropy": 2.26259708404541, "total_loss": 4.596853256225586, "kl": 0.01957099884748459}, "num_steps_trained": 890400, "update_time_ms": 2.537}, "training_iteration": 742, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.04289793968201, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 14400, "timesteps_total": 890400, "custom_metrics": {}, "iterations_since_restore": 12, "episodes_this_iter": 284, "episode_reward_min": -14.581270665352228, "date": "2025-09-05_00-41-43", "episode_reward_max": 8.000023922826255, "pid": 3651946, "timestamp": 1757025703, "episode_reward_mean": 3.63538998271352, "time_total_s": 29864.598705530167, "episodes_total": 62239, "episode_len_mean": 4.235915492957746}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 616.8720459938049, "info": {"sample_time_ms": 46758.824, "num_steps_sampled": 891600, "grad_time_ms": 374.797, "load_time_ms": 0.693, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 3.075674057006836, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.07681259512901306, "vf_explained_var": 0.6700502038002014, "entropy": 2.2327585220336914, "total_loss": 3.0228796005249023, "kl": 0.023721568286418915}, "num_steps_trained": 891600, "update_time_ms": 2.507}, "training_iteration": 743, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.58651614189148, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 15600, "timesteps_total": 891600, "custom_metrics": {}, "iterations_since_restore": 13, "episodes_this_iter": 288, "episode_reward_min": -11.860608985074286, "date": "2025-09-05_00-42-30", "episode_reward_max": 8.000049286677438, "pid": 3651946, "timestamp": 1757025750, "episode_reward_mean": 3.7590176523967744, "time_total_s": 29911.185221672058, "episodes_total": 62527, "episode_len_mean": 4.15625}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 663.5976617336273, "info": {"sample_time_ms": 46757.835, "num_steps_sampled": 892800, "grad_time_ms": 375.773, "load_time_ms": 0.7, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 3.446500062942505, "cur_kl_coeff": 1.5187499523162842, "policy_loss": -0.065461665391922, "vf_explained_var": 0.6744142174720764, "entropy": 2.196315288543701, "total_loss": 3.398273229598999, "kl": 0.011347964406013489}, "num_steps_trained": 892800, "update_time_ms": 2.508}, "training_iteration": 744, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.72561573982239, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 16800, "timesteps_total": 892800, "custom_metrics": {}, "iterations_since_restore": 14, "episodes_this_iter": 285, "episode_reward_min": -14.499308406275883, "date": "2025-09-05_00-43-16", "episode_reward_max": 8.000000550827266, "pid": 3651946, "timestamp": 1757025796, "episode_reward_mean": 3.6625870164337764, "time_total_s": 29957.91083741188, "episodes_total": 62812, "episode_len_mean": 4.217543859649123}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 710.6882572174072, "info": {"sample_time_ms": 46706.204, "num_steps_sampled": 894000, "grad_time_ms": 374.632, "load_time_ms": 0.692, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 2.7077999114990234, "cur_kl_coeff": 1.5187499523162842, "policy_loss": -0.06709850579500198, "vf_explained_var": 0.7486275434494019, "entropy": 2.110781669616699, "total_loss": 2.655268669128418, "kl": 0.009591775946319103}, "num_steps_trained": 894000, "update_time_ms": 2.506}, "training_iteration": 745, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.09059548377991, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 18000, "timesteps_total": 894000, "custom_metrics": {}, "iterations_since_restore": 15, "episodes_this_iter": 290, "episode_reward_min": -17.46548281771164, "date": "2025-09-05_00-44-03", "episode_reward_max": 8.000287384166736, "pid": 3651946, "timestamp": 1757025843, "episode_reward_mean": 3.8059023495548634, "time_total_s": 30005.00143289566, "episodes_total": 63102, "episode_len_mean": 4.13448275862069}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 757.5581822395325, "info": {"sample_time_ms": 46666.184, "num_steps_sampled": 895200, "grad_time_ms": 375.562, "load_time_ms": 0.696, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 1.3441556692123413, "cur_kl_coeff": 1.5187499523162842, "policy_loss": -0.07237453758716583, "vf_explained_var": 0.8276771903038025, "entropy": 2.147783041000366, "total_loss": 1.2861649990081787, "kl": 0.009470919147133827}, "num_steps_trained": 895200, "update_time_ms": 2.505}, "training_iteration": 746, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.869925022125244, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 19200, "timesteps_total": 895200, "custom_metrics": {}, "iterations_since_restore": 16, "episodes_this_iter": 293, "episode_reward_min": -10.233729541154727, "date": "2025-09-05_00-44-50", "episode_reward_max": 8.000077229562166, "pid": 3651946, "timestamp": 1757025890, "episode_reward_mean": 3.8663022002656935, "time_total_s": 30051.871357917786, "episodes_total": 63395, "episode_len_mean": 4.092150170648464}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 805.0831966400146, "info": {"sample_time_ms": 46662.676, "num_steps_sampled": 896400, "grad_time_ms": 374.992, "load_time_ms": 0.685, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 3.182039976119995, "cur_kl_coeff": 1.5187499523162842, "policy_loss": -0.0653173103928566, "vf_explained_var": 0.7064453363418579, "entropy": 2.1646270751953125, "total_loss": 3.1286532878875732, "kl": 0.007855619303882122}, "num_steps_trained": 896400, "update_time_ms": 2.484}, "training_iteration": 747, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.52501440048218, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 20400, "timesteps_total": 896400, "custom_metrics": {}, "iterations_since_restore": 17, "episodes_this_iter": 286, "episode_reward_min": -10.768000822716967, "date": "2025-09-05_00-45-38", "episode_reward_max": 8.00002646899012, "pid": 3651946, "timestamp": 1757025938, "episode_reward_mean": 3.7181498219123434, "time_total_s": 30099.396372318268, "episodes_total": 63681, "episode_len_mean": 4.188811188811189}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 851.8751463890076, "info": {"sample_time_ms": 46642.685, "num_steps_sampled": 897600, "grad_time_ms": 375.297, "load_time_ms": 0.695, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 5.418216705322266, "cur_kl_coeff": 1.5187499523162842, "policy_loss": -0.06901151686906815, "vf_explained_var": 0.6305850148200989, "entropy": 2.42480731010437, "total_loss": 5.365065574645996, "kl": 0.010443081147968769}, "num_steps_trained": 897600, "update_time_ms": 2.498}, "training_iteration": 748, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.79194974899292, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 21600, "timesteps_total": 897600, "custom_metrics": {}, "iterations_since_restore": 18, "episodes_this_iter": 280, "episode_reward_min": -21.04422672642532, "date": "2025-09-05_00-46-25", "episode_reward_max": 8.0000012869185, "pid": 3651946, "timestamp": 1757025985, "episode_reward_mean": 3.5812138922683285, "time_total_s": 30146.18832206726, "episodes_total": 63961, "episode_len_mean": 4.292857142857143}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 899.5503449440002, "info": {"sample_time_ms": 46689.241, "num_steps_sampled": 898800, "grad_time_ms": 374.778, "load_time_ms": 0.691, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.966882586479187, "cur_kl_coeff": 1.5187499523162842, "policy_loss": -0.06444099545478821, "vf_explained_var": 0.8585163950920105, "entropy": 1.9598612785339355, "total_loss": 0.9176361560821533, "kl": 0.010004710406064987}, "num_steps_trained": 898800, "update_time_ms": 2.503}, "training_iteration": 749, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.675198554992676, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 22800, "timesteps_total": 898800, "custom_metrics": {}, "iterations_since_restore": 19, "episodes_this_iter": 294, "episode_reward_min": -7.156435126544029, "date": "2025-09-05_00-47-12", "episode_reward_max": 5.006220064224614, "pid": 3651946, "timestamp": 1757026032, "episode_reward_mean": 3.8742650526256477, "time_total_s": 30193.863520622253, "episodes_total": 64255, "episode_len_mean": 4.085034013605442}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 946.906375169754, "info": {"sample_time_ms": 46703.824, "num_steps_sampled": 900000, "grad_time_ms": 373.825, "load_time_ms": 0.694, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 1.9599549770355225, "cur_kl_coeff": 1.5187499523162842, "policy_loss": -0.05036471039056778, "vf_explained_var": 0.769665002822876, "entropy": 1.9341177940368652, "total_loss": 1.9194469451904297, "kl": 0.006490045692771673}, "num_steps_trained": 900000, "update_time_ms": 2.528}, "training_iteration": 750, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.356030225753784, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 24000, "timesteps_total": 900000, "custom_metrics": {}, "iterations_since_restore": 20, "episodes_this_iter": 291, "episode_reward_min": -12.417183202285436, "date": "2025-09-05_00-48-00", "episode_reward_max": 8.000020497310967, "pid": 3651946, "timestamp": 1757026080, "episode_reward_mean": 3.827909401140039, "time_total_s": 30241.219550848007, "episodes_total": 64546, "episode_len_mean": 4.109965635738831}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 993.5681178569794, "info": {"sample_time_ms": 46649.872, "num_steps_sampled": 901200, "grad_time_ms": 373.321, "load_time_ms": 0.689, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 1.1924660205841064, "cur_kl_coeff": 1.5187499523162842, "policy_loss": -0.055155880749225616, "vf_explained_var": 0.8331034183502197, "entropy": 1.963564157485962, "total_loss": 1.1522517204284668, "kl": 0.009838176891207695}, "num_steps_trained": 901200, "update_time_ms": 2.526}, "training_iteration": 751, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.66174268722534, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 25200, "timesteps_total": 901200, "custom_metrics": {}, "iterations_since_restore": 21, "episodes_this_iter": 294, "episode_reward_min": -8.014700964460296, "date": "2025-09-05_00-48-46", "episode_reward_max": 8.000081302487182, "pid": 3651946, "timestamp": 1757026126, "episode_reward_mean": 3.856448872159633, "time_total_s": 30287.881293535233, "episodes_total": 64840, "episode_len_mean": 4.091836734693878}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1040.7652094364166, "info": {"sample_time_ms": 46663.7, "num_steps_sampled": 902400, "grad_time_ms": 374.839, "load_time_ms": 0.682, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 3.3636016845703125, "cur_kl_coeff": 1.5187499523162842, "policy_loss": -0.058115165680646896, "vf_explained_var": 0.6844215989112854, "entropy": 2.001267194747925, "total_loss": 3.319319486618042, "kl": 0.009108071215450764}, "num_steps_trained": 902400, "update_time_ms": 2.526}, "training_iteration": 752, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.197091579437256, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 26400, "timesteps_total": 902400, "custom_metrics": {}, "iterations_since_restore": 22, "episodes_this_iter": 288, "episode_reward_min": -16.769227463652225, "date": "2025-09-05_00-49-34", "episode_reward_max": 8.000003331035625, "pid": 3651946, "timestamp": 1757026174, "episode_reward_mean": 3.745986875609415, "time_total_s": 30335.07838511467, "episodes_total": 65128, "episode_len_mean": 4.166666666666667}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1087.9503815174103, "info": {"sample_time_ms": 46723.952, "num_steps_sampled": 903600, "grad_time_ms": 374.386, "load_time_ms": 0.689, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.5753068327903748, "cur_kl_coeff": 1.5187499523162842, "policy_loss": -0.0639975443482399, "vf_explained_var": 0.9057748317718506, "entropy": 1.8623218536376953, "total_loss": 0.5323663949966431, "kl": 0.013864720240235329}, "num_steps_trained": 903600, "update_time_ms": 2.568}, "training_iteration": 753, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.18517208099365, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 27600, "timesteps_total": 903600, "custom_metrics": {}, "iterations_since_restore": 23, "episodes_this_iter": 295, "episode_reward_min": -6.585781991973349, "date": "2025-09-05_00-50-21", "episode_reward_max": 4.142384938761737, "pid": 3651946, "timestamp": 1757026221, "episode_reward_mean": 3.8931401774311887, "time_total_s": 30382.263557195663, "episodes_total": 65423, "episode_len_mean": 4.071186440677966}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1136.2893908023834, "info": {"sample_time_ms": 46885.196, "num_steps_sampled": 904800, "grad_time_ms": 374.532, "load_time_ms": 0.686, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 1.7282322645187378, "cur_kl_coeff": 1.5187499523162842, "policy_loss": -0.04838193207979202, "vf_explained_var": 0.7900778651237488, "entropy": 2.0110979080200195, "total_loss": 1.6923675537109375, "kl": 0.008241821080446243}, "num_steps_trained": 904800, "update_time_ms": 2.564}, "training_iteration": 754, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 48.339009284973145, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 28800, "timesteps_total": 904800, "custom_metrics": {}, "iterations_since_restore": 24, "episodes_this_iter": 292, "episode_reward_min": -11.56023833904667, "date": "2025-09-05_00-51-09", "episode_reward_max": 4.983661140020629, "pid": 3651946, "timestamp": 1757026269, "episode_reward_mean": 3.83356178138226, "time_total_s": 30430.602566480637, "episodes_total": 65715, "episode_len_mean": 4.109589041095891}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1183.1218509674072, "info": {"sample_time_ms": 46859.446, "num_steps_sampled": 906000, "grad_time_ms": 374.529, "load_time_ms": 0.684, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 1.5535991191864014, "cur_kl_coeff": 1.5187499523162842, "policy_loss": -0.04831709340214729, "vf_explained_var": 0.8219261765480042, "entropy": 1.9546822309494019, "total_loss": 1.51687753200531, "kl": 0.0076349047012627125}, "num_steps_trained": 906000, "update_time_ms": 2.543}, "training_iteration": 755, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.832460165023804, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 30000, "timesteps_total": 906000, "custom_metrics": {}, "iterations_since_restore": 25, "episodes_this_iter": 294, "episode_reward_min": -9.86583055741805, "date": "2025-09-05_00-51-56", "episode_reward_max": 4.106511992796452, "pid": 3651946, "timestamp": 1757026316, "episode_reward_mean": 3.849252125650591, "time_total_s": 30477.43502664566, "episodes_total": 66009, "episode_len_mean": 4.095238095238095}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1229.7373206615448, "info": {"sample_time_ms": 46835.34, "num_steps_sampled": 907200, "grad_time_ms": 373.125, "load_time_ms": 0.684, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 5.297676086425781, "cur_kl_coeff": 1.5187499523162842, "policy_loss": -0.05537404119968414, "vf_explained_var": 0.6569035053253174, "entropy": 2.070859670639038, "total_loss": 5.249495506286621, "kl": 0.004736693575978279}, "num_steps_trained": 907200, "update_time_ms": 2.552}, "training_iteration": 756, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.61546969413757, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 31200, "timesteps_total": 907200, "custom_metrics": {}, "iterations_since_restore": 26, "episodes_this_iter": 289, "episode_reward_min": -29.28841041210508, "date": "2025-09-05_00-52-43", "episode_reward_max": 4.002615996342401, "pid": 3651946, "timestamp": 1757026363, "episode_reward_mean": 3.767955028791489, "time_total_s": 30524.050496339798, "episodes_total": 66298, "episode_len_mean": 4.145328719723183}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1276.9345707893372, "info": {"sample_time_ms": 46799.988, "num_steps_sampled": 908400, "grad_time_ms": 375.649, "load_time_ms": 0.699, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 3.9263293743133545, "cur_kl_coeff": 0.7593749761581421, "policy_loss": -0.058822259306907654, "vf_explained_var": 0.6741502285003662, "entropy": 2.136699914932251, "total_loss": 3.889329195022583, "kl": 0.028736749663949013}, "num_steps_trained": 908400, "update_time_ms": 2.553}, "training_iteration": 757, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.19725012779236, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 32400, "timesteps_total": 908400, "custom_metrics": {}, "iterations_since_restore": 27, "episodes_this_iter": 287, "episode_reward_min": -20.18232179504566, "date": "2025-09-05_00-53-30", "episode_reward_max": 8.000017481990522, "pid": 3651946, "timestamp": 1757026410, "episode_reward_mean": 3.736034700889114, "time_total_s": 30571.24774646759, "episodes_total": 66585, "episode_len_mean": 4.174216027874564}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1323.8899717330933, "info": {"sample_time_ms": 46816.893, "num_steps_sampled": 909600, "grad_time_ms": 375.066, "load_time_ms": 0.697, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 5.565729141235352, "cur_kl_coeff": 1.139062523841858, "policy_loss": -0.0506330206990242, "vf_explained_var": 0.6052297353744507, "entropy": 1.989142894744873, "total_loss": 5.527322292327881, "kl": 0.010733265429735184}, "num_steps_trained": 909600, "update_time_ms": 2.574}, "training_iteration": 758, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.9554009437561, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 33600, "timesteps_total": 909600, "custom_metrics": {}, "iterations_since_restore": 28, "episodes_this_iter": 290, "episode_reward_min": -24.829486851198794, "date": "2025-09-05_00-54-17", "episode_reward_max": 8.000060744316851, "pid": 3651946, "timestamp": 1757026457, "episode_reward_mean": 3.777224669021877, "time_total_s": 30618.203147411346, "episodes_total": 66875, "episode_len_mean": 4.144827586206897}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1371.0296182632446, "info": {"sample_time_ms": 46763.367, "num_steps_sampled": 910800, "grad_time_ms": 374.995, "load_time_ms": 0.696, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 2.501784563064575, "cur_kl_coeff": 1.139062523841858, "policy_loss": -0.059095755219459534, "vf_explained_var": 0.7160967588424683, "entropy": 1.9628499746322632, "total_loss": 2.4916887283325195, "kl": 0.04301762580871582}, "num_steps_trained": 910800, "update_time_ms": 2.607}, "training_iteration": 759, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.13964653015137, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 34800, "timesteps_total": 910800, "custom_metrics": {}, "iterations_since_restore": 29, "episodes_this_iter": 288, "episode_reward_min": -11.780509092009758, "date": "2025-09-05_00-55-04", "episode_reward_max": 4.000989966947292, "pid": 3651946, "timestamp": 1757026504, "episode_reward_mean": 3.755538409299826, "time_total_s": 30665.342793941498, "episodes_total": 67163, "episode_len_mean": 4.15625}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1418.2535438537598, "info": {"sample_time_ms": 46752.966, "num_steps_sampled": 912000, "grad_time_ms": 372.306, "load_time_ms": 0.684, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 2.2747597694396973, "cur_kl_coeff": 1.708593726158142, "policy_loss": -0.05887572094798088, "vf_explained_var": 0.7684090733528137, "entropy": 1.9990357160568237, "total_loss": 2.2269842624664307, "kl": 0.00649667764082551}, "num_steps_trained": 912000, "update_time_ms": 2.598}, "training_iteration": 760, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.22392559051514, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 36000, "timesteps_total": 912000, "custom_metrics": {}, "iterations_since_restore": 30, "episodes_this_iter": 291, "episode_reward_min": -19.74093652901318, "date": "2025-09-05_00-55-51", "episode_reward_max": 5.502330570062896, "pid": 3651946, "timestamp": 1757026551, "episode_reward_mean": 3.796380304913446, "time_total_s": 30712.566719532013, "episodes_total": 67454, "episode_len_mean": 4.1271477663230245}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1465.2916657924652, "info": {"sample_time_ms": 46790.791, "num_steps_sampled": 913200, "grad_time_ms": 372.05, "load_time_ms": 0.687, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 3.733677387237549, "cur_kl_coeff": 1.708593726158142, "policy_loss": -0.06684742867946625, "vf_explained_var": 0.6711017489433289, "entropy": 2.162313461303711, "total_loss": 3.6854870319366455, "kl": 0.010919542983174324}, "num_steps_trained": 913200, "update_time_ms": 2.634}, "training_iteration": 761, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.038121938705444, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 37200, "timesteps_total": 913200, "custom_metrics": {}, "iterations_since_restore": 31, "episodes_this_iter": 284, "episode_reward_min": -18.80590203704147, "date": "2025-09-05_00-56-38", "episode_reward_max": 4.100088669613918, "pid": 3651946, "timestamp": 1757026598, "episode_reward_mean": 3.666076323286445, "time_total_s": 30759.60484147072, "episodes_total": 67738, "episode_len_mean": 4.221830985915493}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1513.3106949329376, "info": {"sample_time_ms": 46875.575, "num_steps_sampled": 914400, "grad_time_ms": 369.424, "load_time_ms": 0.691, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 3.3427648544311523, "cur_kl_coeff": 1.708593726158142, "policy_loss": -0.05309293791651726, "vf_explained_var": 0.7214845418930054, "entropy": 1.996940016746521, "total_loss": 3.305532693862915, "kl": 0.009283188730478287}, "num_steps_trained": 914400, "update_time_ms": 2.665}, "training_iteration": 762, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 48.01902914047241, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 38400, "timesteps_total": 914400, "custom_metrics": {}, "iterations_since_restore": 32, "episodes_this_iter": 289, "episode_reward_min": -19.02872107031565, "date": "2025-09-05_00-57-26", "episode_reward_max": 8.000000521115968, "pid": 3651946, "timestamp": 1757026646, "episode_reward_mean": 3.7687700117198597, "time_total_s": 30807.62387061119, "episodes_total": 68027, "episode_len_mean": 4.14878892733564}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1560.8343374729156, "info": {"sample_time_ms": 46907.807, "num_steps_sampled": 915600, "grad_time_ms": 371.119, "load_time_ms": 0.679, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 2.529505729675293, "cur_kl_coeff": 1.708593726158142, "policy_loss": -0.06161157786846161, "vf_explained_var": 0.7259671092033386, "entropy": 2.2362306118011475, "total_loss": 2.4820244312286377, "kl": 0.008270077407360077}, "num_steps_trained": 915600, "update_time_ms": 2.627}, "training_iteration": 763, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.52364253997803, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 39600, "timesteps_total": 915600, "custom_metrics": {}, "iterations_since_restore": 33, "episodes_this_iter": 287, "episode_reward_min": -13.032147027614243, "date": "2025-09-05_00-58-14", "episode_reward_max": 5.0118155810203895, "pid": 3651946, "timestamp": 1757026694, "episode_reward_mean": 3.7187382927629975, "time_total_s": 30855.14751315117, "episodes_total": 68314, "episode_len_mean": 4.191637630662021}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1607.6388757228851, "info": {"sample_time_ms": 46754.006, "num_steps_sampled": 916800, "grad_time_ms": 371.454, "load_time_ms": 0.68, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 3.095893383026123, "cur_kl_coeff": 1.708593726158142, "policy_loss": -0.05758281424641609, "vf_explained_var": 0.7039374709129333, "entropy": 1.8250925540924072, "total_loss": 3.058149814605713, "kl": 0.011611266992986202}, "num_steps_trained": 916800, "update_time_ms": 2.668}, "training_iteration": 764, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.80453824996948, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 40800, "timesteps_total": 916800, "custom_metrics": {}, "iterations_since_restore": 34, "episodes_this_iter": 290, "episode_reward_min": -15.405464045090536, "date": "2025-09-05_00-59-01", "episode_reward_max": 4.101943775072241, "pid": 3651946, "timestamp": 1757026741, "episode_reward_mean": 3.760532188373482, "time_total_s": 30901.95205140114, "episodes_total": 68604, "episode_len_mean": 4.1482758620689655}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1654.4262464046478, "info": {"sample_time_ms": 46749.439, "num_steps_sampled": 918000, "grad_time_ms": 371.511, "load_time_ms": 0.681, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 5.60544490814209, "cur_kl_coeff": 1.708593726158142, "policy_loss": -0.045216772705316544, "vf_explained_var": 0.6065601706504822, "entropy": 2.1049537658691406, "total_loss": 5.587712287902832, "kl": 0.016085775569081306}, "num_steps_trained": 918000, "update_time_ms": 2.657}, "training_iteration": 765, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.787370681762695, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 42000, "timesteps_total": 918000, "custom_metrics": {}, "iterations_since_restore": 35, "episodes_this_iter": 284, "episode_reward_min": -23.6895425258586, "date": "2025-09-05_00-59-48", "episode_reward_max": 4.001086082575656, "pid": 3651946, "timestamp": 1757026788, "episode_reward_mean": 3.669152911224492, "time_total_s": 30948.7394220829, "episodes_total": 68888, "episode_len_mean": 4.207746478873239}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1701.4659514427185, "info": {"sample_time_ms": 46791.69, "num_steps_sampled": 919200, "grad_time_ms": 371.68, "load_time_ms": 0.676, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 1.3845746517181396, "cur_kl_coeff": 1.708593726158142, "policy_loss": -0.04864999279379845, "vf_explained_var": 0.8147275447845459, "entropy": 1.8801261186599731, "total_loss": 1.3486356735229492, "kl": 0.007439528126269579}, "num_steps_trained": 919200, "update_time_ms": 2.668}, "training_iteration": 766, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.03970503807068, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 43200, "timesteps_total": 919200, "custom_metrics": {}, "iterations_since_restore": 36, "episodes_this_iter": 294, "episode_reward_min": -11.958277723890621, "date": "2025-09-05_01-00-35", "episode_reward_max": 8.000003116702734, "pid": 3651946, "timestamp": 1757026835, "episode_reward_mean": 3.8941448277293755, "time_total_s": 30995.77912712097, "episodes_total": 69182, "episode_len_mean": 4.071428571428571}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1748.6571514606476, "info": {"sample_time_ms": 46793.19, "num_steps_sampled": 920400, "grad_time_ms": 369.533, "load_time_ms": 0.675, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 2.241079330444336, "cur_kl_coeff": 1.708593726158142, "policy_loss": -0.05559562146663666, "vf_explained_var": 0.7553683519363403, "entropy": 1.8627183437347412, "total_loss": 2.200254440307617, "kl": 0.00864488072693348}, "num_steps_trained": 920400, "update_time_ms": 2.712}, "training_iteration": 767, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.19120001792908, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 44400, "timesteps_total": 920400, "custom_metrics": {}, "iterations_since_restore": 37, "episodes_this_iter": 291, "episode_reward_min": -15.270401846881054, "date": "2025-09-05_01-01-22", "episode_reward_max": 4.109935601198734, "pid": 3651946, "timestamp": 1757026882, "episode_reward_mean": 3.8054175794698, "time_total_s": 31042.9703271389, "episodes_total": 69473, "episode_len_mean": 4.1271477663230245}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1796.2981708049774, "info": {"sample_time_ms": 46859.035, "num_steps_sampled": 921600, "grad_time_ms": 372.262, "load_time_ms": 0.681, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 3.658536672592163, "cur_kl_coeff": 1.708593726158142, "policy_loss": -0.052428171038627625, "vf_explained_var": 0.7163556218147278, "entropy": 1.8900055885314941, "total_loss": 3.6253576278686523, "kl": 0.011266032233834267}, "num_steps_trained": 921600, "update_time_ms": 2.679}, "training_iteration": 768, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.641019344329834, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 45600, "timesteps_total": 921600, "custom_metrics": {}, "iterations_since_restore": 38, "episodes_this_iter": 289, "episode_reward_min": -21.77859812250777, "date": "2025-09-05_01-02-09", "episode_reward_max": 4.126091784186673, "pid": 3651946, "timestamp": 1757026929, "episode_reward_mean": 3.7549427429645186, "time_total_s": 31090.61134648323, "episodes_total": 69762, "episode_len_mean": 4.159169550173011}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1844.1948111057281, "info": {"sample_time_ms": 46934.512, "num_steps_sampled": 922800, "grad_time_ms": 372.491, "load_time_ms": 0.685, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 3.9979138374328613, "cur_kl_coeff": 1.708593726158142, "policy_loss": -0.0605757050216198, "vf_explained_var": 0.6288023591041565, "entropy": 1.9570708274841309, "total_loss": 3.953638792037964, "kl": 0.009540567174553871}, "num_steps_trained": 922800, "update_time_ms": 2.665}, "training_iteration": 769, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.89664030075073, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 46800, "timesteps_total": 922800, "custom_metrics": {}, "iterations_since_restore": 39, "episodes_this_iter": 285, "episode_reward_min": -20.098995017968985, "date": "2025-09-05_01-02-57", "episode_reward_max": 5.205426811179739, "pid": 3651946, "timestamp": 1757026977, "episode_reward_mean": 3.66778813282919, "time_total_s": 31138.50798678398, "episodes_total": 70047, "episode_len_mean": 4.2105263157894735}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1891.3065786361694, "info": {"sample_time_ms": 46922.462, "num_steps_sampled": 924000, "grad_time_ms": 373.286, "load_time_ms": 0.686, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 2.0683321952819824, "cur_kl_coeff": 1.708593726158142, "policy_loss": -0.044321898370981216, "vf_explained_var": 0.7987402081489563, "entropy": 1.8195881843566895, "total_loss": 2.0326194763183594, "kl": 0.005038855131715536}, "num_steps_trained": 924000, "update_time_ms": 2.657}, "training_iteration": 770, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.111767530441284, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 48000, "timesteps_total": 924000, "custom_metrics": {}, "iterations_since_restore": 40, "episodes_this_iter": 295, "episode_reward_min": -16.05550411167573, "date": "2025-09-05_01-03-45", "episode_reward_max": 4.592011325067769, "pid": 3651946, "timestamp": 1757027025, "episode_reward_mean": 3.9061346613050865, "time_total_s": 31185.619754314423, "episodes_total": 70342, "episode_len_mean": 4.064406779661017}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1938.3917880058289, "info": {"sample_time_ms": 46928.13, "num_steps_sampled": 925200, "grad_time_ms": 372.466, "load_time_ms": 0.681, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 5.500292778015137, "cur_kl_coeff": 1.708593726158142, "policy_loss": -0.05776253715157509, "vf_explained_var": 0.6448712944984436, "entropy": 2.2128381729125977, "total_loss": 5.457508563995361, "kl": 0.008766286075115204}, "num_steps_trained": 925200, "update_time_ms": 2.594}, "training_iteration": 771, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.085209369659424, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 49200, "timesteps_total": 925200, "custom_metrics": {}, "iterations_since_restore": 41, "episodes_this_iter": 283, "episode_reward_min": -26.04057689857185, "date": "2025-09-05_01-04-32", "episode_reward_max": 4.002401863734518, "pid": 3651946, "timestamp": 1757027072, "episode_reward_mean": 3.636368039128188, "time_total_s": 31232.704963684082, "episodes_total": 70625, "episode_len_mean": 4.23321554770318}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1984.8419890403748, "info": {"sample_time_ms": 46771.66, "num_steps_sampled": 926400, "grad_time_ms": 372.114, "load_time_ms": 0.681, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 12.420703887939453, "cur_kl_coeff": 1.708593726158142, "policy_loss": -0.05916784703731537, "vf_explained_var": 0.522458553314209, "entropy": 2.136233329772949, "total_loss": 12.379623413085938, "kl": 0.010586130432784557}, "num_steps_trained": 926400, "update_time_ms": 2.567}, "training_iteration": 772, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.4502010345459, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 50400, "timesteps_total": 926400, "custom_metrics": {}, "iterations_since_restore": 42, "episodes_this_iter": 279, "episode_reward_min": -39.33067773468262, "date": "2025-09-05_01-05-18", "episode_reward_max": 4.092580515738035, "pid": 3651946, "timestamp": 1757027118, "episode_reward_mean": 3.515820113005836, "time_total_s": 31279.155164718628, "episodes_total": 70904, "episode_len_mean": 4.308243727598566}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2031.839220046997, "info": {"sample_time_ms": 46718.226, "num_steps_sampled": 927600, "grad_time_ms": 372.883, "load_time_ms": 0.692, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 6.606550216674805, "cur_kl_coeff": 1.708593726158142, "policy_loss": -0.06816405057907104, "vf_explained_var": 0.5809977054595947, "entropy": 1.9930299520492554, "total_loss": 6.560443878173828, "kl": 0.012910023331642151}, "num_steps_trained": 927600, "update_time_ms": 2.581}, "training_iteration": 773, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.997231006622314, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 51600, "timesteps_total": 927600, "custom_metrics": {}, "iterations_since_restore": 43, "episodes_this_iter": 283, "episode_reward_min": -21.88796172680281, "date": "2025-09-05_01-06-05", "episode_reward_max": 4.002439810687289, "pid": 3651946, "timestamp": 1757027165, "episode_reward_mean": 3.612397638943765, "time_total_s": 31326.15239572525, "episodes_total": 71187, "episode_len_mean": 4.247349823321555}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2078.8071944713593, "info": {"sample_time_ms": 46735.43, "num_steps_sampled": 928800, "grad_time_ms": 371.922, "load_time_ms": 0.689, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 2.415851354598999, "cur_kl_coeff": 1.708593726158142, "policy_loss": -0.07837872952222824, "vf_explained_var": 0.7386643886566162, "entropy": 1.9028277397155762, "total_loss": 2.3538591861724854, "kl": 0.00959052238613367}, "num_steps_trained": 928800, "update_time_ms": 2.67}, "training_iteration": 774, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.96797442436218, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 52800, "timesteps_total": 928800, "custom_metrics": {}, "iterations_since_restore": 44, "episodes_this_iter": 287, "episode_reward_min": -12.10505425469865, "date": "2025-09-05_01-06-52", "episode_reward_max": 4.0019870945357, "pid": 3651946, "timestamp": 1757027212, "episode_reward_mean": 3.7305935253341027, "time_total_s": 31373.120370149612, "episodes_total": 71474, "episode_len_mean": 4.174216027874564}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2125.933746099472, "info": {"sample_time_ms": 46769.426, "num_steps_sampled": 930000, "grad_time_ms": 371.785, "load_time_ms": 0.686, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 1.8429656028747559, "cur_kl_coeff": 1.708593726158142, "policy_loss": -0.04755048826336861, "vf_explained_var": 0.7892983555793762, "entropy": 1.7938878536224365, "total_loss": 1.809276819229126, "kl": 0.008112970739603043}, "num_steps_trained": 930000, "update_time_ms": 2.697}, "training_iteration": 775, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.12655162811279, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 54000, "timesteps_total": 930000, "custom_metrics": {}, "iterations_since_restore": 45, "episodes_this_iter": 294, "episode_reward_min": -13.78541047688628, "date": "2025-09-05_01-07-39", "episode_reward_max": 4.064681068362106, "pid": 3651946, "timestamp": 1757027259, "episode_reward_mean": 3.865382094416491, "time_total_s": 31420.246921777725, "episodes_total": 71768, "episode_len_mean": 4.085034013605442}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2172.9108469486237, "info": {"sample_time_ms": 46763.129, "num_steps_sampled": 931200, "grad_time_ms": 371.872, "load_time_ms": 0.687, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 4.4395365715026855, "cur_kl_coeff": 1.708593726158142, "policy_loss": -0.04413954168558121, "vf_explained_var": 0.6769609451293945, "entropy": 1.8190557956695557, "total_loss": 4.407191276550293, "kl": 0.0069029685109853745}, "num_steps_trained": 931200, "update_time_ms": 2.688}, "training_iteration": 776, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.97710084915161, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 55200, "timesteps_total": 931200, "custom_metrics": {}, "iterations_since_restore": 46, "episodes_this_iter": 291, "episode_reward_min": -23.977696050912584, "date": "2025-09-05_01-08-26", "episode_reward_max": 8.000033070321237, "pid": 3651946, "timestamp": 1757027306, "episode_reward_mean": 3.798016183340947, "time_total_s": 31467.224022626877, "episodes_total": 72059, "episode_len_mean": 4.130584192439863}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2219.4841015338898, "info": {"sample_time_ms": 46701.596, "num_steps_sampled": 932400, "grad_time_ms": 371.708, "load_time_ms": 0.674, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 2.954724073410034, "cur_kl_coeff": 1.708593726158142, "policy_loss": -0.05634055659174919, "vf_explained_var": 0.6867001056671143, "entropy": 2.0110385417938232, "total_loss": 2.9130592346191406, "kl": 0.008589200675487518}, "num_steps_trained": 932400, "update_time_ms": 2.641}, "training_iteration": 777, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.57325458526611, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 56400, "timesteps_total": 932400, "custom_metrics": {}, "iterations_since_restore": 47, "episodes_this_iter": 286, "episode_reward_min": -12.047988655655782, "date": "2025-09-05_01-09-13", "episode_reward_max": 4.350972925973858, "pid": 3651946, "timestamp": 1757027353, "episode_reward_mean": 3.6947120059361707, "time_total_s": 31513.797277212143, "episodes_total": 72345, "episode_len_mean": 4.195804195804196}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2266.5658695697784, "info": {"sample_time_ms": 46645.782, "num_steps_sampled": 933600, "grad_time_ms": 371.628, "load_time_ms": 0.675, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 2.6642534732818604, "cur_kl_coeff": 1.708593726158142, "policy_loss": -0.04670833796262741, "vf_explained_var": 0.6989669799804688, "entropy": 1.9170633554458618, "total_loss": 2.63336181640625, "kl": 0.009257161058485508}, "num_steps_trained": 933600, "update_time_ms": 2.621}, "training_iteration": 778, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.08176803588867, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 57600, "timesteps_total": 933600, "custom_metrics": {}, "iterations_since_restore": 48, "episodes_this_iter": 289, "episode_reward_min": -10.348640951962327, "date": "2025-09-05_01-10-00", "episode_reward_max": 4.002221755706053, "pid": 3651946, "timestamp": 1757027400, "episode_reward_mean": 3.7923208806491115, "time_total_s": 31560.87904524803, "episodes_total": 72634, "episode_len_mean": 4.141868512110727}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2313.4038367271423, "info": {"sample_time_ms": 46539.462, "num_steps_sampled": 934800, "grad_time_ms": 372.071, "load_time_ms": 0.675, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.362484335899353, "cur_kl_coeff": 1.708593726158142, "policy_loss": -0.062406666576862335, "vf_explained_var": 0.9415891170501709, "entropy": 1.7499221563339233, "total_loss": 0.3161599040031433, "kl": 0.009412539191544056}, "num_steps_trained": 934800, "update_time_ms": 2.638}, "training_iteration": 779, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.83796715736389, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 58800, "timesteps_total": 934800, "custom_metrics": {}, "iterations_since_restore": 49, "episodes_this_iter": 296, "episode_reward_min": -5.06328498551769, "date": "2025-09-05_01-10-47", "episode_reward_max": 4.117140791597043, "pid": 3651946, "timestamp": 1757027447, "episode_reward_mean": 3.9165722485046945, "time_total_s": 31607.717012405396, "episodes_total": 72930, "episode_len_mean": 4.054054054054054}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2361.142077922821, "info": {"sample_time_ms": 46600.847, "num_steps_sampled": 936000, "grad_time_ms": 373.36, "load_time_ms": 0.676, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 1.1525019407272339, "cur_kl_coeff": 1.708593726158142, "policy_loss": -0.045695994049310684, "vf_explained_var": 0.8327200412750244, "entropy": 1.7713196277618408, "total_loss": 1.1177312135696411, "kl": 0.006394288036972284}, "num_steps_trained": 936000, "update_time_ms": 2.63}, "training_iteration": 780, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.73824119567871, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 60000, "timesteps_total": 936000, "custom_metrics": {}, "iterations_since_restore": 50, "episodes_this_iter": 295, "episode_reward_min": -8.59429343910615, "date": "2025-09-05_01-11-35", "episode_reward_max": 4.154023467959979, "pid": 3651946, "timestamp": 1757027495, "episode_reward_mean": 3.8926968020858577, "time_total_s": 31655.455253601074, "episodes_total": 73225, "episode_len_mean": 4.071186440677966}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2408.5858132839203, "info": {"sample_time_ms": 46636.516, "num_steps_sampled": 937200, "grad_time_ms": 373.411, "load_time_ms": 0.699, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 1.8505889177322388, "cur_kl_coeff": 1.708593726158142, "policy_loss": -0.06169609725475311, "vf_explained_var": 0.7730779647827148, "entropy": 1.8604083061218262, "total_loss": 1.8047436475753784, "kl": 0.009277136996388435}, "num_steps_trained": 937200, "update_time_ms": 2.647}, "training_iteration": 781, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.44373536109924, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 61200, "timesteps_total": 937200, "custom_metrics": {}, "iterations_since_restore": 51, "episodes_this_iter": 290, "episode_reward_min": -10.083785416447018, "date": "2025-09-05_01-12-22", "episode_reward_max": 4.392711964661583, "pid": 3651946, "timestamp": 1757027542, "episode_reward_mean": 3.7665839765890223, "time_total_s": 31702.898988962173, "episodes_total": 73515, "episode_len_mean": 4.1482758620689655}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2455.3863422870636, "info": {"sample_time_ms": 46671.265, "num_steps_sampled": 938400, "grad_time_ms": 373.716, "load_time_ms": 0.697, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 3.5524978637695312, "cur_kl_coeff": 1.708593726158142, "policy_loss": -0.05039419233798981, "vf_explained_var": 0.7071776986122131, "entropy": 1.9242134094238281, "total_loss": 3.5340025424957275, "kl": 0.018669771030545235}, "num_steps_trained": 938400, "update_time_ms": 2.656}, "training_iteration": 782, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.80052900314331, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 62400, "timesteps_total": 938400, "custom_metrics": {}, "iterations_since_restore": 52, "episodes_this_iter": 285, "episode_reward_min": -18.5029933956362, "date": "2025-09-05_01-13-09", "episode_reward_max": 4.001542615606032, "pid": 3651946, "timestamp": 1757027589, "episode_reward_mean": 3.686333737405312, "time_total_s": 31749.699517965317, "episodes_total": 73800, "episode_len_mean": 4.2}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2502.4582917690277, "info": {"sample_time_ms": 46678.74, "num_steps_sampled": 939600, "grad_time_ms": 373.655, "load_time_ms": 0.709, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 5.03559684753418, "cur_kl_coeff": 1.708593726158142, "policy_loss": -0.06031392142176628, "vf_explained_var": 0.5796419382095337, "entropy": 2.035823345184326, "total_loss": 4.999176502227783, "kl": 0.01398418378084898}, "num_steps_trained": 939600, "update_time_ms": 2.653}, "training_iteration": 783, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.07194948196411, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 63600, "timesteps_total": 939600, "custom_metrics": {}, "iterations_since_restore": 53, "episodes_this_iter": 284, "episode_reward_min": -21.840290534614667, "date": "2025-09-05_01-13-56", "episode_reward_max": 4.001584936178242, "pid": 3651946, "timestamp": 1757027636, "episode_reward_mean": 3.641597409847955, "time_total_s": 31796.77146744728, "episodes_total": 74084, "episode_len_mean": 4.235915492957746}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2551.2730057239532, "info": {"sample_time_ms": 46864.77, "num_steps_sampled": 940800, "grad_time_ms": 372.387, "load_time_ms": 0.72, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 4.303224563598633, "cur_kl_coeff": 1.708593726158142, "policy_loss": -0.05835850536823273, "vf_explained_var": 0.606787919998169, "entropy": 1.9617383480072021, "total_loss": 4.258739471435547, "kl": 0.008119616657495499}, "num_steps_trained": 940800, "update_time_ms": 2.574}, "training_iteration": 784, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 48.81471395492554, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 64800, "timesteps_total": 940800, "custom_metrics": {}, "iterations_since_restore": 54, "episodes_this_iter": 285, "episode_reward_min": -15.377537604738691, "date": "2025-09-05_01-14-45", "episode_reward_max": 4.020792989221064, "pid": 3651946, "timestamp": 1757027685, "episode_reward_mean": 3.663630381865669, "time_total_s": 31845.586181402206, "episodes_total": 74369, "episode_len_mean": 4.2105263157894735}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2598.3692677021027, "info": {"sample_time_ms": 46859.844, "num_steps_sampled": 942000, "grad_time_ms": 374.344, "load_time_ms": 0.727, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.6878752112388611, "cur_kl_coeff": 1.708593726158142, "policy_loss": -0.05567542091012001, "vf_explained_var": 0.8880141973495483, "entropy": 1.6891648769378662, "total_loss": 0.6541071534156799, "kl": 0.012821835465729237}, "num_steps_trained": 942000, "update_time_ms": 2.526}, "training_iteration": 785, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.096261978149414, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 66000, "timesteps_total": 942000, "custom_metrics": {}, "iterations_since_restore": 55, "episodes_this_iter": 295, "episode_reward_min": -2.1602375685593795, "date": "2025-09-05_01-15-32", "episode_reward_max": 8.000052124494673, "pid": 3651946, "timestamp": 1757027732, "episode_reward_mean": 3.9152287397209276, "time_total_s": 31892.682443380356, "episodes_total": 74664, "episode_len_mean": 4.061016949152543}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2645.4723284244537, "info": {"sample_time_ms": 46872.238, "num_steps_sampled": 943200, "grad_time_ms": 374.543, "load_time_ms": 0.734, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 3.5516011714935303, "cur_kl_coeff": 1.708593726158142, "policy_loss": -0.05592495948076248, "vf_explained_var": 0.6857667565345764, "entropy": 1.9146186113357544, "total_loss": 3.513665199279785, "kl": 0.01052860077470541}, "num_steps_trained": 943200, "update_time_ms": 2.539}, "training_iteration": 786, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.103060722351074, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 67200, "timesteps_total": 943200, "custom_metrics": {}, "iterations_since_restore": 56, "episodes_this_iter": 288, "episode_reward_min": -17.055190062858692, "date": "2025-09-05_01-16-19", "episode_reward_max": 4.151147511426473, "pid": 3651946, "timestamp": 1757027779, "episode_reward_mean": 3.742135272957436, "time_total_s": 31939.785504102707, "episodes_total": 74952, "episode_len_mean": 4.163194444444445}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2692.3276150226593, "info": {"sample_time_ms": 46897.224, "num_steps_sampled": 944400, "grad_time_ms": 377.628, "load_time_ms": 0.753, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 9.774484634399414, "cur_kl_coeff": 1.708593726158142, "policy_loss": -0.07012740522623062, "vf_explained_var": 0.5126588344573975, "entropy": 2.1517908573150635, "total_loss": 9.721240043640137, "kl": 0.009880815632641315}, "num_steps_trained": 944400, "update_time_ms": 2.559}, "training_iteration": 787, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.855286598205566, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 68400, "timesteps_total": 944400, "custom_metrics": {}, "iterations_since_restore": 57, "episodes_this_iter": 278, "episode_reward_min": -32.373501323479616, "date": "2025-09-05_01-17-06", "episode_reward_max": 8.000032734282158, "pid": 3651946, "timestamp": 1757027826, "episode_reward_mean": 3.523573781630109, "time_total_s": 31986.640790700912, "episodes_total": 75230, "episode_len_mean": 4.302158273381295}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2739.5533571243286, "info": {"sample_time_ms": 46910.383, "num_steps_sampled": 945600, "grad_time_ms": 378.833, "load_time_ms": 0.75, "default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 2.4646711349487305, "cur_kl_coeff": 1.708593726158142, "policy_loss": -0.06321736425161362, "vf_explained_var": 0.7288916707038879, "entropy": 1.8632335662841797, "total_loss": 2.421541929244995, "kl": 0.011756868101656437}, "num_steps_trained": 945600, "update_time_ms": 2.588}, "training_iteration": 788, "config": {"clip_actions": true, "vf_share_layers": false, "sgd_minibatch_size": 128, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "custom_resources_per_worker": {}, "callbacks": {"on_sample_end": null, "on_train_result": null, "on_episode_start": null, "on_episode_end": null, "on_episode_step": null}, "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "use_gae": true, "collect_metrics_timeout": 180, "synchronize_filters": true, "entropy_coeff": 0.0, "num_gpus": 0, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "input": "sampler", "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "clip_rewards": null, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "lr_schedule": null, "kl_coeff": 0.2, "straggler_mitigation": false, "tf_session_args": {"device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "output": null, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "output_max_file_size": 67108864, "num_cpus_for_driver": 1, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.22574210166931, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 69600, "timesteps_total": 945600, "custom_metrics": {}, "iterations_since_restore": 58, "episodes_this_iter": 291, "episode_reward_min": -11.991513132469333, "date": "2025-09-05_01-17-53", "episode_reward_max": 8.00001788597729, "pid": 3651946, "timestamp": 1757027873, "episode_reward_mean": 3.782112459354446, "time_total_s": 32033.86653280258, "episodes_total": 75521, "episode_len_mean": 4.140893470790378}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 51.66564321517944, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.9922509789466858, "cur_kl_coeff": 1.708593726158142, "policy_loss": -0.054242223501205444, "vf_explained_var": 0.8546984195709229, "entropy": 1.8489820957183838, "total_loss": 0.9491172432899475, "kl": 0.006501571275293827}, "sample_time_ms": 50597.815, "num_steps_sampled": 937200, "grad_time_ms": 647.607, "num_steps_trained": 937200, "load_time_ms": 30.291, "update_time_ms": 368.902}, "training_iteration": 781, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 51.66564321517944, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 1200, "timesteps_total": 937200, "custom_metrics": {}, "iterations_since_restore": 1, "episodes_this_iter": 291, "episode_reward_min": -14.976873928364402, "date": "2025-09-05_01-19-03", "episode_reward_max": 4.002509303514523, "pid": 3651949, "timestamp": 1757027943, "episode_reward_mean": 3.8545046042374915, "time_total_s": 31707.120896816254, "episodes_total": 73516, "episode_len_mean": 4.092783505154639}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 99.1927056312561, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 2.9489707946777344, "cur_kl_coeff": 0.20000000298023224, "policy_loss": -0.06298628449440002, "vf_explained_var": 0.6915463805198669, "entropy": 1.8564648628234863, "total_loss": 2.893836259841919, "kl": 0.039258651435375214}, "sample_time_ms": 48865.899, "num_steps_sampled": 938400, "grad_time_ms": 515.502, "num_steps_trained": 938400, "load_time_ms": 15.518, "update_time_ms": 185.758}, "training_iteration": 782, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.52706241607666, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 2400, "timesteps_total": 938400, "custom_metrics": {}, "iterations_since_restore": 2, "episodes_this_iter": 288, "episode_reward_min": -12.264256535839294, "date": "2025-09-05_01-19-51", "episode_reward_max": 8.000036670659627, "pid": 3651949, "timestamp": 1757027991, "episode_reward_mean": 3.718140981724725, "time_total_s": 31754.64795923233, "episodes_total": 73804, "episode_len_mean": 4.177083333333333}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 146.26294922828674, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 1.8496922254562378, "cur_kl_coeff": 0.30000001192092896, "policy_loss": -0.07667955011129379, "vf_explained_var": 0.7851062417030334, "entropy": 1.8610098361968994, "total_loss": 1.7795567512512207, "kl": 0.021813293918967247}, "sample_time_ms": 48139.086, "num_steps_sampled": 939600, "grad_time_ms": 468.525, "num_steps_trained": 939600, "load_time_ms": 10.566, "update_time_ms": 124.756}, "training_iteration": 783, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.07024359703064, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 3600, "timesteps_total": 939600, "custom_metrics": {}, "iterations_since_restore": 3, "episodes_this_iter": 290, "episode_reward_min": -10.064511670467962, "date": "2025-09-05_01-20-38", "episode_reward_max": 4.026854004253584, "pid": 3651949, "timestamp": 1757028038, "episode_reward_mean": 3.776355211402988, "time_total_s": 31801.71820282936, "episodes_total": 74094, "episode_len_mean": 4.1482758620689655}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 193.2772831916809, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 1.7610725164413452, "cur_kl_coeff": 0.44999995827674866, "policy_loss": -0.0601881742477417, "vf_explained_var": 0.8007305860519409, "entropy": 1.8276609182357788, "total_loss": 1.7076600790023804, "kl": 0.015057351440191269}, "sample_time_ms": 47765.869, "num_steps_sampled": 940800, "grad_time_ms": 441.014, "num_steps_trained": 940800, "load_time_ms": 8.085, "update_time_ms": 94.317}, "training_iteration": 784, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.014333963394165, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 4800, "timesteps_total": 940800, "custom_metrics": {}, "iterations_since_restore": 4, "episodes_this_iter": 292, "episode_reward_min": -13.549796048554573, "date": "2025-09-05_01-21-25", "episode_reward_max": 4.006583956578801, "pid": 3651949, "timestamp": 1757028085, "episode_reward_mean": 3.838442210095396, "time_total_s": 31848.732536792755, "episodes_total": 74386, "episode_len_mean": 4.113013698630137}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 242.63713192939758, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 1.4205937385559082, "cur_kl_coeff": 0.44999995827674866, "policy_loss": -0.050313714891672134, "vf_explained_var": 0.8278232216835022, "entropy": 1.7518596649169922, "total_loss": 1.3765041828155518, "kl": 0.013831070624291897}, "sample_time_ms": 48007.749, "num_steps_sampled": 942000, "grad_time_ms": 427.871, "num_steps_trained": 942000, "load_time_ms": 6.591, "update_time_ms": 75.96}, "training_iteration": 785, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 49.359848737716675, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 6000, "timesteps_total": 942000, "custom_metrics": {}, "iterations_since_restore": 5, "episodes_this_iter": 294, "episode_reward_min": -13.06073049907241, "date": "2025-09-05_01-22-14", "episode_reward_max": 4.128189074343364, "pid": 3651949, "timestamp": 1757028134, "episode_reward_mean": 3.9022232455595676, "time_total_s": 31898.09238553047, "episodes_total": 74680, "episode_len_mean": 4.068027210884353}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 289.53229904174805, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.4408969283103943, "cur_kl_coeff": 0.44999995827674866, "policy_loss": -0.05928817018866539, "vf_explained_var": 0.926021158695221, "entropy": 1.74524986743927, "total_loss": 0.3913138806819916, "kl": 0.021566830575466156}, "sample_time_ms": 47760.908, "num_steps_sampled": 943200, "grad_time_ms": 416.361, "num_steps_trained": 943200, "load_time_ms": 5.599, "update_time_ms": 63.697}, "training_iteration": 786, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.895167112350464, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 7200, "timesteps_total": 943200, "custom_metrics": {}, "iterations_since_restore": 6, "episodes_this_iter": 298, "episode_reward_min": -2.1567221200411755, "date": "2025-09-05_01-23-01", "episode_reward_max": 8.000010802354078, "pid": 3651949, "timestamp": 1757028181, "episode_reward_mean": 3.96651188022375, "time_total_s": 31944.987552642822, "episodes_total": 74978, "episode_len_mean": 4.030201342281879}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 336.5793924331665, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.22498305141925812, "cur_kl_coeff": 0.675000011920929, "policy_loss": -0.042830690741539, "vf_explained_var": 0.9598996639251709, "entropy": 1.6507837772369385, "total_loss": 0.19249561429023743, "kl": 0.015323377214372158}, "sample_time_ms": 47606.235, "num_steps_sampled": 944400, "grad_time_ms": 408.122, "num_steps_trained": 944400, "load_time_ms": 4.891, "update_time_ms": 54.96}, "training_iteration": 787, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.04709339141846, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 8400, "timesteps_total": 944400, "custom_metrics": {}, "iterations_since_restore": 7, "episodes_this_iter": 298, "episode_reward_min": -2.024536533868339, "date": "2025-09-05_01-23-48", "episode_reward_max": 4.124295920144162, "pid": 3651949, "timestamp": 1757028228, "episode_reward_mean": 3.9601303116462363, "time_total_s": 31992.03464603424, "episodes_total": 75276, "episode_len_mean": 4.026845637583893}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 383.75608229637146, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 2.5072805881500244, "cur_kl_coeff": 0.675000011920929, "policy_loss": -0.0695737674832344, "vf_explained_var": 0.7216205596923828, "entropy": 1.8538966178894043, "total_loss": 2.451732635498047, "kl": 0.020778659731149673}, "sample_time_ms": 47503.384, "num_steps_sampled": 945600, "grad_time_ms": 405.125, "num_steps_trained": 945600, "load_time_ms": 4.36, "update_time_ms": 48.391}, "training_iteration": 788, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.176689863204956, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 9600, "timesteps_total": 945600, "custom_metrics": {}, "iterations_since_restore": 8, "episodes_this_iter": 289, "episode_reward_min": -12.91145736728022, "date": "2025-09-05_01-24-36", "episode_reward_max": 4.0205117253454805, "pid": 3651949, "timestamp": 1757028276, "episode_reward_mean": 3.752205695488996, "time_total_s": 32039.211335897446, "episodes_total": 75565, "episode_len_mean": 4.155709342560554}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 430.90940523147583, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 5.012481689453125, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.059946220368146896, "vf_explained_var": 0.6565014719963074, "entropy": 1.9285272359848022, "total_loss": 4.964396953582764, "kl": 0.011715345084667206}, "sample_time_ms": 47422.232, "num_steps_sampled": 946800, "grad_time_ms": 401.341, "num_steps_trained": 946800, "load_time_ms": 3.953, "update_time_ms": 43.302}, "training_iteration": 789, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.15332293510437, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 10800, "timesteps_total": 946800, "custom_metrics": {}, "iterations_since_restore": 9, "episodes_this_iter": 289, "episode_reward_min": -25.47250893244872, "date": "2025-09-05_01-25-23", "episode_reward_max": 4.12287126366258, "pid": 3651949, "timestamp": 1757028323, "episode_reward_mean": 3.7499060035607386, "time_total_s": 32086.36465883255, "episodes_total": 75854, "episode_len_mean": 4.1522491349480966}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 478.20979285240173, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 2.250943183898926, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.06416141986846924, "vf_explained_var": 0.7748057842254639, "entropy": 1.8672207593917847, "total_loss": 2.2019548416137695, "kl": 0.014985635876655579}, "sample_time_ms": 47370.318, "num_steps_sampled": 948000, "grad_time_ms": 399.985, "num_steps_trained": 948000, "load_time_ms": 3.62, "update_time_ms": 39.226}, "training_iteration": 790, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.3003876209259, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 12000, "timesteps_total": 948000, "custom_metrics": {}, "iterations_since_restore": 10, "episodes_this_iter": 290, "episode_reward_min": -14.061992362304128, "date": "2025-09-05_01-26-10", "episode_reward_max": 8.000028237344964, "pid": 3651949, "timestamp": 1757028370, "episode_reward_mean": 3.8105384396577486, "time_total_s": 32133.665046453476, "episodes_total": 76144, "episode_len_mean": 4.127586206896551}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 525.4595472812653, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.9491912126541138, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.049380749464035034, "vf_explained_var": 0.8589465618133545, "entropy": 1.8180402517318726, "total_loss": 0.9103296995162964, "kl": 0.010389466769993305}, "sample_time_ms": 46996.824, "num_steps_sampled": 949200, "grad_time_ms": 372.868, "num_steps_trained": 949200, "load_time_ms": 0.663, "update_time_ms": 2.622}, "training_iteration": 791, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.249754428863525, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 13200, "timesteps_total": 949200, "custom_metrics": {}, "iterations_since_restore": 11, "episodes_this_iter": 294, "episode_reward_min": -5.406530040356589, "date": "2025-09-05_01-26-57", "episode_reward_max": 4.094243137303819, "pid": 3651949, "timestamp": 1757028417, "episode_reward_mean": 3.879864113613836, "time_total_s": 32180.91480088234, "episodes_total": 76438, "episode_len_mean": 4.081632653061225}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 572.4544923305511, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.4377812147140503, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.06339593976736069, "vf_explained_var": 0.9286383390426636, "entropy": 1.7569670677185059, "total_loss": 0.3850562870502472, "kl": 0.010539311915636063}, "sample_time_ms": 46945.37, "num_steps_sampled": 950400, "grad_time_ms": 371.132, "num_steps_trained": 950400, "load_time_ms": 0.656, "update_time_ms": 2.657}, "training_iteration": 792, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.99494504928589, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 14400, "timesteps_total": 950400, "custom_metrics": {}, "iterations_since_restore": 12, "episodes_this_iter": 296, "episode_reward_min": -4.968387219343455, "date": "2025-09-05_01-27-44", "episode_reward_max": 8.000353116834368, "pid": 3651949, "timestamp": 1757028464, "episode_reward_mean": 3.928256344203121, "time_total_s": 32227.909745931625, "episodes_total": 76734, "episode_len_mean": 4.054054054054054}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 619.7707614898682, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 6.112908840179443, "cur_kl_coeff": 1.0125000476837158, "policy_loss": -0.04459194839000702, "vf_explained_var": 0.5795450806617737, "entropy": 1.667588710784912, "total_loss": 6.097717761993408, "kl": 0.0290378425270319}, "sample_time_ms": 46971.848, "num_steps_sampled": 951600, "grad_time_ms": 369.421, "num_steps_trained": 951600, "load_time_ms": 0.652, "update_time_ms": 2.608}, "training_iteration": 793, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.31626915931702, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 15600, "timesteps_total": 951600, "custom_metrics": {}, "iterations_since_restore": 13, "episodes_this_iter": 291, "episode_reward_min": -24.589137243397587, "date": "2025-09-05_01-28-32", "episode_reward_max": 4.036547243347274, "pid": 3651949, "timestamp": 1757028512, "episode_reward_mean": 3.88809978551038, "time_total_s": 32275.226015090942, "episodes_total": 77025, "episode_len_mean": 4.072164948453608}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 666.9650793075562, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 1.718286395072937, "cur_kl_coeff": 1.5187499523162842, "policy_loss": -0.06419695913791656, "vf_explained_var": 0.7822743654251099, "entropy": 1.86990487575531, "total_loss": 1.6808961629867554, "kl": 0.01765047013759613}, "sample_time_ms": 46988.306, "num_steps_sampled": 952800, "grad_time_ms": 371.019, "num_steps_trained": 952800, "load_time_ms": 0.648, "update_time_ms": 2.552}, "training_iteration": 794, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.19431781768799, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 16800, "timesteps_total": 952800, "custom_metrics": {}, "iterations_since_restore": 14, "episodes_this_iter": 289, "episode_reward_min": -12.701008803173178, "date": "2025-09-05_01-29-19", "episode_reward_max": 4.203500124253747, "pid": 3651949, "timestamp": 1757028559, "episode_reward_mean": 3.676192982592369, "time_total_s": 32322.42033290863, "episodes_total": 77314, "episode_len_mean": 4.211072664359862}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 713.8903295993805, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 4.264537334442139, "cur_kl_coeff": 1.5187499523162842, "policy_loss": -0.04881961643695831, "vf_explained_var": 0.6670060157775879, "entropy": 1.85612952709198, "total_loss": 4.239828109741211, "kl": 0.01587512157857418}, "sample_time_ms": 46743.49, "num_steps_sampled": 954000, "grad_time_ms": 372.268, "num_steps_trained": 954000, "load_time_ms": 0.665, "update_time_ms": 2.582}, "training_iteration": 795, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.92525029182434, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 18000, "timesteps_total": 954000, "custom_metrics": {}, "iterations_since_restore": 15, "episodes_this_iter": 288, "episode_reward_min": -12.980148394396917, "date": "2025-09-05_01-30-06", "episode_reward_max": 4.065503414672037, "pid": 3651949, "timestamp": 1757028606, "episode_reward_mean": 3.7922930521983074, "time_total_s": 32369.345583200455, "episodes_total": 77602, "episode_len_mean": 4.131944444444445}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 761.1560180187225, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.30072930455207825, "cur_kl_coeff": 1.5187499523162842, "policy_loss": -0.05964440107345581, "vf_explained_var": 0.9533084034919739, "entropy": 1.6481891870498657, "total_loss": 0.2712497115135193, "kl": 0.019861610606312752}, "sample_time_ms": 46778.854, "num_steps_sampled": 955200, "grad_time_ms": 373.989, "num_steps_trained": 955200, "load_time_ms": 0.665, "update_time_ms": 2.611}, "training_iteration": 796, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.26568841934204, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 19200, "timesteps_total": 955200, "custom_metrics": {}, "iterations_since_restore": 16, "episodes_this_iter": 298, "episode_reward_min": -9.968730862637617, "date": "2025-09-05_01-30-53", "episode_reward_max": 4.0024867475246, "pid": 3651949, "timestamp": 1757028653, "episode_reward_mean": 3.8975311680485905, "time_total_s": 32416.611271619797, "episodes_total": 77900, "episode_len_mean": 4.067114093959732}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 808.0145020484924, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.8040688633918762, "cur_kl_coeff": 1.5187499523162842, "policy_loss": -0.032848622649908066, "vf_explained_var": 0.915114164352417, "entropy": 1.5866845846176147, "total_loss": 0.7948029637336731, "kl": 0.01552779134362936}, "sample_time_ms": 46760.331, "num_steps_sampled": 956400, "grad_time_ms": 373.74, "num_steps_trained": 956400, "load_time_ms": 0.662, "update_time_ms": 2.629}, "training_iteration": 797, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.8584840297699, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 20400, "timesteps_total": 956400, "custom_metrics": {}, "iterations_since_restore": 17, "episodes_this_iter": 297, "episode_reward_min": -13.755648820316434, "date": "2025-09-05_01-31-40", "episode_reward_max": 4.001205095622689, "pid": 3651949, "timestamp": 1757028700, "episode_reward_mean": 3.9404580151675765, "time_total_s": 32463.469755649567, "episodes_total": 78197, "episode_len_mean": 4.040404040404041}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 855.3551073074341, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 1.7433048486709595, "cur_kl_coeff": 1.5187499523162842, "policy_loss": -0.03473437577486038, "vf_explained_var": 0.8053309321403503, "entropy": 1.6424217224121094, "total_loss": 1.7213722467422485, "kl": 0.008429242298007011}, "sample_time_ms": 46777.43, "num_steps_sampled": 957600, "grad_time_ms": 373.041, "num_steps_trained": 957600, "load_time_ms": 0.671, "update_time_ms": 2.614}, "training_iteration": 798, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.34060525894165, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 21600, "timesteps_total": 957600, "custom_metrics": {}, "iterations_since_restore": 18, "episodes_this_iter": 296, "episode_reward_min": -15.330119717390737, "date": "2025-09-05_01-32-27", "episode_reward_max": 8.000000401861136, "pid": 3651949, "timestamp": 1757028747, "episode_reward_mean": 3.9213278219855128, "time_total_s": 32510.81036090851, "episodes_total": 78493, "episode_len_mean": 4.050675675675675}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 902.4068982601166, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 3.922396421432495, "cur_kl_coeff": 1.5187499523162842, "policy_loss": -0.045828308910131454, "vf_explained_var": 0.6741072535514832, "entropy": 1.671573281288147, "total_loss": 3.9039247035980225, "kl": 0.018012363463640213}, "sample_time_ms": 46768.543, "num_steps_sampled": 958800, "grad_time_ms": 371.807, "num_steps_trained": 958800, "load_time_ms": 0.666, "update_time_ms": 2.59}, "training_iteration": 799, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.051790952682495, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 22800, "timesteps_total": 958800, "custom_metrics": {}, "iterations_since_restore": 19, "episodes_this_iter": 292, "episode_reward_min": -23.708678122556933, "date": "2025-09-05_01-33-14", "episode_reward_max": 4.001030656455413, "pid": 3651949, "timestamp": 1757028794, "episode_reward_mean": 3.8258956724124005, "time_total_s": 32557.86215186119, "episodes_total": 78785, "episode_len_mean": 4.109589041095891}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 949.1350507736206, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 1.8681204319000244, "cur_kl_coeff": 1.5187499523162842, "policy_loss": -0.06701643019914627, "vf_explained_var": 0.7929180264472961, "entropy": 1.9429833889007568, "total_loss": 1.827116847038269, "kl": 0.017127802595496178}, "sample_time_ms": 46714.402, "num_steps_sampled": 960000, "grad_time_ms": 368.803, "num_steps_trained": 960000, "load_time_ms": 0.678, "update_time_ms": 2.564}, "training_iteration": 800, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.72815251350403, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 24000, "timesteps_total": 960000, "custom_metrics": {}, "iterations_since_restore": 20, "episodes_this_iter": 288, "episode_reward_min": -12.98841631792866, "date": "2025-09-05_01-34-01", "episode_reward_max": 4.002175431387786, "pid": 3651949, "timestamp": 1757028841, "episode_reward_mean": 3.7431750070060352, "time_total_s": 32604.590304374695, "episodes_total": 79073, "episode_len_mean": 4.163194444444445}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 997.0902171134949, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.3580002188682556, "cur_kl_coeff": 1.5187499523162842, "policy_loss": -0.05703965947031975, "vf_explained_var": 0.9418891072273254, "entropy": 1.6511077880859375, "total_loss": 0.31548604369163513, "kl": 0.009564097970724106}, "sample_time_ms": 46785.388, "num_steps_sampled": 961200, "grad_time_ms": 368.434, "num_steps_trained": 961200, "load_time_ms": 0.676, "update_time_ms": 2.57}, "training_iteration": 801, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.95516633987427, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 25200, "timesteps_total": 961200, "custom_metrics": {}, "iterations_since_restore": 21, "episodes_this_iter": 297, "episode_reward_min": -4.085459592416555, "date": "2025-09-05_01-34-49", "episode_reward_max": 4.162939948548514, "pid": 3651949, "timestamp": 1757028889, "episode_reward_mean": 3.9406939439213287, "time_total_s": 32652.54547071457, "episodes_total": 79370, "episode_len_mean": 4.040404040404041}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1044.357929944992, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.18730320036411285, "cur_kl_coeff": 1.5187499523162842, "policy_loss": -0.04268259555101395, "vf_explained_var": 0.9681369066238403, "entropy": 1.6600903272628784, "total_loss": 0.15792995691299438, "kl": 0.00876335147768259}, "sample_time_ms": 46811.914, "num_steps_sampled": 962400, "grad_time_ms": 369.199, "num_steps_trained": 962400, "load_time_ms": 0.679, "update_time_ms": 2.536}, "training_iteration": 802, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.26771283149719, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 26400, "timesteps_total": 962400, "custom_metrics": {}, "iterations_since_restore": 22, "episodes_this_iter": 299, "episode_reward_min": -2.0613225091415845, "date": "2025-09-05_01-35-36", "episode_reward_max": 4.02449057563354, "pid": 3651949, "timestamp": 1757028936, "episode_reward_mean": 3.980055908652997, "time_total_s": 32699.813183546066, "episodes_total": 79669, "episode_len_mean": 4.013377926421405}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1091.4220464229584, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.708747923374176, "cur_kl_coeff": 1.5187499523162842, "policy_loss": -0.05166047438979149, "vf_explained_var": 0.8876267671585083, "entropy": 1.7017515897750854, "total_loss": 0.6666974425315857, "kl": 0.006327613722532988}, "sample_time_ms": 46784.316, "num_steps_sampled": 963600, "grad_time_ms": 371.494, "num_steps_trained": 963600, "load_time_ms": 0.695, "update_time_ms": 2.546}, "training_iteration": 803, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.06411647796631, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 27600, "timesteps_total": 963600, "custom_metrics": {}, "iterations_since_restore": 23, "episodes_this_iter": 297, "episode_reward_min": -3.7565080186063238, "date": "2025-09-05_01-36-24", "episode_reward_max": 8.000000616166519, "pid": 3651949, "timestamp": 1757028984, "episode_reward_mean": 3.9177281391629033, "time_total_s": 32746.877300024033, "episodes_total": 79966, "episode_len_mean": 4.053872053872054}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1139.3512353897095, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.6867063045501709, "cur_kl_coeff": 1.5187499523162842, "policy_loss": -0.037311896681785583, "vf_explained_var": 0.903723418712616, "entropy": 1.8005733489990234, "total_loss": 0.6543222069740295, "kl": 0.003244699677452445}, "sample_time_ms": 46857.686, "num_steps_sampled": 964800, "grad_time_ms": 371.531, "num_steps_trained": 964800, "load_time_ms": 0.698, "update_time_ms": 2.574}, "training_iteration": 804, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.9291889667511, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 28800, "timesteps_total": 964800, "custom_metrics": {}, "iterations_since_restore": 24, "episodes_this_iter": 295, "episode_reward_min": -5.504860003203149, "date": "2025-09-05_01-37-11", "episode_reward_max": 4.130190802436839, "pid": 3651949, "timestamp": 1757029031, "episode_reward_mean": 3.928988667431524, "time_total_s": 32794.806488990784, "episodes_total": 80261, "episode_len_mean": 4.047457627118644}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1186.4974427223206, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.7119202017784119, "cur_kl_coeff": 0.7593749761581421, "policy_loss": -0.050469715148210526, "vf_explained_var": 0.8853400945663452, "entropy": 1.776171326637268, "total_loss": 0.6910502910614014, "kl": 0.03897910937666893}, "sample_time_ms": 46880.225, "num_steps_sampled": 966000, "grad_time_ms": 371.179, "num_steps_trained": 966000, "load_time_ms": 0.682, "update_time_ms": 2.557}, "training_iteration": 805, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.146207332611084, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 30000, "timesteps_total": 966000, "custom_metrics": {}, "iterations_since_restore": 25, "episodes_this_iter": 296, "episode_reward_min": -6.568379425077559, "date": "2025-09-05_01-37-59", "episode_reward_max": 8.000022452656822, "pid": 3651949, "timestamp": 1757029079, "episode_reward_mean": 3.897963507153022, "time_total_s": 32841.952696323395, "episodes_total": 80557, "episode_len_mean": 4.070945945945946}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1235.047001838684, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 1.4876036643981934, "cur_kl_coeff": 1.139062523841858, "policy_loss": -0.05569356679916382, "vf_explained_var": 0.7973092794418335, "entropy": 1.8454415798187256, "total_loss": 1.4398431777954102, "kl": 0.006964581087231636}, "sample_time_ms": 47008.397, "num_steps_sampled": 967200, "grad_time_ms": 371.409, "num_steps_trained": 967200, "load_time_ms": 0.676, "update_time_ms": 2.527}, "training_iteration": 806, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 48.549559116363525, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 31200, "timesteps_total": 967200, "custom_metrics": {}, "iterations_since_restore": 26, "episodes_this_iter": 290, "episode_reward_min": -8.652763661169601, "date": "2025-09-05_01-38-47", "episode_reward_max": 4.016446949720436, "pid": 3651949, "timestamp": 1757029127, "episode_reward_mean": 3.8287529921794836, "time_total_s": 32890.50225543976, "episodes_total": 80847, "episode_len_mean": 4.113793103448276}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1281.8840281963348, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 6.264103412628174, "cur_kl_coeff": 1.139062523841858, "policy_loss": -0.05899304896593094, "vf_explained_var": 0.5897148251533508, "entropy": 2.0083160400390625, "total_loss": 6.223005294799805, "kl": 0.015710312873125076}, "sample_time_ms": 47005.169, "num_steps_sampled": 968400, "grad_time_ms": 372.504, "num_steps_trained": 968400, "load_time_ms": 0.689, "update_time_ms": 2.518}, "training_iteration": 807, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.83702635765076, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 32400, "timesteps_total": 968400, "custom_metrics": {}, "iterations_since_restore": 27, "episodes_this_iter": 287, "episode_reward_min": -21.911524032019354, "date": "2025-09-05_01-39-34", "episode_reward_max": 4.7794433488924115, "pid": 3651949, "timestamp": 1757029174, "episode_reward_mean": 3.695486852089204, "time_total_s": 32937.33928179741, "episodes_total": 81134, "episode_len_mean": 4.195121951219512}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1329.7248368263245, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 1.4413554668426514, "cur_kl_coeff": 1.139062523841858, "policy_loss": -0.05914253741502762, "vf_explained_var": 0.8244356513023376, "entropy": 1.827782154083252, "total_loss": 1.394775390625, "kl": 0.011028682813048363}, "sample_time_ms": 47057.533, "num_steps_sampled": 969600, "grad_time_ms": 370.213, "num_steps_trained": 969600, "load_time_ms": 0.676, "update_time_ms": 2.515}, "training_iteration": 808, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.840808629989624, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 33600, "timesteps_total": 969600, "custom_metrics": {}, "iterations_since_restore": 28, "episodes_this_iter": 292, "episode_reward_min": -9.395980129400694, "date": "2025-09-05_01-40-22", "episode_reward_max": 4.1590783756023155, "pid": 3651949, "timestamp": 1757029222, "episode_reward_mean": 3.8544892844564207, "time_total_s": 32985.1800904274, "episodes_total": 81426, "episode_len_mean": 4.102739726027397}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1377.2052764892578, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.7015355825424194, "cur_kl_coeff": 1.139062523841858, "policy_loss": -0.04539366811513901, "vf_explained_var": 0.9010327458381653, "entropy": 1.6855577230453491, "total_loss": 0.6637807488441467, "kl": 0.006706247106194496}, "sample_time_ms": 47097.643, "num_steps_sampled": 970800, "grad_time_ms": 372.945, "num_steps_trained": 970800, "load_time_ms": 0.677, "update_time_ms": 2.511}, "training_iteration": 809, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.48043966293335, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 34800, "timesteps_total": 970800, "custom_metrics": {}, "iterations_since_restore": 29, "episodes_this_iter": 295, "episode_reward_min": -7.3428326232683965, "date": "2025-09-05_01-41-09", "episode_reward_max": 4.413765057282951, "pid": 3651949, "timestamp": 1757029269, "episode_reward_mean": 3.9358162676219055, "time_total_s": 33032.66053009033, "episodes_total": 81721, "episode_len_mean": 4.047457627118644}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1424.1667184829712, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 1.8058637380599976, "cur_kl_coeff": 1.139062523841858, "policy_loss": -0.04731789603829384, "vf_explained_var": 0.7754788994789124, "entropy": 1.6680302619934082, "total_loss": 1.7740479707717896, "kl": 0.01360949594527483}, "sample_time_ms": 47119.038, "num_steps_sampled": 972000, "grad_time_ms": 374.771, "num_steps_trained": 972000, "load_time_ms": 0.667, "update_time_ms": 2.536}, "training_iteration": 810, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.96144199371338, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 36000, "timesteps_total": 972000, "custom_metrics": {}, "iterations_since_restore": 30, "episodes_this_iter": 295, "episode_reward_min": -10.516404672326125, "date": "2025-09-05_01-41-56", "episode_reward_max": 8.000012660669258, "pid": 3651949, "timestamp": 1757029316, "episode_reward_mean": 3.847911428426083, "time_total_s": 33079.621972084045, "episodes_total": 82016, "episode_len_mean": 4.098305084745762}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1471.9550507068634, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.7151005268096924, "cur_kl_coeff": 1.139062523841858, "policy_loss": -0.050695180892944336, "vf_explained_var": 0.8930562138557434, "entropy": 1.7088598012924194, "total_loss": 0.6887589693069458, "kl": 0.021380571648478508}, "sample_time_ms": 47103.509, "num_steps_sampled": 973200, "grad_time_ms": 373.547, "num_steps_trained": 973200, "load_time_ms": 0.668, "update_time_ms": 2.597}, "training_iteration": 811, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.78833222389221, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 37200, "timesteps_total": 973200, "custom_metrics": {}, "iterations_since_restore": 31, "episodes_this_iter": 295, "episode_reward_min": -6.557950140927627, "date": "2025-09-05_01-42-44", "episode_reward_max": 8.000019141972288, "pid": 3651949, "timestamp": 1757029364, "episode_reward_mean": 3.9000041977097872, "time_total_s": 33127.41030430794, "episodes_total": 82311, "episode_len_mean": 4.064406779661017}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1518.968185186386, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 3.846207618713379, "cur_kl_coeff": 1.708593726158142, "policy_loss": -0.0323285274207592, "vf_explained_var": 0.6994062662124634, "entropy": 1.7498440742492676, "total_loss": 3.844479560852051, "kl": 0.017909592017531395}, "sample_time_ms": 47078.915, "num_steps_sampled": 974400, "grad_time_ms": 372.627, "num_steps_trained": 974400, "load_time_ms": 0.665, "update_time_ms": 2.581}, "training_iteration": 812, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.013134479522705, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 38400, "timesteps_total": 974400, "custom_metrics": {}, "iterations_since_restore": 32, "episodes_this_iter": 292, "episode_reward_min": -20.47005127444236, "date": "2025-09-05_01-43-31", "episode_reward_max": 4.162667764236382, "pid": 3651949, "timestamp": 1757029411, "episode_reward_mean": 3.8325548653714554, "time_total_s": 33174.42343878746, "episodes_total": 82603, "episode_len_mean": 4.109589041095891}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1566.1076924800873, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 2.445774793624878, "cur_kl_coeff": 1.708593726158142, "policy_loss": -0.045447684824466705, "vf_explained_var": 0.7744918465614319, "entropy": 1.6828818321228027, "total_loss": 2.407973527908325, "kl": 0.004475479479879141}, "sample_time_ms": 47087.186, "num_steps_sampled": 975600, "grad_time_ms": 371.87, "num_steps_trained": 975600, "load_time_ms": 0.655, "update_time_ms": 2.651}, "training_iteration": 813, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.13950729370117, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 39600, "timesteps_total": 975600, "custom_metrics": {}, "iterations_since_restore": 33, "episodes_this_iter": 294, "episode_reward_min": -20.252988802667094, "date": "2025-09-05_01-44-18", "episode_reward_max": 4.026454987915971, "pid": 3651949, "timestamp": 1757029458, "episode_reward_mean": 3.8777027598765352, "time_total_s": 33221.56294608116, "episodes_total": 82897, "episode_len_mean": 4.081632653061225}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1613.4467389583588, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.47300609946250916, "cur_kl_coeff": 0.854296863079071, "policy_loss": -0.057291433215141296, "vf_explained_var": 0.9230258464813232, "entropy": 1.5881778001785278, "total_loss": 0.4345957636833191, "kl": 0.022101333364844322}, "sample_time_ms": 47027.47, "num_steps_sampled": 976800, "grad_time_ms": 372.629, "num_steps_trained": 976800, "load_time_ms": 0.666, "update_time_ms": 2.621}, "training_iteration": 814, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.339046478271484, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 40800, "timesteps_total": 976800, "custom_metrics": {}, "iterations_since_restore": 34, "episodes_this_iter": 297, "episode_reward_min": -4.0787353271623665, "date": "2025-09-05_01-45-06", "episode_reward_max": 4.00314741677162, "pid": 3651949, "timestamp": 1757029506, "episode_reward_mean": 3.9363969553082097, "time_total_s": 33268.90199255943, "episodes_total": 83194, "episode_len_mean": 4.043771043771044}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1660.20107960701, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 2.3579092025756836, "cur_kl_coeff": 1.2814452648162842, "policy_loss": -0.0439508855342865, "vf_explained_var": 0.752430260181427, "entropy": 1.8941396474838257, "total_loss": 2.323559522628784, "kl": 0.0074925231747329235}, "sample_time_ms": 46988.425, "num_steps_sampled": 978000, "grad_time_ms": 372.503, "num_steps_trained": 978000, "load_time_ms": 0.67, "update_time_ms": 2.615}, "training_iteration": 815, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.75434064865112, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 42000, "timesteps_total": 978000, "custom_metrics": {}, "iterations_since_restore": 35, "episodes_this_iter": 291, "episode_reward_min": -15.850401724105637, "date": "2025-09-05_01-45-53", "episode_reward_max": 4.295421785432054, "pid": 3651949, "timestamp": 1757029553, "episode_reward_mean": 3.8307856738404347, "time_total_s": 33315.656333208084, "episodes_total": 83485, "episode_len_mean": 4.11340206185567}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1707.0376374721527, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.8707294464111328, "cur_kl_coeff": 1.2814452648162842, "policy_loss": -0.040706999599933624, "vf_explained_var": 0.8828989863395691, "entropy": 1.745435357093811, "total_loss": 0.8379433155059814, "kl": 0.006181230768561363}, "sample_time_ms": 46817.656, "num_steps_sampled": 979200, "grad_time_ms": 371.985, "num_steps_trained": 979200, "load_time_ms": 0.681, "update_time_ms": 2.609}, "training_iteration": 816, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.83655786514282, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 43200, "timesteps_total": 979200, "custom_metrics": {}, "iterations_since_restore": 36, "episodes_this_iter": 294, "episode_reward_min": -6.977797278917819, "date": "2025-09-05_01-46-39", "episode_reward_max": 6.014182721436078, "pid": 3651949, "timestamp": 1757029599, "episode_reward_mean": 3.8778004777755335, "time_total_s": 33362.49289107323, "episodes_total": 83779, "episode_len_mean": 4.078231292517007}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1754.92271900177, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.2831428647041321, "cur_kl_coeff": 1.2814452648162842, "policy_loss": -0.0387619249522686, "vf_explained_var": 0.950989305973053, "entropy": 1.6422532796859741, "total_loss": 0.2551690340042114, "kl": 0.008418700657784939}, "sample_time_ms": 46920.809, "num_steps_sampled": 980400, "grad_time_ms": 373.585, "num_steps_trained": 980400, "load_time_ms": 0.686, "update_time_ms": 2.596}, "training_iteration": 817, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.88508152961731, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 44400, "timesteps_total": 980400, "custom_metrics": {}, "iterations_since_restore": 37, "episodes_this_iter": 297, "episode_reward_min": -2.094870018555298, "date": "2025-09-05_01-47-27", "episode_reward_max": 4.004102837999562, "pid": 3651949, "timestamp": 1757029647, "episode_reward_mean": 3.934081516235194, "time_total_s": 33410.377972602844, "episodes_total": 84076, "episode_len_mean": 4.043771043771044}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1802.4472270011902, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.018896961584687233, "cur_kl_coeff": 1.2814452648162842, "policy_loss": -0.029149293899536133, "vf_explained_var": 0.9966424107551575, "entropy": 1.5248656272888184, "total_loss": 0.004489346407353878, "kl": 0.011503946036100388}, "sample_time_ms": 46887.154, "num_steps_sampled": 981600, "grad_time_ms": 375.555, "num_steps_trained": 981600, "load_time_ms": 0.692, "update_time_ms": 2.625}, "training_iteration": 818, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.524507999420166, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 45600, "timesteps_total": 981600, "custom_metrics": {}, "iterations_since_restore": 38, "episodes_this_iter": 300, "episode_reward_min": 4.000074564187001, "date": "2025-09-05_01-48-15", "episode_reward_max": 5.025365209335014, "pid": 3651949, "timestamp": 1757029695, "episode_reward_mean": 4.003906200630369, "time_total_s": 33457.902480602264, "episodes_total": 84376, "episode_len_mean": 4.0}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1849.8041031360626, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.6453438997268677, "cur_kl_coeff": 1.2814452648162842, "policy_loss": -0.04249809309840202, "vf_explained_var": 0.9167090654373169, "entropy": 1.6513155698776245, "total_loss": 0.6087195873260498, "kl": 0.00458371639251709}, "sample_time_ms": 46877.909, "num_steps_sampled": 982800, "grad_time_ms": 372.472, "num_steps_trained": 982800, "load_time_ms": 0.69, "update_time_ms": 2.641}, "training_iteration": 819, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.35687613487244, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 46800, "timesteps_total": 982800, "custom_metrics": {}, "iterations_since_restore": 39, "episodes_this_iter": 298, "episode_reward_min": -10.90554380198309, "date": "2025-09-05_01-49-02", "episode_reward_max": 8.000000650903239, "pid": 3651949, "timestamp": 1757029742, "episode_reward_mean": 3.9313736255395266, "time_total_s": 33505.25935673714, "episodes_total": 84674, "episode_len_mean": 4.043624161073826}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1898.446433544159, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.06971941888332367, "cur_kl_coeff": 0.6407226324081421, "policy_loss": -0.03713615611195564, "vf_explained_var": 0.9876842498779297, "entropy": 1.5876364707946777, "total_loss": 0.04077058285474777, "kl": 0.012778243981301785}, "sample_time_ms": 47047.778, "num_steps_sampled": 984000, "grad_time_ms": 370.778, "num_steps_trained": 984000, "load_time_ms": 0.692, "update_time_ms": 2.63}, "training_iteration": 820, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 48.64233040809631, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 48000, "timesteps_total": 984000, "custom_metrics": {}, "iterations_since_restore": 40, "episodes_this_iter": 300, "episode_reward_min": 4.000073832819711, "date": "2025-09-05_01-49-51", "episode_reward_max": 7.0225889626646305, "pid": 3651949, "timestamp": 1757029791, "episode_reward_mean": 4.010305626357008, "time_total_s": 33553.90168714523, "episodes_total": 84974, "episode_len_mean": 3.9966666666666666}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1945.9118869304657, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.45672476291656494, "cur_kl_coeff": 0.6407226324081421, "policy_loss": -0.039986565709114075, "vf_explained_var": 0.9329177141189575, "entropy": 1.629403829574585, "total_loss": 0.4218178987503052, "kl": 0.007928045466542244}, "sample_time_ms": 47012.644, "num_steps_sampled": 985200, "grad_time_ms": 373.683, "num_steps_trained": 985200, "load_time_ms": 0.692, "update_time_ms": 2.524}, "training_iteration": 821, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.46545338630676, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 49200, "timesteps_total": 985200, "custom_metrics": {}, "iterations_since_restore": 41, "episodes_this_iter": 296, "episode_reward_min": -6.565736108482088, "date": "2025-09-05_01-50-38", "episode_reward_max": 4.008295094160271, "pid": 3651949, "timestamp": 1757029838, "episode_reward_mean": 3.933905593295191, "time_total_s": 33601.36714053154, "episodes_total": 85270, "episode_len_mean": 4.043918918918919}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 1993.0809333324432, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.4314078986644745, "cur_kl_coeff": 0.6407226324081421, "policy_loss": -0.04592595249414444, "vf_explained_var": 0.9293683171272278, "entropy": 1.659238338470459, "total_loss": 0.39231163263320923, "kl": 0.010659330524504185}, "sample_time_ms": 47026.958, "num_steps_sampled": 986400, "grad_time_ms": 374.914, "num_steps_trained": 986400, "load_time_ms": 0.686, "update_time_ms": 2.545}, "training_iteration": 822, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.16904640197754, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 50400, "timesteps_total": 986400, "custom_metrics": {}, "iterations_since_restore": 42, "episodes_this_iter": 297, "episode_reward_min": -5.6757054842679615, "date": "2025-09-05_01-51-26", "episode_reward_max": 5.235548155599991, "pid": 3651949, "timestamp": 1757029886, "episode_reward_mean": 3.9428765355605506, "time_total_s": 33648.53618693352, "episodes_total": 85567, "episode_len_mean": 4.040404040404041}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2039.9213824272156, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.5089528560638428, "cur_kl_coeff": 0.6407226324081421, "policy_loss": -0.03401399031281471, "vf_explained_var": 0.922917366027832, "entropy": 1.7040413618087769, "total_loss": 0.49460160732269287, "kl": 0.030688460916280746}, "sample_time_ms": 46997.095, "num_steps_sampled": 987600, "grad_time_ms": 374.821, "num_steps_trained": 987600, "load_time_ms": 0.685, "update_time_ms": 2.525}, "training_iteration": 823, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.84044909477234, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 51600, "timesteps_total": 987600, "custom_metrics": {}, "iterations_since_restore": 43, "episodes_this_iter": 295, "episode_reward_min": -6.6121411046581, "date": "2025-09-05_01-52-12", "episode_reward_max": 4.108682707183751, "pid": 3651949, "timestamp": 1757029932, "episode_reward_mean": 3.9076012637444864, "time_total_s": 33695.37663602829, "episodes_total": 85862, "episode_len_mean": 4.064406779661017}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2087.2078564167023, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 1.1404789686203003, "cur_kl_coeff": 0.9610840678215027, "policy_loss": -0.039709579199552536, "vf_explained_var": 0.845872163772583, "entropy": 1.638351559638977, "total_loss": 1.1233168840408325, "kl": 0.023460354655981064}, "sample_time_ms": 46991.99, "num_steps_sampled": 988800, "grad_time_ms": 374.628, "num_steps_trained": 988800, "load_time_ms": 0.677, "update_time_ms": 2.581}, "training_iteration": 824, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.286473989486694, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 52800, "timesteps_total": 988800, "custom_metrics": {}, "iterations_since_restore": 44, "episodes_this_iter": 294, "episode_reward_min": -8.143959451174759, "date": "2025-09-05_01-53-00", "episode_reward_max": 4.00212314965405, "pid": 3651949, "timestamp": 1757029980, "episode_reward_mean": 3.848402377541737, "time_total_s": 33742.66311001778, "episodes_total": 86156, "episode_len_mean": 4.095238095238095}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2134.2769277095795, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 1.7005854845046997, "cur_kl_coeff": 1.441625952720642, "policy_loss": -0.03192416951060295, "vf_explained_var": 0.8220586776733398, "entropy": 1.6427675485610962, "total_loss": 1.6911768913269043, "kl": 0.015618092380464077}, "sample_time_ms": 47026.055, "num_steps_sampled": 990000, "grad_time_ms": 372.013, "num_steps_trained": 990000, "load_time_ms": 0.672, "update_time_ms": 2.582}, "training_iteration": 825, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.0690712928772, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 54000, "timesteps_total": 990000, "custom_metrics": {}, "iterations_since_restore": 45, "episodes_this_iter": 295, "episode_reward_min": -15.536150481328825, "date": "2025-09-05_01-53-47", "episode_reward_max": 4.807690528253136, "pid": 3651949, "timestamp": 1757030027, "episode_reward_mean": 3.919624825657352, "time_total_s": 33789.732181310654, "episodes_total": 86451, "episode_len_mean": 4.054237288135593}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2182.042104244232, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.38604265451431274, "cur_kl_coeff": 1.441625952720642, "policy_loss": -0.04679034650325775, "vf_explained_var": 0.939765214920044, "entropy": 1.768547773361206, "total_loss": 0.35393983125686646, "kl": 0.010188158601522446}, "sample_time_ms": 47120.443, "num_steps_sampled": 991200, "grad_time_ms": 370.431, "num_steps_trained": 991200, "load_time_ms": 0.668, "update_time_ms": 2.597}, "training_iteration": 826, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.76517653465271, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 55200, "timesteps_total": 991200, "custom_metrics": {}, "iterations_since_restore": 46, "episodes_this_iter": 297, "episode_reward_min": -6.033127112083864, "date": "2025-09-05_01-54-35", "episode_reward_max": 4.005169908150885, "pid": 3651949, "timestamp": 1757030075, "episode_reward_mean": 3.9243020513043256, "time_total_s": 33837.49735784531, "episodes_total": 86748, "episode_len_mean": 4.05050505050505}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2229.09677529335, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.635163426399231, "cur_kl_coeff": 1.441625952720642, "policy_loss": -0.03038494847714901, "vf_explained_var": 0.9094793796539307, "entropy": 1.6650561094284058, "total_loss": 0.6262122392654419, "kl": 0.01486778724938631}, "sample_time_ms": 47039.827, "num_steps_sampled": 992400, "grad_time_ms": 368.081, "num_steps_trained": 992400, "load_time_ms": 0.663, "update_time_ms": 2.586}, "training_iteration": 827, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.05467104911804, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 56400, "timesteps_total": 992400, "custom_metrics": {}, "iterations_since_restore": 47, "episodes_this_iter": 296, "episode_reward_min": -7.024247210587671, "date": "2025-09-05_01-55-22", "episode_reward_max": 4.0011468467636035, "pid": 3651949, "timestamp": 1757030122, "episode_reward_mean": 3.920057117680865, "time_total_s": 33884.552028894424, "episodes_total": 87044, "episode_len_mean": 4.050675675675675}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2276.7545762062073, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.6999471187591553, "cur_kl_coeff": 1.441625952720642, "policy_loss": -0.030680673196911812, "vf_explained_var": 0.8954805731773376, "entropy": 1.6117959022521973, "total_loss": 0.6958112716674805, "kl": 0.01841317117214203}, "sample_time_ms": 47051.993, "num_steps_sampled": 993600, "grad_time_ms": 369.248, "num_steps_trained": 993600, "load_time_ms": 0.658, "update_time_ms": 2.567}, "training_iteration": 828, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.657800912857056, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 57600, "timesteps_total": 993600, "custom_metrics": {}, "iterations_since_restore": 48, "episodes_this_iter": 297, "episode_reward_min": -8.890578178095616, "date": "2025-09-05_01-56-09", "episode_reward_max": 4.00169898411644, "pid": 3651949, "timestamp": 1757030169, "episode_reward_mean": 3.943147987212985, "time_total_s": 33932.20982980728, "episodes_total": 87341, "episode_len_mean": 4.037037037037037}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2323.897565126419, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.77970290184021, "cur_kl_coeff": 1.441625952720642, "policy_loss": -0.03267605975270271, "vf_explained_var": 0.8793459534645081, "entropy": 1.5757498741149902, "total_loss": 0.7723354697227478, "kl": 0.017555641010403633}, "sample_time_ms": 47029.896, "num_steps_sampled": 994800, "grad_time_ms": 369.836, "num_steps_trained": 994800, "load_time_ms": 0.663, "update_time_ms": 2.566}, "training_iteration": 829, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.14298892021179, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 58800, "timesteps_total": 994800, "custom_metrics": {}, "iterations_since_restore": 49, "episodes_this_iter": 297, "episode_reward_min": -8.222418084432903, "date": "2025-09-05_01-56-57", "episode_reward_max": 4.001790133079298, "pid": 3651949, "timestamp": 1757030217, "episode_reward_mean": 3.932019531520677, "time_total_s": 33979.35281872749, "episodes_total": 87638, "episode_len_mean": 4.043771043771044}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2370.9230823516846, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.9294682741165161, "cur_kl_coeff": 1.441625952720642, "policy_loss": -0.032422881573438644, "vf_explained_var": 0.865056574344635, "entropy": 1.6917376518249512, "total_loss": 0.9142765402793884, "kl": 0.011952572502195835}, "sample_time_ms": 46868.697, "num_steps_sampled": 996000, "grad_time_ms": 369.332, "num_steps_trained": 996000, "load_time_ms": 0.663, "update_time_ms": 2.569}, "training_iteration": 830, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.0255172252655, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 60000, "timesteps_total": 996000, "custom_metrics": {}, "iterations_since_restore": 50, "episodes_this_iter": 296, "episode_reward_min": -9.300588835898967, "date": "2025-09-05_01-57-44", "episode_reward_max": 5.1430368160958, "pid": 3651949, "timestamp": 1757030264, "episode_reward_mean": 3.931883483272182, "time_total_s": 34026.37833595276, "episodes_total": 87934, "episode_len_mean": 4.047297297297297}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2417.963764667511, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 1.0987236499786377, "cur_kl_coeff": 1.441625952720642, "policy_loss": -0.04377513751387596, "vf_explained_var": 0.8681024312973022, "entropy": 1.7562556266784668, "total_loss": 1.060706615447998, "kl": 0.0039943247102200985}, "sample_time_ms": 46827.398, "num_steps_sampled": 997200, "grad_time_ms": 368.127, "num_steps_trained": 997200, "load_time_ms": 0.665, "update_time_ms": 2.606}, "training_iteration": 831, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.040682315826416, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 61200, "timesteps_total": 997200, "custom_metrics": {}, "iterations_since_restore": 51, "episodes_this_iter": 297, "episode_reward_min": -12.745162180962872, "date": "2025-09-05_01-58-31", "episode_reward_max": 7.02983745904732, "pid": 3651949, "timestamp": 1757030311, "episode_reward_mean": 3.939681231334518, "time_total_s": 34073.419018268585, "episodes_total": 88231, "episode_len_mean": 4.05050505050505}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2465.346343755722, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.13873285055160522, "cur_kl_coeff": 0.720812976360321, "policy_loss": -0.0576799176633358, "vf_explained_var": 0.9778363108634949, "entropy": 1.6161856651306152, "total_loss": 0.09548873454332352, "kl": 0.020027123391628265}, "sample_time_ms": 46850.782, "num_steps_sampled": 998400, "grad_time_ms": 366.186, "num_steps_trained": 998400, "load_time_ms": 0.666, "update_time_ms": 2.606}, "training_iteration": 832, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.38257908821106, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 62400, "timesteps_total": 998400, "custom_metrics": {}, "iterations_since_restore": 52, "episodes_this_iter": 299, "episode_reward_min": -2.147231516732976, "date": "2025-09-05_01-59-18", "episode_reward_max": 4.095067117194328, "pid": 3651949, "timestamp": 1757030358, "episode_reward_mean": 3.9799889385349365, "time_total_s": 34120.801597356796, "episodes_total": 88530, "episode_len_mean": 4.013377926421405}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2512.917120218277, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.2457091212272644, "cur_kl_coeff": 1.0812194347381592, "policy_loss": -0.02650185115635395, "vf_explained_var": 0.9576071500778198, "entropy": 1.5629717111587524, "total_loss": 0.2660810649394989, "kl": 0.04335271939635277}, "sample_time_ms": 46923.492, "num_steps_sampled": 999600, "grad_time_ms": 366.587, "num_steps_trained": 999600, "load_time_ms": 0.667, "update_time_ms": 2.581}, "training_iteration": 833, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.57077646255493, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 63600, "timesteps_total": 999600, "custom_metrics": {}, "iterations_since_restore": 53, "episodes_this_iter": 299, "episode_reward_min": -4.067028611526574, "date": "2025-09-05_02-00-06", "episode_reward_max": 4.002652899814295, "pid": 3651949, "timestamp": 1757030406, "episode_reward_mean": 3.965485489524469, "time_total_s": 34168.37237381935, "episodes_total": 88829, "episode_len_mean": 4.023411371237458}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2560.136365890503, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.1777401566505432, "cur_kl_coeff": 1.6218292713165283, "policy_loss": -0.03697414696216583, "vf_explained_var": 0.9705994129180908, "entropy": 1.5341241359710693, "total_loss": 0.1595187485218048, "kl": 0.011562712490558624}, "sample_time_ms": 46917.701, "num_steps_sampled": 1000800, "grad_time_ms": 365.683, "num_steps_trained": 1000800, "load_time_ms": 0.666, "update_time_ms": 2.508}, "training_iteration": 834, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.21924567222595, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 64800, "timesteps_total": 1000800, "custom_metrics": {}, "iterations_since_restore": 54, "episodes_this_iter": 296, "episode_reward_min": -3.8470397589171252, "date": "2025-09-05_02-00-53", "episode_reward_max": 4.0097646123115815, "pid": 3651949, "timestamp": 1757030453, "episode_reward_mean": 3.950852984420732, "time_total_s": 34215.59161949158, "episodes_total": 89125, "episode_len_mean": 4.033783783783784}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2607.7824144363403, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.0038141896948218346, "cur_kl_coeff": 1.6218292713165283, "policy_loss": -0.10900921374559402, "vf_explained_var": 0.9992968440055847, "entropy": 1.586694359779358, "total_loss": -0.05552603676915169, "kl": 0.030625291168689728}, "sample_time_ms": 46973.064, "num_steps_sampled": 1002000, "grad_time_ms": 368.008, "num_steps_trained": 1002000, "load_time_ms": 0.673, "update_time_ms": 2.525}, "training_iteration": 835, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.6460485458374, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 66000, "timesteps_total": 1002000, "custom_metrics": {}, "iterations_since_restore": 55, "episodes_this_iter": 300, "episode_reward_min": 4.000079768933953, "date": "2025-09-05_02-01-41", "episode_reward_max": 4.001702279138652, "pid": 3651949, "timestamp": 1757030501, "episode_reward_mean": 4.0002246964451595, "time_total_s": 34263.237668037415, "episodes_total": 89425, "episode_len_mean": 4.0}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2654.4209916591644, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 2.109739303588867, "cur_kl_coeff": 2.432743787765503, "policy_loss": -0.04223893955349922, "vf_explained_var": 0.7424198389053345, "entropy": 1.7431635856628418, "total_loss": 2.084862470626831, "kl": 0.007136723026633263}, "sample_time_ms": 46857.348, "num_steps_sampled": 1003200, "grad_time_ms": 371.02, "num_steps_trained": 1003200, "load_time_ms": 0.69, "update_time_ms": 2.523}, "training_iteration": 836, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.6385772228241, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 67200, "timesteps_total": 1003200, "custom_metrics": {}, "iterations_since_restore": 56, "episodes_this_iter": 291, "episode_reward_min": -6.951200583934202, "date": "2025-09-05_02-02-27", "episode_reward_max": 4.0024479785942555, "pid": 3651949, "timestamp": 1757030547, "episode_reward_mean": 3.808239847125168, "time_total_s": 34309.87624526024, "episodes_total": 89716, "episode_len_mean": 4.123711340206185}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2702.0383739471436, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 6.08589506149292, "cur_kl_coeff": 2.432743787765503, "policy_loss": -0.059231605380773544, "vf_explained_var": 0.5848007798194885, "entropy": 1.8705410957336426, "total_loss": 6.044958591461182, "kl": 0.007520413026213646}, "sample_time_ms": 46912.26, "num_steps_sampled": 1004400, "grad_time_ms": 372.301, "num_steps_trained": 1004400, "load_time_ms": 0.688, "update_time_ms": 2.568}, "training_iteration": 837, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.617382287979126, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 68400, "timesteps_total": 1004400, "custom_metrics": {}, "iterations_since_restore": 57, "episodes_this_iter": 287, "episode_reward_min": -21.969267051290664, "date": "2025-09-05_02-03-15", "episode_reward_max": 4.002718773356998, "pid": 3651949, "timestamp": 1757030595, "episode_reward_mean": 3.695349864450316, "time_total_s": 34357.49362754822, "episodes_total": 90003, "episode_len_mean": 4.195121951219512}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2748.893737077713, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 2.9250335693359375, "cur_kl_coeff": 2.432743787765503, "policy_loss": -0.06444211304187775, "vf_explained_var": 0.6794325709342957, "entropy": 1.9101426601409912, "total_loss": 2.895181179046631, "kl": 0.014218462631106377}, "sample_time_ms": 46833.444, "num_steps_sampled": 1005600, "grad_time_ms": 370.834, "num_steps_trained": 1005600, "load_time_ms": 0.686, "update_time_ms": 2.566}, "training_iteration": 838, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.85536313056946, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 69600, "timesteps_total": 1005600, "custom_metrics": {}, "iterations_since_restore": 58, "episodes_this_iter": 286, "episode_reward_min": -13.15736932629656, "date": "2025-09-05_02-04-02", "episode_reward_max": 4.001995336854362, "pid": 3651949, "timestamp": 1757030642, "episode_reward_mean": 3.7075084388967254, "time_total_s": 34404.34899067879, "episodes_total": 90289, "episode_len_mean": 4.185314685314685}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2796.1250982284546, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.7307040691375732, "cur_kl_coeff": 2.432743787765503, "policy_loss": -0.04437698423862457, "vf_explained_var": 0.8905224204063416, "entropy": 1.7138915061950684, "total_loss": 0.7109454274177551, "kl": 0.010119595564901829}, "sample_time_ms": 46839.632, "num_steps_sampled": 1006800, "grad_time_ms": 373.49, "num_steps_trained": 1006800, "load_time_ms": 0.694, "update_time_ms": 2.594}, "training_iteration": 839, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.23136115074158, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 70800, "timesteps_total": 1006800, "custom_metrics": {}, "iterations_since_restore": 59, "episodes_this_iter": 295, "episode_reward_min": -7.067287220283557, "date": "2025-09-05_02-04-49", "episode_reward_max": 4.0160442478173355, "pid": 3651949, "timestamp": 1757030689, "episode_reward_mean": 3.90216877290391, "time_total_s": 34451.58035182953, "episodes_total": 90584, "episode_len_mean": 4.064406779661017}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2843.541459083557, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.6730295419692993, "cur_kl_coeff": 2.432743787765503, "policy_loss": -0.051897481083869934, "vf_explained_var": 0.8944464921951294, "entropy": 1.6187870502471924, "total_loss": 0.6266192197799683, "kl": 0.0022555519826710224}, "sample_time_ms": 46877.723, "num_steps_sampled": 1008000, "grad_time_ms": 374.493, "num_steps_trained": 1008000, "load_time_ms": 0.69, "update_time_ms": 2.616}, "training_iteration": 840, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.41636085510254, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 72000, "timesteps_total": 1008000, "custom_metrics": {}, "iterations_since_restore": 60, "episodes_this_iter": 297, "episode_reward_min": -6.623467773245288, "date": "2025-09-05_02-05-36", "episode_reward_max": 5.028262547214235, "pid": 3651949, "timestamp": 1757030736, "episode_reward_mean": 3.932894433019231, "time_total_s": 34498.99671268463, "episodes_total": 90881, "episode_len_mean": 4.047138047138047}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2892.0355756282806, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.014225517399609089, "cur_kl_coeff": 1.2163718938827515, "policy_loss": -0.09503839910030365, "vf_explained_var": 0.9973185062408447, "entropy": 1.5763732194900513, "total_loss": -0.05183200538158417, "kl": 0.023825662210583687}, "sample_time_ms": 47023.204, "num_steps_sampled": 1009200, "grad_time_ms": 374.407, "num_steps_trained": 1009200, "load_time_ms": 0.679, "update_time_ms": 2.592}, "training_iteration": 841, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 48.49411654472351, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 73200, "timesteps_total": 1009200, "custom_metrics": {}, "iterations_since_restore": 61, "episodes_this_iter": 300, "episode_reward_min": 4.000054628599927, "date": "2025-09-05_02-06-25", "episode_reward_max": 4.005483043406404, "pid": 3651949, "timestamp": 1757030785, "episode_reward_mean": 4.00024954384086, "time_total_s": 34547.490829229355, "episodes_total": 91181, "episode_len_mean": 4.0}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2939.398644924164, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.783150851726532, "cur_kl_coeff": 1.8245577812194824, "policy_loss": -0.032420676201581955, "vf_explained_var": 0.8862425684928894, "entropy": 1.589916706085205, "total_loss": 0.7971222996711731, "kl": 0.02542654052376747}, "sample_time_ms": 47019.846, "num_steps_sampled": 1010400, "grad_time_ms": 375.712, "num_steps_trained": 1010400, "load_time_ms": 0.683, "update_time_ms": 2.614}, "training_iteration": 842, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.36306929588318, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 74400, "timesteps_total": 1010400, "custom_metrics": {}, "iterations_since_restore": 62, "episodes_this_iter": 299, "episode_reward_min": -6.313502860682476, "date": "2025-09-05_02-07-12", "episode_reward_max": 7.0249180039085815, "pid": 3651949, "timestamp": 1757030832, "episode_reward_mean": 3.9758396316724185, "time_total_s": 34594.85389852524, "episodes_total": 91480, "episode_len_mean": 4.0200668896321075}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 2986.665239095688, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.34120887517929077, "cur_kl_coeff": 2.7368369102478027, "policy_loss": -0.048503000289201736, "vf_explained_var": 0.9429805278778076, "entropy": 1.6626811027526855, "total_loss": 0.3047863841056824, "kl": 0.004414035473018885}, "sample_time_ms": 46989.827, "num_steps_sampled": 1011600, "grad_time_ms": 375.314, "num_steps_trained": 1011600, "load_time_ms": 0.675, "update_time_ms": 2.645}, "training_iteration": 843, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.26659417152405, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 75600, "timesteps_total": 1011600, "custom_metrics": {}, "iterations_since_restore": 63, "episodes_this_iter": 296, "episode_reward_min": -7.844585469642691, "date": "2025-09-05_02-08-00", "episode_reward_max": 4.103040915534221, "pid": 3651949, "timestamp": 1757030880, "episode_reward_mean": 3.926104031881041, "time_total_s": 34642.12049269676, "episodes_total": 91776, "episode_len_mean": 4.047297297297297}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3033.6946427822113, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 1.7640461921691895, "cur_kl_coeff": 1.3684184551239014, "policy_loss": -0.048718929290771484, "vf_explained_var": 0.7972148060798645, "entropy": 1.7225337028503418, "total_loss": 1.7359509468078613, "kl": 0.015071181580424309}, "sample_time_ms": 46971.756, "num_steps_sampled": 1012800, "grad_time_ms": 374.371, "num_steps_trained": 1012800, "load_time_ms": 0.676, "update_time_ms": 2.658}, "training_iteration": 844, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.02940368652344, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 76800, "timesteps_total": 1012800, "custom_metrics": {}, "iterations_since_restore": 64, "episodes_this_iter": 293, "episode_reward_min": -10.947529744655213, "date": "2025-09-05_02-08-47", "episode_reward_max": 4.003919068362274, "pid": 3651949, "timestamp": 1757030927, "episode_reward_mean": 3.855561278102881, "time_total_s": 34689.149896383286, "episodes_total": 92069, "episode_len_mean": 4.09556313993174}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3081.054685115814, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.11681367456912994, "cur_kl_coeff": 1.3684184551239014, "policy_loss": -0.054528847336769104, "vf_explained_var": 0.9810612797737122, "entropy": 1.6391432285308838, "total_loss": 0.08083418011665344, "kl": 0.013555314391851425}, "sample_time_ms": 46943.11, "num_steps_sampled": 1014000, "grad_time_ms": 374.353, "num_steps_trained": 1014000, "load_time_ms": 0.692, "update_time_ms": 2.664}, "training_iteration": 845, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.360042333602905, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 78000, "timesteps_total": 1014000, "custom_metrics": {}, "iterations_since_restore": 65, "episodes_this_iter": 298, "episode_reward_min": -3.8104298060247075, "date": "2025-09-05_02-09-34", "episode_reward_max": 4.0021551713484484, "pid": 3651949, "timestamp": 1757030974, "episode_reward_mean": 3.974042861101505, "time_total_s": 34736.50993871689, "episodes_total": 92367, "episode_len_mean": 4.02013422818792}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3128.471792936325, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 6.564021587371826, "cur_kl_coeff": 1.3684184551239014, "policy_loss": -0.05545325577259064, "vf_explained_var": 0.6222854256629944, "entropy": 1.926668643951416, "total_loss": 6.520650863647461, "kl": 0.0088294493034482}, "sample_time_ms": 47023.704, "num_steps_sampled": 1015200, "grad_time_ms": 371.66, "num_steps_trained": 1015200, "load_time_ms": 0.673, "update_time_ms": 2.689}, "training_iteration": 846, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.417107820510864, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 79200, "timesteps_total": 1015200, "custom_metrics": {}, "iterations_since_restore": 66, "episodes_this_iter": 286, "episode_reward_min": -22.18296229789366, "date": "2025-09-05_02-10-22", "episode_reward_max": 4.0009488497783146, "pid": 3651949, "timestamp": 1757031022, "episode_reward_mean": 3.7816032490069897, "time_total_s": 34783.9270465374, "episodes_total": 92653, "episode_len_mean": 4.143356643356643}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3175.341913461685, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.9627919793128967, "cur_kl_coeff": 1.3684184551239014, "policy_loss": -0.06439124047756195, "vf_explained_var": 0.8632643818855286, "entropy": 1.6867482662200928, "total_loss": 0.9128870368003845, "kl": 0.010586160235106945}, "sample_time_ms": 46949.055, "num_steps_sampled": 1016400, "grad_time_ms": 371.604, "num_steps_trained": 1016400, "load_time_ms": 0.667, "update_time_ms": 2.68}, "training_iteration": 847, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.87012052536011, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 80400, "timesteps_total": 1016400, "custom_metrics": {}, "iterations_since_restore": 67, "episodes_this_iter": 296, "episode_reward_min": -22.6179959140363, "date": "2025-09-05_02-11-08", "episode_reward_max": 4.002575296955297, "pid": 3651949, "timestamp": 1757031068, "episode_reward_mean": 3.831446230988727, "time_total_s": 34830.79716706276, "episodes_total": 92949, "episode_len_mean": 4.10472972972973}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3222.875273704529, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 1.5744482278823853, "cur_kl_coeff": 1.3684184551239014, "policy_loss": -0.04186302050948143, "vf_explained_var": 0.805033266544342, "entropy": 1.647596836090088, "total_loss": 1.5444416999816895, "kl": 0.008664320223033428}, "sample_time_ms": 47015.608, "num_steps_sampled": 1017600, "grad_time_ms": 372.874, "num_steps_trained": 1017600, "load_time_ms": 0.667, "update_time_ms": 2.704}, "training_iteration": 848, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.53336024284363, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 81600, "timesteps_total": 1017600, "custom_metrics": {}, "iterations_since_restore": 68, "episodes_this_iter": 295, "episode_reward_min": -13.01126053137859, "date": "2025-09-05_02-11-56", "episode_reward_max": 4.002531271831623, "pid": 3651949, "timestamp": 1757031116, "episode_reward_mean": 3.8875773331045975, "time_total_s": 34878.3305273056, "episodes_total": 93244, "episode_len_mean": 4.074576271186441}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3270.9713361263275, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.5337961316108704, "cur_kl_coeff": 1.3684184551239014, "policy_loss": -0.03373105078935623, "vf_explained_var": 0.9197341203689575, "entropy": 1.52744722366333, "total_loss": 0.5145151019096375, "kl": 0.010559634305536747}, "sample_time_ms": 47105.408, "num_steps_sampled": 1018800, "grad_time_ms": 369.658, "num_steps_trained": 1018800, "load_time_ms": 0.652, "update_time_ms": 2.675}, "training_iteration": 849, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 48.096062421798706, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 82800, "timesteps_total": 1018800, "custom_metrics": {}, "iterations_since_restore": 69, "episodes_this_iter": 297, "episode_reward_min": -6.030843978558636, "date": "2025-09-05_02-12-44", "episode_reward_max": 4.0022888603229845, "pid": 3651949, "timestamp": 1757031164, "episode_reward_mean": 3.9326035464886924, "time_total_s": 34926.4265897274, "episodes_total": 93541, "episode_len_mean": 4.040404040404041}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3318.1038093566895, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.17231231927871704, "cur_kl_coeff": 1.3684184551239014, "policy_loss": -0.040909189730882645, "vf_explained_var": 0.969477117061615, "entropy": 1.5548286437988281, "total_loss": 0.15273785591125488, "kl": 0.01559081207960844}, "sample_time_ms": 47077.918, "num_steps_sampled": 1020000, "grad_time_ms": 368.771, "num_steps_trained": 1020000, "load_time_ms": 0.649, "update_time_ms": 2.641}, "training_iteration": 850, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.13247323036194, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 84000, "timesteps_total": 1020000, "custom_metrics": {}, "iterations_since_restore": 70, "episodes_this_iter": 299, "episode_reward_min": -2.0964218592211097, "date": "2025-09-05_02-13-31", "episode_reward_max": 4.100479878668449, "pid": 3651949, "timestamp": 1757031211, "episode_reward_mean": 3.9801735274010057, "time_total_s": 34973.559062957764, "episodes_total": 93840, "episode_len_mean": 4.013377926421405}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3365.2187576293945, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 3.737804889678955, "cur_kl_coeff": 1.3684184551239014, "policy_loss": -0.04222143813967705, "vf_explained_var": 0.7075552344322205, "entropy": 1.907225251197815, "total_loss": 3.7077810764312744, "kl": 0.008913558907806873}, "sample_time_ms": 46941.779, "num_steps_sampled": 1021200, "grad_time_ms": 366.88, "num_steps_trained": 1021200, "load_time_ms": 0.652, "update_time_ms": 2.777}, "training_iteration": 851, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.11494827270508, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 85200, "timesteps_total": 1021200, "custom_metrics": {}, "iterations_since_restore": 71, "episodes_this_iter": 292, "episode_reward_min": -20.45980288708402, "date": "2025-09-05_02-14-18", "episode_reward_max": 4.003708898444644, "pid": 3651949, "timestamp": 1757031258, "episode_reward_mean": 3.832519360572173, "time_total_s": 35020.67401123047, "episodes_total": 94132, "episode_len_mean": 4.109589041095891}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3412.5559413433075, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.5083017945289612, "cur_kl_coeff": 1.3684184551239014, "policy_loss": -0.04789041355252266, "vf_explained_var": 0.9286045432090759, "entropy": 1.7039881944656372, "total_loss": 0.4770981967449188, "kl": 0.012194222770631313}, "sample_time_ms": 46938.688, "num_steps_sampled": 1022400, "grad_time_ms": 367.508, "num_steps_trained": 1022400, "load_time_ms": 0.65, "update_time_ms": 2.724}, "training_iteration": 852, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.337183713912964, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 86400, "timesteps_total": 1022400, "custom_metrics": {}, "iterations_since_restore": 72, "episodes_this_iter": 298, "episode_reward_min": -10.305195964145561, "date": "2025-09-05_02-15-06", "episode_reward_max": 4.001530080673005, "pid": 3651949, "timestamp": 1757031306, "episode_reward_mean": 3.9386926428444164, "time_total_s": 35068.01119494438, "episodes_total": 94430, "episode_len_mean": 4.040268456375839}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3461.169378042221, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.9372121095657349, "cur_kl_coeff": 1.3684184551239014, "policy_loss": -0.04090845212340355, "vf_explained_var": 0.8610450029373169, "entropy": 1.8454023599624634, "total_loss": 0.9138251543045044, "kl": 0.012804157100617886}, "sample_time_ms": 47072.679, "num_steps_sampled": 1023600, "grad_time_ms": 368.146, "num_steps_trained": 1023600, "load_time_ms": 0.672, "update_time_ms": 2.734}, "training_iteration": 853, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 48.613436698913574, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 87600, "timesteps_total": 1023600, "custom_metrics": {}, "iterations_since_restore": 73, "episodes_this_iter": 294, "episode_reward_min": -6.752795301199743, "date": "2025-09-05_02-15-54", "episode_reward_max": 4.001648529056688, "pid": 3651949, "timestamp": 1757031354, "episode_reward_mean": 3.8833382461296617, "time_total_s": 35116.624631643295, "episodes_total": 94724, "episode_len_mean": 4.074829931972789}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3508.2650122642517, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.9866107106208801, "cur_kl_coeff": 1.3684184551239014, "policy_loss": -0.03655135631561279, "vf_explained_var": 0.8712561726570129, "entropy": 1.7019932270050049, "total_loss": 0.9718363881111145, "kl": 0.01591402105987072}, "sample_time_ms": 47079.812, "num_steps_sampled": 1024800, "grad_time_ms": 367.695, "num_steps_trained": 1024800, "load_time_ms": 0.672, "update_time_ms": 2.773}, "training_iteration": 854, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.09563422203064, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 88800, "timesteps_total": 1024800, "custom_metrics": {}, "iterations_since_restore": 74, "episodes_this_iter": 297, "episode_reward_min": -10.947154128957422, "date": "2025-09-05_02-16-42", "episode_reward_max": 4.155761849921854, "pid": 3651949, "timestamp": 1757031402, "episode_reward_mean": 3.937459962800192, "time_total_s": 35163.720265865326, "episodes_total": 95021, "episode_len_mean": 4.043771043771044}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3555.659045934677, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.29008471965789795, "cur_kl_coeff": 1.3684184551239014, "policy_loss": -0.04245949909090996, "vf_explained_var": 0.9557339549064636, "entropy": 1.6644426584243774, "total_loss": 0.25923487544059753, "kl": 0.008484016172587872}, "sample_time_ms": 47084.179, "num_steps_sampled": 1026000, "grad_time_ms": 366.68, "num_steps_trained": 1026000, "load_time_ms": 0.655, "update_time_ms": 2.755}, "training_iteration": 855, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.394033670425415, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 90000, "timesteps_total": 1026000, "custom_metrics": {}, "iterations_since_restore": 75, "episodes_this_iter": 297, "episode_reward_min": -3.0937475399149967, "date": "2025-09-05_02-17-29", "episode_reward_max": 4.111535597011368, "pid": 3651949, "timestamp": 1757031449, "episode_reward_mean": 3.9604825164549546, "time_total_s": 35211.11429953575, "episodes_total": 95318, "episode_len_mean": 4.026936026936027}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3602.757490158081, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.42554929852485657, "cur_kl_coeff": 1.3684184551239014, "policy_loss": -0.03615068271756172, "vf_explained_var": 0.9381406307220459, "entropy": 1.572040319442749, "total_loss": 0.3967033922672272, "kl": 0.005338112823665142}, "sample_time_ms": 47050.886, "num_steps_sampled": 1027200, "grad_time_ms": 368.127, "num_steps_trained": 1027200, "load_time_ms": 0.653, "update_time_ms": 2.747}, "training_iteration": 856, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.09844422340393, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 91200, "timesteps_total": 1027200, "custom_metrics": {}, "iterations_since_restore": 76, "episodes_this_iter": 298, "episode_reward_min": -9.032099651438411, "date": "2025-09-05_02-18-16", "episode_reward_max": 4.002385814516934, "pid": 3651949, "timestamp": 1757031496, "episode_reward_mean": 3.9564894929866226, "time_total_s": 35258.212743759155, "episodes_total": 95616, "episode_len_mean": 4.030201342281879}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3649.9481089115143, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 1.4891831874847412, "cur_kl_coeff": 1.3684184551239014, "policy_loss": -0.046019166707992554, "vf_explained_var": 0.8592383861541748, "entropy": 1.877967357635498, "total_loss": 1.4562660455703735, "kl": 0.009574709460139275}, "sample_time_ms": 47084.627, "num_steps_sampled": 1028400, "grad_time_ms": 366.468, "num_steps_trained": 1028400, "load_time_ms": 0.653, "update_time_ms": 2.744}, "training_iteration": 857, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.19061875343323, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 92400, "timesteps_total": 1028400, "custom_metrics": {}, "iterations_since_restore": 77, "episodes_this_iter": 293, "episode_reward_min": -18.206337076477084, "date": "2025-09-05_02-19-03", "episode_reward_max": 4.0019244035208015, "pid": 3651949, "timestamp": 1757031543, "episode_reward_mean": 3.85261970829871, "time_total_s": 35305.40336251259, "episodes_total": 95909, "episode_len_mean": 4.098976109215017}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3698.411008119583, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.951488196849823, "cur_kl_coeff": 1.3684184551239014, "policy_loss": -0.03943841904401779, "vf_explained_var": 0.8684049248695374, "entropy": 1.7809098958969116, "total_loss": 0.9446311593055725, "kl": 0.023809516802430153}, "sample_time_ms": 47178.333, "num_steps_sampled": 1029600, "grad_time_ms": 365.734, "num_steps_trained": 1029600, "load_time_ms": 0.659, "update_time_ms": 2.72}, "training_iteration": 858, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 48.46289920806885, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 93600, "timesteps_total": 1029600, "custom_metrics": {}, "iterations_since_restore": 78, "episodes_this_iter": 296, "episode_reward_min": -8.768533616429245, "date": "2025-09-05_02-19-52", "episode_reward_max": 6.0080410600827285, "pid": 3651949, "timestamp": 1757031592, "episode_reward_mean": 3.929065338838763, "time_total_s": 35353.86626172066, "episodes_total": 96205, "episode_len_mean": 4.050675675675675}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3745.399493455887, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.15092967450618744, "cur_kl_coeff": 2.0526275634765625, "policy_loss": -0.04178021848201752, "vf_explained_var": 0.97370445728302, "entropy": 1.6728134155273438, "total_loss": 0.1301470547914505, "kl": 0.010229609906673431}, "sample_time_ms": 47066.693, "num_steps_sampled": 1030800, "grad_time_ms": 366.571, "num_steps_trained": 1030800, "load_time_ms": 0.664, "update_time_ms": 2.733}, "training_iteration": 859, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.98848533630371, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 94800, "timesteps_total": 1030800, "custom_metrics": {}, "iterations_since_restore": 79, "episodes_this_iter": 299, "episode_reward_min": -2.063900500181365, "date": "2025-09-05_02-20-39", "episode_reward_max": 4.001913774707609, "pid": 3651949, "timestamp": 1757031639, "episode_reward_mean": 3.9799500736541122, "time_total_s": 35400.85474705696, "episodes_total": 96504, "episode_len_mean": 4.013377926421405}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3792.646115064621, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.08895605057477951, "cur_kl_coeff": 2.0526275634765625, "policy_loss": -0.03882890194654465, "vf_explained_var": 0.9836444854736328, "entropy": 1.5997546911239624, "total_loss": 0.06255945563316345, "kl": 0.006056779995560646}, "sample_time_ms": 47076.069, "num_steps_sampled": 1032000, "grad_time_ms": 368.547, "num_steps_trained": 1032000, "load_time_ms": 0.668, "update_time_ms": 2.726}, "training_iteration": 860, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.24662160873413, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 96000, "timesteps_total": 1032000, "custom_metrics": {}, "iterations_since_restore": 80, "episodes_this_iter": 300, "episode_reward_min": -0.029156556361344954, "date": "2025-09-05_02-21-26", "episode_reward_max": 4.000943291599288, "pid": 3651949, "timestamp": 1757031686, "episode_reward_mean": 3.9867878021114804, "time_total_s": 35448.101368665695, "episodes_total": 96804, "episode_len_mean": 4.01}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3839.9683599472046, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.00448631402105093, "cur_kl_coeff": 2.0526275634765625, "policy_loss": -0.04847244918346405, "vf_explained_var": 0.9991893768310547, "entropy": 1.626355767250061, "total_loss": -0.004763439297676086, "kl": 0.019108539447188377}, "sample_time_ms": 47093.837, "num_steps_sampled": 1033200, "grad_time_ms": 371.567, "num_steps_trained": 1033200, "load_time_ms": 0.676, "update_time_ms": 2.601}, "training_iteration": 861, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.32224488258362, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 97200, "timesteps_total": 1033200, "custom_metrics": {}, "iterations_since_restore": 81, "episodes_this_iter": 300, "episode_reward_min": 4.000071485714502, "date": "2025-09-05_02-22-13", "episode_reward_max": 4.004060045472517, "pid": 3651949, "timestamp": 1757031733, "episode_reward_mean": 4.000229414012279, "time_total_s": 35495.42361354828, "episodes_total": 97104, "episode_len_mean": 4.0}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3887.524997472763, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.22216840088367462, "cur_kl_coeff": 2.0526275634765625, "policy_loss": -0.030925869941711426, "vf_explained_var": 0.961039662361145, "entropy": 1.690726399421692, "total_loss": 0.19594722986221313, "kl": 0.0022920460905879736}, "sample_time_ms": 47117.983, "num_steps_sampled": 1034400, "grad_time_ms": 369.372, "num_steps_trained": 1034400, "load_time_ms": 0.673, "update_time_ms": 2.634}, "training_iteration": 862, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.55663752555847, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 98400, "timesteps_total": 1034400, "custom_metrics": {}, "iterations_since_restore": 82, "episodes_this_iter": 298, "episode_reward_min": -2.9009658105735845, "date": "2025-09-05_02-23-01", "episode_reward_max": 4.153891133343445, "pid": 3651949, "timestamp": 1757031781, "episode_reward_mean": 3.9575125160733085, "time_total_s": 35542.98025107384, "episodes_total": 97402, "episode_len_mean": 4.030201342281879}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3934.716385126114, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 1.4149174690246582, "cur_kl_coeff": 1.0263137817382812, "policy_loss": -0.028615090996026993, "vf_explained_var": 0.8368207812309265, "entropy": 1.80344557762146, "total_loss": 1.3911685943603516, "kl": 0.0047414242289960384}, "sample_time_ms": 46975.155, "num_steps_sampled": 1035600, "grad_time_ms": 369.995, "num_steps_trained": 1035600, "load_time_ms": 0.661, "update_time_ms": 2.587}, "training_iteration": 863, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.19138765335083, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 99600, "timesteps_total": 1035600, "custom_metrics": {}, "iterations_since_restore": 83, "episodes_this_iter": 297, "episode_reward_min": -14.568411083173391, "date": "2025-09-05_02-23-48", "episode_reward_max": 4.0021343322353475, "pid": 3651949, "timestamp": 1757031828, "episode_reward_mean": 3.9377038734228167, "time_total_s": 35590.17163872719, "episodes_total": 97699, "episode_len_mean": 4.040404040404041}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 3981.683268070221, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.028436502441763878, "cur_kl_coeff": 0.5131568908691406, "policy_loss": -0.06831005960702896, "vf_explained_var": 0.9948043823242188, "entropy": 1.5992634296417236, "total_loss": -0.019522948190569878, "kl": 0.03965768218040466}, "sample_time_ms": 46959.895, "num_steps_sampled": 1036800, "grad_time_ms": 372.304, "num_steps_trained": 1036800, "load_time_ms": 0.664, "update_time_ms": 2.571}, "training_iteration": 864, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.966882944107056, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 100800, "timesteps_total": 1036800, "custom_metrics": {}, "iterations_since_restore": 84, "episodes_this_iter": 299, "episode_reward_min": 2.5430514569442053, "date": "2025-09-05_02-24-35", "episode_reward_max": 4.097906543848747, "pid": 3651949, "timestamp": 1757031875, "episode_reward_mean": 3.995679893304896, "time_total_s": 35637.138521671295, "episodes_total": 97998, "episode_len_mean": 4.003344481605351}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4029.087103366852, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 1.0207265615463257, "cur_kl_coeff": 0.7697353363037109, "policy_loss": -0.03795013204216957, "vf_explained_var": 0.8686723113059998, "entropy": 1.7936816215515137, "total_loss": 0.9861171245574951, "kl": 0.004340069368481636}, "sample_time_ms": 46959.544, "num_steps_sampled": 1038000, "grad_time_ms": 373.739, "num_steps_trained": 1038000, "load_time_ms": 0.657, "update_time_ms": 2.569}, "training_iteration": 865, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.40383529663086, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 102000, "timesteps_total": 1038000, "custom_metrics": {}, "iterations_since_restore": 85, "episodes_this_iter": 296, "episode_reward_min": -10.615523740509985, "date": "2025-09-05_02-25-23", "episode_reward_max": 4.001541045338795, "pid": 3651949, "timestamp": 1757031923, "episode_reward_mean": 3.912718043270071, "time_total_s": 35684.542356967926, "episodes_total": 98294, "episode_len_mean": 4.0574324324324325}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4076.687091112137, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 1.0759044885635376, "cur_kl_coeff": 0.38486766815185547, "policy_loss": -0.06365203857421875, "vf_explained_var": 0.8513641953468323, "entropy": 1.7185730934143066, "total_loss": 1.0180267095565796, "kl": 0.015002868138253689}, "sample_time_ms": 47008.785, "num_steps_sampled": 1039200, "grad_time_ms": 374.66, "num_steps_trained": 1039200, "load_time_ms": 0.659, "update_time_ms": 2.582}, "training_iteration": 866, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.599987745285034, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 103200, "timesteps_total": 1039200, "custom_metrics": {}, "iterations_since_restore": 86, "episodes_this_iter": 293, "episode_reward_min": -8.442591539847172, "date": "2025-09-05_02-26-10", "episode_reward_max": 4.134358960548335, "pid": 3651949, "timestamp": 1757031970, "episode_reward_mean": 3.8611631546510012, "time_total_s": 35732.14234471321, "episodes_total": 98587, "episode_len_mean": 4.088737201365188}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4123.634033203125, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 2.012903928756714, "cur_kl_coeff": 0.38486766815185547, "policy_loss": -0.055759914219379425, "vf_explained_var": 0.7706321477890015, "entropy": 1.8083112239837646, "total_loss": 1.9681257009506226, "kl": 0.02853398770093918}, "sample_time_ms": 46984.056, "num_steps_sampled": 1040400, "grad_time_ms": 375.05, "num_steps_trained": 1040400, "load_time_ms": 0.661, "update_time_ms": 2.546}, "training_iteration": 867, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.94694209098816, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 104400, "timesteps_total": 1040400, "custom_metrics": {}, "iterations_since_restore": 87, "episodes_this_iter": 291, "episode_reward_min": -8.633827227810752, "date": "2025-09-05_02-26-57", "episode_reward_max": 8.000034105696873, "pid": 3651949, "timestamp": 1757032017, "episode_reward_mean": 3.811383140448338, "time_total_s": 35779.0892868042, "episodes_total": 98878, "episode_len_mean": 4.123711340206185}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4170.876131296158, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 2.61270809173584, "cur_kl_coeff": 0.5773015022277832, "policy_loss": -0.05995117872953415, "vf_explained_var": 0.7350280284881592, "entropy": 1.8723901510238647, "total_loss": 2.5706839561462402, "kl": 0.031053271144628525}, "sample_time_ms": 46863.587, "num_steps_sampled": 1041600, "grad_time_ms": 373.377, "num_steps_trained": 1041600, "load_time_ms": 0.659, "update_time_ms": 2.593}, "training_iteration": 868, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.24209809303284, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 105600, "timesteps_total": 1041600, "custom_metrics": {}, "iterations_since_restore": 88, "episodes_this_iter": 288, "episode_reward_min": -14.332236758290303, "date": "2025-09-05_02-27-44", "episode_reward_max": 4.0084490855803345, "pid": 3651949, "timestamp": 1757032064, "episode_reward_mean": 3.7660020275860706, "time_total_s": 35826.33138489723, "episodes_total": 99166, "episode_len_mean": 4.15625}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4218.02410697937, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 1.6040679216384888, "cur_kl_coeff": 0.8659522533416748, "policy_loss": -0.045723091810941696, "vf_explained_var": 0.7927010655403137, "entropy": 1.7627092599868774, "total_loss": 1.5658777952194214, "kl": 0.008699173107743263}, "sample_time_ms": 46879.924, "num_steps_sampled": 1042800, "grad_time_ms": 372.932, "num_steps_trained": 1042800, "load_time_ms": 0.654, "update_time_ms": 2.578}, "training_iteration": 869, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.14797568321228, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 106800, "timesteps_total": 1042800, "custom_metrics": {}, "iterations_since_restore": 89, "episodes_this_iter": 295, "episode_reward_min": -10.237191955210637, "date": "2025-09-05_02-28-32", "episode_reward_max": 4.344108000962315, "pid": 3651949, "timestamp": 1757032112, "episode_reward_mean": 3.8888261688516033, "time_total_s": 35873.479360580444, "episodes_total": 99461, "episode_len_mean": 4.071186440677966}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4264.8796372413635, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 3.9907429218292236, "cur_kl_coeff": 0.8659522533416748, "policy_loss": -0.03930972144007683, "vf_explained_var": 0.6695454716682434, "entropy": 1.773967981338501, "total_loss": 3.9705400466918945, "kl": 0.022063931450247765}, "sample_time_ms": 46839.657, "num_steps_sampled": 1044000, "grad_time_ms": 374.063, "num_steps_trained": 1044000, "load_time_ms": 0.665, "update_time_ms": 2.636}, "training_iteration": 870, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.85553026199341, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 108000, "timesteps_total": 1044000, "custom_metrics": {}, "iterations_since_restore": 90, "episodes_this_iter": 292, "episode_reward_min": -20.969019081543124, "date": "2025-09-05_02-29-18", "episode_reward_max": 4.000975294547331, "pid": 3651949, "timestamp": 1757032158, "episode_reward_mean": 3.8130491590673063, "time_total_s": 35920.33489084244, "episodes_total": 99753, "episode_len_mean": 4.11986301369863}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4311.608902692795, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 2.4754321575164795, "cur_kl_coeff": 1.2989283800125122, "policy_loss": -0.050115033984184265, "vf_explained_var": 0.7231003642082214, "entropy": 1.8573485612869263, "total_loss": 2.438021183013916, "kl": 0.009780575521290302}, "sample_time_ms": 46782.984, "num_steps_sampled": 1045200, "grad_time_ms": 371.452, "num_steps_trained": 1045200, "load_time_ms": 0.661, "update_time_ms": 2.682}, "training_iteration": 871, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.729265451431274, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 109200, "timesteps_total": 1045200, "custom_metrics": {}, "iterations_since_restore": 91, "episodes_this_iter": 291, "episode_reward_min": -10.805479711689856, "date": "2025-09-05_02-30-05", "episode_reward_max": 4.152770239447509, "pid": 3651949, "timestamp": 1757032205, "episode_reward_mean": 3.8123680193373417, "time_total_s": 35967.06415629387, "episodes_total": 100044, "episode_len_mean": 4.1271477663230245}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4358.617847442627, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 4.531902313232422, "cur_kl_coeff": 1.2989283800125122, "policy_loss": -0.04319247603416443, "vf_explained_var": 0.6909646391868591, "entropy": 1.690366268157959, "total_loss": 4.495872497558594, "kl": 0.005514280870556831}, "sample_time_ms": 46727.646, "num_steps_sampled": 1046400, "grad_time_ms": 372.025, "num_steps_trained": 1046400, "load_time_ms": 0.657, "update_time_ms": 2.662}, "training_iteration": 872, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.00894474983215, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 110400, "timesteps_total": 1046400, "custom_metrics": {}, "iterations_since_restore": 92, "episodes_this_iter": 292, "episode_reward_min": -25.84163814989553, "date": "2025-09-05_02-30-52", "episode_reward_max": 8.00000040038638, "pid": 3651949, "timestamp": 1757032252, "episode_reward_mean": 3.8490710389223346, "time_total_s": 36014.0731010437, "episodes_total": 100336, "episode_len_mean": 4.0993150684931505}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4405.620505571365, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 2.6366374492645264, "cur_kl_coeff": 1.2989283800125122, "policy_loss": -0.05803981050848961, "vf_explained_var": 0.6993056535720825, "entropy": 1.8889535665512085, "total_loss": 2.592402219772339, "kl": 0.010627496987581253}, "sample_time_ms": 46709.217, "num_steps_sampled": 1047600, "grad_time_ms": 371.614, "num_steps_trained": 1047600, "load_time_ms": 0.658, "update_time_ms": 2.688}, "training_iteration": 873, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.0026581287384, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 111600, "timesteps_total": 1047600, "custom_metrics": {}, "iterations_since_restore": 93, "episodes_this_iter": 292, "episode_reward_min": -14.402527847863233, "date": "2025-09-05_02-31-39", "episode_reward_max": 4.144746568904516, "pid": 3651949, "timestamp": 1757032299, "episode_reward_mean": 3.8086088942115413, "time_total_s": 36061.07575917244, "episodes_total": 100628, "episode_len_mean": 4.126712328767123}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4452.6467180252075, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 1.4375331401824951, "cur_kl_coeff": 1.2989283800125122, "policy_loss": -0.05303184688091278, "vf_explained_var": 0.7942469120025635, "entropy": 1.7751680612564087, "total_loss": 1.4004120826721191, "kl": 0.012249093502759933}, "sample_time_ms": 46717.601, "num_steps_sampled": 1048800, "grad_time_ms": 369.234, "num_steps_trained": 1048800, "load_time_ms": 0.65, "update_time_ms": 2.684}, "training_iteration": 874, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.02621245384216, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 112800, "timesteps_total": 1048800, "custom_metrics": {}, "iterations_since_restore": 94, "episodes_this_iter": 289, "episode_reward_min": -6.070105589983218, "date": "2025-09-05_02-32-26", "episode_reward_max": 4.025424877601431, "pid": 3651949, "timestamp": 1757032346, "episode_reward_mean": 3.8043935583327024, "time_total_s": 36108.10197162628, "episodes_total": 100917, "episode_len_mean": 4.131487889273356}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4499.890250205994, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 2.1109554767608643, "cur_kl_coeff": 1.2989283800125122, "policy_loss": -0.04051174595952034, "vf_explained_var": 0.7790870666503906, "entropy": 1.6913646459579468, "total_loss": 2.08211088180542, "kl": 0.008982077240943909}, "sample_time_ms": 46703.177, "num_steps_sampled": 1050000, "grad_time_ms": 367.624, "num_steps_trained": 1050000, "load_time_ms": 0.652, "update_time_ms": 2.661}, "training_iteration": 875, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.24353218078613, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 114000, "timesteps_total": 1050000, "custom_metrics": {}, "iterations_since_restore": 95, "episodes_this_iter": 296, "episode_reward_min": -17.520288488662782, "date": "2025-09-05_02-33-14", "episode_reward_max": 4.002623502880692, "pid": 3651949, "timestamp": 1757032394, "episode_reward_mean": 3.885369529685228, "time_total_s": 36155.34550380707, "episodes_total": 101213, "episode_len_mean": 4.070945945945946}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4549.380757570267, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.08191846311092377, "cur_kl_coeff": 1.2989283800125122, "policy_loss": -0.05402367189526558, "vf_explained_var": 0.9858669638633728, "entropy": 1.666379690170288, "total_loss": 0.042791612446308136, "kl": 0.011468542739748955}, "sample_time_ms": 46894.061, "num_steps_sampled": 1051200, "grad_time_ms": 365.753, "num_steps_trained": 1051200, "load_time_ms": 0.664, "update_time_ms": 2.657}, "training_iteration": 876, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 49.49050736427307, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 115200, "timesteps_total": 1051200, "custom_metrics": {}, "iterations_since_restore": 96, "episodes_this_iter": 298, "episode_reward_min": -1.1716103910594278, "date": "2025-09-05_02-34-03", "episode_reward_max": 4.0014497598455065, "pid": 3651949, "timestamp": 1757032443, "episode_reward_mean": 3.972802016711378, "time_total_s": 36204.83601117134, "episodes_total": 101511, "episode_len_mean": 4.02013422818792}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4596.379050016403, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.010374766774475574, "cur_kl_coeff": 1.2989283800125122, "policy_loss": -0.07171420753002167, "vf_explained_var": 0.9980847835540771, "entropy": 1.6615816354751587, "total_loss": -0.0277959443628788, "kl": 0.02582397870719433}, "sample_time_ms": 46898.966, "num_steps_sampled": 1052400, "grad_time_ms": 365.953, "num_steps_trained": 1052400, "load_time_ms": 0.663, "update_time_ms": 2.664}, "training_iteration": 877, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.998292446136475, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 116400, "timesteps_total": 1052400, "custom_metrics": {}, "iterations_since_restore": 97, "episodes_this_iter": 300, "episode_reward_min": 4.000078448041956, "date": "2025-09-05_02-34-50", "episode_reward_max": 4.098817023428135, "pid": 3651949, "timestamp": 1757032490, "episode_reward_mean": 4.000537573356013, "time_total_s": 36251.83430361748, "episodes_total": 101811, "episode_len_mean": 4.0}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4643.824803829193, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 2.7474539279937744, "cur_kl_coeff": 1.948392629623413, "policy_loss": -0.04414926841855049, "vf_explained_var": 0.7470448613166809, "entropy": 1.794586181640625, "total_loss": 2.712033271789551, "kl": 0.004480044357478619}, "sample_time_ms": 46916.579, "num_steps_sampled": 1053600, "grad_time_ms": 368.716, "num_steps_trained": 1053600, "load_time_ms": 0.663, "update_time_ms": 2.619}, "training_iteration": 878, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.44575381278992, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 117600, "timesteps_total": 1053600, "custom_metrics": {}, "iterations_since_restore": 98, "episodes_this_iter": 291, "episode_reward_min": -18.465596458805322, "date": "2025-09-05_02-35-38", "episode_reward_max": 4.740949061502659, "pid": 3651949, "timestamp": 1757032538, "episode_reward_mean": 3.8188354037476553, "time_total_s": 36299.28005743027, "episodes_total": 102102, "episode_len_mean": 4.116838487972508}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4690.8918998241425, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 4.36021614074707, "cur_kl_coeff": 0.9741963148117065, "policy_loss": -0.05083365738391876, "vf_explained_var": 0.683496356010437, "entropy": 1.7298600673675537, "total_loss": 4.3148627281188965, "kl": 0.005625119898468256}, "sample_time_ms": 46907.361, "num_steps_sampled": 1054800, "grad_time_ms": 369.844, "num_steps_trained": 1054800, "load_time_ms": 0.672, "update_time_ms": 2.638}, "training_iteration": 879, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.06709599494934, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 118800, "timesteps_total": 1054800, "custom_metrics": {}, "iterations_since_restore": 99, "episodes_this_iter": 292, "episode_reward_min": -24.172852530160384, "date": "2025-09-05_02-36-25", "episode_reward_max": 4.001776322429072, "pid": 3651949, "timestamp": 1757032585, "episode_reward_mean": 3.8113737426614356, "time_total_s": 36346.34715342522, "episodes_total": 102394, "episode_len_mean": 4.11986301369863}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4737.693937063217, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 3.805392026901245, "cur_kl_coeff": 0.9741963148117065, "policy_loss": -0.04470294341444969, "vf_explained_var": 0.6905941367149353, "entropy": 1.8461089134216309, "total_loss": 3.786196708679199, "kl": 0.02618289738893509}, "sample_time_ms": 46904.596, "num_steps_sampled": 1056000, "grad_time_ms": 367.309, "num_steps_trained": 1056000, "load_time_ms": 0.656, "update_time_ms": 2.64}, "training_iteration": 880, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.80203723907471, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 120000, "timesteps_total": 1056000, "custom_metrics": {}, "iterations_since_restore": 100, "episodes_this_iter": 291, "episode_reward_min": -22.90934195242167, "date": "2025-09-05_02-37-12", "episode_reward_max": 4.190513806122592, "pid": 3651949, "timestamp": 1757032632, "episode_reward_mean": 3.8116798598960164, "time_total_s": 36393.14919066429, "episodes_total": 102685, "episode_len_mean": 4.123711340206185}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4784.721884489059, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.28617578744888306, "cur_kl_coeff": 1.461294412612915, "policy_loss": -0.06089896708726883, "vf_explained_var": 0.9583684206008911, "entropy": 1.6390106678009033, "total_loss": 0.24192661046981812, "kl": 0.011393861845135689}, "sample_time_ms": 46935.025, "num_steps_sampled": 1057200, "grad_time_ms": 366.763, "num_steps_trained": 1057200, "load_time_ms": 0.657, "update_time_ms": 2.637}, "training_iteration": 881, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.027947425842285, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 121200, "timesteps_total": 1057200, "custom_metrics": {}, "iterations_since_restore": 101, "episodes_this_iter": 299, "episode_reward_min": -6.96937072763734, "date": "2025-09-05_02-37-59", "episode_reward_max": 4.050369193835761, "pid": 3651949, "timestamp": 1757032679, "episode_reward_mean": 3.963673689134469, "time_total_s": 36440.177138090134, "episodes_total": 102984, "episode_len_mean": 4.0200668896321075}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4832.137006282806, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.5397180914878845, "cur_kl_coeff": 1.461294412612915, "policy_loss": -0.04076986014842987, "vf_explained_var": 0.9104292392730713, "entropy": 1.6930409669876099, "total_loss": 0.5123088359832764, "kl": 0.009142959490418434}, "sample_time_ms": 46974.138, "num_steps_sampled": 1058400, "grad_time_ms": 368.194, "num_steps_trained": 1058400, "load_time_ms": 0.658, "update_time_ms": 2.653}, "training_iteration": 882, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.41512179374695, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 122400, "timesteps_total": 1058400, "custom_metrics": {}, "iterations_since_restore": 102, "episodes_this_iter": 296, "episode_reward_min": -4.058740189097739, "date": "2025-09-05_02-38-46", "episode_reward_max": 4.002076441453823, "pid": 3651949, "timestamp": 1757032726, "episode_reward_mean": 3.9355529976656647, "time_total_s": 36487.59225988388, "episodes_total": 103280, "episode_len_mean": 4.043918918918919}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4879.119877576828, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.6877517104148865, "cur_kl_coeff": 1.461294412612915, "policy_loss": -0.03623541444540024, "vf_explained_var": 0.9030869603157043, "entropy": 1.737912893295288, "total_loss": 0.6572979688644409, "kl": 0.003956564702093601}, "sample_time_ms": 46971.374, "num_steps_sampled": 1059600, "grad_time_ms": 368.98, "num_steps_trained": 1059600, "load_time_ms": 0.657, "update_time_ms": 2.64}, "training_iteration": 883, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.982871294021606, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 123600, "timesteps_total": 1059600, "custom_metrics": {}, "iterations_since_restore": 103, "episodes_this_iter": 297, "episode_reward_min": -9.764382124850606, "date": "2025-09-05_02-39-33", "episode_reward_max": 8.000000543811925, "pid": 3651949, "timestamp": 1757032773, "episode_reward_mean": 3.940758314162735, "time_total_s": 36534.5751311779, "episodes_total": 103577, "episode_len_mean": 4.043771043771044}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4926.45415687561, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.9016821384429932, "cur_kl_coeff": 0.7306472063064575, "policy_loss": -0.050413258373737335, "vf_explained_var": 0.8733535408973694, "entropy": 1.8559746742248535, "total_loss": 0.8578717708587646, "kl": 0.009037166833877563}, "sample_time_ms": 47000.169, "num_steps_sampled": 1060800, "grad_time_ms": 370.958, "num_steps_trained": 1060800, "load_time_ms": 0.664, "update_time_ms": 2.621}, "training_iteration": 884, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.33427929878235, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 124800, "timesteps_total": 1060800, "custom_metrics": {}, "iterations_since_restore": 104, "episodes_this_iter": 293, "episode_reward_min": -6.88334672493346, "date": "2025-09-05_02-40-20", "episode_reward_max": 4.1658625029783085, "pid": 3651949, "timestamp": 1757032820, "episode_reward_mean": 3.851568891388484, "time_total_s": 36581.909410476685, "episodes_total": 103870, "episode_len_mean": 4.09556313993174}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 4973.314180612564, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.5732951760292053, "cur_kl_coeff": 0.7306472063064575, "policy_loss": -0.03666526451706886, "vf_explained_var": 0.9228690266609192, "entropy": 1.7589308023452759, "total_loss": 0.544025182723999, "kl": 0.010121528059244156}, "sample_time_ms": 46963.043, "num_steps_sampled": 1062000, "grad_time_ms": 369.77, "num_steps_trained": 1062000, "load_time_ms": 0.665, "update_time_ms": 2.653}, "training_iteration": 885, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.860023736953735, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 126000, "timesteps_total": 1062000, "custom_metrics": {}, "iterations_since_restore": 105, "episodes_this_iter": 295, "episode_reward_min": -11.496498011761279, "date": "2025-09-05_02-41-07", "episode_reward_max": 4.008836288361233, "pid": 3651949, "timestamp": 1757032867, "episode_reward_mean": 3.913771857398418, "time_total_s": 36628.76943421364, "episodes_total": 104165, "episode_len_mean": 4.057627118644068}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5020.626423597336, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.5960099101066589, "cur_kl_coeff": 0.7306472063064575, "policy_loss": -0.036775778979063034, "vf_explained_var": 0.9043925404548645, "entropy": 1.6872469186782837, "total_loss": 0.5790513753890991, "kl": 0.027122920379042625}, "sample_time_ms": 46744.043, "num_steps_sampled": 1063200, "grad_time_ms": 370.983, "num_steps_trained": 1063200, "load_time_ms": 0.66, "update_time_ms": 2.614}, "training_iteration": 886, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.31224298477173, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 127200, "timesteps_total": 1063200, "custom_metrics": {}, "iterations_since_restore": 106, "episodes_this_iter": 296, "episode_reward_min": -4.7433799063483235, "date": "2025-09-05_02-41-55", "episode_reward_max": 4.095289308937806, "pid": 3651949, "timestamp": 1757032915, "episode_reward_mean": 3.9287165412323044, "time_total_s": 36676.08167719841, "episodes_total": 104461, "episode_len_mean": 4.047297297297297}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5067.875581979752, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.4121336340904236, "cur_kl_coeff": 1.095970869064331, "policy_loss": -0.04310419782996178, "vf_explained_var": 0.932977557182312, "entropy": 1.690892219543457, "total_loss": 0.3808630108833313, "kl": 0.010797310620546341}, "sample_time_ms": 46766.607, "num_steps_sampled": 1064400, "grad_time_ms": 373.488, "num_steps_trained": 1064400, "load_time_ms": 0.669, "update_time_ms": 2.615}, "training_iteration": 887, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.24915838241577, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 128400, "timesteps_total": 1064400, "custom_metrics": {}, "iterations_since_restore": 107, "episodes_this_iter": 297, "episode_reward_min": -2.0857158829012263, "date": "2025-09-05_02-42-42", "episode_reward_max": 4.002645196931428, "pid": 3651949, "timestamp": 1757032962, "episode_reward_mean": 3.9592997422415044, "time_total_s": 36723.330835580826, "episodes_total": 104758, "episode_len_mean": 4.026936026936027}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5115.0283489227295, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.27969759702682495, "cur_kl_coeff": 1.095970869064331, "policy_loss": -0.03837059065699577, "vf_explained_var": 0.9554041624069214, "entropy": 1.6551342010498047, "total_loss": 0.24782387912273407, "kl": 0.005927965976297855}, "sample_time_ms": 46737.826, "num_steps_sampled": 1065600, "grad_time_ms": 373.007, "num_steps_trained": 1065600, "load_time_ms": 0.668, "update_time_ms": 2.641}, "training_iteration": 888, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.152766942977905, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 129600, "timesteps_total": 1065600, "custom_metrics": {}, "iterations_since_restore": 108, "episodes_this_iter": 299, "episode_reward_min": -4.134992348498914, "date": "2025-09-05_02-43-29", "episode_reward_max": 4.11362182172817, "pid": 3651949, "timestamp": 1757033009, "episode_reward_mean": 3.943352652712832, "time_total_s": 36770.483602523804, "episodes_total": 105057, "episode_len_mean": 4.036789297658863}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5162.040598630905, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.6938936114311218, "cur_kl_coeff": 1.095970869064331, "policy_loss": -0.037294093519449234, "vf_explained_var": 0.8946120142936707, "entropy": 1.740850567817688, "total_loss": 0.6664432287216187, "kl": 0.008981702849268913}, "sample_time_ms": 46733.195, "num_steps_sampled": 1066800, "grad_time_ms": 372.173, "num_steps_trained": 1066800, "load_time_ms": 0.669, "update_time_ms": 2.666}, "training_iteration": 889, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.01224970817566, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 130800, "timesteps_total": 1066800, "custom_metrics": {}, "iterations_since_restore": 109, "episodes_this_iter": 297, "episode_reward_min": -6.7087742382483775, "date": "2025-09-05_02-44-16", "episode_reward_max": 4.020778264405768, "pid": 3651949, "timestamp": 1757033056, "episode_reward_mean": 3.929619645125384, "time_total_s": 36817.49585223198, "episodes_total": 105354, "episode_len_mean": 4.047138047138047}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5209.26691365242, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.899989128112793, "cur_kl_coeff": 1.095970869064331, "policy_loss": -0.03782425820827484, "vf_explained_var": 0.8698816895484924, "entropy": 1.7120951414108276, "total_loss": 0.8721082210540771, "kl": 0.009072682820260525}, "sample_time_ms": 46776.242, "num_steps_sampled": 1068000, "grad_time_ms": 371.55, "num_steps_trained": 1068000, "load_time_ms": 0.677, "update_time_ms": 2.649}, "training_iteration": 890, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.22631502151489, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 132000, "timesteps_total": 1068000, "custom_metrics": {}, "iterations_since_restore": 110, "episodes_this_iter": 297, "episode_reward_min": -10.053639210287667, "date": "2025-09-05_02-45-03", "episode_reward_max": 4.266469976934626, "pid": 3651949, "timestamp": 1757033103, "episode_reward_mean": 3.9336813886014497, "time_total_s": 36864.722167253494, "episodes_total": 105651, "episode_len_mean": 4.040404040404041}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5256.301217556, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 2.759617328643799, "cur_kl_coeff": 1.095970869064331, "policy_loss": -0.046280644834041595, "vf_explained_var": 0.7130245566368103, "entropy": 1.799234390258789, "total_loss": 2.723513603210449, "kl": 0.009285876527428627}, "sample_time_ms": 46776.765, "num_steps_sampled": 1069200, "grad_time_ms": 371.702, "num_steps_trained": 1069200, "load_time_ms": 0.671, "update_time_ms": 2.627}, "training_iteration": 891, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.03430390357971, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 133200, "timesteps_total": 1069200, "custom_metrics": {}, "iterations_since_restore": 111, "episodes_this_iter": 291, "episode_reward_min": -18.307916490467935, "date": "2025-09-05_02-45-51", "episode_reward_max": 4.002604687615128, "pid": 3651949, "timestamp": 1757033151, "episode_reward_mean": 3.8079124917476403, "time_total_s": 36911.756471157074, "episodes_total": 105942, "episode_len_mean": 4.123711340206185}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5303.68047785759, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.4721151888370514, "cur_kl_coeff": 1.095970869064331, "policy_loss": -0.04699081927537918, "vf_explained_var": 0.9227263331413269, "entropy": 1.6817357540130615, "total_loss": 0.43441906571388245, "kl": 0.008480795659124851}, "sample_time_ms": 46772.906, "num_steps_sampled": 1070400, "grad_time_ms": 372.005, "num_steps_trained": 1070400, "load_time_ms": 0.673, "update_time_ms": 2.595}, "training_iteration": 892, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.379260301589966, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 134400, "timesteps_total": 1070400, "custom_metrics": {}, "iterations_since_restore": 112, "episodes_this_iter": 297, "episode_reward_min": -6.038535520083222, "date": "2025-09-05_02-46-38", "episode_reward_max": 4.135109194132127, "pid": 3651949, "timestamp": 1757033198, "episode_reward_mean": 3.946062820473973, "time_total_s": 36959.135731458664, "episodes_total": 106239, "episode_len_mean": 4.033670033670034}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5350.6843984127045, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 1.7970614433288574, "cur_kl_coeff": 1.095970869064331, "policy_loss": -0.0522477813065052, "vf_explained_var": 0.7884857654571533, "entropy": 1.8698594570159912, "total_loss": 1.7521368265151978, "kl": 0.006681882310658693}, "sample_time_ms": 46775.321, "num_steps_sampled": 1071600, "grad_time_ms": 371.68, "num_steps_trained": 1071600, "load_time_ms": 0.672, "update_time_ms": 2.618}, "training_iteration": 893, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.003920555114746, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 135600, "timesteps_total": 1071600, "custom_metrics": {}, "iterations_since_restore": 113, "episodes_this_iter": 291, "episode_reward_min": -13.745583807755729, "date": "2025-09-05_02-47-25", "episode_reward_max": 4.416917507335905, "pid": 3651949, "timestamp": 1757033245, "episode_reward_mean": 3.8267432889839528, "time_total_s": 37006.13965201378, "episodes_total": 106530, "episode_len_mean": 4.116838487972508}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5397.945260763168, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 2.713960886001587, "cur_kl_coeff": 1.095970869064331, "policy_loss": -0.03935150429606438, "vf_explained_var": 0.7668807506561279, "entropy": 1.818472146987915, "total_loss": 2.6847376823425293, "kl": 0.009241162799298763}, "sample_time_ms": 46766.398, "num_steps_sampled": 1072800, "grad_time_ms": 373.22, "num_steps_trained": 1072800, "load_time_ms": 0.686, "update_time_ms": 2.648}, "training_iteration": 894, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.26086235046387, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 136800, "timesteps_total": 1072800, "custom_metrics": {}, "iterations_since_restore": 114, "episodes_this_iter": 294, "episode_reward_min": -17.249778558549597, "date": "2025-09-05_02-48-12", "episode_reward_max": 4.163614829428042, "pid": 3651949, "timestamp": 1757033292, "episode_reward_mean": 3.8594631902865277, "time_total_s": 37053.40051436424, "episodes_total": 106824, "episode_len_mean": 4.091836734693878}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5445.086297273636, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.10369556397199631, "cur_kl_coeff": 1.095970869064331, "policy_loss": -0.02356908842921257, "vf_explained_var": 0.9814754128456116, "entropy": 1.6760879755020142, "total_loss": 0.09424015879631042, "kl": 0.012877783738076687}, "sample_time_ms": 46792.359, "num_steps_sampled": 1074000, "grad_time_ms": 375.339, "num_steps_trained": 1074000, "load_time_ms": 0.686, "update_time_ms": 2.676}, "training_iteration": 895, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.14103651046753, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 138000, "timesteps_total": 1074000, "custom_metrics": {}, "iterations_since_restore": 115, "episodes_this_iter": 299, "episode_reward_min": -0.031555037362107186, "date": "2025-09-05_02-48-59", "episode_reward_max": 4.191379142086214, "pid": 3651949, "timestamp": 1757033339, "episode_reward_mean": 3.9842481849621962, "time_total_s": 37100.54155087471, "episodes_total": 107123, "episode_len_mean": 4.013377926421405}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5491.909555435181, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.5763661861419678, "cur_kl_coeff": 1.095970869064331, "policy_loss": -0.031372055411338806, "vf_explained_var": 0.9221466779708862, "entropy": 1.6882249116897583, "total_loss": 0.574187159538269, "kl": 0.026636656373739243}, "sample_time_ms": 46743.517, "num_steps_sampled": 1075200, "grad_time_ms": 375.275, "num_steps_trained": 1075200, "load_time_ms": 0.686, "update_time_ms": 2.677}, "training_iteration": 896, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.8232581615448, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 139200, "timesteps_total": 1075200, "custom_metrics": {}, "iterations_since_restore": 116, "episodes_this_iter": 297, "episode_reward_min": -9.979543017466682, "date": "2025-09-05_02-49-46", "episode_reward_max": 4.161848498952017, "pid": 3651949, "timestamp": 1757033386, "episode_reward_mean": 3.9476482385784197, "time_total_s": 37147.364809036255, "episodes_total": 107420, "episode_len_mean": 4.037037037037037}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5539.260118484497, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.49259281158447266, "cur_kl_coeff": 1.6439563035964966, "policy_loss": -0.033091820776462555, "vf_explained_var": 0.9307975769042969, "entropy": 1.7111220359802246, "total_loss": 0.47319602966308594, "kl": 0.008330505341291428}, "sample_time_ms": 46754.082, "num_steps_sampled": 1076400, "grad_time_ms": 374.842, "num_steps_trained": 1076400, "load_time_ms": 0.681, "update_time_ms": 2.689}, "training_iteration": 897, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.350563049316406, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 140400, "timesteps_total": 1076400, "custom_metrics": {}, "iterations_since_restore": 117, "episodes_this_iter": 298, "episode_reward_min": -7.166350155397293, "date": "2025-09-05_02-50-34", "episode_reward_max": 4.0038304862762, "pid": 3651949, "timestamp": 1757033434, "episode_reward_mean": 3.9424373322039, "time_total_s": 37194.71537208557, "episodes_total": 107718, "episode_len_mean": 4.0369127516778525}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5586.411970376968, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 3.5017998218536377, "cur_kl_coeff": 1.6439563035964966, "policy_loss": -0.039462730288505554, "vf_explained_var": 0.7700036764144897, "entropy": 1.814970850944519, "total_loss": 3.46822190284729, "kl": 0.003579681972041726}, "sample_time_ms": 46754.347, "num_steps_sampled": 1077600, "grad_time_ms": 374.398, "num_steps_trained": 1077600, "load_time_ms": 0.683, "update_time_ms": 2.696}, "training_iteration": 898, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.15185189247131, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 141600, "timesteps_total": 1077600, "custom_metrics": {}, "iterations_since_restore": 118, "episodes_this_iter": 291, "episode_reward_min": -25.087125731798764, "date": "2025-09-05_02-51-21", "episode_reward_max": 4.001346690610941, "pid": 3651949, "timestamp": 1757033481, "episode_reward_mean": 3.8632689902371355, "time_total_s": 37241.86722397804, "episodes_total": 108009, "episode_len_mean": 4.0893470790378}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5634.371858358383, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.32681289315223694, "cur_kl_coeff": 0.8219781517982483, "policy_loss": -0.054572828114032745, "vf_explained_var": 0.9426939487457275, "entropy": 1.5868582725524902, "total_loss": 0.2952921986579895, "kl": 0.02804473787546158}, "sample_time_ms": 46849.064, "num_steps_sampled": 1078800, "grad_time_ms": 374.373, "num_steps_trained": 1078800, "load_time_ms": 0.672, "update_time_ms": 2.733}, "training_iteration": 899, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.959887981414795, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 142800, "timesteps_total": 1078800, "custom_metrics": {}, "iterations_since_restore": 119, "episodes_this_iter": 299, "episode_reward_min": -2.2536769498871116, "date": "2025-09-05_02-52-09", "episode_reward_max": 4.002123115679182, "pid": 3651949, "timestamp": 1757033529, "episode_reward_mean": 3.931380586483746, "time_total_s": 37289.82711195946, "episodes_total": 108308, "episode_len_mean": 4.050167224080267}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5681.578128814697, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.4795079827308655, "cur_kl_coeff": 1.2329672574996948, "policy_loss": -0.0424935556948185, "vf_explained_var": 0.9212221503257751, "entropy": 1.77272629737854, "total_loss": 0.45257535576820374, "kl": 0.012620753608644009}, "sample_time_ms": 46846.575, "num_steps_sampled": 1080000, "grad_time_ms": 374.849, "num_steps_trained": 1080000, "load_time_ms": 0.667, "update_time_ms": 2.751}, "training_iteration": 900, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.20627045631409, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 144000, "timesteps_total": 1080000, "custom_metrics": {}, "iterations_since_restore": 120, "episodes_this_iter": 296, "episode_reward_min": -2.988042588931627, "date": "2025-09-05_02-52-56", "episode_reward_max": 4.000800762474745, "pid": 3651949, "timestamp": 1757033576, "episode_reward_mean": 3.9459430751420728, "time_total_s": 37337.03338241577, "episodes_total": 108604, "episode_len_mean": 4.04054054054054}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5728.386974811554, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.6655850410461426, "cur_kl_coeff": 1.2329672574996948, "policy_loss": -0.037903402000665665, "vf_explained_var": 0.9012076258659363, "entropy": 1.761465311050415, "total_loss": 0.6372129917144775, "kl": 0.007730389013886452}, "sample_time_ms": 46821.314, "num_steps_sampled": 1081200, "grad_time_ms": 377.563, "num_steps_trained": 1081200, "load_time_ms": 0.676, "update_time_ms": 2.716}, "training_iteration": 901, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.80884599685669, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 145200, "timesteps_total": 1081200, "custom_metrics": {}, "iterations_since_restore": 121, "episodes_this_iter": 297, "episode_reward_min": -6.174561097195088, "date": "2025-09-05_02-53-43", "episode_reward_max": 4.089252805379677, "pid": 3651949, "timestamp": 1757033623, "episode_reward_mean": 3.92688879717915, "time_total_s": 37383.84222841263, "episodes_total": 108901, "episode_len_mean": 4.047138047138047}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5775.551279306412, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.171039879322052, "cur_kl_coeff": 1.2329672574996948, "policy_loss": -0.04213587939739227, "vf_explained_var": 0.9681374430656433, "entropy": 1.6764439344406128, "total_loss": 0.14072200655937195, "kl": 0.009585012681782246}, "sample_time_ms": 46799.281, "num_steps_sampled": 1082400, "grad_time_ms": 378.052, "num_steps_trained": 1082400, "load_time_ms": 0.675, "update_time_ms": 2.78}, "training_iteration": 902, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.16430449485779, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 146400, "timesteps_total": 1082400, "custom_metrics": {}, "iterations_since_restore": 122, "episodes_this_iter": 297, "episode_reward_min": -4.03311021608916, "date": "2025-09-05_02-54-30", "episode_reward_max": 4.13466924484949, "pid": 3651949, "timestamp": 1757033670, "episode_reward_mean": 3.9496003397005945, "time_total_s": 37431.006532907486, "episodes_total": 109198, "episode_len_mean": 4.033670033670034}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5822.614198207855, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.09765538573265076, "cur_kl_coeff": 1.2329672574996948, "policy_loss": -0.029740571975708008, "vf_explained_var": 0.9826189875602722, "entropy": 1.6684578657150269, "total_loss": 0.08354974538087845, "kl": 0.012680732645094395}, "sample_time_ms": 46806.342, "num_steps_sampled": 1083600, "grad_time_ms": 376.857, "num_steps_trained": 1083600, "load_time_ms": 0.673, "update_time_ms": 2.758}, "training_iteration": 903, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.06291890144348, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 147600, "timesteps_total": 1083600, "custom_metrics": {}, "iterations_since_restore": 123, "episodes_this_iter": 299, "episode_reward_min": 4.000084782639999, "date": "2025-09-05_02-55-17", "episode_reward_max": 4.166484561267723, "pid": 3651949, "timestamp": 1757033717, "episode_reward_mean": 4.000754760716125, "time_total_s": 37478.06945180893, "episodes_total": 109497, "episode_len_mean": 4.0}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5870.258234739304, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 1.1872496604919434, "cur_kl_coeff": 1.2329672574996948, "policy_loss": -0.03866337984800339, "vf_explained_var": 0.8462570905685425, "entropy": 1.7076233625411987, "total_loss": 1.1553927659988403, "kl": 0.0055202278308570385}, "sample_time_ms": 46846.239, "num_steps_sampled": 1084800, "grad_time_ms": 375.242, "num_steps_trained": 1084800, "load_time_ms": 0.67, "update_time_ms": 2.783}, "training_iteration": 904, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.644036531448364, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 148800, "timesteps_total": 1084800, "custom_metrics": {}, "iterations_since_restore": 124, "episodes_this_iter": 295, "episode_reward_min": -11.222962823557705, "date": "2025-09-05_02-56-05", "episode_reward_max": 4.50534781335083, "pid": 3651949, "timestamp": 1757033765, "episode_reward_mean": 3.8742699562983804, "time_total_s": 37525.71348834038, "episodes_total": 109792, "episode_len_mean": 4.084745762711864}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5918.874381065369, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.348245233297348, "cur_kl_coeff": 1.2329672574996948, "policy_loss": -0.037835970520973206, "vf_explained_var": 0.944329023361206, "entropy": 1.6153223514556885, "total_loss": 0.32013019919395447, "kl": 0.007884159684181213}, "sample_time_ms": 46993.235, "num_steps_sampled": 1086000, "grad_time_ms": 375.657, "num_steps_trained": 1086000, "load_time_ms": 0.681, "update_time_ms": 2.781}, "training_iteration": 905, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 48.61614632606506, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 150000, "timesteps_total": 1086000, "custom_metrics": {}, "iterations_since_restore": 125, "episodes_this_iter": 297, "episode_reward_min": -6.536665427125055, "date": "2025-09-05_02-56-53", "episode_reward_max": 4.001335252121653, "pid": 3651949, "timestamp": 1757033813, "episode_reward_mean": 3.941152580223552, "time_total_s": 37574.32963466644, "episodes_total": 110089, "episode_len_mean": 4.037037037037037}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 5965.760763883591, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.08283431082963943, "cur_kl_coeff": 1.2329672574996948, "policy_loss": -0.042511459439992905, "vf_explained_var": 0.9853301644325256, "entropy": 1.63007390499115, "total_loss": 0.05353569611907005, "kl": 0.010716300457715988}, "sample_time_ms": 46998.929, "num_steps_sampled": 1087200, "grad_time_ms": 376.187, "num_steps_trained": 1087200, "load_time_ms": 0.682, "update_time_ms": 2.841}, "training_iteration": 906, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.886382818222046, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 151200, "timesteps_total": 1087200, "custom_metrics": {}, "iterations_since_restore": 126, "episodes_this_iter": 299, "episode_reward_min": -0.04245865820154471, "date": "2025-09-05_02-57-40", "episode_reward_max": 4.00143553875155, "pid": 3651949, "timestamp": 1757033860, "episode_reward_mean": 3.986681393814414, "time_total_s": 37621.216017484665, "episodes_total": 110388, "episode_len_mean": 4.010033444816053}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6013.07399225235, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.0032169807236641645, "cur_kl_coeff": 1.2329672574996948, "policy_loss": -0.1030496209859848, "vf_explained_var": 0.9994156956672668, "entropy": 1.659559965133667, "total_loss": -0.0704251229763031, "kl": 0.023851003497838974}, "sample_time_ms": 46995.559, "num_steps_sampled": 1088400, "grad_time_ms": 375.787, "num_steps_trained": 1088400, "load_time_ms": 0.69, "update_time_ms": 2.86}, "training_iteration": 907, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.313228368759155, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 152400, "timesteps_total": 1088400, "custom_metrics": {}, "iterations_since_restore": 127, "episodes_this_iter": 300, "episode_reward_min": 4.000079229778374, "date": "2025-09-05_02-58-28", "episode_reward_max": 4.155390242731852, "pid": 3651949, "timestamp": 1757033908, "episode_reward_mean": 4.000726101986216, "time_total_s": 37668.529245853424, "episodes_total": 110688, "episode_len_mean": 4.0}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6060.871701717377, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.8205611705780029, "cur_kl_coeff": 1.8494508266448975, "policy_loss": -0.05103403329849243, "vf_explained_var": 0.872207760810852, "entropy": 1.6825008392333984, "total_loss": 0.7823768854141235, "kl": 0.0069478172808885574}, "sample_time_ms": 47059.525, "num_steps_sampled": 1089600, "grad_time_ms": 376.45, "num_steps_trained": 1089600, "load_time_ms": 0.692, "update_time_ms": 2.842}, "training_iteration": 908, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.797709465026855, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 153600, "timesteps_total": 1089600, "custom_metrics": {}, "iterations_since_restore": 128, "episodes_this_iter": 295, "episode_reward_min": -8.109032572593708, "date": "2025-09-05_02-59-15", "episode_reward_max": 4.002247635056653, "pid": 3651949, "timestamp": 1757033955, "episode_reward_mean": 3.8875018287193615, "time_total_s": 37716.32695531845, "episodes_total": 110983, "episode_len_mean": 4.074576271186441}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6107.252467870712, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 1.3974435329437256, "cur_kl_coeff": 1.8494508266448975, "policy_loss": -0.03511720895767212, "vf_explained_var": 0.8257991075515747, "entropy": 1.7969785928726196, "total_loss": 1.378829836845398, "kl": 0.008923310786485672}, "sample_time_ms": 46902.404, "num_steps_sampled": 1090800, "grad_time_ms": 375.794, "num_steps_trained": 1090800, "load_time_ms": 0.693, "update_time_ms": 2.761}, "training_iteration": 909, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.38076615333557, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 154800, "timesteps_total": 1090800, "custom_metrics": {}, "iterations_since_restore": 129, "episodes_this_iter": 292, "episode_reward_min": -10.445097759987831, "date": "2025-09-05_03-00-02", "episode_reward_max": 4.002368141152433, "pid": 3651949, "timestamp": 1757034002, "episode_reward_mean": 3.8083283991034387, "time_total_s": 37762.70772147179, "episodes_total": 111275, "episode_len_mean": 4.11986301369863}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6154.848546504974, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.0062546562403440475, "cur_kl_coeff": 1.8494508266448975, "policy_loss": -0.09956976026296616, "vf_explained_var": 0.9988368153572083, "entropy": 1.6119977235794067, "total_loss": -0.05805457383394241, "kl": 0.019065406173467636}, "sample_time_ms": 46938.898, "num_steps_sampled": 1092000, "grad_time_ms": 378.177, "num_steps_trained": 1092000, "load_time_ms": 0.732, "update_time_ms": 2.732}, "training_iteration": 910, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.596078634262085, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 156000, "timesteps_total": 1092000, "custom_metrics": {}, "iterations_since_restore": 130, "episodes_this_iter": 300, "episode_reward_min": 4.000071359967125, "date": "2025-09-05_03-00-49", "episode_reward_max": 4.001047534662767, "pid": 3651949, "timestamp": 1757034049, "episode_reward_mean": 4.000205901437618, "time_total_s": 37810.30380010605, "episodes_total": 111575, "episode_len_mean": 4.0}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6202.097699642181, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.6251590251922607, "cur_kl_coeff": 1.8494508266448975, "policy_loss": -0.028948571532964706, "vf_explained_var": 0.9052460193634033, "entropy": 1.7085204124450684, "total_loss": 0.6010306477546692, "kl": 0.002606305293738842}, "sample_time_ms": 46983.395, "num_steps_sampled": 1093200, "grad_time_ms": 377.549, "num_steps_trained": 1093200, "load_time_ms": 0.722, "update_time_ms": 2.873}, "training_iteration": 911, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.24915313720703, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 157200, "timesteps_total": 1093200, "custom_metrics": {}, "iterations_since_restore": 131, "episodes_this_iter": 298, "episode_reward_min": -8.681836160411386, "date": "2025-09-05_03-01-37", "episode_reward_max": 4.4167532534090475, "pid": 3651949, "timestamp": 1757034097, "episode_reward_mean": 3.96016927547165, "time_total_s": 37857.552953243256, "episodes_total": 111873, "episode_len_mean": 4.026845637583893}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6249.153947591782, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.6695041656494141, "cur_kl_coeff": 0.9247254133224487, "policy_loss": -0.039134785532951355, "vf_explained_var": 0.90013188123703, "entropy": 1.6588191986083984, "total_loss": 0.6479641199111938, "kl": 0.019026966765522957}, "sample_time_ms": 46974.381, "num_steps_sampled": 1094400, "grad_time_ms": 375.768, "num_steps_trained": 1094400, "load_time_ms": 0.727, "update_time_ms": 2.839}, "training_iteration": 912, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.05624794960022, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 158400, "timesteps_total": 1094400, "custom_metrics": {}, "iterations_since_restore": 132, "episodes_this_iter": 296, "episode_reward_min": -5.102389635603522, "date": "2025-09-05_03-02-24", "episode_reward_max": 4.244200512234446, "pid": 3651949, "timestamp": 1757034144, "episode_reward_mean": 3.9565869946037306, "time_total_s": 37904.609201192856, "episodes_total": 112169, "episode_len_mean": 4.030405405405405}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6296.295668840408, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.008423120714724064, "cur_kl_coeff": 0.9247254133224487, "policy_loss": -0.047248583287000656, "vf_explained_var": 0.9983489513397217, "entropy": 1.6233975887298584, "total_loss": -0.02756035327911377, "kl": 0.012182105332612991}, "sample_time_ms": 46984.165, "num_steps_sampled": 1095600, "grad_time_ms": 373.939, "num_steps_trained": 1095600, "load_time_ms": 0.718, "update_time_ms": 2.846}, "training_iteration": 913, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.14172124862671, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 159600, "timesteps_total": 1095600, "custom_metrics": {}, "iterations_since_restore": 133, "episodes_this_iter": 300, "episode_reward_min": -4.0368726176782985, "date": "2025-09-05_03-03-11", "episode_reward_max": 4.000725931831873, "pid": 3651949, "timestamp": 1757034191, "episode_reward_mean": 3.973399068350616, "time_total_s": 37951.75092244148, "episodes_total": 112469, "episode_len_mean": 4.016666666666667}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6343.30012345314, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.552894651889801, "cur_kl_coeff": 0.9247254133224487, "policy_loss": -0.036006052047014236, "vf_explained_var": 0.931046187877655, "entropy": 1.7760496139526367, "total_loss": 0.5230053067207336, "kl": 0.006614684127271175}, "sample_time_ms": 46919.318, "num_steps_sampled": 1096800, "grad_time_ms": 374.83, "num_steps_trained": 1096800, "load_time_ms": 0.722, "update_time_ms": 2.801}, "training_iteration": 914, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.004454612731934, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 160800, "timesteps_total": 1096800, "custom_metrics": {}, "iterations_since_restore": 134, "episodes_this_iter": 296, "episode_reward_min": -6.024787100581303, "date": "2025-09-05_03-03-58", "episode_reward_max": 4.002575908744511, "pid": 3651949, "timestamp": 1757034238, "episode_reward_mean": 3.9198022842876283, "time_total_s": 37998.755377054214, "episodes_total": 112765, "episode_len_mean": 4.050675675675675}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6390.3256759643555, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.2663804292678833, "cur_kl_coeff": 0.9247254133224487, "policy_loss": -0.029532097280025482, "vf_explained_var": 0.9555729627609253, "entropy": 1.5449742078781128, "total_loss": 0.24412457644939423, "kl": 0.007868574000895023}, "sample_time_ms": 46760.09, "num_steps_sampled": 1098000, "grad_time_ms": 375.112, "num_steps_trained": 1098000, "load_time_ms": 0.71, "update_time_ms": 2.769}, "training_iteration": 915, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.02555251121521, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 162000, "timesteps_total": 1098000, "custom_metrics": {}, "iterations_since_restore": 135, "episodes_this_iter": 298, "episode_reward_min": -4.096244807617365, "date": "2025-09-05_03-04-45", "episode_reward_max": 4.005924476954452, "pid": 3651949, "timestamp": 1757034285, "episode_reward_mean": 3.9597168225653534, "time_total_s": 38045.78092956543, "episodes_total": 113063, "episode_len_mean": 4.023489932885906}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6437.271858453751, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.0021694996394217014, "cur_kl_coeff": 0.9247254133224487, "policy_loss": -0.1111738532781601, "vf_explained_var": 0.9995922446250916, "entropy": 1.6540554761886597, "total_loss": -0.08195843547582626, "kl": 0.029247526079416275}, "sample_time_ms": 46765.871, "num_steps_sampled": 1099200, "grad_time_ms": 375.423, "num_steps_trained": 1099200, "load_time_ms": 0.706, "update_time_ms": 2.72}, "training_iteration": 916, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.94618248939514, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 163200, "timesteps_total": 1099200, "custom_metrics": {}, "iterations_since_restore": 136, "episodes_this_iter": 300, "episode_reward_min": 4.000068956729939, "date": "2025-09-05_03-05-32", "episode_reward_max": 4.306151855380639, "pid": 3651949, "timestamp": 1757034332, "episode_reward_mean": 4.001476746470644, "time_total_s": 38092.727112054825, "episodes_total": 113363, "episode_len_mean": 4.0}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6484.297063112259, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 0.5783279538154602, "cur_kl_coeff": 1.3870880603790283, "policy_loss": -0.03263545408844948, "vf_explained_var": 0.9230349659919739, "entropy": 1.7275382280349731, "total_loss": 0.549310564994812, "kl": 0.002608383074402809}, "sample_time_ms": 46738.849, "num_steps_sampled": 1100400, "grad_time_ms": 373.732, "num_steps_trained": 1100400, "load_time_ms": 0.693, "update_time_ms": 2.686}, "training_iteration": 917, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 47.0252046585083, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 164400, "timesteps_total": 1100400, "custom_metrics": {}, "iterations_since_restore": 137, "episodes_this_iter": 297, "episode_reward_min": -11.673738478321681, "date": "2025-09-05_03-06-19", "episode_reward_max": 4.002616083422177, "pid": 3651949, "timestamp": 1757034379, "episode_reward_mean": 3.9404715761026687, "time_total_s": 38139.75231671333, "episodes_total": 113660, "episode_len_mean": 4.047138047138047}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6531.163638830185, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 1.669813632965088, "cur_kl_coeff": 0.6935440301895142, "policy_loss": -0.0387318879365921, "vf_explained_var": 0.799774706363678, "entropy": 1.750069499015808, "total_loss": 1.6407551765441895, "kl": 0.013947629369795322}, "sample_time_ms": 46646.563, "num_steps_sampled": 1101600, "grad_time_ms": 372.928, "num_steps_trained": 1101600, "load_time_ms": 0.688, "update_time_ms": 2.681}, "training_iteration": 918, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.866575717926025, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 165600, "timesteps_total": 1101600, "custom_metrics": {}, "iterations_since_restore": 138, "episodes_this_iter": 295, "episode_reward_min": -13.61323078722381, "date": "2025-09-05_03-07-06", "episode_reward_max": 4.001927960708255, "pid": 3651949, "timestamp": 1757034426, "episode_reward_mean": 3.8888666033676937, "time_total_s": 38186.61889243126, "episodes_total": 113955, "episode_len_mean": 4.074576271186441}
+{"hostname": "cda-server-2", "done": false, "time_since_restore": 6577.984277009964, "info": {"default": {"cur_lr": 4.999999873689376e-05, "vf_loss": 2.418276786804199, "cur_kl_coeff": 0.6935440301895142, "policy_loss": -0.046036407351493835, "vf_explained_var": 0.7593923211097717, "entropy": 1.7718133926391602, "total_loss": 2.378685235977173, "kl": 0.009292426519095898}, "sample_time_ms": 46687.135, "num_steps_sampled": 1102800, "grad_time_ms": 376.168, "num_steps_trained": 1102800, "load_time_ms": 0.711, "update_time_ms": 2.739}, "training_iteration": 919, "config": {"clip_actions": true, "vf_share_layers": false, "entropy_coeff": 0.0, "clip_param": 0.3, "lr": 5e-05, "monitor": false, "observation_filter": "MeanStdFilter", "input": "sampler", "sample_async": false, "multiagent": {"policies_to_train": null, "policy_graphs": {}, "policy_mapping_fn": null}, "tf_session_args": {"device_count": {"CPU": 1}, "intra_op_parallelism_threads": 2, "log_device_placement": false, "allow_soft_placement": true, "inter_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "collect_metrics_timeout": 180, "synchronize_filters": true, "sgd_minibatch_size": 128, "output": null, "use_gae": true, "num_gpus_per_worker": 0, "batch_mode": "truncate_episodes", "compress_observations": false, "local_evaluator_tf_session_args": {"inter_op_parallelism_threads": 8, "intra_op_parallelism_threads": 8}, "custom_resources_per_worker": {}, "num_sgd_iter": 30, "simple_optimizer": false, "num_workers": 3, "output_max_file_size": 67108864, "input_evaluation": null, "num_envs_per_worker": 1, "preprocessor_pref": "deepmind", "callbacks": {"on_train_result": null, "on_episode_step": null, "on_sample_end": null, "on_episode_end": null, "on_episode_start": null}, "num_gpus": 0, "straggler_mitigation": false, "grad_clip": null, "output_compress_columns": ["obs", "new_obs"], "kl_target": 0.01, "vf_loss_coeff": 1.0, "num_cpus_for_driver": 1, "num_cpus_per_worker": 1, "env": "Zhenxin_S_FC", "lr_schedule": null, "vf_clip_param": 10.0, "log_level": "INFO", "postprocess_inputs": false, "optimizer": {}, "model": {"use_lstm": false, "dim": 84, "max_seq_len": 20, "fcnet_hiddens": [128, 128, 128], "zero_mean": true, "custom_preprocessor": null, "grayscale": false, "squash_to_range": false, "lstm_cell_size": 256, "conv_activation": "relu", "conv_filters": null, "lstm_use_prev_action_reward": false, "free_log_std": false, "framestack": true, "custom_model": null, "custom_options": {}, "fcnet_activation": "tanh"}, "env_config": {"generalize": false, "run_valid": false}, "horizon": 50, "gamma": 0.99, "clip_rewards": null, "kl_coeff": 0.2, "sample_batch_size": 200, "lambda": 1.0, "train_batch_size": 1200}, "time_this_iter_s": 46.82063817977905, "num_metric_batches_dropped": 0, "policy_reward_mean": {}, "experiment_id": "881ce36181fe42dabe29289bda5f7577", "node_ip": "10.157.146.2", "timesteps_this_iter": 1200, "timesteps_since_restore": 166800, "timesteps_total": 1102800, "custom_metrics": {}, "iterations_since_restore": 139, "episodes_this_iter": 293, "episode_reward_min": -19.70253313989107, "date": "2025-09-05_03-07-53", "episode_reward_max": 4.198803029835787, "pid": 3651949, "timestamp": 1757034473, "episode_reward_mean": 3.877643137113445, "time_total_s": 38233.43953061104, "episodes_total": 114248, "episode_len_mean": 4.081911262798635}
diff --git a/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/README.md b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/README.md
new file mode 100644
index 0000000..2080795
--- /dev/null
+++ b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/README.md
@@ -0,0 +1,18 @@
+![alt text](image.png)
+
+-  **Directory:** **~/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run14** 
+	- **hostname**: server-2
+	- forked from `AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run12`
+	-  <span style="color:rgb(0, 176, 80)">branch</span>: `AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run14`
+	- **purpose**: reduce the number tunnable parameters: `W` and `CC` only
+	- <span style="color:rgb(112, 48, 160)">new things added:</span>
+		- reduce the tunable parameters to 11.
+	- <span style="color:rgb(255, 0, 0)">things have modified:</span>
+		- change unit to "nm"
+	- <span style="color:rgb(255, 192, 0)">tensorboard</span>:  `PPO_Zhenxin_S_FC_0_2025-09-04_16-10-519x116nc6`
+	- <span style="color:rgb(255, 0, 0)">errors</span>:
+	- <span style="color:rgb(0, 112, 192)">solutions</span>:
+	- **resume**
+	- **completion notes**
+		- matches expectation: yes
+		- After 800k (7 hours 30 min on server-2) reached `ray/tune/episode_reward_mean=0.0`
\ No newline at end of file
diff --git a/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/image.png b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/image.png
new file mode 100644
index 0000000..93fd92e
Binary files /dev/null and b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run14/image.png differ
diff --git a/experiments/optimize-Zhenxin_S_FC_65nmPTM-run15/PPO_Zhenxin_S_FC_0_2025-09-05_08-42-54nto41l8r/ckt_2020/checkpoint-2020 b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run15/PPO_Zhenxin_S_FC_0_2025-09-05_08-42-54nto41l8r/ckt_2020/checkpoint-2020
new file mode 100644
index 0000000..c07e2c0
Binary files /dev/null and b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run15/PPO_Zhenxin_S_FC_0_2025-09-05_08-42-54nto41l8r/ckt_2020/checkpoint-2020 differ
diff --git a/experiments/optimize-Zhenxin_S_FC_65nmPTM-run15/PPO_Zhenxin_S_FC_0_2025-09-05_08-42-54nto41l8r/ckt_2020/checkpoint-2020.tune_metadata b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run15/PPO_Zhenxin_S_FC_0_2025-09-05_08-42-54nto41l8r/ckt_2020/checkpoint-2020.tune_metadata
new file mode 100644
index 0000000..3a40b38
Binary files /dev/null and b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run15/PPO_Zhenxin_S_FC_0_2025-09-05_08-42-54nto41l8r/ckt_2020/checkpoint-2020.tune_metadata differ
diff --git a/experiments/optimize-Zhenxin_S_FC_65nmPTM-run15/PPO_Zhenxin_S_FC_0_2025-09-05_08-42-54nto41l8r/error_2025-09-05_21-45-37.txt b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run15/PPO_Zhenxin_S_FC_0_2025-09-05_08-42-54nto41l8r/error_2025-09-05_21-45-37.txt
new file mode 100644
index 0000000..96243bd
--- /dev/null
+++ b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run15/PPO_Zhenxin_S_FC_0_2025-09-05_08-42-54nto41l8r/error_2025-09-05_21-45-37.txt
@@ -0,0 +1,52 @@
+Traceback (most recent call last):
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/tune/trial_runner.py", line 378, in _process_events
+    result = self.trial_executor.fetch_result(trial)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/tune/ray_trial_executor.py", line 228, in fetch_result
+    result = ray.get(trial_future[0])
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/worker.py", line 2132, in get
+    raise value
+ray.worker.RayTaskError: [36mray_worker[39m (pid=2334300, host=cda-server-2)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/agents/agent.py", line 284, in train
+    result = Trainable.train(self)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/tune/trainable.py", line 151, in train
+    result = self._train()
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/agents/ppo/ppo.py", line 103, in _train
+    fetches = self.optimizer.step()
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/optimizers/multi_gpu_optimizer.py", line 125, in step
+    self.num_envs_per_worker, self.train_batch_size)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/optimizers/rollout.py", line 28, in collect_samples
+    next_sample = ray.get(fut_sample)
+ray.worker.RayTaskError: [36mray_worker[39m (pid=2334611, host=cda-server-2)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/evaluation/policy_evaluator.py", line 368, in sample
+    batches = [self.input_reader.next()]
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/offline/input_reader.py", line 31, in next
+    batches = [self.sampler.get_data()]
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/evaluation/sampler.py", line 65, in get_data
+    item = next(self.rollout_provider)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/evaluation/sampler.py", line 267, in _env_runner
+    preprocessors, obs_filters, unroll_length, pack, callbacks)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/evaluation/sampler.py", line 403, in _process_observations
+    resetted_obs = base_env.try_reset(env_id)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/env/base_env.py", line 257, in try_reset
+    return {_DUMMY_AGENT_ID: self.vector_env.reset_at(env_id)}
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/env/vector_env.py", line 88, in reset_at
+    return self.envs[index].reset()
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run15/autockt/envs/ngspice_zhenxin_s_fc.py", line 344, in reset
+    self.cur_specs = self.update(self.cur_params_idx)
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run15/autockt/envs/ngspice_zhenxin_s_fc.py", line 496, in update
+    self.sim_env.create_design_and_simulate(param_val[0])[1].items(),
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run15/eval_engines/ngspice/ngspice_wrapper.py", line 133, in create_design_and_simulate
+    specs = self.translate_result(design_folder)
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run15/eval_engines/ngspice/Zhenxin_S_FC.py", line 29, in translate_result
+    freq, vout, ibias = self.parse_output(output_path)
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run15/eval_engines/ngspice/Zhenxin_S_FC.py", line 46, in parse_output
+    ac_raw_outputs = np.genfromtxt(ac_fname, skip_header=1)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/numpy/lib/npyio.py", line 1744, in genfromtxt
+    fhd = iter(np.lib._datasource.open(fname, 'rt', encoding=encoding))
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/numpy/lib/_datasource.py", line 266, in open
+    return ds.open(path, mode, encoding=encoding, newline=newline)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/numpy/lib/_datasource.py", line 624, in open
+    raise IOError("%s not found." % path)
+OSError: /tmp/ckt_da/designs_Zhenxin_S_FC/Zhenxin_S_FC_242.843_133.808_292.648_198.925_139.809_131.131_0.657_0.178_0.686_0.305_1.01723/ac.csv not found.
+
+
diff --git a/experiments/optimize-Zhenxin_S_FC_65nmPTM-run15/PPO_Zhenxin_S_FC_0_2025-09-05_08-42-54nto41l8r/error_2025-09-06_03-50-47.txt b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run15/PPO_Zhenxin_S_FC_0_2025-09-05_08-42-54nto41l8r/error_2025-09-06_03-50-47.txt
new file mode 100644
index 0000000..5854490
--- /dev/null
+++ b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run15/PPO_Zhenxin_S_FC_0_2025-09-05_08-42-54nto41l8r/error_2025-09-06_03-50-47.txt
@@ -0,0 +1,52 @@
+Traceback (most recent call last):
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/tune/trial_runner.py", line 378, in _process_events
+    result = self.trial_executor.fetch_result(trial)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/tune/ray_trial_executor.py", line 228, in fetch_result
+    result = ray.get(trial_future[0])
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/worker.py", line 2132, in get
+    raise value
+ray.worker.RayTaskError: [36mray_worker[39m (pid=2334309, host=cda-server-2)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/agents/agent.py", line 284, in train
+    result = Trainable.train(self)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/tune/trainable.py", line 151, in train
+    result = self._train()
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/agents/ppo/ppo.py", line 103, in _train
+    fetches = self.optimizer.step()
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/optimizers/multi_gpu_optimizer.py", line 125, in step
+    self.num_envs_per_worker, self.train_batch_size)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/optimizers/rollout.py", line 28, in collect_samples
+    next_sample = ray.get(fut_sample)
+ray.worker.RayTaskError: [36mray_worker[39m (pid=2334301, host=cda-server-2)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/evaluation/policy_evaluator.py", line 368, in sample
+    batches = [self.input_reader.next()]
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/offline/input_reader.py", line 31, in next
+    batches = [self.sampler.get_data()]
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/evaluation/sampler.py", line 65, in get_data
+    item = next(self.rollout_provider)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/evaluation/sampler.py", line 267, in _env_runner
+    preprocessors, obs_filters, unroll_length, pack, callbacks)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/evaluation/sampler.py", line 403, in _process_observations
+    resetted_obs = base_env.try_reset(env_id)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/env/base_env.py", line 257, in try_reset
+    return {_DUMMY_AGENT_ID: self.vector_env.reset_at(env_id)}
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/env/vector_env.py", line 88, in reset_at
+    return self.envs[index].reset()
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run15/autockt/envs/ngspice_zhenxin_s_fc.py", line 344, in reset
+    self.cur_specs = self.update(self.cur_params_idx)
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run15/autockt/envs/ngspice_zhenxin_s_fc.py", line 496, in update
+    self.sim_env.create_design_and_simulate(param_val[0])[1].items(),
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run15/eval_engines/ngspice/ngspice_wrapper.py", line 133, in create_design_and_simulate
+    specs = self.translate_result(design_folder)
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run15/eval_engines/ngspice/Zhenxin_S_FC.py", line 29, in translate_result
+    freq, vout, ibias = self.parse_output(output_path)
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run15/eval_engines/ngspice/Zhenxin_S_FC.py", line 46, in parse_output
+    ac_raw_outputs = np.genfromtxt(ac_fname, skip_header=1)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/numpy/lib/npyio.py", line 1744, in genfromtxt
+    fhd = iter(np.lib._datasource.open(fname, 'rt', encoding=encoding))
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/numpy/lib/_datasource.py", line 266, in open
+    return ds.open(path, mode, encoding=encoding, newline=newline)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/numpy/lib/_datasource.py", line 624, in open
+    raise IOError("%s not found." % path)
+OSError: /tmp/ckt_da/designs_Zhenxin_S_FC/Zhenxin_S_FC_242.843_133.808_292.648_198.925_139.809_131.131_0.657_0.178_0.686_0.305_1.01249/ac.csv not found.
+
+
diff --git a/experiments/optimize-Zhenxin_S_FC_65nmPTM-run15/PPO_Zhenxin_S_FC_0_2025-09-05_08-42-54nto41l8r/error_2025-09-06_06-30-25.txt b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run15/PPO_Zhenxin_S_FC_0_2025-09-05_08-42-54nto41l8r/error_2025-09-06_06-30-25.txt
new file mode 100644
index 0000000..c9c2f51
--- /dev/null
+++ b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run15/PPO_Zhenxin_S_FC_0_2025-09-05_08-42-54nto41l8r/error_2025-09-06_06-30-25.txt
@@ -0,0 +1,52 @@
+Traceback (most recent call last):
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/tune/trial_runner.py", line 378, in _process_events
+    result = self.trial_executor.fetch_result(trial)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/tune/ray_trial_executor.py", line 228, in fetch_result
+    result = ray.get(trial_future[0])
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/worker.py", line 2132, in get
+    raise value
+ray.worker.RayTaskError: [36mray_worker[39m (pid=2334312, host=cda-server-2)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/agents/agent.py", line 284, in train
+    result = Trainable.train(self)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/tune/trainable.py", line 151, in train
+    result = self._train()
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/agents/ppo/ppo.py", line 103, in _train
+    fetches = self.optimizer.step()
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/optimizers/multi_gpu_optimizer.py", line 125, in step
+    self.num_envs_per_worker, self.train_batch_size)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/optimizers/rollout.py", line 28, in collect_samples
+    next_sample = ray.get(fut_sample)
+ray.worker.RayTaskError: [36mray_worker[39m (pid=2334305, host=cda-server-2)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/evaluation/policy_evaluator.py", line 368, in sample
+    batches = [self.input_reader.next()]
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/offline/input_reader.py", line 31, in next
+    batches = [self.sampler.get_data()]
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/evaluation/sampler.py", line 65, in get_data
+    item = next(self.rollout_provider)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/evaluation/sampler.py", line 267, in _env_runner
+    preprocessors, obs_filters, unroll_length, pack, callbacks)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/evaluation/sampler.py", line 403, in _process_observations
+    resetted_obs = base_env.try_reset(env_id)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/env/base_env.py", line 257, in try_reset
+    return {_DUMMY_AGENT_ID: self.vector_env.reset_at(env_id)}
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/env/vector_env.py", line 88, in reset_at
+    return self.envs[index].reset()
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run15/autockt/envs/ngspice_zhenxin_s_fc.py", line 344, in reset
+    self.cur_specs = self.update(self.cur_params_idx)
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run15/autockt/envs/ngspice_zhenxin_s_fc.py", line 496, in update
+    self.sim_env.create_design_and_simulate(param_val[0])[1].items(),
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run15/eval_engines/ngspice/ngspice_wrapper.py", line 133, in create_design_and_simulate
+    specs = self.translate_result(design_folder)
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run15/eval_engines/ngspice/Zhenxin_S_FC.py", line 29, in translate_result
+    freq, vout, ibias = self.parse_output(output_path)
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run15/eval_engines/ngspice/Zhenxin_S_FC.py", line 46, in parse_output
+    ac_raw_outputs = np.genfromtxt(ac_fname, skip_header=1)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/numpy/lib/npyio.py", line 1744, in genfromtxt
+    fhd = iter(np.lib._datasource.open(fname, 'rt', encoding=encoding))
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/numpy/lib/_datasource.py", line 266, in open
+    return ds.open(path, mode, encoding=encoding, newline=newline)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/numpy/lib/_datasource.py", line 624, in open
+    raise IOError("%s not found." % path)
+OSError: /tmp/ckt_da/designs_Zhenxin_S_FC/Zhenxin_S_FC_242.843_133.808_292.648_198.925_139.809_131.131_0.657_0.178_0.686_0.305_1.02136/ac.csv not found.
+
+
diff --git a/experiments/optimize-Zhenxin_S_FC_65nmPTM-run15/PPO_Zhenxin_S_FC_0_2025-09-05_08-42-54nto41l8r/error_2025-09-06_08-13-23.txt b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run15/PPO_Zhenxin_S_FC_0_2025-09-05_08-42-54nto41l8r/error_2025-09-06_08-13-23.txt
new file mode 100644
index 0000000..6532877
--- /dev/null
+++ b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run15/PPO_Zhenxin_S_FC_0_2025-09-05_08-42-54nto41l8r/error_2025-09-06_08-13-23.txt
@@ -0,0 +1,52 @@
+Traceback (most recent call last):
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/tune/trial_runner.py", line 378, in _process_events
+    result = self.trial_executor.fetch_result(trial)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/tune/ray_trial_executor.py", line 228, in fetch_result
+    result = ray.get(trial_future[0])
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/worker.py", line 2132, in get
+    raise value
+ray.worker.RayTaskError: [36mray_worker[39m (pid=2334315, host=cda-server-2)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/agents/agent.py", line 284, in train
+    result = Trainable.train(self)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/tune/trainable.py", line 151, in train
+    result = self._train()
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/agents/ppo/ppo.py", line 103, in _train
+    fetches = self.optimizer.step()
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/optimizers/multi_gpu_optimizer.py", line 125, in step
+    self.num_envs_per_worker, self.train_batch_size)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/optimizers/rollout.py", line 28, in collect_samples
+    next_sample = ray.get(fut_sample)
+ray.worker.RayTaskError: [36mray_worker[39m (pid=2334311, host=cda-server-2)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/evaluation/policy_evaluator.py", line 368, in sample
+    batches = [self.input_reader.next()]
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/offline/input_reader.py", line 31, in next
+    batches = [self.sampler.get_data()]
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/evaluation/sampler.py", line 65, in get_data
+    item = next(self.rollout_provider)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/evaluation/sampler.py", line 267, in _env_runner
+    preprocessors, obs_filters, unroll_length, pack, callbacks)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/evaluation/sampler.py", line 403, in _process_observations
+    resetted_obs = base_env.try_reset(env_id)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/env/base_env.py", line 257, in try_reset
+    return {_DUMMY_AGENT_ID: self.vector_env.reset_at(env_id)}
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/ray/rllib/env/vector_env.py", line 88, in reset_at
+    return self.envs[index].reset()
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run15/autockt/envs/ngspice_zhenxin_s_fc.py", line 344, in reset
+    self.cur_specs = self.update(self.cur_params_idx)
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run15/autockt/envs/ngspice_zhenxin_s_fc.py", line 496, in update
+    self.sim_env.create_design_and_simulate(param_val[0])[1].items(),
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run15/eval_engines/ngspice/ngspice_wrapper.py", line 133, in create_design_and_simulate
+    specs = self.translate_result(design_folder)
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run15/eval_engines/ngspice/Zhenxin_S_FC.py", line 29, in translate_result
+    freq, vout, ibias = self.parse_output(output_path)
+  File "/home/pham/code/analog-ml/AutoCkt-optimize-Zhenxin_S_FC_65nmPTM-run15/eval_engines/ngspice/Zhenxin_S_FC.py", line 46, in parse_output
+    ac_raw_outputs = np.genfromtxt(ac_fname, skip_header=1)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/numpy/lib/npyio.py", line 1744, in genfromtxt
+    fhd = iter(np.lib._datasource.open(fname, 'rt', encoding=encoding))
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/numpy/lib/_datasource.py", line 266, in open
+    return ds.open(path, mode, encoding=encoding, newline=newline)
+  File "/home/pham/anaconda3/envs/autockt/lib/python3.5/site-packages/numpy/lib/_datasource.py", line 624, in open
+    raise IOError("%s not found." % path)
+OSError: /tmp/ckt_da/designs_Zhenxin_S_FC/Zhenxin_S_FC_242.843_133.808_292.648_198.925_139.809_131.131_0.657_0.178_0.686_0.305_1.04100/ac.csv not found.
+
+
diff --git a/experiments/optimize-Zhenxin_S_FC_65nmPTM-run15/PPO_Zhenxin_S_FC_0_2025-09-05_08-42-54nto41l8r/events.out.tfevents.1757054831.cda-server-2 b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run15/PPO_Zhenxin_S_FC_0_2025-09-05_08-42-54nto41l8r/events.out.tfevents.1757054831.cda-server-2
new file mode 100644
index 0000000..3211079
Binary files /dev/null and b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run15/PPO_Zhenxin_S_FC_0_2025-09-05_08-42-54nto41l8r/events.out.tfevents.1757054831.cda-server-2 differ
diff --git a/experiments/optimize-Zhenxin_S_FC_65nmPTM-run15/PPO_Zhenxin_S_FC_0_2025-09-05_08-42-54nto41l8r/params.json b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run15/PPO_Zhenxin_S_FC_0_2025-09-05_08-42-54nto41l8r/params.json
new file mode 100644
index 0000000..76563ea
--- /dev/null
+++ b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run15/PPO_Zhenxin_S_FC_0_2025-09-05_08-42-54nto41l8r/params.json
@@ -0,0 +1,18 @@
+{
+  "env": "<class 'autockt.envs.ngspice_zhenxin_s_fc.Zhenxin_S_FC'>",
+  "env_config": {
+    "generalize": false,
+    "run_valid": false
+  },
+  "horizon": 50,
+  "model": {
+    "fcnet_hiddens": [
+      128,
+      128,
+      128
+    ]
+  },
+  "num_gpus": 0,
+  "num_workers": 3,
+  "train_batch_size": 1200
+}
\ No newline at end of file
diff --git a/experiments/optimize-Zhenxin_S_FC_65nmPTM-run15/PPO_Zhenxin_S_FC_0_2025-09-05_08-42-54nto41l8r/params.pkl b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run15/PPO_Zhenxin_S_FC_0_2025-09-05_08-42-54nto41l8r/params.pkl
new file mode 100644
index 0000000..2b71476
Binary files /dev/null and b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run15/PPO_Zhenxin_S_FC_0_2025-09-05_08-42-54nto41l8r/params.pkl differ
diff --git a/experiments/optimize-Zhenxin_S_FC_65nmPTM-run15/PPO_Zhenxin_S_FC_0_2025-09-05_08-42-54nto41l8r/progress.csv b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run15/PPO_Zhenxin_S_FC_0_2025-09-05_08-42-54nto41l8r/progress.csv
new file mode 100644
index 0000000..23073b8
--- /dev/null
+++ b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run15/PPO_Zhenxin_S_FC_0_2025-09-05_08-42-54nto41l8r/progress.csv
@@ -0,0 +1,2039 @@
+time_total_s,episodes_total,episode_reward_max,timesteps_this_iter,hostname,time_since_restore,experiment_id,episodes_this_iter,timestamp,timesteps_since_restore,episode_reward_min,pid,policy_reward_mean,node_ip,done,custom_metrics,date,episode_len_mean,timesteps_total,episode_reward_mean,num_metric_batches_dropped,time_this_iter_s,training_iteration,info,iterations_since_restore,config
+143.01380038261414,24,-95.22697914691747,1200,cda-server-2,143.01380038261414,f93d3d6710754a149751678a58e67540,24,1757054831,1200,-99.98189804263734,2334300,{},10.157.146.2,False,{},2025-09-05_08-47-11,50.0,1200,-97.94909731702506,0,143.01380038261414,1,"{'default': {'policy_loss': -0.09707700461149216, 'vf_explained_var': 0.0022073453292250633, 'vf_loss': 2251.77197265625, 'kl': 0.027490008622407913, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.20000000298023224, 'entropy': 15.60404109954834, 'total_loss': 2251.680419921875}, 'sample_time_ms': 141862.823, 'num_steps_trained': 1200, 'num_steps_sampled': 1200, 'update_time_ms': 401.558, 'grad_time_ms': 688.716, 'load_time_ms': 27.891}",1,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+189.603120803833,48,-95.22697914691747,1200,cda-server-2,189.603120803833,f93d3d6710754a149751678a58e67540,24,1757054878,2400,-99.98189804263734,2334300,{},10.157.146.2,False,{},2025-09-05_08-47-58,50.0,2400,-97.98010808031854,0,46.58932042121887,2,"{'default': {'policy_loss': -0.10861760377883911, 'vf_explained_var': -0.01660521887242794, 'vf_loss': 2001.18408203125, 'kl': 0.02995864860713482, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.30000001192092896, 'entropy': 15.60364818572998, 'total_loss': 2001.08447265625}, 'sample_time_ms': 94025.996, 'num_steps_trained': 2400, 'num_steps_sampled': 2400, 'update_time_ms': 202.314, 'grad_time_ms': 540.284, 'load_time_ms': 14.256}",2,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+246.73070693016052,72,-92.69323489725416,1200,cda-server-2,246.73070693016052,f93d3d6710754a149751678a58e67540,24,1757054935,3600,-99.98189804263734,2334300,{},10.157.146.2,False,{},2025-09-05_08-48-55,50.0,3600,-97.78628900976021,0,57.127586126327515,3,"{'default': {'policy_loss': -0.09483081847429276, 'vf_explained_var': -0.018582846969366074, 'vf_loss': 1863.76513671875, 'kl': 0.025606343522667885, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.44999995827674866, 'entropy': 15.602766036987305, 'total_loss': 1863.681884765625}, 'sample_time_ms': 81598.782, 'num_steps_trained': 3600, 'num_steps_sampled': 3600, 'update_time_ms': 135.733, 'grad_time_ms': 485.194, 'load_time_ms': 9.764}",3,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+287.7734043598175,96,-92.69323489725416,1200,cda-server-2,287.7734043598175,f93d3d6710754a149751678a58e67540,24,1757054976,4800,-100.02128538019043,2334300,{},10.157.146.2,False,{},2025-09-05_08-49-36,50.0,4800,-97.83256765308495,0,41.04269742965698,4,"{'default': {'policy_loss': -0.0985291600227356, 'vf_explained_var': -0.06143289804458618, 'vf_loss': 1764.452880859375, 'kl': 0.020781315863132477, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.675000011920929, 'entropy': 15.597869873046875, 'total_loss': 1764.3685302734375}, 'sample_time_ms': 71364.169, 'num_steps_trained': 4800, 'num_steps_sampled': 4800, 'update_time_ms': 102.458, 'grad_time_ms': 457.446, 'load_time_ms': 7.5}",4,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+327.41543984413147,120,-92.69323489725416,1200,cda-server-2,327.41543984413147,f93d3d6710754a149751678a58e67540,24,1757055016,6000,-100.02128538019043,2334300,{},10.157.146.2,False,{},2025-09-05_08-50-16,50.0,6000,-97.82120000353304,0,39.642035484313965,5,"{'default': {'policy_loss': -0.09901744872331619, 'vf_explained_var': -0.08014140278100967, 'vf_loss': 1689.4288330078125, 'kl': 0.017839699983596802, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'entropy': 15.584749221801758, 'total_loss': 1689.34765625}, 'sample_time_ms': 64945.569, 'num_steps_trained': 6000, 'num_steps_sampled': 6000, 'update_time_ms': 82.601, 'grad_time_ms': 438.534, 'load_time_ms': 6.13}",5,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+367.42116928100586,144,-23.986918324328194,1200,cda-server-2,367.42116928100586,f93d3d6710754a149751678a58e67540,24,1757055056,7200,-100.02128538019043,2334300,{},10.157.146.2,False,{},2025-09-05_08-50-56,49.53,7200,-96.66583361506002,0,40.00572943687439,6,"{'default': {'policy_loss': -0.10246561467647552, 'vf_explained_var': -0.08375171571969986, 'vf_loss': 1514.96630859375, 'kl': 0.018914539366960526, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'entropy': 15.573041915893555, 'total_loss': 1514.8831787109375}, 'sample_time_ms': 60724.256, 'num_steps_trained': 7200, 'num_steps_sampled': 7200, 'update_time_ms': 69.236, 'grad_time_ms': 428.873, 'load_time_ms': 5.225}",6,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+406.6202344894409,168,-23.986918324328194,1200,cda-server-2,406.6202344894409,f93d3d6710754a149751678a58e67540,24,1757055095,8400,-100.02128538019043,2334300,{},10.157.146.2,False,{},2025-09-05_08-51-35,49.38,8400,-96.37592139360795,0,39.19906520843506,7,"{'default': {'policy_loss': -0.09247355908155441, 'vf_explained_var': -0.12024961411952972, 'vf_loss': 1390.4051513671875, 'kl': 0.017445623874664307, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'entropy': 15.561347007751465, 'total_loss': 1390.33056640625}, 'sample_time_ms': 57594.337, 'num_steps_trained': 8400, 'num_steps_sampled': 8400, 'update_time_ms': 59.683, 'grad_time_ms': 421.426, 'load_time_ms': 4.582}",7,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+446.41970133781433,192,-23.986918324328194,1200,cda-server-2,446.41970133781433,f93d3d6710754a149751678a58e67540,24,1757055135,9600,-100.02128538019043,2334300,{},10.157.146.2,False,{},2025-09-05_08-52-15,49.38,9600,-96.43393422527663,0,39.79946684837341,8,"{'default': {'policy_loss': -0.10693171620368958, 'vf_explained_var': -0.11078718304634094, 'vf_loss': 1321.4288330078125, 'kl': 0.019344637170433998, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'entropy': 15.535579681396484, 'total_loss': 1321.3416748046875}, 'sample_time_ms': 55324.271, 'num_steps_trained': 9600, 'num_steps_sampled': 9600, 'update_time_ms': 52.553, 'grad_time_ms': 413.533, 'load_time_ms': 4.087}",8,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+485.83119893074036,216,-23.986918324328194,1200,cda-server-2,485.83119893074036,f93d3d6710754a149751678a58e67540,24,1757055174,10800,-99.98802602401176,2334300,{},10.157.146.2,False,{},2025-09-05_08-52-54,49.22,10800,-95.85707485886618,0,39.411497592926025,9,"{'default': {'policy_loss': -0.09745416045188904, 'vf_explained_var': -0.19261516630649567, 'vf_loss': 1301.50634765625, 'kl': 0.015448366291821003, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'entropy': 15.532939910888672, 'total_loss': 1301.4246826171875}, 'sample_time_ms': 53513.13, 'num_steps_trained': 10800, 'num_steps_sampled': 10800, 'update_time_ms': 46.957, 'grad_time_ms': 409.79, 'load_time_ms': 3.709}",9,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+525.0520513057709,240,-55.71995167593823,1200,cda-server-2,525.0520513057709,f93d3d6710754a149751678a58e67540,24,1757055214,12000,-99.98802602401176,2334300,{},10.157.146.2,False,{},2025-09-05_08-53-34,49.69,12000,-96.9969149779748,0,39.22085237503052,10,"{'default': {'policy_loss': -0.11342019587755203, 'vf_explained_var': -0.18519826233386993, 'vf_loss': 1290.7332763671875, 'kl': 0.018019400537014008, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'entropy': 15.516749382019043, 'total_loss': 1290.637939453125}, 'sample_time_ms': 52045.602, 'num_steps_trained': 12000, 'num_steps_sampled': 12000, 'update_time_ms': 42.513, 'grad_time_ms': 406.356, 'load_time_ms': 3.401}",10,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+564.1467010974884,264,-55.71995167593823,1200,cda-server-2,564.1467010974884,f93d3d6710754a149751678a58e67540,24,1757055253,13200,-99.98802602401176,2334300,{},10.157.146.2,False,{},2025-09-05_08-54-13,49.84,13200,-97.23875839336168,0,39.09464979171753,11,"{'default': {'policy_loss': -0.1108274906873703, 'vf_explained_var': -0.31772884726524353, 'vf_loss': 1336.2943115234375, 'kl': 0.019251951947808266, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'entropy': 15.51504898071289, 'total_loss': 1336.2030029296875}, 'sample_time_ms': 41732.211, 'num_steps_trained': 13200, 'num_steps_sampled': 13200, 'update_time_ms': 2.624, 'grad_time_ms': 373.295, 'load_time_ms': 0.673}",11,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+603.3625612258911,288,-55.71995167593823,1200,cda-server-2,603.3625612258911,f93d3d6710754a149751678a58e67540,24,1757055292,14400,-99.96144974345668,2334300,{},10.157.146.2,False,{},2025-09-05_08-54-52,49.84,14400,-97.16552309773762,0,39.21586012840271,12,"{'default': {'policy_loss': -0.0982426330447197, 'vf_explained_var': -0.2994450628757477, 'vf_loss': 1303.9056396484375, 'kl': 0.018091266974806786, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'entropy': 15.492209434509277, 'total_loss': 1303.82568359375}, 'sample_time_ms': 40995.242, 'num_steps_trained': 14400, 'num_steps_sampled': 14400, 'update_time_ms': 2.565, 'grad_time_ms': 372.978, 'load_time_ms': 0.686}",12,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+644.658510684967,312,-94.13979045484409,1200,cda-server-2,644.658510684967,f93d3d6710754a149751678a58e67540,24,1757055333,15600,-99.96144974345668,2334300,{},10.157.146.2,False,{},2025-09-05_08-55-33,50.0,15600,-97.63216254967479,0,41.29594945907593,13,"{'default': {'policy_loss': -0.09826384484767914, 'vf_explained_var': -0.30846989154815674, 'vf_loss': 1229.026123046875, 'kl': 0.017823221161961555, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'entropy': 15.467479705810547, 'total_loss': 1228.9459228515625}, 'sample_time_ms': 39411.967, 'num_steps_trained': 15600, 'num_steps_sampled': 15600, 'update_time_ms': 2.549, 'grad_time_ms': 373.127, 'load_time_ms': 0.683}",13,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+684.0572257041931,336,-94.13979045484409,1200,cda-server-2,684.0572257041931,f93d3d6710754a149751678a58e67540,24,1757055373,16800,-99.96144974345668,2334300,{},10.157.146.2,False,{},2025-09-05_08-56-13,50.0,16800,-97.56314110407824,0,39.398715019226074,14,"{'default': {'policy_loss': -0.10652614384889603, 'vf_explained_var': -0.44020986557006836, 'vf_loss': 1311.0396728515625, 'kl': 0.020065873861312866, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0125000476837158, 'entropy': 15.447012901306152, 'total_loss': 1310.9534912109375}, 'sample_time_ms': 39247.136, 'num_steps_trained': 16800, 'num_steps_sampled': 16800, 'update_time_ms': 2.526, 'grad_time_ms': 373.62, 'load_time_ms': 0.679}",14,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+723.2850732803345,360,-92.59538319082614,1200,cda-server-2,723.2850732803345,f93d3d6710754a149751678a58e67540,24,1757055412,18000,-99.97365739942256,2334300,{},10.157.146.2,False,{},2025-09-05_08-56-52,50.0,18000,-97.50964502682939,0,39.22784757614136,15,"{'default': {'policy_loss': -0.10779047012329102, 'vf_explained_var': -0.5147508978843689, 'vf_loss': 1344.6536865234375, 'kl': 0.014422442764043808, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.45061206817627, 'total_loss': 1344.5677490234375}, 'sample_time_ms': 39203.185, 'num_steps_trained': 18000, 'num_steps_sampled': 18000, 'update_time_ms': 2.466, 'grad_time_ms': 376.169, 'load_time_ms': 0.68}",15,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+765.2643439769745,384,-92.59538319082614,1200,cda-server-2,765.2643439769745,f93d3d6710754a149751678a58e67540,24,1757055454,19200,-99.97365739942256,2334300,{},10.157.146.2,False,{},2025-09-05_08-57-34,50.0,19200,-97.61564389465605,0,41.979270696640015,16,"{'default': {'policy_loss': -0.09099514782428741, 'vf_explained_var': -0.46429041028022766, 'vf_loss': 1249.70068359375, 'kl': 0.012946028262376785, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.41851806640625, 'total_loss': 1249.62939453125}, 'sample_time_ms': 39400.131, 'num_steps_trained': 19200, 'num_steps_sampled': 19200, 'update_time_ms': 2.483, 'grad_time_ms': 376.538, 'load_time_ms': 0.672}",16,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+805.0920796394348,408,-92.59538319082614,1200,cda-server-2,805.0920796394348,f93d3d6710754a149751678a58e67540,24,1757055494,20400,-99.97365739942256,2334300,{},10.157.146.2,False,{},2025-09-05_08-58-14,50.0,20400,-97.68340291109696,0,39.82773566246033,17,"{'default': {'policy_loss': -0.10126802325248718, 'vf_explained_var': -0.5970525741577148, 'vf_loss': 1298.8878173828125, 'kl': 0.015167636796832085, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.406099319458008, 'total_loss': 1298.8095703125}, 'sample_time_ms': 39463.013, 'num_steps_trained': 20400, 'num_steps_sampled': 20400, 'update_time_ms': 2.512, 'grad_time_ms': 376.514, 'load_time_ms': 0.67}",17,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+844.6405155658722,432,-92.59538319082614,1200,cda-server-2,844.6405155658722,f93d3d6710754a149751678a58e67540,24,1757055533,21600,-99.97365739942256,2334300,{},10.157.146.2,False,{},2025-09-05_08-58-53,50.0,21600,-97.73449119370657,0,39.54843592643738,18,"{'default': {'policy_loss': -0.10154333710670471, 'vf_explained_var': -0.5117239356040955, 'vf_loss': 1217.240478515625, 'kl': 0.014539708383381367, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.39613151550293, 'total_loss': 1217.1610107421875}, 'sample_time_ms': 39437.278, 'num_steps_trained': 21600, 'num_steps_sampled': 21600, 'update_time_ms': 2.499, 'grad_time_ms': 377.106, 'load_time_ms': 0.684}",18,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+884.0307812690735,456,-92.4576641795074,1200,cda-server-2,884.0307812690735,f93d3d6710754a149751678a58e67540,24,1757055573,22800,-99.97365739942256,2334300,{},10.157.146.2,False,{},2025-09-05_08-59-33,50.0,22800,-97.70831057336541,0,39.390265703201294,19,"{'default': {'policy_loss': -0.09967568516731262, 'vf_explained_var': -0.641169548034668, 'vf_loss': 1254.394287109375, 'kl': 0.013488581404089928, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.389339447021484, 'total_loss': 1254.315185546875}, 'sample_time_ms': 39436.41, 'num_steps_trained': 22800, 'num_steps_sampled': 22800, 'update_time_ms': 2.528, 'grad_time_ms': 375.822, 'load_time_ms': 0.684}",19,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+923.5720708370209,480,-92.4576641795074,1200,cda-server-2,923.5720708370209,f93d3d6710754a149751678a58e67540,24,1757055612,24000,-99.9879639887375,2334300,{},10.157.146.2,False,{},2025-09-05_09-00-12,50.0,24000,-97.58714980760092,0,39.54128956794739,20,"{'default': {'policy_loss': -0.1000511422753334, 'vf_explained_var': -0.6964651942253113, 'vf_loss': 1280.84716796875, 'kl': 0.013707313686609268, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.362982749938965, 'total_loss': 1280.7677001953125}, 'sample_time_ms': 39467.369, 'num_steps_trained': 24000, 'num_steps_sampled': 24000, 'update_time_ms': 2.533, 'grad_time_ms': 376.842, 'load_time_ms': 0.69}",20,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+963.225973367691,504,-67.48332556581346,1200,cda-server-2,963.225973367691,f93d3d6710754a149751678a58e67540,24,1757055652,25200,-99.9879639887375,2334300,{},10.157.146.2,False,{},2025-09-05_09-00-52,49.9,25200,-97.15637517732358,0,39.653902530670166,21,"{'default': {'policy_loss': -0.10451040416955948, 'vf_explained_var': -0.7225050330162048, 'vf_loss': 1321.384765625, 'kl': 0.013240496627986431, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.360356330871582, 'total_loss': 1321.30029296875}, 'sample_time_ms': 39521.399, 'num_steps_trained': 25200, 'num_steps_sampled': 25200, 'update_time_ms': 2.57, 'grad_time_ms': 378.672, 'load_time_ms': 0.695}",21,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+1002.8476870059967,528,-67.48332556581346,1200,cda-server-2,1002.8476870059967,f93d3d6710754a149751678a58e67540,24,1757055692,26400,-99.9879639887375,2334300,{},10.157.146.2,False,{},2025-09-05_09-01-32,49.9,26400,-97.12718352868167,0,39.621713638305664,22,"{'default': {'policy_loss': -0.10276782512664795, 'vf_explained_var': -0.7389117479324341, 'vf_loss': 1327.633056640625, 'kl': 0.014608736149966717, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.346869468688965, 'total_loss': 1327.55224609375}, 'sample_time_ms': 39565.009, 'num_steps_trained': 26400, 'num_steps_sampled': 26400, 'update_time_ms': 2.572, 'grad_time_ms': 375.642, 'load_time_ms': 0.688}",22,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+1042.498167514801,552,-67.48332556581346,1200,cda-server-2,1042.498167514801,f93d3d6710754a149751678a58e67540,24,1757055731,27600,-99.9879639887375,2334300,{},10.157.146.2,False,{},2025-09-05_09-02-11,49.9,27600,-97.12304681067516,0,39.65048050880432,23,"{'default': {'policy_loss': -0.1026996523141861, 'vf_explained_var': -0.7680750489234924, 'vf_loss': 1362.3328857421875, 'kl': 0.013560572639107704, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.381366729736328, 'total_loss': 1362.250732421875}, 'sample_time_ms': 39400.146, 'num_steps_trained': 27600, 'num_steps_sampled': 27600, 'update_time_ms': 2.573, 'grad_time_ms': 375.936, 'load_time_ms': 0.679}",23,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+1081.9136335849762,576,-67.48332556581346,1200,cda-server-2,1081.9136335849762,f93d3d6710754a149751678a58e67540,24,1757055771,28800,-99.91980105462494,2334300,{},10.157.146.2,False,{},2025-09-05_09-02-51,49.9,28800,-96.98442678312466,0,39.41546607017517,24,"{'default': {'policy_loss': -0.10783449560403824, 'vf_explained_var': -0.7502312064170837, 'vf_loss': 1329.4874267578125, 'kl': 0.014297685585916042, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.355671882629395, 'total_loss': 1329.4013671875}, 'sample_time_ms': 39402.043, 'num_steps_trained': 28800, 'num_steps_sampled': 28800, 'update_time_ms': 2.574, 'grad_time_ms': 375.724, 'load_time_ms': 0.677}",24,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+1121.4281277656555,601,-76.3067116365932,1200,cda-server-2,1121.4281277656555,f93d3d6710754a149751678a58e67540,25,1757055810,30000,-99.99428227295623,2334300,{},10.157.146.2,False,{},2025-09-05_09-03-30,49.95,30000,-97.21254476386588,0,39.51449418067932,25,"{'default': {'policy_loss': -0.09214794635772705, 'vf_explained_var': -0.6837130784988403, 'vf_loss': 1198.1015625, 'kl': 0.014428552240133286, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.29720401763916, 'total_loss': 1198.03125}, 'sample_time_ms': 39432.663, 'num_steps_trained': 30000, 'num_steps_sampled': 30000, 'update_time_ms': 2.586, 'grad_time_ms': 373.789, 'load_time_ms': 0.678}",25,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+1160.759013414383,625,-76.3067116365932,1200,cda-server-2,1160.759013414383,f93d3d6710754a149751678a58e67540,24,1757055850,31200,-99.99428227295623,2334300,{},10.157.146.2,False,{},2025-09-05_09-04-10,49.95,31200,-97.10680444309872,0,39.33088564872742,26,"{'default': {'policy_loss': -0.11082997173070908, 'vf_explained_var': -0.7980944514274597, 'vf_loss': 1215.87451171875, 'kl': 0.01447093952447176, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.337078094482422, 'total_loss': 1215.7855224609375}, 'sample_time_ms': 39167.88, 'num_steps_trained': 31200, 'num_steps_sampled': 31200, 'update_time_ms': 2.569, 'grad_time_ms': 373.755, 'load_time_ms': 0.694}",26,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+1200.093816280365,649,-76.3067116365932,1200,cda-server-2,1200.093816280365,f93d3d6710754a149751678a58e67540,24,1757055889,32400,-100.02611733827453,2334300,{},10.157.146.2,False,{},2025-09-05_09-04-49,49.95,32400,-97.09633425358099,0,39.334802865982056,27,"{'default': {'policy_loss': -0.10341368615627289, 'vf_explained_var': -0.7236064076423645, 'vf_loss': 1146.4234619140625, 'kl': 0.013601448386907578, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.297657012939453, 'total_loss': 1146.3406982421875}, 'sample_time_ms': 39118.522, 'num_steps_trained': 32400, 'num_steps_sampled': 32400, 'update_time_ms': 2.545, 'grad_time_ms': 373.84, 'load_time_ms': 0.689}",27,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+1240.198234796524,673,-76.3067116365932,1200,cda-server-2,1240.198234796524,f93d3d6710754a149751678a58e67540,24,1757055929,33600,-100.02611733827453,2334300,{},10.157.146.2,False,{},2025-09-05_09-05-29,49.95,33600,-97.14897690425133,0,40.10441851615906,28,"{'default': {'policy_loss': -0.09958818554878235, 'vf_explained_var': -0.7672804594039917, 'vf_loss': 1231.8074951171875, 'kl': 0.01397522259503603, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.32217788696289, 'total_loss': 1231.7291259765625}, 'sample_time_ms': 39173.332, 'num_steps_trained': 33600, 'num_steps_sampled': 33600, 'update_time_ms': 2.548, 'grad_time_ms': 374.62, 'load_time_ms': 0.676}",28,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+1280.7290706634521,697,-93.61728735301668,1200,cda-server-2,1280.7290706634521,f93d3d6710754a149751678a58e67540,24,1757055970,34800,-100.02611733827453,2334300,{},10.157.146.2,False,{},2025-09-05_09-06-10,50.0,34800,-97.31539155933983,0,40.5308358669281,29,"{'default': {'policy_loss': -0.11281483620405197, 'vf_explained_var': -0.8760097026824951, 'vf_loss': 1288.7369384765625, 'kl': 0.013724273070693016, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.32931137084961, 'total_loss': 1288.64501953125}, 'sample_time_ms': 39285.356, 'num_steps_trained': 34800, 'num_steps_sampled': 34800, 'update_time_ms': 2.551, 'grad_time_ms': 376.638, 'load_time_ms': 0.678}",29,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+1321.5964460372925,721,-13.999275655060348,1200,cda-server-2,1321.5964460372925,f93d3d6710754a149751678a58e67540,24,1757056011,36000,-100.02611733827453,2334300,{},10.157.146.2,False,{},2025-09-05_09-06-51,49.63,36000,-96.47087976264903,0,40.86737537384033,30,"{'default': {'policy_loss': -0.10716176778078079, 'vf_explained_var': -0.8252618908882141, 'vf_loss': 1301.8095703125, 'kl': 0.015517166815698147, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.329354286193848, 'total_loss': 1301.7259521484375}, 'sample_time_ms': 39420.702, 'num_steps_trained': 36000, 'num_steps_sampled': 36000, 'update_time_ms': 2.577, 'grad_time_ms': 373.942, 'load_time_ms': 0.67}",30,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+1364.339961528778,745,-13.999275655060348,1200,cda-server-2,1364.339961528778,f93d3d6710754a149751678a58e67540,24,1757056053,37200,-99.8453928452534,2334300,{},10.157.146.2,False,{},2025-09-05_09-07-33,49.63,37200,-96.39356571373128,0,42.743515491485596,31,"{'default': {'policy_loss': -0.1068749725818634, 'vf_explained_var': -0.7526190876960754, 'vf_loss': 1275.0535888671875, 'kl': 0.01416856050491333, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.336437225341797, 'total_loss': 1274.96826171875}, 'sample_time_ms': 39729.637, 'num_steps_trained': 37200, 'num_steps_sampled': 37200, 'update_time_ms': 2.563, 'grad_time_ms': 373.977, 'load_time_ms': 0.688}",31,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+1407.3817882537842,769,-13.999275655060348,1200,cda-server-2,1407.3817882537842,f93d3d6710754a149751678a58e67540,24,1757056096,38400,-99.95833840549392,2334300,{},10.157.146.2,False,{},2025-09-05_09-08-16,49.63,38400,-96.28459672006797,0,43.0418267250061,32,"{'default': {'policy_loss': -0.11371222138404846, 'vf_explained_var': -0.7593828439712524, 'vf_loss': 1248.1702880859375, 'kl': 0.015450311824679375, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.315656661987305, 'total_loss': 1248.0799560546875}, 'sample_time_ms': 40068.651, 'num_steps_trained': 38400, 'num_steps_sampled': 38400, 'update_time_ms': 2.581, 'grad_time_ms': 376.989, 'load_time_ms': 0.682}",32,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+1448.7031786441803,793,-13.999275655060348,1200,cda-server-2,1448.7031786441803,f93d3d6710754a149751678a58e67540,24,1757056138,39600,-99.95833840549392,2334300,{},10.157.146.2,False,{},2025-09-05_09-08-58,49.63,39600,-96.08672444777507,0,41.32139039039612,33,"{'default': {'policy_loss': -0.11190742999315262, 'vf_explained_var': -0.9210463762283325, 'vf_loss': 1378.2001953125, 'kl': 0.01276362407952547, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.361201286315918, 'total_loss': 1378.107666015625}, 'sample_time_ms': 40234.207, 'num_steps_trained': 39600, 'num_steps_sampled': 39600, 'update_time_ms': 2.618, 'grad_time_ms': 378.485, 'load_time_ms': 0.692}",33,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+1491.3646879196167,817,-90.93290511548722,1200,cda-server-2,1491.3646879196167,f93d3d6710754a149751678a58e67540,24,1757056180,40800,-99.95833840549392,2334300,{},10.157.146.2,False,{},2025-09-05_09-09-40,50.0,40800,-96.97419016223253,0,42.6615092754364,34,"{'default': {'policy_loss': -0.11778637021780014, 'vf_explained_var': -0.8483020663261414, 'vf_loss': 1338.647216796875, 'kl': 0.013801896013319492, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.336003303527832, 'total_loss': 1338.5504150390625}, 'sample_time_ms': 40559.79, 'num_steps_trained': 40800, 'num_steps_sampled': 40800, 'update_time_ms': 2.629, 'grad_time_ms': 377.481, 'load_time_ms': 0.697}",34,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+1534.7375404834747,841,-90.93290511548722,1200,cda-server-2,1534.7375404834747,f93d3d6710754a149751678a58e67540,24,1757056224,42000,-99.95833840549392,2334300,{},10.157.146.2,False,{},2025-09-05_09-10-24,50.0,42000,-97.06445571548585,0,43.37285256385803,35,"{'default': {'policy_loss': -0.10056743025779724, 'vf_explained_var': -0.66657555103302, 'vf_loss': 1161.870361328125, 'kl': 0.01379575114697218, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.20518970489502, 'total_loss': 1161.79052734375}, 'sample_time_ms': 40945.102, 'num_steps_trained': 42000, 'num_steps_sampled': 42000, 'update_time_ms': 2.592, 'grad_time_ms': 378.045, 'load_time_ms': 0.698}",35,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+1577.7135796546936,865,-90.93290511548722,1200,cda-server-2,1577.7135796546936,f93d3d6710754a149751678a58e67540,24,1757056267,43200,-99.73976885532727,2334300,{},10.157.146.2,False,{},2025-09-05_09-11-07,50.0,43200,-97.13962688488465,0,42.97603917121887,36,"{'default': {'policy_loss': -0.11780932545661926, 'vf_explained_var': -0.7210826277732849, 'vf_loss': 1224.193603515625, 'kl': 0.01402256265282631, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.26211166381836, 'total_loss': 1224.0970458984375}, 'sample_time_ms': 41311.819, 'num_steps_trained': 43200, 'num_steps_sampled': 43200, 'update_time_ms': 2.597, 'grad_time_ms': 375.867, 'load_time_ms': 0.683}",36,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+1621.0839302539825,889,-56.468316458363375,1200,cda-server-2,1621.0839302539825,f93d3d6710754a149751678a58e67540,24,1757056310,44400,-99.76178311023381,2334300,{},10.157.146.2,False,{},2025-09-05_09-11-50,49.86,44400,-96.83941071859998,0,43.37035059928894,37,"{'default': {'policy_loss': -0.11136848479509354, 'vf_explained_var': -0.8810325264930725, 'vf_loss': 1335.4539794921875, 'kl': 0.013670983724296093, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.271031379699707, 'total_loss': 1335.3634033203125}, 'sample_time_ms': 41714.403, 'num_steps_trained': 44400, 'num_steps_sampled': 44400, 'update_time_ms': 2.591, 'grad_time_ms': 376.804, 'load_time_ms': 0.697}",37,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+1660.7811546325684,913,-56.468316458363375,1200,cda-server-2,1660.7811546325684,f93d3d6710754a149751678a58e67540,24,1757056350,45600,-99.76178311023381,2334300,{},10.157.146.2,False,{},2025-09-05_09-12-30,49.86,45600,-96.82637889684015,0,39.697224378585815,38,"{'default': {'policy_loss': -0.11586764454841614, 'vf_explained_var': -0.8114113807678223, 'vf_loss': 1350.88818359375, 'kl': 0.014386038295924664, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.27672004699707, 'total_loss': 1350.7943115234375}, 'sample_time_ms': 41673.443, 'num_steps_trained': 45600, 'num_steps_sampled': 45600, 'update_time_ms': 2.603, 'grad_time_ms': 377.032, 'load_time_ms': 0.706}",38,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+1701.1931653022766,937,-56.468316458363375,1200,cda-server-2,1701.1931653022766,f93d3d6710754a149751678a58e67540,24,1757056390,46800,-99.76178311023381,2334300,{},10.157.146.2,False,{},2025-09-05_09-13-10,49.86,46800,-96.66136834994644,0,40.41201066970825,39,"{'default': {'policy_loss': -0.12094525247812271, 'vf_explained_var': -0.8007137775421143, 'vf_loss': 1290.368408203125, 'kl': 0.014655547216534615, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.197568893432617, 'total_loss': 1290.26953125}, 'sample_time_ms': 41663.905, 'num_steps_trained': 46800, 'num_steps_sampled': 46800, 'update_time_ms': 2.577, 'grad_time_ms': 374.758, 'load_time_ms': 0.717}",39,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+1740.5821454524994,961,-56.468316458363375,1200,cda-server-2,1740.5821454524994,f93d3d6710754a149751678a58e67540,24,1757056430,48000,-99.76178311023381,2334300,{},10.157.146.2,False,{},2025-09-05_09-13-50,49.86,48000,-96.73488448976255,0,39.38898015022278,40,"{'default': {'policy_loss': -0.10425339639186859, 'vf_explained_var': -0.7700226306915283, 'vf_loss': 1298.574951171875, 'kl': 0.012954521924257278, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.223194122314453, 'total_loss': 1298.4903564453125}, 'sample_time_ms': 41515.941, 'num_steps_trained': 48000, 'num_steps_sampled': 48000, 'update_time_ms': 2.541, 'grad_time_ms': 374.909, 'load_time_ms': 0.722}",40,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+1779.9808220863342,986,-13.88648998541506,1200,cda-server-2,1779.9808220863342,f93d3d6710754a149751678a58e67540,25,1757056469,49200,-99.25026818063208,2334300,{},10.157.146.2,False,{},2025-09-05_09-14-29,49.49,49200,-95.85762946953993,0,39.39867663383484,41,"{'default': {'policy_loss': -0.11180008947849274, 'vf_explained_var': -0.8593404293060303, 'vf_loss': 1239.2149658203125, 'kl': 0.015213612467050552, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.24398422241211, 'total_loss': 1239.12646484375}, 'sample_time_ms': 41180.615, 'num_steps_trained': 49200, 'num_steps_sampled': 49200, 'update_time_ms': 2.519, 'grad_time_ms': 375.755, 'load_time_ms': 0.715}",41,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+1819.8628153800964,1010,-13.88648998541506,1200,cda-server-2,1819.8628153800964,f93d3d6710754a149751678a58e67540,24,1757056509,50400,-99.4909916464596,2334300,{},10.157.146.2,False,{},2025-09-05_09-15-09,49.63,50400,-96.25937337256548,0,39.88199329376221,42,"{'default': {'policy_loss': -0.12077488005161285, 'vf_explained_var': -0.7449655532836914, 'vf_loss': 1108.6475830078125, 'kl': 0.014218862168490887, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.083518028259277, 'total_loss': 1108.54833984375}, 'sample_time_ms': 40864.484, 'num_steps_trained': 50400, 'num_steps_sampled': 50400, 'update_time_ms': 2.492, 'grad_time_ms': 375.87, 'load_time_ms': 0.732}",42,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+1859.5722017288208,1034,-13.88648998541506,1200,cda-server-2,1859.5722017288208,f93d3d6710754a149751678a58e67540,24,1757056549,51600,-99.4909916464596,2334300,{},10.157.146.2,False,{},2025-09-05_09-15-49,49.63,51600,-96.26523312349677,0,39.709386348724365,43,"{'default': {'policy_loss': -0.10763101279735565, 'vf_explained_var': -0.790911853313446, 'vf_loss': 1241.733154296875, 'kl': 0.014413055032491684, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.15829086303711, 'total_loss': 1241.6474609375}, 'sample_time_ms': 40706.474, 'num_steps_trained': 51600, 'num_steps_sampled': 51600, 'update_time_ms': 2.478, 'grad_time_ms': 372.711, 'load_time_ms': 0.718}",43,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+1899.208859205246,1058,-13.88648998541506,1200,cda-server-2,1899.208859205246,f93d3d6710754a149751678a58e67540,24,1757056588,52800,-99.4909916464596,2334300,{},10.157.146.2,False,{},2025-09-05_09-16-28,49.63,52800,-96.09459464572684,0,39.63665747642517,44,"{'default': {'policy_loss': -0.11093033850193024, 'vf_explained_var': -0.7879766225814819, 'vf_loss': 1163.18310546875, 'kl': 0.0127165038138628, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.14774227142334, 'total_loss': 1163.09130859375}, 'sample_time_ms': 40401.74, 'num_steps_trained': 52800, 'num_steps_sampled': 52800, 'update_time_ms': 2.48, 'grad_time_ms': 374.93, 'load_time_ms': 0.722}",44,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+1938.537549495697,1082,-78.28475200301314,1200,cda-server-2,1938.537549495697,f93d3d6710754a149751678a58e67540,24,1757056628,54000,-99.77235914094456,2334300,{},10.157.146.2,False,{},2025-09-05_09-17-08,49.96,54000,-96.7042980118301,0,39.32869029045105,45,"{'default': {'policy_loss': -0.10614704340696335, 'vf_explained_var': -0.8189826011657715, 'vf_loss': 1252.5899658203125, 'kl': 0.013773324899375439, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.192587852478027, 'total_loss': 1252.504638671875}, 'sample_time_ms': 39996.977, 'num_steps_trained': 54000, 'num_steps_sampled': 54000, 'update_time_ms': 2.516, 'grad_time_ms': 375.214, 'load_time_ms': 0.723}",45,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+1977.922419309616,1106,-78.28475200301314,1200,cda-server-2,1977.922419309616,f93d3d6710754a149751678a58e67540,24,1757056667,55200,-99.91765297522484,2334300,{},10.157.146.2,False,{},2025-09-05_09-17-47,49.96,55200,-96.7732115320021,0,39.38486981391907,46,"{'default': {'policy_loss': -0.11124785989522934, 'vf_explained_var': -0.737091600894928, 'vf_loss': 1177.084716796875, 'kl': 0.013016111217439175, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.99471664428711, 'total_loss': 1176.9932861328125}, 'sample_time_ms': 39638.165, 'num_steps_trained': 55200, 'num_steps_sampled': 55200, 'update_time_ms': 2.503, 'grad_time_ms': 374.909, 'load_time_ms': 0.723}",46,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+2017.4959580898285,1131,-60.05201531677197,1200,cda-server-2,2017.4959580898285,f93d3d6710754a149751678a58e67540,25,1757056707,56400,-99.91765297522484,2334300,{},10.157.146.2,False,{},2025-09-05_09-18-27,49.83,56400,-96.59373059055133,0,39.5735387802124,47,"{'default': {'policy_loss': -0.11178987473249435, 'vf_explained_var': -0.5760729312896729, 'vf_loss': 1044.9349365234375, 'kl': 0.013933916576206684, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.982396125793457, 'total_loss': 1044.84423828125}, 'sample_time_ms': 39259.406, 'num_steps_trained': 56400, 'num_steps_sampled': 56400, 'update_time_ms': 2.508, 'grad_time_ms': 373.949, 'load_time_ms': 0.725}",47,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+2057.0470831394196,1155,-60.05201531677197,1200,cda-server-2,2057.0470831394196,f93d3d6710754a149751678a58e67540,24,1757056746,57600,-99.91765297522484,2334300,{},10.157.146.2,False,{},2025-09-05_09-19-06,49.83,57600,-96.5111728655563,0,39.551125049591064,48,"{'default': {'policy_loss': -0.11196480691432953, 'vf_explained_var': -0.7148616313934326, 'vf_loss': 1128.729736328125, 'kl': 0.013331250287592411, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.079879760742188, 'total_loss': 1128.6380615234375}, 'sample_time_ms': 39243.531, 'num_steps_trained': 57600, 'num_steps_sampled': 57600, 'update_time_ms': 2.522, 'grad_time_ms': 375.221, 'load_time_ms': 0.72}",48,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+2097.1946234703064,1179,0.0004119213740647609,1200,cda-server-2,2097.1946234703064,f93d3d6710754a149751678a58e67540,24,1757056787,58800,-99.91765297522484,2334300,{},10.157.146.2,False,{},2025-09-05_09-19-47,49.39,58800,-95.43681173610204,0,40.14754033088684,49,"{'default': {'policy_loss': -0.1002226248383522, 'vf_explained_var': -0.7094972729682922, 'vf_loss': 1246.2293701171875, 'kl': 0.01308484748005867, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.097869873046875, 'total_loss': 1246.14892578125}, 'sample_time_ms': 39217.371, 'num_steps_trained': 58800, 'num_steps_sampled': 58800, 'update_time_ms': 2.537, 'grad_time_ms': 374.923, 'load_time_ms': 0.704}",49,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+2136.6844804286957,1203,0.0004119213740647609,1200,cda-server-2,2136.6844804286957,f93d3d6710754a149751678a58e67540,24,1757056826,60000,-99.90170156839785,2334300,{},10.157.146.2,False,{},2025-09-05_09-20-26,49.43,60000,-95.52973726195987,0,39.48985695838928,50,"{'default': {'policy_loss': -0.11692272126674652, 'vf_explained_var': -0.7627740502357483, 'vf_loss': 1224.977294921875, 'kl': 0.013586388900876045, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.937549591064453, 'total_loss': 1224.881103515625}, 'sample_time_ms': 39227.206, 'num_steps_trained': 60000, 'num_steps_sampled': 60000, 'update_time_ms': 2.535, 'grad_time_ms': 375.138, 'load_time_ms': 0.706}",50,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+2176.7232036590576,1227,0.0004119213740647609,1200,cda-server-2,2176.7232036590576,f93d3d6710754a149751678a58e67540,24,1757056866,61200,-99.90170156839785,2334300,{},10.157.146.2,False,{},2025-09-05_09-21-06,49.56,61200,-95.58151317709793,0,40.03872323036194,51,"{'default': {'policy_loss': -0.10649402439594269, 'vf_explained_var': -0.7719044089317322, 'vf_loss': 1267.977783203125, 'kl': 0.013572047464549541, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.072731971740723, 'total_loss': 1267.8919677734375}, 'sample_time_ms': 39293.963, 'num_steps_trained': 61200, 'num_steps_sampled': 61200, 'update_time_ms': 2.599, 'grad_time_ms': 372.364, 'load_time_ms': 0.69}",51,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+2217.002678155899,1251,0.0004119213740647609,1200,cda-server-2,2217.002678155899,f93d3d6710754a149751678a58e67540,24,1757056906,62400,-99.82731905284957,2334300,{},10.157.146.2,False,{},2025-09-05_09-21-46,49.56,62400,-95.53338396484112,0,40.27947449684143,52,"{'default': {'policy_loss': -0.11998943239450455, 'vf_explained_var': -0.7369000911712646, 'vf_loss': 1216.1888427734375, 'kl': 0.013479425571858883, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.01595401763916, 'total_loss': 1216.08935546875}, 'sample_time_ms': 39334.882, 'num_steps_trained': 62400, 'num_steps_sampled': 62400, 'update_time_ms': 2.606, 'grad_time_ms': 371.205, 'load_time_ms': 0.679}",52,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+2256.8816680908203,1275,-90.34387481776746,1200,cda-server-2,2256.8816680908203,f93d3d6710754a149751678a58e67540,24,1757056946,63600,-99.74145794833697,2334300,{},10.157.146.2,False,{},2025-09-05_09-22-26,50.0,63600,-96.4344535976483,0,39.878989934921265,53,"{'default': {'policy_loss': -0.11828956007957458, 'vf_explained_var': -0.6745530366897583, 'vf_loss': 1277.607666015625, 'kl': 0.016072383150458336, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.038016319274902, 'total_loss': 1277.513916015625}, 'sample_time_ms': 39352.463, 'num_steps_trained': 63600, 'num_steps_sampled': 63600, 'update_time_ms': 2.588, 'grad_time_ms': 370.656, 'load_time_ms': 0.684}",53,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+2296.4817295074463,1300,0.0003518148949925859,1200,cda-server-2,2296.4817295074463,f93d3d6710754a149751678a58e67540,25,1757056986,64800,-99.74145794833697,2334300,{},10.157.146.2,False,{},2025-09-05_09-23-06,49.56,64800,-95.3952909287442,0,39.60006141662598,54,"{'default': {'policy_loss': -0.1170729398727417, 'vf_explained_var': -0.7952179908752441, 'vf_loss': 1407.24609375, 'kl': 0.014248613268136978, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.089838981628418, 'total_loss': 1407.1507568359375}, 'sample_time_ms': 39351.042, 'num_steps_trained': 64800, 'num_steps_sampled': 64800, 'update_time_ms': 2.6, 'grad_time_ms': 368.401, 'load_time_ms': 0.673}",54,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+2337.0267148017883,1324,0.0003518148949925859,1200,cda-server-2,2337.0267148017883,f93d3d6710754a149751678a58e67540,24,1757057027,66000,-99.74145794833697,2334300,{},10.157.146.2,False,{},2025-09-05_09-23-47,49.56,66000,-95.38242992551076,0,40.54498529434204,55,"{'default': {'policy_loss': -0.11749434471130371, 'vf_explained_var': -0.6395021080970764, 'vf_loss': 1166.013916015625, 'kl': 0.013344652950763702, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.95435905456543, 'total_loss': 1165.916748046875}, 'sample_time_ms': 39474.439, 'num_steps_trained': 66000, 'num_steps_sampled': 66000, 'update_time_ms': 2.623, 'grad_time_ms': 366.603, 'load_time_ms': 0.672}",55,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+2376.384551048279,1349,0.0003518148949925859,1200,cda-server-2,2376.384551048279,f93d3d6710754a149751678a58e67540,25,1757057066,67200,-99.28330816826107,2334300,{},10.157.146.2,False,{},2025-09-05_09-24-26,49.26,67200,-94.81801565417373,0,39.35783624649048,56,"{'default': {'policy_loss': -0.11888387799263, 'vf_explained_var': -0.7377943396568298, 'vf_loss': 1171.04443359375, 'kl': 0.01409358810633421, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.90943431854248, 'total_loss': 1170.9468994140625}, 'sample_time_ms': 39470.384, 'num_steps_trained': 67200, 'num_steps_sampled': 67200, 'update_time_ms': 2.656, 'grad_time_ms': 367.9, 'load_time_ms': 0.669}",56,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+2415.792644262314,1373,0.0003518148949925859,1200,cda-server-2,2415.792644262314,f93d3d6710754a149751678a58e67540,24,1757057105,68400,-99.41484522317616,2334300,{},10.157.146.2,False,{},2025-09-05_09-25-05,49.0,68400,-94.12576687310212,0,39.408093214035034,57,"{'default': {'policy_loss': -0.10748697817325592, 'vf_explained_var': -0.6244852542877197, 'vf_loss': 1294.083251953125, 'kl': 0.014127884991466999, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.035603523254395, 'total_loss': 1293.9971923828125}, 'sample_time_ms': 39455.185, 'num_steps_trained': 68400, 'num_steps_sampled': 68400, 'update_time_ms': 2.693, 'grad_time_ms': 366.588, 'load_time_ms': 0.663}",57,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+2455.459967851639,1397,-27.203761082071445,1200,cda-server-2,2455.459967851639,f93d3d6710754a149751678a58e67540,24,1757057145,69600,-99.41484522317616,2334300,{},10.157.146.2,False,{},2025-09-05_09-25-45,49.42,69600,-94.85607122066529,0,39.66732358932495,58,"{'default': {'policy_loss': -0.10801828652620316, 'vf_explained_var': -0.6408900022506714, 'vf_loss': 1237.039306640625, 'kl': 0.014009807258844376, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.908944129943848, 'total_loss': 1236.95263671875}, 'sample_time_ms': 39469.081, 'num_steps_trained': 69600, 'num_steps_sampled': 69600, 'update_time_ms': 2.64, 'grad_time_ms': 364.323, 'load_time_ms': 0.661}",58,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+2496.267740011215,1422,-15.492149453011866,1200,cda-server-2,2496.267740011215,f93d3d6710754a149751678a58e67540,25,1757057186,70800,-99.41484522317616,2334300,{},10.157.146.2,False,{},2025-09-05_09-26-26,49.0,70800,-93.59088503031008,0,40.807772159576416,59,"{'default': {'policy_loss': -0.12167921662330627, 'vf_explained_var': -0.6976935863494873, 'vf_loss': 1244.8367919921875, 'kl': 0.013773087412118912, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.775181770324707, 'total_loss': 1244.736083984375}, 'sample_time_ms': 39533.686, 'num_steps_trained': 70800, 'num_steps_sampled': 70800, 'update_time_ms': 2.663, 'grad_time_ms': 365.701, 'load_time_ms': 0.667}",59,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+2535.845315217972,1446,-15.492149453011866,1200,cda-server-2,2535.845315217972,f93d3d6710754a149751678a58e67540,24,1757057225,72000,-99.41484522317616,2334300,{},10.157.146.2,False,{},2025-09-05_09-27-05,49.27,72000,-93.87288976147623,0,39.57757520675659,60,"{'default': {'policy_loss': -0.11935912072658539, 'vf_explained_var': -0.8063184022903442, 'vf_loss': 1271.5775146484375, 'kl': 0.014443819411098957, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.863423347473145, 'total_loss': 1271.47998046875}, 'sample_time_ms': 39542.959, 'num_steps_trained': 72000, 'num_steps_sampled': 72000, 'update_time_ms': 2.648, 'grad_time_ms': 365.258, 'load_time_ms': 0.664}",60,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+2575.6522471904755,1470,-15.492149453011866,1200,cda-server-2,2575.6522471904755,f93d3d6710754a149751678a58e67540,24,1757057265,73200,-99.27016227674306,2334300,{},10.157.146.2,False,{},2025-09-05_09-27-45,49.46,73200,-94.23675346799804,0,39.80693197250366,61,"{'default': {'policy_loss': -0.11347237229347229, 'vf_explained_var': -0.7876231074333191, 'vf_loss': 1332.0191650390625, 'kl': 0.012887651100754738, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.88720703125, 'total_loss': 1331.92529296875}, 'sample_time_ms': 39516.944, 'num_steps_trained': 73200, 'num_steps_sampled': 73200, 'update_time_ms': 2.65, 'grad_time_ms': 368.085, 'load_time_ms': 0.683}",61,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+2615.2938845157623,1495,-1.9993872308851142,1200,cda-server-2,2615.2938845157623,f93d3d6710754a149751678a58e67540,25,1757057305,74400,-99.27016227674306,2334300,{},10.157.146.2,False,{},2025-09-05_09-28-25,49.05,74400,-93.15189633838985,0,39.641637325286865,62,"{'default': {'policy_loss': -0.12483645975589752, 'vf_explained_var': -0.7310283780097961, 'vf_loss': 1358.9737548828125, 'kl': 0.01425371877849102, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 15.001273155212402, 'total_loss': 1358.8704833984375}, 'sample_time_ms': 39455.094, 'num_steps_trained': 74400, 'num_steps_sampled': 74400, 'update_time_ms': 2.653, 'grad_time_ms': 366.204, 'load_time_ms': 0.675}",62,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+2654.813741207123,1519,-1.9993872308851142,1200,cda-server-2,2654.813741207123,f93d3d6710754a149751678a58e67540,24,1757057344,75600,-98.88590210179923,2334300,{},10.157.146.2,False,{},2025-09-05_09-29-04,49.46,75600,-94.29093292568206,0,39.519856691360474,63,"{'default': {'policy_loss': -0.11921918392181396, 'vf_explained_var': -0.6850407123565674, 'vf_loss': 1233.790771484375, 'kl': 0.014056752435863018, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.772364616394043, 'total_loss': 1233.69287109375}, 'sample_time_ms': 39417.528, 'num_steps_trained': 75600, 'num_steps_sampled': 75600, 'update_time_ms': 2.641, 'grad_time_ms': 367.816, 'load_time_ms': 0.674}",63,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+2694.074815273285,1544,-1.9993872308851142,1200,cda-server-2,2694.074815273285,f93d3d6710754a149751678a58e67540,25,1757057384,76800,-98.88590210179923,2334300,{},10.157.146.2,False,{},2025-09-05_09-29-44,49.09,76800,-93.75938100607296,0,39.26107406616211,64,"{'default': {'policy_loss': -0.12742651998996735, 'vf_explained_var': -0.8115355968475342, 'vf_loss': 1266.219970703125, 'kl': 0.015595532022416592, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.760162353515625, 'total_loss': 1266.1163330078125}, 'sample_time_ms': 39381.749, 'num_steps_trained': 76800, 'num_steps_sampled': 76800, 'update_time_ms': 2.643, 'grad_time_ms': 369.703, 'load_time_ms': 0.673}",64,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+2733.5472178459167,1568,-1.9993872308851142,1200,cda-server-2,2733.5472178459167,f93d3d6710754a149751678a58e67540,24,1757057423,78000,-98.88590210179923,2334300,{},10.157.146.2,False,{},2025-09-05_09-30-23,48.73,78000,-92.84363356812214,0,39.472402572631836,65,"{'default': {'policy_loss': -0.12782728672027588, 'vf_explained_var': -0.7338828444480896, 'vf_loss': 1404.75244140625, 'kl': 0.015384836122393608, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.93954849243164, 'total_loss': 1404.64794921875}, 'sample_time_ms': 39274.787, 'num_steps_trained': 78000, 'num_steps_sampled': 78000, 'update_time_ms': 2.62, 'grad_time_ms': 369.457, 'load_time_ms': 0.671}",65,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+2774.3927145004272,1592,-1.9993872308851142,1200,cda-server-2,2774.3927145004272,f93d3d6710754a149751678a58e67540,24,1757057464,79200,-98.88590210179923,2334300,{},10.157.146.2,False,{},2025-09-05_09-31-04,48.73,79200,-92.98045089245396,0,40.8454966545105,66,"{'default': {'policy_loss': -0.11827827990055084, 'vf_explained_var': -0.7153266668319702, 'vf_loss': 1454.8536376953125, 'kl': 0.014339129440486431, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.795185089111328, 'total_loss': 1454.7572021484375}, 'sample_time_ms': 39422.622, 'num_steps_trained': 79200, 'num_steps_sampled': 79200, 'update_time_ms': 2.58, 'grad_time_ms': 370.44, 'load_time_ms': 0.685}",66,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+2813.9867918491364,1616,-4.9780861111138215,1200,cda-server-2,2813.9867918491364,f93d3d6710754a149751678a58e67540,24,1757057504,80400,-99.67077809198511,2334300,{},10.157.146.2,False,{},2025-09-05_09-31-44,49.16,80400,-93.97023653901931,0,39.594077348709106,67,"{'default': {'policy_loss': -0.1256726235151291, 'vf_explained_var': -0.7792177796363831, 'vf_loss': 1410.57763671875, 'kl': 0.014910591766238213, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.754755973815918, 'total_loss': 1410.474609375}, 'sample_time_ms': 39439.927, 'num_steps_trained': 80400, 'num_steps_sampled': 80400, 'update_time_ms': 2.53, 'grad_time_ms': 371.78, 'load_time_ms': 0.679}",67,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+2856.3818266391754,1641,-23.644817901891635,1200,cda-server-2,2856.3818266391754,f93d3d6710754a149751678a58e67540,25,1757057546,81600,-99.67077809198511,2334300,{},10.157.146.2,False,{},2025-09-05_09-32-26,49.26,81600,-94.01887204378245,0,42.39503479003906,68,"{'default': {'policy_loss': -0.1114756166934967, 'vf_explained_var': -0.8529502153396606, 'vf_loss': 1505.773193359375, 'kl': 0.013739355839788914, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.881439208984375, 'total_loss': 1505.6827392578125}, 'sample_time_ms': 39709.917, 'num_steps_trained': 81600, 'num_steps_sampled': 81600, 'update_time_ms': 2.558, 'grad_time_ms': 374.533, 'load_time_ms': 0.694}",68,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+2895.7571568489075,1667,4.000053053712677,1200,cda-server-2,2895.7571568489075,f93d3d6710754a149751678a58e67540,26,1757057586,82800,-99.67077809198511,2334300,{},10.157.146.2,False,{},2025-09-05_09-33-06,48.8,82800,-93.15178440197847,0,39.375330209732056,69,"{'default': {'policy_loss': -0.12111645191907883, 'vf_explained_var': -0.8375577330589294, 'vf_loss': 1444.084228515625, 'kl': 0.013870120979845524, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.712787628173828, 'total_loss': 1443.984130859375}, 'sample_time_ms': 39566.966, 'num_steps_trained': 82800, 'num_steps_sampled': 82800, 'update_time_ms': 2.585, 'grad_time_ms': 374.22, 'load_time_ms': 0.702}",69,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+2934.9715468883514,1691,4.000053053712677,1200,cda-server-2,2934.9715468883514,f93d3d6710754a149751678a58e67540,24,1757057625,84000,-99.67077809198511,2334300,{},10.157.146.2,False,{},2025-09-05_09-33-45,48.8,84000,-93.08883297599336,0,39.21439003944397,70,"{'default': {'policy_loss': -0.11689957231283188, 'vf_explained_var': -0.8496847152709961, 'vf_loss': 1482.9674072265625, 'kl': 0.015269067138433456, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.70577335357666, 'total_loss': 1482.8736572265625}, 'sample_time_ms': 39530.562, 'num_steps_trained': 84000, 'num_steps_sampled': 84000, 'update_time_ms': 2.624, 'grad_time_ms': 374.274, 'load_time_ms': 0.701}",70,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+2974.234623670578,1715,4.000053053712677,1200,cda-server-2,2974.234623670578,f93d3d6710754a149751678a58e67540,24,1757057664,85200,-98.91209492994403,2334300,{},10.157.146.2,False,{},2025-09-05_09-34-24,48.42,85200,-92.00249652984647,0,39.26307678222656,71,"{'default': {'policy_loss': -0.12901188433170319, 'vf_explained_var': -0.7400168180465698, 'vf_loss': 1441.9609375, 'kl': 0.013734391890466213, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.703145027160645, 'total_loss': 1441.8529052734375}, 'sample_time_ms': 39478.594, 'num_steps_trained': 85200, 'num_steps_sampled': 85200, 'update_time_ms': 2.634, 'grad_time_ms': 371.868, 'load_time_ms': 0.684}",71,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+3014.9064452648163,1740,4.000053053712677,1200,cda-server-2,3014.9064452648163,f93d3d6710754a149751678a58e67540,25,1757057705,86400,-98.91209492994403,2334300,{},10.157.146.2,False,{},2025-09-05_09-35-05,48.55,86400,-92.07312638670783,0,40.67182159423828,72,"{'default': {'policy_loss': -0.12010286748409271, 'vf_explained_var': -0.7157658934593201, 'vf_loss': 1374.425537109375, 'kl': 0.014200991950929165, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.659969329833984, 'total_loss': 1374.3271484375}, 'sample_time_ms': 39579.383, 'num_steps_trained': 86400, 'num_steps_sampled': 86400, 'update_time_ms': 2.627, 'grad_time_ms': 374.04, 'load_time_ms': 0.691}",72,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+3055.9941577911377,1764,-10.850094058247965,1200,cda-server-2,3055.9941577911377,f93d3d6710754a149751678a58e67540,24,1757057746,87600,-98.91209492994403,2334300,{},10.157.146.2,False,{},2025-09-05_09-35-46,49.44,87600,-94.06861741168404,0,41.08771252632141,73,"{'default': {'policy_loss': -0.12331679463386536, 'vf_explained_var': -0.868367612361908, 'vf_loss': 1466.42333984375, 'kl': 0.015404488891363144, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.72174072265625, 'total_loss': 1466.323486328125}, 'sample_time_ms': 39735.982, 'num_steps_trained': 87600, 'num_steps_sampled': 87600, 'update_time_ms': 2.656, 'grad_time_ms': 374.19, 'load_time_ms': 0.712}",73,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+3095.5210587978363,1788,-10.850094058247965,1200,cda-server-2,3095.5210587978363,f93d3d6710754a149751678a58e67540,24,1757057785,88800,-98.91209492994403,2334300,{},10.157.146.2,False,{},2025-09-05_09-36-25,49.26,88800,-93.64796187612131,0,39.52690100669861,74,"{'default': {'policy_loss': -0.12602178752422333, 'vf_explained_var': -0.704736053943634, 'vf_loss': 1421.5965576171875, 'kl': 0.014658791944384575, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.619993209838867, 'total_loss': 1421.492919921875}, 'sample_time_ms': 39763.687, 'num_steps_trained': 88800, 'num_steps_sampled': 88800, 'update_time_ms': 2.661, 'grad_time_ms': 373.098, 'load_time_ms': 0.719}",74,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+3134.8117237091064,1812,-51.159647839414916,1200,cda-server-2,3134.8117237091064,f93d3d6710754a149751678a58e67540,24,1757057825,90000,-99.11217337388607,2334300,{},10.157.146.2,False,{},2025-09-05_09-37-05,49.64,90000,-94.54852719450851,0,39.29066491127014,75,"{'default': {'policy_loss': -0.11093804240226746, 'vf_explained_var': -0.8788235783576965, 'vf_loss': 1541.7625732421875, 'kl': 0.013314202427864075, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.735066413879395, 'total_loss': 1541.671875}, 'sample_time_ms': 39742.517, 'num_steps_trained': 90000, 'num_steps_sampled': 90000, 'update_time_ms': 2.621, 'grad_time_ms': 376.088, 'load_time_ms': 0.724}",75,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+3174.373161315918,1838,6.000121175312251,1200,cda-server-2,3174.373161315918,f93d3d6710754a149751678a58e67540,26,1757057864,91200,-99.95347036537659,2334300,{},10.157.146.2,False,{},2025-09-05_09-37-44,48.98,91200,-93.20179213458925,0,39.56143760681152,76,"{'default': {'policy_loss': -0.13934922218322754, 'vf_explained_var': -0.7149174213409424, 'vf_loss': 1359.76318359375, 'kl': 0.014455546624958515, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.645183563232422, 'total_loss': 1359.645751953125}, 'sample_time_ms': 39614.966, 'num_steps_trained': 91200, 'num_steps_sampled': 91200, 'update_time_ms': 2.677, 'grad_time_ms': 375.174, 'load_time_ms': 0.711}",76,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+3214.8149993419647,1863,6.000121175312251,1200,cda-server-2,3214.8149993419647,f93d3d6710754a149751678a58e67540,25,1757057905,92400,-99.95347036537659,2334300,{},10.157.146.2,False,{},2025-09-05_09-38-25,48.82,92400,-92.70571110371529,0,40.44183802604675,77,"{'default': {'policy_loss': -0.11992844939231873, 'vf_explained_var': -0.7377911806106567, 'vf_loss': 1278.629150390625, 'kl': 0.012536305002868176, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.660649299621582, 'total_loss': 1278.5281982421875}, 'sample_time_ms': 39698.535, 'num_steps_trained': 92400, 'num_steps_sampled': 92400, 'update_time_ms': 2.706, 'grad_time_ms': 376.275, 'load_time_ms': 0.716}",77,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+3254.890125989914,1887,6.000121175312251,1200,cda-server-2,3254.890125989914,f93d3d6710754a149751678a58e67540,24,1757057945,93600,-99.95347036537659,2334300,{},10.157.146.2,False,{},2025-09-05_09-39-05,49.0,93600,-93.03447417536711,0,40.07512664794922,78,"{'default': {'policy_loss': -0.14315016567707062, 'vf_explained_var': -0.8355867266654968, 'vf_loss': 1332.9779052734375, 'kl': 0.014561666175723076, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.80644416809082, 'total_loss': 1332.8568115234375}, 'sample_time_ms': 39467.89, 'num_steps_trained': 93600, 'num_steps_sampled': 93600, 'update_time_ms': 2.723, 'grad_time_ms': 374.887, 'load_time_ms': 0.72}",78,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+3294.5911164283752,1911,6.000121175312251,1200,cda-server-2,3294.5911164283752,f93d3d6710754a149751678a58e67540,24,1757057985,94800,-99.95347036537659,2334300,{},10.157.146.2,False,{},2025-09-05_09-39-45,48.68,94800,-92.28272196581194,0,39.700990438461304,79,"{'default': {'policy_loss': -0.11202865093946457, 'vf_explained_var': -0.8265875577926636, 'vf_loss': 1337.939208984375, 'kl': 0.01239860337227583, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.591854095458984, 'total_loss': 1337.8460693359375}, 'sample_time_ms': 39499.306, 'num_steps_trained': 94800, 'num_steps_sampled': 94800, 'update_time_ms': 2.733, 'grad_time_ms': 376.03, 'load_time_ms': 0.715}",79,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+3334.203225851059,1936,-22.953436262745548,1200,cda-server-2,3334.203225851059,f93d3d6710754a149751678a58e67540,25,1757058024,96000,-99.00533461100656,2334300,{},10.157.146.2,False,{},2025-09-05_09-40-24,49.24,96000,-93.34538892385991,0,39.612109422683716,80,"{'default': {'policy_loss': -0.13744229078292847, 'vf_explained_var': -0.8383387923240662, 'vf_loss': 1358.778564453125, 'kl': 0.016763733699917793, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.809589385986328, 'total_loss': 1358.66650390625}, 'sample_time_ms': 39537.298, 'num_steps_trained': 96000, 'num_steps_sampled': 96000, 'update_time_ms': 2.731, 'grad_time_ms': 377.802, 'load_time_ms': 0.717}",80,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+3373.748108625412,1960,-22.953436262745548,1200,cda-server-2,3373.748108625412,f93d3d6710754a149751678a58e67540,24,1757058064,97200,-99.00533461100656,2334300,{},10.157.146.2,False,{},2025-09-05_09-41-04,49.4,97200,-93.75193330389237,0,39.54488277435303,81,"{'default': {'policy_loss': -0.13914304971694946, 'vf_explained_var': -0.7684550881385803, 'vf_loss': 1253.505859375, 'kl': 0.016430504620075226, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.660588264465332, 'total_loss': 1253.3916015625}, 'sample_time_ms': 39563.463, 'num_steps_trained': 97200, 'num_steps_sampled': 97200, 'update_time_ms': 2.731, 'grad_time_ms': 379.758, 'load_time_ms': 0.727}",81,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+3414.0071108341217,1985,-22.953436262745548,1200,cda-server-2,3414.0071108341217,f93d3d6710754a149751678a58e67540,25,1757058104,98400,-99.00533461100656,2334300,{},10.157.146.2,False,{},2025-09-05_09-41-44,49.13,98400,-93.15750201143572,0,40.25900220870972,82,"{'default': {'policy_loss': -0.12520775198936462, 'vf_explained_var': -0.7197333574295044, 'vf_loss': 1181.3369140625, 'kl': 0.012717803940176964, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.472301483154297, 'total_loss': 1181.23095703125}, 'sample_time_ms': 39524.268, 'num_steps_trained': 98400, 'num_steps_sampled': 98400, 'update_time_ms': 2.738, 'grad_time_ms': 377.681, 'load_time_ms': 0.721}",82,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+3453.6980850696564,2010,-22.953436262745548,1200,cda-server-2,3453.6980850696564,f93d3d6710754a149751678a58e67540,25,1757058144,99600,-98.64335357108855,2334300,{},10.157.146.2,False,{},2025-09-05_09-42-24,48.8,99600,-92.10296236394171,0,39.69097423553467,83,"{'default': {'policy_loss': -0.13084162771701813, 'vf_explained_var': -0.7179859280586243, 'vf_loss': 1217.015869140625, 'kl': 0.014154477044939995, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.574589729309082, 'total_loss': 1216.90673828125}, 'sample_time_ms': 39384.567, 'num_steps_trained': 99600, 'num_steps_sampled': 99600, 'update_time_ms': 2.717, 'grad_time_ms': 377.746, 'load_time_ms': 0.715}",83,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+3493.055896282196,2035,-11.214397873475125,1200,cda-server-2,3493.055896282196,f93d3d6710754a149751678a58e67540,25,1757058183,100800,-98.64335357108855,2334300,{},10.157.146.2,False,{},2025-09-05_09-43-03,48.87,100800,-92.1441843565216,0,39.35781121253967,84,"{'default': {'policy_loss': -0.12973764538764954, 'vf_explained_var': -0.8013476133346558, 'vf_loss': 1265.78515625, 'kl': 0.01479149330407381, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.595348358154297, 'total_loss': 1265.677978515625}, 'sample_time_ms': 39367.283, 'num_steps_trained': 100800, 'num_steps_sampled': 100800, 'update_time_ms': 2.674, 'grad_time_ms': 378.187, 'load_time_ms': 0.711}",84,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+3532.1678969860077,2059,-11.214397873475125,1200,cda-server-2,3532.1678969860077,f93d3d6710754a149751678a58e67540,24,1757058222,102000,-98.65428869049143,2334300,{},10.157.146.2,False,{},2025-09-05_09-43-42,48.63,102000,-91.5765380679591,0,39.112000703811646,85,"{'default': {'policy_loss': -0.13400238752365112, 'vf_explained_var': -0.7590630650520325, 'vf_loss': 1216.08837890625, 'kl': 0.014434733428061008, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.481328010559082, 'total_loss': 1215.9761962890625}, 'sample_time_ms': 39350.765, 'num_steps_trained': 102000, 'num_steps_sampled': 102000, 'update_time_ms': 2.675, 'grad_time_ms': 376.879, 'load_time_ms': 0.709}",85,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+3571.9437353610992,2084,-11.214397873475125,1200,cda-server-2,3571.9437353610992,f93d3d6710754a149751678a58e67540,25,1757058262,103200,-98.65428869049143,2334300,{},10.157.146.2,False,{},2025-09-05_09-44-22,48.29,103200,-90.4988057032626,0,39.77583837509155,86,"{'default': {'policy_loss': -0.1352127194404602, 'vf_explained_var': -0.7694054841995239, 'vf_loss': 1279.8466796875, 'kl': 0.013780518434941769, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.635279655456543, 'total_loss': 1279.732421875}, 'sample_time_ms': 39372.494, 'num_steps_trained': 103200, 'num_steps_sampled': 103200, 'update_time_ms': 2.631, 'grad_time_ms': 376.616, 'load_time_ms': 0.709}",86,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+3612.4353065490723,2108,-11.214397873475125,1200,cda-server-2,3612.4353065490723,f93d3d6710754a149751678a58e67540,24,1757058303,104400,-98.65428869049143,2334300,{},10.157.146.2,False,{},2025-09-05_09-45-03,48.27,104400,-90.41396429771926,0,40.49157118797302,87,"{'default': {'policy_loss': -0.12616127729415894, 'vf_explained_var': -0.6815150380134583, 'vf_loss': 1306.1568603515625, 'kl': 0.01430341973900795, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.445652961730957, 'total_loss': 1306.052490234375}, 'sample_time_ms': 39380.407, 'num_steps_trained': 104400, 'num_steps_sampled': 104400, 'update_time_ms': 2.643, 'grad_time_ms': 373.724, 'load_time_ms': 0.702}",87,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+3653.3002531528473,2134,-3.997975414423312,1200,cda-server-2,3653.3002531528473,f93d3d6710754a149751678a58e67540,26,1757058343,105600,-98.65428869049143,2334300,{},10.157.146.2,False,{},2025-09-05_09-45-43,48.34,105600,-90.80318936670086,0,40.864946603775024,88,"{'default': {'policy_loss': -0.1334967315196991, 'vf_explained_var': -0.6380273699760437, 'vf_loss': 1213.8148193359375, 'kl': 0.012935853563249111, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.36754035949707, 'total_loss': 1213.700927734375}, 'sample_time_ms': 39460.797, 'num_steps_trained': 105600, 'num_steps_sampled': 105600, 'update_time_ms': 2.635, 'grad_time_ms': 372.361, 'load_time_ms': 0.681}",88,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+3693.631511926651,2158,-3.997975414423312,1200,cda-server-2,3693.631511926651,f93d3d6710754a149751678a58e67540,24,1757058384,106800,-98.24797769203951,2334300,{},10.157.146.2,False,{},2025-09-05_09-46-24,48.56,106800,-90.99364797423432,0,40.33125877380371,89,"{'default': {'policy_loss': -0.12447737157344818, 'vf_explained_var': -0.7024554014205933, 'vf_loss': 1391.6220703125, 'kl': 0.0132230743765831, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.670820236206055, 'total_loss': 1391.517578125}, 'sample_time_ms': 39523.771, 'num_steps_trained': 106800, 'num_steps_sampled': 106800, 'update_time_ms': 2.605, 'grad_time_ms': 372.441, 'load_time_ms': 0.673}",89,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+3733.2376823425293,2183,-3.997975414423312,1200,cda-server-2,3733.2376823425293,f93d3d6710754a149751678a58e67540,25,1757058423,108000,-98.24797769203951,2334300,{},10.157.146.2,False,{},2025-09-05_09-47-03,48.81,108000,-91.91656964321133,0,39.606170415878296,90,"{'default': {'policy_loss': -0.12343389540910721, 'vf_explained_var': -0.7522183656692505, 'vf_loss': 1313.740478515625, 'kl': 0.013148748315870762, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.441105842590332, 'total_loss': 1313.636962890625}, 'sample_time_ms': 39523.026, 'num_steps_trained': 108000, 'num_steps_sampled': 108000, 'update_time_ms': 2.573, 'grad_time_ms': 372.598, 'load_time_ms': 0.678}",90,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+3772.6295347213745,2208,-3.997975414423312,1200,cda-server-2,3772.6295347213745,f93d3d6710754a149751678a58e67540,25,1757058463,109200,-98.24797769203951,2334300,{},10.157.146.2,False,{},2025-09-05_09-47-43,48.66,109200,-91.53333386537496,0,39.391852378845215,91,"{'default': {'policy_loss': -0.1350879818201065, 'vf_explained_var': -0.7921785116195679, 'vf_loss': 1361.46142578125, 'kl': 0.015546958893537521, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.588252067565918, 'total_loss': 1361.35009765625}, 'sample_time_ms': 39509.201, 'num_steps_trained': 109200, 'num_steps_sampled': 109200, 'update_time_ms': 2.494, 'grad_time_ms': 371.179, 'load_time_ms': 0.67}",91,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+3812.202374458313,2234,4.00001616636901,1200,cda-server-2,3812.202374458313,f93d3d6710754a149751678a58e67540,26,1757058502,110400,-98.82353254833036,2334300,{},10.157.146.2,False,{},2025-09-05_09-48-22,48.39,110400,-90.93243457794921,0,39.57283973693848,92,"{'default': {'policy_loss': -0.1397992968559265, 'vf_explained_var': -0.7277428507804871, 'vf_loss': 1268.1785888671875, 'kl': 0.013954643160104752, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.450602531433105, 'total_loss': 1268.06005859375}, 'sample_time_ms': 39437.924, 'num_steps_trained': 110400, 'num_steps_sampled': 110400, 'update_time_ms': 2.505, 'grad_time_ms': 373.846, 'load_time_ms': 0.674}",92,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+3852.472179412842,2258,4.00001616636901,1200,cda-server-2,3852.472179412842,f93d3d6710754a149751678a58e67540,24,1757058543,111600,-98.82353254833036,2334300,{},10.157.146.2,False,{},2025-09-05_09-49-03,48.31,111600,-90.92793259762946,0,40.26980495452881,93,"{'default': {'policy_loss': -0.11859643459320068, 'vf_explained_var': -0.8051366806030273, 'vf_loss': 1305.526611328125, 'kl': 0.013030358590185642, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.40727710723877, 'total_loss': 1305.4276123046875}, 'sample_time_ms': 39495.742, 'num_steps_trained': 111600, 'num_steps_sampled': 111600, 'update_time_ms': 2.514, 'grad_time_ms': 373.921, 'load_time_ms': 0.663}",93,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+3892.718899488449,2283,8.000000626380414,1200,cda-server-2,3892.718899488449,f93d3d6710754a149751678a58e67540,25,1757058583,112800,-99.67159319227893,2334300,{},10.157.146.2,False,{},2025-09-05_09-49-43,47.97,112800,-90.0361769050709,0,40.2467200756073,94,"{'default': {'policy_loss': -0.12706464529037476, 'vf_explained_var': -0.6922283172607422, 'vf_loss': 1256.00927734375, 'kl': 0.013829665258526802, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.449162483215332, 'total_loss': 1255.9031982421875}, 'sample_time_ms': 39586.556, 'num_steps_trained': 112800, 'num_steps_sampled': 112800, 'update_time_ms': 2.57, 'grad_time_ms': 371.868, 'load_time_ms': 0.66}",94,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+3932.1954398155212,2307,8.000000626380414,1200,cda-server-2,3932.1954398155212,f93d3d6710754a149751678a58e67540,24,1757058623,114000,-99.67159319227893,2334300,{},10.157.146.2,False,{},2025-09-05_09-50-23,47.97,114000,-89.91161989950771,0,39.476540327072144,95,"{'default': {'policy_loss': -0.12769797444343567, 'vf_explained_var': -0.835317850112915, 'vf_loss': 1271.8857421875, 'kl': 0.013692040927708149, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.606809616088867, 'total_loss': 1271.77880859375}, 'sample_time_ms': 39622.478, 'num_steps_trained': 114000, 'num_steps_sampled': 114000, 'update_time_ms': 2.608, 'grad_time_ms': 372.309, 'load_time_ms': 0.657}",95,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+3972.006548166275,2331,8.000000626380414,1200,cda-server-2,3972.006548166275,f93d3d6710754a149751678a58e67540,24,1757058662,115200,-99.67159319227893,2334300,{},10.157.146.2,False,{},2025-09-05_09-51-02,48.74,115200,-91.42405542066044,0,39.811108350753784,96,"{'default': {'policy_loss': -0.12828432023525238, 'vf_explained_var': -0.8225513100624084, 'vf_loss': 1290.9388427734375, 'kl': 0.014161131344735622, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.659083366394043, 'total_loss': 1290.8319091796875}, 'sample_time_ms': 39626.952, 'num_steps_trained': 115200, 'num_steps_sampled': 115200, 'update_time_ms': 2.661, 'grad_time_ms': 371.346, 'load_time_ms': 0.66}",96,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+4011.450345516205,2355,8.000000626380414,1200,cda-server-2,4011.450345516205,f93d3d6710754a149751678a58e67540,24,1757058702,116400,-99.67159319227893,2334300,{},10.157.146.2,False,{},2025-09-05_09-51-42,49.13,116400,-92.14809097032618,0,39.44379734992981,97,"{'default': {'policy_loss': -0.12369023263454437, 'vf_explained_var': -0.7001688480377197, 'vf_loss': 1321.4957275390625, 'kl': 0.01417472306638956, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.507431030273438, 'total_loss': 1321.3936767578125}, 'sample_time_ms': 39521.03, 'num_steps_trained': 116400, 'num_steps_sampled': 116400, 'update_time_ms': 2.659, 'grad_time_ms': 372.508, 'load_time_ms': 0.661}",97,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+4051.8405804634094,2381,-0.8623036430433348,1200,cda-server-2,4051.8405804634094,f93d3d6710754a149751678a58e67540,26,1757058742,117600,-98.65808413022033,2334300,{},10.157.146.2,False,{},2025-09-05_09-52-22,49.1,117600,-91.9390151541808,0,40.39023494720459,98,"{'default': {'policy_loss': -0.12361233681440353, 'vf_explained_var': -0.6893749833106995, 'vf_loss': 1339.0335693359375, 'kl': 0.012651519849896431, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.525715827941895, 'total_loss': 1338.92919921875}, 'sample_time_ms': 39472.888, 'num_steps_trained': 117600, 'num_steps_sampled': 117600, 'update_time_ms': 2.617, 'grad_time_ms': 373.195, 'load_time_ms': 0.66}",98,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+4091.3177053928375,2405,-0.8623036430433348,1200,cda-server-2,4091.3177053928375,f93d3d6710754a149751678a58e67540,24,1757058782,118800,-98.65808413022033,2334300,{},10.157.146.2,False,{},2025-09-05_09-53-02,48.91,118800,-91.56218911970426,0,39.4771249294281,99,"{'default': {'policy_loss': -0.12996141612529755, 'vf_explained_var': -0.6879364848136902, 'vf_loss': 1226.499267578125, 'kl': 0.013090429827570915, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.264156341552734, 'total_loss': 1226.38916015625}, 'sample_time_ms': 39388.308, 'num_steps_trained': 118800, 'num_steps_sampled': 118800, 'update_time_ms': 2.604, 'grad_time_ms': 372.391, 'load_time_ms': 0.665}",99,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+4131.929502725601,2430,-0.8623036430433348,1200,cda-server-2,4131.929502725601,f93d3d6710754a149751678a58e67540,25,1757058822,120000,-98.65808413022033,2334300,{},10.157.146.2,False,{},2025-09-05_09-53-42,48.53,120000,-90.6722668874676,0,40.61179733276367,100,"{'default': {'policy_loss': -0.12610876560211182, 'vf_explained_var': -0.7208593487739563, 'vf_loss': 1330.7509765625, 'kl': 0.015414144843816757, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.612319946289062, 'total_loss': 1330.6484375}, 'sample_time_ms': 39489.004, 'num_steps_trained': 120000, 'num_steps_sampled': 120000, 'update_time_ms': 2.594, 'grad_time_ms': 372.271, 'load_time_ms': 0.664}",100,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+4171.638799190521,2455,-0.8623036430433348,1200,cda-server-2,4171.638799190521,f93d3d6710754a149751678a58e67540,25,1757058862,121200,-98.59235636316156,2334300,{},10.157.146.2,False,{},2025-09-05_09-54-22,48.2,121200,-89.87182315856832,0,39.709296464920044,101,"{'default': {'policy_loss': -0.13537178933620453, 'vf_explained_var': -0.7545949816703796, 'vf_loss': 1342.203857421875, 'kl': 0.012797577306628227, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.42364501953125, 'total_loss': 1342.087890625}, 'sample_time_ms': 39519.179, 'num_steps_trained': 121200, 'num_steps_sampled': 121200, 'update_time_ms': 2.66, 'grad_time_ms': 373.827, 'load_time_ms': 0.661}",101,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+4211.959341049194,2480,-10.884532350884989,1200,cda-server-2,4211.959341049194,f93d3d6710754a149751678a58e67540,25,1757058902,122400,-98.57299483449458,2334300,{},10.157.146.2,False,{},2025-09-05_09-55-02,48.25,122400,-89.98863309959452,0,40.320541858673096,102,"{'default': {'policy_loss': -0.13196353614330292, 'vf_explained_var': -0.7257111072540283, 'vf_loss': 1264.954833984375, 'kl': 0.012943681329488754, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.39761734008789, 'total_loss': 1264.842529296875}, 'sample_time_ms': 39594.908, 'num_steps_trained': 122400, 'num_steps_sampled': 122400, 'update_time_ms': 2.633, 'grad_time_ms': 372.824, 'load_time_ms': 0.67}",102,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+4251.517222166061,2507,2.0001451754649286,1200,cda-server-2,4251.517222166061,f93d3d6710754a149751678a58e67540,27,1757058942,123600,-98.57299483449458,2334300,{},10.157.146.2,False,{},2025-09-05_09-55-42,47.25,123600,-87.55852704940622,0,39.557881116867065,103,"{'default': {'policy_loss': -0.13941900432109833, 'vf_explained_var': -0.7271550297737122, 'vf_loss': 1208.2171630859375, 'kl': 0.013971247710287571, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.344569206237793, 'total_loss': 1208.0989990234375}, 'sample_time_ms': 39523.127, 'num_steps_trained': 123600, 'num_steps_sampled': 123600, 'update_time_ms': 2.64, 'grad_time_ms': 373.388, 'load_time_ms': 0.674}",103,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+4291.174126625061,2533,2.0001451754649286,1200,cda-server-2,4291.174126625061,f93d3d6710754a149751678a58e67540,26,1757058982,124800,-98.57299483449458,2334300,{},10.157.146.2,False,{},2025-09-05_09-56-22,46.22,124800,-85.07522195311711,0,39.656904458999634,104,"{'default': {'policy_loss': -0.14529167115688324, 'vf_explained_var': -0.5986616611480713, 'vf_loss': 1199.82861328125, 'kl': 0.01550381351262331, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.241019248962402, 'total_loss': 1199.706787109375}, 'sample_time_ms': 39461.785, 'num_steps_trained': 124800, 'num_steps_sampled': 124800, 'update_time_ms': 2.604, 'grad_time_ms': 375.819, 'load_time_ms': 0.673}",104,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+4330.911571025848,2559,2.0001451754649286,1200,cda-server-2,4330.911571025848,f93d3d6710754a149751678a58e67540,26,1757059021,126000,-98.57299483449458,2334300,{},10.157.146.2,False,{},2025-09-05_09-57-01,45.73,126000,-83.7779271234175,0,39.73744440078735,105,"{'default': {'policy_loss': -0.13557781279087067, 'vf_explained_var': -0.7251700162887573, 'vf_loss': 1469.652099609375, 'kl': 0.014094488695263863, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.695916175842285, 'total_loss': 1469.537841796875}, 'sample_time_ms': 39489.917, 'num_steps_trained': 126000, 'num_steps_sampled': 126000, 'update_time_ms': 2.567, 'grad_time_ms': 373.858, 'load_time_ms': 0.673}",105,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+4370.299827575684,2583,2.0001451754649286,1200,cda-server-2,4370.299827575684,f93d3d6710754a149751678a58e67540,24,1757059061,127200,-97.69248243761508,2334300,{},10.157.146.2,False,{},2025-09-05_09-57-41,46.29,127200,-84.86832633049586,0,39.388256549835205,106,"{'default': {'policy_loss': -0.1286298632621765, 'vf_explained_var': -0.6911599040031433, 'vf_loss': 1283.3978271484375, 'kl': 0.01205131784081459, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.28690242767334, 'total_loss': 1283.287353515625}, 'sample_time_ms': 39447.32, 'num_steps_trained': 127200, 'num_steps_sampled': 127200, 'update_time_ms': 2.525, 'grad_time_ms': 374.124, 'load_time_ms': 0.674}",106,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+4410.588941335678,2611,8.000000556873898,1200,cda-server-2,4410.588941335678,f93d3d6710754a149751678a58e67540,28,1757059101,128400,-97.69248243761508,2334300,{},10.157.146.2,False,{},2025-09-05_09-58-21,45.79,128400,-83.72403659391642,0,40.28911375999451,107,"{'default': {'policy_loss': -0.14121533930301666, 'vf_explained_var': -0.6332085132598877, 'vf_loss': 1208.4132080078125, 'kl': 0.013064881786704063, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.45235538482666, 'total_loss': 1208.291748046875}, 'sample_time_ms': 39533.179, 'num_steps_trained': 128400, 'num_steps_sampled': 128400, 'update_time_ms': 2.555, 'grad_time_ms': 372.765, 'load_time_ms': 0.675}",107,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+4450.672970294952,2635,8.000000556873898,1200,cda-server-2,4450.672970294952,f93d3d6710754a149751678a58e67540,24,1757059141,129600,-97.69248243761508,2334300,{},10.157.146.2,False,{},2025-09-05_09-59-01,47.54,129600,-87.48769695360208,0,40.08402895927429,108,"{'default': {'policy_loss': -0.11794180423021317, 'vf_explained_var': -0.6836737394332886, 'vf_loss': 1169.478759765625, 'kl': 0.011887339875102043, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.23068904876709, 'total_loss': 1169.3787841796875}, 'sample_time_ms': 39503.951, 'num_steps_trained': 129600, 'num_steps_sampled': 129600, 'update_time_ms': 2.567, 'grad_time_ms': 371.427, 'load_time_ms': 0.681}",108,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+4490.002255439758,2659,8.000000556873898,1200,cda-server-2,4490.002255439758,f93d3d6710754a149751678a58e67540,24,1757059181,130800,-97.56987371025008,2334300,{},10.157.146.2,False,{},2025-09-05_09-59-41,48.0,130800,-88.39783705273358,0,39.32928514480591,109,"{'default': {'policy_loss': -0.13918131589889526, 'vf_explained_var': -0.5914474129676819, 'vf_loss': 1184.5008544921875, 'kl': 0.014344491995871067, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.348090171813965, 'total_loss': 1184.3834228515625}, 'sample_time_ms': 39489.616, 'num_steps_trained': 130800, 'num_steps_sampled': 130800, 'update_time_ms': 2.539, 'grad_time_ms': 370.952, 'load_time_ms': 0.675}",109,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+4529.368904590607,2684,8.000000556873898,1200,cda-server-2,4529.368904590607,f93d3d6710754a149751678a58e67540,25,1757059220,132000,-97.56987371025008,2334300,{},10.157.146.2,False,{},2025-09-05_10-00-20,47.4,132000,-87.00620916041575,0,39.36664915084839,110,"{'default': {'policy_loss': -0.12146135419607162, 'vf_explained_var': -0.6728910803794861, 'vf_loss': 1314.810546875, 'kl': 0.015522264875471592, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.435253143310547, 'total_loss': 1314.712646484375}, 'sample_time_ms': 39365.253, 'num_steps_trained': 132000, 'num_steps_sampled': 132000, 'update_time_ms': 2.581, 'grad_time_ms': 370.773, 'load_time_ms': 0.674}",110,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+4568.8627409935,2709,2.000564842219914,1200,cda-server-2,4568.8627409935,f93d3d6710754a149751678a58e67540,25,1757059260,133200,-97.56987371025008,2334300,{},10.157.146.2,False,{},2025-09-05_10-01-00,48.2,133200,-88.8390887852757,0,39.493836402893066,111,"{'default': {'policy_loss': -0.1280023455619812, 'vf_explained_var': -0.6252808570861816, 'vf_loss': 1366.137939453125, 'kl': 0.0127107547596097, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.477316856384277, 'total_loss': 1366.029296875}, 'sample_time_ms': 39343.04, 'num_steps_trained': 133200, 'num_steps_sampled': 133200, 'update_time_ms': 2.551, 'grad_time_ms': 371.437, 'load_time_ms': 0.692}",111,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+4609.01319026947,2734,0.0009718276019512473,1200,cda-server-2,4609.01319026947,f93d3d6710754a149751678a58e67540,25,1757059300,134400,-97.61994688400574,2334300,{},10.157.146.2,False,{},2025-09-05_10-01-40,48.52,134400,-89.6002376388698,0,40.15044927597046,112,"{'default': {'policy_loss': -0.13011199235916138, 'vf_explained_var': -0.628582239151001, 'vf_loss': 1306.94873046875, 'kl': 0.014215584844350815, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.364208221435547, 'total_loss': 1306.8402099609375}, 'sample_time_ms': 39325.986, 'num_steps_trained': 134400, 'num_steps_sampled': 134400, 'update_time_ms': 2.599, 'grad_time_ms': 371.504, 'load_time_ms': 0.683}",112,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+4648.32720208168,2758,0.0009718276019512473,1200,cda-server-2,4648.32720208168,f93d3d6710754a149751678a58e67540,24,1757059339,135600,-97.91680884210615,2334300,{},10.157.146.2,False,{},2025-09-05_10-02-19,48.66,135600,-90.13711571927233,0,39.31401181221008,113,"{'default': {'policy_loss': -0.13734370470046997, 'vf_explained_var': -0.7092845439910889, 'vf_loss': 1344.01123046875, 'kl': 0.013685829006135464, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.206993103027344, 'total_loss': 1343.89453125}, 'sample_time_ms': 39302.162, 'num_steps_trained': 135600, 'num_steps_sampled': 135600, 'update_time_ms': 2.594, 'grad_time_ms': 370.94, 'load_time_ms': 0.683}",113,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+4687.8613431453705,2782,0.0009718276019512473,1200,cda-server-2,4687.8613431453705,f93d3d6710754a149751678a58e67540,24,1757059379,136800,-99.41437466969332,2334300,{},10.157.146.2,False,{},2025-09-05_10-02-59,49.1,136800,-91.24172752550795,0,39.534141063690186,114,"{'default': {'policy_loss': -0.1335000991821289, 'vf_explained_var': -0.6199471950531006, 'vf_loss': 1254.7523193359375, 'kl': 0.012628944590687752, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.090336799621582, 'total_loss': 1254.6380615234375}, 'sample_time_ms': 39289.869, 'num_steps_trained': 136800, 'num_steps_sampled': 136800, 'update_time_ms': 2.593, 'grad_time_ms': 370.996, 'load_time_ms': 0.68}",114,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+4727.454106092453,2806,0.0009718276019512473,1200,cda-server-2,4727.454106092453,f93d3d6710754a149751678a58e67540,24,1757059418,138000,-99.41437466969332,2334300,{},10.157.146.2,False,{},2025-09-05_10-03-38,48.95,138000,-90.82603613633479,0,39.59276294708252,115,"{'default': {'policy_loss': -0.13439375162124634, 'vf_explained_var': -0.763168454170227, 'vf_loss': 1381.8828125, 'kl': 0.014280266128480434, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.414204597473145, 'total_loss': 1381.77001953125}, 'sample_time_ms': 39273.388, 'num_steps_trained': 138000, 'num_steps_sampled': 138000, 'update_time_ms': 2.608, 'grad_time_ms': 372.976, 'load_time_ms': 0.69}",115,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+4767.0770490169525,2830,-25.970259071711602,1200,cda-server-2,4767.0770490169525,f93d3d6710754a149751678a58e67540,24,1757059458,139200,-99.41437466969332,2334300,{},10.157.146.2,False,{},2025-09-05_10-04-18,49.57,139200,-92.07196543144056,0,39.62294292449951,116,"{'default': {'policy_loss': -0.13460494577884674, 'vf_explained_var': -0.7355523705482483, 'vf_loss': 1370.877197265625, 'kl': 0.012428522109985352, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.32938289642334, 'total_loss': 1370.7615966796875}, 'sample_time_ms': 39295.468, 'num_steps_trained': 139200, 'num_steps_sampled': 139200, 'update_time_ms': 2.608, 'grad_time_ms': 374.459, 'load_time_ms': 0.688}",116,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+4806.745561361313,2854,-25.970259071711602,1200,cda-server-2,4806.745561361313,f93d3d6710754a149751678a58e67540,24,1757059498,140400,-99.41437466969332,2334300,{},10.157.146.2,False,{},2025-09-05_10-04-58,49.49,140400,-91.89032898407444,0,39.66851234436035,117,"{'default': {'policy_loss': -0.13095572590827942, 'vf_explained_var': -0.6435136198997498, 'vf_loss': 1343.6739501953125, 'kl': 0.014176915399730206, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.204768180847168, 'total_loss': 1343.564453125}, 'sample_time_ms': 39231.566, 'num_steps_trained': 140400, 'num_steps_sampled': 140400, 'update_time_ms': 2.565, 'grad_time_ms': 376.324, 'load_time_ms': 0.689}",117,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+4846.353305578232,2878,-25.970259071711602,1200,cda-server-2,4846.353305578232,f93d3d6710754a149751678a58e67540,24,1757059537,141600,-97.50209483333747,2334300,{},10.157.146.2,False,{},2025-09-05_10-05-37,49.49,141600,-91.5325735221956,0,39.607744216918945,118,"{'default': {'policy_loss': -0.1341480314731598, 'vf_explained_var': -0.6832515597343445, 'vf_loss': 1400.1610107421875, 'kl': 0.014663212932646275, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.451936721801758, 'total_loss': 1400.04931640625}, 'sample_time_ms': 39180.515, 'num_steps_trained': 141600, 'num_steps_sampled': 141600, 'update_time_ms': 2.589, 'grad_time_ms': 379.681, 'load_time_ms': 0.695}",118,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+4886.677313327789,2903,-26.861543361075547,1200,cda-server-2,4886.677313327789,f93d3d6710754a149751678a58e67540,25,1757059577,142800,-96.81885821079129,2334300,{},10.157.146.2,False,{},2025-09-05_10-06-17,49.63,142800,-91.67890191057045,0,40.324007749557495,119,"{'default': {'policy_loss': -0.13761118054389954, 'vf_explained_var': -0.6356105208396912, 'vf_loss': 1398.140625, 'kl': 0.013702097348868847, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.356231689453125, 'total_loss': 1398.023681640625}, 'sample_time_ms': 39278.864, 'num_steps_trained': 142800, 'num_steps_sampled': 142800, 'update_time_ms': 2.607, 'grad_time_ms': 380.815, 'load_time_ms': 0.7}",119,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+4926.263993024826,2928,-1.9998358665034601,1200,cda-server-2,4926.263993024826,f93d3d6710754a149751678a58e67540,25,1757059617,144000,-96.81885821079129,2334300,{},10.157.146.2,False,{},2025-09-05_10-06-57,48.85,144000,-89.87223701084233,0,39.58667969703674,120,"{'default': {'policy_loss': -0.13915207982063293, 'vf_explained_var': -0.6809535622596741, 'vf_loss': 1389.11474609375, 'kl': 0.014564001001417637, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.36959171295166, 'total_loss': 1388.9976806640625}, 'sample_time_ms': 39300.469, 'num_steps_trained': 144000, 'num_steps_sampled': 144000, 'update_time_ms': 2.596, 'grad_time_ms': 381.202, 'load_time_ms': 0.702}",120,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+4966.270386457443,2954,-1.9998358665034601,1200,cda-server-2,4966.270386457443,f93d3d6710754a149751678a58e67540,26,1757059657,145200,-96.81885821079129,2334300,{},10.157.146.2,False,{},2025-09-05_10-07-37,48.5,145200,-88.63529885707707,0,40.00639343261719,121,"{'default': {'policy_loss': -0.14649122953414917, 'vf_explained_var': -0.6459964513778687, 'vf_loss': 1267.797119140625, 'kl': 0.014623511582612991, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.34007740020752, 'total_loss': 1267.6727294921875}, 'sample_time_ms': 39352.467, 'num_steps_trained': 145200, 'num_steps_sampled': 145200, 'update_time_ms': 2.633, 'grad_time_ms': 380.478, 'load_time_ms': 0.682}",121,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+5005.648676156998,2978,-1.9998358665034601,1200,cda-server-2,5005.648676156998,f93d3d6710754a149751678a58e67540,24,1757059697,146400,-96.59752957799589,2334300,{},10.157.146.2,False,{},2025-09-05_10-08-17,48.47,146400,-88.40941951984354,0,39.37828969955444,122,"{'default': {'policy_loss': -0.13319838047027588, 'vf_explained_var': -0.6883065700531006, 'vf_loss': 1264.741943359375, 'kl': 0.013303367421030998, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.214632987976074, 'total_loss': 1264.629150390625}, 'sample_time_ms': 39277.565, 'num_steps_trained': 146400, 'num_steps_sampled': 146400, 'update_time_ms': 2.588, 'grad_time_ms': 378.23, 'load_time_ms': 0.684}",122,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+5045.148354291916,3002,-1.9998358665034601,1200,cda-server-2,5045.148354291916,f93d3d6710754a149751678a58e67540,24,1757059736,147600,-96.59752957799589,2334300,{},10.157.146.2,False,{},2025-09-05_10-08-56,48.67,147600,-88.58202428056639,0,39.49967813491821,123,"{'default': {'policy_loss': -0.12335814535617828, 'vf_explained_var': -0.6601841449737549, 'vf_loss': 1333.367431640625, 'kl': 0.01256219670176506, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.677485466003418, 'total_loss': 1333.26318359375}, 'sample_time_ms': 39297.678, 'num_steps_trained': 147600, 'num_steps_sampled': 147600, 'update_time_ms': 2.555, 'grad_time_ms': 376.75, 'load_time_ms': 0.673}",123,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+5084.604055404663,3028,-9.844541221746876,1200,cda-server-2,5084.604055404663,f93d3d6710754a149751678a58e67540,26,1757059776,148800,-96.59629030112617,2334300,{},10.157.146.2,False,{},2025-09-05_10-09-36,48.43,148800,-87.96250255304749,0,39.45570111274719,124,"{'default': {'policy_loss': -0.14369796216487885, 'vf_explained_var': -0.5275052785873413, 'vf_loss': 1254.7000732421875, 'kl': 0.014305083081126213, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.371440887451172, 'total_loss': 1254.5782470703125}, 'sample_time_ms': 39291.333, 'num_steps_trained': 148800, 'num_steps_sampled': 148800, 'update_time_ms': 2.532, 'grad_time_ms': 375.199, 'load_time_ms': 0.675}",124,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+5124.201961040497,3052,-9.844541221746876,1200,cda-server-2,5124.201961040497,f93d3d6710754a149751678a58e67540,24,1757059815,150000,-96.62190545730166,2334300,{},10.157.146.2,False,{},2025-09-05_10-10-15,48.83,150000,-89.00924448400949,0,39.59790563583374,125,"{'default': {'policy_loss': -0.13627390563488007, 'vf_explained_var': -0.595520555973053, 'vf_loss': 1282.876708984375, 'kl': 0.01366127748042345, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.370903968811035, 'total_loss': 1282.76123046875}, 'sample_time_ms': 39291.994, 'num_steps_trained': 150000, 'num_steps_sampled': 150000, 'update_time_ms': 2.553, 'grad_time_ms': 375.046, 'load_time_ms': 0.666}",125,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+5163.88282418251,3076,-9.844541221746876,1200,cda-server-2,5163.88282418251,f93d3d6710754a149751678a58e67540,24,1757059855,151200,-96.62190545730166,2334300,{},10.157.146.2,False,{},2025-09-05_10-10-55,48.86,151200,-89.07774006852782,0,39.68086314201355,126,"{'default': {'policy_loss': -0.14513202011585236, 'vf_explained_var': -0.5594785213470459, 'vf_loss': 1279.4366455078125, 'kl': 0.013576786033809185, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.5103759765625, 'total_loss': 1279.3121337890625}, 'sample_time_ms': 39297.433, 'num_steps_trained': 151200, 'num_steps_sampled': 151200, 'update_time_ms': 2.566, 'grad_time_ms': 375.402, 'load_time_ms': 0.666}",126,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+5203.29189324379,3102,-9.844541221746876,1200,cda-server-2,5203.29189324379,f93d3d6710754a149751678a58e67540,26,1757059894,152400,-96.62190545730166,2334300,{},10.157.146.2,False,{},2025-09-05_10-11-34,47.95,152400,-87.03089738602414,0,39.4090690612793,127,"{'default': {'policy_loss': -0.12907156348228455, 'vf_explained_var': -0.5240917205810547, 'vf_loss': 1287.79541015625, 'kl': 0.012374582700431347, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.616047859191895, 'total_loss': 1287.68505859375}, 'sample_time_ms': 39271.483, 'num_steps_trained': 152400, 'num_steps_sampled': 152400, 'update_time_ms': 2.565, 'grad_time_ms': 375.43, 'load_time_ms': 0.66}",127,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+5243.363523244858,3126,-9.944908978056354,1200,cda-server-2,5243.363523244858,f93d3d6710754a149751678a58e67540,24,1757059934,153600,-96.62190545730166,2334300,{},10.157.146.2,False,{},2025-09-05_10-12-14,48.3,153600,-87.9063635551037,0,40.071630001068115,128,"{'default': {'policy_loss': -0.14369790256023407, 'vf_explained_var': -0.5300182700157166, 'vf_loss': 1499.153076171875, 'kl': 0.012245725840330124, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.25257396697998, 'total_loss': 1499.028076171875}, 'sample_time_ms': 39318.76, 'num_steps_trained': 153600, 'num_steps_sampled': 153600, 'update_time_ms': 2.564, 'grad_time_ms': 374.555, 'load_time_ms': 0.659}",128,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+5283.202246665955,3151,-7.884289385547536,1200,cda-server-2,5283.202246665955,f93d3d6710754a149751678a58e67540,25,1757059974,154800,-95.30972521242101,2334300,{},10.157.146.2,False,{},2025-09-05_10-12-54,47.89,154800,-86.58481881781192,0,39.8387234210968,129,"{'default': {'policy_loss': -0.1343708336353302, 'vf_explained_var': -0.5985797643661499, 'vf_loss': 1431.6961669921875, 'kl': 0.014748867601156235, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.535266876220703, 'total_loss': 1431.5843505859375}, 'sample_time_ms': 39270.959, 'num_steps_trained': 154800, 'num_steps_sampled': 154800, 'update_time_ms': 2.611, 'grad_time_ms': 373.804, 'load_time_ms': 0.657}",129,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+5322.790278673172,3179,-7.884289385547536,1200,cda-server-2,5322.790278673172,f93d3d6710754a149751678a58e67540,28,1757060014,156000,-96.71510982397358,2334300,{},10.157.146.2,False,{},2025-09-05_10-13-34,47.02,156000,-84.53170767579176,0,39.58803200721741,130,"{'default': {'policy_loss': -0.1432943046092987, 'vf_explained_var': -0.516730010509491, 'vf_loss': 1299.9044189453125, 'kl': 0.014687989838421345, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.163921356201172, 'total_loss': 1299.7833251953125}, 'sample_time_ms': 39270.726, 'num_steps_trained': 156000, 'num_steps_sampled': 156000, 'update_time_ms': 2.601, 'grad_time_ms': 374.149, 'load_time_ms': 0.649}",130,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+5362.278551340103,3204,-7.884289385547536,1200,cda-server-2,5362.278551340103,f93d3d6710754a149751678a58e67540,25,1757060053,157200,-96.71510982397358,2334300,{},10.157.146.2,False,{},2025-09-05_10-14-13,47.06,157200,-84.7137093287411,0,39.48827266693115,131,"{'default': {'policy_loss': -0.13528026640415192, 'vf_explained_var': -0.5642940998077393, 'vf_loss': 1315.4219970703125, 'kl': 0.013655561953783035, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.046001434326172, 'total_loss': 1315.307373046875}, 'sample_time_ms': 39219.36, 'num_steps_trained': 157200, 'num_steps_sampled': 157200, 'update_time_ms': 2.589, 'grad_time_ms': 373.698, 'load_time_ms': 0.652}",131,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+5402.088619232178,3229,-7.884289385547536,1200,cda-server-2,5402.088619232178,f93d3d6710754a149751678a58e67540,25,1757060093,158400,-96.71510982397358,2334300,{},10.157.146.2,False,{},2025-09-05_10-14-53,46.92,158400,-84.11575252270681,0,39.810067892074585,132,"{'default': {'policy_loss': -0.14339764416217804, 'vf_explained_var': -0.6125023365020752, 'vf_loss': 1336.0430908203125, 'kl': 0.0131488973274827, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.28635311126709, 'total_loss': 1335.919677734375}, 'sample_time_ms': 39262.406, 'num_steps_trained': 158400, 'num_steps_sampled': 158400, 'update_time_ms': 2.621, 'grad_time_ms': 373.766, 'load_time_ms': 0.653}",132,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+5442.61981511116,3253,-8.707026517444689,1200,cda-server-2,5442.61981511116,f93d3d6710754a149751678a58e67540,24,1757060134,159600,-96.71510982397358,2334300,{},10.157.146.2,False,{},2025-09-05_10-15-34,47.75,159600,-86.19995194552389,0,40.531195878982544,133,"{'default': {'policy_loss': -0.13669845461845398, 'vf_explained_var': -0.6294195055961609, 'vf_loss': 1288.5289306640625, 'kl': 0.012455293908715248, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.30189037322998, 'total_loss': 1288.4111328125}, 'sample_time_ms': 39363.01, 'num_steps_trained': 159600, 'num_steps_sampled': 159600, 'update_time_ms': 2.665, 'grad_time_ms': 376.22, 'load_time_ms': 0.675}",133,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+5482.5219810009,3279,-3.9987385604231047,1200,cda-server-2,5482.5219810009,f93d3d6710754a149751678a58e67540,26,1757060174,160800,-96.06787921282397,2334300,{},10.157.146.2,False,{},2025-09-05_10-16-14,48.13,160800,-86.8973440789467,0,39.90216588973999,134,"{'default': {'policy_loss': -0.14733090996742249, 'vf_explained_var': -0.5629190802574158, 'vf_loss': 1269.03662109375, 'kl': 0.014718885533511639, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.406354904174805, 'total_loss': 1268.91162109375}, 'sample_time_ms': 39406.98, 'num_steps_trained': 160800, 'num_steps_sampled': 160800, 'update_time_ms': 2.703, 'grad_time_ms': 376.926, 'load_time_ms': 0.681}",134,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+5522.141087770462,3304,4.064811105079485,1200,cda-server-2,5522.141087770462,f93d3d6710754a149751678a58e67540,25,1757060213,162000,-96.48721351591196,2334300,{},10.157.146.2,False,{},2025-09-05_10-16-53,47.92,162000,-86.37492543407339,0,39.61910676956177,135,"{'default': {'policy_loss': -0.14707954227924347, 'vf_explained_var': -0.5588011741638184, 'vf_loss': 1334.78564453125, 'kl': 0.0142483776435256, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.142060279846191, 'total_loss': 1334.660400390625}, 'sample_time_ms': 39410.375, 'num_steps_trained': 162000, 'num_steps_sampled': 162000, 'update_time_ms': 2.688, 'grad_time_ms': 375.626, 'load_time_ms': 0.679}",135,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+5562.611741065979,3329,4.064811105079485,1200,cda-server-2,5562.611741065979,f93d3d6710754a149751678a58e67540,25,1757060254,163200,-96.48721351591196,2334300,{},10.157.146.2,False,{},2025-09-05_10-17-34,47.65,163200,-85.59819693104755,0,40.47065329551697,136,"{'default': {'policy_loss': -0.14304481446743011, 'vf_explained_var': -0.5552069544792175, 'vf_loss': 1383.9930419921875, 'kl': 0.013852816075086594, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.396183013916016, 'total_loss': 1383.87109375}, 'sample_time_ms': 39488.141, 'num_steps_trained': 163200, 'num_steps_sampled': 163200, 'update_time_ms': 2.684, 'grad_time_ms': 376.771, 'load_time_ms': 0.69}",136,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+5602.322021484375,3356,4.064811105079485,1200,cda-server-2,5602.322021484375,f93d3d6710754a149751678a58e67540,27,1757060294,164400,-96.48721351591196,2334300,{},10.157.146.2,False,{},2025-09-05_10-18-14,46.78,164400,-83.47820710656835,0,39.710280418395996,137,"{'default': {'policy_loss': -0.14455291628837585, 'vf_explained_var': -0.47610485553741455, 'vf_loss': 1187.9666748046875, 'kl': 0.012374449521303177, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.333803176879883, 'total_loss': 1187.8409423828125}, 'sample_time_ms': 39518.835, 'num_steps_trained': 164400, 'num_steps_sampled': 164400, 'update_time_ms': 2.675, 'grad_time_ms': 376.218, 'load_time_ms': 0.693}",137,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+5641.9494535923,3382,4.064811105079485,1200,cda-server-2,5641.9494535923,f93d3d6710754a149751678a58e67540,26,1757060333,165600,-96.48721351591196,2334300,{},10.157.146.2,False,{},2025-09-05_10-18-53,45.98,165600,-81.73706788479505,0,39.627432107925415,138,"{'default': {'policy_loss': -0.14671674370765686, 'vf_explained_var': -0.5496470928192139, 'vf_loss': 1207.936767578125, 'kl': 0.014619309455156326, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.170343399047852, 'total_loss': 1207.81201171875}, 'sample_time_ms': 39475.119, 'num_steps_trained': 165600, 'num_steps_sampled': 165600, 'update_time_ms': 2.646, 'grad_time_ms': 375.578, 'load_time_ms': 0.681}",138,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+5681.721297502518,3407,-3.9250283436976083,1200,cda-server-2,5681.721297502518,f93d3d6710754a149751678a58e67540,25,1757060373,166800,-96.0109090173699,2334300,{},10.157.146.2,False,{},2025-09-05_10-19-33,46.55,166800,-82.53106485212282,0,39.771843910217285,139,"{'default': {'policy_loss': -0.13906851410865784, 'vf_explained_var': -0.5094448328018188, 'vf_loss': 1296.3092041015625, 'kl': 0.013456877321004868, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.28107738494873, 'total_loss': 1296.1905517578125}, 'sample_time_ms': 39470.227, 'num_steps_trained': 166800, 'num_steps_sampled': 166800, 'update_time_ms': 2.614, 'grad_time_ms': 373.819, 'load_time_ms': 0.682}",139,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+5721.254936695099,3435,3.051166952719319,1200,cda-server-2,5721.254936695099,f93d3d6710754a149751678a58e67540,28,1757060412,168000,-95.45716722286036,2334300,{},10.157.146.2,False,{},2025-09-05_10-20-12,45.34,168000,-80.01279859215701,0,39.53363919258118,140,"{'default': {'policy_loss': -0.13503655791282654, 'vf_explained_var': -0.5388348698616028, 'vf_loss': 1284.50537109375, 'kl': 0.01275145635008812, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.257022857666016, 'total_loss': 1284.3897705078125}, 'sample_time_ms': 39467.095, 'num_steps_trained': 168000, 'num_steps_sampled': 168000, 'update_time_ms': 2.612, 'grad_time_ms': 371.569, 'load_time_ms': 0.688}",140,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+5760.964447259903,3461,4.321512393152251,1200,cda-server-2,5760.964447259903,f93d3d6710754a149751678a58e67540,26,1757060452,169200,-95.45716722286036,2334300,{},10.157.146.2,False,{},2025-09-05_10-20-52,45.16,169200,-79.80643116853311,0,39.70951056480408,141,"{'default': {'policy_loss': -0.15061348676681519, 'vf_explained_var': -0.5419217348098755, 'vf_loss': 1274.9154052734375, 'kl': 0.015126381069421768, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.021912574768066, 'total_loss': 1274.78759765625}, 'sample_time_ms': 39490.768, 'num_steps_trained': 169200, 'num_steps_sampled': 169200, 'update_time_ms': 2.605, 'grad_time_ms': 370.009, 'load_time_ms': 0.685}",141,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+5801.83317399025,3487,8.000000694723946,1200,cda-server-2,5801.83317399025,f93d3d6710754a149751678a58e67540,26,1757060493,170400,-95.45716722286036,2334300,{},10.157.146.2,False,{},2025-09-05_10-21-33,45.88,170400,-81.39703015658777,0,40.86872673034668,142,"{'default': {'policy_loss': -0.14620549976825714, 'vf_explained_var': -0.5411806702613831, 'vf_loss': 1212.1702880859375, 'kl': 0.012408481910824776, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.864964485168457, 'total_loss': 1212.04296875}, 'sample_time_ms': 39596.268, 'num_steps_trained': 170400, 'num_steps_sampled': 170400, 'update_time_ms': 2.585, 'grad_time_ms': 370.427, 'load_time_ms': 0.685}",142,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+5841.464439153671,3512,8.000000694723946,1200,cda-server-2,5841.464439153671,f93d3d6710754a149751678a58e67540,25,1757060533,171600,-95.42393104647698,2334300,{},10.157.146.2,False,{},2025-09-05_10-22-13,45.63,171600,-80.81600156757189,0,39.63126516342163,143,"{'default': {'policy_loss': -0.1533927619457245, 'vf_explained_var': -0.45511579513549805, 'vf_loss': 1251.4239501953125, 'kl': 0.015509688295423985, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.19650650024414, 'total_loss': 1251.2940673828125}, 'sample_time_ms': 39506.373, 'num_steps_trained': 171600, 'num_steps_sampled': 171600, 'update_time_ms': 2.587, 'grad_time_ms': 370.358, 'load_time_ms': 0.683}",143,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+5881.603573560715,3538,8.000000694723946,1200,cda-server-2,5881.603573560715,f93d3d6710754a149751678a58e67540,26,1757060573,172800,-97.11000704591449,2334300,{},10.157.146.2,False,{},2025-09-05_10-22-53,46.7,172800,-83.14416563563017,0,40.13913440704346,144,"{'default': {'policy_loss': -0.15838269889354706, 'vf_explained_var': -0.5245814919471741, 'vf_loss': 1214.616455078125, 'kl': 0.014577276073396206, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.721317291259766, 'total_loss': 1214.48046875}, 'sample_time_ms': 39531.832, 'num_steps_trained': 172800, 'num_steps_sampled': 172800, 'update_time_ms': 2.597, 'grad_time_ms': 368.609, 'load_time_ms': 0.677}",144,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+5922.412830591202,3566,8.000000694723946,1200,cda-server-2,5922.412830591202,f93d3d6710754a149751678a58e67540,28,1757060614,174000,-97.11000704591449,2334300,{},10.157.146.2,False,{},2025-09-05_10-23-34,45.34,174000,-80.23562134277655,0,40.80925703048706,145,"{'default': {'policy_loss': -0.14935068786144257, 'vf_explained_var': -0.5597293972969055, 'vf_loss': 1336.460205078125, 'kl': 0.014826994389295578, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.84347152709961, 'total_loss': 1336.3333740234375}, 'sample_time_ms': 39649.179, 'num_steps_trained': 174000, 'num_steps_sampled': 174000, 'update_time_ms': 2.579, 'grad_time_ms': 370.28, 'load_time_ms': 0.686}",145,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+5962.4448273181915,3591,6.000107401140704,1200,cda-server-2,5962.4448273181915,f93d3d6710754a149751678a58e67540,25,1757060654,175200,-97.11000704591449,2334300,{},10.157.146.2,False,{},2025-09-05_10-24-14,45.73,175200,-80.86321604507586,0,40.031996726989746,146,"{'default': {'policy_loss': -0.13877102732658386, 'vf_explained_var': -0.6090195178985596, 'vf_loss': 1348.9122314453125, 'kl': 0.013467486016452312, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.265999794006348, 'total_loss': 1348.7940673828125}, 'sample_time_ms': 39609.093, 'num_steps_trained': 175200, 'num_steps_sampled': 175200, 'update_time_ms': 2.576, 'grad_time_ms': 366.563, 'load_time_ms': 0.676}",146,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+6001.982301473618,3616,6.000107401140704,1200,cda-server-2,6001.982301473618,f93d3d6710754a149751678a58e67540,25,1757060693,176400,-97.11000704591449,2334300,{},10.157.146.2,False,{},2025-09-05_10-24-53,45.86,176400,-81.28041038657214,0,39.537474155426025,147,"{'default': {'policy_loss': -0.14229780435562134, 'vf_explained_var': -0.5282898545265198, 'vf_loss': 1357.23681640625, 'kl': 0.01293968502432108, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.941590309143066, 'total_loss': 1357.114013671875}, 'sample_time_ms': 39591.537, 'num_steps_trained': 176400, 'num_steps_sampled': 176400, 'update_time_ms': 2.577, 'grad_time_ms': 366.808, 'load_time_ms': 0.68}",147,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+6041.537889957428,3642,6.000107401140704,1200,cda-server-2,6041.537889957428,f93d3d6710754a149751678a58e67540,26,1757060733,177600,-95.02393446976724,2334300,{},10.157.146.2,False,{},2025-09-05_10-25-33,46.47,177600,-82.36822817985045,0,39.555588483810425,148,"{'default': {'policy_loss': -0.1561611294746399, 'vf_explained_var': -0.526269793510437, 'vf_loss': 1297.056884765625, 'kl': 0.01370786502957344, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.26540756225586, 'total_loss': 1296.92138671875}, 'sample_time_ms': 39584.325, 'num_steps_trained': 177600, 'num_steps_sampled': 177600, 'update_time_ms': 2.601, 'grad_time_ms': 366.729, 'load_time_ms': 0.706}",148,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+6081.240899801254,3669,3.2817660899160224,1200,cda-server-2,6081.240899801254,f93d3d6710754a149751678a58e67540,27,1757060773,178800,-95.02393446976724,2334300,{},10.157.146.2,False,{},2025-09-05_10-26-13,46.91,178800,-82.91081485435046,0,39.703009843826294,149,"{'default': {'policy_loss': -0.15014517307281494, 'vf_explained_var': -0.5046669840812683, 'vf_loss': 1238.2064208984375, 'kl': 0.011840826831758022, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.04371452331543, 'total_loss': 1238.07421875}, 'sample_time_ms': 39576.514, 'num_steps_trained': 178800, 'num_steps_sampled': 178800, 'update_time_ms': 2.602, 'grad_time_ms': 367.622, 'load_time_ms': 0.711}",149,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+6121.05551981926,3695,3.2817660899160224,1200,cda-server-2,6121.05551981926,f93d3d6710754a149751678a58e67540,26,1757060812,180000,-95.27058435969928,2334300,{},10.157.146.2,False,{},2025-09-05_10-26-52,46.2,180000,-81.55177081531059,0,39.81462001800537,150,"{'default': {'policy_loss': -0.14981169998645782, 'vf_explained_var': -0.4587758779525757, 'vf_loss': 1272.205078125, 'kl': 0.01309515256434679, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.553815841674805, 'total_loss': 1272.0751953125}, 'sample_time_ms': 39602.072, 'num_steps_trained': 180000, 'num_steps_sampled': 180000, 'update_time_ms': 2.604, 'grad_time_ms': 370.113, 'load_time_ms': 0.718}",150,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+6161.855860233307,3725,6.000455516554683,1200,cda-server-2,6161.855860233307,f93d3d6710754a149751678a58e67540,30,1757060853,181200,-96.70292849717096,2334300,{},10.157.146.2,False,{},2025-09-05_10-27-33,44.14,181200,-77.19594581917008,0,40.80034041404724,151,"{'default': {'policy_loss': -0.15634149312973022, 'vf_explained_var': -0.4997766315937042, 'vf_loss': 1216.41748046875, 'kl': 0.01336100697517395, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.74258041381836, 'total_loss': 1216.2813720703125}, 'sample_time_ms': 39709.299, 'num_steps_trained': 181200, 'num_steps_sampled': 181200, 'update_time_ms': 2.665, 'grad_time_ms': 371.895, 'load_time_ms': 0.718}",151,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+6202.4775557518005,3749,6.000455516554683,1200,cda-server-2,6202.4775557518005,f93d3d6710754a149751678a58e67540,24,1757060894,182400,-96.70292849717096,2334300,{},10.157.146.2,False,{},2025-09-05_10-28-14,44.47,182400,-78.13665430496613,0,40.62169551849365,152,"{'default': {'policy_loss': -0.14947673678398132, 'vf_explained_var': -0.5465677976608276, 'vf_loss': 1344.1851806640625, 'kl': 0.01489299163222313, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.910573959350586, 'total_loss': 1344.058349609375}, 'sample_time_ms': 39684.828, 'num_steps_trained': 182400, 'num_steps_sampled': 182400, 'update_time_ms': 2.677, 'grad_time_ms': 371.61, 'load_time_ms': 0.713}",152,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+6243.650381088257,3776,6.000455516554683,1200,cda-server-2,6243.650381088257,f93d3d6710754a149751678a58e67540,27,1757060935,183600,-96.70292849717096,2334300,{},10.157.146.2,False,{},2025-09-05_10-28-55,44.9,183600,-79.17575837647006,0,41.1728253364563,153,"{'default': {'policy_loss': -0.14205120503902435, 'vf_explained_var': -0.49471527338027954, 'vf_loss': 1348.097900390625, 'kl': 0.013548240065574646, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.840738296508789, 'total_loss': 1347.9764404296875}, 'sample_time_ms': 39840.321, 'num_steps_trained': 183600, 'num_steps_sampled': 183600, 'update_time_ms': 2.705, 'grad_time_ms': 370.225, 'load_time_ms': 0.696}",153,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+6283.296110868454,3801,8.000000400300312,1200,cda-server-2,6283.296110868454,f93d3d6710754a149751678a58e67540,25,1757060975,184800,-94.32048528778631,2334300,{},10.157.146.2,False,{},2025-09-05_10-29-35,45.36,184800,-79.84871099080961,0,39.645729780197144,154,"{'default': {'policy_loss': -0.1379450410604477, 'vf_explained_var': -0.5179122686386108, 'vf_loss': 1275.8948974609375, 'kl': 0.013993495143949986, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.997597694396973, 'total_loss': 1275.7781982421875}, 'sample_time_ms': 39790.633, 'num_steps_trained': 184800, 'num_steps_sampled': 184800, 'update_time_ms': 2.717, 'grad_time_ms': 370.532, 'load_time_ms': 0.701}",154,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+6322.750462770462,3829,8.000000400300312,1200,cda-server-2,6322.750462770462,f93d3d6710754a149751678a58e67540,28,1757061014,186000,-94.32048528778631,2334300,{},10.157.146.2,False,{},2025-09-05_10-30-14,45.88,186000,-80.67604995680122,0,39.45435190200806,155,"{'default': {'policy_loss': -0.1464567482471466, 'vf_explained_var': -0.4919707477092743, 'vf_loss': 1262.4237060546875, 'kl': 0.012960322201251984, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.92648983001709, 'total_loss': 1262.296875}, 'sample_time_ms': 39655.525, 'num_steps_trained': 186000, 'num_steps_sampled': 186000, 'update_time_ms': 2.728, 'grad_time_ms': 370.135, 'load_time_ms': 0.698}",155,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+6362.44743180275,3856,8.000000400300312,1200,cda-server-2,6362.44743180275,f93d3d6710754a149751678a58e67540,27,1757061054,187200,-94.32048528778631,2334300,{},10.157.146.2,False,{},2025-09-05_10-30-54,45.11,187200,-78.73584663718255,0,39.6969690322876,156,"{'default': {'policy_loss': -0.14419059455394745, 'vf_explained_var': -0.4577138125896454, 'vf_loss': 1243.9368896484375, 'kl': 0.013834645040333271, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.88114070892334, 'total_loss': 1243.813720703125}, 'sample_time_ms': 39618.93, 'num_steps_trained': 187200, 'num_steps_sampled': 187200, 'update_time_ms': 2.737, 'grad_time_ms': 373.188, 'load_time_ms': 0.713}",156,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+6402.651651382446,3882,8.000000400300312,1200,cda-server-2,6402.651651382446,f93d3d6710754a149751678a58e67540,26,1757061094,188400,-94.32048528778631,2334300,{},10.157.146.2,False,{},2025-09-05_10-31-34,45.06,188400,-78.36719346983722,0,40.204219579696655,157,"{'default': {'policy_loss': -0.14093157649040222, 'vf_explained_var': -0.4414154291152954, 'vf_loss': 1178.02880859375, 'kl': 0.013756846077740192, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.409296989440918, 'total_loss': 1177.908935546875}, 'sample_time_ms': 39684.713, 'num_steps_trained': 188400, 'num_steps_sampled': 188400, 'update_time_ms': 2.776, 'grad_time_ms': 374.044, 'load_time_ms': 0.718}",157,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+6442.431617021561,3910,1.0298102620690237,1200,cda-server-2,6442.431617021561,f93d3d6710754a149751678a58e67540,28,1757061134,189600,-94.16925315349455,2334300,{},10.157.146.2,False,{},2025-09-05_10-32-14,44.35,189600,-76.48961202751238,0,39.77996563911438,158,"{'default': {'policy_loss': -0.1380423754453659, 'vf_explained_var': -0.44596925377845764, 'vf_loss': 1286.7122802734375, 'kl': 0.013590741902589798, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.253604888916016, 'total_loss': 1286.5947265625}, 'sample_time_ms': 39708.12, 'num_steps_trained': 189600, 'num_steps_sampled': 189600, 'update_time_ms': 2.786, 'grad_time_ms': 373.114, 'load_time_ms': 0.701}",158,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+6481.98717546463,3937,1.0298102620690237,1200,cda-server-2,6481.98717546463,f93d3d6710754a149751678a58e67540,27,1757061174,190800,-94.16925315349455,2334300,{},10.157.146.2,False,{},2025-09-05_10-32-54,44.7,190800,-77.23485126866645,0,39.55555844306946,159,"{'default': {'policy_loss': -0.15841226279735565, 'vf_explained_var': -0.423553466796875, 'vf_loss': 1151.597900390625, 'kl': 0.01273895613849163, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.881004333496094, 'total_loss': 1151.458740234375}, 'sample_time_ms': 39693.456, 'num_steps_trained': 190800, 'num_steps_sampled': 190800, 'update_time_ms': 2.77, 'grad_time_ms': 373.019, 'load_time_ms': 0.698}",159,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+6521.910762310028,3965,1.0298102620690237,1200,cda-server-2,6521.910762310028,f93d3d6710754a149751678a58e67540,28,1757061214,192000,-94.16925315349455,2334300,{},10.157.146.2,False,{},2025-09-05_10-33-34,43.83,192000,-75.5874652572118,0,39.92358684539795,160,"{'default': {'policy_loss': -0.15190553665161133, 'vf_explained_var': -0.3851970136165619, 'vf_loss': 1184.2813720703125, 'kl': 0.013894817791879177, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.627264976501465, 'total_loss': 1184.150634765625}, 'sample_time_ms': 39704.102, 'num_steps_trained': 192000, 'num_steps_sampled': 192000, 'update_time_ms': 2.783, 'grad_time_ms': 373.251, 'load_time_ms': 0.697}",160,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+6561.471232414246,3992,-1.9999776651093448,1200,cda-server-2,6561.471232414246,f93d3d6710754a149751678a58e67540,27,1757061253,193200,-93.7361066104395,2334300,{},10.157.146.2,False,{},2025-09-05_10-34-13,44.48,193200,-76.49468136345011,0,39.56047010421753,161,"{'default': {'policy_loss': -0.15200775861740112, 'vf_explained_var': -0.44161078333854675, 'vf_loss': 1216.625244140625, 'kl': 0.014680708758533001, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.780177116394043, 'total_loss': 1216.4954833984375}, 'sample_time_ms': 39582.096, 'num_steps_trained': 193200, 'num_steps_sampled': 193200, 'update_time_ms': 2.711, 'grad_time_ms': 371.36, 'load_time_ms': 0.695}",161,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+6601.174665212631,4017,-2.863696604857047,1200,cda-server-2,6601.174665212631,f93d3d6710754a149751678a58e67540,25,1757061293,194400,-93.60419931127666,2334300,{},10.157.146.2,False,{},2025-09-05_10-34-53,44.43,194400,-76.50427927291352,0,39.70343279838562,162,"{'default': {'policy_loss': -0.14301317930221558, 'vf_explained_var': -0.4891640841960907, 'vf_loss': 1249.120361328125, 'kl': 0.014471733011305332, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.797951698303223, 'total_loss': 1248.99951171875}, 'sample_time_ms': 39490.325, 'num_steps_trained': 194400, 'num_steps_sampled': 194400, 'update_time_ms': 2.725, 'grad_time_ms': 371.318, 'load_time_ms': 0.699}",162,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+6641.436380147934,4044,-2.863696604857047,1200,cda-server-2,6641.436380147934,f93d3d6710754a149751678a58e67540,27,1757061333,195600,-95.07280238995182,2334300,{},10.157.146.2,False,{},2025-09-05_10-35-33,44.54,195600,-77.13869112317266,0,40.261714935302734,163,"{'default': {'policy_loss': -0.1370653212070465, 'vf_explained_var': -0.481819212436676, 'vf_loss': 1357.2757568359375, 'kl': 0.013469233177602291, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.614164352416992, 'total_loss': 1357.1593017578125}, 'sample_time_ms': 39400.325, 'num_steps_trained': 195600, 'num_steps_sampled': 195600, 'update_time_ms': 2.655, 'grad_time_ms': 370.305, 'load_time_ms': 0.706}",163,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+6680.79793381691,4069,-6.997255541269837,1200,cda-server-2,6680.79793381691,f93d3d6710754a149751678a58e67540,25,1757061373,196800,-95.07280238995182,2334300,{},10.157.146.2,False,{},2025-09-05_10-36-13,46.39,196800,-81.18426737163753,0,39.36155366897583,164,"{'default': {'policy_loss': -0.1615937501192093, 'vf_explained_var': -0.4704124629497528, 'vf_loss': 1176.6922607421875, 'kl': 0.013785287737846375, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.746781349182129, 'total_loss': 1176.551513671875}, 'sample_time_ms': 39370.354, 'num_steps_trained': 196800, 'num_steps_sampled': 196800, 'update_time_ms': 2.633, 'grad_time_ms': 371.878, 'load_time_ms': 0.706}",164,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+6720.391925573349,4096,8.000000774867624,1200,cda-server-2,6720.391925573349,f93d3d6710754a149751678a58e67540,27,1757061412,198000,-95.07280238995182,2334300,{},10.157.146.2,False,{},2025-09-05_10-36-52,45.87,198000,-80.31117768732871,0,39.59399175643921,165,"{'default': {'policy_loss': -0.14880099892616272, 'vf_explained_var': -0.47190845012664795, 'vf_loss': 1198.0211181640625, 'kl': 0.013262495398521423, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.698999404907227, 'total_loss': 1197.892578125}, 'sample_time_ms': 39385.226, 'num_steps_trained': 198000, 'num_steps_sampled': 198000, 'update_time_ms': 2.643, 'grad_time_ms': 370.969, 'load_time_ms': 0.702}",165,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+6760.096356391907,4121,8.000000774867624,1200,cda-server-2,6760.096356391907,f93d3d6710754a149751678a58e67540,25,1757061452,199200,-94.64584639750872,2334300,{},10.157.146.2,False,{},2025-09-05_10-37-32,46.23,199200,-81.02888257315834,0,39.70443081855774,166,"{'default': {'policy_loss': -0.14520853757858276, 'vf_explained_var': -0.5151036381721497, 'vf_loss': 1295.383544921875, 'kl': 0.01386125385761261, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.609149932861328, 'total_loss': 1295.2593994140625}, 'sample_time_ms': 39388.608, 'num_steps_trained': 199200, 'num_steps_sampled': 199200, 'update_time_ms': 2.65, 'grad_time_ms': 368.28, 'load_time_ms': 0.689}",166,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+6799.554817914963,4146,8.000000774867624,1200,cda-server-2,6799.554817914963,f93d3d6710754a149751678a58e67540,25,1757061491,200400,-94.64584639750872,2334300,{},10.157.146.2,False,{},2025-09-05_10-38-11,46.98,200400,-82.5702012919886,0,39.45846152305603,167,"{'default': {'policy_loss': -0.13921555876731873, 'vf_explained_var': -0.4715842008590698, 'vf_loss': 1261.72607421875, 'kl': 0.013056447729468346, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.71256160736084, 'total_loss': 1261.606689453125}, 'sample_time_ms': 39315.78, 'num_steps_trained': 200400, 'num_steps_sampled': 200400, 'update_time_ms': 2.667, 'grad_time_ms': 366.49, 'load_time_ms': 0.677}",167,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+6838.850018978119,4171,8.000000774867624,1200,cda-server-2,6838.850018978119,f93d3d6710754a149751678a58e67540,25,1757061531,201600,-94.64584639750872,2334300,{},10.157.146.2,False,{},2025-09-05_10-38-51,47.04,201600,-82.61743856553079,0,39.29520106315613,168,"{'default': {'policy_loss': -0.15822917222976685, 'vf_explained_var': -0.4832596778869629, 'vf_loss': 1381.597412109375, 'kl': 0.014154472388327122, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.824186325073242, 'total_loss': 1381.460693359375}, 'sample_time_ms': 39265.536, 'num_steps_trained': 201600, 'num_steps_sampled': 201600, 'update_time_ms': 2.667, 'grad_time_ms': 368.285, 'load_time_ms': 0.671}",168,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+6878.615561723709,4199,-0.9670193416631676,1200,cda-server-2,6878.615561723709,f93d3d6710754a149751678a58e67540,28,1757061570,202800,-93.29548029704897,2334300,{},10.157.146.2,False,{},2025-09-05_10-39-30,46.45,202800,-81.24814517100616,0,39.76554274559021,169,"{'default': {'policy_loss': -0.14035111665725708, 'vf_explained_var': -0.4698371887207031, 'vf_loss': 1321.0892333984375, 'kl': 0.014233357273042202, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.756165504455566, 'total_loss': 1320.970458984375}, 'sample_time_ms': 39284.686, 'num_steps_trained': 202800, 'num_steps_sampled': 202800, 'update_time_ms': 2.669, 'grad_time_ms': 370.144, 'load_time_ms': 0.665}",169,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+6918.414424419403,4225,-0.9670193416631676,1200,cda-server-2,6918.414424419403,f93d3d6710754a149751678a58e67540,26,1757061610,204000,-93.29548029704897,2334300,{},10.157.146.2,False,{},2025-09-05_10-40-10,45.66,204000,-79.71639697243624,0,39.79886269569397,170,"{'default': {'policy_loss': -0.1609656661748886, 'vf_explained_var': -0.4668535590171814, 'vf_loss': 1209.8843994140625, 'kl': 0.014395389705896378, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.984201431274414, 'total_loss': 1209.7454833984375}, 'sample_time_ms': 39272.914, 'num_steps_trained': 204000, 'num_steps_sampled': 204000, 'update_time_ms': 2.671, 'grad_time_ms': 369.51, 'load_time_ms': 0.654}",170,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+6958.056665897369,4255,-0.9670193416631676,1200,cda-server-2,6958.056665897369,f93d3d6710754a149751678a58e67540,30,1757061650,205200,-93.01535730256707,2334300,{},10.157.146.2,False,{},2025-09-05_10-40-50,43.83,205200,-75.55180682195797,0,39.64224147796631,171,"{'default': {'policy_loss': -0.14292173087596893, 'vf_explained_var': -0.4353679120540619, 'vf_loss': 1279.452880859375, 'kl': 0.014972982928156853, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.971701622009277, 'total_loss': 1279.332763671875}, 'sample_time_ms': 39279.161, 'num_steps_trained': 205200, 'num_steps_sampled': 205200, 'update_time_ms': 2.648, 'grad_time_ms': 371.436, 'load_time_ms': 0.669}",171,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+6997.89738035202,4281,-0.9670193416631676,1200,cda-server-2,6997.89738035202,f93d3d6710754a149751678a58e67540,26,1757061690,206400,-93.01535730256707,2334300,{},10.157.146.2,False,{},2025-09-05_10-41-30,44.04,206400,-75.62940815003479,0,39.84071445465088,172,"{'default': {'policy_loss': -0.15111464262008667, 'vf_explained_var': -0.40654847025871277, 'vf_loss': 1210.2984619140625, 'kl': 0.01622133143246174, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.997294425964355, 'total_loss': 1210.1719970703125}, 'sample_time_ms': 39290.593, 'num_steps_trained': 206400, 'num_steps_sampled': 206400, 'update_time_ms': 2.626, 'grad_time_ms': 373.694, 'load_time_ms': 0.684}",172,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+7038.409298419952,4308,-1.8539046481723318,1200,cda-server-2,7038.409298419952,f93d3d6710754a149751678a58e67540,27,1757061730,207600,-93.7560116996596,2334300,{},10.157.146.2,False,{},2025-09-05_10-42-10,44.21,207600,-76.02007759721722,0,40.51191806793213,173,"{'default': {'policy_loss': -0.14886194467544556, 'vf_explained_var': -0.45312246680259705, 'vf_loss': 1215.42724609375, 'kl': 0.012958609499037266, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.568338394165039, 'total_loss': 1215.2982177734375}, 'sample_time_ms': 39313.385, 'num_steps_trained': 207600, 'num_steps_sampled': 207600, 'update_time_ms': 2.667, 'grad_time_ms': 375.855, 'load_time_ms': 0.688}",173,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+7078.5049085617065,4335,-2.996427446303704,1200,cda-server-2,7078.5049085617065,f93d3d6710754a149751678a58e67540,27,1757061771,208800,-93.7560116996596,2334300,{},10.157.146.2,False,{},2025-09-05_10-42-51,44.66,208800,-76.64302505955972,0,40.09561014175415,174,"{'default': {'policy_loss': -0.15744031965732574, 'vf_explained_var': -0.36034494638442993, 'vf_loss': 1169.066650390625, 'kl': 0.014459154568612576, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.928811073303223, 'total_loss': 1168.93115234375}, 'sample_time_ms': 39388.797, 'num_steps_trained': 208800, 'num_steps_sampled': 208800, 'update_time_ms': 2.64, 'grad_time_ms': 373.871, 'load_time_ms': 0.686}",174,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+7118.310443639755,4360,-2.996427446303704,1200,cda-server-2,7118.310443639755,f93d3d6710754a149751678a58e67540,25,1757061810,210000,-93.7560116996596,2334300,{},10.157.146.2,False,{},2025-09-05_10-43-30,44.92,210000,-77.35967791166354,0,39.805535078048706,175,"{'default': {'policy_loss': -0.1595560908317566, 'vf_explained_var': -0.398641437292099, 'vf_loss': 1298.3955078125, 'kl': 0.013654005713760853, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.659481048583984, 'total_loss': 1298.2567138671875}, 'sample_time_ms': 39408.897, 'num_steps_trained': 210000, 'num_steps_sampled': 210000, 'update_time_ms': 2.612, 'grad_time_ms': 374.971, 'load_time_ms': 0.689}",175,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+7158.008751630783,4387,6.000321648447716,1200,cda-server-2,7158.008751630783,f93d3d6710754a149751678a58e67540,27,1757061850,211200,-93.36983930991407,2334300,{},10.157.146.2,False,{},2025-09-05_10-44-10,45.1,211200,-77.76760147976248,0,39.69830799102783,176,"{'default': {'policy_loss': -0.1536533534526825, 'vf_explained_var': -0.4656270444393158, 'vf_loss': 1302.03173828125, 'kl': 0.015374511480331421, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.728992462158203, 'total_loss': 1301.9014892578125}, 'sample_time_ms': 39405.849, 'num_steps_trained': 211200, 'num_steps_sampled': 211200, 'update_time_ms': 2.585, 'grad_time_ms': 377.482, 'load_time_ms': 0.69}",176,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+7197.657300710678,4412,6.000321648447716,1200,cda-server-2,7197.657300710678,f93d3d6710754a149751678a58e67540,25,1757061890,212400,-93.36983930991407,2334300,{},10.157.146.2,False,{},2025-09-05_10-44-50,46.37,212400,-80.44722221133998,0,39.64854907989502,177,"{'default': {'policy_loss': -0.15368372201919556, 'vf_explained_var': -0.4262590706348419, 'vf_loss': 1186.48583984375, 'kl': 0.014043147675693035, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.525483131408691, 'total_loss': 1186.3533935546875}, 'sample_time_ms': 39423.087, 'num_steps_trained': 212400, 'num_steps_sampled': 212400, 'update_time_ms': 2.53, 'grad_time_ms': 379.324, 'load_time_ms': 0.687}",177,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+7237.700491666794,4438,6.000321648447716,1200,cda-server-2,7237.700491666794,f93d3d6710754a149751678a58e67540,26,1757061930,213600,-93.36983930991407,2334300,{},10.157.146.2,False,{},2025-09-05_10-45-30,47.16,213600,-81.81987204055027,0,40.04319095611572,178,"{'default': {'policy_loss': -0.13806617259979248, 'vf_explained_var': -0.46296584606170654, 'vf_loss': 1158.87939453125, 'kl': 0.014014706015586853, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 14.043163299560547, 'total_loss': 1158.762451171875}, 'sample_time_ms': 39500.493, 'num_steps_trained': 213600, 'num_steps_sampled': 213600, 'update_time_ms': 2.547, 'grad_time_ms': 376.655, 'load_time_ms': 0.691}",178,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+7277.934635639191,4464,6.000321648447716,1200,cda-server-2,7277.934635639191,f93d3d6710754a149751678a58e67540,26,1757061970,214800,-93.25506221807392,2334300,{},10.157.146.2,False,{},2025-09-05_10-46-10,46.62,214800,-80.2493775385244,0,40.23414397239685,179,"{'default': {'policy_loss': -0.14763589203357697, 'vf_explained_var': -0.42568519711494446, 'vf_loss': 1173.8685302734375, 'kl': 0.013748247176408768, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.813373565673828, 'total_loss': 1173.74169921875}, 'sample_time_ms': 39548.202, 'num_steps_trained': 214800, 'num_steps_sampled': 214800, 'update_time_ms': 2.555, 'grad_time_ms': 375.826, 'load_time_ms': 0.69}",179,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+7317.267959833145,4489,-2.6664612429679195,1200,cda-server-2,7317.267959833145,f93d3d6710754a149751678a58e67540,25,1757062009,216000,-92.65826884955854,2334300,{},10.157.146.2,False,{},2025-09-05_10-46-49,47.14,216000,-81.40300997415761,0,39.33332419395447,180,"{'default': {'policy_loss': -0.15248635411262512, 'vf_explained_var': -0.44160595536231995, 'vf_loss': 1240.842041015625, 'kl': 0.014030599035322666, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.749593734741211, 'total_loss': 1240.7109375}, 'sample_time_ms': 39502.596, 'num_steps_trained': 216000, 'num_steps_sampled': 216000, 'update_time_ms': 2.558, 'grad_time_ms': 374.843, 'load_time_ms': 0.7}",180,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+7357.116636753082,4515,8.000004641880324,1200,cda-server-2,7357.116636753082,f93d3d6710754a149751678a58e67540,26,1757062049,217200,-94.23068575335455,2334300,{},10.157.146.2,False,{},2025-09-05_10-47-29,46.64,217200,-80.77784544551724,0,39.848676919937134,181,"{'default': {'policy_loss': -0.15136459469795227, 'vf_explained_var': -0.4990891218185425, 'vf_loss': 1196.1600341796875, 'kl': 0.015690051019191742, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.130120277404785, 'total_loss': 1196.03271484375}, 'sample_time_ms': 39525.243, 'num_steps_trained': 217200, 'num_steps_sampled': 217200, 'update_time_ms': 2.571, 'grad_time_ms': 372.867, 'load_time_ms': 0.706}",181,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+7397.07540512085,4541,8.000004641880324,1200,cda-server-2,7397.07540512085,f93d3d6710754a149751678a58e67540,26,1757062089,218400,-94.23068575335455,2334300,{},10.157.146.2,False,{},2025-09-05_10-48-09,46.37,218400,-80.36707963295763,0,39.958768367767334,182,"{'default': {'policy_loss': -0.15386556088924408, 'vf_explained_var': -0.46873077750205994, 'vf_loss': 1127.10107421875, 'kl': 0.013945079408586025, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.64345932006836, 'total_loss': 1126.968505859375}, 'sample_time_ms': 39537.813, 'num_steps_trained': 218400, 'num_steps_sampled': 218400, 'update_time_ms': 2.572, 'grad_time_ms': 372.139, 'load_time_ms': 0.694}",182,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+7437.060432195663,4570,8.000004641880324,1200,cda-server-2,7437.060432195663,f93d3d6710754a149751678a58e67540,29,1757062129,219600,-94.23068575335455,2334300,{},10.157.146.2,False,{},2025-09-05_10-48-49,45.46,219600,-78.89878558111414,0,39.98502707481384,183,"{'default': {'policy_loss': -0.15169140696525574, 'vf_explained_var': -0.41206541657447815, 'vf_loss': 1221.6898193359375, 'kl': 0.013896163552999496, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.340320587158203, 'total_loss': 1221.55908203125}, 'sample_time_ms': 39485.748, 'num_steps_trained': 219600, 'num_steps_sampled': 219600, 'update_time_ms': 2.529, 'grad_time_ms': 371.556, 'load_time_ms': 0.688}",183,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+7476.868397474289,4597,4.0006829636538965,1200,cda-server-2,7476.868397474289,f93d3d6710754a149751678a58e67540,27,1757062169,220800,-94.23068575335455,2334300,{},10.157.146.2,False,{},2025-09-05_10-49-29,44.09,220800,-75.70631418103343,0,39.80796527862549,184,"{'default': {'policy_loss': -0.14285977184772491, 'vf_explained_var': -0.44031986594200134, 'vf_loss': 1167.975341796875, 'kl': 0.014052635990083218, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.291040420532227, 'total_loss': 1167.8538818359375}, 'sample_time_ms': 39455.324, 'num_steps_trained': 220800, 'num_steps_sampled': 220800, 'update_time_ms': 2.565, 'grad_time_ms': 373.126, 'load_time_ms': 0.692}",184,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+7516.683397293091,4625,4.0006829636538965,1200,cda-server-2,7516.683397293091,f93d3d6710754a149751678a58e67540,28,1757062209,222000,-93.46765627965947,2334300,{},10.157.146.2,False,{},2025-09-05_10-50-09,43.46,222000,-74.50635650337743,0,39.81499981880188,185,"{'default': {'policy_loss': -0.16030214726924896, 'vf_explained_var': -0.4719213843345642, 'vf_loss': 1249.4210205078125, 'kl': 0.0141418082639575, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.116369247436523, 'total_loss': 1249.2823486328125}, 'sample_time_ms': 39458.366, 'num_steps_trained': 222000, 'num_steps_sampled': 222000, 'update_time_ms': 2.597, 'grad_time_ms': 371.027, 'load_time_ms': 0.691}",185,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+7557.233896493912,4650,4.0006829636538965,1200,cda-server-2,7557.233896493912,f93d3d6710754a149751678a58e67540,25,1757062249,223200,-93.46765627965947,2334300,{},10.157.146.2,False,{},2025-09-05_10-50-49,43.7,223200,-74.98605668001593,0,40.55049920082092,186,"{'default': {'policy_loss': -0.16070930659770966, 'vf_explained_var': -0.5066881775856018, 'vf_loss': 1297.4415283203125, 'kl': 0.015125768259167671, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.310516357421875, 'total_loss': 1297.3037109375}, 'sample_time_ms': 39544.287, 'num_steps_trained': 223200, 'num_steps_sampled': 223200, 'update_time_ms': 2.615, 'grad_time_ms': 370.309, 'load_time_ms': 0.691}",186,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+7597.841630458832,4676,4.0006829636538965,1200,cda-server-2,7597.841630458832,f93d3d6710754a149751678a58e67540,26,1757062290,224400,-92.5149559563216,2334300,{},10.157.146.2,False,{},2025-09-05_10-51-30,44.3,224400,-75.55097315846803,0,40.607733964920044,187,"{'default': {'policy_loss': -0.15484149754047394, 'vf_explained_var': -0.4206264615058899, 'vf_loss': 1144.3035888671875, 'kl': 0.013834652490913868, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.444981575012207, 'total_loss': 1144.169677734375}, 'sample_time_ms': 39641.445, 'num_steps_trained': 224400, 'num_steps_sampled': 224400, 'update_time_ms': 2.605, 'grad_time_ms': 369.101, 'load_time_ms': 0.7}",187,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+7637.683002233505,4705,8.000000403650564,1200,cda-server-2,7637.683002233505,f93d3d6710754a149751678a58e67540,29,1757062330,225600,-92.37277957326468,2334300,{},10.157.146.2,False,{},2025-09-05_10-52-10,44.96,225600,-76.85249563257216,0,39.84137177467346,188,"{'default': {'policy_loss': -0.14519746601581573, 'vf_explained_var': -0.42934155464172363, 'vf_loss': 1210.0694580078125, 'kl': 0.01506258174777031, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.620769500732422, 'total_loss': 1209.9471435546875}, 'sample_time_ms': 39618.776, 'num_steps_trained': 225600, 'num_steps_sampled': 225600, 'update_time_ms': 2.552, 'grad_time_ms': 371.645, 'load_time_ms': 0.717}",188,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+7677.409727096558,4733,8.000000403650564,1200,cda-server-2,7677.409727096558,f93d3d6710754a149751678a58e67540,28,1757062370,226800,-92.65961695548646,2334300,{},10.157.146.2,False,{},2025-09-05_10-52-50,44.76,226800,-76.29039841362648,0,39.72672486305237,189,"{'default': {'policy_loss': -0.15315882861614227, 'vf_explained_var': -0.4202888309955597, 'vf_loss': 1169.5345458984375, 'kl': 0.013284570537507534, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.340696334838867, 'total_loss': 1169.4014892578125}, 'sample_time_ms': 39568.763, 'num_steps_trained': 226800, 'num_steps_sampled': 226800, 'update_time_ms': 2.532, 'grad_time_ms': 370.943, 'load_time_ms': 0.723}",189,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+7717.288945913315,4762,8.000000403650564,1200,cda-server-2,7717.288945913315,f93d3d6710754a149751678a58e67540,29,1757062410,228000,-92.65961695548646,2334300,{},10.157.146.2,False,{},2025-09-05_10-53-30,42.94,228000,-72.73544192857034,0,39.8792188167572,190,"{'default': {'policy_loss': -0.15587908029556274, 'vf_explained_var': -0.37520965933799744, 'vf_loss': 1082.8988037109375, 'kl': 0.013704348355531693, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.208192825317383, 'total_loss': 1082.763671875}, 'sample_time_ms': 39623.374, 'num_steps_trained': 228000, 'num_steps_sampled': 228000, 'update_time_ms': 2.521, 'grad_time_ms': 370.873, 'load_time_ms': 0.713}",190,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+7757.672968149185,4791,8.000000511157136,1200,cda-server-2,7757.672968149185,f93d3d6710754a149751678a58e67540,29,1757062450,229200,-92.65961695548646,2334300,{},10.157.146.2,False,{},2025-09-05_10-54-10,42.18,229200,-70.863230546778,0,40.38402223587036,191,"{'default': {'policy_loss': -0.16154435276985168, 'vf_explained_var': -0.4012455940246582, 'vf_loss': 1110.5670166015625, 'kl': 0.01577424257993698, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.523181915283203, 'total_loss': 1110.4293212890625}, 'sample_time_ms': 39675.468, 'num_steps_trained': 229200, 'num_steps_sampled': 229200, 'update_time_ms': 2.476, 'grad_time_ms': 372.347, 'load_time_ms': 0.701}",191,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+7797.363489866257,4820,8.000000511157136,1200,cda-server-2,7797.363489866257,f93d3d6710754a149751678a58e67540,29,1757062490,230400,-92.60097823112537,2334300,{},10.157.146.2,False,{},2025-09-05_10-54-50,40.72,230400,-67.84047968262863,0,39.69052171707153,192,"{'default': {'policy_loss': -0.15046563744544983, 'vf_explained_var': -0.35270363092422485, 'vf_loss': 1164.81298828125, 'kl': 0.01517312228679657, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.708709716796875, 'total_loss': 1164.6856689453125}, 'sample_time_ms': 39649.009, 'num_steps_trained': 230400, 'num_steps_sampled': 230400, 'update_time_ms': 2.473, 'grad_time_ms': 371.98, 'load_time_ms': 0.711}",192,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+7837.400736808777,4850,8.000000511157136,1200,cda-server-2,7837.400736808777,f93d3d6710754a149751678a58e67540,30,1757062530,231600,-92.56060467380172,2334300,{},10.157.146.2,False,{},2025-09-05_10-55-30,40.5,231600,-67.4662946907489,0,40.03724694252014,193,"{'default': {'policy_loss': -0.13854511082172394, 'vf_explained_var': -0.3725610673427582, 'vf_loss': 1157.923828125, 'kl': 0.013952597975730896, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.779583930969238, 'total_loss': 1157.806640625}, 'sample_time_ms': 39653.651, 'num_steps_trained': 231600, 'num_steps_sampled': 231600, 'update_time_ms': 2.482, 'grad_time_ms': 372.599, 'load_time_ms': 0.705}",193,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+7877.338545560837,4877,4.00013171606094,1200,cda-server-2,7877.338545560837,f93d3d6710754a149751678a58e67540,27,1757062570,232800,-92.56060467380172,2334300,{},10.157.146.2,False,{},2025-09-05_10-56-10,41.95,232800,-70.16873453171931,0,39.93780875205994,194,"{'default': {'policy_loss': -0.14503635466098785, 'vf_explained_var': -0.38082796335220337, 'vf_loss': 1059.8951416015625, 'kl': 0.013867921195924282, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.612470626831055, 'total_loss': 1059.7711181640625}, 'sample_time_ms': 39665.995, 'num_steps_trained': 232800, 'num_steps_sampled': 232800, 'update_time_ms': 2.465, 'grad_time_ms': 373.301, 'load_time_ms': 0.7}",194,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+7916.899561166763,4905,4.000334687034986,1200,cda-server-2,7916.899561166763,f93d3d6710754a149751678a58e67540,28,1757062609,234000,-93.39270543062,2334300,{},10.157.146.2,False,{},2025-09-05_10-56-49,41.64,234000,-69.59036653110743,0,39.561015605926514,195,"{'default': {'policy_loss': -0.15890157222747803, 'vf_explained_var': -0.35051393508911133, 'vf_loss': 1081.5750732421875, 'kl': 0.014604638330638409, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.338172912597656, 'total_loss': 1081.438232421875}, 'sample_time_ms': 39638.336, 'num_steps_trained': 234000, 'num_steps_sampled': 234000, 'update_time_ms': 2.478, 'grad_time_ms': 375.506, 'load_time_ms': 0.697}",195,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+7956.855808258057,4933,4.000334687034986,1200,cda-server-2,7956.855808258057,f93d3d6710754a149751678a58e67540,28,1757062649,235200,-93.39270543062,2334300,{},10.157.146.2,False,{},2025-09-05_10-57-29,42.82,235200,-71.36033278735417,0,39.956247091293335,196,"{'default': {'policy_loss': -0.14135557413101196, 'vf_explained_var': -0.348386287689209, 'vf_loss': 1053.3575439453125, 'kl': 0.015309368260204792, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.050577163696289, 'total_loss': 1053.239501953125}, 'sample_time_ms': 39578.453, 'num_steps_trained': 235200, 'num_steps_sampled': 235200, 'update_time_ms': 2.497, 'grad_time_ms': 375.952, 'load_time_ms': 0.691}",196,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+7997.59380698204,4962,4.000334687034986,1200,cda-server-2,7997.59380698204,f93d3d6710754a149751678a58e67540,29,1757062690,236400,-93.39270543062,2334300,{},10.157.146.2,False,{},2025-09-05_10-58-10,43.13,236400,-72.13785758405321,0,40.737998723983765,197,"{'default': {'policy_loss': -0.16017664968967438, 'vf_explained_var': -0.3504192531108856, 'vf_loss': 1070.419921875, 'kl': 0.014836383983492851, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.593555450439453, 'total_loss': 1070.2821044921875}, 'sample_time_ms': 39590.552, 'num_steps_trained': 236400, 'num_steps_sampled': 236400, 'update_time_ms': 2.494, 'grad_time_ms': 376.874, 'load_time_ms': 0.689}",197,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+8037.312612533569,4992,2.00000190776594,1200,cda-server-2,8037.312612533569,f93d3d6710754a149751678a58e67540,30,1757062730,237600,-93.39270543062,2334300,{},10.157.146.2,False,{},2025-09-05_10-58-50,41.66,237600,-69.34162855885289,0,39.71880555152893,198,"{'default': {'policy_loss': -0.1465713530778885, 'vf_explained_var': -0.3786209225654602, 'vf_loss': 1123.5787353515625, 'kl': 0.014990447089076042, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.31027889251709, 'total_loss': 1123.455078125}, 'sample_time_ms': 39576.316, 'num_steps_trained': 237600, 'num_steps_sampled': 237600, 'update_time_ms': 2.556, 'grad_time_ms': 378.807, 'load_time_ms': 0.686}",198,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+8077.2322771549225,5019,6.000001197058554,1200,cda-server-2,8077.2322771549225,f93d3d6710754a149751678a58e67540,27,1757062770,238800,-91.8719354400205,2334300,{},10.157.146.2,False,{},2025-09-05_10-59-30,42.38,238800,-70.83087085451749,0,39.91966462135315,199,"{'default': {'policy_loss': -0.1491290032863617, 'vf_explained_var': -0.3470858335494995, 'vf_loss': 1095.539794921875, 'kl': 0.014232729561626911, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.700115203857422, 'total_loss': 1095.4122314453125}, 'sample_time_ms': 39594.262, 'num_steps_trained': 238800, 'num_steps_sampled': 238800, 'update_time_ms': 2.592, 'grad_time_ms': 380.113, 'load_time_ms': 0.68}",199,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+8116.913340806961,5045,6.000001197058554,1200,cda-server-2,8116.913340806961,f93d3d6710754a149751678a58e67540,26,1757062809,240000,-91.8719354400205,2334300,{},10.157.146.2,False,{},2025-09-05_11-00-09,42.96,240000,-71.78238705168941,0,39.681063652038574,200,"{'default': {'policy_loss': -0.1583535075187683, 'vf_explained_var': -0.3458694815635681, 'vf_loss': 1113.43115234375, 'kl': 0.015213726088404655, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.107471466064453, 'total_loss': 1113.2960205078125}, 'sample_time_ms': 39575.704, 'num_steps_trained': 240000, 'num_steps_sampled': 240000, 'update_time_ms': 2.625, 'grad_time_ms': 378.916, 'load_time_ms': 0.677}",200,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+8156.765690803528,5076,6.000001197058554,1200,cda-server-2,8156.765690803528,f93d3d6710754a149751678a58e67540,31,1757062849,241200,-91.8719354400205,2334300,{},10.157.146.2,False,{},2025-09-05_11-00-49,41.96,241200,-69.9454932655982,0,39.85234999656677,201,"{'default': {'policy_loss': -0.157878577709198, 'vf_explained_var': -0.33739620447158813, 'vf_loss': 1145.3822021484375, 'kl': 0.015361779369413853, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.011149406433105, 'total_loss': 1145.24755859375}, 'sample_time_ms': 39522.851, 'num_steps_trained': 241200, 'num_steps_sampled': 241200, 'update_time_ms': 2.687, 'grad_time_ms': 378.571, 'load_time_ms': 0.671}",201,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+8196.760407209396,5107,3.099956436826691,1200,cda-server-2,8196.760407209396,f93d3d6710754a149751678a58e67540,31,1757062889,242400,-92.61758670008707,2334300,{},10.157.146.2,False,{},2025-09-05_11-01-29,41.77,242400,-69.17018697450396,0,39.99471640586853,202,"{'default': {'policy_loss': -0.1507437527179718, 'vf_explained_var': -0.36588647961616516, 'vf_loss': 1073.396728515625, 'kl': 0.013501138426363468, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.176572799682617, 'total_loss': 1073.266357421875}, 'sample_time_ms': 39551.099, 'num_steps_trained': 242400, 'num_steps_sampled': 242400, 'update_time_ms': 2.678, 'grad_time_ms': 380.72, 'load_time_ms': 0.661}",202,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+8236.445150613785,5135,3.099956436826691,1200,cda-server-2,8236.445150613785,f93d3d6710754a149751678a58e67540,28,1757062929,243600,-92.61758670008707,2334300,{},10.157.146.2,False,{},2025-09-05_11-02-09,41.06,243600,-67.59249412634206,0,39.68474340438843,203,"{'default': {'policy_loss': -0.15652626752853394, 'vf_explained_var': -0.3818720877170563, 'vf_loss': 950.4407348632812, 'kl': 0.016368085518479347, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 12.89154052734375, 'total_loss': 950.3091430664062}, 'sample_time_ms': 39515.935, 'num_steps_trained': 243600, 'num_steps_sampled': 243600, 'update_time_ms': 2.691, 'grad_time_ms': 380.569, 'load_time_ms': 0.675}",203,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+8276.223326206207,5165,4.001067404241164,1200,cda-server-2,8276.223326206207,f93d3d6710754a149751678a58e67540,30,1757062969,244800,-92.61758670008707,2334300,{},10.157.146.2,False,{},2025-09-05_11-02-49,40.07,244800,-65.05605303181596,0,39.778175592422485,204,"{'default': {'policy_loss': -0.14614611864089966, 'vf_explained_var': -0.35303419828414917, 'vf_loss': 1131.22607421875, 'kl': 0.01495667640119791, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 12.985526084899902, 'total_loss': 1131.1026611328125}, 'sample_time_ms': 39501.711, 'num_steps_trained': 244800, 'num_steps_sampled': 244800, 'update_time_ms': 2.69, 'grad_time_ms': 378.837, 'load_time_ms': 0.672}",204,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+8316.936507463455,5193,4.001067404241164,1200,cda-server-2,8316.936507463455,f93d3d6710754a149751678a58e67540,28,1757063010,246000,-96.067823345115,2334300,{},10.157.146.2,False,{},2025-09-05_11-03-30,40.95,246000,-66.37564291249303,0,40.713181257247925,205,"{'default': {'policy_loss': -0.15005767345428467, 'vf_explained_var': -0.3373439311981201, 'vf_loss': 1098.679443359375, 'kl': 0.014885461889207363, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.348801612854004, 'total_loss': 1098.5521240234375}, 'sample_time_ms': 39619.15, 'num_steps_trained': 246000, 'num_steps_sampled': 246000, 'update_time_ms': 2.67, 'grad_time_ms': 376.698, 'load_time_ms': 0.674}",205,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+8358.666808128357,5225,4.001067404241164,1200,cda-server-2,8358.666808128357,f93d3d6710754a149751678a58e67540,32,1757063051,247200,-96.067823345115,2334300,{},10.157.146.2,False,{},2025-09-05_11-04-11,39.84,247200,-64.59761791859097,0,41.73030066490173,206,"{'default': {'policy_loss': -0.16411937773227692, 'vf_explained_var': -0.29479020833969116, 'vf_loss': 1075.2625732421875, 'kl': 0.015185907483100891, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.24186897277832, 'total_loss': 1075.12158203125}, 'sample_time_ms': 39796.163, 'num_steps_trained': 247200, 'num_steps_sampled': 247200, 'update_time_ms': 2.646, 'grad_time_ms': 377.106, 'load_time_ms': 0.684}",206,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+8398.196811437607,5256,1.5443997790403756,1200,cda-server-2,8398.196811437607,f93d3d6710754a149751678a58e67540,31,1757063091,248400,-96.067823345115,2334300,{},10.157.146.2,False,{},2025-09-05_11-04-51,39.93,248400,-64.55709863811104,0,39.53000330924988,207,"{'default': {'policy_loss': -0.17071430385112762, 'vf_explained_var': -0.28046658635139465, 'vf_loss': 1030.57470703125, 'kl': 0.01628737337887287, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.016953468322754, 'total_loss': 1030.4287109375}, 'sample_time_ms': 39676.57, 'num_steps_trained': 248400, 'num_steps_sampled': 248400, 'update_time_ms': 2.681, 'grad_time_ms': 375.861, 'load_time_ms': 0.684}",207,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+8437.985636234283,5285,-0.9904019968979938,1200,cda-server-2,8437.985636234283,f93d3d6710754a149751678a58e67540,29,1757063131,249600,-96.067823345115,2334300,{},10.157.146.2,False,{},2025-09-05_11-05-31,39.84,249600,-65.0012792256284,0,39.788824796676636,208,"{'default': {'policy_loss': -0.16021773219108582, 'vf_explained_var': -0.3396264910697937, 'vf_loss': 985.6159057617188, 'kl': 0.016051210463047028, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.07682991027832, 'total_loss': 985.4800415039062}, 'sample_time_ms': 39686.104, 'num_steps_trained': 249600, 'num_steps_sampled': 249600, 'update_time_ms': 2.624, 'grad_time_ms': 373.406, 'load_time_ms': 0.681}",208,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+8478.784487247467,5314,4.928781773935007,1200,cda-server-2,8478.784487247467,f93d3d6710754a149751678a58e67540,29,1757063171,250800,-91.80211804006872,2334300,{},10.157.146.2,False,{},2025-09-05_11-06-11,40.89,250800,-67.17779115973885,0,40.798851013183594,209,"{'default': {'policy_loss': -0.15208488702774048, 'vf_explained_var': -0.3686583340167999, 'vf_loss': 1161.77685546875, 'kl': 0.014635481871664524, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.068450927734375, 'total_loss': 1161.64697265625}, 'sample_time_ms': 39774.052, 'num_steps_trained': 250800, 'num_steps_sampled': 250800, 'update_time_ms': 2.583, 'grad_time_ms': 373.337, 'load_time_ms': 0.693}",209,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+8518.685803890228,5344,6.000073268723339,1200,cda-server-2,8518.685803890228,f93d3d6710754a149751678a58e67540,30,1757063211,252000,-91.80211804006872,2334300,{},10.157.146.2,False,{},2025-09-05_11-06-51,41.12,252000,-67.71722268206653,0,39.90131664276123,210,"{'default': {'policy_loss': -0.1699586659669876, 'vf_explained_var': -0.3429703116416931, 'vf_loss': 1090.525146484375, 'kl': 0.017788060009479523, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.278613090515137, 'total_loss': 1090.38232421875}, 'sample_time_ms': 39796.061, 'num_steps_trained': 252000, 'num_steps_sampled': 252000, 'update_time_ms': 2.572, 'grad_time_ms': 373.359, 'load_time_ms': 0.698}",210,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+8558.82173037529,5375,6.0000829131164135,1200,cda-server-2,8558.82173037529,f93d3d6710754a149751678a58e67540,31,1757063252,253200,-91.80211804006872,2334300,{},10.157.146.2,False,{},2025-09-05_11-07-32,40.77,253200,-67.148941969132,0,40.135926485061646,211,"{'default': {'policy_loss': -0.16334539651870728, 'vf_explained_var': -0.3501596450805664, 'vf_loss': 1087.8045654296875, 'kl': 0.015667999163269997, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.41409969329834, 'total_loss': 1087.6651611328125}, 'sample_time_ms': 39825.48, 'num_steps_trained': 253200, 'num_steps_sampled': 253200, 'update_time_ms': 2.559, 'grad_time_ms': 372.271, 'load_time_ms': 0.702}",211,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+8598.854800224304,5404,6.0000829131164135,1200,cda-server-2,8598.854800224304,f93d3d6710754a149751678a58e67540,29,1757063292,254400,-93.72650077802295,2334300,{},10.157.146.2,False,{},2025-09-05_11-08-12,39.57,254400,-64.71784010554788,0,40.03306984901428,212,"{'default': {'policy_loss': -0.15626494586467743, 'vf_explained_var': -0.31428447365760803, 'vf_loss': 1067.374755859375, 'kl': 0.015441324561834335, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.050248146057129, 'total_loss': 1067.2418212890625}, 'sample_time_ms': 39830.425, 'num_steps_trained': 254400, 'num_steps_sampled': 254400, 'update_time_ms': 2.56, 'grad_time_ms': 371.129, 'load_time_ms': 0.71}",212,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+8639.84416103363,5433,6.0000829131164135,1200,cda-server-2,8639.84416103363,f93d3d6710754a149751678a58e67540,29,1757063333,255600,-93.72650077802295,2334300,{},10.157.146.2,False,{},2025-09-05_11-08-53,39.3,255600,-63.96978602769269,0,40.98936080932617,213,"{'default': {'policy_loss': -0.15772825479507446, 'vf_explained_var': -0.3130634129047394, 'vf_loss': 1166.7840576171875, 'kl': 0.016533369198441505, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.51565170288086, 'total_loss': 1166.6513671875}, 'sample_time_ms': 39961.287, 'num_steps_trained': 255600, 'num_steps_sampled': 255600, 'update_time_ms': 2.593, 'grad_time_ms': 370.728, 'load_time_ms': 0.699}",213,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+8679.872495174408,5462,1.011725610516823,1200,cda-server-2,8679.872495174408,f93d3d6710754a149751678a58e67540,29,1757063373,256800,-93.72650077802295,2334300,{},10.157.146.2,False,{},2025-09-05_11-09-33,40.93,256800,-67.16881999512655,0,40.02833414077759,214,"{'default': {'policy_loss': -0.16730043292045593, 'vf_explained_var': -0.30936262011528015, 'vf_loss': 1043.631103515625, 'kl': 0.017269406467676163, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.444417953491211, 'total_loss': 1043.489990234375}, 'sample_time_ms': 39984.807, 'num_steps_trained': 256800, 'num_steps_sampled': 256800, 'update_time_ms': 2.612, 'grad_time_ms': 372.149, 'load_time_ms': 0.703}",214,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+8719.738498449326,5490,8.000000405567913,1200,cda-server-2,8719.738498449326,f93d3d6710754a149751678a58e67540,28,1757063413,258000,-90.48366971071216,2334300,{},10.157.146.2,False,{},2025-09-05_11-10-13,41.37,258000,-67.77275647874096,0,39.8660032749176,215,"{'default': {'policy_loss': -0.15171705186367035, 'vf_explained_var': -0.3300231695175171, 'vf_loss': 1134.259765625, 'kl': 0.01571868173778057, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.648940086364746, 'total_loss': 1134.1319580078125}, 'sample_time_ms': 39897.405, 'num_steps_trained': 258000, 'num_steps_sampled': 258000, 'update_time_ms': 2.659, 'grad_time_ms': 374.744, 'load_time_ms': 0.711}",215,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+8762.164754152298,5524,8.000000405567913,1200,cda-server-2,8762.164754152298,f93d3d6710754a149751678a58e67540,34,1757063455,259200,-90.48366971071216,2334300,{},10.157.146.2,False,{},2025-09-05_11-10-55,40.07,259200,-65.26250950467825,0,42.42625570297241,216,"{'default': {'policy_loss': -0.15297681093215942, 'vf_explained_var': -0.30939996242523193, 'vf_loss': 1020.321533203125, 'kl': 0.016222938895225525, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 12.700252532958984, 'total_loss': 1020.193115234375}, 'sample_time_ms': 39967.855, 'num_steps_trained': 259200, 'num_steps_sampled': 259200, 'update_time_ms': 2.659, 'grad_time_ms': 373.88, 'load_time_ms': 0.705}",216,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+8802.005336523056,5555,8.000000405567913,1200,cda-server-2,8802.005336523056,f93d3d6710754a149751678a58e67540,31,1757063495,260400,-90.48366971071216,2334300,{},10.157.146.2,False,{},2025-09-05_11-11-35,39.44,260400,-64.03758458528553,0,39.84058237075806,217,"{'default': {'policy_loss': -0.15717382729053497, 'vf_explained_var': -0.27496951818466187, 'vf_loss': 1012.4624633789062, 'kl': 0.015133202075958252, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.583510398864746, 'total_loss': 1012.3282470703125}, 'sample_time_ms': 39998.388, 'num_steps_trained': 260400, 'num_steps_sampled': 260400, 'update_time_ms': 2.636, 'grad_time_ms': 374.455, 'load_time_ms': 0.698}",217,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+8841.880759000778,5585,8.000070839830947,1200,cda-server-2,8841.880759000778,f93d3d6710754a149751678a58e67540,30,1757063535,261600,-89.71046991014778,2334300,{},10.157.146.2,False,{},2025-09-05_11-12-15,38.19,261600,-61.06708310579214,0,39.87542247772217,218,"{'default': {'policy_loss': -0.15934793651103973, 'vf_explained_var': -0.2833198010921478, 'vf_loss': 1055.509765625, 'kl': 0.015097592957317829, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.744431495666504, 'total_loss': 1055.373291015625}, 'sample_time_ms': 40008.047, 'num_steps_trained': 261600, 'num_steps_sampled': 261600, 'update_time_ms': 2.653, 'grad_time_ms': 373.393, 'load_time_ms': 0.684}",218,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+8881.93435382843,5613,8.000070839830947,1200,cda-server-2,8881.93435382843,f93d3d6710754a149751678a58e67540,28,1757063575,262800,-92.70316418168595,2334300,{},10.157.146.2,False,{},2025-09-05_11-12-55,38.63,262800,-61.96021884166319,0,40.05359482765198,219,"{'default': {'policy_loss': -0.16383883357048035, 'vf_explained_var': -0.3058522045612335, 'vf_loss': 1022.783203125, 'kl': 0.015994058921933174, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 12.756534576416016, 'total_loss': 1022.6435546875}, 'sample_time_ms': 39933.992, 'num_steps_trained': 262800, 'num_steps_sampled': 262800, 'update_time_ms': 2.691, 'grad_time_ms': 372.899, 'load_time_ms': 0.671}",219,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+8924.58662223816,5643,8.000070839830947,1200,cda-server-2,8924.58662223816,f93d3d6710754a149751678a58e67540,30,1757063618,264000,-92.70316418168595,2334300,{},10.157.146.2,False,{},2025-09-05_11-13-38,40.34,264000,-65.0117897200704,0,42.652268409729004,220,"{'default': {'policy_loss': -0.16289815306663513, 'vf_explained_var': -0.3164491057395935, 'vf_loss': 953.900634765625, 'kl': 0.015436896122992039, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.022956848144531, 'total_loss': 953.7610473632812}, 'sample_time_ms': 40206.34, 'num_steps_trained': 264000, 'num_steps_sampled': 264000, 'update_time_ms': 2.683, 'grad_time_ms': 375.647, 'load_time_ms': 0.675}",220,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+8964.320016860962,5672,8.000000527977768,1200,cda-server-2,8964.320016860962,f93d3d6710754a149751678a58e67540,29,1757063657,265200,-92.70316418168595,2334300,{},10.157.146.2,False,{},2025-09-05_11-14-17,41.86,265200,-68.33446746179489,0,39.733394622802734,221,"{'default': {'policy_loss': -0.15638935565948486, 'vf_explained_var': -0.32534754276275635, 'vf_loss': 1096.478271484375, 'kl': 0.015397797338664532, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.235451698303223, 'total_loss': 1096.34521484375}, 'sample_time_ms': 40164.611, 'num_steps_trained': 265200, 'num_steps_sampled': 265200, 'update_time_ms': 2.736, 'grad_time_ms': 377.043, 'load_time_ms': 0.666}",221,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+9004.112464666367,5703,8.000000527977768,1200,cda-server-2,9004.112464666367,f93d3d6710754a149751678a58e67540,31,1757063697,266400,-90.62550223859797,2334300,{},10.157.146.2,False,{},2025-09-05_11-14-57,39.92,266400,-64.62204817295145,0,39.79244780540466,222,"{'default': {'policy_loss': -0.15471717715263367, 'vf_explained_var': -0.3019946813583374, 'vf_loss': 1005.5072631835938, 'kl': 0.015406976453959942, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.112126350402832, 'total_loss': 1005.3760986328125}, 'sample_time_ms': 40142.816, 'num_steps_trained': 266400, 'num_steps_sampled': 266400, 'update_time_ms': 2.776, 'grad_time_ms': 374.795, 'load_time_ms': 0.65}",222,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+9044.030234336853,5731,-0.9633978202434488,1200,cda-server-2,9044.030234336853,f93d3d6710754a149751678a58e67540,28,1757063737,267600,-90.62550223859797,2334300,{},10.157.146.2,False,{},2025-09-05_11-15-37,41.07,267600,-66.6899554830233,0,39.91776967048645,223,"{'default': {'policy_loss': -0.16003577411174774, 'vf_explained_var': -0.3405795097351074, 'vf_loss': 977.480224609375, 'kl': 0.01877163164317608, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.001789093017578, 'total_loss': 977.3487548828125}, 'sample_time_ms': 40036.323, 'num_steps_trained': 267600, 'num_steps_sampled': 267600, 'update_time_ms': 2.741, 'grad_time_ms': 374.131, 'load_time_ms': 0.653}",223,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+9084.119462013245,5761,-1.9998013685221512,1200,cda-server-2,9084.119462013245,f93d3d6710754a149751678a58e67540,30,1757063777,268800,-90.62550223859797,2334300,{},10.157.146.2,False,{},2025-09-05_11-16-17,41.15,268800,-66.76976975205686,0,40.0892276763916,224,"{'default': {'policy_loss': -0.15750139951705933, 'vf_explained_var': -0.27438732981681824, 'vf_loss': 1081.98486328125, 'kl': 0.015098820440471172, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.700387001037598, 'total_loss': 1081.8502197265625}, 'sample_time_ms': 40043.374, 'num_steps_trained': 268800, 'num_steps_sampled': 268800, 'update_time_ms': 2.731, 'grad_time_ms': 373.231, 'load_time_ms': 0.659}",224,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+9123.80794930458,5790,-1.3251957974313378,1200,cda-server-2,9123.80794930458,f93d3d6710754a149751678a58e67540,29,1757063817,270000,-89.45303178614655,2334300,{},10.157.146.2,False,{},2025-09-05_11-16-57,40.05,270000,-64.59658869044593,0,39.68848729133606,225,"{'default': {'policy_loss': -0.15752027928829193, 'vf_explained_var': -0.30403026938438416, 'vf_loss': 1103.6446533203125, 'kl': 0.015299060381948948, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.401510238647461, 'total_loss': 1103.5103759765625}, 'sample_time_ms': 40027.965, 'num_steps_trained': 270000, 'num_steps_sampled': 270000, 'update_time_ms': 2.664, 'grad_time_ms': 370.973, 'load_time_ms': 0.642}",225,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+9164.474817991257,5820,-1.3251957974313378,1200,cda-server-2,9164.474817991257,f93d3d6710754a149751678a58e67540,30,1757063858,271200,-93.69323091500199,2334300,{},10.157.146.2,False,{},2025-09-05_11-17-38,40.53,271200,-65.72393337519841,0,40.666868686676025,226,"{'default': {'policy_loss': -0.16036508977413177, 'vf_explained_var': -0.2762628197669983, 'vf_loss': 982.5792236328125, 'kl': 0.01710665225982666, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 12.788013458251953, 'total_loss': 982.4446411132812}, 'sample_time_ms': 39853.779, 'num_steps_trained': 271200, 'num_steps_sampled': 271200, 'update_time_ms': 2.686, 'grad_time_ms': 369.22, 'load_time_ms': 0.642}",226,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+9204.466871976852,5846,-1.3251957974313378,1200,cda-server-2,9204.466871976852,f93d3d6710754a149751678a58e67540,26,1757063898,272400,-93.69323091500199,2334300,{},10.157.146.2,False,{},2025-09-05_11-18-18,40.88,272400,-66.65288610600265,0,39.9920539855957,227,"{'default': {'policy_loss': -0.15836866199970245, 'vf_explained_var': -0.3027469515800476, 'vf_loss': 1007.7203979492188, 'kl': 0.015621514990925789, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 12.45046615600586, 'total_loss': 1007.5858154296875}, 'sample_time_ms': 39868.021, 'num_steps_trained': 272400, 'num_steps_sampled': 272400, 'update_time_ms': 2.671, 'grad_time_ms': 370.119, 'load_time_ms': 0.658}",227,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+9244.257379055023,5874,-1.3251957974313378,1200,cda-server-2,9244.257379055023,f93d3d6710754a149751678a58e67540,28,1757063937,273600,-93.69323091500199,2334300,{},10.157.146.2,False,{},2025-09-05_11-18-57,42.38,273600,-69.328304341097,0,39.790507078170776,228,"{'default': {'policy_loss': -0.15211647748947144, 'vf_explained_var': -0.3236777186393738, 'vf_loss': 1080.2008056640625, 'kl': 0.01578701101243496, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.537626266479492, 'total_loss': 1080.0726318359375}, 'sample_time_ms': 39860.001, 'num_steps_trained': 273600, 'num_steps_sampled': 273600, 'update_time_ms': 2.662, 'grad_time_ms': 369.704, 'load_time_ms': 0.66}",228,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+9284.184660673141,5904,6.000117873365724,1200,cda-server-2,9284.184660673141,f93d3d6710754a149751678a58e67540,30,1757063977,274800,-90.74345310061125,2334300,{},10.157.146.2,False,{},2025-09-05_11-19-37,42.59,274800,-69.51755415004526,0,39.927281618118286,229,"{'default': {'policy_loss': -0.164872944355011, 'vf_explained_var': -0.2986079752445221, 'vf_loss': 1054.0855712890625, 'kl': 0.01581508107483387, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 12.982776641845703, 'total_loss': 1053.94482421875}, 'sample_time_ms': 39848.625, 'num_steps_trained': 274800, 'num_steps_sampled': 274800, 'update_time_ms': 2.632, 'grad_time_ms': 368.535, 'load_time_ms': 0.673}",229,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+9324.209452152252,5935,6.000117873365724,1200,cda-server-2,9324.209452152252,f93d3d6710754a149751678a58e67540,31,1757064017,276000,-90.51203535173963,2334300,{},10.157.146.2,False,{},2025-09-05_11-20-17,41.52,276000,-67.09041065716296,0,40.02479147911072,230,"{'default': {'policy_loss': -0.1691437065601349, 'vf_explained_var': -0.2907818555831909, 'vf_loss': 994.9599609375, 'kl': 0.016384674236178398, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 12.749164581298828, 'total_loss': 994.815673828125}, 'sample_time_ms': 39585.908, 'num_steps_trained': 276000, 'num_steps_sampled': 276000, 'update_time_ms': 2.629, 'grad_time_ms': 368.463, 'load_time_ms': 0.676}",230,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+9363.838419437408,5963,6.000117873365724,1200,cda-server-2,9363.838419437408,f93d3d6710754a149751678a58e67540,28,1757064057,277200,-90.25076605989368,2334300,{},10.157.146.2,False,{},2025-09-05_11-20-57,41.17,277200,-66.75108098709251,0,39.62896728515625,231,"{'default': {'policy_loss': -0.1470331847667694, 'vf_explained_var': -0.3362228274345398, 'vf_loss': 1104.985107421875, 'kl': 0.018291175365447998, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 12.976324081420898, 'total_loss': 1104.8658447265625}, 'sample_time_ms': 39574.666, 'num_steps_trained': 277200, 'num_steps_sampled': 277200, 'update_time_ms': 2.543, 'grad_time_ms': 369.345, 'load_time_ms': 0.691}",231,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+9403.768480539322,5992,4.000776165976943,1200,cda-server-2,9403.768480539322,f93d3d6710754a149751678a58e67540,29,1757064097,278400,-90.25076605989368,2334300,{},10.157.146.2,False,{},2025-09-05_11-21-37,40.68,278400,-65.73902611795752,0,39.93006110191345,232,"{'default': {'policy_loss': -0.15554030239582062, 'vf_explained_var': -0.29723942279815674, 'vf_loss': 1141.6754150390625, 'kl': 0.013341255486011505, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.069669723510742, 'total_loss': 1141.5404052734375}, 'sample_time_ms': 39585.887, 'num_steps_trained': 278400, 'num_steps_sampled': 278400, 'update_time_ms': 2.556, 'grad_time_ms': 371.918, 'load_time_ms': 0.689}",232,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+9444.614391088486,6022,4.000776165976943,1200,cda-server-2,9444.614391088486,f93d3d6710754a149751678a58e67540,30,1757064138,279600,-89.57322765901453,2334300,{},10.157.146.2,False,{},2025-09-05_11-22-18,40.96,279600,-66.54201413849523,0,40.84591054916382,233,"{'default': {'policy_loss': -0.15158255398273468, 'vf_explained_var': -0.29437100887298584, 'vf_loss': 1002.2943725585938, 'kl': 0.017893055453896523, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.101436614990234, 'total_loss': 1002.169921875}, 'sample_time_ms': 39679.801, 'num_steps_trained': 279600, 'num_steps_sampled': 279600, 'update_time_ms': 2.573, 'grad_time_ms': 370.84, 'load_time_ms': 0.695}",233,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+9484.989345312119,6053,6.000000800413123,1200,cda-server-2,9484.989345312119,f93d3d6710754a149751678a58e67540,31,1757064179,280800,-88.99180486567073,2334300,{},10.157.146.2,False,{},2025-09-05_11-22-59,39.67,280800,-63.707493219641634,0,40.37495422363281,234,"{'default': {'policy_loss': -0.14343668520450592, 'vf_explained_var': -0.31423261761665344, 'vf_loss': 930.550537109375, 'kl': 0.01762600988149643, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.212556838989258, 'total_loss': 930.433837890625}, 'sample_time_ms': 39707.27, 'num_steps_trained': 280800, 'num_steps_sampled': 280800, 'update_time_ms': 2.552, 'grad_time_ms': 371.941, 'load_time_ms': 0.689}",234,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+9525.49176645279,6082,6.000040256155188,1200,cda-server-2,9525.49176645279,f93d3d6710754a149751678a58e67540,29,1757064219,282000,-88.99180486567073,2334300,{},10.157.146.2,False,{},2025-09-05_11-23-39,39.54,282000,-63.374264864817235,0,40.502421140670776,235,"{'default': {'policy_loss': -0.15609373152256012, 'vf_explained_var': -0.2817671000957489, 'vf_loss': 1050.1866455078125, 'kl': 0.015294515527784824, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 13.412919998168945, 'total_loss': 1050.0538330078125}, 'sample_time_ms': 39786.859, 'num_steps_trained': 282000, 'num_steps_sampled': 282000, 'update_time_ms': 2.587, 'grad_time_ms': 373.692, 'load_time_ms': 0.695}",235,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+9566.122301340103,6112,6.000040256155188,1200,cda-server-2,9566.122301340103,f93d3d6710754a149751678a58e67540,30,1757064260,283200,-89.90083040036947,2334300,{},10.157.146.2,False,{},2025-09-05_11-24-20,40.86,283200,-66.05355072877464,0,40.63053488731384,236,"{'default': {'policy_loss': -0.14495274424552917, 'vf_explained_var': -0.2853067219257355, 'vf_loss': 1041.5274658203125, 'kl': 0.016321195289492607, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 12.927608489990234, 'total_loss': 1041.4072265625}, 'sample_time_ms': 39780.76, 'num_steps_trained': 283200, 'num_steps_sampled': 283200, 'update_time_ms': 2.572, 'grad_time_ms': 376.153, 'load_time_ms': 0.706}",236,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+9605.825471878052,6143,8.00000545573834,1200,cda-server-2,9605.825471878052,f93d3d6710754a149751678a58e67540,31,1757064299,284400,-90.26658361449236,2334300,{},10.157.146.2,False,{},2025-09-05_11-24-59,39.0,284400,-62.144211244210766,0,39.70317053794861,237,"{'default': {'policy_loss': -0.1597108244895935, 'vf_explained_var': -0.27282822132110596, 'vf_loss': 922.2081298828125, 'kl': 0.016343913972377777, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 12.883086204528809, 'total_loss': 922.0731201171875}, 'sample_time_ms': 39753.705, 'num_steps_trained': 284400, 'num_steps_sampled': 284400, 'update_time_ms': 2.595, 'grad_time_ms': 374.261, 'load_time_ms': 0.698}",237,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+9645.38778924942,6174,8.00000545573834,1200,cda-server-2,9645.38778924942,f93d3d6710754a149751678a58e67540,31,1757064339,285600,-91.65305741114481,2334300,{},10.157.146.2,False,{},2025-09-05_11-25-39,38.82,285600,-62.18095806610904,0,39.56231737136841,238,"{'default': {'policy_loss': -0.14086788892745972, 'vf_explained_var': -0.25600114464759827, 'vf_loss': 987.5619506835938, 'kl': 0.020219407975673676, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5187499523162842, 'entropy': 12.836071968078613, 'total_loss': 987.4517211914062}, 'sample_time_ms': 39728.874, 'num_steps_trained': 285600, 'num_steps_sampled': 285600, 'update_time_ms': 2.649, 'grad_time_ms': 376.129, 'load_time_ms': 0.709}",238,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+9685.57236790657,6208,8.00000545573834,1200,cda-server-2,9685.57236790657,f93d3d6710754a149751678a58e67540,34,1757064379,286800,-91.65305741114481,2334300,{},10.157.146.2,False,{},2025-09-05_11-26-19,37.79,286800,-60.064663122248355,0,40.18457865715027,239,"{'default': {'policy_loss': -0.15286481380462646, 'vf_explained_var': -0.2660362422466278, 'vf_loss': 967.4266357421875, 'kl': 0.012715176679193974, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.278125047683716, 'entropy': 13.237992286682129, 'total_loss': 967.3028564453125}, 'sample_time_ms': 39755.307, 'num_steps_trained': 286800, 'num_steps_sampled': 286800, 'update_time_ms': 2.674, 'grad_time_ms': 375.425, 'load_time_ms': 0.694}",239,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+9725.198402404785,6235,6.000465531187261,1200,cda-server-2,9725.198402404785,f93d3d6710754a149751678a58e67540,27,1757064419,288000,-91.65305741114481,2334300,{},10.157.146.2,False,{},2025-09-05_11-26-59,39.54,288000,-63.43731133573806,0,39.62603449821472,240,"{'default': {'policy_loss': -0.14320990443229675, 'vf_explained_var': -0.25657427310943604, 'vf_loss': 1047.77099609375, 'kl': 0.011954888701438904, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.278125047683716, 'entropy': 13.451057434082031, 'total_loss': 1047.6549072265625}, 'sample_time_ms': 39718.125, 'num_steps_trained': 288000, 'num_steps_sampled': 288000, 'update_time_ms': 2.666, 'grad_time_ms': 372.801, 'load_time_ms': 0.695}",240,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+9764.662470340729,6264,6.000001255228989,1200,cda-server-2,9764.662470340729,f93d3d6710754a149751678a58e67540,29,1757064458,289200,-91.3622814393077,2334300,{},10.157.146.2,False,{},2025-09-05_11-27-38,40.19,289200,-64.46964740405154,0,39.4640679359436,241,"{'default': {'policy_loss': -0.15270613133907318, 'vf_explained_var': -0.30416232347488403, 'vf_loss': 1056.7235107421875, 'kl': 0.012456096708774567, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.278125047683716, 'entropy': 13.256470680236816, 'total_loss': 1056.59912109375}, 'sample_time_ms': 39704.262, 'num_steps_trained': 289200, 'num_steps_sampled': 289200, 'update_time_ms': 2.651, 'grad_time_ms': 370.235, 'load_time_ms': 0.692}",241,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+9805.560595989227,6294,6.00000080187926,1200,cda-server-2,9805.560595989227,f93d3d6710754a149751678a58e67540,30,1757064499,290400,-89.54624892958675,2334300,{},10.157.146.2,False,{},2025-09-05_11-28-19,40.69,290400,-65.60406613800474,0,40.898125648498535,242,"{'default': {'policy_loss': -0.1352100372314453, 'vf_explained_var': -0.3046340048313141, 'vf_loss': 1081.2117919921875, 'kl': 0.012618829496204853, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.278125047683716, 'entropy': 12.896646499633789, 'total_loss': 1081.105224609375}, 'sample_time_ms': 39801.572, 'num_steps_trained': 290400, 'num_steps_sampled': 290400, 'update_time_ms': 2.583, 'grad_time_ms': 369.742, 'load_time_ms': 0.696}",242,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+9845.676735162735,6328,5.006727285114643,1200,cda-server-2,9845.676735162735,f93d3d6710754a149751678a58e67540,34,1757064539,291600,-89.54624892958675,2334300,{},10.157.146.2,False,{},2025-09-05_11-28-59,38.63,291600,-61.59544818390693,0,40.11613917350769,243,"{'default': {'policy_loss': -0.14947693049907684, 'vf_explained_var': -0.28864744305610657, 'vf_loss': 984.384521484375, 'kl': 0.013015996664762497, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.278125047683716, 'entropy': 12.691071510314941, 'total_loss': 984.2646484375}, 'sample_time_ms': 39726.419, 'num_steps_trained': 291600, 'num_steps_sampled': 291600, 'update_time_ms': 2.61, 'grad_time_ms': 371.859, 'load_time_ms': 0.687}",243,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+9885.561044216156,6361,5.006727285114643,1200,cda-server-2,9885.561044216156,f93d3d6710754a149751678a58e67540,33,1757064579,292800,-90.3588979702946,2334300,{},10.157.146.2,False,{},2025-09-05_11-29-39,37.93,292800,-60.12715601124517,0,39.88430905342102,244,"{'default': {'policy_loss': -0.15777868032455444, 'vf_explained_var': -0.25918492674827576, 'vf_loss': 979.0658569335938, 'kl': 0.01294470764696598, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.278125047683716, 'entropy': 12.95770263671875, 'total_loss': 978.937744140625}, 'sample_time_ms': 39677.374, 'num_steps_trained': 292800, 'num_steps_sampled': 292800, 'update_time_ms': 2.621, 'grad_time_ms': 371.779, 'load_time_ms': 0.692}",244,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+9925.485277891159,6394,4.000001201733137,1200,cda-server-2,9925.485277891159,f93d3d6710754a149751678a58e67540,33,1757064619,294000,-90.3588979702946,2334300,{},10.157.146.2,False,{},2025-09-05_11-30-19,36.29,294000,-56.747290317104564,0,39.92423367500305,245,"{'default': {'policy_loss': -0.14636388421058655, 'vf_explained_var': -0.27531754970550537, 'vf_loss': 942.704345703125, 'kl': 0.01248849555850029, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.278125047683716, 'entropy': 12.9465913772583, 'total_loss': 942.5863647460938}, 'sample_time_ms': 39620.112, 'num_steps_trained': 294000, 'num_steps_sampled': 294000, 'update_time_ms': 2.635, 'grad_time_ms': 371.232, 'load_time_ms': 0.697}",245,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+9966.576407909393,6430,6.000003809275823,1200,cda-server-2,9966.576407909393,f93d3d6710754a149751678a58e67540,36,1757064660,295200,-90.3588979702946,2334300,{},10.157.146.2,False,{},2025-09-05_11-31-00,36.06,295200,-56.53048830760591,0,41.09113001823425,246,"{'default': {'policy_loss': -0.13260824978351593, 'vf_explained_var': -0.24438327550888062, 'vf_loss': 1005.1487426757812, 'kl': 0.01206839270889759, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.278125047683716, 'entropy': 12.919758796691895, 'total_loss': 1005.0436401367188}, 'sample_time_ms': 39666.902, 'num_steps_trained': 295200, 'num_steps_sampled': 295200, 'update_time_ms': 2.617, 'grad_time_ms': 370.527, 'load_time_ms': 0.686}",246,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+10006.465139627457,6459,6.000003809275823,1200,cda-server-2,10006.465139627457,f93d3d6710754a149751678a58e67540,29,1757064700,296400,-89.96435884567087,2334300,{},10.157.146.2,False,{},2025-09-05_11-31-40,36.44,296400,-57.30805481079529,0,39.888731718063354,247,"{'default': {'policy_loss': -0.14850765466690063, 'vf_explained_var': -0.2592252194881439, 'vf_loss': 997.223388671875, 'kl': 0.0128452368080616, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.278125047683716, 'entropy': 12.636247634887695, 'total_loss': 997.104248046875}, 'sample_time_ms': 39685.985, 'num_steps_trained': 296400, 'num_steps_sampled': 296400, 'update_time_ms': 2.641, 'grad_time_ms': 370.019, 'load_time_ms': 0.685}",247,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+10047.346573591232,6487,6.000003809275823,1200,cda-server-2,10047.346573591232,f93d3d6710754a149751678a58e67540,28,1757064741,297600,-89.96435884567087,2334300,{},10.157.146.2,False,{},2025-09-05_11-32-21,39.26,297600,-62.85700075821903,0,40.881433963775635,248,"{'default': {'policy_loss': -0.1517505943775177, 'vf_explained_var': -0.29261890053749084, 'vf_loss': 1071.43505859375, 'kl': 0.012576376087963581, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.278125047683716, 'entropy': 12.75015640258789, 'total_loss': 1071.31201171875}, 'sample_time_ms': 39818.242, 'num_steps_trained': 297600, 'num_steps_sampled': 297600, 'update_time_ms': 2.605, 'grad_time_ms': 369.752, 'load_time_ms': 0.672}",248,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+10087.763265132904,6518,6.000003809275823,1200,cda-server-2,10087.763265132904,f93d3d6710754a149751678a58e67540,31,1757064782,298800,-90.44700343448407,2334300,{},10.157.146.2,False,{},2025-09-05_11-33-02,39.11,298800,-62.34495996539144,0,40.41669154167175,249,"{'default': {'policy_loss': -0.14761188626289368, 'vf_explained_var': -0.2713385224342346, 'vf_loss': 1036.578125, 'kl': 0.013500198721885681, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.278125047683716, 'entropy': 12.818290710449219, 'total_loss': 1036.46142578125}, 'sample_time_ms': 39839.266, 'num_steps_trained': 298800, 'num_steps_sampled': 298800, 'update_time_ms': 2.599, 'grad_time_ms': 371.902, 'load_time_ms': 0.681}",249,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+10127.533018350601,6549,6.000000996285608,1200,cda-server-2,10127.533018350601,f93d3d6710754a149751678a58e67540,31,1757064821,300000,-90.44700343448407,2334300,{},10.157.146.2,False,{},2025-09-05_11-33-41,39.45,300000,-63.33353470019897,0,39.769753217697144,250,"{'default': {'policy_loss': -0.14262649416923523, 'vf_explained_var': -0.28955745697021484, 'vf_loss': 1046.5789794921875, 'kl': 0.012495553120970726, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.278125047683716, 'entropy': 12.69051742553711, 'total_loss': 1046.46484375}, 'sample_time_ms': 39851.744, 'num_steps_trained': 300000, 'num_steps_sampled': 300000, 'update_time_ms': 2.605, 'grad_time_ms': 373.749, 'load_time_ms': 0.683}",250,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+10167.528487682343,6579,6.000000996285608,1200,cda-server-2,10167.528487682343,f93d3d6710754a149751678a58e67540,30,1757064861,301200,-90.44700343448407,2334300,{},10.157.146.2,False,{},2025-09-05_11-34-21,39.12,301200,-62.319423869951095,0,39.99546933174133,251,"{'default': {'policy_loss': -0.15870340168476105, 'vf_explained_var': -0.2716209590435028, 'vf_loss': 1028.191650390625, 'kl': 0.013292250223457813, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.278125047683716, 'entropy': 12.94511890411377, 'total_loss': 1028.063232421875}, 'sample_time_ms': 39902.299, 'num_steps_trained': 301200, 'num_steps_sampled': 301200, 'update_time_ms': 2.611, 'grad_time_ms': 376.329, 'load_time_ms': 0.674}",251,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+10207.324111938477,6606,6.000000996285608,1200,cda-server-2,10207.324111938477,f93d3d6710754a149751678a58e67540,27,1757064901,302400,-89.75127513747199,2334300,{},10.157.146.2,False,{},2025-09-05_11-35-01,41.11,302400,-65.92847420480686,0,39.79562425613403,252,"{'default': {'policy_loss': -0.1494932621717453, 'vf_explained_var': -0.28222376108169556, 'vf_loss': 1018.4591064453125, 'kl': 0.011401093564927578, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.278125047683716, 'entropy': 13.253334045410156, 'total_loss': 1018.3356323242188}, 'sample_time_ms': 39792.251, 'num_steps_trained': 302400, 'num_steps_sampled': 302400, 'update_time_ms': 2.623, 'grad_time_ms': 376.133, 'load_time_ms': 0.673}",252,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+10247.550509214401,6642,8.000000400001447,1200,cda-server-2,10247.550509214401,f93d3d6710754a149751678a58e67540,36,1757064941,303600,-90.62735869150309,2334300,{},10.157.146.2,False,{},2025-09-05_11-35-41,38.36,303600,-60.42010509939297,0,40.22639727592468,253,"{'default': {'policy_loss': -0.15230292081832886, 'vf_explained_var': -0.25244128704071045, 'vf_loss': 1027.1971435546875, 'kl': 0.01335117407143116, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.278125047683716, 'entropy': 12.728971481323242, 'total_loss': 1027.0753173828125}, 'sample_time_ms': 39802.507, 'num_steps_trained': 303600, 'num_steps_sampled': 303600, 'update_time_ms': 2.575, 'grad_time_ms': 376.948, 'load_time_ms': 0.689}",253,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+10287.438793420792,6673,8.000000400001447,1200,cda-server-2,10287.438793420792,f93d3d6710754a149751678a58e67540,31,1757064981,304800,-90.62735869150309,2334300,{},10.157.146.2,False,{},2025-09-05_11-36-21,38.23,304800,-60.058950878536876,0,39.88828420639038,254,"{'default': {'policy_loss': -0.14596015214920044, 'vf_explained_var': -0.25878894329071045, 'vf_loss': 975.8355102539062, 'kl': 0.012719937600195408, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.278125047683716, 'entropy': 12.968610763549805, 'total_loss': 975.718505859375}, 'sample_time_ms': 39802.424, 'num_steps_trained': 304800, 'num_steps_sampled': 304800, 'update_time_ms': 2.568, 'grad_time_ms': 377.531, 'load_time_ms': 0.685}",254,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+10328.203395605087,6706,8.000000400001447,1200,cda-server-2,10328.203395605087,f93d3d6710754a149751678a58e67540,33,1757065022,306000,-90.62735869150309,2334300,{},10.157.146.2,False,{},2025-09-05_11-37-02,35.91,306000,-55.425110361203934,0,40.764602184295654,255,"{'default': {'policy_loss': -0.1383938491344452, 'vf_explained_var': -0.2464098185300827, 'vf_loss': 966.401611328125, 'kl': 0.013782541267573833, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.278125047683716, 'entropy': 13.140617370605469, 'total_loss': 966.2946166992188}, 'sample_time_ms': 39885.567, 'num_steps_trained': 306000, 'num_steps_sampled': 306000, 'update_time_ms': 2.55, 'grad_time_ms': 378.383, 'load_time_ms': 0.68}",255,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+10367.93236041069,6739,8.000000400001447,1200,cda-server-2,10367.93236041069,f93d3d6710754a149751678a58e67540,33,1757065062,307200,-89.63656563037563,2334300,{},10.157.146.2,False,{},2025-09-05_11-37-42,36.8,307200,-56.74059563098055,0,39.72896480560303,256,"{'default': {'policy_loss': -0.14820489287376404, 'vf_explained_var': -0.24187524616718292, 'vf_loss': 895.0201416015625, 'kl': 0.013457324355840683, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.278125047683716, 'entropy': 12.783334732055664, 'total_loss': 894.902587890625}, 'sample_time_ms': 39751.163, 'num_steps_trained': 307200, 'num_steps_sampled': 307200, 'update_time_ms': 2.557, 'grad_time_ms': 376.57, 'load_time_ms': 0.677}",256,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+10408.344902276993,6772,6.00073332262113,1200,cda-server-2,10408.344902276993,f93d3d6710754a149751678a58e67540,33,1757065102,308400,-89.63656563037563,2334300,{},10.157.146.2,False,{},2025-09-05_11-38-22,36.55,308400,-56.343983961162486,0,40.41254186630249,257,"{'default': {'policy_loss': -0.13740865886211395, 'vf_explained_var': -0.25662052631378174, 'vf_loss': 964.514892578125, 'kl': 0.013350550085306168, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.278125047683716, 'entropy': 12.823246955871582, 'total_loss': 964.4078979492188}, 'sample_time_ms': 39803.626, 'num_steps_trained': 308400, 'num_steps_sampled': 308400, 'update_time_ms': 2.519, 'grad_time_ms': 376.52, 'load_time_ms': 0.669}",257,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+10448.842173814774,6803,8.000000400183646,1200,cda-server-2,10448.842173814774,f93d3d6710754a149751678a58e67540,31,1757065143,309600,-89.63656563037563,2334300,{},10.157.146.2,False,{},2025-09-05_11-39-03,37.26,309600,-58.171522610923304,0,40.49727153778076,258,"{'default': {'policy_loss': -0.15420515835285187, 'vf_explained_var': -0.24731561541557312, 'vf_loss': 1087.7513427734375, 'kl': 0.014436044730246067, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.278125047683716, 'entropy': 13.041423797607422, 'total_loss': 1087.6300048828125}, 'sample_time_ms': 39765.746, 'num_steps_trained': 309600, 'num_steps_sampled': 309600, 'update_time_ms': 2.512, 'grad_time_ms': 376.036, 'load_time_ms': 0.669}",258,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+10488.671289682388,6835,8.000000400183646,1200,cda-server-2,10488.671289682388,f93d3d6710754a149751678a58e67540,32,1757065183,310800,-90.93508059554276,2334300,{},10.157.146.2,False,{},2025-09-05_11-39-43,36.81,310800,-57.447887740265244,0,39.829115867614746,259,"{'default': {'policy_loss': -0.15319475531578064, 'vf_explained_var': -0.2668079435825348, 'vf_loss': 1043.151611328125, 'kl': 0.011360873468220234, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.278125047683716, 'entropy': 13.281984329223633, 'total_loss': 1043.024169921875}, 'sample_time_ms': 39707.092, 'num_steps_trained': 310800, 'num_steps_sampled': 310800, 'update_time_ms': 2.502, 'grad_time_ms': 375.954, 'load_time_ms': 0.677}",259,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+10528.484966516495,6862,8.000000400183646,1200,cda-server-2,10528.484966516495,f93d3d6710754a149751678a58e67540,27,1757065223,312000,-90.93508059554276,2334300,{},10.157.146.2,False,{},2025-09-05_11-40-23,38.12,312000,-59.886255065777625,0,39.813676834106445,260,"{'default': {'policy_loss': -0.14773711562156677, 'vf_explained_var': -0.2510557770729065, 'vf_loss': 1195.844970703125, 'kl': 0.01286425068974495, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.278125047683716, 'entropy': 13.647106170654297, 'total_loss': 1195.7264404296875}, 'sample_time_ms': 39711.246, 'num_steps_trained': 312000, 'num_steps_sampled': 312000, 'update_time_ms': 2.489, 'grad_time_ms': 376.208, 'load_time_ms': 0.665}",260,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+10569.175270318985,6896,3.005940102167183,1200,cda-server-2,10569.175270318985,f93d3d6710754a149751678a58e67540,34,1757065263,313200,-90.93508059554276,2334300,{},10.157.146.2,False,{},2025-09-05_11-41-03,38.96,313200,-61.784178928160365,0,40.690303802490234,261,"{'default': {'policy_loss': -0.15080100297927856, 'vf_explained_var': -0.25356408953666687, 'vf_loss': 1028.9810791015625, 'kl': 0.01361567247658968, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.278125047683716, 'entropy': 12.476893424987793, 'total_loss': 1028.861328125}, 'sample_time_ms': 39780.516, 'num_steps_trained': 313200, 'num_steps_sampled': 313200, 'update_time_ms': 2.538, 'grad_time_ms': 376.276, 'load_time_ms': 0.681}",261,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+10609.451768875122,6927,6.001147858430279,1200,cda-server-2,10609.451768875122,f93d3d6710754a149751678a58e67540,31,1757065304,314400,-89.99630809904824,2334300,{},10.157.146.2,False,{},2025-09-05_11-41-44,39.04,314400,-62.37827789576632,0,40.276498556137085,262,"{'default': {'policy_loss': -0.15126913785934448, 'vf_explained_var': -0.24784167110919952, 'vf_loss': 976.560791015625, 'kl': 0.012713681906461716, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.278125047683716, 'entropy': 12.807903289794922, 'total_loss': 976.4384765625}, 'sample_time_ms': 39828.824, 'num_steps_trained': 314400, 'num_steps_sampled': 314400, 'update_time_ms': 2.563, 'grad_time_ms': 376.047, 'load_time_ms': 0.688}",262,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+10649.203081607819,6954,6.001147858430279,1200,cda-server-2,10649.203081607819,f93d3d6710754a149751678a58e67540,27,1757065343,315600,-89.99630809904824,2334300,{},10.157.146.2,False,{},2025-09-05_11-42-23,39.76,315600,-63.668735023068876,0,39.75131273269653,263,"{'default': {'policy_loss': -0.13824698328971863, 'vf_explained_var': -0.2916586101055145, 'vf_loss': 1105.9854736328125, 'kl': 0.014969523064792156, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.278125047683716, 'entropy': 13.727066993713379, 'total_loss': 1105.8812255859375}, 'sample_time_ms': 39782.556, 'num_steps_trained': 315600, 'num_steps_sampled': 315600, 'update_time_ms': 2.561, 'grad_time_ms': 374.845, 'load_time_ms': 0.672}",263,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+10689.266154766083,6989,6.001147858430279,1200,cda-server-2,10689.266154766083,f93d3d6710754a149751678a58e67540,35,1757065383,316800,-89.26593621095823,2334300,{},10.157.146.2,False,{},2025-09-05_11-43-03,38.89,316800,-61.967348319256054,0,40.06307315826416,264,"{'default': {'policy_loss': -0.16091112792491913, 'vf_explained_var': -0.24219830334186554, 'vf_loss': 979.1735229492188, 'kl': 0.012853077612817287, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.278125047683716, 'entropy': 12.764080047607422, 'total_loss': 979.0418701171875}, 'sample_time_ms': 39799.847, 'num_steps_trained': 316800, 'num_steps_sampled': 316800, 'update_time_ms': 2.567, 'grad_time_ms': 374.977, 'load_time_ms': 0.674}",264,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+10729.418271780014,7020,6.000000972360321,1200,cda-server-2,10729.418271780014,f93d3d6710754a149751678a58e67540,31,1757065424,318000,-90.3927170709329,2334300,{},10.157.146.2,False,{},2025-09-05_11-43-44,38.88,318000,-62.009620366176996,0,40.152117013931274,265,"{'default': {'policy_loss': -0.13896577060222626, 'vf_explained_var': -0.25457680225372314, 'vf_loss': 995.09375, 'kl': 0.012392496690154076, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.278125047683716, 'entropy': 12.90947151184082, 'total_loss': 994.9830932617188}, 'sample_time_ms': 39739.045, 'num_steps_trained': 318000, 'num_steps_sampled': 318000, 'update_time_ms': 2.634, 'grad_time_ms': 374.498, 'load_time_ms': 0.678}",265,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+10769.347385644913,7055,6.000000972360321,1200,cda-server-2,10769.347385644913,f93d3d6710754a149751678a58e67540,35,1757065464,319200,-90.3927170709329,2334300,{},10.157.146.2,False,{},2025-09-05_11-44-24,35.91,319200,-55.7965155072826,0,39.92911386489868,266,"{'default': {'policy_loss': -0.1531079262495041, 'vf_explained_var': -0.24333153665065765, 'vf_loss': 802.0049438476562, 'kl': 0.01612810231745243, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.278125047683716, 'entropy': 11.86178207397461, 'total_loss': 801.8885498046875}, 'sample_time_ms': 39759.153, 'num_steps_trained': 319200, 'num_steps_sampled': 319200, 'update_time_ms': 2.654, 'grad_time_ms': 374.391, 'load_time_ms': 0.682}",266,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+10809.273187160492,7087,6.0001166210722054,1200,cda-server-2,10809.273187160492,f93d3d6710754a149751678a58e67540,32,1757065503,320400,-90.3927170709329,2334300,{},10.157.146.2,False,{},2025-09-05_11-45-03,36.88,320400,-57.518434457107084,0,39.925801515579224,267,"{'default': {'policy_loss': -0.15598677098751068, 'vf_explained_var': -0.2415461540222168, 'vf_loss': 1074.53857421875, 'kl': 0.01217656023800373, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.278125047683716, 'entropy': 12.832146644592285, 'total_loss': 1074.4102783203125}, 'sample_time_ms': 39707.935, 'num_steps_trained': 320400, 'num_steps_sampled': 320400, 'update_time_ms': 2.646, 'grad_time_ms': 376.909, 'load_time_ms': 0.702}",267,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+10849.51955485344,7123,6.0001166210722054,1200,cda-server-2,10849.51955485344,f93d3d6710754a149751678a58e67540,36,1757065544,321600,-89.68808697150551,2334300,{},10.157.146.2,False,{},2025-09-05_11-45-44,35.21,321600,-53.962722067205775,0,40.24636769294739,268,"{'default': {'policy_loss': -0.15269605815410614, 'vf_explained_var': -0.28056690096855164, 'vf_loss': 795.634765625, 'kl': 0.013254357501864433, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.278125047683716, 'entropy': 12.702412605285645, 'total_loss': 795.5123291015625}, 'sample_time_ms': 39683.754, 'num_steps_trained': 321600, 'num_steps_sampled': 321600, 'update_time_ms': 2.689, 'grad_time_ms': 375.901, 'load_time_ms': 0.705}",268,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+10890.012792110443,7156,6.0001166210722054,1200,cda-server-2,10890.012792110443,f93d3d6710754a149751678a58e67540,33,1757065584,322800,-89.68808697150551,2334300,{},10.157.146.2,False,{},2025-09-05_11-46-24,35.6,322800,-54.54218018486315,0,40.493237257003784,269,"{'default': {'policy_loss': -0.15343333780765533, 'vf_explained_var': -0.22415931522846222, 'vf_loss': 909.1847534179688, 'kl': 0.01207807194441557, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.278125047683716, 'entropy': 12.731679916381836, 'total_loss': 909.058837890625}, 'sample_time_ms': 39751.182, 'num_steps_trained': 322800, 'num_steps_sampled': 322800, 'update_time_ms': 2.697, 'grad_time_ms': 374.918, 'load_time_ms': 0.687}",269,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+10931.435271263123,7186,6.000000806526659,1200,cda-server-2,10931.435271263123,f93d3d6710754a149751678a58e67540,30,1757065626,324000,-88.878213239729,2334300,{},10.157.146.2,False,{},2025-09-05_11-47-06,35.83,324000,-55.03554018604668,0,41.42247915267944,270,"{'default': {'policy_loss': -0.14106912910938263, 'vf_explained_var': -0.23145389556884766, 'vf_loss': 985.962890625, 'kl': 0.020570220425724983, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.278125047683716, 'entropy': 12.657537460327148, 'total_loss': 985.8687133789062}, 'sample_time_ms': 39912.559, 'num_steps_trained': 324000, 'num_steps_sampled': 324000, 'update_time_ms': 2.7, 'grad_time_ms': 374.441, 'load_time_ms': 0.693}",270,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+10971.410628318787,7221,6.000333257068888,1200,cda-server-2,10971.410628318787,f93d3d6710754a149751678a58e67540,35,1757065666,325200,-89.4006269119723,2334300,{},10.157.146.2,False,{},2025-09-05_11-47-46,36.55,325200,-56.341521493316485,0,39.97535705566406,271,"{'default': {'policy_loss': -0.15044063329696655, 'vf_explained_var': -0.2019844949245453, 'vf_loss': 887.0538940429688, 'kl': 0.009449784643948078, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.878402709960938, 'total_loss': 886.9357299804688}, 'sample_time_ms': 39842.326, 'num_steps_trained': 325200, 'num_steps_sampled': 325200, 'update_time_ms': 2.648, 'grad_time_ms': 373.322, 'load_time_ms': 0.693}",271,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+11011.443233966827,7250,6.000333257068888,1200,cda-server-2,11011.443233966827,f93d3d6710754a149751678a58e67540,29,1757065706,326400,-89.4006269119723,2334300,{},10.157.146.2,False,{},2025-09-05_11-48-26,38.43,326400,-60.53162219809438,0,40.03260564804077,272,"{'default': {'policy_loss': -0.13248580694198608, 'vf_explained_var': -0.25450196862220764, 'vf_loss': 1031.7916259765625, 'kl': 0.013286018744111061, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.530891418457031, 'total_loss': 1031.70458984375}, 'sample_time_ms': 39817.252, 'num_steps_trained': 326400, 'num_steps_sampled': 326400, 'update_time_ms': 2.637, 'grad_time_ms': 373.962, 'load_time_ms': 0.683}",272,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+11051.192428588867,7282,6.000333257068888,1200,cda-server-2,11051.192428588867,f93d3d6710754a149751678a58e67540,32,1757065746,327600,-89.40664844735979,2334300,{},10.157.146.2,False,{},2025-09-05_11-49-06,38.44,327600,-60.85226712028121,0,39.749194622039795,273,"{'default': {'policy_loss': -0.1596783846616745, 'vf_explained_var': -0.2673594057559967, 'vf_loss': 1046.4095458984375, 'kl': 0.010720459744334221, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.142034530639648, 'total_loss': 1046.286376953125}, 'sample_time_ms': 39817.589, 'num_steps_trained': 327600, 'num_steps_sampled': 327600, 'update_time_ms': 2.672, 'grad_time_ms': 373.378, 'load_time_ms': 0.694}",273,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+11090.783704042435,7310,6.000000823131145,1200,cda-server-2,11090.783704042435,f93d3d6710754a149751678a58e67540,28,1757065785,328800,-89.40664844735979,2334300,{},10.157.146.2,False,{},2025-09-05_11-49-45,39.89,328800,-63.75883820015233,0,39.591275453567505,274,"{'default': {'policy_loss': -0.14294655621051788, 'vf_explained_var': -0.26801028847694397, 'vf_loss': 994.0591430664062, 'kl': 0.011037583462893963, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.178925514221191, 'total_loss': 993.9539794921875}, 'sample_time_ms': 39773.129, 'num_steps_trained': 328800, 'num_steps_sampled': 328800, 'update_time_ms': 2.677, 'grad_time_ms': 370.702, 'load_time_ms': 0.689}",274,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+11130.916654109955,7339,6.000000823131145,1200,cda-server-2,11130.916654109955,f93d3d6710754a149751678a58e67540,29,1757065825,330000,-89.40664844735979,2334300,{},10.157.146.2,False,{},2025-09-05_11-50-25,40.45,330000,-64.83288589136355,0,40.13295006752014,275,"{'default': {'policy_loss': -0.13871556520462036, 'vf_explained_var': -0.2646142244338989, 'vf_loss': 1046.71826171875, 'kl': 0.009873783215880394, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.831324577331543, 'total_loss': 1046.61328125}, 'sample_time_ms': 39771.181, 'num_steps_trained': 330000, 'num_steps_sampled': 330000, 'update_time_ms': 2.571, 'grad_time_ms': 370.786, 'load_time_ms': 0.688}",275,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+11170.96684885025,7370,4.000196521285082,1200,cda-server-2,11170.96684885025,f93d3d6710754a149751678a58e67540,31,1757065865,331200,-88.47288227083544,2334300,{},10.157.146.2,False,{},2025-09-05_11-51-05,40.3,331200,-64.07020046484452,0,40.05019474029541,276,"{'default': {'policy_loss': -0.13284337520599365, 'vf_explained_var': -0.297391414642334, 'vf_loss': 1012.1005859375, 'kl': 0.009704035706818104, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 13.004853248596191, 'total_loss': 1012.0009765625}, 'sample_time_ms': 39783.153, 'num_steps_trained': 331200, 'num_steps_sampled': 331200, 'update_time_ms': 2.567, 'grad_time_ms': 370.902, 'load_time_ms': 0.691}",276,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+11210.63520860672,7403,4.001967607628766,1200,cda-server-2,11210.63520860672,f93d3d6710754a149751678a58e67540,33,1757065905,332400,-88.47288227083544,2334300,{},10.157.146.2,False,{},2025-09-05_11-51-45,39.92,332400,-63.54159463388592,0,39.66835975646973,277,"{'default': {'policy_loss': -0.13515673577785492, 'vf_explained_var': -0.22103820741176605, 'vf_loss': 985.2252807617188, 'kl': 0.010675419121980667, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.939961433410645, 'total_loss': 985.1265258789062}, 'sample_time_ms': 39757.645, 'num_steps_trained': 332400, 'num_steps_sampled': 332400, 'update_time_ms': 2.594, 'grad_time_ms': 370.488, 'load_time_ms': 0.682}",277,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+11250.726419448853,7434,6.000120590963505,1200,cda-server-2,11250.726419448853,f93d3d6710754a149751678a58e67540,31,1757065945,333600,-88.22478653434943,2334300,{},10.157.146.2,False,{},2025-09-05_11-52-25,37.87,333600,-59.10062658379673,0,40.09121084213257,278,"{'default': {'policy_loss': -0.1479840725660324, 'vf_explained_var': -0.21607020497322083, 'vf_loss': 1002.015869140625, 'kl': 0.009780656546354294, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.888046264648438, 'total_loss': 1001.9012451171875}, 'sample_time_ms': 39740.568, 'num_steps_trained': 333600, 'num_steps_sampled': 333600, 'update_time_ms': 2.561, 'grad_time_ms': 372.135, 'load_time_ms': 0.679}",278,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+11290.410803318024,7462,6.000120590963505,1200,cda-server-2,11290.410803318024,f93d3d6710754a149751678a58e67540,28,1757065985,334800,-89.24030848027041,2334300,{},10.157.146.2,False,{},2025-09-05_11-53-05,37.85,334800,-58.65220722725586,0,39.68438386917114,279,"{'default': {'policy_loss': -0.12946152687072754, 'vf_explained_var': -0.24823838472366333, 'vf_loss': 930.684326171875, 'kl': 0.010218787007033825, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.699371337890625, 'total_loss': 930.58984375}, 'sample_time_ms': 39658.439, 'num_steps_trained': 334800, 'num_steps_sampled': 334800, 'update_time_ms': 2.56, 'grad_time_ms': 373.346, 'load_time_ms': 0.686}",279,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+11330.291737556458,7495,6.000120590963505,1200,cda-server-2,11330.291737556458,f93d3d6710754a149751678a58e67540,33,1757066025,336000,-89.24030848027041,2334300,{},10.157.146.2,False,{},2025-09-05_11-53-45,38.56,336000,-60.26616468272141,0,39.88093423843384,280,"{'default': {'policy_loss': -0.14067727327346802, 'vf_explained_var': -0.24202574789524078, 'vf_loss': 971.61328125, 'kl': 0.011794502846896648, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.130139350891113, 'total_loss': 971.512939453125}, 'sample_time_ms': 39506.0, 'num_steps_trained': 336000, 'num_steps_sampled': 336000, 'update_time_ms': 2.584, 'grad_time_ms': 371.592, 'load_time_ms': 0.678}",280,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+11370.344008922577,7527,6.000120590963505,1200,cda-server-2,11370.344008922577,f93d3d6710754a149751678a58e67540,32,1757066065,337200,-90.80487003207868,2334300,{},10.157.146.2,False,{},2025-09-05_11-54-25,37.25,337200,-57.89694514497628,0,40.052271366119385,281,"{'default': {'policy_loss': -0.1517491340637207, 'vf_explained_var': -0.2098856121301651, 'vf_loss': 916.6866455078125, 'kl': 0.010781552642583847, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.0401611328125, 'total_loss': 916.5717163085938}, 'sample_time_ms': 39513.819, 'num_steps_trained': 337200, 'num_steps_sampled': 337200, 'update_time_ms': 2.656, 'grad_time_ms': 371.318, 'load_time_ms': 0.672}",281,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+11410.138897180557,7557,4.000399199675442,1200,cda-server-2,11410.138897180557,f93d3d6710754a149751678a58e67540,30,1757066105,338400,-90.80487003207868,2334300,{},10.157.146.2,False,{},2025-09-05_11-55-05,37.63,338400,-58.825615630859275,0,39.79488825798035,282,"{'default': {'policy_loss': -0.13119569420814514, 'vf_explained_var': -0.24981416761875153, 'vf_loss': 946.1663208007812, 'kl': 0.012359555810689926, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.275206565856934, 'total_loss': 946.077392578125}, 'sample_time_ms': 39492.306, 'num_steps_trained': 338400, 'num_steps_sampled': 338400, 'update_time_ms': 2.682, 'grad_time_ms': 369.124, 'load_time_ms': 0.669}",282,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+11450.59225821495,7590,4.000240034605861,1200,cda-server-2,11450.59225821495,f93d3d6710754a149751678a58e67540,33,1757066145,339600,-90.80487003207868,2334300,{},10.157.146.2,False,{},2025-09-05_11-55-45,38.09,339600,-59.54442549528784,0,40.45336103439331,283,"{'default': {'policy_loss': -0.13611643016338348, 'vf_explained_var': -0.24513891339302063, 'vf_loss': 956.5634765625, 'kl': 0.010416662320494652, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.923528671264648, 'total_loss': 956.4630126953125}, 'sample_time_ms': 39562.769, 'num_steps_trained': 339600, 'num_steps_sampled': 339600, 'update_time_ms': 2.638, 'grad_time_ms': 369.09, 'load_time_ms': 0.656}",283,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+11490.672585010529,7621,4.000404296041605,1200,cda-server-2,11490.672585010529,f93d3d6710754a149751678a58e67540,31,1757066185,340800,-90.80487003207868,2334300,{},10.157.146.2,False,{},2025-09-05_11-56-25,39.27,340800,-61.70791140022253,0,40.080326795578,284,"{'default': {'policy_loss': -0.12599699199199677, 'vf_explained_var': -0.22395695745944977, 'vf_loss': 948.1287841796875, 'kl': 0.013782219029963017, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.790130615234375, 'total_loss': 948.0499267578125}, 'sample_time_ms': 39610.127, 'num_steps_trained': 340800, 'num_steps_sampled': 340800, 'update_time_ms': 2.643, 'grad_time_ms': 370.627, 'load_time_ms': 0.656}",284,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+11530.800664186478,7659,6.000133858808425,1200,cda-server-2,11530.800664186478,f93d3d6710754a149751678a58e67540,38,1757066225,342000,-89.55463561808085,2334300,{},10.157.146.2,False,{},2025-09-05_11-57-05,35.11,342000,-53.39391233994266,0,40.1280791759491,285,"{'default': {'policy_loss': -0.13299641013145447, 'vf_explained_var': -0.18917344510555267, 'vf_loss': 893.406494140625, 'kl': 0.011112219654023647, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.747282981872559, 'total_loss': 893.3114013671875}, 'sample_time_ms': 39609.842, 'num_steps_trained': 342000, 'num_steps_sampled': 342000, 'update_time_ms': 2.643, 'grad_time_ms': 370.451, 'load_time_ms': 0.661}",285,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+11571.502232551575,7694,6.000490612635174,1200,cda-server-2,11571.502232551575,f93d3d6710754a149751678a58e67540,35,1757066266,343200,-89.55463561808085,2334300,{},10.157.146.2,False,{},2025-09-05_11-57-46,34.51,343200,-52.20246591576078,0,40.701568365097046,286,"{'default': {'policy_loss': -0.13551126420497894, 'vf_explained_var': -0.23161204159259796, 'vf_loss': 778.6702880859375, 'kl': 0.009313435293734074, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.330785751342773, 'total_loss': 778.566650390625}, 'sample_time_ms': 39675.386, 'num_steps_trained': 343200, 'num_steps_sampled': 343200, 'update_time_ms': 2.633, 'grad_time_ms': 370.073, 'load_time_ms': 0.658}",286,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+11611.57544875145,7730,6.000490612635174,1200,cda-server-2,11611.57544875145,f93d3d6710754a149751678a58e67540,36,1757066306,344400,-88.82023321633993,2334300,{},10.157.146.2,False,{},2025-09-05_11-58-26,33.22,344400,-50.073787999890044,0,40.07321619987488,287,"{'default': {'policy_loss': -0.1360514760017395, 'vf_explained_var': -0.2076704353094101, 'vf_loss': 997.538330078125, 'kl': 0.013042389415204525, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.247969627380371, 'total_loss': 997.4468383789062}, 'sample_time_ms': 39717.99, 'num_steps_trained': 344400, 'num_steps_sampled': 344400, 'update_time_ms': 2.604, 'grad_time_ms': 368.2, 'load_time_ms': 0.649}",287,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+11652.011390447617,7762,6.000490612635174,1200,cda-server-2,11652.011390447617,f93d3d6710754a149751678a58e67540,32,1757066347,345600,-88.82023321633993,2334300,{},10.157.146.2,False,{},2025-09-05_11-59-07,34.88,345600,-53.28069563813409,0,40.43594169616699,288,"{'default': {'policy_loss': -0.12788468599319458, 'vf_explained_var': -0.22094446420669556, 'vf_loss': 848.2514038085938, 'kl': 0.011053783819079399, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.787027359008789, 'total_loss': 848.1613159179688}, 'sample_time_ms': 39754.113, 'num_steps_trained': 345600, 'num_steps_sampled': 345600, 'update_time_ms': 2.586, 'grad_time_ms': 366.531, 'load_time_ms': 0.669}",288,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+11691.460268497467,7794,6.0002579544224215,1200,cda-server-2,11691.460268497467,f93d3d6710754a149751678a58e67540,32,1757066386,346800,-91.47632343528602,2334300,{},10.157.146.2,False,{},2025-09-05_11-59-46,36.13,346800,-56.05821359538042,0,39.448878049850464,289,"{'default': {'policy_loss': -0.13743716478347778, 'vf_explained_var': -0.21845591068267822, 'vf_loss': 958.640380859375, 'kl': 0.010688015259802341, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.890877723693848, 'total_loss': 958.5396118164062}, 'sample_time_ms': 39732.126, 'num_steps_trained': 346800, 'num_steps_sampled': 346800, 'update_time_ms': 2.565, 'grad_time_ms': 364.928, 'load_time_ms': 0.661}",289,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+11731.29916548729,7826,4.000001918763179,1200,cda-server-2,11731.29916548729,f93d3d6710754a149751678a58e67540,32,1757066426,348000,-91.47632343528602,2334300,{},10.157.146.2,False,{},2025-09-05_12-00-26,37.42,348000,-58.141763674562064,0,39.83889698982239,290,"{'default': {'policy_loss': -0.1308256834745407, 'vf_explained_var': -0.23204125463962555, 'vf_loss': 979.8325805664062, 'kl': 0.009879265911877155, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.771035194396973, 'total_loss': 979.7354736328125}, 'sample_time_ms': 39725.916, 'num_steps_trained': 348000, 'num_steps_sampled': 348000, 'update_time_ms': 2.549, 'grad_time_ms': 366.951, 'load_time_ms': 0.664}",290,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+11771.238786697388,7857,2.000994153095128,1200,cda-server-2,11771.238786697388,f93d3d6710754a149751678a58e67540,31,1757066466,349200,-91.47632343528602,2334300,{},10.157.146.2,False,{},2025-09-05_12-01-06,37.85,349200,-58.82344684976933,0,39.93962121009827,291,"{'default': {'policy_loss': -0.13988302648067474, 'vf_explained_var': -0.22075659036636353, 'vf_loss': 884.0951538085938, 'kl': 0.009530812501907349, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.672989845275879, 'total_loss': 883.98779296875}, 'sample_time_ms': 39714.497, 'num_steps_trained': 349200, 'num_steps_sampled': 349200, 'update_time_ms': 2.465, 'grad_time_ms': 367.292, 'load_time_ms': 0.661}",291,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+11810.955782651901,7887,2.000994153095128,1200,cda-server-2,11810.955782651901,f93d3d6710754a149751678a58e67540,30,1757066506,350400,-88.50058925848438,2334300,{},10.157.146.2,False,{},2025-09-05_12-01-46,38.41,350400,-59.261490221730426,0,39.71699595451355,292,"{'default': {'policy_loss': -0.14041054248809814, 'vf_explained_var': -0.22575028240680695, 'vf_loss': 930.5068359375, 'kl': 0.012579064816236496, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.120695114135742, 'total_loss': 930.409423828125}, 'sample_time_ms': 39703.675, 'num_steps_trained': 350400, 'num_steps_sampled': 350400, 'update_time_ms': 2.413, 'grad_time_ms': 370.329, 'load_time_ms': 0.686}",292,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+11850.484943628311,7918,2.000994153095128,1200,cda-server-2,11850.484943628311,f93d3d6710754a149751678a58e67540,31,1757066545,351600,-88.50058925848438,2334300,{},10.157.146.2,False,{},2025-09-05_12-02-25,38.98,351600,-60.57583542160046,0,39.52916097640991,293,"{'default': {'policy_loss': -0.1390148401260376, 'vf_explained_var': -0.21901114284992218, 'vf_loss': 892.5567626953125, 'kl': 0.011077051050961018, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.19982624053955, 'total_loss': 892.4556274414062}, 'sample_time_ms': 39610.953, 'num_steps_trained': 351600, 'num_steps_sampled': 351600, 'update_time_ms': 2.428, 'grad_time_ms': 370.636, 'load_time_ms': 0.703}",293,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+11892.544472932816,7950,2.0000016757625705,1200,cda-server-2,11892.544472932816,f93d3d6710754a149751678a58e67540,32,1757066587,352800,-88.67226786242155,2334300,{},10.157.146.2,False,{},2025-09-05_12-03-07,39.18,352800,-61.03679084461334,0,42.059529304504395,294,"{'default': {'policy_loss': -0.1354283094406128, 'vf_explained_var': -0.21010856330394745, 'vf_loss': 842.1294555664062, 'kl': 0.009763207286596298, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.351997375488281, 'total_loss': 842.02734375}, 'sample_time_ms': 39808.527, 'num_steps_trained': 352800, 'num_steps_sampled': 352800, 'update_time_ms': 2.419, 'grad_time_ms': 370.921, 'load_time_ms': 0.703}",294,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+11933.239114046097,7982,8.000000399999921,1200,cda-server-2,11933.239114046097,f93d3d6710754a149751678a58e67540,32,1757066628,354000,-88.67226786242155,2334300,{},10.157.146.2,False,{},2025-09-05_12-03-48,37.96,354000,-58.637983661180314,0,40.69464111328125,295,"{'default': {'policy_loss': -0.15009309351444244, 'vf_explained_var': -0.20960521697998047, 'vf_loss': 855.9378051757812, 'kl': 0.01070837490260601, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.275362968444824, 'total_loss': 855.8243408203125}, 'sample_time_ms': 39865.44, 'num_steps_trained': 354000, 'num_steps_sampled': 354000, 'update_time_ms': 2.434, 'grad_time_ms': 370.699, 'load_time_ms': 0.696}",295,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+11973.187326669693,8020,8.000000399999921,1200,cda-server-2,11973.187326669693,f93d3d6710754a149751678a58e67540,38,1757066668,355200,-88.67226786242155,2334300,{},10.157.146.2,False,{},2025-09-05_12-04-28,35.35,355200,-53.55153255585043,0,39.94821262359619,296,"{'default': {'policy_loss': -0.13102635741233826, 'vf_explained_var': -0.2180919349193573, 'vf_loss': 916.258544921875, 'kl': 0.009386160410940647, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.698756217956543, 'total_loss': 916.1596069335938}, 'sample_time_ms': 39788.902, 'num_steps_trained': 355200, 'num_steps_sampled': 355200, 'update_time_ms': 2.419, 'grad_time_ms': 371.88, 'load_time_ms': 0.696}",296,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+12013.892707109451,8054,8.000000399999921,1200,cda-server-2,12013.892707109451,f93d3d6710754a149751678a58e67540,34,1757066709,356400,-88.14231744795639,2334300,{},10.157.146.2,False,{},2025-09-05_12-05-09,34.77,356400,-52.39313203981006,0,40.7053804397583,297,"{'default': {'policy_loss': -0.1366155743598938, 'vf_explained_var': -0.24810844659805298, 'vf_loss': 800.2286376953125, 'kl': 0.01060021948069334, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.282489776611328, 'total_loss': 800.128173828125}, 'sample_time_ms': 39849.607, 'num_steps_trained': 356400, 'num_steps_sampled': 356400, 'update_time_ms': 2.446, 'grad_time_ms': 374.26, 'load_time_ms': 0.718}",297,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+12053.826399087906,8090,6.000965507644936,1200,cda-server-2,12053.826399087906,f93d3d6710754a149751678a58e67540,36,1757066749,357600,-88.14231744795639,2334300,{},10.157.146.2,False,{},2025-09-05_12-05-49,34.21,357600,-51.26208424466704,0,39.93369197845459,298,"{'default': {'policy_loss': -0.13882631063461304, 'vf_explained_var': -0.07287098467350006, 'vf_loss': 599.7831420898438, 'kl': 0.011106519028544426, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.592928886413574, 'total_loss': 599.6822509765625}, 'sample_time_ms': 39800.144, 'num_steps_trained': 357600, 'num_steps_sampled': 357600, 'update_time_ms': 2.461, 'grad_time_ms': 373.523, 'load_time_ms': 0.7}",298,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+12093.464874505997,8120,6.000283510854153,1200,cda-server-2,12093.464874505997,f93d3d6710754a149751678a58e67540,30,1757066788,358800,-88.8190724889974,2334300,{},10.157.146.2,False,{},2025-09-05_12-06-28,35.71,358800,-54.28072537564187,0,39.63847541809082,299,"{'default': {'policy_loss': -0.13952971994876862, 'vf_explained_var': -0.005913734436035156, 'vf_loss': 533.1395874023438, 'kl': 0.012344961985945702, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.147632598876953, 'total_loss': 533.042236328125}, 'sample_time_ms': 39818.484, 'num_steps_trained': 358800, 'num_steps_sampled': 358800, 'update_time_ms': 2.459, 'grad_time_ms': 374.171, 'load_time_ms': 0.704}",299,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+12137.903536558151,8153,6.000283510854153,1200,cda-server-2,12137.903536558151,f93d3d6710754a149751678a58e67540,33,1757066833,360000,-88.82137169635443,2334300,{},10.157.146.2,False,{},2025-09-05_12-07-13,36.28,360000,-55.52632494759513,0,44.43866205215454,300,"{'default': {'policy_loss': -0.13858260214328766, 'vf_explained_var': 0.008163247257471085, 'vf_loss': 461.12933349609375, 'kl': 0.011316301301121712, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.223671913146973, 'total_loss': 461.0294494628906}, 'sample_time_ms': 40280.77, 'num_steps_trained': 360000, 'num_steps_sampled': 360000, 'update_time_ms': 2.462, 'grad_time_ms': 371.875, 'load_time_ms': 0.7}",300,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+12178.068732976913,8192,6.000000800729568,1200,cda-server-2,12178.068732976913,f93d3d6710754a149751678a58e67540,39,1757066873,361200,-88.82645619125758,2334300,{},10.157.146.2,False,{},2025-09-05_12-07-53,35.17,361200,-53.698550196928444,0,40.16519641876221,301,"{'default': {'policy_loss': -0.1569109708070755, 'vf_explained_var': 0.0010202857665717602, 'vf_loss': 437.5871887207031, 'kl': 0.010927296243607998, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.003398895263672, 'total_loss': 437.4676208496094}, 'sample_time_ms': 40303.949, 'num_steps_trained': 361200, 'num_steps_sampled': 361200, 'update_time_ms': 2.53, 'grad_time_ms': 371.163, 'load_time_ms': 0.698}",301,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+12218.899338245392,8229,6.000000800729568,1200,cda-server-2,12218.899338245392,f93d3d6710754a149751678a58e67540,37,1757066914,362400,-88.82645619125758,2334300,{},10.157.146.2,False,{},2025-09-05_12-08-34,33.68,362400,-50.361264171063425,0,40.830605268478394,302,"{'default': {'policy_loss': -0.1440664678812027, 'vf_explained_var': 0.00047596957301720977, 'vf_loss': 425.0187683105469, 'kl': 0.010849776677787304, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.429523468017578, 'total_loss': 424.9117736816406}, 'sample_time_ms': 40416.509, 'num_steps_trained': 362400, 'num_steps_sampled': 362400, 'update_time_ms': 2.518, 'grad_time_ms': 369.996, 'load_time_ms': 0.675}",302,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+12259.180498361588,8263,6.000167767531812,1200,cda-server-2,12259.180498361588,f93d3d6710754a149751678a58e67540,34,1757066954,363600,-88.13279937153594,2334300,{},10.157.146.2,False,{},2025-09-05_12-09-14,32.67,363600,-48.03894341115788,0,40.28116011619568,303,"{'default': {'policy_loss': -0.14418929815292358, 'vf_explained_var': 0.0002864201960619539, 'vf_loss': 452.5855407714844, 'kl': 0.011613503098487854, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.789764404296875, 'total_loss': 452.48101806640625}, 'sample_time_ms': 40490.247, 'num_steps_trained': 363600, 'num_steps_sampled': 363600, 'update_time_ms': 2.519, 'grad_time_ms': 371.414, 'load_time_ms': 0.677}",303,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+12298.964690685272,8297,6.000352808697116,1200,cda-server-2,12298.964690685272,f93d3d6710754a149751678a58e67540,34,1757066994,364800,-88.87062462273452,2334300,{},10.157.146.2,False,{},2025-09-05_12-09-54,34.21,364800,-50.91759643460477,0,39.78419232368469,304,"{'default': {'policy_loss': -0.12848247587680817, 'vf_explained_var': 0.01119281817227602, 'vf_loss': 438.44549560546875, 'kl': 0.009987660683691502, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.461139678955078, 'total_loss': 438.3511657714844}, 'sample_time_ms': 40261.485, 'num_steps_trained': 364800, 'num_steps_sampled': 364800, 'update_time_ms': 2.543, 'grad_time_ms': 372.612, 'load_time_ms': 0.685}",304,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+12338.564878463745,8329,6.000352808697116,1200,cda-server-2,12338.564878463745,f93d3d6710754a149751678a58e67540,32,1757067034,366000,-88.87062462273452,2334300,{},10.157.146.2,False,{},2025-09-05_12-10-34,35.32,366000,-53.49638558682668,0,39.6001877784729,305,"{'default': {'policy_loss': -0.14693108201026917, 'vf_explained_var': 0.010612951591610909, 'vf_loss': 509.0191955566406, 'kl': 0.010370317846536636, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.451675415039062, 'total_loss': 508.90771484375}, 'sample_time_ms': 40150.959, 'num_steps_trained': 366000, 'num_steps_sampled': 366000, 'update_time_ms': 2.564, 'grad_time_ms': 373.678, 'load_time_ms': 0.688}",305,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+12378.64959692955,8364,6.000352808697116,1200,cda-server-2,12378.64959692955,f93d3d6710754a149751678a58e67540,35,1757067074,367200,-88.87062462273452,2334300,{},10.157.146.2,False,{},2025-09-05_12-11-14,35.41,367200,-53.83185651769693,0,40.084718465805054,306,"{'default': {'policy_loss': -0.139170303940773, 'vf_explained_var': -0.0009215010795742273, 'vf_loss': 511.1613464355469, 'kl': 0.013088744133710861, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.456406593322754, 'total_loss': 511.06695556640625}, 'sample_time_ms': 40165.906, 'num_steps_trained': 367200, 'num_steps_sampled': 367200, 'update_time_ms': 2.563, 'grad_time_ms': 372.42, 'load_time_ms': 0.686}",306,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+12420.322988033295,8396,6.000072492846382,1200,cda-server-2,12420.322988033295,f93d3d6710754a149751678a58e67540,32,1757067115,368400,-88.40920238872802,2334300,{},10.157.146.2,False,{},2025-09-05_12-11-55,35.92,368400,-54.55701412906872,0,41.67339110374451,307,"{'default': {'policy_loss': -0.15117819607257843, 'vf_explained_var': 0.003958940505981445, 'vf_loss': 470.15380859375, 'kl': 0.009904857724905014, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.405176162719727, 'total_loss': 470.0364685058594}, 'sample_time_ms': 40261.951, 'num_steps_trained': 368400, 'num_steps_sampled': 368400, 'update_time_ms': 2.534, 'grad_time_ms': 373.23, 'load_time_ms': 0.68}",307,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+12460.889996528625,8435,8.00000040000188,1200,cda-server-2,12460.889996528625,f93d3d6710754a149751678a58e67540,39,1757067156,369600,-89.23409867502,2334300,{},10.157.146.2,False,{},2025-09-05_12-12-36,34.14,369600,-50.61768693829503,0,40.56700849533081,308,"{'default': {'policy_loss': -0.1443929374217987, 'vf_explained_var': 0.004153165500611067, 'vf_loss': 485.68792724609375, 'kl': 0.010192732326686382, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.67509651184082, 'total_loss': 485.5783386230469}, 'sample_time_ms': 40323.56, 'num_steps_trained': 369600, 'num_steps_sampled': 369600, 'update_time_ms': 2.556, 'grad_time_ms': 374.865, 'load_time_ms': 0.678}",308,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+12501.03121638298,8473,8.00000040000188,1200,cda-server-2,12501.03121638298,f93d3d6710754a149751678a58e67540,38,1757067196,370800,-89.23409867502,2334300,{},10.157.146.2,False,{},2025-09-05_12-13-16,33.87,370800,-50.2447032974849,0,40.14121985435486,309,"{'default': {'policy_loss': -0.14950686693191528, 'vf_explained_var': 0.005149483680725098, 'vf_loss': 433.6706848144531, 'kl': 0.010341254994273186, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.437281608581543, 'total_loss': 433.5565185546875}, 'sample_time_ms': 40375.208, 'num_steps_trained': 370800, 'num_steps_sampled': 370800, 'update_time_ms': 2.616, 'grad_time_ms': 373.447, 'load_time_ms': 0.679}",309,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+12541.811257600784,8508,6.00022588881469,1200,cda-server-2,12541.811257600784,f93d3d6710754a149751678a58e67540,35,1757067237,372000,-89.23409867502,2334300,{},10.157.146.2,False,{},2025-09-05_12-13-57,32.57,372000,-47.69476347879066,0,40.780041217803955,310,"{'default': {'policy_loss': -0.1462288647890091, 'vf_explained_var': 0.00782205630093813, 'vf_loss': 437.4837341308594, 'kl': 0.010953903198242188, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.973941802978516, 'total_loss': 437.3749084472656}, 'sample_time_ms': 40006.712, 'num_steps_trained': 372000, 'num_steps_sampled': 372000, 'update_time_ms': 2.607, 'grad_time_ms': 376.049, 'load_time_ms': 0.697}",310,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+12582.006598234177,8544,8.000000400091757,1200,cda-server-2,12582.006598234177,f93d3d6710754a149751678a58e67540,36,1757067277,373200,-88.38582372457279,2334300,{},10.157.146.2,False,{},2025-09-05_12-14-37,32.99,373200,-48.53111973163088,0,40.195340633392334,311,"{'default': {'policy_loss': -0.15685182809829712, 'vf_explained_var': 0.011273371055722237, 'vf_loss': 394.6902160644531, 'kl': 0.010404332540929317, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.090153694152832, 'total_loss': 394.56890869140625}, 'sample_time_ms': 40008.435, 'num_steps_trained': 373200, 'num_steps_sampled': 373200, 'update_time_ms': 2.623, 'grad_time_ms': 377.304, 'load_time_ms': 0.704}",311,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+12621.941687107086,8572,8.000000400091757,1200,cda-server-2,12621.941687107086,f93d3d6710754a149751678a58e67540,28,1757067317,374400,-88.38582372457279,2334300,{},10.157.146.2,False,{},2025-09-05_12-15-17,35.74,374400,-54.067034206778146,0,39.935088872909546,312,"{'default': {'policy_loss': -0.1538180708885193, 'vf_explained_var': 0.0038841632194817066, 'vf_loss': 438.17425537109375, 'kl': 0.00962239969521761, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.56591510772705, 'total_loss': 438.0533752441406}, 'sample_time_ms': 39918.772, 'num_steps_trained': 374400, 'num_steps_sampled': 374400, 'update_time_ms': 2.639, 'grad_time_ms': 377.373, 'load_time_ms': 0.71}",312,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+12661.876276731491,8608,8.000000400091757,1200,cda-server-2,12661.876276731491,f93d3d6710754a149751678a58e67540,36,1757067357,375600,-88.38582372457279,2334300,{},10.157.146.2,False,{},2025-09-05_12-15-57,36.25,375600,-55.29315651250814,0,39.93458962440491,313,"{'default': {'policy_loss': -0.13231158256530762, 'vf_explained_var': 0.007103244308382273, 'vf_loss': 474.03558349609375, 'kl': 0.011141153983771801, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.332624435424805, 'total_loss': 473.94140625}, 'sample_time_ms': 39885.509, 'num_steps_trained': 375600, 'num_steps_sampled': 375600, 'update_time_ms': 2.646, 'grad_time_ms': 376.032, 'load_time_ms': 0.7}",313,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+12701.227487802505,8638,6.000486929772735,1200,cda-server-2,12701.227487802505,f93d3d6710754a149751678a58e67540,30,1757067396,376800,-90.30008958634605,2334300,{},10.157.146.2,False,{},2025-09-05_12-16-36,38.89,376800,-60.89390737204797,0,39.351211071014404,314,"{'default': {'policy_loss': -0.14043186604976654, 'vf_explained_var': 0.006090184208005667, 'vf_loss': 399.80755615234375, 'kl': 0.011490960605442524, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.310200691223145, 'total_loss': 399.7063903808594}, 'sample_time_ms': 39845.397, 'num_steps_trained': 376800, 'num_steps_sampled': 376800, 'update_time_ms': 2.603, 'grad_time_ms': 372.959, 'load_time_ms': 0.697}",314,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+12741.354726552963,8669,6.000486929772735,1200,cda-server-2,12741.354726552963,f93d3d6710754a149751678a58e67540,31,1757067437,378000,-90.30008958634605,2334300,{},10.157.146.2,False,{},2025-09-05_12-17-17,37.87,378000,-58.878975980774804,0,40.127238750457764,315,"{'default': {'policy_loss': -0.14281591773033142, 'vf_explained_var': -0.0010739697609096766, 'vf_loss': 447.5066833496094, 'kl': 0.010915350168943405, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.962897300720215, 'total_loss': 447.40118408203125}, 'sample_time_ms': 39898.466, 'num_steps_trained': 378000, 'num_steps_sampled': 378000, 'update_time_ms': 2.579, 'grad_time_ms': 372.562, 'load_time_ms': 0.704}",315,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+12781.002810955048,8701,6.000486929772735,1200,cda-server-2,12781.002810955048,f93d3d6710754a149751678a58e67540,32,1757067476,379200,-90.30008958634605,2334300,{},10.157.146.2,False,{},2025-09-05_12-17-56,37.4,379200,-58.34547246875846,0,39.64808440208435,316,"{'default': {'policy_loss': -0.14961107075214386, 'vf_explained_var': 0.005986273288726807, 'vf_loss': 480.8357238769531, 'kl': 0.012026567943394184, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.23432731628418, 'total_loss': 480.7272033691406}, 'sample_time_ms': 39853.122, 'num_steps_trained': 379200, 'num_steps_sampled': 379200, 'update_time_ms': 2.584, 'grad_time_ms': 374.238, 'load_time_ms': 0.702}",316,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+12821.312916994095,8737,6.000222889080026,1200,cda-server-2,12821.312916994095,f93d3d6710754a149751678a58e67540,36,1757067517,380400,-88.51586775513825,2334300,{},10.157.146.2,False,{},2025-09-05_12-18-37,36.25,380400,-55.81918746634294,0,40.31010603904724,317,"{'default': {'policy_loss': -0.14286844432353973, 'vf_explained_var': 0.010431011207401752, 'vf_loss': 459.1466064453125, 'kl': 0.010759064927697182, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.35700798034668, 'total_loss': 459.04052734375}, 'sample_time_ms': 39718.457, 'num_steps_trained': 380400, 'num_steps_sampled': 380400, 'update_time_ms': 2.589, 'grad_time_ms': 372.62, 'load_time_ms': 0.687}",317,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+12861.42817234993,8775,6.000000800155304,1200,cda-server-2,12861.42817234993,f93d3d6710754a149751678a58e67540,38,1757067557,381600,-90.82029566820088,2334300,{},10.157.146.2,False,{},2025-09-05_12-19-17,34.38,381600,-52.00420594361509,0,40.11525535583496,318,"{'default': {'policy_loss': -0.15198737382888794, 'vf_explained_var': 0.06462473422288895, 'vf_loss': 429.9236755371094, 'kl': 0.012839515693485737, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.853875160217285, 'total_loss': 429.8155517578125}, 'sample_time_ms': 39672.28, 'num_steps_trained': 381600, 'num_steps_sampled': 381600, 'update_time_ms': 2.557, 'grad_time_ms': 373.685, 'load_time_ms': 0.69}",318,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+12901.514266729355,8813,5.033983296871523,1200,cda-server-2,12901.514266729355,f93d3d6710754a149751678a58e67540,38,1757067597,382800,-90.82029566820088,2334300,{},10.157.146.2,False,{},2025-09-05_12-19-57,32.59,382800,-48.16856549312248,0,40.08609437942505,319,"{'default': {'policy_loss': -0.1482061892747879, 'vf_explained_var': 0.028194792568683624, 'vf_loss': 410.5199279785156, 'kl': 0.010463166981935501, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.236566543579102, 'total_loss': 410.4075012207031}, 'sample_time_ms': 39665.792, 'num_steps_trained': 382800, 'num_steps_sampled': 382800, 'update_time_ms': 2.527, 'grad_time_ms': 374.641, 'load_time_ms': 0.689}",319,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+12941.10274362564,8846,8.000000770532452,1200,cda-server-2,12941.10274362564,f93d3d6710754a149751678a58e67540,33,1757067636,384000,-90.82029566820088,2334300,{},10.157.146.2,False,{},2025-09-05_12-20-36,32.97,384000,-48.86327570440805,0,39.58847689628601,320,"{'default': {'policy_loss': -0.13797926902770996, 'vf_explained_var': 0.03374841436743736, 'vf_loss': 409.2611389160156, 'kl': 0.012019297108054161, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.34274673461914, 'total_loss': 409.16424560546875}, 'sample_time_ms': 39546.671, 'num_steps_trained': 384000, 'num_steps_sampled': 384000, 'update_time_ms': 2.592, 'grad_time_ms': 374.569, 'load_time_ms': 0.685}",320,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+12980.96637916565,8874,8.000000770532452,1200,cda-server-2,12980.96637916565,f93d3d6710754a149751678a58e67540,28,1757067676,385200,-90.4043383491623,2334300,{},10.157.146.2,False,{},2025-09-05_12-21-16,35.68,385200,-53.676646606426004,0,39.863635540008545,321,"{'default': {'policy_loss': -0.1314031481742859, 'vf_explained_var': 0.005202704109251499, 'vf_loss': 405.8985595703125, 'kl': 0.010467436164617538, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.516846656799316, 'total_loss': 405.8029479980469}, 'sample_time_ms': 39515.024, 'num_steps_trained': 385200, 'num_steps_sampled': 385200, 'update_time_ms': 2.539, 'grad_time_ms': 373.107, 'load_time_ms': 0.683}",321,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+13020.883419513702,8911,8.000000770532452,1200,cda-server-2,13020.883419513702,f93d3d6710754a149751678a58e67540,37,1757067716,386400,-87.7264929727669,2334300,{},10.157.146.2,False,{},2025-09-05_12-21-56,36.29,386400,-54.81573041679271,0,39.91704034805298,322,"{'default': {'policy_loss': -0.15400466322898865, 'vf_explained_var': 0.040482357144355774, 'vf_loss': 456.01129150390625, 'kl': 0.010075360536575317, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.149210929870605, 'total_loss': 455.8917236328125}, 'sample_time_ms': 39515.294, 'num_steps_trained': 386400, 'num_steps_sampled': 386400, 'update_time_ms': 2.553, 'grad_time_ms': 371.016, 'load_time_ms': 0.679}",322,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+13061.179373025894,8945,6.000509068670354,1200,cda-server-2,13061.179373025894,f93d3d6710754a149751678a58e67540,34,1757067757,387600,-89.66598987591232,2334300,{},10.157.146.2,False,{},2025-09-05_12-22-37,36.2,387600,-54.6231158859498,0,40.29595351219177,323,"{'default': {'policy_loss': -0.15531301498413086, 'vf_explained_var': 0.029174519702792168, 'vf_loss': 439.3109436035156, 'kl': 0.010161509737372398, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.97475528717041, 'total_loss': 439.1903991699219}, 'sample_time_ms': 39553.31, 'num_steps_trained': 387600, 'num_steps_sampled': 387600, 'update_time_ms': 2.548, 'grad_time_ms': 369.131, 'load_time_ms': 0.671}",323,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+13101.421992063522,8980,6.000509068670354,1200,cda-server-2,13101.421992063522,f93d3d6710754a149751678a58e67540,35,1757067797,388800,-89.66598987591232,2334300,{},10.157.146.2,False,{},2025-09-05_12-23-17,34.65,388800,-51.93693839208506,0,40.242619037628174,324,"{'default': {'policy_loss': -0.14960773289203644, 'vf_explained_var': 0.03614506497979164, 'vf_loss': 452.8624267578125, 'kl': 0.011579844169318676, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.207000732421875, 'total_loss': 452.7524108886719}, 'sample_time_ms': 39640.143, 'num_steps_trained': 388800, 'num_steps_sampled': 388800, 'update_time_ms': 2.561, 'grad_time_ms': 371.381, 'load_time_ms': 0.676}",324,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+13141.796019077301,9020,6.000509068670354,1200,cda-server-2,13141.796019077301,f93d3d6710754a149751678a58e67540,40,1757067837,390000,-88.87208526820466,2334300,{},10.157.146.2,False,{},2025-09-05_12-23-57,32.32,390000,-47.213673649302436,0,40.37402701377869,325,"{'default': {'policy_loss': -0.1380583643913269, 'vf_explained_var': 0.026041362434625626, 'vf_loss': 440.6061706542969, 'kl': 0.010264245793223381, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.556537628173828, 'total_loss': 440.503173828125}, 'sample_time_ms': 39663.999, 'num_steps_trained': 390000, 'num_steps_sampled': 390000, 'update_time_ms': 2.591, 'grad_time_ms': 372.173, 'load_time_ms': 0.684}",325,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+13182.194035053253,9052,8.000042195622465,1200,cda-server-2,13182.194035053253,f93d3d6710754a149751678a58e67540,32,1757067878,391200,-89.21161709695602,2334300,{},10.157.146.2,False,{},2025-09-05_12-24-38,33.33,391200,-49.141758825780606,0,40.39801597595215,326,"{'default': {'policy_loss': -0.14374154806137085, 'vf_explained_var': 0.03932555392384529, 'vf_loss': 429.9820556640625, 'kl': 0.010112602263689041, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.90684700012207, 'total_loss': 429.87286376953125}, 'sample_time_ms': 39739.531, 'num_steps_trained': 391200, 'num_steps_sampled': 391200, 'update_time_ms': 2.593, 'grad_time_ms': 371.635, 'load_time_ms': 0.69}",326,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+13223.138817071915,9088,8.000042195622465,1200,cda-server-2,13223.138817071915,f93d3d6710754a149751678a58e67540,36,1757067919,392400,-89.21161709695602,2334300,{},10.157.146.2,False,{},2025-09-05_12-25-19,33.5,392400,-49.337172450881205,0,40.9447820186615,327,"{'default': {'policy_loss': -0.16037312150001526, 'vf_explained_var': 0.02229405753314495, 'vf_loss': 484.4187316894531, 'kl': 0.01099941972643137, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.79249095916748, 'total_loss': 484.2960205078125}, 'sample_time_ms': 39804.279, 'num_steps_trained': 392400, 'num_steps_sampled': 392400, 'update_time_ms': 2.612, 'grad_time_ms': 370.31, 'load_time_ms': 0.692}",327,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+13263.081171989441,9121,8.000042195622465,1200,cda-server-2,13263.081171989441,f93d3d6710754a149751678a58e67540,33,1757067959,393600,-89.21161709695602,2334300,{},10.157.146.2,False,{},2025-09-05_12-25-59,35.56,393600,-53.754675400725326,0,39.942354917526245,328,"{'default': {'policy_loss': -0.151283398270607, 'vf_explained_var': 0.009420348331332207, 'vf_loss': 432.6964111328125, 'kl': 0.011622369289398193, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.337334632873535, 'total_loss': 432.5848388671875}, 'sample_time_ms': 39787.634, 'num_steps_trained': 393600, 'num_steps_sampled': 393600, 'update_time_ms': 2.625, 'grad_time_ms': 369.648, 'load_time_ms': 0.689}",328,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+13302.864381790161,9157,6.000095728711184,1200,cda-server-2,13302.864381790161,f93d3d6710754a149751678a58e67540,36,1757067998,394800,-88.61793335473197,2334300,{},10.157.146.2,False,{},2025-09-05_12-26-38,35.09,394800,-52.54795434393864,0,39.783209800720215,329,"{'default': {'policy_loss': -0.14313721656799316, 'vf_explained_var': 0.029133081436157227, 'vf_loss': 399.5094909667969, 'kl': 0.012315683998167515, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.034199714660645, 'total_loss': 399.408447265625}, 'sample_time_ms': 39758.352, 'num_steps_trained': 394800, 'num_steps_sampled': 394800, 'update_time_ms': 2.665, 'grad_time_ms': 368.687, 'load_time_ms': 0.691}",329,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+13342.75747513771,9190,6.122519721719278,1200,cda-server-2,13342.75747513771,f93d3d6710754a149751678a58e67540,33,1757068038,396000,-87.39041712203738,2334300,{},10.157.146.2,False,{},2025-09-05_12-27-18,35.98,396000,-54.74556482987191,0,39.89309334754944,330,"{'default': {'policy_loss': -0.1524294763803482, 'vf_explained_var': 0.020156390964984894, 'vf_loss': 398.7169189453125, 'kl': 0.009975748136639595, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.509355545043945, 'total_loss': 398.59857177734375}, 'sample_time_ms': 39791.042, 'num_steps_trained': 396000, 'num_steps_sampled': 396000, 'update_time_ms': 2.591, 'grad_time_ms': 366.528, 'load_time_ms': 0.679}",330,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+13383.67567896843,9228,6.122519721719278,1200,cda-server-2,13383.67567896843,f93d3d6710754a149751678a58e67540,38,1757068079,397200,-89.01797314061683,2334300,{},10.157.146.2,False,{},2025-09-05_12-27-59,34.16,397200,-51.3250822979112,0,40.918203830718994,331,"{'default': {'policy_loss': -0.14993004500865936, 'vf_explained_var': 0.03296024352312088, 'vf_loss': 503.9704895019531, 'kl': 0.010248822160065174, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.234691619873047, 'total_loss': 503.8555908203125}, 'sample_time_ms': 39895.212, 'num_steps_trained': 397200, 'num_steps_sampled': 397200, 'update_time_ms': 2.658, 'grad_time_ms': 367.755, 'load_time_ms': 0.675}",331,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+13423.463230133057,9265,6.000477801330048,1200,cda-server-2,13423.463230133057,f93d3d6710754a149751678a58e67540,37,1757068119,398400,-89.01797314061683,2334300,{},10.157.146.2,False,{},2025-09-05_12-28-39,33.74,398400,-50.54574891675748,0,39.787551164627075,332,"{'default': {'policy_loss': -0.14276745915412903, 'vf_explained_var': 0.03964920714497566, 'vf_loss': 420.7565612792969, 'kl': 0.010322160087525845, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.072938919067383, 'total_loss': 420.6490783691406}, 'sample_time_ms': 39880.496, 'num_steps_trained': 398400, 'num_steps_sampled': 398400, 'update_time_ms': 2.681, 'grad_time_ms': 369.439, 'load_time_ms': 0.682}",332,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+13464.199981212616,9299,6.000375240750939,1200,cda-server-2,13464.199981212616,f93d3d6710754a149751678a58e67540,34,1757068160,399600,-88.63030495538553,2334300,{},10.157.146.2,False,{},2025-09-05_12-29-20,32.64,399600,-47.82415850943692,0,40.736751079559326,333,"{'default': {'policy_loss': -0.15280024707317352, 'vf_explained_var': 0.02406332828104496, 'vf_loss': 460.3062744140625, 'kl': 0.010634230449795723, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.39852523803711, 'total_loss': 460.1898193359375}, 'sample_time_ms': 39923.887, 'num_steps_trained': 399600, 'num_steps_sampled': 399600, 'update_time_ms': 2.694, 'grad_time_ms': 370.106, 'load_time_ms': 0.691}",333,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+13504.548362255096,9337,6.000375240750939,1200,cda-server-2,13504.548362255096,f93d3d6710754a149751678a58e67540,38,1757068200,400800,-88.51871491767405,2334300,{},10.157.146.2,False,{},2025-09-05_12-30-00,32.42,400800,-47.381316065736,0,40.34838104248047,334,"{'default': {'policy_loss': -0.1573840081691742, 'vf_explained_var': 0.05774039775133133, 'vf_loss': 448.5849914550781, 'kl': 0.010197670198976994, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.22380256652832, 'total_loss': 448.46246337890625}, 'sample_time_ms': 39934.584, 'num_steps_trained': 400800, 'num_steps_sampled': 400800, 'update_time_ms': 2.693, 'grad_time_ms': 370.009, 'load_time_ms': 0.68}",334,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+13544.65207028389,9371,4.000410073788908,1200,cda-server-2,13544.65207028389,f93d3d6710754a149751678a58e67540,34,1757068240,402000,-88.51871491767405,2334300,{},10.157.146.2,False,{},2025-09-05_12-30-40,34.1,402000,-50.572650649462496,0,40.103708028793335,335,"{'default': {'policy_loss': -0.15357333421707153, 'vf_explained_var': 0.0362289696931839, 'vf_loss': 410.0519714355469, 'kl': 0.01192283071577549, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.007484436035156, 'total_loss': 409.9391174316406}, 'sample_time_ms': 39908.123, 'num_steps_trained': 402000, 'num_steps_sampled': 402000, 'update_time_ms': 2.704, 'grad_time_ms': 369.476, 'load_time_ms': 0.662}",335,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+13584.995099782944,9406,8.000118209154248,1200,cda-server-2,13584.995099782944,f93d3d6710754a149751678a58e67540,35,1757068281,403200,-87.80258929382983,2334300,{},10.157.146.2,False,{},2025-09-05_12-31-21,34.08,403200,-50.883155368388,0,40.343029499053955,336,"{'default': {'policy_loss': -0.1401258260011673, 'vf_explained_var': 0.030337883159518242, 'vf_loss': 451.0308837890625, 'kl': 0.011732482351362705, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.091513633728027, 'total_loss': 450.9308776855469}, 'sample_time_ms': 39900.292, 'num_steps_trained': 403200, 'num_steps_sampled': 403200, 'update_time_ms': 2.72, 'grad_time_ms': 371.721, 'load_time_ms': 0.668}",336,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+13625.150751590729,9438,8.000118209154248,1200,cda-server-2,13625.150751590729,f93d3d6710754a149751678a58e67540,32,1757068321,404400,-87.99116755732439,2334300,{},10.157.146.2,False,{},2025-09-05_12-32-01,35.96,404400,-53.91887767265573,0,40.155651807785034,337,"{'default': {'policy_loss': -0.13880442082881927, 'vf_explained_var': 0.030012568458914757, 'vf_loss': 456.1023254394531, 'kl': 0.010218311101198196, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.69174575805664, 'total_loss': 455.9984130859375}, 'sample_time_ms': 39819.794, 'num_steps_trained': 404400, 'num_steps_sampled': 404400, 'update_time_ms': 2.74, 'grad_time_ms': 373.252, 'load_time_ms': 0.671}",337,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+13665.591717481613,9467,8.000118209154248,1200,cda-server-2,13665.591717481613,f93d3d6710754a149751678a58e67540,29,1757068361,405600,-87.99116755732439,2334300,{},10.157.146.2,False,{},2025-09-05_12-32-41,36.67,405600,-55.290473343079796,0,40.4409658908844,338,"{'default': {'policy_loss': -0.13667431473731995, 'vf_explained_var': 0.03825806826353073, 'vf_loss': 442.0345764160156, 'kl': 0.010394266806542873, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.478351593017578, 'total_loss': 441.9334411621094}, 'sample_time_ms': 39869.199, 'num_steps_trained': 405600, 'num_steps_sampled': 405600, 'update_time_ms': 2.741, 'grad_time_ms': 373.743, 'load_time_ms': 0.669}",338,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+13705.620480298996,9502,8.000000430365343,1200,cda-server-2,13705.620480298996,f93d3d6710754a149751678a58e67540,35,1757068401,406800,-87.99116755732439,2334300,{},10.157.146.2,False,{},2025-09-05_12-33-21,37.15,406800,-55.392637635161684,0,40.02876281738281,339,"{'default': {'policy_loss': -0.152802512049675, 'vf_explained_var': 0.024062402546405792, 'vf_loss': 420.3553466796875, 'kl': 0.010380428284406662, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.376258850097656, 'total_loss': 420.2380065917969}, 'sample_time_ms': 39893.439, 'num_steps_trained': 406800, 'num_steps_sampled': 406800, 'update_time_ms': 2.709, 'grad_time_ms': 374.079, 'load_time_ms': 0.673}",339,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+13745.579872846603,9540,8.000001293604544,1200,cda-server-2,13745.579872846603,f93d3d6710754a149751678a58e67540,38,1757068441,408000,-86.9799141478926,2334300,{},10.157.146.2,False,{},2025-09-05_12-34-01,35.25,408000,-52.35309145953368,0,39.95939254760742,340,"{'default': {'policy_loss': -0.14648941159248352, 'vf_explained_var': 0.03063652291893959, 'vf_loss': 462.24267578125, 'kl': 0.01163404155522585, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.55972671508789, 'total_loss': 462.1359558105469}, 'sample_time_ms': 39898.25, 'num_steps_trained': 408000, 'num_steps_sampled': 408000, 'update_time_ms': 2.687, 'grad_time_ms': 375.931, 'load_time_ms': 0.673}",340,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+13785.172680139542,9575,8.000001293604544,1200,cda-server-2,13785.172680139542,f93d3d6710754a149751678a58e67540,35,1757068481,409200,-86.58558225177082,2334300,{},10.157.146.2,False,{},2025-09-05_12-34-41,33.31,409200,-48.51332555269554,0,39.59280729293823,341,"{'default': {'policy_loss': -0.1442619115114212, 'vf_explained_var': 0.04662187770009041, 'vf_loss': 409.3472900390625, 'kl': 0.010137440636754036, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.451078414916992, 'total_loss': 409.2376708984375}, 'sample_time_ms': 39767.111, 'num_steps_trained': 409200, 'num_steps_sampled': 409200, 'update_time_ms': 2.678, 'grad_time_ms': 374.467, 'load_time_ms': 0.677}",341,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+13825.310346364975,9605,6.001425206553511,1200,cda-server-2,13825.310346364975,f93d3d6710754a149751678a58e67540,30,1757068521,410400,-86.58558225177082,2334300,{},10.157.146.2,False,{},2025-09-05_12-35-21,35.41,410400,-53.03286111940656,0,40.13766622543335,342,"{'default': {'policy_loss': -0.1419338583946228, 'vf_explained_var': 0.011268489994108677, 'vf_loss': 436.8052673339844, 'kl': 0.011205381713807583, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.289286613464355, 'total_loss': 436.70159912109375}, 'sample_time_ms': 39803.699, 'num_steps_trained': 410400, 'num_steps_sampled': 410400, 'update_time_ms': 2.71, 'grad_time_ms': 372.953, 'load_time_ms': 0.665}",342,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+13866.055624723434,9641,8.000000399999957,1200,cda-server-2,13866.055624723434,f93d3d6710754a149751678a58e67540,36,1757068562,411600,-89.68214501013719,2334300,{},10.157.146.2,False,{},2025-09-05_12-36-02,35.65,411600,-53.55492160831099,0,40.74527835845947,343,"{'default': {'policy_loss': -0.14266842603683472, 'vf_explained_var': 0.03783176466822624, 'vf_loss': 423.569580078125, 'kl': 0.012204717844724655, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.487554550170898, 'total_loss': 423.4686279296875}, 'sample_time_ms': 39802.231, 'num_steps_trained': 411600, 'num_steps_sampled': 411600, 'update_time_ms': 2.677, 'grad_time_ms': 375.281, 'load_time_ms': 0.659}",343,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+13906.093407392502,9681,8.000000399999957,1200,cda-server-2,13906.093407392502,f93d3d6710754a149751678a58e67540,40,1757068602,412800,-89.68214501013719,2334300,{},10.157.146.2,False,{},2025-09-05_12-36-42,32.91,412800,-48.512325136280175,0,40.03778266906738,344,"{'default': {'policy_loss': -0.13742338120937347, 'vf_explained_var': 0.02563554048538208, 'vf_loss': 429.443359375, 'kl': 0.011522420682013035, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.010415077209473, 'total_loss': 429.3453063964844}, 'sample_time_ms': 39770.47, 'num_steps_trained': 412800, 'num_steps_sampled': 412800, 'update_time_ms': 2.698, 'grad_time_ms': 375.969, 'load_time_ms': 0.661}",344,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+13946.131071329117,9714,8.000000399999957,1200,cda-server-2,13946.131071329117,f93d3d6710754a149751678a58e67540,33,1757068642,414000,-89.68214501013719,2334300,{},10.157.146.2,False,{},2025-09-05_12-37-22,33.29,414000,-48.55995846302304,0,40.03766393661499,345,"{'default': {'policy_loss': -0.13411487638950348, 'vf_explained_var': 0.019642392173409462, 'vf_loss': 408.5527648925781, 'kl': 0.011210841126739979, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.589080810546875, 'total_loss': 408.4569396972656}, 'sample_time_ms': 39765.168, 'num_steps_trained': 414000, 'num_steps_sampled': 414000, 'update_time_ms': 2.685, 'grad_time_ms': 374.665, 'load_time_ms': 0.677}",345,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+13986.32627248764,9753,6.0003635211195,1200,cda-server-2,13986.32627248764,f93d3d6710754a149751678a58e67540,39,1757068682,415200,-88.01650020484222,2334300,{},10.157.146.2,False,{},2025-09-05_12-38-02,32.6,415200,-47.481738454941436,0,40.19520115852356,346,"{'default': {'policy_loss': -0.15174134075641632, 'vf_explained_var': 0.027048222720623016, 'vf_loss': 441.7809143066406, 'kl': 0.009943624958395958, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.372754096984863, 'total_loss': 441.6631774902344}, 'sample_time_ms': 39752.617, 'num_steps_trained': 415200, 'num_steps_sampled': 415200, 'update_time_ms': 2.682, 'grad_time_ms': 372.517, 'load_time_ms': 0.662}",346,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+14026.212005376816,9788,6.0003635211195,1200,cda-server-2,14026.212005376816,f93d3d6710754a149751678a58e67540,35,1757068722,416400,-88.01650020484222,2334300,{},10.157.146.2,False,{},2025-09-05_12-38-42,32.47,416400,-47.013103110594685,0,39.885732889175415,347,"{'default': {'policy_loss': -0.1456020474433899, 'vf_explained_var': 0.02409246191382408, 'vf_loss': 433.1102294921875, 'kl': 0.011127098463475704, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.270705223083496, 'total_loss': 433.002685546875}, 'sample_time_ms': 39727.739, 'num_steps_trained': 416400, 'num_steps_sampled': 416400, 'update_time_ms': 2.637, 'grad_time_ms': 370.506, 'load_time_ms': 0.661}",347,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+14067.714072704315,9822,6.0003635211195,1200,cda-server-2,14067.714072704315,f93d3d6710754a149751678a58e67540,34,1757068764,417600,-86.70434841519496,2334300,{},10.157.146.2,False,{},2025-09-05_12-39-24,33.16,417600,-48.274502928781594,0,41.50206732749939,348,"{'default': {'policy_loss': -0.1469336748123169, 'vf_explained_var': 0.041786178946495056, 'vf_loss': 426.65960693359375, 'kl': 0.011283600702881813, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.490732192993164, 'total_loss': 426.55120849609375}, 'sample_time_ms': 39833.088, 'num_steps_trained': 417600, 'num_steps_sampled': 417600, 'update_time_ms': 2.6, 'grad_time_ms': 371.267, 'load_time_ms': 0.672}",348,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+14107.454396009445,9855,6.000044262950821,1200,cda-server-2,14107.454396009445,f93d3d6710754a149751678a58e67540,33,1757068803,418800,-87.04262221591421,2334300,{},10.157.146.2,False,{},2025-09-05_12-40-03,34.74,418800,-51.2039676945684,0,39.740323305130005,349,"{'default': {'policy_loss': -0.14171022176742554, 'vf_explained_var': 0.032391507178545, 'vf_loss': 407.9511413574219, 'kl': 0.011109529063105583, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.442168235778809, 'total_loss': 407.8473815917969}, 'sample_time_ms': 39803.065, 'num_steps_trained': 418800, 'num_steps_sampled': 418800, 'update_time_ms': 2.605, 'grad_time_ms': 372.42, 'load_time_ms': 0.672}",349,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+14147.152516365051,9890,6.000044262950821,1200,cda-server-2,14147.152516365051,f93d3d6710754a149751678a58e67540,35,1757068843,420000,-88.82592813955924,2334300,{},10.157.146.2,False,{},2025-09-05_12-40-43,35.27,420000,-52.2166485557589,0,39.69812035560608,350,"{'default': {'policy_loss': -0.1621491014957428, 'vf_explained_var': 0.01912151463329792, 'vf_loss': 408.7956848144531, 'kl': 0.010567591525614262, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.812308311462402, 'total_loss': 408.66961669921875}, 'sample_time_ms': 39776.691, 'num_steps_trained': 420000, 'num_steps_sampled': 420000, 'update_time_ms': 2.634, 'grad_time_ms': 372.615, 'load_time_ms': 0.676}",350,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+14187.13976430893,9924,8.000000399999983,1200,cda-server-2,14187.13976430893,f93d3d6710754a149751678a58e67540,34,1757068883,421200,-88.82592813955924,2334300,{},10.157.146.2,False,{},2025-09-05_12-41-23,35.3,421200,-52.89367697395401,0,39.987247943878174,351,"{'default': {'policy_loss': -0.15800741314888, 'vf_explained_var': 0.029924817383289337, 'vf_loss': 430.48809814453125, 'kl': 0.0110362209379673, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.285727500915527, 'total_loss': 430.3677978515625}, 'sample_time_ms': 39815.15, 'num_steps_trained': 421200, 'num_steps_sampled': 421200, 'update_time_ms': 2.63, 'grad_time_ms': 373.661, 'load_time_ms': 0.674}",351,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+14226.998750686646,9955,8.000000399999983,1200,cda-server-2,14226.998750686646,f93d3d6710754a149751678a58e67540,31,1757068923,422400,-88.82592813955924,2334300,{},10.157.146.2,False,{},2025-09-05_12-42-03,36.32,422400,-54.86621242154072,0,39.858986377716064,352,"{'default': {'policy_loss': -0.15629540383815765, 'vf_explained_var': 0.029114212840795517, 'vf_loss': 402.3568115234375, 'kl': 0.009813349694013596, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 13.012795448303223, 'total_loss': 402.23406982421875}, 'sample_time_ms': 39787.484, 'num_steps_trained': 422400, 'num_steps_sampled': 422400, 'update_time_ms': 2.598, 'grad_time_ms': 373.481, 'load_time_ms': 0.68}",352,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+14266.863190889359,9990,8.000000399999983,1200,cda-server-2,14266.863190889359,f93d3d6710754a149751678a58e67540,35,1757068963,423600,-87.45628281950306,2334300,{},10.157.146.2,False,{},2025-09-05_12-42-43,36.25,423600,-54.55279297027292,0,39.86444020271301,353,"{'default': {'policy_loss': -0.15205474197864532, 'vf_explained_var': 0.03114587813615799, 'vf_loss': 379.6090087890625, 'kl': 0.010892543941736221, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.305085182189941, 'total_loss': 379.494140625}, 'sample_time_ms': 39700.465, 'num_steps_trained': 423600, 'num_steps_sampled': 423600, 'update_time_ms': 2.6, 'grad_time_ms': 372.457, 'load_time_ms': 0.678}",353,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+14307.907384634018,10029,8.00000040000004,1200,cda-server-2,14307.907384634018,f93d3d6710754a149751678a58e67540,39,1757069004,424800,-87.45628281950306,2334300,{},10.157.146.2,False,{},2025-09-05_12-43-24,33.98,424800,-50.18707318741098,0,41.044193744659424,354,"{'default': {'policy_loss': -0.152949720621109, 'vf_explained_var': 0.033783920109272, 'vf_loss': 416.9335021972656, 'kl': 0.011379302479326725, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.808174133300781, 'total_loss': 416.8194580078125}, 'sample_time_ms': 39801.812, 'num_steps_trained': 424800, 'num_steps_sampled': 424800, 'update_time_ms': 2.602, 'grad_time_ms': 371.743, 'load_time_ms': 0.689}",354,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+14347.865794181824,10061,8.00000040000004,1200,cda-server-2,14347.865794181824,f93d3d6710754a149751678a58e67540,32,1757069044,426000,-87.22276902662414,2334300,{},10.157.146.2,False,{},2025-09-05_12-44-04,34.29,426000,-50.42316778125857,0,39.958409547805786,355,"{'default': {'policy_loss': -0.14012597501277924, 'vf_explained_var': 0.04070533066987991, 'vf_loss': 431.1007385253906, 'kl': 0.01055466290563345, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.98603343963623, 'total_loss': 430.9966735839844}, 'sample_time_ms': 39793.267, 'num_steps_trained': 426000, 'num_steps_sampled': 426000, 'update_time_ms': 2.611, 'grad_time_ms': 372.237, 'load_time_ms': 0.699}",355,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+14387.675954818726,10096,10.0,1200,cda-server-2,14387.675954818726,f93d3d6710754a149751678a58e67540,35,1757069084,427200,-86.91216985910302,2334300,{},10.157.146.2,False,{},2025-09-05_12-44-44,34.46,427200,-50.86255425789575,0,39.810160636901855,356,"{'default': {'policy_loss': -0.15137192606925964, 'vf_explained_var': 0.045231349766254425, 'vf_loss': 410.3990478515625, 'kl': 0.011165386065840721, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.278483390808105, 'total_loss': 410.2857971191406}, 'sample_time_ms': 39752.56, 'num_steps_trained': 427200, 'num_steps_sampled': 427200, 'update_time_ms': 2.64, 'grad_time_ms': 374.368, 'load_time_ms': 0.712}",356,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+14429.4569003582,10134,10.0,1200,cda-server-2,14429.4569003582,f93d3d6710754a149751678a58e67540,38,1757069126,428400,-86.91216985910302,2334300,{},10.157.146.2,False,{},2025-09-05_12-45-26,33.57,428400,-48.699797803939106,0,41.78094553947449,357,"{'default': {'policy_loss': -0.14155468344688416, 'vf_explained_var': 0.03102552890777588, 'vf_loss': 428.5169677734375, 'kl': 0.010288777761161327, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.046107292175293, 'total_loss': 428.41058349609375}, 'sample_time_ms': 39939.693, 'num_steps_trained': 428400, 'num_steps_sampled': 428400, 'update_time_ms': 2.664, 'grad_time_ms': 376.696, 'load_time_ms': 0.709}",357,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+14469.524850130081,10170,10.0,1200,cda-server-2,14469.524850130081,f93d3d6710754a149751678a58e67540,36,1757069166,429600,-86.7354203318464,2334300,{},10.157.146.2,False,{},2025-09-05_12-46-06,31.83,429600,-45.624121148984365,0,40.0679497718811,358,"{'default': {'policy_loss': -0.1432437300682068, 'vf_explained_var': 0.05882573872804642, 'vf_loss': 425.4912414550781, 'kl': 0.012117168866097927, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.16252613067627, 'total_loss': 425.3894348144531}, 'sample_time_ms': 39799.02, 'num_steps_trained': 429600, 'num_steps_sampled': 429600, 'update_time_ms': 2.704, 'grad_time_ms': 373.971, 'load_time_ms': 0.702}",358,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+14509.616066455841,10206,8.00000047087544,1200,cda-server-2,14509.616066455841,f93d3d6710754a149751678a58e67540,36,1757069206,430800,-87.7054032566136,2334300,{},10.157.146.2,False,{},2025-09-05_12-46-46,33.24,430800,-48.07914995618904,0,40.09121632575989,359,"{'default': {'policy_loss': -0.1480737179517746, 'vf_explained_var': 0.01758628338575363, 'vf_loss': 429.83782958984375, 'kl': 0.011029217392206192, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.764570236206055, 'total_loss': 429.7274169921875}, 'sample_time_ms': 39832.787, 'num_steps_trained': 430800, 'num_steps_sampled': 430800, 'update_time_ms': 2.726, 'grad_time_ms': 375.301, 'load_time_ms': 0.694}",359,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+14550.656260490417,10239,6.000117224969081,1200,cda-server-2,14550.656260490417,f93d3d6710754a149751678a58e67540,33,1757069247,432000,-88.39772113835288,2334300,{},10.157.146.2,False,{},2025-09-05_12-47-27,33.87,432000,-49.40789742176856,0,41.040194034576416,360,"{'default': {'policy_loss': -0.1451684534549713, 'vf_explained_var': 0.03005227819085121, 'vf_loss': 445.23590087890625, 'kl': 0.009842807427048683, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.339471817016602, 'total_loss': 445.1243896484375}, 'sample_time_ms': 39968.03, 'num_steps_trained': 432000, 'num_steps_sampled': 432000, 'update_time_ms': 2.751, 'grad_time_ms': 374.231, 'load_time_ms': 0.701}",360,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+14590.83046245575,10278,6.000033300125118,1200,cda-server-2,14590.83046245575,f93d3d6710754a149751678a58e67540,39,1757069287,433200,-88.39772113835288,2334300,{},10.157.146.2,False,{},2025-09-05_12-48-07,33.18,433200,-48.630290959138684,0,40.17420196533203,361,"{'default': {'policy_loss': -0.15941479802131653, 'vf_explained_var': 0.039564475417137146, 'vf_loss': 460.6788635253906, 'kl': 0.010828156024217606, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.5009126663208, 'total_loss': 460.5564270019531}, 'sample_time_ms': 39986.394, 'num_steps_trained': 433200, 'num_steps_sampled': 433200, 'update_time_ms': 2.667, 'grad_time_ms': 374.662, 'load_time_ms': 0.705}",361,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+14630.749028682709,10312,6.000194643040689,1200,cda-server-2,14630.749028682709,f93d3d6710754a149751678a58e67540,34,1757069327,434400,-87.10319020778526,2334300,{},10.157.146.2,False,{},2025-09-05_12-48-47,34.2,434400,-50.67431939403147,0,39.91856622695923,362,"{'default': {'policy_loss': -0.1402187943458557, 'vf_explained_var': 0.029874511063098907, 'vf_loss': 409.3454895019531, 'kl': 0.01080262754112482, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.4795503616333, 'total_loss': 409.2422180175781}, 'sample_time_ms': 39989.596, 'num_steps_trained': 434400, 'num_steps_sampled': 434400, 'update_time_ms': 2.643, 'grad_time_ms': 377.429, 'load_time_ms': 0.7}",362,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+14670.855784893036,10345,6.000194643040689,1200,cda-server-2,14670.855784893036,f93d3d6710754a149751678a58e67540,33,1757069367,435600,-87.10319020778526,2334300,{},10.157.146.2,False,{},2025-09-05_12-49-27,34.45,435600,-51.651489017459404,0,40.10675621032715,363,"{'default': {'policy_loss': -0.14715439081192017, 'vf_explained_var': 0.014677319675683975, 'vf_loss': 436.3875732421875, 'kl': 0.010185993276536465, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.49520206451416, 'total_loss': 436.2752380371094}, 'sample_time_ms': 40015.553, 'num_steps_trained': 435600, 'num_steps_sampled': 435600, 'update_time_ms': 2.651, 'grad_time_ms': 375.696, 'load_time_ms': 0.698}",363,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+14711.058458805084,10378,6.000194643040689,1200,cda-server-2,14711.058458805084,f93d3d6710754a149751678a58e67540,33,1757069407,436800,-88.6016507548234,2334300,{},10.157.146.2,False,{},2025-09-05_12-50-07,36.04,436800,-54.51554664281387,0,40.20267391204834,364,"{'default': {'policy_loss': -0.14864517748355865, 'vf_explained_var': 0.04588764160871506, 'vf_loss': 410.91650390625, 'kl': 0.010878805071115494, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.991815567016602, 'total_loss': 410.8050537109375}, 'sample_time_ms': 39931.413, 'num_steps_trained': 436800, 'num_steps_sampled': 436800, 'update_time_ms': 2.627, 'grad_time_ms': 375.644, 'load_time_ms': 0.707}",364,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+14751.66836643219,10410,6.000078923849628,1200,cda-server-2,14751.66836643219,f93d3d6710754a149751678a58e67540,32,1757069448,438000,-88.6016507548234,2334300,{},10.157.146.2,False,{},2025-09-05_12-50-48,36.1,438000,-54.651715189340884,0,40.60990762710571,365,"{'default': {'policy_loss': -0.14287598431110382, 'vf_explained_var': 0.026640474796295166, 'vf_loss': 478.1761474609375, 'kl': 0.01040416955947876, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.945761680603027, 'total_loss': 478.06884765625}, 'sample_time_ms': 39996.507, 'num_steps_trained': 438000, 'num_steps_sampled': 438000, 'update_time_ms': 2.608, 'grad_time_ms': 375.841, 'load_time_ms': 0.69}",365,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+14792.103603601456,10446,6.000078923849628,1200,cda-server-2,14792.103603601456,f93d3d6710754a149751678a58e67540,36,1757069488,439200,-88.6016507548234,2334300,{},10.157.146.2,False,{},2025-09-05_12-51-28,35.55,439200,-53.316991566588676,0,40.43523716926575,366,"{'default': {'policy_loss': -0.14754001796245575, 'vf_explained_var': 0.03380119800567627, 'vf_loss': 431.7435302734375, 'kl': 0.011859598569571972, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.129061698913574, 'total_loss': 431.6365051269531}, 'sample_time_ms': 40060.221, 'num_steps_trained': 439200, 'num_steps_sampled': 439200, 'update_time_ms': 2.562, 'grad_time_ms': 374.701, 'load_time_ms': 0.678}",366,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+14831.774448156357,10475,6.000078923849628,1200,cda-server-2,14831.774448156357,f93d3d6710754a149751678a58e67540,29,1757069528,440400,-88.88951503781641,2334300,{},10.157.146.2,False,{},2025-09-05_12-52-08,36.63,440400,-55.38023056107133,0,39.67084455490112,367,"{'default': {'policy_loss': -0.14322420954704285, 'vf_explained_var': 0.011332618072628975, 'vf_loss': 399.13055419921875, 'kl': 0.015141528099775314, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.112876892089844, 'total_loss': 399.0390625}, 'sample_time_ms': 39850.645, 'num_steps_trained': 440400, 'num_steps_sampled': 440400, 'update_time_ms': 2.565, 'grad_time_ms': 373.286, 'load_time_ms': 0.702}",367,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+14872.614671230316,10513,8.00000040002812,1200,cda-server-2,14872.614671230316,f93d3d6710754a149751678a58e67540,38,1757069569,441600,-88.88951503781641,2334300,{},10.157.146.2,False,{},2025-09-05_12-52-49,34.68,441600,-52.04467581301941,0,40.84022307395935,368,"{'default': {'policy_loss': -0.15660420060157776, 'vf_explained_var': 0.0388539619743824, 'vf_loss': 458.6565856933594, 'kl': 0.01080058142542839, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.217337608337402, 'total_loss': 458.5368347167969}, 'sample_time_ms': 39928.4, 'num_steps_trained': 441600, 'num_steps_sampled': 441600, 'update_time_ms': 2.524, 'grad_time_ms': 372.81, 'load_time_ms': 0.693}",368,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+14912.679929733276,10550,8.00000040002812,1200,cda-server-2,14912.679929733276,f93d3d6710754a149751678a58e67540,37,1757069609,442800,-86.77915650949731,2334300,{},10.157.146.2,False,{},2025-09-05_12-53-29,33.66,442800,-49.843489425316704,0,40.065258502960205,369,"{'default': {'policy_loss': -0.1470082700252533, 'vf_explained_var': 0.038014039397239685, 'vf_loss': 463.93890380859375, 'kl': 0.010649112984538078, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.424518585205078, 'total_loss': 463.8282775878906}, 'sample_time_ms': 39925.904, 'num_steps_trained': 442800, 'num_steps_sampled': 442800, 'update_time_ms': 2.47, 'grad_time_ms': 372.737, 'load_time_ms': 0.714}",369,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+14952.386379003525,10581,8.00000040002812,1200,cda-server-2,14952.386379003525,f93d3d6710754a149751678a58e67540,31,1757069649,444000,-86.5877773555783,2334300,{},10.157.146.2,False,{},2025-09-05_12-54-09,34.65,444000,-51.079288856631564,0,39.70644927024841,370,"{'default': {'policy_loss': -0.14558593928813934, 'vf_explained_var': 0.06424345076084137, 'vf_loss': 406.3988952636719, 'kl': 0.01031030248850584, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.778853416442871, 'total_loss': 406.2885437011719}, 'sample_time_ms': 39793.749, 'num_steps_trained': 444000, 'num_steps_sampled': 444000, 'update_time_ms': 2.456, 'grad_time_ms': 371.558, 'load_time_ms': 0.708}",370,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+14992.423163890839,10620,6.0000075770220285,1200,cda-server-2,14992.423163890839,f93d3d6710754a149751678a58e67540,39,1757069689,445200,-87.42935060847688,2334300,{},10.157.146.2,False,{},2025-09-05_12-54-49,33.68,445200,-48.83835935614077,0,40.03678488731384,371,"{'default': {'policy_loss': -0.1564648449420929, 'vf_explained_var': 0.035834088921546936, 'vf_loss': 445.012939453125, 'kl': 0.010783243924379349, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.334670066833496, 'total_loss': 444.8933410644531}, 'sample_time_ms': 39781.796, 'num_steps_trained': 445200, 'num_steps_sampled': 445200, 'update_time_ms': 2.48, 'grad_time_ms': 369.749, 'load_time_ms': 0.701}",371,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+15032.429745674133,10657,4.001630634465961,1200,cda-server-2,15032.429745674133,f93d3d6710754a149751678a58e67540,37,1757069729,446400,-88.05671074048892,2334300,{},10.157.146.2,False,{},2025-09-05_12-55-29,33.13,446400,-47.732050674360714,0,40.00658178329468,372,"{'default': {'policy_loss': -0.1328354924917221, 'vf_explained_var': 0.041136085987091064, 'vf_loss': 413.033203125, 'kl': 0.010379289276897907, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.193062782287598, 'total_loss': 412.93585205078125}, 'sample_time_ms': 39791.845, 'num_steps_trained': 446400, 'num_steps_sampled': 446400, 'update_time_ms': 2.459, 'grad_time_ms': 368.528, 'load_time_ms': 0.709}",372,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+15072.59961938858,10690,6.000319727547695,1200,cda-server-2,15072.59961938858,f93d3d6710754a149751678a58e67540,33,1757069769,447600,-88.05671074048892,2334300,{},10.157.146.2,False,{},2025-09-05_12-56-09,33.51,447600,-48.63813601591219,0,40.16987371444702,373,"{'default': {'policy_loss': -0.14854952692985535, 'vf_explained_var': 0.028369856998324394, 'vf_loss': 407.547607421875, 'kl': 0.012072231620550156, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.276942253112793, 'total_loss': 407.4403076171875}, 'sample_time_ms': 39795.67, 'num_steps_trained': 447600, 'num_steps_sampled': 447600, 'update_time_ms': 2.444, 'grad_time_ms': 371.007, 'load_time_ms': 0.723}",373,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+15113.378994226456,10726,6.000319727547695,1200,cda-server-2,15113.378994226456,f93d3d6710754a149751678a58e67540,36,1757069810,448800,-88.05671074048892,2334300,{},10.157.146.2,False,{},2025-09-05_12-56-50,33.32,448800,-48.383056769568455,0,40.779374837875366,374,"{'default': {'policy_loss': -0.15510310232639313, 'vf_explained_var': 0.028334399685263634, 'vf_loss': 447.9123840332031, 'kl': 0.010648071765899658, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.795740127563477, 'total_loss': 447.7936706542969}, 'sample_time_ms': 39853.788, 'num_steps_trained': 448800, 'num_steps_sampled': 448800, 'update_time_ms': 2.458, 'grad_time_ms': 370.619, 'load_time_ms': 0.712}",374,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+15153.688380002975,10762,6.000319727547695,1200,cda-server-2,15153.688380002975,f93d3d6710754a149751678a58e67540,36,1757069850,450000,-86.22954530784955,2334300,{},10.157.146.2,False,{},2025-09-05_12-57-30,33.5,450000,-48.23659951683716,0,40.309385776519775,375,"{'default': {'policy_loss': -0.14849983155727386, 'vf_explained_var': 0.05709119513630867, 'vf_loss': 401.6018981933594, 'kl': 0.010386315174400806, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.883068084716797, 'total_loss': 401.4888916015625}, 'sample_time_ms': 39823.108, 'num_steps_trained': 450000, 'num_steps_sampled': 450000, 'update_time_ms': 2.44, 'grad_time_ms': 371.255, 'load_time_ms': 0.711}",375,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+15194.156418561935,10800,6.000000800257095,1200,cda-server-2,15194.156418561935,f93d3d6710754a149751678a58e67540,38,1757069891,451200,-86.05124506095,2334300,{},10.157.146.2,False,{},2025-09-05_12-58-11,31.68,451200,-45.23896053751268,0,40.46803855895996,376,"{'default': {'policy_loss': -0.15659305453300476, 'vf_explained_var': 0.02473635785281658, 'vf_loss': 426.3190612792969, 'kl': 0.01223460678011179, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.863354682922363, 'total_loss': 426.20428466796875}, 'sample_time_ms': 39827.852, 'num_steps_trained': 451200, 'num_steps_sampled': 451200, 'update_time_ms': 2.442, 'grad_time_ms': 369.737, 'load_time_ms': 0.712}",376,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+15235.379103899002,10842,8.00000040462334,1200,cda-server-2,15235.379103899002,f93d3d6710754a149751678a58e67540,42,1757069932,452400,-86.05124506095,2334300,{},10.157.146.2,False,{},2025-09-05_12-58-52,29.07,452400,-41.35230958029261,0,41.22268533706665,377,"{'default': {'policy_loss': -0.14235687255859375, 'vf_explained_var': 0.03048262931406498, 'vf_loss': 467.69390869140625, 'kl': 0.011409527622163296, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.444601058959961, 'total_loss': 467.5904846191406}, 'sample_time_ms': 39980.586, 'num_steps_trained': 452400, 'num_steps_sampled': 452400, 'update_time_ms': 2.483, 'grad_time_ms': 372.097, 'load_time_ms': 0.704}",377,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+15275.911573648453,10878,8.000000413583138,1200,cda-server-2,15275.911573648453,f93d3d6710754a149751678a58e67540,36,1757069972,453600,-88.88823689205198,2334300,{},10.157.146.2,False,{},2025-09-05_12-59-32,30.6,453600,-44.004484782032684,0,40.532469749450684,378,"{'default': {'policy_loss': -0.1456315666437149, 'vf_explained_var': 0.03810213506221771, 'vf_loss': 426.3363342285156, 'kl': 0.010440889745950699, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.04672622680664, 'total_loss': 426.22637939453125}, 'sample_time_ms': 39949.027, 'num_steps_trained': 453600, 'num_steps_sampled': 453600, 'update_time_ms': 2.515, 'grad_time_ms': 372.788, 'load_time_ms': 0.71}",378,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+15316.392431259155,10915,8.000000413583138,1200,cda-server-2,15316.392431259155,f93d3d6710754a149751678a58e67540,37,1757070013,454800,-88.88823689205198,2334300,{},10.157.146.2,False,{},2025-09-05_13-00-13,33.28,454800,-48.71639193179427,0,40.480857610702515,379,"{'default': {'policy_loss': -0.14093917608261108, 'vf_explained_var': 0.05486292392015457, 'vf_loss': 420.1436462402344, 'kl': 0.011291136965155602, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.107770919799805, 'total_loss': 420.04132080078125}, 'sample_time_ms': 39990.936, 'num_steps_trained': 454800, 'num_steps_sampled': 454800, 'update_time_ms': 2.561, 'grad_time_ms': 372.354, 'load_time_ms': 0.705}",379,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+15356.865114688873,10958,8.000000413583138,1200,cda-server-2,15356.865114688873,f93d3d6710754a149751678a58e67540,43,1757070053,456000,-88.88823689205198,2334300,{},10.157.146.2,False,{},2025-09-05_13-00-53,31.39,456000,-45.2054230586885,0,40.47268342971802,380,"{'default': {'policy_loss': -0.1396612972021103, 'vf_explained_var': 0.060594089329242706, 'vf_loss': 418.5720520019531, 'kl': 0.011574659496545792, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.378668785095215, 'total_loss': 418.4719543457031}, 'sample_time_ms': 40064.843, 'num_steps_trained': 456000, 'num_steps_sampled': 456000, 'update_time_ms': 2.594, 'grad_time_ms': 375.01, 'load_time_ms': 0.712}",380,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+15396.604951143265,10990,6.00016514863756,1200,cda-server-2,15396.604951143265,f93d3d6710754a149751678a58e67540,32,1757070093,457200,-87.74714549855481,2334300,{},10.157.146.2,False,{},2025-09-05_13-01-33,32.13,457200,-46.57313447742463,0,39.73983645439148,381,"{'default': {'policy_loss': -0.1546054184436798, 'vf_explained_var': 0.04067327454686165, 'vf_loss': 405.9283447265625, 'kl': 0.011279965750873089, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.28294849395752, 'total_loss': 405.81231689453125}, 'sample_time_ms': 40035.287, 'num_steps_trained': 457200, 'num_steps_sampled': 457200, 'update_time_ms': 2.607, 'grad_time_ms': 374.858, 'load_time_ms': 0.718}",381,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+15437.588629961014,11028,6.00016514863756,1200,cda-server-2,15437.588629961014,f93d3d6710754a149751678a58e67540,38,1757070134,458400,-87.75578745188801,2334300,{},10.157.146.2,False,{},2025-09-05_13-02-14,33.03,458400,-48.86387895497878,0,40.98367881774902,382,"{'default': {'policy_loss': -0.1481972336769104, 'vf_explained_var': 0.046717192977666855, 'vf_loss': 468.35443115234375, 'kl': 0.012852764688432217, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.873722076416016, 'total_loss': 468.2501525878906}, 'sample_time_ms': 40133.128, 'num_steps_trained': 458400, 'num_steps_sampled': 458400, 'update_time_ms': 2.609, 'grad_time_ms': 374.715, 'load_time_ms': 0.723}",382,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+15477.794491052628,11068,8.000000426904817,1200,cda-server-2,15477.794491052628,f93d3d6710754a149751678a58e67540,40,1757070174,459600,-87.75578745188801,2334300,{},10.157.146.2,False,{},2025-09-05_13-02-54,32.55,459600,-47.69069212073745,0,40.20586109161377,383,"{'default': {'policy_loss': -0.14796946942806244, 'vf_explained_var': 0.03581589460372925, 'vf_loss': 448.0850830078125, 'kl': 0.009867679327726364, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.32229232788086, 'total_loss': 447.9708251953125}, 'sample_time_ms': 40138.939, 'num_steps_trained': 459600, 'num_steps_sampled': 459600, 'update_time_ms': 2.613, 'grad_time_ms': 372.509, 'load_time_ms': 0.72}",383,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+15517.896813631058,11104,8.000000426904817,1200,cda-server-2,15517.896813631058,f93d3d6710754a149751678a58e67540,36,1757070215,460800,-87.75578745188801,2334300,{},10.157.146.2,False,{},2025-09-05_13-03-35,30.39,460800,-43.08684285919783,0,40.102322578430176,384,"{'default': {'policy_loss': -0.1519775539636612, 'vf_explained_var': 0.04068461433053017, 'vf_loss': 411.7156677246094, 'kl': 0.01115275640040636, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.28979206085205, 'total_loss': 411.6018371582031}, 'sample_time_ms': 40071.062, 'num_steps_trained': 460800, 'num_steps_sampled': 460800, 'update_time_ms': 2.581, 'grad_time_ms': 372.684, 'load_time_ms': 0.709}",384,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+15558.328586101532,11143,6.0004012286186335,1200,cda-server-2,15558.328586101532,f93d3d6710754a149751678a58e67540,39,1757070255,462000,-86.70002056122266,2334300,{},10.157.146.2,False,{},2025-09-05_13-04-15,32.7,462000,-46.953366017962345,0,40.43177247047424,385,"{'default': {'policy_loss': -0.14254769682884216, 'vf_explained_var': 0.03885412961244583, 'vf_loss': 437.7210693359375, 'kl': 0.016762128099799156, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.126580238342285, 'total_loss': 437.6358337402344}, 'sample_time_ms': 40083.694, 'num_steps_trained': 462000, 'num_steps_sampled': 462000, 'update_time_ms': 2.605, 'grad_time_ms': 372.255, 'load_time_ms': 0.702}",385,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+15599.464363574982,11180,6.638706133502453,1200,cda-server-2,15599.464363574982,f93d3d6710754a149751678a58e67540,37,1757070296,463200,-86.70002056122266,2334300,{},10.157.146.2,False,{},2025-09-05_13-04-56,31.94,463200,-45.67254605606467,0,41.13577747344971,386,"{'default': {'policy_loss': -0.14395157992839813, 'vf_explained_var': 0.05343948304653168, 'vf_loss': 429.5749816894531, 'kl': 0.011037316173315048, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.860190391540527, 'total_loss': 429.4687194824219}, 'sample_time_ms': 40150.136, 'num_steps_trained': 463200, 'num_steps_sampled': 463200, 'update_time_ms': 2.635, 'grad_time_ms': 372.587, 'load_time_ms': 0.719}",386,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+15640.073704481125,11215,6.638706133502453,1200,cda-server-2,15640.073704481125,f93d3d6710754a149751678a58e67540,35,1757070337,464400,-86.49895113641733,2334300,{},10.157.146.2,False,{},2025-09-05_13-05-37,31.94,464400,-45.68536541133748,0,40.60934090614319,387,"{'default': {'policy_loss': -0.14521925151348114, 'vf_explained_var': 0.030797256156802177, 'vf_loss': 473.04583740234375, 'kl': 0.011246147565543652, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.693195343017578, 'total_loss': 472.93902587890625}, 'sample_time_ms': 40089.538, 'num_steps_trained': 464400, 'num_steps_sampled': 464400, 'update_time_ms': 2.571, 'grad_time_ms': 371.969, 'load_time_ms': 0.719}",387,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+15680.753107070923,11250,6.638706133502453,1200,cda-server-2,15680.753107070923,f93d3d6710754a149751678a58e67540,35,1757070378,465600,-86.49895113641733,2334300,{},10.157.146.2,False,{},2025-09-05_13-06-18,33.68,465600,-49.308187162806824,0,40.679402589797974,388,"{'default': {'policy_loss': -0.14822280406951904, 'vf_explained_var': 0.018047068268060684, 'vf_loss': 462.6319580078125, 'kl': 0.011438380926847458, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.267762184143066, 'total_loss': 462.5227966308594}, 'sample_time_ms': 40101.851, 'num_steps_trained': 465600, 'num_steps_sampled': 465600, 'update_time_ms': 2.563, 'grad_time_ms': 374.334, 'load_time_ms': 0.726}",388,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+15720.925424337387,11289,6.000177606578861,1200,cda-server-2,15720.925424337387,f93d3d6710754a149751678a58e67540,39,1757070418,466800,-86.49895113641733,2334300,{},10.157.146.2,False,{},2025-09-05_13-06-58,33.0,466800,-48.20545486610841,0,40.17231726646423,389,"{'default': {'policy_loss': -0.1467869132757187, 'vf_explained_var': 0.04332797974348068, 'vf_loss': 498.11273193359375, 'kl': 0.012716948054730892, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.206707000732422, 'total_loss': 498.0093994140625}, 'sample_time_ms': 40073.139, 'num_steps_trained': 466800, 'num_steps_sampled': 466800, 'update_time_ms': 2.554, 'grad_time_ms': 372.206, 'load_time_ms': 0.708}",389,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+15762.134319782257,11328,6.000177606578861,1200,cda-server-2,15762.134319782257,f93d3d6710754a149751678a58e67540,39,1757070459,468000,-88.47713019681436,2334300,{},10.157.146.2,False,{},2025-09-05_13-07-39,31.71,468000,-45.62311458063755,0,41.208895444869995,390,"{'default': {'policy_loss': -0.1438310742378235, 'vf_explained_var': 0.04065948724746704, 'vf_loss': 455.0146789550781, 'kl': 0.011790411546826363, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.610690116882324, 'total_loss': 454.9111328125}, 'sample_time_ms': 40146.017, 'num_steps_trained': 468000, 'num_steps_sampled': 468000, 'update_time_ms': 2.513, 'grad_time_ms': 372.975, 'load_time_ms': 0.705}",390,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+15802.722140789032,11366,4.000700396667071,1200,cda-server-2,15802.722140789032,f93d3d6710754a149751678a58e67540,38,1757070500,469200,-88.47713019681436,2334300,{},10.157.146.2,False,{},2025-09-05_13-08-20,31.7,469200,-45.435104821146595,0,40.5878210067749,391,"{'default': {'policy_loss': -0.14787417650222778, 'vf_explained_var': 0.041152987629175186, 'vf_loss': 397.5587463378906, 'kl': 0.010538055561482906, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.04138469696045, 'total_loss': 397.4468688964844}, 'sample_time_ms': 40227.518, 'num_steps_trained': 469200, 'num_steps_sampled': 469200, 'update_time_ms': 2.54, 'grad_time_ms': 376.141, 'load_time_ms': 0.718}",391,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+15842.98256111145,11401,6.000000800089277,1200,cda-server-2,15842.98256111145,f93d3d6710754a149751678a58e67540,35,1757070540,470400,-86.07002171016157,2334300,{},10.157.146.2,False,{},2025-09-05_13-09-00,31.68,470400,-45.05895346986556,0,40.26042032241821,392,"{'default': {'policy_loss': -0.16889172792434692, 'vf_explained_var': 0.03522127866744995, 'vf_loss': 444.244140625, 'kl': 0.011206498369574547, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.306315422058105, 'total_loss': 444.1135559082031}, 'sample_time_ms': 40156.217, 'num_steps_trained': 470400, 'num_steps_sampled': 470400, 'update_time_ms': 2.609, 'grad_time_ms': 375.069, 'load_time_ms': 0.706}",392,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+15884.066407680511,11447,6.000000800089277,1200,cda-server-2,15884.066407680511,f93d3d6710754a149751678a58e67540,46,1757070581,471600,-86.07002171016157,2334300,{},10.157.146.2,False,{},2025-09-05_13-09-41,29.86,471600,-42.098752158295504,0,41.08384656906128,393,"{'default': {'policy_loss': -0.1416679173707962, 'vf_explained_var': 0.04360662028193474, 'vf_loss': 458.0455627441406, 'kl': 0.011837895028293133, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.488006591796875, 'total_loss': 457.94439697265625}, 'sample_time_ms': 40242.815, 'num_steps_trained': 471600, 'num_steps_sampled': 471600, 'update_time_ms': 2.639, 'grad_time_ms': 376.16, 'load_time_ms': 0.698}",393,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+15924.259080171585,11488,6.0000008046706785,1200,cda-server-2,15924.259080171585,f93d3d6710754a149751678a58e67540,41,1757070621,472800,-86.50488297599301,2334300,{},10.157.146.2,False,{},2025-09-05_13-10-21,29.41,472800,-41.33235444300417,0,40.19267249107361,394,"{'default': {'policy_loss': -0.1482168287038803, 'vf_explained_var': 0.026219626888632774, 'vf_loss': 447.5308837890625, 'kl': 0.010588545352220535, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.036083221435547, 'total_loss': 447.4188537597656}, 'sample_time_ms': 40251.47, 'num_steps_trained': 472800, 'num_steps_sampled': 472800, 'update_time_ms': 2.687, 'grad_time_ms': 376.534, 'load_time_ms': 0.705}",394,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+15964.885848760605,11527,6.000001759113303,1200,cda-server-2,15964.885848760605,f93d3d6710754a149751678a58e67540,39,1757070662,474000,-87.1926055405788,2334300,{},10.157.146.2,False,{},2025-09-05_13-11-02,30.21,474000,-42.4747385420346,0,40.626768589019775,395,"{'default': {'policy_loss': -0.15396898984909058, 'vf_explained_var': 0.045604512095451355, 'vf_loss': 385.670166015625, 'kl': 0.009998317807912827, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.930313110351562, 'total_loss': 385.55035400390625}, 'sample_time_ms': 40271.11, 'num_steps_trained': 474000, 'num_steps_sampled': 474000, 'update_time_ms': 2.653, 'grad_time_ms': 376.401, 'load_time_ms': 0.718}",395,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+16004.573402881622,11563,6.000001759113303,1200,cda-server-2,16004.573402881622,f93d3d6710754a149751678a58e67540,36,1757070702,475200,-87.1926055405788,2334300,{},10.157.146.2,False,{},2025-09-05_13-11-42,31.74,475200,-44.753669466129296,0,39.687554121017456,396,"{'default': {'policy_loss': -0.1387130618095398, 'vf_explained_var': 0.0627078041434288, 'vf_loss': 382.41217041015625, 'kl': 0.013319380581378937, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.837814331054688, 'total_loss': 382.3189697265625}, 'sample_time_ms': 40127.048, 'num_steps_trained': 475200, 'num_steps_sampled': 475200, 'update_time_ms': 2.655, 'grad_time_ms': 375.676, 'load_time_ms': 0.703}",396,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+16044.917226314545,11600,6.00040997830652,1200,cda-server-2,16044.917226314545,f93d3d6710754a149751678a58e67540,37,1757070742,476400,-87.1926055405788,2334300,{},10.157.146.2,False,{},2025-09-05_13-12-22,31.1,476400,-43.006580657665225,0,40.34382343292236,397,"{'default': {'policy_loss': -0.15029340982437134, 'vf_explained_var': 0.048214443027973175, 'vf_loss': 430.2908020019531, 'kl': 0.011172141879796982, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.393268585205078, 'total_loss': 430.1787109375}, 'sample_time_ms': 40102.738, 'num_steps_trained': 476400, 'num_steps_sampled': 476400, 'update_time_ms': 2.682, 'grad_time_ms': 373.416, 'load_time_ms': 0.691}",397,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+16086.054419994354,11639,6.000777273625459,1200,cda-server-2,16086.054419994354,f93d3d6710754a149751678a58e67540,39,1757070783,477600,-85.92160536904785,2334300,{},10.157.146.2,False,{},2025-09-05_13-13-03,31.98,477600,-45.03337321566959,0,41.13719367980957,398,"{'default': {'policy_loss': -0.13451236486434937, 'vf_explained_var': 0.08572153002023697, 'vf_loss': 363.8252868652344, 'kl': 0.011176793836057186, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.831412315368652, 'total_loss': 363.7289733886719}, 'sample_time_ms': 40149.638, 'num_steps_trained': 477600, 'num_steps_sampled': 477600, 'update_time_ms': 2.674, 'grad_time_ms': 372.314, 'load_time_ms': 0.702}",398,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+16125.884882926941,11676,6.000777273625459,1200,cda-server-2,16125.884882926941,f93d3d6710754a149751678a58e67540,37,1757070823,478800,-85.52609862106439,2334300,{},10.157.146.2,False,{},2025-09-05_13-13-43,31.4,478800,-44.24285267837585,0,39.83046293258667,399,"{'default': {'policy_loss': -0.1382250189781189, 'vf_explained_var': 0.0190119668841362, 'vf_loss': 458.0295104980469, 'kl': 0.01561904326081276, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.047992706298828, 'total_loss': 457.9446716308594}, 'sample_time_ms': 40115.453, 'num_steps_trained': 478800, 'num_steps_sampled': 478800, 'update_time_ms': 2.654, 'grad_time_ms': 372.379, 'load_time_ms': 0.706}",399,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+16166.20016336441,11713,6.000777273625459,1200,cda-server-2,16166.20016336441,f93d3d6710754a149751678a58e67540,37,1757070863,480000,-87.62290758069265,2334300,{},10.157.146.2,False,{},2025-09-05_13-14-23,31.27,480000,-44.35817899650358,0,40.31528043746948,400,"{'default': {'policy_loss': -0.1444951593875885, 'vf_explained_var': 0.035800736397504807, 'vf_loss': 493.2021484375, 'kl': 0.010767022147774696, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.740561485290527, 'total_loss': 493.0944519042969}, 'sample_time_ms': 40027.598, 'num_steps_trained': 480000, 'num_steps_sampled': 480000, 'update_time_ms': 2.637, 'grad_time_ms': 370.91, 'load_time_ms': 0.7}",400,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+16206.23927474022,11751,6.000118836619636,1200,cda-server-2,16206.23927474022,f93d3d6710754a149751678a58e67540,38,1757070903,481200,-87.62290758069265,2334300,{},10.157.146.2,False,{},2025-09-05_13-15-03,32.47,481200,-46.764081485731815,0,40.039111375808716,401,"{'default': {'policy_loss': -0.1483795940876007, 'vf_explained_var': 0.04335298761725426, 'vf_loss': 413.3594970703125, 'kl': 0.011688388884067535, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.13394546508789, 'total_loss': 413.2510681152344}, 'sample_time_ms': 39973.891, 'num_steps_trained': 481200, 'num_steps_sampled': 481200, 'update_time_ms': 2.589, 'grad_time_ms': 369.879, 'load_time_ms': 0.697}",401,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+16246.994408845901,11788,6.000388323292093,1200,cda-server-2,16246.994408845901,f93d3d6710754a149751678a58e67540,37,1757070944,482400,-88.18231021785546,2334300,{},10.157.146.2,False,{},2025-09-05_13-15-44,32.68,482400,-47.258288234823596,0,40.75513410568237,402,"{'default': {'policy_loss': -0.14426317811012268, 'vf_explained_var': 0.03289182484149933, 'vf_loss': 410.8355407714844, 'kl': 0.011564105749130249, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.457039833068848, 'total_loss': 410.7308044433594}, 'sample_time_ms': 40022.668, 'num_steps_trained': 482400, 'num_steps_sampled': 482400, 'update_time_ms': 2.537, 'grad_time_ms': 370.551, 'load_time_ms': 0.698}",402,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+16287.91358923912,11825,6.000388323292093,1200,cda-server-2,16287.91358923912,f93d3d6710754a149751678a58e67540,37,1757070985,483600,-88.18231021785546,2334300,{},10.157.146.2,False,{},2025-09-05_13-16-25,32.85,483600,-47.19873479501036,0,40.919180393218994,403,"{'default': {'policy_loss': -0.14518480002880096, 'vf_explained_var': 0.045260898768901825, 'vf_loss': 399.84991455078125, 'kl': 0.011817310005426407, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.468268394470215, 'total_loss': 399.7451171875}, 'sample_time_ms': 40007.342, 'num_steps_trained': 483600, 'num_steps_sampled': 483600, 'update_time_ms': 2.539, 'grad_time_ms': 369.502, 'load_time_ms': 0.696}",403,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+16327.945490121841,11863,6.000388323292093,1200,cda-server-2,16327.945490121841,f93d3d6710754a149751678a58e67540,38,1757071025,484800,-89.57292033032407,2334300,{},10.157.146.2,False,{},2025-09-05_13-17-05,31.9,484800,-45.565657511855555,0,40.03190088272095,404,"{'default': {'policy_loss': -0.14674149453639984, 'vf_explained_var': 0.027337338775396347, 'vf_loss': 454.5588073730469, 'kl': 0.011222602799534798, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.76901626586914, 'total_loss': 454.4504089355469}, 'sample_time_ms': 39992.139, 'num_steps_trained': 484800, 'num_steps_sampled': 484800, 'update_time_ms': 2.515, 'grad_time_ms': 368.652, 'load_time_ms': 0.692}",404,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+16368.029067993164,11897,6.000507148525344,1200,cda-server-2,16368.029067993164,f93d3d6710754a149751678a58e67540,34,1757071065,486000,-89.57292033032407,2334300,{},10.157.146.2,False,{},2025-09-05_13-17-45,33.38,486000,-48.36190735656142,0,40.08357787132263,405,"{'default': {'policy_loss': -0.1515491008758545, 'vf_explained_var': 0.01580740325152874, 'vf_loss': 459.84429931640625, 'kl': 0.013727216050028801, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.18013858795166, 'total_loss': 459.7396240234375}, 'sample_time_ms': 39939.96, 'num_steps_trained': 486000, 'num_steps_sampled': 486000, 'update_time_ms': 2.527, 'grad_time_ms': 366.529, 'load_time_ms': 0.678}",405,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+16408.46842288971,11940,6.000507148525344,1200,cda-server-2,16408.46842288971,f93d3d6710754a149751678a58e67540,43,1757071106,487200,-89.57292033032407,2334300,{},10.157.146.2,False,{},2025-09-05_13-18-26,31.47,487200,-44.727380768905476,0,40.43935489654541,406,"{'default': {'policy_loss': -0.1602470576763153, 'vf_explained_var': 0.015469306148588657, 'vf_loss': 402.3402099609375, 'kl': 0.011179138906300068, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.936226844787598, 'total_loss': 402.2182312011719}, 'sample_time_ms': 40012.495, 'num_steps_trained': 487200, 'num_steps_sampled': 487200, 'update_time_ms': 2.478, 'grad_time_ms': 369.177, 'load_time_ms': 0.682}",406,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+16448.632020950317,11977,6.000349421697084,1200,cda-server-2,16448.632020950317,f93d3d6710754a149751678a58e67540,37,1757071146,488400,-86.54197427425852,2334300,{},10.157.146.2,False,{},2025-09-05_13-19-06,31.59,488400,-45.02323956937754,0,40.16359806060791,407,"{'default': {'policy_loss': -0.14566704630851746, 'vf_explained_var': 0.019821040332317352, 'vf_loss': 436.4350891113281, 'kl': 0.012557457201182842, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.825945854187012, 'total_loss': 436.3323059082031}, 'sample_time_ms': 39993.102, 'num_steps_trained': 488400, 'num_steps_sampled': 488400, 'update_time_ms': 2.497, 'grad_time_ms': 370.449, 'load_time_ms': 0.683}",407,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+16488.56552386284,12016,6.000075539997907,1200,cda-server-2,16488.56552386284,f93d3d6710754a149751678a58e67540,39,1757071186,489600,-86.52575087534169,2334300,{},10.157.146.2,False,{},2025-09-05_13-19-46,30.03,489600,-41.82959630732844,0,39.93350291252136,408,"{'default': {'policy_loss': -0.15630541741847992, 'vf_explained_var': 0.023267090320587158, 'vf_loss': 411.3155517578125, 'kl': 0.010980200953781605, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.050945281982422, 'total_loss': 411.1967468261719}, 'sample_time_ms': 39872.978, 'num_steps_trained': 489600, 'num_steps_sampled': 489600, 'update_time_ms': 2.541, 'grad_time_ms': 370.178, 'load_time_ms': 0.665}",408,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+16530.131061792374,12055,6.000075539997907,1200,cda-server-2,16530.131061792374,f93d3d6710754a149751678a58e67540,39,1757071227,490800,-86.52575087534169,2334300,{},10.157.146.2,False,{},2025-09-05_13-20-27,30.89,490800,-43.54443455816577,0,41.56553792953491,409,"{'default': {'policy_loss': -0.14700692892074585, 'vf_explained_var': 0.04550652951002121, 'vf_loss': 415.72607421875, 'kl': 0.011847438290715218, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.828508377075195, 'total_loss': 415.6195373535156}, 'sample_time_ms': 40046.926, 'num_steps_trained': 490800, 'num_steps_sampled': 490800, 'update_time_ms': 2.591, 'grad_time_ms': 369.715, 'load_time_ms': 0.666}",409,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+16570.746386766434,12087,6.000000944909871,1200,cda-server-2,16570.746386766434,f93d3d6710754a149751678a58e67540,32,1757071268,492000,-85.2218465154544,2334300,{},10.157.146.2,False,{},2025-09-05_13-21-08,32.63,492000,-47.23632850771622,0,40.61532497406006,410,"{'default': {'policy_loss': -0.15284784138202667, 'vf_explained_var': 0.01487971656024456, 'vf_loss': 410.51904296875, 'kl': 0.010973498225212097, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.092982292175293, 'total_loss': 410.4037170410156}, 'sample_time_ms': 40077.225, 'num_steps_trained': 492000, 'num_steps_sampled': 492000, 'update_time_ms': 2.607, 'grad_time_ms': 369.392, 'load_time_ms': 0.66}",410,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+16610.72576069832,12128,8.000000401056957,1200,cda-server-2,16610.72576069832,f93d3d6710754a149751678a58e67540,41,1757071308,493200,-87.41175154997447,2334300,{},10.157.146.2,False,{},2025-09-05_13-21-48,32.38,493200,-47.37829427459335,0,39.979373931884766,411,"{'default': {'policy_loss': -0.1339796781539917, 'vf_explained_var': 0.026475992053747177, 'vf_loss': 419.7266540527344, 'kl': 0.011897514574229717, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.555683135986328, 'total_loss': 419.63330078125}, 'sample_time_ms': 40071.725, 'num_steps_trained': 493200, 'num_steps_sampled': 493200, 'update_time_ms': 2.642, 'grad_time_ms': 368.909, 'load_time_ms': 0.644}",411,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+16650.758828163147,12163,8.000000401056957,1200,cda-server-2,16650.758828163147,f93d3d6710754a149751678a58e67540,35,1757071348,494400,-87.41175154997447,2334300,{},10.157.146.2,False,{},2025-09-05_13-22-28,32.57,494400,-47.8551396200247,0,40.03306746482849,412,"{'default': {'policy_loss': -0.15271160006523132, 'vf_explained_var': 0.04765024408698082, 'vf_loss': 412.4598693847656, 'kl': 0.010270458646118641, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.017300605773926, 'total_loss': 412.34228515625}, 'sample_time_ms': 39998.602, 'num_steps_trained': 494400, 'num_steps_sampled': 494400, 'update_time_ms': 2.631, 'grad_time_ms': 369.905, 'load_time_ms': 0.641}",412,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+16690.866256952286,12204,6.069178894250701,1200,cda-server-2,16690.866256952286,f93d3d6710754a149751678a58e67540,41,1757071388,495600,-87.51552852497808,2334300,{},10.157.146.2,False,{},2025-09-05_13-23-08,31.15,495600,-44.57642511434081,0,40.107428789138794,413,"{'default': {'policy_loss': -0.15374399721622467, 'vf_explained_var': 0.03483113273978233, 'vf_loss': 498.2351989746094, 'kl': 0.011257651261985302, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.82192611694336, 'total_loss': 498.1199035644531}, 'sample_time_ms': 39917.982, 'num_steps_trained': 495600, 'num_steps_sampled': 495600, 'update_time_ms': 2.638, 'grad_time_ms': 369.351, 'load_time_ms': 0.642}",413,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+16731.059979200363,12244,6.000050545582722,1200,cda-server-2,16731.059979200363,f93d3d6710754a149751678a58e67540,40,1757071428,496800,-87.51552852497808,2334300,{},10.157.146.2,False,{},2025-09-05_13-23-48,30.81,496800,-43.38919827724667,0,40.19372224807739,414,"{'default': {'policy_loss': -0.14446242153644562, 'vf_explained_var': 0.04542836174368858, 'vf_loss': 395.8784484863281, 'kl': 0.011148004792630672, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.077804565429688, 'total_loss': 395.7720947265625}, 'sample_time_ms': 39935.392, 'num_steps_trained': 496800, 'num_steps_sampled': 496800, 'update_time_ms': 2.618, 'grad_time_ms': 368.119, 'load_time_ms': 0.643}",414,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+16772.13631415367,12286,6.000002601924684,1200,cda-server-2,16772.13631415367,f93d3d6710754a149751678a58e67540,42,1757071470,498000,-85.69673602384702,2334300,{},10.157.146.2,False,{},2025-09-05_13-24-30,28.52,498000,-38.9326647971013,0,41.076334953308105,415,"{'default': {'policy_loss': -0.15042783319950104, 'vf_explained_var': 0.03267563879489899, 'vf_loss': 412.85394287109375, 'kl': 0.011195218190550804, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.923447608947754, 'total_loss': 412.7417907714844}, 'sample_time_ms': 40034.731, 'num_steps_trained': 498000, 'num_steps_sampled': 498000, 'update_time_ms': 2.638, 'grad_time_ms': 368.044, 'load_time_ms': 0.645}",415,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+16812.39584159851,12322,6.000403966420587,1200,cda-server-2,16812.39584159851,f93d3d6710754a149751678a58e67540,36,1757071510,499200,-85.72385819699286,2334300,{},10.157.146.2,False,{},2025-09-05_13-25-10,30.34,499200,-42.42747625753127,0,40.25952744483948,416,"{'default': {'policy_loss': -0.14574207365512848, 'vf_explained_var': 0.05147239938378334, 'vf_loss': 450.3913879394531, 'kl': 0.011574589647352695, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.062203407287598, 'total_loss': 450.2851867675781}, 'sample_time_ms': 40017.876, 'num_steps_trained': 499200, 'num_steps_sampled': 499200, 'update_time_ms': 2.652, 'grad_time_ms': 366.94, 'load_time_ms': 0.638}",416,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+16853.891047239304,12361,6.000403966420587,1200,cda-server-2,16853.891047239304,f93d3d6710754a149751678a58e67540,39,1757071551,500400,-85.72385819699286,2334300,{},10.157.146.2,False,{},2025-09-05_13-25-51,30.51,500400,-43.100154541441306,0,41.49520564079285,417,"{'default': {'policy_loss': -0.14932173490524292, 'vf_explained_var': 0.0417914055287838, 'vf_loss': 434.8189392089844, 'kl': 0.01209094375371933, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.869909286499023, 'total_loss': 434.7109375}, 'sample_time_ms': 40152.708, 'num_steps_trained': 500400, 'num_steps_sampled': 500400, 'update_time_ms': 2.625, 'grad_time_ms': 365.362, 'load_time_ms': 0.643}",417,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+16894.089856624603,12394,6.0002400503359254,1200,cda-server-2,16894.089856624603,f93d3d6710754a149751678a58e67540,33,1757071592,501600,-85.51161376413542,2334300,{},10.157.146.2,False,{},2025-09-05_13-26-32,33.43,501600,-48.56968886510022,0,40.19880938529968,418,"{'default': {'policy_loss': -0.13833671808242798, 'vf_explained_var': 0.05573371425271034, 'vf_loss': 418.74664306640625, 'kl': 0.010519164614379406, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.503579139709473, 'total_loss': 418.6442565917969}, 'sample_time_ms': 40178.303, 'num_steps_trained': 501600, 'num_steps_sampled': 501600, 'update_time_ms': 2.589, 'grad_time_ms': 366.325, 'load_time_ms': 0.659}",418,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+16934.33753156662,12437,6.0002400503359254,1200,cda-server-2,16934.33753156662,f93d3d6710754a149751678a58e67540,43,1757071632,502800,-87.00830193825671,2334300,{},10.157.146.2,False,{},2025-09-05_13-27-12,31.74,502800,-45.446523237405735,0,40.2476749420166,419,"{'default': {'policy_loss': -0.1460629403591156, 'vf_explained_var': 0.04973873123526573, 'vf_loss': 445.7601013183594, 'kl': 0.01252498384565115, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.883304595947266, 'total_loss': 445.6568298339844}, 'sample_time_ms': 40044.478, 'num_steps_trained': 502800, 'num_steps_sampled': 502800, 'update_time_ms': 2.517, 'grad_time_ms': 368.355, 'load_time_ms': 0.659}",419,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+16974.693689346313,12487,8.000000400008986,1200,cda-server-2,16974.693689346313,f93d3d6710754a149751678a58e67540,50,1757071672,504000,-87.00830193825671,2334300,{},10.157.146.2,False,{},2025-09-05_13-27-52,26.91,504000,-36.45228268488272,0,40.3561577796936,420,"{'default': {'policy_loss': -0.14989419281482697, 'vf_explained_var': 0.031318239867687225, 'vf_loss': 466.21087646484375, 'kl': 0.011208408512175083, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.335765838623047, 'total_loss': 466.0992736816406}, 'sample_time_ms': 40018.099, 'num_steps_trained': 504000, 'num_steps_sampled': 504000, 'update_time_ms': 2.553, 'grad_time_ms': 368.762, 'load_time_ms': 0.66}",420,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+17015.293386936188,12530,8.00000947076918,1200,cda-server-2,17015.293386936188,f93d3d6710754a149751678a58e67540,43,1757071713,505200,-85.15189150832283,2334300,{},10.157.146.2,False,{},2025-09-05_13-28-33,25.72,505200,-33.951966206713244,0,40.59969758987427,421,"{'default': {'policy_loss': -0.15403714776039124, 'vf_explained_var': 0.05117277428507805, 'vf_loss': 393.4837646484375, 'kl': 0.010072896257042885, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.123613357543945, 'total_loss': 393.3641357421875}, 'sample_time_ms': 40080.304, 'num_steps_trained': 505200, 'num_steps_sampled': 505200, 'update_time_ms': 2.608, 'grad_time_ms': 368.497, 'load_time_ms': 0.673}",421,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+17055.397482156754,12567,8.00000947076918,1200,cda-server-2,17055.397482156754,f93d3d6710754a149751678a58e67540,37,1757071753,506400,-85.15189150832283,2334300,{},10.157.146.2,False,{},2025-09-05_13-29-13,28.99,506400,-40.09844699468982,0,40.104095220565796,422,"{'default': {'policy_loss': -0.15066654980182648, 'vf_explained_var': 0.024628639221191406, 'vf_loss': 423.6607360839844, 'kl': 0.010638480074703693, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.086960792541504, 'total_loss': 423.54644775390625}, 'sample_time_ms': 40087.117, 'num_steps_trained': 506400, 'num_steps_sampled': 506400, 'update_time_ms': 2.626, 'grad_time_ms': 368.65, 'load_time_ms': 0.693}",422,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+17095.87585258484,12603,8.00000040251164,1200,cda-server-2,17095.87585258484,f93d3d6710754a149751678a58e67540,36,1757071793,507600,-87.27657087304861,2334300,{},10.157.146.2,False,{},2025-09-05_13-29-53,31.3,507600,-44.72201892279325,0,40.47837042808533,423,"{'default': {'policy_loss': -0.1382702738046646, 'vf_explained_var': 0.041432492434978485, 'vf_loss': 389.27252197265625, 'kl': 0.011422781273722649, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.9030122756958, 'total_loss': 389.1732482910156}, 'sample_time_ms': 40123.822, 'num_steps_trained': 507600, 'num_steps_sampled': 507600, 'update_time_ms': 2.618, 'grad_time_ms': 369.047, 'load_time_ms': 0.699}",423,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+17136.44306755066,12639,8.00000040251164,1200,cda-server-2,17136.44306755066,f93d3d6710754a149751678a58e67540,36,1757071834,508800,-87.27657087304861,2334300,{},10.157.146.2,False,{},2025-09-05_13-30-34,32.46,508800,-46.5788972268593,0,40.56721496582031,424,"{'default': {'policy_loss': -0.13656532764434814, 'vf_explained_var': 0.03281358256936073, 'vf_loss': 424.9880676269531, 'kl': 0.010740842670202255, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.201498031616211, 'total_loss': 424.88824462890625}, 'sample_time_ms': 40161.07, 'num_steps_trained': 508800, 'num_steps_sampled': 508800, 'update_time_ms': 2.637, 'grad_time_ms': 369.148, 'load_time_ms': 0.697}",424,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+17177.258502483368,12682,8.00000040000332,1200,cda-server-2,17177.258502483368,f93d3d6710754a149751678a58e67540,43,1757071875,510000,-86.04353945817812,2334300,{},10.157.146.2,False,{},2025-09-05_13-31-15,30.66,510000,-43.16652413240277,0,40.81543493270874,425,"{'default': {'policy_loss': -0.15389062464237213, 'vf_explained_var': 0.04200834035873413, 'vf_loss': 458.3561096191406, 'kl': 0.011292126029729843, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.8156156539917, 'total_loss': 458.24078369140625}, 'sample_time_ms': 40133.568, 'num_steps_trained': 510000, 'num_steps_sampled': 510000, 'update_time_ms': 2.601, 'grad_time_ms': 370.56, 'load_time_ms': 0.7}",425,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+17217.51180434227,12723,6.000521926640477,1200,cda-server-2,17217.51180434227,f93d3d6710754a149751678a58e67540,41,1757071915,511200,-86.04353945817812,2334300,{},10.157.146.2,False,{},2025-09-05_13-31-55,29.7,511200,-41.800039114407355,0,40.25330185890198,426,"{'default': {'policy_loss': -0.14248855412006378, 'vf_explained_var': 0.046051621437072754, 'vf_loss': 413.1447448730469, 'kl': 0.012444604188203812, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.835196495056152, 'total_loss': 413.0447998046875}, 'sample_time_ms': 40134.522, 'num_steps_trained': 511200, 'num_steps_sampled': 511200, 'update_time_ms': 2.633, 'grad_time_ms': 368.931, 'load_time_ms': 0.699}",426,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+17257.764310359955,12761,6.000521926640477,1200,cda-server-2,17257.764310359955,f93d3d6710754a149751678a58e67540,38,1757071955,512400,-85.88567194295514,2334300,{},10.157.146.2,False,{},2025-09-05_13-32-35,28.55,512400,-39.60650480119205,0,40.25250601768494,427,"{'default': {'policy_loss': -0.1414472609758377, 'vf_explained_var': 0.016426218673586845, 'vf_loss': 445.7329406738281, 'kl': 0.011482259258627892, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.852816581726074, 'total_loss': 445.6307373046875}, 'sample_time_ms': 40008.302, 'num_steps_trained': 512400, 'num_steps_sampled': 512400, 'update_time_ms': 2.692, 'grad_time_ms': 370.791, 'load_time_ms': 0.704}",427,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+17298.808533668518,12797,6.0002878019586126,1200,cda-server-2,17298.808533668518,f93d3d6710754a149751678a58e67540,36,1757071996,513600,-85.88567194295514,2334300,{},10.157.146.2,False,{},2025-09-05_13-33-16,30.51,513600,-42.60550611340191,0,41.04422330856323,428,"{'default': {'policy_loss': -0.14696469902992249, 'vf_explained_var': 0.07080820202827454, 'vf_loss': 412.08251953125, 'kl': 0.010709508322179317, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.962627410888672, 'total_loss': 411.9721984863281}, 'sample_time_ms': 40095.862, 'num_steps_trained': 513600, 'num_steps_sampled': 513600, 'update_time_ms': 2.702, 'grad_time_ms': 367.778, 'load_time_ms': 0.692}",428,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+17339.31769657135,12839,8.000095753717538,1200,cda-server-2,17339.31769657135,f93d3d6710754a149751678a58e67540,42,1757072037,514800,-85.88567194295514,2334300,{},10.157.146.2,False,{},2025-09-05_13-33-57,31.12,514800,-43.335013568744415,0,40.50916290283203,429,"{'default': {'policy_loss': -0.15143854916095734, 'vf_explained_var': 0.03498782590031624, 'vf_loss': 451.1524658203125, 'kl': 0.011211208067834377, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.223944664001465, 'total_loss': 451.039306640625}, 'sample_time_ms': 40121.718, 'num_steps_trained': 514800, 'num_steps_sampled': 514800, 'update_time_ms': 2.705, 'grad_time_ms': 368.071, 'load_time_ms': 0.707}",429,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+17380.048070430756,12877,8.000095753717538,1200,cda-server-2,17380.048070430756,f93d3d6710754a149751678a58e67540,38,1757072078,516000,-83.70051770799644,2334300,{},10.157.146.2,False,{},2025-09-05_13-34-38,31.79,516000,-44.7755528084966,0,40.73037385940552,430,"{'default': {'policy_loss': -0.1511017382144928, 'vf_explained_var': 0.045790690928697586, 'vf_loss': 374.07403564453125, 'kl': 0.011755209416151047, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.727570533752441, 'total_loss': 373.9631042480469}, 'sample_time_ms': 40159.052, 'num_steps_trained': 516000, 'num_steps_sampled': 516000, 'update_time_ms': 2.664, 'grad_time_ms': 368.227, 'load_time_ms': 0.709}",430,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+17421.171161174774,12920,8.000000400000175,1200,cda-server-2,17421.171161174774,f93d3d6710754a149751678a58e67540,43,1757072119,517200,-83.70051770799644,2334300,{},10.157.146.2,False,{},2025-09-05_13-35-19,30.44,517200,-42.8557603895442,0,41.123090744018555,431,"{'default': {'policy_loss': -0.1465374082326889, 'vf_explained_var': 0.06359586119651794, 'vf_loss': 401.65142822265625, 'kl': 0.01158836204558611, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.631538391113281, 'total_loss': 401.54449462890625}, 'sample_time_ms': 40211.612, 'num_steps_trained': 517200, 'num_steps_sampled': 517200, 'update_time_ms': 2.708, 'grad_time_ms': 367.952, 'load_time_ms': 0.691}",431,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+17461.713751792908,12960,6.000522809137967,1200,cda-server-2,17461.713751792908,f93d3d6710754a149751678a58e67540,40,1757072159,518400,-86.50210860205749,2334300,{},10.157.146.2,False,{},2025-09-05_13-35-59,28.88,518400,-39.85217685357185,0,40.542590618133545,432,"{'default': {'policy_loss': -0.14738906919956207, 'vf_explained_var': 0.021392755210399628, 'vf_loss': 419.2303466796875, 'kl': 0.011100348085165024, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.732023239135742, 'total_loss': 419.12091064453125}, 'sample_time_ms': 40257.698, 'num_steps_trained': 518400, 'num_steps_sampled': 518400, 'update_time_ms': 2.735, 'grad_time_ms': 365.803, 'load_time_ms': 0.673}",432,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+17502.909379720688,13003,8.000000408795191,1200,cda-server-2,17502.909379720688,f93d3d6710754a149751678a58e67540,43,1757072201,519600,-86.50210860205749,2334300,{},10.157.146.2,False,{},2025-09-05_13-36-41,28.96,519600,-39.84173489263302,0,41.19562792778015,433,"{'default': {'policy_loss': -0.1588928997516632, 'vf_explained_var': 0.033467549830675125, 'vf_loss': 382.85552978515625, 'kl': 0.011558461003005505, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.480440139770508, 'total_loss': 382.7361755371094}, 'sample_time_ms': 40327.261, 'num_steps_trained': 519600, 'num_steps_sampled': 519600, 'update_time_ms': 2.718, 'grad_time_ms': 367.906, 'load_time_ms': 0.681}",433,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+17543.644745349884,13044,8.000000408795191,1200,cda-server-2,17543.644745349884,f93d3d6710754a149751678a58e67540,41,1757072241,520800,-87.21723682247304,2334300,{},10.157.146.2,False,{},2025-09-05_13-37-21,29.66,520800,-41.60231283019188,0,40.73536562919617,434,"{'default': {'policy_loss': -0.15090574324131012, 'vf_explained_var': 0.03386859595775604, 'vf_loss': 420.6188659667969, 'kl': 0.01201242208480835, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.609769821166992, 'total_loss': 420.5090026855469}, 'sample_time_ms': 40340.92, 'num_steps_trained': 520800, 'num_steps_sampled': 520800, 'update_time_ms': 2.709, 'grad_time_ms': 371.047, 'load_time_ms': 0.691}",434,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+17583.545465946198,13081,8.000000408795191,1200,cda-server-2,17583.545465946198,f93d3d6710754a149751678a58e67540,37,1757072281,522000,-87.21723682247304,2334300,{},10.157.146.2,False,{},2025-09-05_13-38-01,29.43,522000,-41.02212598188046,0,39.90072059631348,435,"{'default': {'policy_loss': -0.1429249793291092, 'vf_explained_var': 0.033881790935993195, 'vf_loss': 409.2921447753906, 'kl': 0.011464421637356281, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.403708457946777, 'total_loss': 409.1883544921875}, 'sample_time_ms': 40250.557, 'num_steps_trained': 522000, 'num_steps_sampled': 522000, 'update_time_ms': 2.753, 'grad_time_ms': 369.95, 'load_time_ms': 0.688}",435,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+17623.538749456406,13119,6.000207060023932,1200,cda-server-2,17623.538749456406,f93d3d6710754a149751678a58e67540,38,1757072321,523200,-87.0531483951861,2334300,{},10.157.146.2,False,{},2025-09-05_13-38-41,30.69,523200,-42.965139497208895,0,39.99328351020813,436,"{'default': {'policy_loss': -0.1518746316432953, 'vf_explained_var': 0.028033414855599403, 'vf_loss': 415.247314453125, 'kl': 0.011079534888267517, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.685905456542969, 'total_loss': 415.13330078125}, 'sample_time_ms': 40222.008, 'num_steps_trained': 523200, 'num_steps_sampled': 523200, 'update_time_ms': 2.755, 'grad_time_ms': 372.509, 'load_time_ms': 0.696}",436,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+17664.366794347763,13164,8.000000445047576,1200,cda-server-2,17664.366794347763,f93d3d6710754a149751678a58e67540,45,1757072362,524400,-87.801425647575,2334300,{},10.157.146.2,False,{},2025-09-05_13-39-22,29.85,524400,-41.71417413083503,0,40.82804489135742,437,"{'default': {'policy_loss': -0.14908578991889954, 'vf_explained_var': 0.04323224350810051, 'vf_loss': 441.07965087890625, 'kl': 0.010823162272572517, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.237106323242188, 'total_loss': 440.9674987792969}, 'sample_time_ms': 40281.499, 'num_steps_trained': 524400, 'num_steps_sampled': 524400, 'update_time_ms': 2.681, 'grad_time_ms': 370.692, 'load_time_ms': 0.687}",437,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+17704.724115610123,13202,8.000000566420113,1200,cda-server-2,17704.724115610123,f93d3d6710754a149751678a58e67540,38,1757072403,525600,-87.801425647575,2334300,{},10.157.146.2,False,{},2025-09-05_13-40-03,29.65,525600,-41.3296742939789,0,40.35732126235962,438,"{'default': {'policy_loss': -0.14895230531692505, 'vf_explained_var': 0.06061048060655594, 'vf_loss': 397.4849853515625, 'kl': 0.010824095457792282, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.795379638671875, 'total_loss': 397.37298583984375}, 'sample_time_ms': 40210.848, 'num_steps_trained': 525600, 'num_steps_sampled': 525600, 'update_time_ms': 2.652, 'grad_time_ms': 372.722, 'load_time_ms': 0.685}",438,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+17745.37215566635,13245,8.000000566420113,1200,cda-server-2,17745.37215566635,f93d3d6710754a149751678a58e67540,43,1757072443,526800,-87.801425647575,2334300,{},10.157.146.2,False,{},2025-09-05_13-40-43,28.73,526800,-40.14025849083797,0,40.64804005622864,439,"{'default': {'policy_loss': -0.1478775143623352, 'vf_explained_var': 0.05103691294789314, 'vf_loss': 446.0743713378906, 'kl': 0.012547609396278858, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.725165367126465, 'total_loss': 445.9693603515625}, 'sample_time_ms': 40225.701, 'num_steps_trained': 526800, 'num_steps_sampled': 526800, 'update_time_ms': 2.635, 'grad_time_ms': 371.752, 'load_time_ms': 0.67}",439,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+17785.277977466583,13279,8.000000566420113,1200,cda-server-2,17785.277977466583,f93d3d6710754a149751678a58e67540,34,1757072483,528000,-85.73369261110052,2334300,{},10.157.146.2,False,{},2025-09-05_13-41-23,31.3,528000,-44.8872465360781,0,39.905821800231934,440,"{'default': {'policy_loss': -0.14562395215034485, 'vf_explained_var': 0.02716314047574997, 'vf_loss': 444.2439270019531, 'kl': 0.013222760520875454, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.637482643127441, 'total_loss': 444.14349365234375}, 'sample_time_ms': 40143.776, 'num_steps_trained': 528000, 'num_steps_sampled': 528000, 'update_time_ms': 2.683, 'grad_time_ms': 371.147, 'load_time_ms': 0.671}",440,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+17825.318613290787,13316,6.00035881390434,1200,cda-server-2,17825.318613290787,f93d3d6710754a149751678a58e67540,37,1757072523,529200,-86.22839378603673,2334300,{},10.157.146.2,False,{},2025-09-05_13-42-03,33.01,529200,-48.23395943391707,0,40.04063582420349,441,"{'default': {'policy_loss': -0.1505703330039978, 'vf_explained_var': 0.05064466968178749, 'vf_loss': 423.1734313964844, 'kl': 0.011379425413906574, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.617950439453125, 'total_loss': 423.061767578125}, 'sample_time_ms': 40033.999, 'num_steps_trained': 529200, 'num_steps_sampled': 529200, 'update_time_ms': 2.57, 'grad_time_ms': 372.834, 'load_time_ms': 0.673}",441,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+17865.434440135956,13355,6.000453658270903,1200,cda-server-2,17865.434440135956,f93d3d6710754a149751678a58e67540,39,1757072563,530400,-86.22839378603673,2334300,{},10.157.146.2,False,{},2025-09-05_13-42-43,31.99,530400,-45.475975079868206,0,40.11582684516907,442,"{'default': {'policy_loss': -0.14771993458271027, 'vf_explained_var': 0.06811235845088959, 'vf_loss': 423.0948791503906, 'kl': 0.010846554301679134, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.042713165283203, 'total_loss': 422.9842224121094}, 'sample_time_ms': 39990.84, 'num_steps_trained': 530400, 'num_steps_sampled': 530400, 'update_time_ms': 2.538, 'grad_time_ms': 373.365, 'load_time_ms': 0.678}",442,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+17905.686863183975,13403,8.000000759786856,1200,cda-server-2,17905.686863183975,f93d3d6710754a149751678a58e67540,48,1757072604,531600,-86.4807184512605,2334300,{},10.157.146.2,False,{},2025-09-05_13-43-24,27.24,531600,-36.2268013045929,0,40.25242304801941,443,"{'default': {'policy_loss': -0.153645858168602, 'vf_explained_var': 0.08405378460884094, 'vf_loss': 408.6298828125, 'kl': 0.010003181174397469, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.187714576721191, 'total_loss': 408.5104064941406}, 'sample_time_ms': 39897.736, 'num_steps_trained': 531600, 'num_steps_sampled': 531600, 'update_time_ms': 2.526, 'grad_time_ms': 372.183, 'load_time_ms': 0.69}",443,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+17945.569605588913,13439,8.000000759786856,1200,cda-server-2,17945.569605588913,f93d3d6710754a149751678a58e67540,36,1757072644,532800,-86.4807184512605,2334300,{},10.157.146.2,False,{},2025-09-05_13-44-04,28.6,532800,-39.222629906401046,0,39.882742404937744,444,"{'default': {'policy_loss': -0.14062030613422394, 'vf_explained_var': 0.023164736106991768, 'vf_loss': 427.366943359375, 'kl': 0.0130381491035223, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.302814483642578, 'total_loss': 427.2708740234375}, 'sample_time_ms': 39814.201, 'num_steps_trained': 532800, 'num_steps_sampled': 532800, 'update_time_ms': 2.625, 'grad_time_ms': 370.386, 'load_time_ms': 0.687}",444,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+17985.746605157852,13474,8.000000759786856,1200,cda-server-2,17985.746605157852,f93d3d6710754a149751678a58e67540,35,1757072684,534000,-86.4807184512605,2334300,{},10.157.146.2,False,{},2025-09-05_13-44-44,31.86,534000,-45.41973168532931,0,40.17699956893921,445,"{'default': {'policy_loss': -0.15377411246299744, 'vf_explained_var': 0.03552854061126709, 'vf_loss': 403.6810302734375, 'kl': 0.01161352638155222, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 12.024821281433105, 'total_loss': 403.56695556640625}, 'sample_time_ms': 39839.667, 'num_steps_trained': 534000, 'num_steps_sampled': 534000, 'update_time_ms': 2.588, 'grad_time_ms': 372.538, 'load_time_ms': 0.69}",445,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+18026.129551172256,13516,5.003051774656655,1200,cda-server-2,18026.129551172256,f93d3d6710754a149751678a58e67540,42,1757072724,535200,-86.48224403221158,2334300,{},10.157.146.2,False,{},2025-09-05_13-45-24,31.15,535200,-44.18927257203615,0,40.3829460144043,446,"{'default': {'policy_loss': -0.14803862571716309, 'vf_explained_var': 0.03100161999464035, 'vf_loss': 448.75628662109375, 'kl': 0.01145586185157299, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.463638305664062, 'total_loss': 448.6473693847656}, 'sample_time_ms': 39878.678, 'num_steps_trained': 535200, 'num_steps_sampled': 535200, 'update_time_ms': 2.586, 'grad_time_ms': 372.488, 'load_time_ms': 0.69}",446,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+18066.82624912262,13558,8.000000400000548,1200,cda-server-2,18066.82624912262,f93d3d6710754a149751678a58e67540,42,1757072765,536400,-86.48224403221158,2334300,{},10.157.146.2,False,{},2025-09-05_13-46-05,28.83,536400,-39.71443528268031,0,40.69669795036316,447,"{'default': {'policy_loss': -0.14484988152980804, 'vf_explained_var': 0.03417201340198517, 'vf_loss': 437.39697265625, 'kl': 0.012044455856084824, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.752681732177734, 'total_loss': 437.2933044433594}, 'sample_time_ms': 39865.545, 'num_steps_trained': 536400, 'num_steps_sampled': 536400, 'update_time_ms': 2.616, 'grad_time_ms': 372.457, 'load_time_ms': 0.69}",447,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+18106.816373586655,13598,8.000000400000548,1200,cda-server-2,18106.816373586655,f93d3d6710754a149751678a58e67540,40,1757072805,537600,-86.48224403221158,2334300,{},10.157.146.2,False,{},2025-09-05_13-46-45,29.53,537600,-41.12742398894906,0,39.990124464035034,448,"{'default': {'policy_loss': -0.14082813262939453, 'vf_explained_var': 0.06067631021142006, 'vf_loss': 445.5695495605469, 'kl': 0.010753943584859371, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.85936164855957, 'total_loss': 445.4654846191406}, 'sample_time_ms': 39828.618, 'num_steps_trained': 537600, 'num_steps_sampled': 537600, 'update_time_ms': 2.631, 'grad_time_ms': 372.608, 'load_time_ms': 0.684}",448,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+18146.98503780365,13642,8.000000400000548,1200,cda-server-2,18146.98503780365,f93d3d6710754a149751678a58e67540,44,1757072845,538800,-87.70779576573078,2334300,{},10.157.146.2,False,{},2025-09-05_13-47-25,29.35,538800,-40.926741514741146,0,40.16866421699524,449,"{'default': {'policy_loss': -0.1501460075378418, 'vf_explained_var': 0.038220278918743134, 'vf_loss': 404.48736572265625, 'kl': 0.011632177978754044, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.267200469970703, 'total_loss': 404.376953125}, 'sample_time_ms': 39778.592, 'num_steps_trained': 538800, 'num_steps_sampled': 538800, 'update_time_ms': 2.674, 'grad_time_ms': 374.729, 'load_time_ms': 0.684}",449,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+18187.10143828392,13688,6.000755082135829,1200,cda-server-2,18187.10143828392,f93d3d6710754a149751678a58e67540,46,1757072885,540000,-87.70779576573078,2334300,{},10.157.146.2,False,{},2025-09-05_13-48-05,26.86,540000,-36.04757829386859,0,40.116400480270386,450,"{'default': {'policy_loss': -0.14139322936534882, 'vf_explained_var': 0.04622822254896164, 'vf_loss': 392.62701416015625, 'kl': 0.010419427417218685, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.479698181152344, 'total_loss': 392.52117919921875}, 'sample_time_ms': 39799.697, 'num_steps_trained': 540000, 'num_steps_sampled': 540000, 'update_time_ms': 2.62, 'grad_time_ms': 374.738, 'load_time_ms': 0.683}",450,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+18226.994525194168,13722,6.000755082135829,1200,cda-server-2,18226.994525194168,f93d3d6710754a149751678a58e67540,34,1757072925,541200,-86.30980275398304,2334300,{},10.157.146.2,False,{},2025-09-05_13-48-45,29.3,541200,-40.45774873772231,0,39.8930869102478,451,"{'default': {'policy_loss': -0.15365324914455414, 'vf_explained_var': 0.05898192897439003, 'vf_loss': 412.9320983886719, 'kl': 0.012246862053871155, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.649297714233398, 'total_loss': 412.82025146484375}, 'sample_time_ms': 39785.164, 'num_steps_trained': 541200, 'num_steps_sampled': 541200, 'update_time_ms': 2.685, 'grad_time_ms': 374.474, 'load_time_ms': 0.687}",451,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+18267.067307949066,13761,8.000000720910354,1200,cda-server-2,18267.067307949066,f93d3d6710754a149751678a58e67540,39,1757072965,542400,-87.9518257307001,2334300,{},10.157.146.2,False,{},2025-09-05_13-49-25,30.19,542400,-41.7795645331114,0,40.07278275489807,452,"{'default': {'policy_loss': -0.1369248777627945, 'vf_explained_var': 0.05742628127336502, 'vf_loss': 400.28070068359375, 'kl': 0.012102107517421246, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.44876480102539, 'total_loss': 400.18511962890625}, 'sample_time_ms': 39779.005, 'num_steps_trained': 542400, 'num_steps_sampled': 542400, 'update_time_ms': 2.676, 'grad_time_ms': 376.283, 'load_time_ms': 0.688}",452,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+18306.988835334778,13799,8.000000720910354,1200,cda-server-2,18306.988835334778,f93d3d6710754a149751678a58e67540,38,1757073005,543600,-87.9518257307001,2334300,{},10.157.146.2,False,{},2025-09-05_13-50-05,32.02,543600,-45.65199320643943,0,39.92152738571167,453,"{'default': {'policy_loss': -0.14936865866184235, 'vf_explained_var': 0.019702473655343056, 'vf_loss': 451.5082702636719, 'kl': 0.011999650858342648, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.845096588134766, 'total_loss': 451.39990234375}, 'sample_time_ms': 39746.657, 'num_steps_trained': 543600, 'num_steps_sampled': 543600, 'update_time_ms': 2.709, 'grad_time_ms': 375.546, 'load_time_ms': 0.662}",453,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+18347.01142168045,13835,6.000183064401141,1200,cda-server-2,18347.01142168045,f93d3d6710754a149751678a58e67540,36,1757073045,544800,-84.38785494284748,2334300,{},10.157.146.2,False,{},2025-09-05_13-50-45,32.26,544800,-45.85714257390894,0,40.02258634567261,454,"{'default': {'policy_loss': -0.14108088612556458, 'vf_explained_var': 0.041219308972358704, 'vf_loss': 451.9527282714844, 'kl': 0.012428334914147854, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.599133491516113, 'total_loss': 451.8541259765625}, 'sample_time_ms': 39760.265, 'num_steps_trained': 544800, 'num_steps_sampled': 544800, 'update_time_ms': 2.647, 'grad_time_ms': 375.947, 'load_time_ms': 0.66}",454,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+18387.076679944992,13880,8.000000399999921,1200,cda-server-2,18387.076679944992,f93d3d6710754a149751678a58e67540,45,1757073085,546000,-87.9848604482948,2334300,{},10.157.146.2,False,{},2025-09-05_13-51-25,29.79,546000,-41.482415862077566,0,40.065258264541626,455,"{'default': {'policy_loss': -0.14118832349777222, 'vf_explained_var': 0.043533939868211746, 'vf_loss': 456.0723876953125, 'kl': 0.011088449507951736, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.993402481079102, 'total_loss': 455.9690856933594}, 'sample_time_ms': 39748.816, 'num_steps_trained': 546000, 'num_steps_sampled': 546000, 'update_time_ms': 2.686, 'grad_time_ms': 376.196, 'load_time_ms': 0.658}",455,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+18427.812530755997,13926,8.000000399999921,1200,cda-server-2,18427.812530755997,f93d3d6710754a149751678a58e67540,46,1757073126,547200,-87.9848604482948,2334300,{},10.157.146.2,False,{},2025-09-05_13-52-06,27.7,547200,-37.305611630285505,0,40.73585081100464,456,"{'default': {'policy_loss': -0.14026540517807007, 'vf_explained_var': 0.05445794761180878, 'vf_loss': 382.43536376953125, 'kl': 0.011374562978744507, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.804314613342285, 'total_loss': 382.3339538574219}, 'sample_time_ms': 39783.663, 'num_steps_trained': 547200, 'num_steps_sampled': 547200, 'update_time_ms': 2.675, 'grad_time_ms': 376.605, 'load_time_ms': 0.656}",456,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+18468.709236383438,13972,6.001885005903932,1200,cda-server-2,18468.709236383438,f93d3d6710754a149751678a58e67540,46,1757073167,548400,-85.38166429777077,2334300,{},10.157.146.2,False,{},2025-09-05_13-52-47,25.83,548400,-33.787073042852626,0,40.896705627441406,457,"{'default': {'policy_loss': -0.16198843717575073, 'vf_explained_var': 0.05376585200428963, 'vf_loss': 419.08465576171875, 'kl': 0.01195372361689806, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 10.907487869262695, 'total_loss': 418.9635009765625}, 'sample_time_ms': 39801.679, 'num_steps_trained': 548400, 'num_steps_sampled': 548400, 'update_time_ms': 2.675, 'grad_time_ms': 378.608, 'load_time_ms': 0.66}",457,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+18509.111557483673,14016,6.001885005903932,1200,cda-server-2,18509.111557483673,f93d3d6710754a149751678a58e67540,44,1757073207,549600,-86.72259721657692,2334300,{},10.157.146.2,False,{},2025-09-05_13-53-27,26.05,549600,-34.63741736988248,0,40.402321100234985,458,"{'default': {'policy_loss': -0.1418563574552536, 'vf_explained_var': 0.0735655128955841, 'vf_loss': 419.6730651855469, 'kl': 0.012048037722706795, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.419137954711914, 'total_loss': 419.5723876953125}, 'sample_time_ms': 39842.386, 'num_steps_trained': 549600, 'num_steps_sampled': 549600, 'update_time_ms': 2.688, 'grad_time_ms': 379.12, 'load_time_ms': 0.661}",458,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+18549.837002277374,14068,6.0018189071307,1200,cda-server-2,18549.837002277374,f93d3d6710754a149751678a58e67540,52,1757073248,550800,-86.72259721657692,2334300,{},10.157.146.2,False,{},2025-09-05_13-54-08,26.16,550800,-34.80648170191652,0,40.72544479370117,459,"{'default': {'policy_loss': -0.1553248018026352, 'vf_explained_var': 0.08095278590917587, 'vf_loss': 374.5516052246094, 'kl': 0.0102125508710742, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.286670684814453, 'total_loss': 374.4311828613281}, 'sample_time_ms': 39898.864, 'num_steps_trained': 550800, 'num_steps_sampled': 550800, 'update_time_ms': 2.654, 'grad_time_ms': 378.229, 'load_time_ms': 0.677}",459,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+18590.330939769745,14107,8.000000406800876,1200,cda-server-2,18590.330939769745,f93d3d6710754a149751678a58e67540,39,1757073289,552000,-84.25798396512603,2334300,{},10.157.146.2,False,{},2025-09-05_13-54-49,26.62,552000,-35.03467790754493,0,40.493937492370605,460,"{'default': {'policy_loss': -0.14714837074279785, 'vf_explained_var': 0.02295531891286373, 'vf_loss': 431.874267578125, 'kl': 0.010353416204452515, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.372920989990234, 'total_loss': 431.7624816894531}, 'sample_time_ms': 39937.365, 'num_steps_trained': 552000, 'num_steps_sampled': 552000, 'update_time_ms': 2.662, 'grad_time_ms': 377.485, 'load_time_ms': 0.677}",460,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+18631.030135393143,14152,8.000000406800876,1200,cda-server-2,18631.030135393143,f93d3d6710754a149751678a58e67540,45,1757073329,553200,-84.55923884989072,2334300,{},10.157.146.2,False,{},2025-09-05_13-55-29,27.89,553200,-37.47773343224638,0,40.69919562339783,461,"{'default': {'policy_loss': -0.13370902836322784, 'vf_explained_var': 0.08036671578884125, 'vf_loss': 386.9362487792969, 'kl': 0.011639775708317757, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 10.994624137878418, 'total_loss': 386.84234619140625}, 'sample_time_ms': 40019.534, 'num_steps_trained': 553200, 'num_steps_sampled': 553200, 'update_time_ms': 2.641, 'grad_time_ms': 375.92, 'load_time_ms': 0.687}",461,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+18671.089799642563,14189,6.00028170295032,1200,cda-server-2,18671.089799642563,f93d3d6710754a149751678a58e67540,37,1757073370,554400,-85.90988244964346,2334300,{},10.157.146.2,False,{},2025-09-05_13-56-10,30.42,554400,-42.489850060861,0,40.059664249420166,462,"{'default': {'policy_loss': -0.13833335041999817, 'vf_explained_var': 0.06316374242305756, 'vf_loss': 364.5459899902344, 'kl': 0.013053633272647858, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.228604316711426, 'total_loss': 364.4522705078125}, 'sample_time_ms': 40017.159, 'num_steps_trained': 554400, 'num_steps_sampled': 554400, 'update_time_ms': 2.658, 'grad_time_ms': 376.932, 'load_time_ms': 0.694}",462,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+18711.30723118782,14228,6.00028170295032,1200,cda-server-2,18711.30723118782,f93d3d6710754a149751678a58e67540,39,1757073410,555600,-85.90988244964346,2334300,{},10.157.146.2,False,{},2025-09-05_13-56-50,29.42,555600,-40.52071274195628,0,40.21743154525757,463,"{'default': {'policy_loss': -0.1608550101518631, 'vf_explained_var': 0.02813926711678505, 'vf_loss': 388.0472412109375, 'kl': 0.011468985117971897, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.28750228881836, 'total_loss': 387.92559814453125}, 'sample_time_ms': 40045.727, 'num_steps_trained': 555600, 'num_steps_sampled': 555600, 'update_time_ms': 2.661, 'grad_time_ms': 377.902, 'load_time_ms': 0.694}",463,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+18751.53373169899,14273,6.001215710424491,1200,cda-server-2,18751.53373169899,f93d3d6710754a149751678a58e67540,45,1757073450,556800,-86.00573372827022,2334300,{},10.157.146.2,False,{},2025-09-05_13-57-30,29.18,556800,-39.67211912116546,0,40.226500511169434,464,"{'default': {'policy_loss': -0.14024393260478973, 'vf_explained_var': 0.074100062251091, 'vf_loss': 402.9769287109375, 'kl': 0.01134287565946579, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.841652870178223, 'total_loss': 402.8754577636719}, 'sample_time_ms': 40065.095, 'num_steps_trained': 556800, 'num_steps_sampled': 556800, 'update_time_ms': 2.653, 'grad_time_ms': 378.875, 'load_time_ms': 0.695}",464,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+18791.515815973282,14318,6.001215710424491,1200,cda-server-2,18791.515815973282,f93d3d6710754a149751678a58e67540,45,1757073490,558000,-86.00573372827022,2334300,{},10.157.146.2,False,{},2025-09-05_13-58-10,26.9,558000,-35.91680443945957,0,39.98208427429199,465,"{'default': {'policy_loss': -0.14618811011314392, 'vf_explained_var': 0.05691128224134445, 'vf_loss': 447.00201416015625, 'kl': 0.010537318885326385, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.82432746887207, 'total_loss': 446.891845703125}, 'sample_time_ms': 40057.773, 'num_steps_trained': 558000, 'num_steps_sampled': 558000, 'update_time_ms': 2.686, 'grad_time_ms': 377.869, 'load_time_ms': 0.701}",465,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+18832.101377010345,14366,6.0002708676266545,1200,cda-server-2,18832.101377010345,f93d3d6710754a149751678a58e67540,48,1757073531,559200,-85.72341422265019,2334300,{},10.157.146.2,False,{},2025-09-05_13-58-51,24.98,559200,-32.57445408042741,0,40.5855610370636,466,"{'default': {'policy_loss': -0.14474135637283325, 'vf_explained_var': 0.042072124779224396, 'vf_loss': 371.47711181640625, 'kl': 0.01047457568347454, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.548108100891113, 'total_loss': 371.3681640625}, 'sample_time_ms': 40043.876, 'num_steps_trained': 559200, 'num_steps_sampled': 559200, 'update_time_ms': 2.65, 'grad_time_ms': 376.749, 'load_time_ms': 0.7}",466,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+18872.973856925964,14411,6.0002708676266545,1200,cda-server-2,18872.973856925964,f93d3d6710754a149751678a58e67540,45,1757073571,560400,-85.72341422265019,2334300,{},10.157.146.2,False,{},2025-09-05_13-59-31,25.43,560400,-33.253151959381356,0,40.8724799156189,467,"{'default': {'policy_loss': -0.13882534205913544, 'vf_explained_var': 0.051391005516052246, 'vf_loss': 402.6205749511719, 'kl': 0.021764256060123444, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.417187452316284, 'entropy': 11.091532707214355, 'total_loss': 402.55615234375}, 'sample_time_ms': 40040.275, 'num_steps_trained': 560400, 'num_steps_sampled': 560400, 'update_time_ms': 2.673, 'grad_time_ms': 377.857, 'load_time_ms': 0.708}",467,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+18912.885851621628,14449,6.000263189591795,1200,cda-server-2,18912.885851621628,f93d3d6710754a149751678a58e67540,38,1757073611,561600,-86.48387632039147,2334300,{},10.157.146.2,False,{},2025-09-05_14-00-11,28.34,561600,-38.089960185737944,0,39.91199469566345,468,"{'default': {'policy_loss': -0.1470736265182495, 'vf_explained_var': 0.051614683121442795, 'vf_loss': 368.1771240234375, 'kl': 0.009564902633428574, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.77449893951416, 'total_loss': 368.0790710449219}, 'sample_time_ms': 39993.074, 'num_steps_trained': 561600, 'num_steps_sampled': 561600, 'update_time_ms': 2.656, 'grad_time_ms': 376.074, 'load_time_ms': 0.71}",468,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+18954.41187429428,14489,6.000330157639016,1200,cda-server-2,18954.41187429428,f93d3d6710754a149751678a58e67540,40,1757073653,562800,-86.48387632039147,2334300,{},10.157.146.2,False,{},2025-09-05_14-00-53,29.74,562800,-40.61999425521888,0,41.5260226726532,469,"{'default': {'policy_loss': -0.1133328378200531, 'vf_explained_var': 0.05106322094798088, 'vf_loss': 409.123046875, 'kl': 0.013404837809503078, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.580524444580078, 'total_loss': 409.07843017578125}, 'sample_time_ms': 40073.971, 'num_steps_trained': 562800, 'num_steps_sampled': 562800, 'update_time_ms': 2.683, 'grad_time_ms': 375.314, 'load_time_ms': 0.697}",469,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+18995.165065288544,14528,6.000330157639016,1200,cda-server-2,18995.165065288544,f93d3d6710754a149751678a58e67540,39,1757073694,564000,-87.68574020302658,2334300,{},10.157.146.2,False,{},2025-09-05_14-01-34,30.75,564000,-42.730106431035146,0,40.753190994262695,470,"{'default': {'policy_loss': -0.1404610276222229, 'vf_explained_var': 0.025197884067893028, 'vf_loss': 406.927734375, 'kl': 0.008836949244141579, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.501471519470215, 'total_loss': 406.83258056640625}, 'sample_time_ms': 40097.912, 'num_steps_trained': 564000, 'num_steps_sampled': 564000, 'update_time_ms': 2.698, 'grad_time_ms': 377.306, 'load_time_ms': 0.706}",470,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+19035.351962804794,14565,6.000330157639016,1200,cda-server-2,19035.351962804794,f93d3d6710754a149751678a58e67540,37,1757073734,565200,-87.68574020302658,2334300,{},10.157.146.2,False,{},2025-09-05_14-02-14,31.42,565200,-44.11522226122381,0,40.18689751625061,471,"{'default': {'policy_loss': -0.1271800398826599, 'vf_explained_var': 0.07023068517446518, 'vf_loss': 366.5309143066406, 'kl': 0.009476087056100368, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 12.057921409606934, 'total_loss': 366.4522705078125}, 'sample_time_ms': 40046.914, 'num_steps_trained': 565200, 'num_steps_sampled': 565200, 'update_time_ms': 2.68, 'grad_time_ms': 377.048, 'load_time_ms': 0.696}",471,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+19076.829730033875,14612,6.00029609763547,1200,cda-server-2,19076.829730033875,f93d3d6710754a149751678a58e67540,47,1757073775,566400,-87.68574020302658,2334300,{},10.157.146.2,False,{},2025-09-05_14-02-55,28.46,566400,-38.35253969327313,0,41.4777672290802,472,"{'default': {'policy_loss': -0.135822594165802, 'vf_explained_var': 0.04342261329293251, 'vf_loss': 418.2840576171875, 'kl': 0.00927821546792984, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.628094673156738, 'total_loss': 418.19573974609375}, 'sample_time_ms': 40191.768, 'num_steps_trained': 566400, 'num_steps_sampled': 566400, 'update_time_ms': 2.713, 'grad_time_ms': 374.046, 'load_time_ms': 0.688}",472,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+19118.448140621185,14654,6.000205416315571,1200,cda-server-2,19118.448140621185,f93d3d6710754a149751678a58e67540,42,1757073817,567600,-84.44140272814614,2334300,{},10.157.146.2,False,{},2025-09-05_14-03-37,27.3,567600,-36.18164253263471,0,41.61841058731079,473,"{'default': {'policy_loss': -0.14508450031280518, 'vf_explained_var': 0.06904073804616928, 'vf_loss': 332.7969970703125, 'kl': 0.00832900870591402, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.383365631103516, 'total_loss': 332.6946105957031}, 'sample_time_ms': 40333.038, 'num_steps_trained': 567600, 'num_steps_sampled': 567600, 'update_time_ms': 2.691, 'grad_time_ms': 372.932, 'load_time_ms': 0.693}",473,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+19158.60071516037,14690,8.000000399999923,1200,cda-server-2,19158.60071516037,f93d3d6710754a149751678a58e67540,36,1757073857,568800,-85.86883539299993,2334300,{},10.157.146.2,False,{},2025-09-05_14-04-17,29.46,568800,-40.89107023233606,0,40.15257453918457,474,"{'default': {'policy_loss': -0.1453206092119217, 'vf_explained_var': 0.026633374392986298, 'vf_loss': 427.6784973144531, 'kl': 0.007988857105374336, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.822014808654785, 'total_loss': 427.5740966796875}, 'sample_time_ms': 40328.649, 'num_steps_trained': 568800, 'num_steps_sampled': 568800, 'update_time_ms': 2.669, 'grad_time_ms': 370.025, 'load_time_ms': 0.687}",474,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+19199.04459643364,14734,8.00000040026028,1200,cda-server-2,19199.04459643364,f93d3d6710754a149751678a58e67540,44,1757073898,570000,-85.86883539299993,2334300,{},10.157.146.2,False,{},2025-09-05_14-04-58,29.11,570000,-40.34431294035839,0,40.44388127326965,475,"{'default': {'policy_loss': -0.1316046118736267, 'vf_explained_var': 0.038905270397663116, 'vf_loss': 409.22747802734375, 'kl': 0.008960063569247723, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.353145599365234, 'total_loss': 409.1418151855469}, 'sample_time_ms': 40375.482, 'num_steps_trained': 570000, 'num_steps_sampled': 570000, 'update_time_ms': 2.666, 'grad_time_ms': 369.383, 'load_time_ms': 0.682}",475,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+19238.905192136765,14774,8.00000040026028,1200,cda-server-2,19238.905192136765,f93d3d6710754a149751678a58e67540,40,1757073938,571200,-86.49588195930573,2334300,{},10.157.146.2,False,{},2025-09-05_14-05-38,29.2,571200,-40.8379785901414,0,39.860595703125,476,"{'default': {'policy_loss': -0.13624094426631927, 'vf_explained_var': 0.039990730583667755, 'vf_loss': 446.55230712890625, 'kl': 0.008097508922219276, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.205245971679688, 'total_loss': 446.45758056640625}, 'sample_time_ms': 40303.017, 'num_steps_trained': 571200, 'num_steps_sampled': 571200, 'update_time_ms': 2.665, 'grad_time_ms': 369.394, 'load_time_ms': 0.677}",476,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+19280.14359641075,14817,6.000006684066341,1200,cda-server-2,19280.14359641075,f93d3d6710754a149751678a58e67540,43,1757073979,572400,-86.49588195930573,2334300,{},10.157.146.2,False,{},2025-09-05_14-06-19,27.58,572400,-37.97827664151283,0,41.238404273986816,477,"{'default': {'policy_loss': -0.15009956061840057, 'vf_explained_var': 0.0688643679022789, 'vf_loss': 412.14984130859375, 'kl': 0.00871109589934349, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.49582290649414, 'total_loss': 412.04437255859375}, 'sample_time_ms': 40339.907, 'num_steps_trained': 572400, 'num_steps_sampled': 572400, 'update_time_ms': 2.653, 'grad_time_ms': 369.109, 'load_time_ms': 0.682}",477,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+19320.486986398697,14863,6.000003061174089,1200,cda-server-2,19320.486986398697,f93d3d6710754a149751678a58e67540,46,1757074019,573600,-85.93265820773959,2334300,{},10.157.146.2,False,{},2025-09-05_14-06-59,27.05,573600,-36.19932521346862,0,40.34338998794556,478,"{'default': {'policy_loss': -0.1474398672580719, 'vf_explained_var': 0.0201362706720829, 'vf_loss': 429.0976257324219, 'kl': 0.010089886374771595, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.152118682861328, 'total_loss': 429.00189208984375}, 'sample_time_ms': 40380.211, 'num_steps_trained': 573600, 'num_steps_sampled': 573600, 'update_time_ms': 2.653, 'grad_time_ms': 371.846, 'load_time_ms': 0.694}",478,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+19360.299200057983,14903,6.00000080022547,1200,cda-server-2,19360.299200057983,f93d3d6710754a149751678a58e67540,40,1757074059,574800,-83.96728727718984,2334300,{},10.157.146.2,False,{},2025-09-05_14-07-39,27.86,574800,-37.217729252123625,0,39.8122136592865,479,"{'default': {'policy_loss': -0.13799458742141724, 'vf_explained_var': 0.03381790220737457, 'vf_loss': 389.9368896484375, 'kl': 0.00870587769895792, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.76505184173584, 'total_loss': 389.8434753417969}, 'sample_time_ms': 40207.778, 'num_steps_trained': 574800, 'num_steps_sampled': 574800, 'update_time_ms': 2.661, 'grad_time_ms': 372.892, 'load_time_ms': 0.693}",479,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+19400.15020799637,14944,6.00000080022547,1200,cda-server-2,19400.15020799637,f93d3d6710754a149751678a58e67540,41,1757074099,576000,-84.84666406802512,2334300,{},10.157.146.2,False,{},2025-09-05_14-08-19,29.08,576000,-39.20986757144139,0,39.85100793838501,480,"{'default': {'policy_loss': -0.12356540560722351, 'vf_explained_var': 0.06605365127325058, 'vf_loss': 385.758056640625, 'kl': 0.008136761374771595, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.270547866821289, 'total_loss': 385.67620849609375}, 'sample_time_ms': 40118.38, 'num_steps_trained': 576000, 'num_steps_sampled': 576000, 'update_time_ms': 2.643, 'grad_time_ms': 372.119, 'load_time_ms': 0.686}",480,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+19440.472989797592,14987,8.000000856080817,1200,cda-server-2,19440.472989797592,f93d3d6710754a149751678a58e67540,43,1757074139,577200,-85.51626107768833,2334300,{},10.157.146.2,False,{},2025-09-05_14-08-59,29.03,577200,-39.31927954684911,0,40.322781801223755,481,"{'default': {'policy_loss': -0.13993734121322632, 'vf_explained_var': 0.0522208996117115, 'vf_loss': 388.57171630859375, 'kl': 0.009136579930782318, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.042160034179688, 'total_loss': 388.4786376953125}, 'sample_time_ms': 40129.507, 'num_steps_trained': 577200, 'num_steps_sampled': 577200, 'update_time_ms': 2.636, 'grad_time_ms': 374.576, 'load_time_ms': 0.696}",481,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+19480.782344341278,15033,8.000000856080817,1200,cda-server-2,19480.782344341278,f93d3d6710754a149751678a58e67540,46,1757074180,578400,-85.51626107768833,2334300,{},10.157.146.2,False,{},2025-09-05_14-09-40,28.22,578400,-37.918530157963616,0,40.30935454368591,482,"{'default': {'policy_loss': -0.13140040636062622, 'vf_explained_var': 0.05975968390703201, 'vf_loss': 366.9881896972656, 'kl': 0.011623014695942402, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.206708908081055, 'total_loss': 366.9164123535156}, 'sample_time_ms': 40012.039, 'num_steps_trained': 578400, 'num_steps_sampled': 578400, 'update_time_ms': 2.59, 'grad_time_ms': 375.215, 'load_time_ms': 0.694}",482,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+19521.82445693016,15079,6.007868957991209,1200,cda-server-2,19521.82445693016,f93d3d6710754a149751678a58e67540,46,1757074221,579600,-86.56821000453482,2334300,{},10.157.146.2,False,{},2025-09-05_14-10-21,26.71,579600,-35.19532751720853,0,41.042112588882446,483,"{'default': {'policy_loss': -0.12961743772029877, 'vf_explained_var': 0.06560972332954407, 'vf_loss': 392.657470703125, 'kl': 0.007930352352559566, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.215200424194336, 'total_loss': 392.56854248046875}, 'sample_time_ms': 39952.406, 'num_steps_trained': 579600, 'num_steps_sampled': 579600, 'update_time_ms': 2.621, 'grad_time_ms': 377.139, 'load_time_ms': 0.709}",483,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+19562.021493434906,15121,6.007868957991209,1200,cda-server-2,19562.021493434906,f93d3d6710754a149751678a58e67540,42,1757074261,580800,-86.56821000453482,2334300,{},10.157.146.2,False,{},2025-09-05_14-11-01,26.86,580800,-35.678367683918076,0,40.19703650474548,484,"{'default': {'policy_loss': -0.13533467054367065, 'vf_explained_var': 0.021488573402166367, 'vf_loss': 424.95184326171875, 'kl': 0.008983178064227104, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.357115745544434, 'total_loss': 424.862548828125}, 'sample_time_ms': 39954.365, 'num_steps_trained': 580800, 'num_steps_sampled': 580800, 'update_time_ms': 2.645, 'grad_time_ms': 379.564, 'load_time_ms': 0.722}",484,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+19602.85190844536,15163,8.000000450767232,1200,cda-server-2,19602.85190844536,f93d3d6710754a149751678a58e67540,42,1757074302,582000,-86.56821000453482,2334300,{},10.157.146.2,False,{},2025-09-05_14-11-42,28.41,582000,-38.50840649765245,0,40.83041501045227,485,"{'default': {'policy_loss': -0.13413198292255402, 'vf_explained_var': 0.07407203316688538, 'vf_loss': 400.2831726074219, 'kl': 0.009754030965268612, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.139392852783203, 'total_loss': 400.19903564453125}, 'sample_time_ms': 39993.908, 'num_steps_trained': 582000, 'num_steps_sampled': 582000, 'update_time_ms': 2.605, 'grad_time_ms': 378.718, 'load_time_ms': 0.722}",485,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+19642.597537994385,15202,8.000000450767232,1200,cda-server-2,19642.597537994385,f93d3d6710754a149751678a58e67540,39,1757074342,583200,-84.83661303424887,2334300,{},10.157.146.2,False,{},2025-09-05_14-12-22,29.56,583200,-40.704943876083576,0,39.74562954902649,486,"{'default': {'policy_loss': -0.135633647441864, 'vf_explained_var': 0.05097449570894241, 'vf_loss': 412.6719055175781, 'kl': 0.009453835897147655, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.58437442779541, 'total_loss': 412.584716796875}, 'sample_time_ms': 39984.248, 'num_steps_trained': 583200, 'num_steps_sampled': 583200, 'update_time_ms': 2.623, 'grad_time_ms': 376.931, 'load_time_ms': 0.72}",486,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+19682.6784055233,15241,8.00000057017401,1200,cda-server-2,19682.6784055233,f93d3d6710754a149751678a58e67540,39,1757074382,584400,-84.83661303424887,2334300,{},10.157.146.2,False,{},2025-09-05_14-13-02,29.88,584400,-41.244778510973646,0,40.080867528915405,487,"{'default': {'policy_loss': -0.13591095805168152, 'vf_explained_var': 0.03214268013834953, 'vf_loss': 441.61163330078125, 'kl': 0.008663066662847996, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.278545379638672, 'total_loss': 441.5201416015625}, 'sample_time_ms': 39870.671, 'num_steps_trained': 584400, 'num_steps_sampled': 584400, 'update_time_ms': 2.574, 'grad_time_ms': 374.829, 'load_time_ms': 0.707}",487,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+19722.73556947708,15280,8.00000057017401,1200,cda-server-2,19722.73556947708,f93d3d6710754a149751678a58e67540,39,1757074422,585600,-84.83661303424887,2334300,{},10.157.146.2,False,{},2025-09-05_14-13-42,31.12,585600,-43.174967491533955,0,40.05716395378113,488,"{'default': {'policy_loss': -0.1440454125404358, 'vf_explained_var': 0.05268540605902672, 'vf_loss': 391.8543395996094, 'kl': 0.008033167570829391, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.378503799438477, 'total_loss': 391.75146484375}, 'sample_time_ms': 39842.716, 'num_steps_trained': 585600, 'num_steps_sampled': 585600, 'update_time_ms': 2.565, 'grad_time_ms': 374.238, 'load_time_ms': 0.704}",488,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+19763.327416419983,15324,6.000411222599199,1200,cda-server-2,19763.327416419983,f93d3d6710754a149751678a58e67540,44,1757074462,586800,-85.63979802518773,2334300,{},10.157.146.2,False,{},2025-09-05_14-14-22,29.54,586800,-39.71868278130851,0,40.59184694290161,489,"{'default': {'policy_loss': -0.13643653690814972, 'vf_explained_var': 0.03180749714374542, 'vf_loss': 408.7061462402344, 'kl': 0.008405119180679321, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.735774993896484, 'total_loss': 408.61279296875}, 'sample_time_ms': 39921.733, 'num_steps_trained': 586800, 'num_steps_sampled': 586800, 'update_time_ms': 2.571, 'grad_time_ms': 373.202, 'load_time_ms': 0.701}",489,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+19803.04034948349,15360,8.000000400091483,1200,cda-server-2,19803.04034948349,f93d3d6710754a149751678a58e67540,36,1757074502,588000,-85.63979802518773,2334300,{},10.157.146.2,False,{},2025-09-05_14-15-02,30.16,588000,-41.396943969782285,0,39.71293306350708,490,"{'default': {'policy_loss': -0.13636527955532074, 'vf_explained_var': 0.022644314914941788, 'vf_loss': 420.68121337890625, 'kl': 0.008688322268426418, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.620092391967773, 'total_loss': 420.5893859863281}, 'sample_time_ms': 39910.072, 'num_steps_trained': 588000, 'num_steps_sampled': 588000, 'update_time_ms': 2.578, 'grad_time_ms': 371.035, 'load_time_ms': 0.698}",490,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+19842.377539634705,15395,8.000000400091483,1200,cda-server-2,19842.377539634705,f93d3d6710754a149751678a58e67540,35,1757074541,589200,-85.59402990327763,2334300,{},10.157.146.2,False,{},2025-09-05_14-15-41,32.28,589200,-46.18148320570909,0,39.3371901512146,491,"{'default': {'policy_loss': -0.1396397054195404, 'vf_explained_var': 0.02550547569990158, 'vf_loss': 377.8067932128906, 'kl': 0.008262661285698414, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.705838203430176, 'total_loss': 377.7095031738281}, 'sample_time_ms': 39814.82, 'num_steps_trained': 589200, 'num_steps_sampled': 589200, 'update_time_ms': 2.57, 'grad_time_ms': 367.783, 'load_time_ms': 0.686}",491,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+19883.048528671265,15439,6.00021856272285,1200,cda-server-2,19883.048528671265,f93d3d6710754a149751678a58e67540,44,1757074582,590400,-86.6814636139849,2334300,{},10.157.146.2,False,{},2025-09-05_14-16-22,31.41,590400,-44.51757226361028,0,40.67098903656006,492,"{'default': {'policy_loss': -0.13649925589561462, 'vf_explained_var': 0.022886481136083603, 'vf_loss': 422.7644348144531, 'kl': 0.008668001741170883, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.687355041503906, 'total_loss': 422.6723327636719}, 'sample_time_ms': 39851.605, 'num_steps_trained': 590400, 'num_steps_sampled': 590400, 'update_time_ms': 2.585, 'grad_time_ms': 367.193, 'load_time_ms': 0.682}",492,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+19923.076580286026,15485,8.000000458081152,1200,cda-server-2,19923.076580286026,f93d3d6710754a149751678a58e67540,46,1757074622,591600,-86.6814636139849,2334300,{},10.157.146.2,False,{},2025-09-05_14-17-02,27.82,591600,-37.77943244842079,0,40.02805161476135,493,"{'default': {'policy_loss': -0.1339786797761917, 'vf_explained_var': 0.08579594641923904, 'vf_loss': 409.22735595703125, 'kl': 0.0083905765786767, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.192777633666992, 'total_loss': 409.1363525390625}, 'sample_time_ms': 39749.428, 'num_steps_trained': 591600, 'num_steps_sampled': 591600, 'update_time_ms': 2.543, 'grad_time_ms': 368.027, 'load_time_ms': 0.677}",493,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+19963.19856619835,15531,8.000000458081152,1200,cda-server-2,19963.19856619835,f93d3d6710754a149751678a58e67540,46,1757074662,592800,-85.8397768368899,2334300,{},10.157.146.2,False,{},2025-09-05_14-17-42,26.24,592800,-34.69008628497195,0,40.121985912323,494,"{'default': {'policy_loss': -0.14067532122135162, 'vf_explained_var': 0.034751713275909424, 'vf_loss': 391.3916015625, 'kl': 0.008091585710644722, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.218029975891113, 'total_loss': 391.2923889160156}, 'sample_time_ms': 39744.278, 'num_steps_trained': 592800, 'num_steps_sampled': 592800, 'update_time_ms': 2.514, 'grad_time_ms': 365.691, 'load_time_ms': 0.665}",494,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+20005.221843242645,15573,8.00000919712825,1200,cda-server-2,20005.221843242645,f93d3d6710754a149751678a58e67540,42,1757074704,594000,-85.8397768368899,2334300,{},10.157.146.2,False,{},2025-09-05_14-18-24,26.63,594000,-35.37623874255124,0,42.023277044296265,495,"{'default': {'policy_loss': -0.13224057853221893, 'vf_explained_var': 0.02846728451550007, 'vf_loss': 382.88555908203125, 'kl': 0.009056363254785538, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.894048690795898, 'total_loss': 382.7996826171875}, 'sample_time_ms': 39863.566, 'num_steps_trained': 594000, 'num_steps_sampled': 594000, 'update_time_ms': 2.497, 'grad_time_ms': 365.714, 'load_time_ms': 0.662}",495,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+20045.239953041077,15615,8.00000919712825,1200,cda-server-2,20045.239953041077,f93d3d6710754a149751678a58e67540,42,1757074744,595200,-84.91062227352776,2334300,{},10.157.146.2,False,{},2025-09-05_14-19-04,27.86,595200,-37.5151541852313,0,40.0181097984314,496,"{'default': {'policy_loss': -0.13735663890838623, 'vf_explained_var': 0.022735271602869034, 'vf_loss': 406.64739990234375, 'kl': 0.008234377019107342, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.736675262451172, 'total_loss': 406.5522766113281}, 'sample_time_ms': 39889.432, 'num_steps_trained': 595200, 'num_steps_sampled': 595200, 'update_time_ms': 2.495, 'grad_time_ms': 367.014, 'load_time_ms': 0.668}",496,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+20087.154738664627,15659,8.00000049319098,1200,cda-server-2,20087.154738664627,f93d3d6710754a149751678a58e67540,44,1757074786,596400,-84.91062227352776,2334300,{},10.157.146.2,False,{},2025-09-05_14-19-46,29.39,596400,-40.65002159520589,0,41.914785623550415,497,"{'default': {'policy_loss': -0.1364763081073761, 'vf_explained_var': 0.033597905188798904, 'vf_loss': 400.003173828125, 'kl': 0.009791169315576553, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.160492897033691, 'total_loss': 399.9168701171875}, 'sample_time_ms': 40072.694, 'num_steps_trained': 596400, 'num_steps_sampled': 596400, 'update_time_ms': 2.531, 'grad_time_ms': 367.017, 'load_time_ms': 0.66}",497,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+20128.639589071274,15709,6.000110804001552,1200,cda-server-2,20128.639589071274,f93d3d6710754a149751678a58e67540,50,1757074828,597600,-85.96366428401674,2334300,{},10.157.146.2,False,{},2025-09-05_14-20-28,25.44,597600,-33.07730120287409,0,41.48485040664673,498,"{'default': {'policy_loss': -0.15000402927398682, 'vf_explained_var': 0.08519372344017029, 'vf_loss': 333.36865234375, 'kl': 0.00850367359817028, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.4818696975708, 'total_loss': 333.26226806640625}, 'sample_time_ms': 40215.502, 'num_steps_trained': 597600, 'num_steps_sampled': 597600, 'update_time_ms': 2.561, 'grad_time_ms': 366.938, 'load_time_ms': 0.656}",498,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+20169.56983447075,15752,6.000000801228012,1200,cda-server-2,20169.56983447075,f93d3d6710754a149751678a58e67540,43,1757074869,598800,-85.96366428401674,2334300,{},10.157.146.2,False,{},2025-09-05_14-21-09,25.98,598800,-34.33844141378779,0,40.9302453994751,499,"{'default': {'policy_loss': -0.13960006833076477, 'vf_explained_var': 0.029672257602214813, 'vf_loss': 434.6817626953125, 'kl': 0.008272922597825527, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.714367866516113, 'total_loss': 434.5845947265625}, 'sample_time_ms': 40249.556, 'num_steps_trained': 598800, 'num_steps_sampled': 598800, 'update_time_ms': 2.526, 'grad_time_ms': 366.687, 'load_time_ms': 0.662}",499,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+20210.086619853973,15802,8.000000415842072,1200,cda-server-2,20210.086619853973,f93d3d6710754a149751678a58e67540,50,1757074909,600000,-85.96366428401674,2334300,{},10.157.146.2,False,{},2025-09-05_14-21-49,25.98,600000,-34.44519620225107,0,40.51678538322449,500,"{'default': {'policy_loss': -0.13866376876831055, 'vf_explained_var': 0.04569260776042938, 'vf_loss': 411.08221435546875, 'kl': 0.008157772943377495, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.13154125213623, 'total_loss': 410.9853515625}, 'sample_time_ms': 40327.356, 'num_steps_trained': 600000, 'num_steps_sampled': 600000, 'update_time_ms': 2.538, 'grad_time_ms': 369.161, 'load_time_ms': 0.664}",500,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+20251.432945013046,15847,8.000000415842072,1200,cda-server-2,20251.432945013046,f93d3d6710754a149751678a58e67540,45,1757074951,601200,-86.55434044024814,2334300,{},10.157.146.2,False,{},2025-09-05_14-22-31,24.86,601200,-32.15135675357966,0,41.346325159072876,501,"{'default': {'policy_loss': -0.13715995848178864, 'vf_explained_var': 0.05047551915049553, 'vf_loss': 439.5118408203125, 'kl': 0.008018026128411293, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.142935752868652, 'total_loss': 439.415771484375}, 'sample_time_ms': 40528.084, 'num_steps_trained': 601200, 'num_steps_sampled': 601200, 'update_time_ms': 2.651, 'grad_time_ms': 369.254, 'load_time_ms': 0.663}",501,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+20291.64357972145,15893,6.000056159234353,1200,cda-server-2,20291.64357972145,f93d3d6710754a149751678a58e67540,46,1757074991,602400,-86.55434044024814,2334300,{},10.157.146.2,False,{},2025-09-05_14-23-11,26.44,602400,-34.82393996981157,0,40.21063470840454,502,"{'default': {'policy_loss': -0.13726426661014557, 'vf_explained_var': 0.062313273549079895, 'vf_loss': 370.9449462890625, 'kl': 0.008352917619049549, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.543486595153809, 'total_loss': 370.8504638671875}, 'sample_time_ms': 40481.424, 'num_steps_trained': 602400, 'num_steps_sampled': 602400, 'update_time_ms': 2.651, 'grad_time_ms': 369.78, 'load_time_ms': 0.667}",502,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+20331.586344718933,15940,8.000000504677478,1200,cda-server-2,20331.586344718933,f93d3d6710754a149751678a58e67540,47,1757075031,603600,-85.7094352491949,2334300,{},10.157.146.2,False,{},2025-09-05_14-23-51,26.92,603600,-35.37717998373334,0,39.9427649974823,503,"{'default': {'policy_loss': -0.12937769293785095, 'vf_explained_var': 0.04175831377506256, 'vf_loss': 398.95269775390625, 'kl': 0.008740791119635105, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.41187858581543, 'total_loss': 398.8681335449219}, 'sample_time_ms': 40474.443, 'num_steps_trained': 603600, 'num_steps_sampled': 603600, 'update_time_ms': 2.716, 'grad_time_ms': 368.202, 'load_time_ms': 0.655}",503,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+20371.892796754837,15983,8.000000504677478,1200,cda-server-2,20371.892796754837,f93d3d6710754a149751678a58e67540,43,1757075071,604800,-85.7161709855374,2334300,{},10.157.146.2,False,{},2025-09-05_14-24-31,25.67,604800,-33.77523133799502,0,40.30645203590393,504,"{'default': {'policy_loss': -0.14479316771030426, 'vf_explained_var': 0.04283551499247551, 'vf_loss': 436.3804626464844, 'kl': 0.009312372654676437, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.954126358032227, 'total_loss': 436.2833557128906}, 'sample_time_ms': 40493.168, 'num_steps_trained': 604800, 'num_steps_sampled': 604800, 'update_time_ms': 2.73, 'grad_time_ms': 367.959, 'load_time_ms': 0.65}",504,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+20412.24222302437,16031,6.000446129896809,1200,cda-server-2,20412.24222302437,f93d3d6710754a149751678a58e67540,48,1757075112,606000,-85.7161709855374,2334300,{},10.157.146.2,False,{},2025-09-05_14-25-12,26.09,606000,-34.77045184651758,0,40.34942626953125,505,"{'default': {'policy_loss': -0.1371482014656067, 'vf_explained_var': 0.054061904549598694, 'vf_loss': 385.3546447753906, 'kl': 0.008608591742813587, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.279407501220703, 'total_loss': 385.2615966796875}, 'sample_time_ms': 40323.479, 'num_steps_trained': 606000, 'num_steps_sampled': 606000, 'update_time_ms': 2.717, 'grad_time_ms': 370.245, 'load_time_ms': 0.647}",505,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+20452.28269290924,16071,6.000473090570243,1200,cda-server-2,20452.28269290924,f93d3d6710754a149751678a58e67540,40,1757075152,607200,-85.7161709855374,2334300,{},10.157.146.2,False,{},2025-09-05_14-25-52,28.31,607200,-38.343585752033356,0,40.04046988487244,506,"{'default': {'policy_loss': -0.12930390238761902, 'vf_explained_var': 0.03460746258497238, 'vf_loss': 408.0931396484375, 'kl': 0.010008606128394604, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.565309524536133, 'total_loss': 408.0151672363281}, 'sample_time_ms': 40324.19, 'num_steps_trained': 607200, 'num_steps_sampled': 607200, 'update_time_ms': 2.771, 'grad_time_ms': 371.738, 'load_time_ms': 0.656}",506,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+20492.717314958572,16117,6.000553213117561,1200,cda-server-2,20492.717314958572,f93d3d6710754a149751678a58e67540,46,1757075192,608400,-85.03848986896722,2334300,{},10.157.146.2,False,{},2025-09-05_14-26-32,28.33,608400,-38.41007932821057,0,40.434622049331665,507,"{'default': {'policy_loss': -0.14186421036720276, 'vf_explained_var': 0.030819382518529892, 'vf_loss': 412.6253662109375, 'kl': 0.010083728469908237, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.005504608154297, 'total_loss': 412.5352478027344}, 'sample_time_ms': 40174.714, 'num_steps_trained': 608400, 'num_steps_sampled': 608400, 'update_time_ms': 2.8, 'grad_time_ms': 373.193, 'load_time_ms': 0.669}",507,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+20532.833205223083,16157,6.000553213117561,1200,cda-server-2,20532.833205223083,f93d3d6710754a149751678a58e67540,40,1757075232,609600,-84.88562521386105,2334300,{},10.157.146.2,False,{},2025-09-05_14-27-12,28.26,609600,-37.928016050833016,0,40.11589026451111,508,"{'default': {'policy_loss': -0.144821435213089, 'vf_explained_var': 0.07547377794981003, 'vf_loss': 363.8711853027344, 'kl': 0.009893114678561687, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.48221492767334, 'total_loss': 363.7770690917969}, 'sample_time_ms': 40039.774, 'num_steps_trained': 609600, 'num_steps_sampled': 609600, 'update_time_ms': 2.785, 'grad_time_ms': 371.25, 'load_time_ms': 0.666}",508,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+20573.274849653244,16199,6.000553213117561,1200,cda-server-2,20573.274849653244,f93d3d6710754a149751678a58e67540,42,1757075273,610800,-86.24327239548163,2334300,{},10.157.146.2,False,{},2025-09-05_14-27-53,27.58,610800,-36.680369297630975,0,40.44164443016052,509,"{'default': {'policy_loss': -0.12990336120128632, 'vf_explained_var': 0.056587424129247665, 'vf_loss': 404.0091247558594, 'kl': 0.010135078802704811, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.534662246704102, 'total_loss': 403.93115234375}, 'sample_time_ms': 39992.361, 'num_steps_trained': 610800, 'num_steps_sampled': 610800, 'update_time_ms': 2.792, 'grad_time_ms': 369.865, 'load_time_ms': 0.656}",509,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+20613.658250808716,16248,6.001138177482642,1200,cda-server-2,20613.658250808716,f93d3d6710754a149751678a58e67540,49,1757075313,612000,-89.20945229266752,2334300,{},10.157.146.2,False,{},2025-09-05_14-28-33,26.95,612000,-36.127773652847715,0,40.3834011554718,510,"{'default': {'policy_loss': -0.1344398856163025, 'vf_explained_var': 0.02576257847249508, 'vf_loss': 472.9837341308594, 'kl': 0.007735592778772116, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.802229881286621, 'total_loss': 472.8889465332031}, 'sample_time_ms': 39979.245, 'num_steps_trained': 612000, 'num_steps_sampled': 612000, 'update_time_ms': 2.785, 'grad_time_ms': 369.724, 'load_time_ms': 0.656}",510,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+20654.676233291626,16295,6.001138177482642,1200,cda-server-2,20654.676233291626,f93d3d6710754a149751678a58e67540,47,1757075354,613200,-89.20945229266752,2334300,{},10.157.146.2,False,{},2025-09-05_14-29-14,25.45,613200,-33.57853404915806,0,41.017982482910156,511,"{'default': {'policy_loss': -0.13745377957820892, 'vf_explained_var': 0.03662867844104767, 'vf_loss': 421.7291564941406, 'kl': 0.008744774386286736, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.412452697753906, 'total_loss': 421.6365661621094}, 'sample_time_ms': 39944.77, 'num_steps_trained': 613200, 'num_steps_sampled': 613200, 'update_time_ms': 2.67, 'grad_time_ms': 371.45, 'load_time_ms': 0.66}",511,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+20694.886693954468,16344,6.000767261557777,1200,cda-server-2,20694.886693954468,f93d3d6710754a149751678a58e67540,49,1757075394,614400,-87.58867145206082,2334300,{},10.157.146.2,False,{},2025-09-05_14-29-54,25.36,614400,-33.025224515848656,0,40.2104606628418,512,"{'default': {'policy_loss': -0.1390947699546814, 'vf_explained_var': 0.02490709163248539, 'vf_loss': 436.81866455078125, 'kl': 0.009162692353129387, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.706680297851562, 'total_loss': 436.7265319824219}, 'sample_time_ms': 39944.061, 'num_steps_trained': 614400, 'num_steps_sampled': 614400, 'update_time_ms': 2.695, 'grad_time_ms': 372.203, 'load_time_ms': 0.662}",512,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+20734.770723819733,16388,8.00000040060007,1200,cda-server-2,20734.770723819733,f93d3d6710754a149751678a58e67540,44,1757075434,615600,-87.23762631764686,2334300,{},10.157.146.2,False,{},2025-09-05_14-30-34,25.78,615600,-33.7752991776846,0,39.88402986526489,513,"{'default': {'policy_loss': -0.13899606466293335, 'vf_explained_var': 0.029234370216727257, 'vf_loss': 430.3753662109375, 'kl': 0.007987022399902344, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.364107131958008, 'total_loss': 430.27734375}, 'sample_time_ms': 39936.933, 'num_steps_trained': 615600, 'num_steps_sampled': 615600, 'update_time_ms': 2.63, 'grad_time_ms': 373.529, 'load_time_ms': 0.66}",513,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+20775.466336250305,16439,8.00000040060007,1200,cda-server-2,20775.466336250305,f93d3d6710754a149751678a58e67540,51,1757075475,616800,-85.95267308500354,2334300,{},10.157.146.2,False,{},2025-09-05_14-31-15,25.0,616800,-32.53802783468566,0,40.69561243057251,514,"{'default': {'policy_loss': -0.13542550802230835, 'vf_explained_var': 0.0527249313890934, 'vf_loss': 398.5213623046875, 'kl': 0.007904285565018654, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.742549896240234, 'total_loss': 398.4264221191406}, 'sample_time_ms': 39973.188, 'num_steps_trained': 616800, 'num_steps_sampled': 616800, 'update_time_ms': 2.614, 'grad_time_ms': 376.201, 'load_time_ms': 0.669}",514,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+20816.085313796997,16480,6.0002891595812535,1200,cda-server-2,20816.085313796997,f93d3d6710754a149751678a58e67540,41,1757075516,618000,-87.73695770280784,2334300,{},10.157.146.2,False,{},2025-09-05_14-31-56,26.58,618000,-35.17154999440189,0,40.618977546691895,515,"{'default': {'policy_loss': -0.11634601652622223, 'vf_explained_var': 0.03796348348259926, 'vf_loss': 406.5808410644531, 'kl': 0.012498866766691208, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.313511848449707, 'total_loss': 406.528564453125}, 'sample_time_ms': 40002.045, 'num_steps_trained': 618000, 'num_steps_sampled': 618000, 'update_time_ms': 2.642, 'grad_time_ms': 374.292, 'load_time_ms': 0.669}",515,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+20856.097910165787,16519,6.0002891595812535,1200,cda-server-2,20856.097910165787,f93d3d6710754a149751678a58e67540,39,1757075556,619200,-87.73695770280784,2334300,{},10.157.146.2,False,{},2025-09-05_14-32-36,26.68,619200,-34.90468818918797,0,40.01259636878967,516,"{'default': {'policy_loss': -0.14631710946559906, 'vf_explained_var': 0.046725690364837646, 'vf_loss': 385.248291015625, 'kl': 0.008873436599969864, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.728023529052734, 'total_loss': 385.1474609375}, 'sample_time_ms': 39999.352, 'num_steps_trained': 619200, 'num_steps_sampled': 619200, 'update_time_ms': 2.566, 'grad_time_ms': 374.262, 'load_time_ms': 0.676}",516,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+20896.373901605606,16557,8.00000041666353,1200,cda-server-2,20896.373901605606,f93d3d6710754a149751678a58e67540,38,1757075596,620400,-87.73695770280784,2334300,{},10.157.146.2,False,{},2025-09-05_14-33-16,30.34,620400,-41.09411464656112,0,40.275991439819336,517,"{'default': {'policy_loss': -0.14036914706230164, 'vf_explained_var': 0.04946672171354294, 'vf_loss': 381.95257568359375, 'kl': 0.00764453923329711, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.40572452545166, 'total_loss': 381.8514099121094}, 'sample_time_ms': 39983.294, 'num_steps_trained': 620400, 'num_steps_sampled': 620400, 'update_time_ms': 2.538, 'grad_time_ms': 374.528, 'load_time_ms': 0.67}",517,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+20936.602957248688,16595,8.00000041666353,1200,cda-server-2,20936.602957248688,f93d3d6710754a149751678a58e67540,38,1757075636,621600,-85.03472126362504,2334300,{},10.157.146.2,False,{},2025-09-05_14-33-56,30.95,621600,-42.56399816656214,0,40.229055643081665,518,"{'default': {'policy_loss': -0.1325109601020813, 'vf_explained_var': 0.05865969881415367, 'vf_loss': 419.8251953125, 'kl': 0.009333347901701927, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.205665588378906, 'total_loss': 419.74053955078125}, 'sample_time_ms': 39995.228, 'num_steps_trained': 621600, 'num_steps_sampled': 621600, 'update_time_ms': 2.569, 'grad_time_ms': 373.911, 'load_time_ms': 0.668}",518,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+20977.949631214142,16647,6.001026904559085,1200,cda-server-2,20977.949631214142,f93d3d6710754a149751678a58e67540,52,1757075678,622800,-85.03472126362504,2334300,{},10.157.146.2,False,{},2025-09-05_14-34-38,27.74,622800,-37.30144573992297,0,41.3466739654541,519,"{'default': {'policy_loss': -0.14595156908035278, 'vf_explained_var': 0.05899224802851677, 'vf_loss': 427.5881042480469, 'kl': 0.009316666051745415, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.000308990478516, 'total_loss': 427.48992919921875}, 'sample_time_ms': 40082.817, 'num_steps_trained': 622800, 'num_steps_sampled': 622800, 'update_time_ms': 2.572, 'grad_time_ms': 376.802, 'load_time_ms': 0.67}",519,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+21018.741209983826,16687,6.1502606890742335,1200,cda-server-2,21018.741209983826,f93d3d6710754a149751678a58e67540,40,1757075718,624000,-83.79234345323351,2334300,{},10.157.146.2,False,{},2025-09-05_14-35-18,26.13,624000,-33.75889649721095,0,40.79157876968384,520,"{'default': {'policy_loss': -0.13474713265895844, 'vf_explained_var': 0.042650096118450165, 'vf_loss': 400.70587158203125, 'kl': 0.009528085589408875, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.204262733459473, 'total_loss': 400.61993408203125}, 'sample_time_ms': 40123.423, 'num_steps_trained': 624000, 'num_steps_sampled': 624000, 'update_time_ms': 2.58, 'grad_time_ms': 376.981, 'load_time_ms': 0.685}",520,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+21059.625708818436,16729,8.000006940116855,1200,cda-server-2,21059.625708818436,f93d3d6710754a149751678a58e67540,42,1757075759,625200,-84.95046762506877,2334300,{},10.157.146.2,False,{},2025-09-05_14-35-59,27.9,625200,-37.07516264768049,0,40.884498834609985,521,"{'default': {'policy_loss': -0.14986549317836761, 'vf_explained_var': 0.052132487297058105, 'vf_loss': 400.9820556640625, 'kl': 0.009289098903536797, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.440425872802734, 'total_loss': 400.87982177734375}, 'sample_time_ms': 40109.847, 'num_steps_trained': 625200, 'num_steps_sampled': 625200, 'update_time_ms': 2.627, 'grad_time_ms': 377.182, 'load_time_ms': 0.689}",521,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+21099.643179178238,16774,8.000006940116855,1200,cda-server-2,21099.643179178238,f93d3d6710754a149751678a58e67540,45,1757075799,626400,-84.95046762506877,2334300,{},10.157.146.2,False,{},2025-09-05_14-36-39,28.4,626400,-38.124661572304696,0,40.017470359802246,522,"{'default': {'policy_loss': -0.13491028547286987, 'vf_explained_var': 0.03874285891652107, 'vf_loss': 360.3059997558594, 'kl': 0.010250229388475418, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.114302635192871, 'total_loss': 360.2236328125}, 'sample_time_ms': 40089.758, 'num_steps_trained': 626400, 'num_steps_sampled': 626400, 'update_time_ms': 2.603, 'grad_time_ms': 377.926, 'load_time_ms': 0.691}",522,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+21140.14783525467,16819,6.000108492569077,1200,cda-server-2,21140.14783525467,f93d3d6710754a149751678a58e67540,45,1757075840,627600,-85.55167431562496,2334300,{},10.157.146.2,False,{},2025-09-05_14-37-20,27.44,627600,-36.817722146684034,0,40.504656076431274,523,"{'default': {'policy_loss': -0.1401536911725998, 'vf_explained_var': 0.07532059401273727, 'vf_loss': 371.28155517578125, 'kl': 0.009450189769268036, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.133581161499023, 'total_loss': 371.1898193359375}, 'sample_time_ms': 40151.926, 'num_steps_trained': 627600, 'num_steps_sampled': 627600, 'update_time_ms': 2.642, 'grad_time_ms': 377.766, 'load_time_ms': 0.7}",523,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+21180.93270087242,16869,6.000108492569077,1200,cda-server-2,21180.93270087242,f93d3d6710754a149751678a58e67540,50,1757075881,628800,-85.55167431562496,2334300,{},10.157.146.2,False,{},2025-09-05_14-38-01,25.12,628800,-32.518035974438554,0,40.784865617752075,524,"{'default': {'policy_loss': -0.13073159754276276, 'vf_explained_var': 0.06419798731803894, 'vf_loss': 389.27947998046875, 'kl': 0.00978272594511509, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.344450950622559, 'total_loss': 389.19891357421875}, 'sample_time_ms': 40161.647, 'num_steps_trained': 628800, 'num_steps_sampled': 628800, 'update_time_ms': 2.662, 'grad_time_ms': 376.962, 'load_time_ms': 0.703}",524,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+21221.287046432495,16912,6.000106744409435,1200,cda-server-2,21221.287046432495,f93d3d6710754a149751678a58e67540,43,1757075921,630000,-88.32424950797878,2334300,{},10.157.146.2,False,{},2025-09-05_14-38-41,24.36,630000,-30.71452435585007,0,40.35434556007385,525,"{'default': {'policy_loss': -0.13822096586227417, 'vf_explained_var': 0.060672350227832794, 'vf_loss': 402.2850646972656, 'kl': 0.007646983489394188, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.345197677612305, 'total_loss': 402.18609619140625}, 'sample_time_ms': 40134.786, 'num_steps_trained': 630000, 'num_steps_sampled': 630000, 'update_time_ms': 2.677, 'grad_time_ms': 377.352, 'load_time_ms': 0.706}",525,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+21261.6375143528,16953,6.000069448296343,1200,cda-server-2,21261.6375143528,f93d3d6710754a149751678a58e67540,41,1757075961,631200,-88.32424950797878,2334300,{},10.157.146.2,False,{},2025-09-05_14-39-21,27.54,631200,-36.497256991940915,0,40.350467920303345,526,"{'default': {'policy_loss': -0.13702529668807983, 'vf_explained_var': 0.08455149829387665, 'vf_loss': 374.6522521972656, 'kl': 0.013061380945146084, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.237441062927246, 'total_loss': 374.5821533203125}, 'sample_time_ms': 40170.241, 'num_steps_trained': 631200, 'num_steps_sampled': 631200, 'update_time_ms': 2.714, 'grad_time_ms': 375.685, 'load_time_ms': 0.695}",526,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+21301.98109316826,17001,8.00000040000017,1200,cda-server-2,21301.98109316826,f93d3d6710754a149751678a58e67540,48,1757076002,632400,-83.86731366834046,2334300,{},10.157.146.2,False,{},2025-09-05_14-40-02,27.07,632400,-36.09882689192159,0,40.343578815460205,527,"{'default': {'policy_loss': -0.13472793996334076, 'vf_explained_var': 0.021226312965154648, 'vf_loss': 427.7275390625, 'kl': 0.008923035115003586, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.301709175109863, 'total_loss': 427.6385498046875}, 'sample_time_ms': 40177.395, 'num_steps_trained': 632400, 'num_steps_sampled': 632400, 'update_time_ms': 2.675, 'grad_time_ms': 375.295, 'load_time_ms': 0.702}",527,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+21341.855898857117,17037,8.000000736462203,1200,cda-server-2,21341.855898857117,f93d3d6710754a149751678a58e67540,36,1757076042,633600,-83.86731366834046,2334300,{},10.157.146.2,False,{},2025-09-05_14-40-42,29.34,633600,-40.292218418516484,0,39.87480568885803,528,"{'default': {'policy_loss': -0.1266874223947525, 'vf_explained_var': 0.033090751618146896, 'vf_loss': 404.0589294433594, 'kl': 0.009010829962790012, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.531739234924316, 'total_loss': 403.9783935546875}, 'sample_time_ms': 40139.585, 'num_steps_trained': 633600, 'num_steps_sampled': 633600, 'update_time_ms': 2.673, 'grad_time_ms': 377.683, 'load_time_ms': 0.703}",528,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+21381.955222845078,17075,8.000000736462203,1200,cda-server-2,21381.955222845078,f93d3d6710754a149751678a58e67540,38,1757076082,634800,-85.48003616012507,2334300,{},10.157.146.2,False,{},2025-09-05_14-41-22,31.43,634800,-43.63189967325557,0,40.099323987960815,529,"{'default': {'policy_loss': -0.13200610876083374, 'vf_explained_var': 0.020573828369379044, 'vf_loss': 401.2537536621094, 'kl': 0.010963203385472298, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.602960586547852, 'total_loss': 401.1779479980469}, 'sample_time_ms': 40016.601, 'num_steps_trained': 634800, 'num_steps_sampled': 634800, 'update_time_ms': 2.703, 'grad_time_ms': 375.935, 'load_time_ms': 0.704}",529,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+21422.73836350441,17129,6.001627220016653,1200,cda-server-2,21422.73836350441,f93d3d6710754a149751678a58e67540,54,1757076123,636000,-85.77017872295086,2334300,{},10.157.146.2,False,{},2025-09-05_14-42-03,26.12,636000,-33.69174230147756,0,40.783140659332275,530,"{'default': {'policy_loss': -0.1365543156862259, 'vf_explained_var': 0.031168784946203232, 'vf_loss': 401.7265625, 'kl': 0.008337818086147308, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.2412691116333, 'total_loss': 401.6327209472656}, 'sample_time_ms': 40016.005, 'num_steps_trained': 636000, 'num_steps_sampled': 636000, 'update_time_ms': 2.679, 'grad_time_ms': 375.713, 'load_time_ms': 0.688}",530,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+21463.041632413864,17174,6.001627220016653,1200,cda-server-2,21463.041632413864,f93d3d6710754a149751678a58e67540,45,1757076163,637200,-85.77017872295086,2334300,{},10.157.146.2,False,{},2025-09-05_14-42-43,24.71,637200,-31.36218618651244,0,40.303268909454346,531,"{'default': {'policy_loss': -0.1436907947063446, 'vf_explained_var': 0.05263898894190788, 'vf_loss': 360.8766784667969, 'kl': 0.008187096565961838, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.037003517150879, 'total_loss': 360.7749938964844}, 'sample_time_ms': 39959.667, 'num_steps_trained': 637200, 'num_steps_sampled': 637200, 'update_time_ms': 2.617, 'grad_time_ms': 373.985, 'load_time_ms': 0.682}",531,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+21503.67359995842,17227,6.0012564541759215,1200,cda-server-2,21503.67359995842,f93d3d6710754a149751678a58e67540,53,1757076204,638400,-84.19027554823711,2334300,{},10.157.146.2,False,{},2025-09-05_14-43-24,24.13,638400,-30.011943109466447,0,40.631967544555664,532,"{'default': {'policy_loss': -0.13797849416732788, 'vf_explained_var': 0.06182016804814339, 'vf_loss': 334.6796875, 'kl': 0.0087376544252038, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.87246322631836, 'total_loss': 334.58648681640625}, 'sample_time_ms': 40022.932, 'num_steps_trained': 638400, 'num_steps_sampled': 638400, 'update_time_ms': 2.639, 'grad_time_ms': 372.141, 'load_time_ms': 0.674}",532,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+21543.943041563034,17268,6.000000803274232,1200,cda-server-2,21543.943041563034,f93d3d6710754a149751678a58e67540,41,1757076244,639600,-84.19027554823711,2334300,{},10.157.146.2,False,{},2025-09-05_14-44-04,25.5,639600,-32.78777819576907,0,40.26944160461426,533,"{'default': {'policy_loss': -0.13656236231327057, 'vf_explained_var': 0.03984770551323891, 'vf_loss': 414.0894470214844, 'kl': 0.009187940508127213, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.817279815673828, 'total_loss': 414.0}, 'sample_time_ms': 39999.228, 'num_steps_trained': 639600, 'num_steps_sampled': 639600, 'update_time_ms': 2.631, 'grad_time_ms': 372.315, 'load_time_ms': 0.664}",533,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+21584.77645468712,17304,6.000295263735502,1200,cda-server-2,21584.77645468712,f93d3d6710754a149751678a58e67540,36,1757076285,640800,-84.12225116287291,2334300,{},10.157.146.2,False,{},2025-09-05_14-44-45,27.78,640800,-37.22280516998744,0,40.83341312408447,534,"{'default': {'policy_loss': -0.14360135793685913, 'vf_explained_var': 0.022074606269598007, 'vf_loss': 434.23858642578125, 'kl': 0.008302503265440464, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.709325790405273, 'total_loss': 434.1375427246094}, 'sample_time_ms': 40004.655, 'num_steps_trained': 640800, 'num_steps_sampled': 640800, 'update_time_ms': 2.654, 'grad_time_ms': 371.662, 'load_time_ms': 0.659}",534,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+21625.724634170532,17352,6.000295263735502,1200,cda-server-2,21625.724634170532,f93d3d6710754a149751678a58e67540,48,1757076326,642000,-84.584110461089,2334300,{},10.157.146.2,False,{},2025-09-05_14-45-26,28.64,642000,-39.416849601800074,0,40.948179483413696,535,"{'default': {'policy_loss': -0.13637404143810272, 'vf_explained_var': 0.03914839029312134, 'vf_loss': 429.77545166015625, 'kl': 0.008325023576617241, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.143048286437988, 'total_loss': 429.6817626953125}, 'sample_time_ms': 40062.61, 'num_steps_trained': 642000, 'num_steps_sampled': 642000, 'update_time_ms': 2.656, 'grad_time_ms': 373.063, 'load_time_ms': 0.664}",535,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+21667.36723637581,17399,6.000900282866732,1200,cda-server-2,21667.36723637581,f93d3d6710754a149751678a58e67540,47,1757076367,643200,-84.584110461089,2334300,{},10.157.146.2,False,{},2025-09-05_14-46-07,25.94,643200,-34.256976155702205,0,41.64260220527649,536,"{'default': {'policy_loss': -0.1363545060157776, 'vf_explained_var': 0.07620462775230408, 'vf_loss': 387.1236877441406, 'kl': 0.009119709953665733, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.343320846557617, 'total_loss': 387.0340576171875}, 'sample_time_ms': 40192.39, 'num_steps_trained': 643200, 'num_steps_sampled': 643200, 'update_time_ms': 2.653, 'grad_time_ms': 372.447, 'load_time_ms': 0.654}",536,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+21707.32088971138,17448,6.000900282866732,1200,cda-server-2,21707.32088971138,f93d3d6710754a149751678a58e67540,49,1757076407,644400,-84.9363017251409,2334300,{},10.157.146.2,False,{},2025-09-05_14-46-47,24.38,644400,-30.912249337067678,0,39.95365333557129,537,"{'default': {'policy_loss': -0.13352756202220917, 'vf_explained_var': 0.043895695358514786, 'vf_loss': 380.5989990234375, 'kl': 0.008354444056749344, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.930776596069336, 'total_loss': 380.50830078125}, 'sample_time_ms': 40154.158, 'num_steps_trained': 644400, 'num_steps_sampled': 644400, 'update_time_ms': 2.717, 'grad_time_ms': 371.649, 'load_time_ms': 0.647}",537,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+21747.847881555557,17492,6.000634538585563,1200,cda-server-2,21747.847881555557,f93d3d6710754a149751678a58e67540,44,1757076448,645600,-85.46244550693254,2334300,{},10.157.146.2,False,{},2025-09-05_14-47-28,26.32,645600,-34.52521580176145,0,40.526991844177246,538,"{'default': {'policy_loss': -0.13214126229286194, 'vf_explained_var': 0.05837244540452957, 'vf_loss': 355.2021484375, 'kl': 0.00931335799396038, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.388319969177246, 'total_loss': 355.1177673339844}, 'sample_time_ms': 40221.856, 'num_steps_trained': 645600, 'num_steps_sampled': 645600, 'update_time_ms': 2.672, 'grad_time_ms': 369.162, 'load_time_ms': 0.654}",538,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+21788.450627565384,17541,6.00043276885083,1200,cda-server-2,21788.450627565384,f93d3d6710754a149751678a58e67540,49,1757076489,646800,-85.78097174710707,2334300,{},10.157.146.2,False,{},2025-09-05_14-48-09,25.97,646800,-34.03104488074714,0,40.60274600982666,539,"{'default': {'policy_loss': -0.1255151480436325, 'vf_explained_var': 0.032845716923475266, 'vf_loss': 405.42669677734375, 'kl': 0.009621667675673962, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.624492645263672, 'total_loss': 405.3504638671875}, 'sample_time_ms': 40271.485, 'num_steps_trained': 646800, 'num_steps_sampled': 646800, 'update_time_ms': 2.646, 'grad_time_ms': 369.898, 'load_time_ms': 0.659}",539,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+21828.801154136658,17584,6.00043276885083,1200,cda-server-2,21828.801154136658,f93d3d6710754a149751678a58e67540,43,1757076529,648000,-85.78097174710707,2334300,{},10.157.146.2,False,{},2025-09-05_14-48-49,26.69,648000,-35.51538294909478,0,40.350526571273804,540,"{'default': {'policy_loss': -0.1414034515619278, 'vf_explained_var': 0.045893456786870956, 'vf_loss': 394.8934326171875, 'kl': 0.008312324993312359, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.065532684326172, 'total_loss': 394.79461669921875}, 'sample_time_ms': 40228.237, 'num_steps_trained': 648000, 'num_steps_sampled': 648000, 'update_time_ms': 2.626, 'grad_time_ms': 369.915, 'load_time_ms': 0.658}",540,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+21869.165513038635,17629,6.000247998165712,1200,cda-server-2,21869.165513038635,f93d3d6710754a149751678a58e67540,45,1757076569,649200,-85.29242394858497,2334300,{},10.157.146.2,False,{},2025-09-05_14-49-29,26.89,649200,-35.81972269145159,0,40.36435890197754,541,"{'default': {'policy_loss': -0.13715288043022156, 'vf_explained_var': 0.043508537113666534, 'vf_loss': 379.6014709472656, 'kl': 0.00994860753417015, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.157679557800293, 'total_loss': 379.5152893066406}, 'sample_time_ms': 40231.748, 'num_steps_trained': 649200, 'num_steps_sampled': 649200, 'update_time_ms': 2.698, 'grad_time_ms': 372.423, 'load_time_ms': 0.668}",541,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+21909.640416383743,17680,6.00022101283553,1200,cda-server-2,21909.640416383743,f93d3d6710754a149751678a58e67540,51,1757076610,650400,-83.66150442177282,2334300,{},10.157.146.2,False,{},2025-09-05_14-50-10,24.7,650400,-31.707003166804434,0,40.47490334510803,542,"{'default': {'policy_loss': -0.1360819935798645, 'vf_explained_var': 0.04579227417707443, 'vf_loss': 345.4749450683594, 'kl': 0.00834939256310463, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.84406852722168, 'total_loss': 345.38165283203125}, 'sample_time_ms': 40214.572, 'num_steps_trained': 650400, 'num_steps_sampled': 650400, 'update_time_ms': 2.687, 'grad_time_ms': 373.947, 'load_time_ms': 0.68}",542,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+21949.78096818924,17727,8.001261016383374,1200,cda-server-2,21949.78096818924,f93d3d6710754a149751678a58e67540,47,1757076650,651600,-83.66150442177282,2334300,{},10.157.146.2,False,{},2025-09-05_14-50-50,24.66,651600,-31.692337487909636,0,40.140551805496216,543,"{'default': {'policy_loss': -0.13013385236263275, 'vf_explained_var': 0.056982677429914474, 'vf_loss': 447.8446960449219, 'kl': 0.008481817319989204, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.385661125183105, 'total_loss': 447.7580261230469}, 'sample_time_ms': 40201.856, 'num_steps_trained': 651600, 'num_steps_sampled': 651600, 'update_time_ms': 2.665, 'grad_time_ms': 373.829, 'load_time_ms': 0.683}",543,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+21990.805150985718,17785,8.001261016383374,1200,cda-server-2,21990.805150985718,f93d3d6710754a149751678a58e67540,58,1757076691,652800,-85.7373640943106,2334300,{},10.157.146.2,False,{},2025-09-05_14-51-31,23.28,652800,-29.641254519682786,0,41.02418279647827,544,"{'default': {'policy_loss': -0.13381436467170715, 'vf_explained_var': 0.04563134163618088, 'vf_loss': 419.1471862792969, 'kl': 0.009858326055109501, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.625717163085938, 'total_loss': 419.06390380859375}, 'sample_time_ms': 40221.984, 'num_steps_trained': 652800, 'num_steps_sampled': 652800, 'update_time_ms': 2.635, 'grad_time_ms': 372.879, 'load_time_ms': 0.685}",544,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+22031.240619182587,17828,8.000000511470995,1200,cda-server-2,22031.240619182587,f93d3d6710754a149751678a58e67540,43,1757076731,654000,-85.7373640943106,2334300,{},10.157.146.2,False,{},2025-09-05_14-52-11,23.59,654000,-29.931796524229963,0,40.4354681968689,545,"{'default': {'policy_loss': -0.14830072224140167, 'vf_explained_var': 0.060136061161756516, 'vf_loss': 403.0244140625, 'kl': 0.008390597999095917, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.012547492980957, 'total_loss': 402.9190979003906}, 'sample_time_ms': 40172.975, 'num_steps_trained': 654000, 'num_steps_sampled': 654000, 'update_time_ms': 2.585, 'grad_time_ms': 370.674, 'load_time_ms': 0.677}",545,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+22071.391208410263,17879,6.001700431424255,1200,cda-server-2,22071.391208410263,f93d3d6710754a149751678a58e67540,51,1757076772,655200,-86.46226613705659,2334300,{},10.157.146.2,False,{},2025-09-05_14-52-52,25.08,655200,-32.438277243449065,0,40.15058922767639,546,"{'default': {'policy_loss': -0.13295914232730865, 'vf_explained_var': 0.03189194202423096, 'vf_loss': 439.9210205078125, 'kl': 0.011001135222613811, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.964048385620117, 'total_loss': 439.844482421875}, 'sample_time_ms': 40023.782, 'num_steps_trained': 655200, 'num_steps_sampled': 655200, 'update_time_ms': 2.592, 'grad_time_ms': 370.736, 'load_time_ms': 0.677}",546,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+22112.217733860016,17930,8.000003119026283,1200,cda-server-2,22112.217733860016,f93d3d6710754a149751678a58e67540,51,1757076812,656400,-86.46226613705659,2334300,{},10.157.146.2,False,{},2025-09-05_14-53-32,22.71,656400,-27.985773051901138,0,40.82652544975281,547,"{'default': {'policy_loss': -0.12768986821174622, 'vf_explained_var': 0.07624606043100357, 'vf_loss': 361.0440979003906, 'kl': 0.009916504845023155, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.93431568145752, 'total_loss': 360.9672546386719}, 'sample_time_ms': 40112.106, 'num_steps_trained': 656400, 'num_steps_sampled': 656400, 'update_time_ms': 2.554, 'grad_time_ms': 369.752, 'load_time_ms': 0.683}",547,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+22152.339262485504,17967,8.000003119026283,1200,cda-server-2,22152.339262485504,f93d3d6710754a149751678a58e67540,37,1757076853,657600,-84.20967427355467,2334300,{},10.157.146.2,False,{},2025-09-05_14-54-13,26.81,657600,-35.38954497967423,0,40.12152862548828,548,"{'default': {'policy_loss': -0.14026130735874176, 'vf_explained_var': 0.03522050380706787, 'vf_loss': 377.5398254394531, 'kl': 0.008712352253496647, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 12.092899322509766, 'total_loss': 377.4442138671875}, 'sample_time_ms': 40068.428, 'num_steps_trained': 657600, 'num_steps_sampled': 657600, 'update_time_ms': 2.555, 'grad_time_ms': 372.859, 'load_time_ms': 0.699}",548,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+22192.579426765442,18007,8.000003119026283,1200,cda-server-2,22192.579426765442,f93d3d6710754a149751678a58e67540,40,1757076893,658800,-84.75223572136255,2334300,{},10.157.146.2,False,{},2025-09-05_14-54-53,29.97,658800,-40.7251371001052,0,40.240164279937744,549,"{'default': {'policy_loss': -0.13430963456630707, 'vf_explained_var': 0.06363566964864731, 'vf_loss': 377.792236328125, 'kl': 0.010151336900889874, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.379539489746094, 'total_loss': 377.7099609375}, 'sample_time_ms': 40033.001, 'num_steps_trained': 658800, 'num_steps_sampled': 658800, 'update_time_ms': 2.573, 'grad_time_ms': 371.938, 'load_time_ms': 0.697}",549,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+22232.783083438873,18051,8.000000414294426,1200,cda-server-2,22232.783083438873,f93d3d6710754a149751678a58e67540,44,1757076933,660000,-85.78678271156333,2334300,{},10.157.146.2,False,{},2025-09-05_14-55-33,29.44,660000,-40.07418745398009,0,40.2036566734314,550,"{'default': {'policy_loss': -0.14563600718975067, 'vf_explained_var': 0.04166966676712036, 'vf_loss': 387.3948974609375, 'kl': 0.00864436011761427, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.149700164794922, 'total_loss': 387.2935791015625}, 'sample_time_ms': 40020.349, 'num_steps_trained': 660000, 'num_steps_sampled': 660000, 'update_time_ms': 2.617, 'grad_time_ms': 369.875, 'load_time_ms': 0.703}",550,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+22273.386105537415,18094,6.0005527958932205,1200,cda-server-2,22273.386105537415,f93d3d6710754a149751678a58e67540,43,1757076974,661200,-85.78678271156333,2334300,{},10.157.146.2,False,{},2025-09-05_14-56-14,28.57,661200,-38.74176971627792,0,40.60302209854126,551,"{'default': {'policy_loss': -0.13364237546920776, 'vf_explained_var': 0.08491642773151398, 'vf_loss': 374.5932922363281, 'kl': 0.008176038973033428, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.26524543762207, 'total_loss': 374.5015563964844}, 'sample_time_ms': 40047.151, 'num_steps_trained': 661200, 'num_steps_sampled': 661200, 'update_time_ms': 2.544, 'grad_time_ms': 367.052, 'load_time_ms': 0.693}",551,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+22313.33587360382,18135,6.001905756320733,1200,cda-server-2,22313.33587360382,f93d3d6710754a149751678a58e67540,41,1757077014,662400,-84.3112498946699,2334300,{},10.157.146.2,False,{},2025-09-05_14-56-54,28.55,662400,-38.16847425954501,0,39.94976806640625,552,"{'default': {'policy_loss': -0.13194796442985535, 'vf_explained_var': 0.0570061020553112, 'vf_loss': 380.7411193847656, 'kl': 0.010355156846344471, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.042019844055176, 'total_loss': 380.6622619628906}, 'sample_time_ms': 39995.219, 'num_steps_trained': 662400, 'num_steps_sampled': 662400, 'update_time_ms': 2.525, 'grad_time_ms': 366.466, 'load_time_ms': 0.688}",552,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+22353.672510147095,18183,6.001905756320733,1200,cda-server-2,22353.672510147095,f93d3d6710754a149751678a58e67540,48,1757077054,663600,-83.86816796697468,2334300,{},10.157.146.2,False,{},2025-09-05_14-57-34,27.7,663600,-36.60741791953129,0,40.336636543273926,553,"{'default': {'policy_loss': -0.13750289380550385, 'vf_explained_var': 0.01776777394115925, 'vf_loss': 368.6276550292969, 'kl': 0.00839162152260542, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.699809074401855, 'total_loss': 368.5331726074219}, 'sample_time_ms': 40016.33, 'num_steps_trained': 663600, 'num_steps_sampled': 663600, 'update_time_ms': 2.534, 'grad_time_ms': 364.888, 'load_time_ms': 0.675}",553,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+22394.72458910942,18226,6.0008914446591906,1200,cda-server-2,22394.72458910942,f93d3d6710754a149751678a58e67540,43,1757077095,664800,-85.33543204268301,2334300,{},10.157.146.2,False,{},2025-09-05_14-58-15,26.44,664800,-34.47675661608909,0,41.05207896232605,554,"{'default': {'policy_loss': -0.13354119658470154, 'vf_explained_var': 0.045721035450696945, 'vf_loss': 396.2705383300781, 'kl': 0.008446171879768372, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.963138580322266, 'total_loss': 396.1802978515625}, 'sample_time_ms': 40016.513, 'num_steps_trained': 664800, 'num_steps_sampled': 664800, 'update_time_ms': 2.554, 'grad_time_ms': 367.425, 'load_time_ms': 0.674}",554,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+22435.848731279373,18270,6.0005713216535455,1200,cda-server-2,22435.848731279373,f93d3d6710754a149751678a58e67540,44,1757077136,666000,-86.9000479627895,2334300,{},10.157.146.2,False,{},2025-09-05_14-58-56,27.09,666000,-35.51556546797166,0,41.12414216995239,555,"{'default': {'policy_loss': -0.1443447470664978, 'vf_explained_var': 0.04878158122301102, 'vf_loss': 379.71484375, 'kl': 0.008586409501731396, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.153361320495605, 'total_loss': 379.6145324707031}, 'sample_time_ms': 40083.066, 'num_steps_trained': 666000, 'num_steps_sampled': 666000, 'update_time_ms': 2.574, 'grad_time_ms': 369.712, 'load_time_ms': 0.68}",555,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+22476.28894138336,18317,6.0005713216535455,1200,cda-server-2,22476.28894138336,f93d3d6710754a149751678a58e67540,47,1757077177,667200,-86.9000479627895,2334300,{},10.157.146.2,False,{},2025-09-05_14-59-37,26.88,667200,-35.67113742329363,0,40.44021010398865,556,"{'default': {'policy_loss': -0.13106483221054077, 'vf_explained_var': 0.03832607716321945, 'vf_loss': 408.9383544921875, 'kl': 0.00865850504487753, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.496267318725586, 'total_loss': 408.8516845703125}, 'sample_time_ms': 40109.929, 'num_steps_trained': 667200, 'num_steps_sampled': 667200, 'update_time_ms': 2.55, 'grad_time_ms': 371.797, 'load_time_ms': 0.696}",556,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+22516.926480293274,18364,6.000249630585441,1200,cda-server-2,22516.926480293274,f93d3d6710754a149751678a58e67540,47,1757077217,668400,-84.95464879737172,2334300,{},10.157.146.2,False,{},2025-09-05_15-00-17,25.2,668400,-32.304501958531375,0,40.63753890991211,557,"{'default': {'policy_loss': -0.12505804002285004, 'vf_explained_var': 0.03625951707363129, 'vf_loss': 416.3406677246094, 'kl': 0.010040843859314919, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.144044876098633, 'total_loss': 416.2670593261719}, 'sample_time_ms': 40088.799, 'num_steps_trained': 668400, 'num_steps_sampled': 668400, 'update_time_ms': 2.584, 'grad_time_ms': 373.978, 'load_time_ms': 0.691}",557,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+22557.527586460114,18408,6.000249630585441,1200,cda-server-2,22557.527586460114,f93d3d6710754a149751678a58e67540,44,1757077258,669600,-85.98374208985753,2334300,{},10.157.146.2,False,{},2025-09-05_15-00-58,25.55,669600,-32.94810878601409,0,40.6011061668396,558,"{'default': {'policy_loss': -0.1444263756275177, 'vf_explained_var': 0.07039395719766617, 'vf_loss': 401.7746887207031, 'kl': 0.009812927804887295, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.912250518798828, 'total_loss': 401.6805725097656}, 'sample_time_ms': 40137.006, 'num_steps_trained': 669600, 'num_steps_sampled': 669600, 'update_time_ms': 2.626, 'grad_time_ms': 373.655, 'load_time_ms': 0.672}",558,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+22598.34249806404,18460,8.000000400000435,1200,cda-server-2,22598.34249806404,f93d3d6710754a149751678a58e67540,52,1757077299,670800,-85.98374208985753,2334300,{},10.157.146.2,False,{},2025-09-05_15-01-39,25.41,670800,-33.124770374804065,0,40.81491160392761,559,"{'default': {'policy_loss': -0.12365058064460754, 'vf_explained_var': 0.04797273129224777, 'vf_loss': 412.320556640625, 'kl': 0.009302522987127304, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.824212074279785, 'total_loss': 412.24456787109375}, 'sample_time_ms': 40195.292, 'num_steps_trained': 670800, 'num_steps_sampled': 670800, 'update_time_ms': 2.632, 'grad_time_ms': 372.881, 'load_time_ms': 0.676}",559,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+22638.8548848629,18508,8.000000400000435,1200,cda-server-2,22638.8548848629,f93d3d6710754a149751678a58e67540,48,1757077339,672000,-84.24957929203451,2334300,{},10.157.146.2,False,{},2025-09-05_15-02-19,24.03,672000,-30.40722973309415,0,40.51238679885864,560,"{'default': {'policy_loss': -0.1380094438791275, 'vf_explained_var': 0.04441501572728157, 'vf_loss': 371.0180969238281, 'kl': 0.010573264211416245, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.508237838745117, 'total_loss': 370.93426513671875}, 'sample_time_ms': 40223.329, 'num_steps_trained': 672000, 'num_steps_sampled': 672000, 'update_time_ms': 2.603, 'grad_time_ms': 375.76, 'load_time_ms': 0.674}",560,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+22679.25482416153,18559,6.000299317102815,1200,cda-server-2,22679.25482416153,f93d3d6710754a149751678a58e67540,51,1757077380,673200,-87.05541577839902,2334300,{},10.157.146.2,False,{},2025-09-05_15-03-00,25.02,673200,-32.212732408567966,0,40.39993929862976,561,"{'default': {'policy_loss': -0.14992989599704742, 'vf_explained_var': 0.04315905272960663, 'vf_loss': 400.9477844238281, 'kl': 0.009825881570577621, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.031010627746582, 'total_loss': 400.8482360839844}, 'sample_time_ms': 40200.775, 'num_steps_trained': 673200, 'num_steps_sampled': 673200, 'update_time_ms': 2.61, 'grad_time_ms': 377.944, 'load_time_ms': 0.677}",561,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+22719.76779818535,18603,8.000000400019795,1200,cda-server-2,22719.76779818535,f93d3d6710754a149751678a58e67540,44,1757077420,674400,-88.79239990912897,2334300,{},10.157.146.2,False,{},2025-09-05_15-03-40,24.93,674400,-32.417149404650885,0,40.51297402381897,562,"{'default': {'policy_loss': -0.1328383982181549, 'vf_explained_var': 0.028283847495913506, 'vf_loss': 408.1002197265625, 'kl': 0.009051505476236343, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.967217445373535, 'total_loss': 408.0137939453125}, 'sample_time_ms': 40255.566, 'num_steps_trained': 674400, 'num_steps_sampled': 674400, 'update_time_ms': 2.66, 'grad_time_ms': 379.459, 'load_time_ms': 0.674}",562,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+22760.325370311737,18654,8.000000400019795,1200,cda-server-2,22760.325370311737,f93d3d6710754a149751678a58e67540,51,1757077461,675600,-88.79239990912897,2334300,{},10.157.146.2,False,{},2025-09-05_15-04-21,24.78,675600,-32.105287368271604,0,40.55757212638855,563,"{'default': {'policy_loss': -0.13606654107570648, 'vf_explained_var': 0.040021881461143494, 'vf_loss': 415.2030029296875, 'kl': 0.009357083588838577, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.505544662475586, 'total_loss': 415.1148986816406}, 'sample_time_ms': 40276.445, 'num_steps_trained': 675600, 'num_steps_sampled': 675600, 'update_time_ms': 2.654, 'grad_time_ms': 380.721, 'load_time_ms': 0.683}",563,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+22800.544475317,18698,8.000000886480322,1200,cda-server-2,22800.544475317,f93d3d6710754a149751678a58e67540,44,1757077501,676800,-88.77817952633463,2334300,{},10.157.146.2,False,{},2025-09-05_15-05-01,25.27,676800,-32.397094862824,0,40.21910500526428,564,"{'default': {'policy_loss': -0.1374581754207611, 'vf_explained_var': 0.03901269659399986, 'vf_loss': 390.6457214355469, 'kl': 0.007754650432616472, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.585413932800293, 'total_loss': 390.5480651855469}, 'sample_time_ms': 40195.57, 'num_steps_trained': 676800, 'num_steps_sampled': 676800, 'update_time_ms': 2.643, 'grad_time_ms': 378.359, 'load_time_ms': 0.676}",564,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+22841.25909805298,18739,8.000000886480322,1200,cda-server-2,22841.25909805298,f93d3d6710754a149751678a58e67540,41,1757077542,678000,-85.49361092279453,2334300,{},10.157.146.2,False,{},2025-09-05_15-05-42,27.0,678000,-35.46572980929827,0,40.71462273597717,565,"{'default': {'policy_loss': -0.1388901025056839, 'vf_explained_var': 0.0504690557718277, 'vf_loss': 417.5456848144531, 'kl': 0.009428703226149082, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.183738708496094, 'total_loss': 417.45513916015625}, 'sample_time_ms': 40157.038, 'num_steps_trained': 678000, 'num_steps_sampled': 678000, 'update_time_ms': 2.65, 'grad_time_ms': 375.963, 'load_time_ms': 0.672}",565,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+22881.549032211304,18787,8.000000886480322,1200,cda-server-2,22881.549032211304,f93d3d6710754a149751678a58e67540,48,1757077582,679200,-87.24063700805091,2334300,{},10.157.146.2,False,{},2025-09-05_15-06-22,26.28,679200,-34.83504701795402,0,40.289934158325195,566,"{'default': {'policy_loss': -0.14539170265197754, 'vf_explained_var': 0.06198347359895706, 'vf_loss': 413.6627502441406, 'kl': 0.008966988883912563, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.53707504272461, 'total_loss': 413.5633239746094}, 'sample_time_ms': 40144.725, 'num_steps_trained': 679200, 'num_steps_sampled': 679200, 'update_time_ms': 2.649, 'grad_time_ms': 373.281, 'load_time_ms': 0.659}",566,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+22922.379888296127,18834,6.0009948419658965,1200,cda-server-2,22922.379888296127,f93d3d6710754a149751678a58e67540,47,1757077623,680400,-87.24063700805091,2334300,{},10.157.146.2,False,{},2025-09-05_15-07-03,25.22,680400,-33.181552327356115,0,40.83085608482361,567,"{'default': {'policy_loss': -0.13460463285446167, 'vf_explained_var': 0.034026019275188446, 'vf_loss': 434.8033447265625, 'kl': 0.009800039231777191, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.517213821411133, 'total_loss': 434.7189025878906}, 'sample_time_ms': 40166.656, 'num_steps_trained': 680400, 'num_steps_sampled': 680400, 'update_time_ms': 2.615, 'grad_time_ms': 370.759, 'load_time_ms': 0.658}",567,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+22963.53430247307,18887,6.0009948419658965,1200,cda-server-2,22963.53430247307,f93d3d6710754a149751678a58e67540,53,1757077664,681600,-86.12116918400825,2334300,{},10.157.146.2,False,{},2025-09-05_15-07-44,23.98,681600,-30.884940442998673,0,41.15441417694092,568,"{'default': {'policy_loss': -0.15009188652038574, 'vf_explained_var': 0.02574141137301922, 'vf_loss': 422.166259765625, 'kl': 0.009681894443929195, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.306270599365234, 'total_loss': 422.0657958984375}, 'sample_time_ms': 40222.781, 'num_steps_trained': 681600, 'num_steps_sampled': 681600, 'update_time_ms': 2.608, 'grad_time_ms': 370.078, 'load_time_ms': 0.651}",568,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+23003.923060894012,18935,6.000756056668964,1200,cda-server-2,23003.923060894012,f93d3d6710754a149751678a58e67540,48,1757077705,682800,-86.12116918400825,2334300,{},10.157.146.2,False,{},2025-09-05_15-08-25,23.62,682800,-29.86517287089137,0,40.388758420944214,569,"{'default': {'policy_loss': -0.13667893409729004, 'vf_explained_var': 0.06543543934822083, 'vf_loss': 388.62603759765625, 'kl': 0.009098422713577747, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.924715042114258, 'total_loss': 388.5359802246094}, 'sample_time_ms': 40177.655, 'num_steps_trained': 682800, 'num_steps_sampled': 682800, 'update_time_ms': 2.557, 'grad_time_ms': 372.608, 'load_time_ms': 0.644}",569,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+23045.237802505493,18987,6.002199097685188,1200,cda-server-2,23045.237802505493,f93d3d6710754a149751678a58e67540,52,1757077746,684000,-84.86012878672685,2334300,{},10.157.146.2,False,{},2025-09-05_15-09-06,24.28,684000,-30.6719920905768,0,41.31474161148071,570,"{'default': {'policy_loss': -0.14560362696647644, 'vf_explained_var': 0.05408237501978874, 'vf_loss': 417.0261535644531, 'kl': 0.008986931294202805, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.049738883972168, 'total_loss': 416.9266052246094}, 'sample_time_ms': 40258.597, 'num_steps_trained': 684000, 'num_steps_sampled': 684000, 'update_time_ms': 2.588, 'grad_time_ms': 371.822, 'load_time_ms': 0.652}",570,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+23086.32050228119,19045,8.000000400008439,1200,cda-server-2,23086.32050228119,f93d3d6710754a149751678a58e67540,58,1757077787,685200,-84.86012878672685,2334300,{},10.157.146.2,False,{},2025-09-05_15-09-47,22.57,685200,-27.416488364001854,0,41.0826997756958,571,"{'default': {'policy_loss': -0.14661608636379242, 'vf_explained_var': 0.04753880947828293, 'vf_loss': 320.5635681152344, 'kl': 0.009772084653377533, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.242955207824707, 'total_loss': 320.4670104980469}, 'sample_time_ms': 40327.532, 'num_steps_trained': 685200, 'num_steps_sampled': 685200, 'update_time_ms': 2.623, 'grad_time_ms': 371.112, 'load_time_ms': 0.646}",571,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+23126.50136089325,19091,8.000000400008439,1200,cda-server-2,23126.50136089325,f93d3d6710754a149751678a58e67540,46,1757077827,686400,-83.10884387534546,2334300,{},10.157.146.2,False,{},2025-09-05_15-10-27,22.71,686400,-27.547643880519423,0,40.18085861206055,572,"{'default': {'policy_loss': -0.13515356183052063, 'vf_explained_var': 0.05229274928569794, 'vf_loss': 364.20355224609375, 'kl': 0.010314423590898514, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.163518905639648, 'total_loss': 364.1213073730469}, 'sample_time_ms': 40295.439, 'num_steps_trained': 686400, 'num_steps_sampled': 686400, 'update_time_ms': 2.621, 'grad_time_ms': 370.01, 'load_time_ms': 0.645}",572,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+23167.057109355927,19145,6.001471760419073,1200,cda-server-2,23167.057109355927,f93d3d6710754a149751678a58e67540,54,1757077868,687600,-85.08682358155764,2334300,{},10.157.146.2,False,{},2025-09-05_15-11-08,24.18,687600,-30.350547498097402,0,40.555748462677,573,"{'default': {'policy_loss': -0.14019474387168884, 'vf_explained_var': 0.06315693259239197, 'vf_loss': 326.927001953125, 'kl': 0.008239815942943096, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.779138565063477, 'total_loss': 326.82904052734375}, 'sample_time_ms': 40295.342, 'num_steps_trained': 687600, 'num_steps_sampled': 687600, 'update_time_ms': 2.606, 'grad_time_ms': 369.889, 'load_time_ms': 0.654}",573,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+23207.789398908615,19201,6.001471760419073,1200,cda-server-2,23207.789398908615,f93d3d6710754a149751678a58e67540,56,1757077909,688800,-85.08682358155764,2334300,{},10.157.146.2,False,{},2025-09-05_15-11-49,21.98,688800,-26.606940306252053,0,40.7322895526886,574,"{'default': {'policy_loss': -0.1333363652229309, 'vf_explained_var': 0.08629471808671951, 'vf_loss': 364.91949462890625, 'kl': 0.009565533138811588, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.157936096191406, 'total_loss': 364.835205078125}, 'sample_time_ms': 40343.942, 'num_steps_trained': 688800, 'num_steps_sampled': 688800, 'update_time_ms': 2.634, 'grad_time_ms': 372.212, 'load_time_ms': 0.665}",574,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+23248.54572701454,19251,6.000151662316775,1200,cda-server-2,23248.54572701454,f93d3d6710754a149751678a58e67540,50,1757077949,690000,-83.45911048720527,2334300,{},10.157.146.2,False,{},2025-09-05_15-12-29,22.44,690000,-27.429952060046556,0,40.756328105926514,575,"{'default': {'policy_loss': -0.13872136175632477, 'vf_explained_var': 0.05992692708969116, 'vf_loss': 358.1092529296875, 'kl': 0.008019479922950268, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.067848205566406, 'total_loss': 358.0115966796875}, 'sample_time_ms': 40347.042, 'num_steps_trained': 690000, 'num_steps_sampled': 690000, 'update_time_ms': 2.631, 'grad_time_ms': 373.262, 'load_time_ms': 0.672}",575,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+23288.37508201599,19297,6.000151662316775,1200,cda-server-2,23288.37508201599,f93d3d6710754a149751678a58e67540,46,1757077989,691200,-88.03750614604407,2334300,{},10.157.146.2,False,{},2025-09-05_15-13-09,24.02,691200,-30.375674786498735,0,39.829355001449585,576,"{'default': {'policy_loss': -0.14316098392009735, 'vf_explained_var': 0.02206120826303959, 'vf_loss': 453.9091491699219, 'kl': 0.008220099844038486, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.030094146728516, 'total_loss': 453.8081359863281}, 'sample_time_ms': 40297.861, 'num_steps_trained': 691200, 'num_steps_sampled': 691200, 'update_time_ms': 2.625, 'grad_time_ms': 376.361, 'load_time_ms': 0.679}",576,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+23328.601442575455,19350,6.00000249700388,1200,cda-server-2,23328.601442575455,f93d3d6710754a149751678a58e67540,53,1757078029,692400,-88.03750614604407,2334300,{},10.157.146.2,False,{},2025-09-05_15-13-49,24.41,692400,-31.015303834920886,0,40.2263605594635,577,"{'default': {'policy_loss': -0.13986049592494965, 'vf_explained_var': 0.027882954105734825, 'vf_loss': 390.25933837890625, 'kl': 0.009287201799452305, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.780424118041992, 'total_loss': 390.1670837402344}, 'sample_time_ms': 40237.435, 'num_steps_trained': 692400, 'num_steps_sampled': 692400, 'update_time_ms': 2.617, 'grad_time_ms': 376.316, 'load_time_ms': 0.678}",577,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+23369.168175458908,19395,10.0,1200,cda-server-2,23369.168175458908,f93d3d6710754a149751678a58e67540,45,1757078070,693600,-85.70525948701147,2334300,{},10.157.146.2,False,{},2025-09-05_15-14-30,24.71,693600,-31.11354836324218,0,40.56673288345337,578,"{'default': {'policy_loss': -0.14305859804153442, 'vf_explained_var': 0.05250994488596916, 'vf_loss': 355.7986145019531, 'kl': 0.00942517351359129, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.6582612991333, 'total_loss': 355.703857421875}, 'sample_time_ms': 40180.822, 'num_steps_trained': 693600, 'num_steps_sampled': 693600, 'update_time_ms': 2.585, 'grad_time_ms': 374.211, 'load_time_ms': 0.676}",578,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+23409.814898252487,19435,10.0,1200,cda-server-2,23409.814898252487,f93d3d6710754a149751678a58e67540,40,1757078111,694800,-84.23423413692255,2334300,{},10.157.146.2,False,{},2025-09-05_15-15-11,26.73,694800,-34.48597345344389,0,40.6467227935791,579,"{'default': {'policy_loss': -0.11985298246145248, 'vf_explained_var': 0.06425371766090393, 'vf_loss': 376.1019287109375, 'kl': 0.0104202376678586, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.27676010131836, 'total_loss': 376.0355224609375}, 'sample_time_ms': 40207.75, 'num_steps_trained': 694800, 'num_steps_sampled': 694800, 'update_time_ms': 2.58, 'grad_time_ms': 373.14, 'load_time_ms': 0.675}",579,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+23450.234608888626,19490,6.000991879946218,1200,cda-server-2,23450.234608888626,f93d3d6710754a149751678a58e67540,55,1757078151,696000,-85.97778790995095,2334300,{},10.157.146.2,False,{},2025-09-05_15-15-51,25.98,696000,-33.40963377040439,0,40.419710636138916,580,"{'default': {'policy_loss': -0.14011293649673462, 'vf_explained_var': 0.06290361285209656, 'vf_loss': 309.05633544921875, 'kl': 0.008871032856404781, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.170068740844727, 'total_loss': 308.9617004394531}, 'sample_time_ms': 40117.735, 'num_steps_trained': 696000, 'num_steps_sampled': 696000, 'update_time_ms': 2.572, 'grad_time_ms': 373.665, 'load_time_ms': 0.665}",580,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+23491.255924224854,19545,6.000991879946218,1200,cda-server-2,23491.255924224854,f93d3d6710754a149751678a58e67540,55,1757078192,697200,-85.97778790995095,2334300,{},10.157.146.2,False,{},2025-09-05_15-16-32,21.54,697200,-25.767897364191253,0,41.02131533622742,581,"{'default': {'policy_loss': -0.12950970232486725, 'vf_explained_var': 0.07843384146690369, 'vf_loss': 332.6956481933594, 'kl': 0.008627999573946, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.054267883300781, 'total_loss': 332.6103820800781}, 'sample_time_ms': 40111.133, 'num_steps_trained': 697200, 'num_steps_sampled': 697200, 'update_time_ms': 2.554, 'grad_time_ms': 374.203, 'load_time_ms': 0.669}",581,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+23532.294179677963,19596,6.001007177764738,1200,cda-server-2,23532.294179677963,f93d3d6710754a149751678a58e67540,51,1757078233,698400,-84.18227422017362,2334300,{},10.157.146.2,False,{},2025-09-05_15-17-13,22.58,698400,-27.28356158115064,0,41.03825545310974,582,"{'default': {'policy_loss': -0.12937945127487183, 'vf_explained_var': 0.06220688298344612, 'vf_loss': 338.27734375, 'kl': 0.009609997272491455, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.44223690032959, 'total_loss': 338.19720458984375}, 'sample_time_ms': 40197.573, 'num_steps_trained': 698400, 'num_steps_sampled': 698400, 'update_time_ms': 2.514, 'grad_time_ms': 373.499, 'load_time_ms': 0.669}",582,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+23572.801460027695,19654,8.000001830945855,1200,cda-server-2,23572.801460027695,f93d3d6710754a149751678a58e67540,58,1757078274,699600,-85.13518941340001,2334300,{},10.157.146.2,False,{},2025-09-05_15-17-54,22.36,699600,-27.35048737305712,0,40.507280349731445,583,"{'default': {'policy_loss': -0.13032077252864838, 'vf_explained_var': 0.04174333065748215, 'vf_loss': 406.7017517089844, 'kl': 0.01029905304312706, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.392404556274414, 'total_loss': 406.62420654296875}, 'sample_time_ms': 40193.291, 'num_steps_trained': 699600, 'num_steps_sampled': 699600, 'update_time_ms': 2.552, 'grad_time_ms': 372.948, 'load_time_ms': 0.659}",583,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+23613.520612478256,19712,6.001160288806714,1200,cda-server-2,23613.520612478256,f93d3d6710754a149751678a58e67540,58,1757078315,700800,-85.86739877143583,2334300,{},10.157.146.2,False,{},2025-09-05_15-18-35,21.0,700800,-24.958425248800577,0,40.71915245056152,584,"{'default': {'policy_loss': -0.12525947391986847, 'vf_explained_var': 0.05347825586795807, 'vf_loss': 387.4207763671875, 'kl': 0.009423126466572285, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.156390190124512, 'total_loss': 387.3438415527344}, 'sample_time_ms': 40194.257, 'num_steps_trained': 700800, 'num_steps_sampled': 700800, 'update_time_ms': 2.498, 'grad_time_ms': 371.067, 'load_time_ms': 0.659}",584,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+23653.70445728302,19753,6.001160288806714,1200,cda-server-2,23653.70445728302,f93d3d6710754a149751678a58e67540,41,1757078355,702000,-85.86739877143583,2334300,{},10.157.146.2,False,{},2025-09-05_15-19-15,23.85,702000,-30.375465022409276,0,40.183844804763794,585,"{'default': {'policy_loss': -0.13898642361164093, 'vf_explained_var': 0.026134517043828964, 'vf_loss': 402.8190002441406, 'kl': 0.008527657948434353, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.9359130859375, 'total_loss': 402.7237548828125}, 'sample_time_ms': 40134.99, 'num_steps_trained': 702000, 'num_steps_sampled': 702000, 'update_time_ms': 2.48, 'grad_time_ms': 373.082, 'load_time_ms': 0.665}",585,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+23694.231439590454,19804,6.000509775016181,1200,cda-server-2,23694.231439590454,f93d3d6710754a149751678a58e67540,51,1757078395,703200,-82.85637763110724,2334300,{},10.157.146.2,False,{},2025-09-05_15-19-55,25.4,703200,-32.82625094359514,0,40.52698230743408,586,"{'default': {'policy_loss': -0.1382385641336441, 'vf_explained_var': 0.06584254652261734, 'vf_loss': 381.5049743652344, 'kl': 0.00880398415029049, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.686389923095703, 'total_loss': 381.411865234375}, 'sample_time_ms': 40205.057, 'num_steps_trained': 703200, 'num_steps_sampled': 703200, 'update_time_ms': 2.501, 'grad_time_ms': 372.729, 'load_time_ms': 0.669}",586,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+23735.540723085403,19860,8.000000467292248,1200,cda-server-2,23735.540723085403,f93d3d6710754a149751678a58e67540,56,1757078437,704400,-85.46174798343843,2334300,{},10.157.146.2,False,{},2025-09-05_15-20-37,22.23,704400,-26.965123833085926,0,41.30928349494934,587,"{'default': {'policy_loss': -0.1320469081401825, 'vf_explained_var': 0.06671318411827087, 'vf_loss': 391.91998291015625, 'kl': 0.008513467386364937, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.525609970092773, 'total_loss': 391.8315734863281}, 'sample_time_ms': 40313.481, 'num_steps_trained': 704400, 'num_steps_sampled': 704400, 'update_time_ms': 2.495, 'grad_time_ms': 372.632, 'load_time_ms': 0.67}",587,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+23777.060730218887,19907,8.000000467292248,1200,cda-server-2,23777.060730218887,f93d3d6710754a149751678a58e67540,47,1757078478,705600,-85.46174798343843,2334300,{},10.157.146.2,False,{},2025-09-05_15-21-18,22.95,705600,-28.695810404838156,0,41.52000713348389,588,"{'default': {'policy_loss': -0.15516000986099243, 'vf_explained_var': 0.059732165187597275, 'vf_loss': 400.52294921875, 'kl': 0.009159320034086704, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.835357666015625, 'total_loss': 400.41473388671875}, 'sample_time_ms': 40406.197, 'num_steps_trained': 705600, 'num_steps_sampled': 705600, 'update_time_ms': 2.518, 'grad_time_ms': 375.164, 'load_time_ms': 0.678}",588,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+23817.519457101822,19962,6.000485262199693,1200,cda-server-2,23817.519457101822,f93d3d6710754a149751678a58e67540,55,1757078519,706800,-85.35194184902377,2334300,{},10.157.146.2,False,{},2025-09-05_15-21-59,23.47,706800,-29.913566219363236,0,40.45872688293457,589,"{'default': {'policy_loss': -0.14013995230197906, 'vf_explained_var': 0.07803792506456375, 'vf_loss': 348.3037109375, 'kl': 0.008466712199151516, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.69032096862793, 'total_loss': 348.20697021484375}, 'sample_time_ms': 40387.115, 'num_steps_trained': 706800, 'num_steps_sampled': 706800, 'update_time_ms': 2.573, 'grad_time_ms': 375.317, 'load_time_ms': 0.679}",589,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+23858.215331315994,20016,6.000485262199693,1200,cda-server-2,23858.215331315994,f93d3d6710754a149751678a58e67540,54,1757078559,708000,-85.35194184902377,2334300,{},10.157.146.2,False,{},2025-09-05_15-22-39,22.52,708000,-27.922525408716194,0,40.69587421417236,590,"{'default': {'policy_loss': -0.13181184232234955, 'vf_explained_var': 0.04153881594538689, 'vf_loss': 355.17926025390625, 'kl': 0.00998743250966072, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.58536148071289, 'total_loss': 355.0986328125}, 'sample_time_ms': 40414.245, 'num_steps_trained': 708000, 'num_steps_sampled': 708000, 'update_time_ms': 2.579, 'grad_time_ms': 375.771, 'load_time_ms': 0.695}",590,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+23898.986093759537,20062,8.000000400002264,1200,cda-server-2,23898.986093759537,f93d3d6710754a149751678a58e67540,46,1757078600,709200,-84.05183164300784,2334300,{},10.157.146.2,False,{},2025-09-05_15-23-20,23.72,709200,-29.624658141545414,0,40.77076244354248,591,"{'default': {'policy_loss': -0.139335036277771, 'vf_explained_var': 0.06001961976289749, 'vf_loss': 378.2738342285156, 'kl': 0.009620320051908493, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.20216178894043, 'total_loss': 378.18377685546875}, 'sample_time_ms': 40388.762, 'num_steps_trained': 709200, 'num_steps_sampled': 709200, 'update_time_ms': 2.546, 'grad_time_ms': 376.164, 'load_time_ms': 0.73}",591,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+23939.775871038437,20114,8.000000402133377,1200,cda-server-2,23939.775871038437,f93d3d6710754a149751678a58e67540,52,1757078641,710400,-84.05183164300784,2334300,{},10.157.146.2,False,{},2025-09-05_15-24-01,23.95,710400,-30.017497973516,0,40.78977727890015,592,"{'default': {'policy_loss': -0.13260160386562347, 'vf_explained_var': 0.03486235812306404, 'vf_loss': 387.0981750488281, 'kl': 0.009790892712771893, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.745741844177246, 'total_loss': 387.0157775878906}, 'sample_time_ms': 40364.673, 'num_steps_trained': 710400, 'num_steps_sampled': 710400, 'update_time_ms': 2.532, 'grad_time_ms': 375.431, 'load_time_ms': 0.738}",592,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+23980.42738056183,20168,8.000000402133377,1200,cda-server-2,23980.42738056183,f93d3d6710754a149751678a58e67540,54,1757078682,711600,-82.98166832125104,2334300,{},10.157.146.2,False,{},2025-09-05_15-24-42,21.91,711600,-26.38351196175407,0,40.651509523391724,593,"{'default': {'policy_loss': -0.13303621113300323, 'vf_explained_var': 0.04756268486380577, 'vf_loss': 369.7297668457031, 'kl': 0.007937084883451462, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.976226806640625, 'total_loss': 369.6374206542969}, 'sample_time_ms': 40379.653, 'num_steps_trained': 711600, 'num_steps_sampled': 711600, 'update_time_ms': 2.491, 'grad_time_ms': 374.945, 'load_time_ms': 0.742}",593,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+24020.971447706223,20228,8.000000400000001,1200,cda-server-2,24020.971447706223,f93d3d6710754a149751678a58e67540,60,1757078722,712800,-84.71265906973404,2334300,{},10.157.146.2,False,{},2025-09-05_15-25-22,21.6,712800,-25.651251735938544,0,40.54406714439392,594,"{'default': {'policy_loss': -0.1431364268064499, 'vf_explained_var': 0.04867449030280113, 'vf_loss': 391.9314270019531, 'kl': 0.008978809230029583, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.262475967407227, 'total_loss': 391.8343200683594}, 'sample_time_ms': 40362.795, 'num_steps_trained': 712800, 'num_steps_sampled': 712800, 'update_time_ms': 2.519, 'grad_time_ms': 374.284, 'load_time_ms': 0.729}",594,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+24061.04118180275,20271,8.000004529377527,1200,cda-server-2,24061.04118180275,f93d3d6710754a149751678a58e67540,43,1757078762,714000,-86.84615062128374,2334300,{},10.157.146.2,False,{},2025-09-05_15-26-02,23.35,714000,-29.055485408847595,0,40.0697340965271,595,"{'default': {'policy_loss': -0.1459115445613861, 'vf_explained_var': 0.03521303832530975, 'vf_loss': 422.4296875, 'kl': 0.00958200078457594, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.997396469116211, 'total_loss': 422.3328857421875}, 'sample_time_ms': 40351.782, 'num_steps_trained': 714000, 'num_steps_sampled': 714000, 'update_time_ms': 2.531, 'grad_time_ms': 373.862, 'load_time_ms': 0.719}",595,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+24102.827416181564,20327,8.000004529377527,1200,cda-server-2,24102.827416181564,f93d3d6710754a149751678a58e67540,56,1757078804,715200,-86.84615062128374,2334300,{},10.157.146.2,False,{},2025-09-05_15-26-44,24.62,715200,-31.382214199236,0,41.7862343788147,596,"{'default': {'policy_loss': -0.12816883623600006, 'vf_explained_var': 0.05760551989078522, 'vf_loss': 388.49365234375, 'kl': 0.010559524409472942, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.574271202087402, 'total_loss': 388.4195861816406}, 'sample_time_ms': 40478.52, 'num_steps_trained': 715200, 'num_steps_sampled': 715200, 'update_time_ms': 2.541, 'grad_time_ms': 373.094, 'load_time_ms': 0.708}",596,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+24143.265095949173,20377,8.000000400001078,1200,cda-server-2,24143.265095949173,f93d3d6710754a149751678a58e67540,50,1757078845,716400,-84.81182708780875,2334300,{},10.157.146.2,False,{},2025-09-05_15-27-25,22.7,716400,-27.491127723296167,0,40.43767976760864,597,"{'default': {'policy_loss': -0.1383669078350067, 'vf_explained_var': 0.08401365578174591, 'vf_loss': 316.56982421875, 'kl': 0.01035618782043457, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.928258895874023, 'total_loss': 316.4845275878906}, 'sample_time_ms': 40389.814, 'num_steps_trained': 716400, 'num_steps_sampled': 716400, 'update_time_ms': 2.557, 'grad_time_ms': 374.612, 'load_time_ms': 0.702}",597,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+24184.24947786331,20437,8.000000400003906,1200,cda-server-2,24184.24947786331,f93d3d6710754a149751678a58e67540,60,1757078886,717600,-84.03197955257998,2334300,{},10.157.146.2,False,{},2025-09-05_15-28-06,21.77,717600,-25.69561495461461,0,40.984381914138794,598,"{'default': {'policy_loss': -0.1369277685880661, 'vf_explained_var': 0.044587478041648865, 'vf_loss': 387.853515625, 'kl': 0.008268937468528748, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.066542625427246, 'total_loss': 387.7589416503906}, 'sample_time_ms': 40338.335, 'num_steps_trained': 717600, 'num_steps_sampled': 717600, 'update_time_ms': 2.534, 'grad_time_ms': 372.577, 'load_time_ms': 0.705}",598,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+24224.75855088234,20486,8.000000400003906,1200,cda-server-2,24224.75855088234,f93d3d6710754a149751678a58e67540,49,1757078926,718800,-84.2183476215236,2334300,{},10.157.146.2,False,{},2025-09-05_15-28-46,22.61,718800,-27.5088772107678,0,40.50907301902771,599,"{'default': {'policy_loss': -0.14777131378650665, 'vf_explained_var': 0.05234648287296295, 'vf_loss': 372.1739501953125, 'kl': 0.009287356398999691, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.146808624267578, 'total_loss': 372.0737609863281}, 'sample_time_ms': 40343.241, 'num_steps_trained': 718800, 'num_steps_sampled': 718800, 'update_time_ms': 2.491, 'grad_time_ms': 372.816, 'load_time_ms': 0.706}",599,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+24264.925124168396,20539,6.0001564848963485,1200,cda-server-2,24264.925124168396,f93d3d6710754a149751678a58e67540,53,1757078966,720000,-84.57142101971606,2334300,{},10.157.146.2,False,{},2025-09-05_15-29-26,23.16,720000,-28.52825149802938,0,40.16657328605652,600,"{'default': {'policy_loss': -0.1299002319574356, 'vf_explained_var': 0.04730801284313202, 'vf_loss': 357.0999450683594, 'kl': 0.009158496744930744, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.710599899291992, 'total_loss': 357.0169677734375}, 'sample_time_ms': 40293.364, 'num_steps_trained': 720000, 'num_steps_sampled': 720000, 'update_time_ms': 2.47, 'grad_time_ms': 369.84, 'load_time_ms': 0.693}",600,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+24305.08263850212,20586,6.0001564848963485,1200,cda-server-2,24305.08263850212,f93d3d6710754a149751678a58e67540,47,1757079007,721200,-84.57142101971606,2334300,{},10.157.146.2,False,{},2025-09-05_15-30-07,23.38,721200,-29.285911494940482,0,40.157514333724976,601,"{'default': {'policy_loss': -0.1448233723640442, 'vf_explained_var': 0.044699329882860184, 'vf_loss': 427.5722351074219, 'kl': 0.009211943484842777, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.504899978637695, 'total_loss': 427.47467041015625}, 'sample_time_ms': 40232.697, 'num_steps_trained': 721200, 'num_steps_sampled': 721200, 'update_time_ms': 2.518, 'grad_time_ms': 369.208, 'load_time_ms': 0.652}",601,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+24345.4074511528,20638,8.000027286738467,1200,cda-server-2,24345.4074511528,f93d3d6710754a149751678a58e67540,52,1757079047,722400,-84.0708231913385,2334300,{},10.157.146.2,False,{},2025-09-05_15-30-47,24.12,722400,-30.177752624646537,0,40.32481265068054,602,"{'default': {'policy_loss': -0.13600125908851624, 'vf_explained_var': 0.05844730883836746, 'vf_loss': 355.1598205566406, 'kl': 0.009557381272315979, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.490968704223633, 'total_loss': 355.07281494140625}, 'sample_time_ms': 40185.987, 'num_steps_trained': 722400, 'num_steps_sampled': 722400, 'update_time_ms': 2.514, 'grad_time_ms': 369.407, 'load_time_ms': 0.668}",602,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+24385.82950615883,20683,8.000027286738467,1200,cda-server-2,24385.82950615883,f93d3d6710754a149751678a58e67540,45,1757079087,723600,-83.95479981008113,2334300,{},10.157.146.2,False,{},2025-09-05_15-31-27,25.0,723600,-31.45594146914864,0,40.42205500602722,603,"{'default': {'policy_loss': -0.14268487691879272, 'vf_explained_var': 0.05287957936525345, 'vf_loss': 331.7727355957031, 'kl': 0.008890076540410519, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.633769989013672, 'total_loss': 331.6756286621094}, 'sample_time_ms': 40161.778, 'num_steps_trained': 723600, 'num_steps_sampled': 723600, 'update_time_ms': 2.549, 'grad_time_ms': 370.578, 'load_time_ms': 0.673}",603,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+24427.613889217377,20728,8.000027286738467,1200,cda-server-2,24427.613889217377,f93d3d6710754a149751678a58e67540,45,1757079129,724800,-83.95479981008113,2334300,{},10.157.146.2,False,{},2025-09-05_15-32-09,26.39,724800,-34.21459197615981,0,41.784383058547974,604,"{'default': {'policy_loss': -0.1361415535211563, 'vf_explained_var': 0.037054043263196945, 'vf_loss': 399.7581481933594, 'kl': 0.008550567552447319, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.201265335083008, 'total_loss': 399.6658020019531}, 'sample_time_ms': 40283.839, 'num_steps_trained': 724800, 'num_steps_sampled': 724800, 'update_time_ms': 2.58, 'grad_time_ms': 372.472, 'load_time_ms': 0.693}",604,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+24470.080059051514,20776,8.00000050074381,1200,cda-server-2,24470.080059051514,f93d3d6710754a149751678a58e67540,48,1757079172,726000,-83.86711663985983,2334300,{},10.157.146.2,False,{},2025-09-05_15-32-52,26.27,726000,-33.505610756005105,0,42.46616983413696,605,"{'default': {'policy_loss': -0.12924864888191223, 'vf_explained_var': 0.046103015542030334, 'vf_loss': 341.50128173828125, 'kl': 0.010072211734950542, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.826366424560547, 'total_loss': 341.4236755371094}, 'sample_time_ms': 40524.956, 'num_steps_trained': 726000, 'num_steps_sampled': 726000, 'update_time_ms': 2.606, 'grad_time_ms': 370.988, 'load_time_ms': 0.699}",605,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+24510.415741205215,20831,6.000164836050243,1200,cda-server-2,24510.415741205215,f93d3d6710754a149751678a58e67540,55,1757079212,727200,-83.71936354772548,2334300,{},10.157.146.2,False,{},2025-09-05_15-33-32,23.53,727200,-28.61481068473813,0,40.33568215370178,606,"{'default': {'policy_loss': -0.14191076159477234, 'vf_explained_var': 0.047469332814216614, 'vf_loss': 379.6931457519531, 'kl': 0.009210688062012196, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.510305404663086, 'total_loss': 379.59844970703125}, 'sample_time_ms': 40381.736, 'num_steps_trained': 727200, 'num_steps_sampled': 727200, 'update_time_ms': 2.571, 'grad_time_ms': 369.183, 'load_time_ms': 0.697}",606,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+24552.116496562958,20879,6.0005839085830575,1200,cda-server-2,24552.116496562958,f93d3d6710754a149751678a58e67540,48,1757079254,728400,-83.35630821387335,2334300,{},10.157.146.2,False,{},2025-09-05_15-34-14,23.24,728400,-28.46168811179525,0,41.70075535774231,607,"{'default': {'policy_loss': -0.138630211353302, 'vf_explained_var': 0.059327322989702225, 'vf_loss': 391.81622314453125, 'kl': 0.009754837490618229, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.97158432006836, 'total_loss': 391.7275695800781}, 'sample_time_ms': 40507.683, 'num_steps_trained': 728400, 'num_steps_sampled': 728400, 'update_time_ms': 2.581, 'grad_time_ms': 369.527, 'load_time_ms': 0.702}",607,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+24593.64282822609,20942,6.0005839085830575,1200,cda-server-2,24593.64282822609,f93d3d6710754a149751678a58e67540,63,1757079295,729600,-83.35630821387335,2334300,{},10.157.146.2,False,{},2025-09-05_15-34-55,20.7,729600,-24.07304106066957,0,41.526331663131714,608,"{'default': {'policy_loss': -0.12287480384111404, 'vf_explained_var': 0.06512881815433502, 'vf_loss': 346.5931396484375, 'kl': 0.009880936704576015, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.576223373413086, 'total_loss': 346.5208740234375}, 'sample_time_ms': 40560.346, 'num_steps_trained': 729600, 'num_steps_sampled': 729600, 'update_time_ms': 2.572, 'grad_time_ms': 371.065, 'load_time_ms': 0.69}",608,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+24634.367307424545,20983,6.000233129587326,1200,cda-server-2,24634.367307424545,f93d3d6710754a149751678a58e67540,41,1757079336,730800,-83.25600016115013,2334300,{},10.157.146.2,False,{},2025-09-05_15-35-36,23.06,730800,-28.294038226380767,0,40.72447919845581,609,"{'default': {'policy_loss': -0.1399882435798645, 'vf_explained_var': 0.054973285645246506, 'vf_loss': 362.0992431640625, 'kl': 0.00990764144808054, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.934494972229004, 'total_loss': 362.0100402832031}, 'sample_time_ms': 40581.502, 'num_steps_trained': 730800, 'num_steps_sampled': 730800, 'update_time_ms': 2.594, 'grad_time_ms': 371.392, 'load_time_ms': 0.695}",609,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+24674.59463119507,21030,8.00000040042937,1200,cda-server-2,24674.59463119507,f93d3d6710754a149751678a58e67540,47,1757079376,732000,-84.52549714302913,2334300,{},10.157.146.2,False,{},2025-09-05_15-36-16,25.94,732000,-33.469250254431735,0,40.22732377052307,610,"{'default': {'policy_loss': -0.13990773260593414, 'vf_explained_var': 0.05430303514003754, 'vf_loss': 415.2906188964844, 'kl': 0.009759060107171535, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.922138214111328, 'total_loss': 415.20074462890625}, 'sample_time_ms': 40585.189, 'num_steps_trained': 732000, 'num_steps_sampled': 732000, 'update_time_ms': 2.636, 'grad_time_ms': 373.684, 'load_time_ms': 0.707}",610,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+24715.0360724926,21082,8.00000040042937,1200,cda-server-2,24715.0360724926,f93d3d6710754a149751678a58e67540,52,1757079417,733200,-89.13310328764744,2334300,{},10.157.146.2,False,{},2025-09-05_15-36-57,24.5,733200,-30.934448237639913,0,40.44144129753113,611,"{'default': {'policy_loss': -0.14285783469676971, 'vf_explained_var': 0.055050160735845566, 'vf_loss': 347.4284973144531, 'kl': 0.008646698668599129, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.547619819641113, 'total_loss': 347.3299865722656}, 'sample_time_ms': 40615.649, 'num_steps_trained': 733200, 'num_steps_sampled': 733200, 'update_time_ms': 2.65, 'grad_time_ms': 371.602, 'load_time_ms': 0.709}",611,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+24755.88542318344,21134,6.000368671655714,1200,cda-server-2,24755.88542318344,f93d3d6710754a149751678a58e67540,52,1757079458,734400,-89.13310328764744,2334300,{},10.157.146.2,False,{},2025-09-05_15-37-38,23.18,734400,-28.300310387272734,0,40.849350690841675,612,"{'default': {'policy_loss': -0.13208331167697906, 'vf_explained_var': 0.05587300285696983, 'vf_loss': 358.21185302734375, 'kl': 0.008394777774810791, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.886152267456055, 'total_loss': 358.122802734375}, 'sample_time_ms': 40667.167, 'num_steps_trained': 734400, 'num_steps_sampled': 734400, 'update_time_ms': 2.657, 'grad_time_ms': 372.565, 'load_time_ms': 0.688}",612,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+24796.694402456284,21192,6.000497543589239,1200,cda-server-2,24796.694402456284,f93d3d6710754a149751678a58e67540,58,1757079498,735600,-82.51096184941372,2334300,{},10.157.146.2,False,{},2025-09-05_15-38-18,21.69,735600,-25.41183984097305,0,40.80897927284241,613,"{'default': {'policy_loss': -0.13314975798130035, 'vf_explained_var': 0.09040381014347076, 'vf_loss': 327.7677307128906, 'kl': 0.008829405531287193, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.78629207611084, 'total_loss': 327.6798400878906}, 'sample_time_ms': 40707.522, 'num_steps_trained': 735600, 'num_steps_sampled': 735600, 'update_time_ms': 2.65, 'grad_time_ms': 370.933, 'load_time_ms': 0.686}",613,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+24837.00044107437,21239,6.000497543589239,1200,cda-server-2,24837.00044107437,f93d3d6710754a149751678a58e67540,47,1757079539,736800,-83.98433220383868,2334300,{},10.157.146.2,False,{},2025-09-05_15-38-59,22.79,736800,-27.55008306048574,0,40.30603861808777,614,"{'default': {'policy_loss': -0.14171114563941956, 'vf_explained_var': 0.09434985369443893, 'vf_loss': 339.34429931640625, 'kl': 0.008535723201930523, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.591014862060547, 'total_loss': 339.2463073730469}, 'sample_time_ms': 40559.314, 'num_steps_trained': 736800, 'num_steps_sampled': 736800, 'update_time_ms': 2.602, 'grad_time_ms': 371.393, 'load_time_ms': 0.666}",614,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+24877.947942495346,21291,6.000147961170829,1200,cda-server-2,24877.947942495346,f93d3d6710754a149751678a58e67540,52,1757079580,738000,-83.98433220383868,2334300,{},10.157.146.2,False,{},2025-09-05_15-39-40,24.05,738000,-29.89663044157102,0,40.94750142097473,615,"{'default': {'policy_loss': -0.13586917519569397, 'vf_explained_var': 0.06351861357688904, 'vf_loss': 378.4761657714844, 'kl': 0.008193958550691605, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.315361976623535, 'total_loss': 378.38226318359375}, 'sample_time_ms': 40406.464, 'num_steps_trained': 738000, 'num_steps_sampled': 738000, 'update_time_ms': 2.587, 'grad_time_ms': 372.362, 'load_time_ms': 0.665}",615,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+24918.37979078293,21344,6.000221594778455,1200,cda-server-2,24918.37979078293,f93d3d6710754a149751678a58e67540,53,1757079620,739200,-84.48559373634234,2334300,{},10.157.146.2,False,{},2025-09-05_15-40-20,22.28,739200,-27.460588953380757,0,40.4318482875824,616,"{'default': {'policy_loss': -0.13921412825584412, 'vf_explained_var': 0.03981456533074379, 'vf_loss': 427.455322265625, 'kl': 0.00870260875672102, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.456277847290039, 'total_loss': 427.3607177734375}, 'sample_time_ms': 40414.132, 'num_steps_trained': 739200, 'num_steps_sampled': 739200, 'update_time_ms': 2.603, 'grad_time_ms': 374.269, 'load_time_ms': 0.678}",616,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+24958.65509748459,21387,8.000000400001284,1200,cda-server-2,24958.65509748459,f93d3d6710754a149751678a58e67540,43,1757079660,740400,-84.48559373634234,2334300,{},10.157.146.2,False,{},2025-09-05_15-41-00,24.57,740400,-31.764825677922737,0,40.275306701660156,617,"{'default': {'policy_loss': -0.13822530210018158, 'vf_explained_var': 0.042481277137994766, 'vf_loss': 392.3449401855469, 'kl': 0.008851277641952038, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.923352241516113, 'total_loss': 392.2520751953125}, 'sample_time_ms': 40270.54, 'num_steps_trained': 740400, 'num_steps_sampled': 740400, 'update_time_ms': 2.582, 'grad_time_ms': 375.318, 'load_time_ms': 0.681}",617,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+24998.409350156784,21428,8.000000400001284,1200,cda-server-2,24998.409350156784,f93d3d6710754a149751678a58e67540,41,1757079700,741600,-84.24090340583206,2334300,{},10.157.146.2,False,{},2025-09-05_15-41-40,27.75,741600,-37.16501722229587,0,39.754252672195435,618,"{'default': {'policy_loss': -0.13654190301895142, 'vf_explained_var': 0.05191190913319588, 'vf_loss': 400.2810363769531, 'kl': 0.009035798721015453, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.127488136291504, 'total_loss': 400.1907958984375}, 'sample_time_ms': 40095.181, 'num_steps_trained': 741600, 'num_steps_sampled': 741600, 'update_time_ms': 2.615, 'grad_time_ms': 373.455, 'load_time_ms': 0.685}",618,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+25040.844633579254,21479,8.000000399999934,1200,cda-server-2,25040.844633579254,f93d3d6710754a149751678a58e67540,51,1757079743,742800,-83.7149449910713,2334300,{},10.157.146.2,False,{},2025-09-05_15-42-23,27.01,742800,-35.08734683413127,0,42.43528342247009,619,"{'default': {'policy_loss': -0.14082343876361847, 'vf_explained_var': 0.040021199733018875, 'vf_loss': 379.7108154296875, 'kl': 0.013540919870138168, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.542041778564453, 'total_loss': 379.6394348144531}, 'sample_time_ms': 40267.155, 'num_steps_trained': 742800, 'num_steps_sampled': 742800, 'update_time_ms': 2.585, 'grad_time_ms': 372.603, 'load_time_ms': 0.681}",619,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+25081.32364463806,21533,8.000000481312663,1200,cda-server-2,25081.32364463806,f93d3d6710754a149751678a58e67540,54,1757079783,744000,-83.80935288637947,2334300,{},10.157.146.2,False,{},2025-09-05_15-43-03,22.29,744000,-26.555145721054156,0,40.47901105880737,620,"{'default': {'policy_loss': -0.14663855731487274, 'vf_explained_var': 0.06005018204450607, 'vf_loss': 371.0437927246094, 'kl': 0.010164259001612663, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.685025215148926, 'total_loss': 370.94921875}, 'sample_time_ms': 40294.274, 'num_steps_trained': 744000, 'num_steps_sampled': 744000, 'update_time_ms': 2.544, 'grad_time_ms': 370.706, 'load_time_ms': 0.676}",620,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+25122.272487401962,21590,8.000000481312663,1200,cda-server-2,25122.272487401962,f93d3d6710754a149751678a58e67540,57,1757079824,745200,-83.94173811644612,2334300,{},10.157.146.2,False,{},2025-09-05_15-43-44,21.52,745200,-25.102076036691237,0,40.94884276390076,621,"{'default': {'policy_loss': -0.12979984283447266, 'vf_explained_var': 0.05815710127353668, 'vf_loss': 295.2354736328125, 'kl': 0.009262924082577229, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.226744651794434, 'total_loss': 295.1531982421875}, 'sample_time_ms': 40344.672, 'num_steps_trained': 745200, 'num_steps_sampled': 745200, 'update_time_ms': 2.568, 'grad_time_ms': 371.006, 'load_time_ms': 0.677}",621,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+25162.901399374008,21647,6.000115938021381,1200,cda-server-2,25162.901399374008,f93d3d6710754a149751678a58e67540,57,1757079865,746400,-82.27612945177565,2334300,{},10.157.146.2,False,{},2025-09-05_15-44-25,20.64,746400,-23.488296054451055,0,40.6289119720459,622,"{'default': {'policy_loss': -0.1303776353597641, 'vf_explained_var': 0.0661151185631752, 'vf_loss': 337.9927978515625, 'kl': 0.008878227323293686, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.92686939239502, 'total_loss': 337.9079284667969}, 'sample_time_ms': 40324.276, 'num_steps_trained': 746400, 'num_steps_sampled': 746400, 'update_time_ms': 2.553, 'grad_time_ms': 369.405, 'load_time_ms': 0.673}",622,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+25203.49360060692,21702,6.000121888871918,1200,cda-server-2,25203.49360060692,f93d3d6710754a149751678a58e67540,55,1757079905,747600,-83.7708115891026,2334300,{},10.157.146.2,False,{},2025-09-05_15-45-05,20.83,747600,-24.45451179262771,0,40.592201232910156,623,"{'default': {'policy_loss': -0.13189862668514252, 'vf_explained_var': 0.04797222092747688, 'vf_loss': 392.88177490234375, 'kl': 0.009608070366084576, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.990930557250977, 'total_loss': 392.7991638183594}, 'sample_time_ms': 40301.656, 'num_steps_trained': 747600, 'num_steps_sampled': 747600, 'update_time_ms': 2.524, 'grad_time_ms': 370.362, 'load_time_ms': 0.674}",623,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+25243.89462661743,21760,6.00105428389557,1200,cda-server-2,25243.89462661743,f93d3d6710754a149751678a58e67540,58,1757079946,748800,-84.89136401492522,2334300,{},10.157.146.2,False,{},2025-09-05_15-45-46,20.77,748800,-24.245331779213565,0,40.401026010513306,624,"{'default': {'policy_loss': -0.12069802731275558, 'vf_explained_var': 0.0582752488553524, 'vf_loss': 363.4339294433594, 'kl': 0.00953526422381401, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.445428848266602, 'total_loss': 363.36212158203125}, 'sample_time_ms': 40313.552, 'num_steps_trained': 748800, 'num_steps_sampled': 748800, 'update_time_ms': 2.54, 'grad_time_ms': 367.919, 'load_time_ms': 0.684}",624,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+25284.553844690323,21822,6.00105428389557,1200,cda-server-2,25284.553844690323,f93d3d6710754a149751678a58e67540,62,1757079987,750000,-85.36937697108755,2334300,{},10.157.146.2,False,{},2025-09-05_15-46-27,19.96,750000,-22.375557059744562,0,40.659218072891235,625,"{'default': {'policy_loss': -0.13086289167404175, 'vf_explained_var': 0.04969227313995361, 'vf_loss': 303.2268371582031, 'kl': 0.010936732403934002, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.624919891357422, 'total_loss': 303.15203857421875}, 'sample_time_ms': 40284.696, 'num_steps_trained': 750000, 'num_steps_sampled': 750000, 'update_time_ms': 2.525, 'grad_time_ms': 367.946, 'load_time_ms': 0.677}",625,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+25324.515888929367,21875,6.000146406979962,1200,cda-server-2,25324.515888929367,f93d3d6710754a149751678a58e67540,53,1757080026,751200,-85.36937697108755,2334300,{},10.157.146.2,False,{},2025-09-05_15-47-06,20.75,751200,-23.784447957883096,0,39.96204423904419,626,"{'default': {'policy_loss': -0.12827426195144653, 'vf_explained_var': 0.049189791083335876, 'vf_loss': 366.8114318847656, 'kl': 0.00840242113918066, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.327120780944824, 'total_loss': 366.72625732421875}, 'sample_time_ms': 40239.727, 'num_steps_trained': 751200, 'num_steps_sampled': 751200, 'update_time_ms': 2.553, 'grad_time_ms': 365.919, 'load_time_ms': 0.67}",626,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+25364.725041866302,21927,8.00000433651272,1200,cda-server-2,25364.725041866302,f93d3d6710754a149751678a58e67540,52,1757080067,752400,-84.44871859484367,2334300,{},10.157.146.2,False,{},2025-09-05_15-47-47,22.45,752400,-27.174923934325253,0,40.209152936935425,627,"{'default': {'policy_loss': -0.13107679784297943, 'vf_explained_var': 0.07083679735660553, 'vf_loss': 398.0537109375, 'kl': 0.00949773844331503, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.805924415588379, 'total_loss': 397.9713134765625}, 'sample_time_ms': 40233.224, 'num_steps_trained': 752400, 'num_steps_sampled': 752400, 'update_time_ms': 2.567, 'grad_time_ms': 365.761, 'load_time_ms': 0.665}",627,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+25405.91765189171,21988,8.00000433651272,1200,cda-server-2,25405.91765189171,f93d3d6710754a149751678a58e67540,61,1757080108,753600,-83.42936345989669,2334300,{},10.157.146.2,False,{},2025-09-05_15-48-28,21.05,753600,-25.4164018464689,0,41.192610025405884,628,"{'default': {'policy_loss': -0.13577991724014282, 'vf_explained_var': 0.05624391511082649, 'vf_loss': 465.0052185058594, 'kl': 0.009808357805013657, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.116593360900879, 'total_loss': 464.9197082519531}, 'sample_time_ms': 40375.188, 'num_steps_trained': 753600, 'num_steps_sampled': 753600, 'update_time_ms': 2.601, 'grad_time_ms': 367.568, 'load_time_ms': 0.666}",628,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+25446.15123963356,22039,6.000331075652371,1200,cda-server-2,25446.15123963356,f93d3d6710754a149751678a58e67540,51,1757080148,754800,-84.39276188193219,2334300,{},10.157.146.2,False,{},2025-09-05_15-49-08,21.5,754800,-25.835882188326455,0,40.23358774185181,629,"{'default': {'policy_loss': -0.11926893144845963, 'vf_explained_var': 0.04437747970223427, 'vf_loss': 412.1529846191406, 'kl': 0.008310694247484207, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.851436614990234, 'total_loss': 412.0763244628906}, 'sample_time_ms': 40156.45, 'num_steps_trained': 754800, 'num_steps_sampled': 754800, 'update_time_ms': 2.608, 'grad_time_ms': 366.171, 'load_time_ms': 0.671}",629,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+25486.295435667038,22084,6.000331075652371,1200,cda-server-2,25486.295435667038,f93d3d6710754a149751678a58e67540,45,1757080188,756000,-84.39276188193219,2334300,{},10.157.146.2,False,{},2025-09-05_15-49-48,24.09,756000,-30.403046180642264,0,40.14419603347778,630,"{'default': {'policy_loss': -0.1411501169204712, 'vf_explained_var': 0.04332201927900314, 'vf_loss': 386.8531494140625, 'kl': 0.008981443010270596, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.93128490447998, 'total_loss': 386.7580261230469}, 'sample_time_ms': 40120.717, 'num_steps_trained': 756000, 'num_steps_sampled': 756000, 'update_time_ms': 2.613, 'grad_time_ms': 368.45, 'load_time_ms': 0.668}",630,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+25527.423990249634,22143,6.000192444613045,1200,cda-server-2,25527.423990249634,f93d3d6710754a149751678a58e67540,59,1757080230,757200,-82.6057841163656,2334300,{},10.157.146.2,False,{},2025-09-05_15-50-30,22.46,757200,-27.270018626785603,0,41.128554582595825,631,"{'default': {'policy_loss': -0.1260833889245987, 'vf_explained_var': 0.09255239367485046, 'vf_loss': 366.3734436035156, 'kl': 0.009194769896566868, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.812210083007812, 'total_loss': 366.2945251464844}, 'sample_time_ms': 40136.759, 'num_steps_trained': 757200, 'num_steps_sampled': 757200, 'update_time_ms': 2.578, 'grad_time_ms': 370.397, 'load_time_ms': 0.669}",631,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+25567.669348955154,22200,6.000241257845395,1200,cda-server-2,25567.669348955154,f93d3d6710754a149751678a58e67540,57,1757080270,758400,-82.82083779621571,2334300,{},10.157.146.2,False,{},2025-09-05_15-51-10,20.72,758400,-23.77735929350107,0,40.24535870552063,632,"{'default': {'policy_loss': -0.1358955055475235, 'vf_explained_var': 0.10011765360832214, 'vf_loss': 349.7430114746094, 'kl': 0.010028730146586895, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.70235824584961, 'total_loss': 349.6584777832031}, 'sample_time_ms': 40095.611, 'num_steps_trained': 758400, 'num_steps_sampled': 758400, 'update_time_ms': 2.577, 'grad_time_ms': 373.139, 'load_time_ms': 0.676}",632,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+25609.188788175583,22260,6.000241257845395,1200,cda-server-2,25609.188788175583,f93d3d6710754a149751678a58e67540,60,1757080311,759600,-83.85050575088566,2334300,{},10.157.146.2,False,{},2025-09-05_15-51-51,21.26,759600,-24.770393671419907,0,41.51943922042847,633,"{'default': {'policy_loss': -0.13612355291843414, 'vf_explained_var': 0.05270056426525116, 'vf_loss': 292.5561218261719, 'kl': 0.009371224790811539, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.26718521118164, 'total_loss': 292.4681091308594}, 'sample_time_ms': 40190.035, 'num_steps_trained': 759600, 'num_steps_sampled': 759600, 'update_time_ms': 2.625, 'grad_time_ms': 371.431, 'load_time_ms': 0.664}",633,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+25649.523534297943,22307,6.000311522512218,1200,cda-server-2,25649.523534297943,f93d3d6710754a149751678a58e67540,47,1757080352,760800,-83.85050575088566,2334300,{},10.157.146.2,False,{},2025-09-05_15-52-32,22.6,760800,-27.079191458373884,0,40.33474612236023,634,"{'default': {'policy_loss': -0.12696130573749542, 'vf_explained_var': 0.04826429858803749, 'vf_loss': 354.7973327636719, 'kl': 0.009330607019364834, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.232913970947266, 'total_loss': 354.71820068359375}, 'sample_time_ms': 40182.875, 'num_steps_trained': 760800, 'num_steps_sampled': 760800, 'update_time_ms': 2.629, 'grad_time_ms': 371.933, 'load_time_ms': 0.66}",634,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+25690.316407203674,22362,6.0008069214529325,1200,cda-server-2,25690.316407203674,f93d3d6710754a149751678a58e67540,55,1757080393,762000,-84.0302051860021,2334300,{},10.157.146.2,False,{},2025-09-05_15-53-13,23.19,762000,-28.234776689238693,0,40.7928729057312,635,"{'default': {'policy_loss': -0.13061600923538208, 'vf_explained_var': 0.08450715243816376, 'vf_loss': 341.8819885253906, 'kl': 0.009998258203268051, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.137733459472656, 'total_loss': 341.8026123046875}, 'sample_time_ms': 40196.859, 'num_steps_trained': 762000, 'num_steps_sampled': 762000, 'update_time_ms': 2.667, 'grad_time_ms': 371.328, 'load_time_ms': 0.668}",635,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+25730.628033161163,22418,8.000614113500083,1200,cda-server-2,25730.628033161163,f93d3d6710754a149751678a58e67540,56,1757080433,763200,-84.0302051860021,2334300,{},10.157.146.2,False,{},2025-09-05_15-53-53,21.82,763200,-26.17996577083562,0,40.311625957489014,636,"{'default': {'policy_loss': -0.1488531082868576, 'vf_explained_var': 0.07038131356239319, 'vf_loss': 309.6047058105469, 'kl': 0.007792631629854441, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.464954376220703, 'total_loss': 309.49578857421875}, 'sample_time_ms': 40228.998, 'num_steps_trained': 763200, 'num_steps_sampled': 763200, 'update_time_ms': 2.662, 'grad_time_ms': 374.104, 'load_time_ms': 0.673}",636,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+25771.03216290474,22469,8.000614113500083,1200,cda-server-2,25771.03216290474,f93d3d6710754a149751678a58e67540,51,1757080473,764400,-83.00256809465384,2334300,{},10.157.146.2,False,{},2025-09-05_15-54-33,22.23,764400,-26.521522690374447,0,40.40412974357605,637,"{'default': {'policy_loss': -0.1370745450258255, 'vf_explained_var': 0.05867932736873627, 'vf_loss': 315.6844177246094, 'kl': 0.007800164166837931, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.021917343139648, 'total_loss': 315.58734130859375}, 'sample_time_ms': 40249.792, 'num_steps_trained': 764400, 'num_steps_sampled': 764400, 'update_time_ms': 2.667, 'grad_time_ms': 372.778, 'load_time_ms': 0.672}",637,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+25811.709154605865,22521,6.000325103911141,1200,cda-server-2,25811.709154605865,f93d3d6710754a149751678a58e67540,52,1757080514,765600,-84.39073082565776,2334300,{},10.157.146.2,False,{},2025-09-05_15-55-14,22.97,765600,-27.667254712726475,0,40.6769917011261,638,"{'default': {'policy_loss': -0.14020657539367676, 'vf_explained_var': 0.0550454705953598, 'vf_loss': 314.8042907714844, 'kl': 0.008967985399067402, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.18963623046875, 'total_loss': 314.7100830078125}, 'sample_time_ms': 40200.074, 'num_steps_trained': 765600, 'num_steps_sampled': 765600, 'update_time_ms': 2.651, 'grad_time_ms': 370.955, 'load_time_ms': 0.67}",638,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+25852.083624601364,22574,6.001172848561339,1200,cda-server-2,25852.083624601364,f93d3d6710754a149751678a58e67540,53,1757080554,766800,-84.39073082565776,2334300,{},10.157.146.2,False,{},2025-09-05_15-55-54,23.2,766800,-28.89633498785859,0,40.37446999549866,639,"{'default': {'policy_loss': -0.14049877226352692, 'vf_explained_var': 0.0495244599878788, 'vf_loss': 449.2138977050781, 'kl': 0.009108745492994785, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.626858711242676, 'total_loss': 449.1200866699219}, 'sample_time_ms': 40213.493, 'num_steps_trained': 766800, 'num_steps_sampled': 766800, 'update_time_ms': 2.648, 'grad_time_ms': 371.575, 'load_time_ms': 0.666}",639,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+25892.965982675552,22635,6.001172848561339,1200,cda-server-2,25892.965982675552,f93d3d6710754a149751678a58e67540,61,1757080595,768000,-83.72508337225959,2334300,{},10.157.146.2,False,{},2025-09-05_15-56-35,20.73,768000,-24.56500045512621,0,40.88235807418823,640,"{'default': {'policy_loss': -0.13378220796585083, 'vf_explained_var': 0.06875762343406677, 'vf_loss': 407.14874267578125, 'kl': 0.00924590788781643, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.616419792175293, 'total_loss': 407.0623474121094}, 'sample_time_ms': 40286.971, 'num_steps_trained': 768000, 'num_steps_sampled': 768000, 'update_time_ms': 2.681, 'grad_time_ms': 371.841, 'load_time_ms': 0.676}",640,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+25934.889359474182,22689,6.000453349823326,1200,cda-server-2,25934.889359474182,f93d3d6710754a149751678a58e67540,54,1757080637,769200,-82.44031529738285,2334300,{},10.157.146.2,False,{},2025-09-05_15-57-17,21.24,769200,-24.980617503386608,0,41.92337679862976,641,"{'default': {'policy_loss': -0.13876940310001373, 'vf_explained_var': 0.0870453417301178, 'vf_loss': 330.5697326660156, 'kl': 0.01043217908591032, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.399641036987305, 'total_loss': 330.4844665527344}, 'sample_time_ms': 40367.198, 'num_steps_trained': 769200, 'num_steps_sampled': 769200, 'update_time_ms': 2.656, 'grad_time_ms': 371.065, 'load_time_ms': 0.675}",641,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+25974.805790901184,22736,8.000000400316203,1200,cda-server-2,25974.805790901184,f93d3d6710754a149751678a58e67540,47,1757080677,770400,-84.18791176867325,2334300,{},10.157.146.2,False,{},2025-09-05_15-57-57,24.16,770400,-30.16992425963292,0,39.91643142700195,642,"{'default': {'policy_loss': -0.1299075037240982, 'vf_explained_var': 0.02875264547765255, 'vf_loss': 404.0204162597656, 'kl': 0.010445494204759598, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.924205780029297, 'total_loss': 403.944091796875}, 'sample_time_ms': 40334.89, 'num_steps_trained': 770400, 'num_steps_sampled': 770400, 'update_time_ms': 2.701, 'grad_time_ms': 370.462, 'load_time_ms': 0.67}",642,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+26015.379501342773,22789,8.000000400316203,1200,cda-server-2,26015.379501342773,f93d3d6710754a149751678a58e67540,53,1757080718,771600,-84.18791176867325,2334300,{},10.157.146.2,False,{},2025-09-05_15-58-38,24.39,771600,-30.148716722478188,0,40.573710441589355,643,"{'default': {'policy_loss': -0.13093037903308868, 'vf_explained_var': 0.06560102105140686, 'vf_loss': 348.0091247558594, 'kl': 0.008862566202878952, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.776764869689941, 'total_loss': 347.92364501953125}, 'sample_time_ms': 40238.443, 'num_steps_trained': 771600, 'num_steps_sampled': 771600, 'update_time_ms': 2.698, 'grad_time_ms': 372.329, 'load_time_ms': 0.679}",643,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+26055.844870328903,22841,8.000000400001149,1200,cda-server-2,26055.844870328903,f93d3d6710754a149751678a58e67540,52,1757080758,772800,-82.38091530510208,2334300,{},10.157.146.2,False,{},2025-09-05_15-59-18,22.33,772800,-26.36783541548204,0,40.46536898612976,644,"{'default': {'policy_loss': -0.13662850856781006, 'vf_explained_var': 0.040170952677726746, 'vf_loss': 384.4519348144531, 'kl': 0.00868320558220148, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.671871185302734, 'total_loss': 384.35980224609375}, 'sample_time_ms': 40252.108, 'num_steps_trained': 772800, 'num_steps_sampled': 772800, 'update_time_ms': 2.673, 'grad_time_ms': 371.807, 'load_time_ms': 0.673}",644,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+26096.22877264023,22896,8.000000400565488,1200,cda-server-2,26096.22877264023,f93d3d6710754a149751678a58e67540,55,1757080799,774000,-86.44272353841272,2334300,{},10.157.146.2,False,{},2025-09-05_15-59-59,21.81,774000,-26.041579048709085,0,40.38390231132507,645,"{'default': {'policy_loss': -0.14370782673358917, 'vf_explained_var': 0.040503546595573425, 'vf_loss': 384.3282775878906, 'kl': 0.009541447274386883, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.320732116699219, 'total_loss': 384.2335205078125}, 'sample_time_ms': 40210.254, 'num_steps_trained': 774000, 'num_steps_sampled': 774000, 'update_time_ms': 2.641, 'grad_time_ms': 372.802, 'load_time_ms': 0.671}",645,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+26138.70416688919,22956,8.000000400565488,1200,cda-server-2,26138.70416688919,f93d3d6710754a149751678a58e67540,60,1757080841,775200,-86.52290945578895,2334300,{},10.157.146.2,False,{},2025-09-05_16-00-41,21.4,775200,-25.163677784252275,0,42.4753942489624,646,"{'default': {'policy_loss': -0.14978225529193878, 'vf_explained_var': 0.055653903633356094, 'vf_loss': 331.9175109863281, 'kl': 0.009182780049741268, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.227039337158203, 'total_loss': 331.8148193359375}, 'sample_time_ms': 40427.892, 'num_steps_trained': 775200, 'num_steps_sampled': 775200, 'update_time_ms': 2.665, 'grad_time_ms': 371.512, 'load_time_ms': 0.657}",646,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+26179.55428004265,23015,8.000000400001772,1200,cda-server-2,26179.55428004265,f93d3d6710754a149751678a58e67540,59,1757080882,776400,-83.83996610443309,2334300,{},10.157.146.2,False,{},2025-09-05_16-01-22,19.72,776400,-22.22322872377989,0,40.85011315345764,647,"{'default': {'policy_loss': -0.12105710059404373, 'vf_explained_var': 0.0851089358329773, 'vf_loss': 333.52606201171875, 'kl': 0.010336723178625107, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.376267433166504, 'total_loss': 333.4580078125}, 'sample_time_ms': 40471.796, 'num_steps_trained': 776400, 'num_steps_sampled': 776400, 'update_time_ms': 2.681, 'grad_time_ms': 372.21, 'load_time_ms': 0.659}",647,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+26219.81850171089,23076,8.000001945774326,1200,cda-server-2,26219.81850171089,f93d3d6710754a149751678a58e67540,61,1757080922,777600,-84.32301646072881,2334300,{},10.157.146.2,False,{},2025-09-05_16-02-02,20.47,777600,-23.79678965264139,0,40.26422166824341,648,"{'default': {'policy_loss': -0.12987226247787476, 'vf_explained_var': 0.07211634516716003, 'vf_loss': 352.09906005859375, 'kl': 0.008659814484417439, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.455819129943848, 'total_loss': 352.0135803222656}, 'sample_time_ms': 40430.032, 'num_steps_trained': 777600, 'num_steps_sampled': 777600, 'update_time_ms': 2.671, 'grad_time_ms': 372.659, 'load_time_ms': 0.666}",648,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+26260.020400047302,23128,8.000000400044955,1200,cda-server-2,26260.020400047302,f93d3d6710754a149751678a58e67540,52,1757080962,778800,-84.32301646072881,2334300,{},10.157.146.2,False,{},2025-09-05_16-02-42,21.91,778800,-26.192308167062812,0,40.20189833641052,649,"{'default': {'policy_loss': -0.14151859283447266, 'vf_explained_var': 0.04418899118900299, 'vf_loss': 380.1773376464844, 'kl': 0.009976356290280819, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.566143035888672, 'total_loss': 380.0869140625}, 'sample_time_ms': 40411.387, 'num_steps_trained': 778800, 'num_steps_sampled': 778800, 'update_time_ms': 2.688, 'grad_time_ms': 374.067, 'load_time_ms': 0.667}",649,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+26300.13738656044,23180,8.000000400222973,1200,cda-server-2,26300.13738656044,f93d3d6710754a149751678a58e67540,52,1757081003,780000,-86.04093879466454,2334300,{},10.157.146.2,False,{},2025-09-05_16-03-23,22.99,780000,-27.890791250918305,0,40.11698651313782,650,"{'default': {'policy_loss': -0.13425709307193756, 'vf_explained_var': 0.06532343477010727, 'vf_loss': 386.7512512207031, 'kl': 0.009938325732946396, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.797462463378906, 'total_loss': 386.66790771484375}, 'sample_time_ms': 40336.643, 'num_steps_trained': 780000, 'num_steps_sampled': 780000, 'update_time_ms': 2.65, 'grad_time_ms': 372.332, 'load_time_ms': 0.653}",650,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+26340.79488992691,23239,8.000000400001118,1200,cda-server-2,26340.79488992691,f93d3d6710754a149751678a58e67540,59,1757081043,781200,-86.04093879466454,2334300,{},10.157.146.2,False,{},2025-09-05_16-04-03,21.38,781200,-25.756216062145146,0,40.65750336647034,651,"{'default': {'policy_loss': -0.12868428230285645, 'vf_explained_var': 0.08317340910434723, 'vf_loss': 356.17523193359375, 'kl': 0.008946117013692856, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.402520179748535, 'total_loss': 356.0924072265625}, 'sample_time_ms': 40208.052, 'num_steps_trained': 781200, 'num_steps_sampled': 781200, 'update_time_ms': 2.669, 'grad_time_ms': 374.373, 'load_time_ms': 0.662}",651,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+26381.284185647964,23293,6.000251818589496,1200,cda-server-2,26381.284185647964,f93d3d6710754a149751678a58e67540,54,1757081084,782400,-82.44494478641356,2334300,{},10.157.146.2,False,{},2025-09-05_16-04-44,20.26,782400,-23.183659748057742,0,40.48929572105408,652,"{'default': {'policy_loss': -0.1319875568151474, 'vf_explained_var': 0.07829239964485168, 'vf_loss': 336.6304626464844, 'kl': 0.009749547578394413, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.693544387817383, 'total_loss': 336.5484619140625}, 'sample_time_ms': 40264.736, 'num_steps_trained': 782400, 'num_steps_sampled': 782400, 'update_time_ms': 2.65, 'grad_time_ms': 374.986, 'load_time_ms': 0.661}",652,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+26421.80719780922,23351,6.001120958169432,1200,cda-server-2,26421.80719780922,f93d3d6710754a149751678a58e67540,58,1757081124,783600,-82.53954129504204,2334300,{},10.157.146.2,False,{},2025-09-05_16-05-24,20.97,783600,-24.438890578211122,0,40.52301216125488,653,"{'default': {'policy_loss': -0.13274593651294708, 'vf_explained_var': 0.0897531732916832, 'vf_loss': 361.1593017578125, 'kl': 0.008596468716859818, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.934988975524902, 'total_loss': 361.0705871582031}, 'sample_time_ms': 40260.077, 'num_steps_trained': 783600, 'num_steps_sampled': 783600, 'update_time_ms': 2.642, 'grad_time_ms': 374.509, 'load_time_ms': 0.654}",653,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+26462.19699549675,23407,6.001120958169432,1200,cda-server-2,26462.19699549675,f93d3d6710754a149751678a58e67540,56,1757081165,784800,-84.37838653292785,2334300,{},10.157.146.2,False,{},2025-09-05_16-06-05,20.67,784800,-24.294570747860988,0,40.38979768753052,654,"{'default': {'policy_loss': -0.12520751357078552, 'vf_explained_var': 0.06379693746566772, 'vf_loss': 415.3882141113281, 'kl': 0.009834062308073044, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.591793060302734, 'total_loss': 415.31341552734375}, 'sample_time_ms': 40252.539, 'num_steps_trained': 784800, 'num_steps_sampled': 784800, 'update_time_ms': 2.658, 'grad_time_ms': 374.481, 'load_time_ms': 0.656}",654,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+26502.903988838196,23471,8.00000051431039,1200,cda-server-2,26502.903988838196,f93d3d6710754a149751678a58e67540,64,1757081206,786000,-84.01991851588693,2334300,{},10.157.146.2,False,{},2025-09-05_16-06-46,19.92,786000,-22.17032558402795,0,40.70699334144592,655,"{'default': {'policy_loss': -0.13613185286521912, 'vf_explained_var': 0.06973758339881897, 'vf_loss': 346.6980895996094, 'kl': 0.008067493326961994, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.63595199584961, 'total_loss': 346.6033630371094}, 'sample_time_ms': 40285.375, 'num_steps_trained': 786000, 'num_steps_sampled': 786000, 'update_time_ms': 2.644, 'grad_time_ms': 373.973, 'load_time_ms': 0.654}",655,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+26543.47152686119,23524,8.00000051431039,1200,cda-server-2,26543.47152686119,f93d3d6710754a149751678a58e67540,53,1757081246,787200,-84.99452296240861,2334300,{},10.157.146.2,False,{},2025-09-05_16-07-26,20.78,787200,-23.74679600889834,0,40.567538022994995,656,"{'default': {'policy_loss': -0.13116051256656647, 'vf_explained_var': 0.06054263561964035, 'vf_loss': 334.3951416015625, 'kl': 0.00862135924398899, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.810996055603027, 'total_loss': 334.3081970214844}, 'sample_time_ms': 40094.847, 'num_steps_trained': 787200, 'num_steps_sampled': 787200, 'update_time_ms': 2.605, 'grad_time_ms': 373.817, 'load_time_ms': 0.662}",656,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+26583.580323457718,23569,6.0006465745103705,1200,cda-server-2,26583.580323457718,f93d3d6710754a149751678a58e67540,45,1757081286,788400,-84.99452296240861,2334300,{},10.157.146.2,False,{},2025-09-05_16-08-06,24.14,788400,-29.318921270404974,0,40.1087965965271,657,"{'default': {'policy_loss': -0.13451716303825378, 'vf_explained_var': 0.05038885399699211, 'vf_loss': 347.2830810546875, 'kl': 0.01002417504787445, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.587739944458008, 'total_loss': 347.1999816894531}, 'sample_time_ms': 40022.096, 'num_steps_trained': 788400, 'num_steps_sampled': 788400, 'update_time_ms': 2.563, 'grad_time_ms': 372.548, 'load_time_ms': 0.671}",657,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+26624.491716384888,23622,8.000000403833013,1200,cda-server-2,26624.491716384888,f93d3d6710754a149751678a58e67540,53,1757081327,789600,-83.11778401572889,2334300,{},10.157.146.2,False,{},2025-09-05_16-08-47,24.92,789600,-30.78337510412623,0,40.9113929271698,658,"{'default': {'policy_loss': -0.14324690401554108, 'vf_explained_var': 0.09131306409835815, 'vf_loss': 354.6363525390625, 'kl': 0.009672165848314762, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.910435676574707, 'total_loss': 354.5426940917969}, 'sample_time_ms': 40085.724, 'num_steps_trained': 789600, 'num_steps_sampled': 789600, 'update_time_ms': 2.522, 'grad_time_ms': 373.727, 'load_time_ms': 0.673}",658,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+26665.550503492355,23685,8.000000403833013,1200,cda-server-2,26665.550503492355,f93d3d6710754a149751678a58e67540,63,1757081368,790800,-83.87605789708428,2334300,{},10.157.146.2,False,{},2025-09-05_16-09-28,21.96,790800,-26.086919683871646,0,41.05878710746765,659,"{'default': {'policy_loss': -0.13220158219337463, 'vf_explained_var': 0.05609893053770065, 'vf_loss': 317.3482971191406, 'kl': 0.009373782202601433, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.334568977355957, 'total_loss': 317.26416015625}, 'sample_time_ms': 40171.219, 'num_steps_trained': 790800, 'num_steps_sampled': 790800, 'update_time_ms': 2.511, 'grad_time_ms': 373.902, 'load_time_ms': 0.673}",659,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+26706.14735674858,23743,8.000014923432854,1200,cda-server-2,26706.14735674858,f93d3d6710754a149751678a58e67540,58,1757081409,792000,-81.25614519437536,2334300,{},10.157.146.2,False,{},2025-09-05_16-10-09,18.77,792000,-20.15170237354094,0,40.596853256225586,660,"{'default': {'policy_loss': -0.14421729743480682, 'vf_explained_var': 0.05293412506580353, 'vf_loss': 324.7961730957031, 'kl': 0.009439175017178059, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.531058311462402, 'total_loss': 324.7003173828125}, 'sample_time_ms': 40218.226, 'num_steps_trained': 792000, 'num_steps_sampled': 792000, 'update_time_ms': 2.511, 'grad_time_ms': 374.835, 'load_time_ms': 0.682}",660,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+26749.10937023163,23801,8.000014923432854,1200,cda-server-2,26749.10937023163,f93d3d6710754a149751678a58e67540,58,1757081452,793200,-82.77918584492896,2334300,{},10.157.146.2,False,{},2025-09-05_16-10-52,20.11,793200,-23.01099232496081,0,42.962013483047485,661,"{'default': {'policy_loss': -0.14424319565296173, 'vf_explained_var': 0.0909648910164833, 'vf_loss': 349.70458984375, 'kl': 0.008704065345227718, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.972739219665527, 'total_loss': 349.6049499511719}, 'sample_time_ms': 40449.285, 'num_steps_trained': 793200, 'num_steps_sampled': 793200, 'update_time_ms': 2.528, 'grad_time_ms': 374.167, 'load_time_ms': 0.669}",661,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+26790.53783249855,23861,8.000019104777339,1200,cda-server-2,26790.53783249855,f93d3d6710754a149751678a58e67540,60,1757081493,794400,-83.0061784114833,2334300,{},10.157.146.2,False,{},2025-09-05_16-11-33,20.06,794400,-22.711806485896187,0,41.428462266922,662,"{'default': {'policy_loss': -0.1459842175245285, 'vf_explained_var': 0.0807267501950264, 'vf_loss': 281.4808044433594, 'kl': 0.009120728820562363, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.494538307189941, 'total_loss': 281.3815612792969}, 'sample_time_ms': 40545.919, 'num_steps_trained': 794400, 'num_steps_sampled': 794400, 'update_time_ms': 2.531, 'grad_time_ms': 371.465, 'load_time_ms': 0.669}",662,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+26830.953671455383,23911,8.000019104777339,1200,cda-server-2,26830.953671455383,f93d3d6710754a149751678a58e67540,50,1757081534,795600,-83.0061784114833,2334300,{},10.157.146.2,False,{},2025-09-05_16-12-14,22.39,795600,-26.62368738620507,0,40.415838956832886,663,"{'default': {'policy_loss': -0.13642925024032593, 'vf_explained_var': 0.0468260794878006, 'vf_loss': 329.4803466796875, 'kl': 0.009706255979835987, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.580509185791016, 'total_loss': 329.3936767578125}, 'sample_time_ms': 40536.113, 'num_steps_trained': 795600, 'num_steps_sampled': 795600, 'update_time_ms': 2.495, 'grad_time_ms': 370.68, 'load_time_ms': 0.668}",663,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+26871.76649093628,23969,8.00000040000013,1200,cda-server-2,26871.76649093628,f93d3d6710754a149751678a58e67540,58,1757081575,796800,-83.92555069504779,2334300,{},10.157.146.2,False,{},2025-09-05_16-12-55,22.3,796800,-26.43189262409786,0,40.812819480895996,664,"{'default': {'policy_loss': -0.1348496824502945, 'vf_explained_var': 0.05608843266963959, 'vf_loss': 333.28533935546875, 'kl': 0.00806258711963892, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.061532974243164, 'total_loss': 333.19183349609375}, 'sample_time_ms': 40578.312, 'num_steps_trained': 796800, 'num_steps_sampled': 796800, 'update_time_ms': 2.491, 'grad_time_ms': 370.762, 'load_time_ms': 0.678}",664,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+26913.206278800964,24024,8.000138944267999,1200,cda-server-2,26913.206278800964,f93d3d6710754a149751678a58e67540,55,1757081616,798000,-83.92555069504779,2334300,{},10.157.146.2,False,{},2025-09-05_16-13-36,21.57,798000,-25.176900534781918,0,41.43978786468506,665,"{'default': {'policy_loss': -0.14341937005519867, 'vf_explained_var': 0.0725451186299324, 'vf_loss': 314.9678649902344, 'kl': 0.009074779227375984, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.113443374633789, 'total_loss': 314.8709716796875}, 'sample_time_ms': 40653.48, 'num_steps_trained': 798000, 'num_steps_sampled': 798000, 'update_time_ms': 2.509, 'grad_time_ms': 368.875, 'load_time_ms': 0.675}",665,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+26953.81538271904,24082,8.000138944267999,1200,cda-server-2,26953.81538271904,f93d3d6710754a149751678a58e67540,58,1757081657,799200,-82.31470089078586,2334300,{},10.157.146.2,False,{},2025-09-05_16-14-17,20.17,799200,-22.367189033899972,0,40.60910391807556,666,"{'default': {'policy_loss': -0.11698227375745773, 'vf_explained_var': 0.0714401975274086, 'vf_loss': 372.6279602050781, 'kl': 0.009564165957272053, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.457809448242188, 'total_loss': 372.55999755859375}, 'sample_time_ms': 40655.28, 'num_steps_trained': 799200, 'num_steps_sampled': 799200, 'update_time_ms': 2.509, 'grad_time_ms': 371.167, 'load_time_ms': 0.678}",666,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+26994.361090183258,24137,8.000066032650029,1200,cda-server-2,26994.361090183258,f93d3d6710754a149751678a58e67540,55,1757081697,800400,-83.05621977583283,2334300,{},10.157.146.2,False,{},2025-09-05_16-14-57,21.32,800400,-24.871388706820227,0,40.54570746421814,667,"{'default': {'policy_loss': -0.13840384781360626, 'vf_explained_var': 0.06797640770673752, 'vf_loss': 386.251220703125, 'kl': 0.009830228984355927, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 11.00036907196045, 'total_loss': 386.1632080078125}, 'sample_time_ms': 40697.501, 'num_steps_trained': 800400, 'num_steps_sampled': 800400, 'update_time_ms': 2.536, 'grad_time_ms': 372.527, 'load_time_ms': 0.676}",667,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+27035.192878961563,24199,8.000000429543672,1200,cda-server-2,27035.192878961563,f93d3d6710754a149751678a58e67540,62,1757081738,801600,-84.67685089802337,2334300,{},10.157.146.2,False,{},2025-09-05_16-15-38,21.29,801600,-24.507469251183547,0,40.831788778305054,668,"{'default': {'policy_loss': -0.12369600683450699, 'vf_explained_var': 0.06350502371788025, 'vf_loss': 321.4536437988281, 'kl': 0.008992359973490238, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.77855396270752, 'total_loss': 321.37603759765625}, 'sample_time_ms': 40690.617, 'num_steps_trained': 801600, 'num_steps_sampled': 801600, 'update_time_ms': 2.571, 'grad_time_ms': 371.368, 'load_time_ms': 0.67}",668,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+27075.692463874817,24254,8.000000442872718,1200,cda-server-2,27075.692463874817,f93d3d6710754a149751678a58e67540,55,1757081779,802800,-85.01750146551946,2334300,{},10.157.146.2,False,{},2025-09-05_16-16-19,21.0,802800,-24.207210492411118,0,40.499584913253784,669,"{'default': {'policy_loss': -0.13323195278644562, 'vf_explained_var': 0.05928945541381836, 'vf_loss': 344.8277893066406, 'kl': 0.010313580743968487, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.350837707519531, 'total_loss': 344.7474365234375}, 'sample_time_ms': 40636.992, 'num_steps_trained': 802800, 'num_steps_sampled': 802800, 'update_time_ms': 2.586, 'grad_time_ms': 369.098, 'load_time_ms': 0.665}",669,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+27116.26959323883,24307,8.000000442872718,1200,cda-server-2,27116.26959323883,f93d3d6710754a149751678a58e67540,53,1757081819,804000,-85.01750146551946,2334300,{},10.157.146.2,False,{},2025-09-05_16-16-59,22.17,804000,-26.562232870382733,0,40.57712936401367,670,"{'default': {'policy_loss': -0.1358826607465744, 'vf_explained_var': 0.06374790519475937, 'vf_loss': 385.0276794433594, 'kl': 0.009114366956055164, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.56169319152832, 'total_loss': 384.93853759765625}, 'sample_time_ms': 40635.762, 'num_steps_trained': 804000, 'num_steps_sampled': 804000, 'update_time_ms': 2.566, 'grad_time_ms': 368.414, 'load_time_ms': 0.655}",670,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+27157.09346795082,24364,8.000000401995475,1200,cda-server-2,27157.09346795082,f93d3d6710754a149751678a58e67540,57,1757081860,805200,-82.79631821711477,2334300,{},10.157.146.2,False,{},2025-09-05_16-17-40,21.0,805200,-24.470496996443035,0,40.823874711990356,671,"{'default': {'policy_loss': -0.1346641629934311, 'vf_explained_var': 0.03840039670467377, 'vf_loss': 403.1802062988281, 'kl': 0.009168335236608982, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.385075569152832, 'total_loss': 403.0924987792969}, 'sample_time_ms': 40422.123, 'num_steps_trained': 805200, 'num_steps_sampled': 805200, 'update_time_ms': 2.529, 'grad_time_ms': 368.33, 'load_time_ms': 0.667}",671,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+27197.65635037422,24416,6.001785784128868,1200,cda-server-2,27197.65635037422,f93d3d6710754a149751678a58e67540,52,1757081901,806400,-83.79342709987509,2334300,{},10.157.146.2,False,{},2025-09-05_16-18-21,22.23,806400,-26.617510603856754,0,40.56288242340088,672,"{'default': {'policy_loss': -0.13292251527309418, 'vf_explained_var': 0.0659761130809784, 'vf_loss': 327.72894287109375, 'kl': 0.012529836967587471, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.285884857177734, 'total_loss': 327.6602478027344}, 'sample_time_ms': 40333.778, 'num_steps_trained': 806400, 'num_steps_sampled': 806400, 'update_time_ms': 2.535, 'grad_time_ms': 370.042, 'load_time_ms': 0.665}",672,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+27239.980905771255,24478,6.000684602088675,1200,cda-server-2,27239.980905771255,f93d3d6710754a149751678a58e67540,62,1757081943,807600,-83.79342709987509,2334300,{},10.157.146.2,False,{},2025-09-05_16-19-03,21.21,807600,-24.838343338529743,0,42.32455539703369,673,"{'default': {'policy_loss': -0.13893793523311615, 'vf_explained_var': 0.055996403098106384, 'vf_loss': 324.08984375, 'kl': 0.008910679258406162, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.387703895568848, 'total_loss': 323.99658203125}, 'sample_time_ms': 40524.407, 'num_steps_trained': 807600, 'num_steps_sampled': 807600, 'update_time_ms': 2.585, 'grad_time_ms': 370.147, 'load_time_ms': 0.672}",673,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+27280.395271778107,24532,6.000684602088675,1200,cda-server-2,27280.395271778107,f93d3d6710754a149751678a58e67540,54,1757081983,808800,-83.31907873288952,2334300,{},10.157.146.2,False,{},2025-09-05_16-19-43,20.17,808800,-22.792672903275292,0,40.414366006851196,674,"{'default': {'policy_loss': -0.13698840141296387, 'vf_explained_var': 0.0607200525701046, 'vf_loss': 351.3222351074219, 'kl': 0.008641045540571213, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.162296295166016, 'total_loss': 351.2295837402344}, 'sample_time_ms': 40483.828, 'num_steps_trained': 808800, 'num_steps_sampled': 808800, 'update_time_ms': 2.603, 'grad_time_ms': 370.83, 'load_time_ms': 0.664}",674,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+27321.680070400238,24592,6.00027143721214,1200,cda-server-2,27321.680070400238,f93d3d6710754a149751678a58e67540,60,1757082025,810000,-83.41896566217662,2334300,{},10.157.146.2,False,{},2025-09-05_16-20-25,20.92,810000,-23.768318838631732,0,41.28479862213135,675,"{'default': {'policy_loss': -0.12117564678192139, 'vf_explained_var': 0.0652076005935669, 'vf_loss': 282.7796630859375, 'kl': 0.00922798365354538, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.274219512939453, 'total_loss': 282.7057800292969}, 'sample_time_ms': 40465.185, 'num_steps_trained': 810000, 'num_steps_sampled': 810000, 'update_time_ms': 2.689, 'grad_time_ms': 373.827, 'load_time_ms': 0.676}",675,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+27362.604638576508,24647,8.000000405082849,1200,cda-server-2,27362.604638576508,f93d3d6710754a149751678a58e67540,55,1757082066,811200,-84.20049277796858,2334300,{},10.157.146.2,False,{},2025-09-05_16-21-06,21.18,811200,-24.354459911123005,0,40.92456817626953,676,"{'default': {'policy_loss': -0.14417560398578644, 'vf_explained_var': 0.036792509257793427, 'vf_loss': 362.3114318847656, 'kl': 0.008186950348317623, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.6382417678833, 'total_loss': 362.209228515625}, 'sample_time_ms': 40500.088, 'num_steps_trained': 811200, 'num_steps_sampled': 811200, 'update_time_ms': 2.704, 'grad_time_ms': 370.53, 'load_time_ms': 0.671}",676,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+27404.215685129166,24704,8.00000074338365,1200,cda-server-2,27404.215685129166,f93d3d6710754a149751678a58e67540,57,1757082107,812400,-83.86384407717277,2334300,{},10.157.146.2,False,{},2025-09-05_16-21-47,20.68,812400,-23.947270882810354,0,41.61104655265808,677,"{'default': {'policy_loss': -0.13399355113506317, 'vf_explained_var': 0.04822520911693573, 'vf_loss': 345.8808288574219, 'kl': 0.009401356801390648, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.391261100769043, 'total_loss': 345.7950134277344}, 'sample_time_ms': 40606.447, 'num_steps_trained': 812400, 'num_steps_sampled': 812400, 'update_time_ms': 2.689, 'grad_time_ms': 370.753, 'load_time_ms': 0.667}",677,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+27445.564158201218,24765,8.00000074338365,1200,cda-server-2,27445.564158201218,f93d3d6710754a149751678a58e67540,61,1757082149,813600,-83.04481985764515,2334300,{},10.157.146.2,False,{},2025-09-05_16-22-29,20.73,813600,-24.560211061273467,0,41.348473072052,678,"{'default': {'policy_loss': -0.1391109824180603, 'vf_explained_var': 0.05425911396741867, 'vf_loss': 377.283447265625, 'kl': 0.009152804501354694, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.455071449279785, 'total_loss': 377.1912536621094}, 'sample_time_ms': 40658.401, 'num_steps_trained': 813600, 'num_steps_sampled': 813600, 'update_time_ms': 2.694, 'grad_time_ms': 370.501, 'load_time_ms': 0.666}",678,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+27486.347824811935,24823,8.000000927883466,1200,cda-server-2,27486.347824811935,f93d3d6710754a149751678a58e67540,58,1757082189,814800,-85.04657566232152,2334300,{},10.157.146.2,False,{},2025-09-05_16-23-09,19.96,814800,-23.12286926833594,0,40.78366661071777,679,"{'default': {'policy_loss': -0.13876789808273315, 'vf_explained_var': 0.08926144242286682, 'vf_loss': 358.9300537109375, 'kl': 0.010047399438917637, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.238142013549805, 'total_loss': 358.8428649902344}, 'sample_time_ms': 40685.318, 'num_steps_trained': 814800, 'num_steps_sampled': 814800, 'update_time_ms': 2.694, 'grad_time_ms': 371.979, 'load_time_ms': 0.671}",679,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+27527.052586078644,24883,8.000000927883466,1200,cda-server-2,27527.052586078644,f93d3d6710754a149751678a58e67540,60,1757082230,816000,-85.04657566232152,2334300,{},10.157.146.2,False,{},2025-09-05_16-23-50,20.34,816000,-23.70843270039099,0,40.704761266708374,680,"{'default': {'policy_loss': -0.12718573212623596, 'vf_explained_var': 0.08264052867889404, 'vf_loss': 301.3847961425781, 'kl': 0.009499043226242065, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.631152153015137, 'total_loss': 301.3063049316406}, 'sample_time_ms': 40698.477, 'num_steps_trained': 816000, 'num_steps_sampled': 816000, 'update_time_ms': 2.699, 'grad_time_ms': 371.599, 'load_time_ms': 0.686}",680,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+27567.84481739998,24940,8.000160436409068,1200,cda-server-2,27567.84481739998,f93d3d6710754a149751678a58e67540,57,1757082271,817200,-84.65345939335614,2334300,{},10.157.146.2,False,{},2025-09-05_16-24-31,20.0,817200,-22.92804624939602,0,40.79223132133484,681,"{'default': {'policy_loss': -0.13952606916427612, 'vf_explained_var': 0.069635309278965, 'vf_loss': 382.8034973144531, 'kl': 0.009961138479411602, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.556337356567383, 'total_loss': 382.71502685546875}, 'sample_time_ms': 40695.073, 'num_steps_trained': 817200, 'num_steps_sampled': 817200, 'update_time_ms': 2.737, 'grad_time_ms': 371.796, 'load_time_ms': 0.691}",681,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+27608.64666557312,24997,8.000160436409068,1200,cda-server-2,27608.64666557312,f93d3d6710754a149751678a58e67540,57,1757082312,818400,-84.65345939335614,2334300,{},10.157.146.2,False,{},2025-09-05_16-25-12,20.44,818400,-23.644420098627897,0,40.80184817314148,682,"{'default': {'policy_loss': -0.1420573741197586, 'vf_explained_var': 0.0505615659058094, 'vf_loss': 346.1033935546875, 'kl': 0.009393017739057541, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.293015480041504, 'total_loss': 346.0094909667969}, 'sample_time_ms': 40720.485, 'num_steps_trained': 818400, 'num_steps_sampled': 818400, 'update_time_ms': 2.728, 'grad_time_ms': 370.318, 'load_time_ms': 0.72}",682,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+27649.697283506393,25063,8.000000400009567,1200,cda-server-2,27649.697283506393,f93d3d6710754a149751678a58e67540,66,1757082353,819600,-84.07953281377715,2334300,{},10.157.146.2,False,{},2025-09-05_16-25-53,18.55,819600,-19.86042650767961,0,41.050617933273315,683,"{'default': {'policy_loss': -0.13997097313404083, 'vf_explained_var': 0.055021364241838455, 'vf_loss': 318.45867919921875, 'kl': 0.009366320446133614, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.312572479248047, 'total_loss': 318.36669921875}, 'sample_time_ms': 40592.322, 'num_steps_trained': 819600, 'num_steps_sampled': 819600, 'update_time_ms': 2.704, 'grad_time_ms': 371.181, 'load_time_ms': 0.729}",683,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+27690.58904027939,25122,8.000044266891747,1200,cda-server-2,27690.58904027939,f93d3d6710754a149751678a58e67540,59,1757082394,820800,-82.59453900472384,2334300,{},10.157.146.2,False,{},2025-09-05_16-26-34,19.2,820800,-21.09591316891846,0,40.891756772994995,684,"{'default': {'policy_loss': -0.14135350286960602, 'vf_explained_var': 0.07423756271600723, 'vf_loss': 326.8678283691406, 'kl': 0.009019171819090843, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.18637752532959, 'total_loss': 326.772705078125}, 'sample_time_ms': 40637.963, 'num_steps_trained': 820800, 'num_steps_sampled': 820800, 'update_time_ms': 2.682, 'grad_time_ms': 373.368, 'load_time_ms': 0.729}",684,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+27732.155536413193,25171,8.000044266891747,1200,cda-server-2,27732.155536413193,f93d3d6710754a149751678a58e67540,49,1757082435,822000,-82.59453900472384,2334300,{},10.157.146.2,False,{},2025-09-05_16-27-15,22.67,822000,-26.978060696173802,0,41.56649613380432,685,"{'default': {'policy_loss': -0.13821236789226532, 'vf_explained_var': 0.08812883496284485, 'vf_loss': 292.28173828125, 'kl': 0.00817544013261795, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.44626522064209, 'total_loss': 292.1854248046875}, 'sample_time_ms': 40668.213, 'num_steps_trained': 822000, 'num_steps_sampled': 822000, 'update_time_ms': 2.597, 'grad_time_ms': 371.367, 'load_time_ms': 0.718}",685,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+27772.846838235855,25227,6.00022225008021,1200,cda-server-2,27772.846838235855,f93d3d6710754a149751678a58e67540,56,1757082476,823200,-83.16498564664363,2334300,{},10.157.146.2,False,{},2025-09-05_16-27-56,22.98,823200,-27.607415545209438,0,40.69130182266235,686,"{'default': {'policy_loss': -0.1191999763250351, 'vf_explained_var': 0.07850205153226852, 'vf_loss': 334.3780822753906, 'kl': 0.009514669887721539, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.477887153625488, 'total_loss': 334.3077087402344}, 'sample_time_ms': 40645.39, 'num_steps_trained': 823200, 'num_steps_sampled': 823200, 'update_time_ms': 2.611, 'grad_time_ms': 370.849, 'load_time_ms': 0.716}",686,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+27813.446019411087,25291,8.00007416895889,1200,cda-server-2,27813.446019411087,f93d3d6710754a149751678a58e67540,64,1757082517,824400,-81.80900651307844,2334300,{},10.157.146.2,False,{},2025-09-05_16-28-37,18.97,824400,-20.83428727473728,0,40.599181175231934,687,"{'default': {'policy_loss': -0.11948052793741226, 'vf_explained_var': 0.08705031126737595, 'vf_loss': 323.9705810546875, 'kl': 0.010038859210908413, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.539417266845703, 'total_loss': 323.9025573730469}, 'sample_time_ms': 40544.405, 'num_steps_trained': 824400, 'num_steps_sampled': 824400, 'update_time_ms': 2.631, 'grad_time_ms': 370.598, 'load_time_ms': 0.711}",687,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+27854.71259045601,25361,8.00007416895889,1200,cda-server-2,27854.71259045601,f93d3d6710754a149751678a58e67540,70,1757082558,825600,-83.09736796997555,2334300,{},10.157.146.2,False,{},2025-09-05_16-29-18,17.8,825600,-18.81558389906823,0,41.266571044921875,688,"{'default': {'policy_loss': -0.1270497590303421, 'vf_explained_var': 0.05769438296556473, 'vf_loss': 330.37744140625, 'kl': 0.008341348730027676, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.20076847076416, 'total_loss': 330.29315185546875}, 'sample_time_ms': 40534.126, 'num_steps_trained': 825600, 'num_steps_sampled': 825600, 'update_time_ms': 2.64, 'grad_time_ms': 372.675, 'load_time_ms': 0.711}",688,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+27895.275696516037,25409,8.000000996069799,1200,cda-server-2,27895.275696516037,f93d3d6710754a149751678a58e67540,48,1757082599,826800,-83.09736796997555,2334300,{},10.157.146.2,False,{},2025-09-05_16-29-59,21.61,826800,-25.684925684121907,0,40.563106060028076,689,"{'default': {'policy_loss': -0.12874476611614227, 'vf_explained_var': 0.04141268506646156, 'vf_loss': 387.9906005859375, 'kl': 0.009388763457536697, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.947385787963867, 'total_loss': 387.90997314453125}, 'sample_time_ms': 40512.936, 'num_steps_trained': 826800, 'num_steps_sampled': 826800, 'update_time_ms': 2.624, 'grad_time_ms': 371.781, 'load_time_ms': 0.713}",689,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+27936.24415254593,25467,8.000000996069799,1200,cda-server-2,27936.24415254593,f93d3d6710754a149751678a58e67540,58,1757082640,828000,-86.32235059344431,2334300,{},10.157.146.2,False,{},2025-09-05_16-30-40,22.12,828000,-26.340493263521456,0,40.96845602989197,690,"{'default': {'policy_loss': -0.13984589278697968, 'vf_explained_var': 0.037869855761528015, 'vf_loss': 374.4630126953125, 'kl': 0.011925778351724148, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.622106552124023, 'total_loss': 374.38427734375}, 'sample_time_ms': 40537.694, 'num_steps_trained': 828000, 'num_steps_sampled': 828000, 'update_time_ms': 2.651, 'grad_time_ms': 373.369, 'load_time_ms': 0.695}",690,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+27977.457578659058,25523,8.000000400003216,1200,cda-server-2,27977.457578659058,f93d3d6710754a149751678a58e67540,56,1757082681,829200,-86.32235059344431,2334300,{},10.157.146.2,False,{},2025-09-05_16-31-21,20.85,829200,-24.38647522102217,0,41.21342611312866,691,"{'default': {'policy_loss': -0.14314281940460205, 'vf_explained_var': 0.07831501215696335, 'vf_loss': 369.7707214355469, 'kl': 0.00924601312726736, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.468960762023926, 'total_loss': 369.6749572753906}, 'sample_time_ms': 40580.088, 'num_steps_trained': 829200, 'num_steps_sampled': 829200, 'update_time_ms': 2.616, 'grad_time_ms': 373.061, 'load_time_ms': 0.697}",691,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+28018.421922445297,25588,8.001098448453815,1200,cda-server-2,28018.421922445297,f93d3d6710754a149751678a58e67540,65,1757082722,830400,-82.95352123335003,2334300,{},10.157.146.2,False,{},2025-09-05_16-32-02,20.74,830400,-23.938731566342927,0,40.964343786239624,692,"{'default': {'policy_loss': -0.1314677894115448, 'vf_explained_var': 0.04659797623753548, 'vf_loss': 302.8089599609375, 'kl': 0.008603421971201897, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.736278533935547, 'total_loss': 302.7215881347656}, 'sample_time_ms': 40593.687, 'num_steps_trained': 830400, 'num_steps_sampled': 830400, 'update_time_ms': 2.623, 'grad_time_ms': 375.717, 'load_time_ms': 0.684}",692,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+28058.907146692276,25645,8.001098448453815,1200,cda-server-2,28058.907146692276,f93d3d6710754a149751678a58e67540,57,1757082762,831600,-81.67505949271339,2334300,{},10.157.146.2,False,{},2025-09-05_16-32-42,18.32,831600,-19.57222459354786,0,40.48522424697876,693,"{'default': {'policy_loss': -0.13554255664348602, 'vf_explained_var': 0.06683402508497238, 'vf_loss': 349.8853454589844, 'kl': 0.008933561854064465, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.540138244628906, 'total_loss': 349.7955627441406}, 'sample_time_ms': 40536.229, 'num_steps_trained': 831600, 'num_steps_sampled': 831600, 'update_time_ms': 2.634, 'grad_time_ms': 376.585, 'load_time_ms': 0.679}",693,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+28099.90491437912,25715,8.000006303265172,1200,cda-server-2,28099.90491437912,f93d3d6710754a149751678a58e67540,70,1757082803,832800,-81.77245900730915,2334300,{},10.157.146.2,False,{},2025-09-05_16-33-23,18.24,832800,-19.239345248208554,0,40.99776768684387,694,"{'default': {'policy_loss': -0.12374365329742432, 'vf_explained_var': 0.04999389871954918, 'vf_loss': 261.707763671875, 'kl': 0.010634960606694221, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.979816436767578, 'total_loss': 261.6385498046875}, 'sample_time_ms': 40547.652, 'num_steps_trained': 832800, 'num_steps_sampled': 832800, 'update_time_ms': 2.63, 'grad_time_ms': 375.652, 'load_time_ms': 0.681}",694,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+28140.30917072296,25768,8.000000400113457,1200,cda-server-2,28140.30917072296,f93d3d6710754a149751678a58e67540,53,1757082844,834000,-82.24944086592713,2334300,{},10.157.146.2,False,{},2025-09-05_16-34-04,19.86,834000,-22.473300419375914,0,40.40425634384155,695,"{'default': {'policy_loss': -0.13763318955898285, 'vf_explained_var': 0.07439015805721283, 'vf_loss': 363.3426513671875, 'kl': 0.008108936250209808, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.693103790283203, 'total_loss': 363.24658203125}, 'sample_time_ms': 40431.312, 'num_steps_trained': 834000, 'num_steps_sampled': 834000, 'update_time_ms': 2.636, 'grad_time_ms': 375.784, 'load_time_ms': 0.681}",695,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+28181.276101112366,25830,6.000976310948726,1200,cda-server-2,28181.276101112366,f93d3d6710754a149751678a58e67540,62,1757082885,835200,-82.24944086592713,2334300,{},10.157.146.2,False,{},2025-09-05_16-34-45,21.1,835200,-24.983085159830623,0,40.9669303894043,696,"{'default': {'policy_loss': -0.13769802451133728, 'vf_explained_var': 0.08275490999221802, 'vf_loss': 355.4913024902344, 'kl': 0.010670388117432594, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.369654655456543, 'total_loss': 355.40826416015625}, 'sample_time_ms': 40456.35, 'num_steps_trained': 835200, 'num_steps_sampled': 835200, 'update_time_ms': 2.602, 'grad_time_ms': 378.282, 'load_time_ms': 0.676}",696,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+28221.572208881378,25886,8.000000406135603,1200,cda-server-2,28221.572208881378,f93d3d6710754a149751678a58e67540,56,1757082925,836400,-85.17541459886417,2334300,{},10.157.146.2,False,{},2025-09-05_16-35-25,20.13,836400,-23.620010243639356,0,40.29610776901245,697,"{'default': {'policy_loss': -0.1245012953877449, 'vf_explained_var': 0.055296480655670166, 'vf_loss': 373.1838684082031, 'kl': 0.011321038007736206, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.559952735900879, 'total_loss': 373.1174011230469}, 'sample_time_ms': 40427.944, 'num_steps_trained': 836400, 'num_steps_sampled': 836400, 'update_time_ms': 2.588, 'grad_time_ms': 376.463, 'load_time_ms': 0.678}",697,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+28262.060379981995,25941,8.000000406135603,1200,cda-server-2,28262.060379981995,f93d3d6710754a149751678a58e67540,55,1757082966,837600,-85.17541459886417,2334300,{},10.157.146.2,False,{},2025-09-05_16-36-06,21.61,837600,-25.835750145519306,0,40.488171100616455,698,"{'default': {'policy_loss': -0.1289183497428894, 'vf_explained_var': 0.04033321887254715, 'vf_loss': 368.46160888671875, 'kl': 0.011202838271856308, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.804059982299805, 'total_loss': 368.39013671875}, 'sample_time_ms': 40352.521, 'num_steps_trained': 837600, 'num_steps_sampled': 837600, 'update_time_ms': 2.547, 'grad_time_ms': 374.093, 'load_time_ms': 0.68}",698,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+28303.391819000244,26009,8.000000630734851,1200,cda-server-2,28303.391819000244,f93d3d6710754a149751678a58e67540,68,1757083007,838800,-84.91472935505878,2334300,{},10.157.146.2,False,{},2025-09-05_16-36-47,19.12,838800,-21.081319150038087,0,41.33143901824951,699,"{'default': {'policy_loss': -0.13954992592334747, 'vf_explained_var': 0.05589142069220543, 'vf_loss': 303.8218688964844, 'kl': 0.00883510336279869, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.947805404663086, 'total_loss': 303.7276306152344}, 'sample_time_ms': 40427.526, 'num_steps_trained': 838800, 'num_steps_sampled': 838800, 'update_time_ms': 2.535, 'grad_time_ms': 375.963, 'load_time_ms': 0.682}",699,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+28343.93184876442,26059,8.000000630734851,1200,cda-server-2,28343.93184876442,f93d3d6710754a149751678a58e67540,50,1757083048,840000,-82.98343339807924,2334300,{},10.157.146.2,False,{},2025-09-05_16-37-28,20.77,840000,-23.92390477848346,0,40.540029764175415,700,"{'default': {'policy_loss': -0.1357334852218628, 'vf_explained_var': 0.054377488791942596, 'vf_loss': 375.5820007324219, 'kl': 0.008412488736212254, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.688947677612305, 'total_loss': 375.4893798828125}, 'sample_time_ms': 40387.133, 'num_steps_trained': 840000, 'num_steps_sampled': 840000, 'update_time_ms': 2.533, 'grad_time_ms': 373.51, 'load_time_ms': 0.682}",700,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+28384.79243326187,26106,6.000305643336392,1200,cda-server-2,28384.79243326187,f93d3d6710754a149751678a58e67540,47,1757083089,841200,-82.98343339807924,2334300,{},10.157.146.2,False,{},2025-09-05_16-38-09,24.44,841200,-30.386167547498502,0,40.86058449745178,701,"{'default': {'policy_loss': -0.1382504552602768, 'vf_explained_var': 0.05871881917119026, 'vf_loss': 371.4266052246094, 'kl': 0.009199175983667374, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.781585693359375, 'total_loss': 371.33551025390625}, 'sample_time_ms': 40352.098, 'num_steps_trained': 841200, 'num_steps_sampled': 841200, 'update_time_ms': 2.533, 'grad_time_ms': 373.363, 'load_time_ms': 0.669}",701,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+28426.01566171646,26178,8.000000401007663,1200,cda-server-2,28426.01566171646,f93d3d6710754a149751678a58e67540,72,1757083130,842400,-82.61280239228208,2334300,{},10.157.146.2,False,{},2025-09-05_16-38-50,18.92,842400,-20.76706882489907,0,41.223228454589844,702,"{'default': {'policy_loss': -0.14953531324863434, 'vf_explained_var': 0.06813150644302368, 'vf_loss': 393.1726989746094, 'kl': 0.0090964175760746, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.017783164978027, 'total_loss': 393.06976318359375}, 'sample_time_ms': 40377.942, 'num_steps_trained': 842400, 'num_steps_sampled': 842400, 'update_time_ms': 2.547, 'grad_time_ms': 373.362, 'load_time_ms': 0.675}",702,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+28466.736435174942,26243,8.000001168161525,1200,cda-server-2,28466.736435174942,f93d3d6710754a149751678a58e67540,65,1757083170,843600,-83.06342296175727,2334300,{},10.157.146.2,False,{},2025-09-05_16-39-30,17.31,843600,-18.194303401566238,0,40.720773458480835,703,"{'default': {'policy_loss': -0.1275683492422104, 'vf_explained_var': 0.045782122761011124, 'vf_loss': 380.8814697265625, 'kl': 0.009655080735683441, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.161426544189453, 'total_loss': 380.8033447265625}, 'sample_time_ms': 40403.953, 'num_steps_trained': 843600, 'num_steps_sampled': 843600, 'update_time_ms': 2.544, 'grad_time_ms': 370.948, 'load_time_ms': 0.675}",703,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+28507.579236984253,26304,8.000000400058454,1200,cda-server-2,28507.579236984253,f93d3d6710754a149751678a58e67540,61,1757083211,844800,-83.06342296175727,2334300,{},10.157.146.2,False,{},2025-09-05_16-40-11,19.85,844800,-22.373364108360498,0,40.84280180931091,704,"{'default': {'policy_loss': -0.13029402494430542, 'vf_explained_var': 0.07499203085899353, 'vf_loss': 304.3824157714844, 'kl': 0.0082438038662076, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.098431587219238, 'total_loss': 304.2943420410156}, 'sample_time_ms': 40388.832, 'num_steps_trained': 844800, 'num_steps_sampled': 844800, 'update_time_ms': 2.531, 'grad_time_ms': 370.67, 'load_time_ms': 0.68}",704,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+28548.111895799637,26373,6.000747484488361,1200,cda-server-2,28548.111895799637,f93d3d6710754a149751678a58e67540,69,1757083252,846000,-81.9330469449335,2334300,{},10.157.146.2,False,{},2025-09-05_16-40-52,17.75,846000,-18.711469077067065,0,40.53265881538391,705,"{'default': {'policy_loss': -0.12850138545036316, 'vf_explained_var': 0.08139865100383759, 'vf_loss': 326.1455078125, 'kl': 0.008799039758741856, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.546907424926758, 'total_loss': 326.0621337890625}, 'sample_time_ms': 40400.726, 'num_steps_trained': 846000, 'num_steps_sampled': 846000, 'update_time_ms': 2.517, 'grad_time_ms': 371.601, 'load_time_ms': 0.69}",705,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+28589.02033638954,26438,6.000747484488361,1200,cda-server-2,28589.02033638954,f93d3d6710754a149751678a58e67540,65,1757083293,847200,-83.48621018963627,2334300,{},10.157.146.2,False,{},2025-09-05_16-41-33,17.69,847200,-18.81019698057162,0,40.908440589904785,706,"{'default': {'policy_loss': -0.11835834383964539, 'vf_explained_var': 0.07014951854944229, 'vf_loss': 350.3285217285156, 'kl': 0.015575862489640713, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.614946365356445, 'total_loss': 350.28997802734375}, 'sample_time_ms': 40394.858, 'num_steps_trained': 847200, 'num_steps_sampled': 847200, 'update_time_ms': 2.533, 'grad_time_ms': 371.646, 'load_time_ms': 0.696}",706,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+28629.513433218002,26497,8.000003276393983,1200,cda-server-2,28629.513433218002,f93d3d6710754a149751678a58e67540,59,1757083333,848400,-84.78839356877175,2334300,{},10.157.146.2,False,{},2025-09-05_16-42-13,20.25,848400,-23.45393394168811,0,40.49309682846069,707,"{'default': {'policy_loss': -0.1325187236070633, 'vf_explained_var': 0.059267621487379074, 'vf_loss': 373.0447998046875, 'kl': 0.010321704670786858, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.406765937805176, 'total_loss': 372.9651794433594}, 'sample_time_ms': 40414.801, 'num_steps_trained': 848400, 'num_steps_sampled': 848400, 'update_time_ms': 2.522, 'grad_time_ms': 371.387, 'load_time_ms': 0.697}",707,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+28669.90875697136,26555,8.000003276393983,1200,cda-server-2,28669.90875697136,f93d3d6710754a149751678a58e67540,58,1757083374,849600,-84.78839356877175,2334300,{},10.157.146.2,False,{},2025-09-05_16-42-54,20.73,849600,-24.400205752389653,0,40.395323753356934,708,"{'default': {'policy_loss': -0.13885347545146942, 'vf_explained_var': 0.0627940371632576, 'vf_loss': 367.5028076171875, 'kl': 0.008783570490777493, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.27097225189209, 'total_loss': 367.40899658203125}, 'sample_time_ms': 40405.272, 'num_steps_trained': 849600, 'num_steps_sampled': 849600, 'update_time_ms': 2.525, 'grad_time_ms': 371.65, 'load_time_ms': 0.69}",708,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+28710.42838859558,26615,8.000000399999921,1200,cda-server-2,28710.42838859558,f93d3d6710754a149751678a58e67540,60,1757083414,850800,-83.63340670098611,2334300,{},10.157.146.2,False,{},2025-09-05_16-43-34,20.7,850800,-24.133944503431813,0,40.5196316242218,709,"{'default': {'policy_loss': -0.12871472537517548, 'vf_explained_var': 0.07298605889081955, 'vf_loss': 312.44921875, 'kl': 0.009122745133936405, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.461015701293945, 'total_loss': 312.3673095703125}, 'sample_time_ms': 40324.661, 'num_steps_trained': 850800, 'num_steps_sampled': 850800, 'update_time_ms': 2.535, 'grad_time_ms': 371.064, 'load_time_ms': 0.693}",709,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+28750.49381494522,26663,8.000000399999921,1200,cda-server-2,28750.49381494522,f93d3d6710754a149751678a58e67540,48,1757083454,852000,-83.49344510580086,2334300,{},10.157.146.2,False,{},2025-09-05_16-44-14,22.38,852000,-26.668954442154032,0,40.06542634963989,710,"{'default': {'policy_loss': -0.1351759284734726, 'vf_explained_var': 0.05819341912865639, 'vf_loss': 365.76287841796875, 'kl': 0.009273979812860489, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.068086624145508, 'total_loss': 365.67523193359375}, 'sample_time_ms': 40277.03, 'num_steps_trained': 852000, 'num_steps_sampled': 852000, 'update_time_ms': 2.517, 'grad_time_ms': 371.277, 'load_time_ms': 0.701}",710,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+28791.17090654373,26731,8.000000595671725,1200,cda-server-2,28791.17090654373,f93d3d6710754a149751678a58e67540,68,1757083495,853200,-86.26134246625574,2334300,{},10.157.146.2,False,{},2025-09-05_16-44-55,19.56,853200,-21.821787071096818,0,40.67709159851074,711,"{'default': {'policy_loss': -0.13318417966365814, 'vf_explained_var': 0.07742875814437866, 'vf_loss': 308.11773681640625, 'kl': 0.009019685909152031, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.291969299316406, 'total_loss': 308.03082275390625}, 'sample_time_ms': 40260.527, 'num_steps_trained': 853200, 'num_steps_sampled': 853200, 'update_time_ms': 2.527, 'grad_time_ms': 369.386, 'load_time_ms': 0.701}",711,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+28832.654114723206,26792,8.000000595671725,1200,cda-server-2,28832.654114723206,f93d3d6710754a149751678a58e67540,61,1757083537,854400,-81.79150078356464,2334300,{},10.157.146.2,False,{},2025-09-05_16-45-37,19.18,854400,-20.583994054856362,0,41.48320817947388,712,"{'default': {'policy_loss': -0.12363775819540024, 'vf_explained_var': 0.07267598807811737, 'vf_loss': 295.0989990234375, 'kl': 0.0093335947021842, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.111746788024902, 'total_loss': 295.0232849121094}, 'sample_time_ms': 40287.726, 'num_steps_trained': 854400, 'num_steps_sampled': 854400, 'update_time_ms': 2.48, 'grad_time_ms': 368.268, 'load_time_ms': 0.685}",712,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+28873.42242217064,26857,8.000000404473004,1200,cda-server-2,28873.42242217064,f93d3d6710754a149751678a58e67540,65,1757083577,855600,-82.22433111592494,2334300,{},10.157.146.2,False,{},2025-09-05_16-46-17,18.39,855600,-19.404676677345684,0,40.76830744743347,713,"{'default': {'policy_loss': -0.14016784727573395, 'vf_explained_var': 0.03432421386241913, 'vf_loss': 299.73956298828125, 'kl': 0.00987553596496582, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.93517780303955, 'total_loss': 299.6499938964844}, 'sample_time_ms': 40292.372, 'num_steps_trained': 855600, 'num_steps_sampled': 855600, 'update_time_ms': 2.48, 'grad_time_ms': 368.385, 'load_time_ms': 0.68}",713,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+28914.471901655197,26922,6.000584620906141,1200,cda-server-2,28914.471901655197,f93d3d6710754a149751678a58e67540,65,1757083618,856800,-81.3036605447043,2334300,{},10.157.146.2,False,{},2025-09-05_16-46-58,18.21,856800,-19.078267512571962,0,41.049479484558105,714,"{'default': {'policy_loss': -0.12209895253181458, 'vf_explained_var': 0.0858227014541626, 'vf_loss': 293.2718505859375, 'kl': 0.00852067768573761, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.390571594238281, 'total_loss': 293.1933898925781}, 'sample_time_ms': 40313.244, 'num_steps_trained': 856800, 'num_steps_sampled': 856800, 'update_time_ms': 2.47, 'grad_time_ms': 368.18, 'load_time_ms': 0.673}",714,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+28954.873220682144,26972,8.00000039999993,1200,cda-server-2,28954.873220682144,f93d3d6710754a149751678a58e67540,50,1757083659,858000,-82.98562705864296,2334300,{},10.157.146.2,False,{},2025-09-05_16-47-39,21.76,858000,-25.658917897148648,0,40.40131902694702,715,"{'default': {'policy_loss': -0.12688668072223663, 'vf_explained_var': 0.03508751094341278, 'vf_loss': 371.5765075683594, 'kl': 0.01035915408283472, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.390007019042969, 'total_loss': 371.5027160644531}, 'sample_time_ms': 40300.201, 'num_steps_trained': 858000, 'num_steps_sampled': 858000, 'update_time_ms': 2.479, 'grad_time_ms': 368.126, 'load_time_ms': 0.674}",715,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+28995.60322213173,27029,8.00000039999993,1200,cda-server-2,28995.60322213173,f93d3d6710754a149751678a58e67540,57,1757083700,859200,-82.33183625893257,2334300,{},10.157.146.2,False,{},2025-09-05_16-48-20,21.61,859200,-25.298388457660902,0,40.73000144958496,716,"{'default': {'policy_loss': -0.13307127356529236, 'vf_explained_var': 0.0653478130698204, 'vf_loss': 360.661376953125, 'kl': 0.010400122031569481, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.271821022033691, 'total_loss': 360.58160400390625}, 'sample_time_ms': 40282.965, 'num_steps_trained': 859200, 'num_steps_sampled': 859200, 'update_time_ms': 2.472, 'grad_time_ms': 367.512, 'load_time_ms': 0.677}",716,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+29036.2166826725,27087,8.000000399999927,1200,cda-server-2,29036.2166826725,f93d3d6710754a149751678a58e67540,58,1757083740,860400,-83.15118412406316,2334300,{},10.157.146.2,False,{},2025-09-05_16-49-00,20.07,860400,-23.438577239591453,0,40.613460540771484,717,"{'default': {'policy_loss': -0.13831906020641327, 'vf_explained_var': 0.06287696212530136, 'vf_loss': 397.1823425292969, 'kl': 0.009049734100699425, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.504839897155762, 'total_loss': 397.09039306640625}, 'sample_time_ms': 40294.81, 'num_steps_trained': 860400, 'num_steps_sampled': 860400, 'update_time_ms': 2.461, 'grad_time_ms': 367.696, 'load_time_ms': 0.677}",717,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+29077.708159208298,27145,8.000000400294569,1200,cda-server-2,29077.708159208298,f93d3d6710754a149751678a58e67540,58,1757083782,861600,-84.76618152955605,2334300,{},10.157.146.2,False,{},2025-09-05_16-49-42,20.63,861600,-24.11644923042627,0,41.49147653579712,718,"{'default': {'policy_loss': -0.13099156320095062, 'vf_explained_var': 0.05628981068730354, 'vf_loss': 377.05572509765625, 'kl': 0.009577766992151737, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.994077682495117, 'total_loss': 376.9737854003906}, 'sample_time_ms': 40403.004, 'num_steps_trained': 861600, 'num_steps_sampled': 861600, 'update_time_ms': 2.467, 'grad_time_ms': 369.106, 'load_time_ms': 0.682}",718,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+29118.641085386276,27213,8.000000532626647,1200,cda-server-2,29118.641085386276,f93d3d6710754a149751678a58e67540,68,1757083823,862800,-81.86781440969214,2334300,{},10.157.146.2,False,{},2025-09-05_16-50-23,20.23,862800,-22.83917961058728,0,40.932926177978516,719,"{'default': {'policy_loss': -0.135774165391922, 'vf_explained_var': 0.06923539936542511, 'vf_loss': 285.6695251464844, 'kl': 0.010913086123764515, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.050886154174805, 'total_loss': 285.5896911621094}, 'sample_time_ms': 40446.359, 'num_steps_trained': 862800, 'num_steps_sampled': 862800, 'update_time_ms': 2.481, 'grad_time_ms': 367.082, 'load_time_ms': 0.676}",719,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+29159.28107905388,27272,6.00144027839643,1200,cda-server-2,29159.28107905388,f93d3d6710754a149751678a58e67540,59,1757083863,864000,-82.89561989928644,2334300,{},10.157.146.2,False,{},2025-09-05_16-51-03,18.62,864000,-19.981439301044652,0,40.63999366760254,720,"{'default': {'policy_loss': -0.1284421980381012, 'vf_explained_var': 0.06530622392892838, 'vf_loss': 314.2474060058594, 'kl': 0.009373411536216736, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.334098815917969, 'total_loss': 314.1670227050781}, 'sample_time_ms': 40502.222, 'num_steps_trained': 864000, 'num_steps_sampled': 864000, 'update_time_ms': 2.471, 'grad_time_ms': 368.659, 'load_time_ms': 0.685}",720,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+29199.99475121498,27338,8.000000425276804,1200,cda-server-2,29199.99475121498,f93d3d6710754a149751678a58e67540,66,1757083904,865200,-82.89561989928644,2334300,{},10.157.146.2,False,{},2025-09-05_16-51-44,18.52,865200,-19.96935075821672,0,40.713672161102295,721,"{'default': {'policy_loss': -0.1386243999004364, 'vf_explained_var': 0.0429929755628109, 'vf_loss': 292.6319274902344, 'kl': 0.009272708557546139, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.077808380126953, 'total_loss': 292.54083251953125}, 'sample_time_ms': 40504.072, 'num_steps_trained': 865200, 'num_steps_sampled': 865200, 'update_time_ms': 2.465, 'grad_time_ms': 370.445, 'load_time_ms': 0.685}",721,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+29241.91730117798,27401,6.002054486656901,1200,cda-server-2,29241.91730117798,f93d3d6710754a149751678a58e67540,63,1757083946,866400,-82.74371160723481,2334300,{},10.157.146.2,False,{},2025-09-05_16-52-26,19.17,866400,-20.819362200857366,0,41.92254996299744,722,"{'default': {'policy_loss': -0.12306466698646545, 'vf_explained_var': 0.03911950811743736, 'vf_loss': 254.18136596679688, 'kl': 0.010511685162782669, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.399463653564453, 'total_loss': 254.11219787597656}, 'sample_time_ms': 40546.733, 'num_steps_trained': 866400, 'num_steps_sampled': 866400, 'update_time_ms': 2.506, 'grad_time_ms': 371.653, 'load_time_ms': 0.682}",722,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+29283.22913813591,27457,8.000029993520025,1200,cda-server-2,29283.22913813591,f93d3d6710754a149751678a58e67540,56,1757083987,867600,-82.74371160723481,2334300,{},10.157.146.2,False,{},2025-09-05_16-53-07,20.54,867600,-23.330405752587787,0,41.31183695793152,723,"{'default': {'policy_loss': -0.14105471968650818, 'vf_explained_var': 0.08017747849225998, 'vf_loss': 325.4109191894531, 'kl': 0.010143209248781204, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.360750198364258, 'total_loss': 325.3218688964844}, 'sample_time_ms': 40599.349, 'num_steps_trained': 867600, 'num_steps_sampled': 867600, 'update_time_ms': 2.499, 'grad_time_ms': 373.337, 'load_time_ms': 0.692}",723,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+29325.205415010452,27525,6.0000160365220845,1200,cda-server-2,29325.205415010452,f93d3d6710754a149751678a58e67540,68,1757084029,868800,-82.02553931926019,2334300,{},10.157.146.2,False,{},2025-09-05_16-53-49,19.1,868800,-20.873786391573113,0,41.976276874542236,724,"{'default': {'policy_loss': -0.13885970413684845, 'vf_explained_var': 0.058657899498939514, 'vf_loss': 304.5099792480469, 'kl': 0.008577974513173103, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.062747955322266, 'total_loss': 304.41510009765625}, 'sample_time_ms': 40692.165, 'num_steps_trained': 868800, 'num_steps_sampled': 868800, 'update_time_ms': 2.531, 'grad_time_ms': 373.124, 'load_time_ms': 0.694}",724,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+29365.986107826233,27578,6.0000160365220845,1200,cda-server-2,29365.986107826233,f93d3d6710754a149751678a58e67540,53,1757084070,870000,-82.69403482068108,2334300,{},10.157.146.2,False,{},2025-09-05_16-54-30,20.8,870000,-23.37609754359023,0,40.78069281578064,725,"{'default': {'policy_loss': -0.1291716992855072, 'vf_explained_var': 0.08739342540502548, 'vf_loss': 277.6264953613281, 'kl': 0.00856463611125946, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.184879302978516, 'total_loss': 277.5412292480469}, 'sample_time_ms': 40730.9, 'num_steps_trained': 870000, 'num_steps_sampled': 870000, 'update_time_ms': 2.563, 'grad_time_ms': 372.244, 'load_time_ms': 0.68}",725,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+29406.15782213211,27631,6.0001688025645254,1200,cda-server-2,29406.15782213211,f93d3d6710754a149751678a58e67540,53,1757084110,871200,-85.48392902379284,2334300,{},10.157.146.2,False,{},2025-09-05_16-55-10,22.45,871200,-26.74245729229549,0,40.171714305877686,726,"{'default': {'policy_loss': -0.1305692046880722, 'vf_explained_var': 0.08103582262992859, 'vf_loss': 358.6045837402344, 'kl': 0.011169320903718472, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.034055709838867, 'total_loss': 358.53125}, 'sample_time_ms': 40674.941, 'num_steps_trained': 871200, 'num_steps_sampled': 871200, 'update_time_ms': 2.579, 'grad_time_ms': 372.359, 'load_time_ms': 0.674}",726,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+29448.44010066986,27701,6.000731367378369,1200,cda-server-2,29448.44010066986,f93d3d6710754a149751678a58e67540,70,1757084153,872400,-82.93602254977328,2334300,{},10.157.146.2,False,{},2025-09-05_16-55-53,19.03,872400,-20.82716131705299,0,42.282278537750244,727,"{'default': {'policy_loss': -0.12690937519073486, 'vf_explained_var': 0.06322629749774933, 'vf_loss': 270.475830078125, 'kl': 0.010131497867405415, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.482244491577148, 'total_loss': 270.40081787109375}, 'sample_time_ms': 40841.406, 'num_steps_trained': 872400, 'num_steps_sampled': 872400, 'update_time_ms': 2.608, 'grad_time_ms': 372.786, 'load_time_ms': 0.677}",727,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+29489.228105545044,27774,6.000731367378369,1200,cda-server-2,29489.228105545044,f93d3d6710754a149751678a58e67540,73,1757084193,873600,-82.25053978219081,2334300,{},10.157.146.2,False,{},2025-09-05_16-56-33,15.94,873600,-15.703944481900898,0,40.788004875183105,728,"{'default': {'policy_loss': -0.12946470081806183, 'vf_explained_var': 0.049016065895557404, 'vf_loss': 299.9803161621094, 'kl': 0.008652339689433575, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.097430229187012, 'total_loss': 299.8951416015625}, 'sample_time_ms': 40769.989, 'num_steps_trained': 873600, 'num_steps_sampled': 873600, 'update_time_ms': 2.592, 'grad_time_ms': 373.824, 'load_time_ms': 0.676}",728,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+29529.927278995514,27838,8.000019283308028,1200,cda-server-2,29529.927278995514,f93d3d6710754a149751678a58e67540,64,1757084234,874800,-81.72320013207842,2334300,{},10.157.146.2,False,{},2025-09-05_16-57-14,18.39,874800,-19.836285925144793,0,40.69917345046997,729,"{'default': {'policy_loss': -0.13523352146148682, 'vf_explained_var': 0.0748111754655838, 'vf_loss': 335.87359619140625, 'kl': 0.0098927216604352, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.072437286376953, 'total_loss': 335.7890319824219}, 'sample_time_ms': 40744.5, 'num_steps_trained': 874800, 'num_steps_sampled': 874800, 'update_time_ms': 2.596, 'grad_time_ms': 375.944, 'load_time_ms': 0.672}",729,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+29571.078062534332,27906,8.000001657814378,1200,cda-server-2,29571.078062534332,f93d3d6710754a149751678a58e67540,68,1757084275,876000,-81.92822653593343,2334300,{},10.157.146.2,False,{},2025-09-05_16-57-55,18.34,876000,-19.5552035138419,0,41.15078353881836,730,"{'default': {'policy_loss': -0.13607625663280487, 'vf_explained_var': 0.07375697791576385, 'vf_loss': 284.76312255859375, 'kl': 0.00896426010876894, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.50853443145752, 'total_loss': 284.6729736328125}, 'sample_time_ms': 40797.478, 'num_steps_trained': 876000, 'num_steps_sampled': 876000, 'update_time_ms': 2.619, 'grad_time_ms': 374.029, 'load_time_ms': 0.658}",730,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+29611.778690814972,27967,6.000679922644899,1200,cda-server-2,29611.778690814972,f93d3d6710754a149751678a58e67540,61,1757084316,877200,-83.15228410652335,2334300,{},10.157.146.2,False,{},2025-09-05_16-58-36,18.26,877200,-19.359112263199275,0,40.70062828063965,731,"{'default': {'policy_loss': -0.1341593861579895, 'vf_explained_var': 0.061656758189201355, 'vf_loss': 296.7401428222656, 'kl': 0.008642788976430893, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.928287506103516, 'total_loss': 296.6502685546875}, 'sample_time_ms': 40796.564, 'num_steps_trained': 877200, 'num_steps_sampled': 877200, 'update_time_ms': 2.582, 'grad_time_ms': 373.713, 'load_time_ms': 0.67}",731,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+29653.39520764351,28039,8.000000540292397,1200,cda-server-2,29653.39520764351,f93d3d6710754a149751678a58e67540,72,1757084358,878400,-85.10073136374753,2334300,{},10.157.146.2,False,{},2025-09-05_16-59-18,17.32,878400,-17.948101077722608,0,41.61651682853699,732,"{'default': {'policy_loss': -0.1281171590089798, 'vf_explained_var': 0.0566900297999382, 'vf_loss': 286.0398254394531, 'kl': 0.0099622942507267, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.014286041259766, 'total_loss': 285.9627685546875}, 'sample_time_ms': 40767.11, 'num_steps_trained': 878400, 'num_steps_sampled': 878400, 'update_time_ms': 2.573, 'grad_time_ms': 372.509, 'load_time_ms': 0.669}",732,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+29694.69374513626,28106,8.000000540292397,1200,cda-server-2,29694.69374513626,f93d3d6710754a149751678a58e67540,67,1757084399,879600,-82.3864645029358,2334300,{},10.157.146.2,False,{},2025-09-05_16-59-59,16.9,879600,-17.366074570166077,0,41.298537492752075,733,"{'default': {'policy_loss': -0.14045852422714233, 'vf_explained_var': 0.08414170145988464, 'vf_loss': 314.0704345703125, 'kl': 0.008508166298270226, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.844867706298828, 'total_loss': 313.9735107421875}, 'sample_time_ms': 40765.503, 'num_steps_trained': 879600, 'num_steps_sampled': 879600, 'update_time_ms': 2.603, 'grad_time_ms': 372.742, 'load_time_ms': 0.676}",733,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+29737.214621543884,28178,8.00000111503843,1200,cda-server-2,29737.214621543884,f93d3d6710754a149751678a58e67540,72,1757084442,880800,-82.15611060835819,2334300,{},10.157.146.2,False,{},2025-09-05_17-00-42,15.66,880800,-14.896665386492428,0,42.52087640762329,734,"{'default': {'policy_loss': -0.13205061852931976, 'vf_explained_var': 0.06191818416118622, 'vf_loss': 248.81407165527344, 'kl': 0.011667486280202866, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.656253814697266, 'total_loss': 248.74183654785156}, 'sample_time_ms': 40818.951, 'num_steps_trained': 880800, 'num_steps_sampled': 880800, 'update_time_ms': 2.598, 'grad_time_ms': 373.773, 'load_time_ms': 0.686}",734,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+29778.218991279602,28245,8.000543049785566,1200,cda-server-2,29778.218991279602,f93d3d6710754a149751678a58e67540,67,1757084483,882000,-83.39854703969844,2334300,{},10.157.146.2,False,{},2025-09-05_17-01-23,16.23,882000,-15.984219261884206,0,41.00436973571777,735,"{'default': {'policy_loss': -0.11759211122989655, 'vf_explained_var': 0.11208094656467438, 'vf_loss': 260.5393371582031, 'kl': 0.010160332545638084, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.803607940673828, 'total_loss': 260.47381591796875}, 'sample_time_ms': 40840.94, 'num_steps_trained': 882000, 'num_steps_sampled': 882000, 'update_time_ms': 2.589, 'grad_time_ms': 374.195, 'load_time_ms': 0.691}",735,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+29818.561482429504,28304,8.00000090983045,1200,cda-server-2,29818.561482429504,f93d3d6710754a149751678a58e67540,59,1757084523,883200,-83.39854703969844,2334300,{},10.157.146.2,False,{},2025-09-05_17-02-03,20.33,883200,-23.12202785529714,0,40.342491149902344,736,"{'default': {'policy_loss': -0.12850269675254822, 'vf_explained_var': 0.03985140100121498, 'vf_loss': 344.3086242675781, 'kl': 0.009444975294172764, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.752793312072754, 'total_loss': 344.228515625}, 'sample_time_ms': 40859.85, 'num_steps_trained': 883200, 'num_steps_sampled': 883200, 'update_time_ms': 2.585, 'grad_time_ms': 372.404, 'load_time_ms': 0.686}",736,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+29859.180753707886,28360,8.00000090983045,1200,cda-server-2,29859.180753707886,f93d3d6710754a149751678a58e67540,56,1757084564,884400,-81.87708772999348,2334300,{},10.157.146.2,False,{},2025-09-05_17-02-44,21.27,884400,-24.264980880804305,0,40.61927127838135,737,"{'default': {'policy_loss': -0.14008980989456177, 'vf_explained_var': 0.06672081351280212, 'vf_loss': 304.00250244140625, 'kl': 0.00897983182221651, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.57132339477539, 'total_loss': 303.9084167480469}, 'sample_time_ms': 40691.916, 'num_steps_trained': 884400, 'num_steps_sampled': 884400, 'update_time_ms': 2.563, 'grad_time_ms': 374.068, 'load_time_ms': 0.689}",737,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+29900.002744436264,28422,8.000089010749814,1200,cda-server-2,29900.002744436264,f93d3d6710754a149751678a58e67540,62,1757084604,885600,-85.38554531572255,2334300,{},10.157.146.2,False,{},2025-09-05_17-03-24,20.2,885600,-22.43494187975015,0,40.821990728378296,738,"{'default': {'policy_loss': -0.13489291071891785, 'vf_explained_var': 0.05717464163899422, 'vf_loss': 343.2720031738281, 'kl': 0.00989554449915886, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.060739517211914, 'total_loss': 343.1878356933594}, 'sample_time_ms': 40698.21, 'num_steps_trained': 885600, 'num_steps_sampled': 885600, 'update_time_ms': 2.602, 'grad_time_ms': 371.156, 'load_time_ms': 0.697}",738,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+29940.7762465477,28484,8.000089010749814,1200,cda-server-2,29940.7762465477,f93d3d6710754a149751678a58e67540,62,1757084645,886800,-85.38554531572255,2334300,{},10.157.146.2,False,{},2025-09-05_17-04-05,19.77,886800,-22.146584529132607,0,40.77350211143494,739,"{'default': {'policy_loss': -0.1404074877500534, 'vf_explained_var': 0.07595164328813553, 'vf_loss': 344.611572265625, 'kl': 0.009907951578497887, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.274325370788574, 'total_loss': 344.52197265625}, 'sample_time_ms': 40705.618, 'num_steps_trained': 886800, 'num_steps_sampled': 886800, 'update_time_ms': 2.598, 'grad_time_ms': 371.15, 'load_time_ms': 0.707}",739,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+29981.64090180397,28556,8.000031109397392,1200,cda-server-2,29981.64090180397,f93d3d6710754a149751678a58e67540,72,1757084686,888000,-83.32921079013482,2334300,{},10.157.146.2,False,{},2025-09-05_17-04-46,17.29,888000,-18.46493707709768,0,40.86465525627136,740,"{'default': {'policy_loss': -0.1380717009305954, 'vf_explained_var': 0.09386997669935226, 'vf_loss': 317.8074645996094, 'kl': 0.00799684040248394, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.199979782104492, 'total_loss': 317.7103576660156}, 'sample_time_ms': 40675.18, 'num_steps_trained': 888000, 'num_steps_sampled': 888000, 'update_time_ms': 2.585, 'grad_time_ms': 372.988, 'load_time_ms': 0.709}",740,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+30022.496190071106,28626,8.000002003100477,1200,cda-server-2,30022.496190071106,f93d3d6710754a149751678a58e67540,70,1757084727,889200,-83.13848559617922,2334300,{},10.157.146.2,False,{},2025-09-05_17-05-27,16.74,889200,-16.96787096091629,0,40.85528826713562,741,"{'default': {'policy_loss': -0.13685159385204315, 'vf_explained_var': 0.07675319910049438, 'vf_loss': 321.41253662109375, 'kl': 0.00837702676653862, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.066194534301758, 'total_loss': 321.3186340332031}, 'sample_time_ms': 40692.332, 'num_steps_trained': 889200, 'num_steps_sampled': 889200, 'update_time_ms': 2.615, 'grad_time_ms': 371.291, 'load_time_ms': 0.693}",741,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+30063.643092155457,28691,8.000000423194447,1200,cda-server-2,30063.643092155457,f93d3d6710754a149751678a58e67540,65,1757084768,890400,-84.2246213702523,2334300,{},10.157.146.2,False,{},2025-09-05_17-06-08,18.62,890400,-20.63733204124626,0,41.146902084350586,742,"{'default': {'policy_loss': -0.13879930973052979, 'vf_explained_var': 0.0804530456662178, 'vf_loss': 361.5207824707031, 'kl': 0.01119515672326088, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.65325927734375, 'total_loss': 361.4393615722656}, 'sample_time_ms': 40644.176, 'num_steps_trained': 890400, 'num_steps_sampled': 890400, 'update_time_ms': 2.618, 'grad_time_ms': 372.543, 'load_time_ms': 0.7}",742,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+30104.053475141525,28747,8.000000423194447,1200,cda-server-2,30104.053475141525,f93d3d6710754a149751678a58e67540,56,1757084809,891600,-84.2246213702523,2334300,{},10.157.146.2,False,{},2025-09-05_17-06-49,19.57,891600,-21.79376136563798,0,40.410382986068726,743,"{'default': {'policy_loss': -0.1416526585817337, 'vf_explained_var': 0.04931581765413284, 'vf_loss': 305.583984375, 'kl': 0.009790300391614437, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.784406661987305, 'total_loss': 305.4924621582031}, 'sample_time_ms': 40557.456, 'num_steps_trained': 891600, 'num_steps_sampled': 891600, 'update_time_ms': 2.611, 'grad_time_ms': 370.519, 'load_time_ms': 0.684}",743,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+30144.455258846283,28813,6.001084322535755,1200,cda-server-2,30144.455258846283,f93d3d6710754a149751678a58e67540,66,1757084849,892800,-81.955225259986,2334300,{},10.157.146.2,False,{},2025-09-05_17-07-29,18.68,892800,-19.97284440765686,0,40.40178370475769,744,"{'default': {'policy_loss': -0.12510019540786743, 'vf_explained_var': 0.0812167301774025, 'vf_loss': 303.3254699707031, 'kl': 0.010806133039295673, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.999659538269043, 'total_loss': 303.2557678222656}, 'sample_time_ms': 40346.902, 'num_steps_trained': 892800, 'num_steps_sampled': 892800, 'update_time_ms': 2.595, 'grad_time_ms': 369.19, 'load_time_ms': 0.666}",744,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+30186.065650701523,28872,8.000002941928134,1200,cda-server-2,30186.065650701523,f93d3d6710754a149751678a58e67540,59,1757084891,894000,-83.08228367290154,2334300,{},10.157.146.2,False,{},2025-09-05_17-08-11,19.4,894000,-21.737716293241956,0,41.61039185523987,745,"{'default': {'policy_loss': -0.13053497672080994, 'vf_explained_var': 0.056347012519836426, 'vf_loss': 377.6755065917969, 'kl': 0.008224553428590298, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.166430473327637, 'total_loss': 377.5871276855469}, 'sample_time_ms': 40408.814, 'num_steps_trained': 894000, 'num_steps_sampled': 894000, 'update_time_ms': 2.588, 'grad_time_ms': 367.867, 'load_time_ms': 0.669}",745,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+30226.762546777725,28943,8.000000400000106,1200,cda-server-2,30226.762546777725,f93d3d6710754a149751678a58e67540,71,1757084931,895200,-83.08228367290154,2334300,{},10.157.146.2,False,{},2025-09-05_17-08-51,18.48,895200,-19.69147452012094,0,40.69689607620239,746,"{'default': {'policy_loss': -0.12992480397224426, 'vf_explained_var': 0.07774555683135986, 'vf_loss': 194.36849975585938, 'kl': 0.010045523755252361, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.619414329528809, 'total_loss': 194.29006958007812}, 'sample_time_ms': 40444.109, 'num_steps_trained': 895200, 'num_steps_sampled': 895200, 'update_time_ms': 2.61, 'grad_time_ms': 367.968, 'load_time_ms': 0.672}",746,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+30268.089219093323,29006,8.000000403304202,1200,cda-server-2,30268.089219093323,f93d3d6710754a149751678a58e67540,63,1757084973,896400,-82.62558471421308,2334300,{},10.157.146.2,False,{},2025-09-05_17-09-33,18.27,896400,-19.350712312063408,0,41.326672315597534,747,"{'default': {'policy_loss': -0.13237182796001434, 'vf_explained_var': 0.07015971839427948, 'vf_loss': 326.2056579589844, 'kl': 0.010417462326586246, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.127080917358398, 'total_loss': 326.1266784667969}, 'sample_time_ms': 40515.43, 'num_steps_trained': 896400, 'num_steps_sampled': 896400, 'update_time_ms': 2.603, 'grad_time_ms': 367.395, 'load_time_ms': 0.67}",747,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+30308.541545152664,29062,6.0006216372415055,1200,cda-server-2,30308.541545152664,f93d3d6710754a149751678a58e67540,56,1757085013,897600,-84.67799704472158,2334300,{},10.157.146.2,False,{},2025-09-05_17-10-13,19.19,897600,-21.3234254769153,0,40.45232605934143,748,"{'default': {'policy_loss': -0.13899725675582886, 'vf_explained_var': 0.04912257194519043, 'vf_loss': 412.31866455078125, 'kl': 0.010717198252677917, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.273164749145508, 'total_loss': 412.2345886230469}, 'sample_time_ms': 40477.023, 'num_steps_trained': 897600, 'num_steps_sampled': 897600, 'update_time_ms': 2.565, 'grad_time_ms': 368.856, 'load_time_ms': 0.658}",748,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+30349.387503147125,29132,8.00052066526673,1200,cda-server-2,30349.387503147125,f93d3d6710754a149751678a58e67540,70,1757085054,898800,-84.67799704472158,2334300,{},10.157.146.2,False,{},2025-09-05_17-10-54,19.38,898800,-21.462543912137075,0,40.84595799446106,749,"{'default': {'policy_loss': -0.13145460188388824, 'vf_explained_var': 0.0625494122505188, 'vf_loss': 285.423095703125, 'kl': 0.011241531930863857, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.86048698425293, 'total_loss': 285.3492431640625}, 'sample_time_ms': 40485.085, 'num_steps_trained': 898800, 'num_steps_sampled': 898800, 'update_time_ms': 2.61, 'grad_time_ms': 367.894, 'load_time_ms': 0.646}",749,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+30389.929396867752,29190,8.00052066526673,1200,cda-server-2,30389.929396867752,f93d3d6710754a149751678a58e67540,58,1757085095,900000,-84.89795372890111,2334300,{},10.157.146.2,False,{},2025-09-05_17-11-35,19.12,900000,-20.785510885121795,0,40.54189372062683,750,"{'default': {'policy_loss': -0.12289158254861832, 'vf_explained_var': 0.03563812002539635, 'vf_loss': 348.5309143066406, 'kl': 0.009410185739398003, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.520467758178711, 'total_loss': 348.4562072753906}, 'sample_time_ms': 40451.957, 'num_steps_trained': 900000, 'num_steps_sampled': 900000, 'update_time_ms': 2.679, 'grad_time_ms': 368.631, 'load_time_ms': 0.64}",750,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+30430.428723096848,29251,8.000000404376095,1200,cda-server-2,30430.428723096848,f93d3d6710754a149751678a58e67540,61,1757085135,901200,-83.73893636502241,2334300,{},10.157.146.2,False,{},2025-09-05_17-12-15,20.41,901200,-22.641483820709286,0,40.49932622909546,751,"{'default': {'policy_loss': -0.14148728549480438, 'vf_explained_var': 0.0723336935043335, 'vf_loss': 299.2305908203125, 'kl': 0.011067216284573078, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.135138511657715, 'total_loss': 299.14581298828125}, 'sample_time_ms': 40416.332, 'num_steps_trained': 901200, 'num_steps_sampled': 901200, 'update_time_ms': 2.698, 'grad_time_ms': 368.638, 'load_time_ms': 0.639}",751,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+30471.68133020401,29334,8.000000404376095,1200,cda-server-2,30471.68133020401,f93d3d6710754a149751678a58e67540,83,1757085176,902400,-82.24432564475308,2334300,{},10.157.146.2,False,{},2025-09-05_17-12-56,15.05,902400,-13.998088530408827,0,41.252607107162476,752,"{'default': {'policy_loss': -0.12116781622171402, 'vf_explained_var': 0.05540143698453903, 'vf_loss': 231.3296661376953, 'kl': 0.010432730428874493, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.135848045349121, 'total_loss': 231.26199340820312}, 'sample_time_ms': 40428.336, 'num_steps_trained': 902400, 'num_steps_sampled': 902400, 'update_time_ms': 2.678, 'grad_time_ms': 367.211, 'load_time_ms': 0.632}",752,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+30513.436676979065,29412,8.000020444125035,1200,cda-server-2,30513.436676979065,f93d3d6710754a149751678a58e67540,78,1757085218,903600,-82.24432564475308,2334300,{},10.157.146.2,False,{},2025-09-05_17-13-38,14.83,903600,-13.395111546191378,0,41.75534677505493,753,"{'default': {'policy_loss': -0.13614211976528168, 'vf_explained_var': 0.10242009162902832, 'vf_loss': 210.67474365234375, 'kl': 0.009925223886966705, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.28369140625, 'total_loss': 210.5894775390625}, 'sample_time_ms': 40560.784, 'num_steps_trained': 903600, 'num_steps_sampled': 903600, 'update_time_ms': 2.668, 'grad_time_ms': 369.208, 'load_time_ms': 0.629}",753,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+30554.068113088608,29477,6.000214361836744,1200,cda-server-2,30554.068113088608,f93d3d6710754a149751678a58e67540,65,1757085259,904800,-82.48717607506077,2334300,{},10.157.146.2,False,{},2025-09-05_17-14-19,16.92,904800,-17.17085103099765,0,40.63143610954285,754,"{'default': {'policy_loss': -0.1356310099363327, 'vf_explained_var': 0.04570399224758148, 'vf_loss': 275.375, 'kl': 0.010488932020962238, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.908733367919922, 'total_loss': 275.29315185546875}, 'sample_time_ms': 40582.174, 'num_steps_trained': 904800, 'num_steps_sampled': 904800, 'update_time_ms': 2.693, 'grad_time_ms': 370.766, 'load_time_ms': 0.638}",754,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+30595.17123389244,29550,8.000098319227599,1200,cda-server-2,30595.17123389244,f93d3d6710754a149751678a58e67540,73,1757085300,906000,-82.48717607506077,2334300,{},10.157.146.2,False,{},2025-09-05_17-15-00,16.85,906000,-17.117526602091335,0,41.10312080383301,755,"{'default': {'policy_loss': -0.1304991990327835, 'vf_explained_var': 0.07977786660194397, 'vf_loss': 298.7557067871094, 'kl': 0.011416278779506683, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.717928886413574, 'total_loss': 298.6837158203125}, 'sample_time_ms': 40528.948, 'num_steps_trained': 906000, 'num_steps_sampled': 906000, 'update_time_ms': 2.692, 'grad_time_ms': 373.287, 'load_time_ms': 0.647}",755,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+30636.351860761642,29621,8.000000418469492,1200,cda-server-2,30636.351860761642,f93d3d6710754a149751678a58e67540,71,1757085341,907200,-83.52748219976436,2334300,{},10.157.146.2,False,{},2025-09-05_17-15-41,17.14,907200,-17.467007965914647,0,41.18062686920166,756,"{'default': {'policy_loss': -0.12059248983860016, 'vf_explained_var': 0.06638404726982117, 'vf_loss': 322.24920654296875, 'kl': 0.008615576662123203, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.90461540222168, 'total_loss': 322.17279052734375}, 'sample_time_ms': 40575.462, 'num_steps_trained': 907200, 'num_steps_sampled': 907200, 'update_time_ms': 2.659, 'grad_time_ms': 375.132, 'load_time_ms': 0.657}",756,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+30677.02641391754,29686,8.000060442169335,1200,cda-server-2,30677.02641391754,f93d3d6710754a149751678a58e67540,65,1757085382,908400,-83.52748219976436,2334300,{},10.157.146.2,False,{},2025-09-05_17-16-22,17.68,908400,-18.62626461199702,0,40.67455315589905,757,"{'default': {'policy_loss': -0.13433906435966492, 'vf_explained_var': 0.09224368631839752, 'vf_loss': 290.9940185546875, 'kl': 0.010070855729281902, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.214303970336914, 'total_loss': 290.91131591796875}, 'sample_time_ms': 40509.571, 'num_steps_trained': 908400, 'num_steps_sampled': 908400, 'update_time_ms': 2.701, 'grad_time_ms': 375.717, 'load_time_ms': 0.675}",757,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+30717.750467300415,29750,8.000000400008375,1200,cda-server-2,30717.750467300415,f93d3d6710754a149751678a58e67540,64,1757085423,909600,-84.89661991062168,2334300,{},10.157.146.2,False,{},2025-09-05_17-17-03,18.7,909600,-20.17263064166968,0,40.724053382873535,758,"{'default': {'policy_loss': -0.13608211278915405, 'vf_explained_var': 0.09583254158496857, 'vf_loss': 297.9053649902344, 'kl': 0.00865277461707592, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.9579496383667, 'total_loss': 297.8136291503906}, 'sample_time_ms': 40537.635, 'num_steps_trained': 909600, 'num_steps_sampled': 909600, 'update_time_ms': 2.754, 'grad_time_ms': 374.808, 'load_time_ms': 0.687}",758,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+30758.913528442383,29813,8.000000400008375,1200,cda-server-2,30758.913528442383,f93d3d6710754a149751678a58e67540,63,1757085464,910800,-84.89661991062168,2334300,{},10.157.146.2,False,{},2025-09-05_17-17-44,19.09,910800,-21.10671550565162,0,41.16306114196777,759,"{'default': {'policy_loss': -0.12606367468833923, 'vf_explained_var': 0.07965333014726639, 'vf_loss': 314.8367614746094, 'kl': 0.00925252865999937, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.232202529907227, 'total_loss': 314.7580871582031}, 'sample_time_ms': 40569.163, 'num_steps_trained': 910800, 'num_steps_sampled': 910800, 'update_time_ms': 2.699, 'grad_time_ms': 375.127, 'load_time_ms': 0.696}",759,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+30800.173375844955,29870,8.000000400058523,1200,cda-server-2,30800.173375844955,f93d3d6710754a149751678a58e67540,57,1757085505,912000,-83.83995846299142,2334300,{},10.157.146.2,False,{},2025-09-05_17-18-25,19.29,912000,-21.359571240138703,0,41.25984740257263,760,"{'default': {'policy_loss': -0.13328641653060913, 'vf_explained_var': 0.05360172688961029, 'vf_loss': 319.5666198730469, 'kl': 0.010172800160944462, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.890810012817383, 'total_loss': 319.4854736328125}, 'sample_time_ms': 40640.973, 'num_steps_trained': 912000, 'num_steps_sampled': 912000, 'update_time_ms': 2.675, 'grad_time_ms': 375.169, 'load_time_ms': 0.715}",760,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+30841.5841755867,29935,6.000467144138341,1200,cda-server-2,30841.5841755867,f93d3d6710754a149751678a58e67540,65,1757085547,913200,-83.83995846299142,2334300,{},10.157.146.2,False,{},2025-09-05_17-19-07,20.22,913200,-23.314135707282638,0,41.410799741744995,761,"{'default': {'policy_loss': -0.1262614130973816, 'vf_explained_var': 0.06839457154273987, 'vf_loss': 374.11395263671875, 'kl': 0.008085977286100388, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.623345375061035, 'total_loss': 374.0291442871094}, 'sample_time_ms': 40732.115, 'num_steps_trained': 913200, 'num_steps_sampled': 913200, 'update_time_ms': 2.735, 'grad_time_ms': 375.13, 'load_time_ms': 0.713}",761,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+30882.567188978195,30005,6.001887000447253,1200,cda-server-2,30882.567188978195,f93d3d6710754a149751678a58e67540,70,1757085588,914400,-82.33862409631332,2334300,{},10.157.146.2,False,{},2025-09-05_17-19-48,16.99,914400,-17.24281673077447,0,40.98301339149475,762,"{'default': {'policy_loss': -0.13505060970783234, 'vf_explained_var': 0.0880148783326149, 'vf_loss': 244.82989501953125, 'kl': 0.009070093743503094, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.867620468139648, 'total_loss': 244.74134826660156}, 'sample_time_ms': 40704.152, 'num_steps_trained': 914400, 'num_steps_sampled': 914400, 'update_time_ms': 2.718, 'grad_time_ms': 376.142, 'load_time_ms': 0.722}",762,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+30923.50925898552,30071,6.0006705510351575,1200,cda-server-2,30923.50925898552,f93d3d6710754a149751678a58e67540,66,1757085629,915600,-80.65436496511782,2334300,{},10.157.146.2,False,{},2025-09-05_17-20-29,17.88,915600,-18.44683374447552,0,40.94207000732422,763,"{'default': {'policy_loss': -0.1356877088546753, 'vf_explained_var': 0.0753752663731575, 'vf_loss': 286.0276794433594, 'kl': 0.009824368171393871, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.95186710357666, 'total_loss': 285.9422912597656}, 'sample_time_ms': 40623.094, 'num_steps_trained': 915600, 'num_steps_sampled': 915600, 'update_time_ms': 2.704, 'grad_time_ms': 375.957, 'load_time_ms': 0.73}",763,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+30964.495475292206,30134,6.000480849959848,1200,cda-server-2,30964.495475292206,f93d3d6710754a149751678a58e67540,63,1757085670,916800,-81.0640415203788,2334300,{},10.157.146.2,False,{},2025-09-05_17-21-10,18.99,916800,-20.456197002782996,0,40.9862163066864,764,"{'default': {'policy_loss': -0.1424509435892105, 'vf_explained_var': 0.08470446616411209, 'vf_loss': 284.12646484375, 'kl': 0.009188350290060043, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.875536918640137, 'total_loss': 284.0310974121094}, 'sample_time_ms': 40660.157, 'num_steps_trained': 916800, 'num_steps_sampled': 916800, 'update_time_ms': 2.676, 'grad_time_ms': 374.41, 'load_time_ms': 0.737}",764,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+31005.797312259674,30208,8.000000402079849,1200,cda-server-2,31005.797312259674,f93d3d6710754a149751678a58e67540,74,1757085711,918000,-82.73128965920462,2334300,{},10.157.146.2,False,{},2025-09-05_17-21-51,15.82,918000,-14.951894382360717,0,41.30183696746826,765,"{'default': {'policy_loss': -0.12936262786388397, 'vf_explained_var': 0.07548219710588455, 'vf_loss': 242.91050720214844, 'kl': 0.009415439330041409, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.627714157104492, 'total_loss': 242.82940673828125}, 'sample_time_ms': 40681.497, 'num_steps_trained': 918000, 'num_steps_sampled': 918000, 'update_time_ms': 2.644, 'grad_time_ms': 372.94, 'load_time_ms': 0.724}",765,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+31047.05264520645,30276,8.000000402079849,1200,cda-server-2,31047.05264520645,f93d3d6710754a149751678a58e67540,68,1757085752,919200,-82.73128965920462,2334300,{},10.157.146.2,False,{},2025-09-05_17-22-32,18.31,919200,-19.280804899835008,0,41.255332946777344,766,"{'default': {'policy_loss': -0.1371554285287857, 'vf_explained_var': 0.07185918837785721, 'vf_loss': 247.03509521484375, 'kl': 0.008833284489810467, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.774402618408203, 'total_loss': 246.94322204589844}, 'sample_time_ms': 40690.955, 'num_steps_trained': 919200, 'num_steps_sampled': 919200, 'update_time_ms': 2.674, 'grad_time_ms': 370.963, 'load_time_ms': 0.727}",766,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+31089.062596797943,30353,8.000000400002431,1200,cda-server-2,31089.062596797943,f93d3d6710754a149751678a58e67540,77,1757085794,920400,-83.5361869541145,2334300,{},10.157.146.2,False,{},2025-09-05_17-23-14,15.25,920400,-14.175203548616794,0,42.0099515914917,767,"{'default': {'policy_loss': -0.12462607026100159, 'vf_explained_var': 0.08732303977012634, 'vf_loss': 243.69512939453125, 'kl': 0.008847885765135288, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.529629707336426, 'total_loss': 243.61582946777344}, 'sample_time_ms': 40824.563, 'num_steps_trained': 920400, 'num_steps_sampled': 920400, 'update_time_ms': 2.63, 'grad_time_ms': 370.953, 'load_time_ms': 0.713}",767,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+31131.69923043251,30427,8.000000400002431,1200,cda-server-2,31131.69923043251,f93d3d6710754a149751678a58e67540,74,1757085837,921600,-80.95841474236175,2334300,{},10.157.146.2,False,{},2025-09-05_17-23-57,16.55,921600,-16.218077237483868,0,42.63663363456726,768,"{'default': {'policy_loss': -0.14495937526226044, 'vf_explained_var': 0.08378193527460098, 'vf_loss': 259.54229736328125, 'kl': 0.00863682385534048, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.644064903259277, 'total_loss': 259.44158935546875}, 'sample_time_ms': 41014.356, 'num_steps_trained': 921600, 'num_steps_sampled': 921600, 'update_time_ms': 2.613, 'grad_time_ms': 372.414, 'load_time_ms': 0.709}",768,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+31172.656938552856,30491,6.000292684923556,1200,cda-server-2,31172.656938552856,f93d3d6710754a149751678a58e67540,64,1757085878,922800,-82.58970208683081,2334300,{},10.157.146.2,False,{},2025-09-05_17-24-38,17.35,922800,-18.03929135106351,0,40.95770812034607,769,"{'default': {'policy_loss': -0.14416664838790894, 'vf_explained_var': 0.0536273792386055, 'vf_loss': 329.0448913574219, 'kl': 0.009426713921129704, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.792765617370605, 'total_loss': 328.94903564453125}, 'sample_time_ms': 40995.501, 'num_steps_trained': 922800, 'num_steps_sampled': 922800, 'update_time_ms': 2.591, 'grad_time_ms': 370.787, 'load_time_ms': 0.705}",769,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+31213.47488617897,30560,6.001096636040461,1200,cda-server-2,31213.47488617897,f93d3d6710754a149751678a58e67540,69,1757085919,924000,-84.67005291753208,2334300,{},10.157.146.2,False,{},2025-09-05_17-25-19,17.68,924000,-18.410349034058434,0,40.81794762611389,770,"{'default': {'policy_loss': -0.12984853982925415, 'vf_explained_var': 0.08265845477581024, 'vf_loss': 305.31280517578125, 'kl': 0.008890766650438309, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.666536331176758, 'total_loss': 305.228515625}, 'sample_time_ms': 40950.612, 'num_steps_trained': 924000, 'num_steps_sampled': 924000, 'update_time_ms': 2.576, 'grad_time_ms': 371.489, 'load_time_ms': 0.699}",770,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+31254.5342772007,30631,8.00090756810259,1200,cda-server-2,31254.5342772007,f93d3d6710754a149751678a58e67540,71,1757085960,925200,-82.3422879094364,2334300,{},10.157.146.2,False,{},2025-09-05_17-26-00,16.39,925200,-16.122359780407713,0,41.059391021728516,771,"{'default': {'policy_loss': -0.12562409043312073, 'vf_explained_var': 0.07445921748876572, 'vf_loss': 281.87884521484375, 'kl': 0.008894064463675022, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.495814323425293, 'total_loss': 281.798828125}, 'sample_time_ms': 40914.362, 'num_steps_trained': 925200, 'num_steps_sampled': 925200, 'update_time_ms': 2.49, 'grad_time_ms': 372.654, 'load_time_ms': 0.705}",771,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+31295.46081018448,30704,8.00090756810259,1200,cda-server-2,31295.46081018448,f93d3d6710754a149751678a58e67540,73,1757086001,926400,-80.87787801531817,2334300,{},10.157.146.2,False,{},2025-09-05_17-26-41,17.17,926400,-17.317141906400938,0,40.92653298377991,772,"{'default': {'policy_loss': -0.1239498034119606, 'vf_explained_var': 0.08681967109441757, 'vf_loss': 218.62332153320312, 'kl': 0.009571562521159649, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.913838386535645, 'total_loss': 218.5484161376953}, 'sample_time_ms': 40909.074, 'num_steps_trained': 926400, 'num_steps_sampled': 926400, 'update_time_ms': 2.507, 'grad_time_ms': 372.3, 'load_time_ms': 0.709}",772,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+31336.891654729843,30784,8.000000722456967,1200,cda-server-2,31336.891654729843,f93d3d6710754a149751678a58e67540,80,1757086042,927600,-82.13300054388644,2334300,{},10.157.146.2,False,{},2025-09-05_17-27-22,16.33,927600,-16.053352833205842,0,41.43084454536438,773,"{'default': {'policy_loss': -0.1430547535419464, 'vf_explained_var': 0.05776591971516609, 'vf_loss': 313.5188903808594, 'kl': 0.008910161443054676, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.528358459472656, 'total_loss': 313.4215087890625}, 'sample_time_ms': 40959.906, 'num_steps_trained': 927600, 'num_steps_sampled': 927600, 'update_time_ms': 2.492, 'grad_time_ms': 370.343, 'load_time_ms': 0.704}",773,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+31378.806512594223,30867,8.00002824079836,1200,cda-server-2,31378.806512594223,f93d3d6710754a149751678a58e67540,83,1757086084,928800,-82.13300054388644,2334300,{},10.157.146.2,False,{},2025-09-05_17-28-04,15.01,928800,-13.570427887843211,0,41.91485786437988,774,"{'default': {'policy_loss': -0.1321137547492981, 'vf_explained_var': 0.10900112986564636, 'vf_loss': 151.51576232910156, 'kl': 0.010917743667960167, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.147563934326172, 'total_loss': 151.4396209716797}, 'sample_time_ms': 41053.973, 'num_steps_trained': 928800, 'num_steps_sampled': 928800, 'update_time_ms': 2.496, 'grad_time_ms': 369.162, 'load_time_ms': 0.691}",774,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+31419.993708610535,30933,8.00000040034583,1200,cda-server-2,31419.993708610535,f93d3d6710754a149751678a58e67540,66,1757086125,930000,-80.38782541284584,2334300,{},10.157.146.2,False,{},2025-09-05_17-28-45,17.48,930000,-17.637091387092415,0,41.187196016311646,775,"{'default': {'policy_loss': -0.133761465549469, 'vf_explained_var': 0.0745670273900032, 'vf_loss': 295.4413757324219, 'kl': 0.009684954769909382, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.024506568908691, 'total_loss': 295.3572692871094}, 'sample_time_ms': 41042.881, 'num_steps_trained': 930000, 'num_steps_sampled': 930000, 'update_time_ms': 2.529, 'grad_time_ms': 368.752, 'load_time_ms': 0.697}",775,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+31462.726754665375,30999,8.00000040034583,1200,cda-server-2,31462.726754665375,f93d3d6710754a149751678a58e67540,66,1757086168,931200,-83.26649840872302,2334300,{},10.157.146.2,False,{},2025-09-05_17-29-28,18.3,931200,-19.808913434781406,0,42.73304605484009,776,"{'default': {'policy_loss': -0.13098560273647308, 'vf_explained_var': 0.030340632423758507, 'vf_loss': 343.68548583984375, 'kl': 0.008821642957627773, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.451546669006348, 'total_loss': 343.5997009277344}, 'sample_time_ms': 41191.055, 'num_steps_trained': 931200, 'num_steps_sampled': 931200, 'update_time_ms': 2.511, 'grad_time_ms': 368.398, 'load_time_ms': 0.682}",776,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+31504.402832984924,31077,6.00042544964599,1200,cda-server-2,31504.402832984924,f93d3d6710754a149751678a58e67540,78,1757086210,932400,-82.90656271259472,2334300,{},10.157.146.2,False,{},2025-09-05_17-30-10,16.35,932400,-16.60537585896571,0,41.67607831954956,777,"{'default': {'policy_loss': -0.12153659760951996, 'vf_explained_var': 0.0682220533490181, 'vf_loss': 271.8040771484375, 'kl': 0.009109177626669407, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.856929779052734, 'total_loss': 271.72918701171875}, 'sample_time_ms': 41157.313, 'num_steps_trained': 932400, 'num_steps_sampled': 932400, 'update_time_ms': 2.522, 'grad_time_ms': 368.718, 'load_time_ms': 0.678}",777,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+31545.452731847763,31136,6.000333428507881,1200,cda-server-2,31545.452731847763,f93d3d6710754a149751678a58e67540,59,1757086251,933600,-81.95809372931464,2334300,{},10.157.146.2,False,{},2025-09-05_17-30-51,18.35,933600,-20.045205049618446,0,41.049898862838745,778,"{'default': {'policy_loss': -0.13712677359580994, 'vf_explained_var': 0.06309150159358978, 'vf_loss': 367.3211669921875, 'kl': 0.010018829256296158, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.415764808654785, 'total_loss': 367.2354431152344}, 'sample_time_ms': 40997.501, 'num_steps_trained': 933600, 'num_steps_sampled': 933600, 'update_time_ms': 2.5, 'grad_time_ms': 369.85, 'load_time_ms': 0.685}",778,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+31587.682763814926,31204,8.000000400000427,1200,cda-server-2,31587.682763814926,f93d3d6710754a149751678a58e67540,68,1757086293,934800,-81.95809372931464,2334300,{},10.157.146.2,False,{},2025-09-05_17-31-33,18.32,934800,-19.288561365640202,0,42.230031967163086,779,"{'default': {'policy_loss': -0.1388029009103775, 'vf_explained_var': 0.07079575210809708, 'vf_loss': 288.54693603515625, 'kl': 0.008945469744503498, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.939398765563965, 'total_loss': 288.4539794921875}, 'sample_time_ms': 41122.756, 'num_steps_trained': 934800, 'num_steps_sampled': 934800, 'update_time_ms': 2.53, 'grad_time_ms': 371.71, 'load_time_ms': 0.691}",779,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+31628.497992038727,31284,8.000000400000427,1200,cda-server-2,31628.497992038727,f93d3d6710754a149751678a58e67540,80,1757086334,936000,-82.93250793708731,2334300,{},10.157.146.2,False,{},2025-09-05_17-32-14,15.6,936000,-14.50026204637919,0,40.81522822380066,780,"{'default': {'policy_loss': -0.13739486038684845, 'vf_explained_var': 0.07151840627193451, 'vf_loss': 206.58758544921875, 'kl': 0.008643634617328644, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.22188663482666, 'total_loss': 206.49449157714844}, 'sample_time_ms': 41125.928, 'num_steps_trained': 936000, 'num_steps_sampled': 936000, 'update_time_ms': 2.55, 'grad_time_ms': 368.294, 'load_time_ms': 0.681}",780,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+31670.13278079033,31342,6.000176293286694,1200,cda-server-2,31670.13278079033,f93d3d6710754a149751678a58e67540,58,1757086376,937200,-82.93250793708731,2334300,{},10.157.146.2,False,{},2025-09-05_17-32-56,19.24,937200,-20.552981499386284,0,41.63478875160217,781,"{'default': {'policy_loss': -0.1339491307735443, 'vf_explained_var': 0.05693019926548004, 'vf_loss': 299.640625, 'kl': 0.008394439704716206, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.282084465026855, 'total_loss': 299.5496826171875}, 'sample_time_ms': 41181.526, 'num_steps_trained': 937200, 'num_steps_sampled': 937200, 'update_time_ms': 2.678, 'grad_time_ms': 370.094, 'load_time_ms': 0.693}",781,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+31712.822729587555,31417,8.000000415685204,1200,cda-server-2,31712.822729587555,f93d3d6710754a149751678a58e67540,75,1757086418,938400,-83.43794007504187,2334300,{},10.157.146.2,False,{},2025-09-05_17-33-38,16.79,938400,-17.101444941320118,0,42.68994879722595,782,"{'default': {'policy_loss': -0.1299237459897995, 'vf_explained_var': 0.11295817792415619, 'vf_loss': 304.2052307128906, 'kl': 0.009532425552606583, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.516620635986328, 'total_loss': 304.12420654296875}, 'sample_time_ms': 41357.94, 'num_steps_trained': 938400, 'num_steps_sampled': 938400, 'update_time_ms': 2.687, 'grad_time_ms': 370.018, 'load_time_ms': 0.677}",782,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+31754.143613100052,31488,8.000000415685204,1200,cda-server-2,31754.143613100052,f93d3d6710754a149751678a58e67540,71,1757086460,939600,-84.09497712514565,2334300,{},10.157.146.2,False,{},2025-09-05_17-34-20,15.17,939600,-14.53179247834062,0,41.32088351249695,783,"{'default': {'policy_loss': -0.1365339457988739, 'vf_explained_var': 0.07083293050527573, 'vf_loss': 334.5401611328125, 'kl': 0.009145643562078476, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.67782974243164, 'total_loss': 334.45050048828125}, 'sample_time_ms': 41344.813, 'num_steps_trained': 939600, 'num_steps_sampled': 939600, 'update_time_ms': 2.718, 'grad_time_ms': 372.086, 'load_time_ms': 0.684}",783,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+31796.009793758392,31577,8.000000400905687,1200,cda-server-2,31796.009793758392,f93d3d6710754a149751678a58e67540,89,1757086502,940800,-81.67197025197763,2334300,{},10.157.146.2,False,{},2025-09-05_17-35-02,15.09,940800,-14.239655396158048,0,41.866180658340454,784,"{'default': {'policy_loss': -0.13519270718097687, 'vf_explained_var': 0.07641210407018661, 'vf_loss': 317.3211669921875, 'kl': 0.008587056770920753, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.222443580627441, 'total_loss': 317.23004150390625}, 'sample_time_ms': 41337.41, 'num_steps_trained': 940800, 'num_steps_sampled': 940800, 'update_time_ms': 2.72, 'grad_time_ms': 374.514, 'load_time_ms': 0.696}",784,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+31836.17005753517,31641,6.001243825890395,1200,cda-server-2,31836.17005753517,f93d3d6710754a149751678a58e67540,64,1757086542,942000,-81.37664146984619,2334300,{},10.157.146.2,False,{},2025-09-05_17-35-42,17.05,942000,-17.37990158421807,0,40.160263776779175,785,"{'default': {'policy_loss': -0.12897008657455444, 'vf_explained_var': 0.07758599519729614, 'vf_loss': 292.6439514160156, 'kl': 0.009270449168980122, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.00112247467041, 'total_loss': 292.5625305175781}, 'sample_time_ms': 41235.819, 'num_steps_trained': 942000, 'num_steps_sampled': 942000, 'update_time_ms': 2.709, 'grad_time_ms': 373.491, 'load_time_ms': 0.69}",785,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+31878.304388046265,31716,6.000214508512875,1200,cda-server-2,31878.304388046265,f93d3d6710754a149751678a58e67540,75,1757086584,943200,-82.8573925267026,2334300,{},10.157.146.2,False,{},2025-09-05_17-36-24,16.77,943200,-16.905712293774894,0,42.13433051109314,786,"{'default': {'policy_loss': -0.12843292951583862, 'vf_explained_var': 0.06341823190450668, 'vf_loss': 275.66217041015625, 'kl': 0.011062095873057842, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.568428993225098, 'total_loss': 275.5904235839844}, 'sample_time_ms': 41173.753, 'num_steps_trained': 943200, 'num_steps_sampled': 943200, 'update_time_ms': 2.697, 'grad_time_ms': 375.631, 'load_time_ms': 0.701}",786,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+31920.1266579628,31789,6.000214508512875,1200,cda-server-2,31920.1266579628,f93d3d6710754a149751678a58e67540,73,1757086626,944400,-84.43274921430044,2334300,{},10.157.146.2,False,{},2025-09-05_17-37-06,16.98,944400,-16.910021719647695,0,41.822269916534424,787,"{'default': {'policy_loss': -0.13812871277332306, 'vf_explained_var': 0.07147495448589325, 'vf_loss': 260.9437255859375, 'kl': 0.008868556469678879, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.911284446716309, 'total_loss': 260.8510437011719}, 'sample_time_ms': 41190.783, 'num_steps_trained': 944400, 'num_steps_sampled': 944400, 'update_time_ms': 2.73, 'grad_time_ms': 373.235, 'load_time_ms': 0.702}",787,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+31961.057501792908,31855,8.000006090076228,1200,cda-server-2,31961.057501792908,f93d3d6710754a149751678a58e67540,66,1757086667,945600,-83.36110995745474,2334300,{},10.157.146.2,False,{},2025-09-05_17-37-47,17.48,945600,-17.847293149924436,0,40.93084383010864,788,"{'default': {'policy_loss': -0.12876324355602264, 'vf_explained_var': 0.09524839371442795, 'vf_loss': 343.5835876464844, 'kl': 0.00985246803611517, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.324199676513672, 'total_loss': 343.50531005859375}, 'sample_time_ms': 41179.16, 'num_steps_trained': 945600, 'num_steps_sampled': 945600, 'update_time_ms': 2.744, 'grad_time_ms': 372.989, 'load_time_ms': 0.687}",788,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+32002.205224752426,31926,6.001857335895083,1200,cda-server-2,32002.205224752426,f93d3d6710754a149751678a58e67540,71,1757086708,946800,-83.7928156140809,2334300,{},10.157.146.2,False,{},2025-09-05_17-38-28,17.95,946800,-18.949998624032915,0,41.14772295951843,789,"{'default': {'policy_loss': -0.13849443197250366, 'vf_explained_var': 0.08762584626674652, 'vf_loss': 272.31854248046875, 'kl': 0.010261091403663158, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.618632316589355, 'total_loss': 272.2326354980469}, 'sample_time_ms': 41069.194, 'num_steps_trained': 946800, 'num_steps_sampled': 946800, 'update_time_ms': 2.735, 'grad_time_ms': 374.786, 'load_time_ms': 0.708}",789,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+32042.909244537354,31999,6.001857335895083,1200,cda-server-2,32042.909244537354,f93d3d6710754a149751678a58e67540,73,1757086748,948000,-82.18133952180702,2334300,{},10.157.146.2,False,{},2025-09-05_17-39-08,16.47,948000,-16.149954779924396,0,40.70401978492737,790,"{'default': {'policy_loss': -0.1252433955669403, 'vf_explained_var': 0.07144014537334442, 'vf_loss': 258.5819396972656, 'kl': 0.008823297917842865, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.396411895751953, 'total_loss': 258.5019226074219}, 'sample_time_ms': 41055.307, 'num_steps_trained': 948000, 'num_steps_sampled': 948000, 'update_time_ms': 2.687, 'grad_time_ms': 377.564, 'load_time_ms': 0.715}",790,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+32084.254687786102,32068,6.001836243364822,1200,cda-server-2,32084.254687786102,f93d3d6710754a149751678a58e67540,69,1757086790,949200,-80.85764040360846,2334300,{},10.157.146.2,False,{},2025-09-05_17-39-50,17.58,949200,-17.849939522390184,0,41.34544324874878,791,"{'default': {'policy_loss': -0.12877513468265533, 'vf_explained_var': 0.06586365401744843, 'vf_loss': 206.58221435546875, 'kl': 0.010075349360704422, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.23319149017334, 'total_loss': 206.5050811767578}, 'sample_time_ms': 41027.328, 'num_steps_trained': 949200, 'num_steps_sampled': 949200, 'update_time_ms': 2.535, 'grad_time_ms': 376.776, 'load_time_ms': 0.705}",791,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+32125.5978577137,32143,8.000000404790654,1200,cda-server-2,32125.5978577137,f93d3d6710754a149751678a58e67540,75,1757086831,950400,-83.24543220280364,2334300,{},10.157.146.2,False,{},2025-09-05_17-40-31,16.66,950400,-16.485858750444915,0,41.343169927597046,792,"{'default': {'policy_loss': -0.135418102145195, 'vf_explained_var': 0.07744724303483963, 'vf_loss': 247.65565490722656, 'kl': 0.009517880156636238, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.702839851379395, 'total_loss': 247.56903076171875}, 'sample_time_ms': 40894.588, 'num_steps_trained': 950400, 'num_steps_sampled': 950400, 'update_time_ms': 2.543, 'grad_time_ms': 374.862, 'load_time_ms': 0.712}",792,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+32167.609131336212,32222,8.000000406268292,1200,cda-server-2,32167.609131336212,f93d3d6710754a149751678a58e67540,79,1757086873,951600,-83.39466797149116,2334300,{},10.157.146.2,False,{},2025-09-05_17-41-13,15.09,951600,-13.54729255805555,0,42.01127362251282,793,"{'default': {'policy_loss': -0.1188197135925293, 'vf_explained_var': 0.0865384042263031, 'vf_loss': 220.56944274902344, 'kl': 0.009715601801872253, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.579401969909668, 'total_loss': 220.50042724609375}, 'sample_time_ms': 40965.425, 'num_steps_trained': 951600, 'num_steps_sampled': 951600, 'update_time_ms': 2.533, 'grad_time_ms': 373.115, 'load_time_ms': 0.712}",793,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+32208.721771240234,32293,8.000000406268292,1200,cda-server-2,32208.721771240234,f93d3d6710754a149751678a58e67540,71,1757086914,952800,-83.86921329568361,2334300,{},10.157.146.2,False,{},2025-09-05_17-41-54,16.85,952800,-17.024104853427946,0,41.11263990402222,794,"{'default': {'policy_loss': -0.11929779499769211, 'vf_explained_var': 0.08185354620218277, 'vf_loss': 353.8701477050781, 'kl': 0.009256841614842415, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.370308876037598, 'total_loss': 353.79827880859375}, 'sample_time_ms': 40890.473, 'num_steps_trained': 952800, 'num_steps_sampled': 952800, 'update_time_ms': 2.544, 'grad_time_ms': 372.751, 'load_time_ms': 0.697}",794,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+32249.76932811737,32368,8.00000040034883,1200,cda-server-2,32249.76932811737,f93d3d6710754a149751678a58e67540,75,1757086956,954000,-81.94117352868476,2334300,{},10.157.146.2,False,{},2025-09-05_17-42-36,15.63,954000,-15.177196020050582,0,41.04755687713623,795,"{'default': {'policy_loss': -0.13769224286079407, 'vf_explained_var': 0.06773225218057632, 'vf_loss': 348.2950439453125, 'kl': 0.008244603872299194, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.818670272827148, 'total_loss': 348.1996154785156}, 'sample_time_ms': 40976.677, 'num_steps_trained': 954000, 'num_steps_sampled': 954000, 'update_time_ms': 2.548, 'grad_time_ms': 375.229, 'load_time_ms': 0.705}",795,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+32290.44373869896,32434,8.000943164108367,1200,cda-server-2,32290.44373869896,f93d3d6710754a149751678a58e67540,66,1757086996,955200,-81.94117352868476,2334300,{},10.157.146.2,False,{},2025-09-05_17-43-16,16.46,955200,-16.31824391613389,0,40.674410581588745,796,"{'default': {'policy_loss': -0.1307995617389679, 'vf_explained_var': 0.07971538603305817, 'vf_loss': 300.79266357421875, 'kl': 0.010411824099719524, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.825188636779785, 'total_loss': 300.7152099609375}, 'sample_time_ms': 40829.542, 'num_steps_trained': 955200, 'num_steps_sampled': 955200, 'update_time_ms': 2.557, 'grad_time_ms': 376.357, 'load_time_ms': 0.703}",796,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+32331.300476551056,32508,6.000221788340368,1200,cda-server-2,32331.300476551056,f93d3d6710754a149751678a58e67540,74,1757087037,956400,-84.94356512929718,2334300,{},10.157.146.2,False,{},2025-09-05_17-43-57,17.3,956400,-17.71415623797343,0,40.85673785209656,797,"{'default': {'policy_loss': -0.13762107491493225, 'vf_explained_var': 0.09627922624349594, 'vf_loss': 273.5072021484375, 'kl': 0.00883207842707634, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.326821327209473, 'total_loss': 273.4148864746094}, 'sample_time_ms': 40731.615, 'num_steps_trained': 956400, 'num_steps_sampled': 956400, 'update_time_ms': 2.574, 'grad_time_ms': 377.583, 'load_time_ms': 0.699}",797,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+32372.214738368988,32588,8.000000601586162,1200,cda-server-2,32372.214738368988,f93d3d6710754a149751678a58e67540,80,1757087078,957600,-84.94356512929718,2334300,{},10.157.146.2,False,{},2025-09-05_17-44-38,15.53,957600,-14.992599869253429,0,40.91426181793213,798,"{'default': {'policy_loss': -0.12333787977695465, 'vf_explained_var': 0.09430962055921555, 'vf_loss': 280.091552734375, 'kl': 0.01034073531627655, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.254751205444336, 'total_loss': 280.0212707519531}, 'sample_time_ms': 40730.389, 'num_steps_trained': 957600, 'num_steps_sampled': 957600, 'update_time_ms': 2.582, 'grad_time_ms': 377.106, 'load_time_ms': 0.71}",798,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+32408.01229429245,32673,8.000000601586162,1200,cda-server-2,32408.01229429245,f93d3d6710754a149751678a58e67540,85,1757087114,958800,-67.20028336672671,2334300,{},10.157.146.2,False,{},2025-09-05_17-45-14,13.81,958800,-11.479496701151932,0,35.797555923461914,799,"{'default': {'policy_loss': -0.11921466886997223, 'vf_explained_var': 0.05674025043845177, 'vf_loss': 165.58929443359375, 'kl': 0.011794217862188816, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.172738075256348, 'total_loss': 165.530517578125}, 'sample_time_ms': 40198.518, 'num_steps_trained': 958800, 'num_steps_sampled': 958800, 'update_time_ms': 2.587, 'grad_time_ms': 373.995, 'load_time_ms': 0.687}",799,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+32442.11252760887,32749,8.000005617454883,1200,cda-server-2,32442.11252760887,f93d3d6710754a149751678a58e67540,76,1757087148,960000,-84.0112333581338,2334300,{},10.157.146.2,False,{},2025-09-05_17-45-48,14.67,960000,-13.207902579524355,0,34.10023331642151,800,"{'default': {'policy_loss': -0.14018958806991577, 'vf_explained_var': 0.06269649416208267, 'vf_loss': 294.689697265625, 'kl': 0.01036591362208128, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.789749145507812, 'total_loss': 294.6026611328125}, 'sample_time_ms': 39539.098, 'num_steps_trained': 960000, 'num_steps_sampled': 960000, 'update_time_ms': 2.572, 'grad_time_ms': 373.049, 'load_time_ms': 0.687}",800,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+32476.04161643982,32823,8.00000107794663,1200,cda-server-2,32476.04161643982,f93d3d6710754a149751678a58e67540,74,1757087182,961200,-82.67241436814156,2334300,{},10.157.146.2,False,{},2025-09-05_17-46-22,15.71,961200,-15.195982706478311,0,33.929088830947876,801,"{'default': {'policy_loss': -0.13890331983566284, 'vf_explained_var': 0.07529881596565247, 'vf_loss': 275.0399169921875, 'kl': 0.009500776417553425, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.358020782470703, 'total_loss': 274.94970703125}, 'sample_time_ms': 38796.245, 'num_steps_trained': 961200, 'num_steps_sampled': 961200, 'update_time_ms': 2.626, 'grad_time_ms': 374.123, 'load_time_ms': 0.696}",801,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+32509.58930039406,32894,8.000000400003458,1200,cda-server-2,32509.58930039406,f93d3d6710754a149751678a58e67540,71,1757087216,962400,-82.67241436814156,2334300,{},10.157.146.2,False,{},2025-09-05_17-46-56,16.22,962400,-15.779581070673192,0,33.54768395423889,802,"{'default': {'policy_loss': -0.13293950259685516, 'vf_explained_var': 0.0870024710893631, 'vf_loss': 263.9698486328125, 'kl': 0.009400914423167706, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.71833610534668, 'total_loss': 263.8851318359375}, 'sample_time_ms': 38014.84, 'num_steps_trained': 962400, 'num_steps_sampled': 962400, 'update_time_ms': 2.633, 'grad_time_ms': 375.944, 'load_time_ms': 0.694}",802,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+32544.682609319687,32972,8.000000488935788,1200,cda-server-2,32544.682609319687,f93d3d6710754a149751678a58e67540,78,1757087251,963600,-81.49193727534472,2334300,{},10.157.146.2,False,{},2025-09-05_17-47-31,15.66,963600,-15.303306449292458,0,35.09330892562866,803,"{'default': {'policy_loss': -0.1267872452735901, 'vf_explained_var': 0.08776653558015823, 'vf_loss': 337.479248046875, 'kl': 0.010493922047317028, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.51012897491455, 'total_loss': 337.40625}, 'sample_time_ms': 37320.797, 'num_steps_trained': 963600, 'num_steps_sampled': 963600, 'update_time_ms': 2.68, 'grad_time_ms': 378.045, 'load_time_ms': 0.691}",803,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+32578.695914030075,33038,6.000307106535246,1200,cda-server-2,32578.695914030075,f93d3d6710754a149751678a58e67540,66,1757087285,964800,-84.66744782203924,2334300,{},10.157.146.2,False,{},2025-09-05_17-48-05,17.89,964800,-18.74042125034567,0,34.013304710388184,804,"{'default': {'policy_loss': -0.13507524132728577, 'vf_explained_var': 0.11481767147779465, 'vf_loss': 226.98095703125, 'kl': 0.008365568704903126, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.695598602294922, 'total_loss': 226.88876342773438}, 'sample_time_ms': 36612.466, 'num_steps_trained': 964800, 'num_steps_sampled': 964800, 'update_time_ms': 2.714, 'grad_time_ms': 376.469, 'load_time_ms': 0.697}",804,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+32612.43952512741,33103,8.00071169062284,1200,cda-server-2,32612.43952512741,f93d3d6710754a149751678a58e67540,65,1757087318,966000,-84.66744782203924,2334300,{},10.157.146.2,False,{},2025-09-05_17-48-38,18.23,966000,-19.40439801433606,0,33.743611097335815,805,"{'default': {'policy_loss': -0.11691110581159592, 'vf_explained_var': 0.05359717085957527, 'vf_loss': 330.5955505371094, 'kl': 0.013879230245947838, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.508374214172363, 'total_loss': 330.54974365234375}, 'sample_time_ms': 35881.763, 'num_steps_trained': 966000, 'num_steps_sampled': 966000, 'update_time_ms': 2.677, 'grad_time_ms': 376.78, 'load_time_ms': 0.686}",805,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+32646.950885295868,33189,6.0002550620187485,1200,cda-server-2,32646.950885295868,f93d3d6710754a149751678a58e67540,86,1757087353,967200,-80.93268862975931,2334300,{},10.157.146.2,False,{},2025-09-05_17-49-13,13.99,967200,-12.045752553851573,0,34.51136016845703,806,"{'default': {'policy_loss': -0.12800626456737518, 'vf_explained_var': 0.05748617649078369, 'vf_loss': 236.06622314453125, 'kl': 0.009124244563281536, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.811728477478027, 'total_loss': 235.98497009277344}, 'sample_time_ms': 35266.363, 'num_steps_trained': 967200, 'num_steps_sampled': 967200, 'update_time_ms': 2.707, 'grad_time_ms': 375.806, 'load_time_ms': 0.676}",806,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+32680.545617341995,33254,6.001795990402904,1200,cda-server-2,32680.545617341995,f93d3d6710754a149751678a58e67540,65,1757087387,968400,-81.52108678583394,2334300,{},10.157.146.2,False,{},2025-09-05_17-49-47,16.88,968400,-16.755002157874436,0,33.59473204612732,807,"{'default': {'policy_loss': -0.12735244631767273, 'vf_explained_var': 0.05642136558890343, 'vf_loss': 252.94650268554688, 'kl': 0.009072549641132355, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.893810272216797, 'total_loss': 252.86566162109375}, 'sample_time_ms': 34538.778, 'num_steps_trained': 968400, 'num_steps_sampled': 968400, 'update_time_ms': 2.685, 'grad_time_ms': 377.299, 'load_time_ms': 0.678}",807,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+32714.943071603775,33330,6.000234296373105,1200,cda-server-2,32714.943071603775,f93d3d6710754a149751678a58e67540,76,1757087421,969600,-83.30957688425407,2334300,{},10.157.146.2,False,{},2025-09-05_17-50-21,16.76,969600,-16.746695358783814,0,34.397454261779785,808,"{'default': {'policy_loss': -0.13390296697616577, 'vf_explained_var': 0.1051291674375534, 'vf_loss': 292.66363525390625, 'kl': 0.009668833576142788, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.257049560546875, 'total_loss': 292.57928466796875}, 'sample_time_ms': 33886.42, 'num_steps_trained': 969600, 'num_steps_sampled': 969600, 'update_time_ms': 2.695, 'grad_time_ms': 377.918, 'load_time_ms': 0.679}",808,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+32748.412532567978,33397,6.001374210564935,1200,cda-server-2,32748.412532567978,f93d3d6710754a149751678a58e67540,67,1757087454,970800,-83.17857981120099,2334300,{},10.157.146.2,False,{},2025-09-05_17-50-54,17.6,970800,-18.431676250763964,0,33.46946096420288,809,"{'default': {'policy_loss': -0.12323656678199768, 'vf_explained_var': 0.07426668703556061, 'vf_loss': 294.4505615234375, 'kl': 0.009337319061160088, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.844016075134277, 'total_loss': 294.3752136230469}, 'sample_time_ms': 33652.29, 'num_steps_trained': 970800, 'num_steps_sampled': 970800, 'update_time_ms': 2.716, 'grad_time_ms': 379.198, 'load_time_ms': 0.676}",809,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+32781.92053079605,33461,6.001444833175512,1200,cda-server-2,32781.92053079605,f93d3d6710754a149751678a58e67540,64,1757087488,972000,-82.46723116960736,2334300,{},10.157.146.2,False,{},2025-09-05_17-51-28,18.2,972000,-19.273251587301814,0,33.50799822807312,810,"{'default': {'policy_loss': -0.13536755740642548, 'vf_explained_var': 0.07503847777843475, 'vf_loss': 334.4165344238281, 'kl': 0.010444838553667068, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.084914207458496, 'total_loss': 334.3346862792969}, 'sample_time_ms': 33593.451, 'num_steps_trained': 972000, 'num_steps_sampled': 972000, 'update_time_ms': 2.761, 'grad_time_ms': 378.79, 'load_time_ms': 0.672}",810,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+32815.840327739716,33526,6.001444833175512,1200,cda-server-2,32815.840327739716,f93d3d6710754a149751678a58e67540,65,1757087522,973200,-82.20893072511447,2334300,{},10.157.146.2,False,{},2025-09-05_17-52-02,20.04,973200,-22.617125811354022,0,33.91979694366455,811,"{'default': {'policy_loss': -0.13949070870876312, 'vf_explained_var': 0.0879717618227005, 'vf_loss': 327.8115234375, 'kl': 0.010940390639007092, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.65628433227539, 'total_loss': 327.7281188964844}, 'sample_time_ms': 33595.002, 'num_steps_trained': 973200, 'num_steps_sampled': 973200, 'update_time_ms': 2.76, 'grad_time_ms': 376.375, 'load_time_ms': 0.664}",811,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+32849.950654029846,33598,8.000000400011782,1200,cda-server-2,32849.950654029846,f93d3d6710754a149751678a58e67540,72,1757087556,974400,-83.66460147541615,2334300,{},10.157.146.2,False,{},2025-09-05_17-52-36,17.41,974400,-17.771191915725154,0,34.110326290130615,812,"{'default': {'policy_loss': -0.11648031324148178, 'vf_explained_var': 0.0741208866238594, 'vf_loss': 277.4342041015625, 'kl': 0.009036983363330364, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.37496566772461, 'total_loss': 277.36407470703125}, 'sample_time_ms': 33652.183, 'num_steps_trained': 974400, 'num_steps_sampled': 974400, 'update_time_ms': 2.75, 'grad_time_ms': 375.466, 'load_time_ms': 0.667}",812,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+32885.44911432266,33687,6.0017628028259296,1200,cda-server-2,32885.44911432266,f93d3d6710754a149751678a58e67540,89,1757087592,975600,-79.59059284865776,2334300,{},10.157.146.2,False,{},2025-09-05_17-53-12,14.43,975600,-12.617184622499517,0,35.49846029281616,813,"{'default': {'policy_loss': -0.12740761041641235, 'vf_explained_var': 0.08278840035200119, 'vf_loss': 229.43199157714844, 'kl': 0.009177390486001968, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.007278442382812, 'total_loss': 229.35162353515625}, 'sample_time_ms': 33692.243, 'num_steps_trained': 975600, 'num_steps_sampled': 975600, 'update_time_ms': 2.699, 'grad_time_ms': 376.044, 'load_time_ms': 0.671}",813,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+32921.34274148941,33764,6.0017628028259296,1200,cda-server-2,32921.34274148941,f93d3d6710754a149751678a58e67540,77,1757087627,976800,-82.14272736411691,2334300,{},10.157.146.2,False,{},2025-09-05_17-53-47,15.28,976800,-14.380209471822265,0,35.89362716674805,814,"{'default': {'policy_loss': -0.14168010652065277, 'vf_explained_var': 0.07734397053718567, 'vf_loss': 247.65130615234375, 'kl': 0.008195394650101662, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.502837181091309, 'total_loss': 247.55165100097656}, 'sample_time_ms': 33878.717, 'num_steps_trained': 976800, 'num_steps_sampled': 976800, 'update_time_ms': 2.659, 'grad_time_ms': 377.6, 'load_time_ms': 0.682}",814,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+32956.2853512764,33837,8.000000400014823,1200,cda-server-2,32956.2853512764,f93d3d6710754a149751678a58e67540,73,1757087662,978000,-81.91107368374695,2334300,{},10.157.146.2,False,{},2025-09-05_17-54-22,16.81,978000,-16.58683234848771,0,34.942609786987305,815,"{'default': {'policy_loss': -0.12251710891723633, 'vf_explained_var': 0.07051072269678116, 'vf_loss': 265.0987243652344, 'kl': 0.009255488403141499, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.688761711120605, 'total_loss': 265.0235900878906}, 'sample_time_ms': 33999.777, 'num_steps_trained': 978000, 'num_steps_sampled': 978000, 'update_time_ms': 2.671, 'grad_time_ms': 376.475, 'load_time_ms': 0.69}",815,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+32990.215034246445,33911,6.060395570384898,1200,cda-server-2,32990.215034246445,f93d3d6710754a149751678a58e67540,74,1757087696,979200,-80.34759714660991,2334300,{},10.157.146.2,False,{},2025-09-05_17-54-56,15.68,979200,-14.718737358694407,0,33.929682970047,816,"{'default': {'policy_loss': -0.13112443685531616, 'vf_explained_var': 0.07261383533477783, 'vf_loss': 245.19793701171875, 'kl': 0.01083531603217125, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.513274192810059, 'total_loss': 245.12234497070312}, 'sample_time_ms': 33943.247, 'num_steps_trained': 979200, 'num_steps_sampled': 979200, 'update_time_ms': 2.655, 'grad_time_ms': 374.919, 'load_time_ms': 0.697}",816,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+33024.37515711784,33992,8.000000402433912,1200,cda-server-2,33024.37515711784,f93d3d6710754a149751678a58e67540,81,1757087731,980400,-80.93124171457418,2334300,{},10.157.146.2,False,{},2025-09-05_17-55-31,15.41,980400,-14.449333398921228,0,34.160122871398926,817,"{'default': {'policy_loss': -0.13397827744483948, 'vf_explained_var': 0.08169817179441452, 'vf_loss': 227.24420166015625, 'kl': 0.009137529879808426, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.360322952270508, 'total_loss': 227.1570587158203}, 'sample_time_ms': 34002.658, 'num_steps_trained': 980400, 'num_steps_sampled': 980400, 'update_time_ms': 2.639, 'grad_time_ms': 372.091, 'load_time_ms': 0.693}",817,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+33058.32798910141,34066,6.000387647959696,1200,cda-server-2,33058.32798910141,f93d3d6710754a149751678a58e67540,74,1757087765,981600,-81.7806890169357,2334300,{},10.157.146.2,False,{},2025-09-05_17-56-05,16.81,981600,-16.564456952468866,0,33.952831983566284,818,"{'default': {'policy_loss': -0.13132120668888092, 'vf_explained_var': 0.10189178586006165, 'vf_loss': 250.43624877929688, 'kl': 0.009927918203175068, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.515185356140137, 'total_loss': 250.35581970214844}, 'sample_time_ms': 33961.289, 'num_steps_trained': 981600, 'num_steps_sampled': 981600, 'update_time_ms': 2.608, 'grad_time_ms': 369.122, 'load_time_ms': 0.683}",818,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+33092.43622088432,34151,8.000036055754242,1200,cda-server-2,33092.43622088432,f93d3d6710754a149751678a58e67540,85,1757087799,982800,-81.7806890169357,2334300,{},10.157.146.2,False,{},2025-09-05_17-56-39,15.86,982800,-15.319046900037732,0,34.10823178291321,819,"{'default': {'policy_loss': -0.13571274280548096, 'vf_explained_var': 0.08402208238840103, 'vf_loss': 366.66900634765625, 'kl': 0.007936783134937286, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.2196044921875, 'total_loss': 366.5740051269531}, 'sample_time_ms': 34025.306, 'num_steps_trained': 982800, 'num_steps_sampled': 982800, 'update_time_ms': 2.586, 'grad_time_ms': 368.951, 'load_time_ms': 0.686}",819,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+33127.16625833511,34231,8.000000406953609,1200,cda-server-2,33127.16625833511,f93d3d6710754a149751678a58e67540,80,1757087833,984000,-78.64378264495667,2334300,{},10.157.146.2,False,{},2025-09-05_17-57-13,15.13,984000,-13.841187426253768,0,34.730037450790405,820,"{'default': {'policy_loss': -0.13996867835521698, 'vf_explained_var': 0.08730436116456985, 'vf_loss': 253.5146484375, 'kl': 0.008258061483502388, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.628592491149902, 'total_loss': 253.4169921875}, 'sample_time_ms': 34147.357, 'num_steps_trained': 984000, 'num_steps_sampled': 984000, 'update_time_ms': 2.594, 'grad_time_ms': 369.068, 'load_time_ms': 0.689}",820,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+33160.54076266289,34285,8.000000406858176,1200,cda-server-2,33160.54076266289,f93d3d6710754a149751678a58e67540,54,1757087867,985200,-81.41318608541727,2334300,{},10.157.146.2,False,{},2025-09-05_17-57-47,19.65,985200,-21.554061609127995,0,33.37450432777405,821,"{'default': {'policy_loss': -0.1375911980867386, 'vf_explained_var': 0.04357663169503212, 'vf_loss': 361.3279724121094, 'kl': 0.01094620581716299, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.62954044342041, 'total_loss': 361.2464904785156}, 'sample_time_ms': 34081.272, 'num_steps_trained': 985200, 'num_steps_sampled': 985200, 'update_time_ms': 2.539, 'grad_time_ms': 380.665, 'load_time_ms': 0.686}",821,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+33194.70023059845,34372,6.000313246360877,1200,cda-server-2,33194.70023059845,f93d3d6710754a149751678a58e67540,87,1757087901,986400,-81.41318608541727,2334300,{},10.157.146.2,False,{},2025-09-05_17-58-21,14.37,986400,-12.619385860093768,0,34.159467935562134,822,"{'default': {'policy_loss': -0.12848861515522003, 'vf_explained_var': 0.07783997058868408, 'vf_loss': 234.59027099609375, 'kl': 0.009894359856843948, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.946782112121582, 'total_loss': 234.51251220703125}, 'sample_time_ms': 34086.441, 'num_steps_trained': 986400, 'num_steps_sampled': 986400, 'update_time_ms': 2.564, 'grad_time_ms': 380.349, 'load_time_ms': 0.695}",822,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+33229.451914548874,34456,8.000000399999967,1200,cda-server-2,33229.451914548874,f93d3d6710754a149751678a58e67540,84,1757087936,987600,-77.9077261579517,2334300,{},10.157.146.2,False,{},2025-09-05_17-58-56,13.36,987600,-11.046301877792073,0,34.751683950424194,823,"{'default': {'policy_loss': -0.13182753324508667, 'vf_explained_var': 0.08338820934295654, 'vf_loss': 231.00613403320312, 'kl': 0.010624369606375694, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.139671325683594, 'total_loss': 230.92877197265625}, 'sample_time_ms': 34014.711, 'num_steps_trained': 987600, 'num_steps_sampled': 987600, 'update_time_ms': 2.54, 'grad_time_ms': 377.433, 'load_time_ms': 0.695}",823,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+33264.01609110832,34540,8.000000400002813,1200,cda-server-2,33264.01609110832,f93d3d6710754a149751678a58e67540,84,1757087970,988800,-84.45122974405065,2334300,{},10.157.146.2,False,{},2025-09-05_17-59-30,14.11,988800,-12.468954693710796,0,34.56417655944824,824,"{'default': {'policy_loss': -0.13855531811714172, 'vf_explained_var': 0.08240260183811188, 'vf_loss': 289.74951171875, 'kl': 0.007822679355740547, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.131888389587402, 'total_loss': 289.6510314941406}, 'sample_time_ms': 33881.735, 'num_steps_trained': 988800, 'num_steps_sampled': 988800, 'update_time_ms': 2.523, 'grad_time_ms': 377.446, 'load_time_ms': 0.696}",824,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+33297.652304172516,34608,8.000000400002813,1200,cda-server-2,33297.652304172516,f93d3d6710754a149751678a58e67540,68,1757088004,990000,-84.45122974405065,2334300,{},10.157.146.2,False,{},2025-09-05_18-00-04,16.67,990000,-16.590849639365434,0,33.636213064193726,825,"{'default': {'policy_loss': -0.1388874650001526, 'vf_explained_var': 0.06165942922234535, 'vf_loss': 236.030517578125, 'kl': 0.010380587540566921, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.580694198608398, 'total_loss': 235.94482421875}, 'sample_time_ms': 33751.118, 'num_steps_trained': 990000, 'num_steps_sampled': 990000, 'update_time_ms': 2.552, 'grad_time_ms': 377.429, 'load_time_ms': 0.692}",825,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+33331.51725554466,34689,8.000000400422486,1200,cda-server-2,33331.51725554466,f93d3d6710754a149751678a58e67540,81,1757088038,991200,-80.51963264789177,2334300,{},10.157.146.2,False,{},2025-09-05_18-00-38,15.71,991200,-14.807392088013689,0,33.864951372146606,826,"{'default': {'policy_loss': -0.13303242623806, 'vf_explained_var': 0.07418843358755112, 'vf_loss': 247.02395629882812, 'kl': 0.009267733432352543, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.304131507873535, 'total_loss': 246.93841552734375}, 'sample_time_ms': 33743.686, 'num_steps_trained': 991200, 'num_steps_sampled': 991200, 'update_time_ms': 2.513, 'grad_time_ms': 378.445, 'load_time_ms': 0.698}",826,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+33366.95559692383,34767,8.000000401832171,1200,cda-server-2,33366.95559692383,f93d3d6710754a149751678a58e67540,78,1757088073,992400,-84.02611198273404,2334300,{},10.157.146.2,False,{},2025-09-05_18-01-13,15.12,992400,-13.959273631240697,0,35.43834137916565,827,"{'default': {'policy_loss': -0.13311739265918732, 'vf_explained_var': 0.12003927677869797, 'vf_loss': 231.18630981445312, 'kl': 0.008285582065582275, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.437545776367188, 'total_loss': 231.09564208984375}, 'sample_time_ms': 33871.562, 'num_steps_trained': 992400, 'num_steps_sampled': 992400, 'update_time_ms': 2.514, 'grad_time_ms': 378.421, 'load_time_ms': 0.704}",827,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+33401.15577125549,34847,8.000000400001083,1200,cda-server-2,33401.15577125549,f93d3d6710754a149751678a58e67540,80,1757088108,993600,-81.30120790230335,2334300,{},10.157.146.2,False,{},2025-09-05_18-01-48,15.37,993600,-14.490146556582381,0,34.20017433166504,828,"{'default': {'policy_loss': -0.13996821641921997, 'vf_explained_var': 0.11169653385877609, 'vf_loss': 230.01419067382812, 'kl': 0.008519576862454414, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.256993293762207, 'total_loss': 229.91786193847656}, 'sample_time_ms': 33896.164, 'num_steps_trained': 993600, 'num_steps_sampled': 993600, 'update_time_ms': 2.504, 'grad_time_ms': 378.533, 'load_time_ms': 0.702}",828,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+33435.51290297508,34918,8.000000401111794,1200,cda-server-2,33435.51290297508,f93d3d6710754a149751678a58e67540,71,1757088142,994800,-82.15905889467565,2334300,{},10.157.146.2,False,{},2025-09-05_18-02-22,15.99,994800,-15.541034574101747,0,34.35713171958923,829,"{'default': {'policy_loss': -0.1322745978832245, 'vf_explained_var': 0.10662607103586197, 'vf_loss': 257.8081359863281, 'kl': 0.008826238103210926, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.998863220214844, 'total_loss': 257.7210693359375}, 'sample_time_ms': 33920.201, 'num_steps_trained': 994800, 'num_steps_sampled': 994800, 'update_time_ms': 2.491, 'grad_time_ms': 379.438, 'load_time_ms': 0.708}",829,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+33469.871346473694,34994,6.000223480354014,1200,cda-server-2,33469.871346473694,f93d3d6710754a149751678a58e67540,76,1757088176,996000,-80.95262654104168,2334300,{},10.157.146.2,False,{},2025-09-05_18-02-56,15.85,996000,-15.03732942647597,0,34.35844349861145,830,"{'default': {'policy_loss': -0.12639401853084564, 'vf_explained_var': 0.08047560602426529, 'vf_loss': 251.93826293945312, 'kl': 0.00920198392122984, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.54682731628418, 'total_loss': 251.8590545654297}, 'sample_time_ms': 33883.198, 'num_steps_trained': 996000, 'num_steps_sampled': 996000, 'update_time_ms': 2.475, 'grad_time_ms': 379.331, 'load_time_ms': 0.706}",830,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+33503.657507658005,35062,6.0002812705956154,1200,cda-server-2,33503.657507658005,f93d3d6710754a149751678a58e67540,68,1757088210,997200,-80.95262654104168,2334300,{},10.157.146.2,False,{},2025-09-05_18-03-30,16.66,997200,-16.46415839708676,0,33.78616118431091,831,"{'default': {'policy_loss': -0.13386528193950653, 'vf_explained_var': 0.09445616602897644, 'vf_loss': 288.8009033203125, 'kl': 0.00925840251147747, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.914617538452148, 'total_loss': 288.7145080566406}, 'sample_time_ms': 33935.473, 'num_steps_trained': 997200, 'num_steps_sampled': 997200, 'update_time_ms': 2.589, 'grad_time_ms': 368.143, 'load_time_ms': 0.724}",831,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+33537.542838811874,35140,6.001122653994927,1200,cda-server-2,33537.542838811874,f93d3d6710754a149751678a58e67540,78,1757088244,998400,-84.5226396805284,2334300,{},10.157.146.2,False,{},2025-09-05_18-04-04,16.81,998400,-17.200309471936883,0,33.88533115386963,832,"{'default': {'policy_loss': -0.13146911561489105, 'vf_explained_var': 0.11560472846031189, 'vf_loss': 336.94091796875, 'kl': 0.00880281999707222, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.868388175964355, 'total_loss': 336.8545837402344}, 'sample_time_ms': 33907.674, 'num_steps_trained': 998400, 'num_steps_sampled': 998400, 'update_time_ms': 2.564, 'grad_time_ms': 368.61, 'load_time_ms': 0.718}",832,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+33572.24162077904,35246,8.000000505576109,1200,cda-server-2,33572.24162077904,f93d3d6710754a149751678a58e67540,106,1757088279,999600,-69.97355410000155,2334300,{},10.157.146.2,False,{},2025-09-05_18-04-39,11.50943396226415,999600,-7.840130061099956,0,34.698781967163086,833,"{'default': {'policy_loss': -0.12261182814836502, 'vf_explained_var': 0.08046665787696838, 'vf_loss': 136.2954864501953, 'kl': 0.009723574854433537, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.987404823303223, 'total_loss': 136.22271728515625}, 'sample_time_ms': 33901.265, 'num_steps_trained': 999600, 'num_steps_sampled': 999600, 'update_time_ms': 2.558, 'grad_time_ms': 369.682, 'load_time_ms': 0.709}",833,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+33606.40946960449,35319,8.000000400005897,1200,cda-server-2,33606.40946960449,f93d3d6710754a149751678a58e67540,73,1757088313,1000800,-81.46708449780039,2334300,{},10.157.146.2,False,{},2025-09-05_18-05-13,14.59,1000800,-12.88668839643492,0,34.16784882545471,834,"{'default': {'policy_loss': -0.12871450185775757, 'vf_explained_var': 0.07104823738336563, 'vf_loss': 259.6177673339844, 'kl': 0.009256028570234776, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.80423641204834, 'total_loss': 259.5364990234375}, 'sample_time_ms': 33862.91, 'num_steps_trained': 1000800, 'num_steps_sampled': 1000800, 'update_time_ms': 2.625, 'grad_time_ms': 368.367, 'load_time_ms': 0.692}",834,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+33641.07030034065,35399,8.000001813186222,1200,cda-server-2,33641.07030034065,f93d3d6710754a149751678a58e67540,80,1757088348,1002000,-80.42355272740765,2334300,{},10.157.146.2,False,{},2025-09-05_18-05-48,15.23,1002000,-13.860729592403464,0,34.66083073616028,835,"{'default': {'policy_loss': -0.12732839584350586, 'vf_explained_var': 0.07686175405979156, 'vf_loss': 229.7154083251953, 'kl': 0.009542524814605713, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.507445335388184, 'total_loss': 229.63699340820312}, 'sample_time_ms': 33964.606, 'num_steps_trained': 1002000, 'num_steps_sampled': 1002000, 'update_time_ms': 2.621, 'grad_time_ms': 369.116, 'load_time_ms': 0.699}",835,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+33676.33753323555,35477,8.000001232153474,1200,cda-server-2,33676.33753323555,f93d3d6710754a149751678a58e67540,78,1757088383,1003200,-83.73241536935092,2334300,{},10.157.146.2,False,{},2025-09-05_18-06-23,15.71,1003200,-15.012990290838776,0,35.26723289489746,836,"{'default': {'policy_loss': -0.11631960421800613, 'vf_explained_var': 0.07230483740568161, 'vf_loss': 314.6141357421875, 'kl': 0.00885696429759264, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.288803100585938, 'total_loss': 314.54327392578125}, 'sample_time_ms': 34105.988, 'num_steps_trained': 1003200, 'num_steps_sampled': 1003200, 'update_time_ms': 2.661, 'grad_time_ms': 367.889, 'load_time_ms': 0.687}",836,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+33711.10479068756,35555,8.00000041867262,1200,cda-server-2,33711.10479068756,f93d3d6710754a149751678a58e67540,78,1757088418,1004400,-83.73241536935092,2334300,{},10.157.146.2,False,{},2025-09-05_18-06-58,14.91,1004400,-14.168153341583325,0,34.76725745201111,837,"{'default': {'policy_loss': -0.13970044255256653, 'vf_explained_var': 0.09043380618095398, 'vf_loss': 310.90557861328125, 'kl': 0.00942612811923027, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.154082298278809, 'total_loss': 310.8141784667969}, 'sample_time_ms': 34038.829, 'num_steps_trained': 1004400, 'num_steps_sampled': 1004400, 'update_time_ms': 2.682, 'grad_time_ms': 367.912, 'load_time_ms': 0.684}",837,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+33745.4063334465,35621,8.000168654213988,1200,cda-server-2,33745.4063334465,f93d3d6710754a149751678a58e67540,66,1757088452,1005600,-82.81553053401322,2334300,{},10.157.146.2,False,{},2025-09-05_18-07-32,16.85,1005600,-17.052381670353906,0,34.30154275894165,838,"{'default': {'policy_loss': -0.12510734796524048, 'vf_explained_var': 0.10176658630371094, 'vf_loss': 329.5743713378906, 'kl': 0.009825963526964188, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.876895904541016, 'total_loss': 329.4996337890625}, 'sample_time_ms': 34049.264, 'num_steps_trained': 1005600, 'num_steps_sampled': 1005600, 'update_time_ms': 2.723, 'grad_time_ms': 367.59, 'load_time_ms': 0.687}",838,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+33779.43414878845,35705,8.000000400227568,1200,cda-server-2,33779.43414878845,f93d3d6710754a149751678a58e67540,84,1757088486,1006800,-83.44658573582247,2334300,{},10.157.146.2,False,{},2025-09-05_18-08-06,14.39,1006800,-12.581681973992556,0,34.02781534194946,839,"{'default': {'policy_loss': -0.12370261549949646, 'vf_explained_var': 0.04571057856082916, 'vf_loss': 252.00279235839844, 'kl': 0.009244750253856182, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.492330551147461, 'total_loss': 251.92648315429688}, 'sample_time_ms': 34017.026, 'num_steps_trained': 1006800, 'num_steps_sampled': 1006800, 'update_time_ms': 2.732, 'grad_time_ms': 366.838, 'load_time_ms': 0.679}",839,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+33813.94306850433,35786,8.000000400227568,1200,cda-server-2,33813.94306850433,f93d3d6710754a149751678a58e67540,81,1757088521,1008000,-83.51794439769476,2334300,{},10.157.146.2,False,{},2025-09-05_18-08-41,15.17,1008000,-13.946403774995238,0,34.50891971588135,840,"{'default': {'policy_loss': -0.12258497625589371, 'vf_explained_var': 0.07856020331382751, 'vf_loss': 242.31874084472656, 'kl': 0.008916670456528664, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.265307426452637, 'total_loss': 242.24188232421875}, 'sample_time_ms': 34031.645, 'num_steps_trained': 1008000, 'num_steps_sampled': 1008000, 'update_time_ms': 2.724, 'grad_time_ms': 367.246, 'load_time_ms': 0.679}",840,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+33848.21958756447,35868,8.00000048556035,1200,cda-server-2,33848.21958756447,f93d3d6710754a149751678a58e67540,82,1757088555,1009200,-80.11473550816127,2334300,{},10.157.146.2,False,{},2025-09-05_18-09-15,13.57,1009200,-11.11285893860178,0,34.27651906013489,841,"{'default': {'policy_loss': -0.11965485662221909, 'vf_explained_var': 0.10360514372587204, 'vf_loss': 204.43960571289062, 'kl': 0.010039541870355606, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.668917655944824, 'total_loss': 204.37139892578125}, 'sample_time_ms': 34081.829, 'num_steps_trained': 1009200, 'num_steps_sampled': 1009200, 'update_time_ms': 2.638, 'grad_time_ms': 366.179, 'load_time_ms': 0.662}",841,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+33882.74004340172,35960,8.000000400211539,1200,cda-server-2,33882.74004340172,f93d3d6710754a149751678a58e67540,92,1757088589,1010400,-78.3135705438817,2334300,{},10.157.146.2,False,{},2025-09-05_18-09-49,12.96,1010400,-10.110295008893598,0,34.520455837249756,842,"{'default': {'policy_loss': -0.12647855281829834, 'vf_explained_var': 0.10430704802274704, 'vf_loss': 227.7887420654297, 'kl': 0.01015038974583149, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.977720260620117, 'total_loss': 227.71429443359375}, 'sample_time_ms': 34144.308, 'num_steps_trained': 1010400, 'num_steps_sampled': 1010400, 'update_time_ms': 2.634, 'grad_time_ms': 367.162, 'load_time_ms': 0.669}",842,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+33917.72829389572,36041,8.000000400211539,1200,cda-server-2,33917.72829389572,f93d3d6710754a149751678a58e67540,81,1757088624,1011600,-80.45244813947247,2334300,{},10.157.146.2,False,{},2025-09-05_18-10-24,13.93,1011600,-11.995304936692312,0,34.988250494003296,843,"{'default': {'policy_loss': -0.1361633688211441, 'vf_explained_var': 0.08652324974536896, 'vf_loss': 227.95950317382812, 'kl': 0.01054773386567831, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.142756462097168, 'total_loss': 227.87741088867188}, 'sample_time_ms': 34174.647, 'num_steps_trained': 1011600, 'num_steps_sampled': 1011600, 'update_time_ms': 2.654, 'grad_time_ms': 365.832, 'load_time_ms': 0.669}",843,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+33951.67415881157,36112,8.00000040000057,1200,cda-server-2,33951.67415881157,f93d3d6710754a149751678a58e67540,71,1757088658,1012800,-82.43667653687308,2334300,{},10.157.146.2,False,{},2025-09-05_18-10-58,16.77,1012800,-16.82128139139904,0,33.94586491584778,844,"{'default': {'policy_loss': -0.13231869041919708, 'vf_explained_var': 0.05321131646633148, 'vf_loss': 330.214111328125, 'kl': 0.010249804705381393, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.568283081054688, 'total_loss': 330.13433837890625}, 'sample_time_ms': 34153.068, 'num_steps_trained': 1012800, 'num_steps_sampled': 1012800, 'update_time_ms': 2.617, 'grad_time_ms': 365.311, 'load_time_ms': 0.67}",844,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+33985.41595745087,36190,8.000000400913152,1200,cda-server-2,33985.41595745087,f93d3d6710754a149751678a58e67540,78,1757088692,1014000,-81.75029031728475,2334300,{},10.157.146.2,False,{},2025-09-05_18-11-32,15.57,1014000,-14.878016479087202,0,33.741798639297485,845,"{'default': {'policy_loss': -0.1276008039712906, 'vf_explained_var': 0.05749468505382538, 'vf_loss': 260.0238037109375, 'kl': 0.01124381460249424, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.387990951538086, 'total_loss': 259.953857421875}, 'sample_time_ms': 34062.496, 'num_steps_trained': 1014000, 'num_steps_sampled': 1014000, 'update_time_ms': 2.606, 'grad_time_ms': 363.917, 'load_time_ms': 0.667}",845,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+34019.96858596802,36268,8.000000400000275,1200,cda-server-2,34019.96858596802,f93d3d6710754a149751678a58e67540,78,1757088727,1015200,-79.88618237827502,2334300,{},10.157.146.2,False,{},2025-09-05_18-12-07,14.9,1015200,-13.675648958238394,0,34.55262851715088,846,"{'default': {'policy_loss': -0.12140177190303802, 'vf_explained_var': 0.08318298310041428, 'vf_loss': 278.4073486328125, 'kl': 0.009563840925693512, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.548378944396973, 'total_loss': 278.3349914550781}, 'sample_time_ms': 33991.101, 'num_steps_trained': 1015200, 'num_steps_sampled': 1015200, 'update_time_ms': 2.617, 'grad_time_ms': 363.86, 'load_time_ms': 0.669}",846,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+34054.4717900753,36353,6.001061265459056,1200,cda-server-2,34054.4717900753,f93d3d6710754a149751678a58e67540,85,1757088761,1016400,-81.88061871603493,2334300,{},10.157.146.2,False,{},2025-09-05_18-12-41,13.83,1016400,-11.897968652422854,0,34.503204107284546,847,"{'default': {'policy_loss': -0.12933161854743958, 'vf_explained_var': 0.08031865209341049, 'vf_loss': 246.6621856689453, 'kl': 0.00966128520667553, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.39263916015625, 'total_loss': 246.58241271972656}, 'sample_time_ms': 33962.912, 'num_steps_trained': 1016400, 'num_steps_sampled': 1016400, 'update_time_ms': 2.572, 'grad_time_ms': 365.617, 'load_time_ms': 0.666}",847,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+34088.38955235481,36436,6.001848546897732,1200,cda-server-2,34088.38955235481,f93d3d6710754a149751678a58e67540,83,1757088795,1017600,-80.15047631117493,2334300,{},10.157.146.2,False,{},2025-09-05_18-13-15,14.31,1017600,-12.397301663660492,0,33.9177622795105,848,"{'default': {'policy_loss': -0.11756907403469086, 'vf_explained_var': 0.13784536719322205, 'vf_loss': 177.80271911621094, 'kl': 0.011601810343563557, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.610201835632324, 'total_loss': 177.74462890625}, 'sample_time_ms': 33921.311, 'num_steps_trained': 1017600, 'num_steps_sampled': 1017600, 'update_time_ms': 2.573, 'grad_time_ms': 368.82, 'load_time_ms': 0.678}",848,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+34123.42593073845,36517,8.00000040587928,1200,cda-server-2,34123.42593073845,f93d3d6710754a149751678a58e67540,81,1757088830,1018800,-79.0686053472963,2334300,{},10.157.146.2,False,{},2025-09-05_18-13-50,14.23,1018800,-12.361389903768549,0,35.036378383636475,849,"{'default': {'policy_loss': -0.1332605630159378, 'vf_explained_var': 0.08455533534288406, 'vf_loss': 226.41758728027344, 'kl': 0.009759080596268177, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.37457275390625, 'total_loss': 226.33432006835938}, 'sample_time_ms': 34020.954, 'num_steps_trained': 1018800, 'num_steps_sampled': 1018800, 'update_time_ms': 2.585, 'grad_time_ms': 370.065, 'load_time_ms': 0.688}",849,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+34158.630200862885,36600,6.000378393441429,1200,cda-server-2,34158.630200862885,f93d3d6710754a149751678a58e67540,83,1757088865,1020000,-80.85609862986836,2334300,{},10.157.146.2,False,{},2025-09-05_18-14-25,14.42,1020000,-12.980017075418932,0,35.204270124435425,850,"{'default': {'policy_loss': -0.11760398745536804, 'vf_explained_var': 0.11957115679979324, 'vf_loss': 300.6007995605469, 'kl': 0.009426879696547985, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.160553932189941, 'total_loss': 300.5315246582031}, 'sample_time_ms': 34090.843, 'num_steps_trained': 1020000, 'num_steps_sampled': 1020000, 'update_time_ms': 2.573, 'grad_time_ms': 369.697, 'load_time_ms': 0.685}",850,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+34193.221690416336,36692,6.001727131223658,1200,cda-server-2,34193.221690416336,f93d3d6710754a149751678a58e67540,92,1757088900,1021200,-80.54020966501945,2334300,{},10.157.146.2,False,{},2025-09-05_18-15-00,13.05,1021200,-10.3896425531393,0,34.59148955345154,851,"{'default': {'policy_loss': -0.12001495808362961, 'vf_explained_var': 0.10901863873004913, 'vf_loss': 212.54522705078125, 'kl': 0.009075362235307693, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.69740104675293, 'total_loss': 212.47174072265625}, 'sample_time_ms': 34119.887, 'num_steps_trained': 1021200, 'num_steps_sampled': 1021200, 'update_time_ms': 2.582, 'grad_time_ms': 372.096, 'load_time_ms': 0.717}",851,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+34227.78321695328,36778,8.000274906458746,1200,cda-server-2,34227.78321695328,f93d3d6710754a149751678a58e67540,86,1757088935,1022400,-83.49234370372255,2334300,{},10.157.146.2,False,{},2025-09-05_18-15-35,13.17,1022400,-10.612934244958776,0,34.56152653694153,852,"{'default': {'policy_loss': -0.11566216498613358, 'vf_explained_var': 0.09728314727544785, 'vf_loss': 211.07373046875, 'kl': 0.009517648257315159, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.212386131286621, 'total_loss': 211.00685119628906}, 'sample_time_ms': 34124.44, 'num_steps_trained': 1022400, 'num_steps_sampled': 1022400, 'update_time_ms': 2.591, 'grad_time_ms': 371.671, 'load_time_ms': 0.698}",852,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+34263.67892885208,36854,8.00000040003278,1200,cda-server-2,34263.67892885208,f93d3d6710754a149751678a58e67540,76,1757088971,1023600,-68.45000874668169,2334300,{},10.157.146.2,False,{},2025-09-05_18-16-11,15.08,1023600,-13.442477991542894,0,35.89571189880371,853,"{'default': {'policy_loss': -0.12011827528476715, 'vf_explained_var': 0.11896035075187683, 'vf_loss': 173.4676055908203, 'kl': 0.011338372714817524, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.49159049987793, 'total_loss': 173.40562438964844}, 'sample_time_ms': 34211.838, 'num_steps_trained': 1023600, 'num_steps_sampled': 1023600, 'update_time_ms': 2.571, 'grad_time_ms': 375.006, 'load_time_ms': 0.708}",853,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+34297.77367281914,36933,8.000000400004303,1200,cda-server-2,34297.77367281914,f93d3d6710754a149751678a58e67540,79,1757089005,1024800,-83.80664318354619,2334300,{},10.157.146.2,False,{},2025-09-05_18-16-45,15.13,1024800,-14.039433740345519,0,34.094743967056274,854,"{'default': {'policy_loss': -0.13114911317825317, 'vf_explained_var': 0.07393878698348999, 'vf_loss': 314.1590881347656, 'kl': 0.010456602089107037, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.418660163879395, 'total_loss': 314.0815734863281}, 'sample_time_ms': 34227.002, 'num_steps_trained': 1024800, 'num_steps_sampled': 1024800, 'update_time_ms': 2.563, 'grad_time_ms': 374.729, 'load_time_ms': 0.705}",854,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+34331.707857608795,37008,8.000001874040114,1200,cda-server-2,34331.707857608795,f93d3d6710754a149751678a58e67540,75,1757089039,1026000,-81.25668854630639,2334300,{},10.157.146.2,False,{},2025-09-05_18-17-19,15.98,1026000,-15.514608982186093,0,33.93418478965759,855,"{'default': {'policy_loss': -0.13162773847579956, 'vf_explained_var': 0.07641029357910156, 'vf_loss': 266.9198303222656, 'kl': 0.008830246515572071, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.4949312210083, 'total_loss': 266.8334655761719}, 'sample_time_ms': 34245.616, 'num_steps_trained': 1026000, 'num_steps_sampled': 1026000, 'update_time_ms': 2.535, 'grad_time_ms': 375.415, 'load_time_ms': 0.722}",855,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+34366.02794981003,37094,8.000031697476146,1200,cda-server-2,34366.02794981003,f93d3d6710754a149751678a58e67540,86,1757089073,1027200,-78.41664940304035,2334300,{},10.157.146.2,False,{},2025-09-05_18-17-53,14.35,1027200,-12.473776403097009,0,34.32009220123291,856,"{'default': {'policy_loss': -0.11724156886339188, 'vf_explained_var': 0.12502428889274597, 'vf_loss': 201.48416137695312, 'kl': 0.010443996638059616, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.104745864868164, 'total_loss': 201.4204559326172}, 'sample_time_ms': 34221.289, 'num_steps_trained': 1027200, 'num_steps_sampled': 1027200, 'update_time_ms': 2.502, 'grad_time_ms': 376.526, 'load_time_ms': 0.725}",856,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+34400.55525183678,37175,8.000000400001039,1200,cda-server-2,34400.55525183678,f93d3d6710754a149751678a58e67540,81,1757089108,1028400,-80.94144206275448,2334300,{},10.157.146.2,False,{},2025-09-05_18-18-28,15.32,1028400,-14.422660416625625,0,34.52730202674866,857,"{'default': {'policy_loss': -0.13244889676570892, 'vf_explained_var': 0.09477270394563675, 'vf_loss': 266.74591064453125, 'kl': 0.009286037646234035, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.138984680175781, 'total_loss': 266.6610412597656}, 'sample_time_ms': 34223.638, 'num_steps_trained': 1028400, 'num_steps_sampled': 1028400, 'update_time_ms': 2.501, 'grad_time_ms': 376.593, 'load_time_ms': 0.725}",857,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+34434.88882255554,37254,6.0006983627233454,1200,cda-server-2,34434.88882255554,f93d3d6710754a149751678a58e67540,79,1757089142,1029600,-80.94144206275448,2334300,{},10.157.146.2,False,{},2025-09-05_18-19-02,15.16,1029600,-14.039568905559907,0,34.33357071876526,858,"{'default': {'policy_loss': -0.13530102372169495, 'vf_explained_var': 0.09370430558919907, 'vf_loss': 234.70982360839844, 'kl': 0.010361026972532272, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.603557586669922, 'total_loss': 234.62762451171875}, 'sample_time_ms': 34267.727, 'num_steps_trained': 1029600, 'num_steps_sampled': 1029600, 'update_time_ms': 2.507, 'grad_time_ms': 374.036, 'load_time_ms': 0.724}",858,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+34468.8989944458,37318,6.000736159357068,1200,cda-server-2,34468.8989944458,f93d3d6710754a149751678a58e67540,64,1757089176,1030800,-80.15744944967958,2334300,{},10.157.146.2,False,{},2025-09-05_18-19-36,16.75,1030800,-16.312174482353317,0,34.01017189025879,859,"{'default': {'policy_loss': -0.1289474368095398, 'vf_explained_var': 0.0758165642619133, 'vf_loss': 291.4794006347656, 'kl': 0.010908450931310654, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 10.160945892333984, 'total_loss': 291.4063720703125}, 'sample_time_ms': 34165.495, 'num_steps_trained': 1030800, 'num_steps_sampled': 1030800, 'update_time_ms': 2.514, 'grad_time_ms': 373.645, 'load_time_ms': 0.729}",859,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+34503.14887833595,37407,6.000354869288604,1200,cda-server-2,34503.14887833595,f93d3d6710754a149751678a58e67540,89,1757089210,1032000,-80.68990766210663,2334300,{},10.157.146.2,False,{},2025-09-05_18-20-10,14.95,1032000,-13.8765241346885,0,34.24988389015198,860,"{'default': {'policy_loss': -0.12329547852277756, 'vf_explained_var': 0.12006982415914536, 'vf_loss': 244.01600646972656, 'kl': 0.009463605470955372, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.000455856323242, 'total_loss': 243.94119262695312}, 'sample_time_ms': 34069.5, 'num_steps_trained': 1032000, 'num_steps_sampled': 1032000, 'update_time_ms': 2.534, 'grad_time_ms': 374.174, 'load_time_ms': 0.736}",860,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+34537.5976691246,37496,6.000191348245398,1200,cda-server-2,34537.5976691246,f93d3d6710754a149751678a58e67540,89,1757089245,1033200,-80.68990766210663,2334300,{},10.157.146.2,False,{},2025-09-05_18-20-45,13.25,1033200,-10.713098247537708,0,34.44879078865051,861,"{'default': {'policy_loss': -0.13208739459514618, 'vf_explained_var': 0.10007720440626144, 'vf_loss': 217.85650634765625, 'kl': 0.009450956247746944, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.710185050964355, 'total_loss': 217.77285766601562}, 'sample_time_ms': 34057.395, 'num_steps_trained': 1033200, 'num_steps_sampled': 1033200, 'update_time_ms': 2.575, 'grad_time_ms': 372.003, 'load_time_ms': 0.705}",861,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+34571.92690515518,37589,8.000011889922513,1200,cda-server-2,34571.92690515518,f93d3d6710754a149751678a58e67540,93,1757089279,1034400,-79.58768128099211,2334300,{},10.157.146.2,False,{},2025-09-05_18-21-19,13.2,1034400,-10.699389860383594,0,34.32923603057861,862,"{'default': {'policy_loss': -0.1372148096561432, 'vf_explained_var': 0.11060100793838501, 'vf_loss': 191.4046173095703, 'kl': 0.009823096916079521, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.618178367614746, 'total_loss': 191.3177490234375}, 'sample_time_ms': 34035.036, 'num_steps_trained': 1034400, 'num_steps_sampled': 1034400, 'update_time_ms': 2.552, 'grad_time_ms': 371.163, 'load_time_ms': 0.712}",862,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+34605.855996370316,37671,8.000104569084039,1200,cda-server-2,34605.855996370316,f93d3d6710754a149751678a58e67540,82,1757089313,1035600,-78.84853780048279,2334300,{},10.157.146.2,False,{},2025-09-05_18-21-53,13.84,1035600,-11.796860449907847,0,33.92909121513367,863,"{'default': {'policy_loss': -0.11735346913337708, 'vf_explained_var': 0.13444457948207855, 'vf_loss': 185.90179443359375, 'kl': 0.011715181171894073, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.222967147827148, 'total_loss': 185.844482421875}, 'sample_time_ms': 33840.185, 'num_steps_trained': 1035600, 'num_steps_sampled': 1035600, 'update_time_ms': 2.555, 'grad_time_ms': 369.36, 'load_time_ms': 0.712}",863,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+34641.02292919159,37744,8.000000399999964,1200,cda-server-2,34641.02292919159,f93d3d6710754a149751678a58e67540,73,1757089348,1036800,-80.01201712958417,2334300,{},10.157.146.2,False,{},2025-09-05_18-22-28,16.53,1036800,-15.998712666468137,0,35.166932821273804,864,"{'default': {'policy_loss': -0.13859355449676514, 'vf_explained_var': 0.06956835836172104, 'vf_loss': 222.26206970214844, 'kl': 0.009843803010880947, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.605447769165039, 'total_loss': 222.1739501953125}, 'sample_time_ms': 33943.86, 'num_steps_trained': 1036800, 'num_steps_sampled': 1036800, 'update_time_ms': 2.538, 'grad_time_ms': 372.898, 'load_time_ms': 0.731}",864,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+34676.03178143501,37831,8.00000257280596,1200,cda-server-2,34676.03178143501,f93d3d6710754a149751678a58e67540,87,1757089383,1038000,-70.08332407309466,2334300,{},10.157.146.2,False,{},2025-09-05_18-23-03,14.46,1038000,-12.472686982210062,0,35.00885224342346,865,"{'default': {'policy_loss': -0.13367384672164917, 'vf_explained_var': 0.10796603560447693, 'vf_loss': 185.0523223876953, 'kl': 0.009295817464590073, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.097646713256836, 'total_loss': 184.96630859375}, 'sample_time_ms': 34050.782, 'num_steps_trained': 1038000, 'num_steps_sampled': 1038000, 'update_time_ms': 2.553, 'grad_time_ms': 373.397, 'load_time_ms': 0.71}",865,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+34710.58458518982,37901,8.00000257280596,1200,cda-server-2,34710.58458518982,f93d3d6710754a149751678a58e67540,70,1757089418,1039200,-82.37830918754689,2334300,{},10.157.146.2,False,{},2025-09-05_18-23-38,16.28,1039200,-15.792118335167418,0,34.55280375480652,866,"{'default': {'policy_loss': -0.13383863866329193, 'vf_explained_var': 0.0844653993844986, 'vf_loss': 319.8087158203125, 'kl': 0.009476151317358017, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.814021110534668, 'total_loss': 319.72344970703125}, 'sample_time_ms': 34073.183, 'num_steps_trained': 1039200, 'num_steps_sampled': 1039200, 'update_time_ms': 2.594, 'grad_time_ms': 374.206, 'load_time_ms': 0.713}",866,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+34744.87201523781,37979,8.000000399999962,1200,cda-server-2,34744.87201523781,f93d3d6710754a149751678a58e67540,78,1757089452,1040400,-83.8376817058344,2334300,{},10.157.146.2,False,{},2025-09-05_18-24-12,16.33,1040400,-15.769045324274668,0,34.28743004798889,867,"{'default': {'policy_loss': -0.12165779620409012, 'vf_explained_var': 0.09962819516658783, 'vf_loss': 290.2379455566406, 'kl': 0.008897985331714153, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.609403610229492, 'total_loss': 290.1618957519531}, 'sample_time_ms': 34048.56, 'num_steps_trained': 1040400, 'num_steps_sampled': 1040400, 'update_time_ms': 2.601, 'grad_time_ms': 374.839, 'load_time_ms': 0.721}",867,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+34779.08580946922,38053,8.000000401102104,1200,cda-server-2,34779.08580946922,f93d3d6710754a149751678a58e67540,74,1757089486,1041600,-83.8376817058344,2334300,{},10.157.146.2,False,{},2025-09-05_18-24-46,16.05,1041600,-15.756416268515293,0,34.213794231414795,868,"{'default': {'policy_loss': -0.13140079379081726, 'vf_explained_var': 0.10263225436210632, 'vf_loss': 263.5511169433594, 'kl': 0.010087091475725174, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.12192153930664, 'total_loss': 263.471435546875}, 'sample_time_ms': 34034.197, 'num_steps_trained': 1041600, 'num_steps_sampled': 1041600, 'update_time_ms': 2.567, 'grad_time_ms': 377.287, 'load_time_ms': 0.703}",868,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+34812.863092422485,38129,8.000000401102104,1200,cda-server-2,34812.863092422485,f93d3d6710754a149751678a58e67540,76,1757089520,1042800,-81.69781567077234,2334300,{},10.157.146.2,False,{},2025-09-05_18-25-20,15.39,1042800,-14.366952560771447,0,33.77728295326233,869,"{'default': {'policy_loss': -0.1401691883802414, 'vf_explained_var': 0.08827093243598938, 'vf_loss': 298.1488952636719, 'kl': 0.00847182422876358, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.547327041625977, 'total_loss': 298.0521240234375}, 'sample_time_ms': 34010.801, 'num_steps_trained': 1042800, 'num_steps_sampled': 1042800, 'update_time_ms': 2.546, 'grad_time_ms': 377.412, 'load_time_ms': 0.688}",869,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+34848.00052905083,38211,8.000271637510041,1200,cda-server-2,34848.00052905083,f93d3d6710754a149751678a58e67540,82,1757089555,1044000,-81.85017549194286,2334300,{},10.157.146.2,False,{},2025-09-05_18-25-55,15.31,1044000,-14.405757776448725,0,35.137436628341675,870,"{'default': {'policy_loss': -0.12182144075632095, 'vf_explained_var': 0.10525694489479065, 'vf_loss': 246.64724731445312, 'kl': 0.010747339576482773, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.270172119140625, 'total_loss': 246.58050537109375}, 'sample_time_ms': 34100.42, 'num_steps_trained': 1044000, 'num_steps_sampled': 1044000, 'update_time_ms': 2.533, 'grad_time_ms': 376.636, 'load_time_ms': 0.674}",870,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+34881.90899729729,38288,8.000000400050894,1200,cda-server-2,34881.90899729729,f93d3d6710754a149751678a58e67540,77,1757089589,1045200,-81.06553650233693,2334300,{},10.157.146.2,False,{},2025-09-05_18-26-29,16.1,1045200,-15.491749708777391,0,33.90846824645996,871,"{'default': {'policy_loss': -0.14768248796463013, 'vf_explained_var': 0.10541465133428574, 'vf_loss': 218.33172607421875, 'kl': 0.009607984684407711, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.376177787780762, 'total_loss': 218.23330688476562}, 'sample_time_ms': 34044.052, 'num_steps_trained': 1045200, 'num_steps_sampled': 1045200, 'update_time_ms': 2.515, 'grad_time_ms': 378.949, 'load_time_ms': 0.68}",871,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+34916.32053589821,38372,8.000000406323387,1200,cda-server-2,34916.32053589821,f93d3d6710754a149751678a58e67540,84,1757089624,1046400,-81.12263215162335,2334300,{},10.157.146.2,False,{},2025-09-05_18-27-04,14.58,1046400,-12.98432387339197,0,34.41153860092163,872,"{'default': {'policy_loss': -0.125586599111557, 'vf_explained_var': 0.12376442551612854, 'vf_loss': 215.5030059814453, 'kl': 0.011786806397140026, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.931296348571777, 'total_loss': 215.43783569335938}, 'sample_time_ms': 34051.443, 'num_steps_trained': 1046400, 'num_steps_sampled': 1046400, 'update_time_ms': 2.537, 'grad_time_ms': 379.809, 'load_time_ms': 0.676}",872,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+34950.63955783844,38450,8.000000403464057,1200,cda-server-2,34950.63955783844,f93d3d6710754a149751678a58e67540,78,1757089658,1047600,-81.12263215162335,2334300,{},10.157.146.2,False,{},2025-09-05_18-27-38,15.53,1047600,-14.793795280504463,0,34.31902194023132,873,"{'default': {'policy_loss': -0.12845492362976074, 'vf_explained_var': 0.0979982316493988, 'vf_loss': 264.345947265625, 'kl': 0.009413921274244785, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.398896217346191, 'total_loss': 264.2657470703125}, 'sample_time_ms': 34090.066, 'num_steps_trained': 1047600, 'num_steps_sampled': 1047600, 'update_time_ms': 2.538, 'grad_time_ms': 380.172, 'load_time_ms': 0.669}",873,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+34985.00902056694,38537,10.0,1200,cda-server-2,34985.00902056694,f93d3d6710754a149751678a58e67540,87,1757089692,1048800,-81.89033221151841,2334300,{},10.157.146.2,False,{},2025-09-05_18-28-12,14.11,1048800,-12.324301802082038,0,34.369462728500366,874,"{'default': {'policy_loss': -0.12324908375740051, 'vf_explained_var': 0.07976783066987991, 'vf_loss': 197.1627655029297, 'kl': 0.00948411040008068, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.270025253295898, 'total_loss': 197.08810424804688}, 'sample_time_ms': 34010.893, 'num_steps_trained': 1048800, 'num_steps_sampled': 1048800, 'update_time_ms': 2.534, 'grad_time_ms': 379.618, 'load_time_ms': 0.652}",874,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+35019.241871356964,38617,6.000422464681109,1200,cda-server-2,35019.241871356964,f93d3d6710754a149751678a58e67540,80,1757089727,1050000,-82.47058476283765,2334300,{},10.157.146.2,False,{},2025-09-05_18-28-47,15.08,1050000,-13.675454044712176,0,34.232850790023804,875,"{'default': {'policy_loss': -0.1416524052619934, 'vf_explained_var': 0.09927202761173248, 'vf_loss': 263.978515625, 'kl': 0.008315635845065117, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.313739776611328, 'total_loss': 263.8794860839844}, 'sample_time_ms': 33932.89, 'num_steps_trained': 1050000, 'num_steps_sampled': 1050000, 'update_time_ms': 2.539, 'grad_time_ms': 380.08, 'load_time_ms': 0.648}",875,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+35054.28314471245,38699,6.001056456576794,1200,cda-server-2,35054.28314471245,f93d3d6710754a149751678a58e67540,82,1757089762,1051200,-82.11326132827115,2334300,{},10.157.146.2,False,{},2025-09-05_18-29-22,13.9,1051200,-11.842850203724756,0,35.04127335548401,876,"{'default': {'policy_loss': -0.13041360676288605, 'vf_explained_var': 0.08461226522922516, 'vf_loss': 252.08116149902344, 'kl': 0.011072422377765179, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.88852596282959, 'total_loss': 252.00753784179688}, 'sample_time_ms': 33982.106, 'num_steps_trained': 1051200, 'num_steps_sampled': 1051200, 'update_time_ms': 2.488, 'grad_time_ms': 379.744, 'load_time_ms': 0.642}",876,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+35089.041410684586,38776,6.0017893187769324,1200,cda-server-2,35089.041410684586,f93d3d6710754a149751678a58e67540,77,1757089796,1052400,-80.71176586379262,2334300,{},10.157.146.2,False,{},2025-09-05_18-29-56,16.0,1052400,-15.011052715830818,0,34.75826597213745,877,"{'default': {'policy_loss': -0.13610360026359558, 'vf_explained_var': 0.10489095002412796, 'vf_loss': 217.76231384277344, 'kl': 0.007827038876712322, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.330299377441406, 'total_loss': 217.6663360595703}, 'sample_time_ms': 34030.073, 'num_steps_trained': 1052400, 'num_steps_sampled': 1052400, 'update_time_ms': 2.496, 'grad_time_ms': 378.906, 'load_time_ms': 0.643}",877,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+35127.079567193985,38861,8.001437744557347,1200,cda-server-2,35127.079567193985,f93d3d6710754a149751678a58e67540,85,1757089834,1053600,-80.07326136862842,2334300,{},10.157.146.2,False,{},2025-09-05_18-30-34,13.96,1053600,-11.83981143728536,0,38.038156509399414,878,"{'default': {'policy_loss': -0.12843023240566254, 'vf_explained_var': 0.10997248440980911, 'vf_loss': 203.80531311035156, 'kl': 0.008717547170817852, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.324735641479492, 'total_loss': 203.7215576171875}, 'sample_time_ms': 34412.683, 'num_steps_trained': 1053600, 'num_steps_sampled': 1053600, 'update_time_ms': 2.479, 'grad_time_ms': 378.721, 'load_time_ms': 0.653}",878,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+35160.95426082611,38948,6.000795580920883,1200,cda-server-2,35160.95426082611,f93d3d6710754a149751678a58e67540,87,1757089868,1054800,-79.8376315921079,2334300,{},10.157.146.2,False,{},2025-09-05_18-31-08,13.53,1054800,-11.395965963301292,0,33.874693632125854,879,"{'default': {'policy_loss': -0.11883606016635895, 'vf_explained_var': 0.11064319312572479, 'vf_loss': 230.45399475097656, 'kl': 0.008749039843678474, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.916519165039062, 'total_loss': 230.38002014160156}, 'sample_time_ms': 34422.135, 'num_steps_trained': 1054800, 'num_steps_sampled': 1054800, 'update_time_ms': 2.518, 'grad_time_ms': 378.966, 'load_time_ms': 0.661}",879,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+35195.48966526985,39040,8.000000434710927,1200,cda-server-2,35195.48966526985,f93d3d6710754a149751678a58e67540,92,1757089903,1056000,-79.50483347849108,2334300,{},10.157.146.2,False,{},2025-09-05_18-31-43,13.23,1056000,-10.847028732514918,0,34.535404443740845,880,"{'default': {'policy_loss': -0.12208792567253113, 'vf_explained_var': 0.09739279001951218, 'vf_loss': 269.2359313964844, 'kl': 0.008962307125329971, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.507257461547852, 'total_loss': 269.1597595214844}, 'sample_time_ms': 34360.558, 'num_steps_trained': 1056000, 'num_steps_sampled': 1056000, 'update_time_ms': 2.524, 'grad_time_ms': 380.319, 'load_time_ms': 0.664}",880,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+35230.12826418877,39134,8.000000400573118,1200,cda-server-2,35230.12826418877,f93d3d6710754a149751678a58e67540,94,1757089938,1057200,-58.108862524559626,2334300,{},10.157.146.2,False,{},2025-09-05_18-32-18,12.41,1057200,-9.19494149153371,0,34.638598918914795,881,"{'default': {'policy_loss': -0.12391260266304016, 'vf_explained_var': 0.11910203099250793, 'vf_loss': 158.65293884277344, 'kl': 0.012076247483491898, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.667266845703125, 'total_loss': 158.59092712402344}, 'sample_time_ms': 34433.524, 'num_steps_trained': 1057200, 'num_steps_sampled': 1057200, 'update_time_ms': 2.514, 'grad_time_ms': 380.36, 'load_time_ms': 0.657}",881,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+35264.63351249695,39226,6.0007801622428465,1200,cda-server-2,35264.63351249695,f93d3d6710754a149751678a58e67540,92,1757089972,1058400,-66.61794242191539,2334300,{},10.157.146.2,False,{},2025-09-05_18-32-52,13.5,1058400,-10.9190850087227,0,34.50524830818176,882,"{'default': {'policy_loss': -0.1352265626192093, 'vf_explained_var': 0.12709146738052368, 'vf_loss': 159.73928833007812, 'kl': 0.009532378055155277, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.780961990356445, 'total_loss': 159.6529083251953}, 'sample_time_ms': 34442.849, 'num_steps_trained': 1058400, 'num_steps_sampled': 1058400, 'update_time_ms': 2.527, 'grad_time_ms': 380.363, 'load_time_ms': 0.658}",882,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+35299.5726981163,39305,8.000000399999921,1200,cda-server-2,35299.5726981163,f93d3d6710754a149751678a58e67540,79,1757090007,1059600,-79.14967306499912,2334300,{},10.157.146.2,False,{},2025-09-05_18-33-27,13.88,1059600,-11.769622346628168,0,34.93918561935425,883,"{'default': {'policy_loss': -0.10747215151786804, 'vf_explained_var': 0.08307955414056778, 'vf_loss': 219.37388610839844, 'kl': 0.010060410015285015, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.21737289428711, 'total_loss': 219.3179931640625}, 'sample_time_ms': 34504.658, 'num_steps_trained': 1059600, 'num_steps_sampled': 1059600, 'update_time_ms': 2.546, 'grad_time_ms': 380.517, 'load_time_ms': 0.664}",883,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+35334.1580953598,39396,6.000335209627323,1200,cda-server-2,35334.1580953598,f93d3d6710754a149751678a58e67540,91,1757090042,1060800,-79.78164146999303,2334300,{},10.157.146.2,False,{},2025-09-05_18-34-02,13.4,1060800,-11.047103441495022,0,34.585397243499756,884,"{'default': {'policy_loss': -0.12278445810079575, 'vf_explained_var': 0.13085848093032837, 'vf_loss': 181.55960083007812, 'kl': 0.00893399491906166, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.996861457824707, 'total_loss': 181.48260498046875}, 'sample_time_ms': 34527.014, 'num_steps_trained': 1060800, 'num_steps_sampled': 1060800, 'update_time_ms': 2.614, 'grad_time_ms': 379.666, 'load_time_ms': 0.676}",884,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+35368.302647829056,39489,6.000234923890064,1200,cda-server-2,35368.302647829056,f93d3d6710754a149751678a58e67540,93,1757090076,1062000,-77.17775567789987,2334300,{},10.157.146.2,False,{},2025-09-05_18-34-36,12.2,1062000,-9.011739883331249,0,34.14455246925354,885,"{'default': {'policy_loss': -0.13296377658843994, 'vf_explained_var': 0.12162894755601883, 'vf_loss': 182.65599060058594, 'kl': 0.012068414129316807, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.735847473144531, 'total_loss': 182.58489990234375}, 'sample_time_ms': 34519.332, 'num_steps_trained': 1062000, 'num_steps_sampled': 1062000, 'update_time_ms': 2.622, 'grad_time_ms': 378.495, 'load_time_ms': 0.684}",885,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+35402.59721684456,39580,8.000000425239858,1200,cda-server-2,35402.59721684456,f93d3d6710754a149751678a58e67540,91,1757090110,1063200,-80.28628413898872,2334300,{},10.157.146.2,False,{},2025-09-05_18-35-10,13.67,1063200,-11.363147945650828,0,34.29456901550293,886,"{'default': {'policy_loss': -0.1357477605342865, 'vf_explained_var': 0.10681886970996857, 'vf_loss': 234.3307342529297, 'kl': 0.010986385866999626, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.074591636657715, 'total_loss': 234.25128173828125}, 'sample_time_ms': 34444.219, 'num_steps_trained': 1063200, 'num_steps_sampled': 1063200, 'update_time_ms': 2.602, 'grad_time_ms': 378.975, 'load_time_ms': 0.682}",886,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+35436.512593984604,39669,8.000000408537494,1200,cda-server-2,35436.512593984604,f93d3d6710754a149751678a58e67540,89,1757090144,1064400,-79.85623429712896,2334300,{},10.157.146.2,False,{},2025-09-05_18-35-44,13.28,1064400,-10.570924399252904,0,33.915377140045166,887,"{'default': {'policy_loss': -0.12348123639822006, 'vf_explained_var': 0.11221347749233246, 'vf_loss': 209.01950073242188, 'kl': 0.01111102756112814, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.988816261291504, 'total_loss': 208.95298767089844}, 'sample_time_ms': 34359.866, 'num_steps_trained': 1064400, 'num_steps_sampled': 1064400, 'update_time_ms': 2.59, 'grad_time_ms': 379.051, 'load_time_ms': 0.682}",887,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+35470.99371933937,39760,8.000000415513854,1200,cda-server-2,35470.99371933937,f93d3d6710754a149751678a58e67540,91,1757090179,1065600,-79.85623429712896,2334300,{},10.157.146.2,False,{},2025-09-05_18-36-19,13.84,1065600,-11.840634111013658,0,34.481125354766846,888,"{'default': {'policy_loss': -0.13014444708824158, 'vf_explained_var': 0.12356621772050858, 'vf_loss': 224.8938751220703, 'kl': 0.009102406911551952, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.053775787353516, 'total_loss': 224.8103790283203}, 'sample_time_ms': 34005.445, 'num_steps_trained': 1065600, 'num_steps_sampled': 1065600, 'update_time_ms': 2.593, 'grad_time_ms': 377.806, 'load_time_ms': 0.682}",888,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+35505.30201649666,39845,8.000000400003627,1200,cda-server-2,35505.30201649666,f93d3d6710754a149751678a58e67540,85,1757090213,1066800,-79.40189985762069,2334300,{},10.157.146.2,False,{},2025-09-05_18-36-53,14.04,1066800,-12.176265441440934,0,34.3082971572876,889,"{'default': {'policy_loss': -0.13166695833206177, 'vf_explained_var': 0.08717614412307739, 'vf_loss': 248.0183868408203, 'kl': 0.008347897790372372, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.980039596557617, 'total_loss': 247.9295196533203}, 'sample_time_ms': 34051.666, 'num_steps_trained': 1066800, 'num_steps_sampled': 1066800, 'update_time_ms': 2.575, 'grad_time_ms': 375.0, 'load_time_ms': 0.668}",889,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+35539.39678835869,39932,8.000157629208443,1200,cda-server-2,35539.39678835869,f93d3d6710754a149751678a58e67540,87,1757090247,1068000,-79.40189985762069,2334300,{},10.157.146.2,False,{},2025-09-05_18-37-27,13.6,1068000,-11.150026690518494,0,34.09477186203003,890,"{'default': {'policy_loss': -0.1316390335559845, 'vf_explained_var': 0.10743305087089539, 'vf_loss': 181.67132568359375, 'kl': 0.009681200608611107, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.300787925720215, 'total_loss': 181.5893096923828}, 'sample_time_ms': 34006.751, 'num_steps_trained': 1068000, 'num_steps_sampled': 1068000, 'update_time_ms': 2.564, 'grad_time_ms': 375.819, 'load_time_ms': 0.68}",890,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+35573.81484723091,40034,8.000134481994326,1200,cda-server-2,35573.81484723091,f93d3d6710754a149751678a58e67540,102,1757090282,1069200,-78.27505568107934,2334300,{},10.157.146.2,False,{},2025-09-05_18-38-02,11.607843137254902,1069200,-8.031029459983428,0,34.4180588722229,891,"{'default': {'policy_loss': -0.12843604385852814, 'vf_explained_var': 0.1422794908285141, 'vf_loss': 183.90647888183594, 'kl': 0.009126652032136917, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.591264724731445, 'total_loss': 183.8248291015625}, 'sample_time_ms': 33985.605, 'num_steps_trained': 1069200, 'num_steps_sampled': 1069200, 'update_time_ms': 2.592, 'grad_time_ms': 374.951, 'load_time_ms': 0.679}",891,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+35608.63123512268,40112,8.000147144004229,1200,cda-server-2,35608.63123512268,f93d3d6710754a149751678a58e67540,78,1757090316,1070400,-83.29674695584686,2334300,{},10.157.146.2,False,{},2025-09-05_18-38-36,15.07,1070400,-13.981120141317241,0,34.81638789176941,892,"{'default': {'policy_loss': -0.12828902900218964, 'vf_explained_var': 0.10719916969537735, 'vf_loss': 299.2769775390625, 'kl': 0.010776554234325886, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.200472831726074, 'total_loss': 299.20391845703125}, 'sample_time_ms': 34015.968, 'num_steps_trained': 1070400, 'num_steps_sampled': 1070400, 'update_time_ms': 2.558, 'grad_time_ms': 375.709, 'load_time_ms': 0.691}",892,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+35644.9416115284,40204,6.001568686361902,1200,cda-server-2,35644.9416115284,f93d3d6710754a149751678a58e67540,92,1757090353,1071600,-77.98322010744894,2334300,{},10.157.146.2,False,{},2025-09-05_18-39-13,12.95,1071600,-10.036575772893997,0,36.31037640571594,893,"{'default': {'policy_loss': -0.12996627390384674, 'vf_explained_var': 0.120304636657238, 'vf_loss': 171.09051513671875, 'kl': 0.009107026271522045, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.05674934387207, 'total_loss': 171.00721740722656}, 'sample_time_ms': 34151.821, 'num_steps_trained': 1071600, 'num_steps_sampled': 1071600, 'update_time_ms': 2.558, 'grad_time_ms': 376.972, 'load_time_ms': 0.685}",893,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+35679.30969619751,40297,8.000000400004664,1200,cda-server-2,35679.30969619751,f93d3d6710754a149751678a58e67540,93,1757090387,1072800,-81.34931354866906,2334300,{},10.157.146.2,False,{},2025-09-05_18-39-47,13.18,1072800,-10.436838053528747,0,34.36808466911316,894,"{'default': {'policy_loss': -0.12344571948051453, 'vf_explained_var': 0.12048888206481934, 'vf_loss': 180.63475036621094, 'kl': 0.009129252284765244, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.919281005859375, 'total_loss': 180.55807495117188}, 'sample_time_ms': 34128.971, 'num_steps_trained': 1072800, 'num_steps_sampled': 1072800, 'update_time_ms': 2.521, 'grad_time_ms': 378.101, 'load_time_ms': 0.687}",894,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+35714.95396280289,40386,8.000000400018422,1200,cda-server-2,35714.95396280289,f93d3d6710754a149751678a58e67540,89,1757090423,1074000,-82.41136675051396,2334300,{},10.157.146.2,False,{},2025-09-05_18-40-23,13.28,1074000,-10.955561699268204,0,35.6442666053772,895,"{'default': {'policy_loss': -0.12337788939476013, 'vf_explained_var': 0.10370397567749023, 'vf_loss': 259.8675231933594, 'kl': 0.009556112810969353, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.876137733459473, 'total_loss': 259.7931213378906}, 'sample_time_ms': 34280.149, 'num_steps_trained': 1074000, 'num_steps_sampled': 1074000, 'update_time_ms': 2.521, 'grad_time_ms': 376.923, 'load_time_ms': 0.682}",895,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+35748.927528619766,40456,6.0002940761151855,1200,cda-server-2,35748.927528619766,f93d3d6710754a149751678a58e67540,70,1757090457,1075200,-82.41136675051396,2334300,{},10.157.146.2,False,{},2025-09-05_18-40-57,16.69,1075200,-16.44582605973783,0,33.97356581687927,896,"{'default': {'policy_loss': -0.13560059666633606, 'vf_explained_var': 0.12001997977495193, 'vf_loss': 232.03607177734375, 'kl': 0.008467044681310654, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.489520072937012, 'total_loss': 231.94387817382812}, 'sample_time_ms': 34248.995, 'num_steps_trained': 1075200, 'num_steps_sampled': 1075200, 'update_time_ms': 2.524, 'grad_time_ms': 375.997, 'load_time_ms': 0.691}",896,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+35783.297414541245,40547,6.0004587243742,1200,cda-server-2,35783.297414541245,f93d3d6710754a149751678a58e67540,91,1757090491,1076400,-78.21515379385872,2334300,{},10.157.146.2,False,{},2025-09-05_18-41-31,12.59,1076400,-9.55026415157033,0,34.36988592147827,897,"{'default': {'policy_loss': -0.1274424046278, 'vf_explained_var': 0.1293354332447052, 'vf_loss': 232.23699951171875, 'kl': 0.01072587352246046, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.235868453979492, 'total_loss': 232.16455078125}, 'sample_time_ms': 34293.829, 'num_steps_trained': 1076400, 'num_steps_sampled': 1076400, 'update_time_ms': 2.535, 'grad_time_ms': 376.553, 'load_time_ms': 0.686}",897,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+35817.103672504425,40625,8.00118342758862,1200,cda-server-2,35817.103672504425,f93d3d6710754a149751678a58e67540,78,1757090525,1077600,-80.47255746125876,2334300,{},10.157.146.2,False,{},2025-09-05_18-42-05,14.74,1077600,-13.060763918744179,0,33.80625796318054,898,"{'default': {'policy_loss': -0.12391873449087143, 'vf_explained_var': 0.09669817239046097, 'vf_loss': 210.29722595214844, 'kl': 0.010404880158603191, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.973519325256348, 'total_loss': 210.22662353515625}, 'sample_time_ms': 34227.262, 'num_steps_trained': 1077600, 'num_steps_sampled': 1077600, 'update_time_ms': 2.566, 'grad_time_ms': 375.597, 'load_time_ms': 0.686}",898,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+35851.063698768616,40708,8.000047076060568,1200,cda-server-2,35851.063698768616,f93d3d6710754a149751678a58e67540,83,1757090559,1078800,-80.47255746125876,2334300,{},10.157.146.2,False,{},2025-09-05_18-42-39,15.06,1078800,-13.528181920213456,0,33.960026264190674,899,"{'default': {'policy_loss': -0.13428689539432526, 'vf_explained_var': 0.08501937985420227, 'vf_loss': 234.4464569091797, 'kl': 0.010738594457507133, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.344654083251953, 'total_loss': 234.36721801757812}, 'sample_time_ms': 34190.192, 'num_steps_trained': 1078800, 'num_steps_sampled': 1078800, 'update_time_ms': 2.543, 'grad_time_ms': 377.876, 'load_time_ms': 0.691}",899,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+35886.933075904846,40798,8.000000459197798,1200,cda-server-2,35886.933075904846,f93d3d6710754a149751678a58e67540,90,1757090595,1080000,-80.22653581727563,2334300,{},10.157.146.2,False,{},2025-09-05_18-43-15,13.51,1080000,-11.283933098072957,0,35.86937713623047,900,"{'default': {'policy_loss': -0.12924441695213318, 'vf_explained_var': 0.1192481517791748, 'vf_loss': 183.77474975585938, 'kl': 0.010460782796144485, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.746260643005371, 'total_loss': 183.69912719726562}, 'sample_time_ms': 34369.943, 'num_steps_trained': 1080000, 'num_steps_sampled': 1080000, 'update_time_ms': 2.545, 'grad_time_ms': 375.573, 'load_time_ms': 0.678}",900,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+35921.60149431229,40886,8.000000503352174,1200,cda-server-2,35921.60149431229,f93d3d6710754a149751678a58e67540,88,1757090630,1081200,-79.40524199932946,2334300,{},10.157.146.2,False,{},2025-09-05_18-43-50,14.16,1081200,-12.162138617018588,0,34.668418407440186,901,"{'default': {'policy_loss': -0.12345351278781891, 'vf_explained_var': 0.10776371508836746, 'vf_loss': 251.42193603515625, 'kl': 0.010176224634051323, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.922450065612793, 'total_loss': 251.35061645507812}, 'sample_time_ms': 34394.32, 'num_steps_trained': 1081200, 'num_steps_sampled': 1081200, 'update_time_ms': 2.528, 'grad_time_ms': 376.228, 'load_time_ms': 0.683}",901,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+35955.903668642044,40962,8.000000399999934,1200,cda-server-2,35955.903668642044,f93d3d6710754a149751678a58e67540,76,1757090664,1082400,-81.08415689200972,2334300,{},10.157.146.2,False,{},2025-09-05_18-44-24,15.92,1082400,-14.84757253661182,0,34.30217432975769,902,"{'default': {'policy_loss': -0.12400668114423752, 'vf_explained_var': 0.07448462396860123, 'vf_loss': 257.89337158203125, 'kl': 0.008429779671132565, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.29921817779541, 'total_loss': 257.81256103515625}, 'sample_time_ms': 34345.682, 'num_steps_trained': 1082400, 'num_steps_sampled': 1082400, 'update_time_ms': 2.544, 'grad_time_ms': 373.479, 'load_time_ms': 0.667}",902,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+35990.62392234802,41060,8.000002655853775,1200,cda-server-2,35990.62392234802,f93d3d6710754a149751678a58e67540,98,1757090699,1083600,-79.81875257932042,2334300,{},10.157.146.2,False,{},2025-09-05_18-44-59,12.19,1083600,-8.970843408042446,0,34.720253705978394,903,"{'default': {'policy_loss': -0.12501579523086548, 'vf_explained_var': 0.10468552261590958, 'vf_loss': 190.31109619140625, 'kl': 0.009014963172376156, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.554381370544434, 'total_loss': 190.2322998046875}, 'sample_time_ms': 34188.849, 'num_steps_trained': 1083600, 'num_steps_sampled': 1083600, 'update_time_ms': 2.539, 'grad_time_ms': 371.288, 'load_time_ms': 0.662}",903,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+36024.751845121384,41146,8.00198981576225,1200,cda-server-2,36024.751845121384,f93d3d6710754a149751678a58e67540,86,1757090733,1084800,-81.69917570982014,2334300,{},10.157.146.2,False,{},2025-09-05_18-45-33,13.11,1084800,-10.43807640265565,0,34.127922773361206,904,"{'default': {'policy_loss': -0.12042024731636047, 'vf_explained_var': 0.10575813800096512, 'vf_loss': 226.60302734375, 'kl': 0.009559009224176407, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.11084270477295, 'total_loss': 226.53160095214844}, 'sample_time_ms': 34166.686, 'num_steps_trained': 1084800, 'num_steps_sampled': 1084800, 'update_time_ms': 2.543, 'grad_time_ms': 369.453, 'load_time_ms': 0.668}",904,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+36059.19537782669,41232,10.0,1200,cda-server-2,36059.19537782669,f93d3d6710754a149751678a58e67540,86,1757090767,1086000,-80.64438784611376,2334300,{},10.157.146.2,False,{},2025-09-05_18-46-07,14.01,1086000,-11.857900814404013,0,34.44353270530701,905,"{'default': {'policy_loss': -0.12540613114833832, 'vf_explained_var': 0.13277554512023926, 'vf_loss': 206.75921630859375, 'kl': 0.009506423026323318, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.928278923034668, 'total_loss': 206.68255615234375}, 'sample_time_ms': 34044.522, 'num_steps_trained': 1086000, 'num_steps_sampled': 1086000, 'update_time_ms': 2.546, 'grad_time_ms': 371.481, 'load_time_ms': 0.672}",905,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+36093.60809803009,41322,8.000000401496358,1200,cda-server-2,36093.60809803009,f93d3d6710754a149751678a58e67540,90,1757090802,1087200,-79.64130313879963,2334300,{},10.157.146.2,False,{},2025-09-05_18-46-42,13.81,1087200,-11.529943052635003,0,34.41272020339966,906,"{'default': {'policy_loss': -0.12317943572998047, 'vf_explained_var': 0.12727302312850952, 'vf_loss': 183.7122344970703, 'kl': 0.009689945727586746, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.670682907104492, 'total_loss': 183.63873291015625}, 'sample_time_ms': 34086.98, 'num_steps_trained': 1087200, 'num_steps_sampled': 1087200, 'update_time_ms': 2.562, 'grad_time_ms': 372.936, 'load_time_ms': 0.662}",906,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+36130.549174547195,41425,8.00000040987395,1200,cda-server-2,36130.549174547195,f93d3d6710754a149751678a58e67540,103,1757090839,1088400,-77.41346048893868,2334300,{},10.157.146.2,False,{},2025-09-05_18-47-19,12.009708737864077,1088400,-8.59013155351499,0,36.9410765171051,907,"{'default': {'policy_loss': -0.12486657500267029, 'vf_explained_var': 0.08480432629585266, 'vf_loss': 164.8333282470703, 'kl': 0.008779841475188732, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.482892990112305, 'total_loss': 164.75347900390625}, 'sample_time_ms': 34344.786, 'num_steps_trained': 1088400, 'num_steps_sampled': 1088400, 'update_time_ms': 2.563, 'grad_time_ms': 372.267, 'load_time_ms': 0.671}",907,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+36165.498796224594,41521,8.000000400013354,1200,cda-server-2,36165.498796224594,f93d3d6710754a149751678a58e67540,96,1757090874,1089600,-54.082297961683125,2334300,{},10.157.146.2,False,{},2025-09-05_18-47-54,12.58,1089600,-9.448708047191259,0,34.94962167739868,908,"{'default': {'policy_loss': -0.1304655224084854, 'vf_explained_var': 0.14554977416992188, 'vf_loss': 145.69813537597656, 'kl': 0.009608023799955845, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.470514297485352, 'total_loss': 145.6168975830078}, 'sample_time_ms': 34459.618, 'num_steps_trained': 1089600, 'num_steps_sampled': 1089600, 'update_time_ms': 2.537, 'grad_time_ms': 371.791, 'load_time_ms': 0.668}",908,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+36200.40890097618,41609,8.000117055917222,1200,cda-server-2,36200.40890097618,f93d3d6710754a149751678a58e67540,88,1757090908,1090800,-83.08099237788521,2334300,{},10.157.146.2,False,{},2025-09-05_18-48-28,13.31,1090800,-10.968035577719531,0,34.910104751586914,909,"{'default': {'policy_loss': -0.11285650730133057, 'vf_explained_var': 0.1406915932893753, 'vf_loss': 256.0836181640625, 'kl': 0.009540901519358158, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.883566856384277, 'total_loss': 256.0196533203125}, 'sample_time_ms': 34554.661, 'num_steps_trained': 1090800, 'num_steps_sampled': 1090800, 'update_time_ms': 2.552, 'grad_time_ms': 371.697, 'load_time_ms': 0.669}",909,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+36234.42794561386,41700,8.001548190883899,1200,cda-server-2,36234.42794561386,f93d3d6710754a149751678a58e67540,91,1757090942,1092000,-62.51256923918362,2334300,{},10.157.146.2,False,{},2025-09-05_18-49-02,13.42,1092000,-10.852741409273508,0,34.019044637680054,910,"{'default': {'policy_loss': -0.13123363256454468, 'vf_explained_var': 0.13351455330848694, 'vf_loss': 143.0198974609375, 'kl': 0.01088168378919363, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.743778228759766, 'total_loss': 142.94442749023438}, 'sample_time_ms': 34368.065, 'num_steps_trained': 1092000, 'num_steps_sampled': 1092000, 'update_time_ms': 2.592, 'grad_time_ms': 373.22, 'load_time_ms': 0.682}",910,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+36270.99181866646,41805,8.000115858130245,1200,cda-server-2,36270.99181866646,f93d3d6710754a149751678a58e67540,105,1757090979,1093200,-82.56393476169262,2334300,{},10.157.146.2,False,{},2025-09-05_18-49-39,11.123809523809523,1093200,-7.3355207916579825,0,36.563873052597046,911,"{'default': {'policy_loss': -0.12765131890773773, 'vf_explained_var': 0.15134476125240326, 'vf_loss': 194.23411560058594, 'kl': 0.008471962995827198, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.263845443725586, 'total_loss': 194.14988708496094}, 'sample_time_ms': 34557.159, 'num_steps_trained': 1093200, 'num_steps_sampled': 1093200, 'update_time_ms': 2.538, 'grad_time_ms': 373.708, 'load_time_ms': 0.691}",911,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+36306.6764895916,41895,8.000005579500414,1200,cda-server-2,36306.6764895916,f93d3d6710754a149751678a58e67540,90,1757091015,1094400,-83.65897470775164,2334300,{},10.157.146.2,False,{},2025-09-05_18-50-15,13.14,1094400,-10.67576042360839,0,35.68467092514038,912,"{'default': {'policy_loss': -0.13179117441177368, 'vf_explained_var': 0.10324335098266602, 'vf_loss': 243.01443481445312, 'kl': 0.00903086643666029, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.564362525939941, 'total_loss': 242.92892456054688}, 'sample_time_ms': 34692.096, 'num_steps_trained': 1094400, 'num_steps_sampled': 1094400, 'update_time_ms': 2.524, 'grad_time_ms': 376.97, 'load_time_ms': 0.705}",912,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+36341.31426978111,41983,6.000672346049378,1200,cda-server-2,36341.31426978111,f93d3d6710754a149751678a58e67540,88,1757091050,1095600,-78.57140869445098,2334300,{},10.157.146.2,False,{},2025-09-05_18-50-50,13.02,1095600,-10.404016554212845,0,34.63778018951416,913,"{'default': {'policy_loss': -0.12054353207349777, 'vf_explained_var': 0.1145816370844841, 'vf_loss': 176.31451416015625, 'kl': 0.010807533748447895, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.731245994567871, 'total_loss': 176.2493438720703}, 'sample_time_ms': 34682.069, 'num_steps_trained': 1095600, 'num_steps_sampled': 1095600, 'update_time_ms': 2.555, 'grad_time_ms': 378.777, 'load_time_ms': 0.709}",913,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+36375.94902634621,42079,8.000003593076622,1200,cda-server-2,36375.94902634621,f93d3d6710754a149751678a58e67540,96,1757091084,1096800,-80.09311739503244,2334300,{},10.157.146.2,False,{},2025-09-05_18-51-24,13.06,1096800,-10.430711544146998,0,34.634756565093994,914,"{'default': {'policy_loss': -0.13113167881965637, 'vf_explained_var': 0.13829916715621948, 'vf_loss': 221.61141967773438, 'kl': 0.009377896785736084, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.937125205993652, 'total_loss': 221.52835083007812}, 'sample_time_ms': 34732.671, 'num_steps_trained': 1096800, 'num_steps_sampled': 1096800, 'update_time_ms': 2.534, 'grad_time_ms': 378.828, 'load_time_ms': 0.691}",914,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+36410.685396909714,42173,6.00157438096653,1200,cda-server-2,36410.685396909714,f93d3d6710754a149751678a58e67540,94,1757091119,1098000,-77.90877206970374,2334300,{},10.157.146.2,False,{},2025-09-05_18-51-59,12.54,1098000,-9.480824161701639,0,34.73637056350708,915,"{'default': {'policy_loss': -0.11671764403581619, 'vf_explained_var': 0.104381263256073, 'vf_loss': 205.78585815429688, 'kl': 0.011355106718838215, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.577736854553223, 'total_loss': 205.72735595703125}, 'sample_time_ms': 34763.774, 'num_steps_trained': 1098000, 'num_steps_sampled': 1098000, 'update_time_ms': 2.555, 'grad_time_ms': 376.947, 'load_time_ms': 0.686}",915,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+36445.40584373474,42264,8.000000400033953,1200,cda-server-2,36445.40584373474,f93d3d6710754a149751678a58e67540,91,1757091154,1099200,-80.6423019105316,2334300,{},10.157.146.2,False,{},2025-09-05_18-52-34,13.66,1099200,-11.436641267482848,0,34.720446825027466,916,"{'default': {'policy_loss': -0.12233909219503403, 'vf_explained_var': 0.13735705614089966, 'vf_loss': 197.67767333984375, 'kl': 0.008555014617741108, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.712325096130371, 'total_loss': 197.59918212890625}, 'sample_time_ms': 34794.074, 'num_steps_trained': 1099200, 'num_steps_sampled': 1099200, 'update_time_ms': 2.58, 'grad_time_ms': 377.314, 'load_time_ms': 0.704}",916,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+36479.57759642601,42353,8.000000400000477,1200,cda-server-2,36479.57759642601,f93d3d6710754a149751678a58e67540,89,1757091188,1100400,-79.23371919322973,2334300,{},10.157.146.2,False,{},2025-09-05_18-53-08,13.42,1100400,-11.077447928950278,0,34.17175269126892,917,"{'default': {'policy_loss': -0.12180672585964203, 'vf_explained_var': 0.10624323785305023, 'vf_loss': 215.0286407470703, 'kl': 0.009048005566000938, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.846385955810547, 'total_loss': 214.9532012939453}, 'sample_time_ms': 34518.125, 'num_steps_trained': 1100400, 'num_steps_sampled': 1100400, 'update_time_ms': 2.609, 'grad_time_ms': 376.256, 'load_time_ms': 0.696}",917,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+36513.90965270996,42450,8.000000402067972,1200,cda-server-2,36513.90965270996,f93d3d6710754a149751678a58e67540,97,1757091222,1101600,-80.37525173710512,2334300,{},10.157.146.2,False,{},2025-09-05_18-53-42,12.36,1101600,-9.288818407183319,0,34.332056283950806,918,"{'default': {'policy_loss': -0.12594789266586304, 'vf_explained_var': 0.11994317919015884, 'vf_loss': 231.98974609375, 'kl': 0.010703382082283497, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.619016647338867, 'total_loss': 231.91864013671875}, 'sample_time_ms': 34456.07, 'num_steps_trained': 1101600, 'num_steps_sampled': 1101600, 'update_time_ms': 2.643, 'grad_time_ms': 376.551, 'load_time_ms': 0.699}",918,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+36548.53009223938,42552,8.000001534047785,1200,cda-server-2,36548.53009223938,f93d3d6710754a149751678a58e67540,102,1757091257,1102800,-67.51804345533219,2334300,{},10.157.146.2,False,{},2025-09-05_18-54-17,11.72549019607843,1102800,-8.146765457285603,0,34.620439529418945,919,"{'default': {'policy_loss': -0.12705253064632416, 'vf_explained_var': 0.14991605281829834, 'vf_loss': 156.3204803466797, 'kl': 0.008635718375444412, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.335701942443848, 'total_loss': 156.23768615722656}, 'sample_time_ms': 34427.869, 'num_steps_trained': 1102800, 'num_steps_sampled': 1102800, 'update_time_ms': 2.611, 'grad_time_ms': 375.819, 'load_time_ms': 0.713}",919,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+36583.33894228935,42647,8.000000402195068,1200,cda-server-2,36583.33894228935,f93d3d6710754a149751678a58e67540,95,1757091292,1104000,-80.48367072171906,2334300,{},10.157.146.2,False,{},2025-09-05_18-54-52,12.39,1104000,-9.298972079955805,0,34.808850049972534,920,"{'default': {'policy_loss': -0.12930729985237122, 'vf_explained_var': 0.11407807469367981, 'vf_loss': 235.59957885742188, 'kl': 0.008933668956160545, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.8999662399292, 'total_loss': 235.51605224609375}, 'sample_time_ms': 34508.594, 'num_steps_trained': 1104000, 'num_steps_sampled': 1104000, 'update_time_ms': 2.552, 'grad_time_ms': 374.197, 'load_time_ms': 0.701}",920,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+36617.72056865692,42752,8.0000004032632,1200,cda-server-2,36617.72056865692,f93d3d6710754a149751678a58e67540,105,1757091326,1105200,-66.32161097659557,2334300,{},10.157.146.2,False,{},2025-09-05_18-55-26,11.133333333333333,1105200,-7.31106467136524,0,34.38162636756897,921,"{'default': {'policy_loss': -0.12116498500108719, 'vf_explained_var': 0.18412542343139648, 'vf_loss': 144.1634063720703, 'kl': 0.008331571705639362, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.34556770324707, 'total_loss': 144.0849609375}, 'sample_time_ms': 34290.26, 'num_steps_trained': 1105200, 'num_steps_sampled': 1105200, 'update_time_ms': 2.518, 'grad_time_ms': 374.35, 'load_time_ms': 0.695}",921,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+36651.885135650635,42850,6.001109071506572,1200,cda-server-2,36651.885135650635,f93d3d6710754a149751678a58e67540,98,1757091360,1106400,-51.13031225182993,2334300,{},10.157.146.2,False,{},2025-09-05_18-56-00,12.58,1106400,-9.368013313172082,0,34.16456699371338,922,"{'default': {'policy_loss': -0.12430445104837418, 'vf_explained_var': 0.15059731900691986, 'vf_loss': 105.99813842773438, 'kl': 0.010764156468212605, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.988668441772461, 'total_loss': 105.92900085449219}, 'sample_time_ms': 34141.811, 'num_steps_trained': 1106400, 'num_steps_sampled': 1106400, 'update_time_ms': 2.528, 'grad_time_ms': 370.848, 'load_time_ms': 0.688}",922,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+36686.24860334396,42935,6.002442048341877,1200,cda-server-2,36686.24860334396,f93d3d6710754a149751678a58e67540,85,1757091395,1107600,-78.15412658351298,2334300,{},10.157.146.2,False,{},2025-09-05_18-56-35,13.4,1107600,-10.929623253742234,0,34.36346769332886,923,"{'default': {'policy_loss': -0.12425051629543304, 'vf_explained_var': 0.136711984872818, 'vf_loss': 238.48614501953125, 'kl': 0.010568362660706043, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.860893249511719, 'total_loss': 238.41604614257812}, 'sample_time_ms': 34114.426, 'num_steps_trained': 1107600, 'num_steps_sampled': 1107600, 'update_time_ms': 2.475, 'grad_time_ms': 370.826, 'load_time_ms': 0.695}",923,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+36721.44783139229,43033,8.001064929386764,1200,cda-server-2,36721.44783139229,f93d3d6710754a149751678a58e67540,98,1757091430,1108800,-78.93852815286397,2334300,{},10.157.146.2,False,{},2025-09-05_18-57-10,12.58,1108800,-9.403474325465062,0,35.199228048324585,924,"{'default': {'policy_loss': -0.1229105144739151, 'vf_explained_var': 0.09223742038011551, 'vf_loss': 172.88592529296875, 'kl': 0.00941974576562643, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.607437133789062, 'total_loss': 172.81130981445312}, 'sample_time_ms': 34171.77, 'num_steps_trained': 1108800, 'num_steps_sampled': 1108800, 'update_time_ms': 2.477, 'grad_time_ms': 369.981, 'load_time_ms': 0.705}",924,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+36756.51551890373,43126,8.000082138287212,1200,cda-server-2,36756.51551890373,f93d3d6710754a149751678a58e67540,93,1757091465,1110000,-78.95742959541914,2334300,{},10.157.146.2,False,{},2025-09-05_18-57-45,12.32,1110000,-9.135033087342064,0,35.06768751144409,925,"{'default': {'policy_loss': -0.127094104886055, 'vf_explained_var': 0.12016120553016663, 'vf_loss': 244.82986450195312, 'kl': 0.011442036367952824, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.9120454788208, 'total_loss': 244.7613983154297}, 'sample_time_ms': 34204.356, 'num_steps_trained': 1110000, 'num_steps_sampled': 1110000, 'update_time_ms': 2.474, 'grad_time_ms': 370.572, 'load_time_ms': 0.7}",925,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+36790.81852531433,43217,8.000000401663863,1200,cda-server-2,36790.81852531433,f93d3d6710754a149751678a58e67540,91,1757091499,1111200,-82.88416688468736,2334300,{},10.157.146.2,False,{},2025-09-05_18-58-19,13.3,1111200,-10.807406583809412,0,34.303006410598755,926,"{'default': {'policy_loss': -0.11330728977918625, 'vf_explained_var': 0.12744027376174927, 'vf_loss': 235.76890563964844, 'kl': 0.012248961254954338, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.225205421447754, 'total_loss': 235.71836853027344}, 'sample_time_ms': 34162.445, 'num_steps_trained': 1111200, 'num_steps_sampled': 1111200, 'update_time_ms': 2.467, 'grad_time_ms': 370.797, 'load_time_ms': 0.692}",926,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+36825.79330825806,43320,8.0000004000186,1200,cda-server-2,36825.79330825806,f93d3d6710754a149751678a58e67540,103,1757091534,1112400,-77.1750739889541,2334300,{},10.157.146.2,False,{},2025-09-05_18-58-54,11.766990291262136,1112400,-8.156213993544673,0,34.974782943725586,927,"{'default': {'policy_loss': -0.1365869641304016, 'vf_explained_var': 0.1360098421573639, 'vf_loss': 178.11346435546875, 'kl': 0.007751472294330597, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.668880462646484, 'total_loss': 178.01663208007812}, 'sample_time_ms': 34242.132, 'num_steps_trained': 1112400, 'num_steps_sampled': 1112400, 'update_time_ms': 2.481, 'grad_time_ms': 371.464, 'load_time_ms': 0.694}",927,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+36860.411714076996,43428,8.000000399999925,1200,cda-server-2,36860.411714076996,f93d3d6710754a149751678a58e67540,108,1757091569,1113600,-57.115112633327925,2334300,{},10.157.146.2,False,{},2025-09-05_18-59-29,10.981481481481481,1113600,-6.840982998929029,0,34.61840581893921,928,"{'default': {'policy_loss': -0.11935319006443024, 'vf_explained_var': 0.14236703515052795, 'vf_loss': 129.9175567626953, 'kl': 0.011300415731966496, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.529629707336426, 'total_loss': 129.85614013671875}, 'sample_time_ms': 34268.147, 'num_steps_trained': 1113600, 'num_steps_sampled': 1113600, 'update_time_ms': 2.444, 'grad_time_ms': 374.078, 'load_time_ms': 0.7}",928,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+36894.805242061615,43528,8.000000407913495,1200,cda-server-2,36894.805242061615,f93d3d6710754a149751678a58e67540,100,1757091603,1114800,-81.53984592281688,2334300,{},10.157.146.2,False,{},2025-09-05_19-00-03,12.12,1114800,-8.892596363846335,0,34.39352798461914,929,"{'default': {'policy_loss': -0.12316247820854187, 'vf_explained_var': 0.1529541015625, 'vf_loss': 176.6155242919922, 'kl': 0.008654017932713032, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.67443561553955, 'total_loss': 176.53671264648438}, 'sample_time_ms': 34245.898, 'num_steps_trained': 1114800, 'num_steps_sampled': 1114800, 'update_time_ms': 2.475, 'grad_time_ms': 373.547, 'load_time_ms': 0.686}",929,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+36930.371166706085,43611,8.000000407913495,1200,cda-server-2,36930.371166706085,f93d3d6710754a149751678a58e67540,83,1757091639,1116000,-56.13455395098805,2334300,{},10.157.146.2,False,{},2025-09-05_19-00-39,13.91,1116000,-11.47082581382835,0,35.565924644470215,930,"{'default': {'policy_loss': -0.12353108823299408, 'vf_explained_var': 0.1477365791797638, 'vf_loss': 141.52288818359375, 'kl': 0.01115685049444437, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.957504272460938, 'total_loss': 141.45657348632812}, 'sample_time_ms': 34320.596, 'num_steps_trained': 1116000, 'num_steps_sampled': 1116000, 'update_time_ms': 2.508, 'grad_time_ms': 374.502, 'load_time_ms': 0.69}",930,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+36965.59857749939,43712,8.000000400004666,1200,cda-server-2,36965.59857749939,f93d3d6710754a149751678a58e67540,101,1757091674,1117200,-67.72185161373466,2334300,{},10.157.146.2,False,{},2025-09-05_19-01-14,11.524752475247524,1117200,-7.721337399822569,0,35.22741079330444,931,"{'default': {'policy_loss': -0.13062810897827148, 'vf_explained_var': 0.13738971948623657, 'vf_loss': 151.54022216796875, 'kl': 0.00845276191830635, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.50959300994873, 'total_loss': 151.4529266357422}, 'sample_time_ms': 34405.176, 'num_steps_trained': 1117200, 'num_steps_sampled': 1117200, 'update_time_ms': 2.533, 'grad_time_ms': 374.499, 'load_time_ms': 0.683}",931,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+37001.515048742294,43797,8.00000039999999,1200,cda-server-2,37001.515048742294,f93d3d6710754a149751678a58e67540,85,1757091710,1118400,-80.5355107542352,2334300,{},10.157.146.2,False,{},2025-09-05_19-01-50,14.24,1118400,-12.379699499259516,0,35.91647124290466,932,"{'default': {'policy_loss': -0.12445603311061859, 'vf_explained_var': 0.0819225013256073, 'vf_loss': 217.40536499023438, 'kl': 0.009281385689973831, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.022522926330566, 'total_loss': 217.32847595214844}, 'sample_time_ms': 34580.19, 'num_steps_trained': 1118400, 'num_steps_sampled': 1118400, 'update_time_ms': 2.526, 'grad_time_ms': 374.68, 'load_time_ms': 0.677}",932,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+37036.30963683128,43899,8.000000400764971,1200,cda-server-2,37036.30963683128,f93d3d6710754a149751678a58e67540,102,1757091745,1119600,-79.34168591120445,2334300,{},10.157.146.2,False,{},2025-09-05_19-02-25,11.666666666666666,1119600,-8.230167611385964,0,34.79458808898926,933,"{'default': {'policy_loss': -0.1354183554649353, 'vf_explained_var': 0.10608905553817749, 'vf_loss': 227.7417755126953, 'kl': 0.008575964719057083, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.144529342651367, 'total_loss': 227.65032958984375}, 'sample_time_ms': 34624.627, 'num_steps_trained': 1119600, 'num_steps_sampled': 1119600, 'update_time_ms': 2.542, 'grad_time_ms': 373.303, 'load_time_ms': 0.666}",933,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+37072.115851163864,43988,6.000901127637668,1200,cda-server-2,37072.115851163864,f93d3d6710754a149751678a58e67540,89,1757091781,1120800,-80.30539840188548,2334300,{},10.157.146.2,False,{},2025-09-05_19-03-01,13.06,1120800,-10.426416474688144,0,35.806214332580566,934,"{'default': {'policy_loss': -0.12376635521650314, 'vf_explained_var': 0.09693559259176254, 'vf_loss': 227.57965087890625, 'kl': 0.00938133429735899, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.993537902832031, 'total_loss': 227.50396728515625}, 'sample_time_ms': 34685.409, 'num_steps_trained': 1120800, 'num_steps_sampled': 1120800, 'update_time_ms': 2.557, 'grad_time_ms': 373.217, 'load_time_ms': 0.657}",934,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+37107.709725141525,44084,8.000569855853762,1200,cda-server-2,37107.709725141525,f93d3d6710754a149751678a58e67540,96,1757091816,1122000,-79.06655388520204,2334300,{},10.157.146.2,False,{},2025-09-05_19-03-36,12.96,1122000,-10.092466271109485,0,35.59387397766113,935,"{'default': {'policy_loss': -0.1383553445339203, 'vf_explained_var': 0.14251263439655304, 'vf_loss': 188.54864501953125, 'kl': 0.00928829237818718, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.661125183105469, 'total_loss': 188.45790100097656}, 'sample_time_ms': 34737.362, 'num_steps_trained': 1122000, 'num_steps_sampled': 1122000, 'update_time_ms': 2.52, 'grad_time_ms': 373.954, 'load_time_ms': 0.664}",935,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+37145.03984475136,44179,6.000571100559309,1200,cda-server-2,37145.03984475136,f93d3d6710754a149751678a58e67540,95,1757091854,1123200,-79.79623971166242,2334300,{},10.157.146.2,False,{},2025-09-05_19-04-14,12.6,1123200,-9.44178828120881,0,37.330119609832764,936,"{'default': {'policy_loss': -0.12356773763895035, 'vf_explained_var': 0.12547284364700317, 'vf_loss': 212.4242401123047, 'kl': 0.00968946609646082, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.05664348602295, 'total_loss': 212.350341796875}, 'sample_time_ms': 35041.229, 'num_steps_trained': 1123200, 'num_steps_sampled': 1123200, 'update_time_ms': 2.5, 'grad_time_ms': 372.778, 'load_time_ms': 0.655}",936,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+37179.33150410652,44261,8.000000400188735,1200,cda-server-2,37179.33150410652,f93d3d6710754a149751678a58e67540,82,1757091888,1124400,-80.95625866078542,2334300,{},10.157.146.2,False,{},2025-09-05_19-04-48,14.56,1124400,-12.805885146372372,0,34.291659355163574,937,"{'default': {'policy_loss': -0.12273097038269043, 'vf_explained_var': 0.1273496150970459, 'vf_loss': 195.74871826171875, 'kl': 0.010668189264833927, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.830001831054688, 'total_loss': 195.6806640625}, 'sample_time_ms': 34972.546, 'num_steps_trained': 1124400, 'num_steps_sampled': 1124400, 'update_time_ms': 2.505, 'grad_time_ms': 373.119, 'load_time_ms': 0.653}",937,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+37214.21894621849,44352,8.000079520529766,1200,cda-server-2,37214.21894621849,f93d3d6710754a149751678a58e67540,91,1757091923,1125600,-75.92664082078963,2334300,{},10.157.146.2,False,{},2025-09-05_19-05-23,12.92,1125600,-9.97388252791041,0,34.887442111968994,938,"{'default': {'policy_loss': -0.12092338502407074, 'vf_explained_var': 0.15987995266914368, 'vf_loss': 161.33847045898438, 'kl': 0.008798436261713505, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.949308395385742, 'total_loss': 161.26263427734375}, 'sample_time_ms': 35000.268, 'num_steps_trained': 1125600, 'num_steps_sampled': 1125600, 'update_time_ms': 2.583, 'grad_time_ms': 372.219, 'load_time_ms': 0.648}",938,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+37248.222007513046,44427,8.000000404248784,1200,cda-server-2,37248.222007513046,f93d3d6710754a149751678a58e67540,75,1757091957,1126800,-80.50543790839572,2334300,{},10.157.146.2,False,{},2025-09-05_19-05-57,14.58,1126800,-12.986172764189286,0,34.003061294555664,939,"{'default': {'policy_loss': -0.12518414855003357, 'vf_explained_var': 0.1016853079199791, 'vf_loss': 297.4357604980469, 'kl': 0.009217778220772743, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.898866653442383, 'total_loss': 297.3578186035156}, 'sample_time_ms': 34959.018, 'num_steps_trained': 1126800, 'num_steps_sampled': 1126800, 'update_time_ms': 2.569, 'grad_time_ms': 374.524, 'load_time_ms': 0.648}",939,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+37282.7064166069,44515,6.001020065493247,1200,cda-server-2,37282.7064166069,f93d3d6710754a149751678a58e67540,88,1757091991,1128000,-80.01041948319866,2334300,{},10.157.146.2,False,{},2025-09-05_19-06-31,13.84,1128000,-11.800813604116113,0,34.48440909385681,940,"{'default': {'policy_loss': -0.12085118889808655, 'vf_explained_var': 0.10429516434669495, 'vf_loss': 224.72686767578125, 'kl': 0.00938366912305355, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.543384552001953, 'total_loss': 224.65411376953125}, 'sample_time_ms': 34852.902, 'num_steps_trained': 1128000, 'num_steps_sampled': 1128000, 'update_time_ms': 2.547, 'grad_time_ms': 372.449, 'load_time_ms': 0.643}",940,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+37317.62470245361,44605,6.001214669148953,1200,cda-server-2,37317.62470245361,f93d3d6710754a149751678a58e67540,90,1757092026,1129200,-50.15864352887214,2334300,{},10.157.146.2,False,{},2025-09-05_19-07-06,13.11,1129200,-10.315419275610758,0,34.918285846710205,941,"{'default': {'policy_loss': -0.1364601105451584, 'vf_explained_var': 0.11523934453725815, 'vf_loss': 138.24180603027344, 'kl': 0.009234821423888206, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.910126686096191, 'total_loss': 138.15267944335938}, 'sample_time_ms': 34821.797, 'num_steps_trained': 1129200, 'num_steps_sampled': 1129200, 'update_time_ms': 2.586, 'grad_time_ms': 372.579, 'load_time_ms': 0.654}",941,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+37351.81509256363,44691,8.000000400014848,1200,cda-server-2,37351.81509256363,f93d3d6710754a149751678a58e67540,86,1757092061,1130400,-80.50617848341335,2334300,{},10.157.146.2,False,{},2025-09-05_19-07-41,13.49,1130400,-11.072919201331153,0,34.19039011001587,942,"{'default': {'policy_loss': -0.11405529081821442, 'vf_explained_var': 0.13334687054157257, 'vf_loss': 181.34364318847656, 'kl': 0.009833079762756824, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.894553184509277, 'total_loss': 181.2799835205078}, 'sample_time_ms': 34648.697, 'num_steps_trained': 1130400, 'num_steps_sampled': 1130400, 'update_time_ms': 2.598, 'grad_time_ms': 373.069, 'load_time_ms': 0.651}",942,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+37386.39445781708,44783,8.000000424333829,1200,cda-server-2,37386.39445781708,f93d3d6710754a149751678a58e67540,92,1757092095,1131600,-78.51171667490989,2334300,{},10.157.146.2,False,{},2025-09-05_19-08-15,12.88,1131600,-9.983649707835426,0,34.579365253448486,943,"{'default': {'policy_loss': -0.12934145331382751, 'vf_explained_var': 0.11526163667440414, 'vf_loss': 188.59507751464844, 'kl': 0.009256741032004356, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.847092628479004, 'total_loss': 188.51318359375}, 'sample_time_ms': 34628.627, 'num_steps_trained': 1131600, 'num_steps_sampled': 1131600, 'update_time_ms': 2.586, 'grad_time_ms': 371.697, 'load_time_ms': 0.653}",943,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+37420.67578649521,44887,8.000000400272446,1200,cda-server-2,37420.67578649521,f93d3d6710754a149751678a58e67540,104,1757092130,1132800,-81.67894360934051,2334300,{},10.157.146.2,False,{},2025-09-05_19-08-50,11.423076923076923,1132800,-7.645207048362135,0,34.2813286781311,944,"{'default': {'policy_loss': -0.13288185000419617, 'vf_explained_var': 0.1162615716457367, 'vf_loss': 137.30967712402344, 'kl': 0.010181221179664135, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.214824676513672, 'total_loss': 137.22897338867188}, 'sample_time_ms': 34473.783, 'num_steps_trained': 1132800, 'num_steps_sampled': 1132800, 'update_time_ms': 2.566, 'grad_time_ms': 373.983, 'load_time_ms': 0.658}",944,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+37455.23326063156,44972,8.000010472503392,1200,cda-server-2,37455.23326063156,f93d3d6710754a149751678a58e67540,85,1757092164,1134000,-81.03913496965511,2334300,{},10.157.146.2,False,{},2025-09-05_19-09-24,14.34,1134000,-12.48243275467575,0,34.55747413635254,945,"{'default': {'policy_loss': -0.12631399929523468, 'vf_explained_var': 0.09664112329483032, 'vf_loss': 265.5256042480469, 'kl': 0.008813844993710518, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.879794120788574, 'total_loss': 265.4444580078125}, 'sample_time_ms': 34368.609, 'num_steps_trained': 1134000, 'num_steps_sampled': 1134000, 'update_time_ms': 2.602, 'grad_time_ms': 375.447, 'load_time_ms': 0.673}",945,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+37490.51752495766,45074,8.000000413858197,1200,cda-server-2,37490.51752495766,f93d3d6710754a149751678a58e67540,102,1757092199,1135200,-77.52498902646151,2334300,{},10.157.146.2,False,{},2025-09-05_19-09-59,11.803921568627452,1135200,-8.285170101648966,0,35.28426432609558,946,"{'default': {'policy_loss': -0.12860533595085144, 'vf_explained_var': 0.12698474526405334, 'vf_loss': 180.32693481445312, 'kl': 0.009417514316737652, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.56639289855957, 'total_loss': 180.24659729003906}, 'sample_time_ms': 34164.468, 'num_steps_trained': 1135200, 'num_steps_sampled': 1135200, 'update_time_ms': 2.6, 'grad_time_ms': 375.095, 'load_time_ms': 0.672}",946,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+37526.17451119423,45176,8.000129248224452,1200,cda-server-2,37526.17451119423,f93d3d6710754a149751678a58e67540,102,1757092235,1136400,-80.38079036165642,2334300,{},10.157.146.2,False,{},2025-09-05_19-10-35,11.627450980392156,1136400,-8.028621645994425,0,35.656986236572266,947,"{'default': {'policy_loss': -0.12370557337999344, 'vf_explained_var': 0.13085433840751648, 'vf_loss': 166.69989013671875, 'kl': 0.009107731282711029, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.565235137939453, 'total_loss': 166.62286376953125}, 'sample_time_ms': 34301.82, 'num_steps_trained': 1136400, 'num_steps_sampled': 1136400, 'update_time_ms': 2.532, 'grad_time_ms': 374.353, 'load_time_ms': 0.691}",947,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+37561.2253549099,45280,8.000044017108673,1200,cda-server-2,37561.2253549099,f93d3d6710754a149751678a58e67540,104,1757092270,1137600,-81.5523571114586,2334300,{},10.157.146.2,False,{},2025-09-05_19-11-10,11.48076923076923,1137600,-7.949465971112705,0,35.050843715667725,948,"{'default': {'policy_loss': -0.10785181075334549, 'vf_explained_var': 0.125523641705513, 'vf_loss': 205.5534210205078, 'kl': 0.008863167837262154, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.299152374267578, 'total_loss': 205.49099731445312}, 'sample_time_ms': 34319.987, 'num_steps_trained': 1137600, 'num_steps_sampled': 1137600, 'update_time_ms': 2.447, 'grad_time_ms': 372.638, 'load_time_ms': 0.691}",948,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+37596.50879430771,45387,8.000001551807056,1200,cda-server-2,37596.50879430771,f93d3d6710754a149751678a58e67540,107,1757092305,1138800,-60.835710026268856,2334300,{},10.157.146.2,False,{},2025-09-05_19-11-45,11.22429906542056,1138800,-7.136648025466376,0,35.28343939781189,949,"{'default': {'policy_loss': -0.12301075458526611, 'vf_explained_var': 0.1506507396697998, 'vf_loss': 144.87628173828125, 'kl': 0.00845129881054163, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.52663803100586, 'total_loss': 144.7965850830078}, 'sample_time_ms': 34448.596, 'num_steps_trained': 1138800, 'num_steps_sampled': 1138800, 'update_time_ms': 2.45, 'grad_time_ms': 372.012, 'load_time_ms': 0.697}",949,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+37630.64043712616,45471,8.000001551807056,1200,cda-server-2,37630.64043712616,f93d3d6710754a149751678a58e67540,84,1757092340,1140000,-81.56558074129613,2334300,{},10.157.146.2,False,{},2025-09-05_19-12-20,13.21,1140000,-10.57172780571466,0,34.13164281845093,950,"{'default': {'policy_loss': -0.12327513098716736, 'vf_explained_var': 0.1106473058462143, 'vf_loss': 227.9796600341797, 'kl': 0.010170694440603256, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.11896800994873, 'total_loss': 227.9085235595703}, 'sample_time_ms': 34410.284, 'num_steps_trained': 1140000, 'num_steps_sampled': 1140000, 'update_time_ms': 2.459, 'grad_time_ms': 375.028, 'load_time_ms': 0.72}",950,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+37665.507804870605,45546,8.00000040000487,1200,cda-server-2,37665.507804870605,f93d3d6710754a149751678a58e67540,75,1757092375,1141200,-81.71126446482349,2334300,{},10.157.146.2,False,{},2025-09-05_19-12-55,15.09,1141200,-13.592818914715718,0,34.8673677444458,951,"{'default': {'policy_loss': -0.13999134302139282, 'vf_explained_var': 0.1281847208738327, 'vf_loss': 186.94171142578125, 'kl': 0.009851484559476376, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.599445343017578, 'total_loss': 186.8522186279297}, 'sample_time_ms': 34408.474, 'num_steps_trained': 1141200, 'num_steps_sampled': 1141200, 'update_time_ms': 2.466, 'grad_time_ms': 371.774, 'load_time_ms': 0.717}",951,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+37700.085760354996,45652,8.000000541127335,1200,cda-server-2,37700.085760354996,f93d3d6710754a149751678a58e67540,106,1757092409,1142400,-80.37452004903147,2334300,{},10.157.146.2,False,{},2025-09-05_19-13-29,11.90566037735849,1142400,-8.6231878166308,0,34.57795548439026,952,"{'default': {'policy_loss': -0.12100005149841309, 'vf_explained_var': 0.12242773920297623, 'vf_loss': 182.24606323242188, 'kl': 0.009780521504580975, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.305222511291504, 'total_loss': 182.1752166748047}, 'sample_time_ms': 34444.26, 'num_steps_trained': 1142400, 'num_steps_sampled': 1142400, 'update_time_ms': 2.443, 'grad_time_ms': 374.646, 'load_time_ms': 0.737}",952,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+37735.8662507534,45751,8.000000459573052,1200,cda-server-2,37735.8662507534,f93d3d6710754a149751678a58e67540,99,1757092445,1143600,-62.522290037683604,2334300,{},10.157.146.2,False,{},2025-09-05_19-14-05,11.81,1143600,-8.159629313806509,0,35.78049039840698,953,"{'default': {'policy_loss': -0.13338647782802582, 'vf_explained_var': 0.10300740599632263, 'vf_loss': 192.94818115234375, 'kl': 0.009415911510586739, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.764208793640137, 'total_loss': 192.8630828857422}, 'sample_time_ms': 34564.029, 'num_steps_trained': 1143600, 'num_steps_sampled': 1143600, 'update_time_ms': 2.51, 'grad_time_ms': 374.921, 'load_time_ms': 0.738}",953,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+37771.25991463661,45845,8.000002063402535,1200,cda-server-2,37771.25991463661,f93d3d6710754a149751678a58e67540,94,1757092480,1144800,-78.8930572972303,2334300,{},10.157.146.2,False,{},2025-09-05_19-14-40,13.14,1144800,-10.440987891491389,0,35.39366388320923,954,"{'default': {'policy_loss': -0.1189645528793335, 'vf_explained_var': 0.163217693567276, 'vf_loss': 158.30706787109375, 'kl': 0.00987091101706028, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.655411720275879, 'total_loss': 158.2386932373047}, 'sample_time_ms': 34674.655, 'num_steps_trained': 1144800, 'num_steps_sampled': 1144800, 'update_time_ms': 2.51, 'grad_time_ms': 375.574, 'load_time_ms': 0.743}",954,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+37806.64824581146,45943,8.00008093408892,1200,cda-server-2,37806.64824581146,f93d3d6710754a149751678a58e67540,98,1757092516,1146000,-64.43315672326271,2334300,{},10.157.146.2,False,{},2025-09-05_19-15-16,12.02,1146000,-8.567147593485236,0,35.388331174850464,955,"{'default': {'policy_loss': -0.12682557106018066, 'vf_explained_var': 0.12077856063842773, 'vf_loss': 165.5735321044922, 'kl': 0.01037299819290638, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.557772636413574, 'total_loss': 165.49986267089844}, 'sample_time_ms': 34758.997, 'num_steps_trained': 1146000, 'num_steps_sampled': 1146000, 'update_time_ms': 2.489, 'grad_time_ms': 374.358, 'load_time_ms': 0.731}",955,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+37841.30329871178,46059,8.00002500593319,1200,cda-server-2,37841.30329871178,f93d3d6710754a149751678a58e67540,116,1757092550,1147200,-59.62952537154064,2334300,{},10.157.146.2,False,{},2025-09-05_19-15-50,10.405172413793103,1147200,-5.922486332960705,0,34.65505290031433,956,"{'default': {'policy_loss': -0.11506027728319168, 'vf_explained_var': 0.13707245886325836, 'vf_loss': 137.29983520507812, 'kl': 0.009358935989439487, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.343451499938965, 'total_loss': 137.23275756835938}, 'sample_time_ms': 34695.684, 'num_steps_trained': 1147200, 'num_steps_sampled': 1147200, 'update_time_ms': 2.502, 'grad_time_ms': 374.676, 'load_time_ms': 0.74}",956,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+37877.73388314247,46165,8.000000612488648,1200,cda-server-2,37877.73388314247,f93d3d6710754a149751678a58e67540,106,1757092587,1148400,-64.60518991267746,2334300,{},10.157.146.2,False,{},2025-09-05_19-16-27,11.245283018867925,1148400,-7.426758460775214,0,36.43058443069458,957,"{'default': {'policy_loss': -0.12947721779346466, 'vf_explained_var': 0.1570947766304016, 'vf_loss': 165.28663635253906, 'kl': 0.010923892259597778, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.6710052490234375, 'total_loss': 165.21315002441406}, 'sample_time_ms': 34773.359, 'num_steps_trained': 1148400, 'num_steps_sampled': 1148400, 'update_time_ms': 2.541, 'grad_time_ms': 374.326, 'load_time_ms': 0.728}",957,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+37913.93598127365,46262,6.000520361297743,1200,cda-server-2,37913.93598127365,f93d3d6710754a149751678a58e67540,97,1757092623,1149600,-82.18991321186664,2334300,{},10.157.146.2,False,{},2025-09-05_19-17-03,12.18,1149600,-8.948738195345578,0,36.20209813117981,958,"{'default': {'policy_loss': -0.1311318725347519, 'vf_explained_var': 0.1377633810043335, 'vf_loss': 226.37918090820312, 'kl': 0.011071257293224335, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.67392635345459, 'total_loss': 226.30477905273438}, 'sample_time_ms': 34888.458, 'num_steps_trained': 1149600, 'num_steps_sampled': 1149600, 'update_time_ms': 2.567, 'grad_time_ms': 374.317, 'load_time_ms': 0.725}",958,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+37949.66149163246,46368,8.000900087099353,1200,cda-server-2,37949.66149163246,f93d3d6710754a149751678a58e67540,106,1757092659,1150800,-79.24797503284988,2334300,{},10.157.146.2,False,{},2025-09-05_19-17-39,11.537735849056604,1150800,-7.917952125332192,0,35.725510358810425,959,"{'default': {'policy_loss': -0.1277557611465454, 'vf_explained_var': 0.1634928584098816, 'vf_loss': 128.90869140625, 'kl': 0.008753238245844841, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.239289283752441, 'total_loss': 128.82579040527344}, 'sample_time_ms': 34933.668, 'num_steps_trained': 1150800, 'num_steps_sampled': 1150800, 'update_time_ms': 2.558, 'grad_time_ms': 373.358, 'load_time_ms': 0.725}",959,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+37984.338255643845,46463,8.00000040036088,1200,cda-server-2,37984.338255643845,f93d3d6710754a149751678a58e67540,95,1757092693,1152000,-55.637413232491866,2334300,{},10.157.146.2,False,{},2025-09-05_19-18-13,12.56,1152000,-9.508948462015852,0,34.67676401138306,960,"{'default': {'policy_loss': -0.13140714168548584, 'vf_explained_var': 0.1633160412311554, 'vf_loss': 144.64633178710938, 'kl': 0.009951403364539146, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.256057739257812, 'total_loss': 144.56594848632812}, 'sample_time_ms': 34989.103, 'num_steps_trained': 1152000, 'num_steps_sampled': 1152000, 'update_time_ms': 2.532, 'grad_time_ms': 372.539, 'load_time_ms': 0.707}",960,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+38019.28519272804,46557,6.00185823397609,1200,cda-server-2,38019.28519272804,f93d3d6710754a149751678a58e67540,94,1757092729,1153200,-81.705529195165,2334300,{},10.157.146.2,False,{},2025-09-05_19-18-49,12.46,1153200,-9.363102908474733,0,34.946937084198,961,"{'default': {'policy_loss': -0.1366838663816452, 'vf_explained_var': 0.14911653101444244, 'vf_loss': 207.0470733642578, 'kl': 0.010208502411842346, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.717975616455078, 'total_loss': 206.96270751953125}, 'sample_time_ms': 34996.296, 'num_steps_trained': 1153200, 'num_steps_sampled': 1153200, 'update_time_ms': 2.556, 'grad_time_ms': 373.258, 'load_time_ms': 0.697}",961,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+38053.775955200195,46665,8.000065914781757,1200,cda-server-2,38053.775955200195,f93d3d6710754a149751678a58e67540,108,1757092763,1154400,-50.3250120009484,2334300,{},10.157.146.2,False,{},2025-09-05_19-19-23,11.157407407407407,1154400,-7.026962330210755,0,34.49076247215271,962,"{'default': {'policy_loss': -0.12305935472249985, 'vf_explained_var': 0.18409603834152222, 'vf_loss': 100.91667175292969, 'kl': 0.010531154461205006, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.582889556884766, 'total_loss': 100.84759521484375}, 'sample_time_ms': 34989.372, 'num_steps_trained': 1154400, 'num_steps_sampled': 1154400, 'update_time_ms': 2.563, 'grad_time_ms': 371.536, 'load_time_ms': 0.686}",962,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+38088.89013957977,46773,6.001610772448045,1200,cda-server-2,38088.89013957977,f93d3d6710754a149751678a58e67540,108,1757092798,1155600,-36.7671409533573,2334300,{},10.157.146.2,False,{},2025-09-05_19-19-58,11.148148148148149,1155600,-7.279295189743109,0,35.11418437957764,963,"{'default': {'policy_loss': -0.12511944770812988, 'vf_explained_var': 0.13062149286270142, 'vf_loss': 82.54637145996094, 'kl': 0.010303660295903683, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.6826043128967285, 'total_loss': 82.47406768798828}, 'sample_time_ms': 34921.23, 'num_steps_trained': 1155600, 'num_steps_sampled': 1155600, 'update_time_ms': 2.5, 'grad_time_ms': 373.085, 'load_time_ms': 0.698}",963,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+38123.49501991272,46886,8.000000400037202,1200,cda-server-2,38123.49501991272,f93d3d6710754a149751678a58e67540,113,1757092833,1156800,-66.07537578666819,2334300,{},10.157.146.2,False,{},2025-09-05_19-20-33,10.610619469026549,1156800,-6.254893494503761,0,34.60488033294678,964,"{'default': {'policy_loss': -0.12221112847328186, 'vf_explained_var': 0.17610076069831848, 'vf_loss': 148.33453369140625, 'kl': 0.008372345007956028, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.260882377624512, 'total_loss': 148.25523376464844}, 'sample_time_ms': 34843.563, 'num_steps_trained': 1156800, 'num_steps_sampled': 1156800, 'update_time_ms': 2.508, 'grad_time_ms': 371.824, 'load_time_ms': 0.691}",964,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+38160.90032458305,46986,8.000000400000223,1200,cda-server-2,38160.90032458305,f93d3d6710754a149751678a58e67540,100,1757092870,1158000,-79.54580657402458,2334300,{},10.157.146.2,False,{},2025-09-05_19-21-10,12.08,1158000,-8.709267508540798,0,37.40530467033386,965,"{'default': {'policy_loss': -0.12449048459529877, 'vf_explained_var': 0.12519261240959167, 'vf_loss': 175.48411560058594, 'kl': 0.011160285212099552, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.54409122467041, 'total_loss': 175.4168243408203}, 'sample_time_ms': 35045.956, 'num_steps_trained': 1158000, 'num_steps_sampled': 1158000, 'update_time_ms': 2.507, 'grad_time_ms': 371.125, 'load_time_ms': 0.692}",965,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+38195.72085762024,47085,6.001963436425615,1200,cda-server-2,38195.72085762024,f93d3d6710754a149751678a58e67540,99,1757092905,1159200,-81.4403057222538,2334300,{},10.157.146.2,False,{},2025-09-05_19-21-45,11.79,1159200,-8.475639855065157,0,34.82053303718567,966,"{'default': {'policy_loss': -0.13164566457271576, 'vf_explained_var': 0.09928052872419357, 'vf_loss': 260.06494140625, 'kl': 0.010116620920598507, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.207294464111328, 'total_loss': 259.9851379394531}, 'sample_time_ms': 35062.288, 'num_steps_trained': 1159200, 'num_steps_sampled': 1159200, 'update_time_ms': 2.482, 'grad_time_ms': 371.396, 'load_time_ms': 0.678}",966,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+38230.59654021263,47194,8.000002231286262,1200,cda-server-2,38230.59654021263,f93d3d6710754a149751678a58e67540,109,1757092940,1160400,-74.93334323475048,2334300,{},10.157.146.2,False,{},2025-09-05_19-22-20,11.247706422018348,1160400,-7.383814727767436,0,34.87568259239197,967,"{'default': {'policy_loss': -0.12571372091770172, 'vf_explained_var': 0.1395593285560608, 'vf_loss': 128.46685791015625, 'kl': 0.008068427443504333, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.416199684143066, 'total_loss': 128.38250732421875}, 'sample_time_ms': 34905.012, 'num_steps_trained': 1160400, 'num_steps_sampled': 1160400, 'update_time_ms': 2.483, 'grad_time_ms': 373.173, 'load_time_ms': 0.68}",967,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+38265.88283824921,47296,6.001301276742617,1200,cda-server-2,38265.88283824921,f93d3d6710754a149751678a58e67540,102,1757092975,1161600,-58.18531207755974,2334300,{},10.157.146.2,False,{},2025-09-05_19-22-55,11.823529411764707,1161600,-8.32782448991752,0,35.28629803657532,968,"{'default': {'policy_loss': -0.11915290355682373, 'vf_explained_var': 0.15633131563663483, 'vf_loss': 118.62017059326172, 'kl': 0.008687246590852737, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.421286582946777, 'total_loss': 118.54554748535156}, 'sample_time_ms': 34813.351, 'num_steps_trained': 1161600, 'num_steps_sampled': 1161600, 'update_time_ms': 2.477, 'grad_time_ms': 373.243, 'load_time_ms': 0.678}",968,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+38300.70079112053,47388,8.00000040000635,1200,cda-server-2,38300.70079112053,f93d3d6710754a149751678a58e67540,92,1757093010,1162800,-79.31268303289895,2334300,{},10.157.146.2,False,{},2025-09-05_19-23-30,12.78,1162800,-9.978471848684594,0,34.81795287132263,969,"{'default': {'policy_loss': -0.11325141042470932, 'vf_explained_var': 0.1328367441892624, 'vf_loss': 204.65769958496094, 'kl': 0.009460508823394775, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.555281639099121, 'total_loss': 204.5929412841797}, 'sample_time_ms': 34721.797, 'num_steps_trained': 1162800, 'num_steps_sampled': 1162800, 'update_time_ms': 2.494, 'grad_time_ms': 374.021, 'load_time_ms': 0.674}",969,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+38334.86060619354,47484,8.00000040087631,1200,cda-server-2,38334.86060619354,f93d3d6710754a149751678a58e67540,96,1757093044,1164000,-79.85784187801518,2334300,{},10.157.146.2,False,{},2025-09-05_19-24-04,12.81,1164000,-10.109689493864861,0,34.159815073013306,970,"{'default': {'policy_loss': -0.11455729603767395, 'vf_explained_var': 0.15454331040382385, 'vf_loss': 170.71119689941406, 'kl': 0.00985658261924982, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.552797317504883, 'total_loss': 170.64715576171875}, 'sample_time_ms': 34670.629, 'num_steps_trained': 1164000, 'num_steps_sampled': 1164000, 'update_time_ms': 2.527, 'grad_time_ms': 373.38, 'load_time_ms': 0.672}",970,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+38369.765201330185,47601,8.000008631260425,1200,cda-server-2,38369.765201330185,f93d3d6710754a149751678a58e67540,117,1757093079,1165200,-42.12175050843313,2334300,{},10.157.146.2,False,{},2025-09-05_19-24-39,10.11965811965812,1165200,-5.528688267391449,0,34.904595136642456,971,"{'default': {'policy_loss': -0.13333162665367126, 'vf_explained_var': 0.15883539617061615, 'vf_loss': 92.78507232666016, 'kl': 0.010908468626439571, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.987150192260742, 'total_loss': 92.70764923095703}, 'sample_time_ms': 34664.542, 'num_steps_trained': 1165200, 'num_steps_sampled': 1165200, 'update_time_ms': 2.539, 'grad_time_ms': 375.187, 'load_time_ms': 0.687}",971,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+38404.50633740425,47703,8.000000400000001,1200,cda-server-2,38404.50633740425,f93d3d6710754a149751678a58e67540,102,1757093114,1166400,-74.7069817910095,2334300,{},10.157.146.2,False,{},2025-09-05_19-25-14,11.911764705882353,1166400,-8.354441833029194,0,34.74113607406616,972,"{'default': {'policy_loss': -0.13075292110443115, 'vf_explained_var': 0.14766091108322144, 'vf_loss': 117.17642974853516, 'kl': 0.009761148132383823, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.562692642211914, 'total_loss': 117.09571838378906}, 'sample_time_ms': 34689.765, 'num_steps_trained': 1166400, 'num_steps_sampled': 1166400, 'update_time_ms': 2.565, 'grad_time_ms': 374.919, 'load_time_ms': 0.679}",972,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+38438.98113298416,47808,6.001513109970117,1200,cda-server-2,38438.98113298416,f93d3d6710754a149751678a58e67540,105,1757093148,1167600,-79.86548781569424,2334300,{},10.157.146.2,False,{},2025-09-05_19-25-48,11.17142857142857,1167600,-7.429729154681541,0,34.47479557991028,973,"{'default': {'policy_loss': -0.12305796146392822, 'vf_explained_var': 0.12105349451303482, 'vf_loss': 231.8060760498047, 'kl': 0.00816577672958374, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.03167724609375, 'total_loss': 231.724853515625}, 'sample_time_ms': 34625.739, 'num_steps_trained': 1167600, 'num_steps_sampled': 1167600, 'update_time_ms': 2.619, 'grad_time_ms': 374.959, 'load_time_ms': 0.67}",973,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+38473.88289809227,47899,6.000604260237663,1200,cda-server-2,38473.88289809227,f93d3d6710754a149751678a58e67540,91,1757093183,1168800,-79.43346867477496,2334300,{},10.157.146.2,False,{},2025-09-05_19-26-23,13.67,1168800,-11.420003830851892,0,34.90176510810852,974,"{'default': {'policy_loss': -0.1297953724861145, 'vf_explained_var': 0.15211397409439087, 'vf_loss': 195.72251892089844, 'kl': 0.009603820741176605, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.555147171020508, 'total_loss': 195.6419219970703}, 'sample_time_ms': 34655.482, 'num_steps_trained': 1168800, 'num_steps_sampled': 1168800, 'update_time_ms': 2.62, 'grad_time_ms': 374.913, 'load_time_ms': 0.673}",974,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+38508.343774318695,48009,8.000848805561798,1200,cda-server-2,38508.343774318695,f93d3d6710754a149751678a58e67540,110,1757093218,1170000,-51.54467135907355,2334300,{},10.157.146.2,False,{},2025-09-05_19-26-58,10.709090909090909,1170000,-6.462307060405044,0,34.46087622642517,975,"{'default': {'policy_loss': -0.11896242201328278, 'vf_explained_var': 0.19148346781730652, 'vf_loss': 110.93702697753906, 'kl': 0.00820012204349041, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.911208152770996, 'total_loss': 110.86009216308594}, 'sample_time_ms': 34362.145, 'num_steps_trained': 1170000, 'num_steps_sampled': 1170000, 'update_time_ms': 2.638, 'grad_time_ms': 373.802, 'load_time_ms': 0.671}",975,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+38543.0908946991,48116,8.000003553359948,1200,cda-server-2,38543.0908946991,f93d3d6710754a149751678a58e67540,107,1757093253,1171200,-57.06980175496699,2334300,{},10.157.146.2,False,{},2025-09-05_19-27-33,11.130841121495328,1171200,-7.263399908353123,0,34.74712038040161,976,"{'default': {'policy_loss': -0.12047716230154037, 'vf_explained_var': 0.1649908721446991, 'vf_loss': 122.37332916259766, 'kl': 0.009225723333656788, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.15756893157959, 'total_loss': 122.30014038085938}, 'sample_time_ms': 34357.214, 'num_steps_trained': 1171200, 'num_steps_sampled': 1171200, 'update_time_ms': 2.665, 'grad_time_ms': 371.342, 'load_time_ms': 0.676}",976,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+38577.16266846657,48206,8.000135275085663,1200,cda-server-2,38577.16266846657,f93d3d6710754a149751678a58e67540,90,1757093287,1172400,-80.44992513403193,2334300,{},10.157.146.2,False,{},2025-09-05_19-28-07,13.94,1172400,-11.59981896168963,0,34.07177376747131,977,"{'default': {'policy_loss': -0.1308014690876007, 'vf_explained_var': 0.14760859310626984, 'vf_loss': 184.63929748535156, 'kl': 0.007988250814378262, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 9.09786605834961, 'total_loss': 184.5494384765625}, 'sample_time_ms': 34276.651, 'num_steps_trained': 1172400, 'num_steps_sampled': 1172400, 'update_time_ms': 2.655, 'grad_time_ms': 371.517, 'load_time_ms': 0.664}",977,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+38612.35265803337,48307,8.000072424776043,1200,cda-server-2,38612.35265803337,f93d3d6710754a149751678a58e67540,101,1757093322,1173600,-77.28268759466842,2334300,{},10.157.146.2,False,{},2025-09-05_19-28-42,11.415841584158416,1173600,-7.6227478720584525,0,35.18998956680298,978,"{'default': {'policy_loss': -0.13689905405044556, 'vf_explained_var': 0.1348818689584732, 'vf_loss': 183.09840393066406, 'kl': 0.00851309671998024, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.164573669433594, 'total_loss': 183.00515747070312}, 'sample_time_ms': 34266.729, 'num_steps_trained': 1173600, 'num_steps_sampled': 1173600, 'update_time_ms': 2.679, 'grad_time_ms': 371.741, 'load_time_ms': 0.672}",978,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+38646.91388487816,48411,6.001074545030132,1200,cda-server-2,38646.91388487816,f93d3d6710754a149751678a58e67540,104,1757093356,1174800,-82.22633522468905,2334300,{},10.157.146.2,False,{},2025-09-05_19-29-16,11.653846153846153,1174800,-8.053927033231604,0,34.5612268447876,979,"{'default': {'policy_loss': -0.11625727266073227, 'vf_explained_var': 0.1291622519493103, 'vf_loss': 178.90313720703125, 'kl': 0.010634384118020535, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.9710516929626465, 'total_loss': 178.8413848876953}, 'sample_time_ms': 34243.498, 'num_steps_trained': 1174800, 'num_steps_sampled': 1174800, 'update_time_ms': 2.696, 'grad_time_ms': 369.299, 'load_time_ms': 0.67}",979,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+38681.76121497154,48515,8.000000400017466,1200,cda-server-2,38681.76121497154,f93d3d6710754a149751678a58e67540,104,1757093391,1176000,-82.52447799666979,2334300,{},10.157.146.2,False,{},2025-09-05_19-29-51,11.721153846153847,1176000,-8.162287063378074,0,34.84733009338379,980,"{'default': {'policy_loss': -0.11072716116905212, 'vf_explained_var': 0.12861734628677368, 'vf_loss': 207.02532958984375, 'kl': 0.00839286856353283, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.010143280029297, 'total_loss': 206.9576416015625}, 'sample_time_ms': 34310.833, 'num_steps_trained': 1176000, 'num_steps_sampled': 1176000, 'update_time_ms': 2.664, 'grad_time_ms': 370.707, 'load_time_ms': 0.692}",980,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+38716.391979932785,48620,8.00006280384074,1200,cda-server-2,38716.391979932785,f93d3d6710754a149751678a58e67540,105,1757093426,1177200,-65.68662171503632,2334300,{},10.157.146.2,False,{},2025-09-05_19-30-26,11.657142857142857,1177200,-7.947458321105788,0,34.630764961242676,981,"{'default': {'policy_loss': -0.12637369334697723, 'vf_explained_var': 0.1544867306947708, 'vf_loss': 138.9871826171875, 'kl': 0.010473791509866714, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.009885787963867, 'total_loss': 138.91448974609375}, 'sample_time_ms': 34285.228, 'num_steps_trained': 1177200, 'num_steps_sampled': 1177200, 'update_time_ms': 2.622, 'grad_time_ms': 369.006, 'load_time_ms': 0.689}",981,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+38751.141756772995,48729,8.000000399999927,1200,cda-server-2,38751.141756772995,f93d3d6710754a149751678a58e67540,109,1757093461,1178400,-75.70276687406812,2334300,{},10.157.146.2,False,{},2025-09-05_19-31-01,10.660550458715596,1178400,-6.391130449750457,0,34.74977684020996,982,"{'default': {'policy_loss': -0.11850632727146149, 'vf_explained_var': 0.15820366144180298, 'vf_loss': 134.6548309326172, 'kl': 0.00864506233483553, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.029078483581543, 'total_loss': 134.58062744140625}, 'sample_time_ms': 34285.497, 'num_steps_trained': 1178400, 'num_steps_sampled': 1178400, 'update_time_ms': 2.618, 'grad_time_ms': 369.672, 'load_time_ms': 0.694}",982,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+38785.8583984375,48818,8.000003139595496,1200,cda-server-2,38785.8583984375,f93d3d6710754a149751678a58e67540,89,1757093496,1179600,-81.22952061773404,2334300,{},10.157.146.2,False,{},2025-09-05_19-31-36,13.42,1179600,-11.225836689940955,0,34.716641664505005,983,"{'default': {'policy_loss': -0.13232572376728058, 'vf_explained_var': 0.12972790002822876, 'vf_loss': 210.9720916748047, 'kl': 0.008901259861886501, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.626033782958984, 'total_loss': 210.88539123535156}, 'sample_time_ms': 34310.705, 'num_steps_trained': 1179600, 'num_steps_sampled': 1179600, 'update_time_ms': 2.561, 'grad_time_ms': 368.645, 'load_time_ms': 0.687}",983,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+38822.18862104416,48918,10.0,1200,cda-server-2,38822.18862104416,f93d3d6710754a149751678a58e67540,100,1757093532,1180800,-81.62751620730599,2334300,{},10.157.146.2,False,{},2025-09-05_19-32-12,12.1,1180800,-8.939163389198404,0,36.330222606658936,984,"{'default': {'policy_loss': -0.11680860072374344, 'vf_explained_var': 0.16506348550319672, 'vf_loss': 191.41522216796875, 'kl': 0.008987827226519585, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.876986503601074, 'total_loss': 191.34446716308594}, 'sample_time_ms': 34452.642, 'num_steps_trained': 1180800, 'num_steps_sampled': 1180800, 'update_time_ms': 2.576, 'grad_time_ms': 369.563, 'load_time_ms': 0.679}",984,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+38857.84148097038,49028,8.000000402695544,1200,cda-server-2,38857.84148097038,f93d3d6710754a149751678a58e67540,110,1757093568,1182000,-78.35738484414829,2334300,{},10.157.146.2,False,{},2025-09-05_19-32-48,10.818181818181818,1182000,-6.793583131627948,0,35.652859926223755,985,"{'default': {'policy_loss': -0.12518680095672607, 'vf_explained_var': 0.13498717546463013, 'vf_loss': 136.69139099121094, 'kl': 0.007589833810925484, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.104706764221191, 'total_loss': 136.60511779785156}, 'sample_time_ms': 34570.605, 'num_steps_trained': 1182000, 'num_steps_sampled': 1182000, 'update_time_ms': 2.58, 'grad_time_ms': 370.796, 'load_time_ms': 0.679}",985,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+38893.04619193077,49133,8.000000400000356,1200,cda-server-2,38893.04619193077,f93d3d6710754a149751678a58e67540,105,1757093603,1183200,-54.12938461884856,2334300,{},10.157.146.2,False,{},2025-09-05_19-33-23,11.276190476190477,1183200,-7.220485862644518,0,35.204710960388184,986,"{'default': {'policy_loss': -0.1272914707660675, 'vf_explained_var': 0.17203694581985474, 'vf_loss': 125.34671783447266, 'kl': 0.011088543571531773, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.176316261291504, 'total_loss': 125.27627563476562}, 'sample_time_ms': 34613.638, 'num_steps_trained': 1183200, 'num_steps_sampled': 1183200, 'update_time_ms': 2.569, 'grad_time_ms': 373.496, 'load_time_ms': 0.704}",986,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+38928.08607172966,49240,6.001505237273201,1200,cda-server-2,38928.08607172966,f93d3d6710754a149751678a58e67540,107,1757093638,1184400,-64.11318147676228,2334300,{},10.157.146.2,False,{},2025-09-05_19-33-58,11.467289719626168,1184400,-7.625427844202205,0,35.03987979888916,987,"{'default': {'policy_loss': -0.11664868891239166, 'vf_explained_var': 0.15885549783706665, 'vf_loss': 136.9136199951172, 'kl': 0.010728120803833008, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.899344444274902, 'total_loss': 136.8519744873047}, 'sample_time_ms': 34710.901, 'num_steps_trained': 1184400, 'num_steps_sampled': 1184400, 'update_time_ms': 2.574, 'grad_time_ms': 373.04, 'load_time_ms': 0.71}",987,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+38963.07773518562,49350,8.000000451083784,1200,cda-server-2,38963.07773518562,f93d3d6710754a149751678a58e67540,110,1757093673,1185600,-54.97210148617157,2334300,{},10.157.146.2,False,{},2025-09-05_19-34-33,10.781818181818181,1185600,-6.603135061133988,0,34.991663455963135,988,"{'default': {'policy_loss': -0.12723873555660248, 'vf_explained_var': 0.15744461119174957, 'vf_loss': 124.26447296142578, 'kl': 0.010207101702690125, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.119998931884766, 'total_loss': 124.18955993652344}, 'sample_time_ms': 34688.342, 'num_steps_trained': 1185600, 'num_steps_sampled': 1185600, 'update_time_ms': 2.542, 'grad_time_ms': 375.835, 'load_time_ms': 0.713}",988,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+38998.06361413002,49476,8.000000400000072,1200,cda-server-2,38998.06361413002,f93d3d6710754a149751678a58e67540,126,1757093708,1186800,-53.40789018141651,2334300,{},10.157.146.2,False,{},2025-09-05_19-35-08,9.69047619047619,1186800,-4.833829326356983,0,34.98587894439697,989,"{'default': {'policy_loss': -0.11569031327962875, 'vf_explained_var': 0.2261984944343567, 'vf_loss': 94.87490844726562, 'kl': 0.010692497715353966, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.625601768493652, 'total_loss': 94.81401824951172}, 'sample_time_ms': 34730.202, 'num_steps_trained': 1186800, 'num_steps_sampled': 1186800, 'update_time_ms': 2.535, 'grad_time_ms': 376.42, 'load_time_ms': 0.725}",989,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+39033.940145492554,49589,6.0014947724121,1200,cda-server-2,39033.940145492554,f93d3d6710754a149751678a58e67540,113,1757093744,1188000,-54.09278900613786,2334300,{},10.157.146.2,False,{},2025-09-05_19-35-44,10.47787610619469,1188000,-6.134949427074127,0,35.87653136253357,990,"{'default': {'policy_loss': -0.12393137812614441, 'vf_explained_var': 0.17372411489486694, 'vf_loss': 107.31281280517578, 'kl': 0.009164652787148952, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.935282230377197, 'total_loss': 107.23585510253906}, 'sample_time_ms': 34833.82, 'num_steps_trained': 1188000, 'num_steps_sampled': 1188000, 'update_time_ms': 2.535, 'grad_time_ms': 375.627, 'load_time_ms': 0.722}",990,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+39072.42144370079,49698,8.000000400683517,1200,cda-server-2,39072.42144370079,f93d3d6710754a149751678a58e67540,109,1757093782,1189200,-81.07637988067994,2334300,{},10.157.146.2,False,{},2025-09-05_19-36-22,10.73394495412844,1189200,-6.518535016272889,0,38.481298208236694,991,"{'default': {'policy_loss': -0.11617902666330338, 'vf_explained_var': 0.14705303311347961, 'vf_loss': 156.73451232910156, 'kl': 0.008379380218684673, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.380451202392578, 'total_loss': 156.66128540039062}, 'sample_time_ms': 35217.543, 'num_steps_trained': 1189200, 'num_steps_sampled': 1189200, 'update_time_ms': 2.544, 'grad_time_ms': 376.942, 'load_time_ms': 0.719}",991,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+39107.39052653313,49800,8.000000832113257,1200,cda-server-2,39107.39052653313,f93d3d6710754a149751678a58e67540,102,1757093817,1190400,-79.84999277441281,2334300,{},10.157.146.2,False,{},2025-09-05_19-36-57,12.166666666666666,1190400,-8.811862097300471,0,34.969082832336426,992,"{'default': {'policy_loss': -0.10629340261220932, 'vf_explained_var': 0.13019593060016632, 'vf_loss': 229.0952911376953, 'kl': 0.010474516078829765, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.742081642150879, 'total_loss': 229.04269409179688}, 'sample_time_ms': 35240.366, 'num_steps_trained': 1190400, 'num_steps_sampled': 1190400, 'update_time_ms': 2.513, 'grad_time_ms': 376.063, 'load_time_ms': 0.729}",992,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+39142.06477069855,49899,8.000201699377161,1200,cda-server-2,39142.06477069855,f93d3d6710754a149751678a58e67540,99,1757093852,1191600,-62.01293924987624,2334300,{},10.157.146.2,False,{},2025-09-05_19-37-32,11.69,1191600,-7.908392896650082,0,34.67424416542053,993,"{'default': {'policy_loss': -0.12888801097869873, 'vf_explained_var': 0.15855790674686432, 'vf_loss': 130.2429962158203, 'kl': 0.011310567148029804, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.26865005493164, 'total_loss': 130.17208862304688}, 'sample_time_ms': 35234.124, 'num_steps_trained': 1191600, 'num_steps_sampled': 1191600, 'update_time_ms': 2.514, 'grad_time_ms': 378.056, 'load_time_ms': 0.737}",993,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+39177.47431850433,50007,8.000000400113695,1200,cda-server-2,39177.47431850433,f93d3d6710754a149751678a58e67540,108,1757093887,1192800,-78.79052142842056,2334300,{},10.157.146.2,False,{},2025-09-05_19-38-07,11.462962962962964,1192800,-7.711946625532805,0,35.40954780578613,994,"{'default': {'policy_loss': -0.12178921699523926, 'vf_explained_var': 0.14259137213230133, 'vf_loss': 164.9691619873047, 'kl': 0.009352531284093857, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.280426979064941, 'total_loss': 164.89529418945312}, 'sample_time_ms': 35144.965, 'num_steps_trained': 1192800, 'num_steps_sampled': 1192800, 'update_time_ms': 2.521, 'grad_time_ms': 375.174, 'load_time_ms': 0.742}",994,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+39213.1948826313,50134,8.00000339650973,1200,cda-server-2,39213.1948826313,f93d3d6710754a149751678a58e67540,127,1757093923,1194000,-54.648896702468036,2334300,{},10.157.146.2,False,{},2025-09-05_19-38-43,9.338582677165354,1194000,-4.2210031375213815,0,35.720564126968384,995,"{'default': {'policy_loss': -0.12409516423940659, 'vf_explained_var': 0.20417146384716034, 'vf_loss': 106.64891052246094, 'kl': 0.008681725710630417, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.137012481689453, 'total_loss': 106.56932067871094}, 'sample_time_ms': 35151.927, 'num_steps_trained': 1194000, 'num_steps_sampled': 1194000, 'update_time_ms': 2.474, 'grad_time_ms': 375.047, 'load_time_ms': 0.737}",995,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+39248.20450949669,50248,6.001785602842805,1200,cda-server-2,39248.20450949669,f93d3d6710754a149751678a58e67540,114,1757093958,1195200,-67.1762955012946,2334300,{},10.157.146.2,False,{},2025-09-05_19-39-18,10.280701754385966,1195200,-5.81430491795791,0,35.00962686538696,996,"{'default': {'policy_loss': -0.11728482693433762, 'vf_explained_var': 0.1792491227388382, 'vf_loss': 141.5452880859375, 'kl': 0.009316209703683853, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.804834842681885, 'total_loss': 141.4757537841797}, 'sample_time_ms': 35135.145, 'num_steps_trained': 1195200, 'num_steps_sampled': 1195200, 'update_time_ms': 2.479, 'grad_time_ms': 372.364, 'load_time_ms': 0.713}",996,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+39283.47089719772,50369,8.000000424793862,1200,cda-server-2,39283.47089719772,f93d3d6710754a149751678a58e67540,121,1757093993,1196400,-57.341956988678106,2334300,{},10.157.146.2,False,{},2025-09-05_19-39-53,10.272727272727273,1196400,-5.649663335966773,0,35.266387701034546,997,"{'default': {'policy_loss': -0.11603260040283203, 'vf_explained_var': 0.1722307652235031, 'vf_loss': 108.68437194824219, 'kl': 0.011494318954646587, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.958198547363281, 'total_loss': 108.62726593017578}, 'sample_time_ms': 35159.212, 'num_steps_trained': 1196400, 'num_steps_sampled': 1196400, 'update_time_ms': 2.463, 'grad_time_ms': 370.965, 'load_time_ms': 0.721}",997,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+39318.58399963379,50483,8.000078799416565,1200,cda-server-2,39318.58399963379,f93d3d6710754a149751678a58e67540,114,1757094028,1197600,-79.05086385516356,2334300,{},10.157.146.2,False,{},2025-09-05_19-40-28,10.456140350877194,1197600,-6.114302298598264,0,35.113102436065674,998,"{'default': {'policy_loss': -0.12086139619350433, 'vf_explained_var': 0.15536485612392426, 'vf_loss': 205.43817138671875, 'kl': 0.008745413273572922, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.771793842315674, 'total_loss': 205.36212158203125}, 'sample_time_ms': 35174.386, 'num_steps_trained': 1197600, 'num_steps_sampled': 1197600, 'update_time_ms': 2.485, 'grad_time_ms': 367.924, 'load_time_ms': 0.712}",998,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+39354.586656332016,50599,8.000018012664816,1200,cda-server-2,39354.586656332016,f93d3d6710754a149751678a58e67540,116,1757094065,1198800,-79.03198112598977,2334300,{},10.157.146.2,False,{},2025-09-05_19-41-05,10.310344827586206,1198800,-5.940774905262499,0,36.00265669822693,999,"{'default': {'policy_loss': -0.12494374811649323, 'vf_explained_var': 0.18328431248664856, 'vf_loss': 156.21017456054688, 'kl': 0.0076676830649375916, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.720086097717285, 'total_loss': 156.1245574951172}, 'sample_time_ms': 35274.13, 'num_steps_trained': 1198800, 'num_steps_sampled': 1198800, 'update_time_ms': 2.468, 'grad_time_ms': 369.81, 'load_time_ms': 0.706}",999,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+39388.943856716156,50704,8.000067220689344,1200,cda-server-2,39388.943856716156,f93d3d6710754a149751678a58e67540,105,1757094099,1200000,-81.0001489930398,2334300,{},10.157.146.2,False,{},2025-09-05_19-41-39,11.533333333333333,1200000,-7.9225233244978766,0,34.357200384140015,1000,"{'default': {'policy_loss': -0.12405513226985931, 'vf_explained_var': 0.1316448599100113, 'vf_loss': 210.09877014160156, 'kl': 0.009614868089556694, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.643988609313965, 'total_loss': 210.02398681640625}, 'sample_time_ms': 35124.175, 'num_steps_trained': 1200000, 'num_steps_sampled': 1200000, 'update_time_ms': 2.514, 'grad_time_ms': 367.993, 'load_time_ms': 0.686}",1000,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+39424.05726313591,50824,8.001410204963893,1200,cda-server-2,39424.05726313591,f93d3d6710754a149751678a58e67540,120,1757094134,1201200,-38.884517009076546,2334300,{},10.157.146.2,False,{},2025-09-05_19-42-14,9.758333333333333,1201200,-4.87484595980373,0,35.11340641975403,1001,"{'default': {'policy_loss': -0.11828166991472244, 'vf_explained_var': 0.2097300887107849, 'vf_loss': 90.22238159179688, 'kl': 0.010568719357252121, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.92563533782959, 'total_loss': 90.15827178955078}, 'sample_time_ms': 34786.217, 'num_steps_trained': 1201200, 'num_steps_sampled': 1201200, 'update_time_ms': 2.548, 'grad_time_ms': 369.102, 'load_time_ms': 0.702}",1001,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+39459.43761062622,50934,8.00029640326447,1200,cda-server-2,39459.43761062622,f93d3d6710754a149751678a58e67540,110,1757094169,1202400,-64.82495882156397,2334300,{},10.157.146.2,False,{},2025-09-05_19-42-49,11.045454545454545,1202400,-6.899744263391767,0,35.38034749031067,1002,"{'default': {'policy_loss': -0.11218506842851639, 'vf_explained_var': 0.1606358140707016, 'vf_loss': 133.03514099121094, 'kl': 0.008960862644016743, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.051231384277344, 'total_loss': 132.96888732910156}, 'sample_time_ms': 34827.129, 'num_steps_trained': 1202400, 'num_steps_sampled': 1202400, 'update_time_ms': 2.572, 'grad_time_ms': 369.292, 'load_time_ms': 0.694}",1002,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+39495.06410121918,51062,8.00001110857187,1200,cda-server-2,39495.06410121918,f93d3d6710754a149751678a58e67540,128,1757094205,1203600,-48.58795735637691,2334300,{},10.157.146.2,False,{},2025-09-05_19-43-25,9.1640625,1203600,-4.001571538904399,0,35.62649059295654,1003,"{'default': {'policy_loss': -0.11867138743400574, 'vf_explained_var': 0.20588618516921997, 'vf_loss': 118.85743713378906, 'kl': 0.011757216416299343, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.433380126953125, 'total_loss': 118.79903411865234}, 'sample_time_ms': 34924.939, 'num_steps_trained': 1203600, 'num_steps_sampled': 1203600, 'update_time_ms': 2.571, 'grad_time_ms': 366.774, 'load_time_ms': 0.688}",1003,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+39529.775504112244,51178,6.000269776799848,1200,cda-server-2,39529.775504112244,f93d3d6710754a149751678a58e67540,116,1757094240,1204800,-77.77634126476481,2334300,{},10.157.146.2,False,{},2025-09-05_19-44-00,10.706896551724139,1204800,-6.475161430001292,0,34.711402893066406,1004,"{'default': {'policy_loss': -0.12108948826789856, 'vf_explained_var': 0.17009881138801575, 'vf_loss': 181.56747436523438, 'kl': 0.010016139596700668, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.686276912689209, 'total_loss': 181.4977264404297}, 'sample_time_ms': 34853.35, 'num_steps_trained': 1204800, 'num_steps_sampled': 1204800, 'update_time_ms': 2.566, 'grad_time_ms': 368.559, 'load_time_ms': 0.688}",1004,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+39564.627715587616,51270,10.0,1200,cda-server-2,39564.627715587616,f93d3d6710754a149751678a58e67540,92,1757094275,1206000,-77.74136707939614,2334300,{},10.157.146.2,False,{},2025-09-05_19-44-35,12.48,1206000,-9.209791634585544,0,34.852211475372314,1005,"{'default': {'policy_loss': -0.12045937031507492, 'vf_explained_var': 0.1624155044555664, 'vf_loss': 194.8504638671875, 'kl': 0.010312361642718315, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.932133674621582, 'total_loss': 194.7828826904297}, 'sample_time_ms': 34765.505, 'num_steps_trained': 1206000, 'num_steps_sampled': 1206000, 'update_time_ms': 2.613, 'grad_time_ms': 369.449, 'load_time_ms': 0.701}",1005,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+39599.89507818222,51388,8.000000400386284,1200,cda-server-2,39599.89507818222,f93d3d6710754a149751678a58e67540,118,1757094310,1207200,-47.0520243727852,2334300,{},10.157.146.2,False,{},2025-09-05_19-45-10,10.220338983050848,1207200,-5.59539944567808,0,35.26736259460449,1006,"{'default': {'policy_loss': -0.12736597657203674, 'vf_explained_var': 0.1686871498823166, 'vf_loss': 107.51569366455078, 'kl': 0.011410887353122234, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.209415435791016, 'total_loss': 107.44681549072266}, 'sample_time_ms': 34788.118, 'num_steps_trained': 1207200, 'num_steps_sampled': 1207200, 'update_time_ms': 2.652, 'grad_time_ms': 372.495, 'load_time_ms': 0.709}",1006,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+39634.71723365784,51499,8.000396923709282,1200,cda-server-2,39634.71723365784,f93d3d6710754a149751678a58e67540,111,1757094345,1208400,-67.1707817329749,2334300,{},10.157.146.2,False,{},2025-09-05_19-45-45,10.855855855855856,1208400,-6.556480729081873,0,34.822155475616455,1007,"{'default': {'policy_loss': -0.11739315092563629, 'vf_explained_var': 0.18068869411945343, 'vf_loss': 121.74674224853516, 'kl': 0.008407291024923325, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.787623882293701, 'total_loss': 121.67244720458984}, 'sample_time_ms': 34744.201, 'num_steps_trained': 1208400, 'num_steps_sampled': 1208400, 'update_time_ms': 2.649, 'grad_time_ms': 372.002, 'load_time_ms': 0.695}",1007,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+39669.48267173767,51612,8.000056649775857,1200,cda-server-2,39669.48267173767,f93d3d6710754a149751678a58e67540,113,1757094380,1209600,-82.53229145912238,2334300,{},10.157.146.2,False,{},2025-09-05_19-46-20,10.725663716814159,1209600,-6.554028036895432,0,34.765438079833984,1008,"{'default': {'policy_loss': -0.11799734085798264, 'vf_explained_var': 0.16473838686943054, 'vf_loss': 121.47684478759766, 'kl': 0.009925312362611294, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.055036544799805, 'total_loss': 121.40972137451172}, 'sample_time_ms': 34707.467, 'num_steps_trained': 1209600, 'num_steps_sampled': 1209600, 'update_time_ms': 2.662, 'grad_time_ms': 373.936, 'load_time_ms': 0.698}",1008,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+39705.37444639206,51751,8.000069987984592,1200,cda-server-2,39705.37444639206,f93d3d6710754a149751678a58e67540,139,1757094415,1210800,-57.63584118323821,2334300,{},10.157.146.2,False,{},2025-09-05_19-46-55,8.66906474820144,1210800,-3.316468041073165,0,35.89177465438843,1009,"{'default': {'policy_loss': -0.1173262894153595, 'vf_explained_var': 0.21324855089187622, 'vf_loss': 97.03105926513672, 'kl': 0.011609888635575771, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.569618225097656, 'total_loss': 96.9732437133789}, 'sample_time_ms': 34696.397, 'num_steps_trained': 1210800, 'num_steps_sampled': 1210800, 'update_time_ms': 2.691, 'grad_time_ms': 373.903, 'load_time_ms': 0.714}",1009,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+39740.44599699974,51864,8.000000400009503,1200,cda-server-2,39740.44599699974,f93d3d6710754a149751678a58e67540,113,1757094451,1212000,-50.92257999912057,2334300,{},10.157.146.2,False,{},2025-09-05_19-47-31,10.530973451327434,1212000,-6.0884592660825,0,35.071550607681274,1010,"{'default': {'policy_loss': -0.1262667030096054, 'vf_explained_var': 0.1456984430551529, 'vf_loss': 112.94868469238281, 'kl': 0.00968917552381754, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.620930194854736, 'total_loss': 112.87207794189453}, 'sample_time_ms': 34765.145, 'num_steps_trained': 1212000, 'num_steps_sampled': 1212000, 'update_time_ms': 2.703, 'grad_time_ms': 376.547, 'load_time_ms': 0.721}",1010,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+39775.09530830383,51973,8.000000406285139,1200,cda-server-2,39775.09530830383,f93d3d6710754a149751678a58e67540,109,1757094485,1213200,-43.31134247157332,2334300,{},10.157.146.2,False,{},2025-09-05_19-48-05,11.091743119266056,1213200,-6.847959231873455,0,34.64931130409241,1011,"{'default': {'policy_loss': -0.11260345578193665, 'vf_explained_var': 0.18726283311843872, 'vf_loss': 100.41763305664062, 'kl': 0.009533231146633625, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.301562309265137, 'total_loss': 100.35389709472656}, 'sample_time_ms': 34719.695, 'num_steps_trained': 1213200, 'num_steps_sampled': 1213200, 'update_time_ms': 2.697, 'grad_time_ms': 375.562, 'load_time_ms': 0.705}",1011,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+39810.16910934448,52085,8.000134166862535,1200,cda-server-2,39810.16910934448,f93d3d6710754a149751678a58e67540,112,1757094520,1214400,-64.02702995619201,2334300,{},10.157.146.2,False,{},2025-09-05_19-48-40,10.6875,1214400,-6.301906864684825,0,35.073801040649414,1012,"{'default': {'policy_loss': -0.11655872315168381, 'vf_explained_var': 0.18281462788581848, 'vf_loss': 116.21088409423828, 'kl': 0.010553963482379913, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.227710723876953, 'total_loss': 116.14842224121094}, 'sample_time_ms': 34687.279, 'num_steps_trained': 1214400, 'num_steps_sampled': 1214400, 'update_time_ms': 2.721, 'grad_time_ms': 377.332, 'load_time_ms': 0.698}",1012,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+39845.1806845665,52191,8.000000400001262,1200,cda-server-2,39845.1806845665,f93d3d6710754a149751678a58e67540,106,1757094555,1215600,-57.637087207483845,2334300,{},10.157.146.2,False,{},2025-09-05_19-49-15,11.283018867924529,1215600,-7.5288101584928775,0,35.01157522201538,1013,"{'default': {'policy_loss': -0.12201055139303207, 'vf_explained_var': 0.18668478727340698, 'vf_loss': 127.51358032226562, 'kl': 0.0093972934409976, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.705888748168945, 'total_loss': 127.43975067138672}, 'sample_time_ms': 34624.066, 'num_steps_trained': 1215600, 'num_steps_sampled': 1215600, 'update_time_ms': 2.737, 'grad_time_ms': 379.009, 'load_time_ms': 0.719}",1013,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+39880.258697748184,52311,8.000011058423718,1200,cda-server-2,39880.258697748184,f93d3d6710754a149751678a58e67540,120,1757094591,1216800,-48.674666072623324,2334300,{},10.157.146.2,False,{},2025-09-05_19-49-51,9.975,1216800,-5.19077054794243,0,35.0780131816864,1014,"{'default': {'policy_loss': -0.12278946489095688, 'vf_explained_var': 0.2521761357784271, 'vf_loss': 109.3905029296875, 'kl': 0.008114282041788101, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.836617469787598, 'total_loss': 109.30931091308594}, 'sample_time_ms': 34661.126, 'num_steps_trained': 1216800, 'num_steps_sampled': 1216800, 'update_time_ms': 2.721, 'grad_time_ms': 378.631, 'load_time_ms': 0.718}",1014,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+39915.83313751221,52447,8.000041916386097,1200,cda-server-2,39915.83313751221,f93d3d6710754a149751678a58e67540,136,1757094626,1218000,-41.430982568276896,2334300,{},10.157.146.2,False,{},2025-09-05_19-50-26,8.764705882352942,1218000,-3.3806343572497735,0,35.57443976402283,1015,"{'default': {'policy_loss': -0.12102185189723969, 'vf_explained_var': 0.22100745141506195, 'vf_loss': 68.84326934814453, 'kl': 0.008382219821214676, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.873909950256348, 'total_loss': 68.76521301269531}, 'sample_time_ms': 34734.136, 'num_steps_trained': 1218000, 'num_steps_sampled': 1218000, 'update_time_ms': 2.725, 'grad_time_ms': 377.87, 'load_time_ms': 0.72}",1015,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+39950.8241713047,52567,6.001002642488916,1200,cda-server-2,39950.8241713047,f93d3d6710754a149751678a58e67540,120,1757094661,1219200,-54.51660730287064,2334300,{},10.157.146.2,False,{},2025-09-05_19-51-01,10.158333333333333,1219200,-5.588365168637196,0,34.99103379249573,1016,"{'default': {'policy_loss': -0.11806453764438629, 'vf_explained_var': 0.21244223415851593, 'vf_loss': 89.40074157714844, 'kl': 0.008776287548244, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.174655437469482, 'total_loss': 89.32766723632812}, 'sample_time_ms': 34706.818, 'num_steps_trained': 1219200, 'num_steps_sampled': 1219200, 'update_time_ms': 2.666, 'grad_time_ms': 377.623, 'load_time_ms': 0.717}",1016,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+39985.47155356407,52684,8.000000400849931,1200,cda-server-2,39985.47155356407,f93d3d6710754a149751678a58e67540,117,1757094696,1220400,-83.26804984339985,2334300,{},10.157.146.2,False,{},2025-09-05_19-51-36,10.136752136752136,1220400,-5.735085176319644,0,34.6473822593689,1017,"{'default': {'policy_loss': -0.1053687334060669, 'vf_explained_var': 0.16443416476249695, 'vf_loss': 175.12770080566406, 'kl': 0.0080116493627429, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.626365661621094, 'total_loss': 175.06341552734375}, 'sample_time_ms': 34686.876, 'num_steps_trained': 1220400, 'num_steps_sampled': 1220400, 'update_time_ms': 2.699, 'grad_time_ms': 380.055, 'load_time_ms': 0.722}",1017,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+40020.52464270592,52809,8.000510531229788,1200,cda-server-2,40020.52464270592,f93d3d6710754a149751678a58e67540,125,1757094731,1221600,-66.08877734444012,2334300,{},10.157.146.2,False,{},2025-09-05_19-52-11,9.608,1221600,-4.640873845386803,0,35.0530891418457,1018,"{'default': {'policy_loss': -0.11356696486473083, 'vf_explained_var': 0.18450692296028137, 'vf_loss': 111.24358367919922, 'kl': 0.00987870804965496, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.535920143127441, 'total_loss': 111.1806411743164}, 'sample_time_ms': 34715.591, 'num_steps_trained': 1221600, 'num_steps_sampled': 1221600, 'update_time_ms': 2.666, 'grad_time_ms': 380.146, 'load_time_ms': 0.723}",1018,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+40056.24958372116,52942,8.000004950869165,1200,cda-server-2,40056.24958372116,f93d3d6710754a149751678a58e67540,133,1757094767,1222800,-54.86451008853389,2334300,{},10.157.146.2,False,{},2025-09-05_19-52-47,8.93984962406015,1222800,-3.6422164088258238,0,35.72494101524353,1019,"{'default': {'policy_loss': -0.12925311923027039, 'vf_explained_var': 0.1853516846895218, 'vf_loss': 109.90841674804688, 'kl': 0.008610324002802372, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.0701422691345215, 'total_loss': 109.82329559326172}, 'sample_time_ms': 34698.03, 'num_steps_trained': 1222800, 'num_steps_sampled': 1222800, 'update_time_ms': 2.653, 'grad_time_ms': 381.018, 'load_time_ms': 0.711}",1019,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+40092.59021162987,53064,8.000041899248808,1200,cda-server-2,40092.59021162987,f93d3d6710754a149751678a58e67540,122,1757094803,1224000,-79.37541949356515,2334300,{},10.157.146.2,False,{},2025-09-05_19-53-23,10.024590163934427,1224000,-5.290580009977722,0,36.340627908706665,1020,"{'default': {'policy_loss': -0.11073529720306396, 'vf_explained_var': 0.18776416778564453, 'vf_loss': 137.03245544433594, 'kl': 0.009964900091290474, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.737940311431885, 'total_loss': 136.97280883789062}, 'sample_time_ms': 34825.781, 'num_steps_trained': 1224000, 'num_steps_sampled': 1224000, 'update_time_ms': 2.69, 'grad_time_ms': 380.108, 'load_time_ms': 0.702}",1020,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+40127.6789598465,53170,8.0000004000002,1200,cda-server-2,40127.6789598465,f93d3d6710754a149751678a58e67540,106,1757094838,1225200,-78.81715767600159,2334300,{},10.157.146.2,False,{},2025-09-05_19-53-58,11.169811320754716,1225200,-7.107736709210814,0,35.08874821662903,1021,"{'default': {'policy_loss': -0.11090486496686935, 'vf_explained_var': 0.17218273878097534, 'vf_loss': 168.43138122558594, 'kl': 0.009693119674921036, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.16059684753418, 'total_loss': 168.37017822265625}, 'sample_time_ms': 34870.661, 'num_steps_trained': 1225200, 'num_steps_sampled': 1225200, 'update_time_ms': 2.663, 'grad_time_ms': 379.262, 'load_time_ms': 0.71}",1021,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+40162.84873533249,53285,8.000000400008823,1200,cda-server-2,40162.84873533249,f93d3d6710754a149751678a58e67540,115,1757094873,1226400,-60.602833308527806,2334300,{},10.157.146.2,False,{},2025-09-05_19-54-33,10.513043478260869,1226400,-5.998016203211192,0,35.16977548599243,1022,"{'default': {'policy_loss': -0.1118575856089592, 'vf_explained_var': 0.15508580207824707, 'vf_loss': 115.34873962402344, 'kl': 0.010460966266691685, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.162425994873047, 'total_loss': 115.29049682617188}, 'sample_time_ms': 34883.113, 'num_steps_trained': 1226400, 'num_steps_sampled': 1226400, 'update_time_ms': 2.647, 'grad_time_ms': 376.394, 'load_time_ms': 0.716}",1022,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+40199.129377126694,53400,8.000063814481159,1200,cda-server-2,40199.129377126694,f93d3d6710754a149751678a58e67540,115,1757094910,1227600,-77.54721437528613,2334300,{},10.157.146.2,False,{},2025-09-05_19-55-10,10.547826086956523,1227600,-6.392630822774427,0,36.28064179420471,1023,"{'default': {'policy_loss': -0.1176893338561058, 'vf_explained_var': 0.17350077629089355, 'vf_loss': 122.32510375976562, 'kl': 0.009580309502780437, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.60577917098999, 'total_loss': 122.25650787353516}, 'sample_time_ms': 35010.225, 'num_steps_trained': 1227600, 'num_steps_sampled': 1227600, 'update_time_ms': 2.664, 'grad_time_ms': 376.206, 'load_time_ms': 0.697}",1023,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+40234.68657827377,53534,8.000134437486293,1200,cda-server-2,40234.68657827377,f93d3d6710754a149751678a58e67540,134,1757094945,1228800,-54.8508782778795,2334300,{},10.157.146.2,False,{},2025-09-05_19-55-45,8.73134328358209,1228800,-3.3702735837093254,0,35.55720114707947,1024,"{'default': {'policy_loss': -0.11748486012220383, 'vf_explained_var': 0.19588418304920197, 'vf_loss': 80.55392456054688, 'kl': 0.010630765929818153, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.998410701751709, 'total_loss': 80.49092102050781}, 'sample_time_ms': 35056.32, 'num_steps_trained': 1228800, 'num_steps_sampled': 1228800, 'update_time_ms': 2.669, 'grad_time_ms': 377.982, 'load_time_ms': 0.703}",1024,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+40269.827061891556,53643,8.00031541201582,1200,cda-server-2,40269.827061891556,f93d3d6710754a149751678a58e67540,109,1757094980,1230000,-51.32844231077337,2334300,{},10.157.146.2,False,{},2025-09-05_19-56-20,11.082568807339449,1230000,-7.036460106926032,0,35.14048361778259,1025,"{'default': {'policy_loss': -0.11964531987905502, 'vf_explained_var': 0.17039939761161804, 'vf_loss': 92.37580108642578, 'kl': 0.008815583772957325, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.890177249908447, 'total_loss': 92.30134582519531}, 'sample_time_ms': 35012.245, 'num_steps_trained': 1230000, 'num_steps_sampled': 1230000, 'update_time_ms': 2.662, 'grad_time_ms': 378.627, 'load_time_ms': 0.693}",1025,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+40305.436999082565,53763,8.000011475947982,1200,cda-server-2,40305.436999082565,f93d3d6710754a149751678a58e67540,120,1757095016,1231200,-65.51738204281365,2334300,{},10.157.146.2,False,{},2025-09-05_19-56-56,10.058333333333334,1231200,-5.322793312365081,0,35.60993719100952,1026,"{'default': {'policy_loss': -0.11418819427490234, 'vf_explained_var': 0.1728675663471222, 'vf_loss': 116.15583038330078, 'kl': 0.009147894568741322, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.746251583099365, 'total_loss': 116.08851623535156}, 'sample_time_ms': 35073.766, 'num_steps_trained': 1231200, 'num_steps_sampled': 1231200, 'update_time_ms': 2.686, 'grad_time_ms': 379.006, 'load_time_ms': 0.689}",1026,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+40340.25891637802,53886,8.000149077990526,1200,cda-server-2,40340.25891637802,f93d3d6710754a149751678a58e67540,123,1757095051,1232400,-51.60565718480936,2334300,{},10.157.146.2,False,{},2025-09-05_19-57-31,9.658536585365853,1232400,-4.641312694028664,0,34.82191729545593,1027,"{'default': {'policy_loss': -0.14180009067058563, 'vf_explained_var': 0.2099451720714569, 'vf_loss': 103.09793090820312, 'kl': 0.008545536547899246, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.870876789093018, 'total_loss': 102.99993896484375}, 'sample_time_ms': 35093.354, 'num_steps_trained': 1232400, 'num_steps_sampled': 1232400, 'update_time_ms': 2.672, 'grad_time_ms': 376.858, 'load_time_ms': 0.706}",1027,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+40376.79358148575,54021,8.000000401626524,1200,cda-server-2,40376.79358148575,f93d3d6710754a149751678a58e67540,135,1757095087,1233600,-79.2085795330216,2334300,{},10.157.146.2,False,{},2025-09-05_19-58-07,8.718518518518518,1233600,-3.3279849150323226,0,36.53466510772705,1028,"{'default': {'policy_loss': -0.11230724304914474, 'vf_explained_var': 0.18029066920280457, 'vf_loss': 148.50802612304688, 'kl': 0.010729004628956318, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.9943952560424805, 'total_loss': 148.45069885253906}, 'sample_time_ms': 35243.619, 'num_steps_trained': 1233600, 'num_steps_sampled': 1233600, 'update_time_ms': 2.658, 'grad_time_ms': 374.765, 'load_time_ms': 0.704}",1028,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+40412.09283709526,54155,8.001936257791789,1200,cda-server-2,40412.09283709526,f93d3d6710754a149751678a58e67540,134,1757095123,1234800,-48.09099275880552,2334300,{},10.157.146.2,False,{},2025-09-05_19-58-43,9.291044776119403,1234800,-4.107942779631605,0,35.29925560951233,1029,"{'default': {'policy_loss': -0.11871227622032166, 'vf_explained_var': 0.18198929727077484, 'vf_loss': 83.1883544921875, 'kl': 0.009757798165082932, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.518893718719482, 'total_loss': 83.11965942382812}, 'sample_time_ms': 35202.598, 'num_steps_trained': 1234800, 'num_steps_sampled': 1234800, 'update_time_ms': 2.63, 'grad_time_ms': 373.329, 'load_time_ms': 0.69}",1029,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+40447.491054058075,54289,8.000000400000046,1200,cda-server-2,40447.491054058075,f93d3d6710754a149751678a58e67540,134,1757095158,1236000,-47.71294907233244,2334300,{},10.157.146.2,False,{},2025-09-05_19-59-18,8.873134328358208,1236000,-3.470240840437279,0,35.39821696281433,1030,"{'default': {'policy_loss': -0.11132551729679108, 'vf_explained_var': 0.21414603292942047, 'vf_loss': 81.18731689453125, 'kl': 0.011050415225327015, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.352945804595947, 'total_loss': 81.13262939453125}, 'sample_time_ms': 35109.03, 'num_steps_trained': 1236000, 'num_steps_sampled': 1236000, 'update_time_ms': 2.552, 'grad_time_ms': 372.736, 'load_time_ms': 0.686}",1030,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+40482.65612626076,54413,8.000000401785224,1200,cda-server-2,40482.65612626076,f93d3d6710754a149751678a58e67540,124,1757095193,1237200,-51.13694156535555,2334300,{},10.157.146.2,False,{},2025-09-05_19-59-53,9.46774193548387,1237200,-4.421787023039511,0,35.165072202682495,1031,"{'default': {'policy_loss': -0.12594324350357056, 'vf_explained_var': 0.18285948038101196, 'vf_loss': 139.29452514648438, 'kl': 0.011808233335614204, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.83090877532959, 'total_loss': 139.2291259765625}, 'sample_time_ms': 35116.596, 'num_steps_trained': 1237200, 'num_steps_sampled': 1237200, 'update_time_ms': 2.562, 'grad_time_ms': 372.713, 'load_time_ms': 0.67}",1031,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+40517.39241194725,54530,8.000000400002131,1200,cda-server-2,40517.39241194725,f93d3d6710754a149751678a58e67540,117,1757095228,1238400,-81.39545945939345,2334300,{},10.157.146.2,False,{},2025-09-05_20-00-28,10.452991452991453,1238400,-6.200318047122293,0,34.73628568649292,1032,"{'default': {'policy_loss': -0.1176798865199089, 'vf_explained_var': 0.20239268243312836, 'vf_loss': 120.30303192138672, 'kl': 0.009352155029773712, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.131386756896973, 'total_loss': 120.2332763671875}, 'sample_time_ms': 35071.506, 'num_steps_trained': 1238400, 'num_steps_sampled': 1238400, 'update_time_ms': 2.589, 'grad_time_ms': 374.432, 'load_time_ms': 0.681}",1032,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+40552.79774928093,54642,8.000133957920465,1200,cda-server-2,40552.79774928093,f93d3d6710754a149751678a58e67540,112,1757095263,1239600,-55.65422354281951,2334300,{},10.157.146.2,False,{},2025-09-05_20-01-03,10.714285714285714,1239600,-6.453977553055487,0,35.4053373336792,1033,"{'default': {'policy_loss': -0.12005919963121414, 'vf_explained_var': 0.1625148355960846, 'vf_loss': 112.26841735839844, 'kl': 0.010208208113908768, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.053102493286133, 'total_loss': 112.20069122314453}, 'sample_time_ms': 34984.337, 'num_steps_trained': 1239600, 'num_steps_sampled': 1239600, 'update_time_ms': 2.564, 'grad_time_ms': 374.038, 'load_time_ms': 0.68}",1033,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+40588.46205163002,54773,10.0,1200,cda-server-2,40588.46205163002,f93d3d6710754a149751678a58e67540,131,1757095299,1240800,-53.01818122105274,2334300,{},10.157.146.2,False,{},2025-09-05_20-01-39,9.206106870229007,1240800,-4.10370842891107,0,35.664302349090576,1034,"{'default': {'policy_loss': -0.11435213685035706, 'vf_explained_var': 0.2355906367301941, 'vf_loss': 85.69188690185547, 'kl': 0.009141262620687485, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.411165237426758, 'total_loss': 85.62439727783203}, 'sample_time_ms': 34995.661, 'num_steps_trained': 1240800, 'num_steps_sampled': 1240800, 'update_time_ms': 2.581, 'grad_time_ms': 373.436, 'load_time_ms': 0.671}",1034,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+40623.42974758148,54900,8.000000400002913,1200,cda-server-2,40623.42974758148,f93d3d6710754a149751678a58e67540,127,1757095334,1242000,-63.78111793082125,2334300,{},10.157.146.2,False,{},2025-09-05_20-02-14,9.464566929133857,1242000,-4.393343248997501,0,34.96769595146179,1035,"{'default': {'policy_loss': -0.12851423025131226, 'vf_explained_var': 0.17829497158527374, 'vf_loss': 112.65576171875, 'kl': 0.009569581598043442, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.769487380981445, 'total_loss': 112.57630920410156}, 'sample_time_ms': 34977.515, 'num_steps_trained': 1242000, 'num_steps_sampled': 1242000, 'update_time_ms': 2.556, 'grad_time_ms': 374.354, 'load_time_ms': 0.676}",1035,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+40659.47037982941,55009,6.000285758697301,1200,cda-server-2,40659.47037982941,f93d3d6710754a149751678a58e67540,109,1757095370,1243200,-80.93221570523681,2334300,{},10.157.146.2,False,{},2025-09-05_20-02-50,11.036697247706423,1243200,-6.966247130847303,0,36.040632247924805,1036,"{'default': {'policy_loss': -0.1184500977396965, 'vf_explained_var': 0.13907983899116516, 'vf_loss': 139.88177490234375, 'kl': 0.00921716820448637, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.007726669311523, 'total_loss': 139.8105926513672}, 'sample_time_ms': 35023.167, 'num_steps_trained': 1243200, 'num_steps_sampled': 1243200, 'update_time_ms': 2.55, 'grad_time_ms': 371.754, 'load_time_ms': 0.678}",1036,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+40694.37775373459,55117,6.00098638972128,1200,cda-server-2,40694.37775373459,f93d3d6710754a149751678a58e67540,108,1757095405,1244400,-63.568951081746846,2334300,{},10.157.146.2,False,{},2025-09-05_20-03-25,11.064814814814815,1244400,-6.892803274411171,0,34.907373905181885,1037,"{'default': {'policy_loss': -0.11981259286403656, 'vf_explained_var': 0.19513291120529175, 'vf_loss': 144.25949096679688, 'kl': 0.008676042780280113, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.134295463562012, 'total_loss': 144.18417358398438}, 'sample_time_ms': 35030.429, 'num_steps_trained': 1244400, 'num_steps_sampled': 1244400, 'update_time_ms': 2.548, 'grad_time_ms': 373.079, 'load_time_ms': 0.676}",1037,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+40729.25972223282,55236,8.000293292364185,1200,cda-server-2,40729.25972223282,f93d3d6710754a149751678a58e67540,119,1757095440,1245600,-61.28969406049369,2334300,{},10.157.146.2,False,{},2025-09-05_20-04-00,9.974789915966387,1245600,-5.1005725232343115,0,34.88196849822998,1038,"{'default': {'policy_loss': -0.11620084196329117, 'vf_explained_var': 0.20995210111141205, 'vf_loss': 96.24845886230469, 'kl': 0.011713325046002865, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.321390151977539, 'total_loss': 96.19229888916016}, 'sample_time_ms': 34862.578, 'num_steps_trained': 1245600, 'num_steps_sampled': 1245600, 'update_time_ms': 2.58, 'grad_time_ms': 375.664, 'load_time_ms': 0.672}",1038,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+40767.1727142334,55357,8.000099198799077,1200,cda-server-2,40767.1727142334,f93d3d6710754a149751678a58e67540,121,1757095478,1246800,-64.55012179654511,2334300,{},10.157.146.2,False,{},2025-09-05_20-04-38,9.975206611570249,1246800,-5.1413428559538765,0,37.912992000579834,1039,"{'default': {'policy_loss': -0.1184704452753067, 'vf_explained_var': 0.1825794130563736, 'vf_loss': 95.18687438964844, 'kl': 0.009322736412286758, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.9169464111328125, 'total_loss': 95.11619567871094}, 'sample_time_ms': 35123.523, 'num_steps_trained': 1246800, 'num_steps_sampled': 1246800, 'update_time_ms': 2.601, 'grad_time_ms': 376.03, 'load_time_ms': 0.676}",1039,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+40803.9327480793,55460,8.000058673160007,1200,cda-server-2,40803.9327480793,f93d3d6710754a149751678a58e67540,103,1757095515,1248000,-63.83848170057922,2334300,{},10.157.146.2,False,{},2025-09-05_20-05-15,11.485436893203884,1248000,-7.5367095206128925,0,36.76003384590149,1040,"{'default': {'policy_loss': -0.13233858346939087, 'vf_explained_var': 0.19920474290847778, 'vf_loss': 130.42388916015625, 'kl': 0.009596601128578186, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.164429664611816, 'total_loss': 130.3407440185547}, 'sample_time_ms': 35260.477, 'num_steps_trained': 1248000, 'num_steps_sampled': 1248000, 'update_time_ms': 2.641, 'grad_time_ms': 375.293, 'load_time_ms': 0.68}",1040,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+40838.975217580795,55590,8.00000040000366,1200,cda-server-2,40838.975217580795,f93d3d6710754a149751678a58e67540,130,1757095550,1249200,-45.814246209250655,2334300,{},10.157.146.2,False,{},2025-09-05_20-05-50,9.407692307692308,1249200,-4.380635225759338,0,35.04246950149536,1041,"{'default': {'policy_loss': -0.12559056282043457, 'vf_explained_var': 0.20404785871505737, 'vf_loss': 97.23377990722656, 'kl': 0.01021752692759037, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.134868144989014, 'total_loss': 97.16055297851562}, 'sample_time_ms': 35247.937, 'num_steps_trained': 1249200, 'num_steps_sampled': 1249200, 'update_time_ms': 2.582, 'grad_time_ms': 375.703, 'load_time_ms': 0.69}",1041,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+40874.06280565262,55709,8.00004472288164,1200,cda-server-2,40874.06280565262,f93d3d6710754a149751678a58e67540,119,1757095585,1250400,-66.5417554422719,2334300,{},10.157.146.2,False,{},2025-09-05_20-06-25,10.084033613445378,1250400,-5.332353113295943,0,35.08758807182312,1042,"{'default': {'policy_loss': -0.12370876222848892, 'vf_explained_var': 0.2230892926454544, 'vf_loss': 106.26766967773438, 'kl': 0.008196087554097176, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.24982738494873, 'total_loss': 106.18596649169922}, 'sample_time_ms': 35284.69, 'num_steps_trained': 1250400, 'num_steps_sampled': 1250400, 'update_time_ms': 2.53, 'grad_time_ms': 374.14, 'load_time_ms': 0.679}",1042,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+40909.30058979988,55820,8.000000400000243,1200,cda-server-2,40909.30058979988,f93d3d6710754a149751678a58e67540,111,1757095620,1251600,-78.86868343212043,2334300,{},10.157.146.2,False,{},2025-09-05_20-07-00,10.846846846846846,1251600,-6.646824575108271,0,35.23778414726257,1043,"{'default': {'policy_loss': -0.11732237786054611, 'vf_explained_var': 0.17906194925308228, 'vf_loss': 148.35316467285156, 'kl': 0.011110532097518444, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.139554023742676, 'total_loss': 148.29278564453125}, 'sample_time_ms': 35267.15, 'num_steps_trained': 1251600, 'num_steps_sampled': 1251600, 'update_time_ms': 2.522, 'grad_time_ms': 374.976, 'load_time_ms': 0.681}",1043,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+40946.23479652405,55947,8.00000040002894,1200,cda-server-2,40946.23479652405,f93d3d6710754a149751678a58e67540,127,1757095657,1252800,-78.98343378037151,2334300,{},10.157.146.2,False,{},2025-09-05_20-07-37,9.21259842519685,1252800,-4.3214557719008395,0,36.93420672416687,1044,"{'default': {'policy_loss': -0.11031360924243927, 'vf_explained_var': 0.1598307490348816, 'vf_loss': 170.56976318359375, 'kl': 0.008773012086749077, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.279062271118164, 'total_loss': 170.50442504882812}, 'sample_time_ms': 35395.135, 'num_steps_trained': 1252800, 'num_steps_sampled': 1252800, 'update_time_ms': 2.503, 'grad_time_ms': 374.0, 'load_time_ms': 0.683}",1044,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+40983.05739927292,56102,6.000998991365988,1200,cda-server-2,40983.05739927292,f93d3d6710754a149751678a58e67540,155,1757095694,1254000,-56.34554949454666,2334300,{},10.157.146.2,False,{},2025-09-05_20-08-14,7.95483870967742,1254000,-2.06610601044217,0,36.82260274887085,1045,"{'default': {'policy_loss': -0.10734494030475616, 'vf_explained_var': 0.22151429951190948, 'vf_loss': 65.84112548828125, 'kl': 0.009654716588556767, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.512316703796387, 'total_loss': 65.78327178955078}, 'sample_time_ms': 35581.859, 'num_steps_trained': 1254000, 'num_steps_sampled': 1254000, 'update_time_ms': 2.497, 'grad_time_ms': 372.759, 'load_time_ms': 0.673}",1045,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+41019.227496385574,56232,8.000044535605923,1200,cda-server-2,41019.227496385574,f93d3d6710754a149751678a58e67540,130,1757095730,1255200,-52.57377927107771,2334300,{},10.157.146.2,False,{},2025-09-05_20-08-50,9.176923076923076,1255200,-4.045636631220995,0,36.17009711265564,1046,"{'default': {'policy_loss': -0.12273495644330978, 'vf_explained_var': 0.20155508816242218, 'vf_loss': 86.79630279541016, 'kl': 0.010375716723501682, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.226247787475586, 'total_loss': 86.72675323486328}, 'sample_time_ms': 35593.162, 'num_steps_trained': 1255200, 'num_steps_sampled': 1255200, 'update_time_ms': 2.512, 'grad_time_ms': 374.394, 'load_time_ms': 0.68}",1046,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+41054.52377009392,56371,8.000000503388407,1200,cda-server-2,41054.52377009392,f93d3d6710754a149751678a58e67540,139,1757095765,1256400,-43.90959775523023,2334300,{},10.157.146.2,False,{},2025-09-05_20-09-25,8.446043165467627,1256400,-2.9009046487845365,0,35.296273708343506,1047,"{'default': {'policy_loss': -0.11975068598985672, 'vf_explained_var': 0.22147858142852783, 'vf_loss': 90.74801635742188, 'kl': 0.009266972541809082, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.872923851013184, 'total_loss': 90.67576599121094}, 'sample_time_ms': 35633.833, 'num_steps_trained': 1256400, 'num_steps_sampled': 1256400, 'update_time_ms': 2.52, 'grad_time_ms': 372.56, 'load_time_ms': 0.661}",1047,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+41090.441083431244,56508,8.000000400002737,1200,cda-server-2,41090.441083431244,f93d3d6710754a149751678a58e67540,137,1757095801,1257600,-54.84342617246065,2334300,{},10.157.146.2,False,{},2025-09-05_20-10-01,8.934306569343066,1257600,-3.6180227807818475,0,35.91731333732605,1048,"{'default': {'policy_loss': -0.1191975399851799, 'vf_explained_var': 0.1880951225757599, 'vf_loss': 103.31175231933594, 'kl': 0.008218889124691486, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.1010565757751465, 'total_loss': 103.23468017578125}, 'sample_time_ms': 35738.278, 'num_steps_trained': 1257600, 'num_steps_sampled': 1257600, 'update_time_ms': 2.51, 'grad_time_ms': 371.649, 'load_time_ms': 0.656}",1048,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+41125.60143017769,56636,8.000200313375244,1200,cda-server-2,41125.60143017769,f93d3d6710754a149751678a58e67540,128,1757095837,1258800,-55.072796120840664,2334300,{},10.157.146.2,False,{},2025-09-05_20-10-37,9.3671875,1258800,-4.243147006857502,0,35.1603467464447,1049,"{'default': {'policy_loss': -0.11013790220022202, 'vf_explained_var': 0.1655057817697525, 'vf_loss': 107.08817291259766, 'kl': 0.01004073303192854, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.295900821685791, 'total_loss': 107.02950286865234}, 'sample_time_ms': 35463.53, 'num_steps_trained': 1258800, 'num_steps_sampled': 1258800, 'update_time_ms': 2.502, 'grad_time_ms': 371.162, 'load_time_ms': 0.662}",1049,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+41160.7089099884,56764,8.000276487822415,1200,cda-server-2,41160.7089099884,f93d3d6710754a149751678a58e67540,128,1757095872,1260000,-49.633147082688204,2334300,{},10.157.146.2,False,{},2025-09-05_20-11-12,9.265625,1260000,-4.126519414506946,0,35.10747981071472,1050,"{'default': {'policy_loss': -0.12663142383098602, 'vf_explained_var': 0.21627479791641235, 'vf_loss': 82.06053161621094, 'kl': 0.010636978782713413, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.670612812042236, 'total_loss': 81.98841857910156}, 'sample_time_ms': 35298.886, 'num_steps_trained': 1260000, 'num_steps_sampled': 1260000, 'update_time_ms': 2.499, 'grad_time_ms': 370.55, 'load_time_ms': 0.661}",1050,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+41196.04637312889,56888,8.00000040000494,1200,cda-server-2,41196.04637312889,f93d3d6710754a149751678a58e67540,124,1757095907,1261200,-50.457111888677574,2334300,{},10.157.146.2,False,{},2025-09-05_20-11-47,9.637096774193548,1261200,-4.7511733331490635,0,35.33746314048767,1051,"{'default': {'policy_loss': -0.12067697942256927, 'vf_explained_var': 0.19408079981803894, 'vf_loss': 111.39344787597656, 'kl': 0.008586183190345764, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.56718635559082, 'total_loss': 111.31678771972656}, 'sample_time_ms': 35329.838, 'num_steps_trained': 1261200, 'num_steps_sampled': 1261200, 'update_time_ms': 2.507, 'grad_time_ms': 369.087, 'load_time_ms': 0.657}",1051,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+41231.15721988678,56997,8.000198033464496,1200,cda-server-2,41231.15721988678,f93d3d6710754a149751678a58e67540,109,1757095942,1262400,-62.421553364364144,2334300,{},10.157.146.2,False,{},2025-09-05_20-12-22,10.807339449541285,1262400,-6.6307220726423335,0,35.110846757888794,1052,"{'default': {'policy_loss': -0.12226208299398422, 'vf_explained_var': 0.17500878870487213, 'vf_loss': 151.01708984375, 'kl': 0.012344527058303356, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.52909517288208, 'total_loss': 150.95811462402344}, 'sample_time_ms': 35330.217, 'num_steps_trained': 1262400, 'num_steps_sampled': 1262400, 'update_time_ms': 2.498, 'grad_time_ms': 371.028, 'load_time_ms': 0.668}",1052,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+41267.185742378235,57133,6.000387479868269,1200,cda-server-2,41267.185742378235,f93d3d6710754a149751678a58e67540,136,1757095978,1263600,-60.860712053938826,2334300,{},10.157.146.2,False,{},2025-09-05_20-12-58,9.169117647058824,1263600,-4.035597778428455,0,36.02852249145508,1053,"{'default': {'policy_loss': -0.13224802911281586, 'vf_explained_var': 0.2464217096567154, 'vf_loss': 74.10342407226562, 'kl': 0.009003200568258762, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.8301239013671875, 'total_loss': 74.017333984375}, 'sample_time_ms': 35409.303, 'num_steps_trained': 1263600, 'num_steps_sampled': 1263600, 'update_time_ms': 2.516, 'grad_time_ms': 370.984, 'load_time_ms': 0.665}",1053,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+41301.817477703094,57244,8.001197962212727,1200,cda-server-2,41301.817477703094,f93d3d6710754a149751678a58e67540,111,1757096013,1264800,-77.82479665903884,2334300,{},10.157.146.2,False,{},2025-09-05_20-13-33,10.801801801801801,1264800,-6.57795757600819,0,34.63173532485962,1054,"{'default': {'policy_loss': -0.10911303758621216, 'vf_explained_var': 0.16294114291667938, 'vf_loss': 179.54388427734375, 'kl': 0.010218318551778793, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 8.047563552856445, 'total_loss': 179.48715209960938}, 'sample_time_ms': 35178.724, 'num_steps_trained': 1264800, 'num_steps_sampled': 1264800, 'update_time_ms': 2.566, 'grad_time_ms': 371.268, 'load_time_ms': 0.676}",1054,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+41336.650787353516,57363,8.000000400298262,1200,cda-server-2,41336.650787353516,f93d3d6710754a149751678a58e67540,119,1757096048,1266000,-77.18028581630251,2334300,{},10.157.146.2,False,{},2025-09-05_20-14-08,10.058823529411764,1266000,-5.457435013531364,0,34.83330965042114,1055,"{'default': {'policy_loss': -0.12005526572465897, 'vf_explained_var': 0.15100646018981934, 'vf_loss': 129.5213165283203, 'kl': 0.01158997043967247, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.5575714111328125, 'total_loss': 129.46066284179688}, 'sample_time_ms': 34979.675, 'num_steps_trained': 1266000, 'num_steps_sampled': 1266000, 'update_time_ms': 2.579, 'grad_time_ms': 371.381, 'load_time_ms': 0.679}",1055,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+41372.50407910347,57501,6.00110953729403,1200,cda-server-2,41372.50407910347,f93d3d6710754a149751678a58e67540,138,1757096084,1267200,-37.270763665675354,2334300,{},10.157.146.2,False,{},2025-09-05_20-14-44,8.72463768115942,1267200,-3.3183964135222417,0,35.853291749954224,1056,"{'default': {'policy_loss': -0.11215106397867203, 'vf_explained_var': 0.2697192430496216, 'vf_loss': 60.97687530517578, 'kl': 0.008593219332396984, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.245663166046143, 'total_loss': 60.90877151489258}, 'sample_time_ms': 34949.534, 'num_steps_trained': 1267200, 'num_steps_sampled': 1267200, 'update_time_ms': 2.596, 'grad_time_ms': 369.844, 'load_time_ms': 0.676}",1056,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+41409.851729631424,57626,8.000000400083064,1200,cda-server-2,41409.851729631424,f93d3d6710754a149751678a58e67540,125,1757096121,1268400,-72.28020806319176,2334300,{},10.157.146.2,False,{},2025-09-05_20-15-21,9.632,1268400,-4.847342838001774,0,37.3476505279541,1057,"{'default': {'policy_loss': -0.11195116490125656, 'vf_explained_var': 0.19065706431865692, 'vf_loss': 118.64130401611328, 'kl': 0.009525300934910774, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.172064781188965, 'total_loss': 118.57817840576172}, 'sample_time_ms': 35152.917, 'num_steps_trained': 1268400, 'num_steps_sampled': 1268400, 'update_time_ms': 2.557, 'grad_time_ms': 371.679, 'load_time_ms': 0.683}",1057,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+41445.19121837616,57761,8.000056896739935,1200,cda-server-2,41445.19121837616,f93d3d6710754a149751678a58e67540,135,1757096156,1269600,-56.567404129656126,2334300,{},10.157.146.2,False,{},2025-09-05_20-15-56,8.540740740740741,1269600,-3.0290558198713438,0,35.33948874473572,1058,"{'default': {'policy_loss': -0.11635126173496246, 'vf_explained_var': 0.21215730905532837, 'vf_loss': 128.58676147460938, 'kl': 0.00819331780076027, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.121279239654541, 'total_loss': 128.5124053955078}, 'sample_time_ms': 35095.007, 'num_steps_trained': 1269600, 'num_steps_sampled': 1269600, 'update_time_ms': 2.559, 'grad_time_ms': 371.787, 'load_time_ms': 0.701}",1058,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+41480.16603708267,57884,8.000075927527607,1200,cda-server-2,41480.16603708267,f93d3d6710754a149751678a58e67540,123,1757096191,1270800,-78.40434634434773,2334300,{},10.157.146.2,False,{},2025-09-05_20-16-31,9.983739837398375,1270800,-5.285983727311681,0,34.97481870651245,1059,"{'default': {'policy_loss': -0.12235866487026215, 'vf_explained_var': 0.14354991912841797, 'vf_loss': 116.12594604492188, 'kl': 0.010377269238233566, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.576328754425049, 'total_loss': 116.05677795410156}, 'sample_time_ms': 35076.014, 'num_steps_trained': 1270800, 'num_steps_sampled': 1270800, 'update_time_ms': 2.578, 'grad_time_ms': 372.231, 'load_time_ms': 0.694}",1059,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+41515.44655895233,58010,8.000000450307626,1200,cda-server-2,41515.44655895233,f93d3d6710754a149751678a58e67540,126,1757096227,1272000,-43.849142801345174,2334300,{},10.157.146.2,False,{},2025-09-05_20-17-07,9.285714285714286,1272000,-4.160515174649674,0,35.280521869659424,1060,"{'default': {'policy_loss': -0.11926746368408203, 'vf_explained_var': 0.20589381456375122, 'vf_loss': 116.67868041992188, 'kl': 0.009465302340686321, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.709900856018066, 'total_loss': 116.60792541503906}, 'sample_time_ms': 35090.722, 'num_steps_trained': 1272000, 'num_steps_sampled': 1272000, 'update_time_ms': 2.527, 'grad_time_ms': 374.813, 'load_time_ms': 0.717}",1060,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+41550.62980937958,58147,8.000000916819427,1200,cda-server-2,41550.62980937958,f93d3d6710754a149751678a58e67540,137,1757096262,1273200,-51.59198077168121,2334300,{},10.157.146.2,False,{},2025-09-05_20-17-42,9.043795620437956,1273200,-3.7797708324371406,0,35.183250427246094,1061,"{'default': {'policy_loss': -0.11180783808231354, 'vf_explained_var': 0.20275749266147614, 'vf_loss': 103.89364624023438, 'kl': 0.008266907185316086, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.5630292892456055, 'total_loss': 103.82421875}, 'sample_time_ms': 35075.115, 'num_steps_trained': 1273200, 'num_steps_sampled': 1273200, 'update_time_ms': 2.563, 'grad_time_ms': 374.882, 'load_time_ms': 0.713}",1061,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+41585.724360227585,58278,8.000000400003982,1200,cda-server-2,41585.724360227585,f93d3d6710754a149751678a58e67540,131,1757096297,1274400,-52.05168337717201,2334300,{},10.157.146.2,False,{},2025-09-05_20-18-17,8.83206106870229,1274400,-3.4655284745583157,0,35.0945508480072,1062,"{'default': {'policy_loss': -0.11710090190172195, 'vf_explained_var': 0.2148493379354477, 'vf_loss': 111.39927673339844, 'kl': 0.008988143876194954, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.188352584838867, 'total_loss': 111.3282470703125}, 'sample_time_ms': 35075.372, 'num_steps_trained': 1274400, 'num_steps_sampled': 1274400, 'update_time_ms': 2.587, 'grad_time_ms': 372.912, 'load_time_ms': 0.697}",1062,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+41620.941140413284,58402,8.000000982353223,1200,cda-server-2,41620.941140413284,f93d3d6710754a149751678a58e67540,124,1757096332,1275600,-53.38241950303812,2334300,{},10.157.146.2,False,{},2025-09-05_20-18-52,10.137096774193548,1275600,-5.473334967682067,0,35.21678018569946,1063,"{'default': {'policy_loss': -0.12936630845069885, 'vf_explained_var': 0.19188624620437622, 'vf_loss': 88.34815216064453, 'kl': 0.009704195894300938, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.5122222900390625, 'total_loss': 88.26851654052734}, 'sample_time_ms': 34993.804, 'num_steps_trained': 1275600, 'num_steps_sampled': 1275600, 'update_time_ms': 2.599, 'grad_time_ms': 373.256, 'load_time_ms': 0.697}",1063,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+41656.395694971085,58518,10.0,1200,cda-server-2,41656.395694971085,f93d3d6710754a149751678a58e67540,116,1757096368,1276800,-80.6866162347679,2334300,{},10.157.146.2,False,{},2025-09-05_20-19-28,10.155172413793103,1276800,-5.826656657010764,0,35.45455455780029,1064,"{'default': {'policy_loss': -0.12001272290945053, 'vf_explained_var': 0.15609456598758698, 'vf_loss': 220.91310119628906, 'kl': 0.00914947409182787, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.562986373901367, 'total_loss': 220.83998107910156}, 'sample_time_ms': 35077.722, 'num_steps_trained': 1276800, 'num_steps_sampled': 1276800, 'update_time_ms': 2.56, 'grad_time_ms': 371.666, 'load_time_ms': 0.681}",1064,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+41691.35424852371,58643,8.000333094927754,1200,cda-server-2,41691.35424852371,f93d3d6710754a149751678a58e67540,125,1757096403,1278000,-47.29209606209032,2334300,{},10.157.146.2,False,{},2025-09-05_20-20-03,9.536,1278000,-4.543642213740744,0,34.95855355262756,1065,"{'default': {'policy_loss': -0.1410737782716751, 'vf_explained_var': 0.2363644391298294, 'vf_loss': 96.36259460449219, 'kl': 0.010430566035211086, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.431648254394531, 'total_loss': 96.27499389648438}, 'sample_time_ms': 35091.77, 'num_steps_trained': 1278000, 'num_steps_sampled': 1278000, 'update_time_ms': 2.545, 'grad_time_ms': 370.208, 'load_time_ms': 0.681}",1065,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+41727.36363649368,58778,10.0,1200,cda-server-2,41727.36363649368,f93d3d6710754a149751678a58e67540,135,1757096439,1279200,-77.5012370019609,2334300,{},10.157.146.2,False,{},2025-09-05_20-20-39,8.940740740740742,1279200,-3.804293825031862,0,36.0093879699707,1066,"{'default': {'policy_loss': -0.11944323033094406, 'vf_explained_var': 0.23260392248630524, 'vf_loss': 171.80661010742188, 'kl': 0.008570391684770584, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.19964075088501, 'total_loss': 171.73110961914062}, 'sample_time_ms': 35105.384, 'num_steps_trained': 1279200, 'num_steps_sampled': 1279200, 'update_time_ms': 2.568, 'grad_time_ms': 372.16, 'load_time_ms': 0.693}",1066,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+41762.610298871994,58902,8.000000401474878,1200,cda-server-2,41762.610298871994,f93d3d6710754a149751678a58e67540,124,1757096474,1280400,-78.19013986995664,2334300,{},10.157.146.2,False,{},2025-09-05_20-21-14,9.693548387096774,1280400,-4.827352404969679,0,35.24666237831116,1067,"{'default': {'policy_loss': -0.12285438925027847, 'vf_explained_var': 0.17052987217903137, 'vf_loss': 116.40573120117188, 'kl': 0.009920698590576649, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.29315710067749, 'total_loss': 116.33372497558594}, 'sample_time_ms': 34894.386, 'num_steps_trained': 1280400, 'num_steps_sampled': 1280400, 'update_time_ms': 2.601, 'grad_time_ms': 373.016, 'load_time_ms': 0.687}",1067,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+41798.39878773689,59027,8.000071110705829,1200,cda-server-2,41798.39878773689,f93d3d6710754a149751678a58e67540,125,1757096510,1281600,-62.38179721302777,2334300,{},10.157.146.2,False,{},2025-09-05_20-21-50,9.528,1281600,-4.560077272254501,0,35.78848886489868,1068,"{'default': {'policy_loss': -0.11153826117515564, 'vf_explained_var': 0.20338745415210724, 'vf_loss': 126.82374572753906, 'kl': 0.012118048034608364, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.281728744506836, 'total_loss': 126.77432250976562}, 'sample_time_ms': 34940.924, 'num_steps_trained': 1281600, 'num_steps_sampled': 1281600, 'update_time_ms': 2.599, 'grad_time_ms': 371.385, 'load_time_ms': 0.674}",1068,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+41833.812287807465,59159,8.000283318892707,1200,cda-server-2,41833.812287807465,f93d3d6710754a149751678a58e67540,132,1757096545,1282800,-75.44166220935838,2334300,{},10.157.146.2,False,{},2025-09-05_20-22-25,8.901515151515152,1282800,-3.6968572571382308,0,35.4135000705719,1069,"{'default': {'policy_loss': -0.09952572733163834, 'vf_explained_var': 0.17746132612228394, 'vf_loss': 132.6049041748047, 'kl': 0.008286849595606327, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.248167991638184, 'total_loss': 132.54783630371094}, 'sample_time_ms': 34985.092, 'num_steps_trained': 1282800, 'num_steps_sampled': 1282800, 'update_time_ms': 2.577, 'grad_time_ms': 371.11, 'load_time_ms': 0.678}",1069,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+41872.11049461365,59294,8.00000077595417,1200,cda-server-2,41872.11049461365,f93d3d6710754a149751678a58e67540,135,1757096583,1284000,-48.05873724125668,2334300,{},10.157.146.2,False,{},2025-09-05_20-23-03,9.14074074074074,1284000,-3.9019601414568923,0,38.29820680618286,1070,"{'default': {'policy_loss': -0.12597282230854034, 'vf_explained_var': 0.21041114628314972, 'vf_loss': 91.32200622558594, 'kl': 0.010119245387613773, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.265491962432861, 'total_loss': 91.2479019165039}, 'sample_time_ms': 35289.327, 'num_steps_trained': 1284000, 'num_steps_sampled': 1284000, 'update_time_ms': 2.574, 'grad_time_ms': 368.645, 'load_time_ms': 0.663}",1070,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+41908.83816361427,59434,8.000000400000046,1200,cda-server-2,41908.83816361427,f93d3d6710754a149751678a58e67540,140,1757096620,1285200,-79.2900062922291,2334300,{},10.157.146.2,False,{},2025-09-05_20-23-40,8.635714285714286,1285200,-3.2222741911800052,0,36.72766900062561,1071,"{'default': {'policy_loss': -0.109254851937294, 'vf_explained_var': 0.1875324547290802, 'vf_loss': 125.83356475830078, 'kl': 0.008466587401926517, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.827341079711914, 'total_loss': 125.7677001953125}, 'sample_time_ms': 35441.821, 'num_steps_trained': 1285200, 'num_steps_sampled': 1285200, 'update_time_ms': 2.674, 'grad_time_ms': 370.528, 'load_time_ms': 0.674}",1071,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+41945.20057320595,59555,8.000000400001667,1200,cda-server-2,41945.20057320595,f93d3d6710754a149751678a58e67540,121,1757096657,1286400,-79.52790803489921,2334300,{},10.157.146.2,False,{},2025-09-05_20-24-17,9.570247933884298,1286400,-4.80532638635113,0,36.362409591674805,1072,"{'default': {'policy_loss': -0.10741908103227615, 'vf_explained_var': 0.18882131576538086, 'vf_loss': 179.97898864746094, 'kl': 0.010098733939230442, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.3710479736328125, 'total_loss': 179.92333984375}, 'sample_time_ms': 35567.461, 'num_steps_trained': 1286400, 'num_steps_sampled': 1286400, 'update_time_ms': 2.66, 'grad_time_ms': 371.751, 'load_time_ms': 0.685}",1072,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+41980.1275165081,59675,8.000064806023785,1200,cda-server-2,41980.1275165081,f93d3d6710754a149751678a58e67540,120,1757096692,1287600,-55.8795666119115,2334300,{},10.157.146.2,False,{},2025-09-05_20-24-52,10.216666666666667,1287600,-5.674959504600669,0,34.92694330215454,1073,"{'default': {'policy_loss': -0.12031005322933197, 'vf_explained_var': 0.20284181833267212, 'vf_loss': 114.43069458007812, 'kl': 0.010766558349132538, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.263716697692871, 'total_loss': 114.36556243896484}, 'sample_time_ms': 35537.741, 'num_steps_trained': 1287600, 'num_steps_sampled': 1287600, 'update_time_ms': 2.645, 'grad_time_ms': 372.539, 'load_time_ms': 0.69}",1073,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+42016.3207359314,59818,10.0,1200,cda-server-2,42016.3207359314,f93d3d6710754a149751678a58e67540,143,1757096728,1288800,-43.83645077959735,2334300,{},10.157.146.2,False,{},2025-09-05_20-25-28,8.51048951048951,1288800,-3.0313032215501186,0,36.19321942329407,1074,"{'default': {'policy_loss': -0.11065176129341125, 'vf_explained_var': 0.27068936824798584, 'vf_loss': 70.537841796875, 'kl': 0.007973925210535526, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.67398738861084, 'total_loss': 70.46807098388672}, 'sample_time_ms': 35610.029, 'num_steps_trained': 1288800, 'num_steps_sampled': 1288800, 'update_time_ms': 2.636, 'grad_time_ms': 374.117, 'load_time_ms': 0.693}",1074,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+42052.30822491646,59958,8.000067763910895,1200,cda-server-2,42052.30822491646,f93d3d6710754a149751678a58e67540,140,1757096764,1290000,-80.07508209635861,2334300,{},10.157.146.2,False,{},2025-09-05_20-26-04,8.485714285714286,1290000,-3.039557093710984,0,35.987488985061646,1075,"{'default': {'policy_loss': -0.12343721836805344, 'vf_explained_var': 0.21450893580913544, 'vf_loss': 132.20042419433594, 'kl': 0.011243457905948162, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.641269683837891, 'total_loss': 132.13462829589844}, 'sample_time_ms': 35712.941, 'num_steps_trained': 1290000, 'num_steps_sampled': 1290000, 'update_time_ms': 2.634, 'grad_time_ms': 374.094, 'load_time_ms': 0.7}",1075,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+42088.01455783844,60098,8.000000434182386,1200,cda-server-2,42088.01455783844,f93d3d6710754a149751678a58e67540,140,1757096800,1291200,-52.91637758134284,2334300,{},10.157.146.2,False,{},2025-09-05_20-26-40,8.592857142857143,1291200,-3.136750504889308,0,35.70633292198181,1076,"{'default': {'policy_loss': -0.11185923218727112, 'vf_explained_var': 0.2403353899717331, 'vf_loss': 104.33921813964844, 'kl': 0.009285829961299896, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.6388373374938965, 'total_loss': 104.27495574951172}, 'sample_time_ms': 35683.752, 'num_steps_trained': 1291200, 'num_steps_sampled': 1291200, 'update_time_ms': 2.566, 'grad_time_ms': 373.077, 'load_time_ms': 0.673}",1076,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+42123.279482364655,60232,8.000000400001596,1200,cda-server-2,42123.279482364655,f93d3d6710754a149751678a58e67540,134,1757096835,1292400,-78.84071311385618,2334300,{},10.157.146.2,False,{},2025-09-05_20-27-15,8.865671641791044,1292400,-3.5544176863290224,0,35.2649245262146,1077,"{'default': {'policy_loss': -0.12819740176200867, 'vf_explained_var': 0.2021021544933319, 'vf_loss': 80.01117706298828, 'kl': 0.01030039507895708, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.9689812660217285, 'total_loss': 79.93577575683594}, 'sample_time_ms': 35685.376, 'num_steps_trained': 1292400, 'num_steps_sampled': 1292400, 'update_time_ms': 2.555, 'grad_time_ms': 373.262, 'load_time_ms': 0.677}",1077,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+42159.20250964165,60372,6.000519510175057,1200,cda-server-2,42159.20250964165,f93d3d6710754a149751678a58e67540,140,1757096871,1293600,-65.51413512190082,2334300,{},10.157.146.2,False,{},2025-09-05_20-27-51,8.714285714285714,1293600,-3.3123407574952,0,35.9230272769928,1078,"{'default': {'policy_loss': -0.09834770113229752, 'vf_explained_var': 0.18497559428215027, 'vf_loss': 111.51657104492188, 'kl': 0.014400129206478596, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.6758294105529785, 'total_loss': 111.49203491210938}, 'sample_time_ms': 35696.238, 'num_steps_trained': 1293600, 'num_steps_sampled': 1293600, 'update_time_ms': 2.552, 'grad_time_ms': 375.851, 'load_time_ms': 0.677}",1078,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+42195.324135541916,60501,6.001367741068022,1200,cda-server-2,42195.324135541916,f93d3d6710754a149751678a58e67540,129,1757096907,1294800,-53.0453721917425,2334300,{},10.157.146.2,False,{},2025-09-05_20-28-27,9.13953488372093,1294800,-3.9690229351590656,0,36.121625900268555,1079,"{'default': {'policy_loss': -0.1167866662144661, 'vf_explained_var': 0.2046145647764206, 'vf_loss': 85.98819732666016, 'kl': 0.013996820896863937, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.000118255615234, 'total_loss': 85.94316101074219}, 'sample_time_ms': 35766.574, 'num_steps_trained': 1294800, 'num_steps_sampled': 1294800, 'update_time_ms': 2.569, 'grad_time_ms': 376.271, 'load_time_ms': 0.676}",1079,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+42231.09437298775,60647,10.0,1200,cda-server-2,42231.09437298775,f93d3d6710754a149751678a58e67540,146,1757096943,1296000,-44.49540314762055,2334300,{},10.157.146.2,False,{},2025-09-05_20-29-03,8.41095890410959,1296000,-2.734161367835447,0,35.7702374458313,1080,"{'default': {'policy_loss': -0.11818502843379974, 'vf_explained_var': 0.2251957207918167, 'vf_loss': 71.02523040771484, 'kl': 0.008511380292475224, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.546383857727051, 'total_loss': 70.95068359375}, 'sample_time_ms': 35512.991, 'num_steps_trained': 1296000, 'num_steps_sampled': 1296000, 'update_time_ms': 2.569, 'grad_time_ms': 377.043, 'load_time_ms': 0.671}",1080,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+42266.43791389465,60788,8.000115823080291,1200,cda-server-2,42266.43791389465,f93d3d6710754a149751678a58e67540,141,1757096978,1297200,-67.27570786931865,2334300,{},10.157.146.2,False,{},2025-09-05_20-29-38,8.382978723404255,1297200,-2.7426025839566255,0,35.34354090690613,1081,"{'default': {'policy_loss': -0.1237930953502655, 'vf_explained_var': 0.2469831109046936, 'vf_loss': 117.54946899414062, 'kl': 0.009131606668233871, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.798279762268066, 'total_loss': 117.47248077392578}, 'sample_time_ms': 35375.817, 'num_steps_trained': 1297200, 'num_steps_sampled': 1297200, 'update_time_ms': 2.507, 'grad_time_ms': 375.856, 'load_time_ms': 0.66}",1081,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+42301.59221339226,60919,8.000000404252681,1200,cda-server-2,42301.59221339226,f93d3d6710754a149751678a58e67540,131,1757097013,1298400,-51.89359298381471,2334300,{},10.157.146.2,False,{},2025-09-05_20-30-13,9.099236641221374,1298400,-3.9716071122712813,0,35.15429949760437,1082,"{'default': {'policy_loss': -0.11831867694854736, 'vf_explained_var': 0.22194136679172516, 'vf_loss': 104.75618743896484, 'kl': 0.011364879086613655, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.22453498840332, 'total_loss': 104.69611358642578}, 'sample_time_ms': 35254.188, 'num_steps_trained': 1298400, 'num_steps_sampled': 1298400, 'update_time_ms': 2.528, 'grad_time_ms': 376.599, 'load_time_ms': 0.652}",1082,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+42336.82833600044,61034,8.000000400002303,1200,cda-server-2,42336.82833600044,f93d3d6710754a149751678a58e67540,115,1757097049,1299600,-49.896825728118586,2334300,{},10.157.146.2,False,{},2025-09-05_20-30-49,10.513043478260869,1299600,-6.032862231108034,0,35.236122608184814,1083,"{'default': {'policy_loss': -0.1212892159819603, 'vf_explained_var': 0.2048337757587433, 'vf_loss': 90.93865203857422, 'kl': 0.010053581558167934, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.321361064910889, 'total_loss': 90.86890411376953}, 'sample_time_ms': 35287.049, 'num_steps_trained': 1299600, 'num_steps_sampled': 1299600, 'update_time_ms': 2.552, 'grad_time_ms': 374.609, 'load_time_ms': 0.648}",1083,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+42372.8286447525,61184,8.00000040045841,1200,cda-server-2,42372.8286447525,f93d3d6710754a149751678a58e67540,150,1757097085,1300800,-49.7309833214901,2334300,{},10.157.146.2,False,{},2025-09-05_20-31-25,8.113333333333333,1300800,-2.2866453530491357,0,36.00030875205994,1084,"{'default': {'policy_loss': -0.1030973345041275, 'vf_explained_var': 0.24811100959777832, 'vf_loss': 74.7093505859375, 'kl': 0.008414510637521744, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.527060031890869, 'total_loss': 74.64938354492188}, 'sample_time_ms': 35269.349, 'num_steps_trained': 1300800, 'num_steps_sampled': 1300800, 'update_time_ms': 2.601, 'grad_time_ms': 372.949, 'load_time_ms': 0.65}",1084,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+42408.66818356514,61318,10.0,1200,cda-server-2,42408.66818356514,f93d3d6710754a149751678a58e67540,134,1757097120,1302000,-60.466993010756894,2334300,{},10.157.146.2,False,{},2025-09-05_20-32-00,8.970149253731343,1302000,-3.636736681418772,0,35.83953881263733,1085,"{'default': {'policy_loss': -0.11389321833848953, 'vf_explained_var': 0.23239199817180634, 'vf_loss': 119.16624450683594, 'kl': 0.009590145200490952, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.134589195251465, 'total_loss': 119.10150909423828}, 'sample_time_ms': 35252.125, 'num_steps_trained': 1302000, 'num_steps_sampled': 1302000, 'update_time_ms': 2.626, 'grad_time_ms': 375.279, 'load_time_ms': 0.651}",1085,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+42444.1878490448,61450,8.00000040018594,1200,cda-server-2,42444.1878490448,f93d3d6710754a149751678a58e67540,132,1757097156,1303200,-65.2641629448038,2334300,{},10.157.146.2,False,{},2025-09-05_20-32-36,8.734848484848484,1303200,-3.2600807540182566,0,35.519665479660034,1086,"{'default': {'policy_loss': -0.11555317044258118, 'vf_explained_var': 0.21168525516986847, 'vf_loss': 124.02194213867188, 'kl': 0.008155842311680317, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.340273380279541, 'total_loss': 123.94818878173828}, 'sample_time_ms': 35234.47, 'num_steps_trained': 1303200, 'num_steps_sampled': 1303200, 'update_time_ms': 2.673, 'grad_time_ms': 374.209, 'load_time_ms': 0.671}",1086,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+42480.953323841095,61591,6.001501195522495,1200,cda-server-2,42480.953323841095,f93d3d6710754a149751678a58e67540,141,1757097193,1304400,-52.22703102487445,2334300,{},10.157.146.2,False,{},2025-09-05_20-33-13,8.71631205673759,1304400,-3.2774762147618155,0,36.765474796295166,1087,"{'default': {'policy_loss': -0.11669519543647766, 'vf_explained_var': 0.23282299935817719, 'vf_loss': 81.48845672607422, 'kl': 0.009416457265615463, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.7736968994140625, 'total_loss': 81.42002868652344}, 'sample_time_ms': 35385.403, 'num_steps_trained': 1304400, 'num_steps_sampled': 1304400, 'update_time_ms': 2.66, 'grad_time_ms': 373.272, 'load_time_ms': 0.675}",1087,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+42516.86640071869,61731,8.000000402334573,1200,cda-server-2,42516.86640071869,f93d3d6710754a149751678a58e67540,140,1757097229,1305600,-49.2460514691344,2334300,{},10.157.146.2,False,{},2025-09-05_20-33-49,8.414285714285715,1305600,-2.884651536992989,0,35.913076877593994,1088,"{'default': {'policy_loss': -0.1109081581234932, 'vf_explained_var': 0.2348117232322693, 'vf_loss': 102.97415161132812, 'kl': 0.010714646428823471, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.711946487426758, 'total_loss': 102.91815948486328}, 'sample_time_ms': 35384.584, 'num_steps_trained': 1305600, 'num_steps_sampled': 1305600, 'update_time_ms': 2.677, 'grad_time_ms': 373.069, 'load_time_ms': 0.672}",1088,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+42552.591024398804,61886,8.000000412861471,1200,cda-server-2,42552.591024398804,f93d3d6710754a149751678a58e67540,155,1757097264,1306800,-45.76476021765449,2334300,{},10.157.146.2,False,{},2025-09-05_20-34-24,7.987096774193549,1306800,-2.0248307974696167,0,35.724623680114746,1089,"{'default': {'policy_loss': -0.11348438262939453, 'vf_explained_var': 0.3082660734653473, 'vf_loss': 60.99759292602539, 'kl': 0.008860092610120773, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.768611431121826, 'total_loss': 60.92952346801758}, 'sample_time_ms': 35345.161, 'num_steps_trained': 1306800, 'num_steps_sampled': 1306800, 'update_time_ms': 2.675, 'grad_time_ms': 372.768, 'load_time_ms': 0.672}",1089,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+42588.56548452377,62017,8.000000400002971,1200,cda-server-2,42588.56548452377,f93d3d6710754a149751678a58e67540,131,1757097300,1308000,-80.30596954560114,2334300,{},10.157.146.2,False,{},2025-09-05_20-35-00,9.091603053435115,1308000,-4.073057741699892,0,35.97446012496948,1090,"{'default': {'policy_loss': -0.1110319048166275, 'vf_explained_var': 0.19781824946403503, 'vf_loss': 180.512939453125, 'kl': 0.008027820847928524, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.037665843963623, 'total_loss': 180.44305419921875}, 'sample_time_ms': 35366.345, 'num_steps_trained': 1308000, 'num_steps_sampled': 1308000, 'update_time_ms': 2.75, 'grad_time_ms': 371.961, 'load_time_ms': 0.667}",1090,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+42625.37565255165,62165,8.000000400010265,1200,cda-server-2,42625.37565255165,f93d3d6710754a149751678a58e67540,148,1757097337,1309200,-49.89658849946591,2334300,{},10.157.146.2,False,{},2025-09-05_20-35-37,8.135135135135135,1309200,-2.384984145778279,0,36.81016802787781,1091,"{'default': {'policy_loss': -0.12089427560567856, 'vf_explained_var': 0.274739146232605, 'vf_loss': 70.15644073486328, 'kl': 0.010042572394013405, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.367823123931885, 'total_loss': 70.08702087402344}, 'sample_time_ms': 35512.436, 'num_steps_trained': 1309200, 'num_steps_sampled': 1309200, 'update_time_ms': 2.741, 'grad_time_ms': 372.583, 'load_time_ms': 0.672}",1091,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+42660.65102267265,62292,8.00000040000197,1200,cda-server-2,42660.65102267265,f93d3d6710754a149751678a58e67540,127,1757097373,1310400,-52.04242448726904,2334300,{},10.157.146.2,False,{},2025-09-05_20-36-13,9.433070866141732,1310400,-4.473913049274978,0,35.2753701210022,1092,"{'default': {'policy_loss': -0.11043056845664978, 'vf_explained_var': 0.22001896798610687, 'vf_loss': 84.71902465820312, 'kl': 0.008953817188739777, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.754337787628174, 'total_loss': 84.65448760986328}, 'sample_time_ms': 35524.677, 'num_steps_trained': 1310400, 'num_steps_sampled': 1310400, 'update_time_ms': 2.729, 'grad_time_ms': 372.49, 'load_time_ms': 0.677}",1092,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+42697.001002788544,62428,8.000000995516604,1200,cda-server-2,42697.001002788544,f93d3d6710754a149751678a58e67540,136,1757097409,1311600,-79.65409837660509,2334300,{},10.157.146.2,False,{},2025-09-05_20-36-49,8.735294117647058,1311600,-3.346421762767978,0,36.3499801158905,1093,"{'default': {'policy_loss': -0.11844143271446228, 'vf_explained_var': 0.21949909627437592, 'vf_loss': 123.94940948486328, 'kl': 0.008829833008348942, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.981110572814941, 'total_loss': 123.87625122070312}, 'sample_time_ms': 35635.462, 'num_steps_trained': 1311600, 'num_steps_sampled': 1311600, 'update_time_ms': 2.717, 'grad_time_ms': 373.114, 'load_time_ms': 0.683}",1093,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+42732.78098344803,62583,8.000382198920796,1200,cda-server-2,42732.78098344803,f93d3d6710754a149751678a58e67540,155,1757097445,1312800,-47.651618267429626,2334300,{},10.157.146.2,False,{},2025-09-05_20-37-25,7.832258064516129,1312800,-1.8649098979109486,0,35.77998065948486,1094,"{'default': {'policy_loss': -0.12002778053283691, 'vf_explained_var': 0.24213218688964844, 'vf_loss': 81.74490356445312, 'kl': 0.009204200468957424, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.0657830238342285, 'total_loss': 81.67205047607422}, 'sample_time_ms': 35610.621, 'num_steps_trained': 1312800, 'num_steps_sampled': 1312800, 'update_time_ms': 2.652, 'grad_time_ms': 375.869, 'load_time_ms': 0.701}",1094,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+42768.99532389641,62726,8.000066807470871,1200,cda-server-2,42768.99532389641,f93d3d6710754a149751678a58e67540,143,1757097481,1314000,-65.01098543364364,2334300,{},10.157.146.2,False,{},2025-09-05_20-38-01,8.265734265734265,1314000,-2.5515999712456,0,36.21434044837952,1095,"{'default': {'policy_loss': -0.10998924821615219, 'vf_explained_var': 0.28292515873908997, 'vf_loss': 70.76078033447266, 'kl': 0.010492037050426006, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.9502058029174805, 'total_loss': 70.70457458496094}, 'sample_time_ms': 35647.724, 'num_steps_trained': 1314000, 'num_steps_sampled': 1314000, 'update_time_ms': 2.68, 'grad_time_ms': 376.231, 'load_time_ms': 0.697}",1095,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+42805.03571295738,62871,8.00000040280208,1200,cda-server-2,42805.03571295738,f93d3d6710754a149751678a58e67540,145,1757097517,1315200,-54.05285927164357,2334300,{},10.157.146.2,False,{},2025-09-05_20-38-37,8.386206896551725,1315200,-2.8488842979648177,0,36.04038906097412,1096,"{'default': {'policy_loss': -0.1113915964961052, 'vf_explained_var': 0.2248203456401825, 'vf_loss': 91.30581665039062, 'kl': 0.009744285605847836, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.4739603996276855, 'total_loss': 91.24436950683594}, 'sample_time_ms': 35698.755, 'num_steps_trained': 1315200, 'num_steps_sampled': 1315200, 'update_time_ms': 2.656, 'grad_time_ms': 377.331, 'load_time_ms': 0.685}",1096,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+42841.37750124931,63007,8.000000401714102,1200,cda-server-2,42841.37750124931,f93d3d6710754a149751678a58e67540,136,1757097553,1316400,-77.75559441431464,2334300,{},10.157.146.2,False,{},2025-09-05_20-39-13,8.794117647058824,1316400,-3.4633309707642193,0,36.34178829193115,1097,"{'default': {'policy_loss': -0.09848064184188843, 'vf_explained_var': 0.22144925594329834, 'vf_loss': 110.82080841064453, 'kl': 0.009748435579240322, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.749791622161865, 'total_loss': 110.77228546142578}, 'sample_time_ms': 35655.631, 'num_steps_trained': 1316400, 'num_steps_sampled': 1316400, 'update_time_ms': 2.664, 'grad_time_ms': 378.169, 'load_time_ms': 0.679}",1097,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+42877.17415881157,63166,8.000000401038305,1200,cda-server-2,42877.17415881157,f93d3d6710754a149751678a58e67540,159,1757097589,1317600,-46.7754374524286,2334300,{},10.157.146.2,False,{},2025-09-05_20-39-49,7.59748427672956,1317600,-1.5497804875619363,0,35.79665756225586,1098,"{'default': {'policy_loss': -0.11270582675933838, 'vf_explained_var': 0.26408207416534424, 'vf_loss': 83.54415130615234, 'kl': 0.010333145037293434, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.149466514587402, 'total_loss': 83.48440551757812}, 'sample_time_ms': 35644.618, 'num_steps_trained': 1317600, 'num_steps_sampled': 1317600, 'update_time_ms': 2.641, 'grad_time_ms': 377.514, 'load_time_ms': 0.681}",1098,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+42912.428099155426,63307,8.000149472459793,1200,cda-server-2,42912.428099155426,f93d3d6710754a149751678a58e67540,141,1757097624,1318800,-62.148906897506336,2334300,{},10.157.146.2,False,{},2025-09-05_20-40-24,8.198581560283689,1318800,-2.4016964008411485,0,35.25394034385681,1099,"{'default': {'policy_loss': -0.10758190602064133, 'vf_explained_var': 0.1978403925895691, 'vf_loss': 121.09632873535156, 'kl': 0.010150027461349964, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.676185607910156, 'total_loss': 121.040771484375}, 'sample_time_ms': 35596.432, 'num_steps_trained': 1318800, 'num_steps_sampled': 1318800, 'update_time_ms': 2.642, 'grad_time_ms': 378.676, 'load_time_ms': 0.679}",1099,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+42950.98741054535,63472,8.000000403529219,1200,cda-server-2,42950.98741054535,f93d3d6710754a149751678a58e67540,165,1757097663,1320000,-56.531559330152135,2334300,{},10.157.146.2,False,{},2025-09-05_20-41-03,7.533333333333333,1320000,-1.4332951956198265,0,38.559311389923096,1100,"{'default': {'policy_loss': -0.11809691041707993, 'vf_explained_var': 0.28139472007751465, 'vf_loss': 60.30595397949219, 'kl': 0.009358993731439114, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.833959579467773, 'total_loss': 60.23583221435547}, 'sample_time_ms': 35854.949, 'num_steps_trained': 1320000, 'num_steps_sampled': 1320000, 'update_time_ms': 2.574, 'grad_time_ms': 378.704, 'load_time_ms': 0.687}",1100,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+42987.87524390221,63601,8.00012648203308,1200,cda-server-2,42987.87524390221,f93d3d6710754a149751678a58e67540,129,1757097700,1321200,-78.40551753757329,2334300,{},10.157.146.2,False,{},2025-09-05_20-41-40,9.286821705426357,1321200,-4.235664920492373,0,36.8878333568573,1101,"{'default': {'policy_loss': -0.10661876946687698, 'vf_explained_var': 0.21369491517543793, 'vf_loss': 130.22024536132812, 'kl': 0.008371442556381226, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.345346450805664, 'total_loss': 130.15655517578125}, 'sample_time_ms': 35862.43, 'num_steps_trained': 1321200, 'num_steps_sampled': 1321200, 'update_time_ms': 2.549, 'grad_time_ms': 379.031, 'load_time_ms': 0.693}",1101,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+43023.06867980957,63749,8.000000688904196,1200,cda-server-2,43023.06867980957,f93d3d6710754a149751678a58e67540,148,1757097735,1322400,-47.10473469355326,2334300,{},10.157.146.2,False,{},2025-09-05_20-42-15,8.175675675675675,1322400,-2.3489459996945983,0,35.19343590736389,1102,"{'default': {'policy_loss': -0.12146571278572083, 'vf_explained_var': 0.22572773694992065, 'vf_loss': 68.98062896728516, 'kl': 0.010499458760023117, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.126148700714111, 'total_loss': 68.91299438476562}, 'sample_time_ms': 35855.29, 'num_steps_trained': 1322400, 'num_steps_sampled': 1322400, 'update_time_ms': 2.569, 'grad_time_ms': 377.972, 'load_time_ms': 0.696}",1102,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+43058.34094595909,63883,6.0015993298377355,1200,cda-server-2,43058.34094595909,f93d3d6710754a149751678a58e67540,134,1757097770,1323600,-44.518652927583396,2334300,{},10.157.146.2,False,{},2025-09-05_20-42-50,8.932835820895523,1323600,-3.625644889523284,0,35.272266149520874,1103,"{'default': {'policy_loss': -0.12331215292215347, 'vf_explained_var': 0.2229992002248764, 'vf_loss': 87.96986389160156, 'kl': 0.009545990265905857, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.920879364013672, 'total_loss': 87.89547729492188}, 'sample_time_ms': 35747.087, 'num_steps_trained': 1323600, 'num_steps_sampled': 1323600, 'update_time_ms': 2.552, 'grad_time_ms': 378.386, 'load_time_ms': 0.705}",1103,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+43094.71951794624,64025,8.000688214054465,1200,cda-server-2,43094.71951794624,f93d3d6710754a149751678a58e67540,142,1757097807,1324800,-57.224372190894314,2334300,{},10.157.146.2,False,{},2025-09-05_20-43-27,8.316901408450704,1324800,-2.6316438855506505,0,36.3785719871521,1104,"{'default': {'policy_loss': -0.10680226236581802, 'vf_explained_var': 0.21493248641490936, 'vf_loss': 102.64627838134766, 'kl': 0.008653664961457253, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.596205711364746, 'total_loss': 102.5838394165039}, 'sample_time_ms': 35807.873, 'num_steps_trained': 1324800, 'num_steps_sampled': 1324800, 'update_time_ms': 2.598, 'grad_time_ms': 377.525, 'load_time_ms': 0.683}",1104,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+43130.16429257393,64162,8.000000431119146,1200,cda-server-2,43130.16429257393,f93d3d6710754a149751678a58e67540,137,1757097842,1326000,-57.49236614761924,2334300,{},10.157.146.2,False,{},2025-09-05_20-44-02,8.912408759124087,1326000,-3.533979763312978,0,35.44477462768555,1105,"{'default': {'policy_loss': -0.11288812756538391, 'vf_explained_var': 0.2617175877094269, 'vf_loss': 86.59912872314453, 'kl': 0.0074300444684922695, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.569180011749268, 'total_loss': 86.52432250976562}, 'sample_time_ms': 35732.214, 'num_steps_trained': 1326000, 'num_steps_sampled': 1326000, 'update_time_ms': 2.578, 'grad_time_ms': 376.294, 'load_time_ms': 0.686}",1105,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+43166.08525323868,64316,8.000000517524963,1200,cda-server-2,43166.08525323868,f93d3d6710754a149751678a58e67540,154,1757097878,1327200,-41.01165772116855,2334300,{},10.157.146.2,False,{},2025-09-05_20-44-38,7.6688311688311686,1327200,-1.557166012018153,0,35.920960664749146,1106,"{'default': {'policy_loss': -0.11553634703159332, 'vf_explained_var': 0.29436638951301575, 'vf_loss': 64.52594757080078, 'kl': 0.010516680777072906, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.343347072601318, 'total_loss': 64.46431732177734}, 'sample_time_ms': 35721.461, 'num_steps_trained': 1327200, 'num_steps_sampled': 1327200, 'update_time_ms': 2.551, 'grad_time_ms': 375.07, 'load_time_ms': 0.689}",1106,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+43201.37621879578,64455,8.000000400009188,1200,cda-server-2,43201.37621879578,f93d3d6710754a149751678a58e67540,139,1757097914,1328400,-79.0766988911277,2334300,{},10.157.146.2,False,{},2025-09-05_20-45-14,8.762589928057555,1328400,-3.3708506938154823,0,35.29096555709839,1107,"{'default': {'policy_loss': -0.10872405022382736, 'vf_explained_var': 0.22938373684883118, 'vf_loss': 115.94991302490234, 'kl': 0.007984415628015995, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.05879020690918, 'total_loss': 115.88211822509766}, 'sample_time_ms': 35617.762, 'num_steps_trained': 1328400, 'num_steps_sampled': 1328400, 'update_time_ms': 2.554, 'grad_time_ms': 373.654, 'load_time_ms': 0.704}",1107,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+43237.3716378212,64624,10.0,1200,cda-server-2,43237.3716378212,f93d3d6710754a149751678a58e67540,169,1757097950,1329600,-45.87521918190615,2334300,{},10.157.146.2,False,{},2025-09-05_20-45-50,6.988165680473373,1329600,-0.5067944021778978,0,35.99541902542114,1108,"{'default': {'policy_loss': -0.11187713593244553, 'vf_explained_var': 0.2759384214878082, 'vf_loss': 70.08200073242188, 'kl': 0.00859711691737175, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.7585272789001465, 'total_loss': 70.0141830444336}, 'sample_time_ms': 35636.633, 'num_steps_trained': 1329600, 'num_steps_sampled': 1329600, 'update_time_ms': 2.572, 'grad_time_ms': 374.653, 'load_time_ms': 0.714}",1108,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+43272.77924323082,64771,8.000000400413729,1200,cda-server-2,43272.77924323082,f93d3d6710754a149751678a58e67540,147,1757097985,1330800,-45.014674589067255,2334300,{},10.157.146.2,False,{},2025-09-05_20-46-25,8.129251700680273,1330800,-2.352876465671785,0,35.40760540962219,1109,"{'default': {'policy_loss': -0.1227853000164032, 'vf_explained_var': 0.2561333179473877, 'vf_loss': 80.70484924316406, 'kl': 0.009166101925075054, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.298035144805908, 'total_loss': 80.62904357910156}, 'sample_time_ms': 35654.334, 'num_steps_trained': 1330800, 'num_steps_sampled': 1330800, 'update_time_ms': 2.574, 'grad_time_ms': 372.312, 'load_time_ms': 0.723}",1109,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+43308.667385578156,64941,6.001327662933232,1200,cda-server-2,43308.667385578156,f93d3d6710754a149751678a58e67540,170,1757098021,1332000,-50.242242787596325,2334300,{},10.157.146.2,False,{},2025-09-05_20-47-01,7.117647058823529,1332000,-0.7901402301671472,0,35.888142347335815,1110,"{'default': {'policy_loss': -0.10116276890039444, 'vf_explained_var': 0.29253238439559937, 'vf_loss': 54.23419189453125, 'kl': 0.0077062007039785385, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.585482597351074, 'total_loss': 54.17253112792969}, 'sample_time_ms': 35385.299, 'num_steps_trained': 1332000, 'num_steps_sampled': 1332000, 'update_time_ms': 2.581, 'grad_time_ms': 374.228, 'load_time_ms': 0.722}",1110,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+43344.46444749832,65098,8.00006015261268,1200,cda-server-2,43344.46444749832,f93d3d6710754a149751678a58e67540,157,1757098057,1333200,-36.59099731735716,2334300,{},10.157.146.2,False,{},2025-09-05_20-47-37,7.681528662420382,1333200,-1.6786316171711098,0,35.797061920166016,1111,"{'default': {'policy_loss': -0.11855198442935944, 'vf_explained_var': 0.2934369444847107, 'vf_loss': 51.864078521728516, 'kl': 0.008273550309240818, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.979532241821289, 'total_loss': 51.787940979003906}, 'sample_time_ms': 35278.209, 'num_steps_trained': 1333200, 'num_steps_sampled': 1333200, 'update_time_ms': 2.623, 'grad_time_ms': 372.177, 'load_time_ms': 0.712}",1111,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+43380.50054240227,65247,8.00021254317517,1200,cda-server-2,43380.50054240227,f93d3d6710754a149751678a58e67540,149,1757098093,1334400,-76.08345309589066,2334300,{},10.157.146.2,False,{},2025-09-05_20-48-13,8.080536912751677,1334400,-2.311323979507067,0,36.03609490394592,1112,"{'default': {'policy_loss': -0.12054930627346039, 'vf_explained_var': 0.27298790216445923, 'vf_loss': 75.5219497680664, 'kl': 0.009227766655385494, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.091401100158691, 'total_loss': 75.4487075805664}, 'sample_time_ms': 35361.493, 'num_steps_trained': 1334400, 'num_steps_sampled': 1334400, 'update_time_ms': 2.612, 'grad_time_ms': 373.127, 'load_time_ms': 0.711}",1112,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+43416.76354146004,65405,8.000023806545983,1200,cda-server-2,43416.76354146004,f93d3d6710754a149751678a58e67540,158,1757098129,1335600,-30.855592919382353,2334300,{},10.157.146.2,False,{},2025-09-05_20-48-49,7.506329113924051,1335600,-1.3099020701709592,0,36.262999057769775,1113,"{'default': {'policy_loss': -0.12001457810401917, 'vf_explained_var': 0.2881053686141968, 'vf_loss': 40.66267776489258, 'kl': 0.010087944567203522, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.902350425720215, 'total_loss': 40.59437561035156}, 'sample_time_ms': 35460.106, 'num_steps_trained': 1335600, 'num_steps_sampled': 1335600, 'update_time_ms': 2.642, 'grad_time_ms': 373.492, 'load_time_ms': 0.708}",1113,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+43453.42825818062,65563,8.000019713412215,1200,cda-server-2,43453.42825818062,f93d3d6710754a149751678a58e67540,158,1757098166,1336800,-53.68824352696656,2334300,{},10.157.146.2,False,{},2025-09-05_20-49-26,7.569620253164557,1336800,-1.4136464257440131,0,36.664716720581055,1114,"{'default': {'policy_loss': -0.10779277235269547, 'vf_explained_var': 0.260213166475296, 'vf_loss': 91.63850402832031, 'kl': 0.009945289231836796, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.246363639831543, 'total_loss': 91.58168029785156}, 'sample_time_ms': 35487.352, 'num_steps_trained': 1336800, 'num_steps_sampled': 1336800, 'update_time_ms': 2.638, 'grad_time_ms': 374.833, 'load_time_ms': 0.724}",1114,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+43490.84612059593,65729,8.000000400000019,1200,cda-server-2,43490.84612059593,f93d3d6710754a149751678a58e67540,166,1757098203,1338000,-45.106097141938356,2334300,{},10.157.146.2,False,{},2025-09-05_20-50-03,7.36144578313253,1338000,-1.135496458720861,0,37.41786241531372,1115,"{'default': {'policy_loss': -0.10367204248905182, 'vf_explained_var': 0.2758467495441437, 'vf_loss': 67.42716217041016, 'kl': 0.011756055988371372, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.715150833129883, 'total_loss': 67.38375854492188}, 'sample_time_ms': 35686.431, 'num_steps_trained': 1338000, 'num_steps_sampled': 1338000, 'update_time_ms': 2.628, 'grad_time_ms': 373.073, 'load_time_ms': 0.721}",1115,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+43525.94840812683,65870,8.000031795495074,1200,cda-server-2,43525.94840812683,f93d3d6710754a149751678a58e67540,141,1757098238,1339200,-50.78357310681173,2334300,{},10.157.146.2,False,{},2025-09-05_20-50-38,8.333333333333334,1339200,-2.7145886184806103,0,35.10228753089905,1116,"{'default': {'policy_loss': -0.10956326127052307, 'vf_explained_var': 0.2253270447254181, 'vf_loss': 100.20775604248047, 'kl': 0.007961827330291271, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.300909042358398, 'total_loss': 100.13900756835938}, 'sample_time_ms': 35604.976, 'num_steps_trained': 1339200, 'num_steps_sampled': 1339200, 'update_time_ms': 2.64, 'grad_time_ms': 372.669, 'load_time_ms': 0.721}",1116,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+43561.30755329132,66020,8.000001158549473,1200,cda-server-2,43561.30755329132,f93d3d6710754a149751678a58e67540,150,1757098274,1340400,-77.3359222787567,2334300,{},10.157.146.2,False,{},2025-09-05_20-51-14,8.106666666666667,1340400,-2.3495291550253112,0,35.359145164489746,1117,"{'default': {'policy_loss': -0.10850787907838821, 'vf_explained_var': 0.2148330956697464, 'vf_loss': 116.01375579833984, 'kl': 0.009563427418470383, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.493383407592773, 'total_loss': 115.95426177978516}, 'sample_time_ms': 35611.391, 'num_steps_trained': 1340400, 'num_steps_sampled': 1340400, 'update_time_ms': 2.641, 'grad_time_ms': 373.063, 'load_time_ms': 0.712}",1117,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+43596.97402238846,66150,8.000000400376793,1200,cda-server-2,43596.97402238846,f93d3d6710754a149751678a58e67540,130,1757098309,1341600,-54.779643684788184,2334300,{},10.157.146.2,False,{},2025-09-05_20-51-49,9.284615384615385,1341600,-4.1001848716959755,0,35.66646909713745,1118,"{'default': {'policy_loss': -0.12645862996578217, 'vf_explained_var': 0.21087366342544556, 'vf_loss': 98.35709381103516, 'kl': 0.008595763705670834, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.339541912078857, 'total_loss': 98.27470397949219}, 'sample_time_ms': 35579.078, 'num_steps_trained': 1341600, 'num_steps_sampled': 1341600, 'update_time_ms': 2.628, 'grad_time_ms': 372.478, 'load_time_ms': 0.706}",1118,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+43632.51995110512,66288,8.000000400069036,1200,cda-server-2,43632.51995110512,f93d3d6710754a149751678a58e67540,138,1757098345,1342800,-43.670595409902525,2334300,{},10.157.146.2,False,{},2025-09-05_20-52-25,8.695652173913043,1342800,-3.234186972258206,0,35.545928716659546,1119,"{'default': {'policy_loss': -0.1208619549870491, 'vf_explained_var': 0.24184635281562805, 'vf_loss': 83.70880889892578, 'kl': 0.008547261357307434, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.566776275634766, 'total_loss': 83.63175201416016}, 'sample_time_ms': 35591.946, 'num_steps_trained': 1342800, 'num_steps_sampled': 1342800, 'update_time_ms': 2.654, 'grad_time_ms': 373.403, 'load_time_ms': 0.702}",1119,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+43668.63228034973,66449,8.000003988997879,1200,cda-server-2,43668.63228034973,f93d3d6710754a149751678a58e67540,161,1757098381,1344000,-58.897515784735404,2334300,{},10.157.146.2,False,{},2025-09-05_20-53-01,7.46583850931677,1344000,-1.2871202673303304,0,36.11232924461365,1120,"{'default': {'policy_loss': -0.10646515339612961, 'vf_explained_var': 0.24858437478542328, 'vf_loss': 97.43537139892578, 'kl': 0.0073514110408723354, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.896732330322266, 'total_loss': 97.3666000366211}, 'sample_time_ms': 35614.415, 'num_steps_trained': 1344000, 'num_steps_sampled': 1344000, 'update_time_ms': 2.636, 'grad_time_ms': 373.352, 'load_time_ms': 0.7}",1120,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+43704.56151151657,66611,8.000000405966833,1200,cda-server-2,43704.56151151657,f93d3d6710754a149751678a58e67540,162,1757098417,1345200,-41.56077088799097,2334300,{},10.157.146.2,False,{},2025-09-05_20-53-37,7.364197530864198,1345200,-1.1766620129925067,0,35.9292311668396,1121,"{'default': {'policy_loss': -0.10625819116830826, 'vf_explained_var': 0.25181642174720764, 'vf_loss': 78.63200378417969, 'kl': 0.00846436433494091, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.8762383460998535, 'total_loss': 78.56912994384766}, 'sample_time_ms': 35627.376, 'num_steps_trained': 1345200, 'num_steps_sampled': 1345200, 'update_time_ms': 2.566, 'grad_time_ms': 373.678, 'load_time_ms': 0.703}",1121,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+43740.46058344841,66766,8.000092574621643,1200,cda-server-2,43740.46058344841,f93d3d6710754a149751678a58e67540,155,1757098453,1346400,-47.26566926890168,2334300,{},10.157.146.2,False,{},2025-09-05_20-54-13,7.716129032258064,1346400,-1.6004619663646138,0,35.89907193183899,1122,"{'default': {'policy_loss': -0.11915138363838196, 'vf_explained_var': 0.23820559680461884, 'vf_loss': 67.78702545166016, 'kl': 0.008853948675096035, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.65915060043335, 'total_loss': 67.71326446533203}, 'sample_time_ms': 35611.836, 'num_steps_trained': 1346400, 'num_steps_sampled': 1346400, 'update_time_ms': 2.567, 'grad_time_ms': 375.522, 'load_time_ms': 0.706}",1122,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+43776.79775619507,66914,8.000000401327657,1200,cda-server-2,43776.79775619507,f93d3d6710754a149751678a58e67540,148,1757098489,1347600,-49.61797921105257,2334300,{},10.157.146.2,False,{},2025-09-05_20-54-49,8.18918918918919,1347600,-2.390528616701368,0,36.337172746658325,1123,"{'default': {'policy_loss': -0.11558958888053894, 'vf_explained_var': 0.2796173095703125, 'vf_loss': 63.27416229248047, 'kl': 0.010043825022876263, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.049460411071777, 'total_loss': 63.21005630493164}, 'sample_time_ms': 35618.822, 'num_steps_trained': 1347600, 'num_steps_sampled': 1347600, 'update_time_ms': 2.548, 'grad_time_ms': 376.03, 'load_time_ms': 0.7}",1123,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+43812.39173102379,67078,8.000000400541747,1200,cda-server-2,43812.39173102379,f93d3d6710754a149751678a58e67540,164,1757098525,1348800,-43.071493329700985,2334300,{},10.157.146.2,False,{},2025-09-05_20-55-25,7.323170731707317,1348800,-1.1102993654873647,0,35.59397482872009,1124,"{'default': {'policy_loss': -0.10477127134799957, 'vf_explained_var': 0.28590357303619385, 'vf_loss': 46.373497009277344, 'kl': 0.008056621998548508, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.7961273193359375, 'total_loss': 46.31002426147461}, 'sample_time_ms': 35515.141, 'num_steps_trained': 1348800, 'num_steps_sampled': 1348800, 'update_time_ms': 2.521, 'grad_time_ms': 372.696, 'load_time_ms': 0.684}",1124,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+43849.38291025162,67227,8.000000400003884,1200,cda-server-2,43849.38291025162,f93d3d6710754a149751678a58e67540,149,1757098562,1350000,-56.66461863890753,2334300,{},10.157.146.2,False,{},2025-09-05_20-56-02,7.845637583892618,1350000,-1.8645711718545186,0,36.99117922782898,1125,"{'default': {'policy_loss': -0.10922887176275253, 'vf_explained_var': 0.23436792194843292, 'vf_loss': 82.36408996582031, 'kl': 0.009325924329459667, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.337910175323486, 'total_loss': 82.30265808105469}, 'sample_time_ms': 35470.217, 'num_steps_trained': 1350000, 'num_steps_sampled': 1350000, 'update_time_ms': 2.49, 'grad_time_ms': 374.972, 'load_time_ms': 0.685}",1125,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+43885.134795188904,67392,8.000067245825663,1200,cda-server-2,43885.134795188904,f93d3d6710754a149751678a58e67540,165,1757098598,1351200,-61.321500168115165,2334300,{},10.157.146.2,False,{},2025-09-05_20-56-38,7.321212121212121,1351200,-1.0729623341070778,0,35.75188493728638,1126,"{'default': {'policy_loss': -0.11819236725568771, 'vf_explained_var': 0.3173169493675232, 'vf_loss': 46.534767150878906, 'kl': 0.010319601744413376, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.802899360656738, 'total_loss': 46.46946716308594}, 'sample_time_ms': 35531.767, 'num_steps_trained': 1351200, 'num_steps_sampled': 1351200, 'update_time_ms': 2.512, 'grad_time_ms': 378.316, 'load_time_ms': 0.692}",1126,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+43922.53846240044,67544,8.00000140900367,1200,cda-server-2,43922.53846240044,f93d3d6710754a149751678a58e67540,152,1757098635,1352400,-44.416782481692586,2334300,{},10.157.146.2,False,{},2025-09-05_20-57-15,8.0,1352400,-2.1543249769724904,0,37.40366721153259,1127,"{'default': {'policy_loss': -0.11134776473045349, 'vf_explained_var': 0.22494962811470032, 'vf_loss': 61.93392562866211, 'kl': 0.010910596698522568, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.807486534118652, 'total_loss': 61.87850570678711}, 'sample_time_ms': 35737.218, 'num_steps_trained': 1352400, 'num_steps_sampled': 1352400, 'update_time_ms': 2.533, 'grad_time_ms': 377.238, 'load_time_ms': 0.687}",1127,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+43957.86410665512,67705,8.0000004000007,1200,cda-server-2,43957.86410665512,f93d3d6710754a149751678a58e67540,161,1757098670,1353600,-60.37979863606748,2334300,{},10.157.146.2,False,{},2025-09-05_20-57-50,7.503105590062112,1353600,-1.379822849066614,0,35.32564425468445,1128,"{'default': {'policy_loss': -0.09779581427574158, 'vf_explained_var': 0.2786799669265747, 'vf_loss': 63.66179656982422, 'kl': 0.010542375966906548, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.410759925842285, 'total_loss': 63.61803436279297}, 'sample_time_ms': 35702.513, 'num_steps_trained': 1353600, 'num_steps_sampled': 1353600, 'update_time_ms': 2.55, 'grad_time_ms': 377.803, 'load_time_ms': 0.731}",1128,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+43994.07542729378,67860,8.000000797425601,1200,cda-server-2,43994.07542729378,f93d3d6710754a149751678a58e67540,155,1757098707,1354800,-44.60264979367712,2334300,{},10.157.146.2,False,{},2025-09-05_20-58-27,7.509677419354839,1354800,-1.3714652164389058,0,36.211320638656616,1129,"{'default': {'policy_loss': -0.11534365266561508, 'vf_explained_var': 0.2574683427810669, 'vf_loss': 78.07698059082031, 'kl': 0.012120414525270462, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.083713531494141, 'total_loss': 78.02375030517578}, 'sample_time_ms': 35768.265, 'num_steps_trained': 1354800, 'num_steps_sampled': 1354800, 'update_time_ms': 2.549, 'grad_time_ms': 378.505, 'load_time_ms': 0.726}",1129,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+44029.95360374451,68008,8.000000400010581,1200,cda-server-2,44029.95360374451,f93d3d6710754a149751678a58e67540,148,1757098743,1356000,-50.91656699286943,2334300,{},10.157.146.2,False,{},2025-09-05_20-59-03,8.175675675675675,1356000,-2.343263150358461,0,35.87817645072937,1130,"{'default': {'policy_loss': -0.12034128606319427, 'vf_explained_var': 0.2650742530822754, 'vf_loss': 70.97989654541016, 'kl': 0.008014269173145294, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.551165580749512, 'total_loss': 70.900634765625}, 'sample_time_ms': 35744.886, 'num_steps_trained': 1356000, 'num_steps_sampled': 1356000, 'update_time_ms': 2.583, 'grad_time_ms': 378.454, 'load_time_ms': 0.722}",1130,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+44065.343685626984,68150,8.00012151585695,1200,cda-server-2,44065.343685626984,f93d3d6710754a149751678a58e67540,142,1757098778,1357200,-48.017094665228434,2334300,{},10.157.146.2,False,{},2025-09-05_20-59-38,8.591549295774648,1357200,-3.0592313154799413,0,35.39008188247681,1131,"{'default': {'policy_loss': -0.11680904030799866, 'vf_explained_var': 0.22447866201400757, 'vf_loss': 109.24684143066406, 'kl': 0.008515509776771069, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.578845977783203, 'total_loss': 109.17367553710938}, 'sample_time_ms': 35688.203, 'num_steps_trained': 1357200, 'num_steps_sampled': 1357200, 'update_time_ms': 2.609, 'grad_time_ms': 381.127, 'load_time_ms': 0.727}",1131,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+44102.03788685799,68317,6.001815585966964,1200,cda-server-2,44102.03788685799,f93d3d6710754a149751678a58e67540,167,1757098815,1358400,-41.574865062783566,2334300,{},10.157.146.2,False,{},2025-09-05_21-00-15,7.191616766467066,1358400,-0.9052222331222365,0,36.69420123100281,1132,"{'default': {'policy_loss': -0.10834711045026779, 'vf_explained_var': 0.31990694999694824, 'vf_loss': 57.75754928588867, 'kl': 0.008273517712950706, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.5934858322143555, 'total_loss': 57.69160842895508}, 'sample_time_ms': 35768.598, 'num_steps_trained': 1358400, 'num_steps_sampled': 1358400, 'update_time_ms': 2.666, 'grad_time_ms': 380.196, 'load_time_ms': 0.729}",1132,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+44138.75968980789,68484,8.00001739165636,1200,cda-server-2,44138.75968980789,f93d3d6710754a149751678a58e67540,167,1757098851,1359600,-41.37067183700342,2334300,{},10.157.146.2,False,{},2025-09-05_21-00-51,7.179640718562874,1359600,-0.8593406568092187,0,36.721802949905396,1133,"{'default': {'policy_loss': -0.09910399466753006, 'vf_explained_var': 0.27722322940826416, 'vf_loss': 55.7821159362793, 'kl': 0.010694595985114574, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.475819110870361, 'total_loss': 55.737831115722656}, 'sample_time_ms': 35810.265, 'num_steps_trained': 1359600, 'num_steps_sampled': 1359600, 'update_time_ms': 2.673, 'grad_time_ms': 377.025, 'load_time_ms': 0.719}",1133,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+44175.294828891754,68645,8.000141963071158,1200,cda-server-2,44175.294828891754,f93d3d6710754a149751678a58e67540,161,1757098888,1360800,-44.90830469986448,2334300,{},10.157.146.2,False,{},2025-09-05_21-01-28,7.409937888198757,1360800,-1.2488017500503947,0,36.535139083862305,1134,"{'default': {'policy_loss': -0.10130380839109421, 'vf_explained_var': 0.29238221049308777, 'vf_loss': 64.88175964355469, 'kl': 0.009036559611558914, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.956582546234131, 'total_loss': 64.82677459716797}, 'sample_time_ms': 35903.065, 'num_steps_trained': 1360800, 'num_steps_sampled': 1360800, 'update_time_ms': 2.659, 'grad_time_ms': 378.379, 'load_time_ms': 0.726}",1134,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+44211.73889565468,68780,8.00000040000199,1200,cda-server-2,44211.73889565468,f93d3d6710754a149751678a58e67540,135,1757098924,1362000,-55.14238200743485,2334300,{},10.157.146.2,False,{},2025-09-05_21-02-04,8.866666666666667,1362000,-3.4596107169014307,0,36.444066762924194,1135,"{'default': {'policy_loss': -0.11699017137289047, 'vf_explained_var': 0.2213929146528244, 'vf_loss': 106.17378234863281, 'kl': 0.010176841169595718, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 7.004899501800537, 'total_loss': 106.10895538330078}, 'sample_time_ms': 35848.812, 'num_steps_trained': 1362000, 'num_steps_sampled': 1362000, 'update_time_ms': 2.696, 'grad_time_ms': 377.88, 'load_time_ms': 0.727}",1135,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+44247.54162812233,68943,7.196400253116225,1200,cda-server-2,44247.54162812233,f93d3d6710754a149751678a58e67540,163,1757098960,1363200,-48.866494554381795,2334300,{},10.157.146.2,False,{},2025-09-05_21-02-40,7.368098159509202,1363200,-1.166706360435955,0,35.80273246765137,1136,"{'default': {'policy_loss': -0.10372275859117508, 'vf_explained_var': 0.25243332982063293, 'vf_loss': 73.49617767333984, 'kl': 0.010200094431638718, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.940005779266357, 'total_loss': 73.44474029541016}, 'sample_time_ms': 35854.991, 'num_steps_trained': 1363200, 'num_steps_sampled': 1363200, 'update_time_ms': 2.677, 'grad_time_ms': 376.801, 'load_time_ms': 0.714}",1136,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+44283.84461045265,69093,8.000000400042651,1200,cda-server-2,44283.84461045265,f93d3d6710754a149751678a58e67540,150,1757098997,1364400,-76.68834745506297,2334300,{},10.157.146.2,False,{},2025-09-05_21-03-17,7.92,1364400,-2.0064249472604465,0,36.302982330322266,1137,"{'default': {'policy_loss': -0.1182812824845314, 'vf_explained_var': 0.24520333111286163, 'vf_loss': 95.31536865234375, 'kl': 0.007971799932420254, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.148659706115723, 'total_loss': 95.23795318603516}, 'sample_time_ms': 35745.366, 'num_steps_trained': 1364400, 'num_steps_sampled': 1364400, 'update_time_ms': 2.708, 'grad_time_ms': 376.399, 'load_time_ms': 0.72}",1137,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+44320.05060195923,69262,10.0,1200,cda-server-2,44320.05060195923,f93d3d6710754a149751678a58e67540,169,1757099033,1365600,-45.32570406200004,2334300,{},10.157.146.2,False,{},2025-09-05_21-03-53,7.100591715976331,1365600,-0.7437121616325365,0,36.20599150657654,1138,"{'default': {'policy_loss': -0.10238602757453918, 'vf_explained_var': 0.27728530764579773, 'vf_loss': 69.9471206665039, 'kl': 0.008251525461673737, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.244546890258789, 'total_loss': 69.88704681396484}, 'sample_time_ms': 35836.595, 'num_steps_trained': 1365600, 'num_steps_sampled': 1365600, 'update_time_ms': 2.702, 'grad_time_ms': 373.299, 'load_time_ms': 0.67}",1138,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+44357.35462141037,69427,8.00145429836082,1200,cda-server-2,44357.35462141037,f93d3d6710754a149751678a58e67540,165,1757099070,1366800,-48.40255403226893,2334300,{},10.157.146.2,False,{},2025-09-05_21-04-30,7.206060606060606,1366800,-0.9500388537159297,0,37.30401945114136,1139,"{'default': {'policy_loss': -0.10937300324440002, 'vf_explained_var': 0.27567043900489807, 'vf_loss': 59.72514343261719, 'kl': 0.00896989181637764, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.781054973602295, 'total_loss': 59.66175079345703}, 'sample_time_ms': 35945.709, 'num_steps_trained': 1366800, 'num_steps_sampled': 1366800, 'update_time_ms': 2.644, 'grad_time_ms': 373.527, 'load_time_ms': 0.682}",1139,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+44394.16103339195,69581,8.000000401894898,1200,cda-server-2,44394.16103339195,f93d3d6710754a149751678a58e67540,154,1757099107,1368000,-40.68886650903627,2334300,{},10.157.146.2,False,{},2025-09-05_21-05-07,7.876623376623376,1368000,-1.8833842999317811,0,36.80641198158264,1140,"{'default': {'policy_loss': -0.12760955095291138, 'vf_explained_var': 0.2518494427204132, 'vf_loss': 64.2927474975586, 'kl': 0.014442571438848972, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.976712703704834, 'total_loss': 64.23916625976562}, 'sample_time_ms': 36038.783, 'num_steps_trained': 1368000, 'num_steps_sampled': 1368000, 'update_time_ms': 2.63, 'grad_time_ms': 373.318, 'load_time_ms': 0.685}",1140,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+44431.44336628914,69733,8.000000422709226,1200,cda-server-2,44431.44336628914,f93d3d6710754a149751678a58e67540,152,1757099144,1369200,-48.93521918679182,2334300,{},10.157.146.2,False,{},2025-09-05_21-05-44,7.9605263157894735,1369200,-2.057382150232346,0,37.28233289718628,1141,"{'default': {'policy_loss': -0.11676105856895447, 'vf_explained_var': 0.30016210675239563, 'vf_loss': 65.63520050048828, 'kl': 0.008060106076300144, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.986013889312744, 'total_loss': 65.55976104736328}, 'sample_time_ms': 36229.285, 'num_steps_trained': 1369200, 'num_steps_sampled': 1369200, 'update_time_ms': 2.605, 'grad_time_ms': 372.143, 'load_time_ms': 0.676}",1141,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+44467.8459444046,69882,8.001031940607357,1200,cda-server-2,44467.8459444046,f93d3d6710754a149751678a58e67540,149,1757099181,1370400,-62.84519140826873,2334300,{},10.157.146.2,False,{},2025-09-05_21-06-21,8.12751677852349,1370400,-2.421875809377895,0,36.40257811546326,1142,"{'default': {'policy_loss': -0.10995437949895859, 'vf_explained_var': 0.2486676126718521, 'vf_loss': 102.6065673828125, 'kl': 0.00974181480705738, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.028459548950195, 'total_loss': 102.54654693603516}, 'sample_time_ms': 36202.005, 'num_steps_trained': 1370400, 'num_steps_sampled': 1370400, 'update_time_ms': 2.53, 'grad_time_ms': 370.36, 'load_time_ms': 0.665}",1142,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+44503.54873943329,70045,8.000000400000658,1200,cda-server-2,44503.54873943329,f93d3d6710754a149751678a58e67540,163,1757099216,1371600,-56.54321764561334,2334300,{},10.157.146.2,False,{},2025-09-05_21-06-56,7.306748466257669,1371600,-1.117105462676792,0,35.70279502868652,1143,"{'default': {'policy_loss': -0.1142619177699089, 'vf_explained_var': 0.31389325857162476, 'vf_loss': 75.40083312988281, 'kl': 0.008355120196938515, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.441815376281738, 'total_loss': 75.32939910888672}, 'sample_time_ms': 36097.761, 'num_steps_trained': 1371600, 'num_steps_sampled': 1371600, 'update_time_ms': 2.507, 'grad_time_ms': 372.696, 'load_time_ms': 0.676}",1143,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+44540.327922582626,70206,8.000151445507687,1200,cda-server-2,44540.327922582626,f93d3d6710754a149751678a58e67540,161,1757099253,1372800,-40.48136371078906,2334300,{},10.157.146.2,False,{},2025-09-05_21-07-33,7.490683229813665,1372800,-1.3516285625953373,0,36.77918314933777,1144,"{'default': {'policy_loss': -0.0988980233669281, 'vf_explained_var': 0.2918236553668976, 'vf_loss': 59.57741165161133, 'kl': 0.015517796389758587, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.627121925354004, 'total_loss': 59.55805969238281}, 'sample_time_ms': 36121.806, 'num_steps_trained': 1372800, 'num_steps_sampled': 1372800, 'update_time_ms': 2.556, 'grad_time_ms': 372.919, 'load_time_ms': 0.669}",1144,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+44576.56123423576,70376,8.000001447624271,1200,cda-server-2,44576.56123423576,f93d3d6710754a149751678a58e67540,170,1757099290,1374000,-47.338502192897266,2334300,{},10.157.146.2,False,{},2025-09-05_21-08-10,7.070588235294117,1374000,-0.6889409719757396,0,36.23331165313721,1145,"{'default': {'policy_loss': -0.11041504889726639, 'vf_explained_var': 0.2560836970806122, 'vf_loss': 65.94206237792969, 'kl': 0.00890056136995554, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.247496604919434, 'total_loss': 65.87727355957031}, 'sample_time_ms': 36101.529, 'num_steps_trained': 1374000, 'num_steps_sampled': 1374000, 'update_time_ms': 2.558, 'grad_time_ms': 372.069, 'load_time_ms': 0.666}",1145,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+44612.639632701874,70525,8.00000039999996,1200,cda-server-2,44612.639632701874,f93d3d6710754a149751678a58e67540,149,1757099326,1375200,-48.17518774376748,2334300,{},10.157.146.2,False,{},2025-09-05_21-08-46,8.033557046979865,1375200,-2.1596119038366357,0,36.07839846611023,1146,"{'default': {'policy_loss': -0.11063589155673981, 'vf_explained_var': 0.1996648907661438, 'vf_loss': 91.62874603271484, 'kl': 0.00957499910145998, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.13422155380249, 'total_loss': 91.56718444824219}, 'sample_time_ms': 36129.294, 'num_steps_trained': 1375200, 'num_steps_sampled': 1375200, 'update_time_ms': 2.607, 'grad_time_ms': 371.852, 'load_time_ms': 0.676}",1146,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+44649.912331819534,70705,8.000003561479522,1200,cda-server-2,44649.912331819534,f93d3d6710754a149751678a58e67540,180,1757099363,1376400,-44.14664436976677,2334300,{},10.157.146.2,False,{},2025-09-05_21-09-23,6.472222222222222,1376400,0.2894103928896456,0,37.27269911766052,1147,"{'default': {'policy_loss': -0.10675295442342758, 'vf_explained_var': 0.26580843329429626, 'vf_loss': 70.44502258300781, 'kl': 0.007393625099211931, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.053764343261719, 'total_loss': 70.37617492675781}, 'sample_time_ms': 36223.297, 'num_steps_trained': 1376400, 'num_steps_sampled': 1376400, 'update_time_ms': 2.542, 'grad_time_ms': 374.805, 'load_time_ms': 0.679}",1147,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+44688.65906071663,70856,8.000000400139275,1200,cda-server-2,44688.65906071663,f93d3d6710754a149751678a58e67540,151,1757099402,1377600,-58.641055566179475,2334300,{},10.157.146.2,False,{},2025-09-05_21-10-02,8.079470198675496,1377600,-2.304032112309858,0,38.74672889709473,1148,"{'default': {'policy_loss': -0.11124642938375473, 'vf_explained_var': 0.27676716446876526, 'vf_loss': 97.59854125976562, 'kl': 0.01006687805056572, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.920284748077393, 'total_loss': 97.53889465332031}, 'sample_time_ms': 36475.52, 'num_steps_trained': 1377600, 'num_steps_sampled': 1377600, 'update_time_ms': 2.527, 'grad_time_ms': 376.651, 'load_time_ms': 0.681}",1148,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+44726.86599135399,71015,8.000411499621098,1200,cda-server-2,44726.86599135399,f93d3d6710754a149751678a58e67540,159,1757099440,1378800,-78.88263518990459,2334300,{},10.157.146.2,False,{},2025-09-05_21-10-40,7.660377358490566,1378800,-1.5715641613208382,0,38.20693063735962,1149,"{'default': {'policy_loss': -0.1065162792801857, 'vf_explained_var': 0.2269309163093567, 'vf_loss': 109.19918060302734, 'kl': 0.008127550594508648, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.279679775238037, 'total_loss': 109.13432312011719}, 'sample_time_ms': 36567.266, 'num_steps_trained': 1378800, 'num_steps_sampled': 1378800, 'update_time_ms': 2.529, 'grad_time_ms': 375.262, 'load_time_ms': 0.671}",1149,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+44764.55659365654,71184,8.000000399999928,1200,cda-server-2,44764.55659365654,f93d3d6710754a149751678a58e67540,169,1757099478,1380000,-39.999552638827346,2334300,{},10.157.146.2,False,{},2025-09-05_21-11-18,7.005917159763314,1380000,-0.5919572538629704,0,37.69060230255127,1150,"{'default': {'policy_loss': -0.09885284304618835, 'vf_explained_var': 0.21729877591133118, 'vf_loss': 62.99995422363281, 'kl': 0.009305858984589577, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.245744705200195, 'total_loss': 62.94879913330078}, 'sample_time_ms': 36656.097, 'num_steps_trained': 1380000, 'num_steps_sampled': 1380000, 'update_time_ms': 2.527, 'grad_time_ms': 374.762, 'load_time_ms': 0.673}",1150,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+44804.09000039101,71343,8.000000400014523,1200,cda-server-2,44804.09000039101,f93d3d6710754a149751678a58e67540,159,1757099517,1381200,-59.32417622777004,2334300,{},10.157.146.2,False,{},2025-09-05_21-11-57,7.60377358490566,1381200,-1.5718439373098871,0,39.53340673446655,1151,"{'default': {'policy_loss': -0.10669702291488647, 'vf_explained_var': 0.2562880218029022, 'vf_loss': 100.35542297363281, 'kl': 0.010408366098999977, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.510798454284668, 'total_loss': 100.30207824707031}, 'sample_time_ms': 36881.123, 'num_steps_trained': 1381200, 'num_steps_sampled': 1381200, 'update_time_ms': 2.585, 'grad_time_ms': 374.754, 'load_time_ms': 0.673}",1151,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+44843.96114897728,71509,8.000248364712858,1200,cda-server-2,44843.96114897728,f93d3d6710754a149751678a58e67540,166,1757099557,1382400,-44.910589476397966,2334300,{},10.157.146.2,False,{},2025-09-05_21-12-37,7.186746987951807,1382400,-0.8449873417542512,0,39.87114858627319,1152,"{'default': {'policy_loss': -0.10794108361005783, 'vf_explained_var': 0.28595128655433655, 'vf_loss': 57.68129348754883, 'kl': 0.0087650828063488, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.829251289367676, 'total_loss': 57.61827850341797}, 'sample_time_ms': 37226.86, 'num_steps_trained': 1382400, 'num_steps_sampled': 1382400, 'update_time_ms': 2.61, 'grad_time_ms': 375.804, 'load_time_ms': 0.676}",1152,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+44882.926100730896,71665,8.000000525319333,1200,cda-server-2,44882.926100730896,f93d3d6710754a149751678a58e67540,156,1757099596,1383600,-38.30142328096064,2334300,{},10.157.146.2,False,{},2025-09-05_21-13-16,7.67948717948718,1383600,-1.5396053765003854,0,38.96495175361633,1153,"{'default': {'policy_loss': -0.11501726508140564, 'vf_explained_var': 0.2808306813240051, 'vf_loss': 50.39475631713867, 'kl': 0.009208742529153824, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.058282375335693, 'total_loss': 50.326942443847656}, 'sample_time_ms': 37553.998, 'num_steps_trained': 1383600, 'num_steps_sampled': 1383600, 'update_time_ms': 2.628, 'grad_time_ms': 374.913, 'load_time_ms': 0.685}",1153,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+44921.850311517715,71831,8.000080165548521,1200,cda-server-2,44921.850311517715,f93d3d6710754a149751678a58e67540,166,1757099635,1384800,-56.12383751137119,2334300,{},10.157.146.2,False,{},2025-09-05_21-13-55,7.120481927710843,1384800,-0.7112048275678755,0,38.92421078681946,1154,"{'default': {'policy_loss': -0.10037975758314133, 'vf_explained_var': 0.2640427350997925, 'vf_loss': 69.28958129882812, 'kl': 0.007594076916575432, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.862430095672607, 'total_loss': 69.22811889648438}, 'sample_time_ms': 37768.643, 'num_steps_trained': 1384800, 'num_steps_sampled': 1384800, 'update_time_ms': 2.591, 'grad_time_ms': 374.865, 'load_time_ms': 0.695}",1154,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+44961.106965065,71985,8.000000439246062,1200,cda-server-2,44961.106965065,f93d3d6710754a149751678a58e67540,154,1757099674,1386000,-55.73721823949944,2334300,{},10.157.146.2,False,{},2025-09-05_21-14-34,7.876623376623376,1386000,-1.983073069241811,0,39.25665354728699,1155,"{'default': {'policy_loss': -0.10981861501932144, 'vf_explained_var': 0.2820276916027069, 'vf_loss': 77.96531677246094, 'kl': 0.010839371010661125, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.631242752075195, 'total_loss': 77.91104888916016}, 'sample_time_ms': 38070.01, 'num_steps_trained': 1386000, 'num_steps_sampled': 1386000, 'update_time_ms': 2.557, 'grad_time_ms': 375.921, 'load_time_ms': 0.694}",1155,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+45000.02293753624,72135,8.000000403363202,1200,cda-server-2,45000.02293753624,f93d3d6710754a149751678a58e67540,150,1757099713,1387200,-43.67049437976236,2334300,{},10.157.146.2,False,{},2025-09-05_21-15-13,7.98,1387200,-2.0720543546822836,0,38.91597247123718,1156,"{'default': {'policy_loss': -0.11318903416395187, 'vf_explained_var': 0.266923725605011, 'vf_loss': 78.50666046142578, 'kl': 0.007673397660255432, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.1722731590271, 'total_loss': 78.43280792236328}, 'sample_time_ms': 38355.832, 'num_steps_trained': 1387200, 'num_steps_sampled': 1387200, 'update_time_ms': 2.523, 'grad_time_ms': 373.94, 'load_time_ms': 0.689}",1156,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+45039.05240917206,72302,8.000000400000413,1200,cda-server-2,45039.05240917206,f93d3d6710754a149751678a58e67540,167,1757099752,1388400,-54.85035679369308,2334300,{},10.157.146.2,False,{},2025-09-05_21-15-52,7.359281437125748,1388400,-1.0709626447391005,0,39.02947163581848,1157,"{'default': {'policy_loss': -0.10754965990781784, 'vf_explained_var': 0.3073939085006714, 'vf_loss': 46.58174133300781, 'kl': 0.007933437824249268, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.873382568359375, 'total_loss': 46.51485824584961}, 'sample_time_ms': 38532.856, 'num_steps_trained': 1388400, 'num_steps_sampled': 1388400, 'update_time_ms': 2.529, 'grad_time_ms': 372.611, 'load_time_ms': 0.696}",1157,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+45079.63242173195,72459,8.000000713020725,1200,cda-server-2,45079.63242173195,f93d3d6710754a149751678a58e67540,157,1757099793,1389600,-50.922730247330826,2334300,{},10.157.146.2,False,{},2025-09-05_21-16-33,7.547770700636943,1389600,-1.442800182428295,0,40.58001255989075,1158,"{'default': {'policy_loss': -0.10310088843107224, 'vf_explained_var': 0.26974165439605713, 'vf_loss': 80.62889862060547, 'kl': 0.009527605026960373, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.790286540985107, 'total_loss': 80.57463836669922}, 'sample_time_ms': 38717.848, 'num_steps_trained': 1389600, 'num_steps_sampled': 1389600, 'update_time_ms': 2.541, 'grad_time_ms': 370.957, 'load_time_ms': 0.701}",1158,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+45120.51918697357,72612,8.000000399999925,1200,cda-server-2,45120.51918697357,f93d3d6710754a149751678a58e67540,153,1757099834,1390800,-46.61649267007794,2334300,{},10.157.146.2,False,{},2025-09-05_21-17-14,7.947712418300654,1390800,-2.01781849560975,0,40.886765241622925,1159,"{'default': {'policy_loss': -0.12013362348079681, 'vf_explained_var': 0.25196632742881775, 'vf_loss': 79.24141693115234, 'kl': 0.009933164343237877, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.8491716384887695, 'total_loss': 79.17218780517578}, 'sample_time_ms': 38984.211, 'num_steps_trained': 1390800, 'num_steps_sampled': 1390800, 'update_time_ms': 2.543, 'grad_time_ms': 372.596, 'load_time_ms': 0.7}",1159,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+45159.50661087036,72770,8.00006690091466,1200,cda-server-2,45159.50661087036,f93d3d6710754a149751678a58e67540,158,1757099873,1392000,-46.58846471187173,2334300,{},10.157.146.2,False,{},2025-09-05_21-17-53,7.3544303797468356,1392000,-1.1908685447553822,0,38.98742389678955,1160,"{'default': {'policy_loss': -0.11777181178331375, 'vf_explained_var': 0.29173368215560913, 'vf_loss': 58.90393829345703, 'kl': 0.008074227720499039, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.642440319061279, 'total_loss': 58.82755661010742}, 'sample_time_ms': 39113.748, 'num_steps_trained': 1392000, 'num_steps_sampled': 1392000, 'update_time_ms': 2.548, 'grad_time_ms': 372.832, 'load_time_ms': 0.699}",1160,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+45199.15028977394,72925,8.00000207317034,1200,cda-server-2,45199.15028977394,f93d3d6710754a149751678a58e67540,155,1757099912,1393200,-55.005624082033435,2334300,{},10.157.146.2,False,{},2025-09-05_21-18-32,7.916129032258064,1393200,-1.9697470331018472,0,39.64367890357971,1161,"{'default': {'policy_loss': -0.1076829805970192, 'vf_explained_var': 0.23112566769123077, 'vf_loss': 89.21924591064453, 'kl': 0.00948503240942955, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.920565128326416, 'total_loss': 89.1601791381836}, 'sample_time_ms': 39124.689, 'num_steps_trained': 1393200, 'num_steps_sampled': 1393200, 'update_time_ms': 2.46, 'grad_time_ms': 372.991, 'load_time_ms': 0.698}",1161,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+45237.609750032425,73076,8.000000405492147,1200,cda-server-2,45237.609750032425,f93d3d6710754a149751678a58e67540,151,1757099951,1394400,-47.964845886661735,2334300,{},10.157.146.2,False,{},2025-09-05_21-19-11,7.860927152317881,1394400,-1.9254968492845668,0,38.45946025848389,1162,"{'default': {'policy_loss': -0.11354390531778336, 'vf_explained_var': 0.24879090487957, 'vf_loss': 81.8584976196289, 'kl': 0.010370544157922268, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.122992515563965, 'total_loss': 81.79811096191406}, 'sample_time_ms': 38983.023, 'num_steps_trained': 1394400, 'num_steps_sampled': 1394400, 'update_time_ms': 2.46, 'grad_time_ms': 373.472, 'load_time_ms': 0.717}",1162,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+45278.14035320282,73269,8.001161289447499,1200,cda-server-2,45278.14035320282,f93d3d6710754a149751678a58e67540,193,1757099991,1395600,-57.69070774018759,2334300,{},10.157.146.2,False,{},2025-09-05_21-19-51,6.3264248704663215,1395600,0.4482174930592453,0,40.5306031703949,1163,"{'default': {'policy_loss': -0.112332783639431, 'vf_explained_var': 0.3137306869029999, 'vf_loss': 63.90949249267578, 'kl': 0.007404155097901821, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 4.636106491088867, 'total_loss': 63.83510971069336}, 'sample_time_ms': 39139.055, 'num_steps_trained': 1395600, 'num_steps_sampled': 1395600, 'update_time_ms': 2.478, 'grad_time_ms': 373.914, 'load_time_ms': 0.708}",1163,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+45318.68140125275,73443,8.000000419653235,1200,cda-server-2,45318.68140125275,f93d3d6710754a149751678a58e67540,174,1757100032,1396800,-37.38349900246538,2334300,{},10.157.146.2,False,{},2025-09-05_21-20-32,6.896551724137931,1396800,-0.47763195020641824,0,40.54104804992676,1164,"{'default': {'policy_loss': -0.1104872077703476, 'vf_explained_var': 0.29285547137260437, 'vf_loss': 52.49552536010742, 'kl': 0.007777730002999306, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.337401390075684, 'total_loss': 52.42490768432617}, 'sample_time_ms': 39301.923, 'num_steps_trained': 1396800, 'num_steps_sampled': 1396800, 'update_time_ms': 2.485, 'grad_time_ms': 372.664, 'load_time_ms': 0.703}",1164,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+45356.827746629715,73603,8.000000402373436,1200,cda-server-2,45356.827746629715,f93d3d6710754a149751678a58e67540,160,1757100070,1398000,-52.76114837747862,2334300,{},10.157.146.2,False,{},2025-09-05_21-21-10,7.4,1398000,-1.1486338521064006,0,38.146345376968384,1165,"{'default': {'policy_loss': -0.12369692325592041, 'vf_explained_var': 0.24022714793682098, 'vf_loss': 77.54139709472656, 'kl': 0.010713009163737297, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.844616889953613, 'total_loss': 77.47261047363281}, 'sample_time_ms': 39190.459, 'num_steps_trained': 1398000, 'num_steps_sampled': 1398000, 'update_time_ms': 2.511, 'grad_time_ms': 373.031, 'load_time_ms': 0.711}",1165,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+45397.099076747894,73750,8.000000400013736,1200,cda-server-2,45397.099076747894,f93d3d6710754a149751678a58e67540,147,1757100110,1399200,-48.73449328678846,2334300,{},10.157.146.2,False,{},2025-09-05_21-21-50,8.238095238095237,1399200,-2.4774169762633003,0,40.27133011817932,1166,"{'default': {'policy_loss': -0.11374779790639877, 'vf_explained_var': 0.2632587254047394, 'vf_loss': 84.05033111572266, 'kl': 0.010784832760691643, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.884370803833008, 'total_loss': 83.99186706542969}, 'sample_time_ms': 39323.152, 'num_steps_trained': 1399200, 'num_steps_sampled': 1399200, 'update_time_ms': 2.526, 'grad_time_ms': 375.805, 'load_time_ms': 0.719}",1166,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+45436.493146419525,73926,8.000072001400447,1200,cda-server-2,45436.493146419525,f93d3d6710754a149751678a58e67540,176,1757100150,1400400,-42.423489539769854,2334300,{},10.157.146.2,False,{},2025-09-05_21-22-30,6.863636363636363,1400400,-0.41780732119517516,0,39.39406967163086,1167,"{'default': {'policy_loss': -0.11643525213003159, 'vf_explained_var': 0.329073965549469, 'vf_loss': 46.71101379394531, 'kl': 0.008750636130571365, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.324093818664551, 'total_loss': 46.639427185058594}, 'sample_time_ms': 39358.582, 'num_steps_trained': 1400400, 'num_steps_sampled': 1400400, 'update_time_ms': 2.526, 'grad_time_ms': 376.875, 'load_time_ms': 0.702}",1167,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+45475.74993681908,74107,8.000690703378279,1200,cda-server-2,45475.74993681908,f93d3d6710754a149751678a58e67540,181,1757100189,1401600,-32.85428047309614,2334300,{},10.157.146.2,False,{},2025-09-05_21-23-09,6.624309392265193,1401600,0.062110642250373466,0,39.25679039955139,1168,"{'default': {'policy_loss': -0.11385456472635269, 'vf_explained_var': 0.30178582668304443, 'vf_loss': 52.11885070800781, 'kl': 0.01044604554772377, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.218308448791504, 'total_loss': 52.05854415893555}, 'sample_time_ms': 39223.764, 'num_steps_trained': 1401600, 'num_steps_sampled': 1401600, 'update_time_ms': 2.51, 'grad_time_ms': 379.318, 'load_time_ms': 0.706}",1168,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+45514.497779369354,74268,8.000032811346664,1200,cda-server-2,45514.497779369354,f93d3d6710754a149751678a58e67540,161,1757100228,1402800,-44.07796826107442,2334300,{},10.157.146.2,False,{},2025-09-05_21-23-48,7.434782608695652,1402800,-1.2335100489143231,0,38.74784255027771,1169,"{'default': {'policy_loss': -0.1142984926700592, 'vf_explained_var': 0.29202768206596375, 'vf_loss': 69.42276763916016, 'kl': 0.008974768221378326, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.70496940612793, 'total_loss': 69.35447692871094}, 'sample_time_ms': 39011.828, 'num_steps_trained': 1402800, 'num_steps_sampled': 1402800, 'update_time_ms': 2.528, 'grad_time_ms': 377.277, 'load_time_ms': 0.712}",1169,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+45553.0006275177,74439,8.00000040064331,1200,cda-server-2,45553.0006275177,f93d3d6710754a149751678a58e67540,171,1757100266,1404000,-56.49237655430419,2334300,{},10.157.146.2,False,{},2025-09-05_21-24-26,6.912280701754386,1404000,-0.4231649137007575,0,38.50284814834595,1170,"{'default': {'policy_loss': -0.09974025934934616, 'vf_explained_var': 0.3386860489845276, 'vf_loss': 62.49142837524414, 'kl': 0.007654561661183834, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.490517616271973, 'total_loss': 62.43092346191406}, 'sample_time_ms': 38962.637, 'num_steps_trained': 1404000, 'num_steps_sampled': 1404000, 'update_time_ms': 2.545, 'grad_time_ms': 377.864, 'load_time_ms': 0.719}",1170,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+45592.47021961212,74605,8.000000529938548,1200,cda-server-2,45592.47021961212,f93d3d6710754a149751678a58e67540,166,1757100306,1405200,-57.97683994351328,2334300,{},10.157.146.2,False,{},2025-09-05_21-25-06,7.240963855421687,1405200,-1.020616206827878,0,39.46959209442139,1171,"{'default': {'policy_loss': -0.09912611544132233, 'vf_explained_var': 0.29750311374664307, 'vf_loss': 86.9027328491211, 'kl': 0.00882433820515871, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.220518589019775, 'total_loss': 86.84884643554688}, 'sample_time_ms': 38947.359, 'num_steps_trained': 1405200, 'num_steps_sampled': 1405200, 'update_time_ms': 2.598, 'grad_time_ms': 375.722, 'load_time_ms': 0.718}",1171,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+45631.4264292717,74768,8.000000400007417,1200,cda-server-2,45631.4264292717,f93d3d6710754a149751678a58e67540,163,1757100345,1406400,-77.99023898888986,2334300,{},10.157.146.2,False,{},2025-09-05_21-25-45,7.374233128834356,1406400,-1.2465452154337777,0,38.956209659576416,1172,"{'default': {'policy_loss': -0.105747751891613, 'vf_explained_var': 0.280644953250885, 'vf_loss': 103.93101501464844, 'kl': 0.00907654408365488, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.258603572845459, 'total_loss': 103.87179565429688}, 'sample_time_ms': 38997.788, 'num_steps_trained': 1406400, 'num_steps_sampled': 1406400, 'update_time_ms': 2.567, 'grad_time_ms': 375.047, 'load_time_ms': 0.712}",1172,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+45670.16137313843,74953,8.000014381617177,1200,cda-server-2,45670.16137313843,f93d3d6710754a149751678a58e67540,185,1757100384,1407600,-47.17922995539142,2334300,{},10.157.146.2,False,{},2025-09-05_21-26-24,6.54054054054054,1407600,0.1171184538031818,0,38.734943866729736,1173,"{'default': {'policy_loss': -0.0985516831278801, 'vf_explained_var': 0.30579760670661926, 'vf_loss': 43.93671417236328, 'kl': 0.007961379364132881, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 4.645742893218994, 'total_loss': 43.87897491455078}, 'sample_time_ms': 38818.29, 'num_steps_trained': 1407600, 'num_steps_sampled': 1407600, 'update_time_ms': 2.533, 'grad_time_ms': 375.081, 'load_time_ms': 0.702}",1173,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+45709.155688762665,75128,8.000000424961073,1200,cda-server-2,45709.155688762665,f93d3d6710754a149751678a58e67540,175,1757100423,1408800,-46.24099245393415,2334300,{},10.157.146.2,False,{},2025-09-05_21-27-03,6.8342857142857145,1408800,-0.2961394950841043,0,38.99431562423706,1174,"{'default': {'policy_loss': -0.1059645339846611, 'vf_explained_var': 0.3474235534667969, 'vf_loss': 60.46485137939453, 'kl': 0.009378910064697266, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.300471782684326, 'total_loss': 60.40696334838867}, 'sample_time_ms': 38662.4, 'num_steps_trained': 1408800, 'num_steps_sampled': 1408800, 'update_time_ms': 2.53, 'grad_time_ms': 376.365, 'load_time_ms': 0.699}",1174,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+45747.67411327362,75296,8.001723609693746,1200,cda-server-2,45747.67411327362,f93d3d6710754a149751678a58e67540,168,1757100461,1410000,-54.33754691785293,2334300,{},10.157.146.2,False,{},2025-09-05_21-27-41,7.154761904761905,1410000,-0.834738431906124,0,38.51842451095581,1175,"{'default': {'policy_loss': -0.10391496121883392, 'vf_explained_var': 0.30301427841186523, 'vf_loss': 85.22502899169922, 'kl': 0.008738004602491856, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.346981525421143, 'total_loss': 85.1658935546875}, 'sample_time_ms': 38699.325, 'num_steps_trained': 1410000, 'num_steps_sampled': 1410000, 'update_time_ms': 2.539, 'grad_time_ms': 376.664, 'load_time_ms': 0.69}",1175,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+45787.53299856186,75459,8.000122051733898,1200,cda-server-2,45787.53299856186,f93d3d6710754a149751678a58e67540,163,1757100501,1411200,-37.88505216019108,2334300,{},10.157.146.2,False,{},2025-09-05_21-28-21,7.380368098159509,1411200,-1.156121766462521,0,39.858885288238525,1176,"{'default': {'policy_loss': -0.10035940259695053, 'vf_explained_var': 0.3051946759223938, 'vf_loss': 57.70783233642578, 'kl': 0.01130509003996849, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.341222286224365, 'total_loss': 57.66542053222656}, 'sample_time_ms': 38657.814, 'num_steps_trained': 1411200, 'num_steps_sampled': 1411200, 'update_time_ms': 2.514, 'grad_time_ms': 376.963, 'load_time_ms': 0.694}",1176,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+45826.89668297768,75648,8.00000041468185,1200,cda-server-2,45826.89668297768,f93d3d6710754a149751678a58e67540,189,1757100540,1412400,-41.465294020727804,2334300,{},10.157.146.2,False,{},2025-09-05_21-29-00,6.338624338624339,1412400,0.4925880704760453,0,39.36368441581726,1177,"{'default': {'policy_loss': -0.0958179160952568, 'vf_explained_var': 0.3147074580192566, 'vf_loss': 60.06039810180664, 'kl': 0.00816205982118845, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.0160956382751465, 'total_loss': 60.00641632080078}, 'sample_time_ms': 38655.739, 'num_steps_trained': 1412400, 'num_steps_sampled': 1412400, 'update_time_ms': 2.511, 'grad_time_ms': 375.976, 'load_time_ms': 0.702}",1177,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+45865.81795358658,75828,10.0,1200,cda-server-2,45865.81795358658,f93d3d6710754a149751678a58e67540,180,1757100579,1413600,-37.05958101756917,2334300,{},10.157.146.2,False,{},2025-09-05_21-29-39,6.65,1413600,-0.010158859772343378,0,38.92127060890198,1178,"{'default': {'policy_loss': -0.10462208837270737, 'vf_explained_var': 0.283515602350235, 'vf_loss': 56.84616470336914, 'kl': 0.008480282500386238, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.023447036743164, 'total_loss': 56.78501510620117}, 'sample_time_ms': 38624.389, 'num_steps_trained': 1413600, 'num_steps_sampled': 1413600, 'update_time_ms': 2.523, 'grad_time_ms': 373.801, 'load_time_ms': 0.697}",1178,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+45903.561967134476,75997,8.00051510028763,1200,cda-server-2,45903.561967134476,f93d3d6710754a149751678a58e67540,169,1757100617,1414800,-56.2617737528912,2334300,{},10.157.146.2,False,{},2025-09-05_21-30-17,7.112426035502959,1414800,-0.8042420012939159,0,37.74401354789734,1179,"{'default': {'policy_loss': -0.10740980505943298, 'vf_explained_var': 0.28483501076698303, 'vf_loss': 80.89469146728516, 'kl': 0.008448731154203415, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.029534339904785, 'total_loss': 80.83059692382812}, 'sample_time_ms': 38521.992, 'num_steps_trained': 1414800, 'num_steps_sampled': 1414800, 'update_time_ms': 2.553, 'grad_time_ms': 375.835, 'load_time_ms': 0.706}",1179,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+45941.89437127113,76170,8.000402745122834,1200,cda-server-2,45941.89437127113,f93d3d6710754a149751678a58e67540,173,1757100655,1416000,-41.33289125917664,2334300,{},10.157.146.2,False,{},2025-09-05_21-30-55,6.890173410404624,1416000,-0.4013162089697145,0,38.332404136657715,1180,"{'default': {'policy_loss': -0.10367006808519363, 'vf_explained_var': 0.28303542733192444, 'vf_loss': 49.42604446411133, 'kl': 0.010354132391512394, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 4.919572353363037, 'total_loss': 49.375450134277344}, 'sample_time_ms': 38505.442, 'num_steps_trained': 1416000, 'num_steps_sampled': 1416000, 'update_time_ms': 2.552, 'grad_time_ms': 375.444, 'load_time_ms': 0.703}",1180,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+45980.58993458748,76344,8.000000400000571,1200,cda-server-2,45980.58993458748,f93d3d6710754a149751678a58e67540,174,1757100694,1417200,-43.16431168237465,2334300,{},10.157.146.2,False,{},2025-09-05_21-31-34,6.908045977011494,1417200,-0.4513338421956566,0,38.695563316345215,1181,"{'default': {'policy_loss': -0.11189316213130951, 'vf_explained_var': 0.39415109157562256, 'vf_loss': 52.143131256103516, 'kl': 0.006788452621549368, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.2787184715271, 'total_loss': 52.066036224365234}, 'sample_time_ms': 38425.748, 'num_steps_trained': 1417200, 'num_steps_sampled': 1417200, 'update_time_ms': 2.663, 'grad_time_ms': 377.617, 'load_time_ms': 0.71}",1181,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+46020.229674339294,76503,8.000000399999958,1200,cda-server-2,46020.229674339294,f93d3d6710754a149751678a58e67540,159,1757100734,1418400,-59.81502964404139,2334300,{},10.157.146.2,False,{},2025-09-05_21-32-14,7.484276729559748,1418400,-1.3274531603081599,0,39.639739751815796,1182,"{'default': {'policy_loss': -0.1013791412115097, 'vf_explained_var': 0.2981298863887787, 'vf_loss': 69.21174621582031, 'kl': 0.011096429079771042, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.454695701599121, 'total_loss': 69.16724395751953}, 'sample_time_ms': 38494.59, 'num_steps_trained': 1418400, 'num_steps_sampled': 1418400, 'update_time_ms': 2.697, 'grad_time_ms': 377.067, 'load_time_ms': 0.689}",1182,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+46060.283242702484,76662,6.222615002129042,1200,cda-server-2,46060.283242702484,f93d3d6710754a149751678a58e67540,159,1757100774,1419600,-44.65878369023527,2334300,{},10.157.146.2,False,{},2025-09-05_21-32-54,7.540880503144654,1419600,-1.4162208347774885,0,40.0535683631897,1183,"{'default': {'policy_loss': -0.10896147042512894, 'vf_explained_var': 0.2781597971916199, 'vf_loss': 71.65380096435547, 'kl': 0.009621229022741318, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.765018939971924, 'total_loss': 71.59414672851562}, 'sample_time_ms': 38625.639, 'num_steps_trained': 1419600, 'num_steps_sampled': 1419600, 'update_time_ms': 2.725, 'grad_time_ms': 377.789, 'load_time_ms': 0.711}",1183,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+46099.92793607712,76835,8.00000114865202,1200,cda-server-2,46099.92793607712,f93d3d6710754a149751678a58e67540,173,1757100814,1420800,-40.36163941835229,2334300,{},10.157.146.2,False,{},2025-09-05_21-33-34,7.0,1420800,-0.548167861147894,0,39.64469337463379,1184,"{'default': {'policy_loss': -0.10826411098241806, 'vf_explained_var': 0.30655437707901, 'vf_loss': 48.06876754760742, 'kl': 0.009723467752337456, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.230618953704834, 'total_loss': 48.01034164428711}, 'sample_time_ms': 38689.721, 'num_steps_trained': 1420800, 'num_steps_sampled': 1420800, 'update_time_ms': 2.73, 'grad_time_ms': 378.719, 'load_time_ms': 0.711}",1184,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+46138.81106996536,77002,8.000000400046876,1200,cda-server-2,46138.81106996536,f93d3d6710754a149751678a58e67540,167,1757100853,1422000,-42.36648394899364,2334300,{},10.157.146.2,False,{},2025-09-05_21-34-13,6.982035928143713,1422000,-0.4332659542698574,0,38.88313388824463,1185,"{'default': {'policy_loss': -0.11735028773546219, 'vf_explained_var': 0.2903386652469635, 'vf_loss': 69.58267211914062, 'kl': 0.009462917223572731, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.574602127075195, 'total_loss': 69.51382446289062}, 'sample_time_ms': 38727.366, 'num_steps_trained': 1422000, 'num_steps_sampled': 1422000, 'update_time_ms': 2.734, 'grad_time_ms': 377.475, 'load_time_ms': 0.715}",1185,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+46177.078142642975,77172,6.001766906176153,1200,cda-server-2,46177.078142642975,f93d3d6710754a149751678a58e67540,170,1757100891,1423200,-80.96658361900899,2334300,{},10.157.146.2,False,{},2025-09-05_21-34-51,7.311764705882353,1423200,-1.1945611794909838,0,38.267072677612305,1186,"{'default': {'policy_loss': -0.09236734360456467, 'vf_explained_var': 0.291673481464386, 'vf_loss': 98.9096908569336, 'kl': 0.00856576208025217, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.345969200134277, 'total_loss': 98.86123657226562}, 'sample_time_ms': 38568.978, 'num_steps_trained': 1423200, 'num_steps_sampled': 1423200, 'update_time_ms': 2.736, 'grad_time_ms': 376.683, 'load_time_ms': 0.705}",1186,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+46215.591824769974,77351,6.001149030684305,1200,cda-server-2,46215.591824769974,f93d3d6710754a149751678a58e67540,179,1757100929,1424400,-42.400105647016396,2334300,{},10.157.146.2,False,{},2025-09-05_21-35-29,6.664804469273743,1424400,-0.015530546254207477,0,38.5136821269989,1187,"{'default': {'policy_loss': -0.10597953200340271, 'vf_explained_var': 0.29888567328453064, 'vf_loss': 53.875118255615234, 'kl': 0.007729976437985897, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.128202438354492, 'total_loss': 53.80876159667969}, 'sample_time_ms': 38483.329, 'num_steps_trained': 1424400, 'num_steps_sampled': 1424400, 'update_time_ms': 2.743, 'grad_time_ms': 377.382, 'load_time_ms': 0.692}",1187,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+46255.162068128586,77526,8.000000400000314,1200,cda-server-2,46255.162068128586,f93d3d6710754a149751678a58e67540,175,1757100969,1425600,-64.61028284463191,2334300,{},10.157.146.2,False,{},2025-09-05_21-36-09,6.885714285714286,1425600,-0.411528655556976,0,39.57024335861206,1188,"{'default': {'policy_loss': -0.09775976091623306, 'vf_explained_var': 0.3191269338130951, 'vf_loss': 81.13760375976562, 'kl': 0.007903113029897213, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 4.9296722412109375, 'total_loss': 81.08035278320312}, 'sample_time_ms': 38546.858, 'num_steps_trained': 1425600, 'num_steps_sampled': 1425600, 'update_time_ms': 2.749, 'grad_time_ms': 378.758, 'load_time_ms': 0.691}",1188,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+46294.88103723526,77723,8.000000406052667,1200,cda-server-2,46294.88103723526,f93d3d6710754a149751678a58e67540,197,1757101009,1426800,-54.009237321782294,2334300,{},10.157.146.2,False,{},2025-09-05_21-36-49,5.918781725888325,1426800,1.1005133705822523,0,39.718969106674194,1189,"{'default': {'policy_loss': -0.0943647250533104, 'vf_explained_var': 0.32866573333740234, 'vf_loss': 60.48263168334961, 'kl': 0.01510225236415863, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 4.327929973602295, 'total_loss': 60.46567916870117}, 'sample_time_ms': 38746.143, 'num_steps_trained': 1426800, 'num_steps_sampled': 1426800, 'update_time_ms': 2.772, 'grad_time_ms': 376.913, 'load_time_ms': 0.687}",1189,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+46333.83434820175,77907,8.000000400005575,1200,cda-server-2,46333.83434820175,f93d3d6710754a149751678a58e67540,184,1757101048,1428000,-32.00958597971085,2334300,{},10.157.146.2,False,{},2025-09-05_21-37-28,6.554347826086956,1428000,0.12351893841531522,0,38.9533109664917,1190,"{'default': {'policy_loss': -0.11648484319448471, 'vf_explained_var': 0.3340727388858795, 'vf_loss': 56.77426528930664, 'kl': 0.008338268846273422, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 4.629159927368164, 'total_loss': 56.70051574707031}, 'sample_time_ms': 38809.945, 'num_steps_trained': 1428000, 'num_steps_sampled': 1428000, 'update_time_ms': 2.765, 'grad_time_ms': 375.143, 'load_time_ms': 0.694}",1190,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+46371.762206315994,78077,8.000000400000062,1200,cda-server-2,46371.762206315994,f93d3d6710754a149751678a58e67540,170,1757101086,1429200,-49.940121034523656,2334300,{},10.157.146.2,False,{},2025-09-05_21-38-06,7.141176470588236,1429200,-0.810945082981313,0,37.927858114242554,1191,"{'default': {'policy_loss': -0.10294504463672638, 'vf_explained_var': 0.28148823976516724, 'vf_loss': 72.8946304321289, 'kl': 0.007798169273883104, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.4195051193237305, 'total_loss': 72.83165740966797}, 'sample_time_ms': 38733.503, 'num_steps_trained': 1429200, 'num_steps_sampled': 1429200, 'update_time_ms': 2.612, 'grad_time_ms': 374.943, 'load_time_ms': 0.686}",1191,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+46409.95107126236,78247,8.000000400026163,1200,cda-server-2,46409.95107126236,f93d3d6710754a149751678a58e67540,170,1757101124,1430400,-39.59708481979715,2334300,{},10.157.146.2,False,{},2025-09-05_21-38-44,7.176470588235294,1430400,-0.8495518048953513,0,38.188864946365356,1192,"{'default': {'policy_loss': -0.11463054269552231, 'vf_explained_var': 0.29236486554145813, 'vf_loss': 56.94293975830078, 'kl': 0.009777948260307312, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.4722161293029785, 'total_loss': 56.87843322753906}, 'sample_time_ms': 38587.771, 'num_steps_trained': 1430400, 'num_steps_sampled': 1430400, 'update_time_ms': 2.619, 'grad_time_ms': 375.563, 'load_time_ms': 0.695}",1192,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+46448.74782252312,78430,8.000043937382149,1200,cda-server-2,46448.74782252312,f93d3d6710754a149751678a58e67540,183,1757101163,1431600,-54.55017199496605,2334300,{},10.157.146.2,False,{},2025-09-05_21-39-23,6.524590163934426,1431600,0.12451887319856099,0,38.796751260757446,1193,"{'default': {'policy_loss': -0.11253020167350769, 'vf_explained_var': 0.29754650592803955, 'vf_loss': 74.29521179199219, 'kl': 0.009150550700724125, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 4.842074871063232, 'total_loss': 74.22958374023438}, 'sample_time_ms': 38465.061, 'num_steps_trained': 1431600, 'num_steps_sampled': 1431600, 'update_time_ms': 2.615, 'grad_time_ms': 372.64, 'load_time_ms': 0.679}",1193,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+46487.396542310715,78588,8.00009739127404,1200,cda-server-2,46487.396542310715,f93d3d6710754a149751678a58e67540,158,1757101201,1432800,-45.30611140418321,2334300,{},10.157.146.2,False,{},2025-09-05_21-40-01,7.493670886075949,1432800,-1.3159926374488566,0,38.648719787597656,1194,"{'default': {'policy_loss': -0.11438347399234772, 'vf_explained_var': 0.3005564212799072, 'vf_loss': 63.3677978515625, 'kl': 0.008048620074987411, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 6.078091144561768, 'total_loss': 63.29467010498047}, 'sample_time_ms': 38364.441, 'num_steps_trained': 1432800, 'num_steps_sampled': 1432800, 'update_time_ms': 2.587, 'grad_time_ms': 373.669, 'load_time_ms': 0.691}",1194,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+46524.97976446152,78763,6.000629126640623,1200,cda-server-2,46524.97976446152,f93d3d6710754a149751678a58e67540,175,1757101239,1434000,-61.20592010368978,2334300,{},10.157.146.2,False,{},2025-09-05_21-40-39,6.982857142857143,1434000,-0.6347567100648794,0,37.58322215080261,1195,"{'default': {'policy_loss': -0.10474840551614761, 'vf_explained_var': 0.3302365243434906, 'vf_loss': 70.17537689208984, 'kl': 0.013413540087640285, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 4.972352504730225, 'total_loss': 70.13937377929688}, 'sample_time_ms': 38235.324, 'num_steps_trained': 1434000, 'num_steps_sampled': 1434000, 'update_time_ms': 2.566, 'grad_time_ms': 372.858, 'load_time_ms': 0.697}",1195,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+46563.44684267044,78964,8.000000400002142,1200,cda-server-2,46563.44684267044,f93d3d6710754a149751678a58e67540,201,1757101277,1435200,-46.59071558783849,2334300,{},10.157.146.2,False,{},2025-09-05_21-41-17,5.91044776119403,1435200,1.1215227727795953,0,38.46707820892334,1196,"{'default': {'policy_loss': -0.10129693895578384, 'vf_explained_var': 0.3422142267227173, 'vf_loss': 44.55157470703125, 'kl': 0.007658388931304216, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 4.165820121765137, 'total_loss': 44.489532470703125}, 'sample_time_ms': 38254.803, 'num_steps_trained': 1435200, 'num_steps_sampled': 1435200, 'update_time_ms': 2.55, 'grad_time_ms': 373.338, 'load_time_ms': 0.69}",1196,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+46602.010795116425,79163,8.000000402315713,1200,cda-server-2,46602.010795116425,f93d3d6710754a149751678a58e67540,199,1757101316,1436400,-37.477268730236425,2334300,{},10.157.146.2,False,{},2025-09-05_21-41-56,6.085427135678392,1436400,0.7778221915919288,0,38.56395244598389,1197,"{'default': {'policy_loss': -0.09788880497217178, 'vf_explained_var': 0.3950332999229431, 'vf_loss': 35.08272171020508, 'kl': 0.007198091130703688, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 4.130231857299805, 'total_loss': 35.021728515625}, 'sample_time_ms': 38262.369, 'num_steps_trained': 1436400, 'num_steps_sampled': 1436400, 'update_time_ms': 2.546, 'grad_time_ms': 370.756, 'load_time_ms': 0.695}",1197,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+46641.59969210625,79348,8.000000400000065,1200,cda-server-2,46641.59969210625,f93d3d6710754a149751678a58e67540,185,1757101356,1437600,-36.508293231717424,2334300,{},10.157.146.2,False,{},2025-09-05_21-42-36,6.47027027027027,1437600,0.22373830381207094,0,39.58889698982239,1198,"{'default': {'policy_loss': -0.11158311367034912, 'vf_explained_var': 0.3714887499809265, 'vf_loss': 44.0656623840332, 'kl': 0.00949056725949049, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 4.255941390991211, 'total_loss': 44.00273132324219}, 'sample_time_ms': 38262.664, 'num_steps_trained': 1437600, 'num_steps_sampled': 1437600, 'update_time_ms': 2.531, 'grad_time_ms': 372.308, 'load_time_ms': 0.698}",1198,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+46680.25517177582,79549,8.000000400133532,1200,cda-server-2,46680.25517177582,f93d3d6710754a149751678a58e67540,201,1757101394,1438800,-26.353190454350973,2334300,{},10.157.146.2,False,{},2025-09-05_21-43-14,5.9502487562189055,1438800,1.0464487388629322,0,38.65547966957092,1199,"{'default': {'policy_loss': -0.1064964234828949, 'vf_explained_var': 0.40150123834609985, 'vf_loss': 27.639299392700195, 'kl': 0.00929524376988411, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 4.2128424644470215, 'total_loss': 27.580448150634766}, 'sample_time_ms': 38156.145, 'num_steps_trained': 1438800, 'num_steps_sampled': 1438800, 'update_time_ms': 2.484, 'grad_time_ms': 372.538, 'load_time_ms': 0.69}",1199,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+46719.53944039345,79747,8.000000400059175,1200,cda-server-2,46719.53944039345,f93d3d6710754a149751678a58e67540,198,1757101433,1440000,-52.11421743847046,2334300,{},10.157.146.2,False,{},2025-09-05_21-43-53,6.095959595959596,1440000,0.814173585302958,0,39.284268617630005,1200,"{'default': {'policy_loss': -0.08705949783325195, 'vf_explained_var': 0.32227176427841187, 'vf_loss': 57.37400436401367, 'kl': 0.007209544535726309, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 4.084155082702637, 'total_loss': 57.32389831542969}, 'sample_time_ms': 38188.87, 'num_steps_trained': 1440000, 'num_steps_sampled': 1440000, 'update_time_ms': 2.471, 'grad_time_ms': 372.928, 'load_time_ms': 0.692}",1200,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+46757.97894573212,79922,8.00000040000052,1200,cda-server-2,46757.97894573212,f93d3d6710754a149751678a58e67540,175,1757101472,1441200,-40.35315032687996,2334300,{},10.157.146.2,False,{},2025-09-05_21-44-32,6.7542857142857144,1441200,-0.22087364817504543,0,38.43950533866882,1201,"{'default': {'policy_loss': -0.10885217785835266, 'vf_explained_var': 0.3320154547691345, 'vf_loss': 65.04464721679688, 'kl': 0.008312225341796875, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 5.0677995681762695, 'total_loss': 64.97840881347656}, 'sample_time_ms': 38239.535, 'num_steps_trained': 1441200, 'num_steps_sampled': 1441200, 'update_time_ms': 2.478, 'grad_time_ms': 373.387, 'load_time_ms': 0.691}",1201,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+46797.331588983536,80102,8.000000401452203,1200,cda-server-2,46797.331588983536,f93d3d6710754a149751678a58e67540,180,1757101511,1442400,-63.448587371818434,2334300,{},10.157.146.2,False,{},2025-09-05_21-45-11,6.766666666666667,1442400,-0.2925434437960404,0,39.35264325141907,1202,"{'default': {'policy_loss': -0.10998581349849701, 'vf_explained_var': 0.309430867433548, 'vf_loss': 84.11141967773438, 'kl': 0.007297995965927839, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 5.125781059265137, 'entropy': 4.834565162658691, 'total_loss': 84.03884887695312}, 'sample_time_ms': 38355.555, 'num_steps_trained': 1442400, 'num_steps_sampled': 1442400, 'update_time_ms': 2.482, 'grad_time_ms': 373.767, 'load_time_ms': 0.692}",1202,"{'num_gpus': 0, 'output': None, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'synchronize_filters': True, 'lambda': 1.0, 'env_config': {'generalize': False, 'run_valid': False}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'kl_coeff': 0.2, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'monitor': False, 'num_workers': 3, 'clip_param': 0.3, 'postprocess_inputs': False, 'env': 'Zhenxin_S_FC', 'clip_actions': True, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'output_compress_columns': ['obs', 'new_obs'], 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+46762.35824751854,79932,8.000087616994353,1200,cda-server-2,42.81880712509155,f93d3d6710754a149751678a58e67540,185,1757101590,1200,-35.95899028318915,2334309,{},10.157.146.2,False,{},2025-09-05_21-46-30,6.454054054054054,1441200,0.22059048714243149,0,42.81880712509155,1201,"{'default': {'policy_loss': -0.0949096530675888, 'vf_explained_var': 0.3307487964630127, 'vf_loss': 44.666290283203125, 'kl': 0.008218212053179741, 'entropy': 4.739095687866211, 'cur_kl_coeff': 5.125781059265137, 'cur_lr': 4.999999873689376e-05, 'total_loss': 44.61350631713867}, 'sample_time_ms': 41713.791, 'num_steps_trained': 1441200, 'num_steps_sampled': 1441200, 'update_time_ms': 404.474, 'grad_time_ms': 648.378, 'load_time_ms': 32.439}",1,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+46801.00995707512,80127,10.0,1200,cda-server-2,81.47051668167114,f93d3d6710754a149751678a58e67540,195,1757101628,2400,-23.557779174494073,2334309,{},10.157.146.2,False,{},2025-09-05_21-47-08,6.0717948717948715,1442400,0.8361015248275275,0,38.65170955657959,1202,"{'default': {'policy_loss': -0.13447050750255585, 'vf_explained_var': 0.40961048007011414, 'vf_loss': 26.359453201293945, 'kl': 0.04370443522930145, 'entropy': 4.030953407287598, 'cur_kl_coeff': 0.20000000298023224, 'cur_lr': 4.999999873689376e-05, 'total_loss': 26.233722686767578}, 'sample_time_ms': 39983.126, 'num_steps_trained': 1442400, 'num_steps_sampled': 1442400, 'update_time_ms': 203.395, 'grad_time_ms': 519.433, 'load_time_ms': 16.618}",2,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+46839.50114154816,80319,8.000000400015564,1200,cda-server-2,119.96170115470886,f93d3d6710754a149751678a58e67540,192,1757101667,3600,-29.97563343735021,2334309,{},10.157.146.2,False,{},2025-09-05_21-47-47,6.338541666666667,1443600,0.5006679706390685,0,38.49118447303772,1203,"{'default': {'policy_loss': -0.1372520476579666, 'vf_explained_var': 0.3701402246952057, 'vf_loss': 38.25960922241211, 'kl': 0.04826319217681885, 'entropy': 4.544256210327148, 'cur_kl_coeff': 0.30000001192092896, 'cur_lr': 4.999999873689376e-05, 'total_loss': 38.136837005615234}, 'sample_time_ms': 39356.941, 'num_steps_trained': 1443600, 'num_steps_sampled': 1443600, 'update_time_ms': 136.44, 'grad_time_ms': 472.282, 'load_time_ms': 11.319}",3,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+46877.76012802124,80510,8.000000399999957,1200,cda-server-2,158.22068762779236,f93d3d6710754a149751678a58e67540,191,1757101705,4800,-45.21136625664018,2334309,{},10.157.146.2,False,{},2025-09-05_21-48-25,6.277486910994765,1444800,0.5230718146224435,0,38.258986473083496,1204,"{'default': {'policy_loss': -0.13383665680885315, 'vf_explained_var': 0.361124187707901, 'vf_loss': 38.87837219238281, 'kl': 0.036352407187223434, 'entropy': 4.376911640167236, 'cur_kl_coeff': 0.44999995827674866, 'cur_lr': 4.999999873689376e-05, 'total_loss': 38.760894775390625}, 'sample_time_ms': 38989.45, 'num_steps_trained': 1444800, 'num_steps_sampled': 1444800, 'update_time_ms': 102.892, 'grad_time_ms': 445.007, 'load_time_ms': 8.645}",4,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+46916.234776973724,80701,6.001482185544353,1200,cda-server-2,196.6953365802765,f93d3d6710754a149751678a58e67540,191,1757101744,6000,-50.76506031741909,2334309,{},10.157.146.2,False,{},2025-09-05_21-49-04,6.225130890052356,1446000,0.6744661557606068,0,38.47464895248413,1205,"{'default': {'policy_loss': -0.10358817875385284, 'vf_explained_var': 0.3180692493915558, 'vf_loss': 49.06149673461914, 'kl': 0.08759749680757523, 'entropy': 4.678619384765625, 'cur_kl_coeff': 0.675000011920929, 'cur_lr': 4.999999873689376e-05, 'total_loss': 49.01704025268555}, 'sample_time_ms': 38811.326, 'num_steps_trained': 1446000, 'num_steps_sampled': 1446000, 'update_time_ms': 82.839, 'grad_time_ms': 429.378, 'load_time_ms': 7.072}",5,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+46956.19604206085,80898,6.001176470992208,1200,cda-server-2,236.65660166740417,f93d3d6710754a149751678a58e67540,197,1757101783,7200,-29.700607276201602,2334309,{},10.157.146.2,False,{},2025-09-05_21-49-43,6.1725888324873095,1447200,0.7040904277875617,0,39.961265087127686,1206,"{'default': {'policy_loss': -0.12596414983272552, 'vf_explained_var': 0.42595767974853516, 'vf_loss': 29.88062286376953, 'kl': 0.02424033172428608, 'entropy': 4.292487621307373, 'cur_kl_coeff': 1.0125000476837158, 'cur_lr': 4.999999873689376e-05, 'total_loss': 29.77920150756836}, 'sample_time_ms': 38936.465, 'num_steps_trained': 1447200, 'num_steps_sampled': 1447200, 'update_time_ms': 69.438, 'grad_time_ms': 422.831, 'load_time_ms': 6.037}",6,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+46995.83706998825,81093,8.00000045156916,1200,cda-server-2,276.29762959480286,f93d3d6710754a149751678a58e67540,195,1757101823,8400,-30.835806939456667,2334309,{},10.157.146.2,False,{},2025-09-05_21-50-23,6.01025641025641,1448400,0.9600907973929671,0,39.64102792739868,1207,"{'default': {'policy_loss': -0.12063748389482498, 'vf_explained_var': 0.34623685479164124, 'vf_loss': 32.559173583984375, 'kl': 0.01914852112531662, 'entropy': 4.208317279815674, 'cur_kl_coeff': 1.5187499523162842, 'cur_lr': 4.999999873689376e-05, 'total_loss': 32.46761703491211}, 'sample_time_ms': 38982.402, 'num_steps_trained': 1448400, 'num_steps_sampled': 1448400, 'update_time_ms': 59.925, 'grad_time_ms': 415.81, 'load_time_ms': 5.262}",7,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+47035.220418930054,81285,8.000000400171846,1200,cda-server-2,315.68097853660583,f93d3d6710754a149751678a58e67540,192,1757101863,9600,-36.03854865306635,2334309,{},10.157.146.2,False,{},2025-09-05_21-51-03,6.338541666666667,1449600,0.45323365227682544,0,39.38334894180298,1208,"{'default': {'policy_loss': -0.12053803354501724, 'vf_explained_var': 0.3680611252784729, 'vf_loss': 38.41837692260742, 'kl': 0.020434748381376266, 'entropy': 4.442963123321533, 'cur_kl_coeff': 1.5187499523162842, 'cur_lr': 4.999999873689376e-05, 'total_loss': 38.32887649536133}, 'sample_time_ms': 38983.552, 'num_steps_trained': 1449600, 'num_steps_sampled': 1449600, 'update_time_ms': 52.773, 'grad_time_ms': 411.658, 'load_time_ms': 4.695}",8,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+47073.911309719086,81466,8.000000503758317,1200,cda-server-2,354.3718693256378,f93d3d6710754a149751678a58e67540,181,1757101901,10800,-42.79471430581194,2334309,{},10.157.146.2,False,{},2025-09-05_21-51-41,6.6464088397790055,1450800,-0.08640131876590947,0,38.69089078903198,1209,"{'default': {'policy_loss': -0.12671631574630737, 'vf_explained_var': 0.3624003529548645, 'vf_loss': 56.46647644042969, 'kl': 0.014798696152865887, 'entropy': 4.322478294372559, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 56.373470306396484}, 'sample_time_ms': 38907.101, 'num_steps_trained': 1450800, 'num_steps_sampled': 1450800, 'update_time_ms': 47.219, 'grad_time_ms': 408.857, 'load_time_ms': 4.25}",9,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+47112.963074207306,81638,6.0014282955405704,1200,cda-server-2,393.42363381385803,f93d3d6710754a149751678a58e67540,172,1757101940,12000,-39.88377935984129,2334309,{},10.157.146.2,False,{},2025-09-05_21-52-20,6.680232558139535,1452000,-0.12009366948955597,0,39.051764488220215,1210,"{'default': {'policy_loss': -0.12237469106912613, 'vf_explained_var': 0.3214374780654907, 'vf_loss': 58.75821304321289, 'kl': 0.015512551181018353, 'entropy': 5.004978179931641, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 58.67117691040039}, 'sample_time_ms': 38883.358, 'num_steps_trained': 1452000, 'num_steps_sampled': 1452000, 'update_time_ms': 42.775, 'grad_time_ms': 405.26, 'load_time_ms': 3.895}",10,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+47151.22234392166,81816,6.000347343582869,1200,cda-server-2,431.6829035282135,f93d3d6710754a149751678a58e67540,178,1757101979,13200,-44.368843116582205,2334309,{},10.157.146.2,False,{},2025-09-05_21-52-59,7.022471910112359,1453200,-0.6338650379435915,0,38.25926971435547,1211,"{'default': {'policy_loss': -0.11177854984998703, 'vf_explained_var': 0.3188992738723755, 'vf_loss': 64.14400482177734, 'kl': 0.013535390608012676, 'entropy': 4.967001914978027, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 64.06306457519531}, 'sample_time_ms': 38498.982, 'num_steps_trained': 1453200, 'num_steps_sampled': 1453200, 'update_time_ms': 2.631, 'grad_time_ms': 378.411, 'load_time_ms': 0.727}",11,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+47190.27602529526,82004,8.000000501153908,1200,cda-server-2,470.7365849018097,f93d3d6710754a149751678a58e67540,188,1757102018,14400,-77.90198830708181,2334309,{},10.157.146.2,False,{},2025-09-05_21-53-38,6.297872340425532,1454400,0.4643216474109206,0,39.05368137359619,1212,"{'default': {'policy_loss': -0.11598057299852371, 'vf_explained_var': 0.3558686077594757, 'vf_loss': 63.12425231933594, 'kl': 0.01240842416882515, 'entropy': 4.777616500854492, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 63.03654098510742}, 'sample_time_ms': 38541.249, 'num_steps_trained': 1454400, 'num_steps_sampled': 1454400, 'update_time_ms': 2.668, 'grad_time_ms': 376.294, 'load_time_ms': 0.717}",12,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+47229.73130631447,82185,8.000000399999921,1200,cda-server-2,510.1918659210205,f93d3d6710754a149751678a58e67540,181,1757102057,15600,-54.65295168509846,2334309,{},10.157.146.2,False,{},2025-09-05_21-54-17,6.679558011049724,1455600,-0.13164425879397704,0,39.455281019210815,1213,"{'default': {'policy_loss': -0.1258002668619156, 'vf_explained_var': 0.37512168288230896, 'vf_loss': 67.7354736328125, 'kl': 0.014679953455924988, 'entropy': 4.436418056488037, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 67.64311218261719}, 'sample_time_ms': 38639.389, 'num_steps_trained': 1455600, 'num_steps_sampled': 1455600, 'update_time_ms': 2.683, 'grad_time_ms': 374.592, 'load_time_ms': 0.709}",13,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+47269.05489897728,82362,8.000000400072132,1200,cda-server-2,549.5154585838318,f93d3d6710754a149751678a58e67540,177,1757102097,16800,-59.73562876903715,2334309,{},10.157.146.2,False,{},2025-09-05_21-54-57,6.830508474576271,1456800,-0.4314390590020732,0,39.32359266281128,1214,"{'default': {'policy_loss': -0.11443718522787094, 'vf_explained_var': 0.35381948947906494, 'vf_loss': 57.64957046508789, 'kl': 0.01558062806725502, 'entropy': 4.689682483673096, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 57.57062530517578}, 'sample_time_ms': 38743.589, 'num_steps_trained': 1456800, 'num_steps_sampled': 1456800, 'update_time_ms': 2.703, 'grad_time_ms': 376.901, 'load_time_ms': 0.715}",14,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+47308.21302676201,82548,8.000509463953877,1200,cda-server-2,588.6735863685608,f93d3d6710754a149751678a58e67540,186,1757102136,18000,-80.49661440028632,2334309,{},10.157.146.2,False,{},2025-09-05_21-55-36,6.446236559139785,1458000,0.20861522525831488,0,39.158127784729004,1215,"{'default': {'policy_loss': -0.11074704676866531, 'vf_explained_var': 0.2768966853618622, 'vf_loss': 99.58460235595703, 'kl': 0.012570950202643871, 'entropy': 4.486070156097412, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 99.50249481201172}, 'sample_time_ms': 38810.127, 'num_steps_trained': 1458000, 'num_steps_sampled': 1458000, 'update_time_ms': 2.694, 'grad_time_ms': 378.728, 'load_time_ms': 0.704}",15,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+47347.54428052902,82736,6.001785874880037,1200,cda-server-2,628.0048401355743,f93d3d6710754a149751678a58e67540,188,1757102175,19200,-38.83631729276626,2334309,{},10.157.146.2,False,{},2025-09-05_21-56-15,6.3936170212765955,1459200,0.29048084374719746,0,39.33125376701355,1216,"{'default': {'policy_loss': -0.12163589894771576, 'vf_explained_var': 0.344220370054245, 'vf_loss': 45.08348083496094, 'kl': 0.013819948770105839, 'entropy': 4.225754261016846, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 44.99333190917969}, 'sample_time_ms': 38749.838, 'num_steps_trained': 1459200, 'num_steps_sampled': 1459200, 'update_time_ms': 2.719, 'grad_time_ms': 376.028, 'load_time_ms': 0.683}",16,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+47387.353395462036,82947,8.00000040001646,1200,cda-server-2,667.8139550685883,f93d3d6710754a149751678a58e67540,211,1757102215,20400,-37.57567795417372,2334309,{},10.157.146.2,False,{},2025-09-05_21-56-55,5.687203791469194,1460400,1.4226940956480139,0,39.809114933013916,1217,"{'default': {'policy_loss': -0.09990496188402176, 'vf_explained_var': 0.3759240210056305, 'vf_loss': 33.66835021972656, 'kl': 0.013001400977373123, 'entropy': 3.488776206970215, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 33.59806823730469}, 'sample_time_ms': 38765.837, 'num_steps_trained': 1460400, 'num_steps_sampled': 1460400, 'update_time_ms': 2.686, 'grad_time_ms': 376.85, 'load_time_ms': 0.701}",17,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+47426.79783797264,83147,6.0017384835027885,1200,cda-server-2,707.2583975791931,f93d3d6710754a149751678a58e67540,200,1757102254,21600,-47.60710531921385,2334309,{},10.157.146.2,False,{},2025-09-05_21-57-34,6.015,1461600,0.8982375903015489,0,39.44444251060486,1218,"{'default': {'policy_loss': -0.11024655401706696, 'vf_explained_var': 0.3803577423095703, 'vf_loss': 51.77638244628906, 'kl': 0.01401712466031313, 'entropy': 3.822809934616089, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 51.69807052612305}, 'sample_time_ms': 38772.126, 'num_steps_trained': 1461600, 'num_steps_sampled': 1461600, 'update_time_ms': 2.682, 'grad_time_ms': 376.643, 'load_time_ms': 0.707}",18,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+47465.560520887375,83321,8.000000399999951,1200,cda-server-2,746.021080493927,f93d3d6710754a149751678a58e67540,174,1757102293,22800,-33.51604131959279,2334309,{},10.157.146.2,False,{},2025-09-05_21-58-13,6.775862068965517,1462800,-0.3222330761474993,0,38.76268291473389,1219,"{'default': {'policy_loss': -0.12400710582733154, 'vf_explained_var': 0.3631223440170288, 'vf_loss': 44.66061019897461, 'kl': 0.017322221770882607, 'entropy': 4.845818519592285, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 44.57606506347656}, 'sample_time_ms': 38780.251, 'num_steps_trained': 1462800, 'num_steps_sampled': 1462800, 'update_time_ms': 2.679, 'grad_time_ms': 375.732, 'load_time_ms': 0.704}",19,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+47504.91375398636,83524,8.00000040000156,1200,cda-server-2,785.3743135929108,f93d3d6710754a149751678a58e67540,203,1757102332,24000,-27.830267002145952,2334309,{},10.157.146.2,False,{},2025-09-05_21-58-52,5.995073891625616,1464000,0.9516198803848064,0,39.353233098983765,1220,"{'default': {'policy_loss': -0.11081495136022568, 'vf_explained_var': 0.4109557867050171, 'vf_loss': 24.97028160095215, 'kl': 0.017219197005033493, 'entropy': 3.4181478023529053, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 24.898693084716797}, 'sample_time_ms': 38811.768, 'num_steps_trained': 1464000, 'num_steps_sampled': 1464000, 'update_time_ms': 2.633, 'grad_time_ms': 374.426, 'load_time_ms': 0.698}",20,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+47543.80919456482,83704,8.000000400002163,1200,cda-server-2,824.2697541713715,f93d3d6710754a149751678a58e67540,180,1757102371,25200,-75.50116275219513,2334309,{},10.157.146.2,False,{},2025-09-05_21-59-31,6.677777777777778,1465200,-0.07378214379137399,0,38.89544057846069,1221,"{'default': {'policy_loss': -0.11286144703626633, 'vf_explained_var': 0.3047105669975281, 'vf_loss': 115.46392059326172, 'kl': 0.016012877225875854, 'entropy': 5.214932918548584, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 115.38753509521484}, 'sample_time_ms': 38877.201, 'num_steps_trained': 1465200, 'num_steps_sampled': 1465200, 'update_time_ms': 2.677, 'grad_time_ms': 372.631, 'load_time_ms': 0.686}",21,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+47583.03932237625,83918,6.000166460038978,1200,cda-server-2,863.4998819828033,f93d3d6710754a149751678a58e67540,214,1757102411,26400,-36.66684855016996,2334309,{},10.157.146.2,False,{},2025-09-05_22-00-11,5.546728971962617,1466400,1.6041085787753966,0,39.230127811431885,1222,"{'default': {'policy_loss': -0.10716117918491364, 'vf_explained_var': 0.43413040041923523, 'vf_loss': 37.044349670410156, 'kl': 0.014936394058167934, 'entropy': 3.438713550567627, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 36.971214294433594}, 'sample_time_ms': 38894.095, 'num_steps_trained': 1466400, 'num_steps_sampled': 1466400, 'update_time_ms': 2.642, 'grad_time_ms': 373.436, 'load_time_ms': 0.693}",22,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+47623.97882294655,84131,8.000000400008547,1200,cda-server-2,904.4393825531006,f93d3d6710754a149751678a58e67540,213,1757102452,27600,-36.89382245878838,2334309,{},10.157.146.2,False,{},2025-09-05_22-00-52,5.615023474178404,1467600,1.5182994332574558,0,40.93950057029724,1223,"{'default': {'policy_loss': -0.11684319376945496, 'vf_explained_var': 0.3624832332134247, 'vf_loss': 31.940988540649414, 'kl': 0.01382778026163578, 'entropy': 3.0893030166625977, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 31.855648040771484}, 'sample_time_ms': 39039.714, 'num_steps_trained': 1467600, 'num_steps_sampled': 1467600, 'update_time_ms': 2.623, 'grad_time_ms': 376.199, 'load_time_ms': 0.704}",23,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+47662.65511012077,84341,8.000000419779765,1200,cda-server-2,943.1156697273254,f93d3d6710754a149751678a58e67540,210,1757102490,28800,-36.78204054976357,2334309,{},10.157.146.2,False,{},2025-09-05_22-01-30,5.804761904761905,1468800,1.3048326456620565,0,38.67628717422485,1224,"{'default': {'policy_loss': -0.10039045661687851, 'vf_explained_var': 0.3817479908466339, 'vf_loss': 35.40732955932617, 'kl': 0.015428673475980759, 'entropy': 3.7099485397338867, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 35.34208679199219}, 'sample_time_ms': 38975.62, 'num_steps_trained': 1468800, 'num_steps_sampled': 1468800, 'update_time_ms': 2.645, 'grad_time_ms': 375.523, 'load_time_ms': 0.706}",24,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+47701.164185762405,84504,10.0,1200,cda-server-2,981.6247453689575,f93d3d6710754a149751678a58e67540,163,1757102529,30000,-78.26665856320551,2334309,{},10.157.146.2,False,{},2025-09-05_22-02-09,7.2392638036809815,1470000,-1.0109838470170818,0,38.50907564163208,1225,"{'default': {'policy_loss': -0.13272608816623688, 'vf_explained_var': 0.3285239636898041, 'vf_loss': 115.18812561035156, 'kl': 0.014843559823930264, 'entropy': 5.69423770904541, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 115.08921813964844}, 'sample_time_ms': 38911.379, 'num_steps_trained': 1470000, 'num_steps_sampled': 1470000, 'update_time_ms': 2.633, 'grad_time_ms': 374.906, 'load_time_ms': 0.712}",25,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+47740.16259598732,84704,8.00000040001035,1200,cda-server-2,1020.6231555938721,f93d3d6710754a149751678a58e67540,200,1757102568,31200,-56.83347009561257,2334309,{},10.157.146.2,False,{},2025-09-05_22-02-48,6.08,1471200,0.8249445239570116,0,38.99841022491455,1226,"{'default': {'policy_loss': -0.1054048016667366, 'vf_explained_var': 0.343726247549057, 'vf_loss': 61.48265075683594, 'kl': 0.01461585983633995, 'entropy': 4.071898460388184, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 61.41054153442383}, 'sample_time_ms': 38876.82, 'num_steps_trained': 1471200, 'num_steps_sampled': 1471200, 'update_time_ms': 2.637, 'grad_time_ms': 376.197, 'load_time_ms': 0.722}",26,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+47780.84690093994,84899,8.000000400000328,1200,cda-server-2,1061.3074605464935,f93d3d6710754a149751678a58e67540,195,1757102609,32400,-39.602581128610396,2334309,{},10.157.146.2,False,{},2025-09-05_22-03-29,6.164102564102564,1472400,0.6760221545013841,0,40.68430495262146,1227,"{'default': {'policy_loss': -0.10419557988643646, 'vf_explained_var': 0.3798348605632782, 'vf_loss': 40.934043884277344, 'kl': 0.017240455374121666, 'entropy': 4.000186443328857, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 40.86912536621094}, 'sample_time_ms': 38964.69, 'num_steps_trained': 1472400, 'num_steps_sampled': 1472400, 'update_time_ms': 2.659, 'grad_time_ms': 375.854, 'load_time_ms': 0.71}",27,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+47820.933233737946,85115,8.000000403254445,1200,cda-server-2,1101.3937933444977,f93d3d6710754a149751678a58e67540,216,1757102649,33600,-82.33753933222849,2334309,{},10.157.146.2,False,{},2025-09-05_22-04-09,5.564814814814815,1473600,1.542185780042617,0,40.08633279800415,1228,"{'default': {'policy_loss': -0.10369937866926193, 'vf_explained_var': 0.30433544516563416, 'vf_loss': 84.26398468017578, 'kl': 0.010918676853179932, 'entropy': 3.0200562477111816, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 84.1851577758789}, 'sample_time_ms': 39028.913, 'num_steps_trained': 1473600, 'num_steps_sampled': 1473600, 'update_time_ms': 2.68, 'grad_time_ms': 375.789, 'load_time_ms': 0.701}",28,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+47860.76788544655,85334,8.000000400002936,1200,cda-server-2,1141.2284450531006,f93d3d6710754a149751678a58e67540,219,1757102688,34800,-40.72598028438501,2334309,{},10.157.146.2,False,{},2025-09-05_22-04-48,5.442922374429224,1474800,1.7955498823125218,0,39.834651708602905,1229,"{'default': {'policy_loss': -0.11048389226198196, 'vf_explained_var': 0.36175739765167236, 'vf_loss': 38.77461624145508, 'kl': 0.012429031543433666, 'entropy': 3.103705883026123, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 38.69245529174805}, 'sample_time_ms': 39137.602, 'num_steps_trained': 1474800, 'num_steps_sampled': 1474800, 'update_time_ms': 2.64, 'grad_time_ms': 374.287, 'load_time_ms': 0.712}",29,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+47900.10248661041,85556,6.001519892459182,1200,cda-server-2,1180.5630462169647,f93d3d6710754a149751678a58e67540,222,1757102728,36000,-33.9147878726761,2334309,{},10.157.146.2,False,{},2025-09-05_22-05-28,5.391891891891892,1476000,1.8789845761178832,0,39.334601163864136,1230,"{'default': {'policy_loss': -0.10218017548322678, 'vf_explained_var': 0.41314688324928284, 'vf_loss': 24.59617805480957, 'kl': 0.014486802741885185, 'entropy': 2.7592883110046387, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 24.527000427246094}, 'sample_time_ms': 39135.407, 'num_steps_trained': 1476000, 'num_steps_sampled': 1476000, 'update_time_ms': 2.67, 'grad_time_ms': 374.601, 'load_time_ms': 0.711}",30,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+47940.09354019165,85773,8.000000400001321,1200,cda-server-2,1220.5540997982025,f93d3d6710754a149751678a58e67540,217,1757102768,37200,-31.041409014144705,2334309,{},10.157.146.2,False,{},2025-09-05_22-06-08,5.52073732718894,1477200,1.6835896257918668,0,39.99105358123779,1231,"{'default': {'policy_loss': -0.10039569437503815, 'vf_explained_var': 0.3675018548965454, 'vf_loss': 29.68028450012207, 'kl': 0.013000884093344212, 'entropy': 2.9756250381469727, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 29.60950469970703}, 'sample_time_ms': 39243.694, 'num_steps_trained': 1477200, 'num_steps_sampled': 1477200, 'update_time_ms': 2.689, 'grad_time_ms': 375.829, 'load_time_ms': 0.713}",31,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+47979.87053370476,85985,8.000000400612223,1200,cda-server-2,1260.3310933113098,f93d3d6710754a149751678a58e67540,212,1757102808,38400,-39.98693690382163,2334309,{},10.157.146.2,False,{},2025-09-05_22-06-48,5.669811320754717,1478400,1.4846909782255604,0,39.7769935131073,1232,"{'default': {'policy_loss': -0.10103856027126312, 'vf_explained_var': 0.3769387900829315, 'vf_loss': 40.58894729614258, 'kl': 0.011487948708236217, 'entropy': 3.4028828144073486, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 40.51408386230469}, 'sample_time_ms': 39299.677, 'num_steps_trained': 1478400, 'num_steps_sampled': 1478400, 'update_time_ms': 2.691, 'grad_time_ms': 374.543, 'load_time_ms': 0.702}",32,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+48019.094207286835,86185,8.000000400005602,1200,cda-server-2,1299.5547668933868,f93d3d6710754a149751678a58e67540,200,1757102847,39600,-33.54838395026169,2334309,{},10.157.146.2,False,{},2025-09-05_22-07-27,5.885,1479600,1.104355688863812,0,39.223673582077026,1233,"{'default': {'policy_loss': -0.10537931323051453, 'vf_explained_var': 0.42940500378608704, 'vf_loss': 36.61042785644531, 'kl': 0.015490438789129257, 'entropy': 3.6247150897979736, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 36.54033660888672}, 'sample_time_ms': 39128.382, 'num_steps_trained': 1479600, 'num_steps_sampled': 1479600, 'update_time_ms': 2.68, 'grad_time_ms': 374.279, 'load_time_ms': 0.696}",33,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+48058.52169060707,86391,6.001101827445421,1200,cda-server-2,1338.982250213623,f93d3d6710754a149751678a58e67540,206,1757102886,40800,-61.263539520460725,2334309,{},10.157.146.2,False,{},2025-09-05_22-08-06,5.985436893203883,1480800,1.0151639239737675,0,39.427483320236206,1234,"{'default': {'policy_loss': -0.1032780259847641, 'vf_explained_var': 0.3696836829185486, 'vf_loss': 36.907772064208984, 'kl': 0.014424330554902554, 'entropy': 3.4543254375457764, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 36.83735656738281}, 'sample_time_ms': 39203.153, 'num_steps_trained': 1480800, 'num_steps_sampled': 1480800, 'update_time_ms': 2.67, 'grad_time_ms': 374.594, 'load_time_ms': 0.703}",34,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+48098.11048269272,86608,6.000345536104869,1200,cda-server-2,1378.5710422992706,f93d3d6710754a149751678a58e67540,217,1757102926,42000,-37.76425905276094,2334309,{},10.157.146.2,False,{},2025-09-05_22-08-46,5.511520737327189,1482000,1.6460818573876295,0,39.58879208564758,1235,"{'default': {'policy_loss': -0.11542893946170807, 'vf_explained_var': 0.3861600160598755, 'vf_loss': 38.5168342590332, 'kl': 0.01466602087020874, 'entropy': 3.1206440925598145, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 38.434814453125}, 'sample_time_ms': 39311.393, 'num_steps_trained': 1482000, 'num_steps_sampled': 1482000, 'update_time_ms': 2.736, 'grad_time_ms': 374.248, 'load_time_ms': 0.702}",35,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+48138.371109485626,86803,8.000000399999923,1200,cda-server-2,1418.8316690921783,f93d3d6710754a149751678a58e67540,195,1757102966,43200,-48.63052725103195,2334309,{},10.157.146.2,False,{},2025-09-05_22-09-26,6.035897435897436,1483200,0.8468415334583387,0,40.260626792907715,1236,"{'default': {'policy_loss': -0.10956788063049316, 'vf_explained_var': 0.4112975001335144, 'vf_loss': 62.26152038574219, 'kl': 0.016550574451684952, 'entropy': 4.053390026092529, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 62.18966293334961}, 'sample_time_ms': 39439.585, 'num_steps_trained': 1483200, 'num_steps_sampled': 1483200, 'update_time_ms': 2.691, 'grad_time_ms': 372.332, 'load_time_ms': 0.693}",36,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+48178.269322156906,87009,8.00000040021152,1200,cda-server-2,1458.7298817634583,f93d3d6710754a149751678a58e67540,206,1757103006,44400,-46.400268206727944,2334309,{},10.157.146.2,False,{},2025-09-05_22-10-06,5.907766990291262,1484400,1.0929910770678926,0,39.89821267127991,1237,"{'default': {'policy_loss': -0.12168420851230621, 'vf_explained_var': 0.3910060226917267, 'vf_loss': 35.31398010253906, 'kl': 0.01458441186696291, 'entropy': 3.7090983390808105, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 35.22551727294922}, 'sample_time_ms': 39362.245, 'num_steps_trained': 1484400, 'num_steps_sampled': 1484400, 'update_time_ms': 2.661, 'grad_time_ms': 371.106, 'load_time_ms': 0.705}",37,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+48218.137130498886,87215,8.000000400498683,1200,cda-server-2,1498.5976901054382,f93d3d6710754a149751678a58e67540,206,1757103046,45600,-44.00512189053135,2334309,{},10.157.146.2,False,{},2025-09-05_22-10-46,5.859223300970874,1485600,1.152415826052293,0,39.86780834197998,1238,"{'default': {'policy_loss': -0.09571091085672379, 'vf_explained_var': 0.44273096323013306, 'vf_loss': 40.2126579284668, 'kl': 0.012121266685426235, 'entropy': 3.3344225883483887, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 40.14455795288086}, 'sample_time_ms': 39340.986, 'num_steps_trained': 1485600, 'num_steps_sampled': 1485600, 'update_time_ms': 2.628, 'grad_time_ms': 370.564, 'load_time_ms': 0.696}",38,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+48258.51054883003,87442,8.000000400362213,1200,cda-server-2,1538.9711084365845,f93d3d6710754a149751678a58e67540,227,1757103086,46800,-33.277430356659806,2334309,{},10.157.146.2,False,{},2025-09-05_22-11-26,5.299559471365638,1486800,2.0418478348318816,0,40.37341833114624,1239,"{'default': {'policy_loss': -0.09438825398683548, 'vf_explained_var': 0.4281969666481018, 'vf_loss': 23.804824829101562, 'kl': 0.012401617132127285, 'entropy': 2.5517663955688477, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 23.738689422607422}, 'sample_time_ms': 39394.111, 'num_steps_trained': 1486800, 'num_steps_sampled': 1486800, 'update_time_ms': 2.661, 'grad_time_ms': 371.224, 'load_time_ms': 0.694}",39,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+48298.534380197525,87669,8.00000040000034,1200,cda-server-2,1578.9949398040771,f93d3d6710754a149751678a58e67540,227,1757103126,48000,-27.182012035541348,2334309,{},10.157.146.2,False,{},2025-09-05_22-12-06,5.308370044052864,1488000,1.9376178372090491,0,40.023831367492676,1240,"{'default': {'policy_loss': -0.10025133192539215, 'vf_explained_var': 0.45105013251304626, 'vf_loss': 22.954294204711914, 'kl': 0.014134202152490616, 'entropy': 2.3688459396362305, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 22.886241912841797}, 'sample_time_ms': 39461.623, 'num_steps_trained': 1488000, 'num_steps_sampled': 1488000, 'update_time_ms': 2.655, 'grad_time_ms': 372.641, 'load_time_ms': 0.7}",40,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+48338.140082359314,87899,8.000000399999935,1200,cda-server-2,1618.600641965866,f93d3d6710754a149751678a58e67540,230,1757103166,49200,-36.754423526648544,2334309,{},10.157.146.2,False,{},2025-09-05_22-12-46,5.143478260869565,1489200,2.2640665027540443,0,39.60570216178894,1241,"{'default': {'policy_loss': -0.105351522564888, 'vf_explained_var': 0.4352569580078125, 'vf_loss': 26.6447696685791, 'kl': 0.011901291087269783, 'entropy': 2.4518487453460693, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 26.566532135009766}, 'sample_time_ms': 39424.428, 'num_steps_trained': 1489200, 'num_steps_sampled': 1489200, 'update_time_ms': 2.575, 'grad_time_ms': 371.344, 'load_time_ms': 0.702}",41,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+48379.25864815712,88129,8.000000400001436,1200,cda-server-2,1659.7192077636719,f93d3d6710754a149751678a58e67540,230,1757103207,50400,-28.55536520064404,2334309,{},10.157.146.2,False,{},2025-09-05_22-13-27,5.226086956521739,1490400,2.146518811272395,0,41.118565797805786,1242,"{'default': {'policy_loss': -0.09598619490861893, 'vf_explained_var': 0.46382325887680054, 'vf_loss': 23.892805099487305, 'kl': 0.010900450870394707, 'entropy': 2.5248117446899414, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 23.821651458740234}, 'sample_time_ms': 39557.349, 'num_steps_trained': 1490400, 'num_steps_sampled': 1490400, 'update_time_ms': 2.601, 'grad_time_ms': 372.548, 'load_time_ms': 0.704}",42,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+48419.50828075409,88342,6.000253486178795,1200,cda-server-2,1699.9688403606415,f93d3d6710754a149751678a58e67540,213,1757103248,51600,-30.876932553663394,2334309,{},10.157.146.2,False,{},2025-09-05_22-14-08,5.666666666666667,1491600,1.379320864028885,0,40.249632596969604,1243,"{'default': {'policy_loss': -0.11255689710378647, 'vf_explained_var': 0.42046141624450684, 'vf_loss': 30.644121170043945, 'kl': 0.014227011241018772, 'entropy': 2.8767242431640625, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 30.563974380493164}, 'sample_time_ms': 39659.843, 'num_steps_trained': 1491600, 'num_steps_sampled': 1491600, 'update_time_ms': 2.605, 'grad_time_ms': 372.545, 'load_time_ms': 0.707}",43,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+48458.73338508606,88557,6.000207207247596,1200,cda-server-2,1739.1939446926117,f93d3d6710754a149751678a58e67540,215,1757103287,52800,-39.86254913916809,2334309,{},10.157.146.2,False,{},2025-09-05_22-14-47,5.567441860465117,1492800,1.5939110267542203,0,39.225104331970215,1244,"{'default': {'policy_loss': -0.10845823585987091, 'vf_explained_var': 0.4771576523780823, 'vf_loss': 25.38532257080078, 'kl': 0.017152421176433563, 'entropy': 2.594883918762207, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 25.315940856933594}, 'sample_time_ms': 39640.101, 'num_steps_trained': 1492800, 'num_steps_sampled': 1492800, 'update_time_ms': 2.602, 'grad_time_ms': 372.077, 'load_time_ms': 0.7}",44,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+48497.93595910072,88774,8.00000040000325,1200,cda-server-2,1778.3965187072754,f93d3d6710754a149751678a58e67540,217,1757103326,54000,-31.938610403000183,2334309,{},10.157.146.2,False,{},2025-09-05_22-15-26,5.548387096774194,1494000,1.653257092028642,0,39.202574014663696,1245,"{'default': {'policy_loss': -0.10481986403465271, 'vf_explained_var': 0.46498748660087585, 'vf_loss': 28.465749740600586, 'kl': 0.010268845595419407, 'entropy': 3.006688356399536, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 28.384321212768555}, 'sample_time_ms': 39601.081, 'num_steps_trained': 1494000, 'num_steps_sampled': 1494000, 'update_time_ms': 2.565, 'grad_time_ms': 372.471, 'load_time_ms': 0.694}",45,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+48536.60780787468,88998,8.000000466667798,1200,cda-server-2,1817.0683674812317,f93d3d6710754a149751678a58e67540,224,1757103365,55200,-28.403776977313974,2334309,{},10.157.146.2,False,{},2025-09-05_22-16-05,5.366071428571429,1495200,1.847545530999805,0,38.6718487739563,1246,"{'default': {'policy_loss': -0.10252340883016586, 'vf_explained_var': 0.4896198511123657, 'vf_loss': 22.73995590209961, 'kl': 0.013302145525813103, 'entropy': 2.6420745849609375, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 22.667734146118164}, 'sample_time_ms': 39439.924, 'num_steps_trained': 1495200, 'num_steps_sampled': 1495200, 'update_time_ms': 2.589, 'grad_time_ms': 374.713, 'load_time_ms': 0.693}",46,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+48574.90830755234,89213,6.000371158562805,1200,cda-server-2,1855.3688671588898,f93d3d6710754a149751678a58e67540,215,1757103403,56400,-45.69474198882983,2334309,{},10.157.146.2,False,{},2025-09-05_22-16-43,5.441860465116279,1496400,1.7508985160198225,0,38.30049967765808,1247,"{'default': {'policy_loss': -0.10728517174720764, 'vf_explained_var': 0.35893431305885315, 'vf_loss': 58.83910369873047, 'kl': 0.011699448339641094, 'entropy': 2.6754684448242188, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 58.75847625732422}, 'sample_time_ms': 39281.091, 'num_steps_trained': 1496400, 'num_steps_sampled': 1496400, 'update_time_ms': 2.595, 'grad_time_ms': 373.783, 'load_time_ms': 0.69}",47,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+48612.29506754875,89433,8.00000040000007,1200,cda-server-2,1892.755627155304,f93d3d6710754a149751678a58e67540,220,1757103440,57600,-60.96144735123187,2334309,{},10.157.146.2,False,{},2025-09-05_22-17-20,5.581818181818182,1497600,1.5847730132060105,0,37.386759996414185,1248,"{'default': {'policy_loss': -0.09774333983659744, 'vf_explained_var': 0.347158282995224, 'vf_loss': 50.56470489501953, 'kl': 0.01158478669822216, 'entropy': 2.6603946685791016, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 50.49335479736328}, 'sample_time_ms': 39032.27, 'num_steps_trained': 1497600, 'num_steps_sampled': 1497600, 'update_time_ms': 2.567, 'grad_time_ms': 374.513, 'load_time_ms': 0.7}",48,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+48649.46253609657,89643,8.00000040002068,1200,cda-server-2,1929.923095703125,f93d3d6710754a149751678a58e67540,210,1757103478,58800,-44.45545685247991,2334309,{},10.157.146.2,False,{},2025-09-05_22-17-58,5.719047619047619,1498800,1.331519348205996,0,37.167468547821045,1249,"{'default': {'policy_loss': -0.09899243712425232, 'vf_explained_var': 0.4217360317707062, 'vf_loss': 47.55551528930664, 'kl': 0.013858580030500889, 'entropy': 3.314262628555298, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 47.488094329833984}, 'sample_time_ms': 38712.519, 'num_steps_trained': 1498800, 'num_steps_sampled': 1498800, 'update_time_ms': 2.571, 'grad_time_ms': 373.747, 'load_time_ms': 0.694}",49,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+48687.37360286713,89872,6.000275933743849,1200,cda-server-2,1967.8341624736786,f93d3d6710754a149751678a58e67540,229,1757103516,60000,-58.49670454623475,2334309,{},10.157.146.2,False,{},2025-09-05_22-18-36,5.240174672489083,1500000,2.0814423504319874,0,37.91106677055359,1250,"{'default': {'policy_loss': -0.09644831717014313, 'vf_explained_var': 0.4099137783050537, 'vf_loss': 35.01152038574219, 'kl': 0.013855131343007088, 'entropy': 2.1517603397369385, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 34.94664001464844}, 'sample_time_ms': 38503.054, 'num_steps_trained': 1500000, 'num_steps_sampled': 1500000, 'update_time_ms': 2.55, 'grad_time_ms': 371.952, 'load_time_ms': 0.69}",50,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+48725.694380521774,90114,6.000279060687388,1200,cda-server-2,2006.1549401283264,f93d3d6710754a149751678a58e67540,242,1757103554,61200,-18.420300051689974,2334309,{},10.157.146.2,False,{},2025-09-05_22-19-14,4.975206611570248,1501200,2.480351502161856,0,38.32077765464783,1251,"{'default': {'policy_loss': -0.09355184435844421, 'vf_explained_var': 0.4554464519023895, 'vf_loss': 14.178421020507812, 'kl': 0.014293445274233818, 'entropy': 1.5609524250030518, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 14.117430686950684}, 'sample_time_ms': 38372.492, 'num_steps_trained': 1501200, 'num_steps_sampled': 1501200, 'update_time_ms': 2.556, 'grad_time_ms': 373.916, 'load_time_ms': 0.708}",51,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+48764.055207014084,90348,6.000207481738681,1200,cda-server-2,2044.515766620636,f93d3d6710754a149751678a58e67540,234,1757103592,62400,-21.21206667843833,2334309,{},10.157.146.2,False,{},2025-09-05_22-19-52,5.115384615384615,1502400,2.304124147760765,0,38.36082649230957,1252,"{'default': {'policy_loss': -0.09788858145475388, 'vf_explained_var': 0.49056896567344666, 'vf_loss': 15.712214469909668, 'kl': 0.016204489395022392, 'entropy': 2.3568618297576904, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 15.651240348815918}, 'sample_time_ms': 38098.408, 'num_steps_trained': 1502400, 'num_steps_sampled': 1502400, 'update_time_ms': 2.536, 'grad_time_ms': 372.267, 'load_time_ms': 0.704}",52,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+48801.172657728195,90566,6.000111624367469,1200,cda-server-2,2081.6332173347473,f93d3d6710754a149751678a58e67540,218,1757103629,63600,-38.40064338845996,2334309,{},10.157.146.2,False,{},2025-09-05_22-20-29,5.389908256880734,1503600,1.8900605377331925,0,37.11745071411133,1253,"{'default': {'policy_loss': -0.11101683229207993, 'vf_explained_var': 0.4430917203426361, 'vf_loss': 33.17890930175781, 'kl': 0.011669887229800224, 'entropy': 3.0781562328338623, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 33.09447479248047}, 'sample_time_ms': 37785.942, 'num_steps_trained': 1503600, 'num_steps_sampled': 1503600, 'update_time_ms': 2.524, 'grad_time_ms': 371.567, 'load_time_ms': 0.697}",53,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+48838.42839741707,90793,6.0002705579922875,1200,cda-server-2,2118.8889570236206,f93d3d6710754a149751678a58e67540,227,1757103667,64800,-31.288247001821574,2334309,{},10.157.146.2,False,{},2025-09-05_22-21-07,5.365638766519824,1504800,1.8793275723988583,0,37.25573968887329,1254,"{'default': {'policy_loss': -0.10241690278053284, 'vf_explained_var': 0.44737350940704346, 'vf_loss': 26.40122413635254, 'kl': 0.013007577508687973, 'entropy': 2.3592240810394287, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 26.328439712524414}, 'sample_time_ms': 37590.243, 'num_steps_trained': 1504800, 'num_steps_sampled': 1504800, 'update_time_ms': 2.543, 'grad_time_ms': 370.316, 'load_time_ms': 0.7}",54,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+48875.993056058884,91027,6.001354266225056,1200,cda-server-2,2156.453615665436,f93d3d6710754a149751678a58e67540,234,1757103704,66000,-25.03591481352236,2334309,{},10.157.146.2,False,{},2025-09-05_22-21-44,5.166666666666667,1506000,2.224628917809313,0,37.564658641815186,1255,"{'default': {'policy_loss': -0.09493870288133621, 'vf_explained_var': 0.4536312520503998, 'vf_loss': 18.13101577758789, 'kl': 0.017851486802101135, 'entropy': 2.4041121006011963, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 18.076744079589844}, 'sample_time_ms': 37425.771, 'num_steps_trained': 1506000, 'num_steps_sampled': 1506000, 'update_time_ms': 2.502, 'grad_time_ms': 371.052, 'load_time_ms': 0.698}",55,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+48912.86106348038,91249,6.000254064031173,1200,cda-server-2,2193.3216230869293,f93d3d6710754a149751678a58e67540,222,1757103741,67200,-33.235062642721466,2334309,{},10.157.146.2,False,{},2025-09-05_22-22-21,5.3558558558558556,1507200,1.887640351395006,0,36.86800742149353,1256,"{'default': {'policy_loss': -0.09672018140554428, 'vf_explained_var': 0.4105494022369385, 'vf_loss': 29.75271987915039, 'kl': 0.015452772378921509, 'entropy': 2.5307912826538086, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 29.691200256347656}, 'sample_time_ms': 37243.917, 'num_steps_trained': 1507200, 'num_steps_sampled': 1507200, 'update_time_ms': 2.506, 'grad_time_ms': 372.458, 'load_time_ms': 0.708}",56,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+48951.06533932686,91488,6.000235679600155,1200,cda-server-2,2231.5258989334106,f93d3d6710754a149751678a58e67540,239,1757103779,68400,-26.03004970797958,2334309,{},10.157.146.2,False,{},2025-09-05_22-22-59,4.98744769874477,1508400,2.4777714042557517,0,38.20427584648132,1257,"{'default': {'policy_loss': -0.08936479687690735, 'vf_explained_var': 0.46858200430870056, 'vf_loss': 19.560609817504883, 'kl': 0.015351174399256706, 'entropy': 1.8288438320159912, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 19.50621795654297}, 'sample_time_ms': 37232.445, 'num_steps_trained': 1508400, 'num_steps_sampled': 1508400, 'update_time_ms': 2.536, 'grad_time_ms': 374.283, 'load_time_ms': 0.701}",57,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+48988.49602723122,91735,6.000142035472968,1200,cda-server-2,2268.9565868377686,f93d3d6710754a149751678a58e67540,247,1757103817,69600,-25.599111053956648,2334309,{},10.157.146.2,False,{},2025-09-05_22-23-37,4.894736842105263,1509600,2.6152404457098415,0,37.43068790435791,1258,"{'default': {'policy_loss': -0.08125419914722443, 'vf_explained_var': 0.5405679941177368, 'vf_loss': 14.521488189697266, 'kl': 0.013163293711841106, 'entropy': 1.5849895477294922, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 14.470221519470215}, 'sample_time_ms': 37236.906, 'num_steps_trained': 1509600, 'num_steps_sampled': 1509600, 'update_time_ms': 2.562, 'grad_time_ms': 374.213, 'load_time_ms': 0.699}",58,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+49026.679112911224,91975,8.000000400001975,1200,cda-server-2,2307.1396725177765,f93d3d6710754a149751678a58e67540,240,1757103855,70800,-42.658444116851705,2334309,{},10.157.146.2,False,{},2025-09-05_22-24-15,5.004166666666666,1510800,2.4419733007719393,0,38.183085680007935,1259,"{'default': {'policy_loss': -0.09579852968454361, 'vf_explained_var': 0.4805590808391571, 'vf_loss': 28.878570556640625, 'kl': 0.012283248826861382, 'entropy': 1.882973313331604, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 28.810752868652344}, 'sample_time_ms': 37336.341, 'num_steps_trained': 1510800, 'num_steps_sampled': 1510800, 'update_time_ms': 2.556, 'grad_time_ms': 376.291, 'load_time_ms': 0.71}",59,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+49064.54400897026,92206,8.000000400000065,1200,cda-server-2,2345.0045685768127,f93d3d6710754a149751678a58e67540,231,1757103893,72000,-40.18355655417524,2334309,{},10.157.146.2,False,{},2025-09-05_22-24-53,5.16017316017316,1512000,2.2374844865794867,0,37.864896059036255,1260,"{'default': {'policy_loss': -0.0935835912823677, 'vf_explained_var': 0.4264797270298004, 'vf_loss': 25.340721130371094, 'kl': 0.011816885322332382, 'entropy': 2.260540723800659, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 25.27405548095703}, 'sample_time_ms': 37331.674, 'num_steps_trained': 1512000, 'num_steps_sampled': 1512000, 'update_time_ms': 2.573, 'grad_time_ms': 376.334, 'load_time_ms': 0.71}",60,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+49102.68902540207,92452,6.0001908632046135,1200,cda-server-2,2383.149585008621,f93d3d6710754a149751678a58e67540,246,1757103931,73200,-25.568831946338307,2334309,{},10.157.146.2,False,{},2025-09-05_22-25-31,4.914634146341464,1513200,2.5819967570620848,0,38.14501643180847,1261,"{'default': {'policy_loss': -0.08569154888391495, 'vf_explained_var': 0.5154393911361694, 'vf_loss': 11.4569091796875, 'kl': 0.014870254322886467, 'entropy': 1.7786850929260254, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 11.405094146728516}, 'sample_time_ms': 37314.514, 'num_steps_trained': 1513200, 'num_steps_sampled': 1513200, 'update_time_ms': 2.607, 'grad_time_ms': 375.926, 'load_time_ms': 0.685}",61,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+49139.96670770645,92701,6.000085611350865,1200,cda-server-2,2420.4272673130035,f93d3d6710754a149751678a58e67540,249,1757103968,74400,-21.656499377133226,2334309,{},10.157.146.2,False,{},2025-09-05_22-26-08,4.807228915662651,1514400,2.732978552288881,0,37.277682304382324,1262,"{'default': {'policy_loss': -0.08600091934204102, 'vf_explained_var': 0.5484957098960876, 'vf_loss': 11.763129234313965, 'kl': 0.012220006436109543, 'entropy': 1.278978943824768, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 11.704967498779297}, 'sample_time_ms': 37204.101, 'num_steps_trained': 1514400, 'num_steps_sampled': 1514400, 'update_time_ms': 2.623, 'grad_time_ms': 377.933, 'load_time_ms': 0.695}",62,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+49178.51661872864,92945,6.000037194007296,1200,cda-server-2,2458.97717833519,f93d3d6710754a149751678a58e67540,244,1757104007,75600,-75.64066572058385,2334309,{},10.157.146.2,False,{},2025-09-05_22-26-47,4.954918032786885,1515600,2.482193559362333,0,38.54991102218628,1263,"{'default': {'policy_loss': -0.0876113548874855, 'vf_explained_var': 0.4307722747325897, 'vf_loss': 59.880126953125, 'kl': 0.014077863655984402, 'entropy': 1.5608296394348145, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 59.8245849609375}, 'sample_time_ms': 37347.725, 'num_steps_trained': 1515600, 'num_steps_sampled': 1515600, 'update_time_ms': 2.668, 'grad_time_ms': 377.501, 'load_time_ms': 0.694}",63,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+49218.235951423645,93191,6.000093818224977,1200,cda-server-2,2498.696511030197,f93d3d6710754a149751678a58e67540,246,1757104047,76800,-43.6256863877048,2334309,{},10.157.146.2,False,{},2025-09-05_22-27-27,4.813008130081301,1516800,2.750313635762659,0,39.719332695007324,1264,"{'default': {'policy_loss': -0.08600735664367676, 'vf_explained_var': 0.4627639353275299, 'vf_loss': 30.91460418701172, 'kl': 0.011986182071268559, 'entropy': 1.6193517446517944, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 30.855905532836914}, 'sample_time_ms': 37594.4, 'num_steps_trained': 1516800, 'num_steps_sampled': 1516800, 'update_time_ms': 2.655, 'grad_time_ms': 377.148, 'load_time_ms': 0.684}",64,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+49256.37527179718,93441,6.0001090488942745,1200,cda-server-2,2536.8358314037323,f93d3d6710754a149751678a58e67540,250,1757104085,78000,-32.243805965158494,2334309,{},10.157.146.2,False,{},2025-09-05_22-28-05,4.784,1518000,2.8090866472079,0,38.139320373535156,1265,"{'default': {'policy_loss': -0.08051568269729614, 'vf_explained_var': 0.4846791625022888, 'vf_loss': 21.76780891418457, 'kl': 0.01162297185510397, 'entropy': 1.3743013143539429, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 21.713773727416992}, 'sample_time_ms': 37654.444, 'num_steps_trained': 1518000, 'num_steps_sampled': 1518000, 'update_time_ms': 2.677, 'grad_time_ms': 374.552, 'load_time_ms': 0.687}",65,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+49293.97637915611,93678,6.0000141968903655,1200,cda-server-2,2574.436938762665,f93d3d6710754a149751678a58e67540,237,1757104122,79200,-39.87182473907252,2334309,{},10.157.146.2,False,{},2025-09-05_22-28-42,5.143459915611814,1519200,2.209784726483398,0,37.601107358932495,1266,"{'default': {'policy_loss': -0.08854157477617264, 'vf_explained_var': 0.4488012492656708, 'vf_loss': 27.159223556518555, 'kl': 0.013873590156435966, 'entropy': 2.002103328704834, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 27.10228729248047}, 'sample_time_ms': 37731.272, 'num_steps_trained': 1519200, 'num_steps_sampled': 1519200, 'update_time_ms': 2.653, 'grad_time_ms': 371.079, 'load_time_ms': 0.682}",66,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+49331.96093225479,93915,6.0001955067091295,1200,cda-server-2,2612.4214918613434,f93d3d6710754a149751678a58e67540,237,1757104160,80400,-29.927927387865473,2334309,{},10.157.146.2,False,{},2025-09-05_22-29-20,5.050632911392405,1520400,2.3425699622932985,0,37.98455309867859,1267,"{'default': {'policy_loss': -0.09821911156177521, 'vf_explained_var': 0.5042328834533691, 'vf_loss': 20.626136779785156, 'kl': 0.015537728555500507, 'entropy': 1.7473981380462646, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 20.56331443786621}, 'sample_time_ms': 37710.083, 'num_steps_trained': 1520400, 'num_steps_sampled': 1520400, 'update_time_ms': 2.638, 'grad_time_ms': 370.241, 'load_time_ms': 0.68}",67,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+49371.052611112595,94152,8.000000400077461,1200,cda-server-2,2651.5131707191467,f93d3d6710754a149751678a58e67540,237,1757104200,81600,-25.44792117640838,2334309,{},10.157.146.2,False,{},2025-09-05_22-30-00,5.059071729957806,1521600,2.3937560063643883,0,39.091678857803345,1268,"{'default': {'policy_loss': -0.09650705754756927, 'vf_explained_var': 0.42979103326797485, 'vf_loss': 19.4256591796875, 'kl': 0.016824893653392792, 'entropy': 1.8950284719467163, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 19.367483139038086}, 'sample_time_ms': 37878.507, 'num_steps_trained': 1521600, 'num_steps_sampled': 1521600, 'update_time_ms': 2.653, 'grad_time_ms': 367.936, 'load_time_ms': 0.674}",68,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+49409.01954936981,94404,6.0005854211400536,1200,cda-server-2,2689.480108976364,f93d3d6710754a149751678a58e67540,252,1757104237,82800,-32.248940847525326,2334309,{},10.157.146.2,False,{},2025-09-05_22-30-37,4.75,1522800,2.8322546653367384,0,37.96693825721741,1269,"{'default': {'policy_loss': -0.08367468416690826, 'vf_explained_var': 0.5259149670600891, 'vf_loss': 17.944644927978516, 'kl': 0.017573140561580658, 'entropy': 1.2817715406417847, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 17.901004791259766}, 'sample_time_ms': 37856.325, 'num_steps_trained': 1522800, 'num_steps_sampled': 1522800, 'update_time_ms': 2.626, 'grad_time_ms': 368.564, 'load_time_ms': 0.657}",69,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+49446.39776682854,94617,4.00198896986616,1200,cda-server-2,2726.858326435089,f93d3d6710754a149751678a58e67540,213,1757104275,84000,-48.90829953474377,2334309,{},10.157.146.2,False,{},2025-09-05_22-31-15,5.647887323943662,1524000,1.4237479597234868,0,37.378217458724976,1270,"{'default': {'policy_loss': -0.10129418969154358, 'vf_explained_var': 0.3934860825538635, 'vf_loss': 53.51523208618164, 'kl': 0.013512973673641682, 'entropy': 2.509089231491089, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 53.44472122192383}, 'sample_time_ms': 37807.649, 'num_steps_trained': 1524000, 'num_steps_sampled': 1524000, 'update_time_ms': 2.615, 'grad_time_ms': 368.58, 'load_time_ms': 0.659}",70,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+49483.820345163345,94856,8.000000399999921,1200,cda-server-2,2764.2809047698975,f93d3d6710754a149751678a58e67540,239,1757104312,85200,-30.018109961536645,2334309,{},10.157.146.2,False,{},2025-09-05_22-31-52,5.050209205020921,1525200,2.3927944041717226,0,37.42257833480835,1271,"{'default': {'policy_loss': -0.09177125990390778, 'vf_explained_var': 0.4236507713794708, 'vf_loss': 25.442970275878906, 'kl': 0.012856950983405113, 'entropy': 1.9603137969970703, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 25.38048553466797}, 'sample_time_ms': 37734.683, 'num_steps_trained': 1525200, 'num_steps_sampled': 1525200, 'update_time_ms': 2.574, 'grad_time_ms': 369.329, 'load_time_ms': 0.671}",71,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+49521.45969939232,95117,6.000225547903806,1200,cda-server-2,2801.920258998871,f93d3d6710754a149751678a58e67540,261,1757104350,86400,-38.67315209642167,2334309,{},10.157.146.2,False,{},2025-09-05_22-32-30,4.605363984674329,1526400,3.0630498906818255,0,37.63935422897339,1272,"{'default': {'policy_loss': -0.07488402724266052, 'vf_explained_var': 0.5006315112113953, 'vf_loss': 17.170141220092773, 'kl': 0.012708429247140884, 'entropy': 0.7823644280433655, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 17.12420654296875}, 'sample_time_ms': 37770.208, 'num_steps_trained': 1526400, 'num_steps_sampled': 1526400, 'update_time_ms': 2.617, 'grad_time_ms': 369.907, 'load_time_ms': 0.683}",72,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+49560.15570950508,95372,6.000223560227232,1200,cda-server-2,2840.6162691116333,f93d3d6710754a149751678a58e67540,255,1757104389,87600,-27.03164106822515,2334309,{},10.157.146.2,False,{},2025-09-05_22-33-09,4.670588235294118,1527600,2.986041317952004,0,38.69601011276245,1273,"{'default': {'policy_loss': -0.07731825858354568, 'vf_explained_var': 0.5005984306335449, 'vf_loss': 13.690549850463867, 'kl': 0.01529570110142231, 'entropy': 0.9891217350959778, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 13.648077964782715}, 'sample_time_ms': 37783.444, 'num_steps_trained': 1527600, 'num_steps_sampled': 1527600, 'update_time_ms': 2.584, 'grad_time_ms': 371.301, 'load_time_ms': 0.691}",73,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+49598.28147625923,95622,6.000042836726813,1200,cda-server-2,2878.7420358657837,f93d3d6710754a149751678a58e67540,250,1757104427,88800,-38.45702994999021,2334309,{},10.157.146.2,False,{},2025-09-05_22-33-47,4.82,1528800,2.7378234392100413,0,38.12576675415039,1274,"{'default': {'policy_loss': -0.0767766535282135, 'vf_explained_var': 0.43938499689102173, 'vf_loss': 20.457578659057617, 'kl': 0.02693939581513405, 'entropy': 1.2536062002182007, 'cur_kl_coeff': 2.278125047683716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 20.44217300415039}, 'sample_time_ms': 37622.388, 'num_steps_trained': 1528800, 'num_steps_sampled': 1528800, 'update_time_ms': 2.578, 'grad_time_ms': 372.99, 'load_time_ms': 0.699}",74,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+49636.2808778286,95885,8.00000039999997,1200,cda-server-2,2916.74143743515,f93d3d6710754a149751678a58e67540,263,1757104465,90000,-19.477345783311428,2334309,{},10.157.146.2,False,{},2025-09-05_22-34-25,4.555133079847908,1530000,3.153980860636558,0,37.999401569366455,1275,"{'default': {'policy_loss': -0.08134129643440247, 'vf_explained_var': 0.5584951043128967, 'vf_loss': 8.068312644958496, 'kl': 0.011110533028841019, 'entropy': 0.7550257444381714, 'cur_kl_coeff': 3.417187452316284, 'cur_lr': 4.999999873689376e-05, 'total_loss': 8.024937629699707}, 'sample_time_ms': 37608.543, 'num_steps_trained': 1530000, 'num_steps_sampled': 1530000, 'update_time_ms': 2.578, 'grad_time_ms': 372.846, 'load_time_ms': 0.694}",75,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+49675.97174739838,96146,8.000000399999962,1200,cda-server-2,2956.4323070049286,f93d3d6710754a149751678a58e67540,261,1757104505,91200,-25.120144155222327,2334309,{},10.157.146.2,False,{},2025-09-05_22-35-05,4.609195402298851,1531200,3.070941534822441,0,39.69086956977844,1276,"{'default': {'policy_loss': -0.06906332820653915, 'vf_explained_var': 0.6011417508125305, 'vf_loss': 8.810285568237305, 'kl': 0.0070948246866464615, 'entropy': 1.0497578382492065, 'cur_kl_coeff': 3.417187452316284, 'cur_lr': 4.999999873689376e-05, 'total_loss': 8.765467643737793}, 'sample_time_ms': 37815.558, 'num_steps_trained': 1531200, 'num_steps_sampled': 1531200, 'update_time_ms': 2.58, 'grad_time_ms': 374.723, 'load_time_ms': 0.683}",76,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+49716.46597599983,96407,6.000046041233036,1200,cda-server-2,2996.9265356063843,f93d3d6710754a149751678a58e67540,261,1757104545,92400,-24.806298912503586,2334309,{},10.157.146.2,False,{},2025-09-05_22-35-45,4.597701149425287,1532400,3.0714224455824426,0,40.49422860145569,1277,"{'default': {'policy_loss': -0.076211117208004, 'vf_explained_var': 0.6044647693634033, 'vf_loss': 9.399473190307617, 'kl': 0.00686802389100194, 'entropy': 0.8473628759384155, 'cur_kl_coeff': 3.417187452316284, 'cur_lr': 4.999999873689376e-05, 'total_loss': 9.346732139587402}, 'sample_time_ms': 38064.74, 'num_steps_trained': 1532400, 'num_steps_sampled': 1532400, 'update_time_ms': 2.58, 'grad_time_ms': 376.532, 'load_time_ms': 0.687}",77,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+49761.084980249405,96661,6.000115531856894,1200,cda-server-2,3041.545539855957,f93d3d6710754a149751678a58e67540,254,1757104590,93600,-33.04021729708643,2334309,{},10.157.146.2,False,{},2025-09-05_22-36-30,4.728346456692913,1533600,2.907365219829836,0,44.619004249572754,1278,"{'default': {'policy_loss': -0.07440844178199768, 'vf_explained_var': 0.5043449401855469, 'vf_loss': 20.969818115234375, 'kl': 0.009484834969043732, 'entropy': 1.2071332931518555, 'cur_kl_coeff': 3.417187452316284, 'cur_lr': 4.999999873689376e-05, 'total_loss': 20.92782211303711}, 'sample_time_ms': 38614.518, 'num_steps_trained': 1533600, 'num_steps_sampled': 1533600, 'update_time_ms': 2.58, 'grad_time_ms': 379.43, 'load_time_ms': 0.697}",78,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+49800.2927942276,96901,10.0,1200,cda-server-2,3080.753353834152,f93d3d6710754a149751678a58e67540,240,1757104629,94800,-37.81484197676907,2334309,{},10.157.146.2,False,{},2025-09-05_22-37-09,4.958333333333333,1534800,2.5375433690849714,0,39.20781397819519,1279,"{'default': {'policy_loss': -0.08708483725786209, 'vf_explained_var': 0.5625811815261841, 'vf_loss': 20.454002380371094, 'kl': 0.010210338979959488, 'entropy': 1.7390727996826172, 'cur_kl_coeff': 3.417187452316284, 'cur_lr': 4.999999873689376e-05, 'total_loss': 20.401811599731445}, 'sample_time_ms': 38739.75, 'num_steps_trained': 1534800, 'num_steps_sampled': 1534800, 'update_time_ms': 2.605, 'grad_time_ms': 378.287, 'load_time_ms': 0.699}",79,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+49839.195267915726,97163,8.000000399999927,1200,cda-server-2,3119.655827522278,f93d3d6710754a149751678a58e67540,262,1757104668,96000,-26.275922799685468,2334309,{},10.157.146.2,False,{},2025-09-05_22-37-48,4.568702290076335,1536000,3.113141332875444,0,38.90247368812561,1280,"{'default': {'policy_loss': -0.07469888031482697, 'vf_explained_var': 0.5733482837677002, 'vf_loss': 11.813883781433105, 'kl': 0.007353218272328377, 'entropy': 0.7591372132301331, 'cur_kl_coeff': 3.417187452316284, 'cur_lr': 4.999999873689376e-05, 'total_loss': 11.764311790466309}, 'sample_time_ms': 38890.119, 'num_steps_trained': 1536000, 'num_steps_sampled': 1536000, 'update_time_ms': 2.597, 'grad_time_ms': 380.277, 'load_time_ms': 0.716}",80,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+49878.4340698719,97391,4.002030532973472,1200,cda-server-2,3158.8946294784546,f93d3d6710754a149751678a58e67540,228,1757104707,97200,-36.10322623159072,2334309,{},10.157.146.2,False,{},2025-09-05_22-38-27,5.2631578947368425,1537200,2.06805523829794,0,39.23880195617676,1281,"{'default': {'policy_loss': -0.08716341853141785, 'vf_explained_var': 0.4317410886287689, 'vf_loss': 36.74241256713867, 'kl': 0.008704062551259995, 'entropy': 2.413010597229004, 'cur_kl_coeff': 3.417187452316284, 'cur_lr': 4.999999873689376e-05, 'total_loss': 36.68498611450195}, 'sample_time_ms': 39072.598, 'num_steps_trained': 1537200, 'num_steps_sampled': 1537200, 'update_time_ms': 2.636, 'grad_time_ms': 379.485, 'load_time_ms': 0.71}",81,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+49917.5984685421,97629,4.002071753869412,1200,cda-server-2,3198.059028148651,f93d3d6710754a149751678a58e67540,238,1757104746,98400,-46.10405732374209,2334309,{},10.157.146.2,False,{},2025-09-05_22-39-06,5.088235294117647,1538400,2.3278328179576917,0,39.16439867019653,1282,"{'default': {'policy_loss': -0.08927212655544281, 'vf_explained_var': 0.4886857569217682, 'vf_loss': 32.96321105957031, 'kl': 0.008804242126643658, 'entropy': 1.7448140382766724, 'cur_kl_coeff': 3.417187452316284, 'cur_lr': 4.999999873689376e-05, 'total_loss': 32.90402603149414}, 'sample_time_ms': 39227.769, 'num_steps_trained': 1538400, 'num_steps_sampled': 1538400, 'update_time_ms': 2.565, 'grad_time_ms': 377.0, 'load_time_ms': 0.702}",82,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+49957.45077419281,97891,6.000086251226024,1200,cda-server-2,3237.911333799362,f93d3d6710754a149751678a58e67540,262,1757104786,99600,-18.320992613187816,2334309,{},10.157.146.2,False,{},2025-09-05_22-39-46,4.557251908396947,1539600,3.1447153020124476,0,39.85230565071106,1283,"{'default': {'policy_loss': -0.07471878826618195, 'vf_explained_var': 0.5456971526145935, 'vf_loss': 10.243794441223145, 'kl': 0.011649521067738533, 'entropy': 0.8898640871047974, 'cur_kl_coeff': 3.417187452316284, 'cur_lr': 4.999999873689376e-05, 'total_loss': 10.208885192871094}, 'sample_time_ms': 39345.371, 'num_steps_trained': 1539600, 'num_steps_sampled': 1539600, 'update_time_ms': 2.548, 'grad_time_ms': 375.026, 'load_time_ms': 0.692}",83,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+49996.7914147377,98141,4.002136781192361,1200,cda-server-2,3277.2519743442535,f93d3d6710754a149751678a58e67540,250,1757104826,100800,-47.226068122885934,2334309,{},10.157.146.2,False,{},2025-09-05_22-40-26,4.784,1540800,2.7779836238171094,0,39.34064054489136,1284,"{'default': {'policy_loss': -0.06772215664386749, 'vf_explained_var': 0.4667360484600067, 'vf_loss': 28.395360946655273, 'kl': 0.008907770738005638, 'entropy': 1.3734315633773804, 'cur_kl_coeff': 3.417187452316284, 'cur_lr': 4.999999873689376e-05, 'total_loss': 28.358078002929688}, 'sample_time_ms': 39466.903, 'num_steps_trained': 1540800, 'num_steps_sampled': 1540800, 'update_time_ms': 2.556, 'grad_time_ms': 375.023, 'load_time_ms': 0.702}",84,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+50036.008068561554,98414,6.0002663305455615,1200,cda-server-2,3316.468628168106,f93d3d6710754a149751678a58e67540,273,1757104865,102000,-24.205934528578602,2334309,{},10.157.146.2,False,{},2025-09-05_22-41-05,4.428571428571429,1542000,3.3479149699652635,0,39.21665382385254,1285,"{'default': {'policy_loss': -0.0677429586648941, 'vf_explained_var': 0.5891568660736084, 'vf_loss': 7.363378047943115, 'kl': 0.008885309100151062, 'entropy': 0.2697698771953583, 'cur_kl_coeff': 3.417187452316284, 'cur_lr': 4.999999873689376e-05, 'total_loss': 7.325997352600098}, 'sample_time_ms': 39587.038, 'num_steps_trained': 1542000, 'num_steps_sampled': 1542000, 'update_time_ms': 2.552, 'grad_time_ms': 376.504, 'load_time_ms': 0.706}",85,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+50075.348188877106,98684,6.000070222361424,1200,cda-server-2,3355.808748483658,f93d3d6710754a149751678a58e67540,270,1757104904,103200,-20.045665553584683,2334309,{},10.157.146.2,False,{},2025-09-05_22-41-44,4.455555555555556,1543200,3.3016082241411677,0,39.34012031555176,1286,"{'default': {'policy_loss': -0.06896616518497467, 'vf_explained_var': 0.5712782740592957, 'vf_loss': 8.438372611999512, 'kl': 0.008739880286157131, 'entropy': 0.41869309544563293, 'cur_kl_coeff': 3.417187452316284, 'cur_lr': 4.999999873689376e-05, 'total_loss': 8.399271965026855}, 'sample_time_ms': 39552.328, 'num_steps_trained': 1543200, 'num_steps_sampled': 1543200, 'update_time_ms': 2.644, 'grad_time_ms': 376.014, 'load_time_ms': 0.715}",86,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+50114.488899469376,98934,6.00004403259361,1200,cda-server-2,3394.9494590759277,f93d3d6710754a149751678a58e67540,250,1757104943,104400,-34.764210093684376,2334309,{},10.157.146.2,False,{},2025-09-05_22-42-23,4.804,1544400,2.760327174907447,0,39.1407105922699,1287,"{'default': {'policy_loss': -0.08332278579473495, 'vf_explained_var': 0.5001120567321777, 'vf_loss': 18.445276260375977, 'kl': 0.007916532456874847, 'entropy': 1.1365419626235962, 'cur_kl_coeff': 3.417187452316284, 'cur_lr': 4.999999873689376e-05, 'total_loss': 18.389005661010742}, 'sample_time_ms': 39418.95, 'num_steps_trained': 1544400, 'num_steps_sampled': 1544400, 'update_time_ms': 2.669, 'grad_time_ms': 374.032, 'load_time_ms': 0.715}",87,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+50153.84218120575,99203,6.000056631140591,1200,cda-server-2,3434.3027408123016,f93d3d6710754a149751678a58e67540,269,1757104983,105600,-25.663291165054368,2334309,{},10.157.146.2,False,{},2025-09-05_22-43-03,4.412639405204461,1545600,3.3564001531036216,0,39.3532817363739,1288,"{'default': {'policy_loss': -0.06453339755535126, 'vf_explained_var': 0.5928083062171936, 'vf_loss': 8.635627746582031, 'kl': 0.012857629917562008, 'entropy': 0.29808205366134644, 'cur_kl_coeff': 3.417187452316284, 'cur_lr': 4.999999873689376e-05, 'total_loss': 8.615031242370605}, 'sample_time_ms': 38895.182, 'num_steps_trained': 1545600, 'num_steps_sampled': 1545600, 'update_time_ms': 2.646, 'grad_time_ms': 371.273, 'load_time_ms': 0.711}",88,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+50193.66086292267,99476,4.001945347576592,1200,cda-server-2,3474.1214225292206,f93d3d6710754a149751678a58e67540,273,1757105023,106800,-20.778437094663275,2334309,{},10.157.146.2,False,{},2025-09-05_22-43-43,4.435897435897436,1546800,3.3445207436420885,0,39.818681716918945,1289,"{'default': {'policy_loss': -0.06699773669242859, 'vf_explained_var': 0.608611524105072, 'vf_loss': 7.753025531768799, 'kl': 0.008323338814079762, 'entropy': 0.336184024810791, 'cur_kl_coeff': 3.417187452316284, 'cur_lr': 4.999999873689376e-05, 'total_loss': 7.714470863342285}, 'sample_time_ms': 38956.092, 'num_steps_trained': 1546800, 'num_steps_sampled': 1546800, 'update_time_ms': 2.637, 'grad_time_ms': 371.419, 'load_time_ms': 0.713}",89,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+50233.810247182846,99740,6.000195364915911,1200,cda-server-2,3514.270806789398,f93d3d6710754a149751678a58e67540,264,1757105063,108000,-26.765416297069493,2334309,{},10.157.146.2,False,{},2025-09-05_22-44-23,4.545454545454546,1548000,3.154075548599088,0,40.14938426017761,1290,"{'default': {'policy_loss': -0.06936368346214294, 'vf_explained_var': 0.5678389072418213, 'vf_loss': 10.70333194732666, 'kl': 0.010111101903021336, 'entropy': 0.6631654500961304, 'cur_kl_coeff': 3.417187452316284, 'cur_lr': 4.999999873689376e-05, 'total_loss': 10.668519973754883}, 'sample_time_ms': 39081.241, 'num_steps_trained': 1548000, 'num_steps_sampled': 1548000, 'update_time_ms': 2.657, 'grad_time_ms': 370.914, 'load_time_ms': 0.694}",90,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+50274.84169316292,100010,6.000062845624974,1200,cda-server-2,3555.30225276947,f93d3d6710754a149751678a58e67540,270,1757105104,109200,-24.595417065684224,2334309,{},10.157.146.2,False,{},2025-09-05_22-45-04,4.366666666666666,1549200,3.475800253383627,0,41.03144598007202,1291,"{'default': {'policy_loss': -0.05596175417304039, 'vf_explained_var': 0.5724371671676636, 'vf_loss': 15.295002937316895, 'kl': 0.00679219514131546, 'entropy': 0.5661163330078125, 'cur_kl_coeff': 3.417187452316284, 'cur_lr': 4.999999873689376e-05, 'total_loss': 15.262250900268555}, 'sample_time_ms': 39259.886, 'num_steps_trained': 1549200, 'num_steps_sampled': 1549200, 'update_time_ms': 2.622, 'grad_time_ms': 371.464, 'load_time_ms': 0.694}",91,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+50314.51496720314,100261,4.001560187767081,1200,cda-server-2,3594.9755268096924,f93d3d6710754a149751678a58e67540,251,1757105143,110400,-48.54115174089392,2334309,{},10.157.146.2,False,{},2025-09-05_22-45-43,4.7848605577689245,1550400,2.775242273944842,0,39.67327404022217,1292,"{'default': {'policy_loss': -0.08937176316976547, 'vf_explained_var': 0.561713695526123, 'vf_loss': 16.89314079284668, 'kl': 0.006916823796927929, 'entropy': 1.295153260231018, 'cur_kl_coeff': 3.417187452316284, 'cur_lr': 4.999999873689376e-05, 'total_loss': 16.827404022216797}, 'sample_time_ms': 39308.579, 'num_steps_trained': 1550400, 'num_steps_sampled': 1550400, 'update_time_ms': 2.651, 'grad_time_ms': 373.535, 'load_time_ms': 0.695}",92,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+50355.30892395973,100523,4.001906555892493,1200,cda-server-2,3635.769483566284,f93d3d6710754a149751678a58e67540,262,1757105184,111600,-28.78816284136002,2334309,{},10.157.146.2,False,{},2025-09-05_22-46-24,4.66412213740458,1551600,2.9967793006024976,0,40.7939567565918,1293,"{'default': {'policy_loss': -0.08270196616649628, 'vf_explained_var': 0.580422580242157, 'vf_loss': 11.237728118896484, 'kl': 0.007981191389262676, 'entropy': 1.070473313331604, 'cur_kl_coeff': 3.417187452316284, 'cur_lr': 4.999999873689376e-05, 'total_loss': 11.18229866027832}, 'sample_time_ms': 39403.476, 'num_steps_trained': 1551600, 'num_steps_sampled': 1551600, 'update_time_ms': 2.707, 'grad_time_ms': 372.824, 'load_time_ms': 0.704}",93,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+50394.90449261665,100789,4.002070591483467,1200,cda-server-2,3675.3650522232056,f93d3d6710754a149751678a58e67540,266,1757105224,112800,-22.386941114468733,2334309,{},10.157.146.2,False,{},2025-09-05_22-47-04,4.507518796992481,1552800,3.2331937022273856,0,39.59556865692139,1294,"{'default': {'policy_loss': -0.07388795912265778, 'vf_explained_var': 0.5902888178825378, 'vf_loss': 7.366171836853027, 'kl': 0.005799471866339445, 'entropy': 0.6078751683235168, 'cur_kl_coeff': 3.417187452316284, 'cur_lr': 4.999999873689376e-05, 'total_loss': 7.312101364135742}, 'sample_time_ms': 39429.017, 'num_steps_trained': 1552800, 'num_steps_sampled': 1552800, 'update_time_ms': 2.697, 'grad_time_ms': 372.781, 'load_time_ms': 0.684}",94,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+50433.56437039375,101031,4.001908873728239,1200,cda-server-2,3714.024930000305,f93d3d6710754a149751678a58e67540,242,1757105263,114000,-42.688501999175095,2334309,{},10.157.146.2,False,{},2025-09-05_22-47-43,4.925619834710743,1554000,2.554910495014825,0,38.65987777709961,1295,"{'default': {'policy_loss': -0.08540681004524231, 'vf_explained_var': 0.5166828632354736, 'vf_loss': 23.148651123046875, 'kl': 0.007483191788196564, 'entropy': 1.490307092666626, 'cur_kl_coeff': 3.417187452316284, 'cur_lr': 4.999999873689376e-05, 'total_loss': 23.088815689086914}, 'sample_time_ms': 39372.384, 'num_steps_trained': 1554000, 'num_steps_sampled': 1554000, 'update_time_ms': 2.703, 'grad_time_ms': 373.829, 'load_time_ms': 0.694}",95,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+50471.33081293106,101298,6.000077155022622,1200,cda-server-2,3751.791372537613,f93d3d6710754a149751678a58e67540,267,1757105300,115200,-24.048891982549826,2334309,{},10.157.146.2,False,{},2025-09-05_22-48-20,4.51310861423221,1555200,3.198447145680899,0,37.76644253730774,1296,"{'default': {'policy_loss': -0.07808970659971237, 'vf_explained_var': 0.5281068086624146, 'vf_loss': 9.868815422058105, 'kl': 0.00783279724419117, 'entropy': 0.37225106358528137, 'cur_kl_coeff': 3.417187452316284, 'cur_lr': 4.999999873689376e-05, 'total_loss': 9.81749153137207}, 'sample_time_ms': 39213.272, 'num_steps_trained': 1555200, 'num_steps_sampled': 1555200, 'update_time_ms': 2.641, 'grad_time_ms': 375.668, 'load_time_ms': 0.698}",96,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+50509.386974811554,101557,6.000034459800983,1200,cda-server-2,3789.847534418106,f93d3d6710754a149751678a58e67540,259,1757105338,116400,-39.64296648424604,2334309,{},10.157.146.2,False,{},2025-09-05_22-48-58,4.637065637065637,1556400,3.030546447862574,0,38.056161880493164,1297,"{'default': {'policy_loss': -0.07257484644651413, 'vf_explained_var': 0.5257260799407959, 'vf_loss': 23.988258361816406, 'kl': 0.00795634463429451, 'entropy': 0.9556008577346802, 'cur_kl_coeff': 3.417187452316284, 'cur_lr': 4.999999873689376e-05, 'total_loss': 23.94287109375}, 'sample_time_ms': 39102.425, 'num_steps_trained': 1556400, 'num_steps_sampled': 1556400, 'update_time_ms': 2.639, 'grad_time_ms': 377.999, 'load_time_ms': 0.705}",97,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+50547.607422590256,101829,6.0000914251527515,1200,cda-server-2,3828.067982196808,f93d3d6710754a149751678a58e67540,272,1757105377,117600,-49.005589729916,2334309,{},10.157.146.2,False,{},2025-09-05_22-49-37,4.422794117647059,1557600,3.37340234179678,0,38.22044777870178,1298,"{'default': {'policy_loss': -0.06278198212385178, 'vf_explained_var': 0.49974215030670166, 'vf_loss': 15.771602630615234, 'kl': 0.007935628294944763, 'entropy': 0.4585924744606018, 'cur_kl_coeff': 3.417187452316284, 'cur_lr': 4.999999873689376e-05, 'total_loss': 15.735936164855957}, 'sample_time_ms': 38988.722, 'num_steps_trained': 1557600, 'num_steps_sampled': 1557600, 'update_time_ms': 2.673, 'grad_time_ms': 378.404, 'load_time_ms': 0.697}",98,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+50585.4873418808,102094,4.002119112486944,1200,cda-server-2,3865.9479014873505,f93d3d6710754a149751678a58e67540,265,1757105415,118800,-41.06036766344053,2334309,{},10.157.146.2,False,{},2025-09-05_22-50-15,4.505660377358491,1558800,3.226833402887933,0,37.8799192905426,1299,"{'default': {'policy_loss': -0.07283172011375427, 'vf_explained_var': 0.5326426029205322, 'vf_loss': 16.972620010375977, 'kl': 0.010011326521635056, 'entropy': 0.5916392207145691, 'cur_kl_coeff': 3.417187452316284, 'cur_lr': 4.999999873689376e-05, 'total_loss': 16.93400001525879}, 'sample_time_ms': 38794.241, 'num_steps_trained': 1558800, 'num_steps_sampled': 1558800, 'update_time_ms': 2.662, 'grad_time_ms': 378.951, 'load_time_ms': 0.694}",99,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+50623.7817530632,102381,4.002034828347384,1200,cda-server-2,3904.242312669754,f93d3d6710754a149751678a58e67540,287,1757105453,120000,-14.525832130366894,2334309,{},10.157.146.2,False,{},2025-09-05_22-50-53,4.149825783972125,1560000,3.766377218143129,0,38.294411182403564,1300,"{'default': {'policy_loss': -0.054820410907268524, 'vf_explained_var': 0.7587138414382935, 'vf_loss': 3.024076223373413, 'kl': 0.00529166916385293, 'entropy': -0.2607799768447876, 'cur_kl_coeff': 3.417187452316284, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.9873383045196533}, 'sample_time_ms': 38610.108, 'num_steps_trained': 1560000, 'num_steps_sampled': 1560000, 'update_time_ms': 2.66, 'grad_time_ms': 377.649, 'load_time_ms': 0.696}",100,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+50661.381628513336,102645,5.003742748884211,1200,cda-server-2,3941.8421881198883,f93d3d6710754a149751678a58e67540,264,1757105491,121200,-33.78650738247519,2334309,{},10.157.146.2,False,{},2025-09-05_22-51-31,4.587121212121212,1561200,3.1096670943552094,0,37.59987545013428,1301,"{'default': {'policy_loss': -0.06776063144207001, 'vf_explained_var': 0.5775293111801147, 'vf_loss': 10.875408172607422, 'kl': 0.010340515524148941, 'entropy': 0.8940406441688538, 'cur_kl_coeff': 3.417187452316284, 'cur_lr': 4.999999873689376e-05, 'total_loss': 10.84298324584961}, 'sample_time_ms': 38268.389, 'num_steps_trained': 1561200, 'num_steps_sampled': 1561200, 'update_time_ms': 2.756, 'grad_time_ms': 376.121, 'load_time_ms': 0.696}",101,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+50700.6562936306,102914,8.00000040000032,1200,cda-server-2,3981.116853237152,f93d3d6710754a149751678a58e67540,269,1757105530,122400,-22.95572056293421,2334309,{},10.157.146.2,False,{},2025-09-05_22-52-10,4.4572490706319705,1562400,3.2858173704719262,0,39.274665117263794,1302,"{'default': {'policy_loss': -0.07199344038963318, 'vf_explained_var': 0.6045301556587219, 'vf_loss': 9.286487579345703, 'kl': 0.007774305064231157, 'entropy': 0.5448364019393921, 'cur_kl_coeff': 3.417187452316284, 'cur_lr': 4.999999873689376e-05, 'total_loss': 9.241061210632324}, 'sample_time_ms': 38230.219, 'num_steps_trained': 1562400, 'num_steps_sampled': 1562400, 'update_time_ms': 2.757, 'grad_time_ms': 374.456, 'load_time_ms': 0.681}",102,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+50740.052881240845,103183,10.0,1200,cda-server-2,4020.513440847397,f93d3d6710754a149751678a58e67540,269,1757105569,123600,-43.18443269245937,2334309,{},10.157.146.2,False,{},2025-09-05_22-52-49,4.4684014869888475,1563600,3.2945209031201297,0,39.39658761024475,1303,"{'default': {'policy_loss': -0.06719061732292175, 'vf_explained_var': 0.5393130779266357, 'vf_loss': 16.390005111694336, 'kl': 0.006436643656343222, 'entropy': 0.47890397906303406, 'cur_kl_coeff': 3.417187452316284, 'cur_lr': 4.999999873689376e-05, 'total_loss': 16.34480857849121}, 'sample_time_ms': 38090.683, 'num_steps_trained': 1563600, 'num_steps_sampled': 1563600, 'update_time_ms': 2.722, 'grad_time_ms': 374.298, 'load_time_ms': 0.67}",103,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+50779.21842813492,103442,4.002158379944677,1200,cda-server-2,4059.6789877414703,f93d3d6710754a149751678a58e67540,259,1757105608,124800,-20.465586177088625,2334309,{},10.157.146.2,False,{},2025-09-05_22-53-28,4.54054054054054,1564800,3.183020895221648,0,39.165546894073486,1304,"{'default': {'policy_loss': -0.0755765438079834, 'vf_explained_var': 0.6027243733406067, 'vf_loss': 12.003551483154297, 'kl': 0.007959884591400623, 'entropy': 0.9548928141593933, 'cur_kl_coeff': 3.417187452316284, 'cur_lr': 4.999999873689376e-05, 'total_loss': 11.955175399780273}, 'sample_time_ms': 38047.994, 'num_steps_trained': 1564800, 'num_steps_sampled': 1564800, 'update_time_ms': 2.702, 'grad_time_ms': 373.953, 'load_time_ms': 0.676}",104,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+50818.38146686554,103709,4.001670446449456,1200,cda-server-2,4098.842026472092,f93d3d6710754a149751678a58e67540,267,1757105648,126000,-31.187347829112795,2334309,{},10.157.146.2,False,{},2025-09-05_22-54-08,4.595505617977528,1566000,3.094879524705719,0,39.16303873062134,1305,"{'default': {'policy_loss': -0.08084486424922943, 'vf_explained_var': 0.6481261253356934, 'vf_loss': 5.634145736694336, 'kl': 0.012873499654233456, 'entropy': 0.633223295211792, 'cur_kl_coeff': 3.417187452316284, 'cur_lr': 4.999999873689376e-05, 'total_loss': 5.597291946411133}, 'sample_time_ms': 38100.568, 'num_steps_trained': 1566000, 'num_steps_sampled': 1566000, 'update_time_ms': 2.721, 'grad_time_ms': 371.667, 'load_time_ms': 0.67}",105,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+50859.61294531822,103983,4.00198348938064,1200,cda-server-2,4140.073504924774,f93d3d6710754a149751678a58e67540,274,1757105689,127200,-21.432730940866485,2334309,{},10.157.146.2,False,{},2025-09-05_22-54-49,4.354014598540146,1567200,3.445338692082312,0,41.231478452682495,1306,"{'default': {'policy_loss': -0.06374084204435349, 'vf_explained_var': 0.6493927240371704, 'vf_loss': 6.223613739013672, 'kl': 0.007776125334203243, 'entropy': 0.15254253149032593, 'cur_kl_coeff': 3.417187452316284, 'cur_lr': 4.999999873689376e-05, 'total_loss': 6.1864447593688965}, 'sample_time_ms': 38447.657, 'num_steps_trained': 1567200, 'num_steps_sampled': 1567200, 'update_time_ms': 2.709, 'grad_time_ms': 371.118, 'load_time_ms': 0.664}",106,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+50900.58679533005,104255,4.0018922460426225,1200,cda-server-2,4181.0473549366,f93d3d6710754a149751678a58e67540,272,1757105730,128400,-49.363814880106105,2334309,{},10.157.146.2,False,{},2025-09-05_22-55-30,4.430147058823529,1568400,3.3425205731104675,0,40.97385001182556,1307,"{'default': {'policy_loss': -0.06094861775636673, 'vf_explained_var': 0.5548527836799622, 'vf_loss': 16.753713607788086, 'kl': 0.0048278141766786575, 'entropy': 0.33025237917900085, 'cur_kl_coeff': 3.417187452316284, 'cur_lr': 4.999999873689376e-05, 'total_loss': 16.70926284790039}, 'sample_time_ms': 38740.645, 'num_steps_trained': 1568400, 'num_steps_sampled': 1568400, 'update_time_ms': 2.662, 'grad_time_ms': 369.988, 'load_time_ms': 0.654}",107,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+50939.62045454979,104536,4.001877784402788,1200,cda-server-2,4220.081014156342,f93d3d6710754a149751678a58e67540,281,1757105769,129600,-22.627246877188128,2334309,{},10.157.146.2,False,{},2025-09-05_22-56-09,4.270462633451957,1569600,3.573085696522354,0,39.03365921974182,1308,"{'default': {'policy_loss': -0.06859763711690903, 'vf_explained_var': 0.6861996054649353, 'vf_loss': 5.553940773010254, 'kl': 0.00816518347710371, 'entropy': -0.26000893115997314, 'cur_kl_coeff': 1.708593726158142, 'cur_lr': 4.999999873689376e-05, 'total_loss': 5.499293804168701}, 'sample_time_ms': 38822.426, 'num_steps_trained': 1569600, 'num_steps_sampled': 1569600, 'update_time_ms': 2.645, 'grad_time_ms': 369.554, 'load_time_ms': 0.657}",108,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+50979.06784796715,104801,4.001726488105016,1200,cda-server-2,4259.5284075737,f93d3d6710754a149751678a58e67540,265,1757105808,130800,-28.75251328342415,2334309,{},10.157.146.2,False,{},2025-09-05_22-56-48,4.532075471698113,1570800,3.1570240772033684,0,39.4473934173584,1309,"{'default': {'policy_loss': -0.07145527005195618, 'vf_explained_var': 0.5634995698928833, 'vf_loss': 13.224043846130371, 'kl': 0.010305420495569706, 'entropy': 0.5198453664779663, 'cur_kl_coeff': 1.708593726158142, 'cur_lr': 4.999999873689376e-05, 'total_loss': 13.170196533203125}, 'sample_time_ms': 38978.999, 'num_steps_trained': 1570800, 'num_steps_sampled': 1570800, 'update_time_ms': 2.628, 'grad_time_ms': 369.759, 'load_time_ms': 0.663}",109,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+51018.843745708466,105088,4.0017950608403225,1200,cda-server-2,4299.304305315018,f93d3d6710754a149751678a58e67540,287,1757105848,132000,-8.191612376563011,2334309,{},10.157.146.2,False,{},2025-09-05_22-57-28,4.132404181184669,1572000,3.8032685783297397,0,39.77589774131775,1310,"{'default': {'policy_loss': -0.06360436230897903, 'vf_explained_var': 0.6623866558074951, 'vf_loss': 5.167516708374023, 'kl': 0.008284644223749638, 'entropy': -0.34053632616996765, 'cur_kl_coeff': 1.708593726158142, 'cur_lr': 4.999999873689376e-05, 'total_loss': 5.118066787719727}, 'sample_time_ms': 39126.796, 'num_steps_trained': 1572000, 'num_steps_sampled': 1572000, 'update_time_ms': 2.637, 'grad_time_ms': 370.08, 'load_time_ms': 0.665}",110,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+51058.46518111229,105371,4.002042631107875,1200,cda-server-2,4338.925740718842,f93d3d6710754a149751678a58e67540,283,1757105888,133200,-17.74177093044423,2334309,{},10.157.146.2,False,{},2025-09-05_22-58-08,4.261484098939929,1573200,3.5916262071100427,0,39.62143540382385,1311,"{'default': {'policy_loss': -0.06490815430879593, 'vf_explained_var': 0.7050497531890869, 'vf_loss': 3.5137922763824463, 'kl': 0.01350666955113411, 'entropy': -0.31632694602012634, 'cur_kl_coeff': 1.708593726158142, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.471961498260498}, 'sample_time_ms': 39326.742, 'num_steps_trained': 1573200, 'num_steps_sampled': 1573200, 'update_time_ms': 2.627, 'grad_time_ms': 372.323, 'load_time_ms': 0.674}",111,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+51098.61948919296,105635,4.00188794347281,1200,cda-server-2,4379.080048799515,f93d3d6710754a149751678a58e67540,264,1757105928,134400,-27.94722228343234,2334309,{},10.157.146.2,False,{},2025-09-05_22-58-48,4.575757575757576,1574400,3.110068671712963,0,40.15430808067322,1312,"{'default': {'policy_loss': -0.07792068272829056, 'vf_explained_var': 0.5980434417724609, 'vf_loss': 10.607966423034668, 'kl': 0.010047199204564095, 'entropy': 0.802868127822876, 'cur_kl_coeff': 1.708593726158142, 'cur_lr': 4.999999873689376e-05, 'total_loss': 10.547211647033691}, 'sample_time_ms': 39413.158, 'num_steps_trained': 1574400, 'num_steps_sampled': 1574400, 'update_time_ms': 2.612, 'grad_time_ms': 373.868, 'load_time_ms': 0.683}",112,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+51138.87035822868,105926,4.001885130067342,1200,cda-server-2,4419.330917835236,f93d3d6710754a149751678a58e67540,291,1757105968,135600,-13.75303793071621,2334309,{},10.157.146.2,False,{},2025-09-05_22-59-28,4.130584192439863,1575600,3.800668031422106,0,40.250869035720825,1313,"{'default': {'policy_loss': -0.08245294541120529, 'vf_explained_var': 0.7952665686607361, 'vf_loss': 1.787705898284912, 'kl': 0.01485416665673256, 'entropy': -0.4632006883621216, 'cur_kl_coeff': 1.708593726158142, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.7306325435638428}, 'sample_time_ms': 39497.2, 'num_steps_trained': 1575600, 'num_steps_sampled': 1575600, 'update_time_ms': 2.622, 'grad_time_ms': 375.055, 'load_time_ms': 0.688}",113,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+51179.091141462326,106204,5.0020361779116085,1200,cda-server-2,4459.551701068878,f93d3d6710754a149751678a58e67540,278,1757106008,136800,-35.95504820029205,2334309,{},10.157.146.2,False,{},2025-09-05_23-00-08,4.302158273381295,1576800,3.5275022095657036,0,40.22078323364258,1314,"{'default': {'policy_loss': -0.05968090519309044, 'vf_explained_var': 0.6044803261756897, 'vf_loss': 8.644490242004395, 'kl': 0.007263501640409231, 'entropy': 0.015614721924066544, 'cur_kl_coeff': 1.708593726158142, 'cur_lr': 4.999999873689376e-05, 'total_loss': 8.597219467163086}, 'sample_time_ms': 39601.93, 'num_steps_trained': 1576800, 'num_steps_sampled': 1576800, 'update_time_ms': 2.657, 'grad_time_ms': 375.826, 'load_time_ms': 0.686}",114,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+51218.20755290985,106488,4.002049139602024,1200,cda-server-2,4498.668112516403,f93d3d6710754a149751678a58e67540,284,1757106048,138000,-21.260014679445053,2334309,{},10.157.146.2,False,{},2025-09-05_23-00-48,4.225352112676056,1578000,3.64609339337644,0,39.116411447525024,1315,"{'default': {'policy_loss': -0.0627419576048851, 'vf_explained_var': 0.7133104801177979, 'vf_loss': 4.05226469039917, 'kl': 0.006604376714676619, 'entropy': -0.11876635998487473, 'cur_kl_coeff': 1.708593726158142, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4.00080680847168}, 'sample_time_ms': 39597.742, 'num_steps_trained': 1578000, 'num_steps_sampled': 1578000, 'update_time_ms': 2.641, 'grad_time_ms': 375.366, 'load_time_ms': 0.683}",115,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+51258.21114850044,106773,5.192633744182842,1200,cda-server-2,4538.671708106995,f93d3d6710754a149751678a58e67540,285,1757106088,139200,-13.126771417258908,2334309,{},10.157.146.2,False,{},2025-09-05_23-01-28,4.2140350877192985,1579200,3.6750751223617684,0,40.00359559059143,1316,"{'default': {'policy_loss': -0.06536490470170975, 'vf_explained_var': 0.7026593089103699, 'vf_loss': 2.868454933166504, 'kl': 0.017984136939048767, 'entropy': -0.08238264173269272, 'cur_kl_coeff': 1.708593726158142, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.833817481994629}, 'sample_time_ms': 39476.988, 'num_steps_trained': 1579200, 'num_steps_sampled': 1579200, 'update_time_ms': 2.62, 'grad_time_ms': 373.381, 'load_time_ms': 0.689}",116,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+51297.63821220398,107058,6.000128481723395,1200,cda-server-2,4578.098771810532,f93d3d6710754a149751678a58e67540,285,1757106127,140400,-20.621182838847858,2334309,{},10.157.146.2,False,{},2025-09-05_23-02-07,4.2,1580400,3.7088016669561275,0,39.42706370353699,1317,"{'default': {'policy_loss': -0.06674400717020035, 'vf_explained_var': 0.7722951769828796, 'vf_loss': 2.2752792835235596, 'kl': 0.01534294057637453, 'entropy': -0.21627697348594666, 'cur_kl_coeff': 1.708593726158142, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.2347500324249268}, 'sample_time_ms': 39321.566, 'num_steps_trained': 1580400, 'num_steps_sampled': 1580400, 'update_time_ms': 2.621, 'grad_time_ms': 374.09, 'load_time_ms': 0.7}",117,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+51337.498566150665,107334,4.0019534112984925,1200,cda-server-2,4617.959125757217,f93d3d6710754a149751678a58e67540,276,1757106167,141600,-25.671187343565002,2334309,{},10.157.146.2,False,{},2025-09-05_23-02-47,4.351449275362318,1581600,3.4791249938259803,0,39.86035394668579,1318,"{'default': {'policy_loss': -0.059444766491651535, 'vf_explained_var': 0.6444743275642395, 'vf_loss': 6.268968105316162, 'kl': 0.012775886803865433, 'entropy': 0.18119819462299347, 'cur_kl_coeff': 1.708593726158142, 'cur_lr': 4.999999873689376e-05, 'total_loss': 6.231351852416992}, 'sample_time_ms': 39401.9, 'num_steps_trained': 1581600, 'num_steps_sampled': 1581600, 'update_time_ms': 2.62, 'grad_time_ms': 376.387, 'load_time_ms': 0.707}",118,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+51377.39486122131,107613,5.026829501809603,1200,cda-server-2,4657.855420827866,f93d3d6710754a149751678a58e67540,279,1757106207,142800,-17.98357810345092,2334309,{},10.157.146.2,False,{},2025-09-05_23-03-27,4.297491039426523,1582800,3.5439972077686925,0,39.89629507064819,1319,"{'default': {'policy_loss': -0.06042281165719032, 'vf_explained_var': 0.5932624340057373, 'vf_loss': 6.504125118255615, 'kl': 0.011180099099874496, 'entropy': 0.056139640510082245, 'cur_kl_coeff': 1.708593726158142, 'cur_lr': 4.999999873689376e-05, 'total_loss': 6.462804794311523}, 'sample_time_ms': 39449.301, 'num_steps_trained': 1582800, 'num_steps_sampled': 1582800, 'update_time_ms': 2.641, 'grad_time_ms': 373.911, 'load_time_ms': 0.707}",119,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+51416.45303559303,107899,4.001912659791163,1200,cda-server-2,4696.913595199585,f93d3d6710754a149751678a58e67540,286,1757106246,144000,-13.31436163941175,2334309,{},10.157.146.2,False,{},2025-09-05_23-04-06,4.1923076923076925,1584000,3.7121264694062446,0,39.05817437171936,1320,"{'default': {'policy_loss': -0.05389616638422012, 'vf_explained_var': 0.7721025943756104, 'vf_loss': 2.4455513954162598, 'kl': 0.012464827857911587, 'entropy': -0.15338730812072754, 'cur_kl_coeff': 1.708593726158142, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.412952423095703}, 'sample_time_ms': 39377.08, 'num_steps_trained': 1584000, 'num_steps_sampled': 1584000, 'update_time_ms': 2.63, 'grad_time_ms': 374.359, 'load_time_ms': 0.708}",120,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+51454.51548862457,108173,4.001954075541468,1200,cda-server-2,4734.976048231125,f93d3d6710754a149751678a58e67540,274,1757106284,145200,-44.956646283902124,2334309,{},10.157.146.2,False,{},2025-09-05_23-04-44,4.401459854014599,1585200,3.3938251318626005,0,38.06245303153992,1321,"{'default': {'policy_loss': -0.07076133787631989, 'vf_explained_var': 0.5087409615516663, 'vf_loss': 25.35009002685547, 'kl': 0.011702321469783783, 'entropy': 0.24638400971889496, 'cur_kl_coeff': 1.708593726158142, 'cur_lr': 4.999999873689376e-05, 'total_loss': 25.29932403564453}, 'sample_time_ms': 39221.995, 'num_steps_trained': 1585200, 'num_steps_sampled': 1585200, 'update_time_ms': 2.583, 'grad_time_ms': 373.516, 'load_time_ms': 0.702}",121,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+51493.21711039543,108447,4.001949635316565,1200,cda-server-2,4773.677670001984,f93d3d6710754a149751678a58e67540,274,1757106323,146400,-21.423043154428267,2334309,{},10.157.146.2,False,{},2025-09-05_23-05-23,4.364963503649635,1586400,3.4470366100666934,0,38.701621770858765,1322,"{'default': {'policy_loss': -0.06936493515968323, 'vf_explained_var': 0.632332980632782, 'vf_loss': 8.364895820617676, 'kl': 0.011892740614712238, 'entropy': 0.35092467069625854, 'cur_kl_coeff': 1.708593726158142, 'cur_lr': 4.999999873689376e-05, 'total_loss': 8.315850257873535}, 'sample_time_ms': 39076.57, 'num_steps_trained': 1586400, 'num_steps_sampled': 1586400, 'update_time_ms': 2.617, 'grad_time_ms': 373.581, 'load_time_ms': 0.696}",122,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+51531.17982029915,108726,5.002397886351651,1200,cda-server-2,4811.640379905701,f93d3d6710754a149751678a58e67540,279,1757106361,147600,-35.753579959877555,2334309,{},10.157.146.2,False,{},2025-09-05_23-06-01,4.308243727598566,1587600,3.532079765687843,0,37.96270990371704,1323,"{'default': {'policy_loss': -0.07389858365058899, 'vf_explained_var': 0.6758853793144226, 'vf_loss': 8.18017864227295, 'kl': 0.00736176548525691, 'entropy': 0.11048974096775055, 'cur_kl_coeff': 1.708593726158142, 'cur_lr': 4.999999873689376e-05, 'total_loss': 8.118858337402344}, 'sample_time_ms': 38848.246, 'num_steps_trained': 1587600, 'num_steps_sampled': 1587600, 'update_time_ms': 2.66, 'grad_time_ms': 373.121, 'load_time_ms': 0.694}",123,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+51569.30113482475,109000,6.000090859629799,1200,cda-server-2,4849.761694431305,f93d3d6710754a149751678a58e67540,274,1757106399,148800,-22.85458135516012,2334309,{},10.157.146.2,False,{},2025-09-05_23-06-39,4.357664233576642,1588800,3.4497365362897017,0,38.12131452560425,1324,"{'default': {'policy_loss': -0.0709657371044159, 'vf_explained_var': 0.6689650416374207, 'vf_loss': 6.539626598358154, 'kl': 0.014646215364336967, 'entropy': 0.1108369529247284, 'cur_kl_coeff': 1.708593726158142, 'cur_lr': 4.999999873689376e-05, 'total_loss': 6.493686199188232}, 'sample_time_ms': 38638.067, 'num_steps_trained': 1588800, 'num_steps_sampled': 1588800, 'update_time_ms': 2.68, 'grad_time_ms': 373.307, 'load_time_ms': 0.708}",124,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+51608.81578350067,109269,4.001555289783898,1200,cda-server-2,4889.2763431072235,f93d3d6710754a149751678a58e67540,269,1757106438,150000,-20.095841520247646,2334309,{},10.157.146.2,False,{},2025-09-05_23-07-18,4.479553903345725,1590000,3.2499978965714686,0,39.51464867591858,1325,"{'default': {'policy_loss': -0.0761907622218132, 'vf_explained_var': 0.6497973203659058, 'vf_loss': 8.79183292388916, 'kl': 0.01164473220705986, 'entropy': 0.3123447597026825, 'cur_kl_coeff': 1.708593726158142, 'cur_lr': 4.999999873689376e-05, 'total_loss': 8.735538482666016}, 'sample_time_ms': 38674.547, 'num_steps_trained': 1590000, 'num_steps_sampled': 1590000, 'update_time_ms': 2.698, 'grad_time_ms': 376.557, 'load_time_ms': 0.723}",125,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+51647.35361099243,109547,4.002049379447667,1200,cda-server-2,4927.814170598984,f93d3d6710754a149751678a58e67540,278,1757106477,151200,-19.550619299151457,2334309,{},10.157.146.2,False,{},2025-09-05_23-07-57,4.305755395683454,1591200,3.526643711284543,0,38.537827491760254,1326,"{'default': {'policy_loss': -0.07533690333366394, 'vf_explained_var': 0.7013075351715088, 'vf_loss': 4.180681228637695, 'kl': 0.011995701119303703, 'entropy': 0.03432973101735115, 'cur_kl_coeff': 1.708593726158142, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4.125840187072754}, 'sample_time_ms': 38528.029, 'num_steps_trained': 1591200, 'num_steps_sampled': 1591200, 'update_time_ms': 2.718, 'grad_time_ms': 376.496, 'load_time_ms': 0.725}",126,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+51687.74528694153,109841,4.002140363935118,1200,cda-server-2,4968.20584654808,f93d3d6710754a149751678a58e67540,294,1757106517,152400,-9.216992471165565,2334309,{},10.157.146.2,False,{},2025-09-05_23-08-37,4.091836734693878,1592400,3.8632125916146416,0,40.39167594909668,1327,"{'default': {'policy_loss': -0.05808692425489426, 'vf_explained_var': 0.8285026550292969, 'vf_loss': 1.3187617063522339, 'kl': 0.011449616402387619, 'entropy': -0.6105666756629944, 'cur_kl_coeff': 1.708593726158142, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.2802374362945557}, 'sample_time_ms': 38624.862, 'num_steps_trained': 1592400, 'num_steps_sampled': 1592400, 'update_time_ms': 2.702, 'grad_time_ms': 376.063, 'load_time_ms': 0.722}",127,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+51727.538893699646,110124,4.001646158106936,1200,cda-server-2,5007.999453306198,f93d3d6710754a149751678a58e67540,283,1757106557,153600,-17.889057102927715,2334309,{},10.157.146.2,False,{},2025-09-05_23-09-17,4.229681978798586,1593600,3.6520118782502418,0,39.793606758117676,1328,"{'default': {'policy_loss': -0.050349161028862, 'vf_explained_var': 0.5883679986000061, 'vf_loss': 5.090128421783447, 'kl': 0.02241305634379387, 'entropy': -0.16097025573253632, 'cur_kl_coeff': 1.708593726158142, 'cur_lr': 4.999999873689376e-05, 'total_loss': 5.078073501586914}, 'sample_time_ms': 38620.492, 'num_steps_trained': 1593600, 'num_steps_sampled': 1593600, 'update_time_ms': 2.711, 'grad_time_ms': 373.768, 'load_time_ms': 0.718}",128,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+51768.12878513336,110405,4.002076271452172,1200,cda-server-2,5048.589344739914,f93d3d6710754a149751678a58e67540,281,1757106598,154800,-46.51767092270567,2334309,{},10.157.146.2,False,{},2025-09-05_23-09-58,4.284697508896797,1594800,3.562632819397314,0,40.58989143371582,1329,"{'default': {'policy_loss': -0.05679268389940262, 'vf_explained_var': 0.5845372676849365, 'vf_loss': 13.10555648803711, 'kl': 0.004695294424891472, 'entropy': -0.07875441014766693, 'cur_kl_coeff': 2.5628905296325684, 'cur_lr': 4.999999873689376e-05, 'total_loss': 13.060796737670898}, 'sample_time_ms': 38689.822, 'num_steps_trained': 1594800, 'num_steps_sampled': 1594800, 'update_time_ms': 2.693, 'grad_time_ms': 373.833, 'load_time_ms': 0.715}",129,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+51807.787913799286,110690,4.0016529335288995,1200,cda-server-2,5088.248473405838,f93d3d6710754a149751678a58e67540,285,1757106637,156000,-15.393641706545381,2334309,{},10.157.146.2,False,{},2025-09-05_23-10-37,4.203508771929824,1596000,3.688938823396829,0,39.65912866592407,1330,"{'default': {'policy_loss': -0.05549138784408569, 'vf_explained_var': 0.7311026453971863, 'vf_loss': 3.008976936340332, 'kl': 0.013225247152149677, 'entropy': -0.2110975980758667, 'cur_kl_coeff': 1.2814452648162842, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.970432996749878}, 'sample_time_ms': 38748.211, 'num_steps_trained': 1596000, 'num_steps_sampled': 1596000, 'update_time_ms': 2.681, 'grad_time_ms': 375.562, 'load_time_ms': 0.708}",130,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+51846.983005046844,110976,4.0020058073185965,1200,cda-server-2,5127.443564653397,f93d3d6710754a149751678a58e67540,286,1757106677,157200,-9.516016658356655,2334309,{},10.157.146.2,False,{},2025-09-05_23-11-17,4.206293706293707,1597200,3.69098861499797,0,39.195091247558594,1331,"{'default': {'policy_loss': -0.061733510345220566, 'vf_explained_var': 0.7163572907447815, 'vf_loss': 2.7935588359832764, 'kl': 0.012929204851388931, 'entropy': -0.24729609489440918, 'cur_kl_coeff': 1.2814452648162842, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.7483932971954346}, 'sample_time_ms': 38860.45, 'num_steps_trained': 1597200, 'num_steps_sampled': 1597200, 'update_time_ms': 2.688, 'grad_time_ms': 376.645, 'load_time_ms': 0.722}",131,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+51885.285808324814,111244,4.0018289930717925,1200,cda-server-2,5165.746367931366,f93d3d6710754a149751678a58e67540,268,1757106715,158400,-30.3674044687031,2334309,{},10.157.146.2,False,{},2025-09-05_23-11-55,4.477611940298507,1598400,3.2521410079682447,0,38.30280327796936,1332,"{'default': {'policy_loss': -0.08909670263528824, 'vf_explained_var': 0.6705560684204102, 'vf_loss': 10.326985359191895, 'kl': 0.01343161053955555, 'entropy': 0.44165194034576416, 'cur_kl_coeff': 1.2814452648162842, 'cur_lr': 4.999999873689376e-05, 'total_loss': 10.25510025024414}, 'sample_time_ms': 38822.631, 'num_steps_trained': 1598400, 'num_steps_sampled': 1598400, 'update_time_ms': 2.686, 'grad_time_ms': 374.646, 'load_time_ms': 0.731}",132,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+51923.771050453186,111539,4.001942240470322,1200,cda-server-2,5204.231610059738,f93d3d6710754a149751678a58e67540,295,1757106753,159600,-3.9258890454446185,2334309,{},10.157.146.2,False,{},2025-09-05_23-12-33,4.074576271186441,1599600,3.8895729815637607,0,38.48524212837219,1333,"{'default': {'policy_loss': -0.05956500023603439, 'vf_explained_var': 0.8436745405197144, 'vf_loss': 0.9759343266487122, 'kl': 0.04033590853214264, 'entropy': -0.5865831971168518, 'cur_kl_coeff': 1.2814452648162842, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.9680576324462891}, 'sample_time_ms': 38874.013, 'num_steps_trained': 1599600, 'num_steps_sampled': 1599600, 'update_time_ms': 2.65, 'grad_time_ms': 375.634, 'load_time_ms': 0.738}",133,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+51962.440440654755,111817,4.00159956456076,1200,cda-server-2,5242.901000261307,f93d3d6710754a149751678a58e67540,278,1757106792,160800,-39.961114766791155,2334309,{},10.157.146.2,False,{},2025-09-05_23-13-12,4.302158273381295,1600800,3.5262119598326507,0,38.6693902015686,1334,"{'default': {'policy_loss': -0.05372573062777519, 'vf_explained_var': 0.6405785083770752, 'vf_loss': 12.282140731811523, 'kl': 0.008107896894216537, 'entropy': 0.03921503573656082, 'cur_kl_coeff': 1.9221681356430054, 'cur_lr': 4.999999873689376e-05, 'total_loss': 12.243999481201172}, 'sample_time_ms': 38928.011, 'num_steps_trained': 1600800, 'num_steps_sampled': 1600800, 'update_time_ms': 2.599, 'grad_time_ms': 376.508, 'load_time_ms': 0.733}",134,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+52002.58175730705,112102,4.00189988759658,1200,cda-server-2,5283.042316913605,f93d3d6710754a149751678a58e67540,285,1757106832,162000,-16.305863487748297,2334309,{},10.157.146.2,False,{},2025-09-05_23-13-52,4.207017543859649,1602000,3.6786799577340283,0,40.141316652297974,1335,"{'default': {'policy_loss': -0.05340477079153061, 'vf_explained_var': 0.6468636989593506, 'vf_loss': 4.3375067710876465, 'kl': 0.02237357199192047, 'entropy': -0.4659261107444763, 'cur_kl_coeff': 1.9221681356430054, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4.327107906341553}, 'sample_time_ms': 38991.746, 'num_steps_trained': 1602000, 'num_steps_sampled': 1602000, 'update_time_ms': 2.567, 'grad_time_ms': 375.479, 'load_time_ms': 0.715}",135,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+52041.34320831299,112385,4.001592622576499,1200,cda-server-2,5321.80376791954,f93d3d6710754a149751678a58e67540,283,1757106871,163200,-20.779267413464282,2334309,{},10.157.146.2,False,{},2025-09-05_23-14-31,4.243816254416961,1603200,3.61892197761323,0,38.76145100593567,1336,"{'default': {'policy_loss': -0.05183533951640129, 'vf_explained_var': 0.6796021461486816, 'vf_loss': 4.407958507537842, 'kl': 0.019766276702284813, 'entropy': -0.20680133998394012, 'cur_kl_coeff': 2.883251905441284, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4.413114547729492}, 'sample_time_ms': 39012.554, 'num_steps_trained': 1603200, 'num_steps_sampled': 1603200, 'update_time_ms': 2.613, 'grad_time_ms': 376.949, 'load_time_ms': 0.703}",136,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+52079.97234201431,112666,4.001665389673638,1200,cda-server-2,5360.432901620865,f93d3d6710754a149751678a58e67540,281,1757106910,164400,-34.90653439797438,2334309,{},10.157.146.2,False,{},2025-09-05_23-15-10,4.241992882562277,1604400,3.644153023623832,0,38.62913370132446,1337,"{'default': {'policy_loss': -0.05202701687812805, 'vf_explained_var': 0.6695787310600281, 'vf_loss': 8.545740127563477, 'kl': 0.0050067175179719925, 'entropy': -0.09803963452577591, 'cur_kl_coeff': 2.883251905441284, 'cur_lr': 4.999999873689376e-05, 'total_loss': 8.508150100708008}, 'sample_time_ms': 38834.78, 'num_steps_trained': 1604400, 'num_steps_sampled': 1604400, 'update_time_ms': 2.666, 'grad_time_ms': 378.504, 'load_time_ms': 0.707}",137,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+52119.005444288254,112961,6.0000805667874735,1200,cda-server-2,5399.466003894806,f93d3d6710754a149751678a58e67540,295,1757106949,165600,-7.165953075565522,2334309,{},10.157.146.2,False,{},2025-09-05_23-15-49,4.098305084745762,1605600,3.8527000640384896,0,39.03310227394104,1338,"{'default': {'policy_loss': -0.04262460768222809, 'vf_explained_var': 0.8381867408752441, 'vf_loss': 1.0966238975524902, 'kl': 0.0094336848706007, 'entropy': -0.627720296382904, 'cur_kl_coeff': 2.883251905441284, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.0811991691589355}, 'sample_time_ms': 38758.215, 'num_steps_trained': 1605600, 'num_steps_sampled': 1605600, 'update_time_ms': 2.641, 'grad_time_ms': 379.044, 'load_time_ms': 0.713}",138,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+52157.30328917503,113253,4.0011800427103825,1200,cda-server-2,5437.763848781586,f93d3d6710754a149751678a58e67540,292,1757106987,166800,-23.853082262006033,2334309,{},10.157.146.2,False,{},2025-09-05_23-16-27,4.1061643835616435,1606800,3.8287647538095495,0,38.297844886779785,1339,"{'default': {'policy_loss': -0.034682974219322205, 'vf_explained_var': 0.7517573237419128, 'vf_loss': 3.156803607940674, 'kl': 0.006086917594075203, 'entropy': -0.6523790955543518, 'cur_kl_coeff': 2.883251905441284, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.1396703720092773}, 'sample_time_ms': 38527.189, 'num_steps_trained': 1606800, 'num_steps_sampled': 1606800, 'update_time_ms': 2.636, 'grad_time_ms': 380.85, 'load_time_ms': 0.714}",139,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+52196.414237976074,113531,4.00182230193794,1200,cda-server-2,5476.874797582626,f93d3d6710754a149751678a58e67540,278,1757107026,168000,-34.13633598426734,2334309,{},10.157.146.2,False,{},2025-09-05_23-17-06,4.320143884892087,1608000,3.506889558612064,0,39.11094880104065,1340,"{'default': {'policy_loss': -0.05998483672738075, 'vf_explained_var': 0.6843264102935791, 'vf_loss': 10.724564552307129, 'kl': 0.004879020620137453, 'entropy': 0.05445321276783943, 'cur_kl_coeff': 2.883251905441284, 'cur_lr': 4.999999873689376e-05, 'total_loss': 10.678647994995117}, 'sample_time_ms': 38475.042, 'num_steps_trained': 1608000, 'num_steps_sampled': 1608000, 'update_time_ms': 2.654, 'grad_time_ms': 378.141, 'load_time_ms': 0.716}",140,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+52235.50587797165,113812,4.002023812145745,1200,cda-server-2,5515.966437578201,f93d3d6710754a149751678a58e67540,281,1757107065,169200,-24.95848918384165,2334309,{},10.157.146.2,False,{},2025-09-05_23-17-45,4.266903914590747,1609200,3.578010577614854,0,39.09163999557495,1341,"{'default': {'policy_loss': -0.08105481415987015, 'vf_explained_var': 0.7397710084915161, 'vf_loss': 3.7955636978149414, 'kl': 0.011717539280653, 'entropy': -0.12609954178333282, 'cur_kl_coeff': 1.441625952720642, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.731401205062866}, 'sample_time_ms': 38465.105, 'num_steps_trained': 1609200, 'num_steps_sampled': 1609200, 'update_time_ms': 2.636, 'grad_time_ms': 377.737, 'load_time_ms': 0.702}",141,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+52274.06136775017,114095,4.001791791254423,1200,cda-server-2,5554.52192735672,f93d3d6710754a149751678a58e67540,283,1757107104,170400,-23.74996042417611,2334309,{},10.157.146.2,False,{},2025-09-05_23-18-24,4.226148409893993,1610400,3.653818042949027,0,38.55548977851868,1342,"{'default': {'policy_loss': -0.05734843760728836, 'vf_explained_var': 0.625612199306488, 'vf_loss': 6.113195419311523, 'kl': 0.012176762335002422, 'entropy': -0.3238200545310974, 'cur_kl_coeff': 1.441625952720642, 'cur_lr': 4.999999873689376e-05, 'total_loss': 6.07340145111084}, 'sample_time_ms': 38490.505, 'num_steps_trained': 1610400, 'num_steps_sampled': 1610400, 'update_time_ms': 2.627, 'grad_time_ms': 377.628, 'load_time_ms': 0.69}",142,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+52312.68342709541,114380,5.123873489076669,1200,cda-server-2,5593.143986701965,f93d3d6710754a149751678a58e67540,285,1757107143,171600,-31.60991764145686,2334309,{},10.157.146.2,False,{},2025-09-05_23-19-03,4.126315789473685,1611600,3.809023693372418,0,38.62205934524536,1343,"{'default': {'policy_loss': -0.06013388931751251, 'vf_explained_var': 0.6584484577178955, 'vf_loss': 9.156340599060059, 'kl': 0.005214186385273933, 'entropy': -0.25333738327026367, 'cur_kl_coeff': 1.441625952720642, 'cur_lr': 4.999999873689376e-05, 'total_loss': 9.103724479675293}, 'sample_time_ms': 38503.36, 'num_steps_trained': 1611600, 'num_steps_sampled': 1611600, 'update_time_ms': 2.603, 'grad_time_ms': 378.464, 'load_time_ms': 0.694}",143,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+52351.52419948578,114668,4.073515850728069,1200,cda-server-2,5631.984759092331,f93d3d6710754a149751678a58e67540,288,1757107181,172800,-38.327413960277376,2334309,{},10.157.146.2,False,{},2025-09-05_23-19-41,4.256944444444445,1612800,3.5830362520335512,0,38.8407723903656,1344,"{'default': {'policy_loss': -0.05365917086601257, 'vf_explained_var': 0.6706030964851379, 'vf_loss': 5.979413032531738, 'kl': 0.014253895729780197, 'entropy': -0.45398956537246704, 'cur_kl_coeff': 1.441625952720642, 'cur_lr': 4.999999873689376e-05, 'total_loss': 5.94630241394043}, 'sample_time_ms': 38523.338, 'num_steps_trained': 1612800, 'num_steps_sampled': 1612800, 'update_time_ms': 2.624, 'grad_time_ms': 375.616, 'load_time_ms': 0.69}",144,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+52389.24268865585,114965,4.001988752930247,1200,cda-server-2,5669.703248262405,f93d3d6710754a149751678a58e67540,297,1757107219,174000,-12.796257318997647,2334309,{},10.157.146.2,False,{},2025-09-05_23-20-19,4.040404040404041,1614000,3.9338495294567184,0,37.71848917007446,1345,"{'default': {'policy_loss': -0.04711514711380005, 'vf_explained_var': 0.8830295205116272, 'vf_loss': 1.2501449584960938, 'kl': 0.011941448785364628, 'entropy': -0.7976335883140564, 'cur_kl_coeff': 1.441625952720642, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.2202448844909668}, 'sample_time_ms': 38281.471, 'num_steps_trained': 1614000, 'num_steps_sampled': 1614000, 'update_time_ms': 2.64, 'grad_time_ms': 375.243, 'load_time_ms': 0.69}",145,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+52427.98351097107,115254,4.001954905844089,1200,cda-server-2,5708.4440705776215,f93d3d6710754a149751678a58e67540,289,1757107258,175200,-16.523649748622184,2334309,{},10.157.146.2,False,{},2025-09-05_23-20-58,4.16955017301038,1615200,3.7429549762684275,0,38.740822315216064,1346,"{'default': {'policy_loss': -0.05547356605529785, 'vf_explained_var': 0.7257112860679626, 'vf_loss': 3.090949535369873, 'kl': 0.012924444861710072, 'entropy': -0.5111722350120544, 'cur_kl_coeff': 1.441625952720642, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.0541083812713623}, 'sample_time_ms': 38279.618, 'num_steps_trained': 1615200, 'num_steps_sampled': 1615200, 'update_time_ms': 2.583, 'grad_time_ms': 375.076, 'load_time_ms': 0.7}",146,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+52467.06609034538,115542,4.00141060257028,1200,cda-server-2,5747.526649951935,f93d3d6710754a149751678a58e67540,288,1757107297,176400,-26.278095214571998,2334309,{},10.157.146.2,False,{},2025-09-05_23-21-37,4.152777777777778,1616400,3.757530347918735,0,39.082579374313354,1347,"{'default': {'policy_loss': -0.04606213420629501, 'vf_explained_var': 0.6437156200408936, 'vf_loss': 4.452642440795898, 'kl': 0.03128109499812126, 'entropy': -0.540848970413208, 'cur_kl_coeff': 1.441625952720642, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4.451676368713379}, 'sample_time_ms': 38325.986, 'num_steps_trained': 1616400, 'num_steps_sampled': 1616400, 'update_time_ms': 2.58, 'grad_time_ms': 374.069, 'load_time_ms': 0.688}",147,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+52506.48217558861,115819,4.001117259432463,1200,cda-server-2,5786.94273519516,f93d3d6710754a149751678a58e67540,277,1757107336,177600,-36.50437597394449,2334309,{},10.157.146.2,False,{},2025-09-05_23-22-16,4.332129963898917,1617600,3.4830443029961975,0,39.4160852432251,1348,"{'default': {'policy_loss': -0.06083140894770622, 'vf_explained_var': 0.4684969186782837, 'vf_loss': 10.559070587158203, 'kl': 0.017725398764014244, 'entropy': -0.3221726417541504, 'cur_kl_coeff': 2.1624388694763184, 'cur_lr': 4.999999873689376e-05, 'total_loss': 10.53657054901123}, 'sample_time_ms': 38364.259, 'num_steps_trained': 1617600, 'num_steps_sampled': 1617600, 'update_time_ms': 2.583, 'grad_time_ms': 374.075, 'load_time_ms': 0.675}",148,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+52544.96935367584,116113,4.001343480514446,1200,cda-server-2,5825.429913282394,f93d3d6710754a149751678a58e67540,294,1757107375,178800,-12.126273629077897,2334309,{},10.157.146.2,False,{},2025-09-05_23-22-55,4.078231292517007,1618800,3.878033401435547,0,38.4871780872345,1349,"{'default': {'policy_loss': -0.04009401053190231, 'vf_explained_var': 0.7891613841056824, 'vf_loss': 1.6586629152297974, 'kl': 0.0148871885612607, 'entropy': -0.6981332898139954, 'cur_kl_coeff': 2.1624388694763184, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.6507614850997925}, 'sample_time_ms': 38382.941, 'num_steps_trained': 1618800, 'num_steps_sampled': 1618800, 'update_time_ms': 2.614, 'grad_time_ms': 374.24, 'load_time_ms': 0.677}",149,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+52584.50973248482,116385,4.00138704015661,1200,cda-server-2,5864.97029209137,f93d3d6710754a149751678a58e67540,272,1757107414,180000,-23.435765226780774,2334309,{},10.157.146.2,False,{},2025-09-05_23-23-34,4.408088235294118,1620000,3.373034451902526,0,39.54037880897522,1350,"{'default': {'policy_loss': -0.06980738043785095, 'vf_explained_var': 0.5324372053146362, 'vf_loss': 9.081822395324707, 'kl': 0.012487693689763546, 'entropy': 0.08387807011604309, 'cur_kl_coeff': 2.1624388694763184, 'cur_lr': 4.999999873689376e-05, 'total_loss': 9.039019584655762}, 'sample_time_ms': 38422.618, 'num_steps_trained': 1620000, 'num_steps_sampled': 1620000, 'update_time_ms': 2.63, 'grad_time_ms': 377.518, 'load_time_ms': 0.675}",150,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+52629.20439815521,116676,4.002064493269813,1200,cda-server-2,5909.6649577617645,f93d3d6710754a149751678a58e67540,291,1757107459,181200,-10.124830365286538,2334309,{},10.157.146.2,False,{},2025-09-05_23-24-19,4.140893470790378,1621200,3.782445192865684,0,44.6946656703949,1351,"{'default': {'policy_loss': -0.04393324255943298, 'vf_explained_var': 0.785719633102417, 'vf_loss': 1.9305691719055176, 'kl': 0.0074409362860023975, 'entropy': -0.5013459920883179, 'cur_kl_coeff': 2.1624388694763184, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.9027265310287476}, 'sample_time_ms': 38984.46, 'num_steps_trained': 1621200, 'num_steps_sampled': 1621200, 'update_time_ms': 2.619, 'grad_time_ms': 375.976, 'load_time_ms': 0.671}",151,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+52670.798402071,116964,4.001130557659716,1200,cda-server-2,5951.258961677551,f93d3d6710754a149751678a58e67540,288,1757107501,182400,-18.525811022304822,2334309,{},10.157.146.2,False,{},2025-09-05_23-25-01,4.166666666666667,1622400,3.745877252670029,0,41.59400391578674,1352,"{'default': {'policy_loss': -0.04611425846815109, 'vf_explained_var': 0.7151194214820862, 'vf_loss': 3.3119328022003174, 'kl': 0.00847551692277193, 'entropy': -0.4165327847003937, 'cur_kl_coeff': 2.1624388694763184, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.2841460704803467}, 'sample_time_ms': 39287.882, 'num_steps_trained': 1622400, 'num_steps_sampled': 1622400, 'update_time_ms': 2.625, 'grad_time_ms': 376.396, 'load_time_ms': 0.676}",152,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+52710.143995285034,117255,4.006703793796284,1200,cda-server-2,5990.604554891586,f93d3d6710754a149751678a58e67540,291,1757107540,183600,-23.100459027319886,2334309,{},10.157.146.2,False,{},2025-09-05_23-25-40,4.120274914089347,1623600,3.813550816028777,0,39.345593214035034,1353,"{'default': {'policy_loss': -0.03314824402332306, 'vf_explained_var': 0.7751942276954651, 'vf_loss': 2.6210062503814697, 'kl': 0.006087943911552429, 'entropy': -0.4926237463951111, 'cur_kl_coeff': 2.1624388694763184, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.601022720336914}, 'sample_time_ms': 39362.312, 'num_steps_trained': 1623600, 'num_steps_sampled': 1623600, 'update_time_ms': 2.626, 'grad_time_ms': 374.282, 'load_time_ms': 0.671}",153,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+52749.212807416916,117540,4.001961928251676,1200,cda-server-2,6029.673367023468,f93d3d6710754a149751678a58e67540,285,1757107579,184800,-25.83143699402337,2334309,{},10.157.146.2,False,{},2025-09-05_23-26-19,4.207017543859649,1624800,3.6757527745242817,0,39.068812131881714,1354,"{'default': {'policy_loss': -0.04720569774508476, 'vf_explained_var': 0.6387039422988892, 'vf_loss': 6.340426921844482, 'kl': 0.01286298781633377, 'entropy': -0.37502479553222656, 'cur_kl_coeff': 2.1624388694763184, 'cur_lr': 4.999999873689376e-05, 'total_loss': 6.321037292480469}, 'sample_time_ms': 39384.995, 'num_steps_trained': 1624800, 'num_steps_sampled': 1624800, 'update_time_ms': 2.671, 'grad_time_ms': 374.384, 'load_time_ms': 0.665}",154,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+52790.33442544937,117814,4.001945587364709,1200,cda-server-2,6070.7949850559235,f93d3d6710754a149751678a58e67540,274,1757107620,186000,-57.44260311166404,2334309,{},10.157.146.2,False,{},2025-09-05_23-27-00,4.368613138686132,1626000,3.430270966609584,0,41.121618032455444,1355,"{'default': {'policy_loss': -0.05891956761479378, 'vf_explained_var': 0.5249834060668945, 'vf_loss': 30.313209533691406, 'kl': 0.012308265082538128, 'entropy': 0.001731912256218493, 'cur_kl_coeff': 2.1624388694763184, 'cur_lr': 4.999999873689376e-05, 'total_loss': 30.28090476989746}, 'sample_time_ms': 39725.385, 'num_steps_trained': 1626000, 'num_steps_sampled': 1626000, 'update_time_ms': 2.696, 'grad_time_ms': 374.22, 'load_time_ms': 0.666}",155,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+52830.84785199165,118078,4.001550427506314,1200,cda-server-2,6111.308411598206,f93d3d6710754a149751678a58e67540,264,1757107661,187200,-39.4807544569005,2334309,{},10.157.146.2,False,{},2025-09-05_23-27-41,4.5643939393939394,1627200,3.125324220551146,0,40.513426542282104,1356,"{'default': {'policy_loss': -0.06632275879383087, 'vf_explained_var': 0.5241951942443848, 'vf_loss': 19.392234802246094, 'kl': 0.0127052441239357, 'entropy': 0.5477982759475708, 'cur_kl_coeff': 2.1624388694763184, 'cur_lr': 4.999999873689376e-05, 'total_loss': 19.3533878326416}, 'sample_time_ms': 39904.479, 'num_steps_trained': 1627200, 'num_steps_sampled': 1627200, 'update_time_ms': 2.725, 'grad_time_ms': 372.395, 'load_time_ms': 0.667}",156,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+52870.50542521477,118373,4.001403334662066,1200,cda-server-2,6150.96598482132,f93d3d6710754a149751678a58e67540,295,1757107701,188400,-11.325873838934264,2334309,{},10.157.146.2,False,{},2025-09-05_23-28-21,4.071186440677966,1628400,3.894333403083862,0,39.657573223114014,1357,"{'default': {'policy_loss': -0.04379688948392868, 'vf_explained_var': 0.7552006244659424, 'vf_loss': 2.0998988151550293, 'kl': 0.015971699729561806, 'entropy': -0.594768226146698, 'cur_kl_coeff': 2.1624388694763184, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.090640068054199}, 'sample_time_ms': 39962.518, 'num_steps_trained': 1628400, 'num_steps_sampled': 1628400, 'update_time_ms': 2.708, 'grad_time_ms': 371.799, 'load_time_ms': 0.666}",157,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+52909.99989724159,118663,4.001612341753956,1200,cda-server-2,6190.4604568481445,f93d3d6710754a149751678a58e67540,290,1757107740,189600,-16.99232472671937,2334309,{},10.157.146.2,False,{},2025-09-05_23-29-00,4.13103448275862,1629600,3.794064134254215,0,39.49447202682495,1358,"{'default': {'policy_loss': -0.05063984915614128, 'vf_explained_var': 0.7352583408355713, 'vf_loss': 2.992868423461914, 'kl': 0.004386902786791325, 'entropy': -0.6489397287368774, 'cur_kl_coeff': 2.1624388694763184, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.9517149925231934}, 'sample_time_ms': 39970.301, 'num_steps_trained': 1629600, 'num_steps_sampled': 1629600, 'update_time_ms': 2.753, 'grad_time_ms': 371.821, 'load_time_ms': 0.674}",158,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+52950.68886303902,118959,4.000933093590318,1200,cda-server-2,6231.149422645569,f93d3d6710754a149751678a58e67540,296,1757107781,190800,-9.87961203028275,2334309,{},10.157.146.2,False,{},2025-09-05_23-29-41,4.0608108108108105,1630800,3.905986258881268,0,40.688965797424316,1359,"{'default': {'policy_loss': -0.04965360835194588, 'vf_explained_var': 0.8435572981834412, 'vf_loss': 1.0878621339797974, 'kl': 0.011160874739289284, 'entropy': -0.7276782989501953, 'cur_kl_coeff': 1.0812194347381592, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.0502759218215942}, 'sample_time_ms': 40192.409, 'num_steps_trained': 1630800, 'num_steps_sampled': 1630800, 'update_time_ms': 2.74, 'grad_time_ms': 369.93, 'load_time_ms': 0.673}",159,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+52990.52747297287,119255,4.001075293538697,1200,cda-server-2,6270.988032579422,f93d3d6710754a149751678a58e67540,296,1757107821,192000,-11.339161722459355,2334309,{},10.157.146.2,False,{},2025-09-05_23-30-21,4.0574324324324325,1632000,3.91099340777032,0,39.83860993385315,1360,"{'default': {'policy_loss': -0.049068838357925415, 'vf_explained_var': 0.8611826300621033, 'vf_loss': 0.9544947147369385, 'kl': 0.022402919828891754, 'entropy': -0.7728297710418701, 'cur_kl_coeff': 1.0812194347381592, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.9296483993530273}, 'sample_time_ms': 40223.621, 'num_steps_trained': 1632000, 'num_steps_sampled': 1632000, 'update_time_ms': 2.721, 'grad_time_ms': 368.501, 'load_time_ms': 0.672}",160,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+53029.78206324577,119542,4.001539311810788,1200,cda-server-2,6310.242622852325,f93d3d6710754a149751678a58e67540,287,1757107860,193200,-20.300019430884113,2334309,{},10.157.146.2,False,{},2025-09-05_23-31-00,4.160278745644599,1633200,3.7540775565336006,0,39.25459027290344,1361,"{'default': {'policy_loss': -0.04769396781921387, 'vf_explained_var': 0.6811901330947876, 'vf_loss': 4.248560428619385, 'kl': 0.008357509039342403, 'entropy': -0.5042393207550049, 'cur_kl_coeff': 1.6218292713165283, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4.214421272277832}, 'sample_time_ms': 39680.877, 'num_steps_trained': 1633200, 'num_steps_sampled': 1633200, 'update_time_ms': 2.692, 'grad_time_ms': 367.327, 'load_time_ms': 0.669}",161,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+53069.76068663597,119836,4.002021313781001,1200,cda-server-2,6350.221246242523,f93d3d6710754a149751678a58e67540,294,1757107900,194400,-21.399076921994197,2334309,{},10.157.146.2,False,{},2025-09-05_23-31-40,4.085034013605442,1634400,3.864171910449902,0,39.978623390197754,1362,"{'default': {'policy_loss': -0.0435640811920166, 'vf_explained_var': 0.7393613457679749, 'vf_loss': 2.7458620071411133, 'kl': 0.010579230263829231, 'entropy': -0.7529755234718323, 'cur_kl_coeff': 1.6218292713165283, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.7194552421569824}, 'sample_time_ms': 39519.929, 'num_steps_trained': 1634400, 'num_steps_sampled': 1634400, 'update_time_ms': 2.711, 'grad_time_ms': 366.689, 'load_time_ms': 0.667}",162,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+53109.39044690132,120133,4.001411000509101,1200,cda-server-2,6389.8510065078735,f93d3d6710754a149751678a58e67540,297,1757107940,195600,-8.358922026294028,2334309,{},10.157.146.2,False,{},2025-09-05_23-32-20,4.040404040404041,1635600,3.9384339352657776,0,39.62976026535034,1363,"{'default': {'policy_loss': -0.05147209390997887, 'vf_explained_var': 0.9064385294914246, 'vf_loss': 0.6408126354217529, 'kl': 0.013910826295614243, 'entropy': -0.8353760838508606, 'cur_kl_coeff': 1.6218292713165283, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.6119015216827393}, 'sample_time_ms': 39546.822, 'num_steps_trained': 1635600, 'num_steps_sampled': 1635600, 'update_time_ms': 2.731, 'grad_time_ms': 368.214, 'load_time_ms': 0.666}",163,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+53148.995198726654,120428,4.00171089485095,1200,cda-server-2,6429.455758333206,f93d3d6710754a149751678a58e67540,295,1757107979,196800,-5.65530501910337,2334309,{},10.157.146.2,False,{},2025-09-05_23-32-59,4.030508474576271,1636800,3.9507897518415067,0,39.60475182533264,1364,"{'default': {'policy_loss': -0.043948352336883545, 'vf_explained_var': 0.8333761096000671, 'vf_loss': 2.8600940704345703, 'kl': 0.003587464103475213, 'entropy': -0.6985123157501221, 'cur_kl_coeff': 1.6218292713165283, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.8219637870788574}, 'sample_time_ms': 39599.127, 'num_steps_trained': 1636800, 'num_steps_sampled': 1636800, 'update_time_ms': 2.69, 'grad_time_ms': 369.545, 'load_time_ms': 0.666}",164,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+53188.662373542786,120717,4.0008671829279026,1200,cda-server-2,6469.122933149338,f93d3d6710754a149751678a58e67540,289,1757108019,198000,-27.149573420978953,2334309,{},10.157.146.2,False,{},2025-09-05_23-33-39,4.173010380622838,1638000,3.7312329648992564,0,39.66717481613159,1365,"{'default': {'policy_loss': -0.06313852965831757, 'vf_explained_var': 0.758682131767273, 'vf_loss': 2.473036050796509, 'kl': 0.016897082328796387, 'entropy': -0.5230140686035156, 'cur_kl_coeff': 0.8109146356582642, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.4235994815826416}, 'sample_time_ms': 39455.162, 'num_steps_trained': 1638000, 'num_steps_sampled': 1638000, 'update_time_ms': 2.649, 'grad_time_ms': 368.173, 'load_time_ms': 0.665}",165,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+53228.876478910446,121005,4.002067613784664,1200,cda-server-2,6509.337038516998,f93d3d6710754a149751678a58e67540,288,1757108059,199200,-15.904673199270142,2334309,{},10.157.146.2,False,{},2025-09-05_23-34-19,4.166666666666667,1639200,3.738081296250758,0,40.21410536766052,1366,"{'default': {'policy_loss': -0.05565594881772995, 'vf_explained_var': 0.6265950202941895, 'vf_loss': 4.531671524047852, 'kl': 0.03462284803390503, 'entropy': -0.6002200841903687, 'cur_kl_coeff': 0.8109146356582642, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4.504091262817383}, 'sample_time_ms': 39423.517, 'num_steps_trained': 1639200, 'num_steps_sampled': 1639200, 'update_time_ms': 2.622, 'grad_time_ms': 369.93, 'load_time_ms': 0.654}",166,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+53268.63812208176,121297,4.001005362899447,1200,cda-server-2,6549.098681688309,f93d3d6710754a149751678a58e67540,292,1757108099,200400,-30.507660284346237,2334309,{},10.157.146.2,False,{},2025-09-05_23-34-59,4.123287671232877,1640400,3.812847867795009,0,39.761643171310425,1367,"{'default': {'policy_loss': -0.04096836596727371, 'vf_explained_var': 0.8316716551780701, 'vf_loss': 2.0041117668151855, 'kl': 0.007890782319009304, 'entropy': -0.5698299407958984, 'cur_kl_coeff': 1.2163718938827515, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.9727414846420288}, 'sample_time_ms': 39435.679, 'num_steps_trained': 1640400, 'num_steps_sampled': 1640400, 'update_time_ms': 2.593, 'grad_time_ms': 368.288, 'load_time_ms': 0.653}",167,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+53308.31412267685,121589,4.001273324012102,1200,cda-server-2,6588.7746822834015,f93d3d6710754a149751678a58e67540,292,1757108139,201600,-40.48605437745642,2334309,{},10.157.146.2,False,{},2025-09-05_23-35-39,4.126712328767123,1641600,3.7961581977950147,0,39.67600059509277,1368,"{'default': {'policy_loss': -0.05801453813910484, 'vf_explained_var': 0.7010079622268677, 'vf_loss': 6.502936363220215, 'kl': 0.008253063075244427, 'entropy': -0.6677228808403015, 'cur_kl_coeff': 1.2163718938827515, 'cur_lr': 4.999999873689376e-05, 'total_loss': 6.454960823059082}, 'sample_time_ms': 39452.323, 'num_steps_trained': 1641600, 'num_steps_sampled': 1641600, 'update_time_ms': 2.537, 'grad_time_ms': 369.707, 'load_time_ms': 0.648}",168,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+53347.3459982872,121886,4.001386946396571,1200,cda-server-2,6627.806557893753,f93d3d6710754a149751678a58e67540,297,1757108178,202800,-11.179097117027816,2334309,{},10.157.146.2,False,{},2025-09-05_23-36-18,4.033670033670034,1642800,3.9492156034172146,0,39.03187561035156,1369,"{'default': {'policy_loss': -0.04204396903514862, 'vf_explained_var': 0.9253365397453308, 'vf_loss': 0.7197777032852173, 'kl': 0.006834415718913078, 'entropy': -0.7907408475875854, 'cur_kl_coeff': 1.2163718938827515, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.686046838760376}, 'sample_time_ms': 39285.243, 'num_steps_trained': 1642800, 'num_steps_sampled': 1642800, 'update_time_ms': 2.61, 'grad_time_ms': 370.972, 'load_time_ms': 0.645}",169,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+53387.453793764114,122177,4.000829278713715,1200,cda-server-2,6667.9143533706665,f93d3d6710754a149751678a58e67540,291,1757108218,204000,-13.145048983385479,2334309,{},10.157.146.2,False,{},2025-09-05_23-36-58,4.13745704467354,1644000,3.780992578697343,0,40.10779547691345,1370,"{'default': {'policy_loss': -0.05532360076904297, 'vf_explained_var': 0.7861341834068298, 'vf_loss': 2.1494674682617188, 'kl': 0.011824254877865314, 'entropy': -0.5554277896881104, 'cur_kl_coeff': 1.2163718938827515, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.1085269451141357}, 'sample_time_ms': 39311.201, 'num_steps_trained': 1644000, 'num_steps_sampled': 1644000, 'update_time_ms': 2.619, 'grad_time_ms': 371.968, 'load_time_ms': 0.664}",170,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+53426.99702477455,122462,4.0008114264596735,1200,cda-server-2,6707.4575843811035,f93d3d6710754a149751678a58e67540,285,1757108257,205200,-39.72648844385994,2334309,{},10.157.146.2,False,{},2025-09-05_23-37-37,4.2,1645200,3.6772217167266525,0,39.54323101043701,1371,"{'default': {'policy_loss': -0.04688241705298424, 'vf_explained_var': 0.6261416673660278, 'vf_loss': 11.212739944458008, 'kl': 0.012345588766038418, 'entropy': -0.37722912430763245, 'cur_kl_coeff': 1.2163718938827515, 'cur_lr': 4.999999873689376e-05, 'total_loss': 11.18087387084961}, 'sample_time_ms': 39337.747, 'num_steps_trained': 1645200, 'num_steps_sampled': 1645200, 'update_time_ms': 2.606, 'grad_time_ms': 374.254, 'load_time_ms': 0.676}",171,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+53466.655626773834,122758,4.000724758950523,1200,cda-server-2,6747.116186380386,f93d3d6710754a149751678a58e67540,296,1757108297,206400,-17.089005526093064,2334309,{},10.157.146.2,False,{},2025-09-05_23-38-17,4.047297297297297,1646400,3.9290716312557135,0,39.65860199928284,1372,"{'default': {'policy_loss': -0.02976217120885849, 'vf_explained_var': 0.865898609161377, 'vf_loss': 1.650893211364746, 'kl': 0.003893062472343445, 'entropy': -0.808465301990509, 'cur_kl_coeff': 1.2163718938827515, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.625866413116455}, 'sample_time_ms': 39305.592, 'num_steps_trained': 1646400, 'num_steps_sampled': 1646400, 'update_time_ms': 2.573, 'grad_time_ms': 374.421, 'load_time_ms': 0.67}",172,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+53506.62865400314,123045,4.0017188221876845,1200,cda-server-2,6787.089213609695,f93d3d6710754a149751678a58e67540,287,1757108337,207600,-25.091411396147585,2334309,{},10.157.146.2,False,{},2025-09-05_23-38-57,4.174216027874564,1647600,3.7306439869677415,0,39.97302722930908,1373,"{'default': {'policy_loss': -0.04333006218075752, 'vf_explained_var': 0.810102105140686, 'vf_loss': 2.9199037551879883, 'kl': 0.017115138471126556, 'entropy': -0.46955808997154236, 'cur_kl_coeff': 0.6081859469413757, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.8869829177856445}, 'sample_time_ms': 39339.291, 'num_steps_trained': 1647600, 'num_steps_sampled': 1647600, 'update_time_ms': 2.535, 'grad_time_ms': 375.011, 'load_time_ms': 0.678}",173,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+53545.881814956665,123340,4.001815279277036,1200,cda-server-2,6826.342374563217,f93d3d6710754a149751678a58e67540,295,1757108376,208800,-14.526323294496414,2334309,{},10.157.146.2,False,{},2025-09-05_23-39-36,4.067796610169491,1648800,3.897218347353498,0,39.25316095352173,1374,"{'default': {'policy_loss': -0.04755715653300285, 'vf_explained_var': 0.8570488095283508, 'vf_loss': 1.1837114095687866, 'kl': 0.011884653940796852, 'entropy': -0.6603955626487732, 'cur_kl_coeff': 0.6081859469413757, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.1433823108673096}, 'sample_time_ms': 39303.471, 'num_steps_trained': 1648800, 'num_steps_sampled': 1648800, 'update_time_ms': 2.522, 'grad_time_ms': 375.669, 'load_time_ms': 0.68}",174,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+53585.91195726395,123633,4.001875243710457,1200,cda-server-2,6866.372516870499,f93d3d6710754a149751678a58e67540,293,1757108416,210000,-7.981931587018671,2334309,{},10.157.146.2,False,{},2025-09-05_23-40-16,4.071672354948806,1650000,3.889932561602416,0,40.030142307281494,1375,"{'default': {'policy_loss': -0.046078555285930634, 'vf_explained_var': 0.74934321641922, 'vf_loss': 2.6449785232543945, 'kl': 0.04225558042526245, 'entropy': -0.7690642476081848, 'cur_kl_coeff': 0.6081859469413757, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.624598741531372}, 'sample_time_ms': 39336.113, 'num_steps_trained': 1650000, 'num_steps_sampled': 1650000, 'update_time_ms': 2.538, 'grad_time_ms': 379.269, 'load_time_ms': 0.692}",175,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+53625.65307688713,123917,4.001646075770493,1200,cda-server-2,6906.113636493683,f93d3d6710754a149751678a58e67540,284,1757108456,211200,-27.511485159953644,2334309,{},10.157.146.2,False,{},2025-09-05_23-40-56,4.253521126760563,1651200,3.616161956738984,0,39.741119623184204,1376,"{'default': {'policy_loss': -0.04894383251667023, 'vf_explained_var': 0.6037940979003906, 'vf_loss': 6.9622721672058105, 'kl': 0.029539095237851143, 'entropy': -0.3187791109085083, 'cur_kl_coeff': 0.9122788906097412, 'cur_lr': 4.999999873689376e-05, 'total_loss': 6.940276145935059}, 'sample_time_ms': 39290.647, 'num_steps_trained': 1651200, 'num_steps_sampled': 1651200, 'update_time_ms': 2.588, 'grad_time_ms': 377.391, 'load_time_ms': 0.693}",176,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+53665.3698079586,124210,4.001205242974805,1200,cda-server-2,6945.830367565155,f93d3d6710754a149751678a58e67540,293,1757108496,212400,-11.542891327855475,2334309,{},10.157.146.2,False,{},2025-09-05_23-41-36,4.102389078498294,1652400,3.8365255020838456,0,39.71673107147217,1377,"{'default': {'policy_loss': -0.036575719714164734, 'vf_explained_var': 0.7598140239715576, 'vf_loss': 2.0526998043060303, 'kl': 0.01026962697505951, 'entropy': -0.7183577418327332, 'cur_kl_coeff': 1.3684184551239014, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.030177116394043}, 'sample_time_ms': 39284.992, 'num_steps_trained': 1652400, 'num_steps_sampled': 1652400, 'update_time_ms': 2.584, 'grad_time_ms': 378.532, 'load_time_ms': 0.697}",177,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+53705.36302471161,124505,4.0010083332949495,1200,cda-server-2,6985.823584318161,f93d3d6710754a149751678a58e67540,295,1757108536,213600,-6.914649286991494,2334309,{},10.157.146.2,False,{},2025-09-05_23-42-16,4.071186440677966,1653600,3.889117872744373,0,39.99321675300598,1378,"{'default': {'policy_loss': -0.04695291072130203, 'vf_explained_var': 0.8355960845947266, 'vf_loss': 1.1185153722763062, 'kl': 0.012333257123827934, 'entropy': -0.6999411582946777, 'cur_kl_coeff': 1.3684184551239014, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.0884394645690918}, 'sample_time_ms': 39316.988, 'num_steps_trained': 1653600, 'num_steps_sampled': 1653600, 'update_time_ms': 2.62, 'grad_time_ms': 378.361, 'load_time_ms': 0.699}",178,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+53744.81266641617,124798,4.001250126510493,1200,cda-server-2,7025.27322602272,f93d3d6710754a149751678a58e67540,293,1757108575,214800,-25.279956287312253,2334309,{},10.157.146.2,False,{},2025-09-05_23-42-55,4.1058020477815695,1654800,3.8374899246990215,0,39.449641704559326,1379,"{'default': {'policy_loss': -0.040969304740428925, 'vf_explained_var': 0.6918768286705017, 'vf_loss': 4.327630519866943, 'kl': 0.004419866483658552, 'entropy': -0.6365075707435608, 'cur_kl_coeff': 1.3684184551239014, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4.2927093505859375}, 'sample_time_ms': 39360.415, 'num_steps_trained': 1654800, 'num_steps_sampled': 1654800, 'update_time_ms': 2.534, 'grad_time_ms': 376.835, 'load_time_ms': 0.704}",179,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+53784.975268125534,125090,4.000712945495593,1200,cda-server-2,7065.435827732086,f93d3d6710754a149751678a58e67540,292,1757108615,216000,-41.495006931147586,2334309,{},10.157.146.2,False,{},2025-09-05_23-43-35,4.0993150684931505,1656000,3.844499082922353,0,40.162601709365845,1380,"{'default': {'policy_loss': -0.039229728281497955, 'vf_explained_var': 0.7159140110015869, 'vf_loss': 8.677038192749023, 'kl': 0.021060792729258537, 'entropy': -0.6477174758911133, 'cur_kl_coeff': 0.6842092275619507, 'cur_lr': 4.999999873689376e-05, 'total_loss': 8.65221881866455}, 'sample_time_ms': 39366.207, 'num_steps_trained': 1656000, 'num_steps_sampled': 1656000, 'update_time_ms': 2.5, 'grad_time_ms': 376.567, 'load_time_ms': 0.695}",180,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+53825.43715119362,125385,4.0007647186690125,1200,cda-server-2,7105.897710800171,f93d3d6710754a149751678a58e67540,295,1757108656,217200,-4.198949581122935,2334309,{},10.157.146.2,False,{},2025-09-05_23-44-16,4.064406779661017,1657200,3.9028241158124413,0,40.46188306808472,1381,"{'default': {'policy_loss': -0.03486640006303787, 'vf_explained_var': 0.8970832824707031, 'vf_loss': 0.6490289568901062, 'kl': 0.016822166740894318, 'entropy': -0.8098139762878418, 'cur_kl_coeff': 1.0263137817382812, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.6314274072647095}, 'sample_time_ms': 39458.411, 'num_steps_trained': 1657200, 'num_steps_sampled': 1657200, 'update_time_ms': 2.578, 'grad_time_ms': 376.087, 'load_time_ms': 0.694}",181,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+53865.1400103569,125685,4.0008847336515085,1200,cda-server-2,7145.600569963455,f93d3d6710754a149751678a58e67540,300,1757108696,218400,4.000129115279265,2334309,{},10.157.146.2,False,{},2025-09-05_23-44-56,4.0,1658400,4.0003054995290555,0,39.7028591632843,1382,"{'default': {'policy_loss': -0.05868115648627281, 'vf_explained_var': 0.9985697865486145, 'vf_loss': 0.00763033889234066, 'kl': 0.06440810859203339, 'entropy': -0.881829023361206, 'cur_kl_coeff': 1.0263137817382812, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.015052106231451035}, 'sample_time_ms': 39461.954, 'num_steps_trained': 1658400, 'num_steps_sampled': 1658400, 'update_time_ms': 2.575, 'grad_time_ms': 376.965, 'load_time_ms': 0.694}",182,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+53905.72066164017,125980,4.001064871282043,1200,cda-server-2,7186.181221246719,f93d3d6710754a149751678a58e67540,295,1757108736,219600,-15.683043418641823,2334309,{},10.157.146.2,False,{},2025-09-05_23-45-36,4.064406779661017,1659600,3.8993905848620067,0,40.58065128326416,1383,"{'default': {'policy_loss': -0.04311549663543701, 'vf_explained_var': 0.8020843863487244, 'vf_loss': 1.6169514656066895, 'kl': 0.008264243602752686, 'entropy': -0.6902104616165161, 'cur_kl_coeff': 1.5394706726074219, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.58655846118927}, 'sample_time_ms': 39525.578, 'num_steps_trained': 1659600, 'num_steps_sampled': 1659600, 'update_time_ms': 2.611, 'grad_time_ms': 374.181, 'load_time_ms': 0.679}",183,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+53945.2684366703,126271,4.001637130104101,1200,cda-server-2,7225.7289962768555,f93d3d6710754a149751678a58e67540,291,1757108776,220800,-26.800919569553187,2334309,{},10.157.146.2,False,{},2025-09-05_23-46-16,4.096219931271477,1660800,3.859487939916866,0,39.54777503013611,1384,"{'default': {'policy_loss': -0.04808627441525459, 'vf_explained_var': 0.7201911211013794, 'vf_loss': 4.612583637237549, 'kl': 0.006139342673122883, 'entropy': -0.4969693422317505, 'cur_kl_coeff': 1.5394706726074219, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4.573948383331299}, 'sample_time_ms': 39555.372, 'num_steps_trained': 1660800, 'num_steps_sampled': 1660800, 'update_time_ms': 2.603, 'grad_time_ms': 373.697, 'load_time_ms': 0.69}",184,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+53984.87717819214,126560,4.001146318751637,1200,cda-server-2,7265.337737798691,f93d3d6710754a149751678a58e67540,289,1757108816,222000,-32.42343180861484,2334309,{},10.157.146.2,False,{},2025-09-05_23-46-56,4.173010380622838,1662000,3.734467383754039,0,39.60874152183533,1385,"{'default': {'policy_loss': -0.0426652692258358, 'vf_explained_var': 0.8193411827087402, 'vf_loss': 1.9320117235183716, 'kl': 0.01527542993426323, 'entropy': -0.5376047492027283, 'cur_kl_coeff': 1.5394706726074219, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.9128625392913818}, 'sample_time_ms': 39515.721, 'num_steps_trained': 1662000, 'num_steps_sampled': 1662000, 'update_time_ms': 2.647, 'grad_time_ms': 371.137, 'load_time_ms': 0.676}",185,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+54024.699187517166,126837,4.00113280984878,1200,cda-server-2,7305.159747123718,f93d3d6710754a149751678a58e67540,277,1757108855,223200,-62.46240595904156,2334309,{},10.157.146.2,False,{},2025-09-05_23-47-35,4.342960288808665,1663200,3.4619956660766955,0,39.822009325027466,1386,"{'default': {'policy_loss': -0.06804636120796204, 'vf_explained_var': 0.5107661485671997, 'vf_loss': 35.117408752441406, 'kl': 0.013852331787347794, 'entropy': -0.06298629939556122, 'cur_kl_coeff': 1.5394706726074219, 'cur_lr': 4.999999873689376e-05, 'total_loss': 35.07068634033203}, 'sample_time_ms': 39521.635, 'num_steps_trained': 1663200, 'num_steps_sampled': 1663200, 'update_time_ms': 2.615, 'grad_time_ms': 373.244, 'load_time_ms': 0.679}",186,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+54063.57358336449,127120,4.001058386470341,1200,cda-server-2,7344.034142971039,f93d3d6710754a149751678a58e67540,283,1757108894,224400,-28.647445169995223,2334309,{},10.157.146.2,False,{},2025-09-05_23-48-14,4.15547703180212,1664400,3.7518521756132763,0,38.87439584732056,1387,"{'default': {'policy_loss': -0.07170048356056213, 'vf_explained_var': 0.7070344090461731, 'vf_loss': 10.473855018615723, 'kl': 0.01565193384885788, 'entropy': -0.36640357971191406, 'cur_kl_coeff': 1.5394706726074219, 'cur_lr': 4.999999873689376e-05, 'total_loss': 10.426250457763672}, 'sample_time_ms': 39437.811, 'num_steps_trained': 1664400, 'num_steps_sampled': 1664400, 'update_time_ms': 2.717, 'grad_time_ms': 372.667, 'load_time_ms': 0.68}",187,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+54103.127681970596,127419,4.001192453298083,1200,cda-server-2,7383.588241577148,f93d3d6710754a149751678a58e67540,299,1757108934,225600,-35.18090901309829,2334309,{},10.157.146.2,False,{},2025-09-05_23-48-54,4.090301003344481,1665600,3.8553249632463817,0,39.55409860610962,1388,"{'default': {'policy_loss': -0.05433521792292595, 'vf_explained_var': 0.9578665494918823, 'vf_loss': 0.24090787768363953, 'kl': 0.01570720225572586, 'entropy': -0.8414437174797058, 'cur_kl_coeff': 1.5394706726074219, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.2107534259557724}, 'sample_time_ms': 39392.232, 'num_steps_trained': 1665600, 'num_steps_sampled': 1665600, 'update_time_ms': 2.711, 'grad_time_ms': 374.29, 'load_time_ms': 0.688}",188,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+54142.53109097481,127711,4.002270444330598,1200,cda-server-2,7422.99165058136,f93d3d6710754a149751678a58e67540,292,1757108973,226800,-35.3281728609199,2334309,{},10.157.146.2,False,{},2025-09-05_23-49-33,4.109589041095891,1666800,3.831139366077638,0,39.403409004211426,1389,"{'default': {'policy_loss': -0.03439682349562645, 'vf_explained_var': 0.6548698544502258, 'vf_loss': 7.080784320831299, 'kl': 0.011339455842971802, 'entropy': -0.6625034809112549, 'cur_kl_coeff': 1.5394706726074219, 'cur_lr': 4.999999873689376e-05, 'total_loss': 7.063844680786133}, 'sample_time_ms': 39384.451, 'num_steps_trained': 1666800, 'num_steps_sampled': 1666800, 'update_time_ms': 2.768, 'grad_time_ms': 377.383, 'load_time_ms': 0.693}",189,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+54182.248175144196,128006,4.002047833208524,1200,cda-server-2,7462.708734750748,f93d3d6710754a149751678a58e67540,295,1757109013,228000,-10.145113512386885,2334309,{},10.157.146.2,False,{},2025-09-05_23-50-13,4.071186440677966,1668000,3.8914781502217304,0,39.71708416938782,1390,"{'default': {'policy_loss': -0.03829721733927727, 'vf_explained_var': 0.7368972301483154, 'vf_loss': 2.032075881958008, 'kl': 0.008101176470518112, 'entropy': -0.7852159738540649, 'cur_kl_coeff': 1.5394706726074219, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.0062501430511475}, 'sample_time_ms': 39339.094, 'num_steps_trained': 1668000, 'num_steps_sampled': 1668000, 'update_time_ms': 2.785, 'grad_time_ms': 378.126, 'load_time_ms': 0.695}",190,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+54221.543617248535,128303,4.000861419773162,1200,cda-server-2,7502.004176855087,f93d3d6710754a149751678a58e67540,297,1757109052,229200,-0.02320690644181589,2334309,{},10.157.146.2,False,{},2025-09-05_23-50-52,4.016835016835016,1669200,3.9799125837708913,0,39.2954421043396,1391,"{'default': {'policy_loss': -0.033613115549087524, 'vf_explained_var': 0.7767579555511475, 'vf_loss': 1.8089041709899902, 'kl': 0.015128778293728828, 'entropy': -0.807732343673706, 'cur_kl_coeff': 1.5394706726074219, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.7985814809799194}, 'sample_time_ms': 39222.891, 'num_steps_trained': 1669200, 'num_steps_sampled': 1669200, 'update_time_ms': 2.74, 'grad_time_ms': 377.793, 'load_time_ms': 0.684}",191,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+54260.77665257454,128590,4.000967535980093,1200,cda-server-2,7541.237212181091,f93d3d6710754a149751678a58e67540,287,1757109092,230400,-43.769010547492,2334309,{},10.157.146.2,False,{},2025-09-05_23-51-32,4.198606271777003,1670400,3.694014497832212,0,39.23303532600403,1392,"{'default': {'policy_loss': -0.043400008231401443, 'vf_explained_var': 0.592819094657898, 'vf_loss': 12.429213523864746, 'kl': 0.01308800745755434, 'entropy': -0.442421555519104, 'cur_kl_coeff': 1.5394706726074219, 'cur_lr': 4.999999873689376e-05, 'total_loss': 12.405962944030762}, 'sample_time_ms': 39175.352, 'num_steps_trained': 1670400, 'num_steps_sampled': 1670400, 'update_time_ms': 2.763, 'grad_time_ms': 378.337, 'load_time_ms': 0.683}",192,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+54300.584667921066,128877,4.000935378014908,1200,cda-server-2,7581.045227527618,f93d3d6710754a149751678a58e67540,287,1757109131,231600,-15.46578651744976,2334309,{},10.157.146.2,False,{},2025-09-05_23-52-11,4.177700348432055,1671600,3.7301469748719005,0,39.8080153465271,1393,"{'default': {'policy_loss': -0.05229765549302101, 'vf_explained_var': 0.6418642401695251, 'vf_loss': 3.704522132873535, 'kl': 0.014142315834760666, 'entropy': -0.5468661189079285, 'cur_kl_coeff': 1.5394706726074219, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.6739959716796875}, 'sample_time_ms': 39097.878, 'num_steps_trained': 1671600, 'num_steps_sampled': 1671600, 'update_time_ms': 2.761, 'grad_time_ms': 378.563, 'load_time_ms': 0.687}",193,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+54340.75414085388,129172,4.000929267381869,1200,cda-server-2,7621.214700460434,f93d3d6710754a149751678a58e67540,295,1757109172,232800,-7.892131595100533,2334309,{},10.157.146.2,False,{},2025-09-05_23-52-52,4.077966101694916,1672800,3.8908374374670176,0,40.16947293281555,1394,"{'default': {'policy_loss': -0.05047553405165672, 'vf_explained_var': 0.8222101926803589, 'vf_loss': 1.2832260131835938, 'kl': 0.017447737976908684, 'entropy': -0.581373929977417, 'cur_kl_coeff': 1.5394706726074219, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.259610652923584}, 'sample_time_ms': 39162.382, 'num_steps_trained': 1672800, 'num_steps_sampled': 1672800, 'update_time_ms': 2.756, 'grad_time_ms': 376.349, 'load_time_ms': 0.679}",194,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+54380.50521636009,129462,4.000971603560425,1200,cda-server-2,7660.965775966644,f93d3d6710754a149751678a58e67540,290,1757109211,234000,-22.428506640465912,2334309,{},10.157.146.2,False,{},2025-09-05_23-53-31,4.137931034482759,1674000,3.7938300221694434,0,39.75107550621033,1395,"{'default': {'policy_loss': -0.05185084789991379, 'vf_explained_var': 0.7362123131752014, 'vf_loss': 3.527894973754883, 'kl': 0.007722498849034309, 'entropy': -0.45534366369247437, 'cur_kl_coeff': 1.5394706726074219, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.4879326820373535}, 'sample_time_ms': 39176.022, 'num_steps_trained': 1674000, 'num_steps_sampled': 1674000, 'update_time_ms': 2.68, 'grad_time_ms': 377.003, 'load_time_ms': 0.68}",195,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+54420.42606258392,129755,4.001348027721585,1200,cda-server-2,7700.8866221904755,f93d3d6710754a149751678a58e67540,293,1757109251,235200,-20.518200313534763,2334309,{},10.157.146.2,False,{},2025-09-05_23-54-11,4.1058020477815695,1675200,3.8382728241780293,0,39.92084622383118,1396,"{'default': {'policy_loss': -0.028644826263189316, 'vf_explained_var': 0.688666582107544, 'vf_loss': 3.844832420349121, 'kl': 0.008921192027628422, 'entropy': -0.543971598148346, 'cur_kl_coeff': 1.5394706726074219, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.8299221992492676}, 'sample_time_ms': 39186.323, 'num_steps_trained': 1675200, 'num_steps_sampled': 1675200, 'update_time_ms': 2.679, 'grad_time_ms': 376.596, 'load_time_ms': 0.674}",196,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+54460.230882167816,130049,4.000955013200178,1200,cda-server-2,7740.691441774368,f93d3d6710754a149751678a58e67540,294,1757109291,236400,-2.046878164673938,2334309,{},10.157.146.2,False,{},2025-09-05_23-54-51,4.040816326530612,1676400,3.938714886565623,0,39.80481958389282,1397,"{'default': {'policy_loss': -0.036537054926157, 'vf_explained_var': 0.7478847503662109, 'vf_loss': 3.3761630058288574, 'kl': 0.007730972487479448, 'entropy': -0.6387971639633179, 'cur_kl_coeff': 1.5394706726074219, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.351527690887451}, 'sample_time_ms': 39280.623, 'num_steps_trained': 1676400, 'num_steps_sampled': 1676400, 'update_time_ms': 2.644, 'grad_time_ms': 375.453, 'load_time_ms': 0.677}",197,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+54500.98584365845,130329,4.000766560991877,1200,cda-server-2,7781.446403264999,f93d3d6710754a149751678a58e67540,280,1757109332,237600,-56.73410271762356,2334309,{},10.157.146.2,False,{},2025-09-05_23-55-32,4.310714285714286,1677600,3.5141729896638734,0,40.7549614906311,1398,"{'default': {'policy_loss': -0.05959523469209671, 'vf_explained_var': 0.5265325903892517, 'vf_loss': 23.813766479492188, 'kl': 0.007665450219064951, 'entropy': -0.11784810572862625, 'cur_kl_coeff': 1.5394706726074219, 'cur_lr': 4.999999873689376e-05, 'total_loss': 23.765968322753906}, 'sample_time_ms': 39403.92, 'num_steps_trained': 1677600, 'num_steps_sampled': 1677600, 'update_time_ms': 2.615, 'grad_time_ms': 372.269, 'load_time_ms': 0.665}",198,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+54540.86402583122,130620,4.000892335832118,1200,cda-server-2,7821.324585437775,f93d3d6710754a149751678a58e67540,291,1757109372,238800,-9.713720470077448,2334309,{},10.157.146.2,False,{},2025-09-05_23-56-12,4.116838487972508,1678800,3.824196902877988,0,39.87818217277527,1399,"{'default': {'policy_loss': -0.0534178651869297, 'vf_explained_var': 0.6491808891296387, 'vf_loss': 2.814523220062256, 'kl': 0.01818855106830597, 'entropy': -0.5331971645355225, 'cur_kl_coeff': 1.5394706726074219, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.7891058921813965}, 'sample_time_ms': 39453.332, 'num_steps_trained': 1678800, 'num_steps_sampled': 1678800, 'update_time_ms': 2.598, 'grad_time_ms': 370.355, 'load_time_ms': 0.662}",199,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+54580.538269758224,130906,4.0008484154802595,1200,cda-server-2,7860.998829364777,f93d3d6710754a149751678a58e67540,286,1757109411,240000,-27.19887090781107,2334309,{},10.157.146.2,False,{},2025-09-05_23-56-51,4.2027972027972025,1680000,3.685592872783671,0,39.67424392700195,1400,"{'default': {'policy_loss': -0.04767170175909996, 'vf_explained_var': 0.6085447669029236, 'vf_loss': 8.023571014404297, 'kl': 0.009999356232583523, 'entropy': -0.41148579120635986, 'cur_kl_coeff': 1.5394706726074219, 'cur_lr': 4.999999873689376e-05, 'total_loss': 7.991293907165527}, 'sample_time_ms': 39450.542, 'num_steps_trained': 1680000, 'num_steps_sampled': 1680000, 'update_time_ms': 2.586, 'grad_time_ms': 368.87, 'load_time_ms': 0.657}",200,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+54620.54275679588,131198,4.0008920101427075,1200,cda-server-2,7901.003316402435,f93d3d6710754a149751678a58e67540,292,1757109452,241200,-21.265648567080994,2334309,{},10.157.146.2,False,{},2025-09-05_23-57-32,4.113013698630137,1681200,3.8227191801081424,0,40.00448703765869,1401,"{'default': {'policy_loss': -0.04255884513258934, 'vf_explained_var': 0.770068347454071, 'vf_loss': 3.5527515411376953, 'kl': 0.0075185876339674, 'entropy': -0.6032478213310242, 'cur_kl_coeff': 1.5394706726074219, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.5217673778533936}, 'sample_time_ms': 39523.299, 'num_steps_trained': 1681200, 'num_steps_sampled': 1681200, 'update_time_ms': 2.556, 'grad_time_ms': 367.069, 'load_time_ms': 0.663}",201,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+54660.51952314377,131496,4.000869111728761,1200,cda-server-2,7940.98008275032,f93d3d6710754a149751678a58e67540,298,1757109492,242400,-7.004443166549496,2334309,{},10.157.146.2,False,{},2025-09-05_23-58-12,4.033557046979865,1682400,3.9494354086961634,0,39.97676634788513,1402,"{'default': {'policy_loss': -0.03160305321216583, 'vf_explained_var': 0.8832775950431824, 'vf_loss': 0.745013952255249, 'kl': 0.0030730990692973137, 'entropy': -0.8202803134918213, 'cur_kl_coeff': 1.5394706726074219, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.7181417942047119}, 'sample_time_ms': 39596.35, 'num_steps_trained': 1682400, 'num_steps_sampled': 1682400, 'update_time_ms': 2.509, 'grad_time_ms': 368.479, 'load_time_ms': 0.677}",202,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+54700.7482688427,131791,4.001085751145403,1200,cda-server-2,7981.208828449249,f93d3d6710754a149751678a58e67540,295,1757109532,243600,-16.44473483392842,2334309,{},10.157.146.2,False,{},2025-09-05_23-58-52,4.057627118644068,1683600,3.910585233098332,0,40.22874569892883,1403,"{'default': {'policy_loss': -0.03451928868889809, 'vf_explained_var': 0.8123499155044556, 'vf_loss': 1.8207626342773438, 'kl': 0.016577985137701035, 'entropy': -0.6804802417755127, 'cur_kl_coeff': 0.7697353363037109, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.7990038394927979}, 'sample_time_ms': 39635.461, 'num_steps_trained': 1683600, 'num_steps_sampled': 1683600, 'update_time_ms': 2.522, 'grad_time_ms': 371.378, 'load_time_ms': 0.687}",203,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+54740.82446193695,132077,4.001069570125866,1200,cda-server-2,8021.285021543503,f93d3d6710754a149751678a58e67540,286,1757109572,244800,-39.65465605258131,2334309,{},10.157.146.2,False,{},2025-09-05_23-59-32,4.20979020979021,1684800,3.6661067323665955,0,40.07619309425354,1404,"{'default': {'policy_loss': -0.05627838894724846, 'vf_explained_var': 0.635199785232544, 'vf_loss': 10.204273223876953, 'kl': 0.012110063806176186, 'entropy': -0.36025774478912354, 'cur_kl_coeff': 0.7697353363037109, 'cur_lr': 4.999999873689376e-05, 'total_loss': 10.157317161560059}, 'sample_time_ms': 39626.137, 'num_steps_trained': 1684800, 'num_steps_sampled': 1684800, 'update_time_ms': 2.551, 'grad_time_ms': 371.391, 'load_time_ms': 0.689}",204,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+54779.86009335518,132368,4.001397944042322,1200,cda-server-2,8060.320652961731,f93d3d6710754a149751678a58e67540,291,1757109611,246000,-27.07558804880886,2334309,{},10.157.146.2,False,{},2025-09-06_00-00-11,4.120274914089347,1686000,3.8035563709521085,0,39.03563141822815,1405,"{'default': {'policy_loss': -0.044013604521751404, 'vf_explained_var': 0.6231047511100769, 'vf_loss': 5.89689826965332, 'kl': 0.013762985356152058, 'entropy': -0.5841552019119263, 'cur_kl_coeff': 0.7697353363037109, 'cur_lr': 4.999999873689376e-05, 'total_loss': 5.863478183746338}, 'sample_time_ms': 39554.809, 'num_steps_trained': 1686000, 'num_steps_sampled': 1686000, 'update_time_ms': 2.548, 'grad_time_ms': 371.202, 'load_time_ms': 0.7}",205,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+54818.671942949295,132652,4.000945573061311,1200,cda-server-2,8099.132502555847,f93d3d6710754a149751678a58e67540,284,1757109650,247200,-30.98940888095278,2334309,{},10.157.146.2,False,{},2025-09-06_00-00-50,4.211267605633803,1687200,3.6768633757753295,0,38.81184959411621,1406,"{'default': {'policy_loss': -0.06756295263767242, 'vf_explained_var': 0.5859432220458984, 'vf_loss': 8.425897598266602, 'kl': 0.01556295808404684, 'entropy': -0.23726166784763336, 'cur_kl_coeff': 0.7697353363037109, 'cur_lr': 4.999999873689376e-05, 'total_loss': 8.37031364440918}, 'sample_time_ms': 39442.784, 'num_steps_trained': 1687200, 'num_steps_sampled': 1687200, 'update_time_ms': 2.532, 'grad_time_ms': 372.418, 'load_time_ms': 0.712}",206,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+54858.09736466408,132948,4.0019018161365185,1200,cda-server-2,8138.55792427063,f93d3d6710754a149751678a58e67540,296,1757109689,248400,-8.053847438483622,2334309,{},10.157.146.2,False,{},2025-09-06_00-01-29,4.0641891891891895,1688400,3.901772627978928,0,39.425421714782715,1407,"{'default': {'policy_loss': -0.047103967517614365, 'vf_explained_var': 0.84770268201828, 'vf_loss': 0.9867856502532959, 'kl': 0.007141638081520796, 'entropy': -0.7494916915893555, 'cur_kl_coeff': 0.7697353363037109, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.9451788663864136}, 'sample_time_ms': 39402.88, 'num_steps_trained': 1688400, 'num_steps_sampled': 1688400, 'update_time_ms': 2.479, 'grad_time_ms': 374.423, 'load_time_ms': 0.706}",207,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+54897.84821629524,133247,4.0008085916740885,1200,cda-server-2,8178.308775901794,f93d3d6710754a149751678a58e67540,299,1757109729,249600,-4.277018383379874,2334309,{},10.157.146.2,False,{},2025-09-06_00-02-09,4.016722408026756,1689600,3.972619888889755,0,39.75085163116455,1408,"{'default': {'policy_loss': -0.02454298734664917, 'vf_explained_var': 0.9519115090370178, 'vf_loss': 0.27737268805503845, 'kl': 0.009877012111246586, 'entropy': -0.7844202518463135, 'cur_kl_coeff': 0.7697353363037109, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.2604323625564575}, 'sample_time_ms': 39299.885, 'num_steps_trained': 1689600, 'num_steps_sampled': 1689600, 'update_time_ms': 2.49, 'grad_time_ms': 377.045, 'load_time_ms': 0.705}",208,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+54936.88591861725,133525,4.00092043290304,1200,cda-server-2,8217.3464782238,f93d3d6710754a149751678a58e67540,278,1757109768,250800,-29.771099384663863,2334309,{},10.157.146.2,False,{},2025-09-06_00-02-48,4.302158273381295,1690800,3.5356209181152445,0,39.037702322006226,1409,"{'default': {'policy_loss': -0.061760783195495605, 'vf_explained_var': 0.49322161078453064, 'vf_loss': 14.565553665161133, 'kl': 0.013375476002693176, 'entropy': -0.05455790460109711, 'cur_kl_coeff': 0.7697353363037109, 'cur_lr': 4.999999873689376e-05, 'total_loss': 14.514087677001953}, 'sample_time_ms': 39216.214, 'num_steps_trained': 1690800, 'num_steps_sampled': 1690800, 'update_time_ms': 2.451, 'grad_time_ms': 376.742, 'load_time_ms': 0.71}",209,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+54977.234704732895,133812,4.000894868256318,1200,cda-server-2,8257.695264339447,f93d3d6710754a149751678a58e67540,287,1757109808,252000,-28.14610567830119,2334309,{},10.157.146.2,False,{},2025-09-06_00-03-28,4.177700348432055,1692000,3.731197433849789,0,40.34878611564636,1410,"{'default': {'policy_loss': -0.04567402973771095, 'vf_explained_var': 0.6754224300384521, 'vf_loss': 6.296336650848389, 'kl': 0.019472790881991386, 'entropy': -0.4155212342739105, 'cur_kl_coeff': 0.7697353363037109, 'cur_lr': 4.999999873689376e-05, 'total_loss': 6.265652179718018}, 'sample_time_ms': 39285.985, 'num_steps_trained': 1692000, 'num_steps_sampled': 1692000, 'update_time_ms': 2.447, 'grad_time_ms': 374.5, 'load_time_ms': 0.714}",210,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+55016.83688998222,134102,4.001941968220473,1200,cda-server-2,8297.297449588776,f93d3d6710754a149751678a58e67540,290,1757109848,253200,-21.45221193014797,2334309,{},10.157.146.2,False,{},2025-09-06_00-04-08,4.155172413793103,1693200,3.7547724169129353,0,39.60218524932861,1411,"{'default': {'policy_loss': -0.05754603445529938, 'vf_explained_var': 0.6622112989425659, 'vf_loss': 4.552675247192383, 'kl': 0.023964514955878258, 'entropy': -0.5006575584411621, 'cur_kl_coeff': 0.7697353363037109, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4.513575553894043}, 'sample_time_ms': 39242.686, 'num_steps_trained': 1693200, 'num_steps_sampled': 1693200, 'update_time_ms': 2.453, 'grad_time_ms': 377.535, 'load_time_ms': 0.712}",211,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+55056.48257637024,134397,4.001168874088757,1200,cda-server-2,8336.943135976791,f93d3d6710754a149751678a58e67540,295,1757109888,254400,-12.636050391264384,2334309,{},10.157.146.2,False,{},2025-09-06_00-04-48,4.071186440677966,1694400,3.9003581308493214,0,39.64568638801575,1412,"{'default': {'policy_loss': -0.03771501034498215, 'vf_explained_var': 0.7980261445045471, 'vf_loss': 1.517871379852295, 'kl': 0.012823128141462803, 'entropy': -0.5704782009124756, 'cur_kl_coeff': 1.1546030044555664, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.4949620962142944}, 'sample_time_ms': 39210.504, 'num_steps_trained': 1694400, 'num_steps_sampled': 1694400, 'update_time_ms': 2.507, 'grad_time_ms': 376.486, 'load_time_ms': 0.705}",212,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+55096.50591087341,134697,4.000812594079898,1200,cda-server-2,8376.966470479965,f93d3d6710754a149751678a58e67540,300,1757109928,255600,4.000148954720799,2334309,{},10.157.146.2,False,{},2025-09-06_00-05-28,4.0,1695600,4.000299457073319,0,40.02333450317383,1413,"{'default': {'policy_loss': -0.07594330608844757, 'vf_explained_var': 0.998272180557251, 'vf_loss': 0.009197307750582695, 'kl': 0.03476061299443245, 'entropy': -0.8167895078659058, 'cur_kl_coeff': 1.1546030044555664, 'cur_lr': 4.999999873689376e-05, 'total_loss': -0.026611285284161568}, 'sample_time_ms': 39191.117, 'num_steps_trained': 1695600, 'num_steps_sampled': 1695600, 'update_time_ms': 2.472, 'grad_time_ms': 375.341, 'load_time_ms': 0.702}",213,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+55135.305527210236,134982,4.001108856284023,1200,cda-server-2,8415.766086816788,f93d3d6710754a149751678a58e67540,285,1757109967,256800,-27.30303516486098,2334309,{},10.157.146.2,False,{},2025-09-06_00-06-07,4.2,1696800,3.679254669341064,0,38.79961633682251,1414,"{'default': {'policy_loss': -0.04795660078525543, 'vf_explained_var': 0.669224739074707, 'vf_loss': 6.001265525817871, 'kl': 0.0070286523550748825, 'entropy': -0.42487818002700806, 'cur_kl_coeff': 1.7319045066833496, 'cur_lr': 4.999999873689376e-05, 'total_loss': 5.965481758117676}, 'sample_time_ms': 39062.242, 'num_steps_trained': 1696800, 'num_steps_sampled': 1696800, 'update_time_ms': 2.451, 'grad_time_ms': 376.589, 'load_time_ms': 0.707}",214,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+55175.91715955734,135282,4.0010104198858825,1200,cda-server-2,8456.377719163895,f93d3d6710754a149751678a58e67540,300,1757110007,258000,4.000154212549495,2334309,{},10.157.146.2,False,{},2025-09-06_00-06-47,4.0,1698000,4.000314395372937,0,40.611632347106934,1415,"{'default': {'policy_loss': -0.08212191611528397, 'vf_explained_var': 0.9960519075393677, 'vf_loss': 0.021317943930625916, 'kl': 0.020341308787465096, 'entropy': -0.7685990929603577, 'cur_kl_coeff': 1.7319045066833496, 'cur_lr': 4.999999873689376e-05, 'total_loss': -0.025574777275323868}, 'sample_time_ms': 39221.055, 'num_steps_trained': 1698000, 'num_steps_sampled': 1698000, 'update_time_ms': 2.469, 'grad_time_ms': 375.363, 'load_time_ms': 0.699}",215,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+55215.56741309166,135577,4.00129032969959,1200,cda-server-2,8496.027972698212,f93d3d6710754a149751678a58e67540,295,1757110047,259200,-25.96309264753625,2334309,{},10.157.146.2,False,{},2025-09-06_00-07-27,4.064406779661017,1699200,3.8987413114726714,0,39.65025353431702,1416,"{'default': {'policy_loss': -0.031678393483161926, 'vf_explained_var': 0.7938548922538757, 'vf_loss': 2.747237205505371, 'kl': 0.011216615326702595, 'entropy': -0.704235851764679, 'cur_kl_coeff': 2.5978567600250244, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.7446982860565186}, 'sample_time_ms': 39305.406, 'num_steps_trained': 1699200, 'num_steps_sampled': 1699200, 'update_time_ms': 2.467, 'grad_time_ms': 374.838, 'load_time_ms': 0.692}",216,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+55254.70878076553,135874,4.0019345256840335,1200,cda-server-2,8535.169340372086,f93d3d6710754a149751678a58e67540,297,1757110086,260400,4.000153782560182,2334309,{},10.157.146.2,False,{},2025-09-06_00-08-06,4.0,1700400,4.000315197336568,0,39.1413676738739,1417,"{'default': {'policy_loss': -0.02676478773355484, 'vf_explained_var': 0.747749388217926, 'vf_loss': 3.9202089309692383, 'kl': 0.011856748722493649, 'entropy': -0.7812686562538147, 'cur_kl_coeff': 2.5978567600250244, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.924246072769165}, 'sample_time_ms': 39276.409, 'num_steps_trained': 1700400, 'num_steps_sampled': 1700400, 'update_time_ms': 2.538, 'grad_time_ms': 375.311, 'load_time_ms': 0.693}",217,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+55295.371721982956,136165,4.001833360762142,1200,cda-server-2,8575.832281589508,f93d3d6710754a149751678a58e67540,291,1757110127,261600,-23.71634071751751,2334309,{},10.157.146.2,False,{},2025-09-06_00-08-47,4.18213058419244,1701600,3.7113054734004467,0,40.662941217422485,1418,"{'default': {'policy_loss': -0.04162459447979927, 'vf_explained_var': 0.7583943605422974, 'vf_loss': 2.6620593070983887, 'kl': 0.008234241977334023, 'entropy': -0.47336211800575256, 'cur_kl_coeff': 2.5978567600250244, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.6418256759643555}, 'sample_time_ms': 39370.626, 'num_steps_trained': 1701600, 'num_steps_sampled': 1701600, 'update_time_ms': 2.55, 'grad_time_ms': 372.27, 'load_time_ms': 0.704}",218,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+55335.218324661255,136464,4.000632547126202,1200,cda-server-2,8615.678884267807,f93d3d6710754a149751678a58e67540,299,1757110166,262800,-2.035544075919537,2334309,{},10.157.146.2,False,{},2025-09-06_00-09-26,4.013377926421405,1702800,3.9801140604614864,0,39.84660267829895,1419,"{'default': {'policy_loss': -0.03573741763830185, 'vf_explained_var': 0.961532711982727, 'vf_loss': 0.2180965542793274, 'kl': 0.00486732367426157, 'entropy': -0.7181651592254639, 'cur_kl_coeff': 2.5978567600250244, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.1950037181377411}, 'sample_time_ms': 39451.847, 'num_steps_trained': 1702800, 'num_steps_sampled': 1702800, 'update_time_ms': 2.558, 'grad_time_ms': 371.825, 'load_time_ms': 0.694}",219,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+55375.38841223717,136758,4.000768778588657,1200,cda-server-2,8655.84897184372,f93d3d6710754a149751678a58e67540,294,1757110207,264000,-11.941046826996022,2334309,{},10.157.146.2,False,{},2025-09-06_00-10-07,4.0476190476190474,1704000,3.927476752123585,0,40.170087575912476,1420,"{'default': {'policy_loss': -0.03116866573691368, 'vf_explained_var': 0.7223308682441711, 'vf_loss': 3.1457111835479736, 'kl': 0.0076809111051261425, 'entropy': -0.6455093622207642, 'cur_kl_coeff': 1.2989283800125122, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.1245195865631104}, 'sample_time_ms': 39432.073, 'num_steps_trained': 1704000, 'num_steps_sampled': 1704000, 'update_time_ms': 2.626, 'grad_time_ms': 373.535, 'load_time_ms': 0.684}",220,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+55415.11735343933,137054,4.001938413175791,1200,cda-server-2,8695.577913045883,f93d3d6710754a149751678a58e67540,296,1757110247,265200,-18.484521037838896,2334309,{},10.157.146.2,False,{},2025-09-06_00-10-47,4.081081081081081,1705200,3.869735965700612,0,39.728941202163696,1421,"{'default': {'policy_loss': -0.039580415934324265, 'vf_explained_var': 0.9074131846427917, 'vf_loss': 0.6124569773674011, 'kl': 0.006946032401174307, 'entropy': -0.750850260257721, 'cur_kl_coeff': 1.2989283800125122, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.5818989276885986}, 'sample_time_ms': 39447.452, 'num_steps_trained': 1705200, 'num_steps_sampled': 1705200, 'update_time_ms': 2.641, 'grad_time_ms': 370.847, 'load_time_ms': 0.688}",221,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+55455.68910384178,137339,4.001452606229481,1200,cda-server-2,8736.149663448334,f93d3d6710754a149751678a58e67540,285,1757110287,266400,-19.819628538496314,2334309,{},10.157.146.2,False,{},2025-09-06_00-11-27,4.207017543859649,1706400,3.675427985597374,0,40.57175040245056,1422,"{'default': {'policy_loss': -0.04998249560594559, 'vf_explained_var': 0.6123899817466736, 'vf_loss': 7.19976282119751, 'kl': 0.009328972548246384, 'entropy': -0.3980270028114319, 'cur_kl_coeff': 1.2989283800125122, 'cur_lr': 4.999999873689376e-05, 'total_loss': 7.161898136138916}, 'sample_time_ms': 39540.165, 'num_steps_trained': 1706400, 'num_steps_sampled': 1706400, 'update_time_ms': 2.609, 'grad_time_ms': 370.825, 'load_time_ms': 0.686}",222,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+55495.26913809776,137639,4.001100810472767,1200,cda-server-2,8775.729697704315,f93d3d6710754a149751678a58e67540,300,1757110327,267600,4.0001428764018785,2334309,{},10.157.146.2,False,{},2025-09-06_00-12-07,4.0,1707600,4.000303822612184,0,39.580034255981445,1423,"{'default': {'policy_loss': -0.07242272794246674, 'vf_explained_var': 0.9969683885574341, 'vf_loss': 0.016321443021297455, 'kl': 0.038560472428798676, 'entropy': -0.7614210844039917, 'cur_kl_coeff': 1.2989283800125122, 'cur_lr': 4.999999873689376e-05, 'total_loss': -0.006014001090079546}, 'sample_time_ms': 39496.484, 'num_steps_trained': 1707600, 'num_steps_sampled': 1707600, 'update_time_ms': 2.639, 'grad_time_ms': 370.105, 'load_time_ms': 0.685}",223,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+55534.59411525726,137934,4.001129228343804,1200,cda-server-2,8815.054674863815,f93d3d6710754a149751678a58e67540,295,1757110366,268800,-13.837279042425713,2334309,{},10.157.146.2,False,{},2025-09-06_00-12-46,4.074576271186441,1708800,3.888983893706899,0,39.32497715950012,1424,"{'default': {'policy_loss': -0.026417436078190804, 'vf_explained_var': 0.77949458360672, 'vf_loss': 2.0049145221710205, 'kl': 0.022116849198937416, 'entropy': -0.6197412014007568, 'cur_kl_coeff': 1.948392629623413, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.021589517593384}, 'sample_time_ms': 39548.912, 'num_steps_trained': 1708800, 'num_steps_sampled': 1708800, 'update_time_ms': 2.661, 'grad_time_ms': 370.146, 'load_time_ms': 0.679}",224,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+55574.24935698509,138232,4.001625543934222,1200,cda-server-2,8854.709916591644,f93d3d6710754a149751678a58e67540,298,1757110406,270000,-4.175200444193109,2334309,{},10.157.146.2,False,{},2025-09-06_00-13-26,4.016778523489933,1710000,3.9728737307899036,0,39.65524172782898,1425,"{'default': {'policy_loss': -0.026958443224430084, 'vf_explained_var': 0.9513825178146362, 'vf_loss': 0.28731316328048706, 'kl': 0.011287026107311249, 'entropy': -0.745866596698761, 'cur_kl_coeff': 2.92258882522583, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.2933419942855835}, 'sample_time_ms': 39451.71, 'num_steps_trained': 1710000, 'num_steps_sampled': 1710000, 'update_time_ms': 2.681, 'grad_time_ms': 371.757, 'load_time_ms': 0.679}",225,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+55614.160161972046,138520,4.0016163497440616,1200,cda-server-2,8894.620721578598,f93d3d6710754a149751678a58e67540,288,1757110446,271200,-16.40518361093349,2334309,{},10.157.146.2,False,{},2025-09-06_00-14-06,4.163194444444445,1711200,3.749830536281288,0,39.910804986953735,1426,"{'default': {'policy_loss': -0.042669374495744705, 'vf_explained_var': 0.6507847309112549, 'vf_loss': 4.530767917633057, 'kl': 0.005936238914728165, 'entropy': -0.42097997665405273, 'cur_kl_coeff': 2.92258882522583, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4.505448341369629}, 'sample_time_ms': 39478.047, 'num_steps_trained': 1711200, 'num_steps_sampled': 1711200, 'update_time_ms': 2.683, 'grad_time_ms': 371.505, 'load_time_ms': 0.683}",226,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+55654.64858198166,138817,4.001057499291714,1200,cda-server-2,8935.109141588211,f93d3d6710754a149751678a58e67540,297,1757110486,272400,-2.174374541864264,2334309,{},10.157.146.2,False,{},2025-09-06_00-14-46,4.023569023569023,1712400,3.9659253356737874,0,40.48842000961304,1427,"{'default': {'policy_loss': -0.036611177027225494, 'vf_explained_var': 0.8961750864982605, 'vf_loss': 0.6677017211914062, 'kl': 0.006175443064421415, 'entropy': -0.6591261029243469, 'cur_kl_coeff': 2.92258882522583, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.6491388082504272}, 'sample_time_ms': 39615.045, 'num_steps_trained': 1712400, 'num_steps_sampled': 1712400, 'update_time_ms': 2.634, 'grad_time_ms': 369.268, 'load_time_ms': 0.681}",227,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+55694.558665275574,139115,4.001938772992602,1200,cda-server-2,8975.019224882126,f93d3d6710754a149751678a58e67540,298,1757110526,273600,-10.65765712993403,2334309,{},10.157.146.2,False,{},2025-09-06_00-15-26,4.043624161073826,1713600,3.930765424555288,0,39.910083293914795,1428,"{'default': {'policy_loss': -0.03212244436144829, 'vf_explained_var': 0.9655765891075134, 'vf_loss': 0.1960849165916443, 'kl': 0.005506487563252449, 'entropy': -0.8047277927398682, 'cur_kl_coeff': 2.92258882522583, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.1800556480884552}, 'sample_time_ms': 39539.358, 'num_steps_trained': 1713600, 'num_steps_sampled': 1713600, 'update_time_ms': 2.602, 'grad_time_ms': 369.754, 'load_time_ms': 0.671}",228,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+55734.542598724365,139413,4.001680876029428,1200,cda-server-2,9015.003158330917,f93d3d6710754a149751678a58e67540,298,1757110566,274800,-8.838346851840605,2334309,{},10.157.146.2,False,{},2025-09-06_00-16-06,4.026845637583893,1714800,3.9572382045643626,0,39.983933448791504,1429,"{'default': {'policy_loss': -0.02498350478708744, 'vf_explained_var': 0.91057288646698, 'vf_loss': 0.6082246899604797, 'kl': 0.003369309939444065, 'entropy': -0.7250093817710876, 'cur_kl_coeff': 2.92258882522583, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.5930882692337036}, 'sample_time_ms': 39551.425, 'num_steps_trained': 1714800, 'num_steps_sampled': 1714800, 'update_time_ms': 2.599, 'grad_time_ms': 371.44, 'load_time_ms': 0.672}",229,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+55774.66471910477,139713,4.0007626903715545,1200,cda-server-2,9055.125278711319,f93d3d6710754a149751678a58e67540,300,1757110606,276000,1.0197116176748189,2334309,{},10.157.146.2,False,{},2025-09-06_00-16-46,4.006666666666667,1716000,3.9903671779672525,0,40.12212038040161,1430,"{'default': {'policy_loss': -0.033087145537137985, 'vf_explained_var': 0.990843653678894, 'vf_loss': 0.04796113073825836, 'kl': 0.007553268689662218, 'entropy': -0.7879781723022461, 'cur_kl_coeff': 1.461294412612915, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.02591153234243393}, 'sample_time_ms': 39548.206, 'num_steps_trained': 1716000, 'num_steps_sampled': 1716000, 'update_time_ms': 2.549, 'grad_time_ms': 369.994, 'load_time_ms': 0.673}",230,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+55815.00939178467,140001,4.0010057258891205,1200,cda-server-2,9095.46995139122,f93d3d6710754a149751678a58e67540,288,1757110647,277200,-39.51992534303605,2334309,{},10.157.146.2,False,{},2025-09-06_00-17-27,4.177083333333333,1717200,3.7341965938478836,0,40.34467267990112,1431,"{'default': {'policy_loss': -0.04821978509426117, 'vf_explained_var': 0.7481677532196045, 'vf_loss': 3.7129695415496826, 'kl': 0.00623720046132803, 'entropy': -0.3552682399749756, 'cur_kl_coeff': 1.461294412612915, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.673863649368286}, 'sample_time_ms': 39607.037, 'num_steps_trained': 1717200, 'num_steps_sampled': 1717200, 'update_time_ms': 2.603, 'grad_time_ms': 372.627, 'load_time_ms': 0.671}",231,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+55854.78019618988,140297,4.000801883857731,1200,cda-server-2,9135.240755796432,f93d3d6710754a149751678a58e67540,296,1757110686,278400,-6.213393482523198,2334309,{},10.157.146.2,False,{},2025-09-06_00-18-06,4.047297297297297,1718400,3.9285716936543316,0,39.7708044052124,1432,"{'default': {'policy_loss': -0.0347682349383831, 'vf_explained_var': 0.9038689732551575, 'vf_loss': 0.614067792892456, 'kl': 0.024714641273021698, 'entropy': -0.691328763961792, 'cur_kl_coeff': 1.461294412612915, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.6154148578643799}, 'sample_time_ms': 39528.227, 'num_steps_trained': 1718400, 'num_steps_sampled': 1718400, 'update_time_ms': 2.626, 'grad_time_ms': 371.297, 'load_time_ms': 0.668}",232,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+55895.296558618546,140593,4.000917338318319,1200,cda-server-2,9175.757118225098,f93d3d6710754a149751678a58e67540,296,1757110727,279600,-9.911575562433306,2334309,{},10.157.146.2,False,{},2025-09-06_00-18-47,4.0574324324324325,1719600,3.912513138063213,0,40.51636242866516,1433,"{'default': {'policy_loss': -0.041363272815942764, 'vf_explained_var': 0.8693961501121521, 'vf_loss': 0.8704307079315186, 'kl': 0.0068342071026563644, 'entropy': -0.6741379499435425, 'cur_kl_coeff': 2.191941738128662, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.8440476059913635}, 'sample_time_ms': 39620.429, 'num_steps_trained': 1719600, 'num_steps_sampled': 1719600, 'update_time_ms': 2.647, 'grad_time_ms': 372.752, 'load_time_ms': 0.656}",233,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+55936.96162700653,140889,4.000701822069752,1200,cda-server-2,9217.422186613083,f93d3d6710754a149751678a58e67540,296,1757110769,280800,-8.87105780591175,2334309,{},10.157.146.2,False,{},2025-09-06_00-19-29,4.054054054054054,1720800,3.9195417066469376,0,41.66506838798523,1434,"{'default': {'policy_loss': -0.027127623558044434, 'vf_explained_var': 0.8476184606552124, 'vf_loss': 1.0289740562438965, 'kl': 0.012658721767365932, 'entropy': -0.7090546488761902, 'cur_kl_coeff': 2.191941738128662, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.029593586921692}, 'sample_time_ms': 39852.968, 'num_steps_trained': 1720800, 'num_steps_sampled': 1720800, 'update_time_ms': 2.653, 'grad_time_ms': 374.268, 'load_time_ms': 0.651}",234,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+55986.05784845352,141188,4.001296433721604,1200,cda-server-2,9266.518408060074,f93d3d6710754a149751678a58e67540,299,1757110818,282000,-4.0218643119760245,2334309,{},10.157.146.2,False,{},2025-09-06_00-20-18,4.016722408026756,1722000,3.97347669610899,0,49.09622144699097,1435,"{'default': {'policy_loss': -0.03605636581778526, 'vf_explained_var': 0.9690086841583252, 'vf_loss': 0.18817466497421265, 'kl': 0.004820429719984531, 'entropy': -0.7885924577713013, 'cur_kl_coeff': 2.191941738128662, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.1626843810081482}, 'sample_time_ms': 40796.691, 'num_steps_trained': 1722000, 'num_steps_sampled': 1722000, 'update_time_ms': 2.649, 'grad_time_ms': 374.562, 'load_time_ms': 0.659}",235,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+56034.3916053772,141481,4.001084567922945,1200,cda-server-2,9314.85216498375,f93d3d6710754a149751678a58e67540,293,1757110866,283200,-26.434467576672027,2334309,{},10.157.146.2,False,{},2025-09-06_00-21-06,4.09556313993174,1723200,3.851846459110533,0,48.33375692367554,1436,"{'default': {'policy_loss': -0.032951321452856064, 'vf_explained_var': 0.7184305787086487, 'vf_loss': 4.051111221313477, 'kl': 0.03585013374686241, 'entropy': -0.5923669934272766, 'cur_kl_coeff': 1.095970869064331, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4.057450771331787}, 'sample_time_ms': 41638.831, 'num_steps_trained': 1723200, 'num_steps_sampled': 1723200, 'update_time_ms': 2.651, 'grad_time_ms': 374.64, 'load_time_ms': 0.674}",236,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+56082.60299873352,141777,4.001442820842923,1200,cda-server-2,9363.063558340073,f93d3d6710754a149751678a58e67540,296,1757110914,284400,-7.983849696995772,2334309,{},10.157.146.2,False,{},2025-09-06_00-21-54,4.054054054054054,1724400,3.9189744398550164,0,48.21139335632324,1437,"{'default': {'policy_loss': -0.04243282601237297, 'vf_explained_var': 0.8616682887077332, 'vf_loss': 0.976380467414856, 'kl': 0.005730364937335253, 'entropy': -0.5696002840995789, 'cur_kl_coeff': 1.6439563035964966, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.9433678388595581}, 'sample_time_ms': 42410.872, 'num_steps_trained': 1724400, 'num_steps_sampled': 1724400, 'update_time_ms': 2.682, 'grad_time_ms': 374.914, 'load_time_ms': 0.672}",237,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+56131.29795742035,142075,4.000988633856851,1200,cda-server-2,9411.758517026901,f93d3d6710754a149751678a58e67540,298,1757110963,285600,-7.016822785842802,2334309,{},10.157.146.2,False,{},2025-09-06_00-22-43,4.023489932885906,1725600,3.96334188889856,0,48.69495868682861,1438,"{'default': {'policy_loss': -0.03193768113851547, 'vf_explained_var': 0.9515212178230286, 'vf_loss': 0.3467467725276947, 'kl': 0.004281277302652597, 'entropy': -0.7313439249992371, 'cur_kl_coeff': 1.6439563035964966, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.3218472898006439}, 'sample_time_ms': 43287.15, 'num_steps_trained': 1725600, 'num_steps_sampled': 1725600, 'update_time_ms': 2.746, 'grad_time_ms': 376.971, 'load_time_ms': 0.669}",238,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+56179.19875764847,142366,4.000926909139863,1200,cda-server-2,9459.65931725502,f93d3d6710754a149751678a58e67540,291,1757111011,286800,-18.84643159982309,2334309,{},10.157.146.2,False,{},2025-09-06_00-23-31,4.116838487972508,1726800,3.812006967663944,0,47.9008002281189,1439,"{'default': {'policy_loss': -0.04800975322723389, 'vf_explained_var': 0.77494877576828, 'vf_loss': 2.6764373779296875, 'kl': 0.012306403368711472, 'entropy': -0.5416639447212219, 'cur_kl_coeff': 0.8219781517982483, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.638543128967285}, 'sample_time_ms': 44079.227, 'num_steps_trained': 1726800, 'num_steps_sampled': 1726800, 'update_time_ms': 2.769, 'grad_time_ms': 376.638, 'load_time_ms': 0.669}",239,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+56227.00977039337,142666,4.000743587766967,1200,cda-server-2,9507.470329999924,f93d3d6710754a149751678a58e67540,300,1757111059,288000,4.0001502559720485,2334309,{},10.157.146.2,False,{},2025-09-06_00-24-19,4.0,1728000,4.0003090260196865,0,47.811012744903564,1440,"{'default': {'policy_loss': -0.07362674176692963, 'vf_explained_var': 0.9981107711791992, 'vf_loss': 0.010270186699926853, 'kl': 0.0625799372792244, 'entropy': -0.8270882964134216, 'cur_kl_coeff': 0.8219781517982483, 'cur_lr': 4.999999873689376e-05, 'total_loss': -0.011917220428586006}, 'sample_time_ms': 44844.911, 'num_steps_trained': 1728000, 'num_steps_sampled': 1728000, 'update_time_ms': 2.773, 'grad_time_ms': 379.822, 'load_time_ms': 0.688}",240,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+56274.545493364334,142957,4.000978119648995,1200,cda-server-2,9555.006052970886,f93d3d6710754a149751678a58e67540,291,1757111106,289200,-28.570311634371905,2334309,{},10.157.146.2,False,{},2025-09-06_00-25-06,4.116838487972508,1729200,3.8154114097834637,0,47.535722970962524,1441,"{'default': {'policy_loss': -0.043407659977674484, 'vf_explained_var': 0.8010523319244385, 'vf_loss': 3.000563383102417, 'kl': 0.008544771000742912, 'entropy': -0.4100717306137085, 'cur_kl_coeff': 1.2329672574996948, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.9676904678344727}, 'sample_time_ms': 45566.581, 'num_steps_trained': 1729200, 'num_steps_sampled': 1729200, 'update_time_ms': 2.737, 'grad_time_ms': 377.366, 'load_time_ms': 0.68}",241,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+56322.24693894386,143255,4.002026386094887,1200,cda-server-2,9602.707498550415,f93d3d6710754a149751678a58e67540,298,1757111154,290400,-10.133114428975535,2334309,{},10.157.146.2,False,{},2025-09-06_00-25-54,4.030201342281879,1730400,3.9528867044815557,0,47.70144557952881,1442,"{'default': {'policy_loss': -0.023271020501852036, 'vf_explained_var': 0.8870282769203186, 'vf_loss': 0.7891668081283569, 'kl': 0.02061046101152897, 'entropy': -0.7091172337532043, 'cur_kl_coeff': 1.2329672574996948, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.7913077473640442}, 'sample_time_ms': 46360.125, 'num_steps_trained': 1730400, 'num_steps_sampled': 1730400, 'update_time_ms': 2.73, 'grad_time_ms': 376.95, 'load_time_ms': 0.678}",242,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+56370.2213447094,143552,4.000894937271498,1200,cda-server-2,9650.681904315948,f93d3d6710754a149751678a58e67540,297,1757111202,291600,-8.206831709715072,2334309,{},10.157.146.2,False,{},2025-09-06_00-26-42,4.043771043771044,1731600,3.9321758401520297,0,47.97440576553345,1443,"{'default': {'policy_loss': -0.04199817776679993, 'vf_explained_var': 0.8951810002326965, 'vf_loss': 0.6578538417816162, 'kl': 0.0058148568496108055, 'entropy': -0.7292139530181885, 'cur_kl_coeff': 1.8494508266448975, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.6266099214553833}, 'sample_time_ms': 47106.751, 'num_steps_trained': 1731600, 'num_steps_sampled': 1731600, 'update_time_ms': 2.68, 'grad_time_ms': 376.199, 'load_time_ms': 0.686}",243,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+56417.96522331238,143841,4.000876190130539,1200,cda-server-2,9698.42578291893,f93d3d6710754a149751678a58e67540,289,1757111250,292800,-19.98721643259525,2334309,{},10.157.146.2,False,{},2025-09-06_00-27-30,4.141868512110727,1732800,3.7811910769185277,0,47.74387860298157,1444,"{'default': {'policy_loss': -0.045681193470954895, 'vf_explained_var': 0.7312732338905334, 'vf_loss': 3.76257061958313, 'kl': 0.0058773113414645195, 'entropy': -0.5289236307144165, 'cur_kl_coeff': 1.8494508266448975, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.7277586460113525}, 'sample_time_ms': 47717.018, 'num_steps_trained': 1732800, 'num_steps_sampled': 1732800, 'update_time_ms': 2.641, 'grad_time_ms': 373.839, 'load_time_ms': 0.69}",244,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+56466.28101038933,144135,4.000764636298368,1200,cda-server-2,9746.74156999588,f93d3d6710754a149751678a58e67540,294,1757111298,294000,-34.43839795613683,2334309,{},10.157.146.2,False,{},2025-09-06_00-28-18,4.081632653061225,1734000,3.86957104847434,0,48.31578707695007,1445,"{'default': {'policy_loss': -0.034946098923683167, 'vf_explained_var': 0.696674108505249, 'vf_loss': 5.903777122497559, 'kl': 0.0057359375059604645, 'entropy': -0.4582817852497101, 'cur_kl_coeff': 1.8494508266448975, 'cur_lr': 4.999999873689376e-05, 'total_loss': 5.879439353942871}, 'sample_time_ms': 47641.301, 'num_steps_trained': 1734000, 'num_steps_sampled': 1734000, 'update_time_ms': 2.62, 'grad_time_ms': 371.576, 'load_time_ms': 0.68}",245,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+56514.1814095974,144434,4.000936112508631,1200,cda-server-2,9794.641969203949,f93d3d6710754a149751678a58e67540,299,1757111346,295200,-4.030908099283172,2334309,{},10.157.146.2,False,{},2025-09-06_00-29-06,4.016722408026756,1735200,3.9734496042360936,0,47.90039920806885,1446,"{'default': {'policy_loss': -0.04263192042708397, 'vf_explained_var': 0.9505258202552795, 'vf_loss': 0.2970915734767914, 'kl': 0.012567870318889618, 'entropy': -0.7270498871803284, 'cur_kl_coeff': 1.8494508266448975, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.27770325541496277}, 'sample_time_ms': 47600.143, 'num_steps_trained': 1735200, 'num_steps_sampled': 1735200, 'update_time_ms': 2.615, 'grad_time_ms': 369.467, 'load_time_ms': 0.662}",246,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+56562.34128451347,144730,4.00088150262879,1200,cda-server-2,9842.801844120026,f93d3d6710754a149751678a58e67540,296,1757111394,296400,-11.681306344972906,2334309,{},10.157.146.2,False,{},2025-09-06_00-29-54,4.0574324324324325,1736400,3.9103292757402244,0,48.15987491607666,1447,"{'default': {'policy_loss': -0.02150719054043293, 'vf_explained_var': 0.9106472730636597, 'vf_loss': 0.6047635078430176, 'kl': 0.003905693767592311, 'entropy': -0.6296756863594055, 'cur_kl_coeff': 1.8494508266448975, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.5904796123504639}, 'sample_time_ms': 47592.313, 'num_steps_trained': 1736400, 'num_steps_sampled': 1736400, 'update_time_ms': 2.552, 'grad_time_ms': 372.131, 'load_time_ms': 0.687}",247,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+56610.493864774704,145024,4.0008387054953936,1200,cda-server-2,9890.954424381256,f93d3d6710754a149751678a58e67540,294,1757111442,297600,-23.663160027165326,2334309,{},10.157.146.2,False,{},2025-09-06_00-30-42,4.081632653061225,1737600,3.8690671279548132,0,48.15258026123047,1448,"{'default': {'policy_loss': -0.032648716121912, 'vf_explained_var': 0.7614466547966003, 'vf_loss': 3.3430824279785156, 'kl': 0.0134495310485363, 'entropy': -0.6028428077697754, 'cur_kl_coeff': 0.9247254133224487, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.322871208190918}, 'sample_time_ms': 47540.423, 'num_steps_trained': 1737600, 'num_steps_sampled': 1737600, 'update_time_ms': 2.518, 'grad_time_ms': 369.899, 'load_time_ms': 0.69}",248,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+56659.05367779732,145321,4.001911964474409,1200,cda-server-2,9939.51423740387,f93d3d6710754a149751678a58e67540,297,1757111491,298800,-12.614676054278835,2334309,{},10.157.146.2,False,{},2025-09-06_00-31-31,4.033670033670034,1738800,3.944373761014147,0,48.559813022613525,1449,"{'default': {'policy_loss': -0.032227516174316406, 'vf_explained_var': 0.9183956980705261, 'vf_loss': 0.766620397567749, 'kl': 0.007699788548052311, 'entropy': -0.7607552409172058, 'cur_kl_coeff': 0.9247254133224487, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.7415130734443665}, 'sample_time_ms': 47605.859, 'num_steps_trained': 1738800, 'num_steps_sampled': 1738800, 'update_time_ms': 2.51, 'grad_time_ms': 370.322, 'load_time_ms': 0.706}",249,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+56706.321413993835,145603,4.00103806848329,1200,cda-server-2,9986.781973600388,f93d3d6710754a149751678a58e67540,282,1757111538,300000,-18.952049804880993,2334309,{},10.157.146.2,False,{},2025-09-06_00-32-18,4.25886524822695,1740000,3.6018050516271587,0,47.267736196517944,1450,"{'default': {'policy_loss': -0.06075407937169075, 'vf_explained_var': 0.5983631610870361, 'vf_loss': 7.41709566116333, 'kl': 0.014191887341439724, 'entropy': -0.1289195716381073, 'cur_kl_coeff': 0.9247254133224487, 'cur_lr': 4.999999873689376e-05, 'total_loss': 7.36946439743042}, 'sample_time_ms': 47553.391, 'num_steps_trained': 1740000, 'num_steps_sampled': 1740000, 'update_time_ms': 2.517, 'grad_time_ms': 368.473, 'load_time_ms': 0.697}",250,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+56754.1590924263,145891,4.001871299260375,1200,cda-server-2,10034.619652032852,f93d3d6710754a149751678a58e67540,288,1757111586,301200,-40.428796121967586,2334309,{},10.157.146.2,False,{},2025-09-06_00-33-06,4.173611111111111,1741200,3.7243231353789117,0,47.8376784324646,1451,"{'default': {'policy_loss': -0.0490453764796257, 'vf_explained_var': 0.6513774394989014, 'vf_loss': 11.058384895324707, 'kl': 0.01180316973477602, 'entropy': -0.33970820903778076, 'cur_kl_coeff': 0.9247254133224487, 'cur_lr': 4.999999873689376e-05, 'total_loss': 11.020256042480469}, 'sample_time_ms': 47582.325, 'num_steps_trained': 1741200, 'num_steps_sampled': 1741200, 'update_time_ms': 2.477, 'grad_time_ms': 369.769, 'load_time_ms': 0.702}",251,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+56801.57921171188,146185,4.002073820891281,1200,cda-server-2,10082.039771318436,f93d3d6710754a149751678a58e67540,294,1757111634,302400,-15.346711645528455,2334309,{},10.157.146.2,False,{},2025-09-06_00-33-54,4.091836734693878,1742400,3.854495940994252,0,47.420119285583496,1452,"{'default': {'policy_loss': -0.039310917258262634, 'vf_explained_var': 0.7589478492736816, 'vf_loss': 2.627497673034668, 'kl': 0.01909378357231617, 'entropy': -0.6142606735229492, 'cur_kl_coeff': 0.9247254133224487, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.6058433055877686}, 'sample_time_ms': 47551.052, 'num_steps_trained': 1742400, 'num_steps_sampled': 1742400, 'update_time_ms': 2.431, 'grad_time_ms': 372.845, 'load_time_ms': 0.718}",252,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+56848.90312123299,146483,4.001037701564207,1200,cda-server-2,10129.363680839539,f93d3d6710754a149751678a58e67540,298,1757111681,303600,-2.084278122766282,2334309,{},10.157.146.2,False,{},2025-09-06_00-34-41,4.016778523489933,1743600,3.9765476341164057,0,47.323909521102905,1453,"{'default': {'policy_loss': -0.04364072531461716, 'vf_explained_var': 0.9394935965538025, 'vf_loss': 0.32958245277404785, 'kl': 0.013263245113193989, 'entropy': -0.7749868035316467, 'cur_kl_coeff': 0.9247254133224487, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.2982065677642822}, 'sample_time_ms': 47487.309, 'num_steps_trained': 1743600, 'num_steps_sampled': 1743600, 'update_time_ms': 2.434, 'grad_time_ms': 371.565, 'load_time_ms': 0.718}",253,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+56896.493780612946,146775,4.001526190384587,1200,cda-server-2,10176.954340219498,f93d3d6710754a149751678a58e67540,292,1757111728,304800,-17.04246254479957,2334309,{},10.157.146.2,False,{},2025-09-06_00-35-28,4.1061643835616435,1744800,3.8335763511623924,0,47.590659379959106,1454,"{'default': {'policy_loss': -0.018316423520445824, 'vf_explained_var': 0.7037187218666077, 'vf_loss': 3.1023385524749756, 'kl': 0.08313299715518951, 'entropy': -0.4784791171550751, 'cur_kl_coeff': 0.9247254133224487, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.1608974933624268}, 'sample_time_ms': 47470.011, 'num_steps_trained': 1744800, 'num_steps_sampled': 1744800, 'update_time_ms': 2.454, 'grad_time_ms': 373.447, 'load_time_ms': 0.722}",254,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+56944.13806319237,147065,4.000778570096253,1200,cda-server-2,10224.59862279892,f93d3d6710754a149751678a58e67540,290,1757111776,306000,-11.783584812198711,2334309,{},10.157.146.2,False,{},2025-09-06_00-36-16,4.117241379310345,1746000,3.820187214834801,0,47.644282579422,1455,"{'default': {'policy_loss': -0.05638056993484497, 'vf_explained_var': 0.6674591898918152, 'vf_loss': 3.0185706615448, 'kl': 0.009660113602876663, 'entropy': -0.44922298192977905, 'cur_kl_coeff': 1.3870880603790283, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.9755895137786865}, 'sample_time_ms': 47402.766, 'num_steps_trained': 1746000, 'num_steps_sampled': 1746000, 'update_time_ms': 2.455, 'grad_time_ms': 373.532, 'load_time_ms': 0.724}",255,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+56991.40013170242,147344,4.001693664811038,1200,cda-server-2,10271.860691308975,f93d3d6710754a149751678a58e67540,279,1757111823,307200,-52.896614186427314,2334309,{},10.157.146.2,False,{},2025-09-06_00-37-03,4.318996415770609,1747200,3.4982544211958397,0,47.26206851005554,1456,"{'default': {'policy_loss': -0.056544847786426544, 'vf_explained_var': 0.6722946763038635, 'vf_loss': 9.90820598602295, 'kl': 0.00801782589405775, 'entropy': -0.12485236674547195, 'cur_kl_coeff': 1.3870880603790283, 'cur_lr': 4.999999873689376e-05, 'total_loss': 9.86278247833252}, 'sample_time_ms': 47338.612, 'num_steps_trained': 1747200, 'num_steps_sampled': 1747200, 'update_time_ms': 2.536, 'grad_time_ms': 373.772, 'load_time_ms': 0.723}",256,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+57039.43521976471,147625,4.001557196402287,1200,cda-server-2,10319.895779371262,f93d3d6710754a149751678a58e67540,281,1757111871,308400,-40.337068021468056,2334309,{},10.157.146.2,False,{},2025-09-06_00-37-51,4.2811387900355875,1748400,3.559640365694221,0,48.03508806228638,1457,"{'default': {'policy_loss': -0.07072694599628448, 'vf_explained_var': 0.7178900837898254, 'vf_loss': 8.49805736541748, 'kl': 0.007194666191935539, 'entropy': -0.08639301359653473, 'cur_kl_coeff': 1.3870880603790283, 'cur_lr': 4.999999873689376e-05, 'total_loss': 8.437309265136719}, 'sample_time_ms': 47327.466, 'num_steps_trained': 1748400, 'num_steps_sampled': 1748400, 'update_time_ms': 2.585, 'grad_time_ms': 372.487, 'load_time_ms': 0.708}",257,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+57087.064042806625,147918,4.000746703751247,1200,cda-server-2,10367.524602413177,f93d3d6710754a149751678a58e67540,293,1757111919,309600,-14.096622334874205,2334309,{},10.157.146.2,False,{},2025-09-06_00-38-39,4.098976109215017,1749600,3.8416015506625443,0,47.628823041915894,1458,"{'default': {'policy_loss': -0.054501552134752274, 'vf_explained_var': 0.7106302380561829, 'vf_loss': 2.473252296447754, 'kl': 0.007737068459391594, 'entropy': -0.5796048641204834, 'cur_kl_coeff': 1.3870880603790283, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.4294826984405518}, 'sample_time_ms': 47272.373, 'num_steps_trained': 1749600, 'num_steps_sampled': 1749600, 'update_time_ms': 2.589, 'grad_time_ms': 375.188, 'load_time_ms': 0.715}",258,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+57134.572068452835,148206,4.000779162797871,1200,cda-server-2,10415.032628059387,f93d3d6710754a149751678a58e67540,288,1757111967,310800,-15.410972806121414,2334309,{},10.157.146.2,False,{},2025-09-06_00-39-27,4.159722222222222,1750800,3.7502035688921467,0,47.50802564620972,1459,"{'default': {'policy_loss': -0.05429293215274811, 'vf_explained_var': 0.6743777394294739, 'vf_loss': 3.9255435466766357, 'kl': 0.007466413080692291, 'entropy': -0.42985615134239197, 'cur_kl_coeff': 1.3870880603790283, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.8816075325012207}, 'sample_time_ms': 47167.706, 'num_steps_trained': 1750800, 'num_steps_sampled': 1750800, 'update_time_ms': 2.606, 'grad_time_ms': 374.696, 'load_time_ms': 0.695}",259,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+57182.52361416817,148489,4.001797141031242,1200,cda-server-2,10462.98417377472,f93d3d6710754a149751678a58e67540,283,1757112015,312000,-18.629038667602323,2334309,{},10.157.146.2,False,{},2025-09-06_00-40-15,4.240282685512367,1752000,3.627962958021747,0,47.95154571533203,1460,"{'default': {'policy_loss': -0.05371754616498947, 'vf_explained_var': 0.5488343238830566, 'vf_loss': 7.014113426208496, 'kl': 0.012625009752810001, 'entropy': -0.1336963176727295, 'cur_kl_coeff': 1.3870880603790283, 'cur_lr': 4.999999873689376e-05, 'total_loss': 6.977907657623291}, 'sample_time_ms': 47235.657, 'num_steps_trained': 1752000, 'num_steps_sampled': 1752000, 'update_time_ms': 2.597, 'grad_time_ms': 375.165, 'load_time_ms': 0.679}",260,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+57230.01407575607,148773,4.000955035693298,1200,cda-server-2,10510.474635362625,f93d3d6710754a149751678a58e67540,284,1757112062,313200,-29.420896591839053,2334309,{},10.157.146.2,False,{},2025-09-06_00-41-02,4.214788732394366,1753200,3.668911275953495,0,47.490461587905884,1461,"{'default': {'policy_loss': -0.05133206397294998, 'vf_explained_var': 0.5570003986358643, 'vf_loss': 8.413581848144531, 'kl': 0.010940681211650372, 'entropy': -0.25677430629730225, 'cur_kl_coeff': 1.3870880603790283, 'cur_lr': 4.999999873689376e-05, 'total_loss': 8.377426147460938}, 'sample_time_ms': 47199.305, 'num_steps_trained': 1753200, 'num_steps_sampled': 1753200, 'update_time_ms': 2.642, 'grad_time_ms': 376.711, 'load_time_ms': 0.696}",261,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+57277.987745285034,149069,4.00126665921635,1200,cda-server-2,10558.448304891586,f93d3d6710754a149751678a58e67540,296,1757112110,314400,-4.050359443009162,2334309,{},10.157.146.2,False,{},2025-09-06_00-41-50,4.050675675675675,1754400,3.921663043855134,0,47.97366952896118,1462,"{'default': {'policy_loss': -0.03842271864414215, 'vf_explained_var': 0.7763909697532654, 'vf_loss': 1.7078901529312134, 'kl': 0.009725447744131088, 'entropy': -0.6051639914512634, 'cur_kl_coeff': 1.3870880603790283, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.6829575300216675}, 'sample_time_ms': 47256.273, 'num_steps_trained': 1754400, 'num_steps_sampled': 1754400, 'update_time_ms': 2.658, 'grad_time_ms': 375.102, 'load_time_ms': 0.688}",262,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+57326.34613800049,149357,4.0017433205822455,1200,cda-server-2,10606.80669760704,f93d3d6710754a149751678a58e67540,288,1757112159,315600,-22.710579583818706,2334309,{},10.157.146.2,False,{},2025-09-06_00-42-39,4.177083333333333,1755600,3.720872126790257,0,48.3583927154541,1463,"{'default': {'policy_loss': -0.044724300503730774, 'vf_explained_var': 0.6310252547264099, 'vf_loss': 6.336330413818359, 'kl': 0.01496212836354971, 'entropy': -0.37310099601745605, 'cur_kl_coeff': 1.3870880603790283, 'cur_lr': 4.999999873689376e-05, 'total_loss': 6.312359809875488}, 'sample_time_ms': 47356.885, 'num_steps_trained': 1755600, 'num_steps_sampled': 1755600, 'update_time_ms': 2.766, 'grad_time_ms': 377.794, 'load_time_ms': 0.703}",263,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+57374.01381444931,149634,4.0009953034147445,1200,cda-server-2,10654.474374055862,f93d3d6710754a149751678a58e67540,277,1757112206,316800,-21.36868586702382,2334309,{},10.157.146.2,False,{},2025-09-06_00-43-26,4.317689530685921,1756800,3.4966312862033626,0,47.66767644882202,1464,"{'default': {'policy_loss': -0.061535995453596115, 'vf_explained_var': 0.5322654843330383, 'vf_loss': 10.790619850158691, 'kl': 0.018916010856628418, 'entropy': -0.1748257875442505, 'cur_kl_coeff': 1.3870880603790283, 'cur_lr': 4.999999873689376e-05, 'total_loss': 10.755321502685547}, 'sample_time_ms': 47365.043, 'num_steps_trained': 1756800, 'num_steps_sampled': 1756800, 'update_time_ms': 2.754, 'grad_time_ms': 377.433, 'load_time_ms': 0.697}",264,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+57421.842950582504,149920,4.001144885128235,1200,cda-server-2,10702.303510189056,f93d3d6710754a149751678a58e67540,286,1757112254,318000,-30.729778146263214,2334309,{},10.157.146.2,False,{},2025-09-06_00-44-14,4.20979020979021,1758000,3.675811402112422,0,47.82913613319397,1465,"{'default': {'policy_loss': -0.04985547065734863, 'vf_explained_var': 0.5663307905197144, 'vf_loss': 7.322983741760254, 'kl': 0.016695864498615265, 'entropy': -0.3543899953365326, 'cur_kl_coeff': 1.3870880603790283, 'cur_lr': 4.999999873689376e-05, 'total_loss': 7.296285629272461}, 'sample_time_ms': 47383.029, 'num_steps_trained': 1758000, 'num_steps_sampled': 1758000, 'update_time_ms': 2.757, 'grad_time_ms': 377.896, 'load_time_ms': 0.695}",265,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+57469.99046468735,150215,4.000872159495527,1200,cda-server-2,10750.4510242939,f93d3d6710754a149751678a58e67540,295,1757112302,319200,-13.238624069778613,2334309,{},10.157.146.2,False,{},2025-09-06_00-45-02,4.061016949152543,1759200,3.9039438303646814,0,48.14751410484314,1466,"{'default': {'policy_loss': -0.03422060236334801, 'vf_explained_var': 0.8211068511009216, 'vf_loss': 1.5726581811904907, 'kl': 0.015840735286474228, 'entropy': -0.5468952655792236, 'cur_kl_coeff': 1.3870880603790283, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.5604100227355957}, 'sample_time_ms': 47469.433, 'num_steps_trained': 1759200, 'num_steps_sampled': 1759200, 'update_time_ms': 2.707, 'grad_time_ms': 380.039, 'load_time_ms': 0.712}",266,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+57518.082249403,150507,4.000932276517646,1200,cda-server-2,10798.542809009552,f93d3d6710754a149751678a58e67540,292,1757112350,320400,-24.962167344191634,2334309,{},10.157.146.2,False,{},2025-09-06_00-45-50,4.1061643835616435,1760400,3.8290036933461042,0,48.091784715652466,1467,"{'default': {'policy_loss': -0.03570576757192612, 'vf_explained_var': 0.687618613243103, 'vf_loss': 4.782097816467285, 'kl': 0.012407583184540272, 'entropy': -0.37311670184135437, 'cur_kl_coeff': 1.3870880603790283, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4.763602256774902}, 'sample_time_ms': 47475.356, 'num_steps_trained': 1760400, 'num_steps_sampled': 1760400, 'update_time_ms': 2.723, 'grad_time_ms': 379.729, 'load_time_ms': 0.706}",267,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+57565.84787297249,150806,4.00135685138809,1200,cda-server-2,10846.30843257904,f93d3d6710754a149751678a58e67540,299,1757112398,321600,-4.023925289375876,2334309,{},10.157.146.2,False,{},2025-09-06_00-46-38,4.016722408026756,1761600,3.9734752079331237,0,47.765623569488525,1468,"{'default': {'policy_loss': -0.02925533428788185, 'vf_explained_var': 0.9540842771530151, 'vf_loss': 0.2785450220108032, 'kl': 0.014913595281541348, 'entropy': -0.6924518346786499, 'cur_kl_coeff': 1.3870880603790283, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.2699761986732483}, 'sample_time_ms': 47490.243, 'num_steps_trained': 1761600, 'num_steps_sampled': 1761600, 'update_time_ms': 2.698, 'grad_time_ms': 378.532, 'load_time_ms': 0.699}",268,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+57613.79775285721,151105,4.001376978423049,1200,cda-server-2,10894.25831246376,f93d3d6710754a149751678a58e67540,299,1757112446,322800,-4.045601542245093,2334309,{},10.157.146.2,False,{},2025-09-06_00-47-26,4.016722408026756,1762800,3.9734048419036863,0,47.94987988471985,1469,"{'default': {'policy_loss': -0.025279439985752106, 'vf_explained_var': 0.953485369682312, 'vf_loss': 0.27982062101364136, 'kl': 0.004505502060055733, 'entropy': -0.7000296115875244, 'cur_kl_coeff': 1.3870880603790283, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.26079070568084717}, 'sample_time_ms': 47536.278, 'num_steps_trained': 1762800, 'num_steps_sampled': 1762800, 'update_time_ms': 2.679, 'grad_time_ms': 376.709, 'load_time_ms': 0.706}",269,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+57661.818485975266,151397,4.001093807091266,1200,cda-server-2,10942.279045581818,f93d3d6710754a149751678a58e67540,292,1757112494,324000,-16.070037468894245,2334309,{},10.157.146.2,False,{},2025-09-06_00-48-14,4.109589041095891,1764000,3.8323485646248554,0,48.02073311805725,1470,"{'default': {'policy_loss': -0.043187737464904785, 'vf_explained_var': 0.6972841620445251, 'vf_loss': 2.799201011657715, 'kl': 0.01345019694417715, 'entropy': -0.4793567657470703, 'cur_kl_coeff': 0.6935440301895142, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.7653415203094482}, 'sample_time_ms': 47542.949, 'num_steps_trained': 1764000, 'num_steps_sampled': 1764000, 'update_time_ms': 2.679, 'grad_time_ms': 376.966, 'load_time_ms': 0.714}",270,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+57709.54187107086,151696,4.001415245559349,1200,cda-server-2,10990.002430677414,f93d3d6710754a149751678a58e67540,299,1757112542,325200,-2.039835863908465,2334309,{},10.157.146.2,False,{},2025-09-06_00-49-02,4.013377926421405,1765200,3.980114491971476,0,47.72338509559631,1471,"{'default': {'policy_loss': -0.02304212935268879, 'vf_explained_var': 0.9693991541862488, 'vf_loss': 0.17520728707313538, 'kl': 0.023781321942806244, 'entropy': -0.6346623301506042, 'cur_kl_coeff': 0.6935440301895142, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.1686585545539856}, 'sample_time_ms': 47566.608, 'num_steps_trained': 1765200, 'num_steps_sampled': 1765200, 'update_time_ms': 2.65, 'grad_time_ms': 376.612, 'load_time_ms': 0.712}",271,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+57757.52287840843,151985,4.000732737492392,1200,cda-server-2,11037.983438014984,f93d3d6710754a149751678a58e67540,289,1757112590,326400,-18.480062961069635,2334309,{},10.157.146.2,False,{},2025-09-06_00-49-50,4.155709342560554,1766400,3.7647659713034862,0,47.98100733757019,1472,"{'default': {'policy_loss': -0.05782701075077057, 'vf_explained_var': 0.7000874876976013, 'vf_loss': 3.60642147064209, 'kl': 0.027552656829357147, 'entropy': -0.3989873230457306, 'cur_kl_coeff': 1.040316104888916, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.5772581100463867}, 'sample_time_ms': 47567.558, 'num_steps_trained': 1766400, 'num_steps_sampled': 1766400, 'update_time_ms': 2.686, 'grad_time_ms': 376.451, 'load_time_ms': 0.714}",272,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+57805.37796449661,152285,4.002095846133504,1200,cda-server-2,11085.838524103165,f93d3d6710754a149751678a58e67540,300,1757112638,327600,4.000115334760839,2334309,{},10.157.146.2,False,{},2025-09-06_00-50-38,4.0,1767600,4.000308901940307,0,47.85508608818054,1473,"{'default': {'policy_loss': -0.09067479521036148, 'vf_explained_var': 0.9988996982574463, 'vf_loss': 0.00601922208443284, 'kl': 0.025429440662264824, 'entropy': -0.6960827112197876, 'cur_kl_coeff': 1.560474157333374, 'cur_lr': 4.999999873689376e-05, 'total_loss': -0.044973596930503845}, 'sample_time_ms': 47519.645, 'num_steps_trained': 1767600, 'num_steps_sampled': 1767600, 'update_time_ms': 2.591, 'grad_time_ms': 374.16, 'load_time_ms': 0.703}",273,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+57853.25866532326,152571,4.0007274286571635,1200,cda-server-2,11133.71922492981,f93d3d6710754a149751678a58e67540,286,1757112686,328800,-24.515069949751293,2334309,{},10.157.146.2,False,{},2025-09-06_00-51-26,4.188811188811189,1768800,3.701937035305616,0,47.8807008266449,1474,"{'default': {'policy_loss': -0.04933428764343262, 'vf_explained_var': 0.5963819026947021, 'vf_loss': 6.575681209564209, 'kl': 0.013204150833189487, 'entropy': -0.3598807752132416, 'cur_kl_coeff': 2.3407111167907715, 'cur_lr': 4.999999873689376e-05, 'total_loss': 6.557253837585449}, 'sample_time_ms': 47542.853, 'num_steps_trained': 1768800, 'num_steps_sampled': 1768800, 'update_time_ms': 2.611, 'grad_time_ms': 372.181, 'load_time_ms': 0.697}",274,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+57901.089195013046,152854,4.001903044493133,1200,cda-server-2,11181.549754619598,f93d3d6710754a149751678a58e67540,283,1757112733,330000,-42.805849205254106,2334309,{},10.157.146.2,False,{},2025-09-06_00-52-13,4.23321554770318,1770000,3.6413503086847925,0,47.83052968978882,1475,"{'default': {'policy_loss': -0.052331726998090744, 'vf_explained_var': 0.6088579297065735, 'vf_loss': 11.742603302001953, 'kl': 0.004582360852509737, 'entropy': -0.1885070949792862, 'cur_kl_coeff': 2.3407111167907715, 'cur_lr': 4.999999873689376e-05, 'total_loss': 11.70099925994873}, 'sample_time_ms': 47542.001, 'num_steps_trained': 1770000, 'num_steps_sampled': 1770000, 'update_time_ms': 2.616, 'grad_time_ms': 373.127, 'load_time_ms': 0.694}",275,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+57948.26105928421,153153,4.001500888367179,1200,cda-server-2,11228.721618890762,f93d3d6710754a149751678a58e67540,299,1757112781,331200,-2.052482935231893,2334309,{},10.157.146.2,False,{},2025-09-06_00-53-01,4.023411371237458,1771200,3.963355237851038,0,47.17186427116394,1476,"{'default': {'policy_loss': -0.05512399226427078, 'vf_explained_var': 0.9463942050933838, 'vf_loss': 0.2899523377418518, 'kl': 0.015788814052939415, 'entropy': -0.6829190850257874, 'cur_kl_coeff': 1.1703555583953857, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.2533068358898163}, 'sample_time_ms': 47444.945, 'num_steps_trained': 1771200, 'num_steps_sampled': 1771200, 'update_time_ms': 2.649, 'grad_time_ms': 372.541, 'load_time_ms': 0.69}",276,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+57995.50839781761,153451,4.000907602799169,1200,cda-server-2,11275.968957424164,f93d3d6710754a149751678a58e67540,298,1757112828,332400,-11.864487451887882,2334309,{},10.157.146.2,False,{},2025-09-06_00-53-48,4.033557046979865,1772400,3.9470659497602285,0,47.24733853340149,1477,"{'default': {'policy_loss': -0.025927437469363213, 'vf_explained_var': 0.8896243572235107, 'vf_loss': 0.9246392846107483, 'kl': 0.009455346502363682, 'entropy': -0.5875173211097717, 'cur_kl_coeff': 1.1703555583953857, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.9097779393196106}, 'sample_time_ms': 47359.789, 'num_steps_trained': 1772400, 'num_steps_sampled': 1772400, 'update_time_ms': 2.632, 'grad_time_ms': 373.241, 'load_time_ms': 0.689}",277,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+58044.219180345535,153744,4.001717906574883,1200,cda-server-2,11324.679739952087,f93d3d6710754a149751678a58e67540,293,1757112877,333600,-18.166590922858003,2334309,{},10.157.146.2,False,{},2025-09-06_00-54-37,4.1058020477815695,1773600,3.8284693659042572,0,48.710782527923584,1478,"{'default': {'policy_loss': -0.038619909435510635, 'vf_explained_var': 0.7000724673271179, 'vf_loss': 3.3264856338500977, 'kl': 0.01480559166520834, 'entropy': -0.507673978805542, 'cur_kl_coeff': 1.1703555583953857, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.3051939010620117}, 'sample_time_ms': 47453.746, 'num_steps_trained': 1773600, 'num_steps_sampled': 1773600, 'update_time_ms': 2.668, 'grad_time_ms': 373.759, 'load_time_ms': 0.689}",278,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+58092.09345912933,154038,4.0014431695075485,1200,cda-server-2,11372.554018735886,f93d3d6710754a149751678a58e67540,294,1757112924,334800,-18.989038485941414,2334309,{},10.157.146.2,False,{},2025-09-06_00-55-24,4.071428571428571,1774800,3.8915638712954146,0,47.87427878379822,1479,"{'default': {'policy_loss': -0.035056278109550476, 'vf_explained_var': 0.7686453461647034, 'vf_loss': 2.2828567028045654, 'kl': 0.008585826493799686, 'entropy': -0.5124003887176514, 'cur_kl_coeff': 1.1703555583953857, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.2578492164611816}, 'sample_time_ms': 47443.134, 'num_steps_trained': 1774800, 'num_steps_sampled': 1774800, 'update_time_ms': 2.671, 'grad_time_ms': 376.739, 'load_time_ms': 0.7}",279,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+58140.32648944855,154336,4.001604810804064,1200,cda-server-2,11420.7870490551,f93d3d6710754a149751678a58e67540,298,1757112973,336000,-4.779140717560455,2334309,{},10.157.146.2,False,{},2025-09-06_00-56-13,4.02013422818792,1776000,3.970842957244809,0,48.23303031921387,1480,"{'default': {'policy_loss': -0.019469482824206352, 'vf_explained_var': 0.9408183693885803, 'vf_loss': 0.3544977009296417, 'kl': 0.00958480965346098, 'entropy': -0.6057462096214294, 'cur_kl_coeff': 1.1703555583953857, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.3462458848953247}, 'sample_time_ms': 47463.942, 'num_steps_trained': 1776000, 'num_steps_sampled': 1776000, 'update_time_ms': 2.725, 'grad_time_ms': 377.061, 'load_time_ms': 0.718}",280,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+58188.4601225853,154627,4.001340569118447,1200,cda-server-2,11468.920682191849,f93d3d6710754a149751678a58e67540,291,1757113021,337200,-14.342424828387706,2334309,{},10.157.146.2,False,{},2025-09-06_00-57-01,4.123711340206185,1777200,3.810420761283396,0,48.13363313674927,1481,"{'default': {'policy_loss': -0.036205511540174484, 'vf_explained_var': 0.7776699066162109, 'vf_loss': 2.0132150650024414, 'kl': 0.0586586520075798, 'entropy': -0.3567342460155487, 'cur_kl_coeff': 1.1703555583953857, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.045660972595215}, 'sample_time_ms': 47504.899, 'num_steps_trained': 1777200, 'num_steps_sampled': 1777200, 'update_time_ms': 2.753, 'grad_time_ms': 377.08, 'load_time_ms': 0.722}",281,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+58236.56802582741,154915,4.000877805406983,1200,cda-server-2,11517.02858543396,f93d3d6710754a149751678a58e67540,288,1757113069,338400,-32.47227840820963,2334309,{},10.157.146.2,False,{},2025-09-06_00-57-49,4.166666666666667,1778400,3.736179056029818,0,48.107903242111206,1482,"{'default': {'policy_loss': -0.041337717324495316, 'vf_explained_var': 0.6588791012763977, 'vf_loss': 7.894425392150879, 'kl': 0.006450352258980274, 'entropy': -0.23356488347053528, 'cur_kl_coeff': 1.7555333375930786, 'cur_lr': 4.999999873689376e-05, 'total_loss': 7.864411354064941}, 'sample_time_ms': 47518.009, 'num_steps_trained': 1778400, 'num_steps_sampled': 1778400, 'update_time_ms': 2.748, 'grad_time_ms': 376.682, 'load_time_ms': 0.711}",282,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+58284.94479060173,155206,4.000708793314142,1200,cda-server-2,11565.405350208282,f93d3d6710754a149751678a58e67540,291,1757113117,339600,-28.798796717502178,2334309,{},10.157.146.2,False,{},2025-09-06_00-58-37,4.120274914089347,1779600,3.806150817211001,0,48.37676477432251,1483,"{'default': {'policy_loss': -0.04491018131375313, 'vf_explained_var': 0.6819338798522949, 'vf_loss': 5.703312873840332, 'kl': 0.006265752948820591, 'entropy': -0.3289697468280792, 'cur_kl_coeff': 1.7555333375930786, 'cur_lr': 4.999999873689376e-05, 'total_loss': 5.669403076171875}, 'sample_time_ms': 47571.11, 'num_steps_trained': 1779600, 'num_steps_sampled': 1779600, 'update_time_ms': 2.724, 'grad_time_ms': 375.742, 'load_time_ms': 0.704}",283,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+58332.6464009285,155487,4.001368605963987,1200,cda-server-2,11613.10696053505,f93d3d6710754a149751678a58e67540,281,1757113165,340800,-57.285618293037274,2334309,{},10.157.146.2,False,{},2025-09-06_00-59-25,4.234875444839858,1780800,3.6379479309515115,0,47.70161032676697,1484,"{'default': {'policy_loss': -0.058942947536706924, 'vf_explained_var': 0.6739255785942078, 'vf_loss': 12.751531600952148, 'kl': 0.006058859173208475, 'entropy': -0.020460639148950577, 'cur_kl_coeff': 1.7555333375930786, 'cur_lr': 4.999999873689376e-05, 'total_loss': 12.703225135803223}, 'sample_time_ms': 47553.048, 'num_steps_trained': 1780800, 'num_steps_sampled': 1780800, 'update_time_ms': 2.73, 'grad_time_ms': 375.955, 'load_time_ms': 0.704}",284,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+58380.20733451843,155781,5.367706481521429,1200,cda-server-2,11660.667894124985,f93d3d6710754a149751678a58e67540,294,1757113213,342000,-16.284271901127514,2334309,{},10.157.146.2,False,{},2025-09-06_01-00-13,4.125850340136054,1782000,3.809629903545442,0,47.5609335899353,1485,"{'default': {'policy_loss': -0.04852922260761261, 'vf_explained_var': 0.6941145062446594, 'vf_loss': 3.129826784133911, 'kl': 0.00752831669524312, 'entropy': -0.36092373728752136, 'cur_kl_coeff': 1.7555333375930786, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.0945136547088623}, 'sample_time_ms': 47527.539, 'num_steps_trained': 1782000, 'num_steps_sampled': 1782000, 'update_time_ms': 2.71, 'grad_time_ms': 374.589, 'load_time_ms': 0.712}",285,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+58428.67666769028,156069,4.00119531905306,1200,cda-server-2,11709.13722729683,f93d3d6710754a149751678a58e67540,288,1757113261,343200,-28.28002426914125,2334309,{},10.157.146.2,False,{},2025-09-06_01-01-01,4.163194444444445,1783200,3.748046627373943,0,48.46933317184448,1486,"{'default': {'policy_loss': -0.05011492967605591, 'vf_explained_var': 0.707838773727417, 'vf_loss': 5.04840612411499, 'kl': 0.0053384676575660706, 'entropy': -0.1878373622894287, 'cur_kl_coeff': 1.7555333375930786, 'cur_lr': 4.999999873689376e-05, 'total_loss': 5.007662296295166}, 'sample_time_ms': 47658.804, 'num_steps_trained': 1783200, 'num_steps_sampled': 1783200, 'update_time_ms': 2.633, 'grad_time_ms': 373.142, 'load_time_ms': 0.699}",286,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+58476.744891405106,156360,4.001643913915465,1200,cda-server-2,11757.205451011658,f93d3d6710754a149751678a58e67540,291,1757113309,344400,-22.86650198429976,2334309,{},10.157.146.2,False,{},2025-09-06_01-01-49,4.123711340206185,1784400,3.8114757521171767,0,48.06822371482849,1487,"{'default': {'policy_loss': -0.04189155995845795, 'vf_explained_var': 0.7460923194885254, 'vf_loss': 3.4060635566711426, 'kl': 0.006053046323359013, 'entropy': -0.3648853600025177, 'cur_kl_coeff': 1.7555333375930786, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.374798536300659}, 'sample_time_ms': 47742.671, 'num_steps_trained': 1784400, 'num_steps_sampled': 1784400, 'update_time_ms': 2.599, 'grad_time_ms': 371.47, 'load_time_ms': 0.694}",287,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+58524.62633395195,156655,4.000790435557155,1200,cda-server-2,11805.086893558502,f93d3d6710754a149751678a58e67540,295,1757113357,345600,-19.917506198944867,2334309,{},10.157.146.2,False,{},2025-09-06_01-02-37,4.074576271186441,1785600,3.8844985319038488,0,47.88144254684448,1488,"{'default': {'policy_loss': -0.044471725821495056, 'vf_explained_var': 0.8356528282165527, 'vf_loss': 1.7151730060577393, 'kl': 0.003841653000563383, 'entropy': -0.46060317754745483, 'cur_kl_coeff': 1.7555333375930786, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.677445411682129}, 'sample_time_ms': 47660.584, 'num_steps_trained': 1785600, 'num_steps_sampled': 1785600, 'update_time_ms': 2.599, 'grad_time_ms': 370.637, 'load_time_ms': 0.697}",288,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+58572.869487047195,156952,4.0014526511154855,1200,cda-server-2,11853.330046653748,f93d3d6710754a149751678a58e67540,297,1757113405,346800,-12.406612141170722,2334309,{},10.157.146.2,False,{},2025-09-06_01-03-25,4.037037037037037,1786800,3.945065276458107,0,48.24315309524536,1489,"{'default': {'policy_loss': -0.026395224034786224, 'vf_explained_var': 0.8768920302391052, 'vf_loss': 0.9853985905647278, 'kl': 0.005646197125315666, 'entropy': -0.5728966593742371, 'cur_kl_coeff': 0.8777666687965393, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.9639594554901123}, 'sample_time_ms': 47698.731, 'num_steps_trained': 1786800, 'num_steps_sampled': 1786800, 'update_time_ms': 2.58, 'grad_time_ms': 369.376, 'load_time_ms': 0.684}",289,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+58621.377677202225,157244,4.001076022736936,1200,cda-server-2,11901.838236808777,f93d3d6710754a149751678a58e67540,292,1757113454,348000,-9.789135141067955,2334309,{},10.157.146.2,False,{},2025-09-06_01-04-14,4.1061643835616435,1788000,3.8416093045819126,0,48.5081901550293,1490,"{'default': {'policy_loss': -0.05029052495956421, 'vf_explained_var': 0.770518958568573, 'vf_loss': 1.9061777591705322, 'kl': 0.008861835114657879, 'entropy': -0.3713545799255371, 'cur_kl_coeff': 0.8777666687965393, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.8636659383773804}, 'sample_time_ms': 47728.346, 'num_steps_trained': 1788000, 'num_steps_sampled': 1788000, 'update_time_ms': 2.552, 'grad_time_ms': 367.332, 'load_time_ms': 0.67}",290,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+58669.665350914,157538,4.0009934378829755,1200,cda-server-2,11950.125910520554,f93d3d6710754a149751678a58e67540,294,1757113502,349200,-14.66826948609232,2334309,{},10.157.146.2,False,{},2025-09-06_01-05-02,4.08843537414966,1789200,3.861611962287703,0,48.28767371177673,1491,"{'default': {'policy_loss': -0.04508044198155403, 'vf_explained_var': 0.8156061768531799, 'vf_loss': 1.4944891929626465, 'kl': 0.010516542941331863, 'entropy': -0.3793157637119293, 'cur_kl_coeff': 0.8777666687965393, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.4586397409439087}, 'sample_time_ms': 47746.615, 'num_steps_trained': 1789200, 'num_steps_sampled': 1789200, 'update_time_ms': 2.493, 'grad_time_ms': 364.591, 'load_time_ms': 0.657}",291,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+58717.83570408821,157833,4.000815992712743,1200,cda-server-2,11998.296263694763,f93d3d6710754a149751678a58e67540,295,1757113551,350400,-7.01038379525713,2334309,{},10.157.146.2,False,{},2025-09-06_01-05-51,4.064406779661017,1790400,3.906324215051625,0,48.170353174209595,1492,"{'default': {'policy_loss': -0.04259985685348511, 'vf_explained_var': 0.8635613918304443, 'vf_loss': 0.9292199015617371, 'kl': 0.01104187685996294, 'entropy': -0.599554717540741, 'cur_kl_coeff': 0.8777666687965393, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.8963122963905334}, 'sample_time_ms': 47751.525, 'num_steps_trained': 1790400, 'num_steps_sampled': 1790400, 'update_time_ms': 2.463, 'grad_time_ms': 365.898, 'load_time_ms': 0.662}",292,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+58766.2333316803,158131,4.000998079452581,1200,cda-server-2,12046.69389128685,f93d3d6710754a149751678a58e67540,298,1757113599,351600,-5.265045842193349,2334309,{},10.157.146.2,False,{},2025-09-06_01-06-39,4.033557046979865,1791600,3.948982706917939,0,48.39762759208679,1493,"{'default': {'policy_loss': -0.02772686816751957, 'vf_explained_var': 0.9153040647506714, 'vf_loss': 0.5251808166503906, 'kl': 0.005200868472456932, 'entropy': -0.5814220905303955, 'cur_kl_coeff': 0.8777666687965393, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.5020191073417664}, 'sample_time_ms': 47751.522, 'num_steps_trained': 1791600, 'num_steps_sampled': 1791600, 'update_time_ms': 2.469, 'grad_time_ms': 367.895, 'load_time_ms': 0.676}",293,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+58814.80510902405,158430,4.001867468674007,1200,cda-server-2,12095.2656686306,f93d3d6710754a149751678a58e67540,299,1757113648,352800,-6.039949817073591,2334309,{},10.157.146.2,False,{},2025-09-06_01-07-28,4.0200668896321075,1792800,3.9667169195325696,0,48.57177734375,1494,"{'default': {'policy_loss': -0.023479994386434555, 'vf_explained_var': 0.9427204132080078, 'vf_loss': 0.36853715777397156, 'kl': 0.0073012132197618484, 'entropy': -0.6302478313446045, 'cur_kl_coeff': 0.8777666687965393, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.3514659106731415}, 'sample_time_ms': 47836.9, 'num_steps_trained': 1792800, 'num_steps_sampled': 1792800, 'update_time_ms': 2.435, 'grad_time_ms': 369.555, 'load_time_ms': 0.679}",294,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+58862.941940546036,158723,4.001000613333241,1200,cda-server-2,12143.402500152588,f93d3d6710754a149751678a58e67540,293,1757113696,354000,-22.32744859043227,2334309,{},10.157.146.2,False,{},2025-09-06_01-08-16,4.0580204778157,1794000,3.9104528865461017,0,48.136831521987915,1495,"{'default': {'policy_loss': -0.04434238001704216, 'vf_explained_var': 0.7857950925827026, 'vf_loss': 2.733830451965332, 'kl': 0.005275258794426918, 'entropy': -0.4426293671131134, 'cur_kl_coeff': 0.8777666687965393, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.6941184997558594}, 'sample_time_ms': 47892.986, 'num_steps_trained': 1794000, 'num_steps_sampled': 1794000, 'update_time_ms': 2.453, 'grad_time_ms': 371.012, 'load_time_ms': 0.681}",295,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+58911.793342113495,159015,4.000678445948381,1200,cda-server-2,12192.253901720047,f93d3d6710754a149751678a58e67540,292,1757113745,355200,-22.597877487235195,2334309,{},10.157.146.2,False,{},2025-09-06_01-09-05,4.147260273972603,1795200,3.777543533617272,0,48.851401567459106,1496,"{'default': {'policy_loss': -0.04191547632217407, 'vf_explained_var': 0.771361231803894, 'vf_loss': 2.2551934719085693, 'kl': 0.006914498284459114, 'entropy': -0.32842591404914856, 'cur_kl_coeff': 0.8777666687965393, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.2193472385406494}, 'sample_time_ms': 47930.293, 'num_steps_trained': 1795200, 'num_steps_sampled': 1795200, 'update_time_ms': 2.543, 'grad_time_ms': 371.902, 'load_time_ms': 0.69}",296,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+58959.55150651932,159310,4.001304998829311,1200,cda-server-2,12240.01206612587,f93d3d6710754a149751678a58e67540,295,1757113792,356400,-11.663521000781312,2334309,{},10.157.146.2,False,{},2025-09-06_01-09-52,4.057627118644068,1796400,3.9102500973877072,0,47.758164405822754,1497,"{'default': {'policy_loss': -0.003740181913599372, 'vf_explained_var': 0.8134986162185669, 'vf_loss': 1.4699842929840088, 'kl': 0.3317788541316986, 'entropy': -0.16373310983181, 'cur_kl_coeff': 0.8777666687965393, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.7574684619903564}, 'sample_time_ms': 47899.596, 'num_steps_trained': 1796400, 'num_steps_sampled': 1796400, 'update_time_ms': 2.546, 'grad_time_ms': 371.551, 'load_time_ms': 0.708}",297,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+59007.01270389557,159531,4.000728452663906,1200,cda-server-2,12287.473263502121,f93d3d6710754a149751678a58e67540,221,1757113840,357600,-55.980025071938684,2334309,{},10.157.146.2,False,{},2025-09-06_01-10-40,5.375565610859729,1797600,1.871155706541936,0,47.46119737625122,1498,"{'default': {'policy_loss': -0.09376594424247742, 'vf_explained_var': 0.33703216910362244, 'vf_loss': 58.87983703613281, 'kl': 0.013154406100511551, 'entropy': 2.0745558738708496, 'cur_kl_coeff': 1.3166500329971313, 'cur_lr': 4.999999873689376e-05, 'total_loss': 58.80338668823242}, 'sample_time_ms': 47856.99, 'num_steps_trained': 1797600, 'num_steps_sampled': 1797600, 'update_time_ms': 2.522, 'grad_time_ms': 372.14, 'load_time_ms': 0.707}",298,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+59053.597039461136,159725,4.000764131823454,1200,cda-server-2,12334.057599067688,f93d3d6710754a149751678a58e67540,194,1757113886,358800,-53.10469093175571,2334309,{},10.157.146.2,False,{},2025-09-06_01-11-26,6.164948453608248,1798800,0.6014691050551694,0,46.58433556556702,1499,"{'default': {'policy_loss': -0.11169237643480301, 'vf_explained_var': 0.3129764497280121, 'vf_loss': 89.26313781738281, 'kl': 0.014232312329113483, 'entropy': 2.928476095199585, 'cur_kl_coeff': 1.3166500329971313, 'cur_lr': 4.999999873689376e-05, 'total_loss': 89.17018127441406}, 'sample_time_ms': 47690.776, 'num_steps_trained': 1798800, 'num_steps_sampled': 1798800, 'update_time_ms': 2.555, 'grad_time_ms': 372.518, 'load_time_ms': 0.723}",299,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+59100.16196537018,159952,4.000949799622862,1200,cda-server-2,12380.62252497673,f93d3d6710754a149751678a58e67540,227,1757113933,360000,-48.21001918361358,2334309,{},10.157.146.2,False,{},2025-09-06_01-12-13,5.356828193832599,1800000,1.8747479981393018,0,46.56492590904236,1500,"{'default': {'policy_loss': -0.09851852059364319, 'vf_explained_var': 0.3462923765182495, 'vf_loss': 38.56806945800781, 'kl': 0.013793195597827435, 'entropy': 1.9399638175964355, 'cur_kl_coeff': 1.3166500329971313, 'cur_lr': 4.999999873689376e-05, 'total_loss': 38.48771286010742}, 'sample_time_ms': 47496.647, 'num_steps_trained': 1800000, 'num_steps_sampled': 1800000, 'update_time_ms': 2.541, 'grad_time_ms': 372.379, 'load_time_ms': 0.719}",300,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+59147.73744058609,160196,4.000778665793747,1200,cda-server-2,12428.198000192642,f93d3d6710754a149751678a58e67540,244,1757113981,361200,-25.501692447140435,2334309,{},10.157.146.2,False,{},2025-09-06_01-13-01,4.913934426229508,1801200,2.560729216065653,0,47.575475215911865,1501,"{'default': {'policy_loss': -0.09744135290384293, 'vf_explained_var': 0.3519737124443054, 'vf_loss': 24.677688598632812, 'kl': 0.013975206762552261, 'entropy': 1.3364484310150146, 'cur_kl_coeff': 1.3166500329971313, 'cur_lr': 4.999999873689376e-05, 'total_loss': 24.598648071289062}, 'sample_time_ms': 47424.568, 'num_steps_trained': 1801200, 'num_steps_sampled': 1801200, 'update_time_ms': 2.546, 'grad_time_ms': 373.288, 'load_time_ms': 0.723}",301,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+59194.68602156639,160454,4.000583082499429,1200,cda-server-2,12475.146581172943,f93d3d6710754a149751678a58e67540,258,1757114028,362400,-26.682987309756285,2334309,{},10.157.146.2,False,{},2025-09-06_01-13-48,4.627906976744186,1802400,3.0361572528285246,0,46.9485809803009,1502,"{'default': {'policy_loss': -0.08916544914245605, 'vf_explained_var': 0.39876753091812134, 'vf_loss': 16.90936279296875, 'kl': 0.011892399750649929, 'entropy': 0.8275970816612244, 'cur_kl_coeff': 1.3166500329971313, 'cur_lr': 4.999999873689376e-05, 'total_loss': 16.835859298706055}, 'sample_time_ms': 47300.706, 'num_steps_trained': 1802400, 'num_steps_sampled': 1802400, 'update_time_ms': 2.549, 'grad_time_ms': 374.981, 'load_time_ms': 0.734}",302,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+59241.64568400383,160727,4.001764594501488,1200,cda-server-2,12522.106243610382,f93d3d6710754a149751678a58e67540,273,1757114075,363600,-30.370285337530923,2334309,{},10.157.146.2,False,{},2025-09-06_01-14-35,4.428571428571429,1803600,3.3490744332617504,0,46.959662437438965,1503,"{'default': {'policy_loss': -0.07449661940336227, 'vf_explained_var': 0.4444769322872162, 'vf_loss': 11.645471572875977, 'kl': 0.011041684076189995, 'entropy': 0.630662739276886, 'cur_kl_coeff': 1.3166500329971313, 'cur_lr': 4.999999873689376e-05, 'total_loss': 11.585514068603516}, 'sample_time_ms': 47159.087, 'num_steps_trained': 1803600, 'num_steps_sampled': 1803600, 'update_time_ms': 2.565, 'grad_time_ms': 372.905, 'load_time_ms': 0.721}",303,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+59289.230872154236,160993,4.00102827383923,1200,cda-server-2,12569.691431760788,f93d3d6710754a149751678a58e67540,266,1757114122,364800,-24.69571202961847,2334309,{},10.157.146.2,False,{},2025-09-06_01-15-22,4.5,1804800,3.2269070950003065,0,47.585188150405884,1504,"{'default': {'policy_loss': -0.07779279351234436, 'vf_explained_var': 0.44549649953842163, 'vf_loss': 14.852118492126465, 'kl': 0.0121267419308424, 'entropy': 0.6415335536003113, 'cur_kl_coeff': 1.3166500329971313, 'cur_lr': 4.999999873689376e-05, 'total_loss': 14.790291786193848}, 'sample_time_ms': 47060.496, 'num_steps_trained': 1804800, 'num_steps_sampled': 1804800, 'update_time_ms': 2.564, 'grad_time_ms': 372.848, 'load_time_ms': 0.726}",304,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+59336.25036692619,161258,4.00141727757979,1200,cda-server-2,12616.710926532745,f93d3d6710754a149751678a58e67540,265,1757114169,366000,-28.991770737252075,2334309,{},10.157.146.2,False,{},2025-09-06_01-16-09,4.524528301886792,1806000,3.2008878210274987,0,47.0194947719574,1505,"{'default': {'policy_loss': -0.06479748338460922, 'vf_explained_var': 0.3996574580669403, 'vf_loss': 14.625187873840332, 'kl': 0.014941738918423653, 'entropy': 0.6989641189575195, 'cur_kl_coeff': 1.3166500329971313, 'cur_lr': 4.999999873689376e-05, 'total_loss': 14.58006477355957}, 'sample_time_ms': 46948.001, 'num_steps_trained': 1806000, 'num_steps_sampled': 1806000, 'update_time_ms': 2.556, 'grad_time_ms': 373.568, 'load_time_ms': 0.729}",305,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+59384.67246007919,161529,4.001055840304391,1200,cda-server-2,12665.133019685745,f93d3d6710754a149751678a58e67540,271,1757114218,367200,-46.05233869524683,2334309,{},10.157.146.2,False,{},2025-09-06_01-16-58,4.376383763837638,1807200,3.4094130543229855,0,48.42209315299988,1506,"{'default': {'policy_loss': -0.06131730601191521, 'vf_explained_var': 0.4676443636417389, 'vf_loss': 21.846031188964844, 'kl': 0.011663817800581455, 'entropy': 0.583541214466095, 'cur_kl_coeff': 1.3166500329971313, 'cur_lr': 4.999999873689376e-05, 'total_loss': 21.800071716308594}, 'sample_time_ms': 46904.623, 'num_steps_trained': 1807200, 'num_steps_sampled': 1807200, 'update_time_ms': 2.521, 'grad_time_ms': 373.998, 'load_time_ms': 0.724}",306,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+59432.48495531082,161808,4.0008267800617965,1200,cda-server-2,12712.945514917374,f93d3d6710754a149751678a58e67540,279,1757114265,368400,-21.658995933160398,2334309,{},10.157.146.2,False,{},2025-09-06_01-17-45,4.344086021505376,1808400,3.4501238459807455,0,47.81249523162842,1507,"{'default': {'policy_loss': -0.06769391894340515, 'vf_explained_var': 0.5333499908447266, 'vf_loss': 8.946720123291016, 'kl': 0.013539325445890427, 'entropy': 0.2346441000699997, 'cur_kl_coeff': 1.3166500329971313, 'cur_lr': 4.999999873689376e-05, 'total_loss': 8.89685344696045}, 'sample_time_ms': 46907.179, 'num_steps_trained': 1808400, 'num_steps_sampled': 1808400, 'update_time_ms': 2.647, 'grad_time_ms': 376.763, 'load_time_ms': 0.708}",307,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+59479.93936753273,162063,4.000717071894899,1200,cda-server-2,12760.399927139282,f93d3d6710754a149751678a58e67540,255,1757114313,369600,-78.87036780744987,2334309,{},10.157.146.2,False,{},2025-09-06_01-18-33,4.705882352941177,1809600,2.854436917341585,0,47.45441222190857,1508,"{'default': {'policy_loss': -0.08257393538951874, 'vf_explained_var': 0.3842485249042511, 'vf_loss': 70.81873321533203, 'kl': 0.011880909092724323, 'entropy': 0.9974844455718994, 'cur_kl_coeff': 1.3166500329971313, 'cur_lr': 4.999999873689376e-05, 'total_loss': 70.75180053710938}, 'sample_time_ms': 46907.408, 'num_steps_trained': 1809600, 'num_steps_sampled': 1809600, 'update_time_ms': 2.659, 'grad_time_ms': 375.869, 'load_time_ms': 0.713}",308,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+59528.375452041626,162328,4.015056110222501,1200,cda-server-2,12808.836011648178,f93d3d6710754a149751678a58e67540,265,1757114361,370800,-31.51150892303398,2334309,{},10.157.146.2,False,{},2025-09-06_01-19-21,4.483018867924528,1810800,3.235377064964361,0,48.436084508895874,1509,"{'default': {'policy_loss': -0.07198601216077805, 'vf_explained_var': 0.4401721954345703, 'vf_loss': 22.097572326660156, 'kl': 0.018294962123036385, 'entropy': 0.6768236756324768, 'cur_kl_coeff': 1.3166500329971313, 'cur_lr': 4.999999873689376e-05, 'total_loss': 22.04967498779297}, 'sample_time_ms': 47094.679, 'num_steps_trained': 1810800, 'num_steps_sampled': 1810800, 'update_time_ms': 2.617, 'grad_time_ms': 373.838, 'load_time_ms': 0.703}",309,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+59576.10998940468,162605,4.0012943221338935,1200,cda-server-2,12856.57054901123,f93d3d6710754a149751678a58e67540,277,1757114409,372000,-40.35383252031372,2334309,{},10.157.146.2,False,{},2025-09-06_01-20-09,4.379061371841155,1812000,3.404861507399404,0,47.73453736305237,1510,"{'default': {'policy_loss': -0.06373218446969986, 'vf_explained_var': 0.48737239837646484, 'vf_loss': 12.661006927490234, 'kl': 0.014368295669555664, 'entropy': 0.30851107835769653, 'cur_kl_coeff': 1.3166500329971313, 'cur_lr': 4.999999873689376e-05, 'total_loss': 12.616194725036621}, 'sample_time_ms': 47211.433, 'num_steps_trained': 1812000, 'num_steps_sampled': 1812000, 'update_time_ms': 2.614, 'grad_time_ms': 374.014, 'load_time_ms': 0.705}",310,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+59624.19780278206,162886,4.000842825254873,1200,cda-server-2,12904.65836238861,f93d3d6710754a149751678a58e67540,281,1757114457,373200,-32.40313169084975,2334309,{},10.157.146.2,False,{},2025-09-06_01-20-57,4.284697508896797,1813200,3.544713196492036,0,48.08781337738037,1511,"{'default': {'policy_loss': -0.05954990163445473, 'vf_explained_var': 0.48540958762168884, 'vf_loss': 10.075149536132812, 'kl': 0.010212092660367489, 'entropy': 0.17685246467590332, 'cur_kl_coeff': 1.3166500329971313, 'cur_lr': 4.999999873689376e-05, 'total_loss': 10.029046058654785}, 'sample_time_ms': 47260.838, 'num_steps_trained': 1813200, 'num_steps_sampled': 1813200, 'update_time_ms': 2.614, 'grad_time_ms': 375.76, 'load_time_ms': 0.706}",311,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+59672.60136318207,163179,4.000772057632048,1200,cda-server-2,12953.06192278862,f93d3d6710754a149751678a58e67540,293,1757114506,374400,-11.701530299821794,2334309,{},10.157.146.2,False,{},2025-09-06_01-21-46,4.085324232081911,1814400,3.8656072120031095,0,48.403560400009155,1512,"{'default': {'policy_loss': -0.03298377990722656, 'vf_explained_var': 0.8343234658241272, 'vf_loss': 1.7076212167739868, 'kl': 0.00763015216216445, 'entropy': -0.12544851005077362, 'cur_kl_coeff': 1.3166500329971313, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.684683918952942}, 'sample_time_ms': 47408.919, 'num_steps_trained': 1814400, 'num_steps_sampled': 1814400, 'update_time_ms': 2.606, 'grad_time_ms': 373.206, 'load_time_ms': 0.696}",312,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+59720.343497514725,163465,4.001984373238715,1200,cda-server-2,13000.804057121277,f93d3d6710754a149751678a58e67540,286,1757114553,375600,-29.252466011198685,2334309,{},10.157.146.2,False,{},2025-09-06_01-22-33,4.195804195804196,1815600,3.689779350228633,0,47.74213433265686,1513,"{'default': {'policy_loss': -0.04376009851694107, 'vf_explained_var': 0.6053779721260071, 'vf_loss': 6.528614521026611, 'kl': 0.02016488090157509, 'entropy': 0.0535711795091629, 'cur_kl_coeff': 1.3166500329971313, 'cur_lr': 4.999999873689376e-05, 'total_loss': 6.511404037475586}, 'sample_time_ms': 47484.442, 'num_steps_trained': 1815600, 'num_steps_sampled': 1815600, 'update_time_ms': 2.586, 'grad_time_ms': 375.921, 'load_time_ms': 0.698}",313,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+59768.05824828148,163748,4.001357872005449,1200,cda-server-2,13048.518807888031,f93d3d6710754a149751678a58e67540,283,1757114601,376800,-36.8860383058001,2334309,{},10.157.146.2,False,{},2025-09-06_01-23-21,4.23321554770318,1816800,3.630005747744529,0,47.71475076675415,1514,"{'default': {'policy_loss': -0.045240674167871475, 'vf_explained_var': 0.48487526178359985, 'vf_loss': 13.80620002746582, 'kl': 0.01073955837637186, 'entropy': 0.16992908716201782, 'cur_kl_coeff': 1.9749751091003418, 'cur_lr': 4.999999873689376e-05, 'total_loss': 13.782169342041016}, 'sample_time_ms': 47498.104, 'num_steps_trained': 1816800, 'num_steps_sampled': 1816800, 'update_time_ms': 2.604, 'grad_time_ms': 375.184, 'load_time_ms': 0.699}",314,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+59816.271889686584,164039,4.001760470594183,1200,cda-server-2,13096.732449293137,f93d3d6710754a149751678a58e67540,291,1757114649,378000,-30.56025177356723,2334309,{},10.157.146.2,False,{},2025-09-06_01-24-09,4.144329896907217,1818000,3.7639598239601404,0,48.21364140510559,1515,"{'default': {'policy_loss': -0.04563400521874428, 'vf_explained_var': 0.7513577938079834, 'vf_loss': 4.229957580566406, 'kl': 0.00882693100720644, 'entropy': -0.10671308636665344, 'cur_kl_coeff': 1.9749751091003418, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4.201756954193115}, 'sample_time_ms': 47620.021, 'num_steps_trained': 1818000, 'num_steps_sampled': 1818000, 'update_time_ms': 2.606, 'grad_time_ms': 372.782, 'load_time_ms': 0.701}",315,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+59863.63851523399,164328,4.000742479545415,1200,cda-server-2,13144.099074840546,f93d3d6710754a149751678a58e67540,289,1757114697,379200,-9.110828253943499,2334309,{},10.157.146.2,False,{},2025-09-06_01-24-57,4.114186851211072,1819200,3.8246768251148837,0,47.36662554740906,1516,"{'default': {'policy_loss': -0.055308930575847626, 'vf_explained_var': 0.677905797958374, 'vf_loss': 3.313758134841919, 'kl': 0.007593868300318718, 'entropy': -0.08379629999399185, 'cur_kl_coeff': 1.9749751091003418, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.273447036743164}, 'sample_time_ms': 47513.528, 'num_steps_trained': 1819200, 'num_steps_sampled': 1819200, 'update_time_ms': 2.589, 'grad_time_ms': 373.82, 'load_time_ms': 0.7}",316,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+59911.22490859032,164592,4.000728616935037,1200,cda-server-2,13191.685468196869,f93d3d6710754a149751678a58e67540,264,1757114744,380400,-53.22646202055659,2334309,{},10.157.146.2,False,{},2025-09-06_01-25-44,4.575757575757576,1820400,3.1001218730282747,0,47.58639335632324,1517,"{'default': {'policy_loss': -0.0655883401632309, 'vf_explained_var': 0.5234088897705078, 'vf_loss': 30.97972869873047, 'kl': 0.01305424701422453, 'entropy': 0.7475805282592773, 'cur_kl_coeff': 1.9749751091003418, 'cur_lr': 4.999999873689376e-05, 'total_loss': 30.939924240112305}, 'sample_time_ms': 47493.557, 'num_steps_trained': 1820400, 'num_steps_sampled': 1820400, 'update_time_ms': 2.468, 'grad_time_ms': 371.278, 'load_time_ms': 0.7}",317,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+59959.74148964882,164877,4.00103685671142,1200,cda-server-2,13240.202049255371,f93d3d6710754a149751678a58e67540,285,1757114793,381600,-30.01479307654413,2334309,{},10.157.146.2,False,{},2025-09-06_01-26-33,4.217543859649123,1821600,3.6729982984379825,0,48.5165810585022,1518,"{'default': {'policy_loss': -0.05687619745731354, 'vf_explained_var': 0.5667855739593506, 'vf_loss': 8.271907806396484, 'kl': 0.01578349620103836, 'entropy': 0.03695860132575035, 'cur_kl_coeff': 1.9749751091003418, 'cur_lr': 4.999999873689376e-05, 'total_loss': 8.246204376220703}, 'sample_time_ms': 47600.904, 'num_steps_trained': 1821600, 'num_steps_sampled': 1821600, 'update_time_ms': 2.507, 'grad_time_ms': 370.117, 'load_time_ms': 0.694}",318,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+60009.22535085678,165164,4.001202798159656,1200,cda-server-2,13289.685910463333,f93d3d6710754a149751678a58e67540,287,1757114842,382800,-10.869180837432303,2334309,{},10.157.146.2,False,{},2025-09-06_01-27-22,4.170731707317073,1822800,3.7447750581111467,0,49.483861207962036,1519,"{'default': {'policy_loss': -0.05754450336098671, 'vf_explained_var': 0.6119304299354553, 'vf_loss': 3.818575859069824, 'kl': 0.010714907199144363, 'entropy': 0.008151140064001083, 'cur_kl_coeff': 1.9749751091003418, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.782193183898926}, 'sample_time_ms': 47702.517, 'num_steps_trained': 1822800, 'num_steps_sampled': 1822800, 'update_time_ms': 2.545, 'grad_time_ms': 373.225, 'load_time_ms': 0.688}",319,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+60057.66337418556,165435,4.001882607488392,1200,cda-server-2,13338.123933792114,f93d3d6710754a149751678a58e67540,271,1757114891,384000,-56.38540806974535,2334309,{},10.157.146.2,False,{},2025-09-06_01-28-11,4.402214022140221,1824000,3.3578788611115185,0,48.43802332878113,1520,"{'default': {'policy_loss': -0.06284276396036148, 'vf_explained_var': 0.5340296626091003, 'vf_loss': 26.529190063476562, 'kl': 0.008976122364401817, 'entropy': 0.509959876537323, 'cur_kl_coeff': 1.9749751091003418, 'cur_lr': 4.999999873689376e-05, 'total_loss': 26.484073638916016}, 'sample_time_ms': 47771.105, 'num_steps_trained': 1824000, 'num_steps_sampled': 1824000, 'update_time_ms': 2.531, 'grad_time_ms': 374.982, 'load_time_ms': 0.686}",320,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+60106.18532896042,165727,4.0012331772295715,1200,cda-server-2,13386.64588856697,f93d3d6710754a149751678a58e67540,292,1757114939,385200,-36.00416938140073,2334309,{},10.157.146.2,False,{},2025-09-06_01-28-59,4.126712328767123,1825200,3.7950194628546177,0,48.52195477485657,1521,"{'default': {'policy_loss': -0.041751567274332047, 'vf_explained_var': 0.6853739023208618, 'vf_loss': 3.921968698501587, 'kl': 0.00643562339246273, 'entropy': -0.21788091957569122, 'cur_kl_coeff': 1.9749751091003418, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.892927408218384}, 'sample_time_ms': 47815.161, 'num_steps_trained': 1825200, 'num_steps_sampled': 1825200, 'update_time_ms': 2.587, 'grad_time_ms': 374.304, 'load_time_ms': 0.677}",321,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+60155.90983200073,166006,4.002067616762318,1200,cda-server-2,13436.370391607285,f93d3d6710754a149751678a58e67540,279,1757114989,386400,-27.794070280218328,2334309,{},10.157.146.2,False,{},2025-09-06_01-29-49,4.304659498207886,1826400,3.5207268767658704,0,49.72450304031372,1522,"{'default': {'policy_loss': -0.06056283041834831, 'vf_explained_var': 0.4822160303592682, 'vf_loss': 10.310189247131348, 'kl': 0.018910765647888184, 'entropy': 0.2313241958618164, 'cur_kl_coeff': 1.9749751091003418, 'cur_lr': 4.999999873689376e-05, 'total_loss': 10.286975860595703}, 'sample_time_ms': 47946.739, 'num_steps_trained': 1826400, 'num_steps_sampled': 1826400, 'update_time_ms': 2.616, 'grad_time_ms': 374.804, 'load_time_ms': 0.681}",322,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+60204.89733529091,166290,4.001634394263301,1200,cda-server-2,13485.357894897461,f93d3d6710754a149751678a58e67540,284,1757115038,387600,-43.8007040205888,2334309,{},10.157.146.2,False,{},2025-09-06_01-30-38,4.221830985915493,1827600,3.663279344983552,0,48.98750329017639,1523,"{'default': {'policy_loss': -0.05093903839588165, 'vf_explained_var': 0.5069230198860168, 'vf_loss': 14.501490592956543, 'kl': 0.01069662906229496, 'entropy': 0.1738455593585968, 'cur_kl_coeff': 1.9749751091003418, 'cur_lr': 4.999999873689376e-05, 'total_loss': 14.471675872802734}, 'sample_time_ms': 48071.307, 'num_steps_trained': 1827600, 'num_steps_sampled': 1827600, 'update_time_ms': 2.652, 'grad_time_ms': 374.733, 'load_time_ms': 0.677}",323,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+60253.522325992584,166589,4.0009284742818965,1200,cda-server-2,13533.982885599136,f93d3d6710754a149751678a58e67540,299,1757115087,388800,-7.121376302886748,2334309,{},10.157.146.2,False,{},2025-09-06_01-31-27,4.030100334448161,1828800,3.9562664541023222,0,48.624990701675415,1524,"{'default': {'policy_loss': -0.03363453224301338, 'vf_explained_var': 0.8769111037254333, 'vf_loss': 0.758023738861084, 'kl': 0.0039221784099936485, 'entropy': -0.3203218877315521, 'cur_kl_coeff': 1.9749751091003418, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.7321354746818542}, 'sample_time_ms': 48160.808, 'num_steps_trained': 1828800, 'num_steps_sampled': 1828800, 'update_time_ms': 2.678, 'grad_time_ms': 376.194, 'load_time_ms': 0.671}",324,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+60302.51111245155,166871,4.000855517268461,1200,cda-server-2,13582.971672058105,f93d3d6710754a149751678a58e67540,282,1757115136,390000,-42.82150254050917,2334309,{},10.157.146.2,False,{},2025-09-06_01-32-16,4.24822695035461,1830000,3.6121609572311772,0,48.988786458969116,1525,"{'default': {'policy_loss': -0.06426400691270828, 'vf_explained_var': 0.5239365696907043, 'vf_loss': 20.93948745727539, 'kl': 0.01253775879740715, 'entropy': 0.09878481924533844, 'cur_kl_coeff': 0.9874875545501709, 'cur_lr': 4.999999873689376e-05, 'total_loss': 20.887603759765625}, 'sample_time_ms': 48235.13, 'num_steps_trained': 1830000, 'num_steps_sampled': 1830000, 'update_time_ms': 2.713, 'grad_time_ms': 379.308, 'load_time_ms': 0.67}",325,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+60351.58665943146,167167,4.001023128754123,1200,cda-server-2,13632.04721903801,f93d3d6710754a149751678a58e67540,296,1757115185,391200,-21.763370033763415,2334309,{},10.157.146.2,False,{},2025-09-06_01-33-05,4.054054054054054,1831200,3.9132386968911512,0,49.075546979904175,1526,"{'default': {'policy_loss': -0.03584188222885132, 'vf_explained_var': 0.7807424664497375, 'vf_loss': 2.479220390319824, 'kl': 0.010772262699902058, 'entropy': -0.3271726965904236, 'cur_kl_coeff': 0.9874875545501709, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.4540159702301025}, 'sample_time_ms': 48405.653, 'num_steps_trained': 1831200, 'num_steps_sampled': 1831200, 'update_time_ms': 2.734, 'grad_time_ms': 379.55, 'load_time_ms': 0.679}",326,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+60398.79113984108,167464,4.001403577877026,1200,cda-server-2,13679.251699447632,f93d3d6710754a149751678a58e67540,297,1757115232,392400,-8.370698865566201,2334309,{},10.157.146.2,False,{},2025-09-06_01-33-52,4.043771043771044,1832400,3.9382511566929437,0,47.20448040962219,1527,"{'default': {'policy_loss': -0.05272763967514038, 'vf_explained_var': 0.919946551322937, 'vf_loss': 0.5126574039459229, 'kl': 0.016703465953469276, 'entropy': -0.32685667276382446, 'cur_kl_coeff': 0.9874875545501709, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.47642427682876587}, 'sample_time_ms': 48367.691, 'num_steps_trained': 1832400, 'num_steps_sampled': 1832400, 'update_time_ms': 2.75, 'grad_time_ms': 379.264, 'load_time_ms': 0.683}",327,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+60445.89869236946,167760,4.000758856695831,1200,cda-server-2,13726.359251976013,f93d3d6710754a149751678a58e67540,296,1757115279,393600,-10.689753585201874,2334309,{},10.157.146.2,False,{},2025-09-06_01-34-39,4.050675675675675,1833600,3.9231541677433754,0,47.10755252838135,1528,"{'default': {'policy_loss': -0.025737157091498375, 'vf_explained_var': 0.8255138397216797, 'vf_loss': 1.2818045616149902, 'kl': 0.016134122386574745, 'entropy': -0.3056424856185913, 'cur_kl_coeff': 0.9874875545501709, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.2719995975494385}, 'sample_time_ms': 48224.275, 'num_steps_trained': 1833600, 'num_steps_sampled': 1833600, 'update_time_ms': 2.687, 'grad_time_ms': 381.758, 'load_time_ms': 0.696}",328,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+60493.43556690216,168032,6.000064999551851,1200,cda-server-2,13773.896126508713,f93d3d6710754a149751678a58e67540,272,1757115327,394800,-69.32230240695019,2334309,{},10.157.146.2,False,{},2025-09-06_01-35-27,4.415441176470588,1834800,3.340878915403633,0,47.536874532699585,1529,"{'default': {'policy_loss': -0.0730314552783966, 'vf_explained_var': 0.6176114678382874, 'vf_loss': 34.5954704284668, 'kl': 0.012360308319330215, 'entropy': 0.5921303033828735, 'cur_kl_coeff': 0.9874875545501709, 'cur_lr': 4.999999873689376e-05, 'total_loss': 34.534645080566406}, 'sample_time_ms': 48032.75, 'num_steps_trained': 1834800, 'num_steps_sampled': 1834800, 'update_time_ms': 2.698, 'grad_time_ms': 378.578, 'load_time_ms': 0.695}",329,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+60541.987795591354,168329,4.0010817004903885,1200,cda-server-2,13822.448355197906,f93d3d6710754a149751678a58e67540,297,1757115375,396000,-14.996597848604104,2334309,{},10.157.146.2,False,{},2025-09-06_01-36-15,4.043771043771044,1836000,3.936342474267078,0,48.552228689193726,1530,"{'default': {'policy_loss': -0.03563127666711807, 'vf_explained_var': 0.7729938626289368, 'vf_loss': 2.030306816101074, 'kl': 0.017378458753228188, 'entropy': -0.2849942445755005, 'cur_kl_coeff': 0.9874875545501709, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.011836290359497}, 'sample_time_ms': 48045.021, 'num_steps_trained': 1836000, 'num_steps_sampled': 1836000, 'update_time_ms': 2.741, 'grad_time_ms': 377.642, 'load_time_ms': 0.695}",330,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+60589.78089141846,168620,4.000808065754229,1200,cda-server-2,13870.24145102501,f93d3d6710754a149751678a58e67540,291,1757115423,397200,-24.555388496050398,2334309,{},10.157.146.2,False,{},2025-09-06_01-37-03,4.11340206185567,1837200,3.828006084114088,0,47.79309582710266,1531,"{'default': {'policy_loss': -0.034112609922885895, 'vf_explained_var': 0.6318035125732422, 'vf_loss': 4.769287109375, 'kl': 0.027292070910334587, 'entropy': -0.2294749915599823, 'cur_kl_coeff': 0.9874875545501709, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4.762125015258789}, 'sample_time_ms': 47971.021, 'num_steps_trained': 1837200, 'num_steps_sampled': 1837200, 'update_time_ms': 2.726, 'grad_time_ms': 378.733, 'load_time_ms': 0.695}",331,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+60637.52029252052,168918,4.000857747768995,1200,cda-server-2,13917.980852127075,f93d3d6710754a149751678a58e67540,298,1757115471,398400,-10.397763608614838,2334309,{},10.157.146.2,False,{},2025-09-06_01-37-51,4.030201342281879,1838400,3.951979918355947,0,47.73940110206604,1532,"{'default': {'policy_loss': -0.031466856598854065, 'vf_explained_var': 0.8476714491844177, 'vf_loss': 1.0546166896820068, 'kl': 0.007254006341099739, 'entropy': -0.3629589378833771, 'cur_kl_coeff': 1.4812313318252563, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.033894658088684}, 'sample_time_ms': 47774.136, 'num_steps_trained': 1838400, 'num_steps_sampled': 1838400, 'update_time_ms': 2.741, 'grad_time_ms': 377.013, 'load_time_ms': 0.689}",332,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+60685.106957912445,169210,4.001626164318551,1200,cda-server-2,13965.567517518997,f93d3d6710754a149751678a58e67540,292,1757115519,399600,-17.0342155442963,2334309,{},10.157.146.2,False,{},2025-09-06_01-38-39,4.102739726027397,1839600,3.843327958831744,0,47.586665391922,1533,"{'default': {'policy_loss': -0.029020991176366806, 'vf_explained_var': 0.7122113108634949, 'vf_loss': 2.3816699981689453, 'kl': 0.023398488759994507, 'entropy': -0.18923717737197876, 'cur_kl_coeff': 1.4812313318252563, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.387307643890381}, 'sample_time_ms': 47636.236, 'num_steps_trained': 1839600, 'num_steps_sampled': 1839600, 'update_time_ms': 2.729, 'grad_time_ms': 374.843, 'load_time_ms': 0.695}",333,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+60732.62043404579,169502,6.108228295952671,1200,cda-server-2,14013.080993652344,f93d3d6710754a149751678a58e67540,292,1757115566,400800,-15.929068400976828,2334309,{},10.157.146.2,False,{},2025-09-06_01-39-26,4.109589041095891,1840800,3.829467720292433,0,47.51347613334656,1534,"{'default': {'policy_loss': -0.05333174020051956, 'vf_explained_var': 0.6612057089805603, 'vf_loss': 3.3335602283477783, 'kl': 0.005891864188015461, 'entropy': -0.1458638310432434, 'cur_kl_coeff': 2.22184681892395, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.2933197021484375}, 'sample_time_ms': 47525.064, 'num_steps_trained': 1840800, 'num_steps_sampled': 1840800, 'update_time_ms': 2.711, 'grad_time_ms': 374.894, 'load_time_ms': 0.7}",334,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+60780.981862068176,169781,4.000683049982291,1200,cda-server-2,14061.442421674728,f93d3d6710754a149751678a58e67540,279,1757115615,402000,-32.84769687636743,2334309,{},10.157.146.2,False,{},2025-09-06_01-40-15,4.304659498207886,1842000,3.5155448204684423,0,48.361428022384644,1535,"{'default': {'policy_loss': -0.06062249839305878, 'vf_explained_var': 0.5158942341804504, 'vf_loss': 10.638565063476562, 'kl': 0.007236803416162729, 'entropy': 0.22278206050395966, 'cur_kl_coeff': 2.22184681892395, 'cur_lr': 4.999999873689376e-05, 'total_loss': 10.594022750854492}, 'sample_time_ms': 47464.117, 'num_steps_trained': 1842000, 'num_steps_sampled': 1842000, 'update_time_ms': 2.696, 'grad_time_ms': 373.147, 'load_time_ms': 0.698}",335,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+60829.958359241486,170075,4.000795450658553,1200,cda-server-2,14110.418918848038,f93d3d6710754a149751678a58e67540,294,1757115664,403200,-14.074492978377538,2334309,{},10.157.146.2,False,{},2025-09-06_01-41-04,4.078231292517007,1843200,3.884374544683868,0,48.976497173309326,1536,"{'default': {'policy_loss': -0.0407874658703804, 'vf_explained_var': 0.7444777488708496, 'vf_loss': 2.1595919132232666, 'kl': 0.008280826732516289, 'entropy': -0.226821631193161, 'cur_kl_coeff': 2.22184681892395, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.137202739715576}, 'sample_time_ms': 47454.238, 'num_steps_trained': 1843200, 'num_steps_sampled': 1843200, 'update_time_ms': 2.669, 'grad_time_ms': 373.158, 'load_time_ms': 0.693}",336,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+60877.58123707771,170358,4.000696676187576,1200,cda-server-2,14158.041796684265,f93d3d6710754a149751678a58e67540,283,1757115711,404400,-45.111566078858694,2334309,{},10.157.146.2,False,{},2025-09-06_01-41-51,4.247349823321555,1844400,3.615611423090309,0,47.62287783622742,1537,"{'default': {'policy_loss': -0.05366091430187225, 'vf_explained_var': 0.5040810108184814, 'vf_loss': 15.603853225708008, 'kl': 0.010890877805650234, 'entropy': 0.10371025651693344, 'cur_kl_coeff': 2.22184681892395, 'cur_lr': 4.999999873689376e-05, 'total_loss': 15.57438850402832}, 'sample_time_ms': 47495.416, 'num_steps_trained': 1844400, 'num_steps_sampled': 1844400, 'update_time_ms': 2.661, 'grad_time_ms': 373.898, 'load_time_ms': 0.7}",337,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+60925.92883706093,170651,4.00081247304226,1200,cda-server-2,14206.38939666748,f93d3d6710754a149751678a58e67540,293,1757115759,405600,-11.149000937578336,2334309,{},10.157.146.2,False,{},2025-09-06_01-42-39,4.098976109215017,1845600,3.8519637835903695,0,48.34759998321533,1538,"{'default': {'policy_loss': -0.043878111988306046, 'vf_explained_var': 0.7179284691810608, 'vf_loss': 2.2483267784118652, 'kl': 0.007710773032158613, 'entropy': -0.20519529283046722, 'cur_kl_coeff': 2.22184681892395, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.221580982208252}, 'sample_time_ms': 47620.375, 'num_steps_trained': 1845600, 'num_steps_sampled': 1845600, 'update_time_ms': 2.655, 'grad_time_ms': 372.941, 'load_time_ms': 0.689}",338,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+60973.31472492218,170940,4.001663595634284,1200,cda-server-2,14253.775284528732,f93d3d6710754a149751678a58e67540,289,1757115807,406800,-24.856187758634448,2334309,{},10.157.146.2,False,{},2025-09-06_01-43-27,4.141868512110727,1846800,3.779054820361056,0,47.38588786125183,1539,"{'default': {'policy_loss': -0.0469464436173439, 'vf_explained_var': 0.6631530523300171, 'vf_loss': 4.239829063415527, 'kl': 0.006304633803665638, 'entropy': -0.2352239489555359, 'cur_kl_coeff': 2.22184681892395, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4.206890106201172}, 'sample_time_ms': 47603.404, 'num_steps_trained': 1846800, 'num_steps_sampled': 1846800, 'update_time_ms': 2.66, 'grad_time_ms': 374.812, 'load_time_ms': 0.693}",339,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+61021.73147344589,171216,4.000778056515228,1200,cda-server-2,14302.192033052444,f93d3d6710754a149751678a58e67540,276,1757115855,408000,-42.78434247945313,2334309,{},10.157.146.2,False,{},2025-09-06_01-44-15,4.344202898550725,1848000,3.4542735108351255,0,48.41674852371216,1540,"{'default': {'policy_loss': -0.06120963394641876, 'vf_explained_var': 0.5798123478889465, 'vf_loss': 18.84296417236328, 'kl': 0.01503482274711132, 'entropy': 0.2481226623058319, 'cur_kl_coeff': 2.22184681892395, 'cur_lr': 4.999999873689376e-05, 'total_loss': 18.815160751342773}, 'sample_time_ms': 47591.301, 'num_steps_trained': 1848000, 'num_steps_sampled': 1848000, 'update_time_ms': 2.647, 'grad_time_ms': 373.464, 'load_time_ms': 0.686}",340,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+61069.89595389366,171507,4.0016819945680195,1200,cda-server-2,14350.356513500214,f93d3d6710754a149751678a58e67540,291,1757115904,409200,-17.962028528700174,2334309,{},10.157.146.2,False,{},2025-09-06_01-45-04,4.1271477663230245,1849200,3.80024050150959,0,48.164480447769165,1541,"{'default': {'policy_loss': -0.040705788880586624, 'vf_explained_var': 0.6856220960617065, 'vf_loss': 4.179261684417725, 'kl': 0.006676161661744118, 'entropy': -0.18186968564987183, 'cur_kl_coeff': 2.22184681892395, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4.153388500213623}, 'sample_time_ms': 47629.398, 'num_steps_trained': 1849200, 'num_steps_sampled': 1849200, 'update_time_ms': 2.784, 'grad_time_ms': 372.426, 'load_time_ms': 0.695}",341,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+61118.32129764557,171797,4.001729287333549,1200,cda-server-2,14398.781857252121,f93d3d6710754a149751678a58e67540,290,1757115952,410400,-28.11382458450445,2334309,{},10.157.146.2,False,{},2025-09-06_01-45-52,4.141379310344828,1850400,3.7736298752085657,0,48.42534375190735,1542,"{'default': {'policy_loss': -0.04813220724463463, 'vf_explained_var': 0.7260382175445557, 'vf_loss': 4.5973687171936035, 'kl': 0.0039284368976950645, 'entropy': -0.09893659502267838, 'cur_kl_coeff': 2.22184681892395, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4.5579657554626465}, 'sample_time_ms': 47695.75, 'num_steps_trained': 1850400, 'num_steps_sampled': 1850400, 'update_time_ms': 2.735, 'grad_time_ms': 374.713, 'load_time_ms': 0.694}",342,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+61166.32792925835,172096,4.000911721276779,1200,cda-server-2,14446.788488864899,f93d3d6710754a149751678a58e67540,299,1757116000,411600,-1.8084319165440146,2334309,{},10.157.146.2,False,{},2025-09-06_01-46-40,4.013377926421405,1851600,3.9808622598982897,0,48.00663161277771,1543,"{'default': {'policy_loss': -0.043374404311180115, 'vf_explained_var': 0.9326428174972534, 'vf_loss': 0.38567623496055603, 'kl': 0.010363436304032803, 'entropy': -0.43379783630371094, 'cur_kl_coeff': 1.110923409461975, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.3538148105144501}, 'sample_time_ms': 47734.611, 'num_steps_trained': 1851600, 'num_steps_sampled': 1851600, 'update_time_ms': 2.744, 'grad_time_ms': 377.782, 'load_time_ms': 0.699}",343,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+61214.45628476143,172394,4.000793812699541,1200,cda-server-2,14494.916844367981,f93d3d6710754a149751678a58e67540,298,1757116048,412800,-7.122960422402464,2334309,{},10.157.146.2,False,{},2025-09-06_01-47-28,4.023489932885906,1852800,3.9629683493049916,0,48.128355503082275,1544,"{'default': {'policy_loss': -0.032396819442510605, 'vf_explained_var': 0.9103224873542786, 'vf_loss': 0.6006176471710205, 'kl': 0.0071013146080076694, 'entropy': -0.36511915922164917, 'cur_kl_coeff': 1.110923409461975, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.576109766960144}, 'sample_time_ms': 47797.134, 'num_steps_trained': 1852800, 'num_steps_sampled': 1852800, 'update_time_ms': 2.747, 'grad_time_ms': 376.705, 'load_time_ms': 0.703}",344,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+61262.844841718674,172691,4.001017206763817,1200,cda-server-2,14543.305401325226,f93d3d6710754a149751678a58e67540,297,1757116097,414000,-5.156824823835674,2334309,{},10.157.146.2,False,{},2025-09-06_01-48-17,4.037037037037037,1854000,3.9428407950225655,0,48.38855695724487,1545,"{'default': {'policy_loss': -0.02727239392697811, 'vf_explained_var': 0.902527928352356, 'vf_loss': 0.5914818644523621, 'kl': 0.004822650924324989, 'entropy': -0.39932698011398315, 'cur_kl_coeff': 1.110923409461975, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.5695670247077942}, 'sample_time_ms': 47798.262, 'num_steps_trained': 1854000, 'num_steps_sampled': 1854000, 'update_time_ms': 2.772, 'grad_time_ms': 378.239, 'load_time_ms': 0.711}",345,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+61311.52204823494,172986,4.001444836390679,1200,cda-server-2,14591.982607841492,f93d3d6710754a149751678a58e67540,295,1757116145,415200,-13.605961251817419,2334309,{},10.157.146.2,False,{},2025-09-06_01-49-05,4.067796610169491,1855200,3.8938133984034984,0,48.67720651626587,1546,"{'default': {'policy_loss': -0.032638069242239, 'vf_explained_var': 0.8122084140777588, 'vf_loss': 1.622790813446045, 'kl': 0.010741930454969406, 'entropy': -0.2834054231643677, 'cur_kl_coeff': 0.5554617047309875, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.5961195230484009}, 'sample_time_ms': 47768.499, 'num_steps_trained': 1855200, 'num_steps_sampled': 1855200, 'update_time_ms': 2.773, 'grad_time_ms': 378.085, 'load_time_ms': 0.709}",346,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+61359.526042461395,173272,4.001208999937245,1200,cda-server-2,14639.986602067947,f93d3d6710754a149751678a58e67540,286,1757116193,416400,-31.102464370468773,2334309,{},10.157.146.2,False,{},2025-09-06_01-49-53,4.1923076923076925,1856400,3.6954763881636254,0,48.00399422645569,1547,"{'default': {'policy_loss': -0.05344681069254875, 'vf_explained_var': 0.7070412039756775, 'vf_loss': 7.327028751373291, 'kl': 0.014098099432885647, 'entropy': -0.02915801666676998, 'cur_kl_coeff': 0.5554617047309875, 'cur_lr': 4.999999873689376e-05, 'total_loss': 7.281412601470947}, 'sample_time_ms': 47805.575, 'num_steps_trained': 1856400, 'num_steps_sampled': 1856400, 'update_time_ms': 2.793, 'grad_time_ms': 379.083, 'load_time_ms': 0.706}",347,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+61407.255784749985,173562,4.0017126936051834,1200,cda-server-2,14687.716344356537,f93d3d6710754a149751678a58e67540,290,1757116241,417600,-47.7824805908842,2334309,{},10.157.146.2,False,{},2025-09-06_01-50-41,4.151724137931034,1857600,3.75938096078019,0,47.72974228858948,1548,"{'default': {'policy_loss': -0.05461803451180458, 'vf_explained_var': 0.5496028065681458, 'vf_loss': 13.743555068969727, 'kl': 0.014762709848582745, 'entropy': -0.13455703854560852, 'cur_kl_coeff': 0.5554617047309875, 'cur_lr': 4.999999873689376e-05, 'total_loss': 13.697138786315918}, 'sample_time_ms': 47744.524, 'num_steps_trained': 1857600, 'num_steps_sampled': 1857600, 'update_time_ms': 2.823, 'grad_time_ms': 378.372, 'load_time_ms': 0.71}",348,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+61455.923317193985,173851,4.001950540379527,1200,cda-server-2,14736.383876800537,f93d3d6710754a149751678a58e67540,289,1757116290,418800,-24.279542549098224,2334309,{},10.157.146.2,False,{},2025-09-06_01-51-30,4.1522491349480966,1858800,3.761473907530973,0,48.667532444000244,1549,"{'default': {'policy_loss': -0.05269224941730499, 'vf_explained_var': 0.6414508819580078, 'vf_loss': 6.603551387786865, 'kl': 0.029232706874608994, 'entropy': -0.053718943148851395, 'cur_kl_coeff': 0.5554617047309875, 'cur_lr': 4.999999873689376e-05, 'total_loss': 6.56709623336792}, 'sample_time_ms': 47872.851, 'num_steps_trained': 1858800, 'num_steps_sampled': 1858800, 'update_time_ms': 2.771, 'grad_time_ms': 378.22, 'load_time_ms': 0.703}",349,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+61503.867018699646,174147,4.000797601126518,1200,cda-server-2,14784.327578306198,f93d3d6710754a149751678a58e67540,296,1757116338,420000,-7.027787928755735,2334309,{},10.157.146.2,False,{},2025-09-06_01-52-18,4.023648648648648,1860000,3.9630307572671244,0,47.94370150566101,1550,"{'default': {'policy_loss': -0.03788703680038452, 'vf_explained_var': 0.7924908399581909, 'vf_loss': 2.926590919494629, 'kl': 0.005450094118714333, 'entropy': -0.29870712757110596, 'cur_kl_coeff': 0.8331925868988037, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.893244743347168}, 'sample_time_ms': 47825.465, 'num_steps_trained': 1860000, 'num_steps_sampled': 1860000, 'update_time_ms': 2.824, 'grad_time_ms': 378.24, 'load_time_ms': 0.703}",350,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+61552.108314991,174435,4.00076622179144,1200,cda-server-2,14832.56887459755,f93d3d6710754a149751678a58e67540,288,1757116386,421200,-24.25777667609055,2334309,{},10.157.146.2,False,{},2025-09-06_01-53-06,4.204861111111111,1861200,3.680552681833992,0,48.24129629135132,1551,"{'default': {'policy_loss': -0.0567702054977417, 'vf_explained_var': 0.644838273525238, 'vf_loss': 5.667288303375244, 'kl': 0.013355033472180367, 'entropy': -0.008345802314579487, 'cur_kl_coeff': 0.8331925868988037, 'cur_lr': 4.999999873689376e-05, 'total_loss': 5.621644973754883}, 'sample_time_ms': 47834.343, 'num_steps_trained': 1861200, 'num_steps_sampled': 1861200, 'update_time_ms': 2.69, 'grad_time_ms': 377.068, 'load_time_ms': 0.695}",351,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+61600.238542079926,174731,4.00159015121519,1200,cda-server-2,14880.699101686478,f93d3d6710754a149751678a58e67540,296,1757116434,422400,-8.254747018583732,2334309,{},10.157.146.2,False,{},2025-09-06_01-53-54,4.0574324324324325,1862400,3.917811213065124,0,48.13022708892822,1552,"{'default': {'policy_loss': -0.02928720973432064, 'vf_explained_var': 0.8584175109863281, 'vf_loss': 0.951155424118042, 'kl': 0.020910797640681267, 'entropy': -0.2981509268283844, 'cur_kl_coeff': 0.8331925868988037, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.9392907619476318}, 'sample_time_ms': 47805.684, 'num_steps_trained': 1862400, 'num_steps_sampled': 1862400, 'update_time_ms': 2.717, 'grad_time_ms': 376.274, 'load_time_ms': 0.696}",352,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+61648.237974882126,175027,4.001526559015563,1200,cda-server-2,14928.698534488678,f93d3d6710754a149751678a58e67540,296,1757116482,423600,-15.830816288684584,2334309,{},10.157.146.2,False,{},2025-09-06_01-54-42,4.054054054054054,1863600,3.9128246569419547,0,47.99943280220032,1553,"{'default': {'policy_loss': -0.029267966747283936, 'vf_explained_var': 0.8252176642417908, 'vf_loss': 1.6158114671707153, 'kl': 0.00851098820567131, 'entropy': -0.2290213704109192, 'cur_kl_coeff': 1.2497888803482056, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.5971803665161133}, 'sample_time_ms': 47808.37, 'num_steps_trained': 1863600, 'num_steps_sampled': 1863600, 'update_time_ms': 2.69, 'grad_time_ms': 372.985, 'load_time_ms': 0.689}",353,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+61695.78334021568,175321,4.001313541457591,1200,cda-server-2,14976.243899822235,f93d3d6710754a149751678a58e67540,294,1757116530,424800,-5.012240599718568,2334309,{},10.157.146.2,False,{},2025-09-06_01-55-30,4.074829931972789,1864800,3.885335088162209,0,47.54536533355713,1554,"{'default': {'policy_loss': -0.04243389144539833, 'vf_explained_var': 0.857541024684906, 'vf_loss': 1.0358328819274902, 'kl': 0.00958237610757351, 'entropy': -0.2820771038532257, 'cur_kl_coeff': 1.2497888803482056, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.0053750276565552}, 'sample_time_ms': 47749.677, 'num_steps_trained': 1864800, 'num_steps_sampled': 1864800, 'update_time_ms': 2.658, 'grad_time_ms': 373.462, 'load_time_ms': 0.692}",354,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+61744.29118871689,175615,4.000981661907829,1200,cda-server-2,15024.75174832344,f93d3d6710754a149751678a58e67540,294,1757116578,426000,-14.875524824615376,2334309,{},10.157.146.2,False,{},2025-09-06_01-56-18,4.078231292517007,1866000,3.871417165009286,0,48.507848501205444,1555,"{'default': {'policy_loss': -0.008362367749214172, 'vf_explained_var': 0.7908833026885986, 'vf_loss': 2.0001165866851807, 'kl': 0.06091173365712166, 'entropy': -0.25146234035491943, 'cur_kl_coeff': 1.2497888803482056, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.0678811073303223}, 'sample_time_ms': 47763.121, 'num_steps_trained': 1866000, 'num_steps_sampled': 1866000, 'update_time_ms': 2.633, 'grad_time_ms': 371.954, 'load_time_ms': 0.676}",355,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+61792.2475297451,175911,4.001286756972966,1200,cda-server-2,15072.708089351654,f93d3d6710754a149751678a58e67540,296,1757116626,427200,-4.047622524938914,2334309,{},10.157.146.2,False,{},2025-09-06_01-57-06,4.050675675675675,1867200,3.9219635746379424,0,47.9563410282135,1556,"{'default': {'policy_loss': -0.037480711936950684, 'vf_explained_var': 0.9157254695892334, 'vf_loss': 0.5311429500579834, 'kl': 0.0074905953370034695, 'entropy': -0.3100923001766205, 'cur_kl_coeff': 1.8746833801269531, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.5077047944068909}, 'sample_time_ms': 47691.509, 'num_steps_trained': 1867200, 'num_steps_sampled': 1867200, 'update_time_ms': 2.678, 'grad_time_ms': 371.468, 'load_time_ms': 0.68}",356,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+61840.10854077339,176195,4.0007204423609695,1200,cda-server-2,15120.569100379944,f93d3d6710754a149751678a58e67540,284,1757116674,428400,-20.208765374468893,2334309,{},10.157.146.2,False,{},2025-09-06_01-57-54,4.221830985915493,1868400,3.6466933468128833,0,47.861011028289795,1557,"{'default': {'policy_loss': -0.04961474612355232, 'vf_explained_var': 0.6592777967453003, 'vf_loss': 4.453335285186768, 'kl': 0.009721565991640091, 'entropy': -0.040098242461681366, 'cur_kl_coeff': 1.8746833801269531, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4.421946048736572}, 'sample_time_ms': 47676.29, 'num_steps_trained': 1868400, 'num_steps_sampled': 1868400, 'update_time_ms': 2.672, 'grad_time_ms': 372.356, 'load_time_ms': 0.69}",357,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+61887.84798049927,176486,4.000859050030758,1200,cda-server-2,15168.30854010582,f93d3d6710754a149751678a58e67540,291,1757116722,429600,-13.370105591320726,2334309,{},10.157.146.2,False,{},2025-09-06_01-58-42,4.11340206185567,1869600,3.828698000668395,0,47.739439725875854,1558,"{'default': {'policy_loss': -0.049467239528894424, 'vf_explained_var': 0.740755021572113, 'vf_loss': 2.415066957473755, 'kl': 0.01163265760987997, 'entropy': -0.1673484444618225, 'cur_kl_coeff': 1.8746833801269531, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.3874075412750244}, 'sample_time_ms': 47676.557, 'num_steps_trained': 1869600, 'num_steps_sampled': 1869600, 'update_time_ms': 2.697, 'grad_time_ms': 372.998, 'load_time_ms': 0.679}",358,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+61936.13660621643,176781,4.000669817206264,1200,cda-server-2,15216.597165822983,f93d3d6710754a149751678a58e67540,295,1757116770,430800,-16.575776002290556,2334309,{},10.157.146.2,False,{},2025-09-06_01-59-30,4.077966101694916,1870800,3.8832815686110527,0,48.288625717163086,1559,"{'default': {'policy_loss': -0.025577707216143608, 'vf_explained_var': 0.7496296167373657, 'vf_loss': 2.357015371322632, 'kl': 0.007318648975342512, 'entropy': -0.20591865479946136, 'cur_kl_coeff': 1.8746833801269531, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.3451578617095947}, 'sample_time_ms': 47637.284, 'num_steps_trained': 1870800, 'num_steps_sampled': 1870800, 'update_time_ms': 2.75, 'grad_time_ms': 374.335, 'load_time_ms': 0.692}",359,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+61984.122987508774,177073,4.000537644867736,1200,cda-server-2,15264.583547115326,f93d3d6710754a149751678a58e67540,292,1757116818,432000,-31.5785873921552,2334309,{},10.157.146.2,False,{},2025-09-06_02-00-18,4.11986301369863,1872000,3.8144557806727653,0,47.98638129234314,1560,"{'default': {'policy_loss': -0.032466985285282135, 'vf_explained_var': 0.7123806476593018, 'vf_loss': 5.559065818786621, 'kl': 0.009296141564846039, 'entropy': -0.15036660432815552, 'cur_kl_coeff': 1.8746833801269531, 'cur_lr': 4.999999873689376e-05, 'total_loss': 5.5440263748168945}, 'sample_time_ms': 47639.313, 'num_steps_trained': 1872000, 'num_steps_sampled': 1872000, 'update_time_ms': 2.658, 'grad_time_ms': 376.601, 'load_time_ms': 0.692}",360,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+62032.410737752914,177363,4.000872321799581,1200,cda-server-2,15312.871297359467,f93d3d6710754a149751678a58e67540,290,1757116867,433200,-19.05345483880405,2334309,{},10.157.146.2,False,{},2025-09-06_02-01-07,4.13103448275862,1873200,3.792715368065584,0,48.287750244140625,1561,"{'default': {'policy_loss': -0.04058009013533592, 'vf_explained_var': 0.7515530586242676, 'vf_loss': 2.65691876411438, 'kl': 0.02078377641737461, 'entropy': -0.1329096108675003, 'cur_kl_coeff': 1.8746833801269531, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.655301570892334}, 'sample_time_ms': 47644.745, 'num_steps_trained': 1873200, 'num_steps_sampled': 1873200, 'update_time_ms': 2.679, 'grad_time_ms': 375.897, 'load_time_ms': 0.695}",361,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+62080.367956876755,177646,4.000655618396185,1200,cda-server-2,15360.828516483307,f93d3d6710754a149751678a58e67540,283,1757116914,434400,-56.196818986679844,2334309,{},10.157.146.2,False,{},2025-09-06_02-01-54,4.240282685512367,1874400,3.625227890950405,0,47.95721912384033,1562,"{'default': {'policy_loss': -0.049271248281002045, 'vf_explained_var': 0.6377592086791992, 'vf_loss': 13.601422309875488, 'kl': 0.007709095720201731, 'entropy': 0.17272046208381653, 'cur_kl_coeff': 2.8120250701904297, 'cur_lr': 4.999999873689376e-05, 'total_loss': 13.57382869720459}, 'sample_time_ms': 47628.969, 'num_steps_trained': 1874400, 'num_steps_sampled': 1874400, 'update_time_ms': 2.654, 'grad_time_ms': 374.411, 'load_time_ms': 0.694}",362,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+62128.26361322403,177946,4.000890448274204,1200,cda-server-2,15408.724172830582,f93d3d6710754a149751678a58e67540,300,1757116962,435600,4.0001263384201105,2334309,{},10.157.146.2,False,{},2025-09-06_02-02-42,4.0,1875600,4.000286501103673,0,47.89565634727478,1563,"{'default': {'policy_loss': -0.06036638468503952, 'vf_explained_var': 0.9974765777587891, 'vf_loss': 0.013610278256237507, 'kl': 0.02050035074353218, 'entropy': -0.36745166778564453, 'cur_kl_coeff': 2.8120250701904297, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.010891393758356571}, 'sample_time_ms': 47616.464, 'num_steps_trained': 1875600, 'num_steps_sampled': 1875600, 'update_time_ms': 2.668, 'grad_time_ms': 376.485, 'load_time_ms': 0.7}",363,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+62177.080770254135,178244,4.001675274635093,1200,cda-server-2,15457.541329860687,f93d3d6710754a149751678a58e67540,298,1757117011,436800,-6.435941610674615,2334309,{},10.157.146.2,False,{},2025-09-06_02-03-31,4.023489932885906,1876800,3.9652699473180317,0,48.81715703010559,1564,"{'default': {'policy_loss': -0.02552967518568039, 'vf_explained_var': 0.922250509262085, 'vf_loss': 0.5136945247650146, 'kl': 0.003353646956384182, 'entropy': -0.3572976887226105, 'cur_kl_coeff': 4.2180376052856445, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.5023106932640076}, 'sample_time_ms': 47745.117, 'num_steps_trained': 1876800, 'num_steps_sampled': 1876800, 'update_time_ms': 2.684, 'grad_time_ms': 375.014, 'load_time_ms': 0.69}",364,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+62225.178007125854,178538,4.000757617629815,1200,cda-server-2,15505.638566732407,f93d3d6710754a149751678a58e67540,294,1757117059,438000,-7.952004347474958,2334309,{},10.157.146.2,False,{},2025-09-06_02-04-19,4.08843537414966,1878000,3.8728606780482226,0,48.09723687171936,1565,"{'default': {'policy_loss': -0.04974418506026268, 'vf_explained_var': 0.8053832054138184, 'vf_loss': 1.3960421085357666, 'kl': 0.006417561788111925, 'entropy': -0.08495362102985382, 'cur_kl_coeff': 2.1090188026428223, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.359832525253296}, 'sample_time_ms': 47704.284, 'num_steps_trained': 1878000, 'num_steps_sampled': 1878000, 'update_time_ms': 2.683, 'grad_time_ms': 374.866, 'load_time_ms': 0.696}",365,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+62272.78416442871,178832,4.00071744094023,1200,cda-server-2,15553.244724035263,f93d3d6710754a149751678a58e67540,294,1757117107,439200,-17.137204966840184,2334309,{},10.157.146.2,False,{},2025-09-06_02-05-07,4.074829931972789,1879200,3.884720484477388,0,47.606157302856445,1566,"{'default': {'policy_loss': -0.043113283812999725, 'vf_explained_var': 0.7695052623748779, 'vf_loss': 2.1048941612243652, 'kl': 0.004879961721599102, 'entropy': -0.24902735650539398, 'cur_kl_coeff': 2.1090188026428223, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.072072744369507}, 'sample_time_ms': 47671.378, 'num_steps_trained': 1879200, 'num_steps_sampled': 1879200, 'update_time_ms': 2.639, 'grad_time_ms': 372.849, 'load_time_ms': 0.69}",366,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+62321.23784279823,179132,4.0015225469864415,1200,cda-server-2,15601.698402404785,f93d3d6710754a149751678a58e67540,300,1757117155,440400,4.000134628140028,2334309,{},10.157.146.2,False,{},2025-09-06_02-05-55,4.0,1880400,4.0002841775501485,0,48.453678369522095,1567,"{'default': {'policy_loss': -0.07601597905158997, 'vf_explained_var': 0.9990653991699219, 'vf_loss': 0.004969781264662743, 'kl': 0.031997863203287125, 'entropy': -0.36669424176216125, 'cur_kl_coeff': 1.0545094013214111, 'cur_lr': 4.999999873689376e-05, 'total_loss': -0.037304144352674484}, 'sample_time_ms': 47733.136, 'num_steps_trained': 1880400, 'num_steps_sampled': 1880400, 'update_time_ms': 2.603, 'grad_time_ms': 370.463, 'load_time_ms': 0.675}",367,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+62369.179589271545,179431,4.000766954827105,1200,cda-server-2,15649.640148878098,f93d3d6710754a149751678a58e67540,299,1757117203,441600,-4.057736469342494,2334309,{},10.157.146.2,False,{},2025-09-06_02-06-43,4.016722408026756,1881600,3.973344986332241,0,47.94174647331238,1568,"{'default': {'policy_loss': -0.026744777336716652, 'vf_explained_var': 0.9568169713020325, 'vf_loss': 0.2588689625263214, 'kl': 0.0057578617706894875, 'entropy': -0.32956066727638245, 'cur_kl_coeff': 1.5817641019821167, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.2412317842245102}, 'sample_time_ms': 47754.515, 'num_steps_trained': 1881600, 'num_steps_sampled': 1881600, 'update_time_ms': 2.584, 'grad_time_ms': 369.373, 'load_time_ms': 0.676}",368,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+62417.186651945114,179726,4.000705862962748,1200,cda-server-2,15697.647211551666,f93d3d6710754a149751678a58e67540,295,1757117251,442800,-15.53506945254033,2334309,{},10.157.146.2,False,{},2025-09-06_02-07-31,4.061016949152543,1882800,3.903483275074365,0,48.007062673568726,1569,"{'default': {'policy_loss': -0.03134991601109505, 'vf_explained_var': 0.9085052013397217, 'vf_loss': 0.872275710105896, 'kl': 0.00282758055254817, 'entropy': -0.22037667036056519, 'cur_kl_coeff': 1.5817641019821167, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.8453982472419739}, 'sample_time_ms': 47727.929, 'num_steps_trained': 1882800, 'num_steps_sampled': 1882800, 'update_time_ms': 2.555, 'grad_time_ms': 367.846, 'load_time_ms': 0.676}",369,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+62465.44639968872,180026,4.000847066841848,1200,cda-server-2,15745.906959295273,f93d3d6710754a149751678a58e67540,300,1757117300,444000,4.000148485265413,2334309,{},10.157.146.2,False,{},2025-09-06_02-08-20,4.0,1884000,4.000283294096704,0,48.25974774360657,1570,"{'default': {'policy_loss': -0.07995298504829407, 'vf_explained_var': 0.9990289211273193, 'vf_loss': 0.005183494184166193, 'kl': 0.04207802191376686, 'entropy': -0.34226423501968384, 'cur_kl_coeff': 0.7908820509910583, 'cur_lr': 4.999999873689376e-05, 'total_loss': -0.04149073734879494}, 'sample_time_ms': 47754.998, 'num_steps_trained': 1884000, 'num_steps_sampled': 1884000, 'update_time_ms': 2.576, 'grad_time_ms': 368.107, 'load_time_ms': 0.682}",370,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+62513.35688042641,180325,4.001340064530801,1200,cda-server-2,15793.817440032959,f93d3d6710754a149751678a58e67540,299,1757117348,445200,-2.0624998863451314,2334309,{},10.157.146.2,False,{},2025-09-06_02-09-08,4.013377926421405,1885200,3.9800080588348377,0,47.91048073768616,1571,"{'default': {'policy_loss': -0.025979701429605484, 'vf_explained_var': 0.96938157081604, 'vf_loss': 0.17531664669513702, 'kl': 0.00476859649643302, 'entropy': -0.2758833169937134, 'cur_kl_coeff': 1.1863230466842651, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.15499405562877655}, 'sample_time_ms': 47714.011, 'num_steps_trained': 1885200, 'num_steps_sampled': 1885200, 'update_time_ms': 2.655, 'grad_time_ms': 371.221, 'load_time_ms': 0.708}",371,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+62561.15172410011,180616,4.000770060867728,1200,cda-server-2,15841.612283706665,f93d3d6710754a149751678a58e67540,291,1757117395,446400,-27.562278647950905,2334309,{},10.157.146.2,False,{},2025-09-06_02-09-55,4.1271477663230245,1886400,3.796615750135822,0,47.794843673706055,1572,"{'default': {'policy_loss': -0.040325894951820374, 'vf_explained_var': 0.7490986585617065, 'vf_loss': 4.277646541595459, 'kl': 0.012065037153661251, 'entropy': -0.1365869641304016, 'cur_kl_coeff': 0.5931615233421326, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4.244477272033691}, 'sample_time_ms': 47696.245, 'num_steps_trained': 1886400, 'num_steps_sampled': 1886400, 'update_time_ms': 2.675, 'grad_time_ms': 372.692, 'load_time_ms': 0.713}",372,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+62609.020100831985,180911,4.000703430034832,1200,cda-server-2,15889.480660438538,f93d3d6710754a149751678a58e67540,295,1757117443,447600,-11.824160695891258,2334309,{},10.157.146.2,False,{},2025-09-06_02-10-43,4.074576271186441,1887600,3.88488106879469,0,47.86837673187256,1573,"{'default': {'policy_loss': 0.018279068171977997, 'vf_explained_var': 0.8077213764190674, 'vf_loss': 1.6502305269241333, 'kl': 0.5652738213539124, 'entropy': 0.41416558623313904, 'cur_kl_coeff': 0.5931615233421326, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.0038082599639893}, 'sample_time_ms': 47693.719, 'num_steps_trained': 1887600, 'num_steps_sampled': 1887600, 'update_time_ms': 2.67, 'grad_time_ms': 372.521, 'load_time_ms': 0.711}",373,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+62653.638728141785,181046,4.00087456617762,1200,cda-server-2,15934.099287748337,f93d3d6710754a149751678a58e67540,135,1757117488,448800,-84.59588556684481,2334309,{},10.157.146.2,False,{},2025-09-06_02-11-28,8.77037037037037,1888800,-3.9291837219265635,0,44.618627309799194,1574,"{'default': {'policy_loss': -0.12151748687028885, 'vf_explained_var': 0.1806643009185791, 'vf_loss': 238.48733520507812, 'kl': 0.01683727465569973, 'entropy': 4.693624496459961, 'cur_kl_coeff': 0.8897423148155212, 'cur_lr': 4.999999873689376e-05, 'total_loss': 238.3807830810547}, 'sample_time_ms': 47272.79, 'num_steps_trained': 1888800, 'num_steps_sampled': 1888800, 'update_time_ms': 2.672, 'grad_time_ms': 373.664, 'load_time_ms': 0.708}",374,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+62698.359999895096,181213,4.00065069394722,1200,cda-server-2,15978.820559501648,f93d3d6710754a149751678a58e67540,167,1757117533,450000,-82.78930040093411,2334309,{},10.157.146.2,False,{},2025-09-06_02-12-13,7.2155688622754495,1890000,-1.2864037728765005,0,44.72127175331116,1575,"{'default': {'policy_loss': -0.11611318588256836, 'vf_explained_var': 0.21542488038539886, 'vf_loss': 180.07395935058594, 'kl': 0.017754873260855675, 'entropy': 3.648305654525757, 'cur_kl_coeff': 0.8897423148155212, 'cur_lr': 4.999999873689376e-05, 'total_loss': 179.97364807128906}, 'sample_time_ms': 46933.951, 'num_steps_trained': 1890000, 'num_steps_sampled': 1890000, 'update_time_ms': 2.67, 'grad_time_ms': 374.974, 'load_time_ms': 0.7}",375,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+62742.76793026924,181366,4.000689243662034,1200,cda-server-2,16023.228489875793,f93d3d6710754a149751678a58e67540,153,1757117577,451200,-82.46506755311911,2334309,{},10.157.146.2,False,{},2025-09-06_02-12-57,7.928104575163399,1891200,-2.395928725555863,0,44.40793037414551,1576,"{'default': {'policy_loss': -0.13176898658275604, 'vf_explained_var': 0.19764897227287292, 'vf_loss': 226.1062774658203, 'kl': 0.018566124141216278, 'entropy': 4.347147464752197, 'cur_kl_coeff': 0.8897423148155212, 'cur_lr': 4.999999873689376e-05, 'total_loss': 225.99102783203125}, 'sample_time_ms': 46612.664, 'num_steps_trained': 1891200, 'num_steps_sampled': 1891200, 'update_time_ms': 2.672, 'grad_time_ms': 376.529, 'load_time_ms': 0.695}",376,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+62788.36729645729,181546,4.001549307642125,1200,cda-server-2,16068.827856063843,f93d3d6710754a149751678a58e67540,180,1757117623,452400,-68.33222797332645,2334309,{},10.157.146.2,False,{},2025-09-06_02-13-43,6.594444444444444,1892400,-0.1297197030497467,0,45.599366188049316,1577,"{'default': {'policy_loss': -0.12728387117385864, 'vf_explained_var': 0.28653988242149353, 'vf_loss': 138.2716522216797, 'kl': 0.017543647438287735, 'entropy': 3.3475568294525146, 'cur_kl_coeff': 0.8897423148155212, 'cur_lr': 4.999999873689376e-05, 'total_loss': 138.15997314453125}, 'sample_time_ms': 46327.353, 'num_steps_trained': 1892400, 'num_steps_sampled': 1892400, 'update_time_ms': 2.656, 'grad_time_ms': 376.505, 'load_time_ms': 0.69}",377,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+62829.014003276825,181739,4.001234964061183,1200,cda-server-2,16109.474562883377,f93d3d6710754a149751678a58e67540,193,1757117663,453600,-82.20832471649024,2334309,{},10.157.146.2,False,{},2025-09-06_02-14-23,6.238341968911917,1893600,0.38913877774746153,0,40.6467068195343,1578,"{'default': {'policy_loss': -0.11107394099235535, 'vf_explained_var': 0.23941320180892944, 'vf_loss': 126.75392150878906, 'kl': 0.01819705031812191, 'entropy': 3.049403190612793, 'cur_kl_coeff': 0.8897423148155212, 'cur_lr': 4.999999873689376e-05, 'total_loss': 126.65904235839844}, 'sample_time_ms': 45595.687, 'num_steps_trained': 1893600, 'num_steps_sampled': 1893600, 'update_time_ms': 2.619, 'grad_time_ms': 378.732, 'load_time_ms': 0.714}",378,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+62872.81374025345,181945,4.00085323062602,1200,cda-server-2,16153.27429986,f93d3d6710754a149751678a58e67540,206,1757117707,454800,-36.287746275136996,2334309,{},10.157.146.2,False,{},2025-09-06_02-15-07,5.752427184466019,1894800,1.2417617544791821,0,43.799736976623535,1579,"{'default': {'policy_loss': -0.10977531969547272, 'vf_explained_var': 0.2134745866060257, 'vf_loss': 62.20029067993164, 'kl': 0.019202379509806633, 'entropy': 2.788670539855957, 'cur_kl_coeff': 0.8897423148155212, 'cur_lr': 4.999999873689376e-05, 'total_loss': 62.10759735107422}, 'sample_time_ms': 45174.552, 'num_steps_trained': 1894800, 'num_steps_sampled': 1894800, 'update_time_ms': 2.622, 'grad_time_ms': 379.207, 'load_time_ms': 0.706}",379,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+62919.23076796532,182163,4.001415726602835,1200,cda-server-2,16199.691327571869,f93d3d6710754a149751678a58e67540,218,1757117754,456000,-81.36454768493502,2334309,{},10.157.146.2,False,{},2025-09-06_02-15-54,5.527522935779817,1896000,1.5477305256680642,0,46.417027711868286,1580,"{'default': {'policy_loss': -0.10363621264696121, 'vf_explained_var': 0.3296983242034912, 'vf_loss': 94.78414916992188, 'kl': 0.015582915395498276, 'entropy': 2.520273447036743, 'cur_kl_coeff': 0.8897423148155212, 'cur_lr': 4.999999873689376e-05, 'total_loss': 94.69437408447266}, 'sample_time_ms': 44990.987, 'num_steps_trained': 1896000, 'num_steps_sampled': 1896000, 'update_time_ms': 2.647, 'grad_time_ms': 378.571, 'load_time_ms': 0.705}",380,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+62965.55880236626,182400,4.000675616686552,1200,cda-server-2,16246.019361972809,f93d3d6710754a149751678a58e67540,237,1757117800,457200,-37.614747418001684,2334309,{},10.157.146.2,False,{},2025-09-06_02-16-40,5.122362869198312,1897200,2.242031365839391,0,46.32803440093994,1581,"{'default': {'policy_loss': -0.09627168625593185, 'vf_explained_var': 0.2858661115169525, 'vf_loss': 39.6611442565918, 'kl': 0.01760130561888218, 'entropy': 1.9897466897964478, 'cur_kl_coeff': 0.8897423148155212, 'cur_lr': 4.999999873689376e-05, 'total_loss': 39.58053207397461}, 'sample_time_ms': 44836.487, 'num_steps_trained': 1897200, 'num_steps_sampled': 1897200, 'update_time_ms': 2.507, 'grad_time_ms': 375.095, 'load_time_ms': 0.673}",381,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+63011.97559046745,182650,4.001048729337485,1200,cda-server-2,16292.436150074005,f93d3d6710754a149751678a58e67540,250,1757117846,458400,-39.71600225916191,2334309,{},10.157.146.2,False,{},2025-09-06_02-17-26,4.78,1898400,2.7916112710459555,0,46.41678810119629,1582,"{'default': {'policy_loss': -0.08863456547260284, 'vf_explained_var': 0.33807647228240967, 'vf_loss': 31.48415756225586, 'kl': 0.0159127339720726, 'entropy': 1.6174063682556152, 'cur_kl_coeff': 0.8897423148155212, 'cur_lr': 4.999999873689376e-05, 'total_loss': 31.409685134887695}, 'sample_time_ms': 44697.178, 'num_steps_trained': 1898400, 'num_steps_sampled': 1898400, 'update_time_ms': 2.488, 'grad_time_ms': 376.63, 'load_time_ms': 0.68}",382,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+63059.89192414284,182900,4.001015588345834,1200,cda-server-2,16340.35248374939,f93d3d6710754a149751678a58e67540,250,1757117894,459600,-39.51472744231987,2334309,{},10.157.146.2,False,{},2025-09-06_02-18-14,4.824,1899600,2.6844662531661903,0,47.91633367538452,1583,"{'default': {'policy_loss': -0.09161057323217392, 'vf_explained_var': 0.33659470081329346, 'vf_loss': 30.500125885009766, 'kl': 0.015805203467607498, 'entropy': 1.4535026550292969, 'cur_kl_coeff': 0.8897423148155212, 'cur_lr': 4.999999873689376e-05, 'total_loss': 30.422576904296875}, 'sample_time_ms': 44702.895, 'num_steps_trained': 1899600, 'num_steps_sampled': 1899600, 'update_time_ms': 2.482, 'grad_time_ms': 375.693, 'load_time_ms': 0.67}",383,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+63107.57047820091,183181,4.000986292922605,1200,cda-server-2,16388.031037807465,f93d3d6710754a149751678a58e67540,281,1757117942,460800,-14.586208189994473,2334309,{},10.157.146.2,False,{},2025-09-06_02-19-02,4.288256227758007,1900800,3.5617806778666385,0,47.67855405807495,1584,"{'default': {'policy_loss': -0.06849127262830734, 'vf_explained_var': 0.4442386031150818, 'vf_loss': 7.563508033752441, 'kl': 0.013084410689771175, 'entropy': 0.8002127408981323, 'cur_kl_coeff': 0.8897423148155212, 'cur_lr': 4.999999873689376e-05, 'total_loss': 7.50665807723999}, 'sample_time_ms': 45008.292, 'num_steps_trained': 1900800, 'num_steps_sampled': 1900800, 'update_time_ms': 2.533, 'grad_time_ms': 376.129, 'load_time_ms': 0.684}",384,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+63155.96897792816,183432,4.0020873582777625,1200,cda-server-2,16436.429537534714,f93d3d6710754a149751678a58e67540,251,1757117990,462000,-35.530597455703635,2334309,{},10.157.146.2,False,{},2025-09-06_02-19-50,4.760956175298805,1902000,2.7922880530977263,0,48.398499727249146,1585,"{'default': {'policy_loss': -0.08791720122098923, 'vf_explained_var': 0.41366228461265564, 'vf_loss': 32.68443298339844, 'kl': 0.017710577696561813, 'entropy': 1.627702236175537, 'cur_kl_coeff': 0.8897423148155212, 'cur_lr': 4.999999873689376e-05, 'total_loss': 32.61227798461914}, 'sample_time_ms': 45376.385, 'num_steps_trained': 1902000, 'num_steps_sampled': 1902000, 'update_time_ms': 2.581, 'grad_time_ms': 375.7, 'load_time_ms': 0.685}",385,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+63203.3112578392,183703,4.0007194851294,1200,cda-server-2,16483.771817445755,f93d3d6710754a149751678a58e67540,271,1757118038,463200,-37.58720445768888,2334309,{},10.157.146.2,False,{},2025-09-06_02-20-38,4.387453874538745,1903200,3.3878335091378617,0,47.34227991104126,1586,"{'default': {'policy_loss': -0.07236369699239731, 'vf_explained_var': 0.43200933933258057, 'vf_loss': 18.01152801513672, 'kl': 0.01514524407684803, 'entropy': 0.9192028045654297, 'cur_kl_coeff': 0.8897423148155212, 'cur_lr': 4.999999873689376e-05, 'total_loss': 17.95264434814453}, 'sample_time_ms': 45669.783, 'num_steps_trained': 1903200, 'num_steps_sampled': 1903200, 'update_time_ms': 2.572, 'grad_time_ms': 375.647, 'load_time_ms': 0.687}",386,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+63250.361718416214,183979,4.001502767055331,1200,cda-server-2,16530.822278022766,f93d3d6710754a149751678a58e67540,276,1757118085,464400,-17.095444765057152,2334309,{},10.157.146.2,False,{},2025-09-06_02-21-25,4.394927536231884,1904400,3.3740165258117747,0,47.05046057701111,1587,"{'default': {'policy_loss': -0.06979411840438843, 'vf_explained_var': 0.43812090158462524, 'vf_loss': 8.876758575439453, 'kl': 0.017150186002254486, 'entropy': 0.6491653919219971, 'cur_kl_coeff': 0.8897423148155212, 'cur_lr': 4.999999873689376e-05, 'total_loss': 8.822223663330078}, 'sample_time_ms': 45812.5, 'num_steps_trained': 1904400, 'num_steps_sampled': 1904400, 'update_time_ms': 2.619, 'grad_time_ms': 377.886, 'load_time_ms': 0.691}",387,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+63297.09991788864,184254,4.001084365210296,1200,cda-server-2,16577.560477495193,f93d3d6710754a149751678a58e67540,275,1757118132,465600,-28.93853780781034,2334309,{},10.157.146.2,False,{},2025-09-06_02-22-12,4.323636363636363,1905600,3.5059522252169644,0,46.73819947242737,1588,"{'default': {'policy_loss': -0.06910748779773712, 'vf_explained_var': 0.431485116481781, 'vf_loss': 11.710115432739258, 'kl': 0.018872009590268135, 'entropy': 0.8769434094429016, 'cur_kl_coeff': 0.8897423148155212, 'cur_lr': 4.999999873689376e-05, 'total_loss': 11.657798767089844}, 'sample_time_ms': 46422.486, 'num_steps_trained': 1905600, 'num_steps_sampled': 1905600, 'update_time_ms': 2.646, 'grad_time_ms': 377.007, 'load_time_ms': 0.673}",388,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+63344.572999715805,184536,4.000691972032875,1200,cda-server-2,16625.033559322357,f93d3d6710754a149751678a58e67540,282,1757118179,466800,-26.602532606679183,2334309,{},10.157.146.2,False,{},2025-09-06_02-22-59,4.280141843971631,1906800,3.5689747956295097,0,47.473081827163696,1589,"{'default': {'policy_loss': -0.058156948536634445, 'vf_explained_var': 0.505536675453186, 'vf_loss': 7.718118667602539, 'kl': 0.015940451994538307, 'entropy': 0.6930487751960754, 'cur_kl_coeff': 0.8897423148155212, 'cur_lr': 4.999999873689376e-05, 'total_loss': 7.674144268035889}, 'sample_time_ms': 46789.962, 'num_steps_trained': 1906800, 'num_steps_sampled': 1906800, 'update_time_ms': 2.639, 'grad_time_ms': 376.738, 'load_time_ms': 0.667}",389,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+63391.97896504402,184814,4.000630718587525,1200,cda-server-2,16672.439524650574,f93d3d6710754a149751678a58e67540,278,1757118227,468000,-41.93510011010531,2334309,{},10.157.146.2,False,{},2025-09-06_02-23-47,4.330935251798561,1908000,3.4788514426037875,0,47.40596532821655,1590,"{'default': {'policy_loss': -0.05971435829997063, 'vf_explained_var': 0.4958500266075134, 'vf_loss': 18.47064971923828, 'kl': 0.023802898824214935, 'entropy': 0.7413482069969177, 'cur_kl_coeff': 0.8897423148155212, 'cur_lr': 4.999999873689376e-05, 'total_loss': 18.432111740112305}, 'sample_time_ms': 46889.02, 'num_steps_trained': 1908000, 'num_steps_sampled': 1908000, 'update_time_ms': 2.639, 'grad_time_ms': 376.465, 'load_time_ms': 0.662}",390,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+63439.125634908676,185095,4.001493643738351,1200,cda-server-2,16719.58619451523,f93d3d6710754a149751678a58e67540,281,1757118274,469200,-48.68698411626751,2334309,{},10.157.146.2,False,{},2025-09-06_02-24-34,4.277580071174377,1909200,3.5601394281371515,0,47.14666986465454,1591,"{'default': {'policy_loss': -0.06024554744362831, 'vf_explained_var': 0.5269180536270142, 'vf_loss': 16.936067581176758, 'kl': 0.01829909160733223, 'entropy': 0.7308100461959839, 'cur_kl_coeff': 1.3346134424209595, 'cur_lr': 4.999999873689376e-05, 'total_loss': 16.900245666503906}, 'sample_time_ms': 46968.247, 'num_steps_trained': 1909200, 'num_steps_sampled': 1909200, 'update_time_ms': 2.659, 'grad_time_ms': 379.018, 'load_time_ms': 0.681}",391,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+63486.68543243408,185377,4.001388277720294,1200,cda-server-2,16767.145992040634,f93d3d6710754a149751678a58e67540,282,1757118321,470400,-27.514420583916134,2334309,{},10.157.146.2,False,{},2025-09-06_02-25-21,4.24113475177305,1910400,3.622711972624856,0,47.559797525405884,1592,"{'default': {'policy_loss': -0.060801420360803604, 'vf_explained_var': 0.5042464733123779, 'vf_loss': 7.769266128540039, 'kl': 0.012026442214846611, 'entropy': 0.49798059463500977, 'cur_kl_coeff': 1.3346134424209595, 'cur_lr': 4.999999873689376e-05, 'total_loss': 7.724515438079834}, 'sample_time_ms': 47084.821, 'num_steps_trained': 1910400, 'num_steps_sampled': 1910400, 'update_time_ms': 2.663, 'grad_time_ms': 376.74, 'load_time_ms': 0.68}",392,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+63534.1639316082,185657,4.001455965701644,1200,cda-server-2,16814.624491214752,f93d3d6710754a149751678a58e67540,280,1757118369,471600,-24.96089343220104,2334309,{},10.157.146.2,False,{},2025-09-06_02-26-09,4.285714285714286,1911600,3.5578155752103133,0,47.47849917411804,1593,"{'default': {'policy_loss': -0.05704556033015251, 'vf_explained_var': 0.4862327575683594, 'vf_loss': 10.131421089172363, 'kl': 0.018773244693875313, 'entropy': 0.7038066387176514, 'cur_kl_coeff': 1.3346134424209595, 'cur_lr': 4.999999873689376e-05, 'total_loss': 10.099430084228516}, 'sample_time_ms': 47039.902, 'num_steps_trained': 1911600, 'num_steps_sampled': 1911600, 'update_time_ms': 2.683, 'grad_time_ms': 377.896, 'load_time_ms': 0.684}",393,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+63580.940623521805,185936,4.000957818955348,1200,cda-server-2,16861.401183128357,f93d3d6710754a149751678a58e67540,279,1757118416,472800,-28.35561460515494,2334309,{},10.157.146.2,False,{},2025-09-06_02-26-56,4.311827956989247,1912800,3.5238843283392103,0,46.776691913604736,1594,"{'default': {'policy_loss': -0.06499853730201721, 'vf_explained_var': 0.4926680326461792, 'vf_loss': 12.900650024414062, 'kl': 0.015675440430641174, 'entropy': 0.8017170429229736, 'cur_kl_coeff': 1.3346134424209595, 'cur_lr': 4.999999873689376e-05, 'total_loss': 12.856571197509766}, 'sample_time_ms': 46951.698, 'num_steps_trained': 1912800, 'num_steps_sampled': 1912800, 'update_time_ms': 2.636, 'grad_time_ms': 375.974, 'load_time_ms': 0.671}",394,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+63628.71539735794,186229,4.000739494436217,1200,cda-server-2,16909.175956964493,f93d3d6710754a149751678a58e67540,293,1757118463,474000,-19.967923971189606,2334309,{},10.157.146.2,False,{},2025-09-06_02-27-43,4.088737201365188,1914000,3.8634011113333733,0,47.774773836135864,1595,"{'default': {'policy_loss': -0.05292891710996628, 'vf_explained_var': 0.7453122735023499, 'vf_loss': 2.4004909992218018, 'kl': 0.005182528402656317, 'entropy': 0.3601190149784088, 'cur_kl_coeff': 1.3346134424209595, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.354478597640991}, 'sample_time_ms': 46889.762, 'num_steps_trained': 1914000, 'num_steps_sampled': 1914000, 'update_time_ms': 2.579, 'grad_time_ms': 375.497, 'load_time_ms': 0.673}",395,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+63676.80386519432,186524,4.000779339028805,1200,cda-server-2,16957.264424800873,f93d3d6710754a149751678a58e67540,295,1757118512,475200,-18.43697447256419,2334309,{},10.157.146.2,False,{},2025-09-06_02-28-32,4.067796610169491,1915200,3.8931808645359665,0,48.088467836380005,1596,"{'default': {'policy_loss': -0.0379730649292469, 'vf_explained_var': 0.7925131916999817, 'vf_loss': 1.8413861989974976, 'kl': 0.004060470964759588, 'entropy': 0.2832827866077423, 'cur_kl_coeff': 1.3346134424209595, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.8088324069976807}, 'sample_time_ms': 46963.953, 'num_steps_trained': 1915200, 'num_steps_sampled': 1915200, 'update_time_ms': 2.576, 'grad_time_ms': 375.88, 'load_time_ms': 0.672}",396,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+63723.72946357727,186787,4.001381990457567,1200,cda-server-2,17004.190023183823,f93d3d6710754a149751678a58e67540,263,1757118558,476400,-64.92394492190544,2334309,{},10.157.146.2,False,{},2025-09-06_02-29-18,4.4638783269961975,1916400,3.2639182071239934,0,46.92559838294983,1597,"{'default': {'policy_loss': -0.07713410258293152, 'vf_explained_var': 0.460430771112442, 'vf_loss': 51.31098556518555, 'kl': 0.018897738307714462, 'entropy': 1.2681546211242676, 'cur_kl_coeff': 0.6673067212104797, 'cur_lr': 4.999999873689376e-05, 'total_loss': 51.2464599609375}, 'sample_time_ms': 46952.054, 'num_steps_trained': 1916400, 'num_steps_sampled': 1916400, 'update_time_ms': 2.577, 'grad_time_ms': 375.337, 'load_time_ms': 0.676}",397,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+63771.30319261551,187082,4.0008296003549795,1200,cda-server-2,17051.76375222206,f93d3d6710754a149751678a58e67540,295,1757118606,477600,-63.016879491823346,2334309,{},10.157.146.2,False,{},2025-09-06_02-30-06,4.149152542372882,1917600,3.7731005313051726,0,47.573729038238525,1598,"{'default': {'policy_loss': -0.05999664589762688, 'vf_explained_var': 0.9221384525299072, 'vf_loss': 0.82655930519104, 'kl': 0.022508732974529266, 'entropy': 0.3525561988353729, 'cur_kl_coeff': 0.6673067212104797, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.7815828323364258}, 'sample_time_ms': 47034.417, 'num_steps_trained': 1917600, 'num_steps_sampled': 1917600, 'update_time_ms': 2.549, 'grad_time_ms': 376.542, 'load_time_ms': 0.677}",398,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+63818.68663930893,187382,4.000720313263678,1200,cda-server-2,17099.14719891548,f93d3d6710754a149751678a58e67540,300,1757118653,478800,4.0001192006516675,2334309,{},10.157.146.2,False,{},2025-09-06_02-30-53,4.0,1918800,4.0002863459772895,0,47.38344669342041,1599,"{'default': {'policy_loss': -0.07890786230564117, 'vf_explained_var': 0.9867082238197327, 'vf_loss': 0.06968630105257034, 'kl': 0.02744089625775814, 'entropy': 0.16439394652843475, 'cur_kl_coeff': 1.000960111618042, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.018245670944452286}, 'sample_time_ms': 47024.368, 'num_steps_trained': 1918800, 'num_steps_sampled': 1918800, 'update_time_ms': 2.549, 'grad_time_ms': 377.646, 'load_time_ms': 0.689}",399,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+63866.25278568268,187679,4.001815878251332,1200,cda-server-2,17146.71334528923,f93d3d6710754a149751678a58e67540,297,1757118701,480000,-6.055138720025418,2334309,{},10.157.146.2,False,{},2025-09-06_02-31-41,4.040404040404041,1920000,3.9394119590352643,0,47.56614637374878,1600,"{'default': {'policy_loss': -0.028440548107028008, 'vf_explained_var': 0.8449782133102417, 'vf_loss': 1.006824016571045, 'kl': 0.009057868272066116, 'entropy': 0.19621771574020386, 'cur_kl_coeff': 1.501440167427063, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.9919832944869995}, 'sample_time_ms': 47039.74, 'num_steps_trained': 1920000, 'num_steps_sampled': 1920000, 'update_time_ms': 2.529, 'grad_time_ms': 378.35, 'load_time_ms': 0.701}",400,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+63914.23215818405,187977,4.001181206151565,1200,cda-server-2,17194.692717790604,f93d3d6710754a149751678a58e67540,298,1757118749,481200,-4.618053001537927,2334309,{},10.157.146.2,False,{},2025-09-06_02-32-29,4.026845637583893,1921200,3.958054364771083,0,47.97937250137329,1601,"{'default': {'policy_loss': -0.04123927280306816, 'vf_explained_var': 0.9077643156051636, 'vf_loss': 0.5390158891677856, 'kl': 0.005488904658704996, 'entropy': 0.1851910948753357, 'cur_kl_coeff': 1.501440167427063, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.5060179233551025}, 'sample_time_ms': 47125.158, 'num_steps_trained': 1921200, 'num_steps_sampled': 1921200, 'update_time_ms': 2.535, 'grad_time_ms': 376.193, 'load_time_ms': 0.683}",401,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+63961.60643863678,188277,4.0010554673036225,1200,cda-server-2,17242.066998243332,f93d3d6710754a149751678a58e67540,300,1757118797,482400,4.000125383492751,2334309,{},10.157.146.2,False,{},2025-09-06_02-33-17,4.0,1922400,4.0002846049241665,0,47.37428045272827,1602,"{'default': {'policy_loss': -0.09987501055002213, 'vf_explained_var': 0.9977638721466064, 'vf_loss': 0.011984056793153286, 'kl': 0.02729840949177742, 'entropy': 0.13039594888687134, 'cur_kl_coeff': 1.501440167427063, 'cur_lr': 4.999999873689376e-05, 'total_loss': -0.046904031187295914}, 'sample_time_ms': 47106.705, 'num_steps_trained': 1922400, 'num_steps_sampled': 1922400, 'update_time_ms': 2.55, 'grad_time_ms': 376.08, 'load_time_ms': 0.683}",402,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+64009.54521250725,188565,4.000669838474475,1200,cda-server-2,17290.0057721138,f93d3d6710754a149751678a58e67540,288,1757118845,483600,-38.72267258475348,2334309,{},10.157.146.2,False,{},2025-09-06_02-34-05,4.166666666666667,1923600,3.7333886803607865,0,47.93877387046814,1603,"{'default': {'policy_loss': -0.04438961669802666, 'vf_explained_var': 0.6852593421936035, 'vf_loss': 8.689266204833984, 'kl': 0.004406277555972338, 'entropy': 0.49945777654647827, 'cur_kl_coeff': 2.25216007232666, 'cur_lr': 4.999999873689376e-05, 'total_loss': 8.654800415039062}, 'sample_time_ms': 47153.228, 'num_steps_trained': 1923600, 'num_steps_sampled': 1923600, 'update_time_ms': 2.549, 'grad_time_ms': 375.547, 'load_time_ms': 0.687}",403,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+64056.88717389107,188845,4.001195784186969,1200,cda-server-2,17337.34773349762,f93d3d6710754a149751678a58e67540,280,1757118892,484800,-31.28865995522309,2334309,{},10.157.146.2,False,{},2025-09-06_02-34-52,4.303571428571429,1924800,3.5256633377160282,0,47.34196138381958,1604,"{'default': {'policy_loss': -0.06444302946329117, 'vf_explained_var': 0.5456793308258057, 'vf_loss': 12.47039794921875, 'kl': 0.01243612077087164, 'entropy': 0.8096596002578735, 'cur_kl_coeff': 1.12608003616333, 'cur_lr': 4.999999873689376e-05, 'total_loss': 12.41995906829834}, 'sample_time_ms': 47207.307, 'num_steps_trained': 1924800, 'num_steps_sampled': 1924800, 'update_time_ms': 2.573, 'grad_time_ms': 377.925, 'load_time_ms': 0.692}",404,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+64104.96583867073,189132,4.0006817309651295,1200,cda-server-2,17385.426398277283,f93d3d6710754a149751678a58e67540,287,1757118940,486000,-35.67034335748011,2334309,{},10.157.146.2,False,{},2025-09-06_02-35-40,4.174216027874564,1926000,3.7301122191496265,0,48.078664779663086,1605,"{'default': {'policy_loss': -0.05302143841981888, 'vf_explained_var': 0.6359398365020752, 'vf_loss': 6.007308483123779, 'kl': 0.01632273755967617, 'entropy': 0.5683239698410034, 'cur_kl_coeff': 1.12608003616333, 'cur_lr': 4.999999873689376e-05, 'total_loss': 5.972667217254639}, 'sample_time_ms': 47237.531, 'num_steps_trained': 1926000, 'num_steps_sampled': 1926000, 'update_time_ms': 2.609, 'grad_time_ms': 378.072, 'load_time_ms': 0.687}",405,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+64152.4589574337,189421,4.00090385213643,1200,cda-server-2,17432.919517040253,f93d3d6710754a149751678a58e67540,289,1757118987,487200,-17.379324280137677,2334309,{},10.157.146.2,False,{},2025-09-06_02-36-27,4.14878892733564,1927200,3.767869447965855,0,47.49311876296997,1606,"{'default': {'policy_loss': -0.05018285661935806, 'vf_explained_var': 0.6801440715789795, 'vf_loss': 3.663039207458496, 'kl': 0.01136530190706253, 'entropy': 0.48731082677841187, 'cur_kl_coeff': 1.12608003616333, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.625654458999634}, 'sample_time_ms': 47178.08, 'num_steps_trained': 1927200, 'num_steps_sampled': 1927200, 'update_time_ms': 2.6, 'grad_time_ms': 377.984, 'load_time_ms': 0.693}",406,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+64200.594651699066,189714,4.000858311870537,1200,cda-server-2,17481.05521130562,f93d3d6710754a149751678a58e67540,293,1757119036,488400,-15.976621832176512,2334309,{},10.157.146.2,False,{},2025-09-06_02-37-16,4.09556313993174,1928400,3.8450346049844826,0,48.1356942653656,1607,"{'default': {'policy_loss': -0.04821999371051788, 'vf_explained_var': 0.7121272087097168, 'vf_loss': 2.559725046157837, 'kl': 0.04441455379128456, 'entropy': 0.31225836277008057, 'cur_kl_coeff': 1.12608003616333, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.5615193843841553}, 'sample_time_ms': 47300.213, 'num_steps_trained': 1928400, 'num_steps_sampled': 1928400, 'update_time_ms': 2.605, 'grad_time_ms': 376.742, 'load_time_ms': 0.69}",407,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+64248.690153598785,189991,4.001469051364587,1200,cda-server-2,17529.150713205338,f93d3d6710754a149751678a58e67540,277,1757119084,489600,-50.71842839409839,2334309,{},10.157.146.2,False,{},2025-09-06_02-38-04,4.335740072202166,1929600,3.4626618530025954,0,48.09550189971924,1608,"{'default': {'policy_loss': -0.06217553839087486, 'vf_explained_var': 0.5066267848014832, 'vf_loss': 19.900203704833984, 'kl': 0.009025661274790764, 'entropy': 0.7883498668670654, 'cur_kl_coeff': 1.6891201734542847, 'cur_lr': 4.999999873689376e-05, 'total_loss': 19.853273391723633}, 'sample_time_ms': 47354.859, 'num_steps_trained': 1929600, 'num_steps_sampled': 1929600, 'update_time_ms': 2.639, 'grad_time_ms': 374.259, 'load_time_ms': 0.68}",408,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+64297.09677863121,190277,4.0014381463775015,1200,cda-server-2,17577.557338237762,f93d3d6710754a149751678a58e67540,286,1757119132,490800,-34.52178310017598,2334309,{},10.157.146.2,False,{},2025-09-06_02-38-52,4.143356643356643,1930800,3.777663813032514,0,48.40662503242493,1609,"{'default': {'policy_loss': -0.06947454065084457, 'vf_explained_var': 0.5924244523048401, 'vf_loss': 8.301713943481445, 'kl': 0.014851942658424377, 'entropy': 0.5378838777542114, 'cur_kl_coeff': 1.6891201734542847, 'cur_lr': 4.999999873689376e-05, 'total_loss': 8.257325172424316}, 'sample_time_ms': 47459.989, 'num_steps_trained': 1930800, 'num_steps_sampled': 1930800, 'update_time_ms': 2.64, 'grad_time_ms': 371.501, 'load_time_ms': 0.675}",409,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+64345.27672600746,190553,4.0014367787306835,1200,cda-server-2,17625.737285614014,f93d3d6710754a149751678a58e67540,276,1757119180,492000,-49.96589425745449,2334309,{},10.157.146.2,False,{},2025-09-06_02-39-40,4.278985507246377,1932000,3.5698690799744077,0,48.17994737625122,1610,"{'default': {'policy_loss': -0.06128077954053879, 'vf_explained_var': 0.5421419143676758, 'vf_loss': 30.531829833984375, 'kl': 0.012978661805391312, 'entropy': 0.8313679695129395, 'cur_kl_coeff': 1.6891201734542847, 'cur_lr': 4.999999873689376e-05, 'total_loss': 30.492469787597656}, 'sample_time_ms': 47523.155, 'num_steps_trained': 1932000, 'num_steps_sampled': 1932000, 'update_time_ms': 2.64, 'grad_time_ms': 369.76, 'load_time_ms': 0.668}",410,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+64393.81722521782,190847,4.016078944916796,1200,cda-server-2,17674.27778482437,f93d3d6710754a149751678a58e67540,294,1757119229,493200,-61.075398586670545,2334309,{},10.157.146.2,False,{},2025-09-06_02-40-29,4.200680272108843,1933200,3.69318634226393,0,48.540499210357666,1611,"{'default': {'policy_loss': -0.06369295716285706, 'vf_explained_var': 0.7776080369949341, 'vf_loss': 1.785062551498413, 'kl': 0.01129936520010233, 'entropy': 0.3353389799594879, 'cur_kl_coeff': 1.6891201734542847, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.7404558658599854}, 'sample_time_ms': 47576.513, 'num_steps_trained': 1933200, 'num_steps_sampled': 1933200, 'update_time_ms': 2.586, 'grad_time_ms': 372.522, 'load_time_ms': 0.665}",411,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+64442.10941839218,191132,4.001788111110109,1200,cda-server-2,17722.569977998734,f93d3d6710754a149751678a58e67540,285,1757119277,494400,-36.2384748384999,2334309,{},10.157.146.2,False,{},2025-09-06_02-41-17,4.203508771929824,1934400,3.6898021551288567,0,48.29219317436218,1612,"{'default': {'policy_loss': -0.05650949478149414, 'vf_explained_var': 0.5964949131011963, 'vf_loss': 10.191844940185547, 'kl': 0.00941425934433937, 'entropy': 0.5022919774055481, 'cur_kl_coeff': 1.6891201734542847, 'cur_lr': 4.999999873689376e-05, 'total_loss': 10.151238441467285}, 'sample_time_ms': 47667.825, 'num_steps_trained': 1934400, 'num_steps_sampled': 1934400, 'update_time_ms': 2.606, 'grad_time_ms': 372.919, 'load_time_ms': 0.652}",412,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+64490.32577800751,191415,4.001636970493674,1200,cda-server-2,17770.78633761406,f93d3d6710754a149751678a58e67540,283,1757119326,495600,-21.497848562744572,2334309,{},10.157.146.2,False,{},2025-09-06_02-42-06,4.240282685512367,1935600,3.618123890077643,0,48.21635961532593,1613,"{'default': {'policy_loss': -0.06647736579179764, 'vf_explained_var': 0.4952513873577118, 'vf_loss': 7.86594295501709, 'kl': 0.017883040010929108, 'entropy': 0.5717450380325317, 'cur_kl_coeff': 1.6891201734542847, 'cur_lr': 4.999999873689376e-05, 'total_loss': 7.829672813415527}, 'sample_time_ms': 47694.59, 'num_steps_trained': 1935600, 'num_steps_sampled': 1935600, 'update_time_ms': 2.607, 'grad_time_ms': 373.939, 'load_time_ms': 0.644}",413,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+64537.819211006165,191712,4.001826577731603,1200,cda-server-2,17818.279770612717,f93d3d6710754a149751678a58e67540,297,1757119373,496800,-2.9823665210857584,2334309,{},10.157.146.2,False,{},2025-09-06_02-42-53,4.02020202020202,1936800,3.9698308171645316,0,47.49343299865723,1614,"{'default': {'policy_loss': -0.023237373679876328, 'vf_explained_var': 0.9158013463020325, 'vf_loss': 0.9268249869346619, 'kl': 0.005100559908896685, 'entropy': 0.15272416174411774, 'cur_kl_coeff': 1.6891201734542847, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.9122029542922974}, 'sample_time_ms': 47712.061, 'num_steps_trained': 1936800, 'num_steps_sampled': 1936800, 'update_time_ms': 2.595, 'grad_time_ms': 371.699, 'load_time_ms': 0.645}",414,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+64585.67201042175,192003,4.0009344602436885,1200,cda-server-2,17866.132570028305,f93d3d6710754a149751678a58e67540,291,1757119421,498000,-21.06287837003759,2334309,{},10.157.146.2,False,{},2025-09-06_02-43-41,4.13745704467354,1938000,3.778009181802851,0,47.85279941558838,1615,"{'default': {'policy_loss': -0.059597160667181015, 'vf_explained_var': 0.8140957951545715, 'vf_loss': 1.4455304145812988, 'kl': 0.003408300457522273, 'entropy': 0.3394845724105835, 'cur_kl_coeff': 1.6891201734542847, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.3916901350021362}, 'sample_time_ms': 47691.147, 'num_steps_trained': 1938000, 'num_steps_sampled': 1938000, 'update_time_ms': 2.58, 'grad_time_ms': 369.967, 'load_time_ms': 0.647}",415,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+64633.8064661026,192290,4.001363923070788,1200,cda-server-2,17914.267025709152,f93d3d6710754a149751678a58e67540,287,1757119469,499200,-37.88656815204305,2334309,{},10.157.146.2,False,{},2025-09-06_02-44-29,4.181184668989547,1939200,3.7117755091525386,0,48.13445568084717,1616,"{'default': {'policy_loss': -0.05001341551542282, 'vf_explained_var': 0.522918164730072, 'vf_loss': 11.971952438354492, 'kl': 0.013391023501753807, 'entropy': 0.4431593418121338, 'cur_kl_coeff': 0.8445600867271423, 'cur_lr': 4.999999873689376e-05, 'total_loss': 11.933246612548828}, 'sample_time_ms': 47754.99, 'num_steps_trained': 1939200, 'num_steps_sampled': 1939200, 'update_time_ms': 2.584, 'grad_time_ms': 370.273, 'load_time_ms': 0.643}",416,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+64681.16543340683,192583,4.000708370831045,1200,cda-server-2,17961.625993013382,f93d3d6710754a149751678a58e67540,293,1757119516,500400,-7.956497189930879,2334309,{},10.157.146.2,False,{},2025-09-06_02-45-16,4.109215017064846,1940400,3.8259944875691048,0,47.358967304229736,1617,"{'default': {'policy_loss': -0.051750704646110535, 'vf_explained_var': 0.7962529063224792, 'vf_loss': 1.5660936832427979, 'kl': 0.016532646492123604, 'entropy': 0.3388209939002991, 'cur_kl_coeff': 0.8445600867271423, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.5283056497573853}, 'sample_time_ms': 47678.198, 'num_steps_trained': 1940400, 'num_steps_sampled': 1940400, 'update_time_ms': 2.584, 'grad_time_ms': 369.494, 'load_time_ms': 0.647}",417,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+64728.21875047684,192871,4.000838597487319,1200,cda-server-2,18008.67931008339,f93d3d6710754a149751678a58e67540,288,1757119563,501600,-29.536534784118984,2334309,{},10.157.146.2,False,{},2025-09-06_02-46-03,4.15625,1941600,3.762909553262679,0,47.053317070007324,1618,"{'default': {'policy_loss': -0.05153265222907066, 'vf_explained_var': 0.6291278004646301, 'vf_loss': 5.766419410705566, 'kl': 0.010121521539986134, 'entropy': 0.421242892742157, 'cur_kl_coeff': 0.8445600867271423, 'cur_lr': 4.999999873689376e-05, 'total_loss': 5.7234344482421875}, 'sample_time_ms': 47573.392, 'num_steps_trained': 1941600, 'num_steps_sampled': 1941600, 'update_time_ms': 2.552, 'grad_time_ms': 370.044, 'load_time_ms': 0.647}",418,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+64776.39095234871,193167,4.001592544304801,1200,cda-server-2,18056.85151195526,f93d3d6710754a149751678a58e67540,296,1757119612,502800,-8.507550942660721,2334309,{},10.157.146.2,False,{},2025-09-06_02-46-52,4.050675675675675,1942800,3.923984691477442,0,48.17220187187195,1619,"{'default': {'policy_loss': -0.04696337878704071, 'vf_explained_var': 0.8405396342277527, 'vf_loss': 1.0817753076553345, 'kl': 0.009122529998421669, 'entropy': 0.13063102960586548, 'cur_kl_coeff': 0.8445600867271423, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.0425163507461548}, 'sample_time_ms': 47549.853, 'num_steps_trained': 1942800, 'num_steps_sampled': 1942800, 'update_time_ms': 2.563, 'grad_time_ms': 370.127, 'load_time_ms': 0.646}",419,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+64824.09391975403,193459,4.00198439137185,1200,cda-server-2,18104.55447936058,f93d3d6710754a149751678a58e67540,292,1757119659,504000,-21.57980692358359,2334309,{},10.157.146.2,False,{},2025-09-06_02-47-39,4.116438356164384,1944000,3.8168776068704138,0,47.702967405319214,1620,"{'default': {'policy_loss': -0.05316205322742462, 'vf_explained_var': 0.7269508242607117, 'vf_loss': 3.0864851474761963, 'kl': 0.007473187521100044, 'entropy': 0.316311776638031, 'cur_kl_coeff': 0.8445600867271423, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.0396347045898438}, 'sample_time_ms': 47500.529, 'num_steps_trained': 1944000, 'num_steps_sampled': 1944000, 'update_time_ms': 2.605, 'grad_time_ms': 371.654, 'load_time_ms': 0.65}",420,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+64872.000539302826,193758,4.00064190794069,1200,cda-server-2,18152.461098909378,f93d3d6710754a149751678a58e67540,299,1757119707,505200,-4.024177207493734,2334309,{},10.157.146.2,False,{},2025-09-06_02-48-27,4.016722408026756,1945200,3.973430616049989,0,47.90661954879761,1621,"{'default': {'policy_loss': -0.012931657023727894, 'vf_explained_var': 0.9558209180831909, 'vf_loss': 0.2782498896121979, 'kl': 0.014209871180355549, 'entropy': 0.04871151223778725, 'cur_kl_coeff': 0.8445600867271423, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.27731937170028687}, 'sample_time_ms': 47438.402, 'num_steps_trained': 1945200, 'num_steps_sampled': 1945200, 'update_time_ms': 2.725, 'grad_time_ms': 370.335, 'load_time_ms': 0.655}",421,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+64920.32382321358,194045,4.002085458731491,1200,cda-server-2,18200.78438282013,f93d3d6710754a149751678a58e67540,287,1757119756,506400,-28.803504178842736,2334309,{},10.157.146.2,False,{},2025-09-06_02-49-16,4.170731707317073,1946400,3.734331119811289,0,48.32328391075134,1622,"{'default': {'policy_loss': -0.05128602311015129, 'vf_explained_var': 0.6498773097991943, 'vf_loss': 8.295992851257324, 'kl': 0.013540495187044144, 'entropy': 0.3858996331691742, 'cur_kl_coeff': 0.8445600867271423, 'cur_lr': 4.999999873689376e-05, 'total_loss': 8.256142616271973}, 'sample_time_ms': 47442.849, 'num_steps_trained': 1946400, 'num_steps_sampled': 1946400, 'update_time_ms': 2.683, 'grad_time_ms': 369.114, 'load_time_ms': 0.654}",422,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+64968.31940817833,194336,4.001634645565487,1200,cda-server-2,18248.77996778488,f93d3d6710754a149751678a58e67540,291,1757119804,507600,-27.13220265751218,2334309,{},10.157.146.2,False,{},2025-09-06_02-50-04,4.1271477663230245,1947600,3.7944007068881422,0,47.9955849647522,1623,"{'default': {'policy_loss': -0.042003363370895386, 'vf_explained_var': 0.5995701551437378, 'vf_loss': 6.664609909057617, 'kl': 0.011820303276181221, 'entropy': 0.4372354745864868, 'cur_kl_coeff': 0.8445600867271423, 'cur_lr': 4.999999873689376e-05, 'total_loss': 6.632588863372803}, 'sample_time_ms': 47421.779, 'num_steps_trained': 1947600, 'num_steps_sampled': 1947600, 'update_time_ms': 2.658, 'grad_time_ms': 368.152, 'load_time_ms': 0.664}",423,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+65015.78133606911,194636,4.0007648847544734,1200,cda-server-2,18296.24189567566,f93d3d6710754a149751678a58e67540,300,1757119851,508800,4.0001264923977535,2334309,{},10.157.146.2,False,{},2025-09-06_02-50-51,4.0,1948800,4.000272670292994,0,47.46192789077759,1624,"{'default': {'policy_loss': -0.07291311770677567, 'vf_explained_var': 0.9981968402862549, 'vf_loss': 0.009680185467004776, 'kl': 0.04048202559351921, 'entropy': 0.10169783234596252, 'cur_kl_coeff': 0.8445600867271423, 'cur_lr': 4.999999873689376e-05, 'total_loss': -0.02904343605041504}, 'sample_time_ms': 47417.441, 'num_steps_trained': 1948800, 'num_steps_sampled': 1948800, 'update_time_ms': 2.644, 'grad_time_ms': 369.326, 'load_time_ms': 0.667}",424,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+65063.370235681534,194926,4.0006466601467325,1200,cda-server-2,18343.830795288086,f93d3d6710754a149751678a58e67540,290,1757119899,510000,-19.25169229227556,2334309,{},10.157.146.2,False,{},2025-09-06_02-51-39,4.137931034482759,1950000,3.7813051211590256,0,47.58889961242676,1625,"{'default': {'policy_loss': -0.04521305114030838, 'vf_explained_var': 0.7052436470985413, 'vf_loss': 3.621941566467285, 'kl': 0.006527851335704327, 'entropy': 0.3496881127357483, 'cur_kl_coeff': 1.2668401002883911, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.58499813079834}, 'sample_time_ms': 47390.911, 'num_steps_trained': 1950000, 'num_steps_sampled': 1950000, 'update_time_ms': 2.647, 'grad_time_ms': 369.567, 'load_time_ms': 0.674}",425,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+65110.77705907822,195215,4.000832480738291,1200,cda-server-2,18391.23761868477,f93d3d6710754a149751678a58e67540,289,1757119946,511200,-44.38398075380721,2334309,{},10.157.146.2,False,{},2025-09-06_02-52-26,4.162629757785467,1951200,3.7429027581210463,0,47.40682339668274,1626,"{'default': {'policy_loss': -0.045981958508491516, 'vf_explained_var': 0.5985735058784485, 'vf_loss': 10.766159057617188, 'kl': 0.025211282074451447, 'entropy': 0.4208296239376068, 'cur_kl_coeff': 1.2668401002883911, 'cur_lr': 4.999999873689376e-05, 'total_loss': 10.752115249633789}, 'sample_time_ms': 47318.505, 'num_steps_trained': 1951200, 'num_steps_sampled': 1951200, 'update_time_ms': 2.64, 'grad_time_ms': 369.187, 'load_time_ms': 0.687}",426,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+65158.534770965576,195504,4.000727313959884,1200,cda-server-2,18438.99533057213,f93d3d6710754a149751678a58e67540,289,1757119994,512400,-32.81110766398416,2334309,{},10.157.146.2,False,{},2025-09-06_02-53-14,4.14878892733564,1952400,3.768180681979368,0,47.75771188735962,1627,"{'default': {'policy_loss': -0.0483279787003994, 'vf_explained_var': 0.6619151830673218, 'vf_loss': 6.726114273071289, 'kl': 0.006404891610145569, 'entropy': 0.3185451626777649, 'cur_kl_coeff': 1.900260329246521, 'cur_lr': 4.999999873689376e-05, 'total_loss': 6.689956188201904}, 'sample_time_ms': 47355.965, 'num_steps_trained': 1952400, 'num_steps_sampled': 1952400, 'update_time_ms': 2.637, 'grad_time_ms': 371.544, 'load_time_ms': 0.685}",427,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+65206.00909614563,195794,4.001158329029893,1200,cda-server-2,18486.469655752182,f93d3d6710754a149751678a58e67540,290,1757120041,513600,-18.58017079714327,2334309,{},10.157.146.2,False,{},2025-09-06_02-54-01,4.13103448275862,1953600,3.793416011866271,0,47.47432518005371,1628,"{'default': {'policy_loss': -0.050857849419116974, 'vf_explained_var': 0.646879255771637, 'vf_loss': 3.7868635654449463, 'kl': 0.008345797657966614, 'entropy': 0.33718496561050415, 'cur_kl_coeff': 1.900260329246521, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.7518649101257324}, 'sample_time_ms': 47396.532, 'num_steps_trained': 1953600, 'num_steps_sampled': 1953600, 'update_time_ms': 2.693, 'grad_time_ms': 373.005, 'load_time_ms': 0.699}",428,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+65253.40892481804,196085,4.00078660489652,1200,cda-server-2,18533.86948442459,f93d3d6710754a149751678a58e67540,291,1757120089,514800,-25.71399610665233,2334309,{},10.157.146.2,False,{},2025-09-06_02-54-49,4.130584192439863,1954800,3.802218995143865,0,47.39982867240906,1629,"{'default': {'policy_loss': -0.040473632514476776, 'vf_explained_var': 0.6830048561096191, 'vf_loss': 4.694278717041016, 'kl': 0.01035202294588089, 'entropy': 0.340043842792511, 'cur_kl_coeff': 1.900260329246521, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4.673476219177246}, 'sample_time_ms': 47317.331, 'num_steps_trained': 1954800, 'num_steps_sampled': 1954800, 'update_time_ms': 2.683, 'grad_time_ms': 374.986, 'load_time_ms': 0.703}",429,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+65300.81047511101,196371,4.001107211356702,1200,cda-server-2,18581.27103471756,f93d3d6710754a149751678a58e67540,286,1757120136,516000,-19.542619691033497,2334309,{},10.157.146.2,False,{},2025-09-06_02-55-36,4.1923076923076925,1956000,3.6992251129271865,0,47.40155029296875,1630,"{'default': {'policy_loss': -0.05332030728459358, 'vf_explained_var': 0.6508083939552307, 'vf_loss': 4.362518310546875, 'kl': 0.011783508583903313, 'entropy': 0.3611827790737152, 'cur_kl_coeff': 1.900260329246521, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4.331590175628662}, 'sample_time_ms': 47287.051, 'num_steps_trained': 1956000, 'num_steps_sampled': 1956000, 'update_time_ms': 2.634, 'grad_time_ms': 375.187, 'load_time_ms': 0.701}",430,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+65348.65164351463,196667,4.000775447284147,1200,cda-server-2,18629.112203121185,f93d3d6710754a149751678a58e67540,296,1757120184,517200,-6.704037907918984,2334309,{},10.157.146.2,False,{},2025-09-06_02-56-24,4.050675675675675,1957200,3.9233020359374384,0,47.84116840362549,1631,"{'default': {'policy_loss': -0.029985692352056503, 'vf_explained_var': 0.8615533113479614, 'vf_loss': 0.9089940190315247, 'kl': 0.006860816851258278, 'entropy': 0.19473566114902496, 'cur_kl_coeff': 1.900260329246521, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.8920457363128662}, 'sample_time_ms': 47279.875, 'num_steps_trained': 1957200, 'num_steps_sampled': 1957200, 'update_time_ms': 2.623, 'grad_time_ms': 375.778, 'load_time_ms': 0.702}",431,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+65395.89603948593,196962,4.001192445347176,1200,cda-server-2,18676.356599092484,f93d3d6710754a149751678a58e67540,295,1757120231,518400,-25.77245335782642,2334309,{},10.157.146.2,False,{},2025-09-06_02-57-11,4.064406779661017,1958400,3.8993373680900008,0,47.24439597129822,1632,"{'default': {'policy_loss': -0.034168507903814316, 'vf_explained_var': 0.7490219473838806, 'vf_loss': 3.770907402038574, 'kl': 0.008045156486332417, 'entropy': 0.14024880528450012, 'cur_kl_coeff': 1.900260329246521, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.7520272731781006}, 'sample_time_ms': 47171.708, 'num_steps_trained': 1958400, 'num_steps_sampled': 1958400, 'update_time_ms': 2.651, 'grad_time_ms': 376.026, 'load_time_ms': 0.703}",432,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+65443.6332321167,197258,4.000769855182608,1200,cda-server-2,18724.09379172325,f93d3d6710754a149751678a58e67540,296,1757120279,519600,-15.378077105877512,2334309,{},10.157.146.2,False,{},2025-09-06_02-57-59,4.050675675675675,1959600,3.920919352115916,0,47.73719263076782,1633,"{'default': {'policy_loss': -0.03253655135631561, 'vf_explained_var': 0.8179411292076111, 'vf_loss': 1.5417141914367676, 'kl': 0.004649931564927101, 'entropy': 0.18191805481910706, 'cur_kl_coeff': 1.900260329246521, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.518013596534729}, 'sample_time_ms': 47147.783, 'num_steps_trained': 1959600, 'num_steps_sampled': 1959600, 'update_time_ms': 2.645, 'grad_time_ms': 374.114, 'load_time_ms': 0.698}",433,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+65491.085624456406,197558,4.0009661233548695,1200,cda-server-2,18771.546184062958,f93d3d6710754a149751678a58e67540,300,1757120327,520800,4.000120429623305,2334309,{},10.157.146.2,False,{},2025-09-06_02-58-47,4.0,1960800,4.0002732009497945,0,47.45239233970642,1634,"{'default': {'policy_loss': -0.09049864113330841, 'vf_explained_var': 0.998772382736206, 'vf_loss': 0.006593658123165369, 'kl': 0.033137574791908264, 'entropy': 0.06194068863987923, 'cur_kl_coeff': 0.9501301646232605, 'cur_lr': 4.999999873689376e-05, 'total_loss': -0.05241997539997101}, 'sample_time_ms': 47147.997, 'num_steps_trained': 1960800, 'num_steps_sampled': 1960800, 'update_time_ms': 2.624, 'grad_time_ms': 373.009, 'load_time_ms': 0.686}",434,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+65538.44234895706,197856,4.000839513765982,1200,cda-server-2,18818.902908563614,f93d3d6710754a149751678a58e67540,298,1757120374,522000,-11.114597769096221,2334309,{},10.157.146.2,False,{},2025-09-06_02-59-34,4.030201342281879,1962000,3.9495541781475536,0,47.35672450065613,1635,"{'default': {'policy_loss': -0.026511486619710922, 'vf_explained_var': 0.8791510462760925, 'vf_loss': 0.9892270565032959, 'kl': 0.0031736246310174465, 'entropy': 0.17030994594097137, 'cur_kl_coeff': 1.4251950979232788, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.9672385454177856}, 'sample_time_ms': 47123.276, 'num_steps_trained': 1962000, 'num_steps_sampled': 1962000, 'update_time_ms': 2.582, 'grad_time_ms': 374.537, 'load_time_ms': 0.682}",435,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+65586.098985672,198154,4.0006930459079095,1200,cda-server-2,18866.55954527855,f93d3d6710754a149751678a58e67540,298,1757120422,523200,-6.910312827199952,2334309,{},10.157.146.2,False,{},2025-09-06_03-00-22,4.026845637583893,1963200,3.960348132418944,0,47.6566367149353,1636,"{'default': {'policy_loss': -0.026651332154870033, 'vf_explained_var': 0.9200406670570374, 'vf_loss': 0.5105417966842651, 'kl': 0.010469128377735615, 'entropy': 0.1270241141319275, 'cur_kl_coeff': 0.7125975489616394, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.4913506507873535}, 'sample_time_ms': 47147.666, 'num_steps_trained': 1963200, 'num_steps_sampled': 1963200, 'update_time_ms': 2.612, 'grad_time_ms': 375.122, 'load_time_ms': 0.668}",436,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+65634.60424590111,198445,4.000761558043976,1200,cda-server-2,18915.06480550766,f93d3d6710754a149751678a58e67540,291,1757120470,524400,-32.64765795470452,2334309,{},10.157.146.2,False,{},2025-09-06_03-01-10,4.123711340206185,1964400,3.8034125214082484,0,48.50526022911072,1637,"{'default': {'policy_loss': -0.042401134967803955, 'vf_explained_var': 0.7596861720085144, 'vf_loss': 5.52998161315918, 'kl': 0.005131447222083807, 'entropy': 0.4342213273048401, 'cur_kl_coeff': 0.7125975489616394, 'cur_lr': 4.999999873689376e-05, 'total_loss': 5.491236686706543}, 'sample_time_ms': 47221.273, 'num_steps_trained': 1964400, 'num_steps_sampled': 1964400, 'update_time_ms': 2.643, 'grad_time_ms': 376.187, 'load_time_ms': 0.684}",437,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+65682.88122963905,198745,4.00084412335948,1200,cda-server-2,18963.341789245605,f93d3d6710754a149751678a58e67540,300,1757120518,525600,4.000134969906714,2334309,{},10.157.146.2,False,{},2025-09-06_03-01-58,4.0,1965600,4.000267112477524,0,48.27698373794556,1638,"{'default': {'policy_loss': -0.06657048314809799, 'vf_explained_var': 0.996107816696167, 'vf_loss': 0.02108095772564411, 'kl': 0.048273101449012756, 'entropy': 0.13804063200950623, 'cur_kl_coeff': 0.7125975489616394, 'cur_lr': 4.999999873689376e-05, 'total_loss': -0.011090225540101528}, 'sample_time_ms': 47301.423, 'num_steps_trained': 1965600, 'num_steps_sampled': 1965600, 'update_time_ms': 2.621, 'grad_time_ms': 376.358, 'load_time_ms': 0.678}",438,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+65730.21020674706,199044,4.000667282917217,1200,cda-server-2,19010.670766353607,f93d3d6710754a149751678a58e67540,299,1757120566,526800,-4.033500492177005,2334309,{},10.157.146.2,False,{},2025-09-06_03-02-46,4.016722408026756,1966800,3.973393068032609,0,47.32897710800171,1639,"{'default': {'policy_loss': -0.039347197860479355, 'vf_explained_var': 0.9487069249153137, 'vf_loss': 0.3022279739379883, 'kl': 0.012891747988760471, 'entropy': 0.1583303064107895, 'cur_kl_coeff': 1.0688962936401367, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.2766607105731964}, 'sample_time_ms': 47293.92, 'num_steps_trained': 1966800, 'num_steps_sampled': 1966800, 'update_time_ms': 2.607, 'grad_time_ms': 376.74, 'load_time_ms': 0.684}",439,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+65778.04639792442,199340,4.001104212179398,1200,cda-server-2,19058.506957530975,f93d3d6710754a149751678a58e67540,296,1757120614,528000,-17.718004735504365,2334309,{},10.157.146.2,False,{},2025-09-06_03-03-34,4.0574324324324325,1968000,3.9035886105348525,0,47.836191177368164,1640,"{'default': {'policy_loss': -0.03370651975274086, 'vf_explained_var': 0.8340930938720703, 'vf_loss': 1.7246328592300415, 'kl': 0.00842532142996788, 'entropy': 0.16431403160095215, 'cur_kl_coeff': 1.0688962936401367, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.699932336807251}, 'sample_time_ms': 47336.987, 'num_steps_trained': 1968000, 'num_steps_sampled': 1968000, 'update_time_ms': 2.622, 'grad_time_ms': 377.086, 'load_time_ms': 0.681}",440,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+65826.02494263649,199624,4.000601445237294,1200,cda-server-2,19106.485502243042,f93d3d6710754a149751678a58e67540,284,1757120662,529200,-33.720857756916466,2334309,{},10.157.146.2,False,{},2025-09-06_03-04-22,4.23943661971831,1969200,3.6143849436996516,0,47.97854471206665,1641,"{'default': {'policy_loss': -0.050913915038108826, 'vf_explained_var': 0.6298602223396301, 'vf_loss': 10.426217079162598, 'kl': 0.02654920518398285, 'entropy': 0.4689953029155731, 'cur_kl_coeff': 1.0688962936401367, 'cur_lr': 4.999999873689376e-05, 'total_loss': 10.403682708740234}, 'sample_time_ms': 47349.983, 'num_steps_trained': 1969200, 'num_steps_sampled': 1969200, 'update_time_ms': 2.618, 'grad_time_ms': 377.874, 'load_time_ms': 0.693}",441,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+65873.81930184364,199882,4.000676675119645,1200,cda-server-2,19154.279861450195,f93d3d6710754a149751678a58e67540,258,1757120710,530400,-49.86610892362039,2334309,{},10.157.146.2,False,{},2025-09-06_03-05-10,4.635658914728682,1970400,3.0029404515633717,0,47.79435920715332,1642,"{'default': {'policy_loss': -0.08398585021495819, 'vf_explained_var': 0.470644474029541, 'vf_loss': 33.30304718017578, 'kl': 0.0120300417765975, 'entropy': 1.3361761569976807, 'cur_kl_coeff': 1.6033445596694946, 'cur_lr': 4.999999873689376e-05, 'total_loss': 33.23834991455078}, 'sample_time_ms': 47404.829, 'num_steps_trained': 1970400, 'num_steps_sampled': 1970400, 'update_time_ms': 2.62, 'grad_time_ms': 377.999, 'load_time_ms': 0.699}",442,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+65922.34409809113,200164,4.000712538280092,1200,cda-server-2,19202.804657697678,f93d3d6710754a149751678a58e67540,282,1757120758,531600,-48.32398069894801,2334309,{},10.157.146.2,False,{},2025-09-06_03-05-58,4.212765957446808,1971600,3.666220904421436,0,48.5247962474823,1643,"{'default': {'policy_loss': -0.06348294764757156, 'vf_explained_var': 0.6095330715179443, 'vf_loss': 16.65891456604004, 'kl': 0.008165884763002396, 'entropy': 0.5912259817123413, 'cur_kl_coeff': 1.6033445596694946, 'cur_lr': 4.999999873689376e-05, 'total_loss': 16.6085262298584}, 'sample_time_ms': 47480.066, 'num_steps_trained': 1971600, 'num_steps_sampled': 1971600, 'update_time_ms': 2.63, 'grad_time_ms': 381.463, 'load_time_ms': 0.708}",443,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+65969.74980688095,200444,4.000792718288268,1200,cda-server-2,19250.210366487503,f93d3d6710754a149751678a58e67540,280,1757120806,532800,-43.78897813904211,2334309,{},10.157.146.2,False,{},2025-09-06_03-06-46,4.339285714285714,1972800,3.4697730231525252,0,47.40570878982544,1644,"{'default': {'policy_loss': -0.06305687129497528, 'vf_explained_var': 0.5843989849090576, 'vf_loss': 14.972013473510742, 'kl': 0.008982622064650059, 'entropy': 0.704613983631134, 'cur_kl_coeff': 1.6033445596694946, 'cur_lr': 4.999999873689376e-05, 'total_loss': 14.923359870910645}, 'sample_time_ms': 47473.764, 'num_steps_trained': 1972800, 'num_steps_sampled': 1972800, 'update_time_ms': 2.641, 'grad_time_ms': 383.077, 'load_time_ms': 0.718}",444,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+66017.55762529373,200727,4.000918723030381,1200,cda-server-2,19298.018184900284,f93d3d6710754a149751678a58e67540,283,1757120853,534000,-28.895418349281485,2334309,{},10.157.146.2,False,{},2025-09-06_03-07-33,4.23321554770318,1974000,3.629986007113293,0,47.80781841278076,1645,"{'default': {'policy_loss': -0.059502437710762024, 'vf_explained_var': 0.6623157858848572, 'vf_loss': 6.841184616088867, 'kl': 0.008747434243559837, 'entropy': 0.5293578505516052, 'cur_kl_coeff': 1.6033445596694946, 'cur_lr': 4.999999873689376e-05, 'total_loss': 6.795708179473877}, 'sample_time_ms': 47517.787, 'num_steps_trained': 1974000, 'num_steps_sampled': 1974000, 'update_time_ms': 2.646, 'grad_time_ms': 384.145, 'load_time_ms': 0.725}",445,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+66065.12723064423,201010,4.000708333856641,1200,cda-server-2,19345.58779025078,f93d3d6710754a149751678a58e67540,283,1757120901,535200,-38.32571517451191,2334309,{},10.157.146.2,False,{},2025-09-06_03-08-21,4.243816254416961,1975200,3.623283480690262,0,47.569605350494385,1646,"{'default': {'policy_loss': -0.04777519404888153, 'vf_explained_var': 0.5415626764297485, 'vf_loss': 12.612213134765625, 'kl': 0.016956061124801636, 'entropy': 0.65352463722229, 'cur_kl_coeff': 1.6033445596694946, 'cur_lr': 4.999999873689376e-05, 'total_loss': 12.591625213623047}, 'sample_time_ms': 47511.573, 'num_steps_trained': 1975200, 'num_steps_sampled': 1975200, 'update_time_ms': 2.637, 'grad_time_ms': 381.706, 'load_time_ms': 0.724}",446,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+66112.13390350342,201303,4.000774125488402,1200,cda-server-2,19392.59446310997,f93d3d6710754a149751678a58e67540,293,1757120948,536400,-22.885874616573567,2334309,{},10.157.146.2,False,{},2025-09-06_03-09-08,4.098976109215017,1976400,3.8380599128082937,0,47.006672859191895,1647,"{'default': {'policy_loss': -0.040302351117134094, 'vf_explained_var': 0.6939874887466431, 'vf_loss': 4.230567932128906, 'kl': 0.0071160513907670975, 'entropy': 0.29434144496917725, 'cur_kl_coeff': 1.6033445596694946, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4.201674938201904}, 'sample_time_ms': 47365.334, 'num_steps_trained': 1976400, 'num_steps_sampled': 1976400, 'update_time_ms': 2.567, 'grad_time_ms': 378.258, 'load_time_ms': 0.707}",447,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+66159.21601128578,201589,4.000690546460213,1200,cda-server-2,19439.676570892334,f93d3d6710754a149751678a58e67540,286,1757120995,537600,-29.05723779136467,2334309,{},10.157.146.2,False,{},2025-09-06_03-09-55,4.153846153846154,1977600,3.759125068428209,0,47.08210778236389,1648,"{'default': {'policy_loss': -0.06131590157747269, 'vf_explained_var': 0.5657162070274353, 'vf_loss': 9.114757537841797, 'kl': 0.009465551935136318, 'entropy': 0.3942166864871979, 'cur_kl_coeff': 1.6033445596694946, 'cur_lr': 4.999999873689376e-05, 'total_loss': 9.068617820739746}, 'sample_time_ms': 47248.405, 'num_steps_trained': 1977600, 'num_steps_sampled': 1977600, 'update_time_ms': 2.56, 'grad_time_ms': 375.743, 'load_time_ms': 0.7}",448,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+66207.06537365913,201874,4.000654500743946,1200,cda-server-2,19487.525933265686,f93d3d6710754a149751678a58e67540,285,1757121043,538800,-32.77598624089691,2334309,{},10.157.146.2,False,{},2025-09-06_03-10-43,4.23859649122807,1978800,3.6333206254025012,0,47.84936237335205,1649,"{'default': {'policy_loss': -0.06019461899995804, 'vf_explained_var': 0.5772254467010498, 'vf_loss': 8.512520790100098, 'kl': 0.008945479057729244, 'entropy': 0.5326219201087952, 'cur_kl_coeff': 1.6033445596694946, 'cur_lr': 4.999999873689376e-05, 'total_loss': 8.466670036315918}, 'sample_time_ms': 47300.103, 'num_steps_trained': 1978800, 'num_steps_sampled': 1978800, 'update_time_ms': 2.557, 'grad_time_ms': 376.053, 'load_time_ms': 0.692}",449,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+66254.80196642876,202168,4.000849733984013,1200,cda-server-2,19535.26252603531,f93d3d6710754a149751678a58e67540,294,1757121091,540000,-25.182502002174353,2334309,{},10.157.146.2,False,{},2025-09-06_03-11-31,4.08843537414966,1980000,3.8594635879708514,0,47.7365927696228,1650,"{'default': {'policy_loss': -0.04264940321445465, 'vf_explained_var': 0.7755383253097534, 'vf_loss': 3.8234329223632812, 'kl': 0.006620627827942371, 'entropy': 0.23513028025627136, 'cur_kl_coeff': 1.6033445596694946, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.791398763656616}, 'sample_time_ms': 47292.284, 'num_steps_trained': 1980000, 'num_steps_sampled': 1980000, 'update_time_ms': 2.557, 'grad_time_ms': 373.96, 'load_time_ms': 0.687}",450,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+66303.11939764023,202459,4.000666963817267,1200,cda-server-2,19583.57995724678,f93d3d6710754a149751678a58e67540,291,1757121139,541200,-19.180441104178517,2334309,{},10.157.146.2,False,{},2025-09-06_03-12-19,4.130584192439863,1981200,3.7993924542099897,0,48.31743121147156,1651,"{'default': {'policy_loss': -0.03561858832836151, 'vf_explained_var': 0.6783048510551453, 'vf_loss': 3.3174777030944824, 'kl': 0.007950196042656898, 'entropy': 0.3775385618209839, 'cur_kl_coeff': 1.6033445596694946, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.2946062088012695}, 'sample_time_ms': 47329.146, 'num_steps_trained': 1981200, 'num_steps_sampled': 1981200, 'update_time_ms': 2.5, 'grad_time_ms': 370.993, 'load_time_ms': 0.693}",451,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+66350.71851062775,202740,4.000833954624946,1200,cda-server-2,19631.1790702343,f93d3d6710754a149751678a58e67540,281,1757121187,542400,-56.35422226787199,2334309,{},10.157.146.2,False,{},2025-09-06_03-13-07,4.2562277580071175,1982400,3.599377520002389,0,47.59911298751831,1652,"{'default': {'policy_loss': -0.06930157542228699, 'vf_explained_var': 0.5441776514053345, 'vf_loss': 20.198257446289062, 'kl': 0.010739510878920555, 'entropy': 0.5661101937294006, 'cur_kl_coeff': 1.6033445596694946, 'cur_lr': 4.999999873689376e-05, 'total_loss': 20.14617156982422}, 'sample_time_ms': 47308.02, 'num_steps_trained': 1982400, 'num_steps_sampled': 1982400, 'update_time_ms': 2.491, 'grad_time_ms': 372.558, 'load_time_ms': 0.685}",452,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+66398.05032157898,203028,4.000594971620135,1200,cda-server-2,19678.51088118553,f93d3d6710754a149751678a58e67540,288,1757121234,543600,-27.546913577649725,2334309,{},10.157.146.2,False,{},2025-09-06_03-13-54,4.170138888888889,1983600,3.736868114222448,0,47.33181095123291,1653,"{'default': {'policy_loss': -0.05227980017662048, 'vf_explained_var': 0.610449492931366, 'vf_loss': 5.848050117492676, 'kl': 0.007902221754193306, 'entropy': 0.3442346155643463, 'cur_kl_coeff': 1.6033445596694946, 'cur_lr': 4.999999873689376e-05, 'total_loss': 5.8084397315979}, 'sample_time_ms': 47191.319, 'num_steps_trained': 1983600, 'num_steps_sampled': 1983600, 'update_time_ms': 2.519, 'grad_time_ms': 369.914, 'load_time_ms': 0.676}",453,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+66445.797062397,203326,4.000673881829487,1200,cda-server-2,19726.257622003555,f93d3d6710754a149751678a58e67540,298,1757121282,544800,-2.0719735792444993,2334309,{},10.157.146.2,False,{},2025-09-06_03-14-42,4.026845637583893,1984800,3.9595977996681246,0,47.74674081802368,1654,"{'default': {'policy_loss': -0.03460940346121788, 'vf_explained_var': 0.913182258605957, 'vf_loss': 0.5156552791595459, 'kl': 0.010755617171525955, 'entropy': 0.15828341245651245, 'cur_kl_coeff': 1.6033445596694946, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.49829086661338806}, 'sample_time_ms': 47225.941, 'num_steps_trained': 1984800, 'num_steps_sampled': 1984800, 'update_time_ms': 2.558, 'grad_time_ms': 369.311, 'load_time_ms': 0.669}",454,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+66493.77753686905,203626,4.000946485702377,1200,cda-server-2,19774.2380964756,f93d3d6710754a149751678a58e67540,300,1757121330,546000,4.000126049844651,2334309,{},10.157.146.2,False,{},2025-09-06_03-15-30,4.0,1986000,4.000280726567178,0,47.9804744720459,1655,"{'default': {'policy_loss': -0.08965358138084412, 'vf_explained_var': 0.9981762766838074, 'vf_loss': 0.009597435593605042, 'kl': 0.023726558312773705, 'entropy': 0.04857998341321945, 'cur_kl_coeff': 1.6033445596694946, 'cur_lr': 4.999999873689376e-05, 'total_loss': -0.042014285922050476}, 'sample_time_ms': 47242.816, 'num_steps_trained': 1986000, 'num_steps_sampled': 1986000, 'update_time_ms': 2.603, 'grad_time_ms': 369.595, 'load_time_ms': 0.669}",455,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+66541.38364720345,203917,4.000618412834113,1200,cda-server-2,19821.844206809998,f93d3d6710754a149751678a58e67540,291,1757121377,547200,-32.29899409008723,2334309,{},10.157.146.2,False,{},2025-09-06_03-16-17,4.123711340206185,1987200,3.811332398326398,0,47.60611033439636,1656,"{'default': {'policy_loss': -0.0402386449277401, 'vf_explained_var': 0.650540292263031, 'vf_loss': 11.192577362060547, 'kl': 0.006179157644510269, 'entropy': 0.3394414186477661, 'cur_kl_coeff': 2.4050166606903076, 'cur_lr': 4.999999873689376e-05, 'total_loss': 11.167200088500977}, 'sample_time_ms': 47243.552, 'num_steps_trained': 1987200, 'num_steps_sampled': 1987200, 'update_time_ms': 2.623, 'grad_time_ms': 372.485, 'load_time_ms': 0.673}",456,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+66588.87368535995,204209,4.000658598890384,1200,cda-server-2,19869.334244966507,f93d3d6710754a149751678a58e67540,292,1757121425,548400,-16.30411036739071,2334309,{},10.157.146.2,False,{},2025-09-06_03-17-05,4.0993150684931505,1988400,3.8536785636493764,0,47.4900381565094,1657,"{'default': {'policy_loss': -0.04266553744673729, 'vf_explained_var': 0.6974788308143616, 'vf_loss': 3.197690725326538, 'kl': 0.006373723968863487, 'entropy': 0.2742365896701813, 'cur_kl_coeff': 2.4050166606903076, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.170353889465332}, 'sample_time_ms': 47289.683, 'num_steps_trained': 1988400, 'num_steps_sampled': 1988400, 'update_time_ms': 2.628, 'grad_time_ms': 374.662, 'load_time_ms': 0.673}",457,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+66636.88270783424,204493,4.000702659435349,1200,cda-server-2,19917.343267440796,f93d3d6710754a149751678a58e67540,284,1757121473,549600,-19.954752311409308,2334309,{},10.157.146.2,False,{},2025-09-06_03-17-53,4.23943661971831,1989600,3.622127763429298,0,48.00902247428894,1658,"{'default': {'policy_loss': -0.05354536324739456, 'vf_explained_var': 0.5681328177452087, 'vf_loss': 6.566930770874023, 'kl': 0.013351963832974434, 'entropy': 0.5023170709609985, 'cur_kl_coeff': 2.4050166606903076, 'cur_lr': 4.999999873689376e-05, 'total_loss': 6.545497417449951}, 'sample_time_ms': 47380.065, 'num_steps_trained': 1989600, 'num_steps_sampled': 1989600, 'update_time_ms': 2.612, 'grad_time_ms': 377.002, 'load_time_ms': 0.678}",458,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+66684.59001207352,204790,4.001332732015957,1200,cda-server-2,19965.05057168007,f93d3d6710754a149751678a58e67540,297,1757121521,550800,-0.026642213971655337,2334309,{},10.157.146.2,False,{},2025-09-06_03-18-41,4.01010101010101,1990800,3.9867235673858654,0,47.70730423927307,1659,"{'default': {'policy_loss': -0.02260707877576351, 'vf_explained_var': 0.8115726113319397, 'vf_loss': 1.9744938611984253, 'kl': 0.005197071935981512, 'entropy': 0.16295090317726135, 'cur_kl_coeff': 2.4050166606903076, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.964385747909546}, 'sample_time_ms': 47368.565, 'num_steps_trained': 1990800, 'num_steps_sampled': 1990800, 'update_time_ms': 2.639, 'grad_time_ms': 374.357, 'load_time_ms': 0.673}",459,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+66732.73470854759,205084,4.001822186340203,1200,cda-server-2,20013.195268154144,f93d3d6710754a149751678a58e67540,294,1757121569,552000,-20.55197572375028,2334309,{},10.157.146.2,False,{},2025-09-06_03-19-29,4.105442176870748,1992000,3.8319895399952664,0,48.14469647407532,1660,"{'default': {'policy_loss': -0.0390138104557991, 'vf_explained_var': 0.8445647954940796, 'vf_loss': 1.479906439781189, 'kl': 0.002550747711211443, 'entropy': 0.18270927667617798, 'cur_kl_coeff': 2.4050166606903076, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.4470272064208984}, 'sample_time_ms': 47407.811, 'num_steps_trained': 1992000, 'num_steps_sampled': 1992000, 'update_time_ms': 2.633, 'grad_time_ms': 375.899, 'load_time_ms': 0.682}",460,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+66780.2614402771,205384,4.0007531398746625,1200,cda-server-2,20060.72199988365,f93d3d6710754a149751678a58e67540,300,1757121616,553200,4.000123381819627,2334309,{},10.157.146.2,False,{},2025-09-06_03-20-16,4.0,1993200,4.000272094412993,0,47.526731729507446,1661,"{'default': {'policy_loss': -0.08553630858659744, 'vf_explained_var': 0.9986491799354553, 'vf_loss': 0.0072008660063147545, 'kl': 0.028392083942890167, 'entropy': 0.08564964681863785, 'cur_kl_coeff': 1.2025083303451538, 'cur_lr': 4.999999873689376e-05, 'total_loss': -0.04419371858239174}, 'sample_time_ms': 47327.284, 'num_steps_trained': 1993200, 'num_steps_sampled': 1993200, 'update_time_ms': 2.613, 'grad_time_ms': 377.437, 'load_time_ms': 0.661}",461,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+66827.96378207207,205682,4.000653168140067,1200,cda-server-2,20108.42434167862,f93d3d6710754a149751678a58e67540,298,1757121664,554400,-7.108477746626459,2334309,{},10.157.146.2,False,{},2025-09-06_03-21-04,4.0369127516778525,1994400,3.942786727907276,0,47.70234179496765,1662,"{'default': {'policy_loss': -0.03273141756653786, 'vf_explained_var': 0.8631870746612549, 'vf_loss': 0.897068977355957, 'kl': 0.0037835082039237022, 'entropy': 0.19409264624118805, 'cur_kl_coeff': 1.803762674331665, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.8711620569229126}, 'sample_time_ms': 47337.842, 'num_steps_trained': 1994400, 'num_steps_sampled': 1994400, 'update_time_ms': 2.599, 'grad_time_ms': 377.263, 'load_time_ms': 0.682}",462,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+66875.57712626457,205977,4.0007440907144645,1200,cda-server-2,20156.037685871124,f93d3d6710754a149751678a58e67540,295,1757121712,555600,-23.989055359002762,2334309,{},10.157.146.2,False,{},2025-09-06_03-21-52,4.061016949152543,1995600,3.905397020349202,0,47.61334419250488,1663,"{'default': {'policy_loss': -0.03494058921933174, 'vf_explained_var': 0.7567861080169678, 'vf_loss': 3.661590576171875, 'kl': 0.005833546165376902, 'entropy': 0.28001242876052856, 'cur_kl_coeff': 0.9018813371658325, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.631911039352417}, 'sample_time_ms': 47364.216, 'num_steps_trained': 1995600, 'num_steps_sampled': 1995600, 'update_time_ms': 2.585, 'grad_time_ms': 379.122, 'load_time_ms': 0.675}",463,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+66923.42564415932,206266,4.000742874480407,1200,cda-server-2,20203.88620376587,f93d3d6710754a149751678a58e67540,289,1757121760,556800,-77.48245720253476,2334309,{},10.157.146.2,False,{},2025-09-06_03-22-40,4.159169550173011,1996800,3.718331160311164,0,47.84851789474487,1664,"{'default': {'policy_loss': -0.05485163629055023, 'vf_explained_var': 0.720020592212677, 'vf_loss': 22.95770263671875, 'kl': 0.007291719317436218, 'entropy': 0.5293594598770142, 'cur_kl_coeff': 0.9018813371658325, 'cur_lr': 4.999999873689376e-05, 'total_loss': 22.9094295501709}, 'sample_time_ms': 47374.248, 'num_steps_trained': 1996800, 'num_steps_sampled': 1996800, 'update_time_ms': 2.587, 'grad_time_ms': 379.283, 'load_time_ms': 0.702}",464,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+66970.9480688572,206561,4.001037006505504,1200,cda-server-2,20251.408628463745,f93d3d6710754a149751678a58e67540,295,1757121807,558000,-17.544207976595484,2334309,{},10.157.146.2,False,{},2025-09-06_03-23-27,4.067796610169491,1998000,3.886519472546582,0,47.52242469787598,1665,"{'default': {'policy_loss': -0.003593047382310033, 'vf_explained_var': 0.774535596370697, 'vf_loss': 2.678989887237549, 'kl': 0.2180272787809372, 'entropy': 0.19660824537277222, 'cur_kl_coeff': 0.9018813371658325, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.8720316886901855}, 'sample_time_ms': 47329.653, 'num_steps_trained': 1998000, 'num_steps_sampled': 1998000, 'update_time_ms': 2.558, 'grad_time_ms': 378.139, 'load_time_ms': 0.693}",465,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+67015.18101882935,206852,4.001069104847316,1200,cda-server-2,20295.641578435898,f93d3d6710754a149751678a58e67540,291,1757121851,559200,-13.163420659431484,2334309,{},10.157.146.2,False,{},2025-09-06_03-24-11,4.106529209621993,1999200,3.8307577697140824,0,44.23294997215271,1666,"{'default': {'policy_loss': -0.04940802603960037, 'vf_explained_var': 0.6842879056930542, 'vf_loss': 3.0735673904418945, 'kl': 0.010271355509757996, 'entropy': 0.2553676962852478, 'cur_kl_coeff': 1.352821946144104, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.038054943084717}, 'sample_time_ms': 46995.184, 'num_steps_trained': 1999200, 'num_steps_sampled': 1999200, 'update_time_ms': 2.579, 'grad_time_ms': 375.205, 'load_time_ms': 0.696}",466,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+67060.36804485321,207147,4.001279521342454,1200,cda-server-2,20340.828604459763,f93d3d6710754a149751678a58e67540,295,1757121897,560400,-10.97980604842261,2334309,{},10.157.146.2,False,{},2025-09-06_03-24-57,4.074576271186441,2000400,3.8841430855330112,0,45.187026023864746,1667,"{'default': {'policy_loss': -0.03647778928279877, 'vf_explained_var': 0.7014427781105042, 'vf_loss': 2.2860097885131836, 'kl': 0.0046118381433188915, 'entropy': 0.22644442319869995, 'cur_kl_coeff': 1.352821946144104, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.255770683288574}, 'sample_time_ms': 46766.224, 'num_steps_trained': 2000400, 'num_steps_sampled': 2000400, 'update_time_ms': 2.593, 'grad_time_ms': 373.847, 'load_time_ms': 0.701}",467,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+67108.13858795166,207435,4.000745716769162,1200,cda-server-2,20388.599147558212,f93d3d6710754a149751678a58e67540,288,1757121944,561600,-19.967727372456114,2334309,{},10.157.146.2,False,{},2025-09-06_03-25-44,4.170138888888889,2001600,3.73312054733438,0,47.77054309844971,1668,"{'default': {'policy_loss': -0.052003681659698486, 'vf_explained_var': 0.6778706312179565, 'vf_loss': 4.66541862487793, 'kl': 0.008391221985220909, 'entropy': 0.4789724349975586, 'cur_kl_coeff': 0.676410973072052, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4.6190900802612305}, 'sample_time_ms': 46744.276, 'num_steps_trained': 2001600, 'num_steps_sampled': 2001600, 'update_time_ms': 2.583, 'grad_time_ms': 371.975, 'load_time_ms': 0.703}",468,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+67155.74977827072,207729,4.001208674908317,1200,cda-server-2,20436.210337877274,f93d3d6710754a149751678a58e67540,294,1757121992,562800,-18.492357076133807,2334309,{},10.157.146.2,False,{},2025-09-06_03-26-32,4.081632653061225,2002800,3.875596154829097,0,47.61119031906128,1669,"{'default': {'policy_loss': -0.04242900386452675, 'vf_explained_var': 0.7564542293548584, 'vf_loss': 2.431338310241699, 'kl': 0.02339518442749977, 'entropy': 0.23087729513645172, 'cur_kl_coeff': 0.676410973072052, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.4047341346740723}, 'sample_time_ms': 46732.986, 'num_steps_trained': 2002800, 'num_steps_sampled': 2002800, 'update_time_ms': 2.582, 'grad_time_ms': 373.589, 'load_time_ms': 0.701}",469,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+67203.54290890694,208026,4.0008226928735695,1200,cda-server-2,20484.00346851349,f93d3d6710754a149751678a58e67540,297,1757122040,564000,-13.19161530420348,2334309,{},10.157.146.2,False,{},2025-09-06_03-27-20,4.037037037037037,2004000,3.9423966270672754,0,47.79313063621521,1670,"{'default': {'policy_loss': -0.025920748710632324, 'vf_explained_var': 0.8720581531524658, 'vf_loss': 1.1084129810333252, 'kl': 0.006350250449031591, 'entropy': 0.11929333209991455, 'cur_kl_coeff': 1.0146164894104004, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.088935375213623}, 'sample_time_ms': 46697.167, 'num_steps_trained': 2004000, 'num_steps_sampled': 2004000, 'update_time_ms': 2.585, 'grad_time_ms': 374.254, 'load_time_ms': 0.693}",470,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+67251.28588151932,208322,4.0010983074383555,1200,cda-server-2,20531.74644112587,f93d3d6710754a149751678a58e67540,296,1757122088,565200,-12.337292534178502,2334309,{},10.157.146.2,False,{},2025-09-06_03-28-08,4.0608108108108105,2005200,3.910211335183816,0,47.74297261238098,1671,"{'default': {'policy_loss': -0.0335688553750515, 'vf_explained_var': 0.8075354099273682, 'vf_loss': 1.489824891090393, 'kl': 0.018698569387197495, 'entropy': 0.27047818899154663, 'cur_kl_coeff': 1.0146164894104004, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.4752280712127686}, 'sample_time_ms': 46720.517, 'num_steps_trained': 2005200, 'num_steps_sampled': 2005200, 'update_time_ms': 2.616, 'grad_time_ms': 372.469, 'load_time_ms': 0.701}",471,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+67298.56763005257,208605,4.000857936545651,1200,cda-server-2,20579.02818965912,f93d3d6710754a149751678a58e67540,283,1757122135,566400,-24.632105491285763,2334309,{},10.157.146.2,False,{},2025-09-06_03-28-55,4.18374558303887,2006400,3.7138113077284047,0,47.2817485332489,1672,"{'default': {'policy_loss': -0.04816845804452896, 'vf_explained_var': 0.5693673491477966, 'vf_loss': 9.897875785827637, 'kl': 0.010600096546113491, 'entropy': 0.5429092049598694, 'cur_kl_coeff': 1.0146164894104004, 'cur_lr': 4.999999873689376e-05, 'total_loss': 9.860462188720703}, 'sample_time_ms': 46678.09, 'num_steps_trained': 2006400, 'num_steps_sampled': 2006400, 'update_time_ms': 2.61, 'grad_time_ms': 372.831, 'load_time_ms': 0.703}",472,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+67346.06456422806,208897,4.00079227033808,1200,cda-server-2,20626.52512383461,f93d3d6710754a149751678a58e67540,292,1757122182,567600,-28.45146765045132,2334309,{},10.157.146.2,False,{},2025-09-06_03-29-42,4.174657534246576,2007600,3.725504630668793,0,47.49693417549133,1673,"{'default': {'policy_loss': -0.058108218014240265, 'vf_explained_var': 0.7469310164451599, 'vf_loss': 1.95550537109375, 'kl': 0.011538032442331314, 'entropy': 0.47508060932159424, 'cur_kl_coeff': 1.0146164894104004, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.9091038703918457}, 'sample_time_ms': 46667.455, 'num_steps_trained': 2007600, 'num_steps_sampled': 2007600, 'update_time_ms': 2.603, 'grad_time_ms': 371.828, 'load_time_ms': 0.713}",473,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+67394.04238605499,209182,4.000986180598605,1200,cda-server-2,20674.502945661545,f93d3d6710754a149751678a58e67540,285,1757122230,568800,-17.003735855933552,2334309,{},10.157.146.2,False,{},2025-09-06_03-30-30,4.196491228070175,2008800,3.69313255266705,0,47.977821826934814,1674,"{'default': {'policy_loss': -0.053415194153785706, 'vf_explained_var': 0.6242559552192688, 'vf_loss': 5.031917095184326, 'kl': 0.017744889482855797, 'entropy': 0.49457353353500366, 'cur_kl_coeff': 1.0146164894104004, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4.9965057373046875}, 'sample_time_ms': 46682.006, 'num_steps_trained': 2008800, 'num_steps_sampled': 2008800, 'update_time_ms': 2.556, 'grad_time_ms': 370.282, 'load_time_ms': 0.687}",474,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+67441.31111836433,209475,4.001882697433253,1200,cda-server-2,20721.771677970886,f93d3d6710754a149751678a58e67540,293,1757122278,570000,-17.248991242468186,2334309,{},10.157.146.2,False,{},2025-09-06_03-31-18,4.1058020477815695,2010000,3.8309153002178578,0,47.26873230934143,1675,"{'default': {'policy_loss': -0.04372525215148926, 'vf_explained_var': 0.7417739033699036, 'vf_loss': 2.5701780319213867, 'kl': 0.010791368782520294, 'entropy': 0.2814388871192932, 'cur_kl_coeff': 1.0146164894104004, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.5374021530151367}, 'sample_time_ms': 46658.762, 'num_steps_trained': 2010000, 'num_steps_sampled': 2010000, 'update_time_ms': 2.568, 'grad_time_ms': 368.16, 'load_time_ms': 0.686}",475,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+67489.29621338844,209772,4.00064112400654,1200,cda-server-2,20769.756772994995,f93d3d6710754a149751678a58e67540,297,1757122326,571200,-6.620304562630945,2334309,{},10.157.146.2,False,{},2025-09-06_03-32-06,4.033670033670034,2011200,3.948027176863236,0,47.98509502410889,1676,"{'default': {'policy_loss': -0.04324660822749138, 'vf_explained_var': 0.9163053035736084, 'vf_loss': 0.5546905994415283, 'kl': 0.0037526926025748253, 'entropy': 0.20264379680156708, 'cur_kl_coeff': 1.0146164894104004, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.5152515172958374}, 'sample_time_ms': 47031.684, 'num_steps_trained': 2011200, 'num_steps_sampled': 2011200, 'update_time_ms': 2.514, 'grad_time_ms': 370.565, 'load_time_ms': 0.682}",476,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+67535.81386137009,210066,4.0008690131715525,1200,cda-server-2,20816.27442097664,f93d3d6710754a149751678a58e67540,294,1757122372,572400,-18.89860699643517,2334309,{},10.157.146.2,False,{},2025-09-06_03-32-52,4.085034013605442,2012400,3.865806720498081,0,46.51764798164368,1677,"{'default': {'policy_loss': -0.035763535648584366, 'vf_explained_var': 0.7304689884185791, 'vf_loss': 2.972550392150879, 'kl': 0.007807288784533739, 'entropy': 0.24746663868427277, 'cur_kl_coeff': 0.5073082447052002, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.9407474994659424}, 'sample_time_ms': 47165.494, 'num_steps_trained': 2012400, 'num_steps_sampled': 2012400, 'update_time_ms': 2.507, 'grad_time_ms': 369.823, 'load_time_ms': 0.685}",477,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+67582.87584900856,210360,4.000823079934056,1200,cda-server-2,20863.336408615112,f93d3d6710754a149751678a58e67540,294,1757122419,573600,-11.328197601246199,2334309,{},10.157.146.2,False,{},2025-09-06_03-33-39,4.071428571428571,2013600,3.892482043003202,0,47.06198763847351,1678,"{'default': {'policy_loss': -0.039441272616386414, 'vf_explained_var': 0.8307105302810669, 'vf_loss': 1.512565016746521, 'kl': 0.01039748266339302, 'entropy': 0.27696099877357483, 'cur_kl_coeff': 0.5073082447052002, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.4783984422683716}, 'sample_time_ms': 47092.225, 'num_steps_trained': 2013600, 'num_steps_sampled': 2013600, 'update_time_ms': 2.549, 'grad_time_ms': 372.087, 'load_time_ms': 0.693}",478,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+67630.44080042839,210657,4.000735838652769,1200,cda-server-2,20910.901360034943,f93d3d6710754a149751678a58e67540,297,1757122467,574800,-13.291197238210408,2334309,{},10.157.146.2,False,{},2025-09-06_03-34-27,4.037037037037037,2014800,3.9420612600201332,0,47.56495141983032,1679,"{'default': {'policy_loss': -0.021830478683114052, 'vf_explained_var': 0.8609167337417603, 'vf_loss': 1.078092336654663, 'kl': 0.015271883457899094, 'entropy': 0.21795357763767242, 'cur_kl_coeff': 0.5073082447052002, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.0640093088150024}, 'sample_time_ms': 47089.504, 'num_steps_trained': 2014800, 'num_steps_sampled': 2014800, 'update_time_ms': 2.553, 'grad_time_ms': 370.202, 'load_time_ms': 0.695}",479,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+67678.3408548832,210956,4.00072991206927,1200,cda-server-2,20958.801414489746,f93d3d6710754a149751678a58e67540,299,1757122515,576000,-6.150503015571413,2334309,{},10.157.146.2,False,{},2025-09-06_03-35-15,4.0200668896321075,2016000,3.966334719272686,0,47.90005445480347,1680,"{'default': {'policy_loss': -0.02742471918463707, 'vf_explained_var': 0.9532321095466614, 'vf_loss': 0.2809211015701294, 'kl': 0.006132685113698244, 'entropy': 0.1905224323272705, 'cur_kl_coeff': 0.5073082447052002, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.2566075623035431}, 'sample_time_ms': 47100.921, 'num_steps_trained': 2016000, 'num_steps_sampled': 2016000, 'update_time_ms': 2.516, 'grad_time_ms': 369.516, 'load_time_ms': 0.703}",480,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+67726.13353276253,211252,4.000761724034022,1200,cda-server-2,21006.59409236908,f93d3d6710754a149751678a58e67540,296,1757122563,577200,-8.395856047109753,2334309,{},10.157.146.2,False,{},2025-09-06_03-36-03,4.0574324324324325,2017200,3.9099017926782342,0,47.792677879333496,1681,"{'default': {'policy_loss': -0.045623164623975754, 'vf_explained_var': 0.8741533756256104, 'vf_loss': 0.8455579280853271, 'kl': 0.009005320258438587, 'entropy': 0.19590292870998383, 'cur_kl_coeff': 0.5073082447052002, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.8045033812522888}, 'sample_time_ms': 47104.088, 'num_steps_trained': 2017200, 'num_steps_sampled': 2017200, 'update_time_ms': 2.55, 'grad_time_ms': 371.255, 'load_time_ms': 0.698}",481,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+67774.73841190338,211541,4.000623609213108,1200,cda-server-2,21055.198971509933,f93d3d6710754a149751678a58e67540,289,1757122611,578400,-17.706002618643407,2334309,{},10.157.146.2,False,{},2025-09-06_03-36-51,4.14878892733564,2018400,3.7662288686374614,0,48.60487914085388,1682,"{'default': {'policy_loss': -0.048392798751592636, 'vf_explained_var': 0.634380578994751, 'vf_loss': 4.367875099182129, 'kl': 0.014199753291904926, 'entropy': 0.3893495798110962, 'cur_kl_coeff': 0.5073082447052002, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4.326685428619385}, 'sample_time_ms': 47236.337, 'num_steps_trained': 2018400, 'num_steps_sampled': 2018400, 'update_time_ms': 2.576, 'grad_time_ms': 371.313, 'load_time_ms': 0.673}",482,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+67822.60694169998,211836,4.000529140533807,1200,cda-server-2,21103.067501306534,f93d3d6710754a149751678a58e67540,295,1757122659,579600,-26.90182357442781,2334309,{},10.157.146.2,False,{},2025-09-06_03-37-39,4.067796610169491,2019600,3.8955197284537078,0,47.86852979660034,1683,"{'default': {'policy_loss': -0.03187600150704384, 'vf_explained_var': 0.7690575122833252, 'vf_loss': 3.829347848892212, 'kl': 0.036835167557001114, 'entropy': 0.22990091145038605, 'cur_kl_coeff': 0.5073082447052002, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.816157817840576}, 'sample_time_ms': 47271.999, 'num_steps_trained': 2019600, 'num_steps_sampled': 2019600, 'update_time_ms': 2.592, 'grad_time_ms': 372.69, 'load_time_ms': 0.678}",483,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+67870.2783741951,212134,4.001017110620732,1200,cda-server-2,21150.73893380165,f93d3d6710754a149751678a58e67540,298,1757122707,580800,-5.075280025470406,2334309,{},10.157.146.2,False,{},2025-09-06_03-38-27,4.02013422818792,2020800,3.9698273111154583,0,47.67143249511719,1684,"{'default': {'policy_loss': -0.025530721992254257, 'vf_explained_var': 0.9401649832725525, 'vf_loss': 0.3533267378807068, 'kl': 0.007029299158602953, 'entropy': 0.13604728877544403, 'cur_kl_coeff': 0.7609623074531555, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.33314505219459534}, 'sample_time_ms': 47240.292, 'num_steps_trained': 2020800, 'num_steps_sampled': 2020800, 'update_time_ms': 2.597, 'grad_time_ms': 373.72, 'load_time_ms': 0.698}",484,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+67918.37966537476,212423,4.000734927897918,1200,cda-server-2,21198.840224981308,f93d3d6710754a149751678a58e67540,289,1757122755,582000,-25.21959636220609,2334309,{},10.157.146.2,False,{},2025-09-06_03-39-15,4.162629757785467,2022000,3.7336636970937733,0,48.10129117965698,1685,"{'default': {'policy_loss': -0.04997362196445465, 'vf_explained_var': 0.7180402278900146, 'vf_loss': 4.746486186981201, 'kl': 0.010537726804614067, 'entropy': 0.46727651357650757, 'cur_kl_coeff': 0.7609623074531555, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4.704531192779541}, 'sample_time_ms': 47322.52, 'num_steps_trained': 2022000, 'num_steps_sampled': 2022000, 'update_time_ms': 2.565, 'grad_time_ms': 374.798, 'load_time_ms': 0.707}",485,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+67966.0387878418,212722,4.001150008716399,1200,cda-server-2,21246.49934744835,f93d3d6710754a149751678a58e67540,299,1757122803,583200,-0.07641083083515454,2334309,{},10.157.146.2,False,{},2025-09-06_03-40-03,4.010033444816053,2023200,3.9866436717506604,0,47.659122467041016,1686,"{'default': {'policy_loss': -0.036044154316186905, 'vf_explained_var': 0.9631982445716858, 'vf_loss': 0.22250206768512726, 'kl': 0.009739338420331478, 'entropy': 0.19530078768730164, 'cur_kl_coeff': 0.7609623074531555, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.1938691884279251}, 'sample_time_ms': 47289.741, 'num_steps_trained': 2023200, 'num_steps_sampled': 2023200, 'update_time_ms': 2.582, 'grad_time_ms': 374.928, 'load_time_ms': 0.706}",486,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+68013.2058904171,213019,4.000704049820636,1200,cda-server-2,21293.66645002365,f93d3d6710754a149751678a58e67540,297,1757122850,584400,-7.025715863629898,2334309,{},10.157.146.2,False,{},2025-09-06_03-40-50,4.047138047138047,2024400,3.9268816492979544,0,47.167102575302124,1687,"{'default': {'policy_loss': -0.03620980679988861, 'vf_explained_var': 0.9152404069900513, 'vf_loss': 0.6176116466522217, 'kl': 0.011512311175465584, 'entropy': 0.27146047353744507, 'cur_kl_coeff': 0.7609623074531555, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.5901623368263245}, 'sample_time_ms': 47352.725, 'num_steps_trained': 2024400, 'num_steps_sampled': 2024400, 'update_time_ms': 2.589, 'grad_time_ms': 376.904, 'load_time_ms': 0.708}",487,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+68060.68223047256,213317,4.001753808199782,1200,cda-server-2,21341.142790079117,f93d3d6710754a149751678a58e67540,298,1757122897,585600,-8.288171427430271,2334309,{},10.157.146.2,False,{},2025-09-06_03-41-37,4.033557046979865,2025600,3.9490762059229048,0,47.4763400554657,1688,"{'default': {'policy_loss': -0.02182014472782612, 'vf_explained_var': 0.9091288447380066, 'vf_loss': 0.6092776656150818, 'kl': 0.011782416142523289, 'entropy': 0.17362718284130096, 'cur_kl_coeff': 0.7609623074531555, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.5964235067367554}, 'sample_time_ms': 47395.069, 'num_steps_trained': 2025600, 'num_steps_sampled': 2025600, 'update_time_ms': 2.573, 'grad_time_ms': 376.07, 'load_time_ms': 0.702}",488,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+68108.17785787582,213614,4.0008221456299005,1200,cda-server-2,21388.638417482376,f93d3d6710754a149751678a58e67540,297,1757122945,586800,-4.07280732415496,2334309,{},10.157.146.2,False,{},2025-09-06_03-42-25,4.040404040404041,2026800,3.936449171456258,0,47.49562740325928,1689,"{'default': {'policy_loss': -0.04332411661744118, 'vf_explained_var': 0.9415964484214783, 'vf_loss': 0.3431731164455414, 'kl': 0.01850930228829384, 'entropy': 0.2529851198196411, 'cur_kl_coeff': 0.7609623074531555, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.3139338493347168}, 'sample_time_ms': 47385.422, 'num_steps_trained': 2026800, 'num_steps_sampled': 2026800, 'update_time_ms': 2.564, 'grad_time_ms': 378.72, 'load_time_ms': 0.719}",489,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+68155.7382466793,213906,4.000939126803619,1200,cda-server-2,21436.198806285858,f93d3d6710754a149751678a58e67540,292,1757122992,588000,-22.93780029865438,2334309,{},10.157.146.2,False,{},2025-09-06_03-43-12,4.109589041095891,2028000,3.8325385096452074,0,47.560388803482056,1690,"{'default': {'policy_loss': -0.0486358106136322, 'vf_explained_var': 0.7044767737388611, 'vf_loss': 4.045401096343994, 'kl': 0.012474628165364265, 'entropy': 0.4298541247844696, 'cur_kl_coeff': 0.7609623074531555, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4.006258010864258}, 'sample_time_ms': 47352.529, 'num_steps_trained': 2028000, 'num_steps_sampled': 2028000, 'update_time_ms': 2.61, 'grad_time_ms': 377.537, 'load_time_ms': 0.727}",490,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+68203.47241306305,214206,4.000950221953154,1200,cda-server-2,21483.9329726696,f93d3d6710754a149751678a58e67540,300,1757123040,589200,4.0001221360110835,2334309,{},10.157.146.2,False,{},2025-09-06_03-44-00,4.0,2029200,4.000272271921052,0,47.734166383743286,1691,"{'default': {'policy_loss': -0.10764579474925995, 'vf_explained_var': 0.999165415763855, 'vf_loss': 0.0044347685761749744, 'kl': 0.04528486356139183, 'entropy': 0.2064126580953598, 'cur_kl_coeff': 0.7609623074531555, 'cur_lr': 4.999999873689376e-05, 'total_loss': -0.06875096261501312}, 'sample_time_ms': 47347.521, 'num_steps_trained': 2029200, 'num_steps_sampled': 2029200, 'update_time_ms': 2.572, 'grad_time_ms': 376.667, 'load_time_ms': 0.727}",491,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+68251.092263937,214502,4.000729056137406,1200,cda-server-2,21531.55282354355,f93d3d6710754a149751678a58e67540,296,1757123088,590400,-4.1411835981634795,2334309,{},10.157.146.2,False,{},2025-09-06_03-44-48,4.037162162162162,2030400,3.9405925717939367,0,47.619850873947144,1692,"{'default': {'policy_loss': -0.02199246734380722, 'vf_explained_var': 0.9376360774040222, 'vf_loss': 0.3733440339565277, 'kl': 0.0032350856345146894, 'entropy': 0.3070768117904663, 'cur_kl_coeff': 1.1414434909820557, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.3550442159175873}, 'sample_time_ms': 47248.775, 'num_steps_trained': 2030400, 'num_steps_sampled': 2030400, 'update_time_ms': 2.596, 'grad_time_ms': 376.853, 'load_time_ms': 0.744}",492,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+68298.51832342148,214798,4.0015326998940175,1200,cda-server-2,21578.97888302803,f93d3d6710754a149751678a58e67540,296,1757123135,591600,-15.707246108812171,2334309,{},10.157.146.2,False,{},2025-09-06_03-45-35,4.0574324324324325,2031600,3.9060528799540117,0,47.42605948448181,1693,"{'default': {'policy_loss': -0.03224121779203415, 'vf_explained_var': 0.7950551509857178, 'vf_loss': 1.673574447631836, 'kl': 0.009576673619449139, 'entropy': 0.26600897312164307, 'cur_kl_coeff': 0.5707217454910278, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.6467992067337036}, 'sample_time_ms': 47207.63, 'num_steps_trained': 2031600, 'num_steps_sampled': 2031600, 'update_time_ms': 2.574, 'grad_time_ms': 373.86, 'load_time_ms': 0.732}",493,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+68346.65993189812,215089,4.002166023841336,1200,cda-server-2,21627.12049150467,f93d3d6710754a149751678a58e67540,291,1757123183,592800,-17.00585450901143,2334309,{},10.157.146.2,False,{},2025-09-06_03-46-23,4.109965635738831,2032800,3.8280991452179354,0,48.141608476638794,1694,"{'default': {'policy_loss': -0.038488905876874924, 'vf_explained_var': 0.72245192527771, 'vf_loss': 2.53352689743042, 'kl': 0.015985898673534393, 'entropy': 0.42082512378692627, 'cur_kl_coeff': 0.5707217454910278, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.5041615962982178}, 'sample_time_ms': 47255.235, 'num_steps_trained': 2032800, 'num_steps_sampled': 2032800, 'update_time_ms': 2.58, 'grad_time_ms': 373.293, 'load_time_ms': 0.713}",494,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+68394.10221600533,215388,4.0008791384030875,1200,cda-server-2,21674.562775611877,f93d3d6710754a149751678a58e67540,299,1757123231,594000,-2.1653942601271403,2334309,{},10.157.146.2,False,{},2025-09-06_03-47-11,4.013377926421405,2034000,3.9796552696289735,0,47.44228410720825,1695,"{'default': {'policy_loss': -0.0379614382982254, 'vf_explained_var': 0.9681561589241028, 'vf_loss': 0.17471268773078918, 'kl': 0.011916950345039368, 'entropy': 0.18024440109729767, 'cur_kl_coeff': 0.5707217454910278, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.1435524970293045}, 'sample_time_ms': 47189.086, 'num_steps_trained': 2034000, 'num_steps_sampled': 2034000, 'update_time_ms': 2.598, 'grad_time_ms': 373.543, 'load_time_ms': 0.706}",495,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+68441.279681921,215684,4.00112107294844,1200,cda-server-2,21721.740241527557,f93d3d6710754a149751678a58e67540,296,1757123278,595200,-8.344819311822643,2334309,{},10.157.146.2,False,{},2025-09-06_03-47-58,4.074324324324325,2035200,3.8805261598454477,0,47.17746591567993,1696,"{'default': {'policy_loss': -0.03995102643966675, 'vf_explained_var': 0.8221836090087891, 'vf_loss': 1.3455027341842651, 'kl': 0.0314469076693058, 'entropy': 0.29175007343292236, 'cur_kl_coeff': 0.5707217454910278, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.323499321937561}, 'sample_time_ms': 47141.053, 'num_steps_trained': 2035200, 'num_steps_sampled': 2035200, 'update_time_ms': 2.601, 'grad_time_ms': 373.403, 'load_time_ms': 0.707}",496,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+68489.06025195122,215974,4.000703510548968,1200,cda-server-2,21769.52081155777,f93d3d6710754a149751678a58e67540,290,1757123326,596400,-32.91974319582454,2334309,{},10.157.146.2,False,{},2025-09-06_03-48-46,4.13448275862069,2036400,3.7867751961641254,0,47.7805700302124,1697,"{'default': {'policy_loss': -0.052718766033649445, 'vf_explained_var': 0.699354887008667, 'vf_loss': 5.610599994659424, 'kl': 0.008113550953567028, 'entropy': 0.447807252407074, 'cur_kl_coeff': 0.8560826182365417, 'cur_lr': 4.999999873689376e-05, 'total_loss': 5.5648274421691895}, 'sample_time_ms': 47201.3, 'num_steps_trained': 2036400, 'num_steps_sampled': 2036400, 'update_time_ms': 2.601, 'grad_time_ms': 374.472, 'load_time_ms': 0.715}",497,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+68536.27270317078,216253,4.000653019971629,1200,cda-server-2,21816.73326277733,f93d3d6710754a149751678a58e67540,279,1757123373,597600,-33.46417090594818,2334309,{},10.157.146.2,False,{},2025-09-06_03-49-33,4.304659498207886,2037600,3.5181244479053326,0,47.212451219558716,1698,"{'default': {'policy_loss': -0.06060459837317467, 'vf_explained_var': 0.5912679433822632, 'vf_loss': 11.835785865783691, 'kl': 0.016293860971927643, 'entropy': 0.6802012324333191, 'cur_kl_coeff': 0.8560826182365417, 'cur_lr': 4.999999873689376e-05, 'total_loss': 11.789130210876465}, 'sample_time_ms': 47176.279, 'num_steps_trained': 2037600, 'num_steps_sampled': 2037600, 'update_time_ms': 2.589, 'grad_time_ms': 373.122, 'load_time_ms': 0.722}",498,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+68584.10221815109,216545,4.0008653476824145,1200,cda-server-2,21864.562777757645,f93d3d6710754a149751678a58e67540,292,1757123421,598800,-16.989657028976477,2334309,{},10.157.146.2,False,{},2025-09-06_03-50-21,4.113013698630137,2038800,3.8179687925988093,0,47.82951498031616,1699,"{'default': {'policy_loss': -0.04044759273529053, 'vf_explained_var': 0.7402487397193909, 'vf_loss': 2.686117172241211, 'kl': 0.01710132509469986, 'entropy': 0.3507058620452881, 'cur_kl_coeff': 0.8560826182365417, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.6603097915649414}, 'sample_time_ms': 47210.328, 'num_steps_trained': 2038800, 'num_steps_sampled': 2038800, 'update_time_ms': 2.559, 'grad_time_ms': 372.537, 'load_time_ms': 0.711}",499,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'sgd_minibatch_size': 128, 'lr_schedule': None, 'simple_optimizer': False, 'log_level': 'INFO', 'tf_session_args': {'allow_soft_placement': True, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'env_config': {'generalize': False, 'run_valid': False}, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'lambda': 1.0, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_activation': 'relu', 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'input_evaluation': None, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'output_compress_columns': ['obs', 'new_obs'], 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'num_envs_per_worker': 1, 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'entropy_coeff': 0.0, 'num_cpus_per_worker': 1, 'gamma': 0.99, 'compress_observations': False, 'num_sgd_iter': 30}"
+68208.62707972527,214202,4.013636977485465,1200,cda-server-2,52.88883304595947,f93d3d6710754a149751678a58e67540,296,1757123510,1200,-16.319739836711562,2334312,{},10.157.146.2,False,{},2025-09-06_03-51-50,4.043918918918919,2029200,3.9316611998484694,0,52.88883304595947,1691,"{'default': {'policy_loss': -0.01976751536130905, 'vf_explained_var': 0.8356878161430359, 'vf_loss': 1.4915595054626465, 'kl': 0.08364884555339813, 'entropy': 0.2700338661670685, 'total_loss': 1.5354456901550293, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.7609623074531555}, 'sample_time_ms': 51729.945, 'num_steps_trained': 2029200, 'grad_time_ms': 655.563, 'update_time_ms': 448.08, 'num_steps_sampled': 2029200, 'load_time_ms': 32.656}",1,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+68256.18314623833,214487,4.0007689614727315,1200,cda-server-2,100.444899559021,f93d3d6710754a149751678a58e67540,285,1757123558,2400,-33.72771141734217,2334312,{},10.157.146.2,False,{},2025-09-06_03-52-38,4.196491228070175,2030400,3.6828295717889343,0,47.55606651306152,1692,"{'default': {'policy_loss': -0.05349719896912575, 'vf_explained_var': 0.6615421772003174, 'vf_loss': 8.287290573120117, 'kl': 0.02031330205500126, 'entropy': 0.4474388360977173, 'total_loss': 8.239888191223145, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.30000001192092896}, 'sample_time_ms': 49452.812, 'num_steps_trained': 2030400, 'grad_time_ms': 513.129, 'update_time_ms': 225.254, 'num_steps_sampled': 2030400, 'load_time_ms': 16.646}",2,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+68304.23196196556,214781,4.000652039767128,1200,cda-server-2,148.49371528625488,f93d3d6710754a149751678a58e67540,294,1757123606,3600,-28.28389136335477,2334312,{},10.157.146.2,False,{},2025-09-06_03-53-26,4.085034013605442,2031600,3.863180479777458,0,48.04881572723389,1693,"{'default': {'policy_loss': -0.0454145222902298, 'vf_explained_var': 0.7974056601524353, 'vf_loss': 3.532468318939209, 'kl': 0.014684359543025494, 'entropy': 0.3199016749858856, 'total_loss': 3.493661403656006, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.44999995827674866}, 'sample_time_ms': 48862.439, 'num_steps_trained': 2031600, 'grad_time_ms': 461.237, 'update_time_ms': 151.134, 'num_steps_sampled': 2031600, 'load_time_ms': 11.309}",3,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+68352.68085694313,215076,4.000810453331701,1200,cda-server-2,196.94261026382446,f93d3d6710754a149751678a58e67540,295,1757123654,4800,-16.047648163311358,2334312,{},10.157.146.2,False,{},2025-09-06_03-54-14,4.071186440677966,2032800,3.890679037424283,0,48.44889497756958,1694,"{'default': {'policy_loss': -0.035575948655605316, 'vf_explained_var': 0.7813090085983276, 'vf_loss': 1.9224098920822144, 'kl': 0.017528323456645012, 'entropy': 0.347859263420105, 'total_loss': 1.8947217464447021, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.44999995827674866}, 'sample_time_ms': 48663.275, 'num_steps_trained': 2032800, 'grad_time_ms': 439.259, 'update_time_ms': 113.995, 'num_steps_sampled': 2032800, 'load_time_ms': 8.641}",4,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+68399.96209907532,215370,4.000910689788833,1200,cda-server-2,244.22385239601135,f93d3d6710754a149751678a58e67540,294,1757123701,6000,-12.285881111694742,2334312,{},10.157.146.2,False,{},2025-09-06_03-55-01,4.051020408163265,2034000,3.9175615045226637,0,47.28124213218689,1695,"{'default': {'policy_loss': -0.05035151541233063, 'vf_explained_var': 0.7599982619285583, 'vf_loss': 2.795254707336426, 'kl': 0.02977473847568035, 'entropy': 0.2946924865245819, 'total_loss': 2.7583017349243164, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.44999995827674866}, 'sample_time_ms': 48307.746, 'num_steps_trained': 2034000, 'grad_time_ms': 428.622, 'update_time_ms': 91.766, 'num_steps_sampled': 2034000, 'load_time_ms': 7.059}",5,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+68449.12316179276,215663,4.0006373799121295,1200,cda-server-2,293.3849151134491,f93d3d6710754a149751678a58e67540,293,1757123751,7200,-21.40534877331102,2334312,{},10.157.146.2,False,{},2025-09-06_03-55-51,4.136518771331058,2035200,3.794529790102279,0,49.161062717437744,1696,"{'default': {'policy_loss': -0.048875462263822556, 'vf_explained_var': 0.823077917098999, 'vf_loss': 1.3661236763000488, 'kl': 0.015901336446404457, 'entropy': 0.32690441608428955, 'total_loss': 1.32798171043396, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.675000011920929}, 'sample_time_ms': 48384.135, 'num_steps_trained': 2035200, 'grad_time_ms': 421.423, 'update_time_ms': 76.981, 'num_steps_sampled': 2035200, 'load_time_ms': 5.988}",6,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+68496.32453656197,215956,4.000664227404364,1200,cda-server-2,340.5862898826599,f93d3d6710754a149751678a58e67540,293,1757123798,8400,-30.708198236007846,2334312,{},10.157.146.2,False,{},2025-09-06_03-56-38,4.085324232081911,2036400,3.868082960724366,0,47.201374769210815,1697,"{'default': {'policy_loss': -0.03768566995859146, 'vf_explained_var': 0.7555598020553589, 'vf_loss': 4.608272075653076, 'kl': 0.0073198419995605946, 'entropy': 0.4281150698661804, 'total_loss': 4.575527191162109, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.675000011920929}, 'sample_time_ms': 48162.34, 'num_steps_trained': 2036400, 'grad_time_ms': 412.749, 'update_time_ms': 66.346, 'num_steps_sampled': 2036400, 'load_time_ms': 5.23}",7,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+68543.57415819168,216252,4.00088350576627,1200,cda-server-2,387.8359115123749,f93d3d6710754a149751678a58e67540,296,1757123845,9600,-24.466161366385585,2334312,{},10.157.146.2,False,{},2025-09-06_03-57-25,4.0608108108108105,2037600,3.90411231605013,0,47.249621629714966,1698,"{'default': {'policy_loss': -0.03660673275589943, 'vf_explained_var': 0.7904979586601257, 'vf_loss': 2.8744912147521973, 'kl': 0.003402979811653495, 'entropy': 0.2574968934059143, 'total_loss': 2.8401811122894287, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.675000011920929}, 'sample_time_ms': 48002.144, 'num_steps_trained': 2037600, 'grad_time_ms': 406.14, 'update_time_ms': 58.343, 'num_steps_sampled': 2037600, 'load_time_ms': 4.662}",8,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+68592.02543354034,216541,4.000793896995995,1200,cda-server-2,436.2871868610382,f93d3d6710754a149751678a58e67540,289,1757123893,10800,-77.73849732152311,2334312,{},10.157.146.2,False,{},2025-09-06_03-58-13,4.159169550173011,2038800,3.7174507013265425,0,48.45127534866333,1699,"{'default': {'policy_loss': -0.05836937204003334, 'vf_explained_var': 0.5709015727043152, 'vf_loss': 44.27631759643555, 'kl': 0.01999138481914997, 'entropy': 0.42989832162857056, 'total_loss': 44.22468948364258, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.3375000059604645}, 'sample_time_ms': 48009.52, 'num_steps_trained': 2038800, 'grad_time_ms': 402.461, 'update_time_ms': 52.122, 'num_steps_sampled': 2038800, 'load_time_ms': 4.216}",9,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+68639.89805483818,216835,4.001816665154576,1200,cda-server-2,484.1598081588745,f93d3d6710754a149751678a58e67540,294,1757123941,12000,-31.58818855425259,2334312,{},10.157.146.2,False,{},2025-09-06_03-59-01,4.074829931972789,2040000,3.8792333841914304,0,47.872621297836304,1700,"{'default': {'policy_loss': -0.042594246566295624, 'vf_explained_var': 0.7682064175605774, 'vf_loss': 4.911655426025391, 'kl': 0.01592601090669632, 'entropy': 0.3297947943210602, 'total_loss': 4.874434947967529, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.3375000059604645}, 'sample_time_ms': 47958.886, 'num_steps_trained': 2040000, 'grad_time_ms': 398.183, 'update_time_ms': 47.222, 'num_steps_sampled': 2040000, 'load_time_ms': 3.859}",10,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+68687.10782432556,217134,4.000811479354411,1200,cda-server-2,531.3695776462555,f93d3d6710754a149751678a58e67540,299,1757123989,13200,-4.1022314888307125,2334312,{},10.157.146.2,False,{},2025-09-06_03-59-49,4.016722408026756,2041200,3.9731837162419845,0,47.20976948738098,1701,"{'default': {'policy_loss': -0.04076620563864708, 'vf_explained_var': 0.9117520451545715, 'vf_loss': 0.520469605922699, 'kl': 0.017611069604754448, 'entropy': 0.20933866500854492, 'total_loss': 0.48564714193344116, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.3375000059604645}, 'sample_time_ms': 47468.814, 'num_steps_trained': 2041200, 'grad_time_ms': 369.618, 'update_time_ms': 2.738, 'num_steps_sampled': 2041200, 'load_time_ms': 0.659}",11,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+68734.7637591362,217417,4.000692175023174,1200,cda-server-2,579.0255124568939,f93d3d6710754a149751678a58e67540,283,1757124036,14400,-23.6384946464145,2334312,{},10.157.146.2,False,{},2025-09-06_04-00-36,4.226148409893993,2042400,3.6445533220776953,0,47.65593481063843,1702,"{'default': {'policy_loss': -0.06731971353292465, 'vf_explained_var': 0.5844336748123169, 'vf_loss': 7.612641334533691, 'kl': 0.025853276252746582, 'entropy': 0.47205331921577454, 'total_loss': 7.554047584533691, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.3375000059604645}, 'sample_time_ms': 47477.365, 'num_steps_trained': 2042400, 'grad_time_ms': 371.055, 'update_time_ms': 2.784, 'num_steps_sampled': 2042400, 'load_time_ms': 0.672}",12,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+68782.76371526718,217713,4.000583550496391,1200,cda-server-2,627.0254685878754,f93d3d6710754a149751678a58e67540,296,1757124084,15600,-6.455455186312829,2334312,{},10.157.146.2,False,{},2025-09-06_04-01-24,4.050675675675675,2043600,3.9238271387365633,0,47.999956130981445,1703,"{'default': {'policy_loss': -0.0441594235599041, 'vf_explained_var': 0.8639953136444092, 'vf_loss': 0.8237677216529846, 'kl': 0.018624356016516685, 'entropy': 0.1888452023267746, 'total_loss': 0.7890368700027466, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.5062500238418579}, 'sample_time_ms': 47470.584, 'num_steps_trained': 2043600, 'grad_time_ms': 372.996, 'update_time_ms': 2.755, 'num_steps_sampled': 2043600, 'load_time_ms': 0.682}",13,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+68830.81465268135,218006,4.000853243505684,1200,cda-server-2,675.0764060020447,f93d3d6710754a149751678a58e67540,293,1757124132,16800,-29.040561439667236,2334312,{},10.157.146.2,False,{},2025-09-06_04-02-12,4.088737201365188,2044800,3.860952039796068,0,48.05093741416931,1704,"{'default': {'policy_loss': -0.040623970329761505, 'vf_explained_var': 0.7149940133094788, 'vf_loss': 4.77635383605957, 'kl': 0.015615906566381454, 'entropy': 0.4046437740325928, 'total_loss': 4.743636131286621, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.5062500238418579}, 'sample_time_ms': 47429.813, 'num_steps_trained': 2044800, 'grad_time_ms': 373.919, 'update_time_ms': 2.809, 'num_steps_sampled': 2044800, 'load_time_ms': 0.683}",14,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+68878.50288677216,218296,4.000764504057841,1200,cda-server-2,722.7646400928497,f93d3d6710754a149751678a58e67540,290,1757124180,18000,-36.04190135832352,2334312,{},10.157.146.2,False,{},2025-09-06_04-03-00,4.162068965517242,2046000,3.7371941608639863,0,47.688234090805054,1705,"{'default': {'policy_loss': -0.04693165794014931, 'vf_explained_var': 0.6943691968917847, 'vf_loss': 7.280675411224365, 'kl': 0.01599907875061035, 'entropy': 0.4409075677394867, 'total_loss': 7.241844177246094, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.5062500238418579}, 'sample_time_ms': 47471.409, 'num_steps_trained': 2046000, 'grad_time_ms': 372.97, 'update_time_ms': 2.801, 'num_steps_sampled': 2046000, 'load_time_ms': 0.677}",15,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+68926.19435834885,218596,4.000601876436524,1200,cda-server-2,770.4561116695404,f93d3d6710754a149751678a58e67540,300,1757124228,19200,4.000122590751224,2334312,{},10.157.146.2,False,{},2025-09-06_04-03-48,4.0,2047200,4.000275407532291,0,47.691471576690674,1706,"{'default': {'policy_loss': -0.08881863951683044, 'vf_explained_var': 0.9967570900917053, 'vf_loss': 0.01711004599928856, 'kl': 0.05939750373363495, 'entropy': 0.0916646346449852, 'total_loss': -0.04163862019777298, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.5062500238418579}, 'sample_time_ms': 47325.452, 'num_steps_trained': 2047200, 'grad_time_ms': 371.933, 'update_time_ms': 2.756, 'num_steps_sampled': 2047200, 'load_time_ms': 0.687}",16,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+68974.6370062828,218890,4.001732685707381,1200,cda-server-2,818.8987596035004,f93d3d6710754a149751678a58e67540,294,1757124276,20400,-8.979509224551787,2334312,{},10.157.146.2,False,{},2025-09-06_04-04-36,4.068027210884353,2048400,3.8971416153974214,0,48.44264793395996,1707,"{'default': {'policy_loss': -0.046793028712272644, 'vf_explained_var': 0.802284836769104, 'vf_loss': 1.5410535335540771, 'kl': 0.010741397738456726, 'entropy': 0.23722675442695618, 'total_loss': 1.5024174451828003, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.7593749761581421}, 'sample_time_ms': 47448.688, 'num_steps_trained': 2048400, 'grad_time_ms': 372.671, 'update_time_ms': 2.822, 'num_steps_sampled': 2048400, 'load_time_ms': 0.688}",17,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+69022.58563137054,219182,4.000960789080915,1200,cda-server-2,866.8473846912384,f93d3d6710754a149751678a58e67540,292,1757124324,21600,-13.598916894277927,2334312,{},10.157.146.2,False,{},2025-09-06_04-05-24,4.102739726027397,2049600,3.839782073545837,0,47.94862508773804,1708,"{'default': {'policy_loss': -0.04803233966231346, 'vf_explained_var': 0.6590206027030945, 'vf_loss': 3.188749313354492, 'kl': 0.017928145825862885, 'entropy': 0.27819857001304626, 'total_loss': 3.1543309688568115, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.7593749761581421}, 'sample_time_ms': 47516.208, 'num_steps_trained': 2049600, 'grad_time_ms': 374.902, 'update_time_ms': 2.874, 'num_steps_sampled': 2049600, 'load_time_ms': 0.682}",18,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+69070.47709798813,219473,4.001138293236507,1200,cda-server-2,914.7388513088226,f93d3d6710754a149751678a58e67540,291,1757124372,22800,-28.326453475738028,2334312,{},10.157.146.2,False,{},2025-09-06_04-06-12,4.140893470790378,2050800,3.777911331493357,0,47.89146661758423,1709,"{'default': {'policy_loss': -0.05990751460194588, 'vf_explained_var': 0.831792414188385, 'vf_loss': 1.7126344442367554, 'kl': 0.013762550428509712, 'entropy': 0.24926365911960602, 'total_loss': 1.663177728652954, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.7593749761581421}, 'sample_time_ms': 47459.515, 'num_steps_trained': 2050800, 'grad_time_ms': 375.664, 'update_time_ms': 2.882, 'num_steps_sampled': 2050800, 'load_time_ms': 0.706}",19,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+69117.80630326271,219773,4.000754289725209,1200,cda-server-2,962.0680565834045,f93d3d6710754a149751678a58e67540,300,1757124419,24000,4.000143431112445,2334312,{},10.157.146.2,False,{},2025-09-06_04-06-59,4.0,2052000,4.000279500561217,0,47.32920527458191,1710,"{'default': {'policy_loss': -0.10804803669452667, 'vf_explained_var': 0.9986591339111328, 'vf_loss': 0.00724650826305151, 'kl': 0.03302905708551407, 'entropy': 0.12897901237010956, 'total_loss': -0.07572010159492493, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.7593749761581421}, 'sample_time_ms': 47403.805, 'num_steps_trained': 2052000, 'grad_time_ms': 377.098, 'update_time_ms': 2.811, 'num_steps_sampled': 2052000, 'load_time_ms': 0.71}",20,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+69165.25835466385,220069,4.000933307756258,1200,cda-server-2,1009.5201079845428,f93d3d6710754a149751678a58e67540,296,1757124467,25200,-16.437434998925195,2334312,{},10.157.146.2,False,{},2025-09-06_04-07-47,4.043918918918919,2053200,3.9312469015891263,0,47.452051401138306,1711,"{'default': {'policy_loss': -0.032065264880657196, 'vf_explained_var': 0.8873894810676575, 'vf_loss': 1.1418676376342773, 'kl': 0.020380454137921333, 'entropy': 0.2348107248544693, 'total_loss': 1.1330170631408691, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.139062523841858}, 'sample_time_ms': 47426.499, 'num_steps_trained': 2053200, 'grad_time_ms': 378.773, 'update_time_ms': 2.757, 'num_steps_sampled': 2053200, 'load_time_ms': 0.708}",21,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+69212.47570848465,220363,4.000792186707737,1200,cda-server-2,1056.7374618053436,f93d3d6710754a149751678a58e67540,294,1757124514,26400,-22.47684756529806,2334312,{},10.157.146.2,False,{},2025-09-06_04-08-34,4.08843537414966,2054400,3.859987633009913,0,47.21735382080078,1712,"{'default': {'policy_loss': -0.04018624499440193, 'vf_explained_var': 0.7888742089271545, 'vf_loss': 3.1000475883483887, 'kl': 0.016939649358391762, 'entropy': 0.34157875180244446, 'total_loss': 3.0888044834136963, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.708593726158142}, 'sample_time_ms': 47381.968, 'num_steps_trained': 2054400, 'grad_time_ms': 379.456, 'update_time_ms': 2.713, 'num_steps_sampled': 2054400, 'load_time_ms': 0.707}",22,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+69260.60576581955,220652,4.001110564520908,1200,cda-server-2,1104.8675191402435,f93d3d6710754a149751678a58e67540,289,1757124562,27600,-23.086616936359675,2334312,{},10.157.146.2,False,{},2025-09-06_04-09-22,4.1522491349480966,2055600,3.755122099336344,0,48.1300573348999,1713,"{'default': {'policy_loss': -0.040142521262168884, 'vf_explained_var': 0.6702030897140503, 'vf_loss': 5.122951507568359, 'kl': 0.011893532238900661, 'entropy': 0.5188642144203186, 'total_loss': 5.103130340576172, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.708593726158142}, 'sample_time_ms': 47393.793, 'num_steps_trained': 2055600, 'grad_time_ms': 380.582, 'update_time_ms': 2.699, 'num_steps_sampled': 2055600, 'load_time_ms': 0.708}",23,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+69308.61630916595,220946,4.001395350954591,1200,cda-server-2,1152.8780624866486,f93d3d6710754a149751678a58e67540,294,1757124610,28800,-16.714188025445026,2334312,{},10.157.146.2,False,{},2025-09-06_04-10-10,4.08843537414966,2056800,3.862183034642512,0,48.01054334640503,1714,"{'default': {'policy_loss': -0.03451161086559296, 'vf_explained_var': 0.7287988066673279, 'vf_loss': 3.0146665573120117, 'kl': 0.00741288997232914, 'entropy': 0.3680577874183655, 'total_loss': 2.9928205013275146, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.708593726158142}, 'sample_time_ms': 47389.421, 'num_steps_trained': 2056800, 'grad_time_ms': 380.965, 'update_time_ms': 2.672, 'num_steps_sampled': 2056800, 'load_time_ms': 0.719}",24,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+69357.09123754501,221241,4.0006063185028236,1200,cda-server-2,1201.3529908657074,f93d3d6710754a149751678a58e67540,295,1757124659,30000,-10.89939547477228,2334312,{},10.157.146.2,False,{},2025-09-06_04-10-59,4.054237288135593,2058000,3.9195390656250217,0,48.47492837905884,1715,"{'default': {'policy_loss': -0.034075573086738586, 'vf_explained_var': 0.8691232204437256, 'vf_loss': 1.0541388988494873, 'kl': 0.005620323121547699, 'entropy': 0.3210165202617645, 'total_loss': 1.0296661853790283, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.708593726158142}, 'sample_time_ms': 47469.619, 'num_steps_trained': 2058000, 'grad_time_ms': 379.518, 'update_time_ms': 2.647, 'num_steps_sampled': 2058000, 'load_time_ms': 0.718}",25,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+69404.48688554764,221533,4.0012012754305335,1200,cda-server-2,1248.748638868332,f93d3d6710754a149751678a58e67540,292,1757124706,31200,-12.404241560444206,2334312,{},10.157.146.2,False,{},2025-09-06_04-11-46,4.113013698630137,2059200,3.8300854147934658,0,47.39564800262451,1716,"{'default': {'policy_loss': -0.047233302146196365, 'vf_explained_var': 0.7294974327087402, 'vf_loss': 2.294532060623169, 'kl': 0.00611311849206686, 'entropy': 0.294841468334198, 'total_loss': 2.2577435970306396, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.708593726158142}, 'sample_time_ms': 47439.432, 'num_steps_trained': 2059200, 'grad_time_ms': 380.123, 'update_time_ms': 2.69, 'num_steps_sampled': 2059200, 'load_time_ms': 0.713}",26,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+69452.62549567223,221824,4.000829622651921,1200,cda-server-2,1296.88724899292,f93d3d6710754a149751678a58e67540,291,1757124754,32400,-19.3569240853143,2334312,{},10.157.146.2,False,{},2025-09-06_04-12-34,4.116838487972508,2060400,3.813312885095594,0,48.13861012458801,1717,"{'default': {'policy_loss': -0.040549635887145996, 'vf_explained_var': 0.7199145555496216, 'vf_loss': 3.246302366256714, 'kl': 0.017651565372943878, 'entropy': 0.3744983971118927, 'total_loss': 3.235912322998047, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.708593726158142}, 'sample_time_ms': 47407.729, 'num_steps_trained': 2060400, 'grad_time_ms': 381.49, 'update_time_ms': 2.626, 'num_steps_sampled': 2060400, 'load_time_ms': 0.719}",27,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+69500.44656801224,222106,4.001135884866991,1200,cda-server-2,1344.7083213329315,f93d3d6710754a149751678a58e67540,282,1757124802,33600,-36.6001617957833,2334312,{},10.157.146.2,False,{},2025-09-06_04-13-22,4.26241134751773,2061600,3.5849616257064176,0,47.8210723400116,1718,"{'default': {'policy_loss': -0.05929523706436157, 'vf_explained_var': 0.6271881461143494, 'vf_loss': 10.815019607543945, 'kl': 0.008594582788646221, 'entropy': 0.6189095377922058, 'total_loss': 10.770407676696777, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.708593726158142}, 'sample_time_ms': 47394.945, 'num_steps_trained': 2061600, 'grad_time_ms': 381.602, 'update_time_ms': 2.615, 'num_steps_sampled': 2061600, 'load_time_ms': 0.73}",28,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+69548.26953458786,222406,4.000857885443186,1200,cda-server-2,1392.531287908554,f93d3d6710754a149751678a58e67540,300,1757124850,34800,4.000133246230893,2334312,{},10.157.146.2,False,{},2025-09-06_04-14-10,4.0,2062800,4.000298356997025,0,47.82296657562256,1719,"{'default': {'policy_loss': -0.07950045168399811, 'vf_explained_var': 0.996922492980957, 'vf_loss': 0.015606858767569065, 'kl': 0.017824428156018257, 'entropy': 0.13114187121391296, 'total_loss': -0.033438894897699356, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.708593726158142}, 'sample_time_ms': 47387.104, 'num_steps_trained': 2062800, 'grad_time_ms': 382.514, 'update_time_ms': 2.634, 'num_steps_sampled': 2062800, 'load_time_ms': 0.714}",29,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+69595.64261651039,222692,4.0009720939750775,1200,cda-server-2,1439.9043698310852,f93d3d6710754a149751678a58e67540,286,1757124897,36000,-31.356648452189916,2334312,{},10.157.146.2,False,{},2025-09-06_04-14-57,4.2027972027972025,2064000,3.677310061180427,0,47.37308192253113,1720,"{'default': {'policy_loss': -0.055772680789232254, 'vf_explained_var': 0.6429483890533447, 'vf_loss': 7.930283546447754, 'kl': 0.006241822615265846, 'entropy': 0.6115720868110657, 'total_loss': 7.885175704956055, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.708593726158142}, 'sample_time_ms': 47391.092, 'num_steps_trained': 2064000, 'grad_time_ms': 382.911, 'update_time_ms': 2.66, 'num_steps_sampled': 2064000, 'load_time_ms': 0.709}",30,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+69643.33310341835,222985,4.00130568892482,1200,cda-server-2,1487.5948567390442,f93d3d6710754a149751678a58e67540,293,1757124945,37200,-30.240217091524976,2334312,{},10.157.146.2,False,{},2025-09-06_04-15-45,4.098976109215017,2065200,3.8452490381309827,0,47.690486907958984,1721,"{'default': {'policy_loss': -0.04510076344013214, 'vf_explained_var': 0.8403151631355286, 'vf_loss': 2.6968061923980713, 'kl': 0.004562250804156065, 'entropy': 0.43842971324920654, 'total_loss': 2.6595001220703125, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.708593726158142}, 'sample_time_ms': 47415.237, 'num_steps_trained': 2065200, 'grad_time_ms': 382.639, 'update_time_ms': 2.618, 'num_steps_sampled': 2065200, 'load_time_ms': 0.711}",31,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+69691.27260279655,223279,4.000922746752035,1200,cda-server-2,1535.5343561172485,f93d3d6710754a149751678a58e67540,294,1757124993,38400,-10.471288536917228,2334312,{},10.157.146.2,False,{},2025-09-06_04-16-33,4.085034013605442,2066400,3.864979653854215,0,47.939499378204346,1722,"{'default': {'policy_loss': -0.04208557307720184, 'vf_explained_var': 0.7707864046096802, 'vf_loss': 1.838794469833374, 'kl': 0.011088281869888306, 'entropy': 0.2850659191608429, 'total_loss': 1.80618155002594, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.854296863079071}, 'sample_time_ms': 47490.05, 'num_steps_trained': 2066400, 'grad_time_ms': 379.963, 'update_time_ms': 2.629, 'num_steps_sampled': 2066400, 'load_time_ms': 0.702}",32,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+69738.76036596298,223572,4.0008524771077045,1200,cda-server-2,1583.0221192836761,f93d3d6710754a149751678a58e67540,293,1757125041,39600,-20.702556324228947,2334312,{},10.157.146.2,False,{},2025-09-06_04-17-21,4.092150170648464,2067600,3.853724156310165,0,47.48776316642761,1723,"{'default': {'policy_loss': -0.022190723568201065, 'vf_explained_var': 0.7484696507453918, 'vf_loss': 2.924628257751465, 'kl': 0.06678558886051178, 'entropy': 0.3885652422904968, 'total_loss': 2.9594922065734863, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.854296863079071}, 'sample_time_ms': 47427.612, 'num_steps_trained': 2067600, 'grad_time_ms': 378.119, 'update_time_ms': 2.698, 'num_steps_sampled': 2067600, 'load_time_ms': 0.694}",33,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+69786.23291373253,223871,4.000951142728287,1200,cda-server-2,1630.4946670532227,f93d3d6710754a149751678a58e67540,299,1757125088,40800,-4.1348681339504125,2334312,{},10.157.146.2,False,{},2025-09-06_04-18-08,4.016722408026756,2068800,3.9730927815069776,0,47.47254776954651,1724,"{'default': {'policy_loss': -0.0300121046602726, 'vf_explained_var': 0.9565584659576416, 'vf_loss': 0.28607624769210815, 'kl': 0.023803764954209328, 'entropy': 0.2359951138496399, 'total_loss': 0.2865673303604126, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.2814452648162842}, 'sample_time_ms': 47375.611, 'num_steps_trained': 2068800, 'grad_time_ms': 376.353, 'update_time_ms': 2.695, 'num_steps_sampled': 2068800, 'load_time_ms': 0.69}",34,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+69833.6526684761,224165,4.001462786341726,1200,cda-server-2,1677.9144217967987,f93d3d6710754a149751678a58e67540,294,1757125136,42000,-16.61454087823399,2334312,{},10.157.146.2,False,{},2025-09-06_04-18-56,4.074829931972789,2070000,3.8819641045297955,0,47.41975474357605,1725,"{'default': {'policy_loss': -0.03983699530363083, 'vf_explained_var': 0.7716145515441895, 'vf_loss': 1.9892237186431885, 'kl': 0.025218283757567406, 'entropy': 0.3598597049713135, 'total_loss': 1.9978599548339844, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.9221681356430054}, 'sample_time_ms': 47267.906, 'num_steps_trained': 2070000, 'grad_time_ms': 378.533, 'update_time_ms': 2.697, 'num_steps_sampled': 2070000, 'load_time_ms': 0.709}",35,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+69881.551227808,224459,4.0009983951130845,1200,cda-server-2,1725.8129811286926,f93d3d6710754a149751678a58e67540,294,1757125184,43200,-19.980062000304223,2334312,{},10.157.146.2,False,{},2025-09-06_04-19-44,4.081632653061225,2071200,3.8730466143703506,0,47.89855933189392,1726,"{'default': {'policy_loss': -0.03536481410264969, 'vf_explained_var': 0.728950560092926, 'vf_loss': 2.9133458137512207, 'kl': 0.006842901464551687, 'entropy': 0.33293479681015015, 'total_loss': 2.8977105617523193, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.883251905441284}, 'sample_time_ms': 47318.023, 'num_steps_trained': 2071200, 'grad_time_ms': 378.72, 'update_time_ms': 2.65, 'num_steps_sampled': 2071200, 'load_time_ms': 0.705}",36,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+69928.81177210808,224738,4.000892453319155,1200,cda-server-2,1773.073525428772,f93d3d6710754a149751678a58e67540,279,1757125231,44400,-23.215451088311674,2334312,{},10.157.146.2,False,{},2025-09-06_04-20-31,4.293906810035843,2072400,3.5363246739366234,0,47.260544300079346,1727,"{'default': {'policy_loss': -0.059438057243824005, 'vf_explained_var': 0.5705201625823975, 'vf_loss': 7.989442825317383, 'kl': 0.00724494643509388, 'entropy': 0.8282859325408936, 'total_loss': 7.950893878936768, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.883251905441284}, 'sample_time_ms': 47230.779, 'num_steps_trained': 2072400, 'grad_time_ms': 378.223, 'update_time_ms': 2.644, 'num_steps_sampled': 2072400, 'load_time_ms': 0.698}",37,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+69975.89767479897,225030,4.000654090524681,1200,cda-server-2,1820.1594281196594,f93d3d6710754a149751678a58e67540,292,1757125278,45600,-18.416924716619278,2334312,{},10.157.146.2,False,{},2025-09-06_04-21-18,4.116438356164384,2073600,3.8112247772551573,0,47.08590269088745,1728,"{'default': {'policy_loss': -0.03799779340624809, 'vf_explained_var': 0.7414836883544922, 'vf_loss': 2.9086883068084717, 'kl': 0.005881994031369686, 'entropy': 0.3573509752750397, 'total_loss': 2.8876500129699707, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.883251905441284}, 'sample_time_ms': 47156.094, 'num_steps_trained': 2073600, 'grad_time_ms': 379.36, 'update_time_ms': 2.654, 'num_steps_sampled': 2073600, 'load_time_ms': 0.701}",38,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+70023.46739721298,225322,4.00169877515876,1200,cda-server-2,1867.7291505336761,f93d3d6710754a149751678a58e67540,292,1757125325,46800,-17.785574404656433,2334312,{},10.157.146.2,False,{},2025-09-06_04-22-05,4.109589041095891,2074800,3.8246294482159318,0,47.569722414016724,1729,"{'default': {'policy_loss': -0.041660990566015244, 'vf_explained_var': 0.7295663952827454, 'vf_loss': 2.5910232067108154, 'kl': 0.009715433232486248, 'entropy': 0.3887116611003876, 'total_loss': 2.577374219894409, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.883251905441284}, 'sample_time_ms': 47131.372, 'num_steps_trained': 2074800, 'grad_time_ms': 378.82, 'update_time_ms': 2.63, 'num_steps_sampled': 2074800, 'load_time_ms': 0.697}",39,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+70071.59493851662,225616,4.001341156396228,1200,cda-server-2,1915.8566918373108,f93d3d6710754a149751678a58e67540,294,1757125374,48000,-22.46540270152201,2334312,{},10.157.146.2,False,{},2025-09-06_04-22-54,4.074829931972789,2076000,3.8897242407350223,0,48.127541303634644,1730,"{'default': {'policy_loss': -0.03569722920656204, 'vf_explained_var': 0.824450671672821, 'vf_loss': 2.678013801574707, 'kl': 0.005497196689248085, 'entropy': 0.41804054379463196, 'total_loss': 2.6581666469573975, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.883251905441284}, 'sample_time_ms': 47208.639, 'num_steps_trained': 2076000, 'grad_time_ms': 376.96, 'update_time_ms': 2.641, 'num_steps_sampled': 2076000, 'load_time_ms': 0.715}",40,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+70119.54161024094,225914,4.000764114769119,1200,cda-server-2,1963.8033635616302,f93d3d6710754a149751678a58e67540,298,1757125422,49200,-4.2839179411020645,2334312,{},10.157.146.2,False,{},2025-09-06_04-23-42,4.030201342281879,2077200,3.952157260852605,0,47.94667172431946,1731,"{'default': {'policy_loss': -0.03592797741293907, 'vf_explained_var': 0.961908757686615, 'vf_loss': 0.23493464291095734, 'kl': 0.004324512556195259, 'entropy': 0.24925678968429565, 'total_loss': 0.21147531270980835, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.883251905441284}, 'sample_time_ms': 47234.276, 'num_steps_trained': 2077200, 'grad_time_ms': 376.821, 'update_time_ms': 2.731, 'num_steps_sampled': 2077200, 'load_time_ms': 0.722}",41,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+70167.82240700722,226207,4.000942024719513,1200,cda-server-2,2012.0841603279114,f93d3d6710754a149751678a58e67540,293,1757125470,50400,-17.14719816965842,2334312,{},10.157.146.2,False,{},2025-09-06_04-24-30,4.085324232081911,2078400,3.864802976211962,0,48.28079676628113,1732,"{'default': {'policy_loss': -0.038659125566482544, 'vf_explained_var': 0.7859401702880859, 'vf_loss': 2.8101963996887207, 'kl': 0.006108362227678299, 'entropy': 0.3827553987503052, 'total_loss': 2.7803430557250977, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.441625952720642}, 'sample_time_ms': 47267.96, 'num_steps_trained': 2078400, 'grad_time_ms': 377.35, 'update_time_ms': 2.727, 'num_steps_sampled': 2078400, 'load_time_ms': 0.719}",42,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+70215.54644274712,226500,4.001235025146599,1200,cda-server-2,2059.80819606781,f93d3d6710754a149751678a58e67540,293,1757125518,51600,-23.45821404235818,2334312,{},10.157.146.2,False,{},2025-09-06_04-25-18,4.112627986348123,2079600,3.824699295114852,0,47.72403573989868,1733,"{'default': {'policy_loss': -0.04783041402697563, 'vf_explained_var': 0.7221481800079346, 'vf_loss': 4.0114569664001465, 'kl': 0.011892382055521011, 'entropy': 0.4170433282852173, 'total_loss': 3.980771064758301, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.441625952720642}, 'sample_time_ms': 47292.661, 'num_steps_trained': 2079600, 'grad_time_ms': 376.392, 'update_time_ms': 2.689, 'num_steps_sampled': 2079600, 'load_time_ms': 0.721}",43,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+70263.46559095383,226776,4.001609746600675,1200,cda-server-2,2107.727344274521,f93d3d6710754a149751678a58e67540,276,1757125566,52800,-33.80322255586933,2334312,{},10.157.146.2,False,{},2025-09-06_04-26-06,4.326086956521739,2080800,3.4807635817531115,0,47.919148206710815,1734,"{'default': {'policy_loss': -0.060780007392168045, 'vf_explained_var': 0.5316893458366394, 'vf_loss': 16.62029266357422, 'kl': 0.010779578238725662, 'entropy': 0.7783210277557373, 'total_loss': 16.57505226135254, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.441625952720642}, 'sample_time_ms': 47338.465, 'num_steps_trained': 2080800, 'grad_time_ms': 375.282, 'update_time_ms': 2.673, 'num_steps_sampled': 2080800, 'load_time_ms': 0.717}",44,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+70311.26123952866,227071,4.0005654124998795,1200,cda-server-2,2155.52299284935,f93d3d6710754a149751678a58e67540,295,1757125613,54000,-25.247465374732343,2334312,{},10.157.146.2,False,{},2025-09-06_04-26-53,4.067796610169491,2082000,3.8876289927040086,0,47.7956485748291,1735,"{'default': {'policy_loss': -0.042568642646074295, 'vf_explained_var': 0.7972995042800903, 'vf_loss': 3.2947824001312256, 'kl': 0.028123266994953156, 'entropy': 0.3533841371536255, 'total_loss': 3.292757034301758, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.441625952720642}, 'sample_time_ms': 47378.32, 'num_steps_trained': 2082000, 'grad_time_ms': 373.038, 'update_time_ms': 2.646, 'num_steps_sampled': 2082000, 'load_time_ms': 0.697}",45,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+70358.88074398041,227367,4.000866382092321,1200,cda-server-2,2203.1424973011017,f93d3d6710754a149751678a58e67540,296,1757125661,55200,-29.312983887443586,2334312,{},10.157.146.2,False,{},2025-09-06_04-27-41,4.0675675675675675,2083200,3.887742006611619,0,47.61950445175171,1736,"{'default': {'policy_loss': -0.037556443363428116, 'vf_explained_var': 0.946890115737915, 'vf_loss': 0.7121968269348145, 'kl': 0.002865071874111891, 'entropy': 0.346145361661911, 'total_loss': 0.680836021900177, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.1624388694763184}, 'sample_time_ms': 47352.028, 'num_steps_trained': 2083200, 'grad_time_ms': 371.446, 'update_time_ms': 2.671, 'num_steps_sampled': 2083200, 'load_time_ms': 0.715}",46,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+70406.5404689312,227655,4.000760035889676,1200,cda-server-2,2250.802222251892,f93d3d6710754a149751678a58e67540,288,1757125709,56400,-79.57202684744307,2334312,{},10.157.146.2,False,{},2025-09-06_04-28-29,4.170138888888889,2084400,3.6931554878049706,0,47.659724950790405,1737,"{'default': {'policy_loss': -0.06353461742401123, 'vf_explained_var': 0.6036939024925232, 'vf_loss': 38.75788116455078, 'kl': 0.008221256546676159, 'entropy': 0.6057984232902527, 'total_loss': 38.7032356262207, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0812194347381592}, 'sample_time_ms': 47393.292, 'num_steps_trained': 2084400, 'grad_time_ms': 370.103, 'update_time_ms': 2.682, 'num_steps_sampled': 2084400, 'load_time_ms': 0.717}",47,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+70453.9908812046,227953,4.001443122829888,1200,cda-server-2,2298.252634525299,f93d3d6710754a149751678a58e67540,298,1757125756,57600,-4.151473263482266,2334312,{},10.157.146.2,False,{},2025-09-06_04-29-16,4.016778523489933,2085600,3.972946632948664,0,47.45041227340698,1738,"{'default': {'policy_loss': -0.03313104435801506, 'vf_explained_var': 0.8297264575958252, 'vf_loss': 0.97000652551651, 'kl': 0.012348800897598267, 'entropy': 0.23704423010349274, 'total_loss': 0.9502270817756653, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0812194347381592}, 'sample_time_ms': 47431.087, 'num_steps_trained': 2085600, 'grad_time_ms': 368.805, 'update_time_ms': 2.624, 'num_steps_sampled': 2085600, 'load_time_ms': 0.712}",48,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+70504.07129406929,228240,4.0007027540451645,1200,cda-server-2,2348.333047389984,f93d3d6710754a149751678a58e67540,287,1757125806,58800,-22.08595778333774,2334312,{},10.157.146.2,False,{},2025-09-06_04-30-06,4.191637630662021,2086800,3.704488150337362,0,50.08041286468506,1739,"{'default': {'policy_loss': -0.05540987476706505, 'vf_explained_var': 0.5332911610603333, 'vf_loss': 6.582999229431152, 'kl': 0.011582231149077415, 'entropy': 0.5404722094535828, 'total_loss': 6.540112018585205, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0812194347381592}, 'sample_time_ms': 47684.775, 'num_steps_trained': 2086800, 'grad_time_ms': 366.243, 'update_time_ms': 2.633, 'num_steps_sampled': 2086800, 'load_time_ms': 0.705}",49,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+70551.74402689934,228537,4.001090362553443,1200,cda-server-2,2396.0057802200317,f93d3d6710754a149751678a58e67540,297,1757125854,60000,-8.352905086892033,2334312,{},10.157.146.2,False,{},2025-09-06_04-30-54,4.040404040404041,2088000,3.9380850229734374,0,47.67273283004761,1740,"{'default': {'policy_loss': -0.033796995878219604, 'vf_explained_var': 0.8527478575706482, 'vf_loss': 0.9441398978233337, 'kl': 0.0038092199247330427, 'entropy': 0.22126398980617523, 'total_loss': 0.9144615530967712, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.0812194347381592}, 'sample_time_ms': 47636.917, 'num_steps_trained': 2088000, 'grad_time_ms': 368.658, 'update_time_ms': 2.582, 'num_steps_sampled': 2088000, 'load_time_ms': 0.689}",50,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+70599.76847839355,228829,4.000567455700141,1200,cda-server-2,2444.0302317142487,f93d3d6710754a149751678a58e67540,292,1757125902,61200,-23.57238743338646,2334312,{},10.157.146.2,False,{},2025-09-06_04-31-42,4.089041095890411,2089200,3.8574514458755256,0,48.02445149421692,1741,"{'default': {'policy_loss': -0.04207323119044304, 'vf_explained_var': 0.7541279196739197, 'vf_loss': 3.390349864959717, 'kl': 0.018603425472974777, 'entropy': 0.3572847545146942, 'total_loss': 3.3583333492279053, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.5406097173690796}, 'sample_time_ms': 47647.196, 'num_steps_trained': 2089200, 'grad_time_ms': 366.154, 'update_time_ms': 2.588, 'num_steps_sampled': 2089200, 'load_time_ms': 0.683}",51,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+70647.14717841148,229124,4.001716665571996,1200,cda-server-2,2491.4089317321777,f93d3d6710754a149751678a58e67540,295,1757125950,62400,-19.082561031905932,2334312,{},10.157.146.2,False,{},2025-09-06_04-32-30,4.077966101694916,2090400,3.8780757648194193,0,47.37870001792908,1742,"{'default': {'policy_loss': -0.04124227538704872, 'vf_explained_var': 0.7717460989952087, 'vf_loss': 2.612335681915283, 'kl': 0.004547768738120794, 'entropy': 0.37593957781791687, 'total_loss': 2.573551654815674, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.5406097173690796}, 'sample_time_ms': 47556.609, 'num_steps_trained': 2090400, 'grad_time_ms': 366.513, 'update_time_ms': 2.569, 'num_steps_sampled': 2090400, 'load_time_ms': 0.683}",52,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+70695.12900424004,229423,4.0007058708578285,1200,cda-server-2,2539.39075756073,f93d3d6710754a149751678a58e67540,299,1757125998,63600,-4.960408252784983,2334312,{},10.157.146.2,False,{},2025-09-06_04-33-18,4.016722408026756,2091600,3.970325060631866,0,47.981825828552246,1743,"{'default': {'policy_loss': -0.04571147263050079, 'vf_explained_var': 0.972026526927948, 'vf_loss': 0.1702558994293213, 'kl': 0.036870576441287994, 'entropy': 0.18647818267345428, 'total_loss': 0.13451072573661804, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.2703048586845398}, 'sample_time_ms': 47580.389, 'num_steps_trained': 2091600, 'grad_time_ms': 368.508, 'update_time_ms': 2.558, 'num_steps_sampled': 2091600, 'load_time_ms': 0.681}",53,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+70743.14910387993,229722,4.000716210517657,1200,cda-server-2,2587.4108572006226,f93d3d6710754a149751678a58e67540,299,1757126046,64800,-2.0849859996077473,2334312,{},10.157.146.2,False,{},2025-09-06_04-34-06,4.013377926421405,2092800,3.9799369756867775,0,48.02009963989258,1744,"{'default': {'policy_loss': -0.02691003307700157, 'vf_explained_var': 0.9566712975502014, 'vf_loss': 0.2496321201324463, 'kl': 0.03845953568816185, 'entropy': 0.1580992341041565, 'total_loss': 0.23831582069396973, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.4054573178291321}, 'sample_time_ms': 47588.12, 'num_steps_trained': 2092800, 'grad_time_ms': 370.865, 'update_time_ms': 2.528, 'num_steps_sampled': 2092800, 'load_time_ms': 0.685}",54,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+70790.51922917366,230020,4.000877283709284,1200,cda-server-2,2634.7809824943542,f93d3d6710754a149751678a58e67540,298,1757126093,66000,-8.843978166216939,2334312,{},10.157.146.2,False,{},2025-09-06_04-34-53,4.026845637583893,2094000,3.957181755016784,0,47.37012529373169,1745,"{'default': {'policy_loss': -0.02920023910701275, 'vf_explained_var': 0.8999749422073364, 'vf_loss': 0.6608197689056396, 'kl': 0.008795024827122688, 'entropy': 0.2440391182899475, 'total_loss': 0.6369686722755432, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.6081859469413757}, 'sample_time_ms': 47543.278, 'num_steps_trained': 2094000, 'grad_time_ms': 373.153, 'update_time_ms': 2.54, 'num_steps_sampled': 2094000, 'load_time_ms': 0.684}",55,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+70837.58698678017,230320,4.000600012179944,1200,cda-server-2,2681.8487401008606,f93d3d6710754a149751678a58e67540,300,1757126140,67200,4.0001057448946415,2334312,{},10.157.146.2,False,{},2025-09-06_04-35-40,4.0,2095200,4.000275312757041,0,47.06775760650635,1746,"{'default': {'policy_loss': -0.07445075362920761, 'vf_explained_var': 0.9992759227752686, 'vf_loss': 0.0038688713684678078, 'kl': 0.05070953443646431, 'entropy': 0.16901902854442596, 'total_loss': -0.039741046726703644, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.6081859469413757}, 'sample_time_ms': 47485.685, 'num_steps_trained': 2095200, 'grad_time_ms': 375.548, 'update_time_ms': 2.506, 'num_steps_sampled': 2095200, 'load_time_ms': 0.677}",56,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+70885.5652346611,230619,4.000773449125924,1200,cda-server-2,2729.8269879817963,f93d3d6710754a149751678a58e67540,299,1757126188,68400,-2.0262600476926576,2334312,{},10.157.146.2,False,{},2025-09-06_04-36-28,4.013377926421405,2096400,3.9801312596653786,0,47.97824788093567,1747,"{'default': {'policy_loss': -0.027570080012083054, 'vf_explained_var': 0.9581819176673889, 'vf_loss': 0.23313790559768677, 'kl': 0.007167416159063578, 'entropy': 0.2580120265483856, 'total_loss': 0.21210649609565735, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.9122788906097412}, 'sample_time_ms': 47515.454, 'num_steps_trained': 2096400, 'grad_time_ms': 377.602, 'update_time_ms': 2.502, 'num_steps_sampled': 2096400, 'load_time_ms': 0.684}",57,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+70934.44046092033,230910,4.000801508041707,1200,cda-server-2,2778.702214241028,f93d3d6710754a149751678a58e67540,291,1757126237,69600,-20.856090516803434,2334312,{},10.157.146.2,False,{},2025-09-06_04-37-17,4.123711340206185,2097600,3.8091194729533613,0,48.87522625923157,1748,"{'default': {'policy_loss': -0.04883911460638046, 'vf_explained_var': 0.7076702117919922, 'vf_loss': 3.862992525100708, 'kl': 0.021130729466676712, 'entropy': 0.5460034012794495, 'total_loss': 3.833430767059326, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.9122788906097412}, 'sample_time_ms': 47660.503, 'num_steps_trained': 2097600, 'grad_time_ms': 375.102, 'update_time_ms': 2.51, 'num_steps_sampled': 2097600, 'load_time_ms': 0.674}",58,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+70981.86727547646,231202,4.000668032604108,1200,cda-server-2,2826.1290287971497,f93d3d6710754a149751678a58e67540,292,1757126284,70800,-15.273959973601407,2334312,{},10.157.146.2,False,{},2025-09-06_04-38-04,4.078767123287672,2098800,3.87350412963665,0,47.426814556121826,1749,"{'default': {'policy_loss': -0.05026934668421745, 'vf_explained_var': 0.7378765940666199, 'vf_loss': 2.918351173400879, 'kl': 0.005581801291555166, 'entropy': 0.41013264656066895, 'total_loss': 2.875720500946045, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.3684184551239014}, 'sample_time_ms': 47393.296, 'num_steps_trained': 2098800, 'grad_time_ms': 376.89, 'update_time_ms': 2.495, 'num_steps_sampled': 2098800, 'load_time_ms': 0.678}",59,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+71030.94386053085,231492,4.000995934235407,1200,cda-server-2,2875.2056138515472,f93d3d6710754a149751678a58e67540,290,1757126333,72000,-21.789130379027707,2334312,{},10.157.146.2,False,{},2025-09-06_04-38-53,4.179310344827586,2100000,3.7140779123185172,0,49.07658505439758,1750,"{'default': {'policy_loss': -0.04436450079083443, 'vf_explained_var': 0.6416231989860535, 'vf_loss': 5.363372325897217, 'kl': 0.01638682559132576, 'entropy': 0.5123417377471924, 'total_loss': 5.341432571411133, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.3684184551239014}, 'sample_time_ms': 47533.417, 'num_steps_trained': 2100000, 'grad_time_ms': 377.029, 'update_time_ms': 2.52, 'num_steps_sampled': 2100000, 'load_time_ms': 0.692}",60,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+71078.86170220375,231782,4.000843982796113,1200,cda-server-2,2923.1234555244446,f93d3d6710754a149751678a58e67540,290,1757126381,73200,-15.046943454781339,2334312,{},10.157.146.2,False,{},2025-09-06_04-39-41,4.137931034482759,2101200,3.7869681683744805,0,47.91784167289734,1751,"{'default': {'policy_loss': -0.0367182232439518, 'vf_explained_var': 0.6934820413589478, 'vf_loss': 3.3237104415893555, 'kl': 0.016703180968761444, 'entropy': 0.2991539239883423, 'total_loss': 3.3098490238189697, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.3684184551239014}, 'sample_time_ms': 47519.126, 'num_steps_trained': 2101200, 'grad_time_ms': 380.627, 'update_time_ms': 2.487, 'num_steps_sampled': 2101200, 'load_time_ms': 0.709}",61,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+71126.10324168205,232076,4.000569022476387,1200,cda-server-2,2970.3649950027466,f93d3d6710754a149751678a58e67540,294,1757126429,74400,-12.323226702291173,2334312,{},10.157.146.2,False,{},2025-09-06_04-40-29,4.068027210884353,2102400,3.8989435483033255,0,47.241539478302,1752,"{'default': {'policy_loss': -0.02351580746471882, 'vf_explained_var': 0.791452169418335, 'vf_loss': 1.6353236436843872, 'kl': 0.0075698122382164, 'entropy': 0.36371728777885437, 'total_loss': 1.622166395187378, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.3684184551239014}, 'sample_time_ms': 47504.382, 'num_steps_trained': 2102400, 'grad_time_ms': 381.672, 'update_time_ms': 2.531, 'num_steps_sampled': 2102400, 'load_time_ms': 0.719}",62,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+71174.27276682854,232367,4.001147950799663,1200,cda-server-2,3018.534520149231,f93d3d6710754a149751678a58e67540,291,1757126477,75600,-13.198638488621182,2334312,{},10.157.146.2,False,{},2025-09-06_04-41-17,4.144329896907217,2103600,3.776657209946769,0,48.169525146484375,1753,"{'default': {'policy_loss': -0.05215364694595337, 'vf_explained_var': 0.6535918116569519, 'vf_loss': 3.332857847213745, 'kl': 0.010216433554887772, 'entropy': 0.39343929290771484, 'total_loss': 3.2946841716766357, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.3684184551239014}, 'sample_time_ms': 47523.388, 'num_steps_trained': 2103600, 'grad_time_ms': 381.447, 'update_time_ms': 2.504, 'num_steps_sampled': 2103600, 'load_time_ms': 0.717}",63,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+71221.98694634438,232647,4.0011434154442505,1200,cda-server-2,3066.2486996650696,f93d3d6710754a149751678a58e67540,280,1757126525,76800,-26.343674721980285,2334312,{},10.157.146.2,False,{},2025-09-06_04-42-05,4.260714285714286,2104800,3.5845143899155736,0,47.71417951583862,1754,"{'default': {'policy_loss': -0.05771121755242348, 'vf_explained_var': 0.5073903799057007, 'vf_loss': 7.747379779815674, 'kl': 0.013974744826555252, 'entropy': 0.4841780662536621, 'total_loss': 7.708791732788086, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.3684184551239014}, 'sample_time_ms': 47493.39, 'num_steps_trained': 2104800, 'grad_time_ms': 380.813, 'update_time_ms': 2.516, 'num_steps_sampled': 2104800, 'load_time_ms': 0.713}",64,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+71269.95809006691,232935,4.0006119798820885,1200,cda-server-2,3114.2198433876038,f93d3d6710754a149751678a58e67540,288,1757126573,78000,-29.571412401116703,2334312,{},10.157.146.2,False,{},2025-09-06_04-42-53,4.1875,2106000,3.7096763646231543,0,47.97114372253418,1755,"{'default': {'policy_loss': -0.06074228510260582, 'vf_explained_var': 0.7799475789070129, 'vf_loss': 2.9029345512390137, 'kl': 0.01342084538191557, 'entropy': 0.5821292400360107, 'total_loss': 2.860558032989502, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.3684184551239014}, 'sample_time_ms': 47554.911, 'num_steps_trained': 2106000, 'grad_time_ms': 379.324, 'update_time_ms': 2.564, 'num_steps_sampled': 2106000, 'load_time_ms': 0.716}",65,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+71318.03967809677,233220,4.00136957096293,1200,cda-server-2,3162.301431417465,f93d3d6710754a149751678a58e67540,285,1757126621,79200,-22.03282600630431,2334312,{},10.157.146.2,False,{},2025-09-06_04-43-41,4.203508771929824,2107200,3.6881349721543093,0,48.08158802986145,1756,"{'default': {'policy_loss': -0.054004136472940445, 'vf_explained_var': 0.6496836543083191, 'vf_loss': 6.271498680114746, 'kl': 0.012210341170430183, 'entropy': 0.6515419483184814, 'total_loss': 6.234203815460205, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.3684184551239014}, 'sample_time_ms': 47656.849, 'num_steps_trained': 2107200, 'grad_time_ms': 378.775, 'update_time_ms': 2.608, 'num_steps_sampled': 2107200, 'load_time_ms': 0.718}",66,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+71365.29447960854,233495,4.000668344841168,1200,cda-server-2,3209.5562329292297,f93d3d6710754a149751678a58e67540,275,1757126668,80400,-23.762476143549122,2334312,{},10.157.146.2,False,{},2025-09-06_04-44-28,4.349090909090909,2108400,3.4456104904759957,0,47.254801511764526,1757,"{'default': {'policy_loss': -0.07473421096801758, 'vf_explained_var': 0.4977031350135803, 'vf_loss': 8.59518814086914, 'kl': 0.02822519652545452, 'entropy': 0.6793205142021179, 'total_loss': 8.559077262878418, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.3684184551239014}, 'sample_time_ms': 47586.149, 'num_steps_trained': 2108400, 'grad_time_ms': 377.107, 'update_time_ms': 2.623, 'num_steps_sampled': 2108400, 'load_time_ms': 0.703}",67,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+71412.5797381401,233781,4.000591305215106,1200,cda-server-2,3256.8414914608,f93d3d6710754a149751678a58e67540,286,1757126715,81600,-29.29639237219589,2334312,{},10.157.146.2,False,{},2025-09-06_04-45-15,4.216783216783217,2109600,3.6581035516707945,0,47.285258531570435,1758,"{'default': {'policy_loss': -0.06877724081277847, 'vf_explained_var': 0.6062933802604675, 'vf_loss': 6.714346885681152, 'kl': 0.013912211172282696, 'entropy': 0.5170596837997437, 'total_loss': 6.674126148223877, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.0526275634765625}, 'sample_time_ms': 47424.259, 'num_steps_trained': 2109600, 'grad_time_ms': 379.925, 'update_time_ms': 2.643, 'num_steps_sampled': 2109600, 'load_time_ms': 0.727}",68,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+71460.23253250122,234065,4.000826618706107,1200,cda-server-2,3304.4942858219147,f93d3d6710754a149751678a58e67540,284,1757126763,82800,-21.288002199862653,2334312,{},10.157.146.2,False,{},2025-09-06_04-46-03,4.21830985915493,2110800,3.651365670256563,0,47.6527943611145,1759,"{'default': {'policy_loss': -0.05514641851186752, 'vf_explained_var': 0.648105263710022, 'vf_loss': 6.750696182250977, 'kl': 0.01288203988224268, 'entropy': 0.5936523675918579, 'total_loss': 6.721992015838623, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.0526275634765625}, 'sample_time_ms': 47446.216, 'num_steps_trained': 2110800, 'grad_time_ms': 380.565, 'update_time_ms': 2.671, 'num_steps_sampled': 2110800, 'load_time_ms': 0.732}",69,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+71507.74508500099,234357,4.000768929041113,1200,cda-server-2,3352.006838321686,f93d3d6710754a149751678a58e67540,292,1757126810,84000,-19.06671409706948,2334312,{},10.157.146.2,False,{},2025-09-06_04-46-50,4.109589041095891,2112000,3.828489557945149,0,47.51255249977112,1760,"{'default': {'policy_loss': -0.04216504096984863, 'vf_explained_var': 0.7226361036300659, 'vf_loss': 3.1989152431488037, 'kl': 0.009886096231639385, 'entropy': 0.4185342490673065, 'total_loss': 3.1770427227020264, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.0526275634765625}, 'sample_time_ms': 47290.681, 'num_steps_trained': 2112000, 'grad_time_ms': 379.833, 'update_time_ms': 2.664, 'num_steps_sampled': 2112000, 'load_time_ms': 0.718}",70,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+71554.90393972397,234640,4.00069250368837,1200,cda-server-2,3399.1656930446625,f93d3d6710754a149751678a58e67540,283,1757126858,85200,-32.25344563725913,2334312,{},10.157.146.2,False,{},2025-09-06_04-47-38,4.23321554770318,2113200,3.633382912858742,0,47.158854722976685,1761,"{'default': {'policy_loss': -0.05404188483953476, 'vf_explained_var': 0.59620600938797, 'vf_loss': 9.892298698425293, 'kl': 0.008574172854423523, 'entropy': 0.6234753131866455, 'total_loss': 9.855855941772461, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.0526275634765625}, 'sample_time_ms': 47215.842, 'num_steps_trained': 2113200, 'grad_time_ms': 378.846, 'update_time_ms': 2.645, 'num_steps_sampled': 2113200, 'load_time_ms': 0.703}",71,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+71602.21853899956,234929,4.001007545147567,1200,cda-server-2,3446.4802923202515,f93d3d6710754a149751678a58e67540,289,1757126905,86400,-44.48315920699926,2334312,{},10.157.146.2,False,{},2025-09-06_04-48-25,4.14878892733564,2114400,3.7664965137415716,0,47.31459927558899,1762,"{'default': {'policy_loss': -0.04396228492259979, 'vf_explained_var': 0.6197618246078491, 'vf_loss': 12.840564727783203, 'kl': 0.007731595076620579, 'entropy': 0.42099976539611816, 'total_loss': 12.81247329711914, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.0526275634765625}, 'sample_time_ms': 47225.693, 'num_steps_trained': 2114400, 'grad_time_ms': 376.325, 'update_time_ms': 2.629, 'num_steps_sampled': 2114400, 'load_time_ms': 0.69}",72,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+71650.01924490929,235221,4.000677946989592,1200,cda-server-2,3494.2809982299805,f93d3d6710754a149751678a58e67540,292,1757126953,87600,-16.009682742224133,2334312,{},10.157.146.2,False,{},2025-09-06_04-49-13,4.123287671232877,2115600,3.80888626800469,0,47.800705909729004,1763,"{'default': {'policy_loss': -0.03319462016224861, 'vf_explained_var': 0.6619834303855896, 'vf_loss': 4.121342182159424, 'kl': 0.03126220405101776, 'entropy': 0.38637420535087585, 'total_loss': 4.152317523956299, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.0526275634765625}, 'sample_time_ms': 47189.745, 'num_steps_trained': 2115600, 'grad_time_ms': 375.325, 'update_time_ms': 2.665, 'num_steps_sampled': 2115600, 'load_time_ms': 0.687}",73,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+71698.49010896683,235508,4.000787074326164,1200,cda-server-2,3542.7518622875214,f93d3d6710754a149751678a58e67540,287,1757127001,88800,-40.5713277450098,2334312,{},10.157.146.2,False,{},2025-09-06_04-50-01,4.167247386759582,2116800,3.730946364527542,0,48.470864057540894,1764,"{'default': {'policy_loss': -0.03836233168840408, 'vf_explained_var': 0.6140391826629639, 'vf_loss': 10.774856567382812, 'kl': 0.003932580351829529, 'entropy': 0.6153924465179443, 'total_loss': 10.748602867126465, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 3.0789413452148438}, 'sample_time_ms': 47265.195, 'num_steps_trained': 2116800, 'grad_time_ms': 375.59, 'update_time_ms': 2.676, 'num_steps_sampled': 2116800, 'load_time_ms': 0.694}",74,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+71746.2508482933,235807,4.000831464587779,1200,cda-server-2,3590.5126016139984,f93d3d6710754a149751678a58e67540,299,1757127049,90000,-0.9949445291176904,2334312,{},10.157.146.2,False,{},2025-09-06_04-50-49,4.010033444816053,2118000,3.9835811026734214,0,47.76073932647705,1765,"{'default': {'policy_loss': -0.04124182462692261, 'vf_explained_var': 0.9563584923744202, 'vf_loss': 0.23537765443325043, 'kl': 0.004433243069797754, 'entropy': 0.2354411780834198, 'total_loss': 0.2009606659412384, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.5394706726074219}, 'sample_time_ms': 47244.419, 'num_steps_trained': 2118000, 'grad_time_ms': 375.297, 'update_time_ms': 2.641, 'num_steps_sampled': 2118000, 'load_time_ms': 0.693}",75,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+71794.57493805885,236105,4.000942611084621,1200,cda-server-2,3638.836691379547,f93d3d6710754a149751678a58e67540,298,1757127097,91200,-10.596154959891656,2334312,{},10.157.146.2,False,{},2025-09-06_04-51-37,4.030201342281879,2119200,3.9513104580154192,0,48.324089765548706,1766,"{'default': {'policy_loss': -0.027525335550308228, 'vf_explained_var': 0.8920936584472656, 'vf_loss': 0.8379378914833069, 'kl': 0.005795120727270842, 'entropy': 0.25065329670906067, 'total_loss': 0.814873218536377, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.7697353363037109}, 'sample_time_ms': 47268.695, 'num_steps_trained': 2119200, 'grad_time_ms': 375.267, 'update_time_ms': 2.621, 'num_steps_sampled': 2119200, 'load_time_ms': 0.677}",76,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+71841.59212994576,236399,4.001204365051917,1200,cda-server-2,3685.853883266449,f93d3d6710754a149751678a58e67540,294,1757127144,92400,-19.936860488069954,2334312,{},10.157.146.2,False,{},2025-09-06_04-52-24,4.081632653061225,2120400,3.8727327120884283,0,47.017191886901855,1767,"{'default': {'policy_loss': -0.03670913726091385, 'vf_explained_var': 0.7860303521156311, 'vf_loss': 2.443127393722534, 'kl': 0.010866689495742321, 'entropy': 0.3578141927719116, 'total_loss': 2.414783000946045, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.7697353363037109}, 'sample_time_ms': 47243.493, 'num_steps_trained': 2120400, 'grad_time_ms': 376.749, 'update_time_ms': 2.584, 'num_steps_sampled': 2120400, 'load_time_ms': 0.678}",77,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+71888.91904711723,236693,4.001335604520492,1200,cda-server-2,3733.1808004379272,f93d3d6710754a149751678a58e67540,294,1757127192,93600,-20.804468631258256,2334312,{},10.157.146.2,False,{},2025-09-06_04-53-12,4.085034013605442,2121600,3.8738888332011316,0,47.32691717147827,1768,"{'default': {'policy_loss': -0.03908723592758179, 'vf_explained_var': 0.7686604857444763, 'vf_loss': 2.598464012145996, 'kl': 0.006979373749345541, 'entropy': 0.3559492826461792, 'total_loss': 2.564749002456665, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.7697353363037109}, 'sample_time_ms': 47250.429, 'num_steps_trained': 2121600, 'grad_time_ms': 373.989, 'update_time_ms': 2.609, 'num_steps_sampled': 2121600, 'load_time_ms': 0.658}",78,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+71936.68784308434,236986,4.001463937405417,1200,cda-server-2,3780.9495964050293,f93d3d6710754a149751678a58e67540,293,1757127240,94800,-19.248170839542517,2334312,{},10.157.146.2,False,{},2025-09-06_04-54-00,4.088737201365188,2122800,3.8614427378885803,0,47.76879596710205,1769,"{'default': {'policy_loss': -0.03706859052181244, 'vf_explained_var': 0.761359453201294, 'vf_loss': 2.8816897869110107, 'kl': 0.033106692135334015, 'entropy': 0.31002077460289, 'total_loss': 2.8701045513153076, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.7697353363037109}, 'sample_time_ms': 47262.226, 'num_steps_trained': 2122800, 'grad_time_ms': 373.786, 'update_time_ms': 2.577, 'num_steps_sampled': 2122800, 'load_time_ms': 0.649}",79,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+71983.87089753151,237286,4.000660009494593,1200,cda-server-2,3828.1326508522034,f93d3d6710754a149751678a58e67540,300,1757127287,96000,4.000136854938862,2334312,{},10.157.146.2,False,{},2025-09-06_04-54-47,4.0,2124000,4.000288744028668,0,47.18305444717407,1770,"{'default': {'policy_loss': -0.08043908327817917, 'vf_explained_var': 0.9983276724815369, 'vf_loss': 0.008949261158704758, 'kl': 0.028883149847388268, 'entropy': 0.15730230510234833, 'total_loss': -0.03814125806093216, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.1546030044555664}, 'sample_time_ms': 47229.701, 'num_steps_trained': 2124000, 'grad_time_ms': 373.302, 'update_time_ms': 2.625, 'num_steps_sampled': 2124000, 'load_time_ms': 0.655}",80,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+72031.13560557365,237581,4.001204587614822,1200,cda-server-2,3875.397358894348,f93d3d6710754a149751678a58e67540,295,1757127334,97200,-27.997506721746362,2334312,{},10.157.146.2,False,{},2025-09-06_04-55-34,4.071186440677966,2125200,3.891829037969639,0,47.264708042144775,1771,"{'default': {'policy_loss': -0.029939506202936172, 'vf_explained_var': 0.7547536492347717, 'vf_loss': 3.83388614654541, 'kl': 0.004233734682202339, 'entropy': 0.4002131223678589, 'total_loss': 3.811279296875, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.7319045066833496}, 'sample_time_ms': 47240.901, 'num_steps_trained': 2125200, 'grad_time_ms': 372.646, 'update_time_ms': 2.665, 'num_steps_sampled': 2125200, 'load_time_ms': 0.65}",81,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+72077.61708593369,237879,4.001084145149137,1200,cda-server-2,3921.8788392543793,f93d3d6710754a149751678a58e67540,298,1757127381,98400,-11.430292570857201,2334312,{},10.157.146.2,False,{},2025-09-06_04-56-21,4.033557046979865,2126400,3.948509577373382,0,46.48148036003113,1772,"{'default': {'policy_loss': -0.039477989077568054, 'vf_explained_var': 0.9330053329467773, 'vf_loss': 0.51822429895401, 'kl': 0.0032414079178124666, 'entropy': 0.24930088222026825, 'total_loss': 0.4815531373023987, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.8659522533416748}, 'sample_time_ms': 47155.826, 'num_steps_trained': 2126400, 'grad_time_ms': 374.32, 'update_time_ms': 2.671, 'num_steps_sampled': 2126400, 'load_time_ms': 0.652}",82,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+72125.23771595955,238171,4.000536992072605,1200,cda-server-2,3969.499469280243,f93d3d6710754a149751678a58e67540,292,1757127428,99600,-11.424625893218334,2334312,{},10.157.146.2,False,{},2025-09-06_04-57-08,4.058219178082192,2127600,3.909834709530217,0,47.62063002586365,1773,"{'default': {'policy_loss': -0.03815491497516632, 'vf_explained_var': 0.7269856929779053, 'vf_loss': 5.553541660308838, 'kl': 0.03451882675290108, 'entropy': 0.4182807207107544, 'total_loss': 5.530333042144775, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.4329761266708374}, 'sample_time_ms': 47137.599, 'num_steps_trained': 2127600, 'grad_time_ms': 374.567, 'update_time_ms': 2.635, 'num_steps_sampled': 2127600, 'load_time_ms': 0.653}",83,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+72174.47929644585,238469,4.0009230855327065,1200,cda-server-2,4018.7410497665405,f93d3d6710754a149751678a58e67540,298,1757127477,100800,-34.23397685912039,2334312,{},10.157.146.2,False,{},2025-09-06_04-57-57,4.080536912751678,2128800,3.871994124778078,0,49.24158048629761,1774,"{'default': {'policy_loss': -0.04387960955500603, 'vf_explained_var': 0.9802777171134949, 'vf_loss': 0.10832902789115906, 'kl': 0.012267189100384712, 'entropy': 0.2656000852584839, 'total_loss': 0.0724165216088295, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.6494641900062561}, 'sample_time_ms': 47215.713, 'num_steps_trained': 2128800, 'grad_time_ms': 373.517, 'update_time_ms': 2.644, 'num_steps_sampled': 2128800, 'load_time_ms': 0.648}",84,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+72221.55094575882,238763,4.001555193223317,1200,cda-server-2,4065.8126990795135,f93d3d6710754a149751678a58e67540,294,1757127525,102000,-22.923629483439342,2334312,{},10.157.146.2,False,{},2025-09-06_04-58-45,4.074829931972789,2130000,3.881421189586007,0,47.07164931297302,1775,"{'default': {'policy_loss': -0.03570370376110077, 'vf_explained_var': 0.7578656077384949, 'vf_loss': 2.885432004928589, 'kl': 0.007050957065075636, 'entropy': 0.36134016513824463, 'total_loss': 2.8543074131011963, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.6494641900062561}, 'sample_time_ms': 47144.489, 'num_steps_trained': 2130000, 'grad_time_ms': 375.86, 'update_time_ms': 2.617, 'num_steps_sampled': 2130000, 'load_time_ms': 0.663}",85,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+72268.8262398243,239053,4.00115240610129,1200,cda-server-2,4113.087993144989,f93d3d6710754a149751678a58e67540,290,1757127572,103200,-30.13114156484736,2334312,{},10.157.146.2,False,{},2025-09-06_04-59-32,4.075862068965518,2131200,3.88258685458913,0,47.275294065475464,1776,"{'default': {'policy_loss': -0.043074388056993484, 'vf_explained_var': 0.6746574640274048, 'vf_loss': 8.995656967163086, 'kl': 0.014092091470956802, 'entropy': 0.49798834323883057, 'total_loss': 8.961734771728516, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.6494641900062561}, 'sample_time_ms': 47039.406, 'num_steps_trained': 2131200, 'grad_time_ms': 375.921, 'update_time_ms': 2.658, 'num_steps_sampled': 2131200, 'load_time_ms': 0.678}",86,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+72316.2378821373,239350,4.000773155184719,1200,cda-server-2,4160.499635457993,f93d3d6710754a149751678a58e67540,297,1757127619,104400,-27.27288701903484,2334312,{},10.157.146.2,False,{},2025-09-06_05-00-19,4.101010101010101,2132400,3.83853191014919,0,47.41164231300354,1777,"{'default': {'policy_loss': -0.042966078966856, 'vf_explained_var': 0.8375033736228943, 'vf_loss': 1.1775786876678467, 'kl': 0.011162925511598587, 'entropy': 0.2917885184288025, 'total_loss': 1.1418626308441162, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.6494641900062561}, 'sample_time_ms': 47078.495, 'num_steps_trained': 2132400, 'grad_time_ms': 376.243, 'update_time_ms': 2.704, 'num_steps_sampled': 2132400, 'load_time_ms': 0.69}",87,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+72364.3635365963,239646,4.000796979534314,1200,cda-server-2,4208.625289916992,f93d3d6710754a149751678a58e67540,296,1757127667,105600,-5.076984515978685,2334312,{},10.157.146.2,False,{},2025-09-06_05-01-07,4.0675675675675675,2133600,3.8949342246593117,0,48.125654458999634,1778,"{'default': {'policy_loss': -0.01443048007786274, 'vf_explained_var': 0.8061723113059998, 'vf_loss': 1.318381667137146, 'kl': 0.22397197782993317, 'entropy': 0.3485010862350464, 'total_loss': 1.4494129419326782, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.6494641900062561}, 'sample_time_ms': 47155.156, 'num_steps_trained': 2133600, 'grad_time_ms': 379.42, 'update_time_ms': 2.66, 'num_steps_sampled': 2133600, 'load_time_ms': 0.696}",88,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+72411.67320394516,239939,4.000918861923926,1200,cda-server-2,4255.934957265854,f93d3d6710754a149751678a58e67540,293,1757127715,106800,-15.881432769374626,2334312,{},10.157.146.2,False,{},2025-09-06_05-01-55,4.064846416382252,2134800,3.894757476000132,0,47.309667348861694,1779,"{'default': {'policy_loss': -0.03906365856528282, 'vf_explained_var': 0.723747968673706, 'vf_loss': 3.15524959564209, 'kl': 0.019469313323497772, 'entropy': 0.44356343150138855, 'total_loss': 3.135152578353882, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.9741963148117065}, 'sample_time_ms': 47111.488, 'num_steps_trained': 2134800, 'grad_time_ms': 377.145, 'update_time_ms': 2.714, 'num_steps_sampled': 2134800, 'load_time_ms': 0.701}",89,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+72459.76432108879,240237,4.001723734113331,1200,cda-server-2,4304.026074409485,f93d3d6710754a149751678a58e67540,298,1757127763,108000,-7.315671678587947,2334312,{},10.157.146.2,False,{},2025-09-06_05-02-43,4.043624161073826,2136000,3.9305472985615046,0,48.09111714363098,1780,"{'default': {'policy_loss': -0.04175892099738121, 'vf_explained_var': 0.9554183483123779, 'vf_loss': 0.24644631147384644, 'kl': 0.006807006895542145, 'entropy': 0.295285165309906, 'total_loss': 0.2113187462091446, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.9741963148117065}, 'sample_time_ms': 47201.138, 'num_steps_trained': 2136000, 'grad_time_ms': 378.32, 'update_time_ms': 2.665, 'num_steps_sampled': 2136000, 'load_time_ms': 0.696}",90,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+72508.01757836342,240528,4.001617366507358,1200,cda-server-2,4352.279331684113,f93d3d6710754a149751678a58e67540,291,1757127811,109200,-29.486936783509613,2334312,{},10.157.146.2,False,{},2025-09-06_05-03-31,4.120274914089347,2137200,3.81340917294919,0,48.253257274627686,1781,"{'default': {'policy_loss': -0.0465608686208725, 'vf_explained_var': 0.7189860939979553, 'vf_loss': 5.4049882888793945, 'kl': 0.011670233681797981, 'entropy': 0.5315252542495728, 'total_loss': 5.369795799255371, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.9741963148117065}, 'sample_time_ms': 47300.703, 'num_steps_trained': 2137200, 'grad_time_ms': 377.62, 'update_time_ms': 2.654, 'num_steps_sampled': 2137200, 'load_time_ms': 0.699}",91,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+72556.03481245041,240819,4.001419801816201,1200,cda-server-2,4400.296565771103,f93d3d6710754a149751678a58e67540,291,1757127859,110400,-15.834762133258877,2334312,{},10.157.146.2,False,{},2025-09-06_05-04-19,4.1271477663230245,2138400,3.8119586538806285,0,48.017234086990356,1782,"{'default': {'policy_loss': -0.03433894366025925, 'vf_explained_var': 0.7596666216850281, 'vf_loss': 2.6566121578216553, 'kl': 0.010201581753790379, 'entropy': 0.5272104740142822, 'total_loss': 2.632211923599243, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.9741963148117065}, 'sample_time_ms': 47455.806, 'num_steps_trained': 2138400, 'grad_time_ms': 376.177, 'update_time_ms': 2.653, 'num_steps_sampled': 2138400, 'load_time_ms': 0.706}",92,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+72603.27445840836,241119,4.000558081685574,1200,cda-server-2,4447.53621172905,f93d3d6710754a149751678a58e67540,300,1757127906,111600,4.000126476281078,2334312,{},10.157.146.2,False,{},2025-09-06_05-05-06,4.0,2139600,4.0002844449991635,0,47.23964595794678,1783,"{'default': {'policy_loss': -0.08527562767267227, 'vf_explained_var': 0.999140202999115, 'vf_loss': 0.004618373699486256, 'kl': 0.03884487599134445, 'entropy': 0.20407897233963013, 'total_loss': -0.0428147129714489, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.9741963148117065}, 'sample_time_ms': 47416.648, 'num_steps_trained': 2139600, 'grad_time_ms': 377.238, 'update_time_ms': 2.638, 'num_steps_sampled': 2139600, 'load_time_ms': 0.71}",93,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+72650.34823918343,241409,4.000834960813988,1200,cda-server-2,4494.60999250412,f93d3d6710754a149751678a58e67540,290,1757127954,112800,-23.176108419449136,2334312,{},10.157.146.2,False,{},2025-09-06_05-05-54,4.144827586206897,2140800,3.7623256428279737,0,47.07378077507019,1784,"{'default': {'policy_loss': -0.05133816599845886, 'vf_explained_var': 0.6495340466499329, 'vf_loss': 5.004936695098877, 'kl': 0.007019779644906521, 'entropy': 0.5590039491653442, 'total_loss': 4.9638566970825195, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.461294412612915}, 'sample_time_ms': 47198.975, 'num_steps_trained': 2140800, 'grad_time_ms': 378.107, 'update_time_ms': 2.641, 'num_steps_sampled': 2140800, 'load_time_ms': 0.712}",94,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+72697.64153647423,241705,4.000541152181064,1200,cda-server-2,4541.903289794922,f93d3d6710754a149751678a58e67540,296,1757128001,114000,-14.296838535658036,2334312,{},10.157.146.2,False,{},2025-09-06_05-06-41,4.054054054054054,2142000,3.9180438509295317,0,47.293297290802,1785,"{'default': {'policy_loss': -0.03173888102173805, 'vf_explained_var': 0.9178012013435364, 'vf_loss': 0.7390257120132446, 'kl': 0.003778078593313694, 'entropy': 0.42991960048675537, 'total_loss': 0.7128077745437622, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.461294412612915}, 'sample_time_ms': 47222.482, 'num_steps_trained': 2142000, 'grad_time_ms': 376.788, 'update_time_ms': 2.664, 'num_steps_sampled': 2142000, 'load_time_ms': 0.693}",95,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+72745.33807015419,241989,6.000121854473237,1200,cda-server-2,4589.599823474884,f93d3d6710754a149751678a58e67540,284,1757128049,115200,-63.57880437701537,2334312,{},10.157.146.2,False,{},2025-09-06_05-07-29,4.221830985915493,2143200,3.6568030102516977,0,47.69653367996216,1786,"{'default': {'policy_loss': -0.05781502276659012, 'vf_explained_var': 0.6590040922164917, 'vf_loss': 24.472822189331055, 'kl': 0.012194106355309486, 'entropy': 0.6549804210662842, 'total_loss': 24.423913955688477, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.7306472063064575}, 'sample_time_ms': 47266.934, 'num_steps_trained': 2143200, 'grad_time_ms': 374.582, 'update_time_ms': 2.611, 'num_steps_sampled': 2143200, 'load_time_ms': 0.679}",96,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+72792.64995646477,242287,4.000615325173907,1200,cda-server-2,4636.911709785461,f93d3d6710754a149751678a58e67540,298,1757128096,116400,-9.310136205372075,2334312,{},10.157.146.2,False,{},2025-09-06_05-08-16,4.026845637583893,2144400,3.9556120088411886,0,47.31188631057739,1787,"{'default': {'policy_loss': -0.043051790446043015, 'vf_explained_var': 0.8870140910148621, 'vf_loss': 0.8128959536552429, 'kl': 0.018347449600696564, 'entropy': 0.32913997769355774, 'total_loss': 0.78324955701828, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.7306472063064575}, 'sample_time_ms': 47256.807, 'num_steps_trained': 2144400, 'grad_time_ms': 374.771, 'update_time_ms': 2.584, 'num_steps_sampled': 2144400, 'load_time_ms': 0.679}",97,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+72839.66204738617,242578,4.000748737659054,1200,cda-server-2,4683.923800706863,f93d3d6710754a149751678a58e67540,291,1757128143,117600,-44.81946374830998,2334312,{},10.157.146.2,False,{},2025-09-06_05-09-03,4.123711340206185,2145600,3.804944076664174,0,47.01209092140198,1788,"{'default': {'policy_loss': -0.05046214535832405, 'vf_explained_var': 0.7702962756156921, 'vf_loss': 5.180959701538086, 'kl': 0.01979559287428856, 'entropy': 0.47416597604751587, 'total_loss': 5.144960403442383, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.7306472063064575}, 'sample_time_ms': 47145.845, 'num_steps_trained': 2145600, 'grad_time_ms': 374.428, 'update_time_ms': 2.608, 'num_steps_sampled': 2145600, 'load_time_ms': 0.664}",98,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+72887.10493731499,242877,4.000843361157734,1200,cda-server-2,4731.366690635681,f93d3d6710754a149751678a58e67540,299,1757128190,118800,-4.996490736963114,2334312,{},10.157.146.2,False,{},2025-09-06_05-09-50,4.0200668896321075,2146800,3.970194467640546,0,47.44288992881775,1789,"{'default': {'policy_loss': -0.041219256818294525, 'vf_explained_var': 0.8776981234550476, 'vf_loss': 0.7124969363212585, 'kl': 0.012544024735689163, 'entropy': 0.27658790349960327, 'total_loss': 0.6804429888725281, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.7306472063064575}, 'sample_time_ms': 47156.888, 'num_steps_trained': 2146800, 'grad_time_ms': 376.698, 'update_time_ms': 2.597, 'num_steps_sampled': 2146800, 'load_time_ms': 0.669}",99,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+72934.88308596611,243175,4.000921412173653,1200,cda-server-2,4779.144839286804,f93d3d6710754a149751678a58e67540,298,1757128238,120000,-4.033889720607874,2334312,{},10.157.146.2,False,{},2025-09-06_05-10-38,4.016778523489933,2148000,3.9733228148094395,0,47.77814865112305,1790,"{'default': {'policy_loss': -0.033601563423871994, 'vf_explained_var': 0.9381331205368042, 'vf_loss': 0.3628860116004944, 'kl': 0.014791673980653286, 'entropy': 0.2597379684448242, 'total_loss': 0.34009191393852234, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.7306472063064575}, 'sample_time_ms': 47126.108, 'num_steps_trained': 2148000, 'grad_time_ms': 376.204, 'update_time_ms': 2.583, 'num_steps_sampled': 2148000, 'load_time_ms': 0.667}",100,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+72982.52081656456,243475,4.001455589274899,1200,cda-server-2,4826.782569885254,f93d3d6710754a149751678a58e67540,300,1757128286,121200,4.000130772679695,2334312,{},10.157.146.2,False,{},2025-09-06_05-11-26,4.0,2149200,4.0002882181512085,0,47.63773059844971,1791,"{'default': {'policy_loss': -0.07369468361139297, 'vf_explained_var': 0.9976054430007935, 'vf_loss': 0.012811697088181973, 'kl': 0.05313267558813095, 'entropy': 0.33293089270591736, 'total_loss': -0.022061748430132866, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.7306472063064575}, 'sample_time_ms': 47064.426, 'num_steps_trained': 2149200, 'grad_time_ms': 376.401, 'update_time_ms': 2.537, 'num_steps_sampled': 2149200, 'load_time_ms': 0.673}",101,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+73029.85668540001,243771,4.001412148945274,1200,cda-server-2,4874.118438720703,f93d3d6710754a149751678a58e67540,296,1757128333,122400,-7.924044801350821,2334312,{},10.157.146.2,False,{},2025-09-06_05-12-13,4.054054054054054,2150400,3.9188815408871776,0,47.33586883544922,1792,"{'default': {'policy_loss': -0.04148438945412636, 'vf_explained_var': 0.8336097002029419, 'vf_loss': 1.3276872634887695, 'kl': 0.011152352206408978, 'entropy': 0.44545778632164, 'total_loss': 1.298425555229187, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.095970869064331}, 'sample_time_ms': 46996.293, 'num_steps_trained': 2150400, 'grad_time_ms': 376.398, 'update_time_ms': 2.533, 'num_steps_sampled': 2150400, 'load_time_ms': 0.671}",102,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+73078.1940703392,244067,4.0007736467176995,1200,cda-server-2,4922.455823659897,f93d3d6710754a149751678a58e67540,296,1757128382,123600,-12.016694187471956,2334312,{},10.157.146.2,False,{},2025-09-06_05-13-02,4.0608108108108105,2151600,3.902462852941613,0,48.337384939193726,1793,"{'default': {'policy_loss': -0.02983294241130352, 'vf_explained_var': 0.7848330140113831, 'vf_loss': 1.6687612533569336, 'kl': 0.012841287069022655, 'entropy': 0.3838137984275818, 'total_loss': 1.6530020236968994, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.095970869064331}, 'sample_time_ms': 47108.219, 'num_steps_trained': 2151600, 'grad_time_ms': 374.288, 'update_time_ms': 2.578, 'num_steps_sampled': 2151600, 'load_time_ms': 0.665}",103,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+73125.7743666172,244357,4.001788826479663,1200,cda-server-2,4970.036119937897,f93d3d6710754a149751678a58e67540,290,1757128429,124800,-53.36556971119526,2334312,{},10.157.146.2,False,{},2025-09-06_05-13-49,4.141379310344828,2152800,3.774796863442175,0,47.58029627799988,1794,"{'default': {'policy_loss': -0.043031737208366394, 'vf_explained_var': 0.6719948649406433, 'vf_loss': 15.537534713745117, 'kl': 0.006531393155455589, 'entropy': 0.6167337894439697, 'total_loss': 15.50166130065918, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.095970869064331}, 'sample_time_ms': 47158.453, 'num_steps_trained': 2152800, 'grad_time_ms': 374.758, 'update_time_ms': 2.539, 'num_steps_sampled': 2152800, 'load_time_ms': 0.663}",104,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+73173.1521859169,244648,4.000933021659744,1200,cda-server-2,5017.413939237595,f93d3d6710754a149751678a58e67540,291,1757128477,126000,-12.307833511088628,2334312,{},10.157.146.2,False,{},2025-09-06_05-14-37,4.116838487972508,2154000,3.8189313013691146,0,47.377819299697876,1795,"{'default': {'policy_loss': -0.04105503857135773, 'vf_explained_var': 0.6321879029273987, 'vf_loss': 3.2680325508117676, 'kl': 0.010954207740724087, 'entropy': 0.5769299864768982, 'total_loss': 3.238982915878296, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.095970869064331}, 'sample_time_ms': 47166.701, 'num_steps_trained': 2154000, 'grad_time_ms': 374.909, 'update_time_ms': 2.546, 'num_steps_sampled': 2154000, 'load_time_ms': 0.672}",105,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+73220.43269610405,244943,4.001648724729673,1200,cda-server-2,5064.694449424744,f93d3d6710754a149751678a58e67540,295,1757128524,127200,-14.092505094181082,2334312,{},10.157.146.2,False,{},2025-09-06_05-15-24,4.061016949152543,2155200,3.904183469134501,0,47.28051018714905,1796,"{'default': {'policy_loss': -0.029733240604400635, 'vf_explained_var': 0.8851281404495239, 'vf_loss': 1.312211275100708, 'kl': 0.030770979821681976, 'entropy': 0.45473888516426086, 'total_loss': 1.316202163696289, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.095970869064331}, 'sample_time_ms': 47124.851, 'num_steps_trained': 2155200, 'grad_time_ms': 375.153, 'update_time_ms': 2.564, 'num_steps_sampled': 2155200, 'load_time_ms': 0.679}",106,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+73267.6991121769,245231,4.000787443493975,1200,cda-server-2,5111.960865497589,f93d3d6710754a149751678a58e67540,288,1757128571,128400,-25.211158587938883,2334312,{},10.157.146.2,False,{},2025-09-06_05-16-11,4.173611111111111,2156400,3.7295086980073617,0,47.26641607284546,1797,"{'default': {'policy_loss': -0.044066231697797775, 'vf_explained_var': 0.6686517000198364, 'vf_loss': 6.8234052658081055, 'kl': 0.009035014547407627, 'entropy': 0.6353086233139038, 'total_loss': 6.794191837310791, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.6439563035964966}, 'sample_time_ms': 47122.073, 'num_steps_trained': 2156400, 'grad_time_ms': 373.358, 'update_time_ms': 2.597, 'num_steps_sampled': 2156400, 'load_time_ms': 0.681}",107,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+73315.89569616318,245530,4.001445655039134,1200,cda-server-2,5160.1574494838715,f93d3d6710754a149751678a58e67540,299,1757128619,129600,-4.0207717522256115,2334312,{},10.157.146.2,False,{},2025-09-06_05-16-59,4.016722408026756,2157600,3.9734742561179908,0,48.19658398628235,1798,"{'default': {'policy_loss': -0.0309531819075346, 'vf_explained_var': 0.9498373866081238, 'vf_loss': 0.29524174332618713, 'kl': 0.010033391416072845, 'entropy': 0.3737059235572815, 'total_loss': 0.2807830274105072, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.6439563035964966}, 'sample_time_ms': 47241.523, 'num_steps_trained': 2157600, 'grad_time_ms': 372.389, 'update_time_ms': 2.583, 'num_steps_sampled': 2157600, 'load_time_ms': 0.687}",108,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+73363.06055879593,245825,4.000987538782727,1200,cda-server-2,5207.322312116623,f93d3d6710754a149751678a58e67540,295,1757128667,130800,-10.052854494050933,2334312,{},10.157.146.2,False,{},2025-09-06_05-17-47,4.074576271186441,2158800,3.879240888126404,0,47.164862632751465,1799,"{'default': {'policy_loss': -0.036388739943504333, 'vf_explained_var': 0.7988294959068298, 'vf_loss': 1.5959023237228394, 'kl': 0.009316742420196533, 'entropy': 0.36715829372406006, 'total_loss': 1.5748299360275269, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.6439563035964966}, 'sample_time_ms': 47213.766, 'num_steps_trained': 2158800, 'grad_time_ms': 372.425, 'update_time_ms': 2.549, 'num_steps_sampled': 2158800, 'load_time_ms': 0.682}",109,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+73410.04350423813,246119,4.000914133707835,1200,cda-server-2,5254.305257558823,f93d3d6710754a149751678a58e67540,294,1757128714,132000,-20.44480511669633,2334312,{},10.157.146.2,False,{},2025-09-06_05-18-34,4.078231292517007,2160000,3.8828011225203034,0,46.98294544219971,1800,"{'default': {'policy_loss': -0.038360677659511566, 'vf_explained_var': 0.7881182432174683, 'vf_loss': 2.149399757385254, 'kl': 0.007807980757206678, 'entropy': 0.5245578289031982, 'total_loss': 2.123875617980957, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.6439563035964966}, 'sample_time_ms': 47136.085, 'num_steps_trained': 2160000, 'grad_time_ms': 370.502, 'update_time_ms': 2.59, 'num_steps_sampled': 2160000, 'load_time_ms': 0.68}",110,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+73457.09160876274,246403,4.001335783724639,1200,cda-server-2,5301.353362083435,f93d3d6710754a149751678a58e67540,284,1757128761,133200,-18.64582907163721,2334312,{},10.157.146.2,False,{},2025-09-06_05-19-21,4.22887323943662,2161200,3.6383426818350597,0,47.04810452461243,1801,"{'default': {'policy_loss': -0.04862473905086517, 'vf_explained_var': 0.5650343298912048, 'vf_loss': 7.443848609924316, 'kl': 0.021906530484557152, 'entropy': 0.6373056769371033, 'total_loss': 7.431236267089844, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.6439563035964966}, 'sample_time_ms': 47077.911, 'num_steps_trained': 2161200, 'grad_time_ms': 369.627, 'update_time_ms': 2.73, 'num_steps_sampled': 2161200, 'load_time_ms': 0.674}",111,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+73504.27028608322,246692,4.0017179773946845,1200,cda-server-2,5348.532039403915,f93d3d6710754a149751678a58e67540,289,1757128808,134400,-17.241968100440527,2334312,{},10.157.146.2,False,{},2025-09-06_05-20-08,4.13840830449827,2162400,3.789656850884701,0,47.17867732048035,1802,"{'default': {'policy_loss': -0.042309075593948364, 'vf_explained_var': 0.7183666825294495, 'vf_loss': 2.7842838764190674, 'kl': 0.005347972735762596, 'entropy': 0.5772764086723328, 'total_loss': 2.7551627159118652, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.4659345149993896}, 'sample_time_ms': 47060.084, 'num_steps_trained': 2162400, 'grad_time_ms': 371.771, 'update_time_ms': 2.712, 'num_steps_sampled': 2162400, 'load_time_ms': 0.673}",112,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+73550.9539129734,246982,4.001381851281508,1200,cda-server-2,5395.215666294098,f93d3d6710754a149751678a58e67540,290,1757128855,135600,-23.86755363800406,2334312,{},10.157.146.2,False,{},2025-09-06_05-20-55,4.155172413793103,2163600,3.756860049464607,0,46.683626890182495,1803,"{'default': {'policy_loss': -0.04157194867730141, 'vf_explained_var': 0.7024657130241394, 'vf_loss': 4.018617630004883, 'kl': 0.01095731370151043, 'entropy': 0.5502112507820129, 'total_loss': 4.00406551361084, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.4659345149993896}, 'sample_time_ms': 46892.417, 'num_steps_trained': 2163600, 'grad_time_ms': 373.999, 'update_time_ms': 2.691, 'num_steps_sampled': 2163600, 'load_time_ms': 0.68}",113,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+73599.3542330265,247276,4.000826859825986,1200,cda-server-2,5443.6159863471985,f93d3d6710754a149751678a58e67540,294,1757128903,136800,-19.540228613718423,2334312,{},10.157.146.2,False,{},2025-09-06_05-21-43,4.074829931972789,2164800,3.8758971693295905,0,48.400320053100586,1804,"{'default': {'policy_loss': -0.031124519184231758, 'vf_explained_var': 0.783247709274292, 'vf_loss': 2.6573410034179688, 'kl': 0.003882852615788579, 'entropy': 0.36850225925445557, 'total_loss': 2.635791063308716, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.4659345149993896}, 'sample_time_ms': 46976.106, 'num_steps_trained': 2164800, 'grad_time_ms': 372.272, 'update_time_ms': 2.734, 'num_steps_sampled': 2164800, 'load_time_ms': 0.677}",114,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+73646.91362190247,247565,4.000563015962303,1200,cda-server-2,5491.17537522316,f93d3d6710754a149751678a58e67540,289,1757128951,138000,-18.861732115990122,2334312,{},10.157.146.2,False,{},2025-09-06_05-22-31,4.14878892733564,2166000,3.7613480954762823,0,47.559388875961304,1805,"{'default': {'policy_loss': -0.044878821820020676, 'vf_explained_var': 0.6551802158355713, 'vf_loss': 4.806699275970459, 'kl': 0.015878837555646896, 'entropy': 0.5216043591499329, 'total_loss': 4.781398296356201, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.2329672574996948}, 'sample_time_ms': 46994.704, 'num_steps_trained': 2166000, 'grad_time_ms': 371.895, 'update_time_ms': 2.725, 'num_steps_sampled': 2166000, 'load_time_ms': 0.671}",115,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+73693.65780639648,247857,4.00080001306835,1200,cda-server-2,5537.919559717178,f93d3d6710754a149751678a58e67540,292,1757128997,139200,-21.84238102079639,2334312,{},10.157.146.2,False,{},2025-09-06_05-23-17,4.1061643835616435,2167200,3.836167795092899,0,46.744184494018555,1806,"{'default': {'policy_loss': -0.0437442921102047, 'vf_explained_var': 0.7443065047264099, 'vf_loss': 3.3722689151763916, 'kl': 0.0035810135304927826, 'entropy': 0.5267502665519714, 'total_loss': 3.332940101623535, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.2329672574996948}, 'sample_time_ms': 46941.255, 'num_steps_trained': 2167200, 'grad_time_ms': 371.793, 'update_time_ms': 2.703, 'num_steps_sampled': 2167200, 'load_time_ms': 0.676}",116,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+73741.070374012,248151,4.0006497225835105,1200,cda-server-2,5585.332127332687,f93d3d6710754a149751678a58e67540,294,1757129045,140400,-22.86998721387196,2334312,{},10.157.146.2,False,{},2025-09-06_05-24-05,4.081632653061225,2168400,3.871580240035792,0,47.41256761550903,1807,"{'default': {'policy_loss': -0.03876982256770134, 'vf_explained_var': 0.739353358745575, 'vf_loss': 3.1368091106414795, 'kl': 0.011952627450227737, 'entropy': 0.4361320734024048, 'total_loss': 3.10540771484375, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.6164836287498474}, 'sample_time_ms': 46955.674, 'num_steps_trained': 2168400, 'grad_time_ms': 372.001, 'update_time_ms': 2.653, 'num_steps_sampled': 2168400, 'load_time_ms': 0.67}",117,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+73788.37803268433,248443,4.001114983464658,1200,cda-server-2,5632.63978600502,f93d3d6710754a149751678a58e67540,292,1757129092,141600,-31.548288666975196,2334312,{},10.157.146.2,False,{},2025-09-06_05-24-52,4.102739726027397,2169600,3.8409073056975993,0,47.307658672332764,1808,"{'default': {'policy_loss': -0.04553340747952461, 'vf_explained_var': 0.6647274494171143, 'vf_loss': 5.496207237243652, 'kl': 0.007243757601827383, 'entropy': 0.5238347053527832, 'total_loss': 5.45513916015625, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.6164836287498474}, 'sample_time_ms': 46866.22, 'num_steps_trained': 2169600, 'grad_time_ms': 372.511, 'update_time_ms': 2.675, 'num_steps_sampled': 2169600, 'load_time_ms': 0.672}",118,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+73835.87156271935,248730,4.0013280105268585,1200,cda-server-2,5680.133316040039,f93d3d6710754a149751678a58e67540,287,1757129140,142800,-37.38762902488336,2334312,{},10.157.146.2,False,{},2025-09-06_05-25-40,4.181184668989547,2170800,3.724097233144435,0,47.49353003501892,1809,"{'default': {'policy_loss': -0.04852912202477455, 'vf_explained_var': 0.6997411847114563, 'vf_loss': 8.882854461669922, 'kl': 0.030921217054128647, 'entropy': 0.6358577013015747, 'total_loss': 8.853388786315918, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.6164836287498474}, 'sample_time_ms': 46899.45, 'num_steps_trained': 2170800, 'grad_time_ms': 372.14, 'update_time_ms': 2.686, 'num_steps_sampled': 2170800, 'load_time_ms': 0.677}",119,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+73882.91210961342,249023,4.001518972789365,1200,cda-server-2,5727.173862934113,f93d3d6710754a149751678a58e67540,293,1757129187,144000,-18.61833432714204,2334312,{},10.157.146.2,False,{},2025-09-06_05-26-27,4.09556313993174,2172000,3.8530747289344736,0,47.040546894073486,1810,"{'default': {'policy_loss': -0.041821639984846115, 'vf_explained_var': 0.7682318687438965, 'vf_loss': 2.729861259460449, 'kl': 0.012235279195010662, 'entropy': 0.5254402160644531, 'total_loss': 2.6993541717529297, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.9247254133224487}, 'sample_time_ms': 46902.449, 'num_steps_trained': 2172000, 'grad_time_ms': 374.986, 'update_time_ms': 2.662, 'num_steps_sampled': 2172000, 'load_time_ms': 0.682}",120,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+73931.44400453568,249311,4.0009834629925045,1200,cda-server-2,5775.705757856369,f93d3d6710754a149751678a58e67540,288,1757129235,145200,-26.392158160392142,2334312,{},10.157.146.2,False,{},2025-09-06_05-27-15,4.159722222222222,2173200,3.7488001558166593,0,48.53189492225647,1811,"{'default': {'policy_loss': -0.05316900089383125, 'vf_explained_var': 0.6644416451454163, 'vf_loss': 4.994518756866455, 'kl': 0.011403605341911316, 'entropy': 0.5334479212760925, 'total_loss': 4.951894760131836, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.9247254133224487}, 'sample_time_ms': 47048.515, 'num_steps_trained': 2173200, 'grad_time_ms': 377.35, 'update_time_ms': 2.543, 'num_steps_sampled': 2173200, 'load_time_ms': 0.68}",121,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+73979.21932864189,249605,4.0010620749539765,1200,cda-server-2,5823.481081962585,f93d3d6710754a149751678a58e67540,294,1757129283,146400,-8.082231571331384,2334312,{},10.157.146.2,False,{},2025-09-06_05-28-03,4.08843537414966,2174400,3.8659491700988196,0,47.77532410621643,1812,"{'default': {'policy_loss': -0.04234446957707405, 'vf_explained_var': 0.7866160273551941, 'vf_loss': 1.590861201286316, 'kl': 0.012317907996475697, 'entropy': 0.41216379404067993, 'total_loss': 1.5599074363708496, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.9247254133224487}, 'sample_time_ms': 47109.473, 'num_steps_trained': 2174400, 'grad_time_ms': 375.947, 'update_time_ms': 2.596, 'num_steps_sampled': 2174400, 'load_time_ms': 0.677}",122,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+74027.01351809502,249902,4.000770294536599,1200,cda-server-2,5871.27527141571,f93d3d6710754a149751678a58e67540,297,1757129331,147600,-18.838994141638445,2334312,{},10.157.146.2,False,{},2025-09-06_05-28-51,4.05050505050505,2175600,3.9233840325942224,0,47.794189453125,1813,"{'default': {'policy_loss': -0.027673158794641495, 'vf_explained_var': 0.802022397518158, 'vf_loss': 1.9226679801940918, 'kl': 0.0037496527656912804, 'entropy': 0.3463689088821411, 'total_loss': 1.8984625339508057, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.9247254133224487}, 'sample_time_ms': 47220.585, 'num_steps_trained': 2175600, 'grad_time_ms': 375.895, 'update_time_ms': 2.612, 'num_steps_sampled': 2175600, 'load_time_ms': 0.67}",123,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+74074.64061903954,250198,4.00065066672883,1200,cda-server-2,5918.9023723602295,f93d3d6710754a149751678a58e67540,296,1757129378,148800,-9.606152251038427,2334312,{},10.157.146.2,False,{},2025-09-06_05-29-38,4.050675675675675,2176800,3.9205097981215,0,47.62710094451904,1814,"{'default': {'policy_loss': -0.04413864389061928, 'vf_explained_var': 0.8609792590141296, 'vf_loss': 1.0535223484039307, 'kl': 0.006177795585244894, 'entropy': 0.407347708940506, 'total_loss': 1.0122400522232056, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.46236270666122437}, 'sample_time_ms': 47141.353, 'num_steps_trained': 2176800, 'grad_time_ms': 377.799, 'update_time_ms': 2.605, 'num_steps_sampled': 2176800, 'load_time_ms': 0.676}",124,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+74122.33665060997,250494,4.000804477972018,1200,cda-server-2,5966.598403930664,f93d3d6710754a149751678a58e67540,296,1757129426,150000,-17.97850435500056,2334312,{},10.157.146.2,False,{},2025-09-06_05-30-26,4.0608108108108105,2178000,3.90564920204868,0,47.69603157043457,1815,"{'default': {'policy_loss': -0.03164695203304291, 'vf_explained_var': 0.8096145987510681, 'vf_loss': 1.940568447113037, 'kl': 0.010061434470117092, 'entropy': 0.43537160754203796, 'total_loss': 1.9135736227035522, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.46236270666122437}, 'sample_time_ms': 47156.15, 'num_steps_trained': 2178000, 'grad_time_ms': 376.682, 'update_time_ms': 2.625, 'num_steps_sampled': 2178000, 'load_time_ms': 0.676}",125,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+74170.25751161575,250788,4.001004460900586,1200,cda-server-2,6014.519264936447,f93d3d6710754a149751678a58e67540,294,1757129474,151200,-34.08090655555457,2334312,{},10.157.146.2,False,{},2025-09-06_05-31-14,4.085034013605442,2179200,3.8571663126551194,0,47.92086100578308,1816,"{'default': {'policy_loss': -0.04190390929579735, 'vf_explained_var': 0.7680581212043762, 'vf_loss': 4.924640655517578, 'kl': 0.01810595393180847, 'entropy': 0.41083794832229614, 'total_loss': 4.89110803604126, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.46236270666122437}, 'sample_time_ms': 47272.194, 'num_steps_trained': 2179200, 'grad_time_ms': 378.286, 'update_time_ms': 2.605, 'num_steps_sampled': 2179200, 'load_time_ms': 0.673}",126,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+74218.42702460289,251086,4.000707075929038,1200,cda-server-2,6062.688777923584,f93d3d6710754a149751678a58e67540,298,1757129522,152400,-6.807302583900995,2334312,{},10.157.146.2,False,{},2025-09-06_05-32-02,4.023489932885906,2180400,3.9640170325272757,0,48.16951298713684,1817,"{'default': {'policy_loss': -0.03509259968996048, 'vf_explained_var': 0.9272304177284241, 'vf_loss': 0.4773139953613281, 'kl': 0.015366345643997192, 'entropy': 0.41153568029403687, 'total_loss': 0.4493263065814972, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.46236270666122437}, 'sample_time_ms': 47346.085, 'num_steps_trained': 2180400, 'grad_time_ms': 380.046, 'update_time_ms': 2.62, 'num_steps_sampled': 2180400, 'load_time_ms': 0.692}",127,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+74266.1389849186,251379,4.000696922589665,1200,cda-server-2,6110.400738239288,f93d3d6710754a149751678a58e67540,293,1757129570,153600,-31.997101438971825,2334312,{},10.157.146.2,False,{},2025-09-06_05-32-50,4.092150170648464,2181600,3.850051681409514,0,47.711960315704346,1818,"{'default': {'policy_loss': -0.042657818645238876, 'vf_explained_var': 0.7608414888381958, 'vf_loss': 5.137951374053955, 'kl': 0.018400000408291817, 'entropy': 0.41734176874160767, 'total_loss': 5.103801250457764, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.46236270666122437}, 'sample_time_ms': 47388.657, 'num_steps_trained': 2181600, 'grad_time_ms': 377.924, 'update_time_ms': 2.604, 'num_steps_sampled': 2181600, 'load_time_ms': 0.69}",128,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+74313.60901427269,251677,4.0008515427344,1200,cda-server-2,6157.870767593384,f93d3d6710754a149751678a58e67540,298,1757129617,154800,-2.106183536406432,2334312,{},10.157.146.2,False,{},2025-09-06_05-33-37,4.026845637583893,2182800,3.962668089190217,0,47.47002935409546,1819,"{'default': {'policy_loss': -0.040120866149663925, 'vf_explained_var': 0.9009501338005066, 'vf_loss': 0.540762722492218, 'kl': 0.015206964686512947, 'entropy': 0.29499462246894836, 'total_loss': 0.5076729655265808, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.46236270666122437}, 'sample_time_ms': 47386.662, 'num_steps_trained': 2182800, 'grad_time_ms': 377.585, 'update_time_ms': 2.581, 'num_steps_sampled': 2182800, 'load_time_ms': 0.685}",129,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+74361.18790102005,251973,4.000685347973668,1200,cda-server-2,6205.449654340744,f93d3d6710754a149751678a58e67540,296,1757129665,156000,-10.837751367868123,2334312,{},10.157.146.2,False,{},2025-09-06_05-34-25,4.050675675675675,2184000,3.9204192051028124,0,47.57888674736023,1820,"{'default': {'policy_loss': -0.03428466618061066, 'vf_explained_var': 0.8643582463264465, 'vf_loss': 1.1477547883987427, 'kl': 0.014617595821619034, 'entropy': 0.3556648790836334, 'total_loss': 1.12022864818573, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.46236270666122437}, 'sample_time_ms': 47441.153, 'num_steps_trained': 2184000, 'grad_time_ms': 376.861, 'update_time_ms': 2.598, 'num_steps_sampled': 2184000, 'load_time_ms': 0.684}",130,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+74408.12455677986,252265,4.001192002509599,1200,cda-server-2,6252.386310100555,f93d3d6710754a149751678a58e67540,292,1757129712,157200,-17.575471738281596,2334312,{},10.157.146.2,False,{},2025-09-06_05-35-12,4.116438356164384,2185200,3.8112265768533917,0,46.9366557598114,1821,"{'default': {'policy_loss': -0.02396087720990181, 'vf_explained_var': 0.7302894592285156, 'vf_loss': 3.057023525238037, 'kl': 0.06988102197647095, 'entropy': 0.37354934215545654, 'total_loss': 3.065372943878174, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.46236270666122437}, 'sample_time_ms': 47283.02, 'num_steps_trained': 2185200, 'grad_time_ms': 375.348, 'update_time_ms': 2.66, 'num_steps_sampled': 2185200, 'load_time_ms': 0.69}",131,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+74455.07936358452,252553,4.000714887556034,1200,cda-server-2,6299.341116905212,f93d3d6710754a149751678a58e67540,288,1757129759,158400,-21.76576080387618,2334312,{},10.157.146.2,False,{},2025-09-06_05-35-59,4.149305555555555,2186400,3.762765235136054,0,46.95480680465698,1822,"{'default': {'policy_loss': -0.03941376507282257, 'vf_explained_var': 0.6782252192497253, 'vf_loss': 4.105717658996582, 'kl': 0.028611838817596436, 'entropy': 0.4694870412349701, 'total_loss': 4.086147785186768, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.6935440301895142}, 'sample_time_ms': 47199.294, 'num_steps_trained': 2186400, 'grad_time_ms': 377.042, 'update_time_ms': 2.664, 'num_steps_sampled': 2186400, 'load_time_ms': 0.693}",132,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+74503.19592189789,252846,4.00174293162212,1200,cda-server-2,6347.457675218582,f93d3d6710754a149751678a58e67540,293,1757129807,159600,-21.340497859473963,2334312,{},10.157.146.2,False,{},2025-09-06_05-36-47,4.09556313993174,2187600,3.8522087041680897,0,48.11655831336975,1823,"{'default': {'policy_loss': -0.03725145012140274, 'vf_explained_var': 0.7854400277137756, 'vf_loss': 3.017845630645752, 'kl': 0.01292528584599495, 'entropy': 0.44918113946914673, 'total_loss': 2.9940404891967773, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.040316104888916}, 'sample_time_ms': 47231.442, 'num_steps_trained': 2187600, 'grad_time_ms': 377.136, 'update_time_ms': 2.667, 'num_steps_sampled': 2187600, 'load_time_ms': 0.699}",133,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+74551.20422959328,253138,4.002039402516145,1200,cda-server-2,6395.465982913971,f93d3d6710754a149751678a58e67540,292,1757129855,160800,-19.961134734875586,2334312,{},10.157.146.2,False,{},2025-09-06_05-37-35,4.11986301369863,2188800,3.8069121785839943,0,48.008307695388794,1824,"{'default': {'policy_loss': -0.049473658204078674, 'vf_explained_var': 0.7400376200675964, 'vf_loss': 3.4845690727233887, 'kl': 0.016380352899432182, 'entropy': 0.47838959097862244, 'total_loss': 3.4521360397338867, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.040316104888916}, 'sample_time_ms': 47270.146, 'num_steps_trained': 2188800, 'grad_time_ms': 376.559, 'update_time_ms': 2.652, 'num_steps_sampled': 2188800, 'load_time_ms': 0.689}",134,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+74598.82366490364,253432,4.0007192857641485,1200,cda-server-2,6443.085418224335,f93d3d6710754a149751678a58e67540,294,1757129903,162000,-12.694145568512504,2334312,{},10.157.146.2,False,{},2025-09-06_05-38-23,4.074829931972789,2190000,3.8820869273677663,0,47.61943531036377,1825,"{'default': {'policy_loss': -0.03684496879577637, 'vf_explained_var': 0.8199340105056763, 'vf_loss': 1.6335103511810303, 'kl': 0.00808154046535492, 'entropy': 0.3530767858028412, 'total_loss': 1.6050728559494019, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.040316104888916}, 'sample_time_ms': 47260.306, 'num_steps_trained': 2190000, 'grad_time_ms': 378.656, 'update_time_ms': 2.657, 'num_steps_sampled': 2190000, 'load_time_ms': 0.698}",135,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+74646.39850521088,253730,4.001010829047525,1200,cda-server-2,6490.66025853157,f93d3d6710754a149751678a58e67540,298,1757129950,163200,-4.049161223533098,2334312,{},10.157.146.2,False,{},2025-09-06_05-39-10,4.016778523489933,2191200,3.973270641649257,0,47.57484030723572,1826,"{'default': {'policy_loss': -0.032496023923158646, 'vf_explained_var': 0.9169356822967529, 'vf_loss': 0.5210483074188232, 'kl': 0.0063787284307181835, 'entropy': 0.400818794965744, 'total_loss': 0.4951881766319275, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.040316104888916}, 'sample_time_ms': 47227.528, 'num_steps_trained': 2191200, 'grad_time_ms': 376.855, 'update_time_ms': 2.656, 'num_steps_sampled': 2191200, 'load_time_ms': 0.693}",136,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+74693.17123436928,254018,4.000997945157553,1200,cda-server-2,6537.432987689972,f93d3d6710754a149751678a58e67540,288,1757129997,164400,-27.87353193461201,2334312,{},10.157.146.2,False,{},2025-09-06_05-39-57,4.173611111111111,2192400,3.719973800299913,0,46.77272915840149,1827,"{'default': {'policy_loss': -0.05382465198636055, 'vf_explained_var': 0.7018644213676453, 'vf_loss': 4.539086818695068, 'kl': 0.005136981140822172, 'entropy': 0.4997901916503906, 'total_loss': 4.49060583114624, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.040316104888916}, 'sample_time_ms': 47089.364, 'num_steps_trained': 2192400, 'grad_time_ms': 375.317, 'update_time_ms': 2.685, 'num_steps_sampled': 2192400, 'load_time_ms': 0.67}",137,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+74740.09929656982,254311,4.000735849825142,1200,cda-server-2,6584.361049890518,f93d3d6710754a149751678a58e67540,293,1757130044,165600,-15.444386928622162,2334312,{},10.157.146.2,False,{},2025-09-06_05-40-44,4.102389078498294,2193600,3.8358984919761974,0,46.928062200546265,1828,"{'default': {'policy_loss': -0.03530273959040642, 'vf_explained_var': 0.7755424380302429, 'vf_loss': 2.329279899597168, 'kl': 0.012858254835009575, 'entropy': 0.49671778082847595, 'total_loss': 2.307353973388672, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.040316104888916}, 'sample_time_ms': 47007.449, 'num_steps_trained': 2193600, 'grad_time_ms': 378.768, 'update_time_ms': 2.687, 'num_steps_sampled': 2193600, 'load_time_ms': 0.682}",138,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+74788.50078749657,254604,4.000760838153397,1200,cda-server-2,6632.762540817261,f93d3d6710754a149751678a58e67540,293,1757130093,166800,-13.026849228215422,2334312,{},10.157.146.2,False,{},2025-09-06_05-41-33,4.1058020477815695,2194800,3.8283005138623105,0,48.401490926742554,1829,"{'default': {'policy_loss': -0.05361710116267204, 'vf_explained_var': 0.7544782161712646, 'vf_loss': 2.1717634201049805, 'kl': 0.022402411326766014, 'entropy': 0.48214733600616455, 'total_loss': 2.1414523124694824, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.040316104888916}, 'sample_time_ms': 47099.097, 'num_steps_trained': 2194800, 'grad_time_ms': 380.135, 'update_time_ms': 2.739, 'num_steps_sampled': 2194800, 'load_time_ms': 0.703}",139,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+74836.05131959915,254900,4.000831942925734,1200,cda-server-2,6680.313072919846,f93d3d6710754a149751678a58e67540,296,1757130140,168000,-5.525207072306397,2334312,{},10.157.146.2,False,{},2025-09-06_05-42-20,4.050675675675675,2196000,3.920509646958546,0,47.55053210258484,1830,"{'default': {'policy_loss': -0.03398503363132477, 'vf_explained_var': 0.9044457674026489, 'vf_loss': 0.661181628704071, 'kl': 0.006426190957427025, 'entropy': 0.25790247321128845, 'total_loss': 0.637224555015564, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.560474157333374}, 'sample_time_ms': 47094.748, 'num_steps_trained': 2196000, 'grad_time_ms': 381.643, 'update_time_ms': 2.761, 'num_steps_sampled': 2196000, 'load_time_ms': 0.703}",140,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+74883.67686414719,255191,4.000637036577693,1200,cda-server-2,6727.93861746788,f93d3d6710754a149751678a58e67540,291,1757130188,169200,-22.226235535165912,2334312,{},10.157.146.2,False,{},2025-09-06_05-43-08,4.116838487972508,2197200,3.807042240378246,0,47.62554454803467,1831,"{'default': {'policy_loss': -0.03722294047474861, 'vf_explained_var': 0.7120923399925232, 'vf_loss': 4.388881683349609, 'kl': 0.013325954787433147, 'entropy': 0.4862203598022461, 'total_loss': 4.372453689575195, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.560474157333374}, 'sample_time_ms': 47165.057, 'num_steps_trained': 2197200, 'grad_time_ms': 380.412, 'update_time_ms': 2.684, 'num_steps_sampled': 2197200, 'load_time_ms': 0.7}",141,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+74931.20157575607,255490,4.001020814266621,1200,cda-server-2,6775.463329076767,f93d3d6710754a149751678a58e67540,299,1757130235,170400,-4.077991206375513,2334312,{},10.157.146.2,False,{},2025-09-06_05-43-55,4.016722408026756,2198400,3.9732726392445423,0,47.52471160888672,1832,"{'default': {'policy_loss': -0.020948641002178192, 'vf_explained_var': 0.9675207138061523, 'vf_loss': 0.2010871171951294, 'kl': 0.002848875243216753, 'entropy': 0.24769295752048492, 'total_loss': 0.18458408117294312, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.560474157333374}, 'sample_time_ms': 47223.917, 'num_steps_trained': 2198400, 'grad_time_ms': 378.561, 'update_time_ms': 2.612, 'num_steps_sampled': 2198400, 'load_time_ms': 0.698}",142,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+74977.81336379051,255787,4.000747678024736,1200,cda-server-2,6822.075117111206,f93d3d6710754a149751678a58e67540,297,1757130282,171600,-13.631504289479995,2334312,{},10.157.146.2,False,{},2025-09-06_05-44-42,4.037037037037037,2199600,3.9409218677323437,0,46.61178803443909,1833,"{'default': {'policy_loss': -0.021853763610124588, 'vf_explained_var': 0.8717586994171143, 'vf_loss': 1.0743268728256226, 'kl': 0.0029221123550087214, 'entropy': 0.354513019323349, 'total_loss': 1.0547528266906738, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.780237078666687}, 'sample_time_ms': 47075.742, 'num_steps_trained': 2199600, 'grad_time_ms': 376.256, 'update_time_ms': 2.647, 'num_steps_sampled': 2199600, 'load_time_ms': 0.693}",143,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+75023.65401315689,256083,4.000655939070133,1200,cda-server-2,6867.915766477585,f93d3d6710754a149751678a58e67540,296,1757130328,172800,-10.383780704699443,2334312,{},10.157.146.2,False,{},2025-09-06_05-45-28,4.0641891891891895,2200800,3.9039842775562654,0,45.840649366378784,1834,"{'default': {'policy_loss': -0.03018999472260475, 'vf_explained_var': 0.8407314419746399, 'vf_loss': 1.1630898714065552, 'kl': 0.04825218766927719, 'entropy': 0.4215030074119568, 'total_loss': 1.151723861694336, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.3901185393333435}, 'sample_time_ms': 46859.067, 'num_steps_trained': 2200800, 'grad_time_ms': 376.195, 'update_time_ms': 2.642, 'num_steps_sampled': 2200800, 'load_time_ms': 0.697}",144,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+75069.14417624474,256383,4.000801113331027,1200,cda-server-2,6913.40592956543,f93d3d6710754a149751678a58e67540,300,1757130373,174000,4.000135046522992,2334312,{},10.157.146.2,False,{},2025-09-06_05-46-13,4.0,2202000,4.00029352286205,0,45.49016308784485,1835,"{'default': {'policy_loss': -0.08079659193754196, 'vf_explained_var': 0.9997201561927795, 'vf_loss': 0.0015042484737932682, 'kl': 0.05274591222405434, 'entropy': 0.3130916655063629, 'total_loss': -0.048426609486341476, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.5851777791976929}, 'sample_time_ms': 46646.743, 'num_steps_trained': 2202000, 'grad_time_ms': 375.548, 'update_time_ms': 2.668, 'num_steps_sampled': 2202000, 'load_time_ms': 0.686}",145,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+75115.44589400291,256679,4.000636133804049,1200,cda-server-2,6959.707647323608,f93d3d6710754a149751678a58e67540,296,1757130420,175200,-4.885238842229954,2334312,{},10.157.146.2,False,{},2025-09-06_05-47-00,4.050675675675675,2203200,3.921759842234415,0,46.30171775817871,1836,"{'default': {'policy_loss': -0.03447449207305908, 'vf_explained_var': 0.9125626087188721, 'vf_loss': 0.5881636142730713, 'kl': 0.010929024778306484, 'entropy': 0.35069242119789124, 'total_loss': 0.5632822513580322, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.8777666687965393}, 'sample_time_ms': 46518.036, 'num_steps_trained': 2203200, 'grad_time_ms': 376.872, 'update_time_ms': 2.7, 'num_steps_sampled': 2203200, 'load_time_ms': 0.688}",146,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+75161.51444578171,256974,4.000737724029767,1200,cda-server-2,7005.776199102402,f93d3d6710754a149751678a58e67540,295,1757130466,176400,-16.011714040076104,2334312,{},10.157.146.2,False,{},2025-09-06_05-47-46,4.064406779661017,2204400,3.8950885698152855,0,46.068551778793335,1837,"{'default': {'policy_loss': -0.03801891580224037, 'vf_explained_var': 0.7959055304527283, 'vf_loss': 1.8452504873275757, 'kl': 0.012367380782961845, 'entropy': 0.30684465169906616, 'total_loss': 1.8180872201919556, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.8777666687965393}, 'sample_time_ms': 46447.379, 'num_steps_trained': 2204400, 'grad_time_ms': 377.151, 'update_time_ms': 2.73, 'num_steps_sampled': 2204400, 'load_time_ms': 0.688}",147,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+75206.97800970078,257265,4.001042678419683,1200,cda-server-2,7051.239763021469,f93d3d6710754a149751678a58e67540,291,1757130511,177600,-18.652308490047705,2334312,{},10.157.146.2,False,{},2025-09-06_05-48-31,4.123711340206185,2205600,3.803598556830198,0,45.46356391906738,1838,"{'default': {'policy_loss': -0.04486410319805145, 'vf_explained_var': 0.7150342464447021, 'vf_loss': 3.24637508392334, 'kl': 0.009815692901611328, 'entropy': 0.4930560886859894, 'total_loss': 3.2101261615753174, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.8777666687965393}, 'sample_time_ms': 46302.88, 'num_steps_trained': 2205600, 'grad_time_ms': 375.296, 'update_time_ms': 2.707, 'num_steps_sampled': 2205600, 'load_time_ms': 0.676}",148,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+75253.26870059967,257563,4.001080015573713,1200,cda-server-2,7097.530453920364,f93d3d6710754a149751678a58e67540,298,1757130558,178800,-2.1161151538002763,2334312,{},10.157.146.2,False,{},2025-09-06_05-49-18,4.026845637583893,2206800,3.959477672958715,0,46.290690898895264,1839,"{'default': {'policy_loss': -0.02972397953271866, 'vf_explained_var': 0.9547882080078125, 'vf_loss': 0.26610267162323, 'kl': 0.005606474354863167, 'entropy': 0.20711767673492432, 'total_loss': 0.24129989743232727, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.8777666687965393}, 'sample_time_ms': 46094.903, 'num_steps_trained': 2206800, 'grad_time_ms': 372.287, 'update_time_ms': 2.714, 'num_steps_sampled': 2206800, 'load_time_ms': 0.653}",149,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+75299.21229076385,257855,4.0015169381423865,1200,cda-server-2,7143.474044084549,f93d3d6710754a149751678a58e67540,292,1757130603,180000,-6.439598624863805,2334312,{},10.157.146.2,False,{},2025-09-06_05-50-03,4.095890410958904,2208000,3.858441137523071,0,45.94359016418457,1840,"{'default': {'policy_loss': -0.04849278926849365, 'vf_explained_var': 0.817703366279602, 'vf_loss': 1.310878872871399, 'kl': 0.020162111148238182, 'entropy': 0.41870471835136414, 'total_loss': 1.2800837755203247, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.8777666687965393}, 'sample_time_ms': 45937.572, 'num_steps_trained': 2208000, 'grad_time_ms': 368.95, 'update_time_ms': 2.68, 'num_steps_sampled': 2208000, 'load_time_ms': 0.648}",150,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+75344.98937177658,258146,4.001580908061522,1200,cda-server-2,7189.251125097275,f93d3d6710754a149751678a58e67540,291,1757130649,181200,-24.573416340800485,2334312,{},10.157.146.2,False,{},2025-09-06_05-50-49,4.134020618556701,2209200,3.7880809256106818,0,45.77708101272583,1841,"{'default': {'policy_loss': -0.04202060401439667, 'vf_explained_var': 0.8490738868713379, 'vf_loss': 1.7113728523254395, 'kl': 0.011162006296217442, 'entropy': 0.5132784247398376, 'total_loss': 1.6840486526489258, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.3166500329971313}, 'sample_time_ms': 45751.368, 'num_steps_trained': 2209200, 'grad_time_ms': 370.189, 'update_time_ms': 2.747, 'num_steps_sampled': 2209200, 'load_time_ms': 0.662}",151,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+75390.88838148117,258444,4.0008241991118805,1200,cda-server-2,7235.150134801865,f93d3d6710754a149751678a58e67540,298,1757130695,182400,-4.078702935615812,2334312,{},10.157.146.2,False,{},2025-09-06_05-51-35,4.040268456375839,2210400,3.939329798338864,0,45.899009704589844,1842,"{'default': {'policy_loss': -0.04393967613577843, 'vf_explained_var': 0.929117739200592, 'vf_loss': 0.5048727989196777, 'kl': 0.008388086222112179, 'entropy': 0.28077882528305054, 'total_loss': 0.4719773530960083, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.3166500329971313}, 'sample_time_ms': 45589.381, 'num_steps_trained': 2210400, 'grad_time_ms': 369.69, 'update_time_ms': 2.739, 'num_steps_sampled': 2210400, 'load_time_ms': 0.664}",152,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+75436.69336032867,258744,4.001181777687737,1200,cda-server-2,7280.955113649368,f93d3d6710754a149751678a58e67540,300,1757130741,183600,4.000140125317033,2334312,{},10.157.146.2,False,{},2025-09-06_05-52-21,4.0,2211600,4.000287035035451,0,45.80497884750366,1843,"{'default': {'policy_loss': -0.08000896871089935, 'vf_explained_var': 0.9993896484375, 'vf_loss': 0.0033421458210796118, 'kl': 0.02167486399412155, 'entropy': 0.2671394348144531, 'total_loss': -0.048128604888916016, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.3166500329971313}, 'sample_time_ms': 45506.952, 'num_steps_trained': 2211600, 'grad_time_ms': 371.475, 'update_time_ms': 2.693, 'num_steps_sampled': 2211600, 'load_time_ms': 0.665}",153,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+75482.3822350502,259022,4.000729057035401,1200,cda-server-2,7326.643988370895,f93d3d6710754a149751678a58e67540,278,1757130787,184800,-29.02086571690532,2334312,{},10.157.146.2,False,{},2025-09-06_05-53-07,4.305755395683454,2212800,3.523914609475072,0,45.6888747215271,1844,"{'default': {'policy_loss': -0.058797724545001984, 'vf_explained_var': 0.533039927482605, 'vf_loss': 11.604549407958984, 'kl': 0.011842955835163593, 'entropy': 0.7111833691596985, 'total_loss': 11.569141387939453, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.9749751091003418}, 'sample_time_ms': 45491.518, 'num_steps_trained': 2212800, 'grad_time_ms': 371.752, 'update_time_ms': 2.672, 'num_steps_sampled': 2212800, 'load_time_ms': 0.665}",154,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+75528.09742450714,259307,4.000613004886165,1200,cda-server-2,7372.359177827835,f93d3d6710754a149751678a58e67540,285,1757130832,186000,-15.971092544316285,2334312,{},10.157.146.2,False,{},2025-09-06_05-53-52,4.2,2214000,3.6969561931922774,0,45.7151894569397,1845,"{'default': {'policy_loss': -0.06038514897227287, 'vf_explained_var': 0.5761942863464355, 'vf_loss': 5.127499103546143, 'kl': 0.010162637569010258, 'entropy': 0.5491045117378235, 'total_loss': 5.087184906005859, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.9749751091003418}, 'sample_time_ms': 45515.861, 'num_steps_trained': 2214000, 'grad_time_ms': 370.055, 'update_time_ms': 2.648, 'num_steps_sampled': 2214000, 'load_time_ms': 0.67}",155,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+75573.76189231873,259592,4.000650725197337,1200,cda-server-2,7418.02364563942,f93d3d6710754a149751678a58e67540,285,1757130878,187200,-26.355486617353975,2334312,{},10.157.146.2,False,{},2025-09-06_05-54-38,4.080701754385965,2215200,3.872651329324003,0,45.66446781158447,1846,"{'default': {'policy_loss': -0.055732421576976776, 'vf_explained_var': 0.5930270552635193, 'vf_loss': 16.839548110961914, 'kl': 0.008140862919390202, 'entropy': 0.5860522389411926, 'total_loss': 16.79989242553711, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.9749751091003418}, 'sample_time_ms': 45453.692, 'num_steps_trained': 2215200, 'grad_time_ms': 368.628, 'update_time_ms': 2.609, 'num_steps_sampled': 2215200, 'load_time_ms': 0.669}",156,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+75619.23352718353,259886,4.0007852070761825,1200,cda-server-2,7463.495280504227,f93d3d6710754a149751678a58e67540,294,1757130924,188400,-52.43957047095843,2334312,{},10.157.146.2,False,{},2025-09-06_05-55-24,4.210884353741497,2216400,3.663134736712625,0,45.47163486480713,1847,"{'default': {'policy_loss': -0.03183676302433014, 'vf_explained_var': 0.8108540177345276, 'vf_loss': 1.3793954849243164, 'kl': 0.008826267905533314, 'entropy': 0.37350305914878845, 'total_loss': 1.3649903535842896, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.9749751091003418}, 'sample_time_ms': 45393.145, 'num_steps_trained': 2216400, 'grad_time_ms': 369.522, 'update_time_ms': 2.522, 'num_steps_sampled': 2216400, 'load_time_ms': 0.667}",157,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+75664.42383646965,260172,4.000920458547258,1200,cda-server-2,7508.685589790344,f93d3d6710754a149751678a58e67540,286,1757130969,189600,-38.59328445956326,2334312,{},10.157.146.2,False,{},2025-09-06_05-56-09,4.1923076923076925,2217600,3.6886048192964878,0,45.190309286117554,1848,"{'default': {'policy_loss': -0.04714412987232208, 'vf_explained_var': 0.5442908406257629, 'vf_loss': 15.4759521484375, 'kl': 0.009274362586438656, 'entropy': 0.5747358202934265, 'total_loss': 15.447124481201172, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.9749751091003418}, 'sample_time_ms': 45364.8, 'num_steps_trained': 2217600, 'grad_time_ms': 370.512, 'update_time_ms': 2.549, 'num_steps_sampled': 2217600, 'load_time_ms': 0.67}",158,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+75709.88924407959,260464,4.000679376914105,1200,cda-server-2,7554.150997400284,f93d3d6710754a149751678a58e67540,292,1757131014,190800,-14.792517971689989,2334312,{},10.157.146.2,False,{},2025-09-06_05-56-54,4.123287671232877,2218800,3.8094271063454603,0,45.465407609939575,1849,"{'default': {'policy_loss': -0.043971531093120575, 'vf_explained_var': 0.6989523768424988, 'vf_loss': 2.81522274017334, 'kl': 0.015154595486819744, 'entropy': 0.40974897146224976, 'total_loss': 2.8011810779571533, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.9749751091003418}, 'sample_time_ms': 45281.498, 'num_steps_trained': 2218800, 'grad_time_ms': 371.216, 'update_time_ms': 2.524, 'num_steps_sampled': 2218800, 'load_time_ms': 0.666}",159,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+75755.35574746132,260750,4.001013239238452,1200,cda-server-2,7599.617500782013,f93d3d6710754a149751678a58e67540,286,1757131060,192000,-24.163447958573144,2334312,{},10.157.146.2,False,{},2025-09-06_05-57-40,4.1923076923076925,2220000,3.7018749568052747,0,45.466503381729126,1850,"{'default': {'policy_loss': -0.03253602236509323, 'vf_explained_var': 0.5868398547172546, 'vf_loss': 7.501899719238281, 'kl': 0.050867363810539246, 'entropy': 0.6758301854133606, 'total_loss': 7.569826126098633, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.9749751091003418}, 'sample_time_ms': 45233.784, 'num_steps_trained': 2220000, 'grad_time_ms': 371.215, 'update_time_ms': 2.528, 'num_steps_sampled': 2220000, 'load_time_ms': 0.669}",160,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+75801.72075867653,261038,4.000649419271176,1200,cda-server-2,7645.982511997223,f93d3d6710754a149751678a58e67540,288,1757131106,193200,-19.183638468896334,2334312,{},10.157.146.2,False,{},2025-09-06_05-58-26,4.15625,2221200,3.749876666930147,0,46.36501121520996,1851,"{'default': {'policy_loss': -0.043443020433187485, 'vf_explained_var': 0.6869789958000183, 'vf_loss': 3.780820608139038, 'kl': 0.006220100447535515, 'entropy': 0.39291512966156006, 'total_loss': 3.7558047771453857, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.9624626636505127}, 'sample_time_ms': 45293.699, 'num_steps_trained': 2221200, 'grad_time_ms': 370.089, 'update_time_ms': 2.579, 'num_steps_sampled': 2221200, 'load_time_ms': 0.658}",161,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+75848.09603571892,261318,4.000659135579456,1200,cda-server-2,7692.357789039612,f93d3d6710754a149751678a58e67540,280,1757131153,194400,-16.90157919882362,2334312,{},10.157.146.2,False,{},2025-09-06_05-59-13,4.303571428571429,2222400,3.5248067059563466,0,46.375277042388916,1852,"{'default': {'policy_loss': -0.05597588047385216, 'vf_explained_var': 0.5319205522537231, 'vf_loss': 7.473291873931885, 'kl': 0.008593578822910786, 'entropy': 0.689761757850647, 'total_loss': 7.442774295806885, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.9624626636505127}, 'sample_time_ms': 45339.267, 'num_steps_trained': 2222400, 'grad_time_ms': 372.115, 'update_time_ms': 2.622, 'num_steps_sampled': 2222400, 'load_time_ms': 0.666}",162,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+75893.56496214867,261608,4.001078292628593,1200,cda-server-2,7737.82671546936,f93d3d6710754a149751678a58e67540,290,1757131198,195600,-23.28971996886157,2334312,{},10.157.146.2,False,{},2025-09-06_05-59-58,4.13448275862069,2223600,3.7828439036721355,0,45.468926429748535,1853,"{'default': {'policy_loss': -0.03558088839054108, 'vf_explained_var': 0.6841989159584045, 'vf_loss': 4.002989768981934, 'kl': 0.00479963980615139, 'entropy': 0.4508633613586426, 'total_loss': 3.981627941131592, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.9624626636505127}, 'sample_time_ms': 45307.374, 'num_steps_trained': 2223600, 'grad_time_ms': 370.386, 'update_time_ms': 2.627, 'num_steps_sampled': 2223600, 'load_time_ms': 0.664}",163,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+75939.04214906693,261884,4.000725133159742,1200,cda-server-2,7783.303902387619,f93d3d6710754a149751678a58e67540,276,1757131244,196800,-26.7770631715575,2334312,{},10.157.146.2,False,{},2025-09-06_06-00-44,4.340579710144928,2224800,3.463991350139547,0,45.47718691825867,1854,"{'default': {'policy_loss': -0.058112721890211105, 'vf_explained_var': 0.5225610733032227, 'vf_loss': 15.774283409118652, 'kl': 0.012194618582725525, 'entropy': 0.7868990302085876, 'total_loss': 15.734233856201172, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.4812313318252563}, 'sample_time_ms': 45285.272, 'num_steps_trained': 2224800, 'grad_time_ms': 371.278, 'update_time_ms': 2.632, 'num_steps_sampled': 2224800, 'load_time_ms': 0.701}",164,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+75985.41442847252,262163,4.0012601929944065,1200,cda-server-2,7829.676181793213,f93d3d6710754a149751678a58e67540,279,1757131290,198000,-58.896413037596545,2334312,{},10.157.146.2,False,{},2025-09-06_06-01-30,4.290322580645161,2226000,3.5359331957575195,0,46.37227940559387,1855,"{'default': {'policy_loss': -0.07726993411779404, 'vf_explained_var': 0.551845133304596, 'vf_loss': 13.39984130859375, 'kl': 0.01021148357540369, 'entropy': 0.6980215907096863, 'total_loss': 13.33769702911377, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.4812313318252563}, 'sample_time_ms': 45349.291, 'num_steps_trained': 2226000, 'grad_time_ms': 372.948, 'update_time_ms': 2.602, 'num_steps_sampled': 2226000, 'load_time_ms': 0.698}",165,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+76030.79114937782,262445,4.001089093436912,1200,cda-server-2,7875.052902698517,f93d3d6710754a149751678a58e67540,282,1757131335,199200,-27.30677308161713,2334312,{},10.157.146.2,False,{},2025-09-06_06-02-15,4.26595744680851,2227200,3.5716417977030233,0,45.376720905303955,1856,"{'default': {'policy_loss': -0.053989067673683167, 'vf_explained_var': 0.5095462799072266, 'vf_loss': 10.32797622680664, 'kl': 0.024417392909526825, 'entropy': 0.5689363479614258, 'total_loss': 10.310154914855957, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.4812313318252563}, 'sample_time_ms': 45320.654, 'num_steps_trained': 2227200, 'grad_time_ms': 372.797, 'update_time_ms': 2.617, 'num_steps_sampled': 2227200, 'load_time_ms': 0.698}",166,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+76076.22386455536,262726,4.00095093847553,1200,cda-server-2,7920.485617876053,f93d3d6710754a149751678a58e67540,281,1757131381,200400,-21.596277328676962,2334312,{},10.157.146.2,False,{},2025-09-06_06-03-01,4.259786476868327,2228400,3.589338691018463,0,45.43271517753601,1857,"{'default': {'policy_loss': -0.06248704716563225, 'vf_explained_var': 0.5549659729003906, 'vf_loss': 6.74099588394165, 'kl': 0.007939565926790237, 'entropy': 0.6211980581283569, 'total_loss': 6.6961493492126465, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.22184681892395}, 'sample_time_ms': 45318.112, 'num_steps_trained': 2228400, 'grad_time_ms': 371.336, 'update_time_ms': 2.619, 'num_steps_sampled': 2228400, 'load_time_ms': 0.702}",167,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+76122.65405368805,263018,4.000982487859311,1200,cda-server-2,7966.915807008743,f93d3d6710754a149751678a58e67540,292,1757131427,201600,-12.993230550839876,2334312,{},10.157.146.2,False,{},2025-09-06_06-03-47,4.109589041095891,2229600,3.8259362254681077,0,46.43018913269043,1858,"{'default': {'policy_loss': -0.04577049985527992, 'vf_explained_var': 0.759882390499115, 'vf_loss': 2.3618409633636475, 'kl': 0.007129081524908543, 'entropy': 0.417208194732666, 'total_loss': 2.3319101333618164, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.22184681892395}, 'sample_time_ms': 45443.743, 'num_steps_trained': 2229600, 'grad_time_ms': 369.66, 'update_time_ms': 2.628, 'num_steps_sampled': 2229600, 'load_time_ms': 0.697}",168,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+76168.39993691444,263298,4.000963572311405,1200,cda-server-2,8012.661690235138,f93d3d6710754a149751678a58e67540,280,1757131473,202800,-21.9494464962404,2334312,{},10.157.146.2,False,{},2025-09-06_06-04-33,4.296428571428572,2230800,3.533494257971251,0,45.74588322639465,1859,"{'default': {'policy_loss': -0.059718530625104904, 'vf_explained_var': 0.5217657089233398, 'vf_loss': 8.514945030212402, 'kl': 0.01539837196469307, 'entropy': 0.6434410810470581, 'total_loss': 8.489439010620117, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.22184681892395}, 'sample_time_ms': 45469.838, 'num_steps_trained': 2230800, 'grad_time_ms': 371.702, 'update_time_ms': 2.637, 'num_steps_sampled': 2230800, 'load_time_ms': 0.698}",169,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+76214.17582345009,263578,4.000598005145418,1200,cda-server-2,8058.4375767707825,f93d3d6710754a149751678a58e67540,280,1757131519,204000,-30.207845197134688,2334312,{},10.157.146.2,False,{},2025-09-06_06-05-19,4.271428571428571,2232000,3.5630788752539924,0,45.77588653564453,1860,"{'default': {'policy_loss': -0.052069056779146194, 'vf_explained_var': 0.5268368124961853, 'vf_loss': 9.864996910095215, 'kl': 0.009399103000760078, 'entropy': 0.72054123878479, 'total_loss': 9.83381175994873, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.22184681892395}, 'sample_time_ms': 45501.077, 'num_steps_trained': 2232000, 'grad_time_ms': 371.453, 'update_time_ms': 2.618, 'num_steps_sampled': 2232000, 'load_time_ms': 0.695}",170,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+76259.88177227974,263863,4.000944278829513,1200,cda-server-2,8104.143525600433,f93d3d6710754a149751678a58e67540,285,1757131565,205200,-32.61103590526551,2334312,{},10.157.146.2,False,{},2025-09-06_06-06-05,4.235087719298246,2233200,3.62115616126823,0,45.70594882965088,1861,"{'default': {'policy_loss': -0.04859977960586548, 'vf_explained_var': 0.5897743701934814, 'vf_loss': 10.808042526245117, 'kl': 0.006430933251976967, 'entropy': 0.6443920731544495, 'total_loss': 10.773731231689453, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.22184681892395}, 'sample_time_ms': 45433.693, 'num_steps_trained': 2233200, 'grad_time_ms': 372.982, 'update_time_ms': 2.543, 'num_steps_sampled': 2233200, 'load_time_ms': 0.694}",171,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+76305.93185329437,264148,4.001049494727318,1200,cda-server-2,8150.1936066150665,f93d3d6710754a149751678a58e67540,285,1757131611,206400,-37.95925253757559,2334312,{},10.157.146.2,False,{},2025-09-06_06-06-51,4.2140350877192985,2234400,3.6669258991838443,0,46.05008101463318,1862,"{'default': {'policy_loss': -0.04685663804411888, 'vf_explained_var': 0.5393356680870056, 'vf_loss': 11.645352363586426, 'kl': 0.010349743999540806, 'entropy': 0.6777918934822083, 'total_loss': 11.621490478515625, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.22184681892395}, 'sample_time_ms': 45403.148, 'num_steps_trained': 2234400, 'grad_time_ms': 370.894, 'update_time_ms': 2.582, 'num_steps_sampled': 2234400, 'load_time_ms': 0.684}",172,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+76351.7686522007,264434,4.001134018417695,1200,cda-server-2,8196.030405521393,f93d3d6710754a149751678a58e67540,286,1757131657,207600,-18.875030871670276,2334312,{},10.157.146.2,False,{},2025-09-06_06-07-37,4.178321678321678,2235600,3.714354569206956,0,45.836798906326294,1863,"{'default': {'policy_loss': -0.050652023404836655, 'vf_explained_var': 0.5938968658447266, 'vf_loss': 5.81575345993042, 'kl': 0.0074973683804273605, 'entropy': 0.46241384744644165, 'total_loss': 5.781758785247803, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.22184681892395}, 'sample_time_ms': 45437.403, 'num_steps_trained': 2235600, 'grad_time_ms': 373.419, 'update_time_ms': 2.604, 'num_steps_sampled': 2235600, 'load_time_ms': 0.693}",173,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+76397.45272517204,264724,4.001670907934905,1200,cda-server-2,8241.714478492737,f93d3d6710754a149751678a58e67540,290,1757131702,208800,-27.73696683159661,2334312,{},10.157.146.2,False,{},2025-09-06_06-08-22,4.13448275862069,2236800,3.784944264865849,0,45.684072971343994,1864,"{'default': {'policy_loss': -0.04579101502895355, 'vf_explained_var': 0.6849060654640198, 'vf_loss': 4.500394344329834, 'kl': 0.00561128044500947, 'entropy': 0.44641220569610596, 'total_loss': 4.467070579528809, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.22184681892395}, 'sample_time_ms': 45460.639, 'num_steps_trained': 2236800, 'grad_time_ms': 370.886, 'update_time_ms': 2.616, 'num_steps_sampled': 2236800, 'load_time_ms': 0.661}",174,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+76443.08684325218,265005,4.001077111241935,1200,cda-server-2,8287.348596572876,f93d3d6710754a149751678a58e67540,281,1757131748,210000,-23.714170876575793,2334312,{},10.157.146.2,False,{},2025-09-06_06-09-08,4.199288256227758,2238000,3.6827119286925485,0,45.63411808013916,1865,"{'default': {'policy_loss': -0.05847460776567459, 'vf_explained_var': 0.5893319249153137, 'vf_loss': 12.809475898742676, 'kl': 0.011511188000440598, 'entropy': 0.6468705534934998, 'total_loss': 12.77657699584961, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.22184681892395}, 'sample_time_ms': 45388.558, 'num_steps_trained': 2238000, 'grad_time_ms': 369.19, 'update_time_ms': 2.609, 'num_steps_sampled': 2238000, 'load_time_ms': 0.663}",175,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+76488.45858645439,265285,4.000671550951125,1200,cda-server-2,8332.720339775085,f93d3d6710754a149751678a58e67540,280,1757131793,211200,-70.68020952883568,2334312,{},10.157.146.2,False,{},2025-09-06_06-09-53,4.371428571428571,2239200,3.4047643389867965,0,45.37174320220947,1866,"{'default': {'policy_loss': -0.06467798352241516, 'vf_explained_var': 0.6726096868515015, 'vf_loss': 11.609557151794434, 'kl': 0.0061654988676309586, 'entropy': 0.7361772060394287, 'total_loss': 11.558577537536621, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.22184681892395}, 'sample_time_ms': 45387.966, 'num_steps_trained': 2239200, 'grad_time_ms': 369.24, 'update_time_ms': 2.604, 'num_steps_sampled': 2239200, 'load_time_ms': 0.662}",176,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+76533.98290157318,265570,4.000651320158751,1200,cda-server-2,8378.244654893875,f93d3d6710754a149751678a58e67540,285,1757131839,212400,-64.85194838016382,2334312,{},10.157.146.2,False,{},2025-09-06_06-10-39,4.2105263157894735,2240400,3.661262877505503,0,45.52431511878967,1867,"{'default': {'policy_loss': -0.04880528151988983, 'vf_explained_var': 0.5719090700149536, 'vf_loss': 26.061403274536133, 'kl': 0.0058926986530423164, 'entropy': 0.57770174741745, 'total_loss': 26.025691986083984, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.22184681892395}, 'sample_time_ms': 45398.164, 'num_steps_trained': 2240400, 'grad_time_ms': 368.345, 'update_time_ms': 2.623, 'num_steps_sampled': 2240400, 'load_time_ms': 0.663}",177,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+76579.59075427055,265848,4.000738778473465,1200,cda-server-2,8423.852507591248,f93d3d6710754a149751678a58e67540,278,1757131884,213600,-63.50000651378606,2334312,{},10.157.146.2,False,{},2025-09-06_06-11-24,4.302158273381295,2241600,3.522890975717858,0,45.60785269737244,1868,"{'default': {'policy_loss': -0.06710977107286453, 'vf_explained_var': 0.5954441428184509, 'vf_loss': 23.13343620300293, 'kl': 0.006169190630316734, 'entropy': 0.6941308379173279, 'total_loss': 23.080034255981445, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.22184681892395}, 'sample_time_ms': 45314.864, 'num_steps_trained': 2241600, 'grad_time_ms': 369.487, 'update_time_ms': 2.597, 'num_steps_sampled': 2241600, 'load_time_ms': 0.662}",178,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+76625.37723374367,266138,4.001091382792362,1200,cda-server-2,8469.638987064362,f93d3d6710754a149751678a58e67540,290,1757131930,214800,-14.280637415300145,2334312,{},10.157.146.2,False,{},2025-09-06_06-12-10,4.144827586206897,2242800,3.774432855129106,0,45.786479473114014,1869,"{'default': {'policy_loss': -0.06500758975744247, 'vf_explained_var': 0.5632984638214111, 'vf_loss': 5.03770112991333, 'kl': 0.006008991505950689, 'entropy': 0.459370493888855, 'total_loss': 4.986044406890869, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.22184681892395}, 'sample_time_ms': 45319.392, 'num_steps_trained': 2242800, 'grad_time_ms': 368.977, 'update_time_ms': 2.589, 'num_steps_sampled': 2242800, 'load_time_ms': 0.669}",179,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+76670.64229249954,266433,4.000669839292763,1200,cda-server-2,8514.904045820236,f93d3d6710754a149751678a58e67540,295,1757131975,216000,-16.60323690504289,2334312,{},10.157.146.2,False,{},2025-09-06_06-12-55,4.061016949152543,2244000,3.903242438013602,0,45.265058755874634,1870,"{'default': {'policy_loss': -0.030187003314495087, 'vf_explained_var': 0.7703152894973755, 'vf_loss': 2.021885871887207, 'kl': 0.008857467211782932, 'entropy': 0.3218860924243927, 'total_loss': 2.011378288269043, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.22184681892395}, 'sample_time_ms': 45266.195, 'num_steps_trained': 2244000, 'grad_time_ms': 371.065, 'update_time_ms': 2.583, 'num_steps_sampled': 2244000, 'load_time_ms': 0.69}",180,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+76716.52292060852,266720,4.0006568977731405,1200,cda-server-2,8560.784673929214,f93d3d6710754a149751678a58e67540,287,1757132021,217200,-21.81155943259287,2334312,{},10.157.146.2,False,{},2025-09-06_06-13-41,4.184668989547038,2245200,3.7088364273587304,0,45.88062810897827,1871,"{'default': {'policy_loss': -0.04794318228960037, 'vf_explained_var': 0.6052795648574829, 'vf_loss': 5.961945533752441, 'kl': 0.010210491716861725, 'entropy': 0.49128687381744385, 'total_loss': 5.93668794631958, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.22184681892395}, 'sample_time_ms': 45285.349, 'num_steps_trained': 2245200, 'grad_time_ms': 369.403, 'update_time_ms': 2.596, 'num_steps_sampled': 2245200, 'load_time_ms': 0.685}",181,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+76761.77919197083,267009,4.000747457746888,1200,cda-server-2,8606.04094529152,f93d3d6710754a149751678a58e67540,289,1757132067,218400,-17.195954543662666,2334312,{},10.157.146.2,False,{},2025-09-06_06-14-27,4.162629757785467,2246400,3.7549827083887513,0,45.25627136230469,1872,"{'default': {'policy_loss': -0.041803572326898575, 'vf_explained_var': 0.6535069942474365, 'vf_loss': 4.45294189453125, 'kl': 0.00872704479843378, 'entropy': 0.47223010659217834, 'total_loss': 4.43052864074707, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.22184681892395}, 'sample_time_ms': 45203.653, 'num_steps_trained': 2246400, 'grad_time_ms': 371.804, 'update_time_ms': 2.53, 'num_steps_sampled': 2246400, 'load_time_ms': 0.689}",182,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+76808.63593745232,267306,4.000625219023464,1200,cda-server-2,8652.89769077301,f93d3d6710754a149751678a58e67540,297,1757132114,219600,-6.870953397753837,2334312,{},10.157.146.2,False,{},2025-09-06_06-15-14,4.033670033670034,2247600,3.9468532003260166,0,46.85674548149109,1873,"{'default': {'policy_loss': -0.0365484282374382, 'vf_explained_var': 0.9014579057693481, 'vf_loss': 0.6569638848304749, 'kl': 0.00437923613935709, 'entropy': 0.24382847547531128, 'total_loss': 0.6301454305648804, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 2.22184681892395}, 'sample_time_ms': 45307.68, 'num_steps_trained': 2247600, 'grad_time_ms': 369.773, 'update_time_ms': 2.484, 'num_steps_sampled': 2247600, 'load_time_ms': 0.699}",183,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+76854.8781170845,267595,4.000624767446103,1200,cda-server-2,8699.139870405197,f93d3d6710754a149751678a58e67540,289,1757132160,220800,-33.19407990068763,2334312,{},10.157.146.2,False,{},2025-09-06_06-16-00,4.096885813148789,2248800,3.8506595530131444,0,46.24217963218689,1874,"{'default': {'policy_loss': -0.048715826123952866, 'vf_explained_var': 0.6185854077339172, 'vf_loss': 10.334598541259766, 'kl': 0.006642558611929417, 'entropy': 0.5607381463050842, 'total_loss': 10.293262481689453, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.110923409461975}, 'sample_time_ms': 45362.93, 'num_steps_trained': 2248800, 'grad_time_ms': 370.288, 'update_time_ms': 2.491, 'num_steps_sampled': 2248800, 'load_time_ms': 0.691}",184,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+76900.81232213974,267880,4.000772438311607,1200,cda-server-2,8745.074075460434,f93d3d6710754a149751678a58e67540,285,1757132206,222000,-62.42577809698277,2334312,{},10.157.146.2,False,{},2025-09-06_06-16-46,4.2631578947368425,2250000,3.580398030068692,0,45.934205055236816,1875,"{'default': {'policy_loss': -0.06329666078090668, 'vf_explained_var': 0.6703450679779053, 'vf_loss': 19.641944885253906, 'kl': 0.005602455697953701, 'entropy': 0.5497992038726807, 'total_loss': 19.584869384765625, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.110923409461975}, 'sample_time_ms': 45390.039, 'num_steps_trained': 2250000, 'grad_time_ms': 373.119, 'update_time_ms': 2.513, 'num_steps_sampled': 2250000, 'load_time_ms': 0.698}",185,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+76945.99354815483,268175,4.000748364805149,1200,cda-server-2,8790.255301475525,f93d3d6710754a149751678a58e67540,295,1757132251,223200,-16.75049427987005,2334312,{},10.157.146.2,False,{},2025-09-06_06-17-31,4.077966101694916,2251200,3.875190155741235,0,45.18122601509094,1876,"{'default': {'policy_loss': -0.04949017986655235, 'vf_explained_var': 0.7090685367584229, 'vf_loss': 2.657982587814331, 'kl': 0.0096016526222229, 'entropy': 0.2905501127243042, 'total_loss': 2.61915922164917, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.110923409461975}, 'sample_time_ms': 45370.966, 'num_steps_trained': 2251200, 'grad_time_ms': 373.069, 'update_time_ms': 2.586, 'num_steps_sampled': 2251200, 'load_time_ms': 0.701}",186,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+76991.966963768,268472,4.00079916743289,1200,cda-server-2,8836.2287170887,f93d3d6710754a149751678a58e67540,297,1757132297,224400,-10.538888784471112,2334312,{},10.157.146.2,False,{},2025-09-06_06-18-17,4.03030303030303,2252400,3.9513367390861225,0,45.97341561317444,1877,"{'default': {'policy_loss': -0.02651045098900795, 'vf_explained_var': 0.8940389156341553, 'vf_loss': 0.8631218671798706, 'kl': 0.00533533189445734, 'entropy': 0.2946377396583557, 'total_loss': 0.842538595199585, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.110923409461975}, 'sample_time_ms': 45414.249, 'num_steps_trained': 2252400, 'grad_time_ms': 374.672, 'update_time_ms': 2.58, 'num_steps_sampled': 2252400, 'load_time_ms': 0.712}",187,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+77037.91452074051,268769,4.000614041718991,1200,cda-server-2,8882.176274061203,f93d3d6710754a149751678a58e67540,297,1757132343,225600,-12.094493715721818,2334312,{},10.157.146.2,False,{},2025-09-06_06-19-03,4.037037037037037,2253600,3.9460990667827,0,45.94755697250366,1878,"{'default': {'policy_loss': -0.0391264408826828, 'vf_explained_var': 0.8765170574188232, 'vf_loss': 0.9409099221229553, 'kl': 0.004775232169777155, 'entropy': 0.2627641260623932, 'total_loss': 0.9070883989334106, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.110923409461975}, 'sample_time_ms': 45447.89, 'num_steps_trained': 2253600, 'grad_time_ms': 374.881, 'update_time_ms': 2.583, 'num_steps_sampled': 2253600, 'load_time_ms': 0.731}",188,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+77084.13446545601,269065,4.000685809680467,1200,cda-server-2,8928.396218776703,f93d3d6710754a149751678a58e67540,296,1757132389,226800,-8.932424337926015,2334312,{},10.157.146.2,False,{},2025-09-06_06-19-49,4.047297297297297,2254800,3.926026009125855,0,46.21994471549988,1879,"{'default': {'policy_loss': -0.047120559960603714, 'vf_explained_var': 0.8486340641975403, 'vf_loss': 1.1114897727966309, 'kl': 0.00841889064759016, 'entropy': 0.28251537680625916, 'total_loss': 1.0690455436706543, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.5554617047309875}, 'sample_time_ms': 45490.464, 'num_steps_trained': 2254800, 'grad_time_ms': 375.642, 'update_time_ms': 2.61, 'num_steps_sampled': 2254800, 'load_time_ms': 0.733}",189,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+77130.10523080826,269358,4.001061312815352,1200,cda-server-2,8974.366984128952,f93d3d6710754a149751678a58e67540,293,1757132435,228000,-34.743836416814716,2334312,{},10.157.146.2,False,{},2025-09-06_06-20-35,4.102389078498294,2256000,3.8406694087812094,0,45.970765352249146,1880,"{'default': {'policy_loss': -0.04420464485883713, 'vf_explained_var': 0.7666680812835693, 'vf_loss': 5.69206428527832, 'kl': 0.025081180036067963, 'entropy': 0.388468861579895, 'total_loss': 5.6617913246154785, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.5554617047309875}, 'sample_time_ms': 45561.003, 'num_steps_trained': 2256000, 'grad_time_ms': 375.655, 'update_time_ms': 2.622, 'num_steps_sampled': 2256000, 'load_time_ms': 0.719}",190,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+77175.66522479057,269649,4.001634916326146,1200,cda-server-2,9019.926978111267,f93d3d6710754a149751678a58e67540,291,1757132481,229200,-18.41962385820346,2334312,{},10.157.146.2,False,{},2025-09-06_06-21-21,4.134020618556701,2257200,3.790601792350737,0,45.55999398231506,1881,"{'default': {'policy_loss': -0.04365232214331627, 'vf_explained_var': 0.6695138216018677, 'vf_loss': 3.8789782524108887, 'kl': 0.006205776706337929, 'entropy': 0.3813241422176361, 'total_loss': 3.840496063232422, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.8331925868988037}, 'sample_time_ms': 45526.002, 'num_steps_trained': 2257200, 'grad_time_ms': 378.5, 'update_time_ms': 2.63, 'num_steps_sampled': 2257200, 'load_time_ms': 0.731}",191,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+77221.92653822899,269944,4.001385467930568,1200,cda-server-2,9066.188291549683,f93d3d6710754a149751678a58e67540,295,1757132527,230400,-8.341006287034052,2334312,{},10.157.146.2,False,{},2025-09-06_06-22-07,4.064406779661017,2258400,3.9106047695468997,0,46.26131343841553,1882,"{'default': {'policy_loss': -0.04497675970196724, 'vf_explained_var': 0.822328507900238, 'vf_loss': 1.2234437465667725, 'kl': 0.007840524427592754, 'entropy': 0.29637354612350464, 'total_loss': 1.184999704360962, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.8331925868988037}, 'sample_time_ms': 45626.611, 'num_steps_trained': 2258400, 'grad_time_ms': 378.412, 'update_time_ms': 2.656, 'num_steps_sampled': 2258400, 'load_time_ms': 0.735}",192,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+77267.95782256126,270240,4.000804873830195,1200,cda-server-2,9112.219575881958,f93d3d6710754a149751678a58e67540,296,1757132573,231600,-6.81295828687945,2334312,{},10.157.146.2,False,{},2025-09-06_06-22-53,4.054054054054054,2259600,3.9161363505871174,0,46.03128433227539,1883,"{'default': {'policy_loss': -0.02984512224793434, 'vf_explained_var': 0.8692044615745544, 'vf_loss': 0.8531491756439209, 'kl': 0.014049912802875042, 'entropy': 0.23813822865486145, 'total_loss': 0.835010290145874, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.8331925868988037}, 'sample_time_ms': 45542.414, 'num_steps_trained': 2259600, 'grad_time_ms': 380.064, 'update_time_ms': 2.662, 'num_steps_sampled': 2259600, 'load_time_ms': 0.722}",193,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+77313.13796234131,270536,4.000634762259175,1200,cda-server-2,9157.399715662003,f93d3d6710754a149751678a58e67540,296,1757132618,232800,-14.44605464440362,2334312,{},10.157.146.2,False,{},2025-09-06_06-23-38,4.054054054054054,2260800,3.917501819715932,0,45.180139780044556,1884,"{'default': {'policy_loss': -0.02919878624379635, 'vf_explained_var': 0.8264721632003784, 'vf_loss': 1.4410772323608398, 'kl': 0.008801168762147427, 'entropy': 0.34937959909439087, 'total_loss': 1.419211506843567, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.8331925868988037}, 'sample_time_ms': 45437.229, 'num_steps_trained': 2260800, 'grad_time_ms': 379.096, 'update_time_ms': 2.68, 'num_steps_sampled': 2260800, 'load_time_ms': 0.72}",194,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+77359.42697405815,270820,4.000515029097686,1200,cda-server-2,9203.688727378845,f93d3d6710754a149751678a58e67540,284,1757132665,234000,-19.569604595286638,2334312,{},10.157.146.2,False,{},2025-09-06_06-24-25,4.221830985915493,2262000,3.6483481608048067,0,46.28901171684265,1885,"{'default': {'policy_loss': -0.05902589112520218, 'vf_explained_var': 0.6323645710945129, 'vf_loss': 4.789082050323486, 'kl': 0.026228690519928932, 'entropy': 0.4893830120563507, 'total_loss': 4.7519097328186035, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.8331925868988037}, 'sample_time_ms': 45472.719, 'num_steps_trained': 2262000, 'grad_time_ms': 379.106, 'update_time_ms': 2.675, 'num_steps_sampled': 2262000, 'load_time_ms': 0.712}",195,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+77405.68901062012,271105,4.000630407202859,1200,cda-server-2,9249.950763940811,f93d3d6710754a149751678a58e67540,285,1757132711,235200,-14.546565146323491,2334312,{},10.157.146.2,False,{},2025-09-06_06-25-11,4.224561403508772,2263200,3.640942702321254,0,46.26203656196594,1886,"{'default': {'policy_loss': -0.053330183029174805, 'vf_explained_var': 0.5611732006072998, 'vf_loss': 5.030457496643066, 'kl': 0.013207633048295975, 'entropy': 0.4672975540161133, 'total_loss': 4.99363374710083, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.2497888803482056}, 'sample_time_ms': 45579.109, 'num_steps_trained': 2263200, 'grad_time_ms': 380.837, 'update_time_ms': 2.634, 'num_steps_sampled': 2263200, 'load_time_ms': 0.715}",196,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+77451.44638800621,271397,4.000715600177259,1200,cda-server-2,9295.708141326904,f93d3d6710754a149751678a58e67540,292,1757132757,236400,-12.34430790019072,2334312,{},10.157.146.2,False,{},2025-09-06_06-25-57,4.113013698630137,2264400,3.8216085053206506,0,45.75737738609314,1887,"{'default': {'policy_loss': -0.04993467405438423, 'vf_explained_var': 0.7353782653808594, 'vf_loss': 2.478025436401367, 'kl': 0.010663800872862339, 'entropy': 0.41666144132614136, 'total_loss': 2.441418170928955, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.2497888803482056}, 'sample_time_ms': 45558.208, 'num_steps_trained': 2264400, 'grad_time_ms': 380.094, 'update_time_ms': 2.658, 'num_steps_sampled': 2264400, 'load_time_ms': 0.71}",197,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+77497.5449514389,271687,4.0016345267596005,1200,cda-server-2,9341.806704759598,f93d3d6710754a149751678a58e67540,290,1757132803,237600,-7.816204572475911,2334312,{},10.157.146.2,False,{},2025-09-06_06-26-43,4.124137931034483,2265600,3.8032536736724776,0,46.09856343269348,1888,"{'default': {'policy_loss': -0.04333976283669472, 'vf_explained_var': 0.7394442558288574, 'vf_loss': 1.9245109558105469, 'kl': 0.01961040310561657, 'entropy': 0.3866128921508789, 'total_loss': 1.9056799411773682, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.2497888803482056}, 'sample_time_ms': 45573.409, 'num_steps_trained': 2265600, 'grad_time_ms': 380.115, 'update_time_ms': 2.646, 'num_steps_sampled': 2265600, 'load_time_ms': 0.695}",198,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+77543.5874569416,271979,4.000635703316835,1200,cda-server-2,9387.849210262299,f93d3d6710754a149751678a58e67540,292,1757132849,238800,-23.144550961796654,2334312,{},10.157.146.2,False,{},2025-09-06_06-27-29,4.1061643835616435,2266800,3.8306762058315105,0,46.042505502700806,1889,"{'default': {'policy_loss': -0.0442616231739521, 'vf_explained_var': 0.7319533228874207, 'vf_loss': 3.5808346271514893, 'kl': 0.012458796612918377, 'entropy': 0.44069385528564453, 'total_loss': 3.5521438121795654, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.2497888803482056}, 'sample_time_ms': 45556.543, 'num_steps_trained': 2266800, 'grad_time_ms': 379.313, 'update_time_ms': 2.59, 'num_steps_sampled': 2266800, 'load_time_ms': 0.693}",199,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+77588.89273715019,272273,4.0007249294411285,1200,cda-server-2,9433.154490470886,f93d3d6710754a149751678a58e67540,294,1757132894,240000,-18.16720296676205,2334312,{},10.157.146.2,False,{},2025-09-06_06-28-14,4.081632653061225,2268000,3.869709399241381,0,45.30528020858765,1890,"{'default': {'policy_loss': -0.035692229866981506, 'vf_explained_var': 0.7590630650520325, 'vf_loss': 2.3313534259796143, 'kl': 0.0039858631789684296, 'entropy': 0.3605438768863678, 'total_loss': 2.300642728805542, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 1.2497888803482056}, 'sample_time_ms': 45492.414, 'num_steps_trained': 2268000, 'grad_time_ms': 376.928, 'update_time_ms': 2.618, 'num_steps_sampled': 2268000, 'load_time_ms': 0.694}",200,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+77634.3149356842,272553,4.0010663643711375,1200,cda-server-2,9478.576689004898,f93d3d6710754a149751678a58e67540,280,1757132940,241200,-53.29604852540338,2334312,{},10.157.146.2,False,{},2025-09-06_06-29-00,4.25,2269200,3.6172275379939327,0,45.42219853401184,1891,"{'default': {'policy_loss': -0.06393314152956009, 'vf_explained_var': 0.5322215557098389, 'vf_loss': 30.50804328918457, 'kl': 0.02804223634302616, 'entropy': 0.6628218293190002, 'total_loss': 30.46162986755371, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.6248944401741028}, 'sample_time_ms': 45479.785, 'num_steps_trained': 2269200, 'grad_time_ms': 375.936, 'update_time_ms': 2.514, 'num_steps_sampled': 2269200, 'load_time_ms': 0.69}",201,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+77679.80061888695,272849,4.000682779605022,1200,cda-server-2,9524.062372207642,f93d3d6710754a149751678a58e67540,296,1757132985,242400,-11.574124702198873,2334312,{},10.157.146.2,False,{},2025-09-06_06-29-45,4.101351351351352,2270400,3.8390947382527956,0,45.48568320274353,1892,"{'default': {'policy_loss': -0.03870168700814247, 'vf_explained_var': 0.7740655541419983, 'vf_loss': 1.8237569332122803, 'kl': 0.03453673794865608, 'entropy': 0.3642389178276062, 'total_loss': 1.8174279928207397, 'cur_lr': 4.999999873689376e-05, 'cur_kl_coeff': 0.9373416900634766}, 'sample_time_ms': 45403.695, 'num_steps_trained': 2270400, 'grad_time_ms': 374.44, 'update_time_ms': 2.49, 'num_steps_sampled': 2270400, 'load_time_ms': 0.683}",202,"{'monitor': False, 'output': None, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'num_cpus_per_worker': 1, 'lambda': 1.0, 'straggler_mitigation': False, 'log_level': 'INFO', 'custom_resources_per_worker': {}, 'observation_filter': 'MeanStdFilter', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'lstm_use_prev_action_reward': False, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'lstm_cell_size': 256, 'custom_preprocessor': None, 'framestack': True, 'custom_model': None, 'conv_filters': None, 'max_seq_len': 20, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'simple_optimizer': False, 'train_batch_size': 1200, 'postprocess_inputs': False, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'kl_coeff': 0.2, 'lr_schedule': None, 'num_gpus_per_worker': 0, 'synchronize_filters': True, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'log_device_placement': False, 'intra_op_parallelism_threads': 2, 'gpu_options': {'allow_growth': True}}, 'optimizer': {}, 'horizon': 50, 'vf_loss_coeff': 1.0, 'env': 'Zhenxin_S_FC', 'batch_mode': 'truncate_episodes', 'num_cpus_for_driver': 1, 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'use_gae': True, 'entropy_coeff': 0.0, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+77639.45522522926,272564,4.000725987117414,1200,cda-server-2,50.562488079071045,f93d3d6710754a149751678a58e67540,291,1757133086,1200,-11.427792945861349,2334315,{},10.157.146.2,False,{},2025-09-06_06-31-26,4.099656357388316,2269200,3.844000747204373,0,50.562488079071045,1891,"{'default': {'policy_loss': -0.03947214409708977, 'vf_explained_var': 0.762570321559906, 'vf_loss': 2.0178892612457275, 'kl': 0.044886715710163116, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.0064663887023926, 'entropy': 0.322555273771286, 'cur_kl_coeff': 0.6248944401741028}, 'sample_time_ms': 49529.808, 'num_steps_trained': 2269200, 'grad_time_ms': 635.523, 'update_time_ms': 346.872, 'num_steps_sampled': 2269200, 'load_time_ms': 29.575}",1,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+77685.44054460526,272860,4.000979106546383,1200,cda-server-2,96.54780745506287,f93d3d6710754a149751678a58e67540,296,1757133132,2400,-2.026097899577186,2334315,{},10.157.146.2,False,{},2025-09-06_06-32-12,4.013513513513513,2270400,3.9799265151144065,0,45.98531937599182,1892,"{'default': {'policy_loss': -0.036333806812763214, 'vf_explained_var': 0.820932924747467, 'vf_loss': 2.032151222229004, 'kl': 0.015270264819264412, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.000398635864258, 'entropy': 0.29540693759918213, 'cur_kl_coeff': 0.30000001192092896}, 'sample_time_ms': 47570.406, 'num_steps_trained': 2270400, 'grad_time_ms': 500.391, 'update_time_ms': 174.613, 'num_steps_sampled': 2270400, 'load_time_ms': 15.151}",2,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+77730.80879688263,273136,4.00078134383827,1200,cda-server-2,141.91605973243713,f93d3d6710754a149751678a58e67540,276,1757133177,3600,-36.3343824520137,2334315,{},10.157.146.2,False,{},2025-09-06_06-32-57,4.405797101449275,2271600,3.3524958603874273,0,45.36825227737427,1893,"{'default': {'policy_loss': -0.07191863656044006, 'vf_explained_var': 0.5510786175727844, 'vf_loss': 17.165922164916992, 'kl': 0.03576827794313431, 'cur_lr': 4.999999873689376e-05, 'total_loss': 17.104732513427734, 'entropy': 0.6740089654922485, 'cur_kl_coeff': 0.30000001192092896}, 'sample_time_ms': 46709.513, 'num_steps_trained': 2271600, 'grad_time_ms': 457.209, 'update_time_ms': 117.259, 'num_steps_sampled': 2271600, 'load_time_ms': 10.316}",3,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+77776.88807845116,273434,4.000588912619945,1200,cda-server-2,187.99534130096436,f93d3d6710754a149751678a58e67540,298,1757133223,4800,-9.87990403147333,2334315,{},10.157.146.2,False,{},2025-09-06_06-33-43,4.026845637583893,2272800,3.9536931889208753,0,46.07928156852722,1894,"{'default': {'policy_loss': -0.04144826903939247, 'vf_explained_var': 0.9286564588546753, 'vf_loss': 0.569487988948822, 'kl': 0.009710637852549553, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.5324094295501709, 'entropy': 0.15486542880535126, 'cur_kl_coeff': 0.44999995827674866}, 'sample_time_ms': 46455.94, 'num_steps_trained': 2272800, 'grad_time_ms': 436.357, 'update_time_ms': 88.693, 'num_steps_sampled': 2272800, 'load_time_ms': 7.919}",4,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+77823.27125358582,273733,4.000902666475753,1200,cda-server-2,234.37851643562317,f93d3d6710754a149751678a58e67540,299,1757133270,6000,-4.052280218965466,2334315,{},10.157.146.2,False,{},2025-09-06_06-34-30,4.016722408026756,2274000,3.973347506159907,0,46.38317513465881,1895,"{'default': {'policy_loss': -0.03500800579786301, 'vf_explained_var': 0.9556688666343689, 'vf_loss': 0.2699832022190094, 'kl': 0.013134412467479706, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.24088570475578308, 'entropy': 0.08922358602285385, 'cur_kl_coeff': 0.44999995827674866}, 'sample_time_ms': 46361.74, 'num_steps_trained': 2274000, 'grad_time_ms': 426.62, 'update_time_ms': 71.466, 'num_steps_sampled': 2274000, 'load_time_ms': 6.494}",5,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+77868.8537902832,274025,4.000918776593513,1200,cda-server-2,279.96105313301086,f93d3d6710754a149751678a58e67540,292,1757133315,7200,-13.19292366297664,2334315,{},10.157.146.2,False,{},2025-09-06_06-35-15,4.102739726027397,2275200,3.8400945181496025,0,45.582536697387695,1896,"{'default': {'policy_loss': -0.04246204346418381, 'vf_explained_var': 0.7327657341957092, 'vf_loss': 2.6724681854248047, 'kl': 0.02347862347960472, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.6405720710754395, 'entropy': 0.3539237082004547, 'cur_kl_coeff': 0.44999995827674866}, 'sample_time_ms': 46167.851, 'num_steps_trained': 2275200, 'grad_time_ms': 417.924, 'update_time_ms': 59.95, 'num_steps_sampled': 2275200, 'load_time_ms': 5.523}",6,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+77914.06675100327,274322,4.001092851281495,1200,cda-server-2,325.1740138530731,f93d3d6710754a149751678a58e67540,297,1757133360,8400,-6.995089829418127,2334315,{},10.157.146.2,False,{},2025-09-06_06-36-00,4.040404040404041,2276400,3.9362126870803835,0,45.212960720062256,1897,"{'default': {'policy_loss': -0.03854600340127945, 'vf_explained_var': 0.9181050062179565, 'vf_loss': 0.5525709986686707, 'kl': 0.03330303728580475, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.5365045070648193, 'entropy': 0.20267944037914276, 'cur_kl_coeff': 0.675000011920929}, 'sample_time_ms': 45978.975, 'num_steps_trained': 2276400, 'grad_time_ms': 409.405, 'update_time_ms': 51.762, 'num_steps_sampled': 2276400, 'load_time_ms': 4.823}",7,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+77959.66662168503,274621,4.003868174370394,1200,cda-server-2,370.7738845348358,f93d3d6710754a149751678a58e67540,299,1757133406,9600,-5.15563252309359,2334315,{},10.157.146.2,False,{},2025-09-06_06-36-46,4.0200668896321075,2277600,3.9696725589662543,0,45.599870681762695,1898,"{'default': {'policy_loss': -0.0310696791857481, 'vf_explained_var': 0.9382250308990479, 'vf_loss': 0.36875253915786743, 'kl': 0.004017711151391268, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.3417508006095886, 'entropy': 0.21340163052082062, 'cur_kl_coeff': 1.0125000476837158}, 'sample_time_ms': 45885.545, 'num_steps_trained': 2277600, 'grad_time_ms': 403.031, 'update_time_ms': 45.587, 'num_steps_sampled': 2277600, 'load_time_ms': 4.304}",8,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+78004.9122338295,274917,4.000775673245702,1200,cda-server-2,416.01949667930603,f93d3d6710754a149751678a58e67540,296,1757133451,10800,-11.924834372687155,2334315,{},10.157.146.2,False,{},2025-09-06_06-37-31,4.050675675675675,2278800,3.9189229120655837,0,45.245612144470215,1899,"{'default': {'policy_loss': -0.010173640213906765, 'vf_explained_var': 0.8667089939117432, 'vf_loss': 1.1527788639068604, 'kl': 0.23265297710895538, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.2603857517242432, 'entropy': 0.3874286413192749, 'cur_kl_coeff': 0.5062500238418579}, 'sample_time_ms': 45771.871, 'num_steps_trained': 2278800, 'grad_time_ms': 399.811, 'update_time_ms': 40.809, 'num_steps_sampled': 2278800, 'load_time_ms': 3.903}",9,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+78051.505048275,275208,4.000607909087986,1200,cda-server-2,462.61231112480164,f93d3d6710754a149751678a58e67540,291,1757133498,12000,-25.43769122068845,2334315,{},10.157.146.2,False,{},2025-09-06_06-38-18,4.065292096219931,2280000,3.8991189218775264,0,46.592814445495605,1900,"{'default': {'policy_loss': -0.03886624053120613, 'vf_explained_var': 0.6894592642784119, 'vf_loss': 5.370078086853027, 'kl': 0.022525204345583916, 'cur_lr': 4.999999873689376e-05, 'total_loss': 5.3483171463012695, 'entropy': 0.4094647467136383, 'cur_kl_coeff': 0.7593749761581421}, 'sample_time_ms': 45814.905, 'num_steps_trained': 2280000, 'grad_time_ms': 397.892, 'update_time_ms': 36.972, 'num_steps_sampled': 2280000, 'load_time_ms': 3.598}",10,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+78097.1643280983,275500,4.000887240138662,1200,cda-server-2,508.27159094810486,f93d3d6710754a149751678a58e67540,292,1757133544,13200,-17.46099633910986,2334315,{},10.157.146.2,False,{},2025-09-06_06-39-04,4.157534246575342,2281200,3.7510291054021683,0,45.65927982330322,1901,"{'default': {'policy_loss': -0.04178408533334732, 'vf_explained_var': 0.7348792552947998, 'vf_loss': 2.679945230484009, 'kl': 0.01081738993525505, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.6504831314086914, 'entropy': 0.38777101039886475, 'cur_kl_coeff': 1.139062523841858}, 'sample_time_ms': 45390.148, 'num_steps_trained': 2281200, 'grad_time_ms': 371.11, 'update_time_ms': 2.587, 'num_steps_sampled': 2281200, 'load_time_ms': 0.709}",11,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+78142.6333758831,275794,4.0009061489423345,1200,cda-server-2,553.7406387329102,f93d3d6710754a149751678a58e67540,294,1757133589,14400,-4.910081997342264,2334315,{},10.157.146.2,False,{},2025-09-06_06-39-49,4.078231292517007,2282400,3.8806639716174898,0,45.4690477848053,1902,"{'default': {'policy_loss': -0.04983384907245636, 'vf_explained_var': 0.8461227416992188, 'vf_loss': 1.0060979127883911, 'kl': 0.01815742813050747, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.9769465327262878, 'entropy': 0.36345693469047546, 'cur_kl_coeff': 1.139062523841858}, 'sample_time_ms': 45338.787, 'num_steps_trained': 2282400, 'grad_time_ms': 370.841, 'update_time_ms': 2.588, 'num_steps_sampled': 2282400, 'load_time_ms': 0.717}",12,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+78189.71594047546,276092,4.000689352276489,1200,cda-server-2,600.8232033252716,f93d3d6710754a149751678a58e67540,298,1757133636,15600,-8.153550111650933,2334315,{},10.157.146.2,False,{},2025-09-06_06-40-36,4.026845637583893,2283600,3.959504226881954,0,47.08256459236145,1903,"{'default': {'policy_loss': -0.022989220917224884, 'vf_explained_var': 0.9236777424812317, 'vf_loss': 0.5374259948730469, 'kl': 0.00685137277469039, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.5222409963607788, 'entropy': 0.2853350043296814, 'cur_kl_coeff': 1.139062523841858}, 'sample_time_ms': 45508.986, 'num_steps_trained': 2283600, 'grad_time_ms': 372.133, 'update_time_ms': 2.565, 'num_steps_sampled': 2283600, 'load_time_ms': 0.727}",13,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+78235.11066842079,276390,4.000715549304046,1200,cda-server-2,646.2179312705994,f93d3d6710754a149751678a58e67540,298,1757133682,16800,-4.975914912223342,2334315,{},10.157.146.2,False,{},2025-09-06_06-41-22,4.02013422818792,2284800,3.970159748055941,0,45.39472794532776,1904,"{'default': {'policy_loss': -0.027836574241518974, 'vf_explained_var': 0.9525669813156128, 'vf_loss': 0.3264111280441284, 'kl': 0.002957963850349188, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.30194389820098877, 'entropy': 0.18351785838603973, 'cur_kl_coeff': 1.139062523841858}, 'sample_time_ms': 45440.012, 'num_steps_trained': 2284800, 'grad_time_ms': 372.693, 'update_time_ms': 2.515, 'num_steps_sampled': 2284800, 'load_time_ms': 0.719}",14,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+78281.01697254181,276688,4.001664777061437,1200,cda-server-2,692.1242353916168,f93d3d6710754a149751678a58e67540,298,1757133727,18000,-14.414215187521844,2334315,{},10.157.146.2,False,{},2025-09-06_06-42-07,4.0369127516778525,2286000,3.938495671393865,0,45.906304121017456,1905,"{'default': {'policy_loss': -0.025212492793798447, 'vf_explained_var': 0.8639060258865356, 'vf_loss': 1.2208014726638794, 'kl': 0.028914710506796837, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.2120566368103027, 'entropy': 0.2538606822490692, 'cur_kl_coeff': 0.569531261920929}, 'sample_time_ms': 45393.211, 'num_steps_trained': 2286000, 'grad_time_ms': 371.9, 'update_time_ms': 2.514, 'num_steps_sampled': 2286000, 'load_time_ms': 0.704}",15,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+78327.47236084938,276986,4.000878269047572,1200,cda-server-2,738.5796236991882,f93d3d6710754a149751678a58e67540,298,1757133774,19200,-9.694455670826738,2334315,{},10.157.146.2,False,{},2025-09-06_06-42-54,4.030201342281879,2287200,3.9543320724363906,0,46.45538830757141,1906,"{'default': {'policy_loss': -0.020945044234395027, 'vf_explained_var': 0.9279272556304932, 'vf_loss': 0.6627655029296875, 'kl': 0.04374115169048309, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.6791884303092957, 'entropy': 0.2681828439235687, 'cur_kl_coeff': 0.854296863079071}, 'sample_time_ms': 45479.246, 'num_steps_trained': 2287200, 'grad_time_ms': 373.183, 'update_time_ms': 2.536, 'num_steps_sampled': 2287200, 'load_time_ms': 0.721}",16,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+78373.70872688293,277286,4.001265746585594,1200,cda-server-2,784.8159897327423,f93d3d6710754a149751678a58e67540,300,1757133820,20400,4.0001234131076915,2334315,{},10.157.146.2,False,{},2025-09-06_06-43-40,4.0,2288400,4.000286158106772,0,46.23636603355408,1907,"{'default': {'policy_loss': -0.08081890642642975, 'vf_explained_var': 0.9996397495269775, 'vf_loss': 0.0019368636421859264, 'kl': 0.027922190725803375, 'cur_lr': 4.999999873689376e-05, 'total_loss': -0.043101292103528976, 'entropy': 0.23748916387557983, 'cur_kl_coeff': 1.2814452648162842}, 'sample_time_ms': 45581.641, 'num_steps_trained': 2288400, 'grad_time_ms': 373.034, 'update_time_ms': 2.525, 'num_steps_sampled': 2288400, 'load_time_ms': 0.721}",17,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+78419.90493512154,277585,4.00061872951216,1200,cda-server-2,831.012197971344,f93d3d6710754a149751678a58e67540,299,1757133866,21600,-2.23890236912699,2334315,{},10.157.146.2,False,{},2025-09-06_06-44-26,4.013377926421405,2289600,3.979414359605173,0,46.196208238601685,1908,"{'default': {'policy_loss': -0.033961132168769836, 'vf_explained_var': 0.9743537902832031, 'vf_loss': 0.14223450422286987, 'kl': 0.00825632456690073, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.12414342910051346, 'entropy': 0.2687181234359741, 'cur_kl_coeff': 1.9221681356430054}, 'sample_time_ms': 45640.699, 'num_steps_trained': 2289600, 'grad_time_ms': 373.733, 'update_time_ms': 2.515, 'num_steps_sampled': 2289600, 'load_time_ms': 0.721}",18,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+78465.76228713989,277884,4.002033160258007,1200,cda-server-2,876.8695499897003,f93d3d6710754a149751678a58e67540,299,1757133912,22800,-0.9930729752028338,2334315,{},10.157.146.2,False,{},2025-09-06_06-45-12,4.010033444816053,2290800,3.9835866751786777,0,45.85735201835632,1909,"{'default': {'policy_loss': -0.029176585376262665, 'vf_explained_var': 0.9905980229377747, 'vf_loss': 0.05357038602232933, 'kl': 0.0035299782175570726, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.031179018318653107, 'entropy': 0.27563273906707764, 'cur_kl_coeff': 1.9221681356430054}, 'sample_time_ms': 45703.503, 'num_steps_trained': 2290800, 'grad_time_ms': 372.118, 'update_time_ms': 2.489, 'num_steps_sampled': 2290800, 'load_time_ms': 0.71}",19,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+78511.93576860428,278183,4.000720149862941,1200,cda-server-2,923.0430314540863,f93d3d6710754a149751678a58e67540,299,1757133958,24000,-4.208524051851326,2334315,{},10.157.146.2,False,{},2025-09-06_06-45-58,4.016722408026756,2292000,3.9728322800108216,0,46.173481464385986,1910,"{'default': {'policy_loss': -0.024400796741247177, 'vf_explained_var': 0.9569826126098633, 'vf_loss': 0.25260958075523376, 'kl': 0.003378215478733182, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.23145556449890137, 'entropy': 0.26537391543388367, 'cur_kl_coeff': 0.9610840678215027}, 'sample_time_ms': 45663.133, 'num_steps_trained': 2292000, 'grad_time_ms': 370.613, 'update_time_ms': 2.498, 'num_steps_sampled': 2292000, 'load_time_ms': 0.696}",20,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+78558.07777190208,278479,4.000831116653163,1200,cda-server-2,969.1850347518921,f93d3d6710754a149751678a58e67540,296,1757134005,25200,-12.809552241877718,2334315,{},10.157.146.2,False,{},2025-09-06_06-46-45,4.0608108108108105,2293200,3.911214056338029,0,46.142003297805786,1911,"{'default': {'policy_loss': -0.03559558093547821, 'vf_explained_var': 0.9073591232299805, 'vf_loss': 0.7430106401443481, 'kl': 0.006651054602116346, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.71061110496521, 'entropy': 0.36638179421424866, 'cur_kl_coeff': 0.48054203391075134}, 'sample_time_ms': 45710.603, 'num_steps_trained': 2293200, 'grad_time_ms': 371.309, 'update_time_ms': 2.543, 'num_steps_sampled': 2293200, 'load_time_ms': 0.7}",21,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+78603.42088294029,278770,4.001130676491861,1200,cda-server-2,1014.5281457901001,f93d3d6710754a149751678a58e67540,291,1757134050,26400,-21.52575752703257,2334315,{},10.157.146.2,False,{},2025-09-06_06-47-30,4.106529209621993,2294400,3.8283509160556775,0,45.34311103820801,1912,"{'default': {'policy_loss': -0.045282032340765, 'vf_explained_var': 0.7634081244468689, 'vf_loss': 3.240872859954834, 'kl': 0.0237196683883667, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.2069897651672363, 'entropy': 0.3849261999130249, 'cur_kl_coeff': 0.48054203391075134}, 'sample_time_ms': 45698.151, 'num_steps_trained': 2294400, 'grad_time_ms': 371.181, 'update_time_ms': 2.559, 'num_steps_sampled': 2294400, 'load_time_ms': 0.689}",22,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+78648.9430077076,279066,4.000623779377215,1200,cda-server-2,1060.0502705574036,f93d3d6710754a149751678a58e67540,296,1757134096,27600,-20.83487209824139,2334315,{},10.157.146.2,False,{},2025-09-06_06-48-16,4.0675675675675675,2295600,3.9020714483835337,0,45.52212476730347,1913,"{'default': {'policy_loss': -0.03491891920566559, 'vf_explained_var': 0.904205322265625, 'vf_loss': 1.305985689163208, 'kl': 0.008413798175752163, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.2771315574645996, 'entropy': 0.297031968832016, 'cur_kl_coeff': 0.720812976360321}, 'sample_time_ms': 45542.154, 'num_steps_trained': 2295600, 'grad_time_ms': 371.073, 'update_time_ms': 2.56, 'num_steps_sampled': 2295600, 'load_time_ms': 0.697}",23,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+78693.90665888786,279364,4.000588291537668,1200,cda-server-2,1105.013921737671,f93d3d6710754a149751678a58e67540,298,1757134141,28800,-7.11935838486583,2334315,{},10.157.146.2,False,{},2025-09-06_06-49-01,4.023489932885906,2296800,3.9629591942282696,0,44.963651180267334,1914,"{'default': {'policy_loss': -0.04093995317816734, 'vf_explained_var': 0.9227831363677979, 'vf_loss': 0.5169579982757568, 'kl': 0.01214078813791275, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.4847692847251892, 'entropy': 0.24161022901535034, 'cur_kl_coeff': 0.720812976360321}, 'sample_time_ms': 45498.852, 'num_steps_trained': 2296800, 'grad_time_ms': 371.226, 'update_time_ms': 2.579, 'num_steps_sampled': 2296800, 'load_time_ms': 0.713}",24,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+78738.62557315826,279662,4.000748527162837,1200,cda-server-2,1149.732836008072,f93d3d6710754a149751678a58e67540,298,1757134185,30000,-3.2157990783516617,2334315,{},10.157.146.2,False,{},2025-09-06_06-49-45,4.023489932885906,2298000,3.9593072727003946,0,44.718914270401,1915,"{'default': {'policy_loss': -0.03390463814139366, 'vf_explained_var': 0.9673312306404114, 'vf_loss': 0.19698308408260345, 'kl': 0.006522935815155506, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.16778025031089783, 'entropy': 0.2002587467432022, 'cur_kl_coeff': 0.720812976360321}, 'sample_time_ms': 45380.455, 'num_steps_trained': 2298000, 'grad_time_ms': 370.897, 'update_time_ms': 2.597, 'num_steps_sampled': 2298000, 'load_time_ms': 0.717}",25,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+78783.58183288574,279961,4.001714732035456,1200,cda-server-2,1194.68909573555,f93d3d6710754a149751678a58e67540,299,1757134230,31200,-4.218525308756316,2334315,{},10.157.146.2,False,{},2025-09-06_06-50-30,4.016722408026756,2299200,3.9727983717633277,0,44.95625972747803,1916,"{'default': {'policy_loss': -0.028566990047693253, 'vf_explained_var': 0.9571188688278198, 'vf_loss': 0.2631781995296478, 'kl': 0.018753940239548683, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.24812933802604675, 'entropy': 0.1676533818244934, 'cur_kl_coeff': 0.720812976360321}, 'sample_time_ms': 45232.118, 'num_steps_trained': 2299200, 'grad_time_ms': 369.301, 'update_time_ms': 2.571, 'num_steps_sampled': 2299200, 'load_time_ms': 0.693}",26,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+78828.80811953545,280261,4.0006539402368855,1200,cda-server-2,1239.915382385254,f93d3d6710754a149751678a58e67540,300,1757134275,32400,4.000134987341868,2334315,{},10.157.146.2,False,{},2025-09-06_06-51-15,4.0,2300400,4.000278921391265,0,45.22628664970398,1917,"{'default': {'policy_loss': -0.10360731929540634, 'vf_explained_var': 0.999623715877533, 'vf_loss': 0.0019785165786743164, 'kl': 0.03775777667760849, 'cur_lr': 4.999999873689376e-05, 'total_loss': -0.074412502348423, 'entropy': 0.23995865881443024, 'cur_kl_coeff': 0.720812976360321}, 'sample_time_ms': 45128.191, 'num_steps_trained': 2300400, 'grad_time_ms': 372.28, 'update_time_ms': 2.577, 'num_steps_sampled': 2300400, 'load_time_ms': 0.696}",27,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+78874.66448140144,280556,4.000675086301319,1200,cda-server-2,1285.7717442512512,f93d3d6710754a149751678a58e67540,295,1757134321,33600,-16.782928024119663,2334315,{},10.157.146.2,False,{},2025-09-06_06-52-01,4.074576271186441,2301600,3.8821161798642816,0,45.856361865997314,1918,"{'default': {'policy_loss': -0.037215229123830795, 'vf_explained_var': 0.8624221682548523, 'vf_loss': 1.0052969455718994, 'kl': 0.009162007831037045, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.9779878258705139, 'entropy': 0.188435897231102, 'cur_kl_coeff': 1.0812194347381592}, 'sample_time_ms': 45093.426, 'num_steps_trained': 2301600, 'grad_time_ms': 373.032, 'update_time_ms': 2.594, 'num_steps_sampled': 2301600, 'load_time_ms': 0.695}",28,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+78919.94057559967,280856,4.000570180233597,1200,cda-server-2,1331.0478384494781,f93d3d6710754a149751678a58e67540,300,1757134367,34800,4.00011173550874,2334315,{},10.157.146.2,False,{},2025-09-06_06-52-47,4.0,2302800,4.00027338491553,0,45.27609419822693,1919,"{'default': {'policy_loss': -0.0989903062582016, 'vf_explained_var': 0.999480664730072, 'vf_loss': 0.0027686525136232376, 'kl': 0.026522686704993248, 'cur_lr': 4.999999873689376e-05, 'total_loss': -0.06754481047391891, 'entropy': 0.13791672885417938, 'cur_kl_coeff': 1.0812194347381592}, 'sample_time_ms': 45033.672, 'num_steps_trained': 2302800, 'grad_time_ms': 374.68, 'update_time_ms': 2.593, 'num_steps_sampled': 2302800, 'load_time_ms': 0.706}",29,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+78965.23239636421,281156,4.000694722973275,1200,cda-server-2,1376.3396592140198,f93d3d6710754a149751678a58e67540,300,1757134412,36000,4.000118334727172,2334315,{},10.157.146.2,False,{},2025-09-06_06-53-32,4.0,2304000,4.00027630148176,0,45.291820764541626,1920,"{'default': {'policy_loss': -0.10673592984676361, 'vf_explained_var': 0.9996479749679565, 'vf_loss': 0.0019100010395050049, 'kl': 0.023304976522922516, 'cur_lr': 4.999999873689376e-05, 'total_loss': -0.06702923774719238, 'entropy': 0.20669446885585785, 'cur_kl_coeff': 1.6218292713165283}, 'sample_time_ms': 44944.572, 'num_steps_trained': 2304000, 'grad_time_ms': 375.67, 'update_time_ms': 2.567, 'num_steps_sampled': 2304000, 'load_time_ms': 0.699}",30,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+79010.49864006042,281453,4.001974977373438,1200,cda-server-2,1421.6059029102325,f93d3d6710754a149751678a58e67540,297,1757134457,37200,-6.7108217859453845,2334315,{},10.157.146.2,False,{},2025-09-06_06-54-17,4.037037037037037,2305200,3.9371265437789305,0,45.26624369621277,1921,"{'default': {'policy_loss': -0.027319252490997314, 'vf_explained_var': 0.9386727809906006, 'vf_loss': 0.4425496459007263, 'kl': 0.006251346319913864, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.4304382801055908, 'entropy': 0.2518656253814697, 'cur_kl_coeff': 2.432743787765503}, 'sample_time_ms': 44858.709, 'num_steps_trained': 2305200, 'grad_time_ms': 374.012, 'update_time_ms': 2.564, 'num_steps_sampled': 2305200, 'load_time_ms': 0.69}",31,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+79055.15220952034,281753,4.000565661307263,1200,cda-server-2,1466.2594723701477,f93d3d6710754a149751678a58e67540,300,1757134502,38400,4.000139884287464,2334315,{},10.157.146.2,False,{},2025-09-06_06-55-02,4.0,2306400,4.000275072643913,0,44.65356945991516,1922,"{'default': {'policy_loss': -0.08202323317527771, 'vf_explained_var': 0.9996688365936279, 'vf_loss': 0.0017755540320649743, 'kl': 0.01603974960744381, 'cur_lr': 4.999999873689376e-05, 'total_loss': -0.041227076202631, 'entropy': 0.24371248483657837, 'cur_kl_coeff': 2.432743787765503}, 'sample_time_ms': 44788.575, 'num_steps_trained': 2306400, 'grad_time_ms': 375.209, 'update_time_ms': 2.534, 'num_steps_sampled': 2306400, 'load_time_ms': 0.688}",32,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+79100.36091947556,282052,4.000574843436315,1200,cda-server-2,1511.4681823253632,f93d3d6710754a149751678a58e67540,299,1757134547,39600,-2.0341344765868996,2334315,{},10.157.146.2,False,{},2025-09-06_06-55-47,4.013377926421405,2307600,3.9800916889245648,0,45.208709955215454,1923,"{'default': {'policy_loss': -0.021474754437804222, 'vf_explained_var': 0.9723188877105713, 'vf_loss': 0.1590716689825058, 'kl': 0.0050060562789440155, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.14977537095546722, 'entropy': 0.20478026568889618, 'cur_kl_coeff': 2.432743787765503}, 'sample_time_ms': 44757.884, 'num_steps_trained': 2307600, 'grad_time_ms': 374.619, 'update_time_ms': 2.539, 'num_steps_sampled': 2307600, 'load_time_ms': 0.665}",33,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+79146.61361789703,282351,4.000680684844391,1200,cda-server-2,1557.7208807468414,f93d3d6710754a149751678a58e67540,299,1757134593,40800,-2.1484303553105253,2334315,{},10.157.146.2,False,{},2025-09-06_06-56-33,4.013377926421405,2308800,3.9797170921551484,0,46.25269842147827,1924,"{'default': {'policy_loss': -0.021509550511837006, 'vf_explained_var': 0.973979651927948, 'vf_loss': 0.16197851300239563, 'kl': 0.005876995623111725, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.15476621687412262, 'entropy': 0.21730786561965942, 'cur_kl_coeff': 2.432743787765503}, 'sample_time_ms': 44887.434, 'num_steps_trained': 2308800, 'grad_time_ms': 374.077, 'update_time_ms': 2.527, 'num_steps_sampled': 2308800, 'load_time_ms': 0.65}",34,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+79191.57624292374,282645,4.001688399053657,1200,cda-server-2,1602.6835057735443,f93d3d6710754a149751678a58e67540,294,1757134638,42000,-13.92516501790698,2334315,{},10.157.146.2,False,{},2025-09-06_06-57-18,4.074829931972789,2310000,3.8844257359014427,0,44.96262502670288,1925,"{'default': {'policy_loss': -0.034205514937639236, 'vf_explained_var': 0.8312904834747314, 'vf_loss': 1.5229769945144653, 'kl': 0.009320825338363647, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.511446475982666, 'entropy': 0.3059292137622833, 'cur_kl_coeff': 2.432743787765503}, 'sample_time_ms': 44913.882, 'num_steps_trained': 2310000, 'grad_time_ms': 372.014, 'update_time_ms': 2.506, 'num_steps_sampled': 2310000, 'load_time_ms': 0.648}",35,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+79236.78554201126,282945,4.00064093452613,1200,cda-server-2,1647.8928048610687,f93d3d6710754a149751678a58e67540,300,1757134684,43200,4.000112826420863,2334315,{},10.157.146.2,False,{},2025-09-06_06-58-04,4.0,2311200,4.000281551886332,0,45.209299087524414,1926,"{'default': {'policy_loss': -0.07795628905296326, 'vf_explained_var': 0.9997309446334839, 'vf_loss': 0.001452397438697517, 'kl': 0.019255751743912697, 'cur_lr': 4.999999873689376e-05, 'total_loss': -0.029659582301974297, 'entropy': 0.19921763241291046, 'cur_kl_coeff': 2.432743787765503}, 'sample_time_ms': 44938.659, 'num_steps_trained': 2311200, 'grad_time_ms': 372.593, 'update_time_ms': 2.521, 'num_steps_sampled': 2311200, 'load_time_ms': 0.654}",36,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+79281.42788815498,283242,4.000862343198624,1200,cda-server-2,1692.5351510047913,f93d3d6710754a149751678a58e67540,297,1757134728,44400,-11.142060113720795,2334315,{},10.157.146.2,False,{},2025-09-06_06-58-48,4.033670033670034,2312400,3.9493003118821943,0,44.642346143722534,1927,"{'default': {'policy_loss': -0.022738972678780556, 'vf_explained_var': 0.8899887800216675, 'vf_loss': 0.8107560276985168, 'kl': 0.004200292751193047, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.7982353568077087, 'entropy': 0.23977714776992798, 'cur_kl_coeff': 2.432743787765503}, 'sample_time_ms': 44883.452, 'num_steps_trained': 2312400, 'grad_time_ms': 369.419, 'update_time_ms': 2.516, 'num_steps_sampled': 2312400, 'load_time_ms': 0.652}",37,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+79326.62881016731,283541,4.001172235053387,1200,cda-server-2,1737.7360730171204,f93d3d6710754a149751678a58e67540,299,1757134773,45600,-2.0569111262506663,2334315,{},10.157.146.2,False,{},2025-09-06_06-59-33,4.023411371237458,2313600,3.966339377951376,0,45.2009220123291,1928,"{'default': {'policy_loss': -0.041413500905036926, 'vf_explained_var': 0.9662798643112183, 'vf_loss': 0.19278576970100403, 'kl': 0.010385911911725998, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.16400538384914398, 'entropy': 0.24703723192214966, 'cur_kl_coeff': 1.2163718938827515}, 'sample_time_ms': 44818.207, 'num_steps_trained': 2313600, 'grad_time_ms': 369.124, 'update_time_ms': 2.52, 'num_steps_sampled': 2313600, 'load_time_ms': 0.653}",38,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+79372.15839672089,283840,4.000688735202999,1200,cda-server-2,1783.265659570694,f93d3d6710754a149751678a58e67540,299,1757134819,46800,-4.023996191592712,2334315,{},10.157.146.2,False,{},2025-09-06_07-00-19,4.016722408026756,2314800,3.9734442188106205,0,45.52958655357361,1929,"{'default': {'policy_loss': -0.020963840186595917, 'vf_explained_var': 0.9599056243896484, 'vf_loss': 0.2292700856924057, 'kl': 0.0023791412822902203, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.21120014786720276, 'entropy': 0.24480873346328735, 'cur_kl_coeff': 1.2163718938827515}, 'sample_time_ms': 44842.716, 'num_steps_trained': 2314800, 'grad_time_ms': 369.922, 'update_time_ms': 2.515, 'num_steps_sampled': 2314800, 'load_time_ms': 0.644}",39,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+79418.62928318977,284134,4.001796990101777,1200,cda-server-2,1829.7365460395813,f93d3d6710754a149751678a58e67540,294,1757134865,48000,-8.287982591293954,2334315,{},10.157.146.2,False,{},2025-09-06_07-01-05,4.074829931972789,2316000,3.8895436396321332,0,46.47088646888733,1930,"{'default': {'policy_loss': -0.041833385825157166, 'vf_explained_var': 0.861703097820282, 'vf_loss': 1.06712806224823, 'kl': 0.012142127379775047, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.0326794385910034, 'entropy': 0.28977230191230774, 'cur_kl_coeff': 0.6081859469413757}, 'sample_time_ms': 44959.932, 'num_steps_trained': 2316000, 'grad_time_ms': 370.513, 'update_time_ms': 2.539, 'num_steps_sampled': 2316000, 'load_time_ms': 0.657}",40,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+79464.70535802841,284431,4.000995342737218,1200,cda-server-2,1875.8126208782196,f93d3d6710754a149751678a58e67540,297,1757134912,49200,-12.77590291977371,2334315,{},10.157.146.2,False,{},2025-09-06_07-01-52,4.057239057239057,2317200,3.913792977542699,0,46.076074838638306,1931,"{'default': {'policy_loss': -0.03197546675801277, 'vf_explained_var': 0.8690040111541748, 'vf_loss': 1.1814097166061401, 'kl': 0.013028624467551708, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.1573580503463745, 'entropy': 0.36337339878082275, 'cur_kl_coeff': 0.6081859469413757}, 'sample_time_ms': 45040.047, 'num_steps_trained': 2317200, 'grad_time_ms': 371.399, 'update_time_ms': 2.505, 'num_steps_sampled': 2317200, 'load_time_ms': 0.666}",41,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+79509.68538451195,284728,4.000686989650205,1200,cda-server-2,1920.7926473617554,f93d3d6710754a149751678a58e67540,297,1757134957,50400,-9.017977679533342,2334315,{},10.157.146.2,False,{},2025-09-06_07-02-37,4.043771043771044,2318400,3.929351230183225,0,44.98002648353577,1932,"{'default': {'policy_loss': -0.0304773710668087, 'vf_explained_var': 0.881854772567749, 'vf_loss': 0.8399158716201782, 'kl': 0.029501911252737045, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.8273811340332031, 'entropy': 0.2610696256160736, 'cur_kl_coeff': 0.6081859469413757}, 'sample_time_ms': 45073.785, 'num_steps_trained': 2318400, 'grad_time_ms': 370.195, 'update_time_ms': 2.532, 'num_steps_sampled': 2318400, 'load_time_ms': 0.662}",42,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+79556.32399892807,285027,4.000537871394309,1200,cda-server-2,1967.4312617778778,f93d3d6710754a149751678a58e67540,299,1757135003,51600,-0.8782003169296733,2334315,{},10.157.146.2,False,{},2025-09-06_07-03-23,4.010033444816053,2319600,3.9839671763039424,0,46.63861441612244,1933,"{'default': {'policy_loss': -0.02716951258480549, 'vf_explained_var': 0.9922914505004883, 'vf_loss': 0.046458471566438675, 'kl': 0.006561047397553921, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.025274457409977913, 'entropy': 0.18679064512252808, 'cur_kl_coeff': 0.9122788906097412}, 'sample_time_ms': 45218.756, 'num_steps_trained': 2319600, 'grad_time_ms': 368.143, 'update_time_ms': 2.588, 'num_steps_sampled': 2319600, 'load_time_ms': 0.666}",43,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+79601.79537081718,285327,4.000674398826108,1200,cda-server-2,2012.9026336669922,f93d3d6710754a149751678a58e67540,300,1757135049,52800,4.000120410026855,2334315,{},10.157.146.2,False,{},2025-09-06_07-04-09,4.0,2320800,4.000287665222487,0,45.47137188911438,1934,"{'default': {'policy_loss': -0.07968692481517792, 'vf_explained_var': 0.9997720718383789, 'vf_loss': 0.0011799606727436185, 'kl': 0.028493549674749374, 'cur_lr': 4.999999873689376e-05, 'total_loss': -0.05251290649175644, 'entropy': 0.2585633397102356, 'cur_kl_coeff': 0.9122788906097412}, 'sample_time_ms': 45142.798, 'num_steps_trained': 2320800, 'grad_time_ms': 365.986, 'update_time_ms': 2.579, 'num_steps_sampled': 2320800, 'load_time_ms': 0.664}",44,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+79647.34934544563,285624,4.001215924322786,1200,cda-server-2,2058.4566082954407,f93d3d6710754a149751678a58e67540,297,1757135094,54000,-9.720153972372078,2334315,{},10.157.146.2,False,{},2025-09-06_07-04-54,4.03030303030303,2322000,3.954098316473249,0,45.553974628448486,1935,"{'default': {'policy_loss': -0.0225378405302763, 'vf_explained_var': 0.9085637331008911, 'vf_loss': 0.6660969257354736, 'kl': 0.009172397665679455, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.6561106443405151, 'entropy': 0.29416030645370483, 'cur_kl_coeff': 1.3684184551239014}, 'sample_time_ms': 45199.968, 'num_steps_trained': 2322000, 'grad_time_ms': 367.913, 'update_time_ms': 2.575, 'num_steps_sampled': 2322000, 'load_time_ms': 0.665}",45,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+79693.14499950409,285924,4.000783600016579,1200,cda-server-2,2104.252262353897,f93d3d6710754a149751678a58e67540,300,1757135140,55200,4.0001369887227565,2334315,{},10.157.146.2,False,{},2025-09-06_07-05-40,4.0,2323200,4.000291731193093,0,45.79565405845642,1936,"{'default': {'policy_loss': -0.08471646904945374, 'vf_explained_var': 0.9998948574066162, 'vf_loss': 0.0005659071612171829, 'kl': 0.02601299248635769, 'cur_lr': 4.999999873689376e-05, 'total_loss': -0.048553913831710815, 'entropy': 0.2998347580432892, 'cur_kl_coeff': 1.3684184551239014}, 'sample_time_ms': 45258.619, 'num_steps_trained': 2323200, 'grad_time_ms': 367.82, 'update_time_ms': 2.596, 'num_steps_sampled': 2323200, 'load_time_ms': 0.672}",46,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+79738.27086782455,286212,4.000684026725835,1200,cda-server-2,2149.378130674362,f93d3d6710754a149751678a58e67540,288,1757135185,56400,-48.89968938640688,2334315,{},10.157.146.2,False,{},2025-09-06_07-06-25,4.152777777777778,2324400,3.757191927828339,0,45.12586832046509,1937,"{'default': {'policy_loss': -0.04188266769051552, 'vf_explained_var': 0.5641286373138428, 'vf_loss': 15.265291213989258, 'kl': 0.006304501555860043, 'cur_lr': 4.999999873689376e-05, 'total_loss': 15.236350059509277, 'entropy': 0.5428876876831055, 'cur_kl_coeff': 2.0526275634765625}, 'sample_time_ms': 45306.318, 'num_steps_trained': 2324400, 'grad_time_ms': 368.412, 'update_time_ms': 2.611, 'num_steps_sampled': 2324400, 'load_time_ms': 0.673}",47,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+79784.59492349625,286509,4.000959596943762,1200,cda-server-2,2195.702186346054,f93d3d6710754a149751678a58e67540,297,1757135232,57600,-16.007160447231367,2334315,{},10.157.146.2,False,{},2025-09-06_07-07-12,4.040404040404041,2325600,3.932928568038442,0,46.324055671691895,1938,"{'default': {'policy_loss': -0.031860336661338806, 'vf_explained_var': 0.9531021118164062, 'vf_loss': 0.43623191118240356, 'kl': 0.00407828763127327, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.4127427637577057, 'entropy': 0.33931609988212585, 'cur_kl_coeff': 2.0526275634765625}, 'sample_time_ms': 45419.719, 'num_steps_trained': 2325600, 'grad_time_ms': 367.2, 'update_time_ms': 2.68, 'num_steps_sampled': 2325600, 'load_time_ms': 0.677}",48,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+79830.15763759613,286805,4.000638588339009,1200,cda-server-2,2241.264900445938,f93d3d6710754a149751678a58e67540,296,1757135277,58800,-19.005196821445665,2334315,{},10.157.146.2,False,{},2025-09-06_07-07-57,4.0641891891891895,2326800,3.902807627322625,0,45.56271409988403,1939,"{'default': {'policy_loss': -0.0386674627661705, 'vf_explained_var': 0.8081399202346802, 'vf_loss': 2.1503236293792725, 'kl': 0.005957199260592461, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.117770195007324, 'entropy': 0.4153769016265869, 'cur_kl_coeff': 1.0263137817382812}, 'sample_time_ms': 45425.424, 'num_steps_trained': 2326800, 'grad_time_ms': 364.79, 'update_time_ms': 2.715, 'num_steps_sampled': 2326800, 'load_time_ms': 0.681}",49,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+79875.92552280426,287101,4.000885069316309,1200,cda-server-2,2287.032785654068,f93d3d6710754a149751678a58e67540,296,1757135323,60000,-11.85093157086116,2334315,{},10.157.146.2,False,{},2025-09-06_07-08-43,4.043918918918919,2328000,3.932957997962743,0,45.76788520812988,1940,"{'default': {'policy_loss': -0.040772445499897, 'vf_explained_var': 0.8824732303619385, 'vf_loss': 0.8411788940429688, 'kl': 0.018130376935005188, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.8190138936042786, 'entropy': 0.2837959825992584, 'cur_kl_coeff': 1.0263137817382812}, 'sample_time_ms': 45357.499, 'num_steps_trained': 2328000, 'grad_time_ms': 362.529, 'update_time_ms': 2.692, 'num_steps_sampled': 2328000, 'load_time_ms': 0.673}",50,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+79921.65767598152,287395,4.000676535222322,1200,cda-server-2,2332.7649388313293,f93d3d6710754a149751678a58e67540,294,1757135369,61200,-18.406533163276684,2334315,{},10.157.146.2,False,{},2025-09-06_07-09-29,4.085034013605442,2329200,3.8657884404244345,0,45.73215317726135,1941,"{'default': {'policy_loss': -0.04011418670415878, 'vf_explained_var': 0.7562131881713867, 'vf_loss': 2.479750633239746, 'kl': 0.010158398188650608, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.4500622749328613, 'entropy': 0.44022485613822937, 'cur_kl_coeff': 1.0263137817382812}, 'sample_time_ms': 45321.558, 'num_steps_trained': 2329200, 'grad_time_ms': 364.111, 'update_time_ms': 2.655, 'num_steps_sampled': 2329200, 'load_time_ms': 0.67}",51,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+79966.579829216,287694,4.0007857361567964,1200,cda-server-2,2377.687092065811,f93d3d6710754a149751678a58e67540,299,1757135414,62400,-2.9968974113531743,2334315,{},10.157.146.2,False,{},2025-09-06_07-10-14,4.013377926421405,2330400,3.976887540396048,0,44.92215323448181,1942,"{'default': {'policy_loss': -0.01569145917892456, 'vf_explained_var': 0.9700539708137512, 'vf_loss': 0.17348165810108185, 'kl': 0.0032024250831454992, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.1610768884420395, 'entropy': 0.21782554686069489, 'cur_kl_coeff': 1.0263137817382812}, 'sample_time_ms': 45316.065, 'num_steps_trained': 2330400, 'grad_time_ms': 363.906, 'update_time_ms': 2.644, 'num_steps_sampled': 2330400, 'load_time_ms': 0.672}",52,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+80012.3161098957,287987,4.000863578231918,1200,cda-server-2,2423.423372745514,f93d3d6710754a149751678a58e67540,293,1757135459,63600,-16.909981208121426,2334315,{},10.157.146.2,False,{},2025-09-06_07-10-59,4.109215017064846,2331600,3.8266455118014058,0,45.73628067970276,1943,"{'default': {'policy_loss': -0.04544088989496231, 'vf_explained_var': 0.7550002932548523, 'vf_loss': 2.419266700744629, 'kl': 0.013572140596807003, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.3807904720306396, 'entropy': 0.4600026309490204, 'cur_kl_coeff': 0.5131568908691406}, 'sample_time_ms': 45222.769, 'num_steps_trained': 2331600, 'grad_time_ms': 366.961, 'update_time_ms': 2.623, 'num_steps_sampled': 2331600, 'load_time_ms': 0.682}",53,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+80058.25975704193,288277,4.000745916854669,1200,cda-server-2,2469.367019891739,f93d3d6710754a149751678a58e67540,290,1757135505,64800,-15.442799906368656,2334315,{},10.157.146.2,False,{},2025-09-06_07-11-45,4.13103448275862,2332800,3.790725490962064,0,45.943647146224976,1944,"{'default': {'policy_loss': -0.04309413209557533, 'vf_explained_var': 0.7149366736412048, 'vf_loss': 3.752434730529785, 'kl': 0.06205645576119423, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.741185188293457, 'entropy': 0.49454444646835327, 'cur_kl_coeff': 0.5131568908691406}, 'sample_time_ms': 45267.168, 'num_steps_trained': 2332800, 'grad_time_ms': 369.707, 'update_time_ms': 2.625, 'num_steps_sampled': 2332800, 'load_time_ms': 0.691}",54,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+80104.27155351639,288577,4.000636478770112,1200,cda-server-2,2515.3788163661957,f93d3d6710754a149751678a58e67540,300,1757135551,66000,4.000095235117557,2334315,{},10.157.146.2,False,{},2025-09-06_07-12-31,4.0,2334000,4.0002860589678715,0,46.01179647445679,1945,"{'default': {'policy_loss': -0.04930016025900841, 'vf_explained_var': 0.999272346496582, 'vf_loss': 0.003950261510908604, 'kl': 0.019133495166897774, 'cur_lr': 4.999999873689376e-05, 'total_loss': -0.030622171238064766, 'entropy': 0.2045283019542694, 'cur_kl_coeff': 0.7697353363037109}, 'sample_time_ms': 45314.253, 'num_steps_trained': 2334000, 'grad_time_ms': 368.411, 'update_time_ms': 2.66, 'num_steps_sampled': 2334000, 'load_time_ms': 0.698}",55,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+80148.90309858322,288875,4.00070124509144,1200,cda-server-2,2560.010361433029,f93d3d6710754a149751678a58e67540,298,1757135596,67200,-6.938430048172343,2334315,{},10.157.146.2,False,{},2025-09-06_07-13-16,4.030201342281879,2335200,3.956718210309038,0,44.631545066833496,1946,"{'default': {'policy_loss': -0.031027503311634064, 'vf_explained_var': 0.8887431621551514, 'vf_loss': 0.6656859517097473, 'kl': 0.004847421310842037, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.6383897066116333, 'entropy': 0.31384435296058655, 'cur_kl_coeff': 0.7697353363037109}, 'sample_time_ms': 45199.681, 'num_steps_trained': 2335200, 'grad_time_ms': 366.657, 'update_time_ms': 2.63, 'num_steps_sampled': 2335200, 'load_time_ms': 0.69}",56,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+80193.78683400154,289172,4.001020015706736,1200,cda-server-2,2604.894096851349,f93d3d6710754a149751678a58e67540,297,1757135641,68400,-7.817318107558254,2334315,{},10.157.146.2,False,{},2025-09-06_07-14-01,4.040404040404041,2336400,3.93349338530951,0,44.8837354183197,1947,"{'default': {'policy_loss': -0.027642743661999702, 'vf_explained_var': 0.9275458455085754, 'vf_loss': 0.5014045834541321, 'kl': 0.010979656130075455, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.4779876172542572, 'entropy': 0.3970615267753601, 'cur_kl_coeff': 0.38486766815185547}, 'sample_time_ms': 45173.852, 'num_steps_trained': 2336400, 'grad_time_ms': 368.302, 'update_time_ms': 2.588, 'num_steps_sampled': 2336400, 'load_time_ms': 0.699}",57,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+80238.64298057556,289472,4.000945806784068,1200,cda-server-2,2649.7502434253693,f93d3d6710754a149751678a58e67540,300,1757135686,69600,4.0001260080093,2334315,{},10.157.146.2,False,{},2025-09-06_07-14-46,4.0,2337600,4.000287426381928,0,44.856146574020386,1948,"{'default': {'policy_loss': -0.08685947954654694, 'vf_explained_var': 0.9997851252555847, 'vf_loss': 0.0011118293041363358, 'kl': 0.07032479345798492, 'cur_lr': 4.999999873689376e-05, 'total_loss': -0.0586819127202034, 'entropy': 0.3860788643360138, 'cur_kl_coeff': 0.38486766815185547}, 'sample_time_ms': 45026.362, 'num_steps_trained': 2337600, 'grad_time_ms': 369.07, 'update_time_ms': 2.562, 'num_steps_sampled': 2337600, 'load_time_ms': 0.7}",58,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+80284.24754691124,289760,4.00206518186545,1200,cda-server-2,2695.3548097610474,f93d3d6710754a149751678a58e67540,288,1757135731,70800,-24.361583076686934,2334315,{},10.157.146.2,False,{},2025-09-06_07-15-31,4.166666666666667,2338800,3.732926168823989,0,45.6045663356781,1949,"{'default': {'policy_loss': -0.05580902099609375, 'vf_explained_var': 0.7226870656013489, 'vf_loss': 4.020562171936035, 'kl': 0.014993447810411453, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.9734089374542236, 'entropy': 0.5477443337440491, 'cur_kl_coeff': 0.5773015022277832}, 'sample_time_ms': 45029.094, 'num_steps_trained': 2338800, 'grad_time_ms': 370.54, 'update_time_ms': 2.537, 'num_steps_sampled': 2338800, 'load_time_ms': 0.698}",59,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+80329.3067753315,290057,4.000725064315563,1200,cda-server-2,2740.414038181305,f93d3d6710754a149751678a58e67540,297,1757135777,72000,-11.70122451372314,2334315,{},10.157.146.2,False,{},2025-09-06_07-16-17,4.033670033670034,2340000,3.9474215446371703,0,45.05922842025757,1950,"{'default': {'policy_loss': -0.03616900369524956, 'vf_explained_var': 0.9158043265342712, 'vf_loss': 0.6632696390151978, 'kl': 0.007762279827147722, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.6315818428993225, 'entropy': 0.42462801933288574, 'cur_kl_coeff': 0.5773015022277832}, 'sample_time_ms': 44955.701, 'num_steps_trained': 2340000, 'grad_time_ms': 373.012, 'update_time_ms': 2.558, 'num_steps_sampled': 2340000, 'load_time_ms': 0.706}",60,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+80374.54656338692,290347,4.001174778260882,1200,cda-server-2,2785.653826236725,f93d3d6710754a149751678a58e67540,290,1757135822,73200,-25.585578886141235,2334315,{},10.157.146.2,False,{},2025-09-06_07-17-02,4.151724137931034,2341200,3.758489638107886,0,45.23978805541992,1951,"{'default': {'policy_loss': -0.05702957883477211, 'vf_explained_var': 0.7068410515785217, 'vf_loss': 5.379788398742676, 'kl': 0.011509520001709461, 'cur_lr': 4.999999873689376e-05, 'total_loss': 5.329402923583984, 'entropy': 0.4879404604434967, 'cur_kl_coeff': 0.5773015022277832}, 'sample_time_ms': 44907.205, 'num_steps_trained': 2341200, 'grad_time_ms': 372.138, 'update_time_ms': 2.62, 'num_steps_sampled': 2341200, 'load_time_ms': 0.716}",61,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+80420.15385723114,290644,4.0008038144474725,1200,cda-server-2,2831.261120080948,f93d3d6710754a149751678a58e67540,297,1757135868,74400,-4.024137891792961,2334315,{},10.157.146.2,False,{},2025-09-06_07-17-48,4.03030303030303,2342400,3.953002422071514,0,45.60729384422302,1952,"{'default': {'policy_loss': -0.03602371737360954, 'vf_explained_var': 0.93030846118927, 'vf_loss': 0.41796010732650757, 'kl': 0.03608700633049011, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.4027694761753082, 'entropy': 0.31339117884635925, 'cur_kl_coeff': 0.5773015022277832}, 'sample_time_ms': 44975.757, 'num_steps_trained': 2342400, 'grad_time_ms': 372.055, 'update_time_ms': 2.69, 'num_steps_sampled': 2342400, 'load_time_ms': 0.711}",62,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+80465.04818511009,290941,4.000643581684755,1200,cda-server-2,2876.1554479599,f93d3d6710754a149751678a58e67540,297,1757135912,75600,-6.030745430170626,2334315,{},10.157.146.2,False,{},2025-09-06_07-18-32,4.033670033670034,2343600,3.94578675707518,0,44.894327878952026,1953,"{'default': {'policy_loss': -0.03136896342039108, 'vf_explained_var': 0.9136667251586914, 'vf_loss': 0.5258656144142151, 'kl': 0.008499802090227604, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.5018570423126221, 'entropy': 0.3768346905708313, 'cur_kl_coeff': 0.8659522533416748}, 'sample_time_ms': 44893.233, 'num_steps_trained': 2343600, 'grad_time_ms': 370.518, 'update_time_ms': 2.642, 'num_steps_sampled': 2343600, 'load_time_ms': 0.701}",63,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+80510.05196213722,291238,4.001025303447477,1200,cda-server-2,2921.15922498703,f93d3d6710754a149751678a58e67540,297,1757135957,76800,-15.71224878149338,2334315,{},10.157.146.2,False,{},2025-09-06_07-19-17,4.040404040404041,2344800,3.9339153908694233,0,45.00377702713013,1954,"{'default': {'policy_loss': -0.027655085548758507, 'vf_explained_var': 0.8492347598075867, 'vf_loss': 1.3947060108184814, 'kl': 0.004742349032312632, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.3711575269699097, 'entropy': 0.31854248046875, 'cur_kl_coeff': 0.8659522533416748}, 'sample_time_ms': 44800.858, 'num_steps_trained': 2344800, 'grad_time_ms': 368.959, 'update_time_ms': 2.646, 'num_steps_sampled': 2344800, 'load_time_ms': 0.7}",64,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+80554.90417671204,291534,4.000680512424726,1200,cda-server-2,2966.011439561844,f93d3d6710754a149751678a58e67540,296,1757136002,78000,-14.399007498545252,2334315,{},10.157.146.2,False,{},2025-09-06_07-20-02,4.0608108108108105,2346000,3.90428364550576,0,44.85221457481384,1955,"{'default': {'policy_loss': -0.028854183852672577, 'vf_explained_var': 0.8277356028556824, 'vf_loss': 1.5527828931808472, 'kl': 0.03421793505549431, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.5387444496154785, 'entropy': 0.37164273858070374, 'cur_kl_coeff': 0.4329761266708374}, 'sample_time_ms': 44685.634, 'num_steps_trained': 2346000, 'grad_time_ms': 368.298, 'update_time_ms': 2.599, 'num_steps_sampled': 2346000, 'load_time_ms': 0.693}",65,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+80600.38670706749,291833,4.001148946594228,1200,cda-server-2,3011.4939699172974,f93d3d6710754a149751678a58e67540,299,1757136048,79200,-0.1013368313922296,2334315,{},10.157.146.2,False,{},2025-09-06_07-20-48,4.010033444816053,2347200,3.9865579554088875,0,45.48253035545349,1956,"{'default': {'policy_loss': -0.02968679554760456, 'vf_explained_var': 0.9772850871086121, 'vf_loss': 0.1262311339378357, 'kl': 0.010610225610435009, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.10343530774116516, 'entropy': 0.2731515169143677, 'cur_kl_coeff': 0.6494641900062561}, 'sample_time_ms': 44769.796, 'num_steps_trained': 2347200, 'grad_time_ms': 369.153, 'update_time_ms': 2.592, 'num_steps_sampled': 2347200, 'load_time_ms': 0.693}",66,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+80645.33762145042,292129,4.000577219787708,1200,cda-server-2,3056.444884300232,f93d3d6710754a149751678a58e67540,296,1757136093,80400,-7.614189713283363,2334315,{},10.157.146.2,False,{},2025-09-06_07-21-33,4.0574324324324325,2348400,3.9064990877504173,0,44.95091438293457,1957,"{'default': {'policy_loss': -0.03684951364994049, 'vf_explained_var': 0.8604439496994019, 'vf_loss': 1.0035700798034668, 'kl': 0.007329622749239206, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.9714809060096741, 'entropy': 0.32495829463005066, 'cur_kl_coeff': 0.6494641900062561}, 'sample_time_ms': 44777.296, 'num_steps_trained': 2348400, 'grad_time_ms': 368.356, 'update_time_ms': 2.652, 'num_steps_sampled': 2348400, 'load_time_ms': 0.692}",67,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+80691.15469193459,292429,4.000757901044883,1200,cda-server-2,3102.2619547843933,f93d3d6710754a149751678a58e67540,300,1757136139,81600,4.000139356522922,2334315,{},10.157.146.2,False,{},2025-09-06_07-22-19,4.0,2349600,4.000283034035936,0,45.81707048416138,1958,"{'default': {'policy_loss': -0.09620331972837448, 'vf_explained_var': 0.9997937083244324, 'vf_loss': 0.0011008874280378222, 'kl': 0.04100784659385681, 'cur_lr': 4.999999873689376e-05, 'total_loss': -0.06846931576728821, 'entropy': 0.307187557220459, 'cur_kl_coeff': 0.6494641900062561}, 'sample_time_ms': 44872.505, 'num_steps_trained': 2349600, 'grad_time_ms': 369.267, 'update_time_ms': 2.59, 'num_steps_sampled': 2349600, 'load_time_ms': 0.684}",68,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+80736.2824177742,292723,4.0006114939127055,1200,cda-server-2,3147.389680624008,f93d3d6710754a149751678a58e67540,294,1757136184,82800,-8.233461247026742,2334315,{},10.157.146.2,False,{},2025-09-06_07-23-04,4.081632653061225,2350800,3.8739161993055675,0,45.12772583961487,1959,"{'default': {'policy_loss': -0.04990503564476967, 'vf_explained_var': 0.8252518177032471, 'vf_loss': 1.2626980543136597, 'kl': 0.0071803429163992405, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.2197880744934082, 'entropy': 0.4750281870365143, 'cur_kl_coeff': 0.9741963148117065}, 'sample_time_ms': 44824.691, 'num_steps_trained': 2350800, 'grad_time_ms': 369.385, 'update_time_ms': 2.61, 'num_steps_sampled': 2350800, 'load_time_ms': 0.684}",69,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+80781.53182411194,293014,4.001326566152458,1200,cda-server-2,3192.639086961746,f93d3d6710754a149751678a58e67540,291,1757136229,84000,-56.38688341258208,2334315,{},10.157.146.2,False,{},2025-09-06_07-23-49,4.130584192439863,2352000,3.792769386370074,0,45.24940633773804,1960,"{'default': {'policy_loss': -0.05173424631357193, 'vf_explained_var': 0.6573089957237244, 'vf_loss': 18.229581832885742, 'kl': 0.005162788089364767, 'cur_lr': 4.999999873689376e-05, 'total_loss': 18.182876586914062, 'entropy': 0.609068751335144, 'cur_kl_coeff': 0.9741963148117065}, 'sample_time_ms': 44843.605, 'num_steps_trained': 2352000, 'grad_time_ms': 369.446, 'update_time_ms': 2.588, 'num_steps_sampled': 2352000, 'load_time_ms': 0.69}",70,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+80827.18427944183,293311,4.001530866180638,1200,cda-server-2,3238.2915422916412,f93d3d6710754a149751678a58e67540,297,1757136275,85200,-4.029014953734475,2334315,{},10.157.146.2,False,{},2025-09-06_07-24-35,4.043771043771044,2353200,3.932093054938497,0,45.65245532989502,1961,"{'default': {'policy_loss': -0.04342779889702797, 'vf_explained_var': 0.8767380118370056, 'vf_loss': 0.7657250761985779, 'kl': 0.018253877758979797, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.7400801181793213, 'entropy': 0.4196961522102356, 'cur_kl_coeff': 0.9741963148117065}, 'sample_time_ms': 44884.444, 'num_steps_trained': 2353200, 'grad_time_ms': 369.894, 'update_time_ms': 2.559, 'num_steps_sampled': 2353200, 'load_time_ms': 0.675}",71,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+80871.989518404,293607,4.000650813522304,1200,cda-server-2,3283.0967812538147,f93d3d6710754a149751678a58e67540,296,1757136320,86400,-11.706384688871754,2334315,{},10.157.146.2,False,{},2025-09-06_07-25-20,4.050675675675675,2354400,3.919909407940834,0,44.80523896217346,1962,"{'default': {'policy_loss': -0.03395366668701172, 'vf_explained_var': 0.8384443521499634, 'vf_loss': 1.2174572944641113, 'kl': 0.006137359421700239, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.189482569694519, 'entropy': 0.40185171365737915, 'cur_kl_coeff': 0.9741963148117065}, 'sample_time_ms': 44803.492, 'num_steps_trained': 2354400, 'grad_time_ms': 370.602, 'update_time_ms': 2.496, 'num_steps_sampled': 2354400, 'load_time_ms': 0.677}",72,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+80916.89137744904,293906,4.000954030009302,1200,cda-server-2,3327.9986402988434,f93d3d6710754a149751678a58e67540,299,1757136364,87600,-3.059391020646231,2334315,{},10.157.146.2,False,{},2025-09-06_07-26-04,4.013377926421405,2355600,3.976673875691138,0,44.90185904502869,1963,"{'default': {'policy_loss': -0.03322012722492218, 'vf_explained_var': 0.9688513875007629, 'vf_loss': 0.18517620861530304, 'kl': 0.006187082268297672, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.15798351168632507, 'entropy': 0.35884958505630493, 'cur_kl_coeff': 0.9741963148117065}, 'sample_time_ms': 44803.406, 'num_steps_trained': 2355600, 'grad_time_ms': 371.323, 'update_time_ms': 2.525, 'num_steps_sampled': 2355600, 'load_time_ms': 0.675}",73,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+80963.13478970528,294206,4.001220063955643,1200,cda-server-2,3374.2420525550842,f93d3d6710754a149751678a58e67540,300,1757136411,88800,4.000115396369512,2334315,{},10.157.146.2,False,{},2025-09-06_07-26-51,4.0,2356800,4.0002897006692715,0,46.243412256240845,1964,"{'default': {'policy_loss': -0.06925623118877411, 'vf_explained_var': 0.9984588623046875, 'vf_loss': 0.008427147753536701, 'kl': 0.029024489223957062, 'cur_lr': 4.999999873689376e-05, 'total_loss': -0.0325535349547863, 'entropy': 0.43847525119781494, 'cur_kl_coeff': 0.9741963148117065}, 'sample_time_ms': 44926.263, 'num_steps_trained': 2356800, 'grad_time_ms': 372.411, 'update_time_ms': 2.534, 'num_steps_sampled': 2356800, 'load_time_ms': 0.668}",74,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+81008.43823862076,294502,4.000592957254294,1200,cda-server-2,3419.545501470566,f93d3d6710754a149751678a58e67540,296,1757136456,90000,-12.393545927533392,2334315,{},10.157.146.2,False,{},2025-09-06_07-27-36,4.050675675675675,2358000,3.9245499128973407,0,45.30344891548157,1965,"{'default': {'policy_loss': -0.021732164546847343, 'vf_explained_var': 0.8450620770454407, 'vf_loss': 1.1866092681884766, 'kl': 0.015714457258582115, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.187840461730957, 'entropy': 0.48571333289146423, 'cur_kl_coeff': 1.461294412612915}, 'sample_time_ms': 44971.368, 'num_steps_trained': 2358000, 'grad_time_ms': 372.415, 'update_time_ms': 2.535, 'num_steps_sampled': 2358000, 'load_time_ms': 0.668}",75,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+81053.81834578514,294798,4.000742469305129,1200,cda-server-2,3464.9256086349487,f93d3d6710754a149751678a58e67540,296,1757136501,91200,-21.28355509080636,2334315,{},10.157.146.2,False,{},2025-09-06_07-28-21,4.054054054054054,2359200,3.9148722320843037,0,45.380107164382935,1966,"{'default': {'policy_loss': -0.029159747064113617, 'vf_explained_var': 0.8642603158950806, 'vf_loss': 2.2058730125427246, 'kl': 0.002450676402077079, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.1802947521209717, 'entropy': 0.5451985001564026, 'cur_kl_coeff': 1.461294412612915}, 'sample_time_ms': 44962.418, 'num_steps_trained': 2359200, 'grad_time_ms': 371.155, 'update_time_ms': 2.54, 'num_steps_sampled': 2359200, 'load_time_ms': 0.661}",76,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+81099.60913443565,295098,4.000698897627966,1200,cda-server-2,3510.7163972854614,f93d3d6710754a149751678a58e67540,300,1757136547,92400,4.0001338375724185,2334315,{},10.157.146.2,False,{},2025-09-06_07-29-07,4.0,2360400,4.000287592908687,0,45.790788650512695,1967,"{'default': {'policy_loss': -0.05698753893375397, 'vf_explained_var': 0.998769998550415, 'vf_loss': 0.006616618484258652, 'kl': 0.05331579968333244, 'cur_lr': 4.999999873689376e-05, 'total_loss': -0.011415887624025345, 'entropy': 0.3725382089614868, 'cur_kl_coeff': 0.7306472063064575}, 'sample_time_ms': 45047.67, 'num_steps_trained': 2360400, 'grad_time_ms': 369.967, 'update_time_ms': 2.495, 'num_steps_sampled': 2360400, 'load_time_ms': 0.656}",77,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+81145.66139984131,295398,4.0008425145368065,1200,cda-server-2,3556.7686626911163,f93d3d6710754a149751678a58e67540,300,1757136593,93600,4.000122166393947,2334315,{},10.157.146.2,False,{},2025-09-06_07-29-53,4.0,2361600,4.000281535957542,0,46.05226540565491,1968,"{'default': {'policy_loss': -0.09189525246620178, 'vf_explained_var': 0.9992085695266724, 'vf_loss': 0.004301016218960285, 'kl': 0.04073337838053703, 'cur_lr': 4.999999873689376e-05, 'total_loss': -0.04295165836811066, 'entropy': 0.41804736852645874, 'cur_kl_coeff': 1.095970869064331}, 'sample_time_ms': 45069.926, 'num_steps_trained': 2361600, 'grad_time_ms': 371.232, 'update_time_ms': 2.52, 'num_steps_sampled': 2361600, 'load_time_ms': 0.666}",78,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+81191.74299430847,295691,4.000695365116343,1200,cda-server-2,3602.8502571582794,f93d3d6710754a149751678a58e67540,293,1757136639,94800,-15.206702652554387,2334315,{},10.157.146.2,False,{},2025-09-06_07-30-39,4.092150170648464,2362800,3.853626775016853,0,46.081594467163086,1969,"{'default': {'policy_loss': -0.037639468908309937, 'vf_explained_var': 0.7693374156951904, 'vf_loss': 2.1989870071411133, 'kl': 0.008220916613936424, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.1748621463775635, 'entropy': 0.46398109197616577, 'cur_kl_coeff': 1.6439563035964966}, 'sample_time_ms': 45166.774, 'num_steps_trained': 2362800, 'grad_time_ms': 369.721, 'update_time_ms': 2.526, 'num_steps_sampled': 2362800, 'load_time_ms': 0.673}",79,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+81237.52054667473,295982,4.000954372564991,1200,cda-server-2,3648.627809524536,f93d3d6710754a149751678a58e67540,291,1757136685,96000,-24.41603394316521,2334315,{},10.157.146.2,False,{},2025-09-06_07-31-25,4.140893470790378,2364000,3.7685472579820893,0,45.777552366256714,1970,"{'default': {'policy_loss': -0.05264470353722572, 'vf_explained_var': 0.7612555027008057, 'vf_loss': 3.8969335556030273, 'kl': 0.006585957482457161, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.8551156520843506, 'entropy': 0.6120094060897827, 'cur_kl_coeff': 1.6439563035964966}, 'sample_time_ms': 45220.031, 'num_steps_trained': 2364000, 'grad_time_ms': 369.28, 'update_time_ms': 2.545, 'num_steps_sampled': 2364000, 'load_time_ms': 0.668}",80,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+81282.64838266373,296275,4.0012105234269395,1200,cda-server-2,3693.7556455135345,f93d3d6710754a149751678a58e67540,293,1757136730,97200,-9.048760271861006,2334315,{},10.157.146.2,False,{},2025-09-06_07-32-10,4.092150170648464,2365200,3.859507521768796,0,45.12783598899841,1971,"{'default': {'policy_loss': -0.043530162423849106, 'vf_explained_var': 0.790962278842926, 'vf_loss': 1.6175280809402466, 'kl': 0.006706012412905693, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.585022211074829, 'entropy': 0.5600005984306335, 'cur_kl_coeff': 1.6439563035964966}, 'sample_time_ms': 45170.099, 'num_steps_trained': 2365200, 'grad_time_ms': 366.895, 'update_time_ms': 2.505, 'num_steps_sampled': 2365200, 'load_time_ms': 0.675}",81,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+81327.62056970596,296565,4.0012233808663025,1200,cda-server-2,3738.727832555771,f93d3d6710754a149751678a58e67540,290,1757136775,98400,-13.825898004700395,2334315,{},10.157.146.2,False,{},2025-09-06_07-32-55,4.103448275862069,2366400,3.8318114191970993,0,44.97218704223633,1972,"{'default': {'policy_loss': -0.043320607393980026, 'vf_explained_var': 0.6848773956298828, 'vf_loss': 4.118960380554199, 'kl': 0.010375362820923328, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4.0926971435546875, 'entropy': 0.6147373914718628, 'cur_kl_coeff': 1.6439563035964966}, 'sample_time_ms': 45185.529, 'num_steps_trained': 2366400, 'grad_time_ms': 368.195, 'update_time_ms': 2.507, 'num_steps_sampled': 2366400, 'load_time_ms': 0.679}",82,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+81372.94980478287,296859,4.001439663413715,1200,cda-server-2,3784.057067632675,f93d3d6710754a149751678a58e67540,294,1757136821,99600,-15.066366752358782,2334315,{},10.157.146.2,False,{},2025-09-06_07-33-41,4.1020408163265305,2367600,3.8427619897074137,0,45.3292350769043,1973,"{'default': {'policy_loss': -0.052471522241830826, 'vf_explained_var': 0.8252468109130859, 'vf_loss': 1.3482385873794556, 'kl': 0.003053986467421055, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.3007875680923462, 'entropy': 0.5000011920928955, 'cur_kl_coeff': 1.6439563035964966}, 'sample_time_ms': 45228.881, 'num_steps_trained': 2367600, 'grad_time_ms': 367.598, 'update_time_ms': 2.548, 'num_steps_sampled': 2367600, 'load_time_ms': 0.688}",83,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+81417.67633962631,297156,4.000720700877869,1200,cda-server-2,3828.78360247612,f93d3d6710754a149751678a58e67540,297,1757136865,100800,-4.106092257301674,2334315,{},10.157.146.2,False,{},2025-09-06_07-34-25,4.05050505050505,2368800,3.918771320230195,0,44.726534843444824,1974,"{'default': {'policy_loss': -0.036373868584632874, 'vf_explained_var': 0.8841440081596375, 'vf_loss': 0.737149715423584, 'kl': 0.02303309552371502, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.7197085618972778, 'entropy': 0.4698549807071686, 'cur_kl_coeff': 0.8219781517982483}, 'sample_time_ms': 45078.704, 'num_steps_trained': 2368800, 'grad_time_ms': 366.118, 'update_time_ms': 2.523, 'num_steps_sampled': 2368800, 'load_time_ms': 0.707}",84,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+81462.55526900291,297453,4.000781819009143,1200,cda-server-2,3873.662531852722,f93d3d6710754a149751678a58e67540,297,1757136910,102000,-4.072339834285394,2334315,{},10.157.146.2,False,{},2025-09-06_07-35-10,4.043771043771044,2370000,3.932354232311629,0,44.87892937660217,1975,"{'default': {'policy_loss': -0.04519195482134819, 'vf_explained_var': 0.9094744920730591, 'vf_loss': 0.5577518939971924, 'kl': 0.009429728612303734, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.5241864323616028, 'entropy': 0.5178623199462891, 'cur_kl_coeff': 1.2329672574996948}, 'sample_time_ms': 45034.785, 'num_steps_trained': 2370000, 'grad_time_ms': 367.578, 'update_time_ms': 2.531, 'num_steps_sampled': 2370000, 'load_time_ms': 0.708}",85,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+81507.67700052261,297753,4.001170166389034,1200,cda-server-2,3918.7842633724213,f93d3d6710754a149751678a58e67540,300,1757136955,103200,4.000134452245849,2334315,{},10.157.146.2,False,{},2025-09-06_07-35-55,4.0,2371200,4.000289533553502,0,45.1217315196991,1976,"{'default': {'policy_loss': -0.06922439485788345, 'vf_explained_var': 0.9993693828582764, 'vf_loss': 0.003405606374144554, 'kl': 0.026870639994740486, 'cur_lr': 4.999999873689376e-05, 'total_loss': -0.03268817067146301, 'entropy': 0.4098488688468933, 'cur_kl_coeff': 1.2329672574996948}, 'sample_time_ms': 45007.986, 'num_steps_trained': 2371200, 'grad_time_ms': 368.604, 'update_time_ms': 2.525, 'num_steps_sampled': 2371200, 'load_time_ms': 0.718}",86,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+81553.98738646507,298050,4.00119259440109,1200,cda-server-2,3965.0946493148804,f93d3d6710754a149751678a58e67540,297,1757137002,104400,-4.06872357339001,2334315,{},10.157.146.2,False,{},2025-09-06_07-36-42,4.033670033670034,2372400,3.9480534807335355,0,46.310385942459106,1977,"{'default': {'policy_loss': -0.03145931661128998, 'vf_explained_var': 0.9457249045372009, 'vf_loss': 0.34149572253227234, 'kl': 0.002534060040488839, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.31472301483154297, 'entropy': 0.4204995632171631, 'cur_kl_coeff': 1.8494508266448975}, 'sample_time_ms': 45057.801, 'num_steps_trained': 2372400, 'grad_time_ms': 370.721, 'update_time_ms': 2.512, 'num_steps_sampled': 2372400, 'load_time_ms': 0.727}",87,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+81599.8007376194,298346,4.000940658807263,1200,cda-server-2,4010.9080004692078,f93d3d6710754a149751678a58e67540,296,1757137048,105600,-7.289564614775099,2334315,{},10.157.146.2,False,{},2025-09-06_07-37-28,4.0608108108108105,2373600,3.9042340943669904,0,45.81335115432739,1978,"{'default': {'policy_loss': -0.036432258784770966, 'vf_explained_var': 0.8569827079772949, 'vf_loss': 1.0427474975585938, 'kl': 0.006820248439908028, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.0126221179962158, 'entropy': 0.5052697658538818, 'cur_kl_coeff': 0.9247254133224487}, 'sample_time_ms': 45034.339, 'num_steps_trained': 2373600, 'grad_time_ms': 370.244, 'update_time_ms': 2.536, 'num_steps_sampled': 2373600, 'load_time_ms': 0.732}",88,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+81645.65672564507,298641,4.000851856585859,1200,cda-server-2,4056.763988494873,f93d3d6710754a149751678a58e67540,295,1757137093,106800,-21.898422070010273,2334315,{},10.157.146.2,False,{},2025-09-06_07-38-13,4.057627118644068,2374800,3.912486863949354,0,45.85598802566528,1979,"{'default': {'policy_loss': -0.026750722900032997, 'vf_explained_var': 0.8275781273841858, 'vf_loss': 2.4506850242614746, 'kl': 0.0027596894651651382, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.426486015319824, 'entropy': 0.498492568731308, 'cur_kl_coeff': 0.9247254133224487}, 'sample_time_ms': 45010.217, 'num_steps_trained': 2374800, 'grad_time_ms': 371.863, 'update_time_ms': 2.512, 'num_steps_sampled': 2374800, 'load_time_ms': 0.727}",89,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+81690.80441737175,298925,4.000635422934071,1200,cda-server-2,4101.911680221558,f93d3d6710754a149751678a58e67540,284,1757137139,108000,-29.767957326918776,2334315,{},10.157.146.2,False,{},2025-09-06_07-38-59,4.21830985915493,2376000,3.651607882421344,0,45.14769172668457,1980,"{'default': {'policy_loss': -0.05964251235127449, 'vf_explained_var': 0.5850241184234619, 'vf_loss': 8.50717830657959, 'kl': 0.022393517196178436, 'cur_lr': 4.999999873689376e-05, 'total_loss': 8.457889556884766, 'entropy': 0.7954303026199341, 'cur_kl_coeff': 0.46236270666122437}, 'sample_time_ms': 44947.72, 'num_steps_trained': 2376000, 'grad_time_ms': 371.367, 'update_time_ms': 2.512, 'num_steps_sampled': 2376000, 'load_time_ms': 0.722}",90,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+81736.50178360939,299223,4.00065846116212,1200,cda-server-2,4147.609046459198,f93d3d6710754a149751678a58e67540,298,1757137184,109200,-2.0722177591786917,2334315,{},10.157.146.2,False,{},2025-09-06_07-39-44,4.026845637583893,2377200,3.9595454878603915,0,45.69736623764038,1981,"{'default': {'policy_loss': -0.026591012254357338, 'vf_explained_var': 0.9423506855964661, 'vf_loss': 0.3349798917770386, 'kl': 0.025397397577762604, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.3260031044483185, 'entropy': 0.42836061120033264, 'cur_kl_coeff': 0.6935440301895142}, 'sample_time_ms': 45003.105, 'num_steps_trained': 2377200, 'grad_time_ms': 372.883, 'update_time_ms': 2.511, 'num_steps_sampled': 2377200, 'load_time_ms': 0.725}",91,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+81781.98025631905,299521,4.000593179143975,1200,cda-server-2,4193.087519168854,f93d3d6710754a149751678a58e67540,298,1757137230,110400,-8.307776084572488,2334315,{},10.157.146.2,False,{},2025-09-06_07-40-30,4.0369127516778525,2378400,3.9454075718199237,0,45.47847270965576,1982,"{'default': {'policy_loss': -0.039101384580135345, 'vf_explained_var': 0.88761967420578, 'vf_loss': 0.7548852562904358, 'kl': 0.005714177619665861, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.7217283844947815, 'entropy': 0.47060292959213257, 'cur_kl_coeff': 1.040316104888916}, 'sample_time_ms': 45054.248, 'num_steps_trained': 2378400, 'grad_time_ms': 372.383, 'update_time_ms': 2.51, 'num_steps_sampled': 2378400, 'load_time_ms': 0.729}",92,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+81827.59995222092,299819,4.002136998628364,1200,cda-server-2,4238.7072150707245,f93d3d6710754a149751678a58e67540,298,1757137276,111600,-3.3028551891774676,2334315,{},10.157.146.2,False,{},2025-09-06_07-41-16,4.016778523489933,2379600,3.9757825703794256,0,45.61969590187073,1983,"{'default': {'policy_loss': -0.032167427241802216, 'vf_explained_var': 0.9828106760978699, 'vf_loss': 0.10855695605278015, 'kl': 0.004344421438872814, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.08090910315513611, 'entropy': 0.3937638998031616, 'cur_kl_coeff': 1.040316104888916}, 'sample_time_ms': 45084.354, 'num_steps_trained': 2379600, 'grad_time_ms': 371.365, 'update_time_ms': 2.442, 'num_steps_sampled': 2379600, 'load_time_ms': 0.734}",93,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+81873.3007953167,300112,4.000544827929508,1200,cda-server-2,4284.408058166504,f93d3d6710754a149751678a58e67540,293,1757137321,112800,-19.95969582293856,2334315,{},10.157.146.2,False,{},2025-09-06_07-42-01,4.09556313993174,2380800,3.8526357377665077,0,45.70084309577942,1984,"{'default': {'policy_loss': -0.0372314490377903, 'vf_explained_var': 0.7577617168426514, 'vf_loss': 3.3095157146453857, 'kl': 0.012232199311256409, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.2786471843719482, 'entropy': 0.5464284420013428, 'cur_kl_coeff': 0.520158052444458}, 'sample_time_ms': 45179.589, 'num_steps_trained': 2380800, 'grad_time_ms': 373.524, 'update_time_ms': 2.475, 'num_steps_sampled': 2380800, 'load_time_ms': 0.724}",94,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+81918.52243447304,300412,4.000813260027138,1200,cda-server-2,4329.6296973228455,f93d3d6710754a149751678a58e67540,300,1757137366,114000,4.000136338857904,2334315,{},10.157.146.2,False,{},2025-09-06_07-42-46,4.0,2382000,4.000274670227459,0,45.22163915634155,1985,"{'default': {'policy_loss': -0.09531168639659882, 'vf_explained_var': 0.9994712471961975, 'vf_loss': 0.0028501655906438828, 'kl': 0.04471847042441368, 'cur_lr': 4.999999873689376e-05, 'total_loss': -0.06920083612203598, 'entropy': 0.3481353521347046, 'cur_kl_coeff': 0.520158052444458}, 'sample_time_ms': 45212.281, 'num_steps_trained': 2382000, 'grad_time_ms': 374.995, 'update_time_ms': 2.541, 'num_steps_sampled': 2382000, 'load_time_ms': 0.73}",95,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+81963.54666638374,300704,4.001224407666905,1200,cda-server-2,4374.653929233551,f93d3d6710754a149751678a58e67540,292,1757137411,115200,-20.229421532710447,2334315,{},10.157.146.2,False,{},2025-09-06_07-43-31,4.113013698630137,2383200,3.819232598508527,0,45.024231910705566,1986,"{'default': {'policy_loss': -0.031148234382271767, 'vf_explained_var': 0.7100703716278076, 'vf_loss': 3.649077892303467, 'kl': 0.15313419699668884, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.737410545349121, 'entropy': 0.6730252504348755, 'cur_kl_coeff': 0.780237078666687}, 'sample_time_ms': 45202.443, 'num_steps_trained': 2383200, 'grad_time_ms': 375.002, 'update_time_ms': 2.549, 'num_steps_sampled': 2383200, 'load_time_ms': 0.721}",96,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+82008.4764444828,300970,4.000706284678912,1200,cda-server-2,4419.583707332611,f93d3d6710754a149751678a58e67540,266,1757137456,116400,-36.857725181479594,2334315,{},10.157.146.2,False,{},2025-09-06_07-44-16,4.454887218045113,2384400,3.278429938116836,0,44.92977809906006,1987,"{'default': {'policy_loss': -0.08262643963098526, 'vf_explained_var': 0.46951109170913696, 'vf_loss': 16.33129119873047, 'kl': 0.015210635028779507, 'cur_lr': 4.999999873689376e-05, 'total_loss': 16.266468048095703, 'entropy': 1.123708724975586, 'cur_kl_coeff': 1.1703555583953857}, 'sample_time_ms': 45066.575, 'num_steps_trained': 2384400, 'grad_time_ms': 372.828, 'update_time_ms': 2.595, 'num_steps_sampled': 2384400, 'load_time_ms': 0.708}",97,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+82054.68396162987,301239,4.000702463573666,1200,cda-server-2,4465.791224479675,f93d3d6710754a149751678a58e67540,269,1757137503,117600,-22.155487922249435,2334315,{},10.157.146.2,False,{},2025-09-06_07-45-03,4.516728624535316,2385600,3.190671352224867,0,46.20751714706421,1988,"{'default': {'policy_loss': -0.07735555619001389, 'vf_explained_var': 0.4894443154335022, 'vf_loss': 10.178112983703613, 'kl': 0.01241153571754694, 'cur_lr': 4.999999873689376e-05, 'total_loss': 10.115283966064453, 'entropy': 0.987116277217865, 'cur_kl_coeff': 1.1703555583953857}, 'sample_time_ms': 45106.158, 'num_steps_trained': 2385600, 'grad_time_ms': 372.734, 'update_time_ms': 2.557, 'num_steps_sampled': 2385600, 'load_time_ms': 0.7}",98,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+82099.47482228279,301499,4.000646691887593,1200,cda-server-2,4510.582085132599,f93d3d6710754a149751678a58e67540,260,1757137547,118800,-19.9632519235374,2334315,{},10.157.146.2,False,{},2025-09-06_07-45-47,4.611538461538461,2386800,3.0420275608978944,0,44.790860652923584,1989,"{'default': {'policy_loss': -0.08124342560768127, 'vf_explained_var': 0.3936111330986023, 'vf_loss': 14.012843132019043, 'kl': 0.016526374965906143, 'cur_lr': 4.999999873689376e-05, 'total_loss': 13.95094108581543, 'entropy': 1.157875895500183, 'cur_kl_coeff': 1.1703555583953857}, 'sample_time_ms': 44999.641, 'num_steps_trained': 2386800, 'grad_time_ms': 372.759, 'update_time_ms': 2.573, 'num_steps_sampled': 2386800, 'load_time_ms': 0.693}",99,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+82144.33546495438,301779,4.0006973554880165,1200,cda-server-2,4555.442727804184,f93d3d6710754a149751678a58e67540,280,1757137592,120000,-21.183710237658158,2334315,{},10.157.146.2,False,{},2025-09-06_07-46-32,4.289285714285715,2388000,3.5387318829544823,0,44.86064267158508,1990,"{'default': {'policy_loss': -0.06472590565681458, 'vf_explained_var': 0.5696393251419067, 'vf_loss': 5.79875373840332, 'kl': 0.0154854916036129, 'cur_lr': 4.999999873689376e-05, 'total_loss': 5.752150535583496, 'entropy': 0.8195579648017883, 'cur_kl_coeff': 1.1703555583953857}, 'sample_time_ms': 44972.585, 'num_steps_trained': 2388000, 'grad_time_ms': 371.162, 'update_time_ms': 2.601, 'num_steps_sampled': 2388000, 'load_time_ms': 0.684}",100,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+82189.50781917572,302058,4.000767931572924,1200,cda-server-2,4600.615082025528,f93d3d6710754a149751678a58e67540,279,1757137638,121200,-44.077395466310804,2334315,{},10.157.146.2,False,{},2025-09-06_07-47-18,4.311827956989247,2389200,3.503190406267363,0,45.172354221343994,1991,"{'default': {'policy_loss': -0.05920284986495972, 'vf_explained_var': 0.5099558234214783, 'vf_loss': 17.474754333496094, 'kl': 0.009221025742590427, 'cur_lr': 4.999999873689376e-05, 'total_loss': 17.426342010498047, 'entropy': 0.7933295369148254, 'cur_kl_coeff': 1.1703555583953857}, 'sample_time_ms': 44920.26, 'num_steps_trained': 2389200, 'grad_time_ms': 371.001, 'update_time_ms': 2.601, 'num_steps_sampled': 2389200, 'load_time_ms': 0.679}",101,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+82234.73605680466,302350,4.0007060854594245,1200,cda-server-2,4645.843319654465,f93d3d6710754a149751678a58e67540,292,1757137683,122400,-14.909546196790497,2334315,{},10.157.146.2,False,{},2025-09-06_07-48-03,4.109589041095891,2390400,3.826316302277962,0,45.22823762893677,1992,"{'default': {'policy_loss': -0.055284976959228516, 'vf_explained_var': 0.8139722347259521, 'vf_loss': 1.9173215627670288, 'kl': 0.008153079077601433, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.8715786933898926, 'entropy': 0.6178774237632751, 'cur_kl_coeff': 1.1703555583953857}, 'sample_time_ms': 44897.302, 'num_steps_trained': 2390400, 'grad_time_ms': 368.962, 'update_time_ms': 2.606, 'num_steps_sampled': 2390400, 'load_time_ms': 0.674}",102,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+82279.63206481934,302640,4.001265667778461,1200,cda-server-2,4690.739327669144,f93d3d6710754a149751678a58e67540,290,1757137728,123600,-17.628140013295095,2334315,{},10.157.146.2,False,{},2025-09-06_07-48-48,4.141379310344828,2391600,3.7826678299367953,0,44.896008014678955,1993,"{'default': {'policy_loss': -0.04306749626994133, 'vf_explained_var': 0.691332995891571, 'vf_loss': 3.3736588954925537, 'kl': 0.015397515147924423, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.3486123085021973, 'entropy': 0.7419157028198242, 'cur_kl_coeff': 1.1703555583953857}, 'sample_time_ms': 44823.739, 'num_steps_trained': 2391600, 'grad_time_ms': 370.173, 'update_time_ms': 2.607, 'num_steps_sampled': 2391600, 'load_time_ms': 0.673}",103,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+82324.2477838993,302932,4.000770945948425,1200,cda-server-2,4735.355046749115,f93d3d6710754a149751678a58e67540,292,1757137772,124800,-35.8980427081041,2334315,{},10.157.146.2,False,{},2025-09-06_07-49-32,4.1061643835616435,2392800,3.831353586767465,0,44.61571907997131,1994,"{'default': {'policy_loss': -0.037773825228214264, 'vf_explained_var': 0.6679837703704834, 'vf_loss': 6.888437747955322, 'kl': 0.007203092332929373, 'cur_lr': 4.999999873689376e-05, 'total_loss': 6.859093189239502, 'entropy': 0.6668012142181396, 'cur_kl_coeff': 1.1703555583953857}, 'sample_time_ms': 44716.067, 'num_steps_trained': 2392800, 'grad_time_ms': 369.34, 'update_time_ms': 2.595, 'num_steps_sampled': 2392800, 'load_time_ms': 0.66}",104,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+82369.30378198624,303224,4.000978054754304,1200,cda-server-2,4780.411044836044,f93d3d6710754a149751678a58e67540,292,1757137817,126000,-15.748235444215961,2334315,{},10.157.146.2,False,{},2025-09-06_07-50-17,4.113013698630137,2394000,3.825326998796706,0,45.05599808692932,1995,"{'default': {'policy_loss': -0.04626782611012459, 'vf_explained_var': 0.7332943677902222, 'vf_loss': 2.9456987380981445, 'kl': 0.013389070518314838, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.9151008129119873, 'entropy': 0.5995011329650879, 'cur_kl_coeff': 1.1703555583953857}, 'sample_time_ms': 44702.594, 'num_steps_trained': 2394000, 'grad_time_ms': 366.312, 'update_time_ms': 2.588, 'num_steps_sampled': 2394000, 'load_time_ms': 0.648}",105,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+82414.33964014053,303513,4.000639110252267,1200,cda-server-2,4825.446902990341,f93d3d6710754a149751678a58e67540,289,1757137862,127200,-27.751827025859868,2334315,{},10.157.146.2,False,{},2025-09-06_07-51-02,4.1211072664359865,2395200,3.8106677575046817,0,45.035858154296875,1996,"{'default': {'policy_loss': -0.051772359758615494, 'vf_explained_var': 0.6674601435661316, 'vf_loss': 5.800360202789307, 'kl': 0.00934662576764822, 'cur_lr': 4.999999873689376e-05, 'total_loss': 5.759527683258057, 'entropy': 0.6709542274475098, 'cur_kl_coeff': 1.1703555583953857}, 'sample_time_ms': 44703.15, 'num_steps_trained': 2395200, 'grad_time_ms': 366.989, 'update_time_ms': 2.596, 'num_steps_sampled': 2395200, 'load_time_ms': 0.659}",106,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+82459.64275050163,303810,4.0011189449049525,1200,cda-server-2,4870.75001335144,f93d3d6710754a149751678a58e67540,297,1757137908,128400,-8.988834377887134,2334315,{},10.157.146.2,False,{},2025-09-06_07-51-48,4.070707070707071,2396400,3.8880031453391197,0,45.30311036109924,1997,"{'default': {'policy_loss': -0.03489990532398224, 'vf_explained_var': 0.8699820041656494, 'vf_loss': 0.9013018012046814, 'kl': 0.0122549869120121, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.8807446956634521, 'entropy': 0.4708782434463501, 'cur_kl_coeff': 1.1703555583953857}, 'sample_time_ms': 44738.348, 'num_steps_trained': 2396400, 'grad_time_ms': 369.018, 'update_time_ms': 2.578, 'num_steps_sampled': 2396400, 'load_time_ms': 0.676}",107,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+82505.90404701233,304096,4.000753137535788,1200,cda-server-2,4917.011309862137,f93d3d6710754a149751678a58e67540,286,1757137954,129600,-28.19636289978729,2334315,{},10.157.146.2,False,{},2025-09-06_07-52-34,4.181818181818182,2397600,3.7182720398783795,0,46.26129651069641,1998,"{'default': {'policy_loss': -0.05252446234226227, 'vf_explained_var': 0.673977255821228, 'vf_loss': 6.056844711303711, 'kl': 0.006788196973502636, 'cur_lr': 4.999999873689376e-05, 'total_loss': 6.012264728546143, 'entropy': 0.7686097621917725, 'cur_kl_coeff': 1.1703555583953857}, 'sample_time_ms': 44745.885, 'num_steps_trained': 2397600, 'grad_time_ms': 366.812, 'update_time_ms': 2.609, 'num_steps_sampled': 2397600, 'load_time_ms': 0.676}",108,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+82551.58247995377,304391,4.000862728434092,1200,cda-server-2,4962.689742803574,f93d3d6710754a149751678a58e67540,295,1757138000,130800,-11.934375775535951,2334315,{},10.157.146.2,False,{},2025-09-06_07-53-20,4.057627118644068,2398800,3.912041260886718,0,45.67843294143677,1999,"{'default': {'policy_loss': -0.034749992191791534, 'vf_explained_var': 0.896076500415802, 'vf_loss': 0.7570851445198059, 'kl': 0.011205385439097881, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.735449492931366, 'entropy': 0.5245682001113892, 'cur_kl_coeff': 1.1703555583953857}, 'sample_time_ms': 44834.087, 'num_steps_trained': 2398800, 'grad_time_ms': 367.347, 'update_time_ms': 2.622, 'num_steps_sampled': 2398800, 'load_time_ms': 0.684}",109,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+82597.7020521164,304691,4.001846275368329,1200,cda-server-2,5008.809314966202,f93d3d6710754a149751678a58e67540,300,1757138046,132000,4.000120155693723,2334315,{},10.157.146.2,False,{},2025-09-06_07-54-06,4.0,2400000,4.000292318562521,0,46.119572162628174,2000,"{'default': {'policy_loss': -0.06568039953708649, 'vf_explained_var': 0.9986572265625, 'vf_loss': 0.007318898104131222, 'kl': 0.030586685985326767, 'cur_lr': 4.999999873689376e-05, 'total_loss': -0.022564202547073364, 'entropy': 0.4760631322860718, 'cur_kl_coeff': 1.1703555583953857}, 'sample_time_ms': 44957.804, 'num_steps_trained': 2400000, 'grad_time_ms': 369.46, 'update_time_ms': 2.614, 'num_steps_sampled': 2400000, 'load_time_ms': 0.707}",110,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+82643.40201067924,304986,4.000753388452368,1200,cda-server-2,5054.509273529053,f93d3d6710754a149751678a58e67540,295,1757138092,133200,-23.661219575345264,2334315,{},10.157.146.2,False,{},2025-09-06_07-54-52,4.071186440677966,2401200,3.8858396922261997,0,45.69995856285095,2001,"{'default': {'policy_loss': -0.03755776956677437, 'vf_explained_var': 0.7542658448219299, 'vf_loss': 3.2518739700317383, 'kl': 0.00408996781334281, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.221496105194092, 'entropy': 0.6532629728317261, 'cur_kl_coeff': 1.7555333375930786}, 'sample_time_ms': 45011.906, 'num_steps_trained': 2401200, 'grad_time_ms': 368.099, 'update_time_ms': 2.641, 'num_steps_sampled': 2401200, 'load_time_ms': 0.702}",111,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+82688.17433977127,305274,4.00065775387212,1200,cda-server-2,5099.2816026210785,f93d3d6710754a149751678a58e67540,288,1757138136,134400,-25.182292773834234,2334315,{},10.157.146.2,False,{},2025-09-06_07-55-36,4.184027777777778,2402400,3.7131765129983094,0,44.77232909202576,2002,"{'default': {'policy_loss': -0.04921453073620796, 'vf_explained_var': 0.6271233558654785, 'vf_loss': 7.335347652435303, 'kl': 0.012359431013464928, 'cur_lr': 4.999999873689376e-05, 'total_loss': 7.296980857849121, 'entropy': 0.8291959762573242, 'cur_kl_coeff': 0.8777666687965393}, 'sample_time_ms': 44964.642, 'num_steps_trained': 2402400, 'grad_time_ms': 369.715, 'update_time_ms': 2.63, 'num_steps_sampled': 2402400, 'load_time_ms': 0.702}",112,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+82733.16374874115,305564,4.001118352479068,1200,cda-server-2,5144.271011590958,f93d3d6710754a149751678a58e67540,290,1757138181,135600,-12.094341848228492,2334315,{},10.157.146.2,False,{},2025-09-06_07-56-21,4.127586206896551,2403600,3.794891828019405,0,44.98940896987915,2003,"{'default': {'policy_loss': -0.04563130438327789, 'vf_explained_var': 0.7058207988739014, 'vf_loss': 2.93339204788208, 'kl': 0.009374077431857586, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.895988702774048, 'entropy': 0.6633226871490479, 'cur_kl_coeff': 0.8777666687965393}, 'sample_time_ms': 44975.862, 'num_steps_trained': 2403600, 'grad_time_ms': 367.826, 'update_time_ms': 2.668, 'num_steps_sampled': 2403600, 'load_time_ms': 0.697}",113,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+82778.85336184502,305856,4.000665672425365,1200,cda-server-2,5189.960624694824,f93d3d6710754a149751678a58e67540,292,1757138227,136800,-12.746636035886652,2334315,{},10.157.146.2,False,{},2025-09-06_07-57-07,4.0993150684931505,2404800,3.839344695921101,0,45.68961310386658,2004,"{'default': {'policy_loss': -0.04290261119604111, 'vf_explained_var': 0.7571626305580139, 'vf_loss': 2.0143773555755615, 'kl': 0.023290950804948807, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.9919188022613525, 'entropy': 0.6171466112136841, 'cur_kl_coeff': 0.8777666687965393}, 'sample_time_ms': 45083.071, 'num_steps_trained': 2404800, 'grad_time_ms': 367.924, 'update_time_ms': 2.746, 'num_steps_sampled': 2404800, 'load_time_ms': 0.696}",114,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+82823.92675685883,306154,4.000798852799832,1200,cda-server-2,5235.034019708633,f93d3d6710754a149751678a58e67540,298,1757138272,138000,-4.061035955668986,2334315,{},10.157.146.2,False,{},2025-09-06_07-57-52,4.0369127516778525,2406000,3.939621902645039,0,45.073395013809204,2005,"{'default': {'policy_loss': -0.04331756383180618, 'vf_explained_var': 0.9337580800056458, 'vf_loss': 0.3880424201488495, 'kl': 0.005259757861495018, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.3516501188278198, 'entropy': 0.6199597716331482, 'cur_kl_coeff': 1.3166500329971313}, 'sample_time_ms': 45084.517, 'num_steps_trained': 2406000, 'grad_time_ms': 368.213, 'update_time_ms': 2.715, 'num_steps_sampled': 2406000, 'load_time_ms': 0.719}",115,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+82869.10978031158,306445,4.001240437844054,1200,cda-server-2,5280.217043161392,f93d3d6710754a149751678a58e67540,291,1757138317,139200,-18.51037322198989,2334315,{},10.157.146.2,False,{},2025-09-06_07-58-37,4.1271477663230245,2407200,3.803080229098942,0,45.18302345275879,2006,"{'default': {'policy_loss': -0.04054705798625946, 'vf_explained_var': 0.7745321393013, 'vf_loss': 3.261953830718994, 'kl': 0.009345419704914093, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.2337114810943604, 'entropy': 0.6902719736099243, 'cur_kl_coeff': 1.3166500329971313}, 'sample_time_ms': 45100.791, 'num_steps_trained': 2407200, 'grad_time_ms': 366.671, 'update_time_ms': 2.697, 'num_steps_sampled': 2407200, 'load_time_ms': 0.71}",116,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+82914.18636965752,306740,4.00115789828598,1200,cda-server-2,5325.293632507324,f93d3d6710754a149751678a58e67540,295,1757138362,140400,-20.46894375193675,2334315,{},10.157.146.2,False,{},2025-09-06_07-59-22,4.071186440677966,2408400,3.8865641046723627,0,45.07658934593201,2007,"{'default': {'policy_loss': -0.03972798213362694, 'vf_explained_var': 0.8960410356521606, 'vf_loss': 1.3819620609283447, 'kl': 0.007114920299500227, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.3516017198562622, 'entropy': 0.6864114999771118, 'cur_kl_coeff': 1.3166500329971313}, 'sample_time_ms': 45078.333, 'num_steps_trained': 2408400, 'grad_time_ms': 366.515, 'update_time_ms': 2.693, 'num_steps_sampled': 2408400, 'load_time_ms': 0.729}",117,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+82959.72809362411,307030,4.000797068174938,1200,cda-server-2,5370.835356473923,f93d3d6710754a149751678a58e67540,290,1757138408,141600,-30.81029284387312,2334315,{},10.157.146.2,False,{},2025-09-06_08-00-08,4.13448275862069,2409600,3.7919369898816417,0,45.54172396659851,2008,"{'default': {'policy_loss': -0.03265642002224922, 'vf_explained_var': 0.697227418422699, 'vf_loss': 6.083882808685303, 'kl': 0.05161400884389877, 'cur_lr': 4.999999873689376e-05, 'total_loss': 6.119184494018555, 'entropy': 0.743361234664917, 'cur_kl_coeff': 1.3166500329971313}, 'sample_time_ms': 45005.241, 'num_steps_trained': 2409600, 'grad_time_ms': 367.655, 'update_time_ms': 2.667, 'num_steps_sampled': 2409600, 'load_time_ms': 0.73}",118,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+83004.9353017807,307323,4.001192890333449,1200,cda-server-2,5416.042564630508,f93d3d6710754a149751678a58e67540,293,1757138453,142800,-17.97739249813482,2334315,{},10.157.146.2,False,{},2025-09-06_08-00-53,4.098976109215017,2410800,3.8543133869174477,0,45.20720815658569,2009,"{'default': {'policy_loss': -0.042582858353853226, 'vf_explained_var': 0.7540920972824097, 'vf_loss': 3.005134344100952, 'kl': 0.02672424167394638, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3.015331268310547, 'entropy': 0.6669034361839294, 'cur_kl_coeff': 1.9749751091003418}, 'sample_time_ms': 44958.41, 'num_steps_trained': 2410800, 'grad_time_ms': 367.357, 'update_time_ms': 2.645, 'num_steps_sampled': 2410800, 'load_time_ms': 0.737}",119,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+83050.09800481796,307615,4.001165913688922,1200,cda-server-2,5461.20526766777,f93d3d6710754a149751678a58e67540,292,1757138498,144000,-6.079581775995024,2334315,{},10.157.146.2,False,{},2025-09-06_08-01-38,4.075342465753424,2412000,3.876689374525134,0,45.16270303726196,2010,"{'default': {'policy_loss': -0.04578785225749016, 'vf_explained_var': 0.7990445494651794, 'vf_loss': 1.4423279762268066, 'kl': 0.009527534246444702, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.4247651100158691, 'entropy': 0.5464964509010315, 'cur_kl_coeff': 2.9624626636505127}, 'sample_time_ms': 44865.257, 'num_steps_trained': 2412000, 'grad_time_ms': 364.882, 'update_time_ms': 2.656, 'num_steps_sampled': 2412000, 'load_time_ms': 0.718}",120,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+83096.37746286392,307911,4.000757699314381,1200,cda-server-2,5507.48472571373,f93d3d6710754a149751678a58e67540,296,1757138545,145200,-8.831406311488529,2334315,{},10.157.146.2,False,{},2025-09-06_08-02-25,4.074324324324325,2413200,3.8824280961520548,0,46.27945804595947,2011,"{'default': {'policy_loss': -0.03440999239683151, 'vf_explained_var': 0.8678881525993347, 'vf_loss': 0.9071734547615051, 'kl': 0.00439316825941205, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.8857780694961548, 'entropy': 0.5658578276634216, 'cur_kl_coeff': 2.9624626636505127}, 'sample_time_ms': 44920.417, 'num_steps_trained': 2413200, 'grad_time_ms': 367.597, 'update_time_ms': 2.675, 'num_steps_sampled': 2413200, 'load_time_ms': 0.741}",121,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+83141.53128647804,308200,4.000720679708728,1200,cda-server-2,5552.63854932785,f93d3d6710754a149751678a58e67540,289,1757138590,146400,-46.08295921769835,2334315,{},10.157.146.2,False,{},2025-09-06_08-03-10,4.14878892733564,2414400,3.7649991762504764,0,45.15382361412048,2012,"{'default': {'policy_loss': -0.04492413252592087, 'vf_explained_var': 0.5569371581077576, 'vf_loss': 13.706624984741211, 'kl': 0.005501284264028072, 'cur_lr': 4.999999873689376e-05, 'total_loss': 13.66985034942627, 'entropy': 0.7241404056549072, 'cur_kl_coeff': 1.4812313318252563}, 'sample_time_ms': 44959.338, 'num_steps_trained': 2414400, 'grad_time_ms': 366.896, 'update_time_ms': 2.687, 'num_steps_sampled': 2414400, 'load_time_ms': 0.736}",122,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+83186.89423322678,308499,4.001168509436581,1200,cda-server-2,5598.001496076584,f93d3d6710754a149751678a58e67540,299,1757138635,147600,-4.074913353431942,2334315,{},10.157.146.2,False,{},2025-09-06_08-03-55,4.016722408026756,2415600,3.9732891929353724,0,45.36294674873352,2013,"{'default': {'policy_loss': -0.03852488100528717, 'vf_explained_var': 0.9517078399658203, 'vf_loss': 0.3160713016986847, 'kl': 0.008519555442035198, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.29016587138175964, 'entropy': 0.5003231167793274, 'cur_kl_coeff': 1.4812313318252563}, 'sample_time_ms': 44996.37, 'num_steps_trained': 2415600, 'grad_time_ms': 367.174, 'update_time_ms': 2.678, 'num_steps_sampled': 2415600, 'load_time_ms': 0.733}",123,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+83231.48393583298,308798,4.001900780921632,1200,cda-server-2,5642.591198682785,f93d3d6710754a149751678a58e67540,299,1757138680,148800,-2.045248030117614,2334315,{},10.157.146.2,False,{},2025-09-06_08-04-40,4.013377926421405,2416800,3.980081582488827,0,44.58970260620117,2014,"{'default': {'policy_loss': -0.030866576358675957, 'vf_explained_var': 0.959375262260437, 'vf_loss': 0.23483045399188995, 'kl': 0.0037807459011673927, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.20956403017044067, 'entropy': 0.4731755256652832, 'cur_kl_coeff': 1.4812313318252563}, 'sample_time_ms': 44886.769, 'num_steps_trained': 2416800, 'grad_time_ms': 366.923, 'update_time_ms': 2.574, 'num_steps_sampled': 2416800, 'load_time_ms': 0.737}",124,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+83276.68447685242,309093,4.001191479807417,1200,cda-server-2,5687.791739702225,f93d3d6710754a149751678a58e67540,295,1757138725,150000,-16.335506650326135,2334315,{},10.157.146.2,False,{},2025-09-06_08-05-25,4.074576271186441,2418000,3.883508592330869,0,45.2005410194397,2015,"{'default': {'policy_loss': -0.03528444468975067, 'vf_explained_var': 0.804974377155304, 'vf_loss': 1.8316779136657715, 'kl': 0.013345574028789997, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.8062776327133179, 'entropy': 0.5864191651344299, 'cur_kl_coeff': 0.7406156659126282}, 'sample_time_ms': 44899.08, 'num_steps_trained': 2418000, 'grad_time_ms': 367.354, 'update_time_ms': 2.54, 'num_steps_sampled': 2418000, 'load_time_ms': 0.712}",125,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+83322.63332939148,309389,4.000932759510184,1200,cda-server-2,5733.740592241287,f93d3d6710754a149751678a58e67540,296,1757138771,151200,-11.796633988333689,2334315,{},10.157.146.2,False,{},2025-09-06_08-06-11,4.047297297297297,2419200,3.926583916666576,0,45.9488525390625,2016,"{'default': {'policy_loss': -0.030470959842205048, 'vf_explained_var': 0.8643831014633179, 'vf_loss': 1.0749714374542236, 'kl': 0.006801242008805275, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1.0495375394821167, 'entropy': 0.5029727220535278, 'cur_kl_coeff': 0.7406156659126282}, 'sample_time_ms': 44974.008, 'num_steps_trained': 2419200, 'grad_time_ms': 368.95, 'update_time_ms': 2.563, 'num_steps_sampled': 2419200, 'load_time_ms': 0.72}",126,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+83368.12123060226,309688,4.000737820556287,1200,cda-server-2,5779.228493452072,f93d3d6710754a149751678a58e67540,299,1757138817,152400,-4.64945509616531,2334315,{},10.157.146.2,False,{},2025-09-06_08-06-57,4.016722408026756,2420400,3.971351633165709,0,45.48790121078491,2017,"{'default': {'policy_loss': -0.03503962978720665, 'vf_explained_var': 0.9844505786895752, 'vf_loss': 0.10085776448249817, 'kl': 0.008282184600830078, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.07195203751325607, 'entropy': 0.4837670922279358, 'cur_kl_coeff': 0.7406156659126282}, 'sample_time_ms': 45015.61, 'num_steps_trained': 2420400, 'grad_time_ms': 368.523, 'update_time_ms': 2.548, 'num_steps_sampled': 2420400, 'load_time_ms': 0.693}",127,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+83413.66861081123,309986,4.001202913147282,1200,cda-server-2,5824.775873661041,f93d3d6710754a149751678a58e67540,298,1757138862,153600,-8.97145009348991,2334315,{},10.157.146.2,False,{},2025-09-06_08-07-42,4.026845637583893,2421600,3.9567679654913297,0,45.547380208969116,2018,"{'default': {'policy_loss': -0.02979195863008499, 'vf_explained_var': 0.9508710503578186, 'vf_loss': 0.3442019522190094, 'kl': 0.003754326142370701, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.3171904981136322, 'entropy': 0.531615674495697, 'cur_kl_coeff': 0.7406156659126282}, 'sample_time_ms': 45016.805, 'num_steps_trained': 2421600, 'grad_time_ms': 367.852, 'update_time_ms': 2.566, 'num_steps_sampled': 2421600, 'load_time_ms': 0.688}",128,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+83458.67626857758,310283,4.0007849641965665,1200,cda-server-2,5869.783531427383,f93d3d6710754a149751678a58e67540,297,1757138907,154800,-6.99903859942107,2334315,{},10.157.146.2,False,{},2025-09-06_08-08-27,4.040404040404041,2422800,3.936154621865902,0,45.00765776634216,2019,"{'default': {'policy_loss': -0.034746844321489334, 'vf_explained_var': 0.8951692581176758, 'vf_loss': 0.7133528590202332, 'kl': 0.010273102670907974, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.6824102997779846, 'entropy': 0.4219500720500946, 'cur_kl_coeff': 0.3703078329563141}, 'sample_time_ms': 44998.528, 'num_steps_trained': 2422800, 'grad_time_ms': 366.209, 'update_time_ms': 2.571, 'num_steps_sampled': 2422800, 'load_time_ms': 0.682}",129,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+83503.71133089066,310577,4.000733906870962,1200,cda-server-2,5914.818593740463,f93d3d6710754a149751678a58e67540,294,1757138952,156000,-38.14025919658961,2334315,{},10.157.146.2,False,{},2025-09-06_08-09-12,4.091836734693878,2424000,3.8569546468808804,0,45.035062313079834,2020,"{'default': {'policy_loss': -0.04183734953403473, 'vf_explained_var': 0.7166674137115479, 'vf_loss': 7.099640369415283, 'kl': 0.010579959489405155, 'cur_lr': 4.999999873689376e-05, 'total_loss': 7.061721324920654, 'entropy': 0.6438618898391724, 'cur_kl_coeff': 0.3703078329563141}, 'sample_time_ms': 44985.306, 'num_steps_trained': 2424000, 'grad_time_ms': 366.694, 'update_time_ms': 2.554, 'num_steps_sampled': 2424000, 'load_time_ms': 0.684}",130,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+83549.34754991531,310877,4.0008895565951725,1200,cda-server-2,5960.4548127651215,f93d3d6710754a149751678a58e67540,300,1757138998,157200,4.00013194402828,2334315,{},10.157.146.2,False,{},2025-09-06_08-09-58,4.0,2425200,4.000285366065449,0,45.6362190246582,2021,"{'default': {'policy_loss': -0.0923408642411232, 'vf_explained_var': 0.999094545841217, 'vf_loss': 0.004861366935074329, 'kl': 0.0774075835943222, 'cur_lr': 4.999999873689376e-05, 'total_loss': -0.058814868330955505, 'entropy': 0.45694902539253235, 'cur_kl_coeff': 0.3703078329563141}, 'sample_time_ms': 44922.651, 'num_steps_trained': 2425200, 'grad_time_ms': 365.045, 'update_time_ms': 2.523, 'num_steps_sampled': 2425200, 'load_time_ms': 0.662}",131,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+83595.28465247154,311173,4.000557900786036,1200,cda-server-2,6006.39191532135,f93d3d6710754a149751678a58e67540,296,1757139044,158400,-7.011406077946223,2334315,{},10.157.146.2,False,{},2025-09-06_08-10-44,4.047297297297297,2426400,3.929144504224684,0,45.93710255622864,2022,"{'default': {'policy_loss': -0.03681378811597824, 'vf_explained_var': 0.8676996231079102, 'vf_loss': 0.9129693508148193, 'kl': 0.009157426655292511, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.8812420964241028, 'entropy': 0.654927670955658, 'cur_kl_coeff': 0.5554617047309875}, 'sample_time_ms': 44999.905, 'num_steps_trained': 2426400, 'grad_time_ms': 366.09, 'update_time_ms': 2.535, 'num_steps_sampled': 2426400, 'load_time_ms': 0.663}",132,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+83641.15696191788,311470,4.000741884224517,1200,cda-server-2,6052.264224767685,f93d3d6710754a149751678a58e67540,297,1757139090,159600,-4.998123704584028,2334315,{},10.157.146.2,False,{},2025-09-06_08-11-30,4.047138047138047,2427600,3.9293202679217067,0,45.87230944633484,2023,"{'default': {'policy_loss': -0.03951047360897064, 'vf_explained_var': 0.891520082950592, 'vf_loss': 0.6631487607955933, 'kl': 0.00871213898062706, 'cur_lr': 4.999999873689376e-05, 'total_loss': 0.6284775137901306, 'entropy': 0.5288773775100708, 'cur_kl_coeff': 0.5554617047309875}, 'sample_time_ms': 45048.831, 'num_steps_trained': 2427600, 'grad_time_ms': 368.045, 'update_time_ms': 2.546, 'num_steps_sampled': 2427600, 'load_time_ms': 0.668}",133,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+83686.23730134964,311762,4.001111725077002,1200,cda-server-2,6097.344564199448,f93d3d6710754a149751678a58e67540,292,1757139135,160800,-19.061267798720568,2334315,{},10.157.146.2,False,{},2025-09-06_08-12-15,4.116438356164384,2428800,3.8153560495479084,0,45.080339431762695,2024,"{'default': {'policy_loss': -0.058744218200445175, 'vf_explained_var': 0.8042817711830139, 'vf_loss': 2.3184423446655273, 'kl': 0.00969983171671629, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.2650859355926514, 'entropy': 0.7821090817451477, 'cur_kl_coeff': 0.5554617047309875}, 'sample_time_ms': 45097.466, 'num_steps_trained': 2428800, 'grad_time_ms': 368.316, 'update_time_ms': 2.593, 'num_steps_sampled': 2428800, 'load_time_ms': 0.669}",134,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
+83731.15531134605,312052,4.00084389193284,1200,cda-server-2,6142.262574195862,f93d3d6710754a149751678a58e67540,290,1757139180,162000,-18.18201571251071,2334315,{},10.157.146.2,False,{},2025-09-06_08-13-00,4.120689655172414,2430000,3.809761616159631,0,44.918009996414185,2025,"{'default': {'policy_loss': -0.03568026423454285, 'vf_explained_var': 0.7606998682022095, 'vf_loss': 2.8914008140563965, 'kl': 0.03848344460129738, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2.8770968914031982, 'entropy': 0.6033090949058533, 'cur_kl_coeff': 0.5554617047309875}, 'sample_time_ms': 45067.412, 'num_steps_trained': 2430000, 'grad_time_ms': 370.065, 'update_time_ms': 2.624, 'num_steps_sampled': 2430000, 'load_time_ms': 0.687}",135,"{'monitor': False, 'preprocessor_pref': 'deepmind', 'env_config': {'generalize': False, 'run_valid': False}, 'lr_schedule': None, 'lambda': 1.0, 'postprocess_inputs': False, 'multiagent': {'policy_graphs': {}, 'policies_to_train': None, 'policy_mapping_fn': None}, 'log_level': 'INFO', 'clip_rewards': None, 'sgd_minibatch_size': 128, 'callbacks': {'on_episode_step': None, 'on_episode_end': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_start': None}, 'model': {'fcnet_hiddens': [128, 128, 128], 'fcnet_activation': 'tanh', 'grayscale': False, 'custom_options': {}, 'framestack': True, 'free_log_std': False, 'zero_mean': True, 'squash_to_range': False, 'conv_filters': None, 'custom_preprocessor': None, 'lstm_use_prev_action_reward': False, 'custom_model': None, 'max_seq_len': 20, 'lstm_cell_size': 256, 'conv_activation': 'relu', 'dim': 84, 'use_lstm': False}, 'collect_metrics_timeout': 180, 'tf_session_args': {'allow_soft_placement': True, 'inter_op_parallelism_threads': 2, 'device_count': {'CPU': 1}, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2, 'log_device_placement': False}, 'sample_async': False, 'grad_clip': None, 'kl_target': 0.01, 'output_max_file_size': 67108864, 'straggler_mitigation': False, 'entropy_coeff': 0.0, 'train_batch_size': 1200, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'input': 'sampler', 'vf_clip_param': 10.0, 'sample_batch_size': 200, 'vf_share_layers': False, 'num_gpus': 0, 'num_workers': 3, 'clip_param': 0.3, 'clip_actions': True, 'env': 'Zhenxin_S_FC', 'kl_coeff': 0.2, 'synchronize_filters': True, 'num_gpus_per_worker': 0, 'output': None, 'optimizer': {}, 'horizon': 50, 'observation_filter': 'MeanStdFilter', 'vf_loss_coeff': 1.0, 'num_cpus_per_worker': 1, 'num_cpus_for_driver': 1, 'batch_mode': 'truncate_episodes', 'output_compress_columns': ['obs', 'new_obs'], 'lr': 5e-05, 'custom_resources_per_worker': {}, 'use_gae': True, 'simple_optimizer': False, 'input_evaluation': None, 'gamma': 0.99, 'compress_observations': False, 'num_envs_per_worker': 1, 'num_sgd_iter': 30}"
diff --git a/experiments/optimize-Zhenxin_S_FC_65nmPTM-run15/PPO_Zhenxin_S_FC_0_2025-09-05_08-42-54nto41l8r/result.json b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run15/PPO_Zhenxin_S_FC_0_2025-09-05_08-42-54nto41l8r/result.json
new file mode 100644
index 0000000..08979f8
--- /dev/null
+++ b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run15/PPO_Zhenxin_S_FC_0_2025-09-05_08-42-54nto41l8r/result.json
@@ -0,0 +1,2038 @@
+{"time_total_s": 143.01380038261414, "episodes_total": 24, "episode_reward_max": -95.22697914691747, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 143.01380038261414, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757054831, "timesteps_since_restore": 1200, "episode_reward_min": -99.98189804263734, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_08-47-11", "episode_len_mean": 50.0, "timesteps_total": 1200, "episode_reward_mean": -97.94909731702506, "num_metric_batches_dropped": 0, "time_this_iter_s": 143.01380038261414, "training_iteration": 1, "info": {"default": {"policy_loss": -0.09707700461149216, "vf_explained_var": 0.0022073453292250633, "vf_loss": 2251.77197265625, "kl": 0.027490008622407913, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.20000000298023224, "entropy": 15.60404109954834, "total_loss": 2251.680419921875}, "sample_time_ms": 141862.823, "num_steps_trained": 1200, "num_steps_sampled": 1200, "update_time_ms": 401.558, "grad_time_ms": 688.716, "load_time_ms": 27.891}, "iterations_since_restore": 1, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 189.603120803833, "episodes_total": 48, "episode_reward_max": -95.22697914691747, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 189.603120803833, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757054878, "timesteps_since_restore": 2400, "episode_reward_min": -99.98189804263734, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_08-47-58", "episode_len_mean": 50.0, "timesteps_total": 2400, "episode_reward_mean": -97.98010808031854, "num_metric_batches_dropped": 0, "time_this_iter_s": 46.58932042121887, "training_iteration": 2, "info": {"default": {"policy_loss": -0.10861760377883911, "vf_explained_var": -0.01660521887242794, "vf_loss": 2001.18408203125, "kl": 0.02995864860713482, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.30000001192092896, "entropy": 15.60364818572998, "total_loss": 2001.08447265625}, "sample_time_ms": 94025.996, "num_steps_trained": 2400, "num_steps_sampled": 2400, "update_time_ms": 202.314, "grad_time_ms": 540.284, "load_time_ms": 14.256}, "iterations_since_restore": 2, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 246.73070693016052, "episodes_total": 72, "episode_reward_max": -92.69323489725416, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 246.73070693016052, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757054935, "timesteps_since_restore": 3600, "episode_reward_min": -99.98189804263734, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_08-48-55", "episode_len_mean": 50.0, "timesteps_total": 3600, "episode_reward_mean": -97.78628900976021, "num_metric_batches_dropped": 0, "time_this_iter_s": 57.127586126327515, "training_iteration": 3, "info": {"default": {"policy_loss": -0.09483081847429276, "vf_explained_var": -0.018582846969366074, "vf_loss": 1863.76513671875, "kl": 0.025606343522667885, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.44999995827674866, "entropy": 15.602766036987305, "total_loss": 1863.681884765625}, "sample_time_ms": 81598.782, "num_steps_trained": 3600, "num_steps_sampled": 3600, "update_time_ms": 135.733, "grad_time_ms": 485.194, "load_time_ms": 9.764}, "iterations_since_restore": 3, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 287.7734043598175, "episodes_total": 96, "episode_reward_max": -92.69323489725416, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 287.7734043598175, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757054976, "timesteps_since_restore": 4800, "episode_reward_min": -100.02128538019043, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_08-49-36", "episode_len_mean": 50.0, "timesteps_total": 4800, "episode_reward_mean": -97.83256765308495, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.04269742965698, "training_iteration": 4, "info": {"default": {"policy_loss": -0.0985291600227356, "vf_explained_var": -0.06143289804458618, "vf_loss": 1764.452880859375, "kl": 0.020781315863132477, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.675000011920929, "entropy": 15.597869873046875, "total_loss": 1764.3685302734375}, "sample_time_ms": 71364.169, "num_steps_trained": 4800, "num_steps_sampled": 4800, "update_time_ms": 102.458, "grad_time_ms": 457.446, "load_time_ms": 7.5}, "iterations_since_restore": 4, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 327.41543984413147, "episodes_total": 120, "episode_reward_max": -92.69323489725416, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 327.41543984413147, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757055016, "timesteps_since_restore": 6000, "episode_reward_min": -100.02128538019043, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_08-50-16", "episode_len_mean": 50.0, "timesteps_total": 6000, "episode_reward_mean": -97.82120000353304, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.642035484313965, "training_iteration": 5, "info": {"default": {"policy_loss": -0.09901744872331619, "vf_explained_var": -0.08014140278100967, "vf_loss": 1689.4288330078125, "kl": 0.017839699983596802, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "entropy": 15.584749221801758, "total_loss": 1689.34765625}, "sample_time_ms": 64945.569, "num_steps_trained": 6000, "num_steps_sampled": 6000, "update_time_ms": 82.601, "grad_time_ms": 438.534, "load_time_ms": 6.13}, "iterations_since_restore": 5, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 367.42116928100586, "episodes_total": 144, "episode_reward_max": -23.986918324328194, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 367.42116928100586, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757055056, "timesteps_since_restore": 7200, "episode_reward_min": -100.02128538019043, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_08-50-56", "episode_len_mean": 49.53, "timesteps_total": 7200, "episode_reward_mean": -96.66583361506002, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.00572943687439, "training_iteration": 6, "info": {"default": {"policy_loss": -0.10246561467647552, "vf_explained_var": -0.08375171571969986, "vf_loss": 1514.96630859375, "kl": 0.018914539366960526, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "entropy": 15.573041915893555, "total_loss": 1514.8831787109375}, "sample_time_ms": 60724.256, "num_steps_trained": 7200, "num_steps_sampled": 7200, "update_time_ms": 69.236, "grad_time_ms": 428.873, "load_time_ms": 5.225}, "iterations_since_restore": 6, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 406.6202344894409, "episodes_total": 168, "episode_reward_max": -23.986918324328194, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 406.6202344894409, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757055095, "timesteps_since_restore": 8400, "episode_reward_min": -100.02128538019043, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_08-51-35", "episode_len_mean": 49.38, "timesteps_total": 8400, "episode_reward_mean": -96.37592139360795, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.19906520843506, "training_iteration": 7, "info": {"default": {"policy_loss": -0.09247355908155441, "vf_explained_var": -0.12024961411952972, "vf_loss": 1390.4051513671875, "kl": 0.017445623874664307, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "entropy": 15.561347007751465, "total_loss": 1390.33056640625}, "sample_time_ms": 57594.337, "num_steps_trained": 8400, "num_steps_sampled": 8400, "update_time_ms": 59.683, "grad_time_ms": 421.426, "load_time_ms": 4.582}, "iterations_since_restore": 7, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 446.41970133781433, "episodes_total": 192, "episode_reward_max": -23.986918324328194, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 446.41970133781433, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757055135, "timesteps_since_restore": 9600, "episode_reward_min": -100.02128538019043, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_08-52-15", "episode_len_mean": 49.38, "timesteps_total": 9600, "episode_reward_mean": -96.43393422527663, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.79946684837341, "training_iteration": 8, "info": {"default": {"policy_loss": -0.10693171620368958, "vf_explained_var": -0.11078718304634094, "vf_loss": 1321.4288330078125, "kl": 0.019344637170433998, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "entropy": 15.535579681396484, "total_loss": 1321.3416748046875}, "sample_time_ms": 55324.271, "num_steps_trained": 9600, "num_steps_sampled": 9600, "update_time_ms": 52.553, "grad_time_ms": 413.533, "load_time_ms": 4.087}, "iterations_since_restore": 8, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 485.83119893074036, "episodes_total": 216, "episode_reward_max": -23.986918324328194, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 485.83119893074036, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757055174, "timesteps_since_restore": 10800, "episode_reward_min": -99.98802602401176, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_08-52-54", "episode_len_mean": 49.22, "timesteps_total": 10800, "episode_reward_mean": -95.85707485886618, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.411497592926025, "training_iteration": 9, "info": {"default": {"policy_loss": -0.09745416045188904, "vf_explained_var": -0.19261516630649567, "vf_loss": 1301.50634765625, "kl": 0.015448366291821003, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "entropy": 15.532939910888672, "total_loss": 1301.4246826171875}, "sample_time_ms": 53513.13, "num_steps_trained": 10800, "num_steps_sampled": 10800, "update_time_ms": 46.957, "grad_time_ms": 409.79, "load_time_ms": 3.709}, "iterations_since_restore": 9, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 525.0520513057709, "episodes_total": 240, "episode_reward_max": -55.71995167593823, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 525.0520513057709, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757055214, "timesteps_since_restore": 12000, "episode_reward_min": -99.98802602401176, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_08-53-34", "episode_len_mean": 49.69, "timesteps_total": 12000, "episode_reward_mean": -96.9969149779748, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.22085237503052, "training_iteration": 10, "info": {"default": {"policy_loss": -0.11342019587755203, "vf_explained_var": -0.18519826233386993, "vf_loss": 1290.7332763671875, "kl": 0.018019400537014008, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "entropy": 15.516749382019043, "total_loss": 1290.637939453125}, "sample_time_ms": 52045.602, "num_steps_trained": 12000, "num_steps_sampled": 12000, "update_time_ms": 42.513, "grad_time_ms": 406.356, "load_time_ms": 3.401}, "iterations_since_restore": 10, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 564.1467010974884, "episodes_total": 264, "episode_reward_max": -55.71995167593823, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 564.1467010974884, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757055253, "timesteps_since_restore": 13200, "episode_reward_min": -99.98802602401176, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_08-54-13", "episode_len_mean": 49.84, "timesteps_total": 13200, "episode_reward_mean": -97.23875839336168, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.09464979171753, "training_iteration": 11, "info": {"default": {"policy_loss": -0.1108274906873703, "vf_explained_var": -0.31772884726524353, "vf_loss": 1336.2943115234375, "kl": 0.019251951947808266, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "entropy": 15.51504898071289, "total_loss": 1336.2030029296875}, "sample_time_ms": 41732.211, "num_steps_trained": 13200, "num_steps_sampled": 13200, "update_time_ms": 2.624, "grad_time_ms": 373.295, "load_time_ms": 0.673}, "iterations_since_restore": 11, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 603.3625612258911, "episodes_total": 288, "episode_reward_max": -55.71995167593823, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 603.3625612258911, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757055292, "timesteps_since_restore": 14400, "episode_reward_min": -99.96144974345668, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_08-54-52", "episode_len_mean": 49.84, "timesteps_total": 14400, "episode_reward_mean": -97.16552309773762, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.21586012840271, "training_iteration": 12, "info": {"default": {"policy_loss": -0.0982426330447197, "vf_explained_var": -0.2994450628757477, "vf_loss": 1303.9056396484375, "kl": 0.018091266974806786, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "entropy": 15.492209434509277, "total_loss": 1303.82568359375}, "sample_time_ms": 40995.242, "num_steps_trained": 14400, "num_steps_sampled": 14400, "update_time_ms": 2.565, "grad_time_ms": 372.978, "load_time_ms": 0.686}, "iterations_since_restore": 12, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 644.658510684967, "episodes_total": 312, "episode_reward_max": -94.13979045484409, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 644.658510684967, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757055333, "timesteps_since_restore": 15600, "episode_reward_min": -99.96144974345668, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_08-55-33", "episode_len_mean": 50.0, "timesteps_total": 15600, "episode_reward_mean": -97.63216254967479, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.29594945907593, "training_iteration": 13, "info": {"default": {"policy_loss": -0.09826384484767914, "vf_explained_var": -0.30846989154815674, "vf_loss": 1229.026123046875, "kl": 0.017823221161961555, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "entropy": 15.467479705810547, "total_loss": 1228.9459228515625}, "sample_time_ms": 39411.967, "num_steps_trained": 15600, "num_steps_sampled": 15600, "update_time_ms": 2.549, "grad_time_ms": 373.127, "load_time_ms": 0.683}, "iterations_since_restore": 13, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 684.0572257041931, "episodes_total": 336, "episode_reward_max": -94.13979045484409, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 684.0572257041931, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757055373, "timesteps_since_restore": 16800, "episode_reward_min": -99.96144974345668, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_08-56-13", "episode_len_mean": 50.0, "timesteps_total": 16800, "episode_reward_mean": -97.56314110407824, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.398715019226074, "training_iteration": 14, "info": {"default": {"policy_loss": -0.10652614384889603, "vf_explained_var": -0.44020986557006836, "vf_loss": 1311.0396728515625, "kl": 0.020065873861312866, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0125000476837158, "entropy": 15.447012901306152, "total_loss": 1310.9534912109375}, "sample_time_ms": 39247.136, "num_steps_trained": 16800, "num_steps_sampled": 16800, "update_time_ms": 2.526, "grad_time_ms": 373.62, "load_time_ms": 0.679}, "iterations_since_restore": 14, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 723.2850732803345, "episodes_total": 360, "episode_reward_max": -92.59538319082614, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 723.2850732803345, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757055412, "timesteps_since_restore": 18000, "episode_reward_min": -99.97365739942256, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_08-56-52", "episode_len_mean": 50.0, "timesteps_total": 18000, "episode_reward_mean": -97.50964502682939, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.22784757614136, "training_iteration": 15, "info": {"default": {"policy_loss": -0.10779047012329102, "vf_explained_var": -0.5147508978843689, "vf_loss": 1344.6536865234375, "kl": 0.014422442764043808, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.45061206817627, "total_loss": 1344.5677490234375}, "sample_time_ms": 39203.185, "num_steps_trained": 18000, "num_steps_sampled": 18000, "update_time_ms": 2.466, "grad_time_ms": 376.169, "load_time_ms": 0.68}, "iterations_since_restore": 15, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 765.2643439769745, "episodes_total": 384, "episode_reward_max": -92.59538319082614, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 765.2643439769745, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757055454, "timesteps_since_restore": 19200, "episode_reward_min": -99.97365739942256, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_08-57-34", "episode_len_mean": 50.0, "timesteps_total": 19200, "episode_reward_mean": -97.61564389465605, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.979270696640015, "training_iteration": 16, "info": {"default": {"policy_loss": -0.09099514782428741, "vf_explained_var": -0.46429041028022766, "vf_loss": 1249.70068359375, "kl": 0.012946028262376785, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.41851806640625, "total_loss": 1249.62939453125}, "sample_time_ms": 39400.131, "num_steps_trained": 19200, "num_steps_sampled": 19200, "update_time_ms": 2.483, "grad_time_ms": 376.538, "load_time_ms": 0.672}, "iterations_since_restore": 16, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 805.0920796394348, "episodes_total": 408, "episode_reward_max": -92.59538319082614, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 805.0920796394348, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757055494, "timesteps_since_restore": 20400, "episode_reward_min": -99.97365739942256, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_08-58-14", "episode_len_mean": 50.0, "timesteps_total": 20400, "episode_reward_mean": -97.68340291109696, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.82773566246033, "training_iteration": 17, "info": {"default": {"policy_loss": -0.10126802325248718, "vf_explained_var": -0.5970525741577148, "vf_loss": 1298.8878173828125, "kl": 0.015167636796832085, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.406099319458008, "total_loss": 1298.8095703125}, "sample_time_ms": 39463.013, "num_steps_trained": 20400, "num_steps_sampled": 20400, "update_time_ms": 2.512, "grad_time_ms": 376.514, "load_time_ms": 0.67}, "iterations_since_restore": 17, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 844.6405155658722, "episodes_total": 432, "episode_reward_max": -92.59538319082614, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 844.6405155658722, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757055533, "timesteps_since_restore": 21600, "episode_reward_min": -99.97365739942256, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_08-58-53", "episode_len_mean": 50.0, "timesteps_total": 21600, "episode_reward_mean": -97.73449119370657, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.54843592643738, "training_iteration": 18, "info": {"default": {"policy_loss": -0.10154333710670471, "vf_explained_var": -0.5117239356040955, "vf_loss": 1217.240478515625, "kl": 0.014539708383381367, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.39613151550293, "total_loss": 1217.1610107421875}, "sample_time_ms": 39437.278, "num_steps_trained": 21600, "num_steps_sampled": 21600, "update_time_ms": 2.499, "grad_time_ms": 377.106, "load_time_ms": 0.684}, "iterations_since_restore": 18, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 884.0307812690735, "episodes_total": 456, "episode_reward_max": -92.4576641795074, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 884.0307812690735, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757055573, "timesteps_since_restore": 22800, "episode_reward_min": -99.97365739942256, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_08-59-33", "episode_len_mean": 50.0, "timesteps_total": 22800, "episode_reward_mean": -97.70831057336541, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.390265703201294, "training_iteration": 19, "info": {"default": {"policy_loss": -0.09967568516731262, "vf_explained_var": -0.641169548034668, "vf_loss": 1254.394287109375, "kl": 0.013488581404089928, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.389339447021484, "total_loss": 1254.315185546875}, "sample_time_ms": 39436.41, "num_steps_trained": 22800, "num_steps_sampled": 22800, "update_time_ms": 2.528, "grad_time_ms": 375.822, "load_time_ms": 0.684}, "iterations_since_restore": 19, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 923.5720708370209, "episodes_total": 480, "episode_reward_max": -92.4576641795074, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 923.5720708370209, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757055612, "timesteps_since_restore": 24000, "episode_reward_min": -99.9879639887375, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-00-12", "episode_len_mean": 50.0, "timesteps_total": 24000, "episode_reward_mean": -97.58714980760092, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.54128956794739, "training_iteration": 20, "info": {"default": {"policy_loss": -0.1000511422753334, "vf_explained_var": -0.6964651942253113, "vf_loss": 1280.84716796875, "kl": 0.013707313686609268, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.362982749938965, "total_loss": 1280.7677001953125}, "sample_time_ms": 39467.369, "num_steps_trained": 24000, "num_steps_sampled": 24000, "update_time_ms": 2.533, "grad_time_ms": 376.842, "load_time_ms": 0.69}, "iterations_since_restore": 20, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 963.225973367691, "episodes_total": 504, "episode_reward_max": -67.48332556581346, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 963.225973367691, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757055652, "timesteps_since_restore": 25200, "episode_reward_min": -99.9879639887375, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-00-52", "episode_len_mean": 49.9, "timesteps_total": 25200, "episode_reward_mean": -97.15637517732358, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.653902530670166, "training_iteration": 21, "info": {"default": {"policy_loss": -0.10451040416955948, "vf_explained_var": -0.7225050330162048, "vf_loss": 1321.384765625, "kl": 0.013240496627986431, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.360356330871582, "total_loss": 1321.30029296875}, "sample_time_ms": 39521.399, "num_steps_trained": 25200, "num_steps_sampled": 25200, "update_time_ms": 2.57, "grad_time_ms": 378.672, "load_time_ms": 0.695}, "iterations_since_restore": 21, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 1002.8476870059967, "episodes_total": 528, "episode_reward_max": -67.48332556581346, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1002.8476870059967, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757055692, "timesteps_since_restore": 26400, "episode_reward_min": -99.9879639887375, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-01-32", "episode_len_mean": 49.9, "timesteps_total": 26400, "episode_reward_mean": -97.12718352868167, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.621713638305664, "training_iteration": 22, "info": {"default": {"policy_loss": -0.10276782512664795, "vf_explained_var": -0.7389117479324341, "vf_loss": 1327.633056640625, "kl": 0.014608736149966717, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.346869468688965, "total_loss": 1327.55224609375}, "sample_time_ms": 39565.009, "num_steps_trained": 26400, "num_steps_sampled": 26400, "update_time_ms": 2.572, "grad_time_ms": 375.642, "load_time_ms": 0.688}, "iterations_since_restore": 22, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 1042.498167514801, "episodes_total": 552, "episode_reward_max": -67.48332556581346, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1042.498167514801, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757055731, "timesteps_since_restore": 27600, "episode_reward_min": -99.9879639887375, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-02-11", "episode_len_mean": 49.9, "timesteps_total": 27600, "episode_reward_mean": -97.12304681067516, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.65048050880432, "training_iteration": 23, "info": {"default": {"policy_loss": -0.1026996523141861, "vf_explained_var": -0.7680750489234924, "vf_loss": 1362.3328857421875, "kl": 0.013560572639107704, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.381366729736328, "total_loss": 1362.250732421875}, "sample_time_ms": 39400.146, "num_steps_trained": 27600, "num_steps_sampled": 27600, "update_time_ms": 2.573, "grad_time_ms": 375.936, "load_time_ms": 0.679}, "iterations_since_restore": 23, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 1081.9136335849762, "episodes_total": 576, "episode_reward_max": -67.48332556581346, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1081.9136335849762, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757055771, "timesteps_since_restore": 28800, "episode_reward_min": -99.91980105462494, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-02-51", "episode_len_mean": 49.9, "timesteps_total": 28800, "episode_reward_mean": -96.98442678312466, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.41546607017517, "training_iteration": 24, "info": {"default": {"policy_loss": -0.10783449560403824, "vf_explained_var": -0.7502312064170837, "vf_loss": 1329.4874267578125, "kl": 0.014297685585916042, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.355671882629395, "total_loss": 1329.4013671875}, "sample_time_ms": 39402.043, "num_steps_trained": 28800, "num_steps_sampled": 28800, "update_time_ms": 2.574, "grad_time_ms": 375.724, "load_time_ms": 0.677}, "iterations_since_restore": 24, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 1121.4281277656555, "episodes_total": 601, "episode_reward_max": -76.3067116365932, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1121.4281277656555, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757055810, "timesteps_since_restore": 30000, "episode_reward_min": -99.99428227295623, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-03-30", "episode_len_mean": 49.95, "timesteps_total": 30000, "episode_reward_mean": -97.21254476386588, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.51449418067932, "training_iteration": 25, "info": {"default": {"policy_loss": -0.09214794635772705, "vf_explained_var": -0.6837130784988403, "vf_loss": 1198.1015625, "kl": 0.014428552240133286, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.29720401763916, "total_loss": 1198.03125}, "sample_time_ms": 39432.663, "num_steps_trained": 30000, "num_steps_sampled": 30000, "update_time_ms": 2.586, "grad_time_ms": 373.789, "load_time_ms": 0.678}, "iterations_since_restore": 25, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 1160.759013414383, "episodes_total": 625, "episode_reward_max": -76.3067116365932, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1160.759013414383, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757055850, "timesteps_since_restore": 31200, "episode_reward_min": -99.99428227295623, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-04-10", "episode_len_mean": 49.95, "timesteps_total": 31200, "episode_reward_mean": -97.10680444309872, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.33088564872742, "training_iteration": 26, "info": {"default": {"policy_loss": -0.11082997173070908, "vf_explained_var": -0.7980944514274597, "vf_loss": 1215.87451171875, "kl": 0.01447093952447176, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.337078094482422, "total_loss": 1215.7855224609375}, "sample_time_ms": 39167.88, "num_steps_trained": 31200, "num_steps_sampled": 31200, "update_time_ms": 2.569, "grad_time_ms": 373.755, "load_time_ms": 0.694}, "iterations_since_restore": 26, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 1200.093816280365, "episodes_total": 649, "episode_reward_max": -76.3067116365932, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1200.093816280365, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757055889, "timesteps_since_restore": 32400, "episode_reward_min": -100.02611733827453, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-04-49", "episode_len_mean": 49.95, "timesteps_total": 32400, "episode_reward_mean": -97.09633425358099, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.334802865982056, "training_iteration": 27, "info": {"default": {"policy_loss": -0.10341368615627289, "vf_explained_var": -0.7236064076423645, "vf_loss": 1146.4234619140625, "kl": 0.013601448386907578, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.297657012939453, "total_loss": 1146.3406982421875}, "sample_time_ms": 39118.522, "num_steps_trained": 32400, "num_steps_sampled": 32400, "update_time_ms": 2.545, "grad_time_ms": 373.84, "load_time_ms": 0.689}, "iterations_since_restore": 27, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 1240.198234796524, "episodes_total": 673, "episode_reward_max": -76.3067116365932, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1240.198234796524, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757055929, "timesteps_since_restore": 33600, "episode_reward_min": -100.02611733827453, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-05-29", "episode_len_mean": 49.95, "timesteps_total": 33600, "episode_reward_mean": -97.14897690425133, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.10441851615906, "training_iteration": 28, "info": {"default": {"policy_loss": -0.09958818554878235, "vf_explained_var": -0.7672804594039917, "vf_loss": 1231.8074951171875, "kl": 0.01397522259503603, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.32217788696289, "total_loss": 1231.7291259765625}, "sample_time_ms": 39173.332, "num_steps_trained": 33600, "num_steps_sampled": 33600, "update_time_ms": 2.548, "grad_time_ms": 374.62, "load_time_ms": 0.676}, "iterations_since_restore": 28, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 1280.7290706634521, "episodes_total": 697, "episode_reward_max": -93.61728735301668, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1280.7290706634521, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757055970, "timesteps_since_restore": 34800, "episode_reward_min": -100.02611733827453, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-06-10", "episode_len_mean": 50.0, "timesteps_total": 34800, "episode_reward_mean": -97.31539155933983, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.5308358669281, "training_iteration": 29, "info": {"default": {"policy_loss": -0.11281483620405197, "vf_explained_var": -0.8760097026824951, "vf_loss": 1288.7369384765625, "kl": 0.013724273070693016, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.32931137084961, "total_loss": 1288.64501953125}, "sample_time_ms": 39285.356, "num_steps_trained": 34800, "num_steps_sampled": 34800, "update_time_ms": 2.551, "grad_time_ms": 376.638, "load_time_ms": 0.678}, "iterations_since_restore": 29, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 1321.5964460372925, "episodes_total": 721, "episode_reward_max": -13.999275655060348, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1321.5964460372925, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757056011, "timesteps_since_restore": 36000, "episode_reward_min": -100.02611733827453, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-06-51", "episode_len_mean": 49.63, "timesteps_total": 36000, "episode_reward_mean": -96.47087976264903, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.86737537384033, "training_iteration": 30, "info": {"default": {"policy_loss": -0.10716176778078079, "vf_explained_var": -0.8252618908882141, "vf_loss": 1301.8095703125, "kl": 0.015517166815698147, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.329354286193848, "total_loss": 1301.7259521484375}, "sample_time_ms": 39420.702, "num_steps_trained": 36000, "num_steps_sampled": 36000, "update_time_ms": 2.577, "grad_time_ms": 373.942, "load_time_ms": 0.67}, "iterations_since_restore": 30, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 1364.339961528778, "episodes_total": 745, "episode_reward_max": -13.999275655060348, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1364.339961528778, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757056053, "timesteps_since_restore": 37200, "episode_reward_min": -99.8453928452534, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-07-33", "episode_len_mean": 49.63, "timesteps_total": 37200, "episode_reward_mean": -96.39356571373128, "num_metric_batches_dropped": 0, "time_this_iter_s": 42.743515491485596, "training_iteration": 31, "info": {"default": {"policy_loss": -0.1068749725818634, "vf_explained_var": -0.7526190876960754, "vf_loss": 1275.0535888671875, "kl": 0.01416856050491333, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.336437225341797, "total_loss": 1274.96826171875}, "sample_time_ms": 39729.637, "num_steps_trained": 37200, "num_steps_sampled": 37200, "update_time_ms": 2.563, "grad_time_ms": 373.977, "load_time_ms": 0.688}, "iterations_since_restore": 31, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 1407.3817882537842, "episodes_total": 769, "episode_reward_max": -13.999275655060348, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1407.3817882537842, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757056096, "timesteps_since_restore": 38400, "episode_reward_min": -99.95833840549392, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-08-16", "episode_len_mean": 49.63, "timesteps_total": 38400, "episode_reward_mean": -96.28459672006797, "num_metric_batches_dropped": 0, "time_this_iter_s": 43.0418267250061, "training_iteration": 32, "info": {"default": {"policy_loss": -0.11371222138404846, "vf_explained_var": -0.7593828439712524, "vf_loss": 1248.1702880859375, "kl": 0.015450311824679375, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.315656661987305, "total_loss": 1248.0799560546875}, "sample_time_ms": 40068.651, "num_steps_trained": 38400, "num_steps_sampled": 38400, "update_time_ms": 2.581, "grad_time_ms": 376.989, "load_time_ms": 0.682}, "iterations_since_restore": 32, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 1448.7031786441803, "episodes_total": 793, "episode_reward_max": -13.999275655060348, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1448.7031786441803, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757056138, "timesteps_since_restore": 39600, "episode_reward_min": -99.95833840549392, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-08-58", "episode_len_mean": 49.63, "timesteps_total": 39600, "episode_reward_mean": -96.08672444777507, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.32139039039612, "training_iteration": 33, "info": {"default": {"policy_loss": -0.11190742999315262, "vf_explained_var": -0.9210463762283325, "vf_loss": 1378.2001953125, "kl": 0.01276362407952547, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.361201286315918, "total_loss": 1378.107666015625}, "sample_time_ms": 40234.207, "num_steps_trained": 39600, "num_steps_sampled": 39600, "update_time_ms": 2.618, "grad_time_ms": 378.485, "load_time_ms": 0.692}, "iterations_since_restore": 33, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 1491.3646879196167, "episodes_total": 817, "episode_reward_max": -90.93290511548722, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1491.3646879196167, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757056180, "timesteps_since_restore": 40800, "episode_reward_min": -99.95833840549392, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-09-40", "episode_len_mean": 50.0, "timesteps_total": 40800, "episode_reward_mean": -96.97419016223253, "num_metric_batches_dropped": 0, "time_this_iter_s": 42.6615092754364, "training_iteration": 34, "info": {"default": {"policy_loss": -0.11778637021780014, "vf_explained_var": -0.8483020663261414, "vf_loss": 1338.647216796875, "kl": 0.013801896013319492, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.336003303527832, "total_loss": 1338.5504150390625}, "sample_time_ms": 40559.79, "num_steps_trained": 40800, "num_steps_sampled": 40800, "update_time_ms": 2.629, "grad_time_ms": 377.481, "load_time_ms": 0.697}, "iterations_since_restore": 34, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 1534.7375404834747, "episodes_total": 841, "episode_reward_max": -90.93290511548722, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1534.7375404834747, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757056224, "timesteps_since_restore": 42000, "episode_reward_min": -99.95833840549392, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-10-24", "episode_len_mean": 50.0, "timesteps_total": 42000, "episode_reward_mean": -97.06445571548585, "num_metric_batches_dropped": 0, "time_this_iter_s": 43.37285256385803, "training_iteration": 35, "info": {"default": {"policy_loss": -0.10056743025779724, "vf_explained_var": -0.66657555103302, "vf_loss": 1161.870361328125, "kl": 0.01379575114697218, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.20518970489502, "total_loss": 1161.79052734375}, "sample_time_ms": 40945.102, "num_steps_trained": 42000, "num_steps_sampled": 42000, "update_time_ms": 2.592, "grad_time_ms": 378.045, "load_time_ms": 0.698}, "iterations_since_restore": 35, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 1577.7135796546936, "episodes_total": 865, "episode_reward_max": -90.93290511548722, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1577.7135796546936, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757056267, "timesteps_since_restore": 43200, "episode_reward_min": -99.73976885532727, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-11-07", "episode_len_mean": 50.0, "timesteps_total": 43200, "episode_reward_mean": -97.13962688488465, "num_metric_batches_dropped": 0, "time_this_iter_s": 42.97603917121887, "training_iteration": 36, "info": {"default": {"policy_loss": -0.11780932545661926, "vf_explained_var": -0.7210826277732849, "vf_loss": 1224.193603515625, "kl": 0.01402256265282631, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.26211166381836, "total_loss": 1224.0970458984375}, "sample_time_ms": 41311.819, "num_steps_trained": 43200, "num_steps_sampled": 43200, "update_time_ms": 2.597, "grad_time_ms": 375.867, "load_time_ms": 0.683}, "iterations_since_restore": 36, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 1621.0839302539825, "episodes_total": 889, "episode_reward_max": -56.468316458363375, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1621.0839302539825, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757056310, "timesteps_since_restore": 44400, "episode_reward_min": -99.76178311023381, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-11-50", "episode_len_mean": 49.86, "timesteps_total": 44400, "episode_reward_mean": -96.83941071859998, "num_metric_batches_dropped": 0, "time_this_iter_s": 43.37035059928894, "training_iteration": 37, "info": {"default": {"policy_loss": -0.11136848479509354, "vf_explained_var": -0.8810325264930725, "vf_loss": 1335.4539794921875, "kl": 0.013670983724296093, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.271031379699707, "total_loss": 1335.3634033203125}, "sample_time_ms": 41714.403, "num_steps_trained": 44400, "num_steps_sampled": 44400, "update_time_ms": 2.591, "grad_time_ms": 376.804, "load_time_ms": 0.697}, "iterations_since_restore": 37, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 1660.7811546325684, "episodes_total": 913, "episode_reward_max": -56.468316458363375, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1660.7811546325684, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757056350, "timesteps_since_restore": 45600, "episode_reward_min": -99.76178311023381, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-12-30", "episode_len_mean": 49.86, "timesteps_total": 45600, "episode_reward_mean": -96.82637889684015, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.697224378585815, "training_iteration": 38, "info": {"default": {"policy_loss": -0.11586764454841614, "vf_explained_var": -0.8114113807678223, "vf_loss": 1350.88818359375, "kl": 0.014386038295924664, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.27672004699707, "total_loss": 1350.7943115234375}, "sample_time_ms": 41673.443, "num_steps_trained": 45600, "num_steps_sampled": 45600, "update_time_ms": 2.603, "grad_time_ms": 377.032, "load_time_ms": 0.706}, "iterations_since_restore": 38, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 1701.1931653022766, "episodes_total": 937, "episode_reward_max": -56.468316458363375, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1701.1931653022766, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757056390, "timesteps_since_restore": 46800, "episode_reward_min": -99.76178311023381, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-13-10", "episode_len_mean": 49.86, "timesteps_total": 46800, "episode_reward_mean": -96.66136834994644, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.41201066970825, "training_iteration": 39, "info": {"default": {"policy_loss": -0.12094525247812271, "vf_explained_var": -0.8007137775421143, "vf_loss": 1290.368408203125, "kl": 0.014655547216534615, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.197568893432617, "total_loss": 1290.26953125}, "sample_time_ms": 41663.905, "num_steps_trained": 46800, "num_steps_sampled": 46800, "update_time_ms": 2.577, "grad_time_ms": 374.758, "load_time_ms": 0.717}, "iterations_since_restore": 39, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 1740.5821454524994, "episodes_total": 961, "episode_reward_max": -56.468316458363375, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1740.5821454524994, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757056430, "timesteps_since_restore": 48000, "episode_reward_min": -99.76178311023381, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-13-50", "episode_len_mean": 49.86, "timesteps_total": 48000, "episode_reward_mean": -96.73488448976255, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.38898015022278, "training_iteration": 40, "info": {"default": {"policy_loss": -0.10425339639186859, "vf_explained_var": -0.7700226306915283, "vf_loss": 1298.574951171875, "kl": 0.012954521924257278, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.223194122314453, "total_loss": 1298.4903564453125}, "sample_time_ms": 41515.941, "num_steps_trained": 48000, "num_steps_sampled": 48000, "update_time_ms": 2.541, "grad_time_ms": 374.909, "load_time_ms": 0.722}, "iterations_since_restore": 40, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 1779.9808220863342, "episodes_total": 986, "episode_reward_max": -13.88648998541506, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1779.9808220863342, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757056469, "timesteps_since_restore": 49200, "episode_reward_min": -99.25026818063208, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-14-29", "episode_len_mean": 49.49, "timesteps_total": 49200, "episode_reward_mean": -95.85762946953993, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.39867663383484, "training_iteration": 41, "info": {"default": {"policy_loss": -0.11180008947849274, "vf_explained_var": -0.8593404293060303, "vf_loss": 1239.2149658203125, "kl": 0.015213612467050552, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.24398422241211, "total_loss": 1239.12646484375}, "sample_time_ms": 41180.615, "num_steps_trained": 49200, "num_steps_sampled": 49200, "update_time_ms": 2.519, "grad_time_ms": 375.755, "load_time_ms": 0.715}, "iterations_since_restore": 41, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 1819.8628153800964, "episodes_total": 1010, "episode_reward_max": -13.88648998541506, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1819.8628153800964, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757056509, "timesteps_since_restore": 50400, "episode_reward_min": -99.4909916464596, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-15-09", "episode_len_mean": 49.63, "timesteps_total": 50400, "episode_reward_mean": -96.25937337256548, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.88199329376221, "training_iteration": 42, "info": {"default": {"policy_loss": -0.12077488005161285, "vf_explained_var": -0.7449655532836914, "vf_loss": 1108.6475830078125, "kl": 0.014218862168490887, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.083518028259277, "total_loss": 1108.54833984375}, "sample_time_ms": 40864.484, "num_steps_trained": 50400, "num_steps_sampled": 50400, "update_time_ms": 2.492, "grad_time_ms": 375.87, "load_time_ms": 0.732}, "iterations_since_restore": 42, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 1859.5722017288208, "episodes_total": 1034, "episode_reward_max": -13.88648998541506, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1859.5722017288208, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757056549, "timesteps_since_restore": 51600, "episode_reward_min": -99.4909916464596, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-15-49", "episode_len_mean": 49.63, "timesteps_total": 51600, "episode_reward_mean": -96.26523312349677, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.709386348724365, "training_iteration": 43, "info": {"default": {"policy_loss": -0.10763101279735565, "vf_explained_var": -0.790911853313446, "vf_loss": 1241.733154296875, "kl": 0.014413055032491684, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.15829086303711, "total_loss": 1241.6474609375}, "sample_time_ms": 40706.474, "num_steps_trained": 51600, "num_steps_sampled": 51600, "update_time_ms": 2.478, "grad_time_ms": 372.711, "load_time_ms": 0.718}, "iterations_since_restore": 43, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 1899.208859205246, "episodes_total": 1058, "episode_reward_max": -13.88648998541506, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1899.208859205246, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757056588, "timesteps_since_restore": 52800, "episode_reward_min": -99.4909916464596, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-16-28", "episode_len_mean": 49.63, "timesteps_total": 52800, "episode_reward_mean": -96.09459464572684, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.63665747642517, "training_iteration": 44, "info": {"default": {"policy_loss": -0.11093033850193024, "vf_explained_var": -0.7879766225814819, "vf_loss": 1163.18310546875, "kl": 0.0127165038138628, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.14774227142334, "total_loss": 1163.09130859375}, "sample_time_ms": 40401.74, "num_steps_trained": 52800, "num_steps_sampled": 52800, "update_time_ms": 2.48, "grad_time_ms": 374.93, "load_time_ms": 0.722}, "iterations_since_restore": 44, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 1938.537549495697, "episodes_total": 1082, "episode_reward_max": -78.28475200301314, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1938.537549495697, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757056628, "timesteps_since_restore": 54000, "episode_reward_min": -99.77235914094456, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-17-08", "episode_len_mean": 49.96, "timesteps_total": 54000, "episode_reward_mean": -96.7042980118301, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.32869029045105, "training_iteration": 45, "info": {"default": {"policy_loss": -0.10614704340696335, "vf_explained_var": -0.8189826011657715, "vf_loss": 1252.5899658203125, "kl": 0.013773324899375439, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.192587852478027, "total_loss": 1252.504638671875}, "sample_time_ms": 39996.977, "num_steps_trained": 54000, "num_steps_sampled": 54000, "update_time_ms": 2.516, "grad_time_ms": 375.214, "load_time_ms": 0.723}, "iterations_since_restore": 45, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 1977.922419309616, "episodes_total": 1106, "episode_reward_max": -78.28475200301314, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1977.922419309616, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757056667, "timesteps_since_restore": 55200, "episode_reward_min": -99.91765297522484, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-17-47", "episode_len_mean": 49.96, "timesteps_total": 55200, "episode_reward_mean": -96.7732115320021, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.38486981391907, "training_iteration": 46, "info": {"default": {"policy_loss": -0.11124785989522934, "vf_explained_var": -0.737091600894928, "vf_loss": 1177.084716796875, "kl": 0.013016111217439175, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.99471664428711, "total_loss": 1176.9932861328125}, "sample_time_ms": 39638.165, "num_steps_trained": 55200, "num_steps_sampled": 55200, "update_time_ms": 2.503, "grad_time_ms": 374.909, "load_time_ms": 0.723}, "iterations_since_restore": 46, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 2017.4959580898285, "episodes_total": 1131, "episode_reward_max": -60.05201531677197, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2017.4959580898285, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757056707, "timesteps_since_restore": 56400, "episode_reward_min": -99.91765297522484, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-18-27", "episode_len_mean": 49.83, "timesteps_total": 56400, "episode_reward_mean": -96.59373059055133, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.5735387802124, "training_iteration": 47, "info": {"default": {"policy_loss": -0.11178987473249435, "vf_explained_var": -0.5760729312896729, "vf_loss": 1044.9349365234375, "kl": 0.013933916576206684, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.982396125793457, "total_loss": 1044.84423828125}, "sample_time_ms": 39259.406, "num_steps_trained": 56400, "num_steps_sampled": 56400, "update_time_ms": 2.508, "grad_time_ms": 373.949, "load_time_ms": 0.725}, "iterations_since_restore": 47, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 2057.0470831394196, "episodes_total": 1155, "episode_reward_max": -60.05201531677197, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2057.0470831394196, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757056746, "timesteps_since_restore": 57600, "episode_reward_min": -99.91765297522484, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-19-06", "episode_len_mean": 49.83, "timesteps_total": 57600, "episode_reward_mean": -96.5111728655563, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.551125049591064, "training_iteration": 48, "info": {"default": {"policy_loss": -0.11196480691432953, "vf_explained_var": -0.7148616313934326, "vf_loss": 1128.729736328125, "kl": 0.013331250287592411, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.079879760742188, "total_loss": 1128.6380615234375}, "sample_time_ms": 39243.531, "num_steps_trained": 57600, "num_steps_sampled": 57600, "update_time_ms": 2.522, "grad_time_ms": 375.221, "load_time_ms": 0.72}, "iterations_since_restore": 48, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 2097.1946234703064, "episodes_total": 1179, "episode_reward_max": 0.0004119213740647609, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2097.1946234703064, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757056787, "timesteps_since_restore": 58800, "episode_reward_min": -99.91765297522484, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-19-47", "episode_len_mean": 49.39, "timesteps_total": 58800, "episode_reward_mean": -95.43681173610204, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.14754033088684, "training_iteration": 49, "info": {"default": {"policy_loss": -0.1002226248383522, "vf_explained_var": -0.7094972729682922, "vf_loss": 1246.2293701171875, "kl": 0.01308484748005867, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.097869873046875, "total_loss": 1246.14892578125}, "sample_time_ms": 39217.371, "num_steps_trained": 58800, "num_steps_sampled": 58800, "update_time_ms": 2.537, "grad_time_ms": 374.923, "load_time_ms": 0.704}, "iterations_since_restore": 49, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 2136.6844804286957, "episodes_total": 1203, "episode_reward_max": 0.0004119213740647609, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2136.6844804286957, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757056826, "timesteps_since_restore": 60000, "episode_reward_min": -99.90170156839785, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-20-26", "episode_len_mean": 49.43, "timesteps_total": 60000, "episode_reward_mean": -95.52973726195987, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.48985695838928, "training_iteration": 50, "info": {"default": {"policy_loss": -0.11692272126674652, "vf_explained_var": -0.7627740502357483, "vf_loss": 1224.977294921875, "kl": 0.013586388900876045, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.937549591064453, "total_loss": 1224.881103515625}, "sample_time_ms": 39227.206, "num_steps_trained": 60000, "num_steps_sampled": 60000, "update_time_ms": 2.535, "grad_time_ms": 375.138, "load_time_ms": 0.706}, "iterations_since_restore": 50, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 2176.7232036590576, "episodes_total": 1227, "episode_reward_max": 0.0004119213740647609, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2176.7232036590576, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757056866, "timesteps_since_restore": 61200, "episode_reward_min": -99.90170156839785, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-21-06", "episode_len_mean": 49.56, "timesteps_total": 61200, "episode_reward_mean": -95.58151317709793, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.03872323036194, "training_iteration": 51, "info": {"default": {"policy_loss": -0.10649402439594269, "vf_explained_var": -0.7719044089317322, "vf_loss": 1267.977783203125, "kl": 0.013572047464549541, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.072731971740723, "total_loss": 1267.8919677734375}, "sample_time_ms": 39293.963, "num_steps_trained": 61200, "num_steps_sampled": 61200, "update_time_ms": 2.599, "grad_time_ms": 372.364, "load_time_ms": 0.69}, "iterations_since_restore": 51, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 2217.002678155899, "episodes_total": 1251, "episode_reward_max": 0.0004119213740647609, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2217.002678155899, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757056906, "timesteps_since_restore": 62400, "episode_reward_min": -99.82731905284957, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-21-46", "episode_len_mean": 49.56, "timesteps_total": 62400, "episode_reward_mean": -95.53338396484112, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.27947449684143, "training_iteration": 52, "info": {"default": {"policy_loss": -0.11998943239450455, "vf_explained_var": -0.7369000911712646, "vf_loss": 1216.1888427734375, "kl": 0.013479425571858883, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.01595401763916, "total_loss": 1216.08935546875}, "sample_time_ms": 39334.882, "num_steps_trained": 62400, "num_steps_sampled": 62400, "update_time_ms": 2.606, "grad_time_ms": 371.205, "load_time_ms": 0.679}, "iterations_since_restore": 52, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 2256.8816680908203, "episodes_total": 1275, "episode_reward_max": -90.34387481776746, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2256.8816680908203, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757056946, "timesteps_since_restore": 63600, "episode_reward_min": -99.74145794833697, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-22-26", "episode_len_mean": 50.0, "timesteps_total": 63600, "episode_reward_mean": -96.4344535976483, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.878989934921265, "training_iteration": 53, "info": {"default": {"policy_loss": -0.11828956007957458, "vf_explained_var": -0.6745530366897583, "vf_loss": 1277.607666015625, "kl": 0.016072383150458336, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.038016319274902, "total_loss": 1277.513916015625}, "sample_time_ms": 39352.463, "num_steps_trained": 63600, "num_steps_sampled": 63600, "update_time_ms": 2.588, "grad_time_ms": 370.656, "load_time_ms": 0.684}, "iterations_since_restore": 53, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 2296.4817295074463, "episodes_total": 1300, "episode_reward_max": 0.0003518148949925859, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2296.4817295074463, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757056986, "timesteps_since_restore": 64800, "episode_reward_min": -99.74145794833697, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-23-06", "episode_len_mean": 49.56, "timesteps_total": 64800, "episode_reward_mean": -95.3952909287442, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.60006141662598, "training_iteration": 54, "info": {"default": {"policy_loss": -0.1170729398727417, "vf_explained_var": -0.7952179908752441, "vf_loss": 1407.24609375, "kl": 0.014248613268136978, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.089838981628418, "total_loss": 1407.1507568359375}, "sample_time_ms": 39351.042, "num_steps_trained": 64800, "num_steps_sampled": 64800, "update_time_ms": 2.6, "grad_time_ms": 368.401, "load_time_ms": 0.673}, "iterations_since_restore": 54, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 2337.0267148017883, "episodes_total": 1324, "episode_reward_max": 0.0003518148949925859, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2337.0267148017883, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757057027, "timesteps_since_restore": 66000, "episode_reward_min": -99.74145794833697, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-23-47", "episode_len_mean": 49.56, "timesteps_total": 66000, "episode_reward_mean": -95.38242992551076, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.54498529434204, "training_iteration": 55, "info": {"default": {"policy_loss": -0.11749434471130371, "vf_explained_var": -0.6395021080970764, "vf_loss": 1166.013916015625, "kl": 0.013344652950763702, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.95435905456543, "total_loss": 1165.916748046875}, "sample_time_ms": 39474.439, "num_steps_trained": 66000, "num_steps_sampled": 66000, "update_time_ms": 2.623, "grad_time_ms": 366.603, "load_time_ms": 0.672}, "iterations_since_restore": 55, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 2376.384551048279, "episodes_total": 1349, "episode_reward_max": 0.0003518148949925859, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2376.384551048279, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757057066, "timesteps_since_restore": 67200, "episode_reward_min": -99.28330816826107, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-24-26", "episode_len_mean": 49.26, "timesteps_total": 67200, "episode_reward_mean": -94.81801565417373, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.35783624649048, "training_iteration": 56, "info": {"default": {"policy_loss": -0.11888387799263, "vf_explained_var": -0.7377943396568298, "vf_loss": 1171.04443359375, "kl": 0.01409358810633421, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.90943431854248, "total_loss": 1170.9468994140625}, "sample_time_ms": 39470.384, "num_steps_trained": 67200, "num_steps_sampled": 67200, "update_time_ms": 2.656, "grad_time_ms": 367.9, "load_time_ms": 0.669}, "iterations_since_restore": 56, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 2415.792644262314, "episodes_total": 1373, "episode_reward_max": 0.0003518148949925859, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2415.792644262314, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757057105, "timesteps_since_restore": 68400, "episode_reward_min": -99.41484522317616, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-25-05", "episode_len_mean": 49.0, "timesteps_total": 68400, "episode_reward_mean": -94.12576687310212, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.408093214035034, "training_iteration": 57, "info": {"default": {"policy_loss": -0.10748697817325592, "vf_explained_var": -0.6244852542877197, "vf_loss": 1294.083251953125, "kl": 0.014127884991466999, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.035603523254395, "total_loss": 1293.9971923828125}, "sample_time_ms": 39455.185, "num_steps_trained": 68400, "num_steps_sampled": 68400, "update_time_ms": 2.693, "grad_time_ms": 366.588, "load_time_ms": 0.663}, "iterations_since_restore": 57, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 2455.459967851639, "episodes_total": 1397, "episode_reward_max": -27.203761082071445, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2455.459967851639, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757057145, "timesteps_since_restore": 69600, "episode_reward_min": -99.41484522317616, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-25-45", "episode_len_mean": 49.42, "timesteps_total": 69600, "episode_reward_mean": -94.85607122066529, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.66732358932495, "training_iteration": 58, "info": {"default": {"policy_loss": -0.10801828652620316, "vf_explained_var": -0.6408900022506714, "vf_loss": 1237.039306640625, "kl": 0.014009807258844376, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.908944129943848, "total_loss": 1236.95263671875}, "sample_time_ms": 39469.081, "num_steps_trained": 69600, "num_steps_sampled": 69600, "update_time_ms": 2.64, "grad_time_ms": 364.323, "load_time_ms": 0.661}, "iterations_since_restore": 58, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 2496.267740011215, "episodes_total": 1422, "episode_reward_max": -15.492149453011866, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2496.267740011215, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757057186, "timesteps_since_restore": 70800, "episode_reward_min": -99.41484522317616, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-26-26", "episode_len_mean": 49.0, "timesteps_total": 70800, "episode_reward_mean": -93.59088503031008, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.807772159576416, "training_iteration": 59, "info": {"default": {"policy_loss": -0.12167921662330627, "vf_explained_var": -0.6976935863494873, "vf_loss": 1244.8367919921875, "kl": 0.013773087412118912, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.775181770324707, "total_loss": 1244.736083984375}, "sample_time_ms": 39533.686, "num_steps_trained": 70800, "num_steps_sampled": 70800, "update_time_ms": 2.663, "grad_time_ms": 365.701, "load_time_ms": 0.667}, "iterations_since_restore": 59, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 2535.845315217972, "episodes_total": 1446, "episode_reward_max": -15.492149453011866, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2535.845315217972, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757057225, "timesteps_since_restore": 72000, "episode_reward_min": -99.41484522317616, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-27-05", "episode_len_mean": 49.27, "timesteps_total": 72000, "episode_reward_mean": -93.87288976147623, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.57757520675659, "training_iteration": 60, "info": {"default": {"policy_loss": -0.11935912072658539, "vf_explained_var": -0.8063184022903442, "vf_loss": 1271.5775146484375, "kl": 0.014443819411098957, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.863423347473145, "total_loss": 1271.47998046875}, "sample_time_ms": 39542.959, "num_steps_trained": 72000, "num_steps_sampled": 72000, "update_time_ms": 2.648, "grad_time_ms": 365.258, "load_time_ms": 0.664}, "iterations_since_restore": 60, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 2575.6522471904755, "episodes_total": 1470, "episode_reward_max": -15.492149453011866, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2575.6522471904755, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757057265, "timesteps_since_restore": 73200, "episode_reward_min": -99.27016227674306, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-27-45", "episode_len_mean": 49.46, "timesteps_total": 73200, "episode_reward_mean": -94.23675346799804, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.80693197250366, "training_iteration": 61, "info": {"default": {"policy_loss": -0.11347237229347229, "vf_explained_var": -0.7876231074333191, "vf_loss": 1332.0191650390625, "kl": 0.012887651100754738, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.88720703125, "total_loss": 1331.92529296875}, "sample_time_ms": 39516.944, "num_steps_trained": 73200, "num_steps_sampled": 73200, "update_time_ms": 2.65, "grad_time_ms": 368.085, "load_time_ms": 0.683}, "iterations_since_restore": 61, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 2615.2938845157623, "episodes_total": 1495, "episode_reward_max": -1.9993872308851142, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2615.2938845157623, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757057305, "timesteps_since_restore": 74400, "episode_reward_min": -99.27016227674306, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-28-25", "episode_len_mean": 49.05, "timesteps_total": 74400, "episode_reward_mean": -93.15189633838985, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.641637325286865, "training_iteration": 62, "info": {"default": {"policy_loss": -0.12483645975589752, "vf_explained_var": -0.7310283780097961, "vf_loss": 1358.9737548828125, "kl": 0.01425371877849102, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 15.001273155212402, "total_loss": 1358.8704833984375}, "sample_time_ms": 39455.094, "num_steps_trained": 74400, "num_steps_sampled": 74400, "update_time_ms": 2.653, "grad_time_ms": 366.204, "load_time_ms": 0.675}, "iterations_since_restore": 62, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 2654.813741207123, "episodes_total": 1519, "episode_reward_max": -1.9993872308851142, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2654.813741207123, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757057344, "timesteps_since_restore": 75600, "episode_reward_min": -98.88590210179923, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-29-04", "episode_len_mean": 49.46, "timesteps_total": 75600, "episode_reward_mean": -94.29093292568206, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.519856691360474, "training_iteration": 63, "info": {"default": {"policy_loss": -0.11921918392181396, "vf_explained_var": -0.6850407123565674, "vf_loss": 1233.790771484375, "kl": 0.014056752435863018, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.772364616394043, "total_loss": 1233.69287109375}, "sample_time_ms": 39417.528, "num_steps_trained": 75600, "num_steps_sampled": 75600, "update_time_ms": 2.641, "grad_time_ms": 367.816, "load_time_ms": 0.674}, "iterations_since_restore": 63, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 2694.074815273285, "episodes_total": 1544, "episode_reward_max": -1.9993872308851142, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2694.074815273285, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757057384, "timesteps_since_restore": 76800, "episode_reward_min": -98.88590210179923, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-29-44", "episode_len_mean": 49.09, "timesteps_total": 76800, "episode_reward_mean": -93.75938100607296, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.26107406616211, "training_iteration": 64, "info": {"default": {"policy_loss": -0.12742651998996735, "vf_explained_var": -0.8115355968475342, "vf_loss": 1266.219970703125, "kl": 0.015595532022416592, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.760162353515625, "total_loss": 1266.1163330078125}, "sample_time_ms": 39381.749, "num_steps_trained": 76800, "num_steps_sampled": 76800, "update_time_ms": 2.643, "grad_time_ms": 369.703, "load_time_ms": 0.673}, "iterations_since_restore": 64, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 2733.5472178459167, "episodes_total": 1568, "episode_reward_max": -1.9993872308851142, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2733.5472178459167, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757057423, "timesteps_since_restore": 78000, "episode_reward_min": -98.88590210179923, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-30-23", "episode_len_mean": 48.73, "timesteps_total": 78000, "episode_reward_mean": -92.84363356812214, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.472402572631836, "training_iteration": 65, "info": {"default": {"policy_loss": -0.12782728672027588, "vf_explained_var": -0.7338828444480896, "vf_loss": 1404.75244140625, "kl": 0.015384836122393608, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.93954849243164, "total_loss": 1404.64794921875}, "sample_time_ms": 39274.787, "num_steps_trained": 78000, "num_steps_sampled": 78000, "update_time_ms": 2.62, "grad_time_ms": 369.457, "load_time_ms": 0.671}, "iterations_since_restore": 65, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 2774.3927145004272, "episodes_total": 1592, "episode_reward_max": -1.9993872308851142, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2774.3927145004272, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757057464, "timesteps_since_restore": 79200, "episode_reward_min": -98.88590210179923, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-31-04", "episode_len_mean": 48.73, "timesteps_total": 79200, "episode_reward_mean": -92.98045089245396, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.8454966545105, "training_iteration": 66, "info": {"default": {"policy_loss": -0.11827827990055084, "vf_explained_var": -0.7153266668319702, "vf_loss": 1454.8536376953125, "kl": 0.014339129440486431, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.795185089111328, "total_loss": 1454.7572021484375}, "sample_time_ms": 39422.622, "num_steps_trained": 79200, "num_steps_sampled": 79200, "update_time_ms": 2.58, "grad_time_ms": 370.44, "load_time_ms": 0.685}, "iterations_since_restore": 66, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 2813.9867918491364, "episodes_total": 1616, "episode_reward_max": -4.9780861111138215, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2813.9867918491364, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757057504, "timesteps_since_restore": 80400, "episode_reward_min": -99.67077809198511, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-31-44", "episode_len_mean": 49.16, "timesteps_total": 80400, "episode_reward_mean": -93.97023653901931, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.594077348709106, "training_iteration": 67, "info": {"default": {"policy_loss": -0.1256726235151291, "vf_explained_var": -0.7792177796363831, "vf_loss": 1410.57763671875, "kl": 0.014910591766238213, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.754755973815918, "total_loss": 1410.474609375}, "sample_time_ms": 39439.927, "num_steps_trained": 80400, "num_steps_sampled": 80400, "update_time_ms": 2.53, "grad_time_ms": 371.78, "load_time_ms": 0.679}, "iterations_since_restore": 67, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 2856.3818266391754, "episodes_total": 1641, "episode_reward_max": -23.644817901891635, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2856.3818266391754, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757057546, "timesteps_since_restore": 81600, "episode_reward_min": -99.67077809198511, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-32-26", "episode_len_mean": 49.26, "timesteps_total": 81600, "episode_reward_mean": -94.01887204378245, "num_metric_batches_dropped": 0, "time_this_iter_s": 42.39503479003906, "training_iteration": 68, "info": {"default": {"policy_loss": -0.1114756166934967, "vf_explained_var": -0.8529502153396606, "vf_loss": 1505.773193359375, "kl": 0.013739355839788914, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.881439208984375, "total_loss": 1505.6827392578125}, "sample_time_ms": 39709.917, "num_steps_trained": 81600, "num_steps_sampled": 81600, "update_time_ms": 2.558, "grad_time_ms": 374.533, "load_time_ms": 0.694}, "iterations_since_restore": 68, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 2895.7571568489075, "episodes_total": 1667, "episode_reward_max": 4.000053053712677, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2895.7571568489075, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 26, "timestamp": 1757057586, "timesteps_since_restore": 82800, "episode_reward_min": -99.67077809198511, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-33-06", "episode_len_mean": 48.8, "timesteps_total": 82800, "episode_reward_mean": -93.15178440197847, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.375330209732056, "training_iteration": 69, "info": {"default": {"policy_loss": -0.12111645191907883, "vf_explained_var": -0.8375577330589294, "vf_loss": 1444.084228515625, "kl": 0.013870120979845524, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.712787628173828, "total_loss": 1443.984130859375}, "sample_time_ms": 39566.966, "num_steps_trained": 82800, "num_steps_sampled": 82800, "update_time_ms": 2.585, "grad_time_ms": 374.22, "load_time_ms": 0.702}, "iterations_since_restore": 69, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 2934.9715468883514, "episodes_total": 1691, "episode_reward_max": 4.000053053712677, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2934.9715468883514, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757057625, "timesteps_since_restore": 84000, "episode_reward_min": -99.67077809198511, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-33-45", "episode_len_mean": 48.8, "timesteps_total": 84000, "episode_reward_mean": -93.08883297599336, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.21439003944397, "training_iteration": 70, "info": {"default": {"policy_loss": -0.11689957231283188, "vf_explained_var": -0.8496847152709961, "vf_loss": 1482.9674072265625, "kl": 0.015269067138433456, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.70577335357666, "total_loss": 1482.8736572265625}, "sample_time_ms": 39530.562, "num_steps_trained": 84000, "num_steps_sampled": 84000, "update_time_ms": 2.624, "grad_time_ms": 374.274, "load_time_ms": 0.701}, "iterations_since_restore": 70, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 2974.234623670578, "episodes_total": 1715, "episode_reward_max": 4.000053053712677, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2974.234623670578, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757057664, "timesteps_since_restore": 85200, "episode_reward_min": -98.91209492994403, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-34-24", "episode_len_mean": 48.42, "timesteps_total": 85200, "episode_reward_mean": -92.00249652984647, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.26307678222656, "training_iteration": 71, "info": {"default": {"policy_loss": -0.12901188433170319, "vf_explained_var": -0.7400168180465698, "vf_loss": 1441.9609375, "kl": 0.013734391890466213, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.703145027160645, "total_loss": 1441.8529052734375}, "sample_time_ms": 39478.594, "num_steps_trained": 85200, "num_steps_sampled": 85200, "update_time_ms": 2.634, "grad_time_ms": 371.868, "load_time_ms": 0.684}, "iterations_since_restore": 71, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 3014.9064452648163, "episodes_total": 1740, "episode_reward_max": 4.000053053712677, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3014.9064452648163, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757057705, "timesteps_since_restore": 86400, "episode_reward_min": -98.91209492994403, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-35-05", "episode_len_mean": 48.55, "timesteps_total": 86400, "episode_reward_mean": -92.07312638670783, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.67182159423828, "training_iteration": 72, "info": {"default": {"policy_loss": -0.12010286748409271, "vf_explained_var": -0.7157658934593201, "vf_loss": 1374.425537109375, "kl": 0.014200991950929165, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.659969329833984, "total_loss": 1374.3271484375}, "sample_time_ms": 39579.383, "num_steps_trained": 86400, "num_steps_sampled": 86400, "update_time_ms": 2.627, "grad_time_ms": 374.04, "load_time_ms": 0.691}, "iterations_since_restore": 72, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 3055.9941577911377, "episodes_total": 1764, "episode_reward_max": -10.850094058247965, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3055.9941577911377, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757057746, "timesteps_since_restore": 87600, "episode_reward_min": -98.91209492994403, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-35-46", "episode_len_mean": 49.44, "timesteps_total": 87600, "episode_reward_mean": -94.06861741168404, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.08771252632141, "training_iteration": 73, "info": {"default": {"policy_loss": -0.12331679463386536, "vf_explained_var": -0.868367612361908, "vf_loss": 1466.42333984375, "kl": 0.015404488891363144, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.72174072265625, "total_loss": 1466.323486328125}, "sample_time_ms": 39735.982, "num_steps_trained": 87600, "num_steps_sampled": 87600, "update_time_ms": 2.656, "grad_time_ms": 374.19, "load_time_ms": 0.712}, "iterations_since_restore": 73, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 3095.5210587978363, "episodes_total": 1788, "episode_reward_max": -10.850094058247965, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3095.5210587978363, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757057785, "timesteps_since_restore": 88800, "episode_reward_min": -98.91209492994403, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-36-25", "episode_len_mean": 49.26, "timesteps_total": 88800, "episode_reward_mean": -93.64796187612131, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.52690100669861, "training_iteration": 74, "info": {"default": {"policy_loss": -0.12602178752422333, "vf_explained_var": -0.704736053943634, "vf_loss": 1421.5965576171875, "kl": 0.014658791944384575, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.619993209838867, "total_loss": 1421.492919921875}, "sample_time_ms": 39763.687, "num_steps_trained": 88800, "num_steps_sampled": 88800, "update_time_ms": 2.661, "grad_time_ms": 373.098, "load_time_ms": 0.719}, "iterations_since_restore": 74, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 3134.8117237091064, "episodes_total": 1812, "episode_reward_max": -51.159647839414916, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3134.8117237091064, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757057825, "timesteps_since_restore": 90000, "episode_reward_min": -99.11217337388607, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-37-05", "episode_len_mean": 49.64, "timesteps_total": 90000, "episode_reward_mean": -94.54852719450851, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.29066491127014, "training_iteration": 75, "info": {"default": {"policy_loss": -0.11093804240226746, "vf_explained_var": -0.8788235783576965, "vf_loss": 1541.7625732421875, "kl": 0.013314202427864075, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.735066413879395, "total_loss": 1541.671875}, "sample_time_ms": 39742.517, "num_steps_trained": 90000, "num_steps_sampled": 90000, "update_time_ms": 2.621, "grad_time_ms": 376.088, "load_time_ms": 0.724}, "iterations_since_restore": 75, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 3174.373161315918, "episodes_total": 1838, "episode_reward_max": 6.000121175312251, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3174.373161315918, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 26, "timestamp": 1757057864, "timesteps_since_restore": 91200, "episode_reward_min": -99.95347036537659, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-37-44", "episode_len_mean": 48.98, "timesteps_total": 91200, "episode_reward_mean": -93.20179213458925, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.56143760681152, "training_iteration": 76, "info": {"default": {"policy_loss": -0.13934922218322754, "vf_explained_var": -0.7149174213409424, "vf_loss": 1359.76318359375, "kl": 0.014455546624958515, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.645183563232422, "total_loss": 1359.645751953125}, "sample_time_ms": 39614.966, "num_steps_trained": 91200, "num_steps_sampled": 91200, "update_time_ms": 2.677, "grad_time_ms": 375.174, "load_time_ms": 0.711}, "iterations_since_restore": 76, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 3214.8149993419647, "episodes_total": 1863, "episode_reward_max": 6.000121175312251, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3214.8149993419647, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757057905, "timesteps_since_restore": 92400, "episode_reward_min": -99.95347036537659, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-38-25", "episode_len_mean": 48.82, "timesteps_total": 92400, "episode_reward_mean": -92.70571110371529, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.44183802604675, "training_iteration": 77, "info": {"default": {"policy_loss": -0.11992844939231873, "vf_explained_var": -0.7377911806106567, "vf_loss": 1278.629150390625, "kl": 0.012536305002868176, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.660649299621582, "total_loss": 1278.5281982421875}, "sample_time_ms": 39698.535, "num_steps_trained": 92400, "num_steps_sampled": 92400, "update_time_ms": 2.706, "grad_time_ms": 376.275, "load_time_ms": 0.716}, "iterations_since_restore": 77, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 3254.890125989914, "episodes_total": 1887, "episode_reward_max": 6.000121175312251, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3254.890125989914, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757057945, "timesteps_since_restore": 93600, "episode_reward_min": -99.95347036537659, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-39-05", "episode_len_mean": 49.0, "timesteps_total": 93600, "episode_reward_mean": -93.03447417536711, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.07512664794922, "training_iteration": 78, "info": {"default": {"policy_loss": -0.14315016567707062, "vf_explained_var": -0.8355867266654968, "vf_loss": 1332.9779052734375, "kl": 0.014561666175723076, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.80644416809082, "total_loss": 1332.8568115234375}, "sample_time_ms": 39467.89, "num_steps_trained": 93600, "num_steps_sampled": 93600, "update_time_ms": 2.723, "grad_time_ms": 374.887, "load_time_ms": 0.72}, "iterations_since_restore": 78, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 3294.5911164283752, "episodes_total": 1911, "episode_reward_max": 6.000121175312251, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3294.5911164283752, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757057985, "timesteps_since_restore": 94800, "episode_reward_min": -99.95347036537659, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-39-45", "episode_len_mean": 48.68, "timesteps_total": 94800, "episode_reward_mean": -92.28272196581194, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.700990438461304, "training_iteration": 79, "info": {"default": {"policy_loss": -0.11202865093946457, "vf_explained_var": -0.8265875577926636, "vf_loss": 1337.939208984375, "kl": 0.01239860337227583, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.591854095458984, "total_loss": 1337.8460693359375}, "sample_time_ms": 39499.306, "num_steps_trained": 94800, "num_steps_sampled": 94800, "update_time_ms": 2.733, "grad_time_ms": 376.03, "load_time_ms": 0.715}, "iterations_since_restore": 79, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 3334.203225851059, "episodes_total": 1936, "episode_reward_max": -22.953436262745548, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3334.203225851059, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757058024, "timesteps_since_restore": 96000, "episode_reward_min": -99.00533461100656, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-40-24", "episode_len_mean": 49.24, "timesteps_total": 96000, "episode_reward_mean": -93.34538892385991, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.612109422683716, "training_iteration": 80, "info": {"default": {"policy_loss": -0.13744229078292847, "vf_explained_var": -0.8383387923240662, "vf_loss": 1358.778564453125, "kl": 0.016763733699917793, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.809589385986328, "total_loss": 1358.66650390625}, "sample_time_ms": 39537.298, "num_steps_trained": 96000, "num_steps_sampled": 96000, "update_time_ms": 2.731, "grad_time_ms": 377.802, "load_time_ms": 0.717}, "iterations_since_restore": 80, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 3373.748108625412, "episodes_total": 1960, "episode_reward_max": -22.953436262745548, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3373.748108625412, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757058064, "timesteps_since_restore": 97200, "episode_reward_min": -99.00533461100656, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-41-04", "episode_len_mean": 49.4, "timesteps_total": 97200, "episode_reward_mean": -93.75193330389237, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.54488277435303, "training_iteration": 81, "info": {"default": {"policy_loss": -0.13914304971694946, "vf_explained_var": -0.7684550881385803, "vf_loss": 1253.505859375, "kl": 0.016430504620075226, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.660588264465332, "total_loss": 1253.3916015625}, "sample_time_ms": 39563.463, "num_steps_trained": 97200, "num_steps_sampled": 97200, "update_time_ms": 2.731, "grad_time_ms": 379.758, "load_time_ms": 0.727}, "iterations_since_restore": 81, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 3414.0071108341217, "episodes_total": 1985, "episode_reward_max": -22.953436262745548, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3414.0071108341217, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757058104, "timesteps_since_restore": 98400, "episode_reward_min": -99.00533461100656, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-41-44", "episode_len_mean": 49.13, "timesteps_total": 98400, "episode_reward_mean": -93.15750201143572, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.25900220870972, "training_iteration": 82, "info": {"default": {"policy_loss": -0.12520775198936462, "vf_explained_var": -0.7197333574295044, "vf_loss": 1181.3369140625, "kl": 0.012717803940176964, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.472301483154297, "total_loss": 1181.23095703125}, "sample_time_ms": 39524.268, "num_steps_trained": 98400, "num_steps_sampled": 98400, "update_time_ms": 2.738, "grad_time_ms": 377.681, "load_time_ms": 0.721}, "iterations_since_restore": 82, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 3453.6980850696564, "episodes_total": 2010, "episode_reward_max": -22.953436262745548, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3453.6980850696564, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757058144, "timesteps_since_restore": 99600, "episode_reward_min": -98.64335357108855, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-42-24", "episode_len_mean": 48.8, "timesteps_total": 99600, "episode_reward_mean": -92.10296236394171, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.69097423553467, "training_iteration": 83, "info": {"default": {"policy_loss": -0.13084162771701813, "vf_explained_var": -0.7179859280586243, "vf_loss": 1217.015869140625, "kl": 0.014154477044939995, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.574589729309082, "total_loss": 1216.90673828125}, "sample_time_ms": 39384.567, "num_steps_trained": 99600, "num_steps_sampled": 99600, "update_time_ms": 2.717, "grad_time_ms": 377.746, "load_time_ms": 0.715}, "iterations_since_restore": 83, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 3493.055896282196, "episodes_total": 2035, "episode_reward_max": -11.214397873475125, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3493.055896282196, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757058183, "timesteps_since_restore": 100800, "episode_reward_min": -98.64335357108855, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-43-03", "episode_len_mean": 48.87, "timesteps_total": 100800, "episode_reward_mean": -92.1441843565216, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.35781121253967, "training_iteration": 84, "info": {"default": {"policy_loss": -0.12973764538764954, "vf_explained_var": -0.8013476133346558, "vf_loss": 1265.78515625, "kl": 0.01479149330407381, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.595348358154297, "total_loss": 1265.677978515625}, "sample_time_ms": 39367.283, "num_steps_trained": 100800, "num_steps_sampled": 100800, "update_time_ms": 2.674, "grad_time_ms": 378.187, "load_time_ms": 0.711}, "iterations_since_restore": 84, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 3532.1678969860077, "episodes_total": 2059, "episode_reward_max": -11.214397873475125, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3532.1678969860077, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757058222, "timesteps_since_restore": 102000, "episode_reward_min": -98.65428869049143, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-43-42", "episode_len_mean": 48.63, "timesteps_total": 102000, "episode_reward_mean": -91.5765380679591, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.112000703811646, "training_iteration": 85, "info": {"default": {"policy_loss": -0.13400238752365112, "vf_explained_var": -0.7590630650520325, "vf_loss": 1216.08837890625, "kl": 0.014434733428061008, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.481328010559082, "total_loss": 1215.9761962890625}, "sample_time_ms": 39350.765, "num_steps_trained": 102000, "num_steps_sampled": 102000, "update_time_ms": 2.675, "grad_time_ms": 376.879, "load_time_ms": 0.709}, "iterations_since_restore": 85, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 3571.9437353610992, "episodes_total": 2084, "episode_reward_max": -11.214397873475125, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3571.9437353610992, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757058262, "timesteps_since_restore": 103200, "episode_reward_min": -98.65428869049143, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-44-22", "episode_len_mean": 48.29, "timesteps_total": 103200, "episode_reward_mean": -90.4988057032626, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.77583837509155, "training_iteration": 86, "info": {"default": {"policy_loss": -0.1352127194404602, "vf_explained_var": -0.7694054841995239, "vf_loss": 1279.8466796875, "kl": 0.013780518434941769, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.635279655456543, "total_loss": 1279.732421875}, "sample_time_ms": 39372.494, "num_steps_trained": 103200, "num_steps_sampled": 103200, "update_time_ms": 2.631, "grad_time_ms": 376.616, "load_time_ms": 0.709}, "iterations_since_restore": 86, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 3612.4353065490723, "episodes_total": 2108, "episode_reward_max": -11.214397873475125, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3612.4353065490723, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757058303, "timesteps_since_restore": 104400, "episode_reward_min": -98.65428869049143, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-45-03", "episode_len_mean": 48.27, "timesteps_total": 104400, "episode_reward_mean": -90.41396429771926, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.49157118797302, "training_iteration": 87, "info": {"default": {"policy_loss": -0.12616127729415894, "vf_explained_var": -0.6815150380134583, "vf_loss": 1306.1568603515625, "kl": 0.01430341973900795, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.445652961730957, "total_loss": 1306.052490234375}, "sample_time_ms": 39380.407, "num_steps_trained": 104400, "num_steps_sampled": 104400, "update_time_ms": 2.643, "grad_time_ms": 373.724, "load_time_ms": 0.702}, "iterations_since_restore": 87, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 3653.3002531528473, "episodes_total": 2134, "episode_reward_max": -3.997975414423312, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3653.3002531528473, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 26, "timestamp": 1757058343, "timesteps_since_restore": 105600, "episode_reward_min": -98.65428869049143, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-45-43", "episode_len_mean": 48.34, "timesteps_total": 105600, "episode_reward_mean": -90.80318936670086, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.864946603775024, "training_iteration": 88, "info": {"default": {"policy_loss": -0.1334967315196991, "vf_explained_var": -0.6380273699760437, "vf_loss": 1213.8148193359375, "kl": 0.012935853563249111, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.36754035949707, "total_loss": 1213.700927734375}, "sample_time_ms": 39460.797, "num_steps_trained": 105600, "num_steps_sampled": 105600, "update_time_ms": 2.635, "grad_time_ms": 372.361, "load_time_ms": 0.681}, "iterations_since_restore": 88, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 3693.631511926651, "episodes_total": 2158, "episode_reward_max": -3.997975414423312, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3693.631511926651, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757058384, "timesteps_since_restore": 106800, "episode_reward_min": -98.24797769203951, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-46-24", "episode_len_mean": 48.56, "timesteps_total": 106800, "episode_reward_mean": -90.99364797423432, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.33125877380371, "training_iteration": 89, "info": {"default": {"policy_loss": -0.12447737157344818, "vf_explained_var": -0.7024554014205933, "vf_loss": 1391.6220703125, "kl": 0.0132230743765831, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.670820236206055, "total_loss": 1391.517578125}, "sample_time_ms": 39523.771, "num_steps_trained": 106800, "num_steps_sampled": 106800, "update_time_ms": 2.605, "grad_time_ms": 372.441, "load_time_ms": 0.673}, "iterations_since_restore": 89, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 3733.2376823425293, "episodes_total": 2183, "episode_reward_max": -3.997975414423312, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3733.2376823425293, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757058423, "timesteps_since_restore": 108000, "episode_reward_min": -98.24797769203951, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-47-03", "episode_len_mean": 48.81, "timesteps_total": 108000, "episode_reward_mean": -91.91656964321133, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.606170415878296, "training_iteration": 90, "info": {"default": {"policy_loss": -0.12343389540910721, "vf_explained_var": -0.7522183656692505, "vf_loss": 1313.740478515625, "kl": 0.013148748315870762, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.441105842590332, "total_loss": 1313.636962890625}, "sample_time_ms": 39523.026, "num_steps_trained": 108000, "num_steps_sampled": 108000, "update_time_ms": 2.573, "grad_time_ms": 372.598, "load_time_ms": 0.678}, "iterations_since_restore": 90, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 3772.6295347213745, "episodes_total": 2208, "episode_reward_max": -3.997975414423312, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3772.6295347213745, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757058463, "timesteps_since_restore": 109200, "episode_reward_min": -98.24797769203951, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-47-43", "episode_len_mean": 48.66, "timesteps_total": 109200, "episode_reward_mean": -91.53333386537496, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.391852378845215, "training_iteration": 91, "info": {"default": {"policy_loss": -0.1350879818201065, "vf_explained_var": -0.7921785116195679, "vf_loss": 1361.46142578125, "kl": 0.015546958893537521, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.588252067565918, "total_loss": 1361.35009765625}, "sample_time_ms": 39509.201, "num_steps_trained": 109200, "num_steps_sampled": 109200, "update_time_ms": 2.494, "grad_time_ms": 371.179, "load_time_ms": 0.67}, "iterations_since_restore": 91, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 3812.202374458313, "episodes_total": 2234, "episode_reward_max": 4.00001616636901, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3812.202374458313, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 26, "timestamp": 1757058502, "timesteps_since_restore": 110400, "episode_reward_min": -98.82353254833036, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-48-22", "episode_len_mean": 48.39, "timesteps_total": 110400, "episode_reward_mean": -90.93243457794921, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.57283973693848, "training_iteration": 92, "info": {"default": {"policy_loss": -0.1397992968559265, "vf_explained_var": -0.7277428507804871, "vf_loss": 1268.1785888671875, "kl": 0.013954643160104752, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.450602531433105, "total_loss": 1268.06005859375}, "sample_time_ms": 39437.924, "num_steps_trained": 110400, "num_steps_sampled": 110400, "update_time_ms": 2.505, "grad_time_ms": 373.846, "load_time_ms": 0.674}, "iterations_since_restore": 92, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 3852.472179412842, "episodes_total": 2258, "episode_reward_max": 4.00001616636901, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3852.472179412842, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757058543, "timesteps_since_restore": 111600, "episode_reward_min": -98.82353254833036, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-49-03", "episode_len_mean": 48.31, "timesteps_total": 111600, "episode_reward_mean": -90.92793259762946, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.26980495452881, "training_iteration": 93, "info": {"default": {"policy_loss": -0.11859643459320068, "vf_explained_var": -0.8051366806030273, "vf_loss": 1305.526611328125, "kl": 0.013030358590185642, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.40727710723877, "total_loss": 1305.4276123046875}, "sample_time_ms": 39495.742, "num_steps_trained": 111600, "num_steps_sampled": 111600, "update_time_ms": 2.514, "grad_time_ms": 373.921, "load_time_ms": 0.663}, "iterations_since_restore": 93, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 3892.718899488449, "episodes_total": 2283, "episode_reward_max": 8.000000626380414, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3892.718899488449, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757058583, "timesteps_since_restore": 112800, "episode_reward_min": -99.67159319227893, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-49-43", "episode_len_mean": 47.97, "timesteps_total": 112800, "episode_reward_mean": -90.0361769050709, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.2467200756073, "training_iteration": 94, "info": {"default": {"policy_loss": -0.12706464529037476, "vf_explained_var": -0.6922283172607422, "vf_loss": 1256.00927734375, "kl": 0.013829665258526802, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.449162483215332, "total_loss": 1255.9031982421875}, "sample_time_ms": 39586.556, "num_steps_trained": 112800, "num_steps_sampled": 112800, "update_time_ms": 2.57, "grad_time_ms": 371.868, "load_time_ms": 0.66}, "iterations_since_restore": 94, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 3932.1954398155212, "episodes_total": 2307, "episode_reward_max": 8.000000626380414, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3932.1954398155212, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757058623, "timesteps_since_restore": 114000, "episode_reward_min": -99.67159319227893, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-50-23", "episode_len_mean": 47.97, "timesteps_total": 114000, "episode_reward_mean": -89.91161989950771, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.476540327072144, "training_iteration": 95, "info": {"default": {"policy_loss": -0.12769797444343567, "vf_explained_var": -0.835317850112915, "vf_loss": 1271.8857421875, "kl": 0.013692040927708149, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.606809616088867, "total_loss": 1271.77880859375}, "sample_time_ms": 39622.478, "num_steps_trained": 114000, "num_steps_sampled": 114000, "update_time_ms": 2.608, "grad_time_ms": 372.309, "load_time_ms": 0.657}, "iterations_since_restore": 95, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 3972.006548166275, "episodes_total": 2331, "episode_reward_max": 8.000000626380414, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3972.006548166275, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757058662, "timesteps_since_restore": 115200, "episode_reward_min": -99.67159319227893, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-51-02", "episode_len_mean": 48.74, "timesteps_total": 115200, "episode_reward_mean": -91.42405542066044, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.811108350753784, "training_iteration": 96, "info": {"default": {"policy_loss": -0.12828432023525238, "vf_explained_var": -0.8225513100624084, "vf_loss": 1290.9388427734375, "kl": 0.014161131344735622, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.659083366394043, "total_loss": 1290.8319091796875}, "sample_time_ms": 39626.952, "num_steps_trained": 115200, "num_steps_sampled": 115200, "update_time_ms": 2.661, "grad_time_ms": 371.346, "load_time_ms": 0.66}, "iterations_since_restore": 96, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 4011.450345516205, "episodes_total": 2355, "episode_reward_max": 8.000000626380414, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4011.450345516205, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757058702, "timesteps_since_restore": 116400, "episode_reward_min": -99.67159319227893, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-51-42", "episode_len_mean": 49.13, "timesteps_total": 116400, "episode_reward_mean": -92.14809097032618, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.44379734992981, "training_iteration": 97, "info": {"default": {"policy_loss": -0.12369023263454437, "vf_explained_var": -0.7001688480377197, "vf_loss": 1321.4957275390625, "kl": 0.01417472306638956, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.507431030273438, "total_loss": 1321.3936767578125}, "sample_time_ms": 39521.03, "num_steps_trained": 116400, "num_steps_sampled": 116400, "update_time_ms": 2.659, "grad_time_ms": 372.508, "load_time_ms": 0.661}, "iterations_since_restore": 97, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 4051.8405804634094, "episodes_total": 2381, "episode_reward_max": -0.8623036430433348, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4051.8405804634094, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 26, "timestamp": 1757058742, "timesteps_since_restore": 117600, "episode_reward_min": -98.65808413022033, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-52-22", "episode_len_mean": 49.1, "timesteps_total": 117600, "episode_reward_mean": -91.9390151541808, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.39023494720459, "training_iteration": 98, "info": {"default": {"policy_loss": -0.12361233681440353, "vf_explained_var": -0.6893749833106995, "vf_loss": 1339.0335693359375, "kl": 0.012651519849896431, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.525715827941895, "total_loss": 1338.92919921875}, "sample_time_ms": 39472.888, "num_steps_trained": 117600, "num_steps_sampled": 117600, "update_time_ms": 2.617, "grad_time_ms": 373.195, "load_time_ms": 0.66}, "iterations_since_restore": 98, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 4091.3177053928375, "episodes_total": 2405, "episode_reward_max": -0.8623036430433348, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4091.3177053928375, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757058782, "timesteps_since_restore": 118800, "episode_reward_min": -98.65808413022033, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-53-02", "episode_len_mean": 48.91, "timesteps_total": 118800, "episode_reward_mean": -91.56218911970426, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.4771249294281, "training_iteration": 99, "info": {"default": {"policy_loss": -0.12996141612529755, "vf_explained_var": -0.6879364848136902, "vf_loss": 1226.499267578125, "kl": 0.013090429827570915, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.264156341552734, "total_loss": 1226.38916015625}, "sample_time_ms": 39388.308, "num_steps_trained": 118800, "num_steps_sampled": 118800, "update_time_ms": 2.604, "grad_time_ms": 372.391, "load_time_ms": 0.665}, "iterations_since_restore": 99, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 4131.929502725601, "episodes_total": 2430, "episode_reward_max": -0.8623036430433348, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4131.929502725601, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757058822, "timesteps_since_restore": 120000, "episode_reward_min": -98.65808413022033, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-53-42", "episode_len_mean": 48.53, "timesteps_total": 120000, "episode_reward_mean": -90.6722668874676, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.61179733276367, "training_iteration": 100, "info": {"default": {"policy_loss": -0.12610876560211182, "vf_explained_var": -0.7208593487739563, "vf_loss": 1330.7509765625, "kl": 0.015414144843816757, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.612319946289062, "total_loss": 1330.6484375}, "sample_time_ms": 39489.004, "num_steps_trained": 120000, "num_steps_sampled": 120000, "update_time_ms": 2.594, "grad_time_ms": 372.271, "load_time_ms": 0.664}, "iterations_since_restore": 100, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 4171.638799190521, "episodes_total": 2455, "episode_reward_max": -0.8623036430433348, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4171.638799190521, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757058862, "timesteps_since_restore": 121200, "episode_reward_min": -98.59235636316156, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-54-22", "episode_len_mean": 48.2, "timesteps_total": 121200, "episode_reward_mean": -89.87182315856832, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.709296464920044, "training_iteration": 101, "info": {"default": {"policy_loss": -0.13537178933620453, "vf_explained_var": -0.7545949816703796, "vf_loss": 1342.203857421875, "kl": 0.012797577306628227, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.42364501953125, "total_loss": 1342.087890625}, "sample_time_ms": 39519.179, "num_steps_trained": 121200, "num_steps_sampled": 121200, "update_time_ms": 2.66, "grad_time_ms": 373.827, "load_time_ms": 0.661}, "iterations_since_restore": 101, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 4211.959341049194, "episodes_total": 2480, "episode_reward_max": -10.884532350884989, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4211.959341049194, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757058902, "timesteps_since_restore": 122400, "episode_reward_min": -98.57299483449458, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-55-02", "episode_len_mean": 48.25, "timesteps_total": 122400, "episode_reward_mean": -89.98863309959452, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.320541858673096, "training_iteration": 102, "info": {"default": {"policy_loss": -0.13196353614330292, "vf_explained_var": -0.7257111072540283, "vf_loss": 1264.954833984375, "kl": 0.012943681329488754, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.39761734008789, "total_loss": 1264.842529296875}, "sample_time_ms": 39594.908, "num_steps_trained": 122400, "num_steps_sampled": 122400, "update_time_ms": 2.633, "grad_time_ms": 372.824, "load_time_ms": 0.67}, "iterations_since_restore": 102, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 4251.517222166061, "episodes_total": 2507, "episode_reward_max": 2.0001451754649286, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4251.517222166061, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 27, "timestamp": 1757058942, "timesteps_since_restore": 123600, "episode_reward_min": -98.57299483449458, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-55-42", "episode_len_mean": 47.25, "timesteps_total": 123600, "episode_reward_mean": -87.55852704940622, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.557881116867065, "training_iteration": 103, "info": {"default": {"policy_loss": -0.13941900432109833, "vf_explained_var": -0.7271550297737122, "vf_loss": 1208.2171630859375, "kl": 0.013971247710287571, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.344569206237793, "total_loss": 1208.0989990234375}, "sample_time_ms": 39523.127, "num_steps_trained": 123600, "num_steps_sampled": 123600, "update_time_ms": 2.64, "grad_time_ms": 373.388, "load_time_ms": 0.674}, "iterations_since_restore": 103, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 4291.174126625061, "episodes_total": 2533, "episode_reward_max": 2.0001451754649286, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4291.174126625061, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 26, "timestamp": 1757058982, "timesteps_since_restore": 124800, "episode_reward_min": -98.57299483449458, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-56-22", "episode_len_mean": 46.22, "timesteps_total": 124800, "episode_reward_mean": -85.07522195311711, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.656904458999634, "training_iteration": 104, "info": {"default": {"policy_loss": -0.14529167115688324, "vf_explained_var": -0.5986616611480713, "vf_loss": 1199.82861328125, "kl": 0.01550381351262331, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.241019248962402, "total_loss": 1199.706787109375}, "sample_time_ms": 39461.785, "num_steps_trained": 124800, "num_steps_sampled": 124800, "update_time_ms": 2.604, "grad_time_ms": 375.819, "load_time_ms": 0.673}, "iterations_since_restore": 104, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 4330.911571025848, "episodes_total": 2559, "episode_reward_max": 2.0001451754649286, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4330.911571025848, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 26, "timestamp": 1757059021, "timesteps_since_restore": 126000, "episode_reward_min": -98.57299483449458, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-57-01", "episode_len_mean": 45.73, "timesteps_total": 126000, "episode_reward_mean": -83.7779271234175, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.73744440078735, "training_iteration": 105, "info": {"default": {"policy_loss": -0.13557781279087067, "vf_explained_var": -0.7251700162887573, "vf_loss": 1469.652099609375, "kl": 0.014094488695263863, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.695916175842285, "total_loss": 1469.537841796875}, "sample_time_ms": 39489.917, "num_steps_trained": 126000, "num_steps_sampled": 126000, "update_time_ms": 2.567, "grad_time_ms": 373.858, "load_time_ms": 0.673}, "iterations_since_restore": 105, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 4370.299827575684, "episodes_total": 2583, "episode_reward_max": 2.0001451754649286, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4370.299827575684, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757059061, "timesteps_since_restore": 127200, "episode_reward_min": -97.69248243761508, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-57-41", "episode_len_mean": 46.29, "timesteps_total": 127200, "episode_reward_mean": -84.86832633049586, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.388256549835205, "training_iteration": 106, "info": {"default": {"policy_loss": -0.1286298632621765, "vf_explained_var": -0.6911599040031433, "vf_loss": 1283.3978271484375, "kl": 0.01205131784081459, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.28690242767334, "total_loss": 1283.287353515625}, "sample_time_ms": 39447.32, "num_steps_trained": 127200, "num_steps_sampled": 127200, "update_time_ms": 2.525, "grad_time_ms": 374.124, "load_time_ms": 0.674}, "iterations_since_restore": 106, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 4410.588941335678, "episodes_total": 2611, "episode_reward_max": 8.000000556873898, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4410.588941335678, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 28, "timestamp": 1757059101, "timesteps_since_restore": 128400, "episode_reward_min": -97.69248243761508, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-58-21", "episode_len_mean": 45.79, "timesteps_total": 128400, "episode_reward_mean": -83.72403659391642, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.28911375999451, "training_iteration": 107, "info": {"default": {"policy_loss": -0.14121533930301666, "vf_explained_var": -0.6332085132598877, "vf_loss": 1208.4132080078125, "kl": 0.013064881786704063, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.45235538482666, "total_loss": 1208.291748046875}, "sample_time_ms": 39533.179, "num_steps_trained": 128400, "num_steps_sampled": 128400, "update_time_ms": 2.555, "grad_time_ms": 372.765, "load_time_ms": 0.675}, "iterations_since_restore": 107, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 4450.672970294952, "episodes_total": 2635, "episode_reward_max": 8.000000556873898, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4450.672970294952, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757059141, "timesteps_since_restore": 129600, "episode_reward_min": -97.69248243761508, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-59-01", "episode_len_mean": 47.54, "timesteps_total": 129600, "episode_reward_mean": -87.48769695360208, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.08402895927429, "training_iteration": 108, "info": {"default": {"policy_loss": -0.11794180423021317, "vf_explained_var": -0.6836737394332886, "vf_loss": 1169.478759765625, "kl": 0.011887339875102043, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.23068904876709, "total_loss": 1169.3787841796875}, "sample_time_ms": 39503.951, "num_steps_trained": 129600, "num_steps_sampled": 129600, "update_time_ms": 2.567, "grad_time_ms": 371.427, "load_time_ms": 0.681}, "iterations_since_restore": 108, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 4490.002255439758, "episodes_total": 2659, "episode_reward_max": 8.000000556873898, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4490.002255439758, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757059181, "timesteps_since_restore": 130800, "episode_reward_min": -97.56987371025008, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_09-59-41", "episode_len_mean": 48.0, "timesteps_total": 130800, "episode_reward_mean": -88.39783705273358, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.32928514480591, "training_iteration": 109, "info": {"default": {"policy_loss": -0.13918131589889526, "vf_explained_var": -0.5914474129676819, "vf_loss": 1184.5008544921875, "kl": 0.014344491995871067, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.348090171813965, "total_loss": 1184.3834228515625}, "sample_time_ms": 39489.616, "num_steps_trained": 130800, "num_steps_sampled": 130800, "update_time_ms": 2.539, "grad_time_ms": 370.952, "load_time_ms": 0.675}, "iterations_since_restore": 109, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 4529.368904590607, "episodes_total": 2684, "episode_reward_max": 8.000000556873898, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4529.368904590607, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757059220, "timesteps_since_restore": 132000, "episode_reward_min": -97.56987371025008, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-00-20", "episode_len_mean": 47.4, "timesteps_total": 132000, "episode_reward_mean": -87.00620916041575, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.36664915084839, "training_iteration": 110, "info": {"default": {"policy_loss": -0.12146135419607162, "vf_explained_var": -0.6728910803794861, "vf_loss": 1314.810546875, "kl": 0.015522264875471592, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.435253143310547, "total_loss": 1314.712646484375}, "sample_time_ms": 39365.253, "num_steps_trained": 132000, "num_steps_sampled": 132000, "update_time_ms": 2.581, "grad_time_ms": 370.773, "load_time_ms": 0.674}, "iterations_since_restore": 110, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 4568.8627409935, "episodes_total": 2709, "episode_reward_max": 2.000564842219914, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4568.8627409935, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757059260, "timesteps_since_restore": 133200, "episode_reward_min": -97.56987371025008, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-01-00", "episode_len_mean": 48.2, "timesteps_total": 133200, "episode_reward_mean": -88.8390887852757, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.493836402893066, "training_iteration": 111, "info": {"default": {"policy_loss": -0.1280023455619812, "vf_explained_var": -0.6252808570861816, "vf_loss": 1366.137939453125, "kl": 0.0127107547596097, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.477316856384277, "total_loss": 1366.029296875}, "sample_time_ms": 39343.04, "num_steps_trained": 133200, "num_steps_sampled": 133200, "update_time_ms": 2.551, "grad_time_ms": 371.437, "load_time_ms": 0.692}, "iterations_since_restore": 111, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 4609.01319026947, "episodes_total": 2734, "episode_reward_max": 0.0009718276019512473, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4609.01319026947, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757059300, "timesteps_since_restore": 134400, "episode_reward_min": -97.61994688400574, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-01-40", "episode_len_mean": 48.52, "timesteps_total": 134400, "episode_reward_mean": -89.6002376388698, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.15044927597046, "training_iteration": 112, "info": {"default": {"policy_loss": -0.13011199235916138, "vf_explained_var": -0.628582239151001, "vf_loss": 1306.94873046875, "kl": 0.014215584844350815, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.364208221435547, "total_loss": 1306.8402099609375}, "sample_time_ms": 39325.986, "num_steps_trained": 134400, "num_steps_sampled": 134400, "update_time_ms": 2.599, "grad_time_ms": 371.504, "load_time_ms": 0.683}, "iterations_since_restore": 112, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 4648.32720208168, "episodes_total": 2758, "episode_reward_max": 0.0009718276019512473, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4648.32720208168, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757059339, "timesteps_since_restore": 135600, "episode_reward_min": -97.91680884210615, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-02-19", "episode_len_mean": 48.66, "timesteps_total": 135600, "episode_reward_mean": -90.13711571927233, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.31401181221008, "training_iteration": 113, "info": {"default": {"policy_loss": -0.13734370470046997, "vf_explained_var": -0.7092845439910889, "vf_loss": 1344.01123046875, "kl": 0.013685829006135464, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.206993103027344, "total_loss": 1343.89453125}, "sample_time_ms": 39302.162, "num_steps_trained": 135600, "num_steps_sampled": 135600, "update_time_ms": 2.594, "grad_time_ms": 370.94, "load_time_ms": 0.683}, "iterations_since_restore": 113, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 4687.8613431453705, "episodes_total": 2782, "episode_reward_max": 0.0009718276019512473, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4687.8613431453705, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757059379, "timesteps_since_restore": 136800, "episode_reward_min": -99.41437466969332, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-02-59", "episode_len_mean": 49.1, "timesteps_total": 136800, "episode_reward_mean": -91.24172752550795, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.534141063690186, "training_iteration": 114, "info": {"default": {"policy_loss": -0.1335000991821289, "vf_explained_var": -0.6199471950531006, "vf_loss": 1254.7523193359375, "kl": 0.012628944590687752, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.090336799621582, "total_loss": 1254.6380615234375}, "sample_time_ms": 39289.869, "num_steps_trained": 136800, "num_steps_sampled": 136800, "update_time_ms": 2.593, "grad_time_ms": 370.996, "load_time_ms": 0.68}, "iterations_since_restore": 114, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 4727.454106092453, "episodes_total": 2806, "episode_reward_max": 0.0009718276019512473, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4727.454106092453, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757059418, "timesteps_since_restore": 138000, "episode_reward_min": -99.41437466969332, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-03-38", "episode_len_mean": 48.95, "timesteps_total": 138000, "episode_reward_mean": -90.82603613633479, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.59276294708252, "training_iteration": 115, "info": {"default": {"policy_loss": -0.13439375162124634, "vf_explained_var": -0.763168454170227, "vf_loss": 1381.8828125, "kl": 0.014280266128480434, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.414204597473145, "total_loss": 1381.77001953125}, "sample_time_ms": 39273.388, "num_steps_trained": 138000, "num_steps_sampled": 138000, "update_time_ms": 2.608, "grad_time_ms": 372.976, "load_time_ms": 0.69}, "iterations_since_restore": 115, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 4767.0770490169525, "episodes_total": 2830, "episode_reward_max": -25.970259071711602, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4767.0770490169525, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757059458, "timesteps_since_restore": 139200, "episode_reward_min": -99.41437466969332, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-04-18", "episode_len_mean": 49.57, "timesteps_total": 139200, "episode_reward_mean": -92.07196543144056, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.62294292449951, "training_iteration": 116, "info": {"default": {"policy_loss": -0.13460494577884674, "vf_explained_var": -0.7355523705482483, "vf_loss": 1370.877197265625, "kl": 0.012428522109985352, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.32938289642334, "total_loss": 1370.7615966796875}, "sample_time_ms": 39295.468, "num_steps_trained": 139200, "num_steps_sampled": 139200, "update_time_ms": 2.608, "grad_time_ms": 374.459, "load_time_ms": 0.688}, "iterations_since_restore": 116, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 4806.745561361313, "episodes_total": 2854, "episode_reward_max": -25.970259071711602, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4806.745561361313, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757059498, "timesteps_since_restore": 140400, "episode_reward_min": -99.41437466969332, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-04-58", "episode_len_mean": 49.49, "timesteps_total": 140400, "episode_reward_mean": -91.89032898407444, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.66851234436035, "training_iteration": 117, "info": {"default": {"policy_loss": -0.13095572590827942, "vf_explained_var": -0.6435136198997498, "vf_loss": 1343.6739501953125, "kl": 0.014176915399730206, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.204768180847168, "total_loss": 1343.564453125}, "sample_time_ms": 39231.566, "num_steps_trained": 140400, "num_steps_sampled": 140400, "update_time_ms": 2.565, "grad_time_ms": 376.324, "load_time_ms": 0.689}, "iterations_since_restore": 117, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 4846.353305578232, "episodes_total": 2878, "episode_reward_max": -25.970259071711602, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4846.353305578232, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757059537, "timesteps_since_restore": 141600, "episode_reward_min": -97.50209483333747, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-05-37", "episode_len_mean": 49.49, "timesteps_total": 141600, "episode_reward_mean": -91.5325735221956, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.607744216918945, "training_iteration": 118, "info": {"default": {"policy_loss": -0.1341480314731598, "vf_explained_var": -0.6832515597343445, "vf_loss": 1400.1610107421875, "kl": 0.014663212932646275, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.451936721801758, "total_loss": 1400.04931640625}, "sample_time_ms": 39180.515, "num_steps_trained": 141600, "num_steps_sampled": 141600, "update_time_ms": 2.589, "grad_time_ms": 379.681, "load_time_ms": 0.695}, "iterations_since_restore": 118, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 4886.677313327789, "episodes_total": 2903, "episode_reward_max": -26.861543361075547, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4886.677313327789, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757059577, "timesteps_since_restore": 142800, "episode_reward_min": -96.81885821079129, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-06-17", "episode_len_mean": 49.63, "timesteps_total": 142800, "episode_reward_mean": -91.67890191057045, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.324007749557495, "training_iteration": 119, "info": {"default": {"policy_loss": -0.13761118054389954, "vf_explained_var": -0.6356105208396912, "vf_loss": 1398.140625, "kl": 0.013702097348868847, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.356231689453125, "total_loss": 1398.023681640625}, "sample_time_ms": 39278.864, "num_steps_trained": 142800, "num_steps_sampled": 142800, "update_time_ms": 2.607, "grad_time_ms": 380.815, "load_time_ms": 0.7}, "iterations_since_restore": 119, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 4926.263993024826, "episodes_total": 2928, "episode_reward_max": -1.9998358665034601, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4926.263993024826, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757059617, "timesteps_since_restore": 144000, "episode_reward_min": -96.81885821079129, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-06-57", "episode_len_mean": 48.85, "timesteps_total": 144000, "episode_reward_mean": -89.87223701084233, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.58667969703674, "training_iteration": 120, "info": {"default": {"policy_loss": -0.13915207982063293, "vf_explained_var": -0.6809535622596741, "vf_loss": 1389.11474609375, "kl": 0.014564001001417637, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.36959171295166, "total_loss": 1388.9976806640625}, "sample_time_ms": 39300.469, "num_steps_trained": 144000, "num_steps_sampled": 144000, "update_time_ms": 2.596, "grad_time_ms": 381.202, "load_time_ms": 0.702}, "iterations_since_restore": 120, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 4966.270386457443, "episodes_total": 2954, "episode_reward_max": -1.9998358665034601, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4966.270386457443, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 26, "timestamp": 1757059657, "timesteps_since_restore": 145200, "episode_reward_min": -96.81885821079129, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-07-37", "episode_len_mean": 48.5, "timesteps_total": 145200, "episode_reward_mean": -88.63529885707707, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.00639343261719, "training_iteration": 121, "info": {"default": {"policy_loss": -0.14649122953414917, "vf_explained_var": -0.6459964513778687, "vf_loss": 1267.797119140625, "kl": 0.014623511582612991, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.34007740020752, "total_loss": 1267.6727294921875}, "sample_time_ms": 39352.467, "num_steps_trained": 145200, "num_steps_sampled": 145200, "update_time_ms": 2.633, "grad_time_ms": 380.478, "load_time_ms": 0.682}, "iterations_since_restore": 121, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 5005.648676156998, "episodes_total": 2978, "episode_reward_max": -1.9998358665034601, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5005.648676156998, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757059697, "timesteps_since_restore": 146400, "episode_reward_min": -96.59752957799589, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-08-17", "episode_len_mean": 48.47, "timesteps_total": 146400, "episode_reward_mean": -88.40941951984354, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.37828969955444, "training_iteration": 122, "info": {"default": {"policy_loss": -0.13319838047027588, "vf_explained_var": -0.6883065700531006, "vf_loss": 1264.741943359375, "kl": 0.013303367421030998, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.214632987976074, "total_loss": 1264.629150390625}, "sample_time_ms": 39277.565, "num_steps_trained": 146400, "num_steps_sampled": 146400, "update_time_ms": 2.588, "grad_time_ms": 378.23, "load_time_ms": 0.684}, "iterations_since_restore": 122, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 5045.148354291916, "episodes_total": 3002, "episode_reward_max": -1.9998358665034601, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5045.148354291916, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757059736, "timesteps_since_restore": 147600, "episode_reward_min": -96.59752957799589, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-08-56", "episode_len_mean": 48.67, "timesteps_total": 147600, "episode_reward_mean": -88.58202428056639, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.49967813491821, "training_iteration": 123, "info": {"default": {"policy_loss": -0.12335814535617828, "vf_explained_var": -0.6601841449737549, "vf_loss": 1333.367431640625, "kl": 0.01256219670176506, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.677485466003418, "total_loss": 1333.26318359375}, "sample_time_ms": 39297.678, "num_steps_trained": 147600, "num_steps_sampled": 147600, "update_time_ms": 2.555, "grad_time_ms": 376.75, "load_time_ms": 0.673}, "iterations_since_restore": 123, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 5084.604055404663, "episodes_total": 3028, "episode_reward_max": -9.844541221746876, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5084.604055404663, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 26, "timestamp": 1757059776, "timesteps_since_restore": 148800, "episode_reward_min": -96.59629030112617, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-09-36", "episode_len_mean": 48.43, "timesteps_total": 148800, "episode_reward_mean": -87.96250255304749, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.45570111274719, "training_iteration": 124, "info": {"default": {"policy_loss": -0.14369796216487885, "vf_explained_var": -0.5275052785873413, "vf_loss": 1254.7000732421875, "kl": 0.014305083081126213, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.371440887451172, "total_loss": 1254.5782470703125}, "sample_time_ms": 39291.333, "num_steps_trained": 148800, "num_steps_sampled": 148800, "update_time_ms": 2.532, "grad_time_ms": 375.199, "load_time_ms": 0.675}, "iterations_since_restore": 124, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 5124.201961040497, "episodes_total": 3052, "episode_reward_max": -9.844541221746876, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5124.201961040497, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757059815, "timesteps_since_restore": 150000, "episode_reward_min": -96.62190545730166, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-10-15", "episode_len_mean": 48.83, "timesteps_total": 150000, "episode_reward_mean": -89.00924448400949, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.59790563583374, "training_iteration": 125, "info": {"default": {"policy_loss": -0.13627390563488007, "vf_explained_var": -0.595520555973053, "vf_loss": 1282.876708984375, "kl": 0.01366127748042345, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.370903968811035, "total_loss": 1282.76123046875}, "sample_time_ms": 39291.994, "num_steps_trained": 150000, "num_steps_sampled": 150000, "update_time_ms": 2.553, "grad_time_ms": 375.046, "load_time_ms": 0.666}, "iterations_since_restore": 125, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 5163.88282418251, "episodes_total": 3076, "episode_reward_max": -9.844541221746876, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5163.88282418251, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757059855, "timesteps_since_restore": 151200, "episode_reward_min": -96.62190545730166, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-10-55", "episode_len_mean": 48.86, "timesteps_total": 151200, "episode_reward_mean": -89.07774006852782, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.68086314201355, "training_iteration": 126, "info": {"default": {"policy_loss": -0.14513202011585236, "vf_explained_var": -0.5594785213470459, "vf_loss": 1279.4366455078125, "kl": 0.013576786033809185, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.5103759765625, "total_loss": 1279.3121337890625}, "sample_time_ms": 39297.433, "num_steps_trained": 151200, "num_steps_sampled": 151200, "update_time_ms": 2.566, "grad_time_ms": 375.402, "load_time_ms": 0.666}, "iterations_since_restore": 126, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 5203.29189324379, "episodes_total": 3102, "episode_reward_max": -9.844541221746876, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5203.29189324379, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 26, "timestamp": 1757059894, "timesteps_since_restore": 152400, "episode_reward_min": -96.62190545730166, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-11-34", "episode_len_mean": 47.95, "timesteps_total": 152400, "episode_reward_mean": -87.03089738602414, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.4090690612793, "training_iteration": 127, "info": {"default": {"policy_loss": -0.12907156348228455, "vf_explained_var": -0.5240917205810547, "vf_loss": 1287.79541015625, "kl": 0.012374582700431347, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.616047859191895, "total_loss": 1287.68505859375}, "sample_time_ms": 39271.483, "num_steps_trained": 152400, "num_steps_sampled": 152400, "update_time_ms": 2.565, "grad_time_ms": 375.43, "load_time_ms": 0.66}, "iterations_since_restore": 127, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 5243.363523244858, "episodes_total": 3126, "episode_reward_max": -9.944908978056354, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5243.363523244858, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757059934, "timesteps_since_restore": 153600, "episode_reward_min": -96.62190545730166, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-12-14", "episode_len_mean": 48.3, "timesteps_total": 153600, "episode_reward_mean": -87.9063635551037, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.071630001068115, "training_iteration": 128, "info": {"default": {"policy_loss": -0.14369790256023407, "vf_explained_var": -0.5300182700157166, "vf_loss": 1499.153076171875, "kl": 0.012245725840330124, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.25257396697998, "total_loss": 1499.028076171875}, "sample_time_ms": 39318.76, "num_steps_trained": 153600, "num_steps_sampled": 153600, "update_time_ms": 2.564, "grad_time_ms": 374.555, "load_time_ms": 0.659}, "iterations_since_restore": 128, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 5283.202246665955, "episodes_total": 3151, "episode_reward_max": -7.884289385547536, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5283.202246665955, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757059974, "timesteps_since_restore": 154800, "episode_reward_min": -95.30972521242101, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-12-54", "episode_len_mean": 47.89, "timesteps_total": 154800, "episode_reward_mean": -86.58481881781192, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.8387234210968, "training_iteration": 129, "info": {"default": {"policy_loss": -0.1343708336353302, "vf_explained_var": -0.5985797643661499, "vf_loss": 1431.6961669921875, "kl": 0.014748867601156235, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.535266876220703, "total_loss": 1431.5843505859375}, "sample_time_ms": 39270.959, "num_steps_trained": 154800, "num_steps_sampled": 154800, "update_time_ms": 2.611, "grad_time_ms": 373.804, "load_time_ms": 0.657}, "iterations_since_restore": 129, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 5322.790278673172, "episodes_total": 3179, "episode_reward_max": -7.884289385547536, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5322.790278673172, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 28, "timestamp": 1757060014, "timesteps_since_restore": 156000, "episode_reward_min": -96.71510982397358, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-13-34", "episode_len_mean": 47.02, "timesteps_total": 156000, "episode_reward_mean": -84.53170767579176, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.58803200721741, "training_iteration": 130, "info": {"default": {"policy_loss": -0.1432943046092987, "vf_explained_var": -0.516730010509491, "vf_loss": 1299.9044189453125, "kl": 0.014687989838421345, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.163921356201172, "total_loss": 1299.7833251953125}, "sample_time_ms": 39270.726, "num_steps_trained": 156000, "num_steps_sampled": 156000, "update_time_ms": 2.601, "grad_time_ms": 374.149, "load_time_ms": 0.649}, "iterations_since_restore": 130, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 5362.278551340103, "episodes_total": 3204, "episode_reward_max": -7.884289385547536, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5362.278551340103, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757060053, "timesteps_since_restore": 157200, "episode_reward_min": -96.71510982397358, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-14-13", "episode_len_mean": 47.06, "timesteps_total": 157200, "episode_reward_mean": -84.7137093287411, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.48827266693115, "training_iteration": 131, "info": {"default": {"policy_loss": -0.13528026640415192, "vf_explained_var": -0.5642940998077393, "vf_loss": 1315.4219970703125, "kl": 0.013655561953783035, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.046001434326172, "total_loss": 1315.307373046875}, "sample_time_ms": 39219.36, "num_steps_trained": 157200, "num_steps_sampled": 157200, "update_time_ms": 2.589, "grad_time_ms": 373.698, "load_time_ms": 0.652}, "iterations_since_restore": 131, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 5402.088619232178, "episodes_total": 3229, "episode_reward_max": -7.884289385547536, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5402.088619232178, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757060093, "timesteps_since_restore": 158400, "episode_reward_min": -96.71510982397358, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-14-53", "episode_len_mean": 46.92, "timesteps_total": 158400, "episode_reward_mean": -84.11575252270681, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.810067892074585, "training_iteration": 132, "info": {"default": {"policy_loss": -0.14339764416217804, "vf_explained_var": -0.6125023365020752, "vf_loss": 1336.0430908203125, "kl": 0.0131488973274827, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.28635311126709, "total_loss": 1335.919677734375}, "sample_time_ms": 39262.406, "num_steps_trained": 158400, "num_steps_sampled": 158400, "update_time_ms": 2.621, "grad_time_ms": 373.766, "load_time_ms": 0.653}, "iterations_since_restore": 132, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 5442.61981511116, "episodes_total": 3253, "episode_reward_max": -8.707026517444689, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5442.61981511116, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757060134, "timesteps_since_restore": 159600, "episode_reward_min": -96.71510982397358, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-15-34", "episode_len_mean": 47.75, "timesteps_total": 159600, "episode_reward_mean": -86.19995194552389, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.531195878982544, "training_iteration": 133, "info": {"default": {"policy_loss": -0.13669845461845398, "vf_explained_var": -0.6294195055961609, "vf_loss": 1288.5289306640625, "kl": 0.012455293908715248, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.30189037322998, "total_loss": 1288.4111328125}, "sample_time_ms": 39363.01, "num_steps_trained": 159600, "num_steps_sampled": 159600, "update_time_ms": 2.665, "grad_time_ms": 376.22, "load_time_ms": 0.675}, "iterations_since_restore": 133, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 5482.5219810009, "episodes_total": 3279, "episode_reward_max": -3.9987385604231047, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5482.5219810009, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 26, "timestamp": 1757060174, "timesteps_since_restore": 160800, "episode_reward_min": -96.06787921282397, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-16-14", "episode_len_mean": 48.13, "timesteps_total": 160800, "episode_reward_mean": -86.8973440789467, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.90216588973999, "training_iteration": 134, "info": {"default": {"policy_loss": -0.14733090996742249, "vf_explained_var": -0.5629190802574158, "vf_loss": 1269.03662109375, "kl": 0.014718885533511639, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.406354904174805, "total_loss": 1268.91162109375}, "sample_time_ms": 39406.98, "num_steps_trained": 160800, "num_steps_sampled": 160800, "update_time_ms": 2.703, "grad_time_ms": 376.926, "load_time_ms": 0.681}, "iterations_since_restore": 134, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 5522.141087770462, "episodes_total": 3304, "episode_reward_max": 4.064811105079485, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5522.141087770462, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757060213, "timesteps_since_restore": 162000, "episode_reward_min": -96.48721351591196, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-16-53", "episode_len_mean": 47.92, "timesteps_total": 162000, "episode_reward_mean": -86.37492543407339, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.61910676956177, "training_iteration": 135, "info": {"default": {"policy_loss": -0.14707954227924347, "vf_explained_var": -0.5588011741638184, "vf_loss": 1334.78564453125, "kl": 0.0142483776435256, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.142060279846191, "total_loss": 1334.660400390625}, "sample_time_ms": 39410.375, "num_steps_trained": 162000, "num_steps_sampled": 162000, "update_time_ms": 2.688, "grad_time_ms": 375.626, "load_time_ms": 0.679}, "iterations_since_restore": 135, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 5562.611741065979, "episodes_total": 3329, "episode_reward_max": 4.064811105079485, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5562.611741065979, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757060254, "timesteps_since_restore": 163200, "episode_reward_min": -96.48721351591196, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-17-34", "episode_len_mean": 47.65, "timesteps_total": 163200, "episode_reward_mean": -85.59819693104755, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.47065329551697, "training_iteration": 136, "info": {"default": {"policy_loss": -0.14304481446743011, "vf_explained_var": -0.5552069544792175, "vf_loss": 1383.9930419921875, "kl": 0.013852816075086594, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.396183013916016, "total_loss": 1383.87109375}, "sample_time_ms": 39488.141, "num_steps_trained": 163200, "num_steps_sampled": 163200, "update_time_ms": 2.684, "grad_time_ms": 376.771, "load_time_ms": 0.69}, "iterations_since_restore": 136, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 5602.322021484375, "episodes_total": 3356, "episode_reward_max": 4.064811105079485, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5602.322021484375, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 27, "timestamp": 1757060294, "timesteps_since_restore": 164400, "episode_reward_min": -96.48721351591196, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-18-14", "episode_len_mean": 46.78, "timesteps_total": 164400, "episode_reward_mean": -83.47820710656835, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.710280418395996, "training_iteration": 137, "info": {"default": {"policy_loss": -0.14455291628837585, "vf_explained_var": -0.47610485553741455, "vf_loss": 1187.9666748046875, "kl": 0.012374449521303177, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.333803176879883, "total_loss": 1187.8409423828125}, "sample_time_ms": 39518.835, "num_steps_trained": 164400, "num_steps_sampled": 164400, "update_time_ms": 2.675, "grad_time_ms": 376.218, "load_time_ms": 0.693}, "iterations_since_restore": 137, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 5641.9494535923, "episodes_total": 3382, "episode_reward_max": 4.064811105079485, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5641.9494535923, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 26, "timestamp": 1757060333, "timesteps_since_restore": 165600, "episode_reward_min": -96.48721351591196, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-18-53", "episode_len_mean": 45.98, "timesteps_total": 165600, "episode_reward_mean": -81.73706788479505, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.627432107925415, "training_iteration": 138, "info": {"default": {"policy_loss": -0.14671674370765686, "vf_explained_var": -0.5496470928192139, "vf_loss": 1207.936767578125, "kl": 0.014619309455156326, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.170343399047852, "total_loss": 1207.81201171875}, "sample_time_ms": 39475.119, "num_steps_trained": 165600, "num_steps_sampled": 165600, "update_time_ms": 2.646, "grad_time_ms": 375.578, "load_time_ms": 0.681}, "iterations_since_restore": 138, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 5681.721297502518, "episodes_total": 3407, "episode_reward_max": -3.9250283436976083, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5681.721297502518, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757060373, "timesteps_since_restore": 166800, "episode_reward_min": -96.0109090173699, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-19-33", "episode_len_mean": 46.55, "timesteps_total": 166800, "episode_reward_mean": -82.53106485212282, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.771843910217285, "training_iteration": 139, "info": {"default": {"policy_loss": -0.13906851410865784, "vf_explained_var": -0.5094448328018188, "vf_loss": 1296.3092041015625, "kl": 0.013456877321004868, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.28107738494873, "total_loss": 1296.1905517578125}, "sample_time_ms": 39470.227, "num_steps_trained": 166800, "num_steps_sampled": 166800, "update_time_ms": 2.614, "grad_time_ms": 373.819, "load_time_ms": 0.682}, "iterations_since_restore": 139, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 5721.254936695099, "episodes_total": 3435, "episode_reward_max": 3.051166952719319, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5721.254936695099, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 28, "timestamp": 1757060412, "timesteps_since_restore": 168000, "episode_reward_min": -95.45716722286036, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-20-12", "episode_len_mean": 45.34, "timesteps_total": 168000, "episode_reward_mean": -80.01279859215701, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.53363919258118, "training_iteration": 140, "info": {"default": {"policy_loss": -0.13503655791282654, "vf_explained_var": -0.5388348698616028, "vf_loss": 1284.50537109375, "kl": 0.01275145635008812, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.257022857666016, "total_loss": 1284.3897705078125}, "sample_time_ms": 39467.095, "num_steps_trained": 168000, "num_steps_sampled": 168000, "update_time_ms": 2.612, "grad_time_ms": 371.569, "load_time_ms": 0.688}, "iterations_since_restore": 140, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 5760.964447259903, "episodes_total": 3461, "episode_reward_max": 4.321512393152251, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5760.964447259903, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 26, "timestamp": 1757060452, "timesteps_since_restore": 169200, "episode_reward_min": -95.45716722286036, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-20-52", "episode_len_mean": 45.16, "timesteps_total": 169200, "episode_reward_mean": -79.80643116853311, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.70951056480408, "training_iteration": 141, "info": {"default": {"policy_loss": -0.15061348676681519, "vf_explained_var": -0.5419217348098755, "vf_loss": 1274.9154052734375, "kl": 0.015126381069421768, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.021912574768066, "total_loss": 1274.78759765625}, "sample_time_ms": 39490.768, "num_steps_trained": 169200, "num_steps_sampled": 169200, "update_time_ms": 2.605, "grad_time_ms": 370.009, "load_time_ms": 0.685}, "iterations_since_restore": 141, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 5801.83317399025, "episodes_total": 3487, "episode_reward_max": 8.000000694723946, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5801.83317399025, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 26, "timestamp": 1757060493, "timesteps_since_restore": 170400, "episode_reward_min": -95.45716722286036, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-21-33", "episode_len_mean": 45.88, "timesteps_total": 170400, "episode_reward_mean": -81.39703015658777, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.86872673034668, "training_iteration": 142, "info": {"default": {"policy_loss": -0.14620549976825714, "vf_explained_var": -0.5411806702613831, "vf_loss": 1212.1702880859375, "kl": 0.012408481910824776, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.864964485168457, "total_loss": 1212.04296875}, "sample_time_ms": 39596.268, "num_steps_trained": 170400, "num_steps_sampled": 170400, "update_time_ms": 2.585, "grad_time_ms": 370.427, "load_time_ms": 0.685}, "iterations_since_restore": 142, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 5841.464439153671, "episodes_total": 3512, "episode_reward_max": 8.000000694723946, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5841.464439153671, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757060533, "timesteps_since_restore": 171600, "episode_reward_min": -95.42393104647698, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-22-13", "episode_len_mean": 45.63, "timesteps_total": 171600, "episode_reward_mean": -80.81600156757189, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.63126516342163, "training_iteration": 143, "info": {"default": {"policy_loss": -0.1533927619457245, "vf_explained_var": -0.45511579513549805, "vf_loss": 1251.4239501953125, "kl": 0.015509688295423985, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.19650650024414, "total_loss": 1251.2940673828125}, "sample_time_ms": 39506.373, "num_steps_trained": 171600, "num_steps_sampled": 171600, "update_time_ms": 2.587, "grad_time_ms": 370.358, "load_time_ms": 0.683}, "iterations_since_restore": 143, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 5881.603573560715, "episodes_total": 3538, "episode_reward_max": 8.000000694723946, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5881.603573560715, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 26, "timestamp": 1757060573, "timesteps_since_restore": 172800, "episode_reward_min": -97.11000704591449, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-22-53", "episode_len_mean": 46.7, "timesteps_total": 172800, "episode_reward_mean": -83.14416563563017, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.13913440704346, "training_iteration": 144, "info": {"default": {"policy_loss": -0.15838269889354706, "vf_explained_var": -0.5245814919471741, "vf_loss": 1214.616455078125, "kl": 0.014577276073396206, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.721317291259766, "total_loss": 1214.48046875}, "sample_time_ms": 39531.832, "num_steps_trained": 172800, "num_steps_sampled": 172800, "update_time_ms": 2.597, "grad_time_ms": 368.609, "load_time_ms": 0.677}, "iterations_since_restore": 144, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 5922.412830591202, "episodes_total": 3566, "episode_reward_max": 8.000000694723946, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5922.412830591202, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 28, "timestamp": 1757060614, "timesteps_since_restore": 174000, "episode_reward_min": -97.11000704591449, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-23-34", "episode_len_mean": 45.34, "timesteps_total": 174000, "episode_reward_mean": -80.23562134277655, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.80925703048706, "training_iteration": 145, "info": {"default": {"policy_loss": -0.14935068786144257, "vf_explained_var": -0.5597293972969055, "vf_loss": 1336.460205078125, "kl": 0.014826994389295578, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.84347152709961, "total_loss": 1336.3333740234375}, "sample_time_ms": 39649.179, "num_steps_trained": 174000, "num_steps_sampled": 174000, "update_time_ms": 2.579, "grad_time_ms": 370.28, "load_time_ms": 0.686}, "iterations_since_restore": 145, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 5962.4448273181915, "episodes_total": 3591, "episode_reward_max": 6.000107401140704, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5962.4448273181915, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757060654, "timesteps_since_restore": 175200, "episode_reward_min": -97.11000704591449, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-24-14", "episode_len_mean": 45.73, "timesteps_total": 175200, "episode_reward_mean": -80.86321604507586, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.031996726989746, "training_iteration": 146, "info": {"default": {"policy_loss": -0.13877102732658386, "vf_explained_var": -0.6090195178985596, "vf_loss": 1348.9122314453125, "kl": 0.013467486016452312, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.265999794006348, "total_loss": 1348.7940673828125}, "sample_time_ms": 39609.093, "num_steps_trained": 175200, "num_steps_sampled": 175200, "update_time_ms": 2.576, "grad_time_ms": 366.563, "load_time_ms": 0.676}, "iterations_since_restore": 146, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 6001.982301473618, "episodes_total": 3616, "episode_reward_max": 6.000107401140704, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 6001.982301473618, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757060693, "timesteps_since_restore": 176400, "episode_reward_min": -97.11000704591449, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-24-53", "episode_len_mean": 45.86, "timesteps_total": 176400, "episode_reward_mean": -81.28041038657214, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.537474155426025, "training_iteration": 147, "info": {"default": {"policy_loss": -0.14229780435562134, "vf_explained_var": -0.5282898545265198, "vf_loss": 1357.23681640625, "kl": 0.01293968502432108, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.941590309143066, "total_loss": 1357.114013671875}, "sample_time_ms": 39591.537, "num_steps_trained": 176400, "num_steps_sampled": 176400, "update_time_ms": 2.577, "grad_time_ms": 366.808, "load_time_ms": 0.68}, "iterations_since_restore": 147, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 6041.537889957428, "episodes_total": 3642, "episode_reward_max": 6.000107401140704, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 6041.537889957428, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 26, "timestamp": 1757060733, "timesteps_since_restore": 177600, "episode_reward_min": -95.02393446976724, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-25-33", "episode_len_mean": 46.47, "timesteps_total": 177600, "episode_reward_mean": -82.36822817985045, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.555588483810425, "training_iteration": 148, "info": {"default": {"policy_loss": -0.1561611294746399, "vf_explained_var": -0.526269793510437, "vf_loss": 1297.056884765625, "kl": 0.01370786502957344, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.26540756225586, "total_loss": 1296.92138671875}, "sample_time_ms": 39584.325, "num_steps_trained": 177600, "num_steps_sampled": 177600, "update_time_ms": 2.601, "grad_time_ms": 366.729, "load_time_ms": 0.706}, "iterations_since_restore": 148, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 6081.240899801254, "episodes_total": 3669, "episode_reward_max": 3.2817660899160224, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 6081.240899801254, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 27, "timestamp": 1757060773, "timesteps_since_restore": 178800, "episode_reward_min": -95.02393446976724, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-26-13", "episode_len_mean": 46.91, "timesteps_total": 178800, "episode_reward_mean": -82.91081485435046, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.703009843826294, "training_iteration": 149, "info": {"default": {"policy_loss": -0.15014517307281494, "vf_explained_var": -0.5046669840812683, "vf_loss": 1238.2064208984375, "kl": 0.011840826831758022, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.04371452331543, "total_loss": 1238.07421875}, "sample_time_ms": 39576.514, "num_steps_trained": 178800, "num_steps_sampled": 178800, "update_time_ms": 2.602, "grad_time_ms": 367.622, "load_time_ms": 0.711}, "iterations_since_restore": 149, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 6121.05551981926, "episodes_total": 3695, "episode_reward_max": 3.2817660899160224, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 6121.05551981926, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 26, "timestamp": 1757060812, "timesteps_since_restore": 180000, "episode_reward_min": -95.27058435969928, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-26-52", "episode_len_mean": 46.2, "timesteps_total": 180000, "episode_reward_mean": -81.55177081531059, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.81462001800537, "training_iteration": 150, "info": {"default": {"policy_loss": -0.14981169998645782, "vf_explained_var": -0.4587758779525757, "vf_loss": 1272.205078125, "kl": 0.01309515256434679, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.553815841674805, "total_loss": 1272.0751953125}, "sample_time_ms": 39602.072, "num_steps_trained": 180000, "num_steps_sampled": 180000, "update_time_ms": 2.604, "grad_time_ms": 370.113, "load_time_ms": 0.718}, "iterations_since_restore": 150, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 6161.855860233307, "episodes_total": 3725, "episode_reward_max": 6.000455516554683, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 6161.855860233307, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 30, "timestamp": 1757060853, "timesteps_since_restore": 181200, "episode_reward_min": -96.70292849717096, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-27-33", "episode_len_mean": 44.14, "timesteps_total": 181200, "episode_reward_mean": -77.19594581917008, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.80034041404724, "training_iteration": 151, "info": {"default": {"policy_loss": -0.15634149312973022, "vf_explained_var": -0.4997766315937042, "vf_loss": 1216.41748046875, "kl": 0.01336100697517395, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.74258041381836, "total_loss": 1216.2813720703125}, "sample_time_ms": 39709.299, "num_steps_trained": 181200, "num_steps_sampled": 181200, "update_time_ms": 2.665, "grad_time_ms": 371.895, "load_time_ms": 0.718}, "iterations_since_restore": 151, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 6202.4775557518005, "episodes_total": 3749, "episode_reward_max": 6.000455516554683, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 6202.4775557518005, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 24, "timestamp": 1757060894, "timesteps_since_restore": 182400, "episode_reward_min": -96.70292849717096, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-28-14", "episode_len_mean": 44.47, "timesteps_total": 182400, "episode_reward_mean": -78.13665430496613, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.62169551849365, "training_iteration": 152, "info": {"default": {"policy_loss": -0.14947673678398132, "vf_explained_var": -0.5465677976608276, "vf_loss": 1344.1851806640625, "kl": 0.01489299163222313, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.910573959350586, "total_loss": 1344.058349609375}, "sample_time_ms": 39684.828, "num_steps_trained": 182400, "num_steps_sampled": 182400, "update_time_ms": 2.677, "grad_time_ms": 371.61, "load_time_ms": 0.713}, "iterations_since_restore": 152, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 6243.650381088257, "episodes_total": 3776, "episode_reward_max": 6.000455516554683, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 6243.650381088257, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 27, "timestamp": 1757060935, "timesteps_since_restore": 183600, "episode_reward_min": -96.70292849717096, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-28-55", "episode_len_mean": 44.9, "timesteps_total": 183600, "episode_reward_mean": -79.17575837647006, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.1728253364563, "training_iteration": 153, "info": {"default": {"policy_loss": -0.14205120503902435, "vf_explained_var": -0.49471527338027954, "vf_loss": 1348.097900390625, "kl": 0.013548240065574646, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.840738296508789, "total_loss": 1347.9764404296875}, "sample_time_ms": 39840.321, "num_steps_trained": 183600, "num_steps_sampled": 183600, "update_time_ms": 2.705, "grad_time_ms": 370.225, "load_time_ms": 0.696}, "iterations_since_restore": 153, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 6283.296110868454, "episodes_total": 3801, "episode_reward_max": 8.000000400300312, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 6283.296110868454, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757060975, "timesteps_since_restore": 184800, "episode_reward_min": -94.32048528778631, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-29-35", "episode_len_mean": 45.36, "timesteps_total": 184800, "episode_reward_mean": -79.84871099080961, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.645729780197144, "training_iteration": 154, "info": {"default": {"policy_loss": -0.1379450410604477, "vf_explained_var": -0.5179122686386108, "vf_loss": 1275.8948974609375, "kl": 0.013993495143949986, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.997597694396973, "total_loss": 1275.7781982421875}, "sample_time_ms": 39790.633, "num_steps_trained": 184800, "num_steps_sampled": 184800, "update_time_ms": 2.717, "grad_time_ms": 370.532, "load_time_ms": 0.701}, "iterations_since_restore": 154, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 6322.750462770462, "episodes_total": 3829, "episode_reward_max": 8.000000400300312, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 6322.750462770462, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 28, "timestamp": 1757061014, "timesteps_since_restore": 186000, "episode_reward_min": -94.32048528778631, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-30-14", "episode_len_mean": 45.88, "timesteps_total": 186000, "episode_reward_mean": -80.67604995680122, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.45435190200806, "training_iteration": 155, "info": {"default": {"policy_loss": -0.1464567482471466, "vf_explained_var": -0.4919707477092743, "vf_loss": 1262.4237060546875, "kl": 0.012960322201251984, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.92648983001709, "total_loss": 1262.296875}, "sample_time_ms": 39655.525, "num_steps_trained": 186000, "num_steps_sampled": 186000, "update_time_ms": 2.728, "grad_time_ms": 370.135, "load_time_ms": 0.698}, "iterations_since_restore": 155, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 6362.44743180275, "episodes_total": 3856, "episode_reward_max": 8.000000400300312, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 6362.44743180275, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 27, "timestamp": 1757061054, "timesteps_since_restore": 187200, "episode_reward_min": -94.32048528778631, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-30-54", "episode_len_mean": 45.11, "timesteps_total": 187200, "episode_reward_mean": -78.73584663718255, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.6969690322876, "training_iteration": 156, "info": {"default": {"policy_loss": -0.14419059455394745, "vf_explained_var": -0.4577138125896454, "vf_loss": 1243.9368896484375, "kl": 0.013834645040333271, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.88114070892334, "total_loss": 1243.813720703125}, "sample_time_ms": 39618.93, "num_steps_trained": 187200, "num_steps_sampled": 187200, "update_time_ms": 2.737, "grad_time_ms": 373.188, "load_time_ms": 0.713}, "iterations_since_restore": 156, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 6402.651651382446, "episodes_total": 3882, "episode_reward_max": 8.000000400300312, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 6402.651651382446, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 26, "timestamp": 1757061094, "timesteps_since_restore": 188400, "episode_reward_min": -94.32048528778631, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-31-34", "episode_len_mean": 45.06, "timesteps_total": 188400, "episode_reward_mean": -78.36719346983722, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.204219579696655, "training_iteration": 157, "info": {"default": {"policy_loss": -0.14093157649040222, "vf_explained_var": -0.4414154291152954, "vf_loss": 1178.02880859375, "kl": 0.013756846077740192, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.409296989440918, "total_loss": 1177.908935546875}, "sample_time_ms": 39684.713, "num_steps_trained": 188400, "num_steps_sampled": 188400, "update_time_ms": 2.776, "grad_time_ms": 374.044, "load_time_ms": 0.718}, "iterations_since_restore": 157, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 6442.431617021561, "episodes_total": 3910, "episode_reward_max": 1.0298102620690237, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 6442.431617021561, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 28, "timestamp": 1757061134, "timesteps_since_restore": 189600, "episode_reward_min": -94.16925315349455, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-32-14", "episode_len_mean": 44.35, "timesteps_total": 189600, "episode_reward_mean": -76.48961202751238, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.77996563911438, "training_iteration": 158, "info": {"default": {"policy_loss": -0.1380423754453659, "vf_explained_var": -0.44596925377845764, "vf_loss": 1286.7122802734375, "kl": 0.013590741902589798, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.253604888916016, "total_loss": 1286.5947265625}, "sample_time_ms": 39708.12, "num_steps_trained": 189600, "num_steps_sampled": 189600, "update_time_ms": 2.786, "grad_time_ms": 373.114, "load_time_ms": 0.701}, "iterations_since_restore": 158, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 6481.98717546463, "episodes_total": 3937, "episode_reward_max": 1.0298102620690237, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 6481.98717546463, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 27, "timestamp": 1757061174, "timesteps_since_restore": 190800, "episode_reward_min": -94.16925315349455, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-32-54", "episode_len_mean": 44.7, "timesteps_total": 190800, "episode_reward_mean": -77.23485126866645, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.55555844306946, "training_iteration": 159, "info": {"default": {"policy_loss": -0.15841226279735565, "vf_explained_var": -0.423553466796875, "vf_loss": 1151.597900390625, "kl": 0.01273895613849163, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.881004333496094, "total_loss": 1151.458740234375}, "sample_time_ms": 39693.456, "num_steps_trained": 190800, "num_steps_sampled": 190800, "update_time_ms": 2.77, "grad_time_ms": 373.019, "load_time_ms": 0.698}, "iterations_since_restore": 159, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 6521.910762310028, "episodes_total": 3965, "episode_reward_max": 1.0298102620690237, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 6521.910762310028, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 28, "timestamp": 1757061214, "timesteps_since_restore": 192000, "episode_reward_min": -94.16925315349455, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-33-34", "episode_len_mean": 43.83, "timesteps_total": 192000, "episode_reward_mean": -75.5874652572118, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.92358684539795, "training_iteration": 160, "info": {"default": {"policy_loss": -0.15190553665161133, "vf_explained_var": -0.3851970136165619, "vf_loss": 1184.2813720703125, "kl": 0.013894817791879177, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.627264976501465, "total_loss": 1184.150634765625}, "sample_time_ms": 39704.102, "num_steps_trained": 192000, "num_steps_sampled": 192000, "update_time_ms": 2.783, "grad_time_ms": 373.251, "load_time_ms": 0.697}, "iterations_since_restore": 160, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 6561.471232414246, "episodes_total": 3992, "episode_reward_max": -1.9999776651093448, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 6561.471232414246, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 27, "timestamp": 1757061253, "timesteps_since_restore": 193200, "episode_reward_min": -93.7361066104395, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-34-13", "episode_len_mean": 44.48, "timesteps_total": 193200, "episode_reward_mean": -76.49468136345011, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.56047010421753, "training_iteration": 161, "info": {"default": {"policy_loss": -0.15200775861740112, "vf_explained_var": -0.44161078333854675, "vf_loss": 1216.625244140625, "kl": 0.014680708758533001, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.780177116394043, "total_loss": 1216.4954833984375}, "sample_time_ms": 39582.096, "num_steps_trained": 193200, "num_steps_sampled": 193200, "update_time_ms": 2.711, "grad_time_ms": 371.36, "load_time_ms": 0.695}, "iterations_since_restore": 161, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 6601.174665212631, "episodes_total": 4017, "episode_reward_max": -2.863696604857047, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 6601.174665212631, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757061293, "timesteps_since_restore": 194400, "episode_reward_min": -93.60419931127666, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-34-53", "episode_len_mean": 44.43, "timesteps_total": 194400, "episode_reward_mean": -76.50427927291352, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.70343279838562, "training_iteration": 162, "info": {"default": {"policy_loss": -0.14301317930221558, "vf_explained_var": -0.4891640841960907, "vf_loss": 1249.120361328125, "kl": 0.014471733011305332, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.797951698303223, "total_loss": 1248.99951171875}, "sample_time_ms": 39490.325, "num_steps_trained": 194400, "num_steps_sampled": 194400, "update_time_ms": 2.725, "grad_time_ms": 371.318, "load_time_ms": 0.699}, "iterations_since_restore": 162, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 6641.436380147934, "episodes_total": 4044, "episode_reward_max": -2.863696604857047, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 6641.436380147934, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 27, "timestamp": 1757061333, "timesteps_since_restore": 195600, "episode_reward_min": -95.07280238995182, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-35-33", "episode_len_mean": 44.54, "timesteps_total": 195600, "episode_reward_mean": -77.13869112317266, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.261714935302734, "training_iteration": 163, "info": {"default": {"policy_loss": -0.1370653212070465, "vf_explained_var": -0.481819212436676, "vf_loss": 1357.2757568359375, "kl": 0.013469233177602291, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.614164352416992, "total_loss": 1357.1593017578125}, "sample_time_ms": 39400.325, "num_steps_trained": 195600, "num_steps_sampled": 195600, "update_time_ms": 2.655, "grad_time_ms": 370.305, "load_time_ms": 0.706}, "iterations_since_restore": 163, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 6680.79793381691, "episodes_total": 4069, "episode_reward_max": -6.997255541269837, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 6680.79793381691, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757061373, "timesteps_since_restore": 196800, "episode_reward_min": -95.07280238995182, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-36-13", "episode_len_mean": 46.39, "timesteps_total": 196800, "episode_reward_mean": -81.18426737163753, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.36155366897583, "training_iteration": 164, "info": {"default": {"policy_loss": -0.1615937501192093, "vf_explained_var": -0.4704124629497528, "vf_loss": 1176.6922607421875, "kl": 0.013785287737846375, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.746781349182129, "total_loss": 1176.551513671875}, "sample_time_ms": 39370.354, "num_steps_trained": 196800, "num_steps_sampled": 196800, "update_time_ms": 2.633, "grad_time_ms": 371.878, "load_time_ms": 0.706}, "iterations_since_restore": 164, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 6720.391925573349, "episodes_total": 4096, "episode_reward_max": 8.000000774867624, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 6720.391925573349, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 27, "timestamp": 1757061412, "timesteps_since_restore": 198000, "episode_reward_min": -95.07280238995182, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-36-52", "episode_len_mean": 45.87, "timesteps_total": 198000, "episode_reward_mean": -80.31117768732871, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.59399175643921, "training_iteration": 165, "info": {"default": {"policy_loss": -0.14880099892616272, "vf_explained_var": -0.47190845012664795, "vf_loss": 1198.0211181640625, "kl": 0.013262495398521423, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.698999404907227, "total_loss": 1197.892578125}, "sample_time_ms": 39385.226, "num_steps_trained": 198000, "num_steps_sampled": 198000, "update_time_ms": 2.643, "grad_time_ms": 370.969, "load_time_ms": 0.702}, "iterations_since_restore": 165, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 6760.096356391907, "episodes_total": 4121, "episode_reward_max": 8.000000774867624, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 6760.096356391907, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757061452, "timesteps_since_restore": 199200, "episode_reward_min": -94.64584639750872, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-37-32", "episode_len_mean": 46.23, "timesteps_total": 199200, "episode_reward_mean": -81.02888257315834, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.70443081855774, "training_iteration": 166, "info": {"default": {"policy_loss": -0.14520853757858276, "vf_explained_var": -0.5151036381721497, "vf_loss": 1295.383544921875, "kl": 0.01386125385761261, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.609149932861328, "total_loss": 1295.2593994140625}, "sample_time_ms": 39388.608, "num_steps_trained": 199200, "num_steps_sampled": 199200, "update_time_ms": 2.65, "grad_time_ms": 368.28, "load_time_ms": 0.689}, "iterations_since_restore": 166, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 6799.554817914963, "episodes_total": 4146, "episode_reward_max": 8.000000774867624, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 6799.554817914963, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757061491, "timesteps_since_restore": 200400, "episode_reward_min": -94.64584639750872, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-38-11", "episode_len_mean": 46.98, "timesteps_total": 200400, "episode_reward_mean": -82.5702012919886, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.45846152305603, "training_iteration": 167, "info": {"default": {"policy_loss": -0.13921555876731873, "vf_explained_var": -0.4715842008590698, "vf_loss": 1261.72607421875, "kl": 0.013056447729468346, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.71256160736084, "total_loss": 1261.606689453125}, "sample_time_ms": 39315.78, "num_steps_trained": 200400, "num_steps_sampled": 200400, "update_time_ms": 2.667, "grad_time_ms": 366.49, "load_time_ms": 0.677}, "iterations_since_restore": 167, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 6838.850018978119, "episodes_total": 4171, "episode_reward_max": 8.000000774867624, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 6838.850018978119, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757061531, "timesteps_since_restore": 201600, "episode_reward_min": -94.64584639750872, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-38-51", "episode_len_mean": 47.04, "timesteps_total": 201600, "episode_reward_mean": -82.61743856553079, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.29520106315613, "training_iteration": 168, "info": {"default": {"policy_loss": -0.15822917222976685, "vf_explained_var": -0.4832596778869629, "vf_loss": 1381.597412109375, "kl": 0.014154472388327122, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.824186325073242, "total_loss": 1381.460693359375}, "sample_time_ms": 39265.536, "num_steps_trained": 201600, "num_steps_sampled": 201600, "update_time_ms": 2.667, "grad_time_ms": 368.285, "load_time_ms": 0.671}, "iterations_since_restore": 168, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 6878.615561723709, "episodes_total": 4199, "episode_reward_max": -0.9670193416631676, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 6878.615561723709, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 28, "timestamp": 1757061570, "timesteps_since_restore": 202800, "episode_reward_min": -93.29548029704897, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-39-30", "episode_len_mean": 46.45, "timesteps_total": 202800, "episode_reward_mean": -81.24814517100616, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.76554274559021, "training_iteration": 169, "info": {"default": {"policy_loss": -0.14035111665725708, "vf_explained_var": -0.4698371887207031, "vf_loss": 1321.0892333984375, "kl": 0.014233357273042202, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.756165504455566, "total_loss": 1320.970458984375}, "sample_time_ms": 39284.686, "num_steps_trained": 202800, "num_steps_sampled": 202800, "update_time_ms": 2.669, "grad_time_ms": 370.144, "load_time_ms": 0.665}, "iterations_since_restore": 169, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 6918.414424419403, "episodes_total": 4225, "episode_reward_max": -0.9670193416631676, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 6918.414424419403, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 26, "timestamp": 1757061610, "timesteps_since_restore": 204000, "episode_reward_min": -93.29548029704897, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-40-10", "episode_len_mean": 45.66, "timesteps_total": 204000, "episode_reward_mean": -79.71639697243624, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.79886269569397, "training_iteration": 170, "info": {"default": {"policy_loss": -0.1609656661748886, "vf_explained_var": -0.4668535590171814, "vf_loss": 1209.8843994140625, "kl": 0.014395389705896378, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.984201431274414, "total_loss": 1209.7454833984375}, "sample_time_ms": 39272.914, "num_steps_trained": 204000, "num_steps_sampled": 204000, "update_time_ms": 2.671, "grad_time_ms": 369.51, "load_time_ms": 0.654}, "iterations_since_restore": 170, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 6958.056665897369, "episodes_total": 4255, "episode_reward_max": -0.9670193416631676, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 6958.056665897369, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 30, "timestamp": 1757061650, "timesteps_since_restore": 205200, "episode_reward_min": -93.01535730256707, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-40-50", "episode_len_mean": 43.83, "timesteps_total": 205200, "episode_reward_mean": -75.55180682195797, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.64224147796631, "training_iteration": 171, "info": {"default": {"policy_loss": -0.14292173087596893, "vf_explained_var": -0.4353679120540619, "vf_loss": 1279.452880859375, "kl": 0.014972982928156853, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.971701622009277, "total_loss": 1279.332763671875}, "sample_time_ms": 39279.161, "num_steps_trained": 205200, "num_steps_sampled": 205200, "update_time_ms": 2.648, "grad_time_ms": 371.436, "load_time_ms": 0.669}, "iterations_since_restore": 171, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 6997.89738035202, "episodes_total": 4281, "episode_reward_max": -0.9670193416631676, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 6997.89738035202, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 26, "timestamp": 1757061690, "timesteps_since_restore": 206400, "episode_reward_min": -93.01535730256707, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-41-30", "episode_len_mean": 44.04, "timesteps_total": 206400, "episode_reward_mean": -75.62940815003479, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.84071445465088, "training_iteration": 172, "info": {"default": {"policy_loss": -0.15111464262008667, "vf_explained_var": -0.40654847025871277, "vf_loss": 1210.2984619140625, "kl": 0.01622133143246174, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.997294425964355, "total_loss": 1210.1719970703125}, "sample_time_ms": 39290.593, "num_steps_trained": 206400, "num_steps_sampled": 206400, "update_time_ms": 2.626, "grad_time_ms": 373.694, "load_time_ms": 0.684}, "iterations_since_restore": 172, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 7038.409298419952, "episodes_total": 4308, "episode_reward_max": -1.8539046481723318, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 7038.409298419952, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 27, "timestamp": 1757061730, "timesteps_since_restore": 207600, "episode_reward_min": -93.7560116996596, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-42-10", "episode_len_mean": 44.21, "timesteps_total": 207600, "episode_reward_mean": -76.02007759721722, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.51191806793213, "training_iteration": 173, "info": {"default": {"policy_loss": -0.14886194467544556, "vf_explained_var": -0.45312246680259705, "vf_loss": 1215.42724609375, "kl": 0.012958609499037266, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.568338394165039, "total_loss": 1215.2982177734375}, "sample_time_ms": 39313.385, "num_steps_trained": 207600, "num_steps_sampled": 207600, "update_time_ms": 2.667, "grad_time_ms": 375.855, "load_time_ms": 0.688}, "iterations_since_restore": 173, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 7078.5049085617065, "episodes_total": 4335, "episode_reward_max": -2.996427446303704, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 7078.5049085617065, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 27, "timestamp": 1757061771, "timesteps_since_restore": 208800, "episode_reward_min": -93.7560116996596, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-42-51", "episode_len_mean": 44.66, "timesteps_total": 208800, "episode_reward_mean": -76.64302505955972, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.09561014175415, "training_iteration": 174, "info": {"default": {"policy_loss": -0.15744031965732574, "vf_explained_var": -0.36034494638442993, "vf_loss": 1169.066650390625, "kl": 0.014459154568612576, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.928811073303223, "total_loss": 1168.93115234375}, "sample_time_ms": 39388.797, "num_steps_trained": 208800, "num_steps_sampled": 208800, "update_time_ms": 2.64, "grad_time_ms": 373.871, "load_time_ms": 0.686}, "iterations_since_restore": 174, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 7118.310443639755, "episodes_total": 4360, "episode_reward_max": -2.996427446303704, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 7118.310443639755, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757061810, "timesteps_since_restore": 210000, "episode_reward_min": -93.7560116996596, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-43-30", "episode_len_mean": 44.92, "timesteps_total": 210000, "episode_reward_mean": -77.35967791166354, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.805535078048706, "training_iteration": 175, "info": {"default": {"policy_loss": -0.1595560908317566, "vf_explained_var": -0.398641437292099, "vf_loss": 1298.3955078125, "kl": 0.013654005713760853, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.659481048583984, "total_loss": 1298.2567138671875}, "sample_time_ms": 39408.897, "num_steps_trained": 210000, "num_steps_sampled": 210000, "update_time_ms": 2.612, "grad_time_ms": 374.971, "load_time_ms": 0.689}, "iterations_since_restore": 175, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 7158.008751630783, "episodes_total": 4387, "episode_reward_max": 6.000321648447716, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 7158.008751630783, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 27, "timestamp": 1757061850, "timesteps_since_restore": 211200, "episode_reward_min": -93.36983930991407, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-44-10", "episode_len_mean": 45.1, "timesteps_total": 211200, "episode_reward_mean": -77.76760147976248, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.69830799102783, "training_iteration": 176, "info": {"default": {"policy_loss": -0.1536533534526825, "vf_explained_var": -0.4656270444393158, "vf_loss": 1302.03173828125, "kl": 0.015374511480331421, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.728992462158203, "total_loss": 1301.9014892578125}, "sample_time_ms": 39405.849, "num_steps_trained": 211200, "num_steps_sampled": 211200, "update_time_ms": 2.585, "grad_time_ms": 377.482, "load_time_ms": 0.69}, "iterations_since_restore": 176, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 7197.657300710678, "episodes_total": 4412, "episode_reward_max": 6.000321648447716, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 7197.657300710678, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757061890, "timesteps_since_restore": 212400, "episode_reward_min": -93.36983930991407, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-44-50", "episode_len_mean": 46.37, "timesteps_total": 212400, "episode_reward_mean": -80.44722221133998, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.64854907989502, "training_iteration": 177, "info": {"default": {"policy_loss": -0.15368372201919556, "vf_explained_var": -0.4262590706348419, "vf_loss": 1186.48583984375, "kl": 0.014043147675693035, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.525483131408691, "total_loss": 1186.3533935546875}, "sample_time_ms": 39423.087, "num_steps_trained": 212400, "num_steps_sampled": 212400, "update_time_ms": 2.53, "grad_time_ms": 379.324, "load_time_ms": 0.687}, "iterations_since_restore": 177, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 7237.700491666794, "episodes_total": 4438, "episode_reward_max": 6.000321648447716, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 7237.700491666794, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 26, "timestamp": 1757061930, "timesteps_since_restore": 213600, "episode_reward_min": -93.36983930991407, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-45-30", "episode_len_mean": 47.16, "timesteps_total": 213600, "episode_reward_mean": -81.81987204055027, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.04319095611572, "training_iteration": 178, "info": {"default": {"policy_loss": -0.13806617259979248, "vf_explained_var": -0.46296584606170654, "vf_loss": 1158.87939453125, "kl": 0.014014706015586853, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 14.043163299560547, "total_loss": 1158.762451171875}, "sample_time_ms": 39500.493, "num_steps_trained": 213600, "num_steps_sampled": 213600, "update_time_ms": 2.547, "grad_time_ms": 376.655, "load_time_ms": 0.691}, "iterations_since_restore": 178, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 7277.934635639191, "episodes_total": 4464, "episode_reward_max": 6.000321648447716, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 7277.934635639191, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 26, "timestamp": 1757061970, "timesteps_since_restore": 214800, "episode_reward_min": -93.25506221807392, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-46-10", "episode_len_mean": 46.62, "timesteps_total": 214800, "episode_reward_mean": -80.2493775385244, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.23414397239685, "training_iteration": 179, "info": {"default": {"policy_loss": -0.14763589203357697, "vf_explained_var": -0.42568519711494446, "vf_loss": 1173.8685302734375, "kl": 0.013748247176408768, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.813373565673828, "total_loss": 1173.74169921875}, "sample_time_ms": 39548.202, "num_steps_trained": 214800, "num_steps_sampled": 214800, "update_time_ms": 2.555, "grad_time_ms": 375.826, "load_time_ms": 0.69}, "iterations_since_restore": 179, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 7317.267959833145, "episodes_total": 4489, "episode_reward_max": -2.6664612429679195, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 7317.267959833145, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757062009, "timesteps_since_restore": 216000, "episode_reward_min": -92.65826884955854, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-46-49", "episode_len_mean": 47.14, "timesteps_total": 216000, "episode_reward_mean": -81.40300997415761, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.33332419395447, "training_iteration": 180, "info": {"default": {"policy_loss": -0.15248635411262512, "vf_explained_var": -0.44160595536231995, "vf_loss": 1240.842041015625, "kl": 0.014030599035322666, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.749593734741211, "total_loss": 1240.7109375}, "sample_time_ms": 39502.596, "num_steps_trained": 216000, "num_steps_sampled": 216000, "update_time_ms": 2.558, "grad_time_ms": 374.843, "load_time_ms": 0.7}, "iterations_since_restore": 180, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 7357.116636753082, "episodes_total": 4515, "episode_reward_max": 8.000004641880324, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 7357.116636753082, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 26, "timestamp": 1757062049, "timesteps_since_restore": 217200, "episode_reward_min": -94.23068575335455, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-47-29", "episode_len_mean": 46.64, "timesteps_total": 217200, "episode_reward_mean": -80.77784544551724, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.848676919937134, "training_iteration": 181, "info": {"default": {"policy_loss": -0.15136459469795227, "vf_explained_var": -0.4990891218185425, "vf_loss": 1196.1600341796875, "kl": 0.015690051019191742, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.130120277404785, "total_loss": 1196.03271484375}, "sample_time_ms": 39525.243, "num_steps_trained": 217200, "num_steps_sampled": 217200, "update_time_ms": 2.571, "grad_time_ms": 372.867, "load_time_ms": 0.706}, "iterations_since_restore": 181, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 7397.07540512085, "episodes_total": 4541, "episode_reward_max": 8.000004641880324, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 7397.07540512085, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 26, "timestamp": 1757062089, "timesteps_since_restore": 218400, "episode_reward_min": -94.23068575335455, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-48-09", "episode_len_mean": 46.37, "timesteps_total": 218400, "episode_reward_mean": -80.36707963295763, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.958768367767334, "training_iteration": 182, "info": {"default": {"policy_loss": -0.15386556088924408, "vf_explained_var": -0.46873077750205994, "vf_loss": 1127.10107421875, "kl": 0.013945079408586025, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.64345932006836, "total_loss": 1126.968505859375}, "sample_time_ms": 39537.813, "num_steps_trained": 218400, "num_steps_sampled": 218400, "update_time_ms": 2.572, "grad_time_ms": 372.139, "load_time_ms": 0.694}, "iterations_since_restore": 182, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 7437.060432195663, "episodes_total": 4570, "episode_reward_max": 8.000004641880324, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 7437.060432195663, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 29, "timestamp": 1757062129, "timesteps_since_restore": 219600, "episode_reward_min": -94.23068575335455, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-48-49", "episode_len_mean": 45.46, "timesteps_total": 219600, "episode_reward_mean": -78.89878558111414, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.98502707481384, "training_iteration": 183, "info": {"default": {"policy_loss": -0.15169140696525574, "vf_explained_var": -0.41206541657447815, "vf_loss": 1221.6898193359375, "kl": 0.013896163552999496, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.340320587158203, "total_loss": 1221.55908203125}, "sample_time_ms": 39485.748, "num_steps_trained": 219600, "num_steps_sampled": 219600, "update_time_ms": 2.529, "grad_time_ms": 371.556, "load_time_ms": 0.688}, "iterations_since_restore": 183, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 7476.868397474289, "episodes_total": 4597, "episode_reward_max": 4.0006829636538965, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 7476.868397474289, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 27, "timestamp": 1757062169, "timesteps_since_restore": 220800, "episode_reward_min": -94.23068575335455, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-49-29", "episode_len_mean": 44.09, "timesteps_total": 220800, "episode_reward_mean": -75.70631418103343, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.80796527862549, "training_iteration": 184, "info": {"default": {"policy_loss": -0.14285977184772491, "vf_explained_var": -0.44031986594200134, "vf_loss": 1167.975341796875, "kl": 0.014052635990083218, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.291040420532227, "total_loss": 1167.8538818359375}, "sample_time_ms": 39455.324, "num_steps_trained": 220800, "num_steps_sampled": 220800, "update_time_ms": 2.565, "grad_time_ms": 373.126, "load_time_ms": 0.692}, "iterations_since_restore": 184, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 7516.683397293091, "episodes_total": 4625, "episode_reward_max": 4.0006829636538965, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 7516.683397293091, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 28, "timestamp": 1757062209, "timesteps_since_restore": 222000, "episode_reward_min": -93.46765627965947, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-50-09", "episode_len_mean": 43.46, "timesteps_total": 222000, "episode_reward_mean": -74.50635650337743, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.81499981880188, "training_iteration": 185, "info": {"default": {"policy_loss": -0.16030214726924896, "vf_explained_var": -0.4719213843345642, "vf_loss": 1249.4210205078125, "kl": 0.0141418082639575, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.116369247436523, "total_loss": 1249.2823486328125}, "sample_time_ms": 39458.366, "num_steps_trained": 222000, "num_steps_sampled": 222000, "update_time_ms": 2.597, "grad_time_ms": 371.027, "load_time_ms": 0.691}, "iterations_since_restore": 185, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 7557.233896493912, "episodes_total": 4650, "episode_reward_max": 4.0006829636538965, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 7557.233896493912, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 25, "timestamp": 1757062249, "timesteps_since_restore": 223200, "episode_reward_min": -93.46765627965947, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-50-49", "episode_len_mean": 43.7, "timesteps_total": 223200, "episode_reward_mean": -74.98605668001593, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.55049920082092, "training_iteration": 186, "info": {"default": {"policy_loss": -0.16070930659770966, "vf_explained_var": -0.5066881775856018, "vf_loss": 1297.4415283203125, "kl": 0.015125768259167671, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.310516357421875, "total_loss": 1297.3037109375}, "sample_time_ms": 39544.287, "num_steps_trained": 223200, "num_steps_sampled": 223200, "update_time_ms": 2.615, "grad_time_ms": 370.309, "load_time_ms": 0.691}, "iterations_since_restore": 186, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 7597.841630458832, "episodes_total": 4676, "episode_reward_max": 4.0006829636538965, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 7597.841630458832, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 26, "timestamp": 1757062290, "timesteps_since_restore": 224400, "episode_reward_min": -92.5149559563216, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-51-30", "episode_len_mean": 44.3, "timesteps_total": 224400, "episode_reward_mean": -75.55097315846803, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.607733964920044, "training_iteration": 187, "info": {"default": {"policy_loss": -0.15484149754047394, "vf_explained_var": -0.4206264615058899, "vf_loss": 1144.3035888671875, "kl": 0.013834652490913868, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.444981575012207, "total_loss": 1144.169677734375}, "sample_time_ms": 39641.445, "num_steps_trained": 224400, "num_steps_sampled": 224400, "update_time_ms": 2.605, "grad_time_ms": 369.101, "load_time_ms": 0.7}, "iterations_since_restore": 187, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 7637.683002233505, "episodes_total": 4705, "episode_reward_max": 8.000000403650564, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 7637.683002233505, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 29, "timestamp": 1757062330, "timesteps_since_restore": 225600, "episode_reward_min": -92.37277957326468, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-52-10", "episode_len_mean": 44.96, "timesteps_total": 225600, "episode_reward_mean": -76.85249563257216, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.84137177467346, "training_iteration": 188, "info": {"default": {"policy_loss": -0.14519746601581573, "vf_explained_var": -0.42934155464172363, "vf_loss": 1210.0694580078125, "kl": 0.01506258174777031, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.620769500732422, "total_loss": 1209.9471435546875}, "sample_time_ms": 39618.776, "num_steps_trained": 225600, "num_steps_sampled": 225600, "update_time_ms": 2.552, "grad_time_ms": 371.645, "load_time_ms": 0.717}, "iterations_since_restore": 188, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 7677.409727096558, "episodes_total": 4733, "episode_reward_max": 8.000000403650564, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 7677.409727096558, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 28, "timestamp": 1757062370, "timesteps_since_restore": 226800, "episode_reward_min": -92.65961695548646, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-52-50", "episode_len_mean": 44.76, "timesteps_total": 226800, "episode_reward_mean": -76.29039841362648, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.72672486305237, "training_iteration": 189, "info": {"default": {"policy_loss": -0.15315882861614227, "vf_explained_var": -0.4202888309955597, "vf_loss": 1169.5345458984375, "kl": 0.013284570537507534, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.340696334838867, "total_loss": 1169.4014892578125}, "sample_time_ms": 39568.763, "num_steps_trained": 226800, "num_steps_sampled": 226800, "update_time_ms": 2.532, "grad_time_ms": 370.943, "load_time_ms": 0.723}, "iterations_since_restore": 189, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 7717.288945913315, "episodes_total": 4762, "episode_reward_max": 8.000000403650564, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 7717.288945913315, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 29, "timestamp": 1757062410, "timesteps_since_restore": 228000, "episode_reward_min": -92.65961695548646, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-53-30", "episode_len_mean": 42.94, "timesteps_total": 228000, "episode_reward_mean": -72.73544192857034, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.8792188167572, "training_iteration": 190, "info": {"default": {"policy_loss": -0.15587908029556274, "vf_explained_var": -0.37520965933799744, "vf_loss": 1082.8988037109375, "kl": 0.013704348355531693, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.208192825317383, "total_loss": 1082.763671875}, "sample_time_ms": 39623.374, "num_steps_trained": 228000, "num_steps_sampled": 228000, "update_time_ms": 2.521, "grad_time_ms": 370.873, "load_time_ms": 0.713}, "iterations_since_restore": 190, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 7757.672968149185, "episodes_total": 4791, "episode_reward_max": 8.000000511157136, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 7757.672968149185, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 29, "timestamp": 1757062450, "timesteps_since_restore": 229200, "episode_reward_min": -92.65961695548646, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-54-10", "episode_len_mean": 42.18, "timesteps_total": 229200, "episode_reward_mean": -70.863230546778, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.38402223587036, "training_iteration": 191, "info": {"default": {"policy_loss": -0.16154435276985168, "vf_explained_var": -0.4012455940246582, "vf_loss": 1110.5670166015625, "kl": 0.01577424257993698, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.523181915283203, "total_loss": 1110.4293212890625}, "sample_time_ms": 39675.468, "num_steps_trained": 229200, "num_steps_sampled": 229200, "update_time_ms": 2.476, "grad_time_ms": 372.347, "load_time_ms": 0.701}, "iterations_since_restore": 191, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 7797.363489866257, "episodes_total": 4820, "episode_reward_max": 8.000000511157136, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 7797.363489866257, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 29, "timestamp": 1757062490, "timesteps_since_restore": 230400, "episode_reward_min": -92.60097823112537, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-54-50", "episode_len_mean": 40.72, "timesteps_total": 230400, "episode_reward_mean": -67.84047968262863, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.69052171707153, "training_iteration": 192, "info": {"default": {"policy_loss": -0.15046563744544983, "vf_explained_var": -0.35270363092422485, "vf_loss": 1164.81298828125, "kl": 0.01517312228679657, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.708709716796875, "total_loss": 1164.6856689453125}, "sample_time_ms": 39649.009, "num_steps_trained": 230400, "num_steps_sampled": 230400, "update_time_ms": 2.473, "grad_time_ms": 371.98, "load_time_ms": 0.711}, "iterations_since_restore": 192, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 7837.400736808777, "episodes_total": 4850, "episode_reward_max": 8.000000511157136, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 7837.400736808777, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 30, "timestamp": 1757062530, "timesteps_since_restore": 231600, "episode_reward_min": -92.56060467380172, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-55-30", "episode_len_mean": 40.5, "timesteps_total": 231600, "episode_reward_mean": -67.4662946907489, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.03724694252014, "training_iteration": 193, "info": {"default": {"policy_loss": -0.13854511082172394, "vf_explained_var": -0.3725610673427582, "vf_loss": 1157.923828125, "kl": 0.013952597975730896, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.779583930969238, "total_loss": 1157.806640625}, "sample_time_ms": 39653.651, "num_steps_trained": 231600, "num_steps_sampled": 231600, "update_time_ms": 2.482, "grad_time_ms": 372.599, "load_time_ms": 0.705}, "iterations_since_restore": 193, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 7877.338545560837, "episodes_total": 4877, "episode_reward_max": 4.00013171606094, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 7877.338545560837, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 27, "timestamp": 1757062570, "timesteps_since_restore": 232800, "episode_reward_min": -92.56060467380172, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-56-10", "episode_len_mean": 41.95, "timesteps_total": 232800, "episode_reward_mean": -70.16873453171931, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.93780875205994, "training_iteration": 194, "info": {"default": {"policy_loss": -0.14503635466098785, "vf_explained_var": -0.38082796335220337, "vf_loss": 1059.8951416015625, "kl": 0.013867921195924282, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.612470626831055, "total_loss": 1059.7711181640625}, "sample_time_ms": 39665.995, "num_steps_trained": 232800, "num_steps_sampled": 232800, "update_time_ms": 2.465, "grad_time_ms": 373.301, "load_time_ms": 0.7}, "iterations_since_restore": 194, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 7916.899561166763, "episodes_total": 4905, "episode_reward_max": 4.000334687034986, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 7916.899561166763, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 28, "timestamp": 1757062609, "timesteps_since_restore": 234000, "episode_reward_min": -93.39270543062, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-56-49", "episode_len_mean": 41.64, "timesteps_total": 234000, "episode_reward_mean": -69.59036653110743, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.561015605926514, "training_iteration": 195, "info": {"default": {"policy_loss": -0.15890157222747803, "vf_explained_var": -0.35051393508911133, "vf_loss": 1081.5750732421875, "kl": 0.014604638330638409, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.338172912597656, "total_loss": 1081.438232421875}, "sample_time_ms": 39638.336, "num_steps_trained": 234000, "num_steps_sampled": 234000, "update_time_ms": 2.478, "grad_time_ms": 375.506, "load_time_ms": 0.697}, "iterations_since_restore": 195, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 7956.855808258057, "episodes_total": 4933, "episode_reward_max": 4.000334687034986, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 7956.855808258057, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 28, "timestamp": 1757062649, "timesteps_since_restore": 235200, "episode_reward_min": -93.39270543062, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-57-29", "episode_len_mean": 42.82, "timesteps_total": 235200, "episode_reward_mean": -71.36033278735417, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.956247091293335, "training_iteration": 196, "info": {"default": {"policy_loss": -0.14135557413101196, "vf_explained_var": -0.348386287689209, "vf_loss": 1053.3575439453125, "kl": 0.015309368260204792, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.050577163696289, "total_loss": 1053.239501953125}, "sample_time_ms": 39578.453, "num_steps_trained": 235200, "num_steps_sampled": 235200, "update_time_ms": 2.497, "grad_time_ms": 375.952, "load_time_ms": 0.691}, "iterations_since_restore": 196, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 7997.59380698204, "episodes_total": 4962, "episode_reward_max": 4.000334687034986, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 7997.59380698204, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 29, "timestamp": 1757062690, "timesteps_since_restore": 236400, "episode_reward_min": -93.39270543062, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-58-10", "episode_len_mean": 43.13, "timesteps_total": 236400, "episode_reward_mean": -72.13785758405321, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.737998723983765, "training_iteration": 197, "info": {"default": {"policy_loss": -0.16017664968967438, "vf_explained_var": -0.3504192531108856, "vf_loss": 1070.419921875, "kl": 0.014836383983492851, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.593555450439453, "total_loss": 1070.2821044921875}, "sample_time_ms": 39590.552, "num_steps_trained": 236400, "num_steps_sampled": 236400, "update_time_ms": 2.494, "grad_time_ms": 376.874, "load_time_ms": 0.689}, "iterations_since_restore": 197, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 8037.312612533569, "episodes_total": 4992, "episode_reward_max": 2.00000190776594, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 8037.312612533569, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 30, "timestamp": 1757062730, "timesteps_since_restore": 237600, "episode_reward_min": -93.39270543062, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-58-50", "episode_len_mean": 41.66, "timesteps_total": 237600, "episode_reward_mean": -69.34162855885289, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.71880555152893, "training_iteration": 198, "info": {"default": {"policy_loss": -0.1465713530778885, "vf_explained_var": -0.3786209225654602, "vf_loss": 1123.5787353515625, "kl": 0.014990447089076042, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.31027889251709, "total_loss": 1123.455078125}, "sample_time_ms": 39576.316, "num_steps_trained": 237600, "num_steps_sampled": 237600, "update_time_ms": 2.556, "grad_time_ms": 378.807, "load_time_ms": 0.686}, "iterations_since_restore": 198, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 8077.2322771549225, "episodes_total": 5019, "episode_reward_max": 6.000001197058554, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 8077.2322771549225, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 27, "timestamp": 1757062770, "timesteps_since_restore": 238800, "episode_reward_min": -91.8719354400205, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_10-59-30", "episode_len_mean": 42.38, "timesteps_total": 238800, "episode_reward_mean": -70.83087085451749, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.91966462135315, "training_iteration": 199, "info": {"default": {"policy_loss": -0.1491290032863617, "vf_explained_var": -0.3470858335494995, "vf_loss": 1095.539794921875, "kl": 0.014232729561626911, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.700115203857422, "total_loss": 1095.4122314453125}, "sample_time_ms": 39594.262, "num_steps_trained": 238800, "num_steps_sampled": 238800, "update_time_ms": 2.592, "grad_time_ms": 380.113, "load_time_ms": 0.68}, "iterations_since_restore": 199, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 8116.913340806961, "episodes_total": 5045, "episode_reward_max": 6.000001197058554, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 8116.913340806961, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 26, "timestamp": 1757062809, "timesteps_since_restore": 240000, "episode_reward_min": -91.8719354400205, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-00-09", "episode_len_mean": 42.96, "timesteps_total": 240000, "episode_reward_mean": -71.78238705168941, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.681063652038574, "training_iteration": 200, "info": {"default": {"policy_loss": -0.1583535075187683, "vf_explained_var": -0.3458694815635681, "vf_loss": 1113.43115234375, "kl": 0.015213726088404655, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.107471466064453, "total_loss": 1113.2960205078125}, "sample_time_ms": 39575.704, "num_steps_trained": 240000, "num_steps_sampled": 240000, "update_time_ms": 2.625, "grad_time_ms": 378.916, "load_time_ms": 0.677}, "iterations_since_restore": 200, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 8156.765690803528, "episodes_total": 5076, "episode_reward_max": 6.000001197058554, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 8156.765690803528, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 31, "timestamp": 1757062849, "timesteps_since_restore": 241200, "episode_reward_min": -91.8719354400205, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-00-49", "episode_len_mean": 41.96, "timesteps_total": 241200, "episode_reward_mean": -69.9454932655982, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.85234999656677, "training_iteration": 201, "info": {"default": {"policy_loss": -0.157878577709198, "vf_explained_var": -0.33739620447158813, "vf_loss": 1145.3822021484375, "kl": 0.015361779369413853, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.011149406433105, "total_loss": 1145.24755859375}, "sample_time_ms": 39522.851, "num_steps_trained": 241200, "num_steps_sampled": 241200, "update_time_ms": 2.687, "grad_time_ms": 378.571, "load_time_ms": 0.671}, "iterations_since_restore": 201, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 8196.760407209396, "episodes_total": 5107, "episode_reward_max": 3.099956436826691, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 8196.760407209396, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 31, "timestamp": 1757062889, "timesteps_since_restore": 242400, "episode_reward_min": -92.61758670008707, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-01-29", "episode_len_mean": 41.77, "timesteps_total": 242400, "episode_reward_mean": -69.17018697450396, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.99471640586853, "training_iteration": 202, "info": {"default": {"policy_loss": -0.1507437527179718, "vf_explained_var": -0.36588647961616516, "vf_loss": 1073.396728515625, "kl": 0.013501138426363468, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.176572799682617, "total_loss": 1073.266357421875}, "sample_time_ms": 39551.099, "num_steps_trained": 242400, "num_steps_sampled": 242400, "update_time_ms": 2.678, "grad_time_ms": 380.72, "load_time_ms": 0.661}, "iterations_since_restore": 202, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 8236.445150613785, "episodes_total": 5135, "episode_reward_max": 3.099956436826691, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 8236.445150613785, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 28, "timestamp": 1757062929, "timesteps_since_restore": 243600, "episode_reward_min": -92.61758670008707, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-02-09", "episode_len_mean": 41.06, "timesteps_total": 243600, "episode_reward_mean": -67.59249412634206, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.68474340438843, "training_iteration": 203, "info": {"default": {"policy_loss": -0.15652626752853394, "vf_explained_var": -0.3818720877170563, "vf_loss": 950.4407348632812, "kl": 0.016368085518479347, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 12.89154052734375, "total_loss": 950.3091430664062}, "sample_time_ms": 39515.935, "num_steps_trained": 243600, "num_steps_sampled": 243600, "update_time_ms": 2.691, "grad_time_ms": 380.569, "load_time_ms": 0.675}, "iterations_since_restore": 203, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 8276.223326206207, "episodes_total": 5165, "episode_reward_max": 4.001067404241164, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 8276.223326206207, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 30, "timestamp": 1757062969, "timesteps_since_restore": 244800, "episode_reward_min": -92.61758670008707, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-02-49", "episode_len_mean": 40.07, "timesteps_total": 244800, "episode_reward_mean": -65.05605303181596, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.778175592422485, "training_iteration": 204, "info": {"default": {"policy_loss": -0.14614611864089966, "vf_explained_var": -0.35303419828414917, "vf_loss": 1131.22607421875, "kl": 0.01495667640119791, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 12.985526084899902, "total_loss": 1131.1026611328125}, "sample_time_ms": 39501.711, "num_steps_trained": 244800, "num_steps_sampled": 244800, "update_time_ms": 2.69, "grad_time_ms": 378.837, "load_time_ms": 0.672}, "iterations_since_restore": 204, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 8316.936507463455, "episodes_total": 5193, "episode_reward_max": 4.001067404241164, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 8316.936507463455, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 28, "timestamp": 1757063010, "timesteps_since_restore": 246000, "episode_reward_min": -96.067823345115, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-03-30", "episode_len_mean": 40.95, "timesteps_total": 246000, "episode_reward_mean": -66.37564291249303, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.713181257247925, "training_iteration": 205, "info": {"default": {"policy_loss": -0.15005767345428467, "vf_explained_var": -0.3373439311981201, "vf_loss": 1098.679443359375, "kl": 0.014885461889207363, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.348801612854004, "total_loss": 1098.5521240234375}, "sample_time_ms": 39619.15, "num_steps_trained": 246000, "num_steps_sampled": 246000, "update_time_ms": 2.67, "grad_time_ms": 376.698, "load_time_ms": 0.674}, "iterations_since_restore": 205, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 8358.666808128357, "episodes_total": 5225, "episode_reward_max": 4.001067404241164, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 8358.666808128357, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 32, "timestamp": 1757063051, "timesteps_since_restore": 247200, "episode_reward_min": -96.067823345115, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-04-11", "episode_len_mean": 39.84, "timesteps_total": 247200, "episode_reward_mean": -64.59761791859097, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.73030066490173, "training_iteration": 206, "info": {"default": {"policy_loss": -0.16411937773227692, "vf_explained_var": -0.29479020833969116, "vf_loss": 1075.2625732421875, "kl": 0.015185907483100891, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.24186897277832, "total_loss": 1075.12158203125}, "sample_time_ms": 39796.163, "num_steps_trained": 247200, "num_steps_sampled": 247200, "update_time_ms": 2.646, "grad_time_ms": 377.106, "load_time_ms": 0.684}, "iterations_since_restore": 206, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 8398.196811437607, "episodes_total": 5256, "episode_reward_max": 1.5443997790403756, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 8398.196811437607, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 31, "timestamp": 1757063091, "timesteps_since_restore": 248400, "episode_reward_min": -96.067823345115, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-04-51", "episode_len_mean": 39.93, "timesteps_total": 248400, "episode_reward_mean": -64.55709863811104, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.53000330924988, "training_iteration": 207, "info": {"default": {"policy_loss": -0.17071430385112762, "vf_explained_var": -0.28046658635139465, "vf_loss": 1030.57470703125, "kl": 0.01628737337887287, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.016953468322754, "total_loss": 1030.4287109375}, "sample_time_ms": 39676.57, "num_steps_trained": 248400, "num_steps_sampled": 248400, "update_time_ms": 2.681, "grad_time_ms": 375.861, "load_time_ms": 0.684}, "iterations_since_restore": 207, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 8437.985636234283, "episodes_total": 5285, "episode_reward_max": -0.9904019968979938, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 8437.985636234283, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 29, "timestamp": 1757063131, "timesteps_since_restore": 249600, "episode_reward_min": -96.067823345115, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-05-31", "episode_len_mean": 39.84, "timesteps_total": 249600, "episode_reward_mean": -65.0012792256284, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.788824796676636, "training_iteration": 208, "info": {"default": {"policy_loss": -0.16021773219108582, "vf_explained_var": -0.3396264910697937, "vf_loss": 985.6159057617188, "kl": 0.016051210463047028, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.07682991027832, "total_loss": 985.4800415039062}, "sample_time_ms": 39686.104, "num_steps_trained": 249600, "num_steps_sampled": 249600, "update_time_ms": 2.624, "grad_time_ms": 373.406, "load_time_ms": 0.681}, "iterations_since_restore": 208, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 8478.784487247467, "episodes_total": 5314, "episode_reward_max": 4.928781773935007, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 8478.784487247467, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 29, "timestamp": 1757063171, "timesteps_since_restore": 250800, "episode_reward_min": -91.80211804006872, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-06-11", "episode_len_mean": 40.89, "timesteps_total": 250800, "episode_reward_mean": -67.17779115973885, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.798851013183594, "training_iteration": 209, "info": {"default": {"policy_loss": -0.15208488702774048, "vf_explained_var": -0.3686583340167999, "vf_loss": 1161.77685546875, "kl": 0.014635481871664524, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.068450927734375, "total_loss": 1161.64697265625}, "sample_time_ms": 39774.052, "num_steps_trained": 250800, "num_steps_sampled": 250800, "update_time_ms": 2.583, "grad_time_ms": 373.337, "load_time_ms": 0.693}, "iterations_since_restore": 209, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 8518.685803890228, "episodes_total": 5344, "episode_reward_max": 6.000073268723339, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 8518.685803890228, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 30, "timestamp": 1757063211, "timesteps_since_restore": 252000, "episode_reward_min": -91.80211804006872, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-06-51", "episode_len_mean": 41.12, "timesteps_total": 252000, "episode_reward_mean": -67.71722268206653, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.90131664276123, "training_iteration": 210, "info": {"default": {"policy_loss": -0.1699586659669876, "vf_explained_var": -0.3429703116416931, "vf_loss": 1090.525146484375, "kl": 0.017788060009479523, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.278613090515137, "total_loss": 1090.38232421875}, "sample_time_ms": 39796.061, "num_steps_trained": 252000, "num_steps_sampled": 252000, "update_time_ms": 2.572, "grad_time_ms": 373.359, "load_time_ms": 0.698}, "iterations_since_restore": 210, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 8558.82173037529, "episodes_total": 5375, "episode_reward_max": 6.0000829131164135, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 8558.82173037529, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 31, "timestamp": 1757063252, "timesteps_since_restore": 253200, "episode_reward_min": -91.80211804006872, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-07-32", "episode_len_mean": 40.77, "timesteps_total": 253200, "episode_reward_mean": -67.148941969132, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.135926485061646, "training_iteration": 211, "info": {"default": {"policy_loss": -0.16334539651870728, "vf_explained_var": -0.3501596450805664, "vf_loss": 1087.8045654296875, "kl": 0.015667999163269997, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.41409969329834, "total_loss": 1087.6651611328125}, "sample_time_ms": 39825.48, "num_steps_trained": 253200, "num_steps_sampled": 253200, "update_time_ms": 2.559, "grad_time_ms": 372.271, "load_time_ms": 0.702}, "iterations_since_restore": 211, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 8598.854800224304, "episodes_total": 5404, "episode_reward_max": 6.0000829131164135, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 8598.854800224304, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 29, "timestamp": 1757063292, "timesteps_since_restore": 254400, "episode_reward_min": -93.72650077802295, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-08-12", "episode_len_mean": 39.57, "timesteps_total": 254400, "episode_reward_mean": -64.71784010554788, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.03306984901428, "training_iteration": 212, "info": {"default": {"policy_loss": -0.15626494586467743, "vf_explained_var": -0.31428447365760803, "vf_loss": 1067.374755859375, "kl": 0.015441324561834335, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.050248146057129, "total_loss": 1067.2418212890625}, "sample_time_ms": 39830.425, "num_steps_trained": 254400, "num_steps_sampled": 254400, "update_time_ms": 2.56, "grad_time_ms": 371.129, "load_time_ms": 0.71}, "iterations_since_restore": 212, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 8639.84416103363, "episodes_total": 5433, "episode_reward_max": 6.0000829131164135, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 8639.84416103363, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 29, "timestamp": 1757063333, "timesteps_since_restore": 255600, "episode_reward_min": -93.72650077802295, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-08-53", "episode_len_mean": 39.3, "timesteps_total": 255600, "episode_reward_mean": -63.96978602769269, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.98936080932617, "training_iteration": 213, "info": {"default": {"policy_loss": -0.15772825479507446, "vf_explained_var": -0.3130634129047394, "vf_loss": 1166.7840576171875, "kl": 0.016533369198441505, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.51565170288086, "total_loss": 1166.6513671875}, "sample_time_ms": 39961.287, "num_steps_trained": 255600, "num_steps_sampled": 255600, "update_time_ms": 2.593, "grad_time_ms": 370.728, "load_time_ms": 0.699}, "iterations_since_restore": 213, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 8679.872495174408, "episodes_total": 5462, "episode_reward_max": 1.011725610516823, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 8679.872495174408, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 29, "timestamp": 1757063373, "timesteps_since_restore": 256800, "episode_reward_min": -93.72650077802295, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-09-33", "episode_len_mean": 40.93, "timesteps_total": 256800, "episode_reward_mean": -67.16881999512655, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.02833414077759, "training_iteration": 214, "info": {"default": {"policy_loss": -0.16730043292045593, "vf_explained_var": -0.30936262011528015, "vf_loss": 1043.631103515625, "kl": 0.017269406467676163, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.444417953491211, "total_loss": 1043.489990234375}, "sample_time_ms": 39984.807, "num_steps_trained": 256800, "num_steps_sampled": 256800, "update_time_ms": 2.612, "grad_time_ms": 372.149, "load_time_ms": 0.703}, "iterations_since_restore": 214, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 8719.738498449326, "episodes_total": 5490, "episode_reward_max": 8.000000405567913, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 8719.738498449326, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 28, "timestamp": 1757063413, "timesteps_since_restore": 258000, "episode_reward_min": -90.48366971071216, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-10-13", "episode_len_mean": 41.37, "timesteps_total": 258000, "episode_reward_mean": -67.77275647874096, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.8660032749176, "training_iteration": 215, "info": {"default": {"policy_loss": -0.15171705186367035, "vf_explained_var": -0.3300231695175171, "vf_loss": 1134.259765625, "kl": 0.01571868173778057, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.648940086364746, "total_loss": 1134.1319580078125}, "sample_time_ms": 39897.405, "num_steps_trained": 258000, "num_steps_sampled": 258000, "update_time_ms": 2.659, "grad_time_ms": 374.744, "load_time_ms": 0.711}, "iterations_since_restore": 215, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 8762.164754152298, "episodes_total": 5524, "episode_reward_max": 8.000000405567913, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 8762.164754152298, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 34, "timestamp": 1757063455, "timesteps_since_restore": 259200, "episode_reward_min": -90.48366971071216, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-10-55", "episode_len_mean": 40.07, "timesteps_total": 259200, "episode_reward_mean": -65.26250950467825, "num_metric_batches_dropped": 0, "time_this_iter_s": 42.42625570297241, "training_iteration": 216, "info": {"default": {"policy_loss": -0.15297681093215942, "vf_explained_var": -0.30939996242523193, "vf_loss": 1020.321533203125, "kl": 0.016222938895225525, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 12.700252532958984, "total_loss": 1020.193115234375}, "sample_time_ms": 39967.855, "num_steps_trained": 259200, "num_steps_sampled": 259200, "update_time_ms": 2.659, "grad_time_ms": 373.88, "load_time_ms": 0.705}, "iterations_since_restore": 216, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 8802.005336523056, "episodes_total": 5555, "episode_reward_max": 8.000000405567913, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 8802.005336523056, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 31, "timestamp": 1757063495, "timesteps_since_restore": 260400, "episode_reward_min": -90.48366971071216, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-11-35", "episode_len_mean": 39.44, "timesteps_total": 260400, "episode_reward_mean": -64.03758458528553, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.84058237075806, "training_iteration": 217, "info": {"default": {"policy_loss": -0.15717382729053497, "vf_explained_var": -0.27496951818466187, "vf_loss": 1012.4624633789062, "kl": 0.015133202075958252, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.583510398864746, "total_loss": 1012.3282470703125}, "sample_time_ms": 39998.388, "num_steps_trained": 260400, "num_steps_sampled": 260400, "update_time_ms": 2.636, "grad_time_ms": 374.455, "load_time_ms": 0.698}, "iterations_since_restore": 217, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 8841.880759000778, "episodes_total": 5585, "episode_reward_max": 8.000070839830947, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 8841.880759000778, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 30, "timestamp": 1757063535, "timesteps_since_restore": 261600, "episode_reward_min": -89.71046991014778, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-12-15", "episode_len_mean": 38.19, "timesteps_total": 261600, "episode_reward_mean": -61.06708310579214, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.87542247772217, "training_iteration": 218, "info": {"default": {"policy_loss": -0.15934793651103973, "vf_explained_var": -0.2833198010921478, "vf_loss": 1055.509765625, "kl": 0.015097592957317829, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.744431495666504, "total_loss": 1055.373291015625}, "sample_time_ms": 40008.047, "num_steps_trained": 261600, "num_steps_sampled": 261600, "update_time_ms": 2.653, "grad_time_ms": 373.393, "load_time_ms": 0.684}, "iterations_since_restore": 218, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 8881.93435382843, "episodes_total": 5613, "episode_reward_max": 8.000070839830947, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 8881.93435382843, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 28, "timestamp": 1757063575, "timesteps_since_restore": 262800, "episode_reward_min": -92.70316418168595, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-12-55", "episode_len_mean": 38.63, "timesteps_total": 262800, "episode_reward_mean": -61.96021884166319, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.05359482765198, "training_iteration": 219, "info": {"default": {"policy_loss": -0.16383883357048035, "vf_explained_var": -0.3058522045612335, "vf_loss": 1022.783203125, "kl": 0.015994058921933174, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 12.756534576416016, "total_loss": 1022.6435546875}, "sample_time_ms": 39933.992, "num_steps_trained": 262800, "num_steps_sampled": 262800, "update_time_ms": 2.691, "grad_time_ms": 372.899, "load_time_ms": 0.671}, "iterations_since_restore": 219, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 8924.58662223816, "episodes_total": 5643, "episode_reward_max": 8.000070839830947, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 8924.58662223816, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 30, "timestamp": 1757063618, "timesteps_since_restore": 264000, "episode_reward_min": -92.70316418168595, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-13-38", "episode_len_mean": 40.34, "timesteps_total": 264000, "episode_reward_mean": -65.0117897200704, "num_metric_batches_dropped": 0, "time_this_iter_s": 42.652268409729004, "training_iteration": 220, "info": {"default": {"policy_loss": -0.16289815306663513, "vf_explained_var": -0.3164491057395935, "vf_loss": 953.900634765625, "kl": 0.015436896122992039, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.022956848144531, "total_loss": 953.7610473632812}, "sample_time_ms": 40206.34, "num_steps_trained": 264000, "num_steps_sampled": 264000, "update_time_ms": 2.683, "grad_time_ms": 375.647, "load_time_ms": 0.675}, "iterations_since_restore": 220, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 8964.320016860962, "episodes_total": 5672, "episode_reward_max": 8.000000527977768, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 8964.320016860962, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 29, "timestamp": 1757063657, "timesteps_since_restore": 265200, "episode_reward_min": -92.70316418168595, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-14-17", "episode_len_mean": 41.86, "timesteps_total": 265200, "episode_reward_mean": -68.33446746179489, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.733394622802734, "training_iteration": 221, "info": {"default": {"policy_loss": -0.15638935565948486, "vf_explained_var": -0.32534754276275635, "vf_loss": 1096.478271484375, "kl": 0.015397797338664532, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.235451698303223, "total_loss": 1096.34521484375}, "sample_time_ms": 40164.611, "num_steps_trained": 265200, "num_steps_sampled": 265200, "update_time_ms": 2.736, "grad_time_ms": 377.043, "load_time_ms": 0.666}, "iterations_since_restore": 221, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 9004.112464666367, "episodes_total": 5703, "episode_reward_max": 8.000000527977768, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 9004.112464666367, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 31, "timestamp": 1757063697, "timesteps_since_restore": 266400, "episode_reward_min": -90.62550223859797, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-14-57", "episode_len_mean": 39.92, "timesteps_total": 266400, "episode_reward_mean": -64.62204817295145, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.79244780540466, "training_iteration": 222, "info": {"default": {"policy_loss": -0.15471717715263367, "vf_explained_var": -0.3019946813583374, "vf_loss": 1005.5072631835938, "kl": 0.015406976453959942, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.112126350402832, "total_loss": 1005.3760986328125}, "sample_time_ms": 40142.816, "num_steps_trained": 266400, "num_steps_sampled": 266400, "update_time_ms": 2.776, "grad_time_ms": 374.795, "load_time_ms": 0.65}, "iterations_since_restore": 222, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 9044.030234336853, "episodes_total": 5731, "episode_reward_max": -0.9633978202434488, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 9044.030234336853, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 28, "timestamp": 1757063737, "timesteps_since_restore": 267600, "episode_reward_min": -90.62550223859797, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-15-37", "episode_len_mean": 41.07, "timesteps_total": 267600, "episode_reward_mean": -66.6899554830233, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.91776967048645, "training_iteration": 223, "info": {"default": {"policy_loss": -0.16003577411174774, "vf_explained_var": -0.3405795097351074, "vf_loss": 977.480224609375, "kl": 0.01877163164317608, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.001789093017578, "total_loss": 977.3487548828125}, "sample_time_ms": 40036.323, "num_steps_trained": 267600, "num_steps_sampled": 267600, "update_time_ms": 2.741, "grad_time_ms": 374.131, "load_time_ms": 0.653}, "iterations_since_restore": 223, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 9084.119462013245, "episodes_total": 5761, "episode_reward_max": -1.9998013685221512, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 9084.119462013245, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 30, "timestamp": 1757063777, "timesteps_since_restore": 268800, "episode_reward_min": -90.62550223859797, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-16-17", "episode_len_mean": 41.15, "timesteps_total": 268800, "episode_reward_mean": -66.76976975205686, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.0892276763916, "training_iteration": 224, "info": {"default": {"policy_loss": -0.15750139951705933, "vf_explained_var": -0.27438732981681824, "vf_loss": 1081.98486328125, "kl": 0.015098820440471172, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.700387001037598, "total_loss": 1081.8502197265625}, "sample_time_ms": 40043.374, "num_steps_trained": 268800, "num_steps_sampled": 268800, "update_time_ms": 2.731, "grad_time_ms": 373.231, "load_time_ms": 0.659}, "iterations_since_restore": 224, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 9123.80794930458, "episodes_total": 5790, "episode_reward_max": -1.3251957974313378, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 9123.80794930458, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 29, "timestamp": 1757063817, "timesteps_since_restore": 270000, "episode_reward_min": -89.45303178614655, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-16-57", "episode_len_mean": 40.05, "timesteps_total": 270000, "episode_reward_mean": -64.59658869044593, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.68848729133606, "training_iteration": 225, "info": {"default": {"policy_loss": -0.15752027928829193, "vf_explained_var": -0.30403026938438416, "vf_loss": 1103.6446533203125, "kl": 0.015299060381948948, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.401510238647461, "total_loss": 1103.5103759765625}, "sample_time_ms": 40027.965, "num_steps_trained": 270000, "num_steps_sampled": 270000, "update_time_ms": 2.664, "grad_time_ms": 370.973, "load_time_ms": 0.642}, "iterations_since_restore": 225, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 9164.474817991257, "episodes_total": 5820, "episode_reward_max": -1.3251957974313378, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 9164.474817991257, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 30, "timestamp": 1757063858, "timesteps_since_restore": 271200, "episode_reward_min": -93.69323091500199, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-17-38", "episode_len_mean": 40.53, "timesteps_total": 271200, "episode_reward_mean": -65.72393337519841, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.666868686676025, "training_iteration": 226, "info": {"default": {"policy_loss": -0.16036508977413177, "vf_explained_var": -0.2762628197669983, "vf_loss": 982.5792236328125, "kl": 0.01710665225982666, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 12.788013458251953, "total_loss": 982.4446411132812}, "sample_time_ms": 39853.779, "num_steps_trained": 271200, "num_steps_sampled": 271200, "update_time_ms": 2.686, "grad_time_ms": 369.22, "load_time_ms": 0.642}, "iterations_since_restore": 226, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 9204.466871976852, "episodes_total": 5846, "episode_reward_max": -1.3251957974313378, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 9204.466871976852, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 26, "timestamp": 1757063898, "timesteps_since_restore": 272400, "episode_reward_min": -93.69323091500199, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-18-18", "episode_len_mean": 40.88, "timesteps_total": 272400, "episode_reward_mean": -66.65288610600265, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.9920539855957, "training_iteration": 227, "info": {"default": {"policy_loss": -0.15836866199970245, "vf_explained_var": -0.3027469515800476, "vf_loss": 1007.7203979492188, "kl": 0.015621514990925789, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 12.45046615600586, "total_loss": 1007.5858154296875}, "sample_time_ms": 39868.021, "num_steps_trained": 272400, "num_steps_sampled": 272400, "update_time_ms": 2.671, "grad_time_ms": 370.119, "load_time_ms": 0.658}, "iterations_since_restore": 227, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 9244.257379055023, "episodes_total": 5874, "episode_reward_max": -1.3251957974313378, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 9244.257379055023, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 28, "timestamp": 1757063937, "timesteps_since_restore": 273600, "episode_reward_min": -93.69323091500199, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-18-57", "episode_len_mean": 42.38, "timesteps_total": 273600, "episode_reward_mean": -69.328304341097, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.790507078170776, "training_iteration": 228, "info": {"default": {"policy_loss": -0.15211647748947144, "vf_explained_var": -0.3236777186393738, "vf_loss": 1080.2008056640625, "kl": 0.01578701101243496, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.537626266479492, "total_loss": 1080.0726318359375}, "sample_time_ms": 39860.001, "num_steps_trained": 273600, "num_steps_sampled": 273600, "update_time_ms": 2.662, "grad_time_ms": 369.704, "load_time_ms": 0.66}, "iterations_since_restore": 228, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 9284.184660673141, "episodes_total": 5904, "episode_reward_max": 6.000117873365724, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 9284.184660673141, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 30, "timestamp": 1757063977, "timesteps_since_restore": 274800, "episode_reward_min": -90.74345310061125, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-19-37", "episode_len_mean": 42.59, "timesteps_total": 274800, "episode_reward_mean": -69.51755415004526, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.927281618118286, "training_iteration": 229, "info": {"default": {"policy_loss": -0.164872944355011, "vf_explained_var": -0.2986079752445221, "vf_loss": 1054.0855712890625, "kl": 0.01581508107483387, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 12.982776641845703, "total_loss": 1053.94482421875}, "sample_time_ms": 39848.625, "num_steps_trained": 274800, "num_steps_sampled": 274800, "update_time_ms": 2.632, "grad_time_ms": 368.535, "load_time_ms": 0.673}, "iterations_since_restore": 229, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 9324.209452152252, "episodes_total": 5935, "episode_reward_max": 6.000117873365724, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 9324.209452152252, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 31, "timestamp": 1757064017, "timesteps_since_restore": 276000, "episode_reward_min": -90.51203535173963, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-20-17", "episode_len_mean": 41.52, "timesteps_total": 276000, "episode_reward_mean": -67.09041065716296, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.02479147911072, "training_iteration": 230, "info": {"default": {"policy_loss": -0.1691437065601349, "vf_explained_var": -0.2907818555831909, "vf_loss": 994.9599609375, "kl": 0.016384674236178398, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 12.749164581298828, "total_loss": 994.815673828125}, "sample_time_ms": 39585.908, "num_steps_trained": 276000, "num_steps_sampled": 276000, "update_time_ms": 2.629, "grad_time_ms": 368.463, "load_time_ms": 0.676}, "iterations_since_restore": 230, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 9363.838419437408, "episodes_total": 5963, "episode_reward_max": 6.000117873365724, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 9363.838419437408, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 28, "timestamp": 1757064057, "timesteps_since_restore": 277200, "episode_reward_min": -90.25076605989368, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-20-57", "episode_len_mean": 41.17, "timesteps_total": 277200, "episode_reward_mean": -66.75108098709251, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.62896728515625, "training_iteration": 231, "info": {"default": {"policy_loss": -0.1470331847667694, "vf_explained_var": -0.3362228274345398, "vf_loss": 1104.985107421875, "kl": 0.018291175365447998, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 12.976324081420898, "total_loss": 1104.8658447265625}, "sample_time_ms": 39574.666, "num_steps_trained": 277200, "num_steps_sampled": 277200, "update_time_ms": 2.543, "grad_time_ms": 369.345, "load_time_ms": 0.691}, "iterations_since_restore": 231, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 9403.768480539322, "episodes_total": 5992, "episode_reward_max": 4.000776165976943, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 9403.768480539322, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 29, "timestamp": 1757064097, "timesteps_since_restore": 278400, "episode_reward_min": -90.25076605989368, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-21-37", "episode_len_mean": 40.68, "timesteps_total": 278400, "episode_reward_mean": -65.73902611795752, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.93006110191345, "training_iteration": 232, "info": {"default": {"policy_loss": -0.15554030239582062, "vf_explained_var": -0.29723942279815674, "vf_loss": 1141.6754150390625, "kl": 0.013341255486011505, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.069669723510742, "total_loss": 1141.5404052734375}, "sample_time_ms": 39585.887, "num_steps_trained": 278400, "num_steps_sampled": 278400, "update_time_ms": 2.556, "grad_time_ms": 371.918, "load_time_ms": 0.689}, "iterations_since_restore": 232, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 9444.614391088486, "episodes_total": 6022, "episode_reward_max": 4.000776165976943, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 9444.614391088486, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 30, "timestamp": 1757064138, "timesteps_since_restore": 279600, "episode_reward_min": -89.57322765901453, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-22-18", "episode_len_mean": 40.96, "timesteps_total": 279600, "episode_reward_mean": -66.54201413849523, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.84591054916382, "training_iteration": 233, "info": {"default": {"policy_loss": -0.15158255398273468, "vf_explained_var": -0.29437100887298584, "vf_loss": 1002.2943725585938, "kl": 0.017893055453896523, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.101436614990234, "total_loss": 1002.169921875}, "sample_time_ms": 39679.801, "num_steps_trained": 279600, "num_steps_sampled": 279600, "update_time_ms": 2.573, "grad_time_ms": 370.84, "load_time_ms": 0.695}, "iterations_since_restore": 233, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 9484.989345312119, "episodes_total": 6053, "episode_reward_max": 6.000000800413123, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 9484.989345312119, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 31, "timestamp": 1757064179, "timesteps_since_restore": 280800, "episode_reward_min": -88.99180486567073, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-22-59", "episode_len_mean": 39.67, "timesteps_total": 280800, "episode_reward_mean": -63.707493219641634, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.37495422363281, "training_iteration": 234, "info": {"default": {"policy_loss": -0.14343668520450592, "vf_explained_var": -0.31423261761665344, "vf_loss": 930.550537109375, "kl": 0.01762600988149643, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.212556838989258, "total_loss": 930.433837890625}, "sample_time_ms": 39707.27, "num_steps_trained": 280800, "num_steps_sampled": 280800, "update_time_ms": 2.552, "grad_time_ms": 371.941, "load_time_ms": 0.689}, "iterations_since_restore": 234, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 9525.49176645279, "episodes_total": 6082, "episode_reward_max": 6.000040256155188, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 9525.49176645279, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 29, "timestamp": 1757064219, "timesteps_since_restore": 282000, "episode_reward_min": -88.99180486567073, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-23-39", "episode_len_mean": 39.54, "timesteps_total": 282000, "episode_reward_mean": -63.374264864817235, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.502421140670776, "training_iteration": 235, "info": {"default": {"policy_loss": -0.15609373152256012, "vf_explained_var": -0.2817671000957489, "vf_loss": 1050.1866455078125, "kl": 0.015294515527784824, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 13.412919998168945, "total_loss": 1050.0538330078125}, "sample_time_ms": 39786.859, "num_steps_trained": 282000, "num_steps_sampled": 282000, "update_time_ms": 2.587, "grad_time_ms": 373.692, "load_time_ms": 0.695}, "iterations_since_restore": 235, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 9566.122301340103, "episodes_total": 6112, "episode_reward_max": 6.000040256155188, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 9566.122301340103, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 30, "timestamp": 1757064260, "timesteps_since_restore": 283200, "episode_reward_min": -89.90083040036947, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-24-20", "episode_len_mean": 40.86, "timesteps_total": 283200, "episode_reward_mean": -66.05355072877464, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.63053488731384, "training_iteration": 236, "info": {"default": {"policy_loss": -0.14495274424552917, "vf_explained_var": -0.2853067219257355, "vf_loss": 1041.5274658203125, "kl": 0.016321195289492607, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 12.927608489990234, "total_loss": 1041.4072265625}, "sample_time_ms": 39780.76, "num_steps_trained": 283200, "num_steps_sampled": 283200, "update_time_ms": 2.572, "grad_time_ms": 376.153, "load_time_ms": 0.706}, "iterations_since_restore": 236, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 9605.825471878052, "episodes_total": 6143, "episode_reward_max": 8.00000545573834, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 9605.825471878052, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 31, "timestamp": 1757064299, "timesteps_since_restore": 284400, "episode_reward_min": -90.26658361449236, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-24-59", "episode_len_mean": 39.0, "timesteps_total": 284400, "episode_reward_mean": -62.144211244210766, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.70317053794861, "training_iteration": 237, "info": {"default": {"policy_loss": -0.1597108244895935, "vf_explained_var": -0.27282822132110596, "vf_loss": 922.2081298828125, "kl": 0.016343913972377777, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 12.883086204528809, "total_loss": 922.0731201171875}, "sample_time_ms": 39753.705, "num_steps_trained": 284400, "num_steps_sampled": 284400, "update_time_ms": 2.595, "grad_time_ms": 374.261, "load_time_ms": 0.698}, "iterations_since_restore": 237, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 9645.38778924942, "episodes_total": 6174, "episode_reward_max": 8.00000545573834, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 9645.38778924942, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 31, "timestamp": 1757064339, "timesteps_since_restore": 285600, "episode_reward_min": -91.65305741114481, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-25-39", "episode_len_mean": 38.82, "timesteps_total": 285600, "episode_reward_mean": -62.18095806610904, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.56231737136841, "training_iteration": 238, "info": {"default": {"policy_loss": -0.14086788892745972, "vf_explained_var": -0.25600114464759827, "vf_loss": 987.5619506835938, "kl": 0.020219407975673676, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5187499523162842, "entropy": 12.836071968078613, "total_loss": 987.4517211914062}, "sample_time_ms": 39728.874, "num_steps_trained": 285600, "num_steps_sampled": 285600, "update_time_ms": 2.649, "grad_time_ms": 376.129, "load_time_ms": 0.709}, "iterations_since_restore": 238, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 9685.57236790657, "episodes_total": 6208, "episode_reward_max": 8.00000545573834, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 9685.57236790657, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 34, "timestamp": 1757064379, "timesteps_since_restore": 286800, "episode_reward_min": -91.65305741114481, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-26-19", "episode_len_mean": 37.79, "timesteps_total": 286800, "episode_reward_mean": -60.064663122248355, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.18457865715027, "training_iteration": 239, "info": {"default": {"policy_loss": -0.15286481380462646, "vf_explained_var": -0.2660362422466278, "vf_loss": 967.4266357421875, "kl": 0.012715176679193974, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.278125047683716, "entropy": 13.237992286682129, "total_loss": 967.3028564453125}, "sample_time_ms": 39755.307, "num_steps_trained": 286800, "num_steps_sampled": 286800, "update_time_ms": 2.674, "grad_time_ms": 375.425, "load_time_ms": 0.694}, "iterations_since_restore": 239, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 9725.198402404785, "episodes_total": 6235, "episode_reward_max": 6.000465531187261, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 9725.198402404785, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 27, "timestamp": 1757064419, "timesteps_since_restore": 288000, "episode_reward_min": -91.65305741114481, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-26-59", "episode_len_mean": 39.54, "timesteps_total": 288000, "episode_reward_mean": -63.43731133573806, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.62603449821472, "training_iteration": 240, "info": {"default": {"policy_loss": -0.14320990443229675, "vf_explained_var": -0.25657427310943604, "vf_loss": 1047.77099609375, "kl": 0.011954888701438904, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.278125047683716, "entropy": 13.451057434082031, "total_loss": 1047.6549072265625}, "sample_time_ms": 39718.125, "num_steps_trained": 288000, "num_steps_sampled": 288000, "update_time_ms": 2.666, "grad_time_ms": 372.801, "load_time_ms": 0.695}, "iterations_since_restore": 240, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 9764.662470340729, "episodes_total": 6264, "episode_reward_max": 6.000001255228989, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 9764.662470340729, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 29, "timestamp": 1757064458, "timesteps_since_restore": 289200, "episode_reward_min": -91.3622814393077, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-27-38", "episode_len_mean": 40.19, "timesteps_total": 289200, "episode_reward_mean": -64.46964740405154, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.4640679359436, "training_iteration": 241, "info": {"default": {"policy_loss": -0.15270613133907318, "vf_explained_var": -0.30416232347488403, "vf_loss": 1056.7235107421875, "kl": 0.012456096708774567, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.278125047683716, "entropy": 13.256470680236816, "total_loss": 1056.59912109375}, "sample_time_ms": 39704.262, "num_steps_trained": 289200, "num_steps_sampled": 289200, "update_time_ms": 2.651, "grad_time_ms": 370.235, "load_time_ms": 0.692}, "iterations_since_restore": 241, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 9805.560595989227, "episodes_total": 6294, "episode_reward_max": 6.00000080187926, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 9805.560595989227, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 30, "timestamp": 1757064499, "timesteps_since_restore": 290400, "episode_reward_min": -89.54624892958675, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-28-19", "episode_len_mean": 40.69, "timesteps_total": 290400, "episode_reward_mean": -65.60406613800474, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.898125648498535, "training_iteration": 242, "info": {"default": {"policy_loss": -0.1352100372314453, "vf_explained_var": -0.3046340048313141, "vf_loss": 1081.2117919921875, "kl": 0.012618829496204853, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.278125047683716, "entropy": 12.896646499633789, "total_loss": 1081.105224609375}, "sample_time_ms": 39801.572, "num_steps_trained": 290400, "num_steps_sampled": 290400, "update_time_ms": 2.583, "grad_time_ms": 369.742, "load_time_ms": 0.696}, "iterations_since_restore": 242, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 9845.676735162735, "episodes_total": 6328, "episode_reward_max": 5.006727285114643, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 9845.676735162735, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 34, "timestamp": 1757064539, "timesteps_since_restore": 291600, "episode_reward_min": -89.54624892958675, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-28-59", "episode_len_mean": 38.63, "timesteps_total": 291600, "episode_reward_mean": -61.59544818390693, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.11613917350769, "training_iteration": 243, "info": {"default": {"policy_loss": -0.14947693049907684, "vf_explained_var": -0.28864744305610657, "vf_loss": 984.384521484375, "kl": 0.013015996664762497, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.278125047683716, "entropy": 12.691071510314941, "total_loss": 984.2646484375}, "sample_time_ms": 39726.419, "num_steps_trained": 291600, "num_steps_sampled": 291600, "update_time_ms": 2.61, "grad_time_ms": 371.859, "load_time_ms": 0.687}, "iterations_since_restore": 243, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 9885.561044216156, "episodes_total": 6361, "episode_reward_max": 5.006727285114643, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 9885.561044216156, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 33, "timestamp": 1757064579, "timesteps_since_restore": 292800, "episode_reward_min": -90.3588979702946, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-29-39", "episode_len_mean": 37.93, "timesteps_total": 292800, "episode_reward_mean": -60.12715601124517, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.88430905342102, "training_iteration": 244, "info": {"default": {"policy_loss": -0.15777868032455444, "vf_explained_var": -0.25918492674827576, "vf_loss": 979.0658569335938, "kl": 0.01294470764696598, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.278125047683716, "entropy": 12.95770263671875, "total_loss": 978.937744140625}, "sample_time_ms": 39677.374, "num_steps_trained": 292800, "num_steps_sampled": 292800, "update_time_ms": 2.621, "grad_time_ms": 371.779, "load_time_ms": 0.692}, "iterations_since_restore": 244, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 9925.485277891159, "episodes_total": 6394, "episode_reward_max": 4.000001201733137, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 9925.485277891159, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 33, "timestamp": 1757064619, "timesteps_since_restore": 294000, "episode_reward_min": -90.3588979702946, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-30-19", "episode_len_mean": 36.29, "timesteps_total": 294000, "episode_reward_mean": -56.747290317104564, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.92423367500305, "training_iteration": 245, "info": {"default": {"policy_loss": -0.14636388421058655, "vf_explained_var": -0.27531754970550537, "vf_loss": 942.704345703125, "kl": 0.01248849555850029, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.278125047683716, "entropy": 12.9465913772583, "total_loss": 942.5863647460938}, "sample_time_ms": 39620.112, "num_steps_trained": 294000, "num_steps_sampled": 294000, "update_time_ms": 2.635, "grad_time_ms": 371.232, "load_time_ms": 0.697}, "iterations_since_restore": 245, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 9966.576407909393, "episodes_total": 6430, "episode_reward_max": 6.000003809275823, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 9966.576407909393, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 36, "timestamp": 1757064660, "timesteps_since_restore": 295200, "episode_reward_min": -90.3588979702946, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-31-00", "episode_len_mean": 36.06, "timesteps_total": 295200, "episode_reward_mean": -56.53048830760591, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.09113001823425, "training_iteration": 246, "info": {"default": {"policy_loss": -0.13260824978351593, "vf_explained_var": -0.24438327550888062, "vf_loss": 1005.1487426757812, "kl": 0.01206839270889759, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.278125047683716, "entropy": 12.919758796691895, "total_loss": 1005.0436401367188}, "sample_time_ms": 39666.902, "num_steps_trained": 295200, "num_steps_sampled": 295200, "update_time_ms": 2.617, "grad_time_ms": 370.527, "load_time_ms": 0.686}, "iterations_since_restore": 246, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 10006.465139627457, "episodes_total": 6459, "episode_reward_max": 6.000003809275823, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 10006.465139627457, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 29, "timestamp": 1757064700, "timesteps_since_restore": 296400, "episode_reward_min": -89.96435884567087, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-31-40", "episode_len_mean": 36.44, "timesteps_total": 296400, "episode_reward_mean": -57.30805481079529, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.888731718063354, "training_iteration": 247, "info": {"default": {"policy_loss": -0.14850765466690063, "vf_explained_var": -0.2592252194881439, "vf_loss": 997.223388671875, "kl": 0.0128452368080616, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.278125047683716, "entropy": 12.636247634887695, "total_loss": 997.104248046875}, "sample_time_ms": 39685.985, "num_steps_trained": 296400, "num_steps_sampled": 296400, "update_time_ms": 2.641, "grad_time_ms": 370.019, "load_time_ms": 0.685}, "iterations_since_restore": 247, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 10047.346573591232, "episodes_total": 6487, "episode_reward_max": 6.000003809275823, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 10047.346573591232, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 28, "timestamp": 1757064741, "timesteps_since_restore": 297600, "episode_reward_min": -89.96435884567087, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-32-21", "episode_len_mean": 39.26, "timesteps_total": 297600, "episode_reward_mean": -62.85700075821903, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.881433963775635, "training_iteration": 248, "info": {"default": {"policy_loss": -0.1517505943775177, "vf_explained_var": -0.29261890053749084, "vf_loss": 1071.43505859375, "kl": 0.012576376087963581, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.278125047683716, "entropy": 12.75015640258789, "total_loss": 1071.31201171875}, "sample_time_ms": 39818.242, "num_steps_trained": 297600, "num_steps_sampled": 297600, "update_time_ms": 2.605, "grad_time_ms": 369.752, "load_time_ms": 0.672}, "iterations_since_restore": 248, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 10087.763265132904, "episodes_total": 6518, "episode_reward_max": 6.000003809275823, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 10087.763265132904, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 31, "timestamp": 1757064782, "timesteps_since_restore": 298800, "episode_reward_min": -90.44700343448407, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-33-02", "episode_len_mean": 39.11, "timesteps_total": 298800, "episode_reward_mean": -62.34495996539144, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.41669154167175, "training_iteration": 249, "info": {"default": {"policy_loss": -0.14761188626289368, "vf_explained_var": -0.2713385224342346, "vf_loss": 1036.578125, "kl": 0.013500198721885681, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.278125047683716, "entropy": 12.818290710449219, "total_loss": 1036.46142578125}, "sample_time_ms": 39839.266, "num_steps_trained": 298800, "num_steps_sampled": 298800, "update_time_ms": 2.599, "grad_time_ms": 371.902, "load_time_ms": 0.681}, "iterations_since_restore": 249, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 10127.533018350601, "episodes_total": 6549, "episode_reward_max": 6.000000996285608, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 10127.533018350601, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 31, "timestamp": 1757064821, "timesteps_since_restore": 300000, "episode_reward_min": -90.44700343448407, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-33-41", "episode_len_mean": 39.45, "timesteps_total": 300000, "episode_reward_mean": -63.33353470019897, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.769753217697144, "training_iteration": 250, "info": {"default": {"policy_loss": -0.14262649416923523, "vf_explained_var": -0.28955745697021484, "vf_loss": 1046.5789794921875, "kl": 0.012495553120970726, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.278125047683716, "entropy": 12.69051742553711, "total_loss": 1046.46484375}, "sample_time_ms": 39851.744, "num_steps_trained": 300000, "num_steps_sampled": 300000, "update_time_ms": 2.605, "grad_time_ms": 373.749, "load_time_ms": 0.683}, "iterations_since_restore": 250, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 10167.528487682343, "episodes_total": 6579, "episode_reward_max": 6.000000996285608, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 10167.528487682343, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 30, "timestamp": 1757064861, "timesteps_since_restore": 301200, "episode_reward_min": -90.44700343448407, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-34-21", "episode_len_mean": 39.12, "timesteps_total": 301200, "episode_reward_mean": -62.319423869951095, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.99546933174133, "training_iteration": 251, "info": {"default": {"policy_loss": -0.15870340168476105, "vf_explained_var": -0.2716209590435028, "vf_loss": 1028.191650390625, "kl": 0.013292250223457813, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.278125047683716, "entropy": 12.94511890411377, "total_loss": 1028.063232421875}, "sample_time_ms": 39902.299, "num_steps_trained": 301200, "num_steps_sampled": 301200, "update_time_ms": 2.611, "grad_time_ms": 376.329, "load_time_ms": 0.674}, "iterations_since_restore": 251, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 10207.324111938477, "episodes_total": 6606, "episode_reward_max": 6.000000996285608, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 10207.324111938477, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 27, "timestamp": 1757064901, "timesteps_since_restore": 302400, "episode_reward_min": -89.75127513747199, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-35-01", "episode_len_mean": 41.11, "timesteps_total": 302400, "episode_reward_mean": -65.92847420480686, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.79562425613403, "training_iteration": 252, "info": {"default": {"policy_loss": -0.1494932621717453, "vf_explained_var": -0.28222376108169556, "vf_loss": 1018.4591064453125, "kl": 0.011401093564927578, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.278125047683716, "entropy": 13.253334045410156, "total_loss": 1018.3356323242188}, "sample_time_ms": 39792.251, "num_steps_trained": 302400, "num_steps_sampled": 302400, "update_time_ms": 2.623, "grad_time_ms": 376.133, "load_time_ms": 0.673}, "iterations_since_restore": 252, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 10247.550509214401, "episodes_total": 6642, "episode_reward_max": 8.000000400001447, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 10247.550509214401, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 36, "timestamp": 1757064941, "timesteps_since_restore": 303600, "episode_reward_min": -90.62735869150309, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-35-41", "episode_len_mean": 38.36, "timesteps_total": 303600, "episode_reward_mean": -60.42010509939297, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.22639727592468, "training_iteration": 253, "info": {"default": {"policy_loss": -0.15230292081832886, "vf_explained_var": -0.25244128704071045, "vf_loss": 1027.1971435546875, "kl": 0.01335117407143116, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.278125047683716, "entropy": 12.728971481323242, "total_loss": 1027.0753173828125}, "sample_time_ms": 39802.507, "num_steps_trained": 303600, "num_steps_sampled": 303600, "update_time_ms": 2.575, "grad_time_ms": 376.948, "load_time_ms": 0.689}, "iterations_since_restore": 253, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 10287.438793420792, "episodes_total": 6673, "episode_reward_max": 8.000000400001447, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 10287.438793420792, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 31, "timestamp": 1757064981, "timesteps_since_restore": 304800, "episode_reward_min": -90.62735869150309, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-36-21", "episode_len_mean": 38.23, "timesteps_total": 304800, "episode_reward_mean": -60.058950878536876, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.88828420639038, "training_iteration": 254, "info": {"default": {"policy_loss": -0.14596015214920044, "vf_explained_var": -0.25878894329071045, "vf_loss": 975.8355102539062, "kl": 0.012719937600195408, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.278125047683716, "entropy": 12.968610763549805, "total_loss": 975.718505859375}, "sample_time_ms": 39802.424, "num_steps_trained": 304800, "num_steps_sampled": 304800, "update_time_ms": 2.568, "grad_time_ms": 377.531, "load_time_ms": 0.685}, "iterations_since_restore": 254, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 10328.203395605087, "episodes_total": 6706, "episode_reward_max": 8.000000400001447, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 10328.203395605087, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 33, "timestamp": 1757065022, "timesteps_since_restore": 306000, "episode_reward_min": -90.62735869150309, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-37-02", "episode_len_mean": 35.91, "timesteps_total": 306000, "episode_reward_mean": -55.425110361203934, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.764602184295654, "training_iteration": 255, "info": {"default": {"policy_loss": -0.1383938491344452, "vf_explained_var": -0.2464098185300827, "vf_loss": 966.401611328125, "kl": 0.013782541267573833, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.278125047683716, "entropy": 13.140617370605469, "total_loss": 966.2946166992188}, "sample_time_ms": 39885.567, "num_steps_trained": 306000, "num_steps_sampled": 306000, "update_time_ms": 2.55, "grad_time_ms": 378.383, "load_time_ms": 0.68}, "iterations_since_restore": 255, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 10367.93236041069, "episodes_total": 6739, "episode_reward_max": 8.000000400001447, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 10367.93236041069, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 33, "timestamp": 1757065062, "timesteps_since_restore": 307200, "episode_reward_min": -89.63656563037563, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-37-42", "episode_len_mean": 36.8, "timesteps_total": 307200, "episode_reward_mean": -56.74059563098055, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.72896480560303, "training_iteration": 256, "info": {"default": {"policy_loss": -0.14820489287376404, "vf_explained_var": -0.24187524616718292, "vf_loss": 895.0201416015625, "kl": 0.013457324355840683, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.278125047683716, "entropy": 12.783334732055664, "total_loss": 894.902587890625}, "sample_time_ms": 39751.163, "num_steps_trained": 307200, "num_steps_sampled": 307200, "update_time_ms": 2.557, "grad_time_ms": 376.57, "load_time_ms": 0.677}, "iterations_since_restore": 256, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 10408.344902276993, "episodes_total": 6772, "episode_reward_max": 6.00073332262113, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 10408.344902276993, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 33, "timestamp": 1757065102, "timesteps_since_restore": 308400, "episode_reward_min": -89.63656563037563, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-38-22", "episode_len_mean": 36.55, "timesteps_total": 308400, "episode_reward_mean": -56.343983961162486, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.41254186630249, "training_iteration": 257, "info": {"default": {"policy_loss": -0.13740865886211395, "vf_explained_var": -0.25662052631378174, "vf_loss": 964.514892578125, "kl": 0.013350550085306168, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.278125047683716, "entropy": 12.823246955871582, "total_loss": 964.4078979492188}, "sample_time_ms": 39803.626, "num_steps_trained": 308400, "num_steps_sampled": 308400, "update_time_ms": 2.519, "grad_time_ms": 376.52, "load_time_ms": 0.669}, "iterations_since_restore": 257, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 10448.842173814774, "episodes_total": 6803, "episode_reward_max": 8.000000400183646, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 10448.842173814774, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 31, "timestamp": 1757065143, "timesteps_since_restore": 309600, "episode_reward_min": -89.63656563037563, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-39-03", "episode_len_mean": 37.26, "timesteps_total": 309600, "episode_reward_mean": -58.171522610923304, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.49727153778076, "training_iteration": 258, "info": {"default": {"policy_loss": -0.15420515835285187, "vf_explained_var": -0.24731561541557312, "vf_loss": 1087.7513427734375, "kl": 0.014436044730246067, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.278125047683716, "entropy": 13.041423797607422, "total_loss": 1087.6300048828125}, "sample_time_ms": 39765.746, "num_steps_trained": 309600, "num_steps_sampled": 309600, "update_time_ms": 2.512, "grad_time_ms": 376.036, "load_time_ms": 0.669}, "iterations_since_restore": 258, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 10488.671289682388, "episodes_total": 6835, "episode_reward_max": 8.000000400183646, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 10488.671289682388, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 32, "timestamp": 1757065183, "timesteps_since_restore": 310800, "episode_reward_min": -90.93508059554276, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-39-43", "episode_len_mean": 36.81, "timesteps_total": 310800, "episode_reward_mean": -57.447887740265244, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.829115867614746, "training_iteration": 259, "info": {"default": {"policy_loss": -0.15319475531578064, "vf_explained_var": -0.2668079435825348, "vf_loss": 1043.151611328125, "kl": 0.011360873468220234, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.278125047683716, "entropy": 13.281984329223633, "total_loss": 1043.024169921875}, "sample_time_ms": 39707.092, "num_steps_trained": 310800, "num_steps_sampled": 310800, "update_time_ms": 2.502, "grad_time_ms": 375.954, "load_time_ms": 0.677}, "iterations_since_restore": 259, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 10528.484966516495, "episodes_total": 6862, "episode_reward_max": 8.000000400183646, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 10528.484966516495, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 27, "timestamp": 1757065223, "timesteps_since_restore": 312000, "episode_reward_min": -90.93508059554276, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-40-23", "episode_len_mean": 38.12, "timesteps_total": 312000, "episode_reward_mean": -59.886255065777625, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.813676834106445, "training_iteration": 260, "info": {"default": {"policy_loss": -0.14773711562156677, "vf_explained_var": -0.2510557770729065, "vf_loss": 1195.844970703125, "kl": 0.01286425068974495, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.278125047683716, "entropy": 13.647106170654297, "total_loss": 1195.7264404296875}, "sample_time_ms": 39711.246, "num_steps_trained": 312000, "num_steps_sampled": 312000, "update_time_ms": 2.489, "grad_time_ms": 376.208, "load_time_ms": 0.665}, "iterations_since_restore": 260, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 10569.175270318985, "episodes_total": 6896, "episode_reward_max": 3.005940102167183, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 10569.175270318985, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 34, "timestamp": 1757065263, "timesteps_since_restore": 313200, "episode_reward_min": -90.93508059554276, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-41-03", "episode_len_mean": 38.96, "timesteps_total": 313200, "episode_reward_mean": -61.784178928160365, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.690303802490234, "training_iteration": 261, "info": {"default": {"policy_loss": -0.15080100297927856, "vf_explained_var": -0.25356408953666687, "vf_loss": 1028.9810791015625, "kl": 0.01361567247658968, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.278125047683716, "entropy": 12.476893424987793, "total_loss": 1028.861328125}, "sample_time_ms": 39780.516, "num_steps_trained": 313200, "num_steps_sampled": 313200, "update_time_ms": 2.538, "grad_time_ms": 376.276, "load_time_ms": 0.681}, "iterations_since_restore": 261, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 10609.451768875122, "episodes_total": 6927, "episode_reward_max": 6.001147858430279, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 10609.451768875122, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 31, "timestamp": 1757065304, "timesteps_since_restore": 314400, "episode_reward_min": -89.99630809904824, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-41-44", "episode_len_mean": 39.04, "timesteps_total": 314400, "episode_reward_mean": -62.37827789576632, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.276498556137085, "training_iteration": 262, "info": {"default": {"policy_loss": -0.15126913785934448, "vf_explained_var": -0.24784167110919952, "vf_loss": 976.560791015625, "kl": 0.012713681906461716, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.278125047683716, "entropy": 12.807903289794922, "total_loss": 976.4384765625}, "sample_time_ms": 39828.824, "num_steps_trained": 314400, "num_steps_sampled": 314400, "update_time_ms": 2.563, "grad_time_ms": 376.047, "load_time_ms": 0.688}, "iterations_since_restore": 262, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 10649.203081607819, "episodes_total": 6954, "episode_reward_max": 6.001147858430279, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 10649.203081607819, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 27, "timestamp": 1757065343, "timesteps_since_restore": 315600, "episode_reward_min": -89.99630809904824, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-42-23", "episode_len_mean": 39.76, "timesteps_total": 315600, "episode_reward_mean": -63.668735023068876, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.75131273269653, "training_iteration": 263, "info": {"default": {"policy_loss": -0.13824698328971863, "vf_explained_var": -0.2916586101055145, "vf_loss": 1105.9854736328125, "kl": 0.014969523064792156, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.278125047683716, "entropy": 13.727066993713379, "total_loss": 1105.8812255859375}, "sample_time_ms": 39782.556, "num_steps_trained": 315600, "num_steps_sampled": 315600, "update_time_ms": 2.561, "grad_time_ms": 374.845, "load_time_ms": 0.672}, "iterations_since_restore": 263, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 10689.266154766083, "episodes_total": 6989, "episode_reward_max": 6.001147858430279, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 10689.266154766083, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 35, "timestamp": 1757065383, "timesteps_since_restore": 316800, "episode_reward_min": -89.26593621095823, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-43-03", "episode_len_mean": 38.89, "timesteps_total": 316800, "episode_reward_mean": -61.967348319256054, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.06307315826416, "training_iteration": 264, "info": {"default": {"policy_loss": -0.16091112792491913, "vf_explained_var": -0.24219830334186554, "vf_loss": 979.1735229492188, "kl": 0.012853077612817287, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.278125047683716, "entropy": 12.764080047607422, "total_loss": 979.0418701171875}, "sample_time_ms": 39799.847, "num_steps_trained": 316800, "num_steps_sampled": 316800, "update_time_ms": 2.567, "grad_time_ms": 374.977, "load_time_ms": 0.674}, "iterations_since_restore": 264, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 10729.418271780014, "episodes_total": 7020, "episode_reward_max": 6.000000972360321, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 10729.418271780014, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 31, "timestamp": 1757065424, "timesteps_since_restore": 318000, "episode_reward_min": -90.3927170709329, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-43-44", "episode_len_mean": 38.88, "timesteps_total": 318000, "episode_reward_mean": -62.009620366176996, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.152117013931274, "training_iteration": 265, "info": {"default": {"policy_loss": -0.13896577060222626, "vf_explained_var": -0.25457680225372314, "vf_loss": 995.09375, "kl": 0.012392496690154076, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.278125047683716, "entropy": 12.90947151184082, "total_loss": 994.9830932617188}, "sample_time_ms": 39739.045, "num_steps_trained": 318000, "num_steps_sampled": 318000, "update_time_ms": 2.634, "grad_time_ms": 374.498, "load_time_ms": 0.678}, "iterations_since_restore": 265, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 10769.347385644913, "episodes_total": 7055, "episode_reward_max": 6.000000972360321, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 10769.347385644913, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 35, "timestamp": 1757065464, "timesteps_since_restore": 319200, "episode_reward_min": -90.3927170709329, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-44-24", "episode_len_mean": 35.91, "timesteps_total": 319200, "episode_reward_mean": -55.7965155072826, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.92911386489868, "training_iteration": 266, "info": {"default": {"policy_loss": -0.1531079262495041, "vf_explained_var": -0.24333153665065765, "vf_loss": 802.0049438476562, "kl": 0.01612810231745243, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.278125047683716, "entropy": 11.86178207397461, "total_loss": 801.8885498046875}, "sample_time_ms": 39759.153, "num_steps_trained": 319200, "num_steps_sampled": 319200, "update_time_ms": 2.654, "grad_time_ms": 374.391, "load_time_ms": 0.682}, "iterations_since_restore": 266, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 10809.273187160492, "episodes_total": 7087, "episode_reward_max": 6.0001166210722054, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 10809.273187160492, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 32, "timestamp": 1757065503, "timesteps_since_restore": 320400, "episode_reward_min": -90.3927170709329, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-45-03", "episode_len_mean": 36.88, "timesteps_total": 320400, "episode_reward_mean": -57.518434457107084, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.925801515579224, "training_iteration": 267, "info": {"default": {"policy_loss": -0.15598677098751068, "vf_explained_var": -0.2415461540222168, "vf_loss": 1074.53857421875, "kl": 0.01217656023800373, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.278125047683716, "entropy": 12.832146644592285, "total_loss": 1074.4102783203125}, "sample_time_ms": 39707.935, "num_steps_trained": 320400, "num_steps_sampled": 320400, "update_time_ms": 2.646, "grad_time_ms": 376.909, "load_time_ms": 0.702}, "iterations_since_restore": 267, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 10849.51955485344, "episodes_total": 7123, "episode_reward_max": 6.0001166210722054, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 10849.51955485344, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 36, "timestamp": 1757065544, "timesteps_since_restore": 321600, "episode_reward_min": -89.68808697150551, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-45-44", "episode_len_mean": 35.21, "timesteps_total": 321600, "episode_reward_mean": -53.962722067205775, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.24636769294739, "training_iteration": 268, "info": {"default": {"policy_loss": -0.15269605815410614, "vf_explained_var": -0.28056690096855164, "vf_loss": 795.634765625, "kl": 0.013254357501864433, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.278125047683716, "entropy": 12.702412605285645, "total_loss": 795.5123291015625}, "sample_time_ms": 39683.754, "num_steps_trained": 321600, "num_steps_sampled": 321600, "update_time_ms": 2.689, "grad_time_ms": 375.901, "load_time_ms": 0.705}, "iterations_since_restore": 268, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 10890.012792110443, "episodes_total": 7156, "episode_reward_max": 6.0001166210722054, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 10890.012792110443, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 33, "timestamp": 1757065584, "timesteps_since_restore": 322800, "episode_reward_min": -89.68808697150551, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-46-24", "episode_len_mean": 35.6, "timesteps_total": 322800, "episode_reward_mean": -54.54218018486315, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.493237257003784, "training_iteration": 269, "info": {"default": {"policy_loss": -0.15343333780765533, "vf_explained_var": -0.22415931522846222, "vf_loss": 909.1847534179688, "kl": 0.01207807194441557, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.278125047683716, "entropy": 12.731679916381836, "total_loss": 909.058837890625}, "sample_time_ms": 39751.182, "num_steps_trained": 322800, "num_steps_sampled": 322800, "update_time_ms": 2.697, "grad_time_ms": 374.918, "load_time_ms": 0.687}, "iterations_since_restore": 269, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 10931.435271263123, "episodes_total": 7186, "episode_reward_max": 6.000000806526659, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 10931.435271263123, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 30, "timestamp": 1757065626, "timesteps_since_restore": 324000, "episode_reward_min": -88.878213239729, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-47-06", "episode_len_mean": 35.83, "timesteps_total": 324000, "episode_reward_mean": -55.03554018604668, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.42247915267944, "training_iteration": 270, "info": {"default": {"policy_loss": -0.14106912910938263, "vf_explained_var": -0.23145389556884766, "vf_loss": 985.962890625, "kl": 0.020570220425724983, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.278125047683716, "entropy": 12.657537460327148, "total_loss": 985.8687133789062}, "sample_time_ms": 39912.559, "num_steps_trained": 324000, "num_steps_sampled": 324000, "update_time_ms": 2.7, "grad_time_ms": 374.441, "load_time_ms": 0.693}, "iterations_since_restore": 270, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 10971.410628318787, "episodes_total": 7221, "episode_reward_max": 6.000333257068888, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 10971.410628318787, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 35, "timestamp": 1757065666, "timesteps_since_restore": 325200, "episode_reward_min": -89.4006269119723, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-47-46", "episode_len_mean": 36.55, "timesteps_total": 325200, "episode_reward_mean": -56.341521493316485, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.97535705566406, "training_iteration": 271, "info": {"default": {"policy_loss": -0.15044063329696655, "vf_explained_var": -0.2019844949245453, "vf_loss": 887.0538940429688, "kl": 0.009449784643948078, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.878402709960938, "total_loss": 886.9357299804688}, "sample_time_ms": 39842.326, "num_steps_trained": 325200, "num_steps_sampled": 325200, "update_time_ms": 2.648, "grad_time_ms": 373.322, "load_time_ms": 0.693}, "iterations_since_restore": 271, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 11011.443233966827, "episodes_total": 7250, "episode_reward_max": 6.000333257068888, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 11011.443233966827, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 29, "timestamp": 1757065706, "timesteps_since_restore": 326400, "episode_reward_min": -89.4006269119723, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-48-26", "episode_len_mean": 38.43, "timesteps_total": 326400, "episode_reward_mean": -60.53162219809438, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.03260564804077, "training_iteration": 272, "info": {"default": {"policy_loss": -0.13248580694198608, "vf_explained_var": -0.25450196862220764, "vf_loss": 1031.7916259765625, "kl": 0.013286018744111061, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.530891418457031, "total_loss": 1031.70458984375}, "sample_time_ms": 39817.252, "num_steps_trained": 326400, "num_steps_sampled": 326400, "update_time_ms": 2.637, "grad_time_ms": 373.962, "load_time_ms": 0.683}, "iterations_since_restore": 272, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 11051.192428588867, "episodes_total": 7282, "episode_reward_max": 6.000333257068888, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 11051.192428588867, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 32, "timestamp": 1757065746, "timesteps_since_restore": 327600, "episode_reward_min": -89.40664844735979, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-49-06", "episode_len_mean": 38.44, "timesteps_total": 327600, "episode_reward_mean": -60.85226712028121, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.749194622039795, "training_iteration": 273, "info": {"default": {"policy_loss": -0.1596783846616745, "vf_explained_var": -0.2673594057559967, "vf_loss": 1046.4095458984375, "kl": 0.010720459744334221, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.142034530639648, "total_loss": 1046.286376953125}, "sample_time_ms": 39817.589, "num_steps_trained": 327600, "num_steps_sampled": 327600, "update_time_ms": 2.672, "grad_time_ms": 373.378, "load_time_ms": 0.694}, "iterations_since_restore": 273, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 11090.783704042435, "episodes_total": 7310, "episode_reward_max": 6.000000823131145, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 11090.783704042435, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 28, "timestamp": 1757065785, "timesteps_since_restore": 328800, "episode_reward_min": -89.40664844735979, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-49-45", "episode_len_mean": 39.89, "timesteps_total": 328800, "episode_reward_mean": -63.75883820015233, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.591275453567505, "training_iteration": 274, "info": {"default": {"policy_loss": -0.14294655621051788, "vf_explained_var": -0.26801028847694397, "vf_loss": 994.0591430664062, "kl": 0.011037583462893963, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.178925514221191, "total_loss": 993.9539794921875}, "sample_time_ms": 39773.129, "num_steps_trained": 328800, "num_steps_sampled": 328800, "update_time_ms": 2.677, "grad_time_ms": 370.702, "load_time_ms": 0.689}, "iterations_since_restore": 274, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 11130.916654109955, "episodes_total": 7339, "episode_reward_max": 6.000000823131145, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 11130.916654109955, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 29, "timestamp": 1757065825, "timesteps_since_restore": 330000, "episode_reward_min": -89.40664844735979, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-50-25", "episode_len_mean": 40.45, "timesteps_total": 330000, "episode_reward_mean": -64.83288589136355, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.13295006752014, "training_iteration": 275, "info": {"default": {"policy_loss": -0.13871556520462036, "vf_explained_var": -0.2646142244338989, "vf_loss": 1046.71826171875, "kl": 0.009873783215880394, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.831324577331543, "total_loss": 1046.61328125}, "sample_time_ms": 39771.181, "num_steps_trained": 330000, "num_steps_sampled": 330000, "update_time_ms": 2.571, "grad_time_ms": 370.786, "load_time_ms": 0.688}, "iterations_since_restore": 275, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 11170.96684885025, "episodes_total": 7370, "episode_reward_max": 4.000196521285082, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 11170.96684885025, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 31, "timestamp": 1757065865, "timesteps_since_restore": 331200, "episode_reward_min": -88.47288227083544, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-51-05", "episode_len_mean": 40.3, "timesteps_total": 331200, "episode_reward_mean": -64.07020046484452, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.05019474029541, "training_iteration": 276, "info": {"default": {"policy_loss": -0.13284337520599365, "vf_explained_var": -0.297391414642334, "vf_loss": 1012.1005859375, "kl": 0.009704035706818104, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 13.004853248596191, "total_loss": 1012.0009765625}, "sample_time_ms": 39783.153, "num_steps_trained": 331200, "num_steps_sampled": 331200, "update_time_ms": 2.567, "grad_time_ms": 370.902, "load_time_ms": 0.691}, "iterations_since_restore": 276, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 11210.63520860672, "episodes_total": 7403, "episode_reward_max": 4.001967607628766, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 11210.63520860672, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 33, "timestamp": 1757065905, "timesteps_since_restore": 332400, "episode_reward_min": -88.47288227083544, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-51-45", "episode_len_mean": 39.92, "timesteps_total": 332400, "episode_reward_mean": -63.54159463388592, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.66835975646973, "training_iteration": 277, "info": {"default": {"policy_loss": -0.13515673577785492, "vf_explained_var": -0.22103820741176605, "vf_loss": 985.2252807617188, "kl": 0.010675419121980667, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.939961433410645, "total_loss": 985.1265258789062}, "sample_time_ms": 39757.645, "num_steps_trained": 332400, "num_steps_sampled": 332400, "update_time_ms": 2.594, "grad_time_ms": 370.488, "load_time_ms": 0.682}, "iterations_since_restore": 277, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 11250.726419448853, "episodes_total": 7434, "episode_reward_max": 6.000120590963505, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 11250.726419448853, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 31, "timestamp": 1757065945, "timesteps_since_restore": 333600, "episode_reward_min": -88.22478653434943, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-52-25", "episode_len_mean": 37.87, "timesteps_total": 333600, "episode_reward_mean": -59.10062658379673, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.09121084213257, "training_iteration": 278, "info": {"default": {"policy_loss": -0.1479840725660324, "vf_explained_var": -0.21607020497322083, "vf_loss": 1002.015869140625, "kl": 0.009780656546354294, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.888046264648438, "total_loss": 1001.9012451171875}, "sample_time_ms": 39740.568, "num_steps_trained": 333600, "num_steps_sampled": 333600, "update_time_ms": 2.561, "grad_time_ms": 372.135, "load_time_ms": 0.679}, "iterations_since_restore": 278, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 11290.410803318024, "episodes_total": 7462, "episode_reward_max": 6.000120590963505, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 11290.410803318024, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 28, "timestamp": 1757065985, "timesteps_since_restore": 334800, "episode_reward_min": -89.24030848027041, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-53-05", "episode_len_mean": 37.85, "timesteps_total": 334800, "episode_reward_mean": -58.65220722725586, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.68438386917114, "training_iteration": 279, "info": {"default": {"policy_loss": -0.12946152687072754, "vf_explained_var": -0.24823838472366333, "vf_loss": 930.684326171875, "kl": 0.010218787007033825, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.699371337890625, "total_loss": 930.58984375}, "sample_time_ms": 39658.439, "num_steps_trained": 334800, "num_steps_sampled": 334800, "update_time_ms": 2.56, "grad_time_ms": 373.346, "load_time_ms": 0.686}, "iterations_since_restore": 279, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 11330.291737556458, "episodes_total": 7495, "episode_reward_max": 6.000120590963505, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 11330.291737556458, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 33, "timestamp": 1757066025, "timesteps_since_restore": 336000, "episode_reward_min": -89.24030848027041, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-53-45", "episode_len_mean": 38.56, "timesteps_total": 336000, "episode_reward_mean": -60.26616468272141, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.88093423843384, "training_iteration": 280, "info": {"default": {"policy_loss": -0.14067727327346802, "vf_explained_var": -0.24202574789524078, "vf_loss": 971.61328125, "kl": 0.011794502846896648, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.130139350891113, "total_loss": 971.512939453125}, "sample_time_ms": 39506.0, "num_steps_trained": 336000, "num_steps_sampled": 336000, "update_time_ms": 2.584, "grad_time_ms": 371.592, "load_time_ms": 0.678}, "iterations_since_restore": 280, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 11370.344008922577, "episodes_total": 7527, "episode_reward_max": 6.000120590963505, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 11370.344008922577, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 32, "timestamp": 1757066065, "timesteps_since_restore": 337200, "episode_reward_min": -90.80487003207868, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-54-25", "episode_len_mean": 37.25, "timesteps_total": 337200, "episode_reward_mean": -57.89694514497628, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.052271366119385, "training_iteration": 281, "info": {"default": {"policy_loss": -0.1517491340637207, "vf_explained_var": -0.2098856121301651, "vf_loss": 916.6866455078125, "kl": 0.010781552642583847, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.0401611328125, "total_loss": 916.5717163085938}, "sample_time_ms": 39513.819, "num_steps_trained": 337200, "num_steps_sampled": 337200, "update_time_ms": 2.656, "grad_time_ms": 371.318, "load_time_ms": 0.672}, "iterations_since_restore": 281, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 11410.138897180557, "episodes_total": 7557, "episode_reward_max": 4.000399199675442, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 11410.138897180557, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 30, "timestamp": 1757066105, "timesteps_since_restore": 338400, "episode_reward_min": -90.80487003207868, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-55-05", "episode_len_mean": 37.63, "timesteps_total": 338400, "episode_reward_mean": -58.825615630859275, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.79488825798035, "training_iteration": 282, "info": {"default": {"policy_loss": -0.13119569420814514, "vf_explained_var": -0.24981416761875153, "vf_loss": 946.1663208007812, "kl": 0.012359555810689926, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.275206565856934, "total_loss": 946.077392578125}, "sample_time_ms": 39492.306, "num_steps_trained": 338400, "num_steps_sampled": 338400, "update_time_ms": 2.682, "grad_time_ms": 369.124, "load_time_ms": 0.669}, "iterations_since_restore": 282, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 11450.59225821495, "episodes_total": 7590, "episode_reward_max": 4.000240034605861, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 11450.59225821495, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 33, "timestamp": 1757066145, "timesteps_since_restore": 339600, "episode_reward_min": -90.80487003207868, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-55-45", "episode_len_mean": 38.09, "timesteps_total": 339600, "episode_reward_mean": -59.54442549528784, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.45336103439331, "training_iteration": 283, "info": {"default": {"policy_loss": -0.13611643016338348, "vf_explained_var": -0.24513891339302063, "vf_loss": 956.5634765625, "kl": 0.010416662320494652, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.923528671264648, "total_loss": 956.4630126953125}, "sample_time_ms": 39562.769, "num_steps_trained": 339600, "num_steps_sampled": 339600, "update_time_ms": 2.638, "grad_time_ms": 369.09, "load_time_ms": 0.656}, "iterations_since_restore": 283, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 11490.672585010529, "episodes_total": 7621, "episode_reward_max": 4.000404296041605, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 11490.672585010529, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 31, "timestamp": 1757066185, "timesteps_since_restore": 340800, "episode_reward_min": -90.80487003207868, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-56-25", "episode_len_mean": 39.27, "timesteps_total": 340800, "episode_reward_mean": -61.70791140022253, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.080326795578, "training_iteration": 284, "info": {"default": {"policy_loss": -0.12599699199199677, "vf_explained_var": -0.22395695745944977, "vf_loss": 948.1287841796875, "kl": 0.013782219029963017, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.790130615234375, "total_loss": 948.0499267578125}, "sample_time_ms": 39610.127, "num_steps_trained": 340800, "num_steps_sampled": 340800, "update_time_ms": 2.643, "grad_time_ms": 370.627, "load_time_ms": 0.656}, "iterations_since_restore": 284, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 11530.800664186478, "episodes_total": 7659, "episode_reward_max": 6.000133858808425, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 11530.800664186478, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 38, "timestamp": 1757066225, "timesteps_since_restore": 342000, "episode_reward_min": -89.55463561808085, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-57-05", "episode_len_mean": 35.11, "timesteps_total": 342000, "episode_reward_mean": -53.39391233994266, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.1280791759491, "training_iteration": 285, "info": {"default": {"policy_loss": -0.13299641013145447, "vf_explained_var": -0.18917344510555267, "vf_loss": 893.406494140625, "kl": 0.011112219654023647, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.747282981872559, "total_loss": 893.3114013671875}, "sample_time_ms": 39609.842, "num_steps_trained": 342000, "num_steps_sampled": 342000, "update_time_ms": 2.643, "grad_time_ms": 370.451, "load_time_ms": 0.661}, "iterations_since_restore": 285, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 11571.502232551575, "episodes_total": 7694, "episode_reward_max": 6.000490612635174, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 11571.502232551575, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 35, "timestamp": 1757066266, "timesteps_since_restore": 343200, "episode_reward_min": -89.55463561808085, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-57-46", "episode_len_mean": 34.51, "timesteps_total": 343200, "episode_reward_mean": -52.20246591576078, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.701568365097046, "training_iteration": 286, "info": {"default": {"policy_loss": -0.13551126420497894, "vf_explained_var": -0.23161204159259796, "vf_loss": 778.6702880859375, "kl": 0.009313435293734074, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.330785751342773, "total_loss": 778.566650390625}, "sample_time_ms": 39675.386, "num_steps_trained": 343200, "num_steps_sampled": 343200, "update_time_ms": 2.633, "grad_time_ms": 370.073, "load_time_ms": 0.658}, "iterations_since_restore": 286, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 11611.57544875145, "episodes_total": 7730, "episode_reward_max": 6.000490612635174, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 11611.57544875145, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 36, "timestamp": 1757066306, "timesteps_since_restore": 344400, "episode_reward_min": -88.82023321633993, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-58-26", "episode_len_mean": 33.22, "timesteps_total": 344400, "episode_reward_mean": -50.073787999890044, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.07321619987488, "training_iteration": 287, "info": {"default": {"policy_loss": -0.1360514760017395, "vf_explained_var": -0.2076704353094101, "vf_loss": 997.538330078125, "kl": 0.013042389415204525, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.247969627380371, "total_loss": 997.4468383789062}, "sample_time_ms": 39717.99, "num_steps_trained": 344400, "num_steps_sampled": 344400, "update_time_ms": 2.604, "grad_time_ms": 368.2, "load_time_ms": 0.649}, "iterations_since_restore": 287, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 11652.011390447617, "episodes_total": 7762, "episode_reward_max": 6.000490612635174, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 11652.011390447617, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 32, "timestamp": 1757066347, "timesteps_since_restore": 345600, "episode_reward_min": -88.82023321633993, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-59-07", "episode_len_mean": 34.88, "timesteps_total": 345600, "episode_reward_mean": -53.28069563813409, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.43594169616699, "training_iteration": 288, "info": {"default": {"policy_loss": -0.12788468599319458, "vf_explained_var": -0.22094446420669556, "vf_loss": 848.2514038085938, "kl": 0.011053783819079399, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.787027359008789, "total_loss": 848.1613159179688}, "sample_time_ms": 39754.113, "num_steps_trained": 345600, "num_steps_sampled": 345600, "update_time_ms": 2.586, "grad_time_ms": 366.531, "load_time_ms": 0.669}, "iterations_since_restore": 288, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 11691.460268497467, "episodes_total": 7794, "episode_reward_max": 6.0002579544224215, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 11691.460268497467, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 32, "timestamp": 1757066386, "timesteps_since_restore": 346800, "episode_reward_min": -91.47632343528602, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_11-59-46", "episode_len_mean": 36.13, "timesteps_total": 346800, "episode_reward_mean": -56.05821359538042, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.448878049850464, "training_iteration": 289, "info": {"default": {"policy_loss": -0.13743716478347778, "vf_explained_var": -0.21845591068267822, "vf_loss": 958.640380859375, "kl": 0.010688015259802341, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.890877723693848, "total_loss": 958.5396118164062}, "sample_time_ms": 39732.126, "num_steps_trained": 346800, "num_steps_sampled": 346800, "update_time_ms": 2.565, "grad_time_ms": 364.928, "load_time_ms": 0.661}, "iterations_since_restore": 289, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 11731.29916548729, "episodes_total": 7826, "episode_reward_max": 4.000001918763179, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 11731.29916548729, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 32, "timestamp": 1757066426, "timesteps_since_restore": 348000, "episode_reward_min": -91.47632343528602, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-00-26", "episode_len_mean": 37.42, "timesteps_total": 348000, "episode_reward_mean": -58.141763674562064, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.83889698982239, "training_iteration": 290, "info": {"default": {"policy_loss": -0.1308256834745407, "vf_explained_var": -0.23204125463962555, "vf_loss": 979.8325805664062, "kl": 0.009879265911877155, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.771035194396973, "total_loss": 979.7354736328125}, "sample_time_ms": 39725.916, "num_steps_trained": 348000, "num_steps_sampled": 348000, "update_time_ms": 2.549, "grad_time_ms": 366.951, "load_time_ms": 0.664}, "iterations_since_restore": 290, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 11771.238786697388, "episodes_total": 7857, "episode_reward_max": 2.000994153095128, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 11771.238786697388, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 31, "timestamp": 1757066466, "timesteps_since_restore": 349200, "episode_reward_min": -91.47632343528602, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-01-06", "episode_len_mean": 37.85, "timesteps_total": 349200, "episode_reward_mean": -58.82344684976933, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.93962121009827, "training_iteration": 291, "info": {"default": {"policy_loss": -0.13988302648067474, "vf_explained_var": -0.22075659036636353, "vf_loss": 884.0951538085938, "kl": 0.009530812501907349, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.672989845275879, "total_loss": 883.98779296875}, "sample_time_ms": 39714.497, "num_steps_trained": 349200, "num_steps_sampled": 349200, "update_time_ms": 2.465, "grad_time_ms": 367.292, "load_time_ms": 0.661}, "iterations_since_restore": 291, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 11810.955782651901, "episodes_total": 7887, "episode_reward_max": 2.000994153095128, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 11810.955782651901, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 30, "timestamp": 1757066506, "timesteps_since_restore": 350400, "episode_reward_min": -88.50058925848438, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-01-46", "episode_len_mean": 38.41, "timesteps_total": 350400, "episode_reward_mean": -59.261490221730426, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.71699595451355, "training_iteration": 292, "info": {"default": {"policy_loss": -0.14041054248809814, "vf_explained_var": -0.22575028240680695, "vf_loss": 930.5068359375, "kl": 0.012579064816236496, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.120695114135742, "total_loss": 930.409423828125}, "sample_time_ms": 39703.675, "num_steps_trained": 350400, "num_steps_sampled": 350400, "update_time_ms": 2.413, "grad_time_ms": 370.329, "load_time_ms": 0.686}, "iterations_since_restore": 292, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 11850.484943628311, "episodes_total": 7918, "episode_reward_max": 2.000994153095128, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 11850.484943628311, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 31, "timestamp": 1757066545, "timesteps_since_restore": 351600, "episode_reward_min": -88.50058925848438, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-02-25", "episode_len_mean": 38.98, "timesteps_total": 351600, "episode_reward_mean": -60.57583542160046, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.52916097640991, "training_iteration": 293, "info": {"default": {"policy_loss": -0.1390148401260376, "vf_explained_var": -0.21901114284992218, "vf_loss": 892.5567626953125, "kl": 0.011077051050961018, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.19982624053955, "total_loss": 892.4556274414062}, "sample_time_ms": 39610.953, "num_steps_trained": 351600, "num_steps_sampled": 351600, "update_time_ms": 2.428, "grad_time_ms": 370.636, "load_time_ms": 0.703}, "iterations_since_restore": 293, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 11892.544472932816, "episodes_total": 7950, "episode_reward_max": 2.0000016757625705, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 11892.544472932816, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 32, "timestamp": 1757066587, "timesteps_since_restore": 352800, "episode_reward_min": -88.67226786242155, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-03-07", "episode_len_mean": 39.18, "timesteps_total": 352800, "episode_reward_mean": -61.03679084461334, "num_metric_batches_dropped": 0, "time_this_iter_s": 42.059529304504395, "training_iteration": 294, "info": {"default": {"policy_loss": -0.1354283094406128, "vf_explained_var": -0.21010856330394745, "vf_loss": 842.1294555664062, "kl": 0.009763207286596298, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.351997375488281, "total_loss": 842.02734375}, "sample_time_ms": 39808.527, "num_steps_trained": 352800, "num_steps_sampled": 352800, "update_time_ms": 2.419, "grad_time_ms": 370.921, "load_time_ms": 0.703}, "iterations_since_restore": 294, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 11933.239114046097, "episodes_total": 7982, "episode_reward_max": 8.000000399999921, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 11933.239114046097, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 32, "timestamp": 1757066628, "timesteps_since_restore": 354000, "episode_reward_min": -88.67226786242155, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-03-48", "episode_len_mean": 37.96, "timesteps_total": 354000, "episode_reward_mean": -58.637983661180314, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.69464111328125, "training_iteration": 295, "info": {"default": {"policy_loss": -0.15009309351444244, "vf_explained_var": -0.20960521697998047, "vf_loss": 855.9378051757812, "kl": 0.01070837490260601, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.275362968444824, "total_loss": 855.8243408203125}, "sample_time_ms": 39865.44, "num_steps_trained": 354000, "num_steps_sampled": 354000, "update_time_ms": 2.434, "grad_time_ms": 370.699, "load_time_ms": 0.696}, "iterations_since_restore": 295, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 11973.187326669693, "episodes_total": 8020, "episode_reward_max": 8.000000399999921, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 11973.187326669693, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 38, "timestamp": 1757066668, "timesteps_since_restore": 355200, "episode_reward_min": -88.67226786242155, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-04-28", "episode_len_mean": 35.35, "timesteps_total": 355200, "episode_reward_mean": -53.55153255585043, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.94821262359619, "training_iteration": 296, "info": {"default": {"policy_loss": -0.13102635741233826, "vf_explained_var": -0.2180919349193573, "vf_loss": 916.258544921875, "kl": 0.009386160410940647, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.698756217956543, "total_loss": 916.1596069335938}, "sample_time_ms": 39788.902, "num_steps_trained": 355200, "num_steps_sampled": 355200, "update_time_ms": 2.419, "grad_time_ms": 371.88, "load_time_ms": 0.696}, "iterations_since_restore": 296, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 12013.892707109451, "episodes_total": 8054, "episode_reward_max": 8.000000399999921, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 12013.892707109451, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 34, "timestamp": 1757066709, "timesteps_since_restore": 356400, "episode_reward_min": -88.14231744795639, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-05-09", "episode_len_mean": 34.77, "timesteps_total": 356400, "episode_reward_mean": -52.39313203981006, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.7053804397583, "training_iteration": 297, "info": {"default": {"policy_loss": -0.1366155743598938, "vf_explained_var": -0.24810844659805298, "vf_loss": 800.2286376953125, "kl": 0.01060021948069334, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.282489776611328, "total_loss": 800.128173828125}, "sample_time_ms": 39849.607, "num_steps_trained": 356400, "num_steps_sampled": 356400, "update_time_ms": 2.446, "grad_time_ms": 374.26, "load_time_ms": 0.718}, "iterations_since_restore": 297, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 12053.826399087906, "episodes_total": 8090, "episode_reward_max": 6.000965507644936, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 12053.826399087906, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 36, "timestamp": 1757066749, "timesteps_since_restore": 357600, "episode_reward_min": -88.14231744795639, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-05-49", "episode_len_mean": 34.21, "timesteps_total": 357600, "episode_reward_mean": -51.26208424466704, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.93369197845459, "training_iteration": 298, "info": {"default": {"policy_loss": -0.13882631063461304, "vf_explained_var": -0.07287098467350006, "vf_loss": 599.7831420898438, "kl": 0.011106519028544426, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.592928886413574, "total_loss": 599.6822509765625}, "sample_time_ms": 39800.144, "num_steps_trained": 357600, "num_steps_sampled": 357600, "update_time_ms": 2.461, "grad_time_ms": 373.523, "load_time_ms": 0.7}, "iterations_since_restore": 298, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 12093.464874505997, "episodes_total": 8120, "episode_reward_max": 6.000283510854153, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 12093.464874505997, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 30, "timestamp": 1757066788, "timesteps_since_restore": 358800, "episode_reward_min": -88.8190724889974, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-06-28", "episode_len_mean": 35.71, "timesteps_total": 358800, "episode_reward_mean": -54.28072537564187, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.63847541809082, "training_iteration": 299, "info": {"default": {"policy_loss": -0.13952971994876862, "vf_explained_var": -0.005913734436035156, "vf_loss": 533.1395874023438, "kl": 0.012344961985945702, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.147632598876953, "total_loss": 533.042236328125}, "sample_time_ms": 39818.484, "num_steps_trained": 358800, "num_steps_sampled": 358800, "update_time_ms": 2.459, "grad_time_ms": 374.171, "load_time_ms": 0.704}, "iterations_since_restore": 299, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 12137.903536558151, "episodes_total": 8153, "episode_reward_max": 6.000283510854153, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 12137.903536558151, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 33, "timestamp": 1757066833, "timesteps_since_restore": 360000, "episode_reward_min": -88.82137169635443, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-07-13", "episode_len_mean": 36.28, "timesteps_total": 360000, "episode_reward_mean": -55.52632494759513, "num_metric_batches_dropped": 0, "time_this_iter_s": 44.43866205215454, "training_iteration": 300, "info": {"default": {"policy_loss": -0.13858260214328766, "vf_explained_var": 0.008163247257471085, "vf_loss": 461.12933349609375, "kl": 0.011316301301121712, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.223671913146973, "total_loss": 461.0294494628906}, "sample_time_ms": 40280.77, "num_steps_trained": 360000, "num_steps_sampled": 360000, "update_time_ms": 2.462, "grad_time_ms": 371.875, "load_time_ms": 0.7}, "iterations_since_restore": 300, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 12178.068732976913, "episodes_total": 8192, "episode_reward_max": 6.000000800729568, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 12178.068732976913, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 39, "timestamp": 1757066873, "timesteps_since_restore": 361200, "episode_reward_min": -88.82645619125758, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-07-53", "episode_len_mean": 35.17, "timesteps_total": 361200, "episode_reward_mean": -53.698550196928444, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.16519641876221, "training_iteration": 301, "info": {"default": {"policy_loss": -0.1569109708070755, "vf_explained_var": 0.0010202857665717602, "vf_loss": 437.5871887207031, "kl": 0.010927296243607998, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.003398895263672, "total_loss": 437.4676208496094}, "sample_time_ms": 40303.949, "num_steps_trained": 361200, "num_steps_sampled": 361200, "update_time_ms": 2.53, "grad_time_ms": 371.163, "load_time_ms": 0.698}, "iterations_since_restore": 301, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 12218.899338245392, "episodes_total": 8229, "episode_reward_max": 6.000000800729568, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 12218.899338245392, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 37, "timestamp": 1757066914, "timesteps_since_restore": 362400, "episode_reward_min": -88.82645619125758, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-08-34", "episode_len_mean": 33.68, "timesteps_total": 362400, "episode_reward_mean": -50.361264171063425, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.830605268478394, "training_iteration": 302, "info": {"default": {"policy_loss": -0.1440664678812027, "vf_explained_var": 0.00047596957301720977, "vf_loss": 425.0187683105469, "kl": 0.010849776677787304, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.429523468017578, "total_loss": 424.9117736816406}, "sample_time_ms": 40416.509, "num_steps_trained": 362400, "num_steps_sampled": 362400, "update_time_ms": 2.518, "grad_time_ms": 369.996, "load_time_ms": 0.675}, "iterations_since_restore": 302, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 12259.180498361588, "episodes_total": 8263, "episode_reward_max": 6.000167767531812, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 12259.180498361588, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 34, "timestamp": 1757066954, "timesteps_since_restore": 363600, "episode_reward_min": -88.13279937153594, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-09-14", "episode_len_mean": 32.67, "timesteps_total": 363600, "episode_reward_mean": -48.03894341115788, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.28116011619568, "training_iteration": 303, "info": {"default": {"policy_loss": -0.14418929815292358, "vf_explained_var": 0.0002864201960619539, "vf_loss": 452.5855407714844, "kl": 0.011613503098487854, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.789764404296875, "total_loss": 452.48101806640625}, "sample_time_ms": 40490.247, "num_steps_trained": 363600, "num_steps_sampled": 363600, "update_time_ms": 2.519, "grad_time_ms": 371.414, "load_time_ms": 0.677}, "iterations_since_restore": 303, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 12298.964690685272, "episodes_total": 8297, "episode_reward_max": 6.000352808697116, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 12298.964690685272, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 34, "timestamp": 1757066994, "timesteps_since_restore": 364800, "episode_reward_min": -88.87062462273452, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-09-54", "episode_len_mean": 34.21, "timesteps_total": 364800, "episode_reward_mean": -50.91759643460477, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.78419232368469, "training_iteration": 304, "info": {"default": {"policy_loss": -0.12848247587680817, "vf_explained_var": 0.01119281817227602, "vf_loss": 438.44549560546875, "kl": 0.009987660683691502, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.461139678955078, "total_loss": 438.3511657714844}, "sample_time_ms": 40261.485, "num_steps_trained": 364800, "num_steps_sampled": 364800, "update_time_ms": 2.543, "grad_time_ms": 372.612, "load_time_ms": 0.685}, "iterations_since_restore": 304, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 12338.564878463745, "episodes_total": 8329, "episode_reward_max": 6.000352808697116, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 12338.564878463745, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 32, "timestamp": 1757067034, "timesteps_since_restore": 366000, "episode_reward_min": -88.87062462273452, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-10-34", "episode_len_mean": 35.32, "timesteps_total": 366000, "episode_reward_mean": -53.49638558682668, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.6001877784729, "training_iteration": 305, "info": {"default": {"policy_loss": -0.14693108201026917, "vf_explained_var": 0.010612951591610909, "vf_loss": 509.0191955566406, "kl": 0.010370317846536636, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.451675415039062, "total_loss": 508.90771484375}, "sample_time_ms": 40150.959, "num_steps_trained": 366000, "num_steps_sampled": 366000, "update_time_ms": 2.564, "grad_time_ms": 373.678, "load_time_ms": 0.688}, "iterations_since_restore": 305, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 12378.64959692955, "episodes_total": 8364, "episode_reward_max": 6.000352808697116, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 12378.64959692955, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 35, "timestamp": 1757067074, "timesteps_since_restore": 367200, "episode_reward_min": -88.87062462273452, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-11-14", "episode_len_mean": 35.41, "timesteps_total": 367200, "episode_reward_mean": -53.83185651769693, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.084718465805054, "training_iteration": 306, "info": {"default": {"policy_loss": -0.139170303940773, "vf_explained_var": -0.0009215010795742273, "vf_loss": 511.1613464355469, "kl": 0.013088744133710861, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.456406593322754, "total_loss": 511.06695556640625}, "sample_time_ms": 40165.906, "num_steps_trained": 367200, "num_steps_sampled": 367200, "update_time_ms": 2.563, "grad_time_ms": 372.42, "load_time_ms": 0.686}, "iterations_since_restore": 306, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 12420.322988033295, "episodes_total": 8396, "episode_reward_max": 6.000072492846382, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 12420.322988033295, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 32, "timestamp": 1757067115, "timesteps_since_restore": 368400, "episode_reward_min": -88.40920238872802, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-11-55", "episode_len_mean": 35.92, "timesteps_total": 368400, "episode_reward_mean": -54.55701412906872, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.67339110374451, "training_iteration": 307, "info": {"default": {"policy_loss": -0.15117819607257843, "vf_explained_var": 0.003958940505981445, "vf_loss": 470.15380859375, "kl": 0.009904857724905014, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.405176162719727, "total_loss": 470.0364685058594}, "sample_time_ms": 40261.951, "num_steps_trained": 368400, "num_steps_sampled": 368400, "update_time_ms": 2.534, "grad_time_ms": 373.23, "load_time_ms": 0.68}, "iterations_since_restore": 307, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 12460.889996528625, "episodes_total": 8435, "episode_reward_max": 8.00000040000188, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 12460.889996528625, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 39, "timestamp": 1757067156, "timesteps_since_restore": 369600, "episode_reward_min": -89.23409867502, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-12-36", "episode_len_mean": 34.14, "timesteps_total": 369600, "episode_reward_mean": -50.61768693829503, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.56700849533081, "training_iteration": 308, "info": {"default": {"policy_loss": -0.1443929374217987, "vf_explained_var": 0.004153165500611067, "vf_loss": 485.68792724609375, "kl": 0.010192732326686382, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.67509651184082, "total_loss": 485.5783386230469}, "sample_time_ms": 40323.56, "num_steps_trained": 369600, "num_steps_sampled": 369600, "update_time_ms": 2.556, "grad_time_ms": 374.865, "load_time_ms": 0.678}, "iterations_since_restore": 308, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 12501.03121638298, "episodes_total": 8473, "episode_reward_max": 8.00000040000188, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 12501.03121638298, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 38, "timestamp": 1757067196, "timesteps_since_restore": 370800, "episode_reward_min": -89.23409867502, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-13-16", "episode_len_mean": 33.87, "timesteps_total": 370800, "episode_reward_mean": -50.2447032974849, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.14121985435486, "training_iteration": 309, "info": {"default": {"policy_loss": -0.14950686693191528, "vf_explained_var": 0.005149483680725098, "vf_loss": 433.6706848144531, "kl": 0.010341254994273186, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.437281608581543, "total_loss": 433.5565185546875}, "sample_time_ms": 40375.208, "num_steps_trained": 370800, "num_steps_sampled": 370800, "update_time_ms": 2.616, "grad_time_ms": 373.447, "load_time_ms": 0.679}, "iterations_since_restore": 309, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 12541.811257600784, "episodes_total": 8508, "episode_reward_max": 6.00022588881469, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 12541.811257600784, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 35, "timestamp": 1757067237, "timesteps_since_restore": 372000, "episode_reward_min": -89.23409867502, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-13-57", "episode_len_mean": 32.57, "timesteps_total": 372000, "episode_reward_mean": -47.69476347879066, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.780041217803955, "training_iteration": 310, "info": {"default": {"policy_loss": -0.1462288647890091, "vf_explained_var": 0.00782205630093813, "vf_loss": 437.4837341308594, "kl": 0.010953903198242188, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.973941802978516, "total_loss": 437.3749084472656}, "sample_time_ms": 40006.712, "num_steps_trained": 372000, "num_steps_sampled": 372000, "update_time_ms": 2.607, "grad_time_ms": 376.049, "load_time_ms": 0.697}, "iterations_since_restore": 310, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 12582.006598234177, "episodes_total": 8544, "episode_reward_max": 8.000000400091757, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 12582.006598234177, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 36, "timestamp": 1757067277, "timesteps_since_restore": 373200, "episode_reward_min": -88.38582372457279, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-14-37", "episode_len_mean": 32.99, "timesteps_total": 373200, "episode_reward_mean": -48.53111973163088, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.195340633392334, "training_iteration": 311, "info": {"default": {"policy_loss": -0.15685182809829712, "vf_explained_var": 0.011273371055722237, "vf_loss": 394.6902160644531, "kl": 0.010404332540929317, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.090153694152832, "total_loss": 394.56890869140625}, "sample_time_ms": 40008.435, "num_steps_trained": 373200, "num_steps_sampled": 373200, "update_time_ms": 2.623, "grad_time_ms": 377.304, "load_time_ms": 0.704}, "iterations_since_restore": 311, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 12621.941687107086, "episodes_total": 8572, "episode_reward_max": 8.000000400091757, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 12621.941687107086, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 28, "timestamp": 1757067317, "timesteps_since_restore": 374400, "episode_reward_min": -88.38582372457279, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-15-17", "episode_len_mean": 35.74, "timesteps_total": 374400, "episode_reward_mean": -54.067034206778146, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.935088872909546, "training_iteration": 312, "info": {"default": {"policy_loss": -0.1538180708885193, "vf_explained_var": 0.0038841632194817066, "vf_loss": 438.17425537109375, "kl": 0.00962239969521761, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.56591510772705, "total_loss": 438.0533752441406}, "sample_time_ms": 39918.772, "num_steps_trained": 374400, "num_steps_sampled": 374400, "update_time_ms": 2.639, "grad_time_ms": 377.373, "load_time_ms": 0.71}, "iterations_since_restore": 312, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 12661.876276731491, "episodes_total": 8608, "episode_reward_max": 8.000000400091757, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 12661.876276731491, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 36, "timestamp": 1757067357, "timesteps_since_restore": 375600, "episode_reward_min": -88.38582372457279, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-15-57", "episode_len_mean": 36.25, "timesteps_total": 375600, "episode_reward_mean": -55.29315651250814, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.93458962440491, "training_iteration": 313, "info": {"default": {"policy_loss": -0.13231158256530762, "vf_explained_var": 0.007103244308382273, "vf_loss": 474.03558349609375, "kl": 0.011141153983771801, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.332624435424805, "total_loss": 473.94140625}, "sample_time_ms": 39885.509, "num_steps_trained": 375600, "num_steps_sampled": 375600, "update_time_ms": 2.646, "grad_time_ms": 376.032, "load_time_ms": 0.7}, "iterations_since_restore": 313, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 12701.227487802505, "episodes_total": 8638, "episode_reward_max": 6.000486929772735, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 12701.227487802505, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 30, "timestamp": 1757067396, "timesteps_since_restore": 376800, "episode_reward_min": -90.30008958634605, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-16-36", "episode_len_mean": 38.89, "timesteps_total": 376800, "episode_reward_mean": -60.89390737204797, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.351211071014404, "training_iteration": 314, "info": {"default": {"policy_loss": -0.14043186604976654, "vf_explained_var": 0.006090184208005667, "vf_loss": 399.80755615234375, "kl": 0.011490960605442524, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.310200691223145, "total_loss": 399.7063903808594}, "sample_time_ms": 39845.397, "num_steps_trained": 376800, "num_steps_sampled": 376800, "update_time_ms": 2.603, "grad_time_ms": 372.959, "load_time_ms": 0.697}, "iterations_since_restore": 314, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 12741.354726552963, "episodes_total": 8669, "episode_reward_max": 6.000486929772735, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 12741.354726552963, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 31, "timestamp": 1757067437, "timesteps_since_restore": 378000, "episode_reward_min": -90.30008958634605, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-17-17", "episode_len_mean": 37.87, "timesteps_total": 378000, "episode_reward_mean": -58.878975980774804, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.127238750457764, "training_iteration": 315, "info": {"default": {"policy_loss": -0.14281591773033142, "vf_explained_var": -0.0010739697609096766, "vf_loss": 447.5066833496094, "kl": 0.010915350168943405, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.962897300720215, "total_loss": 447.40118408203125}, "sample_time_ms": 39898.466, "num_steps_trained": 378000, "num_steps_sampled": 378000, "update_time_ms": 2.579, "grad_time_ms": 372.562, "load_time_ms": 0.704}, "iterations_since_restore": 315, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 12781.002810955048, "episodes_total": 8701, "episode_reward_max": 6.000486929772735, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 12781.002810955048, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 32, "timestamp": 1757067476, "timesteps_since_restore": 379200, "episode_reward_min": -90.30008958634605, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-17-56", "episode_len_mean": 37.4, "timesteps_total": 379200, "episode_reward_mean": -58.34547246875846, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.64808440208435, "training_iteration": 316, "info": {"default": {"policy_loss": -0.14961107075214386, "vf_explained_var": 0.005986273288726807, "vf_loss": 480.8357238769531, "kl": 0.012026567943394184, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.23432731628418, "total_loss": 480.7272033691406}, "sample_time_ms": 39853.122, "num_steps_trained": 379200, "num_steps_sampled": 379200, "update_time_ms": 2.584, "grad_time_ms": 374.238, "load_time_ms": 0.702}, "iterations_since_restore": 316, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 12821.312916994095, "episodes_total": 8737, "episode_reward_max": 6.000222889080026, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 12821.312916994095, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 36, "timestamp": 1757067517, "timesteps_since_restore": 380400, "episode_reward_min": -88.51586775513825, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-18-37", "episode_len_mean": 36.25, "timesteps_total": 380400, "episode_reward_mean": -55.81918746634294, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.31010603904724, "training_iteration": 317, "info": {"default": {"policy_loss": -0.14286844432353973, "vf_explained_var": 0.010431011207401752, "vf_loss": 459.1466064453125, "kl": 0.010759064927697182, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.35700798034668, "total_loss": 459.04052734375}, "sample_time_ms": 39718.457, "num_steps_trained": 380400, "num_steps_sampled": 380400, "update_time_ms": 2.589, "grad_time_ms": 372.62, "load_time_ms": 0.687}, "iterations_since_restore": 317, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 12861.42817234993, "episodes_total": 8775, "episode_reward_max": 6.000000800155304, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 12861.42817234993, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 38, "timestamp": 1757067557, "timesteps_since_restore": 381600, "episode_reward_min": -90.82029566820088, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-19-17", "episode_len_mean": 34.38, "timesteps_total": 381600, "episode_reward_mean": -52.00420594361509, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.11525535583496, "training_iteration": 318, "info": {"default": {"policy_loss": -0.15198737382888794, "vf_explained_var": 0.06462473422288895, "vf_loss": 429.9236755371094, "kl": 0.012839515693485737, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.853875160217285, "total_loss": 429.8155517578125}, "sample_time_ms": 39672.28, "num_steps_trained": 381600, "num_steps_sampled": 381600, "update_time_ms": 2.557, "grad_time_ms": 373.685, "load_time_ms": 0.69}, "iterations_since_restore": 318, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 12901.514266729355, "episodes_total": 8813, "episode_reward_max": 5.033983296871523, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 12901.514266729355, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 38, "timestamp": 1757067597, "timesteps_since_restore": 382800, "episode_reward_min": -90.82029566820088, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-19-57", "episode_len_mean": 32.59, "timesteps_total": 382800, "episode_reward_mean": -48.16856549312248, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.08609437942505, "training_iteration": 319, "info": {"default": {"policy_loss": -0.1482061892747879, "vf_explained_var": 0.028194792568683624, "vf_loss": 410.5199279785156, "kl": 0.010463166981935501, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.236566543579102, "total_loss": 410.4075012207031}, "sample_time_ms": 39665.792, "num_steps_trained": 382800, "num_steps_sampled": 382800, "update_time_ms": 2.527, "grad_time_ms": 374.641, "load_time_ms": 0.689}, "iterations_since_restore": 319, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 12941.10274362564, "episodes_total": 8846, "episode_reward_max": 8.000000770532452, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 12941.10274362564, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 33, "timestamp": 1757067636, "timesteps_since_restore": 384000, "episode_reward_min": -90.82029566820088, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-20-36", "episode_len_mean": 32.97, "timesteps_total": 384000, "episode_reward_mean": -48.86327570440805, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.58847689628601, "training_iteration": 320, "info": {"default": {"policy_loss": -0.13797926902770996, "vf_explained_var": 0.03374841436743736, "vf_loss": 409.2611389160156, "kl": 0.012019297108054161, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.34274673461914, "total_loss": 409.16424560546875}, "sample_time_ms": 39546.671, "num_steps_trained": 384000, "num_steps_sampled": 384000, "update_time_ms": 2.592, "grad_time_ms": 374.569, "load_time_ms": 0.685}, "iterations_since_restore": 320, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 12980.96637916565, "episodes_total": 8874, "episode_reward_max": 8.000000770532452, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 12980.96637916565, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 28, "timestamp": 1757067676, "timesteps_since_restore": 385200, "episode_reward_min": -90.4043383491623, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-21-16", "episode_len_mean": 35.68, "timesteps_total": 385200, "episode_reward_mean": -53.676646606426004, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.863635540008545, "training_iteration": 321, "info": {"default": {"policy_loss": -0.1314031481742859, "vf_explained_var": 0.005202704109251499, "vf_loss": 405.8985595703125, "kl": 0.010467436164617538, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.516846656799316, "total_loss": 405.8029479980469}, "sample_time_ms": 39515.024, "num_steps_trained": 385200, "num_steps_sampled": 385200, "update_time_ms": 2.539, "grad_time_ms": 373.107, "load_time_ms": 0.683}, "iterations_since_restore": 321, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 13020.883419513702, "episodes_total": 8911, "episode_reward_max": 8.000000770532452, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 13020.883419513702, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 37, "timestamp": 1757067716, "timesteps_since_restore": 386400, "episode_reward_min": -87.7264929727669, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-21-56", "episode_len_mean": 36.29, "timesteps_total": 386400, "episode_reward_mean": -54.81573041679271, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.91704034805298, "training_iteration": 322, "info": {"default": {"policy_loss": -0.15400466322898865, "vf_explained_var": 0.040482357144355774, "vf_loss": 456.01129150390625, "kl": 0.010075360536575317, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.149210929870605, "total_loss": 455.8917236328125}, "sample_time_ms": 39515.294, "num_steps_trained": 386400, "num_steps_sampled": 386400, "update_time_ms": 2.553, "grad_time_ms": 371.016, "load_time_ms": 0.679}, "iterations_since_restore": 322, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 13061.179373025894, "episodes_total": 8945, "episode_reward_max": 6.000509068670354, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 13061.179373025894, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 34, "timestamp": 1757067757, "timesteps_since_restore": 387600, "episode_reward_min": -89.66598987591232, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-22-37", "episode_len_mean": 36.2, "timesteps_total": 387600, "episode_reward_mean": -54.6231158859498, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.29595351219177, "training_iteration": 323, "info": {"default": {"policy_loss": -0.15531301498413086, "vf_explained_var": 0.029174519702792168, "vf_loss": 439.3109436035156, "kl": 0.010161509737372398, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.97475528717041, "total_loss": 439.1903991699219}, "sample_time_ms": 39553.31, "num_steps_trained": 387600, "num_steps_sampled": 387600, "update_time_ms": 2.548, "grad_time_ms": 369.131, "load_time_ms": 0.671}, "iterations_since_restore": 323, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 13101.421992063522, "episodes_total": 8980, "episode_reward_max": 6.000509068670354, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 13101.421992063522, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 35, "timestamp": 1757067797, "timesteps_since_restore": 388800, "episode_reward_min": -89.66598987591232, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-23-17", "episode_len_mean": 34.65, "timesteps_total": 388800, "episode_reward_mean": -51.93693839208506, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.242619037628174, "training_iteration": 324, "info": {"default": {"policy_loss": -0.14960773289203644, "vf_explained_var": 0.03614506497979164, "vf_loss": 452.8624267578125, "kl": 0.011579844169318676, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.207000732421875, "total_loss": 452.7524108886719}, "sample_time_ms": 39640.143, "num_steps_trained": 388800, "num_steps_sampled": 388800, "update_time_ms": 2.561, "grad_time_ms": 371.381, "load_time_ms": 0.676}, "iterations_since_restore": 324, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 13141.796019077301, "episodes_total": 9020, "episode_reward_max": 6.000509068670354, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 13141.796019077301, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 40, "timestamp": 1757067837, "timesteps_since_restore": 390000, "episode_reward_min": -88.87208526820466, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-23-57", "episode_len_mean": 32.32, "timesteps_total": 390000, "episode_reward_mean": -47.213673649302436, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.37402701377869, "training_iteration": 325, "info": {"default": {"policy_loss": -0.1380583643913269, "vf_explained_var": 0.026041362434625626, "vf_loss": 440.6061706542969, "kl": 0.010264245793223381, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.556537628173828, "total_loss": 440.503173828125}, "sample_time_ms": 39663.999, "num_steps_trained": 390000, "num_steps_sampled": 390000, "update_time_ms": 2.591, "grad_time_ms": 372.173, "load_time_ms": 0.684}, "iterations_since_restore": 325, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 13182.194035053253, "episodes_total": 9052, "episode_reward_max": 8.000042195622465, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 13182.194035053253, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 32, "timestamp": 1757067878, "timesteps_since_restore": 391200, "episode_reward_min": -89.21161709695602, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-24-38", "episode_len_mean": 33.33, "timesteps_total": 391200, "episode_reward_mean": -49.141758825780606, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.39801597595215, "training_iteration": 326, "info": {"default": {"policy_loss": -0.14374154806137085, "vf_explained_var": 0.03932555392384529, "vf_loss": 429.9820556640625, "kl": 0.010112602263689041, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.90684700012207, "total_loss": 429.87286376953125}, "sample_time_ms": 39739.531, "num_steps_trained": 391200, "num_steps_sampled": 391200, "update_time_ms": 2.593, "grad_time_ms": 371.635, "load_time_ms": 0.69}, "iterations_since_restore": 326, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 13223.138817071915, "episodes_total": 9088, "episode_reward_max": 8.000042195622465, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 13223.138817071915, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 36, "timestamp": 1757067919, "timesteps_since_restore": 392400, "episode_reward_min": -89.21161709695602, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-25-19", "episode_len_mean": 33.5, "timesteps_total": 392400, "episode_reward_mean": -49.337172450881205, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.9447820186615, "training_iteration": 327, "info": {"default": {"policy_loss": -0.16037312150001526, "vf_explained_var": 0.02229405753314495, "vf_loss": 484.4187316894531, "kl": 0.01099941972643137, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.79249095916748, "total_loss": 484.2960205078125}, "sample_time_ms": 39804.279, "num_steps_trained": 392400, "num_steps_sampled": 392400, "update_time_ms": 2.612, "grad_time_ms": 370.31, "load_time_ms": 0.692}, "iterations_since_restore": 327, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 13263.081171989441, "episodes_total": 9121, "episode_reward_max": 8.000042195622465, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 13263.081171989441, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 33, "timestamp": 1757067959, "timesteps_since_restore": 393600, "episode_reward_min": -89.21161709695602, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-25-59", "episode_len_mean": 35.56, "timesteps_total": 393600, "episode_reward_mean": -53.754675400725326, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.942354917526245, "training_iteration": 328, "info": {"default": {"policy_loss": -0.151283398270607, "vf_explained_var": 0.009420348331332207, "vf_loss": 432.6964111328125, "kl": 0.011622369289398193, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.337334632873535, "total_loss": 432.5848388671875}, "sample_time_ms": 39787.634, "num_steps_trained": 393600, "num_steps_sampled": 393600, "update_time_ms": 2.625, "grad_time_ms": 369.648, "load_time_ms": 0.689}, "iterations_since_restore": 328, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 13302.864381790161, "episodes_total": 9157, "episode_reward_max": 6.000095728711184, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 13302.864381790161, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 36, "timestamp": 1757067998, "timesteps_since_restore": 394800, "episode_reward_min": -88.61793335473197, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-26-38", "episode_len_mean": 35.09, "timesteps_total": 394800, "episode_reward_mean": -52.54795434393864, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.783209800720215, "training_iteration": 329, "info": {"default": {"policy_loss": -0.14313721656799316, "vf_explained_var": 0.029133081436157227, "vf_loss": 399.5094909667969, "kl": 0.012315683998167515, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.034199714660645, "total_loss": 399.408447265625}, "sample_time_ms": 39758.352, "num_steps_trained": 394800, "num_steps_sampled": 394800, "update_time_ms": 2.665, "grad_time_ms": 368.687, "load_time_ms": 0.691}, "iterations_since_restore": 329, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 13342.75747513771, "episodes_total": 9190, "episode_reward_max": 6.122519721719278, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 13342.75747513771, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 33, "timestamp": 1757068038, "timesteps_since_restore": 396000, "episode_reward_min": -87.39041712203738, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-27-18", "episode_len_mean": 35.98, "timesteps_total": 396000, "episode_reward_mean": -54.74556482987191, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.89309334754944, "training_iteration": 330, "info": {"default": {"policy_loss": -0.1524294763803482, "vf_explained_var": 0.020156390964984894, "vf_loss": 398.7169189453125, "kl": 0.009975748136639595, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.509355545043945, "total_loss": 398.59857177734375}, "sample_time_ms": 39791.042, "num_steps_trained": 396000, "num_steps_sampled": 396000, "update_time_ms": 2.591, "grad_time_ms": 366.528, "load_time_ms": 0.679}, "iterations_since_restore": 330, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 13383.67567896843, "episodes_total": 9228, "episode_reward_max": 6.122519721719278, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 13383.67567896843, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 38, "timestamp": 1757068079, "timesteps_since_restore": 397200, "episode_reward_min": -89.01797314061683, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-27-59", "episode_len_mean": 34.16, "timesteps_total": 397200, "episode_reward_mean": -51.3250822979112, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.918203830718994, "training_iteration": 331, "info": {"default": {"policy_loss": -0.14993004500865936, "vf_explained_var": 0.03296024352312088, "vf_loss": 503.9704895019531, "kl": 0.010248822160065174, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.234691619873047, "total_loss": 503.8555908203125}, "sample_time_ms": 39895.212, "num_steps_trained": 397200, "num_steps_sampled": 397200, "update_time_ms": 2.658, "grad_time_ms": 367.755, "load_time_ms": 0.675}, "iterations_since_restore": 331, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 13423.463230133057, "episodes_total": 9265, "episode_reward_max": 6.000477801330048, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 13423.463230133057, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 37, "timestamp": 1757068119, "timesteps_since_restore": 398400, "episode_reward_min": -89.01797314061683, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-28-39", "episode_len_mean": 33.74, "timesteps_total": 398400, "episode_reward_mean": -50.54574891675748, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.787551164627075, "training_iteration": 332, "info": {"default": {"policy_loss": -0.14276745915412903, "vf_explained_var": 0.03964920714497566, "vf_loss": 420.7565612792969, "kl": 0.010322160087525845, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.072938919067383, "total_loss": 420.6490783691406}, "sample_time_ms": 39880.496, "num_steps_trained": 398400, "num_steps_sampled": 398400, "update_time_ms": 2.681, "grad_time_ms": 369.439, "load_time_ms": 0.682}, "iterations_since_restore": 332, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 13464.199981212616, "episodes_total": 9299, "episode_reward_max": 6.000375240750939, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 13464.199981212616, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 34, "timestamp": 1757068160, "timesteps_since_restore": 399600, "episode_reward_min": -88.63030495538553, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-29-20", "episode_len_mean": 32.64, "timesteps_total": 399600, "episode_reward_mean": -47.82415850943692, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.736751079559326, "training_iteration": 333, "info": {"default": {"policy_loss": -0.15280024707317352, "vf_explained_var": 0.02406332828104496, "vf_loss": 460.3062744140625, "kl": 0.010634230449795723, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.39852523803711, "total_loss": 460.1898193359375}, "sample_time_ms": 39923.887, "num_steps_trained": 399600, "num_steps_sampled": 399600, "update_time_ms": 2.694, "grad_time_ms": 370.106, "load_time_ms": 0.691}, "iterations_since_restore": 333, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 13504.548362255096, "episodes_total": 9337, "episode_reward_max": 6.000375240750939, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 13504.548362255096, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 38, "timestamp": 1757068200, "timesteps_since_restore": 400800, "episode_reward_min": -88.51871491767405, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-30-00", "episode_len_mean": 32.42, "timesteps_total": 400800, "episode_reward_mean": -47.381316065736, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.34838104248047, "training_iteration": 334, "info": {"default": {"policy_loss": -0.1573840081691742, "vf_explained_var": 0.05774039775133133, "vf_loss": 448.5849914550781, "kl": 0.010197670198976994, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.22380256652832, "total_loss": 448.46246337890625}, "sample_time_ms": 39934.584, "num_steps_trained": 400800, "num_steps_sampled": 400800, "update_time_ms": 2.693, "grad_time_ms": 370.009, "load_time_ms": 0.68}, "iterations_since_restore": 334, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 13544.65207028389, "episodes_total": 9371, "episode_reward_max": 4.000410073788908, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 13544.65207028389, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 34, "timestamp": 1757068240, "timesteps_since_restore": 402000, "episode_reward_min": -88.51871491767405, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-30-40", "episode_len_mean": 34.1, "timesteps_total": 402000, "episode_reward_mean": -50.572650649462496, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.103708028793335, "training_iteration": 335, "info": {"default": {"policy_loss": -0.15357333421707153, "vf_explained_var": 0.0362289696931839, "vf_loss": 410.0519714355469, "kl": 0.01192283071577549, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.007484436035156, "total_loss": 409.9391174316406}, "sample_time_ms": 39908.123, "num_steps_trained": 402000, "num_steps_sampled": 402000, "update_time_ms": 2.704, "grad_time_ms": 369.476, "load_time_ms": 0.662}, "iterations_since_restore": 335, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 13584.995099782944, "episodes_total": 9406, "episode_reward_max": 8.000118209154248, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 13584.995099782944, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 35, "timestamp": 1757068281, "timesteps_since_restore": 403200, "episode_reward_min": -87.80258929382983, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-31-21", "episode_len_mean": 34.08, "timesteps_total": 403200, "episode_reward_mean": -50.883155368388, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.343029499053955, "training_iteration": 336, "info": {"default": {"policy_loss": -0.1401258260011673, "vf_explained_var": 0.030337883159518242, "vf_loss": 451.0308837890625, "kl": 0.011732482351362705, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.091513633728027, "total_loss": 450.9308776855469}, "sample_time_ms": 39900.292, "num_steps_trained": 403200, "num_steps_sampled": 403200, "update_time_ms": 2.72, "grad_time_ms": 371.721, "load_time_ms": 0.668}, "iterations_since_restore": 336, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 13625.150751590729, "episodes_total": 9438, "episode_reward_max": 8.000118209154248, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 13625.150751590729, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 32, "timestamp": 1757068321, "timesteps_since_restore": 404400, "episode_reward_min": -87.99116755732439, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-32-01", "episode_len_mean": 35.96, "timesteps_total": 404400, "episode_reward_mean": -53.91887767265573, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.155651807785034, "training_iteration": 337, "info": {"default": {"policy_loss": -0.13880442082881927, "vf_explained_var": 0.030012568458914757, "vf_loss": 456.1023254394531, "kl": 0.010218311101198196, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.69174575805664, "total_loss": 455.9984130859375}, "sample_time_ms": 39819.794, "num_steps_trained": 404400, "num_steps_sampled": 404400, "update_time_ms": 2.74, "grad_time_ms": 373.252, "load_time_ms": 0.671}, "iterations_since_restore": 337, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 13665.591717481613, "episodes_total": 9467, "episode_reward_max": 8.000118209154248, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 13665.591717481613, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 29, "timestamp": 1757068361, "timesteps_since_restore": 405600, "episode_reward_min": -87.99116755732439, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-32-41", "episode_len_mean": 36.67, "timesteps_total": 405600, "episode_reward_mean": -55.290473343079796, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.4409658908844, "training_iteration": 338, "info": {"default": {"policy_loss": -0.13667431473731995, "vf_explained_var": 0.03825806826353073, "vf_loss": 442.0345764160156, "kl": 0.010394266806542873, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.478351593017578, "total_loss": 441.9334411621094}, "sample_time_ms": 39869.199, "num_steps_trained": 405600, "num_steps_sampled": 405600, "update_time_ms": 2.741, "grad_time_ms": 373.743, "load_time_ms": 0.669}, "iterations_since_restore": 338, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 13705.620480298996, "episodes_total": 9502, "episode_reward_max": 8.000000430365343, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 13705.620480298996, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 35, "timestamp": 1757068401, "timesteps_since_restore": 406800, "episode_reward_min": -87.99116755732439, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-33-21", "episode_len_mean": 37.15, "timesteps_total": 406800, "episode_reward_mean": -55.392637635161684, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.02876281738281, "training_iteration": 339, "info": {"default": {"policy_loss": -0.152802512049675, "vf_explained_var": 0.024062402546405792, "vf_loss": 420.3553466796875, "kl": 0.010380428284406662, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.376258850097656, "total_loss": 420.2380065917969}, "sample_time_ms": 39893.439, "num_steps_trained": 406800, "num_steps_sampled": 406800, "update_time_ms": 2.709, "grad_time_ms": 374.079, "load_time_ms": 0.673}, "iterations_since_restore": 339, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 13745.579872846603, "episodes_total": 9540, "episode_reward_max": 8.000001293604544, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 13745.579872846603, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 38, "timestamp": 1757068441, "timesteps_since_restore": 408000, "episode_reward_min": -86.9799141478926, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-34-01", "episode_len_mean": 35.25, "timesteps_total": 408000, "episode_reward_mean": -52.35309145953368, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.95939254760742, "training_iteration": 340, "info": {"default": {"policy_loss": -0.14648941159248352, "vf_explained_var": 0.03063652291893959, "vf_loss": 462.24267578125, "kl": 0.01163404155522585, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.55972671508789, "total_loss": 462.1359558105469}, "sample_time_ms": 39898.25, "num_steps_trained": 408000, "num_steps_sampled": 408000, "update_time_ms": 2.687, "grad_time_ms": 375.931, "load_time_ms": 0.673}, "iterations_since_restore": 340, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 13785.172680139542, "episodes_total": 9575, "episode_reward_max": 8.000001293604544, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 13785.172680139542, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 35, "timestamp": 1757068481, "timesteps_since_restore": 409200, "episode_reward_min": -86.58558225177082, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-34-41", "episode_len_mean": 33.31, "timesteps_total": 409200, "episode_reward_mean": -48.51332555269554, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.59280729293823, "training_iteration": 341, "info": {"default": {"policy_loss": -0.1442619115114212, "vf_explained_var": 0.04662187770009041, "vf_loss": 409.3472900390625, "kl": 0.010137440636754036, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.451078414916992, "total_loss": 409.2376708984375}, "sample_time_ms": 39767.111, "num_steps_trained": 409200, "num_steps_sampled": 409200, "update_time_ms": 2.678, "grad_time_ms": 374.467, "load_time_ms": 0.677}, "iterations_since_restore": 341, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 13825.310346364975, "episodes_total": 9605, "episode_reward_max": 6.001425206553511, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 13825.310346364975, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 30, "timestamp": 1757068521, "timesteps_since_restore": 410400, "episode_reward_min": -86.58558225177082, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-35-21", "episode_len_mean": 35.41, "timesteps_total": 410400, "episode_reward_mean": -53.03286111940656, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.13766622543335, "training_iteration": 342, "info": {"default": {"policy_loss": -0.1419338583946228, "vf_explained_var": 0.011268489994108677, "vf_loss": 436.8052673339844, "kl": 0.011205381713807583, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.289286613464355, "total_loss": 436.70159912109375}, "sample_time_ms": 39803.699, "num_steps_trained": 410400, "num_steps_sampled": 410400, "update_time_ms": 2.71, "grad_time_ms": 372.953, "load_time_ms": 0.665}, "iterations_since_restore": 342, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 13866.055624723434, "episodes_total": 9641, "episode_reward_max": 8.000000399999957, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 13866.055624723434, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 36, "timestamp": 1757068562, "timesteps_since_restore": 411600, "episode_reward_min": -89.68214501013719, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-36-02", "episode_len_mean": 35.65, "timesteps_total": 411600, "episode_reward_mean": -53.55492160831099, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.74527835845947, "training_iteration": 343, "info": {"default": {"policy_loss": -0.14266842603683472, "vf_explained_var": 0.03783176466822624, "vf_loss": 423.569580078125, "kl": 0.012204717844724655, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.487554550170898, "total_loss": 423.4686279296875}, "sample_time_ms": 39802.231, "num_steps_trained": 411600, "num_steps_sampled": 411600, "update_time_ms": 2.677, "grad_time_ms": 375.281, "load_time_ms": 0.659}, "iterations_since_restore": 343, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 13906.093407392502, "episodes_total": 9681, "episode_reward_max": 8.000000399999957, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 13906.093407392502, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 40, "timestamp": 1757068602, "timesteps_since_restore": 412800, "episode_reward_min": -89.68214501013719, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-36-42", "episode_len_mean": 32.91, "timesteps_total": 412800, "episode_reward_mean": -48.512325136280175, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.03778266906738, "training_iteration": 344, "info": {"default": {"policy_loss": -0.13742338120937347, "vf_explained_var": 0.02563554048538208, "vf_loss": 429.443359375, "kl": 0.011522420682013035, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.010415077209473, "total_loss": 429.3453063964844}, "sample_time_ms": 39770.47, "num_steps_trained": 412800, "num_steps_sampled": 412800, "update_time_ms": 2.698, "grad_time_ms": 375.969, "load_time_ms": 0.661}, "iterations_since_restore": 344, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 13946.131071329117, "episodes_total": 9714, "episode_reward_max": 8.000000399999957, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 13946.131071329117, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 33, "timestamp": 1757068642, "timesteps_since_restore": 414000, "episode_reward_min": -89.68214501013719, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-37-22", "episode_len_mean": 33.29, "timesteps_total": 414000, "episode_reward_mean": -48.55995846302304, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.03766393661499, "training_iteration": 345, "info": {"default": {"policy_loss": -0.13411487638950348, "vf_explained_var": 0.019642392173409462, "vf_loss": 408.5527648925781, "kl": 0.011210841126739979, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.589080810546875, "total_loss": 408.4569396972656}, "sample_time_ms": 39765.168, "num_steps_trained": 414000, "num_steps_sampled": 414000, "update_time_ms": 2.685, "grad_time_ms": 374.665, "load_time_ms": 0.677}, "iterations_since_restore": 345, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 13986.32627248764, "episodes_total": 9753, "episode_reward_max": 6.0003635211195, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 13986.32627248764, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 39, "timestamp": 1757068682, "timesteps_since_restore": 415200, "episode_reward_min": -88.01650020484222, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-38-02", "episode_len_mean": 32.6, "timesteps_total": 415200, "episode_reward_mean": -47.481738454941436, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.19520115852356, "training_iteration": 346, "info": {"default": {"policy_loss": -0.15174134075641632, "vf_explained_var": 0.027048222720623016, "vf_loss": 441.7809143066406, "kl": 0.009943624958395958, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.372754096984863, "total_loss": 441.6631774902344}, "sample_time_ms": 39752.617, "num_steps_trained": 415200, "num_steps_sampled": 415200, "update_time_ms": 2.682, "grad_time_ms": 372.517, "load_time_ms": 0.662}, "iterations_since_restore": 346, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 14026.212005376816, "episodes_total": 9788, "episode_reward_max": 6.0003635211195, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 14026.212005376816, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 35, "timestamp": 1757068722, "timesteps_since_restore": 416400, "episode_reward_min": -88.01650020484222, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-38-42", "episode_len_mean": 32.47, "timesteps_total": 416400, "episode_reward_mean": -47.013103110594685, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.885732889175415, "training_iteration": 347, "info": {"default": {"policy_loss": -0.1456020474433899, "vf_explained_var": 0.02409246191382408, "vf_loss": 433.1102294921875, "kl": 0.011127098463475704, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.270705223083496, "total_loss": 433.002685546875}, "sample_time_ms": 39727.739, "num_steps_trained": 416400, "num_steps_sampled": 416400, "update_time_ms": 2.637, "grad_time_ms": 370.506, "load_time_ms": 0.661}, "iterations_since_restore": 347, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 14067.714072704315, "episodes_total": 9822, "episode_reward_max": 6.0003635211195, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 14067.714072704315, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 34, "timestamp": 1757068764, "timesteps_since_restore": 417600, "episode_reward_min": -86.70434841519496, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-39-24", "episode_len_mean": 33.16, "timesteps_total": 417600, "episode_reward_mean": -48.274502928781594, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.50206732749939, "training_iteration": 348, "info": {"default": {"policy_loss": -0.1469336748123169, "vf_explained_var": 0.041786178946495056, "vf_loss": 426.65960693359375, "kl": 0.011283600702881813, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.490732192993164, "total_loss": 426.55120849609375}, "sample_time_ms": 39833.088, "num_steps_trained": 417600, "num_steps_sampled": 417600, "update_time_ms": 2.6, "grad_time_ms": 371.267, "load_time_ms": 0.672}, "iterations_since_restore": 348, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 14107.454396009445, "episodes_total": 9855, "episode_reward_max": 6.000044262950821, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 14107.454396009445, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 33, "timestamp": 1757068803, "timesteps_since_restore": 418800, "episode_reward_min": -87.04262221591421, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-40-03", "episode_len_mean": 34.74, "timesteps_total": 418800, "episode_reward_mean": -51.2039676945684, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.740323305130005, "training_iteration": 349, "info": {"default": {"policy_loss": -0.14171022176742554, "vf_explained_var": 0.032391507178545, "vf_loss": 407.9511413574219, "kl": 0.011109529063105583, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.442168235778809, "total_loss": 407.8473815917969}, "sample_time_ms": 39803.065, "num_steps_trained": 418800, "num_steps_sampled": 418800, "update_time_ms": 2.605, "grad_time_ms": 372.42, "load_time_ms": 0.672}, "iterations_since_restore": 349, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 14147.152516365051, "episodes_total": 9890, "episode_reward_max": 6.000044262950821, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 14147.152516365051, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 35, "timestamp": 1757068843, "timesteps_since_restore": 420000, "episode_reward_min": -88.82592813955924, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-40-43", "episode_len_mean": 35.27, "timesteps_total": 420000, "episode_reward_mean": -52.2166485557589, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.69812035560608, "training_iteration": 350, "info": {"default": {"policy_loss": -0.1621491014957428, "vf_explained_var": 0.01912151463329792, "vf_loss": 408.7956848144531, "kl": 0.010567591525614262, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.812308311462402, "total_loss": 408.66961669921875}, "sample_time_ms": 39776.691, "num_steps_trained": 420000, "num_steps_sampled": 420000, "update_time_ms": 2.634, "grad_time_ms": 372.615, "load_time_ms": 0.676}, "iterations_since_restore": 350, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 14187.13976430893, "episodes_total": 9924, "episode_reward_max": 8.000000399999983, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 14187.13976430893, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 34, "timestamp": 1757068883, "timesteps_since_restore": 421200, "episode_reward_min": -88.82592813955924, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-41-23", "episode_len_mean": 35.3, "timesteps_total": 421200, "episode_reward_mean": -52.89367697395401, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.987247943878174, "training_iteration": 351, "info": {"default": {"policy_loss": -0.15800741314888, "vf_explained_var": 0.029924817383289337, "vf_loss": 430.48809814453125, "kl": 0.0110362209379673, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.285727500915527, "total_loss": 430.3677978515625}, "sample_time_ms": 39815.15, "num_steps_trained": 421200, "num_steps_sampled": 421200, "update_time_ms": 2.63, "grad_time_ms": 373.661, "load_time_ms": 0.674}, "iterations_since_restore": 351, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 14226.998750686646, "episodes_total": 9955, "episode_reward_max": 8.000000399999983, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 14226.998750686646, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 31, "timestamp": 1757068923, "timesteps_since_restore": 422400, "episode_reward_min": -88.82592813955924, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-42-03", "episode_len_mean": 36.32, "timesteps_total": 422400, "episode_reward_mean": -54.86621242154072, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.858986377716064, "training_iteration": 352, "info": {"default": {"policy_loss": -0.15629540383815765, "vf_explained_var": 0.029114212840795517, "vf_loss": 402.3568115234375, "kl": 0.009813349694013596, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 13.012795448303223, "total_loss": 402.23406982421875}, "sample_time_ms": 39787.484, "num_steps_trained": 422400, "num_steps_sampled": 422400, "update_time_ms": 2.598, "grad_time_ms": 373.481, "load_time_ms": 0.68}, "iterations_since_restore": 352, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 14266.863190889359, "episodes_total": 9990, "episode_reward_max": 8.000000399999983, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 14266.863190889359, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 35, "timestamp": 1757068963, "timesteps_since_restore": 423600, "episode_reward_min": -87.45628281950306, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-42-43", "episode_len_mean": 36.25, "timesteps_total": 423600, "episode_reward_mean": -54.55279297027292, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.86444020271301, "training_iteration": 353, "info": {"default": {"policy_loss": -0.15205474197864532, "vf_explained_var": 0.03114587813615799, "vf_loss": 379.6090087890625, "kl": 0.010892543941736221, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.305085182189941, "total_loss": 379.494140625}, "sample_time_ms": 39700.465, "num_steps_trained": 423600, "num_steps_sampled": 423600, "update_time_ms": 2.6, "grad_time_ms": 372.457, "load_time_ms": 0.678}, "iterations_since_restore": 353, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 14307.907384634018, "episodes_total": 10029, "episode_reward_max": 8.00000040000004, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 14307.907384634018, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 39, "timestamp": 1757069004, "timesteps_since_restore": 424800, "episode_reward_min": -87.45628281950306, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-43-24", "episode_len_mean": 33.98, "timesteps_total": 424800, "episode_reward_mean": -50.18707318741098, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.044193744659424, "training_iteration": 354, "info": {"default": {"policy_loss": -0.152949720621109, "vf_explained_var": 0.033783920109272, "vf_loss": 416.9335021972656, "kl": 0.011379302479326725, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.808174133300781, "total_loss": 416.8194580078125}, "sample_time_ms": 39801.812, "num_steps_trained": 424800, "num_steps_sampled": 424800, "update_time_ms": 2.602, "grad_time_ms": 371.743, "load_time_ms": 0.689}, "iterations_since_restore": 354, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 14347.865794181824, "episodes_total": 10061, "episode_reward_max": 8.00000040000004, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 14347.865794181824, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 32, "timestamp": 1757069044, "timesteps_since_restore": 426000, "episode_reward_min": -87.22276902662414, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-44-04", "episode_len_mean": 34.29, "timesteps_total": 426000, "episode_reward_mean": -50.42316778125857, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.958409547805786, "training_iteration": 355, "info": {"default": {"policy_loss": -0.14012597501277924, "vf_explained_var": 0.04070533066987991, "vf_loss": 431.1007385253906, "kl": 0.01055466290563345, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.98603343963623, "total_loss": 430.9966735839844}, "sample_time_ms": 39793.267, "num_steps_trained": 426000, "num_steps_sampled": 426000, "update_time_ms": 2.611, "grad_time_ms": 372.237, "load_time_ms": 0.699}, "iterations_since_restore": 355, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 14387.675954818726, "episodes_total": 10096, "episode_reward_max": 10.0, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 14387.675954818726, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 35, "timestamp": 1757069084, "timesteps_since_restore": 427200, "episode_reward_min": -86.91216985910302, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-44-44", "episode_len_mean": 34.46, "timesteps_total": 427200, "episode_reward_mean": -50.86255425789575, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.810160636901855, "training_iteration": 356, "info": {"default": {"policy_loss": -0.15137192606925964, "vf_explained_var": 0.045231349766254425, "vf_loss": 410.3990478515625, "kl": 0.011165386065840721, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.278483390808105, "total_loss": 410.2857971191406}, "sample_time_ms": 39752.56, "num_steps_trained": 427200, "num_steps_sampled": 427200, "update_time_ms": 2.64, "grad_time_ms": 374.368, "load_time_ms": 0.712}, "iterations_since_restore": 356, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 14429.4569003582, "episodes_total": 10134, "episode_reward_max": 10.0, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 14429.4569003582, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 38, "timestamp": 1757069126, "timesteps_since_restore": 428400, "episode_reward_min": -86.91216985910302, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-45-26", "episode_len_mean": 33.57, "timesteps_total": 428400, "episode_reward_mean": -48.699797803939106, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.78094553947449, "training_iteration": 357, "info": {"default": {"policy_loss": -0.14155468344688416, "vf_explained_var": 0.03102552890777588, "vf_loss": 428.5169677734375, "kl": 0.010288777761161327, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.046107292175293, "total_loss": 428.41058349609375}, "sample_time_ms": 39939.693, "num_steps_trained": 428400, "num_steps_sampled": 428400, "update_time_ms": 2.664, "grad_time_ms": 376.696, "load_time_ms": 0.709}, "iterations_since_restore": 357, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 14469.524850130081, "episodes_total": 10170, "episode_reward_max": 10.0, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 14469.524850130081, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 36, "timestamp": 1757069166, "timesteps_since_restore": 429600, "episode_reward_min": -86.7354203318464, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-46-06", "episode_len_mean": 31.83, "timesteps_total": 429600, "episode_reward_mean": -45.624121148984365, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.0679497718811, "training_iteration": 358, "info": {"default": {"policy_loss": -0.1432437300682068, "vf_explained_var": 0.05882573872804642, "vf_loss": 425.4912414550781, "kl": 0.012117168866097927, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.16252613067627, "total_loss": 425.3894348144531}, "sample_time_ms": 39799.02, "num_steps_trained": 429600, "num_steps_sampled": 429600, "update_time_ms": 2.704, "grad_time_ms": 373.971, "load_time_ms": 0.702}, "iterations_since_restore": 358, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 14509.616066455841, "episodes_total": 10206, "episode_reward_max": 8.00000047087544, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 14509.616066455841, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 36, "timestamp": 1757069206, "timesteps_since_restore": 430800, "episode_reward_min": -87.7054032566136, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-46-46", "episode_len_mean": 33.24, "timesteps_total": 430800, "episode_reward_mean": -48.07914995618904, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.09121632575989, "training_iteration": 359, "info": {"default": {"policy_loss": -0.1480737179517746, "vf_explained_var": 0.01758628338575363, "vf_loss": 429.83782958984375, "kl": 0.011029217392206192, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.764570236206055, "total_loss": 429.7274169921875}, "sample_time_ms": 39832.787, "num_steps_trained": 430800, "num_steps_sampled": 430800, "update_time_ms": 2.726, "grad_time_ms": 375.301, "load_time_ms": 0.694}, "iterations_since_restore": 359, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 14550.656260490417, "episodes_total": 10239, "episode_reward_max": 6.000117224969081, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 14550.656260490417, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 33, "timestamp": 1757069247, "timesteps_since_restore": 432000, "episode_reward_min": -88.39772113835288, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-47-27", "episode_len_mean": 33.87, "timesteps_total": 432000, "episode_reward_mean": -49.40789742176856, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.040194034576416, "training_iteration": 360, "info": {"default": {"policy_loss": -0.1451684534549713, "vf_explained_var": 0.03005227819085121, "vf_loss": 445.23590087890625, "kl": 0.009842807427048683, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.339471817016602, "total_loss": 445.1243896484375}, "sample_time_ms": 39968.03, "num_steps_trained": 432000, "num_steps_sampled": 432000, "update_time_ms": 2.751, "grad_time_ms": 374.231, "load_time_ms": 0.701}, "iterations_since_restore": 360, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 14590.83046245575, "episodes_total": 10278, "episode_reward_max": 6.000033300125118, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 14590.83046245575, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 39, "timestamp": 1757069287, "timesteps_since_restore": 433200, "episode_reward_min": -88.39772113835288, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-48-07", "episode_len_mean": 33.18, "timesteps_total": 433200, "episode_reward_mean": -48.630290959138684, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.17420196533203, "training_iteration": 361, "info": {"default": {"policy_loss": -0.15941479802131653, "vf_explained_var": 0.039564475417137146, "vf_loss": 460.6788635253906, "kl": 0.010828156024217606, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.5009126663208, "total_loss": 460.5564270019531}, "sample_time_ms": 39986.394, "num_steps_trained": 433200, "num_steps_sampled": 433200, "update_time_ms": 2.667, "grad_time_ms": 374.662, "load_time_ms": 0.705}, "iterations_since_restore": 361, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 14630.749028682709, "episodes_total": 10312, "episode_reward_max": 6.000194643040689, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 14630.749028682709, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 34, "timestamp": 1757069327, "timesteps_since_restore": 434400, "episode_reward_min": -87.10319020778526, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-48-47", "episode_len_mean": 34.2, "timesteps_total": 434400, "episode_reward_mean": -50.67431939403147, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.91856622695923, "training_iteration": 362, "info": {"default": {"policy_loss": -0.1402187943458557, "vf_explained_var": 0.029874511063098907, "vf_loss": 409.3454895019531, "kl": 0.01080262754112482, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.4795503616333, "total_loss": 409.2422180175781}, "sample_time_ms": 39989.596, "num_steps_trained": 434400, "num_steps_sampled": 434400, "update_time_ms": 2.643, "grad_time_ms": 377.429, "load_time_ms": 0.7}, "iterations_since_restore": 362, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 14670.855784893036, "episodes_total": 10345, "episode_reward_max": 6.000194643040689, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 14670.855784893036, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 33, "timestamp": 1757069367, "timesteps_since_restore": 435600, "episode_reward_min": -87.10319020778526, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-49-27", "episode_len_mean": 34.45, "timesteps_total": 435600, "episode_reward_mean": -51.651489017459404, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.10675621032715, "training_iteration": 363, "info": {"default": {"policy_loss": -0.14715439081192017, "vf_explained_var": 0.014677319675683975, "vf_loss": 436.3875732421875, "kl": 0.010185993276536465, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.49520206451416, "total_loss": 436.2752380371094}, "sample_time_ms": 40015.553, "num_steps_trained": 435600, "num_steps_sampled": 435600, "update_time_ms": 2.651, "grad_time_ms": 375.696, "load_time_ms": 0.698}, "iterations_since_restore": 363, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 14711.058458805084, "episodes_total": 10378, "episode_reward_max": 6.000194643040689, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 14711.058458805084, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 33, "timestamp": 1757069407, "timesteps_since_restore": 436800, "episode_reward_min": -88.6016507548234, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-50-07", "episode_len_mean": 36.04, "timesteps_total": 436800, "episode_reward_mean": -54.51554664281387, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.20267391204834, "training_iteration": 364, "info": {"default": {"policy_loss": -0.14864517748355865, "vf_explained_var": 0.04588764160871506, "vf_loss": 410.91650390625, "kl": 0.010878805071115494, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.991815567016602, "total_loss": 410.8050537109375}, "sample_time_ms": 39931.413, "num_steps_trained": 436800, "num_steps_sampled": 436800, "update_time_ms": 2.627, "grad_time_ms": 375.644, "load_time_ms": 0.707}, "iterations_since_restore": 364, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 14751.66836643219, "episodes_total": 10410, "episode_reward_max": 6.000078923849628, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 14751.66836643219, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 32, "timestamp": 1757069448, "timesteps_since_restore": 438000, "episode_reward_min": -88.6016507548234, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-50-48", "episode_len_mean": 36.1, "timesteps_total": 438000, "episode_reward_mean": -54.651715189340884, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.60990762710571, "training_iteration": 365, "info": {"default": {"policy_loss": -0.14287598431110382, "vf_explained_var": 0.026640474796295166, "vf_loss": 478.1761474609375, "kl": 0.01040416955947876, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.945761680603027, "total_loss": 478.06884765625}, "sample_time_ms": 39996.507, "num_steps_trained": 438000, "num_steps_sampled": 438000, "update_time_ms": 2.608, "grad_time_ms": 375.841, "load_time_ms": 0.69}, "iterations_since_restore": 365, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 14792.103603601456, "episodes_total": 10446, "episode_reward_max": 6.000078923849628, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 14792.103603601456, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 36, "timestamp": 1757069488, "timesteps_since_restore": 439200, "episode_reward_min": -88.6016507548234, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-51-28", "episode_len_mean": 35.55, "timesteps_total": 439200, "episode_reward_mean": -53.316991566588676, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.43523716926575, "training_iteration": 366, "info": {"default": {"policy_loss": -0.14754001796245575, "vf_explained_var": 0.03380119800567627, "vf_loss": 431.7435302734375, "kl": 0.011859598569571972, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.129061698913574, "total_loss": 431.6365051269531}, "sample_time_ms": 40060.221, "num_steps_trained": 439200, "num_steps_sampled": 439200, "update_time_ms": 2.562, "grad_time_ms": 374.701, "load_time_ms": 0.678}, "iterations_since_restore": 366, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 14831.774448156357, "episodes_total": 10475, "episode_reward_max": 6.000078923849628, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 14831.774448156357, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 29, "timestamp": 1757069528, "timesteps_since_restore": 440400, "episode_reward_min": -88.88951503781641, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-52-08", "episode_len_mean": 36.63, "timesteps_total": 440400, "episode_reward_mean": -55.38023056107133, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.67084455490112, "training_iteration": 367, "info": {"default": {"policy_loss": -0.14322420954704285, "vf_explained_var": 0.011332618072628975, "vf_loss": 399.13055419921875, "kl": 0.015141528099775314, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.112876892089844, "total_loss": 399.0390625}, "sample_time_ms": 39850.645, "num_steps_trained": 440400, "num_steps_sampled": 440400, "update_time_ms": 2.565, "grad_time_ms": 373.286, "load_time_ms": 0.702}, "iterations_since_restore": 367, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 14872.614671230316, "episodes_total": 10513, "episode_reward_max": 8.00000040002812, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 14872.614671230316, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 38, "timestamp": 1757069569, "timesteps_since_restore": 441600, "episode_reward_min": -88.88951503781641, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-52-49", "episode_len_mean": 34.68, "timesteps_total": 441600, "episode_reward_mean": -52.04467581301941, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.84022307395935, "training_iteration": 368, "info": {"default": {"policy_loss": -0.15660420060157776, "vf_explained_var": 0.0388539619743824, "vf_loss": 458.6565856933594, "kl": 0.01080058142542839, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.217337608337402, "total_loss": 458.5368347167969}, "sample_time_ms": 39928.4, "num_steps_trained": 441600, "num_steps_sampled": 441600, "update_time_ms": 2.524, "grad_time_ms": 372.81, "load_time_ms": 0.693}, "iterations_since_restore": 368, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 14912.679929733276, "episodes_total": 10550, "episode_reward_max": 8.00000040002812, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 14912.679929733276, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 37, "timestamp": 1757069609, "timesteps_since_restore": 442800, "episode_reward_min": -86.77915650949731, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-53-29", "episode_len_mean": 33.66, "timesteps_total": 442800, "episode_reward_mean": -49.843489425316704, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.065258502960205, "training_iteration": 369, "info": {"default": {"policy_loss": -0.1470082700252533, "vf_explained_var": 0.038014039397239685, "vf_loss": 463.93890380859375, "kl": 0.010649112984538078, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.424518585205078, "total_loss": 463.8282775878906}, "sample_time_ms": 39925.904, "num_steps_trained": 442800, "num_steps_sampled": 442800, "update_time_ms": 2.47, "grad_time_ms": 372.737, "load_time_ms": 0.714}, "iterations_since_restore": 369, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 14952.386379003525, "episodes_total": 10581, "episode_reward_max": 8.00000040002812, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 14952.386379003525, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 31, "timestamp": 1757069649, "timesteps_since_restore": 444000, "episode_reward_min": -86.5877773555783, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-54-09", "episode_len_mean": 34.65, "timesteps_total": 444000, "episode_reward_mean": -51.079288856631564, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.70644927024841, "training_iteration": 370, "info": {"default": {"policy_loss": -0.14558593928813934, "vf_explained_var": 0.06424345076084137, "vf_loss": 406.3988952636719, "kl": 0.01031030248850584, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.778853416442871, "total_loss": 406.2885437011719}, "sample_time_ms": 39793.749, "num_steps_trained": 444000, "num_steps_sampled": 444000, "update_time_ms": 2.456, "grad_time_ms": 371.558, "load_time_ms": 0.708}, "iterations_since_restore": 370, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 14992.423163890839, "episodes_total": 10620, "episode_reward_max": 6.0000075770220285, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 14992.423163890839, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 39, "timestamp": 1757069689, "timesteps_since_restore": 445200, "episode_reward_min": -87.42935060847688, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-54-49", "episode_len_mean": 33.68, "timesteps_total": 445200, "episode_reward_mean": -48.83835935614077, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.03678488731384, "training_iteration": 371, "info": {"default": {"policy_loss": -0.1564648449420929, "vf_explained_var": 0.035834088921546936, "vf_loss": 445.012939453125, "kl": 0.010783243924379349, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.334670066833496, "total_loss": 444.8933410644531}, "sample_time_ms": 39781.796, "num_steps_trained": 445200, "num_steps_sampled": 445200, "update_time_ms": 2.48, "grad_time_ms": 369.749, "load_time_ms": 0.701}, "iterations_since_restore": 371, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 15032.429745674133, "episodes_total": 10657, "episode_reward_max": 4.001630634465961, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 15032.429745674133, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 37, "timestamp": 1757069729, "timesteps_since_restore": 446400, "episode_reward_min": -88.05671074048892, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-55-29", "episode_len_mean": 33.13, "timesteps_total": 446400, "episode_reward_mean": -47.732050674360714, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.00658178329468, "training_iteration": 372, "info": {"default": {"policy_loss": -0.1328354924917221, "vf_explained_var": 0.041136085987091064, "vf_loss": 413.033203125, "kl": 0.010379289276897907, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.193062782287598, "total_loss": 412.93585205078125}, "sample_time_ms": 39791.845, "num_steps_trained": 446400, "num_steps_sampled": 446400, "update_time_ms": 2.459, "grad_time_ms": 368.528, "load_time_ms": 0.709}, "iterations_since_restore": 372, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 15072.59961938858, "episodes_total": 10690, "episode_reward_max": 6.000319727547695, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 15072.59961938858, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 33, "timestamp": 1757069769, "timesteps_since_restore": 447600, "episode_reward_min": -88.05671074048892, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-56-09", "episode_len_mean": 33.51, "timesteps_total": 447600, "episode_reward_mean": -48.63813601591219, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.16987371444702, "training_iteration": 373, "info": {"default": {"policy_loss": -0.14854952692985535, "vf_explained_var": 0.028369856998324394, "vf_loss": 407.547607421875, "kl": 0.012072231620550156, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.276942253112793, "total_loss": 407.4403076171875}, "sample_time_ms": 39795.67, "num_steps_trained": 447600, "num_steps_sampled": 447600, "update_time_ms": 2.444, "grad_time_ms": 371.007, "load_time_ms": 0.723}, "iterations_since_restore": 373, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 15113.378994226456, "episodes_total": 10726, "episode_reward_max": 6.000319727547695, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 15113.378994226456, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 36, "timestamp": 1757069810, "timesteps_since_restore": 448800, "episode_reward_min": -88.05671074048892, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-56-50", "episode_len_mean": 33.32, "timesteps_total": 448800, "episode_reward_mean": -48.383056769568455, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.779374837875366, "training_iteration": 374, "info": {"default": {"policy_loss": -0.15510310232639313, "vf_explained_var": 0.028334399685263634, "vf_loss": 447.9123840332031, "kl": 0.010648071765899658, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.795740127563477, "total_loss": 447.7936706542969}, "sample_time_ms": 39853.788, "num_steps_trained": 448800, "num_steps_sampled": 448800, "update_time_ms": 2.458, "grad_time_ms": 370.619, "load_time_ms": 0.712}, "iterations_since_restore": 374, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 15153.688380002975, "episodes_total": 10762, "episode_reward_max": 6.000319727547695, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 15153.688380002975, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 36, "timestamp": 1757069850, "timesteps_since_restore": 450000, "episode_reward_min": -86.22954530784955, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-57-30", "episode_len_mean": 33.5, "timesteps_total": 450000, "episode_reward_mean": -48.23659951683716, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.309385776519775, "training_iteration": 375, "info": {"default": {"policy_loss": -0.14849983155727386, "vf_explained_var": 0.05709119513630867, "vf_loss": 401.6018981933594, "kl": 0.010386315174400806, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.883068084716797, "total_loss": 401.4888916015625}, "sample_time_ms": 39823.108, "num_steps_trained": 450000, "num_steps_sampled": 450000, "update_time_ms": 2.44, "grad_time_ms": 371.255, "load_time_ms": 0.711}, "iterations_since_restore": 375, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 15194.156418561935, "episodes_total": 10800, "episode_reward_max": 6.000000800257095, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 15194.156418561935, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 38, "timestamp": 1757069891, "timesteps_since_restore": 451200, "episode_reward_min": -86.05124506095, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-58-11", "episode_len_mean": 31.68, "timesteps_total": 451200, "episode_reward_mean": -45.23896053751268, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.46803855895996, "training_iteration": 376, "info": {"default": {"policy_loss": -0.15659305453300476, "vf_explained_var": 0.02473635785281658, "vf_loss": 426.3190612792969, "kl": 0.01223460678011179, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.863354682922363, "total_loss": 426.20428466796875}, "sample_time_ms": 39827.852, "num_steps_trained": 451200, "num_steps_sampled": 451200, "update_time_ms": 2.442, "grad_time_ms": 369.737, "load_time_ms": 0.712}, "iterations_since_restore": 376, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 15235.379103899002, "episodes_total": 10842, "episode_reward_max": 8.00000040462334, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 15235.379103899002, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 42, "timestamp": 1757069932, "timesteps_since_restore": 452400, "episode_reward_min": -86.05124506095, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-58-52", "episode_len_mean": 29.07, "timesteps_total": 452400, "episode_reward_mean": -41.35230958029261, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.22268533706665, "training_iteration": 377, "info": {"default": {"policy_loss": -0.14235687255859375, "vf_explained_var": 0.03048262931406498, "vf_loss": 467.69390869140625, "kl": 0.011409527622163296, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.444601058959961, "total_loss": 467.5904846191406}, "sample_time_ms": 39980.586, "num_steps_trained": 452400, "num_steps_sampled": 452400, "update_time_ms": 2.483, "grad_time_ms": 372.097, "load_time_ms": 0.704}, "iterations_since_restore": 377, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 15275.911573648453, "episodes_total": 10878, "episode_reward_max": 8.000000413583138, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 15275.911573648453, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 36, "timestamp": 1757069972, "timesteps_since_restore": 453600, "episode_reward_min": -88.88823689205198, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_12-59-32", "episode_len_mean": 30.6, "timesteps_total": 453600, "episode_reward_mean": -44.004484782032684, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.532469749450684, "training_iteration": 378, "info": {"default": {"policy_loss": -0.1456315666437149, "vf_explained_var": 0.03810213506221771, "vf_loss": 426.3363342285156, "kl": 0.010440889745950699, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.04672622680664, "total_loss": 426.22637939453125}, "sample_time_ms": 39949.027, "num_steps_trained": 453600, "num_steps_sampled": 453600, "update_time_ms": 2.515, "grad_time_ms": 372.788, "load_time_ms": 0.71}, "iterations_since_restore": 378, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 15316.392431259155, "episodes_total": 10915, "episode_reward_max": 8.000000413583138, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 15316.392431259155, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 37, "timestamp": 1757070013, "timesteps_since_restore": 454800, "episode_reward_min": -88.88823689205198, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-00-13", "episode_len_mean": 33.28, "timesteps_total": 454800, "episode_reward_mean": -48.71639193179427, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.480857610702515, "training_iteration": 379, "info": {"default": {"policy_loss": -0.14093917608261108, "vf_explained_var": 0.05486292392015457, "vf_loss": 420.1436462402344, "kl": 0.011291136965155602, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.107770919799805, "total_loss": 420.04132080078125}, "sample_time_ms": 39990.936, "num_steps_trained": 454800, "num_steps_sampled": 454800, "update_time_ms": 2.561, "grad_time_ms": 372.354, "load_time_ms": 0.705}, "iterations_since_restore": 379, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 15356.865114688873, "episodes_total": 10958, "episode_reward_max": 8.000000413583138, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 15356.865114688873, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 43, "timestamp": 1757070053, "timesteps_since_restore": 456000, "episode_reward_min": -88.88823689205198, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-00-53", "episode_len_mean": 31.39, "timesteps_total": 456000, "episode_reward_mean": -45.2054230586885, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.47268342971802, "training_iteration": 380, "info": {"default": {"policy_loss": -0.1396612972021103, "vf_explained_var": 0.060594089329242706, "vf_loss": 418.5720520019531, "kl": 0.011574659496545792, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.378668785095215, "total_loss": 418.4719543457031}, "sample_time_ms": 40064.843, "num_steps_trained": 456000, "num_steps_sampled": 456000, "update_time_ms": 2.594, "grad_time_ms": 375.01, "load_time_ms": 0.712}, "iterations_since_restore": 380, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 15396.604951143265, "episodes_total": 10990, "episode_reward_max": 6.00016514863756, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 15396.604951143265, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 32, "timestamp": 1757070093, "timesteps_since_restore": 457200, "episode_reward_min": -87.74714549855481, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-01-33", "episode_len_mean": 32.13, "timesteps_total": 457200, "episode_reward_mean": -46.57313447742463, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.73983645439148, "training_iteration": 381, "info": {"default": {"policy_loss": -0.1546054184436798, "vf_explained_var": 0.04067327454686165, "vf_loss": 405.9283447265625, "kl": 0.011279965750873089, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.28294849395752, "total_loss": 405.81231689453125}, "sample_time_ms": 40035.287, "num_steps_trained": 457200, "num_steps_sampled": 457200, "update_time_ms": 2.607, "grad_time_ms": 374.858, "load_time_ms": 0.718}, "iterations_since_restore": 381, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 15437.588629961014, "episodes_total": 11028, "episode_reward_max": 6.00016514863756, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 15437.588629961014, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 38, "timestamp": 1757070134, "timesteps_since_restore": 458400, "episode_reward_min": -87.75578745188801, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-02-14", "episode_len_mean": 33.03, "timesteps_total": 458400, "episode_reward_mean": -48.86387895497878, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.98367881774902, "training_iteration": 382, "info": {"default": {"policy_loss": -0.1481972336769104, "vf_explained_var": 0.046717192977666855, "vf_loss": 468.35443115234375, "kl": 0.012852764688432217, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.873722076416016, "total_loss": 468.2501525878906}, "sample_time_ms": 40133.128, "num_steps_trained": 458400, "num_steps_sampled": 458400, "update_time_ms": 2.609, "grad_time_ms": 374.715, "load_time_ms": 0.723}, "iterations_since_restore": 382, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 15477.794491052628, "episodes_total": 11068, "episode_reward_max": 8.000000426904817, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 15477.794491052628, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 40, "timestamp": 1757070174, "timesteps_since_restore": 459600, "episode_reward_min": -87.75578745188801, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-02-54", "episode_len_mean": 32.55, "timesteps_total": 459600, "episode_reward_mean": -47.69069212073745, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.20586109161377, "training_iteration": 383, "info": {"default": {"policy_loss": -0.14796946942806244, "vf_explained_var": 0.03581589460372925, "vf_loss": 448.0850830078125, "kl": 0.009867679327726364, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.32229232788086, "total_loss": 447.9708251953125}, "sample_time_ms": 40138.939, "num_steps_trained": 459600, "num_steps_sampled": 459600, "update_time_ms": 2.613, "grad_time_ms": 372.509, "load_time_ms": 0.72}, "iterations_since_restore": 383, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 15517.896813631058, "episodes_total": 11104, "episode_reward_max": 8.000000426904817, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 15517.896813631058, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 36, "timestamp": 1757070215, "timesteps_since_restore": 460800, "episode_reward_min": -87.75578745188801, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-03-35", "episode_len_mean": 30.39, "timesteps_total": 460800, "episode_reward_mean": -43.08684285919783, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.102322578430176, "training_iteration": 384, "info": {"default": {"policy_loss": -0.1519775539636612, "vf_explained_var": 0.04068461433053017, "vf_loss": 411.7156677246094, "kl": 0.01115275640040636, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.28979206085205, "total_loss": 411.6018371582031}, "sample_time_ms": 40071.062, "num_steps_trained": 460800, "num_steps_sampled": 460800, "update_time_ms": 2.581, "grad_time_ms": 372.684, "load_time_ms": 0.709}, "iterations_since_restore": 384, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 15558.328586101532, "episodes_total": 11143, "episode_reward_max": 6.0004012286186335, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 15558.328586101532, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 39, "timestamp": 1757070255, "timesteps_since_restore": 462000, "episode_reward_min": -86.70002056122266, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-04-15", "episode_len_mean": 32.7, "timesteps_total": 462000, "episode_reward_mean": -46.953366017962345, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.43177247047424, "training_iteration": 385, "info": {"default": {"policy_loss": -0.14254769682884216, "vf_explained_var": 0.03885412961244583, "vf_loss": 437.7210693359375, "kl": 0.016762128099799156, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.126580238342285, "total_loss": 437.6358337402344}, "sample_time_ms": 40083.694, "num_steps_trained": 462000, "num_steps_sampled": 462000, "update_time_ms": 2.605, "grad_time_ms": 372.255, "load_time_ms": 0.702}, "iterations_since_restore": 385, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 15599.464363574982, "episodes_total": 11180, "episode_reward_max": 6.638706133502453, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 15599.464363574982, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 37, "timestamp": 1757070296, "timesteps_since_restore": 463200, "episode_reward_min": -86.70002056122266, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-04-56", "episode_len_mean": 31.94, "timesteps_total": 463200, "episode_reward_mean": -45.67254605606467, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.13577747344971, "training_iteration": 386, "info": {"default": {"policy_loss": -0.14395157992839813, "vf_explained_var": 0.05343948304653168, "vf_loss": 429.5749816894531, "kl": 0.011037316173315048, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.860190391540527, "total_loss": 429.4687194824219}, "sample_time_ms": 40150.136, "num_steps_trained": 463200, "num_steps_sampled": 463200, "update_time_ms": 2.635, "grad_time_ms": 372.587, "load_time_ms": 0.719}, "iterations_since_restore": 386, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 15640.073704481125, "episodes_total": 11215, "episode_reward_max": 6.638706133502453, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 15640.073704481125, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 35, "timestamp": 1757070337, "timesteps_since_restore": 464400, "episode_reward_min": -86.49895113641733, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-05-37", "episode_len_mean": 31.94, "timesteps_total": 464400, "episode_reward_mean": -45.68536541133748, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.60934090614319, "training_iteration": 387, "info": {"default": {"policy_loss": -0.14521925151348114, "vf_explained_var": 0.030797256156802177, "vf_loss": 473.04583740234375, "kl": 0.011246147565543652, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.693195343017578, "total_loss": 472.93902587890625}, "sample_time_ms": 40089.538, "num_steps_trained": 464400, "num_steps_sampled": 464400, "update_time_ms": 2.571, "grad_time_ms": 371.969, "load_time_ms": 0.719}, "iterations_since_restore": 387, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 15680.753107070923, "episodes_total": 11250, "episode_reward_max": 6.638706133502453, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 15680.753107070923, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 35, "timestamp": 1757070378, "timesteps_since_restore": 465600, "episode_reward_min": -86.49895113641733, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-06-18", "episode_len_mean": 33.68, "timesteps_total": 465600, "episode_reward_mean": -49.308187162806824, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.679402589797974, "training_iteration": 388, "info": {"default": {"policy_loss": -0.14822280406951904, "vf_explained_var": 0.018047068268060684, "vf_loss": 462.6319580078125, "kl": 0.011438380926847458, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.267762184143066, "total_loss": 462.5227966308594}, "sample_time_ms": 40101.851, "num_steps_trained": 465600, "num_steps_sampled": 465600, "update_time_ms": 2.563, "grad_time_ms": 374.334, "load_time_ms": 0.726}, "iterations_since_restore": 388, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 15720.925424337387, "episodes_total": 11289, "episode_reward_max": 6.000177606578861, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 15720.925424337387, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 39, "timestamp": 1757070418, "timesteps_since_restore": 466800, "episode_reward_min": -86.49895113641733, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-06-58", "episode_len_mean": 33.0, "timesteps_total": 466800, "episode_reward_mean": -48.20545486610841, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.17231726646423, "training_iteration": 389, "info": {"default": {"policy_loss": -0.1467869132757187, "vf_explained_var": 0.04332797974348068, "vf_loss": 498.11273193359375, "kl": 0.012716948054730892, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.206707000732422, "total_loss": 498.0093994140625}, "sample_time_ms": 40073.139, "num_steps_trained": 466800, "num_steps_sampled": 466800, "update_time_ms": 2.554, "grad_time_ms": 372.206, "load_time_ms": 0.708}, "iterations_since_restore": 389, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 15762.134319782257, "episodes_total": 11328, "episode_reward_max": 6.000177606578861, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 15762.134319782257, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 39, "timestamp": 1757070459, "timesteps_since_restore": 468000, "episode_reward_min": -88.47713019681436, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-07-39", "episode_len_mean": 31.71, "timesteps_total": 468000, "episode_reward_mean": -45.62311458063755, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.208895444869995, "training_iteration": 390, "info": {"default": {"policy_loss": -0.1438310742378235, "vf_explained_var": 0.04065948724746704, "vf_loss": 455.0146789550781, "kl": 0.011790411546826363, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.610690116882324, "total_loss": 454.9111328125}, "sample_time_ms": 40146.017, "num_steps_trained": 468000, "num_steps_sampled": 468000, "update_time_ms": 2.513, "grad_time_ms": 372.975, "load_time_ms": 0.705}, "iterations_since_restore": 390, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 15802.722140789032, "episodes_total": 11366, "episode_reward_max": 4.000700396667071, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 15802.722140789032, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 38, "timestamp": 1757070500, "timesteps_since_restore": 469200, "episode_reward_min": -88.47713019681436, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-08-20", "episode_len_mean": 31.7, "timesteps_total": 469200, "episode_reward_mean": -45.435104821146595, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.5878210067749, "training_iteration": 391, "info": {"default": {"policy_loss": -0.14787417650222778, "vf_explained_var": 0.041152987629175186, "vf_loss": 397.5587463378906, "kl": 0.010538055561482906, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.04138469696045, "total_loss": 397.4468688964844}, "sample_time_ms": 40227.518, "num_steps_trained": 469200, "num_steps_sampled": 469200, "update_time_ms": 2.54, "grad_time_ms": 376.141, "load_time_ms": 0.718}, "iterations_since_restore": 391, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 15842.98256111145, "episodes_total": 11401, "episode_reward_max": 6.000000800089277, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 15842.98256111145, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 35, "timestamp": 1757070540, "timesteps_since_restore": 470400, "episode_reward_min": -86.07002171016157, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-09-00", "episode_len_mean": 31.68, "timesteps_total": 470400, "episode_reward_mean": -45.05895346986556, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.26042032241821, "training_iteration": 392, "info": {"default": {"policy_loss": -0.16889172792434692, "vf_explained_var": 0.03522127866744995, "vf_loss": 444.244140625, "kl": 0.011206498369574547, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.306315422058105, "total_loss": 444.1135559082031}, "sample_time_ms": 40156.217, "num_steps_trained": 470400, "num_steps_sampled": 470400, "update_time_ms": 2.609, "grad_time_ms": 375.069, "load_time_ms": 0.706}, "iterations_since_restore": 392, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 15884.066407680511, "episodes_total": 11447, "episode_reward_max": 6.000000800089277, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 15884.066407680511, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 46, "timestamp": 1757070581, "timesteps_since_restore": 471600, "episode_reward_min": -86.07002171016157, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-09-41", "episode_len_mean": 29.86, "timesteps_total": 471600, "episode_reward_mean": -42.098752158295504, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.08384656906128, "training_iteration": 393, "info": {"default": {"policy_loss": -0.1416679173707962, "vf_explained_var": 0.04360662028193474, "vf_loss": 458.0455627441406, "kl": 0.011837895028293133, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.488006591796875, "total_loss": 457.94439697265625}, "sample_time_ms": 40242.815, "num_steps_trained": 471600, "num_steps_sampled": 471600, "update_time_ms": 2.639, "grad_time_ms": 376.16, "load_time_ms": 0.698}, "iterations_since_restore": 393, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 15924.259080171585, "episodes_total": 11488, "episode_reward_max": 6.0000008046706785, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 15924.259080171585, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 41, "timestamp": 1757070621, "timesteps_since_restore": 472800, "episode_reward_min": -86.50488297599301, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-10-21", "episode_len_mean": 29.41, "timesteps_total": 472800, "episode_reward_mean": -41.33235444300417, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.19267249107361, "training_iteration": 394, "info": {"default": {"policy_loss": -0.1482168287038803, "vf_explained_var": 0.026219626888632774, "vf_loss": 447.5308837890625, "kl": 0.010588545352220535, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.036083221435547, "total_loss": 447.4188537597656}, "sample_time_ms": 40251.47, "num_steps_trained": 472800, "num_steps_sampled": 472800, "update_time_ms": 2.687, "grad_time_ms": 376.534, "load_time_ms": 0.705}, "iterations_since_restore": 394, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 15964.885848760605, "episodes_total": 11527, "episode_reward_max": 6.000001759113303, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 15964.885848760605, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 39, "timestamp": 1757070662, "timesteps_since_restore": 474000, "episode_reward_min": -87.1926055405788, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-11-02", "episode_len_mean": 30.21, "timesteps_total": 474000, "episode_reward_mean": -42.4747385420346, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.626768589019775, "training_iteration": 395, "info": {"default": {"policy_loss": -0.15396898984909058, "vf_explained_var": 0.045604512095451355, "vf_loss": 385.670166015625, "kl": 0.009998317807912827, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.930313110351562, "total_loss": 385.55035400390625}, "sample_time_ms": 40271.11, "num_steps_trained": 474000, "num_steps_sampled": 474000, "update_time_ms": 2.653, "grad_time_ms": 376.401, "load_time_ms": 0.718}, "iterations_since_restore": 395, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 16004.573402881622, "episodes_total": 11563, "episode_reward_max": 6.000001759113303, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 16004.573402881622, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 36, "timestamp": 1757070702, "timesteps_since_restore": 475200, "episode_reward_min": -87.1926055405788, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-11-42", "episode_len_mean": 31.74, "timesteps_total": 475200, "episode_reward_mean": -44.753669466129296, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.687554121017456, "training_iteration": 396, "info": {"default": {"policy_loss": -0.1387130618095398, "vf_explained_var": 0.0627078041434288, "vf_loss": 382.41217041015625, "kl": 0.013319380581378937, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.837814331054688, "total_loss": 382.3189697265625}, "sample_time_ms": 40127.048, "num_steps_trained": 475200, "num_steps_sampled": 475200, "update_time_ms": 2.655, "grad_time_ms": 375.676, "load_time_ms": 0.703}, "iterations_since_restore": 396, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 16044.917226314545, "episodes_total": 11600, "episode_reward_max": 6.00040997830652, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 16044.917226314545, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 37, "timestamp": 1757070742, "timesteps_since_restore": 476400, "episode_reward_min": -87.1926055405788, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-12-22", "episode_len_mean": 31.1, "timesteps_total": 476400, "episode_reward_mean": -43.006580657665225, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.34382343292236, "training_iteration": 397, "info": {"default": {"policy_loss": -0.15029340982437134, "vf_explained_var": 0.048214443027973175, "vf_loss": 430.2908020019531, "kl": 0.011172141879796982, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.393268585205078, "total_loss": 430.1787109375}, "sample_time_ms": 40102.738, "num_steps_trained": 476400, "num_steps_sampled": 476400, "update_time_ms": 2.682, "grad_time_ms": 373.416, "load_time_ms": 0.691}, "iterations_since_restore": 397, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 16086.054419994354, "episodes_total": 11639, "episode_reward_max": 6.000777273625459, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 16086.054419994354, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 39, "timestamp": 1757070783, "timesteps_since_restore": 477600, "episode_reward_min": -85.92160536904785, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-13-03", "episode_len_mean": 31.98, "timesteps_total": 477600, "episode_reward_mean": -45.03337321566959, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.13719367980957, "training_iteration": 398, "info": {"default": {"policy_loss": -0.13451236486434937, "vf_explained_var": 0.08572153002023697, "vf_loss": 363.8252868652344, "kl": 0.011176793836057186, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.831412315368652, "total_loss": 363.7289733886719}, "sample_time_ms": 40149.638, "num_steps_trained": 477600, "num_steps_sampled": 477600, "update_time_ms": 2.674, "grad_time_ms": 372.314, "load_time_ms": 0.702}, "iterations_since_restore": 398, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 16125.884882926941, "episodes_total": 11676, "episode_reward_max": 6.000777273625459, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 16125.884882926941, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 37, "timestamp": 1757070823, "timesteps_since_restore": 478800, "episode_reward_min": -85.52609862106439, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-13-43", "episode_len_mean": 31.4, "timesteps_total": 478800, "episode_reward_mean": -44.24285267837585, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.83046293258667, "training_iteration": 399, "info": {"default": {"policy_loss": -0.1382250189781189, "vf_explained_var": 0.0190119668841362, "vf_loss": 458.0295104980469, "kl": 0.01561904326081276, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.047992706298828, "total_loss": 457.9446716308594}, "sample_time_ms": 40115.453, "num_steps_trained": 478800, "num_steps_sampled": 478800, "update_time_ms": 2.654, "grad_time_ms": 372.379, "load_time_ms": 0.706}, "iterations_since_restore": 399, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 16166.20016336441, "episodes_total": 11713, "episode_reward_max": 6.000777273625459, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 16166.20016336441, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 37, "timestamp": 1757070863, "timesteps_since_restore": 480000, "episode_reward_min": -87.62290758069265, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-14-23", "episode_len_mean": 31.27, "timesteps_total": 480000, "episode_reward_mean": -44.35817899650358, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.31528043746948, "training_iteration": 400, "info": {"default": {"policy_loss": -0.1444951593875885, "vf_explained_var": 0.035800736397504807, "vf_loss": 493.2021484375, "kl": 0.010767022147774696, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.740561485290527, "total_loss": 493.0944519042969}, "sample_time_ms": 40027.598, "num_steps_trained": 480000, "num_steps_sampled": 480000, "update_time_ms": 2.637, "grad_time_ms": 370.91, "load_time_ms": 0.7}, "iterations_since_restore": 400, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 16206.23927474022, "episodes_total": 11751, "episode_reward_max": 6.000118836619636, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 16206.23927474022, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 38, "timestamp": 1757070903, "timesteps_since_restore": 481200, "episode_reward_min": -87.62290758069265, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-15-03", "episode_len_mean": 32.47, "timesteps_total": 481200, "episode_reward_mean": -46.764081485731815, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.039111375808716, "training_iteration": 401, "info": {"default": {"policy_loss": -0.1483795940876007, "vf_explained_var": 0.04335298761725426, "vf_loss": 413.3594970703125, "kl": 0.011688388884067535, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.13394546508789, "total_loss": 413.2510681152344}, "sample_time_ms": 39973.891, "num_steps_trained": 481200, "num_steps_sampled": 481200, "update_time_ms": 2.589, "grad_time_ms": 369.879, "load_time_ms": 0.697}, "iterations_since_restore": 401, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 16246.994408845901, "episodes_total": 11788, "episode_reward_max": 6.000388323292093, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 16246.994408845901, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 37, "timestamp": 1757070944, "timesteps_since_restore": 482400, "episode_reward_min": -88.18231021785546, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-15-44", "episode_len_mean": 32.68, "timesteps_total": 482400, "episode_reward_mean": -47.258288234823596, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.75513410568237, "training_iteration": 402, "info": {"default": {"policy_loss": -0.14426317811012268, "vf_explained_var": 0.03289182484149933, "vf_loss": 410.8355407714844, "kl": 0.011564105749130249, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.457039833068848, "total_loss": 410.7308044433594}, "sample_time_ms": 40022.668, "num_steps_trained": 482400, "num_steps_sampled": 482400, "update_time_ms": 2.537, "grad_time_ms": 370.551, "load_time_ms": 0.698}, "iterations_since_restore": 402, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 16287.91358923912, "episodes_total": 11825, "episode_reward_max": 6.000388323292093, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 16287.91358923912, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 37, "timestamp": 1757070985, "timesteps_since_restore": 483600, "episode_reward_min": -88.18231021785546, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-16-25", "episode_len_mean": 32.85, "timesteps_total": 483600, "episode_reward_mean": -47.19873479501036, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.919180393218994, "training_iteration": 403, "info": {"default": {"policy_loss": -0.14518480002880096, "vf_explained_var": 0.045260898768901825, "vf_loss": 399.84991455078125, "kl": 0.011817310005426407, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.468268394470215, "total_loss": 399.7451171875}, "sample_time_ms": 40007.342, "num_steps_trained": 483600, "num_steps_sampled": 483600, "update_time_ms": 2.539, "grad_time_ms": 369.502, "load_time_ms": 0.696}, "iterations_since_restore": 403, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 16327.945490121841, "episodes_total": 11863, "episode_reward_max": 6.000388323292093, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 16327.945490121841, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 38, "timestamp": 1757071025, "timesteps_since_restore": 484800, "episode_reward_min": -89.57292033032407, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-17-05", "episode_len_mean": 31.9, "timesteps_total": 484800, "episode_reward_mean": -45.565657511855555, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.03190088272095, "training_iteration": 404, "info": {"default": {"policy_loss": -0.14674149453639984, "vf_explained_var": 0.027337338775396347, "vf_loss": 454.5588073730469, "kl": 0.011222602799534798, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.76901626586914, "total_loss": 454.4504089355469}, "sample_time_ms": 39992.139, "num_steps_trained": 484800, "num_steps_sampled": 484800, "update_time_ms": 2.515, "grad_time_ms": 368.652, "load_time_ms": 0.692}, "iterations_since_restore": 404, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 16368.029067993164, "episodes_total": 11897, "episode_reward_max": 6.000507148525344, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 16368.029067993164, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 34, "timestamp": 1757071065, "timesteps_since_restore": 486000, "episode_reward_min": -89.57292033032407, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-17-45", "episode_len_mean": 33.38, "timesteps_total": 486000, "episode_reward_mean": -48.36190735656142, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.08357787132263, "training_iteration": 405, "info": {"default": {"policy_loss": -0.1515491008758545, "vf_explained_var": 0.01580740325152874, "vf_loss": 459.84429931640625, "kl": 0.013727216050028801, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.18013858795166, "total_loss": 459.7396240234375}, "sample_time_ms": 39939.96, "num_steps_trained": 486000, "num_steps_sampled": 486000, "update_time_ms": 2.527, "grad_time_ms": 366.529, "load_time_ms": 0.678}, "iterations_since_restore": 405, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 16408.46842288971, "episodes_total": 11940, "episode_reward_max": 6.000507148525344, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 16408.46842288971, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 43, "timestamp": 1757071106, "timesteps_since_restore": 487200, "episode_reward_min": -89.57292033032407, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-18-26", "episode_len_mean": 31.47, "timesteps_total": 487200, "episode_reward_mean": -44.727380768905476, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.43935489654541, "training_iteration": 406, "info": {"default": {"policy_loss": -0.1602470576763153, "vf_explained_var": 0.015469306148588657, "vf_loss": 402.3402099609375, "kl": 0.011179138906300068, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.936226844787598, "total_loss": 402.2182312011719}, "sample_time_ms": 40012.495, "num_steps_trained": 487200, "num_steps_sampled": 487200, "update_time_ms": 2.478, "grad_time_ms": 369.177, "load_time_ms": 0.682}, "iterations_since_restore": 406, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 16448.632020950317, "episodes_total": 11977, "episode_reward_max": 6.000349421697084, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 16448.632020950317, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 37, "timestamp": 1757071146, "timesteps_since_restore": 488400, "episode_reward_min": -86.54197427425852, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-19-06", "episode_len_mean": 31.59, "timesteps_total": 488400, "episode_reward_mean": -45.02323956937754, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.16359806060791, "training_iteration": 407, "info": {"default": {"policy_loss": -0.14566704630851746, "vf_explained_var": 0.019821040332317352, "vf_loss": 436.4350891113281, "kl": 0.012557457201182842, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.825945854187012, "total_loss": 436.3323059082031}, "sample_time_ms": 39993.102, "num_steps_trained": 488400, "num_steps_sampled": 488400, "update_time_ms": 2.497, "grad_time_ms": 370.449, "load_time_ms": 0.683}, "iterations_since_restore": 407, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 16488.56552386284, "episodes_total": 12016, "episode_reward_max": 6.000075539997907, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 16488.56552386284, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 39, "timestamp": 1757071186, "timesteps_since_restore": 489600, "episode_reward_min": -86.52575087534169, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-19-46", "episode_len_mean": 30.03, "timesteps_total": 489600, "episode_reward_mean": -41.82959630732844, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.93350291252136, "training_iteration": 408, "info": {"default": {"policy_loss": -0.15630541741847992, "vf_explained_var": 0.023267090320587158, "vf_loss": 411.3155517578125, "kl": 0.010980200953781605, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.050945281982422, "total_loss": 411.1967468261719}, "sample_time_ms": 39872.978, "num_steps_trained": 489600, "num_steps_sampled": 489600, "update_time_ms": 2.541, "grad_time_ms": 370.178, "load_time_ms": 0.665}, "iterations_since_restore": 408, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 16530.131061792374, "episodes_total": 12055, "episode_reward_max": 6.000075539997907, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 16530.131061792374, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 39, "timestamp": 1757071227, "timesteps_since_restore": 490800, "episode_reward_min": -86.52575087534169, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-20-27", "episode_len_mean": 30.89, "timesteps_total": 490800, "episode_reward_mean": -43.54443455816577, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.56553792953491, "training_iteration": 409, "info": {"default": {"policy_loss": -0.14700692892074585, "vf_explained_var": 0.04550652951002121, "vf_loss": 415.72607421875, "kl": 0.011847438290715218, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.828508377075195, "total_loss": 415.6195373535156}, "sample_time_ms": 40046.926, "num_steps_trained": 490800, "num_steps_sampled": 490800, "update_time_ms": 2.591, "grad_time_ms": 369.715, "load_time_ms": 0.666}, "iterations_since_restore": 409, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 16570.746386766434, "episodes_total": 12087, "episode_reward_max": 6.000000944909871, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 16570.746386766434, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 32, "timestamp": 1757071268, "timesteps_since_restore": 492000, "episode_reward_min": -85.2218465154544, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-21-08", "episode_len_mean": 32.63, "timesteps_total": 492000, "episode_reward_mean": -47.23632850771622, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.61532497406006, "training_iteration": 410, "info": {"default": {"policy_loss": -0.15284784138202667, "vf_explained_var": 0.01487971656024456, "vf_loss": 410.51904296875, "kl": 0.010973498225212097, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.092982292175293, "total_loss": 410.4037170410156}, "sample_time_ms": 40077.225, "num_steps_trained": 492000, "num_steps_sampled": 492000, "update_time_ms": 2.607, "grad_time_ms": 369.392, "load_time_ms": 0.66}, "iterations_since_restore": 410, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 16610.72576069832, "episodes_total": 12128, "episode_reward_max": 8.000000401056957, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 16610.72576069832, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 41, "timestamp": 1757071308, "timesteps_since_restore": 493200, "episode_reward_min": -87.41175154997447, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-21-48", "episode_len_mean": 32.38, "timesteps_total": 493200, "episode_reward_mean": -47.37829427459335, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.979373931884766, "training_iteration": 411, "info": {"default": {"policy_loss": -0.1339796781539917, "vf_explained_var": 0.026475992053747177, "vf_loss": 419.7266540527344, "kl": 0.011897514574229717, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.555683135986328, "total_loss": 419.63330078125}, "sample_time_ms": 40071.725, "num_steps_trained": 493200, "num_steps_sampled": 493200, "update_time_ms": 2.642, "grad_time_ms": 368.909, "load_time_ms": 0.644}, "iterations_since_restore": 411, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 16650.758828163147, "episodes_total": 12163, "episode_reward_max": 8.000000401056957, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 16650.758828163147, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 35, "timestamp": 1757071348, "timesteps_since_restore": 494400, "episode_reward_min": -87.41175154997447, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-22-28", "episode_len_mean": 32.57, "timesteps_total": 494400, "episode_reward_mean": -47.8551396200247, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.03306746482849, "training_iteration": 412, "info": {"default": {"policy_loss": -0.15271160006523132, "vf_explained_var": 0.04765024408698082, "vf_loss": 412.4598693847656, "kl": 0.010270458646118641, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.017300605773926, "total_loss": 412.34228515625}, "sample_time_ms": 39998.602, "num_steps_trained": 494400, "num_steps_sampled": 494400, "update_time_ms": 2.631, "grad_time_ms": 369.905, "load_time_ms": 0.641}, "iterations_since_restore": 412, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 16690.866256952286, "episodes_total": 12204, "episode_reward_max": 6.069178894250701, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 16690.866256952286, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 41, "timestamp": 1757071388, "timesteps_since_restore": 495600, "episode_reward_min": -87.51552852497808, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-23-08", "episode_len_mean": 31.15, "timesteps_total": 495600, "episode_reward_mean": -44.57642511434081, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.107428789138794, "training_iteration": 413, "info": {"default": {"policy_loss": -0.15374399721622467, "vf_explained_var": 0.03483113273978233, "vf_loss": 498.2351989746094, "kl": 0.011257651261985302, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.82192611694336, "total_loss": 498.1199035644531}, "sample_time_ms": 39917.982, "num_steps_trained": 495600, "num_steps_sampled": 495600, "update_time_ms": 2.638, "grad_time_ms": 369.351, "load_time_ms": 0.642}, "iterations_since_restore": 413, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 16731.059979200363, "episodes_total": 12244, "episode_reward_max": 6.000050545582722, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 16731.059979200363, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 40, "timestamp": 1757071428, "timesteps_since_restore": 496800, "episode_reward_min": -87.51552852497808, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-23-48", "episode_len_mean": 30.81, "timesteps_total": 496800, "episode_reward_mean": -43.38919827724667, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.19372224807739, "training_iteration": 414, "info": {"default": {"policy_loss": -0.14446242153644562, "vf_explained_var": 0.04542836174368858, "vf_loss": 395.8784484863281, "kl": 0.011148004792630672, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.077804565429688, "total_loss": 395.7720947265625}, "sample_time_ms": 39935.392, "num_steps_trained": 496800, "num_steps_sampled": 496800, "update_time_ms": 2.618, "grad_time_ms": 368.119, "load_time_ms": 0.643}, "iterations_since_restore": 414, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 16772.13631415367, "episodes_total": 12286, "episode_reward_max": 6.000002601924684, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 16772.13631415367, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 42, "timestamp": 1757071470, "timesteps_since_restore": 498000, "episode_reward_min": -85.69673602384702, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-24-30", "episode_len_mean": 28.52, "timesteps_total": 498000, "episode_reward_mean": -38.9326647971013, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.076334953308105, "training_iteration": 415, "info": {"default": {"policy_loss": -0.15042783319950104, "vf_explained_var": 0.03267563879489899, "vf_loss": 412.85394287109375, "kl": 0.011195218190550804, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.923447608947754, "total_loss": 412.7417907714844}, "sample_time_ms": 40034.731, "num_steps_trained": 498000, "num_steps_sampled": 498000, "update_time_ms": 2.638, "grad_time_ms": 368.044, "load_time_ms": 0.645}, "iterations_since_restore": 415, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 16812.39584159851, "episodes_total": 12322, "episode_reward_max": 6.000403966420587, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 16812.39584159851, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 36, "timestamp": 1757071510, "timesteps_since_restore": 499200, "episode_reward_min": -85.72385819699286, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-25-10", "episode_len_mean": 30.34, "timesteps_total": 499200, "episode_reward_mean": -42.42747625753127, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.25952744483948, "training_iteration": 416, "info": {"default": {"policy_loss": -0.14574207365512848, "vf_explained_var": 0.05147239938378334, "vf_loss": 450.3913879394531, "kl": 0.011574589647352695, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.062203407287598, "total_loss": 450.2851867675781}, "sample_time_ms": 40017.876, "num_steps_trained": 499200, "num_steps_sampled": 499200, "update_time_ms": 2.652, "grad_time_ms": 366.94, "load_time_ms": 0.638}, "iterations_since_restore": 416, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 16853.891047239304, "episodes_total": 12361, "episode_reward_max": 6.000403966420587, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 16853.891047239304, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 39, "timestamp": 1757071551, "timesteps_since_restore": 500400, "episode_reward_min": -85.72385819699286, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-25-51", "episode_len_mean": 30.51, "timesteps_total": 500400, "episode_reward_mean": -43.100154541441306, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.49520564079285, "training_iteration": 417, "info": {"default": {"policy_loss": -0.14932173490524292, "vf_explained_var": 0.0417914055287838, "vf_loss": 434.8189392089844, "kl": 0.01209094375371933, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.869909286499023, "total_loss": 434.7109375}, "sample_time_ms": 40152.708, "num_steps_trained": 500400, "num_steps_sampled": 500400, "update_time_ms": 2.625, "grad_time_ms": 365.362, "load_time_ms": 0.643}, "iterations_since_restore": 417, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 16894.089856624603, "episodes_total": 12394, "episode_reward_max": 6.0002400503359254, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 16894.089856624603, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 33, "timestamp": 1757071592, "timesteps_since_restore": 501600, "episode_reward_min": -85.51161376413542, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-26-32", "episode_len_mean": 33.43, "timesteps_total": 501600, "episode_reward_mean": -48.56968886510022, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.19880938529968, "training_iteration": 418, "info": {"default": {"policy_loss": -0.13833671808242798, "vf_explained_var": 0.05573371425271034, "vf_loss": 418.74664306640625, "kl": 0.010519164614379406, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.503579139709473, "total_loss": 418.6442565917969}, "sample_time_ms": 40178.303, "num_steps_trained": 501600, "num_steps_sampled": 501600, "update_time_ms": 2.589, "grad_time_ms": 366.325, "load_time_ms": 0.659}, "iterations_since_restore": 418, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 16934.33753156662, "episodes_total": 12437, "episode_reward_max": 6.0002400503359254, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 16934.33753156662, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 43, "timestamp": 1757071632, "timesteps_since_restore": 502800, "episode_reward_min": -87.00830193825671, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-27-12", "episode_len_mean": 31.74, "timesteps_total": 502800, "episode_reward_mean": -45.446523237405735, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.2476749420166, "training_iteration": 419, "info": {"default": {"policy_loss": -0.1460629403591156, "vf_explained_var": 0.04973873123526573, "vf_loss": 445.7601013183594, "kl": 0.01252498384565115, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.883304595947266, "total_loss": 445.6568298339844}, "sample_time_ms": 40044.478, "num_steps_trained": 502800, "num_steps_sampled": 502800, "update_time_ms": 2.517, "grad_time_ms": 368.355, "load_time_ms": 0.659}, "iterations_since_restore": 419, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 16974.693689346313, "episodes_total": 12487, "episode_reward_max": 8.000000400008986, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 16974.693689346313, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 50, "timestamp": 1757071672, "timesteps_since_restore": 504000, "episode_reward_min": -87.00830193825671, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-27-52", "episode_len_mean": 26.91, "timesteps_total": 504000, "episode_reward_mean": -36.45228268488272, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.3561577796936, "training_iteration": 420, "info": {"default": {"policy_loss": -0.14989419281482697, "vf_explained_var": 0.031318239867687225, "vf_loss": 466.21087646484375, "kl": 0.011208408512175083, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.335765838623047, "total_loss": 466.0992736816406}, "sample_time_ms": 40018.099, "num_steps_trained": 504000, "num_steps_sampled": 504000, "update_time_ms": 2.553, "grad_time_ms": 368.762, "load_time_ms": 0.66}, "iterations_since_restore": 420, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 17015.293386936188, "episodes_total": 12530, "episode_reward_max": 8.00000947076918, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 17015.293386936188, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 43, "timestamp": 1757071713, "timesteps_since_restore": 505200, "episode_reward_min": -85.15189150832283, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-28-33", "episode_len_mean": 25.72, "timesteps_total": 505200, "episode_reward_mean": -33.951966206713244, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.59969758987427, "training_iteration": 421, "info": {"default": {"policy_loss": -0.15403714776039124, "vf_explained_var": 0.05117277428507805, "vf_loss": 393.4837646484375, "kl": 0.010072896257042885, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.123613357543945, "total_loss": 393.3641357421875}, "sample_time_ms": 40080.304, "num_steps_trained": 505200, "num_steps_sampled": 505200, "update_time_ms": 2.608, "grad_time_ms": 368.497, "load_time_ms": 0.673}, "iterations_since_restore": 421, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 17055.397482156754, "episodes_total": 12567, "episode_reward_max": 8.00000947076918, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 17055.397482156754, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 37, "timestamp": 1757071753, "timesteps_since_restore": 506400, "episode_reward_min": -85.15189150832283, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-29-13", "episode_len_mean": 28.99, "timesteps_total": 506400, "episode_reward_mean": -40.09844699468982, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.104095220565796, "training_iteration": 422, "info": {"default": {"policy_loss": -0.15066654980182648, "vf_explained_var": 0.024628639221191406, "vf_loss": 423.6607360839844, "kl": 0.010638480074703693, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.086960792541504, "total_loss": 423.54644775390625}, "sample_time_ms": 40087.117, "num_steps_trained": 506400, "num_steps_sampled": 506400, "update_time_ms": 2.626, "grad_time_ms": 368.65, "load_time_ms": 0.693}, "iterations_since_restore": 422, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 17095.87585258484, "episodes_total": 12603, "episode_reward_max": 8.00000040251164, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 17095.87585258484, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 36, "timestamp": 1757071793, "timesteps_since_restore": 507600, "episode_reward_min": -87.27657087304861, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-29-53", "episode_len_mean": 31.3, "timesteps_total": 507600, "episode_reward_mean": -44.72201892279325, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.47837042808533, "training_iteration": 423, "info": {"default": {"policy_loss": -0.1382702738046646, "vf_explained_var": 0.041432492434978485, "vf_loss": 389.27252197265625, "kl": 0.011422781273722649, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.9030122756958, "total_loss": 389.1732482910156}, "sample_time_ms": 40123.822, "num_steps_trained": 507600, "num_steps_sampled": 507600, "update_time_ms": 2.618, "grad_time_ms": 369.047, "load_time_ms": 0.699}, "iterations_since_restore": 423, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 17136.44306755066, "episodes_total": 12639, "episode_reward_max": 8.00000040251164, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 17136.44306755066, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 36, "timestamp": 1757071834, "timesteps_since_restore": 508800, "episode_reward_min": -87.27657087304861, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-30-34", "episode_len_mean": 32.46, "timesteps_total": 508800, "episode_reward_mean": -46.5788972268593, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.56721496582031, "training_iteration": 424, "info": {"default": {"policy_loss": -0.13656532764434814, "vf_explained_var": 0.03281358256936073, "vf_loss": 424.9880676269531, "kl": 0.010740842670202255, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.201498031616211, "total_loss": 424.88824462890625}, "sample_time_ms": 40161.07, "num_steps_trained": 508800, "num_steps_sampled": 508800, "update_time_ms": 2.637, "grad_time_ms": 369.148, "load_time_ms": 0.697}, "iterations_since_restore": 424, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 17177.258502483368, "episodes_total": 12682, "episode_reward_max": 8.00000040000332, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 17177.258502483368, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 43, "timestamp": 1757071875, "timesteps_since_restore": 510000, "episode_reward_min": -86.04353945817812, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-31-15", "episode_len_mean": 30.66, "timesteps_total": 510000, "episode_reward_mean": -43.16652413240277, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.81543493270874, "training_iteration": 425, "info": {"default": {"policy_loss": -0.15389062464237213, "vf_explained_var": 0.04200834035873413, "vf_loss": 458.3561096191406, "kl": 0.011292126029729843, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.8156156539917, "total_loss": 458.24078369140625}, "sample_time_ms": 40133.568, "num_steps_trained": 510000, "num_steps_sampled": 510000, "update_time_ms": 2.601, "grad_time_ms": 370.56, "load_time_ms": 0.7}, "iterations_since_restore": 425, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 17217.51180434227, "episodes_total": 12723, "episode_reward_max": 6.000521926640477, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 17217.51180434227, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 41, "timestamp": 1757071915, "timesteps_since_restore": 511200, "episode_reward_min": -86.04353945817812, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-31-55", "episode_len_mean": 29.7, "timesteps_total": 511200, "episode_reward_mean": -41.800039114407355, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.25330185890198, "training_iteration": 426, "info": {"default": {"policy_loss": -0.14248855412006378, "vf_explained_var": 0.046051621437072754, "vf_loss": 413.1447448730469, "kl": 0.012444604188203812, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.835196495056152, "total_loss": 413.0447998046875}, "sample_time_ms": 40134.522, "num_steps_trained": 511200, "num_steps_sampled": 511200, "update_time_ms": 2.633, "grad_time_ms": 368.931, "load_time_ms": 0.699}, "iterations_since_restore": 426, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 17257.764310359955, "episodes_total": 12761, "episode_reward_max": 6.000521926640477, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 17257.764310359955, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 38, "timestamp": 1757071955, "timesteps_since_restore": 512400, "episode_reward_min": -85.88567194295514, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-32-35", "episode_len_mean": 28.55, "timesteps_total": 512400, "episode_reward_mean": -39.60650480119205, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.25250601768494, "training_iteration": 427, "info": {"default": {"policy_loss": -0.1414472609758377, "vf_explained_var": 0.016426218673586845, "vf_loss": 445.7329406738281, "kl": 0.011482259258627892, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.852816581726074, "total_loss": 445.6307373046875}, "sample_time_ms": 40008.302, "num_steps_trained": 512400, "num_steps_sampled": 512400, "update_time_ms": 2.692, "grad_time_ms": 370.791, "load_time_ms": 0.704}, "iterations_since_restore": 427, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 17298.808533668518, "episodes_total": 12797, "episode_reward_max": 6.0002878019586126, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 17298.808533668518, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 36, "timestamp": 1757071996, "timesteps_since_restore": 513600, "episode_reward_min": -85.88567194295514, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-33-16", "episode_len_mean": 30.51, "timesteps_total": 513600, "episode_reward_mean": -42.60550611340191, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.04422330856323, "training_iteration": 428, "info": {"default": {"policy_loss": -0.14696469902992249, "vf_explained_var": 0.07080820202827454, "vf_loss": 412.08251953125, "kl": 0.010709508322179317, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.962627410888672, "total_loss": 411.9721984863281}, "sample_time_ms": 40095.862, "num_steps_trained": 513600, "num_steps_sampled": 513600, "update_time_ms": 2.702, "grad_time_ms": 367.778, "load_time_ms": 0.692}, "iterations_since_restore": 428, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 17339.31769657135, "episodes_total": 12839, "episode_reward_max": 8.000095753717538, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 17339.31769657135, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 42, "timestamp": 1757072037, "timesteps_since_restore": 514800, "episode_reward_min": -85.88567194295514, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-33-57", "episode_len_mean": 31.12, "timesteps_total": 514800, "episode_reward_mean": -43.335013568744415, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.50916290283203, "training_iteration": 429, "info": {"default": {"policy_loss": -0.15143854916095734, "vf_explained_var": 0.03498782590031624, "vf_loss": 451.1524658203125, "kl": 0.011211208067834377, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.223944664001465, "total_loss": 451.039306640625}, "sample_time_ms": 40121.718, "num_steps_trained": 514800, "num_steps_sampled": 514800, "update_time_ms": 2.705, "grad_time_ms": 368.071, "load_time_ms": 0.707}, "iterations_since_restore": 429, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 17380.048070430756, "episodes_total": 12877, "episode_reward_max": 8.000095753717538, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 17380.048070430756, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 38, "timestamp": 1757072078, "timesteps_since_restore": 516000, "episode_reward_min": -83.70051770799644, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-34-38", "episode_len_mean": 31.79, "timesteps_total": 516000, "episode_reward_mean": -44.7755528084966, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.73037385940552, "training_iteration": 430, "info": {"default": {"policy_loss": -0.1511017382144928, "vf_explained_var": 0.045790690928697586, "vf_loss": 374.07403564453125, "kl": 0.011755209416151047, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.727570533752441, "total_loss": 373.9631042480469}, "sample_time_ms": 40159.052, "num_steps_trained": 516000, "num_steps_sampled": 516000, "update_time_ms": 2.664, "grad_time_ms": 368.227, "load_time_ms": 0.709}, "iterations_since_restore": 430, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 17421.171161174774, "episodes_total": 12920, "episode_reward_max": 8.000000400000175, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 17421.171161174774, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 43, "timestamp": 1757072119, "timesteps_since_restore": 517200, "episode_reward_min": -83.70051770799644, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-35-19", "episode_len_mean": 30.44, "timesteps_total": 517200, "episode_reward_mean": -42.8557603895442, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.123090744018555, "training_iteration": 431, "info": {"default": {"policy_loss": -0.1465374082326889, "vf_explained_var": 0.06359586119651794, "vf_loss": 401.65142822265625, "kl": 0.01158836204558611, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.631538391113281, "total_loss": 401.54449462890625}, "sample_time_ms": 40211.612, "num_steps_trained": 517200, "num_steps_sampled": 517200, "update_time_ms": 2.708, "grad_time_ms": 367.952, "load_time_ms": 0.691}, "iterations_since_restore": 431, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 17461.713751792908, "episodes_total": 12960, "episode_reward_max": 6.000522809137967, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 17461.713751792908, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 40, "timestamp": 1757072159, "timesteps_since_restore": 518400, "episode_reward_min": -86.50210860205749, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-35-59", "episode_len_mean": 28.88, "timesteps_total": 518400, "episode_reward_mean": -39.85217685357185, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.542590618133545, "training_iteration": 432, "info": {"default": {"policy_loss": -0.14738906919956207, "vf_explained_var": 0.021392755210399628, "vf_loss": 419.2303466796875, "kl": 0.011100348085165024, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.732023239135742, "total_loss": 419.12091064453125}, "sample_time_ms": 40257.698, "num_steps_trained": 518400, "num_steps_sampled": 518400, "update_time_ms": 2.735, "grad_time_ms": 365.803, "load_time_ms": 0.673}, "iterations_since_restore": 432, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 17502.909379720688, "episodes_total": 13003, "episode_reward_max": 8.000000408795191, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 17502.909379720688, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 43, "timestamp": 1757072201, "timesteps_since_restore": 519600, "episode_reward_min": -86.50210860205749, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-36-41", "episode_len_mean": 28.96, "timesteps_total": 519600, "episode_reward_mean": -39.84173489263302, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.19562792778015, "training_iteration": 433, "info": {"default": {"policy_loss": -0.1588928997516632, "vf_explained_var": 0.033467549830675125, "vf_loss": 382.85552978515625, "kl": 0.011558461003005505, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.480440139770508, "total_loss": 382.7361755371094}, "sample_time_ms": 40327.261, "num_steps_trained": 519600, "num_steps_sampled": 519600, "update_time_ms": 2.718, "grad_time_ms": 367.906, "load_time_ms": 0.681}, "iterations_since_restore": 433, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 17543.644745349884, "episodes_total": 13044, "episode_reward_max": 8.000000408795191, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 17543.644745349884, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 41, "timestamp": 1757072241, "timesteps_since_restore": 520800, "episode_reward_min": -87.21723682247304, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-37-21", "episode_len_mean": 29.66, "timesteps_total": 520800, "episode_reward_mean": -41.60231283019188, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.73536562919617, "training_iteration": 434, "info": {"default": {"policy_loss": -0.15090574324131012, "vf_explained_var": 0.03386859595775604, "vf_loss": 420.6188659667969, "kl": 0.01201242208480835, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.609769821166992, "total_loss": 420.5090026855469}, "sample_time_ms": 40340.92, "num_steps_trained": 520800, "num_steps_sampled": 520800, "update_time_ms": 2.709, "grad_time_ms": 371.047, "load_time_ms": 0.691}, "iterations_since_restore": 434, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 17583.545465946198, "episodes_total": 13081, "episode_reward_max": 8.000000408795191, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 17583.545465946198, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 37, "timestamp": 1757072281, "timesteps_since_restore": 522000, "episode_reward_min": -87.21723682247304, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-38-01", "episode_len_mean": 29.43, "timesteps_total": 522000, "episode_reward_mean": -41.02212598188046, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.90072059631348, "training_iteration": 435, "info": {"default": {"policy_loss": -0.1429249793291092, "vf_explained_var": 0.033881790935993195, "vf_loss": 409.2921447753906, "kl": 0.011464421637356281, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.403708457946777, "total_loss": 409.1883544921875}, "sample_time_ms": 40250.557, "num_steps_trained": 522000, "num_steps_sampled": 522000, "update_time_ms": 2.753, "grad_time_ms": 369.95, "load_time_ms": 0.688}, "iterations_since_restore": 435, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 17623.538749456406, "episodes_total": 13119, "episode_reward_max": 6.000207060023932, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 17623.538749456406, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 38, "timestamp": 1757072321, "timesteps_since_restore": 523200, "episode_reward_min": -87.0531483951861, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-38-41", "episode_len_mean": 30.69, "timesteps_total": 523200, "episode_reward_mean": -42.965139497208895, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.99328351020813, "training_iteration": 436, "info": {"default": {"policy_loss": -0.1518746316432953, "vf_explained_var": 0.028033414855599403, "vf_loss": 415.247314453125, "kl": 0.011079534888267517, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.685905456542969, "total_loss": 415.13330078125}, "sample_time_ms": 40222.008, "num_steps_trained": 523200, "num_steps_sampled": 523200, "update_time_ms": 2.755, "grad_time_ms": 372.509, "load_time_ms": 0.696}, "iterations_since_restore": 436, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 17664.366794347763, "episodes_total": 13164, "episode_reward_max": 8.000000445047576, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 17664.366794347763, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 45, "timestamp": 1757072362, "timesteps_since_restore": 524400, "episode_reward_min": -87.801425647575, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-39-22", "episode_len_mean": 29.85, "timesteps_total": 524400, "episode_reward_mean": -41.71417413083503, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.82804489135742, "training_iteration": 437, "info": {"default": {"policy_loss": -0.14908578991889954, "vf_explained_var": 0.04323224350810051, "vf_loss": 441.07965087890625, "kl": 0.010823162272572517, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.237106323242188, "total_loss": 440.9674987792969}, "sample_time_ms": 40281.499, "num_steps_trained": 524400, "num_steps_sampled": 524400, "update_time_ms": 2.681, "grad_time_ms": 370.692, "load_time_ms": 0.687}, "iterations_since_restore": 437, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 17704.724115610123, "episodes_total": 13202, "episode_reward_max": 8.000000566420113, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 17704.724115610123, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 38, "timestamp": 1757072403, "timesteps_since_restore": 525600, "episode_reward_min": -87.801425647575, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-40-03", "episode_len_mean": 29.65, "timesteps_total": 525600, "episode_reward_mean": -41.3296742939789, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.35732126235962, "training_iteration": 438, "info": {"default": {"policy_loss": -0.14895230531692505, "vf_explained_var": 0.06061048060655594, "vf_loss": 397.4849853515625, "kl": 0.010824095457792282, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.795379638671875, "total_loss": 397.37298583984375}, "sample_time_ms": 40210.848, "num_steps_trained": 525600, "num_steps_sampled": 525600, "update_time_ms": 2.652, "grad_time_ms": 372.722, "load_time_ms": 0.685}, "iterations_since_restore": 438, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 17745.37215566635, "episodes_total": 13245, "episode_reward_max": 8.000000566420113, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 17745.37215566635, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 43, "timestamp": 1757072443, "timesteps_since_restore": 526800, "episode_reward_min": -87.801425647575, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-40-43", "episode_len_mean": 28.73, "timesteps_total": 526800, "episode_reward_mean": -40.14025849083797, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.64804005622864, "training_iteration": 439, "info": {"default": {"policy_loss": -0.1478775143623352, "vf_explained_var": 0.05103691294789314, "vf_loss": 446.0743713378906, "kl": 0.012547609396278858, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.725165367126465, "total_loss": 445.9693603515625}, "sample_time_ms": 40225.701, "num_steps_trained": 526800, "num_steps_sampled": 526800, "update_time_ms": 2.635, "grad_time_ms": 371.752, "load_time_ms": 0.67}, "iterations_since_restore": 439, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 17785.277977466583, "episodes_total": 13279, "episode_reward_max": 8.000000566420113, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 17785.277977466583, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 34, "timestamp": 1757072483, "timesteps_since_restore": 528000, "episode_reward_min": -85.73369261110052, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-41-23", "episode_len_mean": 31.3, "timesteps_total": 528000, "episode_reward_mean": -44.8872465360781, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.905821800231934, "training_iteration": 440, "info": {"default": {"policy_loss": -0.14562395215034485, "vf_explained_var": 0.02716314047574997, "vf_loss": 444.2439270019531, "kl": 0.013222760520875454, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.637482643127441, "total_loss": 444.14349365234375}, "sample_time_ms": 40143.776, "num_steps_trained": 528000, "num_steps_sampled": 528000, "update_time_ms": 2.683, "grad_time_ms": 371.147, "load_time_ms": 0.671}, "iterations_since_restore": 440, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 17825.318613290787, "episodes_total": 13316, "episode_reward_max": 6.00035881390434, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 17825.318613290787, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 37, "timestamp": 1757072523, "timesteps_since_restore": 529200, "episode_reward_min": -86.22839378603673, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-42-03", "episode_len_mean": 33.01, "timesteps_total": 529200, "episode_reward_mean": -48.23395943391707, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.04063582420349, "training_iteration": 441, "info": {"default": {"policy_loss": -0.1505703330039978, "vf_explained_var": 0.05064466968178749, "vf_loss": 423.1734313964844, "kl": 0.011379425413906574, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.617950439453125, "total_loss": 423.061767578125}, "sample_time_ms": 40033.999, "num_steps_trained": 529200, "num_steps_sampled": 529200, "update_time_ms": 2.57, "grad_time_ms": 372.834, "load_time_ms": 0.673}, "iterations_since_restore": 441, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 17865.434440135956, "episodes_total": 13355, "episode_reward_max": 6.000453658270903, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 17865.434440135956, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 39, "timestamp": 1757072563, "timesteps_since_restore": 530400, "episode_reward_min": -86.22839378603673, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-42-43", "episode_len_mean": 31.99, "timesteps_total": 530400, "episode_reward_mean": -45.475975079868206, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.11582684516907, "training_iteration": 442, "info": {"default": {"policy_loss": -0.14771993458271027, "vf_explained_var": 0.06811235845088959, "vf_loss": 423.0948791503906, "kl": 0.010846554301679134, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.042713165283203, "total_loss": 422.9842224121094}, "sample_time_ms": 39990.84, "num_steps_trained": 530400, "num_steps_sampled": 530400, "update_time_ms": 2.538, "grad_time_ms": 373.365, "load_time_ms": 0.678}, "iterations_since_restore": 442, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 17905.686863183975, "episodes_total": 13403, "episode_reward_max": 8.000000759786856, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 17905.686863183975, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 48, "timestamp": 1757072604, "timesteps_since_restore": 531600, "episode_reward_min": -86.4807184512605, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-43-24", "episode_len_mean": 27.24, "timesteps_total": 531600, "episode_reward_mean": -36.2268013045929, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.25242304801941, "training_iteration": 443, "info": {"default": {"policy_loss": -0.153645858168602, "vf_explained_var": 0.08405378460884094, "vf_loss": 408.6298828125, "kl": 0.010003181174397469, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.187714576721191, "total_loss": 408.5104064941406}, "sample_time_ms": 39897.736, "num_steps_trained": 531600, "num_steps_sampled": 531600, "update_time_ms": 2.526, "grad_time_ms": 372.183, "load_time_ms": 0.69}, "iterations_since_restore": 443, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 17945.569605588913, "episodes_total": 13439, "episode_reward_max": 8.000000759786856, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 17945.569605588913, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 36, "timestamp": 1757072644, "timesteps_since_restore": 532800, "episode_reward_min": -86.4807184512605, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-44-04", "episode_len_mean": 28.6, "timesteps_total": 532800, "episode_reward_mean": -39.222629906401046, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.882742404937744, "training_iteration": 444, "info": {"default": {"policy_loss": -0.14062030613422394, "vf_explained_var": 0.023164736106991768, "vf_loss": 427.366943359375, "kl": 0.0130381491035223, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.302814483642578, "total_loss": 427.2708740234375}, "sample_time_ms": 39814.201, "num_steps_trained": 532800, "num_steps_sampled": 532800, "update_time_ms": 2.625, "grad_time_ms": 370.386, "load_time_ms": 0.687}, "iterations_since_restore": 444, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 17985.746605157852, "episodes_total": 13474, "episode_reward_max": 8.000000759786856, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 17985.746605157852, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 35, "timestamp": 1757072684, "timesteps_since_restore": 534000, "episode_reward_min": -86.4807184512605, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-44-44", "episode_len_mean": 31.86, "timesteps_total": 534000, "episode_reward_mean": -45.41973168532931, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.17699956893921, "training_iteration": 445, "info": {"default": {"policy_loss": -0.15377411246299744, "vf_explained_var": 0.03552854061126709, "vf_loss": 403.6810302734375, "kl": 0.01161352638155222, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 12.024821281433105, "total_loss": 403.56695556640625}, "sample_time_ms": 39839.667, "num_steps_trained": 534000, "num_steps_sampled": 534000, "update_time_ms": 2.588, "grad_time_ms": 372.538, "load_time_ms": 0.69}, "iterations_since_restore": 445, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 18026.129551172256, "episodes_total": 13516, "episode_reward_max": 5.003051774656655, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 18026.129551172256, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 42, "timestamp": 1757072724, "timesteps_since_restore": 535200, "episode_reward_min": -86.48224403221158, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-45-24", "episode_len_mean": 31.15, "timesteps_total": 535200, "episode_reward_mean": -44.18927257203615, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.3829460144043, "training_iteration": 446, "info": {"default": {"policy_loss": -0.14803862571716309, "vf_explained_var": 0.03100161999464035, "vf_loss": 448.75628662109375, "kl": 0.01145586185157299, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.463638305664062, "total_loss": 448.6473693847656}, "sample_time_ms": 39878.678, "num_steps_trained": 535200, "num_steps_sampled": 535200, "update_time_ms": 2.586, "grad_time_ms": 372.488, "load_time_ms": 0.69}, "iterations_since_restore": 446, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 18066.82624912262, "episodes_total": 13558, "episode_reward_max": 8.000000400000548, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 18066.82624912262, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 42, "timestamp": 1757072765, "timesteps_since_restore": 536400, "episode_reward_min": -86.48224403221158, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-46-05", "episode_len_mean": 28.83, "timesteps_total": 536400, "episode_reward_mean": -39.71443528268031, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.69669795036316, "training_iteration": 447, "info": {"default": {"policy_loss": -0.14484988152980804, "vf_explained_var": 0.03417201340198517, "vf_loss": 437.39697265625, "kl": 0.012044455856084824, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.752681732177734, "total_loss": 437.2933044433594}, "sample_time_ms": 39865.545, "num_steps_trained": 536400, "num_steps_sampled": 536400, "update_time_ms": 2.616, "grad_time_ms": 372.457, "load_time_ms": 0.69}, "iterations_since_restore": 447, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 18106.816373586655, "episodes_total": 13598, "episode_reward_max": 8.000000400000548, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 18106.816373586655, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 40, "timestamp": 1757072805, "timesteps_since_restore": 537600, "episode_reward_min": -86.48224403221158, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-46-45", "episode_len_mean": 29.53, "timesteps_total": 537600, "episode_reward_mean": -41.12742398894906, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.990124464035034, "training_iteration": 448, "info": {"default": {"policy_loss": -0.14082813262939453, "vf_explained_var": 0.06067631021142006, "vf_loss": 445.5695495605469, "kl": 0.010753943584859371, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.85936164855957, "total_loss": 445.4654846191406}, "sample_time_ms": 39828.618, "num_steps_trained": 537600, "num_steps_sampled": 537600, "update_time_ms": 2.631, "grad_time_ms": 372.608, "load_time_ms": 0.684}, "iterations_since_restore": 448, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 18146.98503780365, "episodes_total": 13642, "episode_reward_max": 8.000000400000548, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 18146.98503780365, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 44, "timestamp": 1757072845, "timesteps_since_restore": 538800, "episode_reward_min": -87.70779576573078, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-47-25", "episode_len_mean": 29.35, "timesteps_total": 538800, "episode_reward_mean": -40.926741514741146, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.16866421699524, "training_iteration": 449, "info": {"default": {"policy_loss": -0.1501460075378418, "vf_explained_var": 0.038220278918743134, "vf_loss": 404.48736572265625, "kl": 0.011632177978754044, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.267200469970703, "total_loss": 404.376953125}, "sample_time_ms": 39778.592, "num_steps_trained": 538800, "num_steps_sampled": 538800, "update_time_ms": 2.674, "grad_time_ms": 374.729, "load_time_ms": 0.684}, "iterations_since_restore": 449, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 18187.10143828392, "episodes_total": 13688, "episode_reward_max": 6.000755082135829, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 18187.10143828392, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 46, "timestamp": 1757072885, "timesteps_since_restore": 540000, "episode_reward_min": -87.70779576573078, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-48-05", "episode_len_mean": 26.86, "timesteps_total": 540000, "episode_reward_mean": -36.04757829386859, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.116400480270386, "training_iteration": 450, "info": {"default": {"policy_loss": -0.14139322936534882, "vf_explained_var": 0.04622822254896164, "vf_loss": 392.62701416015625, "kl": 0.010419427417218685, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.479698181152344, "total_loss": 392.52117919921875}, "sample_time_ms": 39799.697, "num_steps_trained": 540000, "num_steps_sampled": 540000, "update_time_ms": 2.62, "grad_time_ms": 374.738, "load_time_ms": 0.683}, "iterations_since_restore": 450, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 18226.994525194168, "episodes_total": 13722, "episode_reward_max": 6.000755082135829, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 18226.994525194168, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 34, "timestamp": 1757072925, "timesteps_since_restore": 541200, "episode_reward_min": -86.30980275398304, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-48-45", "episode_len_mean": 29.3, "timesteps_total": 541200, "episode_reward_mean": -40.45774873772231, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.8930869102478, "training_iteration": 451, "info": {"default": {"policy_loss": -0.15365324914455414, "vf_explained_var": 0.05898192897439003, "vf_loss": 412.9320983886719, "kl": 0.012246862053871155, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.649297714233398, "total_loss": 412.82025146484375}, "sample_time_ms": 39785.164, "num_steps_trained": 541200, "num_steps_sampled": 541200, "update_time_ms": 2.685, "grad_time_ms": 374.474, "load_time_ms": 0.687}, "iterations_since_restore": 451, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 18267.067307949066, "episodes_total": 13761, "episode_reward_max": 8.000000720910354, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 18267.067307949066, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 39, "timestamp": 1757072965, "timesteps_since_restore": 542400, "episode_reward_min": -87.9518257307001, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-49-25", "episode_len_mean": 30.19, "timesteps_total": 542400, "episode_reward_mean": -41.7795645331114, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.07278275489807, "training_iteration": 452, "info": {"default": {"policy_loss": -0.1369248777627945, "vf_explained_var": 0.05742628127336502, "vf_loss": 400.28070068359375, "kl": 0.012102107517421246, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.44876480102539, "total_loss": 400.18511962890625}, "sample_time_ms": 39779.005, "num_steps_trained": 542400, "num_steps_sampled": 542400, "update_time_ms": 2.676, "grad_time_ms": 376.283, "load_time_ms": 0.688}, "iterations_since_restore": 452, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 18306.988835334778, "episodes_total": 13799, "episode_reward_max": 8.000000720910354, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 18306.988835334778, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 38, "timestamp": 1757073005, "timesteps_since_restore": 543600, "episode_reward_min": -87.9518257307001, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-50-05", "episode_len_mean": 32.02, "timesteps_total": 543600, "episode_reward_mean": -45.65199320643943, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.92152738571167, "training_iteration": 453, "info": {"default": {"policy_loss": -0.14936865866184235, "vf_explained_var": 0.019702473655343056, "vf_loss": 451.5082702636719, "kl": 0.011999650858342648, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.845096588134766, "total_loss": 451.39990234375}, "sample_time_ms": 39746.657, "num_steps_trained": 543600, "num_steps_sampled": 543600, "update_time_ms": 2.709, "grad_time_ms": 375.546, "load_time_ms": 0.662}, "iterations_since_restore": 453, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 18347.01142168045, "episodes_total": 13835, "episode_reward_max": 6.000183064401141, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 18347.01142168045, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 36, "timestamp": 1757073045, "timesteps_since_restore": 544800, "episode_reward_min": -84.38785494284748, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-50-45", "episode_len_mean": 32.26, "timesteps_total": 544800, "episode_reward_mean": -45.85714257390894, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.02258634567261, "training_iteration": 454, "info": {"default": {"policy_loss": -0.14108088612556458, "vf_explained_var": 0.041219308972358704, "vf_loss": 451.9527282714844, "kl": 0.012428334914147854, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.599133491516113, "total_loss": 451.8541259765625}, "sample_time_ms": 39760.265, "num_steps_trained": 544800, "num_steps_sampled": 544800, "update_time_ms": 2.647, "grad_time_ms": 375.947, "load_time_ms": 0.66}, "iterations_since_restore": 454, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 18387.076679944992, "episodes_total": 13880, "episode_reward_max": 8.000000399999921, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 18387.076679944992, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 45, "timestamp": 1757073085, "timesteps_since_restore": 546000, "episode_reward_min": -87.9848604482948, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-51-25", "episode_len_mean": 29.79, "timesteps_total": 546000, "episode_reward_mean": -41.482415862077566, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.065258264541626, "training_iteration": 455, "info": {"default": {"policy_loss": -0.14118832349777222, "vf_explained_var": 0.043533939868211746, "vf_loss": 456.0723876953125, "kl": 0.011088449507951736, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.993402481079102, "total_loss": 455.9690856933594}, "sample_time_ms": 39748.816, "num_steps_trained": 546000, "num_steps_sampled": 546000, "update_time_ms": 2.686, "grad_time_ms": 376.196, "load_time_ms": 0.658}, "iterations_since_restore": 455, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 18427.812530755997, "episodes_total": 13926, "episode_reward_max": 8.000000399999921, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 18427.812530755997, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 46, "timestamp": 1757073126, "timesteps_since_restore": 547200, "episode_reward_min": -87.9848604482948, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-52-06", "episode_len_mean": 27.7, "timesteps_total": 547200, "episode_reward_mean": -37.305611630285505, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.73585081100464, "training_iteration": 456, "info": {"default": {"policy_loss": -0.14026540517807007, "vf_explained_var": 0.05445794761180878, "vf_loss": 382.43536376953125, "kl": 0.011374562978744507, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.804314613342285, "total_loss": 382.3339538574219}, "sample_time_ms": 39783.663, "num_steps_trained": 547200, "num_steps_sampled": 547200, "update_time_ms": 2.675, "grad_time_ms": 376.605, "load_time_ms": 0.656}, "iterations_since_restore": 456, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 18468.709236383438, "episodes_total": 13972, "episode_reward_max": 6.001885005903932, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 18468.709236383438, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 46, "timestamp": 1757073167, "timesteps_since_restore": 548400, "episode_reward_min": -85.38166429777077, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-52-47", "episode_len_mean": 25.83, "timesteps_total": 548400, "episode_reward_mean": -33.787073042852626, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.896705627441406, "training_iteration": 457, "info": {"default": {"policy_loss": -0.16198843717575073, "vf_explained_var": 0.05376585200428963, "vf_loss": 419.08465576171875, "kl": 0.01195372361689806, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 10.907487869262695, "total_loss": 418.9635009765625}, "sample_time_ms": 39801.679, "num_steps_trained": 548400, "num_steps_sampled": 548400, "update_time_ms": 2.675, "grad_time_ms": 378.608, "load_time_ms": 0.66}, "iterations_since_restore": 457, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 18509.111557483673, "episodes_total": 14016, "episode_reward_max": 6.001885005903932, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 18509.111557483673, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 44, "timestamp": 1757073207, "timesteps_since_restore": 549600, "episode_reward_min": -86.72259721657692, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-53-27", "episode_len_mean": 26.05, "timesteps_total": 549600, "episode_reward_mean": -34.63741736988248, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.402321100234985, "training_iteration": 458, "info": {"default": {"policy_loss": -0.1418563574552536, "vf_explained_var": 0.0735655128955841, "vf_loss": 419.6730651855469, "kl": 0.012048037722706795, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.419137954711914, "total_loss": 419.5723876953125}, "sample_time_ms": 39842.386, "num_steps_trained": 549600, "num_steps_sampled": 549600, "update_time_ms": 2.688, "grad_time_ms": 379.12, "load_time_ms": 0.661}, "iterations_since_restore": 458, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 18549.837002277374, "episodes_total": 14068, "episode_reward_max": 6.0018189071307, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 18549.837002277374, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 52, "timestamp": 1757073248, "timesteps_since_restore": 550800, "episode_reward_min": -86.72259721657692, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-54-08", "episode_len_mean": 26.16, "timesteps_total": 550800, "episode_reward_mean": -34.80648170191652, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.72544479370117, "training_iteration": 459, "info": {"default": {"policy_loss": -0.1553248018026352, "vf_explained_var": 0.08095278590917587, "vf_loss": 374.5516052246094, "kl": 0.0102125508710742, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.286670684814453, "total_loss": 374.4311828613281}, "sample_time_ms": 39898.864, "num_steps_trained": 550800, "num_steps_sampled": 550800, "update_time_ms": 2.654, "grad_time_ms": 378.229, "load_time_ms": 0.677}, "iterations_since_restore": 459, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 18590.330939769745, "episodes_total": 14107, "episode_reward_max": 8.000000406800876, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 18590.330939769745, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 39, "timestamp": 1757073289, "timesteps_since_restore": 552000, "episode_reward_min": -84.25798396512603, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-54-49", "episode_len_mean": 26.62, "timesteps_total": 552000, "episode_reward_mean": -35.03467790754493, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.493937492370605, "training_iteration": 460, "info": {"default": {"policy_loss": -0.14714837074279785, "vf_explained_var": 0.02295531891286373, "vf_loss": 431.874267578125, "kl": 0.010353416204452515, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.372920989990234, "total_loss": 431.7624816894531}, "sample_time_ms": 39937.365, "num_steps_trained": 552000, "num_steps_sampled": 552000, "update_time_ms": 2.662, "grad_time_ms": 377.485, "load_time_ms": 0.677}, "iterations_since_restore": 460, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 18631.030135393143, "episodes_total": 14152, "episode_reward_max": 8.000000406800876, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 18631.030135393143, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 45, "timestamp": 1757073329, "timesteps_since_restore": 553200, "episode_reward_min": -84.55923884989072, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-55-29", "episode_len_mean": 27.89, "timesteps_total": 553200, "episode_reward_mean": -37.47773343224638, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.69919562339783, "training_iteration": 461, "info": {"default": {"policy_loss": -0.13370902836322784, "vf_explained_var": 0.08036671578884125, "vf_loss": 386.9362487792969, "kl": 0.011639775708317757, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 10.994624137878418, "total_loss": 386.84234619140625}, "sample_time_ms": 40019.534, "num_steps_trained": 553200, "num_steps_sampled": 553200, "update_time_ms": 2.641, "grad_time_ms": 375.92, "load_time_ms": 0.687}, "iterations_since_restore": 461, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 18671.089799642563, "episodes_total": 14189, "episode_reward_max": 6.00028170295032, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 18671.089799642563, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 37, "timestamp": 1757073370, "timesteps_since_restore": 554400, "episode_reward_min": -85.90988244964346, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-56-10", "episode_len_mean": 30.42, "timesteps_total": 554400, "episode_reward_mean": -42.489850060861, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.059664249420166, "training_iteration": 462, "info": {"default": {"policy_loss": -0.13833335041999817, "vf_explained_var": 0.06316374242305756, "vf_loss": 364.5459899902344, "kl": 0.013053633272647858, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.228604316711426, "total_loss": 364.4522705078125}, "sample_time_ms": 40017.159, "num_steps_trained": 554400, "num_steps_sampled": 554400, "update_time_ms": 2.658, "grad_time_ms": 376.932, "load_time_ms": 0.694}, "iterations_since_restore": 462, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 18711.30723118782, "episodes_total": 14228, "episode_reward_max": 6.00028170295032, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 18711.30723118782, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 39, "timestamp": 1757073410, "timesteps_since_restore": 555600, "episode_reward_min": -85.90988244964346, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-56-50", "episode_len_mean": 29.42, "timesteps_total": 555600, "episode_reward_mean": -40.52071274195628, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.21743154525757, "training_iteration": 463, "info": {"default": {"policy_loss": -0.1608550101518631, "vf_explained_var": 0.02813926711678505, "vf_loss": 388.0472412109375, "kl": 0.011468985117971897, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.28750228881836, "total_loss": 387.92559814453125}, "sample_time_ms": 40045.727, "num_steps_trained": 555600, "num_steps_sampled": 555600, "update_time_ms": 2.661, "grad_time_ms": 377.902, "load_time_ms": 0.694}, "iterations_since_restore": 463, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 18751.53373169899, "episodes_total": 14273, "episode_reward_max": 6.001215710424491, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 18751.53373169899, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 45, "timestamp": 1757073450, "timesteps_since_restore": 556800, "episode_reward_min": -86.00573372827022, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-57-30", "episode_len_mean": 29.18, "timesteps_total": 556800, "episode_reward_mean": -39.67211912116546, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.226500511169434, "training_iteration": 464, "info": {"default": {"policy_loss": -0.14024393260478973, "vf_explained_var": 0.074100062251091, "vf_loss": 402.9769287109375, "kl": 0.01134287565946579, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.841652870178223, "total_loss": 402.8754577636719}, "sample_time_ms": 40065.095, "num_steps_trained": 556800, "num_steps_sampled": 556800, "update_time_ms": 2.653, "grad_time_ms": 378.875, "load_time_ms": 0.695}, "iterations_since_restore": 464, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 18791.515815973282, "episodes_total": 14318, "episode_reward_max": 6.001215710424491, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 18791.515815973282, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 45, "timestamp": 1757073490, "timesteps_since_restore": 558000, "episode_reward_min": -86.00573372827022, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-58-10", "episode_len_mean": 26.9, "timesteps_total": 558000, "episode_reward_mean": -35.91680443945957, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.98208427429199, "training_iteration": 465, "info": {"default": {"policy_loss": -0.14618811011314392, "vf_explained_var": 0.05691128224134445, "vf_loss": 447.00201416015625, "kl": 0.010537318885326385, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.82432746887207, "total_loss": 446.891845703125}, "sample_time_ms": 40057.773, "num_steps_trained": 558000, "num_steps_sampled": 558000, "update_time_ms": 2.686, "grad_time_ms": 377.869, "load_time_ms": 0.701}, "iterations_since_restore": 465, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 18832.101377010345, "episodes_total": 14366, "episode_reward_max": 6.0002708676266545, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 18832.101377010345, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 48, "timestamp": 1757073531, "timesteps_since_restore": 559200, "episode_reward_min": -85.72341422265019, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-58-51", "episode_len_mean": 24.98, "timesteps_total": 559200, "episode_reward_mean": -32.57445408042741, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.5855610370636, "training_iteration": 466, "info": {"default": {"policy_loss": -0.14474135637283325, "vf_explained_var": 0.042072124779224396, "vf_loss": 371.47711181640625, "kl": 0.01047457568347454, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.548108100891113, "total_loss": 371.3681640625}, "sample_time_ms": 40043.876, "num_steps_trained": 559200, "num_steps_sampled": 559200, "update_time_ms": 2.65, "grad_time_ms": 376.749, "load_time_ms": 0.7}, "iterations_since_restore": 466, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 18872.973856925964, "episodes_total": 14411, "episode_reward_max": 6.0002708676266545, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 18872.973856925964, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 45, "timestamp": 1757073571, "timesteps_since_restore": 560400, "episode_reward_min": -85.72341422265019, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_13-59-31", "episode_len_mean": 25.43, "timesteps_total": 560400, "episode_reward_mean": -33.253151959381356, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.8724799156189, "training_iteration": 467, "info": {"default": {"policy_loss": -0.13882534205913544, "vf_explained_var": 0.051391005516052246, "vf_loss": 402.6205749511719, "kl": 0.021764256060123444, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.417187452316284, "entropy": 11.091532707214355, "total_loss": 402.55615234375}, "sample_time_ms": 40040.275, "num_steps_trained": 560400, "num_steps_sampled": 560400, "update_time_ms": 2.673, "grad_time_ms": 377.857, "load_time_ms": 0.708}, "iterations_since_restore": 467, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 18912.885851621628, "episodes_total": 14449, "episode_reward_max": 6.000263189591795, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 18912.885851621628, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 38, "timestamp": 1757073611, "timesteps_since_restore": 561600, "episode_reward_min": -86.48387632039147, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-00-11", "episode_len_mean": 28.34, "timesteps_total": 561600, "episode_reward_mean": -38.089960185737944, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.91199469566345, "training_iteration": 468, "info": {"default": {"policy_loss": -0.1470736265182495, "vf_explained_var": 0.051614683121442795, "vf_loss": 368.1771240234375, "kl": 0.009564902633428574, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.77449893951416, "total_loss": 368.0790710449219}, "sample_time_ms": 39993.074, "num_steps_trained": 561600, "num_steps_sampled": 561600, "update_time_ms": 2.656, "grad_time_ms": 376.074, "load_time_ms": 0.71}, "iterations_since_restore": 468, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 18954.41187429428, "episodes_total": 14489, "episode_reward_max": 6.000330157639016, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 18954.41187429428, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 40, "timestamp": 1757073653, "timesteps_since_restore": 562800, "episode_reward_min": -86.48387632039147, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-00-53", "episode_len_mean": 29.74, "timesteps_total": 562800, "episode_reward_mean": -40.61999425521888, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.5260226726532, "training_iteration": 469, "info": {"default": {"policy_loss": -0.1133328378200531, "vf_explained_var": 0.05106322094798088, "vf_loss": 409.123046875, "kl": 0.013404837809503078, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.580524444580078, "total_loss": 409.07843017578125}, "sample_time_ms": 40073.971, "num_steps_trained": 562800, "num_steps_sampled": 562800, "update_time_ms": 2.683, "grad_time_ms": 375.314, "load_time_ms": 0.697}, "iterations_since_restore": 469, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 18995.165065288544, "episodes_total": 14528, "episode_reward_max": 6.000330157639016, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 18995.165065288544, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 39, "timestamp": 1757073694, "timesteps_since_restore": 564000, "episode_reward_min": -87.68574020302658, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-01-34", "episode_len_mean": 30.75, "timesteps_total": 564000, "episode_reward_mean": -42.730106431035146, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.753190994262695, "training_iteration": 470, "info": {"default": {"policy_loss": -0.1404610276222229, "vf_explained_var": 0.025197884067893028, "vf_loss": 406.927734375, "kl": 0.008836949244141579, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.501471519470215, "total_loss": 406.83258056640625}, "sample_time_ms": 40097.912, "num_steps_trained": 564000, "num_steps_sampled": 564000, "update_time_ms": 2.698, "grad_time_ms": 377.306, "load_time_ms": 0.706}, "iterations_since_restore": 470, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 19035.351962804794, "episodes_total": 14565, "episode_reward_max": 6.000330157639016, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 19035.351962804794, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 37, "timestamp": 1757073734, "timesteps_since_restore": 565200, "episode_reward_min": -87.68574020302658, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-02-14", "episode_len_mean": 31.42, "timesteps_total": 565200, "episode_reward_mean": -44.11522226122381, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.18689751625061, "training_iteration": 471, "info": {"default": {"policy_loss": -0.1271800398826599, "vf_explained_var": 0.07023068517446518, "vf_loss": 366.5309143066406, "kl": 0.009476087056100368, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 12.057921409606934, "total_loss": 366.4522705078125}, "sample_time_ms": 40046.914, "num_steps_trained": 565200, "num_steps_sampled": 565200, "update_time_ms": 2.68, "grad_time_ms": 377.048, "load_time_ms": 0.696}, "iterations_since_restore": 471, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 19076.829730033875, "episodes_total": 14612, "episode_reward_max": 6.00029609763547, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 19076.829730033875, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 47, "timestamp": 1757073775, "timesteps_since_restore": 566400, "episode_reward_min": -87.68574020302658, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-02-55", "episode_len_mean": 28.46, "timesteps_total": 566400, "episode_reward_mean": -38.35253969327313, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.4777672290802, "training_iteration": 472, "info": {"default": {"policy_loss": -0.135822594165802, "vf_explained_var": 0.04342261329293251, "vf_loss": 418.2840576171875, "kl": 0.00927821546792984, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.628094673156738, "total_loss": 418.19573974609375}, "sample_time_ms": 40191.768, "num_steps_trained": 566400, "num_steps_sampled": 566400, "update_time_ms": 2.713, "grad_time_ms": 374.046, "load_time_ms": 0.688}, "iterations_since_restore": 472, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 19118.448140621185, "episodes_total": 14654, "episode_reward_max": 6.000205416315571, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 19118.448140621185, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 42, "timestamp": 1757073817, "timesteps_since_restore": 567600, "episode_reward_min": -84.44140272814614, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-03-37", "episode_len_mean": 27.3, "timesteps_total": 567600, "episode_reward_mean": -36.18164253263471, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.61841058731079, "training_iteration": 473, "info": {"default": {"policy_loss": -0.14508450031280518, "vf_explained_var": 0.06904073804616928, "vf_loss": 332.7969970703125, "kl": 0.00832900870591402, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.383365631103516, "total_loss": 332.6946105957031}, "sample_time_ms": 40333.038, "num_steps_trained": 567600, "num_steps_sampled": 567600, "update_time_ms": 2.691, "grad_time_ms": 372.932, "load_time_ms": 0.693}, "iterations_since_restore": 473, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 19158.60071516037, "episodes_total": 14690, "episode_reward_max": 8.000000399999923, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 19158.60071516037, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 36, "timestamp": 1757073857, "timesteps_since_restore": 568800, "episode_reward_min": -85.86883539299993, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-04-17", "episode_len_mean": 29.46, "timesteps_total": 568800, "episode_reward_mean": -40.89107023233606, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.15257453918457, "training_iteration": 474, "info": {"default": {"policy_loss": -0.1453206092119217, "vf_explained_var": 0.026633374392986298, "vf_loss": 427.6784973144531, "kl": 0.007988857105374336, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.822014808654785, "total_loss": 427.5740966796875}, "sample_time_ms": 40328.649, "num_steps_trained": 568800, "num_steps_sampled": 568800, "update_time_ms": 2.669, "grad_time_ms": 370.025, "load_time_ms": 0.687}, "iterations_since_restore": 474, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 19199.04459643364, "episodes_total": 14734, "episode_reward_max": 8.00000040026028, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 19199.04459643364, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 44, "timestamp": 1757073898, "timesteps_since_restore": 570000, "episode_reward_min": -85.86883539299993, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-04-58", "episode_len_mean": 29.11, "timesteps_total": 570000, "episode_reward_mean": -40.34431294035839, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.44388127326965, "training_iteration": 475, "info": {"default": {"policy_loss": -0.1316046118736267, "vf_explained_var": 0.038905270397663116, "vf_loss": 409.22747802734375, "kl": 0.008960063569247723, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.353145599365234, "total_loss": 409.1418151855469}, "sample_time_ms": 40375.482, "num_steps_trained": 570000, "num_steps_sampled": 570000, "update_time_ms": 2.666, "grad_time_ms": 369.383, "load_time_ms": 0.682}, "iterations_since_restore": 475, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 19238.905192136765, "episodes_total": 14774, "episode_reward_max": 8.00000040026028, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 19238.905192136765, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 40, "timestamp": 1757073938, "timesteps_since_restore": 571200, "episode_reward_min": -86.49588195930573, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-05-38", "episode_len_mean": 29.2, "timesteps_total": 571200, "episode_reward_mean": -40.8379785901414, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.860595703125, "training_iteration": 476, "info": {"default": {"policy_loss": -0.13624094426631927, "vf_explained_var": 0.039990730583667755, "vf_loss": 446.55230712890625, "kl": 0.008097508922219276, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.205245971679688, "total_loss": 446.45758056640625}, "sample_time_ms": 40303.017, "num_steps_trained": 571200, "num_steps_sampled": 571200, "update_time_ms": 2.665, "grad_time_ms": 369.394, "load_time_ms": 0.677}, "iterations_since_restore": 476, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 19280.14359641075, "episodes_total": 14817, "episode_reward_max": 6.000006684066341, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 19280.14359641075, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 43, "timestamp": 1757073979, "timesteps_since_restore": 572400, "episode_reward_min": -86.49588195930573, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-06-19", "episode_len_mean": 27.58, "timesteps_total": 572400, "episode_reward_mean": -37.97827664151283, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.238404273986816, "training_iteration": 477, "info": {"default": {"policy_loss": -0.15009956061840057, "vf_explained_var": 0.0688643679022789, "vf_loss": 412.14984130859375, "kl": 0.00871109589934349, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.49582290649414, "total_loss": 412.04437255859375}, "sample_time_ms": 40339.907, "num_steps_trained": 572400, "num_steps_sampled": 572400, "update_time_ms": 2.653, "grad_time_ms": 369.109, "load_time_ms": 0.682}, "iterations_since_restore": 477, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 19320.486986398697, "episodes_total": 14863, "episode_reward_max": 6.000003061174089, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 19320.486986398697, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 46, "timestamp": 1757074019, "timesteps_since_restore": 573600, "episode_reward_min": -85.93265820773959, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-06-59", "episode_len_mean": 27.05, "timesteps_total": 573600, "episode_reward_mean": -36.19932521346862, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.34338998794556, "training_iteration": 478, "info": {"default": {"policy_loss": -0.1474398672580719, "vf_explained_var": 0.0201362706720829, "vf_loss": 429.0976257324219, "kl": 0.010089886374771595, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.152118682861328, "total_loss": 429.00189208984375}, "sample_time_ms": 40380.211, "num_steps_trained": 573600, "num_steps_sampled": 573600, "update_time_ms": 2.653, "grad_time_ms": 371.846, "load_time_ms": 0.694}, "iterations_since_restore": 478, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 19360.299200057983, "episodes_total": 14903, "episode_reward_max": 6.00000080022547, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 19360.299200057983, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 40, "timestamp": 1757074059, "timesteps_since_restore": 574800, "episode_reward_min": -83.96728727718984, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-07-39", "episode_len_mean": 27.86, "timesteps_total": 574800, "episode_reward_mean": -37.217729252123625, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.8122136592865, "training_iteration": 479, "info": {"default": {"policy_loss": -0.13799458742141724, "vf_explained_var": 0.03381790220737457, "vf_loss": 389.9368896484375, "kl": 0.00870587769895792, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.76505184173584, "total_loss": 389.8434753417969}, "sample_time_ms": 40207.778, "num_steps_trained": 574800, "num_steps_sampled": 574800, "update_time_ms": 2.661, "grad_time_ms": 372.892, "load_time_ms": 0.693}, "iterations_since_restore": 479, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 19400.15020799637, "episodes_total": 14944, "episode_reward_max": 6.00000080022547, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 19400.15020799637, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 41, "timestamp": 1757074099, "timesteps_since_restore": 576000, "episode_reward_min": -84.84666406802512, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-08-19", "episode_len_mean": 29.08, "timesteps_total": 576000, "episode_reward_mean": -39.20986757144139, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.85100793838501, "training_iteration": 480, "info": {"default": {"policy_loss": -0.12356540560722351, "vf_explained_var": 0.06605365127325058, "vf_loss": 385.758056640625, "kl": 0.008136761374771595, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.270547866821289, "total_loss": 385.67620849609375}, "sample_time_ms": 40118.38, "num_steps_trained": 576000, "num_steps_sampled": 576000, "update_time_ms": 2.643, "grad_time_ms": 372.119, "load_time_ms": 0.686}, "iterations_since_restore": 480, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 19440.472989797592, "episodes_total": 14987, "episode_reward_max": 8.000000856080817, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 19440.472989797592, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 43, "timestamp": 1757074139, "timesteps_since_restore": 577200, "episode_reward_min": -85.51626107768833, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-08-59", "episode_len_mean": 29.03, "timesteps_total": 577200, "episode_reward_mean": -39.31927954684911, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.322781801223755, "training_iteration": 481, "info": {"default": {"policy_loss": -0.13993734121322632, "vf_explained_var": 0.0522208996117115, "vf_loss": 388.57171630859375, "kl": 0.009136579930782318, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.042160034179688, "total_loss": 388.4786376953125}, "sample_time_ms": 40129.507, "num_steps_trained": 577200, "num_steps_sampled": 577200, "update_time_ms": 2.636, "grad_time_ms": 374.576, "load_time_ms": 0.696}, "iterations_since_restore": 481, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 19480.782344341278, "episodes_total": 15033, "episode_reward_max": 8.000000856080817, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 19480.782344341278, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 46, "timestamp": 1757074180, "timesteps_since_restore": 578400, "episode_reward_min": -85.51626107768833, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-09-40", "episode_len_mean": 28.22, "timesteps_total": 578400, "episode_reward_mean": -37.918530157963616, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.30935454368591, "training_iteration": 482, "info": {"default": {"policy_loss": -0.13140040636062622, "vf_explained_var": 0.05975968390703201, "vf_loss": 366.9881896972656, "kl": 0.011623014695942402, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.206708908081055, "total_loss": 366.9164123535156}, "sample_time_ms": 40012.039, "num_steps_trained": 578400, "num_steps_sampled": 578400, "update_time_ms": 2.59, "grad_time_ms": 375.215, "load_time_ms": 0.694}, "iterations_since_restore": 482, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 19521.82445693016, "episodes_total": 15079, "episode_reward_max": 6.007868957991209, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 19521.82445693016, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 46, "timestamp": 1757074221, "timesteps_since_restore": 579600, "episode_reward_min": -86.56821000453482, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-10-21", "episode_len_mean": 26.71, "timesteps_total": 579600, "episode_reward_mean": -35.19532751720853, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.042112588882446, "training_iteration": 483, "info": {"default": {"policy_loss": -0.12961743772029877, "vf_explained_var": 0.06560972332954407, "vf_loss": 392.657470703125, "kl": 0.007930352352559566, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.215200424194336, "total_loss": 392.56854248046875}, "sample_time_ms": 39952.406, "num_steps_trained": 579600, "num_steps_sampled": 579600, "update_time_ms": 2.621, "grad_time_ms": 377.139, "load_time_ms": 0.709}, "iterations_since_restore": 483, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 19562.021493434906, "episodes_total": 15121, "episode_reward_max": 6.007868957991209, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 19562.021493434906, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 42, "timestamp": 1757074261, "timesteps_since_restore": 580800, "episode_reward_min": -86.56821000453482, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-11-01", "episode_len_mean": 26.86, "timesteps_total": 580800, "episode_reward_mean": -35.678367683918076, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.19703650474548, "training_iteration": 484, "info": {"default": {"policy_loss": -0.13533467054367065, "vf_explained_var": 0.021488573402166367, "vf_loss": 424.95184326171875, "kl": 0.008983178064227104, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.357115745544434, "total_loss": 424.862548828125}, "sample_time_ms": 39954.365, "num_steps_trained": 580800, "num_steps_sampled": 580800, "update_time_ms": 2.645, "grad_time_ms": 379.564, "load_time_ms": 0.722}, "iterations_since_restore": 484, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 19602.85190844536, "episodes_total": 15163, "episode_reward_max": 8.000000450767232, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 19602.85190844536, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 42, "timestamp": 1757074302, "timesteps_since_restore": 582000, "episode_reward_min": -86.56821000453482, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-11-42", "episode_len_mean": 28.41, "timesteps_total": 582000, "episode_reward_mean": -38.50840649765245, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.83041501045227, "training_iteration": 485, "info": {"default": {"policy_loss": -0.13413198292255402, "vf_explained_var": 0.07407203316688538, "vf_loss": 400.2831726074219, "kl": 0.009754030965268612, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.139392852783203, "total_loss": 400.19903564453125}, "sample_time_ms": 39993.908, "num_steps_trained": 582000, "num_steps_sampled": 582000, "update_time_ms": 2.605, "grad_time_ms": 378.718, "load_time_ms": 0.722}, "iterations_since_restore": 485, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 19642.597537994385, "episodes_total": 15202, "episode_reward_max": 8.000000450767232, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 19642.597537994385, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 39, "timestamp": 1757074342, "timesteps_since_restore": 583200, "episode_reward_min": -84.83661303424887, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-12-22", "episode_len_mean": 29.56, "timesteps_total": 583200, "episode_reward_mean": -40.704943876083576, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.74562954902649, "training_iteration": 486, "info": {"default": {"policy_loss": -0.135633647441864, "vf_explained_var": 0.05097449570894241, "vf_loss": 412.6719055175781, "kl": 0.009453835897147655, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.58437442779541, "total_loss": 412.584716796875}, "sample_time_ms": 39984.248, "num_steps_trained": 583200, "num_steps_sampled": 583200, "update_time_ms": 2.623, "grad_time_ms": 376.931, "load_time_ms": 0.72}, "iterations_since_restore": 486, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 19682.6784055233, "episodes_total": 15241, "episode_reward_max": 8.00000057017401, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 19682.6784055233, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 39, "timestamp": 1757074382, "timesteps_since_restore": 584400, "episode_reward_min": -84.83661303424887, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-13-02", "episode_len_mean": 29.88, "timesteps_total": 584400, "episode_reward_mean": -41.244778510973646, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.080867528915405, "training_iteration": 487, "info": {"default": {"policy_loss": -0.13591095805168152, "vf_explained_var": 0.03214268013834953, "vf_loss": 441.61163330078125, "kl": 0.008663066662847996, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.278545379638672, "total_loss": 441.5201416015625}, "sample_time_ms": 39870.671, "num_steps_trained": 584400, "num_steps_sampled": 584400, "update_time_ms": 2.574, "grad_time_ms": 374.829, "load_time_ms": 0.707}, "iterations_since_restore": 487, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 19722.73556947708, "episodes_total": 15280, "episode_reward_max": 8.00000057017401, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 19722.73556947708, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 39, "timestamp": 1757074422, "timesteps_since_restore": 585600, "episode_reward_min": -84.83661303424887, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-13-42", "episode_len_mean": 31.12, "timesteps_total": 585600, "episode_reward_mean": -43.174967491533955, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.05716395378113, "training_iteration": 488, "info": {"default": {"policy_loss": -0.1440454125404358, "vf_explained_var": 0.05268540605902672, "vf_loss": 391.8543395996094, "kl": 0.008033167570829391, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.378503799438477, "total_loss": 391.75146484375}, "sample_time_ms": 39842.716, "num_steps_trained": 585600, "num_steps_sampled": 585600, "update_time_ms": 2.565, "grad_time_ms": 374.238, "load_time_ms": 0.704}, "iterations_since_restore": 488, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 19763.327416419983, "episodes_total": 15324, "episode_reward_max": 6.000411222599199, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 19763.327416419983, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 44, "timestamp": 1757074462, "timesteps_since_restore": 586800, "episode_reward_min": -85.63979802518773, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-14-22", "episode_len_mean": 29.54, "timesteps_total": 586800, "episode_reward_mean": -39.71868278130851, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.59184694290161, "training_iteration": 489, "info": {"default": {"policy_loss": -0.13643653690814972, "vf_explained_var": 0.03180749714374542, "vf_loss": 408.7061462402344, "kl": 0.008405119180679321, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.735774993896484, "total_loss": 408.61279296875}, "sample_time_ms": 39921.733, "num_steps_trained": 586800, "num_steps_sampled": 586800, "update_time_ms": 2.571, "grad_time_ms": 373.202, "load_time_ms": 0.701}, "iterations_since_restore": 489, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 19803.04034948349, "episodes_total": 15360, "episode_reward_max": 8.000000400091483, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 19803.04034948349, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 36, "timestamp": 1757074502, "timesteps_since_restore": 588000, "episode_reward_min": -85.63979802518773, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-15-02", "episode_len_mean": 30.16, "timesteps_total": 588000, "episode_reward_mean": -41.396943969782285, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.71293306350708, "training_iteration": 490, "info": {"default": {"policy_loss": -0.13636527955532074, "vf_explained_var": 0.022644314914941788, "vf_loss": 420.68121337890625, "kl": 0.008688322268426418, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.620092391967773, "total_loss": 420.5893859863281}, "sample_time_ms": 39910.072, "num_steps_trained": 588000, "num_steps_sampled": 588000, "update_time_ms": 2.578, "grad_time_ms": 371.035, "load_time_ms": 0.698}, "iterations_since_restore": 490, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 19842.377539634705, "episodes_total": 15395, "episode_reward_max": 8.000000400091483, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 19842.377539634705, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 35, "timestamp": 1757074541, "timesteps_since_restore": 589200, "episode_reward_min": -85.59402990327763, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-15-41", "episode_len_mean": 32.28, "timesteps_total": 589200, "episode_reward_mean": -46.18148320570909, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.3371901512146, "training_iteration": 491, "info": {"default": {"policy_loss": -0.1396397054195404, "vf_explained_var": 0.02550547569990158, "vf_loss": 377.8067932128906, "kl": 0.008262661285698414, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.705838203430176, "total_loss": 377.7095031738281}, "sample_time_ms": 39814.82, "num_steps_trained": 589200, "num_steps_sampled": 589200, "update_time_ms": 2.57, "grad_time_ms": 367.783, "load_time_ms": 0.686}, "iterations_since_restore": 491, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 19883.048528671265, "episodes_total": 15439, "episode_reward_max": 6.00021856272285, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 19883.048528671265, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 44, "timestamp": 1757074582, "timesteps_since_restore": 590400, "episode_reward_min": -86.6814636139849, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-16-22", "episode_len_mean": 31.41, "timesteps_total": 590400, "episode_reward_mean": -44.51757226361028, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.67098903656006, "training_iteration": 492, "info": {"default": {"policy_loss": -0.13649925589561462, "vf_explained_var": 0.022886481136083603, "vf_loss": 422.7644348144531, "kl": 0.008668001741170883, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.687355041503906, "total_loss": 422.6723327636719}, "sample_time_ms": 39851.605, "num_steps_trained": 590400, "num_steps_sampled": 590400, "update_time_ms": 2.585, "grad_time_ms": 367.193, "load_time_ms": 0.682}, "iterations_since_restore": 492, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 19923.076580286026, "episodes_total": 15485, "episode_reward_max": 8.000000458081152, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 19923.076580286026, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 46, "timestamp": 1757074622, "timesteps_since_restore": 591600, "episode_reward_min": -86.6814636139849, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-17-02", "episode_len_mean": 27.82, "timesteps_total": 591600, "episode_reward_mean": -37.77943244842079, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.02805161476135, "training_iteration": 493, "info": {"default": {"policy_loss": -0.1339786797761917, "vf_explained_var": 0.08579594641923904, "vf_loss": 409.22735595703125, "kl": 0.0083905765786767, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.192777633666992, "total_loss": 409.1363525390625}, "sample_time_ms": 39749.428, "num_steps_trained": 591600, "num_steps_sampled": 591600, "update_time_ms": 2.543, "grad_time_ms": 368.027, "load_time_ms": 0.677}, "iterations_since_restore": 493, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 19963.19856619835, "episodes_total": 15531, "episode_reward_max": 8.000000458081152, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 19963.19856619835, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 46, "timestamp": 1757074662, "timesteps_since_restore": 592800, "episode_reward_min": -85.8397768368899, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-17-42", "episode_len_mean": 26.24, "timesteps_total": 592800, "episode_reward_mean": -34.69008628497195, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.121985912323, "training_iteration": 494, "info": {"default": {"policy_loss": -0.14067532122135162, "vf_explained_var": 0.034751713275909424, "vf_loss": 391.3916015625, "kl": 0.008091585710644722, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.218029975891113, "total_loss": 391.2923889160156}, "sample_time_ms": 39744.278, "num_steps_trained": 592800, "num_steps_sampled": 592800, "update_time_ms": 2.514, "grad_time_ms": 365.691, "load_time_ms": 0.665}, "iterations_since_restore": 494, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 20005.221843242645, "episodes_total": 15573, "episode_reward_max": 8.00000919712825, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 20005.221843242645, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 42, "timestamp": 1757074704, "timesteps_since_restore": 594000, "episode_reward_min": -85.8397768368899, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-18-24", "episode_len_mean": 26.63, "timesteps_total": 594000, "episode_reward_mean": -35.37623874255124, "num_metric_batches_dropped": 0, "time_this_iter_s": 42.023277044296265, "training_iteration": 495, "info": {"default": {"policy_loss": -0.13224057853221893, "vf_explained_var": 0.02846728451550007, "vf_loss": 382.88555908203125, "kl": 0.009056363254785538, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.894048690795898, "total_loss": 382.7996826171875}, "sample_time_ms": 39863.566, "num_steps_trained": 594000, "num_steps_sampled": 594000, "update_time_ms": 2.497, "grad_time_ms": 365.714, "load_time_ms": 0.662}, "iterations_since_restore": 495, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 20045.239953041077, "episodes_total": 15615, "episode_reward_max": 8.00000919712825, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 20045.239953041077, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 42, "timestamp": 1757074744, "timesteps_since_restore": 595200, "episode_reward_min": -84.91062227352776, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-19-04", "episode_len_mean": 27.86, "timesteps_total": 595200, "episode_reward_mean": -37.5151541852313, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.0181097984314, "training_iteration": 496, "info": {"default": {"policy_loss": -0.13735663890838623, "vf_explained_var": 0.022735271602869034, "vf_loss": 406.64739990234375, "kl": 0.008234377019107342, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.736675262451172, "total_loss": 406.5522766113281}, "sample_time_ms": 39889.432, "num_steps_trained": 595200, "num_steps_sampled": 595200, "update_time_ms": 2.495, "grad_time_ms": 367.014, "load_time_ms": 0.668}, "iterations_since_restore": 496, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 20087.154738664627, "episodes_total": 15659, "episode_reward_max": 8.00000049319098, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 20087.154738664627, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 44, "timestamp": 1757074786, "timesteps_since_restore": 596400, "episode_reward_min": -84.91062227352776, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-19-46", "episode_len_mean": 29.39, "timesteps_total": 596400, "episode_reward_mean": -40.65002159520589, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.914785623550415, "training_iteration": 497, "info": {"default": {"policy_loss": -0.1364763081073761, "vf_explained_var": 0.033597905188798904, "vf_loss": 400.003173828125, "kl": 0.009791169315576553, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.160492897033691, "total_loss": 399.9168701171875}, "sample_time_ms": 40072.694, "num_steps_trained": 596400, "num_steps_sampled": 596400, "update_time_ms": 2.531, "grad_time_ms": 367.017, "load_time_ms": 0.66}, "iterations_since_restore": 497, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 20128.639589071274, "episodes_total": 15709, "episode_reward_max": 6.000110804001552, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 20128.639589071274, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 50, "timestamp": 1757074828, "timesteps_since_restore": 597600, "episode_reward_min": -85.96366428401674, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-20-28", "episode_len_mean": 25.44, "timesteps_total": 597600, "episode_reward_mean": -33.07730120287409, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.48485040664673, "training_iteration": 498, "info": {"default": {"policy_loss": -0.15000402927398682, "vf_explained_var": 0.08519372344017029, "vf_loss": 333.36865234375, "kl": 0.00850367359817028, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.4818696975708, "total_loss": 333.26226806640625}, "sample_time_ms": 40215.502, "num_steps_trained": 597600, "num_steps_sampled": 597600, "update_time_ms": 2.561, "grad_time_ms": 366.938, "load_time_ms": 0.656}, "iterations_since_restore": 498, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 20169.56983447075, "episodes_total": 15752, "episode_reward_max": 6.000000801228012, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 20169.56983447075, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 43, "timestamp": 1757074869, "timesteps_since_restore": 598800, "episode_reward_min": -85.96366428401674, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-21-09", "episode_len_mean": 25.98, "timesteps_total": 598800, "episode_reward_mean": -34.33844141378779, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.9302453994751, "training_iteration": 499, "info": {"default": {"policy_loss": -0.13960006833076477, "vf_explained_var": 0.029672257602214813, "vf_loss": 434.6817626953125, "kl": 0.008272922597825527, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.714367866516113, "total_loss": 434.5845947265625}, "sample_time_ms": 40249.556, "num_steps_trained": 598800, "num_steps_sampled": 598800, "update_time_ms": 2.526, "grad_time_ms": 366.687, "load_time_ms": 0.662}, "iterations_since_restore": 499, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 20210.086619853973, "episodes_total": 15802, "episode_reward_max": 8.000000415842072, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 20210.086619853973, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 50, "timestamp": 1757074909, "timesteps_since_restore": 600000, "episode_reward_min": -85.96366428401674, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-21-49", "episode_len_mean": 25.98, "timesteps_total": 600000, "episode_reward_mean": -34.44519620225107, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.51678538322449, "training_iteration": 500, "info": {"default": {"policy_loss": -0.13866376876831055, "vf_explained_var": 0.04569260776042938, "vf_loss": 411.08221435546875, "kl": 0.008157772943377495, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.13154125213623, "total_loss": 410.9853515625}, "sample_time_ms": 40327.356, "num_steps_trained": 600000, "num_steps_sampled": 600000, "update_time_ms": 2.538, "grad_time_ms": 369.161, "load_time_ms": 0.664}, "iterations_since_restore": 500, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 20251.432945013046, "episodes_total": 15847, "episode_reward_max": 8.000000415842072, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 20251.432945013046, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 45, "timestamp": 1757074951, "timesteps_since_restore": 601200, "episode_reward_min": -86.55434044024814, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-22-31", "episode_len_mean": 24.86, "timesteps_total": 601200, "episode_reward_mean": -32.15135675357966, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.346325159072876, "training_iteration": 501, "info": {"default": {"policy_loss": -0.13715995848178864, "vf_explained_var": 0.05047551915049553, "vf_loss": 439.5118408203125, "kl": 0.008018026128411293, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.142935752868652, "total_loss": 439.415771484375}, "sample_time_ms": 40528.084, "num_steps_trained": 601200, "num_steps_sampled": 601200, "update_time_ms": 2.651, "grad_time_ms": 369.254, "load_time_ms": 0.663}, "iterations_since_restore": 501, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 20291.64357972145, "episodes_total": 15893, "episode_reward_max": 6.000056159234353, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 20291.64357972145, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 46, "timestamp": 1757074991, "timesteps_since_restore": 602400, "episode_reward_min": -86.55434044024814, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-23-11", "episode_len_mean": 26.44, "timesteps_total": 602400, "episode_reward_mean": -34.82393996981157, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.21063470840454, "training_iteration": 502, "info": {"default": {"policy_loss": -0.13726426661014557, "vf_explained_var": 0.062313273549079895, "vf_loss": 370.9449462890625, "kl": 0.008352917619049549, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.543486595153809, "total_loss": 370.8504638671875}, "sample_time_ms": 40481.424, "num_steps_trained": 602400, "num_steps_sampled": 602400, "update_time_ms": 2.651, "grad_time_ms": 369.78, "load_time_ms": 0.667}, "iterations_since_restore": 502, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 20331.586344718933, "episodes_total": 15940, "episode_reward_max": 8.000000504677478, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 20331.586344718933, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 47, "timestamp": 1757075031, "timesteps_since_restore": 603600, "episode_reward_min": -85.7094352491949, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-23-51", "episode_len_mean": 26.92, "timesteps_total": 603600, "episode_reward_mean": -35.37717998373334, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.9427649974823, "training_iteration": 503, "info": {"default": {"policy_loss": -0.12937769293785095, "vf_explained_var": 0.04175831377506256, "vf_loss": 398.95269775390625, "kl": 0.008740791119635105, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.41187858581543, "total_loss": 398.8681335449219}, "sample_time_ms": 40474.443, "num_steps_trained": 603600, "num_steps_sampled": 603600, "update_time_ms": 2.716, "grad_time_ms": 368.202, "load_time_ms": 0.655}, "iterations_since_restore": 503, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 20371.892796754837, "episodes_total": 15983, "episode_reward_max": 8.000000504677478, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 20371.892796754837, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 43, "timestamp": 1757075071, "timesteps_since_restore": 604800, "episode_reward_min": -85.7161709855374, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-24-31", "episode_len_mean": 25.67, "timesteps_total": 604800, "episode_reward_mean": -33.77523133799502, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.30645203590393, "training_iteration": 504, "info": {"default": {"policy_loss": -0.14479316771030426, "vf_explained_var": 0.04283551499247551, "vf_loss": 436.3804626464844, "kl": 0.009312372654676437, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.954126358032227, "total_loss": 436.2833557128906}, "sample_time_ms": 40493.168, "num_steps_trained": 604800, "num_steps_sampled": 604800, "update_time_ms": 2.73, "grad_time_ms": 367.959, "load_time_ms": 0.65}, "iterations_since_restore": 504, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 20412.24222302437, "episodes_total": 16031, "episode_reward_max": 6.000446129896809, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 20412.24222302437, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 48, "timestamp": 1757075112, "timesteps_since_restore": 606000, "episode_reward_min": -85.7161709855374, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-25-12", "episode_len_mean": 26.09, "timesteps_total": 606000, "episode_reward_mean": -34.77045184651758, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.34942626953125, "training_iteration": 505, "info": {"default": {"policy_loss": -0.1371482014656067, "vf_explained_var": 0.054061904549598694, "vf_loss": 385.3546447753906, "kl": 0.008608591742813587, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.279407501220703, "total_loss": 385.2615966796875}, "sample_time_ms": 40323.479, "num_steps_trained": 606000, "num_steps_sampled": 606000, "update_time_ms": 2.717, "grad_time_ms": 370.245, "load_time_ms": 0.647}, "iterations_since_restore": 505, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 20452.28269290924, "episodes_total": 16071, "episode_reward_max": 6.000473090570243, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 20452.28269290924, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 40, "timestamp": 1757075152, "timesteps_since_restore": 607200, "episode_reward_min": -85.7161709855374, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-25-52", "episode_len_mean": 28.31, "timesteps_total": 607200, "episode_reward_mean": -38.343585752033356, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.04046988487244, "training_iteration": 506, "info": {"default": {"policy_loss": -0.12930390238761902, "vf_explained_var": 0.03460746258497238, "vf_loss": 408.0931396484375, "kl": 0.010008606128394604, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.565309524536133, "total_loss": 408.0151672363281}, "sample_time_ms": 40324.19, "num_steps_trained": 607200, "num_steps_sampled": 607200, "update_time_ms": 2.771, "grad_time_ms": 371.738, "load_time_ms": 0.656}, "iterations_since_restore": 506, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 20492.717314958572, "episodes_total": 16117, "episode_reward_max": 6.000553213117561, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 20492.717314958572, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 46, "timestamp": 1757075192, "timesteps_since_restore": 608400, "episode_reward_min": -85.03848986896722, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-26-32", "episode_len_mean": 28.33, "timesteps_total": 608400, "episode_reward_mean": -38.41007932821057, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.434622049331665, "training_iteration": 507, "info": {"default": {"policy_loss": -0.14186421036720276, "vf_explained_var": 0.030819382518529892, "vf_loss": 412.6253662109375, "kl": 0.010083728469908237, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.005504608154297, "total_loss": 412.5352478027344}, "sample_time_ms": 40174.714, "num_steps_trained": 608400, "num_steps_sampled": 608400, "update_time_ms": 2.8, "grad_time_ms": 373.193, "load_time_ms": 0.669}, "iterations_since_restore": 507, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 20532.833205223083, "episodes_total": 16157, "episode_reward_max": 6.000553213117561, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 20532.833205223083, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 40, "timestamp": 1757075232, "timesteps_since_restore": 609600, "episode_reward_min": -84.88562521386105, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-27-12", "episode_len_mean": 28.26, "timesteps_total": 609600, "episode_reward_mean": -37.928016050833016, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.11589026451111, "training_iteration": 508, "info": {"default": {"policy_loss": -0.144821435213089, "vf_explained_var": 0.07547377794981003, "vf_loss": 363.8711853027344, "kl": 0.009893114678561687, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.48221492767334, "total_loss": 363.7770690917969}, "sample_time_ms": 40039.774, "num_steps_trained": 609600, "num_steps_sampled": 609600, "update_time_ms": 2.785, "grad_time_ms": 371.25, "load_time_ms": 0.666}, "iterations_since_restore": 508, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 20573.274849653244, "episodes_total": 16199, "episode_reward_max": 6.000553213117561, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 20573.274849653244, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 42, "timestamp": 1757075273, "timesteps_since_restore": 610800, "episode_reward_min": -86.24327239548163, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-27-53", "episode_len_mean": 27.58, "timesteps_total": 610800, "episode_reward_mean": -36.680369297630975, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.44164443016052, "training_iteration": 509, "info": {"default": {"policy_loss": -0.12990336120128632, "vf_explained_var": 0.056587424129247665, "vf_loss": 404.0091247558594, "kl": 0.010135078802704811, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.534662246704102, "total_loss": 403.93115234375}, "sample_time_ms": 39992.361, "num_steps_trained": 610800, "num_steps_sampled": 610800, "update_time_ms": 2.792, "grad_time_ms": 369.865, "load_time_ms": 0.656}, "iterations_since_restore": 509, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 20613.658250808716, "episodes_total": 16248, "episode_reward_max": 6.001138177482642, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 20613.658250808716, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 49, "timestamp": 1757075313, "timesteps_since_restore": 612000, "episode_reward_min": -89.20945229266752, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-28-33", "episode_len_mean": 26.95, "timesteps_total": 612000, "episode_reward_mean": -36.127773652847715, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.3834011554718, "training_iteration": 510, "info": {"default": {"policy_loss": -0.1344398856163025, "vf_explained_var": 0.02576257847249508, "vf_loss": 472.9837341308594, "kl": 0.007735592778772116, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.802229881286621, "total_loss": 472.8889465332031}, "sample_time_ms": 39979.245, "num_steps_trained": 612000, "num_steps_sampled": 612000, "update_time_ms": 2.785, "grad_time_ms": 369.724, "load_time_ms": 0.656}, "iterations_since_restore": 510, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 20654.676233291626, "episodes_total": 16295, "episode_reward_max": 6.001138177482642, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 20654.676233291626, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 47, "timestamp": 1757075354, "timesteps_since_restore": 613200, "episode_reward_min": -89.20945229266752, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-29-14", "episode_len_mean": 25.45, "timesteps_total": 613200, "episode_reward_mean": -33.57853404915806, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.017982482910156, "training_iteration": 511, "info": {"default": {"policy_loss": -0.13745377957820892, "vf_explained_var": 0.03662867844104767, "vf_loss": 421.7291564941406, "kl": 0.008744774386286736, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.412452697753906, "total_loss": 421.6365661621094}, "sample_time_ms": 39944.77, "num_steps_trained": 613200, "num_steps_sampled": 613200, "update_time_ms": 2.67, "grad_time_ms": 371.45, "load_time_ms": 0.66}, "iterations_since_restore": 511, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 20694.886693954468, "episodes_total": 16344, "episode_reward_max": 6.000767261557777, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 20694.886693954468, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 49, "timestamp": 1757075394, "timesteps_since_restore": 614400, "episode_reward_min": -87.58867145206082, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-29-54", "episode_len_mean": 25.36, "timesteps_total": 614400, "episode_reward_mean": -33.025224515848656, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.2104606628418, "training_iteration": 512, "info": {"default": {"policy_loss": -0.1390947699546814, "vf_explained_var": 0.02490709163248539, "vf_loss": 436.81866455078125, "kl": 0.009162692353129387, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.706680297851562, "total_loss": 436.7265319824219}, "sample_time_ms": 39944.061, "num_steps_trained": 614400, "num_steps_sampled": 614400, "update_time_ms": 2.695, "grad_time_ms": 372.203, "load_time_ms": 0.662}, "iterations_since_restore": 512, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 20734.770723819733, "episodes_total": 16388, "episode_reward_max": 8.00000040060007, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 20734.770723819733, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 44, "timestamp": 1757075434, "timesteps_since_restore": 615600, "episode_reward_min": -87.23762631764686, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-30-34", "episode_len_mean": 25.78, "timesteps_total": 615600, "episode_reward_mean": -33.7752991776846, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.88402986526489, "training_iteration": 513, "info": {"default": {"policy_loss": -0.13899606466293335, "vf_explained_var": 0.029234370216727257, "vf_loss": 430.3753662109375, "kl": 0.007987022399902344, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.364107131958008, "total_loss": 430.27734375}, "sample_time_ms": 39936.933, "num_steps_trained": 615600, "num_steps_sampled": 615600, "update_time_ms": 2.63, "grad_time_ms": 373.529, "load_time_ms": 0.66}, "iterations_since_restore": 513, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 20775.466336250305, "episodes_total": 16439, "episode_reward_max": 8.00000040060007, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 20775.466336250305, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 51, "timestamp": 1757075475, "timesteps_since_restore": 616800, "episode_reward_min": -85.95267308500354, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-31-15", "episode_len_mean": 25.0, "timesteps_total": 616800, "episode_reward_mean": -32.53802783468566, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.69561243057251, "training_iteration": 514, "info": {"default": {"policy_loss": -0.13542550802230835, "vf_explained_var": 0.0527249313890934, "vf_loss": 398.5213623046875, "kl": 0.007904285565018654, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.742549896240234, "total_loss": 398.4264221191406}, "sample_time_ms": 39973.188, "num_steps_trained": 616800, "num_steps_sampled": 616800, "update_time_ms": 2.614, "grad_time_ms": 376.201, "load_time_ms": 0.669}, "iterations_since_restore": 514, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 20816.085313796997, "episodes_total": 16480, "episode_reward_max": 6.0002891595812535, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 20816.085313796997, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 41, "timestamp": 1757075516, "timesteps_since_restore": 618000, "episode_reward_min": -87.73695770280784, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-31-56", "episode_len_mean": 26.58, "timesteps_total": 618000, "episode_reward_mean": -35.17154999440189, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.618977546691895, "training_iteration": 515, "info": {"default": {"policy_loss": -0.11634601652622223, "vf_explained_var": 0.03796348348259926, "vf_loss": 406.5808410644531, "kl": 0.012498866766691208, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.313511848449707, "total_loss": 406.528564453125}, "sample_time_ms": 40002.045, "num_steps_trained": 618000, "num_steps_sampled": 618000, "update_time_ms": 2.642, "grad_time_ms": 374.292, "load_time_ms": 0.669}, "iterations_since_restore": 515, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 20856.097910165787, "episodes_total": 16519, "episode_reward_max": 6.0002891595812535, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 20856.097910165787, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 39, "timestamp": 1757075556, "timesteps_since_restore": 619200, "episode_reward_min": -87.73695770280784, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-32-36", "episode_len_mean": 26.68, "timesteps_total": 619200, "episode_reward_mean": -34.90468818918797, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.01259636878967, "training_iteration": 516, "info": {"default": {"policy_loss": -0.14631710946559906, "vf_explained_var": 0.046725690364837646, "vf_loss": 385.248291015625, "kl": 0.008873436599969864, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.728023529052734, "total_loss": 385.1474609375}, "sample_time_ms": 39999.352, "num_steps_trained": 619200, "num_steps_sampled": 619200, "update_time_ms": 2.566, "grad_time_ms": 374.262, "load_time_ms": 0.676}, "iterations_since_restore": 516, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 20896.373901605606, "episodes_total": 16557, "episode_reward_max": 8.00000041666353, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 20896.373901605606, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 38, "timestamp": 1757075596, "timesteps_since_restore": 620400, "episode_reward_min": -87.73695770280784, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-33-16", "episode_len_mean": 30.34, "timesteps_total": 620400, "episode_reward_mean": -41.09411464656112, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.275991439819336, "training_iteration": 517, "info": {"default": {"policy_loss": -0.14036914706230164, "vf_explained_var": 0.04946672171354294, "vf_loss": 381.95257568359375, "kl": 0.00764453923329711, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.40572452545166, "total_loss": 381.8514099121094}, "sample_time_ms": 39983.294, "num_steps_trained": 620400, "num_steps_sampled": 620400, "update_time_ms": 2.538, "grad_time_ms": 374.528, "load_time_ms": 0.67}, "iterations_since_restore": 517, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 20936.602957248688, "episodes_total": 16595, "episode_reward_max": 8.00000041666353, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 20936.602957248688, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 38, "timestamp": 1757075636, "timesteps_since_restore": 621600, "episode_reward_min": -85.03472126362504, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-33-56", "episode_len_mean": 30.95, "timesteps_total": 621600, "episode_reward_mean": -42.56399816656214, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.229055643081665, "training_iteration": 518, "info": {"default": {"policy_loss": -0.1325109601020813, "vf_explained_var": 0.05865969881415367, "vf_loss": 419.8251953125, "kl": 0.009333347901701927, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.205665588378906, "total_loss": 419.74053955078125}, "sample_time_ms": 39995.228, "num_steps_trained": 621600, "num_steps_sampled": 621600, "update_time_ms": 2.569, "grad_time_ms": 373.911, "load_time_ms": 0.668}, "iterations_since_restore": 518, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 20977.949631214142, "episodes_total": 16647, "episode_reward_max": 6.001026904559085, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 20977.949631214142, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 52, "timestamp": 1757075678, "timesteps_since_restore": 622800, "episode_reward_min": -85.03472126362504, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-34-38", "episode_len_mean": 27.74, "timesteps_total": 622800, "episode_reward_mean": -37.30144573992297, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.3466739654541, "training_iteration": 519, "info": {"default": {"policy_loss": -0.14595156908035278, "vf_explained_var": 0.05899224802851677, "vf_loss": 427.5881042480469, "kl": 0.009316666051745415, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.000308990478516, "total_loss": 427.48992919921875}, "sample_time_ms": 40082.817, "num_steps_trained": 622800, "num_steps_sampled": 622800, "update_time_ms": 2.572, "grad_time_ms": 376.802, "load_time_ms": 0.67}, "iterations_since_restore": 519, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 21018.741209983826, "episodes_total": 16687, "episode_reward_max": 6.1502606890742335, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 21018.741209983826, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 40, "timestamp": 1757075718, "timesteps_since_restore": 624000, "episode_reward_min": -83.79234345323351, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-35-18", "episode_len_mean": 26.13, "timesteps_total": 624000, "episode_reward_mean": -33.75889649721095, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.79157876968384, "training_iteration": 520, "info": {"default": {"policy_loss": -0.13474713265895844, "vf_explained_var": 0.042650096118450165, "vf_loss": 400.70587158203125, "kl": 0.009528085589408875, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.204262733459473, "total_loss": 400.61993408203125}, "sample_time_ms": 40123.423, "num_steps_trained": 624000, "num_steps_sampled": 624000, "update_time_ms": 2.58, "grad_time_ms": 376.981, "load_time_ms": 0.685}, "iterations_since_restore": 520, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 21059.625708818436, "episodes_total": 16729, "episode_reward_max": 8.000006940116855, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 21059.625708818436, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 42, "timestamp": 1757075759, "timesteps_since_restore": 625200, "episode_reward_min": -84.95046762506877, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-35-59", "episode_len_mean": 27.9, "timesteps_total": 625200, "episode_reward_mean": -37.07516264768049, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.884498834609985, "training_iteration": 521, "info": {"default": {"policy_loss": -0.14986549317836761, "vf_explained_var": 0.052132487297058105, "vf_loss": 400.9820556640625, "kl": 0.009289098903536797, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.440425872802734, "total_loss": 400.87982177734375}, "sample_time_ms": 40109.847, "num_steps_trained": 625200, "num_steps_sampled": 625200, "update_time_ms": 2.627, "grad_time_ms": 377.182, "load_time_ms": 0.689}, "iterations_since_restore": 521, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 21099.643179178238, "episodes_total": 16774, "episode_reward_max": 8.000006940116855, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 21099.643179178238, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 45, "timestamp": 1757075799, "timesteps_since_restore": 626400, "episode_reward_min": -84.95046762506877, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-36-39", "episode_len_mean": 28.4, "timesteps_total": 626400, "episode_reward_mean": -38.124661572304696, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.017470359802246, "training_iteration": 522, "info": {"default": {"policy_loss": -0.13491028547286987, "vf_explained_var": 0.03874285891652107, "vf_loss": 360.3059997558594, "kl": 0.010250229388475418, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.114302635192871, "total_loss": 360.2236328125}, "sample_time_ms": 40089.758, "num_steps_trained": 626400, "num_steps_sampled": 626400, "update_time_ms": 2.603, "grad_time_ms": 377.926, "load_time_ms": 0.691}, "iterations_since_restore": 522, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 21140.14783525467, "episodes_total": 16819, "episode_reward_max": 6.000108492569077, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 21140.14783525467, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 45, "timestamp": 1757075840, "timesteps_since_restore": 627600, "episode_reward_min": -85.55167431562496, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-37-20", "episode_len_mean": 27.44, "timesteps_total": 627600, "episode_reward_mean": -36.817722146684034, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.504656076431274, "training_iteration": 523, "info": {"default": {"policy_loss": -0.1401536911725998, "vf_explained_var": 0.07532059401273727, "vf_loss": 371.28155517578125, "kl": 0.009450189769268036, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.133581161499023, "total_loss": 371.1898193359375}, "sample_time_ms": 40151.926, "num_steps_trained": 627600, "num_steps_sampled": 627600, "update_time_ms": 2.642, "grad_time_ms": 377.766, "load_time_ms": 0.7}, "iterations_since_restore": 523, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 21180.93270087242, "episodes_total": 16869, "episode_reward_max": 6.000108492569077, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 21180.93270087242, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 50, "timestamp": 1757075881, "timesteps_since_restore": 628800, "episode_reward_min": -85.55167431562496, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-38-01", "episode_len_mean": 25.12, "timesteps_total": 628800, "episode_reward_mean": -32.518035974438554, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.784865617752075, "training_iteration": 524, "info": {"default": {"policy_loss": -0.13073159754276276, "vf_explained_var": 0.06419798731803894, "vf_loss": 389.27947998046875, "kl": 0.00978272594511509, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.344450950622559, "total_loss": 389.19891357421875}, "sample_time_ms": 40161.647, "num_steps_trained": 628800, "num_steps_sampled": 628800, "update_time_ms": 2.662, "grad_time_ms": 376.962, "load_time_ms": 0.703}, "iterations_since_restore": 524, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 21221.287046432495, "episodes_total": 16912, "episode_reward_max": 6.000106744409435, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 21221.287046432495, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 43, "timestamp": 1757075921, "timesteps_since_restore": 630000, "episode_reward_min": -88.32424950797878, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-38-41", "episode_len_mean": 24.36, "timesteps_total": 630000, "episode_reward_mean": -30.71452435585007, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.35434556007385, "training_iteration": 525, "info": {"default": {"policy_loss": -0.13822096586227417, "vf_explained_var": 0.060672350227832794, "vf_loss": 402.2850646972656, "kl": 0.007646983489394188, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.345197677612305, "total_loss": 402.18609619140625}, "sample_time_ms": 40134.786, "num_steps_trained": 630000, "num_steps_sampled": 630000, "update_time_ms": 2.677, "grad_time_ms": 377.352, "load_time_ms": 0.706}, "iterations_since_restore": 525, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 21261.6375143528, "episodes_total": 16953, "episode_reward_max": 6.000069448296343, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 21261.6375143528, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 41, "timestamp": 1757075961, "timesteps_since_restore": 631200, "episode_reward_min": -88.32424950797878, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-39-21", "episode_len_mean": 27.54, "timesteps_total": 631200, "episode_reward_mean": -36.497256991940915, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.350467920303345, "training_iteration": 526, "info": {"default": {"policy_loss": -0.13702529668807983, "vf_explained_var": 0.08455149829387665, "vf_loss": 374.6522521972656, "kl": 0.013061380945146084, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.237441062927246, "total_loss": 374.5821533203125}, "sample_time_ms": 40170.241, "num_steps_trained": 631200, "num_steps_sampled": 631200, "update_time_ms": 2.714, "grad_time_ms": 375.685, "load_time_ms": 0.695}, "iterations_since_restore": 526, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 21301.98109316826, "episodes_total": 17001, "episode_reward_max": 8.00000040000017, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 21301.98109316826, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 48, "timestamp": 1757076002, "timesteps_since_restore": 632400, "episode_reward_min": -83.86731366834046, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-40-02", "episode_len_mean": 27.07, "timesteps_total": 632400, "episode_reward_mean": -36.09882689192159, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.343578815460205, "training_iteration": 527, "info": {"default": {"policy_loss": -0.13472793996334076, "vf_explained_var": 0.021226312965154648, "vf_loss": 427.7275390625, "kl": 0.008923035115003586, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.301709175109863, "total_loss": 427.6385498046875}, "sample_time_ms": 40177.395, "num_steps_trained": 632400, "num_steps_sampled": 632400, "update_time_ms": 2.675, "grad_time_ms": 375.295, "load_time_ms": 0.702}, "iterations_since_restore": 527, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 21341.855898857117, "episodes_total": 17037, "episode_reward_max": 8.000000736462203, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 21341.855898857117, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 36, "timestamp": 1757076042, "timesteps_since_restore": 633600, "episode_reward_min": -83.86731366834046, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-40-42", "episode_len_mean": 29.34, "timesteps_total": 633600, "episode_reward_mean": -40.292218418516484, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.87480568885803, "training_iteration": 528, "info": {"default": {"policy_loss": -0.1266874223947525, "vf_explained_var": 0.033090751618146896, "vf_loss": 404.0589294433594, "kl": 0.009010829962790012, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.531739234924316, "total_loss": 403.9783935546875}, "sample_time_ms": 40139.585, "num_steps_trained": 633600, "num_steps_sampled": 633600, "update_time_ms": 2.673, "grad_time_ms": 377.683, "load_time_ms": 0.703}, "iterations_since_restore": 528, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 21381.955222845078, "episodes_total": 17075, "episode_reward_max": 8.000000736462203, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 21381.955222845078, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 38, "timestamp": 1757076082, "timesteps_since_restore": 634800, "episode_reward_min": -85.48003616012507, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-41-22", "episode_len_mean": 31.43, "timesteps_total": 634800, "episode_reward_mean": -43.63189967325557, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.099323987960815, "training_iteration": 529, "info": {"default": {"policy_loss": -0.13200610876083374, "vf_explained_var": 0.020573828369379044, "vf_loss": 401.2537536621094, "kl": 0.010963203385472298, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.602960586547852, "total_loss": 401.1779479980469}, "sample_time_ms": 40016.601, "num_steps_trained": 634800, "num_steps_sampled": 634800, "update_time_ms": 2.703, "grad_time_ms": 375.935, "load_time_ms": 0.704}, "iterations_since_restore": 529, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 21422.73836350441, "episodes_total": 17129, "episode_reward_max": 6.001627220016653, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 21422.73836350441, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 54, "timestamp": 1757076123, "timesteps_since_restore": 636000, "episode_reward_min": -85.77017872295086, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-42-03", "episode_len_mean": 26.12, "timesteps_total": 636000, "episode_reward_mean": -33.69174230147756, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.783140659332275, "training_iteration": 530, "info": {"default": {"policy_loss": -0.1365543156862259, "vf_explained_var": 0.031168784946203232, "vf_loss": 401.7265625, "kl": 0.008337818086147308, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.2412691116333, "total_loss": 401.6327209472656}, "sample_time_ms": 40016.005, "num_steps_trained": 636000, "num_steps_sampled": 636000, "update_time_ms": 2.679, "grad_time_ms": 375.713, "load_time_ms": 0.688}, "iterations_since_restore": 530, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 21463.041632413864, "episodes_total": 17174, "episode_reward_max": 6.001627220016653, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 21463.041632413864, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 45, "timestamp": 1757076163, "timesteps_since_restore": 637200, "episode_reward_min": -85.77017872295086, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-42-43", "episode_len_mean": 24.71, "timesteps_total": 637200, "episode_reward_mean": -31.36218618651244, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.303268909454346, "training_iteration": 531, "info": {"default": {"policy_loss": -0.1436907947063446, "vf_explained_var": 0.05263898894190788, "vf_loss": 360.8766784667969, "kl": 0.008187096565961838, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.037003517150879, "total_loss": 360.7749938964844}, "sample_time_ms": 39959.667, "num_steps_trained": 637200, "num_steps_sampled": 637200, "update_time_ms": 2.617, "grad_time_ms": 373.985, "load_time_ms": 0.682}, "iterations_since_restore": 531, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 21503.67359995842, "episodes_total": 17227, "episode_reward_max": 6.0012564541759215, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 21503.67359995842, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 53, "timestamp": 1757076204, "timesteps_since_restore": 638400, "episode_reward_min": -84.19027554823711, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-43-24", "episode_len_mean": 24.13, "timesteps_total": 638400, "episode_reward_mean": -30.011943109466447, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.631967544555664, "training_iteration": 532, "info": {"default": {"policy_loss": -0.13797849416732788, "vf_explained_var": 0.06182016804814339, "vf_loss": 334.6796875, "kl": 0.0087376544252038, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.87246322631836, "total_loss": 334.58648681640625}, "sample_time_ms": 40022.932, "num_steps_trained": 638400, "num_steps_sampled": 638400, "update_time_ms": 2.639, "grad_time_ms": 372.141, "load_time_ms": 0.674}, "iterations_since_restore": 532, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 21543.943041563034, "episodes_total": 17268, "episode_reward_max": 6.000000803274232, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 21543.943041563034, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 41, "timestamp": 1757076244, "timesteps_since_restore": 639600, "episode_reward_min": -84.19027554823711, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-44-04", "episode_len_mean": 25.5, "timesteps_total": 639600, "episode_reward_mean": -32.78777819576907, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.26944160461426, "training_iteration": 533, "info": {"default": {"policy_loss": -0.13656236231327057, "vf_explained_var": 0.03984770551323891, "vf_loss": 414.0894470214844, "kl": 0.009187940508127213, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.817279815673828, "total_loss": 414.0}, "sample_time_ms": 39999.228, "num_steps_trained": 639600, "num_steps_sampled": 639600, "update_time_ms": 2.631, "grad_time_ms": 372.315, "load_time_ms": 0.664}, "iterations_since_restore": 533, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 21584.77645468712, "episodes_total": 17304, "episode_reward_max": 6.000295263735502, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 21584.77645468712, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 36, "timestamp": 1757076285, "timesteps_since_restore": 640800, "episode_reward_min": -84.12225116287291, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-44-45", "episode_len_mean": 27.78, "timesteps_total": 640800, "episode_reward_mean": -37.22280516998744, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.83341312408447, "training_iteration": 534, "info": {"default": {"policy_loss": -0.14360135793685913, "vf_explained_var": 0.022074606269598007, "vf_loss": 434.23858642578125, "kl": 0.008302503265440464, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.709325790405273, "total_loss": 434.1375427246094}, "sample_time_ms": 40004.655, "num_steps_trained": 640800, "num_steps_sampled": 640800, "update_time_ms": 2.654, "grad_time_ms": 371.662, "load_time_ms": 0.659}, "iterations_since_restore": 534, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 21625.724634170532, "episodes_total": 17352, "episode_reward_max": 6.000295263735502, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 21625.724634170532, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 48, "timestamp": 1757076326, "timesteps_since_restore": 642000, "episode_reward_min": -84.584110461089, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-45-26", "episode_len_mean": 28.64, "timesteps_total": 642000, "episode_reward_mean": -39.416849601800074, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.948179483413696, "training_iteration": 535, "info": {"default": {"policy_loss": -0.13637404143810272, "vf_explained_var": 0.03914839029312134, "vf_loss": 429.77545166015625, "kl": 0.008325023576617241, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.143048286437988, "total_loss": 429.6817626953125}, "sample_time_ms": 40062.61, "num_steps_trained": 642000, "num_steps_sampled": 642000, "update_time_ms": 2.656, "grad_time_ms": 373.063, "load_time_ms": 0.664}, "iterations_since_restore": 535, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 21667.36723637581, "episodes_total": 17399, "episode_reward_max": 6.000900282866732, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 21667.36723637581, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 47, "timestamp": 1757076367, "timesteps_since_restore": 643200, "episode_reward_min": -84.584110461089, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-46-07", "episode_len_mean": 25.94, "timesteps_total": 643200, "episode_reward_mean": -34.256976155702205, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.64260220527649, "training_iteration": 536, "info": {"default": {"policy_loss": -0.1363545060157776, "vf_explained_var": 0.07620462775230408, "vf_loss": 387.1236877441406, "kl": 0.009119709953665733, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.343320846557617, "total_loss": 387.0340576171875}, "sample_time_ms": 40192.39, "num_steps_trained": 643200, "num_steps_sampled": 643200, "update_time_ms": 2.653, "grad_time_ms": 372.447, "load_time_ms": 0.654}, "iterations_since_restore": 536, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 21707.32088971138, "episodes_total": 17448, "episode_reward_max": 6.000900282866732, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 21707.32088971138, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 49, "timestamp": 1757076407, "timesteps_since_restore": 644400, "episode_reward_min": -84.9363017251409, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-46-47", "episode_len_mean": 24.38, "timesteps_total": 644400, "episode_reward_mean": -30.912249337067678, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.95365333557129, "training_iteration": 537, "info": {"default": {"policy_loss": -0.13352756202220917, "vf_explained_var": 0.043895695358514786, "vf_loss": 380.5989990234375, "kl": 0.008354444056749344, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.930776596069336, "total_loss": 380.50830078125}, "sample_time_ms": 40154.158, "num_steps_trained": 644400, "num_steps_sampled": 644400, "update_time_ms": 2.717, "grad_time_ms": 371.649, "load_time_ms": 0.647}, "iterations_since_restore": 537, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 21747.847881555557, "episodes_total": 17492, "episode_reward_max": 6.000634538585563, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 21747.847881555557, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 44, "timestamp": 1757076448, "timesteps_since_restore": 645600, "episode_reward_min": -85.46244550693254, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-47-28", "episode_len_mean": 26.32, "timesteps_total": 645600, "episode_reward_mean": -34.52521580176145, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.526991844177246, "training_iteration": 538, "info": {"default": {"policy_loss": -0.13214126229286194, "vf_explained_var": 0.05837244540452957, "vf_loss": 355.2021484375, "kl": 0.00931335799396038, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.388319969177246, "total_loss": 355.1177673339844}, "sample_time_ms": 40221.856, "num_steps_trained": 645600, "num_steps_sampled": 645600, "update_time_ms": 2.672, "grad_time_ms": 369.162, "load_time_ms": 0.654}, "iterations_since_restore": 538, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 21788.450627565384, "episodes_total": 17541, "episode_reward_max": 6.00043276885083, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 21788.450627565384, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 49, "timestamp": 1757076489, "timesteps_since_restore": 646800, "episode_reward_min": -85.78097174710707, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-48-09", "episode_len_mean": 25.97, "timesteps_total": 646800, "episode_reward_mean": -34.03104488074714, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.60274600982666, "training_iteration": 539, "info": {"default": {"policy_loss": -0.1255151480436325, "vf_explained_var": 0.032845716923475266, "vf_loss": 405.42669677734375, "kl": 0.009621667675673962, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.624492645263672, "total_loss": 405.3504638671875}, "sample_time_ms": 40271.485, "num_steps_trained": 646800, "num_steps_sampled": 646800, "update_time_ms": 2.646, "grad_time_ms": 369.898, "load_time_ms": 0.659}, "iterations_since_restore": 539, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 21828.801154136658, "episodes_total": 17584, "episode_reward_max": 6.00043276885083, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 21828.801154136658, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 43, "timestamp": 1757076529, "timesteps_since_restore": 648000, "episode_reward_min": -85.78097174710707, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-48-49", "episode_len_mean": 26.69, "timesteps_total": 648000, "episode_reward_mean": -35.51538294909478, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.350526571273804, "training_iteration": 540, "info": {"default": {"policy_loss": -0.1414034515619278, "vf_explained_var": 0.045893456786870956, "vf_loss": 394.8934326171875, "kl": 0.008312324993312359, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.065532684326172, "total_loss": 394.79461669921875}, "sample_time_ms": 40228.237, "num_steps_trained": 648000, "num_steps_sampled": 648000, "update_time_ms": 2.626, "grad_time_ms": 369.915, "load_time_ms": 0.658}, "iterations_since_restore": 540, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 21869.165513038635, "episodes_total": 17629, "episode_reward_max": 6.000247998165712, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 21869.165513038635, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 45, "timestamp": 1757076569, "timesteps_since_restore": 649200, "episode_reward_min": -85.29242394858497, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-49-29", "episode_len_mean": 26.89, "timesteps_total": 649200, "episode_reward_mean": -35.81972269145159, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.36435890197754, "training_iteration": 541, "info": {"default": {"policy_loss": -0.13715288043022156, "vf_explained_var": 0.043508537113666534, "vf_loss": 379.6014709472656, "kl": 0.00994860753417015, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.157679557800293, "total_loss": 379.5152893066406}, "sample_time_ms": 40231.748, "num_steps_trained": 649200, "num_steps_sampled": 649200, "update_time_ms": 2.698, "grad_time_ms": 372.423, "load_time_ms": 0.668}, "iterations_since_restore": 541, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 21909.640416383743, "episodes_total": 17680, "episode_reward_max": 6.00022101283553, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 21909.640416383743, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 51, "timestamp": 1757076610, "timesteps_since_restore": 650400, "episode_reward_min": -83.66150442177282, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-50-10", "episode_len_mean": 24.7, "timesteps_total": 650400, "episode_reward_mean": -31.707003166804434, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.47490334510803, "training_iteration": 542, "info": {"default": {"policy_loss": -0.1360819935798645, "vf_explained_var": 0.04579227417707443, "vf_loss": 345.4749450683594, "kl": 0.00834939256310463, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.84406852722168, "total_loss": 345.38165283203125}, "sample_time_ms": 40214.572, "num_steps_trained": 650400, "num_steps_sampled": 650400, "update_time_ms": 2.687, "grad_time_ms": 373.947, "load_time_ms": 0.68}, "iterations_since_restore": 542, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 21949.78096818924, "episodes_total": 17727, "episode_reward_max": 8.001261016383374, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 21949.78096818924, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 47, "timestamp": 1757076650, "timesteps_since_restore": 651600, "episode_reward_min": -83.66150442177282, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-50-50", "episode_len_mean": 24.66, "timesteps_total": 651600, "episode_reward_mean": -31.692337487909636, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.140551805496216, "training_iteration": 543, "info": {"default": {"policy_loss": -0.13013385236263275, "vf_explained_var": 0.056982677429914474, "vf_loss": 447.8446960449219, "kl": 0.008481817319989204, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.385661125183105, "total_loss": 447.7580261230469}, "sample_time_ms": 40201.856, "num_steps_trained": 651600, "num_steps_sampled": 651600, "update_time_ms": 2.665, "grad_time_ms": 373.829, "load_time_ms": 0.683}, "iterations_since_restore": 543, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 21990.805150985718, "episodes_total": 17785, "episode_reward_max": 8.001261016383374, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 21990.805150985718, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 58, "timestamp": 1757076691, "timesteps_since_restore": 652800, "episode_reward_min": -85.7373640943106, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-51-31", "episode_len_mean": 23.28, "timesteps_total": 652800, "episode_reward_mean": -29.641254519682786, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.02418279647827, "training_iteration": 544, "info": {"default": {"policy_loss": -0.13381436467170715, "vf_explained_var": 0.04563134163618088, "vf_loss": 419.1471862792969, "kl": 0.009858326055109501, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.625717163085938, "total_loss": 419.06390380859375}, "sample_time_ms": 40221.984, "num_steps_trained": 652800, "num_steps_sampled": 652800, "update_time_ms": 2.635, "grad_time_ms": 372.879, "load_time_ms": 0.685}, "iterations_since_restore": 544, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 22031.240619182587, "episodes_total": 17828, "episode_reward_max": 8.000000511470995, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 22031.240619182587, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 43, "timestamp": 1757076731, "timesteps_since_restore": 654000, "episode_reward_min": -85.7373640943106, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-52-11", "episode_len_mean": 23.59, "timesteps_total": 654000, "episode_reward_mean": -29.931796524229963, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.4354681968689, "training_iteration": 545, "info": {"default": {"policy_loss": -0.14830072224140167, "vf_explained_var": 0.060136061161756516, "vf_loss": 403.0244140625, "kl": 0.008390597999095917, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.012547492980957, "total_loss": 402.9190979003906}, "sample_time_ms": 40172.975, "num_steps_trained": 654000, "num_steps_sampled": 654000, "update_time_ms": 2.585, "grad_time_ms": 370.674, "load_time_ms": 0.677}, "iterations_since_restore": 545, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 22071.391208410263, "episodes_total": 17879, "episode_reward_max": 6.001700431424255, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 22071.391208410263, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 51, "timestamp": 1757076772, "timesteps_since_restore": 655200, "episode_reward_min": -86.46226613705659, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-52-52", "episode_len_mean": 25.08, "timesteps_total": 655200, "episode_reward_mean": -32.438277243449065, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.15058922767639, "training_iteration": 546, "info": {"default": {"policy_loss": -0.13295914232730865, "vf_explained_var": 0.03189194202423096, "vf_loss": 439.9210205078125, "kl": 0.011001135222613811, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.964048385620117, "total_loss": 439.844482421875}, "sample_time_ms": 40023.782, "num_steps_trained": 655200, "num_steps_sampled": 655200, "update_time_ms": 2.592, "grad_time_ms": 370.736, "load_time_ms": 0.677}, "iterations_since_restore": 546, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 22112.217733860016, "episodes_total": 17930, "episode_reward_max": 8.000003119026283, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 22112.217733860016, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 51, "timestamp": 1757076812, "timesteps_since_restore": 656400, "episode_reward_min": -86.46226613705659, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-53-32", "episode_len_mean": 22.71, "timesteps_total": 656400, "episode_reward_mean": -27.985773051901138, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.82652544975281, "training_iteration": 547, "info": {"default": {"policy_loss": -0.12768986821174622, "vf_explained_var": 0.07624606043100357, "vf_loss": 361.0440979003906, "kl": 0.009916504845023155, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.93431568145752, "total_loss": 360.9672546386719}, "sample_time_ms": 40112.106, "num_steps_trained": 656400, "num_steps_sampled": 656400, "update_time_ms": 2.554, "grad_time_ms": 369.752, "load_time_ms": 0.683}, "iterations_since_restore": 547, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 22152.339262485504, "episodes_total": 17967, "episode_reward_max": 8.000003119026283, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 22152.339262485504, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 37, "timestamp": 1757076853, "timesteps_since_restore": 657600, "episode_reward_min": -84.20967427355467, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-54-13", "episode_len_mean": 26.81, "timesteps_total": 657600, "episode_reward_mean": -35.38954497967423, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.12152862548828, "training_iteration": 548, "info": {"default": {"policy_loss": -0.14026130735874176, "vf_explained_var": 0.03522050380706787, "vf_loss": 377.5398254394531, "kl": 0.008712352253496647, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 12.092899322509766, "total_loss": 377.4442138671875}, "sample_time_ms": 40068.428, "num_steps_trained": 657600, "num_steps_sampled": 657600, "update_time_ms": 2.555, "grad_time_ms": 372.859, "load_time_ms": 0.699}, "iterations_since_restore": 548, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 22192.579426765442, "episodes_total": 18007, "episode_reward_max": 8.000003119026283, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 22192.579426765442, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 40, "timestamp": 1757076893, "timesteps_since_restore": 658800, "episode_reward_min": -84.75223572136255, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-54-53", "episode_len_mean": 29.97, "timesteps_total": 658800, "episode_reward_mean": -40.7251371001052, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.240164279937744, "training_iteration": 549, "info": {"default": {"policy_loss": -0.13430963456630707, "vf_explained_var": 0.06363566964864731, "vf_loss": 377.792236328125, "kl": 0.010151336900889874, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.379539489746094, "total_loss": 377.7099609375}, "sample_time_ms": 40033.001, "num_steps_trained": 658800, "num_steps_sampled": 658800, "update_time_ms": 2.573, "grad_time_ms": 371.938, "load_time_ms": 0.697}, "iterations_since_restore": 549, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 22232.783083438873, "episodes_total": 18051, "episode_reward_max": 8.000000414294426, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 22232.783083438873, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 44, "timestamp": 1757076933, "timesteps_since_restore": 660000, "episode_reward_min": -85.78678271156333, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-55-33", "episode_len_mean": 29.44, "timesteps_total": 660000, "episode_reward_mean": -40.07418745398009, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.2036566734314, "training_iteration": 550, "info": {"default": {"policy_loss": -0.14563600718975067, "vf_explained_var": 0.04166966676712036, "vf_loss": 387.3948974609375, "kl": 0.00864436011761427, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.149700164794922, "total_loss": 387.2935791015625}, "sample_time_ms": 40020.349, "num_steps_trained": 660000, "num_steps_sampled": 660000, "update_time_ms": 2.617, "grad_time_ms": 369.875, "load_time_ms": 0.703}, "iterations_since_restore": 550, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 22273.386105537415, "episodes_total": 18094, "episode_reward_max": 6.0005527958932205, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 22273.386105537415, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 43, "timestamp": 1757076974, "timesteps_since_restore": 661200, "episode_reward_min": -85.78678271156333, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-56-14", "episode_len_mean": 28.57, "timesteps_total": 661200, "episode_reward_mean": -38.74176971627792, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.60302209854126, "training_iteration": 551, "info": {"default": {"policy_loss": -0.13364237546920776, "vf_explained_var": 0.08491642773151398, "vf_loss": 374.5932922363281, "kl": 0.008176038973033428, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.26524543762207, "total_loss": 374.5015563964844}, "sample_time_ms": 40047.151, "num_steps_trained": 661200, "num_steps_sampled": 661200, "update_time_ms": 2.544, "grad_time_ms": 367.052, "load_time_ms": 0.693}, "iterations_since_restore": 551, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 22313.33587360382, "episodes_total": 18135, "episode_reward_max": 6.001905756320733, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 22313.33587360382, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 41, "timestamp": 1757077014, "timesteps_since_restore": 662400, "episode_reward_min": -84.3112498946699, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-56-54", "episode_len_mean": 28.55, "timesteps_total": 662400, "episode_reward_mean": -38.16847425954501, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.94976806640625, "training_iteration": 552, "info": {"default": {"policy_loss": -0.13194796442985535, "vf_explained_var": 0.0570061020553112, "vf_loss": 380.7411193847656, "kl": 0.010355156846344471, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.042019844055176, "total_loss": 380.6622619628906}, "sample_time_ms": 39995.219, "num_steps_trained": 662400, "num_steps_sampled": 662400, "update_time_ms": 2.525, "grad_time_ms": 366.466, "load_time_ms": 0.688}, "iterations_since_restore": 552, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 22353.672510147095, "episodes_total": 18183, "episode_reward_max": 6.001905756320733, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 22353.672510147095, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 48, "timestamp": 1757077054, "timesteps_since_restore": 663600, "episode_reward_min": -83.86816796697468, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-57-34", "episode_len_mean": 27.7, "timesteps_total": 663600, "episode_reward_mean": -36.60741791953129, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.336636543273926, "training_iteration": 553, "info": {"default": {"policy_loss": -0.13750289380550385, "vf_explained_var": 0.01776777394115925, "vf_loss": 368.6276550292969, "kl": 0.00839162152260542, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.699809074401855, "total_loss": 368.5331726074219}, "sample_time_ms": 40016.33, "num_steps_trained": 663600, "num_steps_sampled": 663600, "update_time_ms": 2.534, "grad_time_ms": 364.888, "load_time_ms": 0.675}, "iterations_since_restore": 553, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 22394.72458910942, "episodes_total": 18226, "episode_reward_max": 6.0008914446591906, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 22394.72458910942, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 43, "timestamp": 1757077095, "timesteps_since_restore": 664800, "episode_reward_min": -85.33543204268301, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-58-15", "episode_len_mean": 26.44, "timesteps_total": 664800, "episode_reward_mean": -34.47675661608909, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.05207896232605, "training_iteration": 554, "info": {"default": {"policy_loss": -0.13354119658470154, "vf_explained_var": 0.045721035450696945, "vf_loss": 396.2705383300781, "kl": 0.008446171879768372, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.963138580322266, "total_loss": 396.1802978515625}, "sample_time_ms": 40016.513, "num_steps_trained": 664800, "num_steps_sampled": 664800, "update_time_ms": 2.554, "grad_time_ms": 367.425, "load_time_ms": 0.674}, "iterations_since_restore": 554, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 22435.848731279373, "episodes_total": 18270, "episode_reward_max": 6.0005713216535455, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 22435.848731279373, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 44, "timestamp": 1757077136, "timesteps_since_restore": 666000, "episode_reward_min": -86.9000479627895, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-58-56", "episode_len_mean": 27.09, "timesteps_total": 666000, "episode_reward_mean": -35.51556546797166, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.12414216995239, "training_iteration": 555, "info": {"default": {"policy_loss": -0.1443447470664978, "vf_explained_var": 0.04878158122301102, "vf_loss": 379.71484375, "kl": 0.008586409501731396, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.153361320495605, "total_loss": 379.6145324707031}, "sample_time_ms": 40083.066, "num_steps_trained": 666000, "num_steps_sampled": 666000, "update_time_ms": 2.574, "grad_time_ms": 369.712, "load_time_ms": 0.68}, "iterations_since_restore": 555, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 22476.28894138336, "episodes_total": 18317, "episode_reward_max": 6.0005713216535455, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 22476.28894138336, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 47, "timestamp": 1757077177, "timesteps_since_restore": 667200, "episode_reward_min": -86.9000479627895, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_14-59-37", "episode_len_mean": 26.88, "timesteps_total": 667200, "episode_reward_mean": -35.67113742329363, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.44021010398865, "training_iteration": 556, "info": {"default": {"policy_loss": -0.13106483221054077, "vf_explained_var": 0.03832607716321945, "vf_loss": 408.9383544921875, "kl": 0.00865850504487753, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.496267318725586, "total_loss": 408.8516845703125}, "sample_time_ms": 40109.929, "num_steps_trained": 667200, "num_steps_sampled": 667200, "update_time_ms": 2.55, "grad_time_ms": 371.797, "load_time_ms": 0.696}, "iterations_since_restore": 556, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 22516.926480293274, "episodes_total": 18364, "episode_reward_max": 6.000249630585441, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 22516.926480293274, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 47, "timestamp": 1757077217, "timesteps_since_restore": 668400, "episode_reward_min": -84.95464879737172, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-00-17", "episode_len_mean": 25.2, "timesteps_total": 668400, "episode_reward_mean": -32.304501958531375, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.63753890991211, "training_iteration": 557, "info": {"default": {"policy_loss": -0.12505804002285004, "vf_explained_var": 0.03625951707363129, "vf_loss": 416.3406677246094, "kl": 0.010040843859314919, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.144044876098633, "total_loss": 416.2670593261719}, "sample_time_ms": 40088.799, "num_steps_trained": 668400, "num_steps_sampled": 668400, "update_time_ms": 2.584, "grad_time_ms": 373.978, "load_time_ms": 0.691}, "iterations_since_restore": 557, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 22557.527586460114, "episodes_total": 18408, "episode_reward_max": 6.000249630585441, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 22557.527586460114, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 44, "timestamp": 1757077258, "timesteps_since_restore": 669600, "episode_reward_min": -85.98374208985753, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-00-58", "episode_len_mean": 25.55, "timesteps_total": 669600, "episode_reward_mean": -32.94810878601409, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.6011061668396, "training_iteration": 558, "info": {"default": {"policy_loss": -0.1444263756275177, "vf_explained_var": 0.07039395719766617, "vf_loss": 401.7746887207031, "kl": 0.009812927804887295, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.912250518798828, "total_loss": 401.6805725097656}, "sample_time_ms": 40137.006, "num_steps_trained": 669600, "num_steps_sampled": 669600, "update_time_ms": 2.626, "grad_time_ms": 373.655, "load_time_ms": 0.672}, "iterations_since_restore": 558, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 22598.34249806404, "episodes_total": 18460, "episode_reward_max": 8.000000400000435, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 22598.34249806404, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 52, "timestamp": 1757077299, "timesteps_since_restore": 670800, "episode_reward_min": -85.98374208985753, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-01-39", "episode_len_mean": 25.41, "timesteps_total": 670800, "episode_reward_mean": -33.124770374804065, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.81491160392761, "training_iteration": 559, "info": {"default": {"policy_loss": -0.12365058064460754, "vf_explained_var": 0.04797273129224777, "vf_loss": 412.320556640625, "kl": 0.009302522987127304, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.824212074279785, "total_loss": 412.24456787109375}, "sample_time_ms": 40195.292, "num_steps_trained": 670800, "num_steps_sampled": 670800, "update_time_ms": 2.632, "grad_time_ms": 372.881, "load_time_ms": 0.676}, "iterations_since_restore": 559, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 22638.8548848629, "episodes_total": 18508, "episode_reward_max": 8.000000400000435, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 22638.8548848629, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 48, "timestamp": 1757077339, "timesteps_since_restore": 672000, "episode_reward_min": -84.24957929203451, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-02-19", "episode_len_mean": 24.03, "timesteps_total": 672000, "episode_reward_mean": -30.40722973309415, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.51238679885864, "training_iteration": 560, "info": {"default": {"policy_loss": -0.1380094438791275, "vf_explained_var": 0.04441501572728157, "vf_loss": 371.0180969238281, "kl": 0.010573264211416245, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.508237838745117, "total_loss": 370.93426513671875}, "sample_time_ms": 40223.329, "num_steps_trained": 672000, "num_steps_sampled": 672000, "update_time_ms": 2.603, "grad_time_ms": 375.76, "load_time_ms": 0.674}, "iterations_since_restore": 560, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 22679.25482416153, "episodes_total": 18559, "episode_reward_max": 6.000299317102815, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 22679.25482416153, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 51, "timestamp": 1757077380, "timesteps_since_restore": 673200, "episode_reward_min": -87.05541577839902, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-03-00", "episode_len_mean": 25.02, "timesteps_total": 673200, "episode_reward_mean": -32.212732408567966, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.39993929862976, "training_iteration": 561, "info": {"default": {"policy_loss": -0.14992989599704742, "vf_explained_var": 0.04315905272960663, "vf_loss": 400.9477844238281, "kl": 0.009825881570577621, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.031010627746582, "total_loss": 400.8482360839844}, "sample_time_ms": 40200.775, "num_steps_trained": 673200, "num_steps_sampled": 673200, "update_time_ms": 2.61, "grad_time_ms": 377.944, "load_time_ms": 0.677}, "iterations_since_restore": 561, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 22719.76779818535, "episodes_total": 18603, "episode_reward_max": 8.000000400019795, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 22719.76779818535, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 44, "timestamp": 1757077420, "timesteps_since_restore": 674400, "episode_reward_min": -88.79239990912897, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-03-40", "episode_len_mean": 24.93, "timesteps_total": 674400, "episode_reward_mean": -32.417149404650885, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.51297402381897, "training_iteration": 562, "info": {"default": {"policy_loss": -0.1328383982181549, "vf_explained_var": 0.028283847495913506, "vf_loss": 408.1002197265625, "kl": 0.009051505476236343, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.967217445373535, "total_loss": 408.0137939453125}, "sample_time_ms": 40255.566, "num_steps_trained": 674400, "num_steps_sampled": 674400, "update_time_ms": 2.66, "grad_time_ms": 379.459, "load_time_ms": 0.674}, "iterations_since_restore": 562, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 22760.325370311737, "episodes_total": 18654, "episode_reward_max": 8.000000400019795, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 22760.325370311737, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 51, "timestamp": 1757077461, "timesteps_since_restore": 675600, "episode_reward_min": -88.79239990912897, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-04-21", "episode_len_mean": 24.78, "timesteps_total": 675600, "episode_reward_mean": -32.105287368271604, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.55757212638855, "training_iteration": 563, "info": {"default": {"policy_loss": -0.13606654107570648, "vf_explained_var": 0.040021881461143494, "vf_loss": 415.2030029296875, "kl": 0.009357083588838577, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.505544662475586, "total_loss": 415.1148986816406}, "sample_time_ms": 40276.445, "num_steps_trained": 675600, "num_steps_sampled": 675600, "update_time_ms": 2.654, "grad_time_ms": 380.721, "load_time_ms": 0.683}, "iterations_since_restore": 563, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 22800.544475317, "episodes_total": 18698, "episode_reward_max": 8.000000886480322, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 22800.544475317, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 44, "timestamp": 1757077501, "timesteps_since_restore": 676800, "episode_reward_min": -88.77817952633463, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-05-01", "episode_len_mean": 25.27, "timesteps_total": 676800, "episode_reward_mean": -32.397094862824, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.21910500526428, "training_iteration": 564, "info": {"default": {"policy_loss": -0.1374581754207611, "vf_explained_var": 0.03901269659399986, "vf_loss": 390.6457214355469, "kl": 0.007754650432616472, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.585413932800293, "total_loss": 390.5480651855469}, "sample_time_ms": 40195.57, "num_steps_trained": 676800, "num_steps_sampled": 676800, "update_time_ms": 2.643, "grad_time_ms": 378.359, "load_time_ms": 0.676}, "iterations_since_restore": 564, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 22841.25909805298, "episodes_total": 18739, "episode_reward_max": 8.000000886480322, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 22841.25909805298, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 41, "timestamp": 1757077542, "timesteps_since_restore": 678000, "episode_reward_min": -85.49361092279453, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-05-42", "episode_len_mean": 27.0, "timesteps_total": 678000, "episode_reward_mean": -35.46572980929827, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.71462273597717, "training_iteration": 565, "info": {"default": {"policy_loss": -0.1388901025056839, "vf_explained_var": 0.0504690557718277, "vf_loss": 417.5456848144531, "kl": 0.009428703226149082, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.183738708496094, "total_loss": 417.45513916015625}, "sample_time_ms": 40157.038, "num_steps_trained": 678000, "num_steps_sampled": 678000, "update_time_ms": 2.65, "grad_time_ms": 375.963, "load_time_ms": 0.672}, "iterations_since_restore": 565, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 22881.549032211304, "episodes_total": 18787, "episode_reward_max": 8.000000886480322, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 22881.549032211304, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 48, "timestamp": 1757077582, "timesteps_since_restore": 679200, "episode_reward_min": -87.24063700805091, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-06-22", "episode_len_mean": 26.28, "timesteps_total": 679200, "episode_reward_mean": -34.83504701795402, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.289934158325195, "training_iteration": 566, "info": {"default": {"policy_loss": -0.14539170265197754, "vf_explained_var": 0.06198347359895706, "vf_loss": 413.6627502441406, "kl": 0.008966988883912563, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.53707504272461, "total_loss": 413.5633239746094}, "sample_time_ms": 40144.725, "num_steps_trained": 679200, "num_steps_sampled": 679200, "update_time_ms": 2.649, "grad_time_ms": 373.281, "load_time_ms": 0.659}, "iterations_since_restore": 566, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 22922.379888296127, "episodes_total": 18834, "episode_reward_max": 6.0009948419658965, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 22922.379888296127, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 47, "timestamp": 1757077623, "timesteps_since_restore": 680400, "episode_reward_min": -87.24063700805091, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-07-03", "episode_len_mean": 25.22, "timesteps_total": 680400, "episode_reward_mean": -33.181552327356115, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.83085608482361, "training_iteration": 567, "info": {"default": {"policy_loss": -0.13460463285446167, "vf_explained_var": 0.034026019275188446, "vf_loss": 434.8033447265625, "kl": 0.009800039231777191, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.517213821411133, "total_loss": 434.7189025878906}, "sample_time_ms": 40166.656, "num_steps_trained": 680400, "num_steps_sampled": 680400, "update_time_ms": 2.615, "grad_time_ms": 370.759, "load_time_ms": 0.658}, "iterations_since_restore": 567, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 22963.53430247307, "episodes_total": 18887, "episode_reward_max": 6.0009948419658965, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 22963.53430247307, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 53, "timestamp": 1757077664, "timesteps_since_restore": 681600, "episode_reward_min": -86.12116918400825, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-07-44", "episode_len_mean": 23.98, "timesteps_total": 681600, "episode_reward_mean": -30.884940442998673, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.15441417694092, "training_iteration": 568, "info": {"default": {"policy_loss": -0.15009188652038574, "vf_explained_var": 0.02574141137301922, "vf_loss": 422.166259765625, "kl": 0.009681894443929195, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.306270599365234, "total_loss": 422.0657958984375}, "sample_time_ms": 40222.781, "num_steps_trained": 681600, "num_steps_sampled": 681600, "update_time_ms": 2.608, "grad_time_ms": 370.078, "load_time_ms": 0.651}, "iterations_since_restore": 568, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 23003.923060894012, "episodes_total": 18935, "episode_reward_max": 6.000756056668964, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 23003.923060894012, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 48, "timestamp": 1757077705, "timesteps_since_restore": 682800, "episode_reward_min": -86.12116918400825, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-08-25", "episode_len_mean": 23.62, "timesteps_total": 682800, "episode_reward_mean": -29.86517287089137, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.388758420944214, "training_iteration": 569, "info": {"default": {"policy_loss": -0.13667893409729004, "vf_explained_var": 0.06543543934822083, "vf_loss": 388.62603759765625, "kl": 0.009098422713577747, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.924715042114258, "total_loss": 388.5359802246094}, "sample_time_ms": 40177.655, "num_steps_trained": 682800, "num_steps_sampled": 682800, "update_time_ms": 2.557, "grad_time_ms": 372.608, "load_time_ms": 0.644}, "iterations_since_restore": 569, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 23045.237802505493, "episodes_total": 18987, "episode_reward_max": 6.002199097685188, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 23045.237802505493, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 52, "timestamp": 1757077746, "timesteps_since_restore": 684000, "episode_reward_min": -84.86012878672685, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-09-06", "episode_len_mean": 24.28, "timesteps_total": 684000, "episode_reward_mean": -30.6719920905768, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.31474161148071, "training_iteration": 570, "info": {"default": {"policy_loss": -0.14560362696647644, "vf_explained_var": 0.05408237501978874, "vf_loss": 417.0261535644531, "kl": 0.008986931294202805, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.049738883972168, "total_loss": 416.9266052246094}, "sample_time_ms": 40258.597, "num_steps_trained": 684000, "num_steps_sampled": 684000, "update_time_ms": 2.588, "grad_time_ms": 371.822, "load_time_ms": 0.652}, "iterations_since_restore": 570, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 23086.32050228119, "episodes_total": 19045, "episode_reward_max": 8.000000400008439, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 23086.32050228119, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 58, "timestamp": 1757077787, "timesteps_since_restore": 685200, "episode_reward_min": -84.86012878672685, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-09-47", "episode_len_mean": 22.57, "timesteps_total": 685200, "episode_reward_mean": -27.416488364001854, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.0826997756958, "training_iteration": 571, "info": {"default": {"policy_loss": -0.14661608636379242, "vf_explained_var": 0.04753880947828293, "vf_loss": 320.5635681152344, "kl": 0.009772084653377533, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.242955207824707, "total_loss": 320.4670104980469}, "sample_time_ms": 40327.532, "num_steps_trained": 685200, "num_steps_sampled": 685200, "update_time_ms": 2.623, "grad_time_ms": 371.112, "load_time_ms": 0.646}, "iterations_since_restore": 571, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 23126.50136089325, "episodes_total": 19091, "episode_reward_max": 8.000000400008439, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 23126.50136089325, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 46, "timestamp": 1757077827, "timesteps_since_restore": 686400, "episode_reward_min": -83.10884387534546, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-10-27", "episode_len_mean": 22.71, "timesteps_total": 686400, "episode_reward_mean": -27.547643880519423, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.18085861206055, "training_iteration": 572, "info": {"default": {"policy_loss": -0.13515356183052063, "vf_explained_var": 0.05229274928569794, "vf_loss": 364.20355224609375, "kl": 0.010314423590898514, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.163518905639648, "total_loss": 364.1213073730469}, "sample_time_ms": 40295.439, "num_steps_trained": 686400, "num_steps_sampled": 686400, "update_time_ms": 2.621, "grad_time_ms": 370.01, "load_time_ms": 0.645}, "iterations_since_restore": 572, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 23167.057109355927, "episodes_total": 19145, "episode_reward_max": 6.001471760419073, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 23167.057109355927, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 54, "timestamp": 1757077868, "timesteps_since_restore": 687600, "episode_reward_min": -85.08682358155764, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-11-08", "episode_len_mean": 24.18, "timesteps_total": 687600, "episode_reward_mean": -30.350547498097402, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.555748462677, "training_iteration": 573, "info": {"default": {"policy_loss": -0.14019474387168884, "vf_explained_var": 0.06315693259239197, "vf_loss": 326.927001953125, "kl": 0.008239815942943096, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.779138565063477, "total_loss": 326.82904052734375}, "sample_time_ms": 40295.342, "num_steps_trained": 687600, "num_steps_sampled": 687600, "update_time_ms": 2.606, "grad_time_ms": 369.889, "load_time_ms": 0.654}, "iterations_since_restore": 573, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 23207.789398908615, "episodes_total": 19201, "episode_reward_max": 6.001471760419073, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 23207.789398908615, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 56, "timestamp": 1757077909, "timesteps_since_restore": 688800, "episode_reward_min": -85.08682358155764, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-11-49", "episode_len_mean": 21.98, "timesteps_total": 688800, "episode_reward_mean": -26.606940306252053, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.7322895526886, "training_iteration": 574, "info": {"default": {"policy_loss": -0.1333363652229309, "vf_explained_var": 0.08629471808671951, "vf_loss": 364.91949462890625, "kl": 0.009565533138811588, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.157936096191406, "total_loss": 364.835205078125}, "sample_time_ms": 40343.942, "num_steps_trained": 688800, "num_steps_sampled": 688800, "update_time_ms": 2.634, "grad_time_ms": 372.212, "load_time_ms": 0.665}, "iterations_since_restore": 574, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 23248.54572701454, "episodes_total": 19251, "episode_reward_max": 6.000151662316775, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 23248.54572701454, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 50, "timestamp": 1757077949, "timesteps_since_restore": 690000, "episode_reward_min": -83.45911048720527, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-12-29", "episode_len_mean": 22.44, "timesteps_total": 690000, "episode_reward_mean": -27.429952060046556, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.756328105926514, "training_iteration": 575, "info": {"default": {"policy_loss": -0.13872136175632477, "vf_explained_var": 0.05992692708969116, "vf_loss": 358.1092529296875, "kl": 0.008019479922950268, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.067848205566406, "total_loss": 358.0115966796875}, "sample_time_ms": 40347.042, "num_steps_trained": 690000, "num_steps_sampled": 690000, "update_time_ms": 2.631, "grad_time_ms": 373.262, "load_time_ms": 0.672}, "iterations_since_restore": 575, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 23288.37508201599, "episodes_total": 19297, "episode_reward_max": 6.000151662316775, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 23288.37508201599, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 46, "timestamp": 1757077989, "timesteps_since_restore": 691200, "episode_reward_min": -88.03750614604407, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-13-09", "episode_len_mean": 24.02, "timesteps_total": 691200, "episode_reward_mean": -30.375674786498735, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.829355001449585, "training_iteration": 576, "info": {"default": {"policy_loss": -0.14316098392009735, "vf_explained_var": 0.02206120826303959, "vf_loss": 453.9091491699219, "kl": 0.008220099844038486, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.030094146728516, "total_loss": 453.8081359863281}, "sample_time_ms": 40297.861, "num_steps_trained": 691200, "num_steps_sampled": 691200, "update_time_ms": 2.625, "grad_time_ms": 376.361, "load_time_ms": 0.679}, "iterations_since_restore": 576, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 23328.601442575455, "episodes_total": 19350, "episode_reward_max": 6.00000249700388, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 23328.601442575455, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 53, "timestamp": 1757078029, "timesteps_since_restore": 692400, "episode_reward_min": -88.03750614604407, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-13-49", "episode_len_mean": 24.41, "timesteps_total": 692400, "episode_reward_mean": -31.015303834920886, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.2263605594635, "training_iteration": 577, "info": {"default": {"policy_loss": -0.13986049592494965, "vf_explained_var": 0.027882954105734825, "vf_loss": 390.25933837890625, "kl": 0.009287201799452305, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.780424118041992, "total_loss": 390.1670837402344}, "sample_time_ms": 40237.435, "num_steps_trained": 692400, "num_steps_sampled": 692400, "update_time_ms": 2.617, "grad_time_ms": 376.316, "load_time_ms": 0.678}, "iterations_since_restore": 577, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 23369.168175458908, "episodes_total": 19395, "episode_reward_max": 10.0, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 23369.168175458908, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 45, "timestamp": 1757078070, "timesteps_since_restore": 693600, "episode_reward_min": -85.70525948701147, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-14-30", "episode_len_mean": 24.71, "timesteps_total": 693600, "episode_reward_mean": -31.11354836324218, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.56673288345337, "training_iteration": 578, "info": {"default": {"policy_loss": -0.14305859804153442, "vf_explained_var": 0.05250994488596916, "vf_loss": 355.7986145019531, "kl": 0.00942517351359129, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.6582612991333, "total_loss": 355.703857421875}, "sample_time_ms": 40180.822, "num_steps_trained": 693600, "num_steps_sampled": 693600, "update_time_ms": 2.585, "grad_time_ms": 374.211, "load_time_ms": 0.676}, "iterations_since_restore": 578, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 23409.814898252487, "episodes_total": 19435, "episode_reward_max": 10.0, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 23409.814898252487, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 40, "timestamp": 1757078111, "timesteps_since_restore": 694800, "episode_reward_min": -84.23423413692255, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-15-11", "episode_len_mean": 26.73, "timesteps_total": 694800, "episode_reward_mean": -34.48597345344389, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.6467227935791, "training_iteration": 579, "info": {"default": {"policy_loss": -0.11985298246145248, "vf_explained_var": 0.06425371766090393, "vf_loss": 376.1019287109375, "kl": 0.0104202376678586, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.27676010131836, "total_loss": 376.0355224609375}, "sample_time_ms": 40207.75, "num_steps_trained": 694800, "num_steps_sampled": 694800, "update_time_ms": 2.58, "grad_time_ms": 373.14, "load_time_ms": 0.675}, "iterations_since_restore": 579, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 23450.234608888626, "episodes_total": 19490, "episode_reward_max": 6.000991879946218, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 23450.234608888626, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 55, "timestamp": 1757078151, "timesteps_since_restore": 696000, "episode_reward_min": -85.97778790995095, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-15-51", "episode_len_mean": 25.98, "timesteps_total": 696000, "episode_reward_mean": -33.40963377040439, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.419710636138916, "training_iteration": 580, "info": {"default": {"policy_loss": -0.14011293649673462, "vf_explained_var": 0.06290361285209656, "vf_loss": 309.05633544921875, "kl": 0.008871032856404781, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.170068740844727, "total_loss": 308.9617004394531}, "sample_time_ms": 40117.735, "num_steps_trained": 696000, "num_steps_sampled": 696000, "update_time_ms": 2.572, "grad_time_ms": 373.665, "load_time_ms": 0.665}, "iterations_since_restore": 580, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 23491.255924224854, "episodes_total": 19545, "episode_reward_max": 6.000991879946218, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 23491.255924224854, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 55, "timestamp": 1757078192, "timesteps_since_restore": 697200, "episode_reward_min": -85.97778790995095, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-16-32", "episode_len_mean": 21.54, "timesteps_total": 697200, "episode_reward_mean": -25.767897364191253, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.02131533622742, "training_iteration": 581, "info": {"default": {"policy_loss": -0.12950970232486725, "vf_explained_var": 0.07843384146690369, "vf_loss": 332.6956481933594, "kl": 0.008627999573946, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.054267883300781, "total_loss": 332.6103820800781}, "sample_time_ms": 40111.133, "num_steps_trained": 697200, "num_steps_sampled": 697200, "update_time_ms": 2.554, "grad_time_ms": 374.203, "load_time_ms": 0.669}, "iterations_since_restore": 581, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 23532.294179677963, "episodes_total": 19596, "episode_reward_max": 6.001007177764738, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 23532.294179677963, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 51, "timestamp": 1757078233, "timesteps_since_restore": 698400, "episode_reward_min": -84.18227422017362, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-17-13", "episode_len_mean": 22.58, "timesteps_total": 698400, "episode_reward_mean": -27.28356158115064, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.03825545310974, "training_iteration": 582, "info": {"default": {"policy_loss": -0.12937945127487183, "vf_explained_var": 0.06220688298344612, "vf_loss": 338.27734375, "kl": 0.009609997272491455, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.44223690032959, "total_loss": 338.19720458984375}, "sample_time_ms": 40197.573, "num_steps_trained": 698400, "num_steps_sampled": 698400, "update_time_ms": 2.514, "grad_time_ms": 373.499, "load_time_ms": 0.669}, "iterations_since_restore": 582, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 23572.801460027695, "episodes_total": 19654, "episode_reward_max": 8.000001830945855, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 23572.801460027695, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 58, "timestamp": 1757078274, "timesteps_since_restore": 699600, "episode_reward_min": -85.13518941340001, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-17-54", "episode_len_mean": 22.36, "timesteps_total": 699600, "episode_reward_mean": -27.35048737305712, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.507280349731445, "training_iteration": 583, "info": {"default": {"policy_loss": -0.13032077252864838, "vf_explained_var": 0.04174333065748215, "vf_loss": 406.7017517089844, "kl": 0.01029905304312706, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.392404556274414, "total_loss": 406.62420654296875}, "sample_time_ms": 40193.291, "num_steps_trained": 699600, "num_steps_sampled": 699600, "update_time_ms": 2.552, "grad_time_ms": 372.948, "load_time_ms": 0.659}, "iterations_since_restore": 583, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 23613.520612478256, "episodes_total": 19712, "episode_reward_max": 6.001160288806714, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 23613.520612478256, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 58, "timestamp": 1757078315, "timesteps_since_restore": 700800, "episode_reward_min": -85.86739877143583, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-18-35", "episode_len_mean": 21.0, "timesteps_total": 700800, "episode_reward_mean": -24.958425248800577, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.71915245056152, "training_iteration": 584, "info": {"default": {"policy_loss": -0.12525947391986847, "vf_explained_var": 0.05347825586795807, "vf_loss": 387.4207763671875, "kl": 0.009423126466572285, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.156390190124512, "total_loss": 387.3438415527344}, "sample_time_ms": 40194.257, "num_steps_trained": 700800, "num_steps_sampled": 700800, "update_time_ms": 2.498, "grad_time_ms": 371.067, "load_time_ms": 0.659}, "iterations_since_restore": 584, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 23653.70445728302, "episodes_total": 19753, "episode_reward_max": 6.001160288806714, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 23653.70445728302, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 41, "timestamp": 1757078355, "timesteps_since_restore": 702000, "episode_reward_min": -85.86739877143583, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-19-15", "episode_len_mean": 23.85, "timesteps_total": 702000, "episode_reward_mean": -30.375465022409276, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.183844804763794, "training_iteration": 585, "info": {"default": {"policy_loss": -0.13898642361164093, "vf_explained_var": 0.026134517043828964, "vf_loss": 402.8190002441406, "kl": 0.008527657948434353, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.9359130859375, "total_loss": 402.7237548828125}, "sample_time_ms": 40134.99, "num_steps_trained": 702000, "num_steps_sampled": 702000, "update_time_ms": 2.48, "grad_time_ms": 373.082, "load_time_ms": 0.665}, "iterations_since_restore": 585, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 23694.231439590454, "episodes_total": 19804, "episode_reward_max": 6.000509775016181, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 23694.231439590454, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 51, "timestamp": 1757078395, "timesteps_since_restore": 703200, "episode_reward_min": -82.85637763110724, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-19-55", "episode_len_mean": 25.4, "timesteps_total": 703200, "episode_reward_mean": -32.82625094359514, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.52698230743408, "training_iteration": 586, "info": {"default": {"policy_loss": -0.1382385641336441, "vf_explained_var": 0.06584254652261734, "vf_loss": 381.5049743652344, "kl": 0.00880398415029049, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.686389923095703, "total_loss": 381.411865234375}, "sample_time_ms": 40205.057, "num_steps_trained": 703200, "num_steps_sampled": 703200, "update_time_ms": 2.501, "grad_time_ms": 372.729, "load_time_ms": 0.669}, "iterations_since_restore": 586, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 23735.540723085403, "episodes_total": 19860, "episode_reward_max": 8.000000467292248, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 23735.540723085403, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 56, "timestamp": 1757078437, "timesteps_since_restore": 704400, "episode_reward_min": -85.46174798343843, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-20-37", "episode_len_mean": 22.23, "timesteps_total": 704400, "episode_reward_mean": -26.965123833085926, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.30928349494934, "training_iteration": 587, "info": {"default": {"policy_loss": -0.1320469081401825, "vf_explained_var": 0.06671318411827087, "vf_loss": 391.91998291015625, "kl": 0.008513467386364937, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.525609970092773, "total_loss": 391.8315734863281}, "sample_time_ms": 40313.481, "num_steps_trained": 704400, "num_steps_sampled": 704400, "update_time_ms": 2.495, "grad_time_ms": 372.632, "load_time_ms": 0.67}, "iterations_since_restore": 587, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 23777.060730218887, "episodes_total": 19907, "episode_reward_max": 8.000000467292248, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 23777.060730218887, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 47, "timestamp": 1757078478, "timesteps_since_restore": 705600, "episode_reward_min": -85.46174798343843, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-21-18", "episode_len_mean": 22.95, "timesteps_total": 705600, "episode_reward_mean": -28.695810404838156, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.52000713348389, "training_iteration": 588, "info": {"default": {"policy_loss": -0.15516000986099243, "vf_explained_var": 0.059732165187597275, "vf_loss": 400.52294921875, "kl": 0.009159320034086704, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.835357666015625, "total_loss": 400.41473388671875}, "sample_time_ms": 40406.197, "num_steps_trained": 705600, "num_steps_sampled": 705600, "update_time_ms": 2.518, "grad_time_ms": 375.164, "load_time_ms": 0.678}, "iterations_since_restore": 588, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 23817.519457101822, "episodes_total": 19962, "episode_reward_max": 6.000485262199693, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 23817.519457101822, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 55, "timestamp": 1757078519, "timesteps_since_restore": 706800, "episode_reward_min": -85.35194184902377, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-21-59", "episode_len_mean": 23.47, "timesteps_total": 706800, "episode_reward_mean": -29.913566219363236, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.45872688293457, "training_iteration": 589, "info": {"default": {"policy_loss": -0.14013995230197906, "vf_explained_var": 0.07803792506456375, "vf_loss": 348.3037109375, "kl": 0.008466712199151516, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.69032096862793, "total_loss": 348.20697021484375}, "sample_time_ms": 40387.115, "num_steps_trained": 706800, "num_steps_sampled": 706800, "update_time_ms": 2.573, "grad_time_ms": 375.317, "load_time_ms": 0.679}, "iterations_since_restore": 589, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 23858.215331315994, "episodes_total": 20016, "episode_reward_max": 6.000485262199693, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 23858.215331315994, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 54, "timestamp": 1757078559, "timesteps_since_restore": 708000, "episode_reward_min": -85.35194184902377, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-22-39", "episode_len_mean": 22.52, "timesteps_total": 708000, "episode_reward_mean": -27.922525408716194, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.69587421417236, "training_iteration": 590, "info": {"default": {"policy_loss": -0.13181184232234955, "vf_explained_var": 0.04153881594538689, "vf_loss": 355.17926025390625, "kl": 0.00998743250966072, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.58536148071289, "total_loss": 355.0986328125}, "sample_time_ms": 40414.245, "num_steps_trained": 708000, "num_steps_sampled": 708000, "update_time_ms": 2.579, "grad_time_ms": 375.771, "load_time_ms": 0.695}, "iterations_since_restore": 590, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 23898.986093759537, "episodes_total": 20062, "episode_reward_max": 8.000000400002264, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 23898.986093759537, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 46, "timestamp": 1757078600, "timesteps_since_restore": 709200, "episode_reward_min": -84.05183164300784, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-23-20", "episode_len_mean": 23.72, "timesteps_total": 709200, "episode_reward_mean": -29.624658141545414, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.77076244354248, "training_iteration": 591, "info": {"default": {"policy_loss": -0.139335036277771, "vf_explained_var": 0.06001961976289749, "vf_loss": 378.2738342285156, "kl": 0.009620320051908493, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.20216178894043, "total_loss": 378.18377685546875}, "sample_time_ms": 40388.762, "num_steps_trained": 709200, "num_steps_sampled": 709200, "update_time_ms": 2.546, "grad_time_ms": 376.164, "load_time_ms": 0.73}, "iterations_since_restore": 591, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 23939.775871038437, "episodes_total": 20114, "episode_reward_max": 8.000000402133377, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 23939.775871038437, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 52, "timestamp": 1757078641, "timesteps_since_restore": 710400, "episode_reward_min": -84.05183164300784, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-24-01", "episode_len_mean": 23.95, "timesteps_total": 710400, "episode_reward_mean": -30.017497973516, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.78977727890015, "training_iteration": 592, "info": {"default": {"policy_loss": -0.13260160386562347, "vf_explained_var": 0.03486235812306404, "vf_loss": 387.0981750488281, "kl": 0.009790892712771893, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.745741844177246, "total_loss": 387.0157775878906}, "sample_time_ms": 40364.673, "num_steps_trained": 710400, "num_steps_sampled": 710400, "update_time_ms": 2.532, "grad_time_ms": 375.431, "load_time_ms": 0.738}, "iterations_since_restore": 592, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 23980.42738056183, "episodes_total": 20168, "episode_reward_max": 8.000000402133377, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 23980.42738056183, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 54, "timestamp": 1757078682, "timesteps_since_restore": 711600, "episode_reward_min": -82.98166832125104, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-24-42", "episode_len_mean": 21.91, "timesteps_total": 711600, "episode_reward_mean": -26.38351196175407, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.651509523391724, "training_iteration": 593, "info": {"default": {"policy_loss": -0.13303621113300323, "vf_explained_var": 0.04756268486380577, "vf_loss": 369.7297668457031, "kl": 0.007937084883451462, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.976226806640625, "total_loss": 369.6374206542969}, "sample_time_ms": 40379.653, "num_steps_trained": 711600, "num_steps_sampled": 711600, "update_time_ms": 2.491, "grad_time_ms": 374.945, "load_time_ms": 0.742}, "iterations_since_restore": 593, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 24020.971447706223, "episodes_total": 20228, "episode_reward_max": 8.000000400000001, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 24020.971447706223, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 60, "timestamp": 1757078722, "timesteps_since_restore": 712800, "episode_reward_min": -84.71265906973404, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-25-22", "episode_len_mean": 21.6, "timesteps_total": 712800, "episode_reward_mean": -25.651251735938544, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.54406714439392, "training_iteration": 594, "info": {"default": {"policy_loss": -0.1431364268064499, "vf_explained_var": 0.04867449030280113, "vf_loss": 391.9314270019531, "kl": 0.008978809230029583, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.262475967407227, "total_loss": 391.8343200683594}, "sample_time_ms": 40362.795, "num_steps_trained": 712800, "num_steps_sampled": 712800, "update_time_ms": 2.519, "grad_time_ms": 374.284, "load_time_ms": 0.729}, "iterations_since_restore": 594, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 24061.04118180275, "episodes_total": 20271, "episode_reward_max": 8.000004529377527, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 24061.04118180275, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 43, "timestamp": 1757078762, "timesteps_since_restore": 714000, "episode_reward_min": -86.84615062128374, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-26-02", "episode_len_mean": 23.35, "timesteps_total": 714000, "episode_reward_mean": -29.055485408847595, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.0697340965271, "training_iteration": 595, "info": {"default": {"policy_loss": -0.1459115445613861, "vf_explained_var": 0.03521303832530975, "vf_loss": 422.4296875, "kl": 0.00958200078457594, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.997396469116211, "total_loss": 422.3328857421875}, "sample_time_ms": 40351.782, "num_steps_trained": 714000, "num_steps_sampled": 714000, "update_time_ms": 2.531, "grad_time_ms": 373.862, "load_time_ms": 0.719}, "iterations_since_restore": 595, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 24102.827416181564, "episodes_total": 20327, "episode_reward_max": 8.000004529377527, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 24102.827416181564, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 56, "timestamp": 1757078804, "timesteps_since_restore": 715200, "episode_reward_min": -86.84615062128374, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-26-44", "episode_len_mean": 24.62, "timesteps_total": 715200, "episode_reward_mean": -31.382214199236, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.7862343788147, "training_iteration": 596, "info": {"default": {"policy_loss": -0.12816883623600006, "vf_explained_var": 0.05760551989078522, "vf_loss": 388.49365234375, "kl": 0.010559524409472942, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.574271202087402, "total_loss": 388.4195861816406}, "sample_time_ms": 40478.52, "num_steps_trained": 715200, "num_steps_sampled": 715200, "update_time_ms": 2.541, "grad_time_ms": 373.094, "load_time_ms": 0.708}, "iterations_since_restore": 596, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 24143.265095949173, "episodes_total": 20377, "episode_reward_max": 8.000000400001078, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 24143.265095949173, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 50, "timestamp": 1757078845, "timesteps_since_restore": 716400, "episode_reward_min": -84.81182708780875, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-27-25", "episode_len_mean": 22.7, "timesteps_total": 716400, "episode_reward_mean": -27.491127723296167, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.43767976760864, "training_iteration": 597, "info": {"default": {"policy_loss": -0.1383669078350067, "vf_explained_var": 0.08401365578174591, "vf_loss": 316.56982421875, "kl": 0.01035618782043457, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.928258895874023, "total_loss": 316.4845275878906}, "sample_time_ms": 40389.814, "num_steps_trained": 716400, "num_steps_sampled": 716400, "update_time_ms": 2.557, "grad_time_ms": 374.612, "load_time_ms": 0.702}, "iterations_since_restore": 597, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 24184.24947786331, "episodes_total": 20437, "episode_reward_max": 8.000000400003906, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 24184.24947786331, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 60, "timestamp": 1757078886, "timesteps_since_restore": 717600, "episode_reward_min": -84.03197955257998, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-28-06", "episode_len_mean": 21.77, "timesteps_total": 717600, "episode_reward_mean": -25.69561495461461, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.984381914138794, "training_iteration": 598, "info": {"default": {"policy_loss": -0.1369277685880661, "vf_explained_var": 0.044587478041648865, "vf_loss": 387.853515625, "kl": 0.008268937468528748, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.066542625427246, "total_loss": 387.7589416503906}, "sample_time_ms": 40338.335, "num_steps_trained": 717600, "num_steps_sampled": 717600, "update_time_ms": 2.534, "grad_time_ms": 372.577, "load_time_ms": 0.705}, "iterations_since_restore": 598, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 24224.75855088234, "episodes_total": 20486, "episode_reward_max": 8.000000400003906, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 24224.75855088234, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 49, "timestamp": 1757078926, "timesteps_since_restore": 718800, "episode_reward_min": -84.2183476215236, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-28-46", "episode_len_mean": 22.61, "timesteps_total": 718800, "episode_reward_mean": -27.5088772107678, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.50907301902771, "training_iteration": 599, "info": {"default": {"policy_loss": -0.14777131378650665, "vf_explained_var": 0.05234648287296295, "vf_loss": 372.1739501953125, "kl": 0.009287356398999691, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.146808624267578, "total_loss": 372.0737609863281}, "sample_time_ms": 40343.241, "num_steps_trained": 718800, "num_steps_sampled": 718800, "update_time_ms": 2.491, "grad_time_ms": 372.816, "load_time_ms": 0.706}, "iterations_since_restore": 599, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 24264.925124168396, "episodes_total": 20539, "episode_reward_max": 6.0001564848963485, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 24264.925124168396, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 53, "timestamp": 1757078966, "timesteps_since_restore": 720000, "episode_reward_min": -84.57142101971606, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-29-26", "episode_len_mean": 23.16, "timesteps_total": 720000, "episode_reward_mean": -28.52825149802938, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.16657328605652, "training_iteration": 600, "info": {"default": {"policy_loss": -0.1299002319574356, "vf_explained_var": 0.04730801284313202, "vf_loss": 357.0999450683594, "kl": 0.009158496744930744, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.710599899291992, "total_loss": 357.0169677734375}, "sample_time_ms": 40293.364, "num_steps_trained": 720000, "num_steps_sampled": 720000, "update_time_ms": 2.47, "grad_time_ms": 369.84, "load_time_ms": 0.693}, "iterations_since_restore": 600, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 24305.08263850212, "episodes_total": 20586, "episode_reward_max": 6.0001564848963485, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 24305.08263850212, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 47, "timestamp": 1757079007, "timesteps_since_restore": 721200, "episode_reward_min": -84.57142101971606, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-30-07", "episode_len_mean": 23.38, "timesteps_total": 721200, "episode_reward_mean": -29.285911494940482, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.157514333724976, "training_iteration": 601, "info": {"default": {"policy_loss": -0.1448233723640442, "vf_explained_var": 0.044699329882860184, "vf_loss": 427.5722351074219, "kl": 0.009211943484842777, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.504899978637695, "total_loss": 427.47467041015625}, "sample_time_ms": 40232.697, "num_steps_trained": 721200, "num_steps_sampled": 721200, "update_time_ms": 2.518, "grad_time_ms": 369.208, "load_time_ms": 0.652}, "iterations_since_restore": 601, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 24345.4074511528, "episodes_total": 20638, "episode_reward_max": 8.000027286738467, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 24345.4074511528, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 52, "timestamp": 1757079047, "timesteps_since_restore": 722400, "episode_reward_min": -84.0708231913385, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-30-47", "episode_len_mean": 24.12, "timesteps_total": 722400, "episode_reward_mean": -30.177752624646537, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.32481265068054, "training_iteration": 602, "info": {"default": {"policy_loss": -0.13600125908851624, "vf_explained_var": 0.05844730883836746, "vf_loss": 355.1598205566406, "kl": 0.009557381272315979, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.490968704223633, "total_loss": 355.07281494140625}, "sample_time_ms": 40185.987, "num_steps_trained": 722400, "num_steps_sampled": 722400, "update_time_ms": 2.514, "grad_time_ms": 369.407, "load_time_ms": 0.668}, "iterations_since_restore": 602, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 24385.82950615883, "episodes_total": 20683, "episode_reward_max": 8.000027286738467, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 24385.82950615883, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 45, "timestamp": 1757079087, "timesteps_since_restore": 723600, "episode_reward_min": -83.95479981008113, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-31-27", "episode_len_mean": 25.0, "timesteps_total": 723600, "episode_reward_mean": -31.45594146914864, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.42205500602722, "training_iteration": 603, "info": {"default": {"policy_loss": -0.14268487691879272, "vf_explained_var": 0.05287957936525345, "vf_loss": 331.7727355957031, "kl": 0.008890076540410519, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.633769989013672, "total_loss": 331.6756286621094}, "sample_time_ms": 40161.778, "num_steps_trained": 723600, "num_steps_sampled": 723600, "update_time_ms": 2.549, "grad_time_ms": 370.578, "load_time_ms": 0.673}, "iterations_since_restore": 603, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 24427.613889217377, "episodes_total": 20728, "episode_reward_max": 8.000027286738467, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 24427.613889217377, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 45, "timestamp": 1757079129, "timesteps_since_restore": 724800, "episode_reward_min": -83.95479981008113, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-32-09", "episode_len_mean": 26.39, "timesteps_total": 724800, "episode_reward_mean": -34.21459197615981, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.784383058547974, "training_iteration": 604, "info": {"default": {"policy_loss": -0.1361415535211563, "vf_explained_var": 0.037054043263196945, "vf_loss": 399.7581481933594, "kl": 0.008550567552447319, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.201265335083008, "total_loss": 399.6658020019531}, "sample_time_ms": 40283.839, "num_steps_trained": 724800, "num_steps_sampled": 724800, "update_time_ms": 2.58, "grad_time_ms": 372.472, "load_time_ms": 0.693}, "iterations_since_restore": 604, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 24470.080059051514, "episodes_total": 20776, "episode_reward_max": 8.00000050074381, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 24470.080059051514, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 48, "timestamp": 1757079172, "timesteps_since_restore": 726000, "episode_reward_min": -83.86711663985983, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-32-52", "episode_len_mean": 26.27, "timesteps_total": 726000, "episode_reward_mean": -33.505610756005105, "num_metric_batches_dropped": 0, "time_this_iter_s": 42.46616983413696, "training_iteration": 605, "info": {"default": {"policy_loss": -0.12924864888191223, "vf_explained_var": 0.046103015542030334, "vf_loss": 341.50128173828125, "kl": 0.010072211734950542, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.826366424560547, "total_loss": 341.4236755371094}, "sample_time_ms": 40524.956, "num_steps_trained": 726000, "num_steps_sampled": 726000, "update_time_ms": 2.606, "grad_time_ms": 370.988, "load_time_ms": 0.699}, "iterations_since_restore": 605, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 24510.415741205215, "episodes_total": 20831, "episode_reward_max": 6.000164836050243, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 24510.415741205215, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 55, "timestamp": 1757079212, "timesteps_since_restore": 727200, "episode_reward_min": -83.71936354772548, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-33-32", "episode_len_mean": 23.53, "timesteps_total": 727200, "episode_reward_mean": -28.61481068473813, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.33568215370178, "training_iteration": 606, "info": {"default": {"policy_loss": -0.14191076159477234, "vf_explained_var": 0.047469332814216614, "vf_loss": 379.6931457519531, "kl": 0.009210688062012196, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.510305404663086, "total_loss": 379.59844970703125}, "sample_time_ms": 40381.736, "num_steps_trained": 727200, "num_steps_sampled": 727200, "update_time_ms": 2.571, "grad_time_ms": 369.183, "load_time_ms": 0.697}, "iterations_since_restore": 606, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 24552.116496562958, "episodes_total": 20879, "episode_reward_max": 6.0005839085830575, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 24552.116496562958, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 48, "timestamp": 1757079254, "timesteps_since_restore": 728400, "episode_reward_min": -83.35630821387335, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-34-14", "episode_len_mean": 23.24, "timesteps_total": 728400, "episode_reward_mean": -28.46168811179525, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.70075535774231, "training_iteration": 607, "info": {"default": {"policy_loss": -0.138630211353302, "vf_explained_var": 0.059327322989702225, "vf_loss": 391.81622314453125, "kl": 0.009754837490618229, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.97158432006836, "total_loss": 391.7275695800781}, "sample_time_ms": 40507.683, "num_steps_trained": 728400, "num_steps_sampled": 728400, "update_time_ms": 2.581, "grad_time_ms": 369.527, "load_time_ms": 0.702}, "iterations_since_restore": 607, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 24593.64282822609, "episodes_total": 20942, "episode_reward_max": 6.0005839085830575, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 24593.64282822609, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 63, "timestamp": 1757079295, "timesteps_since_restore": 729600, "episode_reward_min": -83.35630821387335, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-34-55", "episode_len_mean": 20.7, "timesteps_total": 729600, "episode_reward_mean": -24.07304106066957, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.526331663131714, "training_iteration": 608, "info": {"default": {"policy_loss": -0.12287480384111404, "vf_explained_var": 0.06512881815433502, "vf_loss": 346.5931396484375, "kl": 0.009880936704576015, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.576223373413086, "total_loss": 346.5208740234375}, "sample_time_ms": 40560.346, "num_steps_trained": 729600, "num_steps_sampled": 729600, "update_time_ms": 2.572, "grad_time_ms": 371.065, "load_time_ms": 0.69}, "iterations_since_restore": 608, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 24634.367307424545, "episodes_total": 20983, "episode_reward_max": 6.000233129587326, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 24634.367307424545, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 41, "timestamp": 1757079336, "timesteps_since_restore": 730800, "episode_reward_min": -83.25600016115013, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-35-36", "episode_len_mean": 23.06, "timesteps_total": 730800, "episode_reward_mean": -28.294038226380767, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.72447919845581, "training_iteration": 609, "info": {"default": {"policy_loss": -0.1399882435798645, "vf_explained_var": 0.054973285645246506, "vf_loss": 362.0992431640625, "kl": 0.00990764144808054, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.934494972229004, "total_loss": 362.0100402832031}, "sample_time_ms": 40581.502, "num_steps_trained": 730800, "num_steps_sampled": 730800, "update_time_ms": 2.594, "grad_time_ms": 371.392, "load_time_ms": 0.695}, "iterations_since_restore": 609, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 24674.59463119507, "episodes_total": 21030, "episode_reward_max": 8.00000040042937, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 24674.59463119507, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 47, "timestamp": 1757079376, "timesteps_since_restore": 732000, "episode_reward_min": -84.52549714302913, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-36-16", "episode_len_mean": 25.94, "timesteps_total": 732000, "episode_reward_mean": -33.469250254431735, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.22732377052307, "training_iteration": 610, "info": {"default": {"policy_loss": -0.13990773260593414, "vf_explained_var": 0.05430303514003754, "vf_loss": 415.2906188964844, "kl": 0.009759060107171535, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.922138214111328, "total_loss": 415.20074462890625}, "sample_time_ms": 40585.189, "num_steps_trained": 732000, "num_steps_sampled": 732000, "update_time_ms": 2.636, "grad_time_ms": 373.684, "load_time_ms": 0.707}, "iterations_since_restore": 610, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 24715.0360724926, "episodes_total": 21082, "episode_reward_max": 8.00000040042937, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 24715.0360724926, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 52, "timestamp": 1757079417, "timesteps_since_restore": 733200, "episode_reward_min": -89.13310328764744, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-36-57", "episode_len_mean": 24.5, "timesteps_total": 733200, "episode_reward_mean": -30.934448237639913, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.44144129753113, "training_iteration": 611, "info": {"default": {"policy_loss": -0.14285783469676971, "vf_explained_var": 0.055050160735845566, "vf_loss": 347.4284973144531, "kl": 0.008646698668599129, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.547619819641113, "total_loss": 347.3299865722656}, "sample_time_ms": 40615.649, "num_steps_trained": 733200, "num_steps_sampled": 733200, "update_time_ms": 2.65, "grad_time_ms": 371.602, "load_time_ms": 0.709}, "iterations_since_restore": 611, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 24755.88542318344, "episodes_total": 21134, "episode_reward_max": 6.000368671655714, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 24755.88542318344, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 52, "timestamp": 1757079458, "timesteps_since_restore": 734400, "episode_reward_min": -89.13310328764744, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-37-38", "episode_len_mean": 23.18, "timesteps_total": 734400, "episode_reward_mean": -28.300310387272734, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.849350690841675, "training_iteration": 612, "info": {"default": {"policy_loss": -0.13208331167697906, "vf_explained_var": 0.05587300285696983, "vf_loss": 358.21185302734375, "kl": 0.008394777774810791, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.886152267456055, "total_loss": 358.122802734375}, "sample_time_ms": 40667.167, "num_steps_trained": 734400, "num_steps_sampled": 734400, "update_time_ms": 2.657, "grad_time_ms": 372.565, "load_time_ms": 0.688}, "iterations_since_restore": 612, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 24796.694402456284, "episodes_total": 21192, "episode_reward_max": 6.000497543589239, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 24796.694402456284, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 58, "timestamp": 1757079498, "timesteps_since_restore": 735600, "episode_reward_min": -82.51096184941372, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-38-18", "episode_len_mean": 21.69, "timesteps_total": 735600, "episode_reward_mean": -25.41183984097305, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.80897927284241, "training_iteration": 613, "info": {"default": {"policy_loss": -0.13314975798130035, "vf_explained_var": 0.09040381014347076, "vf_loss": 327.7677307128906, "kl": 0.008829405531287193, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.78629207611084, "total_loss": 327.6798400878906}, "sample_time_ms": 40707.522, "num_steps_trained": 735600, "num_steps_sampled": 735600, "update_time_ms": 2.65, "grad_time_ms": 370.933, "load_time_ms": 0.686}, "iterations_since_restore": 613, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 24837.00044107437, "episodes_total": 21239, "episode_reward_max": 6.000497543589239, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 24837.00044107437, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 47, "timestamp": 1757079539, "timesteps_since_restore": 736800, "episode_reward_min": -83.98433220383868, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-38-59", "episode_len_mean": 22.79, "timesteps_total": 736800, "episode_reward_mean": -27.55008306048574, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.30603861808777, "training_iteration": 614, "info": {"default": {"policy_loss": -0.14171114563941956, "vf_explained_var": 0.09434985369443893, "vf_loss": 339.34429931640625, "kl": 0.008535723201930523, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.591014862060547, "total_loss": 339.2463073730469}, "sample_time_ms": 40559.314, "num_steps_trained": 736800, "num_steps_sampled": 736800, "update_time_ms": 2.602, "grad_time_ms": 371.393, "load_time_ms": 0.666}, "iterations_since_restore": 614, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 24877.947942495346, "episodes_total": 21291, "episode_reward_max": 6.000147961170829, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 24877.947942495346, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 52, "timestamp": 1757079580, "timesteps_since_restore": 738000, "episode_reward_min": -83.98433220383868, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-39-40", "episode_len_mean": 24.05, "timesteps_total": 738000, "episode_reward_mean": -29.89663044157102, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.94750142097473, "training_iteration": 615, "info": {"default": {"policy_loss": -0.13586917519569397, "vf_explained_var": 0.06351861357688904, "vf_loss": 378.4761657714844, "kl": 0.008193958550691605, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.315361976623535, "total_loss": 378.38226318359375}, "sample_time_ms": 40406.464, "num_steps_trained": 738000, "num_steps_sampled": 738000, "update_time_ms": 2.587, "grad_time_ms": 372.362, "load_time_ms": 0.665}, "iterations_since_restore": 615, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 24918.37979078293, "episodes_total": 21344, "episode_reward_max": 6.000221594778455, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 24918.37979078293, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 53, "timestamp": 1757079620, "timesteps_since_restore": 739200, "episode_reward_min": -84.48559373634234, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-40-20", "episode_len_mean": 22.28, "timesteps_total": 739200, "episode_reward_mean": -27.460588953380757, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.4318482875824, "training_iteration": 616, "info": {"default": {"policy_loss": -0.13921412825584412, "vf_explained_var": 0.03981456533074379, "vf_loss": 427.455322265625, "kl": 0.00870260875672102, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.456277847290039, "total_loss": 427.3607177734375}, "sample_time_ms": 40414.132, "num_steps_trained": 739200, "num_steps_sampled": 739200, "update_time_ms": 2.603, "grad_time_ms": 374.269, "load_time_ms": 0.678}, "iterations_since_restore": 616, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 24958.65509748459, "episodes_total": 21387, "episode_reward_max": 8.000000400001284, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 24958.65509748459, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 43, "timestamp": 1757079660, "timesteps_since_restore": 740400, "episode_reward_min": -84.48559373634234, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-41-00", "episode_len_mean": 24.57, "timesteps_total": 740400, "episode_reward_mean": -31.764825677922737, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.275306701660156, "training_iteration": 617, "info": {"default": {"policy_loss": -0.13822530210018158, "vf_explained_var": 0.042481277137994766, "vf_loss": 392.3449401855469, "kl": 0.008851277641952038, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.923352241516113, "total_loss": 392.2520751953125}, "sample_time_ms": 40270.54, "num_steps_trained": 740400, "num_steps_sampled": 740400, "update_time_ms": 2.582, "grad_time_ms": 375.318, "load_time_ms": 0.681}, "iterations_since_restore": 617, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 24998.409350156784, "episodes_total": 21428, "episode_reward_max": 8.000000400001284, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 24998.409350156784, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 41, "timestamp": 1757079700, "timesteps_since_restore": 741600, "episode_reward_min": -84.24090340583206, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-41-40", "episode_len_mean": 27.75, "timesteps_total": 741600, "episode_reward_mean": -37.16501722229587, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.754252672195435, "training_iteration": 618, "info": {"default": {"policy_loss": -0.13654190301895142, "vf_explained_var": 0.05191190913319588, "vf_loss": 400.2810363769531, "kl": 0.009035798721015453, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.127488136291504, "total_loss": 400.1907958984375}, "sample_time_ms": 40095.181, "num_steps_trained": 741600, "num_steps_sampled": 741600, "update_time_ms": 2.615, "grad_time_ms": 373.455, "load_time_ms": 0.685}, "iterations_since_restore": 618, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 25040.844633579254, "episodes_total": 21479, "episode_reward_max": 8.000000399999934, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 25040.844633579254, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 51, "timestamp": 1757079743, "timesteps_since_restore": 742800, "episode_reward_min": -83.7149449910713, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-42-23", "episode_len_mean": 27.01, "timesteps_total": 742800, "episode_reward_mean": -35.08734683413127, "num_metric_batches_dropped": 0, "time_this_iter_s": 42.43528342247009, "training_iteration": 619, "info": {"default": {"policy_loss": -0.14082343876361847, "vf_explained_var": 0.040021199733018875, "vf_loss": 379.7108154296875, "kl": 0.013540919870138168, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.542041778564453, "total_loss": 379.6394348144531}, "sample_time_ms": 40267.155, "num_steps_trained": 742800, "num_steps_sampled": 742800, "update_time_ms": 2.585, "grad_time_ms": 372.603, "load_time_ms": 0.681}, "iterations_since_restore": 619, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 25081.32364463806, "episodes_total": 21533, "episode_reward_max": 8.000000481312663, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 25081.32364463806, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 54, "timestamp": 1757079783, "timesteps_since_restore": 744000, "episode_reward_min": -83.80935288637947, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-43-03", "episode_len_mean": 22.29, "timesteps_total": 744000, "episode_reward_mean": -26.555145721054156, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.47901105880737, "training_iteration": 620, "info": {"default": {"policy_loss": -0.14663855731487274, "vf_explained_var": 0.06005018204450607, "vf_loss": 371.0437927246094, "kl": 0.010164259001612663, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.685025215148926, "total_loss": 370.94921875}, "sample_time_ms": 40294.274, "num_steps_trained": 744000, "num_steps_sampled": 744000, "update_time_ms": 2.544, "grad_time_ms": 370.706, "load_time_ms": 0.676}, "iterations_since_restore": 620, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 25122.272487401962, "episodes_total": 21590, "episode_reward_max": 8.000000481312663, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 25122.272487401962, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 57, "timestamp": 1757079824, "timesteps_since_restore": 745200, "episode_reward_min": -83.94173811644612, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-43-44", "episode_len_mean": 21.52, "timesteps_total": 745200, "episode_reward_mean": -25.102076036691237, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.94884276390076, "training_iteration": 621, "info": {"default": {"policy_loss": -0.12979984283447266, "vf_explained_var": 0.05815710127353668, "vf_loss": 295.2354736328125, "kl": 0.009262924082577229, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.226744651794434, "total_loss": 295.1531982421875}, "sample_time_ms": 40344.672, "num_steps_trained": 745200, "num_steps_sampled": 745200, "update_time_ms": 2.568, "grad_time_ms": 371.006, "load_time_ms": 0.677}, "iterations_since_restore": 621, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 25162.901399374008, "episodes_total": 21647, "episode_reward_max": 6.000115938021381, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 25162.901399374008, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 57, "timestamp": 1757079865, "timesteps_since_restore": 746400, "episode_reward_min": -82.27612945177565, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-44-25", "episode_len_mean": 20.64, "timesteps_total": 746400, "episode_reward_mean": -23.488296054451055, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.6289119720459, "training_iteration": 622, "info": {"default": {"policy_loss": -0.1303776353597641, "vf_explained_var": 0.0661151185631752, "vf_loss": 337.9927978515625, "kl": 0.008878227323293686, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.92686939239502, "total_loss": 337.9079284667969}, "sample_time_ms": 40324.276, "num_steps_trained": 746400, "num_steps_sampled": 746400, "update_time_ms": 2.553, "grad_time_ms": 369.405, "load_time_ms": 0.673}, "iterations_since_restore": 622, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 25203.49360060692, "episodes_total": 21702, "episode_reward_max": 6.000121888871918, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 25203.49360060692, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 55, "timestamp": 1757079905, "timesteps_since_restore": 747600, "episode_reward_min": -83.7708115891026, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-45-05", "episode_len_mean": 20.83, "timesteps_total": 747600, "episode_reward_mean": -24.45451179262771, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.592201232910156, "training_iteration": 623, "info": {"default": {"policy_loss": -0.13189862668514252, "vf_explained_var": 0.04797222092747688, "vf_loss": 392.88177490234375, "kl": 0.009608070366084576, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.990930557250977, "total_loss": 392.7991638183594}, "sample_time_ms": 40301.656, "num_steps_trained": 747600, "num_steps_sampled": 747600, "update_time_ms": 2.524, "grad_time_ms": 370.362, "load_time_ms": 0.674}, "iterations_since_restore": 623, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 25243.89462661743, "episodes_total": 21760, "episode_reward_max": 6.00105428389557, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 25243.89462661743, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 58, "timestamp": 1757079946, "timesteps_since_restore": 748800, "episode_reward_min": -84.89136401492522, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-45-46", "episode_len_mean": 20.77, "timesteps_total": 748800, "episode_reward_mean": -24.245331779213565, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.401026010513306, "training_iteration": 624, "info": {"default": {"policy_loss": -0.12069802731275558, "vf_explained_var": 0.0582752488553524, "vf_loss": 363.4339294433594, "kl": 0.00953526422381401, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.445428848266602, "total_loss": 363.36212158203125}, "sample_time_ms": 40313.552, "num_steps_trained": 748800, "num_steps_sampled": 748800, "update_time_ms": 2.54, "grad_time_ms": 367.919, "load_time_ms": 0.684}, "iterations_since_restore": 624, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 25284.553844690323, "episodes_total": 21822, "episode_reward_max": 6.00105428389557, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 25284.553844690323, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 62, "timestamp": 1757079987, "timesteps_since_restore": 750000, "episode_reward_min": -85.36937697108755, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-46-27", "episode_len_mean": 19.96, "timesteps_total": 750000, "episode_reward_mean": -22.375557059744562, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.659218072891235, "training_iteration": 625, "info": {"default": {"policy_loss": -0.13086289167404175, "vf_explained_var": 0.04969227313995361, "vf_loss": 303.2268371582031, "kl": 0.010936732403934002, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.624919891357422, "total_loss": 303.15203857421875}, "sample_time_ms": 40284.696, "num_steps_trained": 750000, "num_steps_sampled": 750000, "update_time_ms": 2.525, "grad_time_ms": 367.946, "load_time_ms": 0.677}, "iterations_since_restore": 625, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 25324.515888929367, "episodes_total": 21875, "episode_reward_max": 6.000146406979962, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 25324.515888929367, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 53, "timestamp": 1757080026, "timesteps_since_restore": 751200, "episode_reward_min": -85.36937697108755, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-47-06", "episode_len_mean": 20.75, "timesteps_total": 751200, "episode_reward_mean": -23.784447957883096, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.96204423904419, "training_iteration": 626, "info": {"default": {"policy_loss": -0.12827426195144653, "vf_explained_var": 0.049189791083335876, "vf_loss": 366.8114318847656, "kl": 0.00840242113918066, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.327120780944824, "total_loss": 366.72625732421875}, "sample_time_ms": 40239.727, "num_steps_trained": 751200, "num_steps_sampled": 751200, "update_time_ms": 2.553, "grad_time_ms": 365.919, "load_time_ms": 0.67}, "iterations_since_restore": 626, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 25364.725041866302, "episodes_total": 21927, "episode_reward_max": 8.00000433651272, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 25364.725041866302, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 52, "timestamp": 1757080067, "timesteps_since_restore": 752400, "episode_reward_min": -84.44871859484367, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-47-47", "episode_len_mean": 22.45, "timesteps_total": 752400, "episode_reward_mean": -27.174923934325253, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.209152936935425, "training_iteration": 627, "info": {"default": {"policy_loss": -0.13107679784297943, "vf_explained_var": 0.07083679735660553, "vf_loss": 398.0537109375, "kl": 0.00949773844331503, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.805924415588379, "total_loss": 397.9713134765625}, "sample_time_ms": 40233.224, "num_steps_trained": 752400, "num_steps_sampled": 752400, "update_time_ms": 2.567, "grad_time_ms": 365.761, "load_time_ms": 0.665}, "iterations_since_restore": 627, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 25405.91765189171, "episodes_total": 21988, "episode_reward_max": 8.00000433651272, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 25405.91765189171, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 61, "timestamp": 1757080108, "timesteps_since_restore": 753600, "episode_reward_min": -83.42936345989669, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-48-28", "episode_len_mean": 21.05, "timesteps_total": 753600, "episode_reward_mean": -25.4164018464689, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.192610025405884, "training_iteration": 628, "info": {"default": {"policy_loss": -0.13577991724014282, "vf_explained_var": 0.05624391511082649, "vf_loss": 465.0052185058594, "kl": 0.009808357805013657, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.116593360900879, "total_loss": 464.9197082519531}, "sample_time_ms": 40375.188, "num_steps_trained": 753600, "num_steps_sampled": 753600, "update_time_ms": 2.601, "grad_time_ms": 367.568, "load_time_ms": 0.666}, "iterations_since_restore": 628, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 25446.15123963356, "episodes_total": 22039, "episode_reward_max": 6.000331075652371, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 25446.15123963356, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 51, "timestamp": 1757080148, "timesteps_since_restore": 754800, "episode_reward_min": -84.39276188193219, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-49-08", "episode_len_mean": 21.5, "timesteps_total": 754800, "episode_reward_mean": -25.835882188326455, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.23358774185181, "training_iteration": 629, "info": {"default": {"policy_loss": -0.11926893144845963, "vf_explained_var": 0.04437747970223427, "vf_loss": 412.1529846191406, "kl": 0.008310694247484207, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.851436614990234, "total_loss": 412.0763244628906}, "sample_time_ms": 40156.45, "num_steps_trained": 754800, "num_steps_sampled": 754800, "update_time_ms": 2.608, "grad_time_ms": 366.171, "load_time_ms": 0.671}, "iterations_since_restore": 629, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 25486.295435667038, "episodes_total": 22084, "episode_reward_max": 6.000331075652371, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 25486.295435667038, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 45, "timestamp": 1757080188, "timesteps_since_restore": 756000, "episode_reward_min": -84.39276188193219, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-49-48", "episode_len_mean": 24.09, "timesteps_total": 756000, "episode_reward_mean": -30.403046180642264, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.14419603347778, "training_iteration": 630, "info": {"default": {"policy_loss": -0.1411501169204712, "vf_explained_var": 0.04332201927900314, "vf_loss": 386.8531494140625, "kl": 0.008981443010270596, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.93128490447998, "total_loss": 386.7580261230469}, "sample_time_ms": 40120.717, "num_steps_trained": 756000, "num_steps_sampled": 756000, "update_time_ms": 2.613, "grad_time_ms": 368.45, "load_time_ms": 0.668}, "iterations_since_restore": 630, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 25527.423990249634, "episodes_total": 22143, "episode_reward_max": 6.000192444613045, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 25527.423990249634, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 59, "timestamp": 1757080230, "timesteps_since_restore": 757200, "episode_reward_min": -82.6057841163656, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-50-30", "episode_len_mean": 22.46, "timesteps_total": 757200, "episode_reward_mean": -27.270018626785603, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.128554582595825, "training_iteration": 631, "info": {"default": {"policy_loss": -0.1260833889245987, "vf_explained_var": 0.09255239367485046, "vf_loss": 366.3734436035156, "kl": 0.009194769896566868, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.812210083007812, "total_loss": 366.2945251464844}, "sample_time_ms": 40136.759, "num_steps_trained": 757200, "num_steps_sampled": 757200, "update_time_ms": 2.578, "grad_time_ms": 370.397, "load_time_ms": 0.669}, "iterations_since_restore": 631, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 25567.669348955154, "episodes_total": 22200, "episode_reward_max": 6.000241257845395, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 25567.669348955154, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 57, "timestamp": 1757080270, "timesteps_since_restore": 758400, "episode_reward_min": -82.82083779621571, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-51-10", "episode_len_mean": 20.72, "timesteps_total": 758400, "episode_reward_mean": -23.77735929350107, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.24535870552063, "training_iteration": 632, "info": {"default": {"policy_loss": -0.1358955055475235, "vf_explained_var": 0.10011765360832214, "vf_loss": 349.7430114746094, "kl": 0.010028730146586895, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.70235824584961, "total_loss": 349.6584777832031}, "sample_time_ms": 40095.611, "num_steps_trained": 758400, "num_steps_sampled": 758400, "update_time_ms": 2.577, "grad_time_ms": 373.139, "load_time_ms": 0.676}, "iterations_since_restore": 632, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 25609.188788175583, "episodes_total": 22260, "episode_reward_max": 6.000241257845395, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 25609.188788175583, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 60, "timestamp": 1757080311, "timesteps_since_restore": 759600, "episode_reward_min": -83.85050575088566, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-51-51", "episode_len_mean": 21.26, "timesteps_total": 759600, "episode_reward_mean": -24.770393671419907, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.51943922042847, "training_iteration": 633, "info": {"default": {"policy_loss": -0.13612355291843414, "vf_explained_var": 0.05270056426525116, "vf_loss": 292.5561218261719, "kl": 0.009371224790811539, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.26718521118164, "total_loss": 292.4681091308594}, "sample_time_ms": 40190.035, "num_steps_trained": 759600, "num_steps_sampled": 759600, "update_time_ms": 2.625, "grad_time_ms": 371.431, "load_time_ms": 0.664}, "iterations_since_restore": 633, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 25649.523534297943, "episodes_total": 22307, "episode_reward_max": 6.000311522512218, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 25649.523534297943, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 47, "timestamp": 1757080352, "timesteps_since_restore": 760800, "episode_reward_min": -83.85050575088566, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-52-32", "episode_len_mean": 22.6, "timesteps_total": 760800, "episode_reward_mean": -27.079191458373884, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.33474612236023, "training_iteration": 634, "info": {"default": {"policy_loss": -0.12696130573749542, "vf_explained_var": 0.04826429858803749, "vf_loss": 354.7973327636719, "kl": 0.009330607019364834, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.232913970947266, "total_loss": 354.71820068359375}, "sample_time_ms": 40182.875, "num_steps_trained": 760800, "num_steps_sampled": 760800, "update_time_ms": 2.629, "grad_time_ms": 371.933, "load_time_ms": 0.66}, "iterations_since_restore": 634, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 25690.316407203674, "episodes_total": 22362, "episode_reward_max": 6.0008069214529325, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 25690.316407203674, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 55, "timestamp": 1757080393, "timesteps_since_restore": 762000, "episode_reward_min": -84.0302051860021, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-53-13", "episode_len_mean": 23.19, "timesteps_total": 762000, "episode_reward_mean": -28.234776689238693, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.7928729057312, "training_iteration": 635, "info": {"default": {"policy_loss": -0.13061600923538208, "vf_explained_var": 0.08450715243816376, "vf_loss": 341.8819885253906, "kl": 0.009998258203268051, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.137733459472656, "total_loss": 341.8026123046875}, "sample_time_ms": 40196.859, "num_steps_trained": 762000, "num_steps_sampled": 762000, "update_time_ms": 2.667, "grad_time_ms": 371.328, "load_time_ms": 0.668}, "iterations_since_restore": 635, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 25730.628033161163, "episodes_total": 22418, "episode_reward_max": 8.000614113500083, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 25730.628033161163, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 56, "timestamp": 1757080433, "timesteps_since_restore": 763200, "episode_reward_min": -84.0302051860021, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-53-53", "episode_len_mean": 21.82, "timesteps_total": 763200, "episode_reward_mean": -26.17996577083562, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.311625957489014, "training_iteration": 636, "info": {"default": {"policy_loss": -0.1488531082868576, "vf_explained_var": 0.07038131356239319, "vf_loss": 309.6047058105469, "kl": 0.007792631629854441, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.464954376220703, "total_loss": 309.49578857421875}, "sample_time_ms": 40228.998, "num_steps_trained": 763200, "num_steps_sampled": 763200, "update_time_ms": 2.662, "grad_time_ms": 374.104, "load_time_ms": 0.673}, "iterations_since_restore": 636, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 25771.03216290474, "episodes_total": 22469, "episode_reward_max": 8.000614113500083, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 25771.03216290474, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 51, "timestamp": 1757080473, "timesteps_since_restore": 764400, "episode_reward_min": -83.00256809465384, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-54-33", "episode_len_mean": 22.23, "timesteps_total": 764400, "episode_reward_mean": -26.521522690374447, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.40412974357605, "training_iteration": 637, "info": {"default": {"policy_loss": -0.1370745450258255, "vf_explained_var": 0.05867932736873627, "vf_loss": 315.6844177246094, "kl": 0.007800164166837931, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.021917343139648, "total_loss": 315.58734130859375}, "sample_time_ms": 40249.792, "num_steps_trained": 764400, "num_steps_sampled": 764400, "update_time_ms": 2.667, "grad_time_ms": 372.778, "load_time_ms": 0.672}, "iterations_since_restore": 637, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 25811.709154605865, "episodes_total": 22521, "episode_reward_max": 6.000325103911141, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 25811.709154605865, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 52, "timestamp": 1757080514, "timesteps_since_restore": 765600, "episode_reward_min": -84.39073082565776, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-55-14", "episode_len_mean": 22.97, "timesteps_total": 765600, "episode_reward_mean": -27.667254712726475, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.6769917011261, "training_iteration": 638, "info": {"default": {"policy_loss": -0.14020657539367676, "vf_explained_var": 0.0550454705953598, "vf_loss": 314.8042907714844, "kl": 0.008967985399067402, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.18963623046875, "total_loss": 314.7100830078125}, "sample_time_ms": 40200.074, "num_steps_trained": 765600, "num_steps_sampled": 765600, "update_time_ms": 2.651, "grad_time_ms": 370.955, "load_time_ms": 0.67}, "iterations_since_restore": 638, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 25852.083624601364, "episodes_total": 22574, "episode_reward_max": 6.001172848561339, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 25852.083624601364, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 53, "timestamp": 1757080554, "timesteps_since_restore": 766800, "episode_reward_min": -84.39073082565776, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-55-54", "episode_len_mean": 23.2, "timesteps_total": 766800, "episode_reward_mean": -28.89633498785859, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.37446999549866, "training_iteration": 639, "info": {"default": {"policy_loss": -0.14049877226352692, "vf_explained_var": 0.0495244599878788, "vf_loss": 449.2138977050781, "kl": 0.009108745492994785, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.626858711242676, "total_loss": 449.1200866699219}, "sample_time_ms": 40213.493, "num_steps_trained": 766800, "num_steps_sampled": 766800, "update_time_ms": 2.648, "grad_time_ms": 371.575, "load_time_ms": 0.666}, "iterations_since_restore": 639, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 25892.965982675552, "episodes_total": 22635, "episode_reward_max": 6.001172848561339, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 25892.965982675552, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 61, "timestamp": 1757080595, "timesteps_since_restore": 768000, "episode_reward_min": -83.72508337225959, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-56-35", "episode_len_mean": 20.73, "timesteps_total": 768000, "episode_reward_mean": -24.56500045512621, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.88235807418823, "training_iteration": 640, "info": {"default": {"policy_loss": -0.13378220796585083, "vf_explained_var": 0.06875762343406677, "vf_loss": 407.14874267578125, "kl": 0.00924590788781643, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.616419792175293, "total_loss": 407.0623474121094}, "sample_time_ms": 40286.971, "num_steps_trained": 768000, "num_steps_sampled": 768000, "update_time_ms": 2.681, "grad_time_ms": 371.841, "load_time_ms": 0.676}, "iterations_since_restore": 640, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 25934.889359474182, "episodes_total": 22689, "episode_reward_max": 6.000453349823326, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 25934.889359474182, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 54, "timestamp": 1757080637, "timesteps_since_restore": 769200, "episode_reward_min": -82.44031529738285, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-57-17", "episode_len_mean": 21.24, "timesteps_total": 769200, "episode_reward_mean": -24.980617503386608, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.92337679862976, "training_iteration": 641, "info": {"default": {"policy_loss": -0.13876940310001373, "vf_explained_var": 0.0870453417301178, "vf_loss": 330.5697326660156, "kl": 0.01043217908591032, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.399641036987305, "total_loss": 330.4844665527344}, "sample_time_ms": 40367.198, "num_steps_trained": 769200, "num_steps_sampled": 769200, "update_time_ms": 2.656, "grad_time_ms": 371.065, "load_time_ms": 0.675}, "iterations_since_restore": 641, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 25974.805790901184, "episodes_total": 22736, "episode_reward_max": 8.000000400316203, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 25974.805790901184, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 47, "timestamp": 1757080677, "timesteps_since_restore": 770400, "episode_reward_min": -84.18791176867325, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-57-57", "episode_len_mean": 24.16, "timesteps_total": 770400, "episode_reward_mean": -30.16992425963292, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.91643142700195, "training_iteration": 642, "info": {"default": {"policy_loss": -0.1299075037240982, "vf_explained_var": 0.02875264547765255, "vf_loss": 404.0204162597656, "kl": 0.010445494204759598, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.924205780029297, "total_loss": 403.944091796875}, "sample_time_ms": 40334.89, "num_steps_trained": 770400, "num_steps_sampled": 770400, "update_time_ms": 2.701, "grad_time_ms": 370.462, "load_time_ms": 0.67}, "iterations_since_restore": 642, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 26015.379501342773, "episodes_total": 22789, "episode_reward_max": 8.000000400316203, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 26015.379501342773, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 53, "timestamp": 1757080718, "timesteps_since_restore": 771600, "episode_reward_min": -84.18791176867325, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-58-38", "episode_len_mean": 24.39, "timesteps_total": 771600, "episode_reward_mean": -30.148716722478188, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.573710441589355, "training_iteration": 643, "info": {"default": {"policy_loss": -0.13093037903308868, "vf_explained_var": 0.06560102105140686, "vf_loss": 348.0091247558594, "kl": 0.008862566202878952, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.776764869689941, "total_loss": 347.92364501953125}, "sample_time_ms": 40238.443, "num_steps_trained": 771600, "num_steps_sampled": 771600, "update_time_ms": 2.698, "grad_time_ms": 372.329, "load_time_ms": 0.679}, "iterations_since_restore": 643, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 26055.844870328903, "episodes_total": 22841, "episode_reward_max": 8.000000400001149, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 26055.844870328903, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 52, "timestamp": 1757080758, "timesteps_since_restore": 772800, "episode_reward_min": -82.38091530510208, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-59-18", "episode_len_mean": 22.33, "timesteps_total": 772800, "episode_reward_mean": -26.36783541548204, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.46536898612976, "training_iteration": 644, "info": {"default": {"policy_loss": -0.13662850856781006, "vf_explained_var": 0.040170952677726746, "vf_loss": 384.4519348144531, "kl": 0.00868320558220148, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.671871185302734, "total_loss": 384.35980224609375}, "sample_time_ms": 40252.108, "num_steps_trained": 772800, "num_steps_sampled": 772800, "update_time_ms": 2.673, "grad_time_ms": 371.807, "load_time_ms": 0.673}, "iterations_since_restore": 644, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 26096.22877264023, "episodes_total": 22896, "episode_reward_max": 8.000000400565488, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 26096.22877264023, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 55, "timestamp": 1757080799, "timesteps_since_restore": 774000, "episode_reward_min": -86.44272353841272, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_15-59-59", "episode_len_mean": 21.81, "timesteps_total": 774000, "episode_reward_mean": -26.041579048709085, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.38390231132507, "training_iteration": 645, "info": {"default": {"policy_loss": -0.14370782673358917, "vf_explained_var": 0.040503546595573425, "vf_loss": 384.3282775878906, "kl": 0.009541447274386883, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.320732116699219, "total_loss": 384.2335205078125}, "sample_time_ms": 40210.254, "num_steps_trained": 774000, "num_steps_sampled": 774000, "update_time_ms": 2.641, "grad_time_ms": 372.802, "load_time_ms": 0.671}, "iterations_since_restore": 645, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 26138.70416688919, "episodes_total": 22956, "episode_reward_max": 8.000000400565488, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 26138.70416688919, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 60, "timestamp": 1757080841, "timesteps_since_restore": 775200, "episode_reward_min": -86.52290945578895, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-00-41", "episode_len_mean": 21.4, "timesteps_total": 775200, "episode_reward_mean": -25.163677784252275, "num_metric_batches_dropped": 0, "time_this_iter_s": 42.4753942489624, "training_iteration": 646, "info": {"default": {"policy_loss": -0.14978225529193878, "vf_explained_var": 0.055653903633356094, "vf_loss": 331.9175109863281, "kl": 0.009182780049741268, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.227039337158203, "total_loss": 331.8148193359375}, "sample_time_ms": 40427.892, "num_steps_trained": 775200, "num_steps_sampled": 775200, "update_time_ms": 2.665, "grad_time_ms": 371.512, "load_time_ms": 0.657}, "iterations_since_restore": 646, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 26179.55428004265, "episodes_total": 23015, "episode_reward_max": 8.000000400001772, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 26179.55428004265, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 59, "timestamp": 1757080882, "timesteps_since_restore": 776400, "episode_reward_min": -83.83996610443309, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-01-22", "episode_len_mean": 19.72, "timesteps_total": 776400, "episode_reward_mean": -22.22322872377989, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.85011315345764, "training_iteration": 647, "info": {"default": {"policy_loss": -0.12105710059404373, "vf_explained_var": 0.0851089358329773, "vf_loss": 333.52606201171875, "kl": 0.010336723178625107, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.376267433166504, "total_loss": 333.4580078125}, "sample_time_ms": 40471.796, "num_steps_trained": 776400, "num_steps_sampled": 776400, "update_time_ms": 2.681, "grad_time_ms": 372.21, "load_time_ms": 0.659}, "iterations_since_restore": 647, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 26219.81850171089, "episodes_total": 23076, "episode_reward_max": 8.000001945774326, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 26219.81850171089, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 61, "timestamp": 1757080922, "timesteps_since_restore": 777600, "episode_reward_min": -84.32301646072881, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-02-02", "episode_len_mean": 20.47, "timesteps_total": 777600, "episode_reward_mean": -23.79678965264139, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.26422166824341, "training_iteration": 648, "info": {"default": {"policy_loss": -0.12987226247787476, "vf_explained_var": 0.07211634516716003, "vf_loss": 352.09906005859375, "kl": 0.008659814484417439, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.455819129943848, "total_loss": 352.0135803222656}, "sample_time_ms": 40430.032, "num_steps_trained": 777600, "num_steps_sampled": 777600, "update_time_ms": 2.671, "grad_time_ms": 372.659, "load_time_ms": 0.666}, "iterations_since_restore": 648, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 26260.020400047302, "episodes_total": 23128, "episode_reward_max": 8.000000400044955, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 26260.020400047302, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 52, "timestamp": 1757080962, "timesteps_since_restore": 778800, "episode_reward_min": -84.32301646072881, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-02-42", "episode_len_mean": 21.91, "timesteps_total": 778800, "episode_reward_mean": -26.192308167062812, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.20189833641052, "training_iteration": 649, "info": {"default": {"policy_loss": -0.14151859283447266, "vf_explained_var": 0.04418899118900299, "vf_loss": 380.1773376464844, "kl": 0.009976356290280819, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.566143035888672, "total_loss": 380.0869140625}, "sample_time_ms": 40411.387, "num_steps_trained": 778800, "num_steps_sampled": 778800, "update_time_ms": 2.688, "grad_time_ms": 374.067, "load_time_ms": 0.667}, "iterations_since_restore": 649, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 26300.13738656044, "episodes_total": 23180, "episode_reward_max": 8.000000400222973, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 26300.13738656044, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 52, "timestamp": 1757081003, "timesteps_since_restore": 780000, "episode_reward_min": -86.04093879466454, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-03-23", "episode_len_mean": 22.99, "timesteps_total": 780000, "episode_reward_mean": -27.890791250918305, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.11698651313782, "training_iteration": 650, "info": {"default": {"policy_loss": -0.13425709307193756, "vf_explained_var": 0.06532343477010727, "vf_loss": 386.7512512207031, "kl": 0.009938325732946396, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.797462463378906, "total_loss": 386.66790771484375}, "sample_time_ms": 40336.643, "num_steps_trained": 780000, "num_steps_sampled": 780000, "update_time_ms": 2.65, "grad_time_ms": 372.332, "load_time_ms": 0.653}, "iterations_since_restore": 650, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 26340.79488992691, "episodes_total": 23239, "episode_reward_max": 8.000000400001118, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 26340.79488992691, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 59, "timestamp": 1757081043, "timesteps_since_restore": 781200, "episode_reward_min": -86.04093879466454, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-04-03", "episode_len_mean": 21.38, "timesteps_total": 781200, "episode_reward_mean": -25.756216062145146, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.65750336647034, "training_iteration": 651, "info": {"default": {"policy_loss": -0.12868428230285645, "vf_explained_var": 0.08317340910434723, "vf_loss": 356.17523193359375, "kl": 0.008946117013692856, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.402520179748535, "total_loss": 356.0924072265625}, "sample_time_ms": 40208.052, "num_steps_trained": 781200, "num_steps_sampled": 781200, "update_time_ms": 2.669, "grad_time_ms": 374.373, "load_time_ms": 0.662}, "iterations_since_restore": 651, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 26381.284185647964, "episodes_total": 23293, "episode_reward_max": 6.000251818589496, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 26381.284185647964, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 54, "timestamp": 1757081084, "timesteps_since_restore": 782400, "episode_reward_min": -82.44494478641356, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-04-44", "episode_len_mean": 20.26, "timesteps_total": 782400, "episode_reward_mean": -23.183659748057742, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.48929572105408, "training_iteration": 652, "info": {"default": {"policy_loss": -0.1319875568151474, "vf_explained_var": 0.07829239964485168, "vf_loss": 336.6304626464844, "kl": 0.009749547578394413, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.693544387817383, "total_loss": 336.5484619140625}, "sample_time_ms": 40264.736, "num_steps_trained": 782400, "num_steps_sampled": 782400, "update_time_ms": 2.65, "grad_time_ms": 374.986, "load_time_ms": 0.661}, "iterations_since_restore": 652, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 26421.80719780922, "episodes_total": 23351, "episode_reward_max": 6.001120958169432, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 26421.80719780922, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 58, "timestamp": 1757081124, "timesteps_since_restore": 783600, "episode_reward_min": -82.53954129504204, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-05-24", "episode_len_mean": 20.97, "timesteps_total": 783600, "episode_reward_mean": -24.438890578211122, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.52301216125488, "training_iteration": 653, "info": {"default": {"policy_loss": -0.13274593651294708, "vf_explained_var": 0.0897531732916832, "vf_loss": 361.1593017578125, "kl": 0.008596468716859818, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.934988975524902, "total_loss": 361.0705871582031}, "sample_time_ms": 40260.077, "num_steps_trained": 783600, "num_steps_sampled": 783600, "update_time_ms": 2.642, "grad_time_ms": 374.509, "load_time_ms": 0.654}, "iterations_since_restore": 653, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 26462.19699549675, "episodes_total": 23407, "episode_reward_max": 6.001120958169432, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 26462.19699549675, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 56, "timestamp": 1757081165, "timesteps_since_restore": 784800, "episode_reward_min": -84.37838653292785, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-06-05", "episode_len_mean": 20.67, "timesteps_total": 784800, "episode_reward_mean": -24.294570747860988, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.38979768753052, "training_iteration": 654, "info": {"default": {"policy_loss": -0.12520751357078552, "vf_explained_var": 0.06379693746566772, "vf_loss": 415.3882141113281, "kl": 0.009834062308073044, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.591793060302734, "total_loss": 415.31341552734375}, "sample_time_ms": 40252.539, "num_steps_trained": 784800, "num_steps_sampled": 784800, "update_time_ms": 2.658, "grad_time_ms": 374.481, "load_time_ms": 0.656}, "iterations_since_restore": 654, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 26502.903988838196, "episodes_total": 23471, "episode_reward_max": 8.00000051431039, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 26502.903988838196, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 64, "timestamp": 1757081206, "timesteps_since_restore": 786000, "episode_reward_min": -84.01991851588693, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-06-46", "episode_len_mean": 19.92, "timesteps_total": 786000, "episode_reward_mean": -22.17032558402795, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.70699334144592, "training_iteration": 655, "info": {"default": {"policy_loss": -0.13613185286521912, "vf_explained_var": 0.06973758339881897, "vf_loss": 346.6980895996094, "kl": 0.008067493326961994, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.63595199584961, "total_loss": 346.6033630371094}, "sample_time_ms": 40285.375, "num_steps_trained": 786000, "num_steps_sampled": 786000, "update_time_ms": 2.644, "grad_time_ms": 373.973, "load_time_ms": 0.654}, "iterations_since_restore": 655, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 26543.47152686119, "episodes_total": 23524, "episode_reward_max": 8.00000051431039, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 26543.47152686119, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 53, "timestamp": 1757081246, "timesteps_since_restore": 787200, "episode_reward_min": -84.99452296240861, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-07-26", "episode_len_mean": 20.78, "timesteps_total": 787200, "episode_reward_mean": -23.74679600889834, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.567538022994995, "training_iteration": 656, "info": {"default": {"policy_loss": -0.13116051256656647, "vf_explained_var": 0.06054263561964035, "vf_loss": 334.3951416015625, "kl": 0.00862135924398899, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.810996055603027, "total_loss": 334.3081970214844}, "sample_time_ms": 40094.847, "num_steps_trained": 787200, "num_steps_sampled": 787200, "update_time_ms": 2.605, "grad_time_ms": 373.817, "load_time_ms": 0.662}, "iterations_since_restore": 656, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 26583.580323457718, "episodes_total": 23569, "episode_reward_max": 6.0006465745103705, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 26583.580323457718, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 45, "timestamp": 1757081286, "timesteps_since_restore": 788400, "episode_reward_min": -84.99452296240861, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-08-06", "episode_len_mean": 24.14, "timesteps_total": 788400, "episode_reward_mean": -29.318921270404974, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.1087965965271, "training_iteration": 657, "info": {"default": {"policy_loss": -0.13451716303825378, "vf_explained_var": 0.05038885399699211, "vf_loss": 347.2830810546875, "kl": 0.01002417504787445, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.587739944458008, "total_loss": 347.1999816894531}, "sample_time_ms": 40022.096, "num_steps_trained": 788400, "num_steps_sampled": 788400, "update_time_ms": 2.563, "grad_time_ms": 372.548, "load_time_ms": 0.671}, "iterations_since_restore": 657, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 26624.491716384888, "episodes_total": 23622, "episode_reward_max": 8.000000403833013, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 26624.491716384888, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 53, "timestamp": 1757081327, "timesteps_since_restore": 789600, "episode_reward_min": -83.11778401572889, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-08-47", "episode_len_mean": 24.92, "timesteps_total": 789600, "episode_reward_mean": -30.78337510412623, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.9113929271698, "training_iteration": 658, "info": {"default": {"policy_loss": -0.14324690401554108, "vf_explained_var": 0.09131306409835815, "vf_loss": 354.6363525390625, "kl": 0.009672165848314762, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.910435676574707, "total_loss": 354.5426940917969}, "sample_time_ms": 40085.724, "num_steps_trained": 789600, "num_steps_sampled": 789600, "update_time_ms": 2.522, "grad_time_ms": 373.727, "load_time_ms": 0.673}, "iterations_since_restore": 658, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 26665.550503492355, "episodes_total": 23685, "episode_reward_max": 8.000000403833013, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 26665.550503492355, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 63, "timestamp": 1757081368, "timesteps_since_restore": 790800, "episode_reward_min": -83.87605789708428, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-09-28", "episode_len_mean": 21.96, "timesteps_total": 790800, "episode_reward_mean": -26.086919683871646, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.05878710746765, "training_iteration": 659, "info": {"default": {"policy_loss": -0.13220158219337463, "vf_explained_var": 0.05609893053770065, "vf_loss": 317.3482971191406, "kl": 0.009373782202601433, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.334568977355957, "total_loss": 317.26416015625}, "sample_time_ms": 40171.219, "num_steps_trained": 790800, "num_steps_sampled": 790800, "update_time_ms": 2.511, "grad_time_ms": 373.902, "load_time_ms": 0.673}, "iterations_since_restore": 659, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 26706.14735674858, "episodes_total": 23743, "episode_reward_max": 8.000014923432854, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 26706.14735674858, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 58, "timestamp": 1757081409, "timesteps_since_restore": 792000, "episode_reward_min": -81.25614519437536, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-10-09", "episode_len_mean": 18.77, "timesteps_total": 792000, "episode_reward_mean": -20.15170237354094, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.596853256225586, "training_iteration": 660, "info": {"default": {"policy_loss": -0.14421729743480682, "vf_explained_var": 0.05293412506580353, "vf_loss": 324.7961730957031, "kl": 0.009439175017178059, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.531058311462402, "total_loss": 324.7003173828125}, "sample_time_ms": 40218.226, "num_steps_trained": 792000, "num_steps_sampled": 792000, "update_time_ms": 2.511, "grad_time_ms": 374.835, "load_time_ms": 0.682}, "iterations_since_restore": 660, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 26749.10937023163, "episodes_total": 23801, "episode_reward_max": 8.000014923432854, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 26749.10937023163, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 58, "timestamp": 1757081452, "timesteps_since_restore": 793200, "episode_reward_min": -82.77918584492896, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-10-52", "episode_len_mean": 20.11, "timesteps_total": 793200, "episode_reward_mean": -23.01099232496081, "num_metric_batches_dropped": 0, "time_this_iter_s": 42.962013483047485, "training_iteration": 661, "info": {"default": {"policy_loss": -0.14424319565296173, "vf_explained_var": 0.0909648910164833, "vf_loss": 349.70458984375, "kl": 0.008704065345227718, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.972739219665527, "total_loss": 349.6049499511719}, "sample_time_ms": 40449.285, "num_steps_trained": 793200, "num_steps_sampled": 793200, "update_time_ms": 2.528, "grad_time_ms": 374.167, "load_time_ms": 0.669}, "iterations_since_restore": 661, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 26790.53783249855, "episodes_total": 23861, "episode_reward_max": 8.000019104777339, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 26790.53783249855, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 60, "timestamp": 1757081493, "timesteps_since_restore": 794400, "episode_reward_min": -83.0061784114833, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-11-33", "episode_len_mean": 20.06, "timesteps_total": 794400, "episode_reward_mean": -22.711806485896187, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.428462266922, "training_iteration": 662, "info": {"default": {"policy_loss": -0.1459842175245285, "vf_explained_var": 0.0807267501950264, "vf_loss": 281.4808044433594, "kl": 0.009120728820562363, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.494538307189941, "total_loss": 281.3815612792969}, "sample_time_ms": 40545.919, "num_steps_trained": 794400, "num_steps_sampled": 794400, "update_time_ms": 2.531, "grad_time_ms": 371.465, "load_time_ms": 0.669}, "iterations_since_restore": 662, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 26830.953671455383, "episodes_total": 23911, "episode_reward_max": 8.000019104777339, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 26830.953671455383, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 50, "timestamp": 1757081534, "timesteps_since_restore": 795600, "episode_reward_min": -83.0061784114833, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-12-14", "episode_len_mean": 22.39, "timesteps_total": 795600, "episode_reward_mean": -26.62368738620507, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.415838956832886, "training_iteration": 663, "info": {"default": {"policy_loss": -0.13642925024032593, "vf_explained_var": 0.0468260794878006, "vf_loss": 329.4803466796875, "kl": 0.009706255979835987, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.580509185791016, "total_loss": 329.3936767578125}, "sample_time_ms": 40536.113, "num_steps_trained": 795600, "num_steps_sampled": 795600, "update_time_ms": 2.495, "grad_time_ms": 370.68, "load_time_ms": 0.668}, "iterations_since_restore": 663, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 26871.76649093628, "episodes_total": 23969, "episode_reward_max": 8.00000040000013, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 26871.76649093628, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 58, "timestamp": 1757081575, "timesteps_since_restore": 796800, "episode_reward_min": -83.92555069504779, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-12-55", "episode_len_mean": 22.3, "timesteps_total": 796800, "episode_reward_mean": -26.43189262409786, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.812819480895996, "training_iteration": 664, "info": {"default": {"policy_loss": -0.1348496824502945, "vf_explained_var": 0.05608843266963959, "vf_loss": 333.28533935546875, "kl": 0.00806258711963892, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.061532974243164, "total_loss": 333.19183349609375}, "sample_time_ms": 40578.312, "num_steps_trained": 796800, "num_steps_sampled": 796800, "update_time_ms": 2.491, "grad_time_ms": 370.762, "load_time_ms": 0.678}, "iterations_since_restore": 664, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 26913.206278800964, "episodes_total": 24024, "episode_reward_max": 8.000138944267999, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 26913.206278800964, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 55, "timestamp": 1757081616, "timesteps_since_restore": 798000, "episode_reward_min": -83.92555069504779, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-13-36", "episode_len_mean": 21.57, "timesteps_total": 798000, "episode_reward_mean": -25.176900534781918, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.43978786468506, "training_iteration": 665, "info": {"default": {"policy_loss": -0.14341937005519867, "vf_explained_var": 0.0725451186299324, "vf_loss": 314.9678649902344, "kl": 0.009074779227375984, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.113443374633789, "total_loss": 314.8709716796875}, "sample_time_ms": 40653.48, "num_steps_trained": 798000, "num_steps_sampled": 798000, "update_time_ms": 2.509, "grad_time_ms": 368.875, "load_time_ms": 0.675}, "iterations_since_restore": 665, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 26953.81538271904, "episodes_total": 24082, "episode_reward_max": 8.000138944267999, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 26953.81538271904, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 58, "timestamp": 1757081657, "timesteps_since_restore": 799200, "episode_reward_min": -82.31470089078586, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-14-17", "episode_len_mean": 20.17, "timesteps_total": 799200, "episode_reward_mean": -22.367189033899972, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.60910391807556, "training_iteration": 666, "info": {"default": {"policy_loss": -0.11698227375745773, "vf_explained_var": 0.0714401975274086, "vf_loss": 372.6279602050781, "kl": 0.009564165957272053, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.457809448242188, "total_loss": 372.55999755859375}, "sample_time_ms": 40655.28, "num_steps_trained": 799200, "num_steps_sampled": 799200, "update_time_ms": 2.509, "grad_time_ms": 371.167, "load_time_ms": 0.678}, "iterations_since_restore": 666, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 26994.361090183258, "episodes_total": 24137, "episode_reward_max": 8.000066032650029, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 26994.361090183258, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 55, "timestamp": 1757081697, "timesteps_since_restore": 800400, "episode_reward_min": -83.05621977583283, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-14-57", "episode_len_mean": 21.32, "timesteps_total": 800400, "episode_reward_mean": -24.871388706820227, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.54570746421814, "training_iteration": 667, "info": {"default": {"policy_loss": -0.13840384781360626, "vf_explained_var": 0.06797640770673752, "vf_loss": 386.251220703125, "kl": 0.009830228984355927, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 11.00036907196045, "total_loss": 386.1632080078125}, "sample_time_ms": 40697.501, "num_steps_trained": 800400, "num_steps_sampled": 800400, "update_time_ms": 2.536, "grad_time_ms": 372.527, "load_time_ms": 0.676}, "iterations_since_restore": 667, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 27035.192878961563, "episodes_total": 24199, "episode_reward_max": 8.000000429543672, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 27035.192878961563, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 62, "timestamp": 1757081738, "timesteps_since_restore": 801600, "episode_reward_min": -84.67685089802337, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-15-38", "episode_len_mean": 21.29, "timesteps_total": 801600, "episode_reward_mean": -24.507469251183547, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.831788778305054, "training_iteration": 668, "info": {"default": {"policy_loss": -0.12369600683450699, "vf_explained_var": 0.06350502371788025, "vf_loss": 321.4536437988281, "kl": 0.008992359973490238, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.77855396270752, "total_loss": 321.37603759765625}, "sample_time_ms": 40690.617, "num_steps_trained": 801600, "num_steps_sampled": 801600, "update_time_ms": 2.571, "grad_time_ms": 371.368, "load_time_ms": 0.67}, "iterations_since_restore": 668, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 27075.692463874817, "episodes_total": 24254, "episode_reward_max": 8.000000442872718, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 27075.692463874817, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 55, "timestamp": 1757081779, "timesteps_since_restore": 802800, "episode_reward_min": -85.01750146551946, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-16-19", "episode_len_mean": 21.0, "timesteps_total": 802800, "episode_reward_mean": -24.207210492411118, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.499584913253784, "training_iteration": 669, "info": {"default": {"policy_loss": -0.13323195278644562, "vf_explained_var": 0.05928945541381836, "vf_loss": 344.8277893066406, "kl": 0.010313580743968487, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.350837707519531, "total_loss": 344.7474365234375}, "sample_time_ms": 40636.992, "num_steps_trained": 802800, "num_steps_sampled": 802800, "update_time_ms": 2.586, "grad_time_ms": 369.098, "load_time_ms": 0.665}, "iterations_since_restore": 669, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 27116.26959323883, "episodes_total": 24307, "episode_reward_max": 8.000000442872718, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 27116.26959323883, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 53, "timestamp": 1757081819, "timesteps_since_restore": 804000, "episode_reward_min": -85.01750146551946, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-16-59", "episode_len_mean": 22.17, "timesteps_total": 804000, "episode_reward_mean": -26.562232870382733, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.57712936401367, "training_iteration": 670, "info": {"default": {"policy_loss": -0.1358826607465744, "vf_explained_var": 0.06374790519475937, "vf_loss": 385.0276794433594, "kl": 0.009114366956055164, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.56169319152832, "total_loss": 384.93853759765625}, "sample_time_ms": 40635.762, "num_steps_trained": 804000, "num_steps_sampled": 804000, "update_time_ms": 2.566, "grad_time_ms": 368.414, "load_time_ms": 0.655}, "iterations_since_restore": 670, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 27157.09346795082, "episodes_total": 24364, "episode_reward_max": 8.000000401995475, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 27157.09346795082, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 57, "timestamp": 1757081860, "timesteps_since_restore": 805200, "episode_reward_min": -82.79631821711477, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-17-40", "episode_len_mean": 21.0, "timesteps_total": 805200, "episode_reward_mean": -24.470496996443035, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.823874711990356, "training_iteration": 671, "info": {"default": {"policy_loss": -0.1346641629934311, "vf_explained_var": 0.03840039670467377, "vf_loss": 403.1802062988281, "kl": 0.009168335236608982, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.385075569152832, "total_loss": 403.0924987792969}, "sample_time_ms": 40422.123, "num_steps_trained": 805200, "num_steps_sampled": 805200, "update_time_ms": 2.529, "grad_time_ms": 368.33, "load_time_ms": 0.667}, "iterations_since_restore": 671, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 27197.65635037422, "episodes_total": 24416, "episode_reward_max": 6.001785784128868, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 27197.65635037422, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 52, "timestamp": 1757081901, "timesteps_since_restore": 806400, "episode_reward_min": -83.79342709987509, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-18-21", "episode_len_mean": 22.23, "timesteps_total": 806400, "episode_reward_mean": -26.617510603856754, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.56288242340088, "training_iteration": 672, "info": {"default": {"policy_loss": -0.13292251527309418, "vf_explained_var": 0.0659761130809784, "vf_loss": 327.72894287109375, "kl": 0.012529836967587471, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.285884857177734, "total_loss": 327.6602478027344}, "sample_time_ms": 40333.778, "num_steps_trained": 806400, "num_steps_sampled": 806400, "update_time_ms": 2.535, "grad_time_ms": 370.042, "load_time_ms": 0.665}, "iterations_since_restore": 672, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 27239.980905771255, "episodes_total": 24478, "episode_reward_max": 6.000684602088675, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 27239.980905771255, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 62, "timestamp": 1757081943, "timesteps_since_restore": 807600, "episode_reward_min": -83.79342709987509, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-19-03", "episode_len_mean": 21.21, "timesteps_total": 807600, "episode_reward_mean": -24.838343338529743, "num_metric_batches_dropped": 0, "time_this_iter_s": 42.32455539703369, "training_iteration": 673, "info": {"default": {"policy_loss": -0.13893793523311615, "vf_explained_var": 0.055996403098106384, "vf_loss": 324.08984375, "kl": 0.008910679258406162, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.387703895568848, "total_loss": 323.99658203125}, "sample_time_ms": 40524.407, "num_steps_trained": 807600, "num_steps_sampled": 807600, "update_time_ms": 2.585, "grad_time_ms": 370.147, "load_time_ms": 0.672}, "iterations_since_restore": 673, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 27280.395271778107, "episodes_total": 24532, "episode_reward_max": 6.000684602088675, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 27280.395271778107, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 54, "timestamp": 1757081983, "timesteps_since_restore": 808800, "episode_reward_min": -83.31907873288952, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-19-43", "episode_len_mean": 20.17, "timesteps_total": 808800, "episode_reward_mean": -22.792672903275292, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.414366006851196, "training_iteration": 674, "info": {"default": {"policy_loss": -0.13698840141296387, "vf_explained_var": 0.0607200525701046, "vf_loss": 351.3222351074219, "kl": 0.008641045540571213, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.162296295166016, "total_loss": 351.2295837402344}, "sample_time_ms": 40483.828, "num_steps_trained": 808800, "num_steps_sampled": 808800, "update_time_ms": 2.603, "grad_time_ms": 370.83, "load_time_ms": 0.664}, "iterations_since_restore": 674, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 27321.680070400238, "episodes_total": 24592, "episode_reward_max": 6.00027143721214, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 27321.680070400238, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 60, "timestamp": 1757082025, "timesteps_since_restore": 810000, "episode_reward_min": -83.41896566217662, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-20-25", "episode_len_mean": 20.92, "timesteps_total": 810000, "episode_reward_mean": -23.768318838631732, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.28479862213135, "training_iteration": 675, "info": {"default": {"policy_loss": -0.12117564678192139, "vf_explained_var": 0.0652076005935669, "vf_loss": 282.7796630859375, "kl": 0.00922798365354538, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.274219512939453, "total_loss": 282.7057800292969}, "sample_time_ms": 40465.185, "num_steps_trained": 810000, "num_steps_sampled": 810000, "update_time_ms": 2.689, "grad_time_ms": 373.827, "load_time_ms": 0.676}, "iterations_since_restore": 675, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 27362.604638576508, "episodes_total": 24647, "episode_reward_max": 8.000000405082849, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 27362.604638576508, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 55, "timestamp": 1757082066, "timesteps_since_restore": 811200, "episode_reward_min": -84.20049277796858, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-21-06", "episode_len_mean": 21.18, "timesteps_total": 811200, "episode_reward_mean": -24.354459911123005, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.92456817626953, "training_iteration": 676, "info": {"default": {"policy_loss": -0.14417560398578644, "vf_explained_var": 0.036792509257793427, "vf_loss": 362.3114318847656, "kl": 0.008186950348317623, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.6382417678833, "total_loss": 362.209228515625}, "sample_time_ms": 40500.088, "num_steps_trained": 811200, "num_steps_sampled": 811200, "update_time_ms": 2.704, "grad_time_ms": 370.53, "load_time_ms": 0.671}, "iterations_since_restore": 676, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 27404.215685129166, "episodes_total": 24704, "episode_reward_max": 8.00000074338365, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 27404.215685129166, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 57, "timestamp": 1757082107, "timesteps_since_restore": 812400, "episode_reward_min": -83.86384407717277, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-21-47", "episode_len_mean": 20.68, "timesteps_total": 812400, "episode_reward_mean": -23.947270882810354, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.61104655265808, "training_iteration": 677, "info": {"default": {"policy_loss": -0.13399355113506317, "vf_explained_var": 0.04822520911693573, "vf_loss": 345.8808288574219, "kl": 0.009401356801390648, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.391261100769043, "total_loss": 345.7950134277344}, "sample_time_ms": 40606.447, "num_steps_trained": 812400, "num_steps_sampled": 812400, "update_time_ms": 2.689, "grad_time_ms": 370.753, "load_time_ms": 0.667}, "iterations_since_restore": 677, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 27445.564158201218, "episodes_total": 24765, "episode_reward_max": 8.00000074338365, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 27445.564158201218, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 61, "timestamp": 1757082149, "timesteps_since_restore": 813600, "episode_reward_min": -83.04481985764515, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-22-29", "episode_len_mean": 20.73, "timesteps_total": 813600, "episode_reward_mean": -24.560211061273467, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.348473072052, "training_iteration": 678, "info": {"default": {"policy_loss": -0.1391109824180603, "vf_explained_var": 0.05425911396741867, "vf_loss": 377.283447265625, "kl": 0.009152804501354694, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.455071449279785, "total_loss": 377.1912536621094}, "sample_time_ms": 40658.401, "num_steps_trained": 813600, "num_steps_sampled": 813600, "update_time_ms": 2.694, "grad_time_ms": 370.501, "load_time_ms": 0.666}, "iterations_since_restore": 678, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 27486.347824811935, "episodes_total": 24823, "episode_reward_max": 8.000000927883466, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 27486.347824811935, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 58, "timestamp": 1757082189, "timesteps_since_restore": 814800, "episode_reward_min": -85.04657566232152, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-23-09", "episode_len_mean": 19.96, "timesteps_total": 814800, "episode_reward_mean": -23.12286926833594, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.78366661071777, "training_iteration": 679, "info": {"default": {"policy_loss": -0.13876789808273315, "vf_explained_var": 0.08926144242286682, "vf_loss": 358.9300537109375, "kl": 0.010047399438917637, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.238142013549805, "total_loss": 358.8428649902344}, "sample_time_ms": 40685.318, "num_steps_trained": 814800, "num_steps_sampled": 814800, "update_time_ms": 2.694, "grad_time_ms": 371.979, "load_time_ms": 0.671}, "iterations_since_restore": 679, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 27527.052586078644, "episodes_total": 24883, "episode_reward_max": 8.000000927883466, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 27527.052586078644, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 60, "timestamp": 1757082230, "timesteps_since_restore": 816000, "episode_reward_min": -85.04657566232152, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-23-50", "episode_len_mean": 20.34, "timesteps_total": 816000, "episode_reward_mean": -23.70843270039099, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.704761266708374, "training_iteration": 680, "info": {"default": {"policy_loss": -0.12718573212623596, "vf_explained_var": 0.08264052867889404, "vf_loss": 301.3847961425781, "kl": 0.009499043226242065, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.631152153015137, "total_loss": 301.3063049316406}, "sample_time_ms": 40698.477, "num_steps_trained": 816000, "num_steps_sampled": 816000, "update_time_ms": 2.699, "grad_time_ms": 371.599, "load_time_ms": 0.686}, "iterations_since_restore": 680, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 27567.84481739998, "episodes_total": 24940, "episode_reward_max": 8.000160436409068, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 27567.84481739998, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 57, "timestamp": 1757082271, "timesteps_since_restore": 817200, "episode_reward_min": -84.65345939335614, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-24-31", "episode_len_mean": 20.0, "timesteps_total": 817200, "episode_reward_mean": -22.92804624939602, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.79223132133484, "training_iteration": 681, "info": {"default": {"policy_loss": -0.13952606916427612, "vf_explained_var": 0.069635309278965, "vf_loss": 382.8034973144531, "kl": 0.009961138479411602, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.556337356567383, "total_loss": 382.71502685546875}, "sample_time_ms": 40695.073, "num_steps_trained": 817200, "num_steps_sampled": 817200, "update_time_ms": 2.737, "grad_time_ms": 371.796, "load_time_ms": 0.691}, "iterations_since_restore": 681, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 27608.64666557312, "episodes_total": 24997, "episode_reward_max": 8.000160436409068, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 27608.64666557312, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 57, "timestamp": 1757082312, "timesteps_since_restore": 818400, "episode_reward_min": -84.65345939335614, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-25-12", "episode_len_mean": 20.44, "timesteps_total": 818400, "episode_reward_mean": -23.644420098627897, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.80184817314148, "training_iteration": 682, "info": {"default": {"policy_loss": -0.1420573741197586, "vf_explained_var": 0.0505615659058094, "vf_loss": 346.1033935546875, "kl": 0.009393017739057541, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.293015480041504, "total_loss": 346.0094909667969}, "sample_time_ms": 40720.485, "num_steps_trained": 818400, "num_steps_sampled": 818400, "update_time_ms": 2.728, "grad_time_ms": 370.318, "load_time_ms": 0.72}, "iterations_since_restore": 682, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 27649.697283506393, "episodes_total": 25063, "episode_reward_max": 8.000000400009567, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 27649.697283506393, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 66, "timestamp": 1757082353, "timesteps_since_restore": 819600, "episode_reward_min": -84.07953281377715, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-25-53", "episode_len_mean": 18.55, "timesteps_total": 819600, "episode_reward_mean": -19.86042650767961, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.050617933273315, "training_iteration": 683, "info": {"default": {"policy_loss": -0.13997097313404083, "vf_explained_var": 0.055021364241838455, "vf_loss": 318.45867919921875, "kl": 0.009366320446133614, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.312572479248047, "total_loss": 318.36669921875}, "sample_time_ms": 40592.322, "num_steps_trained": 819600, "num_steps_sampled": 819600, "update_time_ms": 2.704, "grad_time_ms": 371.181, "load_time_ms": 0.729}, "iterations_since_restore": 683, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 27690.58904027939, "episodes_total": 25122, "episode_reward_max": 8.000044266891747, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 27690.58904027939, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 59, "timestamp": 1757082394, "timesteps_since_restore": 820800, "episode_reward_min": -82.59453900472384, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-26-34", "episode_len_mean": 19.2, "timesteps_total": 820800, "episode_reward_mean": -21.09591316891846, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.891756772994995, "training_iteration": 684, "info": {"default": {"policy_loss": -0.14135350286960602, "vf_explained_var": 0.07423756271600723, "vf_loss": 326.8678283691406, "kl": 0.009019171819090843, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.18637752532959, "total_loss": 326.772705078125}, "sample_time_ms": 40637.963, "num_steps_trained": 820800, "num_steps_sampled": 820800, "update_time_ms": 2.682, "grad_time_ms": 373.368, "load_time_ms": 0.729}, "iterations_since_restore": 684, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 27732.155536413193, "episodes_total": 25171, "episode_reward_max": 8.000044266891747, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 27732.155536413193, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 49, "timestamp": 1757082435, "timesteps_since_restore": 822000, "episode_reward_min": -82.59453900472384, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-27-15", "episode_len_mean": 22.67, "timesteps_total": 822000, "episode_reward_mean": -26.978060696173802, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.56649613380432, "training_iteration": 685, "info": {"default": {"policy_loss": -0.13821236789226532, "vf_explained_var": 0.08812883496284485, "vf_loss": 292.28173828125, "kl": 0.00817544013261795, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.44626522064209, "total_loss": 292.1854248046875}, "sample_time_ms": 40668.213, "num_steps_trained": 822000, "num_steps_sampled": 822000, "update_time_ms": 2.597, "grad_time_ms": 371.367, "load_time_ms": 0.718}, "iterations_since_restore": 685, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 27772.846838235855, "episodes_total": 25227, "episode_reward_max": 6.00022225008021, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 27772.846838235855, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 56, "timestamp": 1757082476, "timesteps_since_restore": 823200, "episode_reward_min": -83.16498564664363, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-27-56", "episode_len_mean": 22.98, "timesteps_total": 823200, "episode_reward_mean": -27.607415545209438, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.69130182266235, "training_iteration": 686, "info": {"default": {"policy_loss": -0.1191999763250351, "vf_explained_var": 0.07850205153226852, "vf_loss": 334.3780822753906, "kl": 0.009514669887721539, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.477887153625488, "total_loss": 334.3077087402344}, "sample_time_ms": 40645.39, "num_steps_trained": 823200, "num_steps_sampled": 823200, "update_time_ms": 2.611, "grad_time_ms": 370.849, "load_time_ms": 0.716}, "iterations_since_restore": 686, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 27813.446019411087, "episodes_total": 25291, "episode_reward_max": 8.00007416895889, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 27813.446019411087, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 64, "timestamp": 1757082517, "timesteps_since_restore": 824400, "episode_reward_min": -81.80900651307844, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-28-37", "episode_len_mean": 18.97, "timesteps_total": 824400, "episode_reward_mean": -20.83428727473728, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.599181175231934, "training_iteration": 687, "info": {"default": {"policy_loss": -0.11948052793741226, "vf_explained_var": 0.08705031126737595, "vf_loss": 323.9705810546875, "kl": 0.010038859210908413, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.539417266845703, "total_loss": 323.9025573730469}, "sample_time_ms": 40544.405, "num_steps_trained": 824400, "num_steps_sampled": 824400, "update_time_ms": 2.631, "grad_time_ms": 370.598, "load_time_ms": 0.711}, "iterations_since_restore": 687, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 27854.71259045601, "episodes_total": 25361, "episode_reward_max": 8.00007416895889, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 27854.71259045601, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 70, "timestamp": 1757082558, "timesteps_since_restore": 825600, "episode_reward_min": -83.09736796997555, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-29-18", "episode_len_mean": 17.8, "timesteps_total": 825600, "episode_reward_mean": -18.81558389906823, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.266571044921875, "training_iteration": 688, "info": {"default": {"policy_loss": -0.1270497590303421, "vf_explained_var": 0.05769438296556473, "vf_loss": 330.37744140625, "kl": 0.008341348730027676, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.20076847076416, "total_loss": 330.29315185546875}, "sample_time_ms": 40534.126, "num_steps_trained": 825600, "num_steps_sampled": 825600, "update_time_ms": 2.64, "grad_time_ms": 372.675, "load_time_ms": 0.711}, "iterations_since_restore": 688, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 27895.275696516037, "episodes_total": 25409, "episode_reward_max": 8.000000996069799, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 27895.275696516037, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 48, "timestamp": 1757082599, "timesteps_since_restore": 826800, "episode_reward_min": -83.09736796997555, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-29-59", "episode_len_mean": 21.61, "timesteps_total": 826800, "episode_reward_mean": -25.684925684121907, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.563106060028076, "training_iteration": 689, "info": {"default": {"policy_loss": -0.12874476611614227, "vf_explained_var": 0.04141268506646156, "vf_loss": 387.9906005859375, "kl": 0.009388763457536697, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.947385787963867, "total_loss": 387.90997314453125}, "sample_time_ms": 40512.936, "num_steps_trained": 826800, "num_steps_sampled": 826800, "update_time_ms": 2.624, "grad_time_ms": 371.781, "load_time_ms": 0.713}, "iterations_since_restore": 689, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 27936.24415254593, "episodes_total": 25467, "episode_reward_max": 8.000000996069799, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 27936.24415254593, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 58, "timestamp": 1757082640, "timesteps_since_restore": 828000, "episode_reward_min": -86.32235059344431, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-30-40", "episode_len_mean": 22.12, "timesteps_total": 828000, "episode_reward_mean": -26.340493263521456, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.96845602989197, "training_iteration": 690, "info": {"default": {"policy_loss": -0.13984589278697968, "vf_explained_var": 0.037869855761528015, "vf_loss": 374.4630126953125, "kl": 0.011925778351724148, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.622106552124023, "total_loss": 374.38427734375}, "sample_time_ms": 40537.694, "num_steps_trained": 828000, "num_steps_sampled": 828000, "update_time_ms": 2.651, "grad_time_ms": 373.369, "load_time_ms": 0.695}, "iterations_since_restore": 690, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 27977.457578659058, "episodes_total": 25523, "episode_reward_max": 8.000000400003216, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 27977.457578659058, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 56, "timestamp": 1757082681, "timesteps_since_restore": 829200, "episode_reward_min": -86.32235059344431, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-31-21", "episode_len_mean": 20.85, "timesteps_total": 829200, "episode_reward_mean": -24.38647522102217, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.21342611312866, "training_iteration": 691, "info": {"default": {"policy_loss": -0.14314281940460205, "vf_explained_var": 0.07831501215696335, "vf_loss": 369.7707214355469, "kl": 0.00924601312726736, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.468960762023926, "total_loss": 369.6749572753906}, "sample_time_ms": 40580.088, "num_steps_trained": 829200, "num_steps_sampled": 829200, "update_time_ms": 2.616, "grad_time_ms": 373.061, "load_time_ms": 0.697}, "iterations_since_restore": 691, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 28018.421922445297, "episodes_total": 25588, "episode_reward_max": 8.001098448453815, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 28018.421922445297, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 65, "timestamp": 1757082722, "timesteps_since_restore": 830400, "episode_reward_min": -82.95352123335003, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-32-02", "episode_len_mean": 20.74, "timesteps_total": 830400, "episode_reward_mean": -23.938731566342927, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.964343786239624, "training_iteration": 692, "info": {"default": {"policy_loss": -0.1314677894115448, "vf_explained_var": 0.04659797623753548, "vf_loss": 302.8089599609375, "kl": 0.008603421971201897, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.736278533935547, "total_loss": 302.7215881347656}, "sample_time_ms": 40593.687, "num_steps_trained": 830400, "num_steps_sampled": 830400, "update_time_ms": 2.623, "grad_time_ms": 375.717, "load_time_ms": 0.684}, "iterations_since_restore": 692, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 28058.907146692276, "episodes_total": 25645, "episode_reward_max": 8.001098448453815, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 28058.907146692276, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 57, "timestamp": 1757082762, "timesteps_since_restore": 831600, "episode_reward_min": -81.67505949271339, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-32-42", "episode_len_mean": 18.32, "timesteps_total": 831600, "episode_reward_mean": -19.57222459354786, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.48522424697876, "training_iteration": 693, "info": {"default": {"policy_loss": -0.13554255664348602, "vf_explained_var": 0.06683402508497238, "vf_loss": 349.8853454589844, "kl": 0.008933561854064465, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.540138244628906, "total_loss": 349.7955627441406}, "sample_time_ms": 40536.229, "num_steps_trained": 831600, "num_steps_sampled": 831600, "update_time_ms": 2.634, "grad_time_ms": 376.585, "load_time_ms": 0.679}, "iterations_since_restore": 693, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 28099.90491437912, "episodes_total": 25715, "episode_reward_max": 8.000006303265172, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 28099.90491437912, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 70, "timestamp": 1757082803, "timesteps_since_restore": 832800, "episode_reward_min": -81.77245900730915, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-33-23", "episode_len_mean": 18.24, "timesteps_total": 832800, "episode_reward_mean": -19.239345248208554, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.99776768684387, "training_iteration": 694, "info": {"default": {"policy_loss": -0.12374365329742432, "vf_explained_var": 0.04999389871954918, "vf_loss": 261.707763671875, "kl": 0.010634960606694221, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.979816436767578, "total_loss": 261.6385498046875}, "sample_time_ms": 40547.652, "num_steps_trained": 832800, "num_steps_sampled": 832800, "update_time_ms": 2.63, "grad_time_ms": 375.652, "load_time_ms": 0.681}, "iterations_since_restore": 694, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 28140.30917072296, "episodes_total": 25768, "episode_reward_max": 8.000000400113457, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 28140.30917072296, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 53, "timestamp": 1757082844, "timesteps_since_restore": 834000, "episode_reward_min": -82.24944086592713, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-34-04", "episode_len_mean": 19.86, "timesteps_total": 834000, "episode_reward_mean": -22.473300419375914, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.40425634384155, "training_iteration": 695, "info": {"default": {"policy_loss": -0.13763318955898285, "vf_explained_var": 0.07439015805721283, "vf_loss": 363.3426513671875, "kl": 0.008108936250209808, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.693103790283203, "total_loss": 363.24658203125}, "sample_time_ms": 40431.312, "num_steps_trained": 834000, "num_steps_sampled": 834000, "update_time_ms": 2.636, "grad_time_ms": 375.784, "load_time_ms": 0.681}, "iterations_since_restore": 695, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 28181.276101112366, "episodes_total": 25830, "episode_reward_max": 6.000976310948726, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 28181.276101112366, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 62, "timestamp": 1757082885, "timesteps_since_restore": 835200, "episode_reward_min": -82.24944086592713, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-34-45", "episode_len_mean": 21.1, "timesteps_total": 835200, "episode_reward_mean": -24.983085159830623, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.9669303894043, "training_iteration": 696, "info": {"default": {"policy_loss": -0.13769802451133728, "vf_explained_var": 0.08275490999221802, "vf_loss": 355.4913024902344, "kl": 0.010670388117432594, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.369654655456543, "total_loss": 355.40826416015625}, "sample_time_ms": 40456.35, "num_steps_trained": 835200, "num_steps_sampled": 835200, "update_time_ms": 2.602, "grad_time_ms": 378.282, "load_time_ms": 0.676}, "iterations_since_restore": 696, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 28221.572208881378, "episodes_total": 25886, "episode_reward_max": 8.000000406135603, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 28221.572208881378, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 56, "timestamp": 1757082925, "timesteps_since_restore": 836400, "episode_reward_min": -85.17541459886417, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-35-25", "episode_len_mean": 20.13, "timesteps_total": 836400, "episode_reward_mean": -23.620010243639356, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.29610776901245, "training_iteration": 697, "info": {"default": {"policy_loss": -0.1245012953877449, "vf_explained_var": 0.055296480655670166, "vf_loss": 373.1838684082031, "kl": 0.011321038007736206, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.559952735900879, "total_loss": 373.1174011230469}, "sample_time_ms": 40427.944, "num_steps_trained": 836400, "num_steps_sampled": 836400, "update_time_ms": 2.588, "grad_time_ms": 376.463, "load_time_ms": 0.678}, "iterations_since_restore": 697, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 28262.060379981995, "episodes_total": 25941, "episode_reward_max": 8.000000406135603, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 28262.060379981995, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 55, "timestamp": 1757082966, "timesteps_since_restore": 837600, "episode_reward_min": -85.17541459886417, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-36-06", "episode_len_mean": 21.61, "timesteps_total": 837600, "episode_reward_mean": -25.835750145519306, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.488171100616455, "training_iteration": 698, "info": {"default": {"policy_loss": -0.1289183497428894, "vf_explained_var": 0.04033321887254715, "vf_loss": 368.46160888671875, "kl": 0.011202838271856308, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.804059982299805, "total_loss": 368.39013671875}, "sample_time_ms": 40352.521, "num_steps_trained": 837600, "num_steps_sampled": 837600, "update_time_ms": 2.547, "grad_time_ms": 374.093, "load_time_ms": 0.68}, "iterations_since_restore": 698, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 28303.391819000244, "episodes_total": 26009, "episode_reward_max": 8.000000630734851, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 28303.391819000244, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 68, "timestamp": 1757083007, "timesteps_since_restore": 838800, "episode_reward_min": -84.91472935505878, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-36-47", "episode_len_mean": 19.12, "timesteps_total": 838800, "episode_reward_mean": -21.081319150038087, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.33143901824951, "training_iteration": 699, "info": {"default": {"policy_loss": -0.13954992592334747, "vf_explained_var": 0.05589142069220543, "vf_loss": 303.8218688964844, "kl": 0.00883510336279869, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.947805404663086, "total_loss": 303.7276306152344}, "sample_time_ms": 40427.526, "num_steps_trained": 838800, "num_steps_sampled": 838800, "update_time_ms": 2.535, "grad_time_ms": 375.963, "load_time_ms": 0.682}, "iterations_since_restore": 699, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 28343.93184876442, "episodes_total": 26059, "episode_reward_max": 8.000000630734851, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 28343.93184876442, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 50, "timestamp": 1757083048, "timesteps_since_restore": 840000, "episode_reward_min": -82.98343339807924, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-37-28", "episode_len_mean": 20.77, "timesteps_total": 840000, "episode_reward_mean": -23.92390477848346, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.540029764175415, "training_iteration": 700, "info": {"default": {"policy_loss": -0.1357334852218628, "vf_explained_var": 0.054377488791942596, "vf_loss": 375.5820007324219, "kl": 0.008412488736212254, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.688947677612305, "total_loss": 375.4893798828125}, "sample_time_ms": 40387.133, "num_steps_trained": 840000, "num_steps_sampled": 840000, "update_time_ms": 2.533, "grad_time_ms": 373.51, "load_time_ms": 0.682}, "iterations_since_restore": 700, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 28384.79243326187, "episodes_total": 26106, "episode_reward_max": 6.000305643336392, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 28384.79243326187, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 47, "timestamp": 1757083089, "timesteps_since_restore": 841200, "episode_reward_min": -82.98343339807924, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-38-09", "episode_len_mean": 24.44, "timesteps_total": 841200, "episode_reward_mean": -30.386167547498502, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.86058449745178, "training_iteration": 701, "info": {"default": {"policy_loss": -0.1382504552602768, "vf_explained_var": 0.05871881917119026, "vf_loss": 371.4266052246094, "kl": 0.009199175983667374, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.781585693359375, "total_loss": 371.33551025390625}, "sample_time_ms": 40352.098, "num_steps_trained": 841200, "num_steps_sampled": 841200, "update_time_ms": 2.533, "grad_time_ms": 373.363, "load_time_ms": 0.669}, "iterations_since_restore": 701, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 28426.01566171646, "episodes_total": 26178, "episode_reward_max": 8.000000401007663, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 28426.01566171646, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 72, "timestamp": 1757083130, "timesteps_since_restore": 842400, "episode_reward_min": -82.61280239228208, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-38-50", "episode_len_mean": 18.92, "timesteps_total": 842400, "episode_reward_mean": -20.76706882489907, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.223228454589844, "training_iteration": 702, "info": {"default": {"policy_loss": -0.14953531324863434, "vf_explained_var": 0.06813150644302368, "vf_loss": 393.1726989746094, "kl": 0.0090964175760746, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.017783164978027, "total_loss": 393.06976318359375}, "sample_time_ms": 40377.942, "num_steps_trained": 842400, "num_steps_sampled": 842400, "update_time_ms": 2.547, "grad_time_ms": 373.362, "load_time_ms": 0.675}, "iterations_since_restore": 702, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 28466.736435174942, "episodes_total": 26243, "episode_reward_max": 8.000001168161525, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 28466.736435174942, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 65, "timestamp": 1757083170, "timesteps_since_restore": 843600, "episode_reward_min": -83.06342296175727, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-39-30", "episode_len_mean": 17.31, "timesteps_total": 843600, "episode_reward_mean": -18.194303401566238, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.720773458480835, "training_iteration": 703, "info": {"default": {"policy_loss": -0.1275683492422104, "vf_explained_var": 0.045782122761011124, "vf_loss": 380.8814697265625, "kl": 0.009655080735683441, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.161426544189453, "total_loss": 380.8033447265625}, "sample_time_ms": 40403.953, "num_steps_trained": 843600, "num_steps_sampled": 843600, "update_time_ms": 2.544, "grad_time_ms": 370.948, "load_time_ms": 0.675}, "iterations_since_restore": 703, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 28507.579236984253, "episodes_total": 26304, "episode_reward_max": 8.000000400058454, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 28507.579236984253, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 61, "timestamp": 1757083211, "timesteps_since_restore": 844800, "episode_reward_min": -83.06342296175727, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-40-11", "episode_len_mean": 19.85, "timesteps_total": 844800, "episode_reward_mean": -22.373364108360498, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.84280180931091, "training_iteration": 704, "info": {"default": {"policy_loss": -0.13029402494430542, "vf_explained_var": 0.07499203085899353, "vf_loss": 304.3824157714844, "kl": 0.0082438038662076, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.098431587219238, "total_loss": 304.2943420410156}, "sample_time_ms": 40388.832, "num_steps_trained": 844800, "num_steps_sampled": 844800, "update_time_ms": 2.531, "grad_time_ms": 370.67, "load_time_ms": 0.68}, "iterations_since_restore": 704, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 28548.111895799637, "episodes_total": 26373, "episode_reward_max": 6.000747484488361, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 28548.111895799637, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 69, "timestamp": 1757083252, "timesteps_since_restore": 846000, "episode_reward_min": -81.9330469449335, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-40-52", "episode_len_mean": 17.75, "timesteps_total": 846000, "episode_reward_mean": -18.711469077067065, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.53265881538391, "training_iteration": 705, "info": {"default": {"policy_loss": -0.12850138545036316, "vf_explained_var": 0.08139865100383759, "vf_loss": 326.1455078125, "kl": 0.008799039758741856, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.546907424926758, "total_loss": 326.0621337890625}, "sample_time_ms": 40400.726, "num_steps_trained": 846000, "num_steps_sampled": 846000, "update_time_ms": 2.517, "grad_time_ms": 371.601, "load_time_ms": 0.69}, "iterations_since_restore": 705, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 28589.02033638954, "episodes_total": 26438, "episode_reward_max": 6.000747484488361, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 28589.02033638954, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 65, "timestamp": 1757083293, "timesteps_since_restore": 847200, "episode_reward_min": -83.48621018963627, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-41-33", "episode_len_mean": 17.69, "timesteps_total": 847200, "episode_reward_mean": -18.81019698057162, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.908440589904785, "training_iteration": 706, "info": {"default": {"policy_loss": -0.11835834383964539, "vf_explained_var": 0.07014951854944229, "vf_loss": 350.3285217285156, "kl": 0.015575862489640713, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.614946365356445, "total_loss": 350.28997802734375}, "sample_time_ms": 40394.858, "num_steps_trained": 847200, "num_steps_sampled": 847200, "update_time_ms": 2.533, "grad_time_ms": 371.646, "load_time_ms": 0.696}, "iterations_since_restore": 706, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 28629.513433218002, "episodes_total": 26497, "episode_reward_max": 8.000003276393983, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 28629.513433218002, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 59, "timestamp": 1757083333, "timesteps_since_restore": 848400, "episode_reward_min": -84.78839356877175, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-42-13", "episode_len_mean": 20.25, "timesteps_total": 848400, "episode_reward_mean": -23.45393394168811, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.49309682846069, "training_iteration": 707, "info": {"default": {"policy_loss": -0.1325187236070633, "vf_explained_var": 0.059267621487379074, "vf_loss": 373.0447998046875, "kl": 0.010321704670786858, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.406765937805176, "total_loss": 372.9651794433594}, "sample_time_ms": 40414.801, "num_steps_trained": 848400, "num_steps_sampled": 848400, "update_time_ms": 2.522, "grad_time_ms": 371.387, "load_time_ms": 0.697}, "iterations_since_restore": 707, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 28669.90875697136, "episodes_total": 26555, "episode_reward_max": 8.000003276393983, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 28669.90875697136, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 58, "timestamp": 1757083374, "timesteps_since_restore": 849600, "episode_reward_min": -84.78839356877175, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-42-54", "episode_len_mean": 20.73, "timesteps_total": 849600, "episode_reward_mean": -24.400205752389653, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.395323753356934, "training_iteration": 708, "info": {"default": {"policy_loss": -0.13885347545146942, "vf_explained_var": 0.0627940371632576, "vf_loss": 367.5028076171875, "kl": 0.008783570490777493, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.27097225189209, "total_loss": 367.40899658203125}, "sample_time_ms": 40405.272, "num_steps_trained": 849600, "num_steps_sampled": 849600, "update_time_ms": 2.525, "grad_time_ms": 371.65, "load_time_ms": 0.69}, "iterations_since_restore": 708, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 28710.42838859558, "episodes_total": 26615, "episode_reward_max": 8.000000399999921, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 28710.42838859558, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 60, "timestamp": 1757083414, "timesteps_since_restore": 850800, "episode_reward_min": -83.63340670098611, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-43-34", "episode_len_mean": 20.7, "timesteps_total": 850800, "episode_reward_mean": -24.133944503431813, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.5196316242218, "training_iteration": 709, "info": {"default": {"policy_loss": -0.12871472537517548, "vf_explained_var": 0.07298605889081955, "vf_loss": 312.44921875, "kl": 0.009122745133936405, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.461015701293945, "total_loss": 312.3673095703125}, "sample_time_ms": 40324.661, "num_steps_trained": 850800, "num_steps_sampled": 850800, "update_time_ms": 2.535, "grad_time_ms": 371.064, "load_time_ms": 0.693}, "iterations_since_restore": 709, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 28750.49381494522, "episodes_total": 26663, "episode_reward_max": 8.000000399999921, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 28750.49381494522, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 48, "timestamp": 1757083454, "timesteps_since_restore": 852000, "episode_reward_min": -83.49344510580086, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-44-14", "episode_len_mean": 22.38, "timesteps_total": 852000, "episode_reward_mean": -26.668954442154032, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.06542634963989, "training_iteration": 710, "info": {"default": {"policy_loss": -0.1351759284734726, "vf_explained_var": 0.05819341912865639, "vf_loss": 365.76287841796875, "kl": 0.009273979812860489, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.068086624145508, "total_loss": 365.67523193359375}, "sample_time_ms": 40277.03, "num_steps_trained": 852000, "num_steps_sampled": 852000, "update_time_ms": 2.517, "grad_time_ms": 371.277, "load_time_ms": 0.701}, "iterations_since_restore": 710, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 28791.17090654373, "episodes_total": 26731, "episode_reward_max": 8.000000595671725, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 28791.17090654373, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 68, "timestamp": 1757083495, "timesteps_since_restore": 853200, "episode_reward_min": -86.26134246625574, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-44-55", "episode_len_mean": 19.56, "timesteps_total": 853200, "episode_reward_mean": -21.821787071096818, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.67709159851074, "training_iteration": 711, "info": {"default": {"policy_loss": -0.13318417966365814, "vf_explained_var": 0.07742875814437866, "vf_loss": 308.11773681640625, "kl": 0.009019685909152031, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.291969299316406, "total_loss": 308.03082275390625}, "sample_time_ms": 40260.527, "num_steps_trained": 853200, "num_steps_sampled": 853200, "update_time_ms": 2.527, "grad_time_ms": 369.386, "load_time_ms": 0.701}, "iterations_since_restore": 711, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 28832.654114723206, "episodes_total": 26792, "episode_reward_max": 8.000000595671725, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 28832.654114723206, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 61, "timestamp": 1757083537, "timesteps_since_restore": 854400, "episode_reward_min": -81.79150078356464, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-45-37", "episode_len_mean": 19.18, "timesteps_total": 854400, "episode_reward_mean": -20.583994054856362, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.48320817947388, "training_iteration": 712, "info": {"default": {"policy_loss": -0.12363775819540024, "vf_explained_var": 0.07267598807811737, "vf_loss": 295.0989990234375, "kl": 0.0093335947021842, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.111746788024902, "total_loss": 295.0232849121094}, "sample_time_ms": 40287.726, "num_steps_trained": 854400, "num_steps_sampled": 854400, "update_time_ms": 2.48, "grad_time_ms": 368.268, "load_time_ms": 0.685}, "iterations_since_restore": 712, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 28873.42242217064, "episodes_total": 26857, "episode_reward_max": 8.000000404473004, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 28873.42242217064, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 65, "timestamp": 1757083577, "timesteps_since_restore": 855600, "episode_reward_min": -82.22433111592494, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-46-17", "episode_len_mean": 18.39, "timesteps_total": 855600, "episode_reward_mean": -19.404676677345684, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.76830744743347, "training_iteration": 713, "info": {"default": {"policy_loss": -0.14016784727573395, "vf_explained_var": 0.03432421386241913, "vf_loss": 299.73956298828125, "kl": 0.00987553596496582, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.93517780303955, "total_loss": 299.6499938964844}, "sample_time_ms": 40292.372, "num_steps_trained": 855600, "num_steps_sampled": 855600, "update_time_ms": 2.48, "grad_time_ms": 368.385, "load_time_ms": 0.68}, "iterations_since_restore": 713, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 28914.471901655197, "episodes_total": 26922, "episode_reward_max": 6.000584620906141, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 28914.471901655197, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 65, "timestamp": 1757083618, "timesteps_since_restore": 856800, "episode_reward_min": -81.3036605447043, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-46-58", "episode_len_mean": 18.21, "timesteps_total": 856800, "episode_reward_mean": -19.078267512571962, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.049479484558105, "training_iteration": 714, "info": {"default": {"policy_loss": -0.12209895253181458, "vf_explained_var": 0.0858227014541626, "vf_loss": 293.2718505859375, "kl": 0.00852067768573761, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.390571594238281, "total_loss": 293.1933898925781}, "sample_time_ms": 40313.244, "num_steps_trained": 856800, "num_steps_sampled": 856800, "update_time_ms": 2.47, "grad_time_ms": 368.18, "load_time_ms": 0.673}, "iterations_since_restore": 714, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 28954.873220682144, "episodes_total": 26972, "episode_reward_max": 8.00000039999993, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 28954.873220682144, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 50, "timestamp": 1757083659, "timesteps_since_restore": 858000, "episode_reward_min": -82.98562705864296, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-47-39", "episode_len_mean": 21.76, "timesteps_total": 858000, "episode_reward_mean": -25.658917897148648, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.40131902694702, "training_iteration": 715, "info": {"default": {"policy_loss": -0.12688668072223663, "vf_explained_var": 0.03508751094341278, "vf_loss": 371.5765075683594, "kl": 0.01035915408283472, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.390007019042969, "total_loss": 371.5027160644531}, "sample_time_ms": 40300.201, "num_steps_trained": 858000, "num_steps_sampled": 858000, "update_time_ms": 2.479, "grad_time_ms": 368.126, "load_time_ms": 0.674}, "iterations_since_restore": 715, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 28995.60322213173, "episodes_total": 27029, "episode_reward_max": 8.00000039999993, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 28995.60322213173, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 57, "timestamp": 1757083700, "timesteps_since_restore": 859200, "episode_reward_min": -82.33183625893257, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-48-20", "episode_len_mean": 21.61, "timesteps_total": 859200, "episode_reward_mean": -25.298388457660902, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.73000144958496, "training_iteration": 716, "info": {"default": {"policy_loss": -0.13307127356529236, "vf_explained_var": 0.0653478130698204, "vf_loss": 360.661376953125, "kl": 0.010400122031569481, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.271821022033691, "total_loss": 360.58160400390625}, "sample_time_ms": 40282.965, "num_steps_trained": 859200, "num_steps_sampled": 859200, "update_time_ms": 2.472, "grad_time_ms": 367.512, "load_time_ms": 0.677}, "iterations_since_restore": 716, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 29036.2166826725, "episodes_total": 27087, "episode_reward_max": 8.000000399999927, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 29036.2166826725, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 58, "timestamp": 1757083740, "timesteps_since_restore": 860400, "episode_reward_min": -83.15118412406316, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-49-00", "episode_len_mean": 20.07, "timesteps_total": 860400, "episode_reward_mean": -23.438577239591453, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.613460540771484, "training_iteration": 717, "info": {"default": {"policy_loss": -0.13831906020641327, "vf_explained_var": 0.06287696212530136, "vf_loss": 397.1823425292969, "kl": 0.009049734100699425, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.504839897155762, "total_loss": 397.09039306640625}, "sample_time_ms": 40294.81, "num_steps_trained": 860400, "num_steps_sampled": 860400, "update_time_ms": 2.461, "grad_time_ms": 367.696, "load_time_ms": 0.677}, "iterations_since_restore": 717, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 29077.708159208298, "episodes_total": 27145, "episode_reward_max": 8.000000400294569, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 29077.708159208298, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 58, "timestamp": 1757083782, "timesteps_since_restore": 861600, "episode_reward_min": -84.76618152955605, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-49-42", "episode_len_mean": 20.63, "timesteps_total": 861600, "episode_reward_mean": -24.11644923042627, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.49147653579712, "training_iteration": 718, "info": {"default": {"policy_loss": -0.13099156320095062, "vf_explained_var": 0.05628981068730354, "vf_loss": 377.05572509765625, "kl": 0.009577766992151737, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.994077682495117, "total_loss": 376.9737854003906}, "sample_time_ms": 40403.004, "num_steps_trained": 861600, "num_steps_sampled": 861600, "update_time_ms": 2.467, "grad_time_ms": 369.106, "load_time_ms": 0.682}, "iterations_since_restore": 718, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 29118.641085386276, "episodes_total": 27213, "episode_reward_max": 8.000000532626647, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 29118.641085386276, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 68, "timestamp": 1757083823, "timesteps_since_restore": 862800, "episode_reward_min": -81.86781440969214, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-50-23", "episode_len_mean": 20.23, "timesteps_total": 862800, "episode_reward_mean": -22.83917961058728, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.932926177978516, "training_iteration": 719, "info": {"default": {"policy_loss": -0.135774165391922, "vf_explained_var": 0.06923539936542511, "vf_loss": 285.6695251464844, "kl": 0.010913086123764515, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.050886154174805, "total_loss": 285.5896911621094}, "sample_time_ms": 40446.359, "num_steps_trained": 862800, "num_steps_sampled": 862800, "update_time_ms": 2.481, "grad_time_ms": 367.082, "load_time_ms": 0.676}, "iterations_since_restore": 719, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 29159.28107905388, "episodes_total": 27272, "episode_reward_max": 6.00144027839643, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 29159.28107905388, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 59, "timestamp": 1757083863, "timesteps_since_restore": 864000, "episode_reward_min": -82.89561989928644, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-51-03", "episode_len_mean": 18.62, "timesteps_total": 864000, "episode_reward_mean": -19.981439301044652, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.63999366760254, "training_iteration": 720, "info": {"default": {"policy_loss": -0.1284421980381012, "vf_explained_var": 0.06530622392892838, "vf_loss": 314.2474060058594, "kl": 0.009373411536216736, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.334098815917969, "total_loss": 314.1670227050781}, "sample_time_ms": 40502.222, "num_steps_trained": 864000, "num_steps_sampled": 864000, "update_time_ms": 2.471, "grad_time_ms": 368.659, "load_time_ms": 0.685}, "iterations_since_restore": 720, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 29199.99475121498, "episodes_total": 27338, "episode_reward_max": 8.000000425276804, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 29199.99475121498, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 66, "timestamp": 1757083904, "timesteps_since_restore": 865200, "episode_reward_min": -82.89561989928644, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-51-44", "episode_len_mean": 18.52, "timesteps_total": 865200, "episode_reward_mean": -19.96935075821672, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.713672161102295, "training_iteration": 721, "info": {"default": {"policy_loss": -0.1386243999004364, "vf_explained_var": 0.0429929755628109, "vf_loss": 292.6319274902344, "kl": 0.009272708557546139, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.077808380126953, "total_loss": 292.54083251953125}, "sample_time_ms": 40504.072, "num_steps_trained": 865200, "num_steps_sampled": 865200, "update_time_ms": 2.465, "grad_time_ms": 370.445, "load_time_ms": 0.685}, "iterations_since_restore": 721, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 29241.91730117798, "episodes_total": 27401, "episode_reward_max": 6.002054486656901, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 29241.91730117798, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 63, "timestamp": 1757083946, "timesteps_since_restore": 866400, "episode_reward_min": -82.74371160723481, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-52-26", "episode_len_mean": 19.17, "timesteps_total": 866400, "episode_reward_mean": -20.819362200857366, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.92254996299744, "training_iteration": 722, "info": {"default": {"policy_loss": -0.12306466698646545, "vf_explained_var": 0.03911950811743736, "vf_loss": 254.18136596679688, "kl": 0.010511685162782669, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.399463653564453, "total_loss": 254.11219787597656}, "sample_time_ms": 40546.733, "num_steps_trained": 866400, "num_steps_sampled": 866400, "update_time_ms": 2.506, "grad_time_ms": 371.653, "load_time_ms": 0.682}, "iterations_since_restore": 722, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 29283.22913813591, "episodes_total": 27457, "episode_reward_max": 8.000029993520025, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 29283.22913813591, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 56, "timestamp": 1757083987, "timesteps_since_restore": 867600, "episode_reward_min": -82.74371160723481, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-53-07", "episode_len_mean": 20.54, "timesteps_total": 867600, "episode_reward_mean": -23.330405752587787, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.31183695793152, "training_iteration": 723, "info": {"default": {"policy_loss": -0.14105471968650818, "vf_explained_var": 0.08017747849225998, "vf_loss": 325.4109191894531, "kl": 0.010143209248781204, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.360750198364258, "total_loss": 325.3218688964844}, "sample_time_ms": 40599.349, "num_steps_trained": 867600, "num_steps_sampled": 867600, "update_time_ms": 2.499, "grad_time_ms": 373.337, "load_time_ms": 0.692}, "iterations_since_restore": 723, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 29325.205415010452, "episodes_total": 27525, "episode_reward_max": 6.0000160365220845, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 29325.205415010452, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 68, "timestamp": 1757084029, "timesteps_since_restore": 868800, "episode_reward_min": -82.02553931926019, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-53-49", "episode_len_mean": 19.1, "timesteps_total": 868800, "episode_reward_mean": -20.873786391573113, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.976276874542236, "training_iteration": 724, "info": {"default": {"policy_loss": -0.13885970413684845, "vf_explained_var": 0.058657899498939514, "vf_loss": 304.5099792480469, "kl": 0.008577974513173103, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.062747955322266, "total_loss": 304.41510009765625}, "sample_time_ms": 40692.165, "num_steps_trained": 868800, "num_steps_sampled": 868800, "update_time_ms": 2.531, "grad_time_ms": 373.124, "load_time_ms": 0.694}, "iterations_since_restore": 724, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 29365.986107826233, "episodes_total": 27578, "episode_reward_max": 6.0000160365220845, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 29365.986107826233, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 53, "timestamp": 1757084070, "timesteps_since_restore": 870000, "episode_reward_min": -82.69403482068108, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-54-30", "episode_len_mean": 20.8, "timesteps_total": 870000, "episode_reward_mean": -23.37609754359023, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.78069281578064, "training_iteration": 725, "info": {"default": {"policy_loss": -0.1291716992855072, "vf_explained_var": 0.08739342540502548, "vf_loss": 277.6264953613281, "kl": 0.00856463611125946, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.184879302978516, "total_loss": 277.5412292480469}, "sample_time_ms": 40730.9, "num_steps_trained": 870000, "num_steps_sampled": 870000, "update_time_ms": 2.563, "grad_time_ms": 372.244, "load_time_ms": 0.68}, "iterations_since_restore": 725, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 29406.15782213211, "episodes_total": 27631, "episode_reward_max": 6.0001688025645254, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 29406.15782213211, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 53, "timestamp": 1757084110, "timesteps_since_restore": 871200, "episode_reward_min": -85.48392902379284, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-55-10", "episode_len_mean": 22.45, "timesteps_total": 871200, "episode_reward_mean": -26.74245729229549, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.171714305877686, "training_iteration": 726, "info": {"default": {"policy_loss": -0.1305692046880722, "vf_explained_var": 0.08103582262992859, "vf_loss": 358.6045837402344, "kl": 0.011169320903718472, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.034055709838867, "total_loss": 358.53125}, "sample_time_ms": 40674.941, "num_steps_trained": 871200, "num_steps_sampled": 871200, "update_time_ms": 2.579, "grad_time_ms": 372.359, "load_time_ms": 0.674}, "iterations_since_restore": 726, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 29448.44010066986, "episodes_total": 27701, "episode_reward_max": 6.000731367378369, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 29448.44010066986, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 70, "timestamp": 1757084153, "timesteps_since_restore": 872400, "episode_reward_min": -82.93602254977328, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-55-53", "episode_len_mean": 19.03, "timesteps_total": 872400, "episode_reward_mean": -20.82716131705299, "num_metric_batches_dropped": 0, "time_this_iter_s": 42.282278537750244, "training_iteration": 727, "info": {"default": {"policy_loss": -0.12690937519073486, "vf_explained_var": 0.06322629749774933, "vf_loss": 270.475830078125, "kl": 0.010131497867405415, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.482244491577148, "total_loss": 270.40081787109375}, "sample_time_ms": 40841.406, "num_steps_trained": 872400, "num_steps_sampled": 872400, "update_time_ms": 2.608, "grad_time_ms": 372.786, "load_time_ms": 0.677}, "iterations_since_restore": 727, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 29489.228105545044, "episodes_total": 27774, "episode_reward_max": 6.000731367378369, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 29489.228105545044, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 73, "timestamp": 1757084193, "timesteps_since_restore": 873600, "episode_reward_min": -82.25053978219081, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-56-33", "episode_len_mean": 15.94, "timesteps_total": 873600, "episode_reward_mean": -15.703944481900898, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.788004875183105, "training_iteration": 728, "info": {"default": {"policy_loss": -0.12946470081806183, "vf_explained_var": 0.049016065895557404, "vf_loss": 299.9803161621094, "kl": 0.008652339689433575, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.097430229187012, "total_loss": 299.8951416015625}, "sample_time_ms": 40769.989, "num_steps_trained": 873600, "num_steps_sampled": 873600, "update_time_ms": 2.592, "grad_time_ms": 373.824, "load_time_ms": 0.676}, "iterations_since_restore": 728, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 29529.927278995514, "episodes_total": 27838, "episode_reward_max": 8.000019283308028, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 29529.927278995514, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 64, "timestamp": 1757084234, "timesteps_since_restore": 874800, "episode_reward_min": -81.72320013207842, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-57-14", "episode_len_mean": 18.39, "timesteps_total": 874800, "episode_reward_mean": -19.836285925144793, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.69917345046997, "training_iteration": 729, "info": {"default": {"policy_loss": -0.13523352146148682, "vf_explained_var": 0.0748111754655838, "vf_loss": 335.87359619140625, "kl": 0.0098927216604352, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.072437286376953, "total_loss": 335.7890319824219}, "sample_time_ms": 40744.5, "num_steps_trained": 874800, "num_steps_sampled": 874800, "update_time_ms": 2.596, "grad_time_ms": 375.944, "load_time_ms": 0.672}, "iterations_since_restore": 729, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 29571.078062534332, "episodes_total": 27906, "episode_reward_max": 8.000001657814378, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 29571.078062534332, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 68, "timestamp": 1757084275, "timesteps_since_restore": 876000, "episode_reward_min": -81.92822653593343, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-57-55", "episode_len_mean": 18.34, "timesteps_total": 876000, "episode_reward_mean": -19.5552035138419, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.15078353881836, "training_iteration": 730, "info": {"default": {"policy_loss": -0.13607625663280487, "vf_explained_var": 0.07375697791576385, "vf_loss": 284.76312255859375, "kl": 0.00896426010876894, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.50853443145752, "total_loss": 284.6729736328125}, "sample_time_ms": 40797.478, "num_steps_trained": 876000, "num_steps_sampled": 876000, "update_time_ms": 2.619, "grad_time_ms": 374.029, "load_time_ms": 0.658}, "iterations_since_restore": 730, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 29611.778690814972, "episodes_total": 27967, "episode_reward_max": 6.000679922644899, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 29611.778690814972, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 61, "timestamp": 1757084316, "timesteps_since_restore": 877200, "episode_reward_min": -83.15228410652335, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-58-36", "episode_len_mean": 18.26, "timesteps_total": 877200, "episode_reward_mean": -19.359112263199275, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.70062828063965, "training_iteration": 731, "info": {"default": {"policy_loss": -0.1341593861579895, "vf_explained_var": 0.061656758189201355, "vf_loss": 296.7401428222656, "kl": 0.008642788976430893, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.928287506103516, "total_loss": 296.6502685546875}, "sample_time_ms": 40796.564, "num_steps_trained": 877200, "num_steps_sampled": 877200, "update_time_ms": 2.582, "grad_time_ms": 373.713, "load_time_ms": 0.67}, "iterations_since_restore": 731, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 29653.39520764351, "episodes_total": 28039, "episode_reward_max": 8.000000540292397, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 29653.39520764351, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 72, "timestamp": 1757084358, "timesteps_since_restore": 878400, "episode_reward_min": -85.10073136374753, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-59-18", "episode_len_mean": 17.32, "timesteps_total": 878400, "episode_reward_mean": -17.948101077722608, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.61651682853699, "training_iteration": 732, "info": {"default": {"policy_loss": -0.1281171590089798, "vf_explained_var": 0.0566900297999382, "vf_loss": 286.0398254394531, "kl": 0.0099622942507267, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.014286041259766, "total_loss": 285.9627685546875}, "sample_time_ms": 40767.11, "num_steps_trained": 878400, "num_steps_sampled": 878400, "update_time_ms": 2.573, "grad_time_ms": 372.509, "load_time_ms": 0.669}, "iterations_since_restore": 732, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 29694.69374513626, "episodes_total": 28106, "episode_reward_max": 8.000000540292397, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 29694.69374513626, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 67, "timestamp": 1757084399, "timesteps_since_restore": 879600, "episode_reward_min": -82.3864645029358, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_16-59-59", "episode_len_mean": 16.9, "timesteps_total": 879600, "episode_reward_mean": -17.366074570166077, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.298537492752075, "training_iteration": 733, "info": {"default": {"policy_loss": -0.14045852422714233, "vf_explained_var": 0.08414170145988464, "vf_loss": 314.0704345703125, "kl": 0.008508166298270226, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.844867706298828, "total_loss": 313.9735107421875}, "sample_time_ms": 40765.503, "num_steps_trained": 879600, "num_steps_sampled": 879600, "update_time_ms": 2.603, "grad_time_ms": 372.742, "load_time_ms": 0.676}, "iterations_since_restore": 733, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 29737.214621543884, "episodes_total": 28178, "episode_reward_max": 8.00000111503843, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 29737.214621543884, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 72, "timestamp": 1757084442, "timesteps_since_restore": 880800, "episode_reward_min": -82.15611060835819, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-00-42", "episode_len_mean": 15.66, "timesteps_total": 880800, "episode_reward_mean": -14.896665386492428, "num_metric_batches_dropped": 0, "time_this_iter_s": 42.52087640762329, "training_iteration": 734, "info": {"default": {"policy_loss": -0.13205061852931976, "vf_explained_var": 0.06191818416118622, "vf_loss": 248.81407165527344, "kl": 0.011667486280202866, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.656253814697266, "total_loss": 248.74183654785156}, "sample_time_ms": 40818.951, "num_steps_trained": 880800, "num_steps_sampled": 880800, "update_time_ms": 2.598, "grad_time_ms": 373.773, "load_time_ms": 0.686}, "iterations_since_restore": 734, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 29778.218991279602, "episodes_total": 28245, "episode_reward_max": 8.000543049785566, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 29778.218991279602, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 67, "timestamp": 1757084483, "timesteps_since_restore": 882000, "episode_reward_min": -83.39854703969844, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-01-23", "episode_len_mean": 16.23, "timesteps_total": 882000, "episode_reward_mean": -15.984219261884206, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.00436973571777, "training_iteration": 735, "info": {"default": {"policy_loss": -0.11759211122989655, "vf_explained_var": 0.11208094656467438, "vf_loss": 260.5393371582031, "kl": 0.010160332545638084, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.803607940673828, "total_loss": 260.47381591796875}, "sample_time_ms": 40840.94, "num_steps_trained": 882000, "num_steps_sampled": 882000, "update_time_ms": 2.589, "grad_time_ms": 374.195, "load_time_ms": 0.691}, "iterations_since_restore": 735, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 29818.561482429504, "episodes_total": 28304, "episode_reward_max": 8.00000090983045, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 29818.561482429504, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 59, "timestamp": 1757084523, "timesteps_since_restore": 883200, "episode_reward_min": -83.39854703969844, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-02-03", "episode_len_mean": 20.33, "timesteps_total": 883200, "episode_reward_mean": -23.12202785529714, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.342491149902344, "training_iteration": 736, "info": {"default": {"policy_loss": -0.12850269675254822, "vf_explained_var": 0.03985140100121498, "vf_loss": 344.3086242675781, "kl": 0.009444975294172764, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.752793312072754, "total_loss": 344.228515625}, "sample_time_ms": 40859.85, "num_steps_trained": 883200, "num_steps_sampled": 883200, "update_time_ms": 2.585, "grad_time_ms": 372.404, "load_time_ms": 0.686}, "iterations_since_restore": 736, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 29859.180753707886, "episodes_total": 28360, "episode_reward_max": 8.00000090983045, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 29859.180753707886, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 56, "timestamp": 1757084564, "timesteps_since_restore": 884400, "episode_reward_min": -81.87708772999348, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-02-44", "episode_len_mean": 21.27, "timesteps_total": 884400, "episode_reward_mean": -24.264980880804305, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.61927127838135, "training_iteration": 737, "info": {"default": {"policy_loss": -0.14008980989456177, "vf_explained_var": 0.06672081351280212, "vf_loss": 304.00250244140625, "kl": 0.00897983182221651, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.57132339477539, "total_loss": 303.9084167480469}, "sample_time_ms": 40691.916, "num_steps_trained": 884400, "num_steps_sampled": 884400, "update_time_ms": 2.563, "grad_time_ms": 374.068, "load_time_ms": 0.689}, "iterations_since_restore": 737, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 29900.002744436264, "episodes_total": 28422, "episode_reward_max": 8.000089010749814, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 29900.002744436264, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 62, "timestamp": 1757084604, "timesteps_since_restore": 885600, "episode_reward_min": -85.38554531572255, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-03-24", "episode_len_mean": 20.2, "timesteps_total": 885600, "episode_reward_mean": -22.43494187975015, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.821990728378296, "training_iteration": 738, "info": {"default": {"policy_loss": -0.13489291071891785, "vf_explained_var": 0.05717464163899422, "vf_loss": 343.2720031738281, "kl": 0.00989554449915886, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.060739517211914, "total_loss": 343.1878356933594}, "sample_time_ms": 40698.21, "num_steps_trained": 885600, "num_steps_sampled": 885600, "update_time_ms": 2.602, "grad_time_ms": 371.156, "load_time_ms": 0.697}, "iterations_since_restore": 738, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 29940.7762465477, "episodes_total": 28484, "episode_reward_max": 8.000089010749814, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 29940.7762465477, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 62, "timestamp": 1757084645, "timesteps_since_restore": 886800, "episode_reward_min": -85.38554531572255, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-04-05", "episode_len_mean": 19.77, "timesteps_total": 886800, "episode_reward_mean": -22.146584529132607, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.77350211143494, "training_iteration": 739, "info": {"default": {"policy_loss": -0.1404074877500534, "vf_explained_var": 0.07595164328813553, "vf_loss": 344.611572265625, "kl": 0.009907951578497887, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.274325370788574, "total_loss": 344.52197265625}, "sample_time_ms": 40705.618, "num_steps_trained": 886800, "num_steps_sampled": 886800, "update_time_ms": 2.598, "grad_time_ms": 371.15, "load_time_ms": 0.707}, "iterations_since_restore": 739, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 29981.64090180397, "episodes_total": 28556, "episode_reward_max": 8.000031109397392, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 29981.64090180397, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 72, "timestamp": 1757084686, "timesteps_since_restore": 888000, "episode_reward_min": -83.32921079013482, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-04-46", "episode_len_mean": 17.29, "timesteps_total": 888000, "episode_reward_mean": -18.46493707709768, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.86465525627136, "training_iteration": 740, "info": {"default": {"policy_loss": -0.1380717009305954, "vf_explained_var": 0.09386997669935226, "vf_loss": 317.8074645996094, "kl": 0.00799684040248394, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.199979782104492, "total_loss": 317.7103576660156}, "sample_time_ms": 40675.18, "num_steps_trained": 888000, "num_steps_sampled": 888000, "update_time_ms": 2.585, "grad_time_ms": 372.988, "load_time_ms": 0.709}, "iterations_since_restore": 740, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 30022.496190071106, "episodes_total": 28626, "episode_reward_max": 8.000002003100477, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 30022.496190071106, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 70, "timestamp": 1757084727, "timesteps_since_restore": 889200, "episode_reward_min": -83.13848559617922, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-05-27", "episode_len_mean": 16.74, "timesteps_total": 889200, "episode_reward_mean": -16.96787096091629, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.85528826713562, "training_iteration": 741, "info": {"default": {"policy_loss": -0.13685159385204315, "vf_explained_var": 0.07675319910049438, "vf_loss": 321.41253662109375, "kl": 0.00837702676653862, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.066194534301758, "total_loss": 321.3186340332031}, "sample_time_ms": 40692.332, "num_steps_trained": 889200, "num_steps_sampled": 889200, "update_time_ms": 2.615, "grad_time_ms": 371.291, "load_time_ms": 0.693}, "iterations_since_restore": 741, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 30063.643092155457, "episodes_total": 28691, "episode_reward_max": 8.000000423194447, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 30063.643092155457, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 65, "timestamp": 1757084768, "timesteps_since_restore": 890400, "episode_reward_min": -84.2246213702523, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-06-08", "episode_len_mean": 18.62, "timesteps_total": 890400, "episode_reward_mean": -20.63733204124626, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.146902084350586, "training_iteration": 742, "info": {"default": {"policy_loss": -0.13879930973052979, "vf_explained_var": 0.0804530456662178, "vf_loss": 361.5207824707031, "kl": 0.01119515672326088, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.65325927734375, "total_loss": 361.4393615722656}, "sample_time_ms": 40644.176, "num_steps_trained": 890400, "num_steps_sampled": 890400, "update_time_ms": 2.618, "grad_time_ms": 372.543, "load_time_ms": 0.7}, "iterations_since_restore": 742, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 30104.053475141525, "episodes_total": 28747, "episode_reward_max": 8.000000423194447, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 30104.053475141525, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 56, "timestamp": 1757084809, "timesteps_since_restore": 891600, "episode_reward_min": -84.2246213702523, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-06-49", "episode_len_mean": 19.57, "timesteps_total": 891600, "episode_reward_mean": -21.79376136563798, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.410382986068726, "training_iteration": 743, "info": {"default": {"policy_loss": -0.1416526585817337, "vf_explained_var": 0.04931581765413284, "vf_loss": 305.583984375, "kl": 0.009790300391614437, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.784406661987305, "total_loss": 305.4924621582031}, "sample_time_ms": 40557.456, "num_steps_trained": 891600, "num_steps_sampled": 891600, "update_time_ms": 2.611, "grad_time_ms": 370.519, "load_time_ms": 0.684}, "iterations_since_restore": 743, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 30144.455258846283, "episodes_total": 28813, "episode_reward_max": 6.001084322535755, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 30144.455258846283, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 66, "timestamp": 1757084849, "timesteps_since_restore": 892800, "episode_reward_min": -81.955225259986, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-07-29", "episode_len_mean": 18.68, "timesteps_total": 892800, "episode_reward_mean": -19.97284440765686, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.40178370475769, "training_iteration": 744, "info": {"default": {"policy_loss": -0.12510019540786743, "vf_explained_var": 0.0812167301774025, "vf_loss": 303.3254699707031, "kl": 0.010806133039295673, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.999659538269043, "total_loss": 303.2557678222656}, "sample_time_ms": 40346.902, "num_steps_trained": 892800, "num_steps_sampled": 892800, "update_time_ms": 2.595, "grad_time_ms": 369.19, "load_time_ms": 0.666}, "iterations_since_restore": 744, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 30186.065650701523, "episodes_total": 28872, "episode_reward_max": 8.000002941928134, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 30186.065650701523, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 59, "timestamp": 1757084891, "timesteps_since_restore": 894000, "episode_reward_min": -83.08228367290154, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-08-11", "episode_len_mean": 19.4, "timesteps_total": 894000, "episode_reward_mean": -21.737716293241956, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.61039185523987, "training_iteration": 745, "info": {"default": {"policy_loss": -0.13053497672080994, "vf_explained_var": 0.056347012519836426, "vf_loss": 377.6755065917969, "kl": 0.008224553428590298, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.166430473327637, "total_loss": 377.5871276855469}, "sample_time_ms": 40408.814, "num_steps_trained": 894000, "num_steps_sampled": 894000, "update_time_ms": 2.588, "grad_time_ms": 367.867, "load_time_ms": 0.669}, "iterations_since_restore": 745, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 30226.762546777725, "episodes_total": 28943, "episode_reward_max": 8.000000400000106, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 30226.762546777725, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 71, "timestamp": 1757084931, "timesteps_since_restore": 895200, "episode_reward_min": -83.08228367290154, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-08-51", "episode_len_mean": 18.48, "timesteps_total": 895200, "episode_reward_mean": -19.69147452012094, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.69689607620239, "training_iteration": 746, "info": {"default": {"policy_loss": -0.12992480397224426, "vf_explained_var": 0.07774555683135986, "vf_loss": 194.36849975585938, "kl": 0.010045523755252361, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.619414329528809, "total_loss": 194.29006958007812}, "sample_time_ms": 40444.109, "num_steps_trained": 895200, "num_steps_sampled": 895200, "update_time_ms": 2.61, "grad_time_ms": 367.968, "load_time_ms": 0.672}, "iterations_since_restore": 746, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 30268.089219093323, "episodes_total": 29006, "episode_reward_max": 8.000000403304202, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 30268.089219093323, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 63, "timestamp": 1757084973, "timesteps_since_restore": 896400, "episode_reward_min": -82.62558471421308, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-09-33", "episode_len_mean": 18.27, "timesteps_total": 896400, "episode_reward_mean": -19.350712312063408, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.326672315597534, "training_iteration": 747, "info": {"default": {"policy_loss": -0.13237182796001434, "vf_explained_var": 0.07015971839427948, "vf_loss": 326.2056579589844, "kl": 0.010417462326586246, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.127080917358398, "total_loss": 326.1266784667969}, "sample_time_ms": 40515.43, "num_steps_trained": 896400, "num_steps_sampled": 896400, "update_time_ms": 2.603, "grad_time_ms": 367.395, "load_time_ms": 0.67}, "iterations_since_restore": 747, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 30308.541545152664, "episodes_total": 29062, "episode_reward_max": 6.0006216372415055, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 30308.541545152664, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 56, "timestamp": 1757085013, "timesteps_since_restore": 897600, "episode_reward_min": -84.67799704472158, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-10-13", "episode_len_mean": 19.19, "timesteps_total": 897600, "episode_reward_mean": -21.3234254769153, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.45232605934143, "training_iteration": 748, "info": {"default": {"policy_loss": -0.13899725675582886, "vf_explained_var": 0.04912257194519043, "vf_loss": 412.31866455078125, "kl": 0.010717198252677917, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.273164749145508, "total_loss": 412.2345886230469}, "sample_time_ms": 40477.023, "num_steps_trained": 897600, "num_steps_sampled": 897600, "update_time_ms": 2.565, "grad_time_ms": 368.856, "load_time_ms": 0.658}, "iterations_since_restore": 748, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 30349.387503147125, "episodes_total": 29132, "episode_reward_max": 8.00052066526673, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 30349.387503147125, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 70, "timestamp": 1757085054, "timesteps_since_restore": 898800, "episode_reward_min": -84.67799704472158, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-10-54", "episode_len_mean": 19.38, "timesteps_total": 898800, "episode_reward_mean": -21.462543912137075, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.84595799446106, "training_iteration": 749, "info": {"default": {"policy_loss": -0.13145460188388824, "vf_explained_var": 0.0625494122505188, "vf_loss": 285.423095703125, "kl": 0.011241531930863857, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.86048698425293, "total_loss": 285.3492431640625}, "sample_time_ms": 40485.085, "num_steps_trained": 898800, "num_steps_sampled": 898800, "update_time_ms": 2.61, "grad_time_ms": 367.894, "load_time_ms": 0.646}, "iterations_since_restore": 749, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 30389.929396867752, "episodes_total": 29190, "episode_reward_max": 8.00052066526673, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 30389.929396867752, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 58, "timestamp": 1757085095, "timesteps_since_restore": 900000, "episode_reward_min": -84.89795372890111, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-11-35", "episode_len_mean": 19.12, "timesteps_total": 900000, "episode_reward_mean": -20.785510885121795, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.54189372062683, "training_iteration": 750, "info": {"default": {"policy_loss": -0.12289158254861832, "vf_explained_var": 0.03563812002539635, "vf_loss": 348.5309143066406, "kl": 0.009410185739398003, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.520467758178711, "total_loss": 348.4562072753906}, "sample_time_ms": 40451.957, "num_steps_trained": 900000, "num_steps_sampled": 900000, "update_time_ms": 2.679, "grad_time_ms": 368.631, "load_time_ms": 0.64}, "iterations_since_restore": 750, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 30430.428723096848, "episodes_total": 29251, "episode_reward_max": 8.000000404376095, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 30430.428723096848, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 61, "timestamp": 1757085135, "timesteps_since_restore": 901200, "episode_reward_min": -83.73893636502241, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-12-15", "episode_len_mean": 20.41, "timesteps_total": 901200, "episode_reward_mean": -22.641483820709286, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.49932622909546, "training_iteration": 751, "info": {"default": {"policy_loss": -0.14148728549480438, "vf_explained_var": 0.0723336935043335, "vf_loss": 299.2305908203125, "kl": 0.011067216284573078, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.135138511657715, "total_loss": 299.14581298828125}, "sample_time_ms": 40416.332, "num_steps_trained": 901200, "num_steps_sampled": 901200, "update_time_ms": 2.698, "grad_time_ms": 368.638, "load_time_ms": 0.639}, "iterations_since_restore": 751, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 30471.68133020401, "episodes_total": 29334, "episode_reward_max": 8.000000404376095, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 30471.68133020401, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 83, "timestamp": 1757085176, "timesteps_since_restore": 902400, "episode_reward_min": -82.24432564475308, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-12-56", "episode_len_mean": 15.05, "timesteps_total": 902400, "episode_reward_mean": -13.998088530408827, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.252607107162476, "training_iteration": 752, "info": {"default": {"policy_loss": -0.12116781622171402, "vf_explained_var": 0.05540143698453903, "vf_loss": 231.3296661376953, "kl": 0.010432730428874493, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.135848045349121, "total_loss": 231.26199340820312}, "sample_time_ms": 40428.336, "num_steps_trained": 902400, "num_steps_sampled": 902400, "update_time_ms": 2.678, "grad_time_ms": 367.211, "load_time_ms": 0.632}, "iterations_since_restore": 752, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 30513.436676979065, "episodes_total": 29412, "episode_reward_max": 8.000020444125035, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 30513.436676979065, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 78, "timestamp": 1757085218, "timesteps_since_restore": 903600, "episode_reward_min": -82.24432564475308, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-13-38", "episode_len_mean": 14.83, "timesteps_total": 903600, "episode_reward_mean": -13.395111546191378, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.75534677505493, "training_iteration": 753, "info": {"default": {"policy_loss": -0.13614211976528168, "vf_explained_var": 0.10242009162902832, "vf_loss": 210.67474365234375, "kl": 0.009925223886966705, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.28369140625, "total_loss": 210.5894775390625}, "sample_time_ms": 40560.784, "num_steps_trained": 903600, "num_steps_sampled": 903600, "update_time_ms": 2.668, "grad_time_ms": 369.208, "load_time_ms": 0.629}, "iterations_since_restore": 753, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 30554.068113088608, "episodes_total": 29477, "episode_reward_max": 6.000214361836744, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 30554.068113088608, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 65, "timestamp": 1757085259, "timesteps_since_restore": 904800, "episode_reward_min": -82.48717607506077, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-14-19", "episode_len_mean": 16.92, "timesteps_total": 904800, "episode_reward_mean": -17.17085103099765, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.63143610954285, "training_iteration": 754, "info": {"default": {"policy_loss": -0.1356310099363327, "vf_explained_var": 0.04570399224758148, "vf_loss": 275.375, "kl": 0.010488932020962238, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.908733367919922, "total_loss": 275.29315185546875}, "sample_time_ms": 40582.174, "num_steps_trained": 904800, "num_steps_sampled": 904800, "update_time_ms": 2.693, "grad_time_ms": 370.766, "load_time_ms": 0.638}, "iterations_since_restore": 754, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 30595.17123389244, "episodes_total": 29550, "episode_reward_max": 8.000098319227599, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 30595.17123389244, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 73, "timestamp": 1757085300, "timesteps_since_restore": 906000, "episode_reward_min": -82.48717607506077, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-15-00", "episode_len_mean": 16.85, "timesteps_total": 906000, "episode_reward_mean": -17.117526602091335, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.10312080383301, "training_iteration": 755, "info": {"default": {"policy_loss": -0.1304991990327835, "vf_explained_var": 0.07977786660194397, "vf_loss": 298.7557067871094, "kl": 0.011416278779506683, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.717928886413574, "total_loss": 298.6837158203125}, "sample_time_ms": 40528.948, "num_steps_trained": 906000, "num_steps_sampled": 906000, "update_time_ms": 2.692, "grad_time_ms": 373.287, "load_time_ms": 0.647}, "iterations_since_restore": 755, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 30636.351860761642, "episodes_total": 29621, "episode_reward_max": 8.000000418469492, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 30636.351860761642, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 71, "timestamp": 1757085341, "timesteps_since_restore": 907200, "episode_reward_min": -83.52748219976436, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-15-41", "episode_len_mean": 17.14, "timesteps_total": 907200, "episode_reward_mean": -17.467007965914647, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.18062686920166, "training_iteration": 756, "info": {"default": {"policy_loss": -0.12059248983860016, "vf_explained_var": 0.06638404726982117, "vf_loss": 322.24920654296875, "kl": 0.008615576662123203, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.90461540222168, "total_loss": 322.17279052734375}, "sample_time_ms": 40575.462, "num_steps_trained": 907200, "num_steps_sampled": 907200, "update_time_ms": 2.659, "grad_time_ms": 375.132, "load_time_ms": 0.657}, "iterations_since_restore": 756, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 30677.02641391754, "episodes_total": 29686, "episode_reward_max": 8.000060442169335, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 30677.02641391754, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 65, "timestamp": 1757085382, "timesteps_since_restore": 908400, "episode_reward_min": -83.52748219976436, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-16-22", "episode_len_mean": 17.68, "timesteps_total": 908400, "episode_reward_mean": -18.62626461199702, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.67455315589905, "training_iteration": 757, "info": {"default": {"policy_loss": -0.13433906435966492, "vf_explained_var": 0.09224368631839752, "vf_loss": 290.9940185546875, "kl": 0.010070855729281902, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.214303970336914, "total_loss": 290.91131591796875}, "sample_time_ms": 40509.571, "num_steps_trained": 908400, "num_steps_sampled": 908400, "update_time_ms": 2.701, "grad_time_ms": 375.717, "load_time_ms": 0.675}, "iterations_since_restore": 757, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 30717.750467300415, "episodes_total": 29750, "episode_reward_max": 8.000000400008375, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 30717.750467300415, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 64, "timestamp": 1757085423, "timesteps_since_restore": 909600, "episode_reward_min": -84.89661991062168, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-17-03", "episode_len_mean": 18.7, "timesteps_total": 909600, "episode_reward_mean": -20.17263064166968, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.724053382873535, "training_iteration": 758, "info": {"default": {"policy_loss": -0.13608211278915405, "vf_explained_var": 0.09583254158496857, "vf_loss": 297.9053649902344, "kl": 0.00865277461707592, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.9579496383667, "total_loss": 297.8136291503906}, "sample_time_ms": 40537.635, "num_steps_trained": 909600, "num_steps_sampled": 909600, "update_time_ms": 2.754, "grad_time_ms": 374.808, "load_time_ms": 0.687}, "iterations_since_restore": 758, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 30758.913528442383, "episodes_total": 29813, "episode_reward_max": 8.000000400008375, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 30758.913528442383, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 63, "timestamp": 1757085464, "timesteps_since_restore": 910800, "episode_reward_min": -84.89661991062168, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-17-44", "episode_len_mean": 19.09, "timesteps_total": 910800, "episode_reward_mean": -21.10671550565162, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.16306114196777, "training_iteration": 759, "info": {"default": {"policy_loss": -0.12606367468833923, "vf_explained_var": 0.07965333014726639, "vf_loss": 314.8367614746094, "kl": 0.00925252865999937, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.232202529907227, "total_loss": 314.7580871582031}, "sample_time_ms": 40569.163, "num_steps_trained": 910800, "num_steps_sampled": 910800, "update_time_ms": 2.699, "grad_time_ms": 375.127, "load_time_ms": 0.696}, "iterations_since_restore": 759, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 30800.173375844955, "episodes_total": 29870, "episode_reward_max": 8.000000400058523, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 30800.173375844955, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 57, "timestamp": 1757085505, "timesteps_since_restore": 912000, "episode_reward_min": -83.83995846299142, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-18-25", "episode_len_mean": 19.29, "timesteps_total": 912000, "episode_reward_mean": -21.359571240138703, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.25984740257263, "training_iteration": 760, "info": {"default": {"policy_loss": -0.13328641653060913, "vf_explained_var": 0.05360172688961029, "vf_loss": 319.5666198730469, "kl": 0.010172800160944462, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.890810012817383, "total_loss": 319.4854736328125}, "sample_time_ms": 40640.973, "num_steps_trained": 912000, "num_steps_sampled": 912000, "update_time_ms": 2.675, "grad_time_ms": 375.169, "load_time_ms": 0.715}, "iterations_since_restore": 760, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 30841.5841755867, "episodes_total": 29935, "episode_reward_max": 6.000467144138341, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 30841.5841755867, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 65, "timestamp": 1757085547, "timesteps_since_restore": 913200, "episode_reward_min": -83.83995846299142, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-19-07", "episode_len_mean": 20.22, "timesteps_total": 913200, "episode_reward_mean": -23.314135707282638, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.410799741744995, "training_iteration": 761, "info": {"default": {"policy_loss": -0.1262614130973816, "vf_explained_var": 0.06839457154273987, "vf_loss": 374.11395263671875, "kl": 0.008085977286100388, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.623345375061035, "total_loss": 374.0291442871094}, "sample_time_ms": 40732.115, "num_steps_trained": 913200, "num_steps_sampled": 913200, "update_time_ms": 2.735, "grad_time_ms": 375.13, "load_time_ms": 0.713}, "iterations_since_restore": 761, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 30882.567188978195, "episodes_total": 30005, "episode_reward_max": 6.001887000447253, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 30882.567188978195, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 70, "timestamp": 1757085588, "timesteps_since_restore": 914400, "episode_reward_min": -82.33862409631332, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-19-48", "episode_len_mean": 16.99, "timesteps_total": 914400, "episode_reward_mean": -17.24281673077447, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.98301339149475, "training_iteration": 762, "info": {"default": {"policy_loss": -0.13505060970783234, "vf_explained_var": 0.0880148783326149, "vf_loss": 244.82989501953125, "kl": 0.009070093743503094, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.867620468139648, "total_loss": 244.74134826660156}, "sample_time_ms": 40704.152, "num_steps_trained": 914400, "num_steps_sampled": 914400, "update_time_ms": 2.718, "grad_time_ms": 376.142, "load_time_ms": 0.722}, "iterations_since_restore": 762, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 30923.50925898552, "episodes_total": 30071, "episode_reward_max": 6.0006705510351575, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 30923.50925898552, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 66, "timestamp": 1757085629, "timesteps_since_restore": 915600, "episode_reward_min": -80.65436496511782, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-20-29", "episode_len_mean": 17.88, "timesteps_total": 915600, "episode_reward_mean": -18.44683374447552, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.94207000732422, "training_iteration": 763, "info": {"default": {"policy_loss": -0.1356877088546753, "vf_explained_var": 0.0753752663731575, "vf_loss": 286.0276794433594, "kl": 0.009824368171393871, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.95186710357666, "total_loss": 285.9422912597656}, "sample_time_ms": 40623.094, "num_steps_trained": 915600, "num_steps_sampled": 915600, "update_time_ms": 2.704, "grad_time_ms": 375.957, "load_time_ms": 0.73}, "iterations_since_restore": 763, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 30964.495475292206, "episodes_total": 30134, "episode_reward_max": 6.000480849959848, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 30964.495475292206, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 63, "timestamp": 1757085670, "timesteps_since_restore": 916800, "episode_reward_min": -81.0640415203788, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-21-10", "episode_len_mean": 18.99, "timesteps_total": 916800, "episode_reward_mean": -20.456197002782996, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.9862163066864, "training_iteration": 764, "info": {"default": {"policy_loss": -0.1424509435892105, "vf_explained_var": 0.08470446616411209, "vf_loss": 284.12646484375, "kl": 0.009188350290060043, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.875536918640137, "total_loss": 284.0310974121094}, "sample_time_ms": 40660.157, "num_steps_trained": 916800, "num_steps_sampled": 916800, "update_time_ms": 2.676, "grad_time_ms": 374.41, "load_time_ms": 0.737}, "iterations_since_restore": 764, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 31005.797312259674, "episodes_total": 30208, "episode_reward_max": 8.000000402079849, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 31005.797312259674, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 74, "timestamp": 1757085711, "timesteps_since_restore": 918000, "episode_reward_min": -82.73128965920462, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-21-51", "episode_len_mean": 15.82, "timesteps_total": 918000, "episode_reward_mean": -14.951894382360717, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.30183696746826, "training_iteration": 765, "info": {"default": {"policy_loss": -0.12936262786388397, "vf_explained_var": 0.07548219710588455, "vf_loss": 242.91050720214844, "kl": 0.009415439330041409, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.627714157104492, "total_loss": 242.82940673828125}, "sample_time_ms": 40681.497, "num_steps_trained": 918000, "num_steps_sampled": 918000, "update_time_ms": 2.644, "grad_time_ms": 372.94, "load_time_ms": 0.724}, "iterations_since_restore": 765, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 31047.05264520645, "episodes_total": 30276, "episode_reward_max": 8.000000402079849, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 31047.05264520645, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 68, "timestamp": 1757085752, "timesteps_since_restore": 919200, "episode_reward_min": -82.73128965920462, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-22-32", "episode_len_mean": 18.31, "timesteps_total": 919200, "episode_reward_mean": -19.280804899835008, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.255332946777344, "training_iteration": 766, "info": {"default": {"policy_loss": -0.1371554285287857, "vf_explained_var": 0.07185918837785721, "vf_loss": 247.03509521484375, "kl": 0.008833284489810467, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.774402618408203, "total_loss": 246.94322204589844}, "sample_time_ms": 40690.955, "num_steps_trained": 919200, "num_steps_sampled": 919200, "update_time_ms": 2.674, "grad_time_ms": 370.963, "load_time_ms": 0.727}, "iterations_since_restore": 766, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 31089.062596797943, "episodes_total": 30353, "episode_reward_max": 8.000000400002431, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 31089.062596797943, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 77, "timestamp": 1757085794, "timesteps_since_restore": 920400, "episode_reward_min": -83.5361869541145, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-23-14", "episode_len_mean": 15.25, "timesteps_total": 920400, "episode_reward_mean": -14.175203548616794, "num_metric_batches_dropped": 0, "time_this_iter_s": 42.0099515914917, "training_iteration": 767, "info": {"default": {"policy_loss": -0.12462607026100159, "vf_explained_var": 0.08732303977012634, "vf_loss": 243.69512939453125, "kl": 0.008847885765135288, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.529629707336426, "total_loss": 243.61582946777344}, "sample_time_ms": 40824.563, "num_steps_trained": 920400, "num_steps_sampled": 920400, "update_time_ms": 2.63, "grad_time_ms": 370.953, "load_time_ms": 0.713}, "iterations_since_restore": 767, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 31131.69923043251, "episodes_total": 30427, "episode_reward_max": 8.000000400002431, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 31131.69923043251, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 74, "timestamp": 1757085837, "timesteps_since_restore": 921600, "episode_reward_min": -80.95841474236175, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-23-57", "episode_len_mean": 16.55, "timesteps_total": 921600, "episode_reward_mean": -16.218077237483868, "num_metric_batches_dropped": 0, "time_this_iter_s": 42.63663363456726, "training_iteration": 768, "info": {"default": {"policy_loss": -0.14495937526226044, "vf_explained_var": 0.08378193527460098, "vf_loss": 259.54229736328125, "kl": 0.00863682385534048, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.644064903259277, "total_loss": 259.44158935546875}, "sample_time_ms": 41014.356, "num_steps_trained": 921600, "num_steps_sampled": 921600, "update_time_ms": 2.613, "grad_time_ms": 372.414, "load_time_ms": 0.709}, "iterations_since_restore": 768, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 31172.656938552856, "episodes_total": 30491, "episode_reward_max": 6.000292684923556, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 31172.656938552856, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 64, "timestamp": 1757085878, "timesteps_since_restore": 922800, "episode_reward_min": -82.58970208683081, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-24-38", "episode_len_mean": 17.35, "timesteps_total": 922800, "episode_reward_mean": -18.03929135106351, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.95770812034607, "training_iteration": 769, "info": {"default": {"policy_loss": -0.14416664838790894, "vf_explained_var": 0.0536273792386055, "vf_loss": 329.0448913574219, "kl": 0.009426713921129704, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.792765617370605, "total_loss": 328.94903564453125}, "sample_time_ms": 40995.501, "num_steps_trained": 922800, "num_steps_sampled": 922800, "update_time_ms": 2.591, "grad_time_ms": 370.787, "load_time_ms": 0.705}, "iterations_since_restore": 769, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 31213.47488617897, "episodes_total": 30560, "episode_reward_max": 6.001096636040461, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 31213.47488617897, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 69, "timestamp": 1757085919, "timesteps_since_restore": 924000, "episode_reward_min": -84.67005291753208, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-25-19", "episode_len_mean": 17.68, "timesteps_total": 924000, "episode_reward_mean": -18.410349034058434, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.81794762611389, "training_iteration": 770, "info": {"default": {"policy_loss": -0.12984853982925415, "vf_explained_var": 0.08265845477581024, "vf_loss": 305.31280517578125, "kl": 0.008890766650438309, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.666536331176758, "total_loss": 305.228515625}, "sample_time_ms": 40950.612, "num_steps_trained": 924000, "num_steps_sampled": 924000, "update_time_ms": 2.576, "grad_time_ms": 371.489, "load_time_ms": 0.699}, "iterations_since_restore": 770, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 31254.5342772007, "episodes_total": 30631, "episode_reward_max": 8.00090756810259, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 31254.5342772007, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 71, "timestamp": 1757085960, "timesteps_since_restore": 925200, "episode_reward_min": -82.3422879094364, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-26-00", "episode_len_mean": 16.39, "timesteps_total": 925200, "episode_reward_mean": -16.122359780407713, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.059391021728516, "training_iteration": 771, "info": {"default": {"policy_loss": -0.12562409043312073, "vf_explained_var": 0.07445921748876572, "vf_loss": 281.87884521484375, "kl": 0.008894064463675022, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.495814323425293, "total_loss": 281.798828125}, "sample_time_ms": 40914.362, "num_steps_trained": 925200, "num_steps_sampled": 925200, "update_time_ms": 2.49, "grad_time_ms": 372.654, "load_time_ms": 0.705}, "iterations_since_restore": 771, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 31295.46081018448, "episodes_total": 30704, "episode_reward_max": 8.00090756810259, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 31295.46081018448, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 73, "timestamp": 1757086001, "timesteps_since_restore": 926400, "episode_reward_min": -80.87787801531817, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-26-41", "episode_len_mean": 17.17, "timesteps_total": 926400, "episode_reward_mean": -17.317141906400938, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.92653298377991, "training_iteration": 772, "info": {"default": {"policy_loss": -0.1239498034119606, "vf_explained_var": 0.08681967109441757, "vf_loss": 218.62332153320312, "kl": 0.009571562521159649, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.913838386535645, "total_loss": 218.5484161376953}, "sample_time_ms": 40909.074, "num_steps_trained": 926400, "num_steps_sampled": 926400, "update_time_ms": 2.507, "grad_time_ms": 372.3, "load_time_ms": 0.709}, "iterations_since_restore": 772, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 31336.891654729843, "episodes_total": 30784, "episode_reward_max": 8.000000722456967, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 31336.891654729843, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 80, "timestamp": 1757086042, "timesteps_since_restore": 927600, "episode_reward_min": -82.13300054388644, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-27-22", "episode_len_mean": 16.33, "timesteps_total": 927600, "episode_reward_mean": -16.053352833205842, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.43084454536438, "training_iteration": 773, "info": {"default": {"policy_loss": -0.1430547535419464, "vf_explained_var": 0.05776591971516609, "vf_loss": 313.5188903808594, "kl": 0.008910161443054676, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.528358459472656, "total_loss": 313.4215087890625}, "sample_time_ms": 40959.906, "num_steps_trained": 927600, "num_steps_sampled": 927600, "update_time_ms": 2.492, "grad_time_ms": 370.343, "load_time_ms": 0.704}, "iterations_since_restore": 773, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 31378.806512594223, "episodes_total": 30867, "episode_reward_max": 8.00002824079836, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 31378.806512594223, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 83, "timestamp": 1757086084, "timesteps_since_restore": 928800, "episode_reward_min": -82.13300054388644, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-28-04", "episode_len_mean": 15.01, "timesteps_total": 928800, "episode_reward_mean": -13.570427887843211, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.91485786437988, "training_iteration": 774, "info": {"default": {"policy_loss": -0.1321137547492981, "vf_explained_var": 0.10900112986564636, "vf_loss": 151.51576232910156, "kl": 0.010917743667960167, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.147563934326172, "total_loss": 151.4396209716797}, "sample_time_ms": 41053.973, "num_steps_trained": 928800, "num_steps_sampled": 928800, "update_time_ms": 2.496, "grad_time_ms": 369.162, "load_time_ms": 0.691}, "iterations_since_restore": 774, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 31419.993708610535, "episodes_total": 30933, "episode_reward_max": 8.00000040034583, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 31419.993708610535, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 66, "timestamp": 1757086125, "timesteps_since_restore": 930000, "episode_reward_min": -80.38782541284584, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-28-45", "episode_len_mean": 17.48, "timesteps_total": 930000, "episode_reward_mean": -17.637091387092415, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.187196016311646, "training_iteration": 775, "info": {"default": {"policy_loss": -0.133761465549469, "vf_explained_var": 0.0745670273900032, "vf_loss": 295.4413757324219, "kl": 0.009684954769909382, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.024506568908691, "total_loss": 295.3572692871094}, "sample_time_ms": 41042.881, "num_steps_trained": 930000, "num_steps_sampled": 930000, "update_time_ms": 2.529, "grad_time_ms": 368.752, "load_time_ms": 0.697}, "iterations_since_restore": 775, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 31462.726754665375, "episodes_total": 30999, "episode_reward_max": 8.00000040034583, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 31462.726754665375, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 66, "timestamp": 1757086168, "timesteps_since_restore": 931200, "episode_reward_min": -83.26649840872302, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-29-28", "episode_len_mean": 18.3, "timesteps_total": 931200, "episode_reward_mean": -19.808913434781406, "num_metric_batches_dropped": 0, "time_this_iter_s": 42.73304605484009, "training_iteration": 776, "info": {"default": {"policy_loss": -0.13098560273647308, "vf_explained_var": 0.030340632423758507, "vf_loss": 343.68548583984375, "kl": 0.008821642957627773, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.451546669006348, "total_loss": 343.5997009277344}, "sample_time_ms": 41191.055, "num_steps_trained": 931200, "num_steps_sampled": 931200, "update_time_ms": 2.511, "grad_time_ms": 368.398, "load_time_ms": 0.682}, "iterations_since_restore": 776, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 31504.402832984924, "episodes_total": 31077, "episode_reward_max": 6.00042544964599, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 31504.402832984924, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 78, "timestamp": 1757086210, "timesteps_since_restore": 932400, "episode_reward_min": -82.90656271259472, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-30-10", "episode_len_mean": 16.35, "timesteps_total": 932400, "episode_reward_mean": -16.60537585896571, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.67607831954956, "training_iteration": 777, "info": {"default": {"policy_loss": -0.12153659760951996, "vf_explained_var": 0.0682220533490181, "vf_loss": 271.8040771484375, "kl": 0.009109177626669407, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.856929779052734, "total_loss": 271.72918701171875}, "sample_time_ms": 41157.313, "num_steps_trained": 932400, "num_steps_sampled": 932400, "update_time_ms": 2.522, "grad_time_ms": 368.718, "load_time_ms": 0.678}, "iterations_since_restore": 777, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 31545.452731847763, "episodes_total": 31136, "episode_reward_max": 6.000333428507881, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 31545.452731847763, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 59, "timestamp": 1757086251, "timesteps_since_restore": 933600, "episode_reward_min": -81.95809372931464, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-30-51", "episode_len_mean": 18.35, "timesteps_total": 933600, "episode_reward_mean": -20.045205049618446, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.049898862838745, "training_iteration": 778, "info": {"default": {"policy_loss": -0.13712677359580994, "vf_explained_var": 0.06309150159358978, "vf_loss": 367.3211669921875, "kl": 0.010018829256296158, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.415764808654785, "total_loss": 367.2354431152344}, "sample_time_ms": 40997.501, "num_steps_trained": 933600, "num_steps_sampled": 933600, "update_time_ms": 2.5, "grad_time_ms": 369.85, "load_time_ms": 0.685}, "iterations_since_restore": 778, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 31587.682763814926, "episodes_total": 31204, "episode_reward_max": 8.000000400000427, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 31587.682763814926, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 68, "timestamp": 1757086293, "timesteps_since_restore": 934800, "episode_reward_min": -81.95809372931464, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-31-33", "episode_len_mean": 18.32, "timesteps_total": 934800, "episode_reward_mean": -19.288561365640202, "num_metric_batches_dropped": 0, "time_this_iter_s": 42.230031967163086, "training_iteration": 779, "info": {"default": {"policy_loss": -0.1388029009103775, "vf_explained_var": 0.07079575210809708, "vf_loss": 288.54693603515625, "kl": 0.008945469744503498, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.939398765563965, "total_loss": 288.4539794921875}, "sample_time_ms": 41122.756, "num_steps_trained": 934800, "num_steps_sampled": 934800, "update_time_ms": 2.53, "grad_time_ms": 371.71, "load_time_ms": 0.691}, "iterations_since_restore": 779, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 31628.497992038727, "episodes_total": 31284, "episode_reward_max": 8.000000400000427, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 31628.497992038727, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 80, "timestamp": 1757086334, "timesteps_since_restore": 936000, "episode_reward_min": -82.93250793708731, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-32-14", "episode_len_mean": 15.6, "timesteps_total": 936000, "episode_reward_mean": -14.50026204637919, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.81522822380066, "training_iteration": 780, "info": {"default": {"policy_loss": -0.13739486038684845, "vf_explained_var": 0.07151840627193451, "vf_loss": 206.58758544921875, "kl": 0.008643634617328644, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.22188663482666, "total_loss": 206.49449157714844}, "sample_time_ms": 41125.928, "num_steps_trained": 936000, "num_steps_sampled": 936000, "update_time_ms": 2.55, "grad_time_ms": 368.294, "load_time_ms": 0.681}, "iterations_since_restore": 780, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 31670.13278079033, "episodes_total": 31342, "episode_reward_max": 6.000176293286694, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 31670.13278079033, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 58, "timestamp": 1757086376, "timesteps_since_restore": 937200, "episode_reward_min": -82.93250793708731, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-32-56", "episode_len_mean": 19.24, "timesteps_total": 937200, "episode_reward_mean": -20.552981499386284, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.63478875160217, "training_iteration": 781, "info": {"default": {"policy_loss": -0.1339491307735443, "vf_explained_var": 0.05693019926548004, "vf_loss": 299.640625, "kl": 0.008394439704716206, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.282084465026855, "total_loss": 299.5496826171875}, "sample_time_ms": 41181.526, "num_steps_trained": 937200, "num_steps_sampled": 937200, "update_time_ms": 2.678, "grad_time_ms": 370.094, "load_time_ms": 0.693}, "iterations_since_restore": 781, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 31712.822729587555, "episodes_total": 31417, "episode_reward_max": 8.000000415685204, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 31712.822729587555, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 75, "timestamp": 1757086418, "timesteps_since_restore": 938400, "episode_reward_min": -83.43794007504187, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-33-38", "episode_len_mean": 16.79, "timesteps_total": 938400, "episode_reward_mean": -17.101444941320118, "num_metric_batches_dropped": 0, "time_this_iter_s": 42.68994879722595, "training_iteration": 782, "info": {"default": {"policy_loss": -0.1299237459897995, "vf_explained_var": 0.11295817792415619, "vf_loss": 304.2052307128906, "kl": 0.009532425552606583, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.516620635986328, "total_loss": 304.12420654296875}, "sample_time_ms": 41357.94, "num_steps_trained": 938400, "num_steps_sampled": 938400, "update_time_ms": 2.687, "grad_time_ms": 370.018, "load_time_ms": 0.677}, "iterations_since_restore": 782, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 31754.143613100052, "episodes_total": 31488, "episode_reward_max": 8.000000415685204, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 31754.143613100052, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 71, "timestamp": 1757086460, "timesteps_since_restore": 939600, "episode_reward_min": -84.09497712514565, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-34-20", "episode_len_mean": 15.17, "timesteps_total": 939600, "episode_reward_mean": -14.53179247834062, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.32088351249695, "training_iteration": 783, "info": {"default": {"policy_loss": -0.1365339457988739, "vf_explained_var": 0.07083293050527573, "vf_loss": 334.5401611328125, "kl": 0.009145643562078476, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.67782974243164, "total_loss": 334.45050048828125}, "sample_time_ms": 41344.813, "num_steps_trained": 939600, "num_steps_sampled": 939600, "update_time_ms": 2.718, "grad_time_ms": 372.086, "load_time_ms": 0.684}, "iterations_since_restore": 783, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 31796.009793758392, "episodes_total": 31577, "episode_reward_max": 8.000000400905687, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 31796.009793758392, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 89, "timestamp": 1757086502, "timesteps_since_restore": 940800, "episode_reward_min": -81.67197025197763, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-35-02", "episode_len_mean": 15.09, "timesteps_total": 940800, "episode_reward_mean": -14.239655396158048, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.866180658340454, "training_iteration": 784, "info": {"default": {"policy_loss": -0.13519270718097687, "vf_explained_var": 0.07641210407018661, "vf_loss": 317.3211669921875, "kl": 0.008587056770920753, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.222443580627441, "total_loss": 317.23004150390625}, "sample_time_ms": 41337.41, "num_steps_trained": 940800, "num_steps_sampled": 940800, "update_time_ms": 2.72, "grad_time_ms": 374.514, "load_time_ms": 0.696}, "iterations_since_restore": 784, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 31836.17005753517, "episodes_total": 31641, "episode_reward_max": 6.001243825890395, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 31836.17005753517, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 64, "timestamp": 1757086542, "timesteps_since_restore": 942000, "episode_reward_min": -81.37664146984619, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-35-42", "episode_len_mean": 17.05, "timesteps_total": 942000, "episode_reward_mean": -17.37990158421807, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.160263776779175, "training_iteration": 785, "info": {"default": {"policy_loss": -0.12897008657455444, "vf_explained_var": 0.07758599519729614, "vf_loss": 292.6439514160156, "kl": 0.009270449168980122, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.00112247467041, "total_loss": 292.5625305175781}, "sample_time_ms": 41235.819, "num_steps_trained": 942000, "num_steps_sampled": 942000, "update_time_ms": 2.709, "grad_time_ms": 373.491, "load_time_ms": 0.69}, "iterations_since_restore": 785, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 31878.304388046265, "episodes_total": 31716, "episode_reward_max": 6.000214508512875, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 31878.304388046265, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 75, "timestamp": 1757086584, "timesteps_since_restore": 943200, "episode_reward_min": -82.8573925267026, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-36-24", "episode_len_mean": 16.77, "timesteps_total": 943200, "episode_reward_mean": -16.905712293774894, "num_metric_batches_dropped": 0, "time_this_iter_s": 42.13433051109314, "training_iteration": 786, "info": {"default": {"policy_loss": -0.12843292951583862, "vf_explained_var": 0.06341823190450668, "vf_loss": 275.66217041015625, "kl": 0.011062095873057842, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.568428993225098, "total_loss": 275.5904235839844}, "sample_time_ms": 41173.753, "num_steps_trained": 943200, "num_steps_sampled": 943200, "update_time_ms": 2.697, "grad_time_ms": 375.631, "load_time_ms": 0.701}, "iterations_since_restore": 786, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 31920.1266579628, "episodes_total": 31789, "episode_reward_max": 6.000214508512875, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 31920.1266579628, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 73, "timestamp": 1757086626, "timesteps_since_restore": 944400, "episode_reward_min": -84.43274921430044, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-37-06", "episode_len_mean": 16.98, "timesteps_total": 944400, "episode_reward_mean": -16.910021719647695, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.822269916534424, "training_iteration": 787, "info": {"default": {"policy_loss": -0.13812871277332306, "vf_explained_var": 0.07147495448589325, "vf_loss": 260.9437255859375, "kl": 0.008868556469678879, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.911284446716309, "total_loss": 260.8510437011719}, "sample_time_ms": 41190.783, "num_steps_trained": 944400, "num_steps_sampled": 944400, "update_time_ms": 2.73, "grad_time_ms": 373.235, "load_time_ms": 0.702}, "iterations_since_restore": 787, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 31961.057501792908, "episodes_total": 31855, "episode_reward_max": 8.000006090076228, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 31961.057501792908, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 66, "timestamp": 1757086667, "timesteps_since_restore": 945600, "episode_reward_min": -83.36110995745474, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-37-47", "episode_len_mean": 17.48, "timesteps_total": 945600, "episode_reward_mean": -17.847293149924436, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.93084383010864, "training_iteration": 788, "info": {"default": {"policy_loss": -0.12876324355602264, "vf_explained_var": 0.09524839371442795, "vf_loss": 343.5835876464844, "kl": 0.00985246803611517, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.324199676513672, "total_loss": 343.50531005859375}, "sample_time_ms": 41179.16, "num_steps_trained": 945600, "num_steps_sampled": 945600, "update_time_ms": 2.744, "grad_time_ms": 372.989, "load_time_ms": 0.687}, "iterations_since_restore": 788, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 32002.205224752426, "episodes_total": 31926, "episode_reward_max": 6.001857335895083, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 32002.205224752426, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 71, "timestamp": 1757086708, "timesteps_since_restore": 946800, "episode_reward_min": -83.7928156140809, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-38-28", "episode_len_mean": 17.95, "timesteps_total": 946800, "episode_reward_mean": -18.949998624032915, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.14772295951843, "training_iteration": 789, "info": {"default": {"policy_loss": -0.13849443197250366, "vf_explained_var": 0.08762584626674652, "vf_loss": 272.31854248046875, "kl": 0.010261091403663158, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.618632316589355, "total_loss": 272.2326354980469}, "sample_time_ms": 41069.194, "num_steps_trained": 946800, "num_steps_sampled": 946800, "update_time_ms": 2.735, "grad_time_ms": 374.786, "load_time_ms": 0.708}, "iterations_since_restore": 789, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 32042.909244537354, "episodes_total": 31999, "episode_reward_max": 6.001857335895083, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 32042.909244537354, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 73, "timestamp": 1757086748, "timesteps_since_restore": 948000, "episode_reward_min": -82.18133952180702, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-39-08", "episode_len_mean": 16.47, "timesteps_total": 948000, "episode_reward_mean": -16.149954779924396, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.70401978492737, "training_iteration": 790, "info": {"default": {"policy_loss": -0.1252433955669403, "vf_explained_var": 0.07144014537334442, "vf_loss": 258.5819396972656, "kl": 0.008823297917842865, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.396411895751953, "total_loss": 258.5019226074219}, "sample_time_ms": 41055.307, "num_steps_trained": 948000, "num_steps_sampled": 948000, "update_time_ms": 2.687, "grad_time_ms": 377.564, "load_time_ms": 0.715}, "iterations_since_restore": 790, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 32084.254687786102, "episodes_total": 32068, "episode_reward_max": 6.001836243364822, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 32084.254687786102, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 69, "timestamp": 1757086790, "timesteps_since_restore": 949200, "episode_reward_min": -80.85764040360846, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-39-50", "episode_len_mean": 17.58, "timesteps_total": 949200, "episode_reward_mean": -17.849939522390184, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.34544324874878, "training_iteration": 791, "info": {"default": {"policy_loss": -0.12877513468265533, "vf_explained_var": 0.06586365401744843, "vf_loss": 206.58221435546875, "kl": 0.010075349360704422, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.23319149017334, "total_loss": 206.5050811767578}, "sample_time_ms": 41027.328, "num_steps_trained": 949200, "num_steps_sampled": 949200, "update_time_ms": 2.535, "grad_time_ms": 376.776, "load_time_ms": 0.705}, "iterations_since_restore": 791, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 32125.5978577137, "episodes_total": 32143, "episode_reward_max": 8.000000404790654, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 32125.5978577137, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 75, "timestamp": 1757086831, "timesteps_since_restore": 950400, "episode_reward_min": -83.24543220280364, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-40-31", "episode_len_mean": 16.66, "timesteps_total": 950400, "episode_reward_mean": -16.485858750444915, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.343169927597046, "training_iteration": 792, "info": {"default": {"policy_loss": -0.135418102145195, "vf_explained_var": 0.07744724303483963, "vf_loss": 247.65565490722656, "kl": 0.009517880156636238, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.702839851379395, "total_loss": 247.56903076171875}, "sample_time_ms": 40894.588, "num_steps_trained": 950400, "num_steps_sampled": 950400, "update_time_ms": 2.543, "grad_time_ms": 374.862, "load_time_ms": 0.712}, "iterations_since_restore": 792, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 32167.609131336212, "episodes_total": 32222, "episode_reward_max": 8.000000406268292, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 32167.609131336212, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 79, "timestamp": 1757086873, "timesteps_since_restore": 951600, "episode_reward_min": -83.39466797149116, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-41-13", "episode_len_mean": 15.09, "timesteps_total": 951600, "episode_reward_mean": -13.54729255805555, "num_metric_batches_dropped": 0, "time_this_iter_s": 42.01127362251282, "training_iteration": 793, "info": {"default": {"policy_loss": -0.1188197135925293, "vf_explained_var": 0.0865384042263031, "vf_loss": 220.56944274902344, "kl": 0.009715601801872253, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.579401969909668, "total_loss": 220.50042724609375}, "sample_time_ms": 40965.425, "num_steps_trained": 951600, "num_steps_sampled": 951600, "update_time_ms": 2.533, "grad_time_ms": 373.115, "load_time_ms": 0.712}, "iterations_since_restore": 793, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 32208.721771240234, "episodes_total": 32293, "episode_reward_max": 8.000000406268292, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 32208.721771240234, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 71, "timestamp": 1757086914, "timesteps_since_restore": 952800, "episode_reward_min": -83.86921329568361, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-41-54", "episode_len_mean": 16.85, "timesteps_total": 952800, "episode_reward_mean": -17.024104853427946, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.11263990402222, "training_iteration": 794, "info": {"default": {"policy_loss": -0.11929779499769211, "vf_explained_var": 0.08185354620218277, "vf_loss": 353.8701477050781, "kl": 0.009256841614842415, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.370308876037598, "total_loss": 353.79827880859375}, "sample_time_ms": 40890.473, "num_steps_trained": 952800, "num_steps_sampled": 952800, "update_time_ms": 2.544, "grad_time_ms": 372.751, "load_time_ms": 0.697}, "iterations_since_restore": 794, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 32249.76932811737, "episodes_total": 32368, "episode_reward_max": 8.00000040034883, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 32249.76932811737, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 75, "timestamp": 1757086956, "timesteps_since_restore": 954000, "episode_reward_min": -81.94117352868476, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-42-36", "episode_len_mean": 15.63, "timesteps_total": 954000, "episode_reward_mean": -15.177196020050582, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.04755687713623, "training_iteration": 795, "info": {"default": {"policy_loss": -0.13769224286079407, "vf_explained_var": 0.06773225218057632, "vf_loss": 348.2950439453125, "kl": 0.008244603872299194, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.818670272827148, "total_loss": 348.1996154785156}, "sample_time_ms": 40976.677, "num_steps_trained": 954000, "num_steps_sampled": 954000, "update_time_ms": 2.548, "grad_time_ms": 375.229, "load_time_ms": 0.705}, "iterations_since_restore": 795, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 32290.44373869896, "episodes_total": 32434, "episode_reward_max": 8.000943164108367, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 32290.44373869896, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 66, "timestamp": 1757086996, "timesteps_since_restore": 955200, "episode_reward_min": -81.94117352868476, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-43-16", "episode_len_mean": 16.46, "timesteps_total": 955200, "episode_reward_mean": -16.31824391613389, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.674410581588745, "training_iteration": 796, "info": {"default": {"policy_loss": -0.1307995617389679, "vf_explained_var": 0.07971538603305817, "vf_loss": 300.79266357421875, "kl": 0.010411824099719524, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.825188636779785, "total_loss": 300.7152099609375}, "sample_time_ms": 40829.542, "num_steps_trained": 955200, "num_steps_sampled": 955200, "update_time_ms": 2.557, "grad_time_ms": 376.357, "load_time_ms": 0.703}, "iterations_since_restore": 796, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 32331.300476551056, "episodes_total": 32508, "episode_reward_max": 6.000221788340368, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 32331.300476551056, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 74, "timestamp": 1757087037, "timesteps_since_restore": 956400, "episode_reward_min": -84.94356512929718, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-43-57", "episode_len_mean": 17.3, "timesteps_total": 956400, "episode_reward_mean": -17.71415623797343, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.85673785209656, "training_iteration": 797, "info": {"default": {"policy_loss": -0.13762107491493225, "vf_explained_var": 0.09627922624349594, "vf_loss": 273.5072021484375, "kl": 0.00883207842707634, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.326821327209473, "total_loss": 273.4148864746094}, "sample_time_ms": 40731.615, "num_steps_trained": 956400, "num_steps_sampled": 956400, "update_time_ms": 2.574, "grad_time_ms": 377.583, "load_time_ms": 0.699}, "iterations_since_restore": 797, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 32372.214738368988, "episodes_total": 32588, "episode_reward_max": 8.000000601586162, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 32372.214738368988, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 80, "timestamp": 1757087078, "timesteps_since_restore": 957600, "episode_reward_min": -84.94356512929718, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-44-38", "episode_len_mean": 15.53, "timesteps_total": 957600, "episode_reward_mean": -14.992599869253429, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.91426181793213, "training_iteration": 798, "info": {"default": {"policy_loss": -0.12333787977695465, "vf_explained_var": 0.09430962055921555, "vf_loss": 280.091552734375, "kl": 0.01034073531627655, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.254751205444336, "total_loss": 280.0212707519531}, "sample_time_ms": 40730.389, "num_steps_trained": 957600, "num_steps_sampled": 957600, "update_time_ms": 2.582, "grad_time_ms": 377.106, "load_time_ms": 0.71}, "iterations_since_restore": 798, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 32408.01229429245, "episodes_total": 32673, "episode_reward_max": 8.000000601586162, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 32408.01229429245, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 85, "timestamp": 1757087114, "timesteps_since_restore": 958800, "episode_reward_min": -67.20028336672671, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-45-14", "episode_len_mean": 13.81, "timesteps_total": 958800, "episode_reward_mean": -11.479496701151932, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.797555923461914, "training_iteration": 799, "info": {"default": {"policy_loss": -0.11921466886997223, "vf_explained_var": 0.05674025043845177, "vf_loss": 165.58929443359375, "kl": 0.011794217862188816, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.172738075256348, "total_loss": 165.530517578125}, "sample_time_ms": 40198.518, "num_steps_trained": 958800, "num_steps_sampled": 958800, "update_time_ms": 2.587, "grad_time_ms": 373.995, "load_time_ms": 0.687}, "iterations_since_restore": 799, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 32442.11252760887, "episodes_total": 32749, "episode_reward_max": 8.000005617454883, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 32442.11252760887, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 76, "timestamp": 1757087148, "timesteps_since_restore": 960000, "episode_reward_min": -84.0112333581338, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-45-48", "episode_len_mean": 14.67, "timesteps_total": 960000, "episode_reward_mean": -13.207902579524355, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.10023331642151, "training_iteration": 800, "info": {"default": {"policy_loss": -0.14018958806991577, "vf_explained_var": 0.06269649416208267, "vf_loss": 294.689697265625, "kl": 0.01036591362208128, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.789749145507812, "total_loss": 294.6026611328125}, "sample_time_ms": 39539.098, "num_steps_trained": 960000, "num_steps_sampled": 960000, "update_time_ms": 2.572, "grad_time_ms": 373.049, "load_time_ms": 0.687}, "iterations_since_restore": 800, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 32476.04161643982, "episodes_total": 32823, "episode_reward_max": 8.00000107794663, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 32476.04161643982, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 74, "timestamp": 1757087182, "timesteps_since_restore": 961200, "episode_reward_min": -82.67241436814156, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-46-22", "episode_len_mean": 15.71, "timesteps_total": 961200, "episode_reward_mean": -15.195982706478311, "num_metric_batches_dropped": 0, "time_this_iter_s": 33.929088830947876, "training_iteration": 801, "info": {"default": {"policy_loss": -0.13890331983566284, "vf_explained_var": 0.07529881596565247, "vf_loss": 275.0399169921875, "kl": 0.009500776417553425, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.358020782470703, "total_loss": 274.94970703125}, "sample_time_ms": 38796.245, "num_steps_trained": 961200, "num_steps_sampled": 961200, "update_time_ms": 2.626, "grad_time_ms": 374.123, "load_time_ms": 0.696}, "iterations_since_restore": 801, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 32509.58930039406, "episodes_total": 32894, "episode_reward_max": 8.000000400003458, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 32509.58930039406, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 71, "timestamp": 1757087216, "timesteps_since_restore": 962400, "episode_reward_min": -82.67241436814156, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-46-56", "episode_len_mean": 16.22, "timesteps_total": 962400, "episode_reward_mean": -15.779581070673192, "num_metric_batches_dropped": 0, "time_this_iter_s": 33.54768395423889, "training_iteration": 802, "info": {"default": {"policy_loss": -0.13293950259685516, "vf_explained_var": 0.0870024710893631, "vf_loss": 263.9698486328125, "kl": 0.009400914423167706, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.71833610534668, "total_loss": 263.8851318359375}, "sample_time_ms": 38014.84, "num_steps_trained": 962400, "num_steps_sampled": 962400, "update_time_ms": 2.633, "grad_time_ms": 375.944, "load_time_ms": 0.694}, "iterations_since_restore": 802, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 32544.682609319687, "episodes_total": 32972, "episode_reward_max": 8.000000488935788, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 32544.682609319687, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 78, "timestamp": 1757087251, "timesteps_since_restore": 963600, "episode_reward_min": -81.49193727534472, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-47-31", "episode_len_mean": 15.66, "timesteps_total": 963600, "episode_reward_mean": -15.303306449292458, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.09330892562866, "training_iteration": 803, "info": {"default": {"policy_loss": -0.1267872452735901, "vf_explained_var": 0.08776653558015823, "vf_loss": 337.479248046875, "kl": 0.010493922047317028, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.51012897491455, "total_loss": 337.40625}, "sample_time_ms": 37320.797, "num_steps_trained": 963600, "num_steps_sampled": 963600, "update_time_ms": 2.68, "grad_time_ms": 378.045, "load_time_ms": 0.691}, "iterations_since_restore": 803, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 32578.695914030075, "episodes_total": 33038, "episode_reward_max": 6.000307106535246, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 32578.695914030075, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 66, "timestamp": 1757087285, "timesteps_since_restore": 964800, "episode_reward_min": -84.66744782203924, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-48-05", "episode_len_mean": 17.89, "timesteps_total": 964800, "episode_reward_mean": -18.74042125034567, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.013304710388184, "training_iteration": 804, "info": {"default": {"policy_loss": -0.13507524132728577, "vf_explained_var": 0.11481767147779465, "vf_loss": 226.98095703125, "kl": 0.008365568704903126, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.695598602294922, "total_loss": 226.88876342773438}, "sample_time_ms": 36612.466, "num_steps_trained": 964800, "num_steps_sampled": 964800, "update_time_ms": 2.714, "grad_time_ms": 376.469, "load_time_ms": 0.697}, "iterations_since_restore": 804, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 32612.43952512741, "episodes_total": 33103, "episode_reward_max": 8.00071169062284, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 32612.43952512741, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 65, "timestamp": 1757087318, "timesteps_since_restore": 966000, "episode_reward_min": -84.66744782203924, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-48-38", "episode_len_mean": 18.23, "timesteps_total": 966000, "episode_reward_mean": -19.40439801433606, "num_metric_batches_dropped": 0, "time_this_iter_s": 33.743611097335815, "training_iteration": 805, "info": {"default": {"policy_loss": -0.11691110581159592, "vf_explained_var": 0.05359717085957527, "vf_loss": 330.5955505371094, "kl": 0.013879230245947838, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.508374214172363, "total_loss": 330.54974365234375}, "sample_time_ms": 35881.763, "num_steps_trained": 966000, "num_steps_sampled": 966000, "update_time_ms": 2.677, "grad_time_ms": 376.78, "load_time_ms": 0.686}, "iterations_since_restore": 805, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 32646.950885295868, "episodes_total": 33189, "episode_reward_max": 6.0002550620187485, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 32646.950885295868, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 86, "timestamp": 1757087353, "timesteps_since_restore": 967200, "episode_reward_min": -80.93268862975931, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-49-13", "episode_len_mean": 13.99, "timesteps_total": 967200, "episode_reward_mean": -12.045752553851573, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.51136016845703, "training_iteration": 806, "info": {"default": {"policy_loss": -0.12800626456737518, "vf_explained_var": 0.05748617649078369, "vf_loss": 236.06622314453125, "kl": 0.009124244563281536, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.811728477478027, "total_loss": 235.98497009277344}, "sample_time_ms": 35266.363, "num_steps_trained": 967200, "num_steps_sampled": 967200, "update_time_ms": 2.707, "grad_time_ms": 375.806, "load_time_ms": 0.676}, "iterations_since_restore": 806, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 32680.545617341995, "episodes_total": 33254, "episode_reward_max": 6.001795990402904, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 32680.545617341995, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 65, "timestamp": 1757087387, "timesteps_since_restore": 968400, "episode_reward_min": -81.52108678583394, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-49-47", "episode_len_mean": 16.88, "timesteps_total": 968400, "episode_reward_mean": -16.755002157874436, "num_metric_batches_dropped": 0, "time_this_iter_s": 33.59473204612732, "training_iteration": 807, "info": {"default": {"policy_loss": -0.12735244631767273, "vf_explained_var": 0.05642136558890343, "vf_loss": 252.94650268554688, "kl": 0.009072549641132355, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.893810272216797, "total_loss": 252.86566162109375}, "sample_time_ms": 34538.778, "num_steps_trained": 968400, "num_steps_sampled": 968400, "update_time_ms": 2.685, "grad_time_ms": 377.299, "load_time_ms": 0.678}, "iterations_since_restore": 807, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 32714.943071603775, "episodes_total": 33330, "episode_reward_max": 6.000234296373105, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 32714.943071603775, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 76, "timestamp": 1757087421, "timesteps_since_restore": 969600, "episode_reward_min": -83.30957688425407, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-50-21", "episode_len_mean": 16.76, "timesteps_total": 969600, "episode_reward_mean": -16.746695358783814, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.397454261779785, "training_iteration": 808, "info": {"default": {"policy_loss": -0.13390296697616577, "vf_explained_var": 0.1051291674375534, "vf_loss": 292.66363525390625, "kl": 0.009668833576142788, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.257049560546875, "total_loss": 292.57928466796875}, "sample_time_ms": 33886.42, "num_steps_trained": 969600, "num_steps_sampled": 969600, "update_time_ms": 2.695, "grad_time_ms": 377.918, "load_time_ms": 0.679}, "iterations_since_restore": 808, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 32748.412532567978, "episodes_total": 33397, "episode_reward_max": 6.001374210564935, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 32748.412532567978, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 67, "timestamp": 1757087454, "timesteps_since_restore": 970800, "episode_reward_min": -83.17857981120099, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-50-54", "episode_len_mean": 17.6, "timesteps_total": 970800, "episode_reward_mean": -18.431676250763964, "num_metric_batches_dropped": 0, "time_this_iter_s": 33.46946096420288, "training_iteration": 809, "info": {"default": {"policy_loss": -0.12323656678199768, "vf_explained_var": 0.07426668703556061, "vf_loss": 294.4505615234375, "kl": 0.009337319061160088, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.844016075134277, "total_loss": 294.3752136230469}, "sample_time_ms": 33652.29, "num_steps_trained": 970800, "num_steps_sampled": 970800, "update_time_ms": 2.716, "grad_time_ms": 379.198, "load_time_ms": 0.676}, "iterations_since_restore": 809, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 32781.92053079605, "episodes_total": 33461, "episode_reward_max": 6.001444833175512, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 32781.92053079605, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 64, "timestamp": 1757087488, "timesteps_since_restore": 972000, "episode_reward_min": -82.46723116960736, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-51-28", "episode_len_mean": 18.2, "timesteps_total": 972000, "episode_reward_mean": -19.273251587301814, "num_metric_batches_dropped": 0, "time_this_iter_s": 33.50799822807312, "training_iteration": 810, "info": {"default": {"policy_loss": -0.13536755740642548, "vf_explained_var": 0.07503847777843475, "vf_loss": 334.4165344238281, "kl": 0.010444838553667068, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.084914207458496, "total_loss": 334.3346862792969}, "sample_time_ms": 33593.451, "num_steps_trained": 972000, "num_steps_sampled": 972000, "update_time_ms": 2.761, "grad_time_ms": 378.79, "load_time_ms": 0.672}, "iterations_since_restore": 810, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 32815.840327739716, "episodes_total": 33526, "episode_reward_max": 6.001444833175512, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 32815.840327739716, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 65, "timestamp": 1757087522, "timesteps_since_restore": 973200, "episode_reward_min": -82.20893072511447, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-52-02", "episode_len_mean": 20.04, "timesteps_total": 973200, "episode_reward_mean": -22.617125811354022, "num_metric_batches_dropped": 0, "time_this_iter_s": 33.91979694366455, "training_iteration": 811, "info": {"default": {"policy_loss": -0.13949070870876312, "vf_explained_var": 0.0879717618227005, "vf_loss": 327.8115234375, "kl": 0.010940390639007092, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.65628433227539, "total_loss": 327.7281188964844}, "sample_time_ms": 33595.002, "num_steps_trained": 973200, "num_steps_sampled": 973200, "update_time_ms": 2.76, "grad_time_ms": 376.375, "load_time_ms": 0.664}, "iterations_since_restore": 811, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 32849.950654029846, "episodes_total": 33598, "episode_reward_max": 8.000000400011782, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 32849.950654029846, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 72, "timestamp": 1757087556, "timesteps_since_restore": 974400, "episode_reward_min": -83.66460147541615, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-52-36", "episode_len_mean": 17.41, "timesteps_total": 974400, "episode_reward_mean": -17.771191915725154, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.110326290130615, "training_iteration": 812, "info": {"default": {"policy_loss": -0.11648031324148178, "vf_explained_var": 0.0741208866238594, "vf_loss": 277.4342041015625, "kl": 0.009036983363330364, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.37496566772461, "total_loss": 277.36407470703125}, "sample_time_ms": 33652.183, "num_steps_trained": 974400, "num_steps_sampled": 974400, "update_time_ms": 2.75, "grad_time_ms": 375.466, "load_time_ms": 0.667}, "iterations_since_restore": 812, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 32885.44911432266, "episodes_total": 33687, "episode_reward_max": 6.0017628028259296, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 32885.44911432266, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 89, "timestamp": 1757087592, "timesteps_since_restore": 975600, "episode_reward_min": -79.59059284865776, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-53-12", "episode_len_mean": 14.43, "timesteps_total": 975600, "episode_reward_mean": -12.617184622499517, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.49846029281616, "training_iteration": 813, "info": {"default": {"policy_loss": -0.12740761041641235, "vf_explained_var": 0.08278840035200119, "vf_loss": 229.43199157714844, "kl": 0.009177390486001968, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.007278442382812, "total_loss": 229.35162353515625}, "sample_time_ms": 33692.243, "num_steps_trained": 975600, "num_steps_sampled": 975600, "update_time_ms": 2.699, "grad_time_ms": 376.044, "load_time_ms": 0.671}, "iterations_since_restore": 813, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 32921.34274148941, "episodes_total": 33764, "episode_reward_max": 6.0017628028259296, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 32921.34274148941, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 77, "timestamp": 1757087627, "timesteps_since_restore": 976800, "episode_reward_min": -82.14272736411691, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-53-47", "episode_len_mean": 15.28, "timesteps_total": 976800, "episode_reward_mean": -14.380209471822265, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.89362716674805, "training_iteration": 814, "info": {"default": {"policy_loss": -0.14168010652065277, "vf_explained_var": 0.07734397053718567, "vf_loss": 247.65130615234375, "kl": 0.008195394650101662, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.502837181091309, "total_loss": 247.55165100097656}, "sample_time_ms": 33878.717, "num_steps_trained": 976800, "num_steps_sampled": 976800, "update_time_ms": 2.659, "grad_time_ms": 377.6, "load_time_ms": 0.682}, "iterations_since_restore": 814, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 32956.2853512764, "episodes_total": 33837, "episode_reward_max": 8.000000400014823, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 32956.2853512764, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 73, "timestamp": 1757087662, "timesteps_since_restore": 978000, "episode_reward_min": -81.91107368374695, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-54-22", "episode_len_mean": 16.81, "timesteps_total": 978000, "episode_reward_mean": -16.58683234848771, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.942609786987305, "training_iteration": 815, "info": {"default": {"policy_loss": -0.12251710891723633, "vf_explained_var": 0.07051072269678116, "vf_loss": 265.0987243652344, "kl": 0.009255488403141499, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.688761711120605, "total_loss": 265.0235900878906}, "sample_time_ms": 33999.777, "num_steps_trained": 978000, "num_steps_sampled": 978000, "update_time_ms": 2.671, "grad_time_ms": 376.475, "load_time_ms": 0.69}, "iterations_since_restore": 815, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 32990.215034246445, "episodes_total": 33911, "episode_reward_max": 6.060395570384898, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 32990.215034246445, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 74, "timestamp": 1757087696, "timesteps_since_restore": 979200, "episode_reward_min": -80.34759714660991, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-54-56", "episode_len_mean": 15.68, "timesteps_total": 979200, "episode_reward_mean": -14.718737358694407, "num_metric_batches_dropped": 0, "time_this_iter_s": 33.929682970047, "training_iteration": 816, "info": {"default": {"policy_loss": -0.13112443685531616, "vf_explained_var": 0.07261383533477783, "vf_loss": 245.19793701171875, "kl": 0.01083531603217125, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.513274192810059, "total_loss": 245.12234497070312}, "sample_time_ms": 33943.247, "num_steps_trained": 979200, "num_steps_sampled": 979200, "update_time_ms": 2.655, "grad_time_ms": 374.919, "load_time_ms": 0.697}, "iterations_since_restore": 816, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 33024.37515711784, "episodes_total": 33992, "episode_reward_max": 8.000000402433912, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 33024.37515711784, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 81, "timestamp": 1757087731, "timesteps_since_restore": 980400, "episode_reward_min": -80.93124171457418, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-55-31", "episode_len_mean": 15.41, "timesteps_total": 980400, "episode_reward_mean": -14.449333398921228, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.160122871398926, "training_iteration": 817, "info": {"default": {"policy_loss": -0.13397827744483948, "vf_explained_var": 0.08169817179441452, "vf_loss": 227.24420166015625, "kl": 0.009137529879808426, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.360322952270508, "total_loss": 227.1570587158203}, "sample_time_ms": 34002.658, "num_steps_trained": 980400, "num_steps_sampled": 980400, "update_time_ms": 2.639, "grad_time_ms": 372.091, "load_time_ms": 0.693}, "iterations_since_restore": 817, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 33058.32798910141, "episodes_total": 34066, "episode_reward_max": 6.000387647959696, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 33058.32798910141, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 74, "timestamp": 1757087765, "timesteps_since_restore": 981600, "episode_reward_min": -81.7806890169357, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-56-05", "episode_len_mean": 16.81, "timesteps_total": 981600, "episode_reward_mean": -16.564456952468866, "num_metric_batches_dropped": 0, "time_this_iter_s": 33.952831983566284, "training_iteration": 818, "info": {"default": {"policy_loss": -0.13132120668888092, "vf_explained_var": 0.10189178586006165, "vf_loss": 250.43624877929688, "kl": 0.009927918203175068, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.515185356140137, "total_loss": 250.35581970214844}, "sample_time_ms": 33961.289, "num_steps_trained": 981600, "num_steps_sampled": 981600, "update_time_ms": 2.608, "grad_time_ms": 369.122, "load_time_ms": 0.683}, "iterations_since_restore": 818, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 33092.43622088432, "episodes_total": 34151, "episode_reward_max": 8.000036055754242, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 33092.43622088432, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 85, "timestamp": 1757087799, "timesteps_since_restore": 982800, "episode_reward_min": -81.7806890169357, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-56-39", "episode_len_mean": 15.86, "timesteps_total": 982800, "episode_reward_mean": -15.319046900037732, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.10823178291321, "training_iteration": 819, "info": {"default": {"policy_loss": -0.13571274280548096, "vf_explained_var": 0.08402208238840103, "vf_loss": 366.66900634765625, "kl": 0.007936783134937286, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.2196044921875, "total_loss": 366.5740051269531}, "sample_time_ms": 34025.306, "num_steps_trained": 982800, "num_steps_sampled": 982800, "update_time_ms": 2.586, "grad_time_ms": 368.951, "load_time_ms": 0.686}, "iterations_since_restore": 819, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 33127.16625833511, "episodes_total": 34231, "episode_reward_max": 8.000000406953609, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 33127.16625833511, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 80, "timestamp": 1757087833, "timesteps_since_restore": 984000, "episode_reward_min": -78.64378264495667, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-57-13", "episode_len_mean": 15.13, "timesteps_total": 984000, "episode_reward_mean": -13.841187426253768, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.730037450790405, "training_iteration": 820, "info": {"default": {"policy_loss": -0.13996867835521698, "vf_explained_var": 0.08730436116456985, "vf_loss": 253.5146484375, "kl": 0.008258061483502388, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.628592491149902, "total_loss": 253.4169921875}, "sample_time_ms": 34147.357, "num_steps_trained": 984000, "num_steps_sampled": 984000, "update_time_ms": 2.594, "grad_time_ms": 369.068, "load_time_ms": 0.689}, "iterations_since_restore": 820, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 33160.54076266289, "episodes_total": 34285, "episode_reward_max": 8.000000406858176, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 33160.54076266289, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 54, "timestamp": 1757087867, "timesteps_since_restore": 985200, "episode_reward_min": -81.41318608541727, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-57-47", "episode_len_mean": 19.65, "timesteps_total": 985200, "episode_reward_mean": -21.554061609127995, "num_metric_batches_dropped": 0, "time_this_iter_s": 33.37450432777405, "training_iteration": 821, "info": {"default": {"policy_loss": -0.1375911980867386, "vf_explained_var": 0.04357663169503212, "vf_loss": 361.3279724121094, "kl": 0.01094620581716299, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.62954044342041, "total_loss": 361.2464904785156}, "sample_time_ms": 34081.272, "num_steps_trained": 985200, "num_steps_sampled": 985200, "update_time_ms": 2.539, "grad_time_ms": 380.665, "load_time_ms": 0.686}, "iterations_since_restore": 821, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 33194.70023059845, "episodes_total": 34372, "episode_reward_max": 6.000313246360877, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 33194.70023059845, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 87, "timestamp": 1757087901, "timesteps_since_restore": 986400, "episode_reward_min": -81.41318608541727, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-58-21", "episode_len_mean": 14.37, "timesteps_total": 986400, "episode_reward_mean": -12.619385860093768, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.159467935562134, "training_iteration": 822, "info": {"default": {"policy_loss": -0.12848861515522003, "vf_explained_var": 0.07783997058868408, "vf_loss": 234.59027099609375, "kl": 0.009894359856843948, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.946782112121582, "total_loss": 234.51251220703125}, "sample_time_ms": 34086.441, "num_steps_trained": 986400, "num_steps_sampled": 986400, "update_time_ms": 2.564, "grad_time_ms": 380.349, "load_time_ms": 0.695}, "iterations_since_restore": 822, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 33229.451914548874, "episodes_total": 34456, "episode_reward_max": 8.000000399999967, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 33229.451914548874, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 84, "timestamp": 1757087936, "timesteps_since_restore": 987600, "episode_reward_min": -77.9077261579517, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-58-56", "episode_len_mean": 13.36, "timesteps_total": 987600, "episode_reward_mean": -11.046301877792073, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.751683950424194, "training_iteration": 823, "info": {"default": {"policy_loss": -0.13182753324508667, "vf_explained_var": 0.08338820934295654, "vf_loss": 231.00613403320312, "kl": 0.010624369606375694, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.139671325683594, "total_loss": 230.92877197265625}, "sample_time_ms": 34014.711, "num_steps_trained": 987600, "num_steps_sampled": 987600, "update_time_ms": 2.54, "grad_time_ms": 377.433, "load_time_ms": 0.695}, "iterations_since_restore": 823, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 33264.01609110832, "episodes_total": 34540, "episode_reward_max": 8.000000400002813, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 33264.01609110832, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 84, "timestamp": 1757087970, "timesteps_since_restore": 988800, "episode_reward_min": -84.45122974405065, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_17-59-30", "episode_len_mean": 14.11, "timesteps_total": 988800, "episode_reward_mean": -12.468954693710796, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.56417655944824, "training_iteration": 824, "info": {"default": {"policy_loss": -0.13855531811714172, "vf_explained_var": 0.08240260183811188, "vf_loss": 289.74951171875, "kl": 0.007822679355740547, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.131888389587402, "total_loss": 289.6510314941406}, "sample_time_ms": 33881.735, "num_steps_trained": 988800, "num_steps_sampled": 988800, "update_time_ms": 2.523, "grad_time_ms": 377.446, "load_time_ms": 0.696}, "iterations_since_restore": 824, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 33297.652304172516, "episodes_total": 34608, "episode_reward_max": 8.000000400002813, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 33297.652304172516, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 68, "timestamp": 1757088004, "timesteps_since_restore": 990000, "episode_reward_min": -84.45122974405065, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-00-04", "episode_len_mean": 16.67, "timesteps_total": 990000, "episode_reward_mean": -16.590849639365434, "num_metric_batches_dropped": 0, "time_this_iter_s": 33.636213064193726, "training_iteration": 825, "info": {"default": {"policy_loss": -0.1388874650001526, "vf_explained_var": 0.06165942922234535, "vf_loss": 236.030517578125, "kl": 0.010380587540566921, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.580694198608398, "total_loss": 235.94482421875}, "sample_time_ms": 33751.118, "num_steps_trained": 990000, "num_steps_sampled": 990000, "update_time_ms": 2.552, "grad_time_ms": 377.429, "load_time_ms": 0.692}, "iterations_since_restore": 825, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 33331.51725554466, "episodes_total": 34689, "episode_reward_max": 8.000000400422486, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 33331.51725554466, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 81, "timestamp": 1757088038, "timesteps_since_restore": 991200, "episode_reward_min": -80.51963264789177, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-00-38", "episode_len_mean": 15.71, "timesteps_total": 991200, "episode_reward_mean": -14.807392088013689, "num_metric_batches_dropped": 0, "time_this_iter_s": 33.864951372146606, "training_iteration": 826, "info": {"default": {"policy_loss": -0.13303242623806, "vf_explained_var": 0.07418843358755112, "vf_loss": 247.02395629882812, "kl": 0.009267733432352543, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.304131507873535, "total_loss": 246.93841552734375}, "sample_time_ms": 33743.686, "num_steps_trained": 991200, "num_steps_sampled": 991200, "update_time_ms": 2.513, "grad_time_ms": 378.445, "load_time_ms": 0.698}, "iterations_since_restore": 826, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 33366.95559692383, "episodes_total": 34767, "episode_reward_max": 8.000000401832171, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 33366.95559692383, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 78, "timestamp": 1757088073, "timesteps_since_restore": 992400, "episode_reward_min": -84.02611198273404, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-01-13", "episode_len_mean": 15.12, "timesteps_total": 992400, "episode_reward_mean": -13.959273631240697, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.43834137916565, "training_iteration": 827, "info": {"default": {"policy_loss": -0.13311739265918732, "vf_explained_var": 0.12003927677869797, "vf_loss": 231.18630981445312, "kl": 0.008285582065582275, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.437545776367188, "total_loss": 231.09564208984375}, "sample_time_ms": 33871.562, "num_steps_trained": 992400, "num_steps_sampled": 992400, "update_time_ms": 2.514, "grad_time_ms": 378.421, "load_time_ms": 0.704}, "iterations_since_restore": 827, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 33401.15577125549, "episodes_total": 34847, "episode_reward_max": 8.000000400001083, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 33401.15577125549, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 80, "timestamp": 1757088108, "timesteps_since_restore": 993600, "episode_reward_min": -81.30120790230335, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-01-48", "episode_len_mean": 15.37, "timesteps_total": 993600, "episode_reward_mean": -14.490146556582381, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.20017433166504, "training_iteration": 828, "info": {"default": {"policy_loss": -0.13996821641921997, "vf_explained_var": 0.11169653385877609, "vf_loss": 230.01419067382812, "kl": 0.008519576862454414, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.256993293762207, "total_loss": 229.91786193847656}, "sample_time_ms": 33896.164, "num_steps_trained": 993600, "num_steps_sampled": 993600, "update_time_ms": 2.504, "grad_time_ms": 378.533, "load_time_ms": 0.702}, "iterations_since_restore": 828, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 33435.51290297508, "episodes_total": 34918, "episode_reward_max": 8.000000401111794, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 33435.51290297508, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 71, "timestamp": 1757088142, "timesteps_since_restore": 994800, "episode_reward_min": -82.15905889467565, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-02-22", "episode_len_mean": 15.99, "timesteps_total": 994800, "episode_reward_mean": -15.541034574101747, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.35713171958923, "training_iteration": 829, "info": {"default": {"policy_loss": -0.1322745978832245, "vf_explained_var": 0.10662607103586197, "vf_loss": 257.8081359863281, "kl": 0.008826238103210926, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.998863220214844, "total_loss": 257.7210693359375}, "sample_time_ms": 33920.201, "num_steps_trained": 994800, "num_steps_sampled": 994800, "update_time_ms": 2.491, "grad_time_ms": 379.438, "load_time_ms": 0.708}, "iterations_since_restore": 829, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 33469.871346473694, "episodes_total": 34994, "episode_reward_max": 6.000223480354014, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 33469.871346473694, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 76, "timestamp": 1757088176, "timesteps_since_restore": 996000, "episode_reward_min": -80.95262654104168, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-02-56", "episode_len_mean": 15.85, "timesteps_total": 996000, "episode_reward_mean": -15.03732942647597, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.35844349861145, "training_iteration": 830, "info": {"default": {"policy_loss": -0.12639401853084564, "vf_explained_var": 0.08047560602426529, "vf_loss": 251.93826293945312, "kl": 0.00920198392122984, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.54682731628418, "total_loss": 251.8590545654297}, "sample_time_ms": 33883.198, "num_steps_trained": 996000, "num_steps_sampled": 996000, "update_time_ms": 2.475, "grad_time_ms": 379.331, "load_time_ms": 0.706}, "iterations_since_restore": 830, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 33503.657507658005, "episodes_total": 35062, "episode_reward_max": 6.0002812705956154, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 33503.657507658005, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 68, "timestamp": 1757088210, "timesteps_since_restore": 997200, "episode_reward_min": -80.95262654104168, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-03-30", "episode_len_mean": 16.66, "timesteps_total": 997200, "episode_reward_mean": -16.46415839708676, "num_metric_batches_dropped": 0, "time_this_iter_s": 33.78616118431091, "training_iteration": 831, "info": {"default": {"policy_loss": -0.13386528193950653, "vf_explained_var": 0.09445616602897644, "vf_loss": 288.8009033203125, "kl": 0.00925840251147747, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.914617538452148, "total_loss": 288.7145080566406}, "sample_time_ms": 33935.473, "num_steps_trained": 997200, "num_steps_sampled": 997200, "update_time_ms": 2.589, "grad_time_ms": 368.143, "load_time_ms": 0.724}, "iterations_since_restore": 831, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 33537.542838811874, "episodes_total": 35140, "episode_reward_max": 6.001122653994927, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 33537.542838811874, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 78, "timestamp": 1757088244, "timesteps_since_restore": 998400, "episode_reward_min": -84.5226396805284, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-04-04", "episode_len_mean": 16.81, "timesteps_total": 998400, "episode_reward_mean": -17.200309471936883, "num_metric_batches_dropped": 0, "time_this_iter_s": 33.88533115386963, "training_iteration": 832, "info": {"default": {"policy_loss": -0.13146911561489105, "vf_explained_var": 0.11560472846031189, "vf_loss": 336.94091796875, "kl": 0.00880281999707222, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.868388175964355, "total_loss": 336.8545837402344}, "sample_time_ms": 33907.674, "num_steps_trained": 998400, "num_steps_sampled": 998400, "update_time_ms": 2.564, "grad_time_ms": 368.61, "load_time_ms": 0.718}, "iterations_since_restore": 832, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 33572.24162077904, "episodes_total": 35246, "episode_reward_max": 8.000000505576109, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 33572.24162077904, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 106, "timestamp": 1757088279, "timesteps_since_restore": 999600, "episode_reward_min": -69.97355410000155, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-04-39", "episode_len_mean": 11.50943396226415, "timesteps_total": 999600, "episode_reward_mean": -7.840130061099956, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.698781967163086, "training_iteration": 833, "info": {"default": {"policy_loss": -0.12261182814836502, "vf_explained_var": 0.08046665787696838, "vf_loss": 136.2954864501953, "kl": 0.009723574854433537, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.987404823303223, "total_loss": 136.22271728515625}, "sample_time_ms": 33901.265, "num_steps_trained": 999600, "num_steps_sampled": 999600, "update_time_ms": 2.558, "grad_time_ms": 369.682, "load_time_ms": 0.709}, "iterations_since_restore": 833, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 33606.40946960449, "episodes_total": 35319, "episode_reward_max": 8.000000400005897, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 33606.40946960449, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 73, "timestamp": 1757088313, "timesteps_since_restore": 1000800, "episode_reward_min": -81.46708449780039, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-05-13", "episode_len_mean": 14.59, "timesteps_total": 1000800, "episode_reward_mean": -12.88668839643492, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.16784882545471, "training_iteration": 834, "info": {"default": {"policy_loss": -0.12871450185775757, "vf_explained_var": 0.07104823738336563, "vf_loss": 259.6177673339844, "kl": 0.009256028570234776, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.80423641204834, "total_loss": 259.5364990234375}, "sample_time_ms": 33862.91, "num_steps_trained": 1000800, "num_steps_sampled": 1000800, "update_time_ms": 2.625, "grad_time_ms": 368.367, "load_time_ms": 0.692}, "iterations_since_restore": 834, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 33641.07030034065, "episodes_total": 35399, "episode_reward_max": 8.000001813186222, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 33641.07030034065, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 80, "timestamp": 1757088348, "timesteps_since_restore": 1002000, "episode_reward_min": -80.42355272740765, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-05-48", "episode_len_mean": 15.23, "timesteps_total": 1002000, "episode_reward_mean": -13.860729592403464, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.66083073616028, "training_iteration": 835, "info": {"default": {"policy_loss": -0.12732839584350586, "vf_explained_var": 0.07686175405979156, "vf_loss": 229.7154083251953, "kl": 0.009542524814605713, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.507445335388184, "total_loss": 229.63699340820312}, "sample_time_ms": 33964.606, "num_steps_trained": 1002000, "num_steps_sampled": 1002000, "update_time_ms": 2.621, "grad_time_ms": 369.116, "load_time_ms": 0.699}, "iterations_since_restore": 835, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 33676.33753323555, "episodes_total": 35477, "episode_reward_max": 8.000001232153474, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 33676.33753323555, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 78, "timestamp": 1757088383, "timesteps_since_restore": 1003200, "episode_reward_min": -83.73241536935092, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-06-23", "episode_len_mean": 15.71, "timesteps_total": 1003200, "episode_reward_mean": -15.012990290838776, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.26723289489746, "training_iteration": 836, "info": {"default": {"policy_loss": -0.11631960421800613, "vf_explained_var": 0.07230483740568161, "vf_loss": 314.6141357421875, "kl": 0.00885696429759264, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.288803100585938, "total_loss": 314.54327392578125}, "sample_time_ms": 34105.988, "num_steps_trained": 1003200, "num_steps_sampled": 1003200, "update_time_ms": 2.661, "grad_time_ms": 367.889, "load_time_ms": 0.687}, "iterations_since_restore": 836, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 33711.10479068756, "episodes_total": 35555, "episode_reward_max": 8.00000041867262, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 33711.10479068756, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 78, "timestamp": 1757088418, "timesteps_since_restore": 1004400, "episode_reward_min": -83.73241536935092, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-06-58", "episode_len_mean": 14.91, "timesteps_total": 1004400, "episode_reward_mean": -14.168153341583325, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.76725745201111, "training_iteration": 837, "info": {"default": {"policy_loss": -0.13970044255256653, "vf_explained_var": 0.09043380618095398, "vf_loss": 310.90557861328125, "kl": 0.00942612811923027, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.154082298278809, "total_loss": 310.8141784667969}, "sample_time_ms": 34038.829, "num_steps_trained": 1004400, "num_steps_sampled": 1004400, "update_time_ms": 2.682, "grad_time_ms": 367.912, "load_time_ms": 0.684}, "iterations_since_restore": 837, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 33745.4063334465, "episodes_total": 35621, "episode_reward_max": 8.000168654213988, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 33745.4063334465, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 66, "timestamp": 1757088452, "timesteps_since_restore": 1005600, "episode_reward_min": -82.81553053401322, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-07-32", "episode_len_mean": 16.85, "timesteps_total": 1005600, "episode_reward_mean": -17.052381670353906, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.30154275894165, "training_iteration": 838, "info": {"default": {"policy_loss": -0.12510734796524048, "vf_explained_var": 0.10176658630371094, "vf_loss": 329.5743713378906, "kl": 0.009825963526964188, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.876895904541016, "total_loss": 329.4996337890625}, "sample_time_ms": 34049.264, "num_steps_trained": 1005600, "num_steps_sampled": 1005600, "update_time_ms": 2.723, "grad_time_ms": 367.59, "load_time_ms": 0.687}, "iterations_since_restore": 838, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 33779.43414878845, "episodes_total": 35705, "episode_reward_max": 8.000000400227568, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 33779.43414878845, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 84, "timestamp": 1757088486, "timesteps_since_restore": 1006800, "episode_reward_min": -83.44658573582247, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-08-06", "episode_len_mean": 14.39, "timesteps_total": 1006800, "episode_reward_mean": -12.581681973992556, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.02781534194946, "training_iteration": 839, "info": {"default": {"policy_loss": -0.12370261549949646, "vf_explained_var": 0.04571057856082916, "vf_loss": 252.00279235839844, "kl": 0.009244750253856182, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.492330551147461, "total_loss": 251.92648315429688}, "sample_time_ms": 34017.026, "num_steps_trained": 1006800, "num_steps_sampled": 1006800, "update_time_ms": 2.732, "grad_time_ms": 366.838, "load_time_ms": 0.679}, "iterations_since_restore": 839, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 33813.94306850433, "episodes_total": 35786, "episode_reward_max": 8.000000400227568, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 33813.94306850433, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 81, "timestamp": 1757088521, "timesteps_since_restore": 1008000, "episode_reward_min": -83.51794439769476, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-08-41", "episode_len_mean": 15.17, "timesteps_total": 1008000, "episode_reward_mean": -13.946403774995238, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.50891971588135, "training_iteration": 840, "info": {"default": {"policy_loss": -0.12258497625589371, "vf_explained_var": 0.07856020331382751, "vf_loss": 242.31874084472656, "kl": 0.008916670456528664, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.265307426452637, "total_loss": 242.24188232421875}, "sample_time_ms": 34031.645, "num_steps_trained": 1008000, "num_steps_sampled": 1008000, "update_time_ms": 2.724, "grad_time_ms": 367.246, "load_time_ms": 0.679}, "iterations_since_restore": 840, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 33848.21958756447, "episodes_total": 35868, "episode_reward_max": 8.00000048556035, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 33848.21958756447, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 82, "timestamp": 1757088555, "timesteps_since_restore": 1009200, "episode_reward_min": -80.11473550816127, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-09-15", "episode_len_mean": 13.57, "timesteps_total": 1009200, "episode_reward_mean": -11.11285893860178, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.27651906013489, "training_iteration": 841, "info": {"default": {"policy_loss": -0.11965485662221909, "vf_explained_var": 0.10360514372587204, "vf_loss": 204.43960571289062, "kl": 0.010039541870355606, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.668917655944824, "total_loss": 204.37139892578125}, "sample_time_ms": 34081.829, "num_steps_trained": 1009200, "num_steps_sampled": 1009200, "update_time_ms": 2.638, "grad_time_ms": 366.179, "load_time_ms": 0.662}, "iterations_since_restore": 841, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 33882.74004340172, "episodes_total": 35960, "episode_reward_max": 8.000000400211539, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 33882.74004340172, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 92, "timestamp": 1757088589, "timesteps_since_restore": 1010400, "episode_reward_min": -78.3135705438817, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-09-49", "episode_len_mean": 12.96, "timesteps_total": 1010400, "episode_reward_mean": -10.110295008893598, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.520455837249756, "training_iteration": 842, "info": {"default": {"policy_loss": -0.12647855281829834, "vf_explained_var": 0.10430704802274704, "vf_loss": 227.7887420654297, "kl": 0.01015038974583149, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.977720260620117, "total_loss": 227.71429443359375}, "sample_time_ms": 34144.308, "num_steps_trained": 1010400, "num_steps_sampled": 1010400, "update_time_ms": 2.634, "grad_time_ms": 367.162, "load_time_ms": 0.669}, "iterations_since_restore": 842, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 33917.72829389572, "episodes_total": 36041, "episode_reward_max": 8.000000400211539, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 33917.72829389572, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 81, "timestamp": 1757088624, "timesteps_since_restore": 1011600, "episode_reward_min": -80.45244813947247, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-10-24", "episode_len_mean": 13.93, "timesteps_total": 1011600, "episode_reward_mean": -11.995304936692312, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.988250494003296, "training_iteration": 843, "info": {"default": {"policy_loss": -0.1361633688211441, "vf_explained_var": 0.08652324974536896, "vf_loss": 227.95950317382812, "kl": 0.01054773386567831, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.142756462097168, "total_loss": 227.87741088867188}, "sample_time_ms": 34174.647, "num_steps_trained": 1011600, "num_steps_sampled": 1011600, "update_time_ms": 2.654, "grad_time_ms": 365.832, "load_time_ms": 0.669}, "iterations_since_restore": 843, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 33951.67415881157, "episodes_total": 36112, "episode_reward_max": 8.00000040000057, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 33951.67415881157, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 71, "timestamp": 1757088658, "timesteps_since_restore": 1012800, "episode_reward_min": -82.43667653687308, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-10-58", "episode_len_mean": 16.77, "timesteps_total": 1012800, "episode_reward_mean": -16.82128139139904, "num_metric_batches_dropped": 0, "time_this_iter_s": 33.94586491584778, "training_iteration": 844, "info": {"default": {"policy_loss": -0.13231869041919708, "vf_explained_var": 0.05321131646633148, "vf_loss": 330.214111328125, "kl": 0.010249804705381393, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.568283081054688, "total_loss": 330.13433837890625}, "sample_time_ms": 34153.068, "num_steps_trained": 1012800, "num_steps_sampled": 1012800, "update_time_ms": 2.617, "grad_time_ms": 365.311, "load_time_ms": 0.67}, "iterations_since_restore": 844, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 33985.41595745087, "episodes_total": 36190, "episode_reward_max": 8.000000400913152, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 33985.41595745087, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 78, "timestamp": 1757088692, "timesteps_since_restore": 1014000, "episode_reward_min": -81.75029031728475, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-11-32", "episode_len_mean": 15.57, "timesteps_total": 1014000, "episode_reward_mean": -14.878016479087202, "num_metric_batches_dropped": 0, "time_this_iter_s": 33.741798639297485, "training_iteration": 845, "info": {"default": {"policy_loss": -0.1276008039712906, "vf_explained_var": 0.05749468505382538, "vf_loss": 260.0238037109375, "kl": 0.01124381460249424, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.387990951538086, "total_loss": 259.953857421875}, "sample_time_ms": 34062.496, "num_steps_trained": 1014000, "num_steps_sampled": 1014000, "update_time_ms": 2.606, "grad_time_ms": 363.917, "load_time_ms": 0.667}, "iterations_since_restore": 845, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 34019.96858596802, "episodes_total": 36268, "episode_reward_max": 8.000000400000275, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 34019.96858596802, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 78, "timestamp": 1757088727, "timesteps_since_restore": 1015200, "episode_reward_min": -79.88618237827502, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-12-07", "episode_len_mean": 14.9, "timesteps_total": 1015200, "episode_reward_mean": -13.675648958238394, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.55262851715088, "training_iteration": 846, "info": {"default": {"policy_loss": -0.12140177190303802, "vf_explained_var": 0.08318298310041428, "vf_loss": 278.4073486328125, "kl": 0.009563840925693512, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.548378944396973, "total_loss": 278.3349914550781}, "sample_time_ms": 33991.101, "num_steps_trained": 1015200, "num_steps_sampled": 1015200, "update_time_ms": 2.617, "grad_time_ms": 363.86, "load_time_ms": 0.669}, "iterations_since_restore": 846, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 34054.4717900753, "episodes_total": 36353, "episode_reward_max": 6.001061265459056, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 34054.4717900753, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 85, "timestamp": 1757088761, "timesteps_since_restore": 1016400, "episode_reward_min": -81.88061871603493, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-12-41", "episode_len_mean": 13.83, "timesteps_total": 1016400, "episode_reward_mean": -11.897968652422854, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.503204107284546, "training_iteration": 847, "info": {"default": {"policy_loss": -0.12933161854743958, "vf_explained_var": 0.08031865209341049, "vf_loss": 246.6621856689453, "kl": 0.00966128520667553, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.39263916015625, "total_loss": 246.58241271972656}, "sample_time_ms": 33962.912, "num_steps_trained": 1016400, "num_steps_sampled": 1016400, "update_time_ms": 2.572, "grad_time_ms": 365.617, "load_time_ms": 0.666}, "iterations_since_restore": 847, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 34088.38955235481, "episodes_total": 36436, "episode_reward_max": 6.001848546897732, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 34088.38955235481, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 83, "timestamp": 1757088795, "timesteps_since_restore": 1017600, "episode_reward_min": -80.15047631117493, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-13-15", "episode_len_mean": 14.31, "timesteps_total": 1017600, "episode_reward_mean": -12.397301663660492, "num_metric_batches_dropped": 0, "time_this_iter_s": 33.9177622795105, "training_iteration": 848, "info": {"default": {"policy_loss": -0.11756907403469086, "vf_explained_var": 0.13784536719322205, "vf_loss": 177.80271911621094, "kl": 0.011601810343563557, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.610201835632324, "total_loss": 177.74462890625}, "sample_time_ms": 33921.311, "num_steps_trained": 1017600, "num_steps_sampled": 1017600, "update_time_ms": 2.573, "grad_time_ms": 368.82, "load_time_ms": 0.678}, "iterations_since_restore": 848, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 34123.42593073845, "episodes_total": 36517, "episode_reward_max": 8.00000040587928, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 34123.42593073845, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 81, "timestamp": 1757088830, "timesteps_since_restore": 1018800, "episode_reward_min": -79.0686053472963, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-13-50", "episode_len_mean": 14.23, "timesteps_total": 1018800, "episode_reward_mean": -12.361389903768549, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.036378383636475, "training_iteration": 849, "info": {"default": {"policy_loss": -0.1332605630159378, "vf_explained_var": 0.08455533534288406, "vf_loss": 226.41758728027344, "kl": 0.009759080596268177, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.37457275390625, "total_loss": 226.33432006835938}, "sample_time_ms": 34020.954, "num_steps_trained": 1018800, "num_steps_sampled": 1018800, "update_time_ms": 2.585, "grad_time_ms": 370.065, "load_time_ms": 0.688}, "iterations_since_restore": 849, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 34158.630200862885, "episodes_total": 36600, "episode_reward_max": 6.000378393441429, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 34158.630200862885, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 83, "timestamp": 1757088865, "timesteps_since_restore": 1020000, "episode_reward_min": -80.85609862986836, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-14-25", "episode_len_mean": 14.42, "timesteps_total": 1020000, "episode_reward_mean": -12.980017075418932, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.204270124435425, "training_iteration": 850, "info": {"default": {"policy_loss": -0.11760398745536804, "vf_explained_var": 0.11957115679979324, "vf_loss": 300.6007995605469, "kl": 0.009426879696547985, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.160553932189941, "total_loss": 300.5315246582031}, "sample_time_ms": 34090.843, "num_steps_trained": 1020000, "num_steps_sampled": 1020000, "update_time_ms": 2.573, "grad_time_ms": 369.697, "load_time_ms": 0.685}, "iterations_since_restore": 850, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 34193.221690416336, "episodes_total": 36692, "episode_reward_max": 6.001727131223658, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 34193.221690416336, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 92, "timestamp": 1757088900, "timesteps_since_restore": 1021200, "episode_reward_min": -80.54020966501945, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-15-00", "episode_len_mean": 13.05, "timesteps_total": 1021200, "episode_reward_mean": -10.3896425531393, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.59148955345154, "training_iteration": 851, "info": {"default": {"policy_loss": -0.12001495808362961, "vf_explained_var": 0.10901863873004913, "vf_loss": 212.54522705078125, "kl": 0.009075362235307693, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.69740104675293, "total_loss": 212.47174072265625}, "sample_time_ms": 34119.887, "num_steps_trained": 1021200, "num_steps_sampled": 1021200, "update_time_ms": 2.582, "grad_time_ms": 372.096, "load_time_ms": 0.717}, "iterations_since_restore": 851, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 34227.78321695328, "episodes_total": 36778, "episode_reward_max": 8.000274906458746, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 34227.78321695328, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 86, "timestamp": 1757088935, "timesteps_since_restore": 1022400, "episode_reward_min": -83.49234370372255, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-15-35", "episode_len_mean": 13.17, "timesteps_total": 1022400, "episode_reward_mean": -10.612934244958776, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.56152653694153, "training_iteration": 852, "info": {"default": {"policy_loss": -0.11566216498613358, "vf_explained_var": 0.09728314727544785, "vf_loss": 211.07373046875, "kl": 0.009517648257315159, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.212386131286621, "total_loss": 211.00685119628906}, "sample_time_ms": 34124.44, "num_steps_trained": 1022400, "num_steps_sampled": 1022400, "update_time_ms": 2.591, "grad_time_ms": 371.671, "load_time_ms": 0.698}, "iterations_since_restore": 852, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 34263.67892885208, "episodes_total": 36854, "episode_reward_max": 8.00000040003278, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 34263.67892885208, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 76, "timestamp": 1757088971, "timesteps_since_restore": 1023600, "episode_reward_min": -68.45000874668169, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-16-11", "episode_len_mean": 15.08, "timesteps_total": 1023600, "episode_reward_mean": -13.442477991542894, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.89571189880371, "training_iteration": 853, "info": {"default": {"policy_loss": -0.12011827528476715, "vf_explained_var": 0.11896035075187683, "vf_loss": 173.4676055908203, "kl": 0.011338372714817524, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.49159049987793, "total_loss": 173.40562438964844}, "sample_time_ms": 34211.838, "num_steps_trained": 1023600, "num_steps_sampled": 1023600, "update_time_ms": 2.571, "grad_time_ms": 375.006, "load_time_ms": 0.708}, "iterations_since_restore": 853, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 34297.77367281914, "episodes_total": 36933, "episode_reward_max": 8.000000400004303, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 34297.77367281914, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 79, "timestamp": 1757089005, "timesteps_since_restore": 1024800, "episode_reward_min": -83.80664318354619, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-16-45", "episode_len_mean": 15.13, "timesteps_total": 1024800, "episode_reward_mean": -14.039433740345519, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.094743967056274, "training_iteration": 854, "info": {"default": {"policy_loss": -0.13114911317825317, "vf_explained_var": 0.07393878698348999, "vf_loss": 314.1590881347656, "kl": 0.010456602089107037, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.418660163879395, "total_loss": 314.0815734863281}, "sample_time_ms": 34227.002, "num_steps_trained": 1024800, "num_steps_sampled": 1024800, "update_time_ms": 2.563, "grad_time_ms": 374.729, "load_time_ms": 0.705}, "iterations_since_restore": 854, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 34331.707857608795, "episodes_total": 37008, "episode_reward_max": 8.000001874040114, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 34331.707857608795, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 75, "timestamp": 1757089039, "timesteps_since_restore": 1026000, "episode_reward_min": -81.25668854630639, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-17-19", "episode_len_mean": 15.98, "timesteps_total": 1026000, "episode_reward_mean": -15.514608982186093, "num_metric_batches_dropped": 0, "time_this_iter_s": 33.93418478965759, "training_iteration": 855, "info": {"default": {"policy_loss": -0.13162773847579956, "vf_explained_var": 0.07641029357910156, "vf_loss": 266.9198303222656, "kl": 0.008830246515572071, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.4949312210083, "total_loss": 266.8334655761719}, "sample_time_ms": 34245.616, "num_steps_trained": 1026000, "num_steps_sampled": 1026000, "update_time_ms": 2.535, "grad_time_ms": 375.415, "load_time_ms": 0.722}, "iterations_since_restore": 855, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 34366.02794981003, "episodes_total": 37094, "episode_reward_max": 8.000031697476146, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 34366.02794981003, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 86, "timestamp": 1757089073, "timesteps_since_restore": 1027200, "episode_reward_min": -78.41664940304035, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-17-53", "episode_len_mean": 14.35, "timesteps_total": 1027200, "episode_reward_mean": -12.473776403097009, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.32009220123291, "training_iteration": 856, "info": {"default": {"policy_loss": -0.11724156886339188, "vf_explained_var": 0.12502428889274597, "vf_loss": 201.48416137695312, "kl": 0.010443996638059616, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.104745864868164, "total_loss": 201.4204559326172}, "sample_time_ms": 34221.289, "num_steps_trained": 1027200, "num_steps_sampled": 1027200, "update_time_ms": 2.502, "grad_time_ms": 376.526, "load_time_ms": 0.725}, "iterations_since_restore": 856, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 34400.55525183678, "episodes_total": 37175, "episode_reward_max": 8.000000400001039, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 34400.55525183678, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 81, "timestamp": 1757089108, "timesteps_since_restore": 1028400, "episode_reward_min": -80.94144206275448, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-18-28", "episode_len_mean": 15.32, "timesteps_total": 1028400, "episode_reward_mean": -14.422660416625625, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.52730202674866, "training_iteration": 857, "info": {"default": {"policy_loss": -0.13244889676570892, "vf_explained_var": 0.09477270394563675, "vf_loss": 266.74591064453125, "kl": 0.009286037646234035, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.138984680175781, "total_loss": 266.6610412597656}, "sample_time_ms": 34223.638, "num_steps_trained": 1028400, "num_steps_sampled": 1028400, "update_time_ms": 2.501, "grad_time_ms": 376.593, "load_time_ms": 0.725}, "iterations_since_restore": 857, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 34434.88882255554, "episodes_total": 37254, "episode_reward_max": 6.0006983627233454, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 34434.88882255554, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 79, "timestamp": 1757089142, "timesteps_since_restore": 1029600, "episode_reward_min": -80.94144206275448, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-19-02", "episode_len_mean": 15.16, "timesteps_total": 1029600, "episode_reward_mean": -14.039568905559907, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.33357071876526, "training_iteration": 858, "info": {"default": {"policy_loss": -0.13530102372169495, "vf_explained_var": 0.09370430558919907, "vf_loss": 234.70982360839844, "kl": 0.010361026972532272, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.603557586669922, "total_loss": 234.62762451171875}, "sample_time_ms": 34267.727, "num_steps_trained": 1029600, "num_steps_sampled": 1029600, "update_time_ms": 2.507, "grad_time_ms": 374.036, "load_time_ms": 0.724}, "iterations_since_restore": 858, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 34468.8989944458, "episodes_total": 37318, "episode_reward_max": 6.000736159357068, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 34468.8989944458, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 64, "timestamp": 1757089176, "timesteps_since_restore": 1030800, "episode_reward_min": -80.15744944967958, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-19-36", "episode_len_mean": 16.75, "timesteps_total": 1030800, "episode_reward_mean": -16.312174482353317, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.01017189025879, "training_iteration": 859, "info": {"default": {"policy_loss": -0.1289474368095398, "vf_explained_var": 0.0758165642619133, "vf_loss": 291.4794006347656, "kl": 0.010908450931310654, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 10.160945892333984, "total_loss": 291.4063720703125}, "sample_time_ms": 34165.495, "num_steps_trained": 1030800, "num_steps_sampled": 1030800, "update_time_ms": 2.514, "grad_time_ms": 373.645, "load_time_ms": 0.729}, "iterations_since_restore": 859, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 34503.14887833595, "episodes_total": 37407, "episode_reward_max": 6.000354869288604, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 34503.14887833595, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 89, "timestamp": 1757089210, "timesteps_since_restore": 1032000, "episode_reward_min": -80.68990766210663, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-20-10", "episode_len_mean": 14.95, "timesteps_total": 1032000, "episode_reward_mean": -13.8765241346885, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.24988389015198, "training_iteration": 860, "info": {"default": {"policy_loss": -0.12329547852277756, "vf_explained_var": 0.12006982415914536, "vf_loss": 244.01600646972656, "kl": 0.009463605470955372, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.000455856323242, "total_loss": 243.94119262695312}, "sample_time_ms": 34069.5, "num_steps_trained": 1032000, "num_steps_sampled": 1032000, "update_time_ms": 2.534, "grad_time_ms": 374.174, "load_time_ms": 0.736}, "iterations_since_restore": 860, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 34537.5976691246, "episodes_total": 37496, "episode_reward_max": 6.000191348245398, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 34537.5976691246, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 89, "timestamp": 1757089245, "timesteps_since_restore": 1033200, "episode_reward_min": -80.68990766210663, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-20-45", "episode_len_mean": 13.25, "timesteps_total": 1033200, "episode_reward_mean": -10.713098247537708, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.44879078865051, "training_iteration": 861, "info": {"default": {"policy_loss": -0.13208739459514618, "vf_explained_var": 0.10007720440626144, "vf_loss": 217.85650634765625, "kl": 0.009450956247746944, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.710185050964355, "total_loss": 217.77285766601562}, "sample_time_ms": 34057.395, "num_steps_trained": 1033200, "num_steps_sampled": 1033200, "update_time_ms": 2.575, "grad_time_ms": 372.003, "load_time_ms": 0.705}, "iterations_since_restore": 861, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 34571.92690515518, "episodes_total": 37589, "episode_reward_max": 8.000011889922513, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 34571.92690515518, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 93, "timestamp": 1757089279, "timesteps_since_restore": 1034400, "episode_reward_min": -79.58768128099211, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-21-19", "episode_len_mean": 13.2, "timesteps_total": 1034400, "episode_reward_mean": -10.699389860383594, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.32923603057861, "training_iteration": 862, "info": {"default": {"policy_loss": -0.1372148096561432, "vf_explained_var": 0.11060100793838501, "vf_loss": 191.4046173095703, "kl": 0.009823096916079521, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.618178367614746, "total_loss": 191.3177490234375}, "sample_time_ms": 34035.036, "num_steps_trained": 1034400, "num_steps_sampled": 1034400, "update_time_ms": 2.552, "grad_time_ms": 371.163, "load_time_ms": 0.712}, "iterations_since_restore": 862, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 34605.855996370316, "episodes_total": 37671, "episode_reward_max": 8.000104569084039, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 34605.855996370316, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 82, "timestamp": 1757089313, "timesteps_since_restore": 1035600, "episode_reward_min": -78.84853780048279, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-21-53", "episode_len_mean": 13.84, "timesteps_total": 1035600, "episode_reward_mean": -11.796860449907847, "num_metric_batches_dropped": 0, "time_this_iter_s": 33.92909121513367, "training_iteration": 863, "info": {"default": {"policy_loss": -0.11735346913337708, "vf_explained_var": 0.13444457948207855, "vf_loss": 185.90179443359375, "kl": 0.011715181171894073, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.222967147827148, "total_loss": 185.844482421875}, "sample_time_ms": 33840.185, "num_steps_trained": 1035600, "num_steps_sampled": 1035600, "update_time_ms": 2.555, "grad_time_ms": 369.36, "load_time_ms": 0.712}, "iterations_since_restore": 863, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 34641.02292919159, "episodes_total": 37744, "episode_reward_max": 8.000000399999964, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 34641.02292919159, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 73, "timestamp": 1757089348, "timesteps_since_restore": 1036800, "episode_reward_min": -80.01201712958417, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-22-28", "episode_len_mean": 16.53, "timesteps_total": 1036800, "episode_reward_mean": -15.998712666468137, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.166932821273804, "training_iteration": 864, "info": {"default": {"policy_loss": -0.13859355449676514, "vf_explained_var": 0.06956835836172104, "vf_loss": 222.26206970214844, "kl": 0.009843803010880947, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.605447769165039, "total_loss": 222.1739501953125}, "sample_time_ms": 33943.86, "num_steps_trained": 1036800, "num_steps_sampled": 1036800, "update_time_ms": 2.538, "grad_time_ms": 372.898, "load_time_ms": 0.731}, "iterations_since_restore": 864, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 34676.03178143501, "episodes_total": 37831, "episode_reward_max": 8.00000257280596, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 34676.03178143501, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 87, "timestamp": 1757089383, "timesteps_since_restore": 1038000, "episode_reward_min": -70.08332407309466, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-23-03", "episode_len_mean": 14.46, "timesteps_total": 1038000, "episode_reward_mean": -12.472686982210062, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.00885224342346, "training_iteration": 865, "info": {"default": {"policy_loss": -0.13367384672164917, "vf_explained_var": 0.10796603560447693, "vf_loss": 185.0523223876953, "kl": 0.009295817464590073, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.097646713256836, "total_loss": 184.96630859375}, "sample_time_ms": 34050.782, "num_steps_trained": 1038000, "num_steps_sampled": 1038000, "update_time_ms": 2.553, "grad_time_ms": 373.397, "load_time_ms": 0.71}, "iterations_since_restore": 865, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 34710.58458518982, "episodes_total": 37901, "episode_reward_max": 8.00000257280596, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 34710.58458518982, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 70, "timestamp": 1757089418, "timesteps_since_restore": 1039200, "episode_reward_min": -82.37830918754689, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-23-38", "episode_len_mean": 16.28, "timesteps_total": 1039200, "episode_reward_mean": -15.792118335167418, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.55280375480652, "training_iteration": 866, "info": {"default": {"policy_loss": -0.13383863866329193, "vf_explained_var": 0.0844653993844986, "vf_loss": 319.8087158203125, "kl": 0.009476151317358017, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.814021110534668, "total_loss": 319.72344970703125}, "sample_time_ms": 34073.183, "num_steps_trained": 1039200, "num_steps_sampled": 1039200, "update_time_ms": 2.594, "grad_time_ms": 374.206, "load_time_ms": 0.713}, "iterations_since_restore": 866, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 34744.87201523781, "episodes_total": 37979, "episode_reward_max": 8.000000399999962, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 34744.87201523781, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 78, "timestamp": 1757089452, "timesteps_since_restore": 1040400, "episode_reward_min": -83.8376817058344, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-24-12", "episode_len_mean": 16.33, "timesteps_total": 1040400, "episode_reward_mean": -15.769045324274668, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.28743004798889, "training_iteration": 867, "info": {"default": {"policy_loss": -0.12165779620409012, "vf_explained_var": 0.09962819516658783, "vf_loss": 290.2379455566406, "kl": 0.008897985331714153, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.609403610229492, "total_loss": 290.1618957519531}, "sample_time_ms": 34048.56, "num_steps_trained": 1040400, "num_steps_sampled": 1040400, "update_time_ms": 2.601, "grad_time_ms": 374.839, "load_time_ms": 0.721}, "iterations_since_restore": 867, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 34779.08580946922, "episodes_total": 38053, "episode_reward_max": 8.000000401102104, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 34779.08580946922, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 74, "timestamp": 1757089486, "timesteps_since_restore": 1041600, "episode_reward_min": -83.8376817058344, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-24-46", "episode_len_mean": 16.05, "timesteps_total": 1041600, "episode_reward_mean": -15.756416268515293, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.213794231414795, "training_iteration": 868, "info": {"default": {"policy_loss": -0.13140079379081726, "vf_explained_var": 0.10263225436210632, "vf_loss": 263.5511169433594, "kl": 0.010087091475725174, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.12192153930664, "total_loss": 263.471435546875}, "sample_time_ms": 34034.197, "num_steps_trained": 1041600, "num_steps_sampled": 1041600, "update_time_ms": 2.567, "grad_time_ms": 377.287, "load_time_ms": 0.703}, "iterations_since_restore": 868, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 34812.863092422485, "episodes_total": 38129, "episode_reward_max": 8.000000401102104, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 34812.863092422485, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 76, "timestamp": 1757089520, "timesteps_since_restore": 1042800, "episode_reward_min": -81.69781567077234, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-25-20", "episode_len_mean": 15.39, "timesteps_total": 1042800, "episode_reward_mean": -14.366952560771447, "num_metric_batches_dropped": 0, "time_this_iter_s": 33.77728295326233, "training_iteration": 869, "info": {"default": {"policy_loss": -0.1401691883802414, "vf_explained_var": 0.08827093243598938, "vf_loss": 298.1488952636719, "kl": 0.00847182422876358, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.547327041625977, "total_loss": 298.0521240234375}, "sample_time_ms": 34010.801, "num_steps_trained": 1042800, "num_steps_sampled": 1042800, "update_time_ms": 2.546, "grad_time_ms": 377.412, "load_time_ms": 0.688}, "iterations_since_restore": 869, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 34848.00052905083, "episodes_total": 38211, "episode_reward_max": 8.000271637510041, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 34848.00052905083, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 82, "timestamp": 1757089555, "timesteps_since_restore": 1044000, "episode_reward_min": -81.85017549194286, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-25-55", "episode_len_mean": 15.31, "timesteps_total": 1044000, "episode_reward_mean": -14.405757776448725, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.137436628341675, "training_iteration": 870, "info": {"default": {"policy_loss": -0.12182144075632095, "vf_explained_var": 0.10525694489479065, "vf_loss": 246.64724731445312, "kl": 0.010747339576482773, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.270172119140625, "total_loss": 246.58050537109375}, "sample_time_ms": 34100.42, "num_steps_trained": 1044000, "num_steps_sampled": 1044000, "update_time_ms": 2.533, "grad_time_ms": 376.636, "load_time_ms": 0.674}, "iterations_since_restore": 870, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 34881.90899729729, "episodes_total": 38288, "episode_reward_max": 8.000000400050894, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 34881.90899729729, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 77, "timestamp": 1757089589, "timesteps_since_restore": 1045200, "episode_reward_min": -81.06553650233693, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-26-29", "episode_len_mean": 16.1, "timesteps_total": 1045200, "episode_reward_mean": -15.491749708777391, "num_metric_batches_dropped": 0, "time_this_iter_s": 33.90846824645996, "training_iteration": 871, "info": {"default": {"policy_loss": -0.14768248796463013, "vf_explained_var": 0.10541465133428574, "vf_loss": 218.33172607421875, "kl": 0.009607984684407711, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.376177787780762, "total_loss": 218.23330688476562}, "sample_time_ms": 34044.052, "num_steps_trained": 1045200, "num_steps_sampled": 1045200, "update_time_ms": 2.515, "grad_time_ms": 378.949, "load_time_ms": 0.68}, "iterations_since_restore": 871, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 34916.32053589821, "episodes_total": 38372, "episode_reward_max": 8.000000406323387, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 34916.32053589821, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 84, "timestamp": 1757089624, "timesteps_since_restore": 1046400, "episode_reward_min": -81.12263215162335, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-27-04", "episode_len_mean": 14.58, "timesteps_total": 1046400, "episode_reward_mean": -12.98432387339197, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.41153860092163, "training_iteration": 872, "info": {"default": {"policy_loss": -0.125586599111557, "vf_explained_var": 0.12376442551612854, "vf_loss": 215.5030059814453, "kl": 0.011786806397140026, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.931296348571777, "total_loss": 215.43783569335938}, "sample_time_ms": 34051.443, "num_steps_trained": 1046400, "num_steps_sampled": 1046400, "update_time_ms": 2.537, "grad_time_ms": 379.809, "load_time_ms": 0.676}, "iterations_since_restore": 872, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 34950.63955783844, "episodes_total": 38450, "episode_reward_max": 8.000000403464057, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 34950.63955783844, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 78, "timestamp": 1757089658, "timesteps_since_restore": 1047600, "episode_reward_min": -81.12263215162335, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-27-38", "episode_len_mean": 15.53, "timesteps_total": 1047600, "episode_reward_mean": -14.793795280504463, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.31902194023132, "training_iteration": 873, "info": {"default": {"policy_loss": -0.12845492362976074, "vf_explained_var": 0.0979982316493988, "vf_loss": 264.345947265625, "kl": 0.009413921274244785, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.398896217346191, "total_loss": 264.2657470703125}, "sample_time_ms": 34090.066, "num_steps_trained": 1047600, "num_steps_sampled": 1047600, "update_time_ms": 2.538, "grad_time_ms": 380.172, "load_time_ms": 0.669}, "iterations_since_restore": 873, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 34985.00902056694, "episodes_total": 38537, "episode_reward_max": 10.0, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 34985.00902056694, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 87, "timestamp": 1757089692, "timesteps_since_restore": 1048800, "episode_reward_min": -81.89033221151841, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-28-12", "episode_len_mean": 14.11, "timesteps_total": 1048800, "episode_reward_mean": -12.324301802082038, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.369462728500366, "training_iteration": 874, "info": {"default": {"policy_loss": -0.12324908375740051, "vf_explained_var": 0.07976783066987991, "vf_loss": 197.1627655029297, "kl": 0.00948411040008068, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.270025253295898, "total_loss": 197.08810424804688}, "sample_time_ms": 34010.893, "num_steps_trained": 1048800, "num_steps_sampled": 1048800, "update_time_ms": 2.534, "grad_time_ms": 379.618, "load_time_ms": 0.652}, "iterations_since_restore": 874, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 35019.241871356964, "episodes_total": 38617, "episode_reward_max": 6.000422464681109, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 35019.241871356964, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 80, "timestamp": 1757089727, "timesteps_since_restore": 1050000, "episode_reward_min": -82.47058476283765, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-28-47", "episode_len_mean": 15.08, "timesteps_total": 1050000, "episode_reward_mean": -13.675454044712176, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.232850790023804, "training_iteration": 875, "info": {"default": {"policy_loss": -0.1416524052619934, "vf_explained_var": 0.09927202761173248, "vf_loss": 263.978515625, "kl": 0.008315635845065117, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.313739776611328, "total_loss": 263.8794860839844}, "sample_time_ms": 33932.89, "num_steps_trained": 1050000, "num_steps_sampled": 1050000, "update_time_ms": 2.539, "grad_time_ms": 380.08, "load_time_ms": 0.648}, "iterations_since_restore": 875, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 35054.28314471245, "episodes_total": 38699, "episode_reward_max": 6.001056456576794, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 35054.28314471245, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 82, "timestamp": 1757089762, "timesteps_since_restore": 1051200, "episode_reward_min": -82.11326132827115, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-29-22", "episode_len_mean": 13.9, "timesteps_total": 1051200, "episode_reward_mean": -11.842850203724756, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.04127335548401, "training_iteration": 876, "info": {"default": {"policy_loss": -0.13041360676288605, "vf_explained_var": 0.08461226522922516, "vf_loss": 252.08116149902344, "kl": 0.011072422377765179, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.88852596282959, "total_loss": 252.00753784179688}, "sample_time_ms": 33982.106, "num_steps_trained": 1051200, "num_steps_sampled": 1051200, "update_time_ms": 2.488, "grad_time_ms": 379.744, "load_time_ms": 0.642}, "iterations_since_restore": 876, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 35089.041410684586, "episodes_total": 38776, "episode_reward_max": 6.0017893187769324, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 35089.041410684586, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 77, "timestamp": 1757089796, "timesteps_since_restore": 1052400, "episode_reward_min": -80.71176586379262, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-29-56", "episode_len_mean": 16.0, "timesteps_total": 1052400, "episode_reward_mean": -15.011052715830818, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.75826597213745, "training_iteration": 877, "info": {"default": {"policy_loss": -0.13610360026359558, "vf_explained_var": 0.10489095002412796, "vf_loss": 217.76231384277344, "kl": 0.007827038876712322, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.330299377441406, "total_loss": 217.6663360595703}, "sample_time_ms": 34030.073, "num_steps_trained": 1052400, "num_steps_sampled": 1052400, "update_time_ms": 2.496, "grad_time_ms": 378.906, "load_time_ms": 0.643}, "iterations_since_restore": 877, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 35127.079567193985, "episodes_total": 38861, "episode_reward_max": 8.001437744557347, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 35127.079567193985, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 85, "timestamp": 1757089834, "timesteps_since_restore": 1053600, "episode_reward_min": -80.07326136862842, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-30-34", "episode_len_mean": 13.96, "timesteps_total": 1053600, "episode_reward_mean": -11.83981143728536, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.038156509399414, "training_iteration": 878, "info": {"default": {"policy_loss": -0.12843023240566254, "vf_explained_var": 0.10997248440980911, "vf_loss": 203.80531311035156, "kl": 0.008717547170817852, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.324735641479492, "total_loss": 203.7215576171875}, "sample_time_ms": 34412.683, "num_steps_trained": 1053600, "num_steps_sampled": 1053600, "update_time_ms": 2.479, "grad_time_ms": 378.721, "load_time_ms": 0.653}, "iterations_since_restore": 878, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 35160.95426082611, "episodes_total": 38948, "episode_reward_max": 6.000795580920883, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 35160.95426082611, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 87, "timestamp": 1757089868, "timesteps_since_restore": 1054800, "episode_reward_min": -79.8376315921079, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-31-08", "episode_len_mean": 13.53, "timesteps_total": 1054800, "episode_reward_mean": -11.395965963301292, "num_metric_batches_dropped": 0, "time_this_iter_s": 33.874693632125854, "training_iteration": 879, "info": {"default": {"policy_loss": -0.11883606016635895, "vf_explained_var": 0.11064319312572479, "vf_loss": 230.45399475097656, "kl": 0.008749039843678474, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.916519165039062, "total_loss": 230.38002014160156}, "sample_time_ms": 34422.135, "num_steps_trained": 1054800, "num_steps_sampled": 1054800, "update_time_ms": 2.518, "grad_time_ms": 378.966, "load_time_ms": 0.661}, "iterations_since_restore": 879, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 35195.48966526985, "episodes_total": 39040, "episode_reward_max": 8.000000434710927, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 35195.48966526985, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 92, "timestamp": 1757089903, "timesteps_since_restore": 1056000, "episode_reward_min": -79.50483347849108, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-31-43", "episode_len_mean": 13.23, "timesteps_total": 1056000, "episode_reward_mean": -10.847028732514918, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.535404443740845, "training_iteration": 880, "info": {"default": {"policy_loss": -0.12208792567253113, "vf_explained_var": 0.09739279001951218, "vf_loss": 269.2359313964844, "kl": 0.008962307125329971, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.507257461547852, "total_loss": 269.1597595214844}, "sample_time_ms": 34360.558, "num_steps_trained": 1056000, "num_steps_sampled": 1056000, "update_time_ms": 2.524, "grad_time_ms": 380.319, "load_time_ms": 0.664}, "iterations_since_restore": 880, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 35230.12826418877, "episodes_total": 39134, "episode_reward_max": 8.000000400573118, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 35230.12826418877, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 94, "timestamp": 1757089938, "timesteps_since_restore": 1057200, "episode_reward_min": -58.108862524559626, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-32-18", "episode_len_mean": 12.41, "timesteps_total": 1057200, "episode_reward_mean": -9.19494149153371, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.638598918914795, "training_iteration": 881, "info": {"default": {"policy_loss": -0.12391260266304016, "vf_explained_var": 0.11910203099250793, "vf_loss": 158.65293884277344, "kl": 0.012076247483491898, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.667266845703125, "total_loss": 158.59092712402344}, "sample_time_ms": 34433.524, "num_steps_trained": 1057200, "num_steps_sampled": 1057200, "update_time_ms": 2.514, "grad_time_ms": 380.36, "load_time_ms": 0.657}, "iterations_since_restore": 881, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 35264.63351249695, "episodes_total": 39226, "episode_reward_max": 6.0007801622428465, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 35264.63351249695, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 92, "timestamp": 1757089972, "timesteps_since_restore": 1058400, "episode_reward_min": -66.61794242191539, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-32-52", "episode_len_mean": 13.5, "timesteps_total": 1058400, "episode_reward_mean": -10.9190850087227, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.50524830818176, "training_iteration": 882, "info": {"default": {"policy_loss": -0.1352265626192093, "vf_explained_var": 0.12709146738052368, "vf_loss": 159.73928833007812, "kl": 0.009532378055155277, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.780961990356445, "total_loss": 159.6529083251953}, "sample_time_ms": 34442.849, "num_steps_trained": 1058400, "num_steps_sampled": 1058400, "update_time_ms": 2.527, "grad_time_ms": 380.363, "load_time_ms": 0.658}, "iterations_since_restore": 882, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 35299.5726981163, "episodes_total": 39305, "episode_reward_max": 8.000000399999921, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 35299.5726981163, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 79, "timestamp": 1757090007, "timesteps_since_restore": 1059600, "episode_reward_min": -79.14967306499912, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-33-27", "episode_len_mean": 13.88, "timesteps_total": 1059600, "episode_reward_mean": -11.769622346628168, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.93918561935425, "training_iteration": 883, "info": {"default": {"policy_loss": -0.10747215151786804, "vf_explained_var": 0.08307955414056778, "vf_loss": 219.37388610839844, "kl": 0.010060410015285015, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.21737289428711, "total_loss": 219.3179931640625}, "sample_time_ms": 34504.658, "num_steps_trained": 1059600, "num_steps_sampled": 1059600, "update_time_ms": 2.546, "grad_time_ms": 380.517, "load_time_ms": 0.664}, "iterations_since_restore": 883, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 35334.1580953598, "episodes_total": 39396, "episode_reward_max": 6.000335209627323, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 35334.1580953598, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 91, "timestamp": 1757090042, "timesteps_since_restore": 1060800, "episode_reward_min": -79.78164146999303, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-34-02", "episode_len_mean": 13.4, "timesteps_total": 1060800, "episode_reward_mean": -11.047103441495022, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.585397243499756, "training_iteration": 884, "info": {"default": {"policy_loss": -0.12278445810079575, "vf_explained_var": 0.13085848093032837, "vf_loss": 181.55960083007812, "kl": 0.00893399491906166, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.996861457824707, "total_loss": 181.48260498046875}, "sample_time_ms": 34527.014, "num_steps_trained": 1060800, "num_steps_sampled": 1060800, "update_time_ms": 2.614, "grad_time_ms": 379.666, "load_time_ms": 0.676}, "iterations_since_restore": 884, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 35368.302647829056, "episodes_total": 39489, "episode_reward_max": 6.000234923890064, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 35368.302647829056, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 93, "timestamp": 1757090076, "timesteps_since_restore": 1062000, "episode_reward_min": -77.17775567789987, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-34-36", "episode_len_mean": 12.2, "timesteps_total": 1062000, "episode_reward_mean": -9.011739883331249, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.14455246925354, "training_iteration": 885, "info": {"default": {"policy_loss": -0.13296377658843994, "vf_explained_var": 0.12162894755601883, "vf_loss": 182.65599060058594, "kl": 0.012068414129316807, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.735847473144531, "total_loss": 182.58489990234375}, "sample_time_ms": 34519.332, "num_steps_trained": 1062000, "num_steps_sampled": 1062000, "update_time_ms": 2.622, "grad_time_ms": 378.495, "load_time_ms": 0.684}, "iterations_since_restore": 885, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 35402.59721684456, "episodes_total": 39580, "episode_reward_max": 8.000000425239858, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 35402.59721684456, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 91, "timestamp": 1757090110, "timesteps_since_restore": 1063200, "episode_reward_min": -80.28628413898872, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-35-10", "episode_len_mean": 13.67, "timesteps_total": 1063200, "episode_reward_mean": -11.363147945650828, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.29456901550293, "training_iteration": 886, "info": {"default": {"policy_loss": -0.1357477605342865, "vf_explained_var": 0.10681886970996857, "vf_loss": 234.3307342529297, "kl": 0.010986385866999626, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.074591636657715, "total_loss": 234.25128173828125}, "sample_time_ms": 34444.219, "num_steps_trained": 1063200, "num_steps_sampled": 1063200, "update_time_ms": 2.602, "grad_time_ms": 378.975, "load_time_ms": 0.682}, "iterations_since_restore": 886, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 35436.512593984604, "episodes_total": 39669, "episode_reward_max": 8.000000408537494, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 35436.512593984604, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 89, "timestamp": 1757090144, "timesteps_since_restore": 1064400, "episode_reward_min": -79.85623429712896, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-35-44", "episode_len_mean": 13.28, "timesteps_total": 1064400, "episode_reward_mean": -10.570924399252904, "num_metric_batches_dropped": 0, "time_this_iter_s": 33.915377140045166, "training_iteration": 887, "info": {"default": {"policy_loss": -0.12348123639822006, "vf_explained_var": 0.11221347749233246, "vf_loss": 209.01950073242188, "kl": 0.01111102756112814, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.988816261291504, "total_loss": 208.95298767089844}, "sample_time_ms": 34359.866, "num_steps_trained": 1064400, "num_steps_sampled": 1064400, "update_time_ms": 2.59, "grad_time_ms": 379.051, "load_time_ms": 0.682}, "iterations_since_restore": 887, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 35470.99371933937, "episodes_total": 39760, "episode_reward_max": 8.000000415513854, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 35470.99371933937, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 91, "timestamp": 1757090179, "timesteps_since_restore": 1065600, "episode_reward_min": -79.85623429712896, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-36-19", "episode_len_mean": 13.84, "timesteps_total": 1065600, "episode_reward_mean": -11.840634111013658, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.481125354766846, "training_iteration": 888, "info": {"default": {"policy_loss": -0.13014444708824158, "vf_explained_var": 0.12356621772050858, "vf_loss": 224.8938751220703, "kl": 0.009102406911551952, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.053775787353516, "total_loss": 224.8103790283203}, "sample_time_ms": 34005.445, "num_steps_trained": 1065600, "num_steps_sampled": 1065600, "update_time_ms": 2.593, "grad_time_ms": 377.806, "load_time_ms": 0.682}, "iterations_since_restore": 888, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 35505.30201649666, "episodes_total": 39845, "episode_reward_max": 8.000000400003627, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 35505.30201649666, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 85, "timestamp": 1757090213, "timesteps_since_restore": 1066800, "episode_reward_min": -79.40189985762069, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-36-53", "episode_len_mean": 14.04, "timesteps_total": 1066800, "episode_reward_mean": -12.176265441440934, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.3082971572876, "training_iteration": 889, "info": {"default": {"policy_loss": -0.13166695833206177, "vf_explained_var": 0.08717614412307739, "vf_loss": 248.0183868408203, "kl": 0.008347897790372372, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.980039596557617, "total_loss": 247.9295196533203}, "sample_time_ms": 34051.666, "num_steps_trained": 1066800, "num_steps_sampled": 1066800, "update_time_ms": 2.575, "grad_time_ms": 375.0, "load_time_ms": 0.668}, "iterations_since_restore": 889, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 35539.39678835869, "episodes_total": 39932, "episode_reward_max": 8.000157629208443, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 35539.39678835869, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 87, "timestamp": 1757090247, "timesteps_since_restore": 1068000, "episode_reward_min": -79.40189985762069, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-37-27", "episode_len_mean": 13.6, "timesteps_total": 1068000, "episode_reward_mean": -11.150026690518494, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.09477186203003, "training_iteration": 890, "info": {"default": {"policy_loss": -0.1316390335559845, "vf_explained_var": 0.10743305087089539, "vf_loss": 181.67132568359375, "kl": 0.009681200608611107, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.300787925720215, "total_loss": 181.5893096923828}, "sample_time_ms": 34006.751, "num_steps_trained": 1068000, "num_steps_sampled": 1068000, "update_time_ms": 2.564, "grad_time_ms": 375.819, "load_time_ms": 0.68}, "iterations_since_restore": 890, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 35573.81484723091, "episodes_total": 40034, "episode_reward_max": 8.000134481994326, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 35573.81484723091, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 102, "timestamp": 1757090282, "timesteps_since_restore": 1069200, "episode_reward_min": -78.27505568107934, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-38-02", "episode_len_mean": 11.607843137254902, "timesteps_total": 1069200, "episode_reward_mean": -8.031029459983428, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.4180588722229, "training_iteration": 891, "info": {"default": {"policy_loss": -0.12843604385852814, "vf_explained_var": 0.1422794908285141, "vf_loss": 183.90647888183594, "kl": 0.009126652032136917, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.591264724731445, "total_loss": 183.8248291015625}, "sample_time_ms": 33985.605, "num_steps_trained": 1069200, "num_steps_sampled": 1069200, "update_time_ms": 2.592, "grad_time_ms": 374.951, "load_time_ms": 0.679}, "iterations_since_restore": 891, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 35608.63123512268, "episodes_total": 40112, "episode_reward_max": 8.000147144004229, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 35608.63123512268, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 78, "timestamp": 1757090316, "timesteps_since_restore": 1070400, "episode_reward_min": -83.29674695584686, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-38-36", "episode_len_mean": 15.07, "timesteps_total": 1070400, "episode_reward_mean": -13.981120141317241, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.81638789176941, "training_iteration": 892, "info": {"default": {"policy_loss": -0.12828902900218964, "vf_explained_var": 0.10719916969537735, "vf_loss": 299.2769775390625, "kl": 0.010776554234325886, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.200472831726074, "total_loss": 299.20391845703125}, "sample_time_ms": 34015.968, "num_steps_trained": 1070400, "num_steps_sampled": 1070400, "update_time_ms": 2.558, "grad_time_ms": 375.709, "load_time_ms": 0.691}, "iterations_since_restore": 892, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 35644.9416115284, "episodes_total": 40204, "episode_reward_max": 6.001568686361902, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 35644.9416115284, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 92, "timestamp": 1757090353, "timesteps_since_restore": 1071600, "episode_reward_min": -77.98322010744894, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-39-13", "episode_len_mean": 12.95, "timesteps_total": 1071600, "episode_reward_mean": -10.036575772893997, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.31037640571594, "training_iteration": 893, "info": {"default": {"policy_loss": -0.12996627390384674, "vf_explained_var": 0.120304636657238, "vf_loss": 171.09051513671875, "kl": 0.009107026271522045, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.05674934387207, "total_loss": 171.00721740722656}, "sample_time_ms": 34151.821, "num_steps_trained": 1071600, "num_steps_sampled": 1071600, "update_time_ms": 2.558, "grad_time_ms": 376.972, "load_time_ms": 0.685}, "iterations_since_restore": 893, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 35679.30969619751, "episodes_total": 40297, "episode_reward_max": 8.000000400004664, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 35679.30969619751, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 93, "timestamp": 1757090387, "timesteps_since_restore": 1072800, "episode_reward_min": -81.34931354866906, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-39-47", "episode_len_mean": 13.18, "timesteps_total": 1072800, "episode_reward_mean": -10.436838053528747, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.36808466911316, "training_iteration": 894, "info": {"default": {"policy_loss": -0.12344571948051453, "vf_explained_var": 0.12048888206481934, "vf_loss": 180.63475036621094, "kl": 0.009129252284765244, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.919281005859375, "total_loss": 180.55807495117188}, "sample_time_ms": 34128.971, "num_steps_trained": 1072800, "num_steps_sampled": 1072800, "update_time_ms": 2.521, "grad_time_ms": 378.101, "load_time_ms": 0.687}, "iterations_since_restore": 894, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 35714.95396280289, "episodes_total": 40386, "episode_reward_max": 8.000000400018422, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 35714.95396280289, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 89, "timestamp": 1757090423, "timesteps_since_restore": 1074000, "episode_reward_min": -82.41136675051396, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-40-23", "episode_len_mean": 13.28, "timesteps_total": 1074000, "episode_reward_mean": -10.955561699268204, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.6442666053772, "training_iteration": 895, "info": {"default": {"policy_loss": -0.12337788939476013, "vf_explained_var": 0.10370397567749023, "vf_loss": 259.8675231933594, "kl": 0.009556112810969353, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.876137733459473, "total_loss": 259.7931213378906}, "sample_time_ms": 34280.149, "num_steps_trained": 1074000, "num_steps_sampled": 1074000, "update_time_ms": 2.521, "grad_time_ms": 376.923, "load_time_ms": 0.682}, "iterations_since_restore": 895, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 35748.927528619766, "episodes_total": 40456, "episode_reward_max": 6.0002940761151855, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 35748.927528619766, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 70, "timestamp": 1757090457, "timesteps_since_restore": 1075200, "episode_reward_min": -82.41136675051396, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-40-57", "episode_len_mean": 16.69, "timesteps_total": 1075200, "episode_reward_mean": -16.44582605973783, "num_metric_batches_dropped": 0, "time_this_iter_s": 33.97356581687927, "training_iteration": 896, "info": {"default": {"policy_loss": -0.13560059666633606, "vf_explained_var": 0.12001997977495193, "vf_loss": 232.03607177734375, "kl": 0.008467044681310654, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.489520072937012, "total_loss": 231.94387817382812}, "sample_time_ms": 34248.995, "num_steps_trained": 1075200, "num_steps_sampled": 1075200, "update_time_ms": 2.524, "grad_time_ms": 375.997, "load_time_ms": 0.691}, "iterations_since_restore": 896, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 35783.297414541245, "episodes_total": 40547, "episode_reward_max": 6.0004587243742, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 35783.297414541245, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 91, "timestamp": 1757090491, "timesteps_since_restore": 1076400, "episode_reward_min": -78.21515379385872, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-41-31", "episode_len_mean": 12.59, "timesteps_total": 1076400, "episode_reward_mean": -9.55026415157033, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.36988592147827, "training_iteration": 897, "info": {"default": {"policy_loss": -0.1274424046278, "vf_explained_var": 0.1293354332447052, "vf_loss": 232.23699951171875, "kl": 0.01072587352246046, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.235868453979492, "total_loss": 232.16455078125}, "sample_time_ms": 34293.829, "num_steps_trained": 1076400, "num_steps_sampled": 1076400, "update_time_ms": 2.535, "grad_time_ms": 376.553, "load_time_ms": 0.686}, "iterations_since_restore": 897, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 35817.103672504425, "episodes_total": 40625, "episode_reward_max": 8.00118342758862, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 35817.103672504425, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 78, "timestamp": 1757090525, "timesteps_since_restore": 1077600, "episode_reward_min": -80.47255746125876, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-42-05", "episode_len_mean": 14.74, "timesteps_total": 1077600, "episode_reward_mean": -13.060763918744179, "num_metric_batches_dropped": 0, "time_this_iter_s": 33.80625796318054, "training_iteration": 898, "info": {"default": {"policy_loss": -0.12391873449087143, "vf_explained_var": 0.09669817239046097, "vf_loss": 210.29722595214844, "kl": 0.010404880158603191, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.973519325256348, "total_loss": 210.22662353515625}, "sample_time_ms": 34227.262, "num_steps_trained": 1077600, "num_steps_sampled": 1077600, "update_time_ms": 2.566, "grad_time_ms": 375.597, "load_time_ms": 0.686}, "iterations_since_restore": 898, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 35851.063698768616, "episodes_total": 40708, "episode_reward_max": 8.000047076060568, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 35851.063698768616, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 83, "timestamp": 1757090559, "timesteps_since_restore": 1078800, "episode_reward_min": -80.47255746125876, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-42-39", "episode_len_mean": 15.06, "timesteps_total": 1078800, "episode_reward_mean": -13.528181920213456, "num_metric_batches_dropped": 0, "time_this_iter_s": 33.960026264190674, "training_iteration": 899, "info": {"default": {"policy_loss": -0.13428689539432526, "vf_explained_var": 0.08501937985420227, "vf_loss": 234.4464569091797, "kl": 0.010738594457507133, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.344654083251953, "total_loss": 234.36721801757812}, "sample_time_ms": 34190.192, "num_steps_trained": 1078800, "num_steps_sampled": 1078800, "update_time_ms": 2.543, "grad_time_ms": 377.876, "load_time_ms": 0.691}, "iterations_since_restore": 899, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 35886.933075904846, "episodes_total": 40798, "episode_reward_max": 8.000000459197798, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 35886.933075904846, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 90, "timestamp": 1757090595, "timesteps_since_restore": 1080000, "episode_reward_min": -80.22653581727563, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-43-15", "episode_len_mean": 13.51, "timesteps_total": 1080000, "episode_reward_mean": -11.283933098072957, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.86937713623047, "training_iteration": 900, "info": {"default": {"policy_loss": -0.12924441695213318, "vf_explained_var": 0.1192481517791748, "vf_loss": 183.77474975585938, "kl": 0.010460782796144485, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.746260643005371, "total_loss": 183.69912719726562}, "sample_time_ms": 34369.943, "num_steps_trained": 1080000, "num_steps_sampled": 1080000, "update_time_ms": 2.545, "grad_time_ms": 375.573, "load_time_ms": 0.678}, "iterations_since_restore": 900, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 35921.60149431229, "episodes_total": 40886, "episode_reward_max": 8.000000503352174, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 35921.60149431229, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 88, "timestamp": 1757090630, "timesteps_since_restore": 1081200, "episode_reward_min": -79.40524199932946, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-43-50", "episode_len_mean": 14.16, "timesteps_total": 1081200, "episode_reward_mean": -12.162138617018588, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.668418407440186, "training_iteration": 901, "info": {"default": {"policy_loss": -0.12345351278781891, "vf_explained_var": 0.10776371508836746, "vf_loss": 251.42193603515625, "kl": 0.010176224634051323, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.922450065612793, "total_loss": 251.35061645507812}, "sample_time_ms": 34394.32, "num_steps_trained": 1081200, "num_steps_sampled": 1081200, "update_time_ms": 2.528, "grad_time_ms": 376.228, "load_time_ms": 0.683}, "iterations_since_restore": 901, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 35955.903668642044, "episodes_total": 40962, "episode_reward_max": 8.000000399999934, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 35955.903668642044, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 76, "timestamp": 1757090664, "timesteps_since_restore": 1082400, "episode_reward_min": -81.08415689200972, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-44-24", "episode_len_mean": 15.92, "timesteps_total": 1082400, "episode_reward_mean": -14.84757253661182, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.30217432975769, "training_iteration": 902, "info": {"default": {"policy_loss": -0.12400668114423752, "vf_explained_var": 0.07448462396860123, "vf_loss": 257.89337158203125, "kl": 0.008429779671132565, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.29921817779541, "total_loss": 257.81256103515625}, "sample_time_ms": 34345.682, "num_steps_trained": 1082400, "num_steps_sampled": 1082400, "update_time_ms": 2.544, "grad_time_ms": 373.479, "load_time_ms": 0.667}, "iterations_since_restore": 902, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 35990.62392234802, "episodes_total": 41060, "episode_reward_max": 8.000002655853775, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 35990.62392234802, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 98, "timestamp": 1757090699, "timesteps_since_restore": 1083600, "episode_reward_min": -79.81875257932042, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-44-59", "episode_len_mean": 12.19, "timesteps_total": 1083600, "episode_reward_mean": -8.970843408042446, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.720253705978394, "training_iteration": 903, "info": {"default": {"policy_loss": -0.12501579523086548, "vf_explained_var": 0.10468552261590958, "vf_loss": 190.31109619140625, "kl": 0.009014963172376156, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.554381370544434, "total_loss": 190.2322998046875}, "sample_time_ms": 34188.849, "num_steps_trained": 1083600, "num_steps_sampled": 1083600, "update_time_ms": 2.539, "grad_time_ms": 371.288, "load_time_ms": 0.662}, "iterations_since_restore": 903, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 36024.751845121384, "episodes_total": 41146, "episode_reward_max": 8.00198981576225, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 36024.751845121384, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 86, "timestamp": 1757090733, "timesteps_since_restore": 1084800, "episode_reward_min": -81.69917570982014, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-45-33", "episode_len_mean": 13.11, "timesteps_total": 1084800, "episode_reward_mean": -10.43807640265565, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.127922773361206, "training_iteration": 904, "info": {"default": {"policy_loss": -0.12042024731636047, "vf_explained_var": 0.10575813800096512, "vf_loss": 226.60302734375, "kl": 0.009559009224176407, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.11084270477295, "total_loss": 226.53160095214844}, "sample_time_ms": 34166.686, "num_steps_trained": 1084800, "num_steps_sampled": 1084800, "update_time_ms": 2.543, "grad_time_ms": 369.453, "load_time_ms": 0.668}, "iterations_since_restore": 904, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 36059.19537782669, "episodes_total": 41232, "episode_reward_max": 10.0, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 36059.19537782669, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 86, "timestamp": 1757090767, "timesteps_since_restore": 1086000, "episode_reward_min": -80.64438784611376, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-46-07", "episode_len_mean": 14.01, "timesteps_total": 1086000, "episode_reward_mean": -11.857900814404013, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.44353270530701, "training_iteration": 905, "info": {"default": {"policy_loss": -0.12540613114833832, "vf_explained_var": 0.13277554512023926, "vf_loss": 206.75921630859375, "kl": 0.009506423026323318, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.928278923034668, "total_loss": 206.68255615234375}, "sample_time_ms": 34044.522, "num_steps_trained": 1086000, "num_steps_sampled": 1086000, "update_time_ms": 2.546, "grad_time_ms": 371.481, "load_time_ms": 0.672}, "iterations_since_restore": 905, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 36093.60809803009, "episodes_total": 41322, "episode_reward_max": 8.000000401496358, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 36093.60809803009, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 90, "timestamp": 1757090802, "timesteps_since_restore": 1087200, "episode_reward_min": -79.64130313879963, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-46-42", "episode_len_mean": 13.81, "timesteps_total": 1087200, "episode_reward_mean": -11.529943052635003, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.41272020339966, "training_iteration": 906, "info": {"default": {"policy_loss": -0.12317943572998047, "vf_explained_var": 0.12727302312850952, "vf_loss": 183.7122344970703, "kl": 0.009689945727586746, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.670682907104492, "total_loss": 183.63873291015625}, "sample_time_ms": 34086.98, "num_steps_trained": 1087200, "num_steps_sampled": 1087200, "update_time_ms": 2.562, "grad_time_ms": 372.936, "load_time_ms": 0.662}, "iterations_since_restore": 906, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 36130.549174547195, "episodes_total": 41425, "episode_reward_max": 8.00000040987395, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 36130.549174547195, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 103, "timestamp": 1757090839, "timesteps_since_restore": 1088400, "episode_reward_min": -77.41346048893868, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-47-19", "episode_len_mean": 12.009708737864077, "timesteps_total": 1088400, "episode_reward_mean": -8.59013155351499, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.9410765171051, "training_iteration": 907, "info": {"default": {"policy_loss": -0.12486657500267029, "vf_explained_var": 0.08480432629585266, "vf_loss": 164.8333282470703, "kl": 0.008779841475188732, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.482892990112305, "total_loss": 164.75347900390625}, "sample_time_ms": 34344.786, "num_steps_trained": 1088400, "num_steps_sampled": 1088400, "update_time_ms": 2.563, "grad_time_ms": 372.267, "load_time_ms": 0.671}, "iterations_since_restore": 907, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 36165.498796224594, "episodes_total": 41521, "episode_reward_max": 8.000000400013354, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 36165.498796224594, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 96, "timestamp": 1757090874, "timesteps_since_restore": 1089600, "episode_reward_min": -54.082297961683125, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-47-54", "episode_len_mean": 12.58, "timesteps_total": 1089600, "episode_reward_mean": -9.448708047191259, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.94962167739868, "training_iteration": 908, "info": {"default": {"policy_loss": -0.1304655224084854, "vf_explained_var": 0.14554977416992188, "vf_loss": 145.69813537597656, "kl": 0.009608023799955845, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.470514297485352, "total_loss": 145.6168975830078}, "sample_time_ms": 34459.618, "num_steps_trained": 1089600, "num_steps_sampled": 1089600, "update_time_ms": 2.537, "grad_time_ms": 371.791, "load_time_ms": 0.668}, "iterations_since_restore": 908, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 36200.40890097618, "episodes_total": 41609, "episode_reward_max": 8.000117055917222, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 36200.40890097618, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 88, "timestamp": 1757090908, "timesteps_since_restore": 1090800, "episode_reward_min": -83.08099237788521, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-48-28", "episode_len_mean": 13.31, "timesteps_total": 1090800, "episode_reward_mean": -10.968035577719531, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.910104751586914, "training_iteration": 909, "info": {"default": {"policy_loss": -0.11285650730133057, "vf_explained_var": 0.1406915932893753, "vf_loss": 256.0836181640625, "kl": 0.009540901519358158, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.883566856384277, "total_loss": 256.0196533203125}, "sample_time_ms": 34554.661, "num_steps_trained": 1090800, "num_steps_sampled": 1090800, "update_time_ms": 2.552, "grad_time_ms": 371.697, "load_time_ms": 0.669}, "iterations_since_restore": 909, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 36234.42794561386, "episodes_total": 41700, "episode_reward_max": 8.001548190883899, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 36234.42794561386, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 91, "timestamp": 1757090942, "timesteps_since_restore": 1092000, "episode_reward_min": -62.51256923918362, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-49-02", "episode_len_mean": 13.42, "timesteps_total": 1092000, "episode_reward_mean": -10.852741409273508, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.019044637680054, "training_iteration": 910, "info": {"default": {"policy_loss": -0.13123363256454468, "vf_explained_var": 0.13351455330848694, "vf_loss": 143.0198974609375, "kl": 0.01088168378919363, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.743778228759766, "total_loss": 142.94442749023438}, "sample_time_ms": 34368.065, "num_steps_trained": 1092000, "num_steps_sampled": 1092000, "update_time_ms": 2.592, "grad_time_ms": 373.22, "load_time_ms": 0.682}, "iterations_since_restore": 910, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 36270.99181866646, "episodes_total": 41805, "episode_reward_max": 8.000115858130245, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 36270.99181866646, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 105, "timestamp": 1757090979, "timesteps_since_restore": 1093200, "episode_reward_min": -82.56393476169262, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-49-39", "episode_len_mean": 11.123809523809523, "timesteps_total": 1093200, "episode_reward_mean": -7.3355207916579825, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.563873052597046, "training_iteration": 911, "info": {"default": {"policy_loss": -0.12765131890773773, "vf_explained_var": 0.15134476125240326, "vf_loss": 194.23411560058594, "kl": 0.008471962995827198, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.263845443725586, "total_loss": 194.14988708496094}, "sample_time_ms": 34557.159, "num_steps_trained": 1093200, "num_steps_sampled": 1093200, "update_time_ms": 2.538, "grad_time_ms": 373.708, "load_time_ms": 0.691}, "iterations_since_restore": 911, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 36306.6764895916, "episodes_total": 41895, "episode_reward_max": 8.000005579500414, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 36306.6764895916, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 90, "timestamp": 1757091015, "timesteps_since_restore": 1094400, "episode_reward_min": -83.65897470775164, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-50-15", "episode_len_mean": 13.14, "timesteps_total": 1094400, "episode_reward_mean": -10.67576042360839, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.68467092514038, "training_iteration": 912, "info": {"default": {"policy_loss": -0.13179117441177368, "vf_explained_var": 0.10324335098266602, "vf_loss": 243.01443481445312, "kl": 0.00903086643666029, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.564362525939941, "total_loss": 242.92892456054688}, "sample_time_ms": 34692.096, "num_steps_trained": 1094400, "num_steps_sampled": 1094400, "update_time_ms": 2.524, "grad_time_ms": 376.97, "load_time_ms": 0.705}, "iterations_since_restore": 912, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 36341.31426978111, "episodes_total": 41983, "episode_reward_max": 6.000672346049378, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 36341.31426978111, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 88, "timestamp": 1757091050, "timesteps_since_restore": 1095600, "episode_reward_min": -78.57140869445098, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-50-50", "episode_len_mean": 13.02, "timesteps_total": 1095600, "episode_reward_mean": -10.404016554212845, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.63778018951416, "training_iteration": 913, "info": {"default": {"policy_loss": -0.12054353207349777, "vf_explained_var": 0.1145816370844841, "vf_loss": 176.31451416015625, "kl": 0.010807533748447895, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.731245994567871, "total_loss": 176.2493438720703}, "sample_time_ms": 34682.069, "num_steps_trained": 1095600, "num_steps_sampled": 1095600, "update_time_ms": 2.555, "grad_time_ms": 378.777, "load_time_ms": 0.709}, "iterations_since_restore": 913, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 36375.94902634621, "episodes_total": 42079, "episode_reward_max": 8.000003593076622, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 36375.94902634621, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 96, "timestamp": 1757091084, "timesteps_since_restore": 1096800, "episode_reward_min": -80.09311739503244, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-51-24", "episode_len_mean": 13.06, "timesteps_total": 1096800, "episode_reward_mean": -10.430711544146998, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.634756565093994, "training_iteration": 914, "info": {"default": {"policy_loss": -0.13113167881965637, "vf_explained_var": 0.13829916715621948, "vf_loss": 221.61141967773438, "kl": 0.009377896785736084, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.937125205993652, "total_loss": 221.52835083007812}, "sample_time_ms": 34732.671, "num_steps_trained": 1096800, "num_steps_sampled": 1096800, "update_time_ms": 2.534, "grad_time_ms": 378.828, "load_time_ms": 0.691}, "iterations_since_restore": 914, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 36410.685396909714, "episodes_total": 42173, "episode_reward_max": 6.00157438096653, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 36410.685396909714, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 94, "timestamp": 1757091119, "timesteps_since_restore": 1098000, "episode_reward_min": -77.90877206970374, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-51-59", "episode_len_mean": 12.54, "timesteps_total": 1098000, "episode_reward_mean": -9.480824161701639, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.73637056350708, "training_iteration": 915, "info": {"default": {"policy_loss": -0.11671764403581619, "vf_explained_var": 0.104381263256073, "vf_loss": 205.78585815429688, "kl": 0.011355106718838215, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.577736854553223, "total_loss": 205.72735595703125}, "sample_time_ms": 34763.774, "num_steps_trained": 1098000, "num_steps_sampled": 1098000, "update_time_ms": 2.555, "grad_time_ms": 376.947, "load_time_ms": 0.686}, "iterations_since_restore": 915, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 36445.40584373474, "episodes_total": 42264, "episode_reward_max": 8.000000400033953, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 36445.40584373474, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 91, "timestamp": 1757091154, "timesteps_since_restore": 1099200, "episode_reward_min": -80.6423019105316, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-52-34", "episode_len_mean": 13.66, "timesteps_total": 1099200, "episode_reward_mean": -11.436641267482848, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.720446825027466, "training_iteration": 916, "info": {"default": {"policy_loss": -0.12233909219503403, "vf_explained_var": 0.13735705614089966, "vf_loss": 197.67767333984375, "kl": 0.008555014617741108, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.712325096130371, "total_loss": 197.59918212890625}, "sample_time_ms": 34794.074, "num_steps_trained": 1099200, "num_steps_sampled": 1099200, "update_time_ms": 2.58, "grad_time_ms": 377.314, "load_time_ms": 0.704}, "iterations_since_restore": 916, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 36479.57759642601, "episodes_total": 42353, "episode_reward_max": 8.000000400000477, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 36479.57759642601, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 89, "timestamp": 1757091188, "timesteps_since_restore": 1100400, "episode_reward_min": -79.23371919322973, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-53-08", "episode_len_mean": 13.42, "timesteps_total": 1100400, "episode_reward_mean": -11.077447928950278, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.17175269126892, "training_iteration": 917, "info": {"default": {"policy_loss": -0.12180672585964203, "vf_explained_var": 0.10624323785305023, "vf_loss": 215.0286407470703, "kl": 0.009048005566000938, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.846385955810547, "total_loss": 214.9532012939453}, "sample_time_ms": 34518.125, "num_steps_trained": 1100400, "num_steps_sampled": 1100400, "update_time_ms": 2.609, "grad_time_ms": 376.256, "load_time_ms": 0.696}, "iterations_since_restore": 917, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 36513.90965270996, "episodes_total": 42450, "episode_reward_max": 8.000000402067972, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 36513.90965270996, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 97, "timestamp": 1757091222, "timesteps_since_restore": 1101600, "episode_reward_min": -80.37525173710512, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-53-42", "episode_len_mean": 12.36, "timesteps_total": 1101600, "episode_reward_mean": -9.288818407183319, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.332056283950806, "training_iteration": 918, "info": {"default": {"policy_loss": -0.12594789266586304, "vf_explained_var": 0.11994317919015884, "vf_loss": 231.98974609375, "kl": 0.010703382082283497, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.619016647338867, "total_loss": 231.91864013671875}, "sample_time_ms": 34456.07, "num_steps_trained": 1101600, "num_steps_sampled": 1101600, "update_time_ms": 2.643, "grad_time_ms": 376.551, "load_time_ms": 0.699}, "iterations_since_restore": 918, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 36548.53009223938, "episodes_total": 42552, "episode_reward_max": 8.000001534047785, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 36548.53009223938, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 102, "timestamp": 1757091257, "timesteps_since_restore": 1102800, "episode_reward_min": -67.51804345533219, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-54-17", "episode_len_mean": 11.72549019607843, "timesteps_total": 1102800, "episode_reward_mean": -8.146765457285603, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.620439529418945, "training_iteration": 919, "info": {"default": {"policy_loss": -0.12705253064632416, "vf_explained_var": 0.14991605281829834, "vf_loss": 156.3204803466797, "kl": 0.008635718375444412, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.335701942443848, "total_loss": 156.23768615722656}, "sample_time_ms": 34427.869, "num_steps_trained": 1102800, "num_steps_sampled": 1102800, "update_time_ms": 2.611, "grad_time_ms": 375.819, "load_time_ms": 0.713}, "iterations_since_restore": 919, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 36583.33894228935, "episodes_total": 42647, "episode_reward_max": 8.000000402195068, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 36583.33894228935, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 95, "timestamp": 1757091292, "timesteps_since_restore": 1104000, "episode_reward_min": -80.48367072171906, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-54-52", "episode_len_mean": 12.39, "timesteps_total": 1104000, "episode_reward_mean": -9.298972079955805, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.808850049972534, "training_iteration": 920, "info": {"default": {"policy_loss": -0.12930729985237122, "vf_explained_var": 0.11407807469367981, "vf_loss": 235.59957885742188, "kl": 0.008933668956160545, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.8999662399292, "total_loss": 235.51605224609375}, "sample_time_ms": 34508.594, "num_steps_trained": 1104000, "num_steps_sampled": 1104000, "update_time_ms": 2.552, "grad_time_ms": 374.197, "load_time_ms": 0.701}, "iterations_since_restore": 920, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 36617.72056865692, "episodes_total": 42752, "episode_reward_max": 8.0000004032632, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 36617.72056865692, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 105, "timestamp": 1757091326, "timesteps_since_restore": 1105200, "episode_reward_min": -66.32161097659557, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-55-26", "episode_len_mean": 11.133333333333333, "timesteps_total": 1105200, "episode_reward_mean": -7.31106467136524, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.38162636756897, "training_iteration": 921, "info": {"default": {"policy_loss": -0.12116498500108719, "vf_explained_var": 0.18412542343139648, "vf_loss": 144.1634063720703, "kl": 0.008331571705639362, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.34556770324707, "total_loss": 144.0849609375}, "sample_time_ms": 34290.26, "num_steps_trained": 1105200, "num_steps_sampled": 1105200, "update_time_ms": 2.518, "grad_time_ms": 374.35, "load_time_ms": 0.695}, "iterations_since_restore": 921, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 36651.885135650635, "episodes_total": 42850, "episode_reward_max": 6.001109071506572, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 36651.885135650635, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 98, "timestamp": 1757091360, "timesteps_since_restore": 1106400, "episode_reward_min": -51.13031225182993, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-56-00", "episode_len_mean": 12.58, "timesteps_total": 1106400, "episode_reward_mean": -9.368013313172082, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.16456699371338, "training_iteration": 922, "info": {"default": {"policy_loss": -0.12430445104837418, "vf_explained_var": 0.15059731900691986, "vf_loss": 105.99813842773438, "kl": 0.010764156468212605, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.988668441772461, "total_loss": 105.92900085449219}, "sample_time_ms": 34141.811, "num_steps_trained": 1106400, "num_steps_sampled": 1106400, "update_time_ms": 2.528, "grad_time_ms": 370.848, "load_time_ms": 0.688}, "iterations_since_restore": 922, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 36686.24860334396, "episodes_total": 42935, "episode_reward_max": 6.002442048341877, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 36686.24860334396, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 85, "timestamp": 1757091395, "timesteps_since_restore": 1107600, "episode_reward_min": -78.15412658351298, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-56-35", "episode_len_mean": 13.4, "timesteps_total": 1107600, "episode_reward_mean": -10.929623253742234, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.36346769332886, "training_iteration": 923, "info": {"default": {"policy_loss": -0.12425051629543304, "vf_explained_var": 0.136711984872818, "vf_loss": 238.48614501953125, "kl": 0.010568362660706043, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.860893249511719, "total_loss": 238.41604614257812}, "sample_time_ms": 34114.426, "num_steps_trained": 1107600, "num_steps_sampled": 1107600, "update_time_ms": 2.475, "grad_time_ms": 370.826, "load_time_ms": 0.695}, "iterations_since_restore": 923, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 36721.44783139229, "episodes_total": 43033, "episode_reward_max": 8.001064929386764, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 36721.44783139229, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 98, "timestamp": 1757091430, "timesteps_since_restore": 1108800, "episode_reward_min": -78.93852815286397, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-57-10", "episode_len_mean": 12.58, "timesteps_total": 1108800, "episode_reward_mean": -9.403474325465062, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.199228048324585, "training_iteration": 924, "info": {"default": {"policy_loss": -0.1229105144739151, "vf_explained_var": 0.09223742038011551, "vf_loss": 172.88592529296875, "kl": 0.00941974576562643, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.607437133789062, "total_loss": 172.81130981445312}, "sample_time_ms": 34171.77, "num_steps_trained": 1108800, "num_steps_sampled": 1108800, "update_time_ms": 2.477, "grad_time_ms": 369.981, "load_time_ms": 0.705}, "iterations_since_restore": 924, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 36756.51551890373, "episodes_total": 43126, "episode_reward_max": 8.000082138287212, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 36756.51551890373, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 93, "timestamp": 1757091465, "timesteps_since_restore": 1110000, "episode_reward_min": -78.95742959541914, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-57-45", "episode_len_mean": 12.32, "timesteps_total": 1110000, "episode_reward_mean": -9.135033087342064, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.06768751144409, "training_iteration": 925, "info": {"default": {"policy_loss": -0.127094104886055, "vf_explained_var": 0.12016120553016663, "vf_loss": 244.82986450195312, "kl": 0.011442036367952824, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.9120454788208, "total_loss": 244.7613983154297}, "sample_time_ms": 34204.356, "num_steps_trained": 1110000, "num_steps_sampled": 1110000, "update_time_ms": 2.474, "grad_time_ms": 370.572, "load_time_ms": 0.7}, "iterations_since_restore": 925, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 36790.81852531433, "episodes_total": 43217, "episode_reward_max": 8.000000401663863, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 36790.81852531433, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 91, "timestamp": 1757091499, "timesteps_since_restore": 1111200, "episode_reward_min": -82.88416688468736, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-58-19", "episode_len_mean": 13.3, "timesteps_total": 1111200, "episode_reward_mean": -10.807406583809412, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.303006410598755, "training_iteration": 926, "info": {"default": {"policy_loss": -0.11330728977918625, "vf_explained_var": 0.12744027376174927, "vf_loss": 235.76890563964844, "kl": 0.012248961254954338, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.225205421447754, "total_loss": 235.71836853027344}, "sample_time_ms": 34162.445, "num_steps_trained": 1111200, "num_steps_sampled": 1111200, "update_time_ms": 2.467, "grad_time_ms": 370.797, "load_time_ms": 0.692}, "iterations_since_restore": 926, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 36825.79330825806, "episodes_total": 43320, "episode_reward_max": 8.0000004000186, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 36825.79330825806, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 103, "timestamp": 1757091534, "timesteps_since_restore": 1112400, "episode_reward_min": -77.1750739889541, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-58-54", "episode_len_mean": 11.766990291262136, "timesteps_total": 1112400, "episode_reward_mean": -8.156213993544673, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.974782943725586, "training_iteration": 927, "info": {"default": {"policy_loss": -0.1365869641304016, "vf_explained_var": 0.1360098421573639, "vf_loss": 178.11346435546875, "kl": 0.007751472294330597, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.668880462646484, "total_loss": 178.01663208007812}, "sample_time_ms": 34242.132, "num_steps_trained": 1112400, "num_steps_sampled": 1112400, "update_time_ms": 2.481, "grad_time_ms": 371.464, "load_time_ms": 0.694}, "iterations_since_restore": 927, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 36860.411714076996, "episodes_total": 43428, "episode_reward_max": 8.000000399999925, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 36860.411714076996, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 108, "timestamp": 1757091569, "timesteps_since_restore": 1113600, "episode_reward_min": -57.115112633327925, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_18-59-29", "episode_len_mean": 10.981481481481481, "timesteps_total": 1113600, "episode_reward_mean": -6.840982998929029, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.61840581893921, "training_iteration": 928, "info": {"default": {"policy_loss": -0.11935319006443024, "vf_explained_var": 0.14236703515052795, "vf_loss": 129.9175567626953, "kl": 0.011300415731966496, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.529629707336426, "total_loss": 129.85614013671875}, "sample_time_ms": 34268.147, "num_steps_trained": 1113600, "num_steps_sampled": 1113600, "update_time_ms": 2.444, "grad_time_ms": 374.078, "load_time_ms": 0.7}, "iterations_since_restore": 928, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 36894.805242061615, "episodes_total": 43528, "episode_reward_max": 8.000000407913495, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 36894.805242061615, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 100, "timestamp": 1757091603, "timesteps_since_restore": 1114800, "episode_reward_min": -81.53984592281688, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-00-03", "episode_len_mean": 12.12, "timesteps_total": 1114800, "episode_reward_mean": -8.892596363846335, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.39352798461914, "training_iteration": 929, "info": {"default": {"policy_loss": -0.12316247820854187, "vf_explained_var": 0.1529541015625, "vf_loss": 176.6155242919922, "kl": 0.008654017932713032, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.67443561553955, "total_loss": 176.53671264648438}, "sample_time_ms": 34245.898, "num_steps_trained": 1114800, "num_steps_sampled": 1114800, "update_time_ms": 2.475, "grad_time_ms": 373.547, "load_time_ms": 0.686}, "iterations_since_restore": 929, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 36930.371166706085, "episodes_total": 43611, "episode_reward_max": 8.000000407913495, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 36930.371166706085, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 83, "timestamp": 1757091639, "timesteps_since_restore": 1116000, "episode_reward_min": -56.13455395098805, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-00-39", "episode_len_mean": 13.91, "timesteps_total": 1116000, "episode_reward_mean": -11.47082581382835, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.565924644470215, "training_iteration": 930, "info": {"default": {"policy_loss": -0.12353108823299408, "vf_explained_var": 0.1477365791797638, "vf_loss": 141.52288818359375, "kl": 0.01115685049444437, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.957504272460938, "total_loss": 141.45657348632812}, "sample_time_ms": 34320.596, "num_steps_trained": 1116000, "num_steps_sampled": 1116000, "update_time_ms": 2.508, "grad_time_ms": 374.502, "load_time_ms": 0.69}, "iterations_since_restore": 930, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 36965.59857749939, "episodes_total": 43712, "episode_reward_max": 8.000000400004666, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 36965.59857749939, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 101, "timestamp": 1757091674, "timesteps_since_restore": 1117200, "episode_reward_min": -67.72185161373466, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-01-14", "episode_len_mean": 11.524752475247524, "timesteps_total": 1117200, "episode_reward_mean": -7.721337399822569, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.22741079330444, "training_iteration": 931, "info": {"default": {"policy_loss": -0.13062810897827148, "vf_explained_var": 0.13738971948623657, "vf_loss": 151.54022216796875, "kl": 0.00845276191830635, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.50959300994873, "total_loss": 151.4529266357422}, "sample_time_ms": 34405.176, "num_steps_trained": 1117200, "num_steps_sampled": 1117200, "update_time_ms": 2.533, "grad_time_ms": 374.499, "load_time_ms": 0.683}, "iterations_since_restore": 931, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 37001.515048742294, "episodes_total": 43797, "episode_reward_max": 8.00000039999999, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 37001.515048742294, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 85, "timestamp": 1757091710, "timesteps_since_restore": 1118400, "episode_reward_min": -80.5355107542352, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-01-50", "episode_len_mean": 14.24, "timesteps_total": 1118400, "episode_reward_mean": -12.379699499259516, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.91647124290466, "training_iteration": 932, "info": {"default": {"policy_loss": -0.12445603311061859, "vf_explained_var": 0.0819225013256073, "vf_loss": 217.40536499023438, "kl": 0.009281385689973831, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.022522926330566, "total_loss": 217.32847595214844}, "sample_time_ms": 34580.19, "num_steps_trained": 1118400, "num_steps_sampled": 1118400, "update_time_ms": 2.526, "grad_time_ms": 374.68, "load_time_ms": 0.677}, "iterations_since_restore": 932, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 37036.30963683128, "episodes_total": 43899, "episode_reward_max": 8.000000400764971, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 37036.30963683128, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 102, "timestamp": 1757091745, "timesteps_since_restore": 1119600, "episode_reward_min": -79.34168591120445, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-02-25", "episode_len_mean": 11.666666666666666, "timesteps_total": 1119600, "episode_reward_mean": -8.230167611385964, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.79458808898926, "training_iteration": 933, "info": {"default": {"policy_loss": -0.1354183554649353, "vf_explained_var": 0.10608905553817749, "vf_loss": 227.7417755126953, "kl": 0.008575964719057083, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.144529342651367, "total_loss": 227.65032958984375}, "sample_time_ms": 34624.627, "num_steps_trained": 1119600, "num_steps_sampled": 1119600, "update_time_ms": 2.542, "grad_time_ms": 373.303, "load_time_ms": 0.666}, "iterations_since_restore": 933, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 37072.115851163864, "episodes_total": 43988, "episode_reward_max": 6.000901127637668, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 37072.115851163864, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 89, "timestamp": 1757091781, "timesteps_since_restore": 1120800, "episode_reward_min": -80.30539840188548, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-03-01", "episode_len_mean": 13.06, "timesteps_total": 1120800, "episode_reward_mean": -10.426416474688144, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.806214332580566, "training_iteration": 934, "info": {"default": {"policy_loss": -0.12376635521650314, "vf_explained_var": 0.09693559259176254, "vf_loss": 227.57965087890625, "kl": 0.00938133429735899, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.993537902832031, "total_loss": 227.50396728515625}, "sample_time_ms": 34685.409, "num_steps_trained": 1120800, "num_steps_sampled": 1120800, "update_time_ms": 2.557, "grad_time_ms": 373.217, "load_time_ms": 0.657}, "iterations_since_restore": 934, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 37107.709725141525, "episodes_total": 44084, "episode_reward_max": 8.000569855853762, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 37107.709725141525, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 96, "timestamp": 1757091816, "timesteps_since_restore": 1122000, "episode_reward_min": -79.06655388520204, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-03-36", "episode_len_mean": 12.96, "timesteps_total": 1122000, "episode_reward_mean": -10.092466271109485, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.59387397766113, "training_iteration": 935, "info": {"default": {"policy_loss": -0.1383553445339203, "vf_explained_var": 0.14251263439655304, "vf_loss": 188.54864501953125, "kl": 0.00928829237818718, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.661125183105469, "total_loss": 188.45790100097656}, "sample_time_ms": 34737.362, "num_steps_trained": 1122000, "num_steps_sampled": 1122000, "update_time_ms": 2.52, "grad_time_ms": 373.954, "load_time_ms": 0.664}, "iterations_since_restore": 935, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 37145.03984475136, "episodes_total": 44179, "episode_reward_max": 6.000571100559309, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 37145.03984475136, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 95, "timestamp": 1757091854, "timesteps_since_restore": 1123200, "episode_reward_min": -79.79623971166242, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-04-14", "episode_len_mean": 12.6, "timesteps_total": 1123200, "episode_reward_mean": -9.44178828120881, "num_metric_batches_dropped": 0, "time_this_iter_s": 37.330119609832764, "training_iteration": 936, "info": {"default": {"policy_loss": -0.12356773763895035, "vf_explained_var": 0.12547284364700317, "vf_loss": 212.4242401123047, "kl": 0.00968946609646082, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.05664348602295, "total_loss": 212.350341796875}, "sample_time_ms": 35041.229, "num_steps_trained": 1123200, "num_steps_sampled": 1123200, "update_time_ms": 2.5, "grad_time_ms": 372.778, "load_time_ms": 0.655}, "iterations_since_restore": 936, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 37179.33150410652, "episodes_total": 44261, "episode_reward_max": 8.000000400188735, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 37179.33150410652, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 82, "timestamp": 1757091888, "timesteps_since_restore": 1124400, "episode_reward_min": -80.95625866078542, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-04-48", "episode_len_mean": 14.56, "timesteps_total": 1124400, "episode_reward_mean": -12.805885146372372, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.291659355163574, "training_iteration": 937, "info": {"default": {"policy_loss": -0.12273097038269043, "vf_explained_var": 0.1273496150970459, "vf_loss": 195.74871826171875, "kl": 0.010668189264833927, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.830001831054688, "total_loss": 195.6806640625}, "sample_time_ms": 34972.546, "num_steps_trained": 1124400, "num_steps_sampled": 1124400, "update_time_ms": 2.505, "grad_time_ms": 373.119, "load_time_ms": 0.653}, "iterations_since_restore": 937, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 37214.21894621849, "episodes_total": 44352, "episode_reward_max": 8.000079520529766, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 37214.21894621849, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 91, "timestamp": 1757091923, "timesteps_since_restore": 1125600, "episode_reward_min": -75.92664082078963, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-05-23", "episode_len_mean": 12.92, "timesteps_total": 1125600, "episode_reward_mean": -9.97388252791041, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.887442111968994, "training_iteration": 938, "info": {"default": {"policy_loss": -0.12092338502407074, "vf_explained_var": 0.15987995266914368, "vf_loss": 161.33847045898438, "kl": 0.008798436261713505, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.949308395385742, "total_loss": 161.26263427734375}, "sample_time_ms": 35000.268, "num_steps_trained": 1125600, "num_steps_sampled": 1125600, "update_time_ms": 2.583, "grad_time_ms": 372.219, "load_time_ms": 0.648}, "iterations_since_restore": 938, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 37248.222007513046, "episodes_total": 44427, "episode_reward_max": 8.000000404248784, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 37248.222007513046, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 75, "timestamp": 1757091957, "timesteps_since_restore": 1126800, "episode_reward_min": -80.50543790839572, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-05-57", "episode_len_mean": 14.58, "timesteps_total": 1126800, "episode_reward_mean": -12.986172764189286, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.003061294555664, "training_iteration": 939, "info": {"default": {"policy_loss": -0.12518414855003357, "vf_explained_var": 0.1016853079199791, "vf_loss": 297.4357604980469, "kl": 0.009217778220772743, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.898866653442383, "total_loss": 297.3578186035156}, "sample_time_ms": 34959.018, "num_steps_trained": 1126800, "num_steps_sampled": 1126800, "update_time_ms": 2.569, "grad_time_ms": 374.524, "load_time_ms": 0.648}, "iterations_since_restore": 939, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 37282.7064166069, "episodes_total": 44515, "episode_reward_max": 6.001020065493247, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 37282.7064166069, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 88, "timestamp": 1757091991, "timesteps_since_restore": 1128000, "episode_reward_min": -80.01041948319866, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-06-31", "episode_len_mean": 13.84, "timesteps_total": 1128000, "episode_reward_mean": -11.800813604116113, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.48440909385681, "training_iteration": 940, "info": {"default": {"policy_loss": -0.12085118889808655, "vf_explained_var": 0.10429516434669495, "vf_loss": 224.72686767578125, "kl": 0.00938366912305355, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.543384552001953, "total_loss": 224.65411376953125}, "sample_time_ms": 34852.902, "num_steps_trained": 1128000, "num_steps_sampled": 1128000, "update_time_ms": 2.547, "grad_time_ms": 372.449, "load_time_ms": 0.643}, "iterations_since_restore": 940, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 37317.62470245361, "episodes_total": 44605, "episode_reward_max": 6.001214669148953, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 37317.62470245361, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 90, "timestamp": 1757092026, "timesteps_since_restore": 1129200, "episode_reward_min": -50.15864352887214, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-07-06", "episode_len_mean": 13.11, "timesteps_total": 1129200, "episode_reward_mean": -10.315419275610758, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.918285846710205, "training_iteration": 941, "info": {"default": {"policy_loss": -0.1364601105451584, "vf_explained_var": 0.11523934453725815, "vf_loss": 138.24180603027344, "kl": 0.009234821423888206, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.910126686096191, "total_loss": 138.15267944335938}, "sample_time_ms": 34821.797, "num_steps_trained": 1129200, "num_steps_sampled": 1129200, "update_time_ms": 2.586, "grad_time_ms": 372.579, "load_time_ms": 0.654}, "iterations_since_restore": 941, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 37351.81509256363, "episodes_total": 44691, "episode_reward_max": 8.000000400014848, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 37351.81509256363, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 86, "timestamp": 1757092061, "timesteps_since_restore": 1130400, "episode_reward_min": -80.50617848341335, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-07-41", "episode_len_mean": 13.49, "timesteps_total": 1130400, "episode_reward_mean": -11.072919201331153, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.19039011001587, "training_iteration": 942, "info": {"default": {"policy_loss": -0.11405529081821442, "vf_explained_var": 0.13334687054157257, "vf_loss": 181.34364318847656, "kl": 0.009833079762756824, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.894553184509277, "total_loss": 181.2799835205078}, "sample_time_ms": 34648.697, "num_steps_trained": 1130400, "num_steps_sampled": 1130400, "update_time_ms": 2.598, "grad_time_ms": 373.069, "load_time_ms": 0.651}, "iterations_since_restore": 942, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 37386.39445781708, "episodes_total": 44783, "episode_reward_max": 8.000000424333829, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 37386.39445781708, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 92, "timestamp": 1757092095, "timesteps_since_restore": 1131600, "episode_reward_min": -78.51171667490989, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-08-15", "episode_len_mean": 12.88, "timesteps_total": 1131600, "episode_reward_mean": -9.983649707835426, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.579365253448486, "training_iteration": 943, "info": {"default": {"policy_loss": -0.12934145331382751, "vf_explained_var": 0.11526163667440414, "vf_loss": 188.59507751464844, "kl": 0.009256741032004356, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.847092628479004, "total_loss": 188.51318359375}, "sample_time_ms": 34628.627, "num_steps_trained": 1131600, "num_steps_sampled": 1131600, "update_time_ms": 2.586, "grad_time_ms": 371.697, "load_time_ms": 0.653}, "iterations_since_restore": 943, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 37420.67578649521, "episodes_total": 44887, "episode_reward_max": 8.000000400272446, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 37420.67578649521, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 104, "timestamp": 1757092130, "timesteps_since_restore": 1132800, "episode_reward_min": -81.67894360934051, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-08-50", "episode_len_mean": 11.423076923076923, "timesteps_total": 1132800, "episode_reward_mean": -7.645207048362135, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.2813286781311, "training_iteration": 944, "info": {"default": {"policy_loss": -0.13288185000419617, "vf_explained_var": 0.1162615716457367, "vf_loss": 137.30967712402344, "kl": 0.010181221179664135, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.214824676513672, "total_loss": 137.22897338867188}, "sample_time_ms": 34473.783, "num_steps_trained": 1132800, "num_steps_sampled": 1132800, "update_time_ms": 2.566, "grad_time_ms": 373.983, "load_time_ms": 0.658}, "iterations_since_restore": 944, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 37455.23326063156, "episodes_total": 44972, "episode_reward_max": 8.000010472503392, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 37455.23326063156, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 85, "timestamp": 1757092164, "timesteps_since_restore": 1134000, "episode_reward_min": -81.03913496965511, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-09-24", "episode_len_mean": 14.34, "timesteps_total": 1134000, "episode_reward_mean": -12.48243275467575, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.55747413635254, "training_iteration": 945, "info": {"default": {"policy_loss": -0.12631399929523468, "vf_explained_var": 0.09664112329483032, "vf_loss": 265.5256042480469, "kl": 0.008813844993710518, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.879794120788574, "total_loss": 265.4444580078125}, "sample_time_ms": 34368.609, "num_steps_trained": 1134000, "num_steps_sampled": 1134000, "update_time_ms": 2.602, "grad_time_ms": 375.447, "load_time_ms": 0.673}, "iterations_since_restore": 945, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 37490.51752495766, "episodes_total": 45074, "episode_reward_max": 8.000000413858197, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 37490.51752495766, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 102, "timestamp": 1757092199, "timesteps_since_restore": 1135200, "episode_reward_min": -77.52498902646151, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-09-59", "episode_len_mean": 11.803921568627452, "timesteps_total": 1135200, "episode_reward_mean": -8.285170101648966, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.28426432609558, "training_iteration": 946, "info": {"default": {"policy_loss": -0.12860533595085144, "vf_explained_var": 0.12698474526405334, "vf_loss": 180.32693481445312, "kl": 0.009417514316737652, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.56639289855957, "total_loss": 180.24659729003906}, "sample_time_ms": 34164.468, "num_steps_trained": 1135200, "num_steps_sampled": 1135200, "update_time_ms": 2.6, "grad_time_ms": 375.095, "load_time_ms": 0.672}, "iterations_since_restore": 946, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 37526.17451119423, "episodes_total": 45176, "episode_reward_max": 8.000129248224452, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 37526.17451119423, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 102, "timestamp": 1757092235, "timesteps_since_restore": 1136400, "episode_reward_min": -80.38079036165642, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-10-35", "episode_len_mean": 11.627450980392156, "timesteps_total": 1136400, "episode_reward_mean": -8.028621645994425, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.656986236572266, "training_iteration": 947, "info": {"default": {"policy_loss": -0.12370557337999344, "vf_explained_var": 0.13085433840751648, "vf_loss": 166.69989013671875, "kl": 0.009107731282711029, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.565235137939453, "total_loss": 166.62286376953125}, "sample_time_ms": 34301.82, "num_steps_trained": 1136400, "num_steps_sampled": 1136400, "update_time_ms": 2.532, "grad_time_ms": 374.353, "load_time_ms": 0.691}, "iterations_since_restore": 947, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 37561.2253549099, "episodes_total": 45280, "episode_reward_max": 8.000044017108673, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 37561.2253549099, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 104, "timestamp": 1757092270, "timesteps_since_restore": 1137600, "episode_reward_min": -81.5523571114586, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-11-10", "episode_len_mean": 11.48076923076923, "timesteps_total": 1137600, "episode_reward_mean": -7.949465971112705, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.050843715667725, "training_iteration": 948, "info": {"default": {"policy_loss": -0.10785181075334549, "vf_explained_var": 0.125523641705513, "vf_loss": 205.5534210205078, "kl": 0.008863167837262154, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.299152374267578, "total_loss": 205.49099731445312}, "sample_time_ms": 34319.987, "num_steps_trained": 1137600, "num_steps_sampled": 1137600, "update_time_ms": 2.447, "grad_time_ms": 372.638, "load_time_ms": 0.691}, "iterations_since_restore": 948, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 37596.50879430771, "episodes_total": 45387, "episode_reward_max": 8.000001551807056, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 37596.50879430771, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 107, "timestamp": 1757092305, "timesteps_since_restore": 1138800, "episode_reward_min": -60.835710026268856, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-11-45", "episode_len_mean": 11.22429906542056, "timesteps_total": 1138800, "episode_reward_mean": -7.136648025466376, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.28343939781189, "training_iteration": 949, "info": {"default": {"policy_loss": -0.12301075458526611, "vf_explained_var": 0.1506507396697998, "vf_loss": 144.87628173828125, "kl": 0.00845129881054163, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.52663803100586, "total_loss": 144.7965850830078}, "sample_time_ms": 34448.596, "num_steps_trained": 1138800, "num_steps_sampled": 1138800, "update_time_ms": 2.45, "grad_time_ms": 372.012, "load_time_ms": 0.697}, "iterations_since_restore": 949, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 37630.64043712616, "episodes_total": 45471, "episode_reward_max": 8.000001551807056, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 37630.64043712616, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 84, "timestamp": 1757092340, "timesteps_since_restore": 1140000, "episode_reward_min": -81.56558074129613, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-12-20", "episode_len_mean": 13.21, "timesteps_total": 1140000, "episode_reward_mean": -10.57172780571466, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.13164281845093, "training_iteration": 950, "info": {"default": {"policy_loss": -0.12327513098716736, "vf_explained_var": 0.1106473058462143, "vf_loss": 227.9796600341797, "kl": 0.010170694440603256, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.11896800994873, "total_loss": 227.9085235595703}, "sample_time_ms": 34410.284, "num_steps_trained": 1140000, "num_steps_sampled": 1140000, "update_time_ms": 2.459, "grad_time_ms": 375.028, "load_time_ms": 0.72}, "iterations_since_restore": 950, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 37665.507804870605, "episodes_total": 45546, "episode_reward_max": 8.00000040000487, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 37665.507804870605, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 75, "timestamp": 1757092375, "timesteps_since_restore": 1141200, "episode_reward_min": -81.71126446482349, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-12-55", "episode_len_mean": 15.09, "timesteps_total": 1141200, "episode_reward_mean": -13.592818914715718, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.8673677444458, "training_iteration": 951, "info": {"default": {"policy_loss": -0.13999134302139282, "vf_explained_var": 0.1281847208738327, "vf_loss": 186.94171142578125, "kl": 0.009851484559476376, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.599445343017578, "total_loss": 186.8522186279297}, "sample_time_ms": 34408.474, "num_steps_trained": 1141200, "num_steps_sampled": 1141200, "update_time_ms": 2.466, "grad_time_ms": 371.774, "load_time_ms": 0.717}, "iterations_since_restore": 951, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 37700.085760354996, "episodes_total": 45652, "episode_reward_max": 8.000000541127335, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 37700.085760354996, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 106, "timestamp": 1757092409, "timesteps_since_restore": 1142400, "episode_reward_min": -80.37452004903147, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-13-29", "episode_len_mean": 11.90566037735849, "timesteps_total": 1142400, "episode_reward_mean": -8.6231878166308, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.57795548439026, "training_iteration": 952, "info": {"default": {"policy_loss": -0.12100005149841309, "vf_explained_var": 0.12242773920297623, "vf_loss": 182.24606323242188, "kl": 0.009780521504580975, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.305222511291504, "total_loss": 182.1752166748047}, "sample_time_ms": 34444.26, "num_steps_trained": 1142400, "num_steps_sampled": 1142400, "update_time_ms": 2.443, "grad_time_ms": 374.646, "load_time_ms": 0.737}, "iterations_since_restore": 952, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 37735.8662507534, "episodes_total": 45751, "episode_reward_max": 8.000000459573052, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 37735.8662507534, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 99, "timestamp": 1757092445, "timesteps_since_restore": 1143600, "episode_reward_min": -62.522290037683604, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-14-05", "episode_len_mean": 11.81, "timesteps_total": 1143600, "episode_reward_mean": -8.159629313806509, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.78049039840698, "training_iteration": 953, "info": {"default": {"policy_loss": -0.13338647782802582, "vf_explained_var": 0.10300740599632263, "vf_loss": 192.94818115234375, "kl": 0.009415911510586739, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.764208793640137, "total_loss": 192.8630828857422}, "sample_time_ms": 34564.029, "num_steps_trained": 1143600, "num_steps_sampled": 1143600, "update_time_ms": 2.51, "grad_time_ms": 374.921, "load_time_ms": 0.738}, "iterations_since_restore": 953, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 37771.25991463661, "episodes_total": 45845, "episode_reward_max": 8.000002063402535, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 37771.25991463661, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 94, "timestamp": 1757092480, "timesteps_since_restore": 1144800, "episode_reward_min": -78.8930572972303, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-14-40", "episode_len_mean": 13.14, "timesteps_total": 1144800, "episode_reward_mean": -10.440987891491389, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.39366388320923, "training_iteration": 954, "info": {"default": {"policy_loss": -0.1189645528793335, "vf_explained_var": 0.163217693567276, "vf_loss": 158.30706787109375, "kl": 0.00987091101706028, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.655411720275879, "total_loss": 158.2386932373047}, "sample_time_ms": 34674.655, "num_steps_trained": 1144800, "num_steps_sampled": 1144800, "update_time_ms": 2.51, "grad_time_ms": 375.574, "load_time_ms": 0.743}, "iterations_since_restore": 954, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 37806.64824581146, "episodes_total": 45943, "episode_reward_max": 8.00008093408892, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 37806.64824581146, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 98, "timestamp": 1757092516, "timesteps_since_restore": 1146000, "episode_reward_min": -64.43315672326271, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-15-16", "episode_len_mean": 12.02, "timesteps_total": 1146000, "episode_reward_mean": -8.567147593485236, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.388331174850464, "training_iteration": 955, "info": {"default": {"policy_loss": -0.12682557106018066, "vf_explained_var": 0.12077856063842773, "vf_loss": 165.5735321044922, "kl": 0.01037299819290638, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.557772636413574, "total_loss": 165.49986267089844}, "sample_time_ms": 34758.997, "num_steps_trained": 1146000, "num_steps_sampled": 1146000, "update_time_ms": 2.489, "grad_time_ms": 374.358, "load_time_ms": 0.731}, "iterations_since_restore": 955, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 37841.30329871178, "episodes_total": 46059, "episode_reward_max": 8.00002500593319, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 37841.30329871178, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 116, "timestamp": 1757092550, "timesteps_since_restore": 1147200, "episode_reward_min": -59.62952537154064, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-15-50", "episode_len_mean": 10.405172413793103, "timesteps_total": 1147200, "episode_reward_mean": -5.922486332960705, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.65505290031433, "training_iteration": 956, "info": {"default": {"policy_loss": -0.11506027728319168, "vf_explained_var": 0.13707245886325836, "vf_loss": 137.29983520507812, "kl": 0.009358935989439487, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.343451499938965, "total_loss": 137.23275756835938}, "sample_time_ms": 34695.684, "num_steps_trained": 1147200, "num_steps_sampled": 1147200, "update_time_ms": 2.502, "grad_time_ms": 374.676, "load_time_ms": 0.74}, "iterations_since_restore": 956, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 37877.73388314247, "episodes_total": 46165, "episode_reward_max": 8.000000612488648, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 37877.73388314247, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 106, "timestamp": 1757092587, "timesteps_since_restore": 1148400, "episode_reward_min": -64.60518991267746, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-16-27", "episode_len_mean": 11.245283018867925, "timesteps_total": 1148400, "episode_reward_mean": -7.426758460775214, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.43058443069458, "training_iteration": 957, "info": {"default": {"policy_loss": -0.12947721779346466, "vf_explained_var": 0.1570947766304016, "vf_loss": 165.28663635253906, "kl": 0.010923892259597778, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.6710052490234375, "total_loss": 165.21315002441406}, "sample_time_ms": 34773.359, "num_steps_trained": 1148400, "num_steps_sampled": 1148400, "update_time_ms": 2.541, "grad_time_ms": 374.326, "load_time_ms": 0.728}, "iterations_since_restore": 957, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 37913.93598127365, "episodes_total": 46262, "episode_reward_max": 6.000520361297743, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 37913.93598127365, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 97, "timestamp": 1757092623, "timesteps_since_restore": 1149600, "episode_reward_min": -82.18991321186664, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-17-03", "episode_len_mean": 12.18, "timesteps_total": 1149600, "episode_reward_mean": -8.948738195345578, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.20209813117981, "training_iteration": 958, "info": {"default": {"policy_loss": -0.1311318725347519, "vf_explained_var": 0.1377633810043335, "vf_loss": 226.37918090820312, "kl": 0.011071257293224335, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.67392635345459, "total_loss": 226.30477905273438}, "sample_time_ms": 34888.458, "num_steps_trained": 1149600, "num_steps_sampled": 1149600, "update_time_ms": 2.567, "grad_time_ms": 374.317, "load_time_ms": 0.725}, "iterations_since_restore": 958, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 37949.66149163246, "episodes_total": 46368, "episode_reward_max": 8.000900087099353, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 37949.66149163246, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 106, "timestamp": 1757092659, "timesteps_since_restore": 1150800, "episode_reward_min": -79.24797503284988, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-17-39", "episode_len_mean": 11.537735849056604, "timesteps_total": 1150800, "episode_reward_mean": -7.917952125332192, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.725510358810425, "training_iteration": 959, "info": {"default": {"policy_loss": -0.1277557611465454, "vf_explained_var": 0.1634928584098816, "vf_loss": 128.90869140625, "kl": 0.008753238245844841, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.239289283752441, "total_loss": 128.82579040527344}, "sample_time_ms": 34933.668, "num_steps_trained": 1150800, "num_steps_sampled": 1150800, "update_time_ms": 2.558, "grad_time_ms": 373.358, "load_time_ms": 0.725}, "iterations_since_restore": 959, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 37984.338255643845, "episodes_total": 46463, "episode_reward_max": 8.00000040036088, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 37984.338255643845, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 95, "timestamp": 1757092693, "timesteps_since_restore": 1152000, "episode_reward_min": -55.637413232491866, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-18-13", "episode_len_mean": 12.56, "timesteps_total": 1152000, "episode_reward_mean": -9.508948462015852, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.67676401138306, "training_iteration": 960, "info": {"default": {"policy_loss": -0.13140714168548584, "vf_explained_var": 0.1633160412311554, "vf_loss": 144.64633178710938, "kl": 0.009951403364539146, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.256057739257812, "total_loss": 144.56594848632812}, "sample_time_ms": 34989.103, "num_steps_trained": 1152000, "num_steps_sampled": 1152000, "update_time_ms": 2.532, "grad_time_ms": 372.539, "load_time_ms": 0.707}, "iterations_since_restore": 960, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 38019.28519272804, "episodes_total": 46557, "episode_reward_max": 6.00185823397609, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 38019.28519272804, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 94, "timestamp": 1757092729, "timesteps_since_restore": 1153200, "episode_reward_min": -81.705529195165, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-18-49", "episode_len_mean": 12.46, "timesteps_total": 1153200, "episode_reward_mean": -9.363102908474733, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.946937084198, "training_iteration": 961, "info": {"default": {"policy_loss": -0.1366838663816452, "vf_explained_var": 0.14911653101444244, "vf_loss": 207.0470733642578, "kl": 0.010208502411842346, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.717975616455078, "total_loss": 206.96270751953125}, "sample_time_ms": 34996.296, "num_steps_trained": 1153200, "num_steps_sampled": 1153200, "update_time_ms": 2.556, "grad_time_ms": 373.258, "load_time_ms": 0.697}, "iterations_since_restore": 961, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 38053.775955200195, "episodes_total": 46665, "episode_reward_max": 8.000065914781757, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 38053.775955200195, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 108, "timestamp": 1757092763, "timesteps_since_restore": 1154400, "episode_reward_min": -50.3250120009484, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-19-23", "episode_len_mean": 11.157407407407407, "timesteps_total": 1154400, "episode_reward_mean": -7.026962330210755, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.49076247215271, "training_iteration": 962, "info": {"default": {"policy_loss": -0.12305935472249985, "vf_explained_var": 0.18409603834152222, "vf_loss": 100.91667175292969, "kl": 0.010531154461205006, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.582889556884766, "total_loss": 100.84759521484375}, "sample_time_ms": 34989.372, "num_steps_trained": 1154400, "num_steps_sampled": 1154400, "update_time_ms": 2.563, "grad_time_ms": 371.536, "load_time_ms": 0.686}, "iterations_since_restore": 962, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 38088.89013957977, "episodes_total": 46773, "episode_reward_max": 6.001610772448045, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 38088.89013957977, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 108, "timestamp": 1757092798, "timesteps_since_restore": 1155600, "episode_reward_min": -36.7671409533573, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-19-58", "episode_len_mean": 11.148148148148149, "timesteps_total": 1155600, "episode_reward_mean": -7.279295189743109, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.11418437957764, "training_iteration": 963, "info": {"default": {"policy_loss": -0.12511944770812988, "vf_explained_var": 0.13062149286270142, "vf_loss": 82.54637145996094, "kl": 0.010303660295903683, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.6826043128967285, "total_loss": 82.47406768798828}, "sample_time_ms": 34921.23, "num_steps_trained": 1155600, "num_steps_sampled": 1155600, "update_time_ms": 2.5, "grad_time_ms": 373.085, "load_time_ms": 0.698}, "iterations_since_restore": 963, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 38123.49501991272, "episodes_total": 46886, "episode_reward_max": 8.000000400037202, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 38123.49501991272, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 113, "timestamp": 1757092833, "timesteps_since_restore": 1156800, "episode_reward_min": -66.07537578666819, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-20-33", "episode_len_mean": 10.610619469026549, "timesteps_total": 1156800, "episode_reward_mean": -6.254893494503761, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.60488033294678, "training_iteration": 964, "info": {"default": {"policy_loss": -0.12221112847328186, "vf_explained_var": 0.17610076069831848, "vf_loss": 148.33453369140625, "kl": 0.008372345007956028, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.260882377624512, "total_loss": 148.25523376464844}, "sample_time_ms": 34843.563, "num_steps_trained": 1156800, "num_steps_sampled": 1156800, "update_time_ms": 2.508, "grad_time_ms": 371.824, "load_time_ms": 0.691}, "iterations_since_restore": 964, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 38160.90032458305, "episodes_total": 46986, "episode_reward_max": 8.000000400000223, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 38160.90032458305, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 100, "timestamp": 1757092870, "timesteps_since_restore": 1158000, "episode_reward_min": -79.54580657402458, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-21-10", "episode_len_mean": 12.08, "timesteps_total": 1158000, "episode_reward_mean": -8.709267508540798, "num_metric_batches_dropped": 0, "time_this_iter_s": 37.40530467033386, "training_iteration": 965, "info": {"default": {"policy_loss": -0.12449048459529877, "vf_explained_var": 0.12519261240959167, "vf_loss": 175.48411560058594, "kl": 0.011160285212099552, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.54409122467041, "total_loss": 175.4168243408203}, "sample_time_ms": 35045.956, "num_steps_trained": 1158000, "num_steps_sampled": 1158000, "update_time_ms": 2.507, "grad_time_ms": 371.125, "load_time_ms": 0.692}, "iterations_since_restore": 965, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 38195.72085762024, "episodes_total": 47085, "episode_reward_max": 6.001963436425615, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 38195.72085762024, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 99, "timestamp": 1757092905, "timesteps_since_restore": 1159200, "episode_reward_min": -81.4403057222538, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-21-45", "episode_len_mean": 11.79, "timesteps_total": 1159200, "episode_reward_mean": -8.475639855065157, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.82053303718567, "training_iteration": 966, "info": {"default": {"policy_loss": -0.13164566457271576, "vf_explained_var": 0.09928052872419357, "vf_loss": 260.06494140625, "kl": 0.010116620920598507, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.207294464111328, "total_loss": 259.9851379394531}, "sample_time_ms": 35062.288, "num_steps_trained": 1159200, "num_steps_sampled": 1159200, "update_time_ms": 2.482, "grad_time_ms": 371.396, "load_time_ms": 0.678}, "iterations_since_restore": 966, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 38230.59654021263, "episodes_total": 47194, "episode_reward_max": 8.000002231286262, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 38230.59654021263, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 109, "timestamp": 1757092940, "timesteps_since_restore": 1160400, "episode_reward_min": -74.93334323475048, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-22-20", "episode_len_mean": 11.247706422018348, "timesteps_total": 1160400, "episode_reward_mean": -7.383814727767436, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.87568259239197, "training_iteration": 967, "info": {"default": {"policy_loss": -0.12571372091770172, "vf_explained_var": 0.1395593285560608, "vf_loss": 128.46685791015625, "kl": 0.008068427443504333, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.416199684143066, "total_loss": 128.38250732421875}, "sample_time_ms": 34905.012, "num_steps_trained": 1160400, "num_steps_sampled": 1160400, "update_time_ms": 2.483, "grad_time_ms": 373.173, "load_time_ms": 0.68}, "iterations_since_restore": 967, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 38265.88283824921, "episodes_total": 47296, "episode_reward_max": 6.001301276742617, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 38265.88283824921, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 102, "timestamp": 1757092975, "timesteps_since_restore": 1161600, "episode_reward_min": -58.18531207755974, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-22-55", "episode_len_mean": 11.823529411764707, "timesteps_total": 1161600, "episode_reward_mean": -8.32782448991752, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.28629803657532, "training_iteration": 968, "info": {"default": {"policy_loss": -0.11915290355682373, "vf_explained_var": 0.15633131563663483, "vf_loss": 118.62017059326172, "kl": 0.008687246590852737, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.421286582946777, "total_loss": 118.54554748535156}, "sample_time_ms": 34813.351, "num_steps_trained": 1161600, "num_steps_sampled": 1161600, "update_time_ms": 2.477, "grad_time_ms": 373.243, "load_time_ms": 0.678}, "iterations_since_restore": 968, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 38300.70079112053, "episodes_total": 47388, "episode_reward_max": 8.00000040000635, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 38300.70079112053, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 92, "timestamp": 1757093010, "timesteps_since_restore": 1162800, "episode_reward_min": -79.31268303289895, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-23-30", "episode_len_mean": 12.78, "timesteps_total": 1162800, "episode_reward_mean": -9.978471848684594, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.81795287132263, "training_iteration": 969, "info": {"default": {"policy_loss": -0.11325141042470932, "vf_explained_var": 0.1328367441892624, "vf_loss": 204.65769958496094, "kl": 0.009460508823394775, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.555281639099121, "total_loss": 204.5929412841797}, "sample_time_ms": 34721.797, "num_steps_trained": 1162800, "num_steps_sampled": 1162800, "update_time_ms": 2.494, "grad_time_ms": 374.021, "load_time_ms": 0.674}, "iterations_since_restore": 969, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 38334.86060619354, "episodes_total": 47484, "episode_reward_max": 8.00000040087631, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 38334.86060619354, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 96, "timestamp": 1757093044, "timesteps_since_restore": 1164000, "episode_reward_min": -79.85784187801518, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-24-04", "episode_len_mean": 12.81, "timesteps_total": 1164000, "episode_reward_mean": -10.109689493864861, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.159815073013306, "training_iteration": 970, "info": {"default": {"policy_loss": -0.11455729603767395, "vf_explained_var": 0.15454331040382385, "vf_loss": 170.71119689941406, "kl": 0.00985658261924982, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.552797317504883, "total_loss": 170.64715576171875}, "sample_time_ms": 34670.629, "num_steps_trained": 1164000, "num_steps_sampled": 1164000, "update_time_ms": 2.527, "grad_time_ms": 373.38, "load_time_ms": 0.672}, "iterations_since_restore": 970, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 38369.765201330185, "episodes_total": 47601, "episode_reward_max": 8.000008631260425, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 38369.765201330185, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 117, "timestamp": 1757093079, "timesteps_since_restore": 1165200, "episode_reward_min": -42.12175050843313, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-24-39", "episode_len_mean": 10.11965811965812, "timesteps_total": 1165200, "episode_reward_mean": -5.528688267391449, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.904595136642456, "training_iteration": 971, "info": {"default": {"policy_loss": -0.13333162665367126, "vf_explained_var": 0.15883539617061615, "vf_loss": 92.78507232666016, "kl": 0.010908468626439571, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.987150192260742, "total_loss": 92.70764923095703}, "sample_time_ms": 34664.542, "num_steps_trained": 1165200, "num_steps_sampled": 1165200, "update_time_ms": 2.539, "grad_time_ms": 375.187, "load_time_ms": 0.687}, "iterations_since_restore": 971, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 38404.50633740425, "episodes_total": 47703, "episode_reward_max": 8.000000400000001, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 38404.50633740425, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 102, "timestamp": 1757093114, "timesteps_since_restore": 1166400, "episode_reward_min": -74.7069817910095, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-25-14", "episode_len_mean": 11.911764705882353, "timesteps_total": 1166400, "episode_reward_mean": -8.354441833029194, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.74113607406616, "training_iteration": 972, "info": {"default": {"policy_loss": -0.13075292110443115, "vf_explained_var": 0.14766091108322144, "vf_loss": 117.17642974853516, "kl": 0.009761148132383823, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.562692642211914, "total_loss": 117.09571838378906}, "sample_time_ms": 34689.765, "num_steps_trained": 1166400, "num_steps_sampled": 1166400, "update_time_ms": 2.565, "grad_time_ms": 374.919, "load_time_ms": 0.679}, "iterations_since_restore": 972, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 38438.98113298416, "episodes_total": 47808, "episode_reward_max": 6.001513109970117, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 38438.98113298416, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 105, "timestamp": 1757093148, "timesteps_since_restore": 1167600, "episode_reward_min": -79.86548781569424, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-25-48", "episode_len_mean": 11.17142857142857, "timesteps_total": 1167600, "episode_reward_mean": -7.429729154681541, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.47479557991028, "training_iteration": 973, "info": {"default": {"policy_loss": -0.12305796146392822, "vf_explained_var": 0.12105349451303482, "vf_loss": 231.8060760498047, "kl": 0.00816577672958374, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.03167724609375, "total_loss": 231.724853515625}, "sample_time_ms": 34625.739, "num_steps_trained": 1167600, "num_steps_sampled": 1167600, "update_time_ms": 2.619, "grad_time_ms": 374.959, "load_time_ms": 0.67}, "iterations_since_restore": 973, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 38473.88289809227, "episodes_total": 47899, "episode_reward_max": 6.000604260237663, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 38473.88289809227, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 91, "timestamp": 1757093183, "timesteps_since_restore": 1168800, "episode_reward_min": -79.43346867477496, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-26-23", "episode_len_mean": 13.67, "timesteps_total": 1168800, "episode_reward_mean": -11.420003830851892, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.90176510810852, "training_iteration": 974, "info": {"default": {"policy_loss": -0.1297953724861145, "vf_explained_var": 0.15211397409439087, "vf_loss": 195.72251892089844, "kl": 0.009603820741176605, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.555147171020508, "total_loss": 195.6419219970703}, "sample_time_ms": 34655.482, "num_steps_trained": 1168800, "num_steps_sampled": 1168800, "update_time_ms": 2.62, "grad_time_ms": 374.913, "load_time_ms": 0.673}, "iterations_since_restore": 974, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 38508.343774318695, "episodes_total": 48009, "episode_reward_max": 8.000848805561798, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 38508.343774318695, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 110, "timestamp": 1757093218, "timesteps_since_restore": 1170000, "episode_reward_min": -51.54467135907355, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-26-58", "episode_len_mean": 10.709090909090909, "timesteps_total": 1170000, "episode_reward_mean": -6.462307060405044, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.46087622642517, "training_iteration": 975, "info": {"default": {"policy_loss": -0.11896242201328278, "vf_explained_var": 0.19148346781730652, "vf_loss": 110.93702697753906, "kl": 0.00820012204349041, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.911208152770996, "total_loss": 110.86009216308594}, "sample_time_ms": 34362.145, "num_steps_trained": 1170000, "num_steps_sampled": 1170000, "update_time_ms": 2.638, "grad_time_ms": 373.802, "load_time_ms": 0.671}, "iterations_since_restore": 975, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 38543.0908946991, "episodes_total": 48116, "episode_reward_max": 8.000003553359948, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 38543.0908946991, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 107, "timestamp": 1757093253, "timesteps_since_restore": 1171200, "episode_reward_min": -57.06980175496699, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-27-33", "episode_len_mean": 11.130841121495328, "timesteps_total": 1171200, "episode_reward_mean": -7.263399908353123, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.74712038040161, "training_iteration": 976, "info": {"default": {"policy_loss": -0.12047716230154037, "vf_explained_var": 0.1649908721446991, "vf_loss": 122.37332916259766, "kl": 0.009225723333656788, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.15756893157959, "total_loss": 122.30014038085938}, "sample_time_ms": 34357.214, "num_steps_trained": 1171200, "num_steps_sampled": 1171200, "update_time_ms": 2.665, "grad_time_ms": 371.342, "load_time_ms": 0.676}, "iterations_since_restore": 976, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 38577.16266846657, "episodes_total": 48206, "episode_reward_max": 8.000135275085663, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 38577.16266846657, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 90, "timestamp": 1757093287, "timesteps_since_restore": 1172400, "episode_reward_min": -80.44992513403193, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-28-07", "episode_len_mean": 13.94, "timesteps_total": 1172400, "episode_reward_mean": -11.59981896168963, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.07177376747131, "training_iteration": 977, "info": {"default": {"policy_loss": -0.1308014690876007, "vf_explained_var": 0.14760859310626984, "vf_loss": 184.63929748535156, "kl": 0.007988250814378262, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 9.09786605834961, "total_loss": 184.5494384765625}, "sample_time_ms": 34276.651, "num_steps_trained": 1172400, "num_steps_sampled": 1172400, "update_time_ms": 2.655, "grad_time_ms": 371.517, "load_time_ms": 0.664}, "iterations_since_restore": 977, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 38612.35265803337, "episodes_total": 48307, "episode_reward_max": 8.000072424776043, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 38612.35265803337, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 101, "timestamp": 1757093322, "timesteps_since_restore": 1173600, "episode_reward_min": -77.28268759466842, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-28-42", "episode_len_mean": 11.415841584158416, "timesteps_total": 1173600, "episode_reward_mean": -7.6227478720584525, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.18998956680298, "training_iteration": 978, "info": {"default": {"policy_loss": -0.13689905405044556, "vf_explained_var": 0.1348818689584732, "vf_loss": 183.09840393066406, "kl": 0.00851309671998024, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.164573669433594, "total_loss": 183.00515747070312}, "sample_time_ms": 34266.729, "num_steps_trained": 1173600, "num_steps_sampled": 1173600, "update_time_ms": 2.679, "grad_time_ms": 371.741, "load_time_ms": 0.672}, "iterations_since_restore": 978, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 38646.91388487816, "episodes_total": 48411, "episode_reward_max": 6.001074545030132, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 38646.91388487816, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 104, "timestamp": 1757093356, "timesteps_since_restore": 1174800, "episode_reward_min": -82.22633522468905, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-29-16", "episode_len_mean": 11.653846153846153, "timesteps_total": 1174800, "episode_reward_mean": -8.053927033231604, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.5612268447876, "training_iteration": 979, "info": {"default": {"policy_loss": -0.11625727266073227, "vf_explained_var": 0.1291622519493103, "vf_loss": 178.90313720703125, "kl": 0.010634384118020535, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.9710516929626465, "total_loss": 178.8413848876953}, "sample_time_ms": 34243.498, "num_steps_trained": 1174800, "num_steps_sampled": 1174800, "update_time_ms": 2.696, "grad_time_ms": 369.299, "load_time_ms": 0.67}, "iterations_since_restore": 979, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 38681.76121497154, "episodes_total": 48515, "episode_reward_max": 8.000000400017466, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 38681.76121497154, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 104, "timestamp": 1757093391, "timesteps_since_restore": 1176000, "episode_reward_min": -82.52447799666979, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-29-51", "episode_len_mean": 11.721153846153847, "timesteps_total": 1176000, "episode_reward_mean": -8.162287063378074, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.84733009338379, "training_iteration": 980, "info": {"default": {"policy_loss": -0.11072716116905212, "vf_explained_var": 0.12861734628677368, "vf_loss": 207.02532958984375, "kl": 0.00839286856353283, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.010143280029297, "total_loss": 206.9576416015625}, "sample_time_ms": 34310.833, "num_steps_trained": 1176000, "num_steps_sampled": 1176000, "update_time_ms": 2.664, "grad_time_ms": 370.707, "load_time_ms": 0.692}, "iterations_since_restore": 980, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 38716.391979932785, "episodes_total": 48620, "episode_reward_max": 8.00006280384074, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 38716.391979932785, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 105, "timestamp": 1757093426, "timesteps_since_restore": 1177200, "episode_reward_min": -65.68662171503632, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-30-26", "episode_len_mean": 11.657142857142857, "timesteps_total": 1177200, "episode_reward_mean": -7.947458321105788, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.630764961242676, "training_iteration": 981, "info": {"default": {"policy_loss": -0.12637369334697723, "vf_explained_var": 0.1544867306947708, "vf_loss": 138.9871826171875, "kl": 0.010473791509866714, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.009885787963867, "total_loss": 138.91448974609375}, "sample_time_ms": 34285.228, "num_steps_trained": 1177200, "num_steps_sampled": 1177200, "update_time_ms": 2.622, "grad_time_ms": 369.006, "load_time_ms": 0.689}, "iterations_since_restore": 981, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 38751.141756772995, "episodes_total": 48729, "episode_reward_max": 8.000000399999927, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 38751.141756772995, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 109, "timestamp": 1757093461, "timesteps_since_restore": 1178400, "episode_reward_min": -75.70276687406812, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-31-01", "episode_len_mean": 10.660550458715596, "timesteps_total": 1178400, "episode_reward_mean": -6.391130449750457, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.74977684020996, "training_iteration": 982, "info": {"default": {"policy_loss": -0.11850632727146149, "vf_explained_var": 0.15820366144180298, "vf_loss": 134.6548309326172, "kl": 0.00864506233483553, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.029078483581543, "total_loss": 134.58062744140625}, "sample_time_ms": 34285.497, "num_steps_trained": 1178400, "num_steps_sampled": 1178400, "update_time_ms": 2.618, "grad_time_ms": 369.672, "load_time_ms": 0.694}, "iterations_since_restore": 982, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 38785.8583984375, "episodes_total": 48818, "episode_reward_max": 8.000003139595496, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 38785.8583984375, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 89, "timestamp": 1757093496, "timesteps_since_restore": 1179600, "episode_reward_min": -81.22952061773404, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-31-36", "episode_len_mean": 13.42, "timesteps_total": 1179600, "episode_reward_mean": -11.225836689940955, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.716641664505005, "training_iteration": 983, "info": {"default": {"policy_loss": -0.13232572376728058, "vf_explained_var": 0.12972790002822876, "vf_loss": 210.9720916748047, "kl": 0.008901259861886501, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.626033782958984, "total_loss": 210.88539123535156}, "sample_time_ms": 34310.705, "num_steps_trained": 1179600, "num_steps_sampled": 1179600, "update_time_ms": 2.561, "grad_time_ms": 368.645, "load_time_ms": 0.687}, "iterations_since_restore": 983, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 38822.18862104416, "episodes_total": 48918, "episode_reward_max": 10.0, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 38822.18862104416, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 100, "timestamp": 1757093532, "timesteps_since_restore": 1180800, "episode_reward_min": -81.62751620730599, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-32-12", "episode_len_mean": 12.1, "timesteps_total": 1180800, "episode_reward_mean": -8.939163389198404, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.330222606658936, "training_iteration": 984, "info": {"default": {"policy_loss": -0.11680860072374344, "vf_explained_var": 0.16506348550319672, "vf_loss": 191.41522216796875, "kl": 0.008987827226519585, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.876986503601074, "total_loss": 191.34446716308594}, "sample_time_ms": 34452.642, "num_steps_trained": 1180800, "num_steps_sampled": 1180800, "update_time_ms": 2.576, "grad_time_ms": 369.563, "load_time_ms": 0.679}, "iterations_since_restore": 984, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 38857.84148097038, "episodes_total": 49028, "episode_reward_max": 8.000000402695544, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 38857.84148097038, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 110, "timestamp": 1757093568, "timesteps_since_restore": 1182000, "episode_reward_min": -78.35738484414829, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-32-48", "episode_len_mean": 10.818181818181818, "timesteps_total": 1182000, "episode_reward_mean": -6.793583131627948, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.652859926223755, "training_iteration": 985, "info": {"default": {"policy_loss": -0.12518680095672607, "vf_explained_var": 0.13498717546463013, "vf_loss": 136.69139099121094, "kl": 0.007589833810925484, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.104706764221191, "total_loss": 136.60511779785156}, "sample_time_ms": 34570.605, "num_steps_trained": 1182000, "num_steps_sampled": 1182000, "update_time_ms": 2.58, "grad_time_ms": 370.796, "load_time_ms": 0.679}, "iterations_since_restore": 985, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 38893.04619193077, "episodes_total": 49133, "episode_reward_max": 8.000000400000356, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 38893.04619193077, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 105, "timestamp": 1757093603, "timesteps_since_restore": 1183200, "episode_reward_min": -54.12938461884856, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-33-23", "episode_len_mean": 11.276190476190477, "timesteps_total": 1183200, "episode_reward_mean": -7.220485862644518, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.204710960388184, "training_iteration": 986, "info": {"default": {"policy_loss": -0.1272914707660675, "vf_explained_var": 0.17203694581985474, "vf_loss": 125.34671783447266, "kl": 0.011088543571531773, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.176316261291504, "total_loss": 125.27627563476562}, "sample_time_ms": 34613.638, "num_steps_trained": 1183200, "num_steps_sampled": 1183200, "update_time_ms": 2.569, "grad_time_ms": 373.496, "load_time_ms": 0.704}, "iterations_since_restore": 986, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 38928.08607172966, "episodes_total": 49240, "episode_reward_max": 6.001505237273201, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 38928.08607172966, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 107, "timestamp": 1757093638, "timesteps_since_restore": 1184400, "episode_reward_min": -64.11318147676228, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-33-58", "episode_len_mean": 11.467289719626168, "timesteps_total": 1184400, "episode_reward_mean": -7.625427844202205, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.03987979888916, "training_iteration": 987, "info": {"default": {"policy_loss": -0.11664868891239166, "vf_explained_var": 0.15885549783706665, "vf_loss": 136.9136199951172, "kl": 0.010728120803833008, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.899344444274902, "total_loss": 136.8519744873047}, "sample_time_ms": 34710.901, "num_steps_trained": 1184400, "num_steps_sampled": 1184400, "update_time_ms": 2.574, "grad_time_ms": 373.04, "load_time_ms": 0.71}, "iterations_since_restore": 987, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 38963.07773518562, "episodes_total": 49350, "episode_reward_max": 8.000000451083784, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 38963.07773518562, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 110, "timestamp": 1757093673, "timesteps_since_restore": 1185600, "episode_reward_min": -54.97210148617157, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-34-33", "episode_len_mean": 10.781818181818181, "timesteps_total": 1185600, "episode_reward_mean": -6.603135061133988, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.991663455963135, "training_iteration": 988, "info": {"default": {"policy_loss": -0.12723873555660248, "vf_explained_var": 0.15744461119174957, "vf_loss": 124.26447296142578, "kl": 0.010207101702690125, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.119998931884766, "total_loss": 124.18955993652344}, "sample_time_ms": 34688.342, "num_steps_trained": 1185600, "num_steps_sampled": 1185600, "update_time_ms": 2.542, "grad_time_ms": 375.835, "load_time_ms": 0.713}, "iterations_since_restore": 988, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 38998.06361413002, "episodes_total": 49476, "episode_reward_max": 8.000000400000072, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 38998.06361413002, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 126, "timestamp": 1757093708, "timesteps_since_restore": 1186800, "episode_reward_min": -53.40789018141651, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-35-08", "episode_len_mean": 9.69047619047619, "timesteps_total": 1186800, "episode_reward_mean": -4.833829326356983, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.98587894439697, "training_iteration": 989, "info": {"default": {"policy_loss": -0.11569031327962875, "vf_explained_var": 0.2261984944343567, "vf_loss": 94.87490844726562, "kl": 0.010692497715353966, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.625601768493652, "total_loss": 94.81401824951172}, "sample_time_ms": 34730.202, "num_steps_trained": 1186800, "num_steps_sampled": 1186800, "update_time_ms": 2.535, "grad_time_ms": 376.42, "load_time_ms": 0.725}, "iterations_since_restore": 989, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 39033.940145492554, "episodes_total": 49589, "episode_reward_max": 6.0014947724121, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 39033.940145492554, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 113, "timestamp": 1757093744, "timesteps_since_restore": 1188000, "episode_reward_min": -54.09278900613786, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-35-44", "episode_len_mean": 10.47787610619469, "timesteps_total": 1188000, "episode_reward_mean": -6.134949427074127, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.87653136253357, "training_iteration": 990, "info": {"default": {"policy_loss": -0.12393137812614441, "vf_explained_var": 0.17372411489486694, "vf_loss": 107.31281280517578, "kl": 0.009164652787148952, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.935282230377197, "total_loss": 107.23585510253906}, "sample_time_ms": 34833.82, "num_steps_trained": 1188000, "num_steps_sampled": 1188000, "update_time_ms": 2.535, "grad_time_ms": 375.627, "load_time_ms": 0.722}, "iterations_since_restore": 990, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 39072.42144370079, "episodes_total": 49698, "episode_reward_max": 8.000000400683517, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 39072.42144370079, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 109, "timestamp": 1757093782, "timesteps_since_restore": 1189200, "episode_reward_min": -81.07637988067994, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-36-22", "episode_len_mean": 10.73394495412844, "timesteps_total": 1189200, "episode_reward_mean": -6.518535016272889, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.481298208236694, "training_iteration": 991, "info": {"default": {"policy_loss": -0.11617902666330338, "vf_explained_var": 0.14705303311347961, "vf_loss": 156.73451232910156, "kl": 0.008379380218684673, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.380451202392578, "total_loss": 156.66128540039062}, "sample_time_ms": 35217.543, "num_steps_trained": 1189200, "num_steps_sampled": 1189200, "update_time_ms": 2.544, "grad_time_ms": 376.942, "load_time_ms": 0.719}, "iterations_since_restore": 991, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 39107.39052653313, "episodes_total": 49800, "episode_reward_max": 8.000000832113257, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 39107.39052653313, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 102, "timestamp": 1757093817, "timesteps_since_restore": 1190400, "episode_reward_min": -79.84999277441281, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-36-57", "episode_len_mean": 12.166666666666666, "timesteps_total": 1190400, "episode_reward_mean": -8.811862097300471, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.969082832336426, "training_iteration": 992, "info": {"default": {"policy_loss": -0.10629340261220932, "vf_explained_var": 0.13019593060016632, "vf_loss": 229.0952911376953, "kl": 0.010474516078829765, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.742081642150879, "total_loss": 229.04269409179688}, "sample_time_ms": 35240.366, "num_steps_trained": 1190400, "num_steps_sampled": 1190400, "update_time_ms": 2.513, "grad_time_ms": 376.063, "load_time_ms": 0.729}, "iterations_since_restore": 992, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 39142.06477069855, "episodes_total": 49899, "episode_reward_max": 8.000201699377161, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 39142.06477069855, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 99, "timestamp": 1757093852, "timesteps_since_restore": 1191600, "episode_reward_min": -62.01293924987624, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-37-32", "episode_len_mean": 11.69, "timesteps_total": 1191600, "episode_reward_mean": -7.908392896650082, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.67424416542053, "training_iteration": 993, "info": {"default": {"policy_loss": -0.12888801097869873, "vf_explained_var": 0.15855790674686432, "vf_loss": 130.2429962158203, "kl": 0.011310567148029804, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.26865005493164, "total_loss": 130.17208862304688}, "sample_time_ms": 35234.124, "num_steps_trained": 1191600, "num_steps_sampled": 1191600, "update_time_ms": 2.514, "grad_time_ms": 378.056, "load_time_ms": 0.737}, "iterations_since_restore": 993, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 39177.47431850433, "episodes_total": 50007, "episode_reward_max": 8.000000400113695, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 39177.47431850433, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 108, "timestamp": 1757093887, "timesteps_since_restore": 1192800, "episode_reward_min": -78.79052142842056, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-38-07", "episode_len_mean": 11.462962962962964, "timesteps_total": 1192800, "episode_reward_mean": -7.711946625532805, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.40954780578613, "training_iteration": 994, "info": {"default": {"policy_loss": -0.12178921699523926, "vf_explained_var": 0.14259137213230133, "vf_loss": 164.9691619873047, "kl": 0.009352531284093857, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.280426979064941, "total_loss": 164.89529418945312}, "sample_time_ms": 35144.965, "num_steps_trained": 1192800, "num_steps_sampled": 1192800, "update_time_ms": 2.521, "grad_time_ms": 375.174, "load_time_ms": 0.742}, "iterations_since_restore": 994, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 39213.1948826313, "episodes_total": 50134, "episode_reward_max": 8.00000339650973, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 39213.1948826313, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 127, "timestamp": 1757093923, "timesteps_since_restore": 1194000, "episode_reward_min": -54.648896702468036, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-38-43", "episode_len_mean": 9.338582677165354, "timesteps_total": 1194000, "episode_reward_mean": -4.2210031375213815, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.720564126968384, "training_iteration": 995, "info": {"default": {"policy_loss": -0.12409516423940659, "vf_explained_var": 0.20417146384716034, "vf_loss": 106.64891052246094, "kl": 0.008681725710630417, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.137012481689453, "total_loss": 106.56932067871094}, "sample_time_ms": 35151.927, "num_steps_trained": 1194000, "num_steps_sampled": 1194000, "update_time_ms": 2.474, "grad_time_ms": 375.047, "load_time_ms": 0.737}, "iterations_since_restore": 995, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 39248.20450949669, "episodes_total": 50248, "episode_reward_max": 6.001785602842805, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 39248.20450949669, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 114, "timestamp": 1757093958, "timesteps_since_restore": 1195200, "episode_reward_min": -67.1762955012946, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-39-18", "episode_len_mean": 10.280701754385966, "timesteps_total": 1195200, "episode_reward_mean": -5.81430491795791, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.00962686538696, "training_iteration": 996, "info": {"default": {"policy_loss": -0.11728482693433762, "vf_explained_var": 0.1792491227388382, "vf_loss": 141.5452880859375, "kl": 0.009316209703683853, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.804834842681885, "total_loss": 141.4757537841797}, "sample_time_ms": 35135.145, "num_steps_trained": 1195200, "num_steps_sampled": 1195200, "update_time_ms": 2.479, "grad_time_ms": 372.364, "load_time_ms": 0.713}, "iterations_since_restore": 996, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 39283.47089719772, "episodes_total": 50369, "episode_reward_max": 8.000000424793862, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 39283.47089719772, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 121, "timestamp": 1757093993, "timesteps_since_restore": 1196400, "episode_reward_min": -57.341956988678106, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-39-53", "episode_len_mean": 10.272727272727273, "timesteps_total": 1196400, "episode_reward_mean": -5.649663335966773, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.266387701034546, "training_iteration": 997, "info": {"default": {"policy_loss": -0.11603260040283203, "vf_explained_var": 0.1722307652235031, "vf_loss": 108.68437194824219, "kl": 0.011494318954646587, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.958198547363281, "total_loss": 108.62726593017578}, "sample_time_ms": 35159.212, "num_steps_trained": 1196400, "num_steps_sampled": 1196400, "update_time_ms": 2.463, "grad_time_ms": 370.965, "load_time_ms": 0.721}, "iterations_since_restore": 997, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 39318.58399963379, "episodes_total": 50483, "episode_reward_max": 8.000078799416565, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 39318.58399963379, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 114, "timestamp": 1757094028, "timesteps_since_restore": 1197600, "episode_reward_min": -79.05086385516356, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-40-28", "episode_len_mean": 10.456140350877194, "timesteps_total": 1197600, "episode_reward_mean": -6.114302298598264, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.113102436065674, "training_iteration": 998, "info": {"default": {"policy_loss": -0.12086139619350433, "vf_explained_var": 0.15536485612392426, "vf_loss": 205.43817138671875, "kl": 0.008745413273572922, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.771793842315674, "total_loss": 205.36212158203125}, "sample_time_ms": 35174.386, "num_steps_trained": 1197600, "num_steps_sampled": 1197600, "update_time_ms": 2.485, "grad_time_ms": 367.924, "load_time_ms": 0.712}, "iterations_since_restore": 998, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 39354.586656332016, "episodes_total": 50599, "episode_reward_max": 8.000018012664816, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 39354.586656332016, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 116, "timestamp": 1757094065, "timesteps_since_restore": 1198800, "episode_reward_min": -79.03198112598977, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-41-05", "episode_len_mean": 10.310344827586206, "timesteps_total": 1198800, "episode_reward_mean": -5.940774905262499, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.00265669822693, "training_iteration": 999, "info": {"default": {"policy_loss": -0.12494374811649323, "vf_explained_var": 0.18328431248664856, "vf_loss": 156.21017456054688, "kl": 0.0076676830649375916, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.720086097717285, "total_loss": 156.1245574951172}, "sample_time_ms": 35274.13, "num_steps_trained": 1198800, "num_steps_sampled": 1198800, "update_time_ms": 2.468, "grad_time_ms": 369.81, "load_time_ms": 0.706}, "iterations_since_restore": 999, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 39388.943856716156, "episodes_total": 50704, "episode_reward_max": 8.000067220689344, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 39388.943856716156, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 105, "timestamp": 1757094099, "timesteps_since_restore": 1200000, "episode_reward_min": -81.0001489930398, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-41-39", "episode_len_mean": 11.533333333333333, "timesteps_total": 1200000, "episode_reward_mean": -7.9225233244978766, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.357200384140015, "training_iteration": 1000, "info": {"default": {"policy_loss": -0.12405513226985931, "vf_explained_var": 0.1316448599100113, "vf_loss": 210.09877014160156, "kl": 0.009614868089556694, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.643988609313965, "total_loss": 210.02398681640625}, "sample_time_ms": 35124.175, "num_steps_trained": 1200000, "num_steps_sampled": 1200000, "update_time_ms": 2.514, "grad_time_ms": 367.993, "load_time_ms": 0.686}, "iterations_since_restore": 1000, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 39424.05726313591, "episodes_total": 50824, "episode_reward_max": 8.001410204963893, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 39424.05726313591, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 120, "timestamp": 1757094134, "timesteps_since_restore": 1201200, "episode_reward_min": -38.884517009076546, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-42-14", "episode_len_mean": 9.758333333333333, "timesteps_total": 1201200, "episode_reward_mean": -4.87484595980373, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.11340641975403, "training_iteration": 1001, "info": {"default": {"policy_loss": -0.11828166991472244, "vf_explained_var": 0.2097300887107849, "vf_loss": 90.22238159179688, "kl": 0.010568719357252121, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.92563533782959, "total_loss": 90.15827178955078}, "sample_time_ms": 34786.217, "num_steps_trained": 1201200, "num_steps_sampled": 1201200, "update_time_ms": 2.548, "grad_time_ms": 369.102, "load_time_ms": 0.702}, "iterations_since_restore": 1001, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 39459.43761062622, "episodes_total": 50934, "episode_reward_max": 8.00029640326447, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 39459.43761062622, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 110, "timestamp": 1757094169, "timesteps_since_restore": 1202400, "episode_reward_min": -64.82495882156397, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-42-49", "episode_len_mean": 11.045454545454545, "timesteps_total": 1202400, "episode_reward_mean": -6.899744263391767, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.38034749031067, "training_iteration": 1002, "info": {"default": {"policy_loss": -0.11218506842851639, "vf_explained_var": 0.1606358140707016, "vf_loss": 133.03514099121094, "kl": 0.008960862644016743, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.051231384277344, "total_loss": 132.96888732910156}, "sample_time_ms": 34827.129, "num_steps_trained": 1202400, "num_steps_sampled": 1202400, "update_time_ms": 2.572, "grad_time_ms": 369.292, "load_time_ms": 0.694}, "iterations_since_restore": 1002, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 39495.06410121918, "episodes_total": 51062, "episode_reward_max": 8.00001110857187, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 39495.06410121918, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 128, "timestamp": 1757094205, "timesteps_since_restore": 1203600, "episode_reward_min": -48.58795735637691, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-43-25", "episode_len_mean": 9.1640625, "timesteps_total": 1203600, "episode_reward_mean": -4.001571538904399, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.62649059295654, "training_iteration": 1003, "info": {"default": {"policy_loss": -0.11867138743400574, "vf_explained_var": 0.20588618516921997, "vf_loss": 118.85743713378906, "kl": 0.011757216416299343, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.433380126953125, "total_loss": 118.79903411865234}, "sample_time_ms": 34924.939, "num_steps_trained": 1203600, "num_steps_sampled": 1203600, "update_time_ms": 2.571, "grad_time_ms": 366.774, "load_time_ms": 0.688}, "iterations_since_restore": 1003, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 39529.775504112244, "episodes_total": 51178, "episode_reward_max": 6.000269776799848, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 39529.775504112244, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 116, "timestamp": 1757094240, "timesteps_since_restore": 1204800, "episode_reward_min": -77.77634126476481, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-44-00", "episode_len_mean": 10.706896551724139, "timesteps_total": 1204800, "episode_reward_mean": -6.475161430001292, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.711402893066406, "training_iteration": 1004, "info": {"default": {"policy_loss": -0.12108948826789856, "vf_explained_var": 0.17009881138801575, "vf_loss": 181.56747436523438, "kl": 0.010016139596700668, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.686276912689209, "total_loss": 181.4977264404297}, "sample_time_ms": 34853.35, "num_steps_trained": 1204800, "num_steps_sampled": 1204800, "update_time_ms": 2.566, "grad_time_ms": 368.559, "load_time_ms": 0.688}, "iterations_since_restore": 1004, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 39564.627715587616, "episodes_total": 51270, "episode_reward_max": 10.0, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 39564.627715587616, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 92, "timestamp": 1757094275, "timesteps_since_restore": 1206000, "episode_reward_min": -77.74136707939614, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-44-35", "episode_len_mean": 12.48, "timesteps_total": 1206000, "episode_reward_mean": -9.209791634585544, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.852211475372314, "training_iteration": 1005, "info": {"default": {"policy_loss": -0.12045937031507492, "vf_explained_var": 0.1624155044555664, "vf_loss": 194.8504638671875, "kl": 0.010312361642718315, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.932133674621582, "total_loss": 194.7828826904297}, "sample_time_ms": 34765.505, "num_steps_trained": 1206000, "num_steps_sampled": 1206000, "update_time_ms": 2.613, "grad_time_ms": 369.449, "load_time_ms": 0.701}, "iterations_since_restore": 1005, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 39599.89507818222, "episodes_total": 51388, "episode_reward_max": 8.000000400386284, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 39599.89507818222, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 118, "timestamp": 1757094310, "timesteps_since_restore": 1207200, "episode_reward_min": -47.0520243727852, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-45-10", "episode_len_mean": 10.220338983050848, "timesteps_total": 1207200, "episode_reward_mean": -5.59539944567808, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.26736259460449, "training_iteration": 1006, "info": {"default": {"policy_loss": -0.12736597657203674, "vf_explained_var": 0.1686871498823166, "vf_loss": 107.51569366455078, "kl": 0.011410887353122234, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.209415435791016, "total_loss": 107.44681549072266}, "sample_time_ms": 34788.118, "num_steps_trained": 1207200, "num_steps_sampled": 1207200, "update_time_ms": 2.652, "grad_time_ms": 372.495, "load_time_ms": 0.709}, "iterations_since_restore": 1006, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 39634.71723365784, "episodes_total": 51499, "episode_reward_max": 8.000396923709282, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 39634.71723365784, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 111, "timestamp": 1757094345, "timesteps_since_restore": 1208400, "episode_reward_min": -67.1707817329749, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-45-45", "episode_len_mean": 10.855855855855856, "timesteps_total": 1208400, "episode_reward_mean": -6.556480729081873, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.822155475616455, "training_iteration": 1007, "info": {"default": {"policy_loss": -0.11739315092563629, "vf_explained_var": 0.18068869411945343, "vf_loss": 121.74674224853516, "kl": 0.008407291024923325, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.787623882293701, "total_loss": 121.67244720458984}, "sample_time_ms": 34744.201, "num_steps_trained": 1208400, "num_steps_sampled": 1208400, "update_time_ms": 2.649, "grad_time_ms": 372.002, "load_time_ms": 0.695}, "iterations_since_restore": 1007, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 39669.48267173767, "episodes_total": 51612, "episode_reward_max": 8.000056649775857, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 39669.48267173767, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 113, "timestamp": 1757094380, "timesteps_since_restore": 1209600, "episode_reward_min": -82.53229145912238, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-46-20", "episode_len_mean": 10.725663716814159, "timesteps_total": 1209600, "episode_reward_mean": -6.554028036895432, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.765438079833984, "training_iteration": 1008, "info": {"default": {"policy_loss": -0.11799734085798264, "vf_explained_var": 0.16473838686943054, "vf_loss": 121.47684478759766, "kl": 0.009925312362611294, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.055036544799805, "total_loss": 121.40972137451172}, "sample_time_ms": 34707.467, "num_steps_trained": 1209600, "num_steps_sampled": 1209600, "update_time_ms": 2.662, "grad_time_ms": 373.936, "load_time_ms": 0.698}, "iterations_since_restore": 1008, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 39705.37444639206, "episodes_total": 51751, "episode_reward_max": 8.000069987984592, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 39705.37444639206, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 139, "timestamp": 1757094415, "timesteps_since_restore": 1210800, "episode_reward_min": -57.63584118323821, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-46-55", "episode_len_mean": 8.66906474820144, "timesteps_total": 1210800, "episode_reward_mean": -3.316468041073165, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.89177465438843, "training_iteration": 1009, "info": {"default": {"policy_loss": -0.1173262894153595, "vf_explained_var": 0.21324855089187622, "vf_loss": 97.03105926513672, "kl": 0.011609888635575771, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.569618225097656, "total_loss": 96.9732437133789}, "sample_time_ms": 34696.397, "num_steps_trained": 1210800, "num_steps_sampled": 1210800, "update_time_ms": 2.691, "grad_time_ms": 373.903, "load_time_ms": 0.714}, "iterations_since_restore": 1009, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 39740.44599699974, "episodes_total": 51864, "episode_reward_max": 8.000000400009503, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 39740.44599699974, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 113, "timestamp": 1757094451, "timesteps_since_restore": 1212000, "episode_reward_min": -50.92257999912057, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-47-31", "episode_len_mean": 10.530973451327434, "timesteps_total": 1212000, "episode_reward_mean": -6.0884592660825, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.071550607681274, "training_iteration": 1010, "info": {"default": {"policy_loss": -0.1262667030096054, "vf_explained_var": 0.1456984430551529, "vf_loss": 112.94868469238281, "kl": 0.00968917552381754, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.620930194854736, "total_loss": 112.87207794189453}, "sample_time_ms": 34765.145, "num_steps_trained": 1212000, "num_steps_sampled": 1212000, "update_time_ms": 2.703, "grad_time_ms": 376.547, "load_time_ms": 0.721}, "iterations_since_restore": 1010, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 39775.09530830383, "episodes_total": 51973, "episode_reward_max": 8.000000406285139, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 39775.09530830383, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 109, "timestamp": 1757094485, "timesteps_since_restore": 1213200, "episode_reward_min": -43.31134247157332, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-48-05", "episode_len_mean": 11.091743119266056, "timesteps_total": 1213200, "episode_reward_mean": -6.847959231873455, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.64931130409241, "training_iteration": 1011, "info": {"default": {"policy_loss": -0.11260345578193665, "vf_explained_var": 0.18726283311843872, "vf_loss": 100.41763305664062, "kl": 0.009533231146633625, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.301562309265137, "total_loss": 100.35389709472656}, "sample_time_ms": 34719.695, "num_steps_trained": 1213200, "num_steps_sampled": 1213200, "update_time_ms": 2.697, "grad_time_ms": 375.562, "load_time_ms": 0.705}, "iterations_since_restore": 1011, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 39810.16910934448, "episodes_total": 52085, "episode_reward_max": 8.000134166862535, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 39810.16910934448, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 112, "timestamp": 1757094520, "timesteps_since_restore": 1214400, "episode_reward_min": -64.02702995619201, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-48-40", "episode_len_mean": 10.6875, "timesteps_total": 1214400, "episode_reward_mean": -6.301906864684825, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.073801040649414, "training_iteration": 1012, "info": {"default": {"policy_loss": -0.11655872315168381, "vf_explained_var": 0.18281462788581848, "vf_loss": 116.21088409423828, "kl": 0.010553963482379913, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.227710723876953, "total_loss": 116.14842224121094}, "sample_time_ms": 34687.279, "num_steps_trained": 1214400, "num_steps_sampled": 1214400, "update_time_ms": 2.721, "grad_time_ms": 377.332, "load_time_ms": 0.698}, "iterations_since_restore": 1012, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 39845.1806845665, "episodes_total": 52191, "episode_reward_max": 8.000000400001262, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 39845.1806845665, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 106, "timestamp": 1757094555, "timesteps_since_restore": 1215600, "episode_reward_min": -57.637087207483845, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-49-15", "episode_len_mean": 11.283018867924529, "timesteps_total": 1215600, "episode_reward_mean": -7.5288101584928775, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.01157522201538, "training_iteration": 1013, "info": {"default": {"policy_loss": -0.12201055139303207, "vf_explained_var": 0.18668478727340698, "vf_loss": 127.51358032226562, "kl": 0.0093972934409976, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.705888748168945, "total_loss": 127.43975067138672}, "sample_time_ms": 34624.066, "num_steps_trained": 1215600, "num_steps_sampled": 1215600, "update_time_ms": 2.737, "grad_time_ms": 379.009, "load_time_ms": 0.719}, "iterations_since_restore": 1013, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 39880.258697748184, "episodes_total": 52311, "episode_reward_max": 8.000011058423718, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 39880.258697748184, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 120, "timestamp": 1757094591, "timesteps_since_restore": 1216800, "episode_reward_min": -48.674666072623324, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-49-51", "episode_len_mean": 9.975, "timesteps_total": 1216800, "episode_reward_mean": -5.19077054794243, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.0780131816864, "training_iteration": 1014, "info": {"default": {"policy_loss": -0.12278946489095688, "vf_explained_var": 0.2521761357784271, "vf_loss": 109.3905029296875, "kl": 0.008114282041788101, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.836617469787598, "total_loss": 109.30931091308594}, "sample_time_ms": 34661.126, "num_steps_trained": 1216800, "num_steps_sampled": 1216800, "update_time_ms": 2.721, "grad_time_ms": 378.631, "load_time_ms": 0.718}, "iterations_since_restore": 1014, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 39915.83313751221, "episodes_total": 52447, "episode_reward_max": 8.000041916386097, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 39915.83313751221, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 136, "timestamp": 1757094626, "timesteps_since_restore": 1218000, "episode_reward_min": -41.430982568276896, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-50-26", "episode_len_mean": 8.764705882352942, "timesteps_total": 1218000, "episode_reward_mean": -3.3806343572497735, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.57443976402283, "training_iteration": 1015, "info": {"default": {"policy_loss": -0.12102185189723969, "vf_explained_var": 0.22100745141506195, "vf_loss": 68.84326934814453, "kl": 0.008382219821214676, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.873909950256348, "total_loss": 68.76521301269531}, "sample_time_ms": 34734.136, "num_steps_trained": 1218000, "num_steps_sampled": 1218000, "update_time_ms": 2.725, "grad_time_ms": 377.87, "load_time_ms": 0.72}, "iterations_since_restore": 1015, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 39950.8241713047, "episodes_total": 52567, "episode_reward_max": 6.001002642488916, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 39950.8241713047, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 120, "timestamp": 1757094661, "timesteps_since_restore": 1219200, "episode_reward_min": -54.51660730287064, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-51-01", "episode_len_mean": 10.158333333333333, "timesteps_total": 1219200, "episode_reward_mean": -5.588365168637196, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.99103379249573, "training_iteration": 1016, "info": {"default": {"policy_loss": -0.11806453764438629, "vf_explained_var": 0.21244223415851593, "vf_loss": 89.40074157714844, "kl": 0.008776287548244, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.174655437469482, "total_loss": 89.32766723632812}, "sample_time_ms": 34706.818, "num_steps_trained": 1219200, "num_steps_sampled": 1219200, "update_time_ms": 2.666, "grad_time_ms": 377.623, "load_time_ms": 0.717}, "iterations_since_restore": 1016, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 39985.47155356407, "episodes_total": 52684, "episode_reward_max": 8.000000400849931, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 39985.47155356407, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 117, "timestamp": 1757094696, "timesteps_since_restore": 1220400, "episode_reward_min": -83.26804984339985, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-51-36", "episode_len_mean": 10.136752136752136, "timesteps_total": 1220400, "episode_reward_mean": -5.735085176319644, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.6473822593689, "training_iteration": 1017, "info": {"default": {"policy_loss": -0.1053687334060669, "vf_explained_var": 0.16443416476249695, "vf_loss": 175.12770080566406, "kl": 0.0080116493627429, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.626365661621094, "total_loss": 175.06341552734375}, "sample_time_ms": 34686.876, "num_steps_trained": 1220400, "num_steps_sampled": 1220400, "update_time_ms": 2.699, "grad_time_ms": 380.055, "load_time_ms": 0.722}, "iterations_since_restore": 1017, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 40020.52464270592, "episodes_total": 52809, "episode_reward_max": 8.000510531229788, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 40020.52464270592, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 125, "timestamp": 1757094731, "timesteps_since_restore": 1221600, "episode_reward_min": -66.08877734444012, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-52-11", "episode_len_mean": 9.608, "timesteps_total": 1221600, "episode_reward_mean": -4.640873845386803, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.0530891418457, "training_iteration": 1018, "info": {"default": {"policy_loss": -0.11356696486473083, "vf_explained_var": 0.18450692296028137, "vf_loss": 111.24358367919922, "kl": 0.00987870804965496, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.535920143127441, "total_loss": 111.1806411743164}, "sample_time_ms": 34715.591, "num_steps_trained": 1221600, "num_steps_sampled": 1221600, "update_time_ms": 2.666, "grad_time_ms": 380.146, "load_time_ms": 0.723}, "iterations_since_restore": 1018, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 40056.24958372116, "episodes_total": 52942, "episode_reward_max": 8.000004950869165, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 40056.24958372116, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 133, "timestamp": 1757094767, "timesteps_since_restore": 1222800, "episode_reward_min": -54.86451008853389, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-52-47", "episode_len_mean": 8.93984962406015, "timesteps_total": 1222800, "episode_reward_mean": -3.6422164088258238, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.72494101524353, "training_iteration": 1019, "info": {"default": {"policy_loss": -0.12925311923027039, "vf_explained_var": 0.1853516846895218, "vf_loss": 109.90841674804688, "kl": 0.008610324002802372, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.0701422691345215, "total_loss": 109.82329559326172}, "sample_time_ms": 34698.03, "num_steps_trained": 1222800, "num_steps_sampled": 1222800, "update_time_ms": 2.653, "grad_time_ms": 381.018, "load_time_ms": 0.711}, "iterations_since_restore": 1019, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 40092.59021162987, "episodes_total": 53064, "episode_reward_max": 8.000041899248808, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 40092.59021162987, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 122, "timestamp": 1757094803, "timesteps_since_restore": 1224000, "episode_reward_min": -79.37541949356515, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-53-23", "episode_len_mean": 10.024590163934427, "timesteps_total": 1224000, "episode_reward_mean": -5.290580009977722, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.340627908706665, "training_iteration": 1020, "info": {"default": {"policy_loss": -0.11073529720306396, "vf_explained_var": 0.18776416778564453, "vf_loss": 137.03245544433594, "kl": 0.009964900091290474, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.737940311431885, "total_loss": 136.97280883789062}, "sample_time_ms": 34825.781, "num_steps_trained": 1224000, "num_steps_sampled": 1224000, "update_time_ms": 2.69, "grad_time_ms": 380.108, "load_time_ms": 0.702}, "iterations_since_restore": 1020, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 40127.6789598465, "episodes_total": 53170, "episode_reward_max": 8.0000004000002, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 40127.6789598465, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 106, "timestamp": 1757094838, "timesteps_since_restore": 1225200, "episode_reward_min": -78.81715767600159, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-53-58", "episode_len_mean": 11.169811320754716, "timesteps_total": 1225200, "episode_reward_mean": -7.107736709210814, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.08874821662903, "training_iteration": 1021, "info": {"default": {"policy_loss": -0.11090486496686935, "vf_explained_var": 0.17218273878097534, "vf_loss": 168.43138122558594, "kl": 0.009693119674921036, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.16059684753418, "total_loss": 168.37017822265625}, "sample_time_ms": 34870.661, "num_steps_trained": 1225200, "num_steps_sampled": 1225200, "update_time_ms": 2.663, "grad_time_ms": 379.262, "load_time_ms": 0.71}, "iterations_since_restore": 1021, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 40162.84873533249, "episodes_total": 53285, "episode_reward_max": 8.000000400008823, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 40162.84873533249, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 115, "timestamp": 1757094873, "timesteps_since_restore": 1226400, "episode_reward_min": -60.602833308527806, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-54-33", "episode_len_mean": 10.513043478260869, "timesteps_total": 1226400, "episode_reward_mean": -5.998016203211192, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.16977548599243, "training_iteration": 1022, "info": {"default": {"policy_loss": -0.1118575856089592, "vf_explained_var": 0.15508580207824707, "vf_loss": 115.34873962402344, "kl": 0.010460966266691685, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.162425994873047, "total_loss": 115.29049682617188}, "sample_time_ms": 34883.113, "num_steps_trained": 1226400, "num_steps_sampled": 1226400, "update_time_ms": 2.647, "grad_time_ms": 376.394, "load_time_ms": 0.716}, "iterations_since_restore": 1022, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 40199.129377126694, "episodes_total": 53400, "episode_reward_max": 8.000063814481159, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 40199.129377126694, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 115, "timestamp": 1757094910, "timesteps_since_restore": 1227600, "episode_reward_min": -77.54721437528613, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-55-10", "episode_len_mean": 10.547826086956523, "timesteps_total": 1227600, "episode_reward_mean": -6.392630822774427, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.28064179420471, "training_iteration": 1023, "info": {"default": {"policy_loss": -0.1176893338561058, "vf_explained_var": 0.17350077629089355, "vf_loss": 122.32510375976562, "kl": 0.009580309502780437, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.60577917098999, "total_loss": 122.25650787353516}, "sample_time_ms": 35010.225, "num_steps_trained": 1227600, "num_steps_sampled": 1227600, "update_time_ms": 2.664, "grad_time_ms": 376.206, "load_time_ms": 0.697}, "iterations_since_restore": 1023, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 40234.68657827377, "episodes_total": 53534, "episode_reward_max": 8.000134437486293, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 40234.68657827377, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 134, "timestamp": 1757094945, "timesteps_since_restore": 1228800, "episode_reward_min": -54.8508782778795, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-55-45", "episode_len_mean": 8.73134328358209, "timesteps_total": 1228800, "episode_reward_mean": -3.3702735837093254, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.55720114707947, "training_iteration": 1024, "info": {"default": {"policy_loss": -0.11748486012220383, "vf_explained_var": 0.19588418304920197, "vf_loss": 80.55392456054688, "kl": 0.010630765929818153, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.998410701751709, "total_loss": 80.49092102050781}, "sample_time_ms": 35056.32, "num_steps_trained": 1228800, "num_steps_sampled": 1228800, "update_time_ms": 2.669, "grad_time_ms": 377.982, "load_time_ms": 0.703}, "iterations_since_restore": 1024, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 40269.827061891556, "episodes_total": 53643, "episode_reward_max": 8.00031541201582, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 40269.827061891556, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 109, "timestamp": 1757094980, "timesteps_since_restore": 1230000, "episode_reward_min": -51.32844231077337, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-56-20", "episode_len_mean": 11.082568807339449, "timesteps_total": 1230000, "episode_reward_mean": -7.036460106926032, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.14048361778259, "training_iteration": 1025, "info": {"default": {"policy_loss": -0.11964531987905502, "vf_explained_var": 0.17039939761161804, "vf_loss": 92.37580108642578, "kl": 0.008815583772957325, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.890177249908447, "total_loss": 92.30134582519531}, "sample_time_ms": 35012.245, "num_steps_trained": 1230000, "num_steps_sampled": 1230000, "update_time_ms": 2.662, "grad_time_ms": 378.627, "load_time_ms": 0.693}, "iterations_since_restore": 1025, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 40305.436999082565, "episodes_total": 53763, "episode_reward_max": 8.000011475947982, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 40305.436999082565, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 120, "timestamp": 1757095016, "timesteps_since_restore": 1231200, "episode_reward_min": -65.51738204281365, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-56-56", "episode_len_mean": 10.058333333333334, "timesteps_total": 1231200, "episode_reward_mean": -5.322793312365081, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.60993719100952, "training_iteration": 1026, "info": {"default": {"policy_loss": -0.11418819427490234, "vf_explained_var": 0.1728675663471222, "vf_loss": 116.15583038330078, "kl": 0.009147894568741322, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.746251583099365, "total_loss": 116.08851623535156}, "sample_time_ms": 35073.766, "num_steps_trained": 1231200, "num_steps_sampled": 1231200, "update_time_ms": 2.686, "grad_time_ms": 379.006, "load_time_ms": 0.689}, "iterations_since_restore": 1026, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 40340.25891637802, "episodes_total": 53886, "episode_reward_max": 8.000149077990526, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 40340.25891637802, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 123, "timestamp": 1757095051, "timesteps_since_restore": 1232400, "episode_reward_min": -51.60565718480936, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-57-31", "episode_len_mean": 9.658536585365853, "timesteps_total": 1232400, "episode_reward_mean": -4.641312694028664, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.82191729545593, "training_iteration": 1027, "info": {"default": {"policy_loss": -0.14180009067058563, "vf_explained_var": 0.2099451720714569, "vf_loss": 103.09793090820312, "kl": 0.008545536547899246, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.870876789093018, "total_loss": 102.99993896484375}, "sample_time_ms": 35093.354, "num_steps_trained": 1232400, "num_steps_sampled": 1232400, "update_time_ms": 2.672, "grad_time_ms": 376.858, "load_time_ms": 0.706}, "iterations_since_restore": 1027, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 40376.79358148575, "episodes_total": 54021, "episode_reward_max": 8.000000401626524, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 40376.79358148575, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 135, "timestamp": 1757095087, "timesteps_since_restore": 1233600, "episode_reward_min": -79.2085795330216, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-58-07", "episode_len_mean": 8.718518518518518, "timesteps_total": 1233600, "episode_reward_mean": -3.3279849150323226, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.53466510772705, "training_iteration": 1028, "info": {"default": {"policy_loss": -0.11230724304914474, "vf_explained_var": 0.18029066920280457, "vf_loss": 148.50802612304688, "kl": 0.010729004628956318, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.9943952560424805, "total_loss": 148.45069885253906}, "sample_time_ms": 35243.619, "num_steps_trained": 1233600, "num_steps_sampled": 1233600, "update_time_ms": 2.658, "grad_time_ms": 374.765, "load_time_ms": 0.704}, "iterations_since_restore": 1028, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 40412.09283709526, "episodes_total": 54155, "episode_reward_max": 8.001936257791789, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 40412.09283709526, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 134, "timestamp": 1757095123, "timesteps_since_restore": 1234800, "episode_reward_min": -48.09099275880552, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-58-43", "episode_len_mean": 9.291044776119403, "timesteps_total": 1234800, "episode_reward_mean": -4.107942779631605, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.29925560951233, "training_iteration": 1029, "info": {"default": {"policy_loss": -0.11871227622032166, "vf_explained_var": 0.18198929727077484, "vf_loss": 83.1883544921875, "kl": 0.009757798165082932, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.518893718719482, "total_loss": 83.11965942382812}, "sample_time_ms": 35202.598, "num_steps_trained": 1234800, "num_steps_sampled": 1234800, "update_time_ms": 2.63, "grad_time_ms": 373.329, "load_time_ms": 0.69}, "iterations_since_restore": 1029, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 40447.491054058075, "episodes_total": 54289, "episode_reward_max": 8.000000400000046, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 40447.491054058075, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 134, "timestamp": 1757095158, "timesteps_since_restore": 1236000, "episode_reward_min": -47.71294907233244, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-59-18", "episode_len_mean": 8.873134328358208, "timesteps_total": 1236000, "episode_reward_mean": -3.470240840437279, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.39821696281433, "training_iteration": 1030, "info": {"default": {"policy_loss": -0.11132551729679108, "vf_explained_var": 0.21414603292942047, "vf_loss": 81.18731689453125, "kl": 0.011050415225327015, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.352945804595947, "total_loss": 81.13262939453125}, "sample_time_ms": 35109.03, "num_steps_trained": 1236000, "num_steps_sampled": 1236000, "update_time_ms": 2.552, "grad_time_ms": 372.736, "load_time_ms": 0.686}, "iterations_since_restore": 1030, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 40482.65612626076, "episodes_total": 54413, "episode_reward_max": 8.000000401785224, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 40482.65612626076, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 124, "timestamp": 1757095193, "timesteps_since_restore": 1237200, "episode_reward_min": -51.13694156535555, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_19-59-53", "episode_len_mean": 9.46774193548387, "timesteps_total": 1237200, "episode_reward_mean": -4.421787023039511, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.165072202682495, "training_iteration": 1031, "info": {"default": {"policy_loss": -0.12594324350357056, "vf_explained_var": 0.18285948038101196, "vf_loss": 139.29452514648438, "kl": 0.011808233335614204, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.83090877532959, "total_loss": 139.2291259765625}, "sample_time_ms": 35116.596, "num_steps_trained": 1237200, "num_steps_sampled": 1237200, "update_time_ms": 2.562, "grad_time_ms": 372.713, "load_time_ms": 0.67}, "iterations_since_restore": 1031, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 40517.39241194725, "episodes_total": 54530, "episode_reward_max": 8.000000400002131, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 40517.39241194725, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 117, "timestamp": 1757095228, "timesteps_since_restore": 1238400, "episode_reward_min": -81.39545945939345, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-00-28", "episode_len_mean": 10.452991452991453, "timesteps_total": 1238400, "episode_reward_mean": -6.200318047122293, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.73628568649292, "training_iteration": 1032, "info": {"default": {"policy_loss": -0.1176798865199089, "vf_explained_var": 0.20239268243312836, "vf_loss": 120.30303192138672, "kl": 0.009352155029773712, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.131386756896973, "total_loss": 120.2332763671875}, "sample_time_ms": 35071.506, "num_steps_trained": 1238400, "num_steps_sampled": 1238400, "update_time_ms": 2.589, "grad_time_ms": 374.432, "load_time_ms": 0.681}, "iterations_since_restore": 1032, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 40552.79774928093, "episodes_total": 54642, "episode_reward_max": 8.000133957920465, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 40552.79774928093, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 112, "timestamp": 1757095263, "timesteps_since_restore": 1239600, "episode_reward_min": -55.65422354281951, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-01-03", "episode_len_mean": 10.714285714285714, "timesteps_total": 1239600, "episode_reward_mean": -6.453977553055487, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.4053373336792, "training_iteration": 1033, "info": {"default": {"policy_loss": -0.12005919963121414, "vf_explained_var": 0.1625148355960846, "vf_loss": 112.26841735839844, "kl": 0.010208208113908768, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.053102493286133, "total_loss": 112.20069122314453}, "sample_time_ms": 34984.337, "num_steps_trained": 1239600, "num_steps_sampled": 1239600, "update_time_ms": 2.564, "grad_time_ms": 374.038, "load_time_ms": 0.68}, "iterations_since_restore": 1033, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 40588.46205163002, "episodes_total": 54773, "episode_reward_max": 10.0, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 40588.46205163002, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 131, "timestamp": 1757095299, "timesteps_since_restore": 1240800, "episode_reward_min": -53.01818122105274, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-01-39", "episode_len_mean": 9.206106870229007, "timesteps_total": 1240800, "episode_reward_mean": -4.10370842891107, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.664302349090576, "training_iteration": 1034, "info": {"default": {"policy_loss": -0.11435213685035706, "vf_explained_var": 0.2355906367301941, "vf_loss": 85.69188690185547, "kl": 0.009141262620687485, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.411165237426758, "total_loss": 85.62439727783203}, "sample_time_ms": 34995.661, "num_steps_trained": 1240800, "num_steps_sampled": 1240800, "update_time_ms": 2.581, "grad_time_ms": 373.436, "load_time_ms": 0.671}, "iterations_since_restore": 1034, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 40623.42974758148, "episodes_total": 54900, "episode_reward_max": 8.000000400002913, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 40623.42974758148, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 127, "timestamp": 1757095334, "timesteps_since_restore": 1242000, "episode_reward_min": -63.78111793082125, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-02-14", "episode_len_mean": 9.464566929133857, "timesteps_total": 1242000, "episode_reward_mean": -4.393343248997501, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.96769595146179, "training_iteration": 1035, "info": {"default": {"policy_loss": -0.12851423025131226, "vf_explained_var": 0.17829497158527374, "vf_loss": 112.65576171875, "kl": 0.009569581598043442, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.769487380981445, "total_loss": 112.57630920410156}, "sample_time_ms": 34977.515, "num_steps_trained": 1242000, "num_steps_sampled": 1242000, "update_time_ms": 2.556, "grad_time_ms": 374.354, "load_time_ms": 0.676}, "iterations_since_restore": 1035, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 40659.47037982941, "episodes_total": 55009, "episode_reward_max": 6.000285758697301, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 40659.47037982941, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 109, "timestamp": 1757095370, "timesteps_since_restore": 1243200, "episode_reward_min": -80.93221570523681, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-02-50", "episode_len_mean": 11.036697247706423, "timesteps_total": 1243200, "episode_reward_mean": -6.966247130847303, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.040632247924805, "training_iteration": 1036, "info": {"default": {"policy_loss": -0.1184500977396965, "vf_explained_var": 0.13907983899116516, "vf_loss": 139.88177490234375, "kl": 0.00921716820448637, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.007726669311523, "total_loss": 139.8105926513672}, "sample_time_ms": 35023.167, "num_steps_trained": 1243200, "num_steps_sampled": 1243200, "update_time_ms": 2.55, "grad_time_ms": 371.754, "load_time_ms": 0.678}, "iterations_since_restore": 1036, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 40694.37775373459, "episodes_total": 55117, "episode_reward_max": 6.00098638972128, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 40694.37775373459, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 108, "timestamp": 1757095405, "timesteps_since_restore": 1244400, "episode_reward_min": -63.568951081746846, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-03-25", "episode_len_mean": 11.064814814814815, "timesteps_total": 1244400, "episode_reward_mean": -6.892803274411171, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.907373905181885, "training_iteration": 1037, "info": {"default": {"policy_loss": -0.11981259286403656, "vf_explained_var": 0.19513291120529175, "vf_loss": 144.25949096679688, "kl": 0.008676042780280113, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.134295463562012, "total_loss": 144.18417358398438}, "sample_time_ms": 35030.429, "num_steps_trained": 1244400, "num_steps_sampled": 1244400, "update_time_ms": 2.548, "grad_time_ms": 373.079, "load_time_ms": 0.676}, "iterations_since_restore": 1037, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 40729.25972223282, "episodes_total": 55236, "episode_reward_max": 8.000293292364185, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 40729.25972223282, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 119, "timestamp": 1757095440, "timesteps_since_restore": 1245600, "episode_reward_min": -61.28969406049369, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-04-00", "episode_len_mean": 9.974789915966387, "timesteps_total": 1245600, "episode_reward_mean": -5.1005725232343115, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.88196849822998, "training_iteration": 1038, "info": {"default": {"policy_loss": -0.11620084196329117, "vf_explained_var": 0.20995210111141205, "vf_loss": 96.24845886230469, "kl": 0.011713325046002865, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.321390151977539, "total_loss": 96.19229888916016}, "sample_time_ms": 34862.578, "num_steps_trained": 1245600, "num_steps_sampled": 1245600, "update_time_ms": 2.58, "grad_time_ms": 375.664, "load_time_ms": 0.672}, "iterations_since_restore": 1038, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 40767.1727142334, "episodes_total": 55357, "episode_reward_max": 8.000099198799077, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 40767.1727142334, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 121, "timestamp": 1757095478, "timesteps_since_restore": 1246800, "episode_reward_min": -64.55012179654511, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-04-38", "episode_len_mean": 9.975206611570249, "timesteps_total": 1246800, "episode_reward_mean": -5.1413428559538765, "num_metric_batches_dropped": 0, "time_this_iter_s": 37.912992000579834, "training_iteration": 1039, "info": {"default": {"policy_loss": -0.1184704452753067, "vf_explained_var": 0.1825794130563736, "vf_loss": 95.18687438964844, "kl": 0.009322736412286758, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.9169464111328125, "total_loss": 95.11619567871094}, "sample_time_ms": 35123.523, "num_steps_trained": 1246800, "num_steps_sampled": 1246800, "update_time_ms": 2.601, "grad_time_ms": 376.03, "load_time_ms": 0.676}, "iterations_since_restore": 1039, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 40803.9327480793, "episodes_total": 55460, "episode_reward_max": 8.000058673160007, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 40803.9327480793, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 103, "timestamp": 1757095515, "timesteps_since_restore": 1248000, "episode_reward_min": -63.83848170057922, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-05-15", "episode_len_mean": 11.485436893203884, "timesteps_total": 1248000, "episode_reward_mean": -7.5367095206128925, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.76003384590149, "training_iteration": 1040, "info": {"default": {"policy_loss": -0.13233858346939087, "vf_explained_var": 0.19920474290847778, "vf_loss": 130.42388916015625, "kl": 0.009596601128578186, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.164429664611816, "total_loss": 130.3407440185547}, "sample_time_ms": 35260.477, "num_steps_trained": 1248000, "num_steps_sampled": 1248000, "update_time_ms": 2.641, "grad_time_ms": 375.293, "load_time_ms": 0.68}, "iterations_since_restore": 1040, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 40838.975217580795, "episodes_total": 55590, "episode_reward_max": 8.00000040000366, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 40838.975217580795, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 130, "timestamp": 1757095550, "timesteps_since_restore": 1249200, "episode_reward_min": -45.814246209250655, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-05-50", "episode_len_mean": 9.407692307692308, "timesteps_total": 1249200, "episode_reward_mean": -4.380635225759338, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.04246950149536, "training_iteration": 1041, "info": {"default": {"policy_loss": -0.12559056282043457, "vf_explained_var": 0.20404785871505737, "vf_loss": 97.23377990722656, "kl": 0.01021752692759037, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.134868144989014, "total_loss": 97.16055297851562}, "sample_time_ms": 35247.937, "num_steps_trained": 1249200, "num_steps_sampled": 1249200, "update_time_ms": 2.582, "grad_time_ms": 375.703, "load_time_ms": 0.69}, "iterations_since_restore": 1041, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 40874.06280565262, "episodes_total": 55709, "episode_reward_max": 8.00004472288164, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 40874.06280565262, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 119, "timestamp": 1757095585, "timesteps_since_restore": 1250400, "episode_reward_min": -66.5417554422719, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-06-25", "episode_len_mean": 10.084033613445378, "timesteps_total": 1250400, "episode_reward_mean": -5.332353113295943, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.08758807182312, "training_iteration": 1042, "info": {"default": {"policy_loss": -0.12370876222848892, "vf_explained_var": 0.2230892926454544, "vf_loss": 106.26766967773438, "kl": 0.008196087554097176, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.24982738494873, "total_loss": 106.18596649169922}, "sample_time_ms": 35284.69, "num_steps_trained": 1250400, "num_steps_sampled": 1250400, "update_time_ms": 2.53, "grad_time_ms": 374.14, "load_time_ms": 0.679}, "iterations_since_restore": 1042, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 40909.30058979988, "episodes_total": 55820, "episode_reward_max": 8.000000400000243, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 40909.30058979988, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 111, "timestamp": 1757095620, "timesteps_since_restore": 1251600, "episode_reward_min": -78.86868343212043, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-07-00", "episode_len_mean": 10.846846846846846, "timesteps_total": 1251600, "episode_reward_mean": -6.646824575108271, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.23778414726257, "training_iteration": 1043, "info": {"default": {"policy_loss": -0.11732237786054611, "vf_explained_var": 0.17906194925308228, "vf_loss": 148.35316467285156, "kl": 0.011110532097518444, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.139554023742676, "total_loss": 148.29278564453125}, "sample_time_ms": 35267.15, "num_steps_trained": 1251600, "num_steps_sampled": 1251600, "update_time_ms": 2.522, "grad_time_ms": 374.976, "load_time_ms": 0.681}, "iterations_since_restore": 1043, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 40946.23479652405, "episodes_total": 55947, "episode_reward_max": 8.00000040002894, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 40946.23479652405, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 127, "timestamp": 1757095657, "timesteps_since_restore": 1252800, "episode_reward_min": -78.98343378037151, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-07-37", "episode_len_mean": 9.21259842519685, "timesteps_total": 1252800, "episode_reward_mean": -4.3214557719008395, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.93420672416687, "training_iteration": 1044, "info": {"default": {"policy_loss": -0.11031360924243927, "vf_explained_var": 0.1598307490348816, "vf_loss": 170.56976318359375, "kl": 0.008773012086749077, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.279062271118164, "total_loss": 170.50442504882812}, "sample_time_ms": 35395.135, "num_steps_trained": 1252800, "num_steps_sampled": 1252800, "update_time_ms": 2.503, "grad_time_ms": 374.0, "load_time_ms": 0.683}, "iterations_since_restore": 1044, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 40983.05739927292, "episodes_total": 56102, "episode_reward_max": 6.000998991365988, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 40983.05739927292, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 155, "timestamp": 1757095694, "timesteps_since_restore": 1254000, "episode_reward_min": -56.34554949454666, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-08-14", "episode_len_mean": 7.95483870967742, "timesteps_total": 1254000, "episode_reward_mean": -2.06610601044217, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.82260274887085, "training_iteration": 1045, "info": {"default": {"policy_loss": -0.10734494030475616, "vf_explained_var": 0.22151429951190948, "vf_loss": 65.84112548828125, "kl": 0.009654716588556767, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.512316703796387, "total_loss": 65.78327178955078}, "sample_time_ms": 35581.859, "num_steps_trained": 1254000, "num_steps_sampled": 1254000, "update_time_ms": 2.497, "grad_time_ms": 372.759, "load_time_ms": 0.673}, "iterations_since_restore": 1045, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 41019.227496385574, "episodes_total": 56232, "episode_reward_max": 8.000044535605923, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 41019.227496385574, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 130, "timestamp": 1757095730, "timesteps_since_restore": 1255200, "episode_reward_min": -52.57377927107771, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-08-50", "episode_len_mean": 9.176923076923076, "timesteps_total": 1255200, "episode_reward_mean": -4.045636631220995, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.17009711265564, "training_iteration": 1046, "info": {"default": {"policy_loss": -0.12273495644330978, "vf_explained_var": 0.20155508816242218, "vf_loss": 86.79630279541016, "kl": 0.010375716723501682, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.226247787475586, "total_loss": 86.72675323486328}, "sample_time_ms": 35593.162, "num_steps_trained": 1255200, "num_steps_sampled": 1255200, "update_time_ms": 2.512, "grad_time_ms": 374.394, "load_time_ms": 0.68}, "iterations_since_restore": 1046, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 41054.52377009392, "episodes_total": 56371, "episode_reward_max": 8.000000503388407, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 41054.52377009392, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 139, "timestamp": 1757095765, "timesteps_since_restore": 1256400, "episode_reward_min": -43.90959775523023, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-09-25", "episode_len_mean": 8.446043165467627, "timesteps_total": 1256400, "episode_reward_mean": -2.9009046487845365, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.296273708343506, "training_iteration": 1047, "info": {"default": {"policy_loss": -0.11975068598985672, "vf_explained_var": 0.22147858142852783, "vf_loss": 90.74801635742188, "kl": 0.009266972541809082, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.872923851013184, "total_loss": 90.67576599121094}, "sample_time_ms": 35633.833, "num_steps_trained": 1256400, "num_steps_sampled": 1256400, "update_time_ms": 2.52, "grad_time_ms": 372.56, "load_time_ms": 0.661}, "iterations_since_restore": 1047, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 41090.441083431244, "episodes_total": 56508, "episode_reward_max": 8.000000400002737, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 41090.441083431244, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 137, "timestamp": 1757095801, "timesteps_since_restore": 1257600, "episode_reward_min": -54.84342617246065, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-10-01", "episode_len_mean": 8.934306569343066, "timesteps_total": 1257600, "episode_reward_mean": -3.6180227807818475, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.91731333732605, "training_iteration": 1048, "info": {"default": {"policy_loss": -0.1191975399851799, "vf_explained_var": 0.1880951225757599, "vf_loss": 103.31175231933594, "kl": 0.008218889124691486, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.1010565757751465, "total_loss": 103.23468017578125}, "sample_time_ms": 35738.278, "num_steps_trained": 1257600, "num_steps_sampled": 1257600, "update_time_ms": 2.51, "grad_time_ms": 371.649, "load_time_ms": 0.656}, "iterations_since_restore": 1048, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 41125.60143017769, "episodes_total": 56636, "episode_reward_max": 8.000200313375244, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 41125.60143017769, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 128, "timestamp": 1757095837, "timesteps_since_restore": 1258800, "episode_reward_min": -55.072796120840664, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-10-37", "episode_len_mean": 9.3671875, "timesteps_total": 1258800, "episode_reward_mean": -4.243147006857502, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.1603467464447, "training_iteration": 1049, "info": {"default": {"policy_loss": -0.11013790220022202, "vf_explained_var": 0.1655057817697525, "vf_loss": 107.08817291259766, "kl": 0.01004073303192854, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.295900821685791, "total_loss": 107.02950286865234}, "sample_time_ms": 35463.53, "num_steps_trained": 1258800, "num_steps_sampled": 1258800, "update_time_ms": 2.502, "grad_time_ms": 371.162, "load_time_ms": 0.662}, "iterations_since_restore": 1049, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 41160.7089099884, "episodes_total": 56764, "episode_reward_max": 8.000276487822415, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 41160.7089099884, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 128, "timestamp": 1757095872, "timesteps_since_restore": 1260000, "episode_reward_min": -49.633147082688204, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-11-12", "episode_len_mean": 9.265625, "timesteps_total": 1260000, "episode_reward_mean": -4.126519414506946, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.10747981071472, "training_iteration": 1050, "info": {"default": {"policy_loss": -0.12663142383098602, "vf_explained_var": 0.21627479791641235, "vf_loss": 82.06053161621094, "kl": 0.010636978782713413, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.670612812042236, "total_loss": 81.98841857910156}, "sample_time_ms": 35298.886, "num_steps_trained": 1260000, "num_steps_sampled": 1260000, "update_time_ms": 2.499, "grad_time_ms": 370.55, "load_time_ms": 0.661}, "iterations_since_restore": 1050, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 41196.04637312889, "episodes_total": 56888, "episode_reward_max": 8.00000040000494, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 41196.04637312889, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 124, "timestamp": 1757095907, "timesteps_since_restore": 1261200, "episode_reward_min": -50.457111888677574, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-11-47", "episode_len_mean": 9.637096774193548, "timesteps_total": 1261200, "episode_reward_mean": -4.7511733331490635, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.33746314048767, "training_iteration": 1051, "info": {"default": {"policy_loss": -0.12067697942256927, "vf_explained_var": 0.19408079981803894, "vf_loss": 111.39344787597656, "kl": 0.008586183190345764, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.56718635559082, "total_loss": 111.31678771972656}, "sample_time_ms": 35329.838, "num_steps_trained": 1261200, "num_steps_sampled": 1261200, "update_time_ms": 2.507, "grad_time_ms": 369.087, "load_time_ms": 0.657}, "iterations_since_restore": 1051, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 41231.15721988678, "episodes_total": 56997, "episode_reward_max": 8.000198033464496, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 41231.15721988678, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 109, "timestamp": 1757095942, "timesteps_since_restore": 1262400, "episode_reward_min": -62.421553364364144, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-12-22", "episode_len_mean": 10.807339449541285, "timesteps_total": 1262400, "episode_reward_mean": -6.6307220726423335, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.110846757888794, "training_iteration": 1052, "info": {"default": {"policy_loss": -0.12226208299398422, "vf_explained_var": 0.17500878870487213, "vf_loss": 151.01708984375, "kl": 0.012344527058303356, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.52909517288208, "total_loss": 150.95811462402344}, "sample_time_ms": 35330.217, "num_steps_trained": 1262400, "num_steps_sampled": 1262400, "update_time_ms": 2.498, "grad_time_ms": 371.028, "load_time_ms": 0.668}, "iterations_since_restore": 1052, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 41267.185742378235, "episodes_total": 57133, "episode_reward_max": 6.000387479868269, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 41267.185742378235, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 136, "timestamp": 1757095978, "timesteps_since_restore": 1263600, "episode_reward_min": -60.860712053938826, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-12-58", "episode_len_mean": 9.169117647058824, "timesteps_total": 1263600, "episode_reward_mean": -4.035597778428455, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.02852249145508, "training_iteration": 1053, "info": {"default": {"policy_loss": -0.13224802911281586, "vf_explained_var": 0.2464217096567154, "vf_loss": 74.10342407226562, "kl": 0.009003200568258762, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.8301239013671875, "total_loss": 74.017333984375}, "sample_time_ms": 35409.303, "num_steps_trained": 1263600, "num_steps_sampled": 1263600, "update_time_ms": 2.516, "grad_time_ms": 370.984, "load_time_ms": 0.665}, "iterations_since_restore": 1053, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 41301.817477703094, "episodes_total": 57244, "episode_reward_max": 8.001197962212727, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 41301.817477703094, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 111, "timestamp": 1757096013, "timesteps_since_restore": 1264800, "episode_reward_min": -77.82479665903884, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-13-33", "episode_len_mean": 10.801801801801801, "timesteps_total": 1264800, "episode_reward_mean": -6.57795757600819, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.63173532485962, "training_iteration": 1054, "info": {"default": {"policy_loss": -0.10911303758621216, "vf_explained_var": 0.16294114291667938, "vf_loss": 179.54388427734375, "kl": 0.010218318551778793, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 8.047563552856445, "total_loss": 179.48715209960938}, "sample_time_ms": 35178.724, "num_steps_trained": 1264800, "num_steps_sampled": 1264800, "update_time_ms": 2.566, "grad_time_ms": 371.268, "load_time_ms": 0.676}, "iterations_since_restore": 1054, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 41336.650787353516, "episodes_total": 57363, "episode_reward_max": 8.000000400298262, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 41336.650787353516, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 119, "timestamp": 1757096048, "timesteps_since_restore": 1266000, "episode_reward_min": -77.18028581630251, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-14-08", "episode_len_mean": 10.058823529411764, "timesteps_total": 1266000, "episode_reward_mean": -5.457435013531364, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.83330965042114, "training_iteration": 1055, "info": {"default": {"policy_loss": -0.12005526572465897, "vf_explained_var": 0.15100646018981934, "vf_loss": 129.5213165283203, "kl": 0.01158997043967247, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.5575714111328125, "total_loss": 129.46066284179688}, "sample_time_ms": 34979.675, "num_steps_trained": 1266000, "num_steps_sampled": 1266000, "update_time_ms": 2.579, "grad_time_ms": 371.381, "load_time_ms": 0.679}, "iterations_since_restore": 1055, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 41372.50407910347, "episodes_total": 57501, "episode_reward_max": 6.00110953729403, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 41372.50407910347, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 138, "timestamp": 1757096084, "timesteps_since_restore": 1267200, "episode_reward_min": -37.270763665675354, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-14-44", "episode_len_mean": 8.72463768115942, "timesteps_total": 1267200, "episode_reward_mean": -3.3183964135222417, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.853291749954224, "training_iteration": 1056, "info": {"default": {"policy_loss": -0.11215106397867203, "vf_explained_var": 0.2697192430496216, "vf_loss": 60.97687530517578, "kl": 0.008593219332396984, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.245663166046143, "total_loss": 60.90877151489258}, "sample_time_ms": 34949.534, "num_steps_trained": 1267200, "num_steps_sampled": 1267200, "update_time_ms": 2.596, "grad_time_ms": 369.844, "load_time_ms": 0.676}, "iterations_since_restore": 1056, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 41409.851729631424, "episodes_total": 57626, "episode_reward_max": 8.000000400083064, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 41409.851729631424, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 125, "timestamp": 1757096121, "timesteps_since_restore": 1268400, "episode_reward_min": -72.28020806319176, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-15-21", "episode_len_mean": 9.632, "timesteps_total": 1268400, "episode_reward_mean": -4.847342838001774, "num_metric_batches_dropped": 0, "time_this_iter_s": 37.3476505279541, "training_iteration": 1057, "info": {"default": {"policy_loss": -0.11195116490125656, "vf_explained_var": 0.19065706431865692, "vf_loss": 118.64130401611328, "kl": 0.009525300934910774, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.172064781188965, "total_loss": 118.57817840576172}, "sample_time_ms": 35152.917, "num_steps_trained": 1268400, "num_steps_sampled": 1268400, "update_time_ms": 2.557, "grad_time_ms": 371.679, "load_time_ms": 0.683}, "iterations_since_restore": 1057, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 41445.19121837616, "episodes_total": 57761, "episode_reward_max": 8.000056896739935, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 41445.19121837616, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 135, "timestamp": 1757096156, "timesteps_since_restore": 1269600, "episode_reward_min": -56.567404129656126, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-15-56", "episode_len_mean": 8.540740740740741, "timesteps_total": 1269600, "episode_reward_mean": -3.0290558198713438, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.33948874473572, "training_iteration": 1058, "info": {"default": {"policy_loss": -0.11635126173496246, "vf_explained_var": 0.21215730905532837, "vf_loss": 128.58676147460938, "kl": 0.00819331780076027, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.121279239654541, "total_loss": 128.5124053955078}, "sample_time_ms": 35095.007, "num_steps_trained": 1269600, "num_steps_sampled": 1269600, "update_time_ms": 2.559, "grad_time_ms": 371.787, "load_time_ms": 0.701}, "iterations_since_restore": 1058, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 41480.16603708267, "episodes_total": 57884, "episode_reward_max": 8.000075927527607, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 41480.16603708267, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 123, "timestamp": 1757096191, "timesteps_since_restore": 1270800, "episode_reward_min": -78.40434634434773, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-16-31", "episode_len_mean": 9.983739837398375, "timesteps_total": 1270800, "episode_reward_mean": -5.285983727311681, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.97481870651245, "training_iteration": 1059, "info": {"default": {"policy_loss": -0.12235866487026215, "vf_explained_var": 0.14354991912841797, "vf_loss": 116.12594604492188, "kl": 0.010377269238233566, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.576328754425049, "total_loss": 116.05677795410156}, "sample_time_ms": 35076.014, "num_steps_trained": 1270800, "num_steps_sampled": 1270800, "update_time_ms": 2.578, "grad_time_ms": 372.231, "load_time_ms": 0.694}, "iterations_since_restore": 1059, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 41515.44655895233, "episodes_total": 58010, "episode_reward_max": 8.000000450307626, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 41515.44655895233, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 126, "timestamp": 1757096227, "timesteps_since_restore": 1272000, "episode_reward_min": -43.849142801345174, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-17-07", "episode_len_mean": 9.285714285714286, "timesteps_total": 1272000, "episode_reward_mean": -4.160515174649674, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.280521869659424, "training_iteration": 1060, "info": {"default": {"policy_loss": -0.11926746368408203, "vf_explained_var": 0.20589381456375122, "vf_loss": 116.67868041992188, "kl": 0.009465302340686321, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.709900856018066, "total_loss": 116.60792541503906}, "sample_time_ms": 35090.722, "num_steps_trained": 1272000, "num_steps_sampled": 1272000, "update_time_ms": 2.527, "grad_time_ms": 374.813, "load_time_ms": 0.717}, "iterations_since_restore": 1060, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 41550.62980937958, "episodes_total": 58147, "episode_reward_max": 8.000000916819427, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 41550.62980937958, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 137, "timestamp": 1757096262, "timesteps_since_restore": 1273200, "episode_reward_min": -51.59198077168121, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-17-42", "episode_len_mean": 9.043795620437956, "timesteps_total": 1273200, "episode_reward_mean": -3.7797708324371406, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.183250427246094, "training_iteration": 1061, "info": {"default": {"policy_loss": -0.11180783808231354, "vf_explained_var": 0.20275749266147614, "vf_loss": 103.89364624023438, "kl": 0.008266907185316086, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.5630292892456055, "total_loss": 103.82421875}, "sample_time_ms": 35075.115, "num_steps_trained": 1273200, "num_steps_sampled": 1273200, "update_time_ms": 2.563, "grad_time_ms": 374.882, "load_time_ms": 0.713}, "iterations_since_restore": 1061, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 41585.724360227585, "episodes_total": 58278, "episode_reward_max": 8.000000400003982, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 41585.724360227585, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 131, "timestamp": 1757096297, "timesteps_since_restore": 1274400, "episode_reward_min": -52.05168337717201, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-18-17", "episode_len_mean": 8.83206106870229, "timesteps_total": 1274400, "episode_reward_mean": -3.4655284745583157, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.0945508480072, "training_iteration": 1062, "info": {"default": {"policy_loss": -0.11710090190172195, "vf_explained_var": 0.2148493379354477, "vf_loss": 111.39927673339844, "kl": 0.008988143876194954, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.188352584838867, "total_loss": 111.3282470703125}, "sample_time_ms": 35075.372, "num_steps_trained": 1274400, "num_steps_sampled": 1274400, "update_time_ms": 2.587, "grad_time_ms": 372.912, "load_time_ms": 0.697}, "iterations_since_restore": 1062, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 41620.941140413284, "episodes_total": 58402, "episode_reward_max": 8.000000982353223, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 41620.941140413284, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 124, "timestamp": 1757096332, "timesteps_since_restore": 1275600, "episode_reward_min": -53.38241950303812, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-18-52", "episode_len_mean": 10.137096774193548, "timesteps_total": 1275600, "episode_reward_mean": -5.473334967682067, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.21678018569946, "training_iteration": 1063, "info": {"default": {"policy_loss": -0.12936630845069885, "vf_explained_var": 0.19188624620437622, "vf_loss": 88.34815216064453, "kl": 0.009704195894300938, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.5122222900390625, "total_loss": 88.26851654052734}, "sample_time_ms": 34993.804, "num_steps_trained": 1275600, "num_steps_sampled": 1275600, "update_time_ms": 2.599, "grad_time_ms": 373.256, "load_time_ms": 0.697}, "iterations_since_restore": 1063, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 41656.395694971085, "episodes_total": 58518, "episode_reward_max": 10.0, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 41656.395694971085, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 116, "timestamp": 1757096368, "timesteps_since_restore": 1276800, "episode_reward_min": -80.6866162347679, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-19-28", "episode_len_mean": 10.155172413793103, "timesteps_total": 1276800, "episode_reward_mean": -5.826656657010764, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.45455455780029, "training_iteration": 1064, "info": {"default": {"policy_loss": -0.12001272290945053, "vf_explained_var": 0.15609456598758698, "vf_loss": 220.91310119628906, "kl": 0.00914947409182787, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.562986373901367, "total_loss": 220.83998107910156}, "sample_time_ms": 35077.722, "num_steps_trained": 1276800, "num_steps_sampled": 1276800, "update_time_ms": 2.56, "grad_time_ms": 371.666, "load_time_ms": 0.681}, "iterations_since_restore": 1064, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 41691.35424852371, "episodes_total": 58643, "episode_reward_max": 8.000333094927754, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 41691.35424852371, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 125, "timestamp": 1757096403, "timesteps_since_restore": 1278000, "episode_reward_min": -47.29209606209032, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-20-03", "episode_len_mean": 9.536, "timesteps_total": 1278000, "episode_reward_mean": -4.543642213740744, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.95855355262756, "training_iteration": 1065, "info": {"default": {"policy_loss": -0.1410737782716751, "vf_explained_var": 0.2363644391298294, "vf_loss": 96.36259460449219, "kl": 0.010430566035211086, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.431648254394531, "total_loss": 96.27499389648438}, "sample_time_ms": 35091.77, "num_steps_trained": 1278000, "num_steps_sampled": 1278000, "update_time_ms": 2.545, "grad_time_ms": 370.208, "load_time_ms": 0.681}, "iterations_since_restore": 1065, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 41727.36363649368, "episodes_total": 58778, "episode_reward_max": 10.0, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 41727.36363649368, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 135, "timestamp": 1757096439, "timesteps_since_restore": 1279200, "episode_reward_min": -77.5012370019609, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-20-39", "episode_len_mean": 8.940740740740742, "timesteps_total": 1279200, "episode_reward_mean": -3.804293825031862, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.0093879699707, "training_iteration": 1066, "info": {"default": {"policy_loss": -0.11944323033094406, "vf_explained_var": 0.23260392248630524, "vf_loss": 171.80661010742188, "kl": 0.008570391684770584, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.19964075088501, "total_loss": 171.73110961914062}, "sample_time_ms": 35105.384, "num_steps_trained": 1279200, "num_steps_sampled": 1279200, "update_time_ms": 2.568, "grad_time_ms": 372.16, "load_time_ms": 0.693}, "iterations_since_restore": 1066, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 41762.610298871994, "episodes_total": 58902, "episode_reward_max": 8.000000401474878, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 41762.610298871994, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 124, "timestamp": 1757096474, "timesteps_since_restore": 1280400, "episode_reward_min": -78.19013986995664, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-21-14", "episode_len_mean": 9.693548387096774, "timesteps_total": 1280400, "episode_reward_mean": -4.827352404969679, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.24666237831116, "training_iteration": 1067, "info": {"default": {"policy_loss": -0.12285438925027847, "vf_explained_var": 0.17052987217903137, "vf_loss": 116.40573120117188, "kl": 0.009920698590576649, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.29315710067749, "total_loss": 116.33372497558594}, "sample_time_ms": 34894.386, "num_steps_trained": 1280400, "num_steps_sampled": 1280400, "update_time_ms": 2.601, "grad_time_ms": 373.016, "load_time_ms": 0.687}, "iterations_since_restore": 1067, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 41798.39878773689, "episodes_total": 59027, "episode_reward_max": 8.000071110705829, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 41798.39878773689, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 125, "timestamp": 1757096510, "timesteps_since_restore": 1281600, "episode_reward_min": -62.38179721302777, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-21-50", "episode_len_mean": 9.528, "timesteps_total": 1281600, "episode_reward_mean": -4.560077272254501, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.78848886489868, "training_iteration": 1068, "info": {"default": {"policy_loss": -0.11153826117515564, "vf_explained_var": 0.20338745415210724, "vf_loss": 126.82374572753906, "kl": 0.012118048034608364, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.281728744506836, "total_loss": 126.77432250976562}, "sample_time_ms": 34940.924, "num_steps_trained": 1281600, "num_steps_sampled": 1281600, "update_time_ms": 2.599, "grad_time_ms": 371.385, "load_time_ms": 0.674}, "iterations_since_restore": 1068, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 41833.812287807465, "episodes_total": 59159, "episode_reward_max": 8.000283318892707, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 41833.812287807465, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 132, "timestamp": 1757096545, "timesteps_since_restore": 1282800, "episode_reward_min": -75.44166220935838, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-22-25", "episode_len_mean": 8.901515151515152, "timesteps_total": 1282800, "episode_reward_mean": -3.6968572571382308, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.4135000705719, "training_iteration": 1069, "info": {"default": {"policy_loss": -0.09952572733163834, "vf_explained_var": 0.17746132612228394, "vf_loss": 132.6049041748047, "kl": 0.008286849595606327, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.248167991638184, "total_loss": 132.54783630371094}, "sample_time_ms": 34985.092, "num_steps_trained": 1282800, "num_steps_sampled": 1282800, "update_time_ms": 2.577, "grad_time_ms": 371.11, "load_time_ms": 0.678}, "iterations_since_restore": 1069, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 41872.11049461365, "episodes_total": 59294, "episode_reward_max": 8.00000077595417, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 41872.11049461365, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 135, "timestamp": 1757096583, "timesteps_since_restore": 1284000, "episode_reward_min": -48.05873724125668, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-23-03", "episode_len_mean": 9.14074074074074, "timesteps_total": 1284000, "episode_reward_mean": -3.9019601414568923, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.29820680618286, "training_iteration": 1070, "info": {"default": {"policy_loss": -0.12597282230854034, "vf_explained_var": 0.21041114628314972, "vf_loss": 91.32200622558594, "kl": 0.010119245387613773, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.265491962432861, "total_loss": 91.2479019165039}, "sample_time_ms": 35289.327, "num_steps_trained": 1284000, "num_steps_sampled": 1284000, "update_time_ms": 2.574, "grad_time_ms": 368.645, "load_time_ms": 0.663}, "iterations_since_restore": 1070, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 41908.83816361427, "episodes_total": 59434, "episode_reward_max": 8.000000400000046, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 41908.83816361427, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 140, "timestamp": 1757096620, "timesteps_since_restore": 1285200, "episode_reward_min": -79.2900062922291, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-23-40", "episode_len_mean": 8.635714285714286, "timesteps_total": 1285200, "episode_reward_mean": -3.2222741911800052, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.72766900062561, "training_iteration": 1071, "info": {"default": {"policy_loss": -0.109254851937294, "vf_explained_var": 0.1875324547290802, "vf_loss": 125.83356475830078, "kl": 0.008466587401926517, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.827341079711914, "total_loss": 125.7677001953125}, "sample_time_ms": 35441.821, "num_steps_trained": 1285200, "num_steps_sampled": 1285200, "update_time_ms": 2.674, "grad_time_ms": 370.528, "load_time_ms": 0.674}, "iterations_since_restore": 1071, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 41945.20057320595, "episodes_total": 59555, "episode_reward_max": 8.000000400001667, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 41945.20057320595, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 121, "timestamp": 1757096657, "timesteps_since_restore": 1286400, "episode_reward_min": -79.52790803489921, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-24-17", "episode_len_mean": 9.570247933884298, "timesteps_total": 1286400, "episode_reward_mean": -4.80532638635113, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.362409591674805, "training_iteration": 1072, "info": {"default": {"policy_loss": -0.10741908103227615, "vf_explained_var": 0.18882131576538086, "vf_loss": 179.97898864746094, "kl": 0.010098733939230442, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.3710479736328125, "total_loss": 179.92333984375}, "sample_time_ms": 35567.461, "num_steps_trained": 1286400, "num_steps_sampled": 1286400, "update_time_ms": 2.66, "grad_time_ms": 371.751, "load_time_ms": 0.685}, "iterations_since_restore": 1072, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 41980.1275165081, "episodes_total": 59675, "episode_reward_max": 8.000064806023785, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 41980.1275165081, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 120, "timestamp": 1757096692, "timesteps_since_restore": 1287600, "episode_reward_min": -55.8795666119115, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-24-52", "episode_len_mean": 10.216666666666667, "timesteps_total": 1287600, "episode_reward_mean": -5.674959504600669, "num_metric_batches_dropped": 0, "time_this_iter_s": 34.92694330215454, "training_iteration": 1073, "info": {"default": {"policy_loss": -0.12031005322933197, "vf_explained_var": 0.20284181833267212, "vf_loss": 114.43069458007812, "kl": 0.010766558349132538, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.263716697692871, "total_loss": 114.36556243896484}, "sample_time_ms": 35537.741, "num_steps_trained": 1287600, "num_steps_sampled": 1287600, "update_time_ms": 2.645, "grad_time_ms": 372.539, "load_time_ms": 0.69}, "iterations_since_restore": 1073, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 42016.3207359314, "episodes_total": 59818, "episode_reward_max": 10.0, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 42016.3207359314, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 143, "timestamp": 1757096728, "timesteps_since_restore": 1288800, "episode_reward_min": -43.83645077959735, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-25-28", "episode_len_mean": 8.51048951048951, "timesteps_total": 1288800, "episode_reward_mean": -3.0313032215501186, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.19321942329407, "training_iteration": 1074, "info": {"default": {"policy_loss": -0.11065176129341125, "vf_explained_var": 0.27068936824798584, "vf_loss": 70.537841796875, "kl": 0.007973925210535526, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.67398738861084, "total_loss": 70.46807098388672}, "sample_time_ms": 35610.029, "num_steps_trained": 1288800, "num_steps_sampled": 1288800, "update_time_ms": 2.636, "grad_time_ms": 374.117, "load_time_ms": 0.693}, "iterations_since_restore": 1074, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 42052.30822491646, "episodes_total": 59958, "episode_reward_max": 8.000067763910895, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 42052.30822491646, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 140, "timestamp": 1757096764, "timesteps_since_restore": 1290000, "episode_reward_min": -80.07508209635861, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-26-04", "episode_len_mean": 8.485714285714286, "timesteps_total": 1290000, "episode_reward_mean": -3.039557093710984, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.987488985061646, "training_iteration": 1075, "info": {"default": {"policy_loss": -0.12343721836805344, "vf_explained_var": 0.21450893580913544, "vf_loss": 132.20042419433594, "kl": 0.011243457905948162, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.641269683837891, "total_loss": 132.13462829589844}, "sample_time_ms": 35712.941, "num_steps_trained": 1290000, "num_steps_sampled": 1290000, "update_time_ms": 2.634, "grad_time_ms": 374.094, "load_time_ms": 0.7}, "iterations_since_restore": 1075, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 42088.01455783844, "episodes_total": 60098, "episode_reward_max": 8.000000434182386, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 42088.01455783844, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 140, "timestamp": 1757096800, "timesteps_since_restore": 1291200, "episode_reward_min": -52.91637758134284, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-26-40", "episode_len_mean": 8.592857142857143, "timesteps_total": 1291200, "episode_reward_mean": -3.136750504889308, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.70633292198181, "training_iteration": 1076, "info": {"default": {"policy_loss": -0.11185923218727112, "vf_explained_var": 0.2403353899717331, "vf_loss": 104.33921813964844, "kl": 0.009285829961299896, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.6388373374938965, "total_loss": 104.27495574951172}, "sample_time_ms": 35683.752, "num_steps_trained": 1291200, "num_steps_sampled": 1291200, "update_time_ms": 2.566, "grad_time_ms": 373.077, "load_time_ms": 0.673}, "iterations_since_restore": 1076, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 42123.279482364655, "episodes_total": 60232, "episode_reward_max": 8.000000400001596, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 42123.279482364655, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 134, "timestamp": 1757096835, "timesteps_since_restore": 1292400, "episode_reward_min": -78.84071311385618, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-27-15", "episode_len_mean": 8.865671641791044, "timesteps_total": 1292400, "episode_reward_mean": -3.5544176863290224, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.2649245262146, "training_iteration": 1077, "info": {"default": {"policy_loss": -0.12819740176200867, "vf_explained_var": 0.2021021544933319, "vf_loss": 80.01117706298828, "kl": 0.01030039507895708, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.9689812660217285, "total_loss": 79.93577575683594}, "sample_time_ms": 35685.376, "num_steps_trained": 1292400, "num_steps_sampled": 1292400, "update_time_ms": 2.555, "grad_time_ms": 373.262, "load_time_ms": 0.677}, "iterations_since_restore": 1077, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 42159.20250964165, "episodes_total": 60372, "episode_reward_max": 6.000519510175057, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 42159.20250964165, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 140, "timestamp": 1757096871, "timesteps_since_restore": 1293600, "episode_reward_min": -65.51413512190082, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-27-51", "episode_len_mean": 8.714285714285714, "timesteps_total": 1293600, "episode_reward_mean": -3.3123407574952, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.9230272769928, "training_iteration": 1078, "info": {"default": {"policy_loss": -0.09834770113229752, "vf_explained_var": 0.18497559428215027, "vf_loss": 111.51657104492188, "kl": 0.014400129206478596, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.6758294105529785, "total_loss": 111.49203491210938}, "sample_time_ms": 35696.238, "num_steps_trained": 1293600, "num_steps_sampled": 1293600, "update_time_ms": 2.552, "grad_time_ms": 375.851, "load_time_ms": 0.677}, "iterations_since_restore": 1078, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 42195.324135541916, "episodes_total": 60501, "episode_reward_max": 6.001367741068022, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 42195.324135541916, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 129, "timestamp": 1757096907, "timesteps_since_restore": 1294800, "episode_reward_min": -53.0453721917425, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-28-27", "episode_len_mean": 9.13953488372093, "timesteps_total": 1294800, "episode_reward_mean": -3.9690229351590656, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.121625900268555, "training_iteration": 1079, "info": {"default": {"policy_loss": -0.1167866662144661, "vf_explained_var": 0.2046145647764206, "vf_loss": 85.98819732666016, "kl": 0.013996820896863937, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.000118255615234, "total_loss": 85.94316101074219}, "sample_time_ms": 35766.574, "num_steps_trained": 1294800, "num_steps_sampled": 1294800, "update_time_ms": 2.569, "grad_time_ms": 376.271, "load_time_ms": 0.676}, "iterations_since_restore": 1079, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 42231.09437298775, "episodes_total": 60647, "episode_reward_max": 10.0, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 42231.09437298775, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 146, "timestamp": 1757096943, "timesteps_since_restore": 1296000, "episode_reward_min": -44.49540314762055, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-29-03", "episode_len_mean": 8.41095890410959, "timesteps_total": 1296000, "episode_reward_mean": -2.734161367835447, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.7702374458313, "training_iteration": 1080, "info": {"default": {"policy_loss": -0.11818502843379974, "vf_explained_var": 0.2251957207918167, "vf_loss": 71.02523040771484, "kl": 0.008511380292475224, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.546383857727051, "total_loss": 70.95068359375}, "sample_time_ms": 35512.991, "num_steps_trained": 1296000, "num_steps_sampled": 1296000, "update_time_ms": 2.569, "grad_time_ms": 377.043, "load_time_ms": 0.671}, "iterations_since_restore": 1080, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 42266.43791389465, "episodes_total": 60788, "episode_reward_max": 8.000115823080291, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 42266.43791389465, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 141, "timestamp": 1757096978, "timesteps_since_restore": 1297200, "episode_reward_min": -67.27570786931865, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-29-38", "episode_len_mean": 8.382978723404255, "timesteps_total": 1297200, "episode_reward_mean": -2.7426025839566255, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.34354090690613, "training_iteration": 1081, "info": {"default": {"policy_loss": -0.1237930953502655, "vf_explained_var": 0.2469831109046936, "vf_loss": 117.54946899414062, "kl": 0.009131606668233871, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.798279762268066, "total_loss": 117.47248077392578}, "sample_time_ms": 35375.817, "num_steps_trained": 1297200, "num_steps_sampled": 1297200, "update_time_ms": 2.507, "grad_time_ms": 375.856, "load_time_ms": 0.66}, "iterations_since_restore": 1081, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 42301.59221339226, "episodes_total": 60919, "episode_reward_max": 8.000000404252681, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 42301.59221339226, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 131, "timestamp": 1757097013, "timesteps_since_restore": 1298400, "episode_reward_min": -51.89359298381471, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-30-13", "episode_len_mean": 9.099236641221374, "timesteps_total": 1298400, "episode_reward_mean": -3.9716071122712813, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.15429949760437, "training_iteration": 1082, "info": {"default": {"policy_loss": -0.11831867694854736, "vf_explained_var": 0.22194136679172516, "vf_loss": 104.75618743896484, "kl": 0.011364879086613655, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.22453498840332, "total_loss": 104.69611358642578}, "sample_time_ms": 35254.188, "num_steps_trained": 1298400, "num_steps_sampled": 1298400, "update_time_ms": 2.528, "grad_time_ms": 376.599, "load_time_ms": 0.652}, "iterations_since_restore": 1082, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 42336.82833600044, "episodes_total": 61034, "episode_reward_max": 8.000000400002303, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 42336.82833600044, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 115, "timestamp": 1757097049, "timesteps_since_restore": 1299600, "episode_reward_min": -49.896825728118586, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-30-49", "episode_len_mean": 10.513043478260869, "timesteps_total": 1299600, "episode_reward_mean": -6.032862231108034, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.236122608184814, "training_iteration": 1083, "info": {"default": {"policy_loss": -0.1212892159819603, "vf_explained_var": 0.2048337757587433, "vf_loss": 90.93865203857422, "kl": 0.010053581558167934, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.321361064910889, "total_loss": 90.86890411376953}, "sample_time_ms": 35287.049, "num_steps_trained": 1299600, "num_steps_sampled": 1299600, "update_time_ms": 2.552, "grad_time_ms": 374.609, "load_time_ms": 0.648}, "iterations_since_restore": 1083, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 42372.8286447525, "episodes_total": 61184, "episode_reward_max": 8.00000040045841, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 42372.8286447525, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 150, "timestamp": 1757097085, "timesteps_since_restore": 1300800, "episode_reward_min": -49.7309833214901, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-31-25", "episode_len_mean": 8.113333333333333, "timesteps_total": 1300800, "episode_reward_mean": -2.2866453530491357, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.00030875205994, "training_iteration": 1084, "info": {"default": {"policy_loss": -0.1030973345041275, "vf_explained_var": 0.24811100959777832, "vf_loss": 74.7093505859375, "kl": 0.008414510637521744, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.527060031890869, "total_loss": 74.64938354492188}, "sample_time_ms": 35269.349, "num_steps_trained": 1300800, "num_steps_sampled": 1300800, "update_time_ms": 2.601, "grad_time_ms": 372.949, "load_time_ms": 0.65}, "iterations_since_restore": 1084, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 42408.66818356514, "episodes_total": 61318, "episode_reward_max": 10.0, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 42408.66818356514, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 134, "timestamp": 1757097120, "timesteps_since_restore": 1302000, "episode_reward_min": -60.466993010756894, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-32-00", "episode_len_mean": 8.970149253731343, "timesteps_total": 1302000, "episode_reward_mean": -3.636736681418772, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.83953881263733, "training_iteration": 1085, "info": {"default": {"policy_loss": -0.11389321833848953, "vf_explained_var": 0.23239199817180634, "vf_loss": 119.16624450683594, "kl": 0.009590145200490952, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.134589195251465, "total_loss": 119.10150909423828}, "sample_time_ms": 35252.125, "num_steps_trained": 1302000, "num_steps_sampled": 1302000, "update_time_ms": 2.626, "grad_time_ms": 375.279, "load_time_ms": 0.651}, "iterations_since_restore": 1085, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 42444.1878490448, "episodes_total": 61450, "episode_reward_max": 8.00000040018594, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 42444.1878490448, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 132, "timestamp": 1757097156, "timesteps_since_restore": 1303200, "episode_reward_min": -65.2641629448038, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-32-36", "episode_len_mean": 8.734848484848484, "timesteps_total": 1303200, "episode_reward_mean": -3.2600807540182566, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.519665479660034, "training_iteration": 1086, "info": {"default": {"policy_loss": -0.11555317044258118, "vf_explained_var": 0.21168525516986847, "vf_loss": 124.02194213867188, "kl": 0.008155842311680317, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.340273380279541, "total_loss": 123.94818878173828}, "sample_time_ms": 35234.47, "num_steps_trained": 1303200, "num_steps_sampled": 1303200, "update_time_ms": 2.673, "grad_time_ms": 374.209, "load_time_ms": 0.671}, "iterations_since_restore": 1086, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 42480.953323841095, "episodes_total": 61591, "episode_reward_max": 6.001501195522495, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 42480.953323841095, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 141, "timestamp": 1757097193, "timesteps_since_restore": 1304400, "episode_reward_min": -52.22703102487445, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-33-13", "episode_len_mean": 8.71631205673759, "timesteps_total": 1304400, "episode_reward_mean": -3.2774762147618155, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.765474796295166, "training_iteration": 1087, "info": {"default": {"policy_loss": -0.11669519543647766, "vf_explained_var": 0.23282299935817719, "vf_loss": 81.48845672607422, "kl": 0.009416457265615463, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.7736968994140625, "total_loss": 81.42002868652344}, "sample_time_ms": 35385.403, "num_steps_trained": 1304400, "num_steps_sampled": 1304400, "update_time_ms": 2.66, "grad_time_ms": 373.272, "load_time_ms": 0.675}, "iterations_since_restore": 1087, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 42516.86640071869, "episodes_total": 61731, "episode_reward_max": 8.000000402334573, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 42516.86640071869, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 140, "timestamp": 1757097229, "timesteps_since_restore": 1305600, "episode_reward_min": -49.2460514691344, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-33-49", "episode_len_mean": 8.414285714285715, "timesteps_total": 1305600, "episode_reward_mean": -2.884651536992989, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.913076877593994, "training_iteration": 1088, "info": {"default": {"policy_loss": -0.1109081581234932, "vf_explained_var": 0.2348117232322693, "vf_loss": 102.97415161132812, "kl": 0.010714646428823471, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.711946487426758, "total_loss": 102.91815948486328}, "sample_time_ms": 35384.584, "num_steps_trained": 1305600, "num_steps_sampled": 1305600, "update_time_ms": 2.677, "grad_time_ms": 373.069, "load_time_ms": 0.672}, "iterations_since_restore": 1088, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 42552.591024398804, "episodes_total": 61886, "episode_reward_max": 8.000000412861471, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 42552.591024398804, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 155, "timestamp": 1757097264, "timesteps_since_restore": 1306800, "episode_reward_min": -45.76476021765449, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-34-24", "episode_len_mean": 7.987096774193549, "timesteps_total": 1306800, "episode_reward_mean": -2.0248307974696167, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.724623680114746, "training_iteration": 1089, "info": {"default": {"policy_loss": -0.11348438262939453, "vf_explained_var": 0.3082660734653473, "vf_loss": 60.99759292602539, "kl": 0.008860092610120773, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.768611431121826, "total_loss": 60.92952346801758}, "sample_time_ms": 35345.161, "num_steps_trained": 1306800, "num_steps_sampled": 1306800, "update_time_ms": 2.675, "grad_time_ms": 372.768, "load_time_ms": 0.672}, "iterations_since_restore": 1089, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 42588.56548452377, "episodes_total": 62017, "episode_reward_max": 8.000000400002971, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 42588.56548452377, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 131, "timestamp": 1757097300, "timesteps_since_restore": 1308000, "episode_reward_min": -80.30596954560114, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-35-00", "episode_len_mean": 9.091603053435115, "timesteps_total": 1308000, "episode_reward_mean": -4.073057741699892, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.97446012496948, "training_iteration": 1090, "info": {"default": {"policy_loss": -0.1110319048166275, "vf_explained_var": 0.19781824946403503, "vf_loss": 180.512939453125, "kl": 0.008027820847928524, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.037665843963623, "total_loss": 180.44305419921875}, "sample_time_ms": 35366.345, "num_steps_trained": 1308000, "num_steps_sampled": 1308000, "update_time_ms": 2.75, "grad_time_ms": 371.961, "load_time_ms": 0.667}, "iterations_since_restore": 1090, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 42625.37565255165, "episodes_total": 62165, "episode_reward_max": 8.000000400010265, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 42625.37565255165, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 148, "timestamp": 1757097337, "timesteps_since_restore": 1309200, "episode_reward_min": -49.89658849946591, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-35-37", "episode_len_mean": 8.135135135135135, "timesteps_total": 1309200, "episode_reward_mean": -2.384984145778279, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.81016802787781, "training_iteration": 1091, "info": {"default": {"policy_loss": -0.12089427560567856, "vf_explained_var": 0.274739146232605, "vf_loss": 70.15644073486328, "kl": 0.010042572394013405, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.367823123931885, "total_loss": 70.08702087402344}, "sample_time_ms": 35512.436, "num_steps_trained": 1309200, "num_steps_sampled": 1309200, "update_time_ms": 2.741, "grad_time_ms": 372.583, "load_time_ms": 0.672}, "iterations_since_restore": 1091, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 42660.65102267265, "episodes_total": 62292, "episode_reward_max": 8.00000040000197, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 42660.65102267265, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 127, "timestamp": 1757097373, "timesteps_since_restore": 1310400, "episode_reward_min": -52.04242448726904, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-36-13", "episode_len_mean": 9.433070866141732, "timesteps_total": 1310400, "episode_reward_mean": -4.473913049274978, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.2753701210022, "training_iteration": 1092, "info": {"default": {"policy_loss": -0.11043056845664978, "vf_explained_var": 0.22001896798610687, "vf_loss": 84.71902465820312, "kl": 0.008953817188739777, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.754337787628174, "total_loss": 84.65448760986328}, "sample_time_ms": 35524.677, "num_steps_trained": 1310400, "num_steps_sampled": 1310400, "update_time_ms": 2.729, "grad_time_ms": 372.49, "load_time_ms": 0.677}, "iterations_since_restore": 1092, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 42697.001002788544, "episodes_total": 62428, "episode_reward_max": 8.000000995516604, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 42697.001002788544, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 136, "timestamp": 1757097409, "timesteps_since_restore": 1311600, "episode_reward_min": -79.65409837660509, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-36-49", "episode_len_mean": 8.735294117647058, "timesteps_total": 1311600, "episode_reward_mean": -3.346421762767978, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.3499801158905, "training_iteration": 1093, "info": {"default": {"policy_loss": -0.11844143271446228, "vf_explained_var": 0.21949909627437592, "vf_loss": 123.94940948486328, "kl": 0.008829833008348942, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.981110572814941, "total_loss": 123.87625122070312}, "sample_time_ms": 35635.462, "num_steps_trained": 1311600, "num_steps_sampled": 1311600, "update_time_ms": 2.717, "grad_time_ms": 373.114, "load_time_ms": 0.683}, "iterations_since_restore": 1093, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 42732.78098344803, "episodes_total": 62583, "episode_reward_max": 8.000382198920796, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 42732.78098344803, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 155, "timestamp": 1757097445, "timesteps_since_restore": 1312800, "episode_reward_min": -47.651618267429626, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-37-25", "episode_len_mean": 7.832258064516129, "timesteps_total": 1312800, "episode_reward_mean": -1.8649098979109486, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.77998065948486, "training_iteration": 1094, "info": {"default": {"policy_loss": -0.12002778053283691, "vf_explained_var": 0.24213218688964844, "vf_loss": 81.74490356445312, "kl": 0.009204200468957424, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.0657830238342285, "total_loss": 81.67205047607422}, "sample_time_ms": 35610.621, "num_steps_trained": 1312800, "num_steps_sampled": 1312800, "update_time_ms": 2.652, "grad_time_ms": 375.869, "load_time_ms": 0.701}, "iterations_since_restore": 1094, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 42768.99532389641, "episodes_total": 62726, "episode_reward_max": 8.000066807470871, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 42768.99532389641, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 143, "timestamp": 1757097481, "timesteps_since_restore": 1314000, "episode_reward_min": -65.01098543364364, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-38-01", "episode_len_mean": 8.265734265734265, "timesteps_total": 1314000, "episode_reward_mean": -2.5515999712456, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.21434044837952, "training_iteration": 1095, "info": {"default": {"policy_loss": -0.10998924821615219, "vf_explained_var": 0.28292515873908997, "vf_loss": 70.76078033447266, "kl": 0.010492037050426006, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.9502058029174805, "total_loss": 70.70457458496094}, "sample_time_ms": 35647.724, "num_steps_trained": 1314000, "num_steps_sampled": 1314000, "update_time_ms": 2.68, "grad_time_ms": 376.231, "load_time_ms": 0.697}, "iterations_since_restore": 1095, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 42805.03571295738, "episodes_total": 62871, "episode_reward_max": 8.00000040280208, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 42805.03571295738, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 145, "timestamp": 1757097517, "timesteps_since_restore": 1315200, "episode_reward_min": -54.05285927164357, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-38-37", "episode_len_mean": 8.386206896551725, "timesteps_total": 1315200, "episode_reward_mean": -2.8488842979648177, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.04038906097412, "training_iteration": 1096, "info": {"default": {"policy_loss": -0.1113915964961052, "vf_explained_var": 0.2248203456401825, "vf_loss": 91.30581665039062, "kl": 0.009744285605847836, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.4739603996276855, "total_loss": 91.24436950683594}, "sample_time_ms": 35698.755, "num_steps_trained": 1315200, "num_steps_sampled": 1315200, "update_time_ms": 2.656, "grad_time_ms": 377.331, "load_time_ms": 0.685}, "iterations_since_restore": 1096, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 42841.37750124931, "episodes_total": 63007, "episode_reward_max": 8.000000401714102, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 42841.37750124931, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 136, "timestamp": 1757097553, "timesteps_since_restore": 1316400, "episode_reward_min": -77.75559441431464, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-39-13", "episode_len_mean": 8.794117647058824, "timesteps_total": 1316400, "episode_reward_mean": -3.4633309707642193, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.34178829193115, "training_iteration": 1097, "info": {"default": {"policy_loss": -0.09848064184188843, "vf_explained_var": 0.22144925594329834, "vf_loss": 110.82080841064453, "kl": 0.009748435579240322, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.749791622161865, "total_loss": 110.77228546142578}, "sample_time_ms": 35655.631, "num_steps_trained": 1316400, "num_steps_sampled": 1316400, "update_time_ms": 2.664, "grad_time_ms": 378.169, "load_time_ms": 0.679}, "iterations_since_restore": 1097, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 42877.17415881157, "episodes_total": 63166, "episode_reward_max": 8.000000401038305, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 42877.17415881157, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 159, "timestamp": 1757097589, "timesteps_since_restore": 1317600, "episode_reward_min": -46.7754374524286, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-39-49", "episode_len_mean": 7.59748427672956, "timesteps_total": 1317600, "episode_reward_mean": -1.5497804875619363, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.79665756225586, "training_iteration": 1098, "info": {"default": {"policy_loss": -0.11270582675933838, "vf_explained_var": 0.26408207416534424, "vf_loss": 83.54415130615234, "kl": 0.010333145037293434, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.149466514587402, "total_loss": 83.48440551757812}, "sample_time_ms": 35644.618, "num_steps_trained": 1317600, "num_steps_sampled": 1317600, "update_time_ms": 2.641, "grad_time_ms": 377.514, "load_time_ms": 0.681}, "iterations_since_restore": 1098, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 42912.428099155426, "episodes_total": 63307, "episode_reward_max": 8.000149472459793, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 42912.428099155426, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 141, "timestamp": 1757097624, "timesteps_since_restore": 1318800, "episode_reward_min": -62.148906897506336, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-40-24", "episode_len_mean": 8.198581560283689, "timesteps_total": 1318800, "episode_reward_mean": -2.4016964008411485, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.25394034385681, "training_iteration": 1099, "info": {"default": {"policy_loss": -0.10758190602064133, "vf_explained_var": 0.1978403925895691, "vf_loss": 121.09632873535156, "kl": 0.010150027461349964, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.676185607910156, "total_loss": 121.040771484375}, "sample_time_ms": 35596.432, "num_steps_trained": 1318800, "num_steps_sampled": 1318800, "update_time_ms": 2.642, "grad_time_ms": 378.676, "load_time_ms": 0.679}, "iterations_since_restore": 1099, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 42950.98741054535, "episodes_total": 63472, "episode_reward_max": 8.000000403529219, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 42950.98741054535, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 165, "timestamp": 1757097663, "timesteps_since_restore": 1320000, "episode_reward_min": -56.531559330152135, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-41-03", "episode_len_mean": 7.533333333333333, "timesteps_total": 1320000, "episode_reward_mean": -1.4332951956198265, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.559311389923096, "training_iteration": 1100, "info": {"default": {"policy_loss": -0.11809691041707993, "vf_explained_var": 0.28139472007751465, "vf_loss": 60.30595397949219, "kl": 0.009358993731439114, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.833959579467773, "total_loss": 60.23583221435547}, "sample_time_ms": 35854.949, "num_steps_trained": 1320000, "num_steps_sampled": 1320000, "update_time_ms": 2.574, "grad_time_ms": 378.704, "load_time_ms": 0.687}, "iterations_since_restore": 1100, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 42987.87524390221, "episodes_total": 63601, "episode_reward_max": 8.00012648203308, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 42987.87524390221, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 129, "timestamp": 1757097700, "timesteps_since_restore": 1321200, "episode_reward_min": -78.40551753757329, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-41-40", "episode_len_mean": 9.286821705426357, "timesteps_total": 1321200, "episode_reward_mean": -4.235664920492373, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.8878333568573, "training_iteration": 1101, "info": {"default": {"policy_loss": -0.10661876946687698, "vf_explained_var": 0.21369491517543793, "vf_loss": 130.22024536132812, "kl": 0.008371442556381226, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.345346450805664, "total_loss": 130.15655517578125}, "sample_time_ms": 35862.43, "num_steps_trained": 1321200, "num_steps_sampled": 1321200, "update_time_ms": 2.549, "grad_time_ms": 379.031, "load_time_ms": 0.693}, "iterations_since_restore": 1101, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 43023.06867980957, "episodes_total": 63749, "episode_reward_max": 8.000000688904196, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 43023.06867980957, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 148, "timestamp": 1757097735, "timesteps_since_restore": 1322400, "episode_reward_min": -47.10473469355326, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-42-15", "episode_len_mean": 8.175675675675675, "timesteps_total": 1322400, "episode_reward_mean": -2.3489459996945983, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.19343590736389, "training_iteration": 1102, "info": {"default": {"policy_loss": -0.12146571278572083, "vf_explained_var": 0.22572773694992065, "vf_loss": 68.98062896728516, "kl": 0.010499458760023117, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.126148700714111, "total_loss": 68.91299438476562}, "sample_time_ms": 35855.29, "num_steps_trained": 1322400, "num_steps_sampled": 1322400, "update_time_ms": 2.569, "grad_time_ms": 377.972, "load_time_ms": 0.696}, "iterations_since_restore": 1102, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 43058.34094595909, "episodes_total": 63883, "episode_reward_max": 6.0015993298377355, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 43058.34094595909, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 134, "timestamp": 1757097770, "timesteps_since_restore": 1323600, "episode_reward_min": -44.518652927583396, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-42-50", "episode_len_mean": 8.932835820895523, "timesteps_total": 1323600, "episode_reward_mean": -3.625644889523284, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.272266149520874, "training_iteration": 1103, "info": {"default": {"policy_loss": -0.12331215292215347, "vf_explained_var": 0.2229992002248764, "vf_loss": 87.96986389160156, "kl": 0.009545990265905857, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.920879364013672, "total_loss": 87.89547729492188}, "sample_time_ms": 35747.087, "num_steps_trained": 1323600, "num_steps_sampled": 1323600, "update_time_ms": 2.552, "grad_time_ms": 378.386, "load_time_ms": 0.705}, "iterations_since_restore": 1103, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 43094.71951794624, "episodes_total": 64025, "episode_reward_max": 8.000688214054465, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 43094.71951794624, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 142, "timestamp": 1757097807, "timesteps_since_restore": 1324800, "episode_reward_min": -57.224372190894314, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-43-27", "episode_len_mean": 8.316901408450704, "timesteps_total": 1324800, "episode_reward_mean": -2.6316438855506505, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.3785719871521, "training_iteration": 1104, "info": {"default": {"policy_loss": -0.10680226236581802, "vf_explained_var": 0.21493248641490936, "vf_loss": 102.64627838134766, "kl": 0.008653664961457253, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.596205711364746, "total_loss": 102.5838394165039}, "sample_time_ms": 35807.873, "num_steps_trained": 1324800, "num_steps_sampled": 1324800, "update_time_ms": 2.598, "grad_time_ms": 377.525, "load_time_ms": 0.683}, "iterations_since_restore": 1104, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 43130.16429257393, "episodes_total": 64162, "episode_reward_max": 8.000000431119146, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 43130.16429257393, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 137, "timestamp": 1757097842, "timesteps_since_restore": 1326000, "episode_reward_min": -57.49236614761924, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-44-02", "episode_len_mean": 8.912408759124087, "timesteps_total": 1326000, "episode_reward_mean": -3.533979763312978, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.44477462768555, "training_iteration": 1105, "info": {"default": {"policy_loss": -0.11288812756538391, "vf_explained_var": 0.2617175877094269, "vf_loss": 86.59912872314453, "kl": 0.0074300444684922695, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.569180011749268, "total_loss": 86.52432250976562}, "sample_time_ms": 35732.214, "num_steps_trained": 1326000, "num_steps_sampled": 1326000, "update_time_ms": 2.578, "grad_time_ms": 376.294, "load_time_ms": 0.686}, "iterations_since_restore": 1105, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 43166.08525323868, "episodes_total": 64316, "episode_reward_max": 8.000000517524963, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 43166.08525323868, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 154, "timestamp": 1757097878, "timesteps_since_restore": 1327200, "episode_reward_min": -41.01165772116855, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-44-38", "episode_len_mean": 7.6688311688311686, "timesteps_total": 1327200, "episode_reward_mean": -1.557166012018153, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.920960664749146, "training_iteration": 1106, "info": {"default": {"policy_loss": -0.11553634703159332, "vf_explained_var": 0.29436638951301575, "vf_loss": 64.52594757080078, "kl": 0.010516680777072906, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.343347072601318, "total_loss": 64.46431732177734}, "sample_time_ms": 35721.461, "num_steps_trained": 1327200, "num_steps_sampled": 1327200, "update_time_ms": 2.551, "grad_time_ms": 375.07, "load_time_ms": 0.689}, "iterations_since_restore": 1106, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 43201.37621879578, "episodes_total": 64455, "episode_reward_max": 8.000000400009188, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 43201.37621879578, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 139, "timestamp": 1757097914, "timesteps_since_restore": 1328400, "episode_reward_min": -79.0766988911277, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-45-14", "episode_len_mean": 8.762589928057555, "timesteps_total": 1328400, "episode_reward_mean": -3.3708506938154823, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.29096555709839, "training_iteration": 1107, "info": {"default": {"policy_loss": -0.10872405022382736, "vf_explained_var": 0.22938373684883118, "vf_loss": 115.94991302490234, "kl": 0.007984415628015995, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.05879020690918, "total_loss": 115.88211822509766}, "sample_time_ms": 35617.762, "num_steps_trained": 1328400, "num_steps_sampled": 1328400, "update_time_ms": 2.554, "grad_time_ms": 373.654, "load_time_ms": 0.704}, "iterations_since_restore": 1107, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 43237.3716378212, "episodes_total": 64624, "episode_reward_max": 10.0, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 43237.3716378212, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 169, "timestamp": 1757097950, "timesteps_since_restore": 1329600, "episode_reward_min": -45.87521918190615, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-45-50", "episode_len_mean": 6.988165680473373, "timesteps_total": 1329600, "episode_reward_mean": -0.5067944021778978, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.99541902542114, "training_iteration": 1108, "info": {"default": {"policy_loss": -0.11187713593244553, "vf_explained_var": 0.2759384214878082, "vf_loss": 70.08200073242188, "kl": 0.00859711691737175, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.7585272789001465, "total_loss": 70.0141830444336}, "sample_time_ms": 35636.633, "num_steps_trained": 1329600, "num_steps_sampled": 1329600, "update_time_ms": 2.572, "grad_time_ms": 374.653, "load_time_ms": 0.714}, "iterations_since_restore": 1108, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 43272.77924323082, "episodes_total": 64771, "episode_reward_max": 8.000000400413729, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 43272.77924323082, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 147, "timestamp": 1757097985, "timesteps_since_restore": 1330800, "episode_reward_min": -45.014674589067255, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-46-25", "episode_len_mean": 8.129251700680273, "timesteps_total": 1330800, "episode_reward_mean": -2.352876465671785, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.40760540962219, "training_iteration": 1109, "info": {"default": {"policy_loss": -0.1227853000164032, "vf_explained_var": 0.2561333179473877, "vf_loss": 80.70484924316406, "kl": 0.009166101925075054, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.298035144805908, "total_loss": 80.62904357910156}, "sample_time_ms": 35654.334, "num_steps_trained": 1330800, "num_steps_sampled": 1330800, "update_time_ms": 2.574, "grad_time_ms": 372.312, "load_time_ms": 0.723}, "iterations_since_restore": 1109, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 43308.667385578156, "episodes_total": 64941, "episode_reward_max": 6.001327662933232, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 43308.667385578156, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 170, "timestamp": 1757098021, "timesteps_since_restore": 1332000, "episode_reward_min": -50.242242787596325, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-47-01", "episode_len_mean": 7.117647058823529, "timesteps_total": 1332000, "episode_reward_mean": -0.7901402301671472, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.888142347335815, "training_iteration": 1110, "info": {"default": {"policy_loss": -0.10116276890039444, "vf_explained_var": 0.29253238439559937, "vf_loss": 54.23419189453125, "kl": 0.0077062007039785385, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.585482597351074, "total_loss": 54.17253112792969}, "sample_time_ms": 35385.299, "num_steps_trained": 1332000, "num_steps_sampled": 1332000, "update_time_ms": 2.581, "grad_time_ms": 374.228, "load_time_ms": 0.722}, "iterations_since_restore": 1110, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 43344.46444749832, "episodes_total": 65098, "episode_reward_max": 8.00006015261268, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 43344.46444749832, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 157, "timestamp": 1757098057, "timesteps_since_restore": 1333200, "episode_reward_min": -36.59099731735716, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-47-37", "episode_len_mean": 7.681528662420382, "timesteps_total": 1333200, "episode_reward_mean": -1.6786316171711098, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.797061920166016, "training_iteration": 1111, "info": {"default": {"policy_loss": -0.11855198442935944, "vf_explained_var": 0.2934369444847107, "vf_loss": 51.864078521728516, "kl": 0.008273550309240818, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.979532241821289, "total_loss": 51.787940979003906}, "sample_time_ms": 35278.209, "num_steps_trained": 1333200, "num_steps_sampled": 1333200, "update_time_ms": 2.623, "grad_time_ms": 372.177, "load_time_ms": 0.712}, "iterations_since_restore": 1111, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 43380.50054240227, "episodes_total": 65247, "episode_reward_max": 8.00021254317517, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 43380.50054240227, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 149, "timestamp": 1757098093, "timesteps_since_restore": 1334400, "episode_reward_min": -76.08345309589066, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-48-13", "episode_len_mean": 8.080536912751677, "timesteps_total": 1334400, "episode_reward_mean": -2.311323979507067, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.03609490394592, "training_iteration": 1112, "info": {"default": {"policy_loss": -0.12054930627346039, "vf_explained_var": 0.27298790216445923, "vf_loss": 75.5219497680664, "kl": 0.009227766655385494, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.091401100158691, "total_loss": 75.4487075805664}, "sample_time_ms": 35361.493, "num_steps_trained": 1334400, "num_steps_sampled": 1334400, "update_time_ms": 2.612, "grad_time_ms": 373.127, "load_time_ms": 0.711}, "iterations_since_restore": 1112, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 43416.76354146004, "episodes_total": 65405, "episode_reward_max": 8.000023806545983, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 43416.76354146004, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 158, "timestamp": 1757098129, "timesteps_since_restore": 1335600, "episode_reward_min": -30.855592919382353, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-48-49", "episode_len_mean": 7.506329113924051, "timesteps_total": 1335600, "episode_reward_mean": -1.3099020701709592, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.262999057769775, "training_iteration": 1113, "info": {"default": {"policy_loss": -0.12001457810401917, "vf_explained_var": 0.2881053686141968, "vf_loss": 40.66267776489258, "kl": 0.010087944567203522, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.902350425720215, "total_loss": 40.59437561035156}, "sample_time_ms": 35460.106, "num_steps_trained": 1335600, "num_steps_sampled": 1335600, "update_time_ms": 2.642, "grad_time_ms": 373.492, "load_time_ms": 0.708}, "iterations_since_restore": 1113, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 43453.42825818062, "episodes_total": 65563, "episode_reward_max": 8.000019713412215, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 43453.42825818062, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 158, "timestamp": 1757098166, "timesteps_since_restore": 1336800, "episode_reward_min": -53.68824352696656, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-49-26", "episode_len_mean": 7.569620253164557, "timesteps_total": 1336800, "episode_reward_mean": -1.4136464257440131, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.664716720581055, "training_iteration": 1114, "info": {"default": {"policy_loss": -0.10779277235269547, "vf_explained_var": 0.260213166475296, "vf_loss": 91.63850402832031, "kl": 0.009945289231836796, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.246363639831543, "total_loss": 91.58168029785156}, "sample_time_ms": 35487.352, "num_steps_trained": 1336800, "num_steps_sampled": 1336800, "update_time_ms": 2.638, "grad_time_ms": 374.833, "load_time_ms": 0.724}, "iterations_since_restore": 1114, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 43490.84612059593, "episodes_total": 65729, "episode_reward_max": 8.000000400000019, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 43490.84612059593, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 166, "timestamp": 1757098203, "timesteps_since_restore": 1338000, "episode_reward_min": -45.106097141938356, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-50-03", "episode_len_mean": 7.36144578313253, "timesteps_total": 1338000, "episode_reward_mean": -1.135496458720861, "num_metric_batches_dropped": 0, "time_this_iter_s": 37.41786241531372, "training_iteration": 1115, "info": {"default": {"policy_loss": -0.10367204248905182, "vf_explained_var": 0.2758467495441437, "vf_loss": 67.42716217041016, "kl": 0.011756055988371372, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.715150833129883, "total_loss": 67.38375854492188}, "sample_time_ms": 35686.431, "num_steps_trained": 1338000, "num_steps_sampled": 1338000, "update_time_ms": 2.628, "grad_time_ms": 373.073, "load_time_ms": 0.721}, "iterations_since_restore": 1115, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 43525.94840812683, "episodes_total": 65870, "episode_reward_max": 8.000031795495074, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 43525.94840812683, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 141, "timestamp": 1757098238, "timesteps_since_restore": 1339200, "episode_reward_min": -50.78357310681173, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-50-38", "episode_len_mean": 8.333333333333334, "timesteps_total": 1339200, "episode_reward_mean": -2.7145886184806103, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.10228753089905, "training_iteration": 1116, "info": {"default": {"policy_loss": -0.10956326127052307, "vf_explained_var": 0.2253270447254181, "vf_loss": 100.20775604248047, "kl": 0.007961827330291271, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.300909042358398, "total_loss": 100.13900756835938}, "sample_time_ms": 35604.976, "num_steps_trained": 1339200, "num_steps_sampled": 1339200, "update_time_ms": 2.64, "grad_time_ms": 372.669, "load_time_ms": 0.721}, "iterations_since_restore": 1116, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 43561.30755329132, "episodes_total": 66020, "episode_reward_max": 8.000001158549473, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 43561.30755329132, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 150, "timestamp": 1757098274, "timesteps_since_restore": 1340400, "episode_reward_min": -77.3359222787567, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-51-14", "episode_len_mean": 8.106666666666667, "timesteps_total": 1340400, "episode_reward_mean": -2.3495291550253112, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.359145164489746, "training_iteration": 1117, "info": {"default": {"policy_loss": -0.10850787907838821, "vf_explained_var": 0.2148330956697464, "vf_loss": 116.01375579833984, "kl": 0.009563427418470383, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.493383407592773, "total_loss": 115.95426177978516}, "sample_time_ms": 35611.391, "num_steps_trained": 1340400, "num_steps_sampled": 1340400, "update_time_ms": 2.641, "grad_time_ms": 373.063, "load_time_ms": 0.712}, "iterations_since_restore": 1117, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 43596.97402238846, "episodes_total": 66150, "episode_reward_max": 8.000000400376793, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 43596.97402238846, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 130, "timestamp": 1757098309, "timesteps_since_restore": 1341600, "episode_reward_min": -54.779643684788184, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-51-49", "episode_len_mean": 9.284615384615385, "timesteps_total": 1341600, "episode_reward_mean": -4.1001848716959755, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.66646909713745, "training_iteration": 1118, "info": {"default": {"policy_loss": -0.12645862996578217, "vf_explained_var": 0.21087366342544556, "vf_loss": 98.35709381103516, "kl": 0.008595763705670834, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.339541912078857, "total_loss": 98.27470397949219}, "sample_time_ms": 35579.078, "num_steps_trained": 1341600, "num_steps_sampled": 1341600, "update_time_ms": 2.628, "grad_time_ms": 372.478, "load_time_ms": 0.706}, "iterations_since_restore": 1118, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 43632.51995110512, "episodes_total": 66288, "episode_reward_max": 8.000000400069036, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 43632.51995110512, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 138, "timestamp": 1757098345, "timesteps_since_restore": 1342800, "episode_reward_min": -43.670595409902525, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-52-25", "episode_len_mean": 8.695652173913043, "timesteps_total": 1342800, "episode_reward_mean": -3.234186972258206, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.545928716659546, "training_iteration": 1119, "info": {"default": {"policy_loss": -0.1208619549870491, "vf_explained_var": 0.24184635281562805, "vf_loss": 83.70880889892578, "kl": 0.008547261357307434, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.566776275634766, "total_loss": 83.63175201416016}, "sample_time_ms": 35591.946, "num_steps_trained": 1342800, "num_steps_sampled": 1342800, "update_time_ms": 2.654, "grad_time_ms": 373.403, "load_time_ms": 0.702}, "iterations_since_restore": 1119, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 43668.63228034973, "episodes_total": 66449, "episode_reward_max": 8.000003988997879, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 43668.63228034973, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 161, "timestamp": 1757098381, "timesteps_since_restore": 1344000, "episode_reward_min": -58.897515784735404, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-53-01", "episode_len_mean": 7.46583850931677, "timesteps_total": 1344000, "episode_reward_mean": -1.2871202673303304, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.11232924461365, "training_iteration": 1120, "info": {"default": {"policy_loss": -0.10646515339612961, "vf_explained_var": 0.24858437478542328, "vf_loss": 97.43537139892578, "kl": 0.0073514110408723354, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.896732330322266, "total_loss": 97.3666000366211}, "sample_time_ms": 35614.415, "num_steps_trained": 1344000, "num_steps_sampled": 1344000, "update_time_ms": 2.636, "grad_time_ms": 373.352, "load_time_ms": 0.7}, "iterations_since_restore": 1120, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 43704.56151151657, "episodes_total": 66611, "episode_reward_max": 8.000000405966833, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 43704.56151151657, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 162, "timestamp": 1757098417, "timesteps_since_restore": 1345200, "episode_reward_min": -41.56077088799097, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-53-37", "episode_len_mean": 7.364197530864198, "timesteps_total": 1345200, "episode_reward_mean": -1.1766620129925067, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.9292311668396, "training_iteration": 1121, "info": {"default": {"policy_loss": -0.10625819116830826, "vf_explained_var": 0.25181642174720764, "vf_loss": 78.63200378417969, "kl": 0.00846436433494091, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.8762383460998535, "total_loss": 78.56912994384766}, "sample_time_ms": 35627.376, "num_steps_trained": 1345200, "num_steps_sampled": 1345200, "update_time_ms": 2.566, "grad_time_ms": 373.678, "load_time_ms": 0.703}, "iterations_since_restore": 1121, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 43740.46058344841, "episodes_total": 66766, "episode_reward_max": 8.000092574621643, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 43740.46058344841, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 155, "timestamp": 1757098453, "timesteps_since_restore": 1346400, "episode_reward_min": -47.26566926890168, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-54-13", "episode_len_mean": 7.716129032258064, "timesteps_total": 1346400, "episode_reward_mean": -1.6004619663646138, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.89907193183899, "training_iteration": 1122, "info": {"default": {"policy_loss": -0.11915138363838196, "vf_explained_var": 0.23820559680461884, "vf_loss": 67.78702545166016, "kl": 0.008853948675096035, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.65915060043335, "total_loss": 67.71326446533203}, "sample_time_ms": 35611.836, "num_steps_trained": 1346400, "num_steps_sampled": 1346400, "update_time_ms": 2.567, "grad_time_ms": 375.522, "load_time_ms": 0.706}, "iterations_since_restore": 1122, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 43776.79775619507, "episodes_total": 66914, "episode_reward_max": 8.000000401327657, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 43776.79775619507, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 148, "timestamp": 1757098489, "timesteps_since_restore": 1347600, "episode_reward_min": -49.61797921105257, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-54-49", "episode_len_mean": 8.18918918918919, "timesteps_total": 1347600, "episode_reward_mean": -2.390528616701368, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.337172746658325, "training_iteration": 1123, "info": {"default": {"policy_loss": -0.11558958888053894, "vf_explained_var": 0.2796173095703125, "vf_loss": 63.27416229248047, "kl": 0.010043825022876263, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.049460411071777, "total_loss": 63.21005630493164}, "sample_time_ms": 35618.822, "num_steps_trained": 1347600, "num_steps_sampled": 1347600, "update_time_ms": 2.548, "grad_time_ms": 376.03, "load_time_ms": 0.7}, "iterations_since_restore": 1123, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 43812.39173102379, "episodes_total": 67078, "episode_reward_max": 8.000000400541747, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 43812.39173102379, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 164, "timestamp": 1757098525, "timesteps_since_restore": 1348800, "episode_reward_min": -43.071493329700985, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-55-25", "episode_len_mean": 7.323170731707317, "timesteps_total": 1348800, "episode_reward_mean": -1.1102993654873647, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.59397482872009, "training_iteration": 1124, "info": {"default": {"policy_loss": -0.10477127134799957, "vf_explained_var": 0.28590357303619385, "vf_loss": 46.373497009277344, "kl": 0.008056621998548508, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.7961273193359375, "total_loss": 46.31002426147461}, "sample_time_ms": 35515.141, "num_steps_trained": 1348800, "num_steps_sampled": 1348800, "update_time_ms": 2.521, "grad_time_ms": 372.696, "load_time_ms": 0.684}, "iterations_since_restore": 1124, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 43849.38291025162, "episodes_total": 67227, "episode_reward_max": 8.000000400003884, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 43849.38291025162, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 149, "timestamp": 1757098562, "timesteps_since_restore": 1350000, "episode_reward_min": -56.66461863890753, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-56-02", "episode_len_mean": 7.845637583892618, "timesteps_total": 1350000, "episode_reward_mean": -1.8645711718545186, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.99117922782898, "training_iteration": 1125, "info": {"default": {"policy_loss": -0.10922887176275253, "vf_explained_var": 0.23436792194843292, "vf_loss": 82.36408996582031, "kl": 0.009325924329459667, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.337910175323486, "total_loss": 82.30265808105469}, "sample_time_ms": 35470.217, "num_steps_trained": 1350000, "num_steps_sampled": 1350000, "update_time_ms": 2.49, "grad_time_ms": 374.972, "load_time_ms": 0.685}, "iterations_since_restore": 1125, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 43885.134795188904, "episodes_total": 67392, "episode_reward_max": 8.000067245825663, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 43885.134795188904, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 165, "timestamp": 1757098598, "timesteps_since_restore": 1351200, "episode_reward_min": -61.321500168115165, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-56-38", "episode_len_mean": 7.321212121212121, "timesteps_total": 1351200, "episode_reward_mean": -1.0729623341070778, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.75188493728638, "training_iteration": 1126, "info": {"default": {"policy_loss": -0.11819236725568771, "vf_explained_var": 0.3173169493675232, "vf_loss": 46.534767150878906, "kl": 0.010319601744413376, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.802899360656738, "total_loss": 46.46946716308594}, "sample_time_ms": 35531.767, "num_steps_trained": 1351200, "num_steps_sampled": 1351200, "update_time_ms": 2.512, "grad_time_ms": 378.316, "load_time_ms": 0.692}, "iterations_since_restore": 1126, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 43922.53846240044, "episodes_total": 67544, "episode_reward_max": 8.00000140900367, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 43922.53846240044, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 152, "timestamp": 1757098635, "timesteps_since_restore": 1352400, "episode_reward_min": -44.416782481692586, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-57-15", "episode_len_mean": 8.0, "timesteps_total": 1352400, "episode_reward_mean": -2.1543249769724904, "num_metric_batches_dropped": 0, "time_this_iter_s": 37.40366721153259, "training_iteration": 1127, "info": {"default": {"policy_loss": -0.11134776473045349, "vf_explained_var": 0.22494962811470032, "vf_loss": 61.93392562866211, "kl": 0.010910596698522568, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.807486534118652, "total_loss": 61.87850570678711}, "sample_time_ms": 35737.218, "num_steps_trained": 1352400, "num_steps_sampled": 1352400, "update_time_ms": 2.533, "grad_time_ms": 377.238, "load_time_ms": 0.687}, "iterations_since_restore": 1127, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 43957.86410665512, "episodes_total": 67705, "episode_reward_max": 8.0000004000007, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 43957.86410665512, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 161, "timestamp": 1757098670, "timesteps_since_restore": 1353600, "episode_reward_min": -60.37979863606748, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-57-50", "episode_len_mean": 7.503105590062112, "timesteps_total": 1353600, "episode_reward_mean": -1.379822849066614, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.32564425468445, "training_iteration": 1128, "info": {"default": {"policy_loss": -0.09779581427574158, "vf_explained_var": 0.2786799669265747, "vf_loss": 63.66179656982422, "kl": 0.010542375966906548, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.410759925842285, "total_loss": 63.61803436279297}, "sample_time_ms": 35702.513, "num_steps_trained": 1353600, "num_steps_sampled": 1353600, "update_time_ms": 2.55, "grad_time_ms": 377.803, "load_time_ms": 0.731}, "iterations_since_restore": 1128, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 43994.07542729378, "episodes_total": 67860, "episode_reward_max": 8.000000797425601, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 43994.07542729378, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 155, "timestamp": 1757098707, "timesteps_since_restore": 1354800, "episode_reward_min": -44.60264979367712, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-58-27", "episode_len_mean": 7.509677419354839, "timesteps_total": 1354800, "episode_reward_mean": -1.3714652164389058, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.211320638656616, "training_iteration": 1129, "info": {"default": {"policy_loss": -0.11534365266561508, "vf_explained_var": 0.2574683427810669, "vf_loss": 78.07698059082031, "kl": 0.012120414525270462, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.083713531494141, "total_loss": 78.02375030517578}, "sample_time_ms": 35768.265, "num_steps_trained": 1354800, "num_steps_sampled": 1354800, "update_time_ms": 2.549, "grad_time_ms": 378.505, "load_time_ms": 0.726}, "iterations_since_restore": 1129, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 44029.95360374451, "episodes_total": 68008, "episode_reward_max": 8.000000400010581, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 44029.95360374451, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 148, "timestamp": 1757098743, "timesteps_since_restore": 1356000, "episode_reward_min": -50.91656699286943, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-59-03", "episode_len_mean": 8.175675675675675, "timesteps_total": 1356000, "episode_reward_mean": -2.343263150358461, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.87817645072937, "training_iteration": 1130, "info": {"default": {"policy_loss": -0.12034128606319427, "vf_explained_var": 0.2650742530822754, "vf_loss": 70.97989654541016, "kl": 0.008014269173145294, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.551165580749512, "total_loss": 70.900634765625}, "sample_time_ms": 35744.886, "num_steps_trained": 1356000, "num_steps_sampled": 1356000, "update_time_ms": 2.583, "grad_time_ms": 378.454, "load_time_ms": 0.722}, "iterations_since_restore": 1130, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 44065.343685626984, "episodes_total": 68150, "episode_reward_max": 8.00012151585695, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 44065.343685626984, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 142, "timestamp": 1757098778, "timesteps_since_restore": 1357200, "episode_reward_min": -48.017094665228434, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_20-59-38", "episode_len_mean": 8.591549295774648, "timesteps_total": 1357200, "episode_reward_mean": -3.0592313154799413, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.39008188247681, "training_iteration": 1131, "info": {"default": {"policy_loss": -0.11680904030799866, "vf_explained_var": 0.22447866201400757, "vf_loss": 109.24684143066406, "kl": 0.008515509776771069, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.578845977783203, "total_loss": 109.17367553710938}, "sample_time_ms": 35688.203, "num_steps_trained": 1357200, "num_steps_sampled": 1357200, "update_time_ms": 2.609, "grad_time_ms": 381.127, "load_time_ms": 0.727}, "iterations_since_restore": 1131, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 44102.03788685799, "episodes_total": 68317, "episode_reward_max": 6.001815585966964, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 44102.03788685799, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 167, "timestamp": 1757098815, "timesteps_since_restore": 1358400, "episode_reward_min": -41.574865062783566, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-00-15", "episode_len_mean": 7.191616766467066, "timesteps_total": 1358400, "episode_reward_mean": -0.9052222331222365, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.69420123100281, "training_iteration": 1132, "info": {"default": {"policy_loss": -0.10834711045026779, "vf_explained_var": 0.31990694999694824, "vf_loss": 57.75754928588867, "kl": 0.008273517712950706, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.5934858322143555, "total_loss": 57.69160842895508}, "sample_time_ms": 35768.598, "num_steps_trained": 1358400, "num_steps_sampled": 1358400, "update_time_ms": 2.666, "grad_time_ms": 380.196, "load_time_ms": 0.729}, "iterations_since_restore": 1132, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 44138.75968980789, "episodes_total": 68484, "episode_reward_max": 8.00001739165636, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 44138.75968980789, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 167, "timestamp": 1757098851, "timesteps_since_restore": 1359600, "episode_reward_min": -41.37067183700342, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-00-51", "episode_len_mean": 7.179640718562874, "timesteps_total": 1359600, "episode_reward_mean": -0.8593406568092187, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.721802949905396, "training_iteration": 1133, "info": {"default": {"policy_loss": -0.09910399466753006, "vf_explained_var": 0.27722322940826416, "vf_loss": 55.7821159362793, "kl": 0.010694595985114574, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.475819110870361, "total_loss": 55.737831115722656}, "sample_time_ms": 35810.265, "num_steps_trained": 1359600, "num_steps_sampled": 1359600, "update_time_ms": 2.673, "grad_time_ms": 377.025, "load_time_ms": 0.719}, "iterations_since_restore": 1133, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 44175.294828891754, "episodes_total": 68645, "episode_reward_max": 8.000141963071158, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 44175.294828891754, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 161, "timestamp": 1757098888, "timesteps_since_restore": 1360800, "episode_reward_min": -44.90830469986448, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-01-28", "episode_len_mean": 7.409937888198757, "timesteps_total": 1360800, "episode_reward_mean": -1.2488017500503947, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.535139083862305, "training_iteration": 1134, "info": {"default": {"policy_loss": -0.10130380839109421, "vf_explained_var": 0.29238221049308777, "vf_loss": 64.88175964355469, "kl": 0.009036559611558914, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.956582546234131, "total_loss": 64.82677459716797}, "sample_time_ms": 35903.065, "num_steps_trained": 1360800, "num_steps_sampled": 1360800, "update_time_ms": 2.659, "grad_time_ms": 378.379, "load_time_ms": 0.726}, "iterations_since_restore": 1134, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 44211.73889565468, "episodes_total": 68780, "episode_reward_max": 8.00000040000199, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 44211.73889565468, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 135, "timestamp": 1757098924, "timesteps_since_restore": 1362000, "episode_reward_min": -55.14238200743485, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-02-04", "episode_len_mean": 8.866666666666667, "timesteps_total": 1362000, "episode_reward_mean": -3.4596107169014307, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.444066762924194, "training_iteration": 1135, "info": {"default": {"policy_loss": -0.11699017137289047, "vf_explained_var": 0.2213929146528244, "vf_loss": 106.17378234863281, "kl": 0.010176841169595718, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 7.004899501800537, "total_loss": 106.10895538330078}, "sample_time_ms": 35848.812, "num_steps_trained": 1362000, "num_steps_sampled": 1362000, "update_time_ms": 2.696, "grad_time_ms": 377.88, "load_time_ms": 0.727}, "iterations_since_restore": 1135, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 44247.54162812233, "episodes_total": 68943, "episode_reward_max": 7.196400253116225, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 44247.54162812233, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 163, "timestamp": 1757098960, "timesteps_since_restore": 1363200, "episode_reward_min": -48.866494554381795, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-02-40", "episode_len_mean": 7.368098159509202, "timesteps_total": 1363200, "episode_reward_mean": -1.166706360435955, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.80273246765137, "training_iteration": 1136, "info": {"default": {"policy_loss": -0.10372275859117508, "vf_explained_var": 0.25243332982063293, "vf_loss": 73.49617767333984, "kl": 0.010200094431638718, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.940005779266357, "total_loss": 73.44474029541016}, "sample_time_ms": 35854.991, "num_steps_trained": 1363200, "num_steps_sampled": 1363200, "update_time_ms": 2.677, "grad_time_ms": 376.801, "load_time_ms": 0.714}, "iterations_since_restore": 1136, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 44283.84461045265, "episodes_total": 69093, "episode_reward_max": 8.000000400042651, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 44283.84461045265, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 150, "timestamp": 1757098997, "timesteps_since_restore": 1364400, "episode_reward_min": -76.68834745506297, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-03-17", "episode_len_mean": 7.92, "timesteps_total": 1364400, "episode_reward_mean": -2.0064249472604465, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.302982330322266, "training_iteration": 1137, "info": {"default": {"policy_loss": -0.1182812824845314, "vf_explained_var": 0.24520333111286163, "vf_loss": 95.31536865234375, "kl": 0.007971799932420254, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.148659706115723, "total_loss": 95.23795318603516}, "sample_time_ms": 35745.366, "num_steps_trained": 1364400, "num_steps_sampled": 1364400, "update_time_ms": 2.708, "grad_time_ms": 376.399, "load_time_ms": 0.72}, "iterations_since_restore": 1137, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 44320.05060195923, "episodes_total": 69262, "episode_reward_max": 10.0, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 44320.05060195923, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 169, "timestamp": 1757099033, "timesteps_since_restore": 1365600, "episode_reward_min": -45.32570406200004, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-03-53", "episode_len_mean": 7.100591715976331, "timesteps_total": 1365600, "episode_reward_mean": -0.7437121616325365, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.20599150657654, "training_iteration": 1138, "info": {"default": {"policy_loss": -0.10238602757453918, "vf_explained_var": 0.27728530764579773, "vf_loss": 69.9471206665039, "kl": 0.008251525461673737, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.244546890258789, "total_loss": 69.88704681396484}, "sample_time_ms": 35836.595, "num_steps_trained": 1365600, "num_steps_sampled": 1365600, "update_time_ms": 2.702, "grad_time_ms": 373.299, "load_time_ms": 0.67}, "iterations_since_restore": 1138, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 44357.35462141037, "episodes_total": 69427, "episode_reward_max": 8.00145429836082, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 44357.35462141037, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 165, "timestamp": 1757099070, "timesteps_since_restore": 1366800, "episode_reward_min": -48.40255403226893, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-04-30", "episode_len_mean": 7.206060606060606, "timesteps_total": 1366800, "episode_reward_mean": -0.9500388537159297, "num_metric_batches_dropped": 0, "time_this_iter_s": 37.30401945114136, "training_iteration": 1139, "info": {"default": {"policy_loss": -0.10937300324440002, "vf_explained_var": 0.27567043900489807, "vf_loss": 59.72514343261719, "kl": 0.00896989181637764, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.781054973602295, "total_loss": 59.66175079345703}, "sample_time_ms": 35945.709, "num_steps_trained": 1366800, "num_steps_sampled": 1366800, "update_time_ms": 2.644, "grad_time_ms": 373.527, "load_time_ms": 0.682}, "iterations_since_restore": 1139, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 44394.16103339195, "episodes_total": 69581, "episode_reward_max": 8.000000401894898, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 44394.16103339195, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 154, "timestamp": 1757099107, "timesteps_since_restore": 1368000, "episode_reward_min": -40.68886650903627, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-05-07", "episode_len_mean": 7.876623376623376, "timesteps_total": 1368000, "episode_reward_mean": -1.8833842999317811, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.80641198158264, "training_iteration": 1140, "info": {"default": {"policy_loss": -0.12760955095291138, "vf_explained_var": 0.2518494427204132, "vf_loss": 64.2927474975586, "kl": 0.014442571438848972, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.976712703704834, "total_loss": 64.23916625976562}, "sample_time_ms": 36038.783, "num_steps_trained": 1368000, "num_steps_sampled": 1368000, "update_time_ms": 2.63, "grad_time_ms": 373.318, "load_time_ms": 0.685}, "iterations_since_restore": 1140, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 44431.44336628914, "episodes_total": 69733, "episode_reward_max": 8.000000422709226, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 44431.44336628914, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 152, "timestamp": 1757099144, "timesteps_since_restore": 1369200, "episode_reward_min": -48.93521918679182, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-05-44", "episode_len_mean": 7.9605263157894735, "timesteps_total": 1369200, "episode_reward_mean": -2.057382150232346, "num_metric_batches_dropped": 0, "time_this_iter_s": 37.28233289718628, "training_iteration": 1141, "info": {"default": {"policy_loss": -0.11676105856895447, "vf_explained_var": 0.30016210675239563, "vf_loss": 65.63520050048828, "kl": 0.008060106076300144, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.986013889312744, "total_loss": 65.55976104736328}, "sample_time_ms": 36229.285, "num_steps_trained": 1369200, "num_steps_sampled": 1369200, "update_time_ms": 2.605, "grad_time_ms": 372.143, "load_time_ms": 0.676}, "iterations_since_restore": 1141, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 44467.8459444046, "episodes_total": 69882, "episode_reward_max": 8.001031940607357, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 44467.8459444046, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 149, "timestamp": 1757099181, "timesteps_since_restore": 1370400, "episode_reward_min": -62.84519140826873, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-06-21", "episode_len_mean": 8.12751677852349, "timesteps_total": 1370400, "episode_reward_mean": -2.421875809377895, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.40257811546326, "training_iteration": 1142, "info": {"default": {"policy_loss": -0.10995437949895859, "vf_explained_var": 0.2486676126718521, "vf_loss": 102.6065673828125, "kl": 0.00974181480705738, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.028459548950195, "total_loss": 102.54654693603516}, "sample_time_ms": 36202.005, "num_steps_trained": 1370400, "num_steps_sampled": 1370400, "update_time_ms": 2.53, "grad_time_ms": 370.36, "load_time_ms": 0.665}, "iterations_since_restore": 1142, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 44503.54873943329, "episodes_total": 70045, "episode_reward_max": 8.000000400000658, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 44503.54873943329, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 163, "timestamp": 1757099216, "timesteps_since_restore": 1371600, "episode_reward_min": -56.54321764561334, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-06-56", "episode_len_mean": 7.306748466257669, "timesteps_total": 1371600, "episode_reward_mean": -1.117105462676792, "num_metric_batches_dropped": 0, "time_this_iter_s": 35.70279502868652, "training_iteration": 1143, "info": {"default": {"policy_loss": -0.1142619177699089, "vf_explained_var": 0.31389325857162476, "vf_loss": 75.40083312988281, "kl": 0.008355120196938515, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.441815376281738, "total_loss": 75.32939910888672}, "sample_time_ms": 36097.761, "num_steps_trained": 1371600, "num_steps_sampled": 1371600, "update_time_ms": 2.507, "grad_time_ms": 372.696, "load_time_ms": 0.676}, "iterations_since_restore": 1143, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 44540.327922582626, "episodes_total": 70206, "episode_reward_max": 8.000151445507687, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 44540.327922582626, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 161, "timestamp": 1757099253, "timesteps_since_restore": 1372800, "episode_reward_min": -40.48136371078906, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-07-33", "episode_len_mean": 7.490683229813665, "timesteps_total": 1372800, "episode_reward_mean": -1.3516285625953373, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.77918314933777, "training_iteration": 1144, "info": {"default": {"policy_loss": -0.0988980233669281, "vf_explained_var": 0.2918236553668976, "vf_loss": 59.57741165161133, "kl": 0.015517796389758587, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.627121925354004, "total_loss": 59.55805969238281}, "sample_time_ms": 36121.806, "num_steps_trained": 1372800, "num_steps_sampled": 1372800, "update_time_ms": 2.556, "grad_time_ms": 372.919, "load_time_ms": 0.669}, "iterations_since_restore": 1144, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 44576.56123423576, "episodes_total": 70376, "episode_reward_max": 8.000001447624271, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 44576.56123423576, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 170, "timestamp": 1757099290, "timesteps_since_restore": 1374000, "episode_reward_min": -47.338502192897266, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-08-10", "episode_len_mean": 7.070588235294117, "timesteps_total": 1374000, "episode_reward_mean": -0.6889409719757396, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.23331165313721, "training_iteration": 1145, "info": {"default": {"policy_loss": -0.11041504889726639, "vf_explained_var": 0.2560836970806122, "vf_loss": 65.94206237792969, "kl": 0.00890056136995554, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.247496604919434, "total_loss": 65.87727355957031}, "sample_time_ms": 36101.529, "num_steps_trained": 1374000, "num_steps_sampled": 1374000, "update_time_ms": 2.558, "grad_time_ms": 372.069, "load_time_ms": 0.666}, "iterations_since_restore": 1145, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 44612.639632701874, "episodes_total": 70525, "episode_reward_max": 8.00000039999996, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 44612.639632701874, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 149, "timestamp": 1757099326, "timesteps_since_restore": 1375200, "episode_reward_min": -48.17518774376748, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-08-46", "episode_len_mean": 8.033557046979865, "timesteps_total": 1375200, "episode_reward_mean": -2.1596119038366357, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.07839846611023, "training_iteration": 1146, "info": {"default": {"policy_loss": -0.11063589155673981, "vf_explained_var": 0.1996648907661438, "vf_loss": 91.62874603271484, "kl": 0.00957499910145998, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.13422155380249, "total_loss": 91.56718444824219}, "sample_time_ms": 36129.294, "num_steps_trained": 1375200, "num_steps_sampled": 1375200, "update_time_ms": 2.607, "grad_time_ms": 371.852, "load_time_ms": 0.676}, "iterations_since_restore": 1146, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 44649.912331819534, "episodes_total": 70705, "episode_reward_max": 8.000003561479522, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 44649.912331819534, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 180, "timestamp": 1757099363, "timesteps_since_restore": 1376400, "episode_reward_min": -44.14664436976677, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-09-23", "episode_len_mean": 6.472222222222222, "timesteps_total": 1376400, "episode_reward_mean": 0.2894103928896456, "num_metric_batches_dropped": 0, "time_this_iter_s": 37.27269911766052, "training_iteration": 1147, "info": {"default": {"policy_loss": -0.10675295442342758, "vf_explained_var": 0.26580843329429626, "vf_loss": 70.44502258300781, "kl": 0.007393625099211931, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.053764343261719, "total_loss": 70.37617492675781}, "sample_time_ms": 36223.297, "num_steps_trained": 1376400, "num_steps_sampled": 1376400, "update_time_ms": 2.542, "grad_time_ms": 374.805, "load_time_ms": 0.679}, "iterations_since_restore": 1147, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 44688.65906071663, "episodes_total": 70856, "episode_reward_max": 8.000000400139275, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 44688.65906071663, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 151, "timestamp": 1757099402, "timesteps_since_restore": 1377600, "episode_reward_min": -58.641055566179475, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-10-02", "episode_len_mean": 8.079470198675496, "timesteps_total": 1377600, "episode_reward_mean": -2.304032112309858, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.74672889709473, "training_iteration": 1148, "info": {"default": {"policy_loss": -0.11124642938375473, "vf_explained_var": 0.27676716446876526, "vf_loss": 97.59854125976562, "kl": 0.01006687805056572, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.920284748077393, "total_loss": 97.53889465332031}, "sample_time_ms": 36475.52, "num_steps_trained": 1377600, "num_steps_sampled": 1377600, "update_time_ms": 2.527, "grad_time_ms": 376.651, "load_time_ms": 0.681}, "iterations_since_restore": 1148, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 44726.86599135399, "episodes_total": 71015, "episode_reward_max": 8.000411499621098, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 44726.86599135399, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 159, "timestamp": 1757099440, "timesteps_since_restore": 1378800, "episode_reward_min": -78.88263518990459, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-10-40", "episode_len_mean": 7.660377358490566, "timesteps_total": 1378800, "episode_reward_mean": -1.5715641613208382, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.20693063735962, "training_iteration": 1149, "info": {"default": {"policy_loss": -0.1065162792801857, "vf_explained_var": 0.2269309163093567, "vf_loss": 109.19918060302734, "kl": 0.008127550594508648, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.279679775238037, "total_loss": 109.13432312011719}, "sample_time_ms": 36567.266, "num_steps_trained": 1378800, "num_steps_sampled": 1378800, "update_time_ms": 2.529, "grad_time_ms": 375.262, "load_time_ms": 0.671}, "iterations_since_restore": 1149, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 44764.55659365654, "episodes_total": 71184, "episode_reward_max": 8.000000399999928, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 44764.55659365654, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 169, "timestamp": 1757099478, "timesteps_since_restore": 1380000, "episode_reward_min": -39.999552638827346, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-11-18", "episode_len_mean": 7.005917159763314, "timesteps_total": 1380000, "episode_reward_mean": -0.5919572538629704, "num_metric_batches_dropped": 0, "time_this_iter_s": 37.69060230255127, "training_iteration": 1150, "info": {"default": {"policy_loss": -0.09885284304618835, "vf_explained_var": 0.21729877591133118, "vf_loss": 62.99995422363281, "kl": 0.009305858984589577, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.245744705200195, "total_loss": 62.94879913330078}, "sample_time_ms": 36656.097, "num_steps_trained": 1380000, "num_steps_sampled": 1380000, "update_time_ms": 2.527, "grad_time_ms": 374.762, "load_time_ms": 0.673}, "iterations_since_restore": 1150, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 44804.09000039101, "episodes_total": 71343, "episode_reward_max": 8.000000400014523, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 44804.09000039101, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 159, "timestamp": 1757099517, "timesteps_since_restore": 1381200, "episode_reward_min": -59.32417622777004, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-11-57", "episode_len_mean": 7.60377358490566, "timesteps_total": 1381200, "episode_reward_mean": -1.5718439373098871, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.53340673446655, "training_iteration": 1151, "info": {"default": {"policy_loss": -0.10669702291488647, "vf_explained_var": 0.2562880218029022, "vf_loss": 100.35542297363281, "kl": 0.010408366098999977, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.510798454284668, "total_loss": 100.30207824707031}, "sample_time_ms": 36881.123, "num_steps_trained": 1381200, "num_steps_sampled": 1381200, "update_time_ms": 2.585, "grad_time_ms": 374.754, "load_time_ms": 0.673}, "iterations_since_restore": 1151, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 44843.96114897728, "episodes_total": 71509, "episode_reward_max": 8.000248364712858, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 44843.96114897728, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 166, "timestamp": 1757099557, "timesteps_since_restore": 1382400, "episode_reward_min": -44.910589476397966, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-12-37", "episode_len_mean": 7.186746987951807, "timesteps_total": 1382400, "episode_reward_mean": -0.8449873417542512, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.87114858627319, "training_iteration": 1152, "info": {"default": {"policy_loss": -0.10794108361005783, "vf_explained_var": 0.28595128655433655, "vf_loss": 57.68129348754883, "kl": 0.0087650828063488, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.829251289367676, "total_loss": 57.61827850341797}, "sample_time_ms": 37226.86, "num_steps_trained": 1382400, "num_steps_sampled": 1382400, "update_time_ms": 2.61, "grad_time_ms": 375.804, "load_time_ms": 0.676}, "iterations_since_restore": 1152, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 44882.926100730896, "episodes_total": 71665, "episode_reward_max": 8.000000525319333, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 44882.926100730896, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 156, "timestamp": 1757099596, "timesteps_since_restore": 1383600, "episode_reward_min": -38.30142328096064, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-13-16", "episode_len_mean": 7.67948717948718, "timesteps_total": 1383600, "episode_reward_mean": -1.5396053765003854, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.96495175361633, "training_iteration": 1153, "info": {"default": {"policy_loss": -0.11501726508140564, "vf_explained_var": 0.2808306813240051, "vf_loss": 50.39475631713867, "kl": 0.009208742529153824, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.058282375335693, "total_loss": 50.326942443847656}, "sample_time_ms": 37553.998, "num_steps_trained": 1383600, "num_steps_sampled": 1383600, "update_time_ms": 2.628, "grad_time_ms": 374.913, "load_time_ms": 0.685}, "iterations_since_restore": 1153, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 44921.850311517715, "episodes_total": 71831, "episode_reward_max": 8.000080165548521, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 44921.850311517715, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 166, "timestamp": 1757099635, "timesteps_since_restore": 1384800, "episode_reward_min": -56.12383751137119, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-13-55", "episode_len_mean": 7.120481927710843, "timesteps_total": 1384800, "episode_reward_mean": -0.7112048275678755, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.92421078681946, "training_iteration": 1154, "info": {"default": {"policy_loss": -0.10037975758314133, "vf_explained_var": 0.2640427350997925, "vf_loss": 69.28958129882812, "kl": 0.007594076916575432, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.862430095672607, "total_loss": 69.22811889648438}, "sample_time_ms": 37768.643, "num_steps_trained": 1384800, "num_steps_sampled": 1384800, "update_time_ms": 2.591, "grad_time_ms": 374.865, "load_time_ms": 0.695}, "iterations_since_restore": 1154, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 44961.106965065, "episodes_total": 71985, "episode_reward_max": 8.000000439246062, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 44961.106965065, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 154, "timestamp": 1757099674, "timesteps_since_restore": 1386000, "episode_reward_min": -55.73721823949944, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-14-34", "episode_len_mean": 7.876623376623376, "timesteps_total": 1386000, "episode_reward_mean": -1.983073069241811, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.25665354728699, "training_iteration": 1155, "info": {"default": {"policy_loss": -0.10981861501932144, "vf_explained_var": 0.2820276916027069, "vf_loss": 77.96531677246094, "kl": 0.010839371010661125, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.631242752075195, "total_loss": 77.91104888916016}, "sample_time_ms": 38070.01, "num_steps_trained": 1386000, "num_steps_sampled": 1386000, "update_time_ms": 2.557, "grad_time_ms": 375.921, "load_time_ms": 0.694}, "iterations_since_restore": 1155, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 45000.02293753624, "episodes_total": 72135, "episode_reward_max": 8.000000403363202, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 45000.02293753624, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 150, "timestamp": 1757099713, "timesteps_since_restore": 1387200, "episode_reward_min": -43.67049437976236, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-15-13", "episode_len_mean": 7.98, "timesteps_total": 1387200, "episode_reward_mean": -2.0720543546822836, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.91597247123718, "training_iteration": 1156, "info": {"default": {"policy_loss": -0.11318903416395187, "vf_explained_var": 0.266923725605011, "vf_loss": 78.50666046142578, "kl": 0.007673397660255432, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.1722731590271, "total_loss": 78.43280792236328}, "sample_time_ms": 38355.832, "num_steps_trained": 1387200, "num_steps_sampled": 1387200, "update_time_ms": 2.523, "grad_time_ms": 373.94, "load_time_ms": 0.689}, "iterations_since_restore": 1156, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 45039.05240917206, "episodes_total": 72302, "episode_reward_max": 8.000000400000413, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 45039.05240917206, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 167, "timestamp": 1757099752, "timesteps_since_restore": 1388400, "episode_reward_min": -54.85035679369308, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-15-52", "episode_len_mean": 7.359281437125748, "timesteps_total": 1388400, "episode_reward_mean": -1.0709626447391005, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.02947163581848, "training_iteration": 1157, "info": {"default": {"policy_loss": -0.10754965990781784, "vf_explained_var": 0.3073939085006714, "vf_loss": 46.58174133300781, "kl": 0.007933437824249268, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.873382568359375, "total_loss": 46.51485824584961}, "sample_time_ms": 38532.856, "num_steps_trained": 1388400, "num_steps_sampled": 1388400, "update_time_ms": 2.529, "grad_time_ms": 372.611, "load_time_ms": 0.696}, "iterations_since_restore": 1157, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 45079.63242173195, "episodes_total": 72459, "episode_reward_max": 8.000000713020725, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 45079.63242173195, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 157, "timestamp": 1757099793, "timesteps_since_restore": 1389600, "episode_reward_min": -50.922730247330826, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-16-33", "episode_len_mean": 7.547770700636943, "timesteps_total": 1389600, "episode_reward_mean": -1.442800182428295, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.58001255989075, "training_iteration": 1158, "info": {"default": {"policy_loss": -0.10310088843107224, "vf_explained_var": 0.26974165439605713, "vf_loss": 80.62889862060547, "kl": 0.009527605026960373, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.790286540985107, "total_loss": 80.57463836669922}, "sample_time_ms": 38717.848, "num_steps_trained": 1389600, "num_steps_sampled": 1389600, "update_time_ms": 2.541, "grad_time_ms": 370.957, "load_time_ms": 0.701}, "iterations_since_restore": 1158, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 45120.51918697357, "episodes_total": 72612, "episode_reward_max": 8.000000399999925, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 45120.51918697357, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 153, "timestamp": 1757099834, "timesteps_since_restore": 1390800, "episode_reward_min": -46.61649267007794, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-17-14", "episode_len_mean": 7.947712418300654, "timesteps_total": 1390800, "episode_reward_mean": -2.01781849560975, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.886765241622925, "training_iteration": 1159, "info": {"default": {"policy_loss": -0.12013362348079681, "vf_explained_var": 0.25196632742881775, "vf_loss": 79.24141693115234, "kl": 0.009933164343237877, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.8491716384887695, "total_loss": 79.17218780517578}, "sample_time_ms": 38984.211, "num_steps_trained": 1390800, "num_steps_sampled": 1390800, "update_time_ms": 2.543, "grad_time_ms": 372.596, "load_time_ms": 0.7}, "iterations_since_restore": 1159, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 45159.50661087036, "episodes_total": 72770, "episode_reward_max": 8.00006690091466, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 45159.50661087036, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 158, "timestamp": 1757099873, "timesteps_since_restore": 1392000, "episode_reward_min": -46.58846471187173, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-17-53", "episode_len_mean": 7.3544303797468356, "timesteps_total": 1392000, "episode_reward_mean": -1.1908685447553822, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.98742389678955, "training_iteration": 1160, "info": {"default": {"policy_loss": -0.11777181178331375, "vf_explained_var": 0.29173368215560913, "vf_loss": 58.90393829345703, "kl": 0.008074227720499039, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.642440319061279, "total_loss": 58.82755661010742}, "sample_time_ms": 39113.748, "num_steps_trained": 1392000, "num_steps_sampled": 1392000, "update_time_ms": 2.548, "grad_time_ms": 372.832, "load_time_ms": 0.699}, "iterations_since_restore": 1160, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 45199.15028977394, "episodes_total": 72925, "episode_reward_max": 8.00000207317034, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 45199.15028977394, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 155, "timestamp": 1757099912, "timesteps_since_restore": 1393200, "episode_reward_min": -55.005624082033435, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-18-32", "episode_len_mean": 7.916129032258064, "timesteps_total": 1393200, "episode_reward_mean": -1.9697470331018472, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.64367890357971, "training_iteration": 1161, "info": {"default": {"policy_loss": -0.1076829805970192, "vf_explained_var": 0.23112566769123077, "vf_loss": 89.21924591064453, "kl": 0.00948503240942955, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.920565128326416, "total_loss": 89.1601791381836}, "sample_time_ms": 39124.689, "num_steps_trained": 1393200, "num_steps_sampled": 1393200, "update_time_ms": 2.46, "grad_time_ms": 372.991, "load_time_ms": 0.698}, "iterations_since_restore": 1161, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 45237.609750032425, "episodes_total": 73076, "episode_reward_max": 8.000000405492147, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 45237.609750032425, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 151, "timestamp": 1757099951, "timesteps_since_restore": 1394400, "episode_reward_min": -47.964845886661735, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-19-11", "episode_len_mean": 7.860927152317881, "timesteps_total": 1394400, "episode_reward_mean": -1.9254968492845668, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.45946025848389, "training_iteration": 1162, "info": {"default": {"policy_loss": -0.11354390531778336, "vf_explained_var": 0.24879090487957, "vf_loss": 81.8584976196289, "kl": 0.010370544157922268, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.122992515563965, "total_loss": 81.79811096191406}, "sample_time_ms": 38983.023, "num_steps_trained": 1394400, "num_steps_sampled": 1394400, "update_time_ms": 2.46, "grad_time_ms": 373.472, "load_time_ms": 0.717}, "iterations_since_restore": 1162, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 45278.14035320282, "episodes_total": 73269, "episode_reward_max": 8.001161289447499, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 45278.14035320282, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 193, "timestamp": 1757099991, "timesteps_since_restore": 1395600, "episode_reward_min": -57.69070774018759, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-19-51", "episode_len_mean": 6.3264248704663215, "timesteps_total": 1395600, "episode_reward_mean": 0.4482174930592453, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.5306031703949, "training_iteration": 1163, "info": {"default": {"policy_loss": -0.112332783639431, "vf_explained_var": 0.3137306869029999, "vf_loss": 63.90949249267578, "kl": 0.007404155097901821, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 4.636106491088867, "total_loss": 63.83510971069336}, "sample_time_ms": 39139.055, "num_steps_trained": 1395600, "num_steps_sampled": 1395600, "update_time_ms": 2.478, "grad_time_ms": 373.914, "load_time_ms": 0.708}, "iterations_since_restore": 1163, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 45318.68140125275, "episodes_total": 73443, "episode_reward_max": 8.000000419653235, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 45318.68140125275, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 174, "timestamp": 1757100032, "timesteps_since_restore": 1396800, "episode_reward_min": -37.38349900246538, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-20-32", "episode_len_mean": 6.896551724137931, "timesteps_total": 1396800, "episode_reward_mean": -0.47763195020641824, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.54104804992676, "training_iteration": 1164, "info": {"default": {"policy_loss": -0.1104872077703476, "vf_explained_var": 0.29285547137260437, "vf_loss": 52.49552536010742, "kl": 0.007777730002999306, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.337401390075684, "total_loss": 52.42490768432617}, "sample_time_ms": 39301.923, "num_steps_trained": 1396800, "num_steps_sampled": 1396800, "update_time_ms": 2.485, "grad_time_ms": 372.664, "load_time_ms": 0.703}, "iterations_since_restore": 1164, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 45356.827746629715, "episodes_total": 73603, "episode_reward_max": 8.000000402373436, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 45356.827746629715, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 160, "timestamp": 1757100070, "timesteps_since_restore": 1398000, "episode_reward_min": -52.76114837747862, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-21-10", "episode_len_mean": 7.4, "timesteps_total": 1398000, "episode_reward_mean": -1.1486338521064006, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.146345376968384, "training_iteration": 1165, "info": {"default": {"policy_loss": -0.12369692325592041, "vf_explained_var": 0.24022714793682098, "vf_loss": 77.54139709472656, "kl": 0.010713009163737297, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.844616889953613, "total_loss": 77.47261047363281}, "sample_time_ms": 39190.459, "num_steps_trained": 1398000, "num_steps_sampled": 1398000, "update_time_ms": 2.511, "grad_time_ms": 373.031, "load_time_ms": 0.711}, "iterations_since_restore": 1165, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 45397.099076747894, "episodes_total": 73750, "episode_reward_max": 8.000000400013736, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 45397.099076747894, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 147, "timestamp": 1757100110, "timesteps_since_restore": 1399200, "episode_reward_min": -48.73449328678846, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-21-50", "episode_len_mean": 8.238095238095237, "timesteps_total": 1399200, "episode_reward_mean": -2.4774169762633003, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.27133011817932, "training_iteration": 1166, "info": {"default": {"policy_loss": -0.11374779790639877, "vf_explained_var": 0.2632587254047394, "vf_loss": 84.05033111572266, "kl": 0.010784832760691643, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.884370803833008, "total_loss": 83.99186706542969}, "sample_time_ms": 39323.152, "num_steps_trained": 1399200, "num_steps_sampled": 1399200, "update_time_ms": 2.526, "grad_time_ms": 375.805, "load_time_ms": 0.719}, "iterations_since_restore": 1166, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 45436.493146419525, "episodes_total": 73926, "episode_reward_max": 8.000072001400447, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 45436.493146419525, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 176, "timestamp": 1757100150, "timesteps_since_restore": 1400400, "episode_reward_min": -42.423489539769854, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-22-30", "episode_len_mean": 6.863636363636363, "timesteps_total": 1400400, "episode_reward_mean": -0.41780732119517516, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.39406967163086, "training_iteration": 1167, "info": {"default": {"policy_loss": -0.11643525213003159, "vf_explained_var": 0.329073965549469, "vf_loss": 46.71101379394531, "kl": 0.008750636130571365, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.324093818664551, "total_loss": 46.639427185058594}, "sample_time_ms": 39358.582, "num_steps_trained": 1400400, "num_steps_sampled": 1400400, "update_time_ms": 2.526, "grad_time_ms": 376.875, "load_time_ms": 0.702}, "iterations_since_restore": 1167, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 45475.74993681908, "episodes_total": 74107, "episode_reward_max": 8.000690703378279, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 45475.74993681908, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 181, "timestamp": 1757100189, "timesteps_since_restore": 1401600, "episode_reward_min": -32.85428047309614, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-23-09", "episode_len_mean": 6.624309392265193, "timesteps_total": 1401600, "episode_reward_mean": 0.062110642250373466, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.25679039955139, "training_iteration": 1168, "info": {"default": {"policy_loss": -0.11385456472635269, "vf_explained_var": 0.30178582668304443, "vf_loss": 52.11885070800781, "kl": 0.01044604554772377, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.218308448791504, "total_loss": 52.05854415893555}, "sample_time_ms": 39223.764, "num_steps_trained": 1401600, "num_steps_sampled": 1401600, "update_time_ms": 2.51, "grad_time_ms": 379.318, "load_time_ms": 0.706}, "iterations_since_restore": 1168, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 45514.497779369354, "episodes_total": 74268, "episode_reward_max": 8.000032811346664, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 45514.497779369354, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 161, "timestamp": 1757100228, "timesteps_since_restore": 1402800, "episode_reward_min": -44.07796826107442, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-23-48", "episode_len_mean": 7.434782608695652, "timesteps_total": 1402800, "episode_reward_mean": -1.2335100489143231, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.74784255027771, "training_iteration": 1169, "info": {"default": {"policy_loss": -0.1142984926700592, "vf_explained_var": 0.29202768206596375, "vf_loss": 69.42276763916016, "kl": 0.008974768221378326, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.70496940612793, "total_loss": 69.35447692871094}, "sample_time_ms": 39011.828, "num_steps_trained": 1402800, "num_steps_sampled": 1402800, "update_time_ms": 2.528, "grad_time_ms": 377.277, "load_time_ms": 0.712}, "iterations_since_restore": 1169, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 45553.0006275177, "episodes_total": 74439, "episode_reward_max": 8.00000040064331, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 45553.0006275177, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 171, "timestamp": 1757100266, "timesteps_since_restore": 1404000, "episode_reward_min": -56.49237655430419, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-24-26", "episode_len_mean": 6.912280701754386, "timesteps_total": 1404000, "episode_reward_mean": -0.4231649137007575, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.50284814834595, "training_iteration": 1170, "info": {"default": {"policy_loss": -0.09974025934934616, "vf_explained_var": 0.3386860489845276, "vf_loss": 62.49142837524414, "kl": 0.007654561661183834, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.490517616271973, "total_loss": 62.43092346191406}, "sample_time_ms": 38962.637, "num_steps_trained": 1404000, "num_steps_sampled": 1404000, "update_time_ms": 2.545, "grad_time_ms": 377.864, "load_time_ms": 0.719}, "iterations_since_restore": 1170, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 45592.47021961212, "episodes_total": 74605, "episode_reward_max": 8.000000529938548, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 45592.47021961212, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 166, "timestamp": 1757100306, "timesteps_since_restore": 1405200, "episode_reward_min": -57.97683994351328, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-25-06", "episode_len_mean": 7.240963855421687, "timesteps_total": 1405200, "episode_reward_mean": -1.020616206827878, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.46959209442139, "training_iteration": 1171, "info": {"default": {"policy_loss": -0.09912611544132233, "vf_explained_var": 0.29750311374664307, "vf_loss": 86.9027328491211, "kl": 0.00882433820515871, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.220518589019775, "total_loss": 86.84884643554688}, "sample_time_ms": 38947.359, "num_steps_trained": 1405200, "num_steps_sampled": 1405200, "update_time_ms": 2.598, "grad_time_ms": 375.722, "load_time_ms": 0.718}, "iterations_since_restore": 1171, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 45631.4264292717, "episodes_total": 74768, "episode_reward_max": 8.000000400007417, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 45631.4264292717, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 163, "timestamp": 1757100345, "timesteps_since_restore": 1406400, "episode_reward_min": -77.99023898888986, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-25-45", "episode_len_mean": 7.374233128834356, "timesteps_total": 1406400, "episode_reward_mean": -1.2465452154337777, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.956209659576416, "training_iteration": 1172, "info": {"default": {"policy_loss": -0.105747751891613, "vf_explained_var": 0.280644953250885, "vf_loss": 103.93101501464844, "kl": 0.00907654408365488, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.258603572845459, "total_loss": 103.87179565429688}, "sample_time_ms": 38997.788, "num_steps_trained": 1406400, "num_steps_sampled": 1406400, "update_time_ms": 2.567, "grad_time_ms": 375.047, "load_time_ms": 0.712}, "iterations_since_restore": 1172, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 45670.16137313843, "episodes_total": 74953, "episode_reward_max": 8.000014381617177, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 45670.16137313843, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 185, "timestamp": 1757100384, "timesteps_since_restore": 1407600, "episode_reward_min": -47.17922995539142, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-26-24", "episode_len_mean": 6.54054054054054, "timesteps_total": 1407600, "episode_reward_mean": 0.1171184538031818, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.734943866729736, "training_iteration": 1173, "info": {"default": {"policy_loss": -0.0985516831278801, "vf_explained_var": 0.30579760670661926, "vf_loss": 43.93671417236328, "kl": 0.007961379364132881, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 4.645742893218994, "total_loss": 43.87897491455078}, "sample_time_ms": 38818.29, "num_steps_trained": 1407600, "num_steps_sampled": 1407600, "update_time_ms": 2.533, "grad_time_ms": 375.081, "load_time_ms": 0.702}, "iterations_since_restore": 1173, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 45709.155688762665, "episodes_total": 75128, "episode_reward_max": 8.000000424961073, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 45709.155688762665, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 175, "timestamp": 1757100423, "timesteps_since_restore": 1408800, "episode_reward_min": -46.24099245393415, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-27-03", "episode_len_mean": 6.8342857142857145, "timesteps_total": 1408800, "episode_reward_mean": -0.2961394950841043, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.99431562423706, "training_iteration": 1174, "info": {"default": {"policy_loss": -0.1059645339846611, "vf_explained_var": 0.3474235534667969, "vf_loss": 60.46485137939453, "kl": 0.009378910064697266, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.300471782684326, "total_loss": 60.40696334838867}, "sample_time_ms": 38662.4, "num_steps_trained": 1408800, "num_steps_sampled": 1408800, "update_time_ms": 2.53, "grad_time_ms": 376.365, "load_time_ms": 0.699}, "iterations_since_restore": 1174, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 45747.67411327362, "episodes_total": 75296, "episode_reward_max": 8.001723609693746, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 45747.67411327362, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 168, "timestamp": 1757100461, "timesteps_since_restore": 1410000, "episode_reward_min": -54.33754691785293, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-27-41", "episode_len_mean": 7.154761904761905, "timesteps_total": 1410000, "episode_reward_mean": -0.834738431906124, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.51842451095581, "training_iteration": 1175, "info": {"default": {"policy_loss": -0.10391496121883392, "vf_explained_var": 0.30301427841186523, "vf_loss": 85.22502899169922, "kl": 0.008738004602491856, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.346981525421143, "total_loss": 85.1658935546875}, "sample_time_ms": 38699.325, "num_steps_trained": 1410000, "num_steps_sampled": 1410000, "update_time_ms": 2.539, "grad_time_ms": 376.664, "load_time_ms": 0.69}, "iterations_since_restore": 1175, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 45787.53299856186, "episodes_total": 75459, "episode_reward_max": 8.000122051733898, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 45787.53299856186, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 163, "timestamp": 1757100501, "timesteps_since_restore": 1411200, "episode_reward_min": -37.88505216019108, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-28-21", "episode_len_mean": 7.380368098159509, "timesteps_total": 1411200, "episode_reward_mean": -1.156121766462521, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.858885288238525, "training_iteration": 1176, "info": {"default": {"policy_loss": -0.10035940259695053, "vf_explained_var": 0.3051946759223938, "vf_loss": 57.70783233642578, "kl": 0.01130509003996849, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.341222286224365, "total_loss": 57.66542053222656}, "sample_time_ms": 38657.814, "num_steps_trained": 1411200, "num_steps_sampled": 1411200, "update_time_ms": 2.514, "grad_time_ms": 376.963, "load_time_ms": 0.694}, "iterations_since_restore": 1176, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 45826.89668297768, "episodes_total": 75648, "episode_reward_max": 8.00000041468185, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 45826.89668297768, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 189, "timestamp": 1757100540, "timesteps_since_restore": 1412400, "episode_reward_min": -41.465294020727804, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-29-00", "episode_len_mean": 6.338624338624339, "timesteps_total": 1412400, "episode_reward_mean": 0.4925880704760453, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.36368441581726, "training_iteration": 1177, "info": {"default": {"policy_loss": -0.0958179160952568, "vf_explained_var": 0.3147074580192566, "vf_loss": 60.06039810180664, "kl": 0.00816205982118845, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.0160956382751465, "total_loss": 60.00641632080078}, "sample_time_ms": 38655.739, "num_steps_trained": 1412400, "num_steps_sampled": 1412400, "update_time_ms": 2.511, "grad_time_ms": 375.976, "load_time_ms": 0.702}, "iterations_since_restore": 1177, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 45865.81795358658, "episodes_total": 75828, "episode_reward_max": 10.0, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 45865.81795358658, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 180, "timestamp": 1757100579, "timesteps_since_restore": 1413600, "episode_reward_min": -37.05958101756917, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-29-39", "episode_len_mean": 6.65, "timesteps_total": 1413600, "episode_reward_mean": -0.010158859772343378, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.92127060890198, "training_iteration": 1178, "info": {"default": {"policy_loss": -0.10462208837270737, "vf_explained_var": 0.283515602350235, "vf_loss": 56.84616470336914, "kl": 0.008480282500386238, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.023447036743164, "total_loss": 56.78501510620117}, "sample_time_ms": 38624.389, "num_steps_trained": 1413600, "num_steps_sampled": 1413600, "update_time_ms": 2.523, "grad_time_ms": 373.801, "load_time_ms": 0.697}, "iterations_since_restore": 1178, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 45903.561967134476, "episodes_total": 75997, "episode_reward_max": 8.00051510028763, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 45903.561967134476, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 169, "timestamp": 1757100617, "timesteps_since_restore": 1414800, "episode_reward_min": -56.2617737528912, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-30-17", "episode_len_mean": 7.112426035502959, "timesteps_total": 1414800, "episode_reward_mean": -0.8042420012939159, "num_metric_batches_dropped": 0, "time_this_iter_s": 37.74401354789734, "training_iteration": 1179, "info": {"default": {"policy_loss": -0.10740980505943298, "vf_explained_var": 0.28483501076698303, "vf_loss": 80.89469146728516, "kl": 0.008448731154203415, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.029534339904785, "total_loss": 80.83059692382812}, "sample_time_ms": 38521.992, "num_steps_trained": 1414800, "num_steps_sampled": 1414800, "update_time_ms": 2.553, "grad_time_ms": 375.835, "load_time_ms": 0.706}, "iterations_since_restore": 1179, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 45941.89437127113, "episodes_total": 76170, "episode_reward_max": 8.000402745122834, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 45941.89437127113, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 173, "timestamp": 1757100655, "timesteps_since_restore": 1416000, "episode_reward_min": -41.33289125917664, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-30-55", "episode_len_mean": 6.890173410404624, "timesteps_total": 1416000, "episode_reward_mean": -0.4013162089697145, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.332404136657715, "training_iteration": 1180, "info": {"default": {"policy_loss": -0.10367006808519363, "vf_explained_var": 0.28303542733192444, "vf_loss": 49.42604446411133, "kl": 0.010354132391512394, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 4.919572353363037, "total_loss": 49.375450134277344}, "sample_time_ms": 38505.442, "num_steps_trained": 1416000, "num_steps_sampled": 1416000, "update_time_ms": 2.552, "grad_time_ms": 375.444, "load_time_ms": 0.703}, "iterations_since_restore": 1180, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 45980.58993458748, "episodes_total": 76344, "episode_reward_max": 8.000000400000571, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 45980.58993458748, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 174, "timestamp": 1757100694, "timesteps_since_restore": 1417200, "episode_reward_min": -43.16431168237465, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-31-34", "episode_len_mean": 6.908045977011494, "timesteps_total": 1417200, "episode_reward_mean": -0.4513338421956566, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.695563316345215, "training_iteration": 1181, "info": {"default": {"policy_loss": -0.11189316213130951, "vf_explained_var": 0.39415109157562256, "vf_loss": 52.143131256103516, "kl": 0.006788452621549368, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.2787184715271, "total_loss": 52.066036224365234}, "sample_time_ms": 38425.748, "num_steps_trained": 1417200, "num_steps_sampled": 1417200, "update_time_ms": 2.663, "grad_time_ms": 377.617, "load_time_ms": 0.71}, "iterations_since_restore": 1181, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 46020.229674339294, "episodes_total": 76503, "episode_reward_max": 8.000000399999958, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 46020.229674339294, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 159, "timestamp": 1757100734, "timesteps_since_restore": 1418400, "episode_reward_min": -59.81502964404139, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-32-14", "episode_len_mean": 7.484276729559748, "timesteps_total": 1418400, "episode_reward_mean": -1.3274531603081599, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.639739751815796, "training_iteration": 1182, "info": {"default": {"policy_loss": -0.1013791412115097, "vf_explained_var": 0.2981298863887787, "vf_loss": 69.21174621582031, "kl": 0.011096429079771042, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.454695701599121, "total_loss": 69.16724395751953}, "sample_time_ms": 38494.59, "num_steps_trained": 1418400, "num_steps_sampled": 1418400, "update_time_ms": 2.697, "grad_time_ms": 377.067, "load_time_ms": 0.689}, "iterations_since_restore": 1182, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 46060.283242702484, "episodes_total": 76662, "episode_reward_max": 6.222615002129042, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 46060.283242702484, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 159, "timestamp": 1757100774, "timesteps_since_restore": 1419600, "episode_reward_min": -44.65878369023527, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-32-54", "episode_len_mean": 7.540880503144654, "timesteps_total": 1419600, "episode_reward_mean": -1.4162208347774885, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.0535683631897, "training_iteration": 1183, "info": {"default": {"policy_loss": -0.10896147042512894, "vf_explained_var": 0.2781597971916199, "vf_loss": 71.65380096435547, "kl": 0.009621229022741318, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.765018939971924, "total_loss": 71.59414672851562}, "sample_time_ms": 38625.639, "num_steps_trained": 1419600, "num_steps_sampled": 1419600, "update_time_ms": 2.725, "grad_time_ms": 377.789, "load_time_ms": 0.711}, "iterations_since_restore": 1183, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 46099.92793607712, "episodes_total": 76835, "episode_reward_max": 8.00000114865202, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 46099.92793607712, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 173, "timestamp": 1757100814, "timesteps_since_restore": 1420800, "episode_reward_min": -40.36163941835229, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-33-34", "episode_len_mean": 7.0, "timesteps_total": 1420800, "episode_reward_mean": -0.548167861147894, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.64469337463379, "training_iteration": 1184, "info": {"default": {"policy_loss": -0.10826411098241806, "vf_explained_var": 0.30655437707901, "vf_loss": 48.06876754760742, "kl": 0.009723467752337456, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.230618953704834, "total_loss": 48.01034164428711}, "sample_time_ms": 38689.721, "num_steps_trained": 1420800, "num_steps_sampled": 1420800, "update_time_ms": 2.73, "grad_time_ms": 378.719, "load_time_ms": 0.711}, "iterations_since_restore": 1184, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 46138.81106996536, "episodes_total": 77002, "episode_reward_max": 8.000000400046876, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 46138.81106996536, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 167, "timestamp": 1757100853, "timesteps_since_restore": 1422000, "episode_reward_min": -42.36648394899364, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-34-13", "episode_len_mean": 6.982035928143713, "timesteps_total": 1422000, "episode_reward_mean": -0.4332659542698574, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.88313388824463, "training_iteration": 1185, "info": {"default": {"policy_loss": -0.11735028773546219, "vf_explained_var": 0.2903386652469635, "vf_loss": 69.58267211914062, "kl": 0.009462917223572731, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.574602127075195, "total_loss": 69.51382446289062}, "sample_time_ms": 38727.366, "num_steps_trained": 1422000, "num_steps_sampled": 1422000, "update_time_ms": 2.734, "grad_time_ms": 377.475, "load_time_ms": 0.715}, "iterations_since_restore": 1185, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 46177.078142642975, "episodes_total": 77172, "episode_reward_max": 6.001766906176153, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 46177.078142642975, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 170, "timestamp": 1757100891, "timesteps_since_restore": 1423200, "episode_reward_min": -80.96658361900899, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-34-51", "episode_len_mean": 7.311764705882353, "timesteps_total": 1423200, "episode_reward_mean": -1.1945611794909838, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.267072677612305, "training_iteration": 1186, "info": {"default": {"policy_loss": -0.09236734360456467, "vf_explained_var": 0.291673481464386, "vf_loss": 98.9096908569336, "kl": 0.00856576208025217, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.345969200134277, "total_loss": 98.86123657226562}, "sample_time_ms": 38568.978, "num_steps_trained": 1423200, "num_steps_sampled": 1423200, "update_time_ms": 2.736, "grad_time_ms": 376.683, "load_time_ms": 0.705}, "iterations_since_restore": 1186, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 46215.591824769974, "episodes_total": 77351, "episode_reward_max": 6.001149030684305, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 46215.591824769974, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 179, "timestamp": 1757100929, "timesteps_since_restore": 1424400, "episode_reward_min": -42.400105647016396, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-35-29", "episode_len_mean": 6.664804469273743, "timesteps_total": 1424400, "episode_reward_mean": -0.015530546254207477, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.5136821269989, "training_iteration": 1187, "info": {"default": {"policy_loss": -0.10597953200340271, "vf_explained_var": 0.29888567328453064, "vf_loss": 53.875118255615234, "kl": 0.007729976437985897, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.128202438354492, "total_loss": 53.80876159667969}, "sample_time_ms": 38483.329, "num_steps_trained": 1424400, "num_steps_sampled": 1424400, "update_time_ms": 2.743, "grad_time_ms": 377.382, "load_time_ms": 0.692}, "iterations_since_restore": 1187, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 46255.162068128586, "episodes_total": 77526, "episode_reward_max": 8.000000400000314, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 46255.162068128586, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 175, "timestamp": 1757100969, "timesteps_since_restore": 1425600, "episode_reward_min": -64.61028284463191, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-36-09", "episode_len_mean": 6.885714285714286, "timesteps_total": 1425600, "episode_reward_mean": -0.411528655556976, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.57024335861206, "training_iteration": 1188, "info": {"default": {"policy_loss": -0.09775976091623306, "vf_explained_var": 0.3191269338130951, "vf_loss": 81.13760375976562, "kl": 0.007903113029897213, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 4.9296722412109375, "total_loss": 81.08035278320312}, "sample_time_ms": 38546.858, "num_steps_trained": 1425600, "num_steps_sampled": 1425600, "update_time_ms": 2.749, "grad_time_ms": 378.758, "load_time_ms": 0.691}, "iterations_since_restore": 1188, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 46294.88103723526, "episodes_total": 77723, "episode_reward_max": 8.000000406052667, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 46294.88103723526, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 197, "timestamp": 1757101009, "timesteps_since_restore": 1426800, "episode_reward_min": -54.009237321782294, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-36-49", "episode_len_mean": 5.918781725888325, "timesteps_total": 1426800, "episode_reward_mean": 1.1005133705822523, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.718969106674194, "training_iteration": 1189, "info": {"default": {"policy_loss": -0.0943647250533104, "vf_explained_var": 0.32866573333740234, "vf_loss": 60.48263168334961, "kl": 0.01510225236415863, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 4.327929973602295, "total_loss": 60.46567916870117}, "sample_time_ms": 38746.143, "num_steps_trained": 1426800, "num_steps_sampled": 1426800, "update_time_ms": 2.772, "grad_time_ms": 376.913, "load_time_ms": 0.687}, "iterations_since_restore": 1189, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 46333.83434820175, "episodes_total": 77907, "episode_reward_max": 8.000000400005575, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 46333.83434820175, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 184, "timestamp": 1757101048, "timesteps_since_restore": 1428000, "episode_reward_min": -32.00958597971085, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-37-28", "episode_len_mean": 6.554347826086956, "timesteps_total": 1428000, "episode_reward_mean": 0.12351893841531522, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.9533109664917, "training_iteration": 1190, "info": {"default": {"policy_loss": -0.11648484319448471, "vf_explained_var": 0.3340727388858795, "vf_loss": 56.77426528930664, "kl": 0.008338268846273422, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 4.629159927368164, "total_loss": 56.70051574707031}, "sample_time_ms": 38809.945, "num_steps_trained": 1428000, "num_steps_sampled": 1428000, "update_time_ms": 2.765, "grad_time_ms": 375.143, "load_time_ms": 0.694}, "iterations_since_restore": 1190, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 46371.762206315994, "episodes_total": 78077, "episode_reward_max": 8.000000400000062, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 46371.762206315994, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 170, "timestamp": 1757101086, "timesteps_since_restore": 1429200, "episode_reward_min": -49.940121034523656, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-38-06", "episode_len_mean": 7.141176470588236, "timesteps_total": 1429200, "episode_reward_mean": -0.810945082981313, "num_metric_batches_dropped": 0, "time_this_iter_s": 37.927858114242554, "training_iteration": 1191, "info": {"default": {"policy_loss": -0.10294504463672638, "vf_explained_var": 0.28148823976516724, "vf_loss": 72.8946304321289, "kl": 0.007798169273883104, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.4195051193237305, "total_loss": 72.83165740966797}, "sample_time_ms": 38733.503, "num_steps_trained": 1429200, "num_steps_sampled": 1429200, "update_time_ms": 2.612, "grad_time_ms": 374.943, "load_time_ms": 0.686}, "iterations_since_restore": 1191, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 46409.95107126236, "episodes_total": 78247, "episode_reward_max": 8.000000400026163, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 46409.95107126236, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 170, "timestamp": 1757101124, "timesteps_since_restore": 1430400, "episode_reward_min": -39.59708481979715, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-38-44", "episode_len_mean": 7.176470588235294, "timesteps_total": 1430400, "episode_reward_mean": -0.8495518048953513, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.188864946365356, "training_iteration": 1192, "info": {"default": {"policy_loss": -0.11463054269552231, "vf_explained_var": 0.29236486554145813, "vf_loss": 56.94293975830078, "kl": 0.009777948260307312, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.4722161293029785, "total_loss": 56.87843322753906}, "sample_time_ms": 38587.771, "num_steps_trained": 1430400, "num_steps_sampled": 1430400, "update_time_ms": 2.619, "grad_time_ms": 375.563, "load_time_ms": 0.695}, "iterations_since_restore": 1192, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 46448.74782252312, "episodes_total": 78430, "episode_reward_max": 8.000043937382149, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 46448.74782252312, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 183, "timestamp": 1757101163, "timesteps_since_restore": 1431600, "episode_reward_min": -54.55017199496605, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-39-23", "episode_len_mean": 6.524590163934426, "timesteps_total": 1431600, "episode_reward_mean": 0.12451887319856099, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.796751260757446, "training_iteration": 1193, "info": {"default": {"policy_loss": -0.11253020167350769, "vf_explained_var": 0.29754650592803955, "vf_loss": 74.29521179199219, "kl": 0.009150550700724125, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 4.842074871063232, "total_loss": 74.22958374023438}, "sample_time_ms": 38465.061, "num_steps_trained": 1431600, "num_steps_sampled": 1431600, "update_time_ms": 2.615, "grad_time_ms": 372.64, "load_time_ms": 0.679}, "iterations_since_restore": 1193, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 46487.396542310715, "episodes_total": 78588, "episode_reward_max": 8.00009739127404, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 46487.396542310715, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 158, "timestamp": 1757101201, "timesteps_since_restore": 1432800, "episode_reward_min": -45.30611140418321, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-40-01", "episode_len_mean": 7.493670886075949, "timesteps_total": 1432800, "episode_reward_mean": -1.3159926374488566, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.648719787597656, "training_iteration": 1194, "info": {"default": {"policy_loss": -0.11438347399234772, "vf_explained_var": 0.3005564212799072, "vf_loss": 63.3677978515625, "kl": 0.008048620074987411, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 6.078091144561768, "total_loss": 63.29467010498047}, "sample_time_ms": 38364.441, "num_steps_trained": 1432800, "num_steps_sampled": 1432800, "update_time_ms": 2.587, "grad_time_ms": 373.669, "load_time_ms": 0.691}, "iterations_since_restore": 1194, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 46524.97976446152, "episodes_total": 78763, "episode_reward_max": 6.000629126640623, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 46524.97976446152, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 175, "timestamp": 1757101239, "timesteps_since_restore": 1434000, "episode_reward_min": -61.20592010368978, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-40-39", "episode_len_mean": 6.982857142857143, "timesteps_total": 1434000, "episode_reward_mean": -0.6347567100648794, "num_metric_batches_dropped": 0, "time_this_iter_s": 37.58322215080261, "training_iteration": 1195, "info": {"default": {"policy_loss": -0.10474840551614761, "vf_explained_var": 0.3302365243434906, "vf_loss": 70.17537689208984, "kl": 0.013413540087640285, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 4.972352504730225, "total_loss": 70.13937377929688}, "sample_time_ms": 38235.324, "num_steps_trained": 1434000, "num_steps_sampled": 1434000, "update_time_ms": 2.566, "grad_time_ms": 372.858, "load_time_ms": 0.697}, "iterations_since_restore": 1195, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 46563.44684267044, "episodes_total": 78964, "episode_reward_max": 8.000000400002142, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 46563.44684267044, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 201, "timestamp": 1757101277, "timesteps_since_restore": 1435200, "episode_reward_min": -46.59071558783849, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-41-17", "episode_len_mean": 5.91044776119403, "timesteps_total": 1435200, "episode_reward_mean": 1.1215227727795953, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.46707820892334, "training_iteration": 1196, "info": {"default": {"policy_loss": -0.10129693895578384, "vf_explained_var": 0.3422142267227173, "vf_loss": 44.55157470703125, "kl": 0.007658388931304216, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 4.165820121765137, "total_loss": 44.489532470703125}, "sample_time_ms": 38254.803, "num_steps_trained": 1435200, "num_steps_sampled": 1435200, "update_time_ms": 2.55, "grad_time_ms": 373.338, "load_time_ms": 0.69}, "iterations_since_restore": 1196, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 46602.010795116425, "episodes_total": 79163, "episode_reward_max": 8.000000402315713, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 46602.010795116425, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 199, "timestamp": 1757101316, "timesteps_since_restore": 1436400, "episode_reward_min": -37.477268730236425, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-41-56", "episode_len_mean": 6.085427135678392, "timesteps_total": 1436400, "episode_reward_mean": 0.7778221915919288, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.56395244598389, "training_iteration": 1197, "info": {"default": {"policy_loss": -0.09788880497217178, "vf_explained_var": 0.3950332999229431, "vf_loss": 35.08272171020508, "kl": 0.007198091130703688, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 4.130231857299805, "total_loss": 35.021728515625}, "sample_time_ms": 38262.369, "num_steps_trained": 1436400, "num_steps_sampled": 1436400, "update_time_ms": 2.546, "grad_time_ms": 370.756, "load_time_ms": 0.695}, "iterations_since_restore": 1197, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 46641.59969210625, "episodes_total": 79348, "episode_reward_max": 8.000000400000065, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 46641.59969210625, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 185, "timestamp": 1757101356, "timesteps_since_restore": 1437600, "episode_reward_min": -36.508293231717424, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-42-36", "episode_len_mean": 6.47027027027027, "timesteps_total": 1437600, "episode_reward_mean": 0.22373830381207094, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.58889698982239, "training_iteration": 1198, "info": {"default": {"policy_loss": -0.11158311367034912, "vf_explained_var": 0.3714887499809265, "vf_loss": 44.0656623840332, "kl": 0.00949056725949049, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 4.255941390991211, "total_loss": 44.00273132324219}, "sample_time_ms": 38262.664, "num_steps_trained": 1437600, "num_steps_sampled": 1437600, "update_time_ms": 2.531, "grad_time_ms": 372.308, "load_time_ms": 0.698}, "iterations_since_restore": 1198, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 46680.25517177582, "episodes_total": 79549, "episode_reward_max": 8.000000400133532, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 46680.25517177582, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 201, "timestamp": 1757101394, "timesteps_since_restore": 1438800, "episode_reward_min": -26.353190454350973, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-43-14", "episode_len_mean": 5.9502487562189055, "timesteps_total": 1438800, "episode_reward_mean": 1.0464487388629322, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.65547966957092, "training_iteration": 1199, "info": {"default": {"policy_loss": -0.1064964234828949, "vf_explained_var": 0.40150123834609985, "vf_loss": 27.639299392700195, "kl": 0.00929524376988411, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 4.2128424644470215, "total_loss": 27.580448150634766}, "sample_time_ms": 38156.145, "num_steps_trained": 1438800, "num_steps_sampled": 1438800, "update_time_ms": 2.484, "grad_time_ms": 372.538, "load_time_ms": 0.69}, "iterations_since_restore": 1199, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 46719.53944039345, "episodes_total": 79747, "episode_reward_max": 8.000000400059175, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 46719.53944039345, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 198, "timestamp": 1757101433, "timesteps_since_restore": 1440000, "episode_reward_min": -52.11421743847046, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-43-53", "episode_len_mean": 6.095959595959596, "timesteps_total": 1440000, "episode_reward_mean": 0.814173585302958, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.284268617630005, "training_iteration": 1200, "info": {"default": {"policy_loss": -0.08705949783325195, "vf_explained_var": 0.32227176427841187, "vf_loss": 57.37400436401367, "kl": 0.007209544535726309, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 4.084155082702637, "total_loss": 57.32389831542969}, "sample_time_ms": 38188.87, "num_steps_trained": 1440000, "num_steps_sampled": 1440000, "update_time_ms": 2.471, "grad_time_ms": 372.928, "load_time_ms": 0.692}, "iterations_since_restore": 1200, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 46757.97894573212, "episodes_total": 79922, "episode_reward_max": 8.00000040000052, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 46757.97894573212, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 175, "timestamp": 1757101472, "timesteps_since_restore": 1441200, "episode_reward_min": -40.35315032687996, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-44-32", "episode_len_mean": 6.7542857142857144, "timesteps_total": 1441200, "episode_reward_mean": -0.22087364817504543, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.43950533866882, "training_iteration": 1201, "info": {"default": {"policy_loss": -0.10885217785835266, "vf_explained_var": 0.3320154547691345, "vf_loss": 65.04464721679688, "kl": 0.008312225341796875, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 5.0677995681762695, "total_loss": 64.97840881347656}, "sample_time_ms": 38239.535, "num_steps_trained": 1441200, "num_steps_sampled": 1441200, "update_time_ms": 2.478, "grad_time_ms": 373.387, "load_time_ms": 0.691}, "iterations_since_restore": 1201, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 46797.331588983536, "episodes_total": 80102, "episode_reward_max": 8.000000401452203, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 46797.331588983536, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 180, "timestamp": 1757101511, "timesteps_since_restore": 1442400, "episode_reward_min": -63.448587371818434, "pid": 2334300, "policy_reward_mean": {}, "node_ip": "10.157.146.2", "done": false, "custom_metrics": {}, "date": "2025-09-05_21-45-11", "episode_len_mean": 6.766666666666667, "timesteps_total": 1442400, "episode_reward_mean": -0.2925434437960404, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.35264325141907, "training_iteration": 1202, "info": {"default": {"policy_loss": -0.10998581349849701, "vf_explained_var": 0.309430867433548, "vf_loss": 84.11141967773438, "kl": 0.007297995965927839, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 5.125781059265137, "entropy": 4.834565162658691, "total_loss": 84.03884887695312}, "sample_time_ms": 38355.555, "num_steps_trained": 1442400, "num_steps_sampled": 1442400, "update_time_ms": 2.482, "grad_time_ms": 373.767, "load_time_ms": 0.692}, "iterations_since_restore": 1202, "config": {"num_gpus": 0, "output": null, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "synchronize_filters": true, "lambda": 1.0, "env_config": {"generalize": false, "run_valid": false}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "observation_filter": "MeanStdFilter", "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "kl_coeff": 0.2, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "monitor": false, "num_workers": 3, "clip_param": 0.3, "postprocess_inputs": false, "env": "Zhenxin_S_FC", "clip_actions": true, "lr_schedule": null, "num_gpus_per_worker": 0, "output_compress_columns": ["obs", "new_obs"], "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 46762.35824751854, "iterations_since_restore": 1, "episode_reward_max": 8.000087616994353, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 79932, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 185, "timestamp": 1757101590, "timesteps_since_restore": 1200, "episode_len_mean": 6.454054054054054, "episode_reward_mean": 0.22059048714243149, "pid": 2334309, "time_since_restore": 42.81880712509155, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_21-46-30", "timesteps_total": 1441200, "episode_reward_min": -35.95899028318915, "num_metric_batches_dropped": 0, "time_this_iter_s": 42.81880712509155, "training_iteration": 1201, "info": {"default": {"policy_loss": -0.0949096530675888, "vf_explained_var": 0.3307487964630127, "vf_loss": 44.666290283203125, "kl": 0.008218212053179741, "entropy": 4.739095687866211, "cur_kl_coeff": 5.125781059265137, "cur_lr": 4.999999873689376e-05, "total_loss": 44.61350631713867}, "sample_time_ms": 41713.791, "num_steps_trained": 1441200, "num_steps_sampled": 1441200, "update_time_ms": 404.474, "grad_time_ms": 648.378, "load_time_ms": 32.439}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 46801.00995707512, "iterations_since_restore": 2, "episode_reward_max": 10.0, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 80127, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 195, "timestamp": 1757101628, "timesteps_since_restore": 2400, "episode_len_mean": 6.0717948717948715, "episode_reward_mean": 0.8361015248275275, "pid": 2334309, "time_since_restore": 81.47051668167114, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_21-47-08", "timesteps_total": 1442400, "episode_reward_min": -23.557779174494073, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.65170955657959, "training_iteration": 1202, "info": {"default": {"policy_loss": -0.13447050750255585, "vf_explained_var": 0.40961048007011414, "vf_loss": 26.359453201293945, "kl": 0.04370443522930145, "entropy": 4.030953407287598, "cur_kl_coeff": 0.20000000298023224, "cur_lr": 4.999999873689376e-05, "total_loss": 26.233722686767578}, "sample_time_ms": 39983.126, "num_steps_trained": 1442400, "num_steps_sampled": 1442400, "update_time_ms": 203.395, "grad_time_ms": 519.433, "load_time_ms": 16.618}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 46839.50114154816, "iterations_since_restore": 3, "episode_reward_max": 8.000000400015564, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 80319, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 192, "timestamp": 1757101667, "timesteps_since_restore": 3600, "episode_len_mean": 6.338541666666667, "episode_reward_mean": 0.5006679706390685, "pid": 2334309, "time_since_restore": 119.96170115470886, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_21-47-47", "timesteps_total": 1443600, "episode_reward_min": -29.97563343735021, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.49118447303772, "training_iteration": 1203, "info": {"default": {"policy_loss": -0.1372520476579666, "vf_explained_var": 0.3701402246952057, "vf_loss": 38.25960922241211, "kl": 0.04826319217681885, "entropy": 4.544256210327148, "cur_kl_coeff": 0.30000001192092896, "cur_lr": 4.999999873689376e-05, "total_loss": 38.136837005615234}, "sample_time_ms": 39356.941, "num_steps_trained": 1443600, "num_steps_sampled": 1443600, "update_time_ms": 136.44, "grad_time_ms": 472.282, "load_time_ms": 11.319}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 46877.76012802124, "iterations_since_restore": 4, "episode_reward_max": 8.000000399999957, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 80510, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 191, "timestamp": 1757101705, "timesteps_since_restore": 4800, "episode_len_mean": 6.277486910994765, "episode_reward_mean": 0.5230718146224435, "pid": 2334309, "time_since_restore": 158.22068762779236, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_21-48-25", "timesteps_total": 1444800, "episode_reward_min": -45.21136625664018, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.258986473083496, "training_iteration": 1204, "info": {"default": {"policy_loss": -0.13383665680885315, "vf_explained_var": 0.361124187707901, "vf_loss": 38.87837219238281, "kl": 0.036352407187223434, "entropy": 4.376911640167236, "cur_kl_coeff": 0.44999995827674866, "cur_lr": 4.999999873689376e-05, "total_loss": 38.760894775390625}, "sample_time_ms": 38989.45, "num_steps_trained": 1444800, "num_steps_sampled": 1444800, "update_time_ms": 102.892, "grad_time_ms": 445.007, "load_time_ms": 8.645}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 46916.234776973724, "iterations_since_restore": 5, "episode_reward_max": 6.001482185544353, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 80701, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 191, "timestamp": 1757101744, "timesteps_since_restore": 6000, "episode_len_mean": 6.225130890052356, "episode_reward_mean": 0.6744661557606068, "pid": 2334309, "time_since_restore": 196.6953365802765, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_21-49-04", "timesteps_total": 1446000, "episode_reward_min": -50.76506031741909, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.47464895248413, "training_iteration": 1205, "info": {"default": {"policy_loss": -0.10358817875385284, "vf_explained_var": 0.3180692493915558, "vf_loss": 49.06149673461914, "kl": 0.08759749680757523, "entropy": 4.678619384765625, "cur_kl_coeff": 0.675000011920929, "cur_lr": 4.999999873689376e-05, "total_loss": 49.01704025268555}, "sample_time_ms": 38811.326, "num_steps_trained": 1446000, "num_steps_sampled": 1446000, "update_time_ms": 82.839, "grad_time_ms": 429.378, "load_time_ms": 7.072}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 46956.19604206085, "iterations_since_restore": 6, "episode_reward_max": 6.001176470992208, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 80898, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 197, "timestamp": 1757101783, "timesteps_since_restore": 7200, "episode_len_mean": 6.1725888324873095, "episode_reward_mean": 0.7040904277875617, "pid": 2334309, "time_since_restore": 236.65660166740417, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_21-49-43", "timesteps_total": 1447200, "episode_reward_min": -29.700607276201602, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.961265087127686, "training_iteration": 1206, "info": {"default": {"policy_loss": -0.12596414983272552, "vf_explained_var": 0.42595767974853516, "vf_loss": 29.88062286376953, "kl": 0.02424033172428608, "entropy": 4.292487621307373, "cur_kl_coeff": 1.0125000476837158, "cur_lr": 4.999999873689376e-05, "total_loss": 29.77920150756836}, "sample_time_ms": 38936.465, "num_steps_trained": 1447200, "num_steps_sampled": 1447200, "update_time_ms": 69.438, "grad_time_ms": 422.831, "load_time_ms": 6.037}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 46995.83706998825, "iterations_since_restore": 7, "episode_reward_max": 8.00000045156916, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 81093, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 195, "timestamp": 1757101823, "timesteps_since_restore": 8400, "episode_len_mean": 6.01025641025641, "episode_reward_mean": 0.9600907973929671, "pid": 2334309, "time_since_restore": 276.29762959480286, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_21-50-23", "timesteps_total": 1448400, "episode_reward_min": -30.835806939456667, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.64102792739868, "training_iteration": 1207, "info": {"default": {"policy_loss": -0.12063748389482498, "vf_explained_var": 0.34623685479164124, "vf_loss": 32.559173583984375, "kl": 0.01914852112531662, "entropy": 4.208317279815674, "cur_kl_coeff": 1.5187499523162842, "cur_lr": 4.999999873689376e-05, "total_loss": 32.46761703491211}, "sample_time_ms": 38982.402, "num_steps_trained": 1448400, "num_steps_sampled": 1448400, "update_time_ms": 59.925, "grad_time_ms": 415.81, "load_time_ms": 5.262}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 47035.220418930054, "iterations_since_restore": 8, "episode_reward_max": 8.000000400171846, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 81285, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 192, "timestamp": 1757101863, "timesteps_since_restore": 9600, "episode_len_mean": 6.338541666666667, "episode_reward_mean": 0.45323365227682544, "pid": 2334309, "time_since_restore": 315.68097853660583, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_21-51-03", "timesteps_total": 1449600, "episode_reward_min": -36.03854865306635, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.38334894180298, "training_iteration": 1208, "info": {"default": {"policy_loss": -0.12053803354501724, "vf_explained_var": 0.3680611252784729, "vf_loss": 38.41837692260742, "kl": 0.020434748381376266, "entropy": 4.442963123321533, "cur_kl_coeff": 1.5187499523162842, "cur_lr": 4.999999873689376e-05, "total_loss": 38.32887649536133}, "sample_time_ms": 38983.552, "num_steps_trained": 1449600, "num_steps_sampled": 1449600, "update_time_ms": 52.773, "grad_time_ms": 411.658, "load_time_ms": 4.695}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 47073.911309719086, "iterations_since_restore": 9, "episode_reward_max": 8.000000503758317, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 81466, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 181, "timestamp": 1757101901, "timesteps_since_restore": 10800, "episode_len_mean": 6.6464088397790055, "episode_reward_mean": -0.08640131876590947, "pid": 2334309, "time_since_restore": 354.3718693256378, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_21-51-41", "timesteps_total": 1450800, "episode_reward_min": -42.79471430581194, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.69089078903198, "training_iteration": 1209, "info": {"default": {"policy_loss": -0.12671631574630737, "vf_explained_var": 0.3624003529548645, "vf_loss": 56.46647644042969, "kl": 0.014798696152865887, "entropy": 4.322478294372559, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 56.373470306396484}, "sample_time_ms": 38907.101, "num_steps_trained": 1450800, "num_steps_sampled": 1450800, "update_time_ms": 47.219, "grad_time_ms": 408.857, "load_time_ms": 4.25}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 47112.963074207306, "iterations_since_restore": 10, "episode_reward_max": 6.0014282955405704, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 81638, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 172, "timestamp": 1757101940, "timesteps_since_restore": 12000, "episode_len_mean": 6.680232558139535, "episode_reward_mean": -0.12009366948955597, "pid": 2334309, "time_since_restore": 393.42363381385803, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_21-52-20", "timesteps_total": 1452000, "episode_reward_min": -39.88377935984129, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.051764488220215, "training_iteration": 1210, "info": {"default": {"policy_loss": -0.12237469106912613, "vf_explained_var": 0.3214374780654907, "vf_loss": 58.75821304321289, "kl": 0.015512551181018353, "entropy": 5.004978179931641, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 58.67117691040039}, "sample_time_ms": 38883.358, "num_steps_trained": 1452000, "num_steps_sampled": 1452000, "update_time_ms": 42.775, "grad_time_ms": 405.26, "load_time_ms": 3.895}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 47151.22234392166, "iterations_since_restore": 11, "episode_reward_max": 6.000347343582869, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 81816, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 178, "timestamp": 1757101979, "timesteps_since_restore": 13200, "episode_len_mean": 7.022471910112359, "episode_reward_mean": -0.6338650379435915, "pid": 2334309, "time_since_restore": 431.6829035282135, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_21-52-59", "timesteps_total": 1453200, "episode_reward_min": -44.368843116582205, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.25926971435547, "training_iteration": 1211, "info": {"default": {"policy_loss": -0.11177854984998703, "vf_explained_var": 0.3188992738723755, "vf_loss": 64.14400482177734, "kl": 0.013535390608012676, "entropy": 4.967001914978027, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 64.06306457519531}, "sample_time_ms": 38498.982, "num_steps_trained": 1453200, "num_steps_sampled": 1453200, "update_time_ms": 2.631, "grad_time_ms": 378.411, "load_time_ms": 0.727}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 47190.27602529526, "iterations_since_restore": 12, "episode_reward_max": 8.000000501153908, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 82004, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 188, "timestamp": 1757102018, "timesteps_since_restore": 14400, "episode_len_mean": 6.297872340425532, "episode_reward_mean": 0.4643216474109206, "pid": 2334309, "time_since_restore": 470.7365849018097, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_21-53-38", "timesteps_total": 1454400, "episode_reward_min": -77.90198830708181, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.05368137359619, "training_iteration": 1212, "info": {"default": {"policy_loss": -0.11598057299852371, "vf_explained_var": 0.3558686077594757, "vf_loss": 63.12425231933594, "kl": 0.01240842416882515, "entropy": 4.777616500854492, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 63.03654098510742}, "sample_time_ms": 38541.249, "num_steps_trained": 1454400, "num_steps_sampled": 1454400, "update_time_ms": 2.668, "grad_time_ms": 376.294, "load_time_ms": 0.717}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 47229.73130631447, "iterations_since_restore": 13, "episode_reward_max": 8.000000399999921, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 82185, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 181, "timestamp": 1757102057, "timesteps_since_restore": 15600, "episode_len_mean": 6.679558011049724, "episode_reward_mean": -0.13164425879397704, "pid": 2334309, "time_since_restore": 510.1918659210205, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_21-54-17", "timesteps_total": 1455600, "episode_reward_min": -54.65295168509846, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.455281019210815, "training_iteration": 1213, "info": {"default": {"policy_loss": -0.1258002668619156, "vf_explained_var": 0.37512168288230896, "vf_loss": 67.7354736328125, "kl": 0.014679953455924988, "entropy": 4.436418056488037, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 67.64311218261719}, "sample_time_ms": 38639.389, "num_steps_trained": 1455600, "num_steps_sampled": 1455600, "update_time_ms": 2.683, "grad_time_ms": 374.592, "load_time_ms": 0.709}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 47269.05489897728, "iterations_since_restore": 14, "episode_reward_max": 8.000000400072132, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 82362, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 177, "timestamp": 1757102097, "timesteps_since_restore": 16800, "episode_len_mean": 6.830508474576271, "episode_reward_mean": -0.4314390590020732, "pid": 2334309, "time_since_restore": 549.5154585838318, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_21-54-57", "timesteps_total": 1456800, "episode_reward_min": -59.73562876903715, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.32359266281128, "training_iteration": 1214, "info": {"default": {"policy_loss": -0.11443718522787094, "vf_explained_var": 0.35381948947906494, "vf_loss": 57.64957046508789, "kl": 0.01558062806725502, "entropy": 4.689682483673096, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 57.57062530517578}, "sample_time_ms": 38743.589, "num_steps_trained": 1456800, "num_steps_sampled": 1456800, "update_time_ms": 2.703, "grad_time_ms": 376.901, "load_time_ms": 0.715}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 47308.21302676201, "iterations_since_restore": 15, "episode_reward_max": 8.000509463953877, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 82548, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 186, "timestamp": 1757102136, "timesteps_since_restore": 18000, "episode_len_mean": 6.446236559139785, "episode_reward_mean": 0.20861522525831488, "pid": 2334309, "time_since_restore": 588.6735863685608, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_21-55-36", "timesteps_total": 1458000, "episode_reward_min": -80.49661440028632, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.158127784729004, "training_iteration": 1215, "info": {"default": {"policy_loss": -0.11074704676866531, "vf_explained_var": 0.2768966853618622, "vf_loss": 99.58460235595703, "kl": 0.012570950202643871, "entropy": 4.486070156097412, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 99.50249481201172}, "sample_time_ms": 38810.127, "num_steps_trained": 1458000, "num_steps_sampled": 1458000, "update_time_ms": 2.694, "grad_time_ms": 378.728, "load_time_ms": 0.704}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 47347.54428052902, "iterations_since_restore": 16, "episode_reward_max": 6.001785874880037, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 82736, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 188, "timestamp": 1757102175, "timesteps_since_restore": 19200, "episode_len_mean": 6.3936170212765955, "episode_reward_mean": 0.29048084374719746, "pid": 2334309, "time_since_restore": 628.0048401355743, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_21-56-15", "timesteps_total": 1459200, "episode_reward_min": -38.83631729276626, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.33125376701355, "training_iteration": 1216, "info": {"default": {"policy_loss": -0.12163589894771576, "vf_explained_var": 0.344220370054245, "vf_loss": 45.08348083496094, "kl": 0.013819948770105839, "entropy": 4.225754261016846, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 44.99333190917969}, "sample_time_ms": 38749.838, "num_steps_trained": 1459200, "num_steps_sampled": 1459200, "update_time_ms": 2.719, "grad_time_ms": 376.028, "load_time_ms": 0.683}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 47387.353395462036, "iterations_since_restore": 17, "episode_reward_max": 8.00000040001646, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 82947, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 211, "timestamp": 1757102215, "timesteps_since_restore": 20400, "episode_len_mean": 5.687203791469194, "episode_reward_mean": 1.4226940956480139, "pid": 2334309, "time_since_restore": 667.8139550685883, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_21-56-55", "timesteps_total": 1460400, "episode_reward_min": -37.57567795417372, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.809114933013916, "training_iteration": 1217, "info": {"default": {"policy_loss": -0.09990496188402176, "vf_explained_var": 0.3759240210056305, "vf_loss": 33.66835021972656, "kl": 0.013001400977373123, "entropy": 3.488776206970215, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 33.59806823730469}, "sample_time_ms": 38765.837, "num_steps_trained": 1460400, "num_steps_sampled": 1460400, "update_time_ms": 2.686, "grad_time_ms": 376.85, "load_time_ms": 0.701}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 47426.79783797264, "iterations_since_restore": 18, "episode_reward_max": 6.0017384835027885, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 83147, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 200, "timestamp": 1757102254, "timesteps_since_restore": 21600, "episode_len_mean": 6.015, "episode_reward_mean": 0.8982375903015489, "pid": 2334309, "time_since_restore": 707.2583975791931, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_21-57-34", "timesteps_total": 1461600, "episode_reward_min": -47.60710531921385, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.44444251060486, "training_iteration": 1218, "info": {"default": {"policy_loss": -0.11024655401706696, "vf_explained_var": 0.3803577423095703, "vf_loss": 51.77638244628906, "kl": 0.01401712466031313, "entropy": 3.822809934616089, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 51.69807052612305}, "sample_time_ms": 38772.126, "num_steps_trained": 1461600, "num_steps_sampled": 1461600, "update_time_ms": 2.682, "grad_time_ms": 376.643, "load_time_ms": 0.707}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 47465.560520887375, "iterations_since_restore": 19, "episode_reward_max": 8.000000399999951, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 83321, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 174, "timestamp": 1757102293, "timesteps_since_restore": 22800, "episode_len_mean": 6.775862068965517, "episode_reward_mean": -0.3222330761474993, "pid": 2334309, "time_since_restore": 746.021080493927, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_21-58-13", "timesteps_total": 1462800, "episode_reward_min": -33.51604131959279, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.76268291473389, "training_iteration": 1219, "info": {"default": {"policy_loss": -0.12400710582733154, "vf_explained_var": 0.3631223440170288, "vf_loss": 44.66061019897461, "kl": 0.017322221770882607, "entropy": 4.845818519592285, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 44.57606506347656}, "sample_time_ms": 38780.251, "num_steps_trained": 1462800, "num_steps_sampled": 1462800, "update_time_ms": 2.679, "grad_time_ms": 375.732, "load_time_ms": 0.704}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 47504.91375398636, "iterations_since_restore": 20, "episode_reward_max": 8.00000040000156, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 83524, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 203, "timestamp": 1757102332, "timesteps_since_restore": 24000, "episode_len_mean": 5.995073891625616, "episode_reward_mean": 0.9516198803848064, "pid": 2334309, "time_since_restore": 785.3743135929108, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_21-58-52", "timesteps_total": 1464000, "episode_reward_min": -27.830267002145952, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.353233098983765, "training_iteration": 1220, "info": {"default": {"policy_loss": -0.11081495136022568, "vf_explained_var": 0.4109557867050171, "vf_loss": 24.97028160095215, "kl": 0.017219197005033493, "entropy": 3.4181478023529053, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 24.898693084716797}, "sample_time_ms": 38811.768, "num_steps_trained": 1464000, "num_steps_sampled": 1464000, "update_time_ms": 2.633, "grad_time_ms": 374.426, "load_time_ms": 0.698}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 47543.80919456482, "iterations_since_restore": 21, "episode_reward_max": 8.000000400002163, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 83704, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 180, "timestamp": 1757102371, "timesteps_since_restore": 25200, "episode_len_mean": 6.677777777777778, "episode_reward_mean": -0.07378214379137399, "pid": 2334309, "time_since_restore": 824.2697541713715, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_21-59-31", "timesteps_total": 1465200, "episode_reward_min": -75.50116275219513, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.89544057846069, "training_iteration": 1221, "info": {"default": {"policy_loss": -0.11286144703626633, "vf_explained_var": 0.3047105669975281, "vf_loss": 115.46392059326172, "kl": 0.016012877225875854, "entropy": 5.214932918548584, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 115.38753509521484}, "sample_time_ms": 38877.201, "num_steps_trained": 1465200, "num_steps_sampled": 1465200, "update_time_ms": 2.677, "grad_time_ms": 372.631, "load_time_ms": 0.686}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 47583.03932237625, "iterations_since_restore": 22, "episode_reward_max": 6.000166460038978, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 83918, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 214, "timestamp": 1757102411, "timesteps_since_restore": 26400, "episode_len_mean": 5.546728971962617, "episode_reward_mean": 1.6041085787753966, "pid": 2334309, "time_since_restore": 863.4998819828033, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-00-11", "timesteps_total": 1466400, "episode_reward_min": -36.66684855016996, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.230127811431885, "training_iteration": 1222, "info": {"default": {"policy_loss": -0.10716117918491364, "vf_explained_var": 0.43413040041923523, "vf_loss": 37.044349670410156, "kl": 0.014936394058167934, "entropy": 3.438713550567627, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 36.971214294433594}, "sample_time_ms": 38894.095, "num_steps_trained": 1466400, "num_steps_sampled": 1466400, "update_time_ms": 2.642, "grad_time_ms": 373.436, "load_time_ms": 0.693}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 47623.97882294655, "iterations_since_restore": 23, "episode_reward_max": 8.000000400008547, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 84131, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 213, "timestamp": 1757102452, "timesteps_since_restore": 27600, "episode_len_mean": 5.615023474178404, "episode_reward_mean": 1.5182994332574558, "pid": 2334309, "time_since_restore": 904.4393825531006, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-00-52", "timesteps_total": 1467600, "episode_reward_min": -36.89382245878838, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.93950057029724, "training_iteration": 1223, "info": {"default": {"policy_loss": -0.11684319376945496, "vf_explained_var": 0.3624832332134247, "vf_loss": 31.940988540649414, "kl": 0.01382778026163578, "entropy": 3.0893030166625977, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 31.855648040771484}, "sample_time_ms": 39039.714, "num_steps_trained": 1467600, "num_steps_sampled": 1467600, "update_time_ms": 2.623, "grad_time_ms": 376.199, "load_time_ms": 0.704}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 47662.65511012077, "iterations_since_restore": 24, "episode_reward_max": 8.000000419779765, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 84341, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 210, "timestamp": 1757102490, "timesteps_since_restore": 28800, "episode_len_mean": 5.804761904761905, "episode_reward_mean": 1.3048326456620565, "pid": 2334309, "time_since_restore": 943.1156697273254, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-01-30", "timesteps_total": 1468800, "episode_reward_min": -36.78204054976357, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.67628717422485, "training_iteration": 1224, "info": {"default": {"policy_loss": -0.10039045661687851, "vf_explained_var": 0.3817479908466339, "vf_loss": 35.40732955932617, "kl": 0.015428673475980759, "entropy": 3.7099485397338867, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 35.34208679199219}, "sample_time_ms": 38975.62, "num_steps_trained": 1468800, "num_steps_sampled": 1468800, "update_time_ms": 2.645, "grad_time_ms": 375.523, "load_time_ms": 0.706}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 47701.164185762405, "iterations_since_restore": 25, "episode_reward_max": 10.0, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 84504, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 163, "timestamp": 1757102529, "timesteps_since_restore": 30000, "episode_len_mean": 7.2392638036809815, "episode_reward_mean": -1.0109838470170818, "pid": 2334309, "time_since_restore": 981.6247453689575, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-02-09", "timesteps_total": 1470000, "episode_reward_min": -78.26665856320551, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.50907564163208, "training_iteration": 1225, "info": {"default": {"policy_loss": -0.13272608816623688, "vf_explained_var": 0.3285239636898041, "vf_loss": 115.18812561035156, "kl": 0.014843559823930264, "entropy": 5.69423770904541, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 115.08921813964844}, "sample_time_ms": 38911.379, "num_steps_trained": 1470000, "num_steps_sampled": 1470000, "update_time_ms": 2.633, "grad_time_ms": 374.906, "load_time_ms": 0.712}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 47740.16259598732, "iterations_since_restore": 26, "episode_reward_max": 8.00000040001035, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 84704, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 200, "timestamp": 1757102568, "timesteps_since_restore": 31200, "episode_len_mean": 6.08, "episode_reward_mean": 0.8249445239570116, "pid": 2334309, "time_since_restore": 1020.6231555938721, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-02-48", "timesteps_total": 1471200, "episode_reward_min": -56.83347009561257, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.99841022491455, "training_iteration": 1226, "info": {"default": {"policy_loss": -0.1054048016667366, "vf_explained_var": 0.343726247549057, "vf_loss": 61.48265075683594, "kl": 0.01461585983633995, "entropy": 4.071898460388184, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 61.41054153442383}, "sample_time_ms": 38876.82, "num_steps_trained": 1471200, "num_steps_sampled": 1471200, "update_time_ms": 2.637, "grad_time_ms": 376.197, "load_time_ms": 0.722}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 47780.84690093994, "iterations_since_restore": 27, "episode_reward_max": 8.000000400000328, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 84899, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 195, "timestamp": 1757102609, "timesteps_since_restore": 32400, "episode_len_mean": 6.164102564102564, "episode_reward_mean": 0.6760221545013841, "pid": 2334309, "time_since_restore": 1061.3074605464935, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-03-29", "timesteps_total": 1472400, "episode_reward_min": -39.602581128610396, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.68430495262146, "training_iteration": 1227, "info": {"default": {"policy_loss": -0.10419557988643646, "vf_explained_var": 0.3798348605632782, "vf_loss": 40.934043884277344, "kl": 0.017240455374121666, "entropy": 4.000186443328857, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 40.86912536621094}, "sample_time_ms": 38964.69, "num_steps_trained": 1472400, "num_steps_sampled": 1472400, "update_time_ms": 2.659, "grad_time_ms": 375.854, "load_time_ms": 0.71}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 47820.933233737946, "iterations_since_restore": 28, "episode_reward_max": 8.000000403254445, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 85115, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 216, "timestamp": 1757102649, "timesteps_since_restore": 33600, "episode_len_mean": 5.564814814814815, "episode_reward_mean": 1.542185780042617, "pid": 2334309, "time_since_restore": 1101.3937933444977, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-04-09", "timesteps_total": 1473600, "episode_reward_min": -82.33753933222849, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.08633279800415, "training_iteration": 1228, "info": {"default": {"policy_loss": -0.10369937866926193, "vf_explained_var": 0.30433544516563416, "vf_loss": 84.26398468017578, "kl": 0.010918676853179932, "entropy": 3.0200562477111816, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 84.1851577758789}, "sample_time_ms": 39028.913, "num_steps_trained": 1473600, "num_steps_sampled": 1473600, "update_time_ms": 2.68, "grad_time_ms": 375.789, "load_time_ms": 0.701}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 47860.76788544655, "iterations_since_restore": 29, "episode_reward_max": 8.000000400002936, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 85334, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 219, "timestamp": 1757102688, "timesteps_since_restore": 34800, "episode_len_mean": 5.442922374429224, "episode_reward_mean": 1.7955498823125218, "pid": 2334309, "time_since_restore": 1141.2284450531006, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-04-48", "timesteps_total": 1474800, "episode_reward_min": -40.72598028438501, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.834651708602905, "training_iteration": 1229, "info": {"default": {"policy_loss": -0.11048389226198196, "vf_explained_var": 0.36175739765167236, "vf_loss": 38.77461624145508, "kl": 0.012429031543433666, "entropy": 3.103705883026123, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 38.69245529174805}, "sample_time_ms": 39137.602, "num_steps_trained": 1474800, "num_steps_sampled": 1474800, "update_time_ms": 2.64, "grad_time_ms": 374.287, "load_time_ms": 0.712}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 47900.10248661041, "iterations_since_restore": 30, "episode_reward_max": 6.001519892459182, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 85556, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 222, "timestamp": 1757102728, "timesteps_since_restore": 36000, "episode_len_mean": 5.391891891891892, "episode_reward_mean": 1.8789845761178832, "pid": 2334309, "time_since_restore": 1180.5630462169647, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-05-28", "timesteps_total": 1476000, "episode_reward_min": -33.9147878726761, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.334601163864136, "training_iteration": 1230, "info": {"default": {"policy_loss": -0.10218017548322678, "vf_explained_var": 0.41314688324928284, "vf_loss": 24.59617805480957, "kl": 0.014486802741885185, "entropy": 2.7592883110046387, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 24.527000427246094}, "sample_time_ms": 39135.407, "num_steps_trained": 1476000, "num_steps_sampled": 1476000, "update_time_ms": 2.67, "grad_time_ms": 374.601, "load_time_ms": 0.711}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 47940.09354019165, "iterations_since_restore": 31, "episode_reward_max": 8.000000400001321, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 85773, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 217, "timestamp": 1757102768, "timesteps_since_restore": 37200, "episode_len_mean": 5.52073732718894, "episode_reward_mean": 1.6835896257918668, "pid": 2334309, "time_since_restore": 1220.5540997982025, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-06-08", "timesteps_total": 1477200, "episode_reward_min": -31.041409014144705, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.99105358123779, "training_iteration": 1231, "info": {"default": {"policy_loss": -0.10039569437503815, "vf_explained_var": 0.3675018548965454, "vf_loss": 29.68028450012207, "kl": 0.013000884093344212, "entropy": 2.9756250381469727, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 29.60950469970703}, "sample_time_ms": 39243.694, "num_steps_trained": 1477200, "num_steps_sampled": 1477200, "update_time_ms": 2.689, "grad_time_ms": 375.829, "load_time_ms": 0.713}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 47979.87053370476, "iterations_since_restore": 32, "episode_reward_max": 8.000000400612223, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 85985, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 212, "timestamp": 1757102808, "timesteps_since_restore": 38400, "episode_len_mean": 5.669811320754717, "episode_reward_mean": 1.4846909782255604, "pid": 2334309, "time_since_restore": 1260.3310933113098, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-06-48", "timesteps_total": 1478400, "episode_reward_min": -39.98693690382163, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.7769935131073, "training_iteration": 1232, "info": {"default": {"policy_loss": -0.10103856027126312, "vf_explained_var": 0.3769387900829315, "vf_loss": 40.58894729614258, "kl": 0.011487948708236217, "entropy": 3.4028828144073486, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 40.51408386230469}, "sample_time_ms": 39299.677, "num_steps_trained": 1478400, "num_steps_sampled": 1478400, "update_time_ms": 2.691, "grad_time_ms": 374.543, "load_time_ms": 0.702}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 48019.094207286835, "iterations_since_restore": 33, "episode_reward_max": 8.000000400005602, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 86185, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 200, "timestamp": 1757102847, "timesteps_since_restore": 39600, "episode_len_mean": 5.885, "episode_reward_mean": 1.104355688863812, "pid": 2334309, "time_since_restore": 1299.5547668933868, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-07-27", "timesteps_total": 1479600, "episode_reward_min": -33.54838395026169, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.223673582077026, "training_iteration": 1233, "info": {"default": {"policy_loss": -0.10537931323051453, "vf_explained_var": 0.42940500378608704, "vf_loss": 36.61042785644531, "kl": 0.015490438789129257, "entropy": 3.6247150897979736, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 36.54033660888672}, "sample_time_ms": 39128.382, "num_steps_trained": 1479600, "num_steps_sampled": 1479600, "update_time_ms": 2.68, "grad_time_ms": 374.279, "load_time_ms": 0.696}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 48058.52169060707, "iterations_since_restore": 34, "episode_reward_max": 6.001101827445421, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 86391, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 206, "timestamp": 1757102886, "timesteps_since_restore": 40800, "episode_len_mean": 5.985436893203883, "episode_reward_mean": 1.0151639239737675, "pid": 2334309, "time_since_restore": 1338.982250213623, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-08-06", "timesteps_total": 1480800, "episode_reward_min": -61.263539520460725, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.427483320236206, "training_iteration": 1234, "info": {"default": {"policy_loss": -0.1032780259847641, "vf_explained_var": 0.3696836829185486, "vf_loss": 36.907772064208984, "kl": 0.014424330554902554, "entropy": 3.4543254375457764, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 36.83735656738281}, "sample_time_ms": 39203.153, "num_steps_trained": 1480800, "num_steps_sampled": 1480800, "update_time_ms": 2.67, "grad_time_ms": 374.594, "load_time_ms": 0.703}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 48098.11048269272, "iterations_since_restore": 35, "episode_reward_max": 6.000345536104869, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 86608, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 217, "timestamp": 1757102926, "timesteps_since_restore": 42000, "episode_len_mean": 5.511520737327189, "episode_reward_mean": 1.6460818573876295, "pid": 2334309, "time_since_restore": 1378.5710422992706, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-08-46", "timesteps_total": 1482000, "episode_reward_min": -37.76425905276094, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.58879208564758, "training_iteration": 1235, "info": {"default": {"policy_loss": -0.11542893946170807, "vf_explained_var": 0.3861600160598755, "vf_loss": 38.5168342590332, "kl": 0.01466602087020874, "entropy": 3.1206440925598145, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 38.434814453125}, "sample_time_ms": 39311.393, "num_steps_trained": 1482000, "num_steps_sampled": 1482000, "update_time_ms": 2.736, "grad_time_ms": 374.248, "load_time_ms": 0.702}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 48138.371109485626, "iterations_since_restore": 36, "episode_reward_max": 8.000000399999923, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 86803, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 195, "timestamp": 1757102966, "timesteps_since_restore": 43200, "episode_len_mean": 6.035897435897436, "episode_reward_mean": 0.8468415334583387, "pid": 2334309, "time_since_restore": 1418.8316690921783, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-09-26", "timesteps_total": 1483200, "episode_reward_min": -48.63052725103195, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.260626792907715, "training_iteration": 1236, "info": {"default": {"policy_loss": -0.10956788063049316, "vf_explained_var": 0.4112975001335144, "vf_loss": 62.26152038574219, "kl": 0.016550574451684952, "entropy": 4.053390026092529, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 62.18966293334961}, "sample_time_ms": 39439.585, "num_steps_trained": 1483200, "num_steps_sampled": 1483200, "update_time_ms": 2.691, "grad_time_ms": 372.332, "load_time_ms": 0.693}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 48178.269322156906, "iterations_since_restore": 37, "episode_reward_max": 8.00000040021152, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 87009, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 206, "timestamp": 1757103006, "timesteps_since_restore": 44400, "episode_len_mean": 5.907766990291262, "episode_reward_mean": 1.0929910770678926, "pid": 2334309, "time_since_restore": 1458.7298817634583, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-10-06", "timesteps_total": 1484400, "episode_reward_min": -46.400268206727944, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.89821267127991, "training_iteration": 1237, "info": {"default": {"policy_loss": -0.12168420851230621, "vf_explained_var": 0.3910060226917267, "vf_loss": 35.31398010253906, "kl": 0.01458441186696291, "entropy": 3.7090983390808105, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 35.22551727294922}, "sample_time_ms": 39362.245, "num_steps_trained": 1484400, "num_steps_sampled": 1484400, "update_time_ms": 2.661, "grad_time_ms": 371.106, "load_time_ms": 0.705}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 48218.137130498886, "iterations_since_restore": 38, "episode_reward_max": 8.000000400498683, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 87215, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 206, "timestamp": 1757103046, "timesteps_since_restore": 45600, "episode_len_mean": 5.859223300970874, "episode_reward_mean": 1.152415826052293, "pid": 2334309, "time_since_restore": 1498.5976901054382, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-10-46", "timesteps_total": 1485600, "episode_reward_min": -44.00512189053135, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.86780834197998, "training_iteration": 1238, "info": {"default": {"policy_loss": -0.09571091085672379, "vf_explained_var": 0.44273096323013306, "vf_loss": 40.2126579284668, "kl": 0.012121266685426235, "entropy": 3.3344225883483887, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 40.14455795288086}, "sample_time_ms": 39340.986, "num_steps_trained": 1485600, "num_steps_sampled": 1485600, "update_time_ms": 2.628, "grad_time_ms": 370.564, "load_time_ms": 0.696}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 48258.51054883003, "iterations_since_restore": 39, "episode_reward_max": 8.000000400362213, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 87442, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 227, "timestamp": 1757103086, "timesteps_since_restore": 46800, "episode_len_mean": 5.299559471365638, "episode_reward_mean": 2.0418478348318816, "pid": 2334309, "time_since_restore": 1538.9711084365845, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-11-26", "timesteps_total": 1486800, "episode_reward_min": -33.277430356659806, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.37341833114624, "training_iteration": 1239, "info": {"default": {"policy_loss": -0.09438825398683548, "vf_explained_var": 0.4281969666481018, "vf_loss": 23.804824829101562, "kl": 0.012401617132127285, "entropy": 2.5517663955688477, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 23.738689422607422}, "sample_time_ms": 39394.111, "num_steps_trained": 1486800, "num_steps_sampled": 1486800, "update_time_ms": 2.661, "grad_time_ms": 371.224, "load_time_ms": 0.694}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 48298.534380197525, "iterations_since_restore": 40, "episode_reward_max": 8.00000040000034, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 87669, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 227, "timestamp": 1757103126, "timesteps_since_restore": 48000, "episode_len_mean": 5.308370044052864, "episode_reward_mean": 1.9376178372090491, "pid": 2334309, "time_since_restore": 1578.9949398040771, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-12-06", "timesteps_total": 1488000, "episode_reward_min": -27.182012035541348, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.023831367492676, "training_iteration": 1240, "info": {"default": {"policy_loss": -0.10025133192539215, "vf_explained_var": 0.45105013251304626, "vf_loss": 22.954294204711914, "kl": 0.014134202152490616, "entropy": 2.3688459396362305, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 22.886241912841797}, "sample_time_ms": 39461.623, "num_steps_trained": 1488000, "num_steps_sampled": 1488000, "update_time_ms": 2.655, "grad_time_ms": 372.641, "load_time_ms": 0.7}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 48338.140082359314, "iterations_since_restore": 41, "episode_reward_max": 8.000000399999935, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 87899, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 230, "timestamp": 1757103166, "timesteps_since_restore": 49200, "episode_len_mean": 5.143478260869565, "episode_reward_mean": 2.2640665027540443, "pid": 2334309, "time_since_restore": 1618.600641965866, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-12-46", "timesteps_total": 1489200, "episode_reward_min": -36.754423526648544, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.60570216178894, "training_iteration": 1241, "info": {"default": {"policy_loss": -0.105351522564888, "vf_explained_var": 0.4352569580078125, "vf_loss": 26.6447696685791, "kl": 0.011901291087269783, "entropy": 2.4518487453460693, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 26.566532135009766}, "sample_time_ms": 39424.428, "num_steps_trained": 1489200, "num_steps_sampled": 1489200, "update_time_ms": 2.575, "grad_time_ms": 371.344, "load_time_ms": 0.702}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 48379.25864815712, "iterations_since_restore": 42, "episode_reward_max": 8.000000400001436, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 88129, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 230, "timestamp": 1757103207, "timesteps_since_restore": 50400, "episode_len_mean": 5.226086956521739, "episode_reward_mean": 2.146518811272395, "pid": 2334309, "time_since_restore": 1659.7192077636719, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-13-27", "timesteps_total": 1490400, "episode_reward_min": -28.55536520064404, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.118565797805786, "training_iteration": 1242, "info": {"default": {"policy_loss": -0.09598619490861893, "vf_explained_var": 0.46382325887680054, "vf_loss": 23.892805099487305, "kl": 0.010900450870394707, "entropy": 2.5248117446899414, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 23.821651458740234}, "sample_time_ms": 39557.349, "num_steps_trained": 1490400, "num_steps_sampled": 1490400, "update_time_ms": 2.601, "grad_time_ms": 372.548, "load_time_ms": 0.704}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 48419.50828075409, "iterations_since_restore": 43, "episode_reward_max": 6.000253486178795, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 88342, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 213, "timestamp": 1757103248, "timesteps_since_restore": 51600, "episode_len_mean": 5.666666666666667, "episode_reward_mean": 1.379320864028885, "pid": 2334309, "time_since_restore": 1699.9688403606415, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-14-08", "timesteps_total": 1491600, "episode_reward_min": -30.876932553663394, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.249632596969604, "training_iteration": 1243, "info": {"default": {"policy_loss": -0.11255689710378647, "vf_explained_var": 0.42046141624450684, "vf_loss": 30.644121170043945, "kl": 0.014227011241018772, "entropy": 2.8767242431640625, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 30.563974380493164}, "sample_time_ms": 39659.843, "num_steps_trained": 1491600, "num_steps_sampled": 1491600, "update_time_ms": 2.605, "grad_time_ms": 372.545, "load_time_ms": 0.707}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 48458.73338508606, "iterations_since_restore": 44, "episode_reward_max": 6.000207207247596, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 88557, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 215, "timestamp": 1757103287, "timesteps_since_restore": 52800, "episode_len_mean": 5.567441860465117, "episode_reward_mean": 1.5939110267542203, "pid": 2334309, "time_since_restore": 1739.1939446926117, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-14-47", "timesteps_total": 1492800, "episode_reward_min": -39.86254913916809, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.225104331970215, "training_iteration": 1244, "info": {"default": {"policy_loss": -0.10845823585987091, "vf_explained_var": 0.4771576523780823, "vf_loss": 25.38532257080078, "kl": 0.017152421176433563, "entropy": 2.594883918762207, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 25.315940856933594}, "sample_time_ms": 39640.101, "num_steps_trained": 1492800, "num_steps_sampled": 1492800, "update_time_ms": 2.602, "grad_time_ms": 372.077, "load_time_ms": 0.7}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 48497.93595910072, "iterations_since_restore": 45, "episode_reward_max": 8.00000040000325, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 88774, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 217, "timestamp": 1757103326, "timesteps_since_restore": 54000, "episode_len_mean": 5.548387096774194, "episode_reward_mean": 1.653257092028642, "pid": 2334309, "time_since_restore": 1778.3965187072754, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-15-26", "timesteps_total": 1494000, "episode_reward_min": -31.938610403000183, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.202574014663696, "training_iteration": 1245, "info": {"default": {"policy_loss": -0.10481986403465271, "vf_explained_var": 0.46498748660087585, "vf_loss": 28.465749740600586, "kl": 0.010268845595419407, "entropy": 3.006688356399536, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 28.384321212768555}, "sample_time_ms": 39601.081, "num_steps_trained": 1494000, "num_steps_sampled": 1494000, "update_time_ms": 2.565, "grad_time_ms": 372.471, "load_time_ms": 0.694}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 48536.60780787468, "iterations_since_restore": 46, "episode_reward_max": 8.000000466667798, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 88998, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 224, "timestamp": 1757103365, "timesteps_since_restore": 55200, "episode_len_mean": 5.366071428571429, "episode_reward_mean": 1.847545530999805, "pid": 2334309, "time_since_restore": 1817.0683674812317, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-16-05", "timesteps_total": 1495200, "episode_reward_min": -28.403776977313974, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.6718487739563, "training_iteration": 1246, "info": {"default": {"policy_loss": -0.10252340883016586, "vf_explained_var": 0.4896198511123657, "vf_loss": 22.73995590209961, "kl": 0.013302145525813103, "entropy": 2.6420745849609375, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 22.667734146118164}, "sample_time_ms": 39439.924, "num_steps_trained": 1495200, "num_steps_sampled": 1495200, "update_time_ms": 2.589, "grad_time_ms": 374.713, "load_time_ms": 0.693}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 48574.90830755234, "iterations_since_restore": 47, "episode_reward_max": 6.000371158562805, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 89213, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 215, "timestamp": 1757103403, "timesteps_since_restore": 56400, "episode_len_mean": 5.441860465116279, "episode_reward_mean": 1.7508985160198225, "pid": 2334309, "time_since_restore": 1855.3688671588898, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-16-43", "timesteps_total": 1496400, "episode_reward_min": -45.69474198882983, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.30049967765808, "training_iteration": 1247, "info": {"default": {"policy_loss": -0.10728517174720764, "vf_explained_var": 0.35893431305885315, "vf_loss": 58.83910369873047, "kl": 0.011699448339641094, "entropy": 2.6754684448242188, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 58.75847625732422}, "sample_time_ms": 39281.091, "num_steps_trained": 1496400, "num_steps_sampled": 1496400, "update_time_ms": 2.595, "grad_time_ms": 373.783, "load_time_ms": 0.69}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 48612.29506754875, "iterations_since_restore": 48, "episode_reward_max": 8.00000040000007, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 89433, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 220, "timestamp": 1757103440, "timesteps_since_restore": 57600, "episode_len_mean": 5.581818181818182, "episode_reward_mean": 1.5847730132060105, "pid": 2334309, "time_since_restore": 1892.755627155304, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-17-20", "timesteps_total": 1497600, "episode_reward_min": -60.96144735123187, "num_metric_batches_dropped": 0, "time_this_iter_s": 37.386759996414185, "training_iteration": 1248, "info": {"default": {"policy_loss": -0.09774333983659744, "vf_explained_var": 0.347158282995224, "vf_loss": 50.56470489501953, "kl": 0.01158478669822216, "entropy": 2.6603946685791016, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 50.49335479736328}, "sample_time_ms": 39032.27, "num_steps_trained": 1497600, "num_steps_sampled": 1497600, "update_time_ms": 2.567, "grad_time_ms": 374.513, "load_time_ms": 0.7}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 48649.46253609657, "iterations_since_restore": 49, "episode_reward_max": 8.00000040002068, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 89643, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 210, "timestamp": 1757103478, "timesteps_since_restore": 58800, "episode_len_mean": 5.719047619047619, "episode_reward_mean": 1.331519348205996, "pid": 2334309, "time_since_restore": 1929.923095703125, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-17-58", "timesteps_total": 1498800, "episode_reward_min": -44.45545685247991, "num_metric_batches_dropped": 0, "time_this_iter_s": 37.167468547821045, "training_iteration": 1249, "info": {"default": {"policy_loss": -0.09899243712425232, "vf_explained_var": 0.4217360317707062, "vf_loss": 47.55551528930664, "kl": 0.013858580030500889, "entropy": 3.314262628555298, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 47.488094329833984}, "sample_time_ms": 38712.519, "num_steps_trained": 1498800, "num_steps_sampled": 1498800, "update_time_ms": 2.571, "grad_time_ms": 373.747, "load_time_ms": 0.694}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 48687.37360286713, "iterations_since_restore": 50, "episode_reward_max": 6.000275933743849, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 89872, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 229, "timestamp": 1757103516, "timesteps_since_restore": 60000, "episode_len_mean": 5.240174672489083, "episode_reward_mean": 2.0814423504319874, "pid": 2334309, "time_since_restore": 1967.8341624736786, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-18-36", "timesteps_total": 1500000, "episode_reward_min": -58.49670454623475, "num_metric_batches_dropped": 0, "time_this_iter_s": 37.91106677055359, "training_iteration": 1250, "info": {"default": {"policy_loss": -0.09644831717014313, "vf_explained_var": 0.4099137783050537, "vf_loss": 35.01152038574219, "kl": 0.013855131343007088, "entropy": 2.1517603397369385, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 34.94664001464844}, "sample_time_ms": 38503.054, "num_steps_trained": 1500000, "num_steps_sampled": 1500000, "update_time_ms": 2.55, "grad_time_ms": 371.952, "load_time_ms": 0.69}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 48725.694380521774, "iterations_since_restore": 51, "episode_reward_max": 6.000279060687388, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 90114, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 242, "timestamp": 1757103554, "timesteps_since_restore": 61200, "episode_len_mean": 4.975206611570248, "episode_reward_mean": 2.480351502161856, "pid": 2334309, "time_since_restore": 2006.1549401283264, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-19-14", "timesteps_total": 1501200, "episode_reward_min": -18.420300051689974, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.32077765464783, "training_iteration": 1251, "info": {"default": {"policy_loss": -0.09355184435844421, "vf_explained_var": 0.4554464519023895, "vf_loss": 14.178421020507812, "kl": 0.014293445274233818, "entropy": 1.5609524250030518, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 14.117430686950684}, "sample_time_ms": 38372.492, "num_steps_trained": 1501200, "num_steps_sampled": 1501200, "update_time_ms": 2.556, "grad_time_ms": 373.916, "load_time_ms": 0.708}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 48764.055207014084, "iterations_since_restore": 52, "episode_reward_max": 6.000207481738681, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 90348, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 234, "timestamp": 1757103592, "timesteps_since_restore": 62400, "episode_len_mean": 5.115384615384615, "episode_reward_mean": 2.304124147760765, "pid": 2334309, "time_since_restore": 2044.515766620636, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-19-52", "timesteps_total": 1502400, "episode_reward_min": -21.21206667843833, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.36082649230957, "training_iteration": 1252, "info": {"default": {"policy_loss": -0.09788858145475388, "vf_explained_var": 0.49056896567344666, "vf_loss": 15.712214469909668, "kl": 0.016204489395022392, "entropy": 2.3568618297576904, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 15.651240348815918}, "sample_time_ms": 38098.408, "num_steps_trained": 1502400, "num_steps_sampled": 1502400, "update_time_ms": 2.536, "grad_time_ms": 372.267, "load_time_ms": 0.704}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 48801.172657728195, "iterations_since_restore": 53, "episode_reward_max": 6.000111624367469, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 90566, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 218, "timestamp": 1757103629, "timesteps_since_restore": 63600, "episode_len_mean": 5.389908256880734, "episode_reward_mean": 1.8900605377331925, "pid": 2334309, "time_since_restore": 2081.6332173347473, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-20-29", "timesteps_total": 1503600, "episode_reward_min": -38.40064338845996, "num_metric_batches_dropped": 0, "time_this_iter_s": 37.11745071411133, "training_iteration": 1253, "info": {"default": {"policy_loss": -0.11101683229207993, "vf_explained_var": 0.4430917203426361, "vf_loss": 33.17890930175781, "kl": 0.011669887229800224, "entropy": 3.0781562328338623, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 33.09447479248047}, "sample_time_ms": 37785.942, "num_steps_trained": 1503600, "num_steps_sampled": 1503600, "update_time_ms": 2.524, "grad_time_ms": 371.567, "load_time_ms": 0.697}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 48838.42839741707, "iterations_since_restore": 54, "episode_reward_max": 6.0002705579922875, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 90793, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 227, "timestamp": 1757103667, "timesteps_since_restore": 64800, "episode_len_mean": 5.365638766519824, "episode_reward_mean": 1.8793275723988583, "pid": 2334309, "time_since_restore": 2118.8889570236206, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-21-07", "timesteps_total": 1504800, "episode_reward_min": -31.288247001821574, "num_metric_batches_dropped": 0, "time_this_iter_s": 37.25573968887329, "training_iteration": 1254, "info": {"default": {"policy_loss": -0.10241690278053284, "vf_explained_var": 0.44737350940704346, "vf_loss": 26.40122413635254, "kl": 0.013007577508687973, "entropy": 2.3592240810394287, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 26.328439712524414}, "sample_time_ms": 37590.243, "num_steps_trained": 1504800, "num_steps_sampled": 1504800, "update_time_ms": 2.543, "grad_time_ms": 370.316, "load_time_ms": 0.7}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 48875.993056058884, "iterations_since_restore": 55, "episode_reward_max": 6.001354266225056, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 91027, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 234, "timestamp": 1757103704, "timesteps_since_restore": 66000, "episode_len_mean": 5.166666666666667, "episode_reward_mean": 2.224628917809313, "pid": 2334309, "time_since_restore": 2156.453615665436, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-21-44", "timesteps_total": 1506000, "episode_reward_min": -25.03591481352236, "num_metric_batches_dropped": 0, "time_this_iter_s": 37.564658641815186, "training_iteration": 1255, "info": {"default": {"policy_loss": -0.09493870288133621, "vf_explained_var": 0.4536312520503998, "vf_loss": 18.13101577758789, "kl": 0.017851486802101135, "entropy": 2.4041121006011963, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 18.076744079589844}, "sample_time_ms": 37425.771, "num_steps_trained": 1506000, "num_steps_sampled": 1506000, "update_time_ms": 2.502, "grad_time_ms": 371.052, "load_time_ms": 0.698}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 48912.86106348038, "iterations_since_restore": 56, "episode_reward_max": 6.000254064031173, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 91249, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 222, "timestamp": 1757103741, "timesteps_since_restore": 67200, "episode_len_mean": 5.3558558558558556, "episode_reward_mean": 1.887640351395006, "pid": 2334309, "time_since_restore": 2193.3216230869293, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-22-21", "timesteps_total": 1507200, "episode_reward_min": -33.235062642721466, "num_metric_batches_dropped": 0, "time_this_iter_s": 36.86800742149353, "training_iteration": 1256, "info": {"default": {"policy_loss": -0.09672018140554428, "vf_explained_var": 0.4105494022369385, "vf_loss": 29.75271987915039, "kl": 0.015452772378921509, "entropy": 2.5307912826538086, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 29.691200256347656}, "sample_time_ms": 37243.917, "num_steps_trained": 1507200, "num_steps_sampled": 1507200, "update_time_ms": 2.506, "grad_time_ms": 372.458, "load_time_ms": 0.708}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 48951.06533932686, "iterations_since_restore": 57, "episode_reward_max": 6.000235679600155, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 91488, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 239, "timestamp": 1757103779, "timesteps_since_restore": 68400, "episode_len_mean": 4.98744769874477, "episode_reward_mean": 2.4777714042557517, "pid": 2334309, "time_since_restore": 2231.5258989334106, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-22-59", "timesteps_total": 1508400, "episode_reward_min": -26.03004970797958, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.20427584648132, "training_iteration": 1257, "info": {"default": {"policy_loss": -0.08936479687690735, "vf_explained_var": 0.46858200430870056, "vf_loss": 19.560609817504883, "kl": 0.015351174399256706, "entropy": 1.8288438320159912, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 19.50621795654297}, "sample_time_ms": 37232.445, "num_steps_trained": 1508400, "num_steps_sampled": 1508400, "update_time_ms": 2.536, "grad_time_ms": 374.283, "load_time_ms": 0.701}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 48988.49602723122, "iterations_since_restore": 58, "episode_reward_max": 6.000142035472968, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 91735, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 247, "timestamp": 1757103817, "timesteps_since_restore": 69600, "episode_len_mean": 4.894736842105263, "episode_reward_mean": 2.6152404457098415, "pid": 2334309, "time_since_restore": 2268.9565868377686, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-23-37", "timesteps_total": 1509600, "episode_reward_min": -25.599111053956648, "num_metric_batches_dropped": 0, "time_this_iter_s": 37.43068790435791, "training_iteration": 1258, "info": {"default": {"policy_loss": -0.08125419914722443, "vf_explained_var": 0.5405679941177368, "vf_loss": 14.521488189697266, "kl": 0.013163293711841106, "entropy": 1.5849895477294922, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 14.470221519470215}, "sample_time_ms": 37236.906, "num_steps_trained": 1509600, "num_steps_sampled": 1509600, "update_time_ms": 2.562, "grad_time_ms": 374.213, "load_time_ms": 0.699}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 49026.679112911224, "iterations_since_restore": 59, "episode_reward_max": 8.000000400001975, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 91975, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 240, "timestamp": 1757103855, "timesteps_since_restore": 70800, "episode_len_mean": 5.004166666666666, "episode_reward_mean": 2.4419733007719393, "pid": 2334309, "time_since_restore": 2307.1396725177765, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-24-15", "timesteps_total": 1510800, "episode_reward_min": -42.658444116851705, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.183085680007935, "training_iteration": 1259, "info": {"default": {"policy_loss": -0.09579852968454361, "vf_explained_var": 0.4805590808391571, "vf_loss": 28.878570556640625, "kl": 0.012283248826861382, "entropy": 1.882973313331604, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 28.810752868652344}, "sample_time_ms": 37336.341, "num_steps_trained": 1510800, "num_steps_sampled": 1510800, "update_time_ms": 2.556, "grad_time_ms": 376.291, "load_time_ms": 0.71}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 49064.54400897026, "iterations_since_restore": 60, "episode_reward_max": 8.000000400000065, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 92206, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 231, "timestamp": 1757103893, "timesteps_since_restore": 72000, "episode_len_mean": 5.16017316017316, "episode_reward_mean": 2.2374844865794867, "pid": 2334309, "time_since_restore": 2345.0045685768127, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-24-53", "timesteps_total": 1512000, "episode_reward_min": -40.18355655417524, "num_metric_batches_dropped": 0, "time_this_iter_s": 37.864896059036255, "training_iteration": 1260, "info": {"default": {"policy_loss": -0.0935835912823677, "vf_explained_var": 0.4264797270298004, "vf_loss": 25.340721130371094, "kl": 0.011816885322332382, "entropy": 2.260540723800659, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 25.27405548095703}, "sample_time_ms": 37331.674, "num_steps_trained": 1512000, "num_steps_sampled": 1512000, "update_time_ms": 2.573, "grad_time_ms": 376.334, "load_time_ms": 0.71}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 49102.68902540207, "iterations_since_restore": 61, "episode_reward_max": 6.0001908632046135, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 92452, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 246, "timestamp": 1757103931, "timesteps_since_restore": 73200, "episode_len_mean": 4.914634146341464, "episode_reward_mean": 2.5819967570620848, "pid": 2334309, "time_since_restore": 2383.149585008621, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-25-31", "timesteps_total": 1513200, "episode_reward_min": -25.568831946338307, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.14501643180847, "training_iteration": 1261, "info": {"default": {"policy_loss": -0.08569154888391495, "vf_explained_var": 0.5154393911361694, "vf_loss": 11.4569091796875, "kl": 0.014870254322886467, "entropy": 1.7786850929260254, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 11.405094146728516}, "sample_time_ms": 37314.514, "num_steps_trained": 1513200, "num_steps_sampled": 1513200, "update_time_ms": 2.607, "grad_time_ms": 375.926, "load_time_ms": 0.685}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 49139.96670770645, "iterations_since_restore": 62, "episode_reward_max": 6.000085611350865, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 92701, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 249, "timestamp": 1757103968, "timesteps_since_restore": 74400, "episode_len_mean": 4.807228915662651, "episode_reward_mean": 2.732978552288881, "pid": 2334309, "time_since_restore": 2420.4272673130035, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-26-08", "timesteps_total": 1514400, "episode_reward_min": -21.656499377133226, "num_metric_batches_dropped": 0, "time_this_iter_s": 37.277682304382324, "training_iteration": 1262, "info": {"default": {"policy_loss": -0.08600091934204102, "vf_explained_var": 0.5484957098960876, "vf_loss": 11.763129234313965, "kl": 0.012220006436109543, "entropy": 1.278978943824768, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 11.704967498779297}, "sample_time_ms": 37204.101, "num_steps_trained": 1514400, "num_steps_sampled": 1514400, "update_time_ms": 2.623, "grad_time_ms": 377.933, "load_time_ms": 0.695}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 49178.51661872864, "iterations_since_restore": 63, "episode_reward_max": 6.000037194007296, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 92945, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 244, "timestamp": 1757104007, "timesteps_since_restore": 75600, "episode_len_mean": 4.954918032786885, "episode_reward_mean": 2.482193559362333, "pid": 2334309, "time_since_restore": 2458.97717833519, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-26-47", "timesteps_total": 1515600, "episode_reward_min": -75.64066572058385, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.54991102218628, "training_iteration": 1263, "info": {"default": {"policy_loss": -0.0876113548874855, "vf_explained_var": 0.4307722747325897, "vf_loss": 59.880126953125, "kl": 0.014077863655984402, "entropy": 1.5608296394348145, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 59.8245849609375}, "sample_time_ms": 37347.725, "num_steps_trained": 1515600, "num_steps_sampled": 1515600, "update_time_ms": 2.668, "grad_time_ms": 377.501, "load_time_ms": 0.694}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 49218.235951423645, "iterations_since_restore": 64, "episode_reward_max": 6.000093818224977, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 93191, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 246, "timestamp": 1757104047, "timesteps_since_restore": 76800, "episode_len_mean": 4.813008130081301, "episode_reward_mean": 2.750313635762659, "pid": 2334309, "time_since_restore": 2498.696511030197, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-27-27", "timesteps_total": 1516800, "episode_reward_min": -43.6256863877048, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.719332695007324, "training_iteration": 1264, "info": {"default": {"policy_loss": -0.08600735664367676, "vf_explained_var": 0.4627639353275299, "vf_loss": 30.91460418701172, "kl": 0.011986182071268559, "entropy": 1.6193517446517944, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 30.855905532836914}, "sample_time_ms": 37594.4, "num_steps_trained": 1516800, "num_steps_sampled": 1516800, "update_time_ms": 2.655, "grad_time_ms": 377.148, "load_time_ms": 0.684}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 49256.37527179718, "iterations_since_restore": 65, "episode_reward_max": 6.0001090488942745, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 93441, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 250, "timestamp": 1757104085, "timesteps_since_restore": 78000, "episode_len_mean": 4.784, "episode_reward_mean": 2.8090866472079, "pid": 2334309, "time_since_restore": 2536.8358314037323, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-28-05", "timesteps_total": 1518000, "episode_reward_min": -32.243805965158494, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.139320373535156, "training_iteration": 1265, "info": {"default": {"policy_loss": -0.08051568269729614, "vf_explained_var": 0.4846791625022888, "vf_loss": 21.76780891418457, "kl": 0.01162297185510397, "entropy": 1.3743013143539429, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 21.713773727416992}, "sample_time_ms": 37654.444, "num_steps_trained": 1518000, "num_steps_sampled": 1518000, "update_time_ms": 2.677, "grad_time_ms": 374.552, "load_time_ms": 0.687}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 49293.97637915611, "iterations_since_restore": 66, "episode_reward_max": 6.0000141968903655, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 93678, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 237, "timestamp": 1757104122, "timesteps_since_restore": 79200, "episode_len_mean": 5.143459915611814, "episode_reward_mean": 2.209784726483398, "pid": 2334309, "time_since_restore": 2574.436938762665, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-28-42", "timesteps_total": 1519200, "episode_reward_min": -39.87182473907252, "num_metric_batches_dropped": 0, "time_this_iter_s": 37.601107358932495, "training_iteration": 1266, "info": {"default": {"policy_loss": -0.08854157477617264, "vf_explained_var": 0.4488012492656708, "vf_loss": 27.159223556518555, "kl": 0.013873590156435966, "entropy": 2.002103328704834, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 27.10228729248047}, "sample_time_ms": 37731.272, "num_steps_trained": 1519200, "num_steps_sampled": 1519200, "update_time_ms": 2.653, "grad_time_ms": 371.079, "load_time_ms": 0.682}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 49331.96093225479, "iterations_since_restore": 67, "episode_reward_max": 6.0001955067091295, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 93915, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 237, "timestamp": 1757104160, "timesteps_since_restore": 80400, "episode_len_mean": 5.050632911392405, "episode_reward_mean": 2.3425699622932985, "pid": 2334309, "time_since_restore": 2612.4214918613434, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-29-20", "timesteps_total": 1520400, "episode_reward_min": -29.927927387865473, "num_metric_batches_dropped": 0, "time_this_iter_s": 37.98455309867859, "training_iteration": 1267, "info": {"default": {"policy_loss": -0.09821911156177521, "vf_explained_var": 0.5042328834533691, "vf_loss": 20.626136779785156, "kl": 0.015537728555500507, "entropy": 1.7473981380462646, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 20.56331443786621}, "sample_time_ms": 37710.083, "num_steps_trained": 1520400, "num_steps_sampled": 1520400, "update_time_ms": 2.638, "grad_time_ms": 370.241, "load_time_ms": 0.68}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 49371.052611112595, "iterations_since_restore": 68, "episode_reward_max": 8.000000400077461, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 94152, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 237, "timestamp": 1757104200, "timesteps_since_restore": 81600, "episode_len_mean": 5.059071729957806, "episode_reward_mean": 2.3937560063643883, "pid": 2334309, "time_since_restore": 2651.5131707191467, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-30-00", "timesteps_total": 1521600, "episode_reward_min": -25.44792117640838, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.091678857803345, "training_iteration": 1268, "info": {"default": {"policy_loss": -0.09650705754756927, "vf_explained_var": 0.42979103326797485, "vf_loss": 19.4256591796875, "kl": 0.016824893653392792, "entropy": 1.8950284719467163, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 19.367483139038086}, "sample_time_ms": 37878.507, "num_steps_trained": 1521600, "num_steps_sampled": 1521600, "update_time_ms": 2.653, "grad_time_ms": 367.936, "load_time_ms": 0.674}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 49409.01954936981, "iterations_since_restore": 69, "episode_reward_max": 6.0005854211400536, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 94404, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 252, "timestamp": 1757104237, "timesteps_since_restore": 82800, "episode_len_mean": 4.75, "episode_reward_mean": 2.8322546653367384, "pid": 2334309, "time_since_restore": 2689.480108976364, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-30-37", "timesteps_total": 1522800, "episode_reward_min": -32.248940847525326, "num_metric_batches_dropped": 0, "time_this_iter_s": 37.96693825721741, "training_iteration": 1269, "info": {"default": {"policy_loss": -0.08367468416690826, "vf_explained_var": 0.5259149670600891, "vf_loss": 17.944644927978516, "kl": 0.017573140561580658, "entropy": 1.2817715406417847, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 17.901004791259766}, "sample_time_ms": 37856.325, "num_steps_trained": 1522800, "num_steps_sampled": 1522800, "update_time_ms": 2.626, "grad_time_ms": 368.564, "load_time_ms": 0.657}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 49446.39776682854, "iterations_since_restore": 70, "episode_reward_max": 4.00198896986616, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 94617, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 213, "timestamp": 1757104275, "timesteps_since_restore": 84000, "episode_len_mean": 5.647887323943662, "episode_reward_mean": 1.4237479597234868, "pid": 2334309, "time_since_restore": 2726.858326435089, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-31-15", "timesteps_total": 1524000, "episode_reward_min": -48.90829953474377, "num_metric_batches_dropped": 0, "time_this_iter_s": 37.378217458724976, "training_iteration": 1270, "info": {"default": {"policy_loss": -0.10129418969154358, "vf_explained_var": 0.3934860825538635, "vf_loss": 53.51523208618164, "kl": 0.013512973673641682, "entropy": 2.509089231491089, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 53.44472122192383}, "sample_time_ms": 37807.649, "num_steps_trained": 1524000, "num_steps_sampled": 1524000, "update_time_ms": 2.615, "grad_time_ms": 368.58, "load_time_ms": 0.659}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 49483.820345163345, "iterations_since_restore": 71, "episode_reward_max": 8.000000399999921, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 94856, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 239, "timestamp": 1757104312, "timesteps_since_restore": 85200, "episode_len_mean": 5.050209205020921, "episode_reward_mean": 2.3927944041717226, "pid": 2334309, "time_since_restore": 2764.2809047698975, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-31-52", "timesteps_total": 1525200, "episode_reward_min": -30.018109961536645, "num_metric_batches_dropped": 0, "time_this_iter_s": 37.42257833480835, "training_iteration": 1271, "info": {"default": {"policy_loss": -0.09177125990390778, "vf_explained_var": 0.4236507713794708, "vf_loss": 25.442970275878906, "kl": 0.012856950983405113, "entropy": 1.9603137969970703, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 25.38048553466797}, "sample_time_ms": 37734.683, "num_steps_trained": 1525200, "num_steps_sampled": 1525200, "update_time_ms": 2.574, "grad_time_ms": 369.329, "load_time_ms": 0.671}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 49521.45969939232, "iterations_since_restore": 72, "episode_reward_max": 6.000225547903806, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 95117, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 261, "timestamp": 1757104350, "timesteps_since_restore": 86400, "episode_len_mean": 4.605363984674329, "episode_reward_mean": 3.0630498906818255, "pid": 2334309, "time_since_restore": 2801.920258998871, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-32-30", "timesteps_total": 1526400, "episode_reward_min": -38.67315209642167, "num_metric_batches_dropped": 0, "time_this_iter_s": 37.63935422897339, "training_iteration": 1272, "info": {"default": {"policy_loss": -0.07488402724266052, "vf_explained_var": 0.5006315112113953, "vf_loss": 17.170141220092773, "kl": 0.012708429247140884, "entropy": 0.7823644280433655, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 17.12420654296875}, "sample_time_ms": 37770.208, "num_steps_trained": 1526400, "num_steps_sampled": 1526400, "update_time_ms": 2.617, "grad_time_ms": 369.907, "load_time_ms": 0.683}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 49560.15570950508, "iterations_since_restore": 73, "episode_reward_max": 6.000223560227232, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 95372, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 255, "timestamp": 1757104389, "timesteps_since_restore": 87600, "episode_len_mean": 4.670588235294118, "episode_reward_mean": 2.986041317952004, "pid": 2334309, "time_since_restore": 2840.6162691116333, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-33-09", "timesteps_total": 1527600, "episode_reward_min": -27.03164106822515, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.69601011276245, "training_iteration": 1273, "info": {"default": {"policy_loss": -0.07731825858354568, "vf_explained_var": 0.5005984306335449, "vf_loss": 13.690549850463867, "kl": 0.01529570110142231, "entropy": 0.9891217350959778, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 13.648077964782715}, "sample_time_ms": 37783.444, "num_steps_trained": 1527600, "num_steps_sampled": 1527600, "update_time_ms": 2.584, "grad_time_ms": 371.301, "load_time_ms": 0.691}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 49598.28147625923, "iterations_since_restore": 74, "episode_reward_max": 6.000042836726813, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 95622, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 250, "timestamp": 1757104427, "timesteps_since_restore": 88800, "episode_len_mean": 4.82, "episode_reward_mean": 2.7378234392100413, "pid": 2334309, "time_since_restore": 2878.7420358657837, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-33-47", "timesteps_total": 1528800, "episode_reward_min": -38.45702994999021, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.12576675415039, "training_iteration": 1274, "info": {"default": {"policy_loss": -0.0767766535282135, "vf_explained_var": 0.43938499689102173, "vf_loss": 20.457578659057617, "kl": 0.02693939581513405, "entropy": 1.2536062002182007, "cur_kl_coeff": 2.278125047683716, "cur_lr": 4.999999873689376e-05, "total_loss": 20.44217300415039}, "sample_time_ms": 37622.388, "num_steps_trained": 1528800, "num_steps_sampled": 1528800, "update_time_ms": 2.578, "grad_time_ms": 372.99, "load_time_ms": 0.699}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 49636.2808778286, "iterations_since_restore": 75, "episode_reward_max": 8.00000039999997, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 95885, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 263, "timestamp": 1757104465, "timesteps_since_restore": 90000, "episode_len_mean": 4.555133079847908, "episode_reward_mean": 3.153980860636558, "pid": 2334309, "time_since_restore": 2916.74143743515, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-34-25", "timesteps_total": 1530000, "episode_reward_min": -19.477345783311428, "num_metric_batches_dropped": 0, "time_this_iter_s": 37.999401569366455, "training_iteration": 1275, "info": {"default": {"policy_loss": -0.08134129643440247, "vf_explained_var": 0.5584951043128967, "vf_loss": 8.068312644958496, "kl": 0.011110533028841019, "entropy": 0.7550257444381714, "cur_kl_coeff": 3.417187452316284, "cur_lr": 4.999999873689376e-05, "total_loss": 8.024937629699707}, "sample_time_ms": 37608.543, "num_steps_trained": 1530000, "num_steps_sampled": 1530000, "update_time_ms": 2.578, "grad_time_ms": 372.846, "load_time_ms": 0.694}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 49675.97174739838, "iterations_since_restore": 76, "episode_reward_max": 8.000000399999962, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 96146, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 261, "timestamp": 1757104505, "timesteps_since_restore": 91200, "episode_len_mean": 4.609195402298851, "episode_reward_mean": 3.070941534822441, "pid": 2334309, "time_since_restore": 2956.4323070049286, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-35-05", "timesteps_total": 1531200, "episode_reward_min": -25.120144155222327, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.69086956977844, "training_iteration": 1276, "info": {"default": {"policy_loss": -0.06906332820653915, "vf_explained_var": 0.6011417508125305, "vf_loss": 8.810285568237305, "kl": 0.0070948246866464615, "entropy": 1.0497578382492065, "cur_kl_coeff": 3.417187452316284, "cur_lr": 4.999999873689376e-05, "total_loss": 8.765467643737793}, "sample_time_ms": 37815.558, "num_steps_trained": 1531200, "num_steps_sampled": 1531200, "update_time_ms": 2.58, "grad_time_ms": 374.723, "load_time_ms": 0.683}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 49716.46597599983, "iterations_since_restore": 77, "episode_reward_max": 6.000046041233036, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 96407, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 261, "timestamp": 1757104545, "timesteps_since_restore": 92400, "episode_len_mean": 4.597701149425287, "episode_reward_mean": 3.0714224455824426, "pid": 2334309, "time_since_restore": 2996.9265356063843, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-35-45", "timesteps_total": 1532400, "episode_reward_min": -24.806298912503586, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.49422860145569, "training_iteration": 1277, "info": {"default": {"policy_loss": -0.076211117208004, "vf_explained_var": 0.6044647693634033, "vf_loss": 9.399473190307617, "kl": 0.00686802389100194, "entropy": 0.8473628759384155, "cur_kl_coeff": 3.417187452316284, "cur_lr": 4.999999873689376e-05, "total_loss": 9.346732139587402}, "sample_time_ms": 38064.74, "num_steps_trained": 1532400, "num_steps_sampled": 1532400, "update_time_ms": 2.58, "grad_time_ms": 376.532, "load_time_ms": 0.687}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 49761.084980249405, "iterations_since_restore": 78, "episode_reward_max": 6.000115531856894, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 96661, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 254, "timestamp": 1757104590, "timesteps_since_restore": 93600, "episode_len_mean": 4.728346456692913, "episode_reward_mean": 2.907365219829836, "pid": 2334309, "time_since_restore": 3041.545539855957, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-36-30", "timesteps_total": 1533600, "episode_reward_min": -33.04021729708643, "num_metric_batches_dropped": 0, "time_this_iter_s": 44.619004249572754, "training_iteration": 1278, "info": {"default": {"policy_loss": -0.07440844178199768, "vf_explained_var": 0.5043449401855469, "vf_loss": 20.969818115234375, "kl": 0.009484834969043732, "entropy": 1.2071332931518555, "cur_kl_coeff": 3.417187452316284, "cur_lr": 4.999999873689376e-05, "total_loss": 20.92782211303711}, "sample_time_ms": 38614.518, "num_steps_trained": 1533600, "num_steps_sampled": 1533600, "update_time_ms": 2.58, "grad_time_ms": 379.43, "load_time_ms": 0.697}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 49800.2927942276, "iterations_since_restore": 79, "episode_reward_max": 10.0, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 96901, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 240, "timestamp": 1757104629, "timesteps_since_restore": 94800, "episode_len_mean": 4.958333333333333, "episode_reward_mean": 2.5375433690849714, "pid": 2334309, "time_since_restore": 3080.753353834152, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-37-09", "timesteps_total": 1534800, "episode_reward_min": -37.81484197676907, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.20781397819519, "training_iteration": 1279, "info": {"default": {"policy_loss": -0.08708483725786209, "vf_explained_var": 0.5625811815261841, "vf_loss": 20.454002380371094, "kl": 0.010210338979959488, "entropy": 1.7390727996826172, "cur_kl_coeff": 3.417187452316284, "cur_lr": 4.999999873689376e-05, "total_loss": 20.401811599731445}, "sample_time_ms": 38739.75, "num_steps_trained": 1534800, "num_steps_sampled": 1534800, "update_time_ms": 2.605, "grad_time_ms": 378.287, "load_time_ms": 0.699}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 49839.195267915726, "iterations_since_restore": 80, "episode_reward_max": 8.000000399999927, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 97163, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 262, "timestamp": 1757104668, "timesteps_since_restore": 96000, "episode_len_mean": 4.568702290076335, "episode_reward_mean": 3.113141332875444, "pid": 2334309, "time_since_restore": 3119.655827522278, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-37-48", "timesteps_total": 1536000, "episode_reward_min": -26.275922799685468, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.90247368812561, "training_iteration": 1280, "info": {"default": {"policy_loss": -0.07469888031482697, "vf_explained_var": 0.5733482837677002, "vf_loss": 11.813883781433105, "kl": 0.007353218272328377, "entropy": 0.7591372132301331, "cur_kl_coeff": 3.417187452316284, "cur_lr": 4.999999873689376e-05, "total_loss": 11.764311790466309}, "sample_time_ms": 38890.119, "num_steps_trained": 1536000, "num_steps_sampled": 1536000, "update_time_ms": 2.597, "grad_time_ms": 380.277, "load_time_ms": 0.716}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 49878.4340698719, "iterations_since_restore": 81, "episode_reward_max": 4.002030532973472, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 97391, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 228, "timestamp": 1757104707, "timesteps_since_restore": 97200, "episode_len_mean": 5.2631578947368425, "episode_reward_mean": 2.06805523829794, "pid": 2334309, "time_since_restore": 3158.8946294784546, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-38-27", "timesteps_total": 1537200, "episode_reward_min": -36.10322623159072, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.23880195617676, "training_iteration": 1281, "info": {"default": {"policy_loss": -0.08716341853141785, "vf_explained_var": 0.4317410886287689, "vf_loss": 36.74241256713867, "kl": 0.008704062551259995, "entropy": 2.413010597229004, "cur_kl_coeff": 3.417187452316284, "cur_lr": 4.999999873689376e-05, "total_loss": 36.68498611450195}, "sample_time_ms": 39072.598, "num_steps_trained": 1537200, "num_steps_sampled": 1537200, "update_time_ms": 2.636, "grad_time_ms": 379.485, "load_time_ms": 0.71}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 49917.5984685421, "iterations_since_restore": 82, "episode_reward_max": 4.002071753869412, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 97629, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 238, "timestamp": 1757104746, "timesteps_since_restore": 98400, "episode_len_mean": 5.088235294117647, "episode_reward_mean": 2.3278328179576917, "pid": 2334309, "time_since_restore": 3198.059028148651, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-39-06", "timesteps_total": 1538400, "episode_reward_min": -46.10405732374209, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.16439867019653, "training_iteration": 1282, "info": {"default": {"policy_loss": -0.08927212655544281, "vf_explained_var": 0.4886857569217682, "vf_loss": 32.96321105957031, "kl": 0.008804242126643658, "entropy": 1.7448140382766724, "cur_kl_coeff": 3.417187452316284, "cur_lr": 4.999999873689376e-05, "total_loss": 32.90402603149414}, "sample_time_ms": 39227.769, "num_steps_trained": 1538400, "num_steps_sampled": 1538400, "update_time_ms": 2.565, "grad_time_ms": 377.0, "load_time_ms": 0.702}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 49957.45077419281, "iterations_since_restore": 83, "episode_reward_max": 6.000086251226024, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 97891, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 262, "timestamp": 1757104786, "timesteps_since_restore": 99600, "episode_len_mean": 4.557251908396947, "episode_reward_mean": 3.1447153020124476, "pid": 2334309, "time_since_restore": 3237.911333799362, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-39-46", "timesteps_total": 1539600, "episode_reward_min": -18.320992613187816, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.85230565071106, "training_iteration": 1283, "info": {"default": {"policy_loss": -0.07471878826618195, "vf_explained_var": 0.5456971526145935, "vf_loss": 10.243794441223145, "kl": 0.011649521067738533, "entropy": 0.8898640871047974, "cur_kl_coeff": 3.417187452316284, "cur_lr": 4.999999873689376e-05, "total_loss": 10.208885192871094}, "sample_time_ms": 39345.371, "num_steps_trained": 1539600, "num_steps_sampled": 1539600, "update_time_ms": 2.548, "grad_time_ms": 375.026, "load_time_ms": 0.692}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 49996.7914147377, "iterations_since_restore": 84, "episode_reward_max": 4.002136781192361, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 98141, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 250, "timestamp": 1757104826, "timesteps_since_restore": 100800, "episode_len_mean": 4.784, "episode_reward_mean": 2.7779836238171094, "pid": 2334309, "time_since_restore": 3277.2519743442535, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-40-26", "timesteps_total": 1540800, "episode_reward_min": -47.226068122885934, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.34064054489136, "training_iteration": 1284, "info": {"default": {"policy_loss": -0.06772215664386749, "vf_explained_var": 0.4667360484600067, "vf_loss": 28.395360946655273, "kl": 0.008907770738005638, "entropy": 1.3734315633773804, "cur_kl_coeff": 3.417187452316284, "cur_lr": 4.999999873689376e-05, "total_loss": 28.358078002929688}, "sample_time_ms": 39466.903, "num_steps_trained": 1540800, "num_steps_sampled": 1540800, "update_time_ms": 2.556, "grad_time_ms": 375.023, "load_time_ms": 0.702}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 50036.008068561554, "iterations_since_restore": 85, "episode_reward_max": 6.0002663305455615, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 98414, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 273, "timestamp": 1757104865, "timesteps_since_restore": 102000, "episode_len_mean": 4.428571428571429, "episode_reward_mean": 3.3479149699652635, "pid": 2334309, "time_since_restore": 3316.468628168106, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-41-05", "timesteps_total": 1542000, "episode_reward_min": -24.205934528578602, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.21665382385254, "training_iteration": 1285, "info": {"default": {"policy_loss": -0.0677429586648941, "vf_explained_var": 0.5891568660736084, "vf_loss": 7.363378047943115, "kl": 0.008885309100151062, "entropy": 0.2697698771953583, "cur_kl_coeff": 3.417187452316284, "cur_lr": 4.999999873689376e-05, "total_loss": 7.325997352600098}, "sample_time_ms": 39587.038, "num_steps_trained": 1542000, "num_steps_sampled": 1542000, "update_time_ms": 2.552, "grad_time_ms": 376.504, "load_time_ms": 0.706}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 50075.348188877106, "iterations_since_restore": 86, "episode_reward_max": 6.000070222361424, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 98684, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 270, "timestamp": 1757104904, "timesteps_since_restore": 103200, "episode_len_mean": 4.455555555555556, "episode_reward_mean": 3.3016082241411677, "pid": 2334309, "time_since_restore": 3355.808748483658, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-41-44", "timesteps_total": 1543200, "episode_reward_min": -20.045665553584683, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.34012031555176, "training_iteration": 1286, "info": {"default": {"policy_loss": -0.06896616518497467, "vf_explained_var": 0.5712782740592957, "vf_loss": 8.438372611999512, "kl": 0.008739880286157131, "entropy": 0.41869309544563293, "cur_kl_coeff": 3.417187452316284, "cur_lr": 4.999999873689376e-05, "total_loss": 8.399271965026855}, "sample_time_ms": 39552.328, "num_steps_trained": 1543200, "num_steps_sampled": 1543200, "update_time_ms": 2.644, "grad_time_ms": 376.014, "load_time_ms": 0.715}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 50114.488899469376, "iterations_since_restore": 87, "episode_reward_max": 6.00004403259361, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 98934, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 250, "timestamp": 1757104943, "timesteps_since_restore": 104400, "episode_len_mean": 4.804, "episode_reward_mean": 2.760327174907447, "pid": 2334309, "time_since_restore": 3394.9494590759277, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-42-23", "timesteps_total": 1544400, "episode_reward_min": -34.764210093684376, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.1407105922699, "training_iteration": 1287, "info": {"default": {"policy_loss": -0.08332278579473495, "vf_explained_var": 0.5001120567321777, "vf_loss": 18.445276260375977, "kl": 0.007916532456874847, "entropy": 1.1365419626235962, "cur_kl_coeff": 3.417187452316284, "cur_lr": 4.999999873689376e-05, "total_loss": 18.389005661010742}, "sample_time_ms": 39418.95, "num_steps_trained": 1544400, "num_steps_sampled": 1544400, "update_time_ms": 2.669, "grad_time_ms": 374.032, "load_time_ms": 0.715}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 50153.84218120575, "iterations_since_restore": 88, "episode_reward_max": 6.000056631140591, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 99203, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 269, "timestamp": 1757104983, "timesteps_since_restore": 105600, "episode_len_mean": 4.412639405204461, "episode_reward_mean": 3.3564001531036216, "pid": 2334309, "time_since_restore": 3434.3027408123016, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-43-03", "timesteps_total": 1545600, "episode_reward_min": -25.663291165054368, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.3532817363739, "training_iteration": 1288, "info": {"default": {"policy_loss": -0.06453339755535126, "vf_explained_var": 0.5928083062171936, "vf_loss": 8.635627746582031, "kl": 0.012857629917562008, "entropy": 0.29808205366134644, "cur_kl_coeff": 3.417187452316284, "cur_lr": 4.999999873689376e-05, "total_loss": 8.615031242370605}, "sample_time_ms": 38895.182, "num_steps_trained": 1545600, "num_steps_sampled": 1545600, "update_time_ms": 2.646, "grad_time_ms": 371.273, "load_time_ms": 0.711}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 50193.66086292267, "iterations_since_restore": 89, "episode_reward_max": 4.001945347576592, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 99476, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 273, "timestamp": 1757105023, "timesteps_since_restore": 106800, "episode_len_mean": 4.435897435897436, "episode_reward_mean": 3.3445207436420885, "pid": 2334309, "time_since_restore": 3474.1214225292206, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-43-43", "timesteps_total": 1546800, "episode_reward_min": -20.778437094663275, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.818681716918945, "training_iteration": 1289, "info": {"default": {"policy_loss": -0.06699773669242859, "vf_explained_var": 0.608611524105072, "vf_loss": 7.753025531768799, "kl": 0.008323338814079762, "entropy": 0.336184024810791, "cur_kl_coeff": 3.417187452316284, "cur_lr": 4.999999873689376e-05, "total_loss": 7.714470863342285}, "sample_time_ms": 38956.092, "num_steps_trained": 1546800, "num_steps_sampled": 1546800, "update_time_ms": 2.637, "grad_time_ms": 371.419, "load_time_ms": 0.713}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 50233.810247182846, "iterations_since_restore": 90, "episode_reward_max": 6.000195364915911, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 99740, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 264, "timestamp": 1757105063, "timesteps_since_restore": 108000, "episode_len_mean": 4.545454545454546, "episode_reward_mean": 3.154075548599088, "pid": 2334309, "time_since_restore": 3514.270806789398, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-44-23", "timesteps_total": 1548000, "episode_reward_min": -26.765416297069493, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.14938426017761, "training_iteration": 1290, "info": {"default": {"policy_loss": -0.06936368346214294, "vf_explained_var": 0.5678389072418213, "vf_loss": 10.70333194732666, "kl": 0.010111101903021336, "entropy": 0.6631654500961304, "cur_kl_coeff": 3.417187452316284, "cur_lr": 4.999999873689376e-05, "total_loss": 10.668519973754883}, "sample_time_ms": 39081.241, "num_steps_trained": 1548000, "num_steps_sampled": 1548000, "update_time_ms": 2.657, "grad_time_ms": 370.914, "load_time_ms": 0.694}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 50274.84169316292, "iterations_since_restore": 91, "episode_reward_max": 6.000062845624974, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 100010, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 270, "timestamp": 1757105104, "timesteps_since_restore": 109200, "episode_len_mean": 4.366666666666666, "episode_reward_mean": 3.475800253383627, "pid": 2334309, "time_since_restore": 3555.30225276947, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-45-04", "timesteps_total": 1549200, "episode_reward_min": -24.595417065684224, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.03144598007202, "training_iteration": 1291, "info": {"default": {"policy_loss": -0.05596175417304039, "vf_explained_var": 0.5724371671676636, "vf_loss": 15.295002937316895, "kl": 0.00679219514131546, "entropy": 0.5661163330078125, "cur_kl_coeff": 3.417187452316284, "cur_lr": 4.999999873689376e-05, "total_loss": 15.262250900268555}, "sample_time_ms": 39259.886, "num_steps_trained": 1549200, "num_steps_sampled": 1549200, "update_time_ms": 2.622, "grad_time_ms": 371.464, "load_time_ms": 0.694}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 50314.51496720314, "iterations_since_restore": 92, "episode_reward_max": 4.001560187767081, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 100261, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 251, "timestamp": 1757105143, "timesteps_since_restore": 110400, "episode_len_mean": 4.7848605577689245, "episode_reward_mean": 2.775242273944842, "pid": 2334309, "time_since_restore": 3594.9755268096924, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-45-43", "timesteps_total": 1550400, "episode_reward_min": -48.54115174089392, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.67327404022217, "training_iteration": 1292, "info": {"default": {"policy_loss": -0.08937176316976547, "vf_explained_var": 0.561713695526123, "vf_loss": 16.89314079284668, "kl": 0.006916823796927929, "entropy": 1.295153260231018, "cur_kl_coeff": 3.417187452316284, "cur_lr": 4.999999873689376e-05, "total_loss": 16.827404022216797}, "sample_time_ms": 39308.579, "num_steps_trained": 1550400, "num_steps_sampled": 1550400, "update_time_ms": 2.651, "grad_time_ms": 373.535, "load_time_ms": 0.695}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 50355.30892395973, "iterations_since_restore": 93, "episode_reward_max": 4.001906555892493, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 100523, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 262, "timestamp": 1757105184, "timesteps_since_restore": 111600, "episode_len_mean": 4.66412213740458, "episode_reward_mean": 2.9967793006024976, "pid": 2334309, "time_since_restore": 3635.769483566284, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-46-24", "timesteps_total": 1551600, "episode_reward_min": -28.78816284136002, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.7939567565918, "training_iteration": 1293, "info": {"default": {"policy_loss": -0.08270196616649628, "vf_explained_var": 0.580422580242157, "vf_loss": 11.237728118896484, "kl": 0.007981191389262676, "entropy": 1.070473313331604, "cur_kl_coeff": 3.417187452316284, "cur_lr": 4.999999873689376e-05, "total_loss": 11.18229866027832}, "sample_time_ms": 39403.476, "num_steps_trained": 1551600, "num_steps_sampled": 1551600, "update_time_ms": 2.707, "grad_time_ms": 372.824, "load_time_ms": 0.704}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 50394.90449261665, "iterations_since_restore": 94, "episode_reward_max": 4.002070591483467, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 100789, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 266, "timestamp": 1757105224, "timesteps_since_restore": 112800, "episode_len_mean": 4.507518796992481, "episode_reward_mean": 3.2331937022273856, "pid": 2334309, "time_since_restore": 3675.3650522232056, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-47-04", "timesteps_total": 1552800, "episode_reward_min": -22.386941114468733, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.59556865692139, "training_iteration": 1294, "info": {"default": {"policy_loss": -0.07388795912265778, "vf_explained_var": 0.5902888178825378, "vf_loss": 7.366171836853027, "kl": 0.005799471866339445, "entropy": 0.6078751683235168, "cur_kl_coeff": 3.417187452316284, "cur_lr": 4.999999873689376e-05, "total_loss": 7.312101364135742}, "sample_time_ms": 39429.017, "num_steps_trained": 1552800, "num_steps_sampled": 1552800, "update_time_ms": 2.697, "grad_time_ms": 372.781, "load_time_ms": 0.684}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 50433.56437039375, "iterations_since_restore": 95, "episode_reward_max": 4.001908873728239, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 101031, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 242, "timestamp": 1757105263, "timesteps_since_restore": 114000, "episode_len_mean": 4.925619834710743, "episode_reward_mean": 2.554910495014825, "pid": 2334309, "time_since_restore": 3714.024930000305, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-47-43", "timesteps_total": 1554000, "episode_reward_min": -42.688501999175095, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.65987777709961, "training_iteration": 1295, "info": {"default": {"policy_loss": -0.08540681004524231, "vf_explained_var": 0.5166828632354736, "vf_loss": 23.148651123046875, "kl": 0.007483191788196564, "entropy": 1.490307092666626, "cur_kl_coeff": 3.417187452316284, "cur_lr": 4.999999873689376e-05, "total_loss": 23.088815689086914}, "sample_time_ms": 39372.384, "num_steps_trained": 1554000, "num_steps_sampled": 1554000, "update_time_ms": 2.703, "grad_time_ms": 373.829, "load_time_ms": 0.694}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 50471.33081293106, "iterations_since_restore": 96, "episode_reward_max": 6.000077155022622, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 101298, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 267, "timestamp": 1757105300, "timesteps_since_restore": 115200, "episode_len_mean": 4.51310861423221, "episode_reward_mean": 3.198447145680899, "pid": 2334309, "time_since_restore": 3751.791372537613, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-48-20", "timesteps_total": 1555200, "episode_reward_min": -24.048891982549826, "num_metric_batches_dropped": 0, "time_this_iter_s": 37.76644253730774, "training_iteration": 1296, "info": {"default": {"policy_loss": -0.07808970659971237, "vf_explained_var": 0.5281068086624146, "vf_loss": 9.868815422058105, "kl": 0.00783279724419117, "entropy": 0.37225106358528137, "cur_kl_coeff": 3.417187452316284, "cur_lr": 4.999999873689376e-05, "total_loss": 9.81749153137207}, "sample_time_ms": 39213.272, "num_steps_trained": 1555200, "num_steps_sampled": 1555200, "update_time_ms": 2.641, "grad_time_ms": 375.668, "load_time_ms": 0.698}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 50509.386974811554, "iterations_since_restore": 97, "episode_reward_max": 6.000034459800983, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 101557, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 259, "timestamp": 1757105338, "timesteps_since_restore": 116400, "episode_len_mean": 4.637065637065637, "episode_reward_mean": 3.030546447862574, "pid": 2334309, "time_since_restore": 3789.847534418106, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-48-58", "timesteps_total": 1556400, "episode_reward_min": -39.64296648424604, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.056161880493164, "training_iteration": 1297, "info": {"default": {"policy_loss": -0.07257484644651413, "vf_explained_var": 0.5257260799407959, "vf_loss": 23.988258361816406, "kl": 0.00795634463429451, "entropy": 0.9556008577346802, "cur_kl_coeff": 3.417187452316284, "cur_lr": 4.999999873689376e-05, "total_loss": 23.94287109375}, "sample_time_ms": 39102.425, "num_steps_trained": 1556400, "num_steps_sampled": 1556400, "update_time_ms": 2.639, "grad_time_ms": 377.999, "load_time_ms": 0.705}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 50547.607422590256, "iterations_since_restore": 98, "episode_reward_max": 6.0000914251527515, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 101829, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 272, "timestamp": 1757105377, "timesteps_since_restore": 117600, "episode_len_mean": 4.422794117647059, "episode_reward_mean": 3.37340234179678, "pid": 2334309, "time_since_restore": 3828.067982196808, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-49-37", "timesteps_total": 1557600, "episode_reward_min": -49.005589729916, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.22044777870178, "training_iteration": 1298, "info": {"default": {"policy_loss": -0.06278198212385178, "vf_explained_var": 0.49974215030670166, "vf_loss": 15.771602630615234, "kl": 0.007935628294944763, "entropy": 0.4585924744606018, "cur_kl_coeff": 3.417187452316284, "cur_lr": 4.999999873689376e-05, "total_loss": 15.735936164855957}, "sample_time_ms": 38988.722, "num_steps_trained": 1557600, "num_steps_sampled": 1557600, "update_time_ms": 2.673, "grad_time_ms": 378.404, "load_time_ms": 0.697}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 50585.4873418808, "iterations_since_restore": 99, "episode_reward_max": 4.002119112486944, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 102094, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 265, "timestamp": 1757105415, "timesteps_since_restore": 118800, "episode_len_mean": 4.505660377358491, "episode_reward_mean": 3.226833402887933, "pid": 2334309, "time_since_restore": 3865.9479014873505, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-50-15", "timesteps_total": 1558800, "episode_reward_min": -41.06036766344053, "num_metric_batches_dropped": 0, "time_this_iter_s": 37.8799192905426, "training_iteration": 1299, "info": {"default": {"policy_loss": -0.07283172011375427, "vf_explained_var": 0.5326426029205322, "vf_loss": 16.972620010375977, "kl": 0.010011326521635056, "entropy": 0.5916392207145691, "cur_kl_coeff": 3.417187452316284, "cur_lr": 4.999999873689376e-05, "total_loss": 16.93400001525879}, "sample_time_ms": 38794.241, "num_steps_trained": 1558800, "num_steps_sampled": 1558800, "update_time_ms": 2.662, "grad_time_ms": 378.951, "load_time_ms": 0.694}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 50623.7817530632, "iterations_since_restore": 100, "episode_reward_max": 4.002034828347384, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 102381, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 287, "timestamp": 1757105453, "timesteps_since_restore": 120000, "episode_len_mean": 4.149825783972125, "episode_reward_mean": 3.766377218143129, "pid": 2334309, "time_since_restore": 3904.242312669754, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-50-53", "timesteps_total": 1560000, "episode_reward_min": -14.525832130366894, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.294411182403564, "training_iteration": 1300, "info": {"default": {"policy_loss": -0.054820410907268524, "vf_explained_var": 0.7587138414382935, "vf_loss": 3.024076223373413, "kl": 0.00529166916385293, "entropy": -0.2607799768447876, "cur_kl_coeff": 3.417187452316284, "cur_lr": 4.999999873689376e-05, "total_loss": 2.9873383045196533}, "sample_time_ms": 38610.108, "num_steps_trained": 1560000, "num_steps_sampled": 1560000, "update_time_ms": 2.66, "grad_time_ms": 377.649, "load_time_ms": 0.696}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 50661.381628513336, "iterations_since_restore": 101, "episode_reward_max": 5.003742748884211, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 102645, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 264, "timestamp": 1757105491, "timesteps_since_restore": 121200, "episode_len_mean": 4.587121212121212, "episode_reward_mean": 3.1096670943552094, "pid": 2334309, "time_since_restore": 3941.8421881198883, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-51-31", "timesteps_total": 1561200, "episode_reward_min": -33.78650738247519, "num_metric_batches_dropped": 0, "time_this_iter_s": 37.59987545013428, "training_iteration": 1301, "info": {"default": {"policy_loss": -0.06776063144207001, "vf_explained_var": 0.5775293111801147, "vf_loss": 10.875408172607422, "kl": 0.010340515524148941, "entropy": 0.8940406441688538, "cur_kl_coeff": 3.417187452316284, "cur_lr": 4.999999873689376e-05, "total_loss": 10.84298324584961}, "sample_time_ms": 38268.389, "num_steps_trained": 1561200, "num_steps_sampled": 1561200, "update_time_ms": 2.756, "grad_time_ms": 376.121, "load_time_ms": 0.696}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 50700.6562936306, "iterations_since_restore": 102, "episode_reward_max": 8.00000040000032, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 102914, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 269, "timestamp": 1757105530, "timesteps_since_restore": 122400, "episode_len_mean": 4.4572490706319705, "episode_reward_mean": 3.2858173704719262, "pid": 2334309, "time_since_restore": 3981.116853237152, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-52-10", "timesteps_total": 1562400, "episode_reward_min": -22.95572056293421, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.274665117263794, "training_iteration": 1302, "info": {"default": {"policy_loss": -0.07199344038963318, "vf_explained_var": 0.6045301556587219, "vf_loss": 9.286487579345703, "kl": 0.007774305064231157, "entropy": 0.5448364019393921, "cur_kl_coeff": 3.417187452316284, "cur_lr": 4.999999873689376e-05, "total_loss": 9.241061210632324}, "sample_time_ms": 38230.219, "num_steps_trained": 1562400, "num_steps_sampled": 1562400, "update_time_ms": 2.757, "grad_time_ms": 374.456, "load_time_ms": 0.681}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 50740.052881240845, "iterations_since_restore": 103, "episode_reward_max": 10.0, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 103183, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 269, "timestamp": 1757105569, "timesteps_since_restore": 123600, "episode_len_mean": 4.4684014869888475, "episode_reward_mean": 3.2945209031201297, "pid": 2334309, "time_since_restore": 4020.513440847397, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-52-49", "timesteps_total": 1563600, "episode_reward_min": -43.18443269245937, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.39658761024475, "training_iteration": 1303, "info": {"default": {"policy_loss": -0.06719061732292175, "vf_explained_var": 0.5393130779266357, "vf_loss": 16.390005111694336, "kl": 0.006436643656343222, "entropy": 0.47890397906303406, "cur_kl_coeff": 3.417187452316284, "cur_lr": 4.999999873689376e-05, "total_loss": 16.34480857849121}, "sample_time_ms": 38090.683, "num_steps_trained": 1563600, "num_steps_sampled": 1563600, "update_time_ms": 2.722, "grad_time_ms": 374.298, "load_time_ms": 0.67}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 50779.21842813492, "iterations_since_restore": 104, "episode_reward_max": 4.002158379944677, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 103442, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 259, "timestamp": 1757105608, "timesteps_since_restore": 124800, "episode_len_mean": 4.54054054054054, "episode_reward_mean": 3.183020895221648, "pid": 2334309, "time_since_restore": 4059.6789877414703, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-53-28", "timesteps_total": 1564800, "episode_reward_min": -20.465586177088625, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.165546894073486, "training_iteration": 1304, "info": {"default": {"policy_loss": -0.0755765438079834, "vf_explained_var": 0.6027243733406067, "vf_loss": 12.003551483154297, "kl": 0.007959884591400623, "entropy": 0.9548928141593933, "cur_kl_coeff": 3.417187452316284, "cur_lr": 4.999999873689376e-05, "total_loss": 11.955175399780273}, "sample_time_ms": 38047.994, "num_steps_trained": 1564800, "num_steps_sampled": 1564800, "update_time_ms": 2.702, "grad_time_ms": 373.953, "load_time_ms": 0.676}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 50818.38146686554, "iterations_since_restore": 105, "episode_reward_max": 4.001670446449456, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 103709, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 267, "timestamp": 1757105648, "timesteps_since_restore": 126000, "episode_len_mean": 4.595505617977528, "episode_reward_mean": 3.094879524705719, "pid": 2334309, "time_since_restore": 4098.842026472092, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-54-08", "timesteps_total": 1566000, "episode_reward_min": -31.187347829112795, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.16303873062134, "training_iteration": 1305, "info": {"default": {"policy_loss": -0.08084486424922943, "vf_explained_var": 0.6481261253356934, "vf_loss": 5.634145736694336, "kl": 0.012873499654233456, "entropy": 0.633223295211792, "cur_kl_coeff": 3.417187452316284, "cur_lr": 4.999999873689376e-05, "total_loss": 5.597291946411133}, "sample_time_ms": 38100.568, "num_steps_trained": 1566000, "num_steps_sampled": 1566000, "update_time_ms": 2.721, "grad_time_ms": 371.667, "load_time_ms": 0.67}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 50859.61294531822, "iterations_since_restore": 106, "episode_reward_max": 4.00198348938064, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 103983, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 274, "timestamp": 1757105689, "timesteps_since_restore": 127200, "episode_len_mean": 4.354014598540146, "episode_reward_mean": 3.445338692082312, "pid": 2334309, "time_since_restore": 4140.073504924774, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-54-49", "timesteps_total": 1567200, "episode_reward_min": -21.432730940866485, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.231478452682495, "training_iteration": 1306, "info": {"default": {"policy_loss": -0.06374084204435349, "vf_explained_var": 0.6493927240371704, "vf_loss": 6.223613739013672, "kl": 0.007776125334203243, "entropy": 0.15254253149032593, "cur_kl_coeff": 3.417187452316284, "cur_lr": 4.999999873689376e-05, "total_loss": 6.1864447593688965}, "sample_time_ms": 38447.657, "num_steps_trained": 1567200, "num_steps_sampled": 1567200, "update_time_ms": 2.709, "grad_time_ms": 371.118, "load_time_ms": 0.664}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 50900.58679533005, "iterations_since_restore": 107, "episode_reward_max": 4.0018922460426225, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 104255, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 272, "timestamp": 1757105730, "timesteps_since_restore": 128400, "episode_len_mean": 4.430147058823529, "episode_reward_mean": 3.3425205731104675, "pid": 2334309, "time_since_restore": 4181.0473549366, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-55-30", "timesteps_total": 1568400, "episode_reward_min": -49.363814880106105, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.97385001182556, "training_iteration": 1307, "info": {"default": {"policy_loss": -0.06094861775636673, "vf_explained_var": 0.5548527836799622, "vf_loss": 16.753713607788086, "kl": 0.0048278141766786575, "entropy": 0.33025237917900085, "cur_kl_coeff": 3.417187452316284, "cur_lr": 4.999999873689376e-05, "total_loss": 16.70926284790039}, "sample_time_ms": 38740.645, "num_steps_trained": 1568400, "num_steps_sampled": 1568400, "update_time_ms": 2.662, "grad_time_ms": 369.988, "load_time_ms": 0.654}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 50939.62045454979, "iterations_since_restore": 108, "episode_reward_max": 4.001877784402788, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 104536, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 281, "timestamp": 1757105769, "timesteps_since_restore": 129600, "episode_len_mean": 4.270462633451957, "episode_reward_mean": 3.573085696522354, "pid": 2334309, "time_since_restore": 4220.081014156342, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-56-09", "timesteps_total": 1569600, "episode_reward_min": -22.627246877188128, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.03365921974182, "training_iteration": 1308, "info": {"default": {"policy_loss": -0.06859763711690903, "vf_explained_var": 0.6861996054649353, "vf_loss": 5.553940773010254, "kl": 0.00816518347710371, "entropy": -0.26000893115997314, "cur_kl_coeff": 1.708593726158142, "cur_lr": 4.999999873689376e-05, "total_loss": 5.499293804168701}, "sample_time_ms": 38822.426, "num_steps_trained": 1569600, "num_steps_sampled": 1569600, "update_time_ms": 2.645, "grad_time_ms": 369.554, "load_time_ms": 0.657}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 50979.06784796715, "iterations_since_restore": 109, "episode_reward_max": 4.001726488105016, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 104801, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 265, "timestamp": 1757105808, "timesteps_since_restore": 130800, "episode_len_mean": 4.532075471698113, "episode_reward_mean": 3.1570240772033684, "pid": 2334309, "time_since_restore": 4259.5284075737, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-56-48", "timesteps_total": 1570800, "episode_reward_min": -28.75251328342415, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.4473934173584, "training_iteration": 1309, "info": {"default": {"policy_loss": -0.07145527005195618, "vf_explained_var": 0.5634995698928833, "vf_loss": 13.224043846130371, "kl": 0.010305420495569706, "entropy": 0.5198453664779663, "cur_kl_coeff": 1.708593726158142, "cur_lr": 4.999999873689376e-05, "total_loss": 13.170196533203125}, "sample_time_ms": 38978.999, "num_steps_trained": 1570800, "num_steps_sampled": 1570800, "update_time_ms": 2.628, "grad_time_ms": 369.759, "load_time_ms": 0.663}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 51018.843745708466, "iterations_since_restore": 110, "episode_reward_max": 4.0017950608403225, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 105088, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 287, "timestamp": 1757105848, "timesteps_since_restore": 132000, "episode_len_mean": 4.132404181184669, "episode_reward_mean": 3.8032685783297397, "pid": 2334309, "time_since_restore": 4299.304305315018, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-57-28", "timesteps_total": 1572000, "episode_reward_min": -8.191612376563011, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.77589774131775, "training_iteration": 1310, "info": {"default": {"policy_loss": -0.06360436230897903, "vf_explained_var": 0.6623866558074951, "vf_loss": 5.167516708374023, "kl": 0.008284644223749638, "entropy": -0.34053632616996765, "cur_kl_coeff": 1.708593726158142, "cur_lr": 4.999999873689376e-05, "total_loss": 5.118066787719727}, "sample_time_ms": 39126.796, "num_steps_trained": 1572000, "num_steps_sampled": 1572000, "update_time_ms": 2.637, "grad_time_ms": 370.08, "load_time_ms": 0.665}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 51058.46518111229, "iterations_since_restore": 111, "episode_reward_max": 4.002042631107875, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 105371, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 283, "timestamp": 1757105888, "timesteps_since_restore": 133200, "episode_len_mean": 4.261484098939929, "episode_reward_mean": 3.5916262071100427, "pid": 2334309, "time_since_restore": 4338.925740718842, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-58-08", "timesteps_total": 1573200, "episode_reward_min": -17.74177093044423, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.62143540382385, "training_iteration": 1311, "info": {"default": {"policy_loss": -0.06490815430879593, "vf_explained_var": 0.7050497531890869, "vf_loss": 3.5137922763824463, "kl": 0.01350666955113411, "entropy": -0.31632694602012634, "cur_kl_coeff": 1.708593726158142, "cur_lr": 4.999999873689376e-05, "total_loss": 3.471961498260498}, "sample_time_ms": 39326.742, "num_steps_trained": 1573200, "num_steps_sampled": 1573200, "update_time_ms": 2.627, "grad_time_ms": 372.323, "load_time_ms": 0.674}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 51098.61948919296, "iterations_since_restore": 112, "episode_reward_max": 4.00188794347281, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 105635, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 264, "timestamp": 1757105928, "timesteps_since_restore": 134400, "episode_len_mean": 4.575757575757576, "episode_reward_mean": 3.110068671712963, "pid": 2334309, "time_since_restore": 4379.080048799515, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-58-48", "timesteps_total": 1574400, "episode_reward_min": -27.94722228343234, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.15430808067322, "training_iteration": 1312, "info": {"default": {"policy_loss": -0.07792068272829056, "vf_explained_var": 0.5980434417724609, "vf_loss": 10.607966423034668, "kl": 0.010047199204564095, "entropy": 0.802868127822876, "cur_kl_coeff": 1.708593726158142, "cur_lr": 4.999999873689376e-05, "total_loss": 10.547211647033691}, "sample_time_ms": 39413.158, "num_steps_trained": 1574400, "num_steps_sampled": 1574400, "update_time_ms": 2.612, "grad_time_ms": 373.868, "load_time_ms": 0.683}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 51138.87035822868, "iterations_since_restore": 113, "episode_reward_max": 4.001885130067342, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 105926, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757105968, "timesteps_since_restore": 135600, "episode_len_mean": 4.130584192439863, "episode_reward_mean": 3.800668031422106, "pid": 2334309, "time_since_restore": 4419.330917835236, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_22-59-28", "timesteps_total": 1575600, "episode_reward_min": -13.75303793071621, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.250869035720825, "training_iteration": 1313, "info": {"default": {"policy_loss": -0.08245294541120529, "vf_explained_var": 0.7952665686607361, "vf_loss": 1.787705898284912, "kl": 0.01485416665673256, "entropy": -0.4632006883621216, "cur_kl_coeff": 1.708593726158142, "cur_lr": 4.999999873689376e-05, "total_loss": 1.7306325435638428}, "sample_time_ms": 39497.2, "num_steps_trained": 1575600, "num_steps_sampled": 1575600, "update_time_ms": 2.622, "grad_time_ms": 375.055, "load_time_ms": 0.688}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 51179.091141462326, "iterations_since_restore": 114, "episode_reward_max": 5.0020361779116085, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 106204, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 278, "timestamp": 1757106008, "timesteps_since_restore": 136800, "episode_len_mean": 4.302158273381295, "episode_reward_mean": 3.5275022095657036, "pid": 2334309, "time_since_restore": 4459.551701068878, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-00-08", "timesteps_total": 1576800, "episode_reward_min": -35.95504820029205, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.22078323364258, "training_iteration": 1314, "info": {"default": {"policy_loss": -0.05968090519309044, "vf_explained_var": 0.6044803261756897, "vf_loss": 8.644490242004395, "kl": 0.007263501640409231, "entropy": 0.015614721924066544, "cur_kl_coeff": 1.708593726158142, "cur_lr": 4.999999873689376e-05, "total_loss": 8.597219467163086}, "sample_time_ms": 39601.93, "num_steps_trained": 1576800, "num_steps_sampled": 1576800, "update_time_ms": 2.657, "grad_time_ms": 375.826, "load_time_ms": 0.686}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 51218.20755290985, "iterations_since_restore": 115, "episode_reward_max": 4.002049139602024, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 106488, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 284, "timestamp": 1757106048, "timesteps_since_restore": 138000, "episode_len_mean": 4.225352112676056, "episode_reward_mean": 3.64609339337644, "pid": 2334309, "time_since_restore": 4498.668112516403, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-00-48", "timesteps_total": 1578000, "episode_reward_min": -21.260014679445053, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.116411447525024, "training_iteration": 1315, "info": {"default": {"policy_loss": -0.0627419576048851, "vf_explained_var": 0.7133104801177979, "vf_loss": 4.05226469039917, "kl": 0.006604376714676619, "entropy": -0.11876635998487473, "cur_kl_coeff": 1.708593726158142, "cur_lr": 4.999999873689376e-05, "total_loss": 4.00080680847168}, "sample_time_ms": 39597.742, "num_steps_trained": 1578000, "num_steps_sampled": 1578000, "update_time_ms": 2.641, "grad_time_ms": 375.366, "load_time_ms": 0.683}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 51258.21114850044, "iterations_since_restore": 116, "episode_reward_max": 5.192633744182842, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 106773, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 285, "timestamp": 1757106088, "timesteps_since_restore": 139200, "episode_len_mean": 4.2140350877192985, "episode_reward_mean": 3.6750751223617684, "pid": 2334309, "time_since_restore": 4538.671708106995, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-01-28", "timesteps_total": 1579200, "episode_reward_min": -13.126771417258908, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.00359559059143, "training_iteration": 1316, "info": {"default": {"policy_loss": -0.06536490470170975, "vf_explained_var": 0.7026593089103699, "vf_loss": 2.868454933166504, "kl": 0.017984136939048767, "entropy": -0.08238264173269272, "cur_kl_coeff": 1.708593726158142, "cur_lr": 4.999999873689376e-05, "total_loss": 2.833817481994629}, "sample_time_ms": 39476.988, "num_steps_trained": 1579200, "num_steps_sampled": 1579200, "update_time_ms": 2.62, "grad_time_ms": 373.381, "load_time_ms": 0.689}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 51297.63821220398, "iterations_since_restore": 117, "episode_reward_max": 6.000128481723395, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 107058, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 285, "timestamp": 1757106127, "timesteps_since_restore": 140400, "episode_len_mean": 4.2, "episode_reward_mean": 3.7088016669561275, "pid": 2334309, "time_since_restore": 4578.098771810532, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-02-07", "timesteps_total": 1580400, "episode_reward_min": -20.621182838847858, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.42706370353699, "training_iteration": 1317, "info": {"default": {"policy_loss": -0.06674400717020035, "vf_explained_var": 0.7722951769828796, "vf_loss": 2.2752792835235596, "kl": 0.01534294057637453, "entropy": -0.21627697348594666, "cur_kl_coeff": 1.708593726158142, "cur_lr": 4.999999873689376e-05, "total_loss": 2.2347500324249268}, "sample_time_ms": 39321.566, "num_steps_trained": 1580400, "num_steps_sampled": 1580400, "update_time_ms": 2.621, "grad_time_ms": 374.09, "load_time_ms": 0.7}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 51337.498566150665, "iterations_since_restore": 118, "episode_reward_max": 4.0019534112984925, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 107334, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 276, "timestamp": 1757106167, "timesteps_since_restore": 141600, "episode_len_mean": 4.351449275362318, "episode_reward_mean": 3.4791249938259803, "pid": 2334309, "time_since_restore": 4617.959125757217, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-02-47", "timesteps_total": 1581600, "episode_reward_min": -25.671187343565002, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.86035394668579, "training_iteration": 1318, "info": {"default": {"policy_loss": -0.059444766491651535, "vf_explained_var": 0.6444743275642395, "vf_loss": 6.268968105316162, "kl": 0.012775886803865433, "entropy": 0.18119819462299347, "cur_kl_coeff": 1.708593726158142, "cur_lr": 4.999999873689376e-05, "total_loss": 6.231351852416992}, "sample_time_ms": 39401.9, "num_steps_trained": 1581600, "num_steps_sampled": 1581600, "update_time_ms": 2.62, "grad_time_ms": 376.387, "load_time_ms": 0.707}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 51377.39486122131, "iterations_since_restore": 119, "episode_reward_max": 5.026829501809603, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 107613, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 279, "timestamp": 1757106207, "timesteps_since_restore": 142800, "episode_len_mean": 4.297491039426523, "episode_reward_mean": 3.5439972077686925, "pid": 2334309, "time_since_restore": 4657.855420827866, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-03-27", "timesteps_total": 1582800, "episode_reward_min": -17.98357810345092, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.89629507064819, "training_iteration": 1319, "info": {"default": {"policy_loss": -0.06042281165719032, "vf_explained_var": 0.5932624340057373, "vf_loss": 6.504125118255615, "kl": 0.011180099099874496, "entropy": 0.056139640510082245, "cur_kl_coeff": 1.708593726158142, "cur_lr": 4.999999873689376e-05, "total_loss": 6.462804794311523}, "sample_time_ms": 39449.301, "num_steps_trained": 1582800, "num_steps_sampled": 1582800, "update_time_ms": 2.641, "grad_time_ms": 373.911, "load_time_ms": 0.707}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 51416.45303559303, "iterations_since_restore": 120, "episode_reward_max": 4.001912659791163, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 107899, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 286, "timestamp": 1757106246, "timesteps_since_restore": 144000, "episode_len_mean": 4.1923076923076925, "episode_reward_mean": 3.7121264694062446, "pid": 2334309, "time_since_restore": 4696.913595199585, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-04-06", "timesteps_total": 1584000, "episode_reward_min": -13.31436163941175, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.05817437171936, "training_iteration": 1320, "info": {"default": {"policy_loss": -0.05389616638422012, "vf_explained_var": 0.7721025943756104, "vf_loss": 2.4455513954162598, "kl": 0.012464827857911587, "entropy": -0.15338730812072754, "cur_kl_coeff": 1.708593726158142, "cur_lr": 4.999999873689376e-05, "total_loss": 2.412952423095703}, "sample_time_ms": 39377.08, "num_steps_trained": 1584000, "num_steps_sampled": 1584000, "update_time_ms": 2.63, "grad_time_ms": 374.359, "load_time_ms": 0.708}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 51454.51548862457, "iterations_since_restore": 121, "episode_reward_max": 4.001954075541468, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 108173, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 274, "timestamp": 1757106284, "timesteps_since_restore": 145200, "episode_len_mean": 4.401459854014599, "episode_reward_mean": 3.3938251318626005, "pid": 2334309, "time_since_restore": 4734.976048231125, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-04-44", "timesteps_total": 1585200, "episode_reward_min": -44.956646283902124, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.06245303153992, "training_iteration": 1321, "info": {"default": {"policy_loss": -0.07076133787631989, "vf_explained_var": 0.5087409615516663, "vf_loss": 25.35009002685547, "kl": 0.011702321469783783, "entropy": 0.24638400971889496, "cur_kl_coeff": 1.708593726158142, "cur_lr": 4.999999873689376e-05, "total_loss": 25.29932403564453}, "sample_time_ms": 39221.995, "num_steps_trained": 1585200, "num_steps_sampled": 1585200, "update_time_ms": 2.583, "grad_time_ms": 373.516, "load_time_ms": 0.702}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 51493.21711039543, "iterations_since_restore": 122, "episode_reward_max": 4.001949635316565, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 108447, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 274, "timestamp": 1757106323, "timesteps_since_restore": 146400, "episode_len_mean": 4.364963503649635, "episode_reward_mean": 3.4470366100666934, "pid": 2334309, "time_since_restore": 4773.677670001984, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-05-23", "timesteps_total": 1586400, "episode_reward_min": -21.423043154428267, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.701621770858765, "training_iteration": 1322, "info": {"default": {"policy_loss": -0.06936493515968323, "vf_explained_var": 0.632332980632782, "vf_loss": 8.364895820617676, "kl": 0.011892740614712238, "entropy": 0.35092467069625854, "cur_kl_coeff": 1.708593726158142, "cur_lr": 4.999999873689376e-05, "total_loss": 8.315850257873535}, "sample_time_ms": 39076.57, "num_steps_trained": 1586400, "num_steps_sampled": 1586400, "update_time_ms": 2.617, "grad_time_ms": 373.581, "load_time_ms": 0.696}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 51531.17982029915, "iterations_since_restore": 123, "episode_reward_max": 5.002397886351651, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 108726, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 279, "timestamp": 1757106361, "timesteps_since_restore": 147600, "episode_len_mean": 4.308243727598566, "episode_reward_mean": 3.532079765687843, "pid": 2334309, "time_since_restore": 4811.640379905701, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-06-01", "timesteps_total": 1587600, "episode_reward_min": -35.753579959877555, "num_metric_batches_dropped": 0, "time_this_iter_s": 37.96270990371704, "training_iteration": 1323, "info": {"default": {"policy_loss": -0.07389858365058899, "vf_explained_var": 0.6758853793144226, "vf_loss": 8.18017864227295, "kl": 0.00736176548525691, "entropy": 0.11048974096775055, "cur_kl_coeff": 1.708593726158142, "cur_lr": 4.999999873689376e-05, "total_loss": 8.118858337402344}, "sample_time_ms": 38848.246, "num_steps_trained": 1587600, "num_steps_sampled": 1587600, "update_time_ms": 2.66, "grad_time_ms": 373.121, "load_time_ms": 0.694}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 51569.30113482475, "iterations_since_restore": 124, "episode_reward_max": 6.000090859629799, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 109000, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 274, "timestamp": 1757106399, "timesteps_since_restore": 148800, "episode_len_mean": 4.357664233576642, "episode_reward_mean": 3.4497365362897017, "pid": 2334309, "time_since_restore": 4849.761694431305, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-06-39", "timesteps_total": 1588800, "episode_reward_min": -22.85458135516012, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.12131452560425, "training_iteration": 1324, "info": {"default": {"policy_loss": -0.0709657371044159, "vf_explained_var": 0.6689650416374207, "vf_loss": 6.539626598358154, "kl": 0.014646215364336967, "entropy": 0.1108369529247284, "cur_kl_coeff": 1.708593726158142, "cur_lr": 4.999999873689376e-05, "total_loss": 6.493686199188232}, "sample_time_ms": 38638.067, "num_steps_trained": 1588800, "num_steps_sampled": 1588800, "update_time_ms": 2.68, "grad_time_ms": 373.307, "load_time_ms": 0.708}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 51608.81578350067, "iterations_since_restore": 125, "episode_reward_max": 4.001555289783898, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 109269, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 269, "timestamp": 1757106438, "timesteps_since_restore": 150000, "episode_len_mean": 4.479553903345725, "episode_reward_mean": 3.2499978965714686, "pid": 2334309, "time_since_restore": 4889.2763431072235, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-07-18", "timesteps_total": 1590000, "episode_reward_min": -20.095841520247646, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.51464867591858, "training_iteration": 1325, "info": {"default": {"policy_loss": -0.0761907622218132, "vf_explained_var": 0.6497973203659058, "vf_loss": 8.79183292388916, "kl": 0.01164473220705986, "entropy": 0.3123447597026825, "cur_kl_coeff": 1.708593726158142, "cur_lr": 4.999999873689376e-05, "total_loss": 8.735538482666016}, "sample_time_ms": 38674.547, "num_steps_trained": 1590000, "num_steps_sampled": 1590000, "update_time_ms": 2.698, "grad_time_ms": 376.557, "load_time_ms": 0.723}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 51647.35361099243, "iterations_since_restore": 126, "episode_reward_max": 4.002049379447667, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 109547, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 278, "timestamp": 1757106477, "timesteps_since_restore": 151200, "episode_len_mean": 4.305755395683454, "episode_reward_mean": 3.526643711284543, "pid": 2334309, "time_since_restore": 4927.814170598984, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-07-57", "timesteps_total": 1591200, "episode_reward_min": -19.550619299151457, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.537827491760254, "training_iteration": 1326, "info": {"default": {"policy_loss": -0.07533690333366394, "vf_explained_var": 0.7013075351715088, "vf_loss": 4.180681228637695, "kl": 0.011995701119303703, "entropy": 0.03432973101735115, "cur_kl_coeff": 1.708593726158142, "cur_lr": 4.999999873689376e-05, "total_loss": 4.125840187072754}, "sample_time_ms": 38528.029, "num_steps_trained": 1591200, "num_steps_sampled": 1591200, "update_time_ms": 2.718, "grad_time_ms": 376.496, "load_time_ms": 0.725}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 51687.74528694153, "iterations_since_restore": 127, "episode_reward_max": 4.002140363935118, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 109841, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757106517, "timesteps_since_restore": 152400, "episode_len_mean": 4.091836734693878, "episode_reward_mean": 3.8632125916146416, "pid": 2334309, "time_since_restore": 4968.20584654808, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-08-37", "timesteps_total": 1592400, "episode_reward_min": -9.216992471165565, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.39167594909668, "training_iteration": 1327, "info": {"default": {"policy_loss": -0.05808692425489426, "vf_explained_var": 0.8285026550292969, "vf_loss": 1.3187617063522339, "kl": 0.011449616402387619, "entropy": -0.6105666756629944, "cur_kl_coeff": 1.708593726158142, "cur_lr": 4.999999873689376e-05, "total_loss": 1.2802374362945557}, "sample_time_ms": 38624.862, "num_steps_trained": 1592400, "num_steps_sampled": 1592400, "update_time_ms": 2.702, "grad_time_ms": 376.063, "load_time_ms": 0.722}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 51727.538893699646, "iterations_since_restore": 128, "episode_reward_max": 4.001646158106936, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 110124, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 283, "timestamp": 1757106557, "timesteps_since_restore": 153600, "episode_len_mean": 4.229681978798586, "episode_reward_mean": 3.6520118782502418, "pid": 2334309, "time_since_restore": 5007.999453306198, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-09-17", "timesteps_total": 1593600, "episode_reward_min": -17.889057102927715, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.793606758117676, "training_iteration": 1328, "info": {"default": {"policy_loss": -0.050349161028862, "vf_explained_var": 0.5883679986000061, "vf_loss": 5.090128421783447, "kl": 0.02241305634379387, "entropy": -0.16097025573253632, "cur_kl_coeff": 1.708593726158142, "cur_lr": 4.999999873689376e-05, "total_loss": 5.078073501586914}, "sample_time_ms": 38620.492, "num_steps_trained": 1593600, "num_steps_sampled": 1593600, "update_time_ms": 2.711, "grad_time_ms": 373.768, "load_time_ms": 0.718}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 51768.12878513336, "iterations_since_restore": 129, "episode_reward_max": 4.002076271452172, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 110405, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 281, "timestamp": 1757106598, "timesteps_since_restore": 154800, "episode_len_mean": 4.284697508896797, "episode_reward_mean": 3.562632819397314, "pid": 2334309, "time_since_restore": 5048.589344739914, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-09-58", "timesteps_total": 1594800, "episode_reward_min": -46.51767092270567, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.58989143371582, "training_iteration": 1329, "info": {"default": {"policy_loss": -0.05679268389940262, "vf_explained_var": 0.5845372676849365, "vf_loss": 13.10555648803711, "kl": 0.004695294424891472, "entropy": -0.07875441014766693, "cur_kl_coeff": 2.5628905296325684, "cur_lr": 4.999999873689376e-05, "total_loss": 13.060796737670898}, "sample_time_ms": 38689.822, "num_steps_trained": 1594800, "num_steps_sampled": 1594800, "update_time_ms": 2.693, "grad_time_ms": 373.833, "load_time_ms": 0.715}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 51807.787913799286, "iterations_since_restore": 130, "episode_reward_max": 4.0016529335288995, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 110690, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 285, "timestamp": 1757106637, "timesteps_since_restore": 156000, "episode_len_mean": 4.203508771929824, "episode_reward_mean": 3.688938823396829, "pid": 2334309, "time_since_restore": 5088.248473405838, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-10-37", "timesteps_total": 1596000, "episode_reward_min": -15.393641706545381, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.65912866592407, "training_iteration": 1330, "info": {"default": {"policy_loss": -0.05549138784408569, "vf_explained_var": 0.7311026453971863, "vf_loss": 3.008976936340332, "kl": 0.013225247152149677, "entropy": -0.2110975980758667, "cur_kl_coeff": 1.2814452648162842, "cur_lr": 4.999999873689376e-05, "total_loss": 2.970432996749878}, "sample_time_ms": 38748.211, "num_steps_trained": 1596000, "num_steps_sampled": 1596000, "update_time_ms": 2.681, "grad_time_ms": 375.562, "load_time_ms": 0.708}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 51846.983005046844, "iterations_since_restore": 131, "episode_reward_max": 4.0020058073185965, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 110976, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 286, "timestamp": 1757106677, "timesteps_since_restore": 157200, "episode_len_mean": 4.206293706293707, "episode_reward_mean": 3.69098861499797, "pid": 2334309, "time_since_restore": 5127.443564653397, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-11-17", "timesteps_total": 1597200, "episode_reward_min": -9.516016658356655, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.195091247558594, "training_iteration": 1331, "info": {"default": {"policy_loss": -0.061733510345220566, "vf_explained_var": 0.7163572907447815, "vf_loss": 2.7935588359832764, "kl": 0.012929204851388931, "entropy": -0.24729609489440918, "cur_kl_coeff": 1.2814452648162842, "cur_lr": 4.999999873689376e-05, "total_loss": 2.7483932971954346}, "sample_time_ms": 38860.45, "num_steps_trained": 1597200, "num_steps_sampled": 1597200, "update_time_ms": 2.688, "grad_time_ms": 376.645, "load_time_ms": 0.722}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 51885.285808324814, "iterations_since_restore": 132, "episode_reward_max": 4.0018289930717925, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 111244, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 268, "timestamp": 1757106715, "timesteps_since_restore": 158400, "episode_len_mean": 4.477611940298507, "episode_reward_mean": 3.2521410079682447, "pid": 2334309, "time_since_restore": 5165.746367931366, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-11-55", "timesteps_total": 1598400, "episode_reward_min": -30.3674044687031, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.30280327796936, "training_iteration": 1332, "info": {"default": {"policy_loss": -0.08909670263528824, "vf_explained_var": 0.6705560684204102, "vf_loss": 10.326985359191895, "kl": 0.01343161053955555, "entropy": 0.44165194034576416, "cur_kl_coeff": 1.2814452648162842, "cur_lr": 4.999999873689376e-05, "total_loss": 10.25510025024414}, "sample_time_ms": 38822.631, "num_steps_trained": 1598400, "num_steps_sampled": 1598400, "update_time_ms": 2.686, "grad_time_ms": 374.646, "load_time_ms": 0.731}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 51923.771050453186, "iterations_since_restore": 133, "episode_reward_max": 4.001942240470322, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 111539, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757106753, "timesteps_since_restore": 159600, "episode_len_mean": 4.074576271186441, "episode_reward_mean": 3.8895729815637607, "pid": 2334309, "time_since_restore": 5204.231610059738, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-12-33", "timesteps_total": 1599600, "episode_reward_min": -3.9258890454446185, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.48524212837219, "training_iteration": 1333, "info": {"default": {"policy_loss": -0.05956500023603439, "vf_explained_var": 0.8436745405197144, "vf_loss": 0.9759343266487122, "kl": 0.04033590853214264, "entropy": -0.5865831971168518, "cur_kl_coeff": 1.2814452648162842, "cur_lr": 4.999999873689376e-05, "total_loss": 0.9680576324462891}, "sample_time_ms": 38874.013, "num_steps_trained": 1599600, "num_steps_sampled": 1599600, "update_time_ms": 2.65, "grad_time_ms": 375.634, "load_time_ms": 0.738}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 51962.440440654755, "iterations_since_restore": 134, "episode_reward_max": 4.00159956456076, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 111817, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 278, "timestamp": 1757106792, "timesteps_since_restore": 160800, "episode_len_mean": 4.302158273381295, "episode_reward_mean": 3.5262119598326507, "pid": 2334309, "time_since_restore": 5242.901000261307, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-13-12", "timesteps_total": 1600800, "episode_reward_min": -39.961114766791155, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.6693902015686, "training_iteration": 1334, "info": {"default": {"policy_loss": -0.05372573062777519, "vf_explained_var": 0.6405785083770752, "vf_loss": 12.282140731811523, "kl": 0.008107896894216537, "entropy": 0.03921503573656082, "cur_kl_coeff": 1.9221681356430054, "cur_lr": 4.999999873689376e-05, "total_loss": 12.243999481201172}, "sample_time_ms": 38928.011, "num_steps_trained": 1600800, "num_steps_sampled": 1600800, "update_time_ms": 2.599, "grad_time_ms": 376.508, "load_time_ms": 0.733}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 52002.58175730705, "iterations_since_restore": 135, "episode_reward_max": 4.00189988759658, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 112102, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 285, "timestamp": 1757106832, "timesteps_since_restore": 162000, "episode_len_mean": 4.207017543859649, "episode_reward_mean": 3.6786799577340283, "pid": 2334309, "time_since_restore": 5283.042316913605, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-13-52", "timesteps_total": 1602000, "episode_reward_min": -16.305863487748297, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.141316652297974, "training_iteration": 1335, "info": {"default": {"policy_loss": -0.05340477079153061, "vf_explained_var": 0.6468636989593506, "vf_loss": 4.3375067710876465, "kl": 0.02237357199192047, "entropy": -0.4659261107444763, "cur_kl_coeff": 1.9221681356430054, "cur_lr": 4.999999873689376e-05, "total_loss": 4.327107906341553}, "sample_time_ms": 38991.746, "num_steps_trained": 1602000, "num_steps_sampled": 1602000, "update_time_ms": 2.567, "grad_time_ms": 375.479, "load_time_ms": 0.715}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 52041.34320831299, "iterations_since_restore": 136, "episode_reward_max": 4.001592622576499, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 112385, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 283, "timestamp": 1757106871, "timesteps_since_restore": 163200, "episode_len_mean": 4.243816254416961, "episode_reward_mean": 3.61892197761323, "pid": 2334309, "time_since_restore": 5321.80376791954, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-14-31", "timesteps_total": 1603200, "episode_reward_min": -20.779267413464282, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.76145100593567, "training_iteration": 1336, "info": {"default": {"policy_loss": -0.05183533951640129, "vf_explained_var": 0.6796021461486816, "vf_loss": 4.407958507537842, "kl": 0.019766276702284813, "entropy": -0.20680133998394012, "cur_kl_coeff": 2.883251905441284, "cur_lr": 4.999999873689376e-05, "total_loss": 4.413114547729492}, "sample_time_ms": 39012.554, "num_steps_trained": 1603200, "num_steps_sampled": 1603200, "update_time_ms": 2.613, "grad_time_ms": 376.949, "load_time_ms": 0.703}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 52079.97234201431, "iterations_since_restore": 137, "episode_reward_max": 4.001665389673638, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 112666, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 281, "timestamp": 1757106910, "timesteps_since_restore": 164400, "episode_len_mean": 4.241992882562277, "episode_reward_mean": 3.644153023623832, "pid": 2334309, "time_since_restore": 5360.432901620865, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-15-10", "timesteps_total": 1604400, "episode_reward_min": -34.90653439797438, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.62913370132446, "training_iteration": 1337, "info": {"default": {"policy_loss": -0.05202701687812805, "vf_explained_var": 0.6695787310600281, "vf_loss": 8.545740127563477, "kl": 0.0050067175179719925, "entropy": -0.09803963452577591, "cur_kl_coeff": 2.883251905441284, "cur_lr": 4.999999873689376e-05, "total_loss": 8.508150100708008}, "sample_time_ms": 38834.78, "num_steps_trained": 1604400, "num_steps_sampled": 1604400, "update_time_ms": 2.666, "grad_time_ms": 378.504, "load_time_ms": 0.707}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 52119.005444288254, "iterations_since_restore": 138, "episode_reward_max": 6.0000805667874735, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 112961, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757106949, "timesteps_since_restore": 165600, "episode_len_mean": 4.098305084745762, "episode_reward_mean": 3.8527000640384896, "pid": 2334309, "time_since_restore": 5399.466003894806, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-15-49", "timesteps_total": 1605600, "episode_reward_min": -7.165953075565522, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.03310227394104, "training_iteration": 1338, "info": {"default": {"policy_loss": -0.04262460768222809, "vf_explained_var": 0.8381867408752441, "vf_loss": 1.0966238975524902, "kl": 0.0094336848706007, "entropy": -0.627720296382904, "cur_kl_coeff": 2.883251905441284, "cur_lr": 4.999999873689376e-05, "total_loss": 1.0811991691589355}, "sample_time_ms": 38758.215, "num_steps_trained": 1605600, "num_steps_sampled": 1605600, "update_time_ms": 2.641, "grad_time_ms": 379.044, "load_time_ms": 0.713}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 52157.30328917503, "iterations_since_restore": 139, "episode_reward_max": 4.0011800427103825, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 113253, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757106987, "timesteps_since_restore": 166800, "episode_len_mean": 4.1061643835616435, "episode_reward_mean": 3.8287647538095495, "pid": 2334309, "time_since_restore": 5437.763848781586, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-16-27", "timesteps_total": 1606800, "episode_reward_min": -23.853082262006033, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.297844886779785, "training_iteration": 1339, "info": {"default": {"policy_loss": -0.034682974219322205, "vf_explained_var": 0.7517573237419128, "vf_loss": 3.156803607940674, "kl": 0.006086917594075203, "entropy": -0.6523790955543518, "cur_kl_coeff": 2.883251905441284, "cur_lr": 4.999999873689376e-05, "total_loss": 3.1396703720092773}, "sample_time_ms": 38527.189, "num_steps_trained": 1606800, "num_steps_sampled": 1606800, "update_time_ms": 2.636, "grad_time_ms": 380.85, "load_time_ms": 0.714}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 52196.414237976074, "iterations_since_restore": 140, "episode_reward_max": 4.00182230193794, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 113531, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 278, "timestamp": 1757107026, "timesteps_since_restore": 168000, "episode_len_mean": 4.320143884892087, "episode_reward_mean": 3.506889558612064, "pid": 2334309, "time_since_restore": 5476.874797582626, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-17-06", "timesteps_total": 1608000, "episode_reward_min": -34.13633598426734, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.11094880104065, "training_iteration": 1340, "info": {"default": {"policy_loss": -0.05998483672738075, "vf_explained_var": 0.6843264102935791, "vf_loss": 10.724564552307129, "kl": 0.004879020620137453, "entropy": 0.05445321276783943, "cur_kl_coeff": 2.883251905441284, "cur_lr": 4.999999873689376e-05, "total_loss": 10.678647994995117}, "sample_time_ms": 38475.042, "num_steps_trained": 1608000, "num_steps_sampled": 1608000, "update_time_ms": 2.654, "grad_time_ms": 378.141, "load_time_ms": 0.716}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 52235.50587797165, "iterations_since_restore": 141, "episode_reward_max": 4.002023812145745, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 113812, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 281, "timestamp": 1757107065, "timesteps_since_restore": 169200, "episode_len_mean": 4.266903914590747, "episode_reward_mean": 3.578010577614854, "pid": 2334309, "time_since_restore": 5515.966437578201, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-17-45", "timesteps_total": 1609200, "episode_reward_min": -24.95848918384165, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.09163999557495, "training_iteration": 1341, "info": {"default": {"policy_loss": -0.08105481415987015, "vf_explained_var": 0.7397710084915161, "vf_loss": 3.7955636978149414, "kl": 0.011717539280653, "entropy": -0.12609954178333282, "cur_kl_coeff": 1.441625952720642, "cur_lr": 4.999999873689376e-05, "total_loss": 3.731401205062866}, "sample_time_ms": 38465.105, "num_steps_trained": 1609200, "num_steps_sampled": 1609200, "update_time_ms": 2.636, "grad_time_ms": 377.737, "load_time_ms": 0.702}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 52274.06136775017, "iterations_since_restore": 142, "episode_reward_max": 4.001791791254423, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 114095, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 283, "timestamp": 1757107104, "timesteps_since_restore": 170400, "episode_len_mean": 4.226148409893993, "episode_reward_mean": 3.653818042949027, "pid": 2334309, "time_since_restore": 5554.52192735672, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-18-24", "timesteps_total": 1610400, "episode_reward_min": -23.74996042417611, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.55548977851868, "training_iteration": 1342, "info": {"default": {"policy_loss": -0.05734843760728836, "vf_explained_var": 0.625612199306488, "vf_loss": 6.113195419311523, "kl": 0.012176762335002422, "entropy": -0.3238200545310974, "cur_kl_coeff": 1.441625952720642, "cur_lr": 4.999999873689376e-05, "total_loss": 6.07340145111084}, "sample_time_ms": 38490.505, "num_steps_trained": 1610400, "num_steps_sampled": 1610400, "update_time_ms": 2.627, "grad_time_ms": 377.628, "load_time_ms": 0.69}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 52312.68342709541, "iterations_since_restore": 143, "episode_reward_max": 5.123873489076669, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 114380, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 285, "timestamp": 1757107143, "timesteps_since_restore": 171600, "episode_len_mean": 4.126315789473685, "episode_reward_mean": 3.809023693372418, "pid": 2334309, "time_since_restore": 5593.143986701965, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-19-03", "timesteps_total": 1611600, "episode_reward_min": -31.60991764145686, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.62205934524536, "training_iteration": 1343, "info": {"default": {"policy_loss": -0.06013388931751251, "vf_explained_var": 0.6584484577178955, "vf_loss": 9.156340599060059, "kl": 0.005214186385273933, "entropy": -0.25333738327026367, "cur_kl_coeff": 1.441625952720642, "cur_lr": 4.999999873689376e-05, "total_loss": 9.103724479675293}, "sample_time_ms": 38503.36, "num_steps_trained": 1611600, "num_steps_sampled": 1611600, "update_time_ms": 2.603, "grad_time_ms": 378.464, "load_time_ms": 0.694}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 52351.52419948578, "iterations_since_restore": 144, "episode_reward_max": 4.073515850728069, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 114668, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 288, "timestamp": 1757107181, "timesteps_since_restore": 172800, "episode_len_mean": 4.256944444444445, "episode_reward_mean": 3.5830362520335512, "pid": 2334309, "time_since_restore": 5631.984759092331, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-19-41", "timesteps_total": 1612800, "episode_reward_min": -38.327413960277376, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.8407723903656, "training_iteration": 1344, "info": {"default": {"policy_loss": -0.05365917086601257, "vf_explained_var": 0.6706030964851379, "vf_loss": 5.979413032531738, "kl": 0.014253895729780197, "entropy": -0.45398956537246704, "cur_kl_coeff": 1.441625952720642, "cur_lr": 4.999999873689376e-05, "total_loss": 5.94630241394043}, "sample_time_ms": 38523.338, "num_steps_trained": 1612800, "num_steps_sampled": 1612800, "update_time_ms": 2.624, "grad_time_ms": 375.616, "load_time_ms": 0.69}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 52389.24268865585, "iterations_since_restore": 145, "episode_reward_max": 4.001988752930247, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 114965, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757107219, "timesteps_since_restore": 174000, "episode_len_mean": 4.040404040404041, "episode_reward_mean": 3.9338495294567184, "pid": 2334309, "time_since_restore": 5669.703248262405, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-20-19", "timesteps_total": 1614000, "episode_reward_min": -12.796257318997647, "num_metric_batches_dropped": 0, "time_this_iter_s": 37.71848917007446, "training_iteration": 1345, "info": {"default": {"policy_loss": -0.04711514711380005, "vf_explained_var": 0.8830295205116272, "vf_loss": 1.2501449584960938, "kl": 0.011941448785364628, "entropy": -0.7976335883140564, "cur_kl_coeff": 1.441625952720642, "cur_lr": 4.999999873689376e-05, "total_loss": 1.2202448844909668}, "sample_time_ms": 38281.471, "num_steps_trained": 1614000, "num_steps_sampled": 1614000, "update_time_ms": 2.64, "grad_time_ms": 375.243, "load_time_ms": 0.69}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 52427.98351097107, "iterations_since_restore": 146, "episode_reward_max": 4.001954905844089, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 115254, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 289, "timestamp": 1757107258, "timesteps_since_restore": 175200, "episode_len_mean": 4.16955017301038, "episode_reward_mean": 3.7429549762684275, "pid": 2334309, "time_since_restore": 5708.4440705776215, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-20-58", "timesteps_total": 1615200, "episode_reward_min": -16.523649748622184, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.740822315216064, "training_iteration": 1346, "info": {"default": {"policy_loss": -0.05547356605529785, "vf_explained_var": 0.7257112860679626, "vf_loss": 3.090949535369873, "kl": 0.012924444861710072, "entropy": -0.5111722350120544, "cur_kl_coeff": 1.441625952720642, "cur_lr": 4.999999873689376e-05, "total_loss": 3.0541083812713623}, "sample_time_ms": 38279.618, "num_steps_trained": 1615200, "num_steps_sampled": 1615200, "update_time_ms": 2.583, "grad_time_ms": 375.076, "load_time_ms": 0.7}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 52467.06609034538, "iterations_since_restore": 147, "episode_reward_max": 4.00141060257028, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 115542, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 288, "timestamp": 1757107297, "timesteps_since_restore": 176400, "episode_len_mean": 4.152777777777778, "episode_reward_mean": 3.757530347918735, "pid": 2334309, "time_since_restore": 5747.526649951935, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-21-37", "timesteps_total": 1616400, "episode_reward_min": -26.278095214571998, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.082579374313354, "training_iteration": 1347, "info": {"default": {"policy_loss": -0.04606213420629501, "vf_explained_var": 0.6437156200408936, "vf_loss": 4.452642440795898, "kl": 0.03128109499812126, "entropy": -0.540848970413208, "cur_kl_coeff": 1.441625952720642, "cur_lr": 4.999999873689376e-05, "total_loss": 4.451676368713379}, "sample_time_ms": 38325.986, "num_steps_trained": 1616400, "num_steps_sampled": 1616400, "update_time_ms": 2.58, "grad_time_ms": 374.069, "load_time_ms": 0.688}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 52506.48217558861, "iterations_since_restore": 148, "episode_reward_max": 4.001117259432463, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 115819, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 277, "timestamp": 1757107336, "timesteps_since_restore": 177600, "episode_len_mean": 4.332129963898917, "episode_reward_mean": 3.4830443029961975, "pid": 2334309, "time_since_restore": 5786.94273519516, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-22-16", "timesteps_total": 1617600, "episode_reward_min": -36.50437597394449, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.4160852432251, "training_iteration": 1348, "info": {"default": {"policy_loss": -0.06083140894770622, "vf_explained_var": 0.4684969186782837, "vf_loss": 10.559070587158203, "kl": 0.017725398764014244, "entropy": -0.3221726417541504, "cur_kl_coeff": 2.1624388694763184, "cur_lr": 4.999999873689376e-05, "total_loss": 10.53657054901123}, "sample_time_ms": 38364.259, "num_steps_trained": 1617600, "num_steps_sampled": 1617600, "update_time_ms": 2.583, "grad_time_ms": 374.075, "load_time_ms": 0.675}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 52544.96935367584, "iterations_since_restore": 149, "episode_reward_max": 4.001343480514446, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 116113, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757107375, "timesteps_since_restore": 178800, "episode_len_mean": 4.078231292517007, "episode_reward_mean": 3.878033401435547, "pid": 2334309, "time_since_restore": 5825.429913282394, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-22-55", "timesteps_total": 1618800, "episode_reward_min": -12.126273629077897, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.4871780872345, "training_iteration": 1349, "info": {"default": {"policy_loss": -0.04009401053190231, "vf_explained_var": 0.7891613841056824, "vf_loss": 1.6586629152297974, "kl": 0.0148871885612607, "entropy": -0.6981332898139954, "cur_kl_coeff": 2.1624388694763184, "cur_lr": 4.999999873689376e-05, "total_loss": 1.6507614850997925}, "sample_time_ms": 38382.941, "num_steps_trained": 1618800, "num_steps_sampled": 1618800, "update_time_ms": 2.614, "grad_time_ms": 374.24, "load_time_ms": 0.677}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 52584.50973248482, "iterations_since_restore": 150, "episode_reward_max": 4.00138704015661, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 116385, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 272, "timestamp": 1757107414, "timesteps_since_restore": 180000, "episode_len_mean": 4.408088235294118, "episode_reward_mean": 3.373034451902526, "pid": 2334309, "time_since_restore": 5864.97029209137, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-23-34", "timesteps_total": 1620000, "episode_reward_min": -23.435765226780774, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.54037880897522, "training_iteration": 1350, "info": {"default": {"policy_loss": -0.06980738043785095, "vf_explained_var": 0.5324372053146362, "vf_loss": 9.081822395324707, "kl": 0.012487693689763546, "entropy": 0.08387807011604309, "cur_kl_coeff": 2.1624388694763184, "cur_lr": 4.999999873689376e-05, "total_loss": 9.039019584655762}, "sample_time_ms": 38422.618, "num_steps_trained": 1620000, "num_steps_sampled": 1620000, "update_time_ms": 2.63, "grad_time_ms": 377.518, "load_time_ms": 0.675}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 52629.20439815521, "iterations_since_restore": 151, "episode_reward_max": 4.002064493269813, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 116676, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757107459, "timesteps_since_restore": 181200, "episode_len_mean": 4.140893470790378, "episode_reward_mean": 3.782445192865684, "pid": 2334309, "time_since_restore": 5909.6649577617645, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-24-19", "timesteps_total": 1621200, "episode_reward_min": -10.124830365286538, "num_metric_batches_dropped": 0, "time_this_iter_s": 44.6946656703949, "training_iteration": 1351, "info": {"default": {"policy_loss": -0.04393324255943298, "vf_explained_var": 0.785719633102417, "vf_loss": 1.9305691719055176, "kl": 0.0074409362860023975, "entropy": -0.5013459920883179, "cur_kl_coeff": 2.1624388694763184, "cur_lr": 4.999999873689376e-05, "total_loss": 1.9027265310287476}, "sample_time_ms": 38984.46, "num_steps_trained": 1621200, "num_steps_sampled": 1621200, "update_time_ms": 2.619, "grad_time_ms": 375.976, "load_time_ms": 0.671}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 52670.798402071, "iterations_since_restore": 152, "episode_reward_max": 4.001130557659716, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 116964, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 288, "timestamp": 1757107501, "timesteps_since_restore": 182400, "episode_len_mean": 4.166666666666667, "episode_reward_mean": 3.745877252670029, "pid": 2334309, "time_since_restore": 5951.258961677551, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-25-01", "timesteps_total": 1622400, "episode_reward_min": -18.525811022304822, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.59400391578674, "training_iteration": 1352, "info": {"default": {"policy_loss": -0.04611425846815109, "vf_explained_var": 0.7151194214820862, "vf_loss": 3.3119328022003174, "kl": 0.00847551692277193, "entropy": -0.4165327847003937, "cur_kl_coeff": 2.1624388694763184, "cur_lr": 4.999999873689376e-05, "total_loss": 3.2841460704803467}, "sample_time_ms": 39287.882, "num_steps_trained": 1622400, "num_steps_sampled": 1622400, "update_time_ms": 2.625, "grad_time_ms": 376.396, "load_time_ms": 0.676}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 52710.143995285034, "iterations_since_restore": 153, "episode_reward_max": 4.006703793796284, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 117255, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757107540, "timesteps_since_restore": 183600, "episode_len_mean": 4.120274914089347, "episode_reward_mean": 3.813550816028777, "pid": 2334309, "time_since_restore": 5990.604554891586, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-25-40", "timesteps_total": 1623600, "episode_reward_min": -23.100459027319886, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.345593214035034, "training_iteration": 1353, "info": {"default": {"policy_loss": -0.03314824402332306, "vf_explained_var": 0.7751942276954651, "vf_loss": 2.6210062503814697, "kl": 0.006087943911552429, "entropy": -0.4926237463951111, "cur_kl_coeff": 2.1624388694763184, "cur_lr": 4.999999873689376e-05, "total_loss": 2.601022720336914}, "sample_time_ms": 39362.312, "num_steps_trained": 1623600, "num_steps_sampled": 1623600, "update_time_ms": 2.626, "grad_time_ms": 374.282, "load_time_ms": 0.671}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 52749.212807416916, "iterations_since_restore": 154, "episode_reward_max": 4.001961928251676, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 117540, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 285, "timestamp": 1757107579, "timesteps_since_restore": 184800, "episode_len_mean": 4.207017543859649, "episode_reward_mean": 3.6757527745242817, "pid": 2334309, "time_since_restore": 6029.673367023468, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-26-19", "timesteps_total": 1624800, "episode_reward_min": -25.83143699402337, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.068812131881714, "training_iteration": 1354, "info": {"default": {"policy_loss": -0.04720569774508476, "vf_explained_var": 0.6387039422988892, "vf_loss": 6.340426921844482, "kl": 0.01286298781633377, "entropy": -0.37502479553222656, "cur_kl_coeff": 2.1624388694763184, "cur_lr": 4.999999873689376e-05, "total_loss": 6.321037292480469}, "sample_time_ms": 39384.995, "num_steps_trained": 1624800, "num_steps_sampled": 1624800, "update_time_ms": 2.671, "grad_time_ms": 374.384, "load_time_ms": 0.665}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 52790.33442544937, "iterations_since_restore": 155, "episode_reward_max": 4.001945587364709, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 117814, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 274, "timestamp": 1757107620, "timesteps_since_restore": 186000, "episode_len_mean": 4.368613138686132, "episode_reward_mean": 3.430270966609584, "pid": 2334309, "time_since_restore": 6070.7949850559235, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-27-00", "timesteps_total": 1626000, "episode_reward_min": -57.44260311166404, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.121618032455444, "training_iteration": 1355, "info": {"default": {"policy_loss": -0.05891956761479378, "vf_explained_var": 0.5249834060668945, "vf_loss": 30.313209533691406, "kl": 0.012308265082538128, "entropy": 0.001731912256218493, "cur_kl_coeff": 2.1624388694763184, "cur_lr": 4.999999873689376e-05, "total_loss": 30.28090476989746}, "sample_time_ms": 39725.385, "num_steps_trained": 1626000, "num_steps_sampled": 1626000, "update_time_ms": 2.696, "grad_time_ms": 374.22, "load_time_ms": 0.666}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 52830.84785199165, "iterations_since_restore": 156, "episode_reward_max": 4.001550427506314, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 118078, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 264, "timestamp": 1757107661, "timesteps_since_restore": 187200, "episode_len_mean": 4.5643939393939394, "episode_reward_mean": 3.125324220551146, "pid": 2334309, "time_since_restore": 6111.308411598206, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-27-41", "timesteps_total": 1627200, "episode_reward_min": -39.4807544569005, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.513426542282104, "training_iteration": 1356, "info": {"default": {"policy_loss": -0.06632275879383087, "vf_explained_var": 0.5241951942443848, "vf_loss": 19.392234802246094, "kl": 0.0127052441239357, "entropy": 0.5477982759475708, "cur_kl_coeff": 2.1624388694763184, "cur_lr": 4.999999873689376e-05, "total_loss": 19.3533878326416}, "sample_time_ms": 39904.479, "num_steps_trained": 1627200, "num_steps_sampled": 1627200, "update_time_ms": 2.725, "grad_time_ms": 372.395, "load_time_ms": 0.667}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 52870.50542521477, "iterations_since_restore": 157, "episode_reward_max": 4.001403334662066, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 118373, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757107701, "timesteps_since_restore": 188400, "episode_len_mean": 4.071186440677966, "episode_reward_mean": 3.894333403083862, "pid": 2334309, "time_since_restore": 6150.96598482132, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-28-21", "timesteps_total": 1628400, "episode_reward_min": -11.325873838934264, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.657573223114014, "training_iteration": 1357, "info": {"default": {"policy_loss": -0.04379688948392868, "vf_explained_var": 0.7552006244659424, "vf_loss": 2.0998988151550293, "kl": 0.015971699729561806, "entropy": -0.594768226146698, "cur_kl_coeff": 2.1624388694763184, "cur_lr": 4.999999873689376e-05, "total_loss": 2.090640068054199}, "sample_time_ms": 39962.518, "num_steps_trained": 1628400, "num_steps_sampled": 1628400, "update_time_ms": 2.708, "grad_time_ms": 371.799, "load_time_ms": 0.666}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 52909.99989724159, "iterations_since_restore": 158, "episode_reward_max": 4.001612341753956, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 118663, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 290, "timestamp": 1757107740, "timesteps_since_restore": 189600, "episode_len_mean": 4.13103448275862, "episode_reward_mean": 3.794064134254215, "pid": 2334309, "time_since_restore": 6190.4604568481445, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-29-00", "timesteps_total": 1629600, "episode_reward_min": -16.99232472671937, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.49447202682495, "training_iteration": 1358, "info": {"default": {"policy_loss": -0.05063984915614128, "vf_explained_var": 0.7352583408355713, "vf_loss": 2.992868423461914, "kl": 0.004386902786791325, "entropy": -0.6489397287368774, "cur_kl_coeff": 2.1624388694763184, "cur_lr": 4.999999873689376e-05, "total_loss": 2.9517149925231934}, "sample_time_ms": 39970.301, "num_steps_trained": 1629600, "num_steps_sampled": 1629600, "update_time_ms": 2.753, "grad_time_ms": 371.821, "load_time_ms": 0.674}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 52950.68886303902, "iterations_since_restore": 159, "episode_reward_max": 4.000933093590318, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 118959, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757107781, "timesteps_since_restore": 190800, "episode_len_mean": 4.0608108108108105, "episode_reward_mean": 3.905986258881268, "pid": 2334309, "time_since_restore": 6231.149422645569, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-29-41", "timesteps_total": 1630800, "episode_reward_min": -9.87961203028275, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.688965797424316, "training_iteration": 1359, "info": {"default": {"policy_loss": -0.04965360835194588, "vf_explained_var": 0.8435572981834412, "vf_loss": 1.0878621339797974, "kl": 0.011160874739289284, "entropy": -0.7276782989501953, "cur_kl_coeff": 1.0812194347381592, "cur_lr": 4.999999873689376e-05, "total_loss": 1.0502759218215942}, "sample_time_ms": 40192.409, "num_steps_trained": 1630800, "num_steps_sampled": 1630800, "update_time_ms": 2.74, "grad_time_ms": 369.93, "load_time_ms": 0.673}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 52990.52747297287, "iterations_since_restore": 160, "episode_reward_max": 4.001075293538697, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 119255, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757107821, "timesteps_since_restore": 192000, "episode_len_mean": 4.0574324324324325, "episode_reward_mean": 3.91099340777032, "pid": 2334309, "time_since_restore": 6270.988032579422, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-30-21", "timesteps_total": 1632000, "episode_reward_min": -11.339161722459355, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.83860993385315, "training_iteration": 1360, "info": {"default": {"policy_loss": -0.049068838357925415, "vf_explained_var": 0.8611826300621033, "vf_loss": 0.9544947147369385, "kl": 0.022402919828891754, "entropy": -0.7728297710418701, "cur_kl_coeff": 1.0812194347381592, "cur_lr": 4.999999873689376e-05, "total_loss": 0.9296483993530273}, "sample_time_ms": 40223.621, "num_steps_trained": 1632000, "num_steps_sampled": 1632000, "update_time_ms": 2.721, "grad_time_ms": 368.501, "load_time_ms": 0.672}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 53029.78206324577, "iterations_since_restore": 161, "episode_reward_max": 4.001539311810788, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 119542, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 287, "timestamp": 1757107860, "timesteps_since_restore": 193200, "episode_len_mean": 4.160278745644599, "episode_reward_mean": 3.7540775565336006, "pid": 2334309, "time_since_restore": 6310.242622852325, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-31-00", "timesteps_total": 1633200, "episode_reward_min": -20.300019430884113, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.25459027290344, "training_iteration": 1361, "info": {"default": {"policy_loss": -0.04769396781921387, "vf_explained_var": 0.6811901330947876, "vf_loss": 4.248560428619385, "kl": 0.008357509039342403, "entropy": -0.5042393207550049, "cur_kl_coeff": 1.6218292713165283, "cur_lr": 4.999999873689376e-05, "total_loss": 4.214421272277832}, "sample_time_ms": 39680.877, "num_steps_trained": 1633200, "num_steps_sampled": 1633200, "update_time_ms": 2.692, "grad_time_ms": 367.327, "load_time_ms": 0.669}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 53069.76068663597, "iterations_since_restore": 162, "episode_reward_max": 4.002021313781001, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 119836, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757107900, "timesteps_since_restore": 194400, "episode_len_mean": 4.085034013605442, "episode_reward_mean": 3.864171910449902, "pid": 2334309, "time_since_restore": 6350.221246242523, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-31-40", "timesteps_total": 1634400, "episode_reward_min": -21.399076921994197, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.978623390197754, "training_iteration": 1362, "info": {"default": {"policy_loss": -0.0435640811920166, "vf_explained_var": 0.7393613457679749, "vf_loss": 2.7458620071411133, "kl": 0.010579230263829231, "entropy": -0.7529755234718323, "cur_kl_coeff": 1.6218292713165283, "cur_lr": 4.999999873689376e-05, "total_loss": 2.7194552421569824}, "sample_time_ms": 39519.929, "num_steps_trained": 1634400, "num_steps_sampled": 1634400, "update_time_ms": 2.711, "grad_time_ms": 366.689, "load_time_ms": 0.667}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 53109.39044690132, "iterations_since_restore": 163, "episode_reward_max": 4.001411000509101, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 120133, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757107940, "timesteps_since_restore": 195600, "episode_len_mean": 4.040404040404041, "episode_reward_mean": 3.9384339352657776, "pid": 2334309, "time_since_restore": 6389.8510065078735, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-32-20", "timesteps_total": 1635600, "episode_reward_min": -8.358922026294028, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.62976026535034, "training_iteration": 1363, "info": {"default": {"policy_loss": -0.05147209390997887, "vf_explained_var": 0.9064385294914246, "vf_loss": 0.6408126354217529, "kl": 0.013910826295614243, "entropy": -0.8353760838508606, "cur_kl_coeff": 1.6218292713165283, "cur_lr": 4.999999873689376e-05, "total_loss": 0.6119015216827393}, "sample_time_ms": 39546.822, "num_steps_trained": 1635600, "num_steps_sampled": 1635600, "update_time_ms": 2.731, "grad_time_ms": 368.214, "load_time_ms": 0.666}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 53148.995198726654, "iterations_since_restore": 164, "episode_reward_max": 4.00171089485095, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 120428, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757107979, "timesteps_since_restore": 196800, "episode_len_mean": 4.030508474576271, "episode_reward_mean": 3.9507897518415067, "pid": 2334309, "time_since_restore": 6429.455758333206, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-32-59", "timesteps_total": 1636800, "episode_reward_min": -5.65530501910337, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.60475182533264, "training_iteration": 1364, "info": {"default": {"policy_loss": -0.043948352336883545, "vf_explained_var": 0.8333761096000671, "vf_loss": 2.8600940704345703, "kl": 0.003587464103475213, "entropy": -0.6985123157501221, "cur_kl_coeff": 1.6218292713165283, "cur_lr": 4.999999873689376e-05, "total_loss": 2.8219637870788574}, "sample_time_ms": 39599.127, "num_steps_trained": 1636800, "num_steps_sampled": 1636800, "update_time_ms": 2.69, "grad_time_ms": 369.545, "load_time_ms": 0.666}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 53188.662373542786, "iterations_since_restore": 165, "episode_reward_max": 4.0008671829279026, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 120717, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 289, "timestamp": 1757108019, "timesteps_since_restore": 198000, "episode_len_mean": 4.173010380622838, "episode_reward_mean": 3.7312329648992564, "pid": 2334309, "time_since_restore": 6469.122933149338, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-33-39", "timesteps_total": 1638000, "episode_reward_min": -27.149573420978953, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.66717481613159, "training_iteration": 1365, "info": {"default": {"policy_loss": -0.06313852965831757, "vf_explained_var": 0.758682131767273, "vf_loss": 2.473036050796509, "kl": 0.016897082328796387, "entropy": -0.5230140686035156, "cur_kl_coeff": 0.8109146356582642, "cur_lr": 4.999999873689376e-05, "total_loss": 2.4235994815826416}, "sample_time_ms": 39455.162, "num_steps_trained": 1638000, "num_steps_sampled": 1638000, "update_time_ms": 2.649, "grad_time_ms": 368.173, "load_time_ms": 0.665}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 53228.876478910446, "iterations_since_restore": 166, "episode_reward_max": 4.002067613784664, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 121005, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 288, "timestamp": 1757108059, "timesteps_since_restore": 199200, "episode_len_mean": 4.166666666666667, "episode_reward_mean": 3.738081296250758, "pid": 2334309, "time_since_restore": 6509.337038516998, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-34-19", "timesteps_total": 1639200, "episode_reward_min": -15.904673199270142, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.21410536766052, "training_iteration": 1366, "info": {"default": {"policy_loss": -0.05565594881772995, "vf_explained_var": 0.6265950202941895, "vf_loss": 4.531671524047852, "kl": 0.03462284803390503, "entropy": -0.6002200841903687, "cur_kl_coeff": 0.8109146356582642, "cur_lr": 4.999999873689376e-05, "total_loss": 4.504091262817383}, "sample_time_ms": 39423.517, "num_steps_trained": 1639200, "num_steps_sampled": 1639200, "update_time_ms": 2.622, "grad_time_ms": 369.93, "load_time_ms": 0.654}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 53268.63812208176, "iterations_since_restore": 167, "episode_reward_max": 4.001005362899447, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 121297, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757108099, "timesteps_since_restore": 200400, "episode_len_mean": 4.123287671232877, "episode_reward_mean": 3.812847867795009, "pid": 2334309, "time_since_restore": 6549.098681688309, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-34-59", "timesteps_total": 1640400, "episode_reward_min": -30.507660284346237, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.761643171310425, "training_iteration": 1367, "info": {"default": {"policy_loss": -0.04096836596727371, "vf_explained_var": 0.8316716551780701, "vf_loss": 2.0041117668151855, "kl": 0.007890782319009304, "entropy": -0.5698299407958984, "cur_kl_coeff": 1.2163718938827515, "cur_lr": 4.999999873689376e-05, "total_loss": 1.9727414846420288}, "sample_time_ms": 39435.679, "num_steps_trained": 1640400, "num_steps_sampled": 1640400, "update_time_ms": 2.593, "grad_time_ms": 368.288, "load_time_ms": 0.653}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 53308.31412267685, "iterations_since_restore": 168, "episode_reward_max": 4.001273324012102, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 121589, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757108139, "timesteps_since_restore": 201600, "episode_len_mean": 4.126712328767123, "episode_reward_mean": 3.7961581977950147, "pid": 2334309, "time_since_restore": 6588.7746822834015, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-35-39", "timesteps_total": 1641600, "episode_reward_min": -40.48605437745642, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.67600059509277, "training_iteration": 1368, "info": {"default": {"policy_loss": -0.05801453813910484, "vf_explained_var": 0.7010079622268677, "vf_loss": 6.502936363220215, "kl": 0.008253063075244427, "entropy": -0.6677228808403015, "cur_kl_coeff": 1.2163718938827515, "cur_lr": 4.999999873689376e-05, "total_loss": 6.454960823059082}, "sample_time_ms": 39452.323, "num_steps_trained": 1641600, "num_steps_sampled": 1641600, "update_time_ms": 2.537, "grad_time_ms": 369.707, "load_time_ms": 0.648}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 53347.3459982872, "iterations_since_restore": 169, "episode_reward_max": 4.001386946396571, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 121886, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757108178, "timesteps_since_restore": 202800, "episode_len_mean": 4.033670033670034, "episode_reward_mean": 3.9492156034172146, "pid": 2334309, "time_since_restore": 6627.806557893753, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-36-18", "timesteps_total": 1642800, "episode_reward_min": -11.179097117027816, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.03187561035156, "training_iteration": 1369, "info": {"default": {"policy_loss": -0.04204396903514862, "vf_explained_var": 0.9253365397453308, "vf_loss": 0.7197777032852173, "kl": 0.006834415718913078, "entropy": -0.7907408475875854, "cur_kl_coeff": 1.2163718938827515, "cur_lr": 4.999999873689376e-05, "total_loss": 0.686046838760376}, "sample_time_ms": 39285.243, "num_steps_trained": 1642800, "num_steps_sampled": 1642800, "update_time_ms": 2.61, "grad_time_ms": 370.972, "load_time_ms": 0.645}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 53387.453793764114, "iterations_since_restore": 170, "episode_reward_max": 4.000829278713715, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 122177, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757108218, "timesteps_since_restore": 204000, "episode_len_mean": 4.13745704467354, "episode_reward_mean": 3.780992578697343, "pid": 2334309, "time_since_restore": 6667.9143533706665, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-36-58", "timesteps_total": 1644000, "episode_reward_min": -13.145048983385479, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.10779547691345, "training_iteration": 1370, "info": {"default": {"policy_loss": -0.05532360076904297, "vf_explained_var": 0.7861341834068298, "vf_loss": 2.1494674682617188, "kl": 0.011824254877865314, "entropy": -0.5554277896881104, "cur_kl_coeff": 1.2163718938827515, "cur_lr": 4.999999873689376e-05, "total_loss": 2.1085269451141357}, "sample_time_ms": 39311.201, "num_steps_trained": 1644000, "num_steps_sampled": 1644000, "update_time_ms": 2.619, "grad_time_ms": 371.968, "load_time_ms": 0.664}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 53426.99702477455, "iterations_since_restore": 171, "episode_reward_max": 4.0008114264596735, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 122462, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 285, "timestamp": 1757108257, "timesteps_since_restore": 205200, "episode_len_mean": 4.2, "episode_reward_mean": 3.6772217167266525, "pid": 2334309, "time_since_restore": 6707.4575843811035, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-37-37", "timesteps_total": 1645200, "episode_reward_min": -39.72648844385994, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.54323101043701, "training_iteration": 1371, "info": {"default": {"policy_loss": -0.04688241705298424, "vf_explained_var": 0.6261416673660278, "vf_loss": 11.212739944458008, "kl": 0.012345588766038418, "entropy": -0.37722912430763245, "cur_kl_coeff": 1.2163718938827515, "cur_lr": 4.999999873689376e-05, "total_loss": 11.18087387084961}, "sample_time_ms": 39337.747, "num_steps_trained": 1645200, "num_steps_sampled": 1645200, "update_time_ms": 2.606, "grad_time_ms": 374.254, "load_time_ms": 0.676}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 53466.655626773834, "iterations_since_restore": 172, "episode_reward_max": 4.000724758950523, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 122758, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757108297, "timesteps_since_restore": 206400, "episode_len_mean": 4.047297297297297, "episode_reward_mean": 3.9290716312557135, "pid": 2334309, "time_since_restore": 6747.116186380386, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-38-17", "timesteps_total": 1646400, "episode_reward_min": -17.089005526093064, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.65860199928284, "training_iteration": 1372, "info": {"default": {"policy_loss": -0.02976217120885849, "vf_explained_var": 0.865898609161377, "vf_loss": 1.650893211364746, "kl": 0.003893062472343445, "entropy": -0.808465301990509, "cur_kl_coeff": 1.2163718938827515, "cur_lr": 4.999999873689376e-05, "total_loss": 1.625866413116455}, "sample_time_ms": 39305.592, "num_steps_trained": 1646400, "num_steps_sampled": 1646400, "update_time_ms": 2.573, "grad_time_ms": 374.421, "load_time_ms": 0.67}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 53506.62865400314, "iterations_since_restore": 173, "episode_reward_max": 4.0017188221876845, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 123045, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 287, "timestamp": 1757108337, "timesteps_since_restore": 207600, "episode_len_mean": 4.174216027874564, "episode_reward_mean": 3.7306439869677415, "pid": 2334309, "time_since_restore": 6787.089213609695, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-38-57", "timesteps_total": 1647600, "episode_reward_min": -25.091411396147585, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.97302722930908, "training_iteration": 1373, "info": {"default": {"policy_loss": -0.04333006218075752, "vf_explained_var": 0.810102105140686, "vf_loss": 2.9199037551879883, "kl": 0.017115138471126556, "entropy": -0.46955808997154236, "cur_kl_coeff": 0.6081859469413757, "cur_lr": 4.999999873689376e-05, "total_loss": 2.8869829177856445}, "sample_time_ms": 39339.291, "num_steps_trained": 1647600, "num_steps_sampled": 1647600, "update_time_ms": 2.535, "grad_time_ms": 375.011, "load_time_ms": 0.678}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 53545.881814956665, "iterations_since_restore": 174, "episode_reward_max": 4.001815279277036, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 123340, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757108376, "timesteps_since_restore": 208800, "episode_len_mean": 4.067796610169491, "episode_reward_mean": 3.897218347353498, "pid": 2334309, "time_since_restore": 6826.342374563217, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-39-36", "timesteps_total": 1648800, "episode_reward_min": -14.526323294496414, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.25316095352173, "training_iteration": 1374, "info": {"default": {"policy_loss": -0.04755715653300285, "vf_explained_var": 0.8570488095283508, "vf_loss": 1.1837114095687866, "kl": 0.011884653940796852, "entropy": -0.6603955626487732, "cur_kl_coeff": 0.6081859469413757, "cur_lr": 4.999999873689376e-05, "total_loss": 1.1433823108673096}, "sample_time_ms": 39303.471, "num_steps_trained": 1648800, "num_steps_sampled": 1648800, "update_time_ms": 2.522, "grad_time_ms": 375.669, "load_time_ms": 0.68}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 53585.91195726395, "iterations_since_restore": 175, "episode_reward_max": 4.001875243710457, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 123633, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 293, "timestamp": 1757108416, "timesteps_since_restore": 210000, "episode_len_mean": 4.071672354948806, "episode_reward_mean": 3.889932561602416, "pid": 2334309, "time_since_restore": 6866.372516870499, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-40-16", "timesteps_total": 1650000, "episode_reward_min": -7.981931587018671, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.030142307281494, "training_iteration": 1375, "info": {"default": {"policy_loss": -0.046078555285930634, "vf_explained_var": 0.74934321641922, "vf_loss": 2.6449785232543945, "kl": 0.04225558042526245, "entropy": -0.7690642476081848, "cur_kl_coeff": 0.6081859469413757, "cur_lr": 4.999999873689376e-05, "total_loss": 2.624598741531372}, "sample_time_ms": 39336.113, "num_steps_trained": 1650000, "num_steps_sampled": 1650000, "update_time_ms": 2.538, "grad_time_ms": 379.269, "load_time_ms": 0.692}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 53625.65307688713, "iterations_since_restore": 176, "episode_reward_max": 4.001646075770493, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 123917, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 284, "timestamp": 1757108456, "timesteps_since_restore": 211200, "episode_len_mean": 4.253521126760563, "episode_reward_mean": 3.616161956738984, "pid": 2334309, "time_since_restore": 6906.113636493683, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-40-56", "timesteps_total": 1651200, "episode_reward_min": -27.511485159953644, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.741119623184204, "training_iteration": 1376, "info": {"default": {"policy_loss": -0.04894383251667023, "vf_explained_var": 0.6037940979003906, "vf_loss": 6.9622721672058105, "kl": 0.029539095237851143, "entropy": -0.3187791109085083, "cur_kl_coeff": 0.9122788906097412, "cur_lr": 4.999999873689376e-05, "total_loss": 6.940276145935059}, "sample_time_ms": 39290.647, "num_steps_trained": 1651200, "num_steps_sampled": 1651200, "update_time_ms": 2.588, "grad_time_ms": 377.391, "load_time_ms": 0.693}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 53665.3698079586, "iterations_since_restore": 177, "episode_reward_max": 4.001205242974805, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 124210, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 293, "timestamp": 1757108496, "timesteps_since_restore": 212400, "episode_len_mean": 4.102389078498294, "episode_reward_mean": 3.8365255020838456, "pid": 2334309, "time_since_restore": 6945.830367565155, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-41-36", "timesteps_total": 1652400, "episode_reward_min": -11.542891327855475, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.71673107147217, "training_iteration": 1377, "info": {"default": {"policy_loss": -0.036575719714164734, "vf_explained_var": 0.7598140239715576, "vf_loss": 2.0526998043060303, "kl": 0.01026962697505951, "entropy": -0.7183577418327332, "cur_kl_coeff": 1.3684184551239014, "cur_lr": 4.999999873689376e-05, "total_loss": 2.030177116394043}, "sample_time_ms": 39284.992, "num_steps_trained": 1652400, "num_steps_sampled": 1652400, "update_time_ms": 2.584, "grad_time_ms": 378.532, "load_time_ms": 0.697}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 53705.36302471161, "iterations_since_restore": 178, "episode_reward_max": 4.0010083332949495, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 124505, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757108536, "timesteps_since_restore": 213600, "episode_len_mean": 4.071186440677966, "episode_reward_mean": 3.889117872744373, "pid": 2334309, "time_since_restore": 6985.823584318161, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-42-16", "timesteps_total": 1653600, "episode_reward_min": -6.914649286991494, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.99321675300598, "training_iteration": 1378, "info": {"default": {"policy_loss": -0.04695291072130203, "vf_explained_var": 0.8355960845947266, "vf_loss": 1.1185153722763062, "kl": 0.012333257123827934, "entropy": -0.6999411582946777, "cur_kl_coeff": 1.3684184551239014, "cur_lr": 4.999999873689376e-05, "total_loss": 1.0884394645690918}, "sample_time_ms": 39316.988, "num_steps_trained": 1653600, "num_steps_sampled": 1653600, "update_time_ms": 2.62, "grad_time_ms": 378.361, "load_time_ms": 0.699}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 53744.81266641617, "iterations_since_restore": 179, "episode_reward_max": 4.001250126510493, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 124798, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 293, "timestamp": 1757108575, "timesteps_since_restore": 214800, "episode_len_mean": 4.1058020477815695, "episode_reward_mean": 3.8374899246990215, "pid": 2334309, "time_since_restore": 7025.27322602272, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-42-55", "timesteps_total": 1654800, "episode_reward_min": -25.279956287312253, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.449641704559326, "training_iteration": 1379, "info": {"default": {"policy_loss": -0.040969304740428925, "vf_explained_var": 0.6918768286705017, "vf_loss": 4.327630519866943, "kl": 0.004419866483658552, "entropy": -0.6365075707435608, "cur_kl_coeff": 1.3684184551239014, "cur_lr": 4.999999873689376e-05, "total_loss": 4.2927093505859375}, "sample_time_ms": 39360.415, "num_steps_trained": 1654800, "num_steps_sampled": 1654800, "update_time_ms": 2.534, "grad_time_ms": 376.835, "load_time_ms": 0.704}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 53784.975268125534, "iterations_since_restore": 180, "episode_reward_max": 4.000712945495593, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 125090, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757108615, "timesteps_since_restore": 216000, "episode_len_mean": 4.0993150684931505, "episode_reward_mean": 3.844499082922353, "pid": 2334309, "time_since_restore": 7065.435827732086, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-43-35", "timesteps_total": 1656000, "episode_reward_min": -41.495006931147586, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.162601709365845, "training_iteration": 1380, "info": {"default": {"policy_loss": -0.039229728281497955, "vf_explained_var": 0.7159140110015869, "vf_loss": 8.677038192749023, "kl": 0.021060792729258537, "entropy": -0.6477174758911133, "cur_kl_coeff": 0.6842092275619507, "cur_lr": 4.999999873689376e-05, "total_loss": 8.65221881866455}, "sample_time_ms": 39366.207, "num_steps_trained": 1656000, "num_steps_sampled": 1656000, "update_time_ms": 2.5, "grad_time_ms": 376.567, "load_time_ms": 0.695}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 53825.43715119362, "iterations_since_restore": 181, "episode_reward_max": 4.0007647186690125, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 125385, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757108656, "timesteps_since_restore": 217200, "episode_len_mean": 4.064406779661017, "episode_reward_mean": 3.9028241158124413, "pid": 2334309, "time_since_restore": 7105.897710800171, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-44-16", "timesteps_total": 1657200, "episode_reward_min": -4.198949581122935, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.46188306808472, "training_iteration": 1381, "info": {"default": {"policy_loss": -0.03486640006303787, "vf_explained_var": 0.8970832824707031, "vf_loss": 0.6490289568901062, "kl": 0.016822166740894318, "entropy": -0.8098139762878418, "cur_kl_coeff": 1.0263137817382812, "cur_lr": 4.999999873689376e-05, "total_loss": 0.6314274072647095}, "sample_time_ms": 39458.411, "num_steps_trained": 1657200, "num_steps_sampled": 1657200, "update_time_ms": 2.578, "grad_time_ms": 376.087, "load_time_ms": 0.694}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 53865.1400103569, "iterations_since_restore": 182, "episode_reward_max": 4.0008847336515085, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 125685, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757108696, "timesteps_since_restore": 218400, "episode_len_mean": 4.0, "episode_reward_mean": 4.0003054995290555, "pid": 2334309, "time_since_restore": 7145.600569963455, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-44-56", "timesteps_total": 1658400, "episode_reward_min": 4.000129115279265, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.7028591632843, "training_iteration": 1382, "info": {"default": {"policy_loss": -0.05868115648627281, "vf_explained_var": 0.9985697865486145, "vf_loss": 0.00763033889234066, "kl": 0.06440810859203339, "entropy": -0.881829023361206, "cur_kl_coeff": 1.0263137817382812, "cur_lr": 4.999999873689376e-05, "total_loss": 0.015052106231451035}, "sample_time_ms": 39461.954, "num_steps_trained": 1658400, "num_steps_sampled": 1658400, "update_time_ms": 2.575, "grad_time_ms": 376.965, "load_time_ms": 0.694}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 53905.72066164017, "iterations_since_restore": 183, "episode_reward_max": 4.001064871282043, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 125980, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757108736, "timesteps_since_restore": 219600, "episode_len_mean": 4.064406779661017, "episode_reward_mean": 3.8993905848620067, "pid": 2334309, "time_since_restore": 7186.181221246719, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-45-36", "timesteps_total": 1659600, "episode_reward_min": -15.683043418641823, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.58065128326416, "training_iteration": 1383, "info": {"default": {"policy_loss": -0.04311549663543701, "vf_explained_var": 0.8020843863487244, "vf_loss": 1.6169514656066895, "kl": 0.008264243602752686, "entropy": -0.6902104616165161, "cur_kl_coeff": 1.5394706726074219, "cur_lr": 4.999999873689376e-05, "total_loss": 1.58655846118927}, "sample_time_ms": 39525.578, "num_steps_trained": 1659600, "num_steps_sampled": 1659600, "update_time_ms": 2.611, "grad_time_ms": 374.181, "load_time_ms": 0.679}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 53945.2684366703, "iterations_since_restore": 184, "episode_reward_max": 4.001637130104101, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 126271, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757108776, "timesteps_since_restore": 220800, "episode_len_mean": 4.096219931271477, "episode_reward_mean": 3.859487939916866, "pid": 2334309, "time_since_restore": 7225.7289962768555, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-46-16", "timesteps_total": 1660800, "episode_reward_min": -26.800919569553187, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.54777503013611, "training_iteration": 1384, "info": {"default": {"policy_loss": -0.04808627441525459, "vf_explained_var": 0.7201911211013794, "vf_loss": 4.612583637237549, "kl": 0.006139342673122883, "entropy": -0.4969693422317505, "cur_kl_coeff": 1.5394706726074219, "cur_lr": 4.999999873689376e-05, "total_loss": 4.573948383331299}, "sample_time_ms": 39555.372, "num_steps_trained": 1660800, "num_steps_sampled": 1660800, "update_time_ms": 2.603, "grad_time_ms": 373.697, "load_time_ms": 0.69}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 53984.87717819214, "iterations_since_restore": 185, "episode_reward_max": 4.001146318751637, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 126560, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 289, "timestamp": 1757108816, "timesteps_since_restore": 222000, "episode_len_mean": 4.173010380622838, "episode_reward_mean": 3.734467383754039, "pid": 2334309, "time_since_restore": 7265.337737798691, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-46-56", "timesteps_total": 1662000, "episode_reward_min": -32.42343180861484, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.60874152183533, "training_iteration": 1385, "info": {"default": {"policy_loss": -0.0426652692258358, "vf_explained_var": 0.8193411827087402, "vf_loss": 1.9320117235183716, "kl": 0.01527542993426323, "entropy": -0.5376047492027283, "cur_kl_coeff": 1.5394706726074219, "cur_lr": 4.999999873689376e-05, "total_loss": 1.9128625392913818}, "sample_time_ms": 39515.721, "num_steps_trained": 1662000, "num_steps_sampled": 1662000, "update_time_ms": 2.647, "grad_time_ms": 371.137, "load_time_ms": 0.676}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 54024.699187517166, "iterations_since_restore": 186, "episode_reward_max": 4.00113280984878, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 126837, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 277, "timestamp": 1757108855, "timesteps_since_restore": 223200, "episode_len_mean": 4.342960288808665, "episode_reward_mean": 3.4619956660766955, "pid": 2334309, "time_since_restore": 7305.159747123718, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-47-35", "timesteps_total": 1663200, "episode_reward_min": -62.46240595904156, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.822009325027466, "training_iteration": 1386, "info": {"default": {"policy_loss": -0.06804636120796204, "vf_explained_var": 0.5107661485671997, "vf_loss": 35.117408752441406, "kl": 0.013852331787347794, "entropy": -0.06298629939556122, "cur_kl_coeff": 1.5394706726074219, "cur_lr": 4.999999873689376e-05, "total_loss": 35.07068634033203}, "sample_time_ms": 39521.635, "num_steps_trained": 1663200, "num_steps_sampled": 1663200, "update_time_ms": 2.615, "grad_time_ms": 373.244, "load_time_ms": 0.679}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 54063.57358336449, "iterations_since_restore": 187, "episode_reward_max": 4.001058386470341, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 127120, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 283, "timestamp": 1757108894, "timesteps_since_restore": 224400, "episode_len_mean": 4.15547703180212, "episode_reward_mean": 3.7518521756132763, "pid": 2334309, "time_since_restore": 7344.034142971039, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-48-14", "timesteps_total": 1664400, "episode_reward_min": -28.647445169995223, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.87439584732056, "training_iteration": 1387, "info": {"default": {"policy_loss": -0.07170048356056213, "vf_explained_var": 0.7070344090461731, "vf_loss": 10.473855018615723, "kl": 0.01565193384885788, "entropy": -0.36640357971191406, "cur_kl_coeff": 1.5394706726074219, "cur_lr": 4.999999873689376e-05, "total_loss": 10.426250457763672}, "sample_time_ms": 39437.811, "num_steps_trained": 1664400, "num_steps_sampled": 1664400, "update_time_ms": 2.717, "grad_time_ms": 372.667, "load_time_ms": 0.68}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 54103.127681970596, "iterations_since_restore": 188, "episode_reward_max": 4.001192453298083, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 127419, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757108934, "timesteps_since_restore": 225600, "episode_len_mean": 4.090301003344481, "episode_reward_mean": 3.8553249632463817, "pid": 2334309, "time_since_restore": 7383.588241577148, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-48-54", "timesteps_total": 1665600, "episode_reward_min": -35.18090901309829, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.55409860610962, "training_iteration": 1388, "info": {"default": {"policy_loss": -0.05433521792292595, "vf_explained_var": 0.9578665494918823, "vf_loss": 0.24090787768363953, "kl": 0.01570720225572586, "entropy": -0.8414437174797058, "cur_kl_coeff": 1.5394706726074219, "cur_lr": 4.999999873689376e-05, "total_loss": 0.2107534259557724}, "sample_time_ms": 39392.232, "num_steps_trained": 1665600, "num_steps_sampled": 1665600, "update_time_ms": 2.711, "grad_time_ms": 374.29, "load_time_ms": 0.688}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 54142.53109097481, "iterations_since_restore": 189, "episode_reward_max": 4.002270444330598, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 127711, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757108973, "timesteps_since_restore": 226800, "episode_len_mean": 4.109589041095891, "episode_reward_mean": 3.831139366077638, "pid": 2334309, "time_since_restore": 7422.99165058136, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-49-33", "timesteps_total": 1666800, "episode_reward_min": -35.3281728609199, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.403409004211426, "training_iteration": 1389, "info": {"default": {"policy_loss": -0.03439682349562645, "vf_explained_var": 0.6548698544502258, "vf_loss": 7.080784320831299, "kl": 0.011339455842971802, "entropy": -0.6625034809112549, "cur_kl_coeff": 1.5394706726074219, "cur_lr": 4.999999873689376e-05, "total_loss": 7.063844680786133}, "sample_time_ms": 39384.451, "num_steps_trained": 1666800, "num_steps_sampled": 1666800, "update_time_ms": 2.768, "grad_time_ms": 377.383, "load_time_ms": 0.693}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 54182.248175144196, "iterations_since_restore": 190, "episode_reward_max": 4.002047833208524, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 128006, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757109013, "timesteps_since_restore": 228000, "episode_len_mean": 4.071186440677966, "episode_reward_mean": 3.8914781502217304, "pid": 2334309, "time_since_restore": 7462.708734750748, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-50-13", "timesteps_total": 1668000, "episode_reward_min": -10.145113512386885, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.71708416938782, "training_iteration": 1390, "info": {"default": {"policy_loss": -0.03829721733927727, "vf_explained_var": 0.7368972301483154, "vf_loss": 2.032075881958008, "kl": 0.008101176470518112, "entropy": -0.7852159738540649, "cur_kl_coeff": 1.5394706726074219, "cur_lr": 4.999999873689376e-05, "total_loss": 2.0062501430511475}, "sample_time_ms": 39339.094, "num_steps_trained": 1668000, "num_steps_sampled": 1668000, "update_time_ms": 2.785, "grad_time_ms": 378.126, "load_time_ms": 0.695}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 54221.543617248535, "iterations_since_restore": 191, "episode_reward_max": 4.000861419773162, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 128303, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757109052, "timesteps_since_restore": 229200, "episode_len_mean": 4.016835016835016, "episode_reward_mean": 3.9799125837708913, "pid": 2334309, "time_since_restore": 7502.004176855087, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-50-52", "timesteps_total": 1669200, "episode_reward_min": -0.02320690644181589, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.2954421043396, "training_iteration": 1391, "info": {"default": {"policy_loss": -0.033613115549087524, "vf_explained_var": 0.7767579555511475, "vf_loss": 1.8089041709899902, "kl": 0.015128778293728828, "entropy": -0.807732343673706, "cur_kl_coeff": 1.5394706726074219, "cur_lr": 4.999999873689376e-05, "total_loss": 1.7985814809799194}, "sample_time_ms": 39222.891, "num_steps_trained": 1669200, "num_steps_sampled": 1669200, "update_time_ms": 2.74, "grad_time_ms": 377.793, "load_time_ms": 0.684}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 54260.77665257454, "iterations_since_restore": 192, "episode_reward_max": 4.000967535980093, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 128590, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 287, "timestamp": 1757109092, "timesteps_since_restore": 230400, "episode_len_mean": 4.198606271777003, "episode_reward_mean": 3.694014497832212, "pid": 2334309, "time_since_restore": 7541.237212181091, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-51-32", "timesteps_total": 1670400, "episode_reward_min": -43.769010547492, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.23303532600403, "training_iteration": 1392, "info": {"default": {"policy_loss": -0.043400008231401443, "vf_explained_var": 0.592819094657898, "vf_loss": 12.429213523864746, "kl": 0.01308800745755434, "entropy": -0.442421555519104, "cur_kl_coeff": 1.5394706726074219, "cur_lr": 4.999999873689376e-05, "total_loss": 12.405962944030762}, "sample_time_ms": 39175.352, "num_steps_trained": 1670400, "num_steps_sampled": 1670400, "update_time_ms": 2.763, "grad_time_ms": 378.337, "load_time_ms": 0.683}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 54300.584667921066, "iterations_since_restore": 193, "episode_reward_max": 4.000935378014908, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 128877, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 287, "timestamp": 1757109131, "timesteps_since_restore": 231600, "episode_len_mean": 4.177700348432055, "episode_reward_mean": 3.7301469748719005, "pid": 2334309, "time_since_restore": 7581.045227527618, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-52-11", "timesteps_total": 1671600, "episode_reward_min": -15.46578651744976, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.8080153465271, "training_iteration": 1393, "info": {"default": {"policy_loss": -0.05229765549302101, "vf_explained_var": 0.6418642401695251, "vf_loss": 3.704522132873535, "kl": 0.014142315834760666, "entropy": -0.5468661189079285, "cur_kl_coeff": 1.5394706726074219, "cur_lr": 4.999999873689376e-05, "total_loss": 3.6739959716796875}, "sample_time_ms": 39097.878, "num_steps_trained": 1671600, "num_steps_sampled": 1671600, "update_time_ms": 2.761, "grad_time_ms": 378.563, "load_time_ms": 0.687}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 54340.75414085388, "iterations_since_restore": 194, "episode_reward_max": 4.000929267381869, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 129172, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757109172, "timesteps_since_restore": 232800, "episode_len_mean": 4.077966101694916, "episode_reward_mean": 3.8908374374670176, "pid": 2334309, "time_since_restore": 7621.214700460434, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-52-52", "timesteps_total": 1672800, "episode_reward_min": -7.892131595100533, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.16947293281555, "training_iteration": 1394, "info": {"default": {"policy_loss": -0.05047553405165672, "vf_explained_var": 0.8222101926803589, "vf_loss": 1.2832260131835938, "kl": 0.017447737976908684, "entropy": -0.581373929977417, "cur_kl_coeff": 1.5394706726074219, "cur_lr": 4.999999873689376e-05, "total_loss": 1.259610652923584}, "sample_time_ms": 39162.382, "num_steps_trained": 1672800, "num_steps_sampled": 1672800, "update_time_ms": 2.756, "grad_time_ms": 376.349, "load_time_ms": 0.679}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 54380.50521636009, "iterations_since_restore": 195, "episode_reward_max": 4.000971603560425, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 129462, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 290, "timestamp": 1757109211, "timesteps_since_restore": 234000, "episode_len_mean": 4.137931034482759, "episode_reward_mean": 3.7938300221694434, "pid": 2334309, "time_since_restore": 7660.965775966644, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-53-31", "timesteps_total": 1674000, "episode_reward_min": -22.428506640465912, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.75107550621033, "training_iteration": 1395, "info": {"default": {"policy_loss": -0.05185084789991379, "vf_explained_var": 0.7362123131752014, "vf_loss": 3.527894973754883, "kl": 0.007722498849034309, "entropy": -0.45534366369247437, "cur_kl_coeff": 1.5394706726074219, "cur_lr": 4.999999873689376e-05, "total_loss": 3.4879326820373535}, "sample_time_ms": 39176.022, "num_steps_trained": 1674000, "num_steps_sampled": 1674000, "update_time_ms": 2.68, "grad_time_ms": 377.003, "load_time_ms": 0.68}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 54420.42606258392, "iterations_since_restore": 196, "episode_reward_max": 4.001348027721585, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 129755, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 293, "timestamp": 1757109251, "timesteps_since_restore": 235200, "episode_len_mean": 4.1058020477815695, "episode_reward_mean": 3.8382728241780293, "pid": 2334309, "time_since_restore": 7700.8866221904755, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-54-11", "timesteps_total": 1675200, "episode_reward_min": -20.518200313534763, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.92084622383118, "training_iteration": 1396, "info": {"default": {"policy_loss": -0.028644826263189316, "vf_explained_var": 0.688666582107544, "vf_loss": 3.844832420349121, "kl": 0.008921192027628422, "entropy": -0.543971598148346, "cur_kl_coeff": 1.5394706726074219, "cur_lr": 4.999999873689376e-05, "total_loss": 3.8299221992492676}, "sample_time_ms": 39186.323, "num_steps_trained": 1675200, "num_steps_sampled": 1675200, "update_time_ms": 2.679, "grad_time_ms": 376.596, "load_time_ms": 0.674}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 54460.230882167816, "iterations_since_restore": 197, "episode_reward_max": 4.000955013200178, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 130049, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757109291, "timesteps_since_restore": 236400, "episode_len_mean": 4.040816326530612, "episode_reward_mean": 3.938714886565623, "pid": 2334309, "time_since_restore": 7740.691441774368, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-54-51", "timesteps_total": 1676400, "episode_reward_min": -2.046878164673938, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.80481958389282, "training_iteration": 1397, "info": {"default": {"policy_loss": -0.036537054926157, "vf_explained_var": 0.7478847503662109, "vf_loss": 3.3761630058288574, "kl": 0.007730972487479448, "entropy": -0.6387971639633179, "cur_kl_coeff": 1.5394706726074219, "cur_lr": 4.999999873689376e-05, "total_loss": 3.351527690887451}, "sample_time_ms": 39280.623, "num_steps_trained": 1676400, "num_steps_sampled": 1676400, "update_time_ms": 2.644, "grad_time_ms": 375.453, "load_time_ms": 0.677}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 54500.98584365845, "iterations_since_restore": 198, "episode_reward_max": 4.000766560991877, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 130329, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 280, "timestamp": 1757109332, "timesteps_since_restore": 237600, "episode_len_mean": 4.310714285714286, "episode_reward_mean": 3.5141729896638734, "pid": 2334309, "time_since_restore": 7781.446403264999, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-55-32", "timesteps_total": 1677600, "episode_reward_min": -56.73410271762356, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.7549614906311, "training_iteration": 1398, "info": {"default": {"policy_loss": -0.05959523469209671, "vf_explained_var": 0.5265325903892517, "vf_loss": 23.813766479492188, "kl": 0.007665450219064951, "entropy": -0.11784810572862625, "cur_kl_coeff": 1.5394706726074219, "cur_lr": 4.999999873689376e-05, "total_loss": 23.765968322753906}, "sample_time_ms": 39403.92, "num_steps_trained": 1677600, "num_steps_sampled": 1677600, "update_time_ms": 2.615, "grad_time_ms": 372.269, "load_time_ms": 0.665}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 54540.86402583122, "iterations_since_restore": 199, "episode_reward_max": 4.000892335832118, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 130620, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757109372, "timesteps_since_restore": 238800, "episode_len_mean": 4.116838487972508, "episode_reward_mean": 3.824196902877988, "pid": 2334309, "time_since_restore": 7821.324585437775, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-56-12", "timesteps_total": 1678800, "episode_reward_min": -9.713720470077448, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.87818217277527, "training_iteration": 1399, "info": {"default": {"policy_loss": -0.0534178651869297, "vf_explained_var": 0.6491808891296387, "vf_loss": 2.814523220062256, "kl": 0.01818855106830597, "entropy": -0.5331971645355225, "cur_kl_coeff": 1.5394706726074219, "cur_lr": 4.999999873689376e-05, "total_loss": 2.7891058921813965}, "sample_time_ms": 39453.332, "num_steps_trained": 1678800, "num_steps_sampled": 1678800, "update_time_ms": 2.598, "grad_time_ms": 370.355, "load_time_ms": 0.662}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 54580.538269758224, "iterations_since_restore": 200, "episode_reward_max": 4.0008484154802595, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 130906, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 286, "timestamp": 1757109411, "timesteps_since_restore": 240000, "episode_len_mean": 4.2027972027972025, "episode_reward_mean": 3.685592872783671, "pid": 2334309, "time_since_restore": 7860.998829364777, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-56-51", "timesteps_total": 1680000, "episode_reward_min": -27.19887090781107, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.67424392700195, "training_iteration": 1400, "info": {"default": {"policy_loss": -0.04767170175909996, "vf_explained_var": 0.6085447669029236, "vf_loss": 8.023571014404297, "kl": 0.009999356232583523, "entropy": -0.41148579120635986, "cur_kl_coeff": 1.5394706726074219, "cur_lr": 4.999999873689376e-05, "total_loss": 7.991293907165527}, "sample_time_ms": 39450.542, "num_steps_trained": 1680000, "num_steps_sampled": 1680000, "update_time_ms": 2.586, "grad_time_ms": 368.87, "load_time_ms": 0.657}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 54620.54275679588, "iterations_since_restore": 201, "episode_reward_max": 4.0008920101427075, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 131198, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757109452, "timesteps_since_restore": 241200, "episode_len_mean": 4.113013698630137, "episode_reward_mean": 3.8227191801081424, "pid": 2334309, "time_since_restore": 7901.003316402435, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-57-32", "timesteps_total": 1681200, "episode_reward_min": -21.265648567080994, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.00448703765869, "training_iteration": 1401, "info": {"default": {"policy_loss": -0.04255884513258934, "vf_explained_var": 0.770068347454071, "vf_loss": 3.5527515411376953, "kl": 0.0075185876339674, "entropy": -0.6032478213310242, "cur_kl_coeff": 1.5394706726074219, "cur_lr": 4.999999873689376e-05, "total_loss": 3.5217673778533936}, "sample_time_ms": 39523.299, "num_steps_trained": 1681200, "num_steps_sampled": 1681200, "update_time_ms": 2.556, "grad_time_ms": 367.069, "load_time_ms": 0.663}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 54660.51952314377, "iterations_since_restore": 202, "episode_reward_max": 4.000869111728761, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 131496, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757109492, "timesteps_since_restore": 242400, "episode_len_mean": 4.033557046979865, "episode_reward_mean": 3.9494354086961634, "pid": 2334309, "time_since_restore": 7940.98008275032, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-58-12", "timesteps_total": 1682400, "episode_reward_min": -7.004443166549496, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.97676634788513, "training_iteration": 1402, "info": {"default": {"policy_loss": -0.03160305321216583, "vf_explained_var": 0.8832775950431824, "vf_loss": 0.745013952255249, "kl": 0.0030730990692973137, "entropy": -0.8202803134918213, "cur_kl_coeff": 1.5394706726074219, "cur_lr": 4.999999873689376e-05, "total_loss": 0.7181417942047119}, "sample_time_ms": 39596.35, "num_steps_trained": 1682400, "num_steps_sampled": 1682400, "update_time_ms": 2.509, "grad_time_ms": 368.479, "load_time_ms": 0.677}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 54700.7482688427, "iterations_since_restore": 203, "episode_reward_max": 4.001085751145403, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 131791, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757109532, "timesteps_since_restore": 243600, "episode_len_mean": 4.057627118644068, "episode_reward_mean": 3.910585233098332, "pid": 2334309, "time_since_restore": 7981.208828449249, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-58-52", "timesteps_total": 1683600, "episode_reward_min": -16.44473483392842, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.22874569892883, "training_iteration": 1403, "info": {"default": {"policy_loss": -0.03451928868889809, "vf_explained_var": 0.8123499155044556, "vf_loss": 1.8207626342773438, "kl": 0.016577985137701035, "entropy": -0.6804802417755127, "cur_kl_coeff": 0.7697353363037109, "cur_lr": 4.999999873689376e-05, "total_loss": 1.7990038394927979}, "sample_time_ms": 39635.461, "num_steps_trained": 1683600, "num_steps_sampled": 1683600, "update_time_ms": 2.522, "grad_time_ms": 371.378, "load_time_ms": 0.687}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 54740.82446193695, "iterations_since_restore": 204, "episode_reward_max": 4.001069570125866, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 132077, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 286, "timestamp": 1757109572, "timesteps_since_restore": 244800, "episode_len_mean": 4.20979020979021, "episode_reward_mean": 3.6661067323665955, "pid": 2334309, "time_since_restore": 8021.285021543503, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-05_23-59-32", "timesteps_total": 1684800, "episode_reward_min": -39.65465605258131, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.07619309425354, "training_iteration": 1404, "info": {"default": {"policy_loss": -0.05627838894724846, "vf_explained_var": 0.635199785232544, "vf_loss": 10.204273223876953, "kl": 0.012110063806176186, "entropy": -0.36025774478912354, "cur_kl_coeff": 0.7697353363037109, "cur_lr": 4.999999873689376e-05, "total_loss": 10.157317161560059}, "sample_time_ms": 39626.137, "num_steps_trained": 1684800, "num_steps_sampled": 1684800, "update_time_ms": 2.551, "grad_time_ms": 371.391, "load_time_ms": 0.689}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 54779.86009335518, "iterations_since_restore": 205, "episode_reward_max": 4.001397944042322, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 132368, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757109611, "timesteps_since_restore": 246000, "episode_len_mean": 4.120274914089347, "episode_reward_mean": 3.8035563709521085, "pid": 2334309, "time_since_restore": 8060.320652961731, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-00-11", "timesteps_total": 1686000, "episode_reward_min": -27.07558804880886, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.03563141822815, "training_iteration": 1405, "info": {"default": {"policy_loss": -0.044013604521751404, "vf_explained_var": 0.6231047511100769, "vf_loss": 5.89689826965332, "kl": 0.013762985356152058, "entropy": -0.5841552019119263, "cur_kl_coeff": 0.7697353363037109, "cur_lr": 4.999999873689376e-05, "total_loss": 5.863478183746338}, "sample_time_ms": 39554.809, "num_steps_trained": 1686000, "num_steps_sampled": 1686000, "update_time_ms": 2.548, "grad_time_ms": 371.202, "load_time_ms": 0.7}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 54818.671942949295, "iterations_since_restore": 206, "episode_reward_max": 4.000945573061311, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 132652, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 284, "timestamp": 1757109650, "timesteps_since_restore": 247200, "episode_len_mean": 4.211267605633803, "episode_reward_mean": 3.6768633757753295, "pid": 2334309, "time_since_restore": 8099.132502555847, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-00-50", "timesteps_total": 1687200, "episode_reward_min": -30.98940888095278, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.81184959411621, "training_iteration": 1406, "info": {"default": {"policy_loss": -0.06756295263767242, "vf_explained_var": 0.5859432220458984, "vf_loss": 8.425897598266602, "kl": 0.01556295808404684, "entropy": -0.23726166784763336, "cur_kl_coeff": 0.7697353363037109, "cur_lr": 4.999999873689376e-05, "total_loss": 8.37031364440918}, "sample_time_ms": 39442.784, "num_steps_trained": 1687200, "num_steps_sampled": 1687200, "update_time_ms": 2.532, "grad_time_ms": 372.418, "load_time_ms": 0.712}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 54858.09736466408, "iterations_since_restore": 207, "episode_reward_max": 4.0019018161365185, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 132948, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757109689, "timesteps_since_restore": 248400, "episode_len_mean": 4.0641891891891895, "episode_reward_mean": 3.901772627978928, "pid": 2334309, "time_since_restore": 8138.55792427063, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-01-29", "timesteps_total": 1688400, "episode_reward_min": -8.053847438483622, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.425421714782715, "training_iteration": 1407, "info": {"default": {"policy_loss": -0.047103967517614365, "vf_explained_var": 0.84770268201828, "vf_loss": 0.9867856502532959, "kl": 0.007141638081520796, "entropy": -0.7494916915893555, "cur_kl_coeff": 0.7697353363037109, "cur_lr": 4.999999873689376e-05, "total_loss": 0.9451788663864136}, "sample_time_ms": 39402.88, "num_steps_trained": 1688400, "num_steps_sampled": 1688400, "update_time_ms": 2.479, "grad_time_ms": 374.423, "load_time_ms": 0.706}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 54897.84821629524, "iterations_since_restore": 208, "episode_reward_max": 4.0008085916740885, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 133247, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757109729, "timesteps_since_restore": 249600, "episode_len_mean": 4.016722408026756, "episode_reward_mean": 3.972619888889755, "pid": 2334309, "time_since_restore": 8178.308775901794, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-02-09", "timesteps_total": 1689600, "episode_reward_min": -4.277018383379874, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.75085163116455, "training_iteration": 1408, "info": {"default": {"policy_loss": -0.02454298734664917, "vf_explained_var": 0.9519115090370178, "vf_loss": 0.27737268805503845, "kl": 0.009877012111246586, "entropy": -0.7844202518463135, "cur_kl_coeff": 0.7697353363037109, "cur_lr": 4.999999873689376e-05, "total_loss": 0.2604323625564575}, "sample_time_ms": 39299.885, "num_steps_trained": 1689600, "num_steps_sampled": 1689600, "update_time_ms": 2.49, "grad_time_ms": 377.045, "load_time_ms": 0.705}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 54936.88591861725, "iterations_since_restore": 209, "episode_reward_max": 4.00092043290304, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 133525, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 278, "timestamp": 1757109768, "timesteps_since_restore": 250800, "episode_len_mean": 4.302158273381295, "episode_reward_mean": 3.5356209181152445, "pid": 2334309, "time_since_restore": 8217.3464782238, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-02-48", "timesteps_total": 1690800, "episode_reward_min": -29.771099384663863, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.037702322006226, "training_iteration": 1409, "info": {"default": {"policy_loss": -0.061760783195495605, "vf_explained_var": 0.49322161078453064, "vf_loss": 14.565553665161133, "kl": 0.013375476002693176, "entropy": -0.05455790460109711, "cur_kl_coeff": 0.7697353363037109, "cur_lr": 4.999999873689376e-05, "total_loss": 14.514087677001953}, "sample_time_ms": 39216.214, "num_steps_trained": 1690800, "num_steps_sampled": 1690800, "update_time_ms": 2.451, "grad_time_ms": 376.742, "load_time_ms": 0.71}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 54977.234704732895, "iterations_since_restore": 210, "episode_reward_max": 4.000894868256318, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 133812, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 287, "timestamp": 1757109808, "timesteps_since_restore": 252000, "episode_len_mean": 4.177700348432055, "episode_reward_mean": 3.731197433849789, "pid": 2334309, "time_since_restore": 8257.695264339447, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-03-28", "timesteps_total": 1692000, "episode_reward_min": -28.14610567830119, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.34878611564636, "training_iteration": 1410, "info": {"default": {"policy_loss": -0.04567402973771095, "vf_explained_var": 0.6754224300384521, "vf_loss": 6.296336650848389, "kl": 0.019472790881991386, "entropy": -0.4155212342739105, "cur_kl_coeff": 0.7697353363037109, "cur_lr": 4.999999873689376e-05, "total_loss": 6.265652179718018}, "sample_time_ms": 39285.985, "num_steps_trained": 1692000, "num_steps_sampled": 1692000, "update_time_ms": 2.447, "grad_time_ms": 374.5, "load_time_ms": 0.714}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 55016.83688998222, "iterations_since_restore": 211, "episode_reward_max": 4.001941968220473, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 134102, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 290, "timestamp": 1757109848, "timesteps_since_restore": 253200, "episode_len_mean": 4.155172413793103, "episode_reward_mean": 3.7547724169129353, "pid": 2334309, "time_since_restore": 8297.297449588776, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-04-08", "timesteps_total": 1693200, "episode_reward_min": -21.45221193014797, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.60218524932861, "training_iteration": 1411, "info": {"default": {"policy_loss": -0.05754603445529938, "vf_explained_var": 0.6622112989425659, "vf_loss": 4.552675247192383, "kl": 0.023964514955878258, "entropy": -0.5006575584411621, "cur_kl_coeff": 0.7697353363037109, "cur_lr": 4.999999873689376e-05, "total_loss": 4.513575553894043}, "sample_time_ms": 39242.686, "num_steps_trained": 1693200, "num_steps_sampled": 1693200, "update_time_ms": 2.453, "grad_time_ms": 377.535, "load_time_ms": 0.712}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 55056.48257637024, "iterations_since_restore": 212, "episode_reward_max": 4.001168874088757, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 134397, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757109888, "timesteps_since_restore": 254400, "episode_len_mean": 4.071186440677966, "episode_reward_mean": 3.9003581308493214, "pid": 2334309, "time_since_restore": 8336.943135976791, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-04-48", "timesteps_total": 1694400, "episode_reward_min": -12.636050391264384, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.64568638801575, "training_iteration": 1412, "info": {"default": {"policy_loss": -0.03771501034498215, "vf_explained_var": 0.7980261445045471, "vf_loss": 1.517871379852295, "kl": 0.012823128141462803, "entropy": -0.5704782009124756, "cur_kl_coeff": 1.1546030044555664, "cur_lr": 4.999999873689376e-05, "total_loss": 1.4949620962142944}, "sample_time_ms": 39210.504, "num_steps_trained": 1694400, "num_steps_sampled": 1694400, "update_time_ms": 2.507, "grad_time_ms": 376.486, "load_time_ms": 0.705}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 55096.50591087341, "iterations_since_restore": 213, "episode_reward_max": 4.000812594079898, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 134697, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757109928, "timesteps_since_restore": 255600, "episode_len_mean": 4.0, "episode_reward_mean": 4.000299457073319, "pid": 2334309, "time_since_restore": 8376.966470479965, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-05-28", "timesteps_total": 1695600, "episode_reward_min": 4.000148954720799, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.02333450317383, "training_iteration": 1413, "info": {"default": {"policy_loss": -0.07594330608844757, "vf_explained_var": 0.998272180557251, "vf_loss": 0.009197307750582695, "kl": 0.03476061299443245, "entropy": -0.8167895078659058, "cur_kl_coeff": 1.1546030044555664, "cur_lr": 4.999999873689376e-05, "total_loss": -0.026611285284161568}, "sample_time_ms": 39191.117, "num_steps_trained": 1695600, "num_steps_sampled": 1695600, "update_time_ms": 2.472, "grad_time_ms": 375.341, "load_time_ms": 0.702}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 55135.305527210236, "iterations_since_restore": 214, "episode_reward_max": 4.001108856284023, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 134982, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 285, "timestamp": 1757109967, "timesteps_since_restore": 256800, "episode_len_mean": 4.2, "episode_reward_mean": 3.679254669341064, "pid": 2334309, "time_since_restore": 8415.766086816788, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-06-07", "timesteps_total": 1696800, "episode_reward_min": -27.30303516486098, "num_metric_batches_dropped": 0, "time_this_iter_s": 38.79961633682251, "training_iteration": 1414, "info": {"default": {"policy_loss": -0.04795660078525543, "vf_explained_var": 0.669224739074707, "vf_loss": 6.001265525817871, "kl": 0.0070286523550748825, "entropy": -0.42487818002700806, "cur_kl_coeff": 1.7319045066833496, "cur_lr": 4.999999873689376e-05, "total_loss": 5.965481758117676}, "sample_time_ms": 39062.242, "num_steps_trained": 1696800, "num_steps_sampled": 1696800, "update_time_ms": 2.451, "grad_time_ms": 376.589, "load_time_ms": 0.707}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 55175.91715955734, "iterations_since_restore": 215, "episode_reward_max": 4.0010104198858825, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 135282, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757110007, "timesteps_since_restore": 258000, "episode_len_mean": 4.0, "episode_reward_mean": 4.000314395372937, "pid": 2334309, "time_since_restore": 8456.377719163895, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-06-47", "timesteps_total": 1698000, "episode_reward_min": 4.000154212549495, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.611632347106934, "training_iteration": 1415, "info": {"default": {"policy_loss": -0.08212191611528397, "vf_explained_var": 0.9960519075393677, "vf_loss": 0.021317943930625916, "kl": 0.020341308787465096, "entropy": -0.7685990929603577, "cur_kl_coeff": 1.7319045066833496, "cur_lr": 4.999999873689376e-05, "total_loss": -0.025574777275323868}, "sample_time_ms": 39221.055, "num_steps_trained": 1698000, "num_steps_sampled": 1698000, "update_time_ms": 2.469, "grad_time_ms": 375.363, "load_time_ms": 0.699}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 55215.56741309166, "iterations_since_restore": 216, "episode_reward_max": 4.00129032969959, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 135577, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757110047, "timesteps_since_restore": 259200, "episode_len_mean": 4.064406779661017, "episode_reward_mean": 3.8987413114726714, "pid": 2334309, "time_since_restore": 8496.027972698212, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-07-27", "timesteps_total": 1699200, "episode_reward_min": -25.96309264753625, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.65025353431702, "training_iteration": 1416, "info": {"default": {"policy_loss": -0.031678393483161926, "vf_explained_var": 0.7938548922538757, "vf_loss": 2.747237205505371, "kl": 0.011216615326702595, "entropy": -0.704235851764679, "cur_kl_coeff": 2.5978567600250244, "cur_lr": 4.999999873689376e-05, "total_loss": 2.7446982860565186}, "sample_time_ms": 39305.406, "num_steps_trained": 1699200, "num_steps_sampled": 1699200, "update_time_ms": 2.467, "grad_time_ms": 374.838, "load_time_ms": 0.692}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 55254.70878076553, "iterations_since_restore": 217, "episode_reward_max": 4.0019345256840335, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 135874, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757110086, "timesteps_since_restore": 260400, "episode_len_mean": 4.0, "episode_reward_mean": 4.000315197336568, "pid": 2334309, "time_since_restore": 8535.169340372086, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-08-06", "timesteps_total": 1700400, "episode_reward_min": 4.000153782560182, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.1413676738739, "training_iteration": 1417, "info": {"default": {"policy_loss": -0.02676478773355484, "vf_explained_var": 0.747749388217926, "vf_loss": 3.9202089309692383, "kl": 0.011856748722493649, "entropy": -0.7812686562538147, "cur_kl_coeff": 2.5978567600250244, "cur_lr": 4.999999873689376e-05, "total_loss": 3.924246072769165}, "sample_time_ms": 39276.409, "num_steps_trained": 1700400, "num_steps_sampled": 1700400, "update_time_ms": 2.538, "grad_time_ms": 375.311, "load_time_ms": 0.693}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 55295.371721982956, "iterations_since_restore": 218, "episode_reward_max": 4.001833360762142, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 136165, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757110127, "timesteps_since_restore": 261600, "episode_len_mean": 4.18213058419244, "episode_reward_mean": 3.7113054734004467, "pid": 2334309, "time_since_restore": 8575.832281589508, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-08-47", "timesteps_total": 1701600, "episode_reward_min": -23.71634071751751, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.662941217422485, "training_iteration": 1418, "info": {"default": {"policy_loss": -0.04162459447979927, "vf_explained_var": 0.7583943605422974, "vf_loss": 2.6620593070983887, "kl": 0.008234241977334023, "entropy": -0.47336211800575256, "cur_kl_coeff": 2.5978567600250244, "cur_lr": 4.999999873689376e-05, "total_loss": 2.6418256759643555}, "sample_time_ms": 39370.626, "num_steps_trained": 1701600, "num_steps_sampled": 1701600, "update_time_ms": 2.55, "grad_time_ms": 372.27, "load_time_ms": 0.704}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 55335.218324661255, "iterations_since_restore": 219, "episode_reward_max": 4.000632547126202, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 136464, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757110166, "timesteps_since_restore": 262800, "episode_len_mean": 4.013377926421405, "episode_reward_mean": 3.9801140604614864, "pid": 2334309, "time_since_restore": 8615.678884267807, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-09-26", "timesteps_total": 1702800, "episode_reward_min": -2.035544075919537, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.84660267829895, "training_iteration": 1419, "info": {"default": {"policy_loss": -0.03573741763830185, "vf_explained_var": 0.961532711982727, "vf_loss": 0.2180965542793274, "kl": 0.00486732367426157, "entropy": -0.7181651592254639, "cur_kl_coeff": 2.5978567600250244, "cur_lr": 4.999999873689376e-05, "total_loss": 0.1950037181377411}, "sample_time_ms": 39451.847, "num_steps_trained": 1702800, "num_steps_sampled": 1702800, "update_time_ms": 2.558, "grad_time_ms": 371.825, "load_time_ms": 0.694}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 55375.38841223717, "iterations_since_restore": 220, "episode_reward_max": 4.000768778588657, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 136758, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757110207, "timesteps_since_restore": 264000, "episode_len_mean": 4.0476190476190474, "episode_reward_mean": 3.927476752123585, "pid": 2334309, "time_since_restore": 8655.84897184372, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-10-07", "timesteps_total": 1704000, "episode_reward_min": -11.941046826996022, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.170087575912476, "training_iteration": 1420, "info": {"default": {"policy_loss": -0.03116866573691368, "vf_explained_var": 0.7223308682441711, "vf_loss": 3.1457111835479736, "kl": 0.0076809111051261425, "entropy": -0.6455093622207642, "cur_kl_coeff": 1.2989283800125122, "cur_lr": 4.999999873689376e-05, "total_loss": 3.1245195865631104}, "sample_time_ms": 39432.073, "num_steps_trained": 1704000, "num_steps_sampled": 1704000, "update_time_ms": 2.626, "grad_time_ms": 373.535, "load_time_ms": 0.684}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 55415.11735343933, "iterations_since_restore": 221, "episode_reward_max": 4.001938413175791, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 137054, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757110247, "timesteps_since_restore": 265200, "episode_len_mean": 4.081081081081081, "episode_reward_mean": 3.869735965700612, "pid": 2334309, "time_since_restore": 8695.577913045883, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-10-47", "timesteps_total": 1705200, "episode_reward_min": -18.484521037838896, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.728941202163696, "training_iteration": 1421, "info": {"default": {"policy_loss": -0.039580415934324265, "vf_explained_var": 0.9074131846427917, "vf_loss": 0.6124569773674011, "kl": 0.006946032401174307, "entropy": -0.750850260257721, "cur_kl_coeff": 1.2989283800125122, "cur_lr": 4.999999873689376e-05, "total_loss": 0.5818989276885986}, "sample_time_ms": 39447.452, "num_steps_trained": 1705200, "num_steps_sampled": 1705200, "update_time_ms": 2.641, "grad_time_ms": 370.847, "load_time_ms": 0.688}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 55455.68910384178, "iterations_since_restore": 222, "episode_reward_max": 4.001452606229481, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 137339, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 285, "timestamp": 1757110287, "timesteps_since_restore": 266400, "episode_len_mean": 4.207017543859649, "episode_reward_mean": 3.675427985597374, "pid": 2334309, "time_since_restore": 8736.149663448334, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-11-27", "timesteps_total": 1706400, "episode_reward_min": -19.819628538496314, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.57175040245056, "training_iteration": 1422, "info": {"default": {"policy_loss": -0.04998249560594559, "vf_explained_var": 0.6123899817466736, "vf_loss": 7.19976282119751, "kl": 0.009328972548246384, "entropy": -0.3980270028114319, "cur_kl_coeff": 1.2989283800125122, "cur_lr": 4.999999873689376e-05, "total_loss": 7.161898136138916}, "sample_time_ms": 39540.165, "num_steps_trained": 1706400, "num_steps_sampled": 1706400, "update_time_ms": 2.609, "grad_time_ms": 370.825, "load_time_ms": 0.686}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 55495.26913809776, "iterations_since_restore": 223, "episode_reward_max": 4.001100810472767, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 137639, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757110327, "timesteps_since_restore": 267600, "episode_len_mean": 4.0, "episode_reward_mean": 4.000303822612184, "pid": 2334309, "time_since_restore": 8775.729697704315, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-12-07", "timesteps_total": 1707600, "episode_reward_min": 4.0001428764018785, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.580034255981445, "training_iteration": 1423, "info": {"default": {"policy_loss": -0.07242272794246674, "vf_explained_var": 0.9969683885574341, "vf_loss": 0.016321443021297455, "kl": 0.038560472428798676, "entropy": -0.7614210844039917, "cur_kl_coeff": 1.2989283800125122, "cur_lr": 4.999999873689376e-05, "total_loss": -0.006014001090079546}, "sample_time_ms": 39496.484, "num_steps_trained": 1707600, "num_steps_sampled": 1707600, "update_time_ms": 2.639, "grad_time_ms": 370.105, "load_time_ms": 0.685}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 55534.59411525726, "iterations_since_restore": 224, "episode_reward_max": 4.001129228343804, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 137934, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757110366, "timesteps_since_restore": 268800, "episode_len_mean": 4.074576271186441, "episode_reward_mean": 3.888983893706899, "pid": 2334309, "time_since_restore": 8815.054674863815, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-12-46", "timesteps_total": 1708800, "episode_reward_min": -13.837279042425713, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.32497715950012, "training_iteration": 1424, "info": {"default": {"policy_loss": -0.026417436078190804, "vf_explained_var": 0.77949458360672, "vf_loss": 2.0049145221710205, "kl": 0.022116849198937416, "entropy": -0.6197412014007568, "cur_kl_coeff": 1.948392629623413, "cur_lr": 4.999999873689376e-05, "total_loss": 2.021589517593384}, "sample_time_ms": 39548.912, "num_steps_trained": 1708800, "num_steps_sampled": 1708800, "update_time_ms": 2.661, "grad_time_ms": 370.146, "load_time_ms": 0.679}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 55574.24935698509, "iterations_since_restore": 225, "episode_reward_max": 4.001625543934222, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 138232, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757110406, "timesteps_since_restore": 270000, "episode_len_mean": 4.016778523489933, "episode_reward_mean": 3.9728737307899036, "pid": 2334309, "time_since_restore": 8854.709916591644, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-13-26", "timesteps_total": 1710000, "episode_reward_min": -4.175200444193109, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.65524172782898, "training_iteration": 1425, "info": {"default": {"policy_loss": -0.026958443224430084, "vf_explained_var": 0.9513825178146362, "vf_loss": 0.28731316328048706, "kl": 0.011287026107311249, "entropy": -0.745866596698761, "cur_kl_coeff": 2.92258882522583, "cur_lr": 4.999999873689376e-05, "total_loss": 0.2933419942855835}, "sample_time_ms": 39451.71, "num_steps_trained": 1710000, "num_steps_sampled": 1710000, "update_time_ms": 2.681, "grad_time_ms": 371.757, "load_time_ms": 0.679}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 55614.160161972046, "iterations_since_restore": 226, "episode_reward_max": 4.0016163497440616, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 138520, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 288, "timestamp": 1757110446, "timesteps_since_restore": 271200, "episode_len_mean": 4.163194444444445, "episode_reward_mean": 3.749830536281288, "pid": 2334309, "time_since_restore": 8894.620721578598, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-14-06", "timesteps_total": 1711200, "episode_reward_min": -16.40518361093349, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.910804986953735, "training_iteration": 1426, "info": {"default": {"policy_loss": -0.042669374495744705, "vf_explained_var": 0.6507847309112549, "vf_loss": 4.530767917633057, "kl": 0.005936238914728165, "entropy": -0.42097997665405273, "cur_kl_coeff": 2.92258882522583, "cur_lr": 4.999999873689376e-05, "total_loss": 4.505448341369629}, "sample_time_ms": 39478.047, "num_steps_trained": 1711200, "num_steps_sampled": 1711200, "update_time_ms": 2.683, "grad_time_ms": 371.505, "load_time_ms": 0.683}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 55654.64858198166, "iterations_since_restore": 227, "episode_reward_max": 4.001057499291714, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 138817, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757110486, "timesteps_since_restore": 272400, "episode_len_mean": 4.023569023569023, "episode_reward_mean": 3.9659253356737874, "pid": 2334309, "time_since_restore": 8935.109141588211, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-14-46", "timesteps_total": 1712400, "episode_reward_min": -2.174374541864264, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.48842000961304, "training_iteration": 1427, "info": {"default": {"policy_loss": -0.036611177027225494, "vf_explained_var": 0.8961750864982605, "vf_loss": 0.6677017211914062, "kl": 0.006175443064421415, "entropy": -0.6591261029243469, "cur_kl_coeff": 2.92258882522583, "cur_lr": 4.999999873689376e-05, "total_loss": 0.6491388082504272}, "sample_time_ms": 39615.045, "num_steps_trained": 1712400, "num_steps_sampled": 1712400, "update_time_ms": 2.634, "grad_time_ms": 369.268, "load_time_ms": 0.681}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 55694.558665275574, "iterations_since_restore": 228, "episode_reward_max": 4.001938772992602, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 139115, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757110526, "timesteps_since_restore": 273600, "episode_len_mean": 4.043624161073826, "episode_reward_mean": 3.930765424555288, "pid": 2334309, "time_since_restore": 8975.019224882126, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-15-26", "timesteps_total": 1713600, "episode_reward_min": -10.65765712993403, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.910083293914795, "training_iteration": 1428, "info": {"default": {"policy_loss": -0.03212244436144829, "vf_explained_var": 0.9655765891075134, "vf_loss": 0.1960849165916443, "kl": 0.005506487563252449, "entropy": -0.8047277927398682, "cur_kl_coeff": 2.92258882522583, "cur_lr": 4.999999873689376e-05, "total_loss": 0.1800556480884552}, "sample_time_ms": 39539.358, "num_steps_trained": 1713600, "num_steps_sampled": 1713600, "update_time_ms": 2.602, "grad_time_ms": 369.754, "load_time_ms": 0.671}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 55734.542598724365, "iterations_since_restore": 229, "episode_reward_max": 4.001680876029428, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 139413, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757110566, "timesteps_since_restore": 274800, "episode_len_mean": 4.026845637583893, "episode_reward_mean": 3.9572382045643626, "pid": 2334309, "time_since_restore": 9015.003158330917, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-16-06", "timesteps_total": 1714800, "episode_reward_min": -8.838346851840605, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.983933448791504, "training_iteration": 1429, "info": {"default": {"policy_loss": -0.02498350478708744, "vf_explained_var": 0.91057288646698, "vf_loss": 0.6082246899604797, "kl": 0.003369309939444065, "entropy": -0.7250093817710876, "cur_kl_coeff": 2.92258882522583, "cur_lr": 4.999999873689376e-05, "total_loss": 0.5930882692337036}, "sample_time_ms": 39551.425, "num_steps_trained": 1714800, "num_steps_sampled": 1714800, "update_time_ms": 2.599, "grad_time_ms": 371.44, "load_time_ms": 0.672}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 55774.66471910477, "iterations_since_restore": 230, "episode_reward_max": 4.0007626903715545, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 139713, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757110606, "timesteps_since_restore": 276000, "episode_len_mean": 4.006666666666667, "episode_reward_mean": 3.9903671779672525, "pid": 2334309, "time_since_restore": 9055.125278711319, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-16-46", "timesteps_total": 1716000, "episode_reward_min": 1.0197116176748189, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.12212038040161, "training_iteration": 1430, "info": {"default": {"policy_loss": -0.033087145537137985, "vf_explained_var": 0.990843653678894, "vf_loss": 0.04796113073825836, "kl": 0.007553268689662218, "entropy": -0.7879781723022461, "cur_kl_coeff": 1.461294412612915, "cur_lr": 4.999999873689376e-05, "total_loss": 0.02591153234243393}, "sample_time_ms": 39548.206, "num_steps_trained": 1716000, "num_steps_sampled": 1716000, "update_time_ms": 2.549, "grad_time_ms": 369.994, "load_time_ms": 0.673}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 55815.00939178467, "iterations_since_restore": 231, "episode_reward_max": 4.0010057258891205, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 140001, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 288, "timestamp": 1757110647, "timesteps_since_restore": 277200, "episode_len_mean": 4.177083333333333, "episode_reward_mean": 3.7341965938478836, "pid": 2334309, "time_since_restore": 9095.46995139122, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-17-27", "timesteps_total": 1717200, "episode_reward_min": -39.51992534303605, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.34467267990112, "training_iteration": 1431, "info": {"default": {"policy_loss": -0.04821978509426117, "vf_explained_var": 0.7481677532196045, "vf_loss": 3.7129695415496826, "kl": 0.00623720046132803, "entropy": -0.3552682399749756, "cur_kl_coeff": 1.461294412612915, "cur_lr": 4.999999873689376e-05, "total_loss": 3.673863649368286}, "sample_time_ms": 39607.037, "num_steps_trained": 1717200, "num_steps_sampled": 1717200, "update_time_ms": 2.603, "grad_time_ms": 372.627, "load_time_ms": 0.671}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 55854.78019618988, "iterations_since_restore": 232, "episode_reward_max": 4.000801883857731, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 140297, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757110686, "timesteps_since_restore": 278400, "episode_len_mean": 4.047297297297297, "episode_reward_mean": 3.9285716936543316, "pid": 2334309, "time_since_restore": 9135.240755796432, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-18-06", "timesteps_total": 1718400, "episode_reward_min": -6.213393482523198, "num_metric_batches_dropped": 0, "time_this_iter_s": 39.7708044052124, "training_iteration": 1432, "info": {"default": {"policy_loss": -0.0347682349383831, "vf_explained_var": 0.9038689732551575, "vf_loss": 0.614067792892456, "kl": 0.024714641273021698, "entropy": -0.691328763961792, "cur_kl_coeff": 1.461294412612915, "cur_lr": 4.999999873689376e-05, "total_loss": 0.6154148578643799}, "sample_time_ms": 39528.227, "num_steps_trained": 1718400, "num_steps_sampled": 1718400, "update_time_ms": 2.626, "grad_time_ms": 371.297, "load_time_ms": 0.668}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 55895.296558618546, "iterations_since_restore": 233, "episode_reward_max": 4.000917338318319, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 140593, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757110727, "timesteps_since_restore": 279600, "episode_len_mean": 4.0574324324324325, "episode_reward_mean": 3.912513138063213, "pid": 2334309, "time_since_restore": 9175.757118225098, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-18-47", "timesteps_total": 1719600, "episode_reward_min": -9.911575562433306, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.51636242866516, "training_iteration": 1433, "info": {"default": {"policy_loss": -0.041363272815942764, "vf_explained_var": 0.8693961501121521, "vf_loss": 0.8704307079315186, "kl": 0.0068342071026563644, "entropy": -0.6741379499435425, "cur_kl_coeff": 2.191941738128662, "cur_lr": 4.999999873689376e-05, "total_loss": 0.8440476059913635}, "sample_time_ms": 39620.429, "num_steps_trained": 1719600, "num_steps_sampled": 1719600, "update_time_ms": 2.647, "grad_time_ms": 372.752, "load_time_ms": 0.656}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 55936.96162700653, "iterations_since_restore": 234, "episode_reward_max": 4.000701822069752, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 140889, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757110769, "timesteps_since_restore": 280800, "episode_len_mean": 4.054054054054054, "episode_reward_mean": 3.9195417066469376, "pid": 2334309, "time_since_restore": 9217.422186613083, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-19-29", "timesteps_total": 1720800, "episode_reward_min": -8.87105780591175, "num_metric_batches_dropped": 0, "time_this_iter_s": 41.66506838798523, "training_iteration": 1434, "info": {"default": {"policy_loss": -0.027127623558044434, "vf_explained_var": 0.8476184606552124, "vf_loss": 1.0289740562438965, "kl": 0.012658721767365932, "entropy": -0.7090546488761902, "cur_kl_coeff": 2.191941738128662, "cur_lr": 4.999999873689376e-05, "total_loss": 1.029593586921692}, "sample_time_ms": 39852.968, "num_steps_trained": 1720800, "num_steps_sampled": 1720800, "update_time_ms": 2.653, "grad_time_ms": 374.268, "load_time_ms": 0.651}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 55986.05784845352, "iterations_since_restore": 235, "episode_reward_max": 4.001296433721604, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 141188, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757110818, "timesteps_since_restore": 282000, "episode_len_mean": 4.016722408026756, "episode_reward_mean": 3.97347669610899, "pid": 2334309, "time_since_restore": 9266.518408060074, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-20-18", "timesteps_total": 1722000, "episode_reward_min": -4.0218643119760245, "num_metric_batches_dropped": 0, "time_this_iter_s": 49.09622144699097, "training_iteration": 1435, "info": {"default": {"policy_loss": -0.03605636581778526, "vf_explained_var": 0.9690086841583252, "vf_loss": 0.18817466497421265, "kl": 0.004820429719984531, "entropy": -0.7885924577713013, "cur_kl_coeff": 2.191941738128662, "cur_lr": 4.999999873689376e-05, "total_loss": 0.1626843810081482}, "sample_time_ms": 40796.691, "num_steps_trained": 1722000, "num_steps_sampled": 1722000, "update_time_ms": 2.649, "grad_time_ms": 374.562, "load_time_ms": 0.659}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 56034.3916053772, "iterations_since_restore": 236, "episode_reward_max": 4.001084567922945, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 141481, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 293, "timestamp": 1757110866, "timesteps_since_restore": 283200, "episode_len_mean": 4.09556313993174, "episode_reward_mean": 3.851846459110533, "pid": 2334309, "time_since_restore": 9314.85216498375, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-21-06", "timesteps_total": 1723200, "episode_reward_min": -26.434467576672027, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.33375692367554, "training_iteration": 1436, "info": {"default": {"policy_loss": -0.032951321452856064, "vf_explained_var": 0.7184305787086487, "vf_loss": 4.051111221313477, "kl": 0.03585013374686241, "entropy": -0.5923669934272766, "cur_kl_coeff": 1.095970869064331, "cur_lr": 4.999999873689376e-05, "total_loss": 4.057450771331787}, "sample_time_ms": 41638.831, "num_steps_trained": 1723200, "num_steps_sampled": 1723200, "update_time_ms": 2.651, "grad_time_ms": 374.64, "load_time_ms": 0.674}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 56082.60299873352, "iterations_since_restore": 237, "episode_reward_max": 4.001442820842923, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 141777, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757110914, "timesteps_since_restore": 284400, "episode_len_mean": 4.054054054054054, "episode_reward_mean": 3.9189744398550164, "pid": 2334309, "time_since_restore": 9363.063558340073, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-21-54", "timesteps_total": 1724400, "episode_reward_min": -7.983849696995772, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.21139335632324, "training_iteration": 1437, "info": {"default": {"policy_loss": -0.04243282601237297, "vf_explained_var": 0.8616682887077332, "vf_loss": 0.976380467414856, "kl": 0.005730364937335253, "entropy": -0.5696002840995789, "cur_kl_coeff": 1.6439563035964966, "cur_lr": 4.999999873689376e-05, "total_loss": 0.9433678388595581}, "sample_time_ms": 42410.872, "num_steps_trained": 1724400, "num_steps_sampled": 1724400, "update_time_ms": 2.682, "grad_time_ms": 374.914, "load_time_ms": 0.672}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 56131.29795742035, "iterations_since_restore": 238, "episode_reward_max": 4.000988633856851, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 142075, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757110963, "timesteps_since_restore": 285600, "episode_len_mean": 4.023489932885906, "episode_reward_mean": 3.96334188889856, "pid": 2334309, "time_since_restore": 9411.758517026901, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-22-43", "timesteps_total": 1725600, "episode_reward_min": -7.016822785842802, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.69495868682861, "training_iteration": 1438, "info": {"default": {"policy_loss": -0.03193768113851547, "vf_explained_var": 0.9515212178230286, "vf_loss": 0.3467467725276947, "kl": 0.004281277302652597, "entropy": -0.7313439249992371, "cur_kl_coeff": 1.6439563035964966, "cur_lr": 4.999999873689376e-05, "total_loss": 0.3218472898006439}, "sample_time_ms": 43287.15, "num_steps_trained": 1725600, "num_steps_sampled": 1725600, "update_time_ms": 2.746, "grad_time_ms": 376.971, "load_time_ms": 0.669}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 56179.19875764847, "iterations_since_restore": 239, "episode_reward_max": 4.000926909139863, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 142366, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757111011, "timesteps_since_restore": 286800, "episode_len_mean": 4.116838487972508, "episode_reward_mean": 3.812006967663944, "pid": 2334309, "time_since_restore": 9459.65931725502, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-23-31", "timesteps_total": 1726800, "episode_reward_min": -18.84643159982309, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.9008002281189, "training_iteration": 1439, "info": {"default": {"policy_loss": -0.04800975322723389, "vf_explained_var": 0.77494877576828, "vf_loss": 2.6764373779296875, "kl": 0.012306403368711472, "entropy": -0.5416639447212219, "cur_kl_coeff": 0.8219781517982483, "cur_lr": 4.999999873689376e-05, "total_loss": 2.638543128967285}, "sample_time_ms": 44079.227, "num_steps_trained": 1726800, "num_steps_sampled": 1726800, "update_time_ms": 2.769, "grad_time_ms": 376.638, "load_time_ms": 0.669}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 56227.00977039337, "iterations_since_restore": 240, "episode_reward_max": 4.000743587766967, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 142666, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757111059, "timesteps_since_restore": 288000, "episode_len_mean": 4.0, "episode_reward_mean": 4.0003090260196865, "pid": 2334309, "time_since_restore": 9507.470329999924, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-24-19", "timesteps_total": 1728000, "episode_reward_min": 4.0001502559720485, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.811012744903564, "training_iteration": 1440, "info": {"default": {"policy_loss": -0.07362674176692963, "vf_explained_var": 0.9981107711791992, "vf_loss": 0.010270186699926853, "kl": 0.0625799372792244, "entropy": -0.8270882964134216, "cur_kl_coeff": 0.8219781517982483, "cur_lr": 4.999999873689376e-05, "total_loss": -0.011917220428586006}, "sample_time_ms": 44844.911, "num_steps_trained": 1728000, "num_steps_sampled": 1728000, "update_time_ms": 2.773, "grad_time_ms": 379.822, "load_time_ms": 0.688}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 56274.545493364334, "iterations_since_restore": 241, "episode_reward_max": 4.000978119648995, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 142957, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757111106, "timesteps_since_restore": 289200, "episode_len_mean": 4.116838487972508, "episode_reward_mean": 3.8154114097834637, "pid": 2334309, "time_since_restore": 9555.006052970886, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-25-06", "timesteps_total": 1729200, "episode_reward_min": -28.570311634371905, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.535722970962524, "training_iteration": 1441, "info": {"default": {"policy_loss": -0.043407659977674484, "vf_explained_var": 0.8010523319244385, "vf_loss": 3.000563383102417, "kl": 0.008544771000742912, "entropy": -0.4100717306137085, "cur_kl_coeff": 1.2329672574996948, "cur_lr": 4.999999873689376e-05, "total_loss": 2.9676904678344727}, "sample_time_ms": 45566.581, "num_steps_trained": 1729200, "num_steps_sampled": 1729200, "update_time_ms": 2.737, "grad_time_ms": 377.366, "load_time_ms": 0.68}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 56322.24693894386, "iterations_since_restore": 242, "episode_reward_max": 4.002026386094887, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 143255, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757111154, "timesteps_since_restore": 290400, "episode_len_mean": 4.030201342281879, "episode_reward_mean": 3.9528867044815557, "pid": 2334309, "time_since_restore": 9602.707498550415, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-25-54", "timesteps_total": 1730400, "episode_reward_min": -10.133114428975535, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.70144557952881, "training_iteration": 1442, "info": {"default": {"policy_loss": -0.023271020501852036, "vf_explained_var": 0.8870282769203186, "vf_loss": 0.7891668081283569, "kl": 0.02061046101152897, "entropy": -0.7091172337532043, "cur_kl_coeff": 1.2329672574996948, "cur_lr": 4.999999873689376e-05, "total_loss": 0.7913077473640442}, "sample_time_ms": 46360.125, "num_steps_trained": 1730400, "num_steps_sampled": 1730400, "update_time_ms": 2.73, "grad_time_ms": 376.95, "load_time_ms": 0.678}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 56370.2213447094, "iterations_since_restore": 243, "episode_reward_max": 4.000894937271498, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 143552, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757111202, "timesteps_since_restore": 291600, "episode_len_mean": 4.043771043771044, "episode_reward_mean": 3.9321758401520297, "pid": 2334309, "time_since_restore": 9650.681904315948, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-26-42", "timesteps_total": 1731600, "episode_reward_min": -8.206831709715072, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.97440576553345, "training_iteration": 1443, "info": {"default": {"policy_loss": -0.04199817776679993, "vf_explained_var": 0.8951810002326965, "vf_loss": 0.6578538417816162, "kl": 0.0058148568496108055, "entropy": -0.7292139530181885, "cur_kl_coeff": 1.8494508266448975, "cur_lr": 4.999999873689376e-05, "total_loss": 0.6266099214553833}, "sample_time_ms": 47106.751, "num_steps_trained": 1731600, "num_steps_sampled": 1731600, "update_time_ms": 2.68, "grad_time_ms": 376.199, "load_time_ms": 0.686}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 56417.96522331238, "iterations_since_restore": 244, "episode_reward_max": 4.000876190130539, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 143841, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 289, "timestamp": 1757111250, "timesteps_since_restore": 292800, "episode_len_mean": 4.141868512110727, "episode_reward_mean": 3.7811910769185277, "pid": 2334309, "time_since_restore": 9698.42578291893, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-27-30", "timesteps_total": 1732800, "episode_reward_min": -19.98721643259525, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.74387860298157, "training_iteration": 1444, "info": {"default": {"policy_loss": -0.045681193470954895, "vf_explained_var": 0.7312732338905334, "vf_loss": 3.76257061958313, "kl": 0.0058773113414645195, "entropy": -0.5289236307144165, "cur_kl_coeff": 1.8494508266448975, "cur_lr": 4.999999873689376e-05, "total_loss": 3.7277586460113525}, "sample_time_ms": 47717.018, "num_steps_trained": 1732800, "num_steps_sampled": 1732800, "update_time_ms": 2.641, "grad_time_ms": 373.839, "load_time_ms": 0.69}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 56466.28101038933, "iterations_since_restore": 245, "episode_reward_max": 4.000764636298368, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 144135, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757111298, "timesteps_since_restore": 294000, "episode_len_mean": 4.081632653061225, "episode_reward_mean": 3.86957104847434, "pid": 2334309, "time_since_restore": 9746.74156999588, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-28-18", "timesteps_total": 1734000, "episode_reward_min": -34.43839795613683, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.31578707695007, "training_iteration": 1445, "info": {"default": {"policy_loss": -0.034946098923683167, "vf_explained_var": 0.696674108505249, "vf_loss": 5.903777122497559, "kl": 0.0057359375059604645, "entropy": -0.4582817852497101, "cur_kl_coeff": 1.8494508266448975, "cur_lr": 4.999999873689376e-05, "total_loss": 5.879439353942871}, "sample_time_ms": 47641.301, "num_steps_trained": 1734000, "num_steps_sampled": 1734000, "update_time_ms": 2.62, "grad_time_ms": 371.576, "load_time_ms": 0.68}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 56514.1814095974, "iterations_since_restore": 246, "episode_reward_max": 4.000936112508631, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 144434, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757111346, "timesteps_since_restore": 295200, "episode_len_mean": 4.016722408026756, "episode_reward_mean": 3.9734496042360936, "pid": 2334309, "time_since_restore": 9794.641969203949, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-29-06", "timesteps_total": 1735200, "episode_reward_min": -4.030908099283172, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.90039920806885, "training_iteration": 1446, "info": {"default": {"policy_loss": -0.04263192042708397, "vf_explained_var": 0.9505258202552795, "vf_loss": 0.2970915734767914, "kl": 0.012567870318889618, "entropy": -0.7270498871803284, "cur_kl_coeff": 1.8494508266448975, "cur_lr": 4.999999873689376e-05, "total_loss": 0.27770325541496277}, "sample_time_ms": 47600.143, "num_steps_trained": 1735200, "num_steps_sampled": 1735200, "update_time_ms": 2.615, "grad_time_ms": 369.467, "load_time_ms": 0.662}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 56562.34128451347, "iterations_since_restore": 247, "episode_reward_max": 4.00088150262879, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 144730, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757111394, "timesteps_since_restore": 296400, "episode_len_mean": 4.0574324324324325, "episode_reward_mean": 3.9103292757402244, "pid": 2334309, "time_since_restore": 9842.801844120026, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-29-54", "timesteps_total": 1736400, "episode_reward_min": -11.681306344972906, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.15987491607666, "training_iteration": 1447, "info": {"default": {"policy_loss": -0.02150719054043293, "vf_explained_var": 0.9106472730636597, "vf_loss": 0.6047635078430176, "kl": 0.003905693767592311, "entropy": -0.6296756863594055, "cur_kl_coeff": 1.8494508266448975, "cur_lr": 4.999999873689376e-05, "total_loss": 0.5904796123504639}, "sample_time_ms": 47592.313, "num_steps_trained": 1736400, "num_steps_sampled": 1736400, "update_time_ms": 2.552, "grad_time_ms": 372.131, "load_time_ms": 0.687}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 56610.493864774704, "iterations_since_restore": 248, "episode_reward_max": 4.0008387054953936, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 145024, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757111442, "timesteps_since_restore": 297600, "episode_len_mean": 4.081632653061225, "episode_reward_mean": 3.8690671279548132, "pid": 2334309, "time_since_restore": 9890.954424381256, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-30-42", "timesteps_total": 1737600, "episode_reward_min": -23.663160027165326, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.15258026123047, "training_iteration": 1448, "info": {"default": {"policy_loss": -0.032648716121912, "vf_explained_var": 0.7614466547966003, "vf_loss": 3.3430824279785156, "kl": 0.0134495310485363, "entropy": -0.6028428077697754, "cur_kl_coeff": 0.9247254133224487, "cur_lr": 4.999999873689376e-05, "total_loss": 3.322871208190918}, "sample_time_ms": 47540.423, "num_steps_trained": 1737600, "num_steps_sampled": 1737600, "update_time_ms": 2.518, "grad_time_ms": 369.899, "load_time_ms": 0.69}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 56659.05367779732, "iterations_since_restore": 249, "episode_reward_max": 4.001911964474409, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 145321, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757111491, "timesteps_since_restore": 298800, "episode_len_mean": 4.033670033670034, "episode_reward_mean": 3.944373761014147, "pid": 2334309, "time_since_restore": 9939.51423740387, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-31-31", "timesteps_total": 1738800, "episode_reward_min": -12.614676054278835, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.559813022613525, "training_iteration": 1449, "info": {"default": {"policy_loss": -0.032227516174316406, "vf_explained_var": 0.9183956980705261, "vf_loss": 0.766620397567749, "kl": 0.007699788548052311, "entropy": -0.7607552409172058, "cur_kl_coeff": 0.9247254133224487, "cur_lr": 4.999999873689376e-05, "total_loss": 0.7415130734443665}, "sample_time_ms": 47605.859, "num_steps_trained": 1738800, "num_steps_sampled": 1738800, "update_time_ms": 2.51, "grad_time_ms": 370.322, "load_time_ms": 0.706}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 56706.321413993835, "iterations_since_restore": 250, "episode_reward_max": 4.00103806848329, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 145603, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 282, "timestamp": 1757111538, "timesteps_since_restore": 300000, "episode_len_mean": 4.25886524822695, "episode_reward_mean": 3.6018050516271587, "pid": 2334309, "time_since_restore": 9986.781973600388, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-32-18", "timesteps_total": 1740000, "episode_reward_min": -18.952049804880993, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.267736196517944, "training_iteration": 1450, "info": {"default": {"policy_loss": -0.06075407937169075, "vf_explained_var": 0.5983631610870361, "vf_loss": 7.41709566116333, "kl": 0.014191887341439724, "entropy": -0.1289195716381073, "cur_kl_coeff": 0.9247254133224487, "cur_lr": 4.999999873689376e-05, "total_loss": 7.36946439743042}, "sample_time_ms": 47553.391, "num_steps_trained": 1740000, "num_steps_sampled": 1740000, "update_time_ms": 2.517, "grad_time_ms": 368.473, "load_time_ms": 0.697}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 56754.1590924263, "iterations_since_restore": 251, "episode_reward_max": 4.001871299260375, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 145891, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 288, "timestamp": 1757111586, "timesteps_since_restore": 301200, "episode_len_mean": 4.173611111111111, "episode_reward_mean": 3.7243231353789117, "pid": 2334309, "time_since_restore": 10034.619652032852, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-33-06", "timesteps_total": 1741200, "episode_reward_min": -40.428796121967586, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.8376784324646, "training_iteration": 1451, "info": {"default": {"policy_loss": -0.0490453764796257, "vf_explained_var": 0.6513774394989014, "vf_loss": 11.058384895324707, "kl": 0.01180316973477602, "entropy": -0.33970820903778076, "cur_kl_coeff": 0.9247254133224487, "cur_lr": 4.999999873689376e-05, "total_loss": 11.020256042480469}, "sample_time_ms": 47582.325, "num_steps_trained": 1741200, "num_steps_sampled": 1741200, "update_time_ms": 2.477, "grad_time_ms": 369.769, "load_time_ms": 0.702}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 56801.57921171188, "iterations_since_restore": 252, "episode_reward_max": 4.002073820891281, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 146185, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757111634, "timesteps_since_restore": 302400, "episode_len_mean": 4.091836734693878, "episode_reward_mean": 3.854495940994252, "pid": 2334309, "time_since_restore": 10082.039771318436, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-33-54", "timesteps_total": 1742400, "episode_reward_min": -15.346711645528455, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.420119285583496, "training_iteration": 1452, "info": {"default": {"policy_loss": -0.039310917258262634, "vf_explained_var": 0.7589478492736816, "vf_loss": 2.627497673034668, "kl": 0.01909378357231617, "entropy": -0.6142606735229492, "cur_kl_coeff": 0.9247254133224487, "cur_lr": 4.999999873689376e-05, "total_loss": 2.6058433055877686}, "sample_time_ms": 47551.052, "num_steps_trained": 1742400, "num_steps_sampled": 1742400, "update_time_ms": 2.431, "grad_time_ms": 372.845, "load_time_ms": 0.718}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 56848.90312123299, "iterations_since_restore": 253, "episode_reward_max": 4.001037701564207, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 146483, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757111681, "timesteps_since_restore": 303600, "episode_len_mean": 4.016778523489933, "episode_reward_mean": 3.9765476341164057, "pid": 2334309, "time_since_restore": 10129.363680839539, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-34-41", "timesteps_total": 1743600, "episode_reward_min": -2.084278122766282, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.323909521102905, "training_iteration": 1453, "info": {"default": {"policy_loss": -0.04364072531461716, "vf_explained_var": 0.9394935965538025, "vf_loss": 0.32958245277404785, "kl": 0.013263245113193989, "entropy": -0.7749868035316467, "cur_kl_coeff": 0.9247254133224487, "cur_lr": 4.999999873689376e-05, "total_loss": 0.2982065677642822}, "sample_time_ms": 47487.309, "num_steps_trained": 1743600, "num_steps_sampled": 1743600, "update_time_ms": 2.434, "grad_time_ms": 371.565, "load_time_ms": 0.718}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 56896.493780612946, "iterations_since_restore": 254, "episode_reward_max": 4.001526190384587, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 146775, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757111728, "timesteps_since_restore": 304800, "episode_len_mean": 4.1061643835616435, "episode_reward_mean": 3.8335763511623924, "pid": 2334309, "time_since_restore": 10176.954340219498, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-35-28", "timesteps_total": 1744800, "episode_reward_min": -17.04246254479957, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.590659379959106, "training_iteration": 1454, "info": {"default": {"policy_loss": -0.018316423520445824, "vf_explained_var": 0.7037187218666077, "vf_loss": 3.1023385524749756, "kl": 0.08313299715518951, "entropy": -0.4784791171550751, "cur_kl_coeff": 0.9247254133224487, "cur_lr": 4.999999873689376e-05, "total_loss": 3.1608974933624268}, "sample_time_ms": 47470.011, "num_steps_trained": 1744800, "num_steps_sampled": 1744800, "update_time_ms": 2.454, "grad_time_ms": 373.447, "load_time_ms": 0.722}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 56944.13806319237, "iterations_since_restore": 255, "episode_reward_max": 4.000778570096253, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 147065, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 290, "timestamp": 1757111776, "timesteps_since_restore": 306000, "episode_len_mean": 4.117241379310345, "episode_reward_mean": 3.820187214834801, "pid": 2334309, "time_since_restore": 10224.59862279892, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-36-16", "timesteps_total": 1746000, "episode_reward_min": -11.783584812198711, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.644282579422, "training_iteration": 1455, "info": {"default": {"policy_loss": -0.05638056993484497, "vf_explained_var": 0.6674591898918152, "vf_loss": 3.0185706615448, "kl": 0.009660113602876663, "entropy": -0.44922298192977905, "cur_kl_coeff": 1.3870880603790283, "cur_lr": 4.999999873689376e-05, "total_loss": 2.9755895137786865}, "sample_time_ms": 47402.766, "num_steps_trained": 1746000, "num_steps_sampled": 1746000, "update_time_ms": 2.455, "grad_time_ms": 373.532, "load_time_ms": 0.724}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 56991.40013170242, "iterations_since_restore": 256, "episode_reward_max": 4.001693664811038, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 147344, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 279, "timestamp": 1757111823, "timesteps_since_restore": 307200, "episode_len_mean": 4.318996415770609, "episode_reward_mean": 3.4982544211958397, "pid": 2334309, "time_since_restore": 10271.860691308975, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-37-03", "timesteps_total": 1747200, "episode_reward_min": -52.896614186427314, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.26206851005554, "training_iteration": 1456, "info": {"default": {"policy_loss": -0.056544847786426544, "vf_explained_var": 0.6722946763038635, "vf_loss": 9.90820598602295, "kl": 0.00801782589405775, "entropy": -0.12485236674547195, "cur_kl_coeff": 1.3870880603790283, "cur_lr": 4.999999873689376e-05, "total_loss": 9.86278247833252}, "sample_time_ms": 47338.612, "num_steps_trained": 1747200, "num_steps_sampled": 1747200, "update_time_ms": 2.536, "grad_time_ms": 373.772, "load_time_ms": 0.723}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 57039.43521976471, "iterations_since_restore": 257, "episode_reward_max": 4.001557196402287, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 147625, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 281, "timestamp": 1757111871, "timesteps_since_restore": 308400, "episode_len_mean": 4.2811387900355875, "episode_reward_mean": 3.559640365694221, "pid": 2334309, "time_since_restore": 10319.895779371262, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-37-51", "timesteps_total": 1748400, "episode_reward_min": -40.337068021468056, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.03508806228638, "training_iteration": 1457, "info": {"default": {"policy_loss": -0.07072694599628448, "vf_explained_var": 0.7178900837898254, "vf_loss": 8.49805736541748, "kl": 0.007194666191935539, "entropy": -0.08639301359653473, "cur_kl_coeff": 1.3870880603790283, "cur_lr": 4.999999873689376e-05, "total_loss": 8.437309265136719}, "sample_time_ms": 47327.466, "num_steps_trained": 1748400, "num_steps_sampled": 1748400, "update_time_ms": 2.585, "grad_time_ms": 372.487, "load_time_ms": 0.708}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 57087.064042806625, "iterations_since_restore": 258, "episode_reward_max": 4.000746703751247, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 147918, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 293, "timestamp": 1757111919, "timesteps_since_restore": 309600, "episode_len_mean": 4.098976109215017, "episode_reward_mean": 3.8416015506625443, "pid": 2334309, "time_since_restore": 10367.524602413177, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-38-39", "timesteps_total": 1749600, "episode_reward_min": -14.096622334874205, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.628823041915894, "training_iteration": 1458, "info": {"default": {"policy_loss": -0.054501552134752274, "vf_explained_var": 0.7106302380561829, "vf_loss": 2.473252296447754, "kl": 0.007737068459391594, "entropy": -0.5796048641204834, "cur_kl_coeff": 1.3870880603790283, "cur_lr": 4.999999873689376e-05, "total_loss": 2.4294826984405518}, "sample_time_ms": 47272.373, "num_steps_trained": 1749600, "num_steps_sampled": 1749600, "update_time_ms": 2.589, "grad_time_ms": 375.188, "load_time_ms": 0.715}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 57134.572068452835, "iterations_since_restore": 259, "episode_reward_max": 4.000779162797871, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 148206, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 288, "timestamp": 1757111967, "timesteps_since_restore": 310800, "episode_len_mean": 4.159722222222222, "episode_reward_mean": 3.7502035688921467, "pid": 2334309, "time_since_restore": 10415.032628059387, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-39-27", "timesteps_total": 1750800, "episode_reward_min": -15.410972806121414, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.50802564620972, "training_iteration": 1459, "info": {"default": {"policy_loss": -0.05429293215274811, "vf_explained_var": 0.6743777394294739, "vf_loss": 3.9255435466766357, "kl": 0.007466413080692291, "entropy": -0.42985615134239197, "cur_kl_coeff": 1.3870880603790283, "cur_lr": 4.999999873689376e-05, "total_loss": 3.8816075325012207}, "sample_time_ms": 47167.706, "num_steps_trained": 1750800, "num_steps_sampled": 1750800, "update_time_ms": 2.606, "grad_time_ms": 374.696, "load_time_ms": 0.695}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 57182.52361416817, "iterations_since_restore": 260, "episode_reward_max": 4.001797141031242, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 148489, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 283, "timestamp": 1757112015, "timesteps_since_restore": 312000, "episode_len_mean": 4.240282685512367, "episode_reward_mean": 3.627962958021747, "pid": 2334309, "time_since_restore": 10462.98417377472, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-40-15", "timesteps_total": 1752000, "episode_reward_min": -18.629038667602323, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.95154571533203, "training_iteration": 1460, "info": {"default": {"policy_loss": -0.05371754616498947, "vf_explained_var": 0.5488343238830566, "vf_loss": 7.014113426208496, "kl": 0.012625009752810001, "entropy": -0.1336963176727295, "cur_kl_coeff": 1.3870880603790283, "cur_lr": 4.999999873689376e-05, "total_loss": 6.977907657623291}, "sample_time_ms": 47235.657, "num_steps_trained": 1752000, "num_steps_sampled": 1752000, "update_time_ms": 2.597, "grad_time_ms": 375.165, "load_time_ms": 0.679}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 57230.01407575607, "iterations_since_restore": 261, "episode_reward_max": 4.000955035693298, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 148773, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 284, "timestamp": 1757112062, "timesteps_since_restore": 313200, "episode_len_mean": 4.214788732394366, "episode_reward_mean": 3.668911275953495, "pid": 2334309, "time_since_restore": 10510.474635362625, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-41-02", "timesteps_total": 1753200, "episode_reward_min": -29.420896591839053, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.490461587905884, "training_iteration": 1461, "info": {"default": {"policy_loss": -0.05133206397294998, "vf_explained_var": 0.5570003986358643, "vf_loss": 8.413581848144531, "kl": 0.010940681211650372, "entropy": -0.25677430629730225, "cur_kl_coeff": 1.3870880603790283, "cur_lr": 4.999999873689376e-05, "total_loss": 8.377426147460938}, "sample_time_ms": 47199.305, "num_steps_trained": 1753200, "num_steps_sampled": 1753200, "update_time_ms": 2.642, "grad_time_ms": 376.711, "load_time_ms": 0.696}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 57277.987745285034, "iterations_since_restore": 262, "episode_reward_max": 4.00126665921635, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 149069, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757112110, "timesteps_since_restore": 314400, "episode_len_mean": 4.050675675675675, "episode_reward_mean": 3.921663043855134, "pid": 2334309, "time_since_restore": 10558.448304891586, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-41-50", "timesteps_total": 1754400, "episode_reward_min": -4.050359443009162, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.97366952896118, "training_iteration": 1462, "info": {"default": {"policy_loss": -0.03842271864414215, "vf_explained_var": 0.7763909697532654, "vf_loss": 1.7078901529312134, "kl": 0.009725447744131088, "entropy": -0.6051639914512634, "cur_kl_coeff": 1.3870880603790283, "cur_lr": 4.999999873689376e-05, "total_loss": 1.6829575300216675}, "sample_time_ms": 47256.273, "num_steps_trained": 1754400, "num_steps_sampled": 1754400, "update_time_ms": 2.658, "grad_time_ms": 375.102, "load_time_ms": 0.688}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 57326.34613800049, "iterations_since_restore": 263, "episode_reward_max": 4.0017433205822455, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 149357, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 288, "timestamp": 1757112159, "timesteps_since_restore": 315600, "episode_len_mean": 4.177083333333333, "episode_reward_mean": 3.720872126790257, "pid": 2334309, "time_since_restore": 10606.80669760704, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-42-39", "timesteps_total": 1755600, "episode_reward_min": -22.710579583818706, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.3583927154541, "training_iteration": 1463, "info": {"default": {"policy_loss": -0.044724300503730774, "vf_explained_var": 0.6310252547264099, "vf_loss": 6.336330413818359, "kl": 0.01496212836354971, "entropy": -0.37310099601745605, "cur_kl_coeff": 1.3870880603790283, "cur_lr": 4.999999873689376e-05, "total_loss": 6.312359809875488}, "sample_time_ms": 47356.885, "num_steps_trained": 1755600, "num_steps_sampled": 1755600, "update_time_ms": 2.766, "grad_time_ms": 377.794, "load_time_ms": 0.703}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 57374.01381444931, "iterations_since_restore": 264, "episode_reward_max": 4.0009953034147445, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 149634, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 277, "timestamp": 1757112206, "timesteps_since_restore": 316800, "episode_len_mean": 4.317689530685921, "episode_reward_mean": 3.4966312862033626, "pid": 2334309, "time_since_restore": 10654.474374055862, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-43-26", "timesteps_total": 1756800, "episode_reward_min": -21.36868586702382, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.66767644882202, "training_iteration": 1464, "info": {"default": {"policy_loss": -0.061535995453596115, "vf_explained_var": 0.5322654843330383, "vf_loss": 10.790619850158691, "kl": 0.018916010856628418, "entropy": -0.1748257875442505, "cur_kl_coeff": 1.3870880603790283, "cur_lr": 4.999999873689376e-05, "total_loss": 10.755321502685547}, "sample_time_ms": 47365.043, "num_steps_trained": 1756800, "num_steps_sampled": 1756800, "update_time_ms": 2.754, "grad_time_ms": 377.433, "load_time_ms": 0.697}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 57421.842950582504, "iterations_since_restore": 265, "episode_reward_max": 4.001144885128235, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 149920, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 286, "timestamp": 1757112254, "timesteps_since_restore": 318000, "episode_len_mean": 4.20979020979021, "episode_reward_mean": 3.675811402112422, "pid": 2334309, "time_since_restore": 10702.303510189056, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-44-14", "timesteps_total": 1758000, "episode_reward_min": -30.729778146263214, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.82913613319397, "training_iteration": 1465, "info": {"default": {"policy_loss": -0.04985547065734863, "vf_explained_var": 0.5663307905197144, "vf_loss": 7.322983741760254, "kl": 0.016695864498615265, "entropy": -0.3543899953365326, "cur_kl_coeff": 1.3870880603790283, "cur_lr": 4.999999873689376e-05, "total_loss": 7.296285629272461}, "sample_time_ms": 47383.029, "num_steps_trained": 1758000, "num_steps_sampled": 1758000, "update_time_ms": 2.757, "grad_time_ms": 377.896, "load_time_ms": 0.695}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 57469.99046468735, "iterations_since_restore": 266, "episode_reward_max": 4.000872159495527, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 150215, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757112302, "timesteps_since_restore": 319200, "episode_len_mean": 4.061016949152543, "episode_reward_mean": 3.9039438303646814, "pid": 2334309, "time_since_restore": 10750.4510242939, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-45-02", "timesteps_total": 1759200, "episode_reward_min": -13.238624069778613, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.14751410484314, "training_iteration": 1466, "info": {"default": {"policy_loss": -0.03422060236334801, "vf_explained_var": 0.8211068511009216, "vf_loss": 1.5726581811904907, "kl": 0.015840735286474228, "entropy": -0.5468952655792236, "cur_kl_coeff": 1.3870880603790283, "cur_lr": 4.999999873689376e-05, "total_loss": 1.5604100227355957}, "sample_time_ms": 47469.433, "num_steps_trained": 1759200, "num_steps_sampled": 1759200, "update_time_ms": 2.707, "grad_time_ms": 380.039, "load_time_ms": 0.712}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 57518.082249403, "iterations_since_restore": 267, "episode_reward_max": 4.000932276517646, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 150507, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757112350, "timesteps_since_restore": 320400, "episode_len_mean": 4.1061643835616435, "episode_reward_mean": 3.8290036933461042, "pid": 2334309, "time_since_restore": 10798.542809009552, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-45-50", "timesteps_total": 1760400, "episode_reward_min": -24.962167344191634, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.091784715652466, "training_iteration": 1467, "info": {"default": {"policy_loss": -0.03570576757192612, "vf_explained_var": 0.687618613243103, "vf_loss": 4.782097816467285, "kl": 0.012407583184540272, "entropy": -0.37311670184135437, "cur_kl_coeff": 1.3870880603790283, "cur_lr": 4.999999873689376e-05, "total_loss": 4.763602256774902}, "sample_time_ms": 47475.356, "num_steps_trained": 1760400, "num_steps_sampled": 1760400, "update_time_ms": 2.723, "grad_time_ms": 379.729, "load_time_ms": 0.706}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 57565.84787297249, "iterations_since_restore": 268, "episode_reward_max": 4.00135685138809, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 150806, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757112398, "timesteps_since_restore": 321600, "episode_len_mean": 4.016722408026756, "episode_reward_mean": 3.9734752079331237, "pid": 2334309, "time_since_restore": 10846.30843257904, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-46-38", "timesteps_total": 1761600, "episode_reward_min": -4.023925289375876, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.765623569488525, "training_iteration": 1468, "info": {"default": {"policy_loss": -0.02925533428788185, "vf_explained_var": 0.9540842771530151, "vf_loss": 0.2785450220108032, "kl": 0.014913595281541348, "entropy": -0.6924518346786499, "cur_kl_coeff": 1.3870880603790283, "cur_lr": 4.999999873689376e-05, "total_loss": 0.2699761986732483}, "sample_time_ms": 47490.243, "num_steps_trained": 1761600, "num_steps_sampled": 1761600, "update_time_ms": 2.698, "grad_time_ms": 378.532, "load_time_ms": 0.699}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 57613.79775285721, "iterations_since_restore": 269, "episode_reward_max": 4.001376978423049, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 151105, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757112446, "timesteps_since_restore": 322800, "episode_len_mean": 4.016722408026756, "episode_reward_mean": 3.9734048419036863, "pid": 2334309, "time_since_restore": 10894.25831246376, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-47-26", "timesteps_total": 1762800, "episode_reward_min": -4.045601542245093, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.94987988471985, "training_iteration": 1469, "info": {"default": {"policy_loss": -0.025279439985752106, "vf_explained_var": 0.953485369682312, "vf_loss": 0.27982062101364136, "kl": 0.004505502060055733, "entropy": -0.7000296115875244, "cur_kl_coeff": 1.3870880603790283, "cur_lr": 4.999999873689376e-05, "total_loss": 0.26079070568084717}, "sample_time_ms": 47536.278, "num_steps_trained": 1762800, "num_steps_sampled": 1762800, "update_time_ms": 2.679, "grad_time_ms": 376.709, "load_time_ms": 0.706}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 57661.818485975266, "iterations_since_restore": 270, "episode_reward_max": 4.001093807091266, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 151397, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757112494, "timesteps_since_restore": 324000, "episode_len_mean": 4.109589041095891, "episode_reward_mean": 3.8323485646248554, "pid": 2334309, "time_since_restore": 10942.279045581818, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-48-14", "timesteps_total": 1764000, "episode_reward_min": -16.070037468894245, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.02073311805725, "training_iteration": 1470, "info": {"default": {"policy_loss": -0.043187737464904785, "vf_explained_var": 0.6972841620445251, "vf_loss": 2.799201011657715, "kl": 0.01345019694417715, "entropy": -0.4793567657470703, "cur_kl_coeff": 0.6935440301895142, "cur_lr": 4.999999873689376e-05, "total_loss": 2.7653415203094482}, "sample_time_ms": 47542.949, "num_steps_trained": 1764000, "num_steps_sampled": 1764000, "update_time_ms": 2.679, "grad_time_ms": 376.966, "load_time_ms": 0.714}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 57709.54187107086, "iterations_since_restore": 271, "episode_reward_max": 4.001415245559349, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 151696, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757112542, "timesteps_since_restore": 325200, "episode_len_mean": 4.013377926421405, "episode_reward_mean": 3.980114491971476, "pid": 2334309, "time_since_restore": 10990.002430677414, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-49-02", "timesteps_total": 1765200, "episode_reward_min": -2.039835863908465, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.72338509559631, "training_iteration": 1471, "info": {"default": {"policy_loss": -0.02304212935268879, "vf_explained_var": 0.9693991541862488, "vf_loss": 0.17520728707313538, "kl": 0.023781321942806244, "entropy": -0.6346623301506042, "cur_kl_coeff": 0.6935440301895142, "cur_lr": 4.999999873689376e-05, "total_loss": 0.1686585545539856}, "sample_time_ms": 47566.608, "num_steps_trained": 1765200, "num_steps_sampled": 1765200, "update_time_ms": 2.65, "grad_time_ms": 376.612, "load_time_ms": 0.712}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 57757.52287840843, "iterations_since_restore": 272, "episode_reward_max": 4.000732737492392, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 151985, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 289, "timestamp": 1757112590, "timesteps_since_restore": 326400, "episode_len_mean": 4.155709342560554, "episode_reward_mean": 3.7647659713034862, "pid": 2334309, "time_since_restore": 11037.983438014984, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-49-50", "timesteps_total": 1766400, "episode_reward_min": -18.480062961069635, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.98100733757019, "training_iteration": 1472, "info": {"default": {"policy_loss": -0.05782701075077057, "vf_explained_var": 0.7000874876976013, "vf_loss": 3.60642147064209, "kl": 0.027552656829357147, "entropy": -0.3989873230457306, "cur_kl_coeff": 1.040316104888916, "cur_lr": 4.999999873689376e-05, "total_loss": 3.5772581100463867}, "sample_time_ms": 47567.558, "num_steps_trained": 1766400, "num_steps_sampled": 1766400, "update_time_ms": 2.686, "grad_time_ms": 376.451, "load_time_ms": 0.714}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 57805.37796449661, "iterations_since_restore": 273, "episode_reward_max": 4.002095846133504, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 152285, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757112638, "timesteps_since_restore": 327600, "episode_len_mean": 4.0, "episode_reward_mean": 4.000308901940307, "pid": 2334309, "time_since_restore": 11085.838524103165, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-50-38", "timesteps_total": 1767600, "episode_reward_min": 4.000115334760839, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.85508608818054, "training_iteration": 1473, "info": {"default": {"policy_loss": -0.09067479521036148, "vf_explained_var": 0.9988996982574463, "vf_loss": 0.00601922208443284, "kl": 0.025429440662264824, "entropy": -0.6960827112197876, "cur_kl_coeff": 1.560474157333374, "cur_lr": 4.999999873689376e-05, "total_loss": -0.044973596930503845}, "sample_time_ms": 47519.645, "num_steps_trained": 1767600, "num_steps_sampled": 1767600, "update_time_ms": 2.591, "grad_time_ms": 374.16, "load_time_ms": 0.703}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 57853.25866532326, "iterations_since_restore": 274, "episode_reward_max": 4.0007274286571635, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 152571, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 286, "timestamp": 1757112686, "timesteps_since_restore": 328800, "episode_len_mean": 4.188811188811189, "episode_reward_mean": 3.701937035305616, "pid": 2334309, "time_since_restore": 11133.71922492981, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-51-26", "timesteps_total": 1768800, "episode_reward_min": -24.515069949751293, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.8807008266449, "training_iteration": 1474, "info": {"default": {"policy_loss": -0.04933428764343262, "vf_explained_var": 0.5963819026947021, "vf_loss": 6.575681209564209, "kl": 0.013204150833189487, "entropy": -0.3598807752132416, "cur_kl_coeff": 2.3407111167907715, "cur_lr": 4.999999873689376e-05, "total_loss": 6.557253837585449}, "sample_time_ms": 47542.853, "num_steps_trained": 1768800, "num_steps_sampled": 1768800, "update_time_ms": 2.611, "grad_time_ms": 372.181, "load_time_ms": 0.697}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 57901.089195013046, "iterations_since_restore": 275, "episode_reward_max": 4.001903044493133, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 152854, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 283, "timestamp": 1757112733, "timesteps_since_restore": 330000, "episode_len_mean": 4.23321554770318, "episode_reward_mean": 3.6413503086847925, "pid": 2334309, "time_since_restore": 11181.549754619598, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-52-13", "timesteps_total": 1770000, "episode_reward_min": -42.805849205254106, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.83052968978882, "training_iteration": 1475, "info": {"default": {"policy_loss": -0.052331726998090744, "vf_explained_var": 0.6088579297065735, "vf_loss": 11.742603302001953, "kl": 0.004582360852509737, "entropy": -0.1885070949792862, "cur_kl_coeff": 2.3407111167907715, "cur_lr": 4.999999873689376e-05, "total_loss": 11.70099925994873}, "sample_time_ms": 47542.001, "num_steps_trained": 1770000, "num_steps_sampled": 1770000, "update_time_ms": 2.616, "grad_time_ms": 373.127, "load_time_ms": 0.694}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 57948.26105928421, "iterations_since_restore": 276, "episode_reward_max": 4.001500888367179, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 153153, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757112781, "timesteps_since_restore": 331200, "episode_len_mean": 4.023411371237458, "episode_reward_mean": 3.963355237851038, "pid": 2334309, "time_since_restore": 11228.721618890762, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-53-01", "timesteps_total": 1771200, "episode_reward_min": -2.052482935231893, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.17186427116394, "training_iteration": 1476, "info": {"default": {"policy_loss": -0.05512399226427078, "vf_explained_var": 0.9463942050933838, "vf_loss": 0.2899523377418518, "kl": 0.015788814052939415, "entropy": -0.6829190850257874, "cur_kl_coeff": 1.1703555583953857, "cur_lr": 4.999999873689376e-05, "total_loss": 0.2533068358898163}, "sample_time_ms": 47444.945, "num_steps_trained": 1771200, "num_steps_sampled": 1771200, "update_time_ms": 2.649, "grad_time_ms": 372.541, "load_time_ms": 0.69}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 57995.50839781761, "iterations_since_restore": 277, "episode_reward_max": 4.000907602799169, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 153451, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757112828, "timesteps_since_restore": 332400, "episode_len_mean": 4.033557046979865, "episode_reward_mean": 3.9470659497602285, "pid": 2334309, "time_since_restore": 11275.968957424164, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-53-48", "timesteps_total": 1772400, "episode_reward_min": -11.864487451887882, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.24733853340149, "training_iteration": 1477, "info": {"default": {"policy_loss": -0.025927437469363213, "vf_explained_var": 0.8896243572235107, "vf_loss": 0.9246392846107483, "kl": 0.009455346502363682, "entropy": -0.5875173211097717, "cur_kl_coeff": 1.1703555583953857, "cur_lr": 4.999999873689376e-05, "total_loss": 0.9097779393196106}, "sample_time_ms": 47359.789, "num_steps_trained": 1772400, "num_steps_sampled": 1772400, "update_time_ms": 2.632, "grad_time_ms": 373.241, "load_time_ms": 0.689}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 58044.219180345535, "iterations_since_restore": 278, "episode_reward_max": 4.001717906574883, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 153744, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 293, "timestamp": 1757112877, "timesteps_since_restore": 333600, "episode_len_mean": 4.1058020477815695, "episode_reward_mean": 3.8284693659042572, "pid": 2334309, "time_since_restore": 11324.679739952087, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-54-37", "timesteps_total": 1773600, "episode_reward_min": -18.166590922858003, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.710782527923584, "training_iteration": 1478, "info": {"default": {"policy_loss": -0.038619909435510635, "vf_explained_var": 0.7000724673271179, "vf_loss": 3.3264856338500977, "kl": 0.01480559166520834, "entropy": -0.507673978805542, "cur_kl_coeff": 1.1703555583953857, "cur_lr": 4.999999873689376e-05, "total_loss": 3.3051939010620117}, "sample_time_ms": 47453.746, "num_steps_trained": 1773600, "num_steps_sampled": 1773600, "update_time_ms": 2.668, "grad_time_ms": 373.759, "load_time_ms": 0.689}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 58092.09345912933, "iterations_since_restore": 279, "episode_reward_max": 4.0014431695075485, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 154038, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757112924, "timesteps_since_restore": 334800, "episode_len_mean": 4.071428571428571, "episode_reward_mean": 3.8915638712954146, "pid": 2334309, "time_since_restore": 11372.554018735886, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-55-24", "timesteps_total": 1774800, "episode_reward_min": -18.989038485941414, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.87427878379822, "training_iteration": 1479, "info": {"default": {"policy_loss": -0.035056278109550476, "vf_explained_var": 0.7686453461647034, "vf_loss": 2.2828567028045654, "kl": 0.008585826493799686, "entropy": -0.5124003887176514, "cur_kl_coeff": 1.1703555583953857, "cur_lr": 4.999999873689376e-05, "total_loss": 2.2578492164611816}, "sample_time_ms": 47443.134, "num_steps_trained": 1774800, "num_steps_sampled": 1774800, "update_time_ms": 2.671, "grad_time_ms": 376.739, "load_time_ms": 0.7}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 58140.32648944855, "iterations_since_restore": 280, "episode_reward_max": 4.001604810804064, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 154336, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757112973, "timesteps_since_restore": 336000, "episode_len_mean": 4.02013422818792, "episode_reward_mean": 3.970842957244809, "pid": 2334309, "time_since_restore": 11420.7870490551, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-56-13", "timesteps_total": 1776000, "episode_reward_min": -4.779140717560455, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.23303031921387, "training_iteration": 1480, "info": {"default": {"policy_loss": -0.019469482824206352, "vf_explained_var": 0.9408183693885803, "vf_loss": 0.3544977009296417, "kl": 0.00958480965346098, "entropy": -0.6057462096214294, "cur_kl_coeff": 1.1703555583953857, "cur_lr": 4.999999873689376e-05, "total_loss": 0.3462458848953247}, "sample_time_ms": 47463.942, "num_steps_trained": 1776000, "num_steps_sampled": 1776000, "update_time_ms": 2.725, "grad_time_ms": 377.061, "load_time_ms": 0.718}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 58188.4601225853, "iterations_since_restore": 281, "episode_reward_max": 4.001340569118447, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 154627, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757113021, "timesteps_since_restore": 337200, "episode_len_mean": 4.123711340206185, "episode_reward_mean": 3.810420761283396, "pid": 2334309, "time_since_restore": 11468.920682191849, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-57-01", "timesteps_total": 1777200, "episode_reward_min": -14.342424828387706, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.13363313674927, "training_iteration": 1481, "info": {"default": {"policy_loss": -0.036205511540174484, "vf_explained_var": 0.7776699066162109, "vf_loss": 2.0132150650024414, "kl": 0.0586586520075798, "entropy": -0.3567342460155487, "cur_kl_coeff": 1.1703555583953857, "cur_lr": 4.999999873689376e-05, "total_loss": 2.045660972595215}, "sample_time_ms": 47504.899, "num_steps_trained": 1777200, "num_steps_sampled": 1777200, "update_time_ms": 2.753, "grad_time_ms": 377.08, "load_time_ms": 0.722}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 58236.56802582741, "iterations_since_restore": 282, "episode_reward_max": 4.000877805406983, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 154915, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 288, "timestamp": 1757113069, "timesteps_since_restore": 338400, "episode_len_mean": 4.166666666666667, "episode_reward_mean": 3.736179056029818, "pid": 2334309, "time_since_restore": 11517.02858543396, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-57-49", "timesteps_total": 1778400, "episode_reward_min": -32.47227840820963, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.107903242111206, "training_iteration": 1482, "info": {"default": {"policy_loss": -0.041337717324495316, "vf_explained_var": 0.6588791012763977, "vf_loss": 7.894425392150879, "kl": 0.006450352258980274, "entropy": -0.23356488347053528, "cur_kl_coeff": 1.7555333375930786, "cur_lr": 4.999999873689376e-05, "total_loss": 7.864411354064941}, "sample_time_ms": 47518.009, "num_steps_trained": 1778400, "num_steps_sampled": 1778400, "update_time_ms": 2.748, "grad_time_ms": 376.682, "load_time_ms": 0.711}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 58284.94479060173, "iterations_since_restore": 283, "episode_reward_max": 4.000708793314142, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 155206, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757113117, "timesteps_since_restore": 339600, "episode_len_mean": 4.120274914089347, "episode_reward_mean": 3.806150817211001, "pid": 2334309, "time_since_restore": 11565.405350208282, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-58-37", "timesteps_total": 1779600, "episode_reward_min": -28.798796717502178, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.37676477432251, "training_iteration": 1483, "info": {"default": {"policy_loss": -0.04491018131375313, "vf_explained_var": 0.6819338798522949, "vf_loss": 5.703312873840332, "kl": 0.006265752948820591, "entropy": -0.3289697468280792, "cur_kl_coeff": 1.7555333375930786, "cur_lr": 4.999999873689376e-05, "total_loss": 5.669403076171875}, "sample_time_ms": 47571.11, "num_steps_trained": 1779600, "num_steps_sampled": 1779600, "update_time_ms": 2.724, "grad_time_ms": 375.742, "load_time_ms": 0.704}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 58332.6464009285, "iterations_since_restore": 284, "episode_reward_max": 4.001368605963987, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 155487, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 281, "timestamp": 1757113165, "timesteps_since_restore": 340800, "episode_len_mean": 4.234875444839858, "episode_reward_mean": 3.6379479309515115, "pid": 2334309, "time_since_restore": 11613.10696053505, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_00-59-25", "timesteps_total": 1780800, "episode_reward_min": -57.285618293037274, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.70161032676697, "training_iteration": 1484, "info": {"default": {"policy_loss": -0.058942947536706924, "vf_explained_var": 0.6739255785942078, "vf_loss": 12.751531600952148, "kl": 0.006058859173208475, "entropy": -0.020460639148950577, "cur_kl_coeff": 1.7555333375930786, "cur_lr": 4.999999873689376e-05, "total_loss": 12.703225135803223}, "sample_time_ms": 47553.048, "num_steps_trained": 1780800, "num_steps_sampled": 1780800, "update_time_ms": 2.73, "grad_time_ms": 375.955, "load_time_ms": 0.704}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 58380.20733451843, "iterations_since_restore": 285, "episode_reward_max": 5.367706481521429, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 155781, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757113213, "timesteps_since_restore": 342000, "episode_len_mean": 4.125850340136054, "episode_reward_mean": 3.809629903545442, "pid": 2334309, "time_since_restore": 11660.667894124985, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-00-13", "timesteps_total": 1782000, "episode_reward_min": -16.284271901127514, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.5609335899353, "training_iteration": 1485, "info": {"default": {"policy_loss": -0.04852922260761261, "vf_explained_var": 0.6941145062446594, "vf_loss": 3.129826784133911, "kl": 0.00752831669524312, "entropy": -0.36092373728752136, "cur_kl_coeff": 1.7555333375930786, "cur_lr": 4.999999873689376e-05, "total_loss": 3.0945136547088623}, "sample_time_ms": 47527.539, "num_steps_trained": 1782000, "num_steps_sampled": 1782000, "update_time_ms": 2.71, "grad_time_ms": 374.589, "load_time_ms": 0.712}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 58428.67666769028, "iterations_since_restore": 286, "episode_reward_max": 4.00119531905306, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 156069, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 288, "timestamp": 1757113261, "timesteps_since_restore": 343200, "episode_len_mean": 4.163194444444445, "episode_reward_mean": 3.748046627373943, "pid": 2334309, "time_since_restore": 11709.13722729683, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-01-01", "timesteps_total": 1783200, "episode_reward_min": -28.28002426914125, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.46933317184448, "training_iteration": 1486, "info": {"default": {"policy_loss": -0.05011492967605591, "vf_explained_var": 0.707838773727417, "vf_loss": 5.04840612411499, "kl": 0.0053384676575660706, "entropy": -0.1878373622894287, "cur_kl_coeff": 1.7555333375930786, "cur_lr": 4.999999873689376e-05, "total_loss": 5.007662296295166}, "sample_time_ms": 47658.804, "num_steps_trained": 1783200, "num_steps_sampled": 1783200, "update_time_ms": 2.633, "grad_time_ms": 373.142, "load_time_ms": 0.699}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 58476.744891405106, "iterations_since_restore": 287, "episode_reward_max": 4.001643913915465, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 156360, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757113309, "timesteps_since_restore": 344400, "episode_len_mean": 4.123711340206185, "episode_reward_mean": 3.8114757521171767, "pid": 2334309, "time_since_restore": 11757.205451011658, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-01-49", "timesteps_total": 1784400, "episode_reward_min": -22.86650198429976, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.06822371482849, "training_iteration": 1487, "info": {"default": {"policy_loss": -0.04189155995845795, "vf_explained_var": 0.7460923194885254, "vf_loss": 3.4060635566711426, "kl": 0.006053046323359013, "entropy": -0.3648853600025177, "cur_kl_coeff": 1.7555333375930786, "cur_lr": 4.999999873689376e-05, "total_loss": 3.374798536300659}, "sample_time_ms": 47742.671, "num_steps_trained": 1784400, "num_steps_sampled": 1784400, "update_time_ms": 2.599, "grad_time_ms": 371.47, "load_time_ms": 0.694}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 58524.62633395195, "iterations_since_restore": 288, "episode_reward_max": 4.000790435557155, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 156655, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757113357, "timesteps_since_restore": 345600, "episode_len_mean": 4.074576271186441, "episode_reward_mean": 3.8844985319038488, "pid": 2334309, "time_since_restore": 11805.086893558502, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-02-37", "timesteps_total": 1785600, "episode_reward_min": -19.917506198944867, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.88144254684448, "training_iteration": 1488, "info": {"default": {"policy_loss": -0.044471725821495056, "vf_explained_var": 0.8356528282165527, "vf_loss": 1.7151730060577393, "kl": 0.003841653000563383, "entropy": -0.46060317754745483, "cur_kl_coeff": 1.7555333375930786, "cur_lr": 4.999999873689376e-05, "total_loss": 1.677445411682129}, "sample_time_ms": 47660.584, "num_steps_trained": 1785600, "num_steps_sampled": 1785600, "update_time_ms": 2.599, "grad_time_ms": 370.637, "load_time_ms": 0.697}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 58572.869487047195, "iterations_since_restore": 289, "episode_reward_max": 4.0014526511154855, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 156952, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757113405, "timesteps_since_restore": 346800, "episode_len_mean": 4.037037037037037, "episode_reward_mean": 3.945065276458107, "pid": 2334309, "time_since_restore": 11853.330046653748, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-03-25", "timesteps_total": 1786800, "episode_reward_min": -12.406612141170722, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.24315309524536, "training_iteration": 1489, "info": {"default": {"policy_loss": -0.026395224034786224, "vf_explained_var": 0.8768920302391052, "vf_loss": 0.9853985905647278, "kl": 0.005646197125315666, "entropy": -0.5728966593742371, "cur_kl_coeff": 0.8777666687965393, "cur_lr": 4.999999873689376e-05, "total_loss": 0.9639594554901123}, "sample_time_ms": 47698.731, "num_steps_trained": 1786800, "num_steps_sampled": 1786800, "update_time_ms": 2.58, "grad_time_ms": 369.376, "load_time_ms": 0.684}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 58621.377677202225, "iterations_since_restore": 290, "episode_reward_max": 4.001076022736936, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 157244, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757113454, "timesteps_since_restore": 348000, "episode_len_mean": 4.1061643835616435, "episode_reward_mean": 3.8416093045819126, "pid": 2334309, "time_since_restore": 11901.838236808777, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-04-14", "timesteps_total": 1788000, "episode_reward_min": -9.789135141067955, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.5081901550293, "training_iteration": 1490, "info": {"default": {"policy_loss": -0.05029052495956421, "vf_explained_var": 0.770518958568573, "vf_loss": 1.9061777591705322, "kl": 0.008861835114657879, "entropy": -0.3713545799255371, "cur_kl_coeff": 0.8777666687965393, "cur_lr": 4.999999873689376e-05, "total_loss": 1.8636659383773804}, "sample_time_ms": 47728.346, "num_steps_trained": 1788000, "num_steps_sampled": 1788000, "update_time_ms": 2.552, "grad_time_ms": 367.332, "load_time_ms": 0.67}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 58669.665350914, "iterations_since_restore": 291, "episode_reward_max": 4.0009934378829755, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 157538, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757113502, "timesteps_since_restore": 349200, "episode_len_mean": 4.08843537414966, "episode_reward_mean": 3.861611962287703, "pid": 2334309, "time_since_restore": 11950.125910520554, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-05-02", "timesteps_total": 1789200, "episode_reward_min": -14.66826948609232, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.28767371177673, "training_iteration": 1491, "info": {"default": {"policy_loss": -0.04508044198155403, "vf_explained_var": 0.8156061768531799, "vf_loss": 1.4944891929626465, "kl": 0.010516542941331863, "entropy": -0.3793157637119293, "cur_kl_coeff": 0.8777666687965393, "cur_lr": 4.999999873689376e-05, "total_loss": 1.4586397409439087}, "sample_time_ms": 47746.615, "num_steps_trained": 1789200, "num_steps_sampled": 1789200, "update_time_ms": 2.493, "grad_time_ms": 364.591, "load_time_ms": 0.657}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 58717.83570408821, "iterations_since_restore": 292, "episode_reward_max": 4.000815992712743, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 157833, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757113551, "timesteps_since_restore": 350400, "episode_len_mean": 4.064406779661017, "episode_reward_mean": 3.906324215051625, "pid": 2334309, "time_since_restore": 11998.296263694763, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-05-51", "timesteps_total": 1790400, "episode_reward_min": -7.01038379525713, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.170353174209595, "training_iteration": 1492, "info": {"default": {"policy_loss": -0.04259985685348511, "vf_explained_var": 0.8635613918304443, "vf_loss": 0.9292199015617371, "kl": 0.01104187685996294, "entropy": -0.599554717540741, "cur_kl_coeff": 0.8777666687965393, "cur_lr": 4.999999873689376e-05, "total_loss": 0.8963122963905334}, "sample_time_ms": 47751.525, "num_steps_trained": 1790400, "num_steps_sampled": 1790400, "update_time_ms": 2.463, "grad_time_ms": 365.898, "load_time_ms": 0.662}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 58766.2333316803, "iterations_since_restore": 293, "episode_reward_max": 4.000998079452581, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 158131, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757113599, "timesteps_since_restore": 351600, "episode_len_mean": 4.033557046979865, "episode_reward_mean": 3.948982706917939, "pid": 2334309, "time_since_restore": 12046.69389128685, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-06-39", "timesteps_total": 1791600, "episode_reward_min": -5.265045842193349, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.39762759208679, "training_iteration": 1493, "info": {"default": {"policy_loss": -0.02772686816751957, "vf_explained_var": 0.9153040647506714, "vf_loss": 0.5251808166503906, "kl": 0.005200868472456932, "entropy": -0.5814220905303955, "cur_kl_coeff": 0.8777666687965393, "cur_lr": 4.999999873689376e-05, "total_loss": 0.5020191073417664}, "sample_time_ms": 47751.522, "num_steps_trained": 1791600, "num_steps_sampled": 1791600, "update_time_ms": 2.469, "grad_time_ms": 367.895, "load_time_ms": 0.676}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 58814.80510902405, "iterations_since_restore": 294, "episode_reward_max": 4.001867468674007, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 158430, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757113648, "timesteps_since_restore": 352800, "episode_len_mean": 4.0200668896321075, "episode_reward_mean": 3.9667169195325696, "pid": 2334309, "time_since_restore": 12095.2656686306, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-07-28", "timesteps_total": 1792800, "episode_reward_min": -6.039949817073591, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.57177734375, "training_iteration": 1494, "info": {"default": {"policy_loss": -0.023479994386434555, "vf_explained_var": 0.9427204132080078, "vf_loss": 0.36853715777397156, "kl": 0.0073012132197618484, "entropy": -0.6302478313446045, "cur_kl_coeff": 0.8777666687965393, "cur_lr": 4.999999873689376e-05, "total_loss": 0.3514659106731415}, "sample_time_ms": 47836.9, "num_steps_trained": 1792800, "num_steps_sampled": 1792800, "update_time_ms": 2.435, "grad_time_ms": 369.555, "load_time_ms": 0.679}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 58862.941940546036, "iterations_since_restore": 295, "episode_reward_max": 4.001000613333241, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 158723, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 293, "timestamp": 1757113696, "timesteps_since_restore": 354000, "episode_len_mean": 4.0580204778157, "episode_reward_mean": 3.9104528865461017, "pid": 2334309, "time_since_restore": 12143.402500152588, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-08-16", "timesteps_total": 1794000, "episode_reward_min": -22.32744859043227, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.136831521987915, "training_iteration": 1495, "info": {"default": {"policy_loss": -0.04434238001704216, "vf_explained_var": 0.7857950925827026, "vf_loss": 2.733830451965332, "kl": 0.005275258794426918, "entropy": -0.4426293671131134, "cur_kl_coeff": 0.8777666687965393, "cur_lr": 4.999999873689376e-05, "total_loss": 2.6941184997558594}, "sample_time_ms": 47892.986, "num_steps_trained": 1794000, "num_steps_sampled": 1794000, "update_time_ms": 2.453, "grad_time_ms": 371.012, "load_time_ms": 0.681}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 58911.793342113495, "iterations_since_restore": 296, "episode_reward_max": 4.000678445948381, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 159015, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757113745, "timesteps_since_restore": 355200, "episode_len_mean": 4.147260273972603, "episode_reward_mean": 3.777543533617272, "pid": 2334309, "time_since_restore": 12192.253901720047, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-09-05", "timesteps_total": 1795200, "episode_reward_min": -22.597877487235195, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.851401567459106, "training_iteration": 1496, "info": {"default": {"policy_loss": -0.04191547632217407, "vf_explained_var": 0.771361231803894, "vf_loss": 2.2551934719085693, "kl": 0.006914498284459114, "entropy": -0.32842591404914856, "cur_kl_coeff": 0.8777666687965393, "cur_lr": 4.999999873689376e-05, "total_loss": 2.2193472385406494}, "sample_time_ms": 47930.293, "num_steps_trained": 1795200, "num_steps_sampled": 1795200, "update_time_ms": 2.543, "grad_time_ms": 371.902, "load_time_ms": 0.69}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 58959.55150651932, "iterations_since_restore": 297, "episode_reward_max": 4.001304998829311, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 159310, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757113792, "timesteps_since_restore": 356400, "episode_len_mean": 4.057627118644068, "episode_reward_mean": 3.9102500973877072, "pid": 2334309, "time_since_restore": 12240.01206612587, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-09-52", "timesteps_total": 1796400, "episode_reward_min": -11.663521000781312, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.758164405822754, "training_iteration": 1497, "info": {"default": {"policy_loss": -0.003740181913599372, "vf_explained_var": 0.8134986162185669, "vf_loss": 1.4699842929840088, "kl": 0.3317788541316986, "entropy": -0.16373310983181, "cur_kl_coeff": 0.8777666687965393, "cur_lr": 4.999999873689376e-05, "total_loss": 1.7574684619903564}, "sample_time_ms": 47899.596, "num_steps_trained": 1796400, "num_steps_sampled": 1796400, "update_time_ms": 2.546, "grad_time_ms": 371.551, "load_time_ms": 0.708}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 59007.01270389557, "iterations_since_restore": 298, "episode_reward_max": 4.000728452663906, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 159531, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 221, "timestamp": 1757113840, "timesteps_since_restore": 357600, "episode_len_mean": 5.375565610859729, "episode_reward_mean": 1.871155706541936, "pid": 2334309, "time_since_restore": 12287.473263502121, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-10-40", "timesteps_total": 1797600, "episode_reward_min": -55.980025071938684, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.46119737625122, "training_iteration": 1498, "info": {"default": {"policy_loss": -0.09376594424247742, "vf_explained_var": 0.33703216910362244, "vf_loss": 58.87983703613281, "kl": 0.013154406100511551, "entropy": 2.0745558738708496, "cur_kl_coeff": 1.3166500329971313, "cur_lr": 4.999999873689376e-05, "total_loss": 58.80338668823242}, "sample_time_ms": 47856.99, "num_steps_trained": 1797600, "num_steps_sampled": 1797600, "update_time_ms": 2.522, "grad_time_ms": 372.14, "load_time_ms": 0.707}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 59053.597039461136, "iterations_since_restore": 299, "episode_reward_max": 4.000764131823454, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 159725, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 194, "timestamp": 1757113886, "timesteps_since_restore": 358800, "episode_len_mean": 6.164948453608248, "episode_reward_mean": 0.6014691050551694, "pid": 2334309, "time_since_restore": 12334.057599067688, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-11-26", "timesteps_total": 1798800, "episode_reward_min": -53.10469093175571, "num_metric_batches_dropped": 0, "time_this_iter_s": 46.58433556556702, "training_iteration": 1499, "info": {"default": {"policy_loss": -0.11169237643480301, "vf_explained_var": 0.3129764497280121, "vf_loss": 89.26313781738281, "kl": 0.014232312329113483, "entropy": 2.928476095199585, "cur_kl_coeff": 1.3166500329971313, "cur_lr": 4.999999873689376e-05, "total_loss": 89.17018127441406}, "sample_time_ms": 47690.776, "num_steps_trained": 1798800, "num_steps_sampled": 1798800, "update_time_ms": 2.555, "grad_time_ms": 372.518, "load_time_ms": 0.723}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 59100.16196537018, "iterations_since_restore": 300, "episode_reward_max": 4.000949799622862, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 159952, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 227, "timestamp": 1757113933, "timesteps_since_restore": 360000, "episode_len_mean": 5.356828193832599, "episode_reward_mean": 1.8747479981393018, "pid": 2334309, "time_since_restore": 12380.62252497673, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-12-13", "timesteps_total": 1800000, "episode_reward_min": -48.21001918361358, "num_metric_batches_dropped": 0, "time_this_iter_s": 46.56492590904236, "training_iteration": 1500, "info": {"default": {"policy_loss": -0.09851852059364319, "vf_explained_var": 0.3462923765182495, "vf_loss": 38.56806945800781, "kl": 0.013793195597827435, "entropy": 1.9399638175964355, "cur_kl_coeff": 1.3166500329971313, "cur_lr": 4.999999873689376e-05, "total_loss": 38.48771286010742}, "sample_time_ms": 47496.647, "num_steps_trained": 1800000, "num_steps_sampled": 1800000, "update_time_ms": 2.541, "grad_time_ms": 372.379, "load_time_ms": 0.719}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 59147.73744058609, "iterations_since_restore": 301, "episode_reward_max": 4.000778665793747, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 160196, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 244, "timestamp": 1757113981, "timesteps_since_restore": 361200, "episode_len_mean": 4.913934426229508, "episode_reward_mean": 2.560729216065653, "pid": 2334309, "time_since_restore": 12428.198000192642, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-13-01", "timesteps_total": 1801200, "episode_reward_min": -25.501692447140435, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.575475215911865, "training_iteration": 1501, "info": {"default": {"policy_loss": -0.09744135290384293, "vf_explained_var": 0.3519737124443054, "vf_loss": 24.677688598632812, "kl": 0.013975206762552261, "entropy": 1.3364484310150146, "cur_kl_coeff": 1.3166500329971313, "cur_lr": 4.999999873689376e-05, "total_loss": 24.598648071289062}, "sample_time_ms": 47424.568, "num_steps_trained": 1801200, "num_steps_sampled": 1801200, "update_time_ms": 2.546, "grad_time_ms": 373.288, "load_time_ms": 0.723}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 59194.68602156639, "iterations_since_restore": 302, "episode_reward_max": 4.000583082499429, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 160454, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 258, "timestamp": 1757114028, "timesteps_since_restore": 362400, "episode_len_mean": 4.627906976744186, "episode_reward_mean": 3.0361572528285246, "pid": 2334309, "time_since_restore": 12475.146581172943, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-13-48", "timesteps_total": 1802400, "episode_reward_min": -26.682987309756285, "num_metric_batches_dropped": 0, "time_this_iter_s": 46.9485809803009, "training_iteration": 1502, "info": {"default": {"policy_loss": -0.08916544914245605, "vf_explained_var": 0.39876753091812134, "vf_loss": 16.90936279296875, "kl": 0.011892399750649929, "entropy": 0.8275970816612244, "cur_kl_coeff": 1.3166500329971313, "cur_lr": 4.999999873689376e-05, "total_loss": 16.835859298706055}, "sample_time_ms": 47300.706, "num_steps_trained": 1802400, "num_steps_sampled": 1802400, "update_time_ms": 2.549, "grad_time_ms": 374.981, "load_time_ms": 0.734}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 59241.64568400383, "iterations_since_restore": 303, "episode_reward_max": 4.001764594501488, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 160727, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 273, "timestamp": 1757114075, "timesteps_since_restore": 363600, "episode_len_mean": 4.428571428571429, "episode_reward_mean": 3.3490744332617504, "pid": 2334309, "time_since_restore": 12522.106243610382, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-14-35", "timesteps_total": 1803600, "episode_reward_min": -30.370285337530923, "num_metric_batches_dropped": 0, "time_this_iter_s": 46.959662437438965, "training_iteration": 1503, "info": {"default": {"policy_loss": -0.07449661940336227, "vf_explained_var": 0.4444769322872162, "vf_loss": 11.645471572875977, "kl": 0.011041684076189995, "entropy": 0.630662739276886, "cur_kl_coeff": 1.3166500329971313, "cur_lr": 4.999999873689376e-05, "total_loss": 11.585514068603516}, "sample_time_ms": 47159.087, "num_steps_trained": 1803600, "num_steps_sampled": 1803600, "update_time_ms": 2.565, "grad_time_ms": 372.905, "load_time_ms": 0.721}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 59289.230872154236, "iterations_since_restore": 304, "episode_reward_max": 4.00102827383923, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 160993, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 266, "timestamp": 1757114122, "timesteps_since_restore": 364800, "episode_len_mean": 4.5, "episode_reward_mean": 3.2269070950003065, "pid": 2334309, "time_since_restore": 12569.691431760788, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-15-22", "timesteps_total": 1804800, "episode_reward_min": -24.69571202961847, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.585188150405884, "training_iteration": 1504, "info": {"default": {"policy_loss": -0.07779279351234436, "vf_explained_var": 0.44549649953842163, "vf_loss": 14.852118492126465, "kl": 0.0121267419308424, "entropy": 0.6415335536003113, "cur_kl_coeff": 1.3166500329971313, "cur_lr": 4.999999873689376e-05, "total_loss": 14.790291786193848}, "sample_time_ms": 47060.496, "num_steps_trained": 1804800, "num_steps_sampled": 1804800, "update_time_ms": 2.564, "grad_time_ms": 372.848, "load_time_ms": 0.726}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 59336.25036692619, "iterations_since_restore": 305, "episode_reward_max": 4.00141727757979, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 161258, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 265, "timestamp": 1757114169, "timesteps_since_restore": 366000, "episode_len_mean": 4.524528301886792, "episode_reward_mean": 3.2008878210274987, "pid": 2334309, "time_since_restore": 12616.710926532745, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-16-09", "timesteps_total": 1806000, "episode_reward_min": -28.991770737252075, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.0194947719574, "training_iteration": 1505, "info": {"default": {"policy_loss": -0.06479748338460922, "vf_explained_var": 0.3996574580669403, "vf_loss": 14.625187873840332, "kl": 0.014941738918423653, "entropy": 0.6989641189575195, "cur_kl_coeff": 1.3166500329971313, "cur_lr": 4.999999873689376e-05, "total_loss": 14.58006477355957}, "sample_time_ms": 46948.001, "num_steps_trained": 1806000, "num_steps_sampled": 1806000, "update_time_ms": 2.556, "grad_time_ms": 373.568, "load_time_ms": 0.729}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 59384.67246007919, "iterations_since_restore": 306, "episode_reward_max": 4.001055840304391, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 161529, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 271, "timestamp": 1757114218, "timesteps_since_restore": 367200, "episode_len_mean": 4.376383763837638, "episode_reward_mean": 3.4094130543229855, "pid": 2334309, "time_since_restore": 12665.133019685745, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-16-58", "timesteps_total": 1807200, "episode_reward_min": -46.05233869524683, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.42209315299988, "training_iteration": 1506, "info": {"default": {"policy_loss": -0.06131730601191521, "vf_explained_var": 0.4676443636417389, "vf_loss": 21.846031188964844, "kl": 0.011663817800581455, "entropy": 0.583541214466095, "cur_kl_coeff": 1.3166500329971313, "cur_lr": 4.999999873689376e-05, "total_loss": 21.800071716308594}, "sample_time_ms": 46904.623, "num_steps_trained": 1807200, "num_steps_sampled": 1807200, "update_time_ms": 2.521, "grad_time_ms": 373.998, "load_time_ms": 0.724}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 59432.48495531082, "iterations_since_restore": 307, "episode_reward_max": 4.0008267800617965, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 161808, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 279, "timestamp": 1757114265, "timesteps_since_restore": 368400, "episode_len_mean": 4.344086021505376, "episode_reward_mean": 3.4501238459807455, "pid": 2334309, "time_since_restore": 12712.945514917374, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-17-45", "timesteps_total": 1808400, "episode_reward_min": -21.658995933160398, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.81249523162842, "training_iteration": 1507, "info": {"default": {"policy_loss": -0.06769391894340515, "vf_explained_var": 0.5333499908447266, "vf_loss": 8.946720123291016, "kl": 0.013539325445890427, "entropy": 0.2346441000699997, "cur_kl_coeff": 1.3166500329971313, "cur_lr": 4.999999873689376e-05, "total_loss": 8.89685344696045}, "sample_time_ms": 46907.179, "num_steps_trained": 1808400, "num_steps_sampled": 1808400, "update_time_ms": 2.647, "grad_time_ms": 376.763, "load_time_ms": 0.708}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 59479.93936753273, "iterations_since_restore": 308, "episode_reward_max": 4.000717071894899, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 162063, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 255, "timestamp": 1757114313, "timesteps_since_restore": 369600, "episode_len_mean": 4.705882352941177, "episode_reward_mean": 2.854436917341585, "pid": 2334309, "time_since_restore": 12760.399927139282, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-18-33", "timesteps_total": 1809600, "episode_reward_min": -78.87036780744987, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.45441222190857, "training_iteration": 1508, "info": {"default": {"policy_loss": -0.08257393538951874, "vf_explained_var": 0.3842485249042511, "vf_loss": 70.81873321533203, "kl": 0.011880909092724323, "entropy": 0.9974844455718994, "cur_kl_coeff": 1.3166500329971313, "cur_lr": 4.999999873689376e-05, "total_loss": 70.75180053710938}, "sample_time_ms": 46907.408, "num_steps_trained": 1809600, "num_steps_sampled": 1809600, "update_time_ms": 2.659, "grad_time_ms": 375.869, "load_time_ms": 0.713}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 59528.375452041626, "iterations_since_restore": 309, "episode_reward_max": 4.015056110222501, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 162328, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 265, "timestamp": 1757114361, "timesteps_since_restore": 370800, "episode_len_mean": 4.483018867924528, "episode_reward_mean": 3.235377064964361, "pid": 2334309, "time_since_restore": 12808.836011648178, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-19-21", "timesteps_total": 1810800, "episode_reward_min": -31.51150892303398, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.436084508895874, "training_iteration": 1509, "info": {"default": {"policy_loss": -0.07198601216077805, "vf_explained_var": 0.4401721954345703, "vf_loss": 22.097572326660156, "kl": 0.018294962123036385, "entropy": 0.6768236756324768, "cur_kl_coeff": 1.3166500329971313, "cur_lr": 4.999999873689376e-05, "total_loss": 22.04967498779297}, "sample_time_ms": 47094.679, "num_steps_trained": 1810800, "num_steps_sampled": 1810800, "update_time_ms": 2.617, "grad_time_ms": 373.838, "load_time_ms": 0.703}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 59576.10998940468, "iterations_since_restore": 310, "episode_reward_max": 4.0012943221338935, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 162605, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 277, "timestamp": 1757114409, "timesteps_since_restore": 372000, "episode_len_mean": 4.379061371841155, "episode_reward_mean": 3.404861507399404, "pid": 2334309, "time_since_restore": 12856.57054901123, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-20-09", "timesteps_total": 1812000, "episode_reward_min": -40.35383252031372, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.73453736305237, "training_iteration": 1510, "info": {"default": {"policy_loss": -0.06373218446969986, "vf_explained_var": 0.48737239837646484, "vf_loss": 12.661006927490234, "kl": 0.014368295669555664, "entropy": 0.30851107835769653, "cur_kl_coeff": 1.3166500329971313, "cur_lr": 4.999999873689376e-05, "total_loss": 12.616194725036621}, "sample_time_ms": 47211.433, "num_steps_trained": 1812000, "num_steps_sampled": 1812000, "update_time_ms": 2.614, "grad_time_ms": 374.014, "load_time_ms": 0.705}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 59624.19780278206, "iterations_since_restore": 311, "episode_reward_max": 4.000842825254873, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 162886, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 281, "timestamp": 1757114457, "timesteps_since_restore": 373200, "episode_len_mean": 4.284697508896797, "episode_reward_mean": 3.544713196492036, "pid": 2334309, "time_since_restore": 12904.65836238861, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-20-57", "timesteps_total": 1813200, "episode_reward_min": -32.40313169084975, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.08781337738037, "training_iteration": 1511, "info": {"default": {"policy_loss": -0.05954990163445473, "vf_explained_var": 0.48540958762168884, "vf_loss": 10.075149536132812, "kl": 0.010212092660367489, "entropy": 0.17685246467590332, "cur_kl_coeff": 1.3166500329971313, "cur_lr": 4.999999873689376e-05, "total_loss": 10.029046058654785}, "sample_time_ms": 47260.838, "num_steps_trained": 1813200, "num_steps_sampled": 1813200, "update_time_ms": 2.614, "grad_time_ms": 375.76, "load_time_ms": 0.706}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 59672.60136318207, "iterations_since_restore": 312, "episode_reward_max": 4.000772057632048, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 163179, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 293, "timestamp": 1757114506, "timesteps_since_restore": 374400, "episode_len_mean": 4.085324232081911, "episode_reward_mean": 3.8656072120031095, "pid": 2334309, "time_since_restore": 12953.06192278862, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-21-46", "timesteps_total": 1814400, "episode_reward_min": -11.701530299821794, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.403560400009155, "training_iteration": 1512, "info": {"default": {"policy_loss": -0.03298377990722656, "vf_explained_var": 0.8343234658241272, "vf_loss": 1.7076212167739868, "kl": 0.00763015216216445, "entropy": -0.12544851005077362, "cur_kl_coeff": 1.3166500329971313, "cur_lr": 4.999999873689376e-05, "total_loss": 1.684683918952942}, "sample_time_ms": 47408.919, "num_steps_trained": 1814400, "num_steps_sampled": 1814400, "update_time_ms": 2.606, "grad_time_ms": 373.206, "load_time_ms": 0.696}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 59720.343497514725, "iterations_since_restore": 313, "episode_reward_max": 4.001984373238715, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 163465, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 286, "timestamp": 1757114553, "timesteps_since_restore": 375600, "episode_len_mean": 4.195804195804196, "episode_reward_mean": 3.689779350228633, "pid": 2334309, "time_since_restore": 13000.804057121277, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-22-33", "timesteps_total": 1815600, "episode_reward_min": -29.252466011198685, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.74213433265686, "training_iteration": 1513, "info": {"default": {"policy_loss": -0.04376009851694107, "vf_explained_var": 0.6053779721260071, "vf_loss": 6.528614521026611, "kl": 0.02016488090157509, "entropy": 0.0535711795091629, "cur_kl_coeff": 1.3166500329971313, "cur_lr": 4.999999873689376e-05, "total_loss": 6.511404037475586}, "sample_time_ms": 47484.442, "num_steps_trained": 1815600, "num_steps_sampled": 1815600, "update_time_ms": 2.586, "grad_time_ms": 375.921, "load_time_ms": 0.698}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 59768.05824828148, "iterations_since_restore": 314, "episode_reward_max": 4.001357872005449, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 163748, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 283, "timestamp": 1757114601, "timesteps_since_restore": 376800, "episode_len_mean": 4.23321554770318, "episode_reward_mean": 3.630005747744529, "pid": 2334309, "time_since_restore": 13048.518807888031, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-23-21", "timesteps_total": 1816800, "episode_reward_min": -36.8860383058001, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.71475076675415, "training_iteration": 1514, "info": {"default": {"policy_loss": -0.045240674167871475, "vf_explained_var": 0.48487526178359985, "vf_loss": 13.80620002746582, "kl": 0.01073955837637186, "entropy": 0.16992908716201782, "cur_kl_coeff": 1.9749751091003418, "cur_lr": 4.999999873689376e-05, "total_loss": 13.782169342041016}, "sample_time_ms": 47498.104, "num_steps_trained": 1816800, "num_steps_sampled": 1816800, "update_time_ms": 2.604, "grad_time_ms": 375.184, "load_time_ms": 0.699}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 59816.271889686584, "iterations_since_restore": 315, "episode_reward_max": 4.001760470594183, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 164039, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757114649, "timesteps_since_restore": 378000, "episode_len_mean": 4.144329896907217, "episode_reward_mean": 3.7639598239601404, "pid": 2334309, "time_since_restore": 13096.732449293137, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-24-09", "timesteps_total": 1818000, "episode_reward_min": -30.56025177356723, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.21364140510559, "training_iteration": 1515, "info": {"default": {"policy_loss": -0.04563400521874428, "vf_explained_var": 0.7513577938079834, "vf_loss": 4.229957580566406, "kl": 0.00882693100720644, "entropy": -0.10671308636665344, "cur_kl_coeff": 1.9749751091003418, "cur_lr": 4.999999873689376e-05, "total_loss": 4.201756954193115}, "sample_time_ms": 47620.021, "num_steps_trained": 1818000, "num_steps_sampled": 1818000, "update_time_ms": 2.606, "grad_time_ms": 372.782, "load_time_ms": 0.701}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 59863.63851523399, "iterations_since_restore": 316, "episode_reward_max": 4.000742479545415, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 164328, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 289, "timestamp": 1757114697, "timesteps_since_restore": 379200, "episode_len_mean": 4.114186851211072, "episode_reward_mean": 3.8246768251148837, "pid": 2334309, "time_since_restore": 13144.099074840546, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-24-57", "timesteps_total": 1819200, "episode_reward_min": -9.110828253943499, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.36662554740906, "training_iteration": 1516, "info": {"default": {"policy_loss": -0.055308930575847626, "vf_explained_var": 0.677905797958374, "vf_loss": 3.313758134841919, "kl": 0.007593868300318718, "entropy": -0.08379629999399185, "cur_kl_coeff": 1.9749751091003418, "cur_lr": 4.999999873689376e-05, "total_loss": 3.273447036743164}, "sample_time_ms": 47513.528, "num_steps_trained": 1819200, "num_steps_sampled": 1819200, "update_time_ms": 2.589, "grad_time_ms": 373.82, "load_time_ms": 0.7}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 59911.22490859032, "iterations_since_restore": 317, "episode_reward_max": 4.000728616935037, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 164592, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 264, "timestamp": 1757114744, "timesteps_since_restore": 380400, "episode_len_mean": 4.575757575757576, "episode_reward_mean": 3.1001218730282747, "pid": 2334309, "time_since_restore": 13191.685468196869, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-25-44", "timesteps_total": 1820400, "episode_reward_min": -53.22646202055659, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.58639335632324, "training_iteration": 1517, "info": {"default": {"policy_loss": -0.0655883401632309, "vf_explained_var": 0.5234088897705078, "vf_loss": 30.97972869873047, "kl": 0.01305424701422453, "entropy": 0.7475805282592773, "cur_kl_coeff": 1.9749751091003418, "cur_lr": 4.999999873689376e-05, "total_loss": 30.939924240112305}, "sample_time_ms": 47493.557, "num_steps_trained": 1820400, "num_steps_sampled": 1820400, "update_time_ms": 2.468, "grad_time_ms": 371.278, "load_time_ms": 0.7}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 59959.74148964882, "iterations_since_restore": 318, "episode_reward_max": 4.00103685671142, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 164877, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 285, "timestamp": 1757114793, "timesteps_since_restore": 381600, "episode_len_mean": 4.217543859649123, "episode_reward_mean": 3.6729982984379825, "pid": 2334309, "time_since_restore": 13240.202049255371, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-26-33", "timesteps_total": 1821600, "episode_reward_min": -30.01479307654413, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.5165810585022, "training_iteration": 1518, "info": {"default": {"policy_loss": -0.05687619745731354, "vf_explained_var": 0.5667855739593506, "vf_loss": 8.271907806396484, "kl": 0.01578349620103836, "entropy": 0.03695860132575035, "cur_kl_coeff": 1.9749751091003418, "cur_lr": 4.999999873689376e-05, "total_loss": 8.246204376220703}, "sample_time_ms": 47600.904, "num_steps_trained": 1821600, "num_steps_sampled": 1821600, "update_time_ms": 2.507, "grad_time_ms": 370.117, "load_time_ms": 0.694}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 60009.22535085678, "iterations_since_restore": 319, "episode_reward_max": 4.001202798159656, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 165164, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 287, "timestamp": 1757114842, "timesteps_since_restore": 382800, "episode_len_mean": 4.170731707317073, "episode_reward_mean": 3.7447750581111467, "pid": 2334309, "time_since_restore": 13289.685910463333, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-27-22", "timesteps_total": 1822800, "episode_reward_min": -10.869180837432303, "num_metric_batches_dropped": 0, "time_this_iter_s": 49.483861207962036, "training_iteration": 1519, "info": {"default": {"policy_loss": -0.05754450336098671, "vf_explained_var": 0.6119304299354553, "vf_loss": 3.818575859069824, "kl": 0.010714907199144363, "entropy": 0.008151140064001083, "cur_kl_coeff": 1.9749751091003418, "cur_lr": 4.999999873689376e-05, "total_loss": 3.782193183898926}, "sample_time_ms": 47702.517, "num_steps_trained": 1822800, "num_steps_sampled": 1822800, "update_time_ms": 2.545, "grad_time_ms": 373.225, "load_time_ms": 0.688}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 60057.66337418556, "iterations_since_restore": 320, "episode_reward_max": 4.001882607488392, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 165435, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 271, "timestamp": 1757114891, "timesteps_since_restore": 384000, "episode_len_mean": 4.402214022140221, "episode_reward_mean": 3.3578788611115185, "pid": 2334309, "time_since_restore": 13338.123933792114, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-28-11", "timesteps_total": 1824000, "episode_reward_min": -56.38540806974535, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.43802332878113, "training_iteration": 1520, "info": {"default": {"policy_loss": -0.06284276396036148, "vf_explained_var": 0.5340296626091003, "vf_loss": 26.529190063476562, "kl": 0.008976122364401817, "entropy": 0.509959876537323, "cur_kl_coeff": 1.9749751091003418, "cur_lr": 4.999999873689376e-05, "total_loss": 26.484073638916016}, "sample_time_ms": 47771.105, "num_steps_trained": 1824000, "num_steps_sampled": 1824000, "update_time_ms": 2.531, "grad_time_ms": 374.982, "load_time_ms": 0.686}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 60106.18532896042, "iterations_since_restore": 321, "episode_reward_max": 4.0012331772295715, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 165727, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757114939, "timesteps_since_restore": 385200, "episode_len_mean": 4.126712328767123, "episode_reward_mean": 3.7950194628546177, "pid": 2334309, "time_since_restore": 13386.64588856697, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-28-59", "timesteps_total": 1825200, "episode_reward_min": -36.00416938140073, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.52195477485657, "training_iteration": 1521, "info": {"default": {"policy_loss": -0.041751567274332047, "vf_explained_var": 0.6853739023208618, "vf_loss": 3.921968698501587, "kl": 0.00643562339246273, "entropy": -0.21788091957569122, "cur_kl_coeff": 1.9749751091003418, "cur_lr": 4.999999873689376e-05, "total_loss": 3.892927408218384}, "sample_time_ms": 47815.161, "num_steps_trained": 1825200, "num_steps_sampled": 1825200, "update_time_ms": 2.587, "grad_time_ms": 374.304, "load_time_ms": 0.677}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 60155.90983200073, "iterations_since_restore": 322, "episode_reward_max": 4.002067616762318, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 166006, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 279, "timestamp": 1757114989, "timesteps_since_restore": 386400, "episode_len_mean": 4.304659498207886, "episode_reward_mean": 3.5207268767658704, "pid": 2334309, "time_since_restore": 13436.370391607285, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-29-49", "timesteps_total": 1826400, "episode_reward_min": -27.794070280218328, "num_metric_batches_dropped": 0, "time_this_iter_s": 49.72450304031372, "training_iteration": 1522, "info": {"default": {"policy_loss": -0.06056283041834831, "vf_explained_var": 0.4822160303592682, "vf_loss": 10.310189247131348, "kl": 0.018910765647888184, "entropy": 0.2313241958618164, "cur_kl_coeff": 1.9749751091003418, "cur_lr": 4.999999873689376e-05, "total_loss": 10.286975860595703}, "sample_time_ms": 47946.739, "num_steps_trained": 1826400, "num_steps_sampled": 1826400, "update_time_ms": 2.616, "grad_time_ms": 374.804, "load_time_ms": 0.681}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 60204.89733529091, "iterations_since_restore": 323, "episode_reward_max": 4.001634394263301, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 166290, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 284, "timestamp": 1757115038, "timesteps_since_restore": 387600, "episode_len_mean": 4.221830985915493, "episode_reward_mean": 3.663279344983552, "pid": 2334309, "time_since_restore": 13485.357894897461, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-30-38", "timesteps_total": 1827600, "episode_reward_min": -43.8007040205888, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.98750329017639, "training_iteration": 1523, "info": {"default": {"policy_loss": -0.05093903839588165, "vf_explained_var": 0.5069230198860168, "vf_loss": 14.501490592956543, "kl": 0.01069662906229496, "entropy": 0.1738455593585968, "cur_kl_coeff": 1.9749751091003418, "cur_lr": 4.999999873689376e-05, "total_loss": 14.471675872802734}, "sample_time_ms": 48071.307, "num_steps_trained": 1827600, "num_steps_sampled": 1827600, "update_time_ms": 2.652, "grad_time_ms": 374.733, "load_time_ms": 0.677}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 60253.522325992584, "iterations_since_restore": 324, "episode_reward_max": 4.0009284742818965, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 166589, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757115087, "timesteps_since_restore": 388800, "episode_len_mean": 4.030100334448161, "episode_reward_mean": 3.9562664541023222, "pid": 2334309, "time_since_restore": 13533.982885599136, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-31-27", "timesteps_total": 1828800, "episode_reward_min": -7.121376302886748, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.624990701675415, "training_iteration": 1524, "info": {"default": {"policy_loss": -0.03363453224301338, "vf_explained_var": 0.8769111037254333, "vf_loss": 0.758023738861084, "kl": 0.0039221784099936485, "entropy": -0.3203218877315521, "cur_kl_coeff": 1.9749751091003418, "cur_lr": 4.999999873689376e-05, "total_loss": 0.7321354746818542}, "sample_time_ms": 48160.808, "num_steps_trained": 1828800, "num_steps_sampled": 1828800, "update_time_ms": 2.678, "grad_time_ms": 376.194, "load_time_ms": 0.671}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 60302.51111245155, "iterations_since_restore": 325, "episode_reward_max": 4.000855517268461, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 166871, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 282, "timestamp": 1757115136, "timesteps_since_restore": 390000, "episode_len_mean": 4.24822695035461, "episode_reward_mean": 3.6121609572311772, "pid": 2334309, "time_since_restore": 13582.971672058105, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-32-16", "timesteps_total": 1830000, "episode_reward_min": -42.82150254050917, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.988786458969116, "training_iteration": 1525, "info": {"default": {"policy_loss": -0.06426400691270828, "vf_explained_var": 0.5239365696907043, "vf_loss": 20.93948745727539, "kl": 0.01253775879740715, "entropy": 0.09878481924533844, "cur_kl_coeff": 0.9874875545501709, "cur_lr": 4.999999873689376e-05, "total_loss": 20.887603759765625}, "sample_time_ms": 48235.13, "num_steps_trained": 1830000, "num_steps_sampled": 1830000, "update_time_ms": 2.713, "grad_time_ms": 379.308, "load_time_ms": 0.67}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 60351.58665943146, "iterations_since_restore": 326, "episode_reward_max": 4.001023128754123, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 167167, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757115185, "timesteps_since_restore": 391200, "episode_len_mean": 4.054054054054054, "episode_reward_mean": 3.9132386968911512, "pid": 2334309, "time_since_restore": 13632.04721903801, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-33-05", "timesteps_total": 1831200, "episode_reward_min": -21.763370033763415, "num_metric_batches_dropped": 0, "time_this_iter_s": 49.075546979904175, "training_iteration": 1526, "info": {"default": {"policy_loss": -0.03584188222885132, "vf_explained_var": 0.7807424664497375, "vf_loss": 2.479220390319824, "kl": 0.010772262699902058, "entropy": -0.3271726965904236, "cur_kl_coeff": 0.9874875545501709, "cur_lr": 4.999999873689376e-05, "total_loss": 2.4540159702301025}, "sample_time_ms": 48405.653, "num_steps_trained": 1831200, "num_steps_sampled": 1831200, "update_time_ms": 2.734, "grad_time_ms": 379.55, "load_time_ms": 0.679}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 60398.79113984108, "iterations_since_restore": 327, "episode_reward_max": 4.001403577877026, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 167464, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757115232, "timesteps_since_restore": 392400, "episode_len_mean": 4.043771043771044, "episode_reward_mean": 3.9382511566929437, "pid": 2334309, "time_since_restore": 13679.251699447632, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-33-52", "timesteps_total": 1832400, "episode_reward_min": -8.370698865566201, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.20448040962219, "training_iteration": 1527, "info": {"default": {"policy_loss": -0.05272763967514038, "vf_explained_var": 0.919946551322937, "vf_loss": 0.5126574039459229, "kl": 0.016703465953469276, "entropy": -0.32685667276382446, "cur_kl_coeff": 0.9874875545501709, "cur_lr": 4.999999873689376e-05, "total_loss": 0.47642427682876587}, "sample_time_ms": 48367.691, "num_steps_trained": 1832400, "num_steps_sampled": 1832400, "update_time_ms": 2.75, "grad_time_ms": 379.264, "load_time_ms": 0.683}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 60445.89869236946, "iterations_since_restore": 328, "episode_reward_max": 4.000758856695831, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 167760, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757115279, "timesteps_since_restore": 393600, "episode_len_mean": 4.050675675675675, "episode_reward_mean": 3.9231541677433754, "pid": 2334309, "time_since_restore": 13726.359251976013, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-34-39", "timesteps_total": 1833600, "episode_reward_min": -10.689753585201874, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.10755252838135, "training_iteration": 1528, "info": {"default": {"policy_loss": -0.025737157091498375, "vf_explained_var": 0.8255138397216797, "vf_loss": 1.2818045616149902, "kl": 0.016134122386574745, "entropy": -0.3056424856185913, "cur_kl_coeff": 0.9874875545501709, "cur_lr": 4.999999873689376e-05, "total_loss": 1.2719995975494385}, "sample_time_ms": 48224.275, "num_steps_trained": 1833600, "num_steps_sampled": 1833600, "update_time_ms": 2.687, "grad_time_ms": 381.758, "load_time_ms": 0.696}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 60493.43556690216, "iterations_since_restore": 329, "episode_reward_max": 6.000064999551851, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 168032, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 272, "timestamp": 1757115327, "timesteps_since_restore": 394800, "episode_len_mean": 4.415441176470588, "episode_reward_mean": 3.340878915403633, "pid": 2334309, "time_since_restore": 13773.896126508713, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-35-27", "timesteps_total": 1834800, "episode_reward_min": -69.32230240695019, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.536874532699585, "training_iteration": 1529, "info": {"default": {"policy_loss": -0.0730314552783966, "vf_explained_var": 0.6176114678382874, "vf_loss": 34.5954704284668, "kl": 0.012360308319330215, "entropy": 0.5921303033828735, "cur_kl_coeff": 0.9874875545501709, "cur_lr": 4.999999873689376e-05, "total_loss": 34.534645080566406}, "sample_time_ms": 48032.75, "num_steps_trained": 1834800, "num_steps_sampled": 1834800, "update_time_ms": 2.698, "grad_time_ms": 378.578, "load_time_ms": 0.695}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 60541.987795591354, "iterations_since_restore": 330, "episode_reward_max": 4.0010817004903885, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 168329, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757115375, "timesteps_since_restore": 396000, "episode_len_mean": 4.043771043771044, "episode_reward_mean": 3.936342474267078, "pid": 2334309, "time_since_restore": 13822.448355197906, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-36-15", "timesteps_total": 1836000, "episode_reward_min": -14.996597848604104, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.552228689193726, "training_iteration": 1530, "info": {"default": {"policy_loss": -0.03563127666711807, "vf_explained_var": 0.7729938626289368, "vf_loss": 2.030306816101074, "kl": 0.017378458753228188, "entropy": -0.2849942445755005, "cur_kl_coeff": 0.9874875545501709, "cur_lr": 4.999999873689376e-05, "total_loss": 2.011836290359497}, "sample_time_ms": 48045.021, "num_steps_trained": 1836000, "num_steps_sampled": 1836000, "update_time_ms": 2.741, "grad_time_ms": 377.642, "load_time_ms": 0.695}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 60589.78089141846, "iterations_since_restore": 331, "episode_reward_max": 4.000808065754229, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 168620, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757115423, "timesteps_since_restore": 397200, "episode_len_mean": 4.11340206185567, "episode_reward_mean": 3.828006084114088, "pid": 2334309, "time_since_restore": 13870.24145102501, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-37-03", "timesteps_total": 1837200, "episode_reward_min": -24.555388496050398, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.79309582710266, "training_iteration": 1531, "info": {"default": {"policy_loss": -0.034112609922885895, "vf_explained_var": 0.6318035125732422, "vf_loss": 4.769287109375, "kl": 0.027292070910334587, "entropy": -0.2294749915599823, "cur_kl_coeff": 0.9874875545501709, "cur_lr": 4.999999873689376e-05, "total_loss": 4.762125015258789}, "sample_time_ms": 47971.021, "num_steps_trained": 1837200, "num_steps_sampled": 1837200, "update_time_ms": 2.726, "grad_time_ms": 378.733, "load_time_ms": 0.695}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 60637.52029252052, "iterations_since_restore": 332, "episode_reward_max": 4.000857747768995, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 168918, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757115471, "timesteps_since_restore": 398400, "episode_len_mean": 4.030201342281879, "episode_reward_mean": 3.951979918355947, "pid": 2334309, "time_since_restore": 13917.980852127075, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-37-51", "timesteps_total": 1838400, "episode_reward_min": -10.397763608614838, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.73940110206604, "training_iteration": 1532, "info": {"default": {"policy_loss": -0.031466856598854065, "vf_explained_var": 0.8476714491844177, "vf_loss": 1.0546166896820068, "kl": 0.007254006341099739, "entropy": -0.3629589378833771, "cur_kl_coeff": 1.4812313318252563, "cur_lr": 4.999999873689376e-05, "total_loss": 1.033894658088684}, "sample_time_ms": 47774.136, "num_steps_trained": 1838400, "num_steps_sampled": 1838400, "update_time_ms": 2.741, "grad_time_ms": 377.013, "load_time_ms": 0.689}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 60685.106957912445, "iterations_since_restore": 333, "episode_reward_max": 4.001626164318551, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 169210, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757115519, "timesteps_since_restore": 399600, "episode_len_mean": 4.102739726027397, "episode_reward_mean": 3.843327958831744, "pid": 2334309, "time_since_restore": 13965.567517518997, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-38-39", "timesteps_total": 1839600, "episode_reward_min": -17.0342155442963, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.586665391922, "training_iteration": 1533, "info": {"default": {"policy_loss": -0.029020991176366806, "vf_explained_var": 0.7122113108634949, "vf_loss": 2.3816699981689453, "kl": 0.023398488759994507, "entropy": -0.18923717737197876, "cur_kl_coeff": 1.4812313318252563, "cur_lr": 4.999999873689376e-05, "total_loss": 2.387307643890381}, "sample_time_ms": 47636.236, "num_steps_trained": 1839600, "num_steps_sampled": 1839600, "update_time_ms": 2.729, "grad_time_ms": 374.843, "load_time_ms": 0.695}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 60732.62043404579, "iterations_since_restore": 334, "episode_reward_max": 6.108228295952671, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 169502, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757115566, "timesteps_since_restore": 400800, "episode_len_mean": 4.109589041095891, "episode_reward_mean": 3.829467720292433, "pid": 2334309, "time_since_restore": 14013.080993652344, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-39-26", "timesteps_total": 1840800, "episode_reward_min": -15.929068400976828, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.51347613334656, "training_iteration": 1534, "info": {"default": {"policy_loss": -0.05333174020051956, "vf_explained_var": 0.6612057089805603, "vf_loss": 3.3335602283477783, "kl": 0.005891864188015461, "entropy": -0.1458638310432434, "cur_kl_coeff": 2.22184681892395, "cur_lr": 4.999999873689376e-05, "total_loss": 3.2933197021484375}, "sample_time_ms": 47525.064, "num_steps_trained": 1840800, "num_steps_sampled": 1840800, "update_time_ms": 2.711, "grad_time_ms": 374.894, "load_time_ms": 0.7}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 60780.981862068176, "iterations_since_restore": 335, "episode_reward_max": 4.000683049982291, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 169781, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 279, "timestamp": 1757115615, "timesteps_since_restore": 402000, "episode_len_mean": 4.304659498207886, "episode_reward_mean": 3.5155448204684423, "pid": 2334309, "time_since_restore": 14061.442421674728, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-40-15", "timesteps_total": 1842000, "episode_reward_min": -32.84769687636743, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.361428022384644, "training_iteration": 1535, "info": {"default": {"policy_loss": -0.06062249839305878, "vf_explained_var": 0.5158942341804504, "vf_loss": 10.638565063476562, "kl": 0.007236803416162729, "entropy": 0.22278206050395966, "cur_kl_coeff": 2.22184681892395, "cur_lr": 4.999999873689376e-05, "total_loss": 10.594022750854492}, "sample_time_ms": 47464.117, "num_steps_trained": 1842000, "num_steps_sampled": 1842000, "update_time_ms": 2.696, "grad_time_ms": 373.147, "load_time_ms": 0.698}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 60829.958359241486, "iterations_since_restore": 336, "episode_reward_max": 4.000795450658553, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 170075, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757115664, "timesteps_since_restore": 403200, "episode_len_mean": 4.078231292517007, "episode_reward_mean": 3.884374544683868, "pid": 2334309, "time_since_restore": 14110.418918848038, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-41-04", "timesteps_total": 1843200, "episode_reward_min": -14.074492978377538, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.976497173309326, "training_iteration": 1536, "info": {"default": {"policy_loss": -0.0407874658703804, "vf_explained_var": 0.7444777488708496, "vf_loss": 2.1595919132232666, "kl": 0.008280826732516289, "entropy": -0.226821631193161, "cur_kl_coeff": 2.22184681892395, "cur_lr": 4.999999873689376e-05, "total_loss": 2.137202739715576}, "sample_time_ms": 47454.238, "num_steps_trained": 1843200, "num_steps_sampled": 1843200, "update_time_ms": 2.669, "grad_time_ms": 373.158, "load_time_ms": 0.693}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 60877.58123707771, "iterations_since_restore": 337, "episode_reward_max": 4.000696676187576, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 170358, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 283, "timestamp": 1757115711, "timesteps_since_restore": 404400, "episode_len_mean": 4.247349823321555, "episode_reward_mean": 3.615611423090309, "pid": 2334309, "time_since_restore": 14158.041796684265, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-41-51", "timesteps_total": 1844400, "episode_reward_min": -45.111566078858694, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.62287783622742, "training_iteration": 1537, "info": {"default": {"policy_loss": -0.05366091430187225, "vf_explained_var": 0.5040810108184814, "vf_loss": 15.603853225708008, "kl": 0.010890877805650234, "entropy": 0.10371025651693344, "cur_kl_coeff": 2.22184681892395, "cur_lr": 4.999999873689376e-05, "total_loss": 15.57438850402832}, "sample_time_ms": 47495.416, "num_steps_trained": 1844400, "num_steps_sampled": 1844400, "update_time_ms": 2.661, "grad_time_ms": 373.898, "load_time_ms": 0.7}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 60925.92883706093, "iterations_since_restore": 338, "episode_reward_max": 4.00081247304226, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 170651, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 293, "timestamp": 1757115759, "timesteps_since_restore": 405600, "episode_len_mean": 4.098976109215017, "episode_reward_mean": 3.8519637835903695, "pid": 2334309, "time_since_restore": 14206.38939666748, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-42-39", "timesteps_total": 1845600, "episode_reward_min": -11.149000937578336, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.34759998321533, "training_iteration": 1538, "info": {"default": {"policy_loss": -0.043878111988306046, "vf_explained_var": 0.7179284691810608, "vf_loss": 2.2483267784118652, "kl": 0.007710773032158613, "entropy": -0.20519529283046722, "cur_kl_coeff": 2.22184681892395, "cur_lr": 4.999999873689376e-05, "total_loss": 2.221580982208252}, "sample_time_ms": 47620.375, "num_steps_trained": 1845600, "num_steps_sampled": 1845600, "update_time_ms": 2.655, "grad_time_ms": 372.941, "load_time_ms": 0.689}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 60973.31472492218, "iterations_since_restore": 339, "episode_reward_max": 4.001663595634284, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 170940, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 289, "timestamp": 1757115807, "timesteps_since_restore": 406800, "episode_len_mean": 4.141868512110727, "episode_reward_mean": 3.779054820361056, "pid": 2334309, "time_since_restore": 14253.775284528732, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-43-27", "timesteps_total": 1846800, "episode_reward_min": -24.856187758634448, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.38588786125183, "training_iteration": 1539, "info": {"default": {"policy_loss": -0.0469464436173439, "vf_explained_var": 0.6631530523300171, "vf_loss": 4.239829063415527, "kl": 0.006304633803665638, "entropy": -0.2352239489555359, "cur_kl_coeff": 2.22184681892395, "cur_lr": 4.999999873689376e-05, "total_loss": 4.206890106201172}, "sample_time_ms": 47603.404, "num_steps_trained": 1846800, "num_steps_sampled": 1846800, "update_time_ms": 2.66, "grad_time_ms": 374.812, "load_time_ms": 0.693}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 61021.73147344589, "iterations_since_restore": 340, "episode_reward_max": 4.000778056515228, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 171216, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 276, "timestamp": 1757115855, "timesteps_since_restore": 408000, "episode_len_mean": 4.344202898550725, "episode_reward_mean": 3.4542735108351255, "pid": 2334309, "time_since_restore": 14302.192033052444, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-44-15", "timesteps_total": 1848000, "episode_reward_min": -42.78434247945313, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.41674852371216, "training_iteration": 1540, "info": {"default": {"policy_loss": -0.06120963394641876, "vf_explained_var": 0.5798123478889465, "vf_loss": 18.84296417236328, "kl": 0.01503482274711132, "entropy": 0.2481226623058319, "cur_kl_coeff": 2.22184681892395, "cur_lr": 4.999999873689376e-05, "total_loss": 18.815160751342773}, "sample_time_ms": 47591.301, "num_steps_trained": 1848000, "num_steps_sampled": 1848000, "update_time_ms": 2.647, "grad_time_ms": 373.464, "load_time_ms": 0.686}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 61069.89595389366, "iterations_since_restore": 341, "episode_reward_max": 4.0016819945680195, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 171507, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757115904, "timesteps_since_restore": 409200, "episode_len_mean": 4.1271477663230245, "episode_reward_mean": 3.80024050150959, "pid": 2334309, "time_since_restore": 14350.356513500214, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-45-04", "timesteps_total": 1849200, "episode_reward_min": -17.962028528700174, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.164480447769165, "training_iteration": 1541, "info": {"default": {"policy_loss": -0.040705788880586624, "vf_explained_var": 0.6856220960617065, "vf_loss": 4.179261684417725, "kl": 0.006676161661744118, "entropy": -0.18186968564987183, "cur_kl_coeff": 2.22184681892395, "cur_lr": 4.999999873689376e-05, "total_loss": 4.153388500213623}, "sample_time_ms": 47629.398, "num_steps_trained": 1849200, "num_steps_sampled": 1849200, "update_time_ms": 2.784, "grad_time_ms": 372.426, "load_time_ms": 0.695}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 61118.32129764557, "iterations_since_restore": 342, "episode_reward_max": 4.001729287333549, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 171797, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 290, "timestamp": 1757115952, "timesteps_since_restore": 410400, "episode_len_mean": 4.141379310344828, "episode_reward_mean": 3.7736298752085657, "pid": 2334309, "time_since_restore": 14398.781857252121, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-45-52", "timesteps_total": 1850400, "episode_reward_min": -28.11382458450445, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.42534375190735, "training_iteration": 1542, "info": {"default": {"policy_loss": -0.04813220724463463, "vf_explained_var": 0.7260382175445557, "vf_loss": 4.5973687171936035, "kl": 0.0039284368976950645, "entropy": -0.09893659502267838, "cur_kl_coeff": 2.22184681892395, "cur_lr": 4.999999873689376e-05, "total_loss": 4.5579657554626465}, "sample_time_ms": 47695.75, "num_steps_trained": 1850400, "num_steps_sampled": 1850400, "update_time_ms": 2.735, "grad_time_ms": 374.713, "load_time_ms": 0.694}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 61166.32792925835, "iterations_since_restore": 343, "episode_reward_max": 4.000911721276779, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 172096, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757116000, "timesteps_since_restore": 411600, "episode_len_mean": 4.013377926421405, "episode_reward_mean": 3.9808622598982897, "pid": 2334309, "time_since_restore": 14446.788488864899, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-46-40", "timesteps_total": 1851600, "episode_reward_min": -1.8084319165440146, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.00663161277771, "training_iteration": 1543, "info": {"default": {"policy_loss": -0.043374404311180115, "vf_explained_var": 0.9326428174972534, "vf_loss": 0.38567623496055603, "kl": 0.010363436304032803, "entropy": -0.43379783630371094, "cur_kl_coeff": 1.110923409461975, "cur_lr": 4.999999873689376e-05, "total_loss": 0.3538148105144501}, "sample_time_ms": 47734.611, "num_steps_trained": 1851600, "num_steps_sampled": 1851600, "update_time_ms": 2.744, "grad_time_ms": 377.782, "load_time_ms": 0.699}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 61214.45628476143, "iterations_since_restore": 344, "episode_reward_max": 4.000793812699541, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 172394, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757116048, "timesteps_since_restore": 412800, "episode_len_mean": 4.023489932885906, "episode_reward_mean": 3.9629683493049916, "pid": 2334309, "time_since_restore": 14494.916844367981, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-47-28", "timesteps_total": 1852800, "episode_reward_min": -7.122960422402464, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.128355503082275, "training_iteration": 1544, "info": {"default": {"policy_loss": -0.032396819442510605, "vf_explained_var": 0.9103224873542786, "vf_loss": 0.6006176471710205, "kl": 0.0071013146080076694, "entropy": -0.36511915922164917, "cur_kl_coeff": 1.110923409461975, "cur_lr": 4.999999873689376e-05, "total_loss": 0.576109766960144}, "sample_time_ms": 47797.134, "num_steps_trained": 1852800, "num_steps_sampled": 1852800, "update_time_ms": 2.747, "grad_time_ms": 376.705, "load_time_ms": 0.703}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 61262.844841718674, "iterations_since_restore": 345, "episode_reward_max": 4.001017206763817, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 172691, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757116097, "timesteps_since_restore": 414000, "episode_len_mean": 4.037037037037037, "episode_reward_mean": 3.9428407950225655, "pid": 2334309, "time_since_restore": 14543.305401325226, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-48-17", "timesteps_total": 1854000, "episode_reward_min": -5.156824823835674, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.38855695724487, "training_iteration": 1545, "info": {"default": {"policy_loss": -0.02727239392697811, "vf_explained_var": 0.902527928352356, "vf_loss": 0.5914818644523621, "kl": 0.004822650924324989, "entropy": -0.39932698011398315, "cur_kl_coeff": 1.110923409461975, "cur_lr": 4.999999873689376e-05, "total_loss": 0.5695670247077942}, "sample_time_ms": 47798.262, "num_steps_trained": 1854000, "num_steps_sampled": 1854000, "update_time_ms": 2.772, "grad_time_ms": 378.239, "load_time_ms": 0.711}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 61311.52204823494, "iterations_since_restore": 346, "episode_reward_max": 4.001444836390679, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 172986, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757116145, "timesteps_since_restore": 415200, "episode_len_mean": 4.067796610169491, "episode_reward_mean": 3.8938133984034984, "pid": 2334309, "time_since_restore": 14591.982607841492, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-49-05", "timesteps_total": 1855200, "episode_reward_min": -13.605961251817419, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.67720651626587, "training_iteration": 1546, "info": {"default": {"policy_loss": -0.032638069242239, "vf_explained_var": 0.8122084140777588, "vf_loss": 1.622790813446045, "kl": 0.010741930454969406, "entropy": -0.2834054231643677, "cur_kl_coeff": 0.5554617047309875, "cur_lr": 4.999999873689376e-05, "total_loss": 1.5961195230484009}, "sample_time_ms": 47768.499, "num_steps_trained": 1855200, "num_steps_sampled": 1855200, "update_time_ms": 2.773, "grad_time_ms": 378.085, "load_time_ms": 0.709}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 61359.526042461395, "iterations_since_restore": 347, "episode_reward_max": 4.001208999937245, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 173272, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 286, "timestamp": 1757116193, "timesteps_since_restore": 416400, "episode_len_mean": 4.1923076923076925, "episode_reward_mean": 3.6954763881636254, "pid": 2334309, "time_since_restore": 14639.986602067947, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-49-53", "timesteps_total": 1856400, "episode_reward_min": -31.102464370468773, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.00399422645569, "training_iteration": 1547, "info": {"default": {"policy_loss": -0.05344681069254875, "vf_explained_var": 0.7070412039756775, "vf_loss": 7.327028751373291, "kl": 0.014098099432885647, "entropy": -0.02915801666676998, "cur_kl_coeff": 0.5554617047309875, "cur_lr": 4.999999873689376e-05, "total_loss": 7.281412601470947}, "sample_time_ms": 47805.575, "num_steps_trained": 1856400, "num_steps_sampled": 1856400, "update_time_ms": 2.793, "grad_time_ms": 379.083, "load_time_ms": 0.706}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 61407.255784749985, "iterations_since_restore": 348, "episode_reward_max": 4.0017126936051834, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 173562, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 290, "timestamp": 1757116241, "timesteps_since_restore": 417600, "episode_len_mean": 4.151724137931034, "episode_reward_mean": 3.75938096078019, "pid": 2334309, "time_since_restore": 14687.716344356537, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-50-41", "timesteps_total": 1857600, "episode_reward_min": -47.7824805908842, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.72974228858948, "training_iteration": 1548, "info": {"default": {"policy_loss": -0.05461803451180458, "vf_explained_var": 0.5496028065681458, "vf_loss": 13.743555068969727, "kl": 0.014762709848582745, "entropy": -0.13455703854560852, "cur_kl_coeff": 0.5554617047309875, "cur_lr": 4.999999873689376e-05, "total_loss": 13.697138786315918}, "sample_time_ms": 47744.524, "num_steps_trained": 1857600, "num_steps_sampled": 1857600, "update_time_ms": 2.823, "grad_time_ms": 378.372, "load_time_ms": 0.71}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 61455.923317193985, "iterations_since_restore": 349, "episode_reward_max": 4.001950540379527, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 173851, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 289, "timestamp": 1757116290, "timesteps_since_restore": 418800, "episode_len_mean": 4.1522491349480966, "episode_reward_mean": 3.761473907530973, "pid": 2334309, "time_since_restore": 14736.383876800537, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-51-30", "timesteps_total": 1858800, "episode_reward_min": -24.279542549098224, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.667532444000244, "training_iteration": 1549, "info": {"default": {"policy_loss": -0.05269224941730499, "vf_explained_var": 0.6414508819580078, "vf_loss": 6.603551387786865, "kl": 0.029232706874608994, "entropy": -0.053718943148851395, "cur_kl_coeff": 0.5554617047309875, "cur_lr": 4.999999873689376e-05, "total_loss": 6.56709623336792}, "sample_time_ms": 47872.851, "num_steps_trained": 1858800, "num_steps_sampled": 1858800, "update_time_ms": 2.771, "grad_time_ms": 378.22, "load_time_ms": 0.703}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 61503.867018699646, "iterations_since_restore": 350, "episode_reward_max": 4.000797601126518, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 174147, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757116338, "timesteps_since_restore": 420000, "episode_len_mean": 4.023648648648648, "episode_reward_mean": 3.9630307572671244, "pid": 2334309, "time_since_restore": 14784.327578306198, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-52-18", "timesteps_total": 1860000, "episode_reward_min": -7.027787928755735, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.94370150566101, "training_iteration": 1550, "info": {"default": {"policy_loss": -0.03788703680038452, "vf_explained_var": 0.7924908399581909, "vf_loss": 2.926590919494629, "kl": 0.005450094118714333, "entropy": -0.29870712757110596, "cur_kl_coeff": 0.8331925868988037, "cur_lr": 4.999999873689376e-05, "total_loss": 2.893244743347168}, "sample_time_ms": 47825.465, "num_steps_trained": 1860000, "num_steps_sampled": 1860000, "update_time_ms": 2.824, "grad_time_ms": 378.24, "load_time_ms": 0.703}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 61552.108314991, "iterations_since_restore": 351, "episode_reward_max": 4.00076622179144, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 174435, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 288, "timestamp": 1757116386, "timesteps_since_restore": 421200, "episode_len_mean": 4.204861111111111, "episode_reward_mean": 3.680552681833992, "pid": 2334309, "time_since_restore": 14832.56887459755, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-53-06", "timesteps_total": 1861200, "episode_reward_min": -24.25777667609055, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.24129629135132, "training_iteration": 1551, "info": {"default": {"policy_loss": -0.0567702054977417, "vf_explained_var": 0.644838273525238, "vf_loss": 5.667288303375244, "kl": 0.013355033472180367, "entropy": -0.008345802314579487, "cur_kl_coeff": 0.8331925868988037, "cur_lr": 4.999999873689376e-05, "total_loss": 5.621644973754883}, "sample_time_ms": 47834.343, "num_steps_trained": 1861200, "num_steps_sampled": 1861200, "update_time_ms": 2.69, "grad_time_ms": 377.068, "load_time_ms": 0.695}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 61600.238542079926, "iterations_since_restore": 352, "episode_reward_max": 4.00159015121519, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 174731, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757116434, "timesteps_since_restore": 422400, "episode_len_mean": 4.0574324324324325, "episode_reward_mean": 3.917811213065124, "pid": 2334309, "time_since_restore": 14880.699101686478, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-53-54", "timesteps_total": 1862400, "episode_reward_min": -8.254747018583732, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.13022708892822, "training_iteration": 1552, "info": {"default": {"policy_loss": -0.02928720973432064, "vf_explained_var": 0.8584175109863281, "vf_loss": 0.951155424118042, "kl": 0.020910797640681267, "entropy": -0.2981509268283844, "cur_kl_coeff": 0.8331925868988037, "cur_lr": 4.999999873689376e-05, "total_loss": 0.9392907619476318}, "sample_time_ms": 47805.684, "num_steps_trained": 1862400, "num_steps_sampled": 1862400, "update_time_ms": 2.717, "grad_time_ms": 376.274, "load_time_ms": 0.696}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 61648.237974882126, "iterations_since_restore": 353, "episode_reward_max": 4.001526559015563, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 175027, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757116482, "timesteps_since_restore": 423600, "episode_len_mean": 4.054054054054054, "episode_reward_mean": 3.9128246569419547, "pid": 2334309, "time_since_restore": 14928.698534488678, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-54-42", "timesteps_total": 1863600, "episode_reward_min": -15.830816288684584, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.99943280220032, "training_iteration": 1553, "info": {"default": {"policy_loss": -0.029267966747283936, "vf_explained_var": 0.8252176642417908, "vf_loss": 1.6158114671707153, "kl": 0.00851098820567131, "entropy": -0.2290213704109192, "cur_kl_coeff": 1.2497888803482056, "cur_lr": 4.999999873689376e-05, "total_loss": 1.5971803665161133}, "sample_time_ms": 47808.37, "num_steps_trained": 1863600, "num_steps_sampled": 1863600, "update_time_ms": 2.69, "grad_time_ms": 372.985, "load_time_ms": 0.689}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 61695.78334021568, "iterations_since_restore": 354, "episode_reward_max": 4.001313541457591, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 175321, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757116530, "timesteps_since_restore": 424800, "episode_len_mean": 4.074829931972789, "episode_reward_mean": 3.885335088162209, "pid": 2334309, "time_since_restore": 14976.243899822235, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-55-30", "timesteps_total": 1864800, "episode_reward_min": -5.012240599718568, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.54536533355713, "training_iteration": 1554, "info": {"default": {"policy_loss": -0.04243389144539833, "vf_explained_var": 0.857541024684906, "vf_loss": 1.0358328819274902, "kl": 0.00958237610757351, "entropy": -0.2820771038532257, "cur_kl_coeff": 1.2497888803482056, "cur_lr": 4.999999873689376e-05, "total_loss": 1.0053750276565552}, "sample_time_ms": 47749.677, "num_steps_trained": 1864800, "num_steps_sampled": 1864800, "update_time_ms": 2.658, "grad_time_ms": 373.462, "load_time_ms": 0.692}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 61744.29118871689, "iterations_since_restore": 355, "episode_reward_max": 4.000981661907829, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 175615, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757116578, "timesteps_since_restore": 426000, "episode_len_mean": 4.078231292517007, "episode_reward_mean": 3.871417165009286, "pid": 2334309, "time_since_restore": 15024.75174832344, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-56-18", "timesteps_total": 1866000, "episode_reward_min": -14.875524824615376, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.507848501205444, "training_iteration": 1555, "info": {"default": {"policy_loss": -0.008362367749214172, "vf_explained_var": 0.7908833026885986, "vf_loss": 2.0001165866851807, "kl": 0.06091173365712166, "entropy": -0.25146234035491943, "cur_kl_coeff": 1.2497888803482056, "cur_lr": 4.999999873689376e-05, "total_loss": 2.0678811073303223}, "sample_time_ms": 47763.121, "num_steps_trained": 1866000, "num_steps_sampled": 1866000, "update_time_ms": 2.633, "grad_time_ms": 371.954, "load_time_ms": 0.676}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 61792.2475297451, "iterations_since_restore": 356, "episode_reward_max": 4.001286756972966, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 175911, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757116626, "timesteps_since_restore": 427200, "episode_len_mean": 4.050675675675675, "episode_reward_mean": 3.9219635746379424, "pid": 2334309, "time_since_restore": 15072.708089351654, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-57-06", "timesteps_total": 1867200, "episode_reward_min": -4.047622524938914, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.9563410282135, "training_iteration": 1556, "info": {"default": {"policy_loss": -0.037480711936950684, "vf_explained_var": 0.9157254695892334, "vf_loss": 0.5311429500579834, "kl": 0.0074905953370034695, "entropy": -0.3100923001766205, "cur_kl_coeff": 1.8746833801269531, "cur_lr": 4.999999873689376e-05, "total_loss": 0.5077047944068909}, "sample_time_ms": 47691.509, "num_steps_trained": 1867200, "num_steps_sampled": 1867200, "update_time_ms": 2.678, "grad_time_ms": 371.468, "load_time_ms": 0.68}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 61840.10854077339, "iterations_since_restore": 357, "episode_reward_max": 4.0007204423609695, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 176195, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 284, "timestamp": 1757116674, "timesteps_since_restore": 428400, "episode_len_mean": 4.221830985915493, "episode_reward_mean": 3.6466933468128833, "pid": 2334309, "time_since_restore": 15120.569100379944, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-57-54", "timesteps_total": 1868400, "episode_reward_min": -20.208765374468893, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.861011028289795, "training_iteration": 1557, "info": {"default": {"policy_loss": -0.04961474612355232, "vf_explained_var": 0.6592777967453003, "vf_loss": 4.453335285186768, "kl": 0.009721565991640091, "entropy": -0.040098242461681366, "cur_kl_coeff": 1.8746833801269531, "cur_lr": 4.999999873689376e-05, "total_loss": 4.421946048736572}, "sample_time_ms": 47676.29, "num_steps_trained": 1868400, "num_steps_sampled": 1868400, "update_time_ms": 2.672, "grad_time_ms": 372.356, "load_time_ms": 0.69}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 61887.84798049927, "iterations_since_restore": 358, "episode_reward_max": 4.000859050030758, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 176486, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757116722, "timesteps_since_restore": 429600, "episode_len_mean": 4.11340206185567, "episode_reward_mean": 3.828698000668395, "pid": 2334309, "time_since_restore": 15168.30854010582, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-58-42", "timesteps_total": 1869600, "episode_reward_min": -13.370105591320726, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.739439725875854, "training_iteration": 1558, "info": {"default": {"policy_loss": -0.049467239528894424, "vf_explained_var": 0.740755021572113, "vf_loss": 2.415066957473755, "kl": 0.01163265760987997, "entropy": -0.1673484444618225, "cur_kl_coeff": 1.8746833801269531, "cur_lr": 4.999999873689376e-05, "total_loss": 2.3874075412750244}, "sample_time_ms": 47676.557, "num_steps_trained": 1869600, "num_steps_sampled": 1869600, "update_time_ms": 2.697, "grad_time_ms": 372.998, "load_time_ms": 0.679}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 61936.13660621643, "iterations_since_restore": 359, "episode_reward_max": 4.000669817206264, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 176781, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757116770, "timesteps_since_restore": 430800, "episode_len_mean": 4.077966101694916, "episode_reward_mean": 3.8832815686110527, "pid": 2334309, "time_since_restore": 15216.597165822983, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_01-59-30", "timesteps_total": 1870800, "episode_reward_min": -16.575776002290556, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.288625717163086, "training_iteration": 1559, "info": {"default": {"policy_loss": -0.025577707216143608, "vf_explained_var": 0.7496296167373657, "vf_loss": 2.357015371322632, "kl": 0.007318648975342512, "entropy": -0.20591865479946136, "cur_kl_coeff": 1.8746833801269531, "cur_lr": 4.999999873689376e-05, "total_loss": 2.3451578617095947}, "sample_time_ms": 47637.284, "num_steps_trained": 1870800, "num_steps_sampled": 1870800, "update_time_ms": 2.75, "grad_time_ms": 374.335, "load_time_ms": 0.692}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 61984.122987508774, "iterations_since_restore": 360, "episode_reward_max": 4.000537644867736, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 177073, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757116818, "timesteps_since_restore": 432000, "episode_len_mean": 4.11986301369863, "episode_reward_mean": 3.8144557806727653, "pid": 2334309, "time_since_restore": 15264.583547115326, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-00-18", "timesteps_total": 1872000, "episode_reward_min": -31.5785873921552, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.98638129234314, "training_iteration": 1560, "info": {"default": {"policy_loss": -0.032466985285282135, "vf_explained_var": 0.7123806476593018, "vf_loss": 5.559065818786621, "kl": 0.009296141564846039, "entropy": -0.15036660432815552, "cur_kl_coeff": 1.8746833801269531, "cur_lr": 4.999999873689376e-05, "total_loss": 5.5440263748168945}, "sample_time_ms": 47639.313, "num_steps_trained": 1872000, "num_steps_sampled": 1872000, "update_time_ms": 2.658, "grad_time_ms": 376.601, "load_time_ms": 0.692}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 62032.410737752914, "iterations_since_restore": 361, "episode_reward_max": 4.000872321799581, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 177363, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 290, "timestamp": 1757116867, "timesteps_since_restore": 433200, "episode_len_mean": 4.13103448275862, "episode_reward_mean": 3.792715368065584, "pid": 2334309, "time_since_restore": 15312.871297359467, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-01-07", "timesteps_total": 1873200, "episode_reward_min": -19.05345483880405, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.287750244140625, "training_iteration": 1561, "info": {"default": {"policy_loss": -0.04058009013533592, "vf_explained_var": 0.7515530586242676, "vf_loss": 2.65691876411438, "kl": 0.02078377641737461, "entropy": -0.1329096108675003, "cur_kl_coeff": 1.8746833801269531, "cur_lr": 4.999999873689376e-05, "total_loss": 2.655301570892334}, "sample_time_ms": 47644.745, "num_steps_trained": 1873200, "num_steps_sampled": 1873200, "update_time_ms": 2.679, "grad_time_ms": 375.897, "load_time_ms": 0.695}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 62080.367956876755, "iterations_since_restore": 362, "episode_reward_max": 4.000655618396185, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 177646, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 283, "timestamp": 1757116914, "timesteps_since_restore": 434400, "episode_len_mean": 4.240282685512367, "episode_reward_mean": 3.625227890950405, "pid": 2334309, "time_since_restore": 15360.828516483307, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-01-54", "timesteps_total": 1874400, "episode_reward_min": -56.196818986679844, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.95721912384033, "training_iteration": 1562, "info": {"default": {"policy_loss": -0.049271248281002045, "vf_explained_var": 0.6377592086791992, "vf_loss": 13.601422309875488, "kl": 0.007709095720201731, "entropy": 0.17272046208381653, "cur_kl_coeff": 2.8120250701904297, "cur_lr": 4.999999873689376e-05, "total_loss": 13.57382869720459}, "sample_time_ms": 47628.969, "num_steps_trained": 1874400, "num_steps_sampled": 1874400, "update_time_ms": 2.654, "grad_time_ms": 374.411, "load_time_ms": 0.694}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 62128.26361322403, "iterations_since_restore": 363, "episode_reward_max": 4.000890448274204, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 177946, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757116962, "timesteps_since_restore": 435600, "episode_len_mean": 4.0, "episode_reward_mean": 4.000286501103673, "pid": 2334309, "time_since_restore": 15408.724172830582, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-02-42", "timesteps_total": 1875600, "episode_reward_min": 4.0001263384201105, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.89565634727478, "training_iteration": 1563, "info": {"default": {"policy_loss": -0.06036638468503952, "vf_explained_var": 0.9974765777587891, "vf_loss": 0.013610278256237507, "kl": 0.02050035074353218, "entropy": -0.36745166778564453, "cur_kl_coeff": 2.8120250701904297, "cur_lr": 4.999999873689376e-05, "total_loss": 0.010891393758356571}, "sample_time_ms": 47616.464, "num_steps_trained": 1875600, "num_steps_sampled": 1875600, "update_time_ms": 2.668, "grad_time_ms": 376.485, "load_time_ms": 0.7}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 62177.080770254135, "iterations_since_restore": 364, "episode_reward_max": 4.001675274635093, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 178244, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757117011, "timesteps_since_restore": 436800, "episode_len_mean": 4.023489932885906, "episode_reward_mean": 3.9652699473180317, "pid": 2334309, "time_since_restore": 15457.541329860687, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-03-31", "timesteps_total": 1876800, "episode_reward_min": -6.435941610674615, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.81715703010559, "training_iteration": 1564, "info": {"default": {"policy_loss": -0.02552967518568039, "vf_explained_var": 0.922250509262085, "vf_loss": 0.5136945247650146, "kl": 0.003353646956384182, "entropy": -0.3572976887226105, "cur_kl_coeff": 4.2180376052856445, "cur_lr": 4.999999873689376e-05, "total_loss": 0.5023106932640076}, "sample_time_ms": 47745.117, "num_steps_trained": 1876800, "num_steps_sampled": 1876800, "update_time_ms": 2.684, "grad_time_ms": 375.014, "load_time_ms": 0.69}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 62225.178007125854, "iterations_since_restore": 365, "episode_reward_max": 4.000757617629815, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 178538, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757117059, "timesteps_since_restore": 438000, "episode_len_mean": 4.08843537414966, "episode_reward_mean": 3.8728606780482226, "pid": 2334309, "time_since_restore": 15505.638566732407, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-04-19", "timesteps_total": 1878000, "episode_reward_min": -7.952004347474958, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.09723687171936, "training_iteration": 1565, "info": {"default": {"policy_loss": -0.04974418506026268, "vf_explained_var": 0.8053832054138184, "vf_loss": 1.3960421085357666, "kl": 0.006417561788111925, "entropy": -0.08495362102985382, "cur_kl_coeff": 2.1090188026428223, "cur_lr": 4.999999873689376e-05, "total_loss": 1.359832525253296}, "sample_time_ms": 47704.284, "num_steps_trained": 1878000, "num_steps_sampled": 1878000, "update_time_ms": 2.683, "grad_time_ms": 374.866, "load_time_ms": 0.696}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 62272.78416442871, "iterations_since_restore": 366, "episode_reward_max": 4.00071744094023, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 178832, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757117107, "timesteps_since_restore": 439200, "episode_len_mean": 4.074829931972789, "episode_reward_mean": 3.884720484477388, "pid": 2334309, "time_since_restore": 15553.244724035263, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-05-07", "timesteps_total": 1879200, "episode_reward_min": -17.137204966840184, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.606157302856445, "training_iteration": 1566, "info": {"default": {"policy_loss": -0.043113283812999725, "vf_explained_var": 0.7695052623748779, "vf_loss": 2.1048941612243652, "kl": 0.004879961721599102, "entropy": -0.24902735650539398, "cur_kl_coeff": 2.1090188026428223, "cur_lr": 4.999999873689376e-05, "total_loss": 2.072072744369507}, "sample_time_ms": 47671.378, "num_steps_trained": 1879200, "num_steps_sampled": 1879200, "update_time_ms": 2.639, "grad_time_ms": 372.849, "load_time_ms": 0.69}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 62321.23784279823, "iterations_since_restore": 367, "episode_reward_max": 4.0015225469864415, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 179132, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757117155, "timesteps_since_restore": 440400, "episode_len_mean": 4.0, "episode_reward_mean": 4.0002841775501485, "pid": 2334309, "time_since_restore": 15601.698402404785, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-05-55", "timesteps_total": 1880400, "episode_reward_min": 4.000134628140028, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.453678369522095, "training_iteration": 1567, "info": {"default": {"policy_loss": -0.07601597905158997, "vf_explained_var": 0.9990653991699219, "vf_loss": 0.004969781264662743, "kl": 0.031997863203287125, "entropy": -0.36669424176216125, "cur_kl_coeff": 1.0545094013214111, "cur_lr": 4.999999873689376e-05, "total_loss": -0.037304144352674484}, "sample_time_ms": 47733.136, "num_steps_trained": 1880400, "num_steps_sampled": 1880400, "update_time_ms": 2.603, "grad_time_ms": 370.463, "load_time_ms": 0.675}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 62369.179589271545, "iterations_since_restore": 368, "episode_reward_max": 4.000766954827105, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 179431, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757117203, "timesteps_since_restore": 441600, "episode_len_mean": 4.016722408026756, "episode_reward_mean": 3.973344986332241, "pid": 2334309, "time_since_restore": 15649.640148878098, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-06-43", "timesteps_total": 1881600, "episode_reward_min": -4.057736469342494, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.94174647331238, "training_iteration": 1568, "info": {"default": {"policy_loss": -0.026744777336716652, "vf_explained_var": 0.9568169713020325, "vf_loss": 0.2588689625263214, "kl": 0.0057578617706894875, "entropy": -0.32956066727638245, "cur_kl_coeff": 1.5817641019821167, "cur_lr": 4.999999873689376e-05, "total_loss": 0.2412317842245102}, "sample_time_ms": 47754.515, "num_steps_trained": 1881600, "num_steps_sampled": 1881600, "update_time_ms": 2.584, "grad_time_ms": 369.373, "load_time_ms": 0.676}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 62417.186651945114, "iterations_since_restore": 369, "episode_reward_max": 4.000705862962748, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 179726, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757117251, "timesteps_since_restore": 442800, "episode_len_mean": 4.061016949152543, "episode_reward_mean": 3.903483275074365, "pid": 2334309, "time_since_restore": 15697.647211551666, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-07-31", "timesteps_total": 1882800, "episode_reward_min": -15.53506945254033, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.007062673568726, "training_iteration": 1569, "info": {"default": {"policy_loss": -0.03134991601109505, "vf_explained_var": 0.9085052013397217, "vf_loss": 0.872275710105896, "kl": 0.00282758055254817, "entropy": -0.22037667036056519, "cur_kl_coeff": 1.5817641019821167, "cur_lr": 4.999999873689376e-05, "total_loss": 0.8453982472419739}, "sample_time_ms": 47727.929, "num_steps_trained": 1882800, "num_steps_sampled": 1882800, "update_time_ms": 2.555, "grad_time_ms": 367.846, "load_time_ms": 0.676}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 62465.44639968872, "iterations_since_restore": 370, "episode_reward_max": 4.000847066841848, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 180026, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757117300, "timesteps_since_restore": 444000, "episode_len_mean": 4.0, "episode_reward_mean": 4.000283294096704, "pid": 2334309, "time_since_restore": 15745.906959295273, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-08-20", "timesteps_total": 1884000, "episode_reward_min": 4.000148485265413, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.25974774360657, "training_iteration": 1570, "info": {"default": {"policy_loss": -0.07995298504829407, "vf_explained_var": 0.9990289211273193, "vf_loss": 0.005183494184166193, "kl": 0.04207802191376686, "entropy": -0.34226423501968384, "cur_kl_coeff": 0.7908820509910583, "cur_lr": 4.999999873689376e-05, "total_loss": -0.04149073734879494}, "sample_time_ms": 47754.998, "num_steps_trained": 1884000, "num_steps_sampled": 1884000, "update_time_ms": 2.576, "grad_time_ms": 368.107, "load_time_ms": 0.682}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 62513.35688042641, "iterations_since_restore": 371, "episode_reward_max": 4.001340064530801, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 180325, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757117348, "timesteps_since_restore": 445200, "episode_len_mean": 4.013377926421405, "episode_reward_mean": 3.9800080588348377, "pid": 2334309, "time_since_restore": 15793.817440032959, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-09-08", "timesteps_total": 1885200, "episode_reward_min": -2.0624998863451314, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.91048073768616, "training_iteration": 1571, "info": {"default": {"policy_loss": -0.025979701429605484, "vf_explained_var": 0.96938157081604, "vf_loss": 0.17531664669513702, "kl": 0.00476859649643302, "entropy": -0.2758833169937134, "cur_kl_coeff": 1.1863230466842651, "cur_lr": 4.999999873689376e-05, "total_loss": 0.15499405562877655}, "sample_time_ms": 47714.011, "num_steps_trained": 1885200, "num_steps_sampled": 1885200, "update_time_ms": 2.655, "grad_time_ms": 371.221, "load_time_ms": 0.708}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 62561.15172410011, "iterations_since_restore": 372, "episode_reward_max": 4.000770060867728, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 180616, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757117395, "timesteps_since_restore": 446400, "episode_len_mean": 4.1271477663230245, "episode_reward_mean": 3.796615750135822, "pid": 2334309, "time_since_restore": 15841.612283706665, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-09-55", "timesteps_total": 1886400, "episode_reward_min": -27.562278647950905, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.794843673706055, "training_iteration": 1572, "info": {"default": {"policy_loss": -0.040325894951820374, "vf_explained_var": 0.7490986585617065, "vf_loss": 4.277646541595459, "kl": 0.012065037153661251, "entropy": -0.1365869641304016, "cur_kl_coeff": 0.5931615233421326, "cur_lr": 4.999999873689376e-05, "total_loss": 4.244477272033691}, "sample_time_ms": 47696.245, "num_steps_trained": 1886400, "num_steps_sampled": 1886400, "update_time_ms": 2.675, "grad_time_ms": 372.692, "load_time_ms": 0.713}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 62609.020100831985, "iterations_since_restore": 373, "episode_reward_max": 4.000703430034832, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 180911, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757117443, "timesteps_since_restore": 447600, "episode_len_mean": 4.074576271186441, "episode_reward_mean": 3.88488106879469, "pid": 2334309, "time_since_restore": 15889.480660438538, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-10-43", "timesteps_total": 1887600, "episode_reward_min": -11.824160695891258, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.86837673187256, "training_iteration": 1573, "info": {"default": {"policy_loss": 0.018279068171977997, "vf_explained_var": 0.8077213764190674, "vf_loss": 1.6502305269241333, "kl": 0.5652738213539124, "entropy": 0.41416558623313904, "cur_kl_coeff": 0.5931615233421326, "cur_lr": 4.999999873689376e-05, "total_loss": 2.0038082599639893}, "sample_time_ms": 47693.719, "num_steps_trained": 1887600, "num_steps_sampled": 1887600, "update_time_ms": 2.67, "grad_time_ms": 372.521, "load_time_ms": 0.711}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 62653.638728141785, "iterations_since_restore": 374, "episode_reward_max": 4.00087456617762, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 181046, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 135, "timestamp": 1757117488, "timesteps_since_restore": 448800, "episode_len_mean": 8.77037037037037, "episode_reward_mean": -3.9291837219265635, "pid": 2334309, "time_since_restore": 15934.099287748337, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-11-28", "timesteps_total": 1888800, "episode_reward_min": -84.59588556684481, "num_metric_batches_dropped": 0, "time_this_iter_s": 44.618627309799194, "training_iteration": 1574, "info": {"default": {"policy_loss": -0.12151748687028885, "vf_explained_var": 0.1806643009185791, "vf_loss": 238.48733520507812, "kl": 0.01683727465569973, "entropy": 4.693624496459961, "cur_kl_coeff": 0.8897423148155212, "cur_lr": 4.999999873689376e-05, "total_loss": 238.3807830810547}, "sample_time_ms": 47272.79, "num_steps_trained": 1888800, "num_steps_sampled": 1888800, "update_time_ms": 2.672, "grad_time_ms": 373.664, "load_time_ms": 0.708}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 62698.359999895096, "iterations_since_restore": 375, "episode_reward_max": 4.00065069394722, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 181213, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 167, "timestamp": 1757117533, "timesteps_since_restore": 450000, "episode_len_mean": 7.2155688622754495, "episode_reward_mean": -1.2864037728765005, "pid": 2334309, "time_since_restore": 15978.820559501648, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-12-13", "timesteps_total": 1890000, "episode_reward_min": -82.78930040093411, "num_metric_batches_dropped": 0, "time_this_iter_s": 44.72127175331116, "training_iteration": 1575, "info": {"default": {"policy_loss": -0.11611318588256836, "vf_explained_var": 0.21542488038539886, "vf_loss": 180.07395935058594, "kl": 0.017754873260855675, "entropy": 3.648305654525757, "cur_kl_coeff": 0.8897423148155212, "cur_lr": 4.999999873689376e-05, "total_loss": 179.97364807128906}, "sample_time_ms": 46933.951, "num_steps_trained": 1890000, "num_steps_sampled": 1890000, "update_time_ms": 2.67, "grad_time_ms": 374.974, "load_time_ms": 0.7}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 62742.76793026924, "iterations_since_restore": 376, "episode_reward_max": 4.000689243662034, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 181366, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 153, "timestamp": 1757117577, "timesteps_since_restore": 451200, "episode_len_mean": 7.928104575163399, "episode_reward_mean": -2.395928725555863, "pid": 2334309, "time_since_restore": 16023.228489875793, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-12-57", "timesteps_total": 1891200, "episode_reward_min": -82.46506755311911, "num_metric_batches_dropped": 0, "time_this_iter_s": 44.40793037414551, "training_iteration": 1576, "info": {"default": {"policy_loss": -0.13176898658275604, "vf_explained_var": 0.19764897227287292, "vf_loss": 226.1062774658203, "kl": 0.018566124141216278, "entropy": 4.347147464752197, "cur_kl_coeff": 0.8897423148155212, "cur_lr": 4.999999873689376e-05, "total_loss": 225.99102783203125}, "sample_time_ms": 46612.664, "num_steps_trained": 1891200, "num_steps_sampled": 1891200, "update_time_ms": 2.672, "grad_time_ms": 376.529, "load_time_ms": 0.695}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 62788.36729645729, "iterations_since_restore": 377, "episode_reward_max": 4.001549307642125, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 181546, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 180, "timestamp": 1757117623, "timesteps_since_restore": 452400, "episode_len_mean": 6.594444444444444, "episode_reward_mean": -0.1297197030497467, "pid": 2334309, "time_since_restore": 16068.827856063843, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-13-43", "timesteps_total": 1892400, "episode_reward_min": -68.33222797332645, "num_metric_batches_dropped": 0, "time_this_iter_s": 45.599366188049316, "training_iteration": 1577, "info": {"default": {"policy_loss": -0.12728387117385864, "vf_explained_var": 0.28653988242149353, "vf_loss": 138.2716522216797, "kl": 0.017543647438287735, "entropy": 3.3475568294525146, "cur_kl_coeff": 0.8897423148155212, "cur_lr": 4.999999873689376e-05, "total_loss": 138.15997314453125}, "sample_time_ms": 46327.353, "num_steps_trained": 1892400, "num_steps_sampled": 1892400, "update_time_ms": 2.656, "grad_time_ms": 376.505, "load_time_ms": 0.69}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 62829.014003276825, "iterations_since_restore": 378, "episode_reward_max": 4.001234964061183, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 181739, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 193, "timestamp": 1757117663, "timesteps_since_restore": 453600, "episode_len_mean": 6.238341968911917, "episode_reward_mean": 0.38913877774746153, "pid": 2334309, "time_since_restore": 16109.474562883377, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-14-23", "timesteps_total": 1893600, "episode_reward_min": -82.20832471649024, "num_metric_batches_dropped": 0, "time_this_iter_s": 40.6467068195343, "training_iteration": 1578, "info": {"default": {"policy_loss": -0.11107394099235535, "vf_explained_var": 0.23941320180892944, "vf_loss": 126.75392150878906, "kl": 0.01819705031812191, "entropy": 3.049403190612793, "cur_kl_coeff": 0.8897423148155212, "cur_lr": 4.999999873689376e-05, "total_loss": 126.65904235839844}, "sample_time_ms": 45595.687, "num_steps_trained": 1893600, "num_steps_sampled": 1893600, "update_time_ms": 2.619, "grad_time_ms": 378.732, "load_time_ms": 0.714}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 62872.81374025345, "iterations_since_restore": 379, "episode_reward_max": 4.00085323062602, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 181945, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 206, "timestamp": 1757117707, "timesteps_since_restore": 454800, "episode_len_mean": 5.752427184466019, "episode_reward_mean": 1.2417617544791821, "pid": 2334309, "time_since_restore": 16153.27429986, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-15-07", "timesteps_total": 1894800, "episode_reward_min": -36.287746275136996, "num_metric_batches_dropped": 0, "time_this_iter_s": 43.799736976623535, "training_iteration": 1579, "info": {"default": {"policy_loss": -0.10977531969547272, "vf_explained_var": 0.2134745866060257, "vf_loss": 62.20029067993164, "kl": 0.019202379509806633, "entropy": 2.788670539855957, "cur_kl_coeff": 0.8897423148155212, "cur_lr": 4.999999873689376e-05, "total_loss": 62.10759735107422}, "sample_time_ms": 45174.552, "num_steps_trained": 1894800, "num_steps_sampled": 1894800, "update_time_ms": 2.622, "grad_time_ms": 379.207, "load_time_ms": 0.706}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 62919.23076796532, "iterations_since_restore": 380, "episode_reward_max": 4.001415726602835, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 182163, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 218, "timestamp": 1757117754, "timesteps_since_restore": 456000, "episode_len_mean": 5.527522935779817, "episode_reward_mean": 1.5477305256680642, "pid": 2334309, "time_since_restore": 16199.691327571869, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-15-54", "timesteps_total": 1896000, "episode_reward_min": -81.36454768493502, "num_metric_batches_dropped": 0, "time_this_iter_s": 46.417027711868286, "training_iteration": 1580, "info": {"default": {"policy_loss": -0.10363621264696121, "vf_explained_var": 0.3296983242034912, "vf_loss": 94.78414916992188, "kl": 0.015582915395498276, "entropy": 2.520273447036743, "cur_kl_coeff": 0.8897423148155212, "cur_lr": 4.999999873689376e-05, "total_loss": 94.69437408447266}, "sample_time_ms": 44990.987, "num_steps_trained": 1896000, "num_steps_sampled": 1896000, "update_time_ms": 2.647, "grad_time_ms": 378.571, "load_time_ms": 0.705}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 62965.55880236626, "iterations_since_restore": 381, "episode_reward_max": 4.000675616686552, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 182400, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 237, "timestamp": 1757117800, "timesteps_since_restore": 457200, "episode_len_mean": 5.122362869198312, "episode_reward_mean": 2.242031365839391, "pid": 2334309, "time_since_restore": 16246.019361972809, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-16-40", "timesteps_total": 1897200, "episode_reward_min": -37.614747418001684, "num_metric_batches_dropped": 0, "time_this_iter_s": 46.32803440093994, "training_iteration": 1581, "info": {"default": {"policy_loss": -0.09627168625593185, "vf_explained_var": 0.2858661115169525, "vf_loss": 39.6611442565918, "kl": 0.01760130561888218, "entropy": 1.9897466897964478, "cur_kl_coeff": 0.8897423148155212, "cur_lr": 4.999999873689376e-05, "total_loss": 39.58053207397461}, "sample_time_ms": 44836.487, "num_steps_trained": 1897200, "num_steps_sampled": 1897200, "update_time_ms": 2.507, "grad_time_ms": 375.095, "load_time_ms": 0.673}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 63011.97559046745, "iterations_since_restore": 382, "episode_reward_max": 4.001048729337485, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 182650, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 250, "timestamp": 1757117846, "timesteps_since_restore": 458400, "episode_len_mean": 4.78, "episode_reward_mean": 2.7916112710459555, "pid": 2334309, "time_since_restore": 16292.436150074005, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-17-26", "timesteps_total": 1898400, "episode_reward_min": -39.71600225916191, "num_metric_batches_dropped": 0, "time_this_iter_s": 46.41678810119629, "training_iteration": 1582, "info": {"default": {"policy_loss": -0.08863456547260284, "vf_explained_var": 0.33807647228240967, "vf_loss": 31.48415756225586, "kl": 0.0159127339720726, "entropy": 1.6174063682556152, "cur_kl_coeff": 0.8897423148155212, "cur_lr": 4.999999873689376e-05, "total_loss": 31.409685134887695}, "sample_time_ms": 44697.178, "num_steps_trained": 1898400, "num_steps_sampled": 1898400, "update_time_ms": 2.488, "grad_time_ms": 376.63, "load_time_ms": 0.68}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 63059.89192414284, "iterations_since_restore": 383, "episode_reward_max": 4.001015588345834, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 182900, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 250, "timestamp": 1757117894, "timesteps_since_restore": 459600, "episode_len_mean": 4.824, "episode_reward_mean": 2.6844662531661903, "pid": 2334309, "time_since_restore": 16340.35248374939, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-18-14", "timesteps_total": 1899600, "episode_reward_min": -39.51472744231987, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.91633367538452, "training_iteration": 1583, "info": {"default": {"policy_loss": -0.09161057323217392, "vf_explained_var": 0.33659470081329346, "vf_loss": 30.500125885009766, "kl": 0.015805203467607498, "entropy": 1.4535026550292969, "cur_kl_coeff": 0.8897423148155212, "cur_lr": 4.999999873689376e-05, "total_loss": 30.422576904296875}, "sample_time_ms": 44702.895, "num_steps_trained": 1899600, "num_steps_sampled": 1899600, "update_time_ms": 2.482, "grad_time_ms": 375.693, "load_time_ms": 0.67}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 63107.57047820091, "iterations_since_restore": 384, "episode_reward_max": 4.000986292922605, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 183181, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 281, "timestamp": 1757117942, "timesteps_since_restore": 460800, "episode_len_mean": 4.288256227758007, "episode_reward_mean": 3.5617806778666385, "pid": 2334309, "time_since_restore": 16388.031037807465, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-19-02", "timesteps_total": 1900800, "episode_reward_min": -14.586208189994473, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.67855405807495, "training_iteration": 1584, "info": {"default": {"policy_loss": -0.06849127262830734, "vf_explained_var": 0.4442386031150818, "vf_loss": 7.563508033752441, "kl": 0.013084410689771175, "entropy": 0.8002127408981323, "cur_kl_coeff": 0.8897423148155212, "cur_lr": 4.999999873689376e-05, "total_loss": 7.50665807723999}, "sample_time_ms": 45008.292, "num_steps_trained": 1900800, "num_steps_sampled": 1900800, "update_time_ms": 2.533, "grad_time_ms": 376.129, "load_time_ms": 0.684}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 63155.96897792816, "iterations_since_restore": 385, "episode_reward_max": 4.0020873582777625, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 183432, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 251, "timestamp": 1757117990, "timesteps_since_restore": 462000, "episode_len_mean": 4.760956175298805, "episode_reward_mean": 2.7922880530977263, "pid": 2334309, "time_since_restore": 16436.429537534714, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-19-50", "timesteps_total": 1902000, "episode_reward_min": -35.530597455703635, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.398499727249146, "training_iteration": 1585, "info": {"default": {"policy_loss": -0.08791720122098923, "vf_explained_var": 0.41366228461265564, "vf_loss": 32.68443298339844, "kl": 0.017710577696561813, "entropy": 1.627702236175537, "cur_kl_coeff": 0.8897423148155212, "cur_lr": 4.999999873689376e-05, "total_loss": 32.61227798461914}, "sample_time_ms": 45376.385, "num_steps_trained": 1902000, "num_steps_sampled": 1902000, "update_time_ms": 2.581, "grad_time_ms": 375.7, "load_time_ms": 0.685}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 63203.3112578392, "iterations_since_restore": 386, "episode_reward_max": 4.0007194851294, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 183703, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 271, "timestamp": 1757118038, "timesteps_since_restore": 463200, "episode_len_mean": 4.387453874538745, "episode_reward_mean": 3.3878335091378617, "pid": 2334309, "time_since_restore": 16483.771817445755, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-20-38", "timesteps_total": 1903200, "episode_reward_min": -37.58720445768888, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.34227991104126, "training_iteration": 1586, "info": {"default": {"policy_loss": -0.07236369699239731, "vf_explained_var": 0.43200933933258057, "vf_loss": 18.01152801513672, "kl": 0.01514524407684803, "entropy": 0.9192028045654297, "cur_kl_coeff": 0.8897423148155212, "cur_lr": 4.999999873689376e-05, "total_loss": 17.95264434814453}, "sample_time_ms": 45669.783, "num_steps_trained": 1903200, "num_steps_sampled": 1903200, "update_time_ms": 2.572, "grad_time_ms": 375.647, "load_time_ms": 0.687}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 63250.361718416214, "iterations_since_restore": 387, "episode_reward_max": 4.001502767055331, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 183979, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 276, "timestamp": 1757118085, "timesteps_since_restore": 464400, "episode_len_mean": 4.394927536231884, "episode_reward_mean": 3.3740165258117747, "pid": 2334309, "time_since_restore": 16530.822278022766, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-21-25", "timesteps_total": 1904400, "episode_reward_min": -17.095444765057152, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.05046057701111, "training_iteration": 1587, "info": {"default": {"policy_loss": -0.06979411840438843, "vf_explained_var": 0.43812090158462524, "vf_loss": 8.876758575439453, "kl": 0.017150186002254486, "entropy": 0.6491653919219971, "cur_kl_coeff": 0.8897423148155212, "cur_lr": 4.999999873689376e-05, "total_loss": 8.822223663330078}, "sample_time_ms": 45812.5, "num_steps_trained": 1904400, "num_steps_sampled": 1904400, "update_time_ms": 2.619, "grad_time_ms": 377.886, "load_time_ms": 0.691}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 63297.09991788864, "iterations_since_restore": 388, "episode_reward_max": 4.001084365210296, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 184254, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 275, "timestamp": 1757118132, "timesteps_since_restore": 465600, "episode_len_mean": 4.323636363636363, "episode_reward_mean": 3.5059522252169644, "pid": 2334309, "time_since_restore": 16577.560477495193, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-22-12", "timesteps_total": 1905600, "episode_reward_min": -28.93853780781034, "num_metric_batches_dropped": 0, "time_this_iter_s": 46.73819947242737, "training_iteration": 1588, "info": {"default": {"policy_loss": -0.06910748779773712, "vf_explained_var": 0.431485116481781, "vf_loss": 11.710115432739258, "kl": 0.018872009590268135, "entropy": 0.8769434094429016, "cur_kl_coeff": 0.8897423148155212, "cur_lr": 4.999999873689376e-05, "total_loss": 11.657798767089844}, "sample_time_ms": 46422.486, "num_steps_trained": 1905600, "num_steps_sampled": 1905600, "update_time_ms": 2.646, "grad_time_ms": 377.007, "load_time_ms": 0.673}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 63344.572999715805, "iterations_since_restore": 389, "episode_reward_max": 4.000691972032875, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 184536, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 282, "timestamp": 1757118179, "timesteps_since_restore": 466800, "episode_len_mean": 4.280141843971631, "episode_reward_mean": 3.5689747956295097, "pid": 2334309, "time_since_restore": 16625.033559322357, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-22-59", "timesteps_total": 1906800, "episode_reward_min": -26.602532606679183, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.473081827163696, "training_iteration": 1589, "info": {"default": {"policy_loss": -0.058156948536634445, "vf_explained_var": 0.505536675453186, "vf_loss": 7.718118667602539, "kl": 0.015940451994538307, "entropy": 0.6930487751960754, "cur_kl_coeff": 0.8897423148155212, "cur_lr": 4.999999873689376e-05, "total_loss": 7.674144268035889}, "sample_time_ms": 46789.962, "num_steps_trained": 1906800, "num_steps_sampled": 1906800, "update_time_ms": 2.639, "grad_time_ms": 376.738, "load_time_ms": 0.667}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 63391.97896504402, "iterations_since_restore": 390, "episode_reward_max": 4.000630718587525, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 184814, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 278, "timestamp": 1757118227, "timesteps_since_restore": 468000, "episode_len_mean": 4.330935251798561, "episode_reward_mean": 3.4788514426037875, "pid": 2334309, "time_since_restore": 16672.439524650574, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-23-47", "timesteps_total": 1908000, "episode_reward_min": -41.93510011010531, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.40596532821655, "training_iteration": 1590, "info": {"default": {"policy_loss": -0.05971435829997063, "vf_explained_var": 0.4958500266075134, "vf_loss": 18.47064971923828, "kl": 0.023802898824214935, "entropy": 0.7413482069969177, "cur_kl_coeff": 0.8897423148155212, "cur_lr": 4.999999873689376e-05, "total_loss": 18.432111740112305}, "sample_time_ms": 46889.02, "num_steps_trained": 1908000, "num_steps_sampled": 1908000, "update_time_ms": 2.639, "grad_time_ms": 376.465, "load_time_ms": 0.662}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 63439.125634908676, "iterations_since_restore": 391, "episode_reward_max": 4.001493643738351, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 185095, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 281, "timestamp": 1757118274, "timesteps_since_restore": 469200, "episode_len_mean": 4.277580071174377, "episode_reward_mean": 3.5601394281371515, "pid": 2334309, "time_since_restore": 16719.58619451523, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-24-34", "timesteps_total": 1909200, "episode_reward_min": -48.68698411626751, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.14666986465454, "training_iteration": 1591, "info": {"default": {"policy_loss": -0.06024554744362831, "vf_explained_var": 0.5269180536270142, "vf_loss": 16.936067581176758, "kl": 0.01829909160733223, "entropy": 0.7308100461959839, "cur_kl_coeff": 1.3346134424209595, "cur_lr": 4.999999873689376e-05, "total_loss": 16.900245666503906}, "sample_time_ms": 46968.247, "num_steps_trained": 1909200, "num_steps_sampled": 1909200, "update_time_ms": 2.659, "grad_time_ms": 379.018, "load_time_ms": 0.681}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 63486.68543243408, "iterations_since_restore": 392, "episode_reward_max": 4.001388277720294, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 185377, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 282, "timestamp": 1757118321, "timesteps_since_restore": 470400, "episode_len_mean": 4.24113475177305, "episode_reward_mean": 3.622711972624856, "pid": 2334309, "time_since_restore": 16767.145992040634, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-25-21", "timesteps_total": 1910400, "episode_reward_min": -27.514420583916134, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.559797525405884, "training_iteration": 1592, "info": {"default": {"policy_loss": -0.060801420360803604, "vf_explained_var": 0.5042464733123779, "vf_loss": 7.769266128540039, "kl": 0.012026442214846611, "entropy": 0.49798059463500977, "cur_kl_coeff": 1.3346134424209595, "cur_lr": 4.999999873689376e-05, "total_loss": 7.724515438079834}, "sample_time_ms": 47084.821, "num_steps_trained": 1910400, "num_steps_sampled": 1910400, "update_time_ms": 2.663, "grad_time_ms": 376.74, "load_time_ms": 0.68}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 63534.1639316082, "iterations_since_restore": 393, "episode_reward_max": 4.001455965701644, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 185657, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 280, "timestamp": 1757118369, "timesteps_since_restore": 471600, "episode_len_mean": 4.285714285714286, "episode_reward_mean": 3.5578155752103133, "pid": 2334309, "time_since_restore": 16814.624491214752, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-26-09", "timesteps_total": 1911600, "episode_reward_min": -24.96089343220104, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.47849917411804, "training_iteration": 1593, "info": {"default": {"policy_loss": -0.05704556033015251, "vf_explained_var": 0.4862327575683594, "vf_loss": 10.131421089172363, "kl": 0.018773244693875313, "entropy": 0.7038066387176514, "cur_kl_coeff": 1.3346134424209595, "cur_lr": 4.999999873689376e-05, "total_loss": 10.099430084228516}, "sample_time_ms": 47039.902, "num_steps_trained": 1911600, "num_steps_sampled": 1911600, "update_time_ms": 2.683, "grad_time_ms": 377.896, "load_time_ms": 0.684}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 63580.940623521805, "iterations_since_restore": 394, "episode_reward_max": 4.000957818955348, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 185936, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 279, "timestamp": 1757118416, "timesteps_since_restore": 472800, "episode_len_mean": 4.311827956989247, "episode_reward_mean": 3.5238843283392103, "pid": 2334309, "time_since_restore": 16861.401183128357, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-26-56", "timesteps_total": 1912800, "episode_reward_min": -28.35561460515494, "num_metric_batches_dropped": 0, "time_this_iter_s": 46.776691913604736, "training_iteration": 1594, "info": {"default": {"policy_loss": -0.06499853730201721, "vf_explained_var": 0.4926680326461792, "vf_loss": 12.900650024414062, "kl": 0.015675440430641174, "entropy": 0.8017170429229736, "cur_kl_coeff": 1.3346134424209595, "cur_lr": 4.999999873689376e-05, "total_loss": 12.856571197509766}, "sample_time_ms": 46951.698, "num_steps_trained": 1912800, "num_steps_sampled": 1912800, "update_time_ms": 2.636, "grad_time_ms": 375.974, "load_time_ms": 0.671}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 63628.71539735794, "iterations_since_restore": 395, "episode_reward_max": 4.000739494436217, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 186229, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 293, "timestamp": 1757118463, "timesteps_since_restore": 474000, "episode_len_mean": 4.088737201365188, "episode_reward_mean": 3.8634011113333733, "pid": 2334309, "time_since_restore": 16909.175956964493, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-27-43", "timesteps_total": 1914000, "episode_reward_min": -19.967923971189606, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.774773836135864, "training_iteration": 1595, "info": {"default": {"policy_loss": -0.05292891710996628, "vf_explained_var": 0.7453122735023499, "vf_loss": 2.4004909992218018, "kl": 0.005182528402656317, "entropy": 0.3601190149784088, "cur_kl_coeff": 1.3346134424209595, "cur_lr": 4.999999873689376e-05, "total_loss": 2.354478597640991}, "sample_time_ms": 46889.762, "num_steps_trained": 1914000, "num_steps_sampled": 1914000, "update_time_ms": 2.579, "grad_time_ms": 375.497, "load_time_ms": 0.673}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 63676.80386519432, "iterations_since_restore": 396, "episode_reward_max": 4.000779339028805, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 186524, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757118512, "timesteps_since_restore": 475200, "episode_len_mean": 4.067796610169491, "episode_reward_mean": 3.8931808645359665, "pid": 2334309, "time_since_restore": 16957.264424800873, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-28-32", "timesteps_total": 1915200, "episode_reward_min": -18.43697447256419, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.088467836380005, "training_iteration": 1596, "info": {"default": {"policy_loss": -0.0379730649292469, "vf_explained_var": 0.7925131916999817, "vf_loss": 1.8413861989974976, "kl": 0.004060470964759588, "entropy": 0.2832827866077423, "cur_kl_coeff": 1.3346134424209595, "cur_lr": 4.999999873689376e-05, "total_loss": 1.8088324069976807}, "sample_time_ms": 46963.953, "num_steps_trained": 1915200, "num_steps_sampled": 1915200, "update_time_ms": 2.576, "grad_time_ms": 375.88, "load_time_ms": 0.672}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 63723.72946357727, "iterations_since_restore": 397, "episode_reward_max": 4.001381990457567, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 186787, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 263, "timestamp": 1757118558, "timesteps_since_restore": 476400, "episode_len_mean": 4.4638783269961975, "episode_reward_mean": 3.2639182071239934, "pid": 2334309, "time_since_restore": 17004.190023183823, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-29-18", "timesteps_total": 1916400, "episode_reward_min": -64.92394492190544, "num_metric_batches_dropped": 0, "time_this_iter_s": 46.92559838294983, "training_iteration": 1597, "info": {"default": {"policy_loss": -0.07713410258293152, "vf_explained_var": 0.460430771112442, "vf_loss": 51.31098556518555, "kl": 0.018897738307714462, "entropy": 1.2681546211242676, "cur_kl_coeff": 0.6673067212104797, "cur_lr": 4.999999873689376e-05, "total_loss": 51.2464599609375}, "sample_time_ms": 46952.054, "num_steps_trained": 1916400, "num_steps_sampled": 1916400, "update_time_ms": 2.577, "grad_time_ms": 375.337, "load_time_ms": 0.676}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 63771.30319261551, "iterations_since_restore": 398, "episode_reward_max": 4.0008296003549795, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 187082, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757118606, "timesteps_since_restore": 477600, "episode_len_mean": 4.149152542372882, "episode_reward_mean": 3.7731005313051726, "pid": 2334309, "time_since_restore": 17051.76375222206, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-30-06", "timesteps_total": 1917600, "episode_reward_min": -63.016879491823346, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.573729038238525, "training_iteration": 1598, "info": {"default": {"policy_loss": -0.05999664589762688, "vf_explained_var": 0.9221384525299072, "vf_loss": 0.82655930519104, "kl": 0.022508732974529266, "entropy": 0.3525561988353729, "cur_kl_coeff": 0.6673067212104797, "cur_lr": 4.999999873689376e-05, "total_loss": 0.7815828323364258}, "sample_time_ms": 47034.417, "num_steps_trained": 1917600, "num_steps_sampled": 1917600, "update_time_ms": 2.549, "grad_time_ms": 376.542, "load_time_ms": 0.677}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 63818.68663930893, "iterations_since_restore": 399, "episode_reward_max": 4.000720313263678, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 187382, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757118653, "timesteps_since_restore": 478800, "episode_len_mean": 4.0, "episode_reward_mean": 4.0002863459772895, "pid": 2334309, "time_since_restore": 17099.14719891548, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-30-53", "timesteps_total": 1918800, "episode_reward_min": 4.0001192006516675, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.38344669342041, "training_iteration": 1599, "info": {"default": {"policy_loss": -0.07890786230564117, "vf_explained_var": 0.9867082238197327, "vf_loss": 0.06968630105257034, "kl": 0.02744089625775814, "entropy": 0.16439394652843475, "cur_kl_coeff": 1.000960111618042, "cur_lr": 4.999999873689376e-05, "total_loss": 0.018245670944452286}, "sample_time_ms": 47024.368, "num_steps_trained": 1918800, "num_steps_sampled": 1918800, "update_time_ms": 2.549, "grad_time_ms": 377.646, "load_time_ms": 0.689}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 63866.25278568268, "iterations_since_restore": 400, "episode_reward_max": 4.001815878251332, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 187679, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757118701, "timesteps_since_restore": 480000, "episode_len_mean": 4.040404040404041, "episode_reward_mean": 3.9394119590352643, "pid": 2334309, "time_since_restore": 17146.71334528923, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-31-41", "timesteps_total": 1920000, "episode_reward_min": -6.055138720025418, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.56614637374878, "training_iteration": 1600, "info": {"default": {"policy_loss": -0.028440548107028008, "vf_explained_var": 0.8449782133102417, "vf_loss": 1.006824016571045, "kl": 0.009057868272066116, "entropy": 0.19621771574020386, "cur_kl_coeff": 1.501440167427063, "cur_lr": 4.999999873689376e-05, "total_loss": 0.9919832944869995}, "sample_time_ms": 47039.74, "num_steps_trained": 1920000, "num_steps_sampled": 1920000, "update_time_ms": 2.529, "grad_time_ms": 378.35, "load_time_ms": 0.701}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 63914.23215818405, "iterations_since_restore": 401, "episode_reward_max": 4.001181206151565, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 187977, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757118749, "timesteps_since_restore": 481200, "episode_len_mean": 4.026845637583893, "episode_reward_mean": 3.958054364771083, "pid": 2334309, "time_since_restore": 17194.692717790604, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-32-29", "timesteps_total": 1921200, "episode_reward_min": -4.618053001537927, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.97937250137329, "training_iteration": 1601, "info": {"default": {"policy_loss": -0.04123927280306816, "vf_explained_var": 0.9077643156051636, "vf_loss": 0.5390158891677856, "kl": 0.005488904658704996, "entropy": 0.1851910948753357, "cur_kl_coeff": 1.501440167427063, "cur_lr": 4.999999873689376e-05, "total_loss": 0.5060179233551025}, "sample_time_ms": 47125.158, "num_steps_trained": 1921200, "num_steps_sampled": 1921200, "update_time_ms": 2.535, "grad_time_ms": 376.193, "load_time_ms": 0.683}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 63961.60643863678, "iterations_since_restore": 402, "episode_reward_max": 4.0010554673036225, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 188277, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757118797, "timesteps_since_restore": 482400, "episode_len_mean": 4.0, "episode_reward_mean": 4.0002846049241665, "pid": 2334309, "time_since_restore": 17242.066998243332, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-33-17", "timesteps_total": 1922400, "episode_reward_min": 4.000125383492751, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.37428045272827, "training_iteration": 1602, "info": {"default": {"policy_loss": -0.09987501055002213, "vf_explained_var": 0.9977638721466064, "vf_loss": 0.011984056793153286, "kl": 0.02729840949177742, "entropy": 0.13039594888687134, "cur_kl_coeff": 1.501440167427063, "cur_lr": 4.999999873689376e-05, "total_loss": -0.046904031187295914}, "sample_time_ms": 47106.705, "num_steps_trained": 1922400, "num_steps_sampled": 1922400, "update_time_ms": 2.55, "grad_time_ms": 376.08, "load_time_ms": 0.683}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 64009.54521250725, "iterations_since_restore": 403, "episode_reward_max": 4.000669838474475, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 188565, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 288, "timestamp": 1757118845, "timesteps_since_restore": 483600, "episode_len_mean": 4.166666666666667, "episode_reward_mean": 3.7333886803607865, "pid": 2334309, "time_since_restore": 17290.0057721138, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-34-05", "timesteps_total": 1923600, "episode_reward_min": -38.72267258475348, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.93877387046814, "training_iteration": 1603, "info": {"default": {"policy_loss": -0.04438961669802666, "vf_explained_var": 0.6852593421936035, "vf_loss": 8.689266204833984, "kl": 0.004406277555972338, "entropy": 0.49945777654647827, "cur_kl_coeff": 2.25216007232666, "cur_lr": 4.999999873689376e-05, "total_loss": 8.654800415039062}, "sample_time_ms": 47153.228, "num_steps_trained": 1923600, "num_steps_sampled": 1923600, "update_time_ms": 2.549, "grad_time_ms": 375.547, "load_time_ms": 0.687}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 64056.88717389107, "iterations_since_restore": 404, "episode_reward_max": 4.001195784186969, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 188845, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 280, "timestamp": 1757118892, "timesteps_since_restore": 484800, "episode_len_mean": 4.303571428571429, "episode_reward_mean": 3.5256633377160282, "pid": 2334309, "time_since_restore": 17337.34773349762, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-34-52", "timesteps_total": 1924800, "episode_reward_min": -31.28865995522309, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.34196138381958, "training_iteration": 1604, "info": {"default": {"policy_loss": -0.06444302946329117, "vf_explained_var": 0.5456793308258057, "vf_loss": 12.47039794921875, "kl": 0.01243612077087164, "entropy": 0.8096596002578735, "cur_kl_coeff": 1.12608003616333, "cur_lr": 4.999999873689376e-05, "total_loss": 12.41995906829834}, "sample_time_ms": 47207.307, "num_steps_trained": 1924800, "num_steps_sampled": 1924800, "update_time_ms": 2.573, "grad_time_ms": 377.925, "load_time_ms": 0.692}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 64104.96583867073, "iterations_since_restore": 405, "episode_reward_max": 4.0006817309651295, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 189132, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 287, "timestamp": 1757118940, "timesteps_since_restore": 486000, "episode_len_mean": 4.174216027874564, "episode_reward_mean": 3.7301122191496265, "pid": 2334309, "time_since_restore": 17385.426398277283, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-35-40", "timesteps_total": 1926000, "episode_reward_min": -35.67034335748011, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.078664779663086, "training_iteration": 1605, "info": {"default": {"policy_loss": -0.05302143841981888, "vf_explained_var": 0.6359398365020752, "vf_loss": 6.007308483123779, "kl": 0.01632273755967617, "entropy": 0.5683239698410034, "cur_kl_coeff": 1.12608003616333, "cur_lr": 4.999999873689376e-05, "total_loss": 5.972667217254639}, "sample_time_ms": 47237.531, "num_steps_trained": 1926000, "num_steps_sampled": 1926000, "update_time_ms": 2.609, "grad_time_ms": 378.072, "load_time_ms": 0.687}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 64152.4589574337, "iterations_since_restore": 406, "episode_reward_max": 4.00090385213643, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 189421, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 289, "timestamp": 1757118987, "timesteps_since_restore": 487200, "episode_len_mean": 4.14878892733564, "episode_reward_mean": 3.767869447965855, "pid": 2334309, "time_since_restore": 17432.919517040253, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-36-27", "timesteps_total": 1927200, "episode_reward_min": -17.379324280137677, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.49311876296997, "training_iteration": 1606, "info": {"default": {"policy_loss": -0.05018285661935806, "vf_explained_var": 0.6801440715789795, "vf_loss": 3.663039207458496, "kl": 0.01136530190706253, "entropy": 0.48731082677841187, "cur_kl_coeff": 1.12608003616333, "cur_lr": 4.999999873689376e-05, "total_loss": 3.625654458999634}, "sample_time_ms": 47178.08, "num_steps_trained": 1927200, "num_steps_sampled": 1927200, "update_time_ms": 2.6, "grad_time_ms": 377.984, "load_time_ms": 0.693}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 64200.594651699066, "iterations_since_restore": 407, "episode_reward_max": 4.000858311870537, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 189714, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 293, "timestamp": 1757119036, "timesteps_since_restore": 488400, "episode_len_mean": 4.09556313993174, "episode_reward_mean": 3.8450346049844826, "pid": 2334309, "time_since_restore": 17481.05521130562, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-37-16", "timesteps_total": 1928400, "episode_reward_min": -15.976621832176512, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.1356942653656, "training_iteration": 1607, "info": {"default": {"policy_loss": -0.04821999371051788, "vf_explained_var": 0.7121272087097168, "vf_loss": 2.559725046157837, "kl": 0.04441455379128456, "entropy": 0.31225836277008057, "cur_kl_coeff": 1.12608003616333, "cur_lr": 4.999999873689376e-05, "total_loss": 2.5615193843841553}, "sample_time_ms": 47300.213, "num_steps_trained": 1928400, "num_steps_sampled": 1928400, "update_time_ms": 2.605, "grad_time_ms": 376.742, "load_time_ms": 0.69}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 64248.690153598785, "iterations_since_restore": 408, "episode_reward_max": 4.001469051364587, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 189991, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 277, "timestamp": 1757119084, "timesteps_since_restore": 489600, "episode_len_mean": 4.335740072202166, "episode_reward_mean": 3.4626618530025954, "pid": 2334309, "time_since_restore": 17529.150713205338, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-38-04", "timesteps_total": 1929600, "episode_reward_min": -50.71842839409839, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.09550189971924, "training_iteration": 1608, "info": {"default": {"policy_loss": -0.06217553839087486, "vf_explained_var": 0.5066267848014832, "vf_loss": 19.900203704833984, "kl": 0.009025661274790764, "entropy": 0.7883498668670654, "cur_kl_coeff": 1.6891201734542847, "cur_lr": 4.999999873689376e-05, "total_loss": 19.853273391723633}, "sample_time_ms": 47354.859, "num_steps_trained": 1929600, "num_steps_sampled": 1929600, "update_time_ms": 2.639, "grad_time_ms": 374.259, "load_time_ms": 0.68}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 64297.09677863121, "iterations_since_restore": 409, "episode_reward_max": 4.0014381463775015, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 190277, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 286, "timestamp": 1757119132, "timesteps_since_restore": 490800, "episode_len_mean": 4.143356643356643, "episode_reward_mean": 3.777663813032514, "pid": 2334309, "time_since_restore": 17577.557338237762, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-38-52", "timesteps_total": 1930800, "episode_reward_min": -34.52178310017598, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.40662503242493, "training_iteration": 1609, "info": {"default": {"policy_loss": -0.06947454065084457, "vf_explained_var": 0.5924244523048401, "vf_loss": 8.301713943481445, "kl": 0.014851942658424377, "entropy": 0.5378838777542114, "cur_kl_coeff": 1.6891201734542847, "cur_lr": 4.999999873689376e-05, "total_loss": 8.257325172424316}, "sample_time_ms": 47459.989, "num_steps_trained": 1930800, "num_steps_sampled": 1930800, "update_time_ms": 2.64, "grad_time_ms": 371.501, "load_time_ms": 0.675}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 64345.27672600746, "iterations_since_restore": 410, "episode_reward_max": 4.0014367787306835, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 190553, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 276, "timestamp": 1757119180, "timesteps_since_restore": 492000, "episode_len_mean": 4.278985507246377, "episode_reward_mean": 3.5698690799744077, "pid": 2334309, "time_since_restore": 17625.737285614014, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-39-40", "timesteps_total": 1932000, "episode_reward_min": -49.96589425745449, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.17994737625122, "training_iteration": 1610, "info": {"default": {"policy_loss": -0.06128077954053879, "vf_explained_var": 0.5421419143676758, "vf_loss": 30.531829833984375, "kl": 0.012978661805391312, "entropy": 0.8313679695129395, "cur_kl_coeff": 1.6891201734542847, "cur_lr": 4.999999873689376e-05, "total_loss": 30.492469787597656}, "sample_time_ms": 47523.155, "num_steps_trained": 1932000, "num_steps_sampled": 1932000, "update_time_ms": 2.64, "grad_time_ms": 369.76, "load_time_ms": 0.668}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 64393.81722521782, "iterations_since_restore": 411, "episode_reward_max": 4.016078944916796, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 190847, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757119229, "timesteps_since_restore": 493200, "episode_len_mean": 4.200680272108843, "episode_reward_mean": 3.69318634226393, "pid": 2334309, "time_since_restore": 17674.27778482437, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-40-29", "timesteps_total": 1933200, "episode_reward_min": -61.075398586670545, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.540499210357666, "training_iteration": 1611, "info": {"default": {"policy_loss": -0.06369295716285706, "vf_explained_var": 0.7776080369949341, "vf_loss": 1.785062551498413, "kl": 0.01129936520010233, "entropy": 0.3353389799594879, "cur_kl_coeff": 1.6891201734542847, "cur_lr": 4.999999873689376e-05, "total_loss": 1.7404558658599854}, "sample_time_ms": 47576.513, "num_steps_trained": 1933200, "num_steps_sampled": 1933200, "update_time_ms": 2.586, "grad_time_ms": 372.522, "load_time_ms": 0.665}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 64442.10941839218, "iterations_since_restore": 412, "episode_reward_max": 4.001788111110109, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 191132, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 285, "timestamp": 1757119277, "timesteps_since_restore": 494400, "episode_len_mean": 4.203508771929824, "episode_reward_mean": 3.6898021551288567, "pid": 2334309, "time_since_restore": 17722.569977998734, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-41-17", "timesteps_total": 1934400, "episode_reward_min": -36.2384748384999, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.29219317436218, "training_iteration": 1612, "info": {"default": {"policy_loss": -0.05650949478149414, "vf_explained_var": 0.5964949131011963, "vf_loss": 10.191844940185547, "kl": 0.00941425934433937, "entropy": 0.5022919774055481, "cur_kl_coeff": 1.6891201734542847, "cur_lr": 4.999999873689376e-05, "total_loss": 10.151238441467285}, "sample_time_ms": 47667.825, "num_steps_trained": 1934400, "num_steps_sampled": 1934400, "update_time_ms": 2.606, "grad_time_ms": 372.919, "load_time_ms": 0.652}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 64490.32577800751, "iterations_since_restore": 413, "episode_reward_max": 4.001636970493674, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 191415, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 283, "timestamp": 1757119326, "timesteps_since_restore": 495600, "episode_len_mean": 4.240282685512367, "episode_reward_mean": 3.618123890077643, "pid": 2334309, "time_since_restore": 17770.78633761406, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-42-06", "timesteps_total": 1935600, "episode_reward_min": -21.497848562744572, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.21635961532593, "training_iteration": 1613, "info": {"default": {"policy_loss": -0.06647736579179764, "vf_explained_var": 0.4952513873577118, "vf_loss": 7.86594295501709, "kl": 0.017883040010929108, "entropy": 0.5717450380325317, "cur_kl_coeff": 1.6891201734542847, "cur_lr": 4.999999873689376e-05, "total_loss": 7.829672813415527}, "sample_time_ms": 47694.59, "num_steps_trained": 1935600, "num_steps_sampled": 1935600, "update_time_ms": 2.607, "grad_time_ms": 373.939, "load_time_ms": 0.644}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 64537.819211006165, "iterations_since_restore": 414, "episode_reward_max": 4.001826577731603, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 191712, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757119373, "timesteps_since_restore": 496800, "episode_len_mean": 4.02020202020202, "episode_reward_mean": 3.9698308171645316, "pid": 2334309, "time_since_restore": 17818.279770612717, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-42-53", "timesteps_total": 1936800, "episode_reward_min": -2.9823665210857584, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.49343299865723, "training_iteration": 1614, "info": {"default": {"policy_loss": -0.023237373679876328, "vf_explained_var": 0.9158013463020325, "vf_loss": 0.9268249869346619, "kl": 0.005100559908896685, "entropy": 0.15272416174411774, "cur_kl_coeff": 1.6891201734542847, "cur_lr": 4.999999873689376e-05, "total_loss": 0.9122029542922974}, "sample_time_ms": 47712.061, "num_steps_trained": 1936800, "num_steps_sampled": 1936800, "update_time_ms": 2.595, "grad_time_ms": 371.699, "load_time_ms": 0.645}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 64585.67201042175, "iterations_since_restore": 415, "episode_reward_max": 4.0009344602436885, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 192003, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757119421, "timesteps_since_restore": 498000, "episode_len_mean": 4.13745704467354, "episode_reward_mean": 3.778009181802851, "pid": 2334309, "time_since_restore": 17866.132570028305, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-43-41", "timesteps_total": 1938000, "episode_reward_min": -21.06287837003759, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.85279941558838, "training_iteration": 1615, "info": {"default": {"policy_loss": -0.059597160667181015, "vf_explained_var": 0.8140957951545715, "vf_loss": 1.4455304145812988, "kl": 0.003408300457522273, "entropy": 0.3394845724105835, "cur_kl_coeff": 1.6891201734542847, "cur_lr": 4.999999873689376e-05, "total_loss": 1.3916901350021362}, "sample_time_ms": 47691.147, "num_steps_trained": 1938000, "num_steps_sampled": 1938000, "update_time_ms": 2.58, "grad_time_ms": 369.967, "load_time_ms": 0.647}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 64633.8064661026, "iterations_since_restore": 416, "episode_reward_max": 4.001363923070788, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 192290, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 287, "timestamp": 1757119469, "timesteps_since_restore": 499200, "episode_len_mean": 4.181184668989547, "episode_reward_mean": 3.7117755091525386, "pid": 2334309, "time_since_restore": 17914.267025709152, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-44-29", "timesteps_total": 1939200, "episode_reward_min": -37.88656815204305, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.13445568084717, "training_iteration": 1616, "info": {"default": {"policy_loss": -0.05001341551542282, "vf_explained_var": 0.522918164730072, "vf_loss": 11.971952438354492, "kl": 0.013391023501753807, "entropy": 0.4431593418121338, "cur_kl_coeff": 0.8445600867271423, "cur_lr": 4.999999873689376e-05, "total_loss": 11.933246612548828}, "sample_time_ms": 47754.99, "num_steps_trained": 1939200, "num_steps_sampled": 1939200, "update_time_ms": 2.584, "grad_time_ms": 370.273, "load_time_ms": 0.643}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 64681.16543340683, "iterations_since_restore": 417, "episode_reward_max": 4.000708370831045, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 192583, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 293, "timestamp": 1757119516, "timesteps_since_restore": 500400, "episode_len_mean": 4.109215017064846, "episode_reward_mean": 3.8259944875691048, "pid": 2334309, "time_since_restore": 17961.625993013382, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-45-16", "timesteps_total": 1940400, "episode_reward_min": -7.956497189930879, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.358967304229736, "training_iteration": 1617, "info": {"default": {"policy_loss": -0.051750704646110535, "vf_explained_var": 0.7962529063224792, "vf_loss": 1.5660936832427979, "kl": 0.016532646492123604, "entropy": 0.3388209939002991, "cur_kl_coeff": 0.8445600867271423, "cur_lr": 4.999999873689376e-05, "total_loss": 1.5283056497573853}, "sample_time_ms": 47678.198, "num_steps_trained": 1940400, "num_steps_sampled": 1940400, "update_time_ms": 2.584, "grad_time_ms": 369.494, "load_time_ms": 0.647}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 64728.21875047684, "iterations_since_restore": 418, "episode_reward_max": 4.000838597487319, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 192871, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 288, "timestamp": 1757119563, "timesteps_since_restore": 501600, "episode_len_mean": 4.15625, "episode_reward_mean": 3.762909553262679, "pid": 2334309, "time_since_restore": 18008.67931008339, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-46-03", "timesteps_total": 1941600, "episode_reward_min": -29.536534784118984, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.053317070007324, "training_iteration": 1618, "info": {"default": {"policy_loss": -0.05153265222907066, "vf_explained_var": 0.6291278004646301, "vf_loss": 5.766419410705566, "kl": 0.010121521539986134, "entropy": 0.421242892742157, "cur_kl_coeff": 0.8445600867271423, "cur_lr": 4.999999873689376e-05, "total_loss": 5.7234344482421875}, "sample_time_ms": 47573.392, "num_steps_trained": 1941600, "num_steps_sampled": 1941600, "update_time_ms": 2.552, "grad_time_ms": 370.044, "load_time_ms": 0.647}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 64776.39095234871, "iterations_since_restore": 419, "episode_reward_max": 4.001592544304801, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 193167, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757119612, "timesteps_since_restore": 502800, "episode_len_mean": 4.050675675675675, "episode_reward_mean": 3.923984691477442, "pid": 2334309, "time_since_restore": 18056.85151195526, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-46-52", "timesteps_total": 1942800, "episode_reward_min": -8.507550942660721, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.17220187187195, "training_iteration": 1619, "info": {"default": {"policy_loss": -0.04696337878704071, "vf_explained_var": 0.8405396342277527, "vf_loss": 1.0817753076553345, "kl": 0.009122529998421669, "entropy": 0.13063102960586548, "cur_kl_coeff": 0.8445600867271423, "cur_lr": 4.999999873689376e-05, "total_loss": 1.0425163507461548}, "sample_time_ms": 47549.853, "num_steps_trained": 1942800, "num_steps_sampled": 1942800, "update_time_ms": 2.563, "grad_time_ms": 370.127, "load_time_ms": 0.646}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 64824.09391975403, "iterations_since_restore": 420, "episode_reward_max": 4.00198439137185, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 193459, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757119659, "timesteps_since_restore": 504000, "episode_len_mean": 4.116438356164384, "episode_reward_mean": 3.8168776068704138, "pid": 2334309, "time_since_restore": 18104.55447936058, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-47-39", "timesteps_total": 1944000, "episode_reward_min": -21.57980692358359, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.702967405319214, "training_iteration": 1620, "info": {"default": {"policy_loss": -0.05316205322742462, "vf_explained_var": 0.7269508242607117, "vf_loss": 3.0864851474761963, "kl": 0.007473187521100044, "entropy": 0.316311776638031, "cur_kl_coeff": 0.8445600867271423, "cur_lr": 4.999999873689376e-05, "total_loss": 3.0396347045898438}, "sample_time_ms": 47500.529, "num_steps_trained": 1944000, "num_steps_sampled": 1944000, "update_time_ms": 2.605, "grad_time_ms": 371.654, "load_time_ms": 0.65}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 64872.000539302826, "iterations_since_restore": 421, "episode_reward_max": 4.00064190794069, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 193758, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757119707, "timesteps_since_restore": 505200, "episode_len_mean": 4.016722408026756, "episode_reward_mean": 3.973430616049989, "pid": 2334309, "time_since_restore": 18152.461098909378, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-48-27", "timesteps_total": 1945200, "episode_reward_min": -4.024177207493734, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.90661954879761, "training_iteration": 1621, "info": {"default": {"policy_loss": -0.012931657023727894, "vf_explained_var": 0.9558209180831909, "vf_loss": 0.2782498896121979, "kl": 0.014209871180355549, "entropy": 0.04871151223778725, "cur_kl_coeff": 0.8445600867271423, "cur_lr": 4.999999873689376e-05, "total_loss": 0.27731937170028687}, "sample_time_ms": 47438.402, "num_steps_trained": 1945200, "num_steps_sampled": 1945200, "update_time_ms": 2.725, "grad_time_ms": 370.335, "load_time_ms": 0.655}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 64920.32382321358, "iterations_since_restore": 422, "episode_reward_max": 4.002085458731491, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 194045, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 287, "timestamp": 1757119756, "timesteps_since_restore": 506400, "episode_len_mean": 4.170731707317073, "episode_reward_mean": 3.734331119811289, "pid": 2334309, "time_since_restore": 18200.78438282013, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-49-16", "timesteps_total": 1946400, "episode_reward_min": -28.803504178842736, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.32328391075134, "training_iteration": 1622, "info": {"default": {"policy_loss": -0.05128602311015129, "vf_explained_var": 0.6498773097991943, "vf_loss": 8.295992851257324, "kl": 0.013540495187044144, "entropy": 0.3858996331691742, "cur_kl_coeff": 0.8445600867271423, "cur_lr": 4.999999873689376e-05, "total_loss": 8.256142616271973}, "sample_time_ms": 47442.849, "num_steps_trained": 1946400, "num_steps_sampled": 1946400, "update_time_ms": 2.683, "grad_time_ms": 369.114, "load_time_ms": 0.654}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 64968.31940817833, "iterations_since_restore": 423, "episode_reward_max": 4.001634645565487, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 194336, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757119804, "timesteps_since_restore": 507600, "episode_len_mean": 4.1271477663230245, "episode_reward_mean": 3.7944007068881422, "pid": 2334309, "time_since_restore": 18248.77996778488, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-50-04", "timesteps_total": 1947600, "episode_reward_min": -27.13220265751218, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.9955849647522, "training_iteration": 1623, "info": {"default": {"policy_loss": -0.042003363370895386, "vf_explained_var": 0.5995701551437378, "vf_loss": 6.664609909057617, "kl": 0.011820303276181221, "entropy": 0.4372354745864868, "cur_kl_coeff": 0.8445600867271423, "cur_lr": 4.999999873689376e-05, "total_loss": 6.632588863372803}, "sample_time_ms": 47421.779, "num_steps_trained": 1947600, "num_steps_sampled": 1947600, "update_time_ms": 2.658, "grad_time_ms": 368.152, "load_time_ms": 0.664}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 65015.78133606911, "iterations_since_restore": 424, "episode_reward_max": 4.0007648847544734, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 194636, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757119851, "timesteps_since_restore": 508800, "episode_len_mean": 4.0, "episode_reward_mean": 4.000272670292994, "pid": 2334309, "time_since_restore": 18296.24189567566, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-50-51", "timesteps_total": 1948800, "episode_reward_min": 4.0001264923977535, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.46192789077759, "training_iteration": 1624, "info": {"default": {"policy_loss": -0.07291311770677567, "vf_explained_var": 0.9981968402862549, "vf_loss": 0.009680185467004776, "kl": 0.04048202559351921, "entropy": 0.10169783234596252, "cur_kl_coeff": 0.8445600867271423, "cur_lr": 4.999999873689376e-05, "total_loss": -0.02904343605041504}, "sample_time_ms": 47417.441, "num_steps_trained": 1948800, "num_steps_sampled": 1948800, "update_time_ms": 2.644, "grad_time_ms": 369.326, "load_time_ms": 0.667}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 65063.370235681534, "iterations_since_restore": 425, "episode_reward_max": 4.0006466601467325, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 194926, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 290, "timestamp": 1757119899, "timesteps_since_restore": 510000, "episode_len_mean": 4.137931034482759, "episode_reward_mean": 3.7813051211590256, "pid": 2334309, "time_since_restore": 18343.830795288086, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-51-39", "timesteps_total": 1950000, "episode_reward_min": -19.25169229227556, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.58889961242676, "training_iteration": 1625, "info": {"default": {"policy_loss": -0.04521305114030838, "vf_explained_var": 0.7052436470985413, "vf_loss": 3.621941566467285, "kl": 0.006527851335704327, "entropy": 0.3496881127357483, "cur_kl_coeff": 1.2668401002883911, "cur_lr": 4.999999873689376e-05, "total_loss": 3.58499813079834}, "sample_time_ms": 47390.911, "num_steps_trained": 1950000, "num_steps_sampled": 1950000, "update_time_ms": 2.647, "grad_time_ms": 369.567, "load_time_ms": 0.674}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 65110.77705907822, "iterations_since_restore": 426, "episode_reward_max": 4.000832480738291, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 195215, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 289, "timestamp": 1757119946, "timesteps_since_restore": 511200, "episode_len_mean": 4.162629757785467, "episode_reward_mean": 3.7429027581210463, "pid": 2334309, "time_since_restore": 18391.23761868477, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-52-26", "timesteps_total": 1951200, "episode_reward_min": -44.38398075380721, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.40682339668274, "training_iteration": 1626, "info": {"default": {"policy_loss": -0.045981958508491516, "vf_explained_var": 0.5985735058784485, "vf_loss": 10.766159057617188, "kl": 0.025211282074451447, "entropy": 0.4208296239376068, "cur_kl_coeff": 1.2668401002883911, "cur_lr": 4.999999873689376e-05, "total_loss": 10.752115249633789}, "sample_time_ms": 47318.505, "num_steps_trained": 1951200, "num_steps_sampled": 1951200, "update_time_ms": 2.64, "grad_time_ms": 369.187, "load_time_ms": 0.687}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 65158.534770965576, "iterations_since_restore": 427, "episode_reward_max": 4.000727313959884, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 195504, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 289, "timestamp": 1757119994, "timesteps_since_restore": 512400, "episode_len_mean": 4.14878892733564, "episode_reward_mean": 3.768180681979368, "pid": 2334309, "time_since_restore": 18438.99533057213, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-53-14", "timesteps_total": 1952400, "episode_reward_min": -32.81110766398416, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.75771188735962, "training_iteration": 1627, "info": {"default": {"policy_loss": -0.0483279787003994, "vf_explained_var": 0.6619151830673218, "vf_loss": 6.726114273071289, "kl": 0.006404891610145569, "entropy": 0.3185451626777649, "cur_kl_coeff": 1.900260329246521, "cur_lr": 4.999999873689376e-05, "total_loss": 6.689956188201904}, "sample_time_ms": 47355.965, "num_steps_trained": 1952400, "num_steps_sampled": 1952400, "update_time_ms": 2.637, "grad_time_ms": 371.544, "load_time_ms": 0.685}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 65206.00909614563, "iterations_since_restore": 428, "episode_reward_max": 4.001158329029893, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 195794, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 290, "timestamp": 1757120041, "timesteps_since_restore": 513600, "episode_len_mean": 4.13103448275862, "episode_reward_mean": 3.793416011866271, "pid": 2334309, "time_since_restore": 18486.469655752182, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-54-01", "timesteps_total": 1953600, "episode_reward_min": -18.58017079714327, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.47432518005371, "training_iteration": 1628, "info": {"default": {"policy_loss": -0.050857849419116974, "vf_explained_var": 0.646879255771637, "vf_loss": 3.7868635654449463, "kl": 0.008345797657966614, "entropy": 0.33718496561050415, "cur_kl_coeff": 1.900260329246521, "cur_lr": 4.999999873689376e-05, "total_loss": 3.7518649101257324}, "sample_time_ms": 47396.532, "num_steps_trained": 1953600, "num_steps_sampled": 1953600, "update_time_ms": 2.693, "grad_time_ms": 373.005, "load_time_ms": 0.699}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 65253.40892481804, "iterations_since_restore": 429, "episode_reward_max": 4.00078660489652, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 196085, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757120089, "timesteps_since_restore": 514800, "episode_len_mean": 4.130584192439863, "episode_reward_mean": 3.802218995143865, "pid": 2334309, "time_since_restore": 18533.86948442459, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-54-49", "timesteps_total": 1954800, "episode_reward_min": -25.71399610665233, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.39982867240906, "training_iteration": 1629, "info": {"default": {"policy_loss": -0.040473632514476776, "vf_explained_var": 0.6830048561096191, "vf_loss": 4.694278717041016, "kl": 0.01035202294588089, "entropy": 0.340043842792511, "cur_kl_coeff": 1.900260329246521, "cur_lr": 4.999999873689376e-05, "total_loss": 4.673476219177246}, "sample_time_ms": 47317.331, "num_steps_trained": 1954800, "num_steps_sampled": 1954800, "update_time_ms": 2.683, "grad_time_ms": 374.986, "load_time_ms": 0.703}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 65300.81047511101, "iterations_since_restore": 430, "episode_reward_max": 4.001107211356702, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 196371, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 286, "timestamp": 1757120136, "timesteps_since_restore": 516000, "episode_len_mean": 4.1923076923076925, "episode_reward_mean": 3.6992251129271865, "pid": 2334309, "time_since_restore": 18581.27103471756, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-55-36", "timesteps_total": 1956000, "episode_reward_min": -19.542619691033497, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.40155029296875, "training_iteration": 1630, "info": {"default": {"policy_loss": -0.05332030728459358, "vf_explained_var": 0.6508083939552307, "vf_loss": 4.362518310546875, "kl": 0.011783508583903313, "entropy": 0.3611827790737152, "cur_kl_coeff": 1.900260329246521, "cur_lr": 4.999999873689376e-05, "total_loss": 4.331590175628662}, "sample_time_ms": 47287.051, "num_steps_trained": 1956000, "num_steps_sampled": 1956000, "update_time_ms": 2.634, "grad_time_ms": 375.187, "load_time_ms": 0.701}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 65348.65164351463, "iterations_since_restore": 431, "episode_reward_max": 4.000775447284147, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 196667, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757120184, "timesteps_since_restore": 517200, "episode_len_mean": 4.050675675675675, "episode_reward_mean": 3.9233020359374384, "pid": 2334309, "time_since_restore": 18629.112203121185, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-56-24", "timesteps_total": 1957200, "episode_reward_min": -6.704037907918984, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.84116840362549, "training_iteration": 1631, "info": {"default": {"policy_loss": -0.029985692352056503, "vf_explained_var": 0.8615533113479614, "vf_loss": 0.9089940190315247, "kl": 0.006860816851258278, "entropy": 0.19473566114902496, "cur_kl_coeff": 1.900260329246521, "cur_lr": 4.999999873689376e-05, "total_loss": 0.8920457363128662}, "sample_time_ms": 47279.875, "num_steps_trained": 1957200, "num_steps_sampled": 1957200, "update_time_ms": 2.623, "grad_time_ms": 375.778, "load_time_ms": 0.702}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 65395.89603948593, "iterations_since_restore": 432, "episode_reward_max": 4.001192445347176, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 196962, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757120231, "timesteps_since_restore": 518400, "episode_len_mean": 4.064406779661017, "episode_reward_mean": 3.8993373680900008, "pid": 2334309, "time_since_restore": 18676.356599092484, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-57-11", "timesteps_total": 1958400, "episode_reward_min": -25.77245335782642, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.24439597129822, "training_iteration": 1632, "info": {"default": {"policy_loss": -0.034168507903814316, "vf_explained_var": 0.7490219473838806, "vf_loss": 3.770907402038574, "kl": 0.008045156486332417, "entropy": 0.14024880528450012, "cur_kl_coeff": 1.900260329246521, "cur_lr": 4.999999873689376e-05, "total_loss": 3.7520272731781006}, "sample_time_ms": 47171.708, "num_steps_trained": 1958400, "num_steps_sampled": 1958400, "update_time_ms": 2.651, "grad_time_ms": 376.026, "load_time_ms": 0.703}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 65443.6332321167, "iterations_since_restore": 433, "episode_reward_max": 4.000769855182608, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 197258, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757120279, "timesteps_since_restore": 519600, "episode_len_mean": 4.050675675675675, "episode_reward_mean": 3.920919352115916, "pid": 2334309, "time_since_restore": 18724.09379172325, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-57-59", "timesteps_total": 1959600, "episode_reward_min": -15.378077105877512, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.73719263076782, "training_iteration": 1633, "info": {"default": {"policy_loss": -0.03253655135631561, "vf_explained_var": 0.8179411292076111, "vf_loss": 1.5417141914367676, "kl": 0.004649931564927101, "entropy": 0.18191805481910706, "cur_kl_coeff": 1.900260329246521, "cur_lr": 4.999999873689376e-05, "total_loss": 1.518013596534729}, "sample_time_ms": 47147.783, "num_steps_trained": 1959600, "num_steps_sampled": 1959600, "update_time_ms": 2.645, "grad_time_ms": 374.114, "load_time_ms": 0.698}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 65491.085624456406, "iterations_since_restore": 434, "episode_reward_max": 4.0009661233548695, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 197558, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757120327, "timesteps_since_restore": 520800, "episode_len_mean": 4.0, "episode_reward_mean": 4.0002732009497945, "pid": 2334309, "time_since_restore": 18771.546184062958, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-58-47", "timesteps_total": 1960800, "episode_reward_min": 4.000120429623305, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.45239233970642, "training_iteration": 1634, "info": {"default": {"policy_loss": -0.09049864113330841, "vf_explained_var": 0.998772382736206, "vf_loss": 0.006593658123165369, "kl": 0.033137574791908264, "entropy": 0.06194068863987923, "cur_kl_coeff": 0.9501301646232605, "cur_lr": 4.999999873689376e-05, "total_loss": -0.05241997539997101}, "sample_time_ms": 47147.997, "num_steps_trained": 1960800, "num_steps_sampled": 1960800, "update_time_ms": 2.624, "grad_time_ms": 373.009, "load_time_ms": 0.686}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 65538.44234895706, "iterations_since_restore": 435, "episode_reward_max": 4.000839513765982, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 197856, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757120374, "timesteps_since_restore": 522000, "episode_len_mean": 4.030201342281879, "episode_reward_mean": 3.9495541781475536, "pid": 2334309, "time_since_restore": 18818.902908563614, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_02-59-34", "timesteps_total": 1962000, "episode_reward_min": -11.114597769096221, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.35672450065613, "training_iteration": 1635, "info": {"default": {"policy_loss": -0.026511486619710922, "vf_explained_var": 0.8791510462760925, "vf_loss": 0.9892270565032959, "kl": 0.0031736246310174465, "entropy": 0.17030994594097137, "cur_kl_coeff": 1.4251950979232788, "cur_lr": 4.999999873689376e-05, "total_loss": 0.9672385454177856}, "sample_time_ms": 47123.276, "num_steps_trained": 1962000, "num_steps_sampled": 1962000, "update_time_ms": 2.582, "grad_time_ms": 374.537, "load_time_ms": 0.682}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 65586.098985672, "iterations_since_restore": 436, "episode_reward_max": 4.0006930459079095, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 198154, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757120422, "timesteps_since_restore": 523200, "episode_len_mean": 4.026845637583893, "episode_reward_mean": 3.960348132418944, "pid": 2334309, "time_since_restore": 18866.55954527855, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-00-22", "timesteps_total": 1963200, "episode_reward_min": -6.910312827199952, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.6566367149353, "training_iteration": 1636, "info": {"default": {"policy_loss": -0.026651332154870033, "vf_explained_var": 0.9200406670570374, "vf_loss": 0.5105417966842651, "kl": 0.010469128377735615, "entropy": 0.1270241141319275, "cur_kl_coeff": 0.7125975489616394, "cur_lr": 4.999999873689376e-05, "total_loss": 0.4913506507873535}, "sample_time_ms": 47147.666, "num_steps_trained": 1963200, "num_steps_sampled": 1963200, "update_time_ms": 2.612, "grad_time_ms": 375.122, "load_time_ms": 0.668}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 65634.60424590111, "iterations_since_restore": 437, "episode_reward_max": 4.000761558043976, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 198445, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757120470, "timesteps_since_restore": 524400, "episode_len_mean": 4.123711340206185, "episode_reward_mean": 3.8034125214082484, "pid": 2334309, "time_since_restore": 18915.06480550766, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-01-10", "timesteps_total": 1964400, "episode_reward_min": -32.64765795470452, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.50526022911072, "training_iteration": 1637, "info": {"default": {"policy_loss": -0.042401134967803955, "vf_explained_var": 0.7596861720085144, "vf_loss": 5.52998161315918, "kl": 0.005131447222083807, "entropy": 0.4342213273048401, "cur_kl_coeff": 0.7125975489616394, "cur_lr": 4.999999873689376e-05, "total_loss": 5.491236686706543}, "sample_time_ms": 47221.273, "num_steps_trained": 1964400, "num_steps_sampled": 1964400, "update_time_ms": 2.643, "grad_time_ms": 376.187, "load_time_ms": 0.684}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 65682.88122963905, "iterations_since_restore": 438, "episode_reward_max": 4.00084412335948, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 198745, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757120518, "timesteps_since_restore": 525600, "episode_len_mean": 4.0, "episode_reward_mean": 4.000267112477524, "pid": 2334309, "time_since_restore": 18963.341789245605, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-01-58", "timesteps_total": 1965600, "episode_reward_min": 4.000134969906714, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.27698373794556, "training_iteration": 1638, "info": {"default": {"policy_loss": -0.06657048314809799, "vf_explained_var": 0.996107816696167, "vf_loss": 0.02108095772564411, "kl": 0.048273101449012756, "entropy": 0.13804063200950623, "cur_kl_coeff": 0.7125975489616394, "cur_lr": 4.999999873689376e-05, "total_loss": -0.011090225540101528}, "sample_time_ms": 47301.423, "num_steps_trained": 1965600, "num_steps_sampled": 1965600, "update_time_ms": 2.621, "grad_time_ms": 376.358, "load_time_ms": 0.678}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 65730.21020674706, "iterations_since_restore": 439, "episode_reward_max": 4.000667282917217, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 199044, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757120566, "timesteps_since_restore": 526800, "episode_len_mean": 4.016722408026756, "episode_reward_mean": 3.973393068032609, "pid": 2334309, "time_since_restore": 19010.670766353607, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-02-46", "timesteps_total": 1966800, "episode_reward_min": -4.033500492177005, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.32897710800171, "training_iteration": 1639, "info": {"default": {"policy_loss": -0.039347197860479355, "vf_explained_var": 0.9487069249153137, "vf_loss": 0.3022279739379883, "kl": 0.012891747988760471, "entropy": 0.1583303064107895, "cur_kl_coeff": 1.0688962936401367, "cur_lr": 4.999999873689376e-05, "total_loss": 0.2766607105731964}, "sample_time_ms": 47293.92, "num_steps_trained": 1966800, "num_steps_sampled": 1966800, "update_time_ms": 2.607, "grad_time_ms": 376.74, "load_time_ms": 0.684}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 65778.04639792442, "iterations_since_restore": 440, "episode_reward_max": 4.001104212179398, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 199340, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757120614, "timesteps_since_restore": 528000, "episode_len_mean": 4.0574324324324325, "episode_reward_mean": 3.9035886105348525, "pid": 2334309, "time_since_restore": 19058.506957530975, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-03-34", "timesteps_total": 1968000, "episode_reward_min": -17.718004735504365, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.836191177368164, "training_iteration": 1640, "info": {"default": {"policy_loss": -0.03370651975274086, "vf_explained_var": 0.8340930938720703, "vf_loss": 1.7246328592300415, "kl": 0.00842532142996788, "entropy": 0.16431403160095215, "cur_kl_coeff": 1.0688962936401367, "cur_lr": 4.999999873689376e-05, "total_loss": 1.699932336807251}, "sample_time_ms": 47336.987, "num_steps_trained": 1968000, "num_steps_sampled": 1968000, "update_time_ms": 2.622, "grad_time_ms": 377.086, "load_time_ms": 0.681}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 65826.02494263649, "iterations_since_restore": 441, "episode_reward_max": 4.000601445237294, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 199624, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 284, "timestamp": 1757120662, "timesteps_since_restore": 529200, "episode_len_mean": 4.23943661971831, "episode_reward_mean": 3.6143849436996516, "pid": 2334309, "time_since_restore": 19106.485502243042, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-04-22", "timesteps_total": 1969200, "episode_reward_min": -33.720857756916466, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.97854471206665, "training_iteration": 1641, "info": {"default": {"policy_loss": -0.050913915038108826, "vf_explained_var": 0.6298602223396301, "vf_loss": 10.426217079162598, "kl": 0.02654920518398285, "entropy": 0.4689953029155731, "cur_kl_coeff": 1.0688962936401367, "cur_lr": 4.999999873689376e-05, "total_loss": 10.403682708740234}, "sample_time_ms": 47349.983, "num_steps_trained": 1969200, "num_steps_sampled": 1969200, "update_time_ms": 2.618, "grad_time_ms": 377.874, "load_time_ms": 0.693}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 65873.81930184364, "iterations_since_restore": 442, "episode_reward_max": 4.000676675119645, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 199882, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 258, "timestamp": 1757120710, "timesteps_since_restore": 530400, "episode_len_mean": 4.635658914728682, "episode_reward_mean": 3.0029404515633717, "pid": 2334309, "time_since_restore": 19154.279861450195, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-05-10", "timesteps_total": 1970400, "episode_reward_min": -49.86610892362039, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.79435920715332, "training_iteration": 1642, "info": {"default": {"policy_loss": -0.08398585021495819, "vf_explained_var": 0.470644474029541, "vf_loss": 33.30304718017578, "kl": 0.0120300417765975, "entropy": 1.3361761569976807, "cur_kl_coeff": 1.6033445596694946, "cur_lr": 4.999999873689376e-05, "total_loss": 33.23834991455078}, "sample_time_ms": 47404.829, "num_steps_trained": 1970400, "num_steps_sampled": 1970400, "update_time_ms": 2.62, "grad_time_ms": 377.999, "load_time_ms": 0.699}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 65922.34409809113, "iterations_since_restore": 443, "episode_reward_max": 4.000712538280092, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 200164, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 282, "timestamp": 1757120758, "timesteps_since_restore": 531600, "episode_len_mean": 4.212765957446808, "episode_reward_mean": 3.666220904421436, "pid": 2334309, "time_since_restore": 19202.804657697678, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-05-58", "timesteps_total": 1971600, "episode_reward_min": -48.32398069894801, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.5247962474823, "training_iteration": 1643, "info": {"default": {"policy_loss": -0.06348294764757156, "vf_explained_var": 0.6095330715179443, "vf_loss": 16.65891456604004, "kl": 0.008165884763002396, "entropy": 0.5912259817123413, "cur_kl_coeff": 1.6033445596694946, "cur_lr": 4.999999873689376e-05, "total_loss": 16.6085262298584}, "sample_time_ms": 47480.066, "num_steps_trained": 1971600, "num_steps_sampled": 1971600, "update_time_ms": 2.63, "grad_time_ms": 381.463, "load_time_ms": 0.708}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 65969.74980688095, "iterations_since_restore": 444, "episode_reward_max": 4.000792718288268, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 200444, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 280, "timestamp": 1757120806, "timesteps_since_restore": 532800, "episode_len_mean": 4.339285714285714, "episode_reward_mean": 3.4697730231525252, "pid": 2334309, "time_since_restore": 19250.210366487503, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-06-46", "timesteps_total": 1972800, "episode_reward_min": -43.78897813904211, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.40570878982544, "training_iteration": 1644, "info": {"default": {"policy_loss": -0.06305687129497528, "vf_explained_var": 0.5843989849090576, "vf_loss": 14.972013473510742, "kl": 0.008982622064650059, "entropy": 0.704613983631134, "cur_kl_coeff": 1.6033445596694946, "cur_lr": 4.999999873689376e-05, "total_loss": 14.923359870910645}, "sample_time_ms": 47473.764, "num_steps_trained": 1972800, "num_steps_sampled": 1972800, "update_time_ms": 2.641, "grad_time_ms": 383.077, "load_time_ms": 0.718}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 66017.55762529373, "iterations_since_restore": 445, "episode_reward_max": 4.000918723030381, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 200727, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 283, "timestamp": 1757120853, "timesteps_since_restore": 534000, "episode_len_mean": 4.23321554770318, "episode_reward_mean": 3.629986007113293, "pid": 2334309, "time_since_restore": 19298.018184900284, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-07-33", "timesteps_total": 1974000, "episode_reward_min": -28.895418349281485, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.80781841278076, "training_iteration": 1645, "info": {"default": {"policy_loss": -0.059502437710762024, "vf_explained_var": 0.6623157858848572, "vf_loss": 6.841184616088867, "kl": 0.008747434243559837, "entropy": 0.5293578505516052, "cur_kl_coeff": 1.6033445596694946, "cur_lr": 4.999999873689376e-05, "total_loss": 6.795708179473877}, "sample_time_ms": 47517.787, "num_steps_trained": 1974000, "num_steps_sampled": 1974000, "update_time_ms": 2.646, "grad_time_ms": 384.145, "load_time_ms": 0.725}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 66065.12723064423, "iterations_since_restore": 446, "episode_reward_max": 4.000708333856641, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 201010, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 283, "timestamp": 1757120901, "timesteps_since_restore": 535200, "episode_len_mean": 4.243816254416961, "episode_reward_mean": 3.623283480690262, "pid": 2334309, "time_since_restore": 19345.58779025078, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-08-21", "timesteps_total": 1975200, "episode_reward_min": -38.32571517451191, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.569605350494385, "training_iteration": 1646, "info": {"default": {"policy_loss": -0.04777519404888153, "vf_explained_var": 0.5415626764297485, "vf_loss": 12.612213134765625, "kl": 0.016956061124801636, "entropy": 0.65352463722229, "cur_kl_coeff": 1.6033445596694946, "cur_lr": 4.999999873689376e-05, "total_loss": 12.591625213623047}, "sample_time_ms": 47511.573, "num_steps_trained": 1975200, "num_steps_sampled": 1975200, "update_time_ms": 2.637, "grad_time_ms": 381.706, "load_time_ms": 0.724}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 66112.13390350342, "iterations_since_restore": 447, "episode_reward_max": 4.000774125488402, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 201303, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 293, "timestamp": 1757120948, "timesteps_since_restore": 536400, "episode_len_mean": 4.098976109215017, "episode_reward_mean": 3.8380599128082937, "pid": 2334309, "time_since_restore": 19392.59446310997, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-09-08", "timesteps_total": 1976400, "episode_reward_min": -22.885874616573567, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.006672859191895, "training_iteration": 1647, "info": {"default": {"policy_loss": -0.040302351117134094, "vf_explained_var": 0.6939874887466431, "vf_loss": 4.230567932128906, "kl": 0.0071160513907670975, "entropy": 0.29434144496917725, "cur_kl_coeff": 1.6033445596694946, "cur_lr": 4.999999873689376e-05, "total_loss": 4.201674938201904}, "sample_time_ms": 47365.334, "num_steps_trained": 1976400, "num_steps_sampled": 1976400, "update_time_ms": 2.567, "grad_time_ms": 378.258, "load_time_ms": 0.707}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 66159.21601128578, "iterations_since_restore": 448, "episode_reward_max": 4.000690546460213, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 201589, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 286, "timestamp": 1757120995, "timesteps_since_restore": 537600, "episode_len_mean": 4.153846153846154, "episode_reward_mean": 3.759125068428209, "pid": 2334309, "time_since_restore": 19439.676570892334, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-09-55", "timesteps_total": 1977600, "episode_reward_min": -29.05723779136467, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.08210778236389, "training_iteration": 1648, "info": {"default": {"policy_loss": -0.06131590157747269, "vf_explained_var": 0.5657162070274353, "vf_loss": 9.114757537841797, "kl": 0.009465551935136318, "entropy": 0.3942166864871979, "cur_kl_coeff": 1.6033445596694946, "cur_lr": 4.999999873689376e-05, "total_loss": 9.068617820739746}, "sample_time_ms": 47248.405, "num_steps_trained": 1977600, "num_steps_sampled": 1977600, "update_time_ms": 2.56, "grad_time_ms": 375.743, "load_time_ms": 0.7}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 66207.06537365913, "iterations_since_restore": 449, "episode_reward_max": 4.000654500743946, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 201874, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 285, "timestamp": 1757121043, "timesteps_since_restore": 538800, "episode_len_mean": 4.23859649122807, "episode_reward_mean": 3.6333206254025012, "pid": 2334309, "time_since_restore": 19487.525933265686, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-10-43", "timesteps_total": 1978800, "episode_reward_min": -32.77598624089691, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.84936237335205, "training_iteration": 1649, "info": {"default": {"policy_loss": -0.06019461899995804, "vf_explained_var": 0.5772254467010498, "vf_loss": 8.512520790100098, "kl": 0.008945479057729244, "entropy": 0.5326219201087952, "cur_kl_coeff": 1.6033445596694946, "cur_lr": 4.999999873689376e-05, "total_loss": 8.466670036315918}, "sample_time_ms": 47300.103, "num_steps_trained": 1978800, "num_steps_sampled": 1978800, "update_time_ms": 2.557, "grad_time_ms": 376.053, "load_time_ms": 0.692}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 66254.80196642876, "iterations_since_restore": 450, "episode_reward_max": 4.000849733984013, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 202168, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757121091, "timesteps_since_restore": 540000, "episode_len_mean": 4.08843537414966, "episode_reward_mean": 3.8594635879708514, "pid": 2334309, "time_since_restore": 19535.26252603531, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-11-31", "timesteps_total": 1980000, "episode_reward_min": -25.182502002174353, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.7365927696228, "training_iteration": 1650, "info": {"default": {"policy_loss": -0.04264940321445465, "vf_explained_var": 0.7755383253097534, "vf_loss": 3.8234329223632812, "kl": 0.006620627827942371, "entropy": 0.23513028025627136, "cur_kl_coeff": 1.6033445596694946, "cur_lr": 4.999999873689376e-05, "total_loss": 3.791398763656616}, "sample_time_ms": 47292.284, "num_steps_trained": 1980000, "num_steps_sampled": 1980000, "update_time_ms": 2.557, "grad_time_ms": 373.96, "load_time_ms": 0.687}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 66303.11939764023, "iterations_since_restore": 451, "episode_reward_max": 4.000666963817267, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 202459, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757121139, "timesteps_since_restore": 541200, "episode_len_mean": 4.130584192439863, "episode_reward_mean": 3.7993924542099897, "pid": 2334309, "time_since_restore": 19583.57995724678, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-12-19", "timesteps_total": 1981200, "episode_reward_min": -19.180441104178517, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.31743121147156, "training_iteration": 1651, "info": {"default": {"policy_loss": -0.03561858832836151, "vf_explained_var": 0.6783048510551453, "vf_loss": 3.3174777030944824, "kl": 0.007950196042656898, "entropy": 0.3775385618209839, "cur_kl_coeff": 1.6033445596694946, "cur_lr": 4.999999873689376e-05, "total_loss": 3.2946062088012695}, "sample_time_ms": 47329.146, "num_steps_trained": 1981200, "num_steps_sampled": 1981200, "update_time_ms": 2.5, "grad_time_ms": 370.993, "load_time_ms": 0.693}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 66350.71851062775, "iterations_since_restore": 452, "episode_reward_max": 4.000833954624946, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 202740, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 281, "timestamp": 1757121187, "timesteps_since_restore": 542400, "episode_len_mean": 4.2562277580071175, "episode_reward_mean": 3.599377520002389, "pid": 2334309, "time_since_restore": 19631.1790702343, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-13-07", "timesteps_total": 1982400, "episode_reward_min": -56.35422226787199, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.59911298751831, "training_iteration": 1652, "info": {"default": {"policy_loss": -0.06930157542228699, "vf_explained_var": 0.5441776514053345, "vf_loss": 20.198257446289062, "kl": 0.010739510878920555, "entropy": 0.5661101937294006, "cur_kl_coeff": 1.6033445596694946, "cur_lr": 4.999999873689376e-05, "total_loss": 20.14617156982422}, "sample_time_ms": 47308.02, "num_steps_trained": 1982400, "num_steps_sampled": 1982400, "update_time_ms": 2.491, "grad_time_ms": 372.558, "load_time_ms": 0.685}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 66398.05032157898, "iterations_since_restore": 453, "episode_reward_max": 4.000594971620135, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 203028, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 288, "timestamp": 1757121234, "timesteps_since_restore": 543600, "episode_len_mean": 4.170138888888889, "episode_reward_mean": 3.736868114222448, "pid": 2334309, "time_since_restore": 19678.51088118553, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-13-54", "timesteps_total": 1983600, "episode_reward_min": -27.546913577649725, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.33181095123291, "training_iteration": 1653, "info": {"default": {"policy_loss": -0.05227980017662048, "vf_explained_var": 0.610449492931366, "vf_loss": 5.848050117492676, "kl": 0.007902221754193306, "entropy": 0.3442346155643463, "cur_kl_coeff": 1.6033445596694946, "cur_lr": 4.999999873689376e-05, "total_loss": 5.8084397315979}, "sample_time_ms": 47191.319, "num_steps_trained": 1983600, "num_steps_sampled": 1983600, "update_time_ms": 2.519, "grad_time_ms": 369.914, "load_time_ms": 0.676}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 66445.797062397, "iterations_since_restore": 454, "episode_reward_max": 4.000673881829487, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 203326, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757121282, "timesteps_since_restore": 544800, "episode_len_mean": 4.026845637583893, "episode_reward_mean": 3.9595977996681246, "pid": 2334309, "time_since_restore": 19726.257622003555, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-14-42", "timesteps_total": 1984800, "episode_reward_min": -2.0719735792444993, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.74674081802368, "training_iteration": 1654, "info": {"default": {"policy_loss": -0.03460940346121788, "vf_explained_var": 0.913182258605957, "vf_loss": 0.5156552791595459, "kl": 0.010755617171525955, "entropy": 0.15828341245651245, "cur_kl_coeff": 1.6033445596694946, "cur_lr": 4.999999873689376e-05, "total_loss": 0.49829086661338806}, "sample_time_ms": 47225.941, "num_steps_trained": 1984800, "num_steps_sampled": 1984800, "update_time_ms": 2.558, "grad_time_ms": 369.311, "load_time_ms": 0.669}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 66493.77753686905, "iterations_since_restore": 455, "episode_reward_max": 4.000946485702377, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 203626, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757121330, "timesteps_since_restore": 546000, "episode_len_mean": 4.0, "episode_reward_mean": 4.000280726567178, "pid": 2334309, "time_since_restore": 19774.2380964756, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-15-30", "timesteps_total": 1986000, "episode_reward_min": 4.000126049844651, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.9804744720459, "training_iteration": 1655, "info": {"default": {"policy_loss": -0.08965358138084412, "vf_explained_var": 0.9981762766838074, "vf_loss": 0.009597435593605042, "kl": 0.023726558312773705, "entropy": 0.04857998341321945, "cur_kl_coeff": 1.6033445596694946, "cur_lr": 4.999999873689376e-05, "total_loss": -0.042014285922050476}, "sample_time_ms": 47242.816, "num_steps_trained": 1986000, "num_steps_sampled": 1986000, "update_time_ms": 2.603, "grad_time_ms": 369.595, "load_time_ms": 0.669}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 66541.38364720345, "iterations_since_restore": 456, "episode_reward_max": 4.000618412834113, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 203917, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757121377, "timesteps_since_restore": 547200, "episode_len_mean": 4.123711340206185, "episode_reward_mean": 3.811332398326398, "pid": 2334309, "time_since_restore": 19821.844206809998, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-16-17", "timesteps_total": 1987200, "episode_reward_min": -32.29899409008723, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.60611033439636, "training_iteration": 1656, "info": {"default": {"policy_loss": -0.0402386449277401, "vf_explained_var": 0.650540292263031, "vf_loss": 11.192577362060547, "kl": 0.006179157644510269, "entropy": 0.3394414186477661, "cur_kl_coeff": 2.4050166606903076, "cur_lr": 4.999999873689376e-05, "total_loss": 11.167200088500977}, "sample_time_ms": 47243.552, "num_steps_trained": 1987200, "num_steps_sampled": 1987200, "update_time_ms": 2.623, "grad_time_ms": 372.485, "load_time_ms": 0.673}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 66588.87368535995, "iterations_since_restore": 457, "episode_reward_max": 4.000658598890384, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 204209, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757121425, "timesteps_since_restore": 548400, "episode_len_mean": 4.0993150684931505, "episode_reward_mean": 3.8536785636493764, "pid": 2334309, "time_since_restore": 19869.334244966507, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-17-05", "timesteps_total": 1988400, "episode_reward_min": -16.30411036739071, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.4900381565094, "training_iteration": 1657, "info": {"default": {"policy_loss": -0.04266553744673729, "vf_explained_var": 0.6974788308143616, "vf_loss": 3.197690725326538, "kl": 0.006373723968863487, "entropy": 0.2742365896701813, "cur_kl_coeff": 2.4050166606903076, "cur_lr": 4.999999873689376e-05, "total_loss": 3.170353889465332}, "sample_time_ms": 47289.683, "num_steps_trained": 1988400, "num_steps_sampled": 1988400, "update_time_ms": 2.628, "grad_time_ms": 374.662, "load_time_ms": 0.673}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 66636.88270783424, "iterations_since_restore": 458, "episode_reward_max": 4.000702659435349, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 204493, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 284, "timestamp": 1757121473, "timesteps_since_restore": 549600, "episode_len_mean": 4.23943661971831, "episode_reward_mean": 3.622127763429298, "pid": 2334309, "time_since_restore": 19917.343267440796, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-17-53", "timesteps_total": 1989600, "episode_reward_min": -19.954752311409308, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.00902247428894, "training_iteration": 1658, "info": {"default": {"policy_loss": -0.05354536324739456, "vf_explained_var": 0.5681328177452087, "vf_loss": 6.566930770874023, "kl": 0.013351963832974434, "entropy": 0.5023170709609985, "cur_kl_coeff": 2.4050166606903076, "cur_lr": 4.999999873689376e-05, "total_loss": 6.545497417449951}, "sample_time_ms": 47380.065, "num_steps_trained": 1989600, "num_steps_sampled": 1989600, "update_time_ms": 2.612, "grad_time_ms": 377.002, "load_time_ms": 0.678}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 66684.59001207352, "iterations_since_restore": 459, "episode_reward_max": 4.001332732015957, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 204790, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757121521, "timesteps_since_restore": 550800, "episode_len_mean": 4.01010101010101, "episode_reward_mean": 3.9867235673858654, "pid": 2334309, "time_since_restore": 19965.05057168007, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-18-41", "timesteps_total": 1990800, "episode_reward_min": -0.026642213971655337, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.70730423927307, "training_iteration": 1659, "info": {"default": {"policy_loss": -0.02260707877576351, "vf_explained_var": 0.8115726113319397, "vf_loss": 1.9744938611984253, "kl": 0.005197071935981512, "entropy": 0.16295090317726135, "cur_kl_coeff": 2.4050166606903076, "cur_lr": 4.999999873689376e-05, "total_loss": 1.964385747909546}, "sample_time_ms": 47368.565, "num_steps_trained": 1990800, "num_steps_sampled": 1990800, "update_time_ms": 2.639, "grad_time_ms": 374.357, "load_time_ms": 0.673}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 66732.73470854759, "iterations_since_restore": 460, "episode_reward_max": 4.001822186340203, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 205084, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757121569, "timesteps_since_restore": 552000, "episode_len_mean": 4.105442176870748, "episode_reward_mean": 3.8319895399952664, "pid": 2334309, "time_since_restore": 20013.195268154144, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-19-29", "timesteps_total": 1992000, "episode_reward_min": -20.55197572375028, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.14469647407532, "training_iteration": 1660, "info": {"default": {"policy_loss": -0.0390138104557991, "vf_explained_var": 0.8445647954940796, "vf_loss": 1.479906439781189, "kl": 0.002550747711211443, "entropy": 0.18270927667617798, "cur_kl_coeff": 2.4050166606903076, "cur_lr": 4.999999873689376e-05, "total_loss": 1.4470272064208984}, "sample_time_ms": 47407.811, "num_steps_trained": 1992000, "num_steps_sampled": 1992000, "update_time_ms": 2.633, "grad_time_ms": 375.899, "load_time_ms": 0.682}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 66780.2614402771, "iterations_since_restore": 461, "episode_reward_max": 4.0007531398746625, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 205384, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757121616, "timesteps_since_restore": 553200, "episode_len_mean": 4.0, "episode_reward_mean": 4.000272094412993, "pid": 2334309, "time_since_restore": 20060.72199988365, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-20-16", "timesteps_total": 1993200, "episode_reward_min": 4.000123381819627, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.526731729507446, "training_iteration": 1661, "info": {"default": {"policy_loss": -0.08553630858659744, "vf_explained_var": 0.9986491799354553, "vf_loss": 0.0072008660063147545, "kl": 0.028392083942890167, "entropy": 0.08564964681863785, "cur_kl_coeff": 1.2025083303451538, "cur_lr": 4.999999873689376e-05, "total_loss": -0.04419371858239174}, "sample_time_ms": 47327.284, "num_steps_trained": 1993200, "num_steps_sampled": 1993200, "update_time_ms": 2.613, "grad_time_ms": 377.437, "load_time_ms": 0.661}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 66827.96378207207, "iterations_since_restore": 462, "episode_reward_max": 4.000653168140067, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 205682, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757121664, "timesteps_since_restore": 554400, "episode_len_mean": 4.0369127516778525, "episode_reward_mean": 3.942786727907276, "pid": 2334309, "time_since_restore": 20108.42434167862, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-21-04", "timesteps_total": 1994400, "episode_reward_min": -7.108477746626459, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.70234179496765, "training_iteration": 1662, "info": {"default": {"policy_loss": -0.03273141756653786, "vf_explained_var": 0.8631870746612549, "vf_loss": 0.897068977355957, "kl": 0.0037835082039237022, "entropy": 0.19409264624118805, "cur_kl_coeff": 1.803762674331665, "cur_lr": 4.999999873689376e-05, "total_loss": 0.8711620569229126}, "sample_time_ms": 47337.842, "num_steps_trained": 1994400, "num_steps_sampled": 1994400, "update_time_ms": 2.599, "grad_time_ms": 377.263, "load_time_ms": 0.682}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 66875.57712626457, "iterations_since_restore": 463, "episode_reward_max": 4.0007440907144645, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 205977, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757121712, "timesteps_since_restore": 555600, "episode_len_mean": 4.061016949152543, "episode_reward_mean": 3.905397020349202, "pid": 2334309, "time_since_restore": 20156.037685871124, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-21-52", "timesteps_total": 1995600, "episode_reward_min": -23.989055359002762, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.61334419250488, "training_iteration": 1663, "info": {"default": {"policy_loss": -0.03494058921933174, "vf_explained_var": 0.7567861080169678, "vf_loss": 3.661590576171875, "kl": 0.005833546165376902, "entropy": 0.28001242876052856, "cur_kl_coeff": 0.9018813371658325, "cur_lr": 4.999999873689376e-05, "total_loss": 3.631911039352417}, "sample_time_ms": 47364.216, "num_steps_trained": 1995600, "num_steps_sampled": 1995600, "update_time_ms": 2.585, "grad_time_ms": 379.122, "load_time_ms": 0.675}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 66923.42564415932, "iterations_since_restore": 464, "episode_reward_max": 4.000742874480407, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 206266, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 289, "timestamp": 1757121760, "timesteps_since_restore": 556800, "episode_len_mean": 4.159169550173011, "episode_reward_mean": 3.718331160311164, "pid": 2334309, "time_since_restore": 20203.88620376587, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-22-40", "timesteps_total": 1996800, "episode_reward_min": -77.48245720253476, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.84851789474487, "training_iteration": 1664, "info": {"default": {"policy_loss": -0.05485163629055023, "vf_explained_var": 0.720020592212677, "vf_loss": 22.95770263671875, "kl": 0.007291719317436218, "entropy": 0.5293594598770142, "cur_kl_coeff": 0.9018813371658325, "cur_lr": 4.999999873689376e-05, "total_loss": 22.9094295501709}, "sample_time_ms": 47374.248, "num_steps_trained": 1996800, "num_steps_sampled": 1996800, "update_time_ms": 2.587, "grad_time_ms": 379.283, "load_time_ms": 0.702}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 66970.9480688572, "iterations_since_restore": 465, "episode_reward_max": 4.001037006505504, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 206561, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757121807, "timesteps_since_restore": 558000, "episode_len_mean": 4.067796610169491, "episode_reward_mean": 3.886519472546582, "pid": 2334309, "time_since_restore": 20251.408628463745, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-23-27", "timesteps_total": 1998000, "episode_reward_min": -17.544207976595484, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.52242469787598, "training_iteration": 1665, "info": {"default": {"policy_loss": -0.003593047382310033, "vf_explained_var": 0.774535596370697, "vf_loss": 2.678989887237549, "kl": 0.2180272787809372, "entropy": 0.19660824537277222, "cur_kl_coeff": 0.9018813371658325, "cur_lr": 4.999999873689376e-05, "total_loss": 2.8720316886901855}, "sample_time_ms": 47329.653, "num_steps_trained": 1998000, "num_steps_sampled": 1998000, "update_time_ms": 2.558, "grad_time_ms": 378.139, "load_time_ms": 0.693}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 67015.18101882935, "iterations_since_restore": 466, "episode_reward_max": 4.001069104847316, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 206852, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757121851, "timesteps_since_restore": 559200, "episode_len_mean": 4.106529209621993, "episode_reward_mean": 3.8307577697140824, "pid": 2334309, "time_since_restore": 20295.641578435898, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-24-11", "timesteps_total": 1999200, "episode_reward_min": -13.163420659431484, "num_metric_batches_dropped": 0, "time_this_iter_s": 44.23294997215271, "training_iteration": 1666, "info": {"default": {"policy_loss": -0.04940802603960037, "vf_explained_var": 0.6842879056930542, "vf_loss": 3.0735673904418945, "kl": 0.010271355509757996, "entropy": 0.2553676962852478, "cur_kl_coeff": 1.352821946144104, "cur_lr": 4.999999873689376e-05, "total_loss": 3.038054943084717}, "sample_time_ms": 46995.184, "num_steps_trained": 1999200, "num_steps_sampled": 1999200, "update_time_ms": 2.579, "grad_time_ms": 375.205, "load_time_ms": 0.696}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 67060.36804485321, "iterations_since_restore": 467, "episode_reward_max": 4.001279521342454, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 207147, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757121897, "timesteps_since_restore": 560400, "episode_len_mean": 4.074576271186441, "episode_reward_mean": 3.8841430855330112, "pid": 2334309, "time_since_restore": 20340.828604459763, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-24-57", "timesteps_total": 2000400, "episode_reward_min": -10.97980604842261, "num_metric_batches_dropped": 0, "time_this_iter_s": 45.187026023864746, "training_iteration": 1667, "info": {"default": {"policy_loss": -0.03647778928279877, "vf_explained_var": 0.7014427781105042, "vf_loss": 2.2860097885131836, "kl": 0.0046118381433188915, "entropy": 0.22644442319869995, "cur_kl_coeff": 1.352821946144104, "cur_lr": 4.999999873689376e-05, "total_loss": 2.255770683288574}, "sample_time_ms": 46766.224, "num_steps_trained": 2000400, "num_steps_sampled": 2000400, "update_time_ms": 2.593, "grad_time_ms": 373.847, "load_time_ms": 0.701}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 67108.13858795166, "iterations_since_restore": 468, "episode_reward_max": 4.000745716769162, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 207435, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 288, "timestamp": 1757121944, "timesteps_since_restore": 561600, "episode_len_mean": 4.170138888888889, "episode_reward_mean": 3.73312054733438, "pid": 2334309, "time_since_restore": 20388.599147558212, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-25-44", "timesteps_total": 2001600, "episode_reward_min": -19.967727372456114, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.77054309844971, "training_iteration": 1668, "info": {"default": {"policy_loss": -0.052003681659698486, "vf_explained_var": 0.6778706312179565, "vf_loss": 4.66541862487793, "kl": 0.008391221985220909, "entropy": 0.4789724349975586, "cur_kl_coeff": 0.676410973072052, "cur_lr": 4.999999873689376e-05, "total_loss": 4.6190900802612305}, "sample_time_ms": 46744.276, "num_steps_trained": 2001600, "num_steps_sampled": 2001600, "update_time_ms": 2.583, "grad_time_ms": 371.975, "load_time_ms": 0.703}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 67155.74977827072, "iterations_since_restore": 469, "episode_reward_max": 4.001208674908317, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 207729, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757121992, "timesteps_since_restore": 562800, "episode_len_mean": 4.081632653061225, "episode_reward_mean": 3.875596154829097, "pid": 2334309, "time_since_restore": 20436.210337877274, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-26-32", "timesteps_total": 2002800, "episode_reward_min": -18.492357076133807, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.61119031906128, "training_iteration": 1669, "info": {"default": {"policy_loss": -0.04242900386452675, "vf_explained_var": 0.7564542293548584, "vf_loss": 2.431338310241699, "kl": 0.02339518442749977, "entropy": 0.23087729513645172, "cur_kl_coeff": 0.676410973072052, "cur_lr": 4.999999873689376e-05, "total_loss": 2.4047341346740723}, "sample_time_ms": 46732.986, "num_steps_trained": 2002800, "num_steps_sampled": 2002800, "update_time_ms": 2.582, "grad_time_ms": 373.589, "load_time_ms": 0.701}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 67203.54290890694, "iterations_since_restore": 470, "episode_reward_max": 4.0008226928735695, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 208026, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757122040, "timesteps_since_restore": 564000, "episode_len_mean": 4.037037037037037, "episode_reward_mean": 3.9423966270672754, "pid": 2334309, "time_since_restore": 20484.00346851349, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-27-20", "timesteps_total": 2004000, "episode_reward_min": -13.19161530420348, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.79313063621521, "training_iteration": 1670, "info": {"default": {"policy_loss": -0.025920748710632324, "vf_explained_var": 0.8720581531524658, "vf_loss": 1.1084129810333252, "kl": 0.006350250449031591, "entropy": 0.11929333209991455, "cur_kl_coeff": 1.0146164894104004, "cur_lr": 4.999999873689376e-05, "total_loss": 1.088935375213623}, "sample_time_ms": 46697.167, "num_steps_trained": 2004000, "num_steps_sampled": 2004000, "update_time_ms": 2.585, "grad_time_ms": 374.254, "load_time_ms": 0.693}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 67251.28588151932, "iterations_since_restore": 471, "episode_reward_max": 4.0010983074383555, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 208322, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757122088, "timesteps_since_restore": 565200, "episode_len_mean": 4.0608108108108105, "episode_reward_mean": 3.910211335183816, "pid": 2334309, "time_since_restore": 20531.74644112587, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-28-08", "timesteps_total": 2005200, "episode_reward_min": -12.337292534178502, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.74297261238098, "training_iteration": 1671, "info": {"default": {"policy_loss": -0.0335688553750515, "vf_explained_var": 0.8075354099273682, "vf_loss": 1.489824891090393, "kl": 0.018698569387197495, "entropy": 0.27047818899154663, "cur_kl_coeff": 1.0146164894104004, "cur_lr": 4.999999873689376e-05, "total_loss": 1.4752280712127686}, "sample_time_ms": 46720.517, "num_steps_trained": 2005200, "num_steps_sampled": 2005200, "update_time_ms": 2.616, "grad_time_ms": 372.469, "load_time_ms": 0.701}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 67298.56763005257, "iterations_since_restore": 472, "episode_reward_max": 4.000857936545651, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 208605, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 283, "timestamp": 1757122135, "timesteps_since_restore": 566400, "episode_len_mean": 4.18374558303887, "episode_reward_mean": 3.7138113077284047, "pid": 2334309, "time_since_restore": 20579.02818965912, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-28-55", "timesteps_total": 2006400, "episode_reward_min": -24.632105491285763, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.2817485332489, "training_iteration": 1672, "info": {"default": {"policy_loss": -0.04816845804452896, "vf_explained_var": 0.5693673491477966, "vf_loss": 9.897875785827637, "kl": 0.010600096546113491, "entropy": 0.5429092049598694, "cur_kl_coeff": 1.0146164894104004, "cur_lr": 4.999999873689376e-05, "total_loss": 9.860462188720703}, "sample_time_ms": 46678.09, "num_steps_trained": 2006400, "num_steps_sampled": 2006400, "update_time_ms": 2.61, "grad_time_ms": 372.831, "load_time_ms": 0.703}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 67346.06456422806, "iterations_since_restore": 473, "episode_reward_max": 4.00079227033808, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 208897, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757122182, "timesteps_since_restore": 567600, "episode_len_mean": 4.174657534246576, "episode_reward_mean": 3.725504630668793, "pid": 2334309, "time_since_restore": 20626.52512383461, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-29-42", "timesteps_total": 2007600, "episode_reward_min": -28.45146765045132, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.49693417549133, "training_iteration": 1673, "info": {"default": {"policy_loss": -0.058108218014240265, "vf_explained_var": 0.7469310164451599, "vf_loss": 1.95550537109375, "kl": 0.011538032442331314, "entropy": 0.47508060932159424, "cur_kl_coeff": 1.0146164894104004, "cur_lr": 4.999999873689376e-05, "total_loss": 1.9091038703918457}, "sample_time_ms": 46667.455, "num_steps_trained": 2007600, "num_steps_sampled": 2007600, "update_time_ms": 2.603, "grad_time_ms": 371.828, "load_time_ms": 0.713}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 67394.04238605499, "iterations_since_restore": 474, "episode_reward_max": 4.000986180598605, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 209182, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 285, "timestamp": 1757122230, "timesteps_since_restore": 568800, "episode_len_mean": 4.196491228070175, "episode_reward_mean": 3.69313255266705, "pid": 2334309, "time_since_restore": 20674.502945661545, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-30-30", "timesteps_total": 2008800, "episode_reward_min": -17.003735855933552, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.977821826934814, "training_iteration": 1674, "info": {"default": {"policy_loss": -0.053415194153785706, "vf_explained_var": 0.6242559552192688, "vf_loss": 5.031917095184326, "kl": 0.017744889482855797, "entropy": 0.49457353353500366, "cur_kl_coeff": 1.0146164894104004, "cur_lr": 4.999999873689376e-05, "total_loss": 4.9965057373046875}, "sample_time_ms": 46682.006, "num_steps_trained": 2008800, "num_steps_sampled": 2008800, "update_time_ms": 2.556, "grad_time_ms": 370.282, "load_time_ms": 0.687}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 67441.31111836433, "iterations_since_restore": 475, "episode_reward_max": 4.001882697433253, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 209475, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 293, "timestamp": 1757122278, "timesteps_since_restore": 570000, "episode_len_mean": 4.1058020477815695, "episode_reward_mean": 3.8309153002178578, "pid": 2334309, "time_since_restore": 20721.771677970886, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-31-18", "timesteps_total": 2010000, "episode_reward_min": -17.248991242468186, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.26873230934143, "training_iteration": 1675, "info": {"default": {"policy_loss": -0.04372525215148926, "vf_explained_var": 0.7417739033699036, "vf_loss": 2.5701780319213867, "kl": 0.010791368782520294, "entropy": 0.2814388871192932, "cur_kl_coeff": 1.0146164894104004, "cur_lr": 4.999999873689376e-05, "total_loss": 2.5374021530151367}, "sample_time_ms": 46658.762, "num_steps_trained": 2010000, "num_steps_sampled": 2010000, "update_time_ms": 2.568, "grad_time_ms": 368.16, "load_time_ms": 0.686}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 67489.29621338844, "iterations_since_restore": 476, "episode_reward_max": 4.00064112400654, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 209772, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757122326, "timesteps_since_restore": 571200, "episode_len_mean": 4.033670033670034, "episode_reward_mean": 3.948027176863236, "pid": 2334309, "time_since_restore": 20769.756772994995, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-32-06", "timesteps_total": 2011200, "episode_reward_min": -6.620304562630945, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.98509502410889, "training_iteration": 1676, "info": {"default": {"policy_loss": -0.04324660822749138, "vf_explained_var": 0.9163053035736084, "vf_loss": 0.5546905994415283, "kl": 0.0037526926025748253, "entropy": 0.20264379680156708, "cur_kl_coeff": 1.0146164894104004, "cur_lr": 4.999999873689376e-05, "total_loss": 0.5152515172958374}, "sample_time_ms": 47031.684, "num_steps_trained": 2011200, "num_steps_sampled": 2011200, "update_time_ms": 2.514, "grad_time_ms": 370.565, "load_time_ms": 0.682}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 67535.81386137009, "iterations_since_restore": 477, "episode_reward_max": 4.0008690131715525, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 210066, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757122372, "timesteps_since_restore": 572400, "episode_len_mean": 4.085034013605442, "episode_reward_mean": 3.865806720498081, "pid": 2334309, "time_since_restore": 20816.27442097664, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-32-52", "timesteps_total": 2012400, "episode_reward_min": -18.89860699643517, "num_metric_batches_dropped": 0, "time_this_iter_s": 46.51764798164368, "training_iteration": 1677, "info": {"default": {"policy_loss": -0.035763535648584366, "vf_explained_var": 0.7304689884185791, "vf_loss": 2.972550392150879, "kl": 0.007807288784533739, "entropy": 0.24746663868427277, "cur_kl_coeff": 0.5073082447052002, "cur_lr": 4.999999873689376e-05, "total_loss": 2.9407474994659424}, "sample_time_ms": 47165.494, "num_steps_trained": 2012400, "num_steps_sampled": 2012400, "update_time_ms": 2.507, "grad_time_ms": 369.823, "load_time_ms": 0.685}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 67582.87584900856, "iterations_since_restore": 478, "episode_reward_max": 4.000823079934056, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 210360, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757122419, "timesteps_since_restore": 573600, "episode_len_mean": 4.071428571428571, "episode_reward_mean": 3.892482043003202, "pid": 2334309, "time_since_restore": 20863.336408615112, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-33-39", "timesteps_total": 2013600, "episode_reward_min": -11.328197601246199, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.06198763847351, "training_iteration": 1678, "info": {"default": {"policy_loss": -0.039441272616386414, "vf_explained_var": 0.8307105302810669, "vf_loss": 1.512565016746521, "kl": 0.01039748266339302, "entropy": 0.27696099877357483, "cur_kl_coeff": 0.5073082447052002, "cur_lr": 4.999999873689376e-05, "total_loss": 1.4783984422683716}, "sample_time_ms": 47092.225, "num_steps_trained": 2013600, "num_steps_sampled": 2013600, "update_time_ms": 2.549, "grad_time_ms": 372.087, "load_time_ms": 0.693}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 67630.44080042839, "iterations_since_restore": 479, "episode_reward_max": 4.000735838652769, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 210657, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757122467, "timesteps_since_restore": 574800, "episode_len_mean": 4.037037037037037, "episode_reward_mean": 3.9420612600201332, "pid": 2334309, "time_since_restore": 20910.901360034943, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-34-27", "timesteps_total": 2014800, "episode_reward_min": -13.291197238210408, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.56495141983032, "training_iteration": 1679, "info": {"default": {"policy_loss": -0.021830478683114052, "vf_explained_var": 0.8609167337417603, "vf_loss": 1.078092336654663, "kl": 0.015271883457899094, "entropy": 0.21795357763767242, "cur_kl_coeff": 0.5073082447052002, "cur_lr": 4.999999873689376e-05, "total_loss": 1.0640093088150024}, "sample_time_ms": 47089.504, "num_steps_trained": 2014800, "num_steps_sampled": 2014800, "update_time_ms": 2.553, "grad_time_ms": 370.202, "load_time_ms": 0.695}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 67678.3408548832, "iterations_since_restore": 480, "episode_reward_max": 4.00072991206927, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 210956, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757122515, "timesteps_since_restore": 576000, "episode_len_mean": 4.0200668896321075, "episode_reward_mean": 3.966334719272686, "pid": 2334309, "time_since_restore": 20958.801414489746, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-35-15", "timesteps_total": 2016000, "episode_reward_min": -6.150503015571413, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.90005445480347, "training_iteration": 1680, "info": {"default": {"policy_loss": -0.02742471918463707, "vf_explained_var": 0.9532321095466614, "vf_loss": 0.2809211015701294, "kl": 0.006132685113698244, "entropy": 0.1905224323272705, "cur_kl_coeff": 0.5073082447052002, "cur_lr": 4.999999873689376e-05, "total_loss": 0.2566075623035431}, "sample_time_ms": 47100.921, "num_steps_trained": 2016000, "num_steps_sampled": 2016000, "update_time_ms": 2.516, "grad_time_ms": 369.516, "load_time_ms": 0.703}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 67726.13353276253, "iterations_since_restore": 481, "episode_reward_max": 4.000761724034022, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 211252, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757122563, "timesteps_since_restore": 577200, "episode_len_mean": 4.0574324324324325, "episode_reward_mean": 3.9099017926782342, "pid": 2334309, "time_since_restore": 21006.59409236908, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-36-03", "timesteps_total": 2017200, "episode_reward_min": -8.395856047109753, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.792677879333496, "training_iteration": 1681, "info": {"default": {"policy_loss": -0.045623164623975754, "vf_explained_var": 0.8741533756256104, "vf_loss": 0.8455579280853271, "kl": 0.009005320258438587, "entropy": 0.19590292870998383, "cur_kl_coeff": 0.5073082447052002, "cur_lr": 4.999999873689376e-05, "total_loss": 0.8045033812522888}, "sample_time_ms": 47104.088, "num_steps_trained": 2017200, "num_steps_sampled": 2017200, "update_time_ms": 2.55, "grad_time_ms": 371.255, "load_time_ms": 0.698}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 67774.73841190338, "iterations_since_restore": 482, "episode_reward_max": 4.000623609213108, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 211541, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 289, "timestamp": 1757122611, "timesteps_since_restore": 578400, "episode_len_mean": 4.14878892733564, "episode_reward_mean": 3.7662288686374614, "pid": 2334309, "time_since_restore": 21055.198971509933, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-36-51", "timesteps_total": 2018400, "episode_reward_min": -17.706002618643407, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.60487914085388, "training_iteration": 1682, "info": {"default": {"policy_loss": -0.048392798751592636, "vf_explained_var": 0.634380578994751, "vf_loss": 4.367875099182129, "kl": 0.014199753291904926, "entropy": 0.3893495798110962, "cur_kl_coeff": 0.5073082447052002, "cur_lr": 4.999999873689376e-05, "total_loss": 4.326685428619385}, "sample_time_ms": 47236.337, "num_steps_trained": 2018400, "num_steps_sampled": 2018400, "update_time_ms": 2.576, "grad_time_ms": 371.313, "load_time_ms": 0.673}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 67822.60694169998, "iterations_since_restore": 483, "episode_reward_max": 4.000529140533807, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 211836, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757122659, "timesteps_since_restore": 579600, "episode_len_mean": 4.067796610169491, "episode_reward_mean": 3.8955197284537078, "pid": 2334309, "time_since_restore": 21103.067501306534, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-37-39", "timesteps_total": 2019600, "episode_reward_min": -26.90182357442781, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.86852979660034, "training_iteration": 1683, "info": {"default": {"policy_loss": -0.03187600150704384, "vf_explained_var": 0.7690575122833252, "vf_loss": 3.829347848892212, "kl": 0.036835167557001114, "entropy": 0.22990091145038605, "cur_kl_coeff": 0.5073082447052002, "cur_lr": 4.999999873689376e-05, "total_loss": 3.816157817840576}, "sample_time_ms": 47271.999, "num_steps_trained": 2019600, "num_steps_sampled": 2019600, "update_time_ms": 2.592, "grad_time_ms": 372.69, "load_time_ms": 0.678}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 67870.2783741951, "iterations_since_restore": 484, "episode_reward_max": 4.001017110620732, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 212134, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757122707, "timesteps_since_restore": 580800, "episode_len_mean": 4.02013422818792, "episode_reward_mean": 3.9698273111154583, "pid": 2334309, "time_since_restore": 21150.73893380165, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-38-27", "timesteps_total": 2020800, "episode_reward_min": -5.075280025470406, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.67143249511719, "training_iteration": 1684, "info": {"default": {"policy_loss": -0.025530721992254257, "vf_explained_var": 0.9401649832725525, "vf_loss": 0.3533267378807068, "kl": 0.007029299158602953, "entropy": 0.13604728877544403, "cur_kl_coeff": 0.7609623074531555, "cur_lr": 4.999999873689376e-05, "total_loss": 0.33314505219459534}, "sample_time_ms": 47240.292, "num_steps_trained": 2020800, "num_steps_sampled": 2020800, "update_time_ms": 2.597, "grad_time_ms": 373.72, "load_time_ms": 0.698}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 67918.37966537476, "iterations_since_restore": 485, "episode_reward_max": 4.000734927897918, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 212423, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 289, "timestamp": 1757122755, "timesteps_since_restore": 582000, "episode_len_mean": 4.162629757785467, "episode_reward_mean": 3.7336636970937733, "pid": 2334309, "time_since_restore": 21198.840224981308, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-39-15", "timesteps_total": 2022000, "episode_reward_min": -25.21959636220609, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.10129117965698, "training_iteration": 1685, "info": {"default": {"policy_loss": -0.04997362196445465, "vf_explained_var": 0.7180402278900146, "vf_loss": 4.746486186981201, "kl": 0.010537726804614067, "entropy": 0.46727651357650757, "cur_kl_coeff": 0.7609623074531555, "cur_lr": 4.999999873689376e-05, "total_loss": 4.704531192779541}, "sample_time_ms": 47322.52, "num_steps_trained": 2022000, "num_steps_sampled": 2022000, "update_time_ms": 2.565, "grad_time_ms": 374.798, "load_time_ms": 0.707}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 67966.0387878418, "iterations_since_restore": 486, "episode_reward_max": 4.001150008716399, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 212722, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757122803, "timesteps_since_restore": 583200, "episode_len_mean": 4.010033444816053, "episode_reward_mean": 3.9866436717506604, "pid": 2334309, "time_since_restore": 21246.49934744835, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-40-03", "timesteps_total": 2023200, "episode_reward_min": -0.07641083083515454, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.659122467041016, "training_iteration": 1686, "info": {"default": {"policy_loss": -0.036044154316186905, "vf_explained_var": 0.9631982445716858, "vf_loss": 0.22250206768512726, "kl": 0.009739338420331478, "entropy": 0.19530078768730164, "cur_kl_coeff": 0.7609623074531555, "cur_lr": 4.999999873689376e-05, "total_loss": 0.1938691884279251}, "sample_time_ms": 47289.741, "num_steps_trained": 2023200, "num_steps_sampled": 2023200, "update_time_ms": 2.582, "grad_time_ms": 374.928, "load_time_ms": 0.706}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 68013.2058904171, "iterations_since_restore": 487, "episode_reward_max": 4.000704049820636, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 213019, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757122850, "timesteps_since_restore": 584400, "episode_len_mean": 4.047138047138047, "episode_reward_mean": 3.9268816492979544, "pid": 2334309, "time_since_restore": 21293.66645002365, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-40-50", "timesteps_total": 2024400, "episode_reward_min": -7.025715863629898, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.167102575302124, "training_iteration": 1687, "info": {"default": {"policy_loss": -0.03620980679988861, "vf_explained_var": 0.9152404069900513, "vf_loss": 0.6176116466522217, "kl": 0.011512311175465584, "entropy": 0.27146047353744507, "cur_kl_coeff": 0.7609623074531555, "cur_lr": 4.999999873689376e-05, "total_loss": 0.5901623368263245}, "sample_time_ms": 47352.725, "num_steps_trained": 2024400, "num_steps_sampled": 2024400, "update_time_ms": 2.589, "grad_time_ms": 376.904, "load_time_ms": 0.708}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 68060.68223047256, "iterations_since_restore": 488, "episode_reward_max": 4.001753808199782, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 213317, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757122897, "timesteps_since_restore": 585600, "episode_len_mean": 4.033557046979865, "episode_reward_mean": 3.9490762059229048, "pid": 2334309, "time_since_restore": 21341.142790079117, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-41-37", "timesteps_total": 2025600, "episode_reward_min": -8.288171427430271, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.4763400554657, "training_iteration": 1688, "info": {"default": {"policy_loss": -0.02182014472782612, "vf_explained_var": 0.9091288447380066, "vf_loss": 0.6092776656150818, "kl": 0.011782416142523289, "entropy": 0.17362718284130096, "cur_kl_coeff": 0.7609623074531555, "cur_lr": 4.999999873689376e-05, "total_loss": 0.5964235067367554}, "sample_time_ms": 47395.069, "num_steps_trained": 2025600, "num_steps_sampled": 2025600, "update_time_ms": 2.573, "grad_time_ms": 376.07, "load_time_ms": 0.702}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 68108.17785787582, "iterations_since_restore": 489, "episode_reward_max": 4.0008221456299005, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 213614, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757122945, "timesteps_since_restore": 586800, "episode_len_mean": 4.040404040404041, "episode_reward_mean": 3.936449171456258, "pid": 2334309, "time_since_restore": 21388.638417482376, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-42-25", "timesteps_total": 2026800, "episode_reward_min": -4.07280732415496, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.49562740325928, "training_iteration": 1689, "info": {"default": {"policy_loss": -0.04332411661744118, "vf_explained_var": 0.9415964484214783, "vf_loss": 0.3431731164455414, "kl": 0.01850930228829384, "entropy": 0.2529851198196411, "cur_kl_coeff": 0.7609623074531555, "cur_lr": 4.999999873689376e-05, "total_loss": 0.3139338493347168}, "sample_time_ms": 47385.422, "num_steps_trained": 2026800, "num_steps_sampled": 2026800, "update_time_ms": 2.564, "grad_time_ms": 378.72, "load_time_ms": 0.719}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 68155.7382466793, "iterations_since_restore": 490, "episode_reward_max": 4.000939126803619, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 213906, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757122992, "timesteps_since_restore": 588000, "episode_len_mean": 4.109589041095891, "episode_reward_mean": 3.8325385096452074, "pid": 2334309, "time_since_restore": 21436.198806285858, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-43-12", "timesteps_total": 2028000, "episode_reward_min": -22.93780029865438, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.560388803482056, "training_iteration": 1690, "info": {"default": {"policy_loss": -0.0486358106136322, "vf_explained_var": 0.7044767737388611, "vf_loss": 4.045401096343994, "kl": 0.012474628165364265, "entropy": 0.4298541247844696, "cur_kl_coeff": 0.7609623074531555, "cur_lr": 4.999999873689376e-05, "total_loss": 4.006258010864258}, "sample_time_ms": 47352.529, "num_steps_trained": 2028000, "num_steps_sampled": 2028000, "update_time_ms": 2.61, "grad_time_ms": 377.537, "load_time_ms": 0.727}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 68203.47241306305, "iterations_since_restore": 491, "episode_reward_max": 4.000950221953154, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 214206, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757123040, "timesteps_since_restore": 589200, "episode_len_mean": 4.0, "episode_reward_mean": 4.000272271921052, "pid": 2334309, "time_since_restore": 21483.9329726696, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-44-00", "timesteps_total": 2029200, "episode_reward_min": 4.0001221360110835, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.734166383743286, "training_iteration": 1691, "info": {"default": {"policy_loss": -0.10764579474925995, "vf_explained_var": 0.999165415763855, "vf_loss": 0.0044347685761749744, "kl": 0.04528486356139183, "entropy": 0.2064126580953598, "cur_kl_coeff": 0.7609623074531555, "cur_lr": 4.999999873689376e-05, "total_loss": -0.06875096261501312}, "sample_time_ms": 47347.521, "num_steps_trained": 2029200, "num_steps_sampled": 2029200, "update_time_ms": 2.572, "grad_time_ms": 376.667, "load_time_ms": 0.727}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 68251.092263937, "iterations_since_restore": 492, "episode_reward_max": 4.000729056137406, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 214502, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757123088, "timesteps_since_restore": 590400, "episode_len_mean": 4.037162162162162, "episode_reward_mean": 3.9405925717939367, "pid": 2334309, "time_since_restore": 21531.55282354355, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-44-48", "timesteps_total": 2030400, "episode_reward_min": -4.1411835981634795, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.619850873947144, "training_iteration": 1692, "info": {"default": {"policy_loss": -0.02199246734380722, "vf_explained_var": 0.9376360774040222, "vf_loss": 0.3733440339565277, "kl": 0.0032350856345146894, "entropy": 0.3070768117904663, "cur_kl_coeff": 1.1414434909820557, "cur_lr": 4.999999873689376e-05, "total_loss": 0.3550442159175873}, "sample_time_ms": 47248.775, "num_steps_trained": 2030400, "num_steps_sampled": 2030400, "update_time_ms": 2.596, "grad_time_ms": 376.853, "load_time_ms": 0.744}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 68298.51832342148, "iterations_since_restore": 493, "episode_reward_max": 4.0015326998940175, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 214798, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757123135, "timesteps_since_restore": 591600, "episode_len_mean": 4.0574324324324325, "episode_reward_mean": 3.9060528799540117, "pid": 2334309, "time_since_restore": 21578.97888302803, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-45-35", "timesteps_total": 2031600, "episode_reward_min": -15.707246108812171, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.42605948448181, "training_iteration": 1693, "info": {"default": {"policy_loss": -0.03224121779203415, "vf_explained_var": 0.7950551509857178, "vf_loss": 1.673574447631836, "kl": 0.009576673619449139, "entropy": 0.26600897312164307, "cur_kl_coeff": 0.5707217454910278, "cur_lr": 4.999999873689376e-05, "total_loss": 1.6467992067337036}, "sample_time_ms": 47207.63, "num_steps_trained": 2031600, "num_steps_sampled": 2031600, "update_time_ms": 2.574, "grad_time_ms": 373.86, "load_time_ms": 0.732}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 68346.65993189812, "iterations_since_restore": 494, "episode_reward_max": 4.002166023841336, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 215089, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757123183, "timesteps_since_restore": 592800, "episode_len_mean": 4.109965635738831, "episode_reward_mean": 3.8280991452179354, "pid": 2334309, "time_since_restore": 21627.12049150467, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-46-23", "timesteps_total": 2032800, "episode_reward_min": -17.00585450901143, "num_metric_batches_dropped": 0, "time_this_iter_s": 48.141608476638794, "training_iteration": 1694, "info": {"default": {"policy_loss": -0.038488905876874924, "vf_explained_var": 0.72245192527771, "vf_loss": 2.53352689743042, "kl": 0.015985898673534393, "entropy": 0.42082512378692627, "cur_kl_coeff": 0.5707217454910278, "cur_lr": 4.999999873689376e-05, "total_loss": 2.5041615962982178}, "sample_time_ms": 47255.235, "num_steps_trained": 2032800, "num_steps_sampled": 2032800, "update_time_ms": 2.58, "grad_time_ms": 373.293, "load_time_ms": 0.713}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 68394.10221600533, "iterations_since_restore": 495, "episode_reward_max": 4.0008791384030875, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 215388, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757123231, "timesteps_since_restore": 594000, "episode_len_mean": 4.013377926421405, "episode_reward_mean": 3.9796552696289735, "pid": 2334309, "time_since_restore": 21674.562775611877, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-47-11", "timesteps_total": 2034000, "episode_reward_min": -2.1653942601271403, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.44228410720825, "training_iteration": 1695, "info": {"default": {"policy_loss": -0.0379614382982254, "vf_explained_var": 0.9681561589241028, "vf_loss": 0.17471268773078918, "kl": 0.011916950345039368, "entropy": 0.18024440109729767, "cur_kl_coeff": 0.5707217454910278, "cur_lr": 4.999999873689376e-05, "total_loss": 0.1435524970293045}, "sample_time_ms": 47189.086, "num_steps_trained": 2034000, "num_steps_sampled": 2034000, "update_time_ms": 2.598, "grad_time_ms": 373.543, "load_time_ms": 0.706}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 68441.279681921, "iterations_since_restore": 496, "episode_reward_max": 4.00112107294844, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 215684, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757123278, "timesteps_since_restore": 595200, "episode_len_mean": 4.074324324324325, "episode_reward_mean": 3.8805261598454477, "pid": 2334309, "time_since_restore": 21721.740241527557, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-47-58", "timesteps_total": 2035200, "episode_reward_min": -8.344819311822643, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.17746591567993, "training_iteration": 1696, "info": {"default": {"policy_loss": -0.03995102643966675, "vf_explained_var": 0.8221836090087891, "vf_loss": 1.3455027341842651, "kl": 0.0314469076693058, "entropy": 0.29175007343292236, "cur_kl_coeff": 0.5707217454910278, "cur_lr": 4.999999873689376e-05, "total_loss": 1.323499321937561}, "sample_time_ms": 47141.053, "num_steps_trained": 2035200, "num_steps_sampled": 2035200, "update_time_ms": 2.601, "grad_time_ms": 373.403, "load_time_ms": 0.707}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 68489.06025195122, "iterations_since_restore": 497, "episode_reward_max": 4.000703510548968, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 215974, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 290, "timestamp": 1757123326, "timesteps_since_restore": 596400, "episode_len_mean": 4.13448275862069, "episode_reward_mean": 3.7867751961641254, "pid": 2334309, "time_since_restore": 21769.52081155777, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-48-46", "timesteps_total": 2036400, "episode_reward_min": -32.91974319582454, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.7805700302124, "training_iteration": 1697, "info": {"default": {"policy_loss": -0.052718766033649445, "vf_explained_var": 0.699354887008667, "vf_loss": 5.610599994659424, "kl": 0.008113550953567028, "entropy": 0.447807252407074, "cur_kl_coeff": 0.8560826182365417, "cur_lr": 4.999999873689376e-05, "total_loss": 5.5648274421691895}, "sample_time_ms": 47201.3, "num_steps_trained": 2036400, "num_steps_sampled": 2036400, "update_time_ms": 2.601, "grad_time_ms": 374.472, "load_time_ms": 0.715}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 68536.27270317078, "iterations_since_restore": 498, "episode_reward_max": 4.000653019971629, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 216253, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 279, "timestamp": 1757123373, "timesteps_since_restore": 597600, "episode_len_mean": 4.304659498207886, "episode_reward_mean": 3.5181244479053326, "pid": 2334309, "time_since_restore": 21816.73326277733, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-49-33", "timesteps_total": 2037600, "episode_reward_min": -33.46417090594818, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.212451219558716, "training_iteration": 1698, "info": {"default": {"policy_loss": -0.06060459837317467, "vf_explained_var": 0.5912679433822632, "vf_loss": 11.835785865783691, "kl": 0.016293860971927643, "entropy": 0.6802012324333191, "cur_kl_coeff": 0.8560826182365417, "cur_lr": 4.999999873689376e-05, "total_loss": 11.789130210876465}, "sample_time_ms": 47176.279, "num_steps_trained": 2037600, "num_steps_sampled": 2037600, "update_time_ms": 2.589, "grad_time_ms": 373.122, "load_time_ms": 0.722}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 68584.10221815109, "iterations_since_restore": 499, "episode_reward_max": 4.0008653476824145, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "episodes_total": 216545, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757123421, "timesteps_since_restore": 598800, "episode_len_mean": 4.113013698630137, "episode_reward_mean": 3.8179687925988093, "pid": 2334309, "time_since_restore": 21864.562777757645, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "custom_metrics": {}, "date": "2025-09-06_03-50-21", "timesteps_total": 2038800, "episode_reward_min": -16.989657028976477, "num_metric_batches_dropped": 0, "time_this_iter_s": 47.82951498031616, "training_iteration": 1699, "info": {"default": {"policy_loss": -0.04044759273529053, "vf_explained_var": 0.7402487397193909, "vf_loss": 2.686117172241211, "kl": 0.01710132509469986, "entropy": 0.3507058620452881, "cur_kl_coeff": 0.8560826182365417, "cur_lr": 4.999999873689376e-05, "total_loss": 2.6603097915649414}, "sample_time_ms": 47210.328, "num_steps_trained": 2038800, "num_steps_sampled": 2038800, "update_time_ms": 2.559, "grad_time_ms": 372.537, "load_time_ms": 0.711}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "sgd_minibatch_size": 128, "lr_schedule": null, "simple_optimizer": false, "log_level": "INFO", "tf_session_args": {"allow_soft_placement": true, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "env_config": {"generalize": false, "run_valid": false}, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "lambda": 1.0, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_activation": "relu", "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "lstm_cell_size": 256, "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "input_evaluation": null, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "output_compress_columns": ["obs", "new_obs"], "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "num_envs_per_worker": 1, "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "entropy_coeff": 0.0, "num_cpus_per_worker": 1, "gamma": 0.99, "compress_observations": false, "num_sgd_iter": 30}}
+{"time_total_s": 68208.62707972527, "episode_len_mean": 4.043918918918919, "time_since_restore": 52.88883304595947, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757123510, "timesteps_since_restore": 1200, "episodes_total": 214202, "episode_reward_min": -16.319739836711562, "pid": 2334312, "episode_reward_max": 4.013636977485465, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_03-51-50", "timesteps_total": 2029200, "episode_reward_mean": 3.9316611998484694, "custom_metrics": {}, "time_this_iter_s": 52.88883304595947, "training_iteration": 1691, "info": {"default": {"policy_loss": -0.01976751536130905, "vf_explained_var": 0.8356878161430359, "vf_loss": 1.4915595054626465, "kl": 0.08364884555339813, "entropy": 0.2700338661670685, "total_loss": 1.5354456901550293, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.7609623074531555}, "sample_time_ms": 51729.945, "num_steps_trained": 2029200, "grad_time_ms": 655.563, "update_time_ms": 448.08, "num_steps_sampled": 2029200, "load_time_ms": 32.656}, "iterations_since_restore": 1, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 68256.18314623833, "episode_len_mean": 4.196491228070175, "time_since_restore": 100.444899559021, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 285, "timestamp": 1757123558, "timesteps_since_restore": 2400, "episodes_total": 214487, "episode_reward_min": -33.72771141734217, "pid": 2334312, "episode_reward_max": 4.0007689614727315, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_03-52-38", "timesteps_total": 2030400, "episode_reward_mean": 3.6828295717889343, "custom_metrics": {}, "time_this_iter_s": 47.55606651306152, "training_iteration": 1692, "info": {"default": {"policy_loss": -0.05349719896912575, "vf_explained_var": 0.6615421772003174, "vf_loss": 8.287290573120117, "kl": 0.02031330205500126, "entropy": 0.4474388360977173, "total_loss": 8.239888191223145, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.30000001192092896}, "sample_time_ms": 49452.812, "num_steps_trained": 2030400, "grad_time_ms": 513.129, "update_time_ms": 225.254, "num_steps_sampled": 2030400, "load_time_ms": 16.646}, "iterations_since_restore": 2, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 68304.23196196556, "episode_len_mean": 4.085034013605442, "time_since_restore": 148.49371528625488, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757123606, "timesteps_since_restore": 3600, "episodes_total": 214781, "episode_reward_min": -28.28389136335477, "pid": 2334312, "episode_reward_max": 4.000652039767128, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_03-53-26", "timesteps_total": 2031600, "episode_reward_mean": 3.863180479777458, "custom_metrics": {}, "time_this_iter_s": 48.04881572723389, "training_iteration": 1693, "info": {"default": {"policy_loss": -0.0454145222902298, "vf_explained_var": 0.7974056601524353, "vf_loss": 3.532468318939209, "kl": 0.014684359543025494, "entropy": 0.3199016749858856, "total_loss": 3.493661403656006, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.44999995827674866}, "sample_time_ms": 48862.439, "num_steps_trained": 2031600, "grad_time_ms": 461.237, "update_time_ms": 151.134, "num_steps_sampled": 2031600, "load_time_ms": 11.309}, "iterations_since_restore": 3, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 68352.68085694313, "episode_len_mean": 4.071186440677966, "time_since_restore": 196.94261026382446, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757123654, "timesteps_since_restore": 4800, "episodes_total": 215076, "episode_reward_min": -16.047648163311358, "pid": 2334312, "episode_reward_max": 4.000810453331701, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_03-54-14", "timesteps_total": 2032800, "episode_reward_mean": 3.890679037424283, "custom_metrics": {}, "time_this_iter_s": 48.44889497756958, "training_iteration": 1694, "info": {"default": {"policy_loss": -0.035575948655605316, "vf_explained_var": 0.7813090085983276, "vf_loss": 1.9224098920822144, "kl": 0.017528323456645012, "entropy": 0.347859263420105, "total_loss": 1.8947217464447021, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.44999995827674866}, "sample_time_ms": 48663.275, "num_steps_trained": 2032800, "grad_time_ms": 439.259, "update_time_ms": 113.995, "num_steps_sampled": 2032800, "load_time_ms": 8.641}, "iterations_since_restore": 4, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 68399.96209907532, "episode_len_mean": 4.051020408163265, "time_since_restore": 244.22385239601135, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757123701, "timesteps_since_restore": 6000, "episodes_total": 215370, "episode_reward_min": -12.285881111694742, "pid": 2334312, "episode_reward_max": 4.000910689788833, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_03-55-01", "timesteps_total": 2034000, "episode_reward_mean": 3.9175615045226637, "custom_metrics": {}, "time_this_iter_s": 47.28124213218689, "training_iteration": 1695, "info": {"default": {"policy_loss": -0.05035151541233063, "vf_explained_var": 0.7599982619285583, "vf_loss": 2.795254707336426, "kl": 0.02977473847568035, "entropy": 0.2946924865245819, "total_loss": 2.7583017349243164, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.44999995827674866}, "sample_time_ms": 48307.746, "num_steps_trained": 2034000, "grad_time_ms": 428.622, "update_time_ms": 91.766, "num_steps_sampled": 2034000, "load_time_ms": 7.059}, "iterations_since_restore": 5, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 68449.12316179276, "episode_len_mean": 4.136518771331058, "time_since_restore": 293.3849151134491, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 293, "timestamp": 1757123751, "timesteps_since_restore": 7200, "episodes_total": 215663, "episode_reward_min": -21.40534877331102, "pid": 2334312, "episode_reward_max": 4.0006373799121295, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_03-55-51", "timesteps_total": 2035200, "episode_reward_mean": 3.794529790102279, "custom_metrics": {}, "time_this_iter_s": 49.161062717437744, "training_iteration": 1696, "info": {"default": {"policy_loss": -0.048875462263822556, "vf_explained_var": 0.823077917098999, "vf_loss": 1.3661236763000488, "kl": 0.015901336446404457, "entropy": 0.32690441608428955, "total_loss": 1.32798171043396, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.675000011920929}, "sample_time_ms": 48384.135, "num_steps_trained": 2035200, "grad_time_ms": 421.423, "update_time_ms": 76.981, "num_steps_sampled": 2035200, "load_time_ms": 5.988}, "iterations_since_restore": 6, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 68496.32453656197, "episode_len_mean": 4.085324232081911, "time_since_restore": 340.5862898826599, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 293, "timestamp": 1757123798, "timesteps_since_restore": 8400, "episodes_total": 215956, "episode_reward_min": -30.708198236007846, "pid": 2334312, "episode_reward_max": 4.000664227404364, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_03-56-38", "timesteps_total": 2036400, "episode_reward_mean": 3.868082960724366, "custom_metrics": {}, "time_this_iter_s": 47.201374769210815, "training_iteration": 1697, "info": {"default": {"policy_loss": -0.03768566995859146, "vf_explained_var": 0.7555598020553589, "vf_loss": 4.608272075653076, "kl": 0.0073198419995605946, "entropy": 0.4281150698661804, "total_loss": 4.575527191162109, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.675000011920929}, "sample_time_ms": 48162.34, "num_steps_trained": 2036400, "grad_time_ms": 412.749, "update_time_ms": 66.346, "num_steps_sampled": 2036400, "load_time_ms": 5.23}, "iterations_since_restore": 7, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 68543.57415819168, "episode_len_mean": 4.0608108108108105, "time_since_restore": 387.8359115123749, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757123845, "timesteps_since_restore": 9600, "episodes_total": 216252, "episode_reward_min": -24.466161366385585, "pid": 2334312, "episode_reward_max": 4.00088350576627, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_03-57-25", "timesteps_total": 2037600, "episode_reward_mean": 3.90411231605013, "custom_metrics": {}, "time_this_iter_s": 47.249621629714966, "training_iteration": 1698, "info": {"default": {"policy_loss": -0.03660673275589943, "vf_explained_var": 0.7904979586601257, "vf_loss": 2.8744912147521973, "kl": 0.003402979811653495, "entropy": 0.2574968934059143, "total_loss": 2.8401811122894287, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.675000011920929}, "sample_time_ms": 48002.144, "num_steps_trained": 2037600, "grad_time_ms": 406.14, "update_time_ms": 58.343, "num_steps_sampled": 2037600, "load_time_ms": 4.662}, "iterations_since_restore": 8, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 68592.02543354034, "episode_len_mean": 4.159169550173011, "time_since_restore": 436.2871868610382, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 289, "timestamp": 1757123893, "timesteps_since_restore": 10800, "episodes_total": 216541, "episode_reward_min": -77.73849732152311, "pid": 2334312, "episode_reward_max": 4.000793896995995, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_03-58-13", "timesteps_total": 2038800, "episode_reward_mean": 3.7174507013265425, "custom_metrics": {}, "time_this_iter_s": 48.45127534866333, "training_iteration": 1699, "info": {"default": {"policy_loss": -0.05836937204003334, "vf_explained_var": 0.5709015727043152, "vf_loss": 44.27631759643555, "kl": 0.01999138481914997, "entropy": 0.42989832162857056, "total_loss": 44.22468948364258, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.3375000059604645}, "sample_time_ms": 48009.52, "num_steps_trained": 2038800, "grad_time_ms": 402.461, "update_time_ms": 52.122, "num_steps_sampled": 2038800, "load_time_ms": 4.216}, "iterations_since_restore": 9, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 68639.89805483818, "episode_len_mean": 4.074829931972789, "time_since_restore": 484.1598081588745, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757123941, "timesteps_since_restore": 12000, "episodes_total": 216835, "episode_reward_min": -31.58818855425259, "pid": 2334312, "episode_reward_max": 4.001816665154576, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_03-59-01", "timesteps_total": 2040000, "episode_reward_mean": 3.8792333841914304, "custom_metrics": {}, "time_this_iter_s": 47.872621297836304, "training_iteration": 1700, "info": {"default": {"policy_loss": -0.042594246566295624, "vf_explained_var": 0.7682064175605774, "vf_loss": 4.911655426025391, "kl": 0.01592601090669632, "entropy": 0.3297947943210602, "total_loss": 4.874434947967529, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.3375000059604645}, "sample_time_ms": 47958.886, "num_steps_trained": 2040000, "grad_time_ms": 398.183, "update_time_ms": 47.222, "num_steps_sampled": 2040000, "load_time_ms": 3.859}, "iterations_since_restore": 10, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 68687.10782432556, "episode_len_mean": 4.016722408026756, "time_since_restore": 531.3695776462555, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757123989, "timesteps_since_restore": 13200, "episodes_total": 217134, "episode_reward_min": -4.1022314888307125, "pid": 2334312, "episode_reward_max": 4.000811479354411, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_03-59-49", "timesteps_total": 2041200, "episode_reward_mean": 3.9731837162419845, "custom_metrics": {}, "time_this_iter_s": 47.20976948738098, "training_iteration": 1701, "info": {"default": {"policy_loss": -0.04076620563864708, "vf_explained_var": 0.9117520451545715, "vf_loss": 0.520469605922699, "kl": 0.017611069604754448, "entropy": 0.20933866500854492, "total_loss": 0.48564714193344116, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.3375000059604645}, "sample_time_ms": 47468.814, "num_steps_trained": 2041200, "grad_time_ms": 369.618, "update_time_ms": 2.738, "num_steps_sampled": 2041200, "load_time_ms": 0.659}, "iterations_since_restore": 11, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 68734.7637591362, "episode_len_mean": 4.226148409893993, "time_since_restore": 579.0255124568939, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 283, "timestamp": 1757124036, "timesteps_since_restore": 14400, "episodes_total": 217417, "episode_reward_min": -23.6384946464145, "pid": 2334312, "episode_reward_max": 4.000692175023174, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-00-36", "timesteps_total": 2042400, "episode_reward_mean": 3.6445533220776953, "custom_metrics": {}, "time_this_iter_s": 47.65593481063843, "training_iteration": 1702, "info": {"default": {"policy_loss": -0.06731971353292465, "vf_explained_var": 0.5844336748123169, "vf_loss": 7.612641334533691, "kl": 0.025853276252746582, "entropy": 0.47205331921577454, "total_loss": 7.554047584533691, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.3375000059604645}, "sample_time_ms": 47477.365, "num_steps_trained": 2042400, "grad_time_ms": 371.055, "update_time_ms": 2.784, "num_steps_sampled": 2042400, "load_time_ms": 0.672}, "iterations_since_restore": 12, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 68782.76371526718, "episode_len_mean": 4.050675675675675, "time_since_restore": 627.0254685878754, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757124084, "timesteps_since_restore": 15600, "episodes_total": 217713, "episode_reward_min": -6.455455186312829, "pid": 2334312, "episode_reward_max": 4.000583550496391, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-01-24", "timesteps_total": 2043600, "episode_reward_mean": 3.9238271387365633, "custom_metrics": {}, "time_this_iter_s": 47.999956130981445, "training_iteration": 1703, "info": {"default": {"policy_loss": -0.0441594235599041, "vf_explained_var": 0.8639953136444092, "vf_loss": 0.8237677216529846, "kl": 0.018624356016516685, "entropy": 0.1888452023267746, "total_loss": 0.7890368700027466, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.5062500238418579}, "sample_time_ms": 47470.584, "num_steps_trained": 2043600, "grad_time_ms": 372.996, "update_time_ms": 2.755, "num_steps_sampled": 2043600, "load_time_ms": 0.682}, "iterations_since_restore": 13, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 68830.81465268135, "episode_len_mean": 4.088737201365188, "time_since_restore": 675.0764060020447, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 293, "timestamp": 1757124132, "timesteps_since_restore": 16800, "episodes_total": 218006, "episode_reward_min": -29.040561439667236, "pid": 2334312, "episode_reward_max": 4.000853243505684, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-02-12", "timesteps_total": 2044800, "episode_reward_mean": 3.860952039796068, "custom_metrics": {}, "time_this_iter_s": 48.05093741416931, "training_iteration": 1704, "info": {"default": {"policy_loss": -0.040623970329761505, "vf_explained_var": 0.7149940133094788, "vf_loss": 4.77635383605957, "kl": 0.015615906566381454, "entropy": 0.4046437740325928, "total_loss": 4.743636131286621, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.5062500238418579}, "sample_time_ms": 47429.813, "num_steps_trained": 2044800, "grad_time_ms": 373.919, "update_time_ms": 2.809, "num_steps_sampled": 2044800, "load_time_ms": 0.683}, "iterations_since_restore": 14, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 68878.50288677216, "episode_len_mean": 4.162068965517242, "time_since_restore": 722.7646400928497, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 290, "timestamp": 1757124180, "timesteps_since_restore": 18000, "episodes_total": 218296, "episode_reward_min": -36.04190135832352, "pid": 2334312, "episode_reward_max": 4.000764504057841, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-03-00", "timesteps_total": 2046000, "episode_reward_mean": 3.7371941608639863, "custom_metrics": {}, "time_this_iter_s": 47.688234090805054, "training_iteration": 1705, "info": {"default": {"policy_loss": -0.04693165794014931, "vf_explained_var": 0.6943691968917847, "vf_loss": 7.280675411224365, "kl": 0.01599907875061035, "entropy": 0.4409075677394867, "total_loss": 7.241844177246094, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.5062500238418579}, "sample_time_ms": 47471.409, "num_steps_trained": 2046000, "grad_time_ms": 372.97, "update_time_ms": 2.801, "num_steps_sampled": 2046000, "load_time_ms": 0.677}, "iterations_since_restore": 15, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 68926.19435834885, "episode_len_mean": 4.0, "time_since_restore": 770.4561116695404, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757124228, "timesteps_since_restore": 19200, "episodes_total": 218596, "episode_reward_min": 4.000122590751224, "pid": 2334312, "episode_reward_max": 4.000601876436524, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-03-48", "timesteps_total": 2047200, "episode_reward_mean": 4.000275407532291, "custom_metrics": {}, "time_this_iter_s": 47.691471576690674, "training_iteration": 1706, "info": {"default": {"policy_loss": -0.08881863951683044, "vf_explained_var": 0.9967570900917053, "vf_loss": 0.01711004599928856, "kl": 0.05939750373363495, "entropy": 0.0916646346449852, "total_loss": -0.04163862019777298, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.5062500238418579}, "sample_time_ms": 47325.452, "num_steps_trained": 2047200, "grad_time_ms": 371.933, "update_time_ms": 2.756, "num_steps_sampled": 2047200, "load_time_ms": 0.687}, "iterations_since_restore": 16, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 68974.6370062828, "episode_len_mean": 4.068027210884353, "time_since_restore": 818.8987596035004, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757124276, "timesteps_since_restore": 20400, "episodes_total": 218890, "episode_reward_min": -8.979509224551787, "pid": 2334312, "episode_reward_max": 4.001732685707381, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-04-36", "timesteps_total": 2048400, "episode_reward_mean": 3.8971416153974214, "custom_metrics": {}, "time_this_iter_s": 48.44264793395996, "training_iteration": 1707, "info": {"default": {"policy_loss": -0.046793028712272644, "vf_explained_var": 0.802284836769104, "vf_loss": 1.5410535335540771, "kl": 0.010741397738456726, "entropy": 0.23722675442695618, "total_loss": 1.5024174451828003, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.7593749761581421}, "sample_time_ms": 47448.688, "num_steps_trained": 2048400, "grad_time_ms": 372.671, "update_time_ms": 2.822, "num_steps_sampled": 2048400, "load_time_ms": 0.688}, "iterations_since_restore": 17, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 69022.58563137054, "episode_len_mean": 4.102739726027397, "time_since_restore": 866.8473846912384, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757124324, "timesteps_since_restore": 21600, "episodes_total": 219182, "episode_reward_min": -13.598916894277927, "pid": 2334312, "episode_reward_max": 4.000960789080915, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-05-24", "timesteps_total": 2049600, "episode_reward_mean": 3.839782073545837, "custom_metrics": {}, "time_this_iter_s": 47.94862508773804, "training_iteration": 1708, "info": {"default": {"policy_loss": -0.04803233966231346, "vf_explained_var": 0.6590206027030945, "vf_loss": 3.188749313354492, "kl": 0.017928145825862885, "entropy": 0.27819857001304626, "total_loss": 3.1543309688568115, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.7593749761581421}, "sample_time_ms": 47516.208, "num_steps_trained": 2049600, "grad_time_ms": 374.902, "update_time_ms": 2.874, "num_steps_sampled": 2049600, "load_time_ms": 0.682}, "iterations_since_restore": 18, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 69070.47709798813, "episode_len_mean": 4.140893470790378, "time_since_restore": 914.7388513088226, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757124372, "timesteps_since_restore": 22800, "episodes_total": 219473, "episode_reward_min": -28.326453475738028, "pid": 2334312, "episode_reward_max": 4.001138293236507, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-06-12", "timesteps_total": 2050800, "episode_reward_mean": 3.777911331493357, "custom_metrics": {}, "time_this_iter_s": 47.89146661758423, "training_iteration": 1709, "info": {"default": {"policy_loss": -0.05990751460194588, "vf_explained_var": 0.831792414188385, "vf_loss": 1.7126344442367554, "kl": 0.013762550428509712, "entropy": 0.24926365911960602, "total_loss": 1.663177728652954, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.7593749761581421}, "sample_time_ms": 47459.515, "num_steps_trained": 2050800, "grad_time_ms": 375.664, "update_time_ms": 2.882, "num_steps_sampled": 2050800, "load_time_ms": 0.706}, "iterations_since_restore": 19, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 69117.80630326271, "episode_len_mean": 4.0, "time_since_restore": 962.0680565834045, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757124419, "timesteps_since_restore": 24000, "episodes_total": 219773, "episode_reward_min": 4.000143431112445, "pid": 2334312, "episode_reward_max": 4.000754289725209, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-06-59", "timesteps_total": 2052000, "episode_reward_mean": 4.000279500561217, "custom_metrics": {}, "time_this_iter_s": 47.32920527458191, "training_iteration": 1710, "info": {"default": {"policy_loss": -0.10804803669452667, "vf_explained_var": 0.9986591339111328, "vf_loss": 0.00724650826305151, "kl": 0.03302905708551407, "entropy": 0.12897901237010956, "total_loss": -0.07572010159492493, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.7593749761581421}, "sample_time_ms": 47403.805, "num_steps_trained": 2052000, "grad_time_ms": 377.098, "update_time_ms": 2.811, "num_steps_sampled": 2052000, "load_time_ms": 0.71}, "iterations_since_restore": 20, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 69165.25835466385, "episode_len_mean": 4.043918918918919, "time_since_restore": 1009.5201079845428, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757124467, "timesteps_since_restore": 25200, "episodes_total": 220069, "episode_reward_min": -16.437434998925195, "pid": 2334312, "episode_reward_max": 4.000933307756258, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-07-47", "timesteps_total": 2053200, "episode_reward_mean": 3.9312469015891263, "custom_metrics": {}, "time_this_iter_s": 47.452051401138306, "training_iteration": 1711, "info": {"default": {"policy_loss": -0.032065264880657196, "vf_explained_var": 0.8873894810676575, "vf_loss": 1.1418676376342773, "kl": 0.020380454137921333, "entropy": 0.2348107248544693, "total_loss": 1.1330170631408691, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.139062523841858}, "sample_time_ms": 47426.499, "num_steps_trained": 2053200, "grad_time_ms": 378.773, "update_time_ms": 2.757, "num_steps_sampled": 2053200, "load_time_ms": 0.708}, "iterations_since_restore": 21, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 69212.47570848465, "episode_len_mean": 4.08843537414966, "time_since_restore": 1056.7374618053436, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757124514, "timesteps_since_restore": 26400, "episodes_total": 220363, "episode_reward_min": -22.47684756529806, "pid": 2334312, "episode_reward_max": 4.000792186707737, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-08-34", "timesteps_total": 2054400, "episode_reward_mean": 3.859987633009913, "custom_metrics": {}, "time_this_iter_s": 47.21735382080078, "training_iteration": 1712, "info": {"default": {"policy_loss": -0.04018624499440193, "vf_explained_var": 0.7888742089271545, "vf_loss": 3.1000475883483887, "kl": 0.016939649358391762, "entropy": 0.34157875180244446, "total_loss": 3.0888044834136963, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.708593726158142}, "sample_time_ms": 47381.968, "num_steps_trained": 2054400, "grad_time_ms": 379.456, "update_time_ms": 2.713, "num_steps_sampled": 2054400, "load_time_ms": 0.707}, "iterations_since_restore": 22, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 69260.60576581955, "episode_len_mean": 4.1522491349480966, "time_since_restore": 1104.8675191402435, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 289, "timestamp": 1757124562, "timesteps_since_restore": 27600, "episodes_total": 220652, "episode_reward_min": -23.086616936359675, "pid": 2334312, "episode_reward_max": 4.001110564520908, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-09-22", "timesteps_total": 2055600, "episode_reward_mean": 3.755122099336344, "custom_metrics": {}, "time_this_iter_s": 48.1300573348999, "training_iteration": 1713, "info": {"default": {"policy_loss": -0.040142521262168884, "vf_explained_var": 0.6702030897140503, "vf_loss": 5.122951507568359, "kl": 0.011893532238900661, "entropy": 0.5188642144203186, "total_loss": 5.103130340576172, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.708593726158142}, "sample_time_ms": 47393.793, "num_steps_trained": 2055600, "grad_time_ms": 380.582, "update_time_ms": 2.699, "num_steps_sampled": 2055600, "load_time_ms": 0.708}, "iterations_since_restore": 23, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 69308.61630916595, "episode_len_mean": 4.08843537414966, "time_since_restore": 1152.8780624866486, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757124610, "timesteps_since_restore": 28800, "episodes_total": 220946, "episode_reward_min": -16.714188025445026, "pid": 2334312, "episode_reward_max": 4.001395350954591, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-10-10", "timesteps_total": 2056800, "episode_reward_mean": 3.862183034642512, "custom_metrics": {}, "time_this_iter_s": 48.01054334640503, "training_iteration": 1714, "info": {"default": {"policy_loss": -0.03451161086559296, "vf_explained_var": 0.7287988066673279, "vf_loss": 3.0146665573120117, "kl": 0.00741288997232914, "entropy": 0.3680577874183655, "total_loss": 2.9928205013275146, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.708593726158142}, "sample_time_ms": 47389.421, "num_steps_trained": 2056800, "grad_time_ms": 380.965, "update_time_ms": 2.672, "num_steps_sampled": 2056800, "load_time_ms": 0.719}, "iterations_since_restore": 24, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 69357.09123754501, "episode_len_mean": 4.054237288135593, "time_since_restore": 1201.3529908657074, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757124659, "timesteps_since_restore": 30000, "episodes_total": 221241, "episode_reward_min": -10.89939547477228, "pid": 2334312, "episode_reward_max": 4.0006063185028236, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-10-59", "timesteps_total": 2058000, "episode_reward_mean": 3.9195390656250217, "custom_metrics": {}, "time_this_iter_s": 48.47492837905884, "training_iteration": 1715, "info": {"default": {"policy_loss": -0.034075573086738586, "vf_explained_var": 0.8691232204437256, "vf_loss": 1.0541388988494873, "kl": 0.005620323121547699, "entropy": 0.3210165202617645, "total_loss": 1.0296661853790283, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.708593726158142}, "sample_time_ms": 47469.619, "num_steps_trained": 2058000, "grad_time_ms": 379.518, "update_time_ms": 2.647, "num_steps_sampled": 2058000, "load_time_ms": 0.718}, "iterations_since_restore": 25, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 69404.48688554764, "episode_len_mean": 4.113013698630137, "time_since_restore": 1248.748638868332, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757124706, "timesteps_since_restore": 31200, "episodes_total": 221533, "episode_reward_min": -12.404241560444206, "pid": 2334312, "episode_reward_max": 4.0012012754305335, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-11-46", "timesteps_total": 2059200, "episode_reward_mean": 3.8300854147934658, "custom_metrics": {}, "time_this_iter_s": 47.39564800262451, "training_iteration": 1716, "info": {"default": {"policy_loss": -0.047233302146196365, "vf_explained_var": 0.7294974327087402, "vf_loss": 2.294532060623169, "kl": 0.00611311849206686, "entropy": 0.294841468334198, "total_loss": 2.2577435970306396, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.708593726158142}, "sample_time_ms": 47439.432, "num_steps_trained": 2059200, "grad_time_ms": 380.123, "update_time_ms": 2.69, "num_steps_sampled": 2059200, "load_time_ms": 0.713}, "iterations_since_restore": 26, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 69452.62549567223, "episode_len_mean": 4.116838487972508, "time_since_restore": 1296.88724899292, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757124754, "timesteps_since_restore": 32400, "episodes_total": 221824, "episode_reward_min": -19.3569240853143, "pid": 2334312, "episode_reward_max": 4.000829622651921, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-12-34", "timesteps_total": 2060400, "episode_reward_mean": 3.813312885095594, "custom_metrics": {}, "time_this_iter_s": 48.13861012458801, "training_iteration": 1717, "info": {"default": {"policy_loss": -0.040549635887145996, "vf_explained_var": 0.7199145555496216, "vf_loss": 3.246302366256714, "kl": 0.017651565372943878, "entropy": 0.3744983971118927, "total_loss": 3.235912322998047, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.708593726158142}, "sample_time_ms": 47407.729, "num_steps_trained": 2060400, "grad_time_ms": 381.49, "update_time_ms": 2.626, "num_steps_sampled": 2060400, "load_time_ms": 0.719}, "iterations_since_restore": 27, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 69500.44656801224, "episode_len_mean": 4.26241134751773, "time_since_restore": 1344.7083213329315, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 282, "timestamp": 1757124802, "timesteps_since_restore": 33600, "episodes_total": 222106, "episode_reward_min": -36.6001617957833, "pid": 2334312, "episode_reward_max": 4.001135884866991, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-13-22", "timesteps_total": 2061600, "episode_reward_mean": 3.5849616257064176, "custom_metrics": {}, "time_this_iter_s": 47.8210723400116, "training_iteration": 1718, "info": {"default": {"policy_loss": -0.05929523706436157, "vf_explained_var": 0.6271881461143494, "vf_loss": 10.815019607543945, "kl": 0.008594582788646221, "entropy": 0.6189095377922058, "total_loss": 10.770407676696777, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.708593726158142}, "sample_time_ms": 47394.945, "num_steps_trained": 2061600, "grad_time_ms": 381.602, "update_time_ms": 2.615, "num_steps_sampled": 2061600, "load_time_ms": 0.73}, "iterations_since_restore": 28, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 69548.26953458786, "episode_len_mean": 4.0, "time_since_restore": 1392.531287908554, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757124850, "timesteps_since_restore": 34800, "episodes_total": 222406, "episode_reward_min": 4.000133246230893, "pid": 2334312, "episode_reward_max": 4.000857885443186, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-14-10", "timesteps_total": 2062800, "episode_reward_mean": 4.000298356997025, "custom_metrics": {}, "time_this_iter_s": 47.82296657562256, "training_iteration": 1719, "info": {"default": {"policy_loss": -0.07950045168399811, "vf_explained_var": 0.996922492980957, "vf_loss": 0.015606858767569065, "kl": 0.017824428156018257, "entropy": 0.13114187121391296, "total_loss": -0.033438894897699356, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.708593726158142}, "sample_time_ms": 47387.104, "num_steps_trained": 2062800, "grad_time_ms": 382.514, "update_time_ms": 2.634, "num_steps_sampled": 2062800, "load_time_ms": 0.714}, "iterations_since_restore": 29, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 69595.64261651039, "episode_len_mean": 4.2027972027972025, "time_since_restore": 1439.9043698310852, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 286, "timestamp": 1757124897, "timesteps_since_restore": 36000, "episodes_total": 222692, "episode_reward_min": -31.356648452189916, "pid": 2334312, "episode_reward_max": 4.0009720939750775, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-14-57", "timesteps_total": 2064000, "episode_reward_mean": 3.677310061180427, "custom_metrics": {}, "time_this_iter_s": 47.37308192253113, "training_iteration": 1720, "info": {"default": {"policy_loss": -0.055772680789232254, "vf_explained_var": 0.6429483890533447, "vf_loss": 7.930283546447754, "kl": 0.006241822615265846, "entropy": 0.6115720868110657, "total_loss": 7.885175704956055, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.708593726158142}, "sample_time_ms": 47391.092, "num_steps_trained": 2064000, "grad_time_ms": 382.911, "update_time_ms": 2.66, "num_steps_sampled": 2064000, "load_time_ms": 0.709}, "iterations_since_restore": 30, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 69643.33310341835, "episode_len_mean": 4.098976109215017, "time_since_restore": 1487.5948567390442, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 293, "timestamp": 1757124945, "timesteps_since_restore": 37200, "episodes_total": 222985, "episode_reward_min": -30.240217091524976, "pid": 2334312, "episode_reward_max": 4.00130568892482, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-15-45", "timesteps_total": 2065200, "episode_reward_mean": 3.8452490381309827, "custom_metrics": {}, "time_this_iter_s": 47.690486907958984, "training_iteration": 1721, "info": {"default": {"policy_loss": -0.04510076344013214, "vf_explained_var": 0.8403151631355286, "vf_loss": 2.6968061923980713, "kl": 0.004562250804156065, "entropy": 0.43842971324920654, "total_loss": 2.6595001220703125, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.708593726158142}, "sample_time_ms": 47415.237, "num_steps_trained": 2065200, "grad_time_ms": 382.639, "update_time_ms": 2.618, "num_steps_sampled": 2065200, "load_time_ms": 0.711}, "iterations_since_restore": 31, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 69691.27260279655, "episode_len_mean": 4.085034013605442, "time_since_restore": 1535.5343561172485, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757124993, "timesteps_since_restore": 38400, "episodes_total": 223279, "episode_reward_min": -10.471288536917228, "pid": 2334312, "episode_reward_max": 4.000922746752035, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-16-33", "timesteps_total": 2066400, "episode_reward_mean": 3.864979653854215, "custom_metrics": {}, "time_this_iter_s": 47.939499378204346, "training_iteration": 1722, "info": {"default": {"policy_loss": -0.04208557307720184, "vf_explained_var": 0.7707864046096802, "vf_loss": 1.838794469833374, "kl": 0.011088281869888306, "entropy": 0.2850659191608429, "total_loss": 1.80618155002594, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.854296863079071}, "sample_time_ms": 47490.05, "num_steps_trained": 2066400, "grad_time_ms": 379.963, "update_time_ms": 2.629, "num_steps_sampled": 2066400, "load_time_ms": 0.702}, "iterations_since_restore": 32, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 69738.76036596298, "episode_len_mean": 4.092150170648464, "time_since_restore": 1583.0221192836761, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 293, "timestamp": 1757125041, "timesteps_since_restore": 39600, "episodes_total": 223572, "episode_reward_min": -20.702556324228947, "pid": 2334312, "episode_reward_max": 4.0008524771077045, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-17-21", "timesteps_total": 2067600, "episode_reward_mean": 3.853724156310165, "custom_metrics": {}, "time_this_iter_s": 47.48776316642761, "training_iteration": 1723, "info": {"default": {"policy_loss": -0.022190723568201065, "vf_explained_var": 0.7484696507453918, "vf_loss": 2.924628257751465, "kl": 0.06678558886051178, "entropy": 0.3885652422904968, "total_loss": 2.9594922065734863, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.854296863079071}, "sample_time_ms": 47427.612, "num_steps_trained": 2067600, "grad_time_ms": 378.119, "update_time_ms": 2.698, "num_steps_sampled": 2067600, "load_time_ms": 0.694}, "iterations_since_restore": 33, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 69786.23291373253, "episode_len_mean": 4.016722408026756, "time_since_restore": 1630.4946670532227, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757125088, "timesteps_since_restore": 40800, "episodes_total": 223871, "episode_reward_min": -4.1348681339504125, "pid": 2334312, "episode_reward_max": 4.000951142728287, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-18-08", "timesteps_total": 2068800, "episode_reward_mean": 3.9730927815069776, "custom_metrics": {}, "time_this_iter_s": 47.47254776954651, "training_iteration": 1724, "info": {"default": {"policy_loss": -0.0300121046602726, "vf_explained_var": 0.9565584659576416, "vf_loss": 0.28607624769210815, "kl": 0.023803764954209328, "entropy": 0.2359951138496399, "total_loss": 0.2865673303604126, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.2814452648162842}, "sample_time_ms": 47375.611, "num_steps_trained": 2068800, "grad_time_ms": 376.353, "update_time_ms": 2.695, "num_steps_sampled": 2068800, "load_time_ms": 0.69}, "iterations_since_restore": 34, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 69833.6526684761, "episode_len_mean": 4.074829931972789, "time_since_restore": 1677.9144217967987, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757125136, "timesteps_since_restore": 42000, "episodes_total": 224165, "episode_reward_min": -16.61454087823399, "pid": 2334312, "episode_reward_max": 4.001462786341726, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-18-56", "timesteps_total": 2070000, "episode_reward_mean": 3.8819641045297955, "custom_metrics": {}, "time_this_iter_s": 47.41975474357605, "training_iteration": 1725, "info": {"default": {"policy_loss": -0.03983699530363083, "vf_explained_var": 0.7716145515441895, "vf_loss": 1.9892237186431885, "kl": 0.025218283757567406, "entropy": 0.3598597049713135, "total_loss": 1.9978599548339844, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.9221681356430054}, "sample_time_ms": 47267.906, "num_steps_trained": 2070000, "grad_time_ms": 378.533, "update_time_ms": 2.697, "num_steps_sampled": 2070000, "load_time_ms": 0.709}, "iterations_since_restore": 35, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 69881.551227808, "episode_len_mean": 4.081632653061225, "time_since_restore": 1725.8129811286926, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757125184, "timesteps_since_restore": 43200, "episodes_total": 224459, "episode_reward_min": -19.980062000304223, "pid": 2334312, "episode_reward_max": 4.0009983951130845, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-19-44", "timesteps_total": 2071200, "episode_reward_mean": 3.8730466143703506, "custom_metrics": {}, "time_this_iter_s": 47.89855933189392, "training_iteration": 1726, "info": {"default": {"policy_loss": -0.03536481410264969, "vf_explained_var": 0.728950560092926, "vf_loss": 2.9133458137512207, "kl": 0.006842901464551687, "entropy": 0.33293479681015015, "total_loss": 2.8977105617523193, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.883251905441284}, "sample_time_ms": 47318.023, "num_steps_trained": 2071200, "grad_time_ms": 378.72, "update_time_ms": 2.65, "num_steps_sampled": 2071200, "load_time_ms": 0.705}, "iterations_since_restore": 36, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 69928.81177210808, "episode_len_mean": 4.293906810035843, "time_since_restore": 1773.073525428772, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 279, "timestamp": 1757125231, "timesteps_since_restore": 44400, "episodes_total": 224738, "episode_reward_min": -23.215451088311674, "pid": 2334312, "episode_reward_max": 4.000892453319155, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-20-31", "timesteps_total": 2072400, "episode_reward_mean": 3.5363246739366234, "custom_metrics": {}, "time_this_iter_s": 47.260544300079346, "training_iteration": 1727, "info": {"default": {"policy_loss": -0.059438057243824005, "vf_explained_var": 0.5705201625823975, "vf_loss": 7.989442825317383, "kl": 0.00724494643509388, "entropy": 0.8282859325408936, "total_loss": 7.950893878936768, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.883251905441284}, "sample_time_ms": 47230.779, "num_steps_trained": 2072400, "grad_time_ms": 378.223, "update_time_ms": 2.644, "num_steps_sampled": 2072400, "load_time_ms": 0.698}, "iterations_since_restore": 37, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 69975.89767479897, "episode_len_mean": 4.116438356164384, "time_since_restore": 1820.1594281196594, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757125278, "timesteps_since_restore": 45600, "episodes_total": 225030, "episode_reward_min": -18.416924716619278, "pid": 2334312, "episode_reward_max": 4.000654090524681, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-21-18", "timesteps_total": 2073600, "episode_reward_mean": 3.8112247772551573, "custom_metrics": {}, "time_this_iter_s": 47.08590269088745, "training_iteration": 1728, "info": {"default": {"policy_loss": -0.03799779340624809, "vf_explained_var": 0.7414836883544922, "vf_loss": 2.9086883068084717, "kl": 0.005881994031369686, "entropy": 0.3573509752750397, "total_loss": 2.8876500129699707, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.883251905441284}, "sample_time_ms": 47156.094, "num_steps_trained": 2073600, "grad_time_ms": 379.36, "update_time_ms": 2.654, "num_steps_sampled": 2073600, "load_time_ms": 0.701}, "iterations_since_restore": 38, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 70023.46739721298, "episode_len_mean": 4.109589041095891, "time_since_restore": 1867.7291505336761, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757125325, "timesteps_since_restore": 46800, "episodes_total": 225322, "episode_reward_min": -17.785574404656433, "pid": 2334312, "episode_reward_max": 4.00169877515876, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-22-05", "timesteps_total": 2074800, "episode_reward_mean": 3.8246294482159318, "custom_metrics": {}, "time_this_iter_s": 47.569722414016724, "training_iteration": 1729, "info": {"default": {"policy_loss": -0.041660990566015244, "vf_explained_var": 0.7295663952827454, "vf_loss": 2.5910232067108154, "kl": 0.009715433232486248, "entropy": 0.3887116611003876, "total_loss": 2.577374219894409, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.883251905441284}, "sample_time_ms": 47131.372, "num_steps_trained": 2074800, "grad_time_ms": 378.82, "update_time_ms": 2.63, "num_steps_sampled": 2074800, "load_time_ms": 0.697}, "iterations_since_restore": 39, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 70071.59493851662, "episode_len_mean": 4.074829931972789, "time_since_restore": 1915.8566918373108, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757125374, "timesteps_since_restore": 48000, "episodes_total": 225616, "episode_reward_min": -22.46540270152201, "pid": 2334312, "episode_reward_max": 4.001341156396228, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-22-54", "timesteps_total": 2076000, "episode_reward_mean": 3.8897242407350223, "custom_metrics": {}, "time_this_iter_s": 48.127541303634644, "training_iteration": 1730, "info": {"default": {"policy_loss": -0.03569722920656204, "vf_explained_var": 0.824450671672821, "vf_loss": 2.678013801574707, "kl": 0.005497196689248085, "entropy": 0.41804054379463196, "total_loss": 2.6581666469573975, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.883251905441284}, "sample_time_ms": 47208.639, "num_steps_trained": 2076000, "grad_time_ms": 376.96, "update_time_ms": 2.641, "num_steps_sampled": 2076000, "load_time_ms": 0.715}, "iterations_since_restore": 40, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 70119.54161024094, "episode_len_mean": 4.030201342281879, "time_since_restore": 1963.8033635616302, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757125422, "timesteps_since_restore": 49200, "episodes_total": 225914, "episode_reward_min": -4.2839179411020645, "pid": 2334312, "episode_reward_max": 4.000764114769119, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-23-42", "timesteps_total": 2077200, "episode_reward_mean": 3.952157260852605, "custom_metrics": {}, "time_this_iter_s": 47.94667172431946, "training_iteration": 1731, "info": {"default": {"policy_loss": -0.03592797741293907, "vf_explained_var": 0.961908757686615, "vf_loss": 0.23493464291095734, "kl": 0.004324512556195259, "entropy": 0.24925678968429565, "total_loss": 0.21147531270980835, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.883251905441284}, "sample_time_ms": 47234.276, "num_steps_trained": 2077200, "grad_time_ms": 376.821, "update_time_ms": 2.731, "num_steps_sampled": 2077200, "load_time_ms": 0.722}, "iterations_since_restore": 41, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 70167.82240700722, "episode_len_mean": 4.085324232081911, "time_since_restore": 2012.0841603279114, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 293, "timestamp": 1757125470, "timesteps_since_restore": 50400, "episodes_total": 226207, "episode_reward_min": -17.14719816965842, "pid": 2334312, "episode_reward_max": 4.000942024719513, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-24-30", "timesteps_total": 2078400, "episode_reward_mean": 3.864802976211962, "custom_metrics": {}, "time_this_iter_s": 48.28079676628113, "training_iteration": 1732, "info": {"default": {"policy_loss": -0.038659125566482544, "vf_explained_var": 0.7859401702880859, "vf_loss": 2.8101963996887207, "kl": 0.006108362227678299, "entropy": 0.3827553987503052, "total_loss": 2.7803430557250977, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.441625952720642}, "sample_time_ms": 47267.96, "num_steps_trained": 2078400, "grad_time_ms": 377.35, "update_time_ms": 2.727, "num_steps_sampled": 2078400, "load_time_ms": 0.719}, "iterations_since_restore": 42, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 70215.54644274712, "episode_len_mean": 4.112627986348123, "time_since_restore": 2059.80819606781, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 293, "timestamp": 1757125518, "timesteps_since_restore": 51600, "episodes_total": 226500, "episode_reward_min": -23.45821404235818, "pid": 2334312, "episode_reward_max": 4.001235025146599, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-25-18", "timesteps_total": 2079600, "episode_reward_mean": 3.824699295114852, "custom_metrics": {}, "time_this_iter_s": 47.72403573989868, "training_iteration": 1733, "info": {"default": {"policy_loss": -0.04783041402697563, "vf_explained_var": 0.7221481800079346, "vf_loss": 4.0114569664001465, "kl": 0.011892382055521011, "entropy": 0.4170433282852173, "total_loss": 3.980771064758301, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.441625952720642}, "sample_time_ms": 47292.661, "num_steps_trained": 2079600, "grad_time_ms": 376.392, "update_time_ms": 2.689, "num_steps_sampled": 2079600, "load_time_ms": 0.721}, "iterations_since_restore": 43, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 70263.46559095383, "episode_len_mean": 4.326086956521739, "time_since_restore": 2107.727344274521, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 276, "timestamp": 1757125566, "timesteps_since_restore": 52800, "episodes_total": 226776, "episode_reward_min": -33.80322255586933, "pid": 2334312, "episode_reward_max": 4.001609746600675, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-26-06", "timesteps_total": 2080800, "episode_reward_mean": 3.4807635817531115, "custom_metrics": {}, "time_this_iter_s": 47.919148206710815, "training_iteration": 1734, "info": {"default": {"policy_loss": -0.060780007392168045, "vf_explained_var": 0.5316893458366394, "vf_loss": 16.62029266357422, "kl": 0.010779578238725662, "entropy": 0.7783210277557373, "total_loss": 16.57505226135254, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.441625952720642}, "sample_time_ms": 47338.465, "num_steps_trained": 2080800, "grad_time_ms": 375.282, "update_time_ms": 2.673, "num_steps_sampled": 2080800, "load_time_ms": 0.717}, "iterations_since_restore": 44, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 70311.26123952866, "episode_len_mean": 4.067796610169491, "time_since_restore": 2155.52299284935, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757125613, "timesteps_since_restore": 54000, "episodes_total": 227071, "episode_reward_min": -25.247465374732343, "pid": 2334312, "episode_reward_max": 4.0005654124998795, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-26-53", "timesteps_total": 2082000, "episode_reward_mean": 3.8876289927040086, "custom_metrics": {}, "time_this_iter_s": 47.7956485748291, "training_iteration": 1735, "info": {"default": {"policy_loss": -0.042568642646074295, "vf_explained_var": 0.7972995042800903, "vf_loss": 3.2947824001312256, "kl": 0.028123266994953156, "entropy": 0.3533841371536255, "total_loss": 3.292757034301758, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.441625952720642}, "sample_time_ms": 47378.32, "num_steps_trained": 2082000, "grad_time_ms": 373.038, "update_time_ms": 2.646, "num_steps_sampled": 2082000, "load_time_ms": 0.697}, "iterations_since_restore": 45, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 70358.88074398041, "episode_len_mean": 4.0675675675675675, "time_since_restore": 2203.1424973011017, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757125661, "timesteps_since_restore": 55200, "episodes_total": 227367, "episode_reward_min": -29.312983887443586, "pid": 2334312, "episode_reward_max": 4.000866382092321, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-27-41", "timesteps_total": 2083200, "episode_reward_mean": 3.887742006611619, "custom_metrics": {}, "time_this_iter_s": 47.61950445175171, "training_iteration": 1736, "info": {"default": {"policy_loss": -0.037556443363428116, "vf_explained_var": 0.946890115737915, "vf_loss": 0.7121968269348145, "kl": 0.002865071874111891, "entropy": 0.346145361661911, "total_loss": 0.680836021900177, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.1624388694763184}, "sample_time_ms": 47352.028, "num_steps_trained": 2083200, "grad_time_ms": 371.446, "update_time_ms": 2.671, "num_steps_sampled": 2083200, "load_time_ms": 0.715}, "iterations_since_restore": 46, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 70406.5404689312, "episode_len_mean": 4.170138888888889, "time_since_restore": 2250.802222251892, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 288, "timestamp": 1757125709, "timesteps_since_restore": 56400, "episodes_total": 227655, "episode_reward_min": -79.57202684744307, "pid": 2334312, "episode_reward_max": 4.000760035889676, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-28-29", "timesteps_total": 2084400, "episode_reward_mean": 3.6931554878049706, "custom_metrics": {}, "time_this_iter_s": 47.659724950790405, "training_iteration": 1737, "info": {"default": {"policy_loss": -0.06353461742401123, "vf_explained_var": 0.6036939024925232, "vf_loss": 38.75788116455078, "kl": 0.008221256546676159, "entropy": 0.6057984232902527, "total_loss": 38.7032356262207, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0812194347381592}, "sample_time_ms": 47393.292, "num_steps_trained": 2084400, "grad_time_ms": 370.103, "update_time_ms": 2.682, "num_steps_sampled": 2084400, "load_time_ms": 0.717}, "iterations_since_restore": 47, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 70453.9908812046, "episode_len_mean": 4.016778523489933, "time_since_restore": 2298.252634525299, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757125756, "timesteps_since_restore": 57600, "episodes_total": 227953, "episode_reward_min": -4.151473263482266, "pid": 2334312, "episode_reward_max": 4.001443122829888, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-29-16", "timesteps_total": 2085600, "episode_reward_mean": 3.972946632948664, "custom_metrics": {}, "time_this_iter_s": 47.45041227340698, "training_iteration": 1738, "info": {"default": {"policy_loss": -0.03313104435801506, "vf_explained_var": 0.8297264575958252, "vf_loss": 0.97000652551651, "kl": 0.012348800897598267, "entropy": 0.23704423010349274, "total_loss": 0.9502270817756653, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0812194347381592}, "sample_time_ms": 47431.087, "num_steps_trained": 2085600, "grad_time_ms": 368.805, "update_time_ms": 2.624, "num_steps_sampled": 2085600, "load_time_ms": 0.712}, "iterations_since_restore": 48, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 70504.07129406929, "episode_len_mean": 4.191637630662021, "time_since_restore": 2348.333047389984, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 287, "timestamp": 1757125806, "timesteps_since_restore": 58800, "episodes_total": 228240, "episode_reward_min": -22.08595778333774, "pid": 2334312, "episode_reward_max": 4.0007027540451645, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-30-06", "timesteps_total": 2086800, "episode_reward_mean": 3.704488150337362, "custom_metrics": {}, "time_this_iter_s": 50.08041286468506, "training_iteration": 1739, "info": {"default": {"policy_loss": -0.05540987476706505, "vf_explained_var": 0.5332911610603333, "vf_loss": 6.582999229431152, "kl": 0.011582231149077415, "entropy": 0.5404722094535828, "total_loss": 6.540112018585205, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0812194347381592}, "sample_time_ms": 47684.775, "num_steps_trained": 2086800, "grad_time_ms": 366.243, "update_time_ms": 2.633, "num_steps_sampled": 2086800, "load_time_ms": 0.705}, "iterations_since_restore": 49, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 70551.74402689934, "episode_len_mean": 4.040404040404041, "time_since_restore": 2396.0057802200317, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757125854, "timesteps_since_restore": 60000, "episodes_total": 228537, "episode_reward_min": -8.352905086892033, "pid": 2334312, "episode_reward_max": 4.001090362553443, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-30-54", "timesteps_total": 2088000, "episode_reward_mean": 3.9380850229734374, "custom_metrics": {}, "time_this_iter_s": 47.67273283004761, "training_iteration": 1740, "info": {"default": {"policy_loss": -0.033796995878219604, "vf_explained_var": 0.8527478575706482, "vf_loss": 0.9441398978233337, "kl": 0.0038092199247330427, "entropy": 0.22126398980617523, "total_loss": 0.9144615530967712, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.0812194347381592}, "sample_time_ms": 47636.917, "num_steps_trained": 2088000, "grad_time_ms": 368.658, "update_time_ms": 2.582, "num_steps_sampled": 2088000, "load_time_ms": 0.689}, "iterations_since_restore": 50, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 70599.76847839355, "episode_len_mean": 4.089041095890411, "time_since_restore": 2444.0302317142487, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757125902, "timesteps_since_restore": 61200, "episodes_total": 228829, "episode_reward_min": -23.57238743338646, "pid": 2334312, "episode_reward_max": 4.000567455700141, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-31-42", "timesteps_total": 2089200, "episode_reward_mean": 3.8574514458755256, "custom_metrics": {}, "time_this_iter_s": 48.02445149421692, "training_iteration": 1741, "info": {"default": {"policy_loss": -0.04207323119044304, "vf_explained_var": 0.7541279196739197, "vf_loss": 3.390349864959717, "kl": 0.018603425472974777, "entropy": 0.3572847545146942, "total_loss": 3.3583333492279053, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.5406097173690796}, "sample_time_ms": 47647.196, "num_steps_trained": 2089200, "grad_time_ms": 366.154, "update_time_ms": 2.588, "num_steps_sampled": 2089200, "load_time_ms": 0.683}, "iterations_since_restore": 51, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 70647.14717841148, "episode_len_mean": 4.077966101694916, "time_since_restore": 2491.4089317321777, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757125950, "timesteps_since_restore": 62400, "episodes_total": 229124, "episode_reward_min": -19.082561031905932, "pid": 2334312, "episode_reward_max": 4.001716665571996, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-32-30", "timesteps_total": 2090400, "episode_reward_mean": 3.8780757648194193, "custom_metrics": {}, "time_this_iter_s": 47.37870001792908, "training_iteration": 1742, "info": {"default": {"policy_loss": -0.04124227538704872, "vf_explained_var": 0.7717460989952087, "vf_loss": 2.612335681915283, "kl": 0.004547768738120794, "entropy": 0.37593957781791687, "total_loss": 2.573551654815674, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.5406097173690796}, "sample_time_ms": 47556.609, "num_steps_trained": 2090400, "grad_time_ms": 366.513, "update_time_ms": 2.569, "num_steps_sampled": 2090400, "load_time_ms": 0.683}, "iterations_since_restore": 52, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 70695.12900424004, "episode_len_mean": 4.016722408026756, "time_since_restore": 2539.39075756073, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757125998, "timesteps_since_restore": 63600, "episodes_total": 229423, "episode_reward_min": -4.960408252784983, "pid": 2334312, "episode_reward_max": 4.0007058708578285, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-33-18", "timesteps_total": 2091600, "episode_reward_mean": 3.970325060631866, "custom_metrics": {}, "time_this_iter_s": 47.981825828552246, "training_iteration": 1743, "info": {"default": {"policy_loss": -0.04571147263050079, "vf_explained_var": 0.972026526927948, "vf_loss": 0.1702558994293213, "kl": 0.036870576441287994, "entropy": 0.18647818267345428, "total_loss": 0.13451072573661804, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.2703048586845398}, "sample_time_ms": 47580.389, "num_steps_trained": 2091600, "grad_time_ms": 368.508, "update_time_ms": 2.558, "num_steps_sampled": 2091600, "load_time_ms": 0.681}, "iterations_since_restore": 53, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 70743.14910387993, "episode_len_mean": 4.013377926421405, "time_since_restore": 2587.4108572006226, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757126046, "timesteps_since_restore": 64800, "episodes_total": 229722, "episode_reward_min": -2.0849859996077473, "pid": 2334312, "episode_reward_max": 4.000716210517657, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-34-06", "timesteps_total": 2092800, "episode_reward_mean": 3.9799369756867775, "custom_metrics": {}, "time_this_iter_s": 48.02009963989258, "training_iteration": 1744, "info": {"default": {"policy_loss": -0.02691003307700157, "vf_explained_var": 0.9566712975502014, "vf_loss": 0.2496321201324463, "kl": 0.03845953568816185, "entropy": 0.1580992341041565, "total_loss": 0.23831582069396973, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.4054573178291321}, "sample_time_ms": 47588.12, "num_steps_trained": 2092800, "grad_time_ms": 370.865, "update_time_ms": 2.528, "num_steps_sampled": 2092800, "load_time_ms": 0.685}, "iterations_since_restore": 54, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 70790.51922917366, "episode_len_mean": 4.026845637583893, "time_since_restore": 2634.7809824943542, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757126093, "timesteps_since_restore": 66000, "episodes_total": 230020, "episode_reward_min": -8.843978166216939, "pid": 2334312, "episode_reward_max": 4.000877283709284, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-34-53", "timesteps_total": 2094000, "episode_reward_mean": 3.957181755016784, "custom_metrics": {}, "time_this_iter_s": 47.37012529373169, "training_iteration": 1745, "info": {"default": {"policy_loss": -0.02920023910701275, "vf_explained_var": 0.8999749422073364, "vf_loss": 0.6608197689056396, "kl": 0.008795024827122688, "entropy": 0.2440391182899475, "total_loss": 0.6369686722755432, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.6081859469413757}, "sample_time_ms": 47543.278, "num_steps_trained": 2094000, "grad_time_ms": 373.153, "update_time_ms": 2.54, "num_steps_sampled": 2094000, "load_time_ms": 0.684}, "iterations_since_restore": 55, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 70837.58698678017, "episode_len_mean": 4.0, "time_since_restore": 2681.8487401008606, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757126140, "timesteps_since_restore": 67200, "episodes_total": 230320, "episode_reward_min": 4.0001057448946415, "pid": 2334312, "episode_reward_max": 4.000600012179944, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-35-40", "timesteps_total": 2095200, "episode_reward_mean": 4.000275312757041, "custom_metrics": {}, "time_this_iter_s": 47.06775760650635, "training_iteration": 1746, "info": {"default": {"policy_loss": -0.07445075362920761, "vf_explained_var": 0.9992759227752686, "vf_loss": 0.0038688713684678078, "kl": 0.05070953443646431, "entropy": 0.16901902854442596, "total_loss": -0.039741046726703644, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.6081859469413757}, "sample_time_ms": 47485.685, "num_steps_trained": 2095200, "grad_time_ms": 375.548, "update_time_ms": 2.506, "num_steps_sampled": 2095200, "load_time_ms": 0.677}, "iterations_since_restore": 56, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 70885.5652346611, "episode_len_mean": 4.013377926421405, "time_since_restore": 2729.8269879817963, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757126188, "timesteps_since_restore": 68400, "episodes_total": 230619, "episode_reward_min": -2.0262600476926576, "pid": 2334312, "episode_reward_max": 4.000773449125924, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-36-28", "timesteps_total": 2096400, "episode_reward_mean": 3.9801312596653786, "custom_metrics": {}, "time_this_iter_s": 47.97824788093567, "training_iteration": 1747, "info": {"default": {"policy_loss": -0.027570080012083054, "vf_explained_var": 0.9581819176673889, "vf_loss": 0.23313790559768677, "kl": 0.007167416159063578, "entropy": 0.2580120265483856, "total_loss": 0.21210649609565735, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.9122788906097412}, "sample_time_ms": 47515.454, "num_steps_trained": 2096400, "grad_time_ms": 377.602, "update_time_ms": 2.502, "num_steps_sampled": 2096400, "load_time_ms": 0.684}, "iterations_since_restore": 57, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 70934.44046092033, "episode_len_mean": 4.123711340206185, "time_since_restore": 2778.702214241028, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757126237, "timesteps_since_restore": 69600, "episodes_total": 230910, "episode_reward_min": -20.856090516803434, "pid": 2334312, "episode_reward_max": 4.000801508041707, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-37-17", "timesteps_total": 2097600, "episode_reward_mean": 3.8091194729533613, "custom_metrics": {}, "time_this_iter_s": 48.87522625923157, "training_iteration": 1748, "info": {"default": {"policy_loss": -0.04883911460638046, "vf_explained_var": 0.7076702117919922, "vf_loss": 3.862992525100708, "kl": 0.021130729466676712, "entropy": 0.5460034012794495, "total_loss": 3.833430767059326, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.9122788906097412}, "sample_time_ms": 47660.503, "num_steps_trained": 2097600, "grad_time_ms": 375.102, "update_time_ms": 2.51, "num_steps_sampled": 2097600, "load_time_ms": 0.674}, "iterations_since_restore": 58, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 70981.86727547646, "episode_len_mean": 4.078767123287672, "time_since_restore": 2826.1290287971497, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757126284, "timesteps_since_restore": 70800, "episodes_total": 231202, "episode_reward_min": -15.273959973601407, "pid": 2334312, "episode_reward_max": 4.000668032604108, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-38-04", "timesteps_total": 2098800, "episode_reward_mean": 3.87350412963665, "custom_metrics": {}, "time_this_iter_s": 47.426814556121826, "training_iteration": 1749, "info": {"default": {"policy_loss": -0.05026934668421745, "vf_explained_var": 0.7378765940666199, "vf_loss": 2.918351173400879, "kl": 0.005581801291555166, "entropy": 0.41013264656066895, "total_loss": 2.875720500946045, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.3684184551239014}, "sample_time_ms": 47393.296, "num_steps_trained": 2098800, "grad_time_ms": 376.89, "update_time_ms": 2.495, "num_steps_sampled": 2098800, "load_time_ms": 0.678}, "iterations_since_restore": 59, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 71030.94386053085, "episode_len_mean": 4.179310344827586, "time_since_restore": 2875.2056138515472, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 290, "timestamp": 1757126333, "timesteps_since_restore": 72000, "episodes_total": 231492, "episode_reward_min": -21.789130379027707, "pid": 2334312, "episode_reward_max": 4.000995934235407, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-38-53", "timesteps_total": 2100000, "episode_reward_mean": 3.7140779123185172, "custom_metrics": {}, "time_this_iter_s": 49.07658505439758, "training_iteration": 1750, "info": {"default": {"policy_loss": -0.04436450079083443, "vf_explained_var": 0.6416231989860535, "vf_loss": 5.363372325897217, "kl": 0.01638682559132576, "entropy": 0.5123417377471924, "total_loss": 5.341432571411133, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.3684184551239014}, "sample_time_ms": 47533.417, "num_steps_trained": 2100000, "grad_time_ms": 377.029, "update_time_ms": 2.52, "num_steps_sampled": 2100000, "load_time_ms": 0.692}, "iterations_since_restore": 60, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 71078.86170220375, "episode_len_mean": 4.137931034482759, "time_since_restore": 2923.1234555244446, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 290, "timestamp": 1757126381, "timesteps_since_restore": 73200, "episodes_total": 231782, "episode_reward_min": -15.046943454781339, "pid": 2334312, "episode_reward_max": 4.000843982796113, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-39-41", "timesteps_total": 2101200, "episode_reward_mean": 3.7869681683744805, "custom_metrics": {}, "time_this_iter_s": 47.91784167289734, "training_iteration": 1751, "info": {"default": {"policy_loss": -0.0367182232439518, "vf_explained_var": 0.6934820413589478, "vf_loss": 3.3237104415893555, "kl": 0.016703180968761444, "entropy": 0.2991539239883423, "total_loss": 3.3098490238189697, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.3684184551239014}, "sample_time_ms": 47519.126, "num_steps_trained": 2101200, "grad_time_ms": 380.627, "update_time_ms": 2.487, "num_steps_sampled": 2101200, "load_time_ms": 0.709}, "iterations_since_restore": 61, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 71126.10324168205, "episode_len_mean": 4.068027210884353, "time_since_restore": 2970.3649950027466, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757126429, "timesteps_since_restore": 74400, "episodes_total": 232076, "episode_reward_min": -12.323226702291173, "pid": 2334312, "episode_reward_max": 4.000569022476387, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-40-29", "timesteps_total": 2102400, "episode_reward_mean": 3.8989435483033255, "custom_metrics": {}, "time_this_iter_s": 47.241539478302, "training_iteration": 1752, "info": {"default": {"policy_loss": -0.02351580746471882, "vf_explained_var": 0.791452169418335, "vf_loss": 1.6353236436843872, "kl": 0.0075698122382164, "entropy": 0.36371728777885437, "total_loss": 1.622166395187378, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.3684184551239014}, "sample_time_ms": 47504.382, "num_steps_trained": 2102400, "grad_time_ms": 381.672, "update_time_ms": 2.531, "num_steps_sampled": 2102400, "load_time_ms": 0.719}, "iterations_since_restore": 62, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 71174.27276682854, "episode_len_mean": 4.144329896907217, "time_since_restore": 3018.534520149231, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757126477, "timesteps_since_restore": 75600, "episodes_total": 232367, "episode_reward_min": -13.198638488621182, "pid": 2334312, "episode_reward_max": 4.001147950799663, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-41-17", "timesteps_total": 2103600, "episode_reward_mean": 3.776657209946769, "custom_metrics": {}, "time_this_iter_s": 48.169525146484375, "training_iteration": 1753, "info": {"default": {"policy_loss": -0.05215364694595337, "vf_explained_var": 0.6535918116569519, "vf_loss": 3.332857847213745, "kl": 0.010216433554887772, "entropy": 0.39343929290771484, "total_loss": 3.2946841716766357, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.3684184551239014}, "sample_time_ms": 47523.388, "num_steps_trained": 2103600, "grad_time_ms": 381.447, "update_time_ms": 2.504, "num_steps_sampled": 2103600, "load_time_ms": 0.717}, "iterations_since_restore": 63, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 71221.98694634438, "episode_len_mean": 4.260714285714286, "time_since_restore": 3066.2486996650696, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 280, "timestamp": 1757126525, "timesteps_since_restore": 76800, "episodes_total": 232647, "episode_reward_min": -26.343674721980285, "pid": 2334312, "episode_reward_max": 4.0011434154442505, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-42-05", "timesteps_total": 2104800, "episode_reward_mean": 3.5845143899155736, "custom_metrics": {}, "time_this_iter_s": 47.71417951583862, "training_iteration": 1754, "info": {"default": {"policy_loss": -0.05771121755242348, "vf_explained_var": 0.5073903799057007, "vf_loss": 7.747379779815674, "kl": 0.013974744826555252, "entropy": 0.4841780662536621, "total_loss": 7.708791732788086, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.3684184551239014}, "sample_time_ms": 47493.39, "num_steps_trained": 2104800, "grad_time_ms": 380.813, "update_time_ms": 2.516, "num_steps_sampled": 2104800, "load_time_ms": 0.713}, "iterations_since_restore": 64, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 71269.95809006691, "episode_len_mean": 4.1875, "time_since_restore": 3114.2198433876038, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 288, "timestamp": 1757126573, "timesteps_since_restore": 78000, "episodes_total": 232935, "episode_reward_min": -29.571412401116703, "pid": 2334312, "episode_reward_max": 4.0006119798820885, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-42-53", "timesteps_total": 2106000, "episode_reward_mean": 3.7096763646231543, "custom_metrics": {}, "time_this_iter_s": 47.97114372253418, "training_iteration": 1755, "info": {"default": {"policy_loss": -0.06074228510260582, "vf_explained_var": 0.7799475789070129, "vf_loss": 2.9029345512390137, "kl": 0.01342084538191557, "entropy": 0.5821292400360107, "total_loss": 2.860558032989502, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.3684184551239014}, "sample_time_ms": 47554.911, "num_steps_trained": 2106000, "grad_time_ms": 379.324, "update_time_ms": 2.564, "num_steps_sampled": 2106000, "load_time_ms": 0.716}, "iterations_since_restore": 65, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 71318.03967809677, "episode_len_mean": 4.203508771929824, "time_since_restore": 3162.301431417465, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 285, "timestamp": 1757126621, "timesteps_since_restore": 79200, "episodes_total": 233220, "episode_reward_min": -22.03282600630431, "pid": 2334312, "episode_reward_max": 4.00136957096293, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-43-41", "timesteps_total": 2107200, "episode_reward_mean": 3.6881349721543093, "custom_metrics": {}, "time_this_iter_s": 48.08158802986145, "training_iteration": 1756, "info": {"default": {"policy_loss": -0.054004136472940445, "vf_explained_var": 0.6496836543083191, "vf_loss": 6.271498680114746, "kl": 0.012210341170430183, "entropy": 0.6515419483184814, "total_loss": 6.234203815460205, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.3684184551239014}, "sample_time_ms": 47656.849, "num_steps_trained": 2107200, "grad_time_ms": 378.775, "update_time_ms": 2.608, "num_steps_sampled": 2107200, "load_time_ms": 0.718}, "iterations_since_restore": 66, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 71365.29447960854, "episode_len_mean": 4.349090909090909, "time_since_restore": 3209.5562329292297, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 275, "timestamp": 1757126668, "timesteps_since_restore": 80400, "episodes_total": 233495, "episode_reward_min": -23.762476143549122, "pid": 2334312, "episode_reward_max": 4.000668344841168, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-44-28", "timesteps_total": 2108400, "episode_reward_mean": 3.4456104904759957, "custom_metrics": {}, "time_this_iter_s": 47.254801511764526, "training_iteration": 1757, "info": {"default": {"policy_loss": -0.07473421096801758, "vf_explained_var": 0.4977031350135803, "vf_loss": 8.59518814086914, "kl": 0.02822519652545452, "entropy": 0.6793205142021179, "total_loss": 8.559077262878418, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.3684184551239014}, "sample_time_ms": 47586.149, "num_steps_trained": 2108400, "grad_time_ms": 377.107, "update_time_ms": 2.623, "num_steps_sampled": 2108400, "load_time_ms": 0.703}, "iterations_since_restore": 67, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 71412.5797381401, "episode_len_mean": 4.216783216783217, "time_since_restore": 3256.8414914608, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 286, "timestamp": 1757126715, "timesteps_since_restore": 81600, "episodes_total": 233781, "episode_reward_min": -29.29639237219589, "pid": 2334312, "episode_reward_max": 4.000591305215106, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-45-15", "timesteps_total": 2109600, "episode_reward_mean": 3.6581035516707945, "custom_metrics": {}, "time_this_iter_s": 47.285258531570435, "training_iteration": 1758, "info": {"default": {"policy_loss": -0.06877724081277847, "vf_explained_var": 0.6062933802604675, "vf_loss": 6.714346885681152, "kl": 0.013912211172282696, "entropy": 0.5170596837997437, "total_loss": 6.674126148223877, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.0526275634765625}, "sample_time_ms": 47424.259, "num_steps_trained": 2109600, "grad_time_ms": 379.925, "update_time_ms": 2.643, "num_steps_sampled": 2109600, "load_time_ms": 0.727}, "iterations_since_restore": 68, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 71460.23253250122, "episode_len_mean": 4.21830985915493, "time_since_restore": 3304.4942858219147, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 284, "timestamp": 1757126763, "timesteps_since_restore": 82800, "episodes_total": 234065, "episode_reward_min": -21.288002199862653, "pid": 2334312, "episode_reward_max": 4.000826618706107, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-46-03", "timesteps_total": 2110800, "episode_reward_mean": 3.651365670256563, "custom_metrics": {}, "time_this_iter_s": 47.6527943611145, "training_iteration": 1759, "info": {"default": {"policy_loss": -0.05514641851186752, "vf_explained_var": 0.648105263710022, "vf_loss": 6.750696182250977, "kl": 0.01288203988224268, "entropy": 0.5936523675918579, "total_loss": 6.721992015838623, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.0526275634765625}, "sample_time_ms": 47446.216, "num_steps_trained": 2110800, "grad_time_ms": 380.565, "update_time_ms": 2.671, "num_steps_sampled": 2110800, "load_time_ms": 0.732}, "iterations_since_restore": 69, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 71507.74508500099, "episode_len_mean": 4.109589041095891, "time_since_restore": 3352.006838321686, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757126810, "timesteps_since_restore": 84000, "episodes_total": 234357, "episode_reward_min": -19.06671409706948, "pid": 2334312, "episode_reward_max": 4.000768929041113, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-46-50", "timesteps_total": 2112000, "episode_reward_mean": 3.828489557945149, "custom_metrics": {}, "time_this_iter_s": 47.51255249977112, "training_iteration": 1760, "info": {"default": {"policy_loss": -0.04216504096984863, "vf_explained_var": 0.7226361036300659, "vf_loss": 3.1989152431488037, "kl": 0.009886096231639385, "entropy": 0.4185342490673065, "total_loss": 3.1770427227020264, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.0526275634765625}, "sample_time_ms": 47290.681, "num_steps_trained": 2112000, "grad_time_ms": 379.833, "update_time_ms": 2.664, "num_steps_sampled": 2112000, "load_time_ms": 0.718}, "iterations_since_restore": 70, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 71554.90393972397, "episode_len_mean": 4.23321554770318, "time_since_restore": 3399.1656930446625, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 283, "timestamp": 1757126858, "timesteps_since_restore": 85200, "episodes_total": 234640, "episode_reward_min": -32.25344563725913, "pid": 2334312, "episode_reward_max": 4.00069250368837, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-47-38", "timesteps_total": 2113200, "episode_reward_mean": 3.633382912858742, "custom_metrics": {}, "time_this_iter_s": 47.158854722976685, "training_iteration": 1761, "info": {"default": {"policy_loss": -0.05404188483953476, "vf_explained_var": 0.59620600938797, "vf_loss": 9.892298698425293, "kl": 0.008574172854423523, "entropy": 0.6234753131866455, "total_loss": 9.855855941772461, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.0526275634765625}, "sample_time_ms": 47215.842, "num_steps_trained": 2113200, "grad_time_ms": 378.846, "update_time_ms": 2.645, "num_steps_sampled": 2113200, "load_time_ms": 0.703}, "iterations_since_restore": 71, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 71602.21853899956, "episode_len_mean": 4.14878892733564, "time_since_restore": 3446.4802923202515, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 289, "timestamp": 1757126905, "timesteps_since_restore": 86400, "episodes_total": 234929, "episode_reward_min": -44.48315920699926, "pid": 2334312, "episode_reward_max": 4.001007545147567, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-48-25", "timesteps_total": 2114400, "episode_reward_mean": 3.7664965137415716, "custom_metrics": {}, "time_this_iter_s": 47.31459927558899, "training_iteration": 1762, "info": {"default": {"policy_loss": -0.04396228492259979, "vf_explained_var": 0.6197618246078491, "vf_loss": 12.840564727783203, "kl": 0.007731595076620579, "entropy": 0.42099976539611816, "total_loss": 12.81247329711914, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.0526275634765625}, "sample_time_ms": 47225.693, "num_steps_trained": 2114400, "grad_time_ms": 376.325, "update_time_ms": 2.629, "num_steps_sampled": 2114400, "load_time_ms": 0.69}, "iterations_since_restore": 72, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 71650.01924490929, "episode_len_mean": 4.123287671232877, "time_since_restore": 3494.2809982299805, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757126953, "timesteps_since_restore": 87600, "episodes_total": 235221, "episode_reward_min": -16.009682742224133, "pid": 2334312, "episode_reward_max": 4.000677946989592, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-49-13", "timesteps_total": 2115600, "episode_reward_mean": 3.80888626800469, "custom_metrics": {}, "time_this_iter_s": 47.800705909729004, "training_iteration": 1763, "info": {"default": {"policy_loss": -0.03319462016224861, "vf_explained_var": 0.6619834303855896, "vf_loss": 4.121342182159424, "kl": 0.03126220405101776, "entropy": 0.38637420535087585, "total_loss": 4.152317523956299, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.0526275634765625}, "sample_time_ms": 47189.745, "num_steps_trained": 2115600, "grad_time_ms": 375.325, "update_time_ms": 2.665, "num_steps_sampled": 2115600, "load_time_ms": 0.687}, "iterations_since_restore": 73, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 71698.49010896683, "episode_len_mean": 4.167247386759582, "time_since_restore": 3542.7518622875214, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 287, "timestamp": 1757127001, "timesteps_since_restore": 88800, "episodes_total": 235508, "episode_reward_min": -40.5713277450098, "pid": 2334312, "episode_reward_max": 4.000787074326164, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-50-01", "timesteps_total": 2116800, "episode_reward_mean": 3.730946364527542, "custom_metrics": {}, "time_this_iter_s": 48.470864057540894, "training_iteration": 1764, "info": {"default": {"policy_loss": -0.03836233168840408, "vf_explained_var": 0.6140391826629639, "vf_loss": 10.774856567382812, "kl": 0.003932580351829529, "entropy": 0.6153924465179443, "total_loss": 10.748602867126465, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 3.0789413452148438}, "sample_time_ms": 47265.195, "num_steps_trained": 2116800, "grad_time_ms": 375.59, "update_time_ms": 2.676, "num_steps_sampled": 2116800, "load_time_ms": 0.694}, "iterations_since_restore": 74, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 71746.2508482933, "episode_len_mean": 4.010033444816053, "time_since_restore": 3590.5126016139984, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757127049, "timesteps_since_restore": 90000, "episodes_total": 235807, "episode_reward_min": -0.9949445291176904, "pid": 2334312, "episode_reward_max": 4.000831464587779, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-50-49", "timesteps_total": 2118000, "episode_reward_mean": 3.9835811026734214, "custom_metrics": {}, "time_this_iter_s": 47.76073932647705, "training_iteration": 1765, "info": {"default": {"policy_loss": -0.04124182462692261, "vf_explained_var": 0.9563584923744202, "vf_loss": 0.23537765443325043, "kl": 0.004433243069797754, "entropy": 0.2354411780834198, "total_loss": 0.2009606659412384, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.5394706726074219}, "sample_time_ms": 47244.419, "num_steps_trained": 2118000, "grad_time_ms": 375.297, "update_time_ms": 2.641, "num_steps_sampled": 2118000, "load_time_ms": 0.693}, "iterations_since_restore": 75, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 71794.57493805885, "episode_len_mean": 4.030201342281879, "time_since_restore": 3638.836691379547, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757127097, "timesteps_since_restore": 91200, "episodes_total": 236105, "episode_reward_min": -10.596154959891656, "pid": 2334312, "episode_reward_max": 4.000942611084621, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-51-37", "timesteps_total": 2119200, "episode_reward_mean": 3.9513104580154192, "custom_metrics": {}, "time_this_iter_s": 48.324089765548706, "training_iteration": 1766, "info": {"default": {"policy_loss": -0.027525335550308228, "vf_explained_var": 0.8920936584472656, "vf_loss": 0.8379378914833069, "kl": 0.005795120727270842, "entropy": 0.25065329670906067, "total_loss": 0.814873218536377, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.7697353363037109}, "sample_time_ms": 47268.695, "num_steps_trained": 2119200, "grad_time_ms": 375.267, "update_time_ms": 2.621, "num_steps_sampled": 2119200, "load_time_ms": 0.677}, "iterations_since_restore": 76, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 71841.59212994576, "episode_len_mean": 4.081632653061225, "time_since_restore": 3685.853883266449, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757127144, "timesteps_since_restore": 92400, "episodes_total": 236399, "episode_reward_min": -19.936860488069954, "pid": 2334312, "episode_reward_max": 4.001204365051917, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-52-24", "timesteps_total": 2120400, "episode_reward_mean": 3.8727327120884283, "custom_metrics": {}, "time_this_iter_s": 47.017191886901855, "training_iteration": 1767, "info": {"default": {"policy_loss": -0.03670913726091385, "vf_explained_var": 0.7860303521156311, "vf_loss": 2.443127393722534, "kl": 0.010866689495742321, "entropy": 0.3578141927719116, "total_loss": 2.414783000946045, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.7697353363037109}, "sample_time_ms": 47243.493, "num_steps_trained": 2120400, "grad_time_ms": 376.749, "update_time_ms": 2.584, "num_steps_sampled": 2120400, "load_time_ms": 0.678}, "iterations_since_restore": 77, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 71888.91904711723, "episode_len_mean": 4.085034013605442, "time_since_restore": 3733.1808004379272, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757127192, "timesteps_since_restore": 93600, "episodes_total": 236693, "episode_reward_min": -20.804468631258256, "pid": 2334312, "episode_reward_max": 4.001335604520492, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-53-12", "timesteps_total": 2121600, "episode_reward_mean": 3.8738888332011316, "custom_metrics": {}, "time_this_iter_s": 47.32691717147827, "training_iteration": 1768, "info": {"default": {"policy_loss": -0.03908723592758179, "vf_explained_var": 0.7686604857444763, "vf_loss": 2.598464012145996, "kl": 0.006979373749345541, "entropy": 0.3559492826461792, "total_loss": 2.564749002456665, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.7697353363037109}, "sample_time_ms": 47250.429, "num_steps_trained": 2121600, "grad_time_ms": 373.989, "update_time_ms": 2.609, "num_steps_sampled": 2121600, "load_time_ms": 0.658}, "iterations_since_restore": 78, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 71936.68784308434, "episode_len_mean": 4.088737201365188, "time_since_restore": 3780.9495964050293, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 293, "timestamp": 1757127240, "timesteps_since_restore": 94800, "episodes_total": 236986, "episode_reward_min": -19.248170839542517, "pid": 2334312, "episode_reward_max": 4.001463937405417, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-54-00", "timesteps_total": 2122800, "episode_reward_mean": 3.8614427378885803, "custom_metrics": {}, "time_this_iter_s": 47.76879596710205, "training_iteration": 1769, "info": {"default": {"policy_loss": -0.03706859052181244, "vf_explained_var": 0.761359453201294, "vf_loss": 2.8816897869110107, "kl": 0.033106692135334015, "entropy": 0.31002077460289, "total_loss": 2.8701045513153076, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.7697353363037109}, "sample_time_ms": 47262.226, "num_steps_trained": 2122800, "grad_time_ms": 373.786, "update_time_ms": 2.577, "num_steps_sampled": 2122800, "load_time_ms": 0.649}, "iterations_since_restore": 79, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 71983.87089753151, "episode_len_mean": 4.0, "time_since_restore": 3828.1326508522034, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757127287, "timesteps_since_restore": 96000, "episodes_total": 237286, "episode_reward_min": 4.000136854938862, "pid": 2334312, "episode_reward_max": 4.000660009494593, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-54-47", "timesteps_total": 2124000, "episode_reward_mean": 4.000288744028668, "custom_metrics": {}, "time_this_iter_s": 47.18305444717407, "training_iteration": 1770, "info": {"default": {"policy_loss": -0.08043908327817917, "vf_explained_var": 0.9983276724815369, "vf_loss": 0.008949261158704758, "kl": 0.028883149847388268, "entropy": 0.15730230510234833, "total_loss": -0.03814125806093216, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.1546030044555664}, "sample_time_ms": 47229.701, "num_steps_trained": 2124000, "grad_time_ms": 373.302, "update_time_ms": 2.625, "num_steps_sampled": 2124000, "load_time_ms": 0.655}, "iterations_since_restore": 80, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 72031.13560557365, "episode_len_mean": 4.071186440677966, "time_since_restore": 3875.397358894348, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757127334, "timesteps_since_restore": 97200, "episodes_total": 237581, "episode_reward_min": -27.997506721746362, "pid": 2334312, "episode_reward_max": 4.001204587614822, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-55-34", "timesteps_total": 2125200, "episode_reward_mean": 3.891829037969639, "custom_metrics": {}, "time_this_iter_s": 47.264708042144775, "training_iteration": 1771, "info": {"default": {"policy_loss": -0.029939506202936172, "vf_explained_var": 0.7547536492347717, "vf_loss": 3.83388614654541, "kl": 0.004233734682202339, "entropy": 0.4002131223678589, "total_loss": 3.811279296875, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.7319045066833496}, "sample_time_ms": 47240.901, "num_steps_trained": 2125200, "grad_time_ms": 372.646, "update_time_ms": 2.665, "num_steps_sampled": 2125200, "load_time_ms": 0.65}, "iterations_since_restore": 81, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 72077.61708593369, "episode_len_mean": 4.033557046979865, "time_since_restore": 3921.8788392543793, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757127381, "timesteps_since_restore": 98400, "episodes_total": 237879, "episode_reward_min": -11.430292570857201, "pid": 2334312, "episode_reward_max": 4.001084145149137, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-56-21", "timesteps_total": 2126400, "episode_reward_mean": 3.948509577373382, "custom_metrics": {}, "time_this_iter_s": 46.48148036003113, "training_iteration": 1772, "info": {"default": {"policy_loss": -0.039477989077568054, "vf_explained_var": 0.9330053329467773, "vf_loss": 0.51822429895401, "kl": 0.0032414079178124666, "entropy": 0.24930088222026825, "total_loss": 0.4815531373023987, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.8659522533416748}, "sample_time_ms": 47155.826, "num_steps_trained": 2126400, "grad_time_ms": 374.32, "update_time_ms": 2.671, "num_steps_sampled": 2126400, "load_time_ms": 0.652}, "iterations_since_restore": 82, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 72125.23771595955, "episode_len_mean": 4.058219178082192, "time_since_restore": 3969.499469280243, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757127428, "timesteps_since_restore": 99600, "episodes_total": 238171, "episode_reward_min": -11.424625893218334, "pid": 2334312, "episode_reward_max": 4.000536992072605, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-57-08", "timesteps_total": 2127600, "episode_reward_mean": 3.909834709530217, "custom_metrics": {}, "time_this_iter_s": 47.62063002586365, "training_iteration": 1773, "info": {"default": {"policy_loss": -0.03815491497516632, "vf_explained_var": 0.7269856929779053, "vf_loss": 5.553541660308838, "kl": 0.03451882675290108, "entropy": 0.4182807207107544, "total_loss": 5.530333042144775, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.4329761266708374}, "sample_time_ms": 47137.599, "num_steps_trained": 2127600, "grad_time_ms": 374.567, "update_time_ms": 2.635, "num_steps_sampled": 2127600, "load_time_ms": 0.653}, "iterations_since_restore": 83, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 72174.47929644585, "episode_len_mean": 4.080536912751678, "time_since_restore": 4018.7410497665405, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757127477, "timesteps_since_restore": 100800, "episodes_total": 238469, "episode_reward_min": -34.23397685912039, "pid": 2334312, "episode_reward_max": 4.0009230855327065, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-57-57", "timesteps_total": 2128800, "episode_reward_mean": 3.871994124778078, "custom_metrics": {}, "time_this_iter_s": 49.24158048629761, "training_iteration": 1774, "info": {"default": {"policy_loss": -0.04387960955500603, "vf_explained_var": 0.9802777171134949, "vf_loss": 0.10832902789115906, "kl": 0.012267189100384712, "entropy": 0.2656000852584839, "total_loss": 0.0724165216088295, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.6494641900062561}, "sample_time_ms": 47215.713, "num_steps_trained": 2128800, "grad_time_ms": 373.517, "update_time_ms": 2.644, "num_steps_sampled": 2128800, "load_time_ms": 0.648}, "iterations_since_restore": 84, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 72221.55094575882, "episode_len_mean": 4.074829931972789, "time_since_restore": 4065.8126990795135, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757127525, "timesteps_since_restore": 102000, "episodes_total": 238763, "episode_reward_min": -22.923629483439342, "pid": 2334312, "episode_reward_max": 4.001555193223317, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-58-45", "timesteps_total": 2130000, "episode_reward_mean": 3.881421189586007, "custom_metrics": {}, "time_this_iter_s": 47.07164931297302, "training_iteration": 1775, "info": {"default": {"policy_loss": -0.03570370376110077, "vf_explained_var": 0.7578656077384949, "vf_loss": 2.885432004928589, "kl": 0.007050957065075636, "entropy": 0.36134016513824463, "total_loss": 2.8543074131011963, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.6494641900062561}, "sample_time_ms": 47144.489, "num_steps_trained": 2130000, "grad_time_ms": 375.86, "update_time_ms": 2.617, "num_steps_sampled": 2130000, "load_time_ms": 0.663}, "iterations_since_restore": 85, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 72268.8262398243, "episode_len_mean": 4.075862068965518, "time_since_restore": 4113.087993144989, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 290, "timestamp": 1757127572, "timesteps_since_restore": 103200, "episodes_total": 239053, "episode_reward_min": -30.13114156484736, "pid": 2334312, "episode_reward_max": 4.00115240610129, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_04-59-32", "timesteps_total": 2131200, "episode_reward_mean": 3.88258685458913, "custom_metrics": {}, "time_this_iter_s": 47.275294065475464, "training_iteration": 1776, "info": {"default": {"policy_loss": -0.043074388056993484, "vf_explained_var": 0.6746574640274048, "vf_loss": 8.995656967163086, "kl": 0.014092091470956802, "entropy": 0.49798834323883057, "total_loss": 8.961734771728516, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.6494641900062561}, "sample_time_ms": 47039.406, "num_steps_trained": 2131200, "grad_time_ms": 375.921, "update_time_ms": 2.658, "num_steps_sampled": 2131200, "load_time_ms": 0.678}, "iterations_since_restore": 86, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 72316.2378821373, "episode_len_mean": 4.101010101010101, "time_since_restore": 4160.499635457993, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757127619, "timesteps_since_restore": 104400, "episodes_total": 239350, "episode_reward_min": -27.27288701903484, "pid": 2334312, "episode_reward_max": 4.000773155184719, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-00-19", "timesteps_total": 2132400, "episode_reward_mean": 3.83853191014919, "custom_metrics": {}, "time_this_iter_s": 47.41164231300354, "training_iteration": 1777, "info": {"default": {"policy_loss": -0.042966078966856, "vf_explained_var": 0.8375033736228943, "vf_loss": 1.1775786876678467, "kl": 0.011162925511598587, "entropy": 0.2917885184288025, "total_loss": 1.1418626308441162, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.6494641900062561}, "sample_time_ms": 47078.495, "num_steps_trained": 2132400, "grad_time_ms": 376.243, "update_time_ms": 2.704, "num_steps_sampled": 2132400, "load_time_ms": 0.69}, "iterations_since_restore": 87, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 72364.3635365963, "episode_len_mean": 4.0675675675675675, "time_since_restore": 4208.625289916992, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757127667, "timesteps_since_restore": 105600, "episodes_total": 239646, "episode_reward_min": -5.076984515978685, "pid": 2334312, "episode_reward_max": 4.000796979534314, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-01-07", "timesteps_total": 2133600, "episode_reward_mean": 3.8949342246593117, "custom_metrics": {}, "time_this_iter_s": 48.125654458999634, "training_iteration": 1778, "info": {"default": {"policy_loss": -0.01443048007786274, "vf_explained_var": 0.8061723113059998, "vf_loss": 1.318381667137146, "kl": 0.22397197782993317, "entropy": 0.3485010862350464, "total_loss": 1.4494129419326782, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.6494641900062561}, "sample_time_ms": 47155.156, "num_steps_trained": 2133600, "grad_time_ms": 379.42, "update_time_ms": 2.66, "num_steps_sampled": 2133600, "load_time_ms": 0.696}, "iterations_since_restore": 88, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 72411.67320394516, "episode_len_mean": 4.064846416382252, "time_since_restore": 4255.934957265854, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 293, "timestamp": 1757127715, "timesteps_since_restore": 106800, "episodes_total": 239939, "episode_reward_min": -15.881432769374626, "pid": 2334312, "episode_reward_max": 4.000918861923926, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-01-55", "timesteps_total": 2134800, "episode_reward_mean": 3.894757476000132, "custom_metrics": {}, "time_this_iter_s": 47.309667348861694, "training_iteration": 1779, "info": {"default": {"policy_loss": -0.03906365856528282, "vf_explained_var": 0.723747968673706, "vf_loss": 3.15524959564209, "kl": 0.019469313323497772, "entropy": 0.44356343150138855, "total_loss": 3.135152578353882, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.9741963148117065}, "sample_time_ms": 47111.488, "num_steps_trained": 2134800, "grad_time_ms": 377.145, "update_time_ms": 2.714, "num_steps_sampled": 2134800, "load_time_ms": 0.701}, "iterations_since_restore": 89, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 72459.76432108879, "episode_len_mean": 4.043624161073826, "time_since_restore": 4304.026074409485, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757127763, "timesteps_since_restore": 108000, "episodes_total": 240237, "episode_reward_min": -7.315671678587947, "pid": 2334312, "episode_reward_max": 4.001723734113331, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-02-43", "timesteps_total": 2136000, "episode_reward_mean": 3.9305472985615046, "custom_metrics": {}, "time_this_iter_s": 48.09111714363098, "training_iteration": 1780, "info": {"default": {"policy_loss": -0.04175892099738121, "vf_explained_var": 0.9554183483123779, "vf_loss": 0.24644631147384644, "kl": 0.006807006895542145, "entropy": 0.295285165309906, "total_loss": 0.2113187462091446, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.9741963148117065}, "sample_time_ms": 47201.138, "num_steps_trained": 2136000, "grad_time_ms": 378.32, "update_time_ms": 2.665, "num_steps_sampled": 2136000, "load_time_ms": 0.696}, "iterations_since_restore": 90, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 72508.01757836342, "episode_len_mean": 4.120274914089347, "time_since_restore": 4352.279331684113, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757127811, "timesteps_since_restore": 109200, "episodes_total": 240528, "episode_reward_min": -29.486936783509613, "pid": 2334312, "episode_reward_max": 4.001617366507358, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-03-31", "timesteps_total": 2137200, "episode_reward_mean": 3.81340917294919, "custom_metrics": {}, "time_this_iter_s": 48.253257274627686, "training_iteration": 1781, "info": {"default": {"policy_loss": -0.0465608686208725, "vf_explained_var": 0.7189860939979553, "vf_loss": 5.4049882888793945, "kl": 0.011670233681797981, "entropy": 0.5315252542495728, "total_loss": 5.369795799255371, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.9741963148117065}, "sample_time_ms": 47300.703, "num_steps_trained": 2137200, "grad_time_ms": 377.62, "update_time_ms": 2.654, "num_steps_sampled": 2137200, "load_time_ms": 0.699}, "iterations_since_restore": 91, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 72556.03481245041, "episode_len_mean": 4.1271477663230245, "time_since_restore": 4400.296565771103, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757127859, "timesteps_since_restore": 110400, "episodes_total": 240819, "episode_reward_min": -15.834762133258877, "pid": 2334312, "episode_reward_max": 4.001419801816201, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-04-19", "timesteps_total": 2138400, "episode_reward_mean": 3.8119586538806285, "custom_metrics": {}, "time_this_iter_s": 48.017234086990356, "training_iteration": 1782, "info": {"default": {"policy_loss": -0.03433894366025925, "vf_explained_var": 0.7596666216850281, "vf_loss": 2.6566121578216553, "kl": 0.010201581753790379, "entropy": 0.5272104740142822, "total_loss": 2.632211923599243, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.9741963148117065}, "sample_time_ms": 47455.806, "num_steps_trained": 2138400, "grad_time_ms": 376.177, "update_time_ms": 2.653, "num_steps_sampled": 2138400, "load_time_ms": 0.706}, "iterations_since_restore": 92, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 72603.27445840836, "episode_len_mean": 4.0, "time_since_restore": 4447.53621172905, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757127906, "timesteps_since_restore": 111600, "episodes_total": 241119, "episode_reward_min": 4.000126476281078, "pid": 2334312, "episode_reward_max": 4.000558081685574, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-05-06", "timesteps_total": 2139600, "episode_reward_mean": 4.0002844449991635, "custom_metrics": {}, "time_this_iter_s": 47.23964595794678, "training_iteration": 1783, "info": {"default": {"policy_loss": -0.08527562767267227, "vf_explained_var": 0.999140202999115, "vf_loss": 0.004618373699486256, "kl": 0.03884487599134445, "entropy": 0.20407897233963013, "total_loss": -0.0428147129714489, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.9741963148117065}, "sample_time_ms": 47416.648, "num_steps_trained": 2139600, "grad_time_ms": 377.238, "update_time_ms": 2.638, "num_steps_sampled": 2139600, "load_time_ms": 0.71}, "iterations_since_restore": 93, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 72650.34823918343, "episode_len_mean": 4.144827586206897, "time_since_restore": 4494.60999250412, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 290, "timestamp": 1757127954, "timesteps_since_restore": 112800, "episodes_total": 241409, "episode_reward_min": -23.176108419449136, "pid": 2334312, "episode_reward_max": 4.000834960813988, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-05-54", "timesteps_total": 2140800, "episode_reward_mean": 3.7623256428279737, "custom_metrics": {}, "time_this_iter_s": 47.07378077507019, "training_iteration": 1784, "info": {"default": {"policy_loss": -0.05133816599845886, "vf_explained_var": 0.6495340466499329, "vf_loss": 5.004936695098877, "kl": 0.007019779644906521, "entropy": 0.5590039491653442, "total_loss": 4.9638566970825195, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.461294412612915}, "sample_time_ms": 47198.975, "num_steps_trained": 2140800, "grad_time_ms": 378.107, "update_time_ms": 2.641, "num_steps_sampled": 2140800, "load_time_ms": 0.712}, "iterations_since_restore": 94, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 72697.64153647423, "episode_len_mean": 4.054054054054054, "time_since_restore": 4541.903289794922, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757128001, "timesteps_since_restore": 114000, "episodes_total": 241705, "episode_reward_min": -14.296838535658036, "pid": 2334312, "episode_reward_max": 4.000541152181064, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-06-41", "timesteps_total": 2142000, "episode_reward_mean": 3.9180438509295317, "custom_metrics": {}, "time_this_iter_s": 47.293297290802, "training_iteration": 1785, "info": {"default": {"policy_loss": -0.03173888102173805, "vf_explained_var": 0.9178012013435364, "vf_loss": 0.7390257120132446, "kl": 0.003778078593313694, "entropy": 0.42991960048675537, "total_loss": 0.7128077745437622, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.461294412612915}, "sample_time_ms": 47222.482, "num_steps_trained": 2142000, "grad_time_ms": 376.788, "update_time_ms": 2.664, "num_steps_sampled": 2142000, "load_time_ms": 0.693}, "iterations_since_restore": 95, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 72745.33807015419, "episode_len_mean": 4.221830985915493, "time_since_restore": 4589.599823474884, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 284, "timestamp": 1757128049, "timesteps_since_restore": 115200, "episodes_total": 241989, "episode_reward_min": -63.57880437701537, "pid": 2334312, "episode_reward_max": 6.000121854473237, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-07-29", "timesteps_total": 2143200, "episode_reward_mean": 3.6568030102516977, "custom_metrics": {}, "time_this_iter_s": 47.69653367996216, "training_iteration": 1786, "info": {"default": {"policy_loss": -0.05781502276659012, "vf_explained_var": 0.6590040922164917, "vf_loss": 24.472822189331055, "kl": 0.012194106355309486, "entropy": 0.6549804210662842, "total_loss": 24.423913955688477, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.7306472063064575}, "sample_time_ms": 47266.934, "num_steps_trained": 2143200, "grad_time_ms": 374.582, "update_time_ms": 2.611, "num_steps_sampled": 2143200, "load_time_ms": 0.679}, "iterations_since_restore": 96, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 72792.64995646477, "episode_len_mean": 4.026845637583893, "time_since_restore": 4636.911709785461, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757128096, "timesteps_since_restore": 116400, "episodes_total": 242287, "episode_reward_min": -9.310136205372075, "pid": 2334312, "episode_reward_max": 4.000615325173907, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-08-16", "timesteps_total": 2144400, "episode_reward_mean": 3.9556120088411886, "custom_metrics": {}, "time_this_iter_s": 47.31188631057739, "training_iteration": 1787, "info": {"default": {"policy_loss": -0.043051790446043015, "vf_explained_var": 0.8870140910148621, "vf_loss": 0.8128959536552429, "kl": 0.018347449600696564, "entropy": 0.32913997769355774, "total_loss": 0.78324955701828, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.7306472063064575}, "sample_time_ms": 47256.807, "num_steps_trained": 2144400, "grad_time_ms": 374.771, "update_time_ms": 2.584, "num_steps_sampled": 2144400, "load_time_ms": 0.679}, "iterations_since_restore": 97, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 72839.66204738617, "episode_len_mean": 4.123711340206185, "time_since_restore": 4683.923800706863, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757128143, "timesteps_since_restore": 117600, "episodes_total": 242578, "episode_reward_min": -44.81946374830998, "pid": 2334312, "episode_reward_max": 4.000748737659054, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-09-03", "timesteps_total": 2145600, "episode_reward_mean": 3.804944076664174, "custom_metrics": {}, "time_this_iter_s": 47.01209092140198, "training_iteration": 1788, "info": {"default": {"policy_loss": -0.05046214535832405, "vf_explained_var": 0.7702962756156921, "vf_loss": 5.180959701538086, "kl": 0.01979559287428856, "entropy": 0.47416597604751587, "total_loss": 5.144960403442383, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.7306472063064575}, "sample_time_ms": 47145.845, "num_steps_trained": 2145600, "grad_time_ms": 374.428, "update_time_ms": 2.608, "num_steps_sampled": 2145600, "load_time_ms": 0.664}, "iterations_since_restore": 98, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 72887.10493731499, "episode_len_mean": 4.0200668896321075, "time_since_restore": 4731.366690635681, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757128190, "timesteps_since_restore": 118800, "episodes_total": 242877, "episode_reward_min": -4.996490736963114, "pid": 2334312, "episode_reward_max": 4.000843361157734, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-09-50", "timesteps_total": 2146800, "episode_reward_mean": 3.970194467640546, "custom_metrics": {}, "time_this_iter_s": 47.44288992881775, "training_iteration": 1789, "info": {"default": {"policy_loss": -0.041219256818294525, "vf_explained_var": 0.8776981234550476, "vf_loss": 0.7124969363212585, "kl": 0.012544024735689163, "entropy": 0.27658790349960327, "total_loss": 0.6804429888725281, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.7306472063064575}, "sample_time_ms": 47156.888, "num_steps_trained": 2146800, "grad_time_ms": 376.698, "update_time_ms": 2.597, "num_steps_sampled": 2146800, "load_time_ms": 0.669}, "iterations_since_restore": 99, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 72934.88308596611, "episode_len_mean": 4.016778523489933, "time_since_restore": 4779.144839286804, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757128238, "timesteps_since_restore": 120000, "episodes_total": 243175, "episode_reward_min": -4.033889720607874, "pid": 2334312, "episode_reward_max": 4.000921412173653, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-10-38", "timesteps_total": 2148000, "episode_reward_mean": 3.9733228148094395, "custom_metrics": {}, "time_this_iter_s": 47.77814865112305, "training_iteration": 1790, "info": {"default": {"policy_loss": -0.033601563423871994, "vf_explained_var": 0.9381331205368042, "vf_loss": 0.3628860116004944, "kl": 0.014791673980653286, "entropy": 0.2597379684448242, "total_loss": 0.34009191393852234, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.7306472063064575}, "sample_time_ms": 47126.108, "num_steps_trained": 2148000, "grad_time_ms": 376.204, "update_time_ms": 2.583, "num_steps_sampled": 2148000, "load_time_ms": 0.667}, "iterations_since_restore": 100, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 72982.52081656456, "episode_len_mean": 4.0, "time_since_restore": 4826.782569885254, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757128286, "timesteps_since_restore": 121200, "episodes_total": 243475, "episode_reward_min": 4.000130772679695, "pid": 2334312, "episode_reward_max": 4.001455589274899, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-11-26", "timesteps_total": 2149200, "episode_reward_mean": 4.0002882181512085, "custom_metrics": {}, "time_this_iter_s": 47.63773059844971, "training_iteration": 1791, "info": {"default": {"policy_loss": -0.07369468361139297, "vf_explained_var": 0.9976054430007935, "vf_loss": 0.012811697088181973, "kl": 0.05313267558813095, "entropy": 0.33293089270591736, "total_loss": -0.022061748430132866, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.7306472063064575}, "sample_time_ms": 47064.426, "num_steps_trained": 2149200, "grad_time_ms": 376.401, "update_time_ms": 2.537, "num_steps_sampled": 2149200, "load_time_ms": 0.673}, "iterations_since_restore": 101, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 73029.85668540001, "episode_len_mean": 4.054054054054054, "time_since_restore": 4874.118438720703, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757128333, "timesteps_since_restore": 122400, "episodes_total": 243771, "episode_reward_min": -7.924044801350821, "pid": 2334312, "episode_reward_max": 4.001412148945274, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-12-13", "timesteps_total": 2150400, "episode_reward_mean": 3.9188815408871776, "custom_metrics": {}, "time_this_iter_s": 47.33586883544922, "training_iteration": 1792, "info": {"default": {"policy_loss": -0.04148438945412636, "vf_explained_var": 0.8336097002029419, "vf_loss": 1.3276872634887695, "kl": 0.011152352206408978, "entropy": 0.44545778632164, "total_loss": 1.298425555229187, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.095970869064331}, "sample_time_ms": 46996.293, "num_steps_trained": 2150400, "grad_time_ms": 376.398, "update_time_ms": 2.533, "num_steps_sampled": 2150400, "load_time_ms": 0.671}, "iterations_since_restore": 102, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 73078.1940703392, "episode_len_mean": 4.0608108108108105, "time_since_restore": 4922.455823659897, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757128382, "timesteps_since_restore": 123600, "episodes_total": 244067, "episode_reward_min": -12.016694187471956, "pid": 2334312, "episode_reward_max": 4.0007736467176995, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-13-02", "timesteps_total": 2151600, "episode_reward_mean": 3.902462852941613, "custom_metrics": {}, "time_this_iter_s": 48.337384939193726, "training_iteration": 1793, "info": {"default": {"policy_loss": -0.02983294241130352, "vf_explained_var": 0.7848330140113831, "vf_loss": 1.6687612533569336, "kl": 0.012841287069022655, "entropy": 0.3838137984275818, "total_loss": 1.6530020236968994, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.095970869064331}, "sample_time_ms": 47108.219, "num_steps_trained": 2151600, "grad_time_ms": 374.288, "update_time_ms": 2.578, "num_steps_sampled": 2151600, "load_time_ms": 0.665}, "iterations_since_restore": 103, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 73125.7743666172, "episode_len_mean": 4.141379310344828, "time_since_restore": 4970.036119937897, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 290, "timestamp": 1757128429, "timesteps_since_restore": 124800, "episodes_total": 244357, "episode_reward_min": -53.36556971119526, "pid": 2334312, "episode_reward_max": 4.001788826479663, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-13-49", "timesteps_total": 2152800, "episode_reward_mean": 3.774796863442175, "custom_metrics": {}, "time_this_iter_s": 47.58029627799988, "training_iteration": 1794, "info": {"default": {"policy_loss": -0.043031737208366394, "vf_explained_var": 0.6719948649406433, "vf_loss": 15.537534713745117, "kl": 0.006531393155455589, "entropy": 0.6167337894439697, "total_loss": 15.50166130065918, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.095970869064331}, "sample_time_ms": 47158.453, "num_steps_trained": 2152800, "grad_time_ms": 374.758, "update_time_ms": 2.539, "num_steps_sampled": 2152800, "load_time_ms": 0.663}, "iterations_since_restore": 104, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 73173.1521859169, "episode_len_mean": 4.116838487972508, "time_since_restore": 5017.413939237595, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757128477, "timesteps_since_restore": 126000, "episodes_total": 244648, "episode_reward_min": -12.307833511088628, "pid": 2334312, "episode_reward_max": 4.000933021659744, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-14-37", "timesteps_total": 2154000, "episode_reward_mean": 3.8189313013691146, "custom_metrics": {}, "time_this_iter_s": 47.377819299697876, "training_iteration": 1795, "info": {"default": {"policy_loss": -0.04105503857135773, "vf_explained_var": 0.6321879029273987, "vf_loss": 3.2680325508117676, "kl": 0.010954207740724087, "entropy": 0.5769299864768982, "total_loss": 3.238982915878296, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.095970869064331}, "sample_time_ms": 47166.701, "num_steps_trained": 2154000, "grad_time_ms": 374.909, "update_time_ms": 2.546, "num_steps_sampled": 2154000, "load_time_ms": 0.672}, "iterations_since_restore": 105, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 73220.43269610405, "episode_len_mean": 4.061016949152543, "time_since_restore": 5064.694449424744, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757128524, "timesteps_since_restore": 127200, "episodes_total": 244943, "episode_reward_min": -14.092505094181082, "pid": 2334312, "episode_reward_max": 4.001648724729673, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-15-24", "timesteps_total": 2155200, "episode_reward_mean": 3.904183469134501, "custom_metrics": {}, "time_this_iter_s": 47.28051018714905, "training_iteration": 1796, "info": {"default": {"policy_loss": -0.029733240604400635, "vf_explained_var": 0.8851281404495239, "vf_loss": 1.312211275100708, "kl": 0.030770979821681976, "entropy": 0.45473888516426086, "total_loss": 1.316202163696289, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.095970869064331}, "sample_time_ms": 47124.851, "num_steps_trained": 2155200, "grad_time_ms": 375.153, "update_time_ms": 2.564, "num_steps_sampled": 2155200, "load_time_ms": 0.679}, "iterations_since_restore": 106, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 73267.6991121769, "episode_len_mean": 4.173611111111111, "time_since_restore": 5111.960865497589, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 288, "timestamp": 1757128571, "timesteps_since_restore": 128400, "episodes_total": 245231, "episode_reward_min": -25.211158587938883, "pid": 2334312, "episode_reward_max": 4.000787443493975, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-16-11", "timesteps_total": 2156400, "episode_reward_mean": 3.7295086980073617, "custom_metrics": {}, "time_this_iter_s": 47.26641607284546, "training_iteration": 1797, "info": {"default": {"policy_loss": -0.044066231697797775, "vf_explained_var": 0.6686517000198364, "vf_loss": 6.8234052658081055, "kl": 0.009035014547407627, "entropy": 0.6353086233139038, "total_loss": 6.794191837310791, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.6439563035964966}, "sample_time_ms": 47122.073, "num_steps_trained": 2156400, "grad_time_ms": 373.358, "update_time_ms": 2.597, "num_steps_sampled": 2156400, "load_time_ms": 0.681}, "iterations_since_restore": 107, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 73315.89569616318, "episode_len_mean": 4.016722408026756, "time_since_restore": 5160.1574494838715, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757128619, "timesteps_since_restore": 129600, "episodes_total": 245530, "episode_reward_min": -4.0207717522256115, "pid": 2334312, "episode_reward_max": 4.001445655039134, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-16-59", "timesteps_total": 2157600, "episode_reward_mean": 3.9734742561179908, "custom_metrics": {}, "time_this_iter_s": 48.19658398628235, "training_iteration": 1798, "info": {"default": {"policy_loss": -0.0309531819075346, "vf_explained_var": 0.9498373866081238, "vf_loss": 0.29524174332618713, "kl": 0.010033391416072845, "entropy": 0.3737059235572815, "total_loss": 0.2807830274105072, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.6439563035964966}, "sample_time_ms": 47241.523, "num_steps_trained": 2157600, "grad_time_ms": 372.389, "update_time_ms": 2.583, "num_steps_sampled": 2157600, "load_time_ms": 0.687}, "iterations_since_restore": 108, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 73363.06055879593, "episode_len_mean": 4.074576271186441, "time_since_restore": 5207.322312116623, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757128667, "timesteps_since_restore": 130800, "episodes_total": 245825, "episode_reward_min": -10.052854494050933, "pid": 2334312, "episode_reward_max": 4.000987538782727, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-17-47", "timesteps_total": 2158800, "episode_reward_mean": 3.879240888126404, "custom_metrics": {}, "time_this_iter_s": 47.164862632751465, "training_iteration": 1799, "info": {"default": {"policy_loss": -0.036388739943504333, "vf_explained_var": 0.7988294959068298, "vf_loss": 1.5959023237228394, "kl": 0.009316742420196533, "entropy": 0.36715829372406006, "total_loss": 1.5748299360275269, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.6439563035964966}, "sample_time_ms": 47213.766, "num_steps_trained": 2158800, "grad_time_ms": 372.425, "update_time_ms": 2.549, "num_steps_sampled": 2158800, "load_time_ms": 0.682}, "iterations_since_restore": 109, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 73410.04350423813, "episode_len_mean": 4.078231292517007, "time_since_restore": 5254.305257558823, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757128714, "timesteps_since_restore": 132000, "episodes_total": 246119, "episode_reward_min": -20.44480511669633, "pid": 2334312, "episode_reward_max": 4.000914133707835, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-18-34", "timesteps_total": 2160000, "episode_reward_mean": 3.8828011225203034, "custom_metrics": {}, "time_this_iter_s": 46.98294544219971, "training_iteration": 1800, "info": {"default": {"policy_loss": -0.038360677659511566, "vf_explained_var": 0.7881182432174683, "vf_loss": 2.149399757385254, "kl": 0.007807980757206678, "entropy": 0.5245578289031982, "total_loss": 2.123875617980957, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.6439563035964966}, "sample_time_ms": 47136.085, "num_steps_trained": 2160000, "grad_time_ms": 370.502, "update_time_ms": 2.59, "num_steps_sampled": 2160000, "load_time_ms": 0.68}, "iterations_since_restore": 110, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 73457.09160876274, "episode_len_mean": 4.22887323943662, "time_since_restore": 5301.353362083435, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 284, "timestamp": 1757128761, "timesteps_since_restore": 133200, "episodes_total": 246403, "episode_reward_min": -18.64582907163721, "pid": 2334312, "episode_reward_max": 4.001335783724639, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-19-21", "timesteps_total": 2161200, "episode_reward_mean": 3.6383426818350597, "custom_metrics": {}, "time_this_iter_s": 47.04810452461243, "training_iteration": 1801, "info": {"default": {"policy_loss": -0.04862473905086517, "vf_explained_var": 0.5650343298912048, "vf_loss": 7.443848609924316, "kl": 0.021906530484557152, "entropy": 0.6373056769371033, "total_loss": 7.431236267089844, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.6439563035964966}, "sample_time_ms": 47077.911, "num_steps_trained": 2161200, "grad_time_ms": 369.627, "update_time_ms": 2.73, "num_steps_sampled": 2161200, "load_time_ms": 0.674}, "iterations_since_restore": 111, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 73504.27028608322, "episode_len_mean": 4.13840830449827, "time_since_restore": 5348.532039403915, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 289, "timestamp": 1757128808, "timesteps_since_restore": 134400, "episodes_total": 246692, "episode_reward_min": -17.241968100440527, "pid": 2334312, "episode_reward_max": 4.0017179773946845, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-20-08", "timesteps_total": 2162400, "episode_reward_mean": 3.789656850884701, "custom_metrics": {}, "time_this_iter_s": 47.17867732048035, "training_iteration": 1802, "info": {"default": {"policy_loss": -0.042309075593948364, "vf_explained_var": 0.7183666825294495, "vf_loss": 2.7842838764190674, "kl": 0.005347972735762596, "entropy": 0.5772764086723328, "total_loss": 2.7551627159118652, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.4659345149993896}, "sample_time_ms": 47060.084, "num_steps_trained": 2162400, "grad_time_ms": 371.771, "update_time_ms": 2.712, "num_steps_sampled": 2162400, "load_time_ms": 0.673}, "iterations_since_restore": 112, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 73550.9539129734, "episode_len_mean": 4.155172413793103, "time_since_restore": 5395.215666294098, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 290, "timestamp": 1757128855, "timesteps_since_restore": 135600, "episodes_total": 246982, "episode_reward_min": -23.86755363800406, "pid": 2334312, "episode_reward_max": 4.001381851281508, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-20-55", "timesteps_total": 2163600, "episode_reward_mean": 3.756860049464607, "custom_metrics": {}, "time_this_iter_s": 46.683626890182495, "training_iteration": 1803, "info": {"default": {"policy_loss": -0.04157194867730141, "vf_explained_var": 0.7024657130241394, "vf_loss": 4.018617630004883, "kl": 0.01095731370151043, "entropy": 0.5502112507820129, "total_loss": 4.00406551361084, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.4659345149993896}, "sample_time_ms": 46892.417, "num_steps_trained": 2163600, "grad_time_ms": 373.999, "update_time_ms": 2.691, "num_steps_sampled": 2163600, "load_time_ms": 0.68}, "iterations_since_restore": 113, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 73599.3542330265, "episode_len_mean": 4.074829931972789, "time_since_restore": 5443.6159863471985, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757128903, "timesteps_since_restore": 136800, "episodes_total": 247276, "episode_reward_min": -19.540228613718423, "pid": 2334312, "episode_reward_max": 4.000826859825986, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-21-43", "timesteps_total": 2164800, "episode_reward_mean": 3.8758971693295905, "custom_metrics": {}, "time_this_iter_s": 48.400320053100586, "training_iteration": 1804, "info": {"default": {"policy_loss": -0.031124519184231758, "vf_explained_var": 0.783247709274292, "vf_loss": 2.6573410034179688, "kl": 0.003882852615788579, "entropy": 0.36850225925445557, "total_loss": 2.635791063308716, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.4659345149993896}, "sample_time_ms": 46976.106, "num_steps_trained": 2164800, "grad_time_ms": 372.272, "update_time_ms": 2.734, "num_steps_sampled": 2164800, "load_time_ms": 0.677}, "iterations_since_restore": 114, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 73646.91362190247, "episode_len_mean": 4.14878892733564, "time_since_restore": 5491.17537522316, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 289, "timestamp": 1757128951, "timesteps_since_restore": 138000, "episodes_total": 247565, "episode_reward_min": -18.861732115990122, "pid": 2334312, "episode_reward_max": 4.000563015962303, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-22-31", "timesteps_total": 2166000, "episode_reward_mean": 3.7613480954762823, "custom_metrics": {}, "time_this_iter_s": 47.559388875961304, "training_iteration": 1805, "info": {"default": {"policy_loss": -0.044878821820020676, "vf_explained_var": 0.6551802158355713, "vf_loss": 4.806699275970459, "kl": 0.015878837555646896, "entropy": 0.5216043591499329, "total_loss": 4.781398296356201, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.2329672574996948}, "sample_time_ms": 46994.704, "num_steps_trained": 2166000, "grad_time_ms": 371.895, "update_time_ms": 2.725, "num_steps_sampled": 2166000, "load_time_ms": 0.671}, "iterations_since_restore": 115, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 73693.65780639648, "episode_len_mean": 4.1061643835616435, "time_since_restore": 5537.919559717178, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757128997, "timesteps_since_restore": 139200, "episodes_total": 247857, "episode_reward_min": -21.84238102079639, "pid": 2334312, "episode_reward_max": 4.00080001306835, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-23-17", "timesteps_total": 2167200, "episode_reward_mean": 3.836167795092899, "custom_metrics": {}, "time_this_iter_s": 46.744184494018555, "training_iteration": 1806, "info": {"default": {"policy_loss": -0.0437442921102047, "vf_explained_var": 0.7443065047264099, "vf_loss": 3.3722689151763916, "kl": 0.0035810135304927826, "entropy": 0.5267502665519714, "total_loss": 3.332940101623535, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.2329672574996948}, "sample_time_ms": 46941.255, "num_steps_trained": 2167200, "grad_time_ms": 371.793, "update_time_ms": 2.703, "num_steps_sampled": 2167200, "load_time_ms": 0.676}, "iterations_since_restore": 116, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 73741.070374012, "episode_len_mean": 4.081632653061225, "time_since_restore": 5585.332127332687, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757129045, "timesteps_since_restore": 140400, "episodes_total": 248151, "episode_reward_min": -22.86998721387196, "pid": 2334312, "episode_reward_max": 4.0006497225835105, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-24-05", "timesteps_total": 2168400, "episode_reward_mean": 3.871580240035792, "custom_metrics": {}, "time_this_iter_s": 47.41256761550903, "training_iteration": 1807, "info": {"default": {"policy_loss": -0.03876982256770134, "vf_explained_var": 0.739353358745575, "vf_loss": 3.1368091106414795, "kl": 0.011952627450227737, "entropy": 0.4361320734024048, "total_loss": 3.10540771484375, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.6164836287498474}, "sample_time_ms": 46955.674, "num_steps_trained": 2168400, "grad_time_ms": 372.001, "update_time_ms": 2.653, "num_steps_sampled": 2168400, "load_time_ms": 0.67}, "iterations_since_restore": 117, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 73788.37803268433, "episode_len_mean": 4.102739726027397, "time_since_restore": 5632.63978600502, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757129092, "timesteps_since_restore": 141600, "episodes_total": 248443, "episode_reward_min": -31.548288666975196, "pid": 2334312, "episode_reward_max": 4.001114983464658, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-24-52", "timesteps_total": 2169600, "episode_reward_mean": 3.8409073056975993, "custom_metrics": {}, "time_this_iter_s": 47.307658672332764, "training_iteration": 1808, "info": {"default": {"policy_loss": -0.04553340747952461, "vf_explained_var": 0.6647274494171143, "vf_loss": 5.496207237243652, "kl": 0.007243757601827383, "entropy": 0.5238347053527832, "total_loss": 5.45513916015625, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.6164836287498474}, "sample_time_ms": 46866.22, "num_steps_trained": 2169600, "grad_time_ms": 372.511, "update_time_ms": 2.675, "num_steps_sampled": 2169600, "load_time_ms": 0.672}, "iterations_since_restore": 118, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 73835.87156271935, "episode_len_mean": 4.181184668989547, "time_since_restore": 5680.133316040039, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 287, "timestamp": 1757129140, "timesteps_since_restore": 142800, "episodes_total": 248730, "episode_reward_min": -37.38762902488336, "pid": 2334312, "episode_reward_max": 4.0013280105268585, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-25-40", "timesteps_total": 2170800, "episode_reward_mean": 3.724097233144435, "custom_metrics": {}, "time_this_iter_s": 47.49353003501892, "training_iteration": 1809, "info": {"default": {"policy_loss": -0.04852912202477455, "vf_explained_var": 0.6997411847114563, "vf_loss": 8.882854461669922, "kl": 0.030921217054128647, "entropy": 0.6358577013015747, "total_loss": 8.853388786315918, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.6164836287498474}, "sample_time_ms": 46899.45, "num_steps_trained": 2170800, "grad_time_ms": 372.14, "update_time_ms": 2.686, "num_steps_sampled": 2170800, "load_time_ms": 0.677}, "iterations_since_restore": 119, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 73882.91210961342, "episode_len_mean": 4.09556313993174, "time_since_restore": 5727.173862934113, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 293, "timestamp": 1757129187, "timesteps_since_restore": 144000, "episodes_total": 249023, "episode_reward_min": -18.61833432714204, "pid": 2334312, "episode_reward_max": 4.001518972789365, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-26-27", "timesteps_total": 2172000, "episode_reward_mean": 3.8530747289344736, "custom_metrics": {}, "time_this_iter_s": 47.040546894073486, "training_iteration": 1810, "info": {"default": {"policy_loss": -0.041821639984846115, "vf_explained_var": 0.7682318687438965, "vf_loss": 2.729861259460449, "kl": 0.012235279195010662, "entropy": 0.5254402160644531, "total_loss": 2.6993541717529297, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.9247254133224487}, "sample_time_ms": 46902.449, "num_steps_trained": 2172000, "grad_time_ms": 374.986, "update_time_ms": 2.662, "num_steps_sampled": 2172000, "load_time_ms": 0.682}, "iterations_since_restore": 120, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 73931.44400453568, "episode_len_mean": 4.159722222222222, "time_since_restore": 5775.705757856369, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 288, "timestamp": 1757129235, "timesteps_since_restore": 145200, "episodes_total": 249311, "episode_reward_min": -26.392158160392142, "pid": 2334312, "episode_reward_max": 4.0009834629925045, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-27-15", "timesteps_total": 2173200, "episode_reward_mean": 3.7488001558166593, "custom_metrics": {}, "time_this_iter_s": 48.53189492225647, "training_iteration": 1811, "info": {"default": {"policy_loss": -0.05316900089383125, "vf_explained_var": 0.6644416451454163, "vf_loss": 4.994518756866455, "kl": 0.011403605341911316, "entropy": 0.5334479212760925, "total_loss": 4.951894760131836, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.9247254133224487}, "sample_time_ms": 47048.515, "num_steps_trained": 2173200, "grad_time_ms": 377.35, "update_time_ms": 2.543, "num_steps_sampled": 2173200, "load_time_ms": 0.68}, "iterations_since_restore": 121, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 73979.21932864189, "episode_len_mean": 4.08843537414966, "time_since_restore": 5823.481081962585, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757129283, "timesteps_since_restore": 146400, "episodes_total": 249605, "episode_reward_min": -8.082231571331384, "pid": 2334312, "episode_reward_max": 4.0010620749539765, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-28-03", "timesteps_total": 2174400, "episode_reward_mean": 3.8659491700988196, "custom_metrics": {}, "time_this_iter_s": 47.77532410621643, "training_iteration": 1812, "info": {"default": {"policy_loss": -0.04234446957707405, "vf_explained_var": 0.7866160273551941, "vf_loss": 1.590861201286316, "kl": 0.012317907996475697, "entropy": 0.41216379404067993, "total_loss": 1.5599074363708496, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.9247254133224487}, "sample_time_ms": 47109.473, "num_steps_trained": 2174400, "grad_time_ms": 375.947, "update_time_ms": 2.596, "num_steps_sampled": 2174400, "load_time_ms": 0.677}, "iterations_since_restore": 122, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 74027.01351809502, "episode_len_mean": 4.05050505050505, "time_since_restore": 5871.27527141571, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757129331, "timesteps_since_restore": 147600, "episodes_total": 249902, "episode_reward_min": -18.838994141638445, "pid": 2334312, "episode_reward_max": 4.000770294536599, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-28-51", "timesteps_total": 2175600, "episode_reward_mean": 3.9233840325942224, "custom_metrics": {}, "time_this_iter_s": 47.794189453125, "training_iteration": 1813, "info": {"default": {"policy_loss": -0.027673158794641495, "vf_explained_var": 0.802022397518158, "vf_loss": 1.9226679801940918, "kl": 0.0037496527656912804, "entropy": 0.3463689088821411, "total_loss": 1.8984625339508057, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.9247254133224487}, "sample_time_ms": 47220.585, "num_steps_trained": 2175600, "grad_time_ms": 375.895, "update_time_ms": 2.612, "num_steps_sampled": 2175600, "load_time_ms": 0.67}, "iterations_since_restore": 123, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 74074.64061903954, "episode_len_mean": 4.050675675675675, "time_since_restore": 5918.9023723602295, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757129378, "timesteps_since_restore": 148800, "episodes_total": 250198, "episode_reward_min": -9.606152251038427, "pid": 2334312, "episode_reward_max": 4.00065066672883, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-29-38", "timesteps_total": 2176800, "episode_reward_mean": 3.9205097981215, "custom_metrics": {}, "time_this_iter_s": 47.62710094451904, "training_iteration": 1814, "info": {"default": {"policy_loss": -0.04413864389061928, "vf_explained_var": 0.8609792590141296, "vf_loss": 1.0535223484039307, "kl": 0.006177795585244894, "entropy": 0.407347708940506, "total_loss": 1.0122400522232056, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.46236270666122437}, "sample_time_ms": 47141.353, "num_steps_trained": 2176800, "grad_time_ms": 377.799, "update_time_ms": 2.605, "num_steps_sampled": 2176800, "load_time_ms": 0.676}, "iterations_since_restore": 124, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 74122.33665060997, "episode_len_mean": 4.0608108108108105, "time_since_restore": 5966.598403930664, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757129426, "timesteps_since_restore": 150000, "episodes_total": 250494, "episode_reward_min": -17.97850435500056, "pid": 2334312, "episode_reward_max": 4.000804477972018, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-30-26", "timesteps_total": 2178000, "episode_reward_mean": 3.90564920204868, "custom_metrics": {}, "time_this_iter_s": 47.69603157043457, "training_iteration": 1815, "info": {"default": {"policy_loss": -0.03164695203304291, "vf_explained_var": 0.8096145987510681, "vf_loss": 1.940568447113037, "kl": 0.010061434470117092, "entropy": 0.43537160754203796, "total_loss": 1.9135736227035522, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.46236270666122437}, "sample_time_ms": 47156.15, "num_steps_trained": 2178000, "grad_time_ms": 376.682, "update_time_ms": 2.625, "num_steps_sampled": 2178000, "load_time_ms": 0.676}, "iterations_since_restore": 125, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 74170.25751161575, "episode_len_mean": 4.085034013605442, "time_since_restore": 6014.519264936447, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757129474, "timesteps_since_restore": 151200, "episodes_total": 250788, "episode_reward_min": -34.08090655555457, "pid": 2334312, "episode_reward_max": 4.001004460900586, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-31-14", "timesteps_total": 2179200, "episode_reward_mean": 3.8571663126551194, "custom_metrics": {}, "time_this_iter_s": 47.92086100578308, "training_iteration": 1816, "info": {"default": {"policy_loss": -0.04190390929579735, "vf_explained_var": 0.7680581212043762, "vf_loss": 4.924640655517578, "kl": 0.01810595393180847, "entropy": 0.41083794832229614, "total_loss": 4.89110803604126, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.46236270666122437}, "sample_time_ms": 47272.194, "num_steps_trained": 2179200, "grad_time_ms": 378.286, "update_time_ms": 2.605, "num_steps_sampled": 2179200, "load_time_ms": 0.673}, "iterations_since_restore": 126, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 74218.42702460289, "episode_len_mean": 4.023489932885906, "time_since_restore": 6062.688777923584, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757129522, "timesteps_since_restore": 152400, "episodes_total": 251086, "episode_reward_min": -6.807302583900995, "pid": 2334312, "episode_reward_max": 4.000707075929038, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-32-02", "timesteps_total": 2180400, "episode_reward_mean": 3.9640170325272757, "custom_metrics": {}, "time_this_iter_s": 48.16951298713684, "training_iteration": 1817, "info": {"default": {"policy_loss": -0.03509259968996048, "vf_explained_var": 0.9272304177284241, "vf_loss": 0.4773139953613281, "kl": 0.015366345643997192, "entropy": 0.41153568029403687, "total_loss": 0.4493263065814972, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.46236270666122437}, "sample_time_ms": 47346.085, "num_steps_trained": 2180400, "grad_time_ms": 380.046, "update_time_ms": 2.62, "num_steps_sampled": 2180400, "load_time_ms": 0.692}, "iterations_since_restore": 127, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 74266.1389849186, "episode_len_mean": 4.092150170648464, "time_since_restore": 6110.400738239288, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 293, "timestamp": 1757129570, "timesteps_since_restore": 153600, "episodes_total": 251379, "episode_reward_min": -31.997101438971825, "pid": 2334312, "episode_reward_max": 4.000696922589665, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-32-50", "timesteps_total": 2181600, "episode_reward_mean": 3.850051681409514, "custom_metrics": {}, "time_this_iter_s": 47.711960315704346, "training_iteration": 1818, "info": {"default": {"policy_loss": -0.042657818645238876, "vf_explained_var": 0.7608414888381958, "vf_loss": 5.137951374053955, "kl": 0.018400000408291817, "entropy": 0.41734176874160767, "total_loss": 5.103801250457764, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.46236270666122437}, "sample_time_ms": 47388.657, "num_steps_trained": 2181600, "grad_time_ms": 377.924, "update_time_ms": 2.604, "num_steps_sampled": 2181600, "load_time_ms": 0.69}, "iterations_since_restore": 128, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 74313.60901427269, "episode_len_mean": 4.026845637583893, "time_since_restore": 6157.870767593384, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757129617, "timesteps_since_restore": 154800, "episodes_total": 251677, "episode_reward_min": -2.106183536406432, "pid": 2334312, "episode_reward_max": 4.0008515427344, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-33-37", "timesteps_total": 2182800, "episode_reward_mean": 3.962668089190217, "custom_metrics": {}, "time_this_iter_s": 47.47002935409546, "training_iteration": 1819, "info": {"default": {"policy_loss": -0.040120866149663925, "vf_explained_var": 0.9009501338005066, "vf_loss": 0.540762722492218, "kl": 0.015206964686512947, "entropy": 0.29499462246894836, "total_loss": 0.5076729655265808, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.46236270666122437}, "sample_time_ms": 47386.662, "num_steps_trained": 2182800, "grad_time_ms": 377.585, "update_time_ms": 2.581, "num_steps_sampled": 2182800, "load_time_ms": 0.685}, "iterations_since_restore": 129, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 74361.18790102005, "episode_len_mean": 4.050675675675675, "time_since_restore": 6205.449654340744, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757129665, "timesteps_since_restore": 156000, "episodes_total": 251973, "episode_reward_min": -10.837751367868123, "pid": 2334312, "episode_reward_max": 4.000685347973668, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-34-25", "timesteps_total": 2184000, "episode_reward_mean": 3.9204192051028124, "custom_metrics": {}, "time_this_iter_s": 47.57888674736023, "training_iteration": 1820, "info": {"default": {"policy_loss": -0.03428466618061066, "vf_explained_var": 0.8643582463264465, "vf_loss": 1.1477547883987427, "kl": 0.014617595821619034, "entropy": 0.3556648790836334, "total_loss": 1.12022864818573, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.46236270666122437}, "sample_time_ms": 47441.153, "num_steps_trained": 2184000, "grad_time_ms": 376.861, "update_time_ms": 2.598, "num_steps_sampled": 2184000, "load_time_ms": 0.684}, "iterations_since_restore": 130, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 74408.12455677986, "episode_len_mean": 4.116438356164384, "time_since_restore": 6252.386310100555, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757129712, "timesteps_since_restore": 157200, "episodes_total": 252265, "episode_reward_min": -17.575471738281596, "pid": 2334312, "episode_reward_max": 4.001192002509599, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-35-12", "timesteps_total": 2185200, "episode_reward_mean": 3.8112265768533917, "custom_metrics": {}, "time_this_iter_s": 46.9366557598114, "training_iteration": 1821, "info": {"default": {"policy_loss": -0.02396087720990181, "vf_explained_var": 0.7302894592285156, "vf_loss": 3.057023525238037, "kl": 0.06988102197647095, "entropy": 0.37354934215545654, "total_loss": 3.065372943878174, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.46236270666122437}, "sample_time_ms": 47283.02, "num_steps_trained": 2185200, "grad_time_ms": 375.348, "update_time_ms": 2.66, "num_steps_sampled": 2185200, "load_time_ms": 0.69}, "iterations_since_restore": 131, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 74455.07936358452, "episode_len_mean": 4.149305555555555, "time_since_restore": 6299.341116905212, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 288, "timestamp": 1757129759, "timesteps_since_restore": 158400, "episodes_total": 252553, "episode_reward_min": -21.76576080387618, "pid": 2334312, "episode_reward_max": 4.000714887556034, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-35-59", "timesteps_total": 2186400, "episode_reward_mean": 3.762765235136054, "custom_metrics": {}, "time_this_iter_s": 46.95480680465698, "training_iteration": 1822, "info": {"default": {"policy_loss": -0.03941376507282257, "vf_explained_var": 0.6782252192497253, "vf_loss": 4.105717658996582, "kl": 0.028611838817596436, "entropy": 0.4694870412349701, "total_loss": 4.086147785186768, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.6935440301895142}, "sample_time_ms": 47199.294, "num_steps_trained": 2186400, "grad_time_ms": 377.042, "update_time_ms": 2.664, "num_steps_sampled": 2186400, "load_time_ms": 0.693}, "iterations_since_restore": 132, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 74503.19592189789, "episode_len_mean": 4.09556313993174, "time_since_restore": 6347.457675218582, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 293, "timestamp": 1757129807, "timesteps_since_restore": 159600, "episodes_total": 252846, "episode_reward_min": -21.340497859473963, "pid": 2334312, "episode_reward_max": 4.00174293162212, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-36-47", "timesteps_total": 2187600, "episode_reward_mean": 3.8522087041680897, "custom_metrics": {}, "time_this_iter_s": 48.11655831336975, "training_iteration": 1823, "info": {"default": {"policy_loss": -0.03725145012140274, "vf_explained_var": 0.7854400277137756, "vf_loss": 3.017845630645752, "kl": 0.01292528584599495, "entropy": 0.44918113946914673, "total_loss": 2.9940404891967773, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.040316104888916}, "sample_time_ms": 47231.442, "num_steps_trained": 2187600, "grad_time_ms": 377.136, "update_time_ms": 2.667, "num_steps_sampled": 2187600, "load_time_ms": 0.699}, "iterations_since_restore": 133, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 74551.20422959328, "episode_len_mean": 4.11986301369863, "time_since_restore": 6395.465982913971, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757129855, "timesteps_since_restore": 160800, "episodes_total": 253138, "episode_reward_min": -19.961134734875586, "pid": 2334312, "episode_reward_max": 4.002039402516145, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-37-35", "timesteps_total": 2188800, "episode_reward_mean": 3.8069121785839943, "custom_metrics": {}, "time_this_iter_s": 48.008307695388794, "training_iteration": 1824, "info": {"default": {"policy_loss": -0.049473658204078674, "vf_explained_var": 0.7400376200675964, "vf_loss": 3.4845690727233887, "kl": 0.016380352899432182, "entropy": 0.47838959097862244, "total_loss": 3.4521360397338867, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.040316104888916}, "sample_time_ms": 47270.146, "num_steps_trained": 2188800, "grad_time_ms": 376.559, "update_time_ms": 2.652, "num_steps_sampled": 2188800, "load_time_ms": 0.689}, "iterations_since_restore": 134, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 74598.82366490364, "episode_len_mean": 4.074829931972789, "time_since_restore": 6443.085418224335, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757129903, "timesteps_since_restore": 162000, "episodes_total": 253432, "episode_reward_min": -12.694145568512504, "pid": 2334312, "episode_reward_max": 4.0007192857641485, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-38-23", "timesteps_total": 2190000, "episode_reward_mean": 3.8820869273677663, "custom_metrics": {}, "time_this_iter_s": 47.61943531036377, "training_iteration": 1825, "info": {"default": {"policy_loss": -0.03684496879577637, "vf_explained_var": 0.8199340105056763, "vf_loss": 1.6335103511810303, "kl": 0.00808154046535492, "entropy": 0.3530767858028412, "total_loss": 1.6050728559494019, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.040316104888916}, "sample_time_ms": 47260.306, "num_steps_trained": 2190000, "grad_time_ms": 378.656, "update_time_ms": 2.657, "num_steps_sampled": 2190000, "load_time_ms": 0.698}, "iterations_since_restore": 135, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 74646.39850521088, "episode_len_mean": 4.016778523489933, "time_since_restore": 6490.66025853157, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757129950, "timesteps_since_restore": 163200, "episodes_total": 253730, "episode_reward_min": -4.049161223533098, "pid": 2334312, "episode_reward_max": 4.001010829047525, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-39-10", "timesteps_total": 2191200, "episode_reward_mean": 3.973270641649257, "custom_metrics": {}, "time_this_iter_s": 47.57484030723572, "training_iteration": 1826, "info": {"default": {"policy_loss": -0.032496023923158646, "vf_explained_var": 0.9169356822967529, "vf_loss": 0.5210483074188232, "kl": 0.0063787284307181835, "entropy": 0.400818794965744, "total_loss": 0.4951881766319275, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.040316104888916}, "sample_time_ms": 47227.528, "num_steps_trained": 2191200, "grad_time_ms": 376.855, "update_time_ms": 2.656, "num_steps_sampled": 2191200, "load_time_ms": 0.693}, "iterations_since_restore": 136, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 74693.17123436928, "episode_len_mean": 4.173611111111111, "time_since_restore": 6537.432987689972, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 288, "timestamp": 1757129997, "timesteps_since_restore": 164400, "episodes_total": 254018, "episode_reward_min": -27.87353193461201, "pid": 2334312, "episode_reward_max": 4.000997945157553, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-39-57", "timesteps_total": 2192400, "episode_reward_mean": 3.719973800299913, "custom_metrics": {}, "time_this_iter_s": 46.77272915840149, "training_iteration": 1827, "info": {"default": {"policy_loss": -0.05382465198636055, "vf_explained_var": 0.7018644213676453, "vf_loss": 4.539086818695068, "kl": 0.005136981140822172, "entropy": 0.4997901916503906, "total_loss": 4.49060583114624, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.040316104888916}, "sample_time_ms": 47089.364, "num_steps_trained": 2192400, "grad_time_ms": 375.317, "update_time_ms": 2.685, "num_steps_sampled": 2192400, "load_time_ms": 0.67}, "iterations_since_restore": 137, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 74740.09929656982, "episode_len_mean": 4.102389078498294, "time_since_restore": 6584.361049890518, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 293, "timestamp": 1757130044, "timesteps_since_restore": 165600, "episodes_total": 254311, "episode_reward_min": -15.444386928622162, "pid": 2334312, "episode_reward_max": 4.000735849825142, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-40-44", "timesteps_total": 2193600, "episode_reward_mean": 3.8358984919761974, "custom_metrics": {}, "time_this_iter_s": 46.928062200546265, "training_iteration": 1828, "info": {"default": {"policy_loss": -0.03530273959040642, "vf_explained_var": 0.7755424380302429, "vf_loss": 2.329279899597168, "kl": 0.012858254835009575, "entropy": 0.49671778082847595, "total_loss": 2.307353973388672, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.040316104888916}, "sample_time_ms": 47007.449, "num_steps_trained": 2193600, "grad_time_ms": 378.768, "update_time_ms": 2.687, "num_steps_sampled": 2193600, "load_time_ms": 0.682}, "iterations_since_restore": 138, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 74788.50078749657, "episode_len_mean": 4.1058020477815695, "time_since_restore": 6632.762540817261, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 293, "timestamp": 1757130093, "timesteps_since_restore": 166800, "episodes_total": 254604, "episode_reward_min": -13.026849228215422, "pid": 2334312, "episode_reward_max": 4.000760838153397, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-41-33", "timesteps_total": 2194800, "episode_reward_mean": 3.8283005138623105, "custom_metrics": {}, "time_this_iter_s": 48.401490926742554, "training_iteration": 1829, "info": {"default": {"policy_loss": -0.05361710116267204, "vf_explained_var": 0.7544782161712646, "vf_loss": 2.1717634201049805, "kl": 0.022402411326766014, "entropy": 0.48214733600616455, "total_loss": 2.1414523124694824, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.040316104888916}, "sample_time_ms": 47099.097, "num_steps_trained": 2194800, "grad_time_ms": 380.135, "update_time_ms": 2.739, "num_steps_sampled": 2194800, "load_time_ms": 0.703}, "iterations_since_restore": 139, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 74836.05131959915, "episode_len_mean": 4.050675675675675, "time_since_restore": 6680.313072919846, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757130140, "timesteps_since_restore": 168000, "episodes_total": 254900, "episode_reward_min": -5.525207072306397, "pid": 2334312, "episode_reward_max": 4.000831942925734, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-42-20", "timesteps_total": 2196000, "episode_reward_mean": 3.920509646958546, "custom_metrics": {}, "time_this_iter_s": 47.55053210258484, "training_iteration": 1830, "info": {"default": {"policy_loss": -0.03398503363132477, "vf_explained_var": 0.9044457674026489, "vf_loss": 0.661181628704071, "kl": 0.006426190957427025, "entropy": 0.25790247321128845, "total_loss": 0.637224555015564, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.560474157333374}, "sample_time_ms": 47094.748, "num_steps_trained": 2196000, "grad_time_ms": 381.643, "update_time_ms": 2.761, "num_steps_sampled": 2196000, "load_time_ms": 0.703}, "iterations_since_restore": 140, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 74883.67686414719, "episode_len_mean": 4.116838487972508, "time_since_restore": 6727.93861746788, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757130188, "timesteps_since_restore": 169200, "episodes_total": 255191, "episode_reward_min": -22.226235535165912, "pid": 2334312, "episode_reward_max": 4.000637036577693, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-43-08", "timesteps_total": 2197200, "episode_reward_mean": 3.807042240378246, "custom_metrics": {}, "time_this_iter_s": 47.62554454803467, "training_iteration": 1831, "info": {"default": {"policy_loss": -0.03722294047474861, "vf_explained_var": 0.7120923399925232, "vf_loss": 4.388881683349609, "kl": 0.013325954787433147, "entropy": 0.4862203598022461, "total_loss": 4.372453689575195, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.560474157333374}, "sample_time_ms": 47165.057, "num_steps_trained": 2197200, "grad_time_ms": 380.412, "update_time_ms": 2.684, "num_steps_sampled": 2197200, "load_time_ms": 0.7}, "iterations_since_restore": 141, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 74931.20157575607, "episode_len_mean": 4.016722408026756, "time_since_restore": 6775.463329076767, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757130235, "timesteps_since_restore": 170400, "episodes_total": 255490, "episode_reward_min": -4.077991206375513, "pid": 2334312, "episode_reward_max": 4.001020814266621, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-43-55", "timesteps_total": 2198400, "episode_reward_mean": 3.9732726392445423, "custom_metrics": {}, "time_this_iter_s": 47.52471160888672, "training_iteration": 1832, "info": {"default": {"policy_loss": -0.020948641002178192, "vf_explained_var": 0.9675207138061523, "vf_loss": 0.2010871171951294, "kl": 0.002848875243216753, "entropy": 0.24769295752048492, "total_loss": 0.18458408117294312, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.560474157333374}, "sample_time_ms": 47223.917, "num_steps_trained": 2198400, "grad_time_ms": 378.561, "update_time_ms": 2.612, "num_steps_sampled": 2198400, "load_time_ms": 0.698}, "iterations_since_restore": 142, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 74977.81336379051, "episode_len_mean": 4.037037037037037, "time_since_restore": 6822.075117111206, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757130282, "timesteps_since_restore": 171600, "episodes_total": 255787, "episode_reward_min": -13.631504289479995, "pid": 2334312, "episode_reward_max": 4.000747678024736, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-44-42", "timesteps_total": 2199600, "episode_reward_mean": 3.9409218677323437, "custom_metrics": {}, "time_this_iter_s": 46.61178803443909, "training_iteration": 1833, "info": {"default": {"policy_loss": -0.021853763610124588, "vf_explained_var": 0.8717586994171143, "vf_loss": 1.0743268728256226, "kl": 0.0029221123550087214, "entropy": 0.354513019323349, "total_loss": 1.0547528266906738, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.780237078666687}, "sample_time_ms": 47075.742, "num_steps_trained": 2199600, "grad_time_ms": 376.256, "update_time_ms": 2.647, "num_steps_sampled": 2199600, "load_time_ms": 0.693}, "iterations_since_restore": 143, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 75023.65401315689, "episode_len_mean": 4.0641891891891895, "time_since_restore": 6867.915766477585, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757130328, "timesteps_since_restore": 172800, "episodes_total": 256083, "episode_reward_min": -10.383780704699443, "pid": 2334312, "episode_reward_max": 4.000655939070133, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-45-28", "timesteps_total": 2200800, "episode_reward_mean": 3.9039842775562654, "custom_metrics": {}, "time_this_iter_s": 45.840649366378784, "training_iteration": 1834, "info": {"default": {"policy_loss": -0.03018999472260475, "vf_explained_var": 0.8407314419746399, "vf_loss": 1.1630898714065552, "kl": 0.04825218766927719, "entropy": 0.4215030074119568, "total_loss": 1.151723861694336, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.3901185393333435}, "sample_time_ms": 46859.067, "num_steps_trained": 2200800, "grad_time_ms": 376.195, "update_time_ms": 2.642, "num_steps_sampled": 2200800, "load_time_ms": 0.697}, "iterations_since_restore": 144, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 75069.14417624474, "episode_len_mean": 4.0, "time_since_restore": 6913.40592956543, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757130373, "timesteps_since_restore": 174000, "episodes_total": 256383, "episode_reward_min": 4.000135046522992, "pid": 2334312, "episode_reward_max": 4.000801113331027, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-46-13", "timesteps_total": 2202000, "episode_reward_mean": 4.00029352286205, "custom_metrics": {}, "time_this_iter_s": 45.49016308784485, "training_iteration": 1835, "info": {"default": {"policy_loss": -0.08079659193754196, "vf_explained_var": 0.9997201561927795, "vf_loss": 0.0015042484737932682, "kl": 0.05274591222405434, "entropy": 0.3130916655063629, "total_loss": -0.048426609486341476, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.5851777791976929}, "sample_time_ms": 46646.743, "num_steps_trained": 2202000, "grad_time_ms": 375.548, "update_time_ms": 2.668, "num_steps_sampled": 2202000, "load_time_ms": 0.686}, "iterations_since_restore": 145, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 75115.44589400291, "episode_len_mean": 4.050675675675675, "time_since_restore": 6959.707647323608, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757130420, "timesteps_since_restore": 175200, "episodes_total": 256679, "episode_reward_min": -4.885238842229954, "pid": 2334312, "episode_reward_max": 4.000636133804049, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-47-00", "timesteps_total": 2203200, "episode_reward_mean": 3.921759842234415, "custom_metrics": {}, "time_this_iter_s": 46.30171775817871, "training_iteration": 1836, "info": {"default": {"policy_loss": -0.03447449207305908, "vf_explained_var": 0.9125626087188721, "vf_loss": 0.5881636142730713, "kl": 0.010929024778306484, "entropy": 0.35069242119789124, "total_loss": 0.5632822513580322, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.8777666687965393}, "sample_time_ms": 46518.036, "num_steps_trained": 2203200, "grad_time_ms": 376.872, "update_time_ms": 2.7, "num_steps_sampled": 2203200, "load_time_ms": 0.688}, "iterations_since_restore": 146, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 75161.51444578171, "episode_len_mean": 4.064406779661017, "time_since_restore": 7005.776199102402, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757130466, "timesteps_since_restore": 176400, "episodes_total": 256974, "episode_reward_min": -16.011714040076104, "pid": 2334312, "episode_reward_max": 4.000737724029767, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-47-46", "timesteps_total": 2204400, "episode_reward_mean": 3.8950885698152855, "custom_metrics": {}, "time_this_iter_s": 46.068551778793335, "training_iteration": 1837, "info": {"default": {"policy_loss": -0.03801891580224037, "vf_explained_var": 0.7959055304527283, "vf_loss": 1.8452504873275757, "kl": 0.012367380782961845, "entropy": 0.30684465169906616, "total_loss": 1.8180872201919556, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.8777666687965393}, "sample_time_ms": 46447.379, "num_steps_trained": 2204400, "grad_time_ms": 377.151, "update_time_ms": 2.73, "num_steps_sampled": 2204400, "load_time_ms": 0.688}, "iterations_since_restore": 147, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 75206.97800970078, "episode_len_mean": 4.123711340206185, "time_since_restore": 7051.239763021469, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757130511, "timesteps_since_restore": 177600, "episodes_total": 257265, "episode_reward_min": -18.652308490047705, "pid": 2334312, "episode_reward_max": 4.001042678419683, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-48-31", "timesteps_total": 2205600, "episode_reward_mean": 3.803598556830198, "custom_metrics": {}, "time_this_iter_s": 45.46356391906738, "training_iteration": 1838, "info": {"default": {"policy_loss": -0.04486410319805145, "vf_explained_var": 0.7150342464447021, "vf_loss": 3.24637508392334, "kl": 0.009815692901611328, "entropy": 0.4930560886859894, "total_loss": 3.2101261615753174, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.8777666687965393}, "sample_time_ms": 46302.88, "num_steps_trained": 2205600, "grad_time_ms": 375.296, "update_time_ms": 2.707, "num_steps_sampled": 2205600, "load_time_ms": 0.676}, "iterations_since_restore": 148, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 75253.26870059967, "episode_len_mean": 4.026845637583893, "time_since_restore": 7097.530453920364, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757130558, "timesteps_since_restore": 178800, "episodes_total": 257563, "episode_reward_min": -2.1161151538002763, "pid": 2334312, "episode_reward_max": 4.001080015573713, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-49-18", "timesteps_total": 2206800, "episode_reward_mean": 3.959477672958715, "custom_metrics": {}, "time_this_iter_s": 46.290690898895264, "training_iteration": 1839, "info": {"default": {"policy_loss": -0.02972397953271866, "vf_explained_var": 0.9547882080078125, "vf_loss": 0.26610267162323, "kl": 0.005606474354863167, "entropy": 0.20711767673492432, "total_loss": 0.24129989743232727, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.8777666687965393}, "sample_time_ms": 46094.903, "num_steps_trained": 2206800, "grad_time_ms": 372.287, "update_time_ms": 2.714, "num_steps_sampled": 2206800, "load_time_ms": 0.653}, "iterations_since_restore": 149, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 75299.21229076385, "episode_len_mean": 4.095890410958904, "time_since_restore": 7143.474044084549, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757130603, "timesteps_since_restore": 180000, "episodes_total": 257855, "episode_reward_min": -6.439598624863805, "pid": 2334312, "episode_reward_max": 4.0015169381423865, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-50-03", "timesteps_total": 2208000, "episode_reward_mean": 3.858441137523071, "custom_metrics": {}, "time_this_iter_s": 45.94359016418457, "training_iteration": 1840, "info": {"default": {"policy_loss": -0.04849278926849365, "vf_explained_var": 0.817703366279602, "vf_loss": 1.310878872871399, "kl": 0.020162111148238182, "entropy": 0.41870471835136414, "total_loss": 1.2800837755203247, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.8777666687965393}, "sample_time_ms": 45937.572, "num_steps_trained": 2208000, "grad_time_ms": 368.95, "update_time_ms": 2.68, "num_steps_sampled": 2208000, "load_time_ms": 0.648}, "iterations_since_restore": 150, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 75344.98937177658, "episode_len_mean": 4.134020618556701, "time_since_restore": 7189.251125097275, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757130649, "timesteps_since_restore": 181200, "episodes_total": 258146, "episode_reward_min": -24.573416340800485, "pid": 2334312, "episode_reward_max": 4.001580908061522, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-50-49", "timesteps_total": 2209200, "episode_reward_mean": 3.7880809256106818, "custom_metrics": {}, "time_this_iter_s": 45.77708101272583, "training_iteration": 1841, "info": {"default": {"policy_loss": -0.04202060401439667, "vf_explained_var": 0.8490738868713379, "vf_loss": 1.7113728523254395, "kl": 0.011162006296217442, "entropy": 0.5132784247398376, "total_loss": 1.6840486526489258, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.3166500329971313}, "sample_time_ms": 45751.368, "num_steps_trained": 2209200, "grad_time_ms": 370.189, "update_time_ms": 2.747, "num_steps_sampled": 2209200, "load_time_ms": 0.662}, "iterations_since_restore": 151, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 75390.88838148117, "episode_len_mean": 4.040268456375839, "time_since_restore": 7235.150134801865, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757130695, "timesteps_since_restore": 182400, "episodes_total": 258444, "episode_reward_min": -4.078702935615812, "pid": 2334312, "episode_reward_max": 4.0008241991118805, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-51-35", "timesteps_total": 2210400, "episode_reward_mean": 3.939329798338864, "custom_metrics": {}, "time_this_iter_s": 45.899009704589844, "training_iteration": 1842, "info": {"default": {"policy_loss": -0.04393967613577843, "vf_explained_var": 0.929117739200592, "vf_loss": 0.5048727989196777, "kl": 0.008388086222112179, "entropy": 0.28077882528305054, "total_loss": 0.4719773530960083, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.3166500329971313}, "sample_time_ms": 45589.381, "num_steps_trained": 2210400, "grad_time_ms": 369.69, "update_time_ms": 2.739, "num_steps_sampled": 2210400, "load_time_ms": 0.664}, "iterations_since_restore": 152, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 75436.69336032867, "episode_len_mean": 4.0, "time_since_restore": 7280.955113649368, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757130741, "timesteps_since_restore": 183600, "episodes_total": 258744, "episode_reward_min": 4.000140125317033, "pid": 2334312, "episode_reward_max": 4.001181777687737, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-52-21", "timesteps_total": 2211600, "episode_reward_mean": 4.000287035035451, "custom_metrics": {}, "time_this_iter_s": 45.80497884750366, "training_iteration": 1843, "info": {"default": {"policy_loss": -0.08000896871089935, "vf_explained_var": 0.9993896484375, "vf_loss": 0.0033421458210796118, "kl": 0.02167486399412155, "entropy": 0.2671394348144531, "total_loss": -0.048128604888916016, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.3166500329971313}, "sample_time_ms": 45506.952, "num_steps_trained": 2211600, "grad_time_ms": 371.475, "update_time_ms": 2.693, "num_steps_sampled": 2211600, "load_time_ms": 0.665}, "iterations_since_restore": 153, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 75482.3822350502, "episode_len_mean": 4.305755395683454, "time_since_restore": 7326.643988370895, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 278, "timestamp": 1757130787, "timesteps_since_restore": 184800, "episodes_total": 259022, "episode_reward_min": -29.02086571690532, "pid": 2334312, "episode_reward_max": 4.000729057035401, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-53-07", "timesteps_total": 2212800, "episode_reward_mean": 3.523914609475072, "custom_metrics": {}, "time_this_iter_s": 45.6888747215271, "training_iteration": 1844, "info": {"default": {"policy_loss": -0.058797724545001984, "vf_explained_var": 0.533039927482605, "vf_loss": 11.604549407958984, "kl": 0.011842955835163593, "entropy": 0.7111833691596985, "total_loss": 11.569141387939453, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.9749751091003418}, "sample_time_ms": 45491.518, "num_steps_trained": 2212800, "grad_time_ms": 371.752, "update_time_ms": 2.672, "num_steps_sampled": 2212800, "load_time_ms": 0.665}, "iterations_since_restore": 154, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 75528.09742450714, "episode_len_mean": 4.2, "time_since_restore": 7372.359177827835, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 285, "timestamp": 1757130832, "timesteps_since_restore": 186000, "episodes_total": 259307, "episode_reward_min": -15.971092544316285, "pid": 2334312, "episode_reward_max": 4.000613004886165, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-53-52", "timesteps_total": 2214000, "episode_reward_mean": 3.6969561931922774, "custom_metrics": {}, "time_this_iter_s": 45.7151894569397, "training_iteration": 1845, "info": {"default": {"policy_loss": -0.06038514897227287, "vf_explained_var": 0.5761942863464355, "vf_loss": 5.127499103546143, "kl": 0.010162637569010258, "entropy": 0.5491045117378235, "total_loss": 5.087184906005859, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.9749751091003418}, "sample_time_ms": 45515.861, "num_steps_trained": 2214000, "grad_time_ms": 370.055, "update_time_ms": 2.648, "num_steps_sampled": 2214000, "load_time_ms": 0.67}, "iterations_since_restore": 155, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 75573.76189231873, "episode_len_mean": 4.080701754385965, "time_since_restore": 7418.02364563942, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 285, "timestamp": 1757130878, "timesteps_since_restore": 187200, "episodes_total": 259592, "episode_reward_min": -26.355486617353975, "pid": 2334312, "episode_reward_max": 4.000650725197337, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-54-38", "timesteps_total": 2215200, "episode_reward_mean": 3.872651329324003, "custom_metrics": {}, "time_this_iter_s": 45.66446781158447, "training_iteration": 1846, "info": {"default": {"policy_loss": -0.055732421576976776, "vf_explained_var": 0.5930270552635193, "vf_loss": 16.839548110961914, "kl": 0.008140862919390202, "entropy": 0.5860522389411926, "total_loss": 16.79989242553711, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.9749751091003418}, "sample_time_ms": 45453.692, "num_steps_trained": 2215200, "grad_time_ms": 368.628, "update_time_ms": 2.609, "num_steps_sampled": 2215200, "load_time_ms": 0.669}, "iterations_since_restore": 156, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 75619.23352718353, "episode_len_mean": 4.210884353741497, "time_since_restore": 7463.495280504227, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757130924, "timesteps_since_restore": 188400, "episodes_total": 259886, "episode_reward_min": -52.43957047095843, "pid": 2334312, "episode_reward_max": 4.0007852070761825, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-55-24", "timesteps_total": 2216400, "episode_reward_mean": 3.663134736712625, "custom_metrics": {}, "time_this_iter_s": 45.47163486480713, "training_iteration": 1847, "info": {"default": {"policy_loss": -0.03183676302433014, "vf_explained_var": 0.8108540177345276, "vf_loss": 1.3793954849243164, "kl": 0.008826267905533314, "entropy": 0.37350305914878845, "total_loss": 1.3649903535842896, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.9749751091003418}, "sample_time_ms": 45393.145, "num_steps_trained": 2216400, "grad_time_ms": 369.522, "update_time_ms": 2.522, "num_steps_sampled": 2216400, "load_time_ms": 0.667}, "iterations_since_restore": 157, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 75664.42383646965, "episode_len_mean": 4.1923076923076925, "time_since_restore": 7508.685589790344, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 286, "timestamp": 1757130969, "timesteps_since_restore": 189600, "episodes_total": 260172, "episode_reward_min": -38.59328445956326, "pid": 2334312, "episode_reward_max": 4.000920458547258, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-56-09", "timesteps_total": 2217600, "episode_reward_mean": 3.6886048192964878, "custom_metrics": {}, "time_this_iter_s": 45.190309286117554, "training_iteration": 1848, "info": {"default": {"policy_loss": -0.04714412987232208, "vf_explained_var": 0.5442908406257629, "vf_loss": 15.4759521484375, "kl": 0.009274362586438656, "entropy": 0.5747358202934265, "total_loss": 15.447124481201172, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.9749751091003418}, "sample_time_ms": 45364.8, "num_steps_trained": 2217600, "grad_time_ms": 370.512, "update_time_ms": 2.549, "num_steps_sampled": 2217600, "load_time_ms": 0.67}, "iterations_since_restore": 158, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 75709.88924407959, "episode_len_mean": 4.123287671232877, "time_since_restore": 7554.150997400284, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757131014, "timesteps_since_restore": 190800, "episodes_total": 260464, "episode_reward_min": -14.792517971689989, "pid": 2334312, "episode_reward_max": 4.000679376914105, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-56-54", "timesteps_total": 2218800, "episode_reward_mean": 3.8094271063454603, "custom_metrics": {}, "time_this_iter_s": 45.465407609939575, "training_iteration": 1849, "info": {"default": {"policy_loss": -0.043971531093120575, "vf_explained_var": 0.6989523768424988, "vf_loss": 2.81522274017334, "kl": 0.015154595486819744, "entropy": 0.40974897146224976, "total_loss": 2.8011810779571533, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.9749751091003418}, "sample_time_ms": 45281.498, "num_steps_trained": 2218800, "grad_time_ms": 371.216, "update_time_ms": 2.524, "num_steps_sampled": 2218800, "load_time_ms": 0.666}, "iterations_since_restore": 159, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 75755.35574746132, "episode_len_mean": 4.1923076923076925, "time_since_restore": 7599.617500782013, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 286, "timestamp": 1757131060, "timesteps_since_restore": 192000, "episodes_total": 260750, "episode_reward_min": -24.163447958573144, "pid": 2334312, "episode_reward_max": 4.001013239238452, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-57-40", "timesteps_total": 2220000, "episode_reward_mean": 3.7018749568052747, "custom_metrics": {}, "time_this_iter_s": 45.466503381729126, "training_iteration": 1850, "info": {"default": {"policy_loss": -0.03253602236509323, "vf_explained_var": 0.5868398547172546, "vf_loss": 7.501899719238281, "kl": 0.050867363810539246, "entropy": 0.6758301854133606, "total_loss": 7.569826126098633, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.9749751091003418}, "sample_time_ms": 45233.784, "num_steps_trained": 2220000, "grad_time_ms": 371.215, "update_time_ms": 2.528, "num_steps_sampled": 2220000, "load_time_ms": 0.669}, "iterations_since_restore": 160, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 75801.72075867653, "episode_len_mean": 4.15625, "time_since_restore": 7645.982511997223, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 288, "timestamp": 1757131106, "timesteps_since_restore": 193200, "episodes_total": 261038, "episode_reward_min": -19.183638468896334, "pid": 2334312, "episode_reward_max": 4.000649419271176, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-58-26", "timesteps_total": 2221200, "episode_reward_mean": 3.749876666930147, "custom_metrics": {}, "time_this_iter_s": 46.36501121520996, "training_iteration": 1851, "info": {"default": {"policy_loss": -0.043443020433187485, "vf_explained_var": 0.6869789958000183, "vf_loss": 3.780820608139038, "kl": 0.006220100447535515, "entropy": 0.39291512966156006, "total_loss": 3.7558047771453857, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.9624626636505127}, "sample_time_ms": 45293.699, "num_steps_trained": 2221200, "grad_time_ms": 370.089, "update_time_ms": 2.579, "num_steps_sampled": 2221200, "load_time_ms": 0.658}, "iterations_since_restore": 161, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 75848.09603571892, "episode_len_mean": 4.303571428571429, "time_since_restore": 7692.357789039612, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 280, "timestamp": 1757131153, "timesteps_since_restore": 194400, "episodes_total": 261318, "episode_reward_min": -16.90157919882362, "pid": 2334312, "episode_reward_max": 4.000659135579456, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-59-13", "timesteps_total": 2222400, "episode_reward_mean": 3.5248067059563466, "custom_metrics": {}, "time_this_iter_s": 46.375277042388916, "training_iteration": 1852, "info": {"default": {"policy_loss": -0.05597588047385216, "vf_explained_var": 0.5319205522537231, "vf_loss": 7.473291873931885, "kl": 0.008593578822910786, "entropy": 0.689761757850647, "total_loss": 7.442774295806885, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.9624626636505127}, "sample_time_ms": 45339.267, "num_steps_trained": 2222400, "grad_time_ms": 372.115, "update_time_ms": 2.622, "num_steps_sampled": 2222400, "load_time_ms": 0.666}, "iterations_since_restore": 162, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 75893.56496214867, "episode_len_mean": 4.13448275862069, "time_since_restore": 7737.82671546936, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 290, "timestamp": 1757131198, "timesteps_since_restore": 195600, "episodes_total": 261608, "episode_reward_min": -23.28971996886157, "pid": 2334312, "episode_reward_max": 4.001078292628593, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_05-59-58", "timesteps_total": 2223600, "episode_reward_mean": 3.7828439036721355, "custom_metrics": {}, "time_this_iter_s": 45.468926429748535, "training_iteration": 1853, "info": {"default": {"policy_loss": -0.03558088839054108, "vf_explained_var": 0.6841989159584045, "vf_loss": 4.002989768981934, "kl": 0.00479963980615139, "entropy": 0.4508633613586426, "total_loss": 3.981627941131592, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.9624626636505127}, "sample_time_ms": 45307.374, "num_steps_trained": 2223600, "grad_time_ms": 370.386, "update_time_ms": 2.627, "num_steps_sampled": 2223600, "load_time_ms": 0.664}, "iterations_since_restore": 163, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 75939.04214906693, "episode_len_mean": 4.340579710144928, "time_since_restore": 7783.303902387619, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 276, "timestamp": 1757131244, "timesteps_since_restore": 196800, "episodes_total": 261884, "episode_reward_min": -26.7770631715575, "pid": 2334312, "episode_reward_max": 4.000725133159742, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-00-44", "timesteps_total": 2224800, "episode_reward_mean": 3.463991350139547, "custom_metrics": {}, "time_this_iter_s": 45.47718691825867, "training_iteration": 1854, "info": {"default": {"policy_loss": -0.058112721890211105, "vf_explained_var": 0.5225610733032227, "vf_loss": 15.774283409118652, "kl": 0.012194618582725525, "entropy": 0.7868990302085876, "total_loss": 15.734233856201172, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.4812313318252563}, "sample_time_ms": 45285.272, "num_steps_trained": 2224800, "grad_time_ms": 371.278, "update_time_ms": 2.632, "num_steps_sampled": 2224800, "load_time_ms": 0.701}, "iterations_since_restore": 164, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 75985.41442847252, "episode_len_mean": 4.290322580645161, "time_since_restore": 7829.676181793213, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 279, "timestamp": 1757131290, "timesteps_since_restore": 198000, "episodes_total": 262163, "episode_reward_min": -58.896413037596545, "pid": 2334312, "episode_reward_max": 4.0012601929944065, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-01-30", "timesteps_total": 2226000, "episode_reward_mean": 3.5359331957575195, "custom_metrics": {}, "time_this_iter_s": 46.37227940559387, "training_iteration": 1855, "info": {"default": {"policy_loss": -0.07726993411779404, "vf_explained_var": 0.551845133304596, "vf_loss": 13.39984130859375, "kl": 0.01021148357540369, "entropy": 0.6980215907096863, "total_loss": 13.33769702911377, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.4812313318252563}, "sample_time_ms": 45349.291, "num_steps_trained": 2226000, "grad_time_ms": 372.948, "update_time_ms": 2.602, "num_steps_sampled": 2226000, "load_time_ms": 0.698}, "iterations_since_restore": 165, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 76030.79114937782, "episode_len_mean": 4.26595744680851, "time_since_restore": 7875.052902698517, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 282, "timestamp": 1757131335, "timesteps_since_restore": 199200, "episodes_total": 262445, "episode_reward_min": -27.30677308161713, "pid": 2334312, "episode_reward_max": 4.001089093436912, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-02-15", "timesteps_total": 2227200, "episode_reward_mean": 3.5716417977030233, "custom_metrics": {}, "time_this_iter_s": 45.376720905303955, "training_iteration": 1856, "info": {"default": {"policy_loss": -0.053989067673683167, "vf_explained_var": 0.5095462799072266, "vf_loss": 10.32797622680664, "kl": 0.024417392909526825, "entropy": 0.5689363479614258, "total_loss": 10.310154914855957, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.4812313318252563}, "sample_time_ms": 45320.654, "num_steps_trained": 2227200, "grad_time_ms": 372.797, "update_time_ms": 2.617, "num_steps_sampled": 2227200, "load_time_ms": 0.698}, "iterations_since_restore": 166, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 76076.22386455536, "episode_len_mean": 4.259786476868327, "time_since_restore": 7920.485617876053, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 281, "timestamp": 1757131381, "timesteps_since_restore": 200400, "episodes_total": 262726, "episode_reward_min": -21.596277328676962, "pid": 2334312, "episode_reward_max": 4.00095093847553, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-03-01", "timesteps_total": 2228400, "episode_reward_mean": 3.589338691018463, "custom_metrics": {}, "time_this_iter_s": 45.43271517753601, "training_iteration": 1857, "info": {"default": {"policy_loss": -0.06248704716563225, "vf_explained_var": 0.5549659729003906, "vf_loss": 6.74099588394165, "kl": 0.007939565926790237, "entropy": 0.6211980581283569, "total_loss": 6.6961493492126465, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.22184681892395}, "sample_time_ms": 45318.112, "num_steps_trained": 2228400, "grad_time_ms": 371.336, "update_time_ms": 2.619, "num_steps_sampled": 2228400, "load_time_ms": 0.702}, "iterations_since_restore": 167, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 76122.65405368805, "episode_len_mean": 4.109589041095891, "time_since_restore": 7966.915807008743, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757131427, "timesteps_since_restore": 201600, "episodes_total": 263018, "episode_reward_min": -12.993230550839876, "pid": 2334312, "episode_reward_max": 4.000982487859311, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-03-47", "timesteps_total": 2229600, "episode_reward_mean": 3.8259362254681077, "custom_metrics": {}, "time_this_iter_s": 46.43018913269043, "training_iteration": 1858, "info": {"default": {"policy_loss": -0.04577049985527992, "vf_explained_var": 0.759882390499115, "vf_loss": 2.3618409633636475, "kl": 0.007129081524908543, "entropy": 0.417208194732666, "total_loss": 2.3319101333618164, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.22184681892395}, "sample_time_ms": 45443.743, "num_steps_trained": 2229600, "grad_time_ms": 369.66, "update_time_ms": 2.628, "num_steps_sampled": 2229600, "load_time_ms": 0.697}, "iterations_since_restore": 168, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 76168.39993691444, "episode_len_mean": 4.296428571428572, "time_since_restore": 8012.661690235138, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 280, "timestamp": 1757131473, "timesteps_since_restore": 202800, "episodes_total": 263298, "episode_reward_min": -21.9494464962404, "pid": 2334312, "episode_reward_max": 4.000963572311405, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-04-33", "timesteps_total": 2230800, "episode_reward_mean": 3.533494257971251, "custom_metrics": {}, "time_this_iter_s": 45.74588322639465, "training_iteration": 1859, "info": {"default": {"policy_loss": -0.059718530625104904, "vf_explained_var": 0.5217657089233398, "vf_loss": 8.514945030212402, "kl": 0.01539837196469307, "entropy": 0.6434410810470581, "total_loss": 8.489439010620117, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.22184681892395}, "sample_time_ms": 45469.838, "num_steps_trained": 2230800, "grad_time_ms": 371.702, "update_time_ms": 2.637, "num_steps_sampled": 2230800, "load_time_ms": 0.698}, "iterations_since_restore": 169, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 76214.17582345009, "episode_len_mean": 4.271428571428571, "time_since_restore": 8058.4375767707825, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 280, "timestamp": 1757131519, "timesteps_since_restore": 204000, "episodes_total": 263578, "episode_reward_min": -30.207845197134688, "pid": 2334312, "episode_reward_max": 4.000598005145418, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-05-19", "timesteps_total": 2232000, "episode_reward_mean": 3.5630788752539924, "custom_metrics": {}, "time_this_iter_s": 45.77588653564453, "training_iteration": 1860, "info": {"default": {"policy_loss": -0.052069056779146194, "vf_explained_var": 0.5268368124961853, "vf_loss": 9.864996910095215, "kl": 0.009399103000760078, "entropy": 0.72054123878479, "total_loss": 9.83381175994873, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.22184681892395}, "sample_time_ms": 45501.077, "num_steps_trained": 2232000, "grad_time_ms": 371.453, "update_time_ms": 2.618, "num_steps_sampled": 2232000, "load_time_ms": 0.695}, "iterations_since_restore": 170, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 76259.88177227974, "episode_len_mean": 4.235087719298246, "time_since_restore": 8104.143525600433, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 285, "timestamp": 1757131565, "timesteps_since_restore": 205200, "episodes_total": 263863, "episode_reward_min": -32.61103590526551, "pid": 2334312, "episode_reward_max": 4.000944278829513, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-06-05", "timesteps_total": 2233200, "episode_reward_mean": 3.62115616126823, "custom_metrics": {}, "time_this_iter_s": 45.70594882965088, "training_iteration": 1861, "info": {"default": {"policy_loss": -0.04859977960586548, "vf_explained_var": 0.5897743701934814, "vf_loss": 10.808042526245117, "kl": 0.006430933251976967, "entropy": 0.6443920731544495, "total_loss": 10.773731231689453, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.22184681892395}, "sample_time_ms": 45433.693, "num_steps_trained": 2233200, "grad_time_ms": 372.982, "update_time_ms": 2.543, "num_steps_sampled": 2233200, "load_time_ms": 0.694}, "iterations_since_restore": 171, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 76305.93185329437, "episode_len_mean": 4.2140350877192985, "time_since_restore": 8150.1936066150665, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 285, "timestamp": 1757131611, "timesteps_since_restore": 206400, "episodes_total": 264148, "episode_reward_min": -37.95925253757559, "pid": 2334312, "episode_reward_max": 4.001049494727318, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-06-51", "timesteps_total": 2234400, "episode_reward_mean": 3.6669258991838443, "custom_metrics": {}, "time_this_iter_s": 46.05008101463318, "training_iteration": 1862, "info": {"default": {"policy_loss": -0.04685663804411888, "vf_explained_var": 0.5393356680870056, "vf_loss": 11.645352363586426, "kl": 0.010349743999540806, "entropy": 0.6777918934822083, "total_loss": 11.621490478515625, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.22184681892395}, "sample_time_ms": 45403.148, "num_steps_trained": 2234400, "grad_time_ms": 370.894, "update_time_ms": 2.582, "num_steps_sampled": 2234400, "load_time_ms": 0.684}, "iterations_since_restore": 172, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 76351.7686522007, "episode_len_mean": 4.178321678321678, "time_since_restore": 8196.030405521393, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 286, "timestamp": 1757131657, "timesteps_since_restore": 207600, "episodes_total": 264434, "episode_reward_min": -18.875030871670276, "pid": 2334312, "episode_reward_max": 4.001134018417695, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-07-37", "timesteps_total": 2235600, "episode_reward_mean": 3.714354569206956, "custom_metrics": {}, "time_this_iter_s": 45.836798906326294, "training_iteration": 1863, "info": {"default": {"policy_loss": -0.050652023404836655, "vf_explained_var": 0.5938968658447266, "vf_loss": 5.81575345993042, "kl": 0.0074973683804273605, "entropy": 0.46241384744644165, "total_loss": 5.781758785247803, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.22184681892395}, "sample_time_ms": 45437.403, "num_steps_trained": 2235600, "grad_time_ms": 373.419, "update_time_ms": 2.604, "num_steps_sampled": 2235600, "load_time_ms": 0.693}, "iterations_since_restore": 173, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 76397.45272517204, "episode_len_mean": 4.13448275862069, "time_since_restore": 8241.714478492737, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 290, "timestamp": 1757131702, "timesteps_since_restore": 208800, "episodes_total": 264724, "episode_reward_min": -27.73696683159661, "pid": 2334312, "episode_reward_max": 4.001670907934905, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-08-22", "timesteps_total": 2236800, "episode_reward_mean": 3.784944264865849, "custom_metrics": {}, "time_this_iter_s": 45.684072971343994, "training_iteration": 1864, "info": {"default": {"policy_loss": -0.04579101502895355, "vf_explained_var": 0.6849060654640198, "vf_loss": 4.500394344329834, "kl": 0.00561128044500947, "entropy": 0.44641220569610596, "total_loss": 4.467070579528809, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.22184681892395}, "sample_time_ms": 45460.639, "num_steps_trained": 2236800, "grad_time_ms": 370.886, "update_time_ms": 2.616, "num_steps_sampled": 2236800, "load_time_ms": 0.661}, "iterations_since_restore": 174, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 76443.08684325218, "episode_len_mean": 4.199288256227758, "time_since_restore": 8287.348596572876, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 281, "timestamp": 1757131748, "timesteps_since_restore": 210000, "episodes_total": 265005, "episode_reward_min": -23.714170876575793, "pid": 2334312, "episode_reward_max": 4.001077111241935, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-09-08", "timesteps_total": 2238000, "episode_reward_mean": 3.6827119286925485, "custom_metrics": {}, "time_this_iter_s": 45.63411808013916, "training_iteration": 1865, "info": {"default": {"policy_loss": -0.05847460776567459, "vf_explained_var": 0.5893319249153137, "vf_loss": 12.809475898742676, "kl": 0.011511188000440598, "entropy": 0.6468705534934998, "total_loss": 12.77657699584961, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.22184681892395}, "sample_time_ms": 45388.558, "num_steps_trained": 2238000, "grad_time_ms": 369.19, "update_time_ms": 2.609, "num_steps_sampled": 2238000, "load_time_ms": 0.663}, "iterations_since_restore": 175, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 76488.45858645439, "episode_len_mean": 4.371428571428571, "time_since_restore": 8332.720339775085, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 280, "timestamp": 1757131793, "timesteps_since_restore": 211200, "episodes_total": 265285, "episode_reward_min": -70.68020952883568, "pid": 2334312, "episode_reward_max": 4.000671550951125, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-09-53", "timesteps_total": 2239200, "episode_reward_mean": 3.4047643389867965, "custom_metrics": {}, "time_this_iter_s": 45.37174320220947, "training_iteration": 1866, "info": {"default": {"policy_loss": -0.06467798352241516, "vf_explained_var": 0.6726096868515015, "vf_loss": 11.609557151794434, "kl": 0.0061654988676309586, "entropy": 0.7361772060394287, "total_loss": 11.558577537536621, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.22184681892395}, "sample_time_ms": 45387.966, "num_steps_trained": 2239200, "grad_time_ms": 369.24, "update_time_ms": 2.604, "num_steps_sampled": 2239200, "load_time_ms": 0.662}, "iterations_since_restore": 176, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 76533.98290157318, "episode_len_mean": 4.2105263157894735, "time_since_restore": 8378.244654893875, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 285, "timestamp": 1757131839, "timesteps_since_restore": 212400, "episodes_total": 265570, "episode_reward_min": -64.85194838016382, "pid": 2334312, "episode_reward_max": 4.000651320158751, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-10-39", "timesteps_total": 2240400, "episode_reward_mean": 3.661262877505503, "custom_metrics": {}, "time_this_iter_s": 45.52431511878967, "training_iteration": 1867, "info": {"default": {"policy_loss": -0.04880528151988983, "vf_explained_var": 0.5719090700149536, "vf_loss": 26.061403274536133, "kl": 0.0058926986530423164, "entropy": 0.57770174741745, "total_loss": 26.025691986083984, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.22184681892395}, "sample_time_ms": 45398.164, "num_steps_trained": 2240400, "grad_time_ms": 368.345, "update_time_ms": 2.623, "num_steps_sampled": 2240400, "load_time_ms": 0.663}, "iterations_since_restore": 177, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 76579.59075427055, "episode_len_mean": 4.302158273381295, "time_since_restore": 8423.852507591248, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 278, "timestamp": 1757131884, "timesteps_since_restore": 213600, "episodes_total": 265848, "episode_reward_min": -63.50000651378606, "pid": 2334312, "episode_reward_max": 4.000738778473465, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-11-24", "timesteps_total": 2241600, "episode_reward_mean": 3.522890975717858, "custom_metrics": {}, "time_this_iter_s": 45.60785269737244, "training_iteration": 1868, "info": {"default": {"policy_loss": -0.06710977107286453, "vf_explained_var": 0.5954441428184509, "vf_loss": 23.13343620300293, "kl": 0.006169190630316734, "entropy": 0.6941308379173279, "total_loss": 23.080034255981445, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.22184681892395}, "sample_time_ms": 45314.864, "num_steps_trained": 2241600, "grad_time_ms": 369.487, "update_time_ms": 2.597, "num_steps_sampled": 2241600, "load_time_ms": 0.662}, "iterations_since_restore": 178, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 76625.37723374367, "episode_len_mean": 4.144827586206897, "time_since_restore": 8469.638987064362, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 290, "timestamp": 1757131930, "timesteps_since_restore": 214800, "episodes_total": 266138, "episode_reward_min": -14.280637415300145, "pid": 2334312, "episode_reward_max": 4.001091382792362, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-12-10", "timesteps_total": 2242800, "episode_reward_mean": 3.774432855129106, "custom_metrics": {}, "time_this_iter_s": 45.786479473114014, "training_iteration": 1869, "info": {"default": {"policy_loss": -0.06500758975744247, "vf_explained_var": 0.5632984638214111, "vf_loss": 5.03770112991333, "kl": 0.006008991505950689, "entropy": 0.459370493888855, "total_loss": 4.986044406890869, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.22184681892395}, "sample_time_ms": 45319.392, "num_steps_trained": 2242800, "grad_time_ms": 368.977, "update_time_ms": 2.589, "num_steps_sampled": 2242800, "load_time_ms": 0.669}, "iterations_since_restore": 179, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 76670.64229249954, "episode_len_mean": 4.061016949152543, "time_since_restore": 8514.904045820236, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757131975, "timesteps_since_restore": 216000, "episodes_total": 266433, "episode_reward_min": -16.60323690504289, "pid": 2334312, "episode_reward_max": 4.000669839292763, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-12-55", "timesteps_total": 2244000, "episode_reward_mean": 3.903242438013602, "custom_metrics": {}, "time_this_iter_s": 45.265058755874634, "training_iteration": 1870, "info": {"default": {"policy_loss": -0.030187003314495087, "vf_explained_var": 0.7703152894973755, "vf_loss": 2.021885871887207, "kl": 0.008857467211782932, "entropy": 0.3218860924243927, "total_loss": 2.011378288269043, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.22184681892395}, "sample_time_ms": 45266.195, "num_steps_trained": 2244000, "grad_time_ms": 371.065, "update_time_ms": 2.583, "num_steps_sampled": 2244000, "load_time_ms": 0.69}, "iterations_since_restore": 180, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 76716.52292060852, "episode_len_mean": 4.184668989547038, "time_since_restore": 8560.784673929214, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 287, "timestamp": 1757132021, "timesteps_since_restore": 217200, "episodes_total": 266720, "episode_reward_min": -21.81155943259287, "pid": 2334312, "episode_reward_max": 4.0006568977731405, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-13-41", "timesteps_total": 2245200, "episode_reward_mean": 3.7088364273587304, "custom_metrics": {}, "time_this_iter_s": 45.88062810897827, "training_iteration": 1871, "info": {"default": {"policy_loss": -0.04794318228960037, "vf_explained_var": 0.6052795648574829, "vf_loss": 5.961945533752441, "kl": 0.010210491716861725, "entropy": 0.49128687381744385, "total_loss": 5.93668794631958, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.22184681892395}, "sample_time_ms": 45285.349, "num_steps_trained": 2245200, "grad_time_ms": 369.403, "update_time_ms": 2.596, "num_steps_sampled": 2245200, "load_time_ms": 0.685}, "iterations_since_restore": 181, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 76761.77919197083, "episode_len_mean": 4.162629757785467, "time_since_restore": 8606.04094529152, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 289, "timestamp": 1757132067, "timesteps_since_restore": 218400, "episodes_total": 267009, "episode_reward_min": -17.195954543662666, "pid": 2334312, "episode_reward_max": 4.000747457746888, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-14-27", "timesteps_total": 2246400, "episode_reward_mean": 3.7549827083887513, "custom_metrics": {}, "time_this_iter_s": 45.25627136230469, "training_iteration": 1872, "info": {"default": {"policy_loss": -0.041803572326898575, "vf_explained_var": 0.6535069942474365, "vf_loss": 4.45294189453125, "kl": 0.00872704479843378, "entropy": 0.47223010659217834, "total_loss": 4.43052864074707, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.22184681892395}, "sample_time_ms": 45203.653, "num_steps_trained": 2246400, "grad_time_ms": 371.804, "update_time_ms": 2.53, "num_steps_sampled": 2246400, "load_time_ms": 0.689}, "iterations_since_restore": 182, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 76808.63593745232, "episode_len_mean": 4.033670033670034, "time_since_restore": 8652.89769077301, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757132114, "timesteps_since_restore": 219600, "episodes_total": 267306, "episode_reward_min": -6.870953397753837, "pid": 2334312, "episode_reward_max": 4.000625219023464, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-15-14", "timesteps_total": 2247600, "episode_reward_mean": 3.9468532003260166, "custom_metrics": {}, "time_this_iter_s": 46.85674548149109, "training_iteration": 1873, "info": {"default": {"policy_loss": -0.0365484282374382, "vf_explained_var": 0.9014579057693481, "vf_loss": 0.6569638848304749, "kl": 0.00437923613935709, "entropy": 0.24382847547531128, "total_loss": 0.6301454305648804, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 2.22184681892395}, "sample_time_ms": 45307.68, "num_steps_trained": 2247600, "grad_time_ms": 369.773, "update_time_ms": 2.484, "num_steps_sampled": 2247600, "load_time_ms": 0.699}, "iterations_since_restore": 183, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 76854.8781170845, "episode_len_mean": 4.096885813148789, "time_since_restore": 8699.139870405197, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 289, "timestamp": 1757132160, "timesteps_since_restore": 220800, "episodes_total": 267595, "episode_reward_min": -33.19407990068763, "pid": 2334312, "episode_reward_max": 4.000624767446103, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-16-00", "timesteps_total": 2248800, "episode_reward_mean": 3.8506595530131444, "custom_metrics": {}, "time_this_iter_s": 46.24217963218689, "training_iteration": 1874, "info": {"default": {"policy_loss": -0.048715826123952866, "vf_explained_var": 0.6185854077339172, "vf_loss": 10.334598541259766, "kl": 0.006642558611929417, "entropy": 0.5607381463050842, "total_loss": 10.293262481689453, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.110923409461975}, "sample_time_ms": 45362.93, "num_steps_trained": 2248800, "grad_time_ms": 370.288, "update_time_ms": 2.491, "num_steps_sampled": 2248800, "load_time_ms": 0.691}, "iterations_since_restore": 184, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 76900.81232213974, "episode_len_mean": 4.2631578947368425, "time_since_restore": 8745.074075460434, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 285, "timestamp": 1757132206, "timesteps_since_restore": 222000, "episodes_total": 267880, "episode_reward_min": -62.42577809698277, "pid": 2334312, "episode_reward_max": 4.000772438311607, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-16-46", "timesteps_total": 2250000, "episode_reward_mean": 3.580398030068692, "custom_metrics": {}, "time_this_iter_s": 45.934205055236816, "training_iteration": 1875, "info": {"default": {"policy_loss": -0.06329666078090668, "vf_explained_var": 0.6703450679779053, "vf_loss": 19.641944885253906, "kl": 0.005602455697953701, "entropy": 0.5497992038726807, "total_loss": 19.584869384765625, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.110923409461975}, "sample_time_ms": 45390.039, "num_steps_trained": 2250000, "grad_time_ms": 373.119, "update_time_ms": 2.513, "num_steps_sampled": 2250000, "load_time_ms": 0.698}, "iterations_since_restore": 185, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 76945.99354815483, "episode_len_mean": 4.077966101694916, "time_since_restore": 8790.255301475525, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757132251, "timesteps_since_restore": 223200, "episodes_total": 268175, "episode_reward_min": -16.75049427987005, "pid": 2334312, "episode_reward_max": 4.000748364805149, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-17-31", "timesteps_total": 2251200, "episode_reward_mean": 3.875190155741235, "custom_metrics": {}, "time_this_iter_s": 45.18122601509094, "training_iteration": 1876, "info": {"default": {"policy_loss": -0.04949017986655235, "vf_explained_var": 0.7090685367584229, "vf_loss": 2.657982587814331, "kl": 0.0096016526222229, "entropy": 0.2905501127243042, "total_loss": 2.61915922164917, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.110923409461975}, "sample_time_ms": 45370.966, "num_steps_trained": 2251200, "grad_time_ms": 373.069, "update_time_ms": 2.586, "num_steps_sampled": 2251200, "load_time_ms": 0.701}, "iterations_since_restore": 186, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 76991.966963768, "episode_len_mean": 4.03030303030303, "time_since_restore": 8836.2287170887, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757132297, "timesteps_since_restore": 224400, "episodes_total": 268472, "episode_reward_min": -10.538888784471112, "pid": 2334312, "episode_reward_max": 4.00079916743289, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-18-17", "timesteps_total": 2252400, "episode_reward_mean": 3.9513367390861225, "custom_metrics": {}, "time_this_iter_s": 45.97341561317444, "training_iteration": 1877, "info": {"default": {"policy_loss": -0.02651045098900795, "vf_explained_var": 0.8940389156341553, "vf_loss": 0.8631218671798706, "kl": 0.00533533189445734, "entropy": 0.2946377396583557, "total_loss": 0.842538595199585, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.110923409461975}, "sample_time_ms": 45414.249, "num_steps_trained": 2252400, "grad_time_ms": 374.672, "update_time_ms": 2.58, "num_steps_sampled": 2252400, "load_time_ms": 0.712}, "iterations_since_restore": 187, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 77037.91452074051, "episode_len_mean": 4.037037037037037, "time_since_restore": 8882.176274061203, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757132343, "timesteps_since_restore": 225600, "episodes_total": 268769, "episode_reward_min": -12.094493715721818, "pid": 2334312, "episode_reward_max": 4.000614041718991, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-19-03", "timesteps_total": 2253600, "episode_reward_mean": 3.9460990667827, "custom_metrics": {}, "time_this_iter_s": 45.94755697250366, "training_iteration": 1878, "info": {"default": {"policy_loss": -0.0391264408826828, "vf_explained_var": 0.8765170574188232, "vf_loss": 0.9409099221229553, "kl": 0.004775232169777155, "entropy": 0.2627641260623932, "total_loss": 0.9070883989334106, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.110923409461975}, "sample_time_ms": 45447.89, "num_steps_trained": 2253600, "grad_time_ms": 374.881, "update_time_ms": 2.583, "num_steps_sampled": 2253600, "load_time_ms": 0.731}, "iterations_since_restore": 188, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 77084.13446545601, "episode_len_mean": 4.047297297297297, "time_since_restore": 8928.396218776703, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757132389, "timesteps_since_restore": 226800, "episodes_total": 269065, "episode_reward_min": -8.932424337926015, "pid": 2334312, "episode_reward_max": 4.000685809680467, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-19-49", "timesteps_total": 2254800, "episode_reward_mean": 3.926026009125855, "custom_metrics": {}, "time_this_iter_s": 46.21994471549988, "training_iteration": 1879, "info": {"default": {"policy_loss": -0.047120559960603714, "vf_explained_var": 0.8486340641975403, "vf_loss": 1.1114897727966309, "kl": 0.00841889064759016, "entropy": 0.28251537680625916, "total_loss": 1.0690455436706543, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.5554617047309875}, "sample_time_ms": 45490.464, "num_steps_trained": 2254800, "grad_time_ms": 375.642, "update_time_ms": 2.61, "num_steps_sampled": 2254800, "load_time_ms": 0.733}, "iterations_since_restore": 189, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 77130.10523080826, "episode_len_mean": 4.102389078498294, "time_since_restore": 8974.366984128952, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 293, "timestamp": 1757132435, "timesteps_since_restore": 228000, "episodes_total": 269358, "episode_reward_min": -34.743836416814716, "pid": 2334312, "episode_reward_max": 4.001061312815352, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-20-35", "timesteps_total": 2256000, "episode_reward_mean": 3.8406694087812094, "custom_metrics": {}, "time_this_iter_s": 45.970765352249146, "training_iteration": 1880, "info": {"default": {"policy_loss": -0.04420464485883713, "vf_explained_var": 0.7666680812835693, "vf_loss": 5.69206428527832, "kl": 0.025081180036067963, "entropy": 0.388468861579895, "total_loss": 5.6617913246154785, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.5554617047309875}, "sample_time_ms": 45561.003, "num_steps_trained": 2256000, "grad_time_ms": 375.655, "update_time_ms": 2.622, "num_steps_sampled": 2256000, "load_time_ms": 0.719}, "iterations_since_restore": 190, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 77175.66522479057, "episode_len_mean": 4.134020618556701, "time_since_restore": 9019.926978111267, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757132481, "timesteps_since_restore": 229200, "episodes_total": 269649, "episode_reward_min": -18.41962385820346, "pid": 2334312, "episode_reward_max": 4.001634916326146, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-21-21", "timesteps_total": 2257200, "episode_reward_mean": 3.790601792350737, "custom_metrics": {}, "time_this_iter_s": 45.55999398231506, "training_iteration": 1881, "info": {"default": {"policy_loss": -0.04365232214331627, "vf_explained_var": 0.6695138216018677, "vf_loss": 3.8789782524108887, "kl": 0.006205776706337929, "entropy": 0.3813241422176361, "total_loss": 3.840496063232422, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.8331925868988037}, "sample_time_ms": 45526.002, "num_steps_trained": 2257200, "grad_time_ms": 378.5, "update_time_ms": 2.63, "num_steps_sampled": 2257200, "load_time_ms": 0.731}, "iterations_since_restore": 191, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 77221.92653822899, "episode_len_mean": 4.064406779661017, "time_since_restore": 9066.188291549683, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757132527, "timesteps_since_restore": 230400, "episodes_total": 269944, "episode_reward_min": -8.341006287034052, "pid": 2334312, "episode_reward_max": 4.001385467930568, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-22-07", "timesteps_total": 2258400, "episode_reward_mean": 3.9106047695468997, "custom_metrics": {}, "time_this_iter_s": 46.26131343841553, "training_iteration": 1882, "info": {"default": {"policy_loss": -0.04497675970196724, "vf_explained_var": 0.822328507900238, "vf_loss": 1.2234437465667725, "kl": 0.007840524427592754, "entropy": 0.29637354612350464, "total_loss": 1.184999704360962, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.8331925868988037}, "sample_time_ms": 45626.611, "num_steps_trained": 2258400, "grad_time_ms": 378.412, "update_time_ms": 2.656, "num_steps_sampled": 2258400, "load_time_ms": 0.735}, "iterations_since_restore": 192, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 77267.95782256126, "episode_len_mean": 4.054054054054054, "time_since_restore": 9112.219575881958, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757132573, "timesteps_since_restore": 231600, "episodes_total": 270240, "episode_reward_min": -6.81295828687945, "pid": 2334312, "episode_reward_max": 4.000804873830195, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-22-53", "timesteps_total": 2259600, "episode_reward_mean": 3.9161363505871174, "custom_metrics": {}, "time_this_iter_s": 46.03128433227539, "training_iteration": 1883, "info": {"default": {"policy_loss": -0.02984512224793434, "vf_explained_var": 0.8692044615745544, "vf_loss": 0.8531491756439209, "kl": 0.014049912802875042, "entropy": 0.23813822865486145, "total_loss": 0.835010290145874, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.8331925868988037}, "sample_time_ms": 45542.414, "num_steps_trained": 2259600, "grad_time_ms": 380.064, "update_time_ms": 2.662, "num_steps_sampled": 2259600, "load_time_ms": 0.722}, "iterations_since_restore": 193, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 77313.13796234131, "episode_len_mean": 4.054054054054054, "time_since_restore": 9157.399715662003, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757132618, "timesteps_since_restore": 232800, "episodes_total": 270536, "episode_reward_min": -14.44605464440362, "pid": 2334312, "episode_reward_max": 4.000634762259175, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-23-38", "timesteps_total": 2260800, "episode_reward_mean": 3.917501819715932, "custom_metrics": {}, "time_this_iter_s": 45.180139780044556, "training_iteration": 1884, "info": {"default": {"policy_loss": -0.02919878624379635, "vf_explained_var": 0.8264721632003784, "vf_loss": 1.4410772323608398, "kl": 0.008801168762147427, "entropy": 0.34937959909439087, "total_loss": 1.419211506843567, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.8331925868988037}, "sample_time_ms": 45437.229, "num_steps_trained": 2260800, "grad_time_ms": 379.096, "update_time_ms": 2.68, "num_steps_sampled": 2260800, "load_time_ms": 0.72}, "iterations_since_restore": 194, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 77359.42697405815, "episode_len_mean": 4.221830985915493, "time_since_restore": 9203.688727378845, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 284, "timestamp": 1757132665, "timesteps_since_restore": 234000, "episodes_total": 270820, "episode_reward_min": -19.569604595286638, "pid": 2334312, "episode_reward_max": 4.000515029097686, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-24-25", "timesteps_total": 2262000, "episode_reward_mean": 3.6483481608048067, "custom_metrics": {}, "time_this_iter_s": 46.28901171684265, "training_iteration": 1885, "info": {"default": {"policy_loss": -0.05902589112520218, "vf_explained_var": 0.6323645710945129, "vf_loss": 4.789082050323486, "kl": 0.026228690519928932, "entropy": 0.4893830120563507, "total_loss": 4.7519097328186035, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.8331925868988037}, "sample_time_ms": 45472.719, "num_steps_trained": 2262000, "grad_time_ms": 379.106, "update_time_ms": 2.675, "num_steps_sampled": 2262000, "load_time_ms": 0.712}, "iterations_since_restore": 195, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 77405.68901062012, "episode_len_mean": 4.224561403508772, "time_since_restore": 9249.950763940811, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 285, "timestamp": 1757132711, "timesteps_since_restore": 235200, "episodes_total": 271105, "episode_reward_min": -14.546565146323491, "pid": 2334312, "episode_reward_max": 4.000630407202859, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-25-11", "timesteps_total": 2263200, "episode_reward_mean": 3.640942702321254, "custom_metrics": {}, "time_this_iter_s": 46.26203656196594, "training_iteration": 1886, "info": {"default": {"policy_loss": -0.053330183029174805, "vf_explained_var": 0.5611732006072998, "vf_loss": 5.030457496643066, "kl": 0.013207633048295975, "entropy": 0.4672975540161133, "total_loss": 4.99363374710083, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.2497888803482056}, "sample_time_ms": 45579.109, "num_steps_trained": 2263200, "grad_time_ms": 380.837, "update_time_ms": 2.634, "num_steps_sampled": 2263200, "load_time_ms": 0.715}, "iterations_since_restore": 196, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 77451.44638800621, "episode_len_mean": 4.113013698630137, "time_since_restore": 9295.708141326904, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757132757, "timesteps_since_restore": 236400, "episodes_total": 271397, "episode_reward_min": -12.34430790019072, "pid": 2334312, "episode_reward_max": 4.000715600177259, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-25-57", "timesteps_total": 2264400, "episode_reward_mean": 3.8216085053206506, "custom_metrics": {}, "time_this_iter_s": 45.75737738609314, "training_iteration": 1887, "info": {"default": {"policy_loss": -0.04993467405438423, "vf_explained_var": 0.7353782653808594, "vf_loss": 2.478025436401367, "kl": 0.010663800872862339, "entropy": 0.41666144132614136, "total_loss": 2.441418170928955, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.2497888803482056}, "sample_time_ms": 45558.208, "num_steps_trained": 2264400, "grad_time_ms": 380.094, "update_time_ms": 2.658, "num_steps_sampled": 2264400, "load_time_ms": 0.71}, "iterations_since_restore": 197, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 77497.5449514389, "episode_len_mean": 4.124137931034483, "time_since_restore": 9341.806704759598, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 290, "timestamp": 1757132803, "timesteps_since_restore": 237600, "episodes_total": 271687, "episode_reward_min": -7.816204572475911, "pid": 2334312, "episode_reward_max": 4.0016345267596005, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-26-43", "timesteps_total": 2265600, "episode_reward_mean": 3.8032536736724776, "custom_metrics": {}, "time_this_iter_s": 46.09856343269348, "training_iteration": 1888, "info": {"default": {"policy_loss": -0.04333976283669472, "vf_explained_var": 0.7394442558288574, "vf_loss": 1.9245109558105469, "kl": 0.01961040310561657, "entropy": 0.3866128921508789, "total_loss": 1.9056799411773682, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.2497888803482056}, "sample_time_ms": 45573.409, "num_steps_trained": 2265600, "grad_time_ms": 380.115, "update_time_ms": 2.646, "num_steps_sampled": 2265600, "load_time_ms": 0.695}, "iterations_since_restore": 198, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 77543.5874569416, "episode_len_mean": 4.1061643835616435, "time_since_restore": 9387.849210262299, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757132849, "timesteps_since_restore": 238800, "episodes_total": 271979, "episode_reward_min": -23.144550961796654, "pid": 2334312, "episode_reward_max": 4.000635703316835, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-27-29", "timesteps_total": 2266800, "episode_reward_mean": 3.8306762058315105, "custom_metrics": {}, "time_this_iter_s": 46.042505502700806, "training_iteration": 1889, "info": {"default": {"policy_loss": -0.0442616231739521, "vf_explained_var": 0.7319533228874207, "vf_loss": 3.5808346271514893, "kl": 0.012458796612918377, "entropy": 0.44069385528564453, "total_loss": 3.5521438121795654, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.2497888803482056}, "sample_time_ms": 45556.543, "num_steps_trained": 2266800, "grad_time_ms": 379.313, "update_time_ms": 2.59, "num_steps_sampled": 2266800, "load_time_ms": 0.693}, "iterations_since_restore": 199, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 77588.89273715019, "episode_len_mean": 4.081632653061225, "time_since_restore": 9433.154490470886, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757132894, "timesteps_since_restore": 240000, "episodes_total": 272273, "episode_reward_min": -18.16720296676205, "pid": 2334312, "episode_reward_max": 4.0007249294411285, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-28-14", "timesteps_total": 2268000, "episode_reward_mean": 3.869709399241381, "custom_metrics": {}, "time_this_iter_s": 45.30528020858765, "training_iteration": 1890, "info": {"default": {"policy_loss": -0.035692229866981506, "vf_explained_var": 0.7590630650520325, "vf_loss": 2.3313534259796143, "kl": 0.0039858631789684296, "entropy": 0.3605438768863678, "total_loss": 2.300642728805542, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 1.2497888803482056}, "sample_time_ms": 45492.414, "num_steps_trained": 2268000, "grad_time_ms": 376.928, "update_time_ms": 2.618, "num_steps_sampled": 2268000, "load_time_ms": 0.694}, "iterations_since_restore": 200, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 77634.3149356842, "episode_len_mean": 4.25, "time_since_restore": 9478.576689004898, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 280, "timestamp": 1757132940, "timesteps_since_restore": 241200, "episodes_total": 272553, "episode_reward_min": -53.29604852540338, "pid": 2334312, "episode_reward_max": 4.0010663643711375, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-29-00", "timesteps_total": 2269200, "episode_reward_mean": 3.6172275379939327, "custom_metrics": {}, "time_this_iter_s": 45.42219853401184, "training_iteration": 1891, "info": {"default": {"policy_loss": -0.06393314152956009, "vf_explained_var": 0.5322215557098389, "vf_loss": 30.50804328918457, "kl": 0.02804223634302616, "entropy": 0.6628218293190002, "total_loss": 30.46162986755371, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.6248944401741028}, "sample_time_ms": 45479.785, "num_steps_trained": 2269200, "grad_time_ms": 375.936, "update_time_ms": 2.514, "num_steps_sampled": 2269200, "load_time_ms": 0.69}, "iterations_since_restore": 201, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 77679.80061888695, "episode_len_mean": 4.101351351351352, "time_since_restore": 9524.062372207642, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757132985, "timesteps_since_restore": 242400, "episodes_total": 272849, "episode_reward_min": -11.574124702198873, "pid": 2334312, "episode_reward_max": 4.000682779605022, "node_ip": "10.157.146.2", "done": false, "policy_reward_mean": {}, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-29-45", "timesteps_total": 2270400, "episode_reward_mean": 3.8390947382527956, "custom_metrics": {}, "time_this_iter_s": 45.48568320274353, "training_iteration": 1892, "info": {"default": {"policy_loss": -0.03870168700814247, "vf_explained_var": 0.7740655541419983, "vf_loss": 1.8237569332122803, "kl": 0.03453673794865608, "entropy": 0.3642389178276062, "total_loss": 1.8174279928207397, "cur_lr": 4.999999873689376e-05, "cur_kl_coeff": 0.9373416900634766}, "sample_time_ms": 45403.695, "num_steps_trained": 2270400, "grad_time_ms": 374.44, "update_time_ms": 2.49, "num_steps_sampled": 2270400, "load_time_ms": 0.683}, "iterations_since_restore": 202, "config": {"monitor": false, "output": null, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "num_cpus_per_worker": 1, "lambda": 1.0, "straggler_mitigation": false, "log_level": "INFO", "custom_resources_per_worker": {}, "observation_filter": "MeanStdFilter", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "lstm_use_prev_action_reward": false, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "lstm_cell_size": 256, "custom_preprocessor": null, "framestack": true, "custom_model": null, "conv_filters": null, "max_seq_len": 20, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "simple_optimizer": false, "train_batch_size": 1200, "postprocess_inputs": false, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "kl_coeff": 0.2, "lr_schedule": null, "num_gpus_per_worker": 0, "synchronize_filters": true, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "log_device_placement": false, "intra_op_parallelism_threads": 2, "gpu_options": {"allow_growth": true}}, "optimizer": {}, "horizon": 50, "vf_loss_coeff": 1.0, "env": "Zhenxin_S_FC", "batch_mode": "truncate_episodes", "num_cpus_for_driver": 1, "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "use_gae": true, "entropy_coeff": 0.0, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 77639.45522522926, "iterations_since_restore": 1, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 50.562488079071045, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757133086, "timesteps_since_restore": 1200, "episodes_total": 272564, "episode_reward_mean": 3.844000747204373, "pid": 2334315, "episode_reward_max": 4.000725987117414, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-31-26", "episode_len_mean": 4.099656357388316, "timesteps_total": 2269200, "episode_reward_min": -11.427792945861349, "custom_metrics": {}, "time_this_iter_s": 50.562488079071045, "training_iteration": 1891, "info": {"default": {"policy_loss": -0.03947214409708977, "vf_explained_var": 0.762570321559906, "vf_loss": 2.0178892612457275, "kl": 0.044886715710163116, "cur_lr": 4.999999873689376e-05, "total_loss": 2.0064663887023926, "entropy": 0.322555273771286, "cur_kl_coeff": 0.6248944401741028}, "sample_time_ms": 49529.808, "num_steps_trained": 2269200, "grad_time_ms": 635.523, "update_time_ms": 346.872, "num_steps_sampled": 2269200, "load_time_ms": 29.575}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 77685.44054460526, "iterations_since_restore": 2, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 96.54780745506287, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757133132, "timesteps_since_restore": 2400, "episodes_total": 272860, "episode_reward_mean": 3.9799265151144065, "pid": 2334315, "episode_reward_max": 4.000979106546383, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-32-12", "episode_len_mean": 4.013513513513513, "timesteps_total": 2270400, "episode_reward_min": -2.026097899577186, "custom_metrics": {}, "time_this_iter_s": 45.98531937599182, "training_iteration": 1892, "info": {"default": {"policy_loss": -0.036333806812763214, "vf_explained_var": 0.820932924747467, "vf_loss": 2.032151222229004, "kl": 0.015270264819264412, "cur_lr": 4.999999873689376e-05, "total_loss": 2.000398635864258, "entropy": 0.29540693759918213, "cur_kl_coeff": 0.30000001192092896}, "sample_time_ms": 47570.406, "num_steps_trained": 2270400, "grad_time_ms": 500.391, "update_time_ms": 174.613, "num_steps_sampled": 2270400, "load_time_ms": 15.151}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 77730.80879688263, "iterations_since_restore": 3, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 141.91605973243713, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 276, "timestamp": 1757133177, "timesteps_since_restore": 3600, "episodes_total": 273136, "episode_reward_mean": 3.3524958603874273, "pid": 2334315, "episode_reward_max": 4.00078134383827, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-32-57", "episode_len_mean": 4.405797101449275, "timesteps_total": 2271600, "episode_reward_min": -36.3343824520137, "custom_metrics": {}, "time_this_iter_s": 45.36825227737427, "training_iteration": 1893, "info": {"default": {"policy_loss": -0.07191863656044006, "vf_explained_var": 0.5510786175727844, "vf_loss": 17.165922164916992, "kl": 0.03576827794313431, "cur_lr": 4.999999873689376e-05, "total_loss": 17.104732513427734, "entropy": 0.6740089654922485, "cur_kl_coeff": 0.30000001192092896}, "sample_time_ms": 46709.513, "num_steps_trained": 2271600, "grad_time_ms": 457.209, "update_time_ms": 117.259, "num_steps_sampled": 2271600, "load_time_ms": 10.316}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 77776.88807845116, "iterations_since_restore": 4, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 187.99534130096436, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757133223, "timesteps_since_restore": 4800, "episodes_total": 273434, "episode_reward_mean": 3.9536931889208753, "pid": 2334315, "episode_reward_max": 4.000588912619945, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-33-43", "episode_len_mean": 4.026845637583893, "timesteps_total": 2272800, "episode_reward_min": -9.87990403147333, "custom_metrics": {}, "time_this_iter_s": 46.07928156852722, "training_iteration": 1894, "info": {"default": {"policy_loss": -0.04144826903939247, "vf_explained_var": 0.9286564588546753, "vf_loss": 0.569487988948822, "kl": 0.009710637852549553, "cur_lr": 4.999999873689376e-05, "total_loss": 0.5324094295501709, "entropy": 0.15486542880535126, "cur_kl_coeff": 0.44999995827674866}, "sample_time_ms": 46455.94, "num_steps_trained": 2272800, "grad_time_ms": 436.357, "update_time_ms": 88.693, "num_steps_sampled": 2272800, "load_time_ms": 7.919}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 77823.27125358582, "iterations_since_restore": 5, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 234.37851643562317, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757133270, "timesteps_since_restore": 6000, "episodes_total": 273733, "episode_reward_mean": 3.973347506159907, "pid": 2334315, "episode_reward_max": 4.000902666475753, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-34-30", "episode_len_mean": 4.016722408026756, "timesteps_total": 2274000, "episode_reward_min": -4.052280218965466, "custom_metrics": {}, "time_this_iter_s": 46.38317513465881, "training_iteration": 1895, "info": {"default": {"policy_loss": -0.03500800579786301, "vf_explained_var": 0.9556688666343689, "vf_loss": 0.2699832022190094, "kl": 0.013134412467479706, "cur_lr": 4.999999873689376e-05, "total_loss": 0.24088570475578308, "entropy": 0.08922358602285385, "cur_kl_coeff": 0.44999995827674866}, "sample_time_ms": 46361.74, "num_steps_trained": 2274000, "grad_time_ms": 426.62, "update_time_ms": 71.466, "num_steps_sampled": 2274000, "load_time_ms": 6.494}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 77868.8537902832, "iterations_since_restore": 6, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 279.96105313301086, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757133315, "timesteps_since_restore": 7200, "episodes_total": 274025, "episode_reward_mean": 3.8400945181496025, "pid": 2334315, "episode_reward_max": 4.000918776593513, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-35-15", "episode_len_mean": 4.102739726027397, "timesteps_total": 2275200, "episode_reward_min": -13.19292366297664, "custom_metrics": {}, "time_this_iter_s": 45.582536697387695, "training_iteration": 1896, "info": {"default": {"policy_loss": -0.04246204346418381, "vf_explained_var": 0.7327657341957092, "vf_loss": 2.6724681854248047, "kl": 0.02347862347960472, "cur_lr": 4.999999873689376e-05, "total_loss": 2.6405720710754395, "entropy": 0.3539237082004547, "cur_kl_coeff": 0.44999995827674866}, "sample_time_ms": 46167.851, "num_steps_trained": 2275200, "grad_time_ms": 417.924, "update_time_ms": 59.95, "num_steps_sampled": 2275200, "load_time_ms": 5.523}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 77914.06675100327, "iterations_since_restore": 7, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 325.1740138530731, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757133360, "timesteps_since_restore": 8400, "episodes_total": 274322, "episode_reward_mean": 3.9362126870803835, "pid": 2334315, "episode_reward_max": 4.001092851281495, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-36-00", "episode_len_mean": 4.040404040404041, "timesteps_total": 2276400, "episode_reward_min": -6.995089829418127, "custom_metrics": {}, "time_this_iter_s": 45.212960720062256, "training_iteration": 1897, "info": {"default": {"policy_loss": -0.03854600340127945, "vf_explained_var": 0.9181050062179565, "vf_loss": 0.5525709986686707, "kl": 0.03330303728580475, "cur_lr": 4.999999873689376e-05, "total_loss": 0.5365045070648193, "entropy": 0.20267944037914276, "cur_kl_coeff": 0.675000011920929}, "sample_time_ms": 45978.975, "num_steps_trained": 2276400, "grad_time_ms": 409.405, "update_time_ms": 51.762, "num_steps_sampled": 2276400, "load_time_ms": 4.823}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 77959.66662168503, "iterations_since_restore": 8, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 370.7738845348358, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757133406, "timesteps_since_restore": 9600, "episodes_total": 274621, "episode_reward_mean": 3.9696725589662543, "pid": 2334315, "episode_reward_max": 4.003868174370394, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-36-46", "episode_len_mean": 4.0200668896321075, "timesteps_total": 2277600, "episode_reward_min": -5.15563252309359, "custom_metrics": {}, "time_this_iter_s": 45.599870681762695, "training_iteration": 1898, "info": {"default": {"policy_loss": -0.0310696791857481, "vf_explained_var": 0.9382250308990479, "vf_loss": 0.36875253915786743, "kl": 0.004017711151391268, "cur_lr": 4.999999873689376e-05, "total_loss": 0.3417508006095886, "entropy": 0.21340163052082062, "cur_kl_coeff": 1.0125000476837158}, "sample_time_ms": 45885.545, "num_steps_trained": 2277600, "grad_time_ms": 403.031, "update_time_ms": 45.587, "num_steps_sampled": 2277600, "load_time_ms": 4.304}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 78004.9122338295, "iterations_since_restore": 9, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 416.01949667930603, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757133451, "timesteps_since_restore": 10800, "episodes_total": 274917, "episode_reward_mean": 3.9189229120655837, "pid": 2334315, "episode_reward_max": 4.000775673245702, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-37-31", "episode_len_mean": 4.050675675675675, "timesteps_total": 2278800, "episode_reward_min": -11.924834372687155, "custom_metrics": {}, "time_this_iter_s": 45.245612144470215, "training_iteration": 1899, "info": {"default": {"policy_loss": -0.010173640213906765, "vf_explained_var": 0.8667089939117432, "vf_loss": 1.1527788639068604, "kl": 0.23265297710895538, "cur_lr": 4.999999873689376e-05, "total_loss": 1.2603857517242432, "entropy": 0.3874286413192749, "cur_kl_coeff": 0.5062500238418579}, "sample_time_ms": 45771.871, "num_steps_trained": 2278800, "grad_time_ms": 399.811, "update_time_ms": 40.809, "num_steps_sampled": 2278800, "load_time_ms": 3.903}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 78051.505048275, "iterations_since_restore": 10, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 462.61231112480164, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757133498, "timesteps_since_restore": 12000, "episodes_total": 275208, "episode_reward_mean": 3.8991189218775264, "pid": 2334315, "episode_reward_max": 4.000607909087986, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-38-18", "episode_len_mean": 4.065292096219931, "timesteps_total": 2280000, "episode_reward_min": -25.43769122068845, "custom_metrics": {}, "time_this_iter_s": 46.592814445495605, "training_iteration": 1900, "info": {"default": {"policy_loss": -0.03886624053120613, "vf_explained_var": 0.6894592642784119, "vf_loss": 5.370078086853027, "kl": 0.022525204345583916, "cur_lr": 4.999999873689376e-05, "total_loss": 5.3483171463012695, "entropy": 0.4094647467136383, "cur_kl_coeff": 0.7593749761581421}, "sample_time_ms": 45814.905, "num_steps_trained": 2280000, "grad_time_ms": 397.892, "update_time_ms": 36.972, "num_steps_sampled": 2280000, "load_time_ms": 3.598}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 78097.1643280983, "iterations_since_restore": 11, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 508.27159094810486, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757133544, "timesteps_since_restore": 13200, "episodes_total": 275500, "episode_reward_mean": 3.7510291054021683, "pid": 2334315, "episode_reward_max": 4.000887240138662, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-39-04", "episode_len_mean": 4.157534246575342, "timesteps_total": 2281200, "episode_reward_min": -17.46099633910986, "custom_metrics": {}, "time_this_iter_s": 45.65927982330322, "training_iteration": 1901, "info": {"default": {"policy_loss": -0.04178408533334732, "vf_explained_var": 0.7348792552947998, "vf_loss": 2.679945230484009, "kl": 0.01081738993525505, "cur_lr": 4.999999873689376e-05, "total_loss": 2.6504831314086914, "entropy": 0.38777101039886475, "cur_kl_coeff": 1.139062523841858}, "sample_time_ms": 45390.148, "num_steps_trained": 2281200, "grad_time_ms": 371.11, "update_time_ms": 2.587, "num_steps_sampled": 2281200, "load_time_ms": 0.709}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 78142.6333758831, "iterations_since_restore": 12, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 553.7406387329102, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757133589, "timesteps_since_restore": 14400, "episodes_total": 275794, "episode_reward_mean": 3.8806639716174898, "pid": 2334315, "episode_reward_max": 4.0009061489423345, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-39-49", "episode_len_mean": 4.078231292517007, "timesteps_total": 2282400, "episode_reward_min": -4.910081997342264, "custom_metrics": {}, "time_this_iter_s": 45.4690477848053, "training_iteration": 1902, "info": {"default": {"policy_loss": -0.04983384907245636, "vf_explained_var": 0.8461227416992188, "vf_loss": 1.0060979127883911, "kl": 0.01815742813050747, "cur_lr": 4.999999873689376e-05, "total_loss": 0.9769465327262878, "entropy": 0.36345693469047546, "cur_kl_coeff": 1.139062523841858}, "sample_time_ms": 45338.787, "num_steps_trained": 2282400, "grad_time_ms": 370.841, "update_time_ms": 2.588, "num_steps_sampled": 2282400, "load_time_ms": 0.717}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 78189.71594047546, "iterations_since_restore": 13, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 600.8232033252716, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757133636, "timesteps_since_restore": 15600, "episodes_total": 276092, "episode_reward_mean": 3.959504226881954, "pid": 2334315, "episode_reward_max": 4.000689352276489, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-40-36", "episode_len_mean": 4.026845637583893, "timesteps_total": 2283600, "episode_reward_min": -8.153550111650933, "custom_metrics": {}, "time_this_iter_s": 47.08256459236145, "training_iteration": 1903, "info": {"default": {"policy_loss": -0.022989220917224884, "vf_explained_var": 0.9236777424812317, "vf_loss": 0.5374259948730469, "kl": 0.00685137277469039, "cur_lr": 4.999999873689376e-05, "total_loss": 0.5222409963607788, "entropy": 0.2853350043296814, "cur_kl_coeff": 1.139062523841858}, "sample_time_ms": 45508.986, "num_steps_trained": 2283600, "grad_time_ms": 372.133, "update_time_ms": 2.565, "num_steps_sampled": 2283600, "load_time_ms": 0.727}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 78235.11066842079, "iterations_since_restore": 14, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 646.2179312705994, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757133682, "timesteps_since_restore": 16800, "episodes_total": 276390, "episode_reward_mean": 3.970159748055941, "pid": 2334315, "episode_reward_max": 4.000715549304046, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-41-22", "episode_len_mean": 4.02013422818792, "timesteps_total": 2284800, "episode_reward_min": -4.975914912223342, "custom_metrics": {}, "time_this_iter_s": 45.39472794532776, "training_iteration": 1904, "info": {"default": {"policy_loss": -0.027836574241518974, "vf_explained_var": 0.9525669813156128, "vf_loss": 0.3264111280441284, "kl": 0.002957963850349188, "cur_lr": 4.999999873689376e-05, "total_loss": 0.30194389820098877, "entropy": 0.18351785838603973, "cur_kl_coeff": 1.139062523841858}, "sample_time_ms": 45440.012, "num_steps_trained": 2284800, "grad_time_ms": 372.693, "update_time_ms": 2.515, "num_steps_sampled": 2284800, "load_time_ms": 0.719}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 78281.01697254181, "iterations_since_restore": 15, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 692.1242353916168, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757133727, "timesteps_since_restore": 18000, "episodes_total": 276688, "episode_reward_mean": 3.938495671393865, "pid": 2334315, "episode_reward_max": 4.001664777061437, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-42-07", "episode_len_mean": 4.0369127516778525, "timesteps_total": 2286000, "episode_reward_min": -14.414215187521844, "custom_metrics": {}, "time_this_iter_s": 45.906304121017456, "training_iteration": 1905, "info": {"default": {"policy_loss": -0.025212492793798447, "vf_explained_var": 0.8639060258865356, "vf_loss": 1.2208014726638794, "kl": 0.028914710506796837, "cur_lr": 4.999999873689376e-05, "total_loss": 1.2120566368103027, "entropy": 0.2538606822490692, "cur_kl_coeff": 0.569531261920929}, "sample_time_ms": 45393.211, "num_steps_trained": 2286000, "grad_time_ms": 371.9, "update_time_ms": 2.514, "num_steps_sampled": 2286000, "load_time_ms": 0.704}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 78327.47236084938, "iterations_since_restore": 16, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 738.5796236991882, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757133774, "timesteps_since_restore": 19200, "episodes_total": 276986, "episode_reward_mean": 3.9543320724363906, "pid": 2334315, "episode_reward_max": 4.000878269047572, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-42-54", "episode_len_mean": 4.030201342281879, "timesteps_total": 2287200, "episode_reward_min": -9.694455670826738, "custom_metrics": {}, "time_this_iter_s": 46.45538830757141, "training_iteration": 1906, "info": {"default": {"policy_loss": -0.020945044234395027, "vf_explained_var": 0.9279272556304932, "vf_loss": 0.6627655029296875, "kl": 0.04374115169048309, "cur_lr": 4.999999873689376e-05, "total_loss": 0.6791884303092957, "entropy": 0.2681828439235687, "cur_kl_coeff": 0.854296863079071}, "sample_time_ms": 45479.246, "num_steps_trained": 2287200, "grad_time_ms": 373.183, "update_time_ms": 2.536, "num_steps_sampled": 2287200, "load_time_ms": 0.721}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 78373.70872688293, "iterations_since_restore": 17, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 784.8159897327423, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757133820, "timesteps_since_restore": 20400, "episodes_total": 277286, "episode_reward_mean": 4.000286158106772, "pid": 2334315, "episode_reward_max": 4.001265746585594, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-43-40", "episode_len_mean": 4.0, "timesteps_total": 2288400, "episode_reward_min": 4.0001234131076915, "custom_metrics": {}, "time_this_iter_s": 46.23636603355408, "training_iteration": 1907, "info": {"default": {"policy_loss": -0.08081890642642975, "vf_explained_var": 0.9996397495269775, "vf_loss": 0.0019368636421859264, "kl": 0.027922190725803375, "cur_lr": 4.999999873689376e-05, "total_loss": -0.043101292103528976, "entropy": 0.23748916387557983, "cur_kl_coeff": 1.2814452648162842}, "sample_time_ms": 45581.641, "num_steps_trained": 2288400, "grad_time_ms": 373.034, "update_time_ms": 2.525, "num_steps_sampled": 2288400, "load_time_ms": 0.721}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 78419.90493512154, "iterations_since_restore": 18, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 831.012197971344, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757133866, "timesteps_since_restore": 21600, "episodes_total": 277585, "episode_reward_mean": 3.979414359605173, "pid": 2334315, "episode_reward_max": 4.00061872951216, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-44-26", "episode_len_mean": 4.013377926421405, "timesteps_total": 2289600, "episode_reward_min": -2.23890236912699, "custom_metrics": {}, "time_this_iter_s": 46.196208238601685, "training_iteration": 1908, "info": {"default": {"policy_loss": -0.033961132168769836, "vf_explained_var": 0.9743537902832031, "vf_loss": 0.14223450422286987, "kl": 0.00825632456690073, "cur_lr": 4.999999873689376e-05, "total_loss": 0.12414342910051346, "entropy": 0.2687181234359741, "cur_kl_coeff": 1.9221681356430054}, "sample_time_ms": 45640.699, "num_steps_trained": 2289600, "grad_time_ms": 373.733, "update_time_ms": 2.515, "num_steps_sampled": 2289600, "load_time_ms": 0.721}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 78465.76228713989, "iterations_since_restore": 19, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 876.8695499897003, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757133912, "timesteps_since_restore": 22800, "episodes_total": 277884, "episode_reward_mean": 3.9835866751786777, "pid": 2334315, "episode_reward_max": 4.002033160258007, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-45-12", "episode_len_mean": 4.010033444816053, "timesteps_total": 2290800, "episode_reward_min": -0.9930729752028338, "custom_metrics": {}, "time_this_iter_s": 45.85735201835632, "training_iteration": 1909, "info": {"default": {"policy_loss": -0.029176585376262665, "vf_explained_var": 0.9905980229377747, "vf_loss": 0.05357038602232933, "kl": 0.0035299782175570726, "cur_lr": 4.999999873689376e-05, "total_loss": 0.031179018318653107, "entropy": 0.27563273906707764, "cur_kl_coeff": 1.9221681356430054}, "sample_time_ms": 45703.503, "num_steps_trained": 2290800, "grad_time_ms": 372.118, "update_time_ms": 2.489, "num_steps_sampled": 2290800, "load_time_ms": 0.71}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 78511.93576860428, "iterations_since_restore": 20, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 923.0430314540863, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757133958, "timesteps_since_restore": 24000, "episodes_total": 278183, "episode_reward_mean": 3.9728322800108216, "pid": 2334315, "episode_reward_max": 4.000720149862941, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-45-58", "episode_len_mean": 4.016722408026756, "timesteps_total": 2292000, "episode_reward_min": -4.208524051851326, "custom_metrics": {}, "time_this_iter_s": 46.173481464385986, "training_iteration": 1910, "info": {"default": {"policy_loss": -0.024400796741247177, "vf_explained_var": 0.9569826126098633, "vf_loss": 0.25260958075523376, "kl": 0.003378215478733182, "cur_lr": 4.999999873689376e-05, "total_loss": 0.23145556449890137, "entropy": 0.26537391543388367, "cur_kl_coeff": 0.9610840678215027}, "sample_time_ms": 45663.133, "num_steps_trained": 2292000, "grad_time_ms": 370.613, "update_time_ms": 2.498, "num_steps_sampled": 2292000, "load_time_ms": 0.696}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 78558.07777190208, "iterations_since_restore": 21, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 969.1850347518921, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757134005, "timesteps_since_restore": 25200, "episodes_total": 278479, "episode_reward_mean": 3.911214056338029, "pid": 2334315, "episode_reward_max": 4.000831116653163, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-46-45", "episode_len_mean": 4.0608108108108105, "timesteps_total": 2293200, "episode_reward_min": -12.809552241877718, "custom_metrics": {}, "time_this_iter_s": 46.142003297805786, "training_iteration": 1911, "info": {"default": {"policy_loss": -0.03559558093547821, "vf_explained_var": 0.9073591232299805, "vf_loss": 0.7430106401443481, "kl": 0.006651054602116346, "cur_lr": 4.999999873689376e-05, "total_loss": 0.71061110496521, "entropy": 0.36638179421424866, "cur_kl_coeff": 0.48054203391075134}, "sample_time_ms": 45710.603, "num_steps_trained": 2293200, "grad_time_ms": 371.309, "update_time_ms": 2.543, "num_steps_sampled": 2293200, "load_time_ms": 0.7}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 78603.42088294029, "iterations_since_restore": 22, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1014.5281457901001, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757134050, "timesteps_since_restore": 26400, "episodes_total": 278770, "episode_reward_mean": 3.8283509160556775, "pid": 2334315, "episode_reward_max": 4.001130676491861, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-47-30", "episode_len_mean": 4.106529209621993, "timesteps_total": 2294400, "episode_reward_min": -21.52575752703257, "custom_metrics": {}, "time_this_iter_s": 45.34311103820801, "training_iteration": 1912, "info": {"default": {"policy_loss": -0.045282032340765, "vf_explained_var": 0.7634081244468689, "vf_loss": 3.240872859954834, "kl": 0.0237196683883667, "cur_lr": 4.999999873689376e-05, "total_loss": 3.2069897651672363, "entropy": 0.3849261999130249, "cur_kl_coeff": 0.48054203391075134}, "sample_time_ms": 45698.151, "num_steps_trained": 2294400, "grad_time_ms": 371.181, "update_time_ms": 2.559, "num_steps_sampled": 2294400, "load_time_ms": 0.689}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 78648.9430077076, "iterations_since_restore": 23, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1060.0502705574036, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757134096, "timesteps_since_restore": 27600, "episodes_total": 279066, "episode_reward_mean": 3.9020714483835337, "pid": 2334315, "episode_reward_max": 4.000623779377215, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-48-16", "episode_len_mean": 4.0675675675675675, "timesteps_total": 2295600, "episode_reward_min": -20.83487209824139, "custom_metrics": {}, "time_this_iter_s": 45.52212476730347, "training_iteration": 1913, "info": {"default": {"policy_loss": -0.03491891920566559, "vf_explained_var": 0.904205322265625, "vf_loss": 1.305985689163208, "kl": 0.008413798175752163, "cur_lr": 4.999999873689376e-05, "total_loss": 1.2771315574645996, "entropy": 0.297031968832016, "cur_kl_coeff": 0.720812976360321}, "sample_time_ms": 45542.154, "num_steps_trained": 2295600, "grad_time_ms": 371.073, "update_time_ms": 2.56, "num_steps_sampled": 2295600, "load_time_ms": 0.697}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 78693.90665888786, "iterations_since_restore": 24, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1105.013921737671, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757134141, "timesteps_since_restore": 28800, "episodes_total": 279364, "episode_reward_mean": 3.9629591942282696, "pid": 2334315, "episode_reward_max": 4.000588291537668, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-49-01", "episode_len_mean": 4.023489932885906, "timesteps_total": 2296800, "episode_reward_min": -7.11935838486583, "custom_metrics": {}, "time_this_iter_s": 44.963651180267334, "training_iteration": 1914, "info": {"default": {"policy_loss": -0.04093995317816734, "vf_explained_var": 0.9227831363677979, "vf_loss": 0.5169579982757568, "kl": 0.01214078813791275, "cur_lr": 4.999999873689376e-05, "total_loss": 0.4847692847251892, "entropy": 0.24161022901535034, "cur_kl_coeff": 0.720812976360321}, "sample_time_ms": 45498.852, "num_steps_trained": 2296800, "grad_time_ms": 371.226, "update_time_ms": 2.579, "num_steps_sampled": 2296800, "load_time_ms": 0.713}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 78738.62557315826, "iterations_since_restore": 25, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1149.732836008072, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757134185, "timesteps_since_restore": 30000, "episodes_total": 279662, "episode_reward_mean": 3.9593072727003946, "pid": 2334315, "episode_reward_max": 4.000748527162837, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-49-45", "episode_len_mean": 4.023489932885906, "timesteps_total": 2298000, "episode_reward_min": -3.2157990783516617, "custom_metrics": {}, "time_this_iter_s": 44.718914270401, "training_iteration": 1915, "info": {"default": {"policy_loss": -0.03390463814139366, "vf_explained_var": 0.9673312306404114, "vf_loss": 0.19698308408260345, "kl": 0.006522935815155506, "cur_lr": 4.999999873689376e-05, "total_loss": 0.16778025031089783, "entropy": 0.2002587467432022, "cur_kl_coeff": 0.720812976360321}, "sample_time_ms": 45380.455, "num_steps_trained": 2298000, "grad_time_ms": 370.897, "update_time_ms": 2.597, "num_steps_sampled": 2298000, "load_time_ms": 0.717}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 78783.58183288574, "iterations_since_restore": 26, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1194.68909573555, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757134230, "timesteps_since_restore": 31200, "episodes_total": 279961, "episode_reward_mean": 3.9727983717633277, "pid": 2334315, "episode_reward_max": 4.001714732035456, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-50-30", "episode_len_mean": 4.016722408026756, "timesteps_total": 2299200, "episode_reward_min": -4.218525308756316, "custom_metrics": {}, "time_this_iter_s": 44.95625972747803, "training_iteration": 1916, "info": {"default": {"policy_loss": -0.028566990047693253, "vf_explained_var": 0.9571188688278198, "vf_loss": 0.2631781995296478, "kl": 0.018753940239548683, "cur_lr": 4.999999873689376e-05, "total_loss": 0.24812933802604675, "entropy": 0.1676533818244934, "cur_kl_coeff": 0.720812976360321}, "sample_time_ms": 45232.118, "num_steps_trained": 2299200, "grad_time_ms": 369.301, "update_time_ms": 2.571, "num_steps_sampled": 2299200, "load_time_ms": 0.693}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 78828.80811953545, "iterations_since_restore": 27, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1239.915382385254, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757134275, "timesteps_since_restore": 32400, "episodes_total": 280261, "episode_reward_mean": 4.000278921391265, "pid": 2334315, "episode_reward_max": 4.0006539402368855, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-51-15", "episode_len_mean": 4.0, "timesteps_total": 2300400, "episode_reward_min": 4.000134987341868, "custom_metrics": {}, "time_this_iter_s": 45.22628664970398, "training_iteration": 1917, "info": {"default": {"policy_loss": -0.10360731929540634, "vf_explained_var": 0.999623715877533, "vf_loss": 0.0019785165786743164, "kl": 0.03775777667760849, "cur_lr": 4.999999873689376e-05, "total_loss": -0.074412502348423, "entropy": 0.23995865881443024, "cur_kl_coeff": 0.720812976360321}, "sample_time_ms": 45128.191, "num_steps_trained": 2300400, "grad_time_ms": 372.28, "update_time_ms": 2.577, "num_steps_sampled": 2300400, "load_time_ms": 0.696}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 78874.66448140144, "iterations_since_restore": 28, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1285.7717442512512, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757134321, "timesteps_since_restore": 33600, "episodes_total": 280556, "episode_reward_mean": 3.8821161798642816, "pid": 2334315, "episode_reward_max": 4.000675086301319, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-52-01", "episode_len_mean": 4.074576271186441, "timesteps_total": 2301600, "episode_reward_min": -16.782928024119663, "custom_metrics": {}, "time_this_iter_s": 45.856361865997314, "training_iteration": 1918, "info": {"default": {"policy_loss": -0.037215229123830795, "vf_explained_var": 0.8624221682548523, "vf_loss": 1.0052969455718994, "kl": 0.009162007831037045, "cur_lr": 4.999999873689376e-05, "total_loss": 0.9779878258705139, "entropy": 0.188435897231102, "cur_kl_coeff": 1.0812194347381592}, "sample_time_ms": 45093.426, "num_steps_trained": 2301600, "grad_time_ms": 373.032, "update_time_ms": 2.594, "num_steps_sampled": 2301600, "load_time_ms": 0.695}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 78919.94057559967, "iterations_since_restore": 29, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1331.0478384494781, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757134367, "timesteps_since_restore": 34800, "episodes_total": 280856, "episode_reward_mean": 4.00027338491553, "pid": 2334315, "episode_reward_max": 4.000570180233597, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-52-47", "episode_len_mean": 4.0, "timesteps_total": 2302800, "episode_reward_min": 4.00011173550874, "custom_metrics": {}, "time_this_iter_s": 45.27609419822693, "training_iteration": 1919, "info": {"default": {"policy_loss": -0.0989903062582016, "vf_explained_var": 0.999480664730072, "vf_loss": 0.0027686525136232376, "kl": 0.026522686704993248, "cur_lr": 4.999999873689376e-05, "total_loss": -0.06754481047391891, "entropy": 0.13791672885417938, "cur_kl_coeff": 1.0812194347381592}, "sample_time_ms": 45033.672, "num_steps_trained": 2302800, "grad_time_ms": 374.68, "update_time_ms": 2.593, "num_steps_sampled": 2302800, "load_time_ms": 0.706}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 78965.23239636421, "iterations_since_restore": 30, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1376.3396592140198, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757134412, "timesteps_since_restore": 36000, "episodes_total": 281156, "episode_reward_mean": 4.00027630148176, "pid": 2334315, "episode_reward_max": 4.000694722973275, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-53-32", "episode_len_mean": 4.0, "timesteps_total": 2304000, "episode_reward_min": 4.000118334727172, "custom_metrics": {}, "time_this_iter_s": 45.291820764541626, "training_iteration": 1920, "info": {"default": {"policy_loss": -0.10673592984676361, "vf_explained_var": 0.9996479749679565, "vf_loss": 0.0019100010395050049, "kl": 0.023304976522922516, "cur_lr": 4.999999873689376e-05, "total_loss": -0.06702923774719238, "entropy": 0.20669446885585785, "cur_kl_coeff": 1.6218292713165283}, "sample_time_ms": 44944.572, "num_steps_trained": 2304000, "grad_time_ms": 375.67, "update_time_ms": 2.567, "num_steps_sampled": 2304000, "load_time_ms": 0.699}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 79010.49864006042, "iterations_since_restore": 31, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1421.6059029102325, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757134457, "timesteps_since_restore": 37200, "episodes_total": 281453, "episode_reward_mean": 3.9371265437789305, "pid": 2334315, "episode_reward_max": 4.001974977373438, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-54-17", "episode_len_mean": 4.037037037037037, "timesteps_total": 2305200, "episode_reward_min": -6.7108217859453845, "custom_metrics": {}, "time_this_iter_s": 45.26624369621277, "training_iteration": 1921, "info": {"default": {"policy_loss": -0.027319252490997314, "vf_explained_var": 0.9386727809906006, "vf_loss": 0.4425496459007263, "kl": 0.006251346319913864, "cur_lr": 4.999999873689376e-05, "total_loss": 0.4304382801055908, "entropy": 0.2518656253814697, "cur_kl_coeff": 2.432743787765503}, "sample_time_ms": 44858.709, "num_steps_trained": 2305200, "grad_time_ms": 374.012, "update_time_ms": 2.564, "num_steps_sampled": 2305200, "load_time_ms": 0.69}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 79055.15220952034, "iterations_since_restore": 32, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1466.2594723701477, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757134502, "timesteps_since_restore": 38400, "episodes_total": 281753, "episode_reward_mean": 4.000275072643913, "pid": 2334315, "episode_reward_max": 4.000565661307263, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-55-02", "episode_len_mean": 4.0, "timesteps_total": 2306400, "episode_reward_min": 4.000139884287464, "custom_metrics": {}, "time_this_iter_s": 44.65356945991516, "training_iteration": 1922, "info": {"default": {"policy_loss": -0.08202323317527771, "vf_explained_var": 0.9996688365936279, "vf_loss": 0.0017755540320649743, "kl": 0.01603974960744381, "cur_lr": 4.999999873689376e-05, "total_loss": -0.041227076202631, "entropy": 0.24371248483657837, "cur_kl_coeff": 2.432743787765503}, "sample_time_ms": 44788.575, "num_steps_trained": 2306400, "grad_time_ms": 375.209, "update_time_ms": 2.534, "num_steps_sampled": 2306400, "load_time_ms": 0.688}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 79100.36091947556, "iterations_since_restore": 33, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1511.4681823253632, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757134547, "timesteps_since_restore": 39600, "episodes_total": 282052, "episode_reward_mean": 3.9800916889245648, "pid": 2334315, "episode_reward_max": 4.000574843436315, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-55-47", "episode_len_mean": 4.013377926421405, "timesteps_total": 2307600, "episode_reward_min": -2.0341344765868996, "custom_metrics": {}, "time_this_iter_s": 45.208709955215454, "training_iteration": 1923, "info": {"default": {"policy_loss": -0.021474754437804222, "vf_explained_var": 0.9723188877105713, "vf_loss": 0.1590716689825058, "kl": 0.0050060562789440155, "cur_lr": 4.999999873689376e-05, "total_loss": 0.14977537095546722, "entropy": 0.20478026568889618, "cur_kl_coeff": 2.432743787765503}, "sample_time_ms": 44757.884, "num_steps_trained": 2307600, "grad_time_ms": 374.619, "update_time_ms": 2.539, "num_steps_sampled": 2307600, "load_time_ms": 0.665}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 79146.61361789703, "iterations_since_restore": 34, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1557.7208807468414, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757134593, "timesteps_since_restore": 40800, "episodes_total": 282351, "episode_reward_mean": 3.9797170921551484, "pid": 2334315, "episode_reward_max": 4.000680684844391, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-56-33", "episode_len_mean": 4.013377926421405, "timesteps_total": 2308800, "episode_reward_min": -2.1484303553105253, "custom_metrics": {}, "time_this_iter_s": 46.25269842147827, "training_iteration": 1924, "info": {"default": {"policy_loss": -0.021509550511837006, "vf_explained_var": 0.973979651927948, "vf_loss": 0.16197851300239563, "kl": 0.005876995623111725, "cur_lr": 4.999999873689376e-05, "total_loss": 0.15476621687412262, "entropy": 0.21730786561965942, "cur_kl_coeff": 2.432743787765503}, "sample_time_ms": 44887.434, "num_steps_trained": 2308800, "grad_time_ms": 374.077, "update_time_ms": 2.527, "num_steps_sampled": 2308800, "load_time_ms": 0.65}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 79191.57624292374, "iterations_since_restore": 35, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1602.6835057735443, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757134638, "timesteps_since_restore": 42000, "episodes_total": 282645, "episode_reward_mean": 3.8844257359014427, "pid": 2334315, "episode_reward_max": 4.001688399053657, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-57-18", "episode_len_mean": 4.074829931972789, "timesteps_total": 2310000, "episode_reward_min": -13.92516501790698, "custom_metrics": {}, "time_this_iter_s": 44.96262502670288, "training_iteration": 1925, "info": {"default": {"policy_loss": -0.034205514937639236, "vf_explained_var": 0.8312904834747314, "vf_loss": 1.5229769945144653, "kl": 0.009320825338363647, "cur_lr": 4.999999873689376e-05, "total_loss": 1.511446475982666, "entropy": 0.3059292137622833, "cur_kl_coeff": 2.432743787765503}, "sample_time_ms": 44913.882, "num_steps_trained": 2310000, "grad_time_ms": 372.014, "update_time_ms": 2.506, "num_steps_sampled": 2310000, "load_time_ms": 0.648}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 79236.78554201126, "iterations_since_restore": 36, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1647.8928048610687, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757134684, "timesteps_since_restore": 43200, "episodes_total": 282945, "episode_reward_mean": 4.000281551886332, "pid": 2334315, "episode_reward_max": 4.00064093452613, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-58-04", "episode_len_mean": 4.0, "timesteps_total": 2311200, "episode_reward_min": 4.000112826420863, "custom_metrics": {}, "time_this_iter_s": 45.209299087524414, "training_iteration": 1926, "info": {"default": {"policy_loss": -0.07795628905296326, "vf_explained_var": 0.9997309446334839, "vf_loss": 0.001452397438697517, "kl": 0.019255751743912697, "cur_lr": 4.999999873689376e-05, "total_loss": -0.029659582301974297, "entropy": 0.19921763241291046, "cur_kl_coeff": 2.432743787765503}, "sample_time_ms": 44938.659, "num_steps_trained": 2311200, "grad_time_ms": 372.593, "update_time_ms": 2.521, "num_steps_sampled": 2311200, "load_time_ms": 0.654}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 79281.42788815498, "iterations_since_restore": 37, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1692.5351510047913, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757134728, "timesteps_since_restore": 44400, "episodes_total": 283242, "episode_reward_mean": 3.9493003118821943, "pid": 2334315, "episode_reward_max": 4.000862343198624, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-58-48", "episode_len_mean": 4.033670033670034, "timesteps_total": 2312400, "episode_reward_min": -11.142060113720795, "custom_metrics": {}, "time_this_iter_s": 44.642346143722534, "training_iteration": 1927, "info": {"default": {"policy_loss": -0.022738972678780556, "vf_explained_var": 0.8899887800216675, "vf_loss": 0.8107560276985168, "kl": 0.004200292751193047, "cur_lr": 4.999999873689376e-05, "total_loss": 0.7982353568077087, "entropy": 0.23977714776992798, "cur_kl_coeff": 2.432743787765503}, "sample_time_ms": 44883.452, "num_steps_trained": 2312400, "grad_time_ms": 369.419, "update_time_ms": 2.516, "num_steps_sampled": 2312400, "load_time_ms": 0.652}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 79326.62881016731, "iterations_since_restore": 38, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1737.7360730171204, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757134773, "timesteps_since_restore": 45600, "episodes_total": 283541, "episode_reward_mean": 3.966339377951376, "pid": 2334315, "episode_reward_max": 4.001172235053387, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_06-59-33", "episode_len_mean": 4.023411371237458, "timesteps_total": 2313600, "episode_reward_min": -2.0569111262506663, "custom_metrics": {}, "time_this_iter_s": 45.2009220123291, "training_iteration": 1928, "info": {"default": {"policy_loss": -0.041413500905036926, "vf_explained_var": 0.9662798643112183, "vf_loss": 0.19278576970100403, "kl": 0.010385911911725998, "cur_lr": 4.999999873689376e-05, "total_loss": 0.16400538384914398, "entropy": 0.24703723192214966, "cur_kl_coeff": 1.2163718938827515}, "sample_time_ms": 44818.207, "num_steps_trained": 2313600, "grad_time_ms": 369.124, "update_time_ms": 2.52, "num_steps_sampled": 2313600, "load_time_ms": 0.653}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 79372.15839672089, "iterations_since_restore": 39, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1783.265659570694, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757134819, "timesteps_since_restore": 46800, "episodes_total": 283840, "episode_reward_mean": 3.9734442188106205, "pid": 2334315, "episode_reward_max": 4.000688735202999, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-00-19", "episode_len_mean": 4.016722408026756, "timesteps_total": 2314800, "episode_reward_min": -4.023996191592712, "custom_metrics": {}, "time_this_iter_s": 45.52958655357361, "training_iteration": 1929, "info": {"default": {"policy_loss": -0.020963840186595917, "vf_explained_var": 0.9599056243896484, "vf_loss": 0.2292700856924057, "kl": 0.0023791412822902203, "cur_lr": 4.999999873689376e-05, "total_loss": 0.21120014786720276, "entropy": 0.24480873346328735, "cur_kl_coeff": 1.2163718938827515}, "sample_time_ms": 44842.716, "num_steps_trained": 2314800, "grad_time_ms": 369.922, "update_time_ms": 2.515, "num_steps_sampled": 2314800, "load_time_ms": 0.644}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 79418.62928318977, "iterations_since_restore": 40, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1829.7365460395813, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757134865, "timesteps_since_restore": 48000, "episodes_total": 284134, "episode_reward_mean": 3.8895436396321332, "pid": 2334315, "episode_reward_max": 4.001796990101777, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-01-05", "episode_len_mean": 4.074829931972789, "timesteps_total": 2316000, "episode_reward_min": -8.287982591293954, "custom_metrics": {}, "time_this_iter_s": 46.47088646888733, "training_iteration": 1930, "info": {"default": {"policy_loss": -0.041833385825157166, "vf_explained_var": 0.861703097820282, "vf_loss": 1.06712806224823, "kl": 0.012142127379775047, "cur_lr": 4.999999873689376e-05, "total_loss": 1.0326794385910034, "entropy": 0.28977230191230774, "cur_kl_coeff": 0.6081859469413757}, "sample_time_ms": 44959.932, "num_steps_trained": 2316000, "grad_time_ms": 370.513, "update_time_ms": 2.539, "num_steps_sampled": 2316000, "load_time_ms": 0.657}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 79464.70535802841, "iterations_since_restore": 41, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1875.8126208782196, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757134912, "timesteps_since_restore": 49200, "episodes_total": 284431, "episode_reward_mean": 3.913792977542699, "pid": 2334315, "episode_reward_max": 4.000995342737218, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-01-52", "episode_len_mean": 4.057239057239057, "timesteps_total": 2317200, "episode_reward_min": -12.77590291977371, "custom_metrics": {}, "time_this_iter_s": 46.076074838638306, "training_iteration": 1931, "info": {"default": {"policy_loss": -0.03197546675801277, "vf_explained_var": 0.8690040111541748, "vf_loss": 1.1814097166061401, "kl": 0.013028624467551708, "cur_lr": 4.999999873689376e-05, "total_loss": 1.1573580503463745, "entropy": 0.36337339878082275, "cur_kl_coeff": 0.6081859469413757}, "sample_time_ms": 45040.047, "num_steps_trained": 2317200, "grad_time_ms": 371.399, "update_time_ms": 2.505, "num_steps_sampled": 2317200, "load_time_ms": 0.666}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 79509.68538451195, "iterations_since_restore": 42, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1920.7926473617554, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757134957, "timesteps_since_restore": 50400, "episodes_total": 284728, "episode_reward_mean": 3.929351230183225, "pid": 2334315, "episode_reward_max": 4.000686989650205, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-02-37", "episode_len_mean": 4.043771043771044, "timesteps_total": 2318400, "episode_reward_min": -9.017977679533342, "custom_metrics": {}, "time_this_iter_s": 44.98002648353577, "training_iteration": 1932, "info": {"default": {"policy_loss": -0.0304773710668087, "vf_explained_var": 0.881854772567749, "vf_loss": 0.8399158716201782, "kl": 0.029501911252737045, "cur_lr": 4.999999873689376e-05, "total_loss": 0.8273811340332031, "entropy": 0.2610696256160736, "cur_kl_coeff": 0.6081859469413757}, "sample_time_ms": 45073.785, "num_steps_trained": 2318400, "grad_time_ms": 370.195, "update_time_ms": 2.532, "num_steps_sampled": 2318400, "load_time_ms": 0.662}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 79556.32399892807, "iterations_since_restore": 43, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 1967.4312617778778, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757135003, "timesteps_since_restore": 51600, "episodes_total": 285027, "episode_reward_mean": 3.9839671763039424, "pid": 2334315, "episode_reward_max": 4.000537871394309, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-03-23", "episode_len_mean": 4.010033444816053, "timesteps_total": 2319600, "episode_reward_min": -0.8782003169296733, "custom_metrics": {}, "time_this_iter_s": 46.63861441612244, "training_iteration": 1933, "info": {"default": {"policy_loss": -0.02716951258480549, "vf_explained_var": 0.9922914505004883, "vf_loss": 0.046458471566438675, "kl": 0.006561047397553921, "cur_lr": 4.999999873689376e-05, "total_loss": 0.025274457409977913, "entropy": 0.18679064512252808, "cur_kl_coeff": 0.9122788906097412}, "sample_time_ms": 45218.756, "num_steps_trained": 2319600, "grad_time_ms": 368.143, "update_time_ms": 2.588, "num_steps_sampled": 2319600, "load_time_ms": 0.666}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 79601.79537081718, "iterations_since_restore": 44, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2012.9026336669922, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757135049, "timesteps_since_restore": 52800, "episodes_total": 285327, "episode_reward_mean": 4.000287665222487, "pid": 2334315, "episode_reward_max": 4.000674398826108, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-04-09", "episode_len_mean": 4.0, "timesteps_total": 2320800, "episode_reward_min": 4.000120410026855, "custom_metrics": {}, "time_this_iter_s": 45.47137188911438, "training_iteration": 1934, "info": {"default": {"policy_loss": -0.07968692481517792, "vf_explained_var": 0.9997720718383789, "vf_loss": 0.0011799606727436185, "kl": 0.028493549674749374, "cur_lr": 4.999999873689376e-05, "total_loss": -0.05251290649175644, "entropy": 0.2585633397102356, "cur_kl_coeff": 0.9122788906097412}, "sample_time_ms": 45142.798, "num_steps_trained": 2320800, "grad_time_ms": 365.986, "update_time_ms": 2.579, "num_steps_sampled": 2320800, "load_time_ms": 0.664}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 79647.34934544563, "iterations_since_restore": 45, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2058.4566082954407, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757135094, "timesteps_since_restore": 54000, "episodes_total": 285624, "episode_reward_mean": 3.954098316473249, "pid": 2334315, "episode_reward_max": 4.001215924322786, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-04-54", "episode_len_mean": 4.03030303030303, "timesteps_total": 2322000, "episode_reward_min": -9.720153972372078, "custom_metrics": {}, "time_this_iter_s": 45.553974628448486, "training_iteration": 1935, "info": {"default": {"policy_loss": -0.0225378405302763, "vf_explained_var": 0.9085637331008911, "vf_loss": 0.6660969257354736, "kl": 0.009172397665679455, "cur_lr": 4.999999873689376e-05, "total_loss": 0.6561106443405151, "entropy": 0.29416030645370483, "cur_kl_coeff": 1.3684184551239014}, "sample_time_ms": 45199.968, "num_steps_trained": 2322000, "grad_time_ms": 367.913, "update_time_ms": 2.575, "num_steps_sampled": 2322000, "load_time_ms": 0.665}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 79693.14499950409, "iterations_since_restore": 46, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2104.252262353897, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757135140, "timesteps_since_restore": 55200, "episodes_total": 285924, "episode_reward_mean": 4.000291731193093, "pid": 2334315, "episode_reward_max": 4.000783600016579, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-05-40", "episode_len_mean": 4.0, "timesteps_total": 2323200, "episode_reward_min": 4.0001369887227565, "custom_metrics": {}, "time_this_iter_s": 45.79565405845642, "training_iteration": 1936, "info": {"default": {"policy_loss": -0.08471646904945374, "vf_explained_var": 0.9998948574066162, "vf_loss": 0.0005659071612171829, "kl": 0.02601299248635769, "cur_lr": 4.999999873689376e-05, "total_loss": -0.048553913831710815, "entropy": 0.2998347580432892, "cur_kl_coeff": 1.3684184551239014}, "sample_time_ms": 45258.619, "num_steps_trained": 2323200, "grad_time_ms": 367.82, "update_time_ms": 2.596, "num_steps_sampled": 2323200, "load_time_ms": 0.672}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 79738.27086782455, "iterations_since_restore": 47, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2149.378130674362, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 288, "timestamp": 1757135185, "timesteps_since_restore": 56400, "episodes_total": 286212, "episode_reward_mean": 3.757191927828339, "pid": 2334315, "episode_reward_max": 4.000684026725835, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-06-25", "episode_len_mean": 4.152777777777778, "timesteps_total": 2324400, "episode_reward_min": -48.89968938640688, "custom_metrics": {}, "time_this_iter_s": 45.12586832046509, "training_iteration": 1937, "info": {"default": {"policy_loss": -0.04188266769051552, "vf_explained_var": 0.5641286373138428, "vf_loss": 15.265291213989258, "kl": 0.006304501555860043, "cur_lr": 4.999999873689376e-05, "total_loss": 15.236350059509277, "entropy": 0.5428876876831055, "cur_kl_coeff": 2.0526275634765625}, "sample_time_ms": 45306.318, "num_steps_trained": 2324400, "grad_time_ms": 368.412, "update_time_ms": 2.611, "num_steps_sampled": 2324400, "load_time_ms": 0.673}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 79784.59492349625, "iterations_since_restore": 48, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2195.702186346054, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757135232, "timesteps_since_restore": 57600, "episodes_total": 286509, "episode_reward_mean": 3.932928568038442, "pid": 2334315, "episode_reward_max": 4.000959596943762, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-07-12", "episode_len_mean": 4.040404040404041, "timesteps_total": 2325600, "episode_reward_min": -16.007160447231367, "custom_metrics": {}, "time_this_iter_s": 46.324055671691895, "training_iteration": 1938, "info": {"default": {"policy_loss": -0.031860336661338806, "vf_explained_var": 0.9531021118164062, "vf_loss": 0.43623191118240356, "kl": 0.00407828763127327, "cur_lr": 4.999999873689376e-05, "total_loss": 0.4127427637577057, "entropy": 0.33931609988212585, "cur_kl_coeff": 2.0526275634765625}, "sample_time_ms": 45419.719, "num_steps_trained": 2325600, "grad_time_ms": 367.2, "update_time_ms": 2.68, "num_steps_sampled": 2325600, "load_time_ms": 0.677}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 79830.15763759613, "iterations_since_restore": 49, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2241.264900445938, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757135277, "timesteps_since_restore": 58800, "episodes_total": 286805, "episode_reward_mean": 3.902807627322625, "pid": 2334315, "episode_reward_max": 4.000638588339009, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-07-57", "episode_len_mean": 4.0641891891891895, "timesteps_total": 2326800, "episode_reward_min": -19.005196821445665, "custom_metrics": {}, "time_this_iter_s": 45.56271409988403, "training_iteration": 1939, "info": {"default": {"policy_loss": -0.0386674627661705, "vf_explained_var": 0.8081399202346802, "vf_loss": 2.1503236293792725, "kl": 0.005957199260592461, "cur_lr": 4.999999873689376e-05, "total_loss": 2.117770195007324, "entropy": 0.4153769016265869, "cur_kl_coeff": 1.0263137817382812}, "sample_time_ms": 45425.424, "num_steps_trained": 2326800, "grad_time_ms": 364.79, "update_time_ms": 2.715, "num_steps_sampled": 2326800, "load_time_ms": 0.681}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 79875.92552280426, "iterations_since_restore": 50, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2287.032785654068, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757135323, "timesteps_since_restore": 60000, "episodes_total": 287101, "episode_reward_mean": 3.932957997962743, "pid": 2334315, "episode_reward_max": 4.000885069316309, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-08-43", "episode_len_mean": 4.043918918918919, "timesteps_total": 2328000, "episode_reward_min": -11.85093157086116, "custom_metrics": {}, "time_this_iter_s": 45.76788520812988, "training_iteration": 1940, "info": {"default": {"policy_loss": -0.040772445499897, "vf_explained_var": 0.8824732303619385, "vf_loss": 0.8411788940429688, "kl": 0.018130376935005188, "cur_lr": 4.999999873689376e-05, "total_loss": 0.8190138936042786, "entropy": 0.2837959825992584, "cur_kl_coeff": 1.0263137817382812}, "sample_time_ms": 45357.499, "num_steps_trained": 2328000, "grad_time_ms": 362.529, "update_time_ms": 2.692, "num_steps_sampled": 2328000, "load_time_ms": 0.673}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 79921.65767598152, "iterations_since_restore": 51, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2332.7649388313293, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757135369, "timesteps_since_restore": 61200, "episodes_total": 287395, "episode_reward_mean": 3.8657884404244345, "pid": 2334315, "episode_reward_max": 4.000676535222322, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-09-29", "episode_len_mean": 4.085034013605442, "timesteps_total": 2329200, "episode_reward_min": -18.406533163276684, "custom_metrics": {}, "time_this_iter_s": 45.73215317726135, "training_iteration": 1941, "info": {"default": {"policy_loss": -0.04011418670415878, "vf_explained_var": 0.7562131881713867, "vf_loss": 2.479750633239746, "kl": 0.010158398188650608, "cur_lr": 4.999999873689376e-05, "total_loss": 2.4500622749328613, "entropy": 0.44022485613822937, "cur_kl_coeff": 1.0263137817382812}, "sample_time_ms": 45321.558, "num_steps_trained": 2329200, "grad_time_ms": 364.111, "update_time_ms": 2.655, "num_steps_sampled": 2329200, "load_time_ms": 0.67}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 79966.579829216, "iterations_since_restore": 52, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2377.687092065811, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757135414, "timesteps_since_restore": 62400, "episodes_total": 287694, "episode_reward_mean": 3.976887540396048, "pid": 2334315, "episode_reward_max": 4.0007857361567964, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-10-14", "episode_len_mean": 4.013377926421405, "timesteps_total": 2330400, "episode_reward_min": -2.9968974113531743, "custom_metrics": {}, "time_this_iter_s": 44.92215323448181, "training_iteration": 1942, "info": {"default": {"policy_loss": -0.01569145917892456, "vf_explained_var": 0.9700539708137512, "vf_loss": 0.17348165810108185, "kl": 0.0032024250831454992, "cur_lr": 4.999999873689376e-05, "total_loss": 0.1610768884420395, "entropy": 0.21782554686069489, "cur_kl_coeff": 1.0263137817382812}, "sample_time_ms": 45316.065, "num_steps_trained": 2330400, "grad_time_ms": 363.906, "update_time_ms": 2.644, "num_steps_sampled": 2330400, "load_time_ms": 0.672}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 80012.3161098957, "iterations_since_restore": 53, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2423.423372745514, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 293, "timestamp": 1757135459, "timesteps_since_restore": 63600, "episodes_total": 287987, "episode_reward_mean": 3.8266455118014058, "pid": 2334315, "episode_reward_max": 4.000863578231918, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-10-59", "episode_len_mean": 4.109215017064846, "timesteps_total": 2331600, "episode_reward_min": -16.909981208121426, "custom_metrics": {}, "time_this_iter_s": 45.73628067970276, "training_iteration": 1943, "info": {"default": {"policy_loss": -0.04544088989496231, "vf_explained_var": 0.7550002932548523, "vf_loss": 2.419266700744629, "kl": 0.013572140596807003, "cur_lr": 4.999999873689376e-05, "total_loss": 2.3807904720306396, "entropy": 0.4600026309490204, "cur_kl_coeff": 0.5131568908691406}, "sample_time_ms": 45222.769, "num_steps_trained": 2331600, "grad_time_ms": 366.961, "update_time_ms": 2.623, "num_steps_sampled": 2331600, "load_time_ms": 0.682}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 80058.25975704193, "iterations_since_restore": 54, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2469.367019891739, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 290, "timestamp": 1757135505, "timesteps_since_restore": 64800, "episodes_total": 288277, "episode_reward_mean": 3.790725490962064, "pid": 2334315, "episode_reward_max": 4.000745916854669, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-11-45", "episode_len_mean": 4.13103448275862, "timesteps_total": 2332800, "episode_reward_min": -15.442799906368656, "custom_metrics": {}, "time_this_iter_s": 45.943647146224976, "training_iteration": 1944, "info": {"default": {"policy_loss": -0.04309413209557533, "vf_explained_var": 0.7149366736412048, "vf_loss": 3.752434730529785, "kl": 0.06205645576119423, "cur_lr": 4.999999873689376e-05, "total_loss": 3.741185188293457, "entropy": 0.49454444646835327, "cur_kl_coeff": 0.5131568908691406}, "sample_time_ms": 45267.168, "num_steps_trained": 2332800, "grad_time_ms": 369.707, "update_time_ms": 2.625, "num_steps_sampled": 2332800, "load_time_ms": 0.691}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 80104.27155351639, "iterations_since_restore": 55, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2515.3788163661957, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757135551, "timesteps_since_restore": 66000, "episodes_total": 288577, "episode_reward_mean": 4.0002860589678715, "pid": 2334315, "episode_reward_max": 4.000636478770112, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-12-31", "episode_len_mean": 4.0, "timesteps_total": 2334000, "episode_reward_min": 4.000095235117557, "custom_metrics": {}, "time_this_iter_s": 46.01179647445679, "training_iteration": 1945, "info": {"default": {"policy_loss": -0.04930016025900841, "vf_explained_var": 0.999272346496582, "vf_loss": 0.003950261510908604, "kl": 0.019133495166897774, "cur_lr": 4.999999873689376e-05, "total_loss": -0.030622171238064766, "entropy": 0.2045283019542694, "cur_kl_coeff": 0.7697353363037109}, "sample_time_ms": 45314.253, "num_steps_trained": 2334000, "grad_time_ms": 368.411, "update_time_ms": 2.66, "num_steps_sampled": 2334000, "load_time_ms": 0.698}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 80148.90309858322, "iterations_since_restore": 56, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2560.010361433029, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757135596, "timesteps_since_restore": 67200, "episodes_total": 288875, "episode_reward_mean": 3.956718210309038, "pid": 2334315, "episode_reward_max": 4.00070124509144, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-13-16", "episode_len_mean": 4.030201342281879, "timesteps_total": 2335200, "episode_reward_min": -6.938430048172343, "custom_metrics": {}, "time_this_iter_s": 44.631545066833496, "training_iteration": 1946, "info": {"default": {"policy_loss": -0.031027503311634064, "vf_explained_var": 0.8887431621551514, "vf_loss": 0.6656859517097473, "kl": 0.004847421310842037, "cur_lr": 4.999999873689376e-05, "total_loss": 0.6383897066116333, "entropy": 0.31384435296058655, "cur_kl_coeff": 0.7697353363037109}, "sample_time_ms": 45199.681, "num_steps_trained": 2335200, "grad_time_ms": 366.657, "update_time_ms": 2.63, "num_steps_sampled": 2335200, "load_time_ms": 0.69}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 80193.78683400154, "iterations_since_restore": 57, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2604.894096851349, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757135641, "timesteps_since_restore": 68400, "episodes_total": 289172, "episode_reward_mean": 3.93349338530951, "pid": 2334315, "episode_reward_max": 4.001020015706736, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-14-01", "episode_len_mean": 4.040404040404041, "timesteps_total": 2336400, "episode_reward_min": -7.817318107558254, "custom_metrics": {}, "time_this_iter_s": 44.8837354183197, "training_iteration": 1947, "info": {"default": {"policy_loss": -0.027642743661999702, "vf_explained_var": 0.9275458455085754, "vf_loss": 0.5014045834541321, "kl": 0.010979656130075455, "cur_lr": 4.999999873689376e-05, "total_loss": 0.4779876172542572, "entropy": 0.3970615267753601, "cur_kl_coeff": 0.38486766815185547}, "sample_time_ms": 45173.852, "num_steps_trained": 2336400, "grad_time_ms": 368.302, "update_time_ms": 2.588, "num_steps_sampled": 2336400, "load_time_ms": 0.699}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 80238.64298057556, "iterations_since_restore": 58, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2649.7502434253693, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757135686, "timesteps_since_restore": 69600, "episodes_total": 289472, "episode_reward_mean": 4.000287426381928, "pid": 2334315, "episode_reward_max": 4.000945806784068, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-14-46", "episode_len_mean": 4.0, "timesteps_total": 2337600, "episode_reward_min": 4.0001260080093, "custom_metrics": {}, "time_this_iter_s": 44.856146574020386, "training_iteration": 1948, "info": {"default": {"policy_loss": -0.08685947954654694, "vf_explained_var": 0.9997851252555847, "vf_loss": 0.0011118293041363358, "kl": 0.07032479345798492, "cur_lr": 4.999999873689376e-05, "total_loss": -0.0586819127202034, "entropy": 0.3860788643360138, "cur_kl_coeff": 0.38486766815185547}, "sample_time_ms": 45026.362, "num_steps_trained": 2337600, "grad_time_ms": 369.07, "update_time_ms": 2.562, "num_steps_sampled": 2337600, "load_time_ms": 0.7}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 80284.24754691124, "iterations_since_restore": 59, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2695.3548097610474, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 288, "timestamp": 1757135731, "timesteps_since_restore": 70800, "episodes_total": 289760, "episode_reward_mean": 3.732926168823989, "pid": 2334315, "episode_reward_max": 4.00206518186545, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-15-31", "episode_len_mean": 4.166666666666667, "timesteps_total": 2338800, "episode_reward_min": -24.361583076686934, "custom_metrics": {}, "time_this_iter_s": 45.6045663356781, "training_iteration": 1949, "info": {"default": {"policy_loss": -0.05580902099609375, "vf_explained_var": 0.7226870656013489, "vf_loss": 4.020562171936035, "kl": 0.014993447810411453, "cur_lr": 4.999999873689376e-05, "total_loss": 3.9734089374542236, "entropy": 0.5477443337440491, "cur_kl_coeff": 0.5773015022277832}, "sample_time_ms": 45029.094, "num_steps_trained": 2338800, "grad_time_ms": 370.54, "update_time_ms": 2.537, "num_steps_sampled": 2338800, "load_time_ms": 0.698}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 80329.3067753315, "iterations_since_restore": 60, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2740.414038181305, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757135777, "timesteps_since_restore": 72000, "episodes_total": 290057, "episode_reward_mean": 3.9474215446371703, "pid": 2334315, "episode_reward_max": 4.000725064315563, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-16-17", "episode_len_mean": 4.033670033670034, "timesteps_total": 2340000, "episode_reward_min": -11.70122451372314, "custom_metrics": {}, "time_this_iter_s": 45.05922842025757, "training_iteration": 1950, "info": {"default": {"policy_loss": -0.03616900369524956, "vf_explained_var": 0.9158043265342712, "vf_loss": 0.6632696390151978, "kl": 0.007762279827147722, "cur_lr": 4.999999873689376e-05, "total_loss": 0.6315818428993225, "entropy": 0.42462801933288574, "cur_kl_coeff": 0.5773015022277832}, "sample_time_ms": 44955.701, "num_steps_trained": 2340000, "grad_time_ms": 373.012, "update_time_ms": 2.558, "num_steps_sampled": 2340000, "load_time_ms": 0.706}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 80374.54656338692, "iterations_since_restore": 61, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2785.653826236725, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 290, "timestamp": 1757135822, "timesteps_since_restore": 73200, "episodes_total": 290347, "episode_reward_mean": 3.758489638107886, "pid": 2334315, "episode_reward_max": 4.001174778260882, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-17-02", "episode_len_mean": 4.151724137931034, "timesteps_total": 2341200, "episode_reward_min": -25.585578886141235, "custom_metrics": {}, "time_this_iter_s": 45.23978805541992, "training_iteration": 1951, "info": {"default": {"policy_loss": -0.05702957883477211, "vf_explained_var": 0.7068410515785217, "vf_loss": 5.379788398742676, "kl": 0.011509520001709461, "cur_lr": 4.999999873689376e-05, "total_loss": 5.329402923583984, "entropy": 0.4879404604434967, "cur_kl_coeff": 0.5773015022277832}, "sample_time_ms": 44907.205, "num_steps_trained": 2341200, "grad_time_ms": 372.138, "update_time_ms": 2.62, "num_steps_sampled": 2341200, "load_time_ms": 0.716}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 80420.15385723114, "iterations_since_restore": 62, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2831.261120080948, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757135868, "timesteps_since_restore": 74400, "episodes_total": 290644, "episode_reward_mean": 3.953002422071514, "pid": 2334315, "episode_reward_max": 4.0008038144474725, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-17-48", "episode_len_mean": 4.03030303030303, "timesteps_total": 2342400, "episode_reward_min": -4.024137891792961, "custom_metrics": {}, "time_this_iter_s": 45.60729384422302, "training_iteration": 1952, "info": {"default": {"policy_loss": -0.03602371737360954, "vf_explained_var": 0.93030846118927, "vf_loss": 0.41796010732650757, "kl": 0.03608700633049011, "cur_lr": 4.999999873689376e-05, "total_loss": 0.4027694761753082, "entropy": 0.31339117884635925, "cur_kl_coeff": 0.5773015022277832}, "sample_time_ms": 44975.757, "num_steps_trained": 2342400, "grad_time_ms": 372.055, "update_time_ms": 2.69, "num_steps_sampled": 2342400, "load_time_ms": 0.711}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 80465.04818511009, "iterations_since_restore": 63, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2876.1554479599, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757135912, "timesteps_since_restore": 75600, "episodes_total": 290941, "episode_reward_mean": 3.94578675707518, "pid": 2334315, "episode_reward_max": 4.000643581684755, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-18-32", "episode_len_mean": 4.033670033670034, "timesteps_total": 2343600, "episode_reward_min": -6.030745430170626, "custom_metrics": {}, "time_this_iter_s": 44.894327878952026, "training_iteration": 1953, "info": {"default": {"policy_loss": -0.03136896342039108, "vf_explained_var": 0.9136667251586914, "vf_loss": 0.5258656144142151, "kl": 0.008499802090227604, "cur_lr": 4.999999873689376e-05, "total_loss": 0.5018570423126221, "entropy": 0.3768346905708313, "cur_kl_coeff": 0.8659522533416748}, "sample_time_ms": 44893.233, "num_steps_trained": 2343600, "grad_time_ms": 370.518, "update_time_ms": 2.642, "num_steps_sampled": 2343600, "load_time_ms": 0.701}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 80510.05196213722, "iterations_since_restore": 64, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2921.15922498703, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757135957, "timesteps_since_restore": 76800, "episodes_total": 291238, "episode_reward_mean": 3.9339153908694233, "pid": 2334315, "episode_reward_max": 4.001025303447477, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-19-17", "episode_len_mean": 4.040404040404041, "timesteps_total": 2344800, "episode_reward_min": -15.71224878149338, "custom_metrics": {}, "time_this_iter_s": 45.00377702713013, "training_iteration": 1954, "info": {"default": {"policy_loss": -0.027655085548758507, "vf_explained_var": 0.8492347598075867, "vf_loss": 1.3947060108184814, "kl": 0.004742349032312632, "cur_lr": 4.999999873689376e-05, "total_loss": 1.3711575269699097, "entropy": 0.31854248046875, "cur_kl_coeff": 0.8659522533416748}, "sample_time_ms": 44800.858, "num_steps_trained": 2344800, "grad_time_ms": 368.959, "update_time_ms": 2.646, "num_steps_sampled": 2344800, "load_time_ms": 0.7}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 80554.90417671204, "iterations_since_restore": 65, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 2966.011439561844, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757136002, "timesteps_since_restore": 78000, "episodes_total": 291534, "episode_reward_mean": 3.90428364550576, "pid": 2334315, "episode_reward_max": 4.000680512424726, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-20-02", "episode_len_mean": 4.0608108108108105, "timesteps_total": 2346000, "episode_reward_min": -14.399007498545252, "custom_metrics": {}, "time_this_iter_s": 44.85221457481384, "training_iteration": 1955, "info": {"default": {"policy_loss": -0.028854183852672577, "vf_explained_var": 0.8277356028556824, "vf_loss": 1.5527828931808472, "kl": 0.03421793505549431, "cur_lr": 4.999999873689376e-05, "total_loss": 1.5387444496154785, "entropy": 0.37164273858070374, "cur_kl_coeff": 0.4329761266708374}, "sample_time_ms": 44685.634, "num_steps_trained": 2346000, "grad_time_ms": 368.298, "update_time_ms": 2.599, "num_steps_sampled": 2346000, "load_time_ms": 0.693}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 80600.38670706749, "iterations_since_restore": 66, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3011.4939699172974, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757136048, "timesteps_since_restore": 79200, "episodes_total": 291833, "episode_reward_mean": 3.9865579554088875, "pid": 2334315, "episode_reward_max": 4.001148946594228, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-20-48", "episode_len_mean": 4.010033444816053, "timesteps_total": 2347200, "episode_reward_min": -0.1013368313922296, "custom_metrics": {}, "time_this_iter_s": 45.48253035545349, "training_iteration": 1956, "info": {"default": {"policy_loss": -0.02968679554760456, "vf_explained_var": 0.9772850871086121, "vf_loss": 0.1262311339378357, "kl": 0.010610225610435009, "cur_lr": 4.999999873689376e-05, "total_loss": 0.10343530774116516, "entropy": 0.2731515169143677, "cur_kl_coeff": 0.6494641900062561}, "sample_time_ms": 44769.796, "num_steps_trained": 2347200, "grad_time_ms": 369.153, "update_time_ms": 2.592, "num_steps_sampled": 2347200, "load_time_ms": 0.693}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 80645.33762145042, "iterations_since_restore": 67, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3056.444884300232, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757136093, "timesteps_since_restore": 80400, "episodes_total": 292129, "episode_reward_mean": 3.9064990877504173, "pid": 2334315, "episode_reward_max": 4.000577219787708, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-21-33", "episode_len_mean": 4.0574324324324325, "timesteps_total": 2348400, "episode_reward_min": -7.614189713283363, "custom_metrics": {}, "time_this_iter_s": 44.95091438293457, "training_iteration": 1957, "info": {"default": {"policy_loss": -0.03684951364994049, "vf_explained_var": 0.8604439496994019, "vf_loss": 1.0035700798034668, "kl": 0.007329622749239206, "cur_lr": 4.999999873689376e-05, "total_loss": 0.9714809060096741, "entropy": 0.32495829463005066, "cur_kl_coeff": 0.6494641900062561}, "sample_time_ms": 44777.296, "num_steps_trained": 2348400, "grad_time_ms": 368.356, "update_time_ms": 2.652, "num_steps_sampled": 2348400, "load_time_ms": 0.692}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 80691.15469193459, "iterations_since_restore": 68, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3102.2619547843933, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757136139, "timesteps_since_restore": 81600, "episodes_total": 292429, "episode_reward_mean": 4.000283034035936, "pid": 2334315, "episode_reward_max": 4.000757901044883, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-22-19", "episode_len_mean": 4.0, "timesteps_total": 2349600, "episode_reward_min": 4.000139356522922, "custom_metrics": {}, "time_this_iter_s": 45.81707048416138, "training_iteration": 1958, "info": {"default": {"policy_loss": -0.09620331972837448, "vf_explained_var": 0.9997937083244324, "vf_loss": 0.0011008874280378222, "kl": 0.04100784659385681, "cur_lr": 4.999999873689376e-05, "total_loss": -0.06846931576728821, "entropy": 0.307187557220459, "cur_kl_coeff": 0.6494641900062561}, "sample_time_ms": 44872.505, "num_steps_trained": 2349600, "grad_time_ms": 369.267, "update_time_ms": 2.59, "num_steps_sampled": 2349600, "load_time_ms": 0.684}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 80736.2824177742, "iterations_since_restore": 69, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3147.389680624008, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757136184, "timesteps_since_restore": 82800, "episodes_total": 292723, "episode_reward_mean": 3.8739161993055675, "pid": 2334315, "episode_reward_max": 4.0006114939127055, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-23-04", "episode_len_mean": 4.081632653061225, "timesteps_total": 2350800, "episode_reward_min": -8.233461247026742, "custom_metrics": {}, "time_this_iter_s": 45.12772583961487, "training_iteration": 1959, "info": {"default": {"policy_loss": -0.04990503564476967, "vf_explained_var": 0.8252518177032471, "vf_loss": 1.2626980543136597, "kl": 0.0071803429163992405, "cur_lr": 4.999999873689376e-05, "total_loss": 1.2197880744934082, "entropy": 0.4750281870365143, "cur_kl_coeff": 0.9741963148117065}, "sample_time_ms": 44824.691, "num_steps_trained": 2350800, "grad_time_ms": 369.385, "update_time_ms": 2.61, "num_steps_sampled": 2350800, "load_time_ms": 0.684}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 80781.53182411194, "iterations_since_restore": 70, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3192.639086961746, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757136229, "timesteps_since_restore": 84000, "episodes_total": 293014, "episode_reward_mean": 3.792769386370074, "pid": 2334315, "episode_reward_max": 4.001326566152458, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-23-49", "episode_len_mean": 4.130584192439863, "timesteps_total": 2352000, "episode_reward_min": -56.38688341258208, "custom_metrics": {}, "time_this_iter_s": 45.24940633773804, "training_iteration": 1960, "info": {"default": {"policy_loss": -0.05173424631357193, "vf_explained_var": 0.6573089957237244, "vf_loss": 18.229581832885742, "kl": 0.005162788089364767, "cur_lr": 4.999999873689376e-05, "total_loss": 18.182876586914062, "entropy": 0.609068751335144, "cur_kl_coeff": 0.9741963148117065}, "sample_time_ms": 44843.605, "num_steps_trained": 2352000, "grad_time_ms": 369.446, "update_time_ms": 2.588, "num_steps_sampled": 2352000, "load_time_ms": 0.69}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 80827.18427944183, "iterations_since_restore": 71, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3238.2915422916412, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757136275, "timesteps_since_restore": 85200, "episodes_total": 293311, "episode_reward_mean": 3.932093054938497, "pid": 2334315, "episode_reward_max": 4.001530866180638, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-24-35", "episode_len_mean": 4.043771043771044, "timesteps_total": 2353200, "episode_reward_min": -4.029014953734475, "custom_metrics": {}, "time_this_iter_s": 45.65245532989502, "training_iteration": 1961, "info": {"default": {"policy_loss": -0.04342779889702797, "vf_explained_var": 0.8767380118370056, "vf_loss": 0.7657250761985779, "kl": 0.018253877758979797, "cur_lr": 4.999999873689376e-05, "total_loss": 0.7400801181793213, "entropy": 0.4196961522102356, "cur_kl_coeff": 0.9741963148117065}, "sample_time_ms": 44884.444, "num_steps_trained": 2353200, "grad_time_ms": 369.894, "update_time_ms": 2.559, "num_steps_sampled": 2353200, "load_time_ms": 0.675}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 80871.989518404, "iterations_since_restore": 72, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3283.0967812538147, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757136320, "timesteps_since_restore": 86400, "episodes_total": 293607, "episode_reward_mean": 3.919909407940834, "pid": 2334315, "episode_reward_max": 4.000650813522304, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-25-20", "episode_len_mean": 4.050675675675675, "timesteps_total": 2354400, "episode_reward_min": -11.706384688871754, "custom_metrics": {}, "time_this_iter_s": 44.80523896217346, "training_iteration": 1962, "info": {"default": {"policy_loss": -0.03395366668701172, "vf_explained_var": 0.8384443521499634, "vf_loss": 1.2174572944641113, "kl": 0.006137359421700239, "cur_lr": 4.999999873689376e-05, "total_loss": 1.189482569694519, "entropy": 0.40185171365737915, "cur_kl_coeff": 0.9741963148117065}, "sample_time_ms": 44803.492, "num_steps_trained": 2354400, "grad_time_ms": 370.602, "update_time_ms": 2.496, "num_steps_sampled": 2354400, "load_time_ms": 0.677}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 80916.89137744904, "iterations_since_restore": 73, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3327.9986402988434, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757136364, "timesteps_since_restore": 87600, "episodes_total": 293906, "episode_reward_mean": 3.976673875691138, "pid": 2334315, "episode_reward_max": 4.000954030009302, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-26-04", "episode_len_mean": 4.013377926421405, "timesteps_total": 2355600, "episode_reward_min": -3.059391020646231, "custom_metrics": {}, "time_this_iter_s": 44.90185904502869, "training_iteration": 1963, "info": {"default": {"policy_loss": -0.03322012722492218, "vf_explained_var": 0.9688513875007629, "vf_loss": 0.18517620861530304, "kl": 0.006187082268297672, "cur_lr": 4.999999873689376e-05, "total_loss": 0.15798351168632507, "entropy": 0.35884958505630493, "cur_kl_coeff": 0.9741963148117065}, "sample_time_ms": 44803.406, "num_steps_trained": 2355600, "grad_time_ms": 371.323, "update_time_ms": 2.525, "num_steps_sampled": 2355600, "load_time_ms": 0.675}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 80963.13478970528, "iterations_since_restore": 74, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3374.2420525550842, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757136411, "timesteps_since_restore": 88800, "episodes_total": 294206, "episode_reward_mean": 4.0002897006692715, "pid": 2334315, "episode_reward_max": 4.001220063955643, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-26-51", "episode_len_mean": 4.0, "timesteps_total": 2356800, "episode_reward_min": 4.000115396369512, "custom_metrics": {}, "time_this_iter_s": 46.243412256240845, "training_iteration": 1964, "info": {"default": {"policy_loss": -0.06925623118877411, "vf_explained_var": 0.9984588623046875, "vf_loss": 0.008427147753536701, "kl": 0.029024489223957062, "cur_lr": 4.999999873689376e-05, "total_loss": -0.0325535349547863, "entropy": 0.43847525119781494, "cur_kl_coeff": 0.9741963148117065}, "sample_time_ms": 44926.263, "num_steps_trained": 2356800, "grad_time_ms": 372.411, "update_time_ms": 2.534, "num_steps_sampled": 2356800, "load_time_ms": 0.668}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 81008.43823862076, "iterations_since_restore": 75, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3419.545501470566, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757136456, "timesteps_since_restore": 90000, "episodes_total": 294502, "episode_reward_mean": 3.9245499128973407, "pid": 2334315, "episode_reward_max": 4.000592957254294, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-27-36", "episode_len_mean": 4.050675675675675, "timesteps_total": 2358000, "episode_reward_min": -12.393545927533392, "custom_metrics": {}, "time_this_iter_s": 45.30344891548157, "training_iteration": 1965, "info": {"default": {"policy_loss": -0.021732164546847343, "vf_explained_var": 0.8450620770454407, "vf_loss": 1.1866092681884766, "kl": 0.015714457258582115, "cur_lr": 4.999999873689376e-05, "total_loss": 1.187840461730957, "entropy": 0.48571333289146423, "cur_kl_coeff": 1.461294412612915}, "sample_time_ms": 44971.368, "num_steps_trained": 2358000, "grad_time_ms": 372.415, "update_time_ms": 2.535, "num_steps_sampled": 2358000, "load_time_ms": 0.668}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 81053.81834578514, "iterations_since_restore": 76, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3464.9256086349487, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757136501, "timesteps_since_restore": 91200, "episodes_total": 294798, "episode_reward_mean": 3.9148722320843037, "pid": 2334315, "episode_reward_max": 4.000742469305129, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-28-21", "episode_len_mean": 4.054054054054054, "timesteps_total": 2359200, "episode_reward_min": -21.28355509080636, "custom_metrics": {}, "time_this_iter_s": 45.380107164382935, "training_iteration": 1966, "info": {"default": {"policy_loss": -0.029159747064113617, "vf_explained_var": 0.8642603158950806, "vf_loss": 2.2058730125427246, "kl": 0.002450676402077079, "cur_lr": 4.999999873689376e-05, "total_loss": 2.1802947521209717, "entropy": 0.5451985001564026, "cur_kl_coeff": 1.461294412612915}, "sample_time_ms": 44962.418, "num_steps_trained": 2359200, "grad_time_ms": 371.155, "update_time_ms": 2.54, "num_steps_sampled": 2359200, "load_time_ms": 0.661}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 81099.60913443565, "iterations_since_restore": 77, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3510.7163972854614, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757136547, "timesteps_since_restore": 92400, "episodes_total": 295098, "episode_reward_mean": 4.000287592908687, "pid": 2334315, "episode_reward_max": 4.000698897627966, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-29-07", "episode_len_mean": 4.0, "timesteps_total": 2360400, "episode_reward_min": 4.0001338375724185, "custom_metrics": {}, "time_this_iter_s": 45.790788650512695, "training_iteration": 1967, "info": {"default": {"policy_loss": -0.05698753893375397, "vf_explained_var": 0.998769998550415, "vf_loss": 0.006616618484258652, "kl": 0.05331579968333244, "cur_lr": 4.999999873689376e-05, "total_loss": -0.011415887624025345, "entropy": 0.3725382089614868, "cur_kl_coeff": 0.7306472063064575}, "sample_time_ms": 45047.67, "num_steps_trained": 2360400, "grad_time_ms": 369.967, "update_time_ms": 2.495, "num_steps_sampled": 2360400, "load_time_ms": 0.656}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 81145.66139984131, "iterations_since_restore": 78, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3556.7686626911163, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757136593, "timesteps_since_restore": 93600, "episodes_total": 295398, "episode_reward_mean": 4.000281535957542, "pid": 2334315, "episode_reward_max": 4.0008425145368065, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-29-53", "episode_len_mean": 4.0, "timesteps_total": 2361600, "episode_reward_min": 4.000122166393947, "custom_metrics": {}, "time_this_iter_s": 46.05226540565491, "training_iteration": 1968, "info": {"default": {"policy_loss": -0.09189525246620178, "vf_explained_var": 0.9992085695266724, "vf_loss": 0.004301016218960285, "kl": 0.04073337838053703, "cur_lr": 4.999999873689376e-05, "total_loss": -0.04295165836811066, "entropy": 0.41804736852645874, "cur_kl_coeff": 1.095970869064331}, "sample_time_ms": 45069.926, "num_steps_trained": 2361600, "grad_time_ms": 371.232, "update_time_ms": 2.52, "num_steps_sampled": 2361600, "load_time_ms": 0.666}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 81191.74299430847, "iterations_since_restore": 79, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3602.8502571582794, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 293, "timestamp": 1757136639, "timesteps_since_restore": 94800, "episodes_total": 295691, "episode_reward_mean": 3.853626775016853, "pid": 2334315, "episode_reward_max": 4.000695365116343, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-30-39", "episode_len_mean": 4.092150170648464, "timesteps_total": 2362800, "episode_reward_min": -15.206702652554387, "custom_metrics": {}, "time_this_iter_s": 46.081594467163086, "training_iteration": 1969, "info": {"default": {"policy_loss": -0.037639468908309937, "vf_explained_var": 0.7693374156951904, "vf_loss": 2.1989870071411133, "kl": 0.008220916613936424, "cur_lr": 4.999999873689376e-05, "total_loss": 2.1748621463775635, "entropy": 0.46398109197616577, "cur_kl_coeff": 1.6439563035964966}, "sample_time_ms": 45166.774, "num_steps_trained": 2362800, "grad_time_ms": 369.721, "update_time_ms": 2.526, "num_steps_sampled": 2362800, "load_time_ms": 0.673}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 81237.52054667473, "iterations_since_restore": 80, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3648.627809524536, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757136685, "timesteps_since_restore": 96000, "episodes_total": 295982, "episode_reward_mean": 3.7685472579820893, "pid": 2334315, "episode_reward_max": 4.000954372564991, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-31-25", "episode_len_mean": 4.140893470790378, "timesteps_total": 2364000, "episode_reward_min": -24.41603394316521, "custom_metrics": {}, "time_this_iter_s": 45.777552366256714, "training_iteration": 1970, "info": {"default": {"policy_loss": -0.05264470353722572, "vf_explained_var": 0.7612555027008057, "vf_loss": 3.8969335556030273, "kl": 0.006585957482457161, "cur_lr": 4.999999873689376e-05, "total_loss": 3.8551156520843506, "entropy": 0.6120094060897827, "cur_kl_coeff": 1.6439563035964966}, "sample_time_ms": 45220.031, "num_steps_trained": 2364000, "grad_time_ms": 369.28, "update_time_ms": 2.545, "num_steps_sampled": 2364000, "load_time_ms": 0.668}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 81282.64838266373, "iterations_since_restore": 81, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3693.7556455135345, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 293, "timestamp": 1757136730, "timesteps_since_restore": 97200, "episodes_total": 296275, "episode_reward_mean": 3.859507521768796, "pid": 2334315, "episode_reward_max": 4.0012105234269395, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-32-10", "episode_len_mean": 4.092150170648464, "timesteps_total": 2365200, "episode_reward_min": -9.048760271861006, "custom_metrics": {}, "time_this_iter_s": 45.12783598899841, "training_iteration": 1971, "info": {"default": {"policy_loss": -0.043530162423849106, "vf_explained_var": 0.790962278842926, "vf_loss": 1.6175280809402466, "kl": 0.006706012412905693, "cur_lr": 4.999999873689376e-05, "total_loss": 1.585022211074829, "entropy": 0.5600005984306335, "cur_kl_coeff": 1.6439563035964966}, "sample_time_ms": 45170.099, "num_steps_trained": 2365200, "grad_time_ms": 366.895, "update_time_ms": 2.505, "num_steps_sampled": 2365200, "load_time_ms": 0.675}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 81327.62056970596, "iterations_since_restore": 82, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3738.727832555771, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 290, "timestamp": 1757136775, "timesteps_since_restore": 98400, "episodes_total": 296565, "episode_reward_mean": 3.8318114191970993, "pid": 2334315, "episode_reward_max": 4.0012233808663025, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-32-55", "episode_len_mean": 4.103448275862069, "timesteps_total": 2366400, "episode_reward_min": -13.825898004700395, "custom_metrics": {}, "time_this_iter_s": 44.97218704223633, "training_iteration": 1972, "info": {"default": {"policy_loss": -0.043320607393980026, "vf_explained_var": 0.6848773956298828, "vf_loss": 4.118960380554199, "kl": 0.010375362820923328, "cur_lr": 4.999999873689376e-05, "total_loss": 4.0926971435546875, "entropy": 0.6147373914718628, "cur_kl_coeff": 1.6439563035964966}, "sample_time_ms": 45185.529, "num_steps_trained": 2366400, "grad_time_ms": 368.195, "update_time_ms": 2.507, "num_steps_sampled": 2366400, "load_time_ms": 0.679}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 81372.94980478287, "iterations_since_restore": 83, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3784.057067632675, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757136821, "timesteps_since_restore": 99600, "episodes_total": 296859, "episode_reward_mean": 3.8427619897074137, "pid": 2334315, "episode_reward_max": 4.001439663413715, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-33-41", "episode_len_mean": 4.1020408163265305, "timesteps_total": 2367600, "episode_reward_min": -15.066366752358782, "custom_metrics": {}, "time_this_iter_s": 45.3292350769043, "training_iteration": 1973, "info": {"default": {"policy_loss": -0.052471522241830826, "vf_explained_var": 0.8252468109130859, "vf_loss": 1.3482385873794556, "kl": 0.003053986467421055, "cur_lr": 4.999999873689376e-05, "total_loss": 1.3007875680923462, "entropy": 0.5000011920928955, "cur_kl_coeff": 1.6439563035964966}, "sample_time_ms": 45228.881, "num_steps_trained": 2367600, "grad_time_ms": 367.598, "update_time_ms": 2.548, "num_steps_sampled": 2367600, "load_time_ms": 0.688}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 81417.67633962631, "iterations_since_restore": 84, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3828.78360247612, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757136865, "timesteps_since_restore": 100800, "episodes_total": 297156, "episode_reward_mean": 3.918771320230195, "pid": 2334315, "episode_reward_max": 4.000720700877869, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-34-25", "episode_len_mean": 4.05050505050505, "timesteps_total": 2368800, "episode_reward_min": -4.106092257301674, "custom_metrics": {}, "time_this_iter_s": 44.726534843444824, "training_iteration": 1974, "info": {"default": {"policy_loss": -0.036373868584632874, "vf_explained_var": 0.8841440081596375, "vf_loss": 0.737149715423584, "kl": 0.02303309552371502, "cur_lr": 4.999999873689376e-05, "total_loss": 0.7197085618972778, "entropy": 0.4698549807071686, "cur_kl_coeff": 0.8219781517982483}, "sample_time_ms": 45078.704, "num_steps_trained": 2368800, "grad_time_ms": 366.118, "update_time_ms": 2.523, "num_steps_sampled": 2368800, "load_time_ms": 0.707}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 81462.55526900291, "iterations_since_restore": 85, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3873.662531852722, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757136910, "timesteps_since_restore": 102000, "episodes_total": 297453, "episode_reward_mean": 3.932354232311629, "pid": 2334315, "episode_reward_max": 4.000781819009143, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-35-10", "episode_len_mean": 4.043771043771044, "timesteps_total": 2370000, "episode_reward_min": -4.072339834285394, "custom_metrics": {}, "time_this_iter_s": 44.87892937660217, "training_iteration": 1975, "info": {"default": {"policy_loss": -0.04519195482134819, "vf_explained_var": 0.9094744920730591, "vf_loss": 0.5577518939971924, "kl": 0.009429728612303734, "cur_lr": 4.999999873689376e-05, "total_loss": 0.5241864323616028, "entropy": 0.5178623199462891, "cur_kl_coeff": 1.2329672574996948}, "sample_time_ms": 45034.785, "num_steps_trained": 2370000, "grad_time_ms": 367.578, "update_time_ms": 2.531, "num_steps_sampled": 2370000, "load_time_ms": 0.708}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 81507.67700052261, "iterations_since_restore": 86, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3918.7842633724213, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757136955, "timesteps_since_restore": 103200, "episodes_total": 297753, "episode_reward_mean": 4.000289533553502, "pid": 2334315, "episode_reward_max": 4.001170166389034, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-35-55", "episode_len_mean": 4.0, "timesteps_total": 2371200, "episode_reward_min": 4.000134452245849, "custom_metrics": {}, "time_this_iter_s": 45.1217315196991, "training_iteration": 1976, "info": {"default": {"policy_loss": -0.06922439485788345, "vf_explained_var": 0.9993693828582764, "vf_loss": 0.003405606374144554, "kl": 0.026870639994740486, "cur_lr": 4.999999873689376e-05, "total_loss": -0.03268817067146301, "entropy": 0.4098488688468933, "cur_kl_coeff": 1.2329672574996948}, "sample_time_ms": 45007.986, "num_steps_trained": 2371200, "grad_time_ms": 368.604, "update_time_ms": 2.525, "num_steps_sampled": 2371200, "load_time_ms": 0.718}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 81553.98738646507, "iterations_since_restore": 87, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 3965.0946493148804, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757137002, "timesteps_since_restore": 104400, "episodes_total": 298050, "episode_reward_mean": 3.9480534807335355, "pid": 2334315, "episode_reward_max": 4.00119259440109, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-36-42", "episode_len_mean": 4.033670033670034, "timesteps_total": 2372400, "episode_reward_min": -4.06872357339001, "custom_metrics": {}, "time_this_iter_s": 46.310385942459106, "training_iteration": 1977, "info": {"default": {"policy_loss": -0.03145931661128998, "vf_explained_var": 0.9457249045372009, "vf_loss": 0.34149572253227234, "kl": 0.002534060040488839, "cur_lr": 4.999999873689376e-05, "total_loss": 0.31472301483154297, "entropy": 0.4204995632171631, "cur_kl_coeff": 1.8494508266448975}, "sample_time_ms": 45057.801, "num_steps_trained": 2372400, "grad_time_ms": 370.721, "update_time_ms": 2.512, "num_steps_sampled": 2372400, "load_time_ms": 0.727}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 81599.8007376194, "iterations_since_restore": 88, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4010.9080004692078, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757137048, "timesteps_since_restore": 105600, "episodes_total": 298346, "episode_reward_mean": 3.9042340943669904, "pid": 2334315, "episode_reward_max": 4.000940658807263, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-37-28", "episode_len_mean": 4.0608108108108105, "timesteps_total": 2373600, "episode_reward_min": -7.289564614775099, "custom_metrics": {}, "time_this_iter_s": 45.81335115432739, "training_iteration": 1978, "info": {"default": {"policy_loss": -0.036432258784770966, "vf_explained_var": 0.8569827079772949, "vf_loss": 1.0427474975585938, "kl": 0.006820248439908028, "cur_lr": 4.999999873689376e-05, "total_loss": 1.0126221179962158, "entropy": 0.5052697658538818, "cur_kl_coeff": 0.9247254133224487}, "sample_time_ms": 45034.339, "num_steps_trained": 2373600, "grad_time_ms": 370.244, "update_time_ms": 2.536, "num_steps_sampled": 2373600, "load_time_ms": 0.732}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 81645.65672564507, "iterations_since_restore": 89, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4056.763988494873, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757137093, "timesteps_since_restore": 106800, "episodes_total": 298641, "episode_reward_mean": 3.912486863949354, "pid": 2334315, "episode_reward_max": 4.000851856585859, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-38-13", "episode_len_mean": 4.057627118644068, "timesteps_total": 2374800, "episode_reward_min": -21.898422070010273, "custom_metrics": {}, "time_this_iter_s": 45.85598802566528, "training_iteration": 1979, "info": {"default": {"policy_loss": -0.026750722900032997, "vf_explained_var": 0.8275781273841858, "vf_loss": 2.4506850242614746, "kl": 0.0027596894651651382, "cur_lr": 4.999999873689376e-05, "total_loss": 2.426486015319824, "entropy": 0.498492568731308, "cur_kl_coeff": 0.9247254133224487}, "sample_time_ms": 45010.217, "num_steps_trained": 2374800, "grad_time_ms": 371.863, "update_time_ms": 2.512, "num_steps_sampled": 2374800, "load_time_ms": 0.727}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 81690.80441737175, "iterations_since_restore": 90, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4101.911680221558, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 284, "timestamp": 1757137139, "timesteps_since_restore": 108000, "episodes_total": 298925, "episode_reward_mean": 3.651607882421344, "pid": 2334315, "episode_reward_max": 4.000635422934071, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-38-59", "episode_len_mean": 4.21830985915493, "timesteps_total": 2376000, "episode_reward_min": -29.767957326918776, "custom_metrics": {}, "time_this_iter_s": 45.14769172668457, "training_iteration": 1980, "info": {"default": {"policy_loss": -0.05964251235127449, "vf_explained_var": 0.5850241184234619, "vf_loss": 8.50717830657959, "kl": 0.022393517196178436, "cur_lr": 4.999999873689376e-05, "total_loss": 8.457889556884766, "entropy": 0.7954303026199341, "cur_kl_coeff": 0.46236270666122437}, "sample_time_ms": 44947.72, "num_steps_trained": 2376000, "grad_time_ms": 371.367, "update_time_ms": 2.512, "num_steps_sampled": 2376000, "load_time_ms": 0.722}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 81736.50178360939, "iterations_since_restore": 91, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4147.609046459198, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757137184, "timesteps_since_restore": 109200, "episodes_total": 299223, "episode_reward_mean": 3.9595454878603915, "pid": 2334315, "episode_reward_max": 4.00065846116212, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-39-44", "episode_len_mean": 4.026845637583893, "timesteps_total": 2377200, "episode_reward_min": -2.0722177591786917, "custom_metrics": {}, "time_this_iter_s": 45.69736623764038, "training_iteration": 1981, "info": {"default": {"policy_loss": -0.026591012254357338, "vf_explained_var": 0.9423506855964661, "vf_loss": 0.3349798917770386, "kl": 0.025397397577762604, "cur_lr": 4.999999873689376e-05, "total_loss": 0.3260031044483185, "entropy": 0.42836061120033264, "cur_kl_coeff": 0.6935440301895142}, "sample_time_ms": 45003.105, "num_steps_trained": 2377200, "grad_time_ms": 372.883, "update_time_ms": 2.511, "num_steps_sampled": 2377200, "load_time_ms": 0.725}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 81781.98025631905, "iterations_since_restore": 92, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4193.087519168854, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757137230, "timesteps_since_restore": 110400, "episodes_total": 299521, "episode_reward_mean": 3.9454075718199237, "pid": 2334315, "episode_reward_max": 4.000593179143975, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-40-30", "episode_len_mean": 4.0369127516778525, "timesteps_total": 2378400, "episode_reward_min": -8.307776084572488, "custom_metrics": {}, "time_this_iter_s": 45.47847270965576, "training_iteration": 1982, "info": {"default": {"policy_loss": -0.039101384580135345, "vf_explained_var": 0.88761967420578, "vf_loss": 0.7548852562904358, "kl": 0.005714177619665861, "cur_lr": 4.999999873689376e-05, "total_loss": 0.7217283844947815, "entropy": 0.47060292959213257, "cur_kl_coeff": 1.040316104888916}, "sample_time_ms": 45054.248, "num_steps_trained": 2378400, "grad_time_ms": 372.383, "update_time_ms": 2.51, "num_steps_sampled": 2378400, "load_time_ms": 0.729}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 81827.59995222092, "iterations_since_restore": 93, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4238.7072150707245, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757137276, "timesteps_since_restore": 111600, "episodes_total": 299819, "episode_reward_mean": 3.9757825703794256, "pid": 2334315, "episode_reward_max": 4.002136998628364, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-41-16", "episode_len_mean": 4.016778523489933, "timesteps_total": 2379600, "episode_reward_min": -3.3028551891774676, "custom_metrics": {}, "time_this_iter_s": 45.61969590187073, "training_iteration": 1983, "info": {"default": {"policy_loss": -0.032167427241802216, "vf_explained_var": 0.9828106760978699, "vf_loss": 0.10855695605278015, "kl": 0.004344421438872814, "cur_lr": 4.999999873689376e-05, "total_loss": 0.08090910315513611, "entropy": 0.3937638998031616, "cur_kl_coeff": 1.040316104888916}, "sample_time_ms": 45084.354, "num_steps_trained": 2379600, "grad_time_ms": 371.365, "update_time_ms": 2.442, "num_steps_sampled": 2379600, "load_time_ms": 0.734}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 81873.3007953167, "iterations_since_restore": 94, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4284.408058166504, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 293, "timestamp": 1757137321, "timesteps_since_restore": 112800, "episodes_total": 300112, "episode_reward_mean": 3.8526357377665077, "pid": 2334315, "episode_reward_max": 4.000544827929508, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-42-01", "episode_len_mean": 4.09556313993174, "timesteps_total": 2380800, "episode_reward_min": -19.95969582293856, "custom_metrics": {}, "time_this_iter_s": 45.70084309577942, "training_iteration": 1984, "info": {"default": {"policy_loss": -0.0372314490377903, "vf_explained_var": 0.7577617168426514, "vf_loss": 3.3095157146453857, "kl": 0.012232199311256409, "cur_lr": 4.999999873689376e-05, "total_loss": 3.2786471843719482, "entropy": 0.5464284420013428, "cur_kl_coeff": 0.520158052444458}, "sample_time_ms": 45179.589, "num_steps_trained": 2380800, "grad_time_ms": 373.524, "update_time_ms": 2.475, "num_steps_sampled": 2380800, "load_time_ms": 0.724}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 81918.52243447304, "iterations_since_restore": 95, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4329.6296973228455, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757137366, "timesteps_since_restore": 114000, "episodes_total": 300412, "episode_reward_mean": 4.000274670227459, "pid": 2334315, "episode_reward_max": 4.000813260027138, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-42-46", "episode_len_mean": 4.0, "timesteps_total": 2382000, "episode_reward_min": 4.000136338857904, "custom_metrics": {}, "time_this_iter_s": 45.22163915634155, "training_iteration": 1985, "info": {"default": {"policy_loss": -0.09531168639659882, "vf_explained_var": 0.9994712471961975, "vf_loss": 0.0028501655906438828, "kl": 0.04471847042441368, "cur_lr": 4.999999873689376e-05, "total_loss": -0.06920083612203598, "entropy": 0.3481353521347046, "cur_kl_coeff": 0.520158052444458}, "sample_time_ms": 45212.281, "num_steps_trained": 2382000, "grad_time_ms": 374.995, "update_time_ms": 2.541, "num_steps_sampled": 2382000, "load_time_ms": 0.73}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 81963.54666638374, "iterations_since_restore": 96, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4374.653929233551, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757137411, "timesteps_since_restore": 115200, "episodes_total": 300704, "episode_reward_mean": 3.819232598508527, "pid": 2334315, "episode_reward_max": 4.001224407666905, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-43-31", "episode_len_mean": 4.113013698630137, "timesteps_total": 2383200, "episode_reward_min": -20.229421532710447, "custom_metrics": {}, "time_this_iter_s": 45.024231910705566, "training_iteration": 1986, "info": {"default": {"policy_loss": -0.031148234382271767, "vf_explained_var": 0.7100703716278076, "vf_loss": 3.649077892303467, "kl": 0.15313419699668884, "cur_lr": 4.999999873689376e-05, "total_loss": 3.737410545349121, "entropy": 0.6730252504348755, "cur_kl_coeff": 0.780237078666687}, "sample_time_ms": 45202.443, "num_steps_trained": 2383200, "grad_time_ms": 375.002, "update_time_ms": 2.549, "num_steps_sampled": 2383200, "load_time_ms": 0.721}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 82008.4764444828, "iterations_since_restore": 97, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4419.583707332611, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 266, "timestamp": 1757137456, "timesteps_since_restore": 116400, "episodes_total": 300970, "episode_reward_mean": 3.278429938116836, "pid": 2334315, "episode_reward_max": 4.000706284678912, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-44-16", "episode_len_mean": 4.454887218045113, "timesteps_total": 2384400, "episode_reward_min": -36.857725181479594, "custom_metrics": {}, "time_this_iter_s": 44.92977809906006, "training_iteration": 1987, "info": {"default": {"policy_loss": -0.08262643963098526, "vf_explained_var": 0.46951109170913696, "vf_loss": 16.33129119873047, "kl": 0.015210635028779507, "cur_lr": 4.999999873689376e-05, "total_loss": 16.266468048095703, "entropy": 1.123708724975586, "cur_kl_coeff": 1.1703555583953857}, "sample_time_ms": 45066.575, "num_steps_trained": 2384400, "grad_time_ms": 372.828, "update_time_ms": 2.595, "num_steps_sampled": 2384400, "load_time_ms": 0.708}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 82054.68396162987, "iterations_since_restore": 98, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4465.791224479675, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 269, "timestamp": 1757137503, "timesteps_since_restore": 117600, "episodes_total": 301239, "episode_reward_mean": 3.190671352224867, "pid": 2334315, "episode_reward_max": 4.000702463573666, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-45-03", "episode_len_mean": 4.516728624535316, "timesteps_total": 2385600, "episode_reward_min": -22.155487922249435, "custom_metrics": {}, "time_this_iter_s": 46.20751714706421, "training_iteration": 1988, "info": {"default": {"policy_loss": -0.07735555619001389, "vf_explained_var": 0.4894443154335022, "vf_loss": 10.178112983703613, "kl": 0.01241153571754694, "cur_lr": 4.999999873689376e-05, "total_loss": 10.115283966064453, "entropy": 0.987116277217865, "cur_kl_coeff": 1.1703555583953857}, "sample_time_ms": 45106.158, "num_steps_trained": 2385600, "grad_time_ms": 372.734, "update_time_ms": 2.557, "num_steps_sampled": 2385600, "load_time_ms": 0.7}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 82099.47482228279, "iterations_since_restore": 99, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4510.582085132599, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 260, "timestamp": 1757137547, "timesteps_since_restore": 118800, "episodes_total": 301499, "episode_reward_mean": 3.0420275608978944, "pid": 2334315, "episode_reward_max": 4.000646691887593, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-45-47", "episode_len_mean": 4.611538461538461, "timesteps_total": 2386800, "episode_reward_min": -19.9632519235374, "custom_metrics": {}, "time_this_iter_s": 44.790860652923584, "training_iteration": 1989, "info": {"default": {"policy_loss": -0.08124342560768127, "vf_explained_var": 0.3936111330986023, "vf_loss": 14.012843132019043, "kl": 0.016526374965906143, "cur_lr": 4.999999873689376e-05, "total_loss": 13.95094108581543, "entropy": 1.157875895500183, "cur_kl_coeff": 1.1703555583953857}, "sample_time_ms": 44999.641, "num_steps_trained": 2386800, "grad_time_ms": 372.759, "update_time_ms": 2.573, "num_steps_sampled": 2386800, "load_time_ms": 0.693}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 82144.33546495438, "iterations_since_restore": 100, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4555.442727804184, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 280, "timestamp": 1757137592, "timesteps_since_restore": 120000, "episodes_total": 301779, "episode_reward_mean": 3.5387318829544823, "pid": 2334315, "episode_reward_max": 4.0006973554880165, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-46-32", "episode_len_mean": 4.289285714285715, "timesteps_total": 2388000, "episode_reward_min": -21.183710237658158, "custom_metrics": {}, "time_this_iter_s": 44.86064267158508, "training_iteration": 1990, "info": {"default": {"policy_loss": -0.06472590565681458, "vf_explained_var": 0.5696393251419067, "vf_loss": 5.79875373840332, "kl": 0.0154854916036129, "cur_lr": 4.999999873689376e-05, "total_loss": 5.752150535583496, "entropy": 0.8195579648017883, "cur_kl_coeff": 1.1703555583953857}, "sample_time_ms": 44972.585, "num_steps_trained": 2388000, "grad_time_ms": 371.162, "update_time_ms": 2.601, "num_steps_sampled": 2388000, "load_time_ms": 0.684}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 82189.50781917572, "iterations_since_restore": 101, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4600.615082025528, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 279, "timestamp": 1757137638, "timesteps_since_restore": 121200, "episodes_total": 302058, "episode_reward_mean": 3.503190406267363, "pid": 2334315, "episode_reward_max": 4.000767931572924, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-47-18", "episode_len_mean": 4.311827956989247, "timesteps_total": 2389200, "episode_reward_min": -44.077395466310804, "custom_metrics": {}, "time_this_iter_s": 45.172354221343994, "training_iteration": 1991, "info": {"default": {"policy_loss": -0.05920284986495972, "vf_explained_var": 0.5099558234214783, "vf_loss": 17.474754333496094, "kl": 0.009221025742590427, "cur_lr": 4.999999873689376e-05, "total_loss": 17.426342010498047, "entropy": 0.7933295369148254, "cur_kl_coeff": 1.1703555583953857}, "sample_time_ms": 44920.26, "num_steps_trained": 2389200, "grad_time_ms": 371.001, "update_time_ms": 2.601, "num_steps_sampled": 2389200, "load_time_ms": 0.679}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 82234.73605680466, "iterations_since_restore": 102, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4645.843319654465, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757137683, "timesteps_since_restore": 122400, "episodes_total": 302350, "episode_reward_mean": 3.826316302277962, "pid": 2334315, "episode_reward_max": 4.0007060854594245, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-48-03", "episode_len_mean": 4.109589041095891, "timesteps_total": 2390400, "episode_reward_min": -14.909546196790497, "custom_metrics": {}, "time_this_iter_s": 45.22823762893677, "training_iteration": 1992, "info": {"default": {"policy_loss": -0.055284976959228516, "vf_explained_var": 0.8139722347259521, "vf_loss": 1.9173215627670288, "kl": 0.008153079077601433, "cur_lr": 4.999999873689376e-05, "total_loss": 1.8715786933898926, "entropy": 0.6178774237632751, "cur_kl_coeff": 1.1703555583953857}, "sample_time_ms": 44897.302, "num_steps_trained": 2390400, "grad_time_ms": 368.962, "update_time_ms": 2.606, "num_steps_sampled": 2390400, "load_time_ms": 0.674}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 82279.63206481934, "iterations_since_restore": 103, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4690.739327669144, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 290, "timestamp": 1757137728, "timesteps_since_restore": 123600, "episodes_total": 302640, "episode_reward_mean": 3.7826678299367953, "pid": 2334315, "episode_reward_max": 4.001265667778461, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-48-48", "episode_len_mean": 4.141379310344828, "timesteps_total": 2391600, "episode_reward_min": -17.628140013295095, "custom_metrics": {}, "time_this_iter_s": 44.896008014678955, "training_iteration": 1993, "info": {"default": {"policy_loss": -0.04306749626994133, "vf_explained_var": 0.691332995891571, "vf_loss": 3.3736588954925537, "kl": 0.015397515147924423, "cur_lr": 4.999999873689376e-05, "total_loss": 3.3486123085021973, "entropy": 0.7419157028198242, "cur_kl_coeff": 1.1703555583953857}, "sample_time_ms": 44823.739, "num_steps_trained": 2391600, "grad_time_ms": 370.173, "update_time_ms": 2.607, "num_steps_sampled": 2391600, "load_time_ms": 0.673}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 82324.2477838993, "iterations_since_restore": 104, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4735.355046749115, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757137772, "timesteps_since_restore": 124800, "episodes_total": 302932, "episode_reward_mean": 3.831353586767465, "pid": 2334315, "episode_reward_max": 4.000770945948425, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-49-32", "episode_len_mean": 4.1061643835616435, "timesteps_total": 2392800, "episode_reward_min": -35.8980427081041, "custom_metrics": {}, "time_this_iter_s": 44.61571907997131, "training_iteration": 1994, "info": {"default": {"policy_loss": -0.037773825228214264, "vf_explained_var": 0.6679837703704834, "vf_loss": 6.888437747955322, "kl": 0.007203092332929373, "cur_lr": 4.999999873689376e-05, "total_loss": 6.859093189239502, "entropy": 0.6668012142181396, "cur_kl_coeff": 1.1703555583953857}, "sample_time_ms": 44716.067, "num_steps_trained": 2392800, "grad_time_ms": 369.34, "update_time_ms": 2.595, "num_steps_sampled": 2392800, "load_time_ms": 0.66}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 82369.30378198624, "iterations_since_restore": 105, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4780.411044836044, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757137817, "timesteps_since_restore": 126000, "episodes_total": 303224, "episode_reward_mean": 3.825326998796706, "pid": 2334315, "episode_reward_max": 4.000978054754304, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-50-17", "episode_len_mean": 4.113013698630137, "timesteps_total": 2394000, "episode_reward_min": -15.748235444215961, "custom_metrics": {}, "time_this_iter_s": 45.05599808692932, "training_iteration": 1995, "info": {"default": {"policy_loss": -0.04626782611012459, "vf_explained_var": 0.7332943677902222, "vf_loss": 2.9456987380981445, "kl": 0.013389070518314838, "cur_lr": 4.999999873689376e-05, "total_loss": 2.9151008129119873, "entropy": 0.5995011329650879, "cur_kl_coeff": 1.1703555583953857}, "sample_time_ms": 44702.594, "num_steps_trained": 2394000, "grad_time_ms": 366.312, "update_time_ms": 2.588, "num_steps_sampled": 2394000, "load_time_ms": 0.648}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 82414.33964014053, "iterations_since_restore": 106, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4825.446902990341, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 289, "timestamp": 1757137862, "timesteps_since_restore": 127200, "episodes_total": 303513, "episode_reward_mean": 3.8106677575046817, "pid": 2334315, "episode_reward_max": 4.000639110252267, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-51-02", "episode_len_mean": 4.1211072664359865, "timesteps_total": 2395200, "episode_reward_min": -27.751827025859868, "custom_metrics": {}, "time_this_iter_s": 45.035858154296875, "training_iteration": 1996, "info": {"default": {"policy_loss": -0.051772359758615494, "vf_explained_var": 0.6674601435661316, "vf_loss": 5.800360202789307, "kl": 0.00934662576764822, "cur_lr": 4.999999873689376e-05, "total_loss": 5.759527683258057, "entropy": 0.6709542274475098, "cur_kl_coeff": 1.1703555583953857}, "sample_time_ms": 44703.15, "num_steps_trained": 2395200, "grad_time_ms": 366.989, "update_time_ms": 2.596, "num_steps_sampled": 2395200, "load_time_ms": 0.659}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 82459.64275050163, "iterations_since_restore": 107, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4870.75001335144, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757137908, "timesteps_since_restore": 128400, "episodes_total": 303810, "episode_reward_mean": 3.8880031453391197, "pid": 2334315, "episode_reward_max": 4.0011189449049525, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-51-48", "episode_len_mean": 4.070707070707071, "timesteps_total": 2396400, "episode_reward_min": -8.988834377887134, "custom_metrics": {}, "time_this_iter_s": 45.30311036109924, "training_iteration": 1997, "info": {"default": {"policy_loss": -0.03489990532398224, "vf_explained_var": 0.8699820041656494, "vf_loss": 0.9013018012046814, "kl": 0.0122549869120121, "cur_lr": 4.999999873689376e-05, "total_loss": 0.8807446956634521, "entropy": 0.4708782434463501, "cur_kl_coeff": 1.1703555583953857}, "sample_time_ms": 44738.348, "num_steps_trained": 2396400, "grad_time_ms": 369.018, "update_time_ms": 2.578, "num_steps_sampled": 2396400, "load_time_ms": 0.676}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 82505.90404701233, "iterations_since_restore": 108, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4917.011309862137, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 286, "timestamp": 1757137954, "timesteps_since_restore": 129600, "episodes_total": 304096, "episode_reward_mean": 3.7182720398783795, "pid": 2334315, "episode_reward_max": 4.000753137535788, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-52-34", "episode_len_mean": 4.181818181818182, "timesteps_total": 2397600, "episode_reward_min": -28.19636289978729, "custom_metrics": {}, "time_this_iter_s": 46.26129651069641, "training_iteration": 1998, "info": {"default": {"policy_loss": -0.05252446234226227, "vf_explained_var": 0.673977255821228, "vf_loss": 6.056844711303711, "kl": 0.006788196973502636, "cur_lr": 4.999999873689376e-05, "total_loss": 6.012264728546143, "entropy": 0.7686097621917725, "cur_kl_coeff": 1.1703555583953857}, "sample_time_ms": 44745.885, "num_steps_trained": 2397600, "grad_time_ms": 366.812, "update_time_ms": 2.609, "num_steps_sampled": 2397600, "load_time_ms": 0.676}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 82551.58247995377, "iterations_since_restore": 109, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 4962.689742803574, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757138000, "timesteps_since_restore": 130800, "episodes_total": 304391, "episode_reward_mean": 3.912041260886718, "pid": 2334315, "episode_reward_max": 4.000862728434092, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-53-20", "episode_len_mean": 4.057627118644068, "timesteps_total": 2398800, "episode_reward_min": -11.934375775535951, "custom_metrics": {}, "time_this_iter_s": 45.67843294143677, "training_iteration": 1999, "info": {"default": {"policy_loss": -0.034749992191791534, "vf_explained_var": 0.896076500415802, "vf_loss": 0.7570851445198059, "kl": 0.011205385439097881, "cur_lr": 4.999999873689376e-05, "total_loss": 0.735449492931366, "entropy": 0.5245682001113892, "cur_kl_coeff": 1.1703555583953857}, "sample_time_ms": 44834.087, "num_steps_trained": 2398800, "grad_time_ms": 367.347, "update_time_ms": 2.622, "num_steps_sampled": 2398800, "load_time_ms": 0.684}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 82597.7020521164, "iterations_since_restore": 110, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5008.809314966202, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757138046, "timesteps_since_restore": 132000, "episodes_total": 304691, "episode_reward_mean": 4.000292318562521, "pid": 2334315, "episode_reward_max": 4.001846275368329, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-54-06", "episode_len_mean": 4.0, "timesteps_total": 2400000, "episode_reward_min": 4.000120155693723, "custom_metrics": {}, "time_this_iter_s": 46.119572162628174, "training_iteration": 2000, "info": {"default": {"policy_loss": -0.06568039953708649, "vf_explained_var": 0.9986572265625, "vf_loss": 0.007318898104131222, "kl": 0.030586685985326767, "cur_lr": 4.999999873689376e-05, "total_loss": -0.022564202547073364, "entropy": 0.4760631322860718, "cur_kl_coeff": 1.1703555583953857}, "sample_time_ms": 44957.804, "num_steps_trained": 2400000, "grad_time_ms": 369.46, "update_time_ms": 2.614, "num_steps_sampled": 2400000, "load_time_ms": 0.707}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 82643.40201067924, "iterations_since_restore": 111, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5054.509273529053, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757138092, "timesteps_since_restore": 133200, "episodes_total": 304986, "episode_reward_mean": 3.8858396922261997, "pid": 2334315, "episode_reward_max": 4.000753388452368, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-54-52", "episode_len_mean": 4.071186440677966, "timesteps_total": 2401200, "episode_reward_min": -23.661219575345264, "custom_metrics": {}, "time_this_iter_s": 45.69995856285095, "training_iteration": 2001, "info": {"default": {"policy_loss": -0.03755776956677437, "vf_explained_var": 0.7542658448219299, "vf_loss": 3.2518739700317383, "kl": 0.00408996781334281, "cur_lr": 4.999999873689376e-05, "total_loss": 3.221496105194092, "entropy": 0.6532629728317261, "cur_kl_coeff": 1.7555333375930786}, "sample_time_ms": 45011.906, "num_steps_trained": 2401200, "grad_time_ms": 368.099, "update_time_ms": 2.641, "num_steps_sampled": 2401200, "load_time_ms": 0.702}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 82688.17433977127, "iterations_since_restore": 112, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5099.2816026210785, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 288, "timestamp": 1757138136, "timesteps_since_restore": 134400, "episodes_total": 305274, "episode_reward_mean": 3.7131765129983094, "pid": 2334315, "episode_reward_max": 4.00065775387212, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-55-36", "episode_len_mean": 4.184027777777778, "timesteps_total": 2402400, "episode_reward_min": -25.182292773834234, "custom_metrics": {}, "time_this_iter_s": 44.77232909202576, "training_iteration": 2002, "info": {"default": {"policy_loss": -0.04921453073620796, "vf_explained_var": 0.6271233558654785, "vf_loss": 7.335347652435303, "kl": 0.012359431013464928, "cur_lr": 4.999999873689376e-05, "total_loss": 7.296980857849121, "entropy": 0.8291959762573242, "cur_kl_coeff": 0.8777666687965393}, "sample_time_ms": 44964.642, "num_steps_trained": 2402400, "grad_time_ms": 369.715, "update_time_ms": 2.63, "num_steps_sampled": 2402400, "load_time_ms": 0.702}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 82733.16374874115, "iterations_since_restore": 113, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5144.271011590958, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 290, "timestamp": 1757138181, "timesteps_since_restore": 135600, "episodes_total": 305564, "episode_reward_mean": 3.794891828019405, "pid": 2334315, "episode_reward_max": 4.001118352479068, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-56-21", "episode_len_mean": 4.127586206896551, "timesteps_total": 2403600, "episode_reward_min": -12.094341848228492, "custom_metrics": {}, "time_this_iter_s": 44.98940896987915, "training_iteration": 2003, "info": {"default": {"policy_loss": -0.04563130438327789, "vf_explained_var": 0.7058207988739014, "vf_loss": 2.93339204788208, "kl": 0.009374077431857586, "cur_lr": 4.999999873689376e-05, "total_loss": 2.895988702774048, "entropy": 0.6633226871490479, "cur_kl_coeff": 0.8777666687965393}, "sample_time_ms": 44975.862, "num_steps_trained": 2403600, "grad_time_ms": 367.826, "update_time_ms": 2.668, "num_steps_sampled": 2403600, "load_time_ms": 0.697}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 82778.85336184502, "iterations_since_restore": 114, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5189.960624694824, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757138227, "timesteps_since_restore": 136800, "episodes_total": 305856, "episode_reward_mean": 3.839344695921101, "pid": 2334315, "episode_reward_max": 4.000665672425365, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-57-07", "episode_len_mean": 4.0993150684931505, "timesteps_total": 2404800, "episode_reward_min": -12.746636035886652, "custom_metrics": {}, "time_this_iter_s": 45.68961310386658, "training_iteration": 2004, "info": {"default": {"policy_loss": -0.04290261119604111, "vf_explained_var": 0.7571626305580139, "vf_loss": 2.0143773555755615, "kl": 0.023290950804948807, "cur_lr": 4.999999873689376e-05, "total_loss": 1.9919188022613525, "entropy": 0.6171466112136841, "cur_kl_coeff": 0.8777666687965393}, "sample_time_ms": 45083.071, "num_steps_trained": 2404800, "grad_time_ms": 367.924, "update_time_ms": 2.746, "num_steps_sampled": 2404800, "load_time_ms": 0.696}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 82823.92675685883, "iterations_since_restore": 115, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5235.034019708633, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757138272, "timesteps_since_restore": 138000, "episodes_total": 306154, "episode_reward_mean": 3.939621902645039, "pid": 2334315, "episode_reward_max": 4.000798852799832, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-57-52", "episode_len_mean": 4.0369127516778525, "timesteps_total": 2406000, "episode_reward_min": -4.061035955668986, "custom_metrics": {}, "time_this_iter_s": 45.073395013809204, "training_iteration": 2005, "info": {"default": {"policy_loss": -0.04331756383180618, "vf_explained_var": 0.9337580800056458, "vf_loss": 0.3880424201488495, "kl": 0.005259757861495018, "cur_lr": 4.999999873689376e-05, "total_loss": 0.3516501188278198, "entropy": 0.6199597716331482, "cur_kl_coeff": 1.3166500329971313}, "sample_time_ms": 45084.517, "num_steps_trained": 2406000, "grad_time_ms": 368.213, "update_time_ms": 2.715, "num_steps_sampled": 2406000, "load_time_ms": 0.719}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 82869.10978031158, "iterations_since_restore": 116, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5280.217043161392, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 291, "timestamp": 1757138317, "timesteps_since_restore": 139200, "episodes_total": 306445, "episode_reward_mean": 3.803080229098942, "pid": 2334315, "episode_reward_max": 4.001240437844054, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-58-37", "episode_len_mean": 4.1271477663230245, "timesteps_total": 2407200, "episode_reward_min": -18.51037322198989, "custom_metrics": {}, "time_this_iter_s": 45.18302345275879, "training_iteration": 2006, "info": {"default": {"policy_loss": -0.04054705798625946, "vf_explained_var": 0.7745321393013, "vf_loss": 3.261953830718994, "kl": 0.009345419704914093, "cur_lr": 4.999999873689376e-05, "total_loss": 3.2337114810943604, "entropy": 0.6902719736099243, "cur_kl_coeff": 1.3166500329971313}, "sample_time_ms": 45100.791, "num_steps_trained": 2407200, "grad_time_ms": 366.671, "update_time_ms": 2.697, "num_steps_sampled": 2407200, "load_time_ms": 0.71}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 82914.18636965752, "iterations_since_restore": 117, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5325.293632507324, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757138362, "timesteps_since_restore": 140400, "episodes_total": 306740, "episode_reward_mean": 3.8865641046723627, "pid": 2334315, "episode_reward_max": 4.00115789828598, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_07-59-22", "episode_len_mean": 4.071186440677966, "timesteps_total": 2408400, "episode_reward_min": -20.46894375193675, "custom_metrics": {}, "time_this_iter_s": 45.07658934593201, "training_iteration": 2007, "info": {"default": {"policy_loss": -0.03972798213362694, "vf_explained_var": 0.8960410356521606, "vf_loss": 1.3819620609283447, "kl": 0.007114920299500227, "cur_lr": 4.999999873689376e-05, "total_loss": 1.3516017198562622, "entropy": 0.6864114999771118, "cur_kl_coeff": 1.3166500329971313}, "sample_time_ms": 45078.333, "num_steps_trained": 2408400, "grad_time_ms": 366.515, "update_time_ms": 2.693, "num_steps_sampled": 2408400, "load_time_ms": 0.729}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 82959.72809362411, "iterations_since_restore": 118, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5370.835356473923, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 290, "timestamp": 1757138408, "timesteps_since_restore": 141600, "episodes_total": 307030, "episode_reward_mean": 3.7919369898816417, "pid": 2334315, "episode_reward_max": 4.000797068174938, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_08-00-08", "episode_len_mean": 4.13448275862069, "timesteps_total": 2409600, "episode_reward_min": -30.81029284387312, "custom_metrics": {}, "time_this_iter_s": 45.54172396659851, "training_iteration": 2008, "info": {"default": {"policy_loss": -0.03265642002224922, "vf_explained_var": 0.697227418422699, "vf_loss": 6.083882808685303, "kl": 0.05161400884389877, "cur_lr": 4.999999873689376e-05, "total_loss": 6.119184494018555, "entropy": 0.743361234664917, "cur_kl_coeff": 1.3166500329971313}, "sample_time_ms": 45005.241, "num_steps_trained": 2409600, "grad_time_ms": 367.655, "update_time_ms": 2.667, "num_steps_sampled": 2409600, "load_time_ms": 0.73}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 83004.9353017807, "iterations_since_restore": 119, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5416.042564630508, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 293, "timestamp": 1757138453, "timesteps_since_restore": 142800, "episodes_total": 307323, "episode_reward_mean": 3.8543133869174477, "pid": 2334315, "episode_reward_max": 4.001192890333449, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_08-00-53", "episode_len_mean": 4.098976109215017, "timesteps_total": 2410800, "episode_reward_min": -17.97739249813482, "custom_metrics": {}, "time_this_iter_s": 45.20720815658569, "training_iteration": 2009, "info": {"default": {"policy_loss": -0.042582858353853226, "vf_explained_var": 0.7540920972824097, "vf_loss": 3.005134344100952, "kl": 0.02672424167394638, "cur_lr": 4.999999873689376e-05, "total_loss": 3.015331268310547, "entropy": 0.6669034361839294, "cur_kl_coeff": 1.9749751091003418}, "sample_time_ms": 44958.41, "num_steps_trained": 2410800, "grad_time_ms": 367.357, "update_time_ms": 2.645, "num_steps_sampled": 2410800, "load_time_ms": 0.737}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 83050.09800481796, "iterations_since_restore": 120, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5461.20526766777, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757138498, "timesteps_since_restore": 144000, "episodes_total": 307615, "episode_reward_mean": 3.876689374525134, "pid": 2334315, "episode_reward_max": 4.001165913688922, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_08-01-38", "episode_len_mean": 4.075342465753424, "timesteps_total": 2412000, "episode_reward_min": -6.079581775995024, "custom_metrics": {}, "time_this_iter_s": 45.16270303726196, "training_iteration": 2010, "info": {"default": {"policy_loss": -0.04578785225749016, "vf_explained_var": 0.7990445494651794, "vf_loss": 1.4423279762268066, "kl": 0.009527534246444702, "cur_lr": 4.999999873689376e-05, "total_loss": 1.4247651100158691, "entropy": 0.5464964509010315, "cur_kl_coeff": 2.9624626636505127}, "sample_time_ms": 44865.257, "num_steps_trained": 2412000, "grad_time_ms": 364.882, "update_time_ms": 2.656, "num_steps_sampled": 2412000, "load_time_ms": 0.718}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 83096.37746286392, "iterations_since_restore": 121, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5507.48472571373, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757138545, "timesteps_since_restore": 145200, "episodes_total": 307911, "episode_reward_mean": 3.8824280961520548, "pid": 2334315, "episode_reward_max": 4.000757699314381, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_08-02-25", "episode_len_mean": 4.074324324324325, "timesteps_total": 2413200, "episode_reward_min": -8.831406311488529, "custom_metrics": {}, "time_this_iter_s": 46.27945804595947, "training_iteration": 2011, "info": {"default": {"policy_loss": -0.03440999239683151, "vf_explained_var": 0.8678881525993347, "vf_loss": 0.9071734547615051, "kl": 0.00439316825941205, "cur_lr": 4.999999873689376e-05, "total_loss": 0.8857780694961548, "entropy": 0.5658578276634216, "cur_kl_coeff": 2.9624626636505127}, "sample_time_ms": 44920.417, "num_steps_trained": 2413200, "grad_time_ms": 367.597, "update_time_ms": 2.675, "num_steps_sampled": 2413200, "load_time_ms": 0.741}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 83141.53128647804, "iterations_since_restore": 122, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5552.63854932785, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 289, "timestamp": 1757138590, "timesteps_since_restore": 146400, "episodes_total": 308200, "episode_reward_mean": 3.7649991762504764, "pid": 2334315, "episode_reward_max": 4.000720679708728, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_08-03-10", "episode_len_mean": 4.14878892733564, "timesteps_total": 2414400, "episode_reward_min": -46.08295921769835, "custom_metrics": {}, "time_this_iter_s": 45.15382361412048, "training_iteration": 2012, "info": {"default": {"policy_loss": -0.04492413252592087, "vf_explained_var": 0.5569371581077576, "vf_loss": 13.706624984741211, "kl": 0.005501284264028072, "cur_lr": 4.999999873689376e-05, "total_loss": 13.66985034942627, "entropy": 0.7241404056549072, "cur_kl_coeff": 1.4812313318252563}, "sample_time_ms": 44959.338, "num_steps_trained": 2414400, "grad_time_ms": 366.896, "update_time_ms": 2.687, "num_steps_sampled": 2414400, "load_time_ms": 0.736}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 83186.89423322678, "iterations_since_restore": 123, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5598.001496076584, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757138635, "timesteps_since_restore": 147600, "episodes_total": 308499, "episode_reward_mean": 3.9732891929353724, "pid": 2334315, "episode_reward_max": 4.001168509436581, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_08-03-55", "episode_len_mean": 4.016722408026756, "timesteps_total": 2415600, "episode_reward_min": -4.074913353431942, "custom_metrics": {}, "time_this_iter_s": 45.36294674873352, "training_iteration": 2013, "info": {"default": {"policy_loss": -0.03852488100528717, "vf_explained_var": 0.9517078399658203, "vf_loss": 0.3160713016986847, "kl": 0.008519555442035198, "cur_lr": 4.999999873689376e-05, "total_loss": 0.29016587138175964, "entropy": 0.5003231167793274, "cur_kl_coeff": 1.4812313318252563}, "sample_time_ms": 44996.37, "num_steps_trained": 2415600, "grad_time_ms": 367.174, "update_time_ms": 2.678, "num_steps_sampled": 2415600, "load_time_ms": 0.733}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 83231.48393583298, "iterations_since_restore": 124, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5642.591198682785, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757138680, "timesteps_since_restore": 148800, "episodes_total": 308798, "episode_reward_mean": 3.980081582488827, "pid": 2334315, "episode_reward_max": 4.001900780921632, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_08-04-40", "episode_len_mean": 4.013377926421405, "timesteps_total": 2416800, "episode_reward_min": -2.045248030117614, "custom_metrics": {}, "time_this_iter_s": 44.58970260620117, "training_iteration": 2014, "info": {"default": {"policy_loss": -0.030866576358675957, "vf_explained_var": 0.959375262260437, "vf_loss": 0.23483045399188995, "kl": 0.0037807459011673927, "cur_lr": 4.999999873689376e-05, "total_loss": 0.20956403017044067, "entropy": 0.4731755256652832, "cur_kl_coeff": 1.4812313318252563}, "sample_time_ms": 44886.769, "num_steps_trained": 2416800, "grad_time_ms": 366.923, "update_time_ms": 2.574, "num_steps_sampled": 2416800, "load_time_ms": 0.737}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 83276.68447685242, "iterations_since_restore": 125, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5687.791739702225, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 295, "timestamp": 1757138725, "timesteps_since_restore": 150000, "episodes_total": 309093, "episode_reward_mean": 3.883508592330869, "pid": 2334315, "episode_reward_max": 4.001191479807417, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_08-05-25", "episode_len_mean": 4.074576271186441, "timesteps_total": 2418000, "episode_reward_min": -16.335506650326135, "custom_metrics": {}, "time_this_iter_s": 45.2005410194397, "training_iteration": 2015, "info": {"default": {"policy_loss": -0.03528444468975067, "vf_explained_var": 0.804974377155304, "vf_loss": 1.8316779136657715, "kl": 0.013345574028789997, "cur_lr": 4.999999873689376e-05, "total_loss": 1.8062776327133179, "entropy": 0.5864191651344299, "cur_kl_coeff": 0.7406156659126282}, "sample_time_ms": 44899.08, "num_steps_trained": 2418000, "grad_time_ms": 367.354, "update_time_ms": 2.54, "num_steps_sampled": 2418000, "load_time_ms": 0.712}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 83322.63332939148, "iterations_since_restore": 126, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5733.740592241287, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757138771, "timesteps_since_restore": 151200, "episodes_total": 309389, "episode_reward_mean": 3.926583916666576, "pid": 2334315, "episode_reward_max": 4.000932759510184, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_08-06-11", "episode_len_mean": 4.047297297297297, "timesteps_total": 2419200, "episode_reward_min": -11.796633988333689, "custom_metrics": {}, "time_this_iter_s": 45.9488525390625, "training_iteration": 2016, "info": {"default": {"policy_loss": -0.030470959842205048, "vf_explained_var": 0.8643831014633179, "vf_loss": 1.0749714374542236, "kl": 0.006801242008805275, "cur_lr": 4.999999873689376e-05, "total_loss": 1.0495375394821167, "entropy": 0.5029727220535278, "cur_kl_coeff": 0.7406156659126282}, "sample_time_ms": 44974.008, "num_steps_trained": 2419200, "grad_time_ms": 368.95, "update_time_ms": 2.563, "num_steps_sampled": 2419200, "load_time_ms": 0.72}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 83368.12123060226, "iterations_since_restore": 127, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5779.228493452072, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 299, "timestamp": 1757138817, "timesteps_since_restore": 152400, "episodes_total": 309688, "episode_reward_mean": 3.971351633165709, "pid": 2334315, "episode_reward_max": 4.000737820556287, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_08-06-57", "episode_len_mean": 4.016722408026756, "timesteps_total": 2420400, "episode_reward_min": -4.64945509616531, "custom_metrics": {}, "time_this_iter_s": 45.48790121078491, "training_iteration": 2017, "info": {"default": {"policy_loss": -0.03503962978720665, "vf_explained_var": 0.9844505786895752, "vf_loss": 0.10085776448249817, "kl": 0.008282184600830078, "cur_lr": 4.999999873689376e-05, "total_loss": 0.07195203751325607, "entropy": 0.4837670922279358, "cur_kl_coeff": 0.7406156659126282}, "sample_time_ms": 45015.61, "num_steps_trained": 2420400, "grad_time_ms": 368.523, "update_time_ms": 2.548, "num_steps_sampled": 2420400, "load_time_ms": 0.693}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 83413.66861081123, "iterations_since_restore": 128, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5824.775873661041, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 298, "timestamp": 1757138862, "timesteps_since_restore": 153600, "episodes_total": 309986, "episode_reward_mean": 3.9567679654913297, "pid": 2334315, "episode_reward_max": 4.001202913147282, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_08-07-42", "episode_len_mean": 4.026845637583893, "timesteps_total": 2421600, "episode_reward_min": -8.97145009348991, "custom_metrics": {}, "time_this_iter_s": 45.547380208969116, "training_iteration": 2018, "info": {"default": {"policy_loss": -0.02979195863008499, "vf_explained_var": 0.9508710503578186, "vf_loss": 0.3442019522190094, "kl": 0.003754326142370701, "cur_lr": 4.999999873689376e-05, "total_loss": 0.3171904981136322, "entropy": 0.531615674495697, "cur_kl_coeff": 0.7406156659126282}, "sample_time_ms": 45016.805, "num_steps_trained": 2421600, "grad_time_ms": 367.852, "update_time_ms": 2.566, "num_steps_sampled": 2421600, "load_time_ms": 0.688}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 83458.67626857758, "iterations_since_restore": 129, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5869.783531427383, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757138907, "timesteps_since_restore": 154800, "episodes_total": 310283, "episode_reward_mean": 3.936154621865902, "pid": 2334315, "episode_reward_max": 4.0007849641965665, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_08-08-27", "episode_len_mean": 4.040404040404041, "timesteps_total": 2422800, "episode_reward_min": -6.99903859942107, "custom_metrics": {}, "time_this_iter_s": 45.00765776634216, "training_iteration": 2019, "info": {"default": {"policy_loss": -0.034746844321489334, "vf_explained_var": 0.8951692581176758, "vf_loss": 0.7133528590202332, "kl": 0.010273102670907974, "cur_lr": 4.999999873689376e-05, "total_loss": 0.6824102997779846, "entropy": 0.4219500720500946, "cur_kl_coeff": 0.3703078329563141}, "sample_time_ms": 44998.528, "num_steps_trained": 2422800, "grad_time_ms": 366.209, "update_time_ms": 2.571, "num_steps_sampled": 2422800, "load_time_ms": 0.682}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 83503.71133089066, "iterations_since_restore": 130, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5914.818593740463, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 294, "timestamp": 1757138952, "timesteps_since_restore": 156000, "episodes_total": 310577, "episode_reward_mean": 3.8569546468808804, "pid": 2334315, "episode_reward_max": 4.000733906870962, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_08-09-12", "episode_len_mean": 4.091836734693878, "timesteps_total": 2424000, "episode_reward_min": -38.14025919658961, "custom_metrics": {}, "time_this_iter_s": 45.035062313079834, "training_iteration": 2020, "info": {"default": {"policy_loss": -0.04183734953403473, "vf_explained_var": 0.7166674137115479, "vf_loss": 7.099640369415283, "kl": 0.010579959489405155, "cur_lr": 4.999999873689376e-05, "total_loss": 7.061721324920654, "entropy": 0.6438618898391724, "cur_kl_coeff": 0.3703078329563141}, "sample_time_ms": 44985.306, "num_steps_trained": 2424000, "grad_time_ms": 366.694, "update_time_ms": 2.554, "num_steps_sampled": 2424000, "load_time_ms": 0.684}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 83549.34754991531, "iterations_since_restore": 131, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 5960.4548127651215, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 300, "timestamp": 1757138998, "timesteps_since_restore": 157200, "episodes_total": 310877, "episode_reward_mean": 4.000285366065449, "pid": 2334315, "episode_reward_max": 4.0008895565951725, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_08-09-58", "episode_len_mean": 4.0, "timesteps_total": 2425200, "episode_reward_min": 4.00013194402828, "custom_metrics": {}, "time_this_iter_s": 45.6362190246582, "training_iteration": 2021, "info": {"default": {"policy_loss": -0.0923408642411232, "vf_explained_var": 0.999094545841217, "vf_loss": 0.004861366935074329, "kl": 0.0774075835943222, "cur_lr": 4.999999873689376e-05, "total_loss": -0.058814868330955505, "entropy": 0.45694902539253235, "cur_kl_coeff": 0.3703078329563141}, "sample_time_ms": 44922.651, "num_steps_trained": 2425200, "grad_time_ms": 365.045, "update_time_ms": 2.523, "num_steps_sampled": 2425200, "load_time_ms": 0.662}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 83595.28465247154, "iterations_since_restore": 132, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 6006.39191532135, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 296, "timestamp": 1757139044, "timesteps_since_restore": 158400, "episodes_total": 311173, "episode_reward_mean": 3.929144504224684, "pid": 2334315, "episode_reward_max": 4.000557900786036, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_08-10-44", "episode_len_mean": 4.047297297297297, "timesteps_total": 2426400, "episode_reward_min": -7.011406077946223, "custom_metrics": {}, "time_this_iter_s": 45.93710255622864, "training_iteration": 2022, "info": {"default": {"policy_loss": -0.03681378811597824, "vf_explained_var": 0.8676996231079102, "vf_loss": 0.9129693508148193, "kl": 0.009157426655292511, "cur_lr": 4.999999873689376e-05, "total_loss": 0.8812420964241028, "entropy": 0.654927670955658, "cur_kl_coeff": 0.5554617047309875}, "sample_time_ms": 44999.905, "num_steps_trained": 2426400, "grad_time_ms": 366.09, "update_time_ms": 2.535, "num_steps_sampled": 2426400, "load_time_ms": 0.663}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 83641.15696191788, "iterations_since_restore": 133, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 6052.264224767685, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 297, "timestamp": 1757139090, "timesteps_since_restore": 159600, "episodes_total": 311470, "episode_reward_mean": 3.9293202679217067, "pid": 2334315, "episode_reward_max": 4.000741884224517, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_08-11-30", "episode_len_mean": 4.047138047138047, "timesteps_total": 2427600, "episode_reward_min": -4.998123704584028, "custom_metrics": {}, "time_this_iter_s": 45.87230944633484, "training_iteration": 2023, "info": {"default": {"policy_loss": -0.03951047360897064, "vf_explained_var": 0.891520082950592, "vf_loss": 0.6631487607955933, "kl": 0.00871213898062706, "cur_lr": 4.999999873689376e-05, "total_loss": 0.6284775137901306, "entropy": 0.5288773775100708, "cur_kl_coeff": 0.5554617047309875}, "sample_time_ms": 45048.831, "num_steps_trained": 2427600, "grad_time_ms": 368.045, "update_time_ms": 2.546, "num_steps_sampled": 2427600, "load_time_ms": 0.668}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 83686.23730134964, "iterations_since_restore": 134, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 6097.344564199448, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 292, "timestamp": 1757139135, "timesteps_since_restore": 160800, "episodes_total": 311762, "episode_reward_mean": 3.8153560495479084, "pid": 2334315, "episode_reward_max": 4.001111725077002, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_08-12-15", "episode_len_mean": 4.116438356164384, "timesteps_total": 2428800, "episode_reward_min": -19.061267798720568, "custom_metrics": {}, "time_this_iter_s": 45.080339431762695, "training_iteration": 2024, "info": {"default": {"policy_loss": -0.058744218200445175, "vf_explained_var": 0.8042817711830139, "vf_loss": 2.3184423446655273, "kl": 0.00969983171671629, "cur_lr": 4.999999873689376e-05, "total_loss": 2.2650859355926514, "entropy": 0.7821090817451477, "cur_kl_coeff": 0.5554617047309875}, "sample_time_ms": 45097.466, "num_steps_trained": 2428800, "grad_time_ms": 368.316, "update_time_ms": 2.593, "num_steps_sampled": 2428800, "load_time_ms": 0.669}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
+{"time_total_s": 83731.15531134605, "iterations_since_restore": 135, "policy_reward_mean": {}, "timesteps_this_iter": 1200, "hostname": "cda-server-2", "time_since_restore": 6142.262574195862, "experiment_id": "f93d3d6710754a149751678a58e67540", "episodes_this_iter": 290, "timestamp": 1757139180, "timesteps_since_restore": 162000, "episodes_total": 312052, "episode_reward_mean": 3.809761616159631, "pid": 2334315, "episode_reward_max": 4.00084389193284, "node_ip": "10.157.146.2", "done": false, "num_metric_batches_dropped": 0, "date": "2025-09-06_08-13-00", "episode_len_mean": 4.120689655172414, "timesteps_total": 2430000, "episode_reward_min": -18.18201571251071, "custom_metrics": {}, "time_this_iter_s": 44.918009996414185, "training_iteration": 2025, "info": {"default": {"policy_loss": -0.03568026423454285, "vf_explained_var": 0.7606998682022095, "vf_loss": 2.8914008140563965, "kl": 0.03848344460129738, "cur_lr": 4.999999873689376e-05, "total_loss": 2.8770968914031982, "entropy": 0.6033090949058533, "cur_kl_coeff": 0.5554617047309875}, "sample_time_ms": 45067.412, "num_steps_trained": 2430000, "grad_time_ms": 370.065, "update_time_ms": 2.624, "num_steps_sampled": 2430000, "load_time_ms": 0.687}, "config": {"monitor": false, "preprocessor_pref": "deepmind", "env_config": {"generalize": false, "run_valid": false}, "lr_schedule": null, "lambda": 1.0, "postprocess_inputs": false, "multiagent": {"policy_graphs": {}, "policies_to_train": null, "policy_mapping_fn": null}, "log_level": "INFO", "clip_rewards": null, "sgd_minibatch_size": 128, "callbacks": {"on_episode_step": null, "on_episode_end": null, "on_train_result": null, "on_sample_end": null, "on_episode_start": null}, "model": {"fcnet_hiddens": [128, 128, 128], "fcnet_activation": "tanh", "grayscale": false, "custom_options": {}, "framestack": true, "free_log_std": false, "zero_mean": true, "squash_to_range": false, "conv_filters": null, "custom_preprocessor": null, "lstm_use_prev_action_reward": false, "custom_model": null, "max_seq_len": 20, "lstm_cell_size": 256, "conv_activation": "relu", "dim": 84, "use_lstm": false}, "collect_metrics_timeout": 180, "tf_session_args": {"allow_soft_placement": true, "inter_op_parallelism_threads": 2, "device_count": {"CPU": 1}, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2, "log_device_placement": false}, "sample_async": false, "grad_clip": null, "kl_target": 0.01, "output_max_file_size": 67108864, "straggler_mitigation": false, "entropy_coeff": 0.0, "train_batch_size": 1200, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "input": "sampler", "vf_clip_param": 10.0, "sample_batch_size": 200, "vf_share_layers": false, "num_gpus": 0, "num_workers": 3, "clip_param": 0.3, "clip_actions": true, "env": "Zhenxin_S_FC", "kl_coeff": 0.2, "synchronize_filters": true, "num_gpus_per_worker": 0, "output": null, "optimizer": {}, "horizon": 50, "observation_filter": "MeanStdFilter", "vf_loss_coeff": 1.0, "num_cpus_per_worker": 1, "num_cpus_for_driver": 1, "batch_mode": "truncate_episodes", "output_compress_columns": ["obs", "new_obs"], "lr": 5e-05, "custom_resources_per_worker": {}, "use_gae": true, "simple_optimizer": false, "input_evaluation": null, "gamma": 0.99, "compress_observations": false, "num_envs_per_worker": 1, "num_sgd_iter": 30}}
diff --git a/experiments/optimize-Zhenxin_S_FC_65nmPTM-run15/image.png b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run15/image.png
new file mode 100644
index 0000000..30af083
Binary files /dev/null and b/experiments/optimize-Zhenxin_S_FC_65nmPTM-run15/image.png differ
diff --git a/experiments/run_params_10_990_400_horizon200_start200/PPO_LEDRO_D_FC_0_2025-08-30_16-10-10yltfhz_o/events.out.tfevents.1756563064.cda-server-4 b/experiments/run_params_10_990_400_horizon200_start200/PPO_LEDRO_D_FC_0_2025-08-30_16-10-10yltfhz_o/events.out.tfevents.1756563064.cda-server-4
new file mode 100644
index 0000000..3072524
Binary files /dev/null and b/experiments/run_params_10_990_400_horizon200_start200/PPO_LEDRO_D_FC_0_2025-08-30_16-10-10yltfhz_o/events.out.tfevents.1756563064.cda-server-4 differ
diff --git a/experiments/run_params_10_990_400_horizon200_start200/PPO_LEDRO_D_FC_0_2025-08-30_16-10-10yltfhz_o/final_checkpoint_3060/checkpoint-3060 b/experiments/run_params_10_990_400_horizon200_start200/PPO_LEDRO_D_FC_0_2025-08-30_16-10-10yltfhz_o/final_checkpoint_3060/checkpoint-3060
new file mode 100644
index 0000000..43ac781
Binary files /dev/null and b/experiments/run_params_10_990_400_horizon200_start200/PPO_LEDRO_D_FC_0_2025-08-30_16-10-10yltfhz_o/final_checkpoint_3060/checkpoint-3060 differ
diff --git a/experiments/run_params_10_990_400_horizon200_start200/PPO_LEDRO_D_FC_0_2025-08-30_16-10-10yltfhz_o/final_checkpoint_3060/checkpoint-3060.tune_metadata b/experiments/run_params_10_990_400_horizon200_start200/PPO_LEDRO_D_FC_0_2025-08-30_16-10-10yltfhz_o/final_checkpoint_3060/checkpoint-3060.tune_metadata
new file mode 100644
index 0000000..6f19bb3
Binary files /dev/null and b/experiments/run_params_10_990_400_horizon200_start200/PPO_LEDRO_D_FC_0_2025-08-30_16-10-10yltfhz_o/final_checkpoint_3060/checkpoint-3060.tune_metadata differ
diff --git a/experiments/run_params_10_990_400_horizon200_start200/PPO_LEDRO_D_FC_0_2025-08-30_16-10-10yltfhz_o/params.json b/experiments/run_params_10_990_400_horizon200_start200/PPO_LEDRO_D_FC_0_2025-08-30_16-10-10yltfhz_o/params.json
new file mode 100644
index 0000000..520e319
--- /dev/null
+++ b/experiments/run_params_10_990_400_horizon200_start200/PPO_LEDRO_D_FC_0_2025-08-30_16-10-10yltfhz_o/params.json
@@ -0,0 +1,18 @@
+{
+  "env": "<class 'autockt.envs.ngspice_ledro_d_fc.LEDRO_D_FC'>",
+  "env_config": {
+    "generalize": true,
+    "run_valid": false
+  },
+  "horizon": 200,
+  "model": {
+    "fcnet_hiddens": [
+      128,
+      128,
+      128
+    ]
+  },
+  "num_gpus": 0,
+  "num_workers": 3,
+  "train_batch_size": 1200
+}
\ No newline at end of file
diff --git a/experiments/run_params_10_990_400_horizon200_start200/PPO_LEDRO_D_FC_0_2025-08-30_16-10-10yltfhz_o/params.pkl b/experiments/run_params_10_990_400_horizon200_start200/PPO_LEDRO_D_FC_0_2025-08-30_16-10-10yltfhz_o/params.pkl
new file mode 100644
index 0000000..9784c38
Binary files /dev/null and b/experiments/run_params_10_990_400_horizon200_start200/PPO_LEDRO_D_FC_0_2025-08-30_16-10-10yltfhz_o/params.pkl differ
diff --git a/experiments/run_params_10_990_400_horizon200_start200/PPO_LEDRO_D_FC_0_2025-08-30_16-10-10yltfhz_o/progress.csv b/experiments/run_params_10_990_400_horizon200_start200/PPO_LEDRO_D_FC_0_2025-08-30_16-10-10yltfhz_o/progress.csv
new file mode 100644
index 0000000..49330b3
--- /dev/null
+++ b/experiments/run_params_10_990_400_horizon200_start200/PPO_LEDRO_D_FC_0_2025-08-30_16-10-10yltfhz_o/progress.csv
@@ -0,0 +1,3061 @@
+iterations_since_restore,episode_reward_mean,training_iteration,timesteps_total,policy_reward_mean,episode_reward_min,timesteps_since_restore,num_metric_batches_dropped,time_since_restore,episode_reward_max,config,episodes_this_iter,pid,experiment_id,episode_len_mean,custom_metrics,info,date,hostname,time_this_iter_s,episodes_total,timestamp,node_ip,done,time_total_s,timesteps_this_iter
+1,-915.4631628403382,1,1200,{},-962.3449331318349,1200,0,40.931931018829346,-891.590952136459,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1200, 'default': {'kl': 0.021566931158304214, 'policy_loss': -0.11831244826316833, 'vf_loss': 82504.34375, 'cur_kl_coeff': 0.20000000298023224, 'vf_explained_var': -0.0019222100963816047, 'entropy': 18.654489517211914, 'cur_lr': 4.999999873689376e-05, 'total_loss': 82504.2265625}, 'load_time_ms': 94.602, 'num_steps_sampled': 1200, 'grad_time_ms': 1800.816, 'update_time_ms': 1375.652, 'sample_time_ms': 37576.671}",2025-08-30_16-11-04,cda-server-4,40.931931018829346,6,1756563064,10.157.146.4,False,40.931931018829346,1200
+2,-914.8397641689475,2,2400,{},-962.3449331318349,2400,0,73.4474310874939,-883.6583674706847,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2400, 'default': {'kl': 0.02416645921766758, 'policy_loss': -0.13607536256313324, 'vf_loss': 80162.28125, 'cur_kl_coeff': 0.30000001192092896, 'vf_explained_var': -0.002534416038542986, 'entropy': 18.629140853881836, 'cur_lr': 4.999999873689376e-05, 'total_loss': 80162.1484375}, 'load_time_ms': 47.747, 'num_steps_sampled': 2400, 'grad_time_ms': 1275.018, 'update_time_ms': 689.006, 'sample_time_ms': 34668.153}",2025-08-30_16-11-36,cda-server-4,32.51550006866455,12,1756563096,10.157.146.4,False,73.4474310874939,1200
+3,-925.7608040250925,3,3600,{},-980.18169914487,3600,0,101.4539270401001,-883.6583674706847,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3600, 'default': {'kl': 0.022288603708148003, 'policy_loss': -0.12421447783708572, 'vf_loss': 85742.53125, 'cur_kl_coeff': 0.44999995827674866, 'vf_explained_var': 0.017854519188404083, 'entropy': 18.607887268066406, 'cur_lr': 4.999999873689376e-05, 'total_loss': 85742.421875}, 'load_time_ms': 32.111, 'num_steps_sampled': 3600, 'grad_time_ms': 1099.167, 'update_time_ms': 460.09, 'sample_time_ms': 32196.136}",2025-08-30_16-12-04,cda-server-4,28.0064959526062,18,1756563124,10.157.146.4,False,101.4539270401001,1200
+4,-929.7724155678834,4,4800,{},-980.18169914487,4800,0,134.29423356056213,-883.6583674706847,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 4800, 'default': {'kl': 0.02014957182109356, 'policy_loss': -0.12444224953651428, 'vf_loss': 82854.4296875, 'cur_kl_coeff': 0.675000011920929, 'vf_explained_var': 0.014362143352627754, 'entropy': 18.598543167114258, 'cur_lr': 4.999999873689376e-05, 'total_loss': 82854.3203125}, 'load_time_ms': 24.24, 'num_steps_sampled': 4800, 'grad_time_ms': 1009.972, 'update_time_ms': 345.53, 'sample_time_ms': 32169.991}",2025-08-30_16-12-37,cda-server-4,32.840306520462036,24,1756563157,10.157.146.4,False,134.29423356056213,1200
+5,-929.2023818293707,5,6000,{},-980.18169914487,6000,0,166.18449664115906,-855.9187727248385,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 6000, 'default': {'kl': 0.016802439466118813, 'policy_loss': -0.10144172608852386, 'vf_loss': 80344.265625, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': 0.007548067253082991, 'entropy': 18.570688247680664, 'cur_lr': 4.999999873689376e-05, 'total_loss': 80344.171875}, 'load_time_ms': 19.55, 'num_steps_sampled': 6000, 'grad_time_ms': 946.265, 'update_time_ms': 276.862, 'sample_time_ms': 31974.482}",2025-08-30_16-13-09,cda-server-4,31.890263080596924,30,1756563189,10.157.146.4,False,166.18449664115906,1200
+6,-929.9683224817782,6,7200,{},-980.18169914487,7200,0,195.12424230575562,-855.9187727248385,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 7200, 'default': {'kl': 0.01950201950967312, 'policy_loss': -0.13636747002601624, 'vf_loss': 79892.859375, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': 0.007063898723572493, 'entropy': 18.52806282043457, 'cur_lr': 4.999999873689376e-05, 'total_loss': 79892.75}, 'load_time_ms': 16.405, 'num_steps_sampled': 7200, 'grad_time_ms': 903.103, 'update_time_ms': 231.094, 'sample_time_ms': 31353.057}",2025-08-30_16-13-38,cda-server-4,28.939745664596558,36,1756563218,10.157.146.4,False,195.12424230575562,1200
+7,-928.2371501124954,7,8400,{},-980.18169914487,8400,0,225.43561267852783,-851.7273463798581,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 8400, 'default': {'kl': 0.017083577811717987, 'policy_loss': -0.1263360232114792, 'vf_loss': 77957.59375, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': -0.001894659479148686, 'entropy': 18.511943817138672, 'cur_lr': 4.999999873689376e-05, 'total_loss': 77957.46875}, 'load_time_ms': 14.193, 'num_steps_sampled': 8400, 'grad_time_ms': 870.78, 'update_time_ms': 198.452, 'sample_time_ms': 31106.489}",2025-08-30_16-14-08,cda-server-4,30.311370372772217,42,1756563248,10.157.146.4,False,225.43561267852783,1200
+8,-926.6774743133832,8,9600,{},-980.18169914487,9600,0,256.3548216819763,-851.7273463798581,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 9600, 'default': {'kl': 0.017528928816318512, 'policy_loss': -0.12441110610961914, 'vf_loss': 76247.46875, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': 0.012998421676456928, 'entropy': 18.499597549438477, 'cur_lr': 4.999999873689376e-05, 'total_loss': 76247.359375}, 'load_time_ms': 12.489, 'num_steps_sampled': 9600, 'grad_time_ms': 850.172, 'update_time_ms': 173.952, 'sample_time_ms': 30993.925}",2025-08-30_16-14-39,cda-server-4,30.919209003448486,48,1756563279,10.157.146.4,False,256.3548216819763,1200
+9,-926.038209150126,9,10800,{},-980.18169914487,10800,0,286.87660121917725,-851.7273463798581,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 10800, 'default': {'kl': 0.017439113929867744, 'policy_loss': -0.1284089982509613, 'vf_loss': 74520.859375, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': 0.0015607806853950024, 'entropy': 18.48875617980957, 'cur_lr': 4.999999873689376e-05, 'total_loss': 74520.75}, 'load_time_ms': 11.169, 'num_steps_sampled': 10800, 'grad_time_ms': 813.285, 'update_time_ms': 154.907, 'sample_time_ms': 30883.177}",2025-08-30_16-15-10,cda-server-4,30.521779537200928,54,1756563310,10.157.146.4,False,286.87660121917725,1200
+10,-924.0231970547859,10,12000,{},-980.18169914487,12000,0,320.3386015892029,-851.7273463798581,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 12000, 'default': {'kl': 0.017573727294802666, 'policy_loss': -0.14503222703933716, 'vf_loss': 71783.90625, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': -0.0021464957389980555, 'entropy': 18.44955825805664, 'cur_lr': 4.999999873689376e-05, 'total_loss': 71783.78125}, 'load_time_ms': 10.11, 'num_steps_sampled': 12000, 'grad_time_ms': 801.27, 'update_time_ms': 139.586, 'sample_time_ms': 31071.088}",2025-08-30_16-15-43,cda-server-4,33.462000370025635,60,1756563343,10.157.146.4,False,320.3386015892029,1200
+11,-918.986927698508,11,13200,{},-980.18169914487,13200,0,349.0447373390198,-762.9241498624782,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 13200, 'default': {'kl': 0.017201995477080345, 'policy_loss': -0.12166617810726166, 'vf_loss': 67131.1015625, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': -0.020276201888918877, 'entropy': 18.43106460571289, 'cur_lr': 4.999999873689376e-05, 'total_loss': 67131.0078125}, 'load_time_ms': 0.711, 'num_steps_sampled': 13200, 'grad_time_ms': 694.043, 'update_time_ms': 2.258, 'sample_time_ms': 30110.521}",2025-08-30_16-16-12,cda-server-4,28.706135749816895,66,1756563372,10.157.146.4,False,349.0447373390198,1200
+12,-918.2665259130619,12,14400,{},-980.18169914487,14400,0,378.7079584598541,-762.9241498624782,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 14400, 'default': {'kl': 0.016904253512620926, 'policy_loss': -0.11986447870731354, 'vf_loss': 70183.3515625, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': 0.00018828445172403008, 'entropy': 18.42489242553711, 'cur_lr': 4.999999873689376e-05, 'total_loss': 70183.25}, 'load_time_ms': 0.688, 'num_steps_sampled': 14400, 'grad_time_ms': 670.084, 'update_time_ms': 2.194, 'sample_time_ms': 29849.239}",2025-08-30_16-16-42,cda-server-4,29.66322112083435,72,1756563402,10.157.146.4,False,378.7079584598541,1200
+13,-917.7553229268651,13,15600,{},-980.18169914487,15600,0,409.1483449935913,-762.9241498624782,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 15600, 'default': {'kl': 0.018256906419992447, 'policy_loss': -0.14394323527812958, 'vf_loss': 68537.234375, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': 0.007131695747375488, 'entropy': 18.394933700561523, 'cur_lr': 4.999999873689376e-05, 'total_loss': 68537.109375}, 'load_time_ms': 0.664, 'num_steps_sampled': 15600, 'grad_time_ms': 661.626, 'update_time_ms': 2.159, 'sample_time_ms': 30101.131}",2025-08-30_16-17-12,cda-server-4,30.440386533737183,78,1756563432,10.157.146.4,False,409.1483449935913,1200
+14,-916.2402333367097,14,16800,{},-980.18169914487,16800,0,439.97073769569397,-762.9241498624782,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 16800, 'default': {'kl': 0.01816420443356037, 'policy_loss': -0.13565292954444885, 'vf_loss': 67150.4375, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': -0.00011689132952596992, 'entropy': 18.369239807128906, 'cur_lr': 4.999999873689376e-05, 'total_loss': 67150.3203125}, 'load_time_ms': 0.659, 'num_steps_sampled': 16800, 'grad_time_ms': 637.764, 'update_time_ms': 2.18, 'sample_time_ms': 29923.093}",2025-08-30_16-17-43,cda-server-4,30.82239270210266,84,1756563463,10.157.146.4,False,439.97073769569397,1200
+15,-914.622603229799,15,18000,{},-980.18169914487,18000,0,469.8236918449402,-762.9241498624782,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 18000, 'default': {'kl': 0.01707661896944046, 'policy_loss': -0.12581056356430054, 'vf_loss': 65607.390625, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': 0.0064279502257704735, 'entropy': 18.32332420349121, 'cur_lr': 4.999999873689376e-05, 'total_loss': 65607.28125}, 'load_time_ms': 0.67, 'num_steps_sampled': 18000, 'grad_time_ms': 632.068, 'update_time_ms': 2.147, 'sample_time_ms': 29725.043}",2025-08-30_16-18-13,cda-server-4,29.852954149246216,90,1756563493,10.157.146.4,False,469.8236918449402,1200
+16,-914.586381346429,16,19200,{},-980.18169914487,19200,0,499.1648304462433,-762.9241498624782,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 19200, 'default': {'kl': 0.017755145207047462, 'policy_loss': -0.13263991475105286, 'vf_loss': 67840.8984375, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': -0.0077851214446127415, 'entropy': 18.352575302124023, 'cur_lr': 4.999999873689376e-05, 'total_loss': 67840.78125}, 'load_time_ms': 0.692, 'num_steps_sampled': 19200, 'grad_time_ms': 623.453, 'update_time_ms': 2.114, 'sample_time_ms': 29773.668}",2025-08-30_16-18-42,cda-server-4,29.3411386013031,96,1756563522,10.157.146.4,False,499.1648304462433,1200
+17,-912.9202926666521,17,20400,{},-980.18169914487,20400,0,528.7519083023071,-762.9241498624782,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 20400, 'default': {'kl': 0.017818383872509003, 'policy_loss': -0.13474389910697937, 'vf_loss': 64468.85546875, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': -0.02842794544994831, 'entropy': 18.316118240356445, 'cur_lr': 4.999999873689376e-05, 'total_loss': 64468.734375}, 'load_time_ms': 0.659, 'num_steps_sampled': 20400, 'grad_time_ms': 625.432, 'update_time_ms': 2.105, 'sample_time_ms': 29699.265}",2025-08-30_16-19-12,cda-server-4,29.587077856063843,102,1756563552,10.157.146.4,False,528.7519083023071,1200
+18,-911.629946595034,18,21600,{},-980.18169914487,21600,0,559.5828275680542,-762.9241498624782,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 21600, 'default': {'kl': 0.017155751585960388, 'policy_loss': -0.1270543932914734, 'vf_loss': 62929.73046875, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': -0.003036028705537319, 'entropy': 18.303882598876953, 'cur_lr': 4.999999873689376e-05, 'total_loss': 62929.6171875}, 'load_time_ms': 0.668, 'num_steps_sampled': 21600, 'grad_time_ms': 624.511, 'update_time_ms': 2.114, 'sample_time_ms': 29691.356}",2025-08-30_16-19-43,cda-server-4,30.83091926574707,108,1756563583,10.157.146.4,False,559.5828275680542,1200
+19,-908.0807341097496,19,22800,{},-976.4182222940282,22800,0,590.2648494243622,-762.9241498624782,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 22800, 'default': {'kl': 0.016594327986240387, 'policy_loss': -0.13239796459674835, 'vf_loss': 59815.765625, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': -0.008357041515409946, 'entropy': 18.27692222595215, 'cur_lr': 4.999999873689376e-05, 'total_loss': 59815.64453125}, 'load_time_ms': 0.674, 'num_steps_sampled': 22800, 'grad_time_ms': 643.489, 'update_time_ms': 2.081, 'sample_time_ms': 29688.354}",2025-08-30_16-20-13,cda-server-4,30.682021856307983,114,1756563613,10.157.146.4,False,590.2648494243622,1200
+20,-903.0250780303811,20,24000,{},-976.4182222940282,24000,0,622.7006895542145,-753.8632362758399,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 24000, 'default': {'kl': 0.016153855249285698, 'policy_loss': -0.13912120461463928, 'vf_loss': 57708.16796875, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': 0.006848951335996389, 'entropy': 18.269086837768555, 'cur_lr': 4.999999873689376e-05, 'total_loss': 57708.04296875}, 'load_time_ms': 0.675, 'num_steps_sampled': 24000, 'grad_time_ms': 642.132, 'update_time_ms': 2.126, 'sample_time_ms': 29587.057}",2025-08-30_16-20-46,cda-server-4,32.435840129852295,120,1756563646,10.157.146.4,False,622.7006895542145,1200
+21,-900.5313856582856,21,25200,{},-976.4182222940282,25200,0,651.7712457180023,-753.8632362758399,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 25200, 'default': {'kl': 0.01708853989839554, 'policy_loss': -0.12779764831066132, 'vf_loss': 60473.8046875, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': 0.008386459201574326, 'entropy': 18.254671096801758, 'cur_lr': 4.999999873689376e-05, 'total_loss': 60473.6953125}, 'load_time_ms': 0.679, 'num_steps_sampled': 25200, 'grad_time_ms': 625.005, 'update_time_ms': 2.167, 'sample_time_ms': 29640.578}",2025-08-30_16-21-15,cda-server-4,29.070556163787842,126,1756563675,10.157.146.4,False,651.7712457180023,1200
+22,-894.9012763866832,22,26400,{},-976.4182222940282,26400,0,683.6725625991821,-753.8632362758399,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 26400, 'default': {'kl': 0.01762104406952858, 'policy_loss': -0.1500639021396637, 'vf_loss': 52610.859375, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': 0.012904386036098003, 'entropy': 18.20142936706543, 'cur_lr': 4.999999873689376e-05, 'total_loss': 52610.73046875}, 'load_time_ms': 0.705, 'num_steps_sampled': 26400, 'grad_time_ms': 638.403, 'update_time_ms': 2.187, 'sample_time_ms': 29850.929}",2025-08-30_16-21-47,cda-server-4,31.90131688117981,132,1756563707,10.157.146.4,False,683.6725625991821,1200
+23,-891.9187581438864,23,27600,{},-976.4182222940282,27600,0,711.339563369751,-739.0367111082321,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 27600, 'default': {'kl': 0.01635853201150894, 'policy_loss': -0.13426262140274048, 'vf_loss': 58194.6640625, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': -0.014830774627625942, 'entropy': 18.22475814819336, 'cur_lr': 4.999999873689376e-05, 'total_loss': 58194.546875}, 'load_time_ms': 0.702, 'num_steps_sampled': 27600, 'grad_time_ms': 627.553, 'update_time_ms': 2.259, 'sample_time_ms': 29584.307}",2025-08-30_16-22-15,cda-server-4,27.667000770568848,138,1756563735,10.157.146.4,False,711.339563369751,1200
+24,-889.783713075679,24,28800,{},-976.4182222940282,28800,0,741.6248207092285,-739.0367111082321,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 28800, 'default': {'kl': 0.017707517370581627, 'policy_loss': -0.12216290086507797, 'vf_loss': 57003.265625, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': 0.06256808340549469, 'entropy': 18.209636688232422, 'cur_lr': 4.999999873689376e-05, 'total_loss': 57003.16015625}, 'load_time_ms': 0.701, 'num_steps_sampled': 28800, 'grad_time_ms': 633.337, 'update_time_ms': 2.313, 'sample_time_ms': 29524.897}",2025-08-30_16-22-45,cda-server-4,30.28525733947754,144,1756563765,10.157.146.4,False,741.6248207092285,1200
+25,-889.4152942752276,25,30000,{},-976.4182222940282,30000,0,770.0583472251892,-739.0367111082321,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 30000, 'default': {'kl': 0.01824086159467697, 'policy_loss': -0.12564553320407867, 'vf_loss': 60686.52734375, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': 0.00032483867835253477, 'entropy': 18.185951232910156, 'cur_lr': 4.999999873689376e-05, 'total_loss': 60686.421875}, 'load_time_ms': 0.671, 'num_steps_sampled': 30000, 'grad_time_ms': 639.769, 'update_time_ms': 2.419, 'sample_time_ms': 29376.463}",2025-08-30_16-23-13,cda-server-4,28.433526515960693,150,1756563793,10.157.146.4,False,770.0583472251892,1200
+26,-888.7473224687473,26,31200,{},-976.4182222940282,31200,0,799.8116199970245,-739.0367111082321,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 31200, 'default': {'kl': 0.018158189952373505, 'policy_loss': -0.13563212752342224, 'vf_loss': 61034.1875, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': 0.006142907775938511, 'entropy': 18.17540168762207, 'cur_lr': 4.999999873689376e-05, 'total_loss': 61034.0703125}, 'load_time_ms': 0.641, 'num_steps_sampled': 31200, 'grad_time_ms': 651.281, 'update_time_ms': 2.404, 'sample_time_ms': 29406.354}",2025-08-30_16-23-43,cda-server-4,29.753272771835327,156,1756563823,10.157.146.4,False,799.8116199970245,1200
+27,-886.9611635116205,27,32400,{},-976.4182222940282,32400,0,828.6089632511139,-739.0367111082321,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 32400, 'default': {'kl': 0.016860978677868843, 'policy_loss': -0.12771891057491302, 'vf_loss': 51889.83203125, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': 0.05117950960993767, 'entropy': 18.094324111938477, 'cur_lr': 4.999999873689376e-05, 'total_loss': 51889.72265625}, 'load_time_ms': 0.642, 'num_steps_sampled': 32400, 'grad_time_ms': 636.029, 'update_time_ms': 2.42, 'sample_time_ms': 29342.663}",2025-08-30_16-24-12,cda-server-4,28.797343254089355,162,1756563852,10.157.146.4,False,828.6089632511139,1200
+28,-887.9106305591266,28,33600,{},-981.9046795866857,33600,0,857.7356524467468,-739.0367111082321,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 33600, 'default': {'kl': 0.016421927139163017, 'policy_loss': -0.13010376691818237, 'vf_loss': 52550.9453125, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': -0.021654851734638214, 'entropy': 18.096134185791016, 'cur_lr': 4.999999873689376e-05, 'total_loss': 52550.828125}, 'load_time_ms': 0.633, 'num_steps_sampled': 33600, 'grad_time_ms': 611.744, 'update_time_ms': 2.357, 'sample_time_ms': 29196.644}",2025-08-30_16-24-41,cda-server-4,29.126689195632935,168,1756563881,10.157.146.4,False,857.7356524467468,1200
+29,-885.5772023654441,29,34800,{},-981.9046795866857,34800,0,886.1898310184479,-739.0367111082321,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 34800, 'default': {'kl': 0.018114497885107994, 'policy_loss': -0.13586656749248505, 'vf_loss': 53538.6171875, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': 0.008729232475161552, 'entropy': 18.085893630981445, 'cur_lr': 4.999999873689376e-05, 'total_loss': 53538.50390625}, 'load_time_ms': 0.653, 'num_steps_sampled': 34800, 'grad_time_ms': 596.91, 'update_time_ms': 2.315, 'sample_time_ms': 28988.737}",2025-08-30_16-25-10,cda-server-4,28.45417857170105,174,1756563910,10.157.146.4,False,886.1898310184479,1200
+30,-886.6820241999361,30,36000,{},-981.9046795866857,36000,0,914.8635594844818,-739.0367111082321,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 36000, 'default': {'kl': 0.01719333790242672, 'policy_loss': -0.13435746729373932, 'vf_loss': 55006.73046875, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': -0.003946503158658743, 'entropy': 18.08782958984375, 'cur_lr': 4.999999873689376e-05, 'total_loss': 55006.609375}, 'load_time_ms': 0.65, 'num_steps_sampled': 36000, 'grad_time_ms': 578.957, 'update_time_ms': 2.383, 'sample_time_ms': 28630.429}",2025-08-30_16-25-38,cda-server-4,28.673728466033936,180,1756563938,10.157.146.4,False,914.8635594844818,1200
+31,-882.5311326199828,31,37200,{},-981.9046795866857,37200,0,945.0326428413391,-739.0026804527274,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 37200, 'default': {'kl': 0.018084479495882988, 'policy_loss': -0.1433933675289154, 'vf_loss': 51568.66015625, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': -0.03786463290452957, 'entropy': 18.041444778442383, 'cur_lr': 4.999999873689376e-05, 'total_loss': 51568.53515625}, 'load_time_ms': 0.647, 'num_steps_sampled': 37200, 'grad_time_ms': 578.234, 'update_time_ms': 2.322, 'sample_time_ms': 28741.012}",2025-08-30_16-26-09,cda-server-4,30.1690833568573,186,1756563969,10.157.146.4,False,945.0326428413391,1200
+32,-881.6046316829396,32,38400,{},-981.9046795866857,38400,0,974.4406771659851,-739.0026804527274,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 38400, 'default': {'kl': 0.01934289187192917, 'policy_loss': -0.14301855862140656, 'vf_loss': 50934.06640625, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': 0.08869722485542297, 'entropy': 18.035669326782227, 'cur_lr': 4.999999873689376e-05, 'total_loss': 50933.9453125}, 'load_time_ms': 0.624, 'num_steps_sampled': 38400, 'grad_time_ms': 576.794, 'update_time_ms': 2.379, 'sample_time_ms': 28493.109}",2025-08-30_16-26-38,cda-server-4,29.408034324645996,192,1756563998,10.157.146.4,False,974.4406771659851,1200
+33,-878.603431014317,33,39600,{},-981.9046795866857,39600,0,1003.1410448551178,-739.0026804527274,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 39600, 'default': {'kl': 0.018692830577492714, 'policy_loss': -0.13658860325813293, 'vf_loss': 46284.4296875, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': 0.014788176864385605, 'entropy': 18.037172317504883, 'cur_lr': 4.999999873689376e-05, 'total_loss': 46284.3125}, 'load_time_ms': 0.625, 'num_steps_sampled': 39600, 'grad_time_ms': 588.899, 'update_time_ms': 2.359, 'sample_time_ms': 28584.38}",2025-08-30_16-27-07,cda-server-4,28.70036768913269,198,1756564027,10.157.146.4,False,1003.1410448551178,1200
+34,-876.5911522896346,34,40800,{},-981.9046795866857,40800,0,1032.8066980838776,-739.0026804527274,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 40800, 'default': {'kl': 0.01756933704018593, 'policy_loss': -0.13986395299434662, 'vf_loss': 50280.14453125, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': -0.014708942733705044, 'entropy': 17.970590591430664, 'cur_lr': 4.999999873689376e-05, 'total_loss': 50280.0234375}, 'load_time_ms': 0.629, 'num_steps_sampled': 40800, 'grad_time_ms': 598.76, 'update_time_ms': 2.367, 'sample_time_ms': 28512.515}",2025-08-30_16-27-36,cda-server-4,29.665653228759766,204,1756564056,10.157.146.4,False,1032.8066980838776,1200
+35,-877.938759189584,35,42000,{},-981.9046795866857,42000,0,1061.0999927520752,-739.0026804527274,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 42000, 'default': {'kl': 0.018952852115035057, 'policy_loss': -0.13939183950424194, 'vf_loss': 52647.07421875, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': 0.026923788711428642, 'entropy': 17.993410110473633, 'cur_lr': 4.999999873689376e-05, 'total_loss': 52646.953125}, 'load_time_ms': 0.637, 'num_steps_sampled': 42000, 'grad_time_ms': 580.6, 'update_time_ms': 2.282, 'sample_time_ms': 28516.701}",2025-08-30_16-28-05,cda-server-4,28.293294668197632,210,1756564085,10.157.146.4,False,1061.0999927520752,1200
+36,-879.9127506989753,36,43200,{},-981.9046795866857,43200,0,1092.392107963562,-739.0026804527274,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 43200, 'default': {'kl': 0.017963387072086334, 'policy_loss': -0.14379927515983582, 'vf_loss': 47845.671875, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': -0.008248137310147285, 'entropy': 17.94219970703125, 'cur_lr': 4.999999873689376e-05, 'total_loss': 47845.546875}, 'load_time_ms': 0.667, 'num_steps_sampled': 43200, 'grad_time_ms': 581.678, 'update_time_ms': 2.299, 'sample_time_ms': 28669.362}",2025-08-30_16-28-36,cda-server-4,31.292115211486816,216,1756564116,10.157.146.4,False,1092.392107963562,1200
+37,-879.9155243075546,37,44400,{},-981.9046795866857,44400,0,1122.365995645523,-739.0026804527274,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 44400, 'default': {'kl': 0.016701312735676765, 'policy_loss': -0.1295337826013565, 'vf_loss': 52499.76171875, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': -0.030680980533361435, 'entropy': 17.97269630432129, 'cur_lr': 4.999999873689376e-05, 'total_loss': 52499.65234375}, 'load_time_ms': 0.665, 'num_steps_sampled': 44400, 'grad_time_ms': 602.029, 'update_time_ms': 2.296, 'sample_time_ms': 28766.656}",2025-08-30_16-29-06,cda-server-4,29.97388768196106,222,1756564146,10.157.146.4,False,1122.365995645523,1200
+38,-880.3047462039774,38,45600,{},-981.9046795866857,45600,0,1153.765305519104,-739.0026804527274,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 45600, 'default': {'kl': 0.01829145848751068, 'policy_loss': -0.1491517275571823, 'vf_loss': 46117.8828125, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': 0.029628276824951172, 'entropy': 17.941238403320312, 'cur_lr': 4.999999873689376e-05, 'total_loss': 46117.7578125}, 'load_time_ms': 0.674, 'num_steps_sampled': 45600, 'grad_time_ms': 632.107, 'update_time_ms': 2.361, 'sample_time_ms': 28963.774}",2025-08-30_16-29-37,cda-server-4,31.399309873580933,228,1756564177,10.157.146.4,False,1153.765305519104,1200
+39,-881.1011500175181,39,46800,{},-981.9046795866857,46800,0,1185.5621988773346,-739.0026804527274,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 46800, 'default': {'kl': 0.017761630937457085, 'policy_loss': -0.14278210699558258, 'vf_loss': 47039.58203125, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': 0.04119976982474327, 'entropy': 17.930877685546875, 'cur_lr': 4.999999873689376e-05, 'total_loss': 47039.4609375}, 'load_time_ms': 0.642, 'num_steps_sampled': 46800, 'grad_time_ms': 650.475, 'update_time_ms': 2.431, 'sample_time_ms': 29279.602}",2025-08-30_16-30-09,cda-server-4,31.79689335823059,234,1756564209,10.157.146.4,False,1185.5621988773346,1200
+40,-877.8779080136975,40,48000,{},-981.9046795866857,48000,0,1218.2464129924774,-739.0026804527274,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 48000, 'default': {'kl': 0.017717722803354263, 'policy_loss': -0.13905538618564606, 'vf_loss': 41759.984375, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': -0.04036077484488487, 'entropy': 17.872047424316406, 'cur_lr': 4.999999873689376e-05, 'total_loss': 41759.859375}, 'load_time_ms': 0.645, 'num_steps_sampled': 48000, 'grad_time_ms': 676.332, 'update_time_ms': 2.403, 'sample_time_ms': 29654.813}",2025-08-30_16-30-42,cda-server-4,32.68421411514282,240,1756564242,10.157.146.4,False,1218.2464129924774,1200
+41,-876.7328819215867,41,49200,{},-981.9046795866857,49200,0,1248.5635945796967,-739.0026804527274,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 49200, 'default': {'kl': 0.018270378932356834, 'policy_loss': -0.14956586062908173, 'vf_loss': 45079.6875, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': 0.03893605247139931, 'entropy': 17.83980941772461, 'cur_lr': 4.999999873689376e-05, 'total_loss': 45079.55859375}, 'load_time_ms': 0.655, 'num_steps_sampled': 49200, 'grad_time_ms': 694.928, 'update_time_ms': 2.425, 'sample_time_ms': 29651.003}",2025-08-30_16-31-12,cda-server-4,30.31718158721924,246,1756564272,10.157.146.4,False,1248.5635945796967,1200
+42,-872.9232533640676,42,50400,{},-981.9046795866857,50400,0,1276.7941181659698,-739.0026804527274,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 50400, 'default': {'kl': 0.019881827756762505, 'policy_loss': -0.15592987835407257, 'vf_loss': 43153.07421875, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': 0.08442696928977966, 'entropy': 17.85050392150879, 'cur_lr': 4.999999873689376e-05, 'total_loss': 43152.9375}, 'load_time_ms': 0.675, 'num_steps_sampled': 50400, 'grad_time_ms': 706.915, 'update_time_ms': 2.483, 'sample_time_ms': 29521.27}",2025-08-30_16-31-40,cda-server-4,28.230523586273193,252,1756564300,10.157.146.4,False,1276.7941181659698,1200
+43,-874.2120420832957,43,51600,{},-981.9046795866857,51600,0,1306.9174859523773,-739.0026804527274,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 51600, 'default': {'kl': 0.01702212542295456, 'policy_loss': -0.12855461239814758, 'vf_loss': 45992.21875, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': 0.10363467037677765, 'entropy': 17.86389923095703, 'cur_lr': 4.999999873689376e-05, 'total_loss': 45992.109375}, 'load_time_ms': 0.684, 'num_steps_sampled': 51600, 'grad_time_ms': 712.413, 'update_time_ms': 2.419, 'sample_time_ms': 29658.14}",2025-08-30_16-32-11,cda-server-4,30.12336778640747,258,1756564331,10.157.146.4,False,1306.9174859523773,1200
+44,-873.2286480208683,44,52800,{},-981.9046795866857,52800,0,1339.281741142273,-739.0026804527274,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 52800, 'default': {'kl': 0.01663035899400711, 'policy_loss': -0.14124959707260132, 'vf_loss': 43894.2265625, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': 0.052430927753448486, 'entropy': 17.83277130126953, 'cur_lr': 4.999999873689376e-05, 'total_loss': 43894.09765625}, 'load_time_ms': 0.679, 'num_steps_sampled': 52800, 'grad_time_ms': 714.798, 'update_time_ms': 2.427, 'sample_time_ms': 29925.571}",2025-08-30_16-32-43,cda-server-4,32.36425518989563,264,1756564363,10.157.146.4,False,1339.281741142273,1200
+45,-871.6812839898029,45,54000,{},-980.7142817065137,54000,0,1370.4770600795746,-739.0026804527274,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 54000, 'default': {'kl': 0.020550604909658432, 'policy_loss': -0.14845044910907745, 'vf_loss': 40583.3515625, 'cur_kl_coeff': 1.0125000476837158, 'vf_explained_var': 0.11585471034049988, 'entropy': 17.82061004638672, 'cur_lr': 4.999999873689376e-05, 'total_loss': 40583.22265625}, 'load_time_ms': 0.678, 'num_steps_sampled': 54000, 'grad_time_ms': 732.3, 'update_time_ms': 2.453, 'sample_time_ms': 30198.202}",2025-08-30_16-33-14,cda-server-4,31.195318937301636,270,1756564394,10.157.146.4,False,1370.4770600795746,1200
+46,-873.0181914191536,46,55200,{},-980.7142817065137,55200,0,1403.472193479538,-739.0026804527274,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 55200, 'default': {'kl': 0.014039422385394573, 'policy_loss': -0.12323704361915588, 'vf_loss': 46591.6484375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.05788230150938034, 'entropy': 17.82915496826172, 'cur_lr': 4.999999873689376e-05, 'total_loss': 46591.54296875}, 'load_time_ms': 0.675, 'num_steps_sampled': 55200, 'grad_time_ms': 718.84, 'update_time_ms': 2.478, 'sample_time_ms': 30382.009}",2025-08-30_16-33-47,cda-server-4,32.99513339996338,276,1756564427,10.157.146.4,False,1403.472193479538,1200
+47,-870.4475240353297,47,56400,{},-980.7142817065137,56400,0,1432.291677236557,-739.0026804527274,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 56400, 'default': {'kl': 0.014118300750851631, 'policy_loss': -0.12818722426891327, 'vf_loss': 42680.63671875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.08711125701665878, 'entropy': 17.826887130737305, 'cur_lr': 4.999999873689376e-05, 'total_loss': 42680.52734375}, 'load_time_ms': 0.683, 'num_steps_sampled': 56400, 'grad_time_ms': 714.137, 'update_time_ms': 2.452, 'sample_time_ms': 30271.272}",2025-08-30_16-34-16,cda-server-4,28.819483757019043,282,1756564456,10.157.146.4,False,1432.291677236557,1200
+48,-873.4834233882045,48,57600,{},-980.7142817065137,57600,0,1465.0501940250397,-745.3589641308753,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 57600, 'default': {'kl': 0.01543828658759594, 'policy_loss': -0.13110020756721497, 'vf_loss': 43348.83984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.07138708233833313, 'entropy': 17.79393768310547, 'cur_lr': 4.999999873689376e-05, 'total_loss': 43348.734375}, 'load_time_ms': 0.672, 'num_steps_sampled': 57600, 'grad_time_ms': 706.463, 'update_time_ms': 2.433, 'sample_time_ms': 30414.893}",2025-08-30_16-34-49,cda-server-4,32.758516788482666,288,1756564489,10.157.146.4,False,1465.0501940250397,1200
+49,-870.8398382924195,49,58800,{},-980.7142817065137,58800,0,1495.779944896698,-745.3589641308753,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 58800, 'default': {'kl': 0.013956185430288315, 'policy_loss': -0.154091477394104, 'vf_loss': 37142.296875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.08520456403493881, 'entropy': 17.66846466064453, 'cur_lr': 4.999999873689376e-05, 'total_loss': 37142.1640625}, 'load_time_ms': 0.672, 'num_steps_sampled': 58800, 'grad_time_ms': 700.998, 'update_time_ms': 2.364, 'sample_time_ms': 30313.715}",2025-08-30_16-35-19,cda-server-4,30.729750871658325,294,1756564519,10.157.146.4,False,1495.779944896698,1200
+50,-867.9102290166808,50,60000,{},-980.7142817065137,60000,0,1524.6201400756836,-745.3589641308753,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 60000, 'default': {'kl': 0.01347693707793951, 'policy_loss': -0.1280955672264099, 'vf_loss': 37589.09765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.1509552299976349, 'entropy': 17.655920028686523, 'cur_lr': 4.999999873689376e-05, 'total_loss': 37588.9921875}, 'load_time_ms': 0.672, 'num_steps_sampled': 60000, 'grad_time_ms': 698.324, 'update_time_ms': 2.327, 'sample_time_ms': 29932.076}",2025-08-30_16-35-48,cda-server-4,28.840195178985596,300,1756564548,10.157.146.4,False,1524.6201400756836,1200
+51,-863.6446738008552,51,61200,{},-980.7142817065137,61200,0,1553.3103561401367,-734.5583801101448,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 61200, 'default': {'kl': 0.013862375169992447, 'policy_loss': -0.1383589208126068, 'vf_loss': 37985.6171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': -0.014558832161128521, 'entropy': 17.688257217407227, 'cur_lr': 4.999999873689376e-05, 'total_loss': 37985.5}, 'load_time_ms': 0.693, 'num_steps_sampled': 61200, 'grad_time_ms': 698.951, 'update_time_ms': 2.396, 'sample_time_ms': 29768.687}",2025-08-30_16-36-17,cda-server-4,28.690216064453125,306,1756564577,10.157.146.4,False,1553.3103561401367,1200
+52,-862.6594682345001,52,62400,{},-980.7142817065137,62400,0,1582.5692274570465,-734.5583801101448,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 62400, 'default': {'kl': 0.014478879049420357, 'policy_loss': -0.1398439109325409, 'vf_loss': 38347.70703125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.12668204307556152, 'entropy': 17.718669891357422, 'cur_lr': 4.999999873689376e-05, 'total_loss': 38347.59375}, 'load_time_ms': 0.66, 'num_steps_sampled': 62400, 'grad_time_ms': 699.841, 'update_time_ms': 2.288, 'sample_time_ms': 29870.699}",2025-08-30_16-36-46,cda-server-4,29.25887131690979,312,1756564606,10.157.146.4,False,1582.5692274570465,1200
+53,-860.4159630217167,53,63600,{},-980.7142817065137,63600,0,1614.9603996276855,-734.5583801101448,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 63600, 'default': {'kl': 0.013204572722315788, 'policy_loss': -0.1328582763671875, 'vf_loss': 39180.96484375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': -0.057274844497442245, 'entropy': 17.65797233581543, 'cur_lr': 4.999999873689376e-05, 'total_loss': 39180.85546875}, 'load_time_ms': 0.656, 'num_steps_sampled': 63600, 'grad_time_ms': 683.121, 'update_time_ms': 2.388, 'sample_time_ms': 30114.08}",2025-08-30_16-37-19,cda-server-4,32.39117217063904,318,1756564639,10.157.146.4,False,1614.9603996276855,1200
+54,-858.8311938228085,54,64800,{},-973.4891781648787,64800,0,1647.5950586795807,-734.5583801101448,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 64800, 'default': {'kl': 0.013604514300823212, 'policy_loss': -0.12275266647338867, 'vf_loss': 40523.8046875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.12490443140268326, 'entropy': 17.665618896484375, 'cur_lr': 4.999999873689376e-05, 'total_loss': 40523.70703125}, 'load_time_ms': 0.666, 'num_steps_sampled': 64800, 'grad_time_ms': 681.658, 'update_time_ms': 2.344, 'sample_time_ms': 30142.581}",2025-08-30_16-37-51,cda-server-4,32.63465905189514,324,1756564671,10.157.146.4,False,1647.5950586795807,1200
+55,-860.0805065334434,55,66000,{},-973.4891781648787,66000,0,1677.6875941753387,-734.5583801101448,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 66000, 'default': {'kl': 0.015203320421278477, 'policy_loss': -0.13887649774551392, 'vf_loss': 38716.51953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.04813024774193764, 'entropy': 17.67608642578125, 'cur_lr': 4.999999873689376e-05, 'total_loss': 38716.40625}, 'load_time_ms': 0.659, 'num_steps_sampled': 66000, 'grad_time_ms': 682.455, 'update_time_ms': 2.345, 'sample_time_ms': 30031.578}",2025-08-30_16-38-22,cda-server-4,30.092535495758057,330,1756564702,10.157.146.4,False,1677.6875941753387,1200
+56,-855.9473553733114,56,67200,{},-973.4891781648787,67200,0,1708.580013513565,-734.5583801101448,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 67200, 'default': {'kl': 0.014552335254848003, 'policy_loss': -0.13128291070461273, 'vf_loss': 43111.78515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': -0.12474583089351654, 'entropy': 17.630048751831055, 'cur_lr': 4.999999873689376e-05, 'total_loss': 43111.6796875}, 'load_time_ms': 0.633, 'num_steps_sampled': 67200, 'grad_time_ms': 688.904, 'update_time_ms': 2.32, 'sample_time_ms': 29814.899}",2025-08-30_16-38-52,cda-server-4,30.89241933822632,336,1756564732,10.157.146.4,False,1708.580013513565,1200
+57,-858.0892645921703,57,68400,{},-973.4891781648787,68400,0,1740.972985982895,-734.5583801101448,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 68400, 'default': {'kl': 0.015110603533685207, 'policy_loss': -0.14376135170459747, 'vf_loss': 36028.796875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.11510767042636871, 'entropy': 17.649539947509766, 'cur_lr': 4.999999873689376e-05, 'total_loss': 36028.67578125}, 'load_time_ms': 0.634, 'num_steps_sampled': 68400, 'grad_time_ms': 667.658, 'update_time_ms': 2.31, 'sample_time_ms': 30193.54}",2025-08-30_16-39-25,cda-server-4,32.392972469329834,342,1756564765,10.157.146.4,False,1740.972985982895,1200
+58,-858.1568022808875,58,69600,{},-973.4891781648787,69600,0,1771.0329959392548,-734.5583801101448,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 69600, 'default': {'kl': 0.013966952450573444, 'policy_loss': -0.1389802098274231, 'vf_loss': 36557.93359375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.14060409367084503, 'entropy': 17.592824935913086, 'cur_lr': 4.999999873689376e-05, 'total_loss': 36557.81640625}, 'load_time_ms': 0.639, 'num_steps_sampled': 69600, 'grad_time_ms': 692.563, 'update_time_ms': 2.26, 'sample_time_ms': 29898.582}",2025-08-30_16-39-55,cda-server-4,30.060009956359863,348,1756564795,10.157.146.4,False,1771.0329959392548,1200
+59,-857.9586595937762,59,70800,{},-973.4891781648787,70800,0,1798.5630342960358,-734.5583801101448,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 70800, 'default': {'kl': 0.01400977186858654, 'policy_loss': -0.13010820746421814, 'vf_loss': 34705.82421875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.18688175082206726, 'entropy': 17.60047149658203, 'cur_lr': 4.999999873689376e-05, 'total_loss': 34705.71484375}, 'load_time_ms': 0.638, 'num_steps_sampled': 70800, 'grad_time_ms': 693.7, 'update_time_ms': 2.343, 'sample_time_ms': 29577.406}",2025-08-30_16-40-22,cda-server-4,27.530038356781006,354,1756564822,10.157.146.4,False,1798.5630342960358,1200
+60,-859.1027265937701,60,72000,{},-973.4891781648787,72000,0,1829.4130942821503,-734.5583801101448,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 72000, 'default': {'kl': 0.01362981740385294, 'policy_loss': -0.1288180947303772, 'vf_loss': 37832.64453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.09861123561859131, 'entropy': 17.563894271850586, 'cur_lr': 4.999999873689376e-05, 'total_loss': 37832.5390625}, 'load_time_ms': 0.638, 'num_steps_sampled': 72000, 'grad_time_ms': 692.143, 'update_time_ms': 2.388, 'sample_time_ms': 29779.884}",2025-08-30_16-40-53,cda-server-4,30.850059986114502,360,1756564853,10.157.146.4,False,1829.4130942821503,1200
+61,-858.6332326429327,61,73200,{},-973.4891781648787,73200,0,1858.199934720993,-734.5583801101448,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 73200, 'default': {'kl': 0.014063586480915546, 'policy_loss': -0.1449885219335556, 'vf_loss': 34977.52734375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.04882168769836426, 'entropy': 17.547128677368164, 'cur_lr': 4.999999873689376e-05, 'total_loss': 34977.40234375}, 'load_time_ms': 0.619, 'num_steps_sampled': 73200, 'grad_time_ms': 678.612, 'update_time_ms': 2.332, 'sample_time_ms': 29803.185}",2025-08-30_16-41-22,cda-server-4,28.786840438842773,366,1756564882,10.157.146.4,False,1858.199934720993,1200
+62,-856.6603985314991,62,74400,{},-973.4891781648787,74400,0,1887.9243314266205,-731.392137238432,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 74400, 'default': {'kl': 0.014774234965443611, 'policy_loss': -0.14910082519054413, 'vf_loss': 38674.7109375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': -0.05255056172609329, 'entropy': 17.605031967163086, 'cur_lr': 4.999999873689376e-05, 'total_loss': 38674.58203125}, 'load_time_ms': 0.625, 'num_steps_sampled': 74400, 'grad_time_ms': 668.336, 'update_time_ms': 2.328, 'sample_time_ms': 29860.066}",2025-08-30_16-41-52,cda-server-4,29.72439670562744,372,1756564912,10.157.146.4,False,1887.9243314266205,1200
+63,-853.4106823827258,63,75600,{},-968.1095941989413,75600,0,1916.6990644931793,-731.392137238432,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 75600, 'default': {'kl': 0.013897955417633057, 'policy_loss': -0.1318075805902481, 'vf_loss': 35908.421875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.1437988579273224, 'entropy': 17.49303436279297, 'cur_lr': 4.999999873689376e-05, 'total_loss': 35908.30859375}, 'load_time_ms': 0.626, 'num_steps_sampled': 75600, 'grad_time_ms': 678.481, 'update_time_ms': 2.242, 'sample_time_ms': 29488.409}",2025-08-30_16-42-21,cda-server-4,28.774733066558838,378,1756564941,10.157.146.4,False,1916.6990644931793,1200
+64,-851.3689011697483,64,76800,{},-968.1095941989413,76800,0,1946.5833642482758,-731.392137238432,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 76800, 'default': {'kl': 0.014843578450381756, 'policy_loss': -0.14710034430027008, 'vf_loss': 34969.99609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.026113709434866905, 'entropy': 17.5076847076416, 'cur_lr': 4.999999873689376e-05, 'total_loss': 34969.8671875}, 'load_time_ms': 0.628, 'num_steps_sampled': 76800, 'grad_time_ms': 683.168, 'update_time_ms': 2.229, 'sample_time_ms': 29208.813}",2025-08-30_16-42-51,cda-server-4,29.884299755096436,384,1756564971,10.157.146.4,False,1946.5833642482758,1200
+65,-851.5518896882724,65,78000,{},-968.1095941989413,78000,0,1978.9226565361023,-731.392137238432,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 78000, 'default': {'kl': 0.015238078311085701, 'policy_loss': -0.13867218792438507, 'vf_loss': 34641.9296875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.15812794864177704, 'entropy': 17.456039428710938, 'cur_lr': 4.999999873689376e-05, 'total_loss': 34641.8203125}, 'load_time_ms': 0.625, 'num_steps_sampled': 78000, 'grad_time_ms': 688.948, 'update_time_ms': 2.21, 'sample_time_ms': 29427.73}",2025-08-30_16-43-23,cda-server-4,32.33929228782654,390,1756565003,10.157.146.4,False,1978.9226565361023,1200
+66,-850.8313788831541,66,79200,{},-968.1095941989413,79200,0,2010.047566652298,-731.392137238432,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 79200, 'default': {'kl': 0.014476388692855835, 'policy_loss': -0.1393568217754364, 'vf_loss': 34715.4453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': -0.026421109214425087, 'entropy': 17.568944931030273, 'cur_lr': 4.999999873689376e-05, 'total_loss': 34715.328125}, 'load_time_ms': 0.622, 'num_steps_sampled': 79200, 'grad_time_ms': 694.951, 'update_time_ms': 2.221, 'sample_time_ms': 29445.002}",2025-08-30_16-43-54,cda-server-4,31.12491011619568,396,1756565034,10.157.146.4,False,2010.047566652298,1200
+67,-855.5893706313482,67,80400,{},-979.4741011877373,80400,0,2038.7406253814697,-731.392137238432,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 80400, 'default': {'kl': 0.014603018760681152, 'policy_loss': -0.14872290194034576, 'vf_loss': 30677.25390625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.2192346304655075, 'entropy': 17.46091651916504, 'cur_lr': 4.999999873689376e-05, 'total_loss': 30677.12890625}, 'load_time_ms': 0.615, 'num_steps_sampled': 80400, 'grad_time_ms': 712.216, 'update_time_ms': 2.225, 'sample_time_ms': 29057.751}",2025-08-30_16-44-23,cda-server-4,28.693058729171753,402,1756565063,10.157.146.4,False,2038.7406253814697,1200
+68,-856.349942656662,68,81600,{},-979.4741011877373,81600,0,2069.881936073303,-731.392137238432,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 81600, 'default': {'kl': 0.013102930039167404, 'policy_loss': -0.1249057948589325, 'vf_loss': 29721.77734375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.21419773995876312, 'entropy': 17.366506576538086, 'cur_lr': 4.999999873689376e-05, 'total_loss': 29721.673828125}, 'load_time_ms': 0.617, 'num_steps_sampled': 81600, 'grad_time_ms': 677.997, 'update_time_ms': 2.25, 'sample_time_ms': 29200.288}",2025-08-30_16-44-54,cda-server-4,31.141310691833496,408,1756565094,10.157.146.4,False,2069.881936073303,1200
+69,-855.3496082433437,69,82800,{},-979.4741011877373,82800,0,2101.4314074516296,-731.392137238432,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 82800, 'default': {'kl': 0.014523578807711601, 'policy_loss': -0.13659808039665222, 'vf_loss': 27467.4765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.2555531859397888, 'entropy': 17.27393341064453, 'cur_lr': 4.999999873689376e-05, 'total_loss': 27467.361328125}, 'load_time_ms': 0.624, 'num_steps_sampled': 82800, 'grad_time_ms': 676.449, 'update_time_ms': 2.194, 'sample_time_ms': 29603.767}",2025-08-30_16-45-25,cda-server-4,31.549471378326416,414,1756565125,10.157.146.4,False,2101.4314074516296,1200
+70,-857.1216939258547,70,84000,{},-979.4741011877373,84000,0,2131.8137855529785,-731.392137238432,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 84000, 'default': {'kl': 0.013939561322331429, 'policy_loss': -0.13034029304981232, 'vf_loss': 32343.5703125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.2333582192659378, 'entropy': 17.355751037597656, 'cur_lr': 4.999999873689376e-05, 'total_loss': 32343.4609375}, 'load_time_ms': 0.626, 'num_steps_sampled': 84000, 'grad_time_ms': 680.197, 'update_time_ms': 2.116, 'sample_time_ms': 29553.277}",2025-08-30_16-45-56,cda-server-4,30.382378101348877,420,1756565156,10.157.146.4,False,2131.8137855529785,1200
+71,-853.8851085967481,71,85200,{},-979.4741011877373,85200,0,2163.614848613739,-731.392137238432,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 85200, 'default': {'kl': 0.01454092189669609, 'policy_loss': -0.13469865918159485, 'vf_loss': 27587.908203125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.17435364425182343, 'entropy': 17.409528732299805, 'cur_lr': 4.999999873689376e-05, 'total_loss': 27587.79296875}, 'load_time_ms': 0.625, 'num_steps_sampled': 85200, 'grad_time_ms': 692.831, 'update_time_ms': 2.172, 'sample_time_ms': 29841.925}",2025-08-30_16-46-28,cda-server-4,31.801063060760498,426,1756565188,10.157.146.4,False,2163.614848613739,1200
+72,-852.1823415847849,72,86400,{},-979.4741011877373,86400,0,2195.4732875823975,-731.392137238432,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 86400, 'default': {'kl': 0.01374353189021349, 'policy_loss': -0.14909517765045166, 'vf_loss': 24670.984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.4960322976112366, 'entropy': 17.254638671875, 'cur_lr': 4.999999873689376e-05, 'total_loss': 24670.853515625}, 'load_time_ms': 0.636, 'num_steps_sampled': 86400, 'grad_time_ms': 728.655, 'update_time_ms': 2.217, 'sample_time_ms': 30019.368}",2025-08-30_16-47-00,cda-server-4,31.858438968658447,432,1756565220,10.157.146.4,False,2195.4732875823975,1200
+73,-852.0217552780788,73,87600,{},-979.4741011877373,87600,0,2224.561930656433,-731.392137238432,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 87600, 'default': {'kl': 0.013781542889773846, 'policy_loss': -0.12357684224843979, 'vf_loss': 25881.66015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.4124091863632202, 'entropy': 17.31092071533203, 'cur_lr': 4.999999873689376e-05, 'total_loss': 25881.556640625}, 'load_time_ms': 0.626, 'num_steps_sampled': 87600, 'grad_time_ms': 726.093, 'update_time_ms': 2.268, 'sample_time_ms': 30053.317}",2025-08-30_16-47-29,cda-server-4,29.088643074035645,438,1756565249,10.157.146.4,False,2224.561930656433,1200
+74,-850.1790707086999,74,88800,{},-979.4741011877373,88800,0,2254.534178495407,-731.392137238432,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 88800, 'default': {'kl': 0.013922701589763165, 'policy_loss': -0.1427626758813858, 'vf_loss': 26209.892578125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.2682536542415619, 'entropy': 17.25695037841797, 'cur_lr': 4.999999873689376e-05, 'total_loss': 26209.771484375}, 'load_time_ms': 0.613, 'num_steps_sampled': 88800, 'grad_time_ms': 714.073, 'update_time_ms': 2.252, 'sample_time_ms': 30074.078}",2025-08-30_16-47-59,cda-server-4,29.972247838974,444,1756565279,10.157.146.4,False,2254.534178495407,1200
+75,-849.5151609296171,75,90000,{},-979.4741011877373,90000,0,2284.6145927906036,-731.392137238432,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 90000, 'default': {'kl': 0.014644701033830643, 'policy_loss': -0.14247579872608185, 'vf_loss': 24245.0234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.40078699588775635, 'entropy': 17.262798309326172, 'cur_lr': 4.999999873689376e-05, 'total_loss': 24244.90234375}, 'load_time_ms': 0.61, 'num_steps_sampled': 90000, 'grad_time_ms': 696.902, 'update_time_ms': 2.273, 'sample_time_ms': 29865.276}",2025-08-30_16-48-29,cda-server-4,30.080414295196533,450,1756565309,10.157.146.4,False,2284.6145927906036,1200
+76,-846.2862135647503,76,91200,{},-979.4741011877373,91200,0,2316.1929540634155,-731.392137238432,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 91200, 'default': {'kl': 0.015267057344317436, 'policy_loss': -0.14221900701522827, 'vf_loss': 21864.33984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.4084622859954834, 'entropy': 17.29100227355957, 'cur_lr': 4.999999873689376e-05, 'total_loss': 21864.220703125}, 'load_time_ms': 0.609, 'num_steps_sampled': 91200, 'grad_time_ms': 669.911, 'update_time_ms': 2.296, 'sample_time_ms': 29937.554}",2025-08-30_16-49-00,cda-server-4,31.57836127281189,456,1756565340,10.157.146.4,False,2316.1929540634155,1200
+77,-841.9119524286945,77,92400,{},-981.4711297072583,92400,0,2348.612753391266,-731.392137238432,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 92400, 'default': {'kl': 0.014910014346241951, 'policy_loss': -0.15492962300777435, 'vf_loss': 21874.40234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.33035194873809814, 'entropy': 17.22534942626953, 'cur_lr': 4.999999873689376e-05, 'total_loss': 21874.271484375}, 'load_time_ms': 0.61, 'num_steps_sampled': 92400, 'grad_time_ms': 655.033, 'update_time_ms': 2.245, 'sample_time_ms': 30325.21}",2025-08-30_16-49-33,cda-server-4,32.41979932785034,462,1756565373,10.157.146.4,False,2348.612753391266,1200
+78,-844.63263748892,78,93600,{},-981.4711297072583,93600,0,2379.3245441913605,-732.6943492419538,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 93600, 'default': {'kl': 0.013486234471201897, 'policy_loss': -0.13311965763568878, 'vf_loss': 23452.3125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.424092173576355, 'entropy': 17.210290908813477, 'cur_lr': 4.999999873689376e-05, 'total_loss': 23452.19921875}, 'load_time_ms': 0.609, 'num_steps_sampled': 93600, 'grad_time_ms': 663.679, 'update_time_ms': 2.233, 'sample_time_ms': 30273.629}",2025-08-30_16-50-04,cda-server-4,30.711790800094604,468,1756565404,10.157.146.4,False,2379.3245441913605,1200
+79,-842.2319985311974,79,94800,{},-981.4711297072583,94800,0,2410.448032617569,-732.6943492419538,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 94800, 'default': {'kl': 0.014013934880495071, 'policy_loss': -0.14053601026535034, 'vf_loss': 20429.701171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.30881398916244507, 'entropy': 17.223379135131836, 'cur_lr': 4.999999873689376e-05, 'total_loss': 20429.58203125}, 'load_time_ms': 0.598, 'num_steps_sampled': 94800, 'grad_time_ms': 645.621, 'update_time_ms': 2.199, 'sample_time_ms': 30249.218}",2025-08-30_16-50-35,cda-server-4,31.123488426208496,474,1756565435,10.157.146.4,False,2410.448032617569,1200
+80,-840.7452938150574,80,96000,{},-981.4711297072583,96000,0,2441.772285938263,-732.6943492419538,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 96000, 'default': {'kl': 0.015268232673406601, 'policy_loss': -0.1516943871974945, 'vf_loss': 20859.603515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.25698861479759216, 'entropy': 17.201623916625977, 'cur_lr': 4.999999873689376e-05, 'total_loss': 20859.474609375}, 'load_time_ms': 0.632, 'num_steps_sampled': 96000, 'grad_time_ms': 615.52, 'update_time_ms': 2.204, 'sample_time_ms': 30373.506}",2025-08-30_16-51-06,cda-server-4,31.32425332069397,480,1756565466,10.157.146.4,False,2441.772285938263,1200
+81,-837.1563376474405,81,97200,{},-981.4711297072583,97200,0,2473.9159286022186,-709.5186385352666,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 97200, 'default': {'kl': 0.013509301468729973, 'policy_loss': -0.14114832878112793, 'vf_loss': 14499.99609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.4399718940258026, 'entropy': 17.26691246032715, 'cur_lr': 4.999999873689376e-05, 'total_loss': 14499.875}, 'load_time_ms': 0.617, 'num_steps_sampled': 97200, 'grad_time_ms': 613.163, 'update_time_ms': 2.143, 'sample_time_ms': 30410.228}",2025-08-30_16-51-38,cda-server-4,32.14364266395569,486,1756565498,10.157.146.4,False,2473.9159286022186,1200
+82,-835.842721401758,82,98400,{},-981.4711297072583,98400,0,2503.3499717712402,-709.5186385352666,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 98400, 'default': {'kl': 0.01514357328414917, 'policy_loss': -0.14084061980247498, 'vf_loss': 18627.978515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.28775227069854736, 'entropy': 17.240182876586914, 'cur_lr': 4.999999873689376e-05, 'total_loss': 18627.861328125}, 'load_time_ms': 0.601, 'num_steps_sampled': 98400, 'grad_time_ms': 579.237, 'update_time_ms': 2.121, 'sample_time_ms': 30201.791}",2025-08-30_16-52-08,cda-server-4,29.434043169021606,492,1756565528,10.157.146.4,False,2503.3499717712402,1200
+83,-834.4774667310745,83,99600,{},-981.4711297072583,99600,0,2534.879022359848,-709.5186385352666,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 99600, 'default': {'kl': 0.013973835855722427, 'policy_loss': -0.1484135240316391, 'vf_loss': 17378.8515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.31474387645721436, 'entropy': 17.216026306152344, 'cur_lr': 4.999999873689376e-05, 'total_loss': 17378.724609375}, 'load_time_ms': 0.61, 'num_steps_sampled': 99600, 'grad_time_ms': 601.91, 'update_time_ms': 2.103, 'sample_time_ms': 30423.053}",2025-08-30_16-52-39,cda-server-4,31.529050588607788,498,1756565559,10.157.146.4,False,2534.879022359848,1200
+84,-830.3279132683102,84,100800,{},-981.4711297072583,100800,0,2565.5534529685974,-709.5186385352666,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 100800, 'default': {'kl': 0.013125281780958176, 'policy_loss': -0.144551619887352, 'vf_loss': 18276.01171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.33386147022247314, 'entropy': 17.11829948425293, 'cur_lr': 4.999999873689376e-05, 'total_loss': 18275.88671875}, 'load_time_ms': 0.619, 'num_steps_sampled': 100800, 'grad_time_ms': 617.179, 'update_time_ms': 2.092, 'sample_time_ms': 30477.998}",2025-08-30_16-53-10,cda-server-4,30.67443060874939,504,1756565590,10.157.146.4,False,2565.5534529685974,1200
+85,-827.0621178141726,85,102000,{},-981.4711297072583,102000,0,2596.644282579422,-709.5186385352666,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 102000, 'default': {'kl': 0.01553522888571024, 'policy_loss': -0.15143774449825287, 'vf_loss': 13543.6123046875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.3382088840007782, 'entropy': 17.154464721679688, 'cur_lr': 4.999999873689376e-05, 'total_loss': 13543.484375}, 'load_time_ms': 0.627, 'num_steps_sampled': 102000, 'grad_time_ms': 634.321, 'update_time_ms': 2.119, 'sample_time_ms': 30561.896}",2025-08-30_16-53-41,cda-server-4,31.090829610824585,510,1756565621,10.157.146.4,False,2596.644282579422,1200
+86,-821.3719611766464,86,103200,{},-981.4711297072583,103200,0,2626.7579686641693,-709.5186385352666,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 103200, 'default': {'kl': 0.01364248525351286, 'policy_loss': -0.13285723328590393, 'vf_loss': 14223.8525390625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.40563857555389404, 'entropy': 17.123966217041016, 'cur_lr': 4.999999873689376e-05, 'total_loss': 14223.7392578125}, 'load_time_ms': 0.635, 'num_steps_sampled': 103200, 'grad_time_ms': 657.663, 'update_time_ms': 2.146, 'sample_time_ms': 30392.103}",2025-08-30_16-54-11,cda-server-4,30.113686084747314,516,1756565651,10.157.146.4,False,2626.7579686641693,1200
+87,-818.0310948645669,87,104400,{},-981.4711297072583,104400,0,2658.4986419677734,-709.5186385352666,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 104400, 'default': {'kl': 0.013563921675086021, 'policy_loss': -0.14048999547958374, 'vf_loss': 16259.2763671875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.4310189187526703, 'entropy': 17.12251853942871, 'cur_lr': 4.999999873689376e-05, 'total_loss': 16259.15625}, 'load_time_ms': 0.63, 'num_steps_sampled': 104400, 'grad_time_ms': 668.06, 'update_time_ms': 2.146, 'sample_time_ms': 30313.679}",2025-08-30_16-54-43,cda-server-4,31.740673303604126,522,1756565683,10.157.146.4,False,2658.4986419677734,1200
+88,-817.6204538958108,88,105600,{},-981.4711297072583,105600,0,2689.9201579093933,-709.5186385352666,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 105600, 'default': {'kl': 0.013793888501822948, 'policy_loss': -0.15002372860908508, 'vf_loss': 15819.111328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.29278141260147095, 'entropy': 17.072885513305664, 'cur_lr': 4.999999873689376e-05, 'total_loss': 15818.98046875}, 'load_time_ms': 0.635, 'num_steps_sampled': 105600, 'grad_time_ms': 661.985, 'update_time_ms': 2.18, 'sample_time_ms': 30390.675}",2025-08-30_16-55-14,cda-server-4,31.421515941619873,528,1756565714,10.157.146.4,False,2689.9201579093933,1200
+89,-817.7095986540329,89,106800,{},-981.4711297072583,106800,0,2716.335453748703,-709.5186385352666,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 106800, 'default': {'kl': 0.01422095950692892, 'policy_loss': -0.14408311247825623, 'vf_loss': 15421.296875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.4698730707168579, 'entropy': 16.928668975830078, 'cur_lr': 4.999999873689376e-05, 'total_loss': 15421.173828125}, 'load_time_ms': 0.643, 'num_steps_sampled': 106800, 'grad_time_ms': 681.247, 'update_time_ms': 2.255, 'sample_time_ms': 29900.473}",2025-08-30_16-55-41,cda-server-4,26.415295839309692,534,1756565741,10.157.146.4,False,2716.335453748703,1200
+90,-816.7952104280349,90,108000,{},-981.4711297072583,108000,0,2745.4208233356476,-709.5186385352666,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 108000, 'default': {'kl': 0.013728815130889416, 'policy_loss': -0.15147794783115387, 'vf_loss': 17394.6015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.24695968627929688, 'entropy': 16.91851806640625, 'cur_lr': 4.999999873689376e-05, 'total_loss': 17394.46875}, 'load_time_ms': 0.606, 'num_steps_sampled': 108000, 'grad_time_ms': 695.484, 'update_time_ms': 2.409, 'sample_time_ms': 29662.282}",2025-08-30_16-56-10,cda-server-4,29.08536958694458,540,1756565770,10.157.146.4,False,2745.4208233356476,1200
+91,-816.6712814426444,91,109200,{},-981.4711297072583,109200,0,2776.843770980835,-709.5186385352666,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 109200, 'default': {'kl': 0.014087576419115067, 'policy_loss': -0.14372506737709045, 'vf_loss': 16730.13671875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.32801198959350586, 'entropy': 16.899282455444336, 'cur_lr': 4.999999873689376e-05, 'total_loss': 16730.013671875}, 'load_time_ms': 0.616, 'num_steps_sampled': 109200, 'grad_time_ms': 669.901, 'update_time_ms': 2.381, 'sample_time_ms': 29615.849}",2025-08-30_16-56-41,cda-server-4,31.422947645187378,546,1756565801,10.157.146.4,False,2776.843770980835,1200
+92,-814.9635348072218,92,110400,{},-981.4711297072583,110400,0,2805.4438667297363,-709.5186385352666,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 110400, 'default': {'kl': 0.01234897505491972, 'policy_loss': -0.12987416982650757, 'vf_loss': 13649.0634765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.4770004451274872, 'entropy': 16.9301700592041, 'cur_lr': 4.999999873689376e-05, 'total_loss': 13648.951171875}, 'load_time_ms': 0.625, 'num_steps_sampled': 110400, 'grad_time_ms': 648.342, 'update_time_ms': 2.442, 'sample_time_ms': 29553.9}",2025-08-30_16-57-10,cda-server-4,28.600095748901367,552,1756565830,10.157.146.4,False,2805.4438667297363,1200
+93,-811.6805104637476,93,111600,{},-981.4711297072583,111600,0,2833.776356458664,-709.5186385352666,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 111600, 'default': {'kl': 0.012756765820086002, 'policy_loss': -0.13095258176326752, 'vf_loss': 12561.64453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.38474640250205994, 'entropy': 16.970788955688477, 'cur_lr': 4.999999873689376e-05, 'total_loss': 12561.533203125}, 'load_time_ms': 0.614, 'num_steps_sampled': 111600, 'grad_time_ms': 606.578, 'update_time_ms': 2.501, 'sample_time_ms': 29276.09}",2025-08-30_16-57-38,cda-server-4,28.332489728927612,558,1756565858,10.157.146.4,False,2833.776356458664,1200
+94,-810.3770983894157,94,112800,{},-972.9885477422378,112800,0,2864.0232479572296,-709.5186385352666,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 112800, 'default': {'kl': 0.014304311946034431, 'policy_loss': -0.14848308265209198, 'vf_loss': 14529.7353515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.5041902661323547, 'entropy': 16.886150360107422, 'cur_lr': 4.999999873689376e-05, 'total_loss': 14529.6083984375}, 'load_time_ms': 0.649, 'num_steps_sampled': 112800, 'grad_time_ms': 597.378, 'update_time_ms': 2.57, 'sample_time_ms': 29242.339}",2025-08-30_16-58-09,cda-server-4,30.246891498565674,564,1756565889,10.157.146.4,False,2864.0232479572296,1200
+95,-806.1651306790953,95,114000,{},-972.9885477422378,114000,0,2896.150473356247,-709.5186385352666,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 114000, 'default': {'kl': 0.014665831811726093, 'policy_loss': -0.15105798840522766, 'vf_loss': 11452.6787109375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.44039803743362427, 'entropy': 17.012924194335938, 'cur_lr': 4.999999873689376e-05, 'total_loss': 11452.5498046875}, 'load_time_ms': 0.644, 'num_steps_sampled': 114000, 'grad_time_ms': 587.479, 'update_time_ms': 2.557, 'sample_time_ms': 29355.887}",2025-08-30_16-58-41,cda-server-4,32.127225399017334,570,1756565921,10.157.146.4,False,2896.150473356247,1200
+96,-806.1032858626166,96,115200,{},-972.9885477422378,115200,0,2925.032495498657,-709.5186385352666,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 115200, 'default': {'kl': 0.012477223761379719, 'policy_loss': -0.12976548075675964, 'vf_loss': 14396.16015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.5557022094726562, 'entropy': 16.81788444519043, 'cur_lr': 4.999999873689376e-05, 'total_loss': 14396.048828125}, 'load_time_ms': 0.639, 'num_steps_sampled': 115200, 'grad_time_ms': 586.812, 'update_time_ms': 2.52, 'sample_time_ms': 29233.34}",2025-08-30_16-59-10,cda-server-4,28.88202214241028,576,1756565950,10.157.146.4,False,2925.032495498657,1200
+97,-805.1341460315631,97,116400,{},-956.7746711208466,116400,0,2955.241163253784,-709.5186385352666,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 116400, 'default': {'kl': 0.014392446726560593, 'policy_loss': -0.13610312342643738, 'vf_loss': 14873.626953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.4848285913467407, 'entropy': 16.98821449279785, 'cur_lr': 4.999999873689376e-05, 'total_loss': 14873.51171875}, 'load_time_ms': 0.644, 'num_steps_sampled': 116400, 'grad_time_ms': 591.628, 'update_time_ms': 2.56, 'sample_time_ms': 29075.262}",2025-08-30_16-59-40,cda-server-4,30.208667755126953,582,1756565980,10.157.146.4,False,2955.241163253784,1200
+98,-806.6937242460069,98,117600,{},-956.7746711208466,117600,0,2984.691062450409,-734.6280789274458,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 117600, 'default': {'kl': 0.01426281500607729, 'policy_loss': -0.1463281363248825, 'vf_loss': 11286.6953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.5545079112052917, 'entropy': 16.998075485229492, 'cur_lr': 4.999999873689376e-05, 'total_loss': 11286.5703125}, 'load_time_ms': 0.636, 'num_steps_sampled': 117600, 'grad_time_ms': 599.37, 'update_time_ms': 2.6, 'sample_time_ms': 28870.327}",2025-08-30_17-00-09,cda-server-4,29.449899196624756,588,1756566009,10.157.146.4,False,2984.691062450409,1200
+99,-804.9000048185404,99,118800,{},-956.7746711208466,118800,0,3017.6259446144104,-735.2771769088171,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 118800, 'default': {'kl': 0.014978764578700066, 'policy_loss': -0.1510799378156662, 'vf_loss': 10859.1005859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.4479990005493164, 'entropy': 16.912933349609375, 'cur_lr': 4.999999873689376e-05, 'total_loss': 10858.97265625}, 'load_time_ms': 0.644, 'num_steps_sampled': 118800, 'grad_time_ms': 598.563, 'update_time_ms': 2.629, 'sample_time_ms': 29523.036}",2025-08-30_17-00-42,cda-server-4,32.934882164001465,594,1756566042,10.157.146.4,False,3017.6259446144104,1200
+100,-802.1324748607968,100,120000,{},-956.7746711208466,120000,0,3046.842861890793,-723.1930965581467,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 120000, 'default': {'kl': 0.014140031300485134, 'policy_loss': -0.15178698301315308, 'vf_loss': 9591.646484375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.4281945824623108, 'entropy': 16.976089477539062, 'cur_lr': 4.999999873689376e-05, 'total_loss': 9591.517578125}, 'load_time_ms': 0.656, 'num_steps_sampled': 120000, 'grad_time_ms': 599.182, 'update_time_ms': 2.61, 'sample_time_ms': 29535.545}",2025-08-30_17-01-11,cda-server-4,29.216917276382446,600,1756566071,10.157.146.4,False,3046.842861890793,1200
+101,-802.2113008793233,101,121200,{},-956.7746711208466,121200,0,3075.557591199875,-723.1930965581467,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 121200, 'default': {'kl': 0.01472857128828764, 'policy_loss': -0.16406458616256714, 'vf_loss': 13978.259765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.624720573425293, 'entropy': 16.85585594177246, 'cur_lr': 4.999999873689376e-05, 'total_loss': 13978.1181640625}, 'load_time_ms': 0.656, 'num_steps_sampled': 121200, 'grad_time_ms': 620.152, 'update_time_ms': 2.609, 'sample_time_ms': 29243.739}",2025-08-30_17-01-40,cda-server-4,28.71472930908203,606,1756566100,10.157.146.4,False,3075.557591199875,1200
+102,-804.0742654427969,102,122400,{},-956.7746711208466,122400,0,3107.568733215332,-723.1930965581467,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 122400, 'default': {'kl': 0.01365965511649847, 'policy_loss': -0.13468213379383087, 'vf_loss': 11440.5341796875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.37099581956863403, 'entropy': 16.736997604370117, 'cur_lr': 4.999999873689376e-05, 'total_loss': 11440.419921875}, 'load_time_ms': 0.64, 'num_steps_sampled': 122400, 'grad_time_ms': 634.158, 'update_time_ms': 2.525, 'sample_time_ms': 29571.024}",2025-08-30_17-02-12,cda-server-4,32.01114201545715,612,1756566132,10.157.146.4,False,3107.568733215332,1200
+103,-803.0141896430576,103,123600,{},-956.7746711208466,123600,0,3135.95450758934,-714.3528765041708,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 123600, 'default': {'kl': 0.014599953778088093, 'policy_loss': -0.1530725657939911, 'vf_loss': 10350.9609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.4864889681339264, 'entropy': 16.836299896240234, 'cur_lr': 4.999999873689376e-05, 'total_loss': 10350.830078125}, 'load_time_ms': 0.642, 'num_steps_sampled': 123600, 'grad_time_ms': 655.571, 'update_time_ms': 2.501, 'sample_time_ms': 29554.912}",2025-08-30_17-02-41,cda-server-4,28.38577437400818,618,1756566161,10.157.146.4,False,3135.95450758934,1200
+104,-802.6589464604235,104,124800,{},-956.7746711208466,124800,0,3165.100104570389,-714.3528765041708,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 124800, 'default': {'kl': 0.0149539178237319, 'policy_loss': -0.15719527006149292, 'vf_loss': 10432.10546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.48206281661987305, 'entropy': 16.76079559326172, 'cur_lr': 4.999999873689376e-05, 'total_loss': 10431.9716796875}, 'load_time_ms': 0.607, 'num_steps_sampled': 124800, 'grad_time_ms': 642.123, 'update_time_ms': 2.42, 'sample_time_ms': 29458.443}",2025-08-30_17-03-10,cda-server-4,29.145596981048584,624,1756566190,10.157.146.4,False,3165.100104570389,1200
+105,-804.8055280082581,105,126000,{},-956.7746711208466,126000,0,3196.182101726532,-714.3528765041708,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 126000, 'default': {'kl': 0.014392412267625332, 'policy_loss': -0.13776642084121704, 'vf_loss': 12827.953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.38938790559768677, 'entropy': 16.59514045715332, 'cur_lr': 4.999999873689376e-05, 'total_loss': 12827.8369140625}, 'load_time_ms': 0.621, 'num_steps_sampled': 126000, 'grad_time_ms': 626.794, 'update_time_ms': 2.348, 'sample_time_ms': 29369.361}",2025-08-30_17-03-41,cda-server-4,31.08199715614319,630,1756566221,10.157.146.4,False,3196.182101726532,1200
+106,-805.5421817087341,106,127200,{},-956.7746711208466,127200,0,3225.8817439079285,-714.3528765041708,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 127200, 'default': {'kl': 0.014189387671649456, 'policy_loss': -0.1402725875377655, 'vf_loss': 16452.05859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.5155084133148193, 'entropy': 16.66063690185547, 'cur_lr': 4.999999873689376e-05, 'total_loss': 16451.94140625}, 'load_time_ms': 0.619, 'num_steps_sampled': 127200, 'grad_time_ms': 618.379, 'update_time_ms': 2.331, 'sample_time_ms': 29459.581}",2025-08-30_17-04-11,cda-server-4,29.699642181396484,636,1756566251,10.157.146.4,False,3225.8817439079285,1200
+107,-801.9475121428936,107,128400,{},-941.0205108405895,128400,0,3257.4702639579773,-714.3528765041708,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 128400, 'default': {'kl': 0.014838033355772495, 'policy_loss': -0.14512616395950317, 'vf_loss': 10543.9169921875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.41667574644088745, 'entropy': 16.534923553466797, 'cur_lr': 4.999999873689376e-05, 'total_loss': 10543.7939453125}, 'load_time_ms': 0.627, 'num_steps_sampled': 128400, 'grad_time_ms': 620.072, 'update_time_ms': 2.352, 'sample_time_ms': 29595.896}",2025-08-30_17-04-42,cda-server-4,31.588520050048828,642,1756566282,10.157.146.4,False,3257.4702639579773,1200
+108,-800.1212450622329,108,129600,{},-941.0205108405895,129600,0,3290.4084043502808,-714.3528765041708,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 129600, 'default': {'kl': 0.01346120610833168, 'policy_loss': -0.14614291489124298, 'vf_loss': 9050.16015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.3558026850223541, 'entropy': 16.55389404296875, 'cur_lr': 4.999999873689376e-05, 'total_loss': 9050.03515625}, 'load_time_ms': 0.631, 'num_steps_sampled': 129600, 'grad_time_ms': 609.508, 'update_time_ms': 2.292, 'sample_time_ms': 29955.356}",2025-08-30_17-05-15,cda-server-4,32.93814039230347,648,1756566315,10.157.146.4,False,3290.4084043502808,1200
+109,-803.1218750079913,109,130800,{},-941.0205108405895,130800,0,3320.6012518405914,-714.3528765041708,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 130800, 'default': {'kl': 0.013885698281228542, 'policy_loss': -0.14436471462249756, 'vf_loss': 12159.0078125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.5594943761825562, 'entropy': 16.483591079711914, 'cur_lr': 4.999999873689376e-05, 'total_loss': 12158.884765625}, 'load_time_ms': 0.616, 'num_steps_sampled': 130800, 'grad_time_ms': 588.354, 'update_time_ms': 2.203, 'sample_time_ms': 29702.446}",2025-08-30_17-05-45,cda-server-4,30.19284749031067,654,1756566345,10.157.146.4,False,3320.6012518405914,1200
+110,-802.0587914236443,110,132000,{},-941.0205108405895,132000,0,3352.8177075386047,-714.3528765041708,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 132000, 'default': {'kl': 0.013067735359072685, 'policy_loss': -0.14019609987735748, 'vf_loss': 7698.47314453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.5279508829116821, 'entropy': 16.609086990356445, 'cur_lr': 4.999999873689376e-05, 'total_loss': 7698.353515625}, 'load_time_ms': 0.606, 'num_steps_sampled': 132000, 'grad_time_ms': 590.12, 'update_time_ms': 2.07, 'sample_time_ms': 30000.693}",2025-08-30_17-06-18,cda-server-4,32.216455698013306,660,1756566378,10.157.146.4,False,3352.8177075386047,1200
+111,-801.7061204227591,111,133200,{},-941.0205108405895,133200,0,3385.4400746822357,-714.3528765041708,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 133200, 'default': {'kl': 0.014829148538410664, 'policy_loss': -0.14515455067157745, 'vf_loss': 9662.8974609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.3141554296016693, 'entropy': 16.409494400024414, 'cur_lr': 4.999999873689376e-05, 'total_loss': 9662.7744140625}, 'load_time_ms': 0.606, 'num_steps_sampled': 133200, 'grad_time_ms': 598.503, 'update_time_ms': 2.096, 'sample_time_ms': 30383.054}",2025-08-30_17-06-50,cda-server-4,32.62236714363098,666,1756566410,10.157.146.4,False,3385.4400746822357,1200
+112,-802.4774634864721,112,134400,{},-941.0205108405895,134400,0,3415.889870405197,-714.3528765041708,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 134400, 'default': {'kl': 0.013694499619305134, 'policy_loss': -0.14410744607448578, 'vf_loss': 9119.384765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.4918966293334961, 'entropy': 16.452709197998047, 'cur_lr': 4.999999873689376e-05, 'total_loss': 9119.2607421875}, 'load_time_ms': 0.617, 'num_steps_sampled': 134400, 'grad_time_ms': 609.481, 'update_time_ms': 2.156, 'sample_time_ms': 30215.834}",2025-08-30_17-07-21,cda-server-4,30.449795722961426,672,1756566441,10.157.146.4,False,3415.889870405197,1200
+113,-800.9142123870171,113,135600,{},-941.0205108405895,135600,0,3446.3877894878387,-714.3528765041708,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 135600, 'default': {'kl': 0.014658331871032715, 'policy_loss': -0.1632656455039978, 'vf_loss': 9009.9013671875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.3917551040649414, 'entropy': 16.5051212310791, 'cur_lr': 4.999999873689376e-05, 'total_loss': 9009.7607421875}, 'load_time_ms': 0.622, 'num_steps_sampled': 135600, 'grad_time_ms': 611.691, 'update_time_ms': 2.157, 'sample_time_ms': 30424.837}",2025-08-30_17-07-51,cda-server-4,30.4979190826416,678,1756566471,10.157.146.4,False,3446.3877894878387,1200
+114,-799.7743163160843,114,136800,{},-941.0205108405895,136800,0,3476.6721544265747,-714.3528765041708,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 136800, 'default': {'kl': 0.012617984786629677, 'policy_loss': -0.14563533663749695, 'vf_loss': 8892.4501953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.43376868963241577, 'entropy': 16.42209243774414, 'cur_lr': 4.999999873689376e-05, 'total_loss': 8892.32421875}, 'load_time_ms': 0.623, 'num_steps_sampled': 136800, 'grad_time_ms': 633.54, 'update_time_ms': 2.203, 'sample_time_ms': 30516.867}",2025-08-30_17-08-22,cda-server-4,30.284364938735962,684,1756566502,10.157.146.4,False,3476.6721544265747,1200
+115,-800.507048372607,115,138000,{},-941.0205108405895,138000,0,3508.609578371048,-714.3528765041708,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 138000, 'default': {'kl': 0.013602690771222115, 'policy_loss': -0.12575572729110718, 'vf_loss': 8238.498046875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.44295939803123474, 'entropy': 16.544864654541016, 'cur_lr': 4.999999873689376e-05, 'total_loss': 8238.3935546875}, 'load_time_ms': 0.608, 'num_steps_sampled': 138000, 'grad_time_ms': 656.859, 'update_time_ms': 2.227, 'sample_time_ms': 30579.08}",2025-08-30_17-08-53,cda-server-4,31.937423944473267,690,1756566533,10.157.146.4,False,3508.609578371048,1200
+116,-801.5588919659332,116,139200,{},-941.0205108405895,139200,0,3540.459550857544,-714.3528765041708,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 139200, 'default': {'kl': 0.013587859459221363, 'policy_loss': -0.1277955025434494, 'vf_loss': 8182.52587890625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.6010781526565552, 'entropy': 16.34548568725586, 'cur_lr': 4.999999873689376e-05, 'total_loss': 8182.41845703125}, 'load_time_ms': 0.615, 'num_steps_sampled': 139200, 'grad_time_ms': 670.482, 'update_time_ms': 2.206, 'sample_time_ms': 30780.502}",2025-08-30_17-09-25,cda-server-4,31.84997248649597,696,1756566565,10.157.146.4,False,3540.459550857544,1200
+117,-803.0134129718482,117,140400,{},-941.0205108405895,140400,0,3573.4452040195465,-714.3528765041708,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 140400, 'default': {'kl': 0.01276597660034895, 'policy_loss': -0.12072822451591492, 'vf_loss': 8749.8203125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.5165402889251709, 'entropy': 16.278173446655273, 'cur_lr': 4.999999873689376e-05, 'total_loss': 8749.7197265625}, 'load_time_ms': 0.601, 'num_steps_sampled': 140400, 'grad_time_ms': 664.953, 'update_time_ms': 2.149, 'sample_time_ms': 30925.83}",2025-08-30_17-09-58,cda-server-4,32.98565316200256,702,1756566598,10.157.146.4,False,3573.4452040195465,1200
+118,-803.6765021179499,118,141600,{},-941.0205108405895,141600,0,3603.71874332428,-714.3528765041708,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 141600, 'default': {'kl': 0.013848243281245232, 'policy_loss': -0.14234177768230438, 'vf_loss': 8726.51953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.6101889610290527, 'entropy': 16.346101760864258, 'cur_lr': 4.999999873689376e-05, 'total_loss': 8726.3984375}, 'load_time_ms': 0.61, 'num_steps_sampled': 141600, 'grad_time_ms': 661.565, 'update_time_ms': 2.148, 'sample_time_ms': 30662.726}",2025-08-30_17-10-29,cda-server-4,30.273539304733276,708,1756566629,10.157.146.4,False,3603.71874332428,1200
+119,-801.3309058327171,119,142800,{},-941.0205108405895,142800,0,3634.416325569153,-704.62935646587,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 142800, 'default': {'kl': 0.012904105708003044, 'policy_loss': -0.13530363142490387, 'vf_loss': 6537.634765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.5406391620635986, 'entropy': 16.287090301513672, 'cur_lr': 4.999999873689376e-05, 'total_loss': 6537.5185546875}, 'load_time_ms': 0.613, 'num_steps_sampled': 142800, 'grad_time_ms': 660.255, 'update_time_ms': 2.152, 'sample_time_ms': 30714.521}",2025-08-30_17-10-59,cda-server-4,30.697582244873047,714,1756566659,10.157.146.4,False,3634.416325569153,1200
+120,-803.4798626100238,120,144000,{},-941.0205108405895,144000,0,3665.368983030319,-704.62935646587,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 144000, 'default': {'kl': 0.014230172149837017, 'policy_loss': -0.13813476264476776, 'vf_loss': 8939.8349609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.47532811760902405, 'entropy': 16.330718994140625, 'cur_lr': 4.999999873689376e-05, 'total_loss': 8939.716796875}, 'load_time_ms': 0.607, 'num_steps_sampled': 144000, 'grad_time_ms': 650.251, 'update_time_ms': 2.195, 'sample_time_ms': 30598.213}",2025-08-30_17-11-30,cda-server-4,30.952657461166382,720,1756566690,10.157.146.4,False,3665.368983030319,1200
+121,-799.4967627312055,121,145200,{},-915.653534172743,145200,0,3698.559951543808,-702.9554605526179,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 145200, 'default': {'kl': 0.014873562380671501, 'policy_loss': -0.15488584339618683, 'vf_loss': 5843.7099609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.5443446636199951, 'entropy': 16.451066970825195, 'cur_lr': 4.999999873689376e-05, 'total_loss': 5843.57763671875}, 'load_time_ms': 0.599, 'num_steps_sampled': 145200, 'grad_time_ms': 638.988, 'update_time_ms': 2.175, 'sample_time_ms': 30666.389}",2025-08-30_17-12-04,cda-server-4,33.19096851348877,726,1756566724,10.157.146.4,False,3698.559951543808,1200
+122,-798.0125215497421,122,146400,{},-915.653534172743,146400,0,3727.822667360306,-702.9554605526179,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 146400, 'default': {'kl': 0.013492015190422535, 'policy_loss': -0.13200527429580688, 'vf_loss': 6512.224609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.621221661567688, 'entropy': 16.186304092407227, 'cur_lr': 4.999999873689376e-05, 'total_loss': 6512.11279296875}, 'load_time_ms': 0.605, 'num_steps_sampled': 146400, 'grad_time_ms': 633.067, 'update_time_ms': 2.144, 'sample_time_ms': 30553.634}",2025-08-30_17-12-33,cda-server-4,29.262715816497803,732,1756566753,10.157.146.4,False,3727.822667360306,1200
+123,-796.4634133721571,123,147600,{},-915.653534172743,147600,0,3758.171707868576,-697.9130988716843,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 147600, 'default': {'kl': 0.013203272596001625, 'policy_loss': -0.13792571425437927, 'vf_loss': 7689.978515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.5817861557006836, 'entropy': 16.336971282958984, 'cur_lr': 4.999999873689376e-05, 'total_loss': 7689.8603515625}, 'load_time_ms': 0.603, 'num_steps_sampled': 147600, 'grad_time_ms': 623.486, 'update_time_ms': 2.139, 'sample_time_ms': 30548.387}",2025-08-30_17-13-03,cda-server-4,30.349040508270264,738,1756566783,10.157.146.4,False,3758.171707868576,1200
+124,-795.1277166447617,124,148800,{},-915.653534172743,148800,0,3786.27650642395,-697.9130988716843,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 148800, 'default': {'kl': 0.014012758620083332, 'policy_loss': -0.1416754424571991, 'vf_loss': 6447.58837890625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.6963209509849548, 'entropy': 16.32210350036621, 'cur_lr': 4.999999873689376e-05, 'total_loss': 6447.4677734375}, 'load_time_ms': 0.607, 'num_steps_sampled': 148800, 'grad_time_ms': 612.559, 'update_time_ms': 2.154, 'sample_time_ms': 30341.27}",2025-08-30_17-13-31,cda-server-4,28.104798555374146,744,1756566811,10.157.146.4,False,3786.27650642395,1200
+125,-795.3697393904407,125,150000,{},-915.653534172743,150000,0,3815.324691057205,-697.9130988716843,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 150000, 'default': {'kl': 0.01513027772307396, 'policy_loss': -0.15601393580436707, 'vf_loss': 6261.80078125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.5887801051139832, 'entropy': 16.288414001464844, 'cur_lr': 4.999999873689376e-05, 'total_loss': 6261.66748046875}, 'load_time_ms': 0.618, 'num_steps_sampled': 150000, 'grad_time_ms': 592.542, 'update_time_ms': 2.214, 'sample_time_ms': 30072.259}",2025-08-30_17-14-00,cda-server-4,29.048184633255005,750,1756566840,10.157.146.4,False,3815.324691057205,1200
+126,-794.0965400800876,126,151200,{},-915.653534172743,151200,0,3846.9161064624786,-697.9130988716843,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 151200, 'default': {'kl': 0.01471856888383627, 'policy_loss': -0.15504804253578186, 'vf_loss': 6246.3671875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.6708298921585083, 'entropy': 16.24193000793457, 'cur_lr': 4.999999873689376e-05, 'total_loss': 6246.23486328125}, 'load_time_ms': 0.607, 'num_steps_sampled': 151200, 'grad_time_ms': 565.428, 'update_time_ms': 2.228, 'sample_time_ms': 30073.588}",2025-08-30_17-14-32,cda-server-4,31.591415405273438,756,1756566872,10.157.146.4,False,3846.9161064624786,1200
+127,-795.7481658572309,127,152400,{},-915.653534172743,152400,0,3878.9695818424225,-697.9130988716843,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 152400, 'default': {'kl': 0.012576091103255749, 'policy_loss': -0.14117108285427094, 'vf_loss': 6154.37646484375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.7062615156173706, 'entropy': 16.274436950683594, 'cur_lr': 4.999999873689376e-05, 'total_loss': 6154.25341796875}, 'load_time_ms': 0.608, 'num_steps_sampled': 152400, 'grad_time_ms': 553.124, 'update_time_ms': 2.257, 'sample_time_ms': 29992.65}",2025-08-30_17-15-04,cda-server-4,32.05347537994385,762,1756566904,10.157.146.4,False,3878.9695818424225,1200
+128,-794.1218949792132,128,153600,{},-915.653534172743,153600,0,3912.258667945862,-697.9130988716843,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 153600, 'default': {'kl': 0.013078860007226467, 'policy_loss': -0.1411914825439453, 'vf_loss': 5527.357421875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.6486455202102661, 'entropy': 16.27155303955078, 'cur_lr': 4.999999873689376e-05, 'total_loss': 5527.236328125}, 'load_time_ms': 0.593, 'num_steps_sampled': 153600, 'grad_time_ms': 561.996, 'update_time_ms': 2.295, 'sample_time_ms': 30285.387}",2025-08-30_17-15-37,cda-server-4,33.28908610343933,768,1756566937,10.157.146.4,False,3912.258667945862,1200
+129,-794.4350561002085,129,154800,{},-915.653534172743,154800,0,3941.5431699752808,-697.9130988716843,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 154800, 'default': {'kl': 0.013900283724069595, 'policy_loss': -0.14333657920360565, 'vf_loss': 5302.95556640625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.6205723285675049, 'entropy': 16.188894271850586, 'cur_lr': 4.999999873689376e-05, 'total_loss': 5302.8330078125}, 'load_time_ms': 0.591, 'num_steps_sampled': 154800, 'grad_time_ms': 561.811, 'update_time_ms': 2.319, 'sample_time_ms': 30144.283}",2025-08-30_17-16-07,cda-server-4,29.284502029418945,774,1756566967,10.157.146.4,False,3941.5431699752808,1200
+130,-793.6283453627173,130,156000,{},-915.653534172743,156000,0,3973.650799036026,-697.9130988716843,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 156000, 'default': {'kl': 0.01345739234238863, 'policy_loss': -0.131301611661911, 'vf_loss': 9937.6220703125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.5664384365081787, 'entropy': 16.1070556640625, 'cur_lr': 4.999999873689376e-05, 'total_loss': 9937.51171875}, 'load_time_ms': 0.593, 'num_steps_sampled': 156000, 'grad_time_ms': 557.48, 'update_time_ms': 2.253, 'sample_time_ms': 30264.206}",2025-08-30_17-16-39,cda-server-4,32.10762906074524,780,1756566999,10.157.146.4,False,3973.650799036026,1200
+131,-794.9429331785681,131,157200,{},-915.653534172743,157200,0,4006.4166378974915,-697.9130988716843,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 157200, 'default': {'kl': 0.013545895926654339, 'policy_loss': -0.13840129971504211, 'vf_loss': 5954.83935546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.6694700717926025, 'entropy': 16.129878997802734, 'cur_lr': 4.999999873689376e-05, 'total_loss': 5954.72119140625}, 'load_time_ms': 0.59, 'num_steps_sampled': 157200, 'grad_time_ms': 555.686, 'update_time_ms': 2.228, 'sample_time_ms': 30223.387}",2025-08-30_17-17-12,cda-server-4,32.765838861465454,786,1756567032,10.157.146.4,False,4006.4166378974915,1200
+132,-794.4686618853881,132,158400,{},-915.653534172743,158400,0,4036.5258893966675,-687.7247058696488,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 158400, 'default': {'kl': 0.013039689511060715, 'policy_loss': -0.13456332683563232, 'vf_loss': 4320.0498046875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.740790605545044, 'entropy': 16.021541595458984, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4319.935546875}, 'load_time_ms': 0.595, 'num_steps_sampled': 158400, 'grad_time_ms': 557.538, 'update_time_ms': 2.288, 'sample_time_ms': 30306.119}",2025-08-30_17-17-42,cda-server-4,30.109251499176025,792,1756567062,10.157.146.4,False,4036.5258893966675,1200
+133,-791.662864477053,133,159600,{},-915.653534172743,159600,0,4069.5915002822876,-687.7247058696488,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 159600, 'default': {'kl': 0.01409365888684988, 'policy_loss': -0.15350395441055298, 'vf_loss': 3990.93310546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.7045049667358398, 'entropy': 16.20172882080078, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3990.80078125}, 'load_time_ms': 0.613, 'num_steps_sampled': 159600, 'grad_time_ms': 571.972, 'update_time_ms': 2.285, 'sample_time_ms': 30563.222}",2025-08-30_17-18-15,cda-server-4,33.06561088562012,798,1756567095,10.157.146.4,False,4069.5915002822876,1200
+134,-788.2836196009646,134,160800,{},-893.5739099620158,160800,0,4099.858693122864,-687.7247058696488,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 160800, 'default': {'kl': 0.013675114139914513, 'policy_loss': -0.1444784551858902, 'vf_loss': 6474.00244140625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.41920310258865356, 'entropy': 16.02494239807129, 'cur_lr': 4.999999873689376e-05, 'total_loss': 6473.87841796875}, 'load_time_ms': 0.601, 'num_steps_sampled': 160800, 'grad_time_ms': 568.656, 'update_time_ms': 2.281, 'sample_time_ms': 30782.91}",2025-08-30_17-18-45,cda-server-4,30.267192840576172,804,1756567125,10.157.146.4,False,4099.858693122864,1200
+135,-788.9888900237046,135,162000,{},-895.0747660485674,162000,0,4131.387482881546,-687.7247058696488,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 162000, 'default': {'kl': 0.014877148903906345, 'policy_loss': -0.14997698366641998, 'vf_loss': 4990.3837890625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.7626512050628662, 'entropy': 16.1468563079834, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4990.255859375}, 'load_time_ms': 0.593, 'num_steps_sampled': 162000, 'grad_time_ms': 579.967, 'update_time_ms': 2.193, 'sample_time_ms': 31019.76}",2025-08-30_17-19-17,cda-server-4,31.52878975868225,810,1756567157,10.157.146.4,False,4131.387482881546,1200
+136,-789.274990223462,136,163200,{},-895.0747660485674,163200,0,4163.772831201553,-687.7247058696488,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 163200, 'default': {'kl': 0.013096383772790432, 'policy_loss': -0.13929623365402222, 'vf_loss': 4682.296875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.6442572474479675, 'entropy': 16.00442123413086, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4682.177734375}, 'load_time_ms': 0.599, 'num_steps_sampled': 163200, 'grad_time_ms': 604.568, 'update_time_ms': 2.216, 'sample_time_ms': 31074.441}",2025-08-30_17-19-49,cda-server-4,32.385348320007324,816,1756567189,10.157.146.4,False,4163.772831201553,1200
+137,-790.5155963703894,137,164400,{},-895.0747660485674,164400,0,4193.754025697708,-687.7247058696488,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 164400, 'default': {'kl': 0.013758416287600994, 'policy_loss': -0.1380118578672409, 'vf_loss': 5201.5478515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.667597770690918, 'entropy': 16.0682430267334, 'cur_lr': 4.999999873689376e-05, 'total_loss': 5201.4306640625}, 'load_time_ms': 0.615, 'num_steps_sampled': 164400, 'grad_time_ms': 609.951, 'update_time_ms': 2.239, 'sample_time_ms': 30861.804}",2025-08-30_17-20-19,cda-server-4,29.981194496154785,822,1756567219,10.157.146.4,False,4193.754025697708,1200
+138,-790.7016647888428,138,165600,{},-895.0747660485674,165600,0,4223.95081615448,-687.7247058696488,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 165600, 'default': {'kl': 0.013123426586389542, 'policy_loss': -0.12782256305217743, 'vf_loss': 4783.55517578125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.6816250085830688, 'entropy': 15.962108612060547, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4783.447265625}, 'load_time_ms': 0.619, 'num_steps_sampled': 165600, 'grad_time_ms': 612.322, 'update_time_ms': 2.207, 'sample_time_ms': 30550.112}",2025-08-30_17-20-49,cda-server-4,30.19679045677185,828,1756567249,10.157.146.4,False,4223.95081615448,1200
+139,-788.3785557568058,139,166800,{},-895.0747660485674,166800,0,4255.692442417145,-687.7247058696488,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 166800, 'default': {'kl': 0.013179545290768147, 'policy_loss': -0.14642997086048126, 'vf_loss': 3977.1640625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.7982923984527588, 'entropy': 16.09640121459961, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3977.037841796875}, 'load_time_ms': 0.63, 'num_steps_sampled': 166800, 'grad_time_ms': 633.89, 'update_time_ms': 2.226, 'sample_time_ms': 30774.096}",2025-08-30_17-21-21,cda-server-4,31.741626262664795,834,1756567281,10.157.146.4,False,4255.692442417145,1200
+140,-788.821228559337,140,168000,{},-895.0747660485674,168000,0,4285.820912122726,-687.7247058696488,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 168000, 'default': {'kl': 0.014116492122411728, 'policy_loss': -0.15166465938091278, 'vf_loss': 3447.130126953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.7101404070854187, 'entropy': 16.118877410888672, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3447.0}, 'load_time_ms': 0.643, 'num_steps_sampled': 168000, 'grad_time_ms': 657.603, 'update_time_ms': 2.256, 'sample_time_ms': 30552.389}",2025-08-30_17-21-51,cda-server-4,30.128469705581665,840,1756567311,10.157.146.4,False,4285.820912122726,1200
+141,-787.7396640331609,141,169200,{},-895.0747660485674,169200,0,4319.139651298523,-687.7247058696488,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 169200, 'default': {'kl': 0.013347822241485119, 'policy_loss': -0.14106327295303345, 'vf_loss': 4329.47802734375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.6682416796684265, 'entropy': 15.968070030212402, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4329.357421875}, 'load_time_ms': 0.645, 'num_steps_sampled': 169200, 'grad_time_ms': 657.796, 'update_time_ms': 2.298, 'sample_time_ms': 30607.541}",2025-08-30_17-22-24,cda-server-4,33.31873917579651,846,1756567344,10.157.146.4,False,4319.139651298523,1200
+142,-786.9439100136238,142,170400,{},-895.0747660485674,170400,0,4347.476767539978,-687.7247058696488,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 170400, 'default': {'kl': 0.012647945433855057, 'policy_loss': -0.1412762701511383, 'vf_loss': 3830.53515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.7981475591659546, 'entropy': 15.82872486114502, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3830.412841796875}, 'load_time_ms': 0.631, 'num_steps_sampled': 170400, 'grad_time_ms': 657.24, 'update_time_ms': 2.253, 'sample_time_ms': 30430.947}",2025-08-30_17-22-53,cda-server-4,28.337116241455078,852,1756567373,10.157.146.4,False,4347.476767539978,1200
+143,-786.4659191642729,143,171600,{},-895.0747660485674,171600,0,4374.414999246597,-687.7247058696488,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 171600, 'default': {'kl': 0.01402511727064848, 'policy_loss': -0.14084719121456146, 'vf_loss': 3590.265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.7483723163604736, 'entropy': 15.868170738220215, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3590.14599609375}, 'load_time_ms': 0.614, 'num_steps_sampled': 171600, 'grad_time_ms': 658.381, 'update_time_ms': 2.252, 'sample_time_ms': 29817.141}",2025-08-30_17-23-20,cda-server-4,26.938231706619263,858,1756567400,10.157.146.4,False,4374.414999246597,1200
+144,-784.4366211967478,144,172800,{},-895.0747660485674,172800,0,4405.804496765137,-687.7247058696488,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 172800, 'default': {'kl': 0.013455902226269245, 'policy_loss': -0.1415918469429016, 'vf_loss': 3909.319091796875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.7573978900909424, 'entropy': 15.961076736450195, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3909.197998046875}, 'load_time_ms': 0.616, 'num_steps_sampled': 172800, 'grad_time_ms': 674.687, 'update_time_ms': 2.207, 'sample_time_ms': 29912.989}",2025-08-30_17-23-51,cda-server-4,31.38949751853943,864,1756567431,10.157.146.4,False,4405.804496765137,1200
+145,-785.1525453003452,145,174000,{},-895.0747660485674,174000,0,4436.659413814545,-687.7247058696488,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 174000, 'default': {'kl': 0.01129129808396101, 'policy_loss': -0.1263919472694397, 'vf_loss': 3905.302490234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8019201755523682, 'entropy': 15.874411582946777, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3905.193115234375}, 'load_time_ms': 0.611, 'num_steps_sampled': 174000, 'grad_time_ms': 684.462, 'update_time_ms': 2.316, 'sample_time_ms': 29835.782}",2025-08-30_17-24-22,cda-server-4,30.85491704940796,870,1756567462,10.157.146.4,False,4436.659413814545,1200
+146,-784.965655326367,146,175200,{},-942.0806494659109,175200,0,4465.698798894882,-687.7247058696488,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 175200, 'default': {'kl': 0.012080499902367592, 'policy_loss': -0.1351131796836853, 'vf_loss': 4648.64501953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.7552443146705627, 'entropy': 15.906261444091797, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4648.5283203125}, 'load_time_ms': 0.612, 'num_steps_sampled': 175200, 'grad_time_ms': 687.983, 'update_time_ms': 2.323, 'sample_time_ms': 29497.652}",2025-08-30_17-24-51,cda-server-4,29.039385080337524,876,1756567491,10.157.146.4,False,4465.698798894882,1200
+147,-785.32053837269,147,176400,{},-942.0806494659109,176400,0,4495.804662942886,-687.7247058696488,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 176400, 'default': {'kl': 0.013524950481951237, 'policy_loss': -0.13196080923080444, 'vf_loss': 5197.810546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.7223164439201355, 'entropy': 15.92021369934082, 'cur_lr': 4.999999873689376e-05, 'total_loss': 5197.69873046875}, 'load_time_ms': 0.606, 'num_steps_sampled': 176400, 'grad_time_ms': 704.889, 'update_time_ms': 2.315, 'sample_time_ms': 29493.229}",2025-08-30_17-25-21,cda-server-4,30.10586404800415,882,1756567521,10.157.146.4,False,4495.804662942886,1200
+148,-784.4474592837131,148,177600,{},-942.0806494659109,177600,0,4527.186166763306,-687.7247058696488,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 177600, 'default': {'kl': 0.014631741680204868, 'policy_loss': -0.15100842714309692, 'vf_loss': 2793.6904296875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.847395658493042, 'entropy': 15.896501541137695, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2793.5615234375}, 'load_time_ms': 0.605, 'num_steps_sampled': 177600, 'grad_time_ms': 707.97, 'update_time_ms': 2.268, 'sample_time_ms': 29608.738}",2025-08-30_17-25-53,cda-server-4,31.38150382041931,888,1756567553,10.157.146.4,False,4527.186166763306,1200
+149,-786.7419126380845,149,178800,{},-942.0806494659109,178800,0,4559.307156801224,-692.0049929151292,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 178800, 'default': {'kl': 0.013234134763479233, 'policy_loss': -0.14331062138080597, 'vf_loss': 4118.02490234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.703839898109436, 'entropy': 15.994486808776855, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4117.90185546875}, 'load_time_ms': 0.596, 'num_steps_sampled': 178800, 'grad_time_ms': 715.093, 'update_time_ms': 2.222, 'sample_time_ms': 29639.674}",2025-08-30_17-26-25,cda-server-4,32.12099003791809,894,1756567585,10.157.146.4,False,4559.307156801224,1200
+150,-788.3955058303092,150,180000,{},-942.0806494659109,180000,0,4591.099524497986,-692.0049929151292,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 180000, 'default': {'kl': 0.013832640834152699, 'policy_loss': -0.15013043582439423, 'vf_loss': 3344.253662109375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.7478959560394287, 'entropy': 15.813724517822266, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3344.124267578125}, 'load_time_ms': 0.618, 'num_steps_sampled': 180000, 'grad_time_ms': 707.556, 'update_time_ms': 2.293, 'sample_time_ms': 29813.442}",2025-08-30_17-26-57,cda-server-4,31.792367696762085,900,1756567617,10.157.146.4,False,4591.099524497986,1200
+151,-790.0498817146789,151,181200,{},-942.0806494659109,181200,0,4619.305025339127,-690.4132307793062,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 181200, 'default': {'kl': 0.015015706419944763, 'policy_loss': -0.1512027084827423, 'vf_loss': 4015.411376953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.6973390579223633, 'entropy': 15.827632904052734, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4015.283447265625}, 'load_time_ms': 0.618, 'num_steps_sampled': 181200, 'grad_time_ms': 709.429, 'update_time_ms': 2.282, 'sample_time_ms': 29300.227}",2025-08-30_17-27-25,cda-server-4,28.205500841140747,906,1756567645,10.157.146.4,False,4619.305025339127,1200
+152,-791.0539519233416,152,182400,{},-942.0806494659109,182400,0,4648.879606246948,-690.4132307793062,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 182400, 'default': {'kl': 0.013339626602828503, 'policy_loss': -0.1445232778787613, 'vf_loss': 2935.977294921875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8060896396636963, 'entropy': 15.723933219909668, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2935.85302734375}, 'load_time_ms': 0.647, 'num_steps_sampled': 182400, 'grad_time_ms': 710.73, 'update_time_ms': 2.281, 'sample_time_ms': 29422.573}",2025-08-30_17-27-54,cda-server-4,29.574580907821655,912,1756567674,10.157.146.4,False,4648.879606246948,1200
+153,-789.7414951006654,153,183600,{},-942.0806494659109,183600,0,4679.70893907547,-690.4132307793062,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 183600, 'default': {'kl': 0.012936671264469624, 'policy_loss': -0.14605844020843506, 'vf_loss': 4274.90625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.848870575428009, 'entropy': 15.764448165893555, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4274.779296875}, 'load_time_ms': 0.65, 'num_steps_sampled': 183600, 'grad_time_ms': 696.799, 'update_time_ms': 2.29, 'sample_time_ms': 29825.619}",2025-08-30_17-28-25,cda-server-4,30.82933282852173,918,1756567705,10.157.146.4,False,4679.70893907547,1200
+154,-788.2838892402881,154,184800,{},-942.0806494659109,184800,0,4709.309748888016,-690.4132307793062,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 184800, 'default': {'kl': 0.01346661988645792, 'policy_loss': -0.1493275910615921, 'vf_loss': 2467.13623046875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8089322447776794, 'entropy': 15.80008316040039, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2467.0078125}, 'load_time_ms': 0.655, 'num_steps_sampled': 184800, 'grad_time_ms': 682.289, 'update_time_ms': 2.353, 'sample_time_ms': 29661.161}",2025-08-30_17-28-55,cda-server-4,29.600809812545776,924,1756567735,10.157.146.4,False,4709.309748888016,1200
+155,-787.7879615426639,155,186000,{},-942.0806494659109,186000,0,4738.398552656174,-690.4132307793062,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 186000, 'default': {'kl': 0.013568048365414143, 'policy_loss': -0.1491881161928177, 'vf_loss': 2826.37158203125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.7523906230926514, 'entropy': 15.726811408996582, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2826.2431640625}, 'load_time_ms': 0.663, 'num_steps_sampled': 186000, 'grad_time_ms': 672.116, 'update_time_ms': 2.342, 'sample_time_ms': 29494.681}",2025-08-30_17-29-24,cda-server-4,29.08880376815796,930,1756567764,10.157.146.4,False,4738.398552656174,1200
+156,-788.7802836219666,156,187200,{},-942.0806494659109,187200,0,4769.616274356842,-690.4132307793062,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 187200, 'default': {'kl': 0.012415886856615543, 'policy_loss': -0.13492567837238312, 'vf_loss': 2365.87451171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8510298132896423, 'entropy': 15.765284538269043, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2365.7578125}, 'load_time_ms': 0.667, 'num_steps_sampled': 187200, 'grad_time_ms': 658.529, 'update_time_ms': 2.311, 'sample_time_ms': 29726.137}",2025-08-30_17-29-55,cda-server-4,31.217721700668335,936,1756567795,10.157.146.4,False,4769.616274356842,1200
+157,-789.7243963831236,157,188400,{},-942.0806494659109,188400,0,4800.127503871918,-690.4132307793062,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 188400, 'default': {'kl': 0.014926631934940815, 'policy_loss': -0.15396234393119812, 'vf_loss': 2560.481689453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8353294134140015, 'entropy': 15.691633224487305, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2560.350341796875}, 'load_time_ms': 0.662, 'num_steps_sampled': 188400, 'grad_time_ms': 654.713, 'update_time_ms': 2.331, 'sample_time_ms': 29770.43}",2025-08-30_17-30-26,cda-server-4,30.511229515075684,942,1756567826,10.157.146.4,False,4800.127503871918,1200
+158,-791.8125840867027,158,189600,{},-948.0526115049018,189600,0,4831.217490196228,-690.4132307793062,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 189600, 'default': {'kl': 0.014585118740797043, 'policy_loss': -0.15397021174430847, 'vf_loss': 3247.25439453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.7279195785522461, 'entropy': 15.718117713928223, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3247.122314453125}, 'load_time_ms': 0.665, 'num_steps_sampled': 189600, 'grad_time_ms': 661.1, 'update_time_ms': 2.404, 'sample_time_ms': 29734.857}",2025-08-30_17-30-57,cda-server-4,31.089986324310303,948,1756567857,10.157.146.4,False,4831.217490196228,1200
+159,-789.3295583500731,159,190800,{},-948.0526115049018,190800,0,4861.167252063751,-690.4132307793062,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 190800, 'default': {'kl': 0.013656501658260822, 'policy_loss': -0.1407003551721573, 'vf_loss': 2781.33837890625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8072513937950134, 'entropy': 15.682517051696777, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2781.218505859375}, 'load_time_ms': 0.672, 'num_steps_sampled': 190800, 'grad_time_ms': 656.256, 'update_time_ms': 2.415, 'sample_time_ms': 29522.585}",2025-08-30_17-31-27,cda-server-4,29.949761867523193,954,1756567887,10.157.146.4,False,4861.167252063751,1200
+160,-790.156313288813,160,192000,{},-948.0526115049018,192000,0,4888.81346988678,-690.4132307793062,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 192000, 'default': {'kl': 0.013592400588095188, 'policy_loss': -0.14127399027347565, 'vf_loss': 2305.095947265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.794750452041626, 'entropy': 15.7242431640625, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2304.9755859375}, 'load_time_ms': 0.637, 'num_steps_sampled': 192000, 'grad_time_ms': 664.51, 'update_time_ms': 2.343, 'sample_time_ms': 29099.86}",2025-08-30_17-31-54,cda-server-4,27.646217823028564,960,1756567914,10.157.146.4,False,4888.81346988678,1200
+161,-788.1750442547678,161,193200,{},-948.0526115049018,193200,0,4919.07203578949,-690.4132307793062,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 193200, 'default': {'kl': 0.013927120715379715, 'policy_loss': -0.14989537000656128, 'vf_loss': 2184.9443359375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.812926709651947, 'entropy': 15.67266845703125, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2184.81591796875}, 'load_time_ms': 0.636, 'num_steps_sampled': 193200, 'grad_time_ms': 670.72, 'update_time_ms': 2.572, 'sample_time_ms': 29298.728}",2025-08-30_17-32-25,cda-server-4,30.25856590270996,966,1756567945,10.157.146.4,False,4919.07203578949,1200
+162,-787.7121788186977,162,194400,{},-948.0526115049018,194400,0,4947.914361715317,-690.4132307793062,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 194400, 'default': {'kl': 0.01222043577581644, 'policy_loss': -0.14113381505012512, 'vf_loss': 3239.754150390625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.7005748748779297, 'entropy': 15.694619178771973, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3239.631591796875}, 'load_time_ms': 0.612, 'num_steps_sampled': 194400, 'grad_time_ms': 667.599, 'update_time_ms': 2.633, 'sample_time_ms': 29228.675}",2025-08-30_17-32-54,cda-server-4,28.842325925827026,972,1756567974,10.157.146.4,False,4947.914361715317,1200
+163,-788.4281631671511,163,195600,{},-948.0526115049018,195600,0,4978.404206991196,-690.4132307793062,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 195600, 'default': {'kl': 0.013386095874011517, 'policy_loss': -0.16112661361694336, 'vf_loss': 1954.2764892578125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8936374187469482, 'entropy': 15.64023494720459, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1954.1358642578125}, 'load_time_ms': 0.608, 'num_steps_sampled': 195600, 'grad_time_ms': 672.836, 'update_time_ms': 2.592, 'sample_time_ms': 29189.504}",2025-08-30_17-33-24,cda-server-4,30.489845275878906,978,1756568004,10.157.146.4,False,4978.404206991196,1200
+164,-790.4251576118611,164,196800,{},-948.0526115049018,196800,0,5006.62023639679,-690.4132307793062,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 196800, 'default': {'kl': 0.013673605397343636, 'policy_loss': -0.15216781198978424, 'vf_loss': 2950.50537109375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.837608277797699, 'entropy': 15.67989444732666, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2950.373779296875}, 'load_time_ms': 0.605, 'num_steps_sampled': 196800, 'grad_time_ms': 676.488, 'update_time_ms': 2.566, 'sample_time_ms': 29047.379}",2025-08-30_17-33-52,cda-server-4,28.216029405593872,984,1756568032,10.157.146.4,False,5006.62023639679,1200
+165,-790.361652760224,165,198000,{},-948.0526115049018,198000,0,5040.161801099777,-690.4132307793062,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 198000, 'default': {'kl': 0.01328043919056654, 'policy_loss': -0.15453507006168365, 'vf_loss': 1349.0455322265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8818728923797607, 'entropy': 15.64729118347168, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1348.9112548828125}, 'load_time_ms': 0.598, 'num_steps_sampled': 198000, 'grad_time_ms': 670.689, 'update_time_ms': 2.537, 'sample_time_ms': 29498.445}",2025-08-30_17-34-26,cda-server-4,33.54156470298767,990,1756568066,10.157.146.4,False,5040.161801099777,1200
+166,-788.1829429621688,166,199200,{},-948.0526115049018,199200,0,5071.038853406906,-690.4132307793062,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 199200, 'default': {'kl': 0.011439521797001362, 'policy_loss': -0.12755976617336273, 'vf_loss': 2935.47802734375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8630006313323975, 'entropy': 15.706525802612305, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2935.36767578125}, 'load_time_ms': 0.586, 'num_steps_sampled': 199200, 'grad_time_ms': 670.813, 'update_time_ms': 2.564, 'sample_time_ms': 29464.257}",2025-08-30_17-34-57,cda-server-4,30.877052307128906,996,1756568097,10.157.146.4,False,5071.038853406906,1200
+167,-787.581657234461,167,200400,{},-948.0526115049018,200400,0,5101.029596328735,-690.4132307793062,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 200400, 'default': {'kl': 0.012279270216822624, 'policy_loss': -0.1268455535173416, 'vf_loss': 2888.968505859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.6985438466072083, 'entropy': 15.594942092895508, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2888.8603515625}, 'load_time_ms': 0.622, 'num_steps_sampled': 200400, 'grad_time_ms': 674.937, 'update_time_ms': 2.553, 'sample_time_ms': 29407.964}",2025-08-30_17-35-27,cda-server-4,29.990742921829224,1002,1756568127,10.157.146.4,False,5101.029596328735,1200
+168,-786.3101609295647,168,201600,{},-948.0526115049018,201600,0,5133.630520820618,-697.5845435100812,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 201600, 'default': {'kl': 0.01490350067615509, 'policy_loss': -0.15232224762439728, 'vf_loss': 2569.893310546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8086826801300049, 'entropy': 15.548697471618652, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2569.763671875}, 'load_time_ms': 0.616, 'num_steps_sampled': 201600, 'grad_time_ms': 667.633, 'update_time_ms': 2.507, 'sample_time_ms': 29566.343}",2025-08-30_17-35-59,cda-server-4,32.600924491882324,1008,1756568159,10.157.146.4,False,5133.630520820618,1200
+169,-784.0536117295991,169,202800,{},-948.0526115049018,202800,0,5164.407820940018,-697.5845435100812,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 202800, 'default': {'kl': 0.013013187795877457, 'policy_loss': -0.14936396479606628, 'vf_loss': 2338.89208984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.7608562111854553, 'entropy': 15.324057579040527, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2338.7626953125}, 'load_time_ms': 0.615, 'num_steps_sampled': 202800, 'grad_time_ms': 669.363, 'update_time_ms': 2.575, 'sample_time_ms': 29647.241}",2025-08-30_17-36-30,cda-server-4,30.777300119400024,1014,1756568190,10.157.146.4,False,5164.407820940018,1200
+170,-783.8332764902826,170,204000,{},-948.0526115049018,204000,0,5191.704406499863,-697.5845435100812,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 204000, 'default': {'kl': 0.013320892117917538, 'policy_loss': -0.15623539686203003, 'vf_loss': 1582.755615234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9007766246795654, 'entropy': 15.493671417236328, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1582.61962890625}, 'load_time_ms': 0.627, 'num_steps_sampled': 204000, 'grad_time_ms': 672.574, 'update_time_ms': 2.605, 'sample_time_ms': 29608.995}",2025-08-30_17-36-57,cda-server-4,27.29658555984497,1020,1756568217,10.157.146.4,False,5191.704406499863,1200
+171,-784.3062225927903,171,205200,{},-948.0526115049018,205200,0,5222.406142950058,-697.5845435100812,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 205200, 'default': {'kl': 0.013153918087482452, 'policy_loss': -0.1358332484960556, 'vf_loss': 2898.4208984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.7347643971443176, 'entropy': 15.37924575805664, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2898.304931640625}, 'load_time_ms': 0.623, 'num_steps_sampled': 205200, 'grad_time_ms': 676.705, 'update_time_ms': 2.479, 'sample_time_ms': 29649.325}",2025-08-30_17-37-28,cda-server-4,30.701736450195312,1026,1756568248,10.157.146.4,False,5222.406142950058,1200
+172,-784.6754681182377,172,206400,{},-948.0526115049018,206400,0,5254.546874046326,-695.5904441133008,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 206400, 'default': {'kl': 0.012361343018710613, 'policy_loss': -0.12870976328849792, 'vf_loss': 2187.7880859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8532736301422119, 'entropy': 15.39278793334961, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2187.67822265625}, 'load_time_ms': 0.622, 'num_steps_sampled': 206400, 'grad_time_ms': 687.046, 'update_time_ms': 2.46, 'sample_time_ms': 29968.842}",2025-08-30_17-38-00,cda-server-4,32.1407310962677,1032,1756568280,10.157.146.4,False,5254.546874046326,1200
+173,-783.2549772248411,173,207600,{},-948.0526115049018,207600,0,5283.395123958588,-695.5904441133008,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 207600, 'default': {'kl': 0.012031110003590584, 'policy_loss': -0.13145048916339874, 'vf_loss': 8501.68359375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.50377357006073, 'entropy': 15.483745574951172, 'cur_lr': 4.999999873689376e-05, 'total_loss': 8501.5703125}, 'load_time_ms': 0.621, 'num_steps_sampled': 207600, 'grad_time_ms': 674.722, 'update_time_ms': 2.465, 'sample_time_ms': 29817.057}",2025-08-30_17-38-29,cda-server-4,28.848249912261963,1038,1756568309,10.157.146.4,False,5283.395123958588,1200
+174,-780.6259012848886,174,208800,{},-916.0618769621652,208800,0,5314.406693220139,-695.5904441133008,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 208800, 'default': {'kl': 0.013255160301923752, 'policy_loss': -0.13446107506752014, 'vf_loss': 2775.015380859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.7263634204864502, 'entropy': 15.301716804504395, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2774.901123046875}, 'load_time_ms': 0.621, 'num_steps_sampled': 208800, 'grad_time_ms': 653.994, 'update_time_ms': 2.414, 'sample_time_ms': 30117.545}",2025-08-30_17-39-00,cda-server-4,31.011569261550903,1044,1756568340,10.157.146.4,False,5314.406693220139,1200
+175,-780.8356085255218,175,210000,{},-916.0618769621652,210000,0,5345.473089933395,-695.5904441133008,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 210000, 'default': {'kl': 0.01382536068558693, 'policy_loss': -0.13491034507751465, 'vf_loss': 4795.05029296875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.5996000170707703, 'entropy': 15.457161903381348, 'cur_lr': 4.999999873689376e-05, 'total_loss': 4794.9365234375}, 'load_time_ms': 0.633, 'num_steps_sampled': 210000, 'grad_time_ms': 639.492, 'update_time_ms': 2.347, 'sample_time_ms': 29884.6}",2025-08-30_17-39-31,cda-server-4,31.066396713256836,1050,1756568371,10.157.146.4,False,5345.473089933395,1200
+176,-782.8908616060561,176,211200,{},-916.0618769621652,211200,0,5376.837910890579,-695.5904441133008,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 211200, 'default': {'kl': 0.013009266927838326, 'policy_loss': -0.142803356051445, 'vf_loss': 1827.50439453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8342416286468506, 'entropy': 15.396699905395508, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1827.38134765625}, 'load_time_ms': 0.634, 'num_steps_sampled': 211200, 'grad_time_ms': 634.192, 'update_time_ms': 2.368, 'sample_time_ms': 29938.665}",2025-08-30_17-40-03,cda-server-4,31.364820957183838,1056,1756568403,10.157.146.4,False,5376.837910890579,1200
+177,-783.8785178256221,177,212400,{},-916.0618769621652,212400,0,5408.932446718216,-695.5904441133008,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 212400, 'default': {'kl': 0.014546907506883144, 'policy_loss': -0.14908906817436218, 'vf_loss': 1849.6595458984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8550441265106201, 'entropy': 15.51331615447998, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1849.5325927734375}, 'load_time_ms': 0.593, 'num_steps_sampled': 212400, 'grad_time_ms': 620.179, 'update_time_ms': 2.358, 'sample_time_ms': 30163.217}",2025-08-30_17-40-35,cda-server-4,32.09453582763672,1062,1756568435,10.157.146.4,False,5408.932446718216,1200
+178,-781.8750929105644,178,213600,{},-916.0618769621652,213600,0,5441.2351722717285,-679.3506860046155,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 213600, 'default': {'kl': 0.012649808079004288, 'policy_loss': -0.1422017216682434, 'vf_loss': 1729.66552734375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8602436184883118, 'entropy': 15.241093635559082, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1729.5426025390625}, 'load_time_ms': 0.593, 'num_steps_sampled': 213600, 'grad_time_ms': 628.601, 'update_time_ms': 2.409, 'sample_time_ms': 30124.957}",2025-08-30_17-41-07,cda-server-4,32.30272555351257,1068,1756568467,10.157.146.4,False,5441.2351722717285,1200
+179,-783.5408310873256,179,214800,{},-916.0618769621652,214800,0,5469.359526157379,-679.3506860046155,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 214800, 'default': {'kl': 0.011682241223752499, 'policy_loss': -0.13159556686878204, 'vf_loss': 3492.881591796875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.7845871448516846, 'entropy': 15.44524097442627, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3492.767333984375}, 'load_time_ms': 0.586, 'num_steps_sampled': 214800, 'grad_time_ms': 628.325, 'update_time_ms': 2.34, 'sample_time_ms': 29860.054}",2025-08-30_17-41-35,cda-server-4,28.124353885650635,1074,1756568495,10.157.146.4,False,5469.359526157379,1200
+180,-783.3399376042539,180,216000,{},-916.0618769621652,216000,0,5502.585190296173,-679.3506860046155,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 216000, 'default': {'kl': 0.01419881172478199, 'policy_loss': -0.15138819813728333, 'vf_loss': 2024.9696044921875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8653022646903992, 'entropy': 15.221696853637695, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2024.839599609375}, 'load_time_ms': 0.598, 'num_steps_sampled': 216000, 'grad_time_ms': 624.524, 'update_time_ms': 2.324, 'sample_time_ms': 30456.827}",2025-08-30_17-42-09,cda-server-4,33.225664138793945,1080,1756568529,10.157.146.4,False,5502.585190296173,1200
+181,-780.8003948060829,181,217200,{},-892.4060588562425,217200,0,5535.124830245972,-678.3042831183864,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 217200, 'default': {'kl': 0.013829178176820278, 'policy_loss': -0.1382705718278885, 'vf_loss': 1571.7005615234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.884283721446991, 'entropy': 15.174665451049805, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1571.5833740234375}, 'load_time_ms': 0.616, 'num_steps_sampled': 217200, 'grad_time_ms': 622.947, 'update_time_ms': 2.156, 'sample_time_ms': 30642.387}",2025-08-30_17-42-41,cda-server-4,32.539639949798584,1086,1756568561,10.157.146.4,False,5535.124830245972,1200
+182,-778.2337202262269,182,218400,{},-892.4060588562425,218400,0,5566.918329954147,-650.2216053610996,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 218400, 'default': {'kl': 0.012027038261294365, 'policy_loss': -0.1491294503211975, 'vf_loss': 1378.8114013671875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8686743974685669, 'entropy': 15.181477546691895, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1378.680419921875}, 'load_time_ms': 0.61, 'num_steps_sampled': 218400, 'grad_time_ms': 621.11, 'update_time_ms': 2.139, 'sample_time_ms': 30609.505}",2025-08-30_17-43-13,cda-server-4,31.79349970817566,1092,1756568593,10.157.146.4,False,5566.918329954147,1200
+183,-778.1447072520816,183,219600,{},-892.4060588562425,219600,0,5598.726477622986,-650.2216053610996,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 219600, 'default': {'kl': 0.011418793350458145, 'policy_loss': -0.1349620223045349, 'vf_loss': 2626.042724609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.7793319225311279, 'entropy': 15.21595573425293, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2625.925048828125}, 'load_time_ms': 0.609, 'num_steps_sampled': 219600, 'grad_time_ms': 641.236, 'update_time_ms': 2.12, 'sample_time_ms': 30885.401}",2025-08-30_17-43-45,cda-server-4,31.8081476688385,1098,1756568625,10.157.146.4,False,5598.726477622986,1200
+184,-778.3790682798893,184,220800,{},-892.4060588562425,220800,0,5631.58145570755,-650.2216053610996,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 220800, 'default': {'kl': 0.012438913807272911, 'policy_loss': -0.14206074178218842, 'vf_loss': 1310.5008544921875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8829628825187683, 'entropy': 15.256342887878418, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1310.377685546875}, 'load_time_ms': 0.608, 'num_steps_sampled': 220800, 'grad_time_ms': 670.639, 'update_time_ms': 2.128, 'sample_time_ms': 31040.274}",2025-08-30_17-44-18,cda-server-4,32.85497808456421,1104,1756568658,10.157.146.4,False,5631.58145570755,1200
+185,-779.3153299515526,185,222000,{},-875.6746798038785,222000,0,5665.034644365311,-650.2216053610996,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 222000, 'default': {'kl': 0.01237262412905693, 'policy_loss': -0.12474887818098068, 'vf_loss': 1839.15771484375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8587132096290588, 'entropy': 15.258463859558105, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1839.0521240234375}, 'load_time_ms': 0.608, 'num_steps_sampled': 222000, 'grad_time_ms': 678.908, 'update_time_ms': 2.153, 'sample_time_ms': 31270.562}",2025-08-30_17-44-51,cda-server-4,33.45318865776062,1110,1756568691,10.157.146.4,False,5665.034644365311,1200
+186,-779.3542661547813,186,223200,{},-875.6746798038785,223200,0,5696.50901389122,-650.2216053610996,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 223200, 'default': {'kl': 0.014862790703773499, 'policy_loss': -0.15543398261070251, 'vf_loss': 1473.252197265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8760046362876892, 'entropy': 15.182169914245605, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1473.1192626953125}, 'load_time_ms': 0.623, 'num_steps_sampled': 223200, 'grad_time_ms': 688.216, 'update_time_ms': 2.146, 'sample_time_ms': 31272.158}",2025-08-30_17-45-23,cda-server-4,31.474369525909424,1116,1756568723,10.157.146.4,False,5696.50901389122,1200
+187,-777.22138888661,187,224400,{},-875.6746798038785,224400,0,5726.437877893448,-650.2216053610996,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 224400, 'default': {'kl': 0.012644434347748756, 'policy_loss': -0.13919411599636078, 'vf_loss': 2337.90673828125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8776271939277649, 'entropy': 15.362001419067383, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2337.78662109375}, 'load_time_ms': 0.671, 'num_steps_sampled': 224400, 'grad_time_ms': 699.901, 'update_time_ms': 2.143, 'sample_time_ms': 31043.809}",2025-08-30_17-45-53,cda-server-4,29.928864002227783,1122,1756568753,10.157.146.4,False,5726.437877893448,1200
+188,-776.9100785941087,188,225600,{},-875.6746798038785,225600,0,5754.717573404312,-650.2216053610996,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 225600, 'default': {'kl': 0.01288212463259697, 'policy_loss': -0.1449759602546692, 'vf_loss': 1559.88427734375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8904181718826294, 'entropy': 15.170230865478516, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1559.7587890625}, 'load_time_ms': 0.676, 'num_steps_sampled': 225600, 'grad_time_ms': 684.132, 'update_time_ms': 2.126, 'sample_time_ms': 30657.264}",2025-08-30_17-46-21,cda-server-4,28.279695510864258,1128,1756568781,10.157.146.4,False,5754.717573404312,1200
+189,-776.3718564716407,189,226800,{},-875.6746798038785,226800,0,5784.883064746857,-650.2216053610996,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 226800, 'default': {'kl': 0.014476724900305271, 'policy_loss': -0.1499406099319458, 'vf_loss': 1324.74560546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9070312976837158, 'entropy': 15.194887161254883, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1324.61767578125}, 'load_time_ms': 0.673, 'num_steps_sampled': 226800, 'grad_time_ms': 667.073, 'update_time_ms': 2.196, 'sample_time_ms': 30878.354}",2025-08-30_17-46-51,cda-server-4,30.165491342544556,1134,1756568811,10.157.146.4,False,5784.883064746857,1200
+190,-777.2323020161936,190,228000,{},-875.6746798038785,228000,0,5816.32182431221,-650.2216053610996,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 228000, 'default': {'kl': 0.012806777842342854, 'policy_loss': -0.14156264066696167, 'vf_loss': 1661.7000732421875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9078689217567444, 'entropy': 15.336223602294922, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1661.577880859375}, 'load_time_ms': 0.654, 'num_steps_sampled': 228000, 'grad_time_ms': 664.492, 'update_time_ms': 2.205, 'sample_time_ms': 30702.218}",2025-08-30_17-47-22,cda-server-4,31.438759565353394,1140,1756568842,10.157.146.4,False,5816.32182431221,1200
+191,-776.2475004647106,191,229200,{},-875.6746798038785,229200,0,5847.969817638397,-650.2216053610996,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 229200, 'default': {'kl': 0.014266987331211567, 'policy_loss': -0.16023558378219604, 'vf_loss': 2804.099365234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.7776660919189453, 'entropy': 15.102863311767578, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2803.9609375}, 'load_time_ms': 0.641, 'num_steps_sampled': 229200, 'grad_time_ms': 658.822, 'update_time_ms': 2.338, 'sample_time_ms': 30618.63}",2025-08-30_17-47-54,cda-server-4,31.647993326187134,1146,1756568874,10.157.146.4,False,5847.969817638397,1200
+192,-776.2493223309726,192,230400,{},-875.6746798038785,230400,0,5879.929069519043,-650.2216053610996,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 230400, 'default': {'kl': 0.012068657204508781, 'policy_loss': -0.13750380277633667, 'vf_loss': 1220.43798828125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9199763536453247, 'entropy': 15.169628143310547, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1220.31884765625}, 'load_time_ms': 0.647, 'num_steps_sampled': 230400, 'grad_time_ms': 654.414, 'update_time_ms': 2.25, 'sample_time_ms': 30639.704}",2025-08-30_17-48-26,cda-server-4,31.959251880645752,1152,1756568906,10.157.146.4,False,5879.929069519043,1200
+193,-777.2653751295832,193,231600,{},-875.6746798038785,231600,0,5911.758118391037,-650.2216053610996,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 231600, 'default': {'kl': 0.012334790080785751, 'policy_loss': -0.1204984039068222, 'vf_loss': 1241.7640380859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8787018656730652, 'entropy': 15.419261932373047, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1241.6622314453125}, 'load_time_ms': 0.678, 'num_steps_sampled': 231600, 'grad_time_ms': 653.765, 'update_time_ms': 2.259, 'sample_time_ms': 30642.349}",2025-08-30_17-48-58,cda-server-4,31.82904887199402,1158,1756568938,10.157.146.4,False,5911.758118391037,1200
+194,-774.5284376292922,194,232800,{},-875.6746798038785,232800,0,5944.637488126755,-650.2216053610996,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 232800, 'default': {'kl': 0.014042920432984829, 'policy_loss': -0.15183573961257935, 'vf_loss': 2394.15625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9029449820518494, 'entropy': 14.97634506225586, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2394.02587890625}, 'load_time_ms': 0.696, 'num_steps_sampled': 232800, 'grad_time_ms': 654.041, 'update_time_ms': 2.264, 'sample_time_ms': 30644.499}",2025-08-30_17-49-31,cda-server-4,32.87936973571777,1164,1756568971,10.157.146.4,False,5944.637488126755,1200
+195,-773.1441927528246,195,234000,{},-875.6746798038785,234000,0,5975.053570985794,-650.2216053610996,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 234000, 'default': {'kl': 0.01319674588739872, 'policy_loss': -0.12649862468242645, 'vf_loss': 2146.6298828125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.852931559085846, 'entropy': 14.768942832946777, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2146.5234375}, 'load_time_ms': 0.686, 'num_steps_sampled': 234000, 'grad_time_ms': 675.656, 'update_time_ms': 2.303, 'sample_time_ms': 30319.272}",2025-08-30_17-50-01,cda-server-4,30.416082859039307,1170,1756569001,10.157.146.4,False,5975.053570985794,1200
+196,-770.6657316353167,196,235200,{},-875.6746798038785,235200,0,6005.214209318161,-650.2216053610996,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 235200, 'default': {'kl': 0.013981233350932598, 'policy_loss': -0.14901287853717804, 'vf_loss': 1267.3116455078125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.878068745136261, 'entropy': 15.122697830200195, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1267.183837890625}, 'load_time_ms': 0.673, 'num_steps_sampled': 235200, 'grad_time_ms': 683.225, 'update_time_ms': 2.264, 'sample_time_ms': 30180.434}",2025-08-30_17-50-31,cda-server-4,30.160638332366943,1176,1756569031,10.157.146.4,False,6005.214209318161,1200
+197,-769.3949569880891,197,236400,{},-875.6746798038785,236400,0,6034.439298629761,-650.2216053610996,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 236400, 'default': {'kl': 0.01154758594930172, 'policy_loss': -0.11709710955619812, 'vf_loss': 1050.08740234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9147846698760986, 'entropy': 15.164913177490234, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1049.98779296875}, 'load_time_ms': 0.632, 'num_steps_sampled': 236400, 'grad_time_ms': 685.908, 'update_time_ms': 2.264, 'sample_time_ms': 30107.444}",2025-08-30_17-51-01,cda-server-4,29.22508931159973,1182,1756569061,10.157.146.4,False,6034.439298629761,1200
+198,-770.6046127861928,198,237600,{},-875.6746798038785,237600,0,6067.145894527435,-666.7645205153999,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 237600, 'default': {'kl': 0.011262001469731331, 'policy_loss': -0.10861492156982422, 'vf_loss': 2467.634521484375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8239952921867371, 'entropy': 14.828367233276367, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2467.54296875}, 'load_time_ms': 0.628, 'num_steps_sampled': 237600, 'grad_time_ms': 698.871, 'update_time_ms': 2.273, 'sample_time_ms': 30537.109}",2025-08-30_17-51-33,cda-server-4,32.70659589767456,1188,1756569093,10.157.146.4,False,6067.145894527435,1200
+199,-768.8809748227833,199,238800,{},-875.6746798038785,238800,0,6097.901347398758,-666.7645205153999,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 238800, 'default': {'kl': 0.013275863602757454, 'policy_loss': -0.14936386048793793, 'vf_loss': 1137.2548828125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8983170986175537, 'entropy': 14.715959548950195, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1137.1256103515625}, 'load_time_ms': 0.635, 'num_steps_sampled': 238800, 'grad_time_ms': 715.643, 'update_time_ms': 2.233, 'sample_time_ms': 30579.431}",2025-08-30_17-52-04,cda-server-4,30.755452871322632,1194,1756569124,10.157.146.4,False,6097.901347398758,1200
+200,-768.2431462360166,200,240000,{},-875.6746798038785,240000,0,6128.84285402298,-656.31983957899,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 240000, 'default': {'kl': 0.01239701360464096, 'policy_loss': -0.13571880757808685, 'vf_loss': 1006.8764038085938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8996522426605225, 'entropy': 15.219182014465332, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1006.759521484375}, 'load_time_ms': 0.636, 'num_steps_sampled': 240000, 'grad_time_ms': 724.628, 'update_time_ms': 2.264, 'sample_time_ms': 30520.447}",2025-08-30_17-52-35,cda-server-4,30.9415066242218,1200,1756569155,10.157.146.4,False,6128.84285402298,1200
+201,-765.3115284621907,201,241200,{},-875.6746798038785,241200,0,6157.072705984116,-656.31983957899,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 241200, 'default': {'kl': 0.012423909269273281, 'policy_loss': -0.1399681717157364, 'vf_loss': 1079.3145751953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9376199245452881, 'entropy': 14.935385704040527, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1079.1934814453125}, 'load_time_ms': 0.668, 'num_steps_sampled': 241200, 'grad_time_ms': 707.756, 'update_time_ms': 2.37, 'sample_time_ms': 30195.257}",2025-08-30_17-53-03,cda-server-4,28.229851961135864,1206,1756569183,10.157.146.4,False,6157.072705984116,1200
+202,-761.8446913266483,202,242400,{},-816.5558255939859,242400,0,6186.627103567123,-656.31983957899,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 242400, 'default': {'kl': 0.014741050079464912, 'policy_loss': -0.16751697659492493, 'vf_loss': 1021.3129272460938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9356208443641663, 'entropy': 14.89122200012207, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1021.167724609375}, 'load_time_ms': 0.657, 'num_steps_sampled': 242400, 'grad_time_ms': 686.443, 'update_time_ms': 2.405, 'sample_time_ms': 29976.088}",2025-08-30_17-53-33,cda-server-4,29.554397583007812,1212,1756569213,10.157.146.4,False,6186.627103567123,1200
+203,-760.2864794735076,203,243600,{},-816.5558255939859,243600,0,6214.460370540619,-656.31983957899,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 243600, 'default': {'kl': 0.011641984805464745, 'policy_loss': -0.12095861881971359, 'vf_loss': 693.02685546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.935821533203125, 'entropy': 14.499744415283203, 'cur_lr': 4.999999873689376e-05, 'total_loss': 692.923583984375}, 'load_time_ms': 0.624, 'num_steps_sampled': 243600, 'grad_time_ms': 659.822, 'update_time_ms': 2.388, 'sample_time_ms': 29603.255}",2025-08-30_17-54-01,cda-server-4,27.833266973495483,1218,1756569241,10.157.146.4,False,6214.460370540619,1200
+204,-762.3649049427805,204,244800,{},-816.5558255939859,244800,0,6242.086228847504,-656.31983957899,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 244800, 'default': {'kl': 0.012190484441816807, 'policy_loss': -0.13218845427036285, 'vf_loss': 1077.8779296875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.903518795967102, 'entropy': 14.924182891845703, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1077.76416015625}, 'load_time_ms': 0.604, 'num_steps_sampled': 244800, 'grad_time_ms': 651.008, 'update_time_ms': 2.426, 'sample_time_ms': 29086.726}",2025-08-30_17-54-28,cda-server-4,27.625858306884766,1224,1756569268,10.157.146.4,False,6242.086228847504,1200
+205,-762.252315297145,205,246000,{},-816.5558255939859,246000,0,6270.750032901764,-656.31983957899,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 246000, 'default': {'kl': 0.014709454029798508, 'policy_loss': -0.14594666659832, 'vf_loss': 1238.5528564453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9438456296920776, 'entropy': 14.983790397644043, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1238.4293212890625}, 'load_time_ms': 0.631, 'num_steps_sampled': 246000, 'grad_time_ms': 645.927, 'update_time_ms': 2.369, 'sample_time_ms': 28916.598}",2025-08-30_17-54-57,cda-server-4,28.663804054260254,1230,1756569297,10.157.146.4,False,6270.750032901764,1200
+206,-762.7158868085193,206,247200,{},-816.5558255939859,247200,0,6302.241589784622,-656.31983957899,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 247200, 'default': {'kl': 0.01189601793885231, 'policy_loss': -0.128957599401474, 'vf_loss': 2078.05419921875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8704563975334167, 'entropy': 14.868091583251953, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2077.943115234375}, 'load_time_ms': 0.634, 'num_steps_sampled': 247200, 'grad_time_ms': 636.975, 'update_time_ms': 2.344, 'sample_time_ms': 29058.699}",2025-08-30_17-55-29,cda-server-4,31.491556882858276,1236,1756569329,10.157.146.4,False,6302.241589784622,1200
+207,-762.5753482104292,207,248400,{},-816.5558255939859,248400,0,6335.87416434288,-656.31983957899,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 248400, 'default': {'kl': 0.011348956264555454, 'policy_loss': -0.12503017485141754, 'vf_loss': 1425.24169921875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8734676837921143, 'entropy': 15.215456008911133, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1425.1339111328125}, 'load_time_ms': 0.631, 'num_steps_sampled': 248400, 'grad_time_ms': 628.92, 'update_time_ms': 2.303, 'sample_time_ms': 29507.647}",2025-08-30_17-56-02,cda-server-4,33.63257455825806,1242,1756569362,10.157.146.4,False,6335.87416434288,1200
+208,-762.3535064234629,208,249600,{},-816.5558255939859,249600,0,6367.586314201355,-656.31983957899,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 249600, 'default': {'kl': 0.011635011062026024, 'policy_loss': -0.1247389018535614, 'vf_loss': 1246.4127197265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8786408305168152, 'entropy': 14.866701126098633, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1246.3056640625}, 'load_time_ms': 0.633, 'num_steps_sampled': 249600, 'grad_time_ms': 621.126, 'update_time_ms': 2.285, 'sample_time_ms': 29416.039}",2025-08-30_17-56-34,cda-server-4,31.71214985847473,1248,1756569394,10.157.146.4,False,6367.586314201355,1200
+209,-761.3653356392189,209,250800,{},-816.5558255939859,250800,0,6397.909002780914,-656.31983957899,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 250800, 'default': {'kl': 0.012715205550193787, 'policy_loss': -0.1468845009803772, 'vf_loss': 868.9049072265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9464036226272583, 'entropy': 14.620555877685547, 'cur_lr': 4.999999873689376e-05, 'total_loss': 868.77734375}, 'load_time_ms': 0.639, 'num_steps_sampled': 250800, 'grad_time_ms': 615.069, 'update_time_ms': 2.299, 'sample_time_ms': 29378.76}",2025-08-30_17-57-04,cda-server-4,30.322688579559326,1254,1756569424,10.157.146.4,False,6397.909002780914,1200
+210,-761.8095192253459,210,252000,{},-816.5558255939859,252000,0,6429.520866394043,-656.31983957899,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 252000, 'default': {'kl': 0.012186344712972641, 'policy_loss': -0.1262197047472, 'vf_loss': 1049.1483154296875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9343802332878113, 'entropy': 14.88453197479248, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1049.04052734375}, 'load_time_ms': 0.641, 'num_steps_sampled': 252000, 'grad_time_ms': 592.983, 'update_time_ms': 2.256, 'sample_time_ms': 29468.186}",2025-08-30_17-57-36,cda-server-4,31.611863613128662,1260,1756569456,10.157.146.4,False,6429.520866394043,1200
+211,-764.159949276628,211,253200,{},-816.5558255939859,253200,0,6462.2311000823975,-656.31983957899,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 253200, 'default': {'kl': 0.01196000725030899, 'policy_loss': -0.12342984229326248, 'vf_loss': 1817.66357421875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8451416492462158, 'entropy': 14.54273509979248, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1817.55810546875}, 'load_time_ms': 0.612, 'num_steps_sampled': 253200, 'grad_time_ms': 611.909, 'update_time_ms': 2.061, 'sample_time_ms': 29897.572}",2025-08-30_17-58-09,cda-server-4,32.71023368835449,1266,1756569489,10.157.146.4,False,6462.2311000823975,1200
+212,-766.109922337125,212,254400,{},-816.5558255939859,254400,0,6492.061650753021,-656.31983957899,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 254400, 'default': {'kl': 0.013560662977397442, 'policy_loss': -0.1379910111427307, 'vf_loss': 671.1541137695312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9467993974685669, 'entropy': 14.922832489013672, 'cur_lr': 4.999999873689376e-05, 'total_loss': 671.0368041992188}, 'load_time_ms': 0.649, 'num_steps_sampled': 254400, 'grad_time_ms': 628.107, 'update_time_ms': 2.056, 'sample_time_ms': 29908.92}",2025-08-30_17-58-39,cda-server-4,29.83055067062378,1272,1756569519,10.157.146.4,False,6492.061650753021,1200
+213,-767.9917825158495,213,255600,{},-816.5558255939859,255600,0,6520.155786991119,-656.31983957899,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 255600, 'default': {'kl': 0.013134732842445374, 'policy_loss': -0.1302383691072464, 'vf_loss': 803.8109130859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9464755654335022, 'entropy': 14.756086349487305, 'cur_lr': 4.999999873689376e-05, 'total_loss': 803.7006225585938}, 'load_time_ms': 0.648, 'num_steps_sampled': 255600, 'grad_time_ms': 628.402, 'update_time_ms': 2.046, 'sample_time_ms': 29934.698}",2025-08-30_17-59-07,cda-server-4,28.094136238098145,1278,1756569547,10.157.146.4,False,6520.155786991119,1200
+214,-767.7932115802624,214,256800,{},-816.5558255939859,256800,0,6551.637071847916,-656.31983957899,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 256800, 'default': {'kl': 0.012526613660156727, 'policy_loss': -0.13357046246528625, 'vf_loss': 1197.85302734375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9204511642456055, 'entropy': 14.81003189086914, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1197.738525390625}, 'load_time_ms': 0.648, 'num_steps_sampled': 256800, 'grad_time_ms': 610.551, 'update_time_ms': 2.085, 'sample_time_ms': 30338.054}",2025-08-30_17-59-38,cda-server-4,31.481284856796265,1284,1756569578,10.157.146.4,False,6551.637071847916,1200
+215,-770.4567069778454,215,258000,{},-816.5558255939859,258000,0,6584.063513278961,-656.31983957899,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 258000, 'default': {'kl': 0.011857522651553154, 'policy_loss': -0.12517055869102478, 'vf_loss': 2510.2900390625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8232736587524414, 'entropy': 14.902369499206543, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2510.18310546875}, 'load_time_ms': 0.628, 'num_steps_sampled': 258000, 'grad_time_ms': 596.637, 'update_time_ms': 2.171, 'sample_time_ms': 30728.178}",2025-08-30_18-00-11,cda-server-4,32.42644143104553,1290,1756569611,10.157.146.4,False,6584.063513278961,1200
+216,-770.9790358101002,216,259200,{},-816.5558255939859,259200,0,6616.291554927826,-657.0992927973821,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 259200, 'default': {'kl': 0.012124845758080482, 'policy_loss': -0.13083814084529877, 'vf_loss': 466.26513671875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.961762547492981, 'entropy': 14.564006805419922, 'cur_lr': 4.999999873689376e-05, 'total_loss': 466.1527099609375}, 'load_time_ms': 0.64, 'num_steps_sampled': 259200, 'grad_time_ms': 605.968, 'update_time_ms': 2.192, 'sample_time_ms': 30792.401}",2025-08-30_18-00-43,cda-server-4,32.228041648864746,1296,1756569643,10.157.146.4,False,6616.291554927826,1200
+217,-772.1514585878316,217,260400,{},-816.5558255939859,260400,0,6647.913309812546,-657.0992927973821,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 260400, 'default': {'kl': 0.01333546731621027, 'policy_loss': -0.13897879421710968, 'vf_loss': 2047.546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.854362428188324, 'entropy': 14.798381805419922, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2047.42822265625}, 'load_time_ms': 0.652, 'num_steps_sampled': 260400, 'grad_time_ms': 601.437, 'update_time_ms': 2.234, 'sample_time_ms': 30595.688}",2025-08-30_18-01-15,cda-server-4,31.62175488471985,1302,1756569675,10.157.146.4,False,6647.913309812546,1200
+218,-772.1891470797763,218,261600,{},-812.1440472047747,261600,0,6678.024124383926,-657.0992927973821,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 261600, 'default': {'kl': 0.014452116563916206, 'policy_loss': -0.1408669352531433, 'vf_loss': 1036.6844482421875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9474757313728333, 'entropy': 14.634349822998047, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1036.5654296875}, 'load_time_ms': 0.686, 'num_steps_sampled': 261600, 'grad_time_ms': 601.777, 'update_time_ms': 2.431, 'sample_time_ms': 30435.022}",2025-08-30_18-01-45,cda-server-4,30.110814571380615,1308,1756569705,10.157.146.4,False,6678.024124383926,1200
+219,-773.5068838920531,219,262800,{},-812.1440472047747,262800,0,6706.128180742264,-657.0992927973821,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 262800, 'default': {'kl': 0.010870043188333511, 'policy_loss': -0.12041262537240982, 'vf_loss': 1235.69677734375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.895592987537384, 'entropy': 14.202518463134766, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1235.5927734375}, 'load_time_ms': 0.686, 'num_steps_sampled': 262800, 'grad_time_ms': 610.714, 'update_time_ms': 2.375, 'sample_time_ms': 30204.241}",2025-08-30_18-02-13,cda-server-4,28.104056358337402,1314,1756569733,10.157.146.4,False,6706.128180742264,1200
+220,-774.5241636366005,220,264000,{},-812.1440472047747,264000,0,6739.178822040558,-671.3147923682886,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 264000, 'default': {'kl': 0.011614995077252388, 'policy_loss': -0.13037805259227753, 'vf_loss': 1689.449462890625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8528369665145874, 'entropy': 14.315935134887695, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1689.336669921875}, 'load_time_ms': 0.68, 'num_steps_sampled': 264000, 'grad_time_ms': 629.153, 'update_time_ms': 2.378, 'sample_time_ms': 30329.669}",2025-08-30_18-02-46,cda-server-4,33.05064129829407,1320,1756569766,10.157.146.4,False,6739.178822040558,1200
+221,-772.5135887523903,221,265200,{},-817.0664642692551,265200,0,6766.930157661438,-668.9785199428921,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 265200, 'default': {'kl': 0.01282799057662487, 'policy_loss': -0.13428856432437897, 'vf_loss': 658.5834350585938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9578973054885864, 'entropy': 14.417824745178223, 'cur_lr': 4.999999873689376e-05, 'total_loss': 658.4686279296875}, 'load_time_ms': 0.677, 'num_steps_sampled': 265200, 'grad_time_ms': 635.034, 'update_time_ms': 2.412, 'sample_time_ms': 29827.885}",2025-08-30_18-03-14,cda-server-4,27.751335620880127,1326,1756569794,10.157.146.4,False,6766.930157661438,1200
+222,-770.6150877538437,222,266400,{},-817.0664642692551,266400,0,6796.68820977211,-668.9785199428921,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 266400, 'default': {'kl': 0.011355001479387283, 'policy_loss': -0.13548535108566284, 'vf_loss': 648.3850708007812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9489176869392395, 'entropy': 14.200672149658203, 'cur_lr': 4.999999873689376e-05, 'total_loss': 648.266845703125}, 'load_time_ms': 0.643, 'num_steps_sampled': 266400, 'grad_time_ms': 646.616, 'update_time_ms': 2.516, 'sample_time_ms': 29808.983}",2025-08-30_18-03-43,cda-server-4,29.758052110671997,1332,1756569823,10.157.146.4,False,6796.68820977211,1200
+223,-766.321757565058,223,267600,{},-817.0664642692551,267600,0,6826.159619569778,-658.9758458310174,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 267600, 'default': {'kl': 0.011689577251672745, 'policy_loss': -0.12905259430408478, 'vf_loss': 678.59814453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9419817328453064, 'entropy': 14.187430381774902, 'cur_lr': 4.999999873689376e-05, 'total_loss': 678.48681640625}, 'load_time_ms': 0.663, 'num_steps_sampled': 267600, 'grad_time_ms': 673.895, 'update_time_ms': 2.582, 'sample_time_ms': 29919.25}",2025-08-30_18-04-13,cda-server-4,29.471409797668457,1338,1756569853,10.157.146.4,False,6826.159619569778,1200
+224,-766.8589775966964,224,268800,{},-817.0664642692551,268800,0,6857.163364887238,-658.9758458310174,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 268800, 'default': {'kl': 0.013265659101307392, 'policy_loss': -0.13901124894618988, 'vf_loss': 1055.3680419921875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9350332617759705, 'entropy': 14.712541580200195, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1055.2491455078125}, 'load_time_ms': 0.698, 'num_steps_sampled': 268800, 'grad_time_ms': 698.63, 'update_time_ms': 2.613, 'sample_time_ms': 29846.657}",2025-08-30_18-04-44,cda-server-4,31.003745317459106,1344,1756569884,10.157.146.4,False,6857.163364887238,1200
+225,-763.8542485297072,225,270000,{},-817.0664642692551,270000,0,6887.033984661102,-658.9758458310174,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 270000, 'default': {'kl': 0.014121579006314278, 'policy_loss': -0.16322393715381622, 'vf_loss': 497.5164794921875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9613398313522339, 'entropy': 14.48061752319336, 'cur_lr': 4.999999873689376e-05, 'total_loss': 497.3747253417969}, 'load_time_ms': 0.692, 'num_steps_sampled': 270000, 'grad_time_ms': 716.185, 'update_time_ms': 2.59, 'sample_time_ms': 29573.537}",2025-08-30_18-05-14,cda-server-4,29.870619773864746,1350,1756569914,10.157.146.4,False,6887.033984661102,1200
+226,-760.7049965156153,226,271200,{},-817.0664642692551,271200,0,6917.499672412872,-658.9758458310174,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 271200, 'default': {'kl': 0.013628794811666012, 'policy_loss': -0.1350216567516327, 'vf_loss': 1289.01025390625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9215202331542969, 'entropy': 14.286154747009277, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1288.89599609375}, 'load_time_ms': 0.676, 'num_steps_sampled': 271200, 'grad_time_ms': 712.341, 'update_time_ms': 2.589, 'sample_time_ms': 29401.152}",2025-08-30_18-05-44,cda-server-4,30.46568775177002,1356,1756569944,10.157.146.4,False,6917.499672412872,1200
+227,-759.2225415438936,227,272400,{},-817.0664642692551,272400,0,6948.275052547455,-658.9758458310174,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 272400, 'default': {'kl': 0.01130254939198494, 'policy_loss': -0.12144708633422852, 'vf_loss': 1678.1829833984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.893224835395813, 'entropy': 14.35274887084961, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1678.07861328125}, 'load_time_ms': 0.671, 'num_steps_sampled': 272400, 'grad_time_ms': 715.95, 'update_time_ms': 2.611, 'sample_time_ms': 29312.953}",2025-08-30_18-06-15,cda-server-4,30.77538013458252,1362,1756569975,10.157.146.4,False,6948.275052547455,1200
+228,-757.4188989019945,228,273600,{},-817.0664642692551,273600,0,6979.679294586182,-658.9758458310174,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 273600, 'default': {'kl': 0.013471491634845734, 'policy_loss': -0.14828814566135406, 'vf_loss': 1629.01611328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8845847249031067, 'entropy': 14.484370231628418, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1628.88818359375}, 'load_time_ms': 0.633, 'num_steps_sampled': 273600, 'grad_time_ms': 716.014, 'update_time_ms': 2.402, 'sample_time_ms': 29442.464}",2025-08-30_18-06-46,cda-server-4,31.404242038726807,1368,1756570006,10.157.146.4,False,6979.679294586182,1200
+229,-753.5058425439398,229,274800,{},-817.0664642692551,274800,0,7013.4012360572815,-658.9758458310174,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 274800, 'default': {'kl': 0.011811546050012112, 'policy_loss': -0.1305905431509018, 'vf_loss': 1021.155029296875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9148290157318115, 'entropy': 14.219124794006348, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1021.0424194335938}, 'load_time_ms': 0.629, 'num_steps_sampled': 274800, 'grad_time_ms': 701.923, 'update_time_ms': 2.449, 'sample_time_ms': 30018.334}",2025-08-30_18-07-20,cda-server-4,33.72194147109985,1374,1756570040,10.157.146.4,False,7013.4012360572815,1200
+230,-751.5301233504184,230,276000,{},-817.0664642692551,276000,0,7046.896975040436,-658.9758458310174,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 276000, 'default': {'kl': 0.012665435671806335, 'policy_loss': -0.1434449553489685, 'vf_loss': 1409.3966064453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9264912009239197, 'entropy': 14.190516471862793, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1409.2723388671875}, 'load_time_ms': 0.642, 'num_steps_sampled': 276000, 'grad_time_ms': 690.956, 'update_time_ms': 2.43, 'sample_time_ms': 30073.756}",2025-08-30_18-07-54,cda-server-4,33.4957389831543,1380,1756570074,10.157.146.4,False,7046.896975040436,1200
+231,-749.5451199421665,231,277200,{},-817.0664642692551,277200,0,7076.290871143341,-658.9758458310174,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 277200, 'default': {'kl': 0.012300782836973667, 'policy_loss': -0.14081010222434998, 'vf_loss': 900.3688354492188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9401698708534241, 'entropy': 14.312920570373535, 'cur_lr': 4.999999873689376e-05, 'total_loss': 900.2467041015625}, 'load_time_ms': 0.649, 'num_steps_sampled': 277200, 'grad_time_ms': 681.556, 'update_time_ms': 2.535, 'sample_time_ms': 30247.226}",2025-08-30_18-08-23,cda-server-4,29.393896102905273,1386,1756570103,10.157.146.4,False,7076.290871143341,1200
+232,-746.6788849977231,232,278400,{},-817.0664642692551,278400,0,7108.270347118378,-658.9758458310174,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 278400, 'default': {'kl': 0.01338163111358881, 'policy_loss': -0.1595889925956726, 'vf_loss': 827.1482543945312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9329918622970581, 'entropy': 14.060859680175781, 'cur_lr': 4.999999873689376e-05, 'total_loss': 827.009033203125}, 'load_time_ms': 0.653, 'num_steps_sampled': 278400, 'grad_time_ms': 680.834, 'update_time_ms': 2.464, 'sample_time_ms': 30470.146}",2025-08-30_18-08-55,cda-server-4,31.97947597503662,1392,1756570135,10.157.146.4,False,7108.270347118378,1200
+233,-747.1780402521504,233,279600,{},-817.0664642692551,279600,0,7141.94899892807,-658.9758458310174,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 279600, 'default': {'kl': 0.014721893705427647, 'policy_loss': -0.1580149531364441, 'vf_loss': 2336.529541015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9189570546150208, 'entropy': 14.158514022827148, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2336.393798828125}, 'load_time_ms': 0.645, 'num_steps_sampled': 279600, 'grad_time_ms': 679.719, 'update_time_ms': 2.453, 'sample_time_ms': 30892.029}",2025-08-30_18-09-29,cda-server-4,33.67865180969238,1398,1756570169,10.157.146.4,False,7141.94899892807,1200
+234,-745.5227935588316,234,280800,{},-824.7477422933937,280800,0,7171.384119272232,-658.9758458310174,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 280800, 'default': {'kl': 0.011806921102106571, 'policy_loss': -0.12265811860561371, 'vf_loss': 1018.0805053710938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9107342958450317, 'entropy': 14.039169311523438, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1017.9758911132812}, 'load_time_ms': 0.615, 'num_steps_sampled': 280800, 'grad_time_ms': 676.114, 'update_time_ms': 2.379, 'sample_time_ms': 30738.901}",2025-08-30_18-09-58,cda-server-4,29.435120344161987,1404,1756570198,10.157.146.4,False,7171.384119272232,1200
+235,-743.1479597522514,235,282000,{},-824.7477422933937,282000,0,7202.181316614151,-658.9758458310174,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 282000, 'default': {'kl': 0.01200790423899889, 'policy_loss': -0.1547696590423584, 'vf_loss': 380.9507751464844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9690568447113037, 'entropy': 14.247587203979492, 'cur_lr': 4.999999873689376e-05, 'total_loss': 380.8142395019531}, 'load_time_ms': 0.619, 'num_steps_sampled': 282000, 'grad_time_ms': 677.184, 'update_time_ms': 2.353, 'sample_time_ms': 30830.484}",2025-08-30_18-10-29,cda-server-4,30.797197341918945,1410,1756570229,10.157.146.4,False,7202.181316614151,1200
+236,-743.032454463038,236,283200,{},-824.7477422933937,283200,0,7235.096935033798,-658.9758458310174,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 283200, 'default': {'kl': 0.012029696255922318, 'policy_loss': -0.14230817556381226, 'vf_loss': 547.1163330078125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9640365242958069, 'entropy': 14.078639030456543, 'cur_lr': 4.999999873689376e-05, 'total_loss': 546.9922485351562}, 'load_time_ms': 0.629, 'num_steps_sampled': 283200, 'grad_time_ms': 682.434, 'update_time_ms': 2.39, 'sample_time_ms': 31070.214}",2025-08-30_18-11-02,cda-server-4,32.91561841964722,1416,1756570262,10.157.146.4,False,7235.096935033798,1200
+237,-741.3223961943312,237,284400,{},-824.7477422933937,284400,0,7265.897544622421,-658.9758458310174,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 284400, 'default': {'kl': 0.012317215092480183, 'policy_loss': -0.14440026879310608, 'vf_loss': 355.8188781738281, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9670789241790771, 'entropy': 14.00362777709961, 'cur_lr': 4.999999873689376e-05, 'total_loss': 355.6931457519531}, 'load_time_ms': 0.621, 'num_steps_sampled': 284400, 'grad_time_ms': 690.566, 'update_time_ms': 2.334, 'sample_time_ms': 31064.642}",2025-08-30_18-11-33,cda-server-4,30.800609588623047,1422,1756570293,10.157.146.4,False,7265.897544622421,1200
+238,-744.2457842359966,238,285600,{},-824.7477422933937,285600,0,7298.293344974518,-658.9758458310174,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 285600, 'default': {'kl': 0.013868389651179314, 'policy_loss': -0.17128470540046692, 'vf_loss': 432.02435302734375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9677094221115112, 'entropy': 14.394204139709473, 'cur_lr': 4.999999873689376e-05, 'total_loss': 431.8741455078125}, 'load_time_ms': 0.628, 'num_steps_sampled': 285600, 'grad_time_ms': 691.973, 'update_time_ms': 2.393, 'sample_time_ms': 31162.303}",2025-08-30_18-12-05,cda-server-4,32.39580035209656,1428,1756570325,10.157.146.4,False,7298.293344974518,1200
+239,-744.0933346815629,239,286800,{},-824.7477422933937,286800,0,7329.867017507553,-658.9758458310174,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 286800, 'default': {'kl': 0.013494370505213737, 'policy_loss': -0.1437498778104782, 'vf_loss': 1222.607177734375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9205951690673828, 'entropy': 14.31385612487793, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1222.48388671875}, 'load_time_ms': 0.657, 'num_steps_sampled': 286800, 'grad_time_ms': 698.269, 'update_time_ms': 2.402, 'sample_time_ms': 30941.111}",2025-08-30_18-12-37,cda-server-4,31.57367253303528,1434,1756570357,10.157.146.4,False,7329.867017507553,1200
+240,-747.2570676885231,240,288000,{},-824.7477422933937,288000,0,7361.445508718491,-662.7134727513279,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 288000, 'default': {'kl': 0.013241034001111984, 'policy_loss': -0.15567469596862793, 'vf_loss': 887.3976440429688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9515326619148254, 'entropy': 14.346379280090332, 'cur_lr': 4.999999873689376e-05, 'total_loss': 887.2620239257812}, 'load_time_ms': 0.652, 'num_steps_sampled': 288000, 'grad_time_ms': 700.947, 'update_time_ms': 2.436, 'sample_time_ms': 30746.748}",2025-08-30_18-13-08,cda-server-4,31.5784912109375,1440,1756570388,10.157.146.4,False,7361.445508718491,1200
+241,-746.2732565718818,241,289200,{},-824.7477422933937,289200,0,7392.008821964264,-662.7134727513279,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 289200, 'default': {'kl': 0.011014659889042377, 'policy_loss': -0.1516837179660797, 'vf_loss': 512.4671630859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9535578489303589, 'entropy': 14.09610366821289, 'cur_lr': 4.999999873689376e-05, 'total_loss': 512.332275390625}, 'load_time_ms': 0.65, 'num_steps_sampled': 289200, 'grad_time_ms': 705.609, 'update_time_ms': 2.321, 'sample_time_ms': 30859.226}",2025-08-30_18-13-39,cda-server-4,30.563313245773315,1446,1756570419,10.157.146.4,False,7392.008821964264,1200
+242,-748.115951231651,242,290400,{},-824.7477422933937,290400,0,7419.841382026672,-662.7134727513279,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 290400, 'default': {'kl': 0.01284899190068245, 'policy_loss': -0.14667870104312897, 'vf_loss': 962.3575439453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9362231492996216, 'entropy': 14.113704681396484, 'cur_lr': 4.999999873689376e-05, 'total_loss': 962.23046875}, 'load_time_ms': 0.643, 'num_steps_sampled': 290400, 'grad_time_ms': 704.418, 'update_time_ms': 2.261, 'sample_time_ms': 30445.823}",2025-08-30_18-14-07,cda-server-4,27.832560062408447,1452,1756570447,10.157.146.4,False,7419.841382026672,1200
+243,-747.8510843772485,243,291600,{},-824.7477422933937,291600,0,7449.4340987205505,-662.7134727513279,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 291600, 'default': {'kl': 0.011355799622833729, 'policy_loss': -0.09893360733985901, 'vf_loss': 1789.6141357421875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8494045734405518, 'entropy': 13.575976371765137, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1789.532470703125}, 'load_time_ms': 0.664, 'num_steps_sampled': 291600, 'grad_time_ms': 706.067, 'update_time_ms': 2.22, 'sample_time_ms': 30035.66}",2025-08-30_18-14-36,cda-server-4,29.592716693878174,1458,1756570476,10.157.146.4,False,7449.4340987205505,1200
+244,-749.7921628405811,244,292800,{},-867.4818464095868,292800,0,7480.097305297852,-662.7134727513279,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 292800, 'default': {'kl': 0.014940517023205757, 'policy_loss': -0.14820338785648346, 'vf_loss': 2021.118896484375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9006237387657166, 'entropy': 14.07781982421875, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2020.9935302734375}, 'load_time_ms': 0.66, 'num_steps_sampled': 292800, 'grad_time_ms': 710.622, 'update_time_ms': 2.183, 'sample_time_ms': 30153.913}",2025-08-30_18-15-07,cda-server-4,30.663206577301025,1464,1756570507,10.157.146.4,False,7480.097305297852,1200
+245,-749.2496628421183,245,294000,{},-867.4818464095868,294000,0,7513.703853607178,-662.7134727513279,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 294000, 'default': {'kl': 0.012691243551671505, 'policy_loss': -0.14539597928524017, 'vf_loss': 400.6439514160156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9674990773200989, 'entropy': 14.021228790283203, 'cur_lr': 4.999999873689376e-05, 'total_loss': 400.517822265625}, 'load_time_ms': 0.654, 'num_steps_sampled': 294000, 'grad_time_ms': 689.162, 'update_time_ms': 2.154, 'sample_time_ms': 30456.307}",2025-08-30_18-15-41,cda-server-4,33.60654830932617,1470,1756570541,10.157.146.4,False,7513.703853607178,1200
+246,-750.2753231015698,246,295200,{},-867.4818464095868,295200,0,7544.376897573471,-665.2973618519286,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 295200, 'default': {'kl': 0.014177094213664532, 'policy_loss': -0.1445581167936325, 'vf_loss': 264.7836608886719, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9764794111251831, 'entropy': 13.8848295211792, 'cur_lr': 4.999999873689376e-05, 'total_loss': 264.6606750488281}, 'load_time_ms': 0.648, 'num_steps_sampled': 295200, 'grad_time_ms': 674.391, 'update_time_ms': 2.186, 'sample_time_ms': 30246.719}",2025-08-30_18-16-11,cda-server-4,30.673043966293335,1476,1756570571,10.157.146.4,False,7544.376897573471,1200
+247,-747.649780390343,247,296400,{},-867.4818464095868,296400,0,7571.358117103577,-642.623303710175,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 296400, 'default': {'kl': 0.012382343411445618, 'policy_loss': -0.13706199824810028, 'vf_loss': 1261.23681640625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8935385942459106, 'entropy': 13.705828666687012, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1261.118408203125}, 'load_time_ms': 0.649, 'num_steps_sampled': 296400, 'grad_time_ms': 660.604, 'update_time_ms': 2.227, 'sample_time_ms': 29878.441}",2025-08-30_18-16-38,cda-server-4,26.98121953010559,1482,1756570598,10.157.146.4,False,7571.358117103577,1200
+248,-749.0185698702034,248,297600,{},-867.4818464095868,297600,0,7602.34827041626,-642.623303710175,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 297600, 'default': {'kl': 0.01149357482790947, 'policy_loss': -0.13426347076892853, 'vf_loss': 1059.78173828125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9045997262001038, 'entropy': 14.099593162536621, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1059.6649169921875}, 'load_time_ms': 0.648, 'num_steps_sampled': 297600, 'grad_time_ms': 645.398, 'update_time_ms': 2.172, 'sample_time_ms': 29753.199}",2025-08-30_18-17-09,cda-server-4,30.990153312683105,1488,1756570629,10.157.146.4,False,7602.34827041626,1200
+249,-748.4992327385019,249,298800,{},-867.4818464095868,298800,0,7634.263424873352,-642.623303710175,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 298800, 'default': {'kl': 0.01379440724849701, 'policy_loss': -0.15837980806827545, 'vf_loss': 1395.765869140625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9479135870933533, 'entropy': 13.80025863647461, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1395.62841796875}, 'load_time_ms': 0.613, 'num_steps_sampled': 298800, 'grad_time_ms': 651.158, 'update_time_ms': 2.144, 'sample_time_ms': 29781.609}",2025-08-30_18-17-41,cda-server-4,31.915154457092285,1494,1756570661,10.157.146.4,False,7634.263424873352,1200
+250,-746.6872673126092,250,300000,{},-867.4818464095868,300000,0,7664.198764801025,-642.623303710175,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 300000, 'default': {'kl': 0.01231742836534977, 'policy_loss': -0.12388438731431961, 'vf_loss': 496.7072448730469, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9526269435882568, 'entropy': 13.661115646362305, 'cur_lr': 4.999999873689376e-05, 'total_loss': 496.60211181640625}, 'load_time_ms': 0.644, 'num_steps_sampled': 300000, 'grad_time_ms': 659.634, 'update_time_ms': 2.187, 'sample_time_ms': 29608.698}",2025-08-30_18-18-11,cda-server-4,29.93533992767334,1500,1756570691,10.157.146.4,False,7664.198764801025,1200
+251,-744.082576963131,251,301200,{},-867.4818464095868,301200,0,7696.428809404373,-638.8648693308375,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 301200, 'default': {'kl': 0.01123795285820961, 'policy_loss': -0.12564389407634735, 'vf_loss': 346.1900634765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9765503406524658, 'entropy': 13.662581443786621, 'cur_lr': 4.999999873689376e-05, 'total_loss': 346.08148193359375}, 'load_time_ms': 0.644, 'num_steps_sampled': 301200, 'grad_time_ms': 662.897, 'update_time_ms': 2.221, 'sample_time_ms': 29772.002}",2025-08-30_18-18-44,cda-server-4,32.23004460334778,1506,1756570724,10.157.146.4,False,7696.428809404373,1200
+252,-743.9088159227161,252,302400,{},-867.4818464095868,302400,0,7727.280985593796,-638.8648693308375,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 302400, 'default': {'kl': 0.012442934326827526, 'policy_loss': -0.1410875767469406, 'vf_loss': 560.002197265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9562659859657288, 'entropy': 13.865729331970215, 'cur_lr': 4.999999873689376e-05, 'total_loss': 559.8800048828125}, 'load_time_ms': 0.66, 'num_steps_sampled': 302400, 'grad_time_ms': 651.001, 'update_time_ms': 2.245, 'sample_time_ms': 30085.781}",2025-08-30_18-19-14,cda-server-4,30.852176189422607,1512,1756570754,10.157.146.4,False,7727.280985593796,1200
+253,-742.9215411044003,253,303600,{},-867.4818464095868,303600,0,7759.765821933746,-638.8648693308375,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 303600, 'default': {'kl': 0.012719275429844856, 'policy_loss': -0.14113980531692505, 'vf_loss': 1822.828125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8669880032539368, 'entropy': 13.400684356689453, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1822.7064208984375}, 'load_time_ms': 0.638, 'num_steps_sampled': 303600, 'grad_time_ms': 633.028, 'update_time_ms': 2.223, 'sample_time_ms': 30392.951}",2025-08-30_18-19-47,cda-server-4,32.48483633995056,1518,1756570787,10.157.146.4,False,7759.765821933746,1200
+254,-741.1048096981062,254,304800,{},-867.4818464095868,304800,0,7790.9313197135925,-633.222412332292,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 304800, 'default': {'kl': 0.013417642563581467, 'policy_loss': -0.15002931654453278, 'vf_loss': 880.028564453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9343044757843018, 'entropy': 13.8759183883667, 'cur_lr': 4.999999873689376e-05, 'total_loss': 879.8989868164062}, 'load_time_ms': 0.642, 'num_steps_sampled': 304800, 'grad_time_ms': 622.781, 'update_time_ms': 2.298, 'sample_time_ms': 30453.365}",2025-08-30_18-20-18,cda-server-4,31.16549777984619,1524,1756570818,10.157.146.4,False,7790.9313197135925,1200
+255,-736.1737130927695,255,306000,{},-867.4818464095868,306000,0,7822.6555943489075,-633.222412332292,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 306000, 'default': {'kl': 0.011968320235610008, 'policy_loss': -0.11574946343898773, 'vf_loss': 500.4434814453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9412376880645752, 'entropy': 13.337209701538086, 'cur_lr': 4.999999873689376e-05, 'total_loss': 500.3459167480469}, 'load_time_ms': 0.645, 'num_steps_sampled': 306000, 'grad_time_ms': 629.468, 'update_time_ms': 2.343, 'sample_time_ms': 30258.472}",2025-08-30_18-20-50,cda-server-4,31.72427463531494,1530,1756570850,10.157.146.4,False,7822.6555943489075,1200
+256,-734.1377852137375,256,307200,{},-867.4818464095868,307200,0,7853.398483037949,-633.222412332292,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 307200, 'default': {'kl': 0.01191532053053379, 'policy_loss': -0.12996000051498413, 'vf_loss': 758.6951293945312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9495684504508972, 'entropy': 13.753128051757812, 'cur_lr': 4.999999873689376e-05, 'total_loss': 758.583251953125}, 'load_time_ms': 0.649, 'num_steps_sampled': 307200, 'grad_time_ms': 640.073, 'update_time_ms': 2.302, 'sample_time_ms': 30254.975}",2025-08-30_18-21-21,cda-server-4,30.742888689041138,1536,1756570881,10.157.146.4,False,7853.398483037949,1200
+257,-734.8190060069924,257,308400,{},-867.4818464095868,308400,0,7885.254684686661,-633.222412332292,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 308400, 'default': {'kl': 0.013633140362799168, 'policy_loss': -0.1557554006576538, 'vf_loss': 575.2354736328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.961979866027832, 'entropy': 13.901071548461914, 'cur_lr': 4.999999873689376e-05, 'total_loss': 575.1004028320312}, 'load_time_ms': 0.674, 'num_steps_sampled': 308400, 'grad_time_ms': 647.601, 'update_time_ms': 2.255, 'sample_time_ms': 30735.059}",2025-08-30_18-21-52,cda-server-4,31.856201648712158,1542,1756570912,10.157.146.4,False,7885.254684686661,1200
+258,-734.6438870297699,258,309600,{},-867.4818464095868,309600,0,7916.198476791382,-633.222412332292,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 309600, 'default': {'kl': 0.011284446343779564, 'policy_loss': -0.12239982187747955, 'vf_loss': 556.432861328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9481278657913208, 'entropy': 13.349513053894043, 'cur_lr': 4.999999873689376e-05, 'total_loss': 556.32763671875}, 'load_time_ms': 0.677, 'num_steps_sampled': 309600, 'grad_time_ms': 666.777, 'update_time_ms': 2.287, 'sample_time_ms': 30711.131}",2025-08-30_18-22-23,cda-server-4,30.94379210472107,1548,1756570943,10.157.146.4,False,7916.198476791382,1200
+259,-733.8111160087309,259,310800,{},-867.4818464095868,310800,0,7948.46201133728,-633.222412332292,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 310800, 'default': {'kl': 0.012652803212404251, 'policy_loss': -0.1483040452003479, 'vf_loss': 677.464599609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9597554802894592, 'entropy': 13.887555122375488, 'cur_lr': 4.999999873689376e-05, 'total_loss': 677.3353881835938}, 'load_time_ms': 0.689, 'num_steps_sampled': 310800, 'grad_time_ms': 667.841, 'update_time_ms': 2.391, 'sample_time_ms': 30744.882}",2025-08-30_18-22-56,cda-server-4,32.26353454589844,1554,1756570976,10.157.146.4,False,7948.46201133728,1200
+260,-732.2527477277406,260,312000,{},-842.3341915804651,312000,0,7978.749780654907,-633.222412332292,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 312000, 'default': {'kl': 0.013079357333481312, 'policy_loss': -0.13989077508449554, 'vf_loss': 322.63970947265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.975938081741333, 'entropy': 13.700403213500977, 'cur_lr': 4.999999873689376e-05, 'total_loss': 322.5196533203125}, 'load_time_ms': 0.652, 'num_steps_sampled': 312000, 'grad_time_ms': 668.071, 'update_time_ms': 2.366, 'sample_time_ms': 30779.96}",2025-08-30_18-23-26,cda-server-4,30.287769317626953,1560,1756571006,10.157.146.4,False,7978.749780654907,1200
+261,-730.3590083483303,261,313200,{},-802.4535288320104,313200,0,8011.6668791770935,-633.222412332292,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 313200, 'default': {'kl': 0.012895317748188972, 'policy_loss': -0.12566232681274414, 'vf_loss': 563.1509399414062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9701309204101562, 'entropy': 13.442577362060547, 'cur_lr': 4.999999873689376e-05, 'total_loss': 563.0448608398438}, 'load_time_ms': 0.646, 'num_steps_sampled': 313200, 'grad_time_ms': 669.691, 'update_time_ms': 2.41, 'sample_time_ms': 30847.095}",2025-08-30_18-23-59,cda-server-4,32.91709852218628,1566,1756571039,10.157.146.4,False,8011.6668791770935,1200
+262,-729.9809301373448,262,314400,{},-802.4535288320104,314400,0,8039.578441858292,-633.222412332292,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 314400, 'default': {'kl': 0.010768848471343517, 'policy_loss': -0.14207832515239716, 'vf_loss': 783.727783203125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9343903660774231, 'entropy': 13.512801170349121, 'cur_lr': 4.999999873689376e-05, 'total_loss': 783.6019287109375}, 'load_time_ms': 0.632, 'num_steps_sampled': 314400, 'grad_time_ms': 684.74, 'update_time_ms': 2.39, 'sample_time_ms': 30538.104}",2025-08-30_18-24-27,cda-server-4,27.91156268119812,1572,1756571067,10.157.146.4,False,8039.578441858292,1200
+263,-733.158371885028,263,315600,{},-828.7038018613944,315600,0,8066.548141002655,-633.222412332292,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 315600, 'default': {'kl': 0.013733652420341969, 'policy_loss': -0.14469200372695923, 'vf_loss': 1140.31298828125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9409355521202087, 'entropy': 13.94416618347168, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1140.189208984375}, 'load_time_ms': 0.624, 'num_steps_sampled': 315600, 'grad_time_ms': 705.518, 'update_time_ms': 2.4, 'sample_time_ms': 29965.786}",2025-08-30_18-24-54,cda-server-4,26.969699144363403,1578,1756571094,10.157.146.4,False,8066.548141002655,1200
+264,-733.6101463315556,264,316800,{},-828.7038018613944,316800,0,8094.67693901062,-633.222412332292,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 316800, 'default': {'kl': 0.01286102645099163, 'policy_loss': -0.14570914208889008, 'vf_loss': 587.285400390625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9702636003494263, 'entropy': 13.649741172790527, 'cur_lr': 4.999999873689376e-05, 'total_loss': 587.1592407226562}, 'load_time_ms': 0.624, 'num_steps_sampled': 316800, 'grad_time_ms': 716.014, 'update_time_ms': 2.368, 'sample_time_ms': 29651.62}",2025-08-30_18-25-22,cda-server-4,28.128798007965088,1584,1756571122,10.157.146.4,False,8094.67693901062,1200
+265,-732.1567270184236,265,318000,{},-828.7038018613944,318000,0,8124.96907377243,-633.222412332292,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 318000, 'default': {'kl': 0.011723197996616364, 'policy_loss': -0.13152119517326355, 'vf_loss': 328.3791198730469, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9745995998382568, 'entropy': 13.135442733764648, 'cur_lr': 4.999999873689376e-05, 'total_loss': 328.2654113769531}, 'load_time_ms': 0.62, 'num_steps_sampled': 318000, 'grad_time_ms': 733.088, 'update_time_ms': 2.353, 'sample_time_ms': 29491.383}",2025-08-30_18-25-52,cda-server-4,30.292134761810303,1590,1756571152,10.157.146.4,False,8124.96907377243,1200
+266,-733.6980430851439,266,319200,{},-828.7038018613944,319200,0,8156.492572069168,-633.222412332292,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 319200, 'default': {'kl': 0.011162208393216133, 'policy_loss': -0.11675238609313965, 'vf_loss': 1251.142333984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9274418950080872, 'entropy': 13.37326717376709, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1251.0426025390625}, 'load_time_ms': 0.626, 'num_steps_sampled': 319200, 'grad_time_ms': 733.213, 'update_time_ms': 2.322, 'sample_time_ms': 29569.312}",2025-08-30_18-26-24,cda-server-4,31.52349829673767,1596,1756571184,10.157.146.4,False,8156.492572069168,1200
+267,-732.2196478353928,267,320400,{},-828.7038018613944,320400,0,8188.726788759232,-633.222412332292,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 320400, 'default': {'kl': 0.010234184563159943, 'policy_loss': -0.11920963227748871, 'vf_loss': 831.7177124023438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9069499969482422, 'entropy': 13.102458000183105, 'cur_lr': 4.999999873689376e-05, 'total_loss': 831.6140747070312}, 'load_time_ms': 0.635, 'num_steps_sampled': 320400, 'grad_time_ms': 740.218, 'update_time_ms': 2.341, 'sample_time_ms': 29600.049}",2025-08-30_18-26-56,cda-server-4,32.23421669006348,1602,1756571216,10.157.146.4,False,8188.726788759232,1200
+268,-733.0271438484848,268,321600,{},-828.7038018613944,321600,0,8219.213377475739,-633.222412332292,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 321600, 'default': {'kl': 0.013153361156582832, 'policy_loss': -0.14168968796730042, 'vf_loss': 351.1569519042969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9717053174972534, 'entropy': 13.600113868713379, 'cur_lr': 4.999999873689376e-05, 'total_loss': 351.0352478027344}, 'load_time_ms': 0.63, 'num_steps_sampled': 321600, 'grad_time_ms': 732.064, 'update_time_ms': 2.295, 'sample_time_ms': 29562.567}",2025-08-30_18-27-27,cda-server-4,30.486588716506958,1608,1756571247,10.157.146.4,False,8219.213377475739,1200
+269,-733.1431442837128,269,322800,{},-828.7038018613944,322800,0,8246.330621957779,-633.222412332292,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 322800, 'default': {'kl': 0.009208186529576778, 'policy_loss': -0.10352053493261337, 'vf_loss': 920.0862426757812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9137091040611267, 'entropy': 13.36030387878418, 'cur_lr': 4.999999873689376e-05, 'total_loss': 919.996826171875}, 'load_time_ms': 0.618, 'num_steps_sampled': 322800, 'grad_time_ms': 704.014, 'update_time_ms': 2.187, 'sample_time_ms': 29076.099}",2025-08-30_18-27-54,cda-server-4,27.117244482040405,1614,1756571274,10.157.146.4,False,8246.330621957779,1200
+270,-729.6064572470059,270,324000,{},-828.7038018613944,324000,0,8277.990301132202,-620.5057089141492,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 324000, 'default': {'kl': 0.009876000694930553, 'policy_loss': -0.12725968658924103, 'vf_loss': 603.72509765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.939768373966217, 'entropy': 13.172237396240234, 'cur_lr': 4.999999873689376e-05, 'total_loss': 603.6128540039062}, 'load_time_ms': 0.626, 'num_steps_sampled': 324000, 'grad_time_ms': 692.286, 'update_time_ms': 2.17, 'sample_time_ms': 29225.066}",2025-08-30_18-28-25,cda-server-4,31.659679174423218,1620,1756571305,10.157.146.4,False,8277.990301132202,1200
+271,-731.555755989802,271,325200,{},-828.7038018613944,325200,0,8309.562978982925,-620.5057089141492,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 325200, 'default': {'kl': 0.011392155662178993, 'policy_loss': -0.1328662931919098, 'vf_loss': 646.059814453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9516627788543701, 'entropy': 13.4348783493042, 'cur_lr': 4.999999873689376e-05, 'total_loss': 645.9442138671875}, 'load_time_ms': 0.662, 'num_steps_sampled': 325200, 'grad_time_ms': 688.999, 'update_time_ms': 2.102, 'sample_time_ms': 29093.832}",2025-08-30_18-28-57,cda-server-4,31.572677850723267,1626,1756571337,10.157.146.4,False,8309.562978982925,1200
+272,-731.9806520060575,272,326400,{},-828.7038018613944,326400,0,8338.774850606918,-620.5057089141492,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 326400, 'default': {'kl': 0.011772241443395615, 'policy_loss': -0.13685926795005798, 'vf_loss': 731.3402709960938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9496092200279236, 'entropy': 13.311923027038574, 'cur_lr': 4.999999873689376e-05, 'total_loss': 731.2212524414062}, 'load_time_ms': 0.689, 'num_steps_sampled': 326400, 'grad_time_ms': 687.777, 'update_time_ms': 2.158, 'sample_time_ms': 29224.926}",2025-08-30_18-29-26,cda-server-4,29.21187162399292,1632,1756571366,10.157.146.4,False,8338.774850606918,1200
+273,-731.4387721218071,273,327600,{},-828.7038018613944,327600,0,8369.35188961029,-620.5057089141492,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 327600, 'default': {'kl': 0.010600791312754154, 'policy_loss': -0.13423830270767212, 'vf_loss': 1027.9703369140625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9230104088783264, 'entropy': 13.215490341186523, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1027.8521728515625}, 'load_time_ms': 0.688, 'num_steps_sampled': 327600, 'grad_time_ms': 686.996, 'update_time_ms': 2.169, 'sample_time_ms': 29586.446}",2025-08-30_18-29-57,cda-server-4,30.577039003372192,1638,1756571397,10.157.146.4,False,8369.35188961029,1200
+274,-731.7024277698174,274,328800,{},-828.7038018613944,328800,0,8399.269432544708,-620.5057089141492,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 328800, 'default': {'kl': 0.012904728762805462, 'policy_loss': -0.15788012742996216, 'vf_loss': 491.19488525390625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9621821641921997, 'entropy': 13.558588027954102, 'cur_lr': 4.999999873689376e-05, 'total_loss': 491.056640625}, 'load_time_ms': 0.688, 'num_steps_sampled': 328800, 'grad_time_ms': 688.099, 'update_time_ms': 2.173, 'sample_time_ms': 29764.247}",2025-08-30_18-30-27,cda-server-4,29.917542934417725,1644,1756571427,10.157.146.4,False,8399.269432544708,1200
+275,-731.8115751531536,275,330000,{},-831.7603259305037,330000,0,8429.878422260284,-620.5057089141492,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 330000, 'default': {'kl': 0.01099952682852745, 'policy_loss': -0.11802412569522858, 'vf_loss': 528.689208984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9595413208007812, 'entropy': 13.076717376708984, 'cur_lr': 4.999999873689376e-05, 'total_loss': 528.587890625}, 'load_time_ms': 0.706, 'num_steps_sampled': 330000, 'grad_time_ms': 687.039, 'update_time_ms': 2.134, 'sample_time_ms': 29796.936}",2025-08-30_18-30-57,cda-server-4,30.608989715576172,1650,1756571457,10.157.146.4,False,8429.878422260284,1200
+276,-729.1084711446508,276,331200,{},-831.7603259305037,331200,0,8459.313580513,-620.5057089141492,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 331200, 'default': {'kl': 0.01110704243183136, 'policy_loss': -0.14281511306762695, 'vf_loss': 994.2623901367188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8903858661651611, 'entropy': 13.221559524536133, 'cur_lr': 4.999999873689376e-05, 'total_loss': 994.136474609375}, 'load_time_ms': 0.694, 'num_steps_sampled': 331200, 'grad_time_ms': 675.552, 'update_time_ms': 2.233, 'sample_time_ms': 29599.525}",2025-08-30_18-31-27,cda-server-4,29.435158252716064,1656,1756571487,10.157.146.4,False,8459.313580513,1200
+277,-728.0338045387751,277,332400,{},-831.7603259305037,332400,0,8491.440937757492,-620.5057089141492,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 332400, 'default': {'kl': 0.012792712077498436, 'policy_loss': -0.15850712358951569, 'vf_loss': 935.1987915039062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9293324947357178, 'entropy': 13.225822448730469, 'cur_lr': 4.999999873689376e-05, 'total_loss': 935.0596923828125}, 'load_time_ms': 0.693, 'num_steps_sampled': 332400, 'grad_time_ms': 676.479, 'update_time_ms': 2.239, 'sample_time_ms': 29587.9}",2025-08-30_18-31-59,cda-server-4,32.12735724449158,1662,1756571519,10.157.146.4,False,8491.440937757492,1200
+278,-726.4827580366001,278,333600,{},-831.7603259305037,333600,0,8523.02310204506,-620.5057089141492,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 333600, 'default': {'kl': 0.012480903416872025, 'policy_loss': -0.14398102462291718, 'vf_loss': 254.112060546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9753735661506653, 'entropy': 13.351693153381348, 'cur_lr': 4.999999873689376e-05, 'total_loss': 253.98703002929688}, 'load_time_ms': 0.7, 'num_steps_sampled': 333600, 'grad_time_ms': 687.465, 'update_time_ms': 2.305, 'sample_time_ms': 29686.336}",2025-08-30_18-32-31,cda-server-4,31.58216428756714,1668,1756571551,10.157.146.4,False,8523.02310204506,1200
+279,-724.8843160536148,279,334800,{},-831.7603259305037,334800,0,8556.136403083801,-620.5057089141492,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 334800, 'default': {'kl': 0.013101722113788128, 'policy_loss': -0.13275843858718872, 'vf_loss': 367.4743957519531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9666612148284912, 'entropy': 13.333313941955566, 'cur_lr': 4.999999873689376e-05, 'total_loss': 367.36151123046875}, 'load_time_ms': 0.721, 'num_steps_sampled': 334800, 'grad_time_ms': 713.937, 'update_time_ms': 2.352, 'sample_time_ms': 30259.347}",2025-08-30_18-33-04,cda-server-4,33.113301038742065,1674,1756571584,10.157.146.4,False,8556.136403083801,1200
+280,-720.8243589209408,280,336000,{},-831.7603259305037,336000,0,8585.33066534996,-620.5057089141492,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 336000, 'default': {'kl': 0.013017650693655014, 'policy_loss': -0.15068604052066803, 'vf_loss': 202.12924194335938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9823534488677979, 'entropy': 13.202985763549805, 'cur_lr': 4.999999873689376e-05, 'total_loss': 201.9983367919922}, 'load_time_ms': 0.725, 'num_steps_sampled': 336000, 'grad_time_ms': 724.782, 'update_time_ms': 2.332, 'sample_time_ms': 30001.94}",2025-08-30_18-33-33,cda-server-4,29.194262266159058,1680,1756571613,10.157.146.4,False,8585.33066534996,1200
+281,-721.5207742255155,281,337200,{},-831.7603259305037,337200,0,8614.886694669724,-620.5057089141492,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 337200, 'default': {'kl': 0.01225439365953207, 'policy_loss': -0.14708498120307922, 'vf_loss': 444.6356201171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9645121097564697, 'entropy': 13.402144432067871, 'cur_lr': 4.999999873689376e-05, 'total_loss': 444.50714111328125}, 'load_time_ms': 0.699, 'num_steps_sampled': 337200, 'grad_time_ms': 718.634, 'update_time_ms': 2.352, 'sample_time_ms': 29806.524}",2025-08-30_18-34-03,cda-server-4,29.556029319763184,1686,1756571643,10.157.146.4,False,8614.886694669724,1200
+282,-720.5278969307764,282,338400,{},-831.7603259305037,338400,0,8644.875756978989,-620.5057089141492,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 338400, 'default': {'kl': 0.012577964924275875, 'policy_loss': -0.1272546947002411, 'vf_loss': 705.1400756835938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9474582672119141, 'entropy': 12.896075248718262, 'cur_lr': 4.999999873689376e-05, 'total_loss': 705.031982421875}, 'load_time_ms': 0.671, 'num_steps_sampled': 338400, 'grad_time_ms': 718.776, 'update_time_ms': 2.373, 'sample_time_ms': 29884.118}",2025-08-30_18-34-33,cda-server-4,29.989062309265137,1692,1756571673,10.157.146.4,False,8644.875756978989,1200
+283,-719.027168354637,283,339600,{},-831.7603259305037,339600,0,8676.975930929184,-620.5057089141492,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 339600, 'default': {'kl': 0.012477654963731766, 'policy_loss': -0.13944584131240845, 'vf_loss': 563.7444458007812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9519338607788086, 'entropy': 13.338841438293457, 'cur_lr': 4.999999873689376e-05, 'total_loss': 563.6239624023438}, 'load_time_ms': 0.676, 'num_steps_sampled': 339600, 'grad_time_ms': 716.783, 'update_time_ms': 2.391, 'sample_time_ms': 30038.491}",2025-08-30_18-35-05,cda-server-4,32.10017395019531,1698,1756571705,10.157.146.4,False,8676.975930929184,1200
+284,-718.5054324461248,284,340800,{},-831.7603259305037,340800,0,8709.591125488281,-620.5057089141492,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 340800, 'default': {'kl': 0.009752129204571247, 'policy_loss': -0.11191526800394058, 'vf_loss': 1293.7994384765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9174357652664185, 'entropy': 13.319262504577637, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1293.7022705078125}, 'load_time_ms': 0.671, 'num_steps_sampled': 340800, 'grad_time_ms': 716.175, 'update_time_ms': 2.366, 'sample_time_ms': 30308.942}",2025-08-30_18-35-37,cda-server-4,32.61519455909729,1704,1756571737,10.157.146.4,False,8709.591125488281,1200
+285,-718.5511643526069,285,342000,{},-831.7603259305037,342000,0,8741.283398628235,-620.5057089141492,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 342000, 'default': {'kl': 0.011149706318974495, 'policy_loss': -0.13290570676326752, 'vf_loss': 820.0985107421875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9396412968635559, 'entropy': 13.050820350646973, 'cur_lr': 4.999999873689376e-05, 'total_loss': 819.9825439453125}, 'load_time_ms': 0.664, 'num_steps_sampled': 342000, 'grad_time_ms': 715.188, 'update_time_ms': 2.407, 'sample_time_ms': 30418.273}",2025-08-30_18-36-09,cda-server-4,31.692273139953613,1710,1756571769,10.157.146.4,False,8741.283398628235,1200
+286,-720.5528863200435,286,343200,{},-831.7603259305037,343200,0,8772.279833316803,-626.2019993626095,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 343200, 'default': {'kl': 0.009545559994876385, 'policy_loss': -0.11171163618564606, 'vf_loss': 671.4990234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9486469626426697, 'entropy': 12.95020580291748, 'cur_lr': 4.999999873689376e-05, 'total_loss': 671.4017944335938}, 'load_time_ms': 0.669, 'num_steps_sampled': 343200, 'grad_time_ms': 729.233, 'update_time_ms': 2.309, 'sample_time_ms': 30560.44}",2025-08-30_18-36-40,cda-server-4,30.996434688568115,1716,1756571800,10.157.146.4,False,8772.279833316803,1200
+287,-723.323149019454,287,344400,{},-831.7603259305037,344400,0,8805.599873304367,-626.2019993626095,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 344400, 'default': {'kl': 0.013106235302984715, 'policy_loss': -0.12715043127536774, 'vf_loss': 466.50048828125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9737069010734558, 'entropy': 12.99968433380127, 'cur_lr': 4.999999873689376e-05, 'total_loss': 466.3932189941406}, 'load_time_ms': 0.637, 'num_steps_sampled': 344400, 'grad_time_ms': 709.897, 'update_time_ms': 2.289, 'sample_time_ms': 30699.128}",2025-08-30_18-37-13,cda-server-4,33.32003998756409,1722,1756571833,10.157.146.4,False,8805.599873304367,1200
+288,-722.7625755181064,288,345600,{},-831.7603259305037,345600,0,8837.90132522583,-626.2019993626095,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 345600, 'default': {'kl': 0.01143964659422636, 'policy_loss': -0.14128343760967255, 'vf_loss': 600.720458984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9423995614051819, 'entropy': 13.27757453918457, 'cur_lr': 4.999999873689376e-05, 'total_loss': 600.5965576171875}, 'load_time_ms': 0.64, 'num_steps_sampled': 345600, 'grad_time_ms': 699.351, 'update_time_ms': 2.246, 'sample_time_ms': 30781.631}",2025-08-30_18-37-46,cda-server-4,32.30145192146301,1728,1756571866,10.157.146.4,False,8837.90132522583,1200
+289,-720.4567523169919,289,346800,{},-831.7603259305037,346800,0,8869.611619472504,-626.2019993626095,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 346800, 'default': {'kl': 0.011604719795286655, 'policy_loss': -0.12145956605672836, 'vf_loss': 216.0713653564453, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9777961373329163, 'entropy': 12.781102180480957, 'cur_lr': 4.999999873689376e-05, 'total_loss': 215.967529296875}, 'load_time_ms': 0.622, 'num_steps_sampled': 346800, 'grad_time_ms': 687.543, 'update_time_ms': 2.187, 'sample_time_ms': 30653.182}",2025-08-30_18-38-17,cda-server-4,31.710294246673584,1734,1756571897,10.157.146.4,False,8869.611619472504,1200
+290,-718.7967525756525,290,348000,{},-831.7603259305037,348000,0,8901.633833408356,-625.8361226977133,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 348000, 'default': {'kl': 0.013554967008531094, 'policy_loss': -0.1546093225479126, 'vf_loss': 483.4078369140625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9564158916473389, 'entropy': 13.0939302444458, 'cur_lr': 4.999999873689376e-05, 'total_loss': 483.2738037109375}, 'load_time_ms': 0.64, 'num_steps_sampled': 348000, 'grad_time_ms': 679.885, 'update_time_ms': 2.217, 'sample_time_ms': 30943.535}",2025-08-30_18-38-49,cda-server-4,32.02221393585205,1740,1756571929,10.157.146.4,False,8901.633833408356,1200
+291,-716.6269125956018,291,349200,{},-831.7603259305037,349200,0,8932.263687849045,-595.044618742254,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 349200, 'default': {'kl': 0.012182150036096573, 'policy_loss': -0.12521988153457642, 'vf_loss': 533.1240234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9573729038238525, 'entropy': 12.984842300415039, 'cur_lr': 4.999999873689376e-05, 'total_loss': 533.017333984375}, 'load_time_ms': 0.639, 'num_steps_sampled': 349200, 'grad_time_ms': 670.416, 'update_time_ms': 2.217, 'sample_time_ms': 31060.396}",2025-08-30_18-39-20,cda-server-4,30.629854440689087,1746,1756571960,10.157.146.4,False,8932.263687849045,1200
+292,-715.0090673829845,292,350400,{},-805.009503009116,350400,0,8965.152281284332,-595.044618742254,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 350400, 'default': {'kl': 0.013462428003549576, 'policy_loss': -0.13993631303310394, 'vf_loss': 354.5260009765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.967193603515625, 'entropy': 13.066158294677734, 'cur_lr': 4.999999873689376e-05, 'total_loss': 354.4065246582031}, 'load_time_ms': 0.645, 'num_steps_sampled': 350400, 'grad_time_ms': 657.856, 'update_time_ms': 2.175, 'sample_time_ms': 31363.024}",2025-08-30_18-39-53,cda-server-4,32.888593435287476,1752,1756571993,10.157.146.4,False,8965.152281284332,1200
+293,-713.860514460734,293,351600,{},-805.009503009116,351600,0,8994.76729297638,-595.044618742254,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 351600, 'default': {'kl': 0.011060558259487152, 'policy_loss': -0.12386894226074219, 'vf_loss': 1335.2471923828125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8552218675613403, 'entropy': 13.100796699523926, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1335.1400146484375}, 'load_time_ms': 0.663, 'num_steps_sampled': 351600, 'grad_time_ms': 654.152, 'update_time_ms': 2.244, 'sample_time_ms': 31118.047}",2025-08-30_18-40-23,cda-server-4,29.61501169204712,1758,1756572023,10.157.146.4,False,8994.76729297638,1200
+294,-714.1694570192693,294,352800,{},-805.009503009116,352800,0,9024.04818534851,-595.044618742254,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 352800, 'default': {'kl': 0.01288018561899662, 'policy_loss': -0.15499259531497955, 'vf_loss': 406.16510009765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9707621335983276, 'entropy': 12.787577629089355, 'cur_lr': 4.999999873689376e-05, 'total_loss': 406.0296630859375}, 'load_time_ms': 0.667, 'num_steps_sampled': 352800, 'grad_time_ms': 654.404, 'update_time_ms': 2.285, 'sample_time_ms': 30784.26}",2025-08-30_18-40-52,cda-server-4,29.280892372131348,1764,1756572052,10.157.146.4,False,9024.04818534851,1200
+295,-712.5450753320055,295,354000,{},-805.009503009116,354000,0,9051.961976528168,-595.044618742254,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 354000, 'default': {'kl': 0.012370269745588303, 'policy_loss': -0.12107792496681213, 'vf_loss': 711.9481811523438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9421083927154541, 'entropy': 12.917118072509766, 'cur_lr': 4.999999873689376e-05, 'total_loss': 711.845947265625}, 'load_time_ms': 0.66, 'num_steps_sampled': 354000, 'grad_time_ms': 647.696, 'update_time_ms': 2.32, 'sample_time_ms': 30413.034}",2025-08-30_18-41-20,cda-server-4,27.913791179656982,1770,1756572080,10.157.146.4,False,9051.961976528168,1200
+296,-711.9664763567629,296,355200,{},-805.009503009116,355200,0,9082.869657278061,-595.044618742254,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 355200, 'default': {'kl': 0.013963914476335049, 'policy_loss': -0.135398268699646, 'vf_loss': 536.6640625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9589101076126099, 'entropy': 12.826006889343262, 'cur_lr': 4.999999873689376e-05, 'total_loss': 536.5498046875}, 'load_time_ms': 0.657, 'num_steps_sampled': 355200, 'grad_time_ms': 635.185, 'update_time_ms': 2.392, 'sample_time_ms': 30416.621}",2025-08-30_18-41-51,cda-server-4,30.90768074989319,1776,1756572111,10.157.146.4,False,9082.869657278061,1200
+297,-711.3256051509516,297,356400,{},-805.009503009116,356400,0,9112.57939004898,-595.044618742254,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 356400, 'default': {'kl': 0.012533068656921387, 'policy_loss': -0.14192569255828857, 'vf_loss': 213.9569091796875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9788229465484619, 'entropy': 12.91860294342041, 'cur_lr': 4.999999873689376e-05, 'total_loss': 213.83399963378906}, 'load_time_ms': 0.654, 'num_steps_sampled': 356400, 'grad_time_ms': 641.934, 'update_time_ms': 2.427, 'sample_time_ms': 30048.837}",2025-08-30_18-42-20,cda-server-4,29.7097327709198,1782,1756572140,10.157.146.4,False,9112.57939004898,1200
+298,-709.9505442642869,298,357600,{},-802.5231498481648,357600,0,9140.471915960312,-595.044618742254,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 357600, 'default': {'kl': 0.013012871146202087, 'policy_loss': -0.1493036299943924, 'vf_loss': 933.5675048828125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9558462500572205, 'entropy': 13.06198501586914, 'cur_lr': 4.999999873689376e-05, 'total_loss': 933.4379272460938}, 'load_time_ms': 0.679, 'num_steps_sampled': 357600, 'grad_time_ms': 634.626, 'update_time_ms': 2.437, 'sample_time_ms': 29615.264}",2025-08-30_18-42-48,cda-server-4,27.892525911331177,1788,1756572168,10.157.146.4,False,9140.471915960312,1200
+299,-708.9977004860042,299,358800,{},-802.5231498481648,358800,0,9167.61768245697,-595.044618742254,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 358800, 'default': {'kl': 0.012485180050134659, 'policy_loss': -0.13880275189876556, 'vf_loss': 508.4940185546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9660834074020386, 'entropy': 12.938386917114258, 'cur_lr': 4.999999873689376e-05, 'total_loss': 508.3742370605469}, 'load_time_ms': 0.699, 'num_steps_sampled': 358800, 'grad_time_ms': 633.323, 'update_time_ms': 2.505, 'sample_time_ms': 29160.031}",2025-08-30_18-43-16,cda-server-4,27.145766496658325,1794,1756572196,10.157.146.4,False,9167.61768245697,1200
+300,-708.6801863590248,300,360000,{},-802.5231498481648,360000,0,9199.09749531746,-595.044618742254,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 360000, 'default': {'kl': 0.013789261691272259, 'policy_loss': -0.16847136616706848, 'vf_loss': 941.122802734375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.945521891117096, 'entropy': 13.04391860961914, 'cur_lr': 4.999999873689376e-05, 'total_loss': 940.9752807617188}, 'load_time_ms': 0.664, 'num_steps_sampled': 360000, 'grad_time_ms': 635.433, 'update_time_ms': 2.481, 'sample_time_ms': 29103.82}",2025-08-30_18-43-47,cda-server-4,31.47981286048889,1800,1756572227,10.157.146.4,False,9199.09749531746,1200
+301,-705.6476195139238,301,361200,{},-799.6904747310442,361200,0,9231.86960029602,-595.044618742254,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 361200, 'default': {'kl': 0.011618373915553093, 'policy_loss': -0.13356079161167145, 'vf_loss': 476.8249206542969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9694162011146545, 'entropy': 12.930486679077148, 'cur_lr': 4.999999873689376e-05, 'total_loss': 476.70904541015625}, 'load_time_ms': 0.696, 'num_steps_sampled': 361200, 'grad_time_ms': 653.075, 'update_time_ms': 2.62, 'sample_time_ms': 29300.148}",2025-08-30_18-44-20,cda-server-4,32.7721049785614,1806,1756572260,10.157.146.4,False,9231.86960029602,1200
+302,-708.8563578147784,302,362400,{},-799.6904747310442,362400,0,9260.90166926384,-595.044618742254,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 362400, 'default': {'kl': 0.012342691421508789, 'policy_loss': -0.13761191070079803, 'vf_loss': 1663.21484375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9131940007209778, 'entropy': 12.881888389587402, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1663.0960693359375}, 'load_time_ms': 0.691, 'num_steps_sampled': 362400, 'grad_time_ms': 652.811, 'update_time_ms': 2.707, 'sample_time_ms': 28914.629}",2025-08-30_18-44-49,cda-server-4,29.032068967819214,1812,1756572289,10.157.146.4,False,9260.90166926384,1200
+303,-704.0169608314443,303,363600,{},-799.6904747310442,363600,0,9293.865013837814,-595.044618742254,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 363600, 'default': {'kl': 0.01078004390001297, 'policy_loss': -0.12402664124965668, 'vf_loss': 1008.507568359375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8929091691970825, 'entropy': 12.73666000366211, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1008.3999633789062}, 'load_time_ms': 0.681, 'num_steps_sampled': 363600, 'grad_time_ms': 637.32, 'update_time_ms': 2.61, 'sample_time_ms': 29265.098}",2025-08-30_18-45-22,cda-server-4,32.96334457397461,1818,1756572322,10.157.146.4,False,9293.865013837814,1200
+304,-703.5449574542158,304,364800,{},-799.6904747310442,364800,0,9323.727890729904,-595.044618742254,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 364800, 'default': {'kl': 0.01208583079278469, 'policy_loss': -0.1399444043636322, 'vf_loss': 592.9386596679688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9426863789558411, 'entropy': 12.955503463745117, 'cur_lr': 4.999999873689376e-05, 'total_loss': 592.8170166015625}, 'load_time_ms': 0.696, 'num_steps_sampled': 364800, 'grad_time_ms': 624.384, 'update_time_ms': 2.556, 'sample_time_ms': 29336.191}",2025-08-30_18-45-52,cda-server-4,29.862876892089844,1824,1756572352,10.157.146.4,False,9323.727890729904,1200
+305,-704.6010762581728,305,366000,{},-799.6904747310442,366000,0,9356.394894123077,-595.044618742254,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 366000, 'default': {'kl': 0.012492909096181393, 'policy_loss': -0.1515706330537796, 'vf_loss': 564.4402465820312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9642024636268616, 'entropy': 13.042348861694336, 'cur_lr': 4.999999873689376e-05, 'total_loss': 564.3076171875}, 'load_time_ms': 0.712, 'num_steps_sampled': 366000, 'grad_time_ms': 627.247, 'update_time_ms': 2.569, 'sample_time_ms': 29808.67}",2025-08-30_18-46-24,cda-server-4,32.66700339317322,1830,1756572384,10.157.146.4,False,9356.394894123077,1200
+306,-704.9857112442634,306,367200,{},-799.6904747310442,367200,0,9385.906100034714,-595.044618742254,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 367200, 'default': {'kl': 0.011689498089253902, 'policy_loss': -0.13431023061275482, 'vf_loss': 729.3430786132812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9284777045249939, 'entropy': 12.713752746582031, 'cur_lr': 4.999999873689376e-05, 'total_loss': 729.2265625}, 'load_time_ms': 0.709, 'num_steps_sampled': 367200, 'grad_time_ms': 637.979, 'update_time_ms': 2.507, 'sample_time_ms': 29658.27}",2025-08-30_18-46-54,cda-server-4,29.511205911636353,1836,1756572414,10.157.146.4,False,9385.906100034714,1200
+307,-705.38980754343,307,368400,{},-799.4323093087522,368400,0,9416.334292411804,-595.044618742254,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 368400, 'default': {'kl': 0.013246696442365646, 'policy_loss': -0.12158621847629547, 'vf_loss': 335.4291076660156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9695315957069397, 'entropy': 12.557744026184082, 'cur_lr': 4.999999873689376e-05, 'total_loss': 335.32763671875}, 'load_time_ms': 0.709, 'num_steps_sampled': 368400, 'grad_time_ms': 649.149, 'update_time_ms': 2.484, 'sample_time_ms': 29719.014}",2025-08-30_18-47-24,cda-server-4,30.428192377090454,1842,1756572444,10.157.146.4,False,9416.334292411804,1200
+308,-703.8103351454773,308,369600,{},-799.4323093087522,369600,0,9448.717587471008,-596.4187915982512,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 369600, 'default': {'kl': 0.011937962844967842, 'policy_loss': -0.12883073091506958, 'vf_loss': 620.58984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9355123043060303, 'entropy': 12.87744140625, 'cur_lr': 4.999999873689376e-05, 'total_loss': 620.4791259765625}, 'load_time_ms': 0.679, 'num_steps_sampled': 369600, 'grad_time_ms': 663.048, 'update_time_ms': 2.485, 'sample_time_ms': 30154.237}",2025-08-30_18-47-57,cda-server-4,32.3832950592041,1848,1756572477,10.157.146.4,False,9448.717587471008,1200
+309,-701.846203493792,309,370800,{},-799.4323093087522,370800,0,9479.052629470825,-596.4187915982512,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 370800, 'default': {'kl': 0.013136954978108406, 'policy_loss': -0.14976266026496887, 'vf_loss': 368.81256103515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9649488925933838, 'entropy': 12.852884292602539, 'cur_lr': 4.999999873689376e-05, 'total_loss': 368.6827697753906}, 'load_time_ms': 0.659, 'num_steps_sampled': 370800, 'grad_time_ms': 678.894, 'update_time_ms': 2.409, 'sample_time_ms': 30457.443}",2025-08-30_18-48-27,cda-server-4,30.335041999816895,1854,1756572507,10.157.146.4,False,9479.052629470825,1200
+310,-705.0743622744471,310,372000,{},-801.6974474205065,372000,0,9506.991186618805,-596.4187915982512,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 372000, 'default': {'kl': 0.013140873052179813, 'policy_loss': -0.13345567882061005, 'vf_loss': 859.2943115234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9413283467292786, 'entropy': 12.32619857788086, 'cur_lr': 4.999999873689376e-05, 'total_loss': 859.1808471679688}, 'load_time_ms': 0.672, 'num_steps_sampled': 372000, 'grad_time_ms': 685.384, 'update_time_ms': 2.467, 'sample_time_ms': 30096.759}",2025-08-30_18-48-55,cda-server-4,27.938557147979736,1860,1756572535,10.157.146.4,False,9506.991186618805,1200
+311,-702.7575152334489,311,373200,{},-801.6974474205065,373200,0,9535.688334703445,-596.4187915982512,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 373200, 'default': {'kl': 0.012027140706777573, 'policy_loss': -0.13839495182037354, 'vf_loss': 898.6915893554688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9372808933258057, 'entropy': 13.048412322998047, 'cur_lr': 4.999999873689376e-05, 'total_loss': 898.5714721679688}, 'load_time_ms': 0.636, 'num_steps_sampled': 373200, 'grad_time_ms': 685.812, 'update_time_ms': 2.282, 'sample_time_ms': 29689.117}",2025-08-30_18-49-24,cda-server-4,28.697148084640503,1866,1756572564,10.157.146.4,False,9535.688334703445,1200
+312,-703.031531975502,312,374400,{},-801.6974474205065,374400,0,9566.4819521904,-596.4187915982512,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 374400, 'default': {'kl': 0.013887416571378708, 'policy_loss': -0.16039159893989563, 'vf_loss': 234.01611328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9784005284309387, 'entropy': 12.963979721069336, 'cur_lr': 4.999999873689376e-05, 'total_loss': 233.8767852783203}, 'load_time_ms': 0.671, 'num_steps_sampled': 374400, 'grad_time_ms': 694.328, 'update_time_ms': 2.169, 'sample_time_ms': 29856.732}",2025-08-30_18-49-55,cda-server-4,30.793617486953735,1872,1756572595,10.157.146.4,False,9566.4819521904,1200
+313,-703.8768809870728,313,375600,{},-801.6974474205065,375600,0,9595.673404455185,-596.4187915982512,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 375600, 'default': {'kl': 0.013500652275979519, 'policy_loss': -0.15621253848075867, 'vf_loss': 562.7306518554688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9466798305511475, 'entropy': 12.672296524047852, 'cur_lr': 4.999999873689376e-05, 'total_loss': 562.594970703125}, 'load_time_ms': 0.662, 'num_steps_sampled': 375600, 'grad_time_ms': 713.975, 'update_time_ms': 2.208, 'sample_time_ms': 29459.825}",2025-08-30_18-50-24,cda-server-4,29.191452264785767,1878,1756572624,10.157.146.4,False,9595.673404455185,1200
+314,-703.6613001616535,314,376800,{},-802.426592712514,376800,0,9626.871644496918,-595.4706823893439,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 376800, 'default': {'kl': 0.013020848855376244, 'policy_loss': -0.14528529345989227, 'vf_loss': 232.3220977783203, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.978983998298645, 'entropy': 12.881868362426758, 'cur_lr': 4.999999873689376e-05, 'total_loss': 232.19659423828125}, 'load_time_ms': 0.654, 'num_steps_sampled': 376800, 'grad_time_ms': 725.844, 'update_time_ms': 2.25, 'sample_time_ms': 29581.425}",2025-08-30_18-50-55,cda-server-4,31.198240041732788,1884,1756572655,10.157.146.4,False,9626.871644496918,1200
+315,-703.5328733749868,315,378000,{},-802.426592712514,378000,0,9659.038366556168,-595.4706823893439,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 378000, 'default': {'kl': 0.012233614921569824, 'policy_loss': -0.14059777557849884, 'vf_loss': 208.68861389160156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9798057079315186, 'entropy': 12.74368953704834, 'cur_lr': 4.999999873689376e-05, 'total_loss': 208.56658935546875}, 'load_time_ms': 0.643, 'num_steps_sampled': 378000, 'grad_time_ms': 730.527, 'update_time_ms': 2.209, 'sample_time_ms': 29526.749}",2025-08-30_18-51-27,cda-server-4,32.16672205924988,1890,1756572687,10.157.146.4,False,9659.038366556168,1200
+316,-700.1108228803637,316,379200,{},-802.426592712514,379200,0,9691.578606128693,-595.4706823893439,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 379200, 'default': {'kl': 0.01187069807201624, 'policy_loss': -0.12771683931350708, 'vf_loss': 456.3721923828125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9609631299972534, 'entropy': 12.438872337341309, 'cur_lr': 4.999999873689376e-05, 'total_loss': 456.2624816894531}, 'load_time_ms': 0.646, 'num_steps_sampled': 379200, 'grad_time_ms': 734.788, 'update_time_ms': 2.201, 'sample_time_ms': 29825.479}",2025-08-30_18-52-00,cda-server-4,32.540239572525024,1896,1756572720,10.157.146.4,False,9691.578606128693,1200
+317,-701.0486818993148,317,380400,{},-802.426592712514,380400,0,9722.436306476593,-595.4706823893439,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 380400, 'default': {'kl': 0.012515961192548275, 'policy_loss': -0.1448635309934616, 'vf_loss': 859.2845458984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9499176740646362, 'entropy': 12.900279998779297, 'cur_lr': 4.999999873689376e-05, 'total_loss': 859.1587524414062}, 'load_time_ms': 0.656, 'num_steps_sampled': 380400, 'grad_time_ms': 733.945, 'update_time_ms': 2.232, 'sample_time_ms': 29869.184}",2025-08-30_18-52-31,cda-server-4,30.85770034790039,1902,1756572751,10.157.146.4,False,9722.436306476593,1200
+318,-701.0577149809221,318,381600,{},-802.426592712514,381600,0,9751.481254816055,-595.4706823893439,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 381600, 'default': {'kl': 0.013049798086285591, 'policy_loss': -0.15561135113239288, 'vf_loss': 533.052001953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9754099249839783, 'entropy': 12.736699104309082, 'cur_lr': 4.999999873689376e-05, 'total_loss': 532.9161376953125}, 'load_time_ms': 0.659, 'num_steps_sampled': 381600, 'grad_time_ms': 725.222, 'update_time_ms': 2.194, 'sample_time_ms': 29544.134}",2025-08-30_18-53-00,cda-server-4,29.04494833946228,1908,1756572780,10.157.146.4,False,9751.481254816055,1200
+319,-697.8136184657893,319,382800,{},-802.426592712514,382800,0,9784.364231348038,-595.4706823893439,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 382800, 'default': {'kl': 0.011446905322372913, 'policy_loss': -0.14374174177646637, 'vf_loss': 481.3133544921875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.956641435623169, 'entropy': 12.537480354309082, 'cur_lr': 4.999999873689376e-05, 'total_loss': 481.18695068359375}, 'load_time_ms': 0.656, 'num_steps_sampled': 382800, 'grad_time_ms': 708.757, 'update_time_ms': 2.241, 'sample_time_ms': 29815.403}",2025-08-30_18-53-33,cda-server-4,32.88297653198242,1914,1756572813,10.157.146.4,False,9784.364231348038,1200
+320,-698.6526722301141,320,384000,{},-802.426592712514,384000,0,9815.38261961937,-595.4706823893439,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 384000, 'default': {'kl': 0.01253677997738123, 'policy_loss': -0.14889678359031677, 'vf_loss': 259.6505126953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.971534013748169, 'entropy': 12.604217529296875, 'cur_lr': 4.999999873689376e-05, 'total_loss': 259.5206604003906}, 'load_time_ms': 0.654, 'num_steps_sampled': 384000, 'grad_time_ms': 701.221, 'update_time_ms': 2.202, 'sample_time_ms': 30130.984}",2025-08-30_18-54-04,cda-server-4,31.018388271331787,1920,1756572844,10.157.146.4,False,9815.38261961937,1200
+321,-696.4565213815108,321,385200,{},-802.426592712514,385200,0,9847.74550485611,-595.4706823893439,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 385200, 'default': {'kl': 0.012302556075155735, 'policy_loss': -0.12419375032186508, 'vf_loss': 620.0968017578125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9512699842453003, 'entropy': 12.615986824035645, 'cur_lr': 4.999999873689376e-05, 'total_loss': 619.9912719726562}, 'load_time_ms': 0.653, 'num_steps_sampled': 385200, 'grad_time_ms': 692.043, 'update_time_ms': 2.227, 'sample_time_ms': 30506.689}",2025-08-30_18-54-36,cda-server-4,32.36288523674011,1926,1756572876,10.157.146.4,False,9847.74550485611,1200
+322,-694.6523032992467,322,386400,{},-802.426592712514,386400,0,9876.769228935242,-595.4706823893439,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 386400, 'default': {'kl': 0.012509223073720932, 'policy_loss': -0.1350371241569519, 'vf_loss': 485.1667175292969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.954868733882904, 'entropy': 12.520462989807129, 'cur_lr': 4.999999873689376e-05, 'total_loss': 485.0506591796875}, 'load_time_ms': 0.63, 'num_steps_sampled': 386400, 'grad_time_ms': 677.754, 'update_time_ms': 2.259, 'sample_time_ms': 30344.046}",2025-08-30_18-55-05,cda-server-4,29.02372407913208,1932,1756572905,10.157.146.4,False,9876.769228935242,1200
+323,-693.8617285044072,323,387600,{},-808.1669642941381,387600,0,9906.371312141418,-595.4706823893439,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 387600, 'default': {'kl': 0.011337029747664928, 'policy_loss': -0.11999722570180893, 'vf_loss': 656.3443603515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9662917256355286, 'entropy': 12.485161781311035, 'cur_lr': 4.999999873689376e-05, 'total_loss': 656.241455078125}, 'load_time_ms': 0.663, 'num_steps_sampled': 387600, 'grad_time_ms': 673.369, 'update_time_ms': 2.233, 'sample_time_ms': 30389.481}",2025-08-30_18-55-35,cda-server-4,29.602083206176758,1938,1756572935,10.157.146.4,False,9906.371312141418,1200
+324,-690.5790719287572,324,388800,{},-808.1669642941381,388800,0,9935.628594398499,-595.4706823893439,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 388800, 'default': {'kl': 0.012503260746598244, 'policy_loss': -0.1247900053858757, 'vf_loss': 2398.10498046875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9193277359008789, 'entropy': 12.335196495056152, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2397.9990234375}, 'load_time_ms': 0.658, 'num_steps_sampled': 388800, 'grad_time_ms': 675.306, 'update_time_ms': 2.261, 'sample_time_ms': 30193.566}",2025-08-30_18-56-04,cda-server-4,29.257282257080078,1944,1756572964,10.157.146.4,False,9935.628594398499,1200
+325,-694.9603615095356,325,390000,{},-808.1669642941381,390000,0,9966.108959913254,-595.4706823893439,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 390000, 'default': {'kl': 0.01367180421948433, 'policy_loss': -0.14025408029556274, 'vf_loss': 1395.1441650390625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9243195056915283, 'entropy': 12.773940086364746, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1395.024658203125}, 'load_time_ms': 0.683, 'num_steps_sampled': 390000, 'grad_time_ms': 674.71, 'update_time_ms': 2.311, 'sample_time_ms': 30025.391}",2025-08-30_18-56-34,cda-server-4,30.48036551475525,1950,1756572994,10.157.146.4,False,9966.108959913254,1200
+326,-696.2905139722715,326,391200,{},-808.1669642941381,391200,0,9997.996777534485,-595.4706823893439,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 391200, 'default': {'kl': 0.014346431009471416, 'policy_loss': -0.14345747232437134, 'vf_loss': 192.30873107910156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9797531962394714, 'entropy': 12.784830093383789, 'cur_lr': 4.999999873689376e-05, 'total_loss': 192.18707275390625}, 'load_time_ms': 0.683, 'num_steps_sampled': 391200, 'grad_time_ms': 675.324, 'update_time_ms': 2.378, 'sample_time_ms': 29959.462}",2025-08-30_18-57-06,cda-server-4,31.88781762123108,1956,1756573026,10.157.146.4,False,9997.996777534485,1200
+327,-694.1948169008195,327,392400,{},-808.1669642941381,392400,0,10027.365290164948,-595.4706823893439,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 392400, 'default': {'kl': 0.01272787619382143, 'policy_loss': -0.1397557407617569, 'vf_loss': 1035.81201171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9240735173225403, 'entropy': 12.591564178466797, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1035.69140625}, 'load_time_ms': 0.673, 'num_steps_sampled': 392400, 'grad_time_ms': 678.888, 'update_time_ms': 2.357, 'sample_time_ms': 29807.006}",2025-08-30_18-57-36,cda-server-4,29.368512630462646,1962,1756573056,10.157.146.4,False,10027.365290164948,1200
+328,-695.7979117338608,328,393600,{},-808.1669642941381,393600,0,10054.381493330002,-595.4706823893439,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 393600, 'default': {'kl': 0.013296958990395069, 'policy_loss': -0.14182184636592865, 'vf_loss': 769.0372314453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9479973316192627, 'entropy': 12.646681785583496, 'cur_lr': 4.999999873689376e-05, 'total_loss': 768.9155883789062}, 'load_time_ms': 0.683, 'num_steps_sampled': 393600, 'grad_time_ms': 693.616, 'update_time_ms': 2.432, 'sample_time_ms': 29589.322}",2025-08-30_18-58-03,cda-server-4,27.01620316505432,1968,1756573083,10.157.146.4,False,10054.381493330002,1200
+329,-692.129920223943,329,394800,{},-808.1669642941381,394800,0,10081.243705272675,-582.876641578361,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 394800, 'default': {'kl': 0.012698921374976635, 'policy_loss': -0.1498500257730484, 'vf_loss': 757.5446166992188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9524261951446533, 'entropy': 12.353188514709473, 'cur_lr': 4.999999873689376e-05, 'total_loss': 757.4140625}, 'load_time_ms': 0.701, 'num_steps_sampled': 394800, 'grad_time_ms': 705.742, 'update_time_ms': 2.397, 'sample_time_ms': 28975.112}",2025-08-30_18-58-30,cda-server-4,26.86221194267273,1974,1756573110,10.157.146.4,False,10081.243705272675,1200
+330,-688.1273723129806,330,396000,{},-808.1669642941381,396000,0,10111.789680957794,-582.876641578361,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 396000, 'default': {'kl': 0.010906555689871311, 'policy_loss': -0.13948388397693634, 'vf_loss': 634.9765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9213796257972717, 'entropy': 12.395002365112305, 'cur_lr': 4.999999873689376e-05, 'total_loss': 634.8536987304688}, 'load_time_ms': 0.704, 'num_steps_sampled': 396000, 'grad_time_ms': 691.854, 'update_time_ms': 2.42, 'sample_time_ms': 28941.751}",2025-08-30_18-59-00,cda-server-4,30.54597568511963,1980,1756573140,10.157.146.4,False,10111.789680957794,1200
+331,-686.9597226429863,331,397200,{},-808.1669642941381,397200,0,10143.115589857101,-552.2348160617232,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 397200, 'default': {'kl': 0.011182621121406555, 'policy_loss': -0.14289897680282593, 'vf_loss': 608.955322265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9252368211746216, 'entropy': 12.488670349121094, 'cur_lr': 4.999999873689376e-05, 'total_loss': 608.829345703125}, 'load_time_ms': 0.703, 'num_steps_sampled': 397200, 'grad_time_ms': 690.14, 'update_time_ms': 2.37, 'sample_time_ms': 28839.775}",2025-08-30_18-59-32,cda-server-4,31.32590889930725,1986,1756573172,10.157.146.4,False,10143.115589857101,1200
+332,-688.1932865076739,332,398400,{},-808.1669642941381,398400,0,10173.278679132462,-552.2348160617232,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 398400, 'default': {'kl': 0.012021200731396675, 'policy_loss': -0.13586783409118652, 'vf_loss': 1068.9832763671875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9189721345901489, 'entropy': 12.527660369873047, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1068.86572265625}, 'load_time_ms': 0.725, 'num_steps_sampled': 398400, 'grad_time_ms': 702.615, 'update_time_ms': 2.394, 'sample_time_ms': 28941.163}",2025-08-30_19-00-02,cda-server-4,30.163089275360107,1992,1756573202,10.157.146.4,False,10173.278679132462,1200
+333,-692.2143794938654,333,399600,{},-808.1669642941381,399600,0,10200.855293512344,-552.2348160617232,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 399600, 'default': {'kl': 0.012057602405548096, 'policy_loss': -0.14655493199825287, 'vf_loss': 868.572998046875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9154348373413086, 'entropy': 12.585277557373047, 'cur_lr': 4.999999873689376e-05, 'total_loss': 868.44482421875}, 'load_time_ms': 0.687, 'num_steps_sampled': 399600, 'grad_time_ms': 701.182, 'update_time_ms': 2.398, 'sample_time_ms': 28740.062}",2025-08-30_19-00-29,cda-server-4,27.576614379882812,1998,1756573229,10.157.146.4,False,10200.855293512344,1200
+334,-691.8323473323221,334,400800,{},-808.1669642941381,400800,0,10232.322353601456,-552.2348160617232,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 400800, 'default': {'kl': 0.01281936839222908, 'policy_loss': -0.13538499176502228, 'vf_loss': 393.4561462402344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9613813757896423, 'entropy': 12.570915222167969, 'cur_lr': 4.999999873689376e-05, 'total_loss': 393.3402099609375}, 'load_time_ms': 0.709, 'num_steps_sampled': 400800, 'grad_time_ms': 699.69, 'update_time_ms': 2.348, 'sample_time_ms': 28962.57}",2025-08-30_19-01-01,cda-server-4,31.467060089111328,2004,1756573261,10.157.146.4,False,10232.322353601456,1200
+335,-689.6911750782996,335,402000,{},-808.1669642941381,402000,0,10263.415404319763,-552.2348160617232,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 402000, 'default': {'kl': 0.011266729794442654, 'policy_loss': -0.13049226999282837, 'vf_loss': 740.729248046875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9211007356643677, 'entropy': 12.582470893859863, 'cur_lr': 4.999999873689376e-05, 'total_loss': 740.6158447265625}, 'load_time_ms': 0.676, 'num_steps_sampled': 402000, 'grad_time_ms': 694.223, 'update_time_ms': 2.297, 'sample_time_ms': 29029.444}",2025-08-30_19-01-32,cda-server-4,31.093050718307495,2010,1756573292,10.157.146.4,False,10263.415404319763,1200
+336,-686.8956729791788,336,403200,{},-808.1669642941381,403200,0,10294.978871583939,-552.2348160617232,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 403200, 'default': {'kl': 0.011353434063494205, 'policy_loss': -0.11508292704820633, 'vf_loss': 909.987548828125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9130551815032959, 'entropy': 12.193889617919922, 'cur_lr': 4.999999873689376e-05, 'total_loss': 909.8897094726562}, 'load_time_ms': 0.678, 'num_steps_sampled': 403200, 'grad_time_ms': 688.604, 'update_time_ms': 2.229, 'sample_time_ms': 29002.725}",2025-08-30_19-02-04,cda-server-4,31.563467264175415,2016,1756573324,10.157.146.4,False,10294.978871583939,1200
+337,-686.0688748746553,337,404400,{},-808.1669642941381,404400,0,10324.41952419281,-552.2348160617232,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 404400, 'default': {'kl': 0.011037030257284641, 'policy_loss': -0.13518965244293213, 'vf_loss': 872.8781127929688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9161654710769653, 'entropy': 12.286064147949219, 'cur_lr': 4.999999873689376e-05, 'total_loss': 872.7595825195312}, 'load_time_ms': 0.682, 'num_steps_sampled': 404400, 'grad_time_ms': 674.512, 'update_time_ms': 2.231, 'sample_time_ms': 29024.008}",2025-08-30_19-02-33,cda-server-4,29.44065260887146,2022,1756573353,10.157.146.4,False,10324.41952419281,1200
+338,-688.5612229871043,338,405600,{},-808.1669642941381,405600,0,10354.438476324081,-552.2348160617232,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 405600, 'default': {'kl': 0.01271902211010456, 'policy_loss': -0.14182744920253754, 'vf_loss': 1729.05859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9132717847824097, 'entropy': 12.643294334411621, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1728.93603515625}, 'load_time_ms': 0.669, 'num_steps_sampled': 405600, 'grad_time_ms': 657.192, 'update_time_ms': 2.15, 'sample_time_ms': 29341.707}",2025-08-30_19-03-03,cda-server-4,30.018952131271362,2028,1756573383,10.157.146.4,False,10354.438476324081,1200
+339,-688.3163403039491,339,406800,{},-808.1669642941381,406800,0,10385.882917642593,-552.2348160617232,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 406800, 'default': {'kl': 0.01243774313479662, 'policy_loss': -0.1400708556175232, 'vf_loss': 673.0374145507812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9446370601654053, 'entropy': 12.509346008300781, 'cur_lr': 4.999999873689376e-05, 'total_loss': 672.9161987304688}, 'load_time_ms': 0.657, 'num_steps_sampled': 406800, 'grad_time_ms': 651.204, 'update_time_ms': 2.133, 'sample_time_ms': 29805.968}",2025-08-30_19-03-34,cda-server-4,31.444441318511963,2034,1756573414,10.157.146.4,False,10385.882917642593,1200
+340,-688.4521268773975,340,408000,{},-798.9369435450832,408000,0,10413.973895072937,-552.2348160617232,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 408000, 'default': {'kl': 0.013857938349246979, 'policy_loss': -0.15320800244808197, 'vf_loss': 415.1290588378906, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9640305042266846, 'entropy': 12.230777740478516, 'cur_lr': 4.999999873689376e-05, 'total_loss': 414.99688720703125}, 'load_time_ms': 0.652, 'num_steps_sampled': 408000, 'grad_time_ms': 659.794, 'update_time_ms': 2.07, 'sample_time_ms': 29551.815}",2025-08-30_19-04-03,cda-server-4,28.090977430343628,2040,1756573443,10.157.146.4,False,10413.973895072937,1200
+341,-685.0990755774068,341,409200,{},-798.9369435450832,409200,0,10445.306821346283,-552.2348160617232,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 409200, 'default': {'kl': 0.012881143018603325, 'policy_loss': -0.13289940357208252, 'vf_loss': 650.812255859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.94870924949646, 'entropy': 12.322696685791016, 'cur_lr': 4.999999873689376e-05, 'total_loss': 650.698974609375}, 'load_time_ms': 0.66, 'num_steps_sampled': 409200, 'grad_time_ms': 644.211, 'update_time_ms': 2.196, 'sample_time_ms': 29568.003}",2025-08-30_19-04-34,cda-server-4,31.332926273345947,2046,1756573474,10.157.146.4,False,10445.306821346283,1200
+342,-678.2926828498479,342,410400,{},-798.9369435450832,410400,0,10478.397949695587,-552.2348160617232,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 410400, 'default': {'kl': 0.013753366656601429, 'policy_loss': -0.15262344479560852, 'vf_loss': 475.9490661621094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9411972761154175, 'entropy': 12.174397468566895, 'cur_lr': 4.999999873689376e-05, 'total_loss': 475.81732177734375}, 'load_time_ms': 0.634, 'num_steps_sampled': 410400, 'grad_time_ms': 629.44, 'update_time_ms': 2.194, 'sample_time_ms': 29875.589}",2025-08-30_19-05-07,cda-server-4,33.0911283493042,2052,1756573507,10.157.146.4,False,10478.397949695587,1200
+343,-674.8312146321686,343,411600,{},-798.9369435450832,411600,0,10511.230682611465,-529.7464601374267,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 411600, 'default': {'kl': 0.012516112066805363, 'policy_loss': -0.1489691585302353, 'vf_loss': 289.8532409667969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9720987677574158, 'entropy': 12.199522018432617, 'cur_lr': 4.999999873689376e-05, 'total_loss': 289.7232666015625}, 'load_time_ms': 0.639, 'num_steps_sampled': 411600, 'grad_time_ms': 624.865, 'update_time_ms': 2.26, 'sample_time_ms': 30405.778}",2025-08-30_19-05-40,cda-server-4,32.832732915878296,2058,1756573540,10.157.146.4,False,10511.230682611465,1200
+344,-676.4780593615541,344,412800,{},-798.9369435450832,412800,0,10538.850121974945,-529.7464601374267,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 412800, 'default': {'kl': 0.011129476130008698, 'policy_loss': -0.12956172227859497, 'vf_loss': 656.712158203125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9521514177322388, 'entropy': 12.145316123962402, 'cur_lr': 4.999999873689376e-05, 'total_loss': 656.5994873046875}, 'load_time_ms': 0.615, 'num_steps_sampled': 412800, 'grad_time_ms': 618.726, 'update_time_ms': 2.248, 'sample_time_ms': 30027.13}",2025-08-30_19-06-08,cda-server-4,27.619439363479614,2064,1756573568,10.157.146.4,False,10538.850121974945,1200
+345,-675.1851689033974,345,414000,{},-798.9369435450832,414000,0,10567.268199205399,-529.7464601374267,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 414000, 'default': {'kl': 0.012887947261333466, 'policy_loss': -0.1491110920906067, 'vf_loss': 418.1214294433594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9615808129310608, 'entropy': 12.238137245178223, 'cur_lr': 4.999999873689376e-05, 'total_loss': 417.99188232421875}, 'load_time_ms': 0.627, 'num_steps_sampled': 414000, 'grad_time_ms': 610.016, 'update_time_ms': 2.265, 'sample_time_ms': 29768.322}",2025-08-30_19-06-36,cda-server-4,28.41807723045349,2070,1756573596,10.157.146.4,False,10567.268199205399,1200
+346,-674.2290679605746,346,415200,{},-798.9369435450832,415200,0,10595.29206252098,-529.7464601374267,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 415200, 'default': {'kl': 0.012406324036419392, 'policy_loss': -0.13739915192127228, 'vf_loss': 361.1536865234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9667894840240479, 'entropy': 12.087801933288574, 'cur_lr': 4.999999873689376e-05, 'total_loss': 361.0351257324219}, 'load_time_ms': 0.625, 'num_steps_sampled': 415200, 'grad_time_ms': 612.941, 'update_time_ms': 2.294, 'sample_time_ms': 29411.343}",2025-08-30_19-07-04,cda-server-4,28.023863315582275,2076,1756573624,10.157.146.4,False,10595.29206252098,1200
+347,-675.6792775670924,347,416400,{},-798.9369435450832,416400,0,10627.177107095718,-529.7464601374267,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 416400, 'default': {'kl': 0.011447721160948277, 'policy_loss': -0.13105496764183044, 'vf_loss': 556.663330078125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9398133754730225, 'entropy': 12.513118743896484, 'cur_lr': 4.999999873689376e-05, 'total_loss': 556.5496215820312}, 'load_time_ms': 0.625, 'num_steps_sampled': 416400, 'grad_time_ms': 620.042, 'update_time_ms': 2.347, 'sample_time_ms': 29648.675}",2025-08-30_19-07-36,cda-server-4,31.88504457473755,2082,1756573656,10.157.146.4,False,10627.177107095718,1200
+348,-677.923592218014,348,417600,{},-798.9369435450832,417600,0,10659.331364870071,-529.7464601374267,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 417600, 'default': {'kl': 0.013313500210642815, 'policy_loss': -0.15784858167171478, 'vf_loss': 358.9510192871094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.966277003288269, 'entropy': 12.406009674072266, 'cur_lr': 4.999999873689376e-05, 'total_loss': 358.8133850097656}, 'load_time_ms': 0.624, 'num_steps_sampled': 417600, 'grad_time_ms': 613.75, 'update_time_ms': 2.335, 'sample_time_ms': 29868.474}",2025-08-30_19-08-08,cda-server-4,32.15425777435303,2088,1756573688,10.157.146.4,False,10659.331364870071,1200
+349,-675.9344130914769,349,418800,{},-798.9369435450832,418800,0,10689.622563123703,-529.7464601374267,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 418800, 'default': {'kl': 0.010964653454720974, 'policy_loss': -0.14613159000873566, 'vf_loss': 926.6092529296875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9000122547149658, 'entropy': 12.402730941772461, 'cur_lr': 4.999999873689376e-05, 'total_loss': 926.479736328125}, 'load_time_ms': 0.628, 'num_steps_sampled': 418800, 'grad_time_ms': 603.859, 'update_time_ms': 2.366, 'sample_time_ms': 29763.03}",2025-08-30_19-08-38,cda-server-4,30.291198253631592,2094,1756573718,10.157.146.4,False,10689.622563123703,1200
+350,-670.5505900135596,350,420000,{},-797.7474615262463,420000,0,10719.516128063202,-529.7464601374267,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 420000, 'default': {'kl': 0.01166903879493475, 'policy_loss': -0.15171441435813904, 'vf_loss': 761.2325439453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9405888319015503, 'entropy': 12.218255996704102, 'cur_lr': 4.999999873689376e-05, 'total_loss': 761.0985717773438}, 'load_time_ms': 0.626, 'num_steps_sampled': 420000, 'grad_time_ms': 606.217, 'update_time_ms': 2.368, 'sample_time_ms': 29941.07}",2025-08-30_19-09-08,cda-server-4,29.8935649394989,2100,1756573748,10.157.146.4,False,10719.516128063202,1200
+351,-671.192544122135,351,421200,{},-797.7474615262463,421200,0,10747.694571256638,-529.7464601374267,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 421200, 'default': {'kl': 0.013471947982907295, 'policy_loss': -0.14352835714817047, 'vf_loss': 454.0290222167969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.957651674747467, 'entropy': 12.245844841003418, 'cur_lr': 4.999999873689376e-05, 'total_loss': 453.9059143066406}, 'load_time_ms': 0.62, 'num_steps_sampled': 421200, 'grad_time_ms': 631.965, 'update_time_ms': 2.248, 'sample_time_ms': 29600.075}",2025-08-30_19-09-37,cda-server-4,28.17844319343567,2106,1756573777,10.157.146.4,False,10747.694571256638,1200
+352,-669.7108421864617,352,422400,{},-797.7474615262463,422400,0,10781.648062705994,-529.7464601374267,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 422400, 'default': {'kl': 0.010898757725954056, 'policy_loss': -0.12291496247053146, 'vf_loss': 333.5877685546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9560755491256714, 'entropy': 12.182732582092285, 'cur_lr': 4.999999873689376e-05, 'total_loss': 333.4813232421875}, 'load_time_ms': 0.649, 'num_steps_sampled': 422400, 'grad_time_ms': 647.923, 'update_time_ms': 2.192, 'sample_time_ms': 29670.415}",2025-08-30_19-10-10,cda-server-4,33.95349144935608,2112,1756573810,10.157.146.4,False,10781.648062705994,1200
+353,-671.254734990517,353,423600,{},-797.7474615262463,423600,0,10810.94195485115,-529.7464601374267,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 423600, 'default': {'kl': 0.011702095158398151, 'policy_loss': -0.14512409269809723, 'vf_loss': 260.9912414550781, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9751221537590027, 'entropy': 12.269438743591309, 'cur_lr': 4.999999873689376e-05, 'total_loss': 260.8638610839844}, 'load_time_ms': 0.648, 'num_steps_sampled': 423600, 'grad_time_ms': 647.653, 'update_time_ms': 2.147, 'sample_time_ms': 29316.735}",2025-08-30_19-10-40,cda-server-4,29.29389214515686,2118,1756573840,10.157.146.4,False,10810.94195485115,1200
+354,-667.9599069935061,354,424800,{},-797.7474615262463,424800,0,10839.610797643661,-529.7464601374267,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 424800, 'default': {'kl': 0.010491169057786465, 'policy_loss': -0.1397227644920349, 'vf_loss': 475.4378356933594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9529439210891724, 'entropy': 12.117349624633789, 'cur_lr': 4.999999873689376e-05, 'total_loss': 475.31402587890625}, 'load_time_ms': 0.654, 'num_steps_sampled': 424800, 'grad_time_ms': 643.448, 'update_time_ms': 2.14, 'sample_time_ms': 29425.867}",2025-08-30_19-11-08,cda-server-4,28.668842792510986,2124,1756573868,10.157.146.4,False,10839.610797643661,1200
+355,-665.6102488766071,355,426000,{},-797.7474615262463,426000,0,10872.116556882858,-529.7464601374267,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 426000, 'default': {'kl': 0.012723434716463089, 'policy_loss': -0.14359760284423828, 'vf_loss': 391.2402038574219, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9602332711219788, 'entropy': 12.378924369812012, 'cur_lr': 4.999999873689376e-05, 'total_loss': 391.11590576171875}, 'load_time_ms': 0.644, 'num_steps_sampled': 426000, 'grad_time_ms': 657.602, 'update_time_ms': 2.123, 'sample_time_ms': 29820.511}",2025-08-30_19-11-41,cda-server-4,32.50575923919678,2130,1756573901,10.157.146.4,False,10872.116556882858,1200
+356,-660.4647512030217,356,427200,{},-793.1255921315346,427200,0,10902.751859664917,-529.7464601374267,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 427200, 'default': {'kl': 0.01291726529598236, 'policy_loss': -0.13273780047893524, 'vf_loss': 450.4675598144531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.953912079334259, 'entropy': 11.993765830993652, 'cur_lr': 4.999999873689376e-05, 'total_loss': 450.35443115234375}, 'load_time_ms': 0.647, 'num_steps_sampled': 427200, 'grad_time_ms': 660.154, 'update_time_ms': 2.13, 'sample_time_ms': 30079.102}",2025-08-30_19-12-12,cda-server-4,30.635302782058716,2136,1756573932,10.157.146.4,False,10902.751859664917,1200
+357,-657.4791723140556,357,428400,{},-793.1255921315346,428400,0,10931.614634037018,-529.7464601374267,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 428400, 'default': {'kl': 0.01209017913788557, 'policy_loss': -0.12166254967451096, 'vf_loss': 427.2095031738281, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.944880485534668, 'entropy': 12.004915237426758, 'cur_lr': 4.999999873689376e-05, 'total_loss': 427.106201171875}, 'load_time_ms': 0.649, 'num_steps_sampled': 428400, 'grad_time_ms': 663.432, 'update_time_ms': 2.083, 'sample_time_ms': 29773.601}",2025-08-30_19-12-40,cda-server-4,28.86277437210083,2142,1756573960,10.157.146.4,False,10931.614634037018,1200
+358,-659.5609738456344,358,429600,{},-793.1255921315346,429600,0,10961.71468925476,-529.7464601374267,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 429600, 'default': {'kl': 0.01325797475874424, 'policy_loss': -0.1483605057001114, 'vf_loss': 223.19677734375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.98200923204422, 'entropy': 11.95703125, 'cur_lr': 4.999999873689376e-05, 'total_loss': 223.06854248046875}, 'load_time_ms': 0.651, 'num_steps_sampled': 429600, 'grad_time_ms': 671.975, 'update_time_ms': 2.126, 'sample_time_ms': 29559.569}",2025-08-30_19-13-11,cda-server-4,30.10005521774292,2148,1756573991,10.157.146.4,False,10961.71468925476,1200
+359,-662.6905075256665,359,430800,{},-793.1255921315346,430800,0,10988.1281914711,-531.8821348059028,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 430800, 'default': {'kl': 0.01132895052433014, 'policy_loss': -0.1308848261833191, 'vf_loss': 470.6153564453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.945103645324707, 'entropy': 11.837614059448242, 'cur_lr': 4.999999873689376e-05, 'total_loss': 470.5016174316406}, 'load_time_ms': 0.647, 'num_steps_sampled': 430800, 'grad_time_ms': 664.507, 'update_time_ms': 2.133, 'sample_time_ms': 29179.257}",2025-08-30_19-13-37,cda-server-4,26.41350221633911,2154,1756574017,10.157.146.4,False,10988.1281914711,1200
+360,-661.5905852008523,360,432000,{},-793.1255921315346,432000,0,11019.120131254196,-531.8821348059028,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 432000, 'default': {'kl': 0.011307726614177227, 'policy_loss': -0.1278906613588333, 'vf_loss': 612.376220703125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9645116329193115, 'entropy': 12.111734390258789, 'cur_lr': 4.999999873689376e-05, 'total_loss': 612.2655029296875}, 'load_time_ms': 0.639, 'num_steps_sampled': 432000, 'grad_time_ms': 679.774, 'update_time_ms': 2.113, 'sample_time_ms': 29273.767}",2025-08-30_19-14-08,cda-server-4,30.991939783096313,2160,1756574048,10.157.146.4,False,11019.120131254196,1200
+361,-659.5191230144774,361,433200,{},-779.9262794866036,433200,0,11051.89932346344,-531.8821348059028,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 433200, 'default': {'kl': 0.010311324149370193, 'policy_loss': -0.13780800998210907, 'vf_loss': 390.74285888671875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9599650502204895, 'entropy': 12.011969566345215, 'cur_lr': 4.999999873689376e-05, 'total_loss': 390.6206970214844}, 'load_time_ms': 0.638, 'num_steps_sampled': 433200, 'grad_time_ms': 680.13, 'update_time_ms': 2.333, 'sample_time_ms': 29733.221}",2025-08-30_19-14-41,cda-server-4,32.779192209243774,2166,1756574081,10.157.146.4,False,11051.89932346344,1200
+362,-659.3764517113004,362,434400,{},-779.9262794866036,434400,0,11079.228989124298,-531.8821348059028,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 434400, 'default': {'kl': 0.012264400720596313, 'policy_loss': -0.1364085078239441, 'vf_loss': 157.8299102783203, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9805479049682617, 'entropy': 11.759389877319336, 'cur_lr': 4.999999873689376e-05, 'total_loss': 157.71212768554688}, 'load_time_ms': 0.604, 'num_steps_sampled': 434400, 'grad_time_ms': 680.361, 'update_time_ms': 2.433, 'sample_time_ms': 29070.575}",2025-08-30_19-15-08,cda-server-4,27.329665660858154,2172,1756574108,10.157.146.4,False,11079.228989124298,1200
+363,-656.3913315109224,363,435600,{},-779.9262794866036,435600,0,11110.45657324791,-531.8821348059028,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 435600, 'default': {'kl': 0.010398616082966328, 'policy_loss': -0.12007072567939758, 'vf_loss': 251.78659057617188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9770198464393616, 'entropy': 11.690271377563477, 'cur_lr': 4.999999873689376e-05, 'total_loss': 251.6822967529297}, 'load_time_ms': 0.601, 'num_steps_sampled': 435600, 'grad_time_ms': 673.306, 'update_time_ms': 2.453, 'sample_time_ms': 29271.052}",2025-08-30_19-15-39,cda-server-4,31.22758412361145,2178,1756574139,10.157.146.4,False,11110.45657324791,1200
+364,-653.5019094679128,364,436800,{},-779.9262794866036,436800,0,11141.260165929794,-531.8821348059028,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 436800, 'default': {'kl': 0.01297477912157774, 'policy_loss': -0.1373092085123062, 'vf_loss': 517.228271484375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9587048292160034, 'entropy': 11.855205535888672, 'cur_lr': 4.999999873689376e-05, 'total_loss': 517.110595703125}, 'load_time_ms': 0.595, 'num_steps_sampled': 436800, 'grad_time_ms': 661.797, 'update_time_ms': 2.476, 'sample_time_ms': 29496.109}",2025-08-30_19-16-10,cda-server-4,30.803592681884766,2184,1756574170,10.157.146.4,False,11141.260165929794,1200
+365,-651.6592624932271,365,438000,{},-779.9262794866036,438000,0,11171.024110078812,-531.8821348059028,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 438000, 'default': {'kl': 0.012388080358505249, 'policy_loss': -0.13801229000091553, 'vf_loss': 183.64889526367188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9787243604660034, 'entropy': 11.688871383666992, 'cur_lr': 4.999999873689376e-05, 'total_loss': 183.52972412109375}, 'load_time_ms': 0.613, 'num_steps_sampled': 438000, 'grad_time_ms': 653.417, 'update_time_ms': 2.432, 'sample_time_ms': 29230.36}",2025-08-30_19-16-40,cda-server-4,29.763944149017334,2190,1756574200,10.157.146.4,False,11171.024110078812,1200
+366,-649.8250670351615,366,439200,{},-783.6325620114673,439200,0,11202.93855547905,-531.8821348059028,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 439200, 'default': {'kl': 0.013163303025066853, 'policy_loss': -0.15501652657985687, 'vf_loss': 782.3692016601562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9083096981048584, 'entropy': 12.015533447265625, 'cur_lr': 4.999999873689376e-05, 'total_loss': 782.234130859375}, 'load_time_ms': 0.612, 'num_steps_sampled': 439200, 'grad_time_ms': 631.666, 'update_time_ms': 2.42, 'sample_time_ms': 29380.033}",2025-08-30_19-17-12,cda-server-4,31.914445400238037,2196,1756574232,10.157.146.4,False,11202.93855547905,1200
+367,-652.5707766637508,367,440400,{},-783.6325620114673,440400,0,11232.425256490707,-531.8821348059028,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 440400, 'default': {'kl': 0.014182791113853455, 'policy_loss': -0.1622396856546402, 'vf_loss': 173.9324493408203, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9821863174438477, 'entropy': 12.24074935913086, 'cur_lr': 4.999999873689376e-05, 'total_loss': 173.791748046875}, 'load_time_ms': 0.62, 'num_steps_sampled': 440400, 'grad_time_ms': 604.173, 'update_time_ms': 2.514, 'sample_time_ms': 29469.809}",2025-08-30_19-17-41,cda-server-4,29.486701011657715,2202,1756574261,10.157.146.4,False,11232.425256490707,1200
+368,-652.8958381158045,368,441600,{},-787.2701304789948,441600,0,11263.404405593872,-531.8821348059028,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 441600, 'default': {'kl': 0.011770833283662796, 'policy_loss': -0.14712181687355042, 'vf_loss': 308.9986267089844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9833388924598694, 'entropy': 11.87253475189209, 'cur_lr': 4.999999873689376e-05, 'total_loss': 308.869384765625}, 'load_time_ms': 0.619, 'num_steps_sampled': 441600, 'grad_time_ms': 591.767, 'update_time_ms': 2.47, 'sample_time_ms': 29570.268}",2025-08-30_19-18-12,cda-server-4,30.979149103164673,2208,1756574292,10.157.146.4,False,11263.404405593872,1200
+369,-653.7618206240363,369,442800,{},-787.2701304789948,442800,0,11296.417956352234,-531.8821348059028,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 442800, 'default': {'kl': 0.012733805924654007, 'policy_loss': -0.14355581998825073, 'vf_loss': 164.1221923828125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.977875828742981, 'entropy': 12.01869010925293, 'cur_lr': 4.999999873689376e-05, 'total_loss': 163.99798583984375}, 'load_time_ms': 0.617, 'num_steps_sampled': 442800, 'grad_time_ms': 603.728, 'update_time_ms': 2.461, 'sample_time_ms': 30218.301}",2025-08-30_19-18-45,cda-server-4,33.013550758361816,2214,1756574325,10.157.146.4,False,11296.417956352234,1200
+370,-651.6739541318019,370,444000,{},-787.2701304789948,444000,0,11325.051797866821,-531.8821348059028,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 444000, 'default': {'kl': 0.011563828215003014, 'policy_loss': -0.12343472987413406, 'vf_loss': 349.3642578125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9653588533401489, 'entropy': 11.833115577697754, 'cur_lr': 4.999999873689376e-05, 'total_loss': 349.2583923339844}, 'load_time_ms': 0.625, 'num_steps_sampled': 444000, 'grad_time_ms': 580.137, 'update_time_ms': 2.508, 'sample_time_ms': 30005.963}",2025-08-30_19-19-14,cda-server-4,28.633841514587402,2220,1756574354,10.157.146.4,False,11325.051797866821,1200
+371,-652.1429027889683,371,445200,{},-800.4861222376395,445200,0,11352.330226898193,-531.8821348059028,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 445200, 'default': {'kl': 0.012125001288950443, 'policy_loss': -0.1385250687599182, 'vf_loss': 229.4317169189453, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9736897349357605, 'entropy': 11.942022323608398, 'cur_lr': 4.999999873689376e-05, 'total_loss': 229.3115997314453}, 'load_time_ms': 0.626, 'num_steps_sampled': 445200, 'grad_time_ms': 579.75, 'update_time_ms': 2.492, 'sample_time_ms': 29456.25}",2025-08-30_19-19-41,cda-server-4,27.27842903137207,2226,1756574381,10.157.146.4,False,11352.330226898193,1200
+372,-652.8653301989901,372,446400,{},-800.4861222376395,446400,0,11381.560165643692,-576.3193639085121,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 446400, 'default': {'kl': 0.012154823169112206, 'policy_loss': -0.13855712115764618, 'vf_loss': 612.4223022460938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.926721453666687, 'entropy': 11.804417610168457, 'cur_lr': 4.999999873689376e-05, 'total_loss': 612.3021850585938}, 'load_time_ms': 0.626, 'num_steps_sampled': 446400, 'grad_time_ms': 569.407, 'update_time_ms': 2.465, 'sample_time_ms': 29656.623}",2025-08-30_19-20-11,cda-server-4,29.229938745498657,2232,1756574411,10.157.146.4,False,11381.560165643692,1200
+373,-652.7920449990539,373,447600,{},-800.4861222376395,447600,0,11412.40290427208,-576.3193639085121,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 447600, 'default': {'kl': 0.012823138386011124, 'policy_loss': -0.1375441998243332, 'vf_loss': 283.98443603515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9572903513908386, 'entropy': 11.896403312683105, 'cur_lr': 4.999999873689376e-05, 'total_loss': 283.8663330078125}, 'load_time_ms': 0.664, 'num_steps_sampled': 447600, 'grad_time_ms': 562.342, 'update_time_ms': 2.405, 'sample_time_ms': 29625.212}",2025-08-30_19-20-42,cda-server-4,30.84273862838745,2238,1756574442,10.157.146.4,False,11412.40290427208,1200
+374,-652.8176718913951,374,448800,{},-800.4861222376395,448800,0,11445.364431142807,-576.3193639085121,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 448800, 'default': {'kl': 0.011577640660107136, 'policy_loss': -0.12470022588968277, 'vf_loss': 813.1932983398438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9254924058914185, 'entropy': 11.665861129760742, 'cur_lr': 4.999999873689376e-05, 'total_loss': 813.086181640625}, 'load_time_ms': 0.666, 'num_steps_sampled': 448800, 'grad_time_ms': 577.006, 'update_time_ms': 2.428, 'sample_time_ms': 29826.275}",2025-08-30_19-21-15,cda-server-4,32.96152687072754,2244,1756574475,10.157.146.4,False,11445.364431142807,1200
+375,-651.5675999281955,375,450000,{},-800.4861222376395,450000,0,11474.790271997452,-576.3193639085121,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 450000, 'default': {'kl': 0.01066372636705637, 'policy_loss': -0.1282341033220291, 'vf_loss': 288.3180236816406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9632014036178589, 'entropy': 11.790325164794922, 'cur_lr': 4.999999873689376e-05, 'total_loss': 288.20599365234375}, 'load_time_ms': 0.644, 'num_steps_sampled': 450000, 'grad_time_ms': 574.956, 'update_time_ms': 2.434, 'sample_time_ms': 29794.518}",2025-08-30_19-21-44,cda-server-4,29.425840854644775,2250,1756574504,10.157.146.4,False,11474.790271997452,1200
+376,-649.8284041151247,376,451200,{},-800.4861222376395,451200,0,11504.721803665161,-576.3193639085121,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 451200, 'default': {'kl': 0.011767422780394554, 'policy_loss': -0.12729433178901672, 'vf_loss': 558.8378295898438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9242022037506104, 'entropy': 11.564064979553223, 'cur_lr': 4.999999873689376e-05, 'total_loss': 558.7283935546875}, 'load_time_ms': 0.644, 'num_steps_sampled': 451200, 'grad_time_ms': 580.315, 'update_time_ms': 2.413, 'sample_time_ms': 29590.906}",2025-08-30_19-22-14,cda-server-4,29.93153166770935,2256,1756574534,10.157.146.4,False,11504.721803665161,1200
+377,-650.1408786588042,377,452400,{},-800.4861222376395,452400,0,11534.818470954895,-576.3193639085121,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 452400, 'default': {'kl': 0.013074897229671478, 'policy_loss': -0.14729051291942596, 'vf_loss': 587.1740112304688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9347745180130005, 'entropy': 11.740240097045898, 'cur_lr': 4.999999873689376e-05, 'total_loss': 587.046630859375}, 'load_time_ms': 0.638, 'num_steps_sampled': 452400, 'grad_time_ms': 594.455, 'update_time_ms': 2.313, 'sample_time_ms': 29637.882}",2025-08-30_19-22-44,cda-server-4,30.096667289733887,2262,1756574564,10.157.146.4,False,11534.818470954895,1200
+378,-649.6706326792633,378,453600,{},-800.4861222376395,453600,0,11568.820597410202,-576.3193639085121,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 453600, 'default': {'kl': 0.011658120900392532, 'policy_loss': -0.13328033685684204, 'vf_loss': 358.858154296875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9640960693359375, 'entropy': 11.77822208404541, 'cur_lr': 4.999999873689376e-05, 'total_loss': 358.7425537109375}, 'load_time_ms': 0.638, 'num_steps_sampled': 453600, 'grad_time_ms': 600.534, 'update_time_ms': 2.378, 'sample_time_ms': 29933.96}",2025-08-30_19-23-18,cda-server-4,34.00212645530701,2268,1756574598,10.157.146.4,False,11568.820597410202,1200
+379,-649.2406625795317,379,454800,{},-800.4861222376395,454800,0,11599.372833967209,-576.3193639085121,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 454800, 'default': {'kl': 0.011643631383776665, 'policy_loss': -0.1349378228187561, 'vf_loss': 106.65695190429688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9870976209640503, 'entropy': 11.521137237548828, 'cur_lr': 4.999999873689376e-05, 'total_loss': 106.53970336914062}, 'load_time_ms': 0.674, 'num_steps_sampled': 454800, 'grad_time_ms': 598.335, 'update_time_ms': 2.444, 'sample_time_ms': 29689.862}",2025-08-30_19-23-49,cda-server-4,30.552236557006836,2274,1756574629,10.157.146.4,False,11599.372833967209,1200
+380,-650.0969925426709,380,456000,{},-800.4861222376395,456000,0,11629.52064037323,-576.3193639085121,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 456000, 'default': {'kl': 0.01220494695007801, 'policy_loss': -0.12758710980415344, 'vf_loss': 685.902587890625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9308052062988281, 'entropy': 11.769736289978027, 'cur_lr': 4.999999873689376e-05, 'total_loss': 685.7935180664062}, 'load_time_ms': 0.668, 'num_steps_sampled': 456000, 'grad_time_ms': 605.811, 'update_time_ms': 2.471, 'sample_time_ms': 29833.881}",2025-08-30_19-24-19,cda-server-4,30.147806406021118,2280,1756574659,10.157.146.4,False,11629.52064037323,1200
+381,-650.5574809042857,381,457200,{},-800.4861222376395,457200,0,11660.885551214218,-576.3193639085121,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 457200, 'default': {'kl': 0.01098396722227335, 'policy_loss': -0.13409923017024994, 'vf_loss': 217.50735473632812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9714789986610413, 'entropy': 11.805960655212402, 'cur_lr': 4.999999873689376e-05, 'total_loss': 217.3899383544922}, 'load_time_ms': 0.677, 'num_steps_sampled': 457200, 'grad_time_ms': 595.137, 'update_time_ms': 2.368, 'sample_time_ms': 30253.308}",2025-08-30_19-24-50,cda-server-4,31.36491084098816,2286,1756574690,10.157.146.4,False,11660.885551214218,1200
+382,-650.8956960966549,382,458400,{},-800.4861222376395,458400,0,11693.643800258636,-576.3193639085121,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 458400, 'default': {'kl': 0.009565525688230991, 'policy_loss': -0.13193246722221375, 'vf_loss': 1002.6173095703125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.900008499622345, 'entropy': 11.843884468078613, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1002.4998779296875}, 'load_time_ms': 0.674, 'num_steps_sampled': 458400, 'grad_time_ms': 600.849, 'update_time_ms': 2.339, 'sample_time_ms': 30600.403}",2025-08-30_19-25-23,cda-server-4,32.758249044418335,2292,1756574723,10.157.146.4,False,11693.643800258636,1200
+383,-648.8597581291662,383,459600,{},-800.4861222376395,459600,0,11724.705814123154,-576.3193639085121,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 459600, 'default': {'kl': 0.012100663036108017, 'policy_loss': -0.13107337057590485, 'vf_loss': 216.83876037597656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9790356755256653, 'entropy': 11.72041130065918, 'cur_lr': 4.999999873689376e-05, 'total_loss': 216.72608947753906}, 'load_time_ms': 0.636, 'num_steps_sampled': 459600, 'grad_time_ms': 603.043, 'update_time_ms': 2.321, 'sample_time_ms': 30620.258}",2025-08-30_19-25-54,cda-server-4,31.062013864517212,2298,1756574754,10.157.146.4,False,11724.705814123154,1200
+384,-643.2989448842276,384,460800,{},-800.4861222376395,460800,0,11752.914869308472,-576.3193639085121,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 460800, 'default': {'kl': 0.010782729834318161, 'policy_loss': -0.12820371985435486, 'vf_loss': 335.3606872558594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9792271852493286, 'entropy': 11.716666221618652, 'cur_lr': 4.999999873689376e-05, 'total_loss': 335.2488708496094}, 'load_time_ms': 0.629, 'num_steps_sampled': 460800, 'grad_time_ms': 596.833, 'update_time_ms': 2.25, 'sample_time_ms': 30151.338}",2025-08-30_19-26-22,cda-server-4,28.209055185317993,2304,1756574782,10.157.146.4,False,11752.914869308472,1200
+385,-643.6460106562218,385,462000,{},-800.4861222376395,462000,0,11784.118421554565,-576.3193639085121,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 462000, 'default': {'kl': 0.011434676125645638, 'policy_loss': -0.13393837213516235, 'vf_loss': 283.8072814941406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9711477756500244, 'entropy': 11.767513275146484, 'cur_lr': 4.999999873689376e-05, 'total_loss': 283.69073486328125}, 'load_time_ms': 0.64, 'num_steps_sampled': 462000, 'grad_time_ms': 600.969, 'update_time_ms': 2.235, 'sample_time_ms': 30324.995}",2025-08-30_19-26-53,cda-server-4,31.20355224609375,2310,1756574813,10.157.146.4,False,11784.118421554565,1200
+386,-643.2106339713988,386,463200,{},-800.4861222376395,463200,0,11814.248703241348,-576.3193639085121,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 463200, 'default': {'kl': 0.010650929063558578, 'policy_loss': -0.12613458931446075, 'vf_loss': 296.56719970703125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9681307673454285, 'entropy': 11.701899528503418, 'cur_lr': 4.999999873689376e-05, 'total_loss': 296.4572448730469}, 'load_time_ms': 0.648, 'num_steps_sampled': 463200, 'grad_time_ms': 633.02, 'update_time_ms': 2.236, 'sample_time_ms': 30312.541}",2025-08-30_19-27-24,cda-server-4,30.130281686782837,2316,1756574844,10.157.146.4,False,11814.248703241348,1200
+387,-644.2593353442014,387,464400,{},-800.4861222376395,464400,0,11847.027981996536,-597.3579411612487,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 464400, 'default': {'kl': 0.011310750618577003, 'policy_loss': -0.12007595598697662, 'vf_loss': 662.0377807617188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9165183305740356, 'entropy': 11.58356761932373, 'cur_lr': 4.999999873689376e-05, 'total_loss': 661.9348754882812}, 'load_time_ms': 0.643, 'num_steps_sampled': 464400, 'grad_time_ms': 646.724, 'update_time_ms': 2.326, 'sample_time_ms': 30566.973}",2025-08-30_19-27-56,cda-server-4,32.77927875518799,2322,1756574876,10.157.146.4,False,11847.027981996536,1200
+388,-641.8445474073538,388,465600,{},-758.3651657788904,465600,0,11873.937721967697,-597.3579411612487,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 465600, 'default': {'kl': 0.009687335230410099, 'policy_loss': -0.11192846298217773, 'vf_loss': 65.97167205810547, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9894397258758545, 'entropy': 11.56912612915039, 'cur_lr': 4.999999873689376e-05, 'total_loss': 65.87445831298828}, 'load_time_ms': 0.64, 'num_steps_sampled': 465600, 'grad_time_ms': 666.051, 'update_time_ms': 2.299, 'sample_time_ms': 29838.458}",2025-08-30_19-28-23,cda-server-4,26.90973997116089,2328,1756574903,10.157.146.4,False,11873.937721967697,1200
+389,-641.3893401211699,389,466800,{},-758.3651657788904,466800,0,11905.565346956253,-593.5997156179308,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 466800, 'default': {'kl': 0.01167338714003563, 'policy_loss': -0.13282667100429535, 'vf_loss': 707.8972778320312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9187676310539246, 'entropy': 11.824955940246582, 'cur_lr': 4.999999873689376e-05, 'total_loss': 707.7822265625}, 'load_time_ms': 0.603, 'num_steps_sampled': 466800, 'grad_time_ms': 684.879, 'update_time_ms': 2.274, 'sample_time_ms': 29927.262}",2025-08-30_19-28-55,cda-server-4,31.627624988555908,2334,1756574935,10.157.146.4,False,11905.565346956253,1200
+390,-639.3587540417171,390,468000,{},-758.3651657788904,468000,0,11937.218532085419,-593.5997156179308,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 468000, 'default': {'kl': 0.00939159281551838, 'policy_loss': -0.10155928879976273, 'vf_loss': 340.8047790527344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9560463428497314, 'entropy': 11.446356773376465, 'cur_lr': 4.999999873689376e-05, 'total_loss': 340.7174987792969}, 'load_time_ms': 0.623, 'num_steps_sampled': 468000, 'grad_time_ms': 692.442, 'update_time_ms': 2.272, 'sample_time_ms': 30070.163}",2025-08-30_19-29-27,cda-server-4,31.65318512916565,2340,1756574967,10.157.146.4,False,11937.218532085419,1200
+391,-640.3061784259476,391,469200,{},-764.2894088460642,469200,0,11968.945586204529,-593.5997156179308,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 469200, 'default': {'kl': 0.011856277473270893, 'policy_loss': -0.14098389446735382, 'vf_loss': 647.330322265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9365953803062439, 'entropy': 11.632464408874512, 'cur_lr': 4.999999873689376e-05, 'total_loss': 647.207275390625}, 'load_time_ms': 0.613, 'num_steps_sampled': 469200, 'grad_time_ms': 707.075, 'update_time_ms': 2.217, 'sample_time_ms': 30091.817}",2025-08-30_19-29-58,cda-server-4,31.727054119110107,2346,1756574998,10.157.146.4,False,11968.945586204529,1200
+392,-638.0925406045736,392,470400,{},-764.2894088460642,470400,0,11997.806302785873,-518.1842460559923,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 470400, 'default': {'kl': 0.010743703693151474, 'policy_loss': -0.13002611696720123, 'vf_loss': 291.41351318359375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.956954300403595, 'entropy': 11.546682357788086, 'cur_lr': 4.999999873689376e-05, 'total_loss': 291.2998352050781}, 'load_time_ms': 0.609, 'num_steps_sampled': 470400, 'grad_time_ms': 704.448, 'update_time_ms': 2.24, 'sample_time_ms': 29704.726}",2025-08-30_19-30-27,cda-server-4,28.860716581344604,2352,1756575027,10.157.146.4,False,11997.806302785873,1200
+393,-638.4542569107549,393,471600,{},-764.2894088460642,471600,0,12029.222579240799,-518.1842460559923,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 471600, 'default': {'kl': 0.010707036592066288, 'policy_loss': -0.12268233299255371, 'vf_loss': 130.2811279296875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9791914820671082, 'entropy': 11.49620532989502, 'cur_lr': 4.999999873689376e-05, 'total_loss': 130.1747283935547}, 'load_time_ms': 0.618, 'num_steps_sampled': 471600, 'grad_time_ms': 724.863, 'update_time_ms': 2.362, 'sample_time_ms': 29719.572}",2025-08-30_19-30-59,cda-server-4,31.416276454925537,2358,1756575059,10.157.146.4,False,12029.222579240799,1200
+394,-637.0219740204739,394,472800,{},-764.2894088460642,472800,0,12058.608887195587,-518.1842460559923,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 472800, 'default': {'kl': 0.008886952884495258, 'policy_loss': -0.1033916175365448, 'vf_loss': 214.4928741455078, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9702847599983215, 'entropy': 11.353751182556152, 'cur_lr': 4.999999873689376e-05, 'total_loss': 214.40298461914062}, 'load_time_ms': 0.633, 'num_steps_sampled': 472800, 'grad_time_ms': 730.783, 'update_time_ms': 2.418, 'sample_time_ms': 29831.244}",2025-08-30_19-31-28,cda-server-4,29.386307954788208,2364,1756575088,10.157.146.4,False,12058.608887195587,1200
+395,-637.0527711782138,395,474000,{},-764.2894088460642,474000,0,12087.368093252182,-518.1842460559923,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 474000, 'default': {'kl': 0.011468911543488503, 'policy_loss': -0.12514740228652954, 'vf_loss': 308.1039123535156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.95999675989151, 'entropy': 11.39576530456543, 'cur_lr': 4.999999873689376e-05, 'total_loss': 307.9962158203125}, 'load_time_ms': 0.633, 'num_steps_sampled': 474000, 'grad_time_ms': 728.129, 'update_time_ms': 2.47, 'sample_time_ms': 29589.375}",2025-08-30_19-31-57,cda-server-4,28.75920605659485,2370,1756575117,10.157.146.4,False,12087.368093252182,1200
+396,-635.9459869771283,396,475200,{},-764.2894088460642,475200,0,12117.13676571846,-518.1842460559923,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 475200, 'default': {'kl': 0.010440576821565628, 'policy_loss': -0.1325313001871109, 'vf_loss': 398.856201171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9466834664344788, 'entropy': 11.533336639404297, 'cur_lr': 4.999999873689376e-05, 'total_loss': 398.739501953125}, 'load_time_ms': 0.62, 'num_steps_sampled': 475200, 'grad_time_ms': 705.401, 'update_time_ms': 2.537, 'sample_time_ms': 29576.129}",2025-08-30_19-32-27,cda-server-4,29.768672466278076,2376,1756575147,10.157.146.4,False,12117.13676571846,1200
+397,-636.2962000953278,397,476400,{},-764.2894088460642,476400,0,12146.842475414276,-518.1842460559923,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 476400, 'default': {'kl': 0.009664906188845634, 'policy_loss': -0.12295028567314148, 'vf_loss': 633.0899047851562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9232500791549683, 'entropy': 11.570501327514648, 'cur_lr': 4.999999873689376e-05, 'total_loss': 632.9815673828125}, 'load_time_ms': 0.651, 'num_steps_sampled': 476400, 'grad_time_ms': 701.184, 'update_time_ms': 2.465, 'sample_time_ms': 29273.067}",2025-08-30_19-32-56,cda-server-4,29.70570969581604,2382,1756575176,10.157.146.4,False,12146.842475414276,1200
+398,-635.3789662273747,398,477600,{},-764.2894088460642,477600,0,12175.232906341553,-518.1842460559923,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 477600, 'default': {'kl': 0.009058279916644096, 'policy_loss': -0.10953252762556076, 'vf_loss': 117.97886657714844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9830417633056641, 'entropy': 11.38052749633789, 'cur_lr': 4.999999873689376e-05, 'total_loss': 117.88309478759766}, 'load_time_ms': 0.65, 'num_steps_sampled': 477600, 'grad_time_ms': 685.49, 'update_time_ms': 2.447, 'sample_time_ms': 29436.817}",2025-08-30_19-33-25,cda-server-4,28.39043092727661,2388,1756575205,10.157.146.4,False,12175.232906341553,1200
+399,-632.0463065918715,399,478800,{},-764.2894088460642,478800,0,12203.38697886467,-518.1842460559923,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 478800, 'default': {'kl': 0.010417578741908073, 'policy_loss': -0.1012813150882721, 'vf_loss': 471.23675537109375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9441288709640503, 'entropy': 11.517040252685547, 'cur_lr': 4.999999873689376e-05, 'total_loss': 471.15130615234375}, 'load_time_ms': 0.655, 'num_steps_sampled': 478800, 'grad_time_ms': 675.934, 'update_time_ms': 2.388, 'sample_time_ms': 29099.112}",2025-08-30_19-33-53,cda-server-4,28.154072523117065,2394,1756575233,10.157.146.4,False,12203.38697886467,1200
+400,-630.6477203099523,400,480000,{},-764.2894088460642,480000,0,12235.20381307602,-518.1842460559923,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 480000, 'default': {'kl': 0.01210097037255764, 'policy_loss': -0.11926588416099548, 'vf_loss': 236.53054809570312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9697193503379822, 'entropy': 11.465248107910156, 'cur_lr': 4.999999873689376e-05, 'total_loss': 236.42962646484375}, 'load_time_ms': 0.633, 'num_steps_sampled': 480000, 'grad_time_ms': 669.503, 'update_time_ms': 2.33, 'sample_time_ms': 29122.052}",2025-08-30_19-34-25,cda-server-4,31.816834211349487,2400,1756575265,10.157.146.4,False,12235.20381307602,1200
+401,-630.070922685056,401,481200,{},-782.4764472088095,481200,0,12264.352214574814,-518.1842460559923,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 481200, 'default': {'kl': 0.010675868950784206, 'policy_loss': -0.11996091902256012, 'vf_loss': 325.6916198730469, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9630425572395325, 'entropy': 11.53316879272461, 'cur_lr': 4.999999873689376e-05, 'total_loss': 325.587890625}, 'load_time_ms': 0.635, 'num_steps_sampled': 481200, 'grad_time_ms': 651.415, 'update_time_ms': 2.316, 'sample_time_ms': 28882.303}",2025-08-30_19-34-54,cda-server-4,29.148401498794556,2406,1756575294,10.157.146.4,False,12264.352214574814,1200
+402,-629.590650470041,402,482400,{},-782.4764472088095,482400,0,12293.472075462341,-518.1842460559923,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 482400, 'default': {'kl': 0.011053700931370258, 'policy_loss': -0.11506802588701248, 'vf_loss': 249.33132934570312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9695475101470947, 'entropy': 11.340203285217285, 'cur_lr': 4.999999873689376e-05, 'total_loss': 249.2330780029297}, 'load_time_ms': 0.636, 'num_steps_sampled': 482400, 'grad_time_ms': 645.98, 'update_time_ms': 2.292, 'sample_time_ms': 28913.698}",2025-08-30_19-35-23,cda-server-4,29.119860887527466,2412,1756575323,10.157.146.4,False,12293.472075462341,1200
+403,-629.3684182694725,403,483600,{},-782.4764472088095,483600,0,12325.66844367981,-518.1842460559923,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 483600, 'default': {'kl': 0.01203213632106781, 'policy_loss': -0.12897709012031555, 'vf_loss': 731.0440063476562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9272438883781433, 'entropy': 11.450332641601562, 'cur_lr': 4.999999873689376e-05, 'total_loss': 730.9332885742188}, 'load_time_ms': 0.642, 'num_steps_sampled': 483600, 'grad_time_ms': 644.294, 'update_time_ms': 2.23, 'sample_time_ms': 28993.428}",2025-08-30_19-35-55,cda-server-4,32.19636821746826,2418,1756575355,10.157.146.4,False,12325.66844367981,1200
+404,-629.2739963451844,404,484800,{},-782.4764472088095,484800,0,12356.036906719208,-518.1842460559923,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 484800, 'default': {'kl': 0.012592227198183537, 'policy_loss': -0.1328529268503189, 'vf_loss': 637.7174072265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9417679309844971, 'entropy': 11.46181869506836, 'cur_lr': 4.999999873689376e-05, 'total_loss': 637.6036376953125}, 'load_time_ms': 0.637, 'num_steps_sampled': 484800, 'grad_time_ms': 646.458, 'update_time_ms': 2.217, 'sample_time_ms': 29089.516}",2025-08-30_19-36-26,cda-server-4,30.368463039398193,2424,1756575386,10.157.146.4,False,12356.036906719208,1200
+405,-629.2053234945873,405,486000,{},-782.4764472088095,486000,0,12386.143423080444,-518.1842460559923,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 486000, 'default': {'kl': 0.010442240163683891, 'policy_loss': -0.12765835225582123, 'vf_loss': 81.42512512207031, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9879038333892822, 'entropy': 11.37342643737793, 'cur_lr': 4.999999873689376e-05, 'total_loss': 81.31332397460938}, 'load_time_ms': 0.645, 'num_steps_sampled': 486000, 'grad_time_ms': 655.852, 'update_time_ms': 2.19, 'sample_time_ms': 29214.83}",2025-08-30_19-36-56,cda-server-4,30.106516361236572,2430,1756575416,10.157.146.4,False,12386.143423080444,1200
+406,-629.5320869696337,406,487200,{},-782.4764472088095,487200,0,12417.765795469284,-518.1842460559923,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 487200, 'default': {'kl': 0.011922824196517467, 'policy_loss': -0.1370454877614975, 'vf_loss': 98.642333984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9891690015792847, 'entropy': 11.456135749816895, 'cur_lr': 4.999999873689376e-05, 'total_loss': 98.52339172363281}, 'load_time_ms': 0.654, 'num_steps_sampled': 487200, 'grad_time_ms': 656.439, 'update_time_ms': 2.181, 'sample_time_ms': 29399.659}",2025-08-30_19-37-27,cda-server-4,31.62237238883972,2436,1756575447,10.157.146.4,False,12417.765795469284,1200
+407,-627.1523379959885,407,488400,{},-782.4764472088095,488400,0,12449.251817941666,-506.83196623773284,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 488400, 'default': {'kl': 0.011445329524576664, 'policy_loss': -0.14757797122001648, 'vf_loss': 173.9502410888672, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9724202752113342, 'entropy': 11.427553176879883, 'cur_lr': 4.999999873689376e-05, 'total_loss': 173.82005310058594}, 'load_time_ms': 0.634, 'num_steps_sampled': 488400, 'grad_time_ms': 650.832, 'update_time_ms': 2.18, 'sample_time_ms': 29583.334}",2025-08-30_19-37-59,cda-server-4,31.486022472381592,2442,1756575479,10.157.146.4,False,12449.251817941666,1200
+408,-627.0102033011055,408,489600,{},-782.4764472088095,489600,0,12481.213478326797,-506.83196623773284,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 489600, 'default': {'kl': 0.010416422970592976, 'policy_loss': -0.11337693780660629, 'vf_loss': 311.725830078125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9562718272209167, 'entropy': 11.226083755493164, 'cur_lr': 4.999999873689376e-05, 'total_loss': 311.6282958984375}, 'load_time_ms': 0.631, 'num_steps_sampled': 489600, 'grad_time_ms': 655.695, 'update_time_ms': 2.24, 'sample_time_ms': 29935.532}",2025-08-30_19-38-31,cda-server-4,31.961660385131836,2448,1756575511,10.157.146.4,False,12481.213478326797,1200
+409,-627.089309124117,409,490800,{},-782.4764472088095,490800,0,12514.273154973984,-506.83196623773284,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 490800, 'default': {'kl': 0.010660373605787754, 'policy_loss': -0.1196177527308464, 'vf_loss': 236.1148223876953, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9723075032234192, 'entropy': 11.234155654907227, 'cur_lr': 4.999999873689376e-05, 'total_loss': 236.01141357421875}, 'load_time_ms': 0.628, 'num_steps_sampled': 490800, 'grad_time_ms': 663.191, 'update_time_ms': 2.288, 'sample_time_ms': 30418.547}",2025-08-30_19-39-04,cda-server-4,33.05967664718628,2454,1756575544,10.157.146.4,False,12514.273154973984,1200
+410,-625.9663237265503,410,492000,{},-782.4764472088095,492000,0,12542.822041988373,-506.83196623773284,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 492000, 'default': {'kl': 0.010048512369394302, 'policy_loss': -0.10869237780570984, 'vf_loss': 261.45941162109375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9706953763961792, 'entropy': 11.431215286254883, 'cur_lr': 4.999999873689376e-05, 'total_loss': 261.36602783203125}, 'load_time_ms': 0.625, 'num_steps_sampled': 492000, 'grad_time_ms': 671.866, 'update_time_ms': 2.282, 'sample_time_ms': 30083.087}",2025-08-30_19-39-33,cda-server-4,28.548887014389038,2460,1756575573,10.157.146.4,False,12542.822041988373,1200
+411,-625.487158955676,411,493200,{},-782.4764472088095,493200,0,12573.701320409775,-506.83196623773284,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 493200, 'default': {'kl': 0.011952308937907219, 'policy_loss': -0.1293184459209442, 'vf_loss': 113.887451171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.984186053276062, 'entropy': 11.308212280273438, 'cur_lr': 4.999999873689376e-05, 'total_loss': 113.77627563476562}, 'load_time_ms': 0.622, 'num_steps_sampled': 493200, 'grad_time_ms': 688.149, 'update_time_ms': 2.306, 'sample_time_ms': 30239.764}",2025-08-30_19-40-04,cda-server-4,30.879278421401978,2466,1756575604,10.157.146.4,False,12573.701320409775,1200
+412,-623.0988042255907,412,494400,{},-782.4764472088095,494400,0,12606.23567891121,-506.83196623773284,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 494400, 'default': {'kl': 0.010702704079449177, 'policy_loss': -0.12768039107322693, 'vf_loss': 199.48411560058594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9695566892623901, 'entropy': 11.187212944030762, 'cur_lr': 4.999999873689376e-05, 'total_loss': 199.3726806640625}, 'load_time_ms': 0.63, 'num_steps_sampled': 494400, 'grad_time_ms': 705.202, 'update_time_ms': 2.29, 'sample_time_ms': 30564.179}",2025-08-30_19-40-36,cda-server-4,32.534358501434326,2472,1756575636,10.157.146.4,False,12606.23567891121,1200
+413,-623.6688732314686,413,495600,{},-782.4764472088095,495600,0,12635.75145983696,-506.83196623773284,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 495600, 'default': {'kl': 0.011852279305458069, 'policy_loss': -0.1349233090877533, 'vf_loss': 581.3892211914062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9387467503547668, 'entropy': 11.466529846191406, 'cur_lr': 4.999999873689376e-05, 'total_loss': 581.2722778320312}, 'load_time_ms': 0.625, 'num_steps_sampled': 495600, 'grad_time_ms': 707.11, 'update_time_ms': 2.283, 'sample_time_ms': 30294.186}",2025-08-30_19-41-06,cda-server-4,29.515780925750732,2478,1756575666,10.157.146.4,False,12635.75145983696,1200
+414,-621.9032268446656,414,496800,{},-782.4764472088095,496800,0,12667.866390228271,-506.83196623773284,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 496800, 'default': {'kl': 0.011990140192210674, 'policy_loss': -0.13053886592388153, 'vf_loss': 312.5345764160156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9626268744468689, 'entropy': 11.422290802001953, 'cur_lr': 4.999999873689376e-05, 'total_loss': 312.4222412109375}, 'load_time_ms': 0.644, 'num_steps_sampled': 496800, 'grad_time_ms': 706.697, 'update_time_ms': 2.348, 'sample_time_ms': 30469.128}",2025-08-30_19-41-38,cda-server-4,32.114930391311646,2484,1756575698,10.157.146.4,False,12667.866390228271,1200
+415,-621.9048972912019,415,498000,{},-782.4764472088095,498000,0,12700.491395235062,-506.83196623773284,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 498000, 'default': {'kl': 0.010699301958084106, 'policy_loss': -0.1238834336400032, 'vf_loss': 529.3602294921875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.982121467590332, 'entropy': 11.358133316040039, 'cur_lr': 4.999999873689376e-05, 'total_loss': 529.2526245117188}, 'load_time_ms': 0.666, 'num_steps_sampled': 498000, 'grad_time_ms': 704.572, 'update_time_ms': 2.422, 'sample_time_ms': 30723.015}",2025-08-30_19-42-10,cda-server-4,32.62500500679016,2490,1756575730,10.157.146.4,False,12700.491395235062,1200
+416,-623.2323353074803,416,499200,{},-782.4764472088095,499200,0,12733.438433885574,-506.83196623773284,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 499200, 'default': {'kl': 0.010188507847487926, 'policy_loss': -0.12752032279968262, 'vf_loss': 204.20030212402344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9729959964752197, 'entropy': 11.354167938232422, 'cur_lr': 4.999999873689376e-05, 'total_loss': 204.0882568359375}, 'load_time_ms': 0.67, 'num_steps_sampled': 499200, 'grad_time_ms': 707.51, 'update_time_ms': 2.406, 'sample_time_ms': 30852.51}",2025-08-30_19-42-43,cda-server-4,32.947038650512695,2496,1756575763,10.157.146.4,False,12733.438433885574,1200
+417,-622.6801538703096,417,500400,{},-782.4764472088095,500400,0,12764.138852119446,-506.83196623773284,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 500400, 'default': {'kl': 0.010038874112069607, 'policy_loss': -0.10395693778991699, 'vf_loss': 168.76083374023438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9752934575080872, 'entropy': 11.355460166931152, 'cur_lr': 4.999999873689376e-05, 'total_loss': 168.672119140625}, 'load_time_ms': 0.653, 'num_steps_sampled': 500400, 'grad_time_ms': 712.738, 'update_time_ms': 2.429, 'sample_time_ms': 30768.703}",2025-08-30_19-43-14,cda-server-4,30.70041823387146,2502,1756575794,10.157.146.4,False,12764.138852119446,1200
+418,-621.5231927624033,418,501600,{},-760.0049193372963,501600,0,12793.557911634445,-506.83196623773284,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 501600, 'default': {'kl': 0.008787785656750202, 'policy_loss': -0.10416018962860107, 'vf_loss': 202.17193603515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9657336473464966, 'entropy': 11.252314567565918, 'cur_lr': 4.999999873689376e-05, 'total_loss': 202.08111572265625}, 'load_time_ms': 0.653, 'num_steps_sampled': 501600, 'grad_time_ms': 717.887, 'update_time_ms': 2.402, 'sample_time_ms': 30509.391}",2025-08-30_19-43-43,cda-server-4,29.41905951499939,2508,1756575823,10.157.146.4,False,12793.557911634445,1200
+419,-618.507011320635,419,502800,{},-760.0049193372963,502800,0,12824.353038787842,-482.43287111861144,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 502800, 'default': {'kl': 0.01253261137753725, 'policy_loss': -0.12642724812030792, 'vf_loss': 290.8473815917969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9589463472366333, 'entropy': 11.290937423706055, 'cur_lr': 4.999999873689376e-05, 'total_loss': 290.739990234375}, 'load_time_ms': 0.652, 'num_steps_sampled': 502800, 'grad_time_ms': 716.745, 'update_time_ms': 2.4, 'sample_time_ms': 30284.068}",2025-08-30_19-44-14,cda-server-4,30.795127153396606,2514,1756575854,10.157.146.4,False,12824.353038787842,1200
+420,-619.6955398966081,420,504000,{},-760.0049193372963,504000,0,12854.474318504333,-482.43287111861144,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 504000, 'default': {'kl': 0.010044042021036148, 'policy_loss': -0.11829026788473129, 'vf_loss': 189.12606811523438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9707055687904358, 'entropy': 11.271196365356445, 'cur_lr': 4.999999873689376e-05, 'total_loss': 189.02304077148438}, 'load_time_ms': 0.659, 'num_steps_sampled': 504000, 'grad_time_ms': 716.76, 'update_time_ms': 2.406, 'sample_time_ms': 30441.23}",2025-08-30_19-44-44,cda-server-4,30.1212797164917,2520,1756575884,10.157.146.4,False,12854.474318504333,1200
+421,-618.9670094085825,421,505200,{},-760.0049193372963,505200,0,12886.199102401733,-482.43287111861144,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 505200, 'default': {'kl': 0.012418705970048904, 'policy_loss': -0.14550410211086273, 'vf_loss': 492.1916809082031, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9489838480949402, 'entropy': 11.276808738708496, 'cur_lr': 4.999999873689376e-05, 'total_loss': 492.06500244140625}, 'load_time_ms': 0.663, 'num_steps_sampled': 505200, 'grad_time_ms': 713.906, 'update_time_ms': 2.397, 'sample_time_ms': 30528.729}",2025-08-30_19-45-16,cda-server-4,31.724783897399902,2526,1756575916,10.157.146.4,False,12886.199102401733,1200
+422,-618.7656254554308,422,506400,{},-760.0049193372963,506400,0,12915.277660369873,-482.43287111861144,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 506400, 'default': {'kl': 0.010196722112596035, 'policy_loss': -0.1120087057352066, 'vf_loss': 199.46400451660156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9681761860847473, 'entropy': 11.231833457946777, 'cur_lr': 4.999999873689376e-05, 'total_loss': 199.3674774169922}, 'load_time_ms': 0.677, 'num_steps_sampled': 506400, 'grad_time_ms': 699.941, 'update_time_ms': 2.436, 'sample_time_ms': 30197.084}",2025-08-30_19-45-45,cda-server-4,29.07855796813965,2532,1756575945,10.157.146.4,False,12915.277660369873,1200
+423,-618.3038711962608,423,507600,{},-741.761673754797,507600,0,12942.4099214077,-482.43287111861144,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 507600, 'default': {'kl': 0.009446612559258938, 'policy_loss': -0.12381798774003983, 'vf_loss': 328.1785583496094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.956655740737915, 'entropy': 11.244695663452148, 'cur_lr': 4.999999873689376e-05, 'total_loss': 328.0691223144531}, 'load_time_ms': 0.679, 'num_steps_sampled': 507600, 'grad_time_ms': 682.023, 'update_time_ms': 2.394, 'sample_time_ms': 29976.757}",2025-08-30_19-46-12,cda-server-4,27.132261037826538,2538,1756575972,10.157.146.4,False,12942.4099214077,1200
+424,-619.7433987677543,424,508800,{},-741.761673754797,508800,0,12974.022131204605,-482.43287111861144,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 508800, 'default': {'kl': 0.012159706093370914, 'policy_loss': -0.12351974099874496, 'vf_loss': 76.57357788085938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.988806962966919, 'entropy': 11.440713882446289, 'cur_lr': 4.999999873689376e-05, 'total_loss': 76.46853637695312}, 'load_time_ms': 0.664, 'num_steps_sampled': 508800, 'grad_time_ms': 682.103, 'update_time_ms': 2.333, 'sample_time_ms': 29926.48}",2025-08-30_19-46-44,cda-server-4,31.612209796905518,2544,1756576004,10.157.146.4,False,12974.022131204605,1200
+425,-617.0982117588579,425,510000,{},-741.761673754797,510000,0,13005.40347647667,-478.5827394039238,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 510000, 'default': {'kl': 0.011943568475544453, 'policy_loss': -0.11899343878030777, 'vf_loss': 380.9001770019531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9735039472579956, 'entropy': 11.278118133544922, 'cur_lr': 4.999999873689376e-05, 'total_loss': 380.79931640625}, 'load_time_ms': 0.629, 'num_steps_sampled': 510000, 'grad_time_ms': 675.056, 'update_time_ms': 2.32, 'sample_time_ms': 29809.255}",2025-08-30_19-47-15,cda-server-4,31.38134527206421,2550,1756576035,10.157.146.4,False,13005.40347647667,1200
+426,-617.6200980365638,426,511200,{},-741.761673754797,511200,0,13036.351165771484,-478.5827394039238,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 511200, 'default': {'kl': 0.011105973273515701, 'policy_loss': -0.12592798471450806, 'vf_loss': 138.3424835205078, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9791160225868225, 'entropy': 11.151764869689941, 'cur_lr': 4.999999873689376e-05, 'total_loss': 138.23341369628906}, 'load_time_ms': 0.648, 'num_steps_sampled': 511200, 'grad_time_ms': 652.38, 'update_time_ms': 2.31, 'sample_time_ms': 29632.024}",2025-08-30_19-47-46,cda-server-4,30.947689294815063,2556,1756576066,10.157.146.4,False,13036.351165771484,1200
+427,-618.4377279832704,427,512400,{},-741.761673754797,512400,0,13063.384565353394,-478.5827394039238,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 512400, 'default': {'kl': 0.010105280205607414, 'policy_loss': -0.12210208922624588, 'vf_loss': 148.76092529296875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9810664653778076, 'entropy': 11.260576248168945, 'cur_lr': 4.999999873689376e-05, 'total_loss': 148.6541748046875}, 'load_time_ms': 0.67, 'num_steps_sampled': 512400, 'grad_time_ms': 644.391, 'update_time_ms': 2.279, 'sample_time_ms': 29273.332}",2025-08-30_19-48-13,cda-server-4,27.03339958190918,2562,1756576093,10.157.146.4,False,13063.384565353394,1200
+428,-618.9783714056946,428,513600,{},-741.761673754797,513600,0,13094.03524184227,-478.5827394039238,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 513600, 'default': {'kl': 0.01181074883788824, 'policy_loss': -0.12302935123443604, 'vf_loss': 832.305908203125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9039230346679688, 'entropy': 11.307456016540527, 'cur_lr': 4.999999873689376e-05, 'total_loss': 832.2008666992188}, 'load_time_ms': 0.679, 'num_steps_sampled': 513600, 'grad_time_ms': 638.83, 'update_time_ms': 2.224, 'sample_time_ms': 29402.082}",2025-08-30_19-48-44,cda-server-4,30.650676488876343,2568,1756576124,10.157.146.4,False,13094.03524184227,1200
+429,-618.8616033700997,429,514800,{},-741.761673754797,514800,0,13125.25627207756,-478.5827394039238,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 514800, 'default': {'kl': 0.009826356545090675, 'policy_loss': -0.11310335248708725, 'vf_loss': 253.86778259277344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9634772539138794, 'entropy': 11.30257511138916, 'cur_lr': 4.999999873689376e-05, 'total_loss': 253.7696075439453}, 'load_time_ms': 0.678, 'num_steps_sampled': 514800, 'grad_time_ms': 638.267, 'update_time_ms': 2.235, 'sample_time_ms': 29445.223}",2025-08-30_19-49-15,cda-server-4,31.221030235290527,2574,1756576155,10.157.146.4,False,13125.25627207756,1200
+430,-619.7888873964351,430,516000,{},-741.761673754797,516000,0,13154.664698839188,-478.5827394039238,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 516000, 'default': {'kl': 0.01113604474812746, 'policy_loss': -0.13459329307079315, 'vf_loss': 474.64605712890625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9574849605560303, 'entropy': 11.21823501586914, 'cur_lr': 4.999999873689376e-05, 'total_loss': 474.5284423828125}, 'load_time_ms': 0.671, 'num_steps_sampled': 516000, 'grad_time_ms': 619.996, 'update_time_ms': 2.318, 'sample_time_ms': 29392.215}",2025-08-30_19-49-45,cda-server-4,29.408426761627197,2580,1756576185,10.157.146.4,False,13154.664698839188,1200
+431,-619.4488186822738,431,517200,{},-741.761673754797,517200,0,13183.19893336296,-478.5827394039238,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 517200, 'default': {'kl': 0.011878893710672855, 'policy_loss': -0.10315563529729843, 'vf_loss': 469.1370849609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9485947489738464, 'entropy': 11.376200675964355, 'cur_lr': 4.999999873689376e-05, 'total_loss': 469.0519714355469}, 'load_time_ms': 0.674, 'num_steps_sampled': 517200, 'grad_time_ms': 594.16, 'update_time_ms': 2.258, 'sample_time_ms': 29099.081}",2025-08-30_19-50-13,cda-server-4,28.534234523773193,2586,1756576213,10.157.146.4,False,13183.19893336296,1200
+432,-618.2018147123015,432,518400,{},-714.2999314164217,518400,0,13215.731056213379,-478.5827394039238,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 518400, 'default': {'kl': 0.012274261564016342, 'policy_loss': -0.13418982923030853, 'vf_loss': 560.4349365234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9271774291992188, 'entropy': 11.306244850158691, 'cur_lr': 4.999999873689376e-05, 'total_loss': 560.3193969726562}, 'load_time_ms': 0.686, 'num_steps_sampled': 518400, 'grad_time_ms': 592.688, 'update_time_ms': 2.193, 'sample_time_ms': 29445.849}",2025-08-30_19-50-46,cda-server-4,32.53212285041809,2592,1756576246,10.157.146.4,False,13215.731056213379,1200
+433,-619.5565128633268,433,519600,{},-754.4954095844768,519600,0,13244.602402687073,-478.5827394039238,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 519600, 'default': {'kl': 0.007900144904851913, 'policy_loss': -0.11487600207328796, 'vf_loss': 440.142578125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9400902986526489, 'entropy': 11.542848587036133, 'cur_lr': 4.999999873689376e-05, 'total_loss': 440.0396728515625}, 'load_time_ms': 0.688, 'num_steps_sampled': 519600, 'grad_time_ms': 601.067, 'update_time_ms': 2.226, 'sample_time_ms': 29611.338}",2025-08-30_19-51-15,cda-server-4,28.871346473693848,2598,1756576275,10.157.146.4,False,13244.602402687073,1200
+434,-618.2397096885383,434,520800,{},-754.4954095844768,520800,0,13275.924944639206,-478.5827394039238,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 520800, 'default': {'kl': 0.01175084337592125, 'policy_loss': -0.12848405539989471, 'vf_loss': 192.15391540527344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9802989959716797, 'entropy': 11.126642227172852, 'cur_lr': 4.999999873689376e-05, 'total_loss': 192.04327392578125}, 'load_time_ms': 0.687, 'num_steps_sampled': 520800, 'grad_time_ms': 598.976, 'update_time_ms': 2.207, 'sample_time_ms': 29584.534}",2025-08-30_19-51-46,cda-server-4,31.32254195213318,2604,1756576306,10.157.146.4,False,13275.924944639206,1200
+435,-618.3961777189661,435,522000,{},-754.4954095844768,522000,0,13306.270076990128,-478.5827394039238,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 522000, 'default': {'kl': 0.011411968618631363, 'policy_loss': -0.11522074788808823, 'vf_loss': 508.5558776855469, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9566535949707031, 'entropy': 11.049055099487305, 'cur_lr': 4.999999873689376e-05, 'total_loss': 508.4580078125}, 'load_time_ms': 0.686, 'num_steps_sampled': 522000, 'grad_time_ms': 593.335, 'update_time_ms': 2.142, 'sample_time_ms': 29486.592}",2025-08-30_19-52-16,cda-server-4,30.34513235092163,2610,1756576336,10.157.146.4,False,13306.270076990128,1200
+436,-620.7734393866698,436,523200,{},-754.4954095844768,523200,0,13337.704042196274,-478.5827394039238,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 523200, 'default': {'kl': 0.010413645766675472, 'policy_loss': -0.12308567017316818, 'vf_loss': 289.9085693359375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9676696062088013, 'entropy': 11.17711067199707, 'cur_lr': 4.999999873689376e-05, 'total_loss': 289.8013000488281}, 'load_time_ms': 0.687, 'num_steps_sampled': 523200, 'grad_time_ms': 604.379, 'update_time_ms': 2.171, 'sample_time_ms': 29524.142}",2025-08-30_19-52-48,cda-server-4,31.43396520614624,2616,1756576368,10.157.146.4,False,13337.704042196274,1200
+437,-618.887726551697,437,524400,{},-754.4954095844768,524400,0,13369.030546665192,-478.5827394039238,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 524400, 'default': {'kl': 0.010223116725683212, 'policy_loss': -0.10484219342470169, 'vf_loss': 365.40985107421875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9622731804847717, 'entropy': 11.085165023803711, 'cur_lr': 4.999999873689376e-05, 'total_loss': 365.320556640625}, 'load_time_ms': 0.698, 'num_steps_sampled': 524400, 'grad_time_ms': 614.265, 'update_time_ms': 2.116, 'sample_time_ms': 29943.576}",2025-08-30_19-53-19,cda-server-4,31.326504468917847,2622,1756576399,10.157.146.4,False,13369.030546665192,1200
+438,-620.227636096882,438,525600,{},-754.4954095844768,525600,0,13398.344521284103,-478.5827394039238,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 525600, 'default': {'kl': 0.010720684193074703, 'policy_loss': -0.12073726207017899, 'vf_loss': 147.25755310058594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9806778430938721, 'entropy': 11.136150360107422, 'cur_lr': 4.999999873689376e-05, 'total_loss': 147.15310668945312}, 'load_time_ms': 0.698, 'num_steps_sampled': 525600, 'grad_time_ms': 625.6, 'update_time_ms': 2.174, 'sample_time_ms': 29798.504}",2025-08-30_19-53-49,cda-server-4,29.313974618911743,2628,1756576429,10.157.146.4,False,13398.344521284103,1200
+439,-618.0132041908639,439,526800,{},-754.4954095844768,526800,0,13427.999064445496,-477.8698393574042,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 526800, 'default': {'kl': 0.010507526807487011, 'policy_loss': -0.1191876232624054, 'vf_loss': 167.7955780029297, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.972925066947937, 'entropy': 11.11034870147705, 'cur_lr': 4.999999873689376e-05, 'total_loss': 167.6923370361328}, 'load_time_ms': 0.728, 'num_steps_sampled': 526800, 'grad_time_ms': 629.935, 'update_time_ms': 2.139, 'sample_time_ms': 29637.488}",2025-08-30_19-54-18,cda-server-4,29.654543161392212,2634,1756576458,10.157.146.4,False,13427.999064445496,1200
+440,-617.1057796624341,440,528000,{},-754.4954095844768,528000,0,13460.296050548553,-477.8698393574042,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 528000, 'default': {'kl': 0.009674395434558392, 'policy_loss': -0.09741339087486267, 'vf_loss': 406.3402099609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9408784508705139, 'entropy': 10.950899124145508, 'cur_lr': 4.999999873689376e-05, 'total_loss': 406.2574462890625}, 'load_time_ms': 0.736, 'num_steps_sampled': 528000, 'grad_time_ms': 650.016, 'update_time_ms': 2.045, 'sample_time_ms': 29906.239}",2025-08-30_19-54-51,cda-server-4,32.29698610305786,2640,1756576491,10.157.146.4,False,13460.296050548553,1200
+441,-617.2222281089366,441,529200,{},-754.4954095844768,529200,0,13487.136195659637,-477.8698393574042,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 529200, 'default': {'kl': 0.009605806320905685, 'policy_loss': -0.12376541644334793, 'vf_loss': 59.38190460205078, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9918918609619141, 'entropy': 11.096755981445312, 'cur_lr': 4.999999873689376e-05, 'total_loss': 59.27272415161133}, 'load_time_ms': 0.73, 'num_steps_sampled': 529200, 'grad_time_ms': 675.153, 'update_time_ms': 2.165, 'sample_time_ms': 29711.593}",2025-08-30_19-55-17,cda-server-4,26.840145111083984,2646,1756576517,10.157.146.4,False,13487.136195659637,1200
+442,-618.5671173310204,442,530400,{},-754.4954095844768,530400,0,13517.612721681595,-477.8698393574042,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 530400, 'default': {'kl': 0.01261213794350624, 'policy_loss': -0.13193361461162567, 'vf_loss': 103.00617980957031, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9872576594352722, 'entropy': 11.210396766662598, 'cur_lr': 4.999999873689376e-05, 'total_loss': 102.89339447021484}, 'load_time_ms': 0.702, 'num_steps_sampled': 530400, 'grad_time_ms': 688.839, 'update_time_ms': 2.159, 'sample_time_ms': 29492.434}",2025-08-30_19-55-48,cda-server-4,30.476526021957397,2652,1756576548,10.157.146.4,False,13517.612721681595,1200
+443,-618.248516089753,443,531600,{},-754.4954095844768,531600,0,13548.090602636337,-477.8698393574042,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 531600, 'default': {'kl': 0.009559571743011475, 'policy_loss': -0.11067056655883789, 'vf_loss': 292.37689208984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9740414023399353, 'entropy': 11.048171997070312, 'cur_lr': 4.999999873689376e-05, 'total_loss': 292.2807312011719}, 'load_time_ms': 0.696, 'num_steps_sampled': 531600, 'grad_time_ms': 698.354, 'update_time_ms': 2.163, 'sample_time_ms': 29643.602}",2025-08-30_19-56-18,cda-server-4,30.47788095474243,2658,1756576578,10.157.146.4,False,13548.090602636337,1200
+444,-617.9316665686562,444,532800,{},-754.4954095844768,532800,0,13577.614768981934,-477.8698393574042,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 532800, 'default': {'kl': 0.00951873417943716, 'policy_loss': -0.10757703334093094, 'vf_loss': 508.3123779296875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9256016612052917, 'entropy': 10.95256233215332, 'cur_lr': 4.999999873689376e-05, 'total_loss': 508.21929931640625}, 'load_time_ms': 0.725, 'num_steps_sampled': 532800, 'grad_time_ms': 705.948, 'update_time_ms': 2.182, 'sample_time_ms': 29456.068}",2025-08-30_19-56-48,cda-server-4,29.524166345596313,2664,1756576608,10.157.146.4,False,13577.614768981934,1200
+445,-619.8079515324335,445,534000,{},-754.4954095844768,534000,0,13611.172102212906,-477.8698393574042,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 534000, 'default': {'kl': 0.010123070329427719, 'policy_loss': -0.11215332895517349, 'vf_loss': 218.11282348632812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9762314558029175, 'entropy': 11.04014778137207, 'cur_lr': 4.999999873689376e-05, 'total_loss': 218.0160369873047}, 'load_time_ms': 0.719, 'num_steps_sampled': 534000, 'grad_time_ms': 715.578, 'update_time_ms': 2.235, 'sample_time_ms': 29767.637}",2025-08-30_19-57-22,cda-server-4,33.55733323097229,2670,1756576642,10.157.146.4,False,13611.172102212906,1200
+446,-620.4819894383271,446,535200,{},-754.4954095844768,535200,0,13642.2602725029,-477.8698393574042,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 535200, 'default': {'kl': 0.008759144693613052, 'policy_loss': -0.11334971338510513, 'vf_loss': 534.3622436523438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9174603223800659, 'entropy': 11.19375228881836, 'cur_lr': 4.999999873689376e-05, 'total_loss': 534.2622680664062}, 'load_time_ms': 0.689, 'num_steps_sampled': 535200, 'grad_time_ms': 731.599, 'update_time_ms': 2.262, 'sample_time_ms': 29716.995}",2025-08-30_19-57-53,cda-server-4,31.088170289993286,2676,1756576673,10.157.146.4,False,13642.2602725029,1200
+447,-619.2860705952822,447,536400,{},-754.4954095844768,536400,0,13673.844406604767,-477.8698393574042,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 536400, 'default': {'kl': 0.011812294833362103, 'policy_loss': -0.09959924966096878, 'vf_loss': 519.2363891601562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9370423555374146, 'entropy': 10.94975757598877, 'cur_lr': 4.999999873689376e-05, 'total_loss': 519.1547241210938}, 'load_time_ms': 0.661, 'num_steps_sampled': 536400, 'grad_time_ms': 737.116, 'update_time_ms': 2.309, 'sample_time_ms': 29737.248}",2025-08-30_19-58-24,cda-server-4,31.584134101867676,2682,1756576704,10.157.146.4,False,13673.844406604767,1200
+448,-620.8398765791339,448,537600,{},-754.4954095844768,537600,0,13702.926866054535,-477.8698393574042,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 537600, 'default': {'kl': 0.012666087597608566, 'policy_loss': -0.13876546919345856, 'vf_loss': 402.6359558105469, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.967880368232727, 'entropy': 10.897870063781738, 'cur_lr': 4.999999873689376e-05, 'total_loss': 402.51641845703125}, 'load_time_ms': 0.664, 'num_steps_sampled': 537600, 'grad_time_ms': 737.488, 'update_time_ms': 2.268, 'sample_time_ms': 29713.746}",2025-08-30_19-58-53,cda-server-4,29.082459449768066,2688,1756576733,10.157.146.4,False,13702.926866054535,1200
+449,-621.7826303513091,449,538800,{},-754.4954095844768,538800,0,13735.881003379822,-477.8698393574042,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 538800, 'default': {'kl': 0.008443779312074184, 'policy_loss': -0.117045558989048, 'vf_loss': 334.7080383300781, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9571969509124756, 'entropy': 11.06395435333252, 'cur_lr': 4.999999873689376e-05, 'total_loss': 334.60382080078125}, 'load_time_ms': 0.631, 'num_steps_sampled': 538800, 'grad_time_ms': 732.998, 'update_time_ms': 2.25, 'sample_time_ms': 30048.339}",2025-08-30_19-59-26,cda-server-4,32.954137325286865,2694,1756576766,10.157.146.4,False,13735.881003379822,1200
+450,-623.7718853410722,450,540000,{},-795.1451085947858,540000,0,13766.15259051323,-477.8698393574042,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 540000, 'default': {'kl': 0.011179734021425247, 'policy_loss': -0.1340395212173462, 'vf_loss': 341.8172607421875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9622538685798645, 'entropy': 11.082621574401855, 'cur_lr': 4.999999873689376e-05, 'total_loss': 341.7002258300781}, 'load_time_ms': 0.637, 'num_steps_sampled': 540000, 'grad_time_ms': 717.502, 'update_time_ms': 2.303, 'sample_time_ms': 29861.288}",2025-08-30_19-59-57,cda-server-4,30.271587133407593,2700,1756576797,10.157.146.4,False,13766.15259051323,1200
+451,-625.4798293951617,451,541200,{},-795.1451085947858,541200,0,13796.959985017776,-477.8698393574042,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 541200, 'default': {'kl': 0.011080041527748108, 'policy_loss': -0.11797753721475601, 'vf_loss': 392.2762145996094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9494214653968811, 'entropy': 10.868993759155273, 'cur_lr': 4.999999873689376e-05, 'total_loss': 392.1750793457031}, 'load_time_ms': 0.672, 'num_steps_sampled': 541200, 'grad_time_ms': 700.399, 'update_time_ms': 2.226, 'sample_time_ms': 30275.123}",2025-08-30_20-00-27,cda-server-4,30.80739450454712,2706,1756576827,10.157.146.4,False,13796.959985017776,1200
+452,-624.9714210737807,452,542400,{},-795.1451085947858,542400,0,13825.330749750137,-477.8698393574042,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 542400, 'default': {'kl': 0.012937087565660477, 'policy_loss': -0.13519510626792908, 'vf_loss': 776.182861328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9378864765167236, 'entropy': 11.043757438659668, 'cur_lr': 4.999999873689376e-05, 'total_loss': 776.0674438476562}, 'load_time_ms': 0.68, 'num_steps_sampled': 542400, 'grad_time_ms': 680.222, 'update_time_ms': 2.323, 'sample_time_ms': 30084.583}",2025-08-30_20-00-56,cda-server-4,28.37076473236084,2712,1756576856,10.157.146.4,False,13825.330749750137,1200
+453,-626.1122110859855,453,543600,{},-795.1451085947858,543600,0,13853.653752803802,-477.8698393574042,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 543600, 'default': {'kl': 0.009691610932350159, 'policy_loss': -0.13002413511276245, 'vf_loss': 192.2396697998047, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9851133823394775, 'entropy': 10.918725967407227, 'cur_lr': 4.999999873689376e-05, 'total_loss': 192.1243438720703}, 'load_time_ms': 0.672, 'num_steps_sampled': 543600, 'grad_time_ms': 654.907, 'update_time_ms': 2.34, 'sample_time_ms': 29894.373}",2025-08-30_20-01-24,cda-server-4,28.32300305366516,2718,1756576884,10.157.146.4,False,13853.653752803802,1200
+454,-627.0090146813001,454,544800,{},-795.1451085947858,544800,0,13884.222023010254,-477.8698393574042,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 544800, 'default': {'kl': 0.011771554127335548, 'policy_loss': -0.11822578310966492, 'vf_loss': 542.2007446289062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9435520172119141, 'entropy': 11.006814002990723, 'cur_lr': 4.999999873689376e-05, 'total_loss': 542.100341796875}, 'load_time_ms': 0.671, 'num_steps_sampled': 544800, 'grad_time_ms': 638.742, 'update_time_ms': 2.351, 'sample_time_ms': 30014.884}",2025-08-30_20-01-55,cda-server-4,30.568270206451416,2724,1756576915,10.157.146.4,False,13884.222023010254,1200
+455,-626.774358154718,455,546000,{},-795.1451085947858,546000,0,13910.867819547653,-477.8698393574042,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 546000, 'default': {'kl': 0.009761239401996136, 'policy_loss': -0.11705771833658218, 'vf_loss': 248.08335876464844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9806420207023621, 'entropy': 11.134438514709473, 'cur_lr': 4.999999873689376e-05, 'total_loss': 247.98114013671875}, 'load_time_ms': 0.671, 'num_steps_sampled': 546000, 'grad_time_ms': 618.016, 'update_time_ms': 2.334, 'sample_time_ms': 29344.518}",2025-08-30_20-02-21,cda-server-4,26.645796537399292,2730,1756576941,10.157.146.4,False,13910.867819547653,1200
+456,-626.9305592472365,456,547200,{},-795.1451085947858,547200,0,13941.040147781372,-502.23436115699616,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 547200, 'default': {'kl': 0.01187687087804079, 'policy_loss': -0.12870319187641144, 'vf_loss': 237.98733520507812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9726995825767517, 'entropy': 10.854279518127441, 'cur_lr': 4.999999873689376e-05, 'total_loss': 237.87664794921875}, 'load_time_ms': 0.671, 'num_steps_sampled': 547200, 'grad_time_ms': 617.126, 'update_time_ms': 2.228, 'sample_time_ms': 29253.953}",2025-08-30_20-02-52,cda-server-4,30.172328233718872,2736,1756576972,10.157.146.4,False,13941.040147781372,1200
+457,-628.9082143701471,457,548400,{},-795.1451085947858,548400,0,13973.203260183334,-502.23436115699616,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 548400, 'default': {'kl': 0.008532809093594551, 'policy_loss': -0.11340778321027756, 'vf_loss': 328.3537292480469, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9667870402336121, 'entropy': 10.85225772857666, 'cur_lr': 4.999999873689376e-05, 'total_loss': 328.2532653808594}, 'load_time_ms': 0.67, 'num_steps_sampled': 548400, 'grad_time_ms': 614.107, 'update_time_ms': 2.242, 'sample_time_ms': 29314.873}",2025-08-30_20-03-24,cda-server-4,32.16311240196228,2742,1756577004,10.157.146.4,False,13973.203260183334,1200
+458,-628.4376244775493,458,549600,{},-795.1451085947858,549600,0,14005.301946401596,-565.9127786669212,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 549600, 'default': {'kl': 0.010677252896130085, 'policy_loss': -0.09670945256948471, 'vf_loss': 293.049072265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9624599814414978, 'entropy': 10.818774223327637, 'cur_lr': 4.999999873689376e-05, 'total_loss': 292.9686279296875}, 'load_time_ms': 0.662, 'num_steps_sampled': 549600, 'grad_time_ms': 604.972, 'update_time_ms': 2.263, 'sample_time_ms': 29625.625}",2025-08-30_20-03-56,cda-server-4,32.09868621826172,2748,1756577036,10.157.146.4,False,14005.301946401596,1200
+459,-629.860624967939,459,550800,{},-795.1451085947858,550800,0,14037.893481016159,-565.9127786669212,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 550800, 'default': {'kl': 0.009920721873641014, 'policy_loss': -0.12251467257738113, 'vf_loss': 259.9671325683594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9616109132766724, 'entropy': 10.844526290893555, 'cur_lr': 4.999999873689376e-05, 'total_loss': 259.85968017578125}, 'load_time_ms': 0.667, 'num_steps_sampled': 550800, 'grad_time_ms': 593.806, 'update_time_ms': 2.317, 'sample_time_ms': 29600.453}",2025-08-30_20-04-28,cda-server-4,32.59153461456299,2754,1756577068,10.157.146.4,False,14037.893481016159,1200
+460,-630.3936442474046,460,552000,{},-795.1451085947858,552000,0,14066.232396125793,-565.9127786669212,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 552000, 'default': {'kl': 0.010878431610763073, 'policy_loss': -0.12890978157520294, 'vf_loss': 383.9095153808594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9711061120033264, 'entropy': 10.981531143188477, 'cur_lr': 4.999999873689376e-05, 'total_loss': 383.7970275878906}, 'load_time_ms': 0.668, 'num_steps_sampled': 552000, 'grad_time_ms': 589.175, 'update_time_ms': 2.329, 'sample_time_ms': 29411.767}",2025-08-30_20-04-57,cda-server-4,28.3389151096344,2760,1756577097,10.157.146.4,False,14066.232396125793,1200
+461,-630.675761852481,461,553200,{},-795.1451085947858,553200,0,14093.556669712067,-565.9127786669212,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 553200, 'default': {'kl': 0.01134013943374157, 'policy_loss': -0.12939196825027466, 'vf_loss': 184.0482635498047, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.981164276599884, 'entropy': 10.791619300842285, 'cur_lr': 4.999999873689376e-05, 'total_loss': 183.93606567382812}, 'load_time_ms': 0.659, 'num_steps_sampled': 553200, 'grad_time_ms': 607.173, 'update_time_ms': 2.326, 'sample_time_ms': 29045.376}",2025-08-30_20-05-24,cda-server-4,27.324273586273193,2766,1756577124,10.157.146.4,False,14093.556669712067,1200
+462,-629.6181357687631,462,554400,{},-795.1451085947858,554400,0,14122.022104024887,-565.9127786669212,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 554400, 'default': {'kl': 0.009736290201544762, 'policy_loss': -0.11847731471061707, 'vf_loss': 850.9285888671875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8929267525672913, 'entropy': 10.876133918762207, 'cur_lr': 4.999999873689376e-05, 'total_loss': 850.8248901367188}, 'load_time_ms': 0.648, 'num_steps_sampled': 554400, 'grad_time_ms': 626.94, 'update_time_ms': 2.335, 'sample_time_ms': 29035.106}",2025-08-30_20-05-53,cda-server-4,28.465434312820435,2772,1756577153,10.157.146.4,False,14122.022104024887,1200
+463,-630.8345934194884,463,555600,{},-795.1451085947858,555600,0,14153.114756822586,-565.9127786669212,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 555600, 'default': {'kl': 0.00998605601489544, 'policy_loss': -0.11459699273109436, 'vf_loss': 539.9859008789062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9453212022781372, 'entropy': 10.93400764465332, 'cur_lr': 4.999999873689376e-05, 'total_loss': 539.886474609375}, 'load_time_ms': 0.665, 'num_steps_sampled': 555600, 'grad_time_ms': 653.394, 'update_time_ms': 2.318, 'sample_time_ms': 29285.592}",2025-08-30_20-06-24,cda-server-4,31.092652797698975,2778,1756577184,10.157.146.4,False,14153.114756822586,1200
+464,-630.9719779777214,464,556800,{},-795.1451085947858,556800,0,14184.831750869751,-566.8017751453431,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 556800, 'default': {'kl': 0.010697430931031704, 'policy_loss': -0.11582326889038086, 'vf_loss': 377.7140808105469, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9649955034255981, 'entropy': 10.641366958618164, 'cur_lr': 4.999999873689376e-05, 'total_loss': 377.614501953125}, 'load_time_ms': 0.632, 'num_steps_sampled': 556800, 'grad_time_ms': 664.989, 'update_time_ms': 2.321, 'sample_time_ms': 29389.016}",2025-08-30_20-06-55,cda-server-4,31.716994047164917,2784,1756577215,10.157.146.4,False,14184.831750869751,1200
+465,-630.9608317757986,465,558000,{},-795.1451085947858,558000,0,14217.377351999283,-566.8017751453431,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 558000, 'default': {'kl': 0.009929349645972252, 'policy_loss': -0.1287732720375061, 'vf_loss': 224.63229370117188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9691026210784912, 'entropy': 10.75227165222168, 'cur_lr': 4.999999873689376e-05, 'total_loss': 224.5186004638672}, 'load_time_ms': 0.643, 'num_steps_sampled': 558000, 'grad_time_ms': 690.469, 'update_time_ms': 2.275, 'sample_time_ms': 29953.5}",2025-08-30_20-07-28,cda-server-4,32.54560112953186,2790,1756577248,10.157.146.4,False,14217.377351999283,1200
+466,-630.2946317867118,466,559200,{},-795.1451085947858,559200,0,14246.73190832138,-566.8017751453431,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 559200, 'default': {'kl': 0.009804246947169304, 'policy_loss': -0.10696824640035629, 'vf_loss': 494.6482849121094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9625284671783447, 'entropy': 10.84268856048584, 'cur_lr': 4.999999873689376e-05, 'total_loss': 494.55621337890625}, 'load_time_ms': 0.64, 'num_steps_sampled': 559200, 'grad_time_ms': 690.029, 'update_time_ms': 2.296, 'sample_time_ms': 29872.13}",2025-08-30_20-07-57,cda-server-4,29.35455632209778,2796,1756577277,10.157.146.4,False,14246.73190832138,1200
+467,-627.3832873165793,467,560400,{},-747.9873686635922,560400,0,14278.656976938248,-566.8017751453431,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 560400, 'default': {'kl': 0.012098006904125214, 'policy_loss': -0.12763404846191406, 'vf_loss': 209.5469207763672, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9893143773078918, 'entropy': 10.785600662231445, 'cur_lr': 4.999999873689376e-05, 'total_loss': 209.4376678466797}, 'load_time_ms': 0.637, 'num_steps_sampled': 560400, 'grad_time_ms': 693.447, 'update_time_ms': 2.239, 'sample_time_ms': 29844.902}",2025-08-30_20-08-29,cda-server-4,31.925068616867065,2802,1756577309,10.157.146.4,False,14278.656976938248,1200
+468,-625.3414525792409,468,561600,{},-747.9873686635922,561600,0,14309.051544904709,-489.0717477332604,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 561600, 'default': {'kl': 0.01129474863409996, 'policy_loss': -0.12040206044912338, 'vf_loss': 92.28482818603516, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9854227900505066, 'entropy': 10.60959529876709, 'cur_lr': 4.999999873689376e-05, 'total_loss': 92.18157958984375}, 'load_time_ms': 0.637, 'num_steps_sampled': 561600, 'grad_time_ms': 702.93, 'update_time_ms': 2.29, 'sample_time_ms': 29664.944}",2025-08-30_20-09-00,cda-server-4,30.39456796646118,2808,1756577340,10.157.146.4,False,14309.051544904709,1200
+469,-623.9740090287357,469,562800,{},-747.9873686635922,562800,0,14338.53987812996,-489.0717477332604,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 562800, 'default': {'kl': 0.011340021155774593, 'policy_loss': -0.11015105247497559, 'vf_loss': 112.05113220214844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9886970520019531, 'entropy': 10.686305046081543, 'cur_lr': 4.999999873689376e-05, 'total_loss': 111.95820617675781}, 'load_time_ms': 0.648, 'num_steps_sampled': 562800, 'grad_time_ms': 717.787, 'update_time_ms': 2.339, 'sample_time_ms': 29339.655}",2025-08-30_20-09-29,cda-server-4,29.488333225250244,2814,1756577369,10.157.146.4,False,14338.53987812996,1200
+470,-624.3229792387127,470,564000,{},-747.9873686635922,564000,0,14367.861992359161,-489.0717477332604,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 564000, 'default': {'kl': 0.011410888284444809, 'policy_loss': -0.12313880026340485, 'vf_loss': 188.88711547851562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9738715291023254, 'entropy': 10.671566009521484, 'cur_lr': 4.999999873689376e-05, 'total_loss': 188.78131103515625}, 'load_time_ms': 0.648, 'num_steps_sampled': 564000, 'grad_time_ms': 735.495, 'update_time_ms': 2.404, 'sample_time_ms': 29420.188}",2025-08-30_20-09-59,cda-server-4,29.32211422920227,2820,1756577399,10.157.146.4,False,14367.861992359161,1200
+471,-623.1939130976009,471,565200,{},-747.9873686635922,565200,0,14397.991278409958,-489.0717477332604,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 565200, 'default': {'kl': 0.010624594055116177, 'policy_loss': -0.11947456747293472, 'vf_loss': 223.61376953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9776116609573364, 'entropy': 10.508391380310059, 'cur_lr': 4.999999873689376e-05, 'total_loss': 223.51043701171875}, 'load_time_ms': 0.622, 'num_steps_sampled': 565200, 'grad_time_ms': 735.039, 'update_time_ms': 2.444, 'sample_time_ms': 29701.203}",2025-08-30_20-10-29,cda-server-4,30.12928605079651,2826,1756577429,10.157.146.4,False,14397.991278409958,1200
+472,-622.0128241756186,472,566400,{},-747.9873686635922,566400,0,14429.602895498276,-489.0717477332604,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 566400, 'default': {'kl': 0.009902327321469784, 'policy_loss': -0.12570494413375854, 'vf_loss': 274.0677185058594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9696680903434753, 'entropy': 10.588297843933105, 'cur_lr': 4.999999873689376e-05, 'total_loss': 273.9570617675781}, 'load_time_ms': 0.626, 'num_steps_sampled': 566400, 'grad_time_ms': 734.382, 'update_time_ms': 2.36, 'sample_time_ms': 30016.607}",2025-08-30_20-11-00,cda-server-4,31.61161708831787,2832,1756577460,10.157.146.4,False,14429.602895498276,1200
+473,-623.3057833357827,473,567600,{},-747.9873686635922,567600,0,14462.095220088959,-489.0717477332604,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 567600, 'default': {'kl': 0.011791376397013664, 'policy_loss': -0.13621598482131958, 'vf_loss': 315.7736511230469, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9771355390548706, 'entropy': 10.750141143798828, 'cur_lr': 4.999999873689376e-05, 'total_loss': 315.65533447265625}, 'load_time_ms': 0.61, 'num_steps_sampled': 567600, 'grad_time_ms': 732.326, 'update_time_ms': 2.337, 'sample_time_ms': 30158.653}",2025-08-30_20-11-33,cda-server-4,32.49232459068298,2838,1756577493,10.157.146.4,False,14462.095220088959,1200
+474,-621.2305686111517,474,568800,{},-692.7180555588534,568800,0,14488.690290212631,-489.0717477332604,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 568800, 'default': {'kl': 0.011109679937362671, 'policy_loss': -0.11358562856912613, 'vf_loss': 800.6145629882812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9197766780853271, 'entropy': 10.557552337646484, 'cur_lr': 4.999999873689376e-05, 'total_loss': 800.517822265625}, 'load_time_ms': 0.609, 'num_steps_sampled': 568800, 'grad_time_ms': 737.67, 'update_time_ms': 2.365, 'sample_time_ms': 29641.049}",2025-08-30_20-12-00,cda-server-4,26.595070123672485,2844,1756577520,10.157.146.4,False,14488.690290212631,1200
+475,-621.351306205796,475,570000,{},-692.7180555588534,570000,0,14516.711057424545,-489.0717477332604,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 570000, 'default': {'kl': 0.011039173230528831, 'policy_loss': -0.125493124127388, 'vf_loss': 234.49871826171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9652140140533447, 'entropy': 10.529582977294922, 'cur_lr': 4.999999873689376e-05, 'total_loss': 234.38999938964844}, 'load_time_ms': 0.601, 'num_steps_sampled': 570000, 'grad_time_ms': 738.655, 'update_time_ms': 2.411, 'sample_time_ms': 29187.521}",2025-08-30_20-12-28,cda-server-4,28.020767211914062,2850,1756577548,10.157.146.4,False,14516.711057424545,1200
+476,-618.5606090700471,476,571200,{},-692.7180555588534,571200,0,14550.901116847992,-482.04465924752645,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 571200, 'default': {'kl': 0.01131260022521019, 'policy_loss': -0.12262899428606033, 'vf_loss': 334.3079833984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9659857153892517, 'entropy': 10.538531303405762, 'cur_lr': 4.999999873689376e-05, 'total_loss': 334.2025146484375}, 'load_time_ms': 0.608, 'num_steps_sampled': 571200, 'grad_time_ms': 749.239, 'update_time_ms': 2.485, 'sample_time_ms': 29660.413}",2025-08-30_20-13-02,cda-server-4,34.190059423446655,2856,1756577582,10.157.146.4,False,14550.901116847992,1200
+477,-617.4928071104679,477,572400,{},-692.7180555588534,572400,0,14580.0464117527,-482.04465924752645,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 572400, 'default': {'kl': 0.01048298366367817, 'policy_loss': -0.13178366422653198, 'vf_loss': 256.23065185546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9739600419998169, 'entropy': 10.555044174194336, 'cur_lr': 4.999999873689376e-05, 'total_loss': 256.1147766113281}, 'load_time_ms': 0.618, 'num_steps_sampled': 572400, 'grad_time_ms': 734.755, 'update_time_ms': 2.686, 'sample_time_ms': 29396.679}",2025-08-30_20-13-31,cda-server-4,29.145294904708862,2862,1756577611,10.157.146.4,False,14580.0464117527,1200
+478,-616.577953671547,478,573600,{},-692.7180555588534,573600,0,14610.271255493164,-482.04465924752645,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 573600, 'default': {'kl': 0.0106305917724967, 'policy_loss': -0.12019157409667969, 'vf_loss': 475.4367980957031, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9523729681968689, 'entropy': 10.357699394226074, 'cur_lr': 4.999999873689376e-05, 'total_loss': 475.3327331542969}, 'load_time_ms': 0.638, 'num_steps_sampled': 573600, 'grad_time_ms': 731.136, 'update_time_ms': 2.607, 'sample_time_ms': 29383.359}",2025-08-30_20-14-01,cda-server-4,30.224843740463257,2868,1756577641,10.157.146.4,False,14610.271255493164,1200
+479,-613.8744630531228,479,574800,{},-678.5653606300741,574800,0,14642.029087543488,-482.04465924752645,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 574800, 'default': {'kl': 0.010847837664186954, 'policy_loss': -0.11721155047416687, 'vf_loss': 109.27031707763672, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9811757206916809, 'entropy': 10.420119285583496, 'cur_lr': 4.999999873689376e-05, 'total_loss': 109.16958618164062}, 'load_time_ms': 0.645, 'num_steps_sampled': 574800, 'grad_time_ms': 723.738, 'update_time_ms': 2.554, 'sample_time_ms': 29617.734}",2025-08-30_20-14-33,cda-server-4,31.757832050323486,2874,1756577673,10.157.146.4,False,14642.029087543488,1200
+480,-612.4136420380987,480,576000,{},-677.8703088589712,576000,0,14673.149114847183,-482.04465924752645,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 576000, 'default': {'kl': 0.010245506651699543, 'policy_loss': -0.11359046399593353, 'vf_loss': 280.3131408691406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9694551825523376, 'entropy': 10.424800872802734, 'cur_lr': 4.999999873689376e-05, 'total_loss': 280.2151184082031}, 'load_time_ms': 0.635, 'num_steps_sampled': 576000, 'grad_time_ms': 719.726, 'update_time_ms': 2.443, 'sample_time_ms': 29801.687}",2025-08-30_20-15-04,cda-server-4,31.12002730369568,2880,1756577704,10.157.146.4,False,14673.149114847183,1200
+481,-610.9220460971451,481,577200,{},-677.8703088589712,577200,0,14703.677479743958,-482.04465924752645,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 577200, 'default': {'kl': 0.011525980196893215, 'policy_loss': -0.12026838213205338, 'vf_loss': 603.531494140625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9301914572715759, 'entropy': 10.381888389587402, 'cur_lr': 4.999999873689376e-05, 'total_loss': 603.4287719726562}, 'load_time_ms': 0.644, 'num_steps_sampled': 577200, 'grad_time_ms': 715.608, 'update_time_ms': 2.479, 'sample_time_ms': 29845.61}",2025-08-30_20-15-35,cda-server-4,30.528364896774292,2886,1756577735,10.157.146.4,False,14703.677479743958,1200
+482,-610.8453437837894,482,578400,{},-677.8703088589712,578400,0,14735.606813669205,-482.04465924752645,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 578400, 'default': {'kl': 0.010702998377382755, 'policy_loss': -0.10960324108600616, 'vf_loss': 409.7930603027344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9742264151573181, 'entropy': 10.469870567321777, 'cur_lr': 4.999999873689376e-05, 'total_loss': 409.6997375488281}, 'load_time_ms': 0.637, 'num_steps_sampled': 578400, 'grad_time_ms': 718.769, 'update_time_ms': 2.497, 'sample_time_ms': 29874.2}",2025-08-30_20-16-07,cda-server-4,31.929333925247192,2892,1756577767,10.157.146.4,False,14735.606813669205,1200
+483,-609.1725325283,483,579600,{},-674.5477917087512,579600,0,14767.46385216713,-482.04465924752645,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 579600, 'default': {'kl': 0.011050191707909107, 'policy_loss': -0.12233808636665344, 'vf_loss': 498.5579833984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9437351226806641, 'entropy': 10.40301513671875, 'cur_lr': 4.999999873689376e-05, 'total_loss': 498.4524841308594}, 'load_time_ms': 0.646, 'num_steps_sampled': 579600, 'grad_time_ms': 722.213, 'update_time_ms': 2.492, 'sample_time_ms': 29807.275}",2025-08-30_20-16-38,cda-server-4,31.857038497924805,2898,1756577798,10.157.146.4,False,14767.46385216713,1200
+484,-609.4443779832566,484,580800,{},-674.5477917087512,580800,0,14797.112611293793,-482.04465924752645,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 580800, 'default': {'kl': 0.008471601642668247, 'policy_loss': -0.1267573982477188, 'vf_loss': 295.2075500488281, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9711069464683533, 'entropy': 10.514030456542969, 'cur_lr': 4.999999873689376e-05, 'total_loss': 295.0936279296875}, 'load_time_ms': 0.655, 'num_steps_sampled': 580800, 'grad_time_ms': 721.978, 'update_time_ms': 2.446, 'sample_time_ms': 30112.976}",2025-08-30_20-17-08,cda-server-4,29.648759126663208,2904,1756577828,10.157.146.4,False,14797.112611293793,1200
+485,-611.1587481023676,485,582000,{},-674.5477917087512,582000,0,14828.365115642548,-482.04465924752645,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 582000, 'default': {'kl': 0.011722813360393047, 'policy_loss': -0.11704465746879578, 'vf_loss': 110.803466796875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9880480170249939, 'entropy': 10.215019226074219, 'cur_lr': 4.999999873689376e-05, 'total_loss': 110.7042236328125}, 'load_time_ms': 0.654, 'num_steps_sampled': 582000, 'grad_time_ms': 720.61, 'update_time_ms': 2.417, 'sample_time_ms': 30437.58}",2025-08-30_20-17-39,cda-server-4,31.252504348754883,2910,1756577859,10.157.146.4,False,14828.365115642548,1200
+486,-611.5654731057102,486,583200,{},-674.5477917087512,583200,0,14857.073689460754,-482.04465924752645,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 583200, 'default': {'kl': 0.009841789491474628, 'policy_loss': -0.11135557293891907, 'vf_loss': 185.69091796875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9749400615692139, 'entropy': 10.4392671585083, 'cur_lr': 4.999999873689376e-05, 'total_loss': 185.59451293945312}, 'load_time_ms': 0.647, 'num_steps_sampled': 583200, 'grad_time_ms': 709.142, 'update_time_ms': 2.411, 'sample_time_ms': 29900.992}",2025-08-30_20-18-08,cda-server-4,28.708573818206787,2916,1756577888,10.157.146.4,False,14857.073689460754,1200
+487,-611.0152847380639,487,584400,{},-683.7823390422077,584400,0,14886.285536289215,-482.04465924752645,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 584400, 'default': {'kl': 0.009947240352630615, 'policy_loss': -0.117399662733078, 'vf_loss': 708.2380981445312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8881614208221436, 'entropy': 10.318172454833984, 'cur_lr': 4.999999873689376e-05, 'total_loss': 708.1358642578125}, 'load_time_ms': 0.639, 'num_steps_sampled': 584400, 'grad_time_ms': 721.742, 'update_time_ms': 2.219, 'sample_time_ms': 29895.325}",2025-08-30_20-18-37,cda-server-4,29.211846828460693,2922,1756577917,10.157.146.4,False,14886.285536289215,1200
+488,-611.5619927630421,488,585600,{},-683.7823390422077,585600,0,14914.83472776413,-482.04465924752645,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 585600, 'default': {'kl': 0.009075875394046307, 'policy_loss': -0.11817637830972672, 'vf_loss': 248.84681701660156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9662017822265625, 'entropy': 10.490976333618164, 'cur_lr': 4.999999873689376e-05, 'total_loss': 248.74240112304688}, 'load_time_ms': 0.62, 'num_steps_sampled': 585600, 'grad_time_ms': 724.564, 'update_time_ms': 2.276, 'sample_time_ms': 29724.987}",2025-08-30_20-19-06,cda-server-4,28.54919147491455,2928,1756577946,10.157.146.4,False,14914.83472776413,1200
+489,-611.7001729868347,489,586800,{},-683.7823390422077,586800,0,14945.926100254059,-482.04465924752645,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 586800, 'default': {'kl': 0.010796387679874897, 'policy_loss': -0.12322735786437988, 'vf_loss': 143.7589111328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9787914752960205, 'entropy': 10.269213676452637, 'cur_lr': 4.999999873689376e-05, 'total_loss': 143.65206909179688}, 'load_time_ms': 0.596, 'num_steps_sampled': 586800, 'grad_time_ms': 727.62, 'update_time_ms': 2.218, 'sample_time_ms': 29655.347}",2025-08-30_20-19-37,cda-server-4,31.0913724899292,2934,1756577977,10.157.146.4,False,14945.926100254059,1200
+490,-612.8366684238888,490,588000,{},-683.7823390422077,588000,0,14977.971162557602,-482.04465924752645,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 588000, 'default': {'kl': 0.011736764572560787, 'policy_loss': -0.11963734030723572, 'vf_loss': 374.98614501953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9643362760543823, 'entropy': 10.33987045288086, 'cur_lr': 4.999999873689376e-05, 'total_loss': 374.88433837890625}, 'load_time_ms': 0.596, 'num_steps_sampled': 588000, 'grad_time_ms': 732.002, 'update_time_ms': 2.203, 'sample_time_ms': 29743.449}",2025-08-30_20-20-09,cda-server-4,32.04506230354309,2940,1756578009,10.157.146.4,False,14977.971162557602,1200
+491,-613.8113332196318,491,589200,{},-683.7823390422077,589200,0,15005.025549173355,-482.04465924752645,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 589200, 'default': {'kl': 0.009092975407838821, 'policy_loss': -0.11911138892173767, 'vf_loss': 445.365966796875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9294979572296143, 'entropy': 10.45309829711914, 'cur_lr': 4.999999873689376e-05, 'total_loss': 445.2606506347656}, 'load_time_ms': 0.587, 'num_steps_sampled': 589200, 'grad_time_ms': 728.491, 'update_time_ms': 2.142, 'sample_time_ms': 29399.761}",2025-08-30_20-20-36,cda-server-4,27.054386615753174,2946,1756578036,10.157.146.4,False,15005.025549173355,1200
+492,-613.2308629845155,492,590400,{},-683.7823390422077,590400,0,15033.824259996414,-482.04465924752645,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 590400, 'default': {'kl': 0.009409790858626366, 'policy_loss': -0.11563295871019363, 'vf_loss': 598.3735961914062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9346035718917847, 'entropy': 10.30482006072998, 'cur_lr': 4.999999873689376e-05, 'total_loss': 598.272216796875}, 'load_time_ms': 0.597, 'num_steps_sampled': 590400, 'grad_time_ms': 714.173, 'update_time_ms': 2.132, 'sample_time_ms': 29100.999}",2025-08-30_20-21-05,cda-server-4,28.798710823059082,2952,1756578065,10.157.146.4,False,15033.824259996414,1200
+493,-613.7344577498175,493,591600,{},-683.7823390422077,591600,0,15066.46635556221,-503.97648109568945,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 591600, 'default': {'kl': 0.011359247379004955, 'policy_loss': -0.11699298024177551, 'vf_loss': 239.45806884765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.965142548084259, 'entropy': 10.166695594787598, 'cur_lr': 4.999999873689376e-05, 'total_loss': 239.3583221435547}, 'load_time_ms': 0.591, 'num_steps_sampled': 591600, 'grad_time_ms': 700.516, 'update_time_ms': 2.165, 'sample_time_ms': 29193.134}",2025-08-30_20-21-38,cda-server-4,32.6420955657959,2958,1756578098,10.157.146.4,False,15066.46635556221,1200
+494,-612.1038578953423,494,592800,{},-683.7823390422077,592800,0,15094.121259212494,-492.75414956258624,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 592800, 'default': {'kl': 0.012798420153558254, 'policy_loss': -0.13706769049167633, 'vf_loss': 195.534423828125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9759035110473633, 'entropy': 10.30477237701416, 'cur_lr': 4.999999873689376e-05, 'total_loss': 195.4167938232422}, 'load_time_ms': 0.58, 'num_steps_sampled': 592800, 'grad_time_ms': 698.139, 'update_time_ms': 2.177, 'sample_time_ms': 28996.105}",2025-08-30_20-22-05,cda-server-4,27.654903650283813,2964,1756578125,10.157.146.4,False,15094.121259212494,1200
+495,-612.7750994293697,495,594000,{},-683.7823390422077,594000,0,15122.885069847107,-492.75414956258624,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 594000, 'default': {'kl': 0.009767989628016949, 'policy_loss': -0.12261547148227692, 'vf_loss': 224.89642333984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9756033420562744, 'entropy': 10.26629638671875, 'cur_lr': 4.999999873689376e-05, 'total_loss': 224.78863525390625}, 'load_time_ms': 0.58, 'num_steps_sampled': 594000, 'grad_time_ms': 697.013, 'update_time_ms': 2.221, 'sample_time_ms': 28748.307}",2025-08-30_20-22-34,cda-server-4,28.763810634613037,2970,1756578154,10.157.146.4,False,15122.885069847107,1200
+496,-614.8915004900382,496,595200,{},-683.7823390422077,595200,0,15153.798025131226,-492.75414956258624,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 595200, 'default': {'kl': 0.009796315804123878, 'policy_loss': -0.10610461235046387, 'vf_loss': 664.332763671875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9064957499504089, 'entropy': 10.347919464111328, 'cur_lr': 4.999999873689376e-05, 'total_loss': 664.2415771484375}, 'load_time_ms': 0.583, 'num_steps_sampled': 595200, 'grad_time_ms': 697.033, 'update_time_ms': 2.171, 'sample_time_ms': 28968.704}",2025-08-30_20-23-05,cda-server-4,30.912955284118652,2976,1756578185,10.157.146.4,False,15153.798025131226,1200
+497,-616.3716119962668,497,596400,{},-687.2593478001473,596400,0,15183.71996307373,-492.75414956258624,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 596400, 'default': {'kl': 0.009302336722612381, 'policy_loss': -0.12426638603210449, 'vf_loss': 76.19387817382812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9897227883338928, 'entropy': 10.371956825256348, 'cur_lr': 4.999999873689376e-05, 'total_loss': 76.083740234375}, 'load_time_ms': 0.584, 'num_steps_sampled': 596400, 'grad_time_ms': 681.667, 'update_time_ms': 2.165, 'sample_time_ms': 29055.101}",2025-08-30_20-23-35,cda-server-4,29.921937942504883,2982,1756578215,10.157.146.4,False,15183.71996307373,1200
+498,-616.2084993091281,498,597600,{},-687.2593478001473,597600,0,15215.661854028702,-492.75414956258624,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 597600, 'default': {'kl': 0.010139092803001404, 'policy_loss': -0.12608526647090912, 'vf_loss': 281.8765869140625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9759384989738464, 'entropy': 10.38109016418457, 'cur_lr': 4.999999873689376e-05, 'total_loss': 281.765869140625}, 'load_time_ms': 0.616, 'num_steps_sampled': 597600, 'grad_time_ms': 666.69, 'update_time_ms': 2.114, 'sample_time_ms': 29409.186}",2025-08-30_20-24-07,cda-server-4,31.941890954971313,2988,1756578247,10.157.146.4,False,15215.661854028702,1200
+499,-617.0289755619202,499,598800,{},-687.2593478001473,598800,0,15245.807072162628,-492.75414956258624,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 598800, 'default': {'kl': 0.009876182302832603, 'policy_loss': -0.11287294328212738, 'vf_loss': 606.0432739257812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9084818363189697, 'entropy': 10.1349458694458, 'cur_lr': 4.999999873689376e-05, 'total_loss': 605.9454956054688}, 'load_time_ms': 0.63, 'num_steps_sampled': 598800, 'grad_time_ms': 652.711, 'update_time_ms': 2.164, 'sample_time_ms': 29328.546}",2025-08-30_20-24-37,cda-server-4,30.14521813392639,2994,1756578277,10.157.146.4,False,15245.807072162628,1200
+500,-617.597440572687,500,600000,{},-687.2593478001473,600000,0,15276.944052696228,-492.75414956258624,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 600000, 'default': {'kl': 0.008925780653953552, 'policy_loss': -0.10970591008663177, 'vf_loss': 180.59619140625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9708876013755798, 'entropy': 10.331533432006836, 'cur_lr': 4.999999873689376e-05, 'total_loss': 180.5000457763672}, 'load_time_ms': 0.635, 'num_steps_sampled': 600000, 'grad_time_ms': 645.845, 'update_time_ms': 2.178, 'sample_time_ms': 29244.6}",2025-08-30_20-25-08,cda-server-4,31.136980533599854,3000,1756578308,10.157.146.4,False,15276.944052696228,1200
+501,-617.5771433437204,501,601200,{},-687.2593478001473,601200,0,15305.913101434708,-492.75414956258624,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 601200, 'default': {'kl': 0.009030654095113277, 'policy_loss': -0.12158433347940445, 'vf_loss': 399.52459716796875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9363994598388672, 'entropy': 10.324128150939941, 'cur_lr': 4.999999873689376e-05, 'total_loss': 399.4167175292969}, 'load_time_ms': 0.663, 'num_steps_sampled': 601200, 'grad_time_ms': 628.97, 'update_time_ms': 2.203, 'sample_time_ms': 29452.868}",2025-08-30_20-25-37,cda-server-4,28.969048738479614,3006,1756578337,10.157.146.4,False,15305.913101434708,1200
+502,-617.4213851857231,502,602400,{},-687.2593478001473,602400,0,15337.222692966461,-492.75414956258624,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 602400, 'default': {'kl': 0.010158966295421124, 'policy_loss': -0.1164940893650055, 'vf_loss': 328.42535400390625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9757274985313416, 'entropy': 10.448343276977539, 'cur_lr': 4.999999873689376e-05, 'total_loss': 328.32427978515625}, 'load_time_ms': 0.659, 'num_steps_sampled': 602400, 'grad_time_ms': 618.336, 'update_time_ms': 2.21, 'sample_time_ms': 29714.514}",2025-08-30_20-26-09,cda-server-4,31.30959153175354,3012,1756578369,10.157.146.4,False,15337.222692966461,1200
+503,-617.6634254662197,503,603600,{},-687.2593478001473,603600,0,15366.210186481476,-492.75414956258624,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 603600, 'default': {'kl': 0.010989136062562466, 'policy_loss': -0.11748053133487701, 'vf_loss': 214.44935607910156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9679291844367981, 'entropy': 10.073660850524902, 'cur_lr': 4.999999873689376e-05, 'total_loss': 214.34857177734375}, 'load_time_ms': 0.666, 'num_steps_sampled': 603600, 'grad_time_ms': 612.954, 'update_time_ms': 2.219, 'sample_time_ms': 29354.436}",2025-08-30_20-26-38,cda-server-4,28.98749351501465,3018,1756578398,10.157.146.4,False,15366.210186481476,1200
+504,-617.2950554626652,504,604800,{},-687.2593478001473,604800,0,15393.765782356262,-492.75414956258624,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 604800, 'default': {'kl': 0.008406001143157482, 'policy_loss': -0.11653611063957214, 'vf_loss': 367.96722412109375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9575991034507751, 'entropy': 10.284957885742188, 'cur_lr': 4.999999873689376e-05, 'total_loss': 367.8634338378906}, 'load_time_ms': 0.666, 'num_steps_sampled': 604800, 'grad_time_ms': 603.347, 'update_time_ms': 2.189, 'sample_time_ms': 29354.115}",2025-08-30_20-27-05,cda-server-4,27.555595874786377,3024,1756578425,10.157.146.4,False,15393.765782356262,1200
+505,-618.4169191126767,505,606000,{},-687.2593478001473,606000,0,15422.779547691345,-492.75414956258624,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 606000, 'default': {'kl': 0.011198894120752811, 'policy_loss': -0.13563178479671478, 'vf_loss': 885.796630859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9222115278244019, 'entropy': 10.44873332977295, 'cur_lr': 4.999999873689376e-05, 'total_loss': 885.677978515625}, 'load_time_ms': 0.68, 'num_steps_sampled': 606000, 'grad_time_ms': 586.729, 'update_time_ms': 2.276, 'sample_time_ms': 29395.58}",2025-08-30_20-27-34,cda-server-4,29.013765335083008,3030,1756578454,10.157.146.4,False,15422.779547691345,1200
+506,-618.2881874770952,506,607200,{},-687.2593478001473,607200,0,15453.349476575851,-492.75414956258624,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 607200, 'default': {'kl': 0.0095829414203763, 'policy_loss': -0.1203770786523819, 'vf_loss': 219.44424438476562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9666303992271423, 'entropy': 10.130552291870117, 'cur_lr': 4.999999873689376e-05, 'total_loss': 219.33840942382812}, 'load_time_ms': 0.683, 'num_steps_sampled': 607200, 'grad_time_ms': 578.031, 'update_time_ms': 2.262, 'sample_time_ms': 29369.96}",2025-08-30_20-28-05,cda-server-4,30.569928884506226,3036,1756578485,10.157.146.4,False,15453.349476575851,1200
+507,-616.6909095921326,507,608400,{},-687.2593478001473,608400,0,15486.700155258179,-492.75414956258624,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 608400, 'default': {'kl': 0.010727759450674057, 'policy_loss': -0.12090073525905609, 'vf_loss': 441.6849060058594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9576277136802673, 'entropy': 10.302809715270996, 'cur_lr': 4.999999873689376e-05, 'total_loss': 441.580322265625}, 'load_time_ms': 0.715, 'num_steps_sampled': 608400, 'grad_time_ms': 588.432, 'update_time_ms': 2.383, 'sample_time_ms': 29702.227}",2025-08-30_20-28-38,cda-server-4,33.35067868232727,3042,1756578518,10.157.146.4,False,15486.700155258179,1200
+508,-616.7257401714108,508,609600,{},-687.2593478001473,609600,0,15516.285274744034,-492.75414956258624,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 609600, 'default': {'kl': 0.009701067581772804, 'policy_loss': -0.11083558201789856, 'vf_loss': 606.5291748046875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9209262132644653, 'entropy': 10.070096969604492, 'cur_lr': 4.999999873689376e-05, 'total_loss': 606.4330444335938}, 'load_time_ms': 0.683, 'num_steps_sampled': 609600, 'grad_time_ms': 604.017, 'update_time_ms': 2.426, 'sample_time_ms': 29451.089}",2025-08-30_20-29-08,cda-server-4,29.585119485855103,3048,1756578548,10.157.146.4,False,15516.285274744034,1200
+509,-616.4712158967843,509,610800,{},-687.2593478001473,610800,0,15547.24286198616,-492.75414956258624,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 610800, 'default': {'kl': 0.011906541883945465, 'policy_loss': -0.12726765871047974, 'vf_loss': 267.6753845214844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9679921269416809, 'entropy': 10.36803913116455, 'cur_lr': 4.999999873689376e-05, 'total_loss': 267.5661926269531}, 'load_time_ms': 0.668, 'num_steps_sampled': 610800, 'grad_time_ms': 619.643, 'update_time_ms': 2.417, 'sample_time_ms': 29516.726}",2025-08-30_20-29-39,cda-server-4,30.957587242126465,3054,1756578579,10.157.146.4,False,15547.24286198616,1200
+510,-616.1194181580917,510,612000,{},-687.2593478001473,612000,0,15577.362131118774,-492.75414956258624,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 612000, 'default': {'kl': 0.009202418848872185, 'policy_loss': -0.12840691208839417, 'vf_loss': 310.3863525390625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9587684273719788, 'entropy': 10.284270286560059, 'cur_lr': 4.999999873689376e-05, 'total_loss': 310.27191162109375}, 'load_time_ms': 0.66, 'num_steps_sampled': 612000, 'grad_time_ms': 621.442, 'update_time_ms': 2.453, 'sample_time_ms': 29413.177}",2025-08-30_20-30-09,cda-server-4,30.119269132614136,3060,1756578609,10.157.146.4,False,15577.362131118774,1200
+511,-617.6539461024482,511,613200,{},-687.2593478001473,613200,0,15607.616966962814,-525.7392183423149,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 613200, 'default': {'kl': 0.01035059243440628, 'policy_loss': -0.12387951463460922, 'vf_loss': 82.15750885009766, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9891764521598816, 'entropy': 10.182857513427734, 'cur_lr': 4.999999873689376e-05, 'total_loss': 82.04935455322266}, 'load_time_ms': 0.631, 'num_steps_sampled': 613200, 'grad_time_ms': 632.414, 'update_time_ms': 2.428, 'sample_time_ms': 29530.82}",2025-08-30_20-30-39,cda-server-4,30.254835844039917,3066,1756578639,10.157.146.4,False,15607.616966962814,1200
+512,-615.4223206328497,512,614400,{},-687.2593478001473,614400,0,15639.241664886475,-491.2839050822093,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 614400, 'default': {'kl': 0.01057523861527443, 'policy_loss': -0.11162492632865906, 'vf_loss': 276.8630065917969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9597384929656982, 'entropy': 10.172090530395508, 'cur_lr': 4.999999873689376e-05, 'total_loss': 276.7674560546875}, 'load_time_ms': 0.712, 'num_steps_sampled': 614400, 'grad_time_ms': 688.546, 'update_time_ms': 2.43, 'sample_time_ms': 29505.976}",2025-08-30_20-31-11,cda-server-4,31.62469792366028,3072,1756578671,10.157.146.4,False,15639.241664886475,1200
+513,-614.9988519785577,513,615600,{},-681.5368023144719,615600,0,15671.988368749619,-491.2839050822093,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 615600, 'default': {'kl': 0.011605508625507355, 'policy_loss': -0.1347551792860031, 'vf_loss': 878.9948120117188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.942547082901001, 'entropy': 10.320121765136719, 'cur_lr': 4.999999873689376e-05, 'total_loss': 878.877685546875}, 'load_time_ms': 0.719, 'num_steps_sampled': 615600, 'grad_time_ms': 699.493, 'update_time_ms': 2.394, 'sample_time_ms': 29870.971}",2025-08-30_20-31-43,cda-server-4,32.74670386314392,3078,1756578703,10.157.146.4,False,15671.988368749619,1200
+514,-616.4751657566518,514,616800,{},-790.0202304601228,616800,0,15702.60909318924,-491.2839050822093,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 616800, 'default': {'kl': 0.012382318265736103, 'policy_loss': -0.14508973062038422, 'vf_loss': 372.60406494140625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9650505781173706, 'entropy': 10.245697975158691, 'cur_lr': 4.999999873689376e-05, 'total_loss': 372.47772216796875}, 'load_time_ms': 0.721, 'num_steps_sampled': 616800, 'grad_time_ms': 693.014, 'update_time_ms': 2.412, 'sample_time_ms': 30183.993}",2025-08-30_20-32-14,cda-server-4,30.62072443962097,3084,1756578734,10.157.146.4,False,15702.60909318924,1200
+515,-618.0343709553272,515,618000,{},-790.0202304601228,618000,0,15729.980680704117,-491.2839050822093,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 618000, 'default': {'kl': 0.01073629129678011, 'policy_loss': -0.12288472056388855, 'vf_loss': 660.76806640625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9013449549674988, 'entropy': 10.373371124267578, 'cur_lr': 4.999999873689376e-05, 'total_loss': 660.6614379882812}, 'load_time_ms': 0.714, 'num_steps_sampled': 618000, 'grad_time_ms': 693.093, 'update_time_ms': 2.279, 'sample_time_ms': 30019.772}",2025-08-30_20-32-41,cda-server-4,27.37158751487732,3090,1756578761,10.157.146.4,False,15729.980680704117,1200
+516,-619.3307746503224,516,619200,{},-790.0202304601228,619200,0,15760.88647031784,-491.2839050822093,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 619200, 'default': {'kl': 0.012034377083182335, 'policy_loss': -0.13284002244472504, 'vf_loss': 261.21392822265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9620370864868164, 'entropy': 10.231449127197266, 'cur_lr': 4.999999873689376e-05, 'total_loss': 261.099365234375}, 'load_time_ms': 0.715, 'num_steps_sampled': 619200, 'grad_time_ms': 683.011, 'update_time_ms': 2.294, 'sample_time_ms': 30063.479}",2025-08-30_20-33-12,cda-server-4,30.905789613723755,3096,1756578792,10.157.146.4,False,15760.88647031784,1200
+517,-619.3078925757736,517,620400,{},-790.0202304601228,620400,0,15789.78678059578,-491.2839050822093,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 620400, 'default': {'kl': 0.010916860774159431, 'policy_loss': -0.13536322116851807, 'vf_loss': 493.8644104003906, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9407352805137634, 'entropy': 10.091202735900879, 'cur_lr': 4.999999873689376e-05, 'total_loss': 493.74566650390625}, 'load_time_ms': 0.692, 'num_steps_sampled': 620400, 'grad_time_ms': 680.398, 'update_time_ms': 2.266, 'sample_time_ms': 29621.156}",2025-08-30_20-33-41,cda-server-4,28.900310277938843,3102,1756578821,10.157.146.4,False,15789.78678059578,1200
+518,-619.6209579068629,518,621600,{},-790.0202304601228,621600,0,15818.725476264954,-491.2839050822093,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 621600, 'default': {'kl': 0.0124993696808815, 'policy_loss': -0.13766156136989594, 'vf_loss': 278.99462890625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9643943309783936, 'entropy': 10.058174133300781, 'cur_lr': 4.999999873689376e-05, 'total_loss': 278.87591552734375}, 'load_time_ms': 0.701, 'num_steps_sampled': 621600, 'grad_time_ms': 664.744, 'update_time_ms': 2.28, 'sample_time_ms': 29572.119}",2025-08-30_20-34-10,cda-server-4,28.938695669174194,3108,1756578850,10.157.146.4,False,15818.725476264954,1200
+519,-619.1225003788433,519,622800,{},-790.0202304601228,622800,0,15850.022336483002,-491.2839050822093,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 622800, 'default': {'kl': 0.010242287069559097, 'policy_loss': -0.12653574347496033, 'vf_loss': 252.189208984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9566884636878967, 'entropy': 10.002917289733887, 'cur_lr': 4.999999873689376e-05, 'total_loss': 252.07823181152344}, 'load_time_ms': 0.708, 'num_steps_sampled': 622800, 'grad_time_ms': 658.62, 'update_time_ms': 2.355, 'sample_time_ms': 29612.064}",2025-08-30_20-34-42,cda-server-4,31.296860218048096,3114,1756578882,10.157.146.4,False,15850.022336483002,1200
+520,-617.7889277936098,520,624000,{},-790.0202304601228,624000,0,15879.420688152313,-491.2839050822093,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 624000, 'default': {'kl': 0.010512049309909344, 'policy_loss': -0.1314239799976349, 'vf_loss': 859.16796875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9222143888473511, 'entropy': 10.033998489379883, 'cur_lr': 4.999999873689376e-05, 'total_loss': 859.0525512695312}, 'load_time_ms': 0.716, 'num_steps_sampled': 624000, 'grad_time_ms': 653.547, 'update_time_ms': 2.328, 'sample_time_ms': 29545.032}",2025-08-30_20-35-11,cda-server-4,29.398351669311523,3120,1756578911,10.157.146.4,False,15879.420688152313,1200
+521,-615.2667817171653,521,625200,{},-790.0202304601228,625200,0,15910.227376699448,-491.2839050822093,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 625200, 'default': {'kl': 0.011036183685064316, 'policy_loss': -0.11883534491062164, 'vf_loss': 181.0576934814453, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9768969416618347, 'entropy': 9.910478591918945, 'cur_lr': 4.999999873689376e-05, 'total_loss': 180.95562744140625}, 'load_time_ms': 0.716, 'num_steps_sampled': 625200, 'grad_time_ms': 668.658, 'update_time_ms': 2.305, 'sample_time_ms': 29585.17}",2025-08-30_20-35-42,cda-server-4,30.8066885471344,3126,1756578942,10.157.146.4,False,15910.227376699448,1200
+522,-616.1103616572249,522,626400,{},-790.0202304601228,626400,0,15939.25824022293,-491.2839050822093,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 626400, 'default': {'kl': 0.010581272654235363, 'policy_loss': -0.14322388172149658, 'vf_loss': 684.9435424804688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9440057277679443, 'entropy': 10.233210563659668, 'cur_lr': 4.999999873689376e-05, 'total_loss': 684.8162841796875}, 'load_time_ms': 0.634, 'num_steps_sampled': 626400, 'grad_time_ms': 637.49, 'update_time_ms': 2.314, 'sample_time_ms': 29357.196}",2025-08-30_20-36-11,cda-server-4,29.030863523483276,3132,1756578971,10.157.146.4,False,15939.25824022293,1200
+523,-618.2255582547708,523,627600,{},-790.0202304601228,627600,0,15972.26362991333,-491.2839050822093,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 627600, 'default': {'kl': 0.010411839932203293, 'policy_loss': -0.14059992134571075, 'vf_loss': 338.1313781738281, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9506849646568298, 'entropy': 10.091381072998047, 'cur_lr': 4.999999873689376e-05, 'total_loss': 338.006591796875}, 'load_time_ms': 0.638, 'num_steps_sampled': 627600, 'grad_time_ms': 646.236, 'update_time_ms': 2.313, 'sample_time_ms': 29374.214}",2025-08-30_20-36-44,cda-server-4,33.00538969039917,3138,1756579004,10.157.146.4,False,15972.26362991333,1200
+524,-619.0532414843963,524,628800,{},-790.0202304601228,628800,0,16004.45817565918,-491.2839050822093,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 628800, 'default': {'kl': 0.010872787795960903, 'policy_loss': -0.13199114799499512, 'vf_loss': 486.3606872558594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9349870681762695, 'entropy': 10.10987663269043, 'cur_lr': 4.999999873689376e-05, 'total_loss': 486.2451171875}, 'load_time_ms': 0.675, 'num_steps_sampled': 628800, 'grad_time_ms': 665.252, 'update_time_ms': 2.31, 'sample_time_ms': 29512.491}",2025-08-30_20-37-16,cda-server-4,32.19454574584961,3144,1756579036,10.157.146.4,False,16004.45817565918,1200
+525,-619.441915743789,525,630000,{},-790.0202304601228,630000,0,16036.0646879673,-491.2839050822093,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 630000, 'default': {'kl': 0.01119519118219614, 'policy_loss': -0.12851892411708832, 'vf_loss': 187.9602813720703, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9755532145500183, 'entropy': 9.989285469055176, 'cur_lr': 4.999999873689376e-05, 'total_loss': 187.84878540039062}, 'load_time_ms': 0.674, 'num_steps_sampled': 630000, 'grad_time_ms': 682.675, 'update_time_ms': 2.35, 'sample_time_ms': 29918.577}",2025-08-30_20-37-48,cda-server-4,31.606512308120728,3150,1756579068,10.157.146.4,False,16036.0646879673,1200
+526,-620.7147838262056,526,631200,{},-790.0202304601228,631200,0,16065.832470655441,-491.2839050822093,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 631200, 'default': {'kl': 0.008290572091937065, 'policy_loss': -0.12369512021541595, 'vf_loss': 472.6839294433594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9382305145263672, 'entropy': 10.124764442443848, 'cur_lr': 4.999999873689376e-05, 'total_loss': 472.57281494140625}, 'load_time_ms': 0.664, 'num_steps_sampled': 631200, 'grad_time_ms': 703.558, 'update_time_ms': 2.349, 'sample_time_ms': 29783.952}",2025-08-30_20-38-17,cda-server-4,29.76778268814087,3156,1756579097,10.157.146.4,False,16065.832470655441,1200
+527,-621.0996791638582,527,632400,{},-790.0202304601228,632400,0,16095.976719617844,-491.2839050822093,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 632400, 'default': {'kl': 0.01070559024810791, 'policy_loss': -0.11007315665483475, 'vf_loss': 139.71295166015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9807137250900269, 'entropy': 9.991328239440918, 'cur_lr': 4.999999873689376e-05, 'total_loss': 139.619140625}, 'load_time_ms': 0.69, 'num_steps_sampled': 632400, 'grad_time_ms': 712.655, 'update_time_ms': 2.255, 'sample_time_ms': 29899.333}",2025-08-30_20-38-48,cda-server-4,30.144248962402344,3162,1756579128,10.157.146.4,False,16095.976719617844,1200
+528,-622.3613971299403,528,633600,{},-790.0202304601228,633600,0,16125.912268400192,-506.9586324772753,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 633600, 'default': {'kl': 0.009510033763945103, 'policy_loss': -0.1147080808877945, 'vf_loss': 681.5159301757812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9222891330718994, 'entropy': 9.995594024658203, 'cur_lr': 4.999999873689376e-05, 'total_loss': 681.4157104492188}, 'load_time_ms': 0.706, 'num_steps_sampled': 633600, 'grad_time_ms': 726.543, 'update_time_ms': 2.198, 'sample_time_ms': 29985.194}",2025-08-30_20-39-18,cda-server-4,29.935548782348633,3168,1756579158,10.157.146.4,False,16125.912268400192,1200
+529,-620.8269639040548,529,634800,{},-790.0202304601228,634800,0,16158.177815437317,-506.9586324772753,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 634800, 'default': {'kl': 0.011999172158539295, 'policy_loss': -0.1309131383895874, 'vf_loss': 193.5796661376953, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9790738224983215, 'entropy': 9.951457977294922, 'cur_lr': 4.999999873689376e-05, 'total_loss': 193.46697998046875}, 'load_time_ms': 0.705, 'num_steps_sampled': 634800, 'grad_time_ms': 728.959, 'update_time_ms': 2.112, 'sample_time_ms': 30079.779}",2025-08-30_20-39-50,cda-server-4,32.265547037124634,3174,1756579190,10.157.146.4,False,16158.177815437317,1200
+530,-621.0539217955178,530,636000,{},-790.0202304601228,636000,0,16187.65285563469,-506.9586324772753,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 636000, 'default': {'kl': 0.012089126743376255, 'policy_loss': -0.11848387122154236, 'vf_loss': 55.817447662353516, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9945513606071472, 'entropy': 10.247371673583984, 'cur_lr': 4.999999873689376e-05, 'total_loss': 55.717323303222656}, 'load_time_ms': 0.697, 'num_steps_sampled': 636000, 'grad_time_ms': 734.384, 'update_time_ms': 2.177, 'sample_time_ms': 30081.952}",2025-08-30_20-40-19,cda-server-4,29.475040197372437,3180,1756579219,10.157.146.4,False,16187.65285563469,1200
+531,-618.2828502597569,531,637200,{},-724.7825406534525,637200,0,16219.906694889069,-506.9586324772753,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 637200, 'default': {'kl': 0.010136512108147144, 'policy_loss': -0.12494075298309326, 'vf_loss': 304.9195556640625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9679862260818481, 'entropy': 9.973822593688965, 'cur_lr': 4.999999873689376e-05, 'total_loss': 304.81005859375}, 'load_time_ms': 0.713, 'num_steps_sampled': 637200, 'grad_time_ms': 732.279, 'update_time_ms': 2.31, 'sample_time_ms': 30228.57}",2025-08-30_20-40-52,cda-server-4,32.25383925437927,3186,1756579252,10.157.146.4,False,16219.906694889069,1200
+532,-617.488848963781,532,638400,{},-724.7825406534525,638400,0,16250.279926776886,-506.9586324772753,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 638400, 'default': {'kl': 0.010587668046355247, 'policy_loss': -0.11777172982692719, 'vf_loss': 156.42022705078125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9773924350738525, 'entropy': 10.179656982421875, 'cur_lr': 4.999999873689376e-05, 'total_loss': 156.31854248046875}, 'load_time_ms': 0.717, 'num_steps_sampled': 638400, 'grad_time_ms': 725.624, 'update_time_ms': 2.342, 'sample_time_ms': 30369.486}",2025-08-30_20-41-22,cda-server-4,30.373231887817383,3192,1756579282,10.157.146.4,False,16250.279926776886,1200
+533,-615.538084271266,533,639600,{},-724.7825406534525,639600,0,16282.183629989624,-506.9586324772753,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 639600, 'default': {'kl': 0.011996139772236347, 'policy_loss': -0.12442628294229507, 'vf_loss': 280.2891845703125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.979543924331665, 'entropy': 10.046499252319336, 'cur_lr': 4.999999873689376e-05, 'total_loss': 280.1830139160156}, 'load_time_ms': 0.698, 'num_steps_sampled': 639600, 'grad_time_ms': 722.384, 'update_time_ms': 2.323, 'sample_time_ms': 30262.64}",2025-08-30_20-41-54,cda-server-4,31.903703212738037,3198,1756579314,10.157.146.4,False,16282.183629989624,1200
+534,-614.5153147591086,534,640800,{},-724.7825406534525,640800,0,16312.134269952774,-506.9586324772753,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 640800, 'default': {'kl': 0.009401826187968254, 'policy_loss': -0.1165916919708252, 'vf_loss': 371.4346618652344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9555030465126038, 'entropy': 10.100142478942871, 'cur_lr': 4.999999873689376e-05, 'total_loss': 371.3323974609375}, 'load_time_ms': 0.666, 'num_steps_sampled': 640800, 'grad_time_ms': 724.068, 'update_time_ms': 2.353, 'sample_time_ms': 30036.594}",2025-08-30_20-42-24,cda-server-4,29.950639963150024,3204,1756579344,10.157.146.4,False,16312.134269952774,1200
+535,-614.3987760926736,535,642000,{},-724.7825406534525,642000,0,16340.08780670166,-520.2557895077076,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 642000, 'default': {'kl': 0.009419546462595463, 'policy_loss': -0.1071864664554596, 'vf_loss': 342.68951416015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.94831782579422, 'entropy': 9.890848159790039, 'cur_lr': 4.999999873689376e-05, 'total_loss': 342.59661865234375}, 'load_time_ms': 0.665, 'num_steps_sampled': 642000, 'grad_time_ms': 724.22, 'update_time_ms': 2.342, 'sample_time_ms': 29671.23}",2025-08-30_20-42-52,cda-server-4,27.95353674888611,3210,1756579372,10.157.146.4,False,16340.08780670166,1200
+536,-615.2392192892919,536,643200,{},-724.7825406534525,643200,0,16371.484252214432,-520.2557895077076,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 643200, 'default': {'kl': 0.009364424273371696, 'policy_loss': -0.11790560185909271, 'vf_loss': 160.54066467285156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9819245934486389, 'entropy': 10.011823654174805, 'cur_lr': 4.999999873689376e-05, 'total_loss': 160.43699645996094}, 'load_time_ms': 0.679, 'num_steps_sampled': 643200, 'grad_time_ms': 724.863, 'update_time_ms': 2.322, 'sample_time_ms': 29833.397}",2025-08-30_20-43-23,cda-server-4,31.396445512771606,3216,1756579403,10.157.146.4,False,16371.484252214432,1200
+537,-615.1844835450675,537,644400,{},-724.7825406534525,644400,0,16402.377694368362,-520.2557895077076,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 644400, 'default': {'kl': 0.009822864085435867, 'policy_loss': -0.12510226666927338, 'vf_loss': 115.39393615722656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9818527698516846, 'entropy': 9.91799545288086, 'cur_lr': 4.999999873689376e-05, 'total_loss': 115.28376007080078}, 'load_time_ms': 0.68, 'num_steps_sampled': 644400, 'grad_time_ms': 724.647, 'update_time_ms': 2.342, 'sample_time_ms': 29908.37}",2025-08-30_20-43-54,cda-server-4,30.893442153930664,3222,1756579434,10.157.146.4,False,16402.377694368362,1200
+538,-615.5713728516998,538,645600,{},-724.7825406534525,645600,0,16434.645998716354,-520.2557895077076,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 645600, 'default': {'kl': 0.008761433884501457, 'policy_loss': -0.12852640450000763, 'vf_loss': 285.8805847167969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9662262797355652, 'entropy': 10.104073524475098, 'cur_lr': 4.999999873689376e-05, 'total_loss': 285.765380859375}, 'load_time_ms': 0.659, 'num_steps_sampled': 645600, 'grad_time_ms': 715.917, 'update_time_ms': 2.408, 'sample_time_ms': 30150.239}",2025-08-30_20-44-27,cda-server-4,32.26830434799194,3228,1756579467,10.157.146.4,False,16434.645998716354,1200
+539,-613.6359232663839,539,646800,{},-708.9841395221275,646800,0,16462.86671066284,-520.2557895077076,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 646800, 'default': {'kl': 0.010631296783685684, 'policy_loss': -0.11839502304792404, 'vf_loss': 99.63408660888672, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9837499260902405, 'entropy': 9.863357543945312, 'cur_lr': 4.999999873689376e-05, 'total_loss': 99.5318374633789}, 'load_time_ms': 0.661, 'num_steps_sampled': 646800, 'grad_time_ms': 701.547, 'update_time_ms': 2.424, 'sample_time_ms': 29760.084}",2025-08-30_20-44-55,cda-server-4,28.220711946487427,3234,1756579495,10.157.146.4,False,16462.86671066284,1200
+540,-613.5516945983775,540,648000,{},-708.9841395221275,648000,0,16494.0982837677,-520.29624009555,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 648000, 'default': {'kl': 0.008991777896881104, 'policy_loss': -0.11019554734230042, 'vf_loss': 75.67779541015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9881579875946045, 'entropy': 10.064410209655762, 'cur_lr': 4.999999873689376e-05, 'total_loss': 75.58126068115234}, 'load_time_ms': 0.675, 'num_steps_sampled': 648000, 'grad_time_ms': 678.997, 'update_time_ms': 2.477, 'sample_time_ms': 29958.29}",2025-08-30_20-45-26,cda-server-4,31.2315731048584,3240,1756579526,10.157.146.4,False,16494.0982837677,1200
+541,-611.5488081949313,541,649200,{},-708.9841395221275,649200,0,16524.808342456818,-509.594974457923,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 649200, 'default': {'kl': 0.012254755944013596, 'policy_loss': -0.13424958288669586, 'vf_loss': 280.29931640625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9586204886436462, 'entropy': 10.069011688232422, 'cur_lr': 4.999999873689376e-05, 'total_loss': 280.1836853027344}, 'load_time_ms': 0.669, 'num_steps_sampled': 649200, 'grad_time_ms': 659.339, 'update_time_ms': 2.35, 'sample_time_ms': 29823.735}",2025-08-30_20-45-57,cda-server-4,30.71005868911743,3246,1756579557,10.157.146.4,False,16524.808342456818,1200
+542,-611.8441111606151,542,650400,{},-708.9841395221275,650400,0,16553.337040424347,-509.594974457923,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 650400, 'default': {'kl': 0.010345679707825184, 'policy_loss': -0.12259471416473389, 'vf_loss': 662.0067749023438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9462240934371948, 'entropy': 10.02454948425293, 'cur_lr': 4.999999873689376e-05, 'total_loss': 661.89990234375}, 'load_time_ms': 0.666, 'num_steps_sampled': 650400, 'grad_time_ms': 653.361, 'update_time_ms': 2.263, 'sample_time_ms': 29645.326}",2025-08-30_20-46-25,cda-server-4,28.528697967529297,3252,1756579585,10.157.146.4,False,16553.337040424347,1200
+543,-609.1862411522399,543,651600,{},-661.5500774147783,651600,0,16580.85715842247,-509.594974457923,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 651600, 'default': {'kl': 0.009380371309816837, 'policy_loss': -0.12076420336961746, 'vf_loss': 137.06333923339844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9819883704185486, 'entropy': 9.924129486083984, 'cur_lr': 4.999999873689376e-05, 'total_loss': 136.9568328857422}, 'load_time_ms': 0.671, 'num_steps_sampled': 651600, 'grad_time_ms': 655.11, 'update_time_ms': 2.329, 'sample_time_ms': 29205.216}",2025-08-30_20-46-53,cda-server-4,27.52011799812317,3258,1756579613,10.157.146.4,False,16580.85715842247,1200
+544,-609.6118993412197,544,652800,{},-661.5500774147783,652800,0,16611.646775960922,-509.594974457923,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 652800, 'default': {'kl': 0.007568818051367998, 'policy_loss': -0.09347453713417053, 'vf_loss': 195.35226440429688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9739644527435303, 'entropy': 10.030099868774414, 'cur_lr': 4.999999873689376e-05, 'total_loss': 195.27027893066406}, 'load_time_ms': 0.666, 'num_steps_sampled': 652800, 'grad_time_ms': 653.687, 'update_time_ms': 2.265, 'sample_time_ms': 29290.61}",2025-08-30_20-47-24,cda-server-4,30.78961753845215,3264,1756579644,10.157.146.4,False,16611.646775960922,1200
+545,-610.3899526234842,545,654000,{},-661.5500774147783,654000,0,16641.672328472137,-509.594974457923,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 654000, 'default': {'kl': 0.010409300215542316, 'policy_loss': -0.12559130787849426, 'vf_loss': 274.3468933105469, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9700899124145508, 'entropy': 10.163469314575195, 'cur_lr': 4.999999873689376e-05, 'total_loss': 274.23712158203125}, 'load_time_ms': 0.669, 'num_steps_sampled': 654000, 'grad_time_ms': 654.113, 'update_time_ms': 2.255, 'sample_time_ms': 29497.388}",2025-08-30_20-47-54,cda-server-4,30.02555251121521,3270,1756579674,10.157.146.4,False,16641.672328472137,1200
+546,-610.2443690747627,546,655200,{},-661.5500774147783,655200,0,16673.825635671616,-509.594974457923,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 655200, 'default': {'kl': 0.009878816083073616, 'policy_loss': -0.11036422103643417, 'vf_loss': 138.86788940429688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9876170754432678, 'entropy': 10.008864402770996, 'cur_lr': 4.999999873689376e-05, 'total_loss': 138.7725372314453}, 'load_time_ms': 0.658, 'num_steps_sampled': 655200, 'grad_time_ms': 652.557, 'update_time_ms': 2.244, 'sample_time_ms': 29574.655}",2025-08-30_20-48-26,cda-server-4,32.15330719947815,3276,1756579706,10.157.146.4,False,16673.825635671616,1200
+547,-611.4680030466785,547,656400,{},-661.5500774147783,656400,0,16701.85434126854,-509.594974457923,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 656400, 'default': {'kl': 0.01105254516005516, 'policy_loss': -0.14132803678512573, 'vf_loss': 391.0574951171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.960041880607605, 'entropy': 10.241620063781738, 'cur_lr': 4.999999873689376e-05, 'total_loss': 390.9328918457031}, 'load_time_ms': 0.641, 'num_steps_sampled': 656400, 'grad_time_ms': 641.733, 'update_time_ms': 2.362, 'sample_time_ms': 29299.029}",2025-08-30_20-48-54,cda-server-4,28.028705596923828,3282,1756579734,10.157.146.4,False,16701.85434126854,1200
+548,-611.288111963648,548,657600,{},-661.5500774147783,657600,0,16731.720999240875,-509.594974457923,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 657600, 'default': {'kl': 0.010708107613027096, 'policy_loss': -0.1299036294221878, 'vf_loss': 333.71441650390625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9615076780319214, 'entropy': 9.937858581542969, 'cur_lr': 4.999999873689376e-05, 'total_loss': 333.6007995605469}, 'load_time_ms': 0.635, 'num_steps_sampled': 657600, 'grad_time_ms': 647.927, 'update_time_ms': 2.352, 'sample_time_ms': 29052.747}",2025-08-30_20-49-24,cda-server-4,29.866657972335815,3288,1756579764,10.157.146.4,False,16731.720999240875,1200
+549,-611.0533358232017,549,658800,{},-661.5500774147783,658800,0,16762.34542298317,-509.594974457923,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 658800, 'default': {'kl': 0.011515870690345764, 'policy_loss': -0.12183773517608643, 'vf_loss': 391.7244873046875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9523783922195435, 'entropy': 9.937058448791504, 'cur_lr': 4.999999873689376e-05, 'total_loss': 391.62017822265625}, 'load_time_ms': 0.628, 'num_steps_sampled': 658800, 'grad_time_ms': 666.478, 'update_time_ms': 2.344, 'sample_time_ms': 29274.588}",2025-08-30_20-49-54,cda-server-4,30.62442374229431,3294,1756579794,10.157.146.4,False,16762.34542298317,1200
+550,-611.4340472995062,550,660000,{},-661.5500774147783,660000,0,16794.20192503929,-509.594974457923,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 660000, 'default': {'kl': 0.009290464222431183, 'policy_loss': -0.11336556077003479, 'vf_loss': 247.19970703125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9699633121490479, 'entropy': 10.132556915283203, 'cur_lr': 4.999999873689376e-05, 'total_loss': 247.10044860839844}, 'load_time_ms': 0.634, 'num_steps_sampled': 660000, 'grad_time_ms': 693.325, 'update_time_ms': 2.265, 'sample_time_ms': 29310.239}",2025-08-30_20-50-26,cda-server-4,31.856502056121826,3300,1756579826,10.157.146.4,False,16794.20192503929,1200
+551,-612.5216260525912,551,661200,{},-661.5500774147783,661200,0,16825.43114900589,-509.594974457923,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 661200, 'default': {'kl': 0.00903959572315216, 'policy_loss': -0.1306103616952896, 'vf_loss': 204.7042236328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9733209609985352, 'entropy': 9.828688621520996, 'cur_lr': 4.999999873689376e-05, 'total_loss': 204.58734130859375}, 'load_time_ms': 0.622, 'num_steps_sampled': 661200, 'grad_time_ms': 713.609, 'update_time_ms': 2.272, 'sample_time_ms': 29341.897}",2025-08-30_20-50-58,cda-server-4,31.22922396659851,3306,1756579858,10.157.146.4,False,16825.43114900589,1200
+552,-611.3124533377361,552,662400,{},-661.5500774147783,662400,0,16854.41908121109,-509.594974457923,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 662400, 'default': {'kl': 0.010856563225388527, 'policy_loss': -0.14347264170646667, 'vf_loss': 279.4120788574219, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.977110743522644, 'entropy': 9.955864906311035, 'cur_lr': 4.999999873689376e-05, 'total_loss': 279.2850341796875}, 'load_time_ms': 0.627, 'num_steps_sampled': 662400, 'grad_time_ms': 726.628, 'update_time_ms': 2.291, 'sample_time_ms': 29374.77}",2025-08-30_20-51-27,cda-server-4,28.987932205200195,3312,1756579887,10.157.146.4,False,16854.41908121109,1200
+553,-611.4543870661696,553,663600,{},-661.5500774147783,663600,0,16885.18371295929,-509.594974457923,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 663600, 'default': {'kl': 0.011379954405128956, 'policy_loss': -0.13084155321121216, 'vf_loss': 317.1529846191406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.964069128036499, 'entropy': 10.047607421875, 'cur_lr': 4.999999873689376e-05, 'total_loss': 317.0394287109375}, 'load_time_ms': 0.635, 'num_steps_sampled': 663600, 'grad_time_ms': 727.107, 'update_time_ms': 2.235, 'sample_time_ms': 29698.811}",2025-08-30_20-51-57,cda-server-4,30.764631748199463,3318,1756579917,10.157.146.4,False,16885.18371295929,1200
+554,-612.2919975108695,554,664800,{},-661.5500774147783,664800,0,16915.81846523285,-509.594974457923,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 664800, 'default': {'kl': 0.011128092184662819, 'policy_loss': -0.13643042743206024, 'vf_loss': 181.1377716064453, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.98775714635849, 'entropy': 9.86246395111084, 'cur_lr': 4.999999873689376e-05, 'total_loss': 181.01824951171875}, 'load_time_ms': 0.638, 'num_steps_sampled': 664800, 'grad_time_ms': 726.905, 'update_time_ms': 2.242, 'sample_time_ms': 29683.502}",2025-08-30_20-52-28,cda-server-4,30.63475227355957,3324,1756579948,10.157.146.4,False,16915.81846523285,1200
+555,-612.9049112708179,555,666000,{},-661.5500774147783,666000,0,16946.2095079422,-509.594974457923,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 666000, 'default': {'kl': 0.01133174728602171, 'policy_loss': -0.12616044282913208, 'vf_loss': 313.22076416015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9593656063079834, 'entropy': 9.815875053405762, 'cur_lr': 4.999999873689376e-05, 'total_loss': 313.1117858886719}, 'load_time_ms': 0.634, 'num_steps_sampled': 666000, 'grad_time_ms': 726.266, 'update_time_ms': 2.208, 'sample_time_ms': 29720.738}",2025-08-30_20-52-58,cda-server-4,30.391042709350586,3330,1756579978,10.157.146.4,False,16946.2095079422,1200
+556,-612.9781018909667,556,667200,{},-661.5500774147783,667200,0,16975.55885219574,-509.594974457923,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 667200, 'default': {'kl': 0.009980953298509121, 'policy_loss': -0.12240856140851974, 'vf_loss': 452.9295349121094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.94536292552948, 'entropy': 9.7695951461792, 'cur_lr': 4.999999873689376e-05, 'total_loss': 452.822265625}, 'load_time_ms': 0.669, 'num_steps_sampled': 667200, 'grad_time_ms': 726.731, 'update_time_ms': 2.23, 'sample_time_ms': 29439.828}",2025-08-30_20-53-28,cda-server-4,29.34934425354004,3336,1756580008,10.157.146.4,False,16975.55885219574,1200
+557,-612.5739935046975,557,668400,{},-661.5500774147783,668400,0,17008.301743745804,-509.594974457923,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 668400, 'default': {'kl': 0.009486428461968899, 'policy_loss': -0.09425970911979675, 'vf_loss': 376.21954345703125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9541195631027222, 'entropy': 9.818892478942871, 'cur_lr': 4.999999873689376e-05, 'total_loss': 376.1396789550781}, 'load_time_ms': 0.663, 'num_steps_sampled': 668400, 'grad_time_ms': 729.396, 'update_time_ms': 2.126, 'sample_time_ms': 29908.584}",2025-08-30_20-54-00,cda-server-4,32.74289155006409,3342,1756580040,10.157.146.4,False,17008.301743745804,1200
+558,-613.1364510906341,558,669600,{},-661.5500774147783,669600,0,17037.299775123596,-518.9374632439963,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 669600, 'default': {'kl': 0.01249330397695303, 'policy_loss': -0.13692128658294678, 'vf_loss': 347.0527648925781, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9527511596679688, 'entropy': 9.596115112304688, 'cur_lr': 4.999999873689376e-05, 'total_loss': 346.934814453125}, 'load_time_ms': 0.663, 'num_steps_sampled': 669600, 'grad_time_ms': 724.459, 'update_time_ms': 2.101, 'sample_time_ms': 29826.696}",2025-08-30_20-54-29,cda-server-4,28.99803137779236,3348,1756580069,10.157.146.4,False,17037.299775123596,1200
+559,-612.401211929273,559,670800,{},-661.5500774147783,670800,0,17067.84576201439,-503.21056512928806,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 670800, 'default': {'kl': 0.011890758760273457, 'policy_loss': -0.13127461075782776, 'vf_loss': 372.5495300292969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9522508978843689, 'entropy': 9.825468063354492, 'cur_lr': 4.999999873689376e-05, 'total_loss': 372.4363098144531}, 'load_time_ms': 0.691, 'num_steps_sampled': 670800, 'grad_time_ms': 711.126, 'update_time_ms': 2.106, 'sample_time_ms': 29832.14}",2025-08-30_20-55-00,cda-server-4,30.545986890792847,3354,1756580100,10.157.146.4,False,17067.84576201439,1200
+560,-612.5901849379128,560,672000,{},-661.1931067320966,672000,0,17098.89839720726,-503.21056512928806,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 672000, 'default': {'kl': 0.010446809232234955, 'policy_loss': -0.12846240401268005, 'vf_loss': 763.8804321289062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9172493815422058, 'entropy': 9.818803787231445, 'cur_lr': 4.999999873689376e-05, 'total_loss': 763.767822265625}, 'load_time_ms': 0.676, 'num_steps_sampled': 672000, 'grad_time_ms': 714.035, 'update_time_ms': 2.1, 'sample_time_ms': 29748.872}",2025-08-30_20-55-31,cda-server-4,31.052635192871094,3360,1756580131,10.157.146.4,False,17098.89839720726,1200
+561,-612.3688628201282,561,673200,{},-661.1931067320966,673200,0,17127.626200437546,-503.21056512928806,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 673200, 'default': {'kl': 0.011355208232998848, 'policy_loss': -0.12614478170871735, 'vf_loss': 58.37223815917969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9926831722259521, 'entropy': 9.92141342163086, 'cur_lr': 4.999999873689376e-05, 'total_loss': 58.26333999633789}, 'load_time_ms': 0.681, 'num_steps_sampled': 673200, 'grad_time_ms': 712.435, 'update_time_ms': 2.331, 'sample_time_ms': 29500.039}",2025-08-30_20-56-00,cda-server-4,28.727803230285645,3366,1756580160,10.157.146.4,False,17127.626200437546,1200
+562,-612.7913137755766,562,674400,{},-676.6038093872376,674400,0,17159.735206604004,-503.21056512928806,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 674400, 'default': {'kl': 0.00949043594300747, 'policy_loss': -0.12050436437129974, 'vf_loss': 1012.4786376953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8593498468399048, 'entropy': 9.677512168884277, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1012.3726196289062}, 'load_time_ms': 0.693, 'num_steps_sampled': 674400, 'grad_time_ms': 711.517, 'update_time_ms': 2.366, 'sample_time_ms': 29812.957}",2025-08-30_20-56-32,cda-server-4,32.10900616645813,3372,1756580192,10.157.146.4,False,17159.735206604004,1200
+563,-612.1169622467928,563,675600,{},-676.6038093872376,675600,0,17190.513974666595,-491.2734930231883,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 675600, 'default': {'kl': 0.011338609270751476, 'policy_loss': -0.1377890557050705, 'vf_loss': 673.4642944335938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9360821843147278, 'entropy': 9.727497100830078, 'cur_lr': 4.999999873689376e-05, 'total_loss': 673.34375}, 'load_time_ms': 0.683, 'num_steps_sampled': 675600, 'grad_time_ms': 711.477, 'update_time_ms': 2.432, 'sample_time_ms': 29814.288}",2025-08-30_20-57-03,cda-server-4,30.778768062591553,3378,1756580223,10.157.146.4,False,17190.513974666595,1200
+564,-613.4959704398634,564,676800,{},-779.3428236475446,676800,0,17220.09855389595,-491.2734930231883,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 676800, 'default': {'kl': 0.009691791608929634, 'policy_loss': -0.13371753692626953, 'vf_loss': 378.4728698730469, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9561564326286316, 'entropy': 9.79186725616455, 'cur_lr': 4.999999873689376e-05, 'total_loss': 378.3538513183594}, 'load_time_ms': 0.689, 'num_steps_sampled': 676800, 'grad_time_ms': 711.879, 'update_time_ms': 2.478, 'sample_time_ms': 29708.837}",2025-08-30_20-57-32,cda-server-4,29.58457922935486,3384,1756580252,10.157.146.4,False,17220.09855389595,1200
+565,-612.8949308644164,565,678000,{},-779.3428236475446,678000,0,17248.404955148697,-491.2734930231883,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 678000, 'default': {'kl': 0.010577634908258915, 'policy_loss': -0.1306239366531372, 'vf_loss': 278.6214294433594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9609339833259583, 'entropy': 9.673492431640625, 'cur_lr': 4.999999873689376e-05, 'total_loss': 278.5068359375}, 'load_time_ms': 0.687, 'num_steps_sampled': 678000, 'grad_time_ms': 713.69, 'update_time_ms': 2.557, 'sample_time_ms': 29498.442}",2025-08-30_20-58-01,cda-server-4,28.306401252746582,3390,1756580281,10.157.146.4,False,17248.404955148697,1200
+566,-614.4432869904201,566,679200,{},-779.3428236475446,679200,0,17280.07763361931,-491.2734930231883,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 679200, 'default': {'kl': 0.013388600200414658, 'policy_loss': -0.13790906965732574, 'vf_loss': 856.5707397460938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9385480880737305, 'entropy': 9.667899131774902, 'cur_lr': 4.999999873689376e-05, 'total_loss': 856.4531860351562}, 'load_time_ms': 0.657, 'num_steps_sampled': 679200, 'grad_time_ms': 734.385, 'update_time_ms': 2.685, 'sample_time_ms': 29709.92}",2025-08-30_20-58-32,cda-server-4,31.672678470611572,3396,1756580312,10.157.146.4,False,17280.07763361931,1200
+567,-613.7602639124457,567,680400,{},-779.3428236475446,680400,0,17313.269364118576,-491.2734930231883,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 680400, 'default': {'kl': 0.009584642946720123, 'policy_loss': -0.11520794034004211, 'vf_loss': 267.03924560546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9691091179847717, 'entropy': 9.879892349243164, 'cur_lr': 4.999999873689376e-05, 'total_loss': 266.9385986328125}, 'load_time_ms': 0.643, 'num_steps_sampled': 680400, 'grad_time_ms': 744.286, 'update_time_ms': 2.83, 'sample_time_ms': 29744.795}",2025-08-30_20-59-06,cda-server-4,33.19173049926758,3402,1756580346,10.157.146.4,False,17313.269364118576,1200
+568,-613.8008150366163,568,681600,{},-779.3428236475446,681600,0,17343.46815109253,-491.2734930231883,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 681600, 'default': {'kl': 0.008844994939863682, 'policy_loss': -0.10580179840326309, 'vf_loss': 301.83197021484375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9536299109458923, 'entropy': 9.56690502166748, 'cur_lr': 4.999999873689376e-05, 'total_loss': 301.7395935058594}, 'load_time_ms': 0.647, 'num_steps_sampled': 681600, 'grad_time_ms': 751.748, 'update_time_ms': 2.852, 'sample_time_ms': 29857.428}",2025-08-30_20-59-36,cda-server-4,30.198786973953247,3408,1756580376,10.157.146.4,False,17343.46815109253,1200
+569,-615.2932971883312,569,682800,{},-779.3428236475446,682800,0,17372.671855926514,-491.2734930231883,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 682800, 'default': {'kl': 0.010360443033277988, 'policy_loss': -0.12874609231948853, 'vf_loss': 594.4419555664062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9343584775924683, 'entropy': 9.618459701538086, 'cur_lr': 4.999999873689376e-05, 'total_loss': 594.328857421875}, 'load_time_ms': 0.622, 'num_steps_sampled': 682800, 'grad_time_ms': 757.131, 'update_time_ms': 2.821, 'sample_time_ms': 29717.886}",2025-08-30_21-00-05,cda-server-4,29.203704833984375,3414,1756580405,10.157.146.4,False,17372.671855926514,1200
+570,-614.8120712780421,570,684000,{},-779.3428236475446,684000,0,17403.23874592781,-491.2734930231883,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 684000, 'default': {'kl': 0.012724770233035088, 'policy_loss': -0.12444211542606354, 'vf_loss': 586.8143310546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.967515230178833, 'entropy': 9.576632499694824, 'cur_lr': 4.999999873689376e-05, 'total_loss': 586.709228515625}, 'load_time_ms': 0.623, 'num_steps_sampled': 684000, 'grad_time_ms': 742.956, 'update_time_ms': 2.815, 'sample_time_ms': 29683.51}",2025-08-30_21-00-36,cda-server-4,30.566890001296997,3420,1756580436,10.157.146.4,False,17403.23874592781,1200
+571,-615.0564902022146,571,685200,{},-779.3428236475446,685200,0,17434.154129505157,-491.2734930231883,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 685200, 'default': {'kl': 0.009535199031233788, 'policy_loss': -0.11051080375909805, 'vf_loss': 166.96018981933594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.976013720035553, 'entropy': 9.670022010803223, 'cur_lr': 4.999999873689376e-05, 'total_loss': 166.86416625976562}, 'load_time_ms': 0.629, 'num_steps_sampled': 685200, 'grad_time_ms': 740.357, 'update_time_ms': 2.717, 'sample_time_ms': 29904.993}",2025-08-30_21-01-07,cda-server-4,30.9153835773468,3426,1756580467,10.157.146.4,False,17434.154129505157,1200
+572,-614.4157922999308,572,686400,{},-779.3428236475446,686400,0,17461.82030749321,-491.2734930231883,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 686400, 'default': {'kl': 0.00970547180622816, 'policy_loss': -0.10716657340526581, 'vf_loss': 192.58953857421875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.980718731880188, 'entropy': 9.524877548217773, 'cur_lr': 4.999999873689376e-05, 'total_loss': 192.49713134765625}, 'load_time_ms': 0.61, 'num_steps_sampled': 686400, 'grad_time_ms': 739.192, 'update_time_ms': 2.709, 'sample_time_ms': 29461.951}",2025-08-30_21-01-34,cda-server-4,27.666177988052368,3432,1756580494,10.157.146.4,False,17461.82030749321,1200
+573,-615.9747768946498,573,687600,{},-779.3428236475446,687600,0,17489.479825496674,-491.2734930231883,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 687600, 'default': {'kl': 0.010056711733341217, 'policy_loss': -0.10587356984615326, 'vf_loss': 250.60736083984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.981370210647583, 'entropy': 9.84052562713623, 'cur_lr': 4.999999873689376e-05, 'total_loss': 250.51678466796875}, 'load_time_ms': 0.618, 'num_steps_sampled': 687600, 'grad_time_ms': 725.673, 'update_time_ms': 2.688, 'sample_time_ms': 29163.408}",2025-08-30_21-02-02,cda-server-4,27.659518003463745,3438,1756580522,10.157.146.4,False,17489.479825496674,1200
+574,-616.3316896875714,574,688800,{},-779.3428236475446,688800,0,17518.7174782753,-491.2734930231883,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 688800, 'default': {'kl': 0.008950948715209961, 'policy_loss': -0.11261730641126633, 'vf_loss': 189.98123168945312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9706084132194519, 'entropy': 9.607809066772461, 'cur_lr': 4.999999873689376e-05, 'total_loss': 189.88218688964844}, 'load_time_ms': 0.607, 'num_steps_sampled': 688800, 'grad_time_ms': 715.484, 'update_time_ms': 2.667, 'sample_time_ms': 29138.913}",2025-08-30_21-02-31,cda-server-4,29.23765277862549,3444,1756580551,10.157.146.4,False,17518.7174782753,1200
+575,-615.7091926962306,575,690000,{},-779.3428236475446,690000,0,17550.276401281357,-491.2734930231883,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 690000, 'default': {'kl': 0.011684320867061615, 'policy_loss': -0.1259143054485321, 'vf_loss': 81.86355590820312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.991550862789154, 'entropy': 9.449613571166992, 'cur_lr': 4.999999873689376e-05, 'total_loss': 81.7553939819336}, 'load_time_ms': 0.608, 'num_steps_sampled': 690000, 'grad_time_ms': 706.784, 'update_time_ms': 2.616, 'sample_time_ms': 29472.929}",2025-08-30_21-03-03,cda-server-4,31.55892300605774,3450,1756580583,10.157.146.4,False,17550.276401281357,1200
+576,-617.4679662278545,576,691200,{},-779.3428236475446,691200,0,17579.854864120483,-491.2734930231883,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 691200, 'default': {'kl': 0.010151026770472527, 'policy_loss': -0.13851404190063477, 'vf_loss': 157.4898681640625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9844635725021362, 'entropy': 9.788643836975098, 'cur_lr': 4.999999873689376e-05, 'total_loss': 157.36676025390625}, 'load_time_ms': 0.638, 'num_steps_sampled': 691200, 'grad_time_ms': 662.276, 'update_time_ms': 2.504, 'sample_time_ms': 29308.161}",2025-08-30_21-03-32,cda-server-4,29.578462839126587,3456,1756580612,10.157.146.4,False,17579.854864120483,1200
+577,-617.7585532006048,577,692400,{},-779.3428236475446,692400,0,17610.33811020851,-491.2734930231883,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 692400, 'default': {'kl': 0.011291442438960075, 'policy_loss': -0.12834957242012024, 'vf_loss': 223.28436279296875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9791123867034912, 'entropy': 9.671029090881348, 'cur_lr': 4.999999873689376e-05, 'total_loss': 223.17315673828125}, 'load_time_ms': 0.649, 'num_steps_sampled': 692400, 'grad_time_ms': 658.075, 'update_time_ms': 2.384, 'sample_time_ms': 29041.682}",2025-08-30_21-04-03,cda-server-4,30.483246088027954,3462,1756580643,10.157.146.4,False,17610.33811020851,1200
+578,-616.8637671176497,578,693600,{},-779.3428236475446,693600,0,17641.76815509796,-491.2734930231883,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 693600, 'default': {'kl': 0.007429724093526602, 'policy_loss': -0.11312976479530334, 'vf_loss': 122.03062438964844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9817049503326416, 'entropy': 9.574504852294922, 'cur_lr': 4.999999873689376e-05, 'total_loss': 121.92877960205078}, 'load_time_ms': 0.645, 'num_steps_sampled': 693600, 'grad_time_ms': 658.444, 'update_time_ms': 2.417, 'sample_time_ms': 29164.432}",2025-08-30_21-04-34,cda-server-4,31.430044889450073,3468,1756580674,10.157.146.4,False,17641.76815509796,1200
+579,-616.7211491326701,579,694800,{},-779.3428236475446,694800,0,17674.306287288666,-491.2734930231883,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 694800, 'default': {'kl': 0.0091854901984334, 'policy_loss': -0.12162517011165619, 'vf_loss': 276.61834716796875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9651148915290833, 'entropy': 9.395771980285645, 'cur_lr': 4.999999873689376e-05, 'total_loss': 276.51068115234375}, 'load_time_ms': 0.649, 'num_steps_sampled': 694800, 'grad_time_ms': 643.173, 'update_time_ms': 2.389, 'sample_time_ms': 29513.035}",2025-08-30_21-05-07,cda-server-4,32.538132190704346,3474,1756580707,10.157.146.4,False,17674.306287288666,1200
+580,-616.335872106675,580,696000,{},-688.667095510996,696000,0,17707.81675553322,-514.7503226075005,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 696000, 'default': {'kl': 0.009989721700549126, 'policy_loss': -0.12711744010448456, 'vf_loss': 1005.7776489257812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9061805009841919, 'entropy': 9.804445266723633, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1005.6657104492188}, 'load_time_ms': 0.65, 'num_steps_sampled': 696000, 'grad_time_ms': 648.365, 'update_time_ms': 2.385, 'sample_time_ms': 29802.134}",2025-08-30_21-05-40,cda-server-4,33.51046824455261,3480,1756580740,10.157.146.4,False,17707.81675553322,1200
+581,-615.70596811074,581,697200,{},-688.667095510996,697200,0,17736.847863197327,-514.7503226075005,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 697200, 'default': {'kl': 0.012471634894609451, 'policy_loss': -0.13007672131061554, 'vf_loss': 416.9767150878906, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9572774171829224, 'entropy': 9.43813705444336, 'cur_lr': 4.999999873689376e-05, 'total_loss': 416.8656005859375}, 'load_time_ms': 0.639, 'num_steps_sampled': 697200, 'grad_time_ms': 653.249, 'update_time_ms': 2.265, 'sample_time_ms': 29608.961}",2025-08-30_21-06-09,cda-server-4,29.031107664108276,3486,1756580769,10.157.146.4,False,17736.847863197327,1200
+582,-615.4396055873797,582,698400,{},-688.667095510996,698400,0,17766.466956853867,-514.7503226075005,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 698400, 'default': {'kl': 0.009842906147241592, 'policy_loss': -0.10332503914833069, 'vf_loss': 436.03631591796875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.961659848690033, 'entropy': 9.54046630859375, 'cur_lr': 4.999999873689376e-05, 'total_loss': 435.9479064941406}, 'load_time_ms': 0.65, 'num_steps_sampled': 698400, 'grad_time_ms': 640.241, 'update_time_ms': 2.241, 'sample_time_ms': 29817.349}",2025-08-30_21-06-39,cda-server-4,29.619093656539917,3492,1756580799,10.157.146.4,False,17766.466956853867,1200
+583,-615.6596597051914,583,699600,{},-688.667095510996,699600,0,17798.571351528168,-514.7503226075005,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 699600, 'default': {'kl': 0.007835199125111103, 'policy_loss': -0.11706683039665222, 'vf_loss': 412.1337890625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9449668526649475, 'entropy': 9.579608917236328, 'cur_lr': 4.999999873689376e-05, 'total_loss': 412.0286560058594}, 'load_time_ms': 0.639, 'num_steps_sampled': 699600, 'grad_time_ms': 660.628, 'update_time_ms': 2.194, 'sample_time_ms': 30241.662}",2025-08-30_21-07-11,cda-server-4,32.10439467430115,3498,1756580831,10.157.146.4,False,17798.571351528168,1200
+584,-617.0011816541964,584,700800,{},-688.667095510996,700800,0,17830.44056725502,-514.7503226075005,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 700800, 'default': {'kl': 0.010830122977495193, 'policy_loss': -0.1317913681268692, 'vf_loss': 964.7042236328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9184488654136658, 'entropy': 9.780253410339355, 'cur_lr': 4.999999873689376e-05, 'total_loss': 964.5889892578125}, 'load_time_ms': 0.643, 'num_steps_sampled': 700800, 'grad_time_ms': 661.936, 'update_time_ms': 2.333, 'sample_time_ms': 30503.361}",2025-08-30_21-07-43,cda-server-4,31.869215726852417,3504,1756580863,10.157.146.4,False,17830.44056725502,1200
+585,-616.4880705917841,585,702000,{},-688.667095510996,702000,0,17862.26367378235,-514.7503226075005,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 702000, 'default': {'kl': 0.01063202042132616, 'policy_loss': -0.13154897093772888, 'vf_loss': 262.0792236328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9773640036582947, 'entropy': 9.55286693572998, 'cur_lr': 4.999999873689376e-05, 'total_loss': 261.9638366699219}, 'load_time_ms': 0.641, 'num_steps_sampled': 702000, 'grad_time_ms': 657.066, 'update_time_ms': 2.315, 'sample_time_ms': 30534.697}",2025-08-30_21-08-15,cda-server-4,31.82310652732849,3510,1756580895,10.157.146.4,False,17862.26367378235,1200
+586,-616.4632814671844,586,703200,{},-673.6351435526208,703200,0,17892.673768281937,-514.7503226075005,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 703200, 'default': {'kl': 0.012106990441679955, 'policy_loss': -0.1476048231124878, 'vf_loss': 371.9835205078125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9736945033073425, 'entropy': 9.565720558166504, 'cur_lr': 4.999999873689376e-05, 'total_loss': 371.8543395996094}, 'load_time_ms': 0.604, 'num_steps_sampled': 703200, 'grad_time_ms': 651.685, 'update_time_ms': 2.298, 'sample_time_ms': 30623.276}",2025-08-30_21-08-45,cda-server-4,30.410094499588013,3516,1756580925,10.157.146.4,False,17892.673768281937,1200
+587,-616.599603083728,587,704400,{},-673.6351435526208,704400,0,17923.00922226906,-514.7503226075005,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 704400, 'default': {'kl': 0.010935652069747448, 'policy_loss': -0.12647058069705963, 'vf_loss': 253.94216918945312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9593396782875061, 'entropy': 9.308793067932129, 'cur_lr': 4.999999873689376e-05, 'total_loss': 253.83230590820312}, 'load_time_ms': 0.594, 'num_steps_sampled': 704400, 'grad_time_ms': 643.05, 'update_time_ms': 2.295, 'sample_time_ms': 30617.199}",2025-08-30_21-09-16,cda-server-4,30.335453987121582,3522,1756580956,10.157.146.4,False,17923.00922226906,1200
+588,-616.7623209653659,588,705600,{},-673.6351435526208,705600,0,17952.92941880226,-514.7503226075005,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 705600, 'default': {'kl': 0.009152778424322605, 'policy_loss': -0.11853653937578201, 'vf_loss': 357.29736328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9515821933746338, 'entropy': 9.477558135986328, 'cur_lr': 4.999999873689376e-05, 'total_loss': 357.1927490234375}, 'load_time_ms': 0.592, 'num_steps_sampled': 705600, 'grad_time_ms': 641.399, 'update_time_ms': 2.217, 'sample_time_ms': 30467.891}",2025-08-30_21-09-46,cda-server-4,29.920196533203125,3528,1756580986,10.157.146.4,False,17952.92941880226,1200
+589,-616.0512876814938,589,706800,{},-673.6351435526208,706800,0,17983.279368400574,-514.7503226075005,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 706800, 'default': {'kl': 0.009657223708927631, 'policy_loss': -0.11953692883253098, 'vf_loss': 357.8992919921875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9530900120735168, 'entropy': 9.441727638244629, 'cur_lr': 4.999999873689376e-05, 'total_loss': 357.79443359375}, 'load_time_ms': 0.586, 'num_steps_sampled': 706800, 'grad_time_ms': 665.006, 'update_time_ms': 2.302, 'sample_time_ms': 30225.532}",2025-08-30_21-10-16,cda-server-4,30.349949598312378,3534,1756581016,10.157.146.4,False,17983.279368400574,1200
+590,-616.8060920620313,590,708000,{},-796.0704798252793,708000,0,18010.59068608284,-514.7503226075005,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 708000, 'default': {'kl': 0.008650233037769794, 'policy_loss': -0.11941654235124588, 'vf_loss': 225.9669647216797, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9729494452476501, 'entropy': 9.678723335266113, 'cur_lr': 4.999999873689376e-05, 'total_loss': 225.86065673828125}, 'load_time_ms': 0.589, 'num_steps_sampled': 708000, 'grad_time_ms': 674.22, 'update_time_ms': 2.251, 'sample_time_ms': 29596.524}",2025-08-30_21-10-43,cda-server-4,27.311317682266235,3540,1756581043,10.157.146.4,False,18010.59068608284,1200
+591,-616.3231414337464,591,709200,{},-796.0704798252793,709200,0,18041.62502670288,-514.7503226075005,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 709200, 'default': {'kl': 0.010805145837366581, 'policy_loss': -0.13331688940525055, 'vf_loss': 234.15541076660156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9785289764404297, 'entropy': 9.53798770904541, 'cur_lr': 4.999999873689376e-05, 'total_loss': 234.03851318359375}, 'load_time_ms': 0.599, 'num_steps_sampled': 709200, 'grad_time_ms': 675.527, 'update_time_ms': 2.229, 'sample_time_ms': 29795.515}",2025-08-30_21-11-14,cda-server-4,31.034340620040894,3546,1756581074,10.157.146.4,False,18041.62502670288,1200
+592,-617.3391224707107,592,710400,{},-796.0704798252793,710400,0,18071.99793124199,-514.7503226075005,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 710400, 'default': {'kl': 0.008448367938399315, 'policy_loss': -0.10977599024772644, 'vf_loss': 1436.56005859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8414895534515381, 'entropy': 9.72845458984375, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1436.462890625}, 'load_time_ms': 0.588, 'num_steps_sampled': 710400, 'grad_time_ms': 688.409, 'update_time_ms': 2.22, 'sample_time_ms': 29857.932}",2025-08-30_21-11-45,cda-server-4,30.372904539108276,3552,1756581105,10.157.146.4,False,18071.99793124199,1200
+593,-616.5894979158655,593,711600,{},-796.0704798252793,711600,0,18100.53288960457,-514.7503226075005,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 711600, 'default': {'kl': 0.009933038614690304, 'policy_loss': -0.12368971854448318, 'vf_loss': 119.2158203125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.986078679561615, 'entropy': 9.385868072509766, 'cur_lr': 4.999999873689376e-05, 'total_loss': 119.10721588134766}, 'load_time_ms': 0.584, 'num_steps_sampled': 711600, 'grad_time_ms': 667.083, 'update_time_ms': 2.284, 'sample_time_ms': 29522.224}",2025-08-30_21-12-13,cda-server-4,28.534958362579346,3558,1756581133,10.157.146.4,False,18100.53288960457,1200
+594,-616.8882039735614,594,712800,{},-796.0704798252793,712800,0,18129.962776184082,-514.7503226075005,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 712800, 'default': {'kl': 0.008989566005766392, 'policy_loss': -0.12994801998138428, 'vf_loss': 357.0096435546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9598469138145447, 'entropy': 9.581499099731445, 'cur_lr': 4.999999873689376e-05, 'total_loss': 356.89337158203125}, 'load_time_ms': 0.583, 'num_steps_sampled': 712800, 'grad_time_ms': 660.101, 'update_time_ms': 2.171, 'sample_time_ms': 29285.407}",2025-08-30_21-12-43,cda-server-4,29.42988657951355,3564,1756581163,10.157.146.4,False,18129.962776184082,1200
+595,-618.4299525424419,595,714000,{},-796.0704798252793,714000,0,18159.942209243774,-514.7503226075005,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 714000, 'default': {'kl': 0.009143250063061714, 'policy_loss': -0.12931165099143982, 'vf_loss': 421.56103515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9493645429611206, 'entropy': 9.69604206085205, 'cur_lr': 4.999999873689376e-05, 'total_loss': 421.4455871582031}, 'load_time_ms': 0.603, 'num_steps_sampled': 714000, 'grad_time_ms': 652.412, 'update_time_ms': 2.204, 'sample_time_ms': 29108.634}",2025-08-30_21-13-13,cda-server-4,29.979433059692383,3570,1756581193,10.157.146.4,False,18159.942209243774,1200
+596,-617.9900950545184,596,715200,{},-796.0704798252793,715200,0,18192.056468486786,-514.7503226075005,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 715200, 'default': {'kl': 0.008406232111155987, 'policy_loss': -0.12250460684299469, 'vf_loss': 175.45152282714844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9715348482131958, 'entropy': 9.275659561157227, 'cur_lr': 4.999999873689376e-05, 'total_loss': 175.34178161621094}, 'load_time_ms': 0.611, 'num_steps_sampled': 715200, 'grad_time_ms': 670.035, 'update_time_ms': 2.245, 'sample_time_ms': 29261.341}",2025-08-30_21-13-45,cda-server-4,32.114259243011475,3576,1756581225,10.157.146.4,False,18192.056468486786,1200
+597,-616.8395293124784,597,716400,{},-796.0704798252793,716400,0,18223.167361021042,-528.7214626501338,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 716400, 'default': {'kl': 0.012872888706624508, 'policy_loss': -0.15140148997306824, 'vf_loss': 928.4426879882812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9232509136199951, 'entropy': 9.672388076782227, 'cur_lr': 4.999999873689376e-05, 'total_loss': 928.3108520507812}, 'load_time_ms': 0.618, 'num_steps_sampled': 716400, 'grad_time_ms': 666.069, 'update_time_ms': 2.262, 'sample_time_ms': 29342.76}",2025-08-30_21-14-16,cda-server-4,31.11089253425598,3582,1756581256,10.157.146.4,False,18223.167361021042,1200
+598,-617.0684336884959,598,717600,{},-796.0704798252793,717600,0,18255.068278312683,-528.7214626501338,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 717600, 'default': {'kl': 0.011266443878412247, 'policy_loss': -0.12814538180828094, 'vf_loss': 157.1390838623047, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.97984379529953, 'entropy': 9.41433334350586, 'cur_lr': 4.999999873689376e-05, 'total_loss': 157.02804565429688}, 'load_time_ms': 0.63, 'num_steps_sampled': 717600, 'grad_time_ms': 660.308, 'update_time_ms': 2.295, 'sample_time_ms': 29546.5}",2025-08-30_21-14-48,cda-server-4,31.900917291641235,3588,1756581288,10.157.146.4,False,18255.068278312683,1200
+599,-616.1032204110085,599,718800,{},-796.0704798252793,718800,0,18284.20788550377,-528.7214626501338,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 718800, 'default': {'kl': 0.010463749058544636, 'policy_loss': -0.12894785404205322, 'vf_loss': 227.85110473632812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9687631130218506, 'entropy': 9.330144882202148, 'cur_lr': 4.999999873689376e-05, 'total_loss': 227.738037109375}, 'load_time_ms': 0.633, 'num_steps_sampled': 718800, 'grad_time_ms': 653.523, 'update_time_ms': 2.264, 'sample_time_ms': 29432.178}",2025-08-30_21-15-17,cda-server-4,29.139607191085815,3594,1756581317,10.157.146.4,False,18284.20788550377,1200
+600,-616.0111859233979,600,720000,{},-796.0704798252793,720000,0,18314.14937734604,-528.7214626501338,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 720000, 'default': {'kl': 0.010088253766298294, 'policy_loss': -0.12650255858898163, 'vf_loss': 186.24766540527344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9767255783081055, 'entropy': 9.424371719360352, 'cur_lr': 4.999999873689376e-05, 'total_loss': 186.13648986816406}, 'load_time_ms': 0.647, 'num_steps_sampled': 720000, 'grad_time_ms': 653.387, 'update_time_ms': 2.357, 'sample_time_ms': 29695.061}",2025-08-30_21-15-47,cda-server-4,29.941491842269897,3600,1756581347,10.157.146.4,False,18314.14937734604,1200
+601,-614.4164530216405,601,721200,{},-796.0704798252793,721200,0,18346.095603466034,-528.7214626501338,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 721200, 'default': {'kl': 0.010292001999914646, 'policy_loss': -0.1357170045375824, 'vf_loss': 377.7448425292969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9416916966438293, 'entropy': 9.568523406982422, 'cur_lr': 4.999999873689376e-05, 'total_loss': 377.624755859375}, 'load_time_ms': 0.638, 'num_steps_sampled': 721200, 'grad_time_ms': 653.941, 'update_time_ms': 2.37, 'sample_time_ms': 29785.708}",2025-08-30_21-16-19,cda-server-4,31.946226119995117,3606,1756581379,10.157.146.4,False,18346.095603466034,1200
+602,-614.8358615686216,602,722400,{},-796.0704798252793,722400,0,18376.558204889297,-528.7214626501338,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 722400, 'default': {'kl': 0.010205863043665886, 'policy_loss': -0.1125846579670906, 'vf_loss': 377.1962890625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9479743242263794, 'entropy': 9.591042518615723, 'cur_lr': 4.999999873689376e-05, 'total_loss': 377.0992431640625}, 'load_time_ms': 0.637, 'num_steps_sampled': 722400, 'grad_time_ms': 652.818, 'update_time_ms': 2.421, 'sample_time_ms': 29795.791}",2025-08-30_21-16-50,cda-server-4,30.46260142326355,3612,1756581410,10.157.146.4,False,18376.558204889297,1200
+603,-614.5720713371132,603,723600,{},-796.0704798252793,723600,0,18409.119691371918,-528.7214626501338,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 723600, 'default': {'kl': 0.009657826274633408, 'policy_loss': -0.1253858506679535, 'vf_loss': 704.8580932617188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9253944754600525, 'entropy': 9.605533599853516, 'cur_lr': 4.999999873689376e-05, 'total_loss': 704.747314453125}, 'load_time_ms': 0.674, 'num_steps_sampled': 723600, 'grad_time_ms': 659.925, 'update_time_ms': 2.407, 'sample_time_ms': 30191.332}",2025-08-30_21-17-22,cda-server-4,32.56148648262024,3618,1756581442,10.157.146.4,False,18409.119691371918,1200
+604,-613.6384516689926,604,724800,{},-796.0704798252793,724800,0,18436.582662820816,-528.7214626501338,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 724800, 'default': {'kl': 0.012120986357331276, 'policy_loss': -0.13904692232608795, 'vf_loss': 453.340087890625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.953324019908905, 'entropy': 9.365586280822754, 'cur_lr': 4.999999873689376e-05, 'total_loss': 453.2194519042969}, 'load_time_ms': 0.672, 'num_steps_sampled': 724800, 'grad_time_ms': 672.177, 'update_time_ms': 2.395, 'sample_time_ms': 29982.426}",2025-08-30_21-17-50,cda-server-4,27.462971448898315,3624,1756581470,10.157.146.4,False,18436.582662820816,1200
+605,-614.4105313453587,605,726000,{},-796.0704798252793,726000,0,18466.77520751953,-528.7214626501338,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 726000, 'default': {'kl': 0.011254728771746159, 'policy_loss': -0.14620383083820343, 'vf_loss': 386.2335510253906, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9668678641319275, 'entropy': 9.595887184143066, 'cur_lr': 4.999999873689376e-05, 'total_loss': 386.10443115234375}, 'load_time_ms': 0.651, 'num_steps_sampled': 726000, 'grad_time_ms': 677.014, 'update_time_ms': 2.478, 'sample_time_ms': 29998.886}",2025-08-30_21-18-20,cda-server-4,30.19254469871521,3630,1756581500,10.157.146.4,False,18466.77520751953,1200
+606,-611.7929029617349,606,727200,{},-703.7027058045996,727200,0,18495.91878581047,-523.4394749044243,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 727200, 'default': {'kl': 0.010241260752081871, 'policy_loss': -0.11215664446353912, 'vf_loss': 101.40977478027344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9849798679351807, 'entropy': 9.240912437438965, 'cur_lr': 4.999999873689376e-05, 'total_loss': 101.31317138671875}, 'load_time_ms': 0.647, 'num_steps_sampled': 727200, 'grad_time_ms': 684.584, 'update_time_ms': 2.403, 'sample_time_ms': 29694.304}",2025-08-30_21-18-49,cda-server-4,29.14357829093933,3636,1756581529,10.157.146.4,False,18495.91878581047,1200
+607,-612.9059305473182,607,728400,{},-703.7027058045996,728400,0,18526.887234926224,-523.4394749044243,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 728400, 'default': {'kl': 0.009090539067983627, 'policy_loss': -0.12137099355459213, 'vf_loss': 327.3459167480469, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9532119035720825, 'entropy': 9.397849082946777, 'cur_lr': 4.999999873689376e-05, 'total_loss': 327.2383728027344}, 'load_time_ms': 0.654, 'num_steps_sampled': 728400, 'grad_time_ms': 700.076, 'update_time_ms': 2.372, 'sample_time_ms': 29664.612}",2025-08-30_21-19-20,cda-server-4,30.968449115753174,3642,1756581560,10.157.146.4,False,18526.887234926224,1200
+608,-613.4662533956675,608,729600,{},-703.7027058045996,729600,0,18556.552196979523,-523.4394749044243,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 729600, 'default': {'kl': 0.010343777947127819, 'policy_loss': -0.10977420955896378, 'vf_loss': 93.43639373779297, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9893245697021484, 'entropy': 9.52718448638916, 'cur_lr': 4.999999873689376e-05, 'total_loss': 93.34232330322266}, 'load_time_ms': 0.644, 'num_steps_sampled': 729600, 'grad_time_ms': 698.235, 'update_time_ms': 2.333, 'sample_time_ms': 29442.974}",2025-08-30_21-19-50,cda-server-4,29.66496205329895,3648,1756581590,10.157.146.4,False,18556.552196979523,1200
+609,-612.6298924637742,609,730800,{},-703.7027058045996,730800,0,18588.639993429184,-523.4394749044243,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 730800, 'default': {'kl': 0.010823615826666355, 'policy_loss': -0.12089046835899353, 'vf_loss': 131.663818359375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9832665324211121, 'entropy': 9.40251350402832, 'cur_lr': 4.999999873689376e-05, 'total_loss': 131.55935668945312}, 'load_time_ms': 0.642, 'num_steps_sampled': 730800, 'grad_time_ms': 682.868, 'update_time_ms': 2.37, 'sample_time_ms': 29753.228}",2025-08-30_21-20-22,cda-server-4,32.087796449661255,3654,1756581622,10.157.146.4,False,18588.639993429184,1200
+610,-612.6736995560183,610,732000,{},-703.7027058045996,732000,0,18618.985557556152,-523.4394749044243,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 732000, 'default': {'kl': 0.009681729599833488, 'policy_loss': -0.11810668557882309, 'vf_loss': 246.02532958984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9714028239250183, 'entropy': 9.114435195922852, 'cur_lr': 4.999999873689376e-05, 'total_loss': 245.9219512939453}, 'load_time_ms': 0.633, 'num_steps_sampled': 732000, 'grad_time_ms': 665.516, 'update_time_ms': 2.323, 'sample_time_ms': 29811.162}",2025-08-30_21-20-52,cda-server-4,30.345564126968384,3660,1756581652,10.157.146.4,False,18618.985557556152,1200
+611,-611.9150962798352,611,733200,{},-703.7027058045996,733200,0,18648.135957717896,-523.4394749044243,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 733200, 'default': {'kl': 0.00802838709205389, 'policy_loss': -0.1194978654384613, 'vf_loss': 251.3912811279297, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9644008278846741, 'entropy': 9.395561218261719, 'cur_lr': 4.999999873689376e-05, 'total_loss': 251.28396606445312}, 'load_time_ms': 0.628, 'num_steps_sampled': 733200, 'grad_time_ms': 641.037, 'update_time_ms': 2.35, 'sample_time_ms': 29556.076}",2025-08-30_21-21-21,cda-server-4,29.150400161743164,3666,1756581681,10.157.146.4,False,18648.135957717896,1200
+612,-612.0974348202252,612,734400,{},-676.2661638367055,734400,0,18677.402584552765,-523.4394749044243,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 734400, 'default': {'kl': 0.00998616497963667, 'policy_loss': -0.13281302154064178, 'vf_loss': 637.1245727539062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9055226445198059, 'entropy': 9.283284187316895, 'cur_lr': 4.999999873689376e-05, 'total_loss': 637.0069580078125}, 'load_time_ms': 0.633, 'num_steps_sampled': 734400, 'grad_time_ms': 639.122, 'update_time_ms': 2.287, 'sample_time_ms': 29438.524}",2025-08-30_21-21-51,cda-server-4,29.266626834869385,3672,1756581711,10.157.146.4,False,18677.402584552765,1200
+613,-611.381122524482,613,735600,{},-676.2661638367055,735600,0,18707.652385234833,-523.4394749044243,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 735600, 'default': {'kl': 0.010063499212265015, 'policy_loss': -0.11941280961036682, 'vf_loss': 177.26724243164062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9770724177360535, 'entropy': 9.25495433807373, 'cur_lr': 4.999999873689376e-05, 'total_loss': 177.16311645507812}, 'load_time_ms': 0.604, 'num_steps_sampled': 735600, 'grad_time_ms': 642.059, 'update_time_ms': 2.303, 'sample_time_ms': 29204.497}",2025-08-30_21-22-21,cda-server-4,30.24980068206787,3678,1756581741,10.157.146.4,False,18707.652385234833,1200
+614,-614.4649446033974,614,736800,{},-676.2661638367055,736800,0,18735.964825868607,-523.4394749044243,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 736800, 'default': {'kl': 0.011301112361252308, 'policy_loss': -0.1396128386259079, 'vf_loss': 1193.043212890625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8696916103363037, 'entropy': 9.530757904052734, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1192.920654296875}, 'load_time_ms': 0.607, 'num_steps_sampled': 736800, 'grad_time_ms': 626.531, 'update_time_ms': 2.324, 'sample_time_ms': 29304.913}",2025-08-30_21-22-49,cda-server-4,28.312440633773804,3684,1756581769,10.157.146.4,False,18735.964825868607,1200
+615,-613.5546681648307,615,738000,{},-676.2661638367055,738000,0,18767.40708208084,-495.4336848013551,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 738000, 'default': {'kl': 0.01178044080734253, 'policy_loss': -0.13422667980194092, 'vf_loss': 101.92871856689453, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9888765811920166, 'entropy': 9.196290969848633, 'cur_lr': 4.999999873689376e-05, 'total_loss': 101.8123779296875}, 'load_time_ms': 0.614, 'num_steps_sampled': 738000, 'grad_time_ms': 623.36, 'update_time_ms': 2.214, 'sample_time_ms': 29433.125}",2025-08-30_21-23-21,cda-server-4,31.442256212234497,3690,1756581801,10.157.146.4,False,18767.40708208084,1200
+616,-614.4137335062469,616,739200,{},-676.2661638367055,739200,0,18798.341631174088,-495.4336848013551,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 739200, 'default': {'kl': 0.010686339810490608, 'policy_loss': -0.13289515674114227, 'vf_loss': 651.8970947265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.95238196849823, 'entropy': 9.430442810058594, 'cur_lr': 4.999999873689376e-05, 'total_loss': 651.780517578125}, 'load_time_ms': 0.621, 'num_steps_sampled': 739200, 'grad_time_ms': 623.488, 'update_time_ms': 2.316, 'sample_time_ms': 29612.064}",2025-08-30_21-23-52,cda-server-4,30.93454909324646,3696,1756581832,10.157.146.4,False,18798.341631174088,1200
+617,-615.3310058363032,617,740400,{},-677.385722139051,740400,0,18828.241535663605,-495.4336848013551,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 740400, 'default': {'kl': 0.011539111845195293, 'policy_loss': -0.1449800282716751, 'vf_loss': 843.9257202148438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8872631788253784, 'entropy': 9.653806686401367, 'cur_lr': 4.999999873689376e-05, 'total_loss': 843.7982788085938}, 'load_time_ms': 0.609, 'num_steps_sampled': 740400, 'grad_time_ms': 623.138, 'update_time_ms': 2.361, 'sample_time_ms': 29505.541}",2025-08-30_21-24-21,cda-server-4,29.899904489517212,3702,1756581861,10.157.146.4,False,18828.241535663605,1200
+618,-615.3835293988487,618,741600,{},-677.385722139051,741600,0,18859.352145671844,-495.4336848013551,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 741600, 'default': {'kl': 0.009553378447890282, 'policy_loss': -0.12175551056861877, 'vf_loss': 180.49615478515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9819848537445068, 'entropy': 9.227897644042969, 'cur_lr': 4.999999873689376e-05, 'total_loss': 180.38893127441406}, 'load_time_ms': 0.605, 'num_steps_sampled': 741600, 'grad_time_ms': 630.848, 'update_time_ms': 2.379, 'sample_time_ms': 29642.422}",2025-08-30_21-24-53,cda-server-4,31.110610008239746,3708,1756581893,10.157.146.4,False,18859.352145671844,1200
+619,-616.7773050246602,619,742800,{},-701.6023017366261,742800,0,18888.57083964348,-495.4336848013551,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 742800, 'default': {'kl': 0.010213086381554604, 'policy_loss': -0.11669044941663742, 'vf_loss': 384.1334228515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9497079849243164, 'entropy': 9.645615577697754, 'cur_lr': 4.999999873689376e-05, 'total_loss': 384.0322265625}, 'load_time_ms': 0.619, 'num_steps_sampled': 742800, 'grad_time_ms': 651.776, 'update_time_ms': 2.31, 'sample_time_ms': 29334.675}",2025-08-30_21-25-22,cda-server-4,29.21869397163391,3714,1756581922,10.157.146.4,False,18888.57083964348,1200
+620,-616.3889674273403,620,744000,{},-701.6023017366261,744000,0,18915.663234233856,-495.4336848013551,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 744000, 'default': {'kl': 0.010928193107247353, 'policy_loss': -0.13709001243114471, 'vf_loss': 394.0869445800781, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.946984589099884, 'entropy': 9.467720031738281, 'cur_lr': 4.999999873689376e-05, 'total_loss': 393.9664611816406}, 'load_time_ms': 0.606, 'num_steps_sampled': 744000, 'grad_time_ms': 664.534, 'update_time_ms': 2.259, 'sample_time_ms': 28996.76}",2025-08-30_21-25-49,cda-server-4,27.092394590377808,3720,1756581949,10.157.146.4,False,18915.663234233856,1200
+621,-617.2081610808764,621,745200,{},-701.6023017366261,745200,0,18945.151652812958,-495.4336848013551,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 745200, 'default': {'kl': 0.01075182855129242, 'policy_loss': -0.12491145730018616, 'vf_loss': 1078.7061767578125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8674647212028503, 'entropy': 9.410543441772461, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1078.5975341796875}, 'load_time_ms': 0.637, 'num_steps_sampled': 745200, 'grad_time_ms': 679.207, 'update_time_ms': 2.228, 'sample_time_ms': 29015.856}",2025-08-30_21-26-18,cda-server-4,29.488418579101562,3726,1756581978,10.157.146.4,False,18945.151652812958,1200
+622,-617.8666542525114,622,746400,{},-701.6023017366261,746400,0,18978.090211868286,-495.4336848013551,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 746400, 'default': {'kl': 0.008835389278829098, 'policy_loss': -0.12353364378213882, 'vf_loss': 251.75599670410156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9564879536628723, 'entropy': 9.426933288574219, 'cur_lr': 4.999999873689376e-05, 'total_loss': 251.64588928222656}, 'load_time_ms': 0.629, 'num_steps_sampled': 746400, 'grad_time_ms': 659.869, 'update_time_ms': 2.28, 'sample_time_ms': 29402.307}",2025-08-30_21-26-51,cda-server-4,32.93855905532837,3732,1756582011,10.157.146.4,False,18978.090211868286,1200
+623,-618.4489074938103,623,747600,{},-701.6023017366261,747600,0,19010.831167936325,-495.4336848013551,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 747600, 'default': {'kl': 0.008733519352972507, 'policy_loss': -0.11325684934854507, 'vf_loss': 226.20632934570312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9749224781990051, 'entropy': 9.463001251220703, 'cur_lr': 4.999999873689376e-05, 'total_loss': 226.1063232421875}, 'load_time_ms': 0.624, 'num_steps_sampled': 747600, 'grad_time_ms': 654.745, 'update_time_ms': 2.294, 'sample_time_ms': 29656.475}",2025-08-30_21-27-24,cda-server-4,32.74095606803894,3738,1756582044,10.157.146.4,False,19010.831167936325,1200
+624,-617.9629841380438,624,748800,{},-701.6023017366261,748800,0,19036.94801425934,-495.4336848013551,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 748800, 'default': {'kl': 0.00988049153238535, 'policy_loss': -0.11267595738172531, 'vf_loss': 291.4622802734375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9655329585075378, 'entropy': 9.249786376953125, 'cur_lr': 4.999999873689376e-05, 'total_loss': 291.3646240234375}, 'load_time_ms': 0.631, 'num_steps_sampled': 748800, 'grad_time_ms': 657.508, 'update_time_ms': 2.246, 'sample_time_ms': 29434.148}",2025-08-30_21-27-50,cda-server-4,26.116846323013306,3744,1756582070,10.157.146.4,False,19036.94801425934,1200
+625,-617.9956912444519,625,750000,{},-701.6023017366261,750000,0,19068.194312810898,-495.4336848013551,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 750000, 'default': {'kl': 0.011027377098798752, 'policy_loss': -0.13092248141765594, 'vf_loss': 439.5149230957031, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.944298505783081, 'entropy': 9.294520378112793, 'cur_lr': 4.999999873689376e-05, 'total_loss': 439.4007568359375}, 'load_time_ms': 0.628, 'num_steps_sampled': 750000, 'grad_time_ms': 665.65, 'update_time_ms': 2.253, 'sample_time_ms': 29406.404}",2025-08-30_21-28-22,cda-server-4,31.24629855155945,3750,1756582102,10.157.146.4,False,19068.194312810898,1200
+626,-618.7166373505282,626,751200,{},-701.6023017366261,751200,0,19097.62056493759,-495.4336848013551,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 751200, 'default': {'kl': 0.010206437669694424, 'policy_loss': -0.11820260435342789, 'vf_loss': 123.15281677246094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9800331592559814, 'entropy': 9.448763847351074, 'cur_lr': 4.999999873689376e-05, 'total_loss': 123.05011749267578}, 'load_time_ms': 0.623, 'num_steps_sampled': 751200, 'grad_time_ms': 661.242, 'update_time_ms': 2.187, 'sample_time_ms': 29260.026}",2025-08-30_21-28-51,cda-server-4,29.426252126693726,3756,1756582131,10.157.146.4,False,19097.62056493759,1200
+627,-621.1688124607076,627,752400,{},-701.6023017366261,752400,0,19128.699669122696,-495.4336848013551,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 752400, 'default': {'kl': 0.011984766460955143, 'policy_loss': -0.14559108018875122, 'vf_loss': 612.4314575195312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9226465225219727, 'entropy': 9.575551986694336, 'cur_lr': 4.999999873689376e-05, 'total_loss': 612.3041381835938}, 'load_time_ms': 0.629, 'num_steps_sampled': 752400, 'grad_time_ms': 645.817, 'update_time_ms': 2.139, 'sample_time_ms': 29393.363}",2025-08-30_21-29-22,cda-server-4,31.07910418510437,3762,1756582162,10.157.146.4,False,19128.699669122696,1200
+628,-621.3416895022524,628,753600,{},-701.6023017366261,753600,0,19158.64855670929,-495.4336848013551,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 753600, 'default': {'kl': 0.00957582425326109, 'policy_loss': -0.13089889287948608, 'vf_loss': 511.2555847167969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9236477613449097, 'entropy': 9.548198699951172, 'cur_lr': 4.999999873689376e-05, 'total_loss': 511.1392822265625}, 'load_time_ms': 0.65, 'num_steps_sampled': 753600, 'grad_time_ms': 670.7, 'update_time_ms': 2.186, 'sample_time_ms': 29252.092}",2025-08-30_21-29-52,cda-server-4,29.948887586593628,3768,1756582192,10.157.146.4,False,19158.64855670929,1200
+629,-621.2838322652217,629,754800,{},-701.6023017366261,754800,0,19187.699516296387,-495.4336848013551,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 754800, 'default': {'kl': 0.009523420594632626, 'policy_loss': -0.11414489150047302, 'vf_loss': 633.1608276367188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9293069839477539, 'entropy': 9.776615142822266, 'cur_lr': 4.999999873689376e-05, 'total_loss': 633.0611572265625}, 'load_time_ms': 0.655, 'num_steps_sampled': 754800, 'grad_time_ms': 647.52, 'update_time_ms': 2.252, 'sample_time_ms': 29258.437}",2025-08-30_21-30-21,cda-server-4,29.050959587097168,3774,1756582221,10.157.146.4,False,19187.699516296387,1200
+630,-623.473487769233,630,756000,{},-701.7687175026296,756000,0,19217.388452529907,-495.4336848013551,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 756000, 'default': {'kl': 0.01155577227473259, 'policy_loss': -0.1371551752090454, 'vf_loss': 328.2255554199219, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9490001201629639, 'entropy': 9.635116577148438, 'cur_lr': 4.999999873689376e-05, 'total_loss': 328.1059875488281}, 'load_time_ms': 0.652, 'num_steps_sampled': 756000, 'grad_time_ms': 623.666, 'update_time_ms': 2.255, 'sample_time_ms': 29541.906}",2025-08-30_21-30-51,cda-server-4,29.688936233520508,3780,1756582251,10.157.146.4,False,19217.388452529907,1200
+631,-622.8312858993465,631,757200,{},-701.7687175026296,757200,0,19248.116787672043,-510.4030513979545,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 757200, 'default': {'kl': 0.010659505613148212, 'policy_loss': -0.11441484093666077, 'vf_loss': 631.2178344726562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9531819224357605, 'entropy': 9.312905311584473, 'cur_lr': 4.999999873689376e-05, 'total_loss': 631.1195678710938}, 'load_time_ms': 0.635, 'num_steps_sampled': 757200, 'grad_time_ms': 619.996, 'update_time_ms': 2.267, 'sample_time_ms': 29669.568}",2025-08-30_21-31-22,cda-server-4,30.72833514213562,3786,1756582282,10.157.146.4,False,19248.116787672043,1200
+632,-623.1144559786608,632,758400,{},-701.7687175026296,758400,0,19278.789110660553,-510.4030513979545,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 758400, 'default': {'kl': 0.008512952364981174, 'policy_loss': -0.12089843302965164, 'vf_loss': 892.3563232421875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8673126697540283, 'entropy': 9.413139343261719, 'cur_lr': 4.999999873689376e-05, 'total_loss': 892.2484741210938}, 'load_time_ms': 0.64, 'num_steps_sampled': 758400, 'grad_time_ms': 640.831, 'update_time_ms': 2.26, 'sample_time_ms': 29422.054}",2025-08-30_21-31-52,cda-server-4,30.672322988510132,3792,1756582312,10.157.146.4,False,19278.789110660553,1200
+633,-623.7288054024094,633,759600,{},-701.7687175026296,759600,0,19311.06698012352,-510.4030513979545,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 759600, 'default': {'kl': 0.009456031024456024, 'policy_loss': -0.14098109304904938, 'vf_loss': 748.764404296875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8976601362228394, 'entropy': 9.458982467651367, 'cur_lr': 4.999999873689376e-05, 'total_loss': 748.6378784179688}, 'load_time_ms': 0.645, 'num_steps_sampled': 759600, 'grad_time_ms': 642.559, 'update_time_ms': 2.222, 'sample_time_ms': 29374.05}",2025-08-30_21-32-25,cda-server-4,32.27786946296692,3798,1756582345,10.157.146.4,False,19311.06698012352,1200
+634,-626.0681088165868,634,760800,{},-701.7687175026296,760800,0,19343.525161981583,-537.8677949915786,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 760800, 'default': {'kl': 0.0112698283046484, 'policy_loss': -0.12331615388393402, 'vf_loss': 758.2173461914062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.901846170425415, 'entropy': 9.289639472961426, 'cur_lr': 4.999999873689376e-05, 'total_loss': 758.1111450195312}, 'load_time_ms': 0.637, 'num_steps_sampled': 760800, 'grad_time_ms': 654.963, 'update_time_ms': 2.222, 'sample_time_ms': 29995.848}",2025-08-30_21-32-57,cda-server-4,32.458181858062744,3804,1756582377,10.157.146.4,False,19343.525161981583,1200
+635,-626.537761506158,635,762000,{},-701.7687175026296,762000,0,19376.001874685287,-537.8677949915786,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 762000, 'default': {'kl': 0.008889279328286648, 'policy_loss': -0.11890896409749985, 'vf_loss': 508.8790588378906, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.932499885559082, 'entropy': 9.463111877441406, 'cur_lr': 4.999999873689376e-05, 'total_loss': 508.7736511230469}, 'load_time_ms': 0.637, 'num_steps_sampled': 762000, 'grad_time_ms': 665.553, 'update_time_ms': 2.219, 'sample_time_ms': 30108.319}",2025-08-30_21-33-29,cda-server-4,32.476712703704834,3810,1756582409,10.157.146.4,False,19376.001874685287,1200
+636,-626.134027653873,636,763200,{},-701.7687175026296,763200,0,19404.99565243721,-537.8677949915786,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 763200, 'default': {'kl': 0.010471895337104797, 'policy_loss': -0.11659174412488937, 'vf_loss': 343.8387451171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9505848288536072, 'entropy': 9.28917121887207, 'cur_lr': 4.999999873689376e-05, 'total_loss': 343.7380065917969}, 'load_time_ms': 0.636, 'num_steps_sampled': 763200, 'grad_time_ms': 674.482, 'update_time_ms': 2.197, 'sample_time_ms': 30056.159}",2025-08-30_21-33-58,cda-server-4,28.993777751922607,3816,1756582438,10.157.146.4,False,19404.99565243721,1200
+637,-627.5128889635628,637,764400,{},-701.7687175026296,764400,0,19434.285917282104,-537.8677949915786,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 764400, 'default': {'kl': 0.010508377104997635, 'policy_loss': -0.14059258997440338, 'vf_loss': 294.0735168457031, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9652576446533203, 'entropy': 9.356441497802734, 'cur_lr': 4.999999873689376e-05, 'total_loss': 293.9488525390625}, 'load_time_ms': 0.633, 'num_steps_sampled': 764400, 'grad_time_ms': 687.701, 'update_time_ms': 2.163, 'sample_time_ms': 29864.11}",2025-08-30_21-34-28,cda-server-4,29.29026484489441,3822,1756582468,10.157.146.4,False,19434.285917282104,1200
+638,-628.4749758471554,638,765600,{},-730.5414704151301,765600,0,19463.431182146072,-543.7642923330395,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 765600, 'default': {'kl': 0.010700203478336334, 'policy_loss': -0.12585929036140442, 'vf_loss': 401.59808349609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9547132849693298, 'entropy': 9.238773345947266, 'cur_lr': 4.999999873689376e-05, 'total_loss': 401.48846435546875}, 'load_time_ms': 0.616, 'num_steps_sampled': 765600, 'grad_time_ms': 656.945, 'update_time_ms': 2.141, 'sample_time_ms': 29814.647}",2025-08-30_21-34-57,cda-server-4,29.145264863967896,3828,1756582497,10.157.146.4,False,19463.431182146072,1200
+639,-629.0176186212817,639,766800,{},-730.5414704151301,766800,0,19494.82442355156,-543.7642923330395,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 766800, 'default': {'kl': 0.009214870631694794, 'policy_loss': -0.1141245886683464, 'vf_loss': 385.7215576171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9652910232543945, 'entropy': 9.447142601013184, 'cur_lr': 4.999999873689376e-05, 'total_loss': 385.6214294433594}, 'load_time_ms': 0.599, 'num_steps_sampled': 766800, 'grad_time_ms': 670.594, 'update_time_ms': 2.117, 'sample_time_ms': 30035.224}",2025-08-30_21-35-28,cda-server-4,31.39324140548706,3834,1756582528,10.157.146.4,False,19494.82442355156,1200
+640,-629.8851833117585,640,768000,{},-730.5414704151301,768000,0,19524.239834547043,-543.7642923330395,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 768000, 'default': {'kl': 0.010053502395749092, 'policy_loss': -0.11483412235975266, 'vf_loss': 389.45037841796875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9570225477218628, 'entropy': 9.432698249816895, 'cur_lr': 4.999999873689376e-05, 'total_loss': 389.3507995605469}, 'load_time_ms': 0.601, 'num_steps_sampled': 768000, 'grad_time_ms': 689.698, 'update_time_ms': 2.182, 'sample_time_ms': 29988.71}",2025-08-30_21-35-58,cda-server-4,29.4154109954834,3840,1756582558,10.157.146.4,False,19524.239834547043,1200
+641,-630.432019180204,641,769200,{},-730.5414704151301,769200,0,19554.741577625275,-543.7642923330395,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 769200, 'default': {'kl': 0.010929673910140991, 'policy_loss': -0.13999952375888824, 'vf_loss': 769.6151123046875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.924895167350769, 'entropy': 9.135265350341797, 'cur_lr': 4.999999873689376e-05, 'total_loss': 769.49169921875}, 'load_time_ms': 0.59, 'num_steps_sampled': 769200, 'grad_time_ms': 696.815, 'update_time_ms': 2.171, 'sample_time_ms': 29959.017}",2025-08-30_21-36-28,cda-server-4,30.50174307823181,3846,1756582588,10.157.146.4,False,19554.741577625275,1200
+642,-630.7651847690726,642,770400,{},-730.5414704151301,770400,0,19587.61361026764,-543.7642923330395,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 770400, 'default': {'kl': 0.008461951278150082, 'policy_loss': -0.13542361557483673, 'vf_loss': 684.341796875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.908035159111023, 'entropy': 9.16572093963623, 'cur_lr': 4.999999873689376e-05, 'total_loss': 684.2192993164062}, 'load_time_ms': 0.591, 'num_steps_sampled': 770400, 'grad_time_ms': 698.631, 'update_time_ms': 2.15, 'sample_time_ms': 30177.271}",2025-08-30_21-37-01,cda-server-4,32.8720326423645,3852,1756582621,10.157.146.4,False,19587.61361026764,1200
+643,-630.5706039696703,643,771600,{},-730.5414704151301,771600,0,19618.329939603806,-543.7642923330395,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 771600, 'default': {'kl': 0.008823237381875515, 'policy_loss': -0.11282186955213547, 'vf_loss': 415.3757019042969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9297314882278442, 'entropy': 9.191634178161621, 'cur_lr': 4.999999873689376e-05, 'total_loss': 415.2762756347656}, 'load_time_ms': 0.593, 'num_steps_sampled': 771600, 'grad_time_ms': 694.216, 'update_time_ms': 2.095, 'sample_time_ms': 30025.629}",2025-08-30_21-37-32,cda-server-4,30.716329336166382,3858,1756582652,10.157.146.4,False,19618.329939603806,1200
+644,-630.0740425534859,644,772800,{},-730.5414704151301,772800,0,19651.215894460678,-543.7642923330395,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 772800, 'default': {'kl': 0.009444128721952438, 'policy_loss': -0.1301242560148239, 'vf_loss': 383.3898010253906, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9476457238197327, 'entropy': 9.3377046585083, 'cur_lr': 4.999999873689376e-05, 'total_loss': 383.2740173339844}, 'load_time_ms': 0.602, 'num_steps_sampled': 772800, 'grad_time_ms': 684.113, 'update_time_ms': 2.158, 'sample_time_ms': 30078.4}",2025-08-30_21-38-05,cda-server-4,32.88595485687256,3864,1756582685,10.157.146.4,False,19651.215894460678,1200
+645,-629.6934107379259,645,774000,{},-730.5414704151301,774000,0,19680.14657020569,-543.7642923330395,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 774000, 'default': {'kl': 0.00993307400494814, 'policy_loss': -0.13561779260635376, 'vf_loss': 121.97345733642578, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9843521118164062, 'entropy': 9.43754768371582, 'cur_lr': 4.999999873689376e-05, 'total_loss': 121.85293579101562}, 'load_time_ms': 0.601, 'num_steps_sampled': 774000, 'grad_time_ms': 667.958, 'update_time_ms': 2.19, 'sample_time_ms': 29739.909}",2025-08-30_21-38-34,cda-server-4,28.930675745010376,3870,1756582714,10.157.146.4,False,19680.14657020569,1200
+646,-629.8969289819534,646,775200,{},-730.5414704151301,775200,0,19711.104014635086,-543.7642923330395,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 775200, 'default': {'kl': 0.008779722265899181, 'policy_loss': -0.11436311155557632, 'vf_loss': 498.7356872558594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.929070234298706, 'entropy': 9.491064071655273, 'cur_lr': 4.999999873689376e-05, 'total_loss': 498.6346435546875}, 'load_time_ms': 0.618, 'num_steps_sampled': 775200, 'grad_time_ms': 656.35, 'update_time_ms': 2.23, 'sample_time_ms': 29947.794}",2025-08-30_21-39-05,cda-server-4,30.957444429397583,3876,1756582745,10.157.146.4,False,19711.104014635086,1200
+647,-628.927312885911,647,776400,{},-730.5414704151301,776400,0,19742.86066842079,-543.7642923330395,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 776400, 'default': {'kl': 0.0092327781021595, 'policy_loss': -0.10969232022762299, 'vf_loss': 200.74790954589844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9716238379478455, 'entropy': 9.375930786132812, 'cur_lr': 4.999999873689376e-05, 'total_loss': 200.65223693847656}, 'load_time_ms': 0.612, 'num_steps_sampled': 776400, 'grad_time_ms': 655.521, 'update_time_ms': 2.303, 'sample_time_ms': 30195.204}",2025-08-30_21-39-37,cda-server-4,31.756653785705566,3882,1756582777,10.157.146.4,False,19742.86066842079,1200
+648,-630.211593794062,648,777600,{},-730.5414704151301,777600,0,19772.60214161873,-585.8250750944952,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 777600, 'default': {'kl': 0.009002704173326492, 'policy_loss': -0.13822495937347412, 'vf_loss': 407.7834777832031, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9522687196731567, 'entropy': 9.139220237731934, 'cur_lr': 4.999999873689376e-05, 'total_loss': 407.658935546875}, 'load_time_ms': 0.611, 'num_steps_sampled': 777600, 'grad_time_ms': 662.941, 'update_time_ms': 2.258, 'sample_time_ms': 30247.446}",2025-08-30_21-40-06,cda-server-4,29.74147319793701,3888,1756582806,10.157.146.4,False,19772.60214161873,1200
+649,-630.7215716217798,649,778800,{},-730.5414704151301,778800,0,19803.272684574127,-585.8250750944952,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 778800, 'default': {'kl': 0.010744157247245312, 'policy_loss': -0.1387900710105896, 'vf_loss': 1254.4879150390625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8803377151489258, 'entropy': 9.260064125061035, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1254.3656005859375}, 'load_time_ms': 0.614, 'num_steps_sampled': 778800, 'grad_time_ms': 675.171, 'update_time_ms': 2.259, 'sample_time_ms': 30162.928}",2025-08-30_21-40-37,cda-server-4,30.67054295539856,3894,1756582837,10.157.146.4,False,19803.272684574127,1200
+650,-627.6459201271675,650,780000,{},-730.5414704151301,780000,0,19831.95257282257,-529.8269884376676,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 780000, 'default': {'kl': 0.01006387546658516, 'policy_loss': -0.11508938670158386, 'vf_loss': 470.9490051269531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9590473175048828, 'entropy': 9.024280548095703, 'cur_lr': 4.999999873689376e-05, 'total_loss': 470.84918212890625}, 'load_time_ms': 0.619, 'num_steps_sampled': 780000, 'grad_time_ms': 670.088, 'update_time_ms': 2.259, 'sample_time_ms': 30094.452}",2025-08-30_21-41-06,cda-server-4,28.679888248443604,3900,1756582866,10.157.146.4,False,19831.95257282257,1200
+651,-628.1555473195762,651,781200,{},-730.5414704151301,781200,0,19862.437352657318,-529.8269884376676,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 781200, 'default': {'kl': 0.01013248972594738, 'policy_loss': -0.14247995615005493, 'vf_loss': 193.1735076904297, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9738792777061462, 'entropy': 9.6670503616333, 'cur_lr': 4.999999873689376e-05, 'total_loss': 193.04641723632812}, 'load_time_ms': 0.626, 'num_steps_sampled': 781200, 'grad_time_ms': 704.546, 'update_time_ms': 2.275, 'sample_time_ms': 30057.929}",2025-08-30_21-41-36,cda-server-4,30.484779834747314,3906,1756582896,10.157.146.4,False,19862.437352657318,1200
+652,-627.0017935249438,652,782400,{},-730.5414704151301,782400,0,19892.377199411392,-529.8269884376676,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 782400, 'default': {'kl': 0.008183577097952366, 'policy_loss': -0.12086469680070877, 'vf_loss': 303.995361328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9599543809890747, 'entropy': 9.385013580322266, 'cur_lr': 4.999999873689376e-05, 'total_loss': 303.88690185546875}, 'load_time_ms': 0.653, 'num_steps_sampled': 782400, 'grad_time_ms': 679.768, 'update_time_ms': 2.557, 'sample_time_ms': 29789.076}",2025-08-30_21-42-06,cda-server-4,29.939846754074097,3912,1756582926,10.157.146.4,False,19892.377199411392,1200
+653,-626.3486035263765,653,783600,{},-730.5414704151301,783600,0,19923.87049293518,-529.8269884376676,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 783600, 'default': {'kl': 0.010183528997004032, 'policy_loss': -0.13554465770721436, 'vf_loss': 543.9617919921875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9262131452560425, 'entropy': 8.90755844116211, 'cur_lr': 4.999999873689376e-05, 'total_loss': 543.8417358398438}, 'load_time_ms': 0.648, 'num_steps_sampled': 783600, 'grad_time_ms': 667.348, 'update_time_ms': 2.578, 'sample_time_ms': 29879.212}",2025-08-30_21-42-38,cda-server-4,31.493293523788452,3918,1756582958,10.157.146.4,False,19923.87049293518,1200
+654,-625.0362120497987,654,784800,{},-730.5414704151301,784800,0,19952.87361884117,-529.8269884376676,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 784800, 'default': {'kl': 0.009900444187223911, 'policy_loss': -0.11134278774261475, 'vf_loss': 413.0296630859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9674714207649231, 'entropy': 9.130203247070312, 'cur_lr': 4.999999873689376e-05, 'total_loss': 412.9333801269531}, 'load_time_ms': 0.673, 'num_steps_sampled': 784800, 'grad_time_ms': 664.826, 'update_time_ms': 2.511, 'sample_time_ms': 29493.52}",2025-08-30_21-43-07,cda-server-4,29.0031259059906,3924,1756582987,10.157.146.4,False,19952.87361884117,1200
+655,-624.0038151530008,655,786000,{},-695.9800573593499,786000,0,19983.8523645401,-529.8269884376676,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 786000, 'default': {'kl': 0.00964579451829195, 'policy_loss': -0.12494965642690659, 'vf_loss': 244.84378051757812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9671246409416199, 'entropy': 9.127899169921875, 'cur_lr': 4.999999873689376e-05, 'total_loss': 244.73345947265625}, 'load_time_ms': 0.673, 'num_steps_sampled': 786000, 'grad_time_ms': 665.123, 'update_time_ms': 2.515, 'sample_time_ms': 29698.064}",2025-08-30_21-43-38,cda-server-4,30.978745698928833,3930,1756583018,10.157.146.4,False,19983.8523645401,1200
+656,-622.7111707237682,656,787200,{},-695.9800573593499,787200,0,20013.685215950012,-529.8269884376676,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 787200, 'default': {'kl': 0.010333629325032234, 'policy_loss': -0.09923332184553146, 'vf_loss': 222.67469787597656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.966754674911499, 'entropy': 9.051114082336426, 'cur_lr': 4.999999873689376e-05, 'total_loss': 222.5911407470703}, 'load_time_ms': 0.653, 'num_steps_sampled': 787200, 'grad_time_ms': 659.777, 'update_time_ms': 2.501, 'sample_time_ms': 29591.09}",2025-08-30_21-44-08,cda-server-4,29.83285140991211,3936,1756583048,10.157.146.4,False,20013.685215950012,1200
+657,-623.0420979397937,657,788400,{},-695.9800573593499,788400,0,20040.963624954224,-529.8269884376676,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 788400, 'default': {'kl': 0.011091751046478748, 'policy_loss': -0.1198822557926178, 'vf_loss': 740.9144287109375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8861200213432312, 'entropy': 9.328290939331055, 'cur_lr': 4.999999873689376e-05, 'total_loss': 740.8114624023438}, 'load_time_ms': 0.658, 'num_steps_sampled': 788400, 'grad_time_ms': 659.341, 'update_time_ms': 2.458, 'sample_time_ms': 29143.771}",2025-08-30_21-44-35,cda-server-4,27.278409004211426,3942,1756583075,10.157.146.4,False,20040.963624954224,1200
+658,-623.3847608389843,658,789600,{},-695.9800573593499,789600,0,20071.173629283905,-529.8269884376676,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 789600, 'default': {'kl': 0.007892456836998463, 'policy_loss': -0.10590209811925888, 'vf_loss': 131.07655334472656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.981842577457428, 'entropy': 9.046199798583984, 'cur_lr': 4.999999873689376e-05, 'total_loss': 130.98263549804688}, 'load_time_ms': 0.689, 'num_steps_sampled': 789600, 'grad_time_ms': 638.924, 'update_time_ms': 2.45, 'sample_time_ms': 29211.065}",2025-08-30_21-45-05,cda-server-4,30.210004329681396,3948,1756583105,10.157.146.4,False,20071.173629283905,1200
+659,-622.5712200872698,659,790800,{},-695.9800573593499,790800,0,20099.08093237877,-529.8269884376676,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 790800, 'default': {'kl': 0.009941209107637405, 'policy_loss': -0.10828462988138199, 'vf_loss': 436.15472412109375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9560770392417908, 'entropy': 8.641597747802734, 'cur_lr': 4.999999873689376e-05, 'total_loss': 436.0615539550781}, 'load_time_ms': 0.685, 'num_steps_sampled': 790800, 'grad_time_ms': 614.069, 'update_time_ms': 2.384, 'sample_time_ms': 28959.691}",2025-08-30_21-45-33,cda-server-4,27.90730309486389,3954,1756583133,10.157.146.4,False,20099.08093237877,1200
+660,-620.7924880756165,660,792000,{},-695.9800573593499,792000,0,20128.490295648575,-525.4448601176575,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 792000, 'default': {'kl': 0.011579538695514202, 'policy_loss': -0.13881045579910278, 'vf_loss': 300.5319519042969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9537074565887451, 'entropy': 9.087750434875488, 'cur_lr': 4.999999873689376e-05, 'total_loss': 300.4107666015625}, 'load_time_ms': 0.694, 'num_steps_sampled': 792000, 'grad_time_ms': 624.398, 'update_time_ms': 2.341, 'sample_time_ms': 29022.3}",2025-08-30_21-46-02,cda-server-4,29.409363269805908,3960,1756583162,10.157.146.4,False,20128.490295648575,1200
+661,-620.8567973540951,661,793200,{},-695.9800573593499,793200,0,20158.84287238121,-525.4448601176575,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 793200, 'default': {'kl': 0.010300697758793831, 'policy_loss': -0.12428838759660721, 'vf_loss': 507.30755615234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9338486790657043, 'entropy': 9.067548751831055, 'cur_lr': 4.999999873689376e-05, 'total_loss': 507.1988830566406}, 'load_time_ms': 0.705, 'num_steps_sampled': 793200, 'grad_time_ms': 588.091, 'update_time_ms': 2.293, 'sample_time_ms': 29045.594}",2025-08-30_21-46-33,cda-server-4,30.352576732635498,3966,1756583193,10.157.146.4,False,20158.84287238121,1200
+662,-619.7369372268699,662,794400,{},-695.9800573593499,794400,0,20188.947716474533,-525.4448601176575,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 794400, 'default': {'kl': 0.01178425271064043, 'policy_loss': -0.15766803920269012, 'vf_loss': 213.47149658203125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.974339485168457, 'entropy': 9.14973258972168, 'cur_lr': 4.999999873689376e-05, 'total_loss': 213.33172607421875}, 'load_time_ms': 0.673, 'num_steps_sampled': 794400, 'grad_time_ms': 587.81, 'update_time_ms': 2.047, 'sample_time_ms': 29062.731}",2025-08-30_21-47-03,cda-server-4,30.104844093322754,3972,1756583223,10.157.146.4,False,20188.947716474533,1200
+663,-618.4289734719227,663,795600,{},-695.9800573593499,795600,0,20218.727644205093,-525.4448601176575,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 795600, 'default': {'kl': 0.009552767500281334, 'policy_loss': -0.11988639831542969, 'vf_loss': 116.01737213134766, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9839890003204346, 'entropy': 9.180355072021484, 'cur_lr': 4.999999873689376e-05, 'total_loss': 115.91200256347656}, 'load_time_ms': 0.669, 'num_steps_sampled': 795600, 'grad_time_ms': 605.523, 'update_time_ms': 2.118, 'sample_time_ms': 28873.609}",2025-08-30_21-47-33,cda-server-4,29.779927730560303,3978,1756583253,10.157.146.4,False,20218.727644205093,1200
+664,-618.5586335579301,664,796800,{},-695.9800573593499,796800,0,20248.517738103867,-525.4448601176575,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 796800, 'default': {'kl': 0.008367154747247696, 'policy_loss': -0.12130796909332275, 'vf_loss': 524.7991333007812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.917710542678833, 'entropy': 8.983460426330566, 'cur_lr': 4.999999873689376e-05, 'total_loss': 524.6905517578125}, 'load_time_ms': 0.635, 'num_steps_sampled': 796800, 'grad_time_ms': 616.552, 'update_time_ms': 2.109, 'sample_time_ms': 28941.379}",2025-08-30_21-48-03,cda-server-4,29.790093898773193,3984,1756583283,10.157.146.4,False,20248.517738103867,1200
+665,-618.9730726336835,665,798000,{},-695.9800573593499,798000,0,20281.857147216797,-525.4448601176575,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 798000, 'default': {'kl': 0.01028737798333168, 'policy_loss': -0.12596718966960907, 'vf_loss': 397.4225769042969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9550575613975525, 'entropy': 9.051732063293457, 'cur_lr': 4.999999873689376e-05, 'total_loss': 397.3122253417969}, 'load_time_ms': 0.637, 'num_steps_sampled': 798000, 'grad_time_ms': 622.439, 'update_time_ms': 2.049, 'sample_time_ms': 29171.595}",2025-08-30_21-48-36,cda-server-4,33.3394091129303,3990,1756583316,10.157.146.4,False,20281.857147216797,1200
+666,-619.6162854757738,666,799200,{},-698.8402387337401,799200,0,20314.514560222626,-525.4448601176575,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 799200, 'default': {'kl': 0.011279137805104256, 'policy_loss': -0.14799970388412476, 'vf_loss': 233.6588592529297, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9661172032356262, 'entropy': 9.248638153076172, 'cur_lr': 4.999999873689376e-05, 'total_loss': 233.5279998779297}, 'load_time_ms': 0.641, 'num_steps_sampled': 799200, 'grad_time_ms': 628.573, 'update_time_ms': 2.077, 'sample_time_ms': 29447.883}",2025-08-30_21-49-09,cda-server-4,32.65741300582886,3996,1756583349,10.157.146.4,False,20314.514560222626,1200
+667,-620.0869638057709,667,800400,{},-698.8402387337401,800400,0,20344.76334142685,-525.4448601176575,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 800400, 'default': {'kl': 0.011649947613477707, 'policy_loss': -0.11505797505378723, 'vf_loss': 259.71875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9681445360183716, 'entropy': 8.743193626403809, 'cur_lr': 4.999999873689376e-05, 'total_loss': 259.62139892578125}, 'load_time_ms': 0.637, 'num_steps_sampled': 800400, 'grad_time_ms': 624.909, 'update_time_ms': 2.057, 'sample_time_ms': 29748.582}",2025-08-30_21-49-39,cda-server-4,30.248781204223633,4002,1756583379,10.157.146.4,False,20344.76334142685,1200
+668,-621.6092943992494,668,801600,{},-795.8528690712707,801600,0,20376.93799853325,-525.4448601176575,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 801600, 'default': {'kl': 0.009878003038465977, 'policy_loss': -0.13192641735076904, 'vf_loss': 391.51446533203125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.975692868232727, 'entropy': 9.088465690612793, 'cur_lr': 4.999999873689376e-05, 'total_loss': 391.3975830078125}, 'load_time_ms': 0.603, 'num_steps_sampled': 801600, 'grad_time_ms': 635.852, 'update_time_ms': 2.13, 'sample_time_ms': 29934.067}",2025-08-30_21-50-11,cda-server-4,32.174657106399536,4008,1756583411,10.157.146.4,False,20376.93799853325,1200
+669,-622.1910524629385,669,802800,{},-795.8528690712707,802800,0,20404.424060821533,-525.4448601176575,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 802800, 'default': {'kl': 0.009893441572785378, 'policy_loss': -0.1349462866783142, 'vf_loss': 121.94852447509766, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9842232465744019, 'entropy': 8.936972618103027, 'cur_lr': 4.999999873689376e-05, 'total_loss': 121.82861328125}, 'load_time_ms': 0.608, 'num_steps_sampled': 802800, 'grad_time_ms': 651.296, 'update_time_ms': 2.341, 'sample_time_ms': 29876.283}",2025-08-30_21-50-38,cda-server-4,27.4860622882843,4014,1756583438,10.157.146.4,False,20404.424060821533,1200
+670,-622.0648471981624,670,804000,{},-795.8528690712707,804000,0,20436.488041639328,-525.4448601176575,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 804000, 'default': {'kl': 0.010088611394166946, 'policy_loss': -0.13691972196102142, 'vf_loss': 146.36155700683594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9872950315475464, 'entropy': 8.879951477050781, 'cur_lr': 4.999999873689376e-05, 'total_loss': 146.23995971679688}, 'load_time_ms': 0.607, 'num_steps_sampled': 804000, 'grad_time_ms': 648.14, 'update_time_ms': 2.364, 'sample_time_ms': 30144.863}",2025-08-30_21-51-11,cda-server-4,32.0639808177948,4020,1756583471,10.157.146.4,False,20436.488041639328,1200
+671,-620.6538773822239,671,805200,{},-795.8528690712707,805200,0,20467.14849114418,-525.4448601176575,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 805200, 'default': {'kl': 0.010247645899653435, 'policy_loss': -0.10818649083375931, 'vf_loss': 532.2247314453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9492474794387817, 'entropy': 8.482383728027344, 'cur_lr': 4.999999873689376e-05, 'total_loss': 532.132080078125}, 'load_time_ms': 0.604, 'num_steps_sampled': 805200, 'grad_time_ms': 648.872, 'update_time_ms': 2.482, 'sample_time_ms': 30174.893}",2025-08-30_21-51-41,cda-server-4,30.660449504852295,4026,1756583501,10.157.146.4,False,20467.14849114418,1200
+672,-620.5305215148967,672,806400,{},-795.8528690712707,806400,0,20499.600203037262,-525.4448601176575,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 806400, 'default': {'kl': 0.009597735479474068, 'policy_loss': -0.12254519015550613, 'vf_loss': 357.53106689453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.962457001209259, 'entropy': 9.061080932617188, 'cur_lr': 4.999999873689376e-05, 'total_loss': 357.423095703125}, 'load_time_ms': 0.601, 'num_steps_sampled': 806400, 'grad_time_ms': 664.268, 'update_time_ms': 2.518, 'sample_time_ms': 30394.108}",2025-08-30_21-52-14,cda-server-4,32.451711893081665,4032,1756583534,10.157.146.4,False,20499.600203037262,1200
+673,-621.1033676759552,673,807600,{},-795.8528690712707,807600,0,20531.782811641693,-525.4448601176575,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 807600, 'default': {'kl': 0.008457977324724197, 'policy_loss': -0.12717211246490479, 'vf_loss': 775.839111328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8773778080940247, 'entropy': 9.144731521606445, 'cur_lr': 4.999999873689376e-05, 'total_loss': 775.724853515625}, 'load_time_ms': 0.605, 'num_steps_sampled': 807600, 'grad_time_ms': 649.998, 'update_time_ms': 2.44, 'sample_time_ms': 30648.706}",2025-08-30_21-52-46,cda-server-4,32.18260860443115,4038,1756583566,10.157.146.4,False,20531.782811641693,1200
+674,-620.7200507632833,674,808800,{},-795.8528690712707,808800,0,20561.03491282463,-525.4448601176575,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 808800, 'default': {'kl': 0.008376671001315117, 'policy_loss': -0.12020647525787354, 'vf_loss': 399.7463684082031, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9493488669395447, 'entropy': 8.708276748657227, 'cur_lr': 4.999999873689376e-05, 'total_loss': 399.63885498046875}, 'load_time_ms': 0.603, 'num_steps_sampled': 808800, 'grad_time_ms': 639.31, 'update_time_ms': 2.48, 'sample_time_ms': 30605.457}",2025-08-30_21-53-15,cda-server-4,29.252101182937622,4044,1756583595,10.157.146.4,False,20561.03491282463,1200
+675,-619.8662531234106,675,810000,{},-795.8528690712707,810000,0,20591.83783698082,-525.4448601176575,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 810000, 'default': {'kl': 0.010130786336958408, 'policy_loss': -0.11541905999183655, 'vf_loss': 968.8946533203125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8991954326629639, 'entropy': 8.915398597717285, 'cur_lr': 4.999999873689376e-05, 'total_loss': 968.7944946289062}, 'load_time_ms': 0.622, 'num_steps_sampled': 810000, 'grad_time_ms': 627.66, 'update_time_ms': 2.566, 'sample_time_ms': 30363.299}",2025-08-30_21-53-46,cda-server-4,30.802924156188965,4050,1756583626,10.157.146.4,False,20591.83783698082,1200
+676,-620.0436732878578,676,811200,{},-795.8528690712707,811200,0,20624.736075401306,-525.4448601176575,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 811200, 'default': {'kl': 0.008544307202100754, 'policy_loss': -0.10943691432476044, 'vf_loss': 360.53057861328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.948266863822937, 'entropy': 9.194361686706543, 'cur_lr': 4.999999873689376e-05, 'total_loss': 360.43414306640625}, 'load_time_ms': 0.619, 'num_steps_sampled': 811200, 'grad_time_ms': 618.338, 'update_time_ms': 2.57, 'sample_time_ms': 30396.686}",2025-08-30_21-54-19,cda-server-4,32.89823842048645,4056,1756583659,10.157.146.4,False,20624.736075401306,1200
+677,-619.0629261286127,677,812400,{},-795.8528690712707,812400,0,20655.0270884037,-491.91508624837354,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 812400, 'default': {'kl': 0.010505616664886475, 'policy_loss': -0.12356866896152496, 'vf_loss': 438.2318420410156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9407170414924622, 'entropy': 8.728374481201172, 'cur_lr': 4.999999873689376e-05, 'total_loss': 438.1242370605469}, 'load_time_ms': 0.617, 'num_steps_sampled': 812400, 'grad_time_ms': 610.908, 'update_time_ms': 2.649, 'sample_time_ms': 30408.251}",2025-08-30_21-54-49,cda-server-4,30.29101300239563,4062,1756583689,10.157.146.4,False,20655.0270884037,1200
+678,-620.1776092076675,678,813600,{},-795.8528690712707,813600,0,20688.59840464592,-491.91508624837354,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 813600, 'default': {'kl': 0.010337785817682743, 'policy_loss': -0.13763538002967834, 'vf_loss': 344.86566162109375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9464187622070312, 'entropy': 9.031017303466797, 'cur_lr': 4.999999873689376e-05, 'total_loss': 344.7437438964844}, 'load_time_ms': 0.622, 'num_steps_sampled': 813600, 'grad_time_ms': 596.315, 'update_time_ms': 2.565, 'sample_time_ms': 30562.6}",2025-08-30_21-55-23,cda-server-4,33.57131624221802,4068,1756583723,10.157.146.4,False,20688.59840464592,1200
+679,-619.7057348347321,679,814800,{},-795.8528690712707,814800,0,20719.36078596115,-491.91508624837354,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 814800, 'default': {'kl': 0.009298601187765598, 'policy_loss': -0.11286091804504395, 'vf_loss': 398.63134765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9560714364051819, 'entropy': 8.698049545288086, 'cur_lr': 4.999999873689376e-05, 'total_loss': 398.5326232910156}, 'load_time_ms': 0.648, 'num_steps_sampled': 814800, 'grad_time_ms': 588.791, 'update_time_ms': 2.422, 'sample_time_ms': 30897.817}",2025-08-30_21-55-54,cda-server-4,30.762381315231323,4074,1756583754,10.157.146.4,False,20719.36078596115,1200
+680,-620.1007759636412,680,816000,{},-795.8528690712707,816000,0,20750.85488128662,-491.91508624837354,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 816000, 'default': {'kl': 0.00841771811246872, 'policy_loss': -0.12680146098136902, 'vf_loss': 418.6529541015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9505434036254883, 'entropy': 8.992923736572266, 'cur_lr': 4.999999873689376e-05, 'total_loss': 418.5389404296875}, 'load_time_ms': 0.636, 'num_steps_sampled': 816000, 'grad_time_ms': 579.136, 'update_time_ms': 2.464, 'sample_time_ms': 30850.439}",2025-08-30_21-56-25,cda-server-4,31.49409532546997,4080,1756583785,10.157.146.4,False,20750.85488128662,1200
+681,-619.3682725815344,681,817200,{},-795.8528690712707,817200,0,20782.339609622955,-491.91508624837354,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 817200, 'default': {'kl': 0.00944704469293356, 'policy_loss': -0.1178554818034172, 'vf_loss': 548.3931884765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.938643217086792, 'entropy': 8.967686653137207, 'cur_lr': 4.999999873689376e-05, 'total_loss': 548.2896728515625}, 'load_time_ms': 0.626, 'num_steps_sampled': 817200, 'grad_time_ms': 585.9, 'update_time_ms': 2.365, 'sample_time_ms': 30926.19}",2025-08-30_21-56-57,cda-server-4,31.48472833633423,4086,1756583817,10.157.146.4,False,20782.339609622955,1200
+682,-618.9073696356932,682,818400,{},-795.8528690712707,818400,0,20812.637644529343,-491.91508624837354,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 818400, 'default': {'kl': 0.011582456529140472, 'policy_loss': -0.1398562639951706, 'vf_loss': 554.7230834960938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9384095072746277, 'entropy': 9.028730392456055, 'cur_lr': 4.999999873689376e-05, 'total_loss': 554.600830078125}, 'load_time_ms': 0.631, 'num_steps_sampled': 818400, 'grad_time_ms': 596.766, 'update_time_ms': 2.275, 'sample_time_ms': 30700.087}",2025-08-30_21-57-27,cda-server-4,30.29803490638733,4092,1756583847,10.157.146.4,False,20812.637644529343,1200
+683,-616.586110929374,683,819600,{},-795.8528690712707,819600,0,20844.021187067032,-472.861862858257,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 819600, 'default': {'kl': 0.012981478124856949, 'policy_loss': -0.13526786863803864, 'vf_loss': 330.9864807128906, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9588037133216858, 'entropy': 8.746779441833496, 'cur_lr': 4.999999873689376e-05, 'total_loss': 330.8709411621094}, 'load_time_ms': 0.63, 'num_steps_sampled': 819600, 'grad_time_ms': 615.406, 'update_time_ms': 2.319, 'sample_time_ms': 30601.443}",2025-08-30_21-57-58,cda-server-4,31.38354253768921,4098,1756583878,10.157.146.4,False,20844.021187067032,1200
+684,-614.1918884096806,684,820800,{},-693.5595119832211,820800,0,20877.914070129395,-472.861862858257,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 820800, 'default': {'kl': 0.007397504523396492, 'policy_loss': -0.09031633287668228, 'vf_loss': 624.8235473632812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9212128520011902, 'entropy': 8.795719146728516, 'cur_lr': 4.999999873689376e-05, 'total_loss': 624.7445068359375}, 'load_time_ms': 0.65, 'num_steps_sampled': 820800, 'grad_time_ms': 629.341, 'update_time_ms': 2.333, 'sample_time_ms': 31051.47}",2025-08-30_21-58-32,cda-server-4,33.89288306236267,4104,1756583912,10.157.146.4,False,20877.914070129395,1200
+685,-613.091960465938,685,822000,{},-693.5595119832211,822000,0,20905.599224328995,-472.861862858257,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 822000, 'default': {'kl': 0.01135211531072855, 'policy_loss': -0.12223431468009949, 'vf_loss': 514.4599609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9632638096809387, 'entropy': 8.404228210449219, 'cur_lr': 4.999999873689376e-05, 'total_loss': 514.35498046875}, 'load_time_ms': 0.658, 'num_steps_sampled': 822000, 'grad_time_ms': 625.491, 'update_time_ms': 2.5, 'sample_time_ms': 30743.367}",2025-08-30_21-59-00,cda-server-4,27.68515419960022,4110,1756583940,10.157.146.4,False,20905.599224328995,1200
+686,-611.1692351779805,686,823200,{},-693.5595119832211,823200,0,20936.060836076736,-472.861862858257,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 823200, 'default': {'kl': 0.010300226509571075, 'policy_loss': -0.13420134782791138, 'vf_loss': 1183.4637451171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.817608118057251, 'entropy': 8.74007511138916, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1183.34521484375}, 'load_time_ms': 0.657, 'num_steps_sampled': 823200, 'grad_time_ms': 614.412, 'update_time_ms': 2.439, 'sample_time_ms': 30510.831}",2025-08-30_21-59-30,cda-server-4,30.4616117477417,4116,1756583970,10.157.146.4,False,20936.060836076736,1200
+687,-612.7754381269377,687,824400,{},-693.5595119832211,824400,0,20969.57229089737,-472.861862858257,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 824400, 'default': {'kl': 0.009441599249839783, 'policy_loss': -0.12143415957689285, 'vf_loss': 196.2190704345703, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9751456379890442, 'entropy': 8.761014938354492, 'cur_lr': 4.999999873689376e-05, 'total_loss': 196.1119842529297}, 'load_time_ms': 0.668, 'num_steps_sampled': 824400, 'grad_time_ms': 600.624, 'update_time_ms': 2.364, 'sample_time_ms': 30846.758}",2025-08-30_22-00-04,cda-server-4,33.511454820632935,4122,1756584004,10.157.146.4,False,20969.57229089737,1200
+688,-613.2142284529111,688,825600,{},-693.5595119832211,825600,0,21001.213457345963,-472.861862858257,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 825600, 'default': {'kl': 0.008925989270210266, 'policy_loss': -0.10885078459978104, 'vf_loss': 366.7447509765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.955371618270874, 'entropy': 8.784989356994629, 'cur_lr': 4.999999873689376e-05, 'total_loss': 366.6494445800781}, 'load_time_ms': 0.704, 'num_steps_sampled': 825600, 'grad_time_ms': 619.035, 'update_time_ms': 2.398, 'sample_time_ms': 30635.157}",2025-08-30_22-00-36,cda-server-4,31.64116644859314,4128,1756584036,10.157.146.4,False,21001.213457345963,1200
+689,-612.0546529833089,689,826800,{},-693.5595119832211,826800,0,21029.53671693802,-472.861862858257,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 826800, 'default': {'kl': 0.011650647968053818, 'policy_loss': -0.14089608192443848, 'vf_loss': 383.1009826660156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9687783718109131, 'entropy': 9.112659454345703, 'cur_lr': 4.999999873689376e-05, 'total_loss': 382.9778137207031}, 'load_time_ms': 0.673, 'num_steps_sampled': 826800, 'grad_time_ms': 630.225, 'update_time_ms': 2.418, 'sample_time_ms': 30380.061}",2025-08-30_22-01-04,cda-server-4,28.323259592056274,4134,1756584064,10.157.146.4,False,21029.53671693802,1200
+690,-611.3313900732096,690,828000,{},-693.5595119832211,828000,0,21059.193363428116,-472.861862858257,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 828000, 'default': {'kl': 0.008160451427102089, 'policy_loss': -0.11607760936021805, 'vf_loss': 136.63592529296875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9788201451301575, 'entropy': 8.821623802185059, 'cur_lr': 4.999999873689376e-05, 'total_loss': 136.53224182128906}, 'load_time_ms': 0.707, 'num_steps_sampled': 828000, 'grad_time_ms': 636.702, 'update_time_ms': 2.387, 'sample_time_ms': 30189.776}",2025-08-30_22-01-34,cda-server-4,29.656646490097046,4140,1756584094,10.157.146.4,False,21059.193363428116,1200
+691,-611.2193000029876,691,829200,{},-693.5595119832211,829200,0,21093.08497595787,-472.861862858257,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 829200, 'default': {'kl': 0.008388040587306023, 'policy_loss': -0.11234702169895172, 'vf_loss': 491.7650146484375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.94729083776474, 'entropy': 8.777036666870117, 'cur_lr': 4.999999873689376e-05, 'total_loss': 491.6654052734375}, 'load_time_ms': 0.709, 'num_steps_sampled': 829200, 'grad_time_ms': 647.053, 'update_time_ms': 2.376, 'sample_time_ms': 30420.095}",2025-08-30_22-02-08,cda-server-4,33.89161252975464,4146,1756584128,10.157.146.4,False,21093.08497595787,1200
+692,-612.2266592575413,692,830400,{},-693.5595119832211,830400,0,21123.671226739883,-472.861862858257,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 830400, 'default': {'kl': 0.008572359569370747, 'policy_loss': -0.11569768935441971, 'vf_loss': 328.0683898925781, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9751185178756714, 'entropy': 9.311729431152344, 'cur_lr': 4.999999873689376e-05, 'total_loss': 327.9657287597656}, 'load_time_ms': 0.718, 'num_steps_sampled': 830400, 'grad_time_ms': 627.139, 'update_time_ms': 2.52, 'sample_time_ms': 30468.651}",2025-08-30_22-02-38,cda-server-4,30.58625078201294,4152,1756584158,10.157.146.4,False,21123.671226739883,1200
+693,-614.0883845964336,693,831600,{},-693.5595119832211,831600,0,21153.70996427536,-472.861862858257,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 831600, 'default': {'kl': 0.010440428741276264, 'policy_loss': -0.1371767371892929, 'vf_loss': 297.45709228515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9583260416984558, 'entropy': 9.076536178588867, 'cur_lr': 4.999999873689376e-05, 'total_loss': 297.3357849121094}, 'load_time_ms': 0.723, 'num_steps_sampled': 831600, 'grad_time_ms': 608.929, 'update_time_ms': 2.539, 'sample_time_ms': 30352.367}",2025-08-30_22-03-08,cda-server-4,30.038737535476685,4158,1756584188,10.157.146.4,False,21153.70996427536,1200
+694,-615.2239779902247,694,832800,{},-693.5595119832211,832800,0,21187.20645737648,-472.861862858257,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 832800, 'default': {'kl': 0.009115679189562798, 'policy_loss': -0.10640697181224823, 'vf_loss': 1204.4615478515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8587049841880798, 'entropy': 9.574135780334473, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1204.369140625}, 'load_time_ms': 0.707, 'num_steps_sampled': 832800, 'grad_time_ms': 596.928, 'update_time_ms': 2.521, 'sample_time_ms': 30324.848}",2025-08-30_22-03-42,cda-server-4,33.496493101119995,4164,1756584222,10.157.146.4,False,21187.20645737648,1200
+695,-615.0520073703556,695,834000,{},-693.5595119832211,834000,0,21218.125597953796,-472.861862858257,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 834000, 'default': {'kl': 0.007749637588858604, 'policy_loss': -0.11370086669921875, 'vf_loss': 507.66058349609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9383015036582947, 'entropy': 9.009100914001465, 'cur_lr': 4.999999873689376e-05, 'total_loss': 507.55865478515625}, 'load_time_ms': 0.686, 'num_steps_sampled': 834000, 'grad_time_ms': 615.043, 'update_time_ms': 2.373, 'sample_time_ms': 30630.38}",2025-08-30_22-04-13,cda-server-4,30.919140577316284,4170,1756584253,10.157.146.4,False,21218.125597953796,1200
+696,-616.514241745223,696,835200,{},-693.5595119832211,835200,0,21251.061582803726,-472.861862858257,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 835200, 'default': {'kl': 0.010723360814154148, 'policy_loss': -0.1268998682498932, 'vf_loss': 445.2445373535156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9356080293655396, 'entropy': 8.856081008911133, 'cur_lr': 4.999999873689376e-05, 'total_loss': 445.1339416503906}, 'load_time_ms': 0.691, 'num_steps_sampled': 835200, 'grad_time_ms': 633.478, 'update_time_ms': 2.367, 'sample_time_ms': 30859.338}",2025-08-30_22-04-46,cda-server-4,32.93598484992981,4176,1756584286,10.157.146.4,False,21251.061582803726,1200
+697,-617.0182127125776,697,836400,{},-693.5595119832211,836400,0,21281.7278380394,-472.861862858257,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 836400, 'default': {'kl': 0.010210197418928146, 'policy_loss': -0.1323952078819275, 'vf_loss': 411.9324951171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9490147829055786, 'entropy': 8.691123008728027, 'cur_lr': 4.999999873689376e-05, 'total_loss': 411.8155822753906}, 'load_time_ms': 0.694, 'num_steps_sampled': 836400, 'grad_time_ms': 658.626, 'update_time_ms': 2.422, 'sample_time_ms': 30549.575}",2025-08-30_22-05-16,cda-server-4,30.666255235671997,4182,1756584316,10.157.146.4,False,21281.7278380394,1200
+698,-615.04008307171,698,837600,{},-670.1928521030159,837600,0,21313.288629055023,-472.861862858257,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 837600, 'default': {'kl': 0.010913791134953499, 'policy_loss': -0.12412641942501068, 'vf_loss': 354.62017822265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9448069334030151, 'entropy': 9.254240989685059, 'cur_lr': 4.999999873689376e-05, 'total_loss': 354.51263427734375}, 'load_time_ms': 0.681, 'num_steps_sampled': 837600, 'grad_time_ms': 662.557, 'update_time_ms': 2.462, 'sample_time_ms': 30537.639}",2025-08-30_22-05-48,cda-server-4,31.560791015625,4188,1756584348,10.157.146.4,False,21313.288629055023,1200
+699,-616.8722781463284,699,838800,{},-670.1928521030159,838800,0,21343.962198972702,-478.3225952691209,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 838800, 'default': {'kl': 0.008662454783916473, 'policy_loss': -0.123200923204422, 'vf_loss': 252.809814453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9669463038444519, 'entropy': 9.151077270507812, 'cur_lr': 4.999999873689376e-05, 'total_loss': 252.69976806640625}, 'load_time_ms': 0.676, 'num_steps_sampled': 838800, 'grad_time_ms': 668.704, 'update_time_ms': 2.38, 'sample_time_ms': 30766.663}",2025-08-30_22-06-19,cda-server-4,30.673569917678833,4194,1756584379,10.157.146.4,False,21343.962198972702,1200
+700,-617.6508882330488,700,840000,{},-670.1928521030159,840000,0,21376.27998328209,-478.3225952691209,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 840000, 'default': {'kl': 0.009531335905194283, 'policy_loss': -0.12071221321821213, 'vf_loss': 85.56141662597656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9909236431121826, 'entropy': 8.690062522888184, 'cur_lr': 4.999999873689376e-05, 'total_loss': 85.4551773071289}, 'load_time_ms': 0.65, 'num_steps_sampled': 840000, 'grad_time_ms': 677.776, 'update_time_ms': 2.341, 'sample_time_ms': 31023.88}",2025-08-30_22-06-51,cda-server-4,32.31778430938721,4200,1756584411,10.157.146.4,False,21376.27998328209,1200
+701,-616.6363512802492,701,841200,{},-670.1928521030159,841200,0,21408.10641169548,-468.4896691488617,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 841200, 'default': {'kl': 0.013168929144740105, 'policy_loss': -0.13621607422828674, 'vf_loss': 863.468017578125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9405874609947205, 'entropy': 8.54196548461914, 'cur_lr': 4.999999873689376e-05, 'total_loss': 863.351806640625}, 'load_time_ms': 0.649, 'num_steps_sampled': 841200, 'grad_time_ms': 668.29, 'update_time_ms': 2.388, 'sample_time_ms': 30826.865}",2025-08-30_22-07-23,cda-server-4,31.826428413391113,4206,1756584443,10.157.146.4,False,21408.10641169548,1200
+702,-615.121783878896,702,842400,{},-670.1928521030159,842400,0,21439.07342195511,-468.4896691488617,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 842400, 'default': {'kl': 0.0127114187926054, 'policy_loss': -0.13210970163345337, 'vf_loss': 376.05523681640625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9632132053375244, 'entropy': 9.08148193359375, 'cur_lr': 4.999999873689376e-05, 'total_loss': 375.94244384765625}, 'load_time_ms': 0.653, 'num_steps_sampled': 842400, 'grad_time_ms': 688.601, 'update_time_ms': 2.296, 'sample_time_ms': 30844.7}",2025-08-30_22-07-54,cda-server-4,30.967010259628296,4212,1756584474,10.157.146.4,False,21439.07342195511,1200
+703,-617.0535346187498,703,843600,{},-670.1928521030159,843600,0,21470.73978328705,-468.4896691488617,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 843600, 'default': {'kl': 0.009664412587881088, 'policy_loss': -0.1306748390197754, 'vf_loss': 490.5570068359375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9501627683639526, 'entropy': 9.211808204650879, 'cur_lr': 4.999999873689376e-05, 'total_loss': 490.4410705566406}, 'load_time_ms': 0.662, 'num_steps_sampled': 843600, 'grad_time_ms': 702.519, 'update_time_ms': 2.286, 'sample_time_ms': 30993.552}",2025-08-30_22-08-25,cda-server-4,31.666361331939697,4218,1756584505,10.157.146.4,False,21470.73978328705,1200
+704,-616.545179193387,704,844800,{},-670.1928521030159,844800,0,21502.003882169724,-468.4896691488617,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 844800, 'default': {'kl': 0.009880196303129196, 'policy_loss': -0.1322457492351532, 'vf_loss': 172.65989685058594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9803940653800964, 'entropy': 8.743607521057129, 'cur_lr': 4.999999873689376e-05, 'total_loss': 172.54266357421875}, 'load_time_ms': 0.66, 'num_steps_sampled': 844800, 'grad_time_ms': 710.011, 'update_time_ms': 2.282, 'sample_time_ms': 30762.87}",2025-08-30_22-08-57,cda-server-4,31.26409888267517,4224,1756584537,10.157.146.4,False,21502.003882169724,1200
+705,-616.1821698290048,705,846000,{},-670.1928521030159,846000,0,21535.817991256714,-468.4896691488617,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 846000, 'default': {'kl': 0.010755483992397785, 'policy_loss': -0.12595656514167786, 'vf_loss': 300.21221923828125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9561090469360352, 'entropy': 8.987163543701172, 'cur_lr': 4.999999873689376e-05, 'total_loss': 300.10260009765625}, 'load_time_ms': 0.684, 'num_steps_sampled': 846000, 'grad_time_ms': 711.582, 'update_time_ms': 2.199, 'sample_time_ms': 31050.783}",2025-08-30_22-09-31,cda-server-4,33.814109086990356,4230,1756584571,10.157.146.4,False,21535.817991256714,1200
+706,-616.2635648532371,706,847200,{},-670.1928521030159,847200,0,21566.33461046219,-468.4896691488617,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 847200, 'default': {'kl': 0.009646758437156677, 'policy_loss': -0.12333212792873383, 'vf_loss': 289.75115966796875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9599952697753906, 'entropy': 8.741557121276855, 'cur_lr': 4.999999873689376e-05, 'total_loss': 289.6424865722656}, 'load_time_ms': 0.679, 'num_steps_sampled': 847200, 'grad_time_ms': 719.478, 'update_time_ms': 2.21, 'sample_time_ms': 30801.01}",2025-08-30_22-10-01,cda-server-4,30.516619205474854,4236,1756584601,10.157.146.4,False,21566.33461046219,1200
+707,-616.7265622680928,707,848400,{},-670.1928521030159,848400,0,21597.609090566635,-468.4896691488617,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 848400, 'default': {'kl': 0.011458019725978374, 'policy_loss': -0.1391746699810028, 'vf_loss': 132.70111083984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9888546466827393, 'entropy': 8.901054382324219, 'cur_lr': 4.999999873689376e-05, 'total_loss': 132.57933044433594}, 'load_time_ms': 0.668, 'num_steps_sampled': 848400, 'grad_time_ms': 721.872, 'update_time_ms': 2.151, 'sample_time_ms': 30859.582}",2025-08-30_22-10-32,cda-server-4,31.27448010444641,4242,1756584632,10.157.146.4,False,21597.609090566635,1200
+708,-616.8533063050181,708,849600,{},-670.1928521030159,849600,0,21627.241420269012,-468.4896691488617,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 849600, 'default': {'kl': 0.012161912396550179, 'policy_loss': -0.14596205949783325, 'vf_loss': 251.37583923339844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9730237126350403, 'entropy': 8.648907661437988, 'cur_lr': 4.999999873689376e-05, 'total_loss': 251.24835205078125}, 'load_time_ms': 0.654, 'num_steps_sampled': 849600, 'grad_time_ms': 724.413, 'update_time_ms': 2.103, 'sample_time_ms': 30664.219}",2025-08-30_22-11-02,cda-server-4,29.63232970237732,4248,1756584662,10.157.146.4,False,21627.241420269012,1200
+709,-614.9195373105173,709,850800,{},-669.8865683900158,850800,0,21659.471593141556,-468.4896691488617,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 850800, 'default': {'kl': 0.01075051724910736, 'policy_loss': -0.12752927839756012, 'vf_loss': 261.2982482910156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9850170612335205, 'entropy': 8.653031349182129, 'cur_lr': 4.999999873689376e-05, 'total_loss': 261.18707275390625}, 'load_time_ms': 0.662, 'num_steps_sampled': 850800, 'grad_time_ms': 722.803, 'update_time_ms': 2.118, 'sample_time_ms': 30821.51}",2025-08-30_22-11-34,cda-server-4,32.230172872543335,4254,1756584694,10.157.146.4,False,21659.471593141556,1200
+710,-615.0670610881164,710,852000,{},-669.8865683900158,852000,0,21690.95176911354,-468.4896691488617,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 852000, 'default': {'kl': 0.011547183617949486, 'policy_loss': -0.13190919160842896, 'vf_loss': 673.4758911132812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.939133882522583, 'entropy': 8.514336585998535, 'cur_lr': 4.999999873689376e-05, 'total_loss': 673.3615112304688}, 'load_time_ms': 0.654, 'num_steps_sampled': 852000, 'grad_time_ms': 721.951, 'update_time_ms': 2.143, 'sample_time_ms': 30738.547}",2025-08-30_22-12-06,cda-server-4,31.480175971984863,4260,1756584726,10.157.146.4,False,21690.95176911354,1200
+711,-616.0288916992462,711,853200,{},-669.8865683900158,853200,0,21723.4534137249,-468.4896691488617,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 853200, 'default': {'kl': 0.009393393062055111, 'policy_loss': -0.143804132938385, 'vf_loss': 321.95654296875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9671790599822998, 'entropy': 9.268677711486816, 'cur_lr': 4.999999873689376e-05, 'total_loss': 321.8270263671875}, 'load_time_ms': 0.648, 'num_steps_sampled': 853200, 'grad_time_ms': 715.073, 'update_time_ms': 2.269, 'sample_time_ms': 30812.83}",2025-08-30_22-12-38,cda-server-4,32.50164461135864,4266,1756584758,10.157.146.4,False,21723.4534137249,1200
+712,-614.0368606422478,712,854400,{},-669.8865683900158,854400,0,21752.27915906906,-468.4896691488617,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 854400, 'default': {'kl': 0.010541343130171299, 'policy_loss': -0.11758671700954437, 'vf_loss': 141.4408721923828, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9804894328117371, 'entropy': 8.31449031829834, 'cur_lr': 4.999999873689376e-05, 'total_loss': 141.3393096923828}, 'load_time_ms': 0.64, 'num_steps_sampled': 854400, 'grad_time_ms': 711.989, 'update_time_ms': 2.262, 'sample_time_ms': 30601.847}",2025-08-30_22-13-07,cda-server-4,28.825745344161987,4272,1756584787,10.157.146.4,False,21752.27915906906,1200
+713,-614.7271770853133,713,855600,{},-671.9789303839086,855600,0,21785.148908376694,-468.4896691488617,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 855600, 'default': {'kl': 0.009522904641926289, 'policy_loss': -0.12796583771705627, 'vf_loss': 586.0341186523438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9095735549926758, 'entropy': 8.955026626586914, 'cur_lr': 4.999999873689376e-05, 'total_loss': 585.9205932617188}, 'load_time_ms': 0.623, 'num_steps_sampled': 855600, 'grad_time_ms': 717.824, 'update_time_ms': 2.258, 'sample_time_ms': 30716.385}",2025-08-30_22-13-40,cda-server-4,32.869749307632446,4278,1756584820,10.157.146.4,False,21785.148908376694,1200
+714,-614.5584559841889,714,856800,{},-671.9789303839086,856800,0,21813.613123893738,-468.4896691488617,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 856800, 'default': {'kl': 0.008747434243559837, 'policy_loss': -0.11986055970191956, 'vf_loss': 376.1387634277344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9489567279815674, 'entropy': 9.316475868225098, 'cur_lr': 4.999999873689376e-05, 'total_loss': 376.03216552734375}, 'load_time_ms': 0.622, 'num_steps_sampled': 856800, 'grad_time_ms': 724.652, 'update_time_ms': 2.262, 'sample_time_ms': 30429.567}",2025-08-30_22-14-08,cda-server-4,28.464215517044067,4284,1756584848,10.157.146.4,False,21813.613123893738,1200
+715,-614.2375540520661,715,858000,{},-671.9789303839086,858000,0,21844.76351571083,-468.4896691488617,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 858000, 'default': {'kl': 0.010881522670388222, 'policy_loss': -0.13032808899879456, 'vf_loss': 378.4139709472656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9581272602081299, 'entropy': 8.706050872802734, 'cur_lr': 4.999999873689376e-05, 'total_loss': 378.3001708984375}, 'load_time_ms': 0.585, 'num_steps_sampled': 858000, 'grad_time_ms': 728.031, 'update_time_ms': 2.239, 'sample_time_ms': 30159.959}",2025-08-30_22-14-40,cda-server-4,31.150391817092896,4290,1756584880,10.157.146.4,False,21844.76351571083,1200
+716,-613.4247632846063,716,859200,{},-671.9789303839086,859200,0,21873.464893341064,-468.4896691488617,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 859200, 'default': {'kl': 0.010669191367924213, 'policy_loss': -0.10747618973255157, 'vf_loss': 56.21430969238281, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9901902079582214, 'entropy': 7.957954406738281, 'cur_lr': 4.999999873689376e-05, 'total_loss': 56.12303924560547}, 'load_time_ms': 0.586, 'num_steps_sampled': 859200, 'grad_time_ms': 726.615, 'update_time_ms': 2.287, 'sample_time_ms': 29979.747}",2025-08-30_22-15-08,cda-server-4,28.701377630233765,4296,1756584908,10.157.146.4,False,21873.464893341064,1200
+717,-612.7419269191062,717,860400,{},-671.9789303839086,860400,0,21904.576246023178,-468.4896691488617,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 860400, 'default': {'kl': 0.008952447213232517, 'policy_loss': -0.1256554126739502, 'vf_loss': 237.7881622314453, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9670903086662292, 'entropy': 9.049275398254395, 'cur_lr': 4.999999873689376e-05, 'total_loss': 237.67613220214844}, 'load_time_ms': 0.588, 'num_steps_sampled': 860400, 'grad_time_ms': 727.789, 'update_time_ms': 2.314, 'sample_time_ms': 29962.146}",2025-08-30_22-15-39,cda-server-4,31.111352682113647,4302,1756584939,10.157.146.4,False,21904.576246023178,1200
+718,-615.7136922690584,718,861600,{},-671.9789303839086,861600,0,21936.728921175003,-490.94650069315594,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 861600, 'default': {'kl': 0.010544054210186005, 'policy_loss': -0.12835627794265747, 'vf_loss': 231.2452850341797, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.981339156627655, 'entropy': 8.89731216430664, 'cur_lr': 4.999999873689376e-05, 'total_loss': 231.1329803466797}, 'load_time_ms': 0.579, 'num_steps_sampled': 861600, 'grad_time_ms': 725.701, 'update_time_ms': 2.316, 'sample_time_ms': 30216.302}",2025-08-30_22-16-12,cda-server-4,32.15267515182495,4308,1756584972,10.157.146.4,False,21936.728921175003,1200
+719,-616.3459543174828,719,862800,{},-671.9789303839086,862800,0,21969.29177212715,-490.94650069315594,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 862800, 'default': {'kl': 0.010763585567474365, 'policy_loss': -0.13354724645614624, 'vf_loss': 431.6907653808594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9522111415863037, 'entropy': 8.906241416931152, 'cur_lr': 4.999999873689376e-05, 'total_loss': 431.5735778808594}, 'load_time_ms': 0.575, 'num_steps_sampled': 862800, 'grad_time_ms': 716.967, 'update_time_ms': 2.378, 'sample_time_ms': 30258.142}",2025-08-30_22-16-44,cda-server-4,32.56285095214844,4314,1756585004,10.157.146.4,False,21969.29177212715,1200
+720,-616.7917314556038,720,864000,{},-671.9789303839086,864000,0,21999.30380630493,-490.94650069315594,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 864000, 'default': {'kl': 0.010471820831298828, 'policy_loss': -0.12565763294696808, 'vf_loss': 160.7554168701172, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9864177703857422, 'entropy': 9.07017993927002, 'cur_lr': 4.999999873689376e-05, 'total_loss': 160.6456756591797}, 'load_time_ms': 0.611, 'num_steps_sampled': 864000, 'grad_time_ms': 704.967, 'update_time_ms': 2.342, 'sample_time_ms': 30123.353}",2025-08-30_22-17-14,cda-server-4,30.01203417778015,4320,1756585034,10.157.146.4,False,21999.30380630493,1200
+721,-617.2655139876792,721,865200,{},-671.9789303839086,865200,0,22029.249616622925,-490.94650069315594,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 865200, 'default': {'kl': 0.008181550540030003, 'policy_loss': -0.13815104961395264, 'vf_loss': 325.9002685546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9495363235473633, 'entropy': 8.820087432861328, 'cur_lr': 4.999999873689376e-05, 'total_loss': 325.7745361328125}, 'load_time_ms': 0.615, 'num_steps_sampled': 865200, 'grad_time_ms': 705.457, 'update_time_ms': 2.235, 'sample_time_ms': 29867.278}",2025-08-30_22-17-44,cda-server-4,29.945810317993164,4326,1756585064,10.157.146.4,False,22029.249616622925,1200
+722,-617.9293829695679,722,866400,{},-671.9789303839086,866400,0,22058.64703130722,-490.94650069315594,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 866400, 'default': {'kl': 0.009725641459226608, 'policy_loss': -0.1188986599445343, 'vf_loss': 713.5615844726562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9196445941925049, 'entropy': 9.459600448608398, 'cur_lr': 4.999999873689376e-05, 'total_loss': 713.4574584960938}, 'load_time_ms': 0.609, 'num_steps_sampled': 866400, 'grad_time_ms': 701.992, 'update_time_ms': 2.239, 'sample_time_ms': 29927.889}",2025-08-30_22-18-14,cda-server-4,29.397414684295654,4332,1756585094,10.157.146.4,False,22058.64703130722,1200
+723,-617.7902894832389,723,867600,{},-671.9789303839086,867600,0,22089.891060352325,-490.94650069315594,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 867600, 'default': {'kl': 0.01026875153183937, 'policy_loss': -0.11985894292593002, 'vf_loss': 253.86209106445312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9584946036338806, 'entropy': 8.609817504882812, 'cur_lr': 4.999999873689376e-05, 'total_loss': 253.7578125}, 'load_time_ms': 0.608, 'num_steps_sampled': 867600, 'grad_time_ms': 682.084, 'update_time_ms': 2.188, 'sample_time_ms': 29785.198}",2025-08-30_22-18-45,cda-server-4,31.24402904510498,4338,1756585125,10.157.146.4,False,22089.891060352325,1200
+724,-616.9814181257502,724,868800,{},-671.9789303839086,868800,0,22122.789601802826,-490.94650069315594,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 868800, 'default': {'kl': 0.01141296699643135, 'policy_loss': -0.13573810458183289, 'vf_loss': 344.05859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9528704881668091, 'entropy': 9.147181510925293, 'cur_lr': 4.999999873689376e-05, 'total_loss': 343.9401550292969}, 'load_time_ms': 0.618, 'num_steps_sampled': 868800, 'grad_time_ms': 669.095, 'update_time_ms': 2.189, 'sample_time_ms': 30241.542}",2025-08-30_22-19-18,cda-server-4,32.89854145050049,4344,1756585158,10.157.146.4,False,22122.789601802826,1200
+725,-617.8819785784347,725,870000,{},-671.9789303839086,870000,0,22155.584454774857,-490.94650069315594,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 870000, 'default': {'kl': 0.009277921169996262, 'policy_loss': -0.11938472837209702, 'vf_loss': 429.7360534667969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9433966875076294, 'entropy': 8.985857963562012, 'cur_lr': 4.999999873689376e-05, 'total_loss': 429.6307373046875}, 'load_time_ms': 0.63, 'num_steps_sampled': 870000, 'grad_time_ms': 652.265, 'update_time_ms': 2.226, 'sample_time_ms': 30422.697}",2025-08-30_22-19-51,cda-server-4,32.79485297203064,4350,1756585191,10.157.146.4,False,22155.584454774857,1200
+726,-616.3444996780671,726,871200,{},-671.9789303839086,871200,0,22185.90354013443,-490.94650069315594,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 871200, 'default': {'kl': 0.010653833858668804, 'policy_loss': -0.12149104475975037, 'vf_loss': 547.570556640625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9277176260948181, 'entropy': 8.82553482055664, 'cur_lr': 4.999999873689376e-05, 'total_loss': 547.4652099609375}, 'load_time_ms': 0.632, 'num_steps_sampled': 871200, 'grad_time_ms': 649.045, 'update_time_ms': 2.214, 'sample_time_ms': 30587.68}",2025-08-30_22-20-21,cda-server-4,30.319085359573364,4356,1756585221,10.157.146.4,False,22185.90354013443,1200
+727,-616.1829149523296,727,872400,{},-671.9789303839086,872400,0,22213.219984292984,-490.94650069315594,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 872400, 'default': {'kl': 0.009340579621493816, 'policy_loss': -0.12338953465223312, 'vf_loss': 1423.576904296875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.7881511449813843, 'entropy': 9.387072563171387, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1423.467529296875}, 'load_time_ms': 0.67, 'num_steps_sampled': 872400, 'grad_time_ms': 645.635, 'update_time_ms': 2.263, 'sample_time_ms': 30211.446}",2025-08-30_22-20-48,cda-server-4,27.316444158554077,4362,1756585248,10.157.146.4,False,22213.219984292984,1200
+728,-616.0135160708638,728,873600,{},-674.0226627793099,873600,0,22244.654147863388,-490.94650069315594,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 873600, 'default': {'kl': 0.01219414547085762, 'policy_loss': -0.1354072540998459, 'vf_loss': 610.7743530273438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.933325469493866, 'entropy': 8.417376518249512, 'cur_lr': 4.999999873689376e-05, 'total_loss': 610.657470703125}, 'load_time_ms': 0.679, 'num_steps_sampled': 873600, 'grad_time_ms': 645.369, 'update_time_ms': 2.304, 'sample_time_ms': 30139.83}",2025-08-30_22-21-20,cda-server-4,31.434163570404053,4368,1756585280,10.157.146.4,False,22244.654147863388,1200
+729,-617.3064178301679,729,874800,{},-674.0226627793099,874800,0,22278.21233868599,-490.94650069315594,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 874800, 'default': {'kl': 0.01022027712315321, 'policy_loss': -0.13656675815582275, 'vf_loss': 305.0074157714844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9647440314292908, 'entropy': 9.279261589050293, 'cur_lr': 4.999999873689376e-05, 'total_loss': 304.8863525390625}, 'load_time_ms': 0.679, 'num_steps_sampled': 874800, 'grad_time_ms': 656.654, 'update_time_ms': 2.22, 'sample_time_ms': 30228.197}",2025-08-30_22-21-53,cda-server-4,33.55819082260132,4374,1756585313,10.157.146.4,False,22278.21233868599,1200
+730,-618.2010716573357,730,876000,{},-674.0226627793099,876000,0,22312.935595989227,-490.94650069315594,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 876000, 'default': {'kl': 0.01146087609231472, 'policy_loss': -0.1469741016626358, 'vf_loss': 683.7271118164062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9415740966796875, 'entropy': 8.993813514709473, 'cur_lr': 4.999999873689376e-05, 'total_loss': 683.5975341796875}, 'load_time_ms': 0.647, 'num_steps_sampled': 876000, 'grad_time_ms': 668.984, 'update_time_ms': 2.232, 'sample_time_ms': 30687.06}",2025-08-30_22-22-28,cda-server-4,34.723257303237915,4380,1756585348,10.157.146.4,False,22312.935595989227,1200
+731,-619.0665567812082,731,877200,{},-683.3066257404824,877200,0,22344.685007333755,-489.6546994733901,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 877200, 'default': {'kl': 0.012564578093588352, 'policy_loss': -0.15142494440078735, 'vf_loss': 430.5729064941406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9549664258956909, 'entropy': 8.561031341552734, 'cur_lr': 4.999999873689376e-05, 'total_loss': 430.4405517578125}, 'load_time_ms': 0.648, 'num_steps_sampled': 877200, 'grad_time_ms': 655.226, 'update_time_ms': 2.17, 'sample_time_ms': 30881.269}",2025-08-30_22-23-00,cda-server-4,31.7494113445282,4386,1756585380,10.157.146.4,False,22344.685007333755,1200
+732,-618.8689670831053,732,878400,{},-683.3066257404824,878400,0,22377.144221782684,-489.6546994733901,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 878400, 'default': {'kl': 0.009927157312631607, 'policy_loss': -0.12471042573451996, 'vf_loss': 318.8612976074219, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9622856974601746, 'entropy': 8.693923950195312, 'cur_lr': 4.999999873689376e-05, 'total_loss': 318.75164794921875}, 'load_time_ms': 0.648, 'num_steps_sampled': 878400, 'grad_time_ms': 636.191, 'update_time_ms': 2.125, 'sample_time_ms': 31206.541}",2025-08-30_22-23-32,cda-server-4,32.45921444892883,4392,1756585412,10.157.146.4,False,22377.144221782684,1200
+733,-618.4090467445665,733,879600,{},-683.3066257404824,879600,0,22406.73792052269,-489.6546994733901,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 879600, 'default': {'kl': 0.009966540150344372, 'policy_loss': -0.12184759974479675, 'vf_loss': 509.41754150390625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.955018162727356, 'entropy': 8.295307159423828, 'cur_lr': 4.999999873689376e-05, 'total_loss': 509.3108825683594}, 'load_time_ms': 0.646, 'num_steps_sampled': 879600, 'grad_time_ms': 626.259, 'update_time_ms': 2.17, 'sample_time_ms': 31051.466}",2025-08-30_22-24-02,cda-server-4,29.593698740005493,4398,1756585442,10.157.146.4,False,22406.73792052269,1200
+734,-618.5648496441418,734,880800,{},-683.3066257404824,880800,0,22441.20833659172,-489.6546994733901,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 880800, 'default': {'kl': 0.009845467284321785, 'policy_loss': -0.1382514089345932, 'vf_loss': 568.6348876953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9545869827270508, 'entropy': 9.087925910949707, 'cur_lr': 4.999999873689376e-05, 'total_loss': 568.5115966796875}, 'load_time_ms': 0.637, 'num_steps_sampled': 880800, 'grad_time_ms': 617.552, 'update_time_ms': 2.228, 'sample_time_ms': 31217.346}",2025-08-30_22-24-36,cda-server-4,34.47041606903076,4404,1756585476,10.157.146.4,False,22441.20833659172,1200
+735,-619.0023962377286,735,882000,{},-683.3066257404824,882000,0,22472.22368645668,-489.6546994733901,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 882000, 'default': {'kl': 0.011010034941136837, 'policy_loss': -0.14012277126312256, 'vf_loss': 924.7021484375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9514504671096802, 'entropy': 8.877350807189941, 'cur_lr': 4.999999873689376e-05, 'total_loss': 924.5786743164062}, 'load_time_ms': 0.635, 'num_steps_sampled': 882000, 'grad_time_ms': 630.812, 'update_time_ms': 2.257, 'sample_time_ms': 31026.144}",2025-08-30_22-25-07,cda-server-4,31.015349864959717,4410,1756585507,10.157.146.4,False,22472.22368645668,1200
+736,-618.1020604259586,736,883200,{},-683.3066257404824,883200,0,22505.227257728577,-489.6546994733901,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 883200, 'default': {'kl': 0.010876609943807125, 'policy_loss': -0.1394299417734146, 'vf_loss': 395.1981201171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9470131993293762, 'entropy': 8.261981964111328, 'cur_lr': 4.999999873689376e-05, 'total_loss': 395.0751953125}, 'load_time_ms': 0.635, 'num_steps_sampled': 883200, 'grad_time_ms': 619.398, 'update_time_ms': 2.246, 'sample_time_ms': 31306.031}",2025-08-30_22-25-40,cda-server-4,33.00357127189636,4416,1756585540,10.157.146.4,False,22505.227257728577,1200
+737,-618.345080490053,737,884400,{},-683.3066257404824,884400,0,22533.34880208969,-489.6546994733901,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 884400, 'default': {'kl': 0.010840477421879768, 'policy_loss': -0.12443608790636063, 'vf_loss': 116.71939086914062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9818263649940491, 'entropy': 8.725071907043457, 'cur_lr': 4.999999873689376e-05, 'total_loss': 116.61141204833984}, 'load_time_ms': 0.608, 'num_steps_sampled': 884400, 'grad_time_ms': 618.264, 'update_time_ms': 2.218, 'sample_time_ms': 31387.836}",2025-08-30_22-26-09,cda-server-4,28.121544361114502,4422,1756585569,10.157.146.4,False,22533.34880208969,1200
+738,-618.2949917204381,738,885600,{},-683.3066257404824,885600,0,22564.22314786911,-489.6546994733901,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 885600, 'default': {'kl': 0.009527033194899559, 'policy_loss': -0.11087407171726227, 'vf_loss': 238.8505859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9760189056396484, 'entropy': 9.014849662780762, 'cur_lr': 4.999999873689376e-05, 'total_loss': 238.75418090820312}, 'load_time_ms': 0.632, 'num_steps_sampled': 885600, 'grad_time_ms': 628.65, 'update_time_ms': 2.173, 'sample_time_ms': 31321.428}",2025-08-30_22-26-39,cda-server-4,30.874345779418945,4428,1756585599,10.157.146.4,False,22564.22314786911,1200
+739,-618.9175193840541,739,886800,{},-683.3066257404824,886800,0,22593.851574659348,-489.6546994733901,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 886800, 'default': {'kl': 0.008958094753324986, 'policy_loss': -0.1321202665567398, 'vf_loss': 233.12538146972656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9828467965126038, 'entropy': 8.668445587158203, 'cur_lr': 4.999999873689376e-05, 'total_loss': 233.00686645507812}, 'load_time_ms': 0.635, 'num_steps_sampled': 886800, 'grad_time_ms': 627.013, 'update_time_ms': 2.286, 'sample_time_ms': 30929.975}",2025-08-30_22-27-09,cda-server-4,29.628426790237427,4434,1756585629,10.157.146.4,False,22593.851574659348,1200
+740,-618.0922398854235,740,888000,{},-683.3066257404824,888000,0,22623.924858808517,-489.6546994733901,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 888000, 'default': {'kl': 0.011248103342950344, 'policy_loss': -0.12025218456983566, 'vf_loss': 540.9624633789062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9506029486656189, 'entropy': 8.92508316040039, 'cur_lr': 4.999999873689376e-05, 'total_loss': 540.8593139648438}, 'load_time_ms': 0.631, 'num_steps_sampled': 888000, 'grad_time_ms': 629.031, 'update_time_ms': 2.275, 'sample_time_ms': 30462.913}",2025-08-30_22-27-39,cda-server-4,30.073284149169922,4440,1756585659,10.157.146.4,False,22623.924858808517,1200
+741,-618.4657795951406,741,889200,{},-683.3066257404824,889200,0,22653.45337343216,-489.6546994733901,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 889200, 'default': {'kl': 0.011798497289419174, 'policy_loss': -0.1385287046432495, 'vf_loss': 174.3125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9827414751052856, 'entropy': 8.678010940551758, 'cur_lr': 4.999999873689376e-05, 'total_loss': 174.19189453125}, 'load_time_ms': 0.63, 'num_steps_sampled': 889200, 'grad_time_ms': 648.228, 'update_time_ms': 2.286, 'sample_time_ms': 30221.716}",2025-08-30_22-28-09,cda-server-4,29.528514623641968,4446,1756585689,10.157.146.4,False,22653.45337343216,1200
+742,-620.8214242462128,742,890400,{},-683.3066257404824,890400,0,22685.610932826996,-489.6546994733901,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 890400, 'default': {'kl': 0.012938205152750015, 'policy_loss': -0.150111585855484, 'vf_loss': 2358.6591796875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8222811222076416, 'entropy': 8.822604179382324, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2358.529052734375}, 'load_time_ms': 0.63, 'num_steps_sampled': 890400, 'grad_time_ms': 671.089, 'update_time_ms': 2.34, 'sample_time_ms': 30168.654}",2025-08-30_22-28-41,cda-server-4,32.157559394836426,4452,1756585721,10.157.146.4,False,22685.610932826996,1200
+743,-619.9172887940789,743,891600,{},-683.3066257404824,891600,0,22716.364256858826,-489.6546994733901,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 891600, 'default': {'kl': 0.011504643596708775, 'policy_loss': -0.13418322801589966, 'vf_loss': 615.1690063476562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9400284886360168, 'entropy': 8.985515594482422, 'cur_lr': 4.999999873689376e-05, 'total_loss': 615.0523071289062}, 'load_time_ms': 0.633, 'num_steps_sampled': 891600, 'grad_time_ms': 693.536, 'update_time_ms': 2.334, 'sample_time_ms': 30262.157}",2025-08-30_22-29-12,cda-server-4,30.753324031829834,4458,1756585752,10.157.146.4,False,22716.364256858826,1200
+744,-620.2616947803718,744,892800,{},-683.3066257404824,892800,0,22746.315811157227,-489.6546994733901,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 892800, 'default': {'kl': 0.010871491394937038, 'policy_loss': -0.14045003056526184, 'vf_loss': 822.1574096679688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8729375004768372, 'entropy': 8.704907417297363, 'cur_lr': 4.999999873689376e-05, 'total_loss': 822.033447265625}, 'load_time_ms': 0.638, 'num_steps_sampled': 892800, 'grad_time_ms': 714.596, 'update_time_ms': 2.284, 'sample_time_ms': 29789.237}",2025-08-30_22-29-42,cda-server-4,29.95155429840088,4464,1756585782,10.157.146.4,False,22746.315811157227,1200
+745,-619.1548901045817,745,894000,{},-683.3066257404824,894000,0,22778.883927345276,-489.6546994733901,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 894000, 'default': {'kl': 0.008941552601754665, 'policy_loss': -0.13175766170024872, 'vf_loss': 342.4310302734375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9622864127159119, 'entropy': 8.513937950134277, 'cur_lr': 4.999999873689376e-05, 'total_loss': 342.3128356933594}, 'load_time_ms': 0.629, 'num_steps_sampled': 894000, 'grad_time_ms': 720.844, 'update_time_ms': 2.232, 'sample_time_ms': 29938.323}",2025-08-30_22-30-14,cda-server-4,32.568116188049316,4470,1756585814,10.157.146.4,False,22778.883927345276,1200
+746,-618.1922571587812,746,895200,{},-683.3066257404824,895200,0,22808.805204629898,-489.6546994733901,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 895200, 'default': {'kl': 0.007774179335683584, 'policy_loss': -0.09918542951345444, 'vf_loss': 174.5108184814453, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9731417894363403, 'entropy': 8.566243171691895, 'cur_lr': 4.999999873689376e-05, 'total_loss': 174.42344665527344}, 'load_time_ms': 0.628, 'num_steps_sampled': 895200, 'grad_time_ms': 739.363, 'update_time_ms': 2.291, 'sample_time_ms': 29611.539}",2025-08-30_22-30-44,cda-server-4,29.921277284622192,4476,1756585844,10.157.146.4,False,22808.805204629898,1200
+747,-616.5617307461142,747,896400,{},-683.3066257404824,896400,0,22842.30123448372,-489.6546994733901,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 896400, 'default': {'kl': 0.009189794771373272, 'policy_loss': -0.12697860598564148, 'vf_loss': 200.3389892578125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9734945297241211, 'entropy': 8.5494384765625, 'cur_lr': 4.999999873689376e-05, 'total_loss': 200.22598266601562}, 'load_time_ms': 0.617, 'num_steps_sampled': 896400, 'grad_time_ms': 716.044, 'update_time_ms': 2.283, 'sample_time_ms': 30172.322}",2025-08-30_22-31-18,cda-server-4,33.4960298538208,4482,1756585878,10.157.146.4,False,22842.30123448372,1200
+748,-617.4587364858317,748,897600,{},-683.1083076741232,897600,0,22874.024919509888,-566.9728672694137,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 897600, 'default': {'kl': 0.01173925120383501, 'policy_loss': -0.1456039398908615, 'vf_loss': 500.92779541015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9325399398803711, 'entropy': 8.988801002502441, 'cur_lr': 4.999999873689376e-05, 'total_loss': 500.8000793457031}, 'load_time_ms': 0.579, 'num_steps_sampled': 897600, 'grad_time_ms': 680.111, 'update_time_ms': 2.322, 'sample_time_ms': 30293.229}",2025-08-30_22-31-49,cda-server-4,31.723685026168823,4488,1756585909,10.157.146.4,False,22874.024919509888,1200
+749,-617.034535625216,749,898800,{},-683.1083076741232,898800,0,22905.708318710327,-566.9728672694137,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 898800, 'default': {'kl': 0.011047829873859882, 'policy_loss': -0.12254621088504791, 'vf_loss': 490.0809326171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.971049964427948, 'entropy': 9.125934600830078, 'cur_lr': 4.999999873689376e-05, 'total_loss': 489.97515869140625}, 'load_time_ms': 0.577, 'num_steps_sampled': 898800, 'grad_time_ms': 674.241, 'update_time_ms': 2.23, 'sample_time_ms': 30504.641}",2025-08-30_22-32-21,cda-server-4,31.683399200439453,4494,1756585941,10.157.146.4,False,22905.708318710327,1200
+750,-617.7775367289498,750,900000,{},-683.1083076741232,900000,0,22936.202861070633,-566.9728672694137,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 900000, 'default': {'kl': 0.010549533180892467, 'policy_loss': -0.10758897662162781, 'vf_loss': 127.41171264648438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9913284778594971, 'entropy': 9.156078338623047, 'cur_lr': 4.999999873689376e-05, 'total_loss': 127.32015228271484}, 'load_time_ms': 0.585, 'num_steps_sampled': 900000, 'grad_time_ms': 664.916, 'update_time_ms': 2.298, 'sample_time_ms': 30556.067}",2025-08-30_22-32-52,cda-server-4,30.494542360305786,4500,1756585972,10.157.146.4,False,22936.202861070633,1200
+751,-617.9047081185411,751,901200,{},-683.1083076741232,901200,0,22969.966463804245,-566.9728672694137,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 901200, 'default': {'kl': 0.012349172495305538, 'policy_loss': -0.129011332988739, 'vf_loss': 541.647216796875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9649847745895386, 'entropy': 8.628888130187988, 'cur_lr': 4.999999873689376e-05, 'total_loss': 541.5369873046875}, 'load_time_ms': 0.59, 'num_steps_sampled': 901200, 'grad_time_ms': 660.44, 'update_time_ms': 2.321, 'sample_time_ms': 30983.968}",2025-08-30_22-33-26,cda-server-4,33.76360273361206,4506,1756586006,10.157.146.4,False,22969.966463804245,1200
+752,-618.2991901831208,752,902400,{},-683.1083076741232,902400,0,23000.427659273148,-566.9728672694137,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 902400, 'default': {'kl': 0.009941508993506432, 'policy_loss': -0.11270719021558762, 'vf_loss': 242.9630584716797, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9792667031288147, 'entropy': 9.046639442443848, 'cur_lr': 4.999999873689376e-05, 'total_loss': 242.86544799804688}, 'load_time_ms': 0.6, 'num_steps_sampled': 902400, 'grad_time_ms': 654.621, 'update_time_ms': 2.302, 'sample_time_ms': 30820.12}",2025-08-30_22-33-56,cda-server-4,30.461195468902588,4512,1756586036,10.157.146.4,False,23000.427659273148,1200
+753,-619.3019418018415,753,903600,{},-683.1083076741232,903600,0,23029.700823307037,-566.9728672694137,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 903600, 'default': {'kl': 0.009944835677742958, 'policy_loss': -0.12306981533765793, 'vf_loss': 384.177734375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9631969928741455, 'entropy': 9.062294960021973, 'cur_lr': 4.999999873689376e-05, 'total_loss': 384.0697937011719}, 'load_time_ms': 0.606, 'num_steps_sampled': 903600, 'grad_time_ms': 660.253, 'update_time_ms': 2.275, 'sample_time_ms': 30666.498}",2025-08-30_22-34-25,cda-server-4,29.27316403388977,4518,1756586065,10.157.146.4,False,23029.700823307037,1200
+754,-619.3978753856517,754,904800,{},-683.1083076741232,904800,0,23061.91388487816,-566.9728672694137,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 904800, 'default': {'kl': 0.009883537888526917, 'policy_loss': -0.13543039560317993, 'vf_loss': 260.9453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9748213887214661, 'entropy': 8.693624496459961, 'cur_lr': 4.999999873689376e-05, 'total_loss': 260.82489013671875}, 'load_time_ms': 0.602, 'num_steps_sampled': 904800, 'grad_time_ms': 660.496, 'update_time_ms': 2.288, 'sample_time_ms': 30892.434}",2025-08-30_22-34-57,cda-server-4,32.213061571121216,4524,1756586097,10.157.146.4,False,23061.91388487816,1200
+755,-618.8655419847535,755,906000,{},-683.1083076741232,906000,0,23094.305648565292,-566.9728672694137,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 906000, 'default': {'kl': 0.011386111378669739, 'policy_loss': -0.1237710565328598, 'vf_loss': 588.7218017578125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.930164635181427, 'entropy': 8.151530265808105, 'cur_lr': 4.999999873689376e-05, 'total_loss': 588.6152954101562}, 'load_time_ms': 0.619, 'num_steps_sampled': 906000, 'grad_time_ms': 650.486, 'update_time_ms': 2.334, 'sample_time_ms': 30884.732}",2025-08-30_22-35-30,cda-server-4,32.39176368713379,4530,1756586130,10.157.146.4,False,23094.305648565292,1200
+756,-618.2110828008707,756,907200,{},-683.1083076741232,907200,0,23124.371403217316,-566.9728672694137,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 907200, 'default': {'kl': 0.009504619985818863, 'policy_loss': -0.10746723413467407, 'vf_loss': 76.46360778808594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9885787963867188, 'entropy': 8.26976203918457, 'cur_lr': 4.999999873689376e-05, 'total_loss': 76.3705825805664}, 'load_time_ms': 0.621, 'num_steps_sampled': 907200, 'grad_time_ms': 634.71, 'update_time_ms': 2.24, 'sample_time_ms': 30915.081}",2025-08-30_22-36-00,cda-server-4,30.065754652023315,4536,1756586160,10.157.146.4,False,23124.371403217316,1200
+757,-619.0262666560513,757,908400,{},-683.1083076741232,908400,0,23154.17093229294,-566.9728672694137,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 908400, 'default': {'kl': 0.009872769005596638, 'policy_loss': -0.12056214362382889, 'vf_loss': 496.2840576171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9475833177566528, 'entropy': 8.84311294555664, 'cur_lr': 4.999999873689376e-05, 'total_loss': 496.1784973144531}, 'load_time_ms': 0.631, 'num_steps_sampled': 908400, 'grad_time_ms': 636.77, 'update_time_ms': 2.186, 'sample_time_ms': 30543.424}",2025-08-30_22-36-30,cda-server-4,29.79952907562256,4542,1756586190,10.157.146.4,False,23154.17093229294,1200
+758,-619.0998396848621,758,909600,{},-681.6278308522026,909600,0,23187.970534086227,-566.9728672694137,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 909600, 'default': {'kl': 0.012476135976612568, 'policy_loss': -0.14287710189819336, 'vf_loss': 385.9012756347656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9590588808059692, 'entropy': 8.794343948364258, 'cur_lr': 4.999999873689376e-05, 'total_loss': 385.77734375}, 'load_time_ms': 0.661, 'num_steps_sampled': 909600, 'grad_time_ms': 636.238, 'update_time_ms': 2.119, 'sample_time_ms': 30751.564}",2025-08-30_22-37-04,cda-server-4,33.799601793289185,4548,1756586224,10.157.146.4,False,23187.970534086227,1200
+759,-617.8751043928429,759,910800,{},-681.6278308522026,910800,0,23221.295681238174,-490.3839777240791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 910800, 'default': {'kl': 0.01134142093360424, 'policy_loss': -0.12978997826576233, 'vf_loss': 577.5689086914062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9543575644493103, 'entropy': 8.636566162109375, 'cur_lr': 4.999999873689376e-05, 'total_loss': 577.4563598632812}, 'load_time_ms': 0.664, 'num_steps_sampled': 910800, 'grad_time_ms': 639.242, 'update_time_ms': 2.158, 'sample_time_ms': 30912.659}",2025-08-30_22-37-37,cda-server-4,33.32514715194702,4554,1756586257,10.157.146.4,False,23221.295681238174,1200
+760,-618.9998568657603,760,912000,{},-681.6278308522026,912000,0,23251.942494630814,-490.3839777240791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 912000, 'default': {'kl': 0.012878382578492165, 'policy_loss': -0.14535056054592133, 'vf_loss': 163.81834411621094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9864711761474609, 'entropy': 8.373284339904785, 'cur_lr': 4.999999873689376e-05, 'total_loss': 163.69256591796875}, 'load_time_ms': 0.66, 'num_steps_sampled': 912000, 'grad_time_ms': 645.754, 'update_time_ms': 2.145, 'sample_time_ms': 30921.34}",2025-08-30_22-38-08,cda-server-4,30.64681339263916,4560,1756586288,10.157.146.4,False,23251.942494630814,1200
+761,-618.021648097806,761,913200,{},-681.6278308522026,913200,0,23285.711623430252,-490.3839777240791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 913200, 'default': {'kl': 0.011325579136610031, 'policy_loss': -0.11858269572257996, 'vf_loss': 121.52078247070312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9895936250686646, 'entropy': 8.70104694366455, 'cur_lr': 4.999999873689376e-05, 'total_loss': 121.41938018798828}, 'load_time_ms': 0.652, 'num_steps_sampled': 913200, 'grad_time_ms': 647.974, 'update_time_ms': 2.188, 'sample_time_ms': 30919.656}",2025-08-30_22-38-41,cda-server-4,33.76912879943848,4566,1756586321,10.157.146.4,False,23285.711623430252,1200
+762,-617.0589674365706,762,914400,{},-681.6278308522026,914400,0,23319.150102376938,-490.3839777240791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 914400, 'default': {'kl': 0.0117591992020607, 'policy_loss': -0.13870687782764435, 'vf_loss': 390.2163391113281, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9573100209236145, 'entropy': 8.21146011352539, 'cur_lr': 4.999999873689376e-05, 'total_loss': 390.09552001953125}, 'load_time_ms': 0.643, 'num_steps_sampled': 914400, 'grad_time_ms': 651.948, 'update_time_ms': 2.195, 'sample_time_ms': 31213.369}",2025-08-30_22-39-15,cda-server-4,33.43847894668579,4572,1756586355,10.157.146.4,False,23319.150102376938,1200
+763,-617.4335534697868,763,915600,{},-681.6278308522026,915600,0,23348.086534023285,-490.3839777240791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 915600, 'default': {'kl': 0.009395689703524113, 'policy_loss': -0.10970529913902283, 'vf_loss': 513.713134765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9314224720001221, 'entropy': 8.410070419311523, 'cur_lr': 4.999999873689376e-05, 'total_loss': 513.6177368164062}, 'load_time_ms': 0.642, 'num_steps_sampled': 915600, 'grad_time_ms': 630.849, 'update_time_ms': 2.197, 'sample_time_ms': 31200.815}",2025-08-30_22-39-44,cda-server-4,28.936431646347046,4578,1756586384,10.157.146.4,False,23348.086534023285,1200
+764,-619.6233911978081,764,916800,{},-681.6278308522026,916800,0,23377.560274362564,-490.3839777240791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 916800, 'default': {'kl': 0.009058069437742233, 'policy_loss': -0.13083723187446594, 'vf_loss': 467.22222900390625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9614075422286987, 'entropy': 9.16628646850586, 'cur_lr': 4.999999873689376e-05, 'total_loss': 467.1051330566406}, 'load_time_ms': 0.671, 'num_steps_sampled': 916800, 'grad_time_ms': 616.227, 'update_time_ms': 2.123, 'sample_time_ms': 30941.554}",2025-08-30_22-40-13,cda-server-4,29.473740339279175,4584,1756586413,10.157.146.4,False,23377.560274362564,1200
+765,-620.2342112685201,765,918000,{},-660.885034656831,918000,0,23409.01389336586,-490.3839777240791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 918000, 'default': {'kl': 0.011350144632160664, 'policy_loss': -0.13735361397266388, 'vf_loss': 330.8795166015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9658298492431641, 'entropy': 8.583413124084473, 'cur_lr': 4.999999873689376e-05, 'total_loss': 330.7593994140625}, 'load_time_ms': 0.652, 'num_steps_sampled': 918000, 'grad_time_ms': 612.419, 'update_time_ms': 2.126, 'sample_time_ms': 30851.559}",2025-08-30_22-40-45,cda-server-4,31.4536190032959,4590,1756586445,10.157.146.4,False,23409.01389336586,1200
+766,-620.3672178740238,766,919200,{},-660.885034656831,919200,0,23440.38298535347,-490.3839777240791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 919200, 'default': {'kl': 0.01171233132481575, 'policy_loss': -0.15354149043560028, 'vf_loss': 1417.1728515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8325172066688538, 'entropy': 8.374954223632812, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1417.0372314453125}, 'load_time_ms': 0.649, 'num_steps_sampled': 919200, 'grad_time_ms': 617.367, 'update_time_ms': 2.135, 'sample_time_ms': 30976.943}",2025-08-30_22-41-16,cda-server-4,31.369091987609863,4596,1756586476,10.157.146.4,False,23440.38298535347,1200
+767,-619.7907580152322,767,920400,{},-660.885034656831,920400,0,23470.66936326027,-490.3839777240791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 920400, 'default': {'kl': 0.01059836708009243, 'policy_loss': -0.13130098581314087, 'vf_loss': 372.8787841796875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9672018885612488, 'entropy': 8.129901885986328, 'cur_lr': 4.999999873689376e-05, 'total_loss': 372.7635803222656}, 'load_time_ms': 0.647, 'num_steps_sampled': 920400, 'grad_time_ms': 635.06, 'update_time_ms': 2.141, 'sample_time_ms': 31007.864}",2025-08-30_22-41-46,cda-server-4,30.286377906799316,4602,1756586506,10.157.146.4,False,23470.66936326027,1200
+768,-618.4429846149163,768,921600,{},-660.885034656831,921600,0,23500.41118335724,-490.3839777240791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 921600, 'default': {'kl': 0.010816942900419235, 'policy_loss': -0.12609902024269104, 'vf_loss': 1070.080322265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8491517305374146, 'entropy': 8.916098594665527, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1069.970703125}, 'load_time_ms': 0.624, 'num_steps_sampled': 921600, 'grad_time_ms': 655.051, 'update_time_ms': 2.198, 'sample_time_ms': 30582.046}",2025-08-30_22-42-16,cda-server-4,29.741820096969604,4608,1756586536,10.157.146.4,False,23500.41118335724,1200
+769,-617.9590900204114,769,922800,{},-660.9605758742799,922800,0,23532.070775032043,-490.3839777240791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 922800, 'default': {'kl': 0.009949802421033382, 'policy_loss': -0.11426646262407303, 'vf_loss': 498.4326171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9436075687408447, 'entropy': 8.523143768310547, 'cur_lr': 4.999999873689376e-05, 'total_loss': 498.33343505859375}, 'load_time_ms': 0.649, 'num_steps_sampled': 922800, 'grad_time_ms': 643.964, 'update_time_ms': 2.188, 'sample_time_ms': 30426.696}",2025-08-30_22-42-48,cda-server-4,31.659591674804688,4614,1756586568,10.157.146.4,False,23532.070775032043,1200
+770,-617.5079211353273,770,924000,{},-660.9605758742799,924000,0,23562.197200536728,-490.3839777240791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 924000, 'default': {'kl': 0.010830353945493698, 'policy_loss': -0.1325632631778717, 'vf_loss': 352.53631591796875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9541798830032349, 'entropy': 8.468048095703125, 'cur_lr': 4.999999873689376e-05, 'total_loss': 352.42022705078125}, 'load_time_ms': 0.661, 'num_steps_sampled': 924000, 'grad_time_ms': 634.492, 'update_time_ms': 2.17, 'sample_time_ms': 30384.2}",2025-08-30_22-43-18,cda-server-4,30.12642550468445,4620,1756586598,10.157.146.4,False,23562.197200536728,1200
+771,-617.4619830307245,771,925200,{},-660.9605758742799,925200,0,23592.631360054016,-490.3839777240791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 925200, 'default': {'kl': 0.009337563067674637, 'policy_loss': -0.12856031954288483, 'vf_loss': 368.8023681640625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9475710391998291, 'entropy': 8.790600776672363, 'cur_lr': 4.999999873689376e-05, 'total_loss': 368.6880187988281}, 'load_time_ms': 0.667, 'num_steps_sampled': 925200, 'grad_time_ms': 626.214, 'update_time_ms': 2.078, 'sample_time_ms': 30059.088}",2025-08-30_22-43-49,cda-server-4,30.434159517288208,4626,1756586629,10.157.146.4,False,23592.631360054016,1200
+772,-618.5763965435835,772,926400,{},-660.9605758742799,926400,0,23622.36448097229,-490.3839777240791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 926400, 'default': {'kl': 0.0096127949655056, 'policy_loss': -0.11984165757894516, 'vf_loss': 389.0948486328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9530026912689209, 'entropy': 8.428380012512207, 'cur_lr': 4.999999873689376e-05, 'total_loss': 388.9896240234375}, 'load_time_ms': 0.666, 'num_steps_sampled': 926400, 'grad_time_ms': 615.061, 'update_time_ms': 2.024, 'sample_time_ms': 29699.849}",2025-08-30_22-44-18,cda-server-4,29.733120918273926,4632,1756586658,10.157.146.4,False,23622.36448097229,1200
+773,-617.648159785148,773,927600,{},-677.0035312000097,927600,0,23654.236276626587,-490.3839777240791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 927600, 'default': {'kl': 0.012388224713504314, 'policy_loss': -0.14281558990478516, 'vf_loss': 390.9633483886719, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9531009197235107, 'entropy': 8.479877471923828, 'cur_lr': 4.999999873689376e-05, 'total_loss': 390.83935546875}, 'load_time_ms': 0.695, 'num_steps_sampled': 927600, 'grad_time_ms': 626.811, 'update_time_ms': 2.075, 'sample_time_ms': 29981.516}",2025-08-30_22-44-50,cda-server-4,31.871795654296875,4638,1756586690,10.157.146.4,False,23654.236276626587,1200
+774,-617.7908128980534,774,928800,{},-677.0035312000097,928800,0,23685.09935235977,-490.3839777240791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 928800, 'default': {'kl': 0.008803214877843857, 'policy_loss': -0.13878419995307922, 'vf_loss': 381.70904541015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9422679543495178, 'entropy': 8.554939270019531, 'cur_lr': 4.999999873689376e-05, 'total_loss': 381.5836181640625}, 'load_time_ms': 0.661, 'num_steps_sampled': 928800, 'grad_time_ms': 627.189, 'update_time_ms': 2.144, 'sample_time_ms': 30120.048}",2025-08-30_22-45-21,cda-server-4,30.863075733184814,4644,1756586721,10.157.146.4,False,23685.09935235977,1200
+775,-619.660478095555,775,930000,{},-677.0035312000097,930000,0,23715.911348104477,-498.2609084144236,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 930000, 'default': {'kl': 0.011460918933153152, 'policy_loss': -0.1428578644990921, 'vf_loss': 349.9024353027344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.967334508895874, 'entropy': 8.61740493774414, 'cur_lr': 4.999999873689376e-05, 'total_loss': 349.7769775390625}, 'load_time_ms': 0.666, 'num_steps_sampled': 930000, 'grad_time_ms': 636.895, 'update_time_ms': 2.082, 'sample_time_ms': 30046.193}",2025-08-30_22-45-52,cda-server-4,30.8119957447052,4650,1756586752,10.157.146.4,False,23715.911348104477,1200
+776,-619.2207430862389,776,931200,{},-677.0035312000097,931200,0,23745.169711351395,-498.2609084144236,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 931200, 'default': {'kl': 0.009880716912448406, 'policy_loss': -0.12177267670631409, 'vf_loss': 347.8214111328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9699321389198303, 'entropy': 8.750622749328613, 'cur_lr': 4.999999873689376e-05, 'total_loss': 347.7146911621094}, 'load_time_ms': 0.665, 'num_steps_sampled': 931200, 'grad_time_ms': 638.158, 'update_time_ms': 2.174, 'sample_time_ms': 29833.707}",2025-08-30_22-46-21,cda-server-4,29.258363246917725,4656,1756586781,10.157.146.4,False,23745.169711351395,1200
+777,-618.7678859281738,777,932400,{},-678.6256210159688,932400,0,23777.983783006668,-498.2609084144236,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 932400, 'default': {'kl': 0.007377209607511759, 'policy_loss': -0.1059289202094078, 'vf_loss': 764.0560302734375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8836434483528137, 'entropy': 8.216404914855957, 'cur_lr': 4.999999873689376e-05, 'total_loss': 763.9613037109375}, 'load_time_ms': 0.659, 'num_steps_sampled': 932400, 'grad_time_ms': 636.928, 'update_time_ms': 2.234, 'sample_time_ms': 30087.607}",2025-08-30_22-46-54,cda-server-4,32.81407165527344,4662,1756586814,10.157.146.4,False,23777.983783006668,1200
+778,-617.1316268515947,778,933600,{},-678.6256210159688,933600,0,23807.54709982872,-456.971305317847,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 933600, 'default': {'kl': 0.01180959865450859, 'policy_loss': -0.13984766602516174, 'vf_loss': 454.57672119140625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.963428258895874, 'entropy': 8.30264663696289, 'cur_lr': 4.999999873689376e-05, 'total_loss': 454.4548034667969}, 'load_time_ms': 0.662, 'num_steps_sampled': 933600, 'grad_time_ms': 639.821, 'update_time_ms': 2.269, 'sample_time_ms': 30066.89}",2025-08-30_22-47-24,cda-server-4,29.563316822052002,4668,1756586844,10.157.146.4,False,23807.54709982872,1200
+779,-618.5172703996312,779,934800,{},-678.6256210159688,934800,0,23838.19767332077,-456.971305317847,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 934800, 'default': {'kl': 0.008998127654194832, 'policy_loss': -0.119558185338974, 'vf_loss': 509.8059387207031, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9386389255523682, 'entropy': 8.828438758850098, 'cur_lr': 4.999999873689376e-05, 'total_loss': 509.7000732421875}, 'load_time_ms': 0.631, 'num_steps_sampled': 934800, 'grad_time_ms': 638.017, 'update_time_ms': 2.236, 'sample_time_ms': 29967.751}",2025-08-30_22-47-54,cda-server-4,30.65057349205017,4674,1756586874,10.157.146.4,False,23838.19767332077,1200
+780,-618.23065616367,780,936000,{},-682.232984703791,936000,0,23870.766876220703,-456.971305317847,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 936000, 'default': {'kl': 0.009534847922623158, 'policy_loss': -0.1124785766005516, 'vf_loss': 487.59429931640625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9222615361213684, 'entropy': 8.95103645324707, 'cur_lr': 4.999999873689376e-05, 'total_loss': 487.4963073730469}, 'load_time_ms': 0.615, 'num_steps_sampled': 936000, 'grad_time_ms': 637.658, 'update_time_ms': 2.411, 'sample_time_ms': 30212.185}",2025-08-30_22-48-27,cda-server-4,32.56920289993286,4680,1756586907,10.157.146.4,False,23870.766876220703,1200
+781,-616.812257393703,781,937200,{},-682.232984703791,937200,0,23900.57979106903,-456.971305317847,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 937200, 'default': {'kl': 0.010708576999604702, 'policy_loss': -0.13520297408103943, 'vf_loss': 118.31809997558594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9838254451751709, 'entropy': 8.631179809570312, 'cur_lr': 4.999999873689376e-05, 'total_loss': 118.19915008544922}, 'load_time_ms': 0.621, 'num_steps_sampled': 937200, 'grad_time_ms': 646.827, 'update_time_ms': 2.434, 'sample_time_ms': 30140.893}",2025-08-30_22-48-57,cda-server-4,29.812914848327637,4686,1756586937,10.157.146.4,False,23900.57979106903,1200
+782,-617.3295966502297,782,938400,{},-682.232984703791,938400,0,23932.06708741188,-456.971305317847,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 938400, 'default': {'kl': 0.009899154305458069, 'policy_loss': -0.11887913197278976, 'vf_loss': 257.3402099609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9670933485031128, 'entropy': 8.402328491210938, 'cur_lr': 4.999999873689376e-05, 'total_loss': 257.2363586425781}, 'load_time_ms': 0.624, 'num_steps_sampled': 938400, 'grad_time_ms': 660.256, 'update_time_ms': 2.453, 'sample_time_ms': 30302.792}",2025-08-30_22-49-28,cda-server-4,31.48729634284973,4692,1756586968,10.157.146.4,False,23932.06708741188,1200
+783,-617.4519810862099,783,939600,{},-682.232984703791,939600,0,23962.934200525284,-456.971305317847,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 939600, 'default': {'kl': 0.0093756765127182, 'policy_loss': -0.13369256258010864, 'vf_loss': 977.4959716796875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8760316371917725, 'entropy': 8.592076301574707, 'cur_lr': 4.999999873689376e-05, 'total_loss': 977.3765258789062}, 'load_time_ms': 0.6, 'num_steps_sampled': 939600, 'grad_time_ms': 651.307, 'update_time_ms': 2.452, 'sample_time_ms': 30211.368}",2025-08-30_22-49-59,cda-server-4,30.86711311340332,4698,1756586999,10.157.146.4,False,23962.934200525284,1200
+784,-618.0847631466828,784,940800,{},-682.232984703791,940800,0,23995.365948200226,-456.971305317847,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 940800, 'default': {'kl': 0.008553016930818558, 'policy_loss': -0.11936553567647934, 'vf_loss': 601.58837890625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8992481231689453, 'entropy': 8.147379875183105, 'cur_lr': 4.999999873689376e-05, 'total_loss': 601.4819946289062}, 'load_time_ms': 0.603, 'num_steps_sampled': 940800, 'grad_time_ms': 679.608, 'update_time_ms': 2.387, 'sample_time_ms': 30339.901}",2025-08-30_22-50-31,cda-server-4,32.43174767494202,4704,1756587031,10.157.146.4,False,23995.365948200226,1200
+785,-619.8749235047128,785,942000,{},-682.232984703791,942000,0,24027.414561986923,-456.971305317847,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 942000, 'default': {'kl': 0.008565007708966732, 'policy_loss': -0.11624272912740707, 'vf_loss': 380.5303955078125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9377307891845703, 'entropy': 8.64648723602295, 'cur_lr': 4.999999873689376e-05, 'total_loss': 380.4271240234375}, 'load_time_ms': 0.611, 'num_steps_sampled': 942000, 'grad_time_ms': 673.18, 'update_time_ms': 2.623, 'sample_time_ms': 30469.815}",2025-08-30_22-51-04,cda-server-4,32.04861378669739,4710,1756587064,10.157.146.4,False,24027.414561986923,1200
+786,-618.2490825945291,786,943200,{},-682.232984703791,943200,0,24057.224660873413,-456.971305317847,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 943200, 'default': {'kl': 0.010959829203784466, 'policy_loss': -0.12254762649536133, 'vf_loss': 615.3468627929688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9549217224121094, 'entropy': 8.04141616821289, 'cur_lr': 4.999999873689376e-05, 'total_loss': 615.240966796875}, 'load_time_ms': 0.622, 'num_steps_sampled': 943200, 'grad_time_ms': 663.542, 'update_time_ms': 2.575, 'sample_time_ms': 30534.684}",2025-08-30_22-51-33,cda-server-4,29.810098886489868,4716,1756587093,10.157.146.4,False,24057.224660873413,1200
+787,-619.0756545355628,787,944400,{},-682.232984703791,944400,0,24088.28103995323,-456.971305317847,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 944400, 'default': {'kl': 0.010092006996273994, 'policy_loss': -0.12875035405158997, 'vf_loss': 500.8063049316406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9487265348434448, 'entropy': 8.538982391357422, 'cur_lr': 4.999999873689376e-05, 'total_loss': 500.69281005859375}, 'load_time_ms': 0.62, 'num_steps_sampled': 944400, 'grad_time_ms': 661.079, 'update_time_ms': 2.529, 'sample_time_ms': 30361.475}",2025-08-30_22-52-04,cda-server-4,31.056379079818726,4722,1756587124,10.157.146.4,False,24088.28103995323,1200
+788,-616.9257053589571,788,945600,{},-682.232984703791,945600,0,24120.133912086487,-456.971305317847,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 945600, 'default': {'kl': 0.011620281264185905, 'policy_loss': -0.1436612606048584, 'vf_loss': 460.1720886230469, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9342261552810669, 'entropy': 8.546735763549805, 'cur_lr': 4.999999873689376e-05, 'total_loss': 460.0461120605469}, 'load_time_ms': 0.623, 'num_steps_sampled': 945600, 'grad_time_ms': 664.526, 'update_time_ms': 2.522, 'sample_time_ms': 30586.955}",2025-08-30_22-52-36,cda-server-4,31.852872133255005,4728,1756587156,10.157.146.4,False,24120.133912086487,1200
+789,-616.6020916032044,789,946800,{},-682.232984703791,946800,0,24150.974388360977,-456.971305317847,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 946800, 'default': {'kl': 0.011353711597621441, 'policy_loss': -0.1364479959011078, 'vf_loss': 349.1905822753906, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9572845101356506, 'entropy': 8.222609519958496, 'cur_lr': 4.999999873689376e-05, 'total_loss': 349.0714111328125}, 'load_time_ms': 0.633, 'num_steps_sampled': 946800, 'grad_time_ms': 672.581, 'update_time_ms': 2.542, 'sample_time_ms': 30597.911}",2025-08-30_22-53-07,cda-server-4,30.840476274490356,4734,1756587187,10.157.146.4,False,24150.974388360977,1200
+790,-618.0625976085344,790,948000,{},-682.232984703791,948000,0,24180.432316064835,-456.971305317847,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 948000, 'default': {'kl': 0.013570081442594528, 'policy_loss': -0.13363581895828247, 'vf_loss': 141.90858459472656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9803833365440369, 'entropy': 8.579425811767578, 'cur_lr': 4.999999873689376e-05, 'total_loss': 141.79554748535156}, 'load_time_ms': 0.636, 'num_steps_sampled': 948000, 'grad_time_ms': 680.232, 'update_time_ms': 2.354, 'sample_time_ms': 30279.324}",2025-08-30_22-53-37,cda-server-4,29.457927703857422,4740,1756587217,10.157.146.4,False,24180.432316064835,1200
+791,-616.9302080780805,791,949200,{},-682.232984703791,949200,0,24211.73507142067,-456.971305317847,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 949200, 'default': {'kl': 0.011732811108231544, 'policy_loss': -0.14369820058345795, 'vf_loss': 959.166259765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9636921286582947, 'entropy': 8.297252655029297, 'cur_lr': 4.999999873689376e-05, 'total_loss': 959.0403442382812}, 'load_time_ms': 0.625, 'num_steps_sampled': 949200, 'grad_time_ms': 681.291, 'update_time_ms': 2.371, 'sample_time_ms': 30427.156}",2025-08-30_22-54-08,cda-server-4,31.30275535583496,4746,1756587248,10.157.146.4,False,24211.73507142067,1200
+792,-616.3319022985244,792,950400,{},-682.232984703791,950400,0,24242.298273324966,-456.971305317847,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 950400, 'default': {'kl': 0.009275643154978752, 'policy_loss': -0.11351803690195084, 'vf_loss': 401.2407531738281, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9441074728965759, 'entropy': 8.123478889465332, 'cur_lr': 4.999999873689376e-05, 'total_loss': 401.14129638671875}, 'load_time_ms': 0.624, 'num_steps_sampled': 950400, 'grad_time_ms': 677.089, 'update_time_ms': 2.369, 'sample_time_ms': 30338.945}",2025-08-30_22-54-39,cda-server-4,30.563201904296875,4752,1756587279,10.157.146.4,False,24242.298273324966,1200
+793,-614.9463348238053,793,951600,{},-682.232984703791,951600,0,24273.148542165756,-456.971305317847,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 951600, 'default': {'kl': 0.009811273775994778, 'policy_loss': -0.12209924310445786, 'vf_loss': 354.7138671875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9503563642501831, 'entropy': 7.944812297821045, 'cur_lr': 4.999999873689376e-05, 'total_loss': 354.6066589355469}, 'load_time_ms': 0.629, 'num_steps_sampled': 951600, 'grad_time_ms': 695.101, 'update_time_ms': 2.341, 'sample_time_ms': 30319.232}",2025-08-30_22-55-09,cda-server-4,30.850268840789795,4758,1756587309,10.157.146.4,False,24273.148542165756,1200
+794,-616.9800990135174,794,952800,{},-682.232984703791,952800,0,24301.008211135864,-462.0467579791261,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 952800, 'default': {'kl': 0.011599867604672909, 'policy_loss': -0.12965898215770721, 'vf_loss': 271.25494384765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.962688148021698, 'entropy': 8.584208488464355, 'cur_lr': 4.999999873689376e-05, 'total_loss': 271.1429138183594}, 'load_time_ms': 0.631, 'num_steps_sampled': 952800, 'grad_time_ms': 659.629, 'update_time_ms': 2.415, 'sample_time_ms': 29897.512}",2025-08-30_22-55-37,cda-server-4,27.859668970108032,4764,1756587337,10.157.146.4,False,24301.008211135864,1200
+795,-617.2758571129427,795,954000,{},-682.232984703791,954000,0,24331.194785118103,-462.0467579791261,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 954000, 'default': {'kl': 0.010118423961102962, 'policy_loss': -0.12583065032958984, 'vf_loss': 283.4810485839844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9631593227386475, 'entropy': 8.14030647277832, 'cur_lr': 4.999999873689376e-05, 'total_loss': 283.3705749511719}, 'load_time_ms': 0.621, 'num_steps_sampled': 954000, 'grad_time_ms': 651.763, 'update_time_ms': 2.221, 'sample_time_ms': 29719.333}",2025-08-30_22-56-07,cda-server-4,30.18657398223877,4770,1756587367,10.157.146.4,False,24331.194785118103,1200
+796,-617.3903247706859,796,955200,{},-680.910862018182,955200,0,24363.874492168427,-462.0467579791261,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 955200, 'default': {'kl': 0.012515135109424591, 'policy_loss': -0.14742593467235565, 'vf_loss': 412.6019592285156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9536768794059753, 'entropy': 8.435380935668945, 'cur_lr': 4.999999873689376e-05, 'total_loss': 412.4735412597656}, 'load_time_ms': 0.614, 'num_steps_sampled': 955200, 'grad_time_ms': 647.917, 'update_time_ms': 2.238, 'sample_time_ms': 30010.179}",2025-08-30_22-56-40,cda-server-4,32.679707050323486,4776,1756587400,10.157.146.4,False,24363.874492168427,1200
+797,-618.110649569905,797,956400,{},-680.910862018182,956400,0,24393.843097686768,-462.0467579791261,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 956400, 'default': {'kl': 0.009970907121896744, 'policy_loss': -0.13550782203674316, 'vf_loss': 293.62615966796875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9602752327919006, 'entropy': 8.389580726623535, 'cur_lr': 4.999999873689376e-05, 'total_loss': 293.50579833984375}, 'load_time_ms': 0.623, 'num_steps_sampled': 956400, 'grad_time_ms': 639.075, 'update_time_ms': 2.229, 'sample_time_ms': 29910.289}",2025-08-30_22-57-10,cda-server-4,29.968605518341064,4782,1756587430,10.157.146.4,False,24393.843097686768,1200
+798,-617.4823953189282,798,957600,{},-680.910862018182,957600,0,24423.601734876633,-462.0467579791261,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 957600, 'default': {'kl': 0.010745096951723099, 'policy_loss': -0.13857348263263702, 'vf_loss': 276.32391357421875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9733731150627136, 'entropy': 8.495758056640625, 'cur_lr': 4.999999873689376e-05, 'total_loss': 276.20166015625}, 'load_time_ms': 0.641, 'num_steps_sampled': 957600, 'grad_time_ms': 629.508, 'update_time_ms': 2.191, 'sample_time_ms': 29710.435}",2025-08-30_22-57-40,cda-server-4,29.758637189865112,4788,1756587460,10.157.146.4,False,24423.601734876633,1200
+799,-616.9769118076562,799,958800,{},-680.910862018182,958800,0,24457.09190106392,-462.0467579791261,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 958800, 'default': {'kl': 0.009615018963813782, 'policy_loss': -0.12914477288722992, 'vf_loss': 624.3413696289062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9329981207847595, 'entropy': 8.25693130493164, 'cur_lr': 4.999999873689376e-05, 'total_loss': 624.226806640625}, 'load_time_ms': 0.63, 'num_steps_sampled': 958800, 'grad_time_ms': 632.136, 'update_time_ms': 2.207, 'sample_time_ms': 29972.801}",2025-08-30_22-58-13,cda-server-4,33.49016618728638,4794,1756587493,10.157.146.4,False,24457.09190106392,1200
+800,-617.3368035566111,800,960000,{},-680.910862018182,960000,0,24487.515795230865,-462.0467579791261,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 960000, 'default': {'kl': 0.009975354187190533, 'policy_loss': -0.1223042830824852, 'vf_loss': 363.14239501953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9666277766227722, 'entropy': 8.993130683898926, 'cur_lr': 4.999999873689376e-05, 'total_loss': 363.0352478027344}, 'load_time_ms': 0.638, 'num_steps_sampled': 960000, 'grad_time_ms': 632.298, 'update_time_ms': 2.274, 'sample_time_ms': 30069.171}",2025-08-30_22-58-44,cda-server-4,30.42389416694641,4800,1756587524,10.157.146.4,False,24487.515795230865,1200
+801,-616.7778975062632,801,961200,{},-680.910862018182,961200,0,24520.158903360367,-462.0467579791261,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 961200, 'default': {'kl': 0.009303072467446327, 'policy_loss': -0.11772796511650085, 'vf_loss': 475.03326416015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9509909749031067, 'entropy': 8.57107925415039, 'cur_lr': 4.999999873689376e-05, 'total_loss': 474.92962646484375}, 'load_time_ms': 0.64, 'num_steps_sampled': 961200, 'grad_time_ms': 620.412, 'update_time_ms': 2.307, 'sample_time_ms': 30215.141}",2025-08-30_22-59-17,cda-server-4,32.64310812950134,4806,1756587557,10.157.146.4,False,24520.158903360367,1200
+802,-616.2160137290562,802,962400,{},-680.910862018182,962400,0,24551.8845410347,-462.0467579791261,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 962400, 'default': {'kl': 0.009475103579461575, 'policy_loss': -0.12203587591648102, 'vf_loss': 210.399658203125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9750916957855225, 'entropy': 8.455570220947266, 'cur_lr': 4.999999873689376e-05, 'total_loss': 210.2919921875}, 'load_time_ms': 0.634, 'num_steps_sampled': 962400, 'grad_time_ms': 621.209, 'update_time_ms': 2.298, 'sample_time_ms': 30330.691}",2025-08-30_22-59-48,cda-server-4,31.725637674331665,4812,1756587588,10.157.146.4,False,24551.8845410347,1200
+803,-616.8965897785365,803,963600,{},-680.910862018182,963600,0,24583.31604361534,-462.0467579791261,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 963600, 'default': {'kl': 0.009223456494510174, 'policy_loss': -0.1269763708114624, 'vf_loss': 502.74273681640625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9389813542366028, 'entropy': 8.771031379699707, 'cur_lr': 4.999999873689376e-05, 'total_loss': 502.6297607421875}, 'load_time_ms': 0.651, 'num_steps_sampled': 963600, 'grad_time_ms': 624.304, 'update_time_ms': 2.254, 'sample_time_ms': 30385.712}",2025-08-30_23-00-20,cda-server-4,31.4315025806427,4818,1756587620,10.157.146.4,False,24583.31604361534,1200
+804,-617.6859885259414,804,964800,{},-680.910862018182,964800,0,24613.62823319435,-462.0467579791261,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 964800, 'default': {'kl': 0.00977497547864914, 'policy_loss': -0.13748212158679962, 'vf_loss': 230.48699951171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9661884307861328, 'entropy': 8.533207893371582, 'cur_lr': 4.999999873689376e-05, 'total_loss': 230.36436462402344}, 'load_time_ms': 0.658, 'num_steps_sampled': 964800, 'grad_time_ms': 641.748, 'update_time_ms': 2.209, 'sample_time_ms': 30613.552}",2025-08-30_23-00-50,cda-server-4,30.31218957901001,4824,1756587650,10.157.146.4,False,24613.62823319435,1200
+805,-618.866306977487,805,966000,{},-680.910862018182,966000,0,24643.110585212708,-567.0866143162455,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 966000, 'default': {'kl': 0.008465996012091637, 'policy_loss': -0.1302030235528946, 'vf_loss': 97.72959899902344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9887266159057617, 'entropy': 8.678384780883789, 'cur_lr': 4.999999873689376e-05, 'total_loss': 97.61225891113281}, 'load_time_ms': 0.658, 'num_steps_sampled': 966000, 'grad_time_ms': 650.105, 'update_time_ms': 2.215, 'sample_time_ms': 30534.772}",2025-08-30_23-01-20,cda-server-4,29.482352018356323,4830,1756587680,10.157.146.4,False,24643.110585212708,1200
+806,-618.49784656158,806,967200,{},-671.2708866022449,967200,0,24676.277683258057,-567.0866143162455,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 967200, 'default': {'kl': 0.008271808736026287, 'policy_loss': -0.11396095156669617, 'vf_loss': 306.2438049316406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9753449559211731, 'entropy': 8.42092514038086, 'cur_lr': 4.999999873689376e-05, 'total_loss': 306.1424255371094}, 'load_time_ms': 0.655, 'num_steps_sampled': 967200, 'grad_time_ms': 667.379, 'update_time_ms': 2.238, 'sample_time_ms': 30566.134}",2025-08-30_23-01-53,cda-server-4,33.16709804534912,4836,1756587713,10.157.146.4,False,24676.277683258057,1200
+807,-619.0588052367461,807,968400,{},-671.2708866022449,968400,0,24706.94550395012,-567.0866143162455,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 968400, 'default': {'kl': 0.01057616900652647, 'policy_loss': -0.13372217118740082, 'vf_loss': 355.6243591308594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9661322832107544, 'entropy': 8.420702934265137, 'cur_lr': 4.999999873689376e-05, 'total_loss': 355.5067138671875}, 'load_time_ms': 0.644, 'num_steps_sampled': 968400, 'grad_time_ms': 680.147, 'update_time_ms': 2.284, 'sample_time_ms': 30623.266}",2025-08-30_23-02-23,cda-server-4,30.667820692062378,4842,1756587743,10.157.146.4,False,24706.94550395012,1200
+808,-620.6012216102421,808,969600,{},-795.6608774783772,969600,0,24739.103223085403,-567.0866143162455,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 969600, 'default': {'kl': 0.01153232716023922, 'policy_loss': -0.14038197696208954, 'vf_loss': 1815.8182373046875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8234453797340393, 'entropy': 8.622246742248535, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1815.695556640625}, 'load_time_ms': 0.621, 'num_steps_sampled': 969600, 'grad_time_ms': 690.878, 'update_time_ms': 2.305, 'sample_time_ms': 30852.459}",2025-08-30_23-02-56,cda-server-4,32.157719135284424,4848,1756587776,10.157.146.4,False,24739.103223085403,1200
+809,-620.6389542321517,809,970800,{},-795.6608774783772,970800,0,24769.45698595047,-518.9058223383454,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 970800, 'default': {'kl': 0.011857944540679455, 'policy_loss': -0.13925303518772125, 'vf_loss': 216.44122314453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9693084359169006, 'entropy': 8.522147178649902, 'cur_lr': 4.999999873689376e-05, 'total_loss': 216.3199462890625}, 'load_time_ms': 0.625, 'num_steps_sampled': 970800, 'grad_time_ms': 697.281, 'update_time_ms': 2.41, 'sample_time_ms': 30532.286}",2025-08-30_23-03-26,cda-server-4,30.35376286506653,4854,1756587806,10.157.146.4,False,24769.45698595047,1200
+810,-621.3529827972724,810,972000,{},-795.6608774783772,972000,0,24802.595408201218,-518.9058223383454,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 972000, 'default': {'kl': 0.010155360214412212, 'policy_loss': -0.13946455717086792, 'vf_loss': 501.6208190917969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9592635631561279, 'entropy': 8.480259895324707, 'cur_lr': 4.999999873689376e-05, 'total_loss': 501.4967956542969}, 'load_time_ms': 0.624, 'num_steps_sampled': 972000, 'grad_time_ms': 702.06, 'update_time_ms': 2.349, 'sample_time_ms': 30798.987}",2025-08-30_23-03-59,cda-server-4,33.13842225074768,4860,1756587839,10.157.146.4,False,24802.595408201218,1200
+811,-622.5174318049312,811,973200,{},-795.6608774783772,973200,0,24831.671720266342,-518.9058223383454,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 973200, 'default': {'kl': 0.011253601871430874, 'policy_loss': -0.132335364818573, 'vf_loss': 909.946533203125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9252855777740479, 'entropy': 8.736084938049316, 'cur_lr': 4.999999873689376e-05, 'total_loss': 909.831298828125}, 'load_time_ms': 0.625, 'num_steps_sampled': 973200, 'grad_time_ms': 716.276, 'update_time_ms': 2.342, 'sample_time_ms': 30427.998}",2025-08-30_23-04-28,cda-server-4,29.07631206512451,4866,1756587868,10.157.146.4,False,24831.671720266342,1200
+812,-621.7981644045038,812,974400,{},-795.6608774783772,974400,0,24861.40155315399,-518.9058223383454,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 974400, 'default': {'kl': 0.010779048316180706, 'policy_loss': -0.1297629326581955, 'vf_loss': 227.63180541992188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9729069471359253, 'entropy': 8.060138702392578, 'cur_lr': 4.999999873689376e-05, 'total_loss': 227.5184326171875}, 'load_time_ms': 0.631, 'num_steps_sampled': 974400, 'grad_time_ms': 721.952, 'update_time_ms': 2.403, 'sample_time_ms': 30222.633}",2025-08-30_23-04-58,cda-server-4,29.729832887649536,4872,1756587898,10.157.146.4,False,24861.40155315399,1200
+813,-620.6455984539359,813,975600,{},-795.6608774783772,975600,0,24894.560876846313,-518.9058223383454,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 975600, 'default': {'kl': 0.010235454887151718, 'policy_loss': -0.12713530659675598, 'vf_loss': 711.3500366210938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9149748682975769, 'entropy': 8.074166297912598, 'cur_lr': 4.999999873689376e-05, 'total_loss': 711.238525390625}, 'load_time_ms': 0.601, 'num_steps_sampled': 975600, 'grad_time_ms': 729.781, 'update_time_ms': 2.471, 'sample_time_ms': 30387.566}",2025-08-30_23-05-31,cda-server-4,33.15932369232178,4878,1756587931,10.157.146.4,False,24894.560876846313,1200
+814,-621.8461453627066,814,976800,{},-795.6608774783772,976800,0,24925.988095998764,-518.9058223383454,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 976800, 'default': {'kl': 0.010822538286447525, 'policy_loss': -0.13819581270217896, 'vf_loss': 657.268798828125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9313454031944275, 'entropy': 8.60904312133789, 'cur_lr': 4.999999873689376e-05, 'total_loss': 657.14697265625}, 'load_time_ms': 0.594, 'num_steps_sampled': 976800, 'grad_time_ms': 734.008, 'update_time_ms': 2.766, 'sample_time_ms': 30494.538}",2025-08-30_23-06-03,cda-server-4,31.42721915245056,4884,1756587963,10.157.146.4,False,24925.988095998764,1200
+815,-622.0528931783807,815,978000,{},-795.6608774783772,978000,0,24958.921911001205,-518.9058223383454,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 978000, 'default': {'kl': 0.011980934999883175, 'policy_loss': -0.14205758273601532, 'vf_loss': 61.07197952270508, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9911708831787109, 'entropy': 8.249730110168457, 'cur_lr': 4.999999873689376e-05, 'total_loss': 60.9481201171875}, 'load_time_ms': 0.624, 'num_steps_sampled': 978000, 'grad_time_ms': 722.182, 'update_time_ms': 2.764, 'sample_time_ms': 30851.507}",2025-08-30_23-06-36,cda-server-4,32.933815002441406,4890,1756587996,10.157.146.4,False,24958.921911001205,1200
+816,-622.4546428724608,816,979200,{},-795.6608774783772,979200,0,24988.362748622894,-518.9058223383454,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 979200, 'default': {'kl': 0.00988820195198059, 'policy_loss': -0.12943702936172485, 'vf_loss': 248.39239501953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9687218070030212, 'entropy': 8.496028900146484, 'cur_lr': 4.999999873689376e-05, 'total_loss': 248.27796936035156}, 'load_time_ms': 0.627, 'num_steps_sampled': 979200, 'grad_time_ms': 724.312, 'update_time_ms': 2.691, 'sample_time_ms': 30476.813}",2025-08-30_23-07-05,cda-server-4,29.440837621688843,4896,1756588025,10.157.146.4,False,24988.362748622894,1200
+817,-621.7537301512481,817,980400,{},-795.6608774783772,980400,0,25020.577302455902,-518.9058223383454,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 980400, 'default': {'kl': 0.01077166199684143, 'policy_loss': -0.14009246230125427, 'vf_loss': 624.4223022460938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9217094779014587, 'entropy': 8.993009567260742, 'cur_lr': 4.999999873689376e-05, 'total_loss': 624.2985229492188}, 'load_time_ms': 0.638, 'num_steps_sampled': 980400, 'grad_time_ms': 732.76, 'update_time_ms': 2.678, 'sample_time_ms': 30622.996}",2025-08-30_23-07-37,cda-server-4,32.21455383300781,4902,1756588057,10.157.146.4,False,25020.577302455902,1200
+818,-622.7902129687518,818,981600,{},-795.6608774783772,981600,0,25049.605474233627,-518.9058223383454,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 981600, 'default': {'kl': 0.011098641902208328, 'policy_loss': -0.14164811372756958, 'vf_loss': 303.3591003417969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9631001353263855, 'entropy': 8.632856369018555, 'cur_lr': 4.999999873689376e-05, 'total_loss': 303.2342834472656}, 'load_time_ms': 0.632, 'num_steps_sampled': 981600, 'grad_time_ms': 727.527, 'update_time_ms': 2.703, 'sample_time_ms': 30315.268}",2025-08-30_23-08-06,cda-server-4,29.02817177772522,4908,1756588086,10.157.146.4,False,25049.605474233627,1200
+819,-624.4523467328033,819,982800,{},-795.6608774783772,982800,0,25081.449553012848,-518.9058223383454,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 982800, 'default': {'kl': 0.00926895346492529, 'policy_loss': -0.132496178150177, 'vf_loss': 654.1864624023438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9138028025627136, 'entropy': 8.86606216430664, 'cur_lr': 4.999999873689376e-05, 'total_loss': 654.0679931640625}, 'load_time_ms': 0.656, 'num_steps_sampled': 982800, 'grad_time_ms': 711.51, 'update_time_ms': 2.642, 'sample_time_ms': 30480.345}",2025-08-30_23-08-38,cda-server-4,31.84407877922058,4914,1756588118,10.157.146.4,False,25081.449553012848,1200
+820,-623.3140771863203,820,984000,{},-795.6608774783772,984000,0,25112.337039470673,-490.39339904058795,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 984000, 'default': {'kl': 0.012519365176558495, 'policy_loss': -0.14844690263271332, 'vf_loss': 555.854248046875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9543386101722717, 'entropy': 8.193727493286133, 'cur_lr': 4.999999873689376e-05, 'total_loss': 555.724853515625}, 'load_time_ms': 0.645, 'num_steps_sampled': 984000, 'grad_time_ms': 696.541, 'update_time_ms': 2.685, 'sample_time_ms': 30270.236}",2025-08-30_23-09-09,cda-server-4,30.887486457824707,4920,1756588149,10.157.146.4,False,25112.337039470673,1200
+821,-623.3736300552966,821,985200,{},-795.6608774783772,985200,0,25145.192175865173,-490.39339904058795,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 985200, 'default': {'kl': 0.009890229441225529, 'policy_loss': -0.13429845869541168, 'vf_loss': 238.9169921875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9728238582611084, 'entropy': 8.463912963867188, 'cur_lr': 4.999999873689376e-05, 'total_loss': 238.79771423339844}, 'load_time_ms': 0.642, 'num_steps_sampled': 985200, 'grad_time_ms': 669.732, 'update_time_ms': 2.662, 'sample_time_ms': 30675.049}",2025-08-30_23-09-42,cda-server-4,32.85513639450073,4926,1756588182,10.157.146.4,False,25145.192175865173,1200
+822,-623.1115460795901,822,986400,{},-795.6608774783772,986400,0,25175.092620134354,-490.39339904058795,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 986400, 'default': {'kl': 0.007772459648549557, 'policy_loss': -0.11883541941642761, 'vf_loss': 428.6787109375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9411756992340088, 'entropy': 8.100112915039062, 'cur_lr': 4.999999873689376e-05, 'total_loss': 428.5716552734375}, 'load_time_ms': 0.639, 'num_steps_sampled': 986400, 'grad_time_ms': 665.862, 'update_time_ms': 2.612, 'sample_time_ms': 30696.061}",2025-08-30_23-10-12,cda-server-4,29.900444269180298,4932,1756588212,10.157.146.4,False,25175.092620134354,1200
+823,-622.5223473919036,823,987600,{},-795.6608774783772,987600,0,25207.35070681572,-490.39339904058795,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 987600, 'default': {'kl': 0.00948462262749672, 'policy_loss': -0.1226629689335823, 'vf_loss': 191.89393615722656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9723497033119202, 'entropy': 8.355042457580566, 'cur_lr': 4.999999873689376e-05, 'total_loss': 191.7856903076172}, 'load_time_ms': 0.665, 'num_steps_sampled': 987600, 'grad_time_ms': 656.039, 'update_time_ms': 2.624, 'sample_time_ms': 30615.703}",2025-08-30_23-10-44,cda-server-4,32.25808668136597,4938,1756588244,10.157.146.4,False,25207.35070681572,1200
+824,-623.0042322987746,824,988800,{},-795.6608774783772,988800,0,25238.88271355629,-490.39339904058795,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 988800, 'default': {'kl': 0.011137357912957668, 'policy_loss': -0.1367693841457367, 'vf_loss': 247.49783325195312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.970861554145813, 'entropy': 8.342341423034668, 'cur_lr': 4.999999873689376e-05, 'total_loss': 247.37799072265625}, 'load_time_ms': 0.699, 'num_steps_sampled': 988800, 'grad_time_ms': 657.406, 'update_time_ms': 2.377, 'sample_time_ms': 30624.985}",2025-08-30_23-11-16,cda-server-4,31.53200674057007,4944,1756588276,10.157.146.4,False,25238.88271355629,1200
+825,-620.3582833465944,825,990000,{},-794.7367260721951,990000,0,25267.312995672226,-490.39339904058795,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 990000, 'default': {'kl': 0.01064034178853035, 'policy_loss': -0.12788432836532593, 'vf_loss': 306.409423828125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9671742916107178, 'entropy': 8.25655746459961, 'cur_lr': 4.999999873689376e-05, 'total_loss': 306.2977294921875}, 'load_time_ms': 0.677, 'num_steps_sampled': 990000, 'grad_time_ms': 675.386, 'update_time_ms': 2.411, 'sample_time_ms': 30156.664}",2025-08-30_23-11-44,cda-server-4,28.43028211593628,4950,1756588304,10.157.146.4,False,25267.312995672226,1200
+826,-622.7879799822118,826,991200,{},-794.7367260721951,991200,0,25299.853471279144,-490.39339904058795,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 991200, 'default': {'kl': 0.010997087694704533, 'policy_loss': -0.13349178433418274, 'vf_loss': 1253.370849609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8539827466011047, 'entropy': 8.306270599365234, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1253.254150390625}, 'load_time_ms': 0.671, 'num_steps_sampled': 991200, 'grad_time_ms': 660.803, 'update_time_ms': 2.458, 'sample_time_ms': 30481.241}",2025-08-30_23-12-17,cda-server-4,32.540475606918335,4956,1756588337,10.157.146.4,False,25299.853471279144,1200
+827,-622.6907449563071,827,992400,{},-794.7367260721951,992400,0,25331.844441890717,-490.39339904058795,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 992400, 'default': {'kl': 0.01100196223706007, 'policy_loss': -0.14537866413593292, 'vf_loss': 278.26519775390625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9681308269500732, 'entropy': 8.619808197021484, 'cur_lr': 4.999999873689376e-05, 'total_loss': 278.1365051269531}, 'load_time_ms': 0.668, 'num_steps_sampled': 992400, 'grad_time_ms': 639.799, 'update_time_ms': 2.424, 'sample_time_ms': 30480.016}",2025-08-30_23-12-49,cda-server-4,31.990970611572266,4962,1756588369,10.157.146.4,False,25331.844441890717,1200
+828,-622.0427210797483,828,993600,{},-767.6431110753841,993600,0,25359.234493017197,-490.39339904058795,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 993600, 'default': {'kl': 0.011769892647862434, 'policy_loss': -0.13528741896152496, 'vf_loss': 629.2464599609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9293681383132935, 'entropy': 8.572513580322266, 'cur_lr': 4.999999873689376e-05, 'total_loss': 629.129150390625}, 'load_time_ms': 0.696, 'num_steps_sampled': 993600, 'grad_time_ms': 639.532, 'update_time_ms': 2.347, 'sample_time_ms': 30316.472}",2025-08-30_23-13-16,cda-server-4,27.390051126480103,4968,1756588396,10.157.146.4,False,25359.234493017197,1200
+829,-620.3721560774503,829,994800,{},-767.6431110753841,994800,0,25391.494536161423,-490.39339904058795,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 994800, 'default': {'kl': 0.009463028982281685, 'policy_loss': -0.12128346413373947, 'vf_loss': 981.7686767578125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9235044121742249, 'entropy': 8.107157707214355, 'cur_lr': 4.999999873689376e-05, 'total_loss': 981.6618041992188}, 'load_time_ms': 0.7, 'num_steps_sampled': 994800, 'grad_time_ms': 640.161, 'update_time_ms': 2.308, 'sample_time_ms': 30357.404}",2025-08-30_23-13-48,cda-server-4,32.260043144226074,4974,1756588428,10.157.146.4,False,25391.494536161423,1200
+830,-619.7035491926401,830,996000,{},-687.7297350001919,996000,0,25424.022475481033,-490.39339904058795,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 996000, 'default': {'kl': 0.009102806448936462, 'policy_loss': -0.09957706183195114, 'vf_loss': 153.907958984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9766086935997009, 'entropy': 8.397909164428711, 'cur_lr': 4.999999873689376e-05, 'total_loss': 153.82220458984375}, 'load_time_ms': 0.703, 'num_steps_sampled': 996000, 'grad_time_ms': 653.759, 'update_time_ms': 2.311, 'sample_time_ms': 30507.845}",2025-08-30_23-14-21,cda-server-4,32.527939319610596,4980,1756588461,10.157.146.4,False,25424.022475481033,1200
+831,-618.9275179681946,831,997200,{},-687.7297350001919,997200,0,25454.280462026596,-490.39339904058795,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 997200, 'default': {'kl': 0.009416800923645496, 'policy_loss': -0.11986810714006424, 'vf_loss': 254.48117065429688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9587686061859131, 'entropy': 7.906655311584473, 'cur_lr': 4.999999873689376e-05, 'total_loss': 254.37559509277344}, 'load_time_ms': 0.736, 'num_steps_sampled': 997200, 'grad_time_ms': 678.657, 'update_time_ms': 2.286, 'sample_time_ms': 30223.158}",2025-08-30_23-14-51,cda-server-4,30.257986545562744,4986,1756588491,10.157.146.4,False,25454.280462026596,1200
+832,-619.4830892295115,832,998400,{},-687.7297350001919,998400,0,25486.542717456818,-490.39339904058795,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 998400, 'default': {'kl': 0.010034569539129734, 'policy_loss': -0.14633244276046753, 'vf_loss': 524.4956665039062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9356100559234619, 'entropy': 8.204171180725098, 'cur_lr': 4.999999873689376e-05, 'total_loss': 524.3645629882812}, 'load_time_ms': 0.738, 'num_steps_sampled': 998400, 'grad_time_ms': 699.24, 'update_time_ms': 2.335, 'sample_time_ms': 30438.516}",2025-08-30_23-15-24,cda-server-4,32.26225543022156,4992,1756588524,10.157.146.4,False,25486.542717456818,1200
+833,-619.6359586211024,833,999600,{},-687.7297350001919,999600,0,25518.850306987762,-490.39339904058795,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 999600, 'default': {'kl': 0.009509803727269173, 'policy_loss': -0.12751765549182892, 'vf_loss': 385.6056213378906, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9500615000724792, 'entropy': 8.133018493652344, 'cur_lr': 4.999999873689376e-05, 'total_loss': 385.4925537109375}, 'load_time_ms': 0.713, 'num_steps_sampled': 999600, 'grad_time_ms': 699.67, 'update_time_ms': 2.356, 'sample_time_ms': 30443.071}",2025-08-30_23-15-56,cda-server-4,32.307589530944824,4998,1756588556,10.157.146.4,False,25518.850306987762,1200
+834,-619.1586135199691,834,1000800,{},-687.7297350001919,1000800,0,25551.020187854767,-490.39339904058795,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1000800, 'default': {'kl': 0.011009465903043747, 'policy_loss': -0.13784171640872955, 'vf_loss': 308.63580322265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9614536762237549, 'entropy': 8.166041374206543, 'cur_lr': 4.999999873689376e-05, 'total_loss': 308.51470947265625}, 'load_time_ms': 0.677, 'num_steps_sampled': 1000800, 'grad_time_ms': 698.352, 'update_time_ms': 2.364, 'sample_time_ms': 30508.221}",2025-08-30_23-16-28,cda-server-4,32.169880867004395,5004,1756588588,10.157.146.4,False,25551.020187854767,1200
+835,-618.4992454727969,835,1002000,{},-687.7297350001919,1002000,0,25583.61321401596,-490.39339904058795,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1002000, 'default': {'kl': 0.01034693606197834, 'policy_loss': -0.14568082988262177, 'vf_loss': 424.9205322265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9525644779205322, 'entropy': 8.32653522491455, 'cur_lr': 4.999999873689376e-05, 'total_loss': 424.7905578613281}, 'load_time_ms': 0.674, 'num_steps_sampled': 1002000, 'grad_time_ms': 698.464, 'update_time_ms': 2.349, 'sample_time_ms': 30924.354}",2025-08-30_23-17-01,cda-server-4,32.59302616119385,5010,1756588621,10.157.146.4,False,25583.61321401596,1200
+836,-616.7811531470034,836,1003200,{},-687.7297350001919,1003200,0,25613.120048046112,-490.39339904058795,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1003200, 'default': {'kl': 0.009948622435331345, 'policy_loss': -0.13617290556430817, 'vf_loss': 717.985595703125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9524112343788147, 'entropy': 8.567646026611328, 'cur_lr': 4.999999873689376e-05, 'total_loss': 717.8646240234375}, 'load_time_ms': 0.679, 'num_steps_sampled': 1003200, 'grad_time_ms': 709.936, 'update_time_ms': 2.322, 'sample_time_ms': 30609.51}",2025-08-30_23-17-30,cda-server-4,29.506834030151367,5016,1756588650,10.157.146.4,False,25613.120048046112,1200
+837,-616.7401540753757,837,1004400,{},-687.7297350001919,1004400,0,25642.755136966705,-527.3145808014764,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1004400, 'default': {'kl': 0.009852278977632523, 'policy_loss': -0.12650908529758453, 'vf_loss': 242.79397583007812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9665528535842896, 'entropy': 7.901372909545898, 'cur_lr': 4.999999873689376e-05, 'total_loss': 242.6824493408203}, 'load_time_ms': 0.674, 'num_steps_sampled': 1004400, 'grad_time_ms': 719.331, 'update_time_ms': 2.388, 'sample_time_ms': 30364.385}",2025-08-30_23-18-00,cda-server-4,29.63508892059326,5022,1756588680,10.157.146.4,False,25642.755136966705,1200
+838,-617.0141612308925,838,1005600,{},-687.7297350001919,1005600,0,25674.127346992493,-527.3145808014764,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1005600, 'default': {'kl': 0.010175243951380253, 'policy_loss': -0.12401334196329117, 'vf_loss': 403.13714599609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9476993083953857, 'entropy': 8.120250701904297, 'cur_lr': 4.999999873689376e-05, 'total_loss': 403.0285949707031}, 'load_time_ms': 0.648, 'num_steps_sampled': 1005600, 'grad_time_ms': 718.808, 'update_time_ms': 2.437, 'sample_time_ms': 30763.135}",2025-08-30_23-18-31,cda-server-4,31.372210025787354,5028,1756588711,10.157.146.4,False,25674.127346992493,1200
+839,-616.243959418656,839,1006800,{},-687.7297350001919,1006800,0,25705.273352384567,-527.3145808014764,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1006800, 'default': {'kl': 0.010647616349160671, 'policy_loss': -0.1394217312335968, 'vf_loss': 476.40582275390625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9438042044639587, 'entropy': 8.029191970825195, 'cur_lr': 4.999999873689376e-05, 'total_loss': 476.2825927734375}, 'load_time_ms': 0.65, 'num_steps_sampled': 1006800, 'grad_time_ms': 731.706, 'update_time_ms': 2.437, 'sample_time_ms': 30638.874}",2025-08-30_23-19-02,cda-server-4,31.146005392074585,5034,1756588742,10.157.146.4,False,25705.273352384567,1200
+840,-615.3772654737875,840,1008000,{},-687.7297350001919,1008000,0,25738.707337379456,-527.3145808014764,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1008000, 'default': {'kl': 0.009658975526690483, 'policy_loss': -0.1303367018699646, 'vf_loss': 205.88052368164062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9706401824951172, 'entropy': 8.096906661987305, 'cur_lr': 4.999999873689376e-05, 'total_loss': 205.7648468017578}, 'load_time_ms': 0.653, 'num_steps_sampled': 1008000, 'grad_time_ms': 729.853, 'update_time_ms': 2.411, 'sample_time_ms': 30731.364}",2025-08-30_23-19-36,cda-server-4,33.433984994888306,5040,1756588776,10.157.146.4,False,25738.707337379456,1200
+841,-615.1959805460752,841,1009200,{},-687.7297350001919,1009200,0,25768.697842359543,-527.3145808014764,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1009200, 'default': {'kl': 0.009432967752218246, 'policy_loss': -0.13086482882499695, 'vf_loss': 293.5654602050781, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9656410217285156, 'entropy': 8.411556243896484, 'cur_lr': 4.999999873689376e-05, 'total_loss': 293.44891357421875}, 'load_time_ms': 0.626, 'num_steps_sampled': 1009200, 'grad_time_ms': 730.278, 'update_time_ms': 2.395, 'sample_time_ms': 30704.3}",2025-08-30_23-20-06,cda-server-4,29.99050498008728,5046,1756588806,10.157.146.4,False,25768.697842359543,1200
+842,-614.4480803402478,842,1010400,{},-687.7297350001919,1010400,0,25801.788211107254,-471.54491093674767,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1010400, 'default': {'kl': 0.010342339053750038, 'policy_loss': -0.12283478677272797, 'vf_loss': 754.7987670898438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8856211304664612, 'entropy': 8.067037582397461, 'cur_lr': 4.999999873689376e-05, 'total_loss': 754.691650390625}, 'load_time_ms': 0.628, 'num_steps_sampled': 1010400, 'grad_time_ms': 711.634, 'update_time_ms': 2.352, 'sample_time_ms': 30805.898}",2025-08-30_23-20-39,cda-server-4,33.09036874771118,5052,1756588839,10.157.146.4,False,25801.788211107254,1200
+843,-612.1369936121636,843,1011600,{},-685.4989156650346,1011600,0,25834.338230848312,-471.54491093674767,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1011600, 'default': {'kl': 0.009512675926089287, 'policy_loss': -0.12709176540374756, 'vf_loss': 605.2188110351562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9163162708282471, 'entropy': 7.971207618713379, 'cur_lr': 4.999999873689376e-05, 'total_loss': 605.106201171875}, 'load_time_ms': 0.632, 'num_steps_sampled': 1011600, 'grad_time_ms': 699.883, 'update_time_ms': 2.339, 'sample_time_ms': 30841.906}",2025-08-30_23-21-11,cda-server-4,32.55001974105835,5058,1756588871,10.157.146.4,False,25834.338230848312,1200
+844,-611.8554132085715,844,1012800,{},-685.4989156650346,1012800,0,25866.094943523407,-471.54491093674767,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1012800, 'default': {'kl': 0.009140574373304844, 'policy_loss': -0.12313929945230484, 'vf_loss': 506.81097412109375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9394739866256714, 'entropy': 8.269271850585938, 'cur_lr': 4.999999873689376e-05, 'total_loss': 506.70172119140625}, 'load_time_ms': 0.634, 'num_steps_sampled': 1012800, 'grad_time_ms': 686.077, 'update_time_ms': 2.325, 'sample_time_ms': 30814.396}",2025-08-30_23-21-43,cda-server-4,31.756712675094604,5064,1756588903,10.157.146.4,False,25866.094943523407,1200
+845,-612.1335602299149,845,1014000,{},-685.4989156650346,1014000,0,25894.89648747444,-471.54491093674767,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1014000, 'default': {'kl': 0.012922225520014763, 'policy_loss': -0.13090075552463531, 'vf_loss': 88.45018005371094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9923194050788879, 'entropy': 7.63054084777832, 'cur_lr': 4.999999873689376e-05, 'total_loss': 88.33890533447266}, 'load_time_ms': 0.623, 'num_steps_sampled': 1014000, 'grad_time_ms': 661.755, 'update_time_ms': 2.305, 'sample_time_ms': 30459.649}",2025-08-30_23-22-12,cda-server-4,28.801543951034546,5070,1756588932,10.157.146.4,False,25894.89648747444,1200
+846,-612.2694636131986,846,1015200,{},-685.4989156650346,1015200,0,25926.846120595932,-471.54491093674767,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1015200, 'default': {'kl': 0.008399083279073238, 'policy_loss': -0.11705945432186127, 'vf_loss': 303.0325927734375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9713784456253052, 'entropy': 7.946738243103027, 'cur_lr': 4.999999873689376e-05, 'total_loss': 302.9283142089844}, 'load_time_ms': 0.62, 'num_steps_sampled': 1015200, 'grad_time_ms': 641.724, 'update_time_ms': 2.358, 'sample_time_ms': 30723.931}",2025-08-30_23-22-44,cda-server-4,31.94963312149048,5076,1756588964,10.157.146.4,False,25926.846120595932,1200
+847,-613.0817883296575,847,1016400,{},-685.4989156650346,1016400,0,25957.67493891716,-471.54491093674767,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1016400, 'default': {'kl': 0.010202523320913315, 'policy_loss': -0.1298295557498932, 'vf_loss': 416.511474609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9585586190223694, 'entropy': 8.099716186523438, 'cur_lr': 4.999999873689376e-05, 'total_loss': 416.3971252441406}, 'load_time_ms': 0.624, 'num_steps_sampled': 1016400, 'grad_time_ms': 639.04, 'update_time_ms': 2.372, 'sample_time_ms': 30845.955}",2025-08-30_23-23-15,cda-server-4,30.828818321228027,5082,1756588995,10.157.146.4,False,25957.67493891716,1200
+848,-613.1536699773277,848,1017600,{},-668.4423660442302,1017600,0,25987.721346378326,-471.54491093674767,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1017600, 'default': {'kl': 0.009143102914094925, 'policy_loss': -0.13143564760684967, 'vf_loss': 669.1669921875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9292094111442566, 'entropy': 8.166975975036621, 'cur_lr': 4.999999873689376e-05, 'total_loss': 669.0494995117188}, 'load_time_ms': 0.619, 'num_steps_sampled': 1017600, 'grad_time_ms': 618.258, 'update_time_ms': 2.432, 'sample_time_ms': 30734.059}",2025-08-30_23-23-45,cda-server-4,30.046407461166382,5088,1756589025,10.157.146.4,False,25987.721346378326,1200
+849,-612.4199525283072,849,1018800,{},-668.4423660442302,1018800,0,26020.44348669052,-471.54491093674767,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1018800, 'default': {'kl': 0.010553406551480293, 'policy_loss': -0.1355900913476944, 'vf_loss': 200.979736328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9698983430862427, 'entropy': 7.98581600189209, 'cur_lr': 4.999999873689376e-05, 'total_loss': 200.8601837158203}, 'load_time_ms': 0.588, 'num_steps_sampled': 1018800, 'grad_time_ms': 605.577, 'update_time_ms': 2.461, 'sample_time_ms': 30904.349}",2025-08-30_23-24-18,cda-server-4,32.722140312194824,5094,1756589058,10.157.146.4,False,26020.44348669052,1200
+850,-612.0671801373261,850,1020000,{},-670.1707710624022,1020000,0,26053.090214967728,-471.54491093674767,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1020000, 'default': {'kl': 0.01066848635673523, 'policy_loss': -0.13329818844795227, 'vf_loss': 215.6407928466797, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9716009497642517, 'entropy': 8.144499778747559, 'cur_lr': 4.999999873689376e-05, 'total_loss': 215.523681640625}, 'load_time_ms': 0.583, 'num_steps_sampled': 1020000, 'grad_time_ms': 580.762, 'update_time_ms': 2.423, 'sample_time_ms': 30850.402}",2025-08-30_23-24-50,cda-server-4,32.64672827720642,5100,1756589090,10.157.146.4,False,26053.090214967728,1200
+851,-611.7548771246232,851,1021200,{},-670.1707710624022,1021200,0,26085.022943019867,-471.54491093674767,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1021200, 'default': {'kl': 0.011534028686583042, 'policy_loss': -0.14836451411247253, 'vf_loss': 410.7582702636719, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9522488117218018, 'entropy': 8.123414993286133, 'cur_lr': 4.999999873689376e-05, 'total_loss': 410.62744140625}, 'load_time_ms': 0.578, 'num_steps_sampled': 1021200, 'grad_time_ms': 567.493, 'update_time_ms': 2.618, 'sample_time_ms': 31057.665}",2025-08-30_23-25-22,cda-server-4,31.932728052139282,5106,1756589122,10.157.146.4,False,26085.022943019867,1200
+852,-612.3147267484753,852,1022400,{},-670.1707710624022,1022400,0,26117.596151828766,-471.54491093674767,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1022400, 'default': {'kl': 0.01031390018761158, 'policy_loss': -0.11664901673793793, 'vf_loss': 335.0403747558594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9573501944541931, 'entropy': 7.984128952026367, 'cur_lr': 4.999999873689376e-05, 'total_loss': 334.939453125}, 'load_time_ms': 0.574, 'num_steps_sampled': 1022400, 'grad_time_ms': 550.584, 'update_time_ms': 2.622, 'sample_time_ms': 31022.919}",2025-08-30_23-25-55,cda-server-4,32.573208808898926,5112,1756589155,10.157.146.4,False,26117.596151828766,1200
+853,-611.9157149419312,853,1023600,{},-670.1707710624022,1023600,0,26148.57836151123,-471.54491093674767,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1023600, 'default': {'kl': 0.010159816592931747, 'policy_loss': -0.12349234521389008, 'vf_loss': 187.1181640625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.985636830329895, 'entropy': 7.985935688018799, 'cur_lr': 4.999999873689376e-05, 'total_loss': 187.01010131835938}, 'load_time_ms': 0.563, 'num_steps_sampled': 1023600, 'grad_time_ms': 547.293, 'update_time_ms': 2.633, 'sample_time_ms': 30869.378}",2025-08-30_23-26-26,cda-server-4,30.9822096824646,5118,1756589186,10.157.146.4,False,26148.57836151123,1200
+854,-612.2414000711236,854,1024800,{},-670.1707710624022,1024800,0,26182.23349714279,-471.54491093674767,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1024800, 'default': {'kl': 0.010376469232141972, 'policy_loss': -0.12785132229328156, 'vf_loss': 119.53543090820312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9853759407997131, 'entropy': 8.327739715576172, 'cur_lr': 4.999999873689376e-05, 'total_loss': 119.42333984375}, 'load_time_ms': 0.573, 'num_steps_sampled': 1024800, 'grad_time_ms': 545.78, 'update_time_ms': 2.624, 'sample_time_ms': 31060.808}",2025-08-30_23-27-00,cda-server-4,33.65513563156128,5124,1756589220,10.157.146.4,False,26182.23349714279,1200
+855,-611.5765412674715,855,1026000,{},-670.1707710624022,1026000,0,26213.580941200256,-471.54491093674767,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1026000, 'default': {'kl': 0.009656759910285473, 'policy_loss': -0.12339843809604645, 'vf_loss': 379.3041076660156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9446457624435425, 'entropy': 8.144041061401367, 'cur_lr': 4.999999873689376e-05, 'total_loss': 379.19537353515625}, 'load_time_ms': 0.571, 'num_steps_sampled': 1026000, 'grad_time_ms': 557.053, 'update_time_ms': 2.602, 'sample_time_ms': 31304.133}",2025-08-30_23-27-31,cda-server-4,31.3474440574646,5130,1756589251,10.157.146.4,False,26213.580941200256,1200
+856,-611.8733737867698,856,1027200,{},-670.1707710624022,1027200,0,26245.324193239212,-471.54491093674767,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1027200, 'default': {'kl': 0.008317888714373112, 'policy_loss': -0.11083385348320007, 'vf_loss': 223.27853393554688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9681053161621094, 'entropy': 8.012754440307617, 'cur_lr': 4.999999873689376e-05, 'total_loss': 223.1803436279297}, 'load_time_ms': 0.588, 'num_steps_sampled': 1027200, 'grad_time_ms': 577.788, 'update_time_ms': 2.594, 'sample_time_ms': 31262.65}",2025-08-30_23-28-03,cda-server-4,31.74325203895569,5136,1756589283,10.157.146.4,False,26245.324193239212,1200
+857,-614.5381611323317,857,1028400,{},-796.6720842944036,1028400,0,26274.762197971344,-471.54491093674767,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1028400, 'default': {'kl': 0.012076937593519688, 'policy_loss': -0.14330795407295227, 'vf_loss': 924.7340698242188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9196298122406006, 'entropy': 8.027457237243652, 'cur_lr': 4.999999873689376e-05, 'total_loss': 924.609130859375}, 'load_time_ms': 0.617, 'num_steps_sampled': 1028400, 'grad_time_ms': 582.792, 'update_time_ms': 2.557, 'sample_time_ms': 31118.624}",2025-08-30_23-28-32,cda-server-4,29.438004732131958,5142,1756589312,10.157.146.4,False,26274.762197971344,1200
+858,-615.7722467233932,858,1029600,{},-796.6720842944036,1029600,0,26305.30609178543,-527.2133899852907,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1029600, 'default': {'kl': 0.010745084844529629, 'policy_loss': -0.12117738276720047, 'vf_loss': 86.14535522460938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9865167140960693, 'entropy': 7.615378379821777, 'cur_lr': 4.999999873689376e-05, 'total_loss': 86.0405044555664}, 'load_time_ms': 0.621, 'num_steps_sampled': 1029600, 'grad_time_ms': 608.006, 'update_time_ms': 2.5, 'sample_time_ms': 31143.307}",2025-08-30_23-29-03,cda-server-4,30.543893814086914,5148,1756589343,10.157.146.4,False,26305.30609178543,1200
+859,-616.1130984713853,859,1030800,{},-796.6720842944036,1030800,0,26337.648819208145,-527.2133899852907,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1030800, 'default': {'kl': 0.010229668579995632, 'policy_loss': -0.1264776736497879, 'vf_loss': 275.1752624511719, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9696335196495056, 'entropy': 8.114919662475586, 'cur_lr': 4.999999873689376e-05, 'total_loss': 275.0643310546875}, 'load_time_ms': 0.624, 'num_steps_sampled': 1030800, 'grad_time_ms': 622.728, 'update_time_ms': 2.45, 'sample_time_ms': 31090.714}",2025-08-30_23-29-35,cda-server-4,32.34272742271423,5154,1756589375,10.157.146.4,False,26337.648819208145,1200
+860,-616.3602007280435,860,1032000,{},-796.6720842944036,1032000,0,26371.95843219757,-527.2133899852907,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1032000, 'default': {'kl': 0.011014638468623161, 'policy_loss': -0.13023307919502258, 'vf_loss': 274.0899353027344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9694747924804688, 'entropy': 7.801991939544678, 'cur_lr': 4.999999873689376e-05, 'total_loss': 273.9764099121094}, 'load_time_ms': 0.624, 'num_steps_sampled': 1032000, 'grad_time_ms': 649.331, 'update_time_ms': 2.507, 'sample_time_ms': 31230.367}",2025-08-30_23-30-09,cda-server-4,34.30961298942566,5160,1756589409,10.157.146.4,False,26371.95843219757,1200
+861,-616.7009833567298,861,1033200,{},-796.6720842944036,1033200,0,26401.870719194412,-527.2133899852907,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1033200, 'default': {'kl': 0.009365309961140156, 'policy_loss': -0.12393805384635925, 'vf_loss': 113.35725402832031, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9873602390289307, 'entropy': 7.684728145599365, 'cur_lr': 4.999999873689376e-05, 'total_loss': 113.24754333496094}, 'load_time_ms': 0.632, 'num_steps_sampled': 1033200, 'grad_time_ms': 660.892, 'update_time_ms': 2.33, 'sample_time_ms': 31016.917}",2025-08-30_23-30-39,cda-server-4,29.91228699684143,5166,1756589439,10.157.146.4,False,26401.870719194412,1200
+862,-617.4135261959832,862,1034400,{},-796.6720842944036,1034400,0,26428.345789909363,-527.2133899852907,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1034400, 'default': {'kl': 0.01035454124212265, 'policy_loss': -0.12992769479751587, 'vf_loss': 116.26490783691406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9844700694084167, 'entropy': 8.111532211303711, 'cur_lr': 4.999999873689376e-05, 'total_loss': 116.15071868896484}, 'load_time_ms': 0.635, 'num_steps_sampled': 1034400, 'grad_time_ms': 677.51, 'update_time_ms': 2.422, 'sample_time_ms': 30390.427}",2025-08-30_23-31-06,cda-server-4,26.47507071495056,5172,1756589466,10.157.146.4,False,26428.345789909363,1200
+863,-616.197482179489,863,1035600,{},-796.6720842944036,1035600,0,26458.30251955986,-527.2133899852907,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1035600, 'default': {'kl': 0.012113033793866634, 'policy_loss': -0.14505727589130402, 'vf_loss': 71.95470428466797, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9927147626876831, 'entropy': 7.845436096191406, 'cur_lr': 4.999999873689376e-05, 'total_loss': 71.82804107666016}, 'load_time_ms': 0.642, 'num_steps_sampled': 1035600, 'grad_time_ms': 687.685, 'update_time_ms': 2.418, 'sample_time_ms': 30277.721}",2025-08-30_23-31-36,cda-server-4,29.956729650497437,5178,1756589496,10.157.146.4,False,26458.30251955986,1200
+864,-615.3379745384177,864,1036800,{},-796.6720842944036,1036800,0,26490.799943447113,-527.2133899852907,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1036800, 'default': {'kl': 0.01029725931584835, 'policy_loss': -0.10830863565206528, 'vf_loss': 174.08660888671875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9773281812667847, 'entropy': 7.919370174407959, 'cur_lr': 4.999999873689376e-05, 'total_loss': 173.9939422607422}, 'load_time_ms': 0.626, 'num_steps_sampled': 1036800, 'grad_time_ms': 697.897, 'update_time_ms': 2.429, 'sample_time_ms': 30151.692}",2025-08-30_23-32-08,cda-server-4,32.49742388725281,5184,1756589528,10.157.146.4,False,26490.799943447113,1200
+865,-614.3931542439598,865,1038000,{},-796.6720842944036,1038000,0,26519.87539577484,-527.2133899852907,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1038000, 'default': {'kl': 0.00943776499480009, 'policy_loss': -0.13431768119335175, 'vf_loss': 308.97637939453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9654201865196228, 'entropy': 7.806691646575928, 'cur_lr': 4.999999873689376e-05, 'total_loss': 308.8563537597656}, 'load_time_ms': 0.634, 'num_steps_sampled': 1038000, 'grad_time_ms': 699.375, 'update_time_ms': 2.457, 'sample_time_ms': 29922.978}",2025-08-30_23-32-37,cda-server-4,29.07545232772827,5190,1756589557,10.157.146.4,False,26519.87539577484,1200
+866,-615.0963639100631,866,1039200,{},-796.6720842944036,1039200,0,26552.183486938477,-530.0552288303139,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1039200, 'default': {'kl': 0.012090719304978848, 'policy_loss': -0.13784664869308472, 'vf_loss': 832.8232421875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.932667076587677, 'entropy': 8.031383514404297, 'cur_lr': 4.999999873689376e-05, 'total_loss': 832.7037353515625}, 'load_time_ms': 0.637, 'num_steps_sampled': 1039200, 'grad_time_ms': 698.718, 'update_time_ms': 2.423, 'sample_time_ms': 29980.244}",2025-08-30_23-33-10,cda-server-4,32.308091163635254,5196,1756589590,10.157.146.4,False,26552.183486938477,1200
+867,-614.63113623991,867,1040400,{},-796.6720842944036,1040400,0,26584.63617491722,-530.0552288303139,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1040400, 'default': {'kl': 0.012696515768766403, 'policy_loss': -0.15195751190185547, 'vf_loss': 368.42401123046875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.979345440864563, 'entropy': 8.287562370300293, 'cur_lr': 4.999999873689376e-05, 'total_loss': 368.2913513183594}, 'load_time_ms': 0.605, 'num_steps_sampled': 1040400, 'grad_time_ms': 700.59, 'update_time_ms': 2.384, 'sample_time_ms': 30279.915}",2025-08-30_23-33-42,cda-server-4,32.45268797874451,5202,1756589622,10.157.146.4,False,26584.63617491722,1200
+868,-614.2620070698449,868,1041600,{},-796.6720842944036,1041600,0,26618.2518992424,-530.0552288303139,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1041600, 'default': {'kl': 0.0099144596606493, 'policy_loss': -0.12227591872215271, 'vf_loss': 134.1614532470703, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9835965037345886, 'entropy': 8.023238182067871, 'cur_lr': 4.999999873689376e-05, 'total_loss': 134.0542449951172}, 'load_time_ms': 0.614, 'num_steps_sampled': 1041600, 'grad_time_ms': 702.619, 'update_time_ms': 2.371, 'sample_time_ms': 30585.039}",2025-08-30_23-34-16,cda-server-4,33.615724325180054,5208,1756589656,10.157.146.4,False,26618.2518992424,1200
+869,-613.1101253579229,869,1042800,{},-796.6720842944036,1042800,0,26649.780689239502,-530.0552288303139,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1042800, 'default': {'kl': 0.010103265754878521, 'policy_loss': -0.11348431557416916, 'vf_loss': 111.39260864257812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9879993796348572, 'entropy': 7.621346473693848, 'cur_lr': 4.999999873689376e-05, 'total_loss': 111.29446411132812}, 'load_time_ms': 0.608, 'num_steps_sampled': 1042800, 'grad_time_ms': 701.08, 'update_time_ms': 2.397, 'sample_time_ms': 30505.204}",2025-08-30_23-34-47,cda-server-4,31.52878999710083,5214,1756589687,10.157.146.4,False,26649.780689239502,1200
+870,-612.4750652740771,870,1044000,{},-796.6720842944036,1044000,0,26678.969739198685,-530.0552288303139,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1044000, 'default': {'kl': 0.011576283723115921, 'policy_loss': -0.1245448887348175, 'vf_loss': 222.3448028564453, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9745347499847412, 'entropy': 8.385965347290039, 'cur_lr': 4.999999873689376e-05, 'total_loss': 222.2378387451172}, 'load_time_ms': 0.61, 'num_steps_sampled': 1044000, 'grad_time_ms': 701.47, 'update_time_ms': 2.35, 'sample_time_ms': 29992.807}",2025-08-30_23-35-17,cda-server-4,29.18904995918274,5220,1756589717,10.157.146.4,False,26678.969739198685,1200
+871,-612.3271975612527,871,1045200,{},-796.6720842944036,1045200,0,26711.157199382782,-530.0552288303139,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1045200, 'default': {'kl': 0.010200098156929016, 'policy_loss': -0.12624815106391907, 'vf_loss': 424.14111328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.948375940322876, 'entropy': 8.372750282287598, 'cur_lr': 4.999999873689376e-05, 'total_loss': 424.0303649902344}, 'load_time_ms': 0.608, 'num_steps_sampled': 1045200, 'grad_time_ms': 730.332, 'update_time_ms': 2.506, 'sample_time_ms': 30191.178}",2025-08-30_23-35-49,cda-server-4,32.18746018409729,5226,1756589749,10.157.146.4,False,26711.157199382782,1200
+872,-612.9702914132729,872,1046400,{},-796.6720842944036,1046400,0,26744.559323072433,-562.0380004034773,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1046400, 'default': {'kl': 0.009615283459424973, 'policy_loss': -0.11944568157196045, 'vf_loss': 286.80474853515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9600443243980408, 'entropy': 7.896517276763916, 'cur_lr': 4.999999873689376e-05, 'total_loss': 286.6999206542969}, 'load_time_ms': 0.62, 'num_steps_sampled': 1046400, 'grad_time_ms': 755.369, 'update_time_ms': 2.421, 'sample_time_ms': 30858.849}",2025-08-30_23-36-22,cda-server-4,33.40212368965149,5232,1756589782,10.157.146.4,False,26744.559323072433,1200
+873,-612.7463166910858,873,1047600,{},-796.6720842944036,1047600,0,26777.827216148376,-562.0380004034773,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1047600, 'default': {'kl': 0.009398512542247772, 'policy_loss': -0.12714062631130219, 'vf_loss': 120.40067291259766, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9812700748443604, 'entropy': 7.864542484283447, 'cur_lr': 4.999999873689376e-05, 'total_loss': 120.28781127929688}, 'load_time_ms': 0.628, 'num_steps_sampled': 1047600, 'grad_time_ms': 737.939, 'update_time_ms': 2.376, 'sample_time_ms': 31207.438}",2025-08-30_23-36-56,cda-server-4,33.26789307594299,5238,1756589816,10.157.146.4,False,26777.827216148376,1200
+874,-610.7707540077721,874,1048800,{},-790.8724407379913,1048800,0,26806.86654663086,-562.0380004034773,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1048800, 'default': {'kl': 0.011401106603443623, 'policy_loss': -0.1308520883321762, 'vf_loss': 742.7569580078125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9602218270301819, 'entropy': 8.085919380187988, 'cur_lr': 4.999999873689376e-05, 'total_loss': 742.6434326171875}, 'load_time_ms': 0.631, 'num_steps_sampled': 1048800, 'grad_time_ms': 733.074, 'update_time_ms': 2.37, 'sample_time_ms': 30866.518}",2025-08-30_23-37-25,cda-server-4,29.03933048248291,5244,1756589845,10.157.146.4,False,26806.86654663086,1200
+875,-611.2628466062881,875,1050000,{},-790.8724407379913,1050000,0,26836.052238702774,-562.0380004034773,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1050000, 'default': {'kl': 0.008880523033440113, 'policy_loss': -0.10852058976888657, 'vf_loss': 240.25900268554688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9666239619255066, 'entropy': 8.129501342773438, 'cur_lr': 4.999999873689376e-05, 'total_loss': 240.16395568847656}, 'load_time_ms': 0.627, 'num_steps_sampled': 1050000, 'grad_time_ms': 747.145, 'update_time_ms': 2.345, 'sample_time_ms': 30863.528}",2025-08-30_23-37-54,cda-server-4,29.185692071914673,5250,1756589874,10.157.146.4,False,26836.052238702774,1200
+876,-610.0887859903173,876,1051200,{},-663.8999811399729,1051200,0,26866.31370329857,-562.0380004034773,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1051200, 'default': {'kl': 0.011360050179064274, 'policy_loss': -0.1296316534280777, 'vf_loss': 179.19126892089844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9751605987548828, 'entropy': 8.240965843200684, 'cur_lr': 4.999999873689376e-05, 'total_loss': 179.0789031982422}, 'load_time_ms': 0.615, 'num_steps_sampled': 1051200, 'grad_time_ms': 751.304, 'update_time_ms': 2.311, 'sample_time_ms': 30654.716}",2025-08-30_23-38-24,cda-server-4,30.261464595794678,5256,1756589904,10.157.146.4,False,26866.31370329857,1200
+877,-610.2090021472569,877,1052400,{},-663.8999811399729,1052400,0,26898.15786266327,-565.8253503949923,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1052400, 'default': {'kl': 0.011198495514690876, 'policy_loss': -0.14391358196735382, 'vf_loss': 234.09375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9663235545158386, 'entropy': 8.106426239013672, 'cur_lr': 4.999999873689376e-05, 'total_loss': 233.96685791015625}, 'load_time_ms': 0.62, 'num_steps_sampled': 1052400, 'grad_time_ms': 737.657, 'update_time_ms': 2.351, 'sample_time_ms': 30607.502}",2025-08-30_23-38-56,cda-server-4,31.844159364700317,5262,1756589936,10.157.146.4,False,26898.15786266327,1200
+878,-610.4959290960879,878,1053600,{},-663.8999811399729,1053600,0,26928.1625995636,-565.8253503949923,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1053600, 'default': {'kl': 0.011963321827352047, 'policy_loss': -0.13923878967761993, 'vf_loss': 85.90973663330078, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9909763336181641, 'entropy': 7.792171001434326, 'cur_lr': 4.999999873689376e-05, 'total_loss': 85.78866577148438}, 'load_time_ms': 0.621, 'num_steps_sampled': 1053600, 'grad_time_ms': 722.696, 'update_time_ms': 2.334, 'sample_time_ms': 30261.338}",2025-08-30_23-39-26,cda-server-4,30.00473690032959,5268,1756589966,10.157.146.4,False,26928.1625995636,1200
+879,-611.8119118850586,879,1054800,{},-671.5891967602828,1054800,0,26959.492529153824,-565.8253503949923,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1054800, 'default': {'kl': 0.010877339169383049, 'policy_loss': -0.13973860442638397, 'vf_loss': 251.24249267578125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.971989631652832, 'entropy': 8.131999015808105, 'cur_lr': 4.999999873689376e-05, 'total_loss': 251.11927795410156}, 'load_time_ms': 0.632, 'num_steps_sampled': 1054800, 'grad_time_ms': 709.112, 'update_time_ms': 2.345, 'sample_time_ms': 30254.841}",2025-08-30_23-39-57,cda-server-4,31.32992959022522,5274,1756589997,10.157.146.4,False,26959.492529153824,1200
+880,-611.195601847368,880,1056000,{},-671.5891967602828,1056000,0,26993.101853609085,-498.09182040758907,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1056000, 'default': {'kl': 0.013144350610673428, 'policy_loss': -0.1506025195121765, 'vf_loss': 416.8216247558594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.973364531993866, 'entropy': 8.165348052978516, 'cur_lr': 4.999999873689376e-05, 'total_loss': 416.69097900390625}, 'load_time_ms': 0.634, 'num_steps_sampled': 1056000, 'grad_time_ms': 694.373, 'update_time_ms': 2.346, 'sample_time_ms': 30711.584}",2025-08-30_23-40-31,cda-server-4,33.60932445526123,5280,1756590031,10.157.146.4,False,26993.101853609085,1200
+881,-612.252643734068,881,1057200,{},-671.5891967602828,1057200,0,27025.72288298607,-498.09182040758907,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1057200, 'default': {'kl': 0.00997300073504448, 'policy_loss': -0.12377476692199707, 'vf_loss': 189.7303924560547, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9811218976974487, 'entropy': 8.119853973388672, 'cur_lr': 4.999999873689376e-05, 'total_loss': 189.6217498779297}, 'load_time_ms': 0.629, 'num_steps_sampled': 1057200, 'grad_time_ms': 638.66, 'update_time_ms': 2.23, 'sample_time_ms': 30810.982}",2025-08-30_23-41-04,cda-server-4,32.62102937698364,5286,1756590064,10.157.146.4,False,27025.72288298607,1200
+882,-613.1827342237215,882,1058400,{},-671.5891967602828,1058400,0,27052.394669532776,-498.09182040758907,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1058400, 'default': {'kl': 0.008158509619534016, 'policy_loss': -0.11607277393341064, 'vf_loss': 196.85787963867188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9764571785926819, 'entropy': 8.223786354064941, 'cur_lr': 4.999999873689376e-05, 'total_loss': 196.75421142578125}, 'load_time_ms': 0.652, 'num_steps_sampled': 1058400, 'grad_time_ms': 596.195, 'update_time_ms': 2.183, 'sample_time_ms': 30180.435}",2025-08-30_23-41-30,cda-server-4,26.671786546707153,5292,1756590090,10.157.146.4,False,27052.394669532776,1200
+883,-614.2827518700226,883,1059600,{},-684.342128247563,1059600,0,27080.845425367355,-498.09182040758907,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1059600, 'default': {'kl': 0.008234892040491104, 'policy_loss': -0.11689729243516922, 'vf_loss': 1131.2203369140625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8908909559249878, 'entropy': 8.067598342895508, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1131.1158447265625}, 'load_time_ms': 0.645, 'num_steps_sampled': 1059600, 'grad_time_ms': 603.055, 'update_time_ms': 2.133, 'sample_time_ms': 29691.887}",2025-08-30_23-41-59,cda-server-4,28.450755834579468,5298,1756590119,10.157.146.4,False,27080.845425367355,1200
+884,-614.1925179252587,884,1060800,{},-684.342128247563,1060800,0,27113.4166970253,-498.09182040758907,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1060800, 'default': {'kl': 0.010660413652658463, 'policy_loss': -0.13194149732589722, 'vf_loss': 436.3251953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9578580856323242, 'entropy': 7.930840492248535, 'cur_lr': 4.999999873689376e-05, 'total_loss': 436.2094421386719}, 'load_time_ms': 0.653, 'num_steps_sampled': 1060800, 'grad_time_ms': 595.78, 'update_time_ms': 2.114, 'sample_time_ms': 30052.377}",2025-08-30_23-42-31,cda-server-4,32.571271657943726,5304,1756590151,10.157.146.4,False,27113.4166970253,1200
+885,-615.1124723770828,885,1062000,{},-684.342128247563,1062000,0,27141.85945367813,-498.09182040758907,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1062000, 'default': {'kl': 0.010012478567659855, 'policy_loss': -0.12560313940048218, 'vf_loss': 69.15718078613281, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9907025098800659, 'entropy': 7.935606002807617, 'cur_lr': 4.999999873689376e-05, 'total_loss': 69.0467758178711}, 'load_time_ms': 0.653, 'num_steps_sampled': 1062000, 'grad_time_ms': 568.575, 'update_time_ms': 2.101, 'sample_time_ms': 30005.325}",2025-08-30_23-43-00,cda-server-4,28.44275665283203,5310,1756590180,10.157.146.4,False,27141.85945367813,1200
+886,-616.5003513773471,886,1063200,{},-717.1676541400791,1063200,0,27171.544028282166,-498.09182040758907,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1063200, 'default': {'kl': 0.009212280623614788, 'policy_loss': -0.12420514225959778, 'vf_loss': 228.94998168945312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9714171290397644, 'entropy': 7.730119705200195, 'cur_lr': 4.999999873689376e-05, 'total_loss': 228.8397674560547}, 'load_time_ms': 0.652, 'num_steps_sampled': 1063200, 'grad_time_ms': 544.566, 'update_time_ms': 2.135, 'sample_time_ms': 29971.67}",2025-08-30_23-43-29,cda-server-4,29.684574604034424,5316,1756590209,10.157.146.4,False,27171.544028282166,1200
+887,-617.858762949344,887,1064400,{},-717.1676541400791,1064400,0,27199.413417816162,-474.1831117307202,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1064400, 'default': {'kl': 0.012062091380357742, 'policy_loss': -0.1402951329946518, 'vf_loss': 577.3612060546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9245246052742004, 'entropy': 8.138238906860352, 'cur_lr': 4.999999873689376e-05, 'total_loss': 577.2392578125}, 'load_time_ms': 0.66, 'num_steps_sampled': 1064400, 'grad_time_ms': 551.374, 'update_time_ms': 2.086, 'sample_time_ms': 29567.355}",2025-08-30_23-43-57,cda-server-4,27.869389533996582,5322,1756590237,10.157.146.4,False,27199.413417816162,1200
+888,-617.1223770682182,888,1065600,{},-717.1676541400791,1065600,0,27231.316065311432,-474.1831117307202,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1065600, 'default': {'kl': 0.011443229392170906, 'policy_loss': -0.14382211863994598, 'vf_loss': 241.66343688964844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9701208472251892, 'entropy': 7.928401470184326, 'cur_lr': 4.999999873689376e-05, 'total_loss': 241.53700256347656}, 'load_time_ms': 0.663, 'num_steps_sampled': 1065600, 'grad_time_ms': 565.449, 'update_time_ms': 2.099, 'sample_time_ms': 29743.11}",2025-08-30_23-44-29,cda-server-4,31.902647495269775,5328,1756590269,10.157.146.4,False,27231.316065311432,1200
+889,-615.8256836181318,889,1066800,{},-717.1676541400791,1066800,0,27264.61401939392,-474.1831117307202,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1066800, 'default': {'kl': 0.012447760440409184, 'policy_loss': -0.14922195672988892, 'vf_loss': 251.0076446533203, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9783916473388672, 'entropy': 7.657693862915039, 'cur_lr': 4.999999873689376e-05, 'total_loss': 250.87733459472656}, 'load_time_ms': 0.652, 'num_steps_sampled': 1066800, 'grad_time_ms': 573.288, 'update_time_ms': 2.056, 'sample_time_ms': 29932.339}",2025-08-30_23-45-03,cda-server-4,33.297954082489014,5334,1756590303,10.157.146.4,False,27264.61401939392,1200
+890,-615.6751003135387,890,1068000,{},-717.1676541400791,1068000,0,27296.15877199173,-474.1831117307202,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1068000, 'default': {'kl': 0.010488089174032211, 'policy_loss': -0.12723854184150696, 'vf_loss': 646.3125610351562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9664741158485413, 'entropy': 7.99927282333374, 'cur_lr': 4.999999873689376e-05, 'total_loss': 646.2012939453125}, 'load_time_ms': 0.649, 'num_steps_sampled': 1068000, 'grad_time_ms': 572.661, 'update_time_ms': 2.024, 'sample_time_ms': 29726.59}",2025-08-30_23-45-34,cda-server-4,31.544752597808838,5340,1756590334,10.157.146.4,False,27296.15877199173,1200
+891,-614.2557880229365,891,1069200,{},-717.1676541400791,1069200,0,27325.120982646942,-474.1831117307202,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1069200, 'default': {'kl': 0.012431587092578411, 'policy_loss': -0.13435323536396027, 'vf_loss': 89.50906372070312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9887285232543945, 'entropy': 7.96919584274292, 'cur_lr': 4.999999873689376e-05, 'total_loss': 89.39358520507812}, 'load_time_ms': 0.657, 'num_steps_sampled': 1069200, 'grad_time_ms': 589.495, 'update_time_ms': 2.075, 'sample_time_ms': 29343.651}",2025-08-30_23-46-03,cda-server-4,28.962210655212402,5346,1756590363,10.157.146.4,False,27325.120982646942,1200
+892,-614.4058124643321,892,1070400,{},-717.1676541400791,1070400,0,27357.394151210785,-474.1831117307202,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1070400, 'default': {'kl': 0.012082341127097607, 'policy_loss': -0.1337515413761139, 'vf_loss': 924.9998779296875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9431027173995972, 'entropy': 7.654019832611084, 'cur_lr': 4.999999873689376e-05, 'total_loss': 924.884521484375}, 'load_time_ms': 0.632, 'num_steps_sampled': 1070400, 'grad_time_ms': 582.2, 'update_time_ms': 2.16, 'sample_time_ms': 29911.063}",2025-08-30_23-46-35,cda-server-4,32.27316856384277,5352,1756590395,10.157.146.4,False,27357.394151210785,1200
+893,-614.4315629364668,893,1071600,{},-717.1676541400791,1071600,0,27387.660782575607,-474.1831117307202,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1071600, 'default': {'kl': 0.010774403810501099, 'policy_loss': -0.1374226212501526, 'vf_loss': 138.9148406982422, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9821417927742004, 'entropy': 8.146063804626465, 'cur_lr': 4.999999873689376e-05, 'total_loss': 138.7937774658203}, 'load_time_ms': 0.633, 'num_steps_sampled': 1071600, 'grad_time_ms': 591.355, 'update_time_ms': 2.223, 'sample_time_ms': 30083.428}",2025-08-30_23-47-06,cda-server-4,30.266631364822388,5358,1756590426,10.157.146.4,False,27387.660782575607,1200
+894,-614.0501400727446,894,1072800,{},-717.1676541400791,1072800,0,27419.588422060013,-474.1831117307202,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1072800, 'default': {'kl': 0.01064176857471466, 'policy_loss': -0.13242588937282562, 'vf_loss': 203.73548889160156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9694842100143433, 'entropy': 7.956035137176514, 'cur_lr': 4.999999873689376e-05, 'total_loss': 203.6192169189453}, 'load_time_ms': 0.626, 'num_steps_sampled': 1072800, 'grad_time_ms': 606.382, 'update_time_ms': 2.208, 'sample_time_ms': 30004.0}",2025-08-30_23-47-38,cda-server-4,31.927639484405518,5364,1756590458,10.157.146.4,False,27419.588422060013,1200
+895,-613.4705731417338,895,1074000,{},-717.1676541400791,1074000,0,27448.876655101776,-474.1831117307202,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1074000, 'default': {'kl': 0.01006572786718607, 'policy_loss': -0.1220485270023346, 'vf_loss': 176.6547393798828, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9792993068695068, 'entropy': 8.029817581176758, 'cur_lr': 4.999999873689376e-05, 'total_loss': 176.5479736328125}, 'load_time_ms': 0.638, 'num_steps_sampled': 1074000, 'grad_time_ms': 611.917, 'update_time_ms': 2.267, 'sample_time_ms': 30082.919}",2025-08-30_23-48-07,cda-server-4,29.288233041763306,5370,1756590487,10.157.146.4,False,27448.876655101776,1200
+896,-612.7960398369104,896,1075200,{},-717.1676541400791,1075200,0,27481.278608083725,-474.1831117307202,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1075200, 'default': {'kl': 0.010554812848567963, 'policy_loss': -0.12574008107185364, 'vf_loss': 488.0929260253906, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9436062574386597, 'entropy': 8.227754592895508, 'cur_lr': 4.999999873689376e-05, 'total_loss': 487.9832763671875}, 'load_time_ms': 0.629, 'num_steps_sampled': 1075200, 'grad_time_ms': 622.816, 'update_time_ms': 2.227, 'sample_time_ms': 30343.752}",2025-08-30_23-48-39,cda-server-4,32.40195298194885,5376,1756590519,10.157.146.4,False,27481.278608083725,1200
+897,-613.1125421943484,897,1076400,{},-717.1676541400791,1076400,0,27511.693686008453,-474.1831117307202,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1076400, 'default': {'kl': 0.012524723075330257, 'policy_loss': -0.1441299319267273, 'vf_loss': 495.65911865234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9443374276161194, 'entropy': 7.822608947753906, 'cur_lr': 4.999999873689376e-05, 'total_loss': 495.5340270996094}, 'load_time_ms': 0.623, 'num_steps_sampled': 1076400, 'grad_time_ms': 634.627, 'update_time_ms': 2.318, 'sample_time_ms': 30586.456}",2025-08-30_23-49-10,cda-server-4,30.415077924728394,5382,1756590550,10.157.146.4,False,27511.693686008453,1200
+898,-613.6314146169368,898,1077600,{},-717.1676541400791,1077600,0,27543.339556455612,-474.1831117307202,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1077600, 'default': {'kl': 0.011636241339147091, 'policy_loss': -0.15208135545253754, 'vf_loss': 727.2562866210938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9600257873535156, 'entropy': 7.943928241729736, 'cur_lr': 4.999999873689376e-05, 'total_loss': 727.1219482421875}, 'load_time_ms': 0.622, 'num_steps_sampled': 1077600, 'grad_time_ms': 633.377, 'update_time_ms': 2.345, 'sample_time_ms': 30561.973}",2025-08-30_23-49-41,cda-server-4,31.645870447158813,5388,1756590581,10.157.146.4,False,27543.339556455612,1200
+899,-612.0003725439669,899,1078800,{},-717.1676541400791,1078800,0,27574.382872104645,-474.1831117307202,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1078800, 'default': {'kl': 0.011253835633397102, 'policy_loss': -0.13523083925247192, 'vf_loss': 388.1249694824219, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9546105861663818, 'entropy': 7.462297439575195, 'cur_lr': 4.999999873689376e-05, 'total_loss': 388.0068359375}, 'load_time_ms': 0.625, 'num_steps_sampled': 1078800, 'grad_time_ms': 635.55, 'update_time_ms': 2.352, 'sample_time_ms': 30334.202}",2025-08-30_23-50-12,cda-server-4,31.043315649032593,5394,1756590612,10.157.146.4,False,27574.382872104645,1200
+900,-611.633784111155,900,1080000,{},-717.1676541400791,1080000,0,27606.434551000595,-474.1831117307202,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1080000, 'default': {'kl': 0.010502733290195465, 'policy_loss': -0.12799982726573944, 'vf_loss': 128.10842895507812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9885295033454895, 'entropy': 7.7371673583984375, 'cur_lr': 4.999999873689376e-05, 'total_loss': 127.99637603759766}, 'load_time_ms': 0.631, 'num_steps_sampled': 1080000, 'grad_time_ms': 642.758, 'update_time_ms': 2.45, 'sample_time_ms': 30377.58}",2025-08-30_23-50-45,cda-server-4,32.05167889595032,5400,1756590645,10.157.146.4,False,27606.434551000595,1200
+901,-611.0448890995829,901,1081200,{},-717.1676541400791,1081200,0,27638.963022232056,-474.1831117307202,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1081200, 'default': {'kl': 0.010153167881071568, 'policy_loss': -0.13401442766189575, 'vf_loss': 297.5089416503906, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9713283181190491, 'entropy': 7.505144119262695, 'cur_lr': 4.999999873689376e-05, 'total_loss': 297.39031982421875}, 'load_time_ms': 0.632, 'num_steps_sampled': 1081200, 'grad_time_ms': 643.678, 'update_time_ms': 2.362, 'sample_time_ms': 30733.435}",2025-08-30_23-51-17,cda-server-4,32.52847123146057,5406,1756590677,10.157.146.4,False,27638.963022232056,1200
+902,-612.406764973265,902,1082400,{},-717.1676541400791,1082400,0,27671.334337949753,-474.1831117307202,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1082400, 'default': {'kl': 0.008662078529596329, 'policy_loss': -0.12840406596660614, 'vf_loss': 478.8326721191406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9324228763580322, 'entropy': 8.072477340698242, 'cur_lr': 4.999999873689376e-05, 'total_loss': 478.7174072265625}, 'load_time_ms': 0.627, 'num_steps_sampled': 1082400, 'grad_time_ms': 655.739, 'update_time_ms': 2.337, 'sample_time_ms': 30731.14}",2025-08-30_23-51-50,cda-server-4,32.371315717697144,5412,1756590710,10.157.146.4,False,27671.334337949753,1200
+903,-611.3144236666354,903,1083600,{},-690.1374147731261,1083600,0,27704.41582775116,-474.1831117307202,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1083600, 'default': {'kl': 0.011321168392896652, 'policy_loss': -0.11872533708810806, 'vf_loss': 239.37774658203125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9743124842643738, 'entropy': 7.711357116699219, 'cur_lr': 4.999999873689376e-05, 'total_loss': 239.2761993408203}, 'load_time_ms': 0.62, 'num_steps_sampled': 1083600, 'grad_time_ms': 648.759, 'update_time_ms': 2.33, 'sample_time_ms': 31019.659}",2025-08-30_23-52-23,cda-server-4,33.08148980140686,5418,1756590743,10.157.146.4,False,27704.41582775116,1200
+904,-611.1246735372171,904,1084800,{},-676.4016534297151,1084800,0,27735.157967090607,-476.87621637078985,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1084800, 'default': {'kl': 0.009714843705296516, 'policy_loss': -0.12837208807468414, 'vf_loss': 691.4629516601562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9452196955680847, 'entropy': 7.601839542388916, 'cur_lr': 4.999999873689376e-05, 'total_loss': 691.349365234375}, 'load_time_ms': 0.617, 'num_steps_sampled': 1084800, 'grad_time_ms': 629.531, 'update_time_ms': 2.38, 'sample_time_ms': 30920.366}",2025-08-30_23-52-53,cda-server-4,30.74213933944702,5424,1756590773,10.157.146.4,False,27735.157967090607,1200
+905,-612.8141192579176,905,1086000,{},-676.4016534297151,1086000,0,27767.167273759842,-489.2935383389225,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1086000, 'default': {'kl': 0.011737959459424019, 'policy_loss': -0.14479130506515503, 'vf_loss': 324.7423095703125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9662820100784302, 'entropy': 7.746450424194336, 'cur_lr': 4.999999873689376e-05, 'total_loss': 324.6153564453125}, 'load_time_ms': 0.639, 'num_steps_sampled': 1086000, 'grad_time_ms': 643.565, 'update_time_ms': 2.395, 'sample_time_ms': 31178.258}",2025-08-30_23-53-25,cda-server-4,32.00930666923523,5430,1756590805,10.157.146.4,False,27767.167273759842,1200
+906,-612.7048915209479,906,1087200,{},-676.4016534297151,1087200,0,27797.56822538376,-489.2935383389225,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1087200, 'default': {'kl': 0.01342904381453991, 'policy_loss': -0.1496136635541916, 'vf_loss': 430.65435791015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.963057816028595, 'entropy': 7.65907621383667, 'cur_lr': 4.999999873689376e-05, 'total_loss': 430.5251159667969}, 'load_time_ms': 0.663, 'num_steps_sampled': 1087200, 'grad_time_ms': 651.085, 'update_time_ms': 2.478, 'sample_time_ms': 30970.54}",2025-08-30_23-53-56,cda-server-4,30.400951623916626,5436,1756590836,10.157.146.4,False,27797.56822538376,1200
+907,-613.0049503186337,907,1088400,{},-676.4016534297151,1088400,0,27827.242395401,-489.2935383389225,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1088400, 'default': {'kl': 0.012187173590064049, 'policy_loss': -0.12845902144908905, 'vf_loss': 219.5741424560547, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9720572233200073, 'entropy': 7.530771732330322, 'cur_lr': 4.999999873689376e-05, 'total_loss': 219.46420288085938}, 'load_time_ms': 0.677, 'num_steps_sampled': 1088400, 'grad_time_ms': 641.504, 'update_time_ms': 2.443, 'sample_time_ms': 30905.972}",2025-08-30_23-54-26,cda-server-4,29.67417001724243,5442,1756590866,10.157.146.4,False,27827.242395401,1200
+908,-613.8734401461984,908,1089600,{},-676.4016534297151,1089600,0,27855.747906923294,-522.8310636383682,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1089600, 'default': {'kl': 0.010240522213280201, 'policy_loss': -0.13414667546749115, 'vf_loss': 177.6729278564453, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.984487771987915, 'entropy': 8.01108169555664, 'cur_lr': 4.999999873689376e-05, 'total_loss': 177.55433654785156}, 'load_time_ms': 0.674, 'num_steps_sampled': 1089600, 'grad_time_ms': 628.679, 'update_time_ms': 2.454, 'sample_time_ms': 30604.754}",2025-08-30_23-54-54,cda-server-4,28.50551152229309,5448,1756590894,10.157.146.4,False,27855.747906923294,1200
+909,-613.9059295690707,909,1090800,{},-709.3134140328982,1090800,0,27888.21944141388,-522.8310636383682,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1090800, 'default': {'kl': 0.007692290470004082, 'policy_loss': -0.11000817269086838, 'vf_loss': 1360.1531982421875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8788642287254333, 'entropy': 7.665323257446289, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1360.054931640625}, 'load_time_ms': 0.679, 'num_steps_sampled': 1090800, 'grad_time_ms': 623.785, 'update_time_ms': 2.535, 'sample_time_ms': 30752.502}",2025-08-30_23-55-27,cda-server-4,32.47153449058533,5454,1756590927,10.157.146.4,False,27888.21944141388,1200
+910,-613.801804590063,910,1092000,{},-709.3134140328982,1092000,0,27917.457444906235,-522.8310636383682,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1092000, 'default': {'kl': 0.010925871320068836, 'policy_loss': -0.1366003304719925, 'vf_loss': 137.66354370117188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.987280011177063, 'entropy': 7.502488136291504, 'cur_lr': 4.999999873689376e-05, 'total_loss': 137.5435333251953}, 'load_time_ms': 0.675, 'num_steps_sampled': 1092000, 'grad_time_ms': 625.624, 'update_time_ms': 2.475, 'sample_time_ms': 30469.318}",2025-08-30_23-55-56,cda-server-4,29.238003492355347,5460,1756590956,10.157.146.4,False,27917.457444906235,1200
+911,-613.3743569829641,911,1093200,{},-709.3134140328982,1093200,0,27952.38145327568,-529.7862660843864,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1093200, 'default': {'kl': 0.009331118315458298, 'policy_loss': -0.12195886671543121, 'vf_loss': 164.59405517578125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.977331817150116, 'entropy': 7.407069683074951, 'cur_lr': 4.999999873689376e-05, 'total_loss': 164.48626708984375}, 'load_time_ms': 0.667, 'num_steps_sampled': 1093200, 'grad_time_ms': 635.389, 'update_time_ms': 2.505, 'sample_time_ms': 30699.079}",2025-08-30_23-56-31,cda-server-4,34.9240083694458,5466,1756590991,10.157.146.4,False,27952.38145327568,1200
+912,-613.106824011057,912,1094400,{},-709.3134140328982,1094400,0,27979.279693603516,-529.7862660843864,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1094400, 'default': {'kl': 0.009299679659307003, 'policy_loss': -0.12237241864204407, 'vf_loss': 184.21746826171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9852514266967773, 'entropy': 7.337130069732666, 'cur_lr': 4.999999873689376e-05, 'total_loss': 184.1092071533203}, 'load_time_ms': 0.663, 'num_steps_sampled': 1094400, 'grad_time_ms': 650.207, 'update_time_ms': 2.521, 'sample_time_ms': 30137.051}",2025-08-30_23-56-58,cda-server-4,26.898240327835083,5472,1756591018,10.157.146.4,False,27979.279693603516,1200
+913,-612.6002328421077,913,1095600,{},-709.3134140328982,1095600,0,28009.01583790779,-529.7862660843864,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1095600, 'default': {'kl': 0.009371805936098099, 'policy_loss': -0.09996601939201355, 'vf_loss': 83.66789245605469, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9888045191764832, 'entropy': 7.639802932739258, 'cur_lr': 4.999999873689376e-05, 'total_loss': 83.5821533203125}, 'load_time_ms': 0.705, 'num_steps_sampled': 1095600, 'grad_time_ms': 686.086, 'update_time_ms': 2.494, 'sample_time_ms': 29766.254}",2025-08-30_23-57-27,cda-server-4,29.736144304275513,5478,1756591047,10.157.146.4,False,28009.01583790779,1200
+914,-613.5693790278691,914,1096800,{},-709.3134140328982,1096800,0,28043.247569084167,-529.7862660843864,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1096800, 'default': {'kl': 0.010858792811632156, 'policy_loss': -0.13434267044067383, 'vf_loss': 223.4573974609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9785948991775513, 'entropy': 7.577000141143799, 'cur_lr': 4.999999873689376e-05, 'total_loss': 223.33953857421875}, 'load_time_ms': 0.712, 'num_steps_sampled': 1096800, 'grad_time_ms': 702.402, 'update_time_ms': 2.462, 'sample_time_ms': 30098.89}",2025-08-30_23-58-02,cda-server-4,34.23173117637634,5484,1756591082,10.157.146.4,False,28043.247569084167,1200
+915,-614.2869719400778,915,1098000,{},-709.3134140328982,1098000,0,28075.271690130234,-529.7862660843864,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1098000, 'default': {'kl': 0.010057407431304455, 'policy_loss': -0.11343015730381012, 'vf_loss': 234.56768798828125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9737077355384827, 'entropy': 7.900532245635986, 'cur_lr': 4.999999873689376e-05, 'total_loss': 234.46954345703125}, 'load_time_ms': 0.682, 'num_steps_sampled': 1098000, 'grad_time_ms': 706.676, 'update_time_ms': 2.394, 'sample_time_ms': 30096.29}",2025-08-30_23-58-34,cda-server-4,32.024121046066284,5490,1756591114,10.157.146.4,False,28075.271690130234,1200
+916,-615.2670049926082,916,1099200,{},-709.3134140328982,1099200,0,28108.899354696274,-529.7862660843864,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1099200, 'default': {'kl': 0.009534367360174656, 'policy_loss': -0.12022487074136734, 'vf_loss': 286.7099304199219, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9770900011062622, 'entropy': 7.930671691894531, 'cur_lr': 4.999999873689376e-05, 'total_loss': 286.60418701171875}, 'load_time_ms': 0.679, 'num_steps_sampled': 1099200, 'grad_time_ms': 716.232, 'update_time_ms': 2.397, 'sample_time_ms': 30409.423}",2025-08-30_23-59-07,cda-server-4,33.62766456604004,5496,1756591147,10.157.146.4,False,28108.899354696274,1200
+917,-615.3864580118809,917,1100400,{},-709.3134140328982,1100400,0,28141.756974220276,-529.7862660843864,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1100400, 'default': {'kl': 0.012669521383941174, 'policy_loss': -0.1409868597984314, 'vf_loss': 288.6908264160156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9840461015701294, 'entropy': 7.5325751304626465, 'cur_lr': 4.999999873689376e-05, 'total_loss': 288.569091796875}, 'load_time_ms': 0.663, 'num_steps_sampled': 1100400, 'grad_time_ms': 728.132, 'update_time_ms': 2.394, 'sample_time_ms': 30715.926}",2025-08-30_23-59-40,cda-server-4,32.857619524002075,5502,1756591180,10.157.146.4,False,28141.756974220276,1200
+918,-616.3491119869212,918,1101600,{},-709.3134140328982,1101600,0,28170.115520715714,-588.7534470544964,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1101600, 'default': {'kl': 0.009606283158063889, 'policy_loss': -0.12331695109605789, 'vf_loss': 315.8037109375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9562087655067444, 'entropy': 8.14035701751709, 'cur_lr': 4.999999873689376e-05, 'total_loss': 315.6949768066406}, 'load_time_ms': 0.667, 'num_steps_sampled': 1101600, 'grad_time_ms': 742.162, 'update_time_ms': 2.411, 'sample_time_ms': 30687.209}",2025-08-31_00-00-09,cda-server-4,28.358546495437622,5508,1756591209,10.157.146.4,False,28170.115520715714,1200
+919,-615.15890187466,919,1102800,{},-709.3134140328982,1102800,0,28203.611493825912,-489.56306658147383,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1102800, 'default': {'kl': 0.012555930763483047, 'policy_loss': -0.15392468869686127, 'vf_loss': 507.1023254394531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9360520839691162, 'entropy': 8.21208381652832, 'cur_lr': 4.999999873689376e-05, 'total_loss': 506.9674987792969}, 'load_time_ms': 0.659, 'num_steps_sampled': 1102800, 'grad_time_ms': 749.617, 'update_time_ms': 2.355, 'sample_time_ms': 30782.241}",2025-08-31_00-00-42,cda-server-4,33.495973110198975,5514,1756591242,10.157.146.4,False,28203.611493825912,1200
+920,-616.7750861986116,920,1104000,{},-709.3134140328982,1104000,0,28236.2224817276,-489.56306658147383,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1104000, 'default': {'kl': 0.011170792393386364, 'policy_loss': -0.12972566485404968, 'vf_loss': 314.3042297363281, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.963141143321991, 'entropy': 7.861806392669678, 'cur_lr': 4.999999873689376e-05, 'total_loss': 314.19146728515625}, 'load_time_ms': 0.657, 'num_steps_sampled': 1104000, 'grad_time_ms': 755.158, 'update_time_ms': 2.365, 'sample_time_ms': 31114.014}",2025-08-31_00-01-15,cda-server-4,32.61098790168762,5520,1756591275,10.157.146.4,False,28236.2224817276,1200
+921,-616.3468427036717,921,1105200,{},-709.3134140328982,1105200,0,28268.93801522255,-489.56306658147383,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1105200, 'default': {'kl': 0.008775817230343819, 'policy_loss': -0.10393490642309189, 'vf_loss': 144.36978149414062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.99357670545578, 'entropy': 7.594357967376709, 'cur_lr': 4.999999873689376e-05, 'total_loss': 144.2791748046875}, 'load_time_ms': 0.663, 'num_steps_sampled': 1105200, 'grad_time_ms': 755.146, 'update_time_ms': 2.395, 'sample_time_ms': 30893.189}",2025-08-31_00-01-48,cda-server-4,32.71553349494934,5526,1756591308,10.157.146.4,False,28268.93801522255,1200
+922,-617.5684528742668,922,1106400,{},-709.3134140328982,1106400,0,28296.37494635582,-489.56306658147383,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1106400, 'default': {'kl': 0.01096432562917471, 'policy_loss': -0.134230837225914, 'vf_loss': 535.1069946289062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9459022879600525, 'entropy': 7.795073509216309, 'cur_lr': 4.999999873689376e-05, 'total_loss': 534.9894409179688}, 'load_time_ms': 0.66, 'num_steps_sampled': 1106400, 'grad_time_ms': 755.852, 'update_time_ms': 2.374, 'sample_time_ms': 30946.313}",2025-08-31_00-02-15,cda-server-4,27.436931133270264,5532,1756591335,10.157.146.4,False,28296.37494635582,1200
+923,-617.9526396654974,923,1107600,{},-709.3134140328982,1107600,0,28330.57017302513,-489.56306658147383,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1107600, 'default': {'kl': 0.011914661154150963, 'policy_loss': -0.1345411092042923, 'vf_loss': 66.39344787597656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9929850697517395, 'entropy': 7.569554805755615, 'cur_lr': 4.999999873689376e-05, 'total_loss': 66.2770004272461}, 'load_time_ms': 0.628, 'num_steps_sampled': 1107600, 'grad_time_ms': 733.915, 'update_time_ms': 2.351, 'sample_time_ms': 31414.593}",2025-08-31_00-02-49,cda-server-4,34.19522666931152,5538,1756591369,10.157.146.4,False,28330.57017302513,1200
+924,-617.4618842550569,924,1108800,{},-709.3134140328982,1108800,0,28361.463748455048,-489.56306658147383,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1108800, 'default': {'kl': 0.009768941439688206, 'policy_loss': -0.13434728980064392, 'vf_loss': 980.5393676757812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9306734800338745, 'entropy': 7.5489501953125, 'cur_lr': 4.999999873689376e-05, 'total_loss': 980.419921875}, 'load_time_ms': 0.633, 'num_steps_sampled': 1108800, 'grad_time_ms': 736.566, 'update_time_ms': 2.336, 'sample_time_ms': 31078.15}",2025-08-31_00-03-20,cda-server-4,30.893575429916382,5544,1756591400,10.157.146.4,False,28361.463748455048,1200
+925,-617.9812874403697,925,1110000,{},-693.661250852949,1110000,0,28391.078963279724,-489.56306658147383,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1110000, 'default': {'kl': 0.011013351380825043, 'policy_loss': -0.140890970826149, 'vf_loss': 270.5753173828125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9775587916374207, 'entropy': 8.144433975219727, 'cur_lr': 4.999999873689376e-05, 'total_loss': 270.4511413574219}, 'load_time_ms': 0.639, 'num_steps_sampled': 1110000, 'grad_time_ms': 742.904, 'update_time_ms': 2.317, 'sample_time_ms': 30830.965}",2025-08-31_00-03-50,cda-server-4,29.615214824676514,5550,1756591430,10.157.146.4,False,28391.078963279724,1200
+926,-619.0514424808568,926,1111200,{},-693.661250852949,1111200,0,28422.496252775192,-489.56306658147383,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1111200, 'default': {'kl': 0.009476989507675171, 'policy_loss': -0.123502217233181, 'vf_loss': 304.8507995605469, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9704724550247192, 'entropy': 7.769559860229492, 'cur_lr': 4.999999873689376e-05, 'total_loss': 304.7417297363281}, 'load_time_ms': 0.62, 'num_steps_sampled': 1111200, 'grad_time_ms': 740.201, 'update_time_ms': 2.234, 'sample_time_ms': 30612.702}",2025-08-31_00-04-21,cda-server-4,31.41728949546814,5556,1756591461,10.157.146.4,False,28422.496252775192,1200
+927,-619.6934673661452,927,1112400,{},-693.661250852949,1112400,0,28451.671802520752,-489.56306658147383,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1112400, 'default': {'kl': 0.011494861915707588, 'policy_loss': -0.14296108484268188, 'vf_loss': 401.5055236816406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.970203697681427, 'entropy': 7.559266090393066, 'cur_lr': 4.999999873689376e-05, 'total_loss': 401.3800048828125}, 'load_time_ms': 0.615, 'num_steps_sampled': 1112400, 'grad_time_ms': 716.558, 'update_time_ms': 2.191, 'sample_time_ms': 30268.161}",2025-08-31_00-04-50,cda-server-4,29.175549745559692,5562,1756591490,10.157.146.4,False,28451.671802520752,1200
+928,-619.9898036237702,928,1113600,{},-693.661250852949,1113600,0,28482.95458292961,-489.56306658147383,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1113600, 'default': {'kl': 0.009915530681610107, 'policy_loss': -0.13898153603076935, 'vf_loss': 522.109375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9287628531455994, 'entropy': 7.667253494262695, 'cur_lr': 4.999999873689376e-05, 'total_loss': 521.9855346679688}, 'load_time_ms': 0.636, 'num_steps_sampled': 1113600, 'grad_time_ms': 710.045, 'update_time_ms': 2.133, 'sample_time_ms': 30567.061}",2025-08-31_00-05-22,cda-server-4,31.282780408859253,5568,1756591522,10.157.146.4,False,28482.95458292961,1200
+929,-622.1717623461897,929,1114800,{},-800.1416240272931,1114800,0,28512.468033075333,-489.56306658147383,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1114800, 'default': {'kl': 0.0076567381620407104, 'policy_loss': -0.11774233728647232, 'vf_loss': 570.634521484375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9266717433929443, 'entropy': 7.673429489135742, 'cur_lr': 4.999999873689376e-05, 'total_loss': 570.5284423828125}, 'load_time_ms': 0.642, 'num_steps_sampled': 1114800, 'grad_time_ms': 697.289, 'update_time_ms': 2.163, 'sample_time_ms': 30181.528}",2025-08-31_00-05-51,cda-server-4,29.513450145721436,5574,1756591551,10.157.146.4,False,28512.468033075333,1200
+930,-621.3981226247487,930,1116000,{},-800.1416240272931,1116000,0,28541.358216285706,-489.56306658147383,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1116000, 'default': {'kl': 0.010005377233028412, 'policy_loss': -0.12838466465473175, 'vf_loss': 241.24459838867188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9815576076507568, 'entropy': 7.343589782714844, 'cur_lr': 4.999999873689376e-05, 'total_loss': 241.13140869140625}, 'load_time_ms': 0.643, 'num_steps_sampled': 1116000, 'grad_time_ms': 687.875, 'update_time_ms': 2.133, 'sample_time_ms': 29818.854}",2025-08-31_00-06-20,cda-server-4,28.890183210372925,5580,1756591580,10.157.146.4,False,28541.358216285706,1200
+931,-621.8077561377604,931,1117200,{},-800.1416240272931,1117200,0,28572.090037107468,-489.56306658147383,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1117200, 'default': {'kl': 0.011552316136658192, 'policy_loss': -0.150538831949234, 'vf_loss': 101.77137756347656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9903112053871155, 'entropy': 7.729622840881348, 'cur_lr': 4.999999873689376e-05, 'total_loss': 101.63838958740234}, 'load_time_ms': 0.642, 'num_steps_sampled': 1117200, 'grad_time_ms': 669.838, 'update_time_ms': 2.127, 'sample_time_ms': 29638.55}",2025-08-31_00-06-51,cda-server-4,30.731820821762085,5586,1756591611,10.157.146.4,False,28572.090037107468,1200
+932,-621.0241555691202,932,1118400,{},-800.1416240272931,1118400,0,28602.150723457336,-489.56306658147383,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1118400, 'default': {'kl': 0.010670074261724949, 'policy_loss': -0.1214829534292221, 'vf_loss': 148.75054931640625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9844322204589844, 'entropy': 7.488448143005371, 'cur_lr': 4.999999873689376e-05, 'total_loss': 148.645263671875}, 'load_time_ms': 0.661, 'num_steps_sampled': 1118400, 'grad_time_ms': 655.658, 'update_time_ms': 2.126, 'sample_time_ms': 29915.058}",2025-08-31_00-07-21,cda-server-4,30.060686349868774,5592,1756591641,10.157.146.4,False,28602.150723457336,1200
+933,-621.0251783697356,933,1119600,{},-800.1416240272931,1119600,0,28632.860137939453,-489.56306658147383,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1119600, 'default': {'kl': 0.011532086879014969, 'policy_loss': -0.13866080343723297, 'vf_loss': 186.39340209960938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9824209213256836, 'entropy': 7.785046100616455, 'cur_lr': 4.999999873689376e-05, 'total_loss': 186.27227783203125}, 'load_time_ms': 0.654, 'num_steps_sampled': 1119600, 'grad_time_ms': 641.393, 'update_time_ms': 2.192, 'sample_time_ms': 29580.74}",2025-08-31_00-07-52,cda-server-4,30.7094144821167,5598,1756591672,10.157.146.4,False,28632.860137939453,1200
+934,-619.9797603683072,934,1120800,{},-800.1416240272931,1120800,0,28662.730969429016,-489.56306658147383,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1120800, 'default': {'kl': 0.012998063117265701, 'policy_loss': -0.13956622779369354, 'vf_loss': 2286.942138671875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9299534559249878, 'entropy': 7.3519768714904785, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2286.822021484375}, 'load_time_ms': 0.647, 'num_steps_sampled': 1120800, 'grad_time_ms': 636.06, 'update_time_ms': 2.16, 'sample_time_ms': 29483.825}",2025-08-31_00-08-22,cda-server-4,29.87083148956299,5604,1756591702,10.157.146.4,False,28662.730969429016,1200
+935,-618.9976373596595,935,1122000,{},-800.1416240272931,1122000,0,28696.66599035263,-489.56306658147383,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1122000, 'default': {'kl': 0.009341984987258911, 'policy_loss': -0.11290434002876282, 'vf_loss': 203.71620178222656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9747548699378967, 'entropy': 7.337774276733398, 'cur_lr': 4.999999873689376e-05, 'total_loss': 203.6174774169922}, 'load_time_ms': 0.665, 'num_steps_sampled': 1122000, 'grad_time_ms': 623.683, 'update_time_ms': 2.21, 'sample_time_ms': 29928.017}",2025-08-31_00-08-55,cda-server-4,33.9350209236145,5610,1756591735,10.157.146.4,False,28696.66599035263,1200
+936,-618.391513215096,936,1123200,{},-800.1416240272931,1123200,0,28725.32213449478,-524.4232277901907,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1123200, 'default': {'kl': 0.008649655617773533, 'policy_loss': -0.11900663375854492, 'vf_loss': 102.6175308227539, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9878049492835999, 'entropy': 7.533214092254639, 'cur_lr': 4.999999873689376e-05, 'total_loss': 102.51165771484375}, 'load_time_ms': 0.668, 'num_steps_sampled': 1123200, 'grad_time_ms': 613.205, 'update_time_ms': 2.301, 'sample_time_ms': 29662.359}",2025-08-31_00-09-24,cda-server-4,28.65614414215088,5616,1756591764,10.157.146.4,False,28725.32213449478,1200
+937,-617.9710078383106,937,1124400,{},-800.1416240272931,1124400,0,28752.712682962418,-524.4232277901907,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1124400, 'default': {'kl': 0.012905670329928398, 'policy_loss': -0.13769227266311646, 'vf_loss': 244.48399353027344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9764934182167053, 'entropy': 7.49672794342041, 'cur_lr': 4.999999873689376e-05, 'total_loss': 244.36590576171875}, 'load_time_ms': 0.671, 'num_steps_sampled': 1124400, 'grad_time_ms': 629.716, 'update_time_ms': 2.341, 'sample_time_ms': 29467.325}",2025-08-31_00-09-52,cda-server-4,27.39054846763611,5622,1756591792,10.157.146.4,False,28752.712682962418,1200
+938,-616.9706575454276,938,1125600,{},-800.1416240272931,1125600,0,28782.505962371826,-524.4232277901907,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1125600, 'default': {'kl': 0.009191877208650112, 'policy_loss': -0.1165703535079956, 'vf_loss': 167.426513671875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9755318760871887, 'entropy': 7.437169551849365, 'cur_lr': 4.999999873689376e-05, 'total_loss': 167.32391357421875}, 'load_time_ms': 0.669, 'num_steps_sampled': 1125600, 'grad_time_ms': 637.388, 'update_time_ms': 2.308, 'sample_time_ms': 29310.753}",2025-08-31_00-10-21,cda-server-4,29.79327940940857,5628,1756591821,10.157.146.4,False,28782.505962371826,1200
+939,-617.115191594933,939,1126800,{},-800.1416240272931,1126800,0,28813.588010311127,-524.4232277901907,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1126800, 'default': {'kl': 0.01039968803524971, 'policy_loss': -0.13579465448856354, 'vf_loss': 225.75526428222656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9764264225959778, 'entropy': 7.529163837432861, 'cur_lr': 4.999999873689376e-05, 'total_loss': 225.63526916503906}, 'load_time_ms': 0.668, 'num_steps_sampled': 1126800, 'grad_time_ms': 652.153, 'update_time_ms': 2.26, 'sample_time_ms': 29452.842}",2025-08-31_00-10-52,cda-server-4,31.082047939300537,5634,1756591852,10.157.146.4,False,28813.588010311127,1200
+940,-616.784574076852,940,1128000,{},-800.1416240272931,1128000,0,28842.60325860977,-524.4232277901907,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1128000, 'default': {'kl': 0.010876546613872051, 'policy_loss': -0.13213437795639038, 'vf_loss': 86.54533386230469, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9889459609985352, 'entropy': 7.33608341217041, 'cur_lr': 4.999999873689376e-05, 'total_loss': 86.42971801757812}, 'load_time_ms': 0.668, 'num_steps_sampled': 1128000, 'grad_time_ms': 663.585, 'update_time_ms': 2.31, 'sample_time_ms': 29453.903}",2025-08-31_00-11-21,cda-server-4,29.01524829864502,5640,1756591881,10.157.146.4,False,28842.60325860977,1200
+941,-615.5636252982657,941,1129200,{},-800.1416240272931,1129200,0,28873.700440883636,-524.4232277901907,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1129200, 'default': {'kl': 0.010697949677705765, 'policy_loss': -0.15542125701904297, 'vf_loss': 116.63115692138672, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9855130314826965, 'entropy': 7.520781517028809, 'cur_lr': 4.999999873689376e-05, 'total_loss': 116.49198150634766}, 'load_time_ms': 0.659, 'num_steps_sampled': 1129200, 'grad_time_ms': 681.941, 'update_time_ms': 2.331, 'sample_time_ms': 29472.109}",2025-08-31_00-11-53,cda-server-4,31.097182273864746,5646,1756591913,10.157.146.4,False,28873.700440883636,1200
+942,-614.7221078734501,942,1130400,{},-800.1416240272931,1130400,0,28904.79709672928,-524.4232277901907,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1130400, 'default': {'kl': 0.009910911321640015, 'policy_loss': -0.12089068442583084, 'vf_loss': 269.3365173339844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9692102074623108, 'entropy': 7.397062301635742, 'cur_lr': 4.999999873689376e-05, 'total_loss': 269.23065185546875}, 'load_time_ms': 0.648, 'num_steps_sampled': 1130400, 'grad_time_ms': 695.419, 'update_time_ms': 2.315, 'sample_time_ms': 29562.301}",2025-08-31_00-12-24,cda-server-4,31.09665584564209,5652,1756591944,10.157.146.4,False,28904.79709672928,1200
+943,-613.5480827547186,943,1131600,{},-800.1416240272931,1131600,0,28934.153043031693,-524.4232277901907,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1131600, 'default': {'kl': 0.012415085919201374, 'policy_loss': -0.14846640825271606, 'vf_loss': 161.67417907714844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9789103269577026, 'entropy': 7.5178351402282715, 'cur_lr': 4.999999873689376e-05, 'total_loss': 161.5446014404297}, 'load_time_ms': 0.682, 'num_steps_sampled': 1131600, 'grad_time_ms': 710.748, 'update_time_ms': 2.274, 'sample_time_ms': 29411.599}",2025-08-31_00-12-53,cda-server-4,29.35594630241394,5658,1756591973,10.157.146.4,False,28934.153043031693,1200
+944,-612.9598969476336,944,1132800,{},-800.1416240272931,1132800,0,28965.888293981552,-524.4232277901907,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1132800, 'default': {'kl': 0.009657480753958225, 'policy_loss': -0.12276899814605713, 'vf_loss': 121.41818237304688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9845045804977417, 'entropy': 7.52015495300293, 'cur_lr': 4.999999873689376e-05, 'total_loss': 121.31007385253906}, 'load_time_ms': 0.767, 'num_steps_sampled': 1132800, 'grad_time_ms': 740.711, 'update_time_ms': 2.29, 'sample_time_ms': 29567.777}",2025-08-31_00-13-25,cda-server-4,31.73525094985962,5664,1756592005,10.157.146.4,False,28965.888293981552,1200
+945,-611.9908143608517,945,1134000,{},-665.2995726128914,1134000,0,28996.645133018494,-543.3741758152412,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1134000, 'default': {'kl': 0.010413178242743015, 'policy_loss': -0.1238052025437355, 'vf_loss': 156.82640075683594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.983968198299408, 'entropy': 7.823531150817871, 'cur_lr': 4.999999873689376e-05, 'total_loss': 156.71841430664062}, 'load_time_ms': 0.762, 'num_steps_sampled': 1134000, 'grad_time_ms': 743.562, 'update_time_ms': 2.421, 'sample_time_ms': 29247.025}",2025-08-31_00-13-56,cda-server-4,30.75683903694153,5670,1756592036,10.157.146.4,False,28996.645133018494,1200
+946,-613.4455077828608,946,1135200,{},-665.2995726128914,1135200,0,29024.401311159134,-543.3741758152412,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1135200, 'default': {'kl': 0.009756222367286682, 'policy_loss': -0.11994104832410812, 'vf_loss': 288.7948303222656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9709577560424805, 'entropy': 7.427919387817383, 'cur_lr': 4.999999873689376e-05, 'total_loss': 288.68975830078125}, 'load_time_ms': 0.776, 'num_steps_sampled': 1135200, 'grad_time_ms': 751.382, 'update_time_ms': 2.434, 'sample_time_ms': 29149.099}",2025-08-31_00-14-23,cda-server-4,27.75617814064026,5676,1756592063,10.157.146.4,False,29024.401311159134,1200
+947,-612.9334528129565,947,1136400,{},-665.2995726128914,1136400,0,29057.183541297913,-543.3741758152412,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1136400, 'default': {'kl': 0.012352894060313702, 'policy_loss': -0.14284908771514893, 'vf_loss': 1072.01708984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9707435965538025, 'entropy': 7.824956893920898, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1071.89306640625}, 'load_time_ms': 0.796, 'num_steps_sampled': 1136400, 'grad_time_ms': 746.127, 'update_time_ms': 2.479, 'sample_time_ms': 29693.452}",2025-08-31_00-14-56,cda-server-4,32.78223013877869,5682,1756592096,10.157.146.4,False,29057.183541297913,1200
+948,-612.2492342869036,948,1137600,{},-665.2995726128914,1137600,0,29089.489455461502,-543.3741758152412,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1137600, 'default': {'kl': 0.009934390895068645, 'policy_loss': -0.13286876678466797, 'vf_loss': 161.45278930664062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9852306842803955, 'entropy': 7.311376094818115, 'cur_lr': 4.999999873689376e-05, 'total_loss': 161.3350067138672}, 'load_time_ms': 0.761, 'num_steps_sampled': 1137600, 'grad_time_ms': 729.176, 'update_time_ms': 2.548, 'sample_time_ms': 29961.651}",2025-08-31_00-15-29,cda-server-4,32.30591416358948,5688,1756592129,10.157.146.4,False,29089.489455461502,1200
+949,-611.810528786714,949,1138800,{},-665.2995726128914,1138800,0,29122.330409526825,-543.3741758152412,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1138800, 'default': {'kl': 0.010385917499661446, 'policy_loss': -0.13620243966579437, 'vf_loss': 403.6711730957031, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9532500505447388, 'entropy': 7.57694149017334, 'cur_lr': 4.999999873689376e-05, 'total_loss': 403.55072021484375}, 'load_time_ms': 0.76, 'num_steps_sampled': 1138800, 'grad_time_ms': 720.527, 'update_time_ms': 2.582, 'sample_time_ms': 30146.122}",2025-08-31_00-16-01,cda-server-4,32.840954065322876,5694,1756592161,10.157.146.4,False,29122.330409526825,1200
+950,-613.0495874991113,950,1140000,{},-665.2995726128914,1140000,0,29152.483157873154,-543.3741758152412,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1140000, 'default': {'kl': 0.00784207507967949, 'policy_loss': -0.1084834560751915, 'vf_loss': 308.92578125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9810361862182617, 'entropy': 7.361153602600098, 'cur_lr': 4.999999873689376e-05, 'total_loss': 308.8291931152344}, 'load_time_ms': 0.787, 'num_steps_sampled': 1140000, 'grad_time_ms': 705.607, 'update_time_ms': 2.691, 'sample_time_ms': 30274.54}",2025-08-31_00-16-32,cda-server-4,30.152748346328735,5700,1756592192,10.157.146.4,False,29152.483157873154,1200
+951,-613.0949003394236,951,1141200,{},-665.2995726128914,1141200,0,29182.618604183197,-543.3741758152412,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1141200, 'default': {'kl': 0.010588115081191063, 'policy_loss': -0.12835770845413208, 'vf_loss': 178.56719970703125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9898126125335693, 'entropy': 7.245811462402344, 'cur_lr': 4.999999873689376e-05, 'total_loss': 178.4549102783203}, 'load_time_ms': 0.794, 'num_steps_sampled': 1141200, 'grad_time_ms': 687.758, 'update_time_ms': 2.634, 'sample_time_ms': 30196.179}",2025-08-31_00-17-02,cda-server-4,30.135446310043335,5706,1756592222,10.157.146.4,False,29182.618604183197,1200
+952,-615.0858854986682,952,1142400,{},-665.2995726128914,1142400,0,29216.0776617527,-543.3741758152412,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1142400, 'default': {'kl': 0.012967720627784729, 'policy_loss': -0.15945087373256683, 'vf_loss': 198.7948760986328, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.984787106513977, 'entropy': 7.39444637298584, 'cur_lr': 4.999999873689376e-05, 'total_loss': 198.65512084960938}, 'load_time_ms': 0.817, 'num_steps_sampled': 1142400, 'grad_time_ms': 684.124, 'update_time_ms': 2.647, 'sample_time_ms': 30436.006}",2025-08-31_00-17-35,cda-server-4,33.459057569503784,5712,1756592255,10.157.146.4,False,29216.0776617527,1200
+953,-615.4409701182245,953,1143600,{},-665.2995726128914,1143600,0,29245.263416051865,-543.3741758152412,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1143600, 'default': {'kl': 0.009991598315536976, 'policy_loss': -0.1291256695985794, 'vf_loss': 251.69332885742188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9707189202308655, 'entropy': 7.56467866897583, 'cur_lr': 4.999999873689376e-05, 'total_loss': 251.57937622070312}, 'load_time_ms': 0.788, 'num_steps_sampled': 1143600, 'grad_time_ms': 677.508, 'update_time_ms': 2.62, 'sample_time_ms': 30425.622}",2025-08-31_00-18-04,cda-server-4,29.18575429916382,5718,1756592284,10.157.146.4,False,29245.263416051865,1200
+954,-615.2992438288697,954,1144800,{},-665.2995726128914,1144800,0,29276.012558221817,-543.3741758152412,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1144800, 'default': {'kl': 0.0110081247985363, 'policy_loss': -0.12945477664470673, 'vf_loss': 347.920166015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9526844024658203, 'entropy': 7.7067437171936035, 'cur_lr': 4.999999873689376e-05, 'total_loss': 347.80743408203125}, 'load_time_ms': 0.724, 'num_steps_sampled': 1144800, 'grad_time_ms': 632.531, 'update_time_ms': 2.666, 'sample_time_ms': 30372.224}",2025-08-31_00-18-35,cda-server-4,30.749142169952393,5724,1756592315,10.157.146.4,False,29276.012558221817,1200
+955,-615.0138457262591,955,1146000,{},-665.2995726128914,1146000,0,29306.49736881256,-543.3741758152412,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1146000, 'default': {'kl': 0.007666291669011116, 'policy_loss': -0.11707374453544617, 'vf_loss': 157.1749267578125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9756630659103394, 'entropy': 7.35750675201416, 'cur_lr': 4.999999873689376e-05, 'total_loss': 157.0695037841797}, 'load_time_ms': 0.731, 'num_steps_sampled': 1146000, 'grad_time_ms': 612.207, 'update_time_ms': 2.547, 'sample_time_ms': 30365.552}",2025-08-31_00-19-06,cda-server-4,30.48481059074402,5730,1756592346,10.157.146.4,False,29306.49736881256,1200
+956,-615.4436198976896,956,1147200,{},-665.2995726128914,1147200,0,29338.560799837112,-543.3741758152412,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1147200, 'default': {'kl': 0.009999975562095642, 'policy_loss': -0.13747365772724152, 'vf_loss': 261.1354064941406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9721189141273499, 'entropy': 7.307345867156982, 'cur_lr': 4.999999873689376e-05, 'total_loss': 261.01312255859375}, 'load_time_ms': 0.713, 'num_steps_sampled': 1147200, 'grad_time_ms': 594.383, 'update_time_ms': 2.425, 'sample_time_ms': 30814.238}",2025-08-31_00-19-38,cda-server-4,32.06343102455139,5736,1756592378,10.157.146.4,False,29338.560799837112,1200
+957,-615.8712703126505,957,1148400,{},-665.2995726128914,1148400,0,29369.614771842957,-563.4113531156958,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1148400, 'default': {'kl': 0.010077684186398983, 'policy_loss': -0.14446678757667542, 'vf_loss': 715.0712280273438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9409646987915039, 'entropy': 7.450324058532715, 'cur_lr': 4.999999873689376e-05, 'total_loss': 714.9420776367188}, 'load_time_ms': 0.689, 'num_steps_sampled': 1148400, 'grad_time_ms': 597.091, 'update_time_ms': 2.357, 'sample_time_ms': 30638.86}",2025-08-31_00-20-09,cda-server-4,31.053972005844116,5742,1756592409,10.157.146.4,False,29369.614771842957,1200
+958,-615.2177085182317,958,1149600,{},-665.2995726128914,1149600,0,29399.006778240204,-563.4113531156958,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1149600, 'default': {'kl': 0.010276714339852333, 'policy_loss': -0.13458339869976044, 'vf_loss': 632.6473388671875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9316591620445251, 'entropy': 7.567716598510742, 'cur_lr': 4.999999873689376e-05, 'total_loss': 632.5284423828125}, 'load_time_ms': 0.689, 'num_steps_sampled': 1149600, 'grad_time_ms': 608.756, 'update_time_ms': 2.322, 'sample_time_ms': 30335.747}",2025-08-31_00-20-38,cda-server-4,29.392006397247314,5748,1756592438,10.157.146.4,False,29399.006778240204,1200
+959,-615.8544244466626,959,1150800,{},-665.2995726128914,1150800,0,29430.555960655212,-563.4113531156958,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1150800, 'default': {'kl': 0.010160096921026707, 'policy_loss': -0.13553054630756378, 'vf_loss': 827.3342895507812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8844323754310608, 'entropy': 8.000910758972168, 'cur_lr': 4.999999873689376e-05, 'total_loss': 827.214111328125}, 'load_time_ms': 0.687, 'num_steps_sampled': 1150800, 'grad_time_ms': 617.536, 'update_time_ms': 2.274, 'sample_time_ms': 30197.921}",2025-08-31_00-21-10,cda-server-4,31.549182415008545,5754,1756592470,10.157.146.4,False,29430.555960655212,1200
+960,-615.8323166274021,960,1152000,{},-665.2995726128914,1152000,0,29463.360164642334,-563.4113531156958,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1152000, 'default': {'kl': 0.012354914098978043, 'policy_loss': -0.11727699637413025, 'vf_loss': 170.52391052246094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9782991409301758, 'entropy': 7.18843936920166, 'cur_lr': 4.999999873689376e-05, 'total_loss': 170.42539978027344}, 'load_time_ms': 0.659, 'num_steps_sampled': 1152000, 'grad_time_ms': 623.986, 'update_time_ms': 2.145, 'sample_time_ms': 30456.878}",2025-08-31_00-21-43,cda-server-4,32.80420398712158,5760,1756592503,10.157.146.4,False,29463.360164642334,1200
+961,-615.1648677314707,961,1153200,{},-665.2995726128914,1153200,0,29489.532269001007,-563.4113531156958,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1153200, 'default': {'kl': 0.009763733483850956, 'policy_loss': -0.13294027745723724, 'vf_loss': 114.43852996826172, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9842567443847656, 'entropy': 7.13226842880249, 'cur_lr': 4.999999873689376e-05, 'total_loss': 114.32041931152344}, 'load_time_ms': 0.656, 'num_steps_sampled': 1153200, 'grad_time_ms': 640.562, 'update_time_ms': 2.196, 'sample_time_ms': 30043.842}",2025-08-31_00-22-09,cda-server-4,26.172104358673096,5766,1756592529,10.157.146.4,False,29489.532269001007,1200
+962,-614.0366937640837,962,1154400,{},-661.6093986199195,1154400,0,29521.775873184204,-563.4113531156958,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1154400, 'default': {'kl': 0.008177452720701694, 'policy_loss': -0.12161470949649811, 'vf_loss': 510.3821716308594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9320579171180725, 'entropy': 7.876283645629883, 'cur_lr': 4.999999873689376e-05, 'total_loss': 510.27301025390625}, 'load_time_ms': 0.624, 'num_steps_sampled': 1154400, 'grad_time_ms': 640.801, 'update_time_ms': 2.167, 'sample_time_ms': 29922.127}",2025-08-31_00-22-41,cda-server-4,32.24360418319702,5772,1756592561,10.157.146.4,False,29521.775873184204,1200
+963,-614.5590446144125,963,1155600,{},-661.6093986199195,1155600,0,29552.039968013763,-563.4113531156958,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1155600, 'default': {'kl': 0.009721110574901104, 'policy_loss': -0.12525010108947754, 'vf_loss': 425.1763610839844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9628136157989502, 'entropy': 7.38861083984375, 'cur_lr': 4.999999873689376e-05, 'total_loss': 425.06585693359375}, 'load_time_ms': 0.63, 'num_steps_sampled': 1155600, 'grad_time_ms': 648.094, 'update_time_ms': 2.265, 'sample_time_ms': 30022.572}",2025-08-31_00-23-11,cda-server-4,30.264094829559326,5778,1756592591,10.157.146.4,False,29552.039968013763,1200
+964,-615.6379106278705,964,1156800,{},-673.8506407665668,1156800,0,29582.509196043015,-563.4113531156958,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1156800, 'default': {'kl': 0.013118596747517586, 'policy_loss': -0.15341566503047943, 'vf_loss': 2034.1595458984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8154500722885132, 'entropy': 7.599114418029785, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2034.0262451171875}, 'load_time_ms': 0.614, 'num_steps_sampled': 1156800, 'grad_time_ms': 668.662, 'update_time_ms': 2.237, 'sample_time_ms': 29974.109}",2025-08-31_00-23-42,cda-server-4,30.4692280292511,5784,1756592622,10.157.146.4,False,29582.509196043015,1200
+965,-615.2334634146821,965,1158000,{},-673.8506407665668,1158000,0,29616.223186969757,-563.4113531156958,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1158000, 'default': {'kl': 0.00979153998196125, 'policy_loss': -0.12531334161758423, 'vf_loss': 176.12884521484375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.979381799697876, 'entropy': 7.44175910949707, 'cur_lr': 4.999999873689376e-05, 'total_loss': 176.01841735839844}, 'load_time_ms': 0.584, 'num_steps_sampled': 1158000, 'grad_time_ms': 694.367, 'update_time_ms': 2.186, 'sample_time_ms': 30271.334}",2025-08-31_00-24-16,cda-server-4,33.713990926742554,5790,1756592656,10.157.146.4,False,29616.223186969757,1200
+966,-615.153905434973,966,1159200,{},-673.8506407665668,1159200,0,29648.743052244186,-563.4113531156958,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1159200, 'default': {'kl': 0.010126051492989063, 'policy_loss': -0.12650038301944733, 'vf_loss': 167.29296875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.981134831905365, 'entropy': 7.356131553649902, 'cur_lr': 4.999999873689376e-05, 'total_loss': 167.1818389892578}, 'load_time_ms': 0.587, 'num_steps_sampled': 1159200, 'grad_time_ms': 717.558, 'update_time_ms': 2.304, 'sample_time_ms': 30293.699}",2025-08-31_00-24-48,cda-server-4,32.51986527442932,5796,1756592688,10.157.146.4,False,29648.743052244186,1200
+967,-615.108992603973,967,1160400,{},-673.8506407665668,1160400,0,29679.286677837372,-563.4113531156958,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1160400, 'default': {'kl': 0.009122977964580059, 'policy_loss': -0.12561993300914764, 'vf_loss': 124.56565856933594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9797025322914124, 'entropy': 7.617338180541992, 'cur_lr': 4.999999873689376e-05, 'total_loss': 124.45389556884766}, 'load_time_ms': 0.596, 'num_steps_sampled': 1160400, 'grad_time_ms': 717.533, 'update_time_ms': 2.31, 'sample_time_ms': 30242.644}",2025-08-31_00-25-19,cda-server-4,30.543625593185425,5802,1756592719,10.157.146.4,False,29679.286677837372,1200
+968,-614.6420564073826,968,1161600,{},-673.8506407665668,1161600,0,29707.72600364685,-563.4113531156958,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1161600, 'default': {'kl': 0.00841214507818222, 'policy_loss': -0.10548976063728333, 'vf_loss': 265.38623046875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9665378928184509, 'entropy': 7.565133094787598, 'cur_lr': 4.999999873689376e-05, 'total_loss': 265.2934875488281}, 'load_time_ms': 0.594, 'num_steps_sampled': 1161600, 'grad_time_ms': 708.921, 'update_time_ms': 2.3, 'sample_time_ms': 30156.118}",2025-08-31_00-25-47,cda-server-4,28.43932580947876,5808,1756592747,10.157.146.4,False,29707.72600364685,1200
+969,-612.9127531306026,969,1162800,{},-673.8506407665668,1162800,0,29739.399032831192,-563.4113531156958,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1162800, 'default': {'kl': 0.009462693706154823, 'policy_loss': -0.11431516706943512, 'vf_loss': 339.6562194824219, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.958165168762207, 'entropy': 7.778133869171143, 'cur_lr': 4.999999873689376e-05, 'total_loss': 339.5562744140625}, 'load_time_ms': 0.638, 'num_steps_sampled': 1162800, 'grad_time_ms': 693.831, 'update_time_ms': 2.284, 'sample_time_ms': 30183.501}",2025-08-31_00-26-19,cda-server-4,31.67302918434143,5814,1756592779,10.157.146.4,False,29739.399032831192,1200
+970,-612.7569034903368,970,1164000,{},-673.8506407665668,1164000,0,29770.089010715485,-574.8029752812189,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1164000, 'default': {'kl': 0.012576197274029255, 'policy_loss': -0.14172686636447906, 'vf_loss': 186.10337829589844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9728430509567261, 'entropy': 7.198686599731445, 'cur_lr': 4.999999873689376e-05, 'total_loss': 185.98074340820312}, 'load_time_ms': 0.652, 'num_steps_sampled': 1164000, 'grad_time_ms': 698.933, 'update_time_ms': 2.301, 'sample_time_ms': 29966.962}",2025-08-31_00-26-49,cda-server-4,30.689977884292603,5820,1756592809,10.157.146.4,False,29770.089010715485,1200
+971,-614.7338809434339,971,1165200,{},-762.1336235200425,1165200,0,29803.092551469803,-574.8029752812189,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1165200, 'default': {'kl': 0.008976287208497524, 'policy_loss': -0.10734164714813232, 'vf_loss': 435.76287841796875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9436463117599487, 'entropy': 7.548470497131348, 'cur_lr': 4.999999873689376e-05, 'total_loss': 435.6690979003906}, 'load_time_ms': 0.657, 'num_steps_sampled': 1165200, 'grad_time_ms': 698.063, 'update_time_ms': 2.279, 'sample_time_ms': 30651.034}",2025-08-31_00-27-23,cda-server-4,33.00354075431824,5826,1756592843,10.157.146.4,False,29803.092551469803,1200
+972,-615.263775314253,972,1166400,{},-762.1336235200425,1166400,0,29831.859199762344,-574.8029752812189,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1166400, 'default': {'kl': 0.009447132237255573, 'policy_loss': -0.13461878895759583, 'vf_loss': 135.99868774414062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9834688901901245, 'entropy': 7.524463176727295, 'cur_lr': 4.999999873689376e-05, 'total_loss': 135.87840270996094}, 'load_time_ms': 0.657, 'num_steps_sampled': 1166400, 'grad_time_ms': 694.677, 'update_time_ms': 2.276, 'sample_time_ms': 30306.699}",2025-08-31_00-27-51,cda-server-4,28.766648292541504,5832,1756592871,10.157.146.4,False,29831.859199762344,1200
+973,-615.2323528719002,973,1167600,{},-762.1336235200425,1167600,0,29865.555982112885,-574.8029752812189,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1167600, 'default': {'kl': 0.010145552456378937, 'policy_loss': -0.13428542017936707, 'vf_loss': 280.6829833984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9753531217575073, 'entropy': 7.429656982421875, 'cur_lr': 4.999999873689376e-05, 'total_loss': 280.56414794921875}, 'load_time_ms': 0.652, 'num_steps_sampled': 1167600, 'grad_time_ms': 693.88, 'update_time_ms': 2.247, 'sample_time_ms': 30650.866}",2025-08-31_00-28-25,cda-server-4,33.69678235054016,5838,1756592905,10.157.146.4,False,29865.555982112885,1200
+974,-614.7092544208961,974,1168800,{},-762.1336235200425,1168800,0,29896.63490986824,-492.3186468769762,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1168800, 'default': {'kl': 0.010935317724943161, 'policy_loss': -0.15005172789096832, 'vf_loss': 648.9147338867188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9310177564620972, 'entropy': 7.500551700592041, 'cur_lr': 4.999999873689376e-05, 'total_loss': 648.78125}, 'load_time_ms': 0.642, 'num_steps_sampled': 1168800, 'grad_time_ms': 696.372, 'update_time_ms': 2.227, 'sample_time_ms': 30709.337}",2025-08-31_00-28-56,cda-server-4,31.078927755355835,5844,1756592936,10.157.146.4,False,29896.63490986824,1200
+975,-614.8584113101919,975,1170000,{},-762.1336235200425,1170000,0,29927.2479660511,-492.3186468769762,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1170000, 'default': {'kl': 0.010424409061670303, 'policy_loss': -0.12216974794864655, 'vf_loss': 247.91929626464844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9666204452514648, 'entropy': 7.50670862197876, 'cur_lr': 4.999999873689376e-05, 'total_loss': 247.81295776367188}, 'load_time_ms': 0.651, 'num_steps_sampled': 1170000, 'grad_time_ms': 695.565, 'update_time_ms': 2.271, 'sample_time_ms': 30400.015}",2025-08-31_00-29-27,cda-server-4,30.613056182861328,5850,1756592967,10.157.146.4,False,29927.2479660511,1200
+976,-615.1193218253394,976,1171200,{},-762.1336235200425,1171200,0,29956.121698856354,-492.3186468769762,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1171200, 'default': {'kl': 0.010435190051794052, 'policy_loss': -0.1167205423116684, 'vf_loss': 190.1379852294922, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9826700687408447, 'entropy': 6.996903896331787, 'cur_lr': 4.999999873689376e-05, 'total_loss': 190.03709411621094}, 'load_time_ms': 0.651, 'num_steps_sampled': 1171200, 'grad_time_ms': 682.664, 'update_time_ms': 2.224, 'sample_time_ms': 30048.264}",2025-08-31_00-29-56,cda-server-4,28.873732805252075,5856,1756592996,10.157.146.4,False,29956.121698856354,1200
+977,-615.2176086129783,977,1172400,{},-762.1336235200425,1172400,0,29984.082011938095,-492.3186468769762,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1172400, 'default': {'kl': 0.011365882121026516, 'policy_loss': -0.12098921835422516, 'vf_loss': 302.658935546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9668582081794739, 'entropy': 7.093448162078857, 'cur_lr': 4.999999873689376e-05, 'total_loss': 302.5552062988281}, 'load_time_ms': 0.646, 'num_steps_sampled': 1172400, 'grad_time_ms': 680.093, 'update_time_ms': 2.353, 'sample_time_ms': 29792.353}",2025-08-31_00-30-24,cda-server-4,27.960313081741333,5862,1756593024,10.157.146.4,False,29984.082011938095,1200
+978,-614.9993151662746,978,1173600,{},-762.1336235200425,1173600,0,30017.620859861374,-492.3186468769762,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1173600, 'default': {'kl': 0.009249787777662277, 'policy_loss': -0.11125221848487854, 'vf_loss': 255.46763610839844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9768033623695374, 'entropy': 7.605929851531982, 'cur_lr': 4.999999873689376e-05, 'total_loss': 255.37039184570312}, 'load_time_ms': 0.652, 'num_steps_sampled': 1173600, 'grad_time_ms': 689.738, 'update_time_ms': 2.417, 'sample_time_ms': 30292.51}",2025-08-31_00-30-57,cda-server-4,33.53884792327881,5868,1756593057,10.157.146.4,False,30017.620859861374,1200
+979,-615.3337048658309,979,1174800,{},-762.1336235200425,1174800,0,30046.471390247345,-492.3186468769762,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1174800, 'default': {'kl': 0.010207533836364746, 'policy_loss': -0.12049257755279541, 'vf_loss': 127.41355895996094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9861140847206116, 'entropy': 7.236469745635986, 'cur_lr': 4.999999873689376e-05, 'total_loss': 127.30855560302734}, 'load_time_ms': 0.624, 'num_steps_sampled': 1174800, 'grad_time_ms': 697.729, 'update_time_ms': 2.462, 'sample_time_ms': 30002.244}",2025-08-31_00-31-26,cda-server-4,28.85053038597107,5874,1756593086,10.157.146.4,False,30046.471390247345,1200
+980,-611.8722722983662,980,1176000,{},-762.1336235200425,1176000,0,30078.79089641571,-485.63829960569666,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1176000, 'default': {'kl': 0.011029962450265884, 'policy_loss': -0.13845747709274292, 'vf_loss': 426.57110595703125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9417192935943604, 'entropy': 7.17132043838501, 'cur_lr': 4.999999873689376e-05, 'total_loss': 426.4493713378906}, 'load_time_ms': 0.609, 'num_steps_sampled': 1176000, 'grad_time_ms': 688.061, 'update_time_ms': 2.482, 'sample_time_ms': 30174.904}",2025-08-31_00-31-58,cda-server-4,32.31950616836548,5880,1756593118,10.157.146.4,False,30078.79089641571,1200
+981,-611.4420040902837,981,1177200,{},-762.1336235200425,1177200,0,30106.77046895027,-485.63829960569666,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1177200, 'default': {'kl': 0.009330466389656067, 'policy_loss': -0.11157870292663574, 'vf_loss': 79.82858276367188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9936395287513733, 'entropy': 7.175470352172852, 'cur_lr': 4.999999873689376e-05, 'total_loss': 79.73117065429688}, 'load_time_ms': 0.603, 'num_steps_sampled': 1177200, 'grad_time_ms': 681.13, 'update_time_ms': 2.463, 'sample_time_ms': 29679.517}",2025-08-31_00-32-26,cda-server-4,27.979572534561157,5886,1756593146,10.157.146.4,False,30106.77046895027,1200
+982,-612.6839742534099,982,1178400,{},-762.1336235200425,1178400,0,30140.762998342514,-485.63829960569666,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1178400, 'default': {'kl': 0.011323491111397743, 'policy_loss': -0.149543896317482, 'vf_loss': 460.7462158203125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.963874101638794, 'entropy': 7.50266695022583, 'cur_lr': 4.999999873689376e-05, 'total_loss': 460.61383056640625}, 'load_time_ms': 0.607, 'num_steps_sampled': 1178400, 'grad_time_ms': 669.525, 'update_time_ms': 2.499, 'sample_time_ms': 30213.739}",2025-08-31_00-33-00,cda-server-4,33.99252939224243,5892,1756593180,10.157.146.4,False,30140.762998342514,1200
+983,-612.2245137594988,983,1179600,{},-762.1336235200425,1179600,0,30169.45678281784,-485.63829960569666,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1179600, 'default': {'kl': 0.009249387308955193, 'policy_loss': -0.11732739955186844, 'vf_loss': 137.07916259765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9822195768356323, 'entropy': 7.292179584503174, 'cur_lr': 4.999999873689376e-05, 'total_loss': 136.9758758544922}, 'load_time_ms': 0.604, 'num_steps_sampled': 1179600, 'grad_time_ms': 656.061, 'update_time_ms': 2.478, 'sample_time_ms': 29726.906}",2025-08-31_00-33-29,cda-server-4,28.693784475326538,5898,1756593209,10.157.146.4,False,30169.45678281784,1200
+984,-611.6256137371322,984,1180800,{},-762.1336235200425,1180800,0,30201.22997713089,-485.63829960569666,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1180800, 'default': {'kl': 0.009165742434561253, 'policy_loss': -0.13668975234031677, 'vf_loss': 268.69183349609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9727855324745178, 'entropy': 7.116640090942383, 'cur_lr': 4.999999873689376e-05, 'total_loss': 268.569091796875}, 'load_time_ms': 0.608, 'num_steps_sampled': 1180800, 'grad_time_ms': 641.47, 'update_time_ms': 2.508, 'sample_time_ms': 29810.902}",2025-08-31_00-34-01,cda-server-4,31.773194313049316,5904,1756593241,10.157.146.4,False,30201.22997713089,1200
+985,-612.3902847096917,985,1182000,{},-762.1336235200425,1182000,0,30231.175652742386,-485.63829960569666,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1182000, 'default': {'kl': 0.01186863612383604, 'policy_loss': -0.1319899559020996, 'vf_loss': 201.08157348632812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9806980490684509, 'entropy': 7.333564758300781, 'cur_lr': 4.999999873689376e-05, 'total_loss': 200.9676055908203}, 'load_time_ms': 0.608, 'num_steps_sampled': 1182000, 'grad_time_ms': 636.984, 'update_time_ms': 2.502, 'sample_time_ms': 29748.701}",2025-08-31_00-34-31,cda-server-4,29.94567561149597,5910,1756593271,10.157.146.4,False,30231.175652742386,1200
+986,-613.751166724686,986,1183200,{},-762.1336235200425,1183200,0,30262.334517002106,-485.63829960569666,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1183200, 'default': {'kl': 0.010250418446958065, 'policy_loss': -0.13000522553920746, 'vf_loss': 237.20635986328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9646170735359192, 'entropy': 7.499698162078857, 'cur_lr': 4.999999873689376e-05, 'total_loss': 237.09193420410156}, 'load_time_ms': 0.626, 'num_steps_sampled': 1183200, 'grad_time_ms': 643.901, 'update_time_ms': 2.433, 'sample_time_ms': 29970.361}",2025-08-31_00-35-02,cda-server-4,31.15886425971985,5916,1756593302,10.157.146.4,False,30262.334517002106,1200
+987,-614.9651676313939,987,1184400,{},-762.1336235200425,1184400,0,30294.68387556076,-485.63829960569666,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1184400, 'default': {'kl': 0.009716027416288853, 'policy_loss': -0.12283162027597427, 'vf_loss': 121.15731811523438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9830667972564697, 'entropy': 7.272896766662598, 'cur_lr': 4.999999873689376e-05, 'total_loss': 121.04924774169922}, 'load_time_ms': 0.627, 'num_steps_sampled': 1184400, 'grad_time_ms': 655.52, 'update_time_ms': 2.336, 'sample_time_ms': 30397.758}",2025-08-31_00-35-34,cda-server-4,32.349358558654785,5922,1756593334,10.157.146.4,False,30294.68387556076,1200
+988,-613.1949801625776,988,1185600,{},-677.6100790116703,1185600,0,30324.28250312805,-485.63829960569666,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1185600, 'default': {'kl': 0.008443324826657772, 'policy_loss': -0.11379267275333405, 'vf_loss': 641.7809448242188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9358238577842712, 'entropy': 7.483497619628906, 'cur_lr': 4.999999873689376e-05, 'total_loss': 641.679931640625}, 'load_time_ms': 0.636, 'num_steps_sampled': 1185600, 'grad_time_ms': 659.829, 'update_time_ms': 2.284, 'sample_time_ms': 29999.504}",2025-08-31_00-36-04,cda-server-4,29.59862756729126,5928,1756593364,10.157.146.4,False,30324.28250312805,1200
+989,-613.3303740484048,989,1186800,{},-677.6100790116703,1186800,0,30352.62116408348,-485.63829960569666,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1186800, 'default': {'kl': 0.010579880326986313, 'policy_loss': -0.1381467580795288, 'vf_loss': 183.9440460205078, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.98341965675354, 'entropy': 7.38899040222168, 'cur_lr': 4.999999873689376e-05, 'total_loss': 183.82196044921875}, 'load_time_ms': 0.624, 'num_steps_sampled': 1186800, 'grad_time_ms': 647.472, 'update_time_ms': 2.304, 'sample_time_ms': 29960.651}",2025-08-31_00-36-32,cda-server-4,28.338660955429077,5934,1756593392,10.157.146.4,False,30352.62116408348,1200
+990,-615.0939247585865,990,1188000,{},-677.6100790116703,1188000,0,30384.605741500854,-485.63829960569666,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1188000, 'default': {'kl': 0.01007807906717062, 'policy_loss': -0.1254776269197464, 'vf_loss': 301.6348876953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9737443923950195, 'entropy': 7.140846252441406, 'cur_lr': 4.999999873689376e-05, 'total_loss': 301.5246887207031}, 'load_time_ms': 0.623, 'num_steps_sampled': 1188000, 'grad_time_ms': 643.752, 'update_time_ms': 2.263, 'sample_time_ms': 29930.898}",2025-08-31_00-37-04,cda-server-4,31.984577417373657,5940,1756593424,10.157.146.4,False,30384.605741500854,1200
+991,-614.5099680781796,991,1189200,{},-677.6100790116703,1189200,0,30417.163927078247,-485.63829960569666,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1189200, 'default': {'kl': 0.009025368839502335, 'policy_loss': -0.12959188222885132, 'vf_loss': 319.2357177734375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9682320356369019, 'entropy': 7.467482566833496, 'cur_lr': 4.999999873689376e-05, 'total_loss': 319.1198425292969}, 'load_time_ms': 0.652, 'num_steps_sampled': 1189200, 'grad_time_ms': 641.913, 'update_time_ms': 2.306, 'sample_time_ms': 30390.587}",2025-08-31_00-37-37,cda-server-4,32.55818557739258,5946,1756593457,10.157.146.4,False,30417.163927078247,1200
+992,-614.8224688192672,992,1190400,{},-677.6100790116703,1190400,0,30447.316064596176,-485.63829960569666,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1190400, 'default': {'kl': 0.01056324690580368, 'policy_loss': -0.13159684836864471, 'vf_loss': 196.88514709472656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9824737906455994, 'entropy': 7.506618976593018, 'cur_lr': 4.999999873689376e-05, 'total_loss': 196.76959228515625}, 'load_time_ms': 0.642, 'num_steps_sampled': 1190400, 'grad_time_ms': 646.148, 'update_time_ms': 2.277, 'sample_time_ms': 30002.345}",2025-08-31_00-38-07,cda-server-4,30.152137517929077,5952,1756593487,10.157.146.4,False,30447.316064596176,1200
+993,-614.0942624674417,993,1191600,{},-677.6100790116703,1191600,0,30479.103187322617,-485.63829960569666,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1191600, 'default': {'kl': 0.009678936563432217, 'policy_loss': -0.12386948615312576, 'vf_loss': 230.60031127929688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9695528745651245, 'entropy': 7.5049896240234375, 'cur_lr': 4.999999873689376e-05, 'total_loss': 230.49114990234375}, 'load_time_ms': 0.678, 'num_steps_sampled': 1191600, 'grad_time_ms': 653.975, 'update_time_ms': 2.242, 'sample_time_ms': 30303.835}",2025-08-31_00-38-39,cda-server-4,31.78712272644043,5958,1756593519,10.157.146.4,False,30479.103187322617,1200
+994,-614.3713640560779,994,1192800,{},-677.6100790116703,1192800,0,30510.603018283844,-485.63829960569666,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1192800, 'default': {'kl': 0.011011078022420406, 'policy_loss': -0.11810681223869324, 'vf_loss': 234.77243041992188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9643741250038147, 'entropy': 7.13096284866333, 'cur_lr': 4.999999873689376e-05, 'total_loss': 234.6710662841797}, 'load_time_ms': 0.674, 'num_steps_sampled': 1192800, 'grad_time_ms': 664.111, 'update_time_ms': 2.261, 'sample_time_ms': 30266.37}",2025-08-31_00-39-10,cda-server-4,31.499830961227417,5964,1756593550,10.157.146.4,False,30510.603018283844,1200
+995,-614.387156259296,995,1194000,{},-677.6100790116703,1194000,0,30542.669003725052,-485.63829960569666,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1194000, 'default': {'kl': 0.011965770274400711, 'policy_loss': -0.15844525396823883, 'vf_loss': 152.0209503173828, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9865489602088928, 'entropy': 7.450986385345459, 'cur_lr': 4.999999873689376e-05, 'total_loss': 151.88067626953125}, 'load_time_ms': 0.667, 'num_steps_sampled': 1194000, 'grad_time_ms': 659.325, 'update_time_ms': 2.221, 'sample_time_ms': 30483.089}",2025-08-31_00-39-42,cda-server-4,32.065985441207886,5970,1756593582,10.157.146.4,False,30542.669003725052,1200
+996,-615.1978871754457,996,1195200,{},-677.6100790116703,1195200,0,30574.35307621956,-485.63829960569666,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1195200, 'default': {'kl': 0.009767618030309677, 'policy_loss': -0.10882972180843353, 'vf_loss': 113.44175720214844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9825446009635925, 'entropy': 7.282007217407227, 'cur_lr': 4.999999873689376e-05, 'total_loss': 113.34776306152344}, 'load_time_ms': 0.654, 'num_steps_sampled': 1195200, 'grad_time_ms': 646.599, 'update_time_ms': 2.337, 'sample_time_ms': 30548.3}",2025-08-31_00-40-14,cda-server-4,31.684072494506836,5976,1756593614,10.157.146.4,False,30574.35307621956,1200
+997,-616.4479848352706,997,1196400,{},-677.6100790116703,1196400,0,30606.69668841362,-563.1699918333742,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1196400, 'default': {'kl': 0.011294695548713207, 'policy_loss': -0.1320882886648178, 'vf_loss': 108.5775146484375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9859038591384888, 'entropy': 7.291264057159424, 'cur_lr': 4.999999873689376e-05, 'total_loss': 108.46258544921875}, 'load_time_ms': 0.657, 'num_steps_sampled': 1196400, 'grad_time_ms': 635.367, 'update_time_ms': 2.322, 'sample_time_ms': 30558.921}",2025-08-31_00-40-47,cda-server-4,32.34361219406128,5982,1756593647,10.157.146.4,False,30606.69668841362,1200
+998,-616.3547765278608,998,1197600,{},-672.8105149982754,1197600,0,30633.9125726223,-563.1699918333742,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1197600, 'default': {'kl': 0.011880154721438885, 'policy_loss': -0.14804744720458984, 'vf_loss': 86.74794006347656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9892224073410034, 'entropy': 7.261724472045898, 'cur_lr': 4.999999873689376e-05, 'total_loss': 86.6179428100586}, 'load_time_ms': 0.657, 'num_steps_sampled': 1197600, 'grad_time_ms': 628.108, 'update_time_ms': 2.296, 'sample_time_ms': 30327.98}",2025-08-31_00-41-14,cda-server-4,27.2158842086792,5988,1756593674,10.157.146.4,False,30633.9125726223,1200
+999,-615.7980126426286,999,1198800,{},-672.8105149982754,1198800,0,30664.763437986374,-563.1699918333742,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1198800, 'default': {'kl': 0.01064346358180046, 'policy_loss': -0.1278393715620041, 'vf_loss': 106.57978820800781, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9868420362472534, 'entropy': 7.218528747558594, 'cur_lr': 4.999999873689376e-05, 'total_loss': 106.46810913085938}, 'load_time_ms': 0.655, 'num_steps_sampled': 1198800, 'grad_time_ms': 648.19, 'update_time_ms': 2.329, 'sample_time_ms': 30559.178}",2025-08-31_00-41-45,cda-server-4,30.850865364074707,5994,1756593705,10.157.146.4,False,30664.763437986374,1200
+1000,-615.4501840188583,1000,1200000,{},-672.8105149982754,1200000,0,30696.984349250793,-563.1699918333742,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1200000, 'default': {'kl': 0.009322753176093102, 'policy_loss': -0.11077073216438293, 'vf_loss': 112.08198547363281, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9857222437858582, 'entropy': 6.9155073165893555, 'cur_lr': 4.999999873689376e-05, 'total_loss': 111.98538208007812}, 'load_time_ms': 0.659, 'num_steps_sampled': 1200000, 'grad_time_ms': 664.157, 'update_time_ms': 2.323, 'sample_time_ms': 30566.855}",2025-08-31_00-42-17,cda-server-4,32.220911264419556,6000,1756593737,10.157.146.4,False,30696.984349250793,1200
+1001,-615.399833150253,1001,1201200,{},-672.8105149982754,1201200,0,30728.798241853714,-563.1699918333742,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1201200, 'default': {'kl': 0.011433147825300694, 'policy_loss': -0.13437464833259583, 'vf_loss': 87.51775360107422, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9906172156333923, 'entropy': 7.154234886169434, 'cur_lr': 4.999999873689376e-05, 'total_loss': 87.40074157714844}, 'load_time_ms': 0.663, 'num_steps_sampled': 1201200, 'grad_time_ms': 675.999, 'update_time_ms': 2.265, 'sample_time_ms': 30480.598}",2025-08-31_00-42-49,cda-server-4,31.813892602920532,6006,1756593769,10.157.146.4,False,30728.798241853714,1200
+1002,-615.8604608198661,1002,1202400,{},-672.8105149982754,1202400,0,30756.673317670822,-563.1699918333742,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1202400, 'default': {'kl': 0.01152394711971283, 'policy_loss': -0.11499546468257904, 'vf_loss': 510.1617431640625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9369962215423584, 'entropy': 7.194773197174072, 'cur_lr': 4.999999873689376e-05, 'total_loss': 510.0642395019531}, 'load_time_ms': 0.679, 'num_steps_sampled': 1202400, 'grad_time_ms': 684.353, 'update_time_ms': 2.379, 'sample_time_ms': 30244.414}",2025-08-31_00-43-17,cda-server-4,27.875075817108154,6012,1756593797,10.157.146.4,False,30756.673317670822,1200
+1003,-614.5240263203758,1003,1203600,{},-672.8105149982754,1203600,0,30785.4774954319,-563.1699918333742,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1203600, 'default': {'kl': 0.010073269717395306, 'policy_loss': -0.11532582342624664, 'vf_loss': 82.5900650024414, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9887485504150391, 'entropy': 7.062209606170654, 'cur_lr': 4.999999873689376e-05, 'total_loss': 82.49003601074219}, 'load_time_ms': 0.662, 'num_steps_sampled': 1203600, 'grad_time_ms': 677.679, 'update_time_ms': 2.411, 'sample_time_ms': 29952.766}",2025-08-31_00-43-46,cda-server-4,28.80417776107788,6018,1756593826,10.157.146.4,False,30785.4774954319,1200
+1004,-613.5296880239387,1004,1204800,{},-672.8105149982754,1204800,0,30814.04994249344,-563.1699918333742,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1204800, 'default': {'kl': 0.008265610784292221, 'policy_loss': -0.11439323425292969, 'vf_loss': 215.4010467529297, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9801958799362183, 'entropy': 7.432792663574219, 'cur_lr': 4.999999873689376e-05, 'total_loss': 215.29917907714844}, 'load_time_ms': 0.675, 'num_steps_sampled': 1204800, 'grad_time_ms': 661.673, 'update_time_ms': 2.423, 'sample_time_ms': 29675.919}",2025-08-31_00-44-14,cda-server-4,28.572447061538696,6024,1756593854,10.157.146.4,False,30814.04994249344,1200
+1005,-613.8750870048799,1005,1206000,{},-674.5337928954478,1206000,0,30844.675124645233,-563.1699918333742,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1206000, 'default': {'kl': 0.011709741316735744, 'policy_loss': -0.1502836048603058, 'vf_loss': 296.2238464355469, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9630447030067444, 'entropy': 7.29924201965332, 'cur_lr': 4.999999873689376e-05, 'total_loss': 296.09136962890625}, 'load_time_ms': 0.678, 'num_steps_sampled': 1206000, 'grad_time_ms': 663.898, 'update_time_ms': 2.546, 'sample_time_ms': 29529.592}",2025-08-31_00-44-45,cda-server-4,30.625182151794434,6030,1756593885,10.157.146.4,False,30844.675124645233,1200
+1006,-613.687154680486,1006,1207200,{},-674.5337928954478,1207200,0,30873.473541021347,-563.1699918333742,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1207200, 'default': {'kl': 0.009907814674079418, 'policy_loss': -0.1288006603717804, 'vf_loss': 233.66552734375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9818611145019531, 'entropy': 7.364226341247559, 'cur_lr': 4.999999873689376e-05, 'total_loss': 233.55178833007812}, 'load_time_ms': 0.68, 'num_steps_sampled': 1207200, 'grad_time_ms': 682.445, 'update_time_ms': 2.469, 'sample_time_ms': 29222.606}",2025-08-31_00-45-14,cda-server-4,28.79841637611389,6036,1756593914,10.157.146.4,False,30873.473541021347,1200
+1007,-611.3473087329212,1007,1208400,{},-674.5337928954478,1208400,0,30901.60626101494,-495.2530693686155,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1208400, 'default': {'kl': 0.0120629807934165, 'policy_loss': -0.1491362750530243, 'vf_loss': 243.7061309814453, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9832813739776611, 'entropy': 7.014010906219482, 'cur_lr': 4.999999873689376e-05, 'total_loss': 243.57533264160156}, 'load_time_ms': 0.673, 'num_steps_sampled': 1208400, 'grad_time_ms': 677.92, 'update_time_ms': 2.41, 'sample_time_ms': 28806.155}",2025-08-31_00-45-42,cda-server-4,28.13271999359131,6042,1756593942,10.157.146.4,False,30901.60626101494,1200
+1008,-611.4419468566808,1008,1209600,{},-674.5337928954478,1209600,0,30933.13958311081,-495.2530693686155,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1209600, 'default': {'kl': 0.009436352178454399, 'policy_loss': -0.11636417359113693, 'vf_loss': 230.88880920410156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9634786248207092, 'entropy': 7.099538326263428, 'cur_lr': 4.999999873689376e-05, 'total_loss': 230.7867889404297}, 'load_time_ms': 0.678, 'num_steps_sampled': 1209600, 'grad_time_ms': 685.243, 'update_time_ms': 2.596, 'sample_time_ms': 29230.413}",2025-08-31_00-46-13,cda-server-4,31.53332209587097,6048,1756593973,10.157.146.4,False,30933.13958311081,1200
+1009,-610.5902775320671,1009,1210800,{},-674.5337928954478,1210800,0,30963.42694401741,-495.2530693686155,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1210800, 'default': {'kl': 0.0072565642185509205, 'policy_loss': -0.10709769278764725, 'vf_loss': 243.71229553222656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9693750739097595, 'entropy': 7.21965217590332, 'cur_lr': 4.999999873689376e-05, 'total_loss': 243.61624145507812}, 'load_time_ms': 0.692, 'num_steps_sampled': 1210800, 'grad_time_ms': 685.616, 'update_time_ms': 2.519, 'sample_time_ms': 29173.736}",2025-08-31_00-46-44,cda-server-4,30.287360906600952,6054,1756594004,10.157.146.4,False,30963.42694401741,1200
+1010,-611.2047404009753,1010,1212000,{},-674.5337928954478,1212000,0,30996.39334321022,-495.2530693686155,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1212000, 'default': {'kl': 0.011810453608632088, 'policy_loss': -0.13481825590133667, 'vf_loss': 208.8544921875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9787079691886902, 'entropy': 7.062017440795898, 'cur_lr': 4.999999873689376e-05, 'total_loss': 208.73760986328125}, 'load_time_ms': 0.697, 'num_steps_sampled': 1212000, 'grad_time_ms': 684.886, 'update_time_ms': 2.535, 'sample_time_ms': 29248.904}",2025-08-31_00-47-16,cda-server-4,32.96639919281006,6060,1756594036,10.157.146.4,False,30996.39334321022,1200
+1011,-610.9802156726073,1011,1213200,{},-674.5337928954478,1213200,0,31027.86691093445,-491.93221196215717,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1213200, 'default': {'kl': 0.012151538394391537, 'policy_loss': -0.1452222317457199, 'vf_loss': 541.003173828125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9377009272575378, 'entropy': 7.520964622497559, 'cur_lr': 4.999999873689376e-05, 'total_loss': 540.8762817382812}, 'load_time_ms': 0.679, 'num_steps_sampled': 1213200, 'grad_time_ms': 681.913, 'update_time_ms': 2.541, 'sample_time_ms': 29217.842}",2025-08-31_00-47-48,cda-server-4,31.473567724227905,6066,1756594068,10.157.146.4,False,31027.86691093445,1200
+1012,-610.9148303656694,1012,1214400,{},-674.5337928954478,1214400,0,31057.648106098175,-491.93221196215717,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1214400, 'default': {'kl': 0.012637006118893623, 'policy_loss': -0.14635087549686432, 'vf_loss': 381.9981994628906, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9807210564613342, 'entropy': 7.231871604919434, 'cur_lr': 4.999999873689376e-05, 'total_loss': 381.8710021972656}, 'load_time_ms': 0.667, 'num_steps_sampled': 1214400, 'grad_time_ms': 681.354, 'update_time_ms': 2.422, 'sample_time_ms': 29409.12}",2025-08-31_00-48-18,cda-server-4,29.781195163726807,6072,1756594098,10.157.146.4,False,31057.648106098175,1200
+1013,-610.9314972957993,1013,1215600,{},-674.5337928954478,1215600,0,31086.98020005226,-491.93221196215717,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1215600, 'default': {'kl': 0.010270100086927414, 'policy_loss': -0.13221530616283417, 'vf_loss': 231.61590576171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9783522486686707, 'entropy': 7.149892330169678, 'cur_lr': 4.999999873689376e-05, 'total_loss': 231.49929809570312}, 'load_time_ms': 0.68, 'num_steps_sampled': 1215600, 'grad_time_ms': 678.519, 'update_time_ms': 2.375, 'sample_time_ms': 29464.735}",2025-08-31_00-48-47,cda-server-4,29.332093954086304,6078,1756594127,10.157.146.4,False,31086.98020005226,1200
+1014,-612.4036018128212,1014,1216800,{},-674.5337928954478,1216800,0,31116.36720275879,-491.93221196215717,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1216800, 'default': {'kl': 0.009638057090342045, 'policy_loss': -0.12587524950504303, 'vf_loss': 203.37147521972656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9687315821647644, 'entropy': 7.0924177169799805, 'cur_lr': 4.999999873689376e-05, 'total_loss': 203.26022338867188}, 'load_time_ms': 0.672, 'num_steps_sampled': 1216800, 'grad_time_ms': 681.43, 'update_time_ms': 2.388, 'sample_time_ms': 29543.323}",2025-08-31_00-49-17,cda-server-4,29.38700270652771,6084,1756594157,10.157.146.4,False,31116.36720275879,1200
+1015,-611.9406913995125,1015,1218000,{},-674.5337928954478,1218000,0,31144.982233047485,-491.93221196215717,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1218000, 'default': {'kl': 0.010012416169047356, 'policy_loss': -0.13320596516132355, 'vf_loss': 54.7859992980957, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9933024644851685, 'entropy': 7.190034866333008, 'cur_lr': 4.999999873689376e-05, 'total_loss': 54.66800308227539}, 'load_time_ms': 0.702, 'num_steps_sampled': 1218000, 'grad_time_ms': 664.251, 'update_time_ms': 2.304, 'sample_time_ms': 29359.543}",2025-08-31_00-49-45,cda-server-4,28.61503028869629,6090,1756594185,10.157.146.4,False,31144.982233047485,1200
+1016,-612.6969965779394,1016,1219200,{},-674.5337928954478,1219200,0,31175.346351861954,-491.93221196215717,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1219200, 'default': {'kl': 0.01063942164182663, 'policy_loss': -0.12335406243801117, 'vf_loss': 529.0348510742188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9163803458213806, 'entropy': 7.062264919281006, 'cur_lr': 4.999999873689376e-05, 'total_loss': 528.9276123046875}, 'load_time_ms': 0.696, 'num_steps_sampled': 1219200, 'grad_time_ms': 637.177, 'update_time_ms': 2.288, 'sample_time_ms': 29543.16}",2025-08-31_00-50-16,cda-server-4,30.364118814468384,6096,1756594216,10.157.146.4,False,31175.346351861954,1200
+1017,-611.4430371246082,1017,1220400,{},-674.5337928954478,1220400,0,31207.1786339283,-463.7595174968843,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1220400, 'default': {'kl': 0.012741278856992722, 'policy_loss': -0.14918392896652222, 'vf_loss': 435.2578430175781, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9652693271636963, 'entropy': 7.378994464874268, 'cur_lr': 4.999999873689376e-05, 'total_loss': 435.1280212402344}, 'load_time_ms': 0.699, 'num_steps_sampled': 1220400, 'grad_time_ms': 638.117, 'update_time_ms': 2.315, 'sample_time_ms': 29912.141}",2025-08-31_00-50-47,cda-server-4,31.832282066345215,6102,1756594247,10.157.146.4,False,31207.1786339283,1200
+1018,-609.932830991561,1018,1221600,{},-674.5337928954478,1221600,0,31240.31646823883,-463.7595174968843,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1221600, 'default': {'kl': 0.010012296959757805, 'policy_loss': -0.12527123093605042, 'vf_loss': 117.89515686035156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9836722612380981, 'entropy': 7.058613300323486, 'cur_lr': 4.999999873689376e-05, 'total_loss': 117.78510284423828}, 'load_time_ms': 0.691, 'num_steps_sampled': 1221600, 'grad_time_ms': 636.474, 'update_time_ms': 2.256, 'sample_time_ms': 30074.249}",2025-08-31_00-51-21,cda-server-4,33.137834310531616,6108,1756594281,10.157.146.4,False,31240.31646823883,1200
+1019,-609.6759422655371,1019,1222800,{},-674.5337928954478,1222800,0,31269.283111333847,-463.7595174968843,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1222800, 'default': {'kl': 0.011673484928905964, 'policy_loss': -0.1332194209098816, 'vf_loss': 109.79098510742188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9858214259147644, 'entropy': 7.006028175354004, 'cur_lr': 4.999999873689376e-05, 'total_loss': 109.67549896240234}, 'load_time_ms': 0.681, 'num_steps_sampled': 1222800, 'grad_time_ms': 618.421, 'update_time_ms': 2.254, 'sample_time_ms': 29960.25}",2025-08-31_00-51-50,cda-server-4,28.96664309501648,6114,1756594310,10.157.146.4,False,31269.283111333847,1200
+1020,-610.1564367241506,1020,1224000,{},-674.5337928954478,1224000,0,31300.97380590439,-463.7595174968843,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1224000, 'default': {'kl': 0.010768111795186996, 'policy_loss': -0.1387290507555008, 'vf_loss': 169.1531219482422, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9772825241088867, 'entropy': 7.18330717086792, 'cur_lr': 4.999999873689376e-05, 'total_loss': 169.03073120117188}, 'load_time_ms': 0.676, 'num_steps_sampled': 1224000, 'grad_time_ms': 609.124, 'update_time_ms': 2.287, 'sample_time_ms': 29841.995}",2025-08-31_00-52-21,cda-server-4,31.690694570541382,6120,1756594341,10.157.146.4,False,31300.97380590439,1200
+1021,-609.3507626448904,1021,1225200,{},-674.5337928954478,1225200,0,31333.91275048256,-463.7595174968843,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1225200, 'default': {'kl': 0.011507692746818066, 'policy_loss': -0.1327199935913086, 'vf_loss': 74.78905487060547, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.99365234375, 'entropy': 6.962779998779297, 'cur_lr': 4.999999873689376e-05, 'total_loss': 74.6738052368164}, 'load_time_ms': 0.664, 'num_steps_sampled': 1225200, 'grad_time_ms': 603.886, 'update_time_ms': 2.283, 'sample_time_ms': 29993.812}",2025-08-31_00-52-54,cda-server-4,32.938944578170776,6126,1756594374,10.157.146.4,False,31333.91275048256,1200
+1022,-607.2049490978726,1022,1226400,{},-657.5878832148607,1226400,0,31364.737335443497,-463.7595174968843,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1226400, 'default': {'kl': 0.00963315088301897, 'policy_loss': -0.11739248782396317, 'vf_loss': 324.4266052246094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.992731511592865, 'entropy': 7.377002239227295, 'cur_lr': 4.999999873689376e-05, 'total_loss': 324.3238525390625}, 'load_time_ms': 0.672, 'num_steps_sampled': 1226400, 'grad_time_ms': 611.385, 'update_time_ms': 2.315, 'sample_time_ms': 30090.574}",2025-08-31_00-53-25,cda-server-4,30.8245849609375,6132,1756594405,10.157.146.4,False,31364.737335443497,1200
+1023,-607.3049668965497,1023,1227600,{},-657.5878832148607,1227600,0,31397.090950012207,-463.7595174968843,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1227600, 'default': {'kl': 0.01055178139358759, 'policy_loss': -0.11766154319047928, 'vf_loss': 243.51942443847656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9623560309410095, 'entropy': 6.875294208526611, 'cur_lr': 4.999999873689376e-05, 'total_loss': 243.41775512695312}, 'load_time_ms': 0.64, 'num_steps_sampled': 1227600, 'grad_time_ms': 625.669, 'update_time_ms': 2.379, 'sample_time_ms': 30378.414}",2025-08-31_00-53-57,cda-server-4,32.35361456871033,6138,1756594437,10.157.146.4,False,31397.090950012207,1200
+1024,-607.4805983535143,1024,1228800,{},-657.5878832148607,1228800,0,31426.767835617065,-463.7595174968843,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1228800, 'default': {'kl': 0.008868963457643986, 'policy_loss': -0.12422217428684235, 'vf_loss': 67.74210357666016, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9898850321769714, 'entropy': 7.060341835021973, 'cur_lr': 4.999999873689376e-05, 'total_loss': 67.63135528564453}, 'load_time_ms': 0.637, 'num_steps_sampled': 1228800, 'grad_time_ms': 643.262, 'update_time_ms': 2.357, 'sample_time_ms': 30389.804}",2025-08-31_00-54-27,cda-server-4,29.6768856048584,6144,1756594467,10.157.146.4,False,31426.767835617065,1200
+1025,-609.0106506554225,1025,1230000,{},-746.387029705181,1230000,0,31457.816504478455,-463.7595174968843,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1230000, 'default': {'kl': 0.011053983122110367, 'policy_loss': -0.13013701140880585, 'vf_loss': 420.3702392578125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9487070441246033, 'entropy': 7.203586101531982, 'cur_lr': 4.999999873689376e-05, 'total_loss': 420.2569274902344}, 'load_time_ms': 0.608, 'num_steps_sampled': 1230000, 'grad_time_ms': 685.649, 'update_time_ms': 2.323, 'sample_time_ms': 30590.792}",2025-08-31_00-54-58,cda-server-4,31.04866886138916,6150,1756594498,10.157.146.4,False,31457.816504478455,1200
+1026,-610.1844903236725,1026,1231200,{},-746.387029705181,1231200,0,31490.790165424347,-463.7595174968843,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1231200, 'default': {'kl': 0.010969582945108414, 'policy_loss': -0.13521650433540344, 'vf_loss': 862.0908813476562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9296939373016357, 'entropy': 7.331244468688965, 'cur_lr': 4.999999873689376e-05, 'total_loss': 861.9723510742188}, 'load_time_ms': 0.607, 'num_steps_sampled': 1231200, 'grad_time_ms': 694.776, 'update_time_ms': 2.366, 'sample_time_ms': 30842.599}",2025-08-31_00-55-31,cda-server-4,32.973660945892334,6156,1756594531,10.157.146.4,False,31490.790165424347,1200
+1027,-610.369086687725,1027,1232400,{},-746.387029705181,1232400,0,31520.63891005516,-463.7595174968843,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1232400, 'default': {'kl': 0.009508463554084301, 'policy_loss': -0.12690135836601257, 'vf_loss': 77.56410217285156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9918116331100464, 'entropy': 7.487209796905518, 'cur_lr': 4.999999873689376e-05, 'total_loss': 77.45162963867188}, 'load_time_ms': 0.608, 'num_steps_sampled': 1232400, 'grad_time_ms': 709.659, 'update_time_ms': 2.358, 'sample_time_ms': 30629.355}",2025-08-31_00-56-01,cda-server-4,29.8487446308136,6162,1756594561,10.157.146.4,False,31520.63891005516,1200
+1028,-610.030077311123,1028,1233600,{},-746.387029705181,1233600,0,31551.47759771347,-463.7595174968843,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1233600, 'default': {'kl': 0.01090081688016653, 'policy_loss': -0.1404440850019455, 'vf_loss': 221.65536499023438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9735441207885742, 'entropy': 6.994132995605469, 'cur_lr': 4.999999873689376e-05, 'total_loss': 221.531494140625}, 'load_time_ms': 0.6, 'num_steps_sampled': 1233600, 'grad_time_ms': 708.152, 'update_time_ms': 2.237, 'sample_time_ms': 30401.082}",2025-08-31_00-56-32,cda-server-4,30.838687658309937,6168,1756594592,10.157.146.4,False,31551.47759771347,1200
+1029,-610.1090044778532,1029,1234800,{},-746.387029705181,1234800,0,31582.674844503403,-463.7595174968843,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1234800, 'default': {'kl': 0.008904019370675087, 'policy_loss': -0.13195063173770905, 'vf_loss': 43.483951568603516, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9941216707229614, 'entropy': 7.365719318389893, 'cur_lr': 4.999999873689376e-05, 'total_loss': 43.36552429199219}, 'load_time_ms': 0.633, 'num_steps_sampled': 1234800, 'grad_time_ms': 716.008, 'update_time_ms': 2.309, 'sample_time_ms': 30616.168}",2025-08-31_00-57-03,cda-server-4,31.19724678993225,6174,1756594623,10.157.146.4,False,31582.674844503403,1200
+1030,-610.8434751350264,1030,1236000,{},-746.387029705181,1236000,0,31614.46370458603,-463.7595174968843,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1236000, 'default': {'kl': 0.008946448564529419, 'policy_loss': -0.12924063205718994, 'vf_loss': 274.7725830078125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9738150835037231, 'entropy': 7.150022029876709, 'cur_lr': 4.999999873689376e-05, 'total_loss': 274.65692138671875}, 'load_time_ms': 0.648, 'num_steps_sampled': 1236000, 'grad_time_ms': 716.306, 'update_time_ms': 2.264, 'sample_time_ms': 30625.772}",2025-08-31_00-57-35,cda-server-4,31.788860082626343,6180,1756594655,10.157.146.4,False,31614.46370458603,1200
+1031,-610.221051460889,1031,1237200,{},-746.387029705181,1237200,0,31645.422600746155,-463.7595174968843,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1237200, 'default': {'kl': 0.009435366839170456, 'policy_loss': -0.10700297355651855, 'vf_loss': 497.30804443359375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9615716934204102, 'entropy': 7.161624431610107, 'cur_lr': 4.999999873689376e-05, 'total_loss': 497.21533203125}, 'load_time_ms': 0.674, 'num_steps_sampled': 1237200, 'grad_time_ms': 712.194, 'update_time_ms': 2.299, 'sample_time_ms': 30431.805}",2025-08-31_00-58-06,cda-server-4,30.958896160125732,6186,1756594686,10.157.146.4,False,31645.422600746155,1200
+1032,-610.3057244056273,1032,1238400,{},-746.387029705181,1238400,0,31674.715168952942,-463.7595174968843,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1238400, 'default': {'kl': 0.009523186832666397, 'policy_loss': -0.12383827567100525, 'vf_loss': 328.5429992675781, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9557643532752991, 'entropy': 7.072312831878662, 'cur_lr': 4.999999873689376e-05, 'total_loss': 328.43359375}, 'load_time_ms': 0.669, 'num_steps_sampled': 1238400, 'grad_time_ms': 706.87, 'update_time_ms': 2.302, 'sample_time_ms': 30283.956}",2025-08-31_00-58-35,cda-server-4,29.29256820678711,6192,1756594715,10.157.146.4,False,31674.715168952942,1200
+1033,-608.7174886561426,1033,1239600,{},-746.387029705181,1239600,0,31704.505708694458,-463.7595174968843,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1239600, 'default': {'kl': 0.011124708689749241, 'policy_loss': -0.15461498498916626, 'vf_loss': 92.68314361572266, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9924795627593994, 'entropy': 7.122711181640625, 'cur_lr': 4.999999873689376e-05, 'total_loss': 92.54542541503906}, 'load_time_ms': 0.669, 'num_steps_sampled': 1239600, 'grad_time_ms': 691.916, 'update_time_ms': 2.255, 'sample_time_ms': 30042.664}",2025-08-31_00-59-05,cda-server-4,29.790539741516113,6198,1756594745,10.157.146.4,False,31704.505708694458,1200
+1034,-609.2826246148614,1034,1240800,{},-746.387029705181,1240800,0,31736.885966062546,-515.6794280317215,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1240800, 'default': {'kl': 0.011353782378137112, 'policy_loss': -0.14936016499996185, 'vf_loss': 210.54002380371094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9812839031219482, 'entropy': 6.904638290405273, 'cur_lr': 4.999999873689376e-05, 'total_loss': 210.40789794921875}, 'load_time_ms': 0.673, 'num_steps_sampled': 1240800, 'grad_time_ms': 680.745, 'update_time_ms': 2.241, 'sample_time_ms': 30324.122}",2025-08-31_00-59-38,cda-server-4,32.38025736808777,6204,1756594778,10.157.146.4,False,31736.885966062546,1200
+1035,-609.0213031151752,1035,1242000,{},-746.387029705181,1242000,0,31769.57245492935,-515.6794280317215,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1242000, 'default': {'kl': 0.011334747076034546, 'policy_loss': -0.13716769218444824, 'vf_loss': 263.1972351074219, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9719690680503845, 'entropy': 7.147309303283691, 'cur_lr': 4.999999873689376e-05, 'total_loss': 263.0772705078125}, 'load_time_ms': 0.669, 'num_steps_sampled': 1242000, 'grad_time_ms': 658.268, 'update_time_ms': 2.269, 'sample_time_ms': 30510.371}",2025-08-31_01-00-10,cda-server-4,32.68648886680603,6210,1756594810,10.157.146.4,False,31769.57245492935,1200
+1036,-610.3588876497996,1036,1243200,{},-746.387029705181,1243200,0,31801.777012825012,-515.6794280317215,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1243200, 'default': {'kl': 0.008171441964805126, 'policy_loss': -0.12766119837760925, 'vf_loss': 282.8642272949219, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.96690833568573, 'entropy': 7.253535747528076, 'cur_lr': 4.999999873689376e-05, 'total_loss': 282.74896240234375}, 'load_time_ms': 0.676, 'num_steps_sampled': 1243200, 'grad_time_ms': 676.977, 'update_time_ms': 2.259, 'sample_time_ms': 30414.758}",2025-08-31_01-00-42,cda-server-4,32.2045578956604,6216,1756594842,10.157.146.4,False,31801.777012825012,1200
+1037,-612.489759439871,1037,1244400,{},-746.387029705181,1244400,0,31831.67020010948,-515.6794280317215,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1244400, 'default': {'kl': 0.01104232482612133, 'policy_loss': -0.1307275891304016, 'vf_loss': 447.0111083984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9630591869354248, 'entropy': 7.139168739318848, 'cur_lr': 4.999999873689376e-05, 'total_loss': 446.8971862792969}, 'load_time_ms': 0.673, 'num_steps_sampled': 1244400, 'grad_time_ms': 675.706, 'update_time_ms': 2.276, 'sample_time_ms': 30420.485}",2025-08-31_01-01-12,cda-server-4,29.893187284469604,6222,1756594872,10.157.146.4,False,31831.67020010948,1200
+1038,-612.0501709777508,1038,1245600,{},-746.387029705181,1245600,0,31863.273879766464,-515.6794280317215,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1245600, 'default': {'kl': 0.008354853838682175, 'policy_loss': -0.11127490550279617, 'vf_loss': 77.11360168457031, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9889835715293884, 'entropy': 7.054704666137695, 'cur_lr': 4.999999873689376e-05, 'total_loss': 77.0150146484375}, 'load_time_ms': 0.682, 'num_steps_sampled': 1245600, 'grad_time_ms': 675.834, 'update_time_ms': 2.301, 'sample_time_ms': 30496.845}",2025-08-31_01-01-44,cda-server-4,31.603679656982422,6228,1756594904,10.157.146.4,False,31863.273879766464,1200
+1039,-612.7460275555673,1039,1246800,{},-746.387029705181,1246800,0,31895.652921676636,-515.6794280317215,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1246800, 'default': {'kl': 0.010301641188561916, 'policy_loss': -0.1345243752002716, 'vf_loss': 150.87437438964844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.981517493724823, 'entropy': 6.980655193328857, 'cur_lr': 4.999999873689376e-05, 'total_loss': 150.75550842285156}, 'load_time_ms': 0.681, 'num_steps_sampled': 1246800, 'grad_time_ms': 685.315, 'update_time_ms': 2.265, 'sample_time_ms': 30605.565}",2025-08-31_01-02-16,cda-server-4,32.37904191017151,6234,1756594936,10.157.146.4,False,31895.652921676636,1200
+1040,-612.4605910657193,1040,1248000,{},-746.387029705181,1248000,0,31925.540556430817,-497.81922727358614,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1248000, 'default': {'kl': 0.01119756605476141, 'policy_loss': -0.14236237108707428, 'vf_loss': 112.56605529785156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9887576699256897, 'entropy': 7.076725006103516, 'cur_lr': 4.999999873689376e-05, 'total_loss': 112.44070434570312}, 'load_time_ms': 0.668, 'num_steps_sampled': 1248000, 'grad_time_ms': 686.714, 'update_time_ms': 2.282, 'sample_time_ms': 30413.939}",2025-08-31_01-02-46,cda-server-4,29.887634754180908,6240,1756594966,10.157.146.4,False,31925.540556430817,1200
+1041,-612.457697602732,1041,1249200,{},-746.387029705181,1249200,0,31956.778705835342,-497.81922727358614,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1249200, 'default': {'kl': 0.013094071298837662, 'policy_loss': -0.1439129263162613, 'vf_loss': 493.8904113769531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9454196095466614, 'entropy': 7.187119483947754, 'cur_lr': 4.999999873689376e-05, 'total_loss': 493.7663879394531}, 'load_time_ms': 0.639, 'num_steps_sampled': 1249200, 'grad_time_ms': 690.397, 'update_time_ms': 2.358, 'sample_time_ms': 30438.046}",2025-08-31_01-03-18,cda-server-4,31.238149404525757,6246,1756594998,10.157.146.4,False,31956.778705835342,1200
+1042,-612.1789545635243,1042,1250400,{},-690.8886828456064,1250400,0,31985.00830078125,-497.81922727358614,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1250400, 'default': {'kl': 0.00899518746882677, 'policy_loss': -0.11944714933633804, 'vf_loss': 615.7225341796875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.964000403881073, 'entropy': 7.192622661590576, 'cur_lr': 4.999999873689376e-05, 'total_loss': 615.6168212890625}, 'load_time_ms': 0.647, 'num_steps_sampled': 1250400, 'grad_time_ms': 686.262, 'update_time_ms': 2.359, 'sample_time_ms': 30335.888}",2025-08-31_01-03-46,cda-server-4,28.229594945907593,6252,1756595026,10.157.146.4,False,31985.00830078125,1200
+1043,-611.2244667078477,1043,1251600,{},-689.3911130221468,1251600,0,32016.992751836777,-497.81922727358614,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1251600, 'default': {'kl': 0.012013883329927921, 'policy_loss': -0.13544677197933197, 'vf_loss': 192.59805297851562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9804703593254089, 'entropy': 7.150023460388184, 'cur_lr': 4.999999873689376e-05, 'total_loss': 192.48086547851562}, 'load_time_ms': 0.679, 'num_steps_sampled': 1251600, 'grad_time_ms': 700.398, 'update_time_ms': 2.366, 'sample_time_ms': 30541.109}",2025-08-31_01-04-18,cda-server-4,31.984451055526733,6258,1756595058,10.157.146.4,False,32016.992751836777,1200
+1044,-611.2563357368596,1044,1252800,{},-689.3911130221468,1252800,0,32048.504744291306,-471.99798381529996,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1252800, 'default': {'kl': 0.012028587982058525, 'policy_loss': -0.13970763981342316, 'vf_loss': 228.61732482910156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9907527565956116, 'entropy': 7.09236478805542, 'cur_lr': 4.999999873689376e-05, 'total_loss': 228.49588012695312}, 'load_time_ms': 0.678, 'num_steps_sampled': 1252800, 'grad_time_ms': 710.593, 'update_time_ms': 2.378, 'sample_time_ms': 30444.101}",2025-08-31_01-04-49,cda-server-4,31.51199245452881,6264,1756595089,10.157.146.4,False,32048.504744291306,1200
+1045,-611.2513959477112,1045,1254000,{},-689.3911130221468,1254000,0,32076.871500968933,-471.99798381529996,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1254000, 'default': {'kl': 0.012139595113694668, 'policy_loss': -0.14114348590373993, 'vf_loss': 180.45831298828125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9836181998252869, 'entropy': 6.772765159606934, 'cur_lr': 4.999999873689376e-05, 'total_loss': 180.3356170654297}, 'load_time_ms': 0.681, 'num_steps_sampled': 1254000, 'grad_time_ms': 712.325, 'update_time_ms': 2.402, 'sample_time_ms': 30010.435}",2025-08-31_01-05-18,cda-server-4,28.366756677627563,6270,1756595118,10.157.146.4,False,32076.871500968933,1200
+1046,-610.7829875522261,1046,1255200,{},-689.3911130221468,1255200,0,32109.519632339478,-471.99798381529996,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1255200, 'default': {'kl': 0.010470341891050339, 'policy_loss': -0.12108471989631653, 'vf_loss': 127.29329681396484, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9854704737663269, 'entropy': 6.670491695404053, 'cur_lr': 4.999999873689376e-05, 'total_loss': 127.1881103515625}, 'load_time_ms': 0.673, 'num_steps_sampled': 1255200, 'grad_time_ms': 704.281, 'update_time_ms': 2.395, 'sample_time_ms': 30062.822}",2025-08-31_01-05-50,cda-server-4,32.648131370544434,6276,1756595150,10.157.146.4,False,32109.519632339478,1200
+1047,-612.6887986846357,1047,1256400,{},-795.2166613321065,1256400,0,32140.778073072433,-471.99798381529996,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1256400, 'default': {'kl': 0.010981575585901737, 'policy_loss': -0.14766094088554382, 'vf_loss': 576.1209716796875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9576810002326965, 'entropy': 7.310792922973633, 'cur_lr': 4.999999873689376e-05, 'total_loss': 575.989990234375}, 'load_time_ms': 0.68, 'num_steps_sampled': 1256400, 'grad_time_ms': 697.845, 'update_time_ms': 2.41, 'sample_time_ms': 30205.779}",2025-08-31_01-06-22,cda-server-4,31.258440732955933,6282,1756595182,10.157.146.4,False,32140.778073072433,1200
+1048,-611.7919488623162,1048,1257600,{},-795.2166613321065,1257600,0,32173.459202051163,-471.99798381529996,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1257600, 'default': {'kl': 0.010020343586802483, 'policy_loss': -0.11745011806488037, 'vf_loss': 146.11129760742188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.980055570602417, 'entropy': 7.235422611236572, 'cur_lr': 4.999999873689376e-05, 'total_loss': 146.0090789794922}, 'load_time_ms': 0.677, 'num_steps_sampled': 1257600, 'grad_time_ms': 693.151, 'update_time_ms': 2.372, 'sample_time_ms': 30318.239}",2025-08-31_01-06-54,cda-server-4,32.68112897872925,6288,1756595214,10.157.146.4,False,32173.459202051163,1200
+1049,-612.8600700017719,1049,1258800,{},-795.2166613321065,1258800,0,32201.588269233704,-471.99798381529996,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1258800, 'default': {'kl': 0.007308985572308302, 'policy_loss': -0.10240568220615387, 'vf_loss': 548.677490234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.954565703868866, 'entropy': 7.130929946899414, 'cur_lr': 4.999999873689376e-05, 'total_loss': 548.5862426757812}, 'load_time_ms': 0.644, 'num_steps_sampled': 1258800, 'grad_time_ms': 683.155, 'update_time_ms': 2.37, 'sample_time_ms': 29903.299}",2025-08-31_01-07-22,cda-server-4,28.129067182540894,6294,1756595242,10.157.146.4,False,32201.588269233704,1200
+1050,-613.7816004582567,1050,1260000,{},-795.2166613321065,1260000,0,32233.862272024155,-471.99798381529996,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1260000, 'default': {'kl': 0.009236347861588001, 'policy_loss': -0.10603722929954529, 'vf_loss': 194.31781005859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9818307161331177, 'entropy': 7.128374099731445, 'cur_lr': 4.999999873689376e-05, 'total_loss': 194.2257843017578}, 'load_time_ms': 0.643, 'num_steps_sampled': 1260000, 'grad_time_ms': 688.7, 'update_time_ms': 2.34, 'sample_time_ms': 30136.491}",2025-08-31_01-07-55,cda-server-4,32.27400279045105,6300,1756595275,10.157.146.4,False,32233.862272024155,1200
+1051,-615.4658765499813,1051,1261200,{},-795.2166613321065,1261200,0,32267.472019195557,-471.99798381529996,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1261200, 'default': {'kl': 0.009680250659584999, 'policy_loss': -0.13719238340854645, 'vf_loss': 212.9993438720703, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9687343239784241, 'entropy': 7.4209723472595215, 'cur_lr': 4.999999873689376e-05, 'total_loss': 212.87686157226562}, 'load_time_ms': 0.65, 'num_steps_sampled': 1261200, 'grad_time_ms': 694.867, 'update_time_ms': 2.247, 'sample_time_ms': 30367.634}",2025-08-31_01-08-28,cda-server-4,33.60974717140198,6306,1756595308,10.157.146.4,False,32267.472019195557,1200
+1052,-615.8325152703289,1052,1262400,{},-795.2166613321065,1262400,0,32299.374597787857,-471.99798381529996,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1262400, 'default': {'kl': 0.013368485495448112, 'policy_loss': -0.16595228016376495, 'vf_loss': 313.2471618652344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9853922724723816, 'entropy': 6.995584487915039, 'cur_lr': 4.999999873689376e-05, 'total_loss': 313.1014709472656}, 'load_time_ms': 0.647, 'num_steps_sampled': 1262400, 'grad_time_ms': 695.975, 'update_time_ms': 2.251, 'sample_time_ms': 30733.779}",2025-08-31_01-09-00,cda-server-4,31.902578592300415,6312,1756595340,10.157.146.4,False,32299.374597787857,1200
+1053,-614.999656677694,1053,1263600,{},-795.2166613321065,1263600,0,32331.257249355316,-471.99798381529996,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1263600, 'default': {'kl': 0.010432731360197067, 'policy_loss': -0.13741742074489594, 'vf_loss': 73.06466674804688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9904837012290955, 'entropy': 6.962738990783691, 'cur_lr': 4.999999873689376e-05, 'total_loss': 72.94309997558594}, 'load_time_ms': 0.615, 'num_steps_sampled': 1263600, 'grad_time_ms': 692.165, 'update_time_ms': 2.275, 'sample_time_ms': 30727.43}",2025-08-31_01-09-32,cda-server-4,31.882651567459106,6318,1756595372,10.157.146.4,False,32331.257249355316,1200
+1054,-614.0542948899335,1054,1264800,{},-795.2166613321065,1264800,0,32363.55260872841,-471.99798381529996,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1264800, 'default': {'kl': 0.012072332203388214, 'policy_loss': -0.140092670917511, 'vf_loss': 87.64349365234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9895797371864319, 'entropy': 6.834365367889404, 'cur_lr': 4.999999873689376e-05, 'total_loss': 87.521728515625}, 'load_time_ms': 0.618, 'num_steps_sampled': 1264800, 'grad_time_ms': 686.116, 'update_time_ms': 2.278, 'sample_time_ms': 30811.841}",2025-08-31_01-10-05,cda-server-4,32.29535937309265,6324,1756595405,10.157.146.4,False,32363.55260872841,1200
+1055,-613.0295321782769,1055,1266000,{},-795.2166613321065,1266000,0,32394.62371468544,-471.99798381529996,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1266000, 'default': {'kl': 0.009822634980082512, 'policy_loss': -0.13098526000976562, 'vf_loss': 763.858642578125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9463686347007751, 'entropy': 6.744482040405273, 'cur_lr': 4.999999873689376e-05, 'total_loss': 763.7426147460938}, 'load_time_ms': 0.619, 'num_steps_sampled': 1266000, 'grad_time_ms': 682.688, 'update_time_ms': 2.251, 'sample_time_ms': 31085.694}",2025-08-31_01-10-36,cda-server-4,31.07110595703125,6330,1756595436,10.157.146.4,False,32394.62371468544,1200
+1056,-615.0922039927616,1056,1267200,{},-795.2166613321065,1267200,0,32423.786543130875,-471.99798381529996,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1267200, 'default': {'kl': 0.011087953113019466, 'policy_loss': -0.1265648603439331, 'vf_loss': 273.2079162597656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9704892635345459, 'entropy': 7.02569580078125, 'cur_lr': 4.999999873689376e-05, 'total_loss': 273.0982360839844}, 'load_time_ms': 0.618, 'num_steps_sampled': 1267200, 'grad_time_ms': 673.59, 'update_time_ms': 2.266, 'sample_time_ms': 30746.248}",2025-08-31_01-11-05,cda-server-4,29.16282844543457,6336,1756595465,10.157.146.4,False,32423.786543130875,1200
+1057,-616.1935457375697,1057,1268400,{},-795.2166613321065,1268400,0,32454.95839738846,-471.99798381529996,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1268400, 'default': {'kl': 0.010623347014188766, 'policy_loss': -0.13038010895252228, 'vf_loss': 643.7394409179688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9365580677986145, 'entropy': 6.813505172729492, 'cur_lr': 4.999999873689376e-05, 'total_loss': 643.625244140625}, 'load_time_ms': 0.61, 'num_steps_sampled': 1268400, 'grad_time_ms': 654.509, 'update_time_ms': 2.21, 'sample_time_ms': 30756.716}",2025-08-31_01-11-36,cda-server-4,31.171854257583618,6342,1756595496,10.157.146.4,False,32454.95839738846,1200
+1058,-616.3949711155697,1058,1269600,{},-795.2166613321065,1269600,0,32487.8762717247,-471.99798381529996,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1269600, 'default': {'kl': 0.011479225009679794, 'policy_loss': -0.13205736875534058, 'vf_loss': 54.30984878540039, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9914955496788025, 'entropy': 6.571225166320801, 'cur_lr': 4.999999873689376e-05, 'total_loss': 54.19522476196289}, 'load_time_ms': 0.601, 'num_steps_sampled': 1269600, 'grad_time_ms': 635.206, 'update_time_ms': 2.23, 'sample_time_ms': 30799.742}",2025-08-31_01-12-09,cda-server-4,32.917874336242676,6348,1756595529,10.157.146.4,False,32487.8762717247,1200
+1059,-615.2213719354553,1059,1270800,{},-795.2166613321065,1270800,0,32518.5942466259,-471.99798381529996,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1270800, 'default': {'kl': 0.010286173783242702, 'policy_loss': -0.12052391469478607, 'vf_loss': 397.23699951171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9424915313720703, 'entropy': 7.013757705688477, 'cur_lr': 4.999999873689376e-05, 'total_loss': 397.1321105957031}, 'load_time_ms': 0.593, 'num_steps_sampled': 1270800, 'grad_time_ms': 616.255, 'update_time_ms': 2.199, 'sample_time_ms': 31077.655}",2025-08-31_01-12-40,cda-server-4,30.71797490119934,6354,1756595560,10.157.146.4,False,32518.5942466259,1200
+1060,-616.097694725995,1060,1272000,{},-795.2166613321065,1272000,0,32549.149678707123,-471.99798381529996,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1272000, 'default': {'kl': 0.010980535298585892, 'policy_loss': -0.13714773952960968, 'vf_loss': 452.5550842285156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9478546977043152, 'entropy': 7.135615825653076, 'cur_lr': 4.999999873689376e-05, 'total_loss': 452.4346618652344}, 'load_time_ms': 0.585, 'num_steps_sampled': 1272000, 'grad_time_ms': 590.848, 'update_time_ms': 2.228, 'sample_time_ms': 30931.216}",2025-08-31_01-13-10,cda-server-4,30.555432081222534,6360,1756595590,10.157.146.4,False,32549.149678707123,1200
+1061,-617.4100669102139,1061,1273200,{},-795.2166613321065,1273200,0,32580.345144033432,-480.4177787791791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1273200, 'default': {'kl': 0.010435810312628746, 'policy_loss': -0.1275000423192978, 'vf_loss': 79.494384765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9887517094612122, 'entropy': 6.564307689666748, 'cur_lr': 4.999999873689376e-05, 'total_loss': 79.38272857666016}, 'load_time_ms': 0.587, 'num_steps_sampled': 1273200, 'grad_time_ms': 572.792, 'update_time_ms': 2.194, 'sample_time_ms': 30707.921}",2025-08-31_01-13-41,cda-server-4,31.195465326309204,6366,1756595621,10.157.146.4,False,32580.345144033432,1200
+1062,-616.5558656084709,1062,1274400,{},-795.2166613321065,1274400,0,32611.487774848938,-480.4177787791791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1274400, 'default': {'kl': 0.009879284538328648, 'policy_loss': -0.12492404878139496, 'vf_loss': 450.1199951171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9373486638069153, 'entropy': 7.100813865661621, 'cur_lr': 4.999999873689376e-05, 'total_loss': 450.01007080078125}, 'load_time_ms': 0.58, 'num_steps_sampled': 1274400, 'grad_time_ms': 571.019, 'update_time_ms': 2.139, 'sample_time_ms': 30633.723}",2025-08-31_01-14-13,cda-server-4,31.14263081550598,6372,1756595653,10.157.146.4,False,32611.487774848938,1200
+1063,-615.5909388768451,1063,1275600,{},-680.7370241301865,1275600,0,32645.136798381805,-480.4177787791791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1275600, 'default': {'kl': 0.01063038595020771, 'policy_loss': -0.13092511892318726, 'vf_loss': 405.6360778808594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9633646011352539, 'entropy': 7.211420059204102, 'cur_lr': 4.999999873689376e-05, 'total_loss': 405.5212707519531}, 'load_time_ms': 0.584, 'num_steps_sampled': 1275600, 'grad_time_ms': 562.992, 'update_time_ms': 2.133, 'sample_time_ms': 30818.429}",2025-08-31_01-14-46,cda-server-4,33.64902353286743,6378,1756595686,10.157.146.4,False,32645.136798381805,1200
+1064,-615.7765643238185,1064,1276800,{},-680.7370241301865,1276800,0,32675.861453294754,-480.4177787791791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1276800, 'default': {'kl': 0.010833960957825184, 'policy_loss': -0.1214342936873436, 'vf_loss': 174.51922607421875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9786596298217773, 'entropy': 6.836457252502441, 'cur_lr': 4.999999873689376e-05, 'total_loss': 174.4142303466797}, 'load_time_ms': 0.582, 'num_steps_sampled': 1276800, 'grad_time_ms': 555.095, 'update_time_ms': 2.143, 'sample_time_ms': 30669.274}",2025-08-31_01-15-17,cda-server-4,30.72465491294861,6384,1756595717,10.157.146.4,False,32675.861453294754,1200
+1065,-615.9893180542651,1065,1278000,{},-680.7370241301865,1278000,0,32704.905270576477,-480.4177787791791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1278000, 'default': {'kl': 0.01110304705798626, 'policy_loss': -0.11902648955583572, 'vf_loss': 51.12295913696289, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9926738739013672, 'entropy': 6.965353488922119, 'cur_lr': 4.999999873689376e-05, 'total_loss': 51.02079772949219}, 'load_time_ms': 0.584, 'num_steps_sampled': 1278000, 'grad_time_ms': 559.903, 'update_time_ms': 2.113, 'sample_time_ms': 30461.756}",2025-08-31_01-15-46,cda-server-4,29.043817281723022,6390,1756595746,10.157.146.4,False,32704.905270576477,1200
+1066,-615.4439628648695,1066,1279200,{},-680.7370241301865,1279200,0,32738.832031726837,-480.4177787791791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1279200, 'default': {'kl': 0.009170221164822578, 'policy_loss': -0.12332916259765625, 'vf_loss': 243.22067260742188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9694446921348572, 'entropy': 6.823151111602783, 'cur_lr': 4.999999873689376e-05, 'total_loss': 243.11126708984375}, 'load_time_ms': 0.616, 'num_steps_sampled': 1279200, 'grad_time_ms': 562.519, 'update_time_ms': 2.076, 'sample_time_ms': 30935.517}",2025-08-31_01-16-20,cda-server-4,33.92676115036011,6396,1756595780,10.157.146.4,False,32738.832031726837,1200
+1067,-616.0275776108482,1067,1280400,{},-680.7370241301865,1280400,0,32769.516211271286,-480.4177787791791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1280400, 'default': {'kl': 0.009128078818321228, 'policy_loss': -0.1258137822151184, 'vf_loss': 503.9349060058594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9331865310668945, 'entropy': 6.94373893737793, 'cur_lr': 4.999999873689376e-05, 'total_loss': 503.8229064941406}, 'load_time_ms': 0.617, 'num_steps_sampled': 1280400, 'grad_time_ms': 561.623, 'update_time_ms': 2.145, 'sample_time_ms': 30887.586}",2025-08-31_01-16-51,cda-server-4,30.684179544448853,6402,1756595811,10.157.146.4,False,32769.516211271286,1200
+1068,-616.2221490562824,1068,1281600,{},-680.7370241301865,1281600,0,32802.13826584816,-480.4177787791791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1281600, 'default': {'kl': 0.00922329444438219, 'policy_loss': -0.13194067776203156, 'vf_loss': 436.9713439941406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9407424926757812, 'entropy': 7.171703815460205, 'cur_lr': 4.999999873689376e-05, 'total_loss': 436.8533935546875}, 'load_time_ms': 0.653, 'num_steps_sampled': 1281600, 'grad_time_ms': 560.137, 'update_time_ms': 2.224, 'sample_time_ms': 30859.326}",2025-08-31_01-17-23,cda-server-4,32.62205457687378,6408,1756595843,10.157.146.4,False,32802.13826584816,1200
+1069,-616.8436942341526,1069,1282800,{},-680.6410383481847,1282800,0,32831.62533378601,-480.4177787791791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1282800, 'default': {'kl': 0.011219476349651814, 'policy_loss': -0.1328636258840561, 'vf_loss': 149.24310302734375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9874797463417053, 'entropy': 6.840340614318848, 'cur_lr': 4.999999873689376e-05, 'total_loss': 149.12728881835938}, 'load_time_ms': 0.663, 'num_steps_sampled': 1282800, 'grad_time_ms': 561.811, 'update_time_ms': 2.259, 'sample_time_ms': 30734.426}",2025-08-31_01-17-53,cda-server-4,29.487067937850952,6414,1756595873,10.157.146.4,False,32831.62533378601,1200
+1070,-616.7673367278271,1070,1284000,{},-680.6410383481847,1284000,0,32863.61049699783,-480.4177787791791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1284000, 'default': {'kl': 0.009400433860719204, 'policy_loss': -0.10988262295722961, 'vf_loss': 252.6779022216797, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.975261390209198, 'entropy': 6.870731830596924, 'cur_lr': 4.999999873689376e-05, 'total_loss': 252.582275390625}, 'load_time_ms': 0.664, 'num_steps_sampled': 1284000, 'grad_time_ms': 583.583, 'update_time_ms': 2.213, 'sample_time_ms': 30855.613}",2025-08-31_01-18-25,cda-server-4,31.98516321182251,6420,1756595905,10.157.146.4,False,32863.61049699783,1200
+1071,-618.953125198675,1071,1285200,{},-680.6410383481847,1285200,0,32894.9948618412,-576.5642895225193,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1285200, 'default': {'kl': 0.0090884268283844, 'policy_loss': -0.1362542361021042, 'vf_loss': 75.67914581298828, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9898673295974731, 'entropy': 6.901924133300781, 'cur_lr': 4.999999873689376e-05, 'total_loss': 75.55669403076172}, 'load_time_ms': 0.663, 'num_steps_sampled': 1285200, 'grad_time_ms': 604.909, 'update_time_ms': 2.28, 'sample_time_ms': 30853.086}",2025-08-31_01-18-56,cda-server-4,31.38436484336853,6426,1756595936,10.157.146.4,False,32894.9948618412,1200
+1072,-619.8848643892834,1072,1286400,{},-680.6410383481847,1286400,0,32925.5395359993,-576.5642895225193,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1286400, 'default': {'kl': 0.011162570677697659, 'policy_loss': -0.14263781905174255, 'vf_loss': 96.23330688476562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9931522011756897, 'entropy': 6.76301908493042, 'cur_lr': 4.999999873689376e-05, 'total_loss': 96.10761260986328}, 'load_time_ms': 0.697, 'num_steps_sampled': 1286400, 'grad_time_ms': 613.661, 'update_time_ms': 2.333, 'sample_time_ms': 30784.432}",2025-08-31_01-19-27,cda-server-4,30.544674158096313,6432,1756595967,10.157.146.4,False,32925.5395359993,1200
+1073,-620.9587396393086,1073,1287600,{},-680.6410383481847,1287600,0,32957.66036057472,-576.5642895225193,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1287600, 'default': {'kl': 0.010051514953374863, 'policy_loss': -0.13157054781913757, 'vf_loss': 512.5034790039062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9378021955490112, 'entropy': 7.244687557220459, 'cur_lr': 4.999999873689376e-05, 'total_loss': 512.3871459960938}, 'load_time_ms': 0.692, 'num_steps_sampled': 1287600, 'grad_time_ms': 627.45, 'update_time_ms': 2.339, 'sample_time_ms': 30617.78}",2025-08-31_01-19-59,cda-server-4,32.120824575424194,6438,1756595999,10.157.146.4,False,32957.66036057472,1200
+1074,-620.1331646803061,1074,1288800,{},-680.3777063694968,1288800,0,32990.00157260895,-576.5642895225193,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1288800, 'default': {'kl': 0.011585461907088757, 'policy_loss': -0.14899718761444092, 'vf_loss': 248.58018493652344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9793050289154053, 'entropy': 6.6891021728515625, 'cur_lr': 4.999999873689376e-05, 'total_loss': 248.44879150390625}, 'load_time_ms': 0.694, 'num_steps_sampled': 1288800, 'grad_time_ms': 641.651, 'update_time_ms': 2.316, 'sample_time_ms': 30765.249}",2025-08-31_01-20-31,cda-server-4,32.341212034225464,6444,1756596031,10.157.146.4,False,32990.00157260895,1200
+1075,-620.8556386929936,1075,1290000,{},-680.3777063694968,1290000,0,33020.776151418686,-576.5642895225193,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1290000, 'default': {'kl': 0.010759172961115837, 'policy_loss': -0.1327405571937561, 'vf_loss': 363.3708801269531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9624699354171753, 'entropy': 6.913599967956543, 'cur_lr': 4.999999873689376e-05, 'total_loss': 363.2545166015625}, 'load_time_ms': 0.686, 'num_steps_sampled': 1290000, 'grad_time_ms': 645.764, 'update_time_ms': 2.389, 'sample_time_ms': 30934.178}",2025-08-31_01-21-02,cda-server-4,30.77457880973816,6450,1756596062,10.157.146.4,False,33020.776151418686,1200
+1076,-620.4078584292654,1076,1291200,{},-680.3777063694968,1291200,0,33049.93032360077,-569.4402808937202,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1291200, 'default': {'kl': 0.010787052102386951, 'policy_loss': -0.12848897278308868, 'vf_loss': 255.87716674804688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9785010814666748, 'entropy': 6.6741485595703125, 'cur_lr': 4.999999873689376e-05, 'total_loss': 255.76502990722656}, 'load_time_ms': 0.658, 'num_steps_sampled': 1291200, 'grad_time_ms': 657.66, 'update_time_ms': 2.427, 'sample_time_ms': 30445.031}",2025-08-31_01-21-31,cda-server-4,29.15417218208313,6456,1756596091,10.157.146.4,False,33049.93032360077,1200
+1077,-619.1145744029594,1077,1292400,{},-680.3777063694968,1292400,0,33081.51006793976,-569.4402808937202,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1292400, 'default': {'kl': 0.009777690283954144, 'policy_loss': -0.11859651654958725, 'vf_loss': 125.16768646240234, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9861826300621033, 'entropy': 6.8018574714660645, 'cur_lr': 4.999999873689376e-05, 'total_loss': 125.06393432617188}, 'load_time_ms': 0.666, 'num_steps_sampled': 1292400, 'grad_time_ms': 686.45, 'update_time_ms': 2.387, 'sample_time_ms': 30505.81}",2025-08-31_01-22-03,cda-server-4,31.579744338989258,6462,1756596123,10.157.146.4,False,33081.51006793976,1200
+1078,-620.018746110155,1078,1293600,{},-680.3777063694968,1293600,0,33112.500148296356,-569.4402808937202,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1293600, 'default': {'kl': 0.010355653241276741, 'policy_loss': -0.1333308070898056, 'vf_loss': 343.2093200683594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9649937152862549, 'entropy': 6.841892242431641, 'cur_lr': 4.999999873689376e-05, 'total_loss': 343.0916748046875}, 'load_time_ms': 0.636, 'num_steps_sampled': 1293600, 'grad_time_ms': 699.913, 'update_time_ms': 2.432, 'sample_time_ms': 30329.159}",2025-08-31_01-22-34,cda-server-4,30.9900803565979,6468,1756596154,10.157.146.4,False,33112.500148296356,1200
+1079,-620.1284684754195,1079,1294800,{},-680.3777063694968,1294800,0,33142.10560321808,-569.4402808937202,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1294800, 'default': {'kl': 0.011313870549201965, 'policy_loss': -0.13356062769889832, 'vf_loss': 83.99958038330078, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9865971803665161, 'entropy': 6.644640922546387, 'cur_lr': 4.999999873689376e-05, 'total_loss': 83.88319396972656}, 'load_time_ms': 0.63, 'num_steps_sampled': 1294800, 'grad_time_ms': 711.185, 'update_time_ms': 2.41, 'sample_time_ms': 30329.792}",2025-08-31_01-23-03,cda-server-4,29.605454921722412,6474,1756596183,10.157.146.4,False,33142.10560321808,1200
+1080,-620.4680083938129,1080,1296000,{},-680.3777063694968,1296000,0,33174.74926614761,-569.4402808937202,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1296000, 'default': {'kl': 0.01123395562171936, 'policy_loss': -0.13337403535842896, 'vf_loss': 237.54953002929688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9742100238800049, 'entropy': 6.776908874511719, 'cur_lr': 4.999999873689376e-05, 'total_loss': 237.43321228027344}, 'load_time_ms': 0.666, 'num_steps_sampled': 1296000, 'grad_time_ms': 706.043, 'update_time_ms': 2.405, 'sample_time_ms': 30400.76}",2025-08-31_01-23-36,cda-server-4,32.64366292953491,6480,1756596216,10.157.146.4,False,33174.74926614761,1200
+1081,-619.556972586931,1081,1297200,{},-680.3777063694968,1297200,0,33205.18607354164,-569.4402808937202,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1297200, 'default': {'kl': 0.010512142442166805, 'policy_loss': -0.13275277614593506, 'vf_loss': 388.56231689453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9674546718597412, 'entropy': 6.750830173492432, 'cur_lr': 4.999999873689376e-05, 'total_loss': 388.445556640625}, 'load_time_ms': 0.68, 'num_steps_sampled': 1297200, 'grad_time_ms': 676.769, 'update_time_ms': 2.34, 'sample_time_ms': 30335.322}",2025-08-31_01-24-07,cda-server-4,30.43680739402771,6486,1756596247,10.157.146.4,False,33205.18607354164,1200
+1082,-619.9685484536085,1082,1298400,{},-680.3777063694968,1298400,0,33235.69197535515,-569.4402808937202,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1298400, 'default': {'kl': 0.0110378572717309, 'policy_loss': -0.13341794908046722, 'vf_loss': 110.86463165283203, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9917225241661072, 'entropy': 6.595364570617676, 'cur_lr': 4.999999873689376e-05, 'total_loss': 110.74797821044922}, 'load_time_ms': 0.669, 'num_steps_sampled': 1298400, 'grad_time_ms': 669.275, 'update_time_ms': 2.313, 'sample_time_ms': 30339.048}",2025-08-31_01-24-37,cda-server-4,30.50590181350708,6492,1756596277,10.157.146.4,False,33235.69197535515,1200
+1083,-618.703524394059,1083,1299600,{},-680.3777063694968,1299600,0,33263.128647089005,-493.3984957178343,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1299600, 'default': {'kl': 0.010720442049205303, 'policy_loss': -0.1503356248140335, 'vf_loss': 199.10836791992188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9778351187705994, 'entropy': 6.901277542114258, 'cur_lr': 4.999999873689376e-05, 'total_loss': 198.97430419921875}, 'load_time_ms': 0.67, 'num_steps_sampled': 1299600, 'grad_time_ms': 651.957, 'update_time_ms': 2.31, 'sample_time_ms': 29887.999}",2025-08-31_01-25-05,cda-server-4,27.4366717338562,6498,1756596305,10.157.146.4,False,33263.128647089005,1200
+1084,-618.2912725439907,1084,1300800,{},-680.3777063694968,1300800,0,33296.391300201416,-493.3984957178343,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1300800, 'default': {'kl': 0.011346405372023582, 'policy_loss': -0.12957130372524261, 'vf_loss': 188.52072143554688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9808580875396729, 'entropy': 6.761632919311523, 'cur_lr': 4.999999873689376e-05, 'total_loss': 188.40838623046875}, 'load_time_ms': 0.675, 'num_steps_sampled': 1300800, 'grad_time_ms': 649.739, 'update_time_ms': 2.322, 'sample_time_ms': 29982.299}",2025-08-31_01-25-38,cda-server-4,33.2626531124115,6504,1756596338,10.157.146.4,False,33296.391300201416,1200
+1085,-618.0401972197292,1085,1302000,{},-676.0118394401314,1302000,0,33329.58741879463,-493.3984957178343,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1302000, 'default': {'kl': 0.009772931225597858, 'policy_loss': -0.1331956684589386, 'vf_loss': 258.838623046875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9690093994140625, 'entropy': 6.767106533050537, 'cur_lr': 4.999999873689376e-05, 'total_loss': 258.72027587890625}, 'load_time_ms': 0.681, 'num_steps_sampled': 1302000, 'grad_time_ms': 651.078, 'update_time_ms': 2.269, 'sample_time_ms': 30223.064}",2025-08-31_01-26-11,cda-server-4,33.19611859321594,6510,1756596371,10.157.146.4,False,33329.58741879463,1200
+1086,-617.4996401016011,1086,1303200,{},-676.0118394401314,1303200,0,33359.868200302124,-493.3984957178343,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1303200, 'default': {'kl': 0.007889865897595882, 'policy_loss': -0.11504009366035461, 'vf_loss': 291.1443786621094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9648191928863525, 'entropy': 6.922488689422607, 'cur_lr': 4.999999873689376e-05, 'total_loss': 291.0412902832031}, 'load_time_ms': 0.685, 'num_steps_sampled': 1303200, 'grad_time_ms': 655.014, 'update_time_ms': 2.24, 'sample_time_ms': 30331.802}",2025-08-31_01-26-41,cda-server-4,30.280781507492065,6516,1756596401,10.157.146.4,False,33359.868200302124,1200
+1087,-617.4978550430257,1087,1304400,{},-676.0118394401314,1304400,0,33389.87094068527,-493.3984957178343,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1304400, 'default': {'kl': 0.013502825051546097, 'policy_loss': -0.17004480957984924, 'vf_loss': 497.1877136230469, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9714121222496033, 'entropy': 6.955673694610596, 'cur_lr': 4.999999873689376e-05, 'total_loss': 497.0382080078125}, 'load_time_ms': 0.68, 'num_steps_sampled': 1304400, 'grad_time_ms': 651.843, 'update_time_ms': 2.232, 'sample_time_ms': 30177.313}",2025-08-31_01-27-11,cda-server-4,30.002740383148193,6522,1756596431,10.157.146.4,False,33389.87094068527,1200
+1088,-617.293899313528,1088,1305600,{},-676.0118394401314,1305600,0,33421.61006402969,-493.3984957178343,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1305600, 'default': {'kl': 0.012620531022548676, 'policy_loss': -0.14366206526756287, 'vf_loss': 522.0381469726562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.98222815990448, 'entropy': 7.0834059715271, 'cur_lr': 4.999999873689376e-05, 'total_loss': 521.9136352539062}, 'load_time_ms': 0.675, 'num_steps_sampled': 1305600, 'grad_time_ms': 660.615, 'update_time_ms': 2.107, 'sample_time_ms': 30243.528}",2025-08-31_01-27-43,cda-server-4,31.739123344421387,6528,1756596463,10.157.146.4,False,33421.61006402969,1200
+1089,-616.0328180521363,1089,1306800,{},-670.124138973062,1306800,0,33452.98003053665,-493.3984957178343,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1306800, 'default': {'kl': 0.01226222887635231, 'policy_loss': -0.14909499883651733, 'vf_loss': 269.35418701171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9781107306480408, 'entropy': 6.968891620635986, 'cur_lr': 4.999999873689376e-05, 'total_loss': 269.2237243652344}, 'load_time_ms': 0.677, 'num_steps_sampled': 1306800, 'grad_time_ms': 671.201, 'update_time_ms': 2.13, 'sample_time_ms': 30409.326}",2025-08-31_01-28-15,cda-server-4,31.369966506958008,6534,1756596495,10.157.146.4,False,33452.98003053665,1200
+1090,-615.734977299206,1090,1308000,{},-670.124138973062,1308000,0,33484.932616472244,-493.3984957178343,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1308000, 'default': {'kl': 0.009796532802283764, 'policy_loss': -0.1283462643623352, 'vf_loss': 566.3408813476562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9498894214630127, 'entropy': 6.6721086502075195, 'cur_lr': 4.999999873689376e-05, 'total_loss': 566.2274169921875}, 'load_time_ms': 0.643, 'num_steps_sampled': 1308000, 'grad_time_ms': 672.753, 'update_time_ms': 2.176, 'sample_time_ms': 30338.615}",2025-08-31_01-28-46,cda-server-4,31.95258593559265,6540,1756596526,10.157.146.4,False,33484.932616472244,1200
+1091,-617.1739912516119,1091,1309200,{},-681.2645812599118,1309200,0,33514.68558573723,-493.3984957178343,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1309200, 'default': {'kl': 0.009412133134901524, 'policy_loss': -0.12025383859872818, 'vf_loss': 183.39938354492188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9802592396736145, 'entropy': 7.0595855712890625, 'cur_lr': 4.999999873689376e-05, 'total_loss': 183.29339599609375}, 'load_time_ms': 0.622, 'num_steps_sampled': 1309200, 'grad_time_ms': 699.225, 'update_time_ms': 2.304, 'sample_time_ms': 30243.647}",2025-08-31_01-29-16,cda-server-4,29.75296926498413,6546,1756596556,10.157.146.4,False,33514.68558573723,1200
+1092,-620.3767272333594,1092,1310400,{},-791.5706079825424,1310400,0,33547.25522327423,-493.3984957178343,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1310400, 'default': {'kl': 0.010010818019509315, 'policy_loss': -0.11905304342508316, 'vf_loss': 535.158447265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9508401155471802, 'entropy': 6.930460453033447, 'cur_lr': 4.999999873689376e-05, 'total_loss': 535.0545654296875}, 'load_time_ms': 0.602, 'num_steps_sampled': 1310400, 'grad_time_ms': 705.567, 'update_time_ms': 2.335, 'sample_time_ms': 30443.642}",2025-08-31_01-29-49,cda-server-4,32.56963753700256,6552,1756596589,10.157.146.4,False,33547.25522327423,1200
+1093,-620.1183939821121,1093,1311600,{},-791.5706079825424,1311600,0,33577.67798280716,-493.3984957178343,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1311600, 'default': {'kl': 0.009661171585321426, 'policy_loss': -0.12268038839101791, 'vf_loss': 379.9334411621094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9531041383743286, 'entropy': 6.652472972869873, 'cur_lr': 4.999999873689376e-05, 'total_loss': 379.8254089355469}, 'load_time_ms': 0.601, 'num_steps_sampled': 1311600, 'grad_time_ms': 717.771, 'update_time_ms': 2.316, 'sample_time_ms': 30729.989}",2025-08-31_01-30-19,cda-server-4,30.422759532928467,6558,1756596619,10.157.146.4,False,33577.67798280716,1200
+1094,-620.6295225771664,1094,1312800,{},-791.5706079825424,1312800,0,33610.63956069946,-493.3984957178343,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1312800, 'default': {'kl': 0.010285461321473122, 'policy_loss': -0.12310484051704407, 'vf_loss': 192.59327697753906, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9816573262214661, 'entropy': 6.913756847381592, 'cur_lr': 4.999999873689376e-05, 'total_loss': 192.4857940673828}, 'load_time_ms': 0.588, 'num_steps_sampled': 1312800, 'grad_time_ms': 709.015, 'update_time_ms': 2.255, 'sample_time_ms': 30708.735}",2025-08-31_01-30-52,cda-server-4,32.96157789230347,6564,1756596652,10.157.146.4,False,33610.63956069946,1200
+1095,-620.0521103999453,1095,1314000,{},-791.5706079825424,1314000,0,33638.67106437683,-493.3984957178343,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1314000, 'default': {'kl': 0.010466966778039932, 'policy_loss': -0.13674066960811615, 'vf_loss': 117.03677368164062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9854283928871155, 'entropy': 7.016899108886719, 'cur_lr': 4.999999873689376e-05, 'total_loss': 116.91593170166016}, 'load_time_ms': 0.583, 'num_steps_sampled': 1314000, 'grad_time_ms': 691.289, 'update_time_ms': 2.29, 'sample_time_ms': 30210.031}",2025-08-31_01-31-20,cda-server-4,28.031503677368164,6570,1756596680,10.157.146.4,False,33638.67106437683,1200
+1096,-619.2842569399952,1096,1315200,{},-791.5706079825424,1315200,0,33669.18877339363,-493.3984957178343,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1315200, 'default': {'kl': 0.010168522596359253, 'policy_loss': -0.13094928860664368, 'vf_loss': 362.77105712890625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9569921493530273, 'entropy': 7.037050724029541, 'cur_lr': 4.999999873689376e-05, 'total_loss': 362.6555480957031}, 'load_time_ms': 0.61, 'num_steps_sampled': 1315200, 'grad_time_ms': 675.113, 'update_time_ms': 2.357, 'sample_time_ms': 30249.806}",2025-08-31_01-31-51,cda-server-4,30.517709016799927,6576,1756596711,10.157.146.4,False,33669.18877339363,1200
+1097,-619.0039569307266,1097,1316400,{},-791.5706079825424,1316400,0,33701.19350361824,-493.3984957178343,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1316400, 'default': {'kl': 0.010471382178366184, 'policy_loss': -0.1360197812318802, 'vf_loss': 423.29217529296875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9573924541473389, 'entropy': 7.100557327270508, 'cur_lr': 4.999999873689376e-05, 'total_loss': 423.1719970703125}, 'load_time_ms': 0.614, 'num_steps_sampled': 1316400, 'grad_time_ms': 674.62, 'update_time_ms': 2.402, 'sample_time_ms': 30450.34}",2025-08-31_01-32-23,cda-server-4,32.004730224609375,6582,1756596743,10.157.146.4,False,33701.19350361824,1200
+1098,-619.3603446513258,1098,1317600,{},-791.5706079825424,1317600,0,33732.273706912994,-493.3984957178343,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1317600, 'default': {'kl': 0.012705422937870026, 'policy_loss': -0.15239617228507996, 'vf_loss': 563.4364013671875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9741314649581909, 'entropy': 6.687869071960449, 'cur_lr': 4.999999873689376e-05, 'total_loss': 563.3032836914062}, 'load_time_ms': 0.619, 'num_steps_sampled': 1317600, 'grad_time_ms': 680.338, 'update_time_ms': 2.409, 'sample_time_ms': 30378.714}",2025-08-31_01-32-54,cda-server-4,31.08020329475403,6588,1756596774,10.157.146.4,False,33732.273706912994,1200
+1099,-620.0642191295851,1099,1318800,{},-791.5706079825424,1318800,0,33764.64416027069,-493.3984957178343,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1318800, 'default': {'kl': 0.0087355338037014, 'policy_loss': -0.10442949831485748, 'vf_loss': 1614.1317138671875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.7627613544464111, 'entropy': 6.880678653717041, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1614.04052734375}, 'load_time_ms': 0.625, 'num_steps_sampled': 1318800, 'grad_time_ms': 678.532, 'update_time_ms': 2.336, 'sample_time_ms': 30480.666}",2025-08-31_01-33-26,cda-server-4,32.37045335769653,6594,1756596806,10.157.146.4,False,33764.64416027069,1200
+1100,-621.12439448653,1100,1320000,{},-791.5706079825424,1320000,0,33793.89780378342,-569.4493682136208,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1320000, 'default': {'kl': 0.010129868052899837, 'policy_loss': -0.14440226554870605, 'vf_loss': 458.85980224609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9581849575042725, 'entropy': 6.987758159637451, 'cur_lr': 4.999999873689376e-05, 'total_loss': 458.7308044433594}, 'load_time_ms': 0.627, 'num_steps_sampled': 1320000, 'grad_time_ms': 673.625, 'update_time_ms': 2.381, 'sample_time_ms': 30215.682}",2025-08-31_01-33-56,cda-server-4,29.25364351272583,6600,1756596836,10.157.146.4,False,33793.89780378342,1200
+1101,-620.82501021798,1101,1321200,{},-791.5706079825424,1321200,0,33823.399933338165,-569.4493682136208,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1321200, 'default': {'kl': 0.008824083022773266, 'policy_loss': -0.12347596138715744, 'vf_loss': 442.394775390625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9639628529548645, 'entropy': 6.797654151916504, 'cur_lr': 4.999999873689376e-05, 'total_loss': 442.28472900390625}, 'load_time_ms': 0.623, 'num_steps_sampled': 1321200, 'grad_time_ms': 648.308, 'update_time_ms': 2.348, 'sample_time_ms': 30215.945}",2025-08-31_01-34-25,cda-server-4,29.502129554748535,6606,1756596865,10.157.146.4,False,33823.399933338165,1200
+1102,-620.7536975982049,1102,1322400,{},-791.5706079825424,1322400,0,33852.50904870033,-569.4493682136208,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1322400, 'default': {'kl': 0.011127562262117863, 'policy_loss': -0.13574650883674622, 'vf_loss': 84.08480834960938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9876232147216797, 'entropy': 6.565128326416016, 'cur_lr': 4.999999873689376e-05, 'total_loss': 83.9659652709961}, 'load_time_ms': 0.625, 'num_steps_sampled': 1322400, 'grad_time_ms': 639.96, 'update_time_ms': 2.339, 'sample_time_ms': 29878.255}",2025-08-31_01-34-54,cda-server-4,29.10911536216736,6612,1756596894,10.157.146.4,False,33852.50904870033,1200
+1103,-620.3996318242814,1103,1323600,{},-791.5706079825424,1323600,0,33886.191167593,-569.4493682136208,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1323600, 'default': {'kl': 0.00783636886626482, 'policy_loss': -0.09312477707862854, 'vf_loss': 219.2204132080078, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9709107875823975, 'entropy': 6.681498050689697, 'cur_lr': 4.999999873689376e-05, 'total_loss': 219.13922119140625}, 'load_time_ms': 0.66, 'num_steps_sampled': 1323600, 'grad_time_ms': 627.334, 'update_time_ms': 2.379, 'sample_time_ms': 30216.74}",2025-08-31_01-35-28,cda-server-4,33.68211889266968,6618,1756596928,10.157.146.4,False,33886.191167593,1200
+1104,-620.0130604682647,1104,1324800,{},-791.5706079825424,1324800,0,33917.45345067978,-569.4493682136208,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1324800, 'default': {'kl': 0.009679400362074375, 'policy_loss': -0.10979215055704117, 'vf_loss': 348.7064514160156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9627764821052551, 'entropy': 6.868557453155518, 'cur_lr': 4.999999873689376e-05, 'total_loss': 348.6114196777344}, 'load_time_ms': 0.658, 'num_steps_sampled': 1324800, 'grad_time_ms': 610.457, 'update_time_ms': 2.472, 'sample_time_ms': 30063.649}",2025-08-31_01-35-59,cda-server-4,31.262283086776733,6624,1756596959,10.157.146.4,False,33917.45345067978,1200
+1105,-619.6527219049239,1105,1326000,{},-791.5706079825424,1326000,0,33949.870114803314,-569.4493682136208,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1326000, 'default': {'kl': 0.00998301524668932, 'policy_loss': -0.14074867963790894, 'vf_loss': 105.2033920288086, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.98602294921875, 'entropy': 6.942111492156982, 'cur_lr': 4.999999873689376e-05, 'total_loss': 105.07780456542969}, 'load_time_ms': 0.655, 'num_steps_sampled': 1326000, 'grad_time_ms': 598.679, 'update_time_ms': 2.478, 'sample_time_ms': 30513.946}",2025-08-31_01-36-32,cda-server-4,32.416664123535156,6630,1756596992,10.157.146.4,False,33949.870114803314,1200
+1106,-619.5709753014676,1106,1327200,{},-791.5706079825424,1327200,0,33980.22667813301,-569.4493682136208,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1327200, 'default': {'kl': 0.012347337789833546, 'policy_loss': -0.14054475724697113, 'vf_loss': 516.71240234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9392716288566589, 'entropy': 6.7689385414123535, 'cur_lr': 4.999999873689376e-05, 'total_loss': 516.590576171875}, 'load_time_ms': 0.621, 'num_steps_sampled': 1327200, 'grad_time_ms': 592.106, 'update_time_ms': 2.438, 'sample_time_ms': 30504.562}",2025-08-31_01-37-02,cda-server-4,30.356563329696655,6636,1756597022,10.157.146.4,False,33980.22667813301,1200
+1107,-619.1669500275947,1107,1328400,{},-791.5706079825424,1328400,0,34012.774891614914,-569.4493682136208,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1328400, 'default': {'kl': 0.012199124321341515, 'policy_loss': -0.13721267879009247, 'vf_loss': 162.92234802246094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9883490800857544, 'entropy': 6.664876937866211, 'cur_lr': 4.999999873689376e-05, 'total_loss': 162.80364990234375}, 'load_time_ms': 0.617, 'num_steps_sampled': 1328400, 'grad_time_ms': 585.387, 'update_time_ms': 2.403, 'sample_time_ms': 30565.714}",2025-08-31_01-37-35,cda-server-4,32.548213481903076,6642,1756597055,10.157.146.4,False,34012.774891614914,1200
+1108,-616.8694310716867,1108,1329600,{},-790.4817205437538,1329600,0,34045.63313102722,-569.4493682136208,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1329600, 'default': {'kl': 0.009503071196377277, 'policy_loss': -0.1267811506986618, 'vf_loss': 317.1749267578125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9840881824493408, 'entropy': 6.672971248626709, 'cur_lr': 4.999999873689376e-05, 'total_loss': 317.0626220703125}, 'load_time_ms': 0.644, 'num_steps_sampled': 1329600, 'grad_time_ms': 577.738, 'update_time_ms': 2.423, 'sample_time_ms': 30751.076}",2025-08-31_01-38-08,cda-server-4,32.85823941230774,6648,1756597088,10.157.146.4,False,34045.63313102722,1200
+1109,-615.4517690660576,1109,1330800,{},-775.2959751816111,1330800,0,34077.380182266235,-569.4493682136208,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1330800, 'default': {'kl': 0.011367655359208584, 'policy_loss': -0.13498082756996155, 'vf_loss': 341.9864196777344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.98287433385849, 'entropy': 6.7643208503723145, 'cur_lr': 4.999999873689376e-05, 'total_loss': 341.86871337890625}, 'load_time_ms': 0.639, 'num_steps_sampled': 1330800, 'grad_time_ms': 569.042, 'update_time_ms': 2.492, 'sample_time_ms': 30697.43}",2025-08-31_01-38-39,cda-server-4,31.747051239013672,6654,1756597119,10.157.146.4,False,34077.380182266235,1200
+1110,-615.4576396862814,1110,1332000,{},-775.2959751816111,1332000,0,34110.490119218826,-569.4493682136208,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1332000, 'default': {'kl': 0.010473083704710007, 'policy_loss': -0.1339205503463745, 'vf_loss': 166.15298461914062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9853662848472595, 'entropy': 6.754985809326172, 'cur_lr': 4.999999873689376e-05, 'total_loss': 166.03497314453125}, 'load_time_ms': 0.637, 'num_steps_sampled': 1332000, 'grad_time_ms': 557.144, 'update_time_ms': 2.396, 'sample_time_ms': 31095.114}",2025-08-31_01-39-12,cda-server-4,33.10993695259094,6660,1756597152,10.157.146.4,False,34110.490119218826,1200
+1111,-614.8113272711063,1111,1333200,{},-775.2959751816111,1333200,0,34141.489077568054,-569.4493682136208,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1333200, 'default': {'kl': 0.010221320204436779, 'policy_loss': -0.1355455219745636, 'vf_loss': 180.3109893798828, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9776870012283325, 'entropy': 6.459749221801758, 'cur_lr': 4.999999873689376e-05, 'total_loss': 180.19097900390625}, 'load_time_ms': 0.649, 'num_steps_sampled': 1333200, 'grad_time_ms': 574.084, 'update_time_ms': 2.314, 'sample_time_ms': 31227.914}",2025-08-31_01-39-44,cda-server-4,30.998958349227905,6666,1756597184,10.157.146.4,False,34141.489077568054,1200
+1112,-616.3067237508244,1112,1334400,{},-775.2959751816111,1334400,0,34172.65347409248,-569.4493682136208,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1334400, 'default': {'kl': 0.008780477568507195, 'policy_loss': -0.09558790922164917, 'vf_loss': 927.6626586914062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8778769969940186, 'entropy': 6.684818744659424, 'cur_lr': 4.999999873689376e-05, 'total_loss': 927.5805053710938}, 'load_time_ms': 0.645, 'num_steps_sampled': 1334400, 'grad_time_ms': 580.207, 'update_time_ms': 2.314, 'sample_time_ms': 31427.366}",2025-08-31_01-40-15,cda-server-4,31.16439652442932,6672,1756597215,10.157.146.4,False,34172.65347409248,1200
+1113,-617.3370558487077,1113,1335600,{},-775.2959751816111,1335600,0,34200.9351606369,-572.1352140555139,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1335600, 'default': {'kl': 0.009524945169687271, 'policy_loss': -0.13132628798484802, 'vf_loss': 334.3545837402344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9681152701377869, 'entropy': 7.064764976501465, 'cur_lr': 4.999999873689376e-05, 'total_loss': 334.23773193359375}, 'load_time_ms': 0.622, 'num_steps_sampled': 1335600, 'grad_time_ms': 598.314, 'update_time_ms': 2.292, 'sample_time_ms': 30869.314}",2025-08-31_01-40-43,cda-server-4,28.281686544418335,6678,1756597243,10.157.146.4,False,34200.9351606369,1200
+1114,-617.683402823506,1114,1336800,{},-775.2959751816111,1336800,0,34229.51477622986,-572.1352140555139,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1336800, 'default': {'kl': 0.009633926674723625, 'policy_loss': -0.1252020001411438, 'vf_loss': 194.30479431152344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9761097431182861, 'entropy': 6.384120464324951, 'cur_lr': 4.999999873689376e-05, 'total_loss': 194.19422912597656}, 'load_time_ms': 0.631, 'num_steps_sampled': 1336800, 'grad_time_ms': 621.346, 'update_time_ms': 2.297, 'sample_time_ms': 30577.973}",2025-08-31_01-41-12,cda-server-4,28.579615592956543,6684,1756597272,10.157.146.4,False,34229.51477622986,1200
+1115,-620.4084219988182,1115,1338000,{},-784.2243084303117,1338000,0,34260.39559698105,-572.1352140555139,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1338000, 'default': {'kl': 0.010742668993771076, 'policy_loss': -0.14624327421188354, 'vf_loss': 1083.0079345703125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9279103875160217, 'entropy': 6.939515590667725, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1082.8780517578125}, 'load_time_ms': 0.633, 'num_steps_sampled': 1338000, 'grad_time_ms': 647.085, 'update_time_ms': 2.242, 'sample_time_ms': 30398.664}",2025-08-31_01-41-42,cda-server-4,30.880820751190186,6690,1756597302,10.157.146.4,False,34260.39559698105,1200
+1116,-618.3902034968564,1116,1339200,{},-784.2243084303117,1339200,0,34289.32132291794,-520.2923560440028,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1339200, 'default': {'kl': 0.00863798800855875, 'policy_loss': -0.09496548771858215, 'vf_loss': 139.33969116210938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9809664487838745, 'entropy': 6.55949592590332, 'cur_lr': 4.999999873689376e-05, 'total_loss': 139.2578582763672}, 'load_time_ms': 0.631, 'num_steps_sampled': 1339200, 'grad_time_ms': 660.84, 'update_time_ms': 2.246, 'sample_time_ms': 30241.707}",2025-08-31_01-42-11,cda-server-4,28.92572593688965,6696,1756597331,10.157.146.4,False,34289.32132291794,1200
+1117,-619.2428665074835,1117,1340400,{},-784.2243084303117,1340400,0,34321.54627394676,-520.2923560440028,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1340400, 'default': {'kl': 0.010132933966815472, 'policy_loss': -0.12144052982330322, 'vf_loss': 886.390869140625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9450466632843018, 'entropy': 6.6843132972717285, 'cur_lr': 4.999999873689376e-05, 'total_loss': 886.2848510742188}, 'load_time_ms': 0.631, 'num_steps_sampled': 1340400, 'grad_time_ms': 670.204, 'update_time_ms': 2.343, 'sample_time_ms': 30199.961}",2025-08-31_01-42-44,cda-server-4,32.22495102882385,6702,1756597364,10.157.146.4,False,34321.54627394676,1200
+1118,-618.4586827461206,1118,1341600,{},-784.2243084303117,1341600,0,34352.27151298523,-520.2923560440028,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1341600, 'default': {'kl': 0.00947872456163168, 'policy_loss': -0.1283179521560669, 'vf_loss': 89.7015380859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9898931980133057, 'entropy': 6.622117042541504, 'cur_lr': 4.999999873689376e-05, 'total_loss': 89.58761596679688}, 'load_time_ms': 0.602, 'num_steps_sampled': 1341600, 'grad_time_ms': 679.575, 'update_time_ms': 2.313, 'sample_time_ms': 29977.448}",2025-08-31_01-43-14,cda-server-4,30.725239038467407,6708,1756597394,10.157.146.4,False,34352.27151298523,1200
+1119,-618.3010290205754,1119,1342800,{},-784.2243084303117,1342800,0,34385.75823879242,-520.2923560440028,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1342800, 'default': {'kl': 0.0093403784558177, 'policy_loss': -0.12581636011600494, 'vf_loss': 107.66708374023438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9863113760948181, 'entropy': 6.648893356323242, 'cur_lr': 4.999999873689376e-05, 'total_loss': 107.55545043945312}, 'load_time_ms': 0.605, 'num_steps_sampled': 1342800, 'grad_time_ms': 694.154, 'update_time_ms': 2.253, 'sample_time_ms': 30136.909}",2025-08-31_01-43-48,cda-server-4,33.48672580718994,6714,1756597428,10.157.146.4,False,34385.75823879242,1200
+1120,-618.9395404571238,1120,1344000,{},-784.2243084303117,1344000,0,34411.75946569443,-520.2923560440028,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1344000, 'default': {'kl': 0.01036731619387865, 'policy_loss': -0.14913591742515564, 'vf_loss': 126.84829711914062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9913073778152466, 'entropy': 7.096040725708008, 'cur_lr': 4.999999873689376e-05, 'total_loss': 126.71489715576172}, 'load_time_ms': 0.639, 'num_steps_sampled': 1344000, 'grad_time_ms': 719.09, 'update_time_ms': 2.279, 'sample_time_ms': 29400.993}",2025-08-31_01-44-14,cda-server-4,26.001226902008057,6720,1756597454,10.157.146.4,False,34411.75946569443,1200
+1121,-618.3148388117652,1121,1345200,{},-784.2243084303117,1345200,0,34442.33597397804,-520.2923560440028,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1345200, 'default': {'kl': 0.013574454002082348, 'policy_loss': -0.15403223037719727, 'vf_loss': 656.716064453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9765948057174683, 'entropy': 6.540998935699463, 'cur_lr': 4.999999873689376e-05, 'total_loss': 656.5827026367188}, 'load_time_ms': 0.63, 'num_steps_sampled': 1345200, 'grad_time_ms': 728.199, 'update_time_ms': 2.309, 'sample_time_ms': 29349.678}",2025-08-31_01-44-45,cda-server-4,30.576508283615112,6726,1756597485,10.157.146.4,False,34442.33597397804,1200
+1122,-618.860746691655,1122,1346400,{},-784.2243084303117,1346400,0,34471.249841451645,-520.2923560440028,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1346400, 'default': {'kl': 0.010206256061792374, 'policy_loss': -0.12858322262763977, 'vf_loss': 246.78326416015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9770739078521729, 'entropy': 6.676938533782959, 'cur_lr': 4.999999873689376e-05, 'total_loss': 246.67019653320312}, 'load_time_ms': 0.629, 'num_steps_sampled': 1346400, 'grad_time_ms': 730.936, 'update_time_ms': 2.304, 'sample_time_ms': 29121.906}",2025-08-31_01-45-13,cda-server-4,28.913867473602295,6732,1756597513,10.157.146.4,False,34471.249841451645,1200
+1123,-618.0044267106489,1123,1347600,{},-784.2243084303117,1347600,0,34502.77080702782,-520.2923560440028,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1347600, 'default': {'kl': 0.010595133528113365, 'policy_loss': -0.12561385333538055, 'vf_loss': 138.6077880859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.992435872554779, 'entropy': 6.687100410461426, 'cur_lr': 4.999999873689376e-05, 'total_loss': 138.49826049804688}, 'load_time_ms': 0.624, 'num_steps_sampled': 1347600, 'grad_time_ms': 729.255, 'update_time_ms': 2.299, 'sample_time_ms': 29447.565}",2025-08-31_01-45-45,cda-server-4,31.520965576171875,6738,1756597545,10.157.146.4,False,34502.77080702782,1200
+1124,-619.0079273073437,1124,1348800,{},-789.2576470464004,1348800,0,34532.66748714447,-520.2923560440028,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1348800, 'default': {'kl': 0.008243871852755547, 'policy_loss': -0.10366762429475784, 'vf_loss': 1173.3046875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.862163782119751, 'entropy': 6.686075210571289, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1173.2135009765625}, 'load_time_ms': 0.616, 'num_steps_sampled': 1348800, 'grad_time_ms': 727.43, 'update_time_ms': 2.2, 'sample_time_ms': 29581.222}",2025-08-31_01-46-15,cda-server-4,29.896680116653442,6744,1756597575,10.157.146.4,False,34532.66748714447,1200
+1125,-618.3433508917602,1125,1350000,{},-789.2576470464004,1350000,0,34562.28294849396,-520.2923560440028,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1350000, 'default': {'kl': 0.010609394870698452, 'policy_loss': -0.13347676396369934, 'vf_loss': 195.907958984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9760108590126038, 'entropy': 6.524558067321777, 'cur_lr': 4.999999873689376e-05, 'total_loss': 195.79058837890625}, 'load_time_ms': 0.619, 'num_steps_sampled': 1350000, 'grad_time_ms': 726.967, 'update_time_ms': 2.238, 'sample_time_ms': 29455.133}",2025-08-31_01-46-45,cda-server-4,29.615461349487305,6750,1756597605,10.157.146.4,False,34562.28294849396,1200
+1126,-620.0852292832637,1126,1351200,{},-789.2576470464004,1351200,0,34594.674933195114,-520.2923560440028,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1351200, 'default': {'kl': 0.010685686022043228, 'policy_loss': -0.13082976639270782, 'vf_loss': 437.0572204589844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9522974491119385, 'entropy': 6.733343124389648, 'cur_lr': 4.999999873689376e-05, 'total_loss': 436.9425964355469}, 'load_time_ms': 0.64, 'num_steps_sampled': 1351200, 'grad_time_ms': 730.607, 'update_time_ms': 2.207, 'sample_time_ms': 29798.126}",2025-08-31_01-47-17,cda-server-4,32.391984701156616,6756,1756597637,10.157.146.4,False,34594.674933195114,1200
+1127,-619.8533132351122,1127,1352400,{},-789.2576470464004,1352400,0,34624.18128180504,-520.2923560440028,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1352400, 'default': {'kl': 0.010988206602633, 'policy_loss': -0.1457807570695877, 'vf_loss': 86.91384887695312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9914628267288208, 'entropy': 6.393271446228027, 'cur_lr': 4.999999873689376e-05, 'total_loss': 86.78475189208984}, 'load_time_ms': 0.646, 'num_steps_sampled': 1352400, 'grad_time_ms': 728.679, 'update_time_ms': 2.118, 'sample_time_ms': 29528.209}",2025-08-31_01-47-46,cda-server-4,29.506348609924316,6762,1756597666,10.157.146.4,False,34624.18128180504,1200
+1128,-620.2454210676191,1128,1353600,{},-789.2576470464004,1353600,0,34655.526146411896,-520.2923560440028,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1353600, 'default': {'kl': 0.0112064890563488, 'policy_loss': -0.13801607489585876, 'vf_loss': 203.7643280029297, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9709315896034241, 'entropy': 6.8573737144470215, 'cur_lr': 4.999999873689376e-05, 'total_loss': 203.643310546875}, 'load_time_ms': 0.651, 'num_steps_sampled': 1353600, 'grad_time_ms': 726.336, 'update_time_ms': 2.15, 'sample_time_ms': 29592.429}",2025-08-31_01-48-18,cda-server-4,31.3448646068573,6768,1756597698,10.157.146.4,False,34655.526146411896,1200
+1129,-619.0060101041712,1129,1354800,{},-789.2576470464004,1354800,0,34684.70443892479,-520.2923560440028,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1354800, 'default': {'kl': 0.010669449344277382, 'policy_loss': -0.13922053575515747, 'vf_loss': 140.91549682617188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9846466779708862, 'entropy': 6.760274887084961, 'cur_lr': 4.999999873689376e-05, 'total_loss': 140.79248046875}, 'load_time_ms': 0.665, 'num_steps_sampled': 1354800, 'grad_time_ms': 724.288, 'update_time_ms': 2.254, 'sample_time_ms': 29163.414}",2025-08-31_01-48-47,cda-server-4,29.178292512893677,6774,1756597727,10.157.146.4,False,34684.70443892479,1200
+1130,-618.875278875866,1130,1356000,{},-789.2576470464004,1356000,0,34714.20515155792,-520.2923560440028,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1356000, 'default': {'kl': 0.011053141206502914, 'policy_loss': -0.14734120666980743, 'vf_loss': 98.52082061767578, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9924346208572388, 'entropy': 6.732542514801025, 'cur_lr': 4.999999873689376e-05, 'total_loss': 98.39027404785156}, 'load_time_ms': 0.645, 'num_steps_sampled': 1356000, 'grad_time_ms': 724.096, 'update_time_ms': 2.287, 'sample_time_ms': 29513.549}",2025-08-31_01-49-17,cda-server-4,29.500712633132935,6780,1756597757,10.157.146.4,False,34714.20515155792,1200
+1131,-616.6845610578763,1131,1357200,{},-789.2576470464004,1357200,0,34747.3494246006,-520.2923560440028,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1357200, 'default': {'kl': 0.010505800135433674, 'policy_loss': -0.13085749745368958, 'vf_loss': 94.60769653320312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9892245531082153, 'entropy': 6.565914630889893, 'cur_lr': 4.999999873689376e-05, 'total_loss': 94.49279022216797}, 'load_time_ms': 0.645, 'num_steps_sampled': 1357200, 'grad_time_ms': 725.853, 'update_time_ms': 2.279, 'sample_time_ms': 29768.561}",2025-08-31_01-49-50,cda-server-4,33.14427304267883,6786,1756597790,10.157.146.4,False,34747.3494246006,1200
+1132,-617.3805596844308,1132,1358400,{},-797.5044391740212,1358400,0,34775.42442584038,-520.2923560440028,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1358400, 'default': {'kl': 0.008631820790469646, 'policy_loss': -0.09167981892824173, 'vf_loss': 1140.30810546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.901337206363678, 'entropy': 6.749942779541016, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1140.2296142578125}, 'load_time_ms': 0.645, 'num_steps_sampled': 1358400, 'grad_time_ms': 717.755, 'update_time_ms': 2.284, 'sample_time_ms': 29692.717}",2025-08-31_01-50-18,cda-server-4,28.07500123977661,6792,1756597818,10.157.146.4,False,34775.42442584038,1200
+1133,-619.2957334247055,1133,1359600,{},-797.5044391740212,1359600,0,34805.20669865608,-565.469346849023,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1359600, 'default': {'kl': 0.00961296632885933, 'policy_loss': -0.12395048141479492, 'vf_loss': 226.94468688964844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9657412767410278, 'entropy': 6.828749656677246, 'cur_lr': 4.999999873689376e-05, 'total_loss': 226.8353271484375}, 'load_time_ms': 0.645, 'num_steps_sampled': 1359600, 'grad_time_ms': 700.76, 'update_time_ms': 2.35, 'sample_time_ms': 29535.705}",2025-08-31_01-50-48,cda-server-4,29.782272815704346,6798,1756597848,10.157.146.4,False,34805.20669865608,1200
+1134,-619.43048525842,1134,1360800,{},-797.5044391740212,1360800,0,34833.87456679344,-565.469346849023,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1360800, 'default': {'kl': 0.011860277503728867, 'policy_loss': -0.13028286397457123, 'vf_loss': 319.6204833984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9731621146202087, 'entropy': 7.189659118652344, 'cur_lr': 4.999999873689376e-05, 'total_loss': 319.5081787109375}, 'load_time_ms': 0.645, 'num_steps_sampled': 1360800, 'grad_time_ms': 682.087, 'update_time_ms': 2.367, 'sample_time_ms': 29431.48}",2025-08-31_01-51-16,cda-server-4,28.66786813735962,6804,1756597876,10.157.146.4,False,34833.87456679344,1200
+1135,-619.898407459747,1135,1362000,{},-797.5044391740212,1362000,0,34864.31179499626,-565.469346849023,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1362000, 'default': {'kl': 0.009728114120662212, 'policy_loss': -0.13773897290229797, 'vf_loss': 229.57090759277344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.977299153804779, 'entropy': 7.012087345123291, 'cur_lr': 4.999999873689376e-05, 'total_loss': 229.44793701171875}, 'load_time_ms': 0.677, 'num_steps_sampled': 1362000, 'grad_time_ms': 666.659, 'update_time_ms': 2.363, 'sample_time_ms': 29529.068}",2025-08-31_01-51-47,cda-server-4,30.437228202819824,6810,1756597907,10.157.146.4,False,34864.31179499626,1200
+1136,-619.3761034847687,1136,1363200,{},-797.5044391740212,1363200,0,34894.05176830292,-565.469346849023,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1363200, 'default': {'kl': 0.009255454875528812, 'policy_loss': -0.11275429278612137, 'vf_loss': 543.819580078125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9818769097328186, 'entropy': 6.292454719543457, 'cur_lr': 4.999999873689376e-05, 'total_loss': 543.7208251953125}, 'load_time_ms': 0.659, 'num_steps_sampled': 1363200, 'grad_time_ms': 655.702, 'update_time_ms': 2.375, 'sample_time_ms': 29274.867}",2025-08-31_01-52-17,cda-server-4,29.739973306655884,6816,1756597937,10.157.146.4,False,34894.05176830292,1200
+1137,-619.4124238181663,1137,1364400,{},-797.5044391740212,1364400,0,34925.00993561745,-565.469346849023,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1364400, 'default': {'kl': 0.009008029475808144, 'policy_loss': -0.12815214693546295, 'vf_loss': 131.72410583496094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9817067384719849, 'entropy': 6.606265544891357, 'cur_lr': 4.999999873689376e-05, 'total_loss': 131.60963439941406}, 'load_time_ms': 0.656, 'num_steps_sampled': 1364400, 'grad_time_ms': 653.986, 'update_time_ms': 2.409, 'sample_time_ms': 29421.842}",2025-08-31_01-52-47,cda-server-4,30.95816731452942,6822,1756597967,10.157.146.4,False,34925.00993561745,1200
+1138,-619.5650015752577,1138,1365600,{},-797.5044391740212,1365600,0,34954.98396945,-565.469346849023,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1365600, 'default': {'kl': 0.010944414883852005, 'policy_loss': -0.13620921969413757, 'vf_loss': 327.3981628417969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9823641180992126, 'entropy': 6.884366989135742, 'cur_lr': 4.999999873689376e-05, 'total_loss': 327.278564453125}, 'load_time_ms': 0.653, 'num_steps_sampled': 1365600, 'grad_time_ms': 655.534, 'update_time_ms': 2.379, 'sample_time_ms': 29283.241}",2025-08-31_01-53-17,cda-server-4,29.97403383255005,6828,1756597997,10.157.146.4,False,34954.98396945,1200
+1139,-619.942936683862,1139,1366800,{},-797.5044391740212,1366800,0,34987.71451091766,-565.469346849023,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1366800, 'default': {'kl': 0.010104657150804996, 'policy_loss': -0.1260204017162323, 'vf_loss': 190.313720703125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.98588627576828, 'entropy': 6.846592903137207, 'cur_lr': 4.999999873689376e-05, 'total_loss': 190.2030487060547}, 'load_time_ms': 0.638, 'num_steps_sampled': 1366800, 'grad_time_ms': 650.3, 'update_time_ms': 2.335, 'sample_time_ms': 29643.74}",2025-08-31_01-53-50,cda-server-4,32.730541467666626,6834,1756598030,10.157.146.4,False,34987.71451091766,1200
+1140,-620.4223437980069,1140,1368000,{},-797.5044391740212,1368000,0,35018.3479142189,-565.469346849023,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1368000, 'default': {'kl': 0.011065030470490456, 'policy_loss': -0.1547277569770813, 'vf_loss': 103.75808715820312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9869398474693298, 'entropy': 6.701616287231445, 'cur_lr': 4.999999873689376e-05, 'total_loss': 103.62016296386719}, 'load_time_ms': 0.628, 'num_steps_sampled': 1368000, 'grad_time_ms': 643.992, 'update_time_ms': 2.341, 'sample_time_ms': 29763.227}",2025-08-31_01-54-21,cda-server-4,30.633403301239014,6840,1756598061,10.157.146.4,False,35018.3479142189,1200
+1141,-618.4823256520718,1141,1369200,{},-797.5044391740212,1369200,0,35050.03673124313,-565.469346849023,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1369200, 'default': {'kl': 0.011334527283906937, 'policy_loss': -0.12957435846328735, 'vf_loss': 105.39692687988281, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9862733483314514, 'entropy': 6.565272331237793, 'cur_lr': 4.999999873689376e-05, 'total_loss': 105.2845687866211}, 'load_time_ms': 0.624, 'num_steps_sampled': 1369200, 'grad_time_ms': 619.863, 'update_time_ms': 2.342, 'sample_time_ms': 29641.856}",2025-08-31_01-54-53,cda-server-4,31.688817024230957,6846,1756598093,10.157.146.4,False,35050.03673124313,1200
+1142,-619.3199680063319,1142,1370400,{},-797.5044391740212,1370400,0,35080.60205960274,-565.469346849023,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1370400, 'default': {'kl': 0.01122030708938837, 'policy_loss': -0.15137937664985657, 'vf_loss': 502.06451416015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9514447450637817, 'entropy': 6.417526721954346, 'cur_lr': 4.999999873689376e-05, 'total_loss': 501.93017578125}, 'load_time_ms': 0.623, 'num_steps_sampled': 1370400, 'grad_time_ms': 613.517, 'update_time_ms': 2.363, 'sample_time_ms': 29897.287}",2025-08-31_01-55-23,cda-server-4,30.565328359603882,6852,1756598123,10.157.146.4,False,35080.60205960274,1200
+1143,-617.665829587958,1143,1371600,{},-797.5044391740212,1371600,0,35111.413504362106,-565.469346849023,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1371600, 'default': {'kl': 0.011231271550059319, 'policy_loss': -0.14608646929264069, 'vf_loss': 34.24761199951172, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9950466156005859, 'entropy': 6.65839958190918, 'cur_lr': 4.999999873689376e-05, 'total_loss': 34.11858367919922}, 'load_time_ms': 0.621, 'num_steps_sampled': 1371600, 'grad_time_ms': 616.438, 'update_time_ms': 2.344, 'sample_time_ms': 29997.289}",2025-08-31_01-55-54,cda-server-4,30.811444759368896,6858,1756598154,10.157.146.4,False,35111.413504362106,1200
+1144,-618.858294177304,1144,1372800,{},-797.5044391740212,1372800,0,35144.236397743225,-565.469346849023,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1372800, 'default': {'kl': 0.009229284711182117, 'policy_loss': -0.12278972566127777, 'vf_loss': 369.8394775390625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9675309062004089, 'entropy': 6.831792831420898, 'cur_lr': 4.999999873689376e-05, 'total_loss': 369.730712890625}, 'load_time_ms': 0.622, 'num_steps_sampled': 1372800, 'grad_time_ms': 627.232, 'update_time_ms': 2.378, 'sample_time_ms': 30401.962}",2025-08-31_01-56-27,cda-server-4,32.822893381118774,6864,1756598187,10.157.146.4,False,35144.236397743225,1200
+1145,-617.1028925405459,1145,1374000,{},-797.5044391740212,1374000,0,35171.88030004501,-486.4488002806889,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1374000, 'default': {'kl': 0.010774167254567146, 'policy_loss': -0.14671409130096436, 'vf_loss': 165.34437561035156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9858932495117188, 'entropy': 6.662939071655273, 'cur_lr': 4.999999873689376e-05, 'total_loss': 165.2140350341797}, 'load_time_ms': 0.59, 'num_steps_sampled': 1374000, 'grad_time_ms': 623.518, 'update_time_ms': 2.34, 'sample_time_ms': 30126.43}",2025-08-31_01-56-55,cda-server-4,27.64390230178833,6870,1756598215,10.157.146.4,False,35171.88030004501,1200
+1146,-616.6858030440113,1146,1375200,{},-797.5044391740212,1375200,0,35200.3395075798,-486.4488002806889,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1375200, 'default': {'kl': 0.008363377302885056, 'policy_loss': -0.11007189005613327, 'vf_loss': 317.8153991699219, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9543959498405457, 'entropy': 6.696533203125, 'cur_lr': 4.999999873689376e-05, 'total_loss': 317.718017578125}, 'load_time_ms': 0.591, 'num_steps_sampled': 1375200, 'grad_time_ms': 609.715, 'update_time_ms': 2.363, 'sample_time_ms': 30012.178}",2025-08-31_01-57-23,cda-server-4,28.45920753479004,6876,1756598243,10.157.146.4,False,35200.3395075798,1200
+1147,-616.6534210652158,1147,1376400,{},-797.5044391740212,1376400,0,35231.928940057755,-486.4488002806889,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1376400, 'default': {'kl': 0.009224653244018555, 'policy_loss': -0.11675059795379639, 'vf_loss': 68.218505859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9926941394805908, 'entropy': 6.581850051879883, 'cur_lr': 4.999999873689376e-05, 'total_loss': 68.11576843261719}, 'load_time_ms': 0.583, 'num_steps_sampled': 1376400, 'grad_time_ms': 611.064, 'update_time_ms': 2.336, 'sample_time_ms': 30073.977}",2025-08-31_01-57-55,cda-server-4,31.58943247795105,6882,1756598275,10.157.146.4,False,35231.928940057755,1200
+1148,-616.7191698455374,1148,1377600,{},-797.5044391740212,1377600,0,35263.724316358566,-486.4488002806889,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1377600, 'default': {'kl': 0.007777214050292969, 'policy_loss': -0.10855009406805038, 'vf_loss': 241.94737243652344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.976039469242096, 'entropy': 6.8010382652282715, 'cur_lr': 4.999999873689376e-05, 'total_loss': 241.8506622314453}, 'load_time_ms': 0.578, 'num_steps_sampled': 1377600, 'grad_time_ms': 610.135, 'update_time_ms': 2.412, 'sample_time_ms': 30256.913}",2025-08-31_01-58-26,cda-server-4,31.795376300811768,6888,1756598306,10.157.146.4,False,35263.724316358566,1200
+1149,-615.446230784448,1149,1378800,{},-683.0792106073068,1378800,0,35294.84992599487,-486.4488002806889,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1378800, 'default': {'kl': 0.009054825641214848, 'policy_loss': -0.13377222418785095, 'vf_loss': 136.12649536132812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9904988408088684, 'entropy': 6.707151412963867, 'cur_lr': 4.999999873689376e-05, 'total_loss': 136.00645446777344}, 'load_time_ms': 0.575, 'num_steps_sampled': 1378800, 'grad_time_ms': 612.727, 'update_time_ms': 2.411, 'sample_time_ms': 30093.912}",2025-08-31_01-58-58,cda-server-4,31.125609636306763,6894,1756598338,10.157.146.4,False,35294.84992599487,1200
+1150,-615.2162812310844,1150,1380000,{},-683.0792106073068,1380000,0,35326.41791296005,-486.4488002806889,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1380000, 'default': {'kl': 0.010917183943092823, 'policy_loss': -0.12849737703800201, 'vf_loss': 78.89606475830078, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9893967509269714, 'entropy': 6.5749030113220215, 'cur_lr': 4.999999873689376e-05, 'total_loss': 78.78414916992188}, 'load_time_ms': 0.574, 'num_steps_sampled': 1380000, 'grad_time_ms': 617.47, 'update_time_ms': 2.405, 'sample_time_ms': 30182.668}",2025-08-31_01-59-29,cda-server-4,31.567986965179443,6900,1756598369,10.157.146.4,False,35326.41791296005,1200
+1151,-615.3042068429683,1151,1381200,{},-683.0792106073068,1381200,0,35355.68327951431,-486.4488002806889,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1381200, 'default': {'kl': 0.008698729798197746, 'policy_loss': -0.13016118109226227, 'vf_loss': 133.61708068847656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9848461151123047, 'entropy': 6.903947830200195, 'cur_lr': 4.999999873689376e-05, 'total_loss': 133.50010681152344}, 'load_time_ms': 0.578, 'num_steps_sampled': 1381200, 'grad_time_ms': 639.995, 'update_time_ms': 2.376, 'sample_time_ms': 29917.768}",2025-08-31_01-59-58,cda-server-4,29.265366554260254,6906,1756598398,10.157.146.4,False,35355.68327951431,1200
+1152,-615.0334534453652,1152,1382400,{},-683.0792106073068,1382400,0,35386.216797590256,-486.4488002806889,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1382400, 'default': {'kl': 0.009260986000299454, 'policy_loss': -0.12643340229988098, 'vf_loss': 301.3128662109375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9690166115760803, 'entropy': 6.940607070922852, 'cur_lr': 4.999999873689376e-05, 'total_loss': 301.20050048828125}, 'load_time_ms': 0.597, 'num_steps_sampled': 1382400, 'grad_time_ms': 664.145, 'update_time_ms': 2.406, 'sample_time_ms': 29890.306}",2025-08-31_02-00-29,cda-server-4,30.533518075942993,6912,1756598429,10.157.146.4,False,35386.216797590256,1200
+1153,-614.4296045751242,1153,1383600,{},-683.0792106073068,1383600,0,35417.0353243351,-486.4488002806889,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1383600, 'default': {'kl': 0.008826685138046741, 'policy_loss': -0.12241068482398987, 'vf_loss': 638.466064453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9749529957771301, 'entropy': 6.313662052154541, 'cur_lr': 4.999999873689376e-05, 'total_loss': 638.3571166992188}, 'load_time_ms': 0.629, 'num_steps_sampled': 1383600, 'grad_time_ms': 673.32, 'update_time_ms': 2.337, 'sample_time_ms': 29881.894}",2025-08-31_02-01-00,cda-server-4,30.81852674484253,6918,1756598460,10.157.146.4,False,35417.0353243351,1200
+1154,-614.9995862937817,1154,1384800,{},-683.0792106073068,1384800,0,35451.25091481209,-486.4488002806889,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1384800, 'default': {'kl': 0.0105208121240139, 'policy_loss': -0.11411616206169128, 'vf_loss': 128.6576690673828, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9803874492645264, 'entropy': 6.467855453491211, 'cur_lr': 4.999999873689376e-05, 'total_loss': 128.55953979492188}, 'load_time_ms': 0.63, 'num_steps_sampled': 1384800, 'grad_time_ms': 681.985, 'update_time_ms': 2.362, 'sample_time_ms': 30012.362}",2025-08-31_02-01-34,cda-server-4,34.215590476989746,6924,1756598494,10.157.146.4,False,35451.25091481209,1200
+1155,-615.5784415928937,1155,1386000,{},-683.0792106073068,1386000,0,35482.4861664772,-486.4488002806889,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1386000, 'default': {'kl': 0.010424850508570671, 'policy_loss': -0.12496806681156158, 'vf_loss': 110.79617309570312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9896990656852722, 'entropy': 6.688895225524902, 'cur_lr': 4.999999873689376e-05, 'total_loss': 110.6870346069336}, 'load_time_ms': 0.625, 'num_steps_sampled': 1386000, 'grad_time_ms': 682.246, 'update_time_ms': 2.446, 'sample_time_ms': 30371.155}",2025-08-31_02-02-05,cda-server-4,31.235251665115356,6930,1756598525,10.157.146.4,False,35482.4861664772,1200
+1156,-615.0868153014045,1156,1387200,{},-683.0792106073068,1387200,0,35513.66921567917,-486.4488002806889,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1387200, 'default': {'kl': 0.011660140007734299, 'policy_loss': -0.14184413850307465, 'vf_loss': 45.48628616333008, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9944388270378113, 'entropy': 6.374484539031982, 'cur_lr': 4.999999873689376e-05, 'total_loss': 45.36214828491211}, 'load_time_ms': 0.655, 'num_steps_sampled': 1387200, 'grad_time_ms': 682.368, 'update_time_ms': 2.461, 'sample_time_ms': 30643.323}",2025-08-31_02-02-37,cda-server-4,31.183049201965332,6936,1756598557,10.157.146.4,False,35513.66921567917,1200
+1157,-616.5362265004819,1157,1388400,{},-777.0560566619906,1388400,0,35545.00969457626,-486.4488002806889,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1388400, 'default': {'kl': 0.011438556015491486, 'policy_loss': -0.14367130398750305, 'vf_loss': 1161.53076171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9092187881469727, 'entropy': 6.6904191970825195, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1161.404541015625}, 'load_time_ms': 0.659, 'num_steps_sampled': 1388400, 'grad_time_ms': 677.35, 'update_time_ms': 2.429, 'sample_time_ms': 30623.402}",2025-08-31_02-03-08,cda-server-4,31.340478897094727,6942,1756598588,10.157.146.4,False,35545.00969457626,1200
+1158,-616.7549785141606,1158,1389600,{},-777.0560566619906,1389600,0,35574.46993947029,-486.4488002806889,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1389600, 'default': {'kl': 0.009841855615377426, 'policy_loss': -0.14583200216293335, 'vf_loss': 92.00363159179688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9914221167564392, 'entropy': 6.85841178894043, 'cur_lr': 4.999999873689376e-05, 'total_loss': 91.87274169921875}, 'load_time_ms': 0.666, 'num_steps_sampled': 1389600, 'grad_time_ms': 676.061, 'update_time_ms': 2.38, 'sample_time_ms': 30391.266}",2025-08-31_02-03-37,cda-server-4,29.46024489402771,6948,1756598617,10.157.146.4,False,35574.46993947029,1200
+1159,-616.9064439770586,1159,1390800,{},-777.0560566619906,1390800,0,35603.554698228836,-486.4488002806889,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1390800, 'default': {'kl': 0.01242806576192379, 'policy_loss': -0.15865108370780945, 'vf_loss': 218.81517028808594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9774565100669861, 'entropy': 6.814303398132324, 'cur_lr': 4.999999873689376e-05, 'total_loss': 218.67539978027344}, 'load_time_ms': 0.671, 'num_steps_sampled': 1390800, 'grad_time_ms': 655.325, 'update_time_ms': 2.346, 'sample_time_ms': 30207.901}",2025-08-31_02-04-06,cda-server-4,29.084758758544922,6954,1756598646,10.157.146.4,False,35603.554698228836,1200
+1160,-615.4736360943207,1160,1392000,{},-777.0560566619906,1392000,0,35632.305488824844,-486.4488002806889,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1392000, 'default': {'kl': 0.010317791253328323, 'policy_loss': -0.14058303833007812, 'vf_loss': 186.8959503173828, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9866130352020264, 'entropy': 6.9755859375, 'cur_lr': 4.999999873689376e-05, 'total_loss': 186.77105712890625}, 'load_time_ms': 0.697, 'num_steps_sampled': 1392000, 'grad_time_ms': 652.894, 'update_time_ms': 2.383, 'sample_time_ms': 29928.553}",2025-08-31_02-04-35,cda-server-4,28.7507905960083,6960,1756598675,10.157.146.4,False,35632.305488824844,1200
+1161,-615.9499133012002,1161,1393200,{},-777.0560566619906,1393200,0,35662.84237551689,-541.1883386845803,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1393200, 'default': {'kl': 0.011435880325734615, 'policy_loss': -0.1239674910902977, 'vf_loss': 273.2658386230469, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9698169231414795, 'entropy': 6.699565410614014, 'cur_lr': 4.999999873689376e-05, 'total_loss': 273.15924072265625}, 'load_time_ms': 0.699, 'num_steps_sampled': 1393200, 'grad_time_ms': 651.459, 'update_time_ms': 2.496, 'sample_time_ms': 30057.025}",2025-08-31_02-05-06,cda-server-4,30.53688669204712,6966,1756598706,10.157.146.4,False,35662.84237551689,1200
+1162,-618.1096000188078,1162,1394400,{},-793.6845475425754,1394400,0,35693.50382208824,-541.1883386845803,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1394400, 'default': {'kl': 0.010458282195031643, 'policy_loss': -0.13310378789901733, 'vf_loss': 476.8254089355469, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9526146650314331, 'entropy': 6.602046966552734, 'cur_lr': 4.999999873689376e-05, 'total_loss': 476.7082214355469}, 'load_time_ms': 0.686, 'num_steps_sampled': 1394400, 'grad_time_ms': 642.694, 'update_time_ms': 2.406, 'sample_time_ms': 30078.739}",2025-08-31_02-05-37,cda-server-4,30.661446571350098,6972,1756598737,10.157.146.4,False,35693.50382208824,1200
+1163,-617.9328643813263,1163,1395600,{},-793.6845475425754,1395600,0,35723.736228227615,-541.1883386845803,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1395600, 'default': {'kl': 0.009389117360115051, 'policy_loss': -0.12842005491256714, 'vf_loss': 72.67515563964844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9910851716995239, 'entropy': 6.4367852210998535, 'cur_lr': 4.999999873689376e-05, 'total_loss': 72.56098937988281}, 'load_time_ms': 0.65, 'num_steps_sampled': 1395600, 'grad_time_ms': 649.068, 'update_time_ms': 2.395, 'sample_time_ms': 30013.887}",2025-08-31_02-06-07,cda-server-4,30.23240613937378,6978,1756598767,10.157.146.4,False,35723.736228227615,1200
+1164,-617.8789592288208,1164,1396800,{},-793.6845475425754,1396800,0,35757.48871946335,-541.1883386845803,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1396800, 'default': {'kl': 0.008447827771306038, 'policy_loss': -0.10818999260663986, 'vf_loss': 194.22967529296875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9748724699020386, 'entropy': 6.491098880767822, 'cur_lr': 4.999999873689376e-05, 'total_loss': 194.13433837890625}, 'load_time_ms': 0.652, 'num_steps_sampled': 1396800, 'grad_time_ms': 649.445, 'update_time_ms': 2.32, 'sample_time_ms': 29967.395}",2025-08-31_02-06-41,cda-server-4,33.75249123573303,6984,1756598801,10.157.146.4,False,35757.48871946335,1200
+1165,-618.4068233245516,1165,1398000,{},-793.6845475425754,1398000,0,35785.709186792374,-541.1883386845803,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1398000, 'default': {'kl': 0.00783204659819603, 'policy_loss': -0.12147312611341476, 'vf_loss': 260.99591064453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9653943181037903, 'entropy': 6.963979721069336, 'cur_lr': 4.999999873689376e-05, 'total_loss': 260.8863220214844}, 'load_time_ms': 0.685, 'num_steps_sampled': 1398000, 'grad_time_ms': 669.242, 'update_time_ms': 2.229, 'sample_time_ms': 29646.197}",2025-08-31_02-07-09,cda-server-4,28.22046732902527,6990,1756598829,10.157.146.4,False,35785.709186792374,1200
+1166,-617.4096046304878,1166,1399200,{},-793.6845475425754,1399200,0,35815.488488674164,-541.1883386845803,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1399200, 'default': {'kl': 0.01328208576887846, 'policy_loss': -0.15493279695510864, 'vf_loss': 182.08197021484375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9872419834136963, 'entropy': 6.402498245239258, 'cur_lr': 4.999999873689376e-05, 'total_loss': 181.94720458984375}, 'load_time_ms': 0.656, 'num_steps_sampled': 1399200, 'grad_time_ms': 689.465, 'update_time_ms': 2.204, 'sample_time_ms': 29485.712}",2025-08-31_02-07-39,cda-server-4,29.77930188179016,6996,1756598859,10.157.146.4,False,35815.488488674164,1200
+1167,-614.8148825580854,1167,1400400,{},-793.6845475425754,1400400,0,35847.15464258194,-521.1167368108609,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1400400, 'default': {'kl': 0.01062859408557415, 'policy_loss': -0.1249360740184784, 'vf_loss': 170.46885681152344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9803333282470703, 'entropy': 6.5157623291015625, 'cur_lr': 4.999999873689376e-05, 'total_loss': 170.36004638671875}, 'load_time_ms': 0.654, 'num_steps_sampled': 1400400, 'grad_time_ms': 683.711, 'update_time_ms': 2.21, 'sample_time_ms': 29524.063}",2025-08-31_02-08-10,cda-server-4,31.66615390777588,7002,1756598890,10.157.146.4,False,35847.15464258194,1200
+1168,-614.4128350406334,1168,1401600,{},-793.6845475425754,1401600,0,35879.08573579788,-521.1167368108609,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1401600, 'default': {'kl': 0.011568726971745491, 'policy_loss': -0.12543562054634094, 'vf_loss': 240.08990478515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9766563773155212, 'entropy': 6.38339900970459, 'cur_lr': 4.999999873689376e-05, 'total_loss': 239.98204040527344}, 'load_time_ms': 0.661, 'num_steps_sampled': 1401600, 'grad_time_ms': 694.417, 'update_time_ms': 2.191, 'sample_time_ms': 29760.493}",2025-08-31_02-08-42,cda-server-4,31.931093215942383,7008,1756598922,10.157.146.4,False,35879.08573579788,1200
+1169,-615.4310813587422,1169,1402800,{},-793.6845475425754,1402800,0,35909.316663980484,-521.1167368108609,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1402800, 'default': {'kl': 0.011388571932911873, 'policy_loss': -0.15143850445747375, 'vf_loss': 205.49481201171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9819146394729614, 'entropy': 6.856208801269531, 'cur_lr': 4.999999873689376e-05, 'total_loss': 205.36065673828125}, 'load_time_ms': 0.663, 'num_steps_sampled': 1402800, 'grad_time_ms': 697.648, 'update_time_ms': 2.314, 'sample_time_ms': 29871.799}",2025-08-31_02-09-12,cda-server-4,30.23092818260193,7014,1756598952,10.157.146.4,False,35909.316663980484,1200
+1170,-616.5211983400087,1170,1404000,{},-793.6845475425754,1404000,0,35940.64692568779,-521.1167368108609,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1404000, 'default': {'kl': 0.010095306672155857, 'policy_loss': -0.14556492865085602, 'vf_loss': 56.59641647338867, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9958594441413879, 'entropy': 6.6449480056762695, 'cur_lr': 4.999999873689376e-05, 'total_loss': 56.4661865234375}, 'load_time_ms': 0.641, 'num_steps_sampled': 1404000, 'grad_time_ms': 692.408, 'update_time_ms': 2.249, 'sample_time_ms': 30135.086}",2025-08-31_02-09-44,cda-server-4,31.330261707305908,7020,1756598984,10.157.146.4,False,35940.64692568779,1200
+1171,-614.7327527519521,1171,1405200,{},-793.6845475425754,1405200,0,35971.99820923805,-521.1167368108609,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1405200, 'default': {'kl': 0.01282771397382021, 'policy_loss': -0.14161837100982666, 'vf_loss': 220.04185485839844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9834263324737549, 'entropy': 6.5499491691589355, 'cur_lr': 4.999999873689376e-05, 'total_loss': 219.9197235107422}, 'load_time_ms': 0.643, 'num_steps_sampled': 1405200, 'grad_time_ms': 680.483, 'update_time_ms': 2.171, 'sample_time_ms': 30228.45}",2025-08-31_02-10-15,cda-server-4,31.35128355026245,7026,1756599015,10.157.146.4,False,35971.99820923805,1200
+1172,-614.0134828031495,1172,1406400,{},-793.6845475425754,1406400,0,36001.06973528862,-521.1167368108609,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1406400, 'default': {'kl': 0.010659039951860905, 'policy_loss': -0.13654309511184692, 'vf_loss': 56.73310470581055, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9934065937995911, 'entropy': 6.426513671875, 'cur_lr': 4.999999873689376e-05, 'total_loss': 56.61274719238281}, 'load_time_ms': 0.642, 'num_steps_sampled': 1406400, 'grad_time_ms': 672.165, 'update_time_ms': 2.261, 'sample_time_ms': 30077.568}",2025-08-31_02-10-44,cda-server-4,29.071526050567627,7032,1756599044,10.157.146.4,False,36001.06973528862,1200
+1173,-613.5386640355811,1173,1407600,{},-793.6845475425754,1407600,0,36029.165610075,-521.1167368108609,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1407600, 'default': {'kl': 0.009500202722847462, 'policy_loss': -0.13051892817020416, 'vf_loss': 904.3231201171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9116788506507874, 'entropy': 6.780632972717285, 'cur_lr': 4.999999873689376e-05, 'total_loss': 904.20703125}, 'load_time_ms': 0.667, 'num_steps_sampled': 1407600, 'grad_time_ms': 666.302, 'update_time_ms': 2.306, 'sample_time_ms': 29869.64}",2025-08-31_02-11-12,cda-server-4,28.095874786376953,7038,1756599072,10.157.146.4,False,36029.165610075,1200
+1174,-613.5557654703699,1174,1408800,{},-793.6845475425754,1408800,0,36058.67369270325,-521.1167368108609,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1408800, 'default': {'kl': 0.008903170935809612, 'policy_loss': -0.14042623341083527, 'vf_loss': 171.58409118652344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9869896769523621, 'entropy': 6.553966045379639, 'cur_lr': 4.999999873689376e-05, 'total_loss': 171.4571990966797}, 'load_time_ms': 0.668, 'num_steps_sampled': 1408800, 'grad_time_ms': 670.152, 'update_time_ms': 2.323, 'sample_time_ms': 29441.285}",2025-08-31_02-11-42,cda-server-4,29.508082628250122,7044,1756599102,10.157.146.4,False,36058.67369270325,1200
+1175,-614.4154620425383,1175,1410000,{},-793.6845475425754,1410000,0,36092.05082011223,-521.1167368108609,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1410000, 'default': {'kl': 0.010018477216362953, 'policy_loss': -0.14145317673683167, 'vf_loss': 327.98858642578125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9841184616088867, 'entropy': 6.645496368408203, 'cur_lr': 4.999999873689376e-05, 'total_loss': 327.86236572265625}, 'load_time_ms': 0.644, 'num_steps_sampled': 1410000, 'grad_time_ms': 662.185, 'update_time_ms': 2.345, 'sample_time_ms': 29964.865}",2025-08-31_02-12-15,cda-server-4,33.37712740898132,7050,1756599135,10.157.146.4,False,36092.05082011223,1200
+1176,-613.5011022711171,1176,1411200,{},-793.6845475425754,1411200,0,36124.62738132477,-521.1167368108609,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1411200, 'default': {'kl': 0.008809677325189114, 'policy_loss': -0.13205955922603607, 'vf_loss': 327.7359619140625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9565261006355286, 'entropy': 6.73250150680542, 'cur_lr': 4.999999873689376e-05, 'total_loss': 327.6173095703125}, 'load_time_ms': 0.674, 'num_steps_sampled': 1411200, 'grad_time_ms': 663.7, 'update_time_ms': 2.313, 'sample_time_ms': 30243.014}",2025-08-31_02-12-48,cda-server-4,32.57656121253967,7056,1756599168,10.157.146.4,False,36124.62738132477,1200
+1177,-614.9855842328234,1177,1412400,{},-793.6845475425754,1412400,0,36155.200910806656,-521.1167368108609,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1412400, 'default': {'kl': 0.011650375090539455, 'policy_loss': -0.13666322827339172, 'vf_loss': 738.5380249023438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9287458062171936, 'entropy': 6.6306257247924805, 'cur_lr': 4.999999873689376e-05, 'total_loss': 738.4190673828125}, 'load_time_ms': 0.675, 'num_steps_sampled': 1412400, 'grad_time_ms': 675.985, 'update_time_ms': 2.308, 'sample_time_ms': 30121.462}",2025-08-31_02-13-18,cda-server-4,30.573529481887817,7062,1756599198,10.157.146.4,False,36155.200910806656,1200
+1178,-614.8729585823899,1178,1413600,{},-793.6845475425754,1413600,0,36186.4825425148,-521.1167368108609,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1413600, 'default': {'kl': 0.008795622736215591, 'policy_loss': -0.11985700577497482, 'vf_loss': 385.260986328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9750227332115173, 'entropy': 6.586745262145996, 'cur_lr': 4.999999873689376e-05, 'total_loss': 385.1544494628906}, 'load_time_ms': 0.669, 'num_steps_sampled': 1413600, 'grad_time_ms': 651.3, 'update_time_ms': 2.381, 'sample_time_ms': 30081.157}",2025-08-31_02-13-50,cda-server-4,31.28163170814514,7068,1756599230,10.157.146.4,False,36186.4825425148,1200
+1179,-613.5683636390563,1179,1414800,{},-792.9367333486649,1414800,0,36214.26136827469,-521.1167368108609,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1414800, 'default': {'kl': 0.011411896906793118, 'policy_loss': -0.1430392563343048, 'vf_loss': 92.3613510131836, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9919455647468567, 'entropy': 6.5239715576171875, 'cur_lr': 4.999999873689376e-05, 'total_loss': 92.23563385009766}, 'load_time_ms': 0.666, 'num_steps_sampled': 1414800, 'grad_time_ms': 656.371, 'update_time_ms': 2.255, 'sample_time_ms': 29830.958}",2025-08-31_02-14-18,cda-server-4,27.778825759887695,7074,1756599258,10.157.146.4,False,36214.26136827469,1200
+1180,-613.6641676719348,1180,1416000,{},-792.9367333486649,1416000,0,36246.674461364746,-521.1167368108609,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1416000, 'default': {'kl': 0.011717000976204872, 'policy_loss': -0.15069976449012756, 'vf_loss': 530.761474609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9462975263595581, 'entropy': 6.866905689239502, 'cur_lr': 4.999999873689376e-05, 'total_loss': 530.6285400390625}, 'load_time_ms': 0.657, 'num_steps_sampled': 1416000, 'grad_time_ms': 645.005, 'update_time_ms': 2.286, 'sample_time_ms': 29950.558}",2025-08-31_02-14-50,cda-server-4,32.41309309005737,7080,1756599290,10.157.146.4,False,36246.674461364746,1200
+1181,-613.8972335968047,1181,1417200,{},-792.9367333486649,1417200,0,36279.790442466736,-521.1167368108609,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1417200, 'default': {'kl': 0.01022540032863617, 'policy_loss': -0.12136627733707428, 'vf_loss': 439.6024475097656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.983422577381134, 'entropy': 6.650886535644531, 'cur_lr': 4.999999873689376e-05, 'total_loss': 439.49664306640625}, 'load_time_ms': 0.65, 'num_steps_sampled': 1417200, 'grad_time_ms': 645.287, 'update_time_ms': 2.253, 'sample_time_ms': 30126.781}",2025-08-31_02-15-23,cda-server-4,33.115981101989746,7086,1756599323,10.157.146.4,False,36279.790442466736,1200
+1182,-615.2231766178052,1182,1418400,{},-792.9367333486649,1418400,0,36311.97126054764,-521.1167368108609,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1418400, 'default': {'kl': 0.009430285543203354, 'policy_loss': -0.12887828052043915, 'vf_loss': 418.6953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9516048431396484, 'entropy': 6.66180419921875, 'cur_lr': 4.999999873689376e-05, 'total_loss': 418.5807189941406}, 'load_time_ms': 0.651, 'num_steps_sampled': 1418400, 'grad_time_ms': 642.609, 'update_time_ms': 2.253, 'sample_time_ms': 30440.383}",2025-08-31_02-15-55,cda-server-4,32.1808180809021,7092,1756599355,10.157.146.4,False,36311.97126054764,1200
+1183,-616.5228811213636,1183,1419600,{},-792.9367333486649,1419600,0,36341.500541210175,-521.7345451272948,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1419600, 'default': {'kl': 0.00981885101646185, 'policy_loss': -0.13172030448913574, 'vf_loss': 108.96133422851562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9863510131835938, 'entropy': 6.525604248046875, 'cur_lr': 4.999999873689376e-05, 'total_loss': 108.84452056884766}, 'load_time_ms': 0.633, 'num_steps_sampled': 1419600, 'grad_time_ms': 642.569, 'update_time_ms': 2.208, 'sample_time_ms': 30583.782}",2025-08-31_02-16-25,cda-server-4,29.52928066253662,7098,1756599385,10.157.146.4,False,36341.500541210175,1200
+1184,-616.4843061964006,1184,1420800,{},-792.9367333486649,1420800,0,36374.658348321915,-521.7345451272948,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1420800, 'default': {'kl': 0.010181041434407234, 'policy_loss': -0.13768689334392548, 'vf_loss': 286.10723876953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9739024639129639, 'entropy': 6.60783576965332, 'cur_lr': 4.999999873689376e-05, 'total_loss': 285.9849853515625}, 'load_time_ms': 0.648, 'num_steps_sampled': 1420800, 'grad_time_ms': 642.517, 'update_time_ms': 2.267, 'sample_time_ms': 30948.709}",2025-08-31_02-16-58,cda-server-4,33.15780711174011,7104,1756599418,10.157.146.4,False,36374.658348321915,1200
+1185,-615.5036205236264,1185,1422000,{},-792.9367333486649,1422000,0,36407.64622306824,-521.7345451272948,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1422000, 'default': {'kl': 0.010044555179774761, 'policy_loss': -0.14486341178417206, 'vf_loss': 302.845703125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9650850296020508, 'entropy': 6.584146976470947, 'cur_lr': 4.999999873689376e-05, 'total_loss': 302.7160949707031}, 'load_time_ms': 0.663, 'num_steps_sampled': 1422000, 'grad_time_ms': 656.911, 'update_time_ms': 2.309, 'sample_time_ms': 30895.372}",2025-08-31_02-17-31,cda-server-4,32.98787474632263,7110,1756599451,10.157.146.4,False,36407.64622306824,1200
+1186,-614.9899188708379,1186,1423200,{},-792.9367333486649,1423200,0,36435.570991277695,-521.7345451272948,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1423200, 'default': {'kl': 0.012405764311552048, 'policy_loss': -0.1554926484823227, 'vf_loss': 235.51663208007812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9701128005981445, 'entropy': 6.695984840393066, 'cur_lr': 4.999999873689376e-05, 'total_loss': 235.37998962402344}, 'load_time_ms': 0.639, 'num_steps_sampled': 1423200, 'grad_time_ms': 645.988, 'update_time_ms': 2.402, 'sample_time_ms': 30441.051}",2025-08-31_02-17-59,cda-server-4,27.924768209457397,7116,1756599479,10.157.146.4,False,36435.570991277695,1200
+1187,-613.1416676814572,1187,1424400,{},-792.9367333486649,1424400,0,36466.89553618431,-521.7345451272948,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1424400, 'default': {'kl': 0.01175668090581894, 'policy_loss': -0.14071905612945557, 'vf_loss': 285.4818115234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9792851209640503, 'entropy': 6.453644752502441, 'cur_lr': 4.999999873689376e-05, 'total_loss': 285.35894775390625}, 'load_time_ms': 0.647, 'num_steps_sampled': 1424400, 'grad_time_ms': 627.0, 'update_time_ms': 2.476, 'sample_time_ms': 30535.112}",2025-08-31_02-18-30,cda-server-4,31.32454490661621,7122,1756599510,10.157.146.4,False,36466.89553618431,1200
+1188,-616.2829296493644,1188,1425600,{},-792.9367333486649,1425600,0,36498.19806432724,-541.5082033595423,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1425600, 'default': {'kl': 0.006318050902336836, 'policy_loss': -0.08020952343940735, 'vf_loss': 805.906494140625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.87375807762146, 'entropy': 6.408655166625977, 'cur_lr': 4.999999873689376e-05, 'total_loss': 805.8358154296875}, 'load_time_ms': 0.649, 'num_steps_sampled': 1425600, 'grad_time_ms': 634.587, 'update_time_ms': 2.381, 'sample_time_ms': 30529.644}",2025-08-31_02-19-02,cda-server-4,31.302528142929077,7128,1756599542,10.157.146.4,False,36498.19806432724,1200
+1189,-615.5749985978468,1189,1426800,{},-792.9367333486649,1426800,0,36528.04072141647,-541.5082033595423,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1426800, 'default': {'kl': 0.0108720101416111, 'policy_loss': -0.1414026916027069, 'vf_loss': 54.97222137451172, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.992853045463562, 'entropy': 6.354549884796143, 'cur_lr': 4.999999873689376e-05, 'total_loss': 54.84733581542969}, 'load_time_ms': 0.64, 'num_steps_sampled': 1426800, 'grad_time_ms': 639.768, 'update_time_ms': 2.419, 'sample_time_ms': 30730.786}",2025-08-31_02-19-31,cda-server-4,29.8426570892334,7134,1756599571,10.157.146.4,False,36528.04072141647,1200
+1190,-617.1728991289942,1190,1428000,{},-792.9367333486649,1428000,0,36559.18474316597,-541.5082033595423,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1428000, 'default': {'kl': 0.011140676215291023, 'policy_loss': -0.13634340465068817, 'vf_loss': 448.0782470703125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9584320783615112, 'entropy': 6.710151672363281, 'cur_lr': 4.999999873689376e-05, 'total_loss': 447.95880126953125}, 'load_time_ms': 0.647, 'num_steps_sampled': 1428000, 'grad_time_ms': 643.713, 'update_time_ms': 2.414, 'sample_time_ms': 30599.988}",2025-08-31_02-20-03,cda-server-4,31.14402174949646,7140,1756599603,10.157.146.4,False,36559.18474316597,1200
+1191,-616.2227105073036,1191,1429200,{},-792.9367333486649,1429200,0,36592.19420838356,-541.5082033595423,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1429200, 'default': {'kl': 0.009269597008824348, 'policy_loss': -0.12208599597215652, 'vf_loss': 348.1049499511719, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.962753176689148, 'entropy': 6.285189151763916, 'cur_lr': 4.999999873689376e-05, 'total_loss': 347.9969482421875}, 'load_time_ms': 0.657, 'num_steps_sampled': 1429200, 'grad_time_ms': 638.267, 'update_time_ms': 2.446, 'sample_time_ms': 30594.832}",2025-08-31_02-20-36,cda-server-4,33.00946521759033,7146,1756599636,10.157.146.4,False,36592.19420838356,1200
+1192,-615.8325028104138,1192,1430400,{},-792.9367333486649,1430400,0,36626.0984249115,-541.5082033595423,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1430400, 'default': {'kl': 0.00899517722427845, 'policy_loss': -0.11946593225002289, 'vf_loss': 133.78187561035156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9805047512054443, 'entropy': 6.24737024307251, 'cur_lr': 4.999999873689376e-05, 'total_loss': 133.67605590820312}, 'load_time_ms': 0.645, 'num_steps_sampled': 1430400, 'grad_time_ms': 622.704, 'update_time_ms': 2.406, 'sample_time_ms': 30782.946}",2025-08-31_02-21-10,cda-server-4,33.90421652793884,7152,1756599670,10.157.146.4,False,36626.0984249115,1200
+1193,-617.0067411582598,1193,1431600,{},-792.9367333486649,1431600,0,36654.058544397354,-541.5082033595423,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1431600, 'default': {'kl': 0.009864619001746178, 'policy_loss': -0.14245669543743134, 'vf_loss': 178.5244598388672, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9807984232902527, 'entropy': 6.712246894836426, 'cur_lr': 4.999999873689376e-05, 'total_loss': 178.39697265625}, 'load_time_ms': 0.636, 'num_steps_sampled': 1431600, 'grad_time_ms': 599.794, 'update_time_ms': 2.481, 'sample_time_ms': 30648.936}",2025-08-31_02-21-38,cda-server-4,27.960119485855103,7158,1756599698,10.157.146.4,False,36654.058544397354,1200
+1194,-616.8141919069865,1194,1432800,{},-776.0113901266323,1432800,0,36683.75633645058,-541.5082033595423,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1432800, 'default': {'kl': 0.012237678281962872, 'policy_loss': -0.16627109050750732, 'vf_loss': 23.60331153869629, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9963760375976562, 'entropy': 6.753268241882324, 'cur_lr': 4.999999873689376e-05, 'total_loss': 23.455629348754883}, 'load_time_ms': 0.616, 'num_steps_sampled': 1432800, 'grad_time_ms': 574.574, 'update_time_ms': 2.493, 'sample_time_ms': 30328.195}",2025-08-31_02-22-07,cda-server-4,29.697792053222656,7164,1756599727,10.157.146.4,False,36683.75633645058,1200
+1195,-617.4377963961584,1195,1434000,{},-776.0113901266323,1434000,0,36713.40245628357,-541.5082033595423,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1434000, 'default': {'kl': 0.012273896485567093, 'policy_loss': -0.16016161441802979, 'vf_loss': 173.4939727783203, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9853206276893616, 'entropy': 6.464570999145508, 'cur_lr': 4.999999873689376e-05, 'total_loss': 173.35244750976562}, 'load_time_ms': 0.592, 'num_steps_sampled': 1434000, 'grad_time_ms': 554.442, 'update_time_ms': 2.484, 'sample_time_ms': 30014.187}",2025-08-31_02-22-37,cda-server-4,29.646119832992554,7170,1756599757,10.157.146.4,False,36713.40245628357,1200
+1196,-617.5625465445789,1196,1435200,{},-776.0113901266323,1435200,0,36743.89902019501,-541.5082033595423,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1435200, 'default': {'kl': 0.00955595076084137, 'policy_loss': -0.14167912304401398, 'vf_loss': 229.80953979492188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.987359344959259, 'entropy': 6.943862438201904, 'cur_lr': 4.999999873689376e-05, 'total_loss': 229.68240356445312}, 'load_time_ms': 0.584, 'num_steps_sampled': 1435200, 'grad_time_ms': 544.283, 'update_time_ms': 2.397, 'sample_time_ms': 30281.711}",2025-08-31_02-23-07,cda-server-4,30.49656391143799,7176,1756599787,10.157.146.4,False,36743.89902019501,1200
+1197,-617.8722614905937,1197,1436400,{},-776.0113901266323,1436400,0,36773.89680838585,-541.5082033595423,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1436400, 'default': {'kl': 0.011177442967891693, 'policy_loss': -0.14309333264827728, 'vf_loss': 300.4331970214844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9614851474761963, 'entropy': 6.427460670471191, 'cur_lr': 4.999999873689376e-05, 'total_loss': 300.30706787109375}, 'load_time_ms': 0.584, 'num_steps_sampled': 1436400, 'grad_time_ms': 537.459, 'update_time_ms': 2.319, 'sample_time_ms': 30155.887}",2025-08-31_02-23-37,cda-server-4,29.997788190841675,7182,1756599817,10.157.146.4,False,36773.89680838585,1200
+1198,-617.7865798480361,1198,1437600,{},-776.0113901266323,1437600,0,36801.27557849884,-541.5082033595423,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1437600, 'default': {'kl': 0.010966416448354721, 'policy_loss': -0.14927639067173004, 'vf_loss': 170.1128387451172, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9850479960441589, 'entropy': 6.663620471954346, 'cur_lr': 4.999999873689376e-05, 'total_loss': 169.980224609375}, 'load_time_ms': 0.583, 'num_steps_sampled': 1437600, 'grad_time_ms': 533.776, 'update_time_ms': 2.334, 'sample_time_ms': 29767.217}",2025-08-31_02-24-05,cda-server-4,27.378770112991333,7188,1756599845,10.157.146.4,False,36801.27557849884,1200
+1199,-616.8767510068323,1199,1438800,{},-776.0113901266323,1438800,0,36833.57875919342,-541.5082033595423,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1438800, 'default': {'kl': 0.008541043847799301, 'policy_loss': -0.12421023845672607, 'vf_loss': 41.17657470703125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9938521981239319, 'entropy': 6.476313591003418, 'cur_lr': 4.999999873689376e-05, 'total_loss': 41.06534194946289}, 'load_time_ms': 0.586, 'num_steps_sampled': 1438800, 'grad_time_ms': 538.463, 'update_time_ms': 2.416, 'sample_time_ms': 30008.569}",2025-08-31_02-24-37,cda-server-4,32.30318069458008,7194,1756599877,10.157.146.4,False,36833.57875919342,1200
+1200,-617.6573766643612,1200,1440000,{},-776.0113901266323,1440000,0,36864.89383292198,-541.5082033595423,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1440000, 'default': {'kl': 0.008403794839978218, 'policy_loss': -0.10795995593070984, 'vf_loss': 330.0843505859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9837974905967712, 'entropy': 6.443402290344238, 'cur_lr': 4.999999873689376e-05, 'total_loss': 329.9891052246094}, 'load_time_ms': 0.58, 'num_steps_sampled': 1440000, 'grad_time_ms': 544.23, 'update_time_ms': 2.388, 'sample_time_ms': 30019.816}",2025-08-31_02-25-08,cda-server-4,31.3150737285614,7200,1756599908,10.157.146.4,False,36864.89383292198,1200
+1201,-617.6456202767475,1201,1441200,{},-776.0113901266323,1441200,0,36898.213411569595,-541.5082033595423,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1441200, 'default': {'kl': 0.009281682781875134, 'policy_loss': -0.1253984570503235, 'vf_loss': 63.84977340698242, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9919064044952393, 'entropy': 6.705208778381348, 'cur_lr': 4.999999873689376e-05, 'total_loss': 63.73847198486328}, 'load_time_ms': 0.582, 'num_steps_sampled': 1441200, 'grad_time_ms': 544.524, 'update_time_ms': 2.36, 'sample_time_ms': 30050.53}",2025-08-31_02-25-42,cda-server-4,33.319578647613525,7206,1756599942,10.157.146.4,False,36898.213411569595,1200
+1202,-619.7914340743567,1202,1442400,{},-776.0113901266323,1442400,0,36929.88974428177,-561.0595839542957,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1442400, 'default': {'kl': 0.011611294001340866, 'policy_loss': -0.14338020980358124, 'vf_loss': 171.9384765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9899032115936279, 'entropy': 6.479742527008057, 'cur_lr': 4.999999873689376e-05, 'total_loss': 171.812744140625}, 'load_time_ms': 0.593, 'num_steps_sampled': 1442400, 'grad_time_ms': 559.388, 'update_time_ms': 2.431, 'sample_time_ms': 29812.739}",2025-08-31_02-26-14,cda-server-4,31.676332712173462,7212,1756599974,10.157.146.4,False,36929.88974428177,1200
+1203,-619.1692408337123,1203,1443600,{},-776.0113901266323,1443600,0,36957.127584934235,-561.0595839542957,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1443600, 'default': {'kl': 0.010306427255272865, 'policy_loss': -0.13394173979759216, 'vf_loss': 287.0680847167969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9792995452880859, 'entropy': 6.446382522583008, 'cur_lr': 4.999999873689376e-05, 'total_loss': 286.94976806640625}, 'load_time_ms': 0.599, 'num_steps_sampled': 1443600, 'grad_time_ms': 584.701, 'update_time_ms': 2.395, 'sample_time_ms': 29715.247}",2025-08-31_02-26-41,cda-server-4,27.23784065246582,7218,1756600001,10.157.146.4,False,36957.127584934235,1200
+1204,-617.5679460122309,1204,1444800,{},-776.0113901266323,1444800,0,36988.14322352409,-528.4325337316299,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1444800, 'default': {'kl': 0.012472325935959816, 'policy_loss': -0.1595003306865692, 'vf_loss': 89.69036102294922, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9926967620849609, 'entropy': 6.484635829925537, 'cur_lr': 4.999999873689376e-05, 'total_loss': 89.5498046875}, 'load_time_ms': 0.603, 'num_steps_sampled': 1444800, 'grad_time_ms': 611.026, 'update_time_ms': 2.318, 'sample_time_ms': 29820.823}",2025-08-31_02-27-12,cda-server-4,31.01563858985901,7224,1756600032,10.157.146.4,False,36988.14322352409,1200
+1205,-621.3158414087251,1205,1446000,{},-776.0113901266323,1446000,0,37018.09630584717,-528.4325337316299,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1446000, 'default': {'kl': 0.009701870381832123, 'policy_loss': -0.11767984926700592, 'vf_loss': 1181.326416015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8699465394020081, 'entropy': 6.481197834014893, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1181.2235107421875}, 'load_time_ms': 0.608, 'num_steps_sampled': 1446000, 'grad_time_ms': 613.908, 'update_time_ms': 2.299, 'sample_time_ms': 29848.659}",2025-08-31_02-27-42,cda-server-4,29.95308232307434,7230,1756600062,10.157.146.4,False,37018.09630584717,1200
+1206,-621.8447555245024,1206,1447200,{},-776.0113901266323,1447200,0,37049.44646000862,-528.4325337316299,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1447200, 'default': {'kl': 0.009511524811387062, 'policy_loss': -0.12749198079109192, 'vf_loss': 180.201171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9843928217887878, 'entropy': 6.427037715911865, 'cur_lr': 4.999999873689376e-05, 'total_loss': 180.08811950683594}, 'load_time_ms': 0.607, 'num_steps_sampled': 1447200, 'grad_time_ms': 615.26, 'update_time_ms': 2.283, 'sample_time_ms': 29932.677}",2025-08-31_02-28-13,cda-server-4,31.350154161453247,7236,1756600093,10.157.146.4,False,37049.44646000862,1200
+1207,-619.8739727101665,1207,1448400,{},-769.3642234155334,1448400,0,37078.47000145912,-528.4325337316299,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1448400, 'default': {'kl': 0.011896589770913124, 'policy_loss': -0.15592961013317108, 'vf_loss': 223.65090942382812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9815000891685486, 'entropy': 6.53996467590332, 'cur_lr': 4.999999873689376e-05, 'total_loss': 223.51304626464844}, 'load_time_ms': 0.596, 'num_steps_sampled': 1448400, 'grad_time_ms': 625.859, 'update_time_ms': 2.301, 'sample_time_ms': 29824.599}",2025-08-31_02-28-42,cda-server-4,29.02354145050049,7242,1756600122,10.157.146.4,False,37078.47000145912,1200
+1208,-620.4207887420936,1208,1449600,{},-769.3642234155334,1449600,0,37111.406453847885,-528.4325337316299,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1449600, 'default': {'kl': 0.008634738624095917, 'policy_loss': -0.13595709204673767, 'vf_loss': 84.42808532714844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9893358945846558, 'entropy': 6.756058692932129, 'cur_lr': 4.999999873689376e-05, 'total_loss': 84.30524444580078}, 'load_time_ms': 0.622, 'num_steps_sampled': 1449600, 'grad_time_ms': 627.979, 'update_time_ms': 2.324, 'sample_time_ms': 30378.097}",2025-08-31_02-29-15,cda-server-4,32.93645238876343,7248,1756600155,10.157.146.4,False,37111.406453847885,1200
+1209,-620.4675095155333,1209,1450800,{},-769.3642234155334,1450800,0,37144.090399980545,-528.4325337316299,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1450800, 'default': {'kl': 0.00952206552028656, 'policy_loss': -0.13650602102279663, 'vf_loss': 624.3147583007812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9162572026252747, 'entropy': 6.852806091308594, 'cur_lr': 4.999999873689376e-05, 'total_loss': 624.1927490234375}, 'load_time_ms': 0.627, 'num_steps_sampled': 1450800, 'grad_time_ms': 616.771, 'update_time_ms': 2.232, 'sample_time_ms': 30427.397}",2025-08-31_02-29-48,cda-server-4,32.68394613265991,7254,1756600188,10.157.146.4,False,37144.090399980545,1200
+1210,-619.2440724192993,1210,1452000,{},-769.3642234155334,1452000,0,37177.65387058258,-493.87963533840605,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1452000, 'default': {'kl': 0.010960027575492859, 'policy_loss': -0.15620973706245422, 'vf_loss': 141.8977813720703, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9791309833526611, 'entropy': 6.582380294799805, 'cur_lr': 4.999999873689376e-05, 'total_loss': 141.7582244873047}, 'load_time_ms': 0.64, 'num_steps_sampled': 1452000, 'grad_time_ms': 623.536, 'update_time_ms': 2.261, 'sample_time_ms': 30645.56}",2025-08-31_02-30-21,cda-server-4,33.56347060203552,7260,1756600221,10.157.146.4,False,37177.65387058258,1200
+1211,-616.743189018229,1211,1453200,{},-769.3642234155334,1453200,0,37208.00488638878,-493.87963533840605,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1453200, 'default': {'kl': 0.00811733677983284, 'policy_loss': -0.12345424294471741, 'vf_loss': 133.80662536621094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9864928126335144, 'entropy': 6.4160332679748535, 'cur_lr': 4.999999873689376e-05, 'total_loss': 133.69549560546875}, 'load_time_ms': 0.634, 'num_steps_sampled': 1453200, 'grad_time_ms': 642.827, 'update_time_ms': 2.252, 'sample_time_ms': 30329.457}",2025-08-31_02-30-52,cda-server-4,30.35101580619812,7266,1756600252,10.157.146.4,False,37208.00488638878,1200
+1212,-616.2363591788439,1212,1454400,{},-769.3642234155334,1454400,0,37241.00915360451,-493.87963533840605,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1454400, 'default': {'kl': 0.010529089719057083, 'policy_loss': -0.14829497039318085, 'vf_loss': 87.87680053710938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.988300621509552, 'entropy': 6.516524791717529, 'cur_lr': 4.999999873689376e-05, 'total_loss': 87.7444839477539}, 'load_time_ms': 0.629, 'num_steps_sampled': 1454400, 'grad_time_ms': 655.91, 'update_time_ms': 2.161, 'sample_time_ms': 30449.32}",2025-08-31_02-31-25,cda-server-4,33.00426721572876,7272,1756600285,10.157.146.4,False,37241.00915360451,1200
+1213,-615.9569191248713,1213,1455600,{},-769.3642234155334,1455600,0,37272.3041844368,-493.87963533840605,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1455600, 'default': {'kl': 0.009079336188733578, 'policy_loss': -0.12915247678756714, 'vf_loss': 315.5221862792969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9588267207145691, 'entropy': 6.685068130493164, 'cur_lr': 4.999999873689376e-05, 'total_loss': 315.4068603515625}, 'load_time_ms': 0.635, 'num_steps_sampled': 1455600, 'grad_time_ms': 653.746, 'update_time_ms': 2.156, 'sample_time_ms': 30857.18}",2025-08-31_02-31-56,cda-server-4,31.29503083229065,7278,1756600316,10.157.146.4,False,37272.3041844368,1200
+1214,-617.2729876583973,1214,1456800,{},-775.3014075720512,1456800,0,37306.150409936905,-493.87963533840605,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1456800, 'default': {'kl': 0.009762264788150787, 'policy_loss': -0.13387848436832428, 'vf_loss': 386.9510498046875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9658315181732178, 'entropy': 6.467435836791992, 'cur_lr': 4.999999873689376e-05, 'total_loss': 386.83197021484375}, 'load_time_ms': 0.645, 'num_steps_sampled': 1456800, 'grad_time_ms': 652.881, 'update_time_ms': 2.154, 'sample_time_ms': 31141.043}",2025-08-31_02-32-30,cda-server-4,33.84622550010681,7284,1756600350,10.157.146.4,False,37306.150409936905,1200
+1215,-616.706006166841,1215,1458000,{},-775.3014075720512,1458000,0,37337.20829749107,-493.87963533840605,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1458000, 'default': {'kl': 0.011352954432368279, 'policy_loss': -0.13609719276428223, 'vf_loss': 147.98455810546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9885962605476379, 'entropy': 6.395811080932617, 'cur_lr': 4.999999873689376e-05, 'total_loss': 147.86572265625}, 'load_time_ms': 0.643, 'num_steps_sampled': 1458000, 'grad_time_ms': 666.737, 'update_time_ms': 2.124, 'sample_time_ms': 31237.708}",2025-08-31_02-33-01,cda-server-4,31.0578875541687,7290,1756600381,10.157.146.4,False,37337.20829749107,1200
+1216,-615.8501081781886,1216,1459200,{},-775.3014075720512,1459200,0,37370.35575437546,-493.87963533840605,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1459200, 'default': {'kl': 0.01064164936542511, 'policy_loss': -0.14355389773845673, 'vf_loss': 204.24484252929688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9744741916656494, 'entropy': 6.714414596557617, 'cur_lr': 4.999999873689376e-05, 'total_loss': 204.117431640625}, 'load_time_ms': 0.647, 'num_steps_sampled': 1459200, 'grad_time_ms': 691.261, 'update_time_ms': 2.152, 'sample_time_ms': 31392.827}",2025-08-31_02-33-34,cda-server-4,33.147456884384155,7296,1756600414,10.157.146.4,False,37370.35575437546,1200
+1217,-617.228082872267,1217,1460400,{},-775.3014075720512,1460400,0,37398.65814447403,-493.87963533840605,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1460400, 'default': {'kl': 0.012144341133534908, 'policy_loss': -0.15374749898910522, 'vf_loss': 443.8825378417969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9533390402793884, 'entropy': 6.483492851257324, 'cur_lr': 4.999999873689376e-05, 'total_loss': 443.7472229003906}, 'load_time_ms': 0.651, 'num_steps_sampled': 1460400, 'grad_time_ms': 706.783, 'update_time_ms': 2.148, 'sample_time_ms': 31305.263}",2025-08-31_02-34-03,cda-server-4,28.302390098571777,7302,1756600443,10.157.146.4,False,37398.65814447403,1200
+1218,-617.1363995011841,1218,1461600,{},-775.3014075720512,1461600,0,37427.2457318306,-493.87963533840605,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1461600, 'default': {'kl': 0.010406293906271458, 'policy_loss': -0.1372414231300354, 'vf_loss': 179.6166534423828, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9901988506317139, 'entropy': 6.452325344085693, 'cur_lr': 4.999999873689376e-05, 'total_loss': 179.49522399902344}, 'load_time_ms': 0.618, 'num_steps_sampled': 1461600, 'grad_time_ms': 714.741, 'update_time_ms': 2.148, 'sample_time_ms': 30862.568}",2025-08-31_02-34-31,cda-server-4,28.587587356567383,7308,1756600471,10.157.146.4,False,37427.2457318306,1200
+1219,-617.5405770586517,1219,1462800,{},-778.6656835035349,1462800,0,37457.1017100811,-493.87963533840605,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1462800, 'default': {'kl': 0.010485578328371048, 'policy_loss': -0.1429242640733719, 'vf_loss': 785.6289672851562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9282824993133545, 'entropy': 6.67016077041626, 'cur_lr': 4.999999873689376e-05, 'total_loss': 785.501953125}, 'load_time_ms': 0.621, 'num_steps_sampled': 1462800, 'grad_time_ms': 733.72, 'update_time_ms': 2.108, 'sample_time_ms': 30560.804}",2025-08-31_02-35-01,cda-server-4,29.85597825050354,7314,1756600501,10.157.146.4,False,37457.1017100811,1200
+1220,-618.1005054479959,1220,1464000,{},-778.6656835035349,1464000,0,37485.651559114456,-493.87963533840605,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1464000, 'default': {'kl': 0.01181185431778431, 'policy_loss': -0.13802474737167358, 'vf_loss': 223.80484008789062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9812340140342712, 'entropy': 6.280903339385986, 'cur_lr': 4.999999873689376e-05, 'total_loss': 223.68475341796875}, 'load_time_ms': 0.641, 'num_steps_sampled': 1464000, 'grad_time_ms': 739.248, 'update_time_ms': 2.121, 'sample_time_ms': 30053.805}",2025-08-31_02-35-30,cda-server-4,28.549849033355713,7320,1756600530,10.157.146.4,False,37485.651559114456,1200
+1221,-618.0975211891864,1221,1465200,{},-778.6656835035349,1465200,0,37515.537400722504,-493.87963533840605,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1465200, 'default': {'kl': 0.012938727624714375, 'policy_loss': -0.1380312144756317, 'vf_loss': 277.4752197265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9728447794914246, 'entropy': 6.512147426605225, 'cur_lr': 4.999999873689376e-05, 'total_loss': 277.3568115234375}, 'load_time_ms': 0.674, 'num_steps_sampled': 1465200, 'grad_time_ms': 740.351, 'update_time_ms': 2.106, 'sample_time_ms': 30006.089}",2025-08-31_02-36-00,cda-server-4,29.885841608047485,7326,1756600560,10.157.146.4,False,37515.537400722504,1200
+1222,-616.4892329426345,1222,1466400,{},-778.6656835035349,1466400,0,37545.2690474987,-493.87963533840605,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1466400, 'default': {'kl': 0.010352231562137604, 'policy_loss': -0.139661967754364, 'vf_loss': 409.5243225097656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9696068167686462, 'entropy': 6.398184776306152, 'cur_lr': 4.999999873689376e-05, 'total_loss': 409.400390625}, 'load_time_ms': 0.705, 'num_steps_sampled': 1466400, 'grad_time_ms': 736.673, 'update_time_ms': 2.122, 'sample_time_ms': 29682.383}",2025-08-31_02-36-29,cda-server-4,29.73164677619934,7332,1756600589,10.157.146.4,False,37545.2690474987,1200
+1223,-616.3818142173357,1223,1467600,{},-778.6656835035349,1467600,0,37575.66104865074,-493.87963533840605,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1467600, 'default': {'kl': 0.00904797948896885, 'policy_loss': -0.13446536660194397, 'vf_loss': 129.92071533203125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9864420294761658, 'entropy': 6.5418925285339355, 'cur_lr': 4.999999873689376e-05, 'total_loss': 129.79998779296875}, 'load_time_ms': 0.73, 'num_steps_sampled': 1467600, 'grad_time_ms': 733.61, 'update_time_ms': 2.124, 'sample_time_ms': 29595.073}",2025-08-31_02-37-00,cda-server-4,30.392001152038574,7338,1756600620,10.157.146.4,False,37575.66104865074,1200
+1224,-616.6263525869231,1224,1468800,{},-778.6656835035349,1468800,0,37607.39156913757,-493.87963533840605,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1468800, 'default': {'kl': 0.010240748524665833, 'policy_loss': -0.1317029744386673, 'vf_loss': 57.8204345703125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9923584461212158, 'entropy': 6.328425407409668, 'cur_lr': 4.999999873689376e-05, 'total_loss': 57.70427703857422}, 'load_time_ms': 0.729, 'num_steps_sampled': 1468800, 'grad_time_ms': 727.514, 'update_time_ms': 2.199, 'sample_time_ms': 29389.493}",2025-08-31_02-37-31,cda-server-4,31.730520486831665,7344,1756600651,10.157.146.4,False,37607.39156913757,1200
+1225,-617.6192116375223,1225,1470000,{},-778.6656835035349,1470000,0,37640.93718600273,-493.87963533840605,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1470000, 'default': {'kl': 0.01044369675219059, 'policy_loss': -0.14874278008937836, 'vf_loss': 355.126708984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9644686579704285, 'entropy': 6.586800575256348, 'cur_lr': 4.999999873689376e-05, 'total_loss': 354.9938049316406}, 'load_time_ms': 0.737, 'num_steps_sampled': 1470000, 'grad_time_ms': 715.249, 'update_time_ms': 2.254, 'sample_time_ms': 29650.468}",2025-08-31_02-38-05,cda-server-4,33.54561686515808,7350,1756600685,10.157.146.4,False,37640.93718600273,1200
+1226,-618.7474539529321,1226,1471200,{},-778.6656835035349,1471200,0,37669.75228762627,-493.87963533840605,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1471200, 'default': {'kl': 0.01037850882858038, 'policy_loss': -0.12881746888160706, 'vf_loss': 188.57379150390625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9831719994544983, 'entropy': 6.2426371574401855, 'cur_lr': 4.999999873689376e-05, 'total_loss': 188.46075439453125}, 'load_time_ms': 0.739, 'num_steps_sampled': 1471200, 'grad_time_ms': 716.017, 'update_time_ms': 2.265, 'sample_time_ms': 29216.463}",2025-08-31_02-38-34,cda-server-4,28.815101623535156,7356,1756600714,10.157.146.4,False,37669.75228762627,1200
+1227,-619.3747721430677,1227,1472400,{},-778.6656835035349,1472400,0,37702.83443117142,-528.1198921968391,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1472400, 'default': {'kl': 0.01061304286122322, 'policy_loss': -0.1410938948392868, 'vf_loss': 257.7508850097656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9808927178382874, 'entropy': 6.096357822418213, 'cur_lr': 4.999999873689376e-05, 'total_loss': 257.62591552734375}, 'load_time_ms': 0.735, 'num_steps_sampled': 1472400, 'grad_time_ms': 714.685, 'update_time_ms': 2.325, 'sample_time_ms': 29695.706}",2025-08-31_02-39-07,cda-server-4,33.08214354515076,7362,1756600747,10.157.146.4,False,37702.83443117142,1200
+1228,-621.2036742795807,1228,1473600,{},-778.6656835035349,1473600,0,37734.49569439888,-561.3829052722605,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1473600, 'default': {'kl': 0.009430618956685066, 'policy_loss': -0.13031648099422455, 'vf_loss': 82.63754272460938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9879502058029175, 'entropy': 6.466310977935791, 'cur_lr': 4.999999873689376e-05, 'total_loss': 82.52154541015625}, 'load_time_ms': 0.747, 'num_steps_sampled': 1473600, 'grad_time_ms': 712.847, 'update_time_ms': 2.348, 'sample_time_ms': 30004.899}",2025-08-31_02-39-39,cda-server-4,31.66126322746277,7368,1756600779,10.157.146.4,False,37734.49569439888,1200
+1229,-620.1267026718406,1229,1474800,{},-778.6656835035349,1474800,0,37765.745200157166,-561.3829052722605,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1474800, 'default': {'kl': 0.009121556766331196, 'policy_loss': -0.12942057847976685, 'vf_loss': 402.7961730957031, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9552169442176819, 'entropy': 6.279299259185791, 'cur_lr': 4.999999873689376e-05, 'total_loss': 402.68060302734375}, 'load_time_ms': 0.743, 'num_steps_sampled': 1474800, 'grad_time_ms': 701.263, 'update_time_ms': 2.335, 'sample_time_ms': 30155.849}",2025-08-31_02-40-10,cda-server-4,31.249505758285522,7374,1756600810,10.157.146.4,False,37765.745200157166,1200
+1230,-619.1584630035934,1230,1476000,{},-778.6656835035349,1476000,0,37798.806114435196,-590.4332739621267,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1476000, 'default': {'kl': 0.012766345404088497, 'policy_loss': -0.13997748494148254, 'vf_loss': 407.9644775390625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9636127948760986, 'entropy': 6.280923366546631, 'cur_lr': 4.999999873689376e-05, 'total_loss': 407.8438720703125}, 'load_time_ms': 0.716, 'num_steps_sampled': 1476000, 'grad_time_ms': 691.53, 'update_time_ms': 2.325, 'sample_time_ms': 30616.774}",2025-08-31_02-40-43,cda-server-4,33.060914278030396,7380,1756600843,10.157.146.4,False,37798.806114435196,1200
+1231,-617.9508561934672,1231,1477200,{},-778.6656835035349,1477200,0,37828.17761874199,-480.90329058134824,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1477200, 'default': {'kl': 0.010576006025075912, 'policy_loss': -0.15204960107803345, 'vf_loss': 426.6293640136719, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9510090947151184, 'entropy': 6.668093204498291, 'cur_lr': 4.999999873689376e-05, 'total_loss': 426.4933776855469}, 'load_time_ms': 0.689, 'num_steps_sampled': 1477200, 'grad_time_ms': 678.145, 'update_time_ms': 2.355, 'sample_time_ms': 30578.717}",2025-08-31_02-41-12,cda-server-4,29.371504306793213,7386,1756600872,10.157.146.4,False,37828.17761874199,1200
+1232,-619.3290030442697,1232,1478400,{},-778.6656835035349,1478400,0,37858.064821481705,-480.90329058134824,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1478400, 'default': {'kl': 0.00954366847872734, 'policy_loss': -0.13549068570137024, 'vf_loss': 107.017822265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9858779907226562, 'entropy': 6.843328475952148, 'cur_lr': 4.999999873689376e-05, 'total_loss': 106.8968276977539}, 'load_time_ms': 0.663, 'num_steps_sampled': 1478400, 'grad_time_ms': 678.867, 'update_time_ms': 2.339, 'sample_time_ms': 30593.598}",2025-08-31_02-41-42,cda-server-4,29.887202739715576,7392,1756600902,10.157.146.4,False,37858.064821481705,1200
+1233,-622.600377741489,1233,1479600,{},-790.0482665682625,1479600,0,37890.00175046921,-480.90329058134824,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1479600, 'default': {'kl': 0.013257919810712337, 'policy_loss': -0.13937197625637054, 'vf_loss': 2774.9931640625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9199475049972534, 'entropy': 6.508416175842285, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2774.873779296875}, 'load_time_ms': 0.638, 'num_steps_sampled': 1479600, 'grad_time_ms': 688.756, 'update_time_ms': 2.301, 'sample_time_ms': 30738.311}",2025-08-31_02-42-14,cda-server-4,31.93692898750305,7398,1756600934,10.157.146.4,False,37890.00175046921,1200
+1234,-622.1334406850276,1234,1480800,{},-790.0482665682625,1480800,0,37922.43099427223,-480.90329058134824,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1480800, 'default': {'kl': 0.00936868879944086, 'policy_loss': -0.1257607489824295, 'vf_loss': 166.01171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9792921543121338, 'entropy': 6.580899715423584, 'cur_lr': 4.999999873689376e-05, 'total_loss': 165.90020751953125}, 'load_time_ms': 0.663, 'num_steps_sampled': 1480800, 'grad_time_ms': 686.59, 'update_time_ms': 2.28, 'sample_time_ms': 30810.269}",2025-08-31_02-42-47,cda-server-4,32.42924380302429,7404,1756600967,10.157.146.4,False,37922.43099427223,1200
+1235,-621.2957335091176,1235,1482000,{},-790.0482665682625,1482000,0,37950.758192777634,-480.90329058134824,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1482000, 'default': {'kl': 0.010006858967244625, 'policy_loss': -0.11745790392160416, 'vf_loss': 159.6992645263672, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9764026999473572, 'entropy': 6.0940141677856445, 'cur_lr': 4.999999873689376e-05, 'total_loss': 159.5970001220703}, 'load_time_ms': 0.664, 'num_steps_sampled': 1482000, 'grad_time_ms': 682.651, 'update_time_ms': 2.252, 'sample_time_ms': 30292.261}",2025-08-31_02-43-15,cda-server-4,28.32719850540161,7410,1756600995,10.157.146.4,False,37950.758192777634,1200
+1236,-622.0931005186126,1236,1483200,{},-790.0482665682625,1483200,0,37982.00518035889,-480.90329058134824,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1483200, 'default': {'kl': 0.010525353252887726, 'policy_loss': -0.1387990266084671, 'vf_loss': 170.14065551757812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9779489040374756, 'entropy': 6.409413814544678, 'cur_lr': 4.999999873689376e-05, 'total_loss': 170.01783752441406}, 'load_time_ms': 0.698, 'num_steps_sampled': 1483200, 'grad_time_ms': 682.359, 'update_time_ms': 2.317, 'sample_time_ms': 30535.559}",2025-08-31_02-43-46,cda-server-4,31.24698758125305,7416,1756601026,10.157.146.4,False,37982.00518035889,1200
+1237,-624.0573147231723,1237,1484400,{},-790.0482665682625,1484400,0,38010.271971702576,-480.90329058134824,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1484400, 'default': {'kl': 0.00941496528685093, 'policy_loss': -0.12941701710224152, 'vf_loss': 327.9490051269531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9583657383918762, 'entropy': 6.535194396972656, 'cur_lr': 4.999999873689376e-05, 'total_loss': 327.8338928222656}, 'load_time_ms': 0.697, 'num_steps_sampled': 1484400, 'grad_time_ms': 671.985, 'update_time_ms': 2.331, 'sample_time_ms': 30064.3}",2025-08-31_02-44-15,cda-server-4,28.266791343688965,7422,1756601055,10.157.146.4,False,38010.271971702576,1200
+1238,-622.9972436913698,1238,1485600,{},-790.0482665682625,1485600,0,38038.17354011536,-480.90329058134824,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1485600, 'default': {'kl': 0.009605302475392818, 'policy_loss': -0.1331627368927002, 'vf_loss': 160.10260009765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9800854921340942, 'entropy': 6.5226335525512695, 'cur_lr': 4.999999873689376e-05, 'total_loss': 159.98403930664062}, 'load_time_ms': 0.708, 'num_steps_sampled': 1485600, 'grad_time_ms': 665.788, 'update_time_ms': 2.32, 'sample_time_ms': 29694.485}",2025-08-31_02-44-42,cda-server-4,27.90156841278076,7428,1756601082,10.157.146.4,False,38038.17354011536,1200
+1239,-624.3052753671333,1239,1486800,{},-790.405554450529,1486800,0,38070.95448732376,-480.90329058134824,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1486800, 'default': {'kl': 0.012232549488544464, 'policy_loss': -0.13370074331760406, 'vf_loss': 352.29364013671875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9687025547027588, 'entropy': 6.372080326080322, 'cur_lr': 4.999999873689376e-05, 'total_loss': 352.1785583496094}, 'load_time_ms': 0.703, 'num_steps_sampled': 1486800, 'grad_time_ms': 674.987, 'update_time_ms': 2.349, 'sample_time_ms': 29838.42}",2025-08-31_02-45-15,cda-server-4,32.78094720840454,7434,1756601115,10.157.146.4,False,38070.95448732376,1200
+1240,-624.2983645487092,1240,1488000,{},-790.405554450529,1488000,0,38101.97479867935,-480.90329058134824,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1488000, 'default': {'kl': 0.01196132693439722, 'policy_loss': -0.145725280046463, 'vf_loss': 58.8619384765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9943444132804871, 'entropy': 6.124906539916992, 'cur_lr': 4.999999873689376e-05, 'total_loss': 58.73438262939453}, 'load_time_ms': 0.7, 'num_steps_sampled': 1488000, 'grad_time_ms': 673.124, 'update_time_ms': 2.344, 'sample_time_ms': 29636.242}",2025-08-31_02-45-46,cda-server-4,31.02031135559082,7440,1756601146,10.157.146.4,False,38101.97479867935,1200
+1241,-623.449800624987,1241,1489200,{},-790.405554450529,1489200,0,38132.46573615074,-480.90329058134824,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1489200, 'default': {'kl': 0.009147515520453453, 'policy_loss': -0.13389724493026733, 'vf_loss': 170.03341674804688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9813841581344604, 'entropy': 6.498622894287109, 'cur_lr': 4.999999873689376e-05, 'total_loss': 169.9134063720703}, 'load_time_ms': 0.701, 'num_steps_sampled': 1489200, 'grad_time_ms': 682.865, 'update_time_ms': 2.419, 'sample_time_ms': 29738.444}",2025-08-31_02-46-17,cda-server-4,30.49093747138977,7446,1756601177,10.157.146.4,False,38132.46573615074,1200
+1242,-622.7845061122214,1242,1490400,{},-790.405554450529,1490400,0,38162.315395116806,-480.90329058134824,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1490400, 'default': {'kl': 0.010882187634706497, 'policy_loss': -0.14608636498451233, 'vf_loss': 93.58726501464844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9952390193939209, 'entropy': 6.092192649841309, 'cur_lr': 4.999999873689376e-05, 'total_loss': 93.45769500732422}, 'load_time_ms': 0.694, 'num_steps_sampled': 1490400, 'grad_time_ms': 680.9, 'update_time_ms': 2.414, 'sample_time_ms': 29736.636}",2025-08-31_02-46-47,cda-server-4,29.849658966064453,7452,1756601207,10.157.146.4,False,38162.315395116806,1200
+1243,-621.9560181337721,1243,1491600,{},-790.405554450529,1491600,0,38192.43833589554,-480.90329058134824,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1491600, 'default': {'kl': 0.010432031005620956, 'policy_loss': -0.13784028589725494, 'vf_loss': 318.9806823730469, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9814837574958801, 'entropy': 6.423098564147949, 'cur_lr': 4.999999873689376e-05, 'total_loss': 318.85870361328125}, 'load_time_ms': 0.721, 'num_steps_sampled': 1491600, 'grad_time_ms': 660.268, 'update_time_ms': 2.402, 'sample_time_ms': 29575.819}",2025-08-31_02-47-17,cda-server-4,30.1229407787323,7458,1756601237,10.157.146.4,False,38192.43833589554,1200
+1244,-620.8911995109363,1244,1492800,{},-790.405554450529,1492800,0,38223.230113744736,-480.90329058134824,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1492800, 'default': {'kl': 0.011756852269172668, 'policy_loss': -0.13656990230083466, 'vf_loss': 56.26340866088867, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.99161696434021, 'entropy': 6.501759052276611, 'cur_lr': 4.999999873689376e-05, 'total_loss': 56.144691467285156}, 'load_time_ms': 0.686, 'num_steps_sampled': 1492800, 'grad_time_ms': 670.048, 'update_time_ms': 2.432, 'sample_time_ms': 29402.415}",2025-08-31_02-47-48,cda-server-4,30.791777849197388,7464,1756601268,10.157.146.4,False,38223.230113744736,1200
+1245,-620.0654905533776,1245,1494000,{},-790.405554450529,1494000,0,38252.6910007,-480.90329058134824,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1494000, 'default': {'kl': 0.011532857082784176, 'policy_loss': -0.15129674971103668, 'vf_loss': 501.5661926269531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.95289146900177, 'entropy': 6.552776336669922, 'cur_lr': 4.999999873689376e-05, 'total_loss': 501.4324035644531}, 'load_time_ms': 0.711, 'num_steps_sampled': 1494000, 'grad_time_ms': 682.162, 'update_time_ms': 2.496, 'sample_time_ms': 29503.656}",2025-08-31_02-48-17,cda-server-4,29.46088695526123,7470,1756601297,10.157.146.4,False,38252.6910007,1200
+1246,-621.4488316717188,1246,1495200,{},-790.405554450529,1495200,0,38285.78818964958,-480.90329058134824,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1495200, 'default': {'kl': 0.011380909942090511, 'policy_loss': -0.1360815167427063, 'vf_loss': 230.9528045654297, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9796438217163086, 'entropy': 6.711490631103516, 'cur_lr': 4.999999873689376e-05, 'total_loss': 230.833984375}, 'load_time_ms': 0.677, 'num_steps_sampled': 1495200, 'grad_time_ms': 680.651, 'update_time_ms': 2.421, 'sample_time_ms': 29690.313}",2025-08-31_02-48-50,cda-server-4,33.09718894958496,7476,1756601330,10.157.146.4,False,38285.78818964958,1200
+1247,-621.332057784891,1247,1496400,{},-790.405554450529,1496400,0,38319.513587236404,-480.90329058134824,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1496400, 'default': {'kl': 0.010822822339832783, 'policy_loss': -0.12812453508377075, 'vf_loss': 285.2591247558594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9698617458343506, 'entropy': 6.426301956176758, 'cur_lr': 4.999999873689376e-05, 'total_loss': 285.1474304199219}, 'load_time_ms': 0.681, 'num_steps_sampled': 1496400, 'grad_time_ms': 682.26, 'update_time_ms': 2.384, 'sample_time_ms': 30234.664}",2025-08-31_02-49-24,cda-server-4,33.72539758682251,7482,1756601364,10.157.146.4,False,38319.513587236404,1200
+1248,-623.0318417439906,1248,1497600,{},-790.405554450529,1497600,0,38351.28926610947,-513.0075792187437,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1497600, 'default': {'kl': 0.011175408028066158, 'policy_loss': -0.13416773080825806, 'vf_loss': 138.35006713867188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.983860969543457, 'entropy': 6.341047286987305, 'cur_lr': 4.999999873689376e-05, 'total_loss': 138.23287963867188}, 'load_time_ms': 0.691, 'num_steps_sampled': 1497600, 'grad_time_ms': 689.639, 'update_time_ms': 2.458, 'sample_time_ms': 30614.55}",2025-08-31_02-49-56,cda-server-4,31.775678873062134,7488,1756601396,10.157.146.4,False,38351.28926610947,1200
+1249,-621.8077912826369,1249,1498800,{},-790.405554450529,1498800,0,38382.85528373718,-513.0075792187437,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1498800, 'default': {'kl': 0.010782938450574875, 'policy_loss': -0.11875177919864655, 'vf_loss': 75.8450927734375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9905045032501221, 'entropy': 6.507458209991455, 'cur_lr': 4.999999873689376e-05, 'total_loss': 75.74271392822266}, 'load_time_ms': 0.692, 'num_steps_sampled': 1498800, 'grad_time_ms': 687.331, 'update_time_ms': 2.518, 'sample_time_ms': 30495.368}",2025-08-31_02-50-27,cda-server-4,31.566017627716064,7494,1756601427,10.157.146.4,False,38382.85528373718,1200
+1250,-618.6753782023587,1250,1500000,{},-790.405554450529,1500000,0,38415.36612677574,-513.0075792187437,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1500000, 'default': {'kl': 0.009335841052234173, 'policy_loss': -0.12293635308742523, 'vf_loss': 100.14883422851562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9930131435394287, 'entropy': 6.396009922027588, 'cur_lr': 4.999999873689376e-05, 'total_loss': 100.04006958007812}, 'load_time_ms': 0.719, 'num_steps_sampled': 1500000, 'grad_time_ms': 692.849, 'update_time_ms': 2.482, 'sample_time_ms': 30638.935}",2025-08-31_02-51-00,cda-server-4,32.51084303855896,7500,1756601460,10.157.146.4,False,38415.36612677574,1200
+1251,-616.1059885560305,1251,1501200,{},-790.405554450529,1501200,0,38445.8471865654,-513.0075792187437,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1501200, 'default': {'kl': 0.012504960410296917, 'policy_loss': -0.16288524866104126, 'vf_loss': 200.3593292236328, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9829980134963989, 'entropy': 6.139450550079346, 'cur_lr': 4.999999873689376e-05, 'total_loss': 200.21543884277344}, 'load_time_ms': 0.718, 'num_steps_sampled': 1501200, 'grad_time_ms': 671.732, 'update_time_ms': 2.449, 'sample_time_ms': 30659.11}",2025-08-31_02-51-30,cda-server-4,30.481059789657593,7506,1756601490,10.157.146.4,False,38445.8471865654,1200
+1252,-616.4617885960208,1252,1502400,{},-790.405554450529,1502400,0,38477.35177278519,-513.0075792187437,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1502400, 'default': {'kl': 0.009941971860826015, 'policy_loss': -0.13370007276535034, 'vf_loss': 227.01092529296875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9813578128814697, 'entropy': 6.375673294067383, 'cur_lr': 4.999999873689376e-05, 'total_loss': 226.892333984375}, 'load_time_ms': 0.716, 'num_steps_sampled': 1502400, 'grad_time_ms': 645.93, 'update_time_ms': 2.495, 'sample_time_ms': 30850.473}",2025-08-31_02-52-02,cda-server-4,31.504586219787598,7512,1756601522,10.157.146.4,False,38477.35177278519,1200
+1253,-617.2751659679268,1253,1503600,{},-790.405554450529,1503600,0,38508.73171186447,-513.0075792187437,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1503600, 'default': {'kl': 0.01099794078618288, 'policy_loss': -0.1490664780139923, 'vf_loss': 570.4736328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9546555280685425, 'entropy': 6.46983528137207, 'cur_lr': 4.999999873689376e-05, 'total_loss': 570.3412475585938}, 'load_time_ms': 0.686, 'num_steps_sampled': 1503600, 'grad_time_ms': 658.606, 'update_time_ms': 2.519, 'sample_time_ms': 30963.512}",2025-08-31_02-52-33,cda-server-4,31.379939079284668,7518,1756601553,10.157.146.4,False,38508.73171186447,1200
+1254,-614.4733912048415,1254,1504800,{},-790.405554450529,1504800,0,38536.34018492699,-513.0075792187437,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1504800, 'default': {'kl': 0.01194776315242052, 'policy_loss': -0.1553732454776764, 'vf_loss': 624.6427612304688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9548741579055786, 'entropy': 5.9555487632751465, 'cur_lr': 4.999999873689376e-05, 'total_loss': 624.5054931640625}, 'load_time_ms': 0.691, 'num_steps_sampled': 1504800, 'grad_time_ms': 659.928, 'update_time_ms': 2.484, 'sample_time_ms': 30643.928}",2025-08-31_02-53-01,cda-server-4,27.60847306251526,7524,1756601581,10.157.146.4,False,38536.34018492699,1200
+1255,-613.2822620386415,1255,1506000,{},-753.710841297536,1506000,0,38565.83474993706,-513.0075792187437,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1506000, 'default': {'kl': 0.011997995898127556, 'policy_loss': -0.14915584027767181, 'vf_loss': 506.38958740234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9631870985031128, 'entropy': 6.26649284362793, 'cur_lr': 4.999999873689376e-05, 'total_loss': 506.2585754394531}, 'load_time_ms': 0.657, 'num_steps_sampled': 1506000, 'grad_time_ms': 656.86, 'update_time_ms': 2.428, 'sample_time_ms': 30650.406}",2025-08-31_02-53-30,cda-server-4,29.4945650100708,7530,1756601610,10.157.146.4,False,38565.83474993706,1200
+1256,-612.7530831839609,1256,1507200,{},-753.710841297536,1507200,0,38598.11569547653,-513.0075792187437,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1507200, 'default': {'kl': 0.008126934058964252, 'policy_loss': -0.10432229936122894, 'vf_loss': 109.12983703613281, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.98304283618927, 'entropy': 5.981939315795898, 'cur_lr': 4.999999873689376e-05, 'total_loss': 109.0378646850586}, 'load_time_ms': 0.651, 'num_steps_sampled': 1507200, 'grad_time_ms': 648.353, 'update_time_ms': 2.441, 'sample_time_ms': 30577.344}",2025-08-31_02-54-03,cda-server-4,32.28094553947449,7536,1756601643,10.157.146.4,False,38598.11569547653,1200
+1257,-612.7872378638888,1257,1508400,{},-753.710841297536,1508400,0,38627.508373975754,-513.0075792187437,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1508400, 'default': {'kl': 0.00822870060801506, 'policy_loss': -0.12262209504842758, 'vf_loss': 507.9348449707031, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9533782601356506, 'entropy': 6.4207682609558105, 'cur_lr': 4.999999873689376e-05, 'total_loss': 507.82476806640625}, 'load_time_ms': 0.647, 'num_steps_sampled': 1508400, 'grad_time_ms': 640.826, 'update_time_ms': 2.404, 'sample_time_ms': 30151.633}",2025-08-31_02-54-32,cda-server-4,29.3926784992218,7542,1756601672,10.157.146.4,False,38627.508373975754,1200
+1258,-611.3874366541868,1258,1509600,{},-753.710841297536,1509600,0,38654.560891628265,-513.0075792187437,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1509600, 'default': {'kl': 0.011659812182188034, 'policy_loss': -0.14964430034160614, 'vf_loss': 117.15962982177734, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9836906790733337, 'entropy': 6.286069869995117, 'cur_lr': 4.999999873689376e-05, 'total_loss': 117.02767944335938}, 'load_time_ms': 0.64, 'num_steps_sampled': 1509600, 'grad_time_ms': 615.645, 'update_time_ms': 2.292, 'sample_time_ms': 29704.632}",2025-08-31_02-54-59,cda-server-4,27.052517652511597,7548,1756601699,10.157.146.4,False,38654.560891628265,1200
+1259,-611.6097887844752,1259,1510800,{},-753.710841297536,1510800,0,38685.14040565491,-513.0075792187437,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1510800, 'default': {'kl': 0.011162987910211086, 'policy_loss': -0.14918053150177002, 'vf_loss': 215.63792419433594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9803905487060547, 'entropy': 6.4141130447387695, 'cur_lr': 4.999999873689376e-05, 'total_loss': 215.50572204589844}, 'load_time_ms': 0.653, 'num_steps_sampled': 1510800, 'grad_time_ms': 603.205, 'update_time_ms': 2.336, 'sample_time_ms': 29618.395}",2025-08-31_02-55-30,cda-server-4,30.579514026641846,7554,1756601730,10.157.146.4,False,38685.14040565491,1200
+1260,-613.8640471923795,1260,1512000,{},-753.710841297536,1512000,0,38714.043811798096,-529.7337661550009,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1512000, 'default': {'kl': 0.01122667733579874, 'policy_loss': -0.14902204275131226, 'vf_loss': 81.95684051513672, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9936233162879944, 'entropy': 6.17511510848999, 'cur_lr': 4.999999873689376e-05, 'total_loss': 81.82486724853516}, 'load_time_ms': 0.625, 'num_steps_sampled': 1512000, 'grad_time_ms': 591.423, 'update_time_ms': 2.379, 'sample_time_ms': 29269.418}",2025-08-31_02-55-59,cda-server-4,28.903406143188477,7560,1756601759,10.157.146.4,False,38714.043811798096,1200
+1261,-615.0399152604432,1261,1513200,{},-753.710841297536,1513200,0,38744.154758930206,-529.7337661550009,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1513200, 'default': {'kl': 0.011577237397432327, 'policy_loss': -0.16439837217330933, 'vf_loss': 229.12600708007812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9762797951698303, 'entropy': 6.453497886657715, 'cur_lr': 4.999999873689376e-05, 'total_loss': 228.97918701171875}, 'load_time_ms': 0.63, 'num_steps_sampled': 1513200, 'grad_time_ms': 604.15, 'update_time_ms': 2.315, 'sample_time_ms': 29219.691}",2025-08-31_02-56-29,cda-server-4,30.110947132110596,7566,1756601789,10.157.146.4,False,38744.154758930206,1200
+1262,-614.1053132745714,1262,1514400,{},-753.710841297536,1514400,0,38774.6344268322,-529.7337661550009,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1514400, 'default': {'kl': 0.008071990683674812, 'policy_loss': -0.12326182425022125, 'vf_loss': 182.71304321289062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9845967888832092, 'entropy': 6.1517863273620605, 'cur_lr': 4.999999873689376e-05, 'total_loss': 182.60202026367188}, 'load_time_ms': 0.642, 'num_steps_sampled': 1514400, 'grad_time_ms': 630.274, 'update_time_ms': 2.297, 'sample_time_ms': 29090.991}",2025-08-31_02-56-59,cda-server-4,30.479667901992798,7572,1756601819,10.157.146.4,False,38774.6344268322,1200
+1263,-616.0767733958179,1263,1515600,{},-793.130360073574,1515600,0,38804.81109189987,-529.7337661550009,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1515600, 'default': {'kl': 0.012959184125065804, 'policy_loss': -0.14307790994644165, 'vf_loss': 2546.273193359375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8460767269134521, 'entropy': 6.507570266723633, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2546.1494140625}, 'load_time_ms': 0.639, 'num_steps_sampled': 1515600, 'grad_time_ms': 634.898, 'update_time_ms': 2.384, 'sample_time_ms': 28965.955}",2025-08-31_02-57-30,cda-server-4,30.17666506767273,7578,1756601850,10.157.146.4,False,38804.81109189987,1200
+1264,-614.7699944903557,1264,1516800,{},-793.130360073574,1516800,0,38833.53611660004,-529.7337661550009,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1516800, 'default': {'kl': 0.009136565029621124, 'policy_loss': -0.1484559178352356, 'vf_loss': 410.4657287597656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9614083766937256, 'entropy': 6.557668209075928, 'cur_lr': 4.999999873689376e-05, 'total_loss': 410.3311767578125}, 'load_time_ms': 0.631, 'num_steps_sampled': 1516800, 'grad_time_ms': 631.434, 'update_time_ms': 2.357, 'sample_time_ms': 29081.084}",2025-08-31_02-57-58,cda-server-4,28.725024700164795,7584,1756601878,10.157.146.4,False,38833.53611660004,1200
+1265,-615.2009567893824,1265,1518000,{},-793.130360073574,1518000,0,38864.31926560402,-512.9435683828881,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1518000, 'default': {'kl': 0.009816624224185944, 'policy_loss': -0.1292470246553421, 'vf_loss': 811.7908935546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9222242832183838, 'entropy': 6.155036449432373, 'cur_lr': 4.999999873689376e-05, 'total_loss': 811.6765747070312}, 'load_time_ms': 0.662, 'num_steps_sampled': 1518000, 'grad_time_ms': 628.808, 'update_time_ms': 2.357, 'sample_time_ms': 29212.58}",2025-08-31_02-58-29,cda-server-4,30.783149003982544,7590,1756601909,10.157.146.4,False,38864.31926560402,1200
+1266,-615.9202919156397,1266,1519200,{},-793.130360073574,1519200,0,38894.36703538895,-512.9435683828881,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1519200, 'default': {'kl': 0.010682458989322186, 'policy_loss': -0.14705955982208252, 'vf_loss': 66.39925384521484, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9930480122566223, 'entropy': 6.197766304016113, 'cur_lr': 4.999999873689376e-05, 'total_loss': 66.26841735839844}, 'load_time_ms': 0.667, 'num_steps_sampled': 1519200, 'grad_time_ms': 632.549, 'update_time_ms': 2.388, 'sample_time_ms': 28985.43}",2025-08-31_02-58-59,cda-server-4,30.047769784927368,7596,1756601939,10.157.146.4,False,38894.36703538895,1200
+1267,-618.0369698665311,1267,1520400,{},-793.130360073574,1520400,0,38921.88300347328,-512.9435683828881,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1520400, 'default': {'kl': 0.012357473373413086, 'policy_loss': -0.13502083718776703, 'vf_loss': 311.4602966308594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9647335410118103, 'entropy': 6.563246726989746, 'cur_lr': 4.999999873689376e-05, 'total_loss': 311.34405517578125}, 'load_time_ms': 0.671, 'num_steps_sampled': 1520400, 'grad_time_ms': 623.844, 'update_time_ms': 2.4, 'sample_time_ms': 28806.504}",2025-08-31_02-59-27,cda-server-4,27.515968084335327,7602,1756601967,10.157.146.4,False,38921.88300347328,1200
+1268,-618.7724572096182,1268,1521600,{},-793.130360073574,1521600,0,38951.91705203056,-512.9435683828881,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1521600, 'default': {'kl': 0.011424221098423004, 'policy_loss': -0.1470513492822647, 'vf_loss': 245.8273162841797, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9769302010536194, 'entropy': 6.2575483322143555, 'cur_lr': 4.999999873689376e-05, 'total_loss': 245.69761657714844}, 'load_time_ms': 0.679, 'num_steps_sampled': 1521600, 'grad_time_ms': 641.271, 'update_time_ms': 2.404, 'sample_time_ms': 29087.199}",2025-08-31_02-59-57,cda-server-4,30.034048557281494,7608,1756601997,10.157.146.4,False,38951.91705203056,1200
+1269,-617.3654483610075,1269,1522800,{},-793.130360073574,1522800,0,38981.722504615784,-485.40576032553645,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1522800, 'default': {'kl': 0.01004608441144228, 'policy_loss': -0.14664584398269653, 'vf_loss': 169.15771484375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9761378765106201, 'entropy': 6.160588264465332, 'cur_lr': 4.999999873689376e-05, 'total_loss': 169.0263214111328}, 'load_time_ms': 0.682, 'num_steps_sampled': 1522800, 'grad_time_ms': 647.868, 'update_time_ms': 2.344, 'sample_time_ms': 29003.233}",2025-08-31_03-00-27,cda-server-4,29.805452585220337,7614,1756602027,10.157.146.4,False,38981.722504615784,1200
+1270,-616.5961498888195,1270,1524000,{},-793.130360073574,1524000,0,39008.501192092896,-485.40576032553645,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1524000, 'default': {'kl': 0.012019848451018333, 'policy_loss': -0.14496272802352905, 'vf_loss': 22.432172775268555, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9967055916786194, 'entropy': 6.1165642738342285, 'cur_lr': 4.999999873689376e-05, 'total_loss': 22.305463790893555}, 'load_time_ms': 0.679, 'num_steps_sampled': 1524000, 'grad_time_ms': 641.23, 'update_time_ms': 2.326, 'sample_time_ms': 28797.463}",2025-08-31_03-00-53,cda-server-4,26.778687477111816,7620,1756602053,10.157.146.4,False,39008.501192092896,1200
+1271,-616.699977001137,1271,1525200,{},-793.130360073574,1525200,0,39040.37552642822,-485.40576032553645,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1525200, 'default': {'kl': 0.013445860706269741, 'policy_loss': -0.1627333164215088, 'vf_loss': 519.09130859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9595873355865479, 'entropy': 6.196854591369629, 'cur_lr': 4.999999873689376e-05, 'total_loss': 518.948974609375}, 'load_time_ms': 0.672, 'num_steps_sampled': 1525200, 'grad_time_ms': 644.185, 'update_time_ms': 2.341, 'sample_time_ms': 28970.862}",2025-08-31_03-01-25,cda-server-4,31.87433433532715,7626,1756602085,10.157.146.4,False,39040.37552642822,1200
+1272,-616.3774913135877,1272,1526400,{},-793.130360073574,1526400,0,39071.5289106369,-485.40576032553645,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1526400, 'default': {'kl': 0.00799970980733633, 'policy_loss': -0.11830046772956848, 'vf_loss': 253.15687561035156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9723442792892456, 'entropy': 6.287878513336182, 'cur_lr': 4.999999873689376e-05, 'total_loss': 253.05075073242188}, 'load_time_ms': 0.667, 'num_steps_sampled': 1526400, 'grad_time_ms': 641.142, 'update_time_ms': 2.332, 'sample_time_ms': 29041.3}",2025-08-31_03-01-56,cda-server-4,31.1533842086792,7632,1756602116,10.157.146.4,False,39071.5289106369,1200
+1273,-615.9201561855515,1273,1527600,{},-793.130360073574,1527600,0,39103.360000133514,-485.40576032553645,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1527600, 'default': {'kl': 0.010783434845507145, 'policy_loss': -0.13206754624843597, 'vf_loss': 107.70718383789062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9860618114471436, 'entropy': 6.029272079467773, 'cur_lr': 4.999999873689376e-05, 'total_loss': 107.59149169921875}, 'load_time_ms': 0.701, 'num_steps_sampled': 1527600, 'grad_time_ms': 640.223, 'update_time_ms': 2.244, 'sample_time_ms': 29207.715}",2025-08-31_03-02-28,cda-server-4,31.83108949661255,7638,1756602148,10.157.146.4,False,39103.360000133514,1200
+1274,-616.5634079684285,1274,1528800,{},-793.130360073574,1528800,0,39133.94968056679,-485.40576032553645,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1528800, 'default': {'kl': 0.00876469537615776, 'policy_loss': -0.1177532970905304, 'vf_loss': 408.5387268066406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.972112774848938, 'entropy': 6.179543972015381, 'cur_lr': 4.999999873689376e-05, 'total_loss': 408.4342956542969}, 'load_time_ms': 0.702, 'num_steps_sampled': 1528800, 'grad_time_ms': 641.473, 'update_time_ms': 2.271, 'sample_time_ms': 29392.84}",2025-08-31_03-02-59,cda-server-4,30.589680433273315,7644,1756602179,10.157.146.4,False,39133.94968056679,1200
+1275,-616.9606413621115,1275,1530000,{},-793.130360073574,1530000,0,39163.21699881554,-485.40576032553645,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1530000, 'default': {'kl': 0.0092597845941782, 'policy_loss': -0.12247046828269958, 'vf_loss': 435.39324951171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.96506667137146, 'entropy': 6.29154634475708, 'cur_lr': 4.999999873689376e-05, 'total_loss': 435.2848205566406}, 'load_time_ms': 0.706, 'num_steps_sampled': 1530000, 'grad_time_ms': 648.984, 'update_time_ms': 2.228, 'sample_time_ms': 29233.771}",2025-08-31_03-03-28,cda-server-4,29.26731824874878,7650,1756602208,10.157.146.4,False,39163.21699881554,1200
+1276,-616.0228614430922,1276,1531200,{},-793.130360073574,1531200,0,39193.38957071304,-485.40576032553645,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1531200, 'default': {'kl': 0.010259388014674187, 'policy_loss': -0.14382342994213104, 'vf_loss': 75.17511749267578, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9910887479782104, 'entropy': 6.1657562255859375, 'cur_lr': 4.999999873689376e-05, 'total_loss': 75.04688262939453}, 'load_time_ms': 0.715, 'num_steps_sampled': 1531200, 'grad_time_ms': 647.924, 'update_time_ms': 2.236, 'sample_time_ms': 29247.323}",2025-08-31_03-03-58,cda-server-4,30.172571897506714,7656,1756602238,10.157.146.4,False,39193.38957071304,1200
+1277,-615.0360176512785,1277,1532400,{},-793.130360073574,1532400,0,39224.360845565796,-485.40576032553645,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1532400, 'default': {'kl': 0.010572874918580055, 'policy_loss': -0.13565224409103394, 'vf_loss': 163.53839111328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9887553453445435, 'entropy': 5.993703365325928, 'cur_lr': 4.999999873689376e-05, 'total_loss': 163.4187774658203}, 'load_time_ms': 0.715, 'num_steps_sampled': 1532400, 'grad_time_ms': 670.892, 'update_time_ms': 2.339, 'sample_time_ms': 29569.775}",2025-08-31_03-04-29,cda-server-4,30.971274852752686,7662,1756602269,10.157.146.4,False,39224.360845565796,1200
+1278,-614.8384994169148,1278,1533600,{},-793.130360073574,1533600,0,39256.530307769775,-485.40576032553645,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1533600, 'default': {'kl': 0.011387347243726254, 'policy_loss': -0.13974228501319885, 'vf_loss': 156.560302734375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9791381359100342, 'entropy': 6.009072780609131, 'cur_lr': 4.999999873689376e-05, 'total_loss': 156.43785095214844}, 'load_time_ms': 0.678, 'num_steps_sampled': 1533600, 'grad_time_ms': 681.203, 'update_time_ms': 2.38, 'sample_time_ms': 29773.017}",2025-08-31_03-05-02,cda-server-4,32.16946220397949,7668,1756602302,10.157.146.4,False,39256.530307769775,1200
+1279,-615.1158339987068,1279,1534800,{},-793.130360073574,1534800,0,39288.48229265213,-485.40576032553645,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1534800, 'default': {'kl': 0.013159642927348614, 'policy_loss': -0.15242673456668854, 'vf_loss': 449.2908935546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9617173671722412, 'entropy': 6.4677815437316895, 'cur_lr': 4.999999873689376e-05, 'total_loss': 449.158447265625}, 'load_time_ms': 0.679, 'num_steps_sampled': 1534800, 'grad_time_ms': 693.387, 'update_time_ms': 2.331, 'sample_time_ms': 29975.557}",2025-08-31_03-05-33,cda-server-4,31.951984882354736,7674,1756602333,10.157.146.4,False,39288.48229265213,1200
+1280,-610.9575388735225,1280,1536000,{},-785.9375208312354,1536000,0,39320.005227565765,-485.40576032553645,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1536000, 'default': {'kl': 0.0129149304702878, 'policy_loss': -0.16829968988895416, 'vf_loss': 659.5772094726562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9562943577766418, 'entropy': 6.204498291015625, 'cur_lr': 4.999999873689376e-05, 'total_loss': 659.4285888671875}, 'load_time_ms': 0.688, 'num_steps_sampled': 1536000, 'grad_time_ms': 696.859, 'update_time_ms': 2.364, 'sample_time_ms': 30446.4}",2025-08-31_03-06-05,cda-server-4,31.522934913635254,7680,1756602365,10.157.146.4,False,39320.005227565765,1200
+1281,-609.9093088787363,1281,1537200,{},-785.9375208312354,1537200,0,39353.32863306999,-477.78949343779914,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1537200, 'default': {'kl': 0.01136779598891735, 'policy_loss': -0.15573523938655853, 'vf_loss': 265.36663818359375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9693304896354675, 'entropy': 6.074611663818359, 'cur_lr': 4.999999873689376e-05, 'total_loss': 265.2281799316406}, 'load_time_ms': 0.684, 'num_steps_sampled': 1537200, 'grad_time_ms': 703.109, 'update_time_ms': 2.37, 'sample_time_ms': 30585.079}",2025-08-31_03-06-38,cda-server-4,33.323405504226685,7686,1756602398,10.157.146.4,False,39353.32863306999,1200
+1282,-608.9736126947846,1282,1538400,{},-672.5049917278782,1538400,0,39384.969292640686,-477.78949343779914,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1538400, 'default': {'kl': 0.010498232208192348, 'policy_loss': -0.1455894261598587, 'vf_loss': 46.06834411621094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9934632778167725, 'entropy': 6.088992595672607, 'cur_lr': 4.999999873689376e-05, 'total_loss': 45.938697814941406}, 'load_time_ms': 0.688, 'num_steps_sampled': 1538400, 'grad_time_ms': 708.845, 'update_time_ms': 2.322, 'sample_time_ms': 30628.124}",2025-08-31_03-07-10,cda-server-4,31.64065957069397,7692,1756602430,10.157.146.4,False,39384.969292640686,1200
+1283,-608.0260518128715,1283,1539600,{},-672.5049917278782,1539600,0,39416.18471002579,-477.78949343779914,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1539600, 'default': {'kl': 0.008804836310446262, 'policy_loss': -0.136318176984787, 'vf_loss': 90.62893676757812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9889260530471802, 'entropy': 6.099520683288574, 'cur_lr': 4.999999873689376e-05, 'total_loss': 90.5059814453125}, 'load_time_ms': 0.659, 'num_steps_sampled': 1539600, 'grad_time_ms': 709.261, 'update_time_ms': 2.386, 'sample_time_ms': 30566.136}",2025-08-31_03-07-41,cda-server-4,31.21541738510132,7698,1756602461,10.157.146.4,False,39416.18471002579,1200
+1284,-607.7035173234499,1284,1540800,{},-650.8222175545466,1540800,0,39447.671404123306,-477.78949343779914,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1540800, 'default': {'kl': 0.010820646770298481, 'policy_loss': -0.14598137140274048, 'vf_loss': 96.83849334716797, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.992203950881958, 'entropy': 6.085649490356445, 'cur_lr': 4.999999873689376e-05, 'total_loss': 96.70894622802734}, 'load_time_ms': 0.658, 'num_steps_sampled': 1540800, 'grad_time_ms': 721.023, 'update_time_ms': 2.37, 'sample_time_ms': 30644.042}",2025-08-31_03-08-13,cda-server-4,31.48669409751892,7704,1756602493,10.157.146.4,False,39447.671404123306,1200
+1285,-607.0287342093911,1285,1542000,{},-653.5990588973796,1542000,0,39476.63152241707,-477.78949343779914,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1542000, 'default': {'kl': 0.011834132485091686, 'policy_loss': -0.14247804880142212, 'vf_loss': 263.1396789550781, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9830804467201233, 'entropy': 6.216646194458008, 'cur_lr': 4.999999873689376e-05, 'total_loss': 263.0151672363281}, 'load_time_ms': 0.625, 'num_steps_sampled': 1542000, 'grad_time_ms': 710.157, 'update_time_ms': 2.52, 'sample_time_ms': 30624.123}",2025-08-31_03-08-42,cda-server-4,28.960118293762207,7710,1756602522,10.157.146.4,False,39476.63152241707,1200
+1286,-607.6019102428075,1286,1543200,{},-657.635537046757,1543200,0,39505.37902569771,-477.78949343779914,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1543200, 'default': {'kl': 0.009924110025167465, 'policy_loss': -0.14856313169002533, 'vf_loss': 177.57957458496094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9826921820640564, 'entropy': 6.334786891937256, 'cur_lr': 4.999999873689376e-05, 'total_loss': 177.4460906982422}, 'load_time_ms': 0.618, 'num_steps_sampled': 1543200, 'grad_time_ms': 711.222, 'update_time_ms': 2.477, 'sample_time_ms': 30480.601}",2025-08-31_03-09-11,cda-server-4,28.74750328063965,7716,1756602551,10.157.146.4,False,39505.37902569771,1200
+1287,-607.918250255396,1287,1544400,{},-657.635537046757,1544400,0,39536.074518203735,-477.78949343779914,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1544400, 'default': {'kl': 0.01099586021155119, 'policy_loss': -0.15582434833049774, 'vf_loss': 271.5595703125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9807147979736328, 'entropy': 6.192715644836426, 'cur_lr': 4.999999873689376e-05, 'total_loss': 271.4204406738281}, 'load_time_ms': 0.614, 'num_steps_sampled': 1544400, 'grad_time_ms': 708.026, 'update_time_ms': 2.375, 'sample_time_ms': 30456.229}",2025-08-31_03-09-41,cda-server-4,30.69549250602722,7722,1756602581,10.157.146.4,False,39536.074518203735,1200
+1288,-608.1657336619625,1288,1545600,{},-657.635537046757,1545600,0,39566.473680734634,-477.78949343779914,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1545600, 'default': {'kl': 0.012031828984618187, 'policy_loss': -0.1527375429868698, 'vf_loss': 262.45703125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9716288447380066, 'entropy': 6.186598777770996, 'cur_lr': 4.999999873689376e-05, 'total_loss': 262.32257080078125}, 'load_time_ms': 0.619, 'num_steps_sampled': 1545600, 'grad_time_ms': 699.437, 'update_time_ms': 2.358, 'sample_time_ms': 30287.862}",2025-08-31_03-10-12,cda-server-4,30.399162530899048,7728,1756602612,10.157.146.4,False,39566.473680734634,1200
+1289,-607.9402830147912,1289,1546800,{},-667.7061371058259,1546800,0,39598.3263566494,-477.78949343779914,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1546800, 'default': {'kl': 0.010143551044166088, 'policy_loss': -0.13001686334609985, 'vf_loss': 263.75347900390625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9832667112350464, 'entropy': 6.083725929260254, 'cur_lr': 4.999999873689376e-05, 'total_loss': 263.6388244628906}, 'load_time_ms': 0.616, 'num_steps_sampled': 1546800, 'grad_time_ms': 682.518, 'update_time_ms': 2.339, 'sample_time_ms': 30294.839}",2025-08-31_03-10-43,cda-server-4,31.852675914764404,7734,1756602643,10.157.146.4,False,39598.3263566494,1200
+1290,-608.6923127609484,1290,1548000,{},-667.7061371058259,1548000,0,39628.10168218613,-477.78949343779914,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1548000, 'default': {'kl': 0.009371708147227764, 'policy_loss': -0.1121189296245575, 'vf_loss': 126.08687591552734, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.983454167842865, 'entropy': 6.059956073760986, 'cur_lr': 4.999999873689376e-05, 'total_loss': 125.98898315429688}, 'load_time_ms': 0.606, 'num_steps_sampled': 1548000, 'grad_time_ms': 685.722, 'update_time_ms': 2.371, 'sample_time_ms': 30116.902}",2025-08-31_03-11-13,cda-server-4,29.775325536727905,7740,1756602673,10.157.146.4,False,39628.10168218613,1200
+1291,-608.6264977205832,1291,1549200,{},-667.7061371058259,1549200,0,39659.515973091125,-477.78949343779914,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1549200, 'default': {'kl': 0.012319391593337059, 'policy_loss': -0.1415972113609314, 'vf_loss': 74.57978820800781, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9900988340377808, 'entropy': 5.967610836029053, 'cur_lr': 4.999999873689376e-05, 'total_loss': 74.45689392089844}, 'load_time_ms': 0.607, 'num_steps_sampled': 1549200, 'grad_time_ms': 679.532, 'update_time_ms': 2.369, 'sample_time_ms': 29932.197}",2025-08-31_03-11-45,cda-server-4,31.41429090499878,7746,1756602705,10.157.146.4,False,39659.515973091125,1200
+1292,-608.9635670254646,1292,1550400,{},-667.7061371058259,1550400,0,39692.75075650215,-477.78949343779914,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1550400, 'default': {'kl': 0.008923151530325413, 'policy_loss': -0.12825065851211548, 'vf_loss': 150.71917724609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9818041324615479, 'entropy': 6.147810935974121, 'cur_lr': 4.999999873689376e-05, 'total_loss': 150.60447692871094}, 'load_time_ms': 0.598, 'num_steps_sampled': 1550400, 'grad_time_ms': 671.088, 'update_time_ms': 2.368, 'sample_time_ms': 30099.877}",2025-08-31_03-12-18,cda-server-4,33.234783411026,7752,1756602738,10.157.146.4,False,39692.75075650215,1200
+1293,-608.9175973442997,1293,1551600,{},-667.7061371058259,1551600,0,39724.493876457214,-477.78949343779914,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1551600, 'default': {'kl': 0.01127632986754179, 'policy_loss': -0.13894158601760864, 'vf_loss': 381.1640625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.961913526058197, 'entropy': 6.128141403198242, 'cur_lr': 4.999999873689376e-05, 'total_loss': 381.0422668457031}, 'load_time_ms': 0.598, 'num_steps_sampled': 1551600, 'grad_time_ms': 664.582, 'update_time_ms': 2.308, 'sample_time_ms': 30159.145}",2025-08-31_03-12-50,cda-server-4,31.743119955062866,7758,1756602770,10.157.146.4,False,39724.493876457214,1200
+1294,-610.4573708224492,1294,1552800,{},-691.2814711367646,1552800,0,39757.37033677101,-477.78949343779914,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1552800, 'default': {'kl': 0.008673314936459064, 'policy_loss': -0.12307964265346527, 'vf_loss': 651.2708129882812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9535696506500244, 'entropy': 6.314254283905029, 'cur_lr': 4.999999873689376e-05, 'total_loss': 651.160888671875}, 'load_time_ms': 0.599, 'num_steps_sampled': 1552800, 'grad_time_ms': 651.961, 'update_time_ms': 2.359, 'sample_time_ms': 30310.785}",2025-08-31_03-13-23,cda-server-4,32.876460313797,7764,1756602803,10.157.146.4,False,39757.37033677101,1200
+1295,-609.6610033682335,1295,1554000,{},-691.2814711367646,1554000,0,39790.90426325798,-477.78949343779914,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1554000, 'default': {'kl': 0.011903620325028896, 'policy_loss': -0.16263607144355774, 'vf_loss': 752.4049682617188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9653028845787048, 'entropy': 5.9839348793029785, 'cur_lr': 4.999999873689376e-05, 'total_loss': 752.2604370117188}, 'load_time_ms': 0.598, 'num_steps_sampled': 1554000, 'grad_time_ms': 661.647, 'update_time_ms': 2.317, 'sample_time_ms': 30758.507}",2025-08-31_03-13-56,cda-server-4,33.533926486968994,7770,1756602836,10.157.146.4,False,39790.90426325798,1200
+1296,-609.0794038937788,1296,1555200,{},-691.2814711367646,1555200,0,39824.87806391716,-477.78949343779914,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1555200, 'default': {'kl': 0.008673695847392082, 'policy_loss': -0.13463810086250305, 'vf_loss': 285.80194091796875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9807448983192444, 'entropy': 6.062993049621582, 'cur_lr': 4.999999873689376e-05, 'total_loss': 285.68048095703125}, 'load_time_ms': 0.602, 'num_steps_sampled': 1555200, 'grad_time_ms': 661.701, 'update_time_ms': 2.291, 'sample_time_ms': 31281.131}",2025-08-31_03-14-30,cda-server-4,33.97380065917969,7776,1756602870,10.157.146.4,False,39824.87806391716,1200
+1297,-610.4533740946556,1297,1556400,{},-691.2814711367646,1556400,0,39852.496205329895,-477.78949343779914,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1556400, 'default': {'kl': 0.012644640170037746, 'policy_loss': -0.13881155848503113, 'vf_loss': 66.5249252319336, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9905993342399597, 'entropy': 5.997876167297363, 'cur_lr': 4.999999873689376e-05, 'total_loss': 66.40531158447266}, 'load_time_ms': 0.611, 'num_steps_sampled': 1556400, 'grad_time_ms': 652.449, 'update_time_ms': 2.336, 'sample_time_ms': 30982.625}",2025-08-31_03-14-58,cda-server-4,27.618141412734985,7782,1756602898,10.157.146.4,False,39852.496205329895,1200
+1298,-611.7909472416854,1298,1557600,{},-691.2814711367646,1557600,0,39883.947479486465,-495.87198604045585,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1557600, 'default': {'kl': 0.010572191327810287, 'policy_loss': -0.14487968385219574, 'vf_loss': 83.16515350341797, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9938009977340698, 'entropy': 6.024530410766602, 'cur_lr': 4.999999873689376e-05, 'total_loss': 83.03632354736328}, 'load_time_ms': 0.621, 'num_steps_sampled': 1557600, 'grad_time_ms': 646.389, 'update_time_ms': 2.315, 'sample_time_ms': 31093.896}",2025-08-31_03-15-29,cda-server-4,31.451274156570435,7788,1756602929,10.157.146.4,False,39883.947479486465,1200
+1299,-611.531977891945,1299,1558800,{},-691.2814711367646,1558800,0,39916.23282265663,-495.87198604045585,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1558800, 'default': {'kl': 0.01254782173782587, 'policy_loss': -0.16464224457740784, 'vf_loss': 127.89620208740234, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9831289649009705, 'entropy': 5.969881057739258, 'cur_lr': 4.999999873689376e-05, 'total_loss': 127.75062561035156}, 'load_time_ms': 0.605, 'num_steps_sampled': 1558800, 'grad_time_ms': 633.314, 'update_time_ms': 2.319, 'sample_time_ms': 31150.285}",2025-08-31_03-16-02,cda-server-4,32.285343170166016,7794,1756602962,10.157.146.4,False,39916.23282265663,1200
+1300,-610.9330946172813,1300,1560000,{},-691.2814711367646,1560000,0,39949.81556582451,-495.87198604045585,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1560000, 'default': {'kl': 0.01197590958327055, 'policy_loss': -0.1288711130619049, 'vf_loss': 136.77035522460938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9925392866134644, 'entropy': 6.06711483001709, 'cur_lr': 4.999999873689376e-05, 'total_loss': 136.65968322753906}, 'load_time_ms': 0.609, 'num_steps_sampled': 1560000, 'grad_time_ms': 633.487, 'update_time_ms': 2.264, 'sample_time_ms': 31530.849}",2025-08-31_03-16-35,cda-server-4,33.5827431678772,7800,1756602995,10.157.146.4,False,39949.81556582451,1200
+1301,-611.7797567112764,1301,1561200,{},-691.2814711367646,1561200,0,39977.225132226944,-495.87198604045585,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1561200, 'default': {'kl': 0.008973639458417892, 'policy_loss': -0.1253250241279602, 'vf_loss': 96.75060272216797, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9905825853347778, 'entropy': 6.183717727661133, 'cur_lr': 4.999999873689376e-05, 'total_loss': 96.63890075683594}, 'load_time_ms': 0.609, 'num_steps_sampled': 1561200, 'grad_time_ms': 627.737, 'update_time_ms': 2.269, 'sample_time_ms': 31136.111}",2025-08-31_03-17-03,cda-server-4,27.409566402435303,7806,1756603023,10.157.146.4,False,39977.225132226944,1200
+1302,-611.8913906690409,1302,1562400,{},-691.2814711367646,1562400,0,40008.94562840462,-495.87198604045585,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1562400, 'default': {'kl': 0.009194821119308472, 'policy_loss': -0.0983540415763855, 'vf_loss': 183.67364501953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9837608337402344, 'entropy': 6.011987686157227, 'cur_lr': 4.999999873689376e-05, 'total_loss': 183.58924865722656}, 'load_time_ms': 0.62, 'num_steps_sampled': 1562400, 'grad_time_ms': 627.242, 'update_time_ms': 2.317, 'sample_time_ms': 30985.324}",2025-08-31_03-17-34,cda-server-4,31.72049617767334,7812,1756603054,10.157.146.4,False,40008.94562840462,1200
+1303,-612.727776139403,1303,1563600,{},-786.738677814882,1563600,0,40040.423325538635,-495.87198604045585,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1563600, 'default': {'kl': 0.011915605515241623, 'policy_loss': -0.13179025053977966, 'vf_loss': 1677.32568359375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8295590281486511, 'entropy': 6.196235179901123, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1677.212158203125}, 'load_time_ms': 0.617, 'num_steps_sampled': 1563600, 'grad_time_ms': 609.979, 'update_time_ms': 2.346, 'sample_time_ms': 30976.071}",2025-08-31_03-18-06,cda-server-4,31.477697134017944,7818,1756603086,10.157.146.4,False,40040.423325538635,1200
+1304,-612.840231130625,1304,1564800,{},-786.738677814882,1564800,0,40070.613830566406,-495.87198604045585,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1564800, 'default': {'kl': 0.009144936688244343, 'policy_loss': -0.12622110545635223, 'vf_loss': 104.60614013671875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9888697862625122, 'entropy': 6.118069648742676, 'cur_lr': 4.999999873689376e-05, 'total_loss': 104.49380493164062}, 'load_time_ms': 0.62, 'num_steps_sampled': 1564800, 'grad_time_ms': 606.098, 'update_time_ms': 2.311, 'sample_time_ms': 30711.368}",2025-08-31_03-18-36,cda-server-4,30.190505027770996,7824,1756603116,10.157.146.4,False,40070.613830566406,1200
+1305,-614.1124607031583,1305,1566000,{},-786.738677814882,1566000,0,40098.57674956322,-495.87198604045585,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1566000, 'default': {'kl': 0.009206460788846016, 'policy_loss': -0.10813465714454651, 'vf_loss': 983.2708129882812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9337289333343506, 'entropy': 6.237458229064941, 'cur_lr': 4.999999873689376e-05, 'total_loss': 983.1767578125}, 'load_time_ms': 0.648, 'num_steps_sampled': 1566000, 'grad_time_ms': 602.686, 'update_time_ms': 2.24, 'sample_time_ms': 30157.743}",2025-08-31_03-19-04,cda-server-4,27.962918996810913,7830,1756603144,10.157.146.4,False,40098.57674956322,1200
+1306,-614.3215039027053,1306,1567200,{},-786.738677814882,1567200,0,40126.91440272331,-495.87198604045585,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1567200, 'default': {'kl': 0.008944656699895859, 'policy_loss': -0.12612959742546082, 'vf_loss': 212.87901306152344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9805218577384949, 'entropy': 5.95079231262207, 'cur_lr': 4.999999873689376e-05, 'total_loss': 212.76646423339844}, 'load_time_ms': 0.641, 'num_steps_sampled': 1567200, 'grad_time_ms': 610.291, 'update_time_ms': 2.243, 'sample_time_ms': 29586.481}",2025-08-31_03-19-32,cda-server-4,28.337653160095215,7836,1756603172,10.157.146.4,False,40126.91440272331,1200
+1307,-613.6410712786799,1307,1568400,{},-786.738677814882,1568400,0,40159.0765376091,-495.87198604045585,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1568400, 'default': {'kl': 0.01068966370075941, 'policy_loss': -0.12609915435314178, 'vf_loss': 301.7845458984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9744703769683838, 'entropy': 5.965677738189697, 'cur_lr': 4.999999873689376e-05, 'total_loss': 301.6747131347656}, 'load_time_ms': 0.668, 'num_steps_sampled': 1568400, 'grad_time_ms': 627.209, 'update_time_ms': 2.258, 'sample_time_ms': 30024.025}",2025-08-31_03-20-05,cda-server-4,32.162134885787964,7842,1756603205,10.157.146.4,False,40159.0765376091,1200
+1308,-613.4208535040993,1308,1569600,{},-786.738677814882,1569600,0,40190.58245563507,-495.87198604045585,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1569600, 'default': {'kl': 0.009049751795828342, 'policy_loss': -0.10510598868131638, 'vf_loss': 181.76632690429688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9739207029342651, 'entropy': 5.822977542877197, 'cur_lr': 4.999999873689376e-05, 'total_loss': 181.6749725341797}, 'load_time_ms': 0.659, 'num_steps_sampled': 1569600, 'grad_time_ms': 642.191, 'update_time_ms': 2.247, 'sample_time_ms': 30014.546}",2025-08-31_03-20-36,cda-server-4,31.50591802597046,7848,1756603236,10.157.146.4,False,40190.58245563507,1200
+1309,-612.3207225806503,1309,1570800,{},-786.738677814882,1570800,0,40221.21049141884,-495.87198604045585,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1570800, 'default': {'kl': 0.010492833331227303, 'policy_loss': -0.1357298493385315, 'vf_loss': 72.02631378173828, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9941704273223877, 'entropy': 6.002212047576904, 'cur_lr': 4.999999873689376e-05, 'total_loss': 71.9065170288086}, 'load_time_ms': 0.67, 'num_steps_sampled': 1570800, 'grad_time_ms': 659.293, 'update_time_ms': 2.236, 'sample_time_ms': 29831.666}",2025-08-31_03-21-07,cda-server-4,30.6280357837677,7854,1756603267,10.157.146.4,False,40221.21049141884,1200
+1310,-612.7691677974906,1310,1572000,{},-786.738677814882,1572000,0,40252.55646395683,-531.4614479609428,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1572000, 'default': {'kl': 0.007848634384572506, 'policy_loss': -0.12275382876396179, 'vf_loss': 764.1983642578125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9326019287109375, 'entropy': 5.9200921058654785, 'cur_lr': 4.999999873689376e-05, 'total_loss': 764.0875244140625}, 'load_time_ms': 0.685, 'num_steps_sampled': 1572000, 'grad_time_ms': 684.637, 'update_time_ms': 2.231, 'sample_time_ms': 29582.645}",2025-08-31_03-21-38,cda-server-4,31.345972537994385,7860,1756603298,10.157.146.4,False,40252.55646395683,1200
+1311,-611.9988530676375,1311,1573200,{},-786.738677814882,1573200,0,40285.41734409332,-531.4614479609428,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1573200, 'default': {'kl': 0.010547162964940071, 'policy_loss': -0.13808497786521912, 'vf_loss': 369.4226379394531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9683271050453186, 'entropy': 6.031463623046875, 'cur_lr': 4.999999873689376e-05, 'total_loss': 369.300537109375}, 'load_time_ms': 0.717, 'num_steps_sampled': 1573200, 'grad_time_ms': 695.427, 'update_time_ms': 2.279, 'sample_time_ms': 30116.822}",2025-08-31_03-22-11,cda-server-4,32.86088013648987,7866,1756603331,10.157.146.4,False,40285.41734409332,1200
+1312,-612.4334018290848,1312,1574400,{},-786.738677814882,1574400,0,40316.14095187187,-563.7321007033697,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1574400, 'default': {'kl': 0.007596207782626152, 'policy_loss': -0.11458342522382736, 'vf_loss': 221.93960571289062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9731874465942383, 'entropy': 5.931643486022949, 'cur_lr': 4.999999873689376e-05, 'total_loss': 221.83657836914062}, 'load_time_ms': 0.708, 'num_steps_sampled': 1574400, 'grad_time_ms': 701.705, 'update_time_ms': 2.293, 'sample_time_ms': 30010.718}",2025-08-31_03-22-42,cda-server-4,30.723607778549194,7872,1756603362,10.157.146.4,False,40316.14095187187,1200
+1313,-614.8851835216981,1313,1575600,{},-786.738677814882,1575600,0,40348.65990495682,-563.7321007033697,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1575600, 'default': {'kl': 0.011888876557350159, 'policy_loss': -0.14010119438171387, 'vf_loss': 457.5889892578125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9558151960372925, 'entropy': 6.057001113891602, 'cur_lr': 4.999999873689376e-05, 'total_loss': 457.4669189453125}, 'load_time_ms': 0.705, 'num_steps_sampled': 1575600, 'grad_time_ms': 725.155, 'update_time_ms': 2.328, 'sample_time_ms': 30091.357}",2025-08-31_03-23-14,cda-server-4,32.51895308494568,7878,1756603394,10.157.146.4,False,40348.65990495682,1200
+1314,-614.8247398601985,1314,1576800,{},-786.738677814882,1576800,0,40376.06887149811,-563.7321007033697,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1576800, 'default': {'kl': 0.010672274976968765, 'policy_loss': -0.12365011125802994, 'vf_loss': 217.71282958984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9688058495521545, 'entropy': 5.650367259979248, 'cur_lr': 4.999999873689376e-05, 'total_loss': 217.60540771484375}, 'load_time_ms': 0.7, 'num_steps_sampled': 1576800, 'grad_time_ms': 720.976, 'update_time_ms': 2.289, 'sample_time_ms': 29817.442}",2025-08-31_03-23-42,cda-server-4,27.408966541290283,7884,1756603422,10.157.146.4,False,40376.06887149811,1200
+1315,-614.5208530856286,1315,1578000,{},-786.738677814882,1578000,0,40404.33013558388,-525.6637924810932,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1578000, 'default': {'kl': 0.010088724084198475, 'policy_loss': -0.15206597745418549, 'vf_loss': 266.6117858886719, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9702343344688416, 'entropy': 6.128432273864746, 'cur_lr': 4.999999873689376e-05, 'total_loss': 266.4750061035156}, 'load_time_ms': 0.668, 'num_steps_sampled': 1578000, 'grad_time_ms': 702.841, 'update_time_ms': 2.314, 'sample_time_ms': 29865.477}",2025-08-31_03-24-10,cda-server-4,28.261264085769653,7890,1756603450,10.157.146.4,False,40404.33013558388,1200
+1316,-615.6973668972546,1316,1579200,{},-786.738677814882,1579200,0,40438.01118397713,-525.6637924810932,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1579200, 'default': {'kl': 0.010763364844024181, 'policy_loss': -0.1446956843137741, 'vf_loss': 83.2762222290039, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.993230938911438, 'entropy': 6.021439552307129, 'cur_lr': 4.999999873689376e-05, 'total_loss': 83.14787292480469}, 'load_time_ms': 0.669, 'num_steps_sampled': 1579200, 'grad_time_ms': 707.981, 'update_time_ms': 2.338, 'sample_time_ms': 30394.608}",2025-08-31_03-24-44,cda-server-4,33.68104839324951,7896,1756603484,10.157.146.4,False,40438.01118397713,1200
+1317,-616.0827422547941,1317,1580400,{},-786.738677814882,1580400,0,40467.40689659119,-525.6637924810932,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1580400, 'default': {'kl': 0.010285455733537674, 'policy_loss': -0.12801140546798706, 'vf_loss': 287.1677551269531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9785770773887634, 'entropy': 6.088909149169922, 'cur_lr': 4.999999873689376e-05, 'total_loss': 287.0553283691406}, 'load_time_ms': 0.633, 'num_steps_sampled': 1580400, 'grad_time_ms': 698.236, 'update_time_ms': 2.394, 'sample_time_ms': 30127.653}",2025-08-31_03-25-13,cda-server-4,29.39571261405945,7902,1756603513,10.157.146.4,False,40467.40689659119,1200
+1318,-615.2400102237701,1318,1581600,{},-786.738677814882,1581600,0,40499.62862730026,-525.6637924810932,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1581600, 'default': {'kl': 0.01129881665110588, 'policy_loss': -0.1391557902097702, 'vf_loss': 506.04046630859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9566282629966736, 'entropy': 5.842573165893555, 'cur_lr': 4.999999873689376e-05, 'total_loss': 505.91851806640625}, 'load_time_ms': 0.633, 'num_steps_sampled': 1581600, 'grad_time_ms': 691.653, 'update_time_ms': 2.428, 'sample_time_ms': 30205.7}",2025-08-31_03-25-45,cda-server-4,32.22173070907593,7908,1756603545,10.157.146.4,False,40499.62862730026,1200
+1319,-615.488371867231,1319,1582800,{},-786.738677814882,1582800,0,40533.172654628754,-525.6637924810932,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1582800, 'default': {'kl': 0.010243590921163559, 'policy_loss': -0.12694686651229858, 'vf_loss': 221.66372680664062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9772374629974365, 'entropy': 5.943243980407715, 'cur_lr': 4.999999873689376e-05, 'total_loss': 221.55233764648438}, 'load_time_ms': 0.66, 'num_steps_sampled': 1582800, 'grad_time_ms': 702.816, 'update_time_ms': 2.451, 'sample_time_ms': 30486.08}",2025-08-31_03-26-19,cda-server-4,33.54402732849121,7914,1756603579,10.157.146.4,False,40533.172654628754,1200
+1320,-613.7053717514156,1320,1584000,{},-736.6774111036497,1584000,0,40562.86644554138,-525.6637924810932,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1584000, 'default': {'kl': 0.0122253792360425, 'policy_loss': -0.15190915763378143, 'vf_loss': 151.25518798828125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9815965294837952, 'entropy': 6.040567398071289, 'cur_lr': 4.999999873689376e-05, 'total_loss': 151.12184143066406}, 'load_time_ms': 0.643, 'num_steps_sampled': 1584000, 'grad_time_ms': 680.971, 'update_time_ms': 2.442, 'sample_time_ms': 30342.639}",2025-08-31_03-26-49,cda-server-4,29.693790912628174,7920,1756603609,10.157.146.4,False,40562.86644554138,1200
+1321,-614.1649757726391,1321,1585200,{},-763.2915608105427,1585200,0,40593.03455758095,-525.6637924810932,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1585200, 'default': {'kl': 0.010078108869493008, 'policy_loss': -0.14459776878356934, 'vf_loss': 438.853515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.966345489025116, 'entropy': 6.31381368637085, 'cur_lr': 4.999999873689376e-05, 'total_loss': 438.7242126464844}, 'load_time_ms': 0.644, 'num_steps_sampled': 1585200, 'grad_time_ms': 671.009, 'update_time_ms': 2.494, 'sample_time_ms': 30083.371}",2025-08-31_03-27-19,cda-server-4,30.16811203956604,7926,1756603639,10.157.146.4,False,40593.03455758095,1200
+1322,-613.06378948302,1322,1586400,{},-763.2915608105427,1586400,0,40620.987107753754,-525.6637924810932,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1586400, 'default': {'kl': 0.011253681033849716, 'policy_loss': -0.14973707497119904, 'vf_loss': 312.0950927734375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.956344485282898, 'entropy': 5.951529026031494, 'cur_lr': 4.999999873689376e-05, 'total_loss': 311.96246337890625}, 'load_time_ms': 0.641, 'num_steps_sampled': 1586400, 'grad_time_ms': 671.157, 'update_time_ms': 2.486, 'sample_time_ms': 29806.163}",2025-08-31_03-27-47,cda-server-4,27.952550172805786,7932,1756603667,10.157.146.4,False,40620.987107753754,1200
+1323,-612.7724602008666,1323,1587600,{},-763.2915608105427,1587600,0,40650.253286361694,-525.6637924810932,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1587600, 'default': {'kl': 0.00975791271775961, 'policy_loss': -0.13800552487373352, 'vf_loss': 113.24286651611328, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9867241978645325, 'entropy': 6.142317771911621, 'cur_lr': 4.999999873689376e-05, 'total_loss': 113.11968231201172}, 'load_time_ms': 0.641, 'num_steps_sampled': 1587600, 'grad_time_ms': 674.373, 'update_time_ms': 2.43, 'sample_time_ms': 29477.731}",2025-08-31_03-28-16,cda-server-4,29.266178607940674,7938,1756603696,10.157.146.4,False,40650.253286361694,1200
+1324,-613.0499559157831,1324,1588800,{},-763.2915608105427,1588800,0,40683.01741027832,-525.6637924810932,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1588800, 'default': {'kl': 0.009258215315639973, 'policy_loss': -0.14283126592636108, 'vf_loss': 101.29918670654297, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9906138181686401, 'entropy': 5.978855609893799, 'cur_lr': 4.999999873689376e-05, 'total_loss': 101.17041778564453}, 'load_time_ms': 0.655, 'num_steps_sampled': 1588800, 'grad_time_ms': 685.195, 'update_time_ms': 2.49, 'sample_time_ms': 30002.264}",2025-08-31_03-28-49,cda-server-4,32.76412391662598,7944,1756603729,10.157.146.4,False,40683.01741027832,1200
+1325,-614.2212400865482,1325,1590000,{},-763.2915608105427,1590000,0,40712.49841308594,-525.6637924810932,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1590000, 'default': {'kl': 0.011912493966519833, 'policy_loss': -0.14744813740253448, 'vf_loss': 126.94419860839844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9884358644485474, 'entropy': 5.909915924072266, 'cur_lr': 4.999999873689376e-05, 'total_loss': 126.81484985351562}, 'load_time_ms': 0.667, 'num_steps_sampled': 1590000, 'grad_time_ms': 709.156, 'update_time_ms': 2.499, 'sample_time_ms': 30100.156}",2025-08-31_03-29-18,cda-server-4,29.481002807617188,7950,1756603758,10.157.146.4,False,40712.49841308594,1200
+1326,-615.7522074797433,1326,1591200,{},-763.2915608105427,1591200,0,40742.41499018669,-525.6637924810932,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1591200, 'default': {'kl': 0.010307314805686474, 'policy_loss': -0.14037221670150757, 'vf_loss': 362.9580383300781, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9508548378944397, 'entropy': 6.348339080810547, 'cur_lr': 4.999999873689376e-05, 'total_loss': 362.8333435058594}, 'load_time_ms': 0.688, 'num_steps_sampled': 1591200, 'grad_time_ms': 702.519, 'update_time_ms': 2.504, 'sample_time_ms': 29730.375}",2025-08-31_03-29-48,cda-server-4,29.916577100753784,7956,1756603788,10.157.146.4,False,40742.41499018669,1200
+1327,-615.7500038907747,1327,1592400,{},-794.7734096447045,1592400,0,40774.48891925812,-492.74591479622165,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1592400, 'default': {'kl': 0.013580179773271084, 'policy_loss': -0.13512077927589417, 'vf_loss': 2406.572265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8878524899482727, 'entropy': 6.018021583557129, 'cur_lr': 4.999999873689376e-05, 'total_loss': 2406.4580078125}, 'load_time_ms': 0.689, 'num_steps_sampled': 1592400, 'grad_time_ms': 708.82, 'update_time_ms': 2.428, 'sample_time_ms': 29991.995}",2025-08-31_03-30-20,cda-server-4,32.07392907142639,7962,1756603820,10.157.146.4,False,40774.48891925812,1200
+1328,-615.1145879779327,1328,1593600,{},-794.7734096447045,1593600,0,40805.639984846115,-492.74591479622165,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1593600, 'default': {'kl': 0.00981952901929617, 'policy_loss': -0.1465819627046585, 'vf_loss': 107.56783294677734, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9890481233596802, 'entropy': 5.954261779785156, 'cur_lr': 4.999999873689376e-05, 'total_loss': 107.43616485595703}, 'load_time_ms': 0.692, 'num_steps_sampled': 1593600, 'grad_time_ms': 709.146, 'update_time_ms': 2.45, 'sample_time_ms': 29884.64}",2025-08-31_03-30-51,cda-server-4,31.151065587997437,7968,1756603851,10.157.146.4,False,40805.639984846115,1200
+1329,-613.4737473091022,1329,1594800,{},-794.7734096447045,1594800,0,40836.157730579376,-492.74591479622165,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1594800, 'default': {'kl': 0.008334871381521225, 'policy_loss': -0.1327606439590454, 'vf_loss': 80.17969512939453, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9869903922080994, 'entropy': 5.857841491699219, 'cur_lr': 4.999999873689376e-05, 'total_loss': 80.05958557128906}, 'load_time_ms': 0.673, 'num_steps_sampled': 1594800, 'grad_time_ms': 707.636, 'update_time_ms': 2.485, 'sample_time_ms': 29583.562}",2025-08-31_03-31-22,cda-server-4,30.51774573326111,7974,1756603882,10.157.146.4,False,40836.157730579376,1200
+1330,-613.7287332421181,1330,1596000,{},-794.7734096447045,1596000,0,40867.93902182579,-492.74591479622165,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1596000, 'default': {'kl': 0.01083090715110302, 'policy_loss': -0.1439761221408844, 'vf_loss': 135.79725646972656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9934460520744324, 'entropy': 5.883203983306885, 'cur_lr': 4.999999873689376e-05, 'total_loss': 135.66973876953125}, 'load_time_ms': 0.671, 'num_steps_sampled': 1596000, 'grad_time_ms': 715.148, 'update_time_ms': 2.446, 'sample_time_ms': 29784.924}",2025-08-31_03-31-54,cda-server-4,31.781291246414185,7980,1756603914,10.157.146.4,False,40867.93902182579,1200
+1331,-614.0742998551617,1331,1597200,{},-794.7734096447045,1597200,0,40898.21057224274,-492.74591479622165,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1597200, 'default': {'kl': 0.010247371159493923, 'policy_loss': -0.12974153459072113, 'vf_loss': 89.12417602539062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9887969493865967, 'entropy': 5.8969407081604, 'cur_lr': 4.999999873689376e-05, 'total_loss': 89.00999450683594}, 'load_time_ms': 0.636, 'num_steps_sampled': 1597200, 'grad_time_ms': 714.637, 'update_time_ms': 2.323, 'sample_time_ms': 29795.922}",2025-08-31_03-32-24,cda-server-4,30.27155041694641,7986,1756603944,10.157.146.4,False,40898.21057224274,1200
+1332,-613.8951889427019,1332,1598400,{},-794.7734096447045,1598400,0,40928.347222328186,-492.74591479622165,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1598400, 'default': {'kl': 0.009876878932118416, 'policy_loss': -0.13185983896255493, 'vf_loss': 439.9173583984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9415314793586731, 'entropy': 6.381216049194336, 'cur_lr': 4.999999873689376e-05, 'total_loss': 439.8005065917969}, 'load_time_ms': 0.63, 'num_steps_sampled': 1598400, 'grad_time_ms': 688.646, 'update_time_ms': 2.298, 'sample_time_ms': 30040.517}",2025-08-31_03-32-54,cda-server-4,30.13665008544922,7992,1756603974,10.157.146.4,False,40928.347222328186,1200
+1333,-612.4345429343294,1333,1599600,{},-794.7734096447045,1599600,0,40960.282608509064,-492.74591479622165,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1599600, 'default': {'kl': 0.010343037545681, 'policy_loss': -0.14501257240772247, 'vf_loss': 343.42803955078125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9623926877975464, 'entropy': 5.8343915939331055, 'cur_lr': 4.999999873689376e-05, 'total_loss': 343.29876708984375}, 'load_time_ms': 0.633, 'num_steps_sampled': 1599600, 'grad_time_ms': 678.697, 'update_time_ms': 2.276, 'sample_time_ms': 30317.361}",2025-08-31_03-33-26,cda-server-4,31.935386180877686,7998,1756604006,10.157.146.4,False,40960.282608509064,1200
+1334,-612.4762908842072,1334,1600800,{},-794.7734096447045,1600800,0,40990.786326408386,-492.74591479622165,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1600800, 'default': {'kl': 0.009588120505213737, 'policy_loss': -0.12337964028120041, 'vf_loss': 113.81080627441406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9870368242263794, 'entropy': 5.839752674102783, 'cur_lr': 4.999999873689376e-05, 'total_loss': 113.70199584960938}, 'load_time_ms': 0.621, 'num_steps_sampled': 1600800, 'grad_time_ms': 674.643, 'update_time_ms': 2.283, 'sample_time_ms': 30095.426}",2025-08-31_03-33-57,cda-server-4,30.50371789932251,8004,1756604037,10.157.146.4,False,40990.786326408386,1200
+1335,-612.523436448978,1335,1602000,{},-794.7734096447045,1602000,0,41020.12232923508,-492.74591479622165,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1602000, 'default': {'kl': 0.010757951997220516, 'policy_loss': -0.14703162014484406, 'vf_loss': 144.25852966308594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9867956638336182, 'entropy': 6.082766056060791, 'cur_lr': 4.999999873689376e-05, 'total_loss': 144.12783813476562}, 'load_time_ms': 0.627, 'num_steps_sampled': 1602000, 'grad_time_ms': 669.021, 'update_time_ms': 2.278, 'sample_time_ms': 30086.585}",2025-08-31_03-34-26,cda-server-4,29.336002826690674,8010,1756604066,10.157.146.4,False,41020.12232923508,1200
+1336,-612.528016612921,1336,1603200,{},-794.7734096447045,1603200,0,41052.14305686951,-492.74591479622165,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1603200, 'default': {'kl': 0.009537720121443272, 'policy_loss': -0.1251133382320404, 'vf_loss': 117.84798431396484, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9878941774368286, 'entropy': 5.907951831817627, 'cur_lr': 4.999999873689376e-05, 'total_loss': 117.73735809326172}, 'load_time_ms': 0.605, 'num_steps_sampled': 1603200, 'grad_time_ms': 668.964, 'update_time_ms': 2.254, 'sample_time_ms': 30297.071}",2025-08-31_03-34-58,cda-server-4,32.02072763442993,8016,1756604098,10.157.146.4,False,41052.14305686951,1200
+1337,-612.556128375767,1337,1604400,{},-794.7734096447045,1604400,0,41082.230561971664,-492.74591479622165,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1604400, 'default': {'kl': 0.011254378594458103, 'policy_loss': -0.14180278778076172, 'vf_loss': 47.57035446166992, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9935548305511475, 'entropy': 6.020720481872559, 'cur_lr': 4.999999873689376e-05, 'total_loss': 47.445640563964844}, 'load_time_ms': 0.602, 'num_steps_sampled': 1604400, 'grad_time_ms': 669.94, 'update_time_ms': 2.276, 'sample_time_ms': 30097.374}",2025-08-31_03-35-28,cda-server-4,30.087505102157593,8022,1756604128,10.157.146.4,False,41082.230561971664,1200
+1338,-610.8960614845555,1338,1605600,{},-794.7734096447045,1605600,0,41114.746999025345,-492.74591479622165,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1605600, 'default': {'kl': 0.010172838345170021, 'policy_loss': -0.140066459774971, 'vf_loss': 449.16351318359375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.97050940990448, 'entropy': 6.436428546905518, 'cur_lr': 4.999999873689376e-05, 'total_loss': 449.0389404296875}, 'load_time_ms': 0.599, 'num_steps_sampled': 1605600, 'grad_time_ms': 661.441, 'update_time_ms': 2.286, 'sample_time_ms': 30242.423}",2025-08-31_03-36-01,cda-server-4,32.51643705368042,8028,1756604161,10.157.146.4,False,41114.746999025345,1200
+1339,-611.4531560445594,1339,1606800,{},-794.7734096447045,1606800,0,41145.14852619171,-492.74591479622165,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1606800, 'default': {'kl': 0.010066269896924496, 'policy_loss': -0.1324339658021927, 'vf_loss': 142.68524169921875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9850349426269531, 'entropy': 6.0911173820495605, 'cur_lr': 4.999999873689376e-05, 'total_loss': 142.56808471679688}, 'load_time_ms': 0.588, 'num_steps_sampled': 1606800, 'grad_time_ms': 651.216, 'update_time_ms': 2.308, 'sample_time_ms': 30240.968}",2025-08-31_03-36-31,cda-server-4,30.401527166366577,8034,1756604191,10.157.146.4,False,41145.14852619171,1200
+1340,-611.7700847462141,1340,1608000,{},-794.7734096447045,1608000,0,41176.64273571968,-492.74591479622165,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1608000, 'default': {'kl': 0.011530745774507523, 'policy_loss': -0.14829792082309723, 'vf_loss': 97.59732055664062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.988458514213562, 'entropy': 5.801795959472656, 'cur_lr': 4.999999873689376e-05, 'total_loss': 97.46654510498047}, 'load_time_ms': 0.594, 'num_steps_sampled': 1608000, 'grad_time_ms': 645.159, 'update_time_ms': 2.327, 'sample_time_ms': 30218.316}",2025-08-31_03-37-03,cda-server-4,31.49420952796936,8040,1756604223,10.157.146.4,False,41176.64273571968,1200
+1341,-611.8340764012963,1341,1609200,{},-794.7734096447045,1609200,0,41205.80269241333,-492.74591479622165,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1609200, 'default': {'kl': 0.010268162935972214, 'policy_loss': -0.12421715259552002, 'vf_loss': 137.41783142089844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9818171262741089, 'entropy': 6.017971038818359, 'cur_lr': 4.999999873689376e-05, 'total_loss': 137.3092041015625}, 'load_time_ms': 0.595, 'num_steps_sampled': 1609200, 'grad_time_ms': 632.722, 'update_time_ms': 2.357, 'sample_time_ms': 30119.555}",2025-08-31_03-37-32,cda-server-4,29.159956693649292,8046,1756604252,10.157.146.4,False,41205.80269241333,1200
+1342,-612.9982151747398,1342,1610400,{},-794.7734096447045,1610400,0,41236.27303195,-492.74591479622165,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1610400, 'default': {'kl': 0.0075878482311964035, 'policy_loss': -0.11187908053398132, 'vf_loss': 626.9808349609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9215644001960754, 'entropy': 6.18323278427124, 'cur_lr': 4.999999873689376e-05, 'total_loss': 626.8805541992188}, 'load_time_ms': 0.6, 'num_steps_sampled': 1610400, 'grad_time_ms': 658.834, 'update_time_ms': 2.386, 'sample_time_ms': 30126.703}",2025-08-31_03-38-02,cda-server-4,30.47033953666687,8052,1756604282,10.157.146.4,False,41236.27303195,1200
+1343,-612.4268559085467,1343,1611600,{},-794.7734096447045,1611600,0,41269.265382528305,-492.74591479622165,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1611600, 'default': {'kl': 0.009123698808252811, 'policy_loss': -0.11246057599782944, 'vf_loss': 72.25728607177734, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9898662567138672, 'entropy': 5.994962692260742, 'cur_lr': 4.999999873689376e-05, 'total_loss': 72.15867614746094}, 'load_time_ms': 0.624, 'num_steps_sampled': 1611600, 'grad_time_ms': 660.884, 'update_time_ms': 2.401, 'sample_time_ms': 30230.364}",2025-08-31_03-38-35,cda-server-4,32.992350578308105,8058,1756604315,10.157.146.4,False,41269.265382528305,1200
+1344,-613.0403396305751,1344,1612800,{},-770.4476612772469,1612800,0,41298.29206323624,-564.1441464651194,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1612800, 'default': {'kl': 0.011873964220285416, 'policy_loss': -0.14471013844013214, 'vf_loss': 380.9928283691406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9670522212982178, 'entropy': 5.904476165771484, 'cur_lr': 4.999999873689376e-05, 'total_loss': 380.8661804199219}, 'load_time_ms': 0.62, 'num_steps_sampled': 1612800, 'grad_time_ms': 651.746, 'update_time_ms': 2.371, 'sample_time_ms': 30091.8}",2025-08-31_03-39-04,cda-server-4,29.02668070793152,8064,1756604344,10.157.146.4,False,41298.29206323624,1200
+1345,-612.5998967192857,1345,1614000,{},-770.4476612772469,1614000,0,41331.03198099136,-564.1441464651194,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1614000, 'default': {'kl': 0.01079504657536745, 'policy_loss': -0.1301899552345276, 'vf_loss': 444.5260925292969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.95621258020401, 'entropy': 5.904043197631836, 'cur_lr': 4.999999873689376e-05, 'total_loss': 444.4123229980469}, 'load_time_ms': 0.611, 'num_steps_sampled': 1614000, 'grad_time_ms': 644.773, 'update_time_ms': 2.324, 'sample_time_ms': 30439.191}",2025-08-31_03-39-37,cda-server-4,32.73991775512695,8070,1756604377,10.157.146.4,False,41331.03198099136,1200
+1346,-612.7382023256511,1346,1615200,{},-770.4476612772469,1615200,0,41361.67618560791,-564.1441464651194,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1615200, 'default': {'kl': 0.009390904568135738, 'policy_loss': -0.12090057879686356, 'vf_loss': 82.3724136352539, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9867861866950989, 'entropy': 5.69470739364624, 'cur_lr': 4.999999873689376e-05, 'total_loss': 82.26577758789062}, 'load_time_ms': 0.619, 'num_steps_sampled': 1615200, 'grad_time_ms': 637.755, 'update_time_ms': 2.329, 'sample_time_ms': 30308.584}",2025-08-31_03-40-08,cda-server-4,30.64420461654663,8076,1756604408,10.157.146.4,False,41361.67618560791,1200
+1347,-614.4701733617172,1347,1616400,{},-770.4476612772469,1616400,0,41393.833810806274,-564.1441464651194,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1616400, 'default': {'kl': 0.01109037920832634, 'policy_loss': -0.13852746784687042, 'vf_loss': 291.0893249511719, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.965478241443634, 'entropy': 6.189815998077393, 'cur_lr': 4.999999873689376e-05, 'total_loss': 290.9676513671875}, 'load_time_ms': 0.621, 'num_steps_sampled': 1616400, 'grad_time_ms': 638.564, 'update_time_ms': 2.302, 'sample_time_ms': 30514.876}",2025-08-31_03-40-40,cda-server-4,32.15762519836426,8082,1756604440,10.157.146.4,False,41393.833810806274,1200
+1348,-614.8960615913205,1348,1617600,{},-770.4476612772469,1617600,0,41423.76759457588,-564.1441464651194,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1617600, 'default': {'kl': 0.010181516408920288, 'policy_loss': -0.13772955536842346, 'vf_loss': 88.65955352783203, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9935035705566406, 'entropy': 5.761523723602295, 'cur_lr': 4.999999873689376e-05, 'total_loss': 88.53728485107422}, 'load_time_ms': 0.625, 'num_steps_sampled': 1617600, 'grad_time_ms': 652.557, 'update_time_ms': 2.255, 'sample_time_ms': 30242.65}",2025-08-31_03-41-10,cda-server-4,29.933783769607544,8088,1756604470,10.157.146.4,False,41423.76759457588,1200
+1349,-614.8463395253189,1349,1618800,{},-770.4476612772469,1618800,0,41455.775742053986,-564.1441464651194,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1618800, 'default': {'kl': 0.010308791883289814, 'policy_loss': -0.12823736667633057, 'vf_loss': 138.27279663085938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9808168411254883, 'entropy': 5.846373558044434, 'cur_lr': 4.999999873689376e-05, 'total_loss': 138.16021728515625}, 'load_time_ms': 0.623, 'num_steps_sampled': 1618800, 'grad_time_ms': 667.582, 'update_time_ms': 2.209, 'sample_time_ms': 30388.282}",2025-08-31_03-41-42,cda-server-4,32.00814747810364,8094,1756604502,10.157.146.4,False,41455.775742053986,1200
+1350,-615.5658362454756,1350,1620000,{},-770.4476612772469,1620000,0,41488.47069597244,-564.1441464651194,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1620000, 'default': {'kl': 0.010867208242416382, 'policy_loss': -0.1284056156873703, 'vf_loss': 415.9257507324219, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9821686148643494, 'entropy': 6.0373969078063965, 'cur_lr': 4.999999873689376e-05, 'total_loss': 415.8138427734375}, 'load_time_ms': 0.625, 'num_steps_sampled': 1620000, 'grad_time_ms': 664.672, 'update_time_ms': 2.217, 'sample_time_ms': 30511.202}",2025-08-31_03-42-15,cda-server-4,32.69495391845703,8100,1756604535,10.157.146.4,False,41488.47069597244,1200
+1351,-615.1717456788831,1351,1621200,{},-770.4476612772469,1621200,0,41516.484070301056,-564.1441464651194,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1621200, 'default': {'kl': 0.011082027107477188, 'policy_loss': -0.12550438940525055, 'vf_loss': 234.6720428466797, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9735957384109497, 'entropy': 5.767301559448242, 'cur_lr': 4.999999873689376e-05, 'total_loss': 234.56333923339844}, 'load_time_ms': 0.636, 'num_steps_sampled': 1621200, 'grad_time_ms': 663.907, 'update_time_ms': 2.316, 'sample_time_ms': 30397.194}",2025-08-31_03-42-43,cda-server-4,28.01337432861328,8106,1756604563,10.157.146.4,False,41516.484070301056,1200
+1352,-615.8110785757963,1352,1622400,{},-770.4476612772469,1622400,0,41548.45867061615,-564.1441464651194,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1622400, 'default': {'kl': 0.010079564526677132, 'policy_loss': -0.13051214814186096, 'vf_loss': 169.479736328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9847729206085205, 'entropy': 5.95717191696167, 'cur_lr': 4.999999873689376e-05, 'total_loss': 169.36453247070312}, 'load_time_ms': 0.635, 'num_steps_sampled': 1622400, 'grad_time_ms': 649.499, 'update_time_ms': 2.274, 'sample_time_ms': 30562.109}",2025-08-31_03-43-15,cda-server-4,31.974600315093994,8112,1756604595,10.157.146.4,False,41548.45867061615,1200
+1353,-614.7641515151134,1353,1623600,{},-770.4476612772469,1623600,0,41577.57390546799,-564.1441464651194,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1623600, 'default': {'kl': 0.010437307879328728, 'policy_loss': -0.12408682703971863, 'vf_loss': 156.91676330566406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.984595537185669, 'entropy': 5.765796184539795, 'cur_lr': 4.999999873689376e-05, 'total_loss': 156.80853271484375}, 'load_time_ms': 0.611, 'num_steps_sampled': 1623600, 'grad_time_ms': 647.861, 'update_time_ms': 2.313, 'sample_time_ms': 30175.924}",2025-08-31_03-43-44,cda-server-4,29.115234851837158,8118,1756604624,10.157.146.4,False,41577.57390546799,1200
+1354,-616.460573214123,1354,1624800,{},-773.3422845846271,1624800,0,41607.97693800926,-564.1441464651194,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1624800, 'default': {'kl': 0.009693442843854427, 'policy_loss': -0.11428427696228027, 'vf_loss': 499.5657958984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.943008542060852, 'entropy': 5.711012840270996, 'cur_lr': 4.999999873689376e-05, 'total_loss': 499.46624755859375}, 'load_time_ms': 0.649, 'num_steps_sampled': 1624800, 'grad_time_ms': 653.747, 'update_time_ms': 2.264, 'sample_time_ms': 30307.624}",2025-08-31_03-44-14,cda-server-4,30.403032541275024,8124,1756604654,10.157.146.4,False,41607.97693800926,1200
+1355,-617.0052381186294,1355,1626000,{},-773.3422845846271,1626000,0,41639.89407157898,-566.8808459588365,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1626000, 'default': {'kl': 0.007993999868631363, 'policy_loss': -0.1300661861896515, 'vf_loss': 276.7060546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9702900648117065, 'entropy': 5.838209629058838, 'cur_lr': 4.999999873689376e-05, 'total_loss': 276.5881652832031}, 'load_time_ms': 0.647, 'num_steps_sampled': 1626000, 'grad_time_ms': 662.871, 'update_time_ms': 2.295, 'sample_time_ms': 30216.206}",2025-08-31_03-44-46,cda-server-4,31.917133569717407,8130,1756604686,10.157.146.4,False,41639.89407157898,1200
+1356,-616.9924190196072,1356,1627200,{},-773.3422845846271,1627200,0,41669.12968540192,-566.8808459588365,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1627200, 'default': {'kl': 0.01130103413015604, 'policy_loss': -0.12617014348506927, 'vf_loss': 51.94176483154297, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.992790937423706, 'entropy': 5.679193496704102, 'cur_lr': 4.999999873689376e-05, 'total_loss': 51.832763671875}, 'load_time_ms': 0.644, 'num_steps_sampled': 1627200, 'grad_time_ms': 661.279, 'update_time_ms': 2.366, 'sample_time_ms': 30076.83}",2025-08-31_03-45-15,cda-server-4,29.23561382293701,8136,1756604715,10.157.146.4,False,41669.12968540192,1200
+1357,-616.9437072504909,1357,1628400,{},-773.3422845846271,1628400,0,41698.10655641556,-566.8808459588365,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1628400, 'default': {'kl': 0.009180103428661823, 'policy_loss': -0.13115856051445007, 'vf_loss': 121.6151123046875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9802119731903076, 'entropy': 5.602186679840088, 'cur_lr': 4.999999873689376e-05, 'total_loss': 121.49789428710938}, 'load_time_ms': 0.643, 'num_steps_sampled': 1628400, 'grad_time_ms': 644.54, 'update_time_ms': 2.306, 'sample_time_ms': 29775.478}",2025-08-31_03-45-44,cda-server-4,28.976871013641357,8142,1756604744,10.157.146.4,False,41698.10655641556,1200
+1358,-616.1388093700806,1358,1629600,{},-773.3422845846271,1629600,0,41728.22961473465,-566.8808459588365,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1629600, 'default': {'kl': 0.009017504751682281, 'policy_loss': -0.12193780392408371, 'vf_loss': 100.85525512695312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9889545440673828, 'entropy': 5.90052604675293, 'cur_lr': 4.999999873689376e-05, 'total_loss': 100.74700164794922}, 'load_time_ms': 0.656, 'num_steps_sampled': 1629600, 'grad_time_ms': 630.626, 'update_time_ms': 2.312, 'sample_time_ms': 29808.281}",2025-08-31_03-46-15,cda-server-4,30.123058319091797,8148,1756604775,10.157.146.4,False,41728.22961473465,1200
+1359,-614.0476883388028,1359,1630800,{},-773.3422845846271,1630800,0,41758.3296186924,-566.8808459588365,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1630800, 'default': {'kl': 0.007654294371604919, 'policy_loss': -0.10990701615810394, 'vf_loss': 224.72694396972656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9666023254394531, 'entropy': 5.977989673614502, 'cur_lr': 4.999999873689376e-05, 'total_loss': 224.62867736816406}, 'load_time_ms': 0.652, 'num_steps_sampled': 1630800, 'grad_time_ms': 612.414, 'update_time_ms': 2.326, 'sample_time_ms': 29635.758}",2025-08-31_03-46-45,cda-server-4,30.100003957748413,8154,1756604805,10.157.146.4,False,41758.3296186924,1200
+1360,-613.0829551027116,1360,1632000,{},-773.3422845846271,1632000,0,41786.689247369766,-559.1330891213794,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1632000, 'default': {'kl': 0.009377911686897278, 'policy_loss': -0.1394602358341217, 'vf_loss': 235.98468017578125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9690946936607361, 'entropy': 5.83825159072876, 'cur_lr': 4.999999873689376e-05, 'total_loss': 235.8594512939453}, 'load_time_ms': 0.656, 'num_steps_sampled': 1632000, 'grad_time_ms': 627.799, 'update_time_ms': 2.374, 'sample_time_ms': 29186.862}",2025-08-31_03-47-13,cda-server-4,28.359628677368164,8160,1756604833,10.157.146.4,False,41786.689247369766,1200
+1361,-613.047654715523,1361,1633200,{},-773.3422845846271,1633200,0,41817.846318244934,-559.1330891213794,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1633200, 'default': {'kl': 0.01168923731893301, 'policy_loss': -0.14513690769672394, 'vf_loss': 107.73501586914062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9885157346725464, 'entropy': 5.731104850769043, 'cur_lr': 4.999999873689376e-05, 'total_loss': 107.60763549804688}, 'load_time_ms': 0.648, 'num_steps_sampled': 1633200, 'grad_time_ms': 650.159, 'update_time_ms': 2.279, 'sample_time_ms': 29479.003}",2025-08-31_03-47-44,cda-server-4,31.157070875167847,8166,1756604864,10.157.146.4,False,41817.846318244934,1200
+1362,-613.4547669358158,1362,1634400,{},-773.3422845846271,1634400,0,41848.215522527695,-559.1330891213794,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1634400, 'default': {'kl': 0.009719962254166603, 'policy_loss': -0.11996826529502869, 'vf_loss': 179.12652587890625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9759811758995056, 'entropy': 6.277510643005371, 'cur_lr': 4.999999873689376e-05, 'total_loss': 179.02133178710938}, 'load_time_ms': 0.652, 'num_steps_sampled': 1634400, 'grad_time_ms': 665.491, 'update_time_ms': 2.327, 'sample_time_ms': 29303.082}",2025-08-31_03-48-15,cda-server-4,30.36920428276062,8172,1756604895,10.157.146.4,False,41848.215522527695,1200
+1363,-615.5701810912835,1363,1635600,{},-773.3422845846271,1635600,0,41882.035367012024,-559.1330891213794,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1635600, 'default': {'kl': 0.012417041696608067, 'policy_loss': -0.1483721137046814, 'vf_loss': 899.4408569335938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9618465900421143, 'entropy': 6.205467224121094, 'cur_lr': 4.999999873689376e-05, 'total_loss': 899.311279296875}, 'load_time_ms': 0.655, 'num_steps_sampled': 1635600, 'grad_time_ms': 657.91, 'update_time_ms': 2.28, 'sample_time_ms': 29781.253}",2025-08-31_03-48-49,cda-server-4,33.819844484329224,8178,1756604929,10.157.146.4,False,41882.035367012024,1200
+1364,-614.1657396588281,1364,1636800,{},-783.7483122773626,1636800,0,41914.0061314106,-529.2839946520149,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1636800, 'default': {'kl': 0.011438476853072643, 'policy_loss': -0.13663770258426666, 'vf_loss': 1300.57568359375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9266331791877747, 'entropy': 6.288002014160156, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1300.4564208984375}, 'load_time_ms': 0.626, 'num_steps_sampled': 1636800, 'grad_time_ms': 646.039, 'update_time_ms': 2.336, 'sample_time_ms': 29950.036}",2025-08-31_03-49-20,cda-server-4,31.97076439857483,8184,1756604960,10.157.146.4,False,41914.0061314106,1200
+1365,-614.4491896936966,1365,1638000,{},-783.7483122773626,1638000,0,41943.375087976456,-529.2839946520149,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1638000, 'default': {'kl': 0.01024739071726799, 'policy_loss': -0.13954395055770874, 'vf_loss': 95.62244415283203, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9877948760986328, 'entropy': 5.7969279289245605, 'cur_lr': 4.999999873689376e-05, 'total_loss': 95.49845886230469}, 'load_time_ms': 0.64, 'num_steps_sampled': 1638000, 'grad_time_ms': 619.119, 'update_time_ms': 2.31, 'sample_time_ms': 29722.153}",2025-08-31_03-49-50,cda-server-4,29.368956565856934,8190,1756604990,10.157.146.4,False,41943.375087976456,1200
+1366,-614.0344445134602,1366,1639200,{},-783.7483122773626,1639200,0,41973.60404539108,-529.2839946520149,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1639200, 'default': {'kl': 0.011202525347471237, 'policy_loss': -0.135385200381279, 'vf_loss': 81.33853149414062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9926170706748962, 'entropy': 5.685708999633789, 'cur_lr': 4.999999873689376e-05, 'total_loss': 81.22017669677734}, 'load_time_ms': 0.64, 'num_steps_sampled': 1639200, 'grad_time_ms': 609.674, 'update_time_ms': 2.258, 'sample_time_ms': 29830.96}",2025-08-31_03-50-20,cda-server-4,30.228957414627075,8196,1756605020,10.157.146.4,False,41973.60404539108,1200
+1367,-614.5588093836056,1367,1640400,{},-783.7483122773626,1640400,0,42006.71539711952,-529.2839946520149,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1640400, 'default': {'kl': 0.008072987198829651, 'policy_loss': -0.12197072058916092, 'vf_loss': 299.301025390625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9810020923614502, 'entropy': 6.094736099243164, 'cur_lr': 4.999999873689376e-05, 'total_loss': 299.1913146972656}, 'load_time_ms': 0.651, 'num_steps_sampled': 1640400, 'grad_time_ms': 616.991, 'update_time_ms': 2.309, 'sample_time_ms': 30237.033}",2025-08-31_03-50-53,cda-server-4,33.11135172843933,8202,1756605053,10.157.146.4,False,42006.71539711952,1200
+1368,-614.9100913908063,1368,1641600,{},-783.7483122773626,1641600,0,42037.26843833923,-472.8931191153918,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1641600, 'default': {'kl': 0.011945251375436783, 'policy_loss': -0.17619715631008148, 'vf_loss': 408.4486999511719, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9667350053787231, 'entropy': 6.154731750488281, 'cur_lr': 4.999999873689376e-05, 'total_loss': 408.2906799316406}, 'load_time_ms': 0.631, 'num_steps_sampled': 1641600, 'grad_time_ms': 624.652, 'update_time_ms': 2.287, 'sample_time_ms': 30272.43}",2025-08-31_03-51-24,cda-server-4,30.553041219711304,8208,1756605084,10.157.146.4,False,42037.26843833923,1200
+1369,-615.524708688919,1369,1642800,{},-783.7483122773626,1642800,0,42067.88984870911,-472.8931191153918,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1642800, 'default': {'kl': 0.010483152233064175, 'policy_loss': -0.14825575053691864, 'vf_loss': 253.1474609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9852901101112366, 'entropy': 5.991241931915283, 'cur_lr': 4.999999873689376e-05, 'total_loss': 253.01507568359375}, 'load_time_ms': 0.668, 'num_steps_sampled': 1642800, 'grad_time_ms': 637.608, 'update_time_ms': 2.262, 'sample_time_ms': 30311.561}",2025-08-31_03-51-54,cda-server-4,30.621410369873047,8214,1756605114,10.157.146.4,False,42067.88984870911,1200
+1370,-616.2051826843486,1370,1644000,{},-783.7483122773626,1644000,0,42098.10145664215,-472.8931191153918,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1644000, 'default': {'kl': 0.010078218765556812, 'policy_loss': -0.12181222438812256, 'vf_loss': 125.26799774169922, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9849739074707031, 'entropy': 5.782153129577637, 'cur_lr': 4.999999873689376e-05, 'total_loss': 125.1614990234375}, 'load_time_ms': 0.663, 'num_steps_sampled': 1644000, 'grad_time_ms': 620.897, 'update_time_ms': 2.246, 'sample_time_ms': 30513.499}",2025-08-31_03-52-25,cda-server-4,30.211607933044434,8220,1756605145,10.157.146.4,False,42098.10145664215,1200
+1371,-616.4964172553019,1371,1645200,{},-783.7483122773626,1645200,0,42127.32548618317,-472.8931191153918,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1645200, 'default': {'kl': 0.01406402513384819, 'policy_loss': -0.1501496434211731, 'vf_loss': 732.339111328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9496100544929504, 'entropy': 5.942624092102051, 'cur_lr': 4.999999873689376e-05, 'total_loss': 732.2103271484375}, 'load_time_ms': 0.661, 'num_steps_sampled': 1645200, 'grad_time_ms': 596.126, 'update_time_ms': 2.245, 'sample_time_ms': 30344.939}",2025-08-31_03-52-54,cda-server-4,29.224029541015625,8226,1756605174,10.157.146.4,False,42127.32548618317,1200
+1372,-616.6877135129646,1372,1646400,{},-783.7483122773626,1646400,0,42160.845776319504,-472.8931191153918,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1646400, 'default': {'kl': 0.011540438048541546, 'policy_loss': -0.1561451256275177, 'vf_loss': 361.54339599609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9650055766105652, 'entropy': 5.898815631866455, 'cur_lr': 4.999999873689376e-05, 'total_loss': 361.4047546386719}, 'load_time_ms': 0.667, 'num_steps_sampled': 1646400, 'grad_time_ms': 578.061, 'update_time_ms': 2.278, 'sample_time_ms': 30678.046}",2025-08-31_03-53-27,cda-server-4,33.52029013633728,8232,1756605207,10.157.146.4,False,42160.845776319504,1200
+1373,-616.0943185182076,1373,1647600,{},-783.7483122773626,1647600,0,42194.57494664192,-472.8931191153918,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1647600, 'default': {'kl': 0.012880207039415836, 'policy_loss': -0.16086089611053467, 'vf_loss': 82.40800476074219, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9928596019744873, 'entropy': 5.624796390533447, 'cur_lr': 4.999999873689376e-05, 'total_loss': 82.2667007446289}, 'load_time_ms': 0.663, 'num_steps_sampled': 1647600, 'grad_time_ms': 580.118, 'update_time_ms': 2.305, 'sample_time_ms': 30666.918}",2025-08-31_03-54-01,cda-server-4,33.72917032241821,8238,1756605241,10.157.146.4,False,42194.57494664192,1200
+1374,-617.4020908072646,1374,1648800,{},-783.7483122773626,1648800,0,42227.83390927315,-472.8931191153918,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1648800, 'default': {'kl': 0.01232712808996439, 'policy_loss': -0.15516787767410278, 'vf_loss': 116.693603515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9865612387657166, 'entropy': 5.993937969207764, 'cur_lr': 4.999999873689376e-05, 'total_loss': 116.55715942382812}, 'load_time_ms': 0.688, 'num_steps_sampled': 1648800, 'grad_time_ms': 570.43, 'update_time_ms': 2.285, 'sample_time_ms': 30805.338}",2025-08-31_03-54-35,cda-server-4,33.258962631225586,8244,1756605275,10.157.146.4,False,42227.83390927315,1200
+1375,-617.1105712362418,1375,1650000,{},-783.7483122773626,1650000,0,42257.35997700691,-472.8931191153918,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1650000, 'default': {'kl': 0.010830238461494446, 'policy_loss': -0.1408018171787262, 'vf_loss': 213.15859985351562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.971246063709259, 'entropy': 5.788561820983887, 'cur_lr': 4.999999873689376e-05, 'total_loss': 213.03424072265625}, 'load_time_ms': 0.667, 'num_steps_sampled': 1650000, 'grad_time_ms': 572.065, 'update_time_ms': 2.321, 'sample_time_ms': 30819.368}",2025-08-31_03-55-04,cda-server-4,29.52606773376465,8250,1756605304,10.157.146.4,False,42257.35997700691,1200
+1376,-617.0543183509229,1376,1651200,{},-783.7483122773626,1651200,0,42288.720470905304,-472.8931191153918,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1651200, 'default': {'kl': 0.010048961266875267, 'policy_loss': -0.1290576457977295, 'vf_loss': 223.57391357421875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9825922846794128, 'entropy': 5.777848243713379, 'cur_lr': 4.999999873689376e-05, 'total_loss': 223.46011352539062}, 'load_time_ms': 0.661, 'num_steps_sampled': 1651200, 'grad_time_ms': 610.284, 'update_time_ms': 2.307, 'sample_time_ms': 30894.235}",2025-08-31_03-55-35,cda-server-4,31.360493898391724,8256,1756605335,10.157.146.4,False,42288.720470905304,1200
+1377,-618.5277101687271,1377,1652400,{},-783.7483122773626,1652400,0,42318.42215538025,-472.8931191153918,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1652400, 'default': {'kl': 0.009482178837060928, 'policy_loss': -0.12747234106063843, 'vf_loss': 191.68724060058594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9798376560211182, 'entropy': 5.791593551635742, 'cur_lr': 4.999999873689376e-05, 'total_loss': 191.57415771484375}, 'load_time_ms': 0.646, 'num_steps_sampled': 1652400, 'grad_time_ms': 620.733, 'update_time_ms': 2.306, 'sample_time_ms': 30542.883}",2025-08-31_03-56-05,cda-server-4,29.70168447494507,8262,1756605365,10.157.146.4,False,42318.42215538025,1200
+1378,-618.8986574639017,1378,1653600,{},-783.7483122773626,1653600,0,42350.49072599411,-472.8931191153918,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1653600, 'default': {'kl': 0.010234687477350235, 'policy_loss': -0.13490456342697144, 'vf_loss': 107.9880599975586, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9858105778694153, 'entropy': 6.146940231323242, 'cur_lr': 4.999999873689376e-05, 'total_loss': 107.86869812011719}, 'load_time_ms': 0.647, 'num_steps_sampled': 1653600, 'grad_time_ms': 608.797, 'update_time_ms': 2.294, 'sample_time_ms': 30706.424}",2025-08-31_03-56-37,cda-server-4,32.068570613861084,8268,1756605397,10.157.146.4,False,42350.49072599411,1200
+1379,-619.0893295017631,1379,1654800,{},-783.7483122773626,1654800,0,42381.36734890938,-472.8931191153918,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1654800, 'default': {'kl': 0.01117707695811987, 'policy_loss': -0.16077017784118652, 'vf_loss': 284.3376159667969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9760014414787292, 'entropy': 5.597832202911377, 'cur_lr': 4.999999873689376e-05, 'total_loss': 284.1938171386719}, 'load_time_ms': 0.612, 'num_steps_sampled': 1654800, 'grad_time_ms': 596.213, 'update_time_ms': 2.331, 'sample_time_ms': 30744.565}",2025-08-31_03-57-08,cda-server-4,30.876622915267944,8274,1756605428,10.157.146.4,False,42381.36734890938,1200
+1380,-617.271162839471,1380,1656000,{},-783.7483122773626,1656000,0,42413.61403512955,-472.8931191153918,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1656000, 'default': {'kl': 0.011307117529213428, 'policy_loss': -0.14431346952915192, 'vf_loss': 322.34991455078125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9547165632247925, 'entropy': 6.021106243133545, 'cur_lr': 4.999999873689376e-05, 'total_loss': 322.2227478027344}, 'load_time_ms': 0.606, 'num_steps_sampled': 1656000, 'grad_time_ms': 601.857, 'update_time_ms': 2.325, 'sample_time_ms': 30942.404}",2025-08-31_03-57-40,cda-server-4,32.24668622016907,8280,1756605460,10.157.146.4,False,42413.61403512955,1200
+1381,-615.7322923814963,1381,1657200,{},-783.4127641902975,1657200,0,42443.170753479004,-472.8931191153918,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1657200, 'default': {'kl': 0.010721358470618725, 'policy_loss': -0.14463835954666138, 'vf_loss': 563.4129638671875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9448811411857605, 'entropy': 5.87500524520874, 'cur_lr': 4.999999873689376e-05, 'total_loss': 563.2846069335938}, 'load_time_ms': 0.604, 'num_steps_sampled': 1657200, 'grad_time_ms': 611.581, 'update_time_ms': 2.301, 'sample_time_ms': 30965.968}",2025-08-31_03-58-10,cda-server-4,29.556718349456787,8286,1756605490,10.157.146.4,False,42443.170753479004,1200
+1382,-616.036927427259,1382,1658400,{},-783.4127641902975,1658400,0,42475.67092251778,-472.8931191153918,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1658400, 'default': {'kl': 0.010420192033052444, 'policy_loss': -0.13780030608177185, 'vf_loss': 232.52072143554688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9823659062385559, 'entropy': 5.79630184173584, 'cur_lr': 4.999999873689376e-05, 'total_loss': 232.39874267578125}, 'load_time_ms': 0.6, 'num_steps_sampled': 1658400, 'grad_time_ms': 624.335, 'update_time_ms': 2.378, 'sample_time_ms': 30850.982}",2025-08-31_03-58-43,cda-server-4,32.50016903877258,8292,1756605523,10.157.146.4,False,42475.67092251778,1200
+1383,-616.2471202386874,1383,1659600,{},-783.4127641902975,1659600,0,42503.562015771866,-472.8931191153918,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1659600, 'default': {'kl': 0.00902103167027235, 'policy_loss': -0.12603598833084106, 'vf_loss': 179.93817138671875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9778770804405212, 'entropy': 5.673852920532227, 'cur_lr': 4.999999873689376e-05, 'total_loss': 179.8258514404297}, 'load_time_ms': 0.675, 'num_steps_sampled': 1659600, 'grad_time_ms': 630.996, 'update_time_ms': 2.381, 'sample_time_ms': 30260.387}",2025-08-31_03-59-10,cda-server-4,27.891093254089355,8298,1756605550,10.157.146.4,False,42503.562015771866,1200
+1384,-614.6583390084236,1384,1660800,{},-783.4127641902975,1660800,0,42537.04898810387,-472.8931191153918,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1660800, 'default': {'kl': 0.009924962185323238, 'policy_loss': -0.12570984661579132, 'vf_loss': 129.15896606445312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9877512454986572, 'entropy': 5.558727741241455, 'cur_lr': 4.999999873689376e-05, 'total_loss': 129.04832458496094}, 'load_time_ms': 0.644, 'num_steps_sampled': 1660800, 'grad_time_ms': 637.634, 'update_time_ms': 2.346, 'sample_time_ms': 30276.611}",2025-08-31_03-59-44,cda-server-4,33.48697233200073,8304,1756605584,10.157.146.4,False,42537.04898810387,1200
+1385,-615.2852789436146,1385,1662000,{},-783.4127641902975,1662000,0,42568.83642292023,-506.3492992656244,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1662000, 'default': {'kl': 0.012117980979382992, 'policy_loss': -0.1426413357257843, 'vf_loss': 67.97562408447266, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9918978214263916, 'entropy': 5.745508193969727, 'cur_lr': 4.999999873689376e-05, 'total_loss': 67.85138702392578}, 'load_time_ms': 0.65, 'num_steps_sampled': 1662000, 'grad_time_ms': 680.536, 'update_time_ms': 2.295, 'sample_time_ms': 30459.828}",2025-08-31_04-00-16,cda-server-4,31.787434816360474,8310,1756605616,10.157.146.4,False,42568.83642292023,1200
+1386,-614.6711144982414,1386,1663200,{},-783.4127641902975,1663200,0,42602.368626117706,-506.3492992656244,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1663200, 'default': {'kl': 0.008005030453205109, 'policy_loss': -0.11121264845132828, 'vf_loss': 261.5163879394531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.981715202331543, 'entropy': 5.721516132354736, 'cur_lr': 4.999999873689376e-05, 'total_loss': 261.4173278808594}, 'load_time_ms': 0.652, 'num_steps_sampled': 1663200, 'grad_time_ms': 660.71, 'update_time_ms': 2.311, 'sample_time_ms': 30696.972}",2025-08-31_04-00-49,cda-server-4,33.53220319747925,8316,1756605649,10.157.146.4,False,42602.368626117706,1200
+1387,-612.0936575495911,1387,1664400,{},-665.3897768607126,1664400,0,42632.45131444931,-506.3492992656244,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1664400, 'default': {'kl': 0.01009153202176094, 'policy_loss': -0.13725070655345917, 'vf_loss': 152.79376220703125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9843972325325012, 'entropy': 5.846512794494629, 'cur_lr': 4.999999873689376e-05, 'total_loss': 152.6718292236328}, 'load_time_ms': 0.653, 'num_steps_sampled': 1664400, 'grad_time_ms': 662.972, 'update_time_ms': 2.285, 'sample_time_ms': 30732.79}",2025-08-31_04-01-19,cda-server-4,30.082688331604004,8322,1756605679,10.157.146.4,False,42632.45131444931,1200
+1388,-612.2269701652418,1388,1665600,{},-665.3897768607126,1665600,0,42661.01548194885,-506.3492992656244,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1665600, 'default': {'kl': 0.00945036020129919, 'policy_loss': -0.12012199312448502, 'vf_loss': 115.59609985351562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9863774180412292, 'entropy': 5.766104698181152, 'cur_lr': 4.999999873689376e-05, 'total_loss': 115.49031829833984}, 'load_time_ms': 0.655, 'num_steps_sampled': 1665600, 'grad_time_ms': 680.93, 'update_time_ms': 2.357, 'sample_time_ms': 30364.296}",2025-08-31_04-01-48,cda-server-4,28.564167499542236,8328,1756605708,10.157.146.4,False,42661.01548194885,1200
+1389,-612.6784824103654,1389,1666800,{},-665.3897768607126,1666800,0,42691.96147465706,-506.3492992656244,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1666800, 'default': {'kl': 0.00980527326464653, 'policy_loss': -0.12079163640737534, 'vf_loss': 36.02253723144531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9945467710494995, 'entropy': 5.92836856842041, 'cur_lr': 4.999999873689376e-05, 'total_loss': 35.91663360595703}, 'load_time_ms': 0.654, 'num_steps_sampled': 1666800, 'grad_time_ms': 684.545, 'update_time_ms': 2.301, 'sample_time_ms': 30367.617}",2025-08-31_04-02-19,cda-server-4,30.945992708206177,8334,1756605739,10.157.146.4,False,42691.96147465706,1200
+1390,-612.0581941179151,1390,1668000,{},-665.3897768607126,1668000,0,42725.300414562225,-506.3492992656244,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1668000, 'default': {'kl': 0.008382522501051426, 'policy_loss': -0.12481635063886642, 'vf_loss': 271.75921630859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.960722804069519, 'entropy': 5.672434329986572, 'cur_lr': 4.999999873689376e-05, 'total_loss': 271.6471252441406}, 'load_time_ms': 0.653, 'num_steps_sampled': 1668000, 'grad_time_ms': 685.338, 'update_time_ms': 2.328, 'sample_time_ms': 30475.983}",2025-08-31_04-02-52,cda-server-4,33.338939905166626,8340,1756605772,10.157.146.4,False,42725.300414562225,1200
+1391,-611.6494838405292,1391,1669200,{},-665.3897768607126,1669200,0,42756.203372716904,-506.3492992656244,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1669200, 'default': {'kl': 0.010347548872232437, 'policy_loss': -0.15530143678188324, 'vf_loss': 205.08375549316406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9740120768547058, 'entropy': 6.152266502380371, 'cur_lr': 4.999999873689376e-05, 'total_loss': 204.94415283203125}, 'load_time_ms': 0.659, 'num_steps_sampled': 1669200, 'grad_time_ms': 702.456, 'update_time_ms': 2.442, 'sample_time_ms': 30593.329}",2025-08-31_04-03-23,cda-server-4,30.902958154678345,8346,1756605803,10.157.146.4,False,42756.203372716904,1200
+1392,-612.473804502599,1392,1670400,{},-665.3897768607126,1670400,0,42788.84565138817,-506.3492992656244,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1670400, 'default': {'kl': 0.009830760769546032, 'policy_loss': -0.12528736889362335, 'vf_loss': 145.70689392089844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9854003190994263, 'entropy': 5.595094203948975, 'cur_lr': 4.999999873689376e-05, 'total_loss': 145.59654235839844}, 'load_time_ms': 0.663, 'num_steps_sampled': 1670400, 'grad_time_ms': 695.467, 'update_time_ms': 2.303, 'sample_time_ms': 30614.798}",2025-08-31_04-03-56,cda-server-4,32.64227867126465,8352,1756605836,10.157.146.4,False,42788.84565138817,1200
+1393,-612.696034036295,1393,1671600,{},-665.3897768607126,1671600,0,42822.55020737648,-506.3492992656244,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1671600, 'default': {'kl': 0.010332739911973476, 'policy_loss': -0.12698957324028015, 'vf_loss': 407.3007507324219, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9547103047370911, 'entropy': 5.596165657043457, 'cur_lr': 4.999999873689376e-05, 'total_loss': 407.1894226074219}, 'load_time_ms': 0.596, 'num_steps_sampled': 1671600, 'grad_time_ms': 690.634, 'update_time_ms': 2.36, 'sample_time_ms': 31200.996}",2025-08-31_04-04-30,cda-server-4,33.70455598831177,8358,1756605870,10.157.146.4,False,42822.55020737648,1200
+1394,-612.2973182487551,1394,1672800,{},-665.3897768607126,1672800,0,42856.23315358162,-506.3492992656244,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1672800, 'default': {'kl': 0.011446833610534668, 'policy_loss': -0.13194529712200165, 'vf_loss': 241.24378967285156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9748367667198181, 'entropy': 6.000014305114746, 'cur_lr': 4.999999873689376e-05, 'total_loss': 241.1292266845703}, 'load_time_ms': 0.598, 'num_steps_sampled': 1672800, 'grad_time_ms': 708.936, 'update_time_ms': 2.426, 'sample_time_ms': 31202.19}",2025-08-31_04-05-03,cda-server-4,33.68294620513916,8364,1756605903,10.157.146.4,False,42856.23315358162,1200
+1395,-611.3864100141138,1395,1674000,{},-665.3897768607126,1674000,0,42889.233875989914,-506.3492992656244,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1674000, 'default': {'kl': 0.010583404451608658, 'policy_loss': -0.13765639066696167, 'vf_loss': 97.67050170898438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9916373491287231, 'entropy': 5.828080177307129, 'cur_lr': 4.999999873689376e-05, 'total_loss': 97.54891967773438}, 'load_time_ms': 0.597, 'num_steps_sampled': 1674000, 'grad_time_ms': 671.592, 'update_time_ms': 2.461, 'sample_time_ms': 31360.893}",2025-08-31_04-05-36,cda-server-4,33.00072240829468,8370,1756605936,10.157.146.4,False,42889.233875989914,1200
+1396,-612.0933019916761,1396,1675200,{},-665.3897768607126,1675200,0,42923.244030714035,-506.3492992656244,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1675200, 'default': {'kl': 0.010970463976264, 'policy_loss': -0.15148858726024628, 'vf_loss': 40.32722473144531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.995025098323822, 'entropy': 6.055532455444336, 'cur_lr': 4.999999873689376e-05, 'total_loss': 40.19239807128906}, 'load_time_ms': 0.608, 'num_steps_sampled': 1675200, 'grad_time_ms': 659.926, 'update_time_ms': 2.409, 'sample_time_ms': 31420.322}",2025-08-31_04-06-10,cda-server-4,34.010154724121094,8376,1756605970,10.157.146.4,False,42923.244030714035,1200
+1397,-612.3135140207686,1397,1676400,{},-663.1049415741464,1676400,0,42957.41911768913,-561.6448480696677,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1676400, 'default': {'kl': 0.008243606425821781, 'policy_loss': -0.12388507276773453, 'vf_loss': 158.66567993164062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9824070334434509, 'entropy': 5.431283950805664, 'cur_lr': 4.999999873689376e-05, 'total_loss': 158.5543212890625}, 'load_time_ms': 0.616, 'num_steps_sampled': 1676400, 'grad_time_ms': 640.427, 'update_time_ms': 2.461, 'sample_time_ms': 31849.002}",2025-08-31_04-06-44,cda-server-4,34.175086975097656,8382,1756606004,10.157.146.4,False,42957.41911768913,1200
+1398,-613.4678368038573,1398,1677600,{},-663.1049415741464,1677600,0,42991.04051947594,-561.6448480696677,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1677600, 'default': {'kl': 0.009805314242839813, 'policy_loss': -0.13120977580547333, 'vf_loss': 438.5394287109375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9699178338050842, 'entropy': 6.060690879821777, 'cur_lr': 4.999999873689376e-05, 'total_loss': 438.4231262207031}, 'load_time_ms': 0.62, 'num_steps_sampled': 1677600, 'grad_time_ms': 639.232, 'update_time_ms': 2.44, 'sample_time_ms': 32355.842}",2025-08-31_04-07-18,cda-server-4,33.6214017868042,8388,1756606038,10.157.146.4,False,42991.04051947594,1200
+1399,-613.1086617648319,1399,1678800,{},-663.1049415741464,1678800,0,43024.37323331833,-497.3306164957701,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1678800, 'default': {'kl': 0.010185007937252522, 'policy_loss': -0.13935671746730804, 'vf_loss': 147.51248168945312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9816153049468994, 'entropy': 6.134580612182617, 'cur_lr': 4.999999873689376e-05, 'total_loss': 147.38858032226562}, 'load_time_ms': 0.618, 'num_steps_sampled': 1678800, 'grad_time_ms': 648.363, 'update_time_ms': 2.538, 'sample_time_ms': 32585.261}",2025-08-31_04-07-51,cda-server-4,33.33271384239197,8394,1756606071,10.157.146.4,False,43024.37323331833,1200
+1400,-614.1243478352385,1400,1680000,{},-663.1049415741464,1680000,0,43058.081564188,-497.3306164957701,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1680000, 'default': {'kl': 0.010085329413414001, 'policy_loss': -0.14530295133590698, 'vf_loss': 245.53448486328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9806063771247864, 'entropy': 6.2148637771606445, 'cur_lr': 4.999999873689376e-05, 'total_loss': 245.40447998046875}, 'load_time_ms': 0.641, 'num_steps_sampled': 1680000, 'grad_time_ms': 656.693, 'update_time_ms': 2.576, 'sample_time_ms': 32613.689}",2025-08-31_04-08-25,cda-server-4,33.70833086967468,8400,1756606105,10.157.146.4,False,43058.081564188,1200
+1401,-615.6895836289193,1401,1681200,{},-792.2652031311154,1681200,0,43092.56906867027,-497.3306164957701,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1681200, 'default': {'kl': 0.01317319180816412, 'policy_loss': -0.16202715039253235, 'vf_loss': 1075.22265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9359922409057617, 'entropy': 5.677194595336914, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1075.08056640625}, 'load_time_ms': 0.636, 'num_steps_sampled': 1681200, 'grad_time_ms': 639.441, 'update_time_ms': 2.662, 'sample_time_ms': 32989.376}",2025-08-31_04-09-00,cda-server-4,34.48750448226929,8406,1756606140,10.157.146.4,False,43092.56906867027,1200
+1402,-616.0670336473302,1402,1682400,{},-792.2652031311154,1682400,0,43126.48639464378,-497.3306164957701,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1682400, 'default': {'kl': 0.009085847064852715, 'policy_loss': -0.10549108684062958, 'vf_loss': 238.35574340820312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9660136103630066, 'entropy': 5.37152099609375, 'cur_lr': 4.999999873689376e-05, 'total_loss': 238.26402282714844}, 'load_time_ms': 0.636, 'num_steps_sampled': 1682400, 'grad_time_ms': 641.88, 'update_time_ms': 2.729, 'sample_time_ms': 33114.343}",2025-08-31_04-09-34,cda-server-4,33.91732597351074,8412,1756606174,10.157.146.4,False,43126.48639464378,1200
+1403,-616.2830888650342,1403,1683600,{},-792.2652031311154,1683600,0,43161.232836961746,-497.3306164957701,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1683600, 'default': {'kl': 0.009344040416181087, 'policy_loss': -0.13282015919685364, 'vf_loss': 57.04484176635742, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9929646253585815, 'entropy': 5.94008731842041, 'cur_lr': 4.999999873689376e-05, 'total_loss': 56.92620849609375}, 'load_time_ms': 0.628, 'num_steps_sampled': 1683600, 'grad_time_ms': 640.737, 'update_time_ms': 2.672, 'sample_time_ms': 33219.747}",2025-08-31_04-10-08,cda-server-4,34.74644231796265,8418,1756606208,10.157.146.4,False,43161.232836961746,1200
+1404,-616.0546598256647,1404,1684800,{},-792.2652031311154,1684800,0,43195.99139380455,-497.3306164957701,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1684800, 'default': {'kl': 0.009707218036055565, 'policy_loss': -0.1192576214671135, 'vf_loss': 215.46270751953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9684350490570068, 'entropy': 5.668519020080566, 'cur_lr': 4.999999873689376e-05, 'total_loss': 215.3582000732422}, 'load_time_ms': 0.629, 'num_steps_sampled': 1684800, 'grad_time_ms': 631.849, 'update_time_ms': 2.672, 'sample_time_ms': 33336.245}",2025-08-31_04-10-43,cda-server-4,34.758556842803955,8424,1756606243,10.157.146.4,False,43195.99139380455,1200
+1405,-616.4959677380119,1405,1686000,{},-792.2652031311154,1686000,0,43230.15976500511,-497.3306164957701,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1686000, 'default': {'kl': 0.009837203659117222, 'policy_loss': -0.14758284389972687, 'vf_loss': 138.5169219970703, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.980560302734375, 'entropy': 5.690394878387451, 'cur_lr': 4.999999873689376e-05, 'total_loss': 138.38427734375}, 'load_time_ms': 0.668, 'num_steps_sampled': 1686000, 'grad_time_ms': 639.017, 'update_time_ms': 2.668, 'sample_time_ms': 33445.779}",2025-08-31_04-11-17,cda-server-4,34.16837120056152,8430,1756606277,10.157.146.4,False,43230.15976500511,1200
+1406,-616.0501199841643,1406,1687200,{},-792.2652031311154,1687200,0,43264.89197969437,-497.3306164957701,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1687200, 'default': {'kl': 0.01165020652115345, 'policy_loss': -0.13482370972633362, 'vf_loss': 795.822998046875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9364839196205139, 'entropy': 5.5744781494140625, 'cur_lr': 4.999999873689376e-05, 'total_loss': 795.7058715820312}, 'load_time_ms': 0.667, 'num_steps_sampled': 1687200, 'grad_time_ms': 643.307, 'update_time_ms': 2.784, 'sample_time_ms': 33513.561}",2025-08-31_04-11-52,cda-server-4,34.73221468925476,8436,1756606312,10.157.146.4,False,43264.89197969437,1200
+1407,-615.4338530144494,1407,1688400,{},-792.2652031311154,1688400,0,43299.42641210556,-497.3306164957701,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1688400, 'default': {'kl': 0.009208666160702705, 'policy_loss': -0.13074500858783722, 'vf_loss': 114.19879913330078, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9841905236244202, 'entropy': 5.327968597412109, 'cur_lr': 4.999999873689376e-05, 'total_loss': 114.08203125}, 'load_time_ms': 0.661, 'num_steps_sampled': 1688400, 'grad_time_ms': 642.126, 'update_time_ms': 2.828, 'sample_time_ms': 33550.689}",2025-08-31_04-12-27,cda-server-4,34.53443241119385,8442,1756606347,10.157.146.4,False,43299.42641210556,1200
+1408,-616.0316190671132,1408,1689600,{},-792.2652031311154,1689600,0,43333.61630868912,-497.3306164957701,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1689600, 'default': {'kl': 0.009599405340850353, 'policy_loss': -0.11763104796409607, 'vf_loss': 133.6080322265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9839364290237427, 'entropy': 5.677212715148926, 'cur_lr': 4.999999873689376e-05, 'total_loss': 133.50498962402344}, 'load_time_ms': 0.66, 'num_steps_sampled': 1689600, 'grad_time_ms': 633.99, 'update_time_ms': 2.85, 'sample_time_ms': 33615.706}",2025-08-31_04-13-01,cda-server-4,34.18989658355713,8448,1756606381,10.157.146.4,False,43333.61630868912,1200
+1409,-615.7959659175126,1409,1690800,{},-792.2652031311154,1690800,0,43367.37784457207,-497.3306164957701,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1690800, 'default': {'kl': 0.01075541228055954, 'policy_loss': -0.15568950772285461, 'vf_loss': 103.69935607910156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.989287257194519, 'entropy': 6.012138843536377, 'cur_lr': 4.999999873689376e-05, 'total_loss': 103.55999755859375}, 'load_time_ms': 0.698, 'num_steps_sampled': 1690800, 'grad_time_ms': 627.413, 'update_time_ms': 2.838, 'sample_time_ms': 33665.227}",2025-08-31_04-13-35,cda-server-4,33.76153588294983,8454,1756606415,10.157.146.4,False,43367.37784457207,1200
+1410,-614.7546115653225,1410,1692000,{},-792.2652031311154,1692000,0,43401.715834617615,-497.3306164957701,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1692000, 'default': {'kl': 0.009084248915314674, 'policy_loss': -0.122769795358181, 'vf_loss': 216.76617431640625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9665764570236206, 'entropy': 5.439415454864502, 'cur_lr': 4.999999873689376e-05, 'total_loss': 216.6571807861328}, 'load_time_ms': 0.691, 'num_steps_sampled': 1692000, 'grad_time_ms': 619.015, 'update_time_ms': 2.863, 'sample_time_ms': 33736.711}",2025-08-31_04-14-09,cda-server-4,34.337990045547485,8460,1756606449,10.157.146.4,False,43401.715834617615,1200
+1411,-614.4691522100675,1411,1693200,{},-792.2652031311154,1693200,0,43435.946508169174,-497.3306164957701,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1693200, 'default': {'kl': 0.010661396197974682, 'policy_loss': -0.11844095587730408, 'vf_loss': 382.78399658203125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9660412669181824, 'entropy': 5.648270606994629, 'cur_lr': 4.999999873689376e-05, 'total_loss': 382.6817626953125}, 'load_time_ms': 0.69, 'num_steps_sampled': 1693200, 'grad_time_ms': 618.011, 'update_time_ms': 2.705, 'sample_time_ms': 33712.181}",2025-08-31_04-14-43,cda-server-4,34.23067355155945,8466,1756606483,10.157.146.4,False,43435.946508169174,1200
+1412,-614.2653983271704,1412,1694400,{},-792.2652031311154,1694400,0,43469.820125103,-497.3306164957701,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1694400, 'default': {'kl': 0.00800349097698927, 'policy_loss': -0.11712483316659927, 'vf_loss': 104.27564239501953, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9871939420700073, 'entropy': 5.435991287231445, 'cur_lr': 4.999999873689376e-05, 'total_loss': 104.1706771850586}, 'load_time_ms': 0.687, 'num_steps_sampled': 1694400, 'grad_time_ms': 614.191, 'update_time_ms': 2.67, 'sample_time_ms': 33711.656}",2025-08-31_04-15-17,cda-server-4,33.87361693382263,8472,1756606517,10.157.146.4,False,43469.820125103,1200
+1413,-614.7398356869953,1413,1695600,{},-792.2652031311154,1695600,0,43503.143010139465,-497.3306164957701,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1695600, 'default': {'kl': 0.008135885000228882, 'policy_loss': -0.11842841655015945, 'vf_loss': 199.89105224609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.972601592540741, 'entropy': 5.89752721786499, 'cur_lr': 4.999999873689376e-05, 'total_loss': 199.7849884033203}, 'load_time_ms': 0.692, 'num_steps_sampled': 1695600, 'grad_time_ms': 614.334, 'update_time_ms': 2.758, 'sample_time_ms': 33568.986}",2025-08-31_04-15-51,cda-server-4,33.322885036468506,8478,1756606551,10.157.146.4,False,43503.143010139465,1200
+1414,-614.5778475953568,1414,1696800,{},-792.2652031311154,1696800,0,43537.363312482834,-497.3306164957701,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1696800, 'default': {'kl': 0.007624107878655195, 'policy_loss': -0.12021197378635406, 'vf_loss': 222.29335021972656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9680208563804626, 'entropy': 5.756577491760254, 'cur_lr': 4.999999873689376e-05, 'total_loss': 222.1847381591797}, 'load_time_ms': 0.691, 'num_steps_sampled': 1696800, 'grad_time_ms': 607.955, 'update_time_ms': 2.737, 'sample_time_ms': 33521.577}",2025-08-31_04-16-25,cda-server-4,34.22030234336853,8484,1756606585,10.157.146.4,False,43537.363312482834,1200
+1415,-613.383058444355,1415,1698000,{},-792.2652031311154,1698000,0,43572.12019300461,-497.3306164957701,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1698000, 'default': {'kl': 0.00988580472767353, 'policy_loss': -0.1276634782552719, 'vf_loss': 194.14955139160156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9888570308685303, 'entropy': 5.523665904998779, 'cur_lr': 4.999999873689376e-05, 'total_loss': 194.03692626953125}, 'load_time_ms': 0.67, 'num_steps_sampled': 1698000, 'grad_time_ms': 599.444, 'update_time_ms': 2.737, 'sample_time_ms': 33588.993}",2025-08-31_04-17-00,cda-server-4,34.75688052177429,8490,1756606620,10.157.146.4,False,43572.12019300461,1200
+1416,-613.928106908896,1416,1699200,{},-792.2652031311154,1699200,0,43605.85330796242,-563.2056724101128,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1699200, 'default': {'kl': 0.011903876438736916, 'policy_loss': -0.13720983266830444, 'vf_loss': 201.2029266357422, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9759539365768433, 'entropy': 5.624608993530273, 'cur_lr': 4.999999873689376e-05, 'total_loss': 201.08380126953125}, 'load_time_ms': 0.66, 'num_steps_sampled': 1699200, 'grad_time_ms': 603.773, 'update_time_ms': 2.684, 'sample_time_ms': 33484.909}",2025-08-31_04-17-33,cda-server-4,33.73311495780945,8496,1756606653,10.157.146.4,False,43605.85330796242,1200
+1417,-612.5879180451374,1417,1700400,{},-792.2652031311154,1700400,0,43640.3605594635,-563.2056724101128,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1700400, 'default': {'kl': 0.0100638372823596, 'policy_loss': -0.1335117220878601, 'vf_loss': 201.33880615234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9733153581619263, 'entropy': 5.587081432342529, 'cur_lr': 4.999999873689376e-05, 'total_loss': 201.22059631347656}, 'load_time_ms': 0.661, 'num_steps_sampled': 1700400, 'grad_time_ms': 621.818, 'update_time_ms': 2.653, 'sample_time_ms': 33464.069}",2025-08-31_04-18-08,cda-server-4,34.507251501083374,8502,1756606688,10.157.146.4,False,43640.3605594635,1200
+1418,-610.8699770115302,1418,1701600,{},-657.4363553658045,1701600,0,43674.73434138298,-562.3930527109692,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1701600, 'default': {'kl': 0.009748178534209728, 'policy_loss': -0.1368454396724701, 'vf_loss': 75.74812316894531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9895142316818237, 'entropy': 5.460249900817871, 'cur_lr': 4.999999873689376e-05, 'total_loss': 75.62608337402344}, 'load_time_ms': 0.658, 'num_steps_sampled': 1701600, 'grad_time_ms': 632.129, 'update_time_ms': 2.635, 'sample_time_ms': 33472.142}",2025-08-31_04-18-42,cda-server-4,34.37378191947937,8508,1756606722,10.157.146.4,False,43674.73434138298,1200
+1419,-611.2147684991547,1419,1702800,{},-657.4363553658045,1702800,0,43709.60330700874,-562.3930527109692,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1702800, 'default': {'kl': 0.00864082295447588, 'policy_loss': -0.12167925387620926, 'vf_loss': 454.64947509765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9604021906852722, 'entropy': 5.559779167175293, 'cur_lr': 4.999999873689376e-05, 'total_loss': 454.5408935546875}, 'load_time_ms': 0.634, 'num_steps_sampled': 1702800, 'grad_time_ms': 624.649, 'update_time_ms': 2.664, 'sample_time_ms': 33590.305}",2025-08-31_04-19-17,cda-server-4,34.86896562576294,8514,1756606757,10.157.146.4,False,43709.60330700874,1200
+1420,-611.9668824062677,1420,1704000,{},-662.9585164610452,1704000,0,43743.25791430473,-562.3930527109692,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1704000, 'default': {'kl': 0.012226628139615059, 'policy_loss': -0.13100865483283997, 'vf_loss': 708.962158203125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9486413598060608, 'entropy': 5.633447170257568, 'cur_lr': 4.999999873689376e-05, 'total_loss': 708.8497314453125}, 'load_time_ms': 0.622, 'num_steps_sampled': 1704000, 'grad_time_ms': 617.169, 'update_time_ms': 2.622, 'sample_time_ms': 33529.456}",2025-08-31_04-19-51,cda-server-4,33.65460729598999,8520,1756606791,10.157.146.4,False,43743.25791430473,1200
+1421,-611.2538074925392,1421,1705200,{},-662.9585164610452,1705200,0,43778.06971287727,-562.3930527109692,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1705200, 'default': {'kl': 0.01030010636895895, 'policy_loss': -0.1235547736287117, 'vf_loss': 136.3016815185547, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9897220134735107, 'entropy': 5.5974931716918945, 'cur_lr': 4.999999873689376e-05, 'total_loss': 136.19375610351562}, 'load_time_ms': 0.658, 'num_steps_sampled': 1705200, 'grad_time_ms': 625.361, 'update_time_ms': 2.627, 'sample_time_ms': 33579.27}",2025-08-31_04-20-26,cda-server-4,34.81179857254028,8526,1756606826,10.157.146.4,False,43778.06971287727,1200
+1422,-610.6003175642595,1422,1706400,{},-662.9585164610452,1706400,0,43812.640984773636,-562.3930527109692,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1706400, 'default': {'kl': 0.011779092252254486, 'policy_loss': -0.16374900937080383, 'vf_loss': 177.27867126464844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9799947738647461, 'entropy': 5.716902732849121, 'cur_lr': 4.999999873689376e-05, 'total_loss': 177.13282775878906}, 'load_time_ms': 0.657, 'num_steps_sampled': 1706400, 'grad_time_ms': 628.521, 'update_time_ms': 2.61, 'sample_time_ms': 33645.949}",2025-08-31_04-21-00,cda-server-4,34.571271896362305,8532,1756606860,10.157.146.4,False,43812.640984773636,1200
+1423,-610.4142305765681,1423,1707600,{},-662.9585164610452,1707600,0,43845.852266311646,-502.44483736579065,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1707600, 'default': {'kl': 0.01093218568712473, 'policy_loss': -0.15273621678352356, 'vf_loss': 302.1339416503906, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9618208408355713, 'entropy': 5.769708633422852, 'cur_lr': 4.999999873689376e-05, 'total_loss': 301.9978332519531}, 'load_time_ms': 0.645, 'num_steps_sampled': 1707600, 'grad_time_ms': 614.446, 'update_time_ms': 2.58, 'sample_time_ms': 33649.023}",2025-08-31_04-21-33,cda-server-4,33.211281538009644,8538,1756606893,10.157.146.4,False,43845.852266311646,1200
+1424,-611.0615538092242,1424,1708800,{},-662.9585164610452,1708800,0,43879.91815447807,-502.44483736579065,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1708800, 'default': {'kl': 0.009058519266545773, 'policy_loss': -0.13668686151504517, 'vf_loss': 114.47276306152344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9910033345222473, 'entropy': 5.513612747192383, 'cur_lr': 4.999999873689376e-05, 'total_loss': 114.34982299804688}, 'load_time_ms': 0.642, 'num_steps_sampled': 1708800, 'grad_time_ms': 627.149, 'update_time_ms': 2.586, 'sample_time_ms': 33620.812}",2025-08-31_04-22-08,cda-server-4,34.06588816642761,8544,1756606928,10.157.146.4,False,43879.91815447807,1200
+1425,-610.6336249735776,1425,1710000,{},-662.9585164610452,1710000,0,43914.54014515877,-502.44483736579065,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1710000, 'default': {'kl': 0.009117369540035725, 'policy_loss': -0.14231586456298828, 'vf_loss': 214.17849731445312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9779824018478394, 'entropy': 5.762584686279297, 'cur_lr': 4.999999873689376e-05, 'total_loss': 214.05003356933594}, 'load_time_ms': 0.63, 'num_steps_sampled': 1710000, 'grad_time_ms': 651.263, 'update_time_ms': 2.638, 'sample_time_ms': 33583.177}",2025-08-31_04-22-42,cda-server-4,34.62199068069458,8550,1756606962,10.157.146.4,False,43914.54014515877,1200
+1426,-609.3643229829958,1426,1711200,{},-662.9585164610452,1711200,0,43949.42440867424,-496.1069184598624,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1711200, 'default': {'kl': 0.012468098662793636, 'policy_loss': -0.12168126553297043, 'vf_loss': 347.1459045410156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9615290760993958, 'entropy': 5.502270698547363, 'cur_lr': 4.999999873689376e-05, 'total_loss': 347.04315185546875}, 'load_time_ms': 0.639, 'num_steps_sampled': 1711200, 'grad_time_ms': 638.395, 'update_time_ms': 2.653, 'sample_time_ms': 33711.127}",2025-08-31_04-23-17,cda-server-4,34.88426351547241,8556,1756606997,10.157.146.4,False,43949.42440867424,1200
+1427,-610.0436434506228,1427,1712400,{},-662.9585164610452,1712400,0,43982.77881479263,-496.1069184598624,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1712400, 'default': {'kl': 0.011004537343978882, 'policy_loss': -0.14082366228103638, 'vf_loss': 325.24359130859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9712805151939392, 'entropy': 5.553370475769043, 'cur_lr': 4.999999873689376e-05, 'total_loss': 325.1194763183594}, 'load_time_ms': 0.644, 'num_steps_sampled': 1712400, 'grad_time_ms': 612.744, 'update_time_ms': 2.582, 'sample_time_ms': 33621.628}",2025-08-31_04-23-50,cda-server-4,33.354406118392944,8562,1756607030,10.157.146.4,False,43982.77881479263,1200
+1428,-609.9403377942995,1428,1713600,{},-662.9585164610452,1713600,0,44016.889124155045,-496.1069184598624,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1713600, 'default': {'kl': 0.012352383695542812, 'policy_loss': -0.15297093987464905, 'vf_loss': 290.3724365234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9855809807777405, 'entropy': 5.534626483917236, 'cur_lr': 4.999999873689376e-05, 'total_loss': 290.2381896972656}, 'load_time_ms': 0.646, 'num_steps_sampled': 1713600, 'grad_time_ms': 611.632, 'update_time_ms': 2.592, 'sample_time_ms': 33596.408}",2025-08-31_04-24-25,cda-server-4,34.1103093624115,8568,1756607065,10.157.146.4,False,44016.889124155045,1200
+1429,-609.3168026458584,1429,1714800,{},-662.9585164610452,1714800,0,44050.8524851799,-496.1069184598624,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1714800, 'default': {'kl': 0.009249810129404068, 'policy_loss': -0.12529096007347107, 'vf_loss': 202.0209197998047, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9767622351646423, 'entropy': 5.495698928833008, 'cur_lr': 4.999999873689376e-05, 'total_loss': 201.90968322753906}, 'load_time_ms': 0.657, 'num_steps_sampled': 1714800, 'grad_time_ms': 604.326, 'update_time_ms': 2.529, 'sample_time_ms': 33513.147}",2025-08-31_04-24-59,cda-server-4,33.96336102485657,8574,1756607099,10.157.146.4,False,44050.8524851799,1200
+1430,-608.9568307662827,1430,1716000,{},-662.9585164610452,1716000,0,44085.056163311005,-496.1069184598624,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1716000, 'default': {'kl': 0.009772894904017448, 'policy_loss': -0.1360863447189331, 'vf_loss': 503.5948486328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9829525351524353, 'entropy': 5.689233779907227, 'cur_lr': 4.999999873689376e-05, 'total_loss': 503.4736328125}, 'load_time_ms': 0.688, 'num_steps_sampled': 1716000, 'grad_time_ms': 615.298, 'update_time_ms': 2.538, 'sample_time_ms': 33557.02}",2025-08-31_04-25-33,cda-server-4,34.203678131103516,8580,1756607133,10.157.146.4,False,44085.056163311005,1200
+1431,-608.8379138784962,1431,1717200,{},-662.9585164610452,1717200,0,44118.98302793503,-496.1069184598624,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1717200, 'default': {'kl': 0.010688213631510735, 'policy_loss': -0.11929115653038025, 'vf_loss': 116.42487335205078, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9846563339233398, 'entropy': 5.278940677642822, 'cur_lr': 4.999999873689376e-05, 'total_loss': 116.32181549072266}, 'load_time_ms': 0.689, 'num_steps_sampled': 1717200, 'grad_time_ms': 619.544, 'update_time_ms': 2.542, 'sample_time_ms': 33464.324}",2025-08-31_04-26-07,cda-server-4,33.92686462402344,8586,1756607167,10.157.146.4,False,44118.98302793503,1200
+1432,-609.2104166277697,1432,1718400,{},-662.9585164610452,1718400,0,44153.204511642456,-496.1069184598624,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1718400, 'default': {'kl': 0.01066681556403637, 'policy_loss': -0.1453472226858139, 'vf_loss': 270.78497314453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9771109819412231, 'entropy': 5.813950061798096, 'cur_lr': 4.999999873689376e-05, 'total_loss': 270.6558532714844}, 'load_time_ms': 0.687, 'num_steps_sampled': 1718400, 'grad_time_ms': 623.829, 'update_time_ms': 2.558, 'sample_time_ms': 33425.057}",2025-08-31_04-26-41,cda-server-4,34.22148370742798,8592,1756607201,10.157.146.4,False,44153.204511642456,1200
+1433,-609.9845586091086,1433,1719600,{},-662.9585164610452,1719600,0,44187.61998319626,-496.1069184598624,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1719600, 'default': {'kl': 0.009951294399797916, 'policy_loss': -0.13822750747203827, 'vf_loss': 53.73195266723633, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9917681217193604, 'entropy': 5.839303493499756, 'cur_lr': 4.999999873689376e-05, 'total_loss': 53.60884094238281}, 'load_time_ms': 0.7, 'num_steps_sampled': 1719600, 'grad_time_ms': 637.525, 'update_time_ms': 2.488, 'sample_time_ms': 33531.814}",2025-08-31_04-27-15,cda-server-4,34.41547155380249,8598,1756607235,10.157.146.4,False,44187.61998319626,1200
+1434,-610.2813306016354,1434,1720800,{},-662.9585164610452,1720800,0,44221.724642276764,-496.1069184598624,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1720800, 'default': {'kl': 0.009314232505857944, 'policy_loss': -0.13460326194763184, 'vf_loss': 134.30267333984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9823874235153198, 'entropy': 5.4596638679504395, 'cur_lr': 4.999999873689376e-05, 'total_loss': 134.1822052001953}, 'load_time_ms': 0.705, 'num_steps_sampled': 1720800, 'grad_time_ms': 637.501, 'update_time_ms': 2.476, 'sample_time_ms': 33535.825}",2025-08-31_04-27-50,cda-server-4,34.10465908050537,8604,1756607270,10.157.146.4,False,44221.724642276764,1200
+1435,-609.9966731854987,1435,1722000,{},-662.9585164610452,1722000,0,44256.23359465599,-496.1069184598624,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1722000, 'default': {'kl': 0.010783297009766102, 'policy_loss': -0.12244585901498795, 'vf_loss': 719.7866821289062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9313154220581055, 'entropy': 5.530993938446045, 'cur_lr': 4.999999873689376e-05, 'total_loss': 719.6806030273438}, 'load_time_ms': 0.732, 'num_steps_sampled': 1722000, 'grad_time_ms': 637.712, 'update_time_ms': 2.417, 'sample_time_ms': 33524.356}",2025-08-31_04-28-24,cda-server-4,34.508952379226685,8610,1756607304,10.157.146.4,False,44256.23359465599,1200
+1436,-609.6622139179663,1436,1723200,{},-662.9585164610452,1723200,0,44291.270144462585,-496.1069184598624,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1723200, 'default': {'kl': 0.011007444933056831, 'policy_loss': -0.1502721756696701, 'vf_loss': 121.96449279785156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9842255115509033, 'entropy': 5.676570415496826, 'cur_lr': 4.999999873689376e-05, 'total_loss': 121.83091735839844}, 'load_time_ms': 0.757, 'num_steps_sampled': 1723200, 'grad_time_ms': 641.786, 'update_time_ms': 2.419, 'sample_time_ms': 33535.396}",2025-08-31_04-28-59,cda-server-4,35.03654980659485,8616,1756607339,10.157.146.4,False,44291.270144462585,1200
+1437,-609.5016547333703,1437,1724400,{},-648.9931439731695,1724400,0,44325.58753013611,-496.1069184598624,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1724400, 'default': {'kl': 0.009221899323165417, 'policy_loss': -0.13466861844062805, 'vf_loss': 194.81517028808594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9730550050735474, 'entropy': 5.475387096405029, 'cur_lr': 4.999999873689376e-05, 'total_loss': 194.69451904296875}, 'load_time_ms': 0.749, 'num_steps_sampled': 1724400, 'grad_time_ms': 637.15, 'update_time_ms': 2.506, 'sample_time_ms': 33636.311}",2025-08-31_04-29-33,cda-server-4,34.31738567352295,8622,1756607373,10.157.146.4,False,44325.58753013611,1200
+1438,-610.1128292302133,1438,1725600,{},-648.9931439731695,1725600,0,44359.166680812836,-496.1069184598624,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1725600, 'default': {'kl': 0.010663297958672047, 'policy_loss': -0.13008196651935577, 'vf_loss': 185.0507049560547, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9720732569694519, 'entropy': 5.387735843658447, 'cur_lr': 4.999999873689376e-05, 'total_loss': 184.93679809570312}, 'load_time_ms': 0.788, 'num_steps_sampled': 1725600, 'grad_time_ms': 608.014, 'update_time_ms': 2.454, 'sample_time_ms': 33612.353}",2025-08-31_04-30-07,cda-server-4,33.579150676727295,8628,1756607407,10.157.146.4,False,44359.166680812836,1200
+1439,-609.6388029687573,1439,1726800,{},-654.4019025843643,1726800,0,44393.19955658913,-496.1069184598624,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1726800, 'default': {'kl': 0.0120142363011837, 'policy_loss': -0.15080338716506958, 'vf_loss': 89.96144104003906, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9885650277137756, 'entropy': 5.64023494720459, 'cur_lr': 4.999999873689376e-05, 'total_loss': 89.82888793945312}, 'load_time_ms': 0.77, 'num_steps_sampled': 1726800, 'grad_time_ms': 612.856, 'update_time_ms': 2.485, 'sample_time_ms': 33614.505}",2025-08-31_04-30-41,cda-server-4,34.032875776290894,8634,1756607441,10.157.146.4,False,44393.19955658913,1200
+1440,-610.4145194723584,1440,1728000,{},-654.4019025843643,1728000,0,44428.116243600845,-496.1069184598624,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1728000, 'default': {'kl': 0.008757916279137135, 'policy_loss': -0.1327235996723175, 'vf_loss': 114.1927490234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.982475996017456, 'entropy': 5.306863784790039, 'cur_lr': 4.999999873689376e-05, 'total_loss': 114.07332611083984}, 'load_time_ms': 0.739, 'num_steps_sampled': 1728000, 'grad_time_ms': 617.027, 'update_time_ms': 2.462, 'sample_time_ms': 33681.778}",2025-08-31_04-31-16,cda-server-4,34.91668701171875,8640,1756607476,10.157.146.4,False,44428.116243600845,1200
+1441,-610.900802313383,1441,1729200,{},-654.4019025843643,1729200,0,44461.932679891586,-496.1069184598624,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1729200, 'default': {'kl': 0.009337148629128933, 'policy_loss': -0.13475339114665985, 'vf_loss': 101.5504379272461, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9876660108566284, 'entropy': 5.529428958892822, 'cur_lr': 4.999999873689376e-05, 'total_loss': 101.42985534667969}, 'load_time_ms': 0.703, 'num_steps_sampled': 1729200, 'grad_time_ms': 621.74, 'update_time_ms': 2.615, 'sample_time_ms': 33665.927}",2025-08-31_04-31-50,cda-server-4,33.81643629074097,8646,1756607510,10.157.146.4,False,44461.932679891586,1200
+1442,-612.0012971106403,1442,1730400,{},-655.6251498608694,1730400,0,44495.535801410675,-496.1069184598624,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1730400, 'default': {'kl': 0.009898959659039974, 'policy_loss': -0.13780134916305542, 'vf_loss': 393.8327941894531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9658297300338745, 'entropy': 5.744812488555908, 'cur_lr': 4.999999873689376e-05, 'total_loss': 393.71002197265625}, 'load_time_ms': 0.702, 'num_steps_sampled': 1730400, 'grad_time_ms': 614.32, 'update_time_ms': 2.571, 'sample_time_ms': 33611.551}",2025-08-31_04-32-24,cda-server-4,33.603121519088745,8652,1756607544,10.157.146.4,False,44495.535801410675,1200
+1443,-612.6336276000853,1443,1731600,{},-655.6251498608694,1731600,0,44530.16982769966,-529.4398182172952,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1731600, 'default': {'kl': 0.011276423931121826, 'policy_loss': -0.11924878507852554, 'vf_loss': 264.8652038574219, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9637100696563721, 'entropy': 5.307811260223389, 'cur_lr': 4.999999873689376e-05, 'total_loss': 264.7630615234375}, 'load_time_ms': 0.69, 'num_steps_sampled': 1731600, 'grad_time_ms': 598.666, 'update_time_ms': 2.585, 'sample_time_ms': 33649.071}",2025-08-31_04-32-58,cda-server-4,34.634026288986206,8658,1756607578,10.157.146.4,False,44530.16982769966,1200
+1444,-612.5412836278402,1444,1732800,{},-655.6251498608694,1732800,0,44565.10557961464,-529.4398182172952,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1732800, 'default': {'kl': 0.010558301582932472, 'policy_loss': -0.14057037234306335, 'vf_loss': 183.13404846191406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9822757244110107, 'entropy': 5.546627044677734, 'cur_lr': 4.999999873689376e-05, 'total_loss': 183.00949096679688}, 'load_time_ms': 0.69, 'num_steps_sampled': 1732800, 'grad_time_ms': 596.32, 'update_time_ms': 2.665, 'sample_time_ms': 33734.406}",2025-08-31_04-33-33,cda-server-4,34.93575191497803,8664,1756607613,10.157.146.4,False,44565.10557961464,1200
+1445,-609.1118565732958,1445,1734000,{},-655.6251498608694,1734000,0,44599.39814400673,-471.7197869698855,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1734000, 'default': {'kl': 0.014405450783669949, 'policy_loss': -0.16584110260009766, 'vf_loss': 390.3367614746094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9520913362503052, 'entropy': 5.723719120025635, 'cur_lr': 4.999999873689376e-05, 'total_loss': 390.1927490234375}, 'load_time_ms': 0.664, 'num_steps_sampled': 1734000, 'grad_time_ms': 592.402, 'update_time_ms': 2.744, 'sample_time_ms': 33716.597}",2025-08-31_04-34-07,cda-server-4,34.292564392089844,8670,1756607647,10.157.146.4,False,44599.39814400673,1200
+1446,-609.172718407,1446,1735200,{},-655.6251498608694,1735200,0,44632.86021232605,-471.7197869698855,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1735200, 'default': {'kl': 0.011454160325229168, 'policy_loss': -0.14387120306491852, 'vf_loss': 264.4932861328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9727475643157959, 'entropy': 5.25386381149292, 'cur_lr': 4.999999873689376e-05, 'total_loss': 264.3668212890625}, 'load_time_ms': 0.631, 'num_steps_sampled': 1735200, 'grad_time_ms': 584.603, 'update_time_ms': 2.74, 'sample_time_ms': 33567.095}",2025-08-31_04-34-41,cda-server-4,33.46206831932068,8676,1756607681,10.157.146.4,False,44632.86021232605,1200
+1447,-609.8134662126463,1447,1736400,{},-655.6251498608694,1736400,0,44668.08449792862,-471.7197869698855,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1736400, 'default': {'kl': 0.009959080256521702, 'policy_loss': -0.1343185305595398, 'vf_loss': 147.2952117919922, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9800555109977722, 'entropy': 5.409512996673584, 'cur_lr': 4.999999873689376e-05, 'total_loss': 147.17601013183594}, 'load_time_ms': 0.637, 'num_steps_sampled': 1736400, 'grad_time_ms': 606.885, 'update_time_ms': 2.682, 'sample_time_ms': 33635.537}",2025-08-31_04-35-16,cda-server-4,35.22428560256958,8682,1756607716,10.157.146.4,False,44668.08449792862,1200
+1448,-610.8741537187674,1448,1737600,{},-655.6251498608694,1737600,0,44703.31487441063,-471.7197869698855,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1737600, 'default': {'kl': 0.009055566042661667, 'policy_loss': -0.12176863104104996, 'vf_loss': 177.02621459960938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9837324619293213, 'entropy': 5.572511196136475, 'cur_lr': 4.999999873689376e-05, 'total_loss': 176.918212890625}, 'load_time_ms': 0.6, 'num_steps_sampled': 1737600, 'grad_time_ms': 636.431, 'update_time_ms': 2.694, 'sample_time_ms': 33771.07}",2025-08-31_04-35-51,cda-server-4,35.23037648200989,8688,1756607751,10.157.146.4,False,44703.31487441063,1200
+1449,-609.6380370338383,1449,1738800,{},-655.6251498608694,1738800,0,44736.85330533981,-471.7197869698855,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1738800, 'default': {'kl': 0.0093807652592659, 'policy_loss': -0.11365791410207748, 'vf_loss': 248.63497924804688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9638186693191528, 'entropy': 5.658349514007568, 'cur_lr': 4.999999873689376e-05, 'total_loss': 248.5355682373047}, 'load_time_ms': 0.61, 'num_steps_sampled': 1738800, 'grad_time_ms': 652.029, 'update_time_ms': 2.678, 'sample_time_ms': 33706.058}",2025-08-31_04-36-25,cda-server-4,33.53843092918396,8694,1756607785,10.157.146.4,False,44736.85330533981,1200
+1450,-608.9897226986635,1450,1740000,{},-655.6251498608694,1740000,0,44770.84867930412,-471.7197869698855,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1740000, 'default': {'kl': 0.008415882475674152, 'policy_loss': -0.12532448768615723, 'vf_loss': 224.8760528564453, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9644562602043152, 'entropy': 5.497864723205566, 'cur_lr': 4.999999873689376e-05, 'total_loss': 224.7635040283203}, 'load_time_ms': 0.613, 'num_steps_sampled': 1740000, 'grad_time_ms': 654.7, 'update_time_ms': 2.636, 'sample_time_ms': 33611.313}",2025-08-31_04-36-59,cda-server-4,33.99537396430969,8700,1756607819,10.157.146.4,False,44770.84867930412,1200
+1451,-608.2510746012534,1451,1741200,{},-655.6251498608694,1741200,0,44805.70750498772,-471.7197869698855,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1741200, 'default': {'kl': 0.009469723328948021, 'policy_loss': -0.12770408391952515, 'vf_loss': 180.0172576904297, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9721454977989197, 'entropy': 5.254810810089111, 'cur_lr': 4.999999873689376e-05, 'total_loss': 179.9039306640625}, 'load_time_ms': 0.616, 'num_steps_sampled': 1741200, 'grad_time_ms': 657.554, 'update_time_ms': 2.447, 'sample_time_ms': 33712.889}",2025-08-31_04-37-34,cda-server-4,34.85882568359375,8706,1756607854,10.157.146.4,False,44805.70750498772,1200
+1452,-607.6345293049482,1452,1742400,{},-655.6251498608694,1742400,0,44840.23846530914,-463.66404875932346,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1742400, 'default': {'kl': 0.01129805576056242, 'policy_loss': -0.1468571126461029, 'vf_loss': 264.7355651855469, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9708628058433533, 'entropy': 5.483675003051758, 'cur_lr': 4.999999873689376e-05, 'total_loss': 264.60589599609375}, 'load_time_ms': 0.62, 'num_steps_sampled': 1742400, 'grad_time_ms': 651.531, 'update_time_ms': 2.494, 'sample_time_ms': 33811.523}",2025-08-31_04-38-08,cda-server-4,34.53096032142639,8712,1756607888,10.157.146.4,False,44840.23846530914,1200
+1453,-607.4105221096778,1453,1743600,{},-655.6251498608694,1743600,0,44873.55298733711,-463.66404875932346,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1743600, 'default': {'kl': 0.009570066817104816, 'policy_loss': -0.11735299229621887, 'vf_loss': 208.33778381347656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9705183506011963, 'entropy': 5.182562351226807, 'cur_lr': 4.999999873689376e-05, 'total_loss': 208.23495483398438}, 'load_time_ms': 0.625, 'num_steps_sampled': 1743600, 'grad_time_ms': 673.094, 'update_time_ms': 2.52, 'sample_time_ms': 33657.918}",2025-08-31_04-38-42,cda-server-4,33.31452202796936,8718,1756607922,10.157.146.4,False,44873.55298733711,1200
+1454,-606.6396360673726,1454,1744800,{},-655.6251498608694,1744800,0,44908.02332687378,-463.66404875932346,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1744800, 'default': {'kl': 0.010311335325241089, 'policy_loss': -0.1536349505186081, 'vf_loss': 467.2947082519531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9459487199783325, 'entropy': 5.843931198120117, 'cur_lr': 4.999999873689376e-05, 'total_loss': 467.15673828125}, 'load_time_ms': 0.626, 'num_steps_sampled': 1744800, 'grad_time_ms': 671.14, 'update_time_ms': 2.406, 'sample_time_ms': 33613.455}",2025-08-31_04-39-16,cda-server-4,34.47033953666687,8724,1756607956,10.157.146.4,False,44908.02332687378,1200
+1455,-605.6045836243437,1455,1746000,{},-655.6251498608694,1746000,0,44942.64766454697,-463.66404875932346,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1746000, 'default': {'kl': 0.01069901417940855, 'policy_loss': -0.14083093404769897, 'vf_loss': 412.9970397949219, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9760717749595642, 'entropy': 5.2565741539001465, 'cur_lr': 4.999999873689376e-05, 'total_loss': 412.8724365234375}, 'load_time_ms': 0.615, 'num_steps_sampled': 1746000, 'grad_time_ms': 667.561, 'update_time_ms': 2.366, 'sample_time_ms': 33650.253}",2025-08-31_04-39-51,cda-server-4,34.624337673187256,8730,1756607991,10.157.146.4,False,44942.64766454697,1200
+1456,-604.9205825739218,1456,1747200,{},-655.6251498608694,1747200,0,44977.00592470169,-463.66404875932346,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1747200, 'default': {'kl': 0.009074333123862743, 'policy_loss': -0.12660467624664307, 'vf_loss': 240.60421752929688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9890429377555847, 'entropy': 5.452604293823242, 'cur_lr': 4.999999873689376e-05, 'total_loss': 240.49139404296875}, 'load_time_ms': 0.612, 'num_steps_sampled': 1747200, 'grad_time_ms': 686.463, 'update_time_ms': 2.375, 'sample_time_ms': 33720.921}",2025-08-31_04-40-25,cda-server-4,34.35826015472412,8736,1756608025,10.157.146.4,False,44977.00592470169,1200
+1457,-605.1715286306403,1457,1748400,{},-655.6251498608694,1748400,0,45010.46418380737,-463.66404875932346,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1748400, 'default': {'kl': 0.012149585410952568, 'policy_loss': -0.1578269898891449, 'vf_loss': 497.1471252441406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9817519783973694, 'entropy': 5.609358310699463, 'cur_lr': 4.999999873689376e-05, 'total_loss': 497.0078125}, 'load_time_ms': 0.61, 'num_steps_sampled': 1748400, 'grad_time_ms': 693.718, 'update_time_ms': 2.432, 'sample_time_ms': 33536.93}",2025-08-31_04-40-59,cda-server-4,33.45825910568237,8742,1756608059,10.157.146.4,False,45010.46418380737,1200
+1458,-604.2953647776881,1458,1749600,{},-655.6251498608694,1749600,0,45045.66698074341,-463.66404875932346,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1749600, 'default': {'kl': 0.009831800125539303, 'policy_loss': -0.12551923096179962, 'vf_loss': 280.6243896484375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9521157145500183, 'entropy': 5.264781475067139, 'cur_lr': 4.999999873689376e-05, 'total_loss': 280.5137939453125}, 'load_time_ms': 0.602, 'num_steps_sampled': 1749600, 'grad_time_ms': 692.29, 'update_time_ms': 2.504, 'sample_time_ms': 33535.633}",2025-08-31_04-41-34,cda-server-4,35.202796936035156,8748,1756608094,10.157.146.4,False,45045.66698074341,1200
+1459,-604.5254220655613,1459,1750800,{},-651.9663945030645,1750800,0,45081.334633111954,-463.66404875932346,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1750800, 'default': {'kl': 0.013474483042955399, 'policy_loss': -0.16092140972614288, 'vf_loss': 77.0045166015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9912751317024231, 'entropy': 5.431766986846924, 'cur_lr': 4.999999873689376e-05, 'total_loss': 76.86405181884766}, 'load_time_ms': 0.586, 'num_steps_sampled': 1750800, 'grad_time_ms': 693.492, 'update_time_ms': 2.508, 'sample_time_ms': 33747.422}",2025-08-31_04-42-10,cda-server-4,35.66765236854553,8754,1756608130,10.157.146.4,False,45081.334633111954,1200
+1460,-605.770457965148,1460,1752000,{},-651.9663945030645,1752000,0,45115.30931854248,-463.66404875932346,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1752000, 'default': {'kl': 0.009239507839083672, 'policy_loss': -0.13408811390399933, 'vf_loss': 251.62217712402344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9747449159622192, 'entropy': 5.751748561859131, 'cur_lr': 4.999999873689376e-05, 'total_loss': 251.5021209716797}, 'load_time_ms': 0.58, 'num_steps_sampled': 1752000, 'grad_time_ms': 693.454, 'update_time_ms': 2.479, 'sample_time_ms': 33745.393}",2025-08-31_04-42-44,cda-server-4,33.97468543052673,8760,1756608164,10.157.146.4,False,45115.30931854248,1200
+1461,-608.1836733657815,1461,1753200,{},-651.9663945030645,1753200,0,45149.73795056343,-463.66404875932346,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1753200, 'default': {'kl': 0.009317003190517426, 'policy_loss': -0.13977709412574768, 'vf_loss': 87.12284851074219, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9879345297813416, 'entropy': 5.667367935180664, 'cur_lr': 4.999999873689376e-05, 'total_loss': 86.99722290039062}, 'load_time_ms': 0.58, 'num_steps_sampled': 1753200, 'grad_time_ms': 691.622, 'update_time_ms': 2.488, 'sample_time_ms': 33704.208}",2025-08-31_04-43-18,cda-server-4,34.42863202095032,8766,1756608198,10.157.146.4,False,45149.73795056343,1200
+1462,-608.4962740694638,1462,1754400,{},-651.9663945030645,1754400,0,45184.07434988022,-463.66404875932346,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1754400, 'default': {'kl': 0.009672369807958603, 'policy_loss': -0.1484033614397049, 'vf_loss': 205.59645080566406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9705562591552734, 'entropy': 5.3987650871276855, 'cur_lr': 4.999999873689376e-05, 'total_loss': 205.46273803710938}, 'load_time_ms': 0.58, 'num_steps_sampled': 1754400, 'grad_time_ms': 692.683, 'update_time_ms': 2.454, 'sample_time_ms': 33683.75}",2025-08-31_04-43-52,cda-server-4,34.33639931678772,8772,1756608232,10.157.146.4,False,45184.07434988022,1200
+1463,-608.8770731195375,1463,1755600,{},-651.9663945030645,1755600,0,45218.669909477234,-463.66404875932346,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1755600, 'default': {'kl': 0.01215514075011015, 'policy_loss': -0.14766961336135864, 'vf_loss': 34.028621673583984, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9950439929962158, 'entropy': 5.5124382972717285, 'cur_lr': 4.999999873689376e-05, 'total_loss': 33.899410247802734}, 'load_time_ms': 0.584, 'num_steps_sampled': 1755600, 'grad_time_ms': 698.128, 'update_time_ms': 2.42, 'sample_time_ms': 33806.356}",2025-08-31_04-44-27,cda-server-4,34.59555959701538,8778,1756608267,10.157.146.4,False,45218.669909477234,1200
+1464,-608.2820256522086,1464,1756800,{},-662.483519154692,1756800,0,45252.87015748024,-463.66404875932346,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1756800, 'default': {'kl': 0.00956699438393116, 'policy_loss': -0.1208624467253685, 'vf_loss': 609.160400390625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9520807266235352, 'entropy': 5.39410924911499, 'cur_lr': 4.999999873689376e-05, 'total_loss': 609.0541381835938}, 'load_time_ms': 0.574, 'num_steps_sampled': 1756800, 'grad_time_ms': 705.333, 'update_time_ms': 2.508, 'sample_time_ms': 33772.104}",2025-08-31_04-45-01,cda-server-4,34.20024800300598,8784,1756608301,10.157.146.4,False,45252.87015748024,1200
+1465,-609.3839132552774,1465,1758000,{},-667.5222094718622,1758000,0,45287.35700368881,-463.66404875932346,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1758000, 'default': {'kl': 0.008823893032968044, 'policy_loss': -0.13451994955539703, 'vf_loss': 89.94039916992188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9871202111244202, 'entropy': 5.5067267417907715, 'cur_lr': 4.999999873689376e-05, 'total_loss': 89.81927490234375}, 'load_time_ms': 0.612, 'num_steps_sampled': 1758000, 'grad_time_ms': 700.652, 'update_time_ms': 2.598, 'sample_time_ms': 33762.917}",2025-08-31_04-45-36,cda-server-4,34.48684620857239,8790,1756608336,10.157.146.4,False,45287.35700368881,1200
+1466,-607.9267047855316,1466,1759200,{},-667.5222094718622,1759200,0,45321.36013364792,-463.66404875932346,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1759200, 'default': {'kl': 0.01025567576289177, 'policy_loss': -0.1523650735616684, 'vf_loss': 519.9422607421875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9408228397369385, 'entropy': 5.491296768188477, 'cur_lr': 4.999999873689376e-05, 'total_loss': 519.805419921875}, 'load_time_ms': 0.652, 'num_steps_sampled': 1759200, 'grad_time_ms': 686.775, 'update_time_ms': 2.572, 'sample_time_ms': 33741.198}",2025-08-31_04-46-10,cda-server-4,34.003129959106445,8796,1756608370,10.157.146.4,False,45321.36013364792,1200
+1467,-608.5164929776013,1467,1760400,{},-667.5222094718622,1760400,0,45355.15184688568,-463.66404875932346,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1760400, 'default': {'kl': 0.010236711241304874, 'policy_loss': -0.13318413496017456, 'vf_loss': 182.7198486328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9811382293701172, 'entropy': 5.450526714324951, 'cur_lr': 4.999999873689376e-05, 'total_loss': 182.6022186279297}, 'load_time_ms': 0.678, 'num_steps_sampled': 1760400, 'grad_time_ms': 679.325, 'update_time_ms': 2.501, 'sample_time_ms': 33782.042}",2025-08-31_04-46-44,cda-server-4,33.79171323776245,8802,1756608404,10.157.146.4,False,45355.15184688568,1200
+1468,-606.9514769638434,1468,1761600,{},-667.5222094718622,1761600,0,45389.66070532799,-463.66404875932346,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1761600, 'default': {'kl': 0.01117264200001955, 'policy_loss': -0.13916081190109253, 'vf_loss': 245.12896728515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9782609939575195, 'entropy': 5.583625793457031, 'cur_lr': 4.999999873689376e-05, 'total_loss': 245.0067596435547}, 'load_time_ms': 0.712, 'num_steps_sampled': 1761600, 'grad_time_ms': 658.53, 'update_time_ms': 2.486, 'sample_time_ms': 33733.309}",2025-08-31_04-47-18,cda-server-4,34.50885844230652,8808,1756608438,10.157.146.4,False,45389.66070532799,1200
+1469,-609.039703996945,1469,1762800,{},-672.8575638015141,1762800,0,45424.94392776489,-473.0313583598007,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1762800, 'default': {'kl': 0.012481050565838814, 'policy_loss': -0.1719117909669876, 'vf_loss': 580.239013671875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9540229439735413, 'entropy': 5.783524036407471, 'cur_lr': 4.999999873689376e-05, 'total_loss': 580.0861206054688}, 'load_time_ms': 0.716, 'num_steps_sampled': 1762800, 'grad_time_ms': 633.115, 'update_time_ms': 2.485, 'sample_time_ms': 33720.26}",2025-08-31_04-47-53,cda-server-4,35.28322243690491,8814,1756608473,10.157.146.4,False,45424.94392776489,1200
+1470,-610.0395548069508,1470,1764000,{},-672.8575638015141,1764000,0,45459.94922041893,-473.0313583598007,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1764000, 'default': {'kl': 0.011298183351755142, 'policy_loss': -0.1295510083436966, 'vf_loss': 295.9984130859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9590640664100647, 'entropy': 5.638167381286621, 'cur_lr': 4.999999873689376e-05, 'total_loss': 295.88604736328125}, 'load_time_ms': 0.72, 'num_steps_sampled': 1764000, 'grad_time_ms': 617.193, 'update_time_ms': 2.55, 'sample_time_ms': 33839.212}",2025-08-31_04-48-28,cda-server-4,35.005292654037476,8820,1756608508,10.157.146.4,False,45459.94922041893,1200
+1471,-610.7295275381534,1471,1765200,{},-672.8575638015141,1765200,0,45493.94675350189,-473.0313583598007,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1765200, 'default': {'kl': 0.010271487757563591, 'policy_loss': -0.13785207271575928, 'vf_loss': 342.2023620605469, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9596565961837769, 'entropy': 5.263651371002197, 'cur_lr': 4.999999873689376e-05, 'total_loss': 342.08013916015625}, 'load_time_ms': 0.72, 'num_steps_sampled': 1765200, 'grad_time_ms': 610.001, 'update_time_ms': 2.55, 'sample_time_ms': 33803.137}",2025-08-31_04-49-03,cda-server-4,33.997533082962036,8826,1756608543,10.157.146.4,False,45493.94675350189,1200
+1472,-612.1895345231796,1472,1766400,{},-672.8575638015141,1766400,0,45529.49606466293,-473.0313583598007,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1766400, 'default': {'kl': 0.00875945296138525, 'policy_loss': -0.10861315578222275, 'vf_loss': 168.60317993164062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9724093675613403, 'entropy': 5.898658752441406, 'cur_lr': 4.999999873689376e-05, 'total_loss': 168.5078582763672}, 'load_time_ms': 0.72, 'num_steps_sampled': 1766400, 'grad_time_ms': 630.793, 'update_time_ms': 2.554, 'sample_time_ms': 33903.71}",2025-08-31_04-49-38,cda-server-4,35.54931116104126,8832,1756608578,10.157.146.4,False,45529.49606466293,1200
+1473,-609.5643437360309,1473,1767600,{},-672.8575638015141,1767600,0,45565.09605097771,-473.0313583598007,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1767600, 'default': {'kl': 0.011532057076692581, 'policy_loss': -0.1660352349281311, 'vf_loss': 134.9496307373047, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.985210120677948, 'entropy': 5.327062129974365, 'cur_lr': 4.999999873689376e-05, 'total_loss': 134.8011016845703}, 'load_time_ms': 0.716, 'num_steps_sampled': 1767600, 'grad_time_ms': 632.557, 'update_time_ms': 2.58, 'sample_time_ms': 34002.495}",2025-08-31_04-50-14,cda-server-4,35.59998631477356,8838,1756608614,10.157.146.4,False,45565.09605097771,1200
+1474,-609.1334504788647,1474,1768800,{},-672.8575638015141,1768800,0,45599.30842781067,-473.0313583598007,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1768800, 'default': {'kl': 0.011926252394914627, 'policy_loss': -0.12575678527355194, 'vf_loss': 302.6756896972656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9774349927902222, 'entropy': 5.306881427764893, 'cur_lr': 4.999999873689376e-05, 'total_loss': 302.56805419921875}, 'load_time_ms': 0.74, 'num_steps_sampled': 1768800, 'grad_time_ms': 627.703, 'update_time_ms': 2.541, 'sample_time_ms': 34008.538}",2025-08-31_04-50-48,cda-server-4,34.212376832962036,8844,1756608648,10.157.146.4,False,45599.30842781067,1200
+1475,-609.4278757948567,1475,1770000,{},-672.8575638015141,1770000,0,45633.14013314247,-473.0313583598007,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1770000, 'default': {'kl': 0.008559424430131912, 'policy_loss': -0.11554078012704849, 'vf_loss': 59.34626007080078, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9919210076332092, 'entropy': 5.4101362228393555, 'cur_lr': 4.999999873689376e-05, 'total_loss': 59.24372100830078}, 'load_time_ms': 0.709, 'num_steps_sampled': 1770000, 'grad_time_ms': 631.522, 'update_time_ms': 2.479, 'sample_time_ms': 33939.326}",2025-08-31_04-51-22,cda-server-4,33.83170533180237,8850,1756608682,10.157.146.4,False,45633.14013314247,1200
+1476,-609.248286417235,1476,1771200,{},-672.8575638015141,1771200,0,45668.34597635269,-473.0313583598007,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1771200, 'default': {'kl': 0.009729682467877865, 'policy_loss': -0.13776545226573944, 'vf_loss': 64.69970703125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9928585886955261, 'entropy': 5.460093021392822, 'cur_lr': 4.999999873689376e-05, 'total_loss': 64.57672882080078}, 'load_time_ms': 0.675, 'num_steps_sampled': 1771200, 'grad_time_ms': 632.813, 'update_time_ms': 2.503, 'sample_time_ms': 34058.433}",2025-08-31_04-51-57,cda-server-4,35.20584321022034,8856,1756608717,10.157.146.4,False,45668.34597635269,1200
+1477,-607.1313331586982,1477,1772400,{},-672.8575638015141,1772400,0,45703.7761452198,-462.6674575047815,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1772400, 'default': {'kl': 0.01083456166088581, 'policy_loss': -0.14156122505664825, 'vf_loss': 165.20101928710938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.984867513179779, 'entropy': 5.271298408508301, 'cur_lr': 4.999999873689376e-05, 'total_loss': 165.075927734375}, 'load_time_ms': 0.646, 'num_steps_sampled': 1772400, 'grad_time_ms': 621.096, 'update_time_ms': 2.528, 'sample_time_ms': 34233.994}",2025-08-31_04-52-32,cda-server-4,35.430168867111206,8862,1756608752,10.157.146.4,False,45703.7761452198,1200
+1478,-607.3086244974799,1478,1773600,{},-672.8575638015141,1773600,0,45738.335705041885,-462.6674575047815,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1773600, 'default': {'kl': 0.013514291495084763, 'policy_loss': -0.16276003420352936, 'vf_loss': 1232.24365234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9517533779144287, 'entropy': 5.646003246307373, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1232.1014404296875}, 'load_time_ms': 0.645, 'num_steps_sampled': 1773600, 'grad_time_ms': 637.504, 'update_time_ms': 2.565, 'sample_time_ms': 34222.618}",2025-08-31_04-53-07,cda-server-4,34.55955982208252,8868,1756608787,10.157.146.4,False,45738.335705041885,1200
+1479,-608.2534561511288,1479,1774800,{},-672.8575638015141,1774800,0,45773.08282971382,-462.6674575047815,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1774800, 'default': {'kl': 0.009846199303865433, 'policy_loss': -0.14229875802993774, 'vf_loss': 292.0986022949219, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9680955410003662, 'entropy': 5.681943893432617, 'cur_lr': 4.999999873689376e-05, 'total_loss': 291.9713134765625}, 'load_time_ms': 0.647, 'num_steps_sampled': 1774800, 'grad_time_ms': 661.957, 'update_time_ms': 2.503, 'sample_time_ms': 34144.574}",2025-08-31_04-53-42,cda-server-4,34.747124671936035,8874,1756608822,10.157.146.4,False,45773.08282971382,1200
+1480,-607.3470332471092,1480,1776000,{},-672.8575638015141,1776000,0,45808.15754079819,-462.6674575047815,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1776000, 'default': {'kl': 0.008013843558728695, 'policy_loss': -0.1316901594400406, 'vf_loss': 188.15740966796875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9826609492301941, 'entropy': 5.537345886230469, 'cur_lr': 4.999999873689376e-05, 'total_loss': 188.0378875732422}, 'load_time_ms': 0.675, 'num_steps_sampled': 1776000, 'grad_time_ms': 678.443, 'update_time_ms': 2.458, 'sample_time_ms': 34134.983}",2025-08-31_04-54-17,cda-server-4,35.074711084365845,8880,1756608857,10.157.146.4,False,45808.15754079819,1200
+1481,-607.4782863969568,1481,1777200,{},-672.8575638015141,1777200,0,45842.16433477402,-462.6674575047815,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1777200, 'default': {'kl': 0.01117917150259018, 'policy_loss': -0.14612412452697754, 'vf_loss': 125.52200317382812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9853203892707825, 'entropy': 5.300523281097412, 'cur_lr': 4.999999873689376e-05, 'total_loss': 125.39285278320312}, 'load_time_ms': 0.67, 'num_steps_sampled': 1777200, 'grad_time_ms': 686.998, 'update_time_ms': 2.492, 'sample_time_ms': 34127.511}",2025-08-31_04-54-51,cda-server-4,34.00679397583008,8886,1756608891,10.157.146.4,False,45842.16433477402,1200
+1482,-609.3572831503802,1482,1778400,{},-672.8575638015141,1778400,0,45876.05537176132,-462.6674575047815,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1778400, 'default': {'kl': 0.01099051907658577, 'policy_loss': -0.1391950249671936, 'vf_loss': 364.7057800292969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9779819846153259, 'entropy': 5.455266952514648, 'cur_lr': 4.999999873689376e-05, 'total_loss': 364.5832824707031}, 'load_time_ms': 0.67, 'num_steps_sampled': 1778400, 'grad_time_ms': 684.944, 'update_time_ms': 2.508, 'sample_time_ms': 33963.738}",2025-08-31_04-55-25,cda-server-4,33.89103698730469,8892,1756608925,10.157.146.4,False,45876.05537176132,1200
+1483,-609.6786040137436,1483,1779600,{},-672.8575638015141,1779600,0,45910.76450943947,-462.6674575047815,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1779600, 'default': {'kl': 0.010146531276404858, 'policy_loss': -0.130126953125, 'vf_loss': 229.4781951904297, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9834893345832825, 'entropy': 5.295177936553955, 'cur_lr': 4.999999873689376e-05, 'total_loss': 229.36346435546875}, 'load_time_ms': 0.666, 'num_steps_sampled': 1779600, 'grad_time_ms': 679.674, 'update_time_ms': 2.566, 'sample_time_ms': 33879.807}",2025-08-31_04-56-00,cda-server-4,34.70913767814636,8898,1756608960,10.157.146.4,False,45910.76450943947,1200
+1484,-610.2208851983138,1484,1780800,{},-672.8575638015141,1780800,0,45945.90643119812,-462.6674575047815,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1780800, 'default': {'kl': 0.011535950936377048, 'policy_loss': -0.15536464750766754, 'vf_loss': 32.26128005981445, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9961627125740051, 'entropy': 5.25954008102417, 'cur_lr': 4.999999873689376e-05, 'total_loss': 32.12343978881836}, 'load_time_ms': 0.652, 'num_steps_sampled': 1780800, 'grad_time_ms': 683.225, 'update_time_ms': 2.631, 'sample_time_ms': 33969.216}",2025-08-31_04-56-35,cda-server-4,35.14192175865173,8904,1756608995,10.157.146.4,False,45945.90643119812,1200
+1485,-610.0143940549873,1485,1782000,{},-672.8575638015141,1782000,0,45980.28030228615,-462.6674575047815,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1782000, 'default': {'kl': 0.012798336334526539, 'policy_loss': -0.14776365458965302, 'vf_loss': 509.1468200683594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9803041815757751, 'entropy': 5.103259086608887, 'cur_lr': 4.999999873689376e-05, 'total_loss': 509.01849365234375}, 'load_time_ms': 0.644, 'num_steps_sampled': 1782000, 'grad_time_ms': 687.14, 'update_time_ms': 2.591, 'sample_time_ms': 34019.637}",2025-08-31_04-57-09,cda-server-4,34.373871088027954,8910,1756609029,10.157.146.4,False,45980.28030228615,1200
+1486,-609.691644527305,1486,1783200,{},-663.7686039297481,1783200,0,46014.551080703735,-462.6674575047815,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1783200, 'default': {'kl': 0.01109338365495205, 'policy_loss': -0.14245104789733887, 'vf_loss': 189.13812255859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9864632487297058, 'entropy': 5.396353721618652, 'cur_lr': 4.999999873689376e-05, 'total_loss': 189.0125274658203}, 'load_time_ms': 0.655, 'num_steps_sampled': 1783200, 'grad_time_ms': 698.944, 'update_time_ms': 2.574, 'sample_time_ms': 33914.291}",2025-08-31_04-57-43,cda-server-4,34.27077841758728,8916,1756609063,10.157.146.4,False,46014.551080703735,1200
+1487,-609.6350552528546,1487,1784400,{},-659.8037417155663,1784400,0,46049.291848897934,-462.6674575047815,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1784400, 'default': {'kl': 0.009181035682559013, 'policy_loss': -0.1274692714214325, 'vf_loss': 60.04166030883789, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9949874877929688, 'entropy': 5.402456283569336, 'cur_lr': 4.999999873689376e-05, 'total_loss': 59.92814254760742}, 'load_time_ms': 0.659, 'num_steps_sampled': 1784400, 'grad_time_ms': 717.252, 'update_time_ms': 2.592, 'sample_time_ms': 33827.117}",2025-08-31_04-58-18,cda-server-4,34.74076819419861,8922,1756609098,10.157.146.4,False,46049.291848897934,1200
+1488,-609.7288961402542,1488,1785600,{},-659.8037417155663,1785600,0,46084.59340882301,-462.6674575047815,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1785600, 'default': {'kl': 0.011208336800336838, 'policy_loss': -0.13893303275108337, 'vf_loss': 607.2048950195312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9570576548576355, 'entropy': 5.802915573120117, 'cur_lr': 4.999999873689376e-05, 'total_loss': 607.0830078125}, 'load_time_ms': 0.635, 'num_steps_sampled': 1785600, 'grad_time_ms': 720.546, 'update_time_ms': 2.489, 'sample_time_ms': 33898.26}",2025-08-31_04-58-53,cda-server-4,35.301559925079346,8928,1756609133,10.157.146.4,False,46084.59340882301,1200
+1489,-611.050037815303,1489,1786800,{},-659.8037417155663,1786800,0,46118.57941579819,-462.6674575047815,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1786800, 'default': {'kl': 0.007860904559493065, 'policy_loss': -0.12343461066484451, 'vf_loss': 290.4691467285156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9722506999969482, 'entropy': 5.258369445800781, 'cur_lr': 4.999999873689376e-05, 'total_loss': 290.357666015625}, 'load_time_ms': 0.635, 'num_steps_sampled': 1786800, 'grad_time_ms': 720.954, 'update_time_ms': 2.566, 'sample_time_ms': 33821.697}",2025-08-31_04-59-27,cda-server-4,33.98600697517395,8934,1756609167,10.157.146.4,False,46118.57941579819,1200
+1490,-611.7830058174557,1490,1788000,{},-659.8037417155663,1788000,0,46153.12497019768,-462.6674575047815,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1788000, 'default': {'kl': 0.008997712284326553, 'policy_loss': -0.1115848645567894, 'vf_loss': 367.4471435546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9713555574417114, 'entropy': 5.375598430633545, 'cur_lr': 4.999999873689376e-05, 'total_loss': 367.3492431640625}, 'load_time_ms': 0.607, 'num_steps_sampled': 1788000, 'grad_time_ms': 711.164, 'update_time_ms': 2.611, 'sample_time_ms': 33778.592}",2025-08-31_05-00-02,cda-server-4,34.545554399490356,8940,1756609202,10.157.146.4,False,46153.12497019768,1200
+1491,-611.179528756356,1491,1789200,{},-659.8037417155663,1789200,0,46187.846499443054,-462.6674575047815,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1789200, 'default': {'kl': 0.01110118068754673, 'policy_loss': -0.17120054364204407, 'vf_loss': 685.114501953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9171757102012634, 'entropy': 6.008673667907715, 'cur_lr': 4.999999873689376e-05, 'total_loss': 684.960205078125}, 'load_time_ms': 0.61, 'num_steps_sampled': 1789200, 'grad_time_ms': 708.374, 'update_time_ms': 2.59, 'sample_time_ms': 33852.778}",2025-08-31_05-00-37,cda-server-4,34.72152924537659,8946,1756609237,10.157.146.4,False,46187.846499443054,1200
+1492,-609.8110707023501,1492,1790400,{},-659.8037417155663,1790400,0,46222.88276267052,-462.6674575047815,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1790400, 'default': {'kl': 0.01041744090616703, 'policy_loss': -0.10070391744375229, 'vf_loss': 527.4688110351562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9427624940872192, 'entropy': 5.067842483520508, 'cur_lr': 4.999999873689376e-05, 'total_loss': 527.3839721679688}, 'load_time_ms': 0.609, 'num_steps_sampled': 1790400, 'grad_time_ms': 686.802, 'update_time_ms': 2.717, 'sample_time_ms': 33988.732}",2025-08-31_05-01-12,cda-server-4,35.03626322746277,8952,1756609272,10.157.146.4,False,46222.88276267052,1200
+1493,-610.4946749875778,1493,1791600,{},-659.8037417155663,1791600,0,46256.15670347214,-462.6674575047815,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1791600, 'default': {'kl': 0.007485987618565559, 'policy_loss': -0.109304279088974, 'vf_loss': 453.5342102050781, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9599387645721436, 'entropy': 5.427022933959961, 'cur_lr': 4.999999873689376e-05, 'total_loss': 453.4362487792969}, 'load_time_ms': 0.646, 'num_steps_sampled': 1791600, 'grad_time_ms': 686.408, 'update_time_ms': 2.621, 'sample_time_ms': 33845.633}",2025-08-31_05-01-45,cda-server-4,33.27394080162048,8958,1756609305,10.157.146.4,False,46256.15670347214,1200
+1494,-612.1780194366125,1494,1792800,{},-659.8037417155663,1792800,0,46290.90499806404,-492.55955450520065,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1792800, 'default': {'kl': 0.008904147893190384, 'policy_loss': -0.12061231583356857, 'vf_loss': 176.99310302734375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9851335883140564, 'entropy': 5.266918659210205, 'cur_lr': 4.999999873689376e-05, 'total_loss': 176.88601684570312}, 'load_time_ms': 0.65, 'num_steps_sampled': 1792800, 'grad_time_ms': 688.907, 'update_time_ms': 2.614, 'sample_time_ms': 33803.696}",2025-08-31_05-02-20,cda-server-4,34.74829459190369,8964,1756609340,10.157.146.4,False,46290.90499806404,1200
+1495,-611.2719502580203,1495,1794000,{},-659.2345079926405,1794000,0,46326.03776025772,-492.55955450520065,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1794000, 'default': {'kl': 0.011089742183685303, 'policy_loss': -0.15367253124713898, 'vf_loss': 266.7143859863281, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9854206442832947, 'entropy': 5.38696813583374, 'cur_lr': 4.999999873689376e-05, 'total_loss': 266.5775451660156}, 'load_time_ms': 0.655, 'num_steps_sampled': 1794000, 'grad_time_ms': 692.761, 'update_time_ms': 2.676, 'sample_time_ms': 33875.555}",2025-08-31_05-02-55,cda-server-4,35.13276219367981,8970,1756609375,10.157.146.4,False,46326.03776025772,1200
+1496,-611.2656689745969,1496,1795200,{},-659.2345079926405,1795200,0,46359.65937876701,-492.55955450520065,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1795200, 'default': {'kl': 0.008670628070831299, 'policy_loss': -0.122862309217453, 'vf_loss': 300.7247314453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9725251793861389, 'entropy': 5.035801410675049, 'cur_lr': 4.999999873689376e-05, 'total_loss': 300.6150207519531}, 'load_time_ms': 0.64, 'num_steps_sampled': 1795200, 'grad_time_ms': 693.151, 'update_time_ms': 2.686, 'sample_time_ms': 33810.265}",2025-08-31_05-03-29,cda-server-4,33.6216185092926,8976,1756609409,10.157.146.4,False,46359.65937876701,1200
+1497,-611.5314667561671,1497,1796400,{},-659.2345079926405,1796400,0,46394.24248337746,-492.55955450520065,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1796400, 'default': {'kl': 0.01182684488594532, 'policy_loss': -0.16343443095684052, 'vf_loss': 237.53170776367188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9785056710243225, 'entropy': 5.37591552734375, 'cur_lr': 4.999999873689376e-05, 'total_loss': 237.38623046875}, 'load_time_ms': 0.636, 'num_steps_sampled': 1796400, 'grad_time_ms': 688.968, 'update_time_ms': 2.643, 'sample_time_ms': 33798.603}",2025-08-31_05-04-03,cda-server-4,34.583104610443115,8982,1756609443,10.157.146.4,False,46394.24248337746,1200
+1498,-611.9488184371878,1498,1797600,{},-659.2345079926405,1797600,0,46428.27960109711,-492.55955450520065,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1797600, 'default': {'kl': 0.008796478621661663, 'policy_loss': -0.117092065513134, 'vf_loss': 165.053955078125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9720194339752197, 'entropy': 5.42594051361084, 'cur_lr': 4.999999873689376e-05, 'total_loss': 164.95025634765625}, 'load_time_ms': 0.633, 'num_steps_sampled': 1797600, 'grad_time_ms': 678.599, 'update_time_ms': 2.687, 'sample_time_ms': 33682.494}",2025-08-31_05-04-37,cda-server-4,34.03711771965027,8988,1756609477,10.157.146.4,False,46428.27960109711,1200
+1499,-610.9383667483621,1499,1798800,{},-659.2345079926405,1798800,0,46462.95826005936,-492.55955450520065,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1798800, 'default': {'kl': 0.010211457498371601, 'policy_loss': -0.1218574196100235, 'vf_loss': 477.32232666015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9773678183555603, 'entropy': 5.234869003295898, 'cur_lr': 4.999999873689376e-05, 'total_loss': 477.2159729003906}, 'load_time_ms': 0.63, 'num_steps_sampled': 1798800, 'grad_time_ms': 672.865, 'update_time_ms': 2.621, 'sample_time_ms': 33757.512}",2025-08-31_05-05-12,cda-server-4,34.678658962249756,8994,1756609512,10.157.146.4,False,46462.95826005936,1200
+1500,-610.3673888652249,1500,1800000,{},-659.2345079926405,1800000,0,46496.981134176254,-492.55955450520065,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1800000, 'default': {'kl': 0.010028253309428692, 'policy_loss': -0.12829409539699554, 'vf_loss': 432.75860595703125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9438798427581787, 'entropy': 5.116857528686523, 'cur_lr': 4.999999873689376e-05, 'total_loss': 432.6455078125}, 'load_time_ms': 0.625, 'num_steps_sampled': 1800000, 'grad_time_ms': 676.135, 'update_time_ms': 2.62, 'sample_time_ms': 33701.947}",2025-08-31_05-05-46,cda-server-4,34.02287411689758,9000,1756609546,10.157.146.4,False,46496.981134176254,1200
+1501,-609.9945915664186,1501,1801200,{},-659.2345079926405,1801200,0,46531.96143960953,-492.55955450520065,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1801200, 'default': {'kl': 0.010358382947742939, 'policy_loss': -0.14664146304130554, 'vf_loss': 40.051246643066406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9950997829437256, 'entropy': 5.231073379516602, 'cur_lr': 4.999999873689376e-05, 'total_loss': 39.92033386230469}, 'load_time_ms': 0.63, 'num_steps_sampled': 1801200, 'grad_time_ms': 674.402, 'update_time_ms': 2.761, 'sample_time_ms': 33729.416}",2025-08-31_05-06-21,cda-server-4,34.980305433273315,9006,1756609581,10.157.146.4,False,46531.96143960953,1200
+1502,-612.1995908032466,1502,1802400,{},-659.2345079926405,1802400,0,46566.058361291885,-492.55955450520065,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1802400, 'default': {'kl': 0.011348685249686241, 'policy_loss': -0.1471133828163147, 'vf_loss': 66.15008544921875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9911714196205139, 'entropy': 5.327556133270264, 'cur_lr': 4.999999873689376e-05, 'total_loss': 66.02021026611328}, 'load_time_ms': 0.641, 'num_steps_sampled': 1802400, 'grad_time_ms': 677.861, 'update_time_ms': 2.635, 'sample_time_ms': 33632.132}",2025-08-31_05-06-55,cda-server-4,34.09692168235779,9012,1756609615,10.157.146.4,False,46566.058361291885,1200
+1503,-613.0983161158784,1503,1803600,{},-659.2345079926405,1803600,0,46599.85985326767,-492.55955450520065,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1803600, 'default': {'kl': 0.01005211565643549, 'policy_loss': -0.13979360461235046, 'vf_loss': 127.43694305419922, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9859727025032043, 'entropy': 5.289743423461914, 'cur_lr': 4.999999873689376e-05, 'total_loss': 127.31240844726562}, 'load_time_ms': 0.607, 'num_steps_sampled': 1803600, 'grad_time_ms': 674.483, 'update_time_ms': 2.652, 'sample_time_ms': 33688.366}",2025-08-31_05-07-29,cda-server-4,33.8014919757843,9018,1756609649,10.157.146.4,False,46599.85985326767,1200
+1504,-613.3236505530922,1504,1804800,{},-659.2345079926405,1804800,0,46633.62792420387,-492.55955450520065,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1804800, 'default': {'kl': 0.010018297471106052, 'policy_loss': -0.14046713709831238, 'vf_loss': 130.7348175048828, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9880592823028564, 'entropy': 5.15358304977417, 'cur_lr': 4.999999873689376e-05, 'total_loss': 130.6095733642578}, 'load_time_ms': 0.606, 'num_steps_sampled': 1804800, 'grad_time_ms': 673.884, 'update_time_ms': 2.604, 'sample_time_ms': 33591.087}",2025-08-31_05-08-03,cda-server-4,33.768070936203,9024,1756609683,10.157.146.4,False,46633.62792420387,1200
+1505,-613.8132919594667,1505,1806000,{},-659.2345079926405,1806000,0,46668.38981580734,-492.55955450520065,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1806000, 'default': {'kl': 0.010392447002232075, 'policy_loss': -0.13549424707889557, 'vf_loss': 563.5133666992188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9789330363273621, 'entropy': 5.316657543182373, 'cur_lr': 4.999999873689376e-05, 'total_loss': 563.3936157226562}, 'load_time_ms': 0.615, 'num_steps_sampled': 1806000, 'grad_time_ms': 672.769, 'update_time_ms': 2.545, 'sample_time_ms': 33555.207}",2025-08-31_05-08-38,cda-server-4,34.76189160346985,9030,1756609718,10.157.146.4,False,46668.38981580734,1200
+1506,-615.1365557966324,1506,1807200,{},-659.2345079926405,1807200,0,46703.68720006943,-492.55955450520065,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1807200, 'default': {'kl': 0.012290974147617817, 'policy_loss': -0.170880988240242, 'vf_loss': 551.9287109375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9493958353996277, 'entropy': 5.80100154876709, 'cur_lr': 4.999999873689376e-05, 'total_loss': 551.7765502929688}, 'load_time_ms': 0.618, 'num_steps_sampled': 1807200, 'grad_time_ms': 671.354, 'update_time_ms': 2.52, 'sample_time_ms': 33724.246}",2025-08-31_05-09-13,cda-server-4,35.29738426208496,9036,1756609753,10.157.146.4,False,46703.68720006943,1200
+1507,-614.8297799104898,1507,1808400,{},-659.2345079926405,1808400,0,46737.343250989914,-492.55955450520065,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1808400, 'default': {'kl': 0.011559250764548779, 'policy_loss': -0.15352973341941833, 'vf_loss': 359.8691711425781, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9660181403160095, 'entropy': 5.577399253845215, 'cur_lr': 4.999999873689376e-05, 'total_loss': 359.73321533203125}, 'load_time_ms': 0.621, 'num_steps_sampled': 1808400, 'grad_time_ms': 662.612, 'update_time_ms': 2.537, 'sample_time_ms': 33640.219}",2025-08-31_05-09-47,cda-server-4,33.65605092048645,9042,1756609787,10.157.146.4,False,46737.343250989914,1200
+1508,-616.6752479283759,1508,1809600,{},-659.2345079926405,1809600,0,46771.756528139114,-566.1514347498166,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1809600, 'default': {'kl': 0.013498248532414436, 'policy_loss': -0.16030721366405487, 'vf_loss': 46.19514465332031, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9929452538490295, 'entropy': 5.716225624084473, 'cur_lr': 4.999999873689376e-05, 'total_loss': 46.05533981323242}, 'load_time_ms': 0.619, 'num_steps_sampled': 1809600, 'grad_time_ms': 660.075, 'update_time_ms': 2.522, 'sample_time_ms': 33680.371}",2025-08-31_05-10-21,cda-server-4,34.41327714920044,9048,1756609821,10.157.146.4,False,46771.756528139114,1200
+1509,-616.2802887710592,1509,1810800,{},-659.2345079926405,1810800,0,46806.38424229622,-566.1514347498166,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1810800, 'default': {'kl': 0.00968286395072937, 'policy_loss': -0.14139187335968018, 'vf_loss': 192.84225463867188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9842512607574463, 'entropy': 5.12581205368042, 'cur_lr': 4.999999873689376e-05, 'total_loss': 192.715576171875}, 'load_time_ms': 0.627, 'num_steps_sampled': 1810800, 'grad_time_ms': 661.699, 'update_time_ms': 2.566, 'sample_time_ms': 33673.628}",2025-08-31_05-10-56,cda-server-4,34.62771415710449,9054,1756609856,10.157.146.4,False,46806.38424229622,1200
+1510,-616.3483469169392,1510,1812000,{},-655.5190448976773,1812000,0,46841.14977836609,-566.1514347498166,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1812000, 'default': {'kl': 0.009317093528807163, 'policy_loss': -0.13865798711776733, 'vf_loss': 396.1114501953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9498329162597656, 'entropy': 5.314474105834961, 'cur_lr': 4.999999873689376e-05, 'total_loss': 395.9869689941406}, 'load_time_ms': 0.628, 'num_steps_sampled': 1812000, 'grad_time_ms': 669.553, 'update_time_ms': 2.572, 'sample_time_ms': 33739.988}",2025-08-31_05-11-30,cda-server-4,34.765536069869995,9060,1756609890,10.157.146.4,False,46841.14977836609,1200
+1511,-615.3559771132699,1511,1813200,{},-655.5190448976773,1813200,0,46875.33956003189,-518.9828191738028,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1813200, 'default': {'kl': 0.010028843767940998, 'policy_loss': -0.14544451236724854, 'vf_loss': 177.11781311035156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9845439195632935, 'entropy': 5.434799671173096, 'cur_lr': 4.999999873689376e-05, 'total_loss': 176.98760986328125}, 'load_time_ms': 0.624, 'num_steps_sampled': 1813200, 'grad_time_ms': 675.396, 'update_time_ms': 2.484, 'sample_time_ms': 33655.168}",2025-08-31_05-12-05,cda-server-4,34.189781665802,9066,1756609925,10.157.146.4,False,46875.33956003189,1200
+1512,-614.4772031141384,1512,1814400,{},-655.5190448976773,1814400,0,46910.053745508194,-496.84025693396717,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1814400, 'default': {'kl': 0.01210973970592022, 'policy_loss': -0.14136146008968353, 'vf_loss': 98.85459899902344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9940670728683472, 'entropy': 5.22610330581665, 'cur_lr': 4.999999873689376e-05, 'total_loss': 98.73163604736328}, 'load_time_ms': 0.626, 'num_steps_sampled': 1814400, 'grad_time_ms': 697.636, 'update_time_ms': 2.527, 'sample_time_ms': 33694.507}",2025-08-31_05-12-39,cda-server-4,34.7141854763031,9072,1756609959,10.157.146.4,False,46910.053745508194,1200
+1513,-614.156468209653,1513,1815600,{},-655.5190448976773,1815600,0,46944.506049633026,-496.84025693396717,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1815600, 'default': {'kl': 0.010461545549333096, 'policy_loss': -0.14392894506454468, 'vf_loss': 401.2354736328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9531816840171814, 'entropy': 5.333057403564453, 'cur_lr': 4.999999873689376e-05, 'total_loss': 401.107421875}, 'load_time_ms': 0.634, 'num_steps_sampled': 1815600, 'grad_time_ms': 687.132, 'update_time_ms': 2.626, 'sample_time_ms': 33769.989}",2025-08-31_05-13-14,cda-server-4,34.45230412483215,9078,1756609994,10.157.146.4,False,46944.506049633026,1200
+1514,-614.3983724673137,1514,1816800,{},-660.7301372506987,1816800,0,46978.367408275604,-496.84025693396717,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1816800, 'default': {'kl': 0.012427229434251785, 'policy_loss': -0.14409174025058746, 'vf_loss': 488.13372802734375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9472127556800842, 'entropy': 5.8162126541137695, 'cur_lr': 4.999999873689376e-05, 'total_loss': 488.0085144042969}, 'load_time_ms': 0.626, 'num_steps_sampled': 1816800, 'grad_time_ms': 668.329, 'update_time_ms': 2.663, 'sample_time_ms': 33798.051}",2025-08-31_05-13-48,cda-server-4,33.861358642578125,9084,1756610028,10.157.146.4,False,46978.367408275604,1200
+1515,-613.8294583515363,1515,1818000,{},-660.7301372506987,1818000,0,47013.64551949501,-496.84025693396717,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1818000, 'default': {'kl': 0.0116293765604496, 'policy_loss': -0.15955062210559845, 'vf_loss': 275.866943359375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9772849678993225, 'entropy': 5.198934555053711, 'cur_lr': 4.999999873689376e-05, 'total_loss': 275.7250671386719}, 'load_time_ms': 0.617, 'num_steps_sampled': 1818000, 'grad_time_ms': 665.577, 'update_time_ms': 2.67, 'sample_time_ms': 33852.452}",2025-08-31_05-14-23,cda-server-4,35.27811121940613,9090,1756610063,10.157.146.4,False,47013.64551949501,1200
+1516,-613.6906048188181,1516,1819200,{},-673.847361923844,1819200,0,47047.88429880142,-496.84025693396717,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1819200, 'default': {'kl': 0.009555812925100327, 'policy_loss': -0.14493539929389954, 'vf_loss': 236.6722869873047, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9645309448242188, 'entropy': 5.371976375579834, 'cur_lr': 4.999999873689376e-05, 'total_loss': 236.54185485839844}, 'load_time_ms': 0.628, 'num_steps_sampled': 1819200, 'grad_time_ms': 660.104, 'update_time_ms': 2.639, 'sample_time_ms': 33752.08}",2025-08-31_05-14-57,cda-server-4,34.23877930641174,9096,1756610097,10.157.146.4,False,47047.88429880142,1200
+1517,-614.440764023397,1517,1820400,{},-673.847361923844,1820400,0,47083.715457201004,-496.84025693396717,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1820400, 'default': {'kl': 0.01014226209372282, 'policy_loss': -0.1488763839006424, 'vf_loss': 583.6820678710938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9308559894561768, 'entropy': 5.564419269561768, 'cur_lr': 4.999999873689376e-05, 'total_loss': 583.5485229492188}, 'load_time_ms': 0.633, 'num_steps_sampled': 1820400, 'grad_time_ms': 665.877, 'update_time_ms': 2.646, 'sample_time_ms': 33963.895}",2025-08-31_05-15-33,cda-server-4,35.83115839958191,9102,1756610133,10.157.146.4,False,47083.715457201004,1200
+1518,-614.9490149033032,1518,1821600,{},-673.847361923844,1821600,0,47117.29598355293,-496.84025693396717,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1821600, 'default': {'kl': 0.010852369479835033, 'policy_loss': -0.14277812838554382, 'vf_loss': 451.12408447265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9529159069061279, 'entropy': 5.67153263092041, 'cur_lr': 4.999999873689376e-05, 'total_loss': 450.9978332519531}, 'load_time_ms': 0.634, 'num_steps_sampled': 1821600, 'grad_time_ms': 672.945, 'update_time_ms': 2.608, 'sample_time_ms': 33873.529}",2025-08-31_05-16-07,cda-server-4,33.58052635192871,9108,1756610167,10.157.146.4,False,47117.29598355293,1200
+1519,-614.28595129178,1519,1822800,{},-673.847361923844,1822800,0,47152.06616783142,-496.84025693396717,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1822800, 'default': {'kl': 0.009378303773701191, 'policy_loss': -0.1376461386680603, 'vf_loss': 428.0925598144531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9361655712127686, 'entropy': 5.265106678009033, 'cur_lr': 4.999999873689376e-05, 'total_loss': 427.9691467285156}, 'load_time_ms': 0.624, 'num_steps_sampled': 1822800, 'grad_time_ms': 674.501, 'update_time_ms': 2.609, 'sample_time_ms': 33886.219}",2025-08-31_05-16-41,cda-server-4,34.77018427848816,9114,1756610201,10.157.146.4,False,47152.06616783142,1200
+1520,-614.8692602617461,1520,1824000,{},-673.847361923844,1824000,0,47187.04544711113,-496.84025693396717,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1824000, 'default': {'kl': 0.011927779763936996, 'policy_loss': -0.15433092415332794, 'vf_loss': 561.4907836914062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9568846225738525, 'entropy': 5.296613693237305, 'cur_lr': 4.999999873689376e-05, 'total_loss': 561.3545532226562}, 'load_time_ms': 0.656, 'num_steps_sampled': 1824000, 'grad_time_ms': 670.45, 'update_time_ms': 2.578, 'sample_time_ms': 33911.634}",2025-08-31_05-17-16,cda-server-4,34.97927927970886,9120,1756610236,10.157.146.4,False,47187.04544711113,1200
+1521,-614.4566966963946,1521,1825200,{},-673.847361923844,1825200,0,47221.81389141083,-496.84025693396717,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1825200, 'default': {'kl': 0.009502211585640907, 'policy_loss': -0.11757528781890869, 'vf_loss': 159.66934204101562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9893150329589844, 'entropy': 5.365217685699463, 'cur_lr': 4.999999873689376e-05, 'total_loss': 159.5662078857422}, 'load_time_ms': 0.658, 'num_steps_sampled': 1825200, 'grad_time_ms': 666.518, 'update_time_ms': 2.53, 'sample_time_ms': 33973.477}",2025-08-31_05-17-51,cda-server-4,34.768444299697876,9126,1756610271,10.157.146.4,False,47221.81389141083,1200
+1522,-612.2086888945134,1522,1826400,{},-673.847361923844,1826400,0,47256.02751350403,-496.84025693396717,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1826400, 'default': {'kl': 0.009972896426916122, 'policy_loss': -0.14557844400405884, 'vf_loss': 160.10150146484375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9822012782096863, 'entropy': 5.176984786987305, 'cur_lr': 4.999999873689376e-05, 'total_loss': 159.9710693359375}, 'load_time_ms': 0.657, 'num_steps_sampled': 1826400, 'grad_time_ms': 655.265, 'update_time_ms': 2.502, 'sample_time_ms': 33934.82}",2025-08-31_05-18-26,cda-server-4,34.213622093200684,9132,1756610306,10.157.146.4,False,47256.02751350403,1200
+1523,-612.2142755917723,1523,1827600,{},-673.847361923844,1827600,0,47291.18648433685,-496.84025693396717,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1827600, 'default': {'kl': 0.010218452662229538, 'policy_loss': -0.12730923295021057, 'vf_loss': 68.14950561523438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.993514358997345, 'entropy': 5.334443092346191, 'cur_lr': 4.999999873689376e-05, 'total_loss': 68.03770446777344}, 'load_time_ms': 0.651, 'num_steps_sampled': 1827600, 'grad_time_ms': 666.908, 'update_time_ms': 2.409, 'sample_time_ms': 33993.939}",2025-08-31_05-19-01,cda-server-4,35.15897083282471,9138,1756610341,10.157.146.4,False,47291.18648433685,1200
+1524,-612.2422874789343,1524,1828800,{},-673.847361923844,1828800,0,47325.89887738228,-496.84025693396717,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1828800, 'default': {'kl': 0.011557121761143208, 'policy_loss': -0.15844422578811646, 'vf_loss': 275.8050231933594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9717277884483337, 'entropy': 5.545504093170166, 'cur_lr': 4.999999873689376e-05, 'total_loss': 275.66412353515625}, 'load_time_ms': 0.656, 'num_steps_sampled': 1828800, 'grad_time_ms': 672.196, 'update_time_ms': 2.39, 'sample_time_ms': 34073.744}",2025-08-31_05-19-35,cda-server-4,34.712393045425415,9144,1756610375,10.157.146.4,False,47325.89887738228,1200
+1525,-612.8219517599697,1525,1830000,{},-673.847361923844,1830000,0,47359.85864520073,-496.84025693396717,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1830000, 'default': {'kl': 0.010664843954145908, 'policy_loss': -0.1542438268661499, 'vf_loss': 31.01034927368164, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9961776733398438, 'entropy': 5.294342041015625, 'cur_lr': 4.999999873689376e-05, 'total_loss': 30.87230110168457}, 'load_time_ms': 0.654, 'num_steps_sampled': 1830000, 'grad_time_ms': 663.255, 'update_time_ms': 2.365, 'sample_time_ms': 33950.742}",2025-08-31_05-20-09,cda-server-4,33.95976781845093,9150,1756610409,10.157.146.4,False,47359.85864520073,1200
+1526,-613.0217227244987,1526,1831200,{},-673.847361923844,1831200,0,47393.8265209198,-496.84025693396717,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1831200, 'default': {'kl': 0.010031159967184067, 'policy_loss': -0.13144725561141968, 'vf_loss': 378.8010559082031, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9515594840049744, 'entropy': 5.499138355255127, 'cur_lr': 4.999999873689376e-05, 'total_loss': 378.6848449707031}, 'load_time_ms': 0.64, 'num_steps_sampled': 1831200, 'grad_time_ms': 664.361, 'update_time_ms': 2.373, 'sample_time_ms': 33922.521}",2025-08-31_05-20-43,cda-server-4,33.967875719070435,9156,1756610443,10.157.146.4,False,47393.8265209198,1200
+1527,-613.4139597472489,1527,1832400,{},-673.847361923844,1832400,0,47428.12521767616,-496.84025693396717,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1832400, 'default': {'kl': 0.010453056544065475, 'policy_loss': -0.11052624136209488, 'vf_loss': 753.545654296875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8976141810417175, 'entropy': 5.470785140991211, 'cur_lr': 4.999999873689376e-05, 'total_loss': 753.4510498046875}, 'load_time_ms': 0.638, 'num_steps_sampled': 1832400, 'grad_time_ms': 673.48, 'update_time_ms': 2.372, 'sample_time_ms': 33760.102}",2025-08-31_05-21-18,cda-server-4,34.298696756362915,9162,1756610478,10.157.146.4,False,47428.12521767616,1200
+1528,-613.6451526379425,1528,1833600,{},-673.847361923844,1833600,0,47462.65791106224,-526.4574356751871,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1833600, 'default': {'kl': 0.01204919908195734, 'policy_loss': -0.13668569922447205, 'vf_loss': 371.3968811035156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9622095823287964, 'entropy': 5.112026691436768, 'cur_lr': 4.999999873689376e-05, 'total_loss': 371.2784729003906}, 'load_time_ms': 0.641, 'num_steps_sampled': 1833600, 'grad_time_ms': 680.468, 'update_time_ms': 2.486, 'sample_time_ms': 33848.281}",2025-08-31_05-21-52,cda-server-4,34.53269338607788,9168,1756610512,10.157.146.4,False,47462.65791106224,1200
+1529,-614.0162320060217,1529,1834800,{},-673.847361923844,1834800,0,47496.624480485916,-526.4574356751871,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1834800, 'default': {'kl': 0.009863666258752346, 'policy_loss': -0.13317950069904327, 'vf_loss': 303.17486572265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9547213315963745, 'entropy': 5.748441696166992, 'cur_lr': 4.999999873689376e-05, 'total_loss': 303.0566711425781}, 'load_time_ms': 0.648, 'num_steps_sampled': 1834800, 'grad_time_ms': 687.067, 'update_time_ms': 2.477, 'sample_time_ms': 33761.353}",2025-08-31_05-22-26,cda-server-4,33.96656942367554,9174,1756610546,10.157.146.4,False,47496.624480485916,1200
+1530,-614.2200913467491,1530,1836000,{},-673.847361923844,1836000,0,47530.9016289711,-526.4574356751871,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1836000, 'default': {'kl': 0.009905293583869934, 'policy_loss': -0.12758830189704895, 'vf_loss': 128.62921142578125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9913650155067444, 'entropy': 5.273369789123535, 'cur_lr': 4.999999873689376e-05, 'total_loss': 128.5166778564453}, 'load_time_ms': 0.62, 'num_steps_sampled': 1836000, 'grad_time_ms': 688.963, 'update_time_ms': 2.503, 'sample_time_ms': 33689.347}",2025-08-31_05-23-01,cda-server-4,34.277148485183716,9180,1756610581,10.157.146.4,False,47530.9016289711,1200
+1531,-612.7805509156079,1531,1837200,{},-673.847361923844,1837200,0,47567.47825407982,-502.2860522062785,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1837200, 'default': {'kl': 0.010334457270801067, 'policy_loss': -0.14371581375598907, 'vf_loss': 178.9377899169922, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9698789119720459, 'entropy': 5.479743480682373, 'cur_lr': 4.999999873689376e-05, 'total_loss': 178.8097686767578}, 'load_time_ms': 0.618, 'num_steps_sampled': 1837200, 'grad_time_ms': 711.16, 'update_time_ms': 2.524, 'sample_time_ms': 33847.88}",2025-08-31_05-23-37,cda-server-4,36.57662510871887,9186,1756610617,10.157.146.4,False,47567.47825407982,1200
+1532,-612.0931540371628,1532,1838400,{},-673.847361923844,1838400,0,47602.36839723587,-473.16220768935375,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1838400, 'default': {'kl': 0.012512357905507088, 'policy_loss': -0.16207782924175262, 'vf_loss': 530.3941650390625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9338611960411072, 'entropy': 5.50147008895874, 'cur_lr': 4.999999873689376e-05, 'total_loss': 530.2510986328125}, 'load_time_ms': 0.603, 'num_steps_sampled': 1838400, 'grad_time_ms': 719.005, 'update_time_ms': 2.678, 'sample_time_ms': 33907.582}",2025-08-31_05-24-12,cda-server-4,34.890143156051636,9192,1756610652,10.157.146.4,False,47602.36839723587,1200
+1533,-610.4569000366128,1533,1839600,{},-668.0081544995834,1839600,0,47637.43052864075,-473.16220768935375,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1839600, 'default': {'kl': 0.009658437222242355, 'policy_loss': -0.1380467712879181, 'vf_loss': 301.26080322265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.961182177066803, 'entropy': 5.490849494934082, 'cur_lr': 4.999999873689376e-05, 'total_loss': 301.1374206542969}, 'load_time_ms': 0.599, 'num_steps_sampled': 1839600, 'grad_time_ms': 707.886, 'update_time_ms': 2.668, 'sample_time_ms': 33909.0}",2025-08-31_05-24-47,cda-server-4,35.06213140487671,9198,1756610687,10.157.146.4,False,47637.43052864075,1200
+1534,-609.9303661405933,1534,1840800,{},-668.0081544995834,1840800,0,47671.59815573692,-473.16220768935375,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1840800, 'default': {'kl': 0.011868438683450222, 'policy_loss': -0.15145628154277802, 'vf_loss': 47.00970458984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9940487742424011, 'entropy': 5.28306770324707, 'cur_lr': 4.999999873689376e-05, 'total_loss': 46.87627410888672}, 'load_time_ms': 0.593, 'num_steps_sampled': 1840800, 'grad_time_ms': 710.543, 'update_time_ms': 2.63, 'sample_time_ms': 33851.946}",2025-08-31_05-25-21,cda-server-4,34.16762709617615,9204,1756610721,10.157.146.4,False,47671.59815573692,1200
+1535,-611.3315855003367,1535,1842000,{},-799.3733266164081,1842000,0,47706.511446237564,-473.16220768935375,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1842000, 'default': {'kl': 0.008573773317039013, 'policy_loss': -0.11801237612962723, 'vf_loss': 452.7704162597656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9505133032798767, 'entropy': 5.193894386291504, 'cur_lr': 4.999999873689376e-05, 'total_loss': 452.6654357910156}, 'load_time_ms': 0.591, 'num_steps_sampled': 1842000, 'grad_time_ms': 718.049, 'update_time_ms': 2.666, 'sample_time_ms': 33939.837}",2025-08-31_05-25-56,cda-server-4,34.91329050064087,9210,1756610756,10.157.146.4,False,47706.511446237564,1200
+1536,-610.7212557114304,1536,1843200,{},-799.3733266164081,1843200,0,47740.440678834915,-473.16220768935375,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1843200, 'default': {'kl': 0.010433624498546124, 'policy_loss': -0.15473483502864838, 'vf_loss': 172.8724822998047, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9762095212936401, 'entropy': 5.149892330169678, 'cur_lr': 4.999999873689376e-05, 'total_loss': 172.73358154296875}, 'load_time_ms': 0.592, 'num_steps_sampled': 1843200, 'grad_time_ms': 723.817, 'update_time_ms': 2.727, 'sample_time_ms': 33930.067}",2025-08-31_05-26-30,cda-server-4,33.929232597351074,9216,1756610790,10.157.146.4,False,47740.440678834915,1200
+1537,-610.4335679122776,1537,1844400,{},-799.3733266164081,1844400,0,47774.83748269081,-473.16220768935375,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1844400, 'default': {'kl': 0.009138954803347588, 'policy_loss': -0.13221730291843414, 'vf_loss': 144.93714904785156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.978402853012085, 'entropy': 5.373157501220703, 'cur_lr': 4.999999873689376e-05, 'total_loss': 144.8188018798828}, 'load_time_ms': 0.596, 'num_steps_sampled': 1844400, 'grad_time_ms': 700.098, 'update_time_ms': 2.747, 'sample_time_ms': 33963.555}",2025-08-31_05-27-05,cda-server-4,34.396803855895996,9222,1756610825,10.157.146.4,False,47774.83748269081,1200
+1538,-610.703812389802,1538,1845600,{},-799.3733266164081,1845600,0,47809.19813799858,-473.16220768935375,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1845600, 'default': {'kl': 0.008472200483083725, 'policy_loss': -0.13737523555755615, 'vf_loss': 787.8186645507812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8922764658927917, 'entropy': 5.495011329650879, 'cur_lr': 4.999999873689376e-05, 'total_loss': 787.6941528320312}, 'load_time_ms': 0.631, 'num_steps_sampled': 1845600, 'grad_time_ms': 692.051, 'update_time_ms': 2.677, 'sample_time_ms': 33954.329}",2025-08-31_05-27-39,cda-server-4,34.360655307769775,9228,1756610859,10.157.146.4,False,47809.19813799858,1200
+1539,-612.4162476956562,1539,1846800,{},-799.3733266164081,1846800,0,47843.336189985275,-473.16220768935375,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1846800, 'default': {'kl': 0.01134959515184164, 'policy_loss': -0.1655738800764084, 'vf_loss': 539.4066772460938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9470250606536865, 'entropy': 5.440115451812744, 'cur_lr': 4.999999873689376e-05, 'total_loss': 539.2583618164062}, 'load_time_ms': 0.629, 'num_steps_sampled': 1846800, 'grad_time_ms': 677.72, 'update_time_ms': 2.716, 'sample_time_ms': 33985.721}",2025-08-31_05-28-13,cda-server-4,34.138051986694336,9234,1756610893,10.157.146.4,False,47843.336189985275,1200
+1540,-612.4868602188914,1540,1848000,{},-799.3733266164081,1848000,0,47877.18588638306,-473.16220768935375,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1848000, 'default': {'kl': 0.01224478054791689, 'policy_loss': -0.15662270784378052, 'vf_loss': 246.63455200195312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9817014336585999, 'entropy': 5.454433917999268, 'cur_lr': 4.999999873689376e-05, 'total_loss': 246.4965057373047}, 'load_time_ms': 0.632, 'num_steps_sampled': 1848000, 'grad_time_ms': 674.915, 'update_time_ms': 2.774, 'sample_time_ms': 33945.584}",2025-08-31_05-28-47,cda-server-4,33.84969639778137,9240,1756610927,10.157.146.4,False,47877.18588638306,1200
+1541,-612.7175826358762,1541,1849200,{},-799.3733266164081,1849200,0,47911.76003885269,-473.16220768935375,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1849200, 'default': {'kl': 0.008763434365391731, 'policy_loss': -0.12941963970661163, 'vf_loss': 388.7520751953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9645770192146301, 'entropy': 5.570586204528809, 'cur_lr': 4.999999873689376e-05, 'total_loss': 388.6359558105469}, 'load_time_ms': 0.631, 'num_steps_sampled': 1849200, 'grad_time_ms': 654.529, 'update_time_ms': 2.851, 'sample_time_ms': 33765.737}",2025-08-31_05-29-22,cda-server-4,34.57415246963501,9246,1756610962,10.157.146.4,False,47911.76003885269,1200
+1542,-613.0173074854162,1542,1850400,{},-799.3733266164081,1850400,0,47946.3238093853,-473.16220768935375,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1850400, 'default': {'kl': 0.008414224721491337, 'policy_loss': -0.12615682184696198, 'vf_loss': 264.8200378417969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9683993458747864, 'entropy': 5.469366073608398, 'cur_lr': 4.999999873689376e-05, 'total_loss': 264.7066650390625}, 'load_time_ms': 0.633, 'num_steps_sampled': 1850400, 'grad_time_ms': 653.894, 'update_time_ms': 2.669, 'sample_time_ms': 33733.904}",2025-08-31_05-29-56,cda-server-4,34.56377053260803,9252,1756610996,10.157.146.4,False,47946.3238093853,1200
+1543,-613.9310573432927,1543,1851600,{},-799.3733266164081,1851600,0,47979.83333849907,-473.16220768935375,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1851600, 'default': {'kl': 0.009636681526899338, 'policy_loss': -0.14628352224826813, 'vf_loss': 371.7089538574219, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.966071367263794, 'entropy': 5.429965496063232, 'cur_lr': 4.999999873689376e-05, 'total_loss': 371.57733154296875}, 'load_time_ms': 0.642, 'num_steps_sampled': 1851600, 'grad_time_ms': 644.654, 'update_time_ms': 2.685, 'sample_time_ms': 33587.955}",2025-08-31_05-30-30,cda-server-4,33.50952911376953,9258,1756611030,10.157.146.4,False,47979.83333849907,1200
+1544,-614.8481537703025,1544,1852800,{},-799.3733266164081,1852800,0,48013.615694999695,-473.16220768935375,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1852800, 'default': {'kl': 0.010569293983280659, 'policy_loss': -0.13967055082321167, 'vf_loss': 109.88902282714844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9862396717071533, 'entropy': 5.4435133934021, 'cur_lr': 4.999999873689376e-05, 'total_loss': 109.76541137695312}, 'load_time_ms': 0.638, 'num_steps_sampled': 1852800, 'grad_time_ms': 642.075, 'update_time_ms': 2.626, 'sample_time_ms': 33552.063}",2025-08-31_05-31-04,cda-server-4,33.78235650062561,9264,1756611064,10.157.146.4,False,48013.615694999695,1200
+1545,-613.5611359611304,1545,1854000,{},-799.3733266164081,1854000,0,48047.87830042839,-473.16220768935375,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1854000, 'default': {'kl': 0.01115705631673336, 'policy_loss': -0.1469545215368271, 'vf_loss': 725.6786499023438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.927753210067749, 'entropy': 5.309476375579834, 'cur_lr': 4.999999873689376e-05, 'total_loss': 725.548583984375}, 'load_time_ms': 0.646, 'num_steps_sampled': 1854000, 'grad_time_ms': 636.934, 'update_time_ms': 2.576, 'sample_time_ms': 33492.244}",2025-08-31_05-31-38,cda-server-4,34.26260542869568,9270,1756611098,10.157.146.4,False,48047.87830042839,1200
+1546,-615.6944132985909,1546,1855200,{},-799.3733266164081,1855200,0,48082.212178468704,-473.16220768935375,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1855200, 'default': {'kl': 0.01243632659316063, 'policy_loss': -0.1445435881614685, 'vf_loss': 295.9155578613281, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9624450206756592, 'entropy': 5.769352436065674, 'cur_lr': 4.999999873689376e-05, 'total_loss': 295.7898864746094}, 'load_time_ms': 0.655, 'num_steps_sampled': 1855200, 'grad_time_ms': 638.063, 'update_time_ms': 2.523, 'sample_time_ms': 33531.699}",2025-08-31_05-32-12,cda-server-4,34.33387804031372,9276,1756611132,10.157.146.4,False,48082.212178468704,1200
+1547,-615.3593983416577,1547,1856400,{},-799.3733266164081,1856400,0,48116.735067367554,-473.16220768935375,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1856400, 'default': {'kl': 0.01145699992775917, 'policy_loss': -0.15925118327140808, 'vf_loss': 120.51866149902344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9885542988777161, 'entropy': 5.42981481552124, 'cur_lr': 4.999999873689376e-05, 'total_loss': 120.37680053710938}, 'load_time_ms': 0.649, 'num_steps_sampled': 1856400, 'grad_time_ms': 663.151, 'update_time_ms': 2.484, 'sample_time_ms': 33519.358}",2025-08-31_05-32-47,cda-server-4,34.52288889884949,9282,1756611167,10.157.146.4,False,48116.735067367554,1200
+1548,-617.8896001723195,1548,1857600,{},-799.3733266164081,1857600,0,48150.95608043671,-478.7673434256331,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1857600, 'default': {'kl': 0.0090840645134449, 'policy_loss': -0.12236776947975159, 'vf_loss': 216.41551208496094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9838160276412964, 'entropy': 5.409290313720703, 'cur_lr': 4.999999873689376e-05, 'total_loss': 216.30694580078125}, 'load_time_ms': 0.632, 'num_steps_sampled': 1857600, 'grad_time_ms': 673.735, 'update_time_ms': 2.428, 'sample_time_ms': 33494.925}",2025-08-31_05-33-21,cda-server-4,34.22101306915283,9288,1756611201,10.157.146.4,False,48150.95608043671,1200
+1549,-621.1423190785507,1549,1858800,{},-799.3733266164081,1858800,0,48186.280898332596,-478.7673434256331,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1858800, 'default': {'kl': 0.014569465070962906, 'policy_loss': -0.15429440140724182, 'vf_loss': 3164.931884765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8841779828071594, 'entropy': 5.739384651184082, 'cur_lr': 4.999999873689376e-05, 'total_loss': 3164.799560546875}, 'load_time_ms': 0.628, 'num_steps_sampled': 1858800, 'grad_time_ms': 688.006, 'update_time_ms': 2.382, 'sample_time_ms': 33599.431}",2025-08-31_05-33-56,cda-server-4,35.32481789588928,9294,1756611236,10.157.146.4,False,48186.280898332596,1200
+1550,-621.3484733402302,1550,1860000,{},-799.3733266164081,1860000,0,48220.707310676575,-478.7673434256331,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1860000, 'default': {'kl': 0.01126459427177906, 'policy_loss': -0.15989816188812256, 'vf_loss': 257.0638427734375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9657763242721558, 'entropy': 5.62961483001709, 'cur_lr': 4.999999873689376e-05, 'total_loss': 256.9210510253906}, 'load_time_ms': 0.629, 'num_steps_sampled': 1860000, 'grad_time_ms': 690.863, 'update_time_ms': 2.287, 'sample_time_ms': 33654.435}",2025-08-31_05-34-31,cda-server-4,34.42641234397888,9300,1756611271,10.157.146.4,False,48220.707310676575,1200
+1551,-618.4895948676602,1551,1861200,{},-795.752041269979,1861200,0,48254.522762060165,-478.7673434256331,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1861200, 'default': {'kl': 0.011317853815853596, 'policy_loss': -0.13773928582668304, 'vf_loss': 669.0447387695312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9570362567901611, 'entropy': 5.394198894500732, 'cur_lr': 4.999999873689376e-05, 'total_loss': 668.9241943359375}, 'load_time_ms': 0.632, 'num_steps_sampled': 1861200, 'grad_time_ms': 691.264, 'update_time_ms': 2.304, 'sample_time_ms': 33578.103}",2025-08-31_05-35-05,cda-server-4,33.8154513835907,9306,1756611305,10.157.146.4,False,48254.522762060165,1200
+1552,-618.7201588536487,1552,1862400,{},-795.752041269979,1862400,0,48288.923022031784,-478.7673434256331,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1862400, 'default': {'kl': 0.008134890347719193, 'policy_loss': -0.13033586740493774, 'vf_loss': 101.30645751953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9892587661743164, 'entropy': 5.416449546813965, 'cur_lr': 4.999999873689376e-05, 'total_loss': 101.1884765625}, 'load_time_ms': 0.659, 'num_steps_sampled': 1862400, 'grad_time_ms': 683.771, 'update_time_ms': 2.29, 'sample_time_ms': 33569.227}",2025-08-31_05-35-39,cda-server-4,34.40025997161865,9312,1756611339,10.157.146.4,False,48288.923022031784,1200
+1553,-618.3880952568394,1553,1863600,{},-795.752041269979,1863600,0,48323.7750351429,-478.7673434256331,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1863600, 'default': {'kl': 0.008707708679139614, 'policy_loss': -0.11856725811958313, 'vf_loss': 349.6824645996094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9624837040901184, 'entropy': 5.251414775848389, 'cur_lr': 4.999999873689376e-05, 'total_loss': 349.57708740234375}, 'load_time_ms': 0.653, 'num_steps_sampled': 1863600, 'grad_time_ms': 701.201, 'update_time_ms': 2.316, 'sample_time_ms': 33686.018}",2025-08-31_05-36-14,cda-server-4,34.8520131111145,9318,1756611374,10.157.146.4,False,48323.7750351429,1200
+1554,-619.3309767879404,1554,1864800,{},-795.752041269979,1864800,0,48357.42870640755,-478.7673434256331,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1864800, 'default': {'kl': 0.011504937894642353, 'policy_loss': -0.13977421820163727, 'vf_loss': 516.3519897460938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9608227610588074, 'entropy': 5.371063709259033, 'cur_lr': 4.999999873689376e-05, 'total_loss': 516.229736328125}, 'load_time_ms': 0.662, 'num_steps_sampled': 1864800, 'grad_time_ms': 688.812, 'update_time_ms': 2.347, 'sample_time_ms': 33685.462}",2025-08-31_05-36-48,cda-server-4,33.65367126464844,9324,1756611408,10.157.146.4,False,48357.42870640755,1200
+1555,-619.612910732945,1555,1866000,{},-795.752041269979,1866000,0,48391.99323773384,-478.7673434256331,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1866000, 'default': {'kl': 0.01000573206692934, 'policy_loss': -0.12938062846660614, 'vf_loss': 55.5484733581543, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9928370714187622, 'entropy': 5.241158485412598, 'cur_lr': 4.999999873689376e-05, 'total_loss': 55.434288024902344}, 'load_time_ms': 0.658, 'num_steps_sampled': 1866000, 'grad_time_ms': 677.415, 'update_time_ms': 2.387, 'sample_time_ms': 33726.966}",2025-08-31_05-37-22,cda-server-4,34.564531326293945,9330,1756611442,10.157.146.4,False,48391.99323773384,1200
+1556,-619.6951901006578,1556,1867200,{},-795.752041269979,1867200,0,48426.69097185135,-478.7673434256331,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1867200, 'default': {'kl': 0.01139664463698864, 'policy_loss': -0.16009306907653809, 'vf_loss': 318.027587890625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9675494432449341, 'entropy': 5.364871501922607, 'cur_lr': 4.999999873689376e-05, 'total_loss': 317.88482666015625}, 'load_time_ms': 0.648, 'num_steps_sampled': 1867200, 'grad_time_ms': 670.189, 'update_time_ms': 2.415, 'sample_time_ms': 33770.598}",2025-08-31_05-37-57,cda-server-4,34.697734117507935,9336,1756611477,10.157.146.4,False,48426.69097185135,1200
+1557,-621.3446853386794,1557,1868400,{},-795.752041269979,1868400,0,48462.32403755188,-478.7673434256331,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1868400, 'default': {'kl': 0.01063599344342947, 'policy_loss': -0.13472291827201843, 'vf_loss': 711.4257202148438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9461742043495178, 'entropy': 5.529943466186523, 'cur_lr': 4.999999873689376e-05, 'total_loss': 711.3070678710938}, 'load_time_ms': 0.679, 'num_steps_sampled': 1868400, 'grad_time_ms': 660.48, 'update_time_ms': 2.415, 'sample_time_ms': 33891.27}",2025-08-31_05-38-32,cda-server-4,35.633065700531006,9342,1756611512,10.157.146.4,False,48462.32403755188,1200
+1558,-622.5491810826832,1558,1869600,{},-795.752041269979,1869600,0,48495.85254907608,-478.7673434256331,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1869600, 'default': {'kl': 0.012539844959974289, 'policy_loss': -0.15204580128192902, 'vf_loss': 769.0361328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9502888917922974, 'entropy': 5.531083106994629, 'cur_lr': 4.999999873689376e-05, 'total_loss': 768.9031982421875}, 'load_time_ms': 0.67, 'num_steps_sampled': 1869600, 'grad_time_ms': 644.835, 'update_time_ms': 2.436, 'sample_time_ms': 33837.715}",2025-08-31_05-39-06,cda-server-4,33.52851152420044,9348,1756611546,10.157.146.4,False,48495.85254907608,1200
+1559,-623.0240916774849,1559,1870800,{},-795.752041269979,1870800,0,48530.517835617065,-478.7673434256331,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1870800, 'default': {'kl': 0.010680768638849258, 'policy_loss': -0.16223861277103424, 'vf_loss': 101.19107818603516, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9854286909103394, 'entropy': 5.38243293762207, 'cur_lr': 4.999999873689376e-05, 'total_loss': 101.04505920410156}, 'load_time_ms': 0.668, 'num_steps_sampled': 1870800, 'grad_time_ms': 630.663, 'update_time_ms': 2.467, 'sample_time_ms': 33785.9}",2025-08-31_05-39-41,cda-server-4,34.66528654098511,9354,1756611581,10.157.146.4,False,48530.517835617065,1200
+1560,-624.1255743259428,1560,1872000,{},-801.4004371856357,1872000,0,48565.840782403946,-478.7673434256331,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1872000, 'default': {'kl': 0.012239386327564716, 'policy_loss': -0.15642084181308746, 'vf_loss': 602.6292724609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9569817781448364, 'entropy': 5.465463638305664, 'cur_lr': 4.999999873689376e-05, 'total_loss': 602.491455078125}, 'load_time_ms': 0.666, 'num_steps_sampled': 1872000, 'grad_time_ms': 628.336, 'update_time_ms': 2.477, 'sample_time_ms': 33877.864}",2025-08-31_05-40-16,cda-server-4,35.32294678688049,9360,1756611616,10.157.146.4,False,48565.840782403946,1200
+1561,-621.7326930559385,1561,1873200,{},-801.4004371856357,1873200,0,48599.76307749748,-478.7673434256331,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1873200, 'default': {'kl': 0.009446870535612106, 'policy_loss': -0.13290555775165558, 'vf_loss': 104.51637268066406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9857547283172607, 'entropy': 4.966334819793701, 'cur_lr': 4.999999873689376e-05, 'total_loss': 104.3978042602539}, 'load_time_ms': 0.662, 'num_steps_sampled': 1873200, 'grad_time_ms': 619.346, 'update_time_ms': 2.378, 'sample_time_ms': 33897.742}",2025-08-31_05-40-50,cda-server-4,33.92229509353638,9366,1756611650,10.157.146.4,False,48599.76307749748,1200
+1562,-621.9402463385359,1562,1874400,{},-801.4004371856357,1874400,0,48633.84142112732,-511.7474071644976,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1874400, 'default': {'kl': 0.010690795257687569, 'policy_loss': -0.14826248586177826, 'vf_loss': 103.313720703125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9792962670326233, 'entropy': 5.367863655090332, 'cur_lr': 4.999999873689376e-05, 'total_loss': 103.18168640136719}, 'load_time_ms': 0.634, 'num_steps_sampled': 1874400, 'grad_time_ms': 618.582, 'update_time_ms': 2.403, 'sample_time_ms': 33866.309}",2025-08-31_05-41-24,cda-server-4,34.078343629837036,9372,1756611684,10.157.146.4,False,48633.84142112732,1200
+1563,-619.2732719134643,1563,1875600,{},-801.4004371856357,1875600,0,48668.90150141716,-511.7474071644976,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1875600, 'default': {'kl': 0.010157187469303608, 'policy_loss': -0.14615270495414734, 'vf_loss': 71.15021514892578, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9888177514076233, 'entropy': 5.463284969329834, 'cur_lr': 4.999999873689376e-05, 'total_loss': 71.01950073242188}, 'load_time_ms': 0.635, 'num_steps_sampled': 1875600, 'grad_time_ms': 626.998, 'update_time_ms': 2.413, 'sample_time_ms': 33878.635}",2025-08-31_05-41-59,cda-server-4,35.0600802898407,9378,1756611719,10.157.146.4,False,48668.90150141716,1200
+1564,-618.8533895622395,1564,1876800,{},-801.4004371856357,1876800,0,48703.53028130531,-511.7474071644976,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1876800, 'default': {'kl': 0.008505391888320446, 'policy_loss': -0.12539547681808472, 'vf_loss': 227.36630249023438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9699607491493225, 'entropy': 5.072801113128662, 'cur_lr': 4.999999873689376e-05, 'total_loss': 227.2538299560547}, 'load_time_ms': 0.649, 'num_steps_sampled': 1876800, 'grad_time_ms': 636.198, 'update_time_ms': 2.421, 'sample_time_ms': 33966.986}",2025-08-31_05-42-34,cda-server-4,34.628779888153076,9384,1756611754,10.157.146.4,False,48703.53028130531,1200
+1565,-616.9569112890795,1565,1878000,{},-801.4004371856357,1878000,0,48737.86846971512,-511.7474071644976,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1878000, 'default': {'kl': 0.011403360404074192, 'policy_loss': -0.14091867208480835, 'vf_loss': 429.6531982421875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9555771946907043, 'entropy': 5.219686031341553, 'cur_lr': 4.999999873689376e-05, 'total_loss': 429.52960205078125}, 'load_time_ms': 0.649, 'num_steps_sampled': 1878000, 'grad_time_ms': 656.953, 'update_time_ms': 2.36, 'sample_time_ms': 33923.669}",2025-08-31_05-43-08,cda-server-4,34.3381884098053,9390,1756611788,10.157.146.4,False,48737.86846971512,1200
+1566,-615.5124137648398,1566,1879200,{},-801.4004371856357,1879200,0,48772.81625509262,-511.7474071644976,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1879200, 'default': {'kl': 0.011052601970732212, 'policy_loss': -0.15078110992908478, 'vf_loss': 102.16666412353516, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9889829158782959, 'entropy': 5.289636611938477, 'cur_lr': 4.999999873689376e-05, 'total_loss': 102.03266906738281}, 'load_time_ms': 0.664, 'num_steps_sampled': 1879200, 'grad_time_ms': 667.789, 'update_time_ms': 2.339, 'sample_time_ms': 33937.789}",2025-08-31_05-43-43,cda-server-4,34.94778537750244,9396,1756611823,10.157.146.4,False,48772.81625509262,1200
+1567,-617.2323633077347,1567,1880400,{},-801.4004371856357,1880400,0,48807.254984378815,-522.1119112861826,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1880400, 'default': {'kl': 0.008067624643445015, 'policy_loss': -0.08574031293392181, 'vf_loss': 268.9961853027344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9733863472938538, 'entropy': 5.224282741546631, 'cur_lr': 4.999999873689376e-05, 'total_loss': 268.9226989746094}, 'load_time_ms': 0.626, 'num_steps_sampled': 1880400, 'grad_time_ms': 677.607, 'update_time_ms': 2.36, 'sample_time_ms': 33808.575}",2025-08-31_05-44-18,cda-server-4,34.43872928619385,9402,1756611858,10.157.146.4,False,48807.254984378815,1200
+1568,-617.0116457898882,1568,1881600,{},-801.4004371856357,1881600,0,48842.131799697876,-522.1119112861826,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1881600, 'default': {'kl': 0.013759467750787735, 'policy_loss': -0.16066783666610718, 'vf_loss': 463.2481994628906, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9730408787727356, 'entropy': 5.335076808929443, 'cur_lr': 4.999999873689376e-05, 'total_loss': 463.1083984375}, 'load_time_ms': 0.612, 'num_steps_sampled': 1881600, 'grad_time_ms': 690.847, 'update_time_ms': 2.367, 'sample_time_ms': 33930.176}",2025-08-31_05-44-52,cda-server-4,34.87681531906128,9408,1756611892,10.157.146.4,False,48842.131799697876,1200
+1569,-616.0933271003553,1569,1882800,{},-801.4004371856357,1882800,0,48875.83149576187,-522.1119112861826,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1882800, 'default': {'kl': 0.010340298525989056, 'policy_loss': -0.12332011759281158, 'vf_loss': 389.4866638183594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9490721821784973, 'entropy': 5.146902084350586, 'cur_lr': 4.999999873689376e-05, 'total_loss': 389.3789978027344}, 'load_time_ms': 0.613, 'num_steps_sampled': 1882800, 'grad_time_ms': 702.281, 'update_time_ms': 2.284, 'sample_time_ms': 33822.3}",2025-08-31_05-45-26,cda-server-4,33.69969606399536,9414,1756611926,10.157.146.4,False,48875.83149576187,1200
+1570,-614.9396708716976,1570,1884000,{},-801.4004371856357,1884000,0,48910.40542650223,-522.1119112861826,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1884000, 'default': {'kl': 0.009237091057002544, 'policy_loss': -0.12330284714698792, 'vf_loss': 459.6260986328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9446129202842712, 'entropy': 4.945051670074463, 'cur_lr': 4.999999873689376e-05, 'total_loss': 459.5168151855469}, 'load_time_ms': 0.602, 'num_steps_sampled': 1884000, 'grad_time_ms': 696.963, 'update_time_ms': 2.256, 'sample_time_ms': 33752.758}",2025-08-31_05-46-01,cda-server-4,34.573930740356445,9420,1756611961,10.157.146.4,False,48910.40542650223,1200
+1571,-615.6457722581931,1571,1885200,{},-801.4004371856357,1885200,0,48944.77001070976,-522.1119112861826,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1885200, 'default': {'kl': 0.010713557712733746, 'policy_loss': -0.1445755958557129, 'vf_loss': 406.400634765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.986443817615509, 'entropy': 5.231691360473633, 'cur_lr': 4.999999873689376e-05, 'total_loss': 406.2723388671875}, 'load_time_ms': 0.602, 'num_steps_sampled': 1885200, 'grad_time_ms': 691.579, 'update_time_ms': 2.236, 'sample_time_ms': 33802.402}",2025-08-31_05-46-35,cda-server-4,34.36458420753479,9426,1756611995,10.157.146.4,False,48944.77001070976,1200
+1572,-615.5712214850247,1572,1886400,{},-801.4004371856357,1886400,0,48978.794353723526,-522.1119112861826,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1886400, 'default': {'kl': 0.00908267218619585, 'policy_loss': -0.11038964241743088, 'vf_loss': 187.56524658203125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9783860445022583, 'entropy': 5.103265762329102, 'cur_lr': 4.999999873689376e-05, 'total_loss': 187.46865844726562}, 'load_time_ms': 0.6, 'num_steps_sampled': 1886400, 'grad_time_ms': 685.065, 'update_time_ms': 2.249, 'sample_time_ms': 33803.51}",2025-08-31_05-47-09,cda-server-4,34.02434301376343,9432,1756612029,10.157.146.4,False,48978.794353723526,1200
+1573,-614.6883659304915,1573,1887600,{},-801.4004371856357,1887600,0,49013.134041547775,-522.1119112861826,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1887600, 'default': {'kl': 0.009659973904490471, 'policy_loss': -0.14134515821933746, 'vf_loss': 166.90435791015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9856593608856201, 'entropy': 5.208453178405762, 'cur_lr': 4.999999873689376e-05, 'total_loss': 166.7776641845703}, 'load_time_ms': 0.597, 'num_steps_sampled': 1887600, 'grad_time_ms': 685.389, 'update_time_ms': 2.26, 'sample_time_ms': 33731.179}",2025-08-31_05-47-44,cda-server-4,34.33968782424927,9438,1756612064,10.157.146.4,False,49013.134041547775,1200
+1574,-612.8613038060295,1574,1888800,{},-801.4004371856357,1888800,0,49047.92683720589,-522.1119112861826,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1888800, 'default': {'kl': 0.012199001386761665, 'policy_loss': -0.15525542199611664, 'vf_loss': 307.03497314453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9709591269493103, 'entropy': 5.389886379241943, 'cur_lr': 4.999999873689376e-05, 'total_loss': 306.8982238769531}, 'load_time_ms': 0.578, 'num_steps_sampled': 1888800, 'grad_time_ms': 694.471, 'update_time_ms': 2.242, 'sample_time_ms': 33738.452}",2025-08-31_05-48-18,cda-server-4,34.79279565811157,9444,1756612098,10.157.146.4,False,49047.92683720589,1200
+1575,-609.6456154823829,1575,1890000,{},-801.4004371856357,1890000,0,49082.42353892326,-522.1119112861826,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1890000, 'default': {'kl': 0.010561560280621052, 'policy_loss': -0.11740194261074066, 'vf_loss': 119.18310546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9847737550735474, 'entropy': 4.969969272613525, 'cur_lr': 4.999999873689376e-05, 'total_loss': 119.08175659179688}, 'load_time_ms': 0.606, 'num_steps_sampled': 1890000, 'grad_time_ms': 681.517, 'update_time_ms': 2.314, 'sample_time_ms': 33767.077}",2025-08-31_05-48-53,cda-server-4,34.49670171737671,9450,1756612133,10.157.146.4,False,49082.42353892326,1200
+1576,-610.2410059782598,1576,1891200,{},-801.4004371856357,1891200,0,49115.80488753319,-522.1119112861826,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1891200, 'default': {'kl': 0.011459075845777988, 'policy_loss': -0.14477583765983582, 'vf_loss': 289.9872741699219, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9727954864501953, 'entropy': 5.292919158935547, 'cur_lr': 4.999999873689376e-05, 'total_loss': 289.85992431640625}, 'load_time_ms': 0.595, 'num_steps_sampled': 1891200, 'grad_time_ms': 673.121, 'update_time_ms': 2.274, 'sample_time_ms': 33618.871}",2025-08-31_05-49-26,cda-server-4,33.381348609924316,9456,1756612166,10.157.146.4,False,49115.80488753319,1200
+1577,-608.0761926859701,1577,1892400,{},-663.6254017889756,1892400,0,49149.59594655037,-522.1119112861826,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1892400, 'default': {'kl': 0.009152946062386036, 'policy_loss': -0.1250387281179428, 'vf_loss': 263.818603515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9716595411300659, 'entropy': 5.31683874130249, 'cur_lr': 4.999999873689376e-05, 'total_loss': 263.7074279785156}, 'load_time_ms': 0.606, 'num_steps_sampled': 1892400, 'grad_time_ms': 654.925, 'update_time_ms': 2.29, 'sample_time_ms': 33572.238}",2025-08-31_05-50-00,cda-server-4,33.7910590171814,9462,1756612200,10.157.146.4,False,49149.59594655037,1200
+1578,-610.4660563495346,1578,1893600,{},-663.6254017889756,1893600,0,49183.6937186718,-524.4666472980541,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1893600, 'default': {'kl': 0.010539502836763859, 'policy_loss': -0.14274920523166656, 'vf_loss': 370.0993957519531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9584049582481384, 'entropy': 5.121731758117676, 'cur_lr': 4.999999873689376e-05, 'total_loss': 369.97265625}, 'load_time_ms': 0.613, 'num_steps_sampled': 1893600, 'grad_time_ms': 649.824, 'update_time_ms': 2.368, 'sample_time_ms': 33499.289}",2025-08-31_05-50-34,cda-server-4,34.09777212142944,9468,1756612234,10.157.146.4,False,49183.6937186718,1200
+1579,-611.4901797079176,1579,1894800,{},-663.6254017889756,1894800,0,49218.34445667267,-524.4666472980541,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1894800, 'default': {'kl': 0.012071688659489155, 'policy_loss': -0.15572187304496765, 'vf_loss': 252.2130584716797, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.983525812625885, 'entropy': 5.3066253662109375, 'cur_lr': 4.999999873689376e-05, 'total_loss': 252.07568359375}, 'load_time_ms': 0.63, 'num_steps_sampled': 1894800, 'grad_time_ms': 634.394, 'update_time_ms': 2.428, 'sample_time_ms': 33609.679}",2025-08-31_05-51-09,cda-server-4,34.65073800086975,9474,1756612269,10.157.146.4,False,49218.34445667267,1200
+1580,-611.70572279367,1580,1896000,{},-663.6254017889756,1896000,0,49252.40743851662,-524.4666472980541,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1896000, 'default': {'kl': 0.008618133142590523, 'policy_loss': -0.13618487119674683, 'vf_loss': 289.6223449707031, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9687451124191284, 'entropy': 5.367177486419678, 'cur_lr': 4.999999873689376e-05, 'total_loss': 289.4992370605469}, 'load_time_ms': 0.636, 'num_steps_sampled': 1896000, 'grad_time_ms': 639.094, 'update_time_ms': 2.458, 'sample_time_ms': 33553.886}",2025-08-31_05-51-43,cda-server-4,34.062981843948364,9480,1756612303,10.157.146.4,False,49252.40743851662,1200
+1581,-612.2361842272879,1581,1897200,{},-663.6254017889756,1897200,0,49287.99104595184,-524.4666472980541,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1897200, 'default': {'kl': 0.01074863038957119, 'policy_loss': -0.15283602476119995, 'vf_loss': 115.22262573242188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9905531406402588, 'entropy': 5.37896203994751, 'cur_lr': 4.999999873689376e-05, 'total_loss': 115.08611297607422}, 'load_time_ms': 0.647, 'num_steps_sampled': 1897200, 'grad_time_ms': 652.405, 'update_time_ms': 2.485, 'sample_time_ms': 33662.377}",2025-08-31_05-52-19,cda-server-4,35.58360743522644,9486,1756612339,10.157.146.4,False,49287.99104595184,1200
+1582,-612.6250652754321,1582,1898400,{},-663.6254017889756,1898400,0,49323.18134903908,-524.4666472980541,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1898400, 'default': {'kl': 0.009319180622696877, 'policy_loss': -0.13235822319984436, 'vf_loss': 178.12152099609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9770320057868958, 'entropy': 5.155594825744629, 'cur_lr': 4.999999873689376e-05, 'total_loss': 178.00332641601562}, 'load_time_ms': 0.649, 'num_steps_sampled': 1898400, 'grad_time_ms': 663.407, 'update_time_ms': 2.469, 'sample_time_ms': 33767.968}",2025-08-31_05-52-54,cda-server-4,35.1903030872345,9492,1756612374,10.157.146.4,False,49323.18134903908,1200
+1583,-613.667219516791,1583,1899600,{},-663.6254017889756,1899600,0,49356.734590530396,-524.4666472980541,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1899600, 'default': {'kl': 0.008609606884419918, 'policy_loss': -0.1246991977095604, 'vf_loss': 316.3526611328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9574536085128784, 'entropy': 5.31766414642334, 'cur_lr': 4.999999873689376e-05, 'total_loss': 316.2410583496094}, 'load_time_ms': 0.653, 'num_steps_sampled': 1899600, 'grad_time_ms': 653.309, 'update_time_ms': 2.378, 'sample_time_ms': 33699.474}",2025-08-31_05-53-27,cda-server-4,33.55324149131775,9498,1756612407,10.157.146.4,False,49356.734590530396,1200
+1584,-613.5646396016856,1584,1900800,{},-663.6254017889756,1900800,0,49390.59574794769,-524.4666472980541,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1900800, 'default': {'kl': 0.011731366626918316, 'policy_loss': -0.1420769989490509, 'vf_loss': 80.99703979492188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9917171001434326, 'entropy': 5.133200168609619, 'cur_lr': 4.999999873689376e-05, 'total_loss': 80.87277221679688}, 'load_time_ms': 0.651, 'num_steps_sampled': 1900800, 'grad_time_ms': 649.04, 'update_time_ms': 2.425, 'sample_time_ms': 33610.612}",2025-08-31_05-54-01,cda-server-4,33.86115741729736,9504,1756612441,10.157.146.4,False,49390.59574794769,1200
+1585,-614.0982268877566,1585,1902000,{},-663.6254017889756,1902000,0,49427.20791172981,-541.9706747283017,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1902000, 'default': {'kl': 0.011214806698262691, 'policy_loss': -0.14963547885417938, 'vf_loss': 138.36236572265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9873387217521667, 'entropy': 5.352598190307617, 'cur_lr': 4.999999873689376e-05, 'total_loss': 138.22975158691406}, 'load_time_ms': 0.636, 'num_steps_sampled': 1902000, 'grad_time_ms': 651.679, 'update_time_ms': 2.326, 'sample_time_ms': 33819.714}",2025-08-31_05-54-38,cda-server-4,36.61216378211975,9510,1756612478,10.157.146.4,False,49427.20791172981,1200
+1586,-613.9115813786807,1586,1903200,{},-663.6254017889756,1903200,0,49462.46643638611,-541.9706747283017,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1903200, 'default': {'kl': 0.012299071997404099, 'policy_loss': -0.1584821343421936, 'vf_loss': 212.92979431152344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9811645150184631, 'entropy': 5.347200393676758, 'cur_lr': 4.999999873689376e-05, 'total_loss': 212.78997802734375}, 'load_time_ms': 0.639, 'num_steps_sampled': 1903200, 'grad_time_ms': 653.169, 'update_time_ms': 2.374, 'sample_time_ms': 34005.955}",2025-08-31_05-55-13,cda-server-4,35.258524656295776,9516,1756612513,10.157.146.4,False,49462.46643638611,1200
+1587,-613.6336062256062,1587,1904400,{},-663.6254017889756,1904400,0,49496.59789800644,-541.9706747283017,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1904400, 'default': {'kl': 0.010486182756721973, 'policy_loss': -0.139949768781662, 'vf_loss': 346.3331298828125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9724347591400146, 'entropy': 5.489974021911621, 'cur_lr': 4.999999873689376e-05, 'total_loss': 346.2091064453125}, 'load_time_ms': 0.633, 'num_steps_sampled': 1904400, 'grad_time_ms': 665.502, 'update_time_ms': 2.376, 'sample_time_ms': 34027.736}",2025-08-31_05-55-47,cda-server-4,34.13146162033081,9522,1756612547,10.157.146.4,False,49496.59789800644,1200
+1588,-613.6028521491883,1588,1905600,{},-663.6254017889756,1905600,0,49530.240626096725,-541.9706747283017,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1905600, 'default': {'kl': 0.009891675785183907, 'policy_loss': -0.1333807408809662, 'vf_loss': 199.69114685058594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9790459871292114, 'entropy': 5.248780727386475, 'cur_lr': 4.999999873689376e-05, 'total_loss': 199.57278442382812}, 'load_time_ms': 0.631, 'num_steps_sampled': 1905600, 'grad_time_ms': 669.865, 'update_time_ms': 2.322, 'sample_time_ms': 33978.04}",2025-08-31_05-56-21,cda-server-4,33.642728090286255,9528,1756612581,10.157.146.4,False,49530.240626096725,1200
+1589,-614.1872442828058,1589,1906800,{},-663.6254017889756,1906800,0,49565.66792678833,-541.9706747283017,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1906800, 'default': {'kl': 0.01014305092394352, 'policy_loss': -0.12496035546064377, 'vf_loss': 423.14447021484375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9726378917694092, 'entropy': 5.049015522003174, 'cur_lr': 4.999999873689376e-05, 'total_loss': 423.0349426269531}, 'load_time_ms': 0.623, 'num_steps_sampled': 1906800, 'grad_time_ms': 661.122, 'update_time_ms': 2.302, 'sample_time_ms': 34064.517}",2025-08-31_05-56-56,cda-server-4,35.427300691604614,9534,1756612616,10.157.146.4,False,49565.66792678833,1200
+1590,-613.5211564955603,1590,1908000,{},-663.6254017889756,1908000,0,49600.00480747223,-541.9706747283017,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1908000, 'default': {'kl': 0.011694024316966534, 'policy_loss': -0.1347058117389679, 'vf_loss': 260.364013671875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9756119847297668, 'entropy': 5.2146406173706055, 'cur_lr': 4.999999873689376e-05, 'total_loss': 260.2471008300781}, 'load_time_ms': 0.62, 'num_steps_sampled': 1908000, 'grad_time_ms': 653.206, 'update_time_ms': 2.275, 'sample_time_ms': 34099.877}",2025-08-31_05-57-31,cda-server-4,34.336880683898926,9540,1756612651,10.157.146.4,False,49600.00480747223,1200
+1591,-614.1721366016989,1591,1909200,{},-663.6254017889756,1909200,0,49633.83096790314,-541.9706747283017,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1909200, 'default': {'kl': 0.009814348071813583, 'policy_loss': -0.14851845800876617, 'vf_loss': 169.09747314453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9768996834754944, 'entropy': 5.387808322906494, 'cur_lr': 4.999999873689376e-05, 'total_loss': 168.96385192871094}, 'load_time_ms': 0.611, 'num_steps_sampled': 1909200, 'grad_time_ms': 653.905, 'update_time_ms': 2.305, 'sample_time_ms': 33923.41}",2025-08-31_05-58-05,cda-server-4,33.8261604309082,9546,1756612685,10.157.146.4,False,49633.83096790314,1200
+1592,-612.9004864769308,1592,1910400,{},-659.9975749669235,1910400,0,49668.68288207054,-476.2367995474341,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1910400, 'default': {'kl': 0.011301208287477493, 'policy_loss': -0.14738230407238007, 'vf_loss': 424.6429138183594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9582871198654175, 'entropy': 5.260366916656494, 'cur_lr': 4.999999873689376e-05, 'total_loss': 424.5126953125}, 'load_time_ms': 0.646, 'num_steps_sampled': 1910400, 'grad_time_ms': 657.752, 'update_time_ms': 2.277, 'sample_time_ms': 33885.674}",2025-08-31_05-58-40,cda-server-4,34.851914167404175,9552,1756612720,10.157.146.4,False,49668.68288207054,1200
+1593,-613.3574381978112,1593,1911600,{},-659.9975749669235,1911600,0,49703.28253245354,-476.2367995474341,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1911600, 'default': {'kl': 0.009498902596533298, 'policy_loss': -0.12586185336112976, 'vf_loss': 189.81068420410156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9789502620697021, 'entropy': 5.253913402557373, 'cur_lr': 4.999999873689376e-05, 'total_loss': 189.6992645263672}, 'load_time_ms': 0.646, 'num_steps_sampled': 1911600, 'grad_time_ms': 647.378, 'update_time_ms': 2.336, 'sample_time_ms': 34000.604}",2025-08-31_05-59-14,cda-server-4,34.599650382995605,9558,1756612754,10.157.146.4,False,49703.28253245354,1200
+1594,-615.0803760797678,1594,1912800,{},-659.9975749669235,1912800,0,49736.84429311752,-476.2367995474341,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1912800, 'default': {'kl': 0.012205700390040874, 'policy_loss': -0.16225481033325195, 'vf_loss': 86.51405334472656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9882986545562744, 'entropy': 5.396505355834961, 'cur_lr': 4.999999873689376e-05, 'total_loss': 86.37033081054688}, 'load_time_ms': 0.643, 'num_steps_sampled': 1912800, 'grad_time_ms': 632.336, 'update_time_ms': 2.309, 'sample_time_ms': 33985.715}",2025-08-31_05-59-48,cda-server-4,33.561760663986206,9564,1756612788,10.157.146.4,False,49736.84429311752,1200
+1595,-614.8514206478801,1595,1914000,{},-659.2815880780578,1914000,0,49770.41298913956,-476.2367995474341,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1914000, 'default': {'kl': 0.009250112809240818, 'policy_loss': -0.14368432760238647, 'vf_loss': 212.90956115722656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9845846891403198, 'entropy': 5.028726100921631, 'cur_lr': 4.999999873689376e-05, 'total_loss': 212.77993774414062}, 'load_time_ms': 0.634, 'num_steps_sampled': 1914000, 'grad_time_ms': 619.543, 'update_time_ms': 2.326, 'sample_time_ms': 33694.201}",2025-08-31_06-00-21,cda-server-4,33.56869602203369,9570,1756612821,10.157.146.4,False,49770.41298913956,1200
+1596,-614.1451791393664,1596,1915200,{},-659.2815880780578,1915200,0,49804.82386279106,-476.2367995474341,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1915200, 'default': {'kl': 0.012048114091157913, 'policy_loss': -0.159254252910614, 'vf_loss': 185.20896911621094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9815284013748169, 'entropy': 5.417332172393799, 'cur_lr': 4.999999873689376e-05, 'total_loss': 185.06802368164062}, 'load_time_ms': 0.634, 'num_steps_sampled': 1915200, 'grad_time_ms': 601.15, 'update_time_ms': 2.259, 'sample_time_ms': 33627.885}",2025-08-31_06-00-56,cda-server-4,34.41087365150452,9576,1756612856,10.157.146.4,False,49804.82386279106,1200
+1597,-614.7506411503374,1597,1916400,{},-659.2815880780578,1916400,0,49839.73019742966,-476.2367995474341,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1916400, 'default': {'kl': 0.009908688254654408, 'policy_loss': -0.13958127796649933, 'vf_loss': 35.93141555786133, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9955876469612122, 'entropy': 5.4966583251953125, 'cur_lr': 4.999999873689376e-05, 'total_loss': 35.806884765625}, 'load_time_ms': 0.636, 'num_steps_sampled': 1916400, 'grad_time_ms': 595.237, 'update_time_ms': 2.22, 'sample_time_ms': 33711.277}",2025-08-31_06-01-31,cda-server-4,34.90633463859558,9582,1756612891,10.157.146.4,False,49839.73019742966,1200
+1598,-614.5800754956109,1598,1917600,{},-659.2815880780578,1917600,0,49874.25486493111,-476.2367995474341,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1917600, 'default': {'kl': 0.012762553058564663, 'policy_loss': -0.13832026720046997, 'vf_loss': 767.267822265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9750194549560547, 'entropy': 5.0085625648498535, 'cur_lr': 4.999999873689376e-05, 'total_loss': 767.1488647460938}, 'load_time_ms': 0.633, 'num_steps_sampled': 1917600, 'grad_time_ms': 594.082, 'update_time_ms': 2.237, 'sample_time_ms': 33800.548}",2025-08-31_06-02-05,cda-server-4,34.524667501449585,9588,1756612925,10.157.146.4,False,49874.25486493111,1200
+1599,-613.3430191289615,1599,1918800,{},-659.2815880780578,1918800,0,49908.21275782585,-476.2367995474341,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1918800, 'default': {'kl': 0.010099534876644611, 'policy_loss': -0.143032044172287, 'vf_loss': 170.43653869628906, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9855481386184692, 'entropy': 5.002508163452148, 'cur_lr': 4.999999873689376e-05, 'total_loss': 170.308837890625}, 'load_time_ms': 0.631, 'num_steps_sampled': 1918800, 'grad_time_ms': 611.444, 'update_time_ms': 2.274, 'sample_time_ms': 33636.196}",2025-08-31_06-02-39,cda-server-4,33.95789289474487,9594,1756612959,10.157.146.4,False,49908.21275782585,1200
+1600,-614.000305730697,1600,1920000,{},-659.2815880780578,1920000,0,49942.54987502098,-476.2367995474341,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1920000, 'default': {'kl': 0.011339988559484482, 'policy_loss': -0.1408868134021759, 'vf_loss': 143.17303466796875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9869697093963623, 'entropy': 5.1820759773254395, 'cur_lr': 4.999999873689376e-05, 'total_loss': 143.04937744140625}, 'load_time_ms': 0.632, 'num_steps_sampled': 1920000, 'grad_time_ms': 613.232, 'update_time_ms': 2.263, 'sample_time_ms': 33634.424}",2025-08-31_06-03-14,cda-server-4,34.337117195129395,9600,1756612994,10.157.146.4,False,49942.54987502098,1200
+1601,-613.214973184123,1601,1921200,{},-659.2815880780578,1921200,0,49977.53041744232,-476.2367995474341,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1921200, 'default': {'kl': 0.011021791025996208, 'policy_loss': -0.15383389592170715, 'vf_loss': 153.85533142089844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9832830429077148, 'entropy': 5.089776992797852, 'cur_lr': 4.999999873689376e-05, 'total_loss': 153.71823120117188}, 'load_time_ms': 0.636, 'num_steps_sampled': 1921200, 'grad_time_ms': 614.311, 'update_time_ms': 2.171, 'sample_time_ms': 33748.878}",2025-08-31_06-03-49,cda-server-4,34.98054242134094,9606,1756613029,10.157.146.4,False,49977.53041744232,1200
+1602,-613.8222614306065,1602,1922400,{},-659.2815880780578,1922400,0,50011.62150526047,-476.2367995474341,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1922400, 'default': {'kl': 0.009797412902116776, 'policy_loss': -0.14507606625556946, 'vf_loss': 182.47235107421875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9769363403320312, 'entropy': 5.154476642608643, 'cur_lr': 4.999999873689376e-05, 'total_loss': 182.3421630859375}, 'load_time_ms': 0.611, 'num_steps_sampled': 1922400, 'grad_time_ms': 615.214, 'update_time_ms': 2.162, 'sample_time_ms': 33671.962}",2025-08-31_06-04-23,cda-server-4,34.09108781814575,9612,1756613063,10.157.146.4,False,50011.62150526047,1200
+1603,-614.2344842902793,1603,1923600,{},-659.2815880780578,1923600,0,50046.19371819496,-476.2367995474341,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1923600, 'default': {'kl': 0.008543262258172035, 'policy_loss': -0.1341245174407959, 'vf_loss': 149.89288330078125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9810166954994202, 'entropy': 5.427677631378174, 'cur_lr': 4.999999873689376e-05, 'total_loss': 149.771728515625}, 'load_time_ms': 0.606, 'num_steps_sampled': 1923600, 'grad_time_ms': 638.265, 'update_time_ms': 2.137, 'sample_time_ms': 33646.207}",2025-08-31_06-04-57,cda-server-4,34.57221293449402,9618,1756613097,10.157.146.4,False,50046.19371819496,1200
+1604,-613.9196488818387,1604,1924800,{},-659.2815880780578,1924800,0,50080.93727183342,-476.2367995474341,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1924800, 'default': {'kl': 0.011375617235898972, 'policy_loss': -0.1554625779390335, 'vf_loss': 39.66335678100586, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9963328242301941, 'entropy': 5.228739261627197, 'cur_lr': 4.999999873689376e-05, 'total_loss': 39.52517318725586}, 'load_time_ms': 0.61, 'num_steps_sampled': 1924800, 'grad_time_ms': 667.317, 'update_time_ms': 2.181, 'sample_time_ms': 33735.217}",2025-08-31_06-05-32,cda-server-4,34.74355363845825,9624,1756613132,10.157.146.4,False,50080.93727183342,1200
+1605,-613.310311835588,1605,1926000,{},-659.2815880780578,1926000,0,50115.519105911255,-476.2367995474341,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1926000, 'default': {'kl': 0.010699630714952946, 'policy_loss': -0.14580701291561127, 'vf_loss': 100.21480560302734, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9903900623321533, 'entropy': 4.897233963012695, 'cur_lr': 4.999999873689376e-05, 'total_loss': 100.08525085449219}, 'load_time_ms': 0.601, 'num_steps_sampled': 1926000, 'grad_time_ms': 692.936, 'update_time_ms': 2.222, 'sample_time_ms': 33810.86}",2025-08-31_06-06-07,cda-server-4,34.58183407783508,9630,1756613167,10.157.146.4,False,50115.519105911255,1200
+1606,-611.8908369605921,1606,1927200,{},-659.2815880780578,1927200,0,50150.286940813065,-476.2367995474341,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1927200, 'default': {'kl': 0.012520491145551205, 'policy_loss': -0.14104801416397095, 'vf_loss': 699.0006713867188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9641492366790771, 'entropy': 4.9559326171875, 'cur_lr': 4.999999873689376e-05, 'total_loss': 698.878662109375}, 'load_time_ms': 0.604, 'num_steps_sampled': 1927200, 'grad_time_ms': 704.468, 'update_time_ms': 2.257, 'sample_time_ms': 33834.995}",2025-08-31_06-06-41,cda-server-4,34.76783490180969,9636,1756613201,10.157.146.4,False,50150.286940813065,1200
+1607,-611.4972759217553,1607,1928400,{},-659.2815880780578,1928400,0,50185.482519865036,-476.2367995474341,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1928400, 'default': {'kl': 0.01077330857515335, 'policy_loss': -0.1564289629459381, 'vf_loss': 399.5029602050781, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9647219777107239, 'entropy': 5.261239528656006, 'cur_lr': 4.999999873689376e-05, 'total_loss': 399.3629150390625}, 'load_time_ms': 0.633, 'num_steps_sampled': 1928400, 'grad_time_ms': 705.641, 'update_time_ms': 2.22, 'sample_time_ms': 33862.734}",2025-08-31_06-07-17,cda-server-4,35.195579051971436,9642,1756613237,10.157.146.4,False,50185.482519865036,1200
+1608,-609.7530558858888,1608,1929600,{},-659.2815880780578,1929600,0,50220.6527929306,-476.2367995474341,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1929600, 'default': {'kl': 0.011589843779802322, 'policy_loss': -0.1519947648048401, 'vf_loss': 213.48887634277344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9834364652633667, 'entropy': 5.091375350952148, 'cur_lr': 4.999999873689376e-05, 'total_loss': 213.35447692871094}, 'load_time_ms': 0.63, 'num_steps_sampled': 1929600, 'grad_time_ms': 693.963, 'update_time_ms': 2.232, 'sample_time_ms': 33938.958}",2025-08-31_06-07-52,cda-server-4,35.17027306556702,9648,1756613272,10.157.146.4,False,50220.6527929306,1200
+1609,-609.6034283212705,1609,1930800,{},-659.2815880780578,1930800,0,50255.25433039665,-472.06052588354106,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1930800, 'default': {'kl': 0.011071236804127693, 'policy_loss': -0.14926797151565552, 'vf_loss': 272.7643127441406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9754180908203125, 'entropy': 5.037342071533203, 'cur_lr': 4.999999873689376e-05, 'total_loss': 272.6318664550781}, 'load_time_ms': 0.628, 'num_steps_sampled': 1930800, 'grad_time_ms': 693.242, 'update_time_ms': 2.209, 'sample_time_ms': 34004.056}",2025-08-31_06-08-26,cda-server-4,34.601537466049194,9654,1756613306,10.157.146.4,False,50255.25433039665,1200
+1610,-608.0985194483067,1610,1932000,{},-659.2815880780578,1932000,0,50289.40784215927,-472.06052588354106,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1932000, 'default': {'kl': 0.011734236031770706, 'policy_loss': -0.15171512961387634, 'vf_loss': 28.4974365234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9956327080726624, 'entropy': 5.023453235626221, 'cur_lr': 4.999999873689376e-05, 'total_loss': 28.363544464111328}, 'load_time_ms': 0.631, 'num_steps_sampled': 1932000, 'grad_time_ms': 689.694, 'update_time_ms': 2.295, 'sample_time_ms': 33989.024}",2025-08-31_06-09-01,cda-server-4,34.15351176261902,9660,1756613341,10.157.146.4,False,50289.40784215927,1200
+1611,-607.5163895412866,1611,1933200,{},-674.0557533129664,1933200,0,50324.56378698349,-472.06052588354106,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1933200, 'default': {'kl': 0.013287747278809547, 'policy_loss': -0.1420268714427948, 'vf_loss': 599.3448486328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9381599426269531, 'entropy': 5.324286460876465, 'cur_lr': 4.999999873689376e-05, 'total_loss': 599.2229614257812}, 'load_time_ms': 0.626, 'num_steps_sampled': 1933200, 'grad_time_ms': 686.818, 'update_time_ms': 2.376, 'sample_time_ms': 34009.426}",2025-08-31_06-09-36,cda-server-4,35.15594482421875,9666,1756613376,10.157.146.4,False,50324.56378698349,1200
+1612,-608.2847171437184,1612,1934400,{},-674.0557533129664,1934400,0,50358.86815714836,-472.06052588354106,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1934400, 'default': {'kl': 0.010507260449230671, 'policy_loss': -0.14400175213813782, 'vf_loss': 551.5286865234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9340536594390869, 'entropy': 5.014490127563477, 'cur_lr': 4.999999873689376e-05, 'total_loss': 551.400634765625}, 'load_time_ms': 0.617, 'num_steps_sampled': 1934400, 'grad_time_ms': 687.085, 'update_time_ms': 2.37, 'sample_time_ms': 34030.524}",2025-08-31_06-10-10,cda-server-4,34.304370164871216,9672,1756613410,10.157.146.4,False,50358.86815714836,1200
+1613,-607.5285205972656,1613,1935600,{},-674.0557533129664,1935600,0,50393.30641770363,-472.06052588354106,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1935600, 'default': {'kl': 0.009880468249320984, 'policy_loss': -0.13191258907318115, 'vf_loss': 290.2701416015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9658535718917847, 'entropy': 4.971090316772461, 'cur_lr': 4.999999873689376e-05, 'total_loss': 290.15325927734375}, 'load_time_ms': 0.62, 'num_steps_sampled': 1935600, 'grad_time_ms': 704.963, 'update_time_ms': 2.336, 'sample_time_ms': 33999.092}",2025-08-31_06-10-45,cda-server-4,34.438260555267334,9678,1756613445,10.157.146.4,False,50393.30641770363,1200
+1614,-607.3913997399167,1614,1936800,{},-674.0557533129664,1936800,0,50429.290727853775,-472.06052588354106,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1936800, 'default': {'kl': 0.01093390490859747, 'policy_loss': -0.14157313108444214, 'vf_loss': 255.7008514404297, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9742491245269775, 'entropy': 5.296597003936768, 'cur_lr': 4.999999873689376e-05, 'total_loss': 255.57586669921875}, 'load_time_ms': 0.621, 'num_steps_sampled': 1936800, 'grad_time_ms': 707.474, 'update_time_ms': 2.465, 'sample_time_ms': 34120.583}",2025-08-31_06-11-21,cda-server-4,35.984310150146484,9684,1756613481,10.157.146.4,False,50429.290727853775,1200
+1615,-607.3167106809368,1615,1938000,{},-674.0557533129664,1938000,0,50464.45334601402,-472.06052588354106,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1938000, 'default': {'kl': 0.00896172784268856, 'policy_loss': -0.12565389275550842, 'vf_loss': 313.01446533203125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9617892503738403, 'entropy': 4.881345272064209, 'cur_lr': 4.999999873689376e-05, 'total_loss': 312.90240478515625}, 'load_time_ms': 0.624, 'num_steps_sampled': 1938000, 'grad_time_ms': 705.824, 'update_time_ms': 2.438, 'sample_time_ms': 34180.33}",2025-08-31_06-11-56,cda-server-4,35.1626181602478,9690,1756613516,10.157.146.4,False,50464.45334601402,1200
+1616,-607.6392080024838,1616,1939200,{},-674.0557533129664,1939200,0,50498.59863424301,-472.06052588354106,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1939200, 'default': {'kl': 0.009828663431107998, 'policy_loss': -0.12927840650081635, 'vf_loss': 294.15484619140625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9674630761146545, 'entropy': 5.101933002471924, 'cur_lr': 4.999999873689376e-05, 'total_loss': 294.0404968261719}, 'load_time_ms': 0.621, 'num_steps_sampled': 1939200, 'grad_time_ms': 717.667, 'update_time_ms': 2.458, 'sample_time_ms': 34106.136}",2025-08-31_06-12-30,cda-server-4,34.14528822898865,9696,1756613550,10.157.146.4,False,50498.59863424301,1200
+1617,-606.9515878925525,1617,1940400,{},-674.0557533129664,1940400,0,50532.90312600136,-472.06052588354106,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1940400, 'default': {'kl': 0.01179384533315897, 'policy_loss': -0.13373877108097076, 'vf_loss': 68.21562957763672, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9918888807296753, 'entropy': 4.798585891723633, 'cur_lr': 4.999999873689376e-05, 'total_loss': 68.09980010986328}, 'load_time_ms': 0.588, 'num_steps_sampled': 1940400, 'grad_time_ms': 724.884, 'update_time_ms': 2.514, 'sample_time_ms': 34009.826}",2025-08-31_06-13-04,cda-server-4,34.30449175834656,9702,1756613584,10.157.146.4,False,50532.90312600136,1200
+1618,-608.1594563386315,1618,1941600,{},-674.0557533129664,1941600,0,50567.73391914368,-472.06052588354106,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1941600, 'default': {'kl': 0.012455095537006855, 'policy_loss': -0.15165184438228607, 'vf_loss': 225.9020538330078, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9916197657585144, 'entropy': 5.097517013549805, 'cur_lr': 4.999999873689376e-05, 'total_loss': 225.76934814453125}, 'load_time_ms': 0.592, 'num_steps_sampled': 1941600, 'grad_time_ms': 739.281, 'update_time_ms': 2.564, 'sample_time_ms': 33961.45}",2025-08-31_06-13-39,cda-server-4,34.830793142318726,9708,1756613619,10.157.146.4,False,50567.73391914368,1200
+1619,-608.2767143720076,1619,1942800,{},-674.0557533129664,1942800,0,50603.41454744339,-472.06052588354106,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1942800, 'default': {'kl': 0.008815574459731579, 'policy_loss': -0.1348278671503067, 'vf_loss': 160.71243286132812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9778769016265869, 'entropy': 4.954461097717285, 'cur_lr': 4.999999873689376e-05, 'total_loss': 160.59100341796875}, 'load_time_ms': 0.598, 'num_steps_sampled': 1942800, 'grad_time_ms': 747.604, 'update_time_ms': 2.536, 'sample_time_ms': 34061.049}",2025-08-31_06-14-15,cda-server-4,35.680628299713135,9714,1756613655,10.157.146.4,False,50603.41454744339,1200
+1620,-609.1643339345356,1620,1944000,{},-757.0035875322523,1944000,0,50636.794994831085,-472.06052588354106,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1944000, 'default': {'kl': 0.012471513822674751, 'policy_loss': -0.16059446334838867, 'vf_loss': 566.130126953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.96071457862854, 'entropy': 5.363794803619385, 'cur_lr': 4.999999873689376e-05, 'total_loss': 565.988525390625}, 'load_time_ms': 0.615, 'num_steps_sampled': 1944000, 'grad_time_ms': 760.292, 'update_time_ms': 2.463, 'sample_time_ms': 33971.235}",2025-08-31_06-14-48,cda-server-4,33.38044738769531,9720,1756613688,10.157.146.4,False,50636.794994831085,1200
+1621,-609.4227917105636,1621,1945200,{},-757.0035875322523,1945200,0,50672.1175467968,-472.06052588354106,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1945200, 'default': {'kl': 0.00942912232130766, 'policy_loss': -0.1254468709230423, 'vf_loss': 127.43435668945312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9814857840538025, 'entropy': 4.788263320922852, 'cur_lr': 4.999999873689376e-05, 'total_loss': 127.32322692871094}, 'load_time_ms': 0.617, 'num_steps_sampled': 1945200, 'grad_time_ms': 760.486, 'update_time_ms': 2.447, 'sample_time_ms': 33987.622}",2025-08-31_06-15-24,cda-server-4,35.3225519657135,9726,1756613724,10.157.146.4,False,50672.1175467968,1200
+1622,-610.9483890500687,1622,1946400,{},-757.0035875322523,1946400,0,50707.92476916313,-472.06052588354106,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1946400, 'default': {'kl': 0.008216303773224354, 'policy_loss': -0.1254539042711258, 'vf_loss': 209.0336151123047, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9785864949226379, 'entropy': 5.230060577392578, 'cur_lr': 4.999999873689376e-05, 'total_loss': 208.92062377929688}, 'load_time_ms': 0.627, 'num_steps_sampled': 1946400, 'grad_time_ms': 748.734, 'update_time_ms': 2.491, 'sample_time_ms': 34149.531}",2025-08-31_06-15-59,cda-server-4,35.80722236633301,9732,1756613759,10.157.146.4,False,50707.92476916313,1200
+1623,-612.2956053239635,1623,1947600,{},-757.0035875322523,1947600,0,50742.03413271904,-472.06052588354106,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1947600, 'default': {'kl': 0.01187726017087698, 'policy_loss': -0.1393466591835022, 'vf_loss': 625.478515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9244450330734253, 'entropy': 5.545161724090576, 'cur_lr': 4.999999873689376e-05, 'total_loss': 625.357177734375}, 'load_time_ms': 0.625, 'num_steps_sampled': 1947600, 'grad_time_ms': 728.046, 'update_time_ms': 2.604, 'sample_time_ms': 34137.326}",2025-08-31_06-16-34,cda-server-4,34.1093635559082,9738,1756613794,10.157.146.4,False,50742.03413271904,1200
+1624,-613.7514729488198,1624,1948800,{},-757.0035875322523,1948800,0,50775.815180301666,-472.06052588354106,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1948800, 'default': {'kl': 0.00951874628663063, 'policy_loss': -0.120943583548069, 'vf_loss': 106.88705444335938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9873864650726318, 'entropy': 5.206047058105469, 'cur_lr': 4.999999873689376e-05, 'total_loss': 106.78057098388672}, 'load_time_ms': 0.626, 'num_steps_sampled': 1948800, 'grad_time_ms': 723.864, 'update_time_ms': 2.461, 'sample_time_ms': 33921.342}",2025-08-31_06-17-07,cda-server-4,33.78104758262634,9744,1756613827,10.157.146.4,False,50775.815180301666,1200
+1625,-613.633064289386,1625,1950000,{},-757.0035875322523,1950000,0,50809.922572374344,-472.06052588354106,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1950000, 'default': {'kl': 0.009191655553877354, 'policy_loss': -0.12587100267410278, 'vf_loss': 239.751708984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9615206122398376, 'entropy': 5.021203994750977, 'cur_lr': 4.999999873689376e-05, 'total_loss': 239.6398162841797}, 'load_time_ms': 0.626, 'num_steps_sampled': 1950000, 'grad_time_ms': 718.448, 'update_time_ms': 2.503, 'sample_time_ms': 33821.137}",2025-08-31_06-17-41,cda-server-4,34.10739207267761,9750,1756613861,10.157.146.4,False,50809.922572374344,1200
+1626,-615.2598055537685,1626,1951200,{},-757.0035875322523,1951200,0,50845.08430671692,-573.0136508054343,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1951200, 'default': {'kl': 0.010688696056604385, 'policy_loss': -0.14027565717697144, 'vf_loss': 66.07373046875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9923903346061707, 'entropy': 5.1427903175354, 'cur_lr': 4.999999873689376e-05, 'total_loss': 65.94969177246094}, 'load_time_ms': 0.629, 'num_steps_sampled': 1951200, 'grad_time_ms': 705.114, 'update_time_ms': 2.543, 'sample_time_ms': 33936.096}",2025-08-31_06-18-17,cda-server-4,35.16173434257507,9756,1756613897,10.157.146.4,False,50845.08430671692,1200
+1627,-615.1880311930489,1627,1952400,{},-757.0035875322523,1952400,0,50878.85563468933,-573.0136508054343,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1952400, 'default': {'kl': 0.009200125932693481, 'policy_loss': -0.11838340759277344, 'vf_loss': 172.97999572753906, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9731835126876831, 'entropy': 5.211206912994385, 'cur_lr': 4.999999873689376e-05, 'total_loss': 172.87557983398438}, 'load_time_ms': 0.629, 'num_steps_sampled': 1952400, 'grad_time_ms': 685.714, 'update_time_ms': 2.588, 'sample_time_ms': 33902.092}",2025-08-31_06-18-50,cda-server-4,33.77132797241211,9762,1756613930,10.157.146.4,False,50878.85563468933,1200
+1628,-615.7248617368781,1628,1953600,{},-757.0035875322523,1953600,0,50913.03299713135,-573.0136508054343,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1953600, 'default': {'kl': 0.01106284186244011, 'policy_loss': -0.12561286985874176, 'vf_loss': 138.22378540039062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9825920462608337, 'entropy': 5.105738162994385, 'cur_lr': 4.999999873689376e-05, 'total_loss': 138.11495971679688}, 'load_time_ms': 0.635, 'num_steps_sampled': 1953600, 'grad_time_ms': 665.346, 'update_time_ms': 2.559, 'sample_time_ms': 33857.101}",2025-08-31_06-19-25,cda-server-4,34.1773624420166,9768,1756613965,10.157.146.4,False,50913.03299713135,1200
+1629,-615.8212869382421,1629,1954800,{},-757.0035875322523,1954800,0,50947.349959135056,-573.0136508054343,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1954800, 'default': {'kl': 0.00924542173743248, 'policy_loss': -0.12892858684062958, 'vf_loss': 293.5361328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9671323299407959, 'entropy': 5.040517330169678, 'cur_lr': 4.999999873689376e-05, 'total_loss': 293.4212646484375}, 'load_time_ms': 0.63, 'num_steps_sampled': 1954800, 'grad_time_ms': 656.686, 'update_time_ms': 2.589, 'sample_time_ms': 33729.375}",2025-08-31_06-19-59,cda-server-4,34.316962003707886,9774,1756613999,10.157.146.4,False,50947.349959135056,1200
+1630,-615.9436895422622,1630,1956000,{},-757.0035875322523,1956000,0,50982.52263331413,-573.0136508054343,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1956000, 'default': {'kl': 0.010141528211534023, 'policy_loss': -0.13264423608779907, 'vf_loss': 92.01423645019531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.988943338394165, 'entropy': 4.9521965980529785, 'cur_lr': 4.999999873689376e-05, 'total_loss': 91.89700317382812}, 'load_time_ms': 0.613, 'num_steps_sampled': 1956000, 'grad_time_ms': 655.86, 'update_time_ms': 2.614, 'sample_time_ms': 33909.328}",2025-08-31_06-20-34,cda-server-4,35.17267417907715,9780,1756614034,10.157.146.4,False,50982.52263331413,1200
+1631,-616.8362580829686,1631,1957200,{},-773.4829560811617,1957200,0,51016.21455574036,-573.0136508054343,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1957200, 'default': {'kl': 0.01123502105474472, 'policy_loss': -0.14947505295276642, 'vf_loss': 712.6895751953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.938970685005188, 'entropy': 5.332995414733887, 'cur_lr': 4.999999873689376e-05, 'total_loss': 712.55712890625}, 'load_time_ms': 0.623, 'num_steps_sampled': 1957200, 'grad_time_ms': 657.023, 'update_time_ms': 2.591, 'sample_time_ms': 33745.141}",2025-08-31_06-21-08,cda-server-4,33.691922426223755,9786,1756614068,10.157.146.4,False,51016.21455574036,1200
+1632,-616.6496447469779,1632,1958400,{},-773.4829560811617,1958400,0,51050.84179329872,-573.0136508054343,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1958400, 'default': {'kl': 0.009223905391991138, 'policy_loss': -0.12050158530473709, 'vf_loss': 175.14227294921875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9754626154899597, 'entropy': 5.042898178100586, 'cur_lr': 4.999999873689376e-05, 'total_loss': 175.0357666015625}, 'load_time_ms': 0.614, 'num_steps_sampled': 1958400, 'grad_time_ms': 666.565, 'update_time_ms': 2.624, 'sample_time_ms': 33617.65}",2025-08-31_06-21-43,cda-server-4,34.62723755836487,9792,1756614103,10.157.146.4,False,51050.84179329872,1200
+1633,-617.1491802846745,1633,1959600,{},-773.4829560811617,1959600,0,51085.44942903519,-573.0136508054343,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1959600, 'default': {'kl': 0.009537763893604279, 'policy_loss': -0.13450467586517334, 'vf_loss': 140.08482360839844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9793922901153564, 'entropy': 5.460491180419922, 'cur_lr': 4.999999873689376e-05, 'total_loss': 139.96481323242188}, 'load_time_ms': 0.623, 'num_steps_sampled': 1959600, 'grad_time_ms': 652.341, 'update_time_ms': 2.518, 'sample_time_ms': 33681.866}",2025-08-31_06-22-17,cda-server-4,34.607635736465454,9798,1756614137,10.157.146.4,False,51085.44942903519,1200
+1634,-616.7564762178939,1634,1960800,{},-773.4829560811617,1960800,0,51119.26212000847,-573.0136508054343,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1960800, 'default': {'kl': 0.010692781768739223, 'policy_loss': -0.1504356861114502, 'vf_loss': 172.2418670654297, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9897536039352417, 'entropy': 5.235387802124023, 'cur_lr': 4.999999873689376e-05, 'total_loss': 172.107666015625}, 'load_time_ms': 0.632, 'num_steps_sampled': 1960800, 'grad_time_ms': 651.726, 'update_time_ms': 2.522, 'sample_time_ms': 33685.651}",2025-08-31_06-22-51,cda-server-4,33.81269097328186,9804,1756614171,10.157.146.4,False,51119.26212000847,1200
+1635,-617.7963387193064,1635,1962000,{},-773.4829560811617,1962000,0,51152.88803577423,-568.6822423787587,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1962000, 'default': {'kl': 0.008680105209350586, 'policy_loss': -0.1199895441532135, 'vf_loss': 951.0889892578125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8894563317298889, 'entropy': 5.327816963195801, 'cur_lr': 4.999999873689376e-05, 'total_loss': 950.9821166992188}, 'load_time_ms': 0.632, 'num_steps_sampled': 1962000, 'grad_time_ms': 652.352, 'update_time_ms': 2.494, 'sample_time_ms': 33636.989}",2025-08-31_06-23-25,cda-server-4,33.62591576576233,9810,1756614205,10.157.146.4,False,51152.88803577423,1200
+1636,-616.1508657847318,1636,1963200,{},-773.4829560811617,1963200,0,51187.191855192184,-503.5482877284669,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1963200, 'default': {'kl': 0.009870079346001148, 'policy_loss': -0.12372969090938568, 'vf_loss': 433.2717590332031, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9288752675056458, 'entropy': 5.079380512237549, 'cur_lr': 4.999999873689376e-05, 'total_loss': 433.16302490234375}, 'load_time_ms': 0.623, 'num_steps_sampled': 1963200, 'grad_time_ms': 653.63, 'update_time_ms': 2.414, 'sample_time_ms': 33549.953}",2025-08-31_06-23-59,cda-server-4,34.30381941795349,9816,1756614239,10.157.146.4,False,51187.191855192184,1200
+1637,-615.3298734344509,1637,1964400,{},-773.4829560811617,1964400,0,51222.07940530777,-503.5482877284669,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1964400, 'default': {'kl': 0.00924039725214243, 'policy_loss': -0.12366923689842224, 'vf_loss': 154.09593200683594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9781310558319092, 'entropy': 4.939330577850342, 'cur_lr': 4.999999873689376e-05, 'total_loss': 153.98629760742188}, 'load_time_ms': 0.623, 'num_steps_sampled': 1964400, 'grad_time_ms': 650.813, 'update_time_ms': 2.369, 'sample_time_ms': 33664.514}",2025-08-31_06-24-34,cda-server-4,34.88755011558533,9822,1756614274,10.157.146.4,False,51222.07940530777,1200
+1638,-614.9148582553067,1638,1965600,{},-773.4829560811617,1965600,0,51255.98560166359,-503.5482877284669,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1965600, 'default': {'kl': 0.011175472289323807, 'policy_loss': -0.13887134194374084, 'vf_loss': 255.14675903320312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.982837438583374, 'entropy': 5.1894450187683105, 'cur_lr': 4.999999873689376e-05, 'total_loss': 255.02484130859375}, 'load_time_ms': 0.617, 'num_steps_sampled': 1965600, 'grad_time_ms': 663.154, 'update_time_ms': 2.302, 'sample_time_ms': 33625.13}",2025-08-31_06-25-08,cda-server-4,33.9061963558197,9828,1756614308,10.157.146.4,False,51255.98560166359,1200
+1639,-614.6017926659943,1639,1966800,{},-773.4829560811617,1966800,0,51290.26431727409,-503.5482877284669,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1966800, 'default': {'kl': 0.009619134478271008, 'policy_loss': -0.13286609947681427, 'vf_loss': 85.10311126708984, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9911465048789978, 'entropy': 5.023772716522217, 'cur_lr': 4.999999873689376e-05, 'total_loss': 84.98484802246094}, 'load_time_ms': 0.641, 'num_steps_sampled': 1966800, 'grad_time_ms': 670.002, 'update_time_ms': 2.307, 'sample_time_ms': 33614.448}",2025-08-31_06-25-42,cda-server-4,34.27871561050415,9834,1756614342,10.157.146.4,False,51290.26431727409,1200
+1640,-614.0486695617831,1640,1968000,{},-773.4829560811617,1968000,0,51324.65726232529,-503.5482877284669,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1968000, 'default': {'kl': 0.011978821828961372, 'policy_loss': -0.14480192959308624, 'vf_loss': 334.5757141113281, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9724797010421753, 'entropy': 5.097685813903809, 'cur_lr': 4.999999873689376e-05, 'total_loss': 334.4490966796875}, 'load_time_ms': 0.64, 'num_steps_sampled': 1968000, 'grad_time_ms': 670.08, 'update_time_ms': 2.245, 'sample_time_ms': 33536.537}",2025-08-31_06-26-16,cda-server-4,34.39294505119324,9840,1756614376,10.157.146.4,False,51324.65726232529,1200
+1641,-613.8522194302764,1641,1969200,{},-773.4829560811617,1969200,0,51359.680092811584,-503.5482877284669,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1969200, 'default': {'kl': 0.009480051696300507, 'policy_loss': -0.1139678955078125, 'vf_loss': 70.27813720703125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9897640943527222, 'entropy': 4.940563201904297, 'cur_lr': 4.999999873689376e-05, 'total_loss': 70.1785659790039}, 'load_time_ms': 0.63, 'num_steps_sampled': 1969200, 'grad_time_ms': 669.42, 'update_time_ms': 2.23, 'sample_time_ms': 33670.326}",2025-08-31_06-26-52,cda-server-4,35.02283048629761,9846,1756614412,10.157.146.4,False,51359.680092811584,1200
+1642,-614.6529710504168,1642,1970400,{},-773.4829560811617,1970400,0,51393.39672803879,-503.5482877284669,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1970400, 'default': {'kl': 0.009717006236314774, 'policy_loss': -0.1282375454902649, 'vf_loss': 260.8291320800781, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9846591949462891, 'entropy': 5.199324607849121, 'cur_lr': 4.999999873689376e-05, 'total_loss': 260.71563720703125}, 'load_time_ms': 0.638, 'num_steps_sampled': 1970400, 'grad_time_ms': 666.734, 'update_time_ms': 2.17, 'sample_time_ms': 33581.999}",2025-08-31_06-27-25,cda-server-4,33.71663522720337,9852,1756614445,10.157.146.4,False,51393.39672803879,1200
+1643,-614.6664251985939,1643,1971600,{},-773.4829560811617,1971600,0,51428.15582203865,-503.5482877284669,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1971600, 'default': {'kl': 0.008865865878760815, 'policy_loss': -0.12067735195159912, 'vf_loss': 155.69137573242188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9812123775482178, 'entropy': 5.124043941497803, 'cur_lr': 4.999999873689376e-05, 'total_loss': 155.58416748046875}, 'load_time_ms': 0.628, 'num_steps_sampled': 1971600, 'grad_time_ms': 678.334, 'update_time_ms': 2.165, 'sample_time_ms': 33585.547}",2025-08-31_06-28-00,cda-server-4,34.75909399986267,9858,1756614480,10.157.146.4,False,51428.15582203865,1200
+1644,-614.616878311121,1644,1972800,{},-773.4829560811617,1972800,0,51463.24611163139,-503.5482877284669,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1972800, 'default': {'kl': 0.011073005385696888, 'policy_loss': -0.14731517434120178, 'vf_loss': 238.12657165527344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9632048010826111, 'entropy': 5.118959426879883, 'cur_lr': 4.999999873689376e-05, 'total_loss': 237.99609375}, 'load_time_ms': 0.623, 'num_steps_sampled': 1972800, 'grad_time_ms': 679.131, 'update_time_ms': 2.146, 'sample_time_ms': 33712.513}",2025-08-31_06-28-35,cda-server-4,35.09028959274292,9864,1756614515,10.157.146.4,False,51463.24611163139,1200
+1645,-614.5608202540443,1645,1974000,{},-773.4829560811617,1974000,0,51497.576113939285,-503.5482877284669,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1974000, 'default': {'kl': 0.010175288654863834, 'policy_loss': -0.11738783866167068, 'vf_loss': 255.99688720703125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9792366027832031, 'entropy': 5.006714820861816, 'cur_lr': 4.999999873689376e-05, 'total_loss': 255.8949432373047}, 'load_time_ms': 0.625, 'num_steps_sampled': 1974000, 'grad_time_ms': 683.233, 'update_time_ms': 2.161, 'sample_time_ms': 33778.767}",2025-08-31_06-29-09,cda-server-4,34.330002307891846,9870,1756614549,10.157.146.4,False,51497.576113939285,1200
+1646,-614.6156834175554,1646,1975200,{},-773.4829560811617,1975200,0,51531.99365353584,-503.5482877284669,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1975200, 'default': {'kl': 0.010739133693277836, 'policy_loss': -0.14225424826145172, 'vf_loss': 109.27821350097656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9904593229293823, 'entropy': 5.017617225646973, 'cur_lr': 4.999999873689376e-05, 'total_loss': 109.15225982666016}, 'load_time_ms': 0.625, 'num_steps_sampled': 1975200, 'grad_time_ms': 681.388, 'update_time_ms': 2.157, 'sample_time_ms': 33792.062}",2025-08-31_06-29-44,cda-server-4,34.41753959655762,9876,1756614584,10.157.146.4,False,51531.99365353584,1200
+1647,-614.3863402484076,1647,1976400,{},-684.8853324552879,1976400,0,51563.22103500366,-503.5482877284669,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1976400, 'default': {'kl': 0.010380133055150509, 'policy_loss': -0.1434503048658371, 'vf_loss': 72.38493347167969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9915971755981445, 'entropy': 5.168113708496094, 'cur_lr': 4.999999873689376e-05, 'total_loss': 72.25725555419922}, 'load_time_ms': 0.621, 'num_steps_sampled': 1976400, 'grad_time_ms': 685.928, 'update_time_ms': 2.15, 'sample_time_ms': 33421.506}",2025-08-31_06-30-15,cda-server-4,31.227381467819214,9882,1756614615,10.157.146.4,False,51563.22103500366,1200
+1648,-615.2992552249441,1648,1977600,{},-684.8853324552879,1977600,0,51598.340164899826,-503.5482877284669,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1977600, 'default': {'kl': 0.010435610078275204, 'policy_loss': -0.14659643173217773, 'vf_loss': 136.1812286376953, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9808775782585144, 'entropy': 4.957277774810791, 'cur_lr': 4.999999873689376e-05, 'total_loss': 136.05047607421875}, 'load_time_ms': 0.634, 'num_steps_sampled': 1977600, 'grad_time_ms': 682.773, 'update_time_ms': 2.174, 'sample_time_ms': 33545.968}",2025-08-31_06-30-50,cda-server-4,35.11912989616394,9888,1756614650,10.157.146.4,False,51598.340164899826,1200
+1649,-616.1459650863799,1649,1978800,{},-684.8853324552879,1978800,0,51633.06691741943,-503.5482877284669,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1978800, 'default': {'kl': 0.011414283886551857, 'policy_loss': -0.14544212818145752, 'vf_loss': 278.1414489746094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9644259214401245, 'entropy': 5.266412734985352, 'cur_lr': 4.999999873689376e-05, 'total_loss': 278.0133056640625}, 'load_time_ms': 0.61, 'num_steps_sampled': 1978800, 'grad_time_ms': 678.615, 'update_time_ms': 2.16, 'sample_time_ms': 33594.916}",2025-08-31_06-31-25,cda-server-4,34.726752519607544,9894,1756614685,10.157.146.4,False,51633.06691741943,1200
+1650,-615.4288002491752,1650,1980000,{},-684.8853324552879,1980000,0,51667.61470460892,-503.5482877284669,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1980000, 'default': {'kl': 0.010574530810117722, 'policy_loss': -0.1509116142988205, 'vf_loss': 165.16665649414062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.980872392654419, 'entropy': 5.306469917297363, 'cur_lr': 4.999999873689376e-05, 'total_loss': 165.03179931640625}, 'load_time_ms': 0.612, 'num_steps_sampled': 1980000, 'grad_time_ms': 676.098, 'update_time_ms': 2.225, 'sample_time_ms': 33612.821}",2025-08-31_06-32-00,cda-server-4,34.54778718948364,9900,1756614720,10.157.146.4,False,51667.61470460892,1200
+1651,-614.8174318851588,1651,1981200,{},-681.8097452707199,1981200,0,51702.43178844452,-503.5482877284669,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1981200, 'default': {'kl': 0.010112615302205086, 'policy_loss': -0.14464826881885529, 'vf_loss': 176.8636932373047, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9843745827674866, 'entropy': 4.981277942657471, 'cur_lr': 4.999999873689376e-05, 'total_loss': 176.7344207763672}, 'load_time_ms': 0.61, 'num_steps_sampled': 1981200, 'grad_time_ms': 679.974, 'update_time_ms': 2.332, 'sample_time_ms': 33588.28}",2025-08-31_06-32-34,cda-server-4,34.81708383560181,9906,1756614754,10.157.146.4,False,51702.43178844452,1200
+1652,-618.0067055133779,1652,1982400,{},-756.4925361150586,1982400,0,51736.82071852684,-587.0250580082243,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1982400, 'default': {'kl': 0.011564914137125015, 'policy_loss': -0.12985759973526, 'vf_loss': 811.514404296875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9431941509246826, 'entropy': 5.348876476287842, 'cur_lr': 4.999999873689376e-05, 'total_loss': 811.402099609375}, 'load_time_ms': 0.602, 'num_steps_sampled': 1982400, 'grad_time_ms': 684.156, 'update_time_ms': 2.316, 'sample_time_ms': 33651.301}",2025-08-31_06-33-09,cda-server-4,34.38893008232117,9912,1756614789,10.157.146.4,False,51736.82071852684,1200
+1653,-619.0138446481325,1653,1983600,{},-756.4925361150586,1983600,0,51770.46069073677,-587.0250580082243,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1983600, 'default': {'kl': 0.011272651143372059, 'policy_loss': -0.14977939426898956, 'vf_loss': 87.43353271484375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9870225191116333, 'entropy': 5.325479507446289, 'cur_lr': 4.999999873689376e-05, 'total_loss': 87.30087280273438}, 'load_time_ms': 0.609, 'num_steps_sampled': 1983600, 'grad_time_ms': 688.639, 'update_time_ms': 2.39, 'sample_time_ms': 33534.859}",2025-08-31_06-33-43,cda-server-4,33.63997220993042,9918,1756614823,10.157.146.4,False,51770.46069073677,1200
+1654,-620.0513956125337,1654,1984800,{},-756.4925361150586,1984800,0,51805.34515118599,-587.0250580082243,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1984800, 'default': {'kl': 0.009490307420492172, 'policy_loss': -0.1196594089269638, 'vf_loss': 53.216102600097656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9932494759559631, 'entropy': 4.936820983886719, 'cur_lr': 4.999999873689376e-05, 'total_loss': 53.11085510253906}, 'load_time_ms': 0.633, 'num_steps_sampled': 1984800, 'grad_time_ms': 685.968, 'update_time_ms': 2.438, 'sample_time_ms': 33516.837}",2025-08-31_06-34-17,cda-server-4,34.88446044921875,9924,1756614857,10.157.146.4,False,51805.34515118599,1200
+1655,-619.9420938766455,1655,1986000,{},-756.4925361150586,1986000,0,51839.80745244026,-587.0250580082243,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1986000, 'default': {'kl': 0.012099426239728928, 'policy_loss': -0.15630346536636353, 'vf_loss': 191.43972778320312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9731664657592773, 'entropy': 4.8590569496154785, 'cur_lr': 4.999999873689376e-05, 'total_loss': 191.30178833007812}, 'load_time_ms': 0.632, 'num_steps_sampled': 1986000, 'grad_time_ms': 672.56, 'update_time_ms': 2.426, 'sample_time_ms': 33543.504}",2025-08-31_06-34-52,cda-server-4,34.46230125427246,9930,1756614892,10.157.146.4,False,51839.80745244026,1200
+1656,-620.8162536016769,1656,1987200,{},-756.4925361150586,1987200,0,51873.69000029564,-587.0250580082243,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1987200, 'default': {'kl': 0.009684362448751926, 'policy_loss': -0.14405468106269836, 'vf_loss': 573.289306640625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9284927845001221, 'entropy': 5.2923784255981445, 'cur_lr': 4.999999873689376e-05, 'total_loss': 573.159912109375}, 'load_time_ms': 0.635, 'num_steps_sampled': 1987200, 'grad_time_ms': 666.57, 'update_time_ms': 2.443, 'sample_time_ms': 33496.021}",2025-08-31_06-35-26,cda-server-4,33.8825478553772,9936,1756614926,10.157.146.4,False,51873.69000029564,1200
+1657,-621.7904504155517,1657,1988400,{},-756.4925361150586,1988400,0,51907.39214801788,-587.0250580082243,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1988400, 'default': {'kl': 0.010084950365126133, 'policy_loss': -0.12043435126543045, 'vf_loss': 611.98779296875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.925633430480957, 'entropy': 5.228389263153076, 'cur_lr': 4.999999873689376e-05, 'total_loss': 611.8826293945312}, 'load_time_ms': 0.648, 'num_steps_sampled': 1988400, 'grad_time_ms': 680.43, 'update_time_ms': 2.441, 'sample_time_ms': 33729.63}",2025-08-31_06-36-00,cda-server-4,33.70214772224426,9942,1756614960,10.157.146.4,False,51907.39214801788,1200
+1658,-623.2725787529012,1658,1989600,{},-756.4925361150586,1989600,0,51942.19015240669,-587.0250580082243,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1989600, 'default': {'kl': 0.008761536329984665, 'policy_loss': -0.1373872309923172, 'vf_loss': 294.844482421875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9628414511680603, 'entropy': 5.384030818939209, 'cur_lr': 4.999999873689376e-05, 'total_loss': 294.7204284667969}, 'load_time_ms': 0.647, 'num_steps_sampled': 1989600, 'grad_time_ms': 690.5, 'update_time_ms': 2.376, 'sample_time_ms': 33687.459}",2025-08-31_06-36-34,cda-server-4,34.798004388809204,9948,1756614994,10.157.146.4,False,51942.19015240669,1200
+1659,-622.336277378608,1659,1990800,{},-756.4925361150586,1990800,0,51976.67927932739,-587.0250580082243,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1990800, 'default': {'kl': 0.009397861547768116, 'policy_loss': -0.12532258033752441, 'vf_loss': 458.20172119140625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9360415935516357, 'entropy': 5.08518648147583, 'cur_lr': 4.999999873689376e-05, 'total_loss': 458.0906677246094}, 'load_time_ms': 0.68, 'num_steps_sampled': 1990800, 'grad_time_ms': 683.358, 'update_time_ms': 2.441, 'sample_time_ms': 33670.702}",2025-08-31_06-37-09,cda-server-4,34.48912692070007,9954,1756615029,10.157.146.4,False,51976.67927932739,1200
+1660,-621.771653433216,1660,1992000,{},-756.4925361150586,1992000,0,52010.45788860321,-587.0250580082243,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1992000, 'default': {'kl': 0.011201784014701843, 'policy_loss': -0.15425501763820648, 'vf_loss': 464.1354675292969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9625365138053894, 'entropy': 4.955488204956055, 'cur_lr': 4.999999873689376e-05, 'total_loss': 463.9981994628906}, 'load_time_ms': 0.672, 'num_steps_sampled': 1992000, 'grad_time_ms': 681.231, 'update_time_ms': 2.455, 'sample_time_ms': 33595.931}",2025-08-31_06-37-43,cda-server-4,33.77860927581787,9960,1756615063,10.157.146.4,False,52010.45788860321,1200
+1661,-621.8340999831426,1661,1993200,{},-756.4925361150586,1993200,0,52045.063470602036,-592.391237450205,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1993200, 'default': {'kl': 0.0098488237708807, 'policy_loss': -0.141805037856102, 'vf_loss': 450.3864440917969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9488226771354675, 'entropy': 4.817741394042969, 'cur_lr': 4.999999873689376e-05, 'total_loss': 450.2596130371094}, 'load_time_ms': 0.676, 'num_steps_sampled': 1993200, 'grad_time_ms': 672.596, 'update_time_ms': 2.41, 'sample_time_ms': 33583.47}",2025-08-31_06-38-17,cda-server-4,34.60558199882507,9966,1756615097,10.157.146.4,False,52045.063470602036,1200
+1662,-622.0216121360999,1662,1994400,{},-756.4925361150586,1994400,0,52080.310765743256,-589.6551277692329,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1994400, 'default': {'kl': 0.009495251812040806, 'policy_loss': -0.12776252627372742, 'vf_loss': 137.24850463867188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9803173542022705, 'entropy': 5.188528537750244, 'cur_lr': 4.999999873689376e-05, 'total_loss': 137.13516235351562}, 'load_time_ms': 0.677, 'num_steps_sampled': 1994400, 'grad_time_ms': 670.285, 'update_time_ms': 2.456, 'sample_time_ms': 33671.636}",2025-08-31_06-38-53,cda-server-4,35.24729514122009,9972,1756615133,10.157.146.4,False,52080.310765743256,1200
+1663,-622.7421620972785,1663,1995600,{},-756.4925361150586,1995600,0,52115.0779902935,-589.6551277692329,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1995600, 'default': {'kl': 0.010675818659365177, 'policy_loss': -0.13226032257080078, 'vf_loss': 223.3833770751953, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9749874472618103, 'entropy': 5.140250205993652, 'cur_lr': 4.999999873689376e-05, 'total_loss': 223.26731872558594}, 'load_time_ms': 0.675, 'num_steps_sampled': 1995600, 'grad_time_ms': 672.909, 'update_time_ms': 2.368, 'sample_time_ms': 33781.819}",2025-08-31_06-39-27,cda-server-4,34.76722455024719,9978,1756615167,10.157.146.4,False,52115.0779902935,1200
+1664,-621.7015135489805,1664,1996800,{},-756.4925361150586,1996800,0,52148.56289124489,-589.6551277692329,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1996800, 'default': {'kl': 0.008030490018427372, 'policy_loss': -0.1254977583885193, 'vf_loss': 227.0117950439453, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9659648537635803, 'entropy': 4.904479026794434, 'cur_lr': 4.999999873689376e-05, 'total_loss': 226.89849853515625}, 'load_time_ms': 0.66, 'num_steps_sampled': 1996800, 'grad_time_ms': 689.122, 'update_time_ms': 2.303, 'sample_time_ms': 33625.634}",2025-08-31_06-40-01,cda-server-4,33.4849009513855,9984,1756615201,10.157.146.4,False,52148.56289124489,1200
+1665,-621.2372917180074,1665,1998000,{},-756.4925361150586,1998000,0,52184.13945937157,-589.6551277692329,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1998000, 'default': {'kl': 0.011954400688409805, 'policy_loss': -0.14688590168952942, 'vf_loss': 274.3028564453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9833154678344727, 'entropy': 5.1689252853393555, 'cur_lr': 4.999999873689376e-05, 'total_loss': 274.17413330078125}, 'load_time_ms': 0.664, 'num_steps_sampled': 1998000, 'grad_time_ms': 701.449, 'update_time_ms': 2.427, 'sample_time_ms': 33724.534}",2025-08-31_06-40-36,cda-server-4,35.57656812667847,9990,1756615236,10.157.146.4,False,52184.13945937157,1200
+1666,-619.363622718776,1666,1999200,{},-756.4925361150586,1999200,0,52218.595754384995,-482.68979663451745,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 1999200, 'default': {'kl': 0.009408123791217804, 'policy_loss': -0.12618035078048706, 'vf_loss': 123.71234893798828, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9874144792556763, 'entropy': 4.989286422729492, 'cur_lr': 4.999999873689376e-05, 'total_loss': 123.60044860839844}, 'load_time_ms': 0.663, 'num_steps_sampled': 1999200, 'grad_time_ms': 719.602, 'update_time_ms': 2.547, 'sample_time_ms': 33763.612}",2025-08-31_06-41-11,cda-server-4,34.456295013427734,9996,1756615271,10.157.146.4,False,52218.595754384995,1200
+1667,-618.6618754532742,1667,2000400,{},-756.4925361150586,2000400,0,52252.50130867958,-482.68979663451745,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2000400, 'default': {'kl': 0.009372198022902012, 'policy_loss': -0.130501389503479, 'vf_loss': 391.3116455078125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9658260345458984, 'entropy': 4.992753028869629, 'cur_lr': 4.999999873689376e-05, 'total_loss': 391.1954040527344}, 'load_time_ms': 0.661, 'num_steps_sampled': 2000400, 'grad_time_ms': 722.203, 'update_time_ms': 2.51, 'sample_time_ms': 33781.401}",2025-08-31_06-41-45,cda-server-4,33.90555429458618,10002,1756615305,10.157.146.4,False,52252.50130867958,1200
+1668,-618.1791815463512,1668,2001600,{},-756.4925361150586,2001600,0,52286.5419921875,-482.68979663451745,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2001600, 'default': {'kl': 0.010549956001341343, 'policy_loss': -0.14590945839881897, 'vf_loss': 296.7293701171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.964346170425415, 'entropy': 5.030244827270508, 'cur_lr': 4.999999873689376e-05, 'total_loss': 296.5994873046875}, 'load_time_ms': 0.648, 'num_steps_sampled': 2001600, 'grad_time_ms': 725.346, 'update_time_ms': 2.514, 'sample_time_ms': 33702.541}",2025-08-31_06-42-19,cda-server-4,34.04068350791931,10008,1756615339,10.157.146.4,False,52286.5419921875,1200
+1669,-616.4900002046985,1669,2002800,{},-705.0083384542166,2002800,0,52322.53579521179,-482.68979663451745,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2002800, 'default': {'kl': 0.00959163811057806, 'policy_loss': -0.14271624386310577, 'vf_loss': 148.50942993164062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9836238026618958, 'entropy': 5.166898727416992, 'cur_lr': 4.999999873689376e-05, 'total_loss': 148.3812713623047}, 'load_time_ms': 0.613, 'num_steps_sampled': 2002800, 'grad_time_ms': 731.627, 'update_time_ms': 2.394, 'sample_time_ms': 33846.938}",2025-08-31_06-42-55,cda-server-4,35.99380302429199,10014,1756615375,10.157.146.4,False,52322.53579521179,1200
+1670,-616.7939684538494,1670,2004000,{},-705.0083384542166,2004000,0,52357.22738838196,-482.68979663451745,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2004000, 'default': {'kl': 0.012345550581812859, 'policy_loss': -0.1538000851869583, 'vf_loss': 574.3896484375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.930175244808197, 'entropy': 5.299978256225586, 'cur_lr': 4.999999873689376e-05, 'total_loss': 574.254638671875}, 'load_time_ms': 0.616, 'num_steps_sampled': 2004000, 'grad_time_ms': 729.646, 'update_time_ms': 2.33, 'sample_time_ms': 33940.297}",2025-08-31_06-43-30,cda-server-4,34.691593170166016,10020,1756615410,10.157.146.4,False,52357.22738838196,1200
+1671,-615.8679581934093,1671,2005200,{},-705.0083384542166,2005200,0,52390.42551469803,-482.68979663451745,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2005200, 'default': {'kl': 0.011464063078165054, 'policy_loss': -0.14867667853832245, 'vf_loss': 69.243896484375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.990951418876648, 'entropy': 4.999584197998047, 'cur_lr': 4.999999873689376e-05, 'total_loss': 69.11263275146484}, 'load_time_ms': 0.611, 'num_steps_sampled': 2005200, 'grad_time_ms': 734.043, 'update_time_ms': 2.29, 'sample_time_ms': 33795.199}",2025-08-31_06-44-03,cda-server-4,33.19812631607056,10026,1756615443,10.157.146.4,False,52390.42551469803,1200
+1672,-617.000706460689,1672,2006400,{},-705.0083384542166,2006400,0,52425.38239073753,-482.68979663451745,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2006400, 'default': {'kl': 0.0076484945602715015, 'policy_loss': -0.11806503683328629, 'vf_loss': 157.30508422851562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9740919470787048, 'entropy': 5.055891036987305, 'cur_lr': 4.999999873689376e-05, 'total_loss': 157.19863891601562}, 'load_time_ms': 0.613, 'num_steps_sampled': 2006400, 'grad_time_ms': 736.146, 'update_time_ms': 2.244, 'sample_time_ms': 33764.072}",2025-08-31_06-44-38,cda-server-4,34.956876039505005,10032,1756615478,10.157.146.4,False,52425.38239073753,1200
+1673,-616.4922312944118,1673,2007600,{},-705.0083384542166,2007600,0,52460.05966424942,-482.68979663451745,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2007600, 'default': {'kl': 0.008800068870186806, 'policy_loss': -0.12389269471168518, 'vf_loss': 136.62051391601562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9785333275794983, 'entropy': 4.977048397064209, 'cur_lr': 4.999999873689376e-05, 'total_loss': 136.50997924804688}, 'load_time_ms': 0.642, 'num_steps_sampled': 2007600, 'grad_time_ms': 734.556, 'update_time_ms': 2.318, 'sample_time_ms': 33756.569}",2025-08-31_06-45-13,cda-server-4,34.6772735118866,10038,1756615513,10.157.146.4,False,52460.05966424942,1200
+1674,-614.7824120351165,1674,2008800,{},-671.2484070391986,2008800,0,52493.867626428604,-482.68979663451745,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2008800, 'default': {'kl': 0.010730155743658543, 'policy_loss': -0.12699463963508606, 'vf_loss': 397.8643798828125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9699985980987549, 'entropy': 5.067419052124023, 'cur_lr': 4.999999873689376e-05, 'total_loss': 397.7536926269531}, 'load_time_ms': 0.633, 'num_steps_sampled': 2008800, 'grad_time_ms': 722.951, 'update_time_ms': 2.292, 'sample_time_ms': 33800.648}",2025-08-31_06-45-46,cda-server-4,33.80796217918396,10044,1756615546,10.157.146.4,False,52493.867626428604,1200
+1675,-615.0499241460516,1675,2010000,{},-671.2484070391986,2010000,0,52528.12783622742,-482.68979663451745,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2010000, 'default': {'kl': 0.009975210763514042, 'policy_loss': -0.12664079666137695, 'vf_loss': 392.67523193359375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9563229084014893, 'entropy': 5.09563684463501, 'cur_lr': 4.999999873689376e-05, 'total_loss': 392.563720703125}, 'load_time_ms': 0.638, 'num_steps_sampled': 2010000, 'grad_time_ms': 724.25, 'update_time_ms': 2.174, 'sample_time_ms': 33667.824}",2025-08-31_06-46-21,cda-server-4,34.260209798812866,10050,1756615581,10.157.146.4,False,52528.12783622742,1200
+1676,-614.943104852372,1676,2011200,{},-671.2484070391986,2011200,0,52562.807047605515,-482.68979663451745,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2011200, 'default': {'kl': 0.008805316872894764, 'policy_loss': -0.11822611838579178, 'vf_loss': 447.44635009765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.946930468082428, 'entropy': 5.31347131729126, 'cur_lr': 4.999999873689376e-05, 'total_loss': 447.3414306640625}, 'load_time_ms': 0.656, 'num_steps_sampled': 2011200, 'grad_time_ms': 711.734, 'update_time_ms': 2.084, 'sample_time_ms': 33702.77}",2025-08-31_06-46-55,cda-server-4,34.679211378097534,10056,1756615615,10.157.146.4,False,52562.807047605515,1200
+1677,-614.3799785193183,1677,2012400,{},-671.2484070391986,2012400,0,52597.70344233513,-465.0218432759591,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2012400, 'default': {'kl': 0.01252479013055563, 'policy_loss': -0.15208682417869568, 'vf_loss': 575.7318115234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9469884037971497, 'entropy': 4.906133651733398, 'cur_lr': 4.999999873689376e-05, 'total_loss': 575.5986938476562}, 'load_time_ms': 0.689, 'num_steps_sampled': 2012400, 'grad_time_ms': 714.766, 'update_time_ms': 2.113, 'sample_time_ms': 33798.656}",2025-08-31_06-47-30,cda-server-4,34.89639472961426,10062,1756615650,10.157.146.4,False,52597.70344233513,1200
+1678,-616.8821256801857,1678,2013600,{},-793.0394977829762,2013600,0,52631.328924655914,-465.0218432759591,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2013600, 'default': {'kl': 0.013168485835194588, 'policy_loss': -0.15253081917762756, 'vf_loss': 1069.98388671875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9306426644325256, 'entropy': 5.432408809661865, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1069.8511962890625}, 'load_time_ms': 0.696, 'num_steps_sampled': 2013600, 'grad_time_ms': 708.103, 'update_time_ms': 2.2, 'sample_time_ms': 33763.756}",2025-08-31_06-48-04,cda-server-4,33.62548232078552,10068,1756615684,10.157.146.4,False,52631.328924655914,1200
+1679,-617.4866719459603,1679,2014800,{},-793.0394977829762,2014800,0,52666.322761297226,-465.0218432759591,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2014800, 'default': {'kl': 0.011913011781871319, 'policy_loss': -0.14880524575710297, 'vf_loss': 1003.6389770507812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8942797780036926, 'entropy': 5.139577388763428, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1003.5083618164062}, 'load_time_ms': 0.695, 'num_steps_sampled': 2014800, 'grad_time_ms': 703.322, 'update_time_ms': 2.274, 'sample_time_ms': 33668.478}",2025-08-31_06-48-39,cda-server-4,34.993836641311646,10074,1756615719,10.157.146.4,False,52666.322761297226,1200
+1680,-616.5965553337563,1680,2016000,{},-793.0394977829762,2016000,0,52701.0405523777,-465.0218432759591,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2016000, 'default': {'kl': 0.012402559630572796, 'policy_loss': -0.16248703002929688, 'vf_loss': 217.38414001464844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9811109900474548, 'entropy': 5.07042121887207, 'cur_lr': 4.999999873689376e-05, 'total_loss': 217.24049377441406}, 'load_time_ms': 0.721, 'num_steps_sampled': 2016000, 'grad_time_ms': 706.062, 'update_time_ms': 2.264, 'sample_time_ms': 33668.355}",2025-08-31_06-49-14,cda-server-4,34.71779108047485,10080,1756615754,10.157.146.4,False,52701.0405523777,1200
+1681,-617.397454687371,1681,2017200,{},-793.0394977829762,2017200,0,52735.85670852661,-465.0218432759591,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2017200, 'default': {'kl': 0.009291240945458412, 'policy_loss': -0.12903186678886414, 'vf_loss': 146.1886444091797, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9842236638069153, 'entropy': 4.924269676208496, 'cur_lr': 4.999999873689376e-05, 'total_loss': 146.07373046875}, 'load_time_ms': 0.724, 'num_steps_sampled': 2017200, 'grad_time_ms': 708.463, 'update_time_ms': 2.179, 'sample_time_ms': 33827.842}",2025-08-31_06-49-48,cda-server-4,34.81615614891052,10086,1756615788,10.157.146.4,False,52735.85670852661,1200
+1682,-618.1622904229672,1682,2018400,{},-793.0394977829762,2018400,0,52769.589144945145,-465.0218432759591,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2018400, 'default': {'kl': 0.010168964974582195, 'policy_loss': -0.1278659999370575, 'vf_loss': 256.37261962890625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9669440388679504, 'entropy': 4.864245891571045, 'cur_lr': 4.999999873689376e-05, 'total_loss': 256.2601623535156}, 'load_time_ms': 0.72, 'num_steps_sampled': 2018400, 'grad_time_ms': 709.24, 'update_time_ms': 2.208, 'sample_time_ms': 33704.659}",2025-08-31_06-50-22,cda-server-4,33.732436418533325,10092,1756615822,10.157.146.4,False,52769.589144945145,1200
+1683,-620.9535266868288,1683,2019600,{},-793.0394977829762,2019600,0,52804.32290434837,-465.0218432759591,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2019600, 'default': {'kl': 0.01032671332359314, 'policy_loss': -0.1304960399866104, 'vf_loss': 94.59182739257812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9855734705924988, 'entropy': 5.19420862197876, 'cur_lr': 4.999999873689376e-05, 'total_loss': 94.47702026367188}, 'load_time_ms': 0.702, 'num_steps_sampled': 2019600, 'grad_time_ms': 706.655, 'update_time_ms': 2.151, 'sample_time_ms': 33712.984}",2025-08-31_06-50-57,cda-server-4,34.73375940322876,10098,1756615857,10.157.146.4,False,52804.32290434837,1200
+1684,-620.7672737618607,1684,2020800,{},-793.0394977829762,2020800,0,52839.2417948246,-465.0218432759591,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2020800, 'default': {'kl': 0.01212573517113924, 'policy_loss': -0.16421622037887573, 'vf_loss': 29.12277603149414, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9959924221038818, 'entropy': 4.998523235321045, 'cur_lr': 4.999999873689376e-05, 'total_loss': 28.97697639465332}, 'load_time_ms': 0.7, 'num_steps_sampled': 2020800, 'grad_time_ms': 704.884, 'update_time_ms': 2.196, 'sample_time_ms': 33825.824}",2025-08-31_06-51-32,cda-server-4,34.91889047622681,10104,1756615892,10.157.146.4,False,52839.2417948246,1200
+1685,-620.7022125854847,1685,2022000,{},-793.0394977829762,2022000,0,52873.994477033615,-465.0218432759591,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2022000, 'default': {'kl': 0.012791547924280167, 'policy_loss': -0.15119294822216034, 'vf_loss': 91.59104919433594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9904253482818604, 'entropy': 4.860795021057129, 'cur_lr': 4.999999873689376e-05, 'total_loss': 91.45928192138672}, 'load_time_ms': 0.695, 'num_steps_sampled': 2022000, 'grad_time_ms': 705.09, 'update_time_ms': 2.182, 'sample_time_ms': 33874.914}",2025-08-31_06-52-07,cda-server-4,34.75268220901489,10110,1756615927,10.157.146.4,False,52873.994477033615,1200
+1686,-619.7271519723179,1686,2023200,{},-793.0394977829762,2023200,0,52908.20432186127,-465.0218432759591,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2023200, 'default': {'kl': 0.010851586237549782, 'policy_loss': -0.14978832006454468, 'vf_loss': 239.98866271972656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.969939649105072, 'entropy': 5.090696334838867, 'cur_lr': 4.999999873689376e-05, 'total_loss': 239.85536193847656}, 'load_time_ms': 0.679, 'num_steps_sampled': 2023200, 'grad_time_ms': 714.745, 'update_time_ms': 2.171, 'sample_time_ms': 33818.278}",2025-08-31_06-52-41,cda-server-4,34.20984482765198,10116,1756615961,10.157.146.4,False,52908.20432186127,1200
+1687,-619.6108299469881,1687,2024400,{},-793.0394977829762,2024400,0,52942.95327568054,-465.0218432759591,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2024400, 'default': {'kl': 0.009726913645863533, 'policy_loss': -0.12321220338344574, 'vf_loss': 199.43753051757812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9762829542160034, 'entropy': 4.9759111404418945, 'cur_lr': 4.999999873689376e-05, 'total_loss': 199.32908630371094}, 'load_time_ms': 0.641, 'num_steps_sampled': 2024400, 'grad_time_ms': 712.712, 'update_time_ms': 2.163, 'sample_time_ms': 33805.678}",2025-08-31_06-53-16,cda-server-4,34.7489538192749,10122,1756615996,10.157.146.4,False,52942.95327568054,1200
+1688,-619.6323704954443,1688,2025600,{},-793.0394977829762,2025600,0,52977.674667835236,-465.0218432759591,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2025600, 'default': {'kl': 0.011474071070551872, 'policy_loss': -0.14127594232559204, 'vf_loss': 137.97532653808594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9917858839035034, 'entropy': 5.027894496917725, 'cur_lr': 4.999999873689376e-05, 'total_loss': 137.8514862060547}, 'load_time_ms': 0.63, 'num_steps_sampled': 2025600, 'grad_time_ms': 716.687, 'update_time_ms': 2.119, 'sample_time_ms': 33911.302}",2025-08-31_06-53-50,cda-server-4,34.7213921546936,10128,1756616030,10.157.146.4,False,52977.674667835236,1200
+1689,-619.3353719873356,1689,2026800,{},-793.0394977829762,2026800,0,53011.65207743645,-465.0218432759591,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2026800, 'default': {'kl': 0.010153726674616337, 'policy_loss': -0.13621002435684204, 'vf_loss': 176.1688690185547, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9794789552688599, 'entropy': 4.997603893280029, 'cur_lr': 4.999999873689376e-05, 'total_loss': 176.0480499267578}, 'load_time_ms': 0.63, 'num_steps_sampled': 2026800, 'grad_time_ms': 724.381, 'update_time_ms': 2.074, 'sample_time_ms': 33802.043}",2025-08-31_06-54-24,cda-server-4,33.97740960121155,10134,1756616064,10.157.146.4,False,53011.65207743645,1200
+1690,-619.9011299266722,1690,2028000,{},-793.0394977829762,2028000,0,53046.3041369915,-465.0218432759591,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2028000, 'default': {'kl': 0.008561825379729271, 'policy_loss': -0.0968320369720459, 'vf_loss': 292.2956237792969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9536924362182617, 'entropy': 4.780170917510986, 'cur_lr': 4.999999873689376e-05, 'total_loss': 292.2117919921875}, 'load_time_ms': 0.607, 'num_steps_sampled': 2028000, 'grad_time_ms': 727.515, 'update_time_ms': 2.139, 'sample_time_ms': 33792.302}",2025-08-31_06-54-59,cda-server-4,34.65205955505371,10140,1756616099,10.157.146.4,False,53046.3041369915,1200
+1691,-619.0657026329212,1691,2029200,{},-793.0394977829762,2029200,0,53080.91663646698,-465.0218432759591,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2029200, 'default': {'kl': 0.010772719979286194, 'policy_loss': -0.13875868916511536, 'vf_loss': 428.7481689453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9781250357627869, 'entropy': 4.876240253448486, 'cur_lr': 4.999999873689376e-05, 'total_loss': 428.6257629394531}, 'load_time_ms': 0.607, 'num_steps_sampled': 2029200, 'grad_time_ms': 725.28, 'update_time_ms': 2.171, 'sample_time_ms': 33774.169}",2025-08-31_06-55-34,cda-server-4,34.612499475479126,10146,1756616134,10.157.146.4,False,53080.91663646698,1200
+1692,-617.6495876935378,1692,2030400,{},-793.0394977829762,2030400,0,53114.91012573242,-465.0218432759591,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2030400, 'default': {'kl': 0.012496139854192734, 'policy_loss': -0.1547681838274002, 'vf_loss': 80.02322387695312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9894106984138489, 'entropy': 4.941890239715576, 'cur_lr': 4.999999873689376e-05, 'total_loss': 79.88743591308594}, 'load_time_ms': 0.603, 'num_steps_sampled': 2030400, 'grad_time_ms': 711.265, 'update_time_ms': 2.158, 'sample_time_ms': 33814.247}",2025-08-31_06-56-08,cda-server-4,33.993489265441895,10152,1756616168,10.157.146.4,False,53114.91012573242,1200
+1693,-616.7954442869666,1693,2031600,{},-793.0394977829762,2031600,0,53149.00225996971,-465.0218432759591,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2031600, 'default': {'kl': 0.01076548546552658, 'policy_loss': -0.14214807748794556, 'vf_loss': 53.64493942260742, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9932664036750793, 'entropy': 4.945014476776123, 'cur_lr': 4.999999873689376e-05, 'total_loss': 53.519142150878906}, 'load_time_ms': 0.587, 'num_steps_sampled': 2031600, 'grad_time_ms': 698.869, 'update_time_ms': 2.194, 'sample_time_ms': 33762.527}",2025-08-31_06-56-42,cda-server-4,34.09213423728943,10158,1756616202,10.157.146.4,False,53149.00225996971,1200
+1694,-617.4994376583792,1694,2032800,{},-793.0394977829762,2032800,0,53183.370099544525,-536.4069171498451,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2032800, 'default': {'kl': 0.00892555434256792, 'policy_loss': -0.12974077463150024, 'vf_loss': 245.40945434570312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9697847366333008, 'entropy': 4.954230308532715, 'cur_lr': 4.999999873689376e-05, 'total_loss': 245.29327392578125}, 'load_time_ms': 0.582, 'num_steps_sampled': 2032800, 'grad_time_ms': 685.659, 'update_time_ms': 2.144, 'sample_time_ms': 33720.661}",2025-08-31_06-57-16,cda-server-4,34.36783957481384,10164,1756616236,10.157.146.4,False,53183.370099544525,1200
+1695,-615.818644155466,1695,2034000,{},-691.5023583273774,2034000,0,53218.91529369354,-536.4069171498451,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2034000, 'default': {'kl': 0.011262006126344204, 'policy_loss': -0.14429765939712524, 'vf_loss': 118.72003936767578, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9860067367553711, 'entropy': 5.048254489898682, 'cur_lr': 4.999999873689376e-05, 'total_loss': 118.59284210205078}, 'load_time_ms': 0.581, 'num_steps_sampled': 2034000, 'grad_time_ms': 677.992, 'update_time_ms': 2.166, 'sample_time_ms': 33807.469}",2025-08-31_06-57-52,cda-server-4,35.545194149017334,10170,1756616272,10.157.146.4,False,53218.91529369354,1200
+1696,-614.795179637807,1696,2035200,{},-691.5023583273774,2035200,0,53252.90548610687,-536.4069171498451,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2035200, 'default': {'kl': 0.010871674865484238, 'policy_loss': -0.13808327913284302, 'vf_loss': 113.62274932861328, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.98665851354599, 'entropy': 4.794201374053955, 'cur_lr': 4.999999873689376e-05, 'total_loss': 113.50117492675781}, 'load_time_ms': 0.582, 'num_steps_sampled': 2035200, 'grad_time_ms': 672.864, 'update_time_ms': 2.186, 'sample_time_ms': 33790.646}",2025-08-31_06-58-26,cda-server-4,33.99019241333008,10176,1756616306,10.157.146.4,False,53252.90548610687,1200
+1697,-613.8824418974637,1697,2036400,{},-691.5023583273774,2036400,0,53287.035059690475,-536.4069171498451,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2036400, 'default': {'kl': 0.009164048358798027, 'policy_loss': -0.12025030702352524, 'vf_loss': 218.57864379882812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9692294597625732, 'entropy': 4.744017601013184, 'cur_lr': 4.999999873689376e-05, 'total_loss': 218.4723358154297}, 'load_time_ms': 0.585, 'num_steps_sampled': 2036400, 'grad_time_ms': 675.981, 'update_time_ms': 2.225, 'sample_time_ms': 33725.491}",2025-08-31_06-59-00,cda-server-4,34.129573583602905,10182,1756616340,10.157.146.4,False,53287.035059690475,1200
+1698,-614.6507541654237,1698,2037600,{},-691.5023583273774,2037600,0,53322.025451660156,-536.4069171498451,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2037600, 'default': {'kl': 0.00893571600317955, 'policy_loss': -0.12274793535470963, 'vf_loss': 397.08880615234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9483805894851685, 'entropy': 5.232900142669678, 'cur_lr': 4.999999873689376e-05, 'total_loss': 396.9796142578125}, 'load_time_ms': 0.6, 'num_steps_sampled': 2037600, 'grad_time_ms': 679.407, 'update_time_ms': 2.311, 'sample_time_ms': 33748.847}",2025-08-31_06-59-35,cda-server-4,34.990391969680786,10188,1756616375,10.157.146.4,False,53322.025451660156,1200
+1699,-612.3756847807521,1699,2038800,{},-691.5023583273774,2038800,0,53356.4388384819,-478.9133142248239,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2038800, 'default': {'kl': 0.011959116905927658, 'policy_loss': -0.153781920671463, 'vf_loss': 478.43365478515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9647825956344604, 'entropy': 5.212043762207031, 'cur_lr': 4.999999873689376e-05, 'total_loss': 478.2979736328125}, 'load_time_ms': 0.61, 'num_steps_sampled': 2038800, 'grad_time_ms': 685.213, 'update_time_ms': 2.447, 'sample_time_ms': 33786.473}",2025-08-31_07-00-09,cda-server-4,34.413386821746826,10194,1756616409,10.157.146.4,False,53356.4388384819,1200
+1700,-610.2064967690443,1700,2040000,{},-678.1985483653367,2040000,0,53390.36984395981,-478.9133142248239,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2040000, 'default': {'kl': 0.012680270709097385, 'policy_loss': -0.15886299312114716, 'vf_loss': 133.20285034179688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9835491180419922, 'entropy': 4.857030391693115, 'cur_lr': 4.999999873689376e-05, 'total_loss': 133.06324768066406}, 'load_time_ms': 0.601, 'num_steps_sampled': 2040000, 'grad_time_ms': 687.455, 'update_time_ms': 2.481, 'sample_time_ms': 33712.09}",2025-08-31_07-00-43,cda-server-4,33.93100547790527,10200,1756616443,10.157.146.4,False,53390.36984395981,1200
+1701,-610.5646813374074,1701,2041200,{},-678.1985483653367,2041200,0,53424.8918838501,-478.9133142248239,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2041200, 'default': {'kl': 0.011436969973146915, 'policy_loss': -0.1480841487646103, 'vf_loss': 490.2523193359375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9678388237953186, 'entropy': 4.919393539428711, 'cur_lr': 4.999999873689376e-05, 'total_loss': 490.12164306640625}, 'load_time_ms': 0.638, 'num_steps_sampled': 2041200, 'grad_time_ms': 689.547, 'update_time_ms': 2.482, 'sample_time_ms': 33700.866}",2025-08-31_07-01-18,cda-server-4,34.52203989028931,10206,1756616478,10.157.146.4,False,53424.8918838501,1200
+1702,-610.708400670237,1702,2042400,{},-678.1985483653367,2042400,0,53460.07203388214,-478.9133142248239,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2042400, 'default': {'kl': 0.011004188098013401, 'policy_loss': -0.14953333139419556, 'vf_loss': 59.04638671875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9940049052238464, 'entropy': 4.80067253112793, 'cur_lr': 4.999999873689376e-05, 'total_loss': 58.91356658935547}, 'load_time_ms': 0.65, 'num_steps_sampled': 2042400, 'grad_time_ms': 701.983, 'update_time_ms': 2.504, 'sample_time_ms': 33807.039}",2025-08-31_07-01-53,cda-server-4,35.18015003204346,10212,1756616513,10.157.146.4,False,53460.07203388214,1200
+1703,-611.104715260594,1703,2043600,{},-678.1985483653367,2043600,0,53494.22133231163,-478.9133142248239,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2043600, 'default': {'kl': 0.008863004855811596, 'policy_loss': -0.1336255669593811, 'vf_loss': 252.3473358154297, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9865826368331909, 'entropy': 4.8456807136535645, 'cur_lr': 4.999999873689376e-05, 'total_loss': 252.22715759277344}, 'load_time_ms': 0.656, 'num_steps_sampled': 2043600, 'grad_time_ms': 715.423, 'update_time_ms': 2.533, 'sample_time_ms': 33799.172}",2025-08-31_07-02-27,cda-server-4,34.149298429489136,10218,1756616547,10.157.146.4,False,53494.22133231163,1200
+1704,-610.5563471623312,1704,2044800,{},-678.1985483653367,2044800,0,53528.238775491714,-478.9133142248239,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2044800, 'default': {'kl': 0.010009584948420525, 'policy_loss': -0.13438136875629425, 'vf_loss': 34.49742889404297, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9973803758621216, 'entropy': 4.798284530639648, 'cur_lr': 4.999999873689376e-05, 'total_loss': 34.37825012207031}, 'load_time_ms': 0.656, 'num_steps_sampled': 2044800, 'grad_time_ms': 729.853, 'update_time_ms': 2.602, 'sample_time_ms': 33749.633}",2025-08-31_07-03-01,cda-server-4,34.01744318008423,10224,1756616581,10.157.146.4,False,53528.238775491714,1200
+1705,-610.2029047769565,1705,2046000,{},-678.1985483653367,2046000,0,53563.02075791359,-478.9133142248239,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2046000, 'default': {'kl': 0.009198030456900597, 'policy_loss': -0.11877962946891785, 'vf_loss': 325.3170471191406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9594234824180603, 'entropy': 4.942877769470215, 'cur_lr': 4.999999873689376e-05, 'total_loss': 325.2122802734375}, 'load_time_ms': 0.656, 'num_steps_sampled': 2046000, 'grad_time_ms': 738.938, 'update_time_ms': 2.579, 'sample_time_ms': 33664.402}",2025-08-31_07-03-36,cda-server-4,34.781982421875,10230,1756616616,10.157.146.4,False,53563.02075791359,1200
+1706,-611.2695239220373,1706,2047200,{},-782.1305054738026,2047200,0,53597.50739240646,-478.9133142248239,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2047200, 'default': {'kl': 0.01332436129450798, 'policy_loss': -0.14167283475399017, 'vf_loss': 779.742919921875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9395487308502197, 'entropy': 4.98604154586792, 'cur_lr': 4.999999873689376e-05, 'total_loss': 779.6215209960938}, 'load_time_ms': 0.647, 'num_steps_sampled': 2047200, 'grad_time_ms': 745.977, 'update_time_ms': 2.529, 'sample_time_ms': 33706.913}",2025-08-31_07-04-11,cda-server-4,34.486634492874146,10236,1756616651,10.157.146.4,False,53597.50739240646,1200
+1707,-610.9167537505214,1707,2048400,{},-782.1305054738026,2048400,0,53631.13800024986,-478.9133142248239,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2048400, 'default': {'kl': 0.010325565002858639, 'policy_loss': -0.14628589153289795, 'vf_loss': 282.4489440917969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9776241779327393, 'entropy': 4.937375545501709, 'cur_lr': 4.999999873689376e-05, 'total_loss': 282.318359375}, 'load_time_ms': 0.65, 'num_steps_sampled': 2048400, 'grad_time_ms': 736.695, 'update_time_ms': 2.485, 'sample_time_ms': 33666.38}",2025-08-31_07-04-44,cda-server-4,33.63060784339905,10242,1756616684,10.157.146.4,False,53631.13800024986,1200
+1708,-611.3644880808615,1708,2049600,{},-782.1305054738026,2049600,0,53665.348118543625,-478.9133142248239,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2049600, 'default': {'kl': 0.010000471957027912, 'policy_loss': -0.14102134108543396, 'vf_loss': 220.07339477539062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.974207878112793, 'entropy': 5.001544952392578, 'cur_lr': 4.999999873689376e-05, 'total_loss': 219.94757080078125}, 'load_time_ms': 0.644, 'num_steps_sampled': 2049600, 'grad_time_ms': 721.807, 'update_time_ms': 2.438, 'sample_time_ms': 33603.367}",2025-08-31_07-05-18,cda-server-4,34.21011829376221,10248,1756616718,10.157.146.4,False,53665.348118543625,1200
+1709,-609.7150327197755,1709,2050800,{},-782.1305054738026,2050800,0,53699.56790328026,-459.75305454191744,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2050800, 'default': {'kl': 0.010187370702624321, 'policy_loss': -0.1415640413761139, 'vf_loss': 554.7219848632812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9487688541412354, 'entropy': 4.860780715942383, 'cur_lr': 4.999999873689376e-05, 'total_loss': 554.595947265625}, 'load_time_ms': 0.645, 'num_steps_sampled': 2050800, 'grad_time_ms': 709.324, 'update_time_ms': 2.294, 'sample_time_ms': 33596.617}",2025-08-31_07-05-53,cda-server-4,34.2197847366333,10254,1756616753,10.157.146.4,False,53699.56790328026,1200
+1710,-608.2682407904008,1710,2052000,{},-782.1305054738026,2052000,0,53734.31048774719,-459.75305454191744,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2052000, 'default': {'kl': 0.011317117139697075, 'policy_loss': -0.141681507229805, 'vf_loss': 105.54122161865234, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.991678774356842, 'entropy': 4.786422252655029, 'cur_lr': 4.999999873689376e-05, 'total_loss': 105.41671752929688}, 'load_time_ms': 0.673, 'num_steps_sampled': 2052000, 'grad_time_ms': 705.837, 'update_time_ms': 2.269, 'sample_time_ms': 33681.261}",2025-08-31_07-06-27,cda-server-4,34.742584466934204,10260,1756616787,10.157.146.4,False,53734.31048774719,1200
+1711,-609.2712777909771,1711,2053200,{},-782.1305054738026,2053200,0,53768.87493824959,-459.75305454191744,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2053200, 'default': {'kl': 0.009432639926671982, 'policy_loss': -0.12982811033725739, 'vf_loss': 546.0050048828125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9284377694129944, 'entropy': 5.183053493499756, 'cur_lr': 4.999999873689376e-05, 'total_loss': 545.8895263671875}, 'load_time_ms': 0.64, 'num_steps_sampled': 2053200, 'grad_time_ms': 706.227, 'update_time_ms': 2.335, 'sample_time_ms': 33685.06}",2025-08-31_07-07-02,cda-server-4,34.56445050239563,10266,1756616822,10.157.146.4,False,53768.87493824959,1200
+1712,-610.8971664701705,1712,2054400,{},-783.0309961956513,2054400,0,53803.25169253349,-459.75305454191744,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2054400, 'default': {'kl': 0.011408623307943344, 'policy_loss': -0.12572576105594635, 'vf_loss': 404.8343505859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9677822589874268, 'entropy': 5.094503402709961, 'cur_lr': 4.999999873689376e-05, 'total_loss': 404.7259521484375}, 'load_time_ms': 0.639, 'num_steps_sampled': 2054400, 'grad_time_ms': 707.333, 'update_time_ms': 2.364, 'sample_time_ms': 33603.568}",2025-08-31_07-07-36,cda-server-4,34.37675428390503,10272,1756616856,10.157.146.4,False,53803.25169253349,1200
+1713,-610.5930359601575,1713,2055600,{},-783.0309961956513,2055600,0,53837.7826294899,-459.75305454191744,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2055600, 'default': {'kl': 0.011606751941144466, 'policy_loss': -0.15515974164009094, 'vf_loss': 501.87005615234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9756118059158325, 'entropy': 4.943633079528809, 'cur_lr': 4.999999873689376e-05, 'total_loss': 501.7325439453125}, 'load_time_ms': 0.634, 'num_steps_sampled': 2055600, 'grad_time_ms': 708.87, 'update_time_ms': 2.329, 'sample_time_ms': 33640.3}",2025-08-31_07-08-11,cda-server-4,34.53093695640564,10278,1756616891,10.157.146.4,False,53837.7826294899,1200
+1714,-610.69808580341,1714,2056800,{},-783.0309961956513,2056800,0,53871.80068349838,-459.75305454191744,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2056800, 'default': {'kl': 0.010495968163013458, 'policy_loss': -0.12299387902021408, 'vf_loss': 106.96696472167969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9859910607337952, 'entropy': 4.967864036560059, 'cur_lr': 4.999999873689376e-05, 'total_loss': 106.85990905761719}, 'load_time_ms': 0.657, 'num_steps_sampled': 2056800, 'grad_time_ms': 702.036, 'update_time_ms': 2.346, 'sample_time_ms': 33647.149}",2025-08-31_07-08-45,cda-server-4,34.01805400848389,10284,1756616925,10.157.146.4,False,53871.80068349838,1200
+1715,-609.800960511091,1715,2058000,{},-783.0309961956513,2058000,0,53906.336486816406,-459.75305454191744,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2058000, 'default': {'kl': 0.009784695692360401, 'policy_loss': -0.14206010103225708, 'vf_loss': 186.16419982910156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9767305850982666, 'entropy': 4.9478020668029785, 'cur_lr': 4.999999873689376e-05, 'total_loss': 186.03700256347656}, 'load_time_ms': 0.657, 'num_steps_sampled': 2058000, 'grad_time_ms': 699.205, 'update_time_ms': 2.388, 'sample_time_ms': 33625.246}",2025-08-31_07-09-20,cda-server-4,34.53580331802368,10290,1756616960,10.157.146.4,False,53906.336486816406,1200
+1716,-613.0105475353956,1716,2059200,{},-783.0309961956513,2059200,0,53940.79608154297,-459.75305454191744,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2059200, 'default': {'kl': 0.010988103225827217, 'policy_loss': -0.1435934454202652, 'vf_loss': 300.2253112792969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9688977003097534, 'entropy': 4.943446159362793, 'cur_lr': 4.999999873689376e-05, 'total_loss': 300.098388671875}, 'load_time_ms': 0.662, 'num_steps_sampled': 2059200, 'grad_time_ms': 698.099, 'update_time_ms': 2.396, 'sample_time_ms': 33623.733}",2025-08-31_07-09-54,cda-server-4,34.4595947265625,10296,1756616994,10.157.146.4,False,53940.79608154297,1200
+1717,-612.734336677585,1717,2060400,{},-783.0309961956513,2060400,0,53975.15676140785,-459.75305454191744,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2060400, 'default': {'kl': 0.010279483161866665, 'policy_loss': -0.14504101872444153, 'vf_loss': 150.80810546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9848321080207825, 'entropy': 4.754672050476074, 'cur_lr': 4.999999873689376e-05, 'total_loss': 150.67868041992188}, 'load_time_ms': 0.651, 'num_steps_sampled': 2060400, 'grad_time_ms': 704.29, 'update_time_ms': 2.446, 'sample_time_ms': 33690.498}",2025-08-31_07-10-28,cda-server-4,34.36067986488342,10302,1756617028,10.157.146.4,False,53975.15676140785,1200
+1718,-613.958702619163,1718,2061600,{},-783.0309961956513,2061600,0,54009.4293012619,-459.75305454191744,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2061600, 'default': {'kl': 0.011747592128813267, 'policy_loss': -0.14973287284374237, 'vf_loss': 152.50201416015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9799321293830872, 'entropy': 4.99779748916626, 'cur_lr': 4.999999873689376e-05, 'total_loss': 152.37014770507812}, 'load_time_ms': 0.647, 'num_steps_sampled': 2061600, 'grad_time_ms': 741.635, 'update_time_ms': 2.438, 'sample_time_ms': 33659.206}",2025-08-31_07-11-03,cda-server-4,34.27253985404968,10308,1756617063,10.157.146.4,False,54009.4293012619,1200
+1719,-612.9986588390391,1719,2062800,{},-783.0309961956513,2062800,0,54044.77165532112,-459.75305454191744,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2062800, 'default': {'kl': 0.012340313754975796, 'policy_loss': -0.17004133760929108, 'vf_loss': 230.3995819091797, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9764232635498047, 'entropy': 5.097055912017822, 'cur_lr': 4.999999873689376e-05, 'total_loss': 230.248291015625}, 'load_time_ms': 0.644, 'num_steps_sampled': 2062800, 'grad_time_ms': 751.975, 'update_time_ms': 2.767, 'sample_time_ms': 33760.807}",2025-08-31_07-11-38,cda-server-4,35.34235405921936,10314,1756617098,10.157.146.4,False,54044.77165532112,1200
+1720,-613.0536216410582,1720,2064000,{},-783.0309961956513,2064000,0,54079.19030380249,-459.75305454191744,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2064000, 'default': {'kl': 0.01100863330066204, 'policy_loss': -0.1268150508403778, 'vf_loss': 195.43313598632812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.981891393661499, 'entropy': 4.818365097045898, 'cur_lr': 4.999999873689376e-05, 'total_loss': 195.32302856445312}, 'load_time_ms': 0.625, 'num_steps_sampled': 2064000, 'grad_time_ms': 756.761, 'update_time_ms': 2.749, 'sample_time_ms': 33723.607}",2025-08-31_07-12-12,cda-server-4,34.41864848136902,10320,1756617132,10.157.146.4,False,54079.19030380249,1200
+1721,-612.7797065741775,1721,2065200,{},-783.0309961956513,2065200,0,54112.9291601181,-459.75305454191744,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2065200, 'default': {'kl': 0.012525934725999832, 'policy_loss': -0.1678391695022583, 'vf_loss': 247.52325439453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9864904880523682, 'entropy': 4.9852166175842285, 'cur_lr': 4.999999873689376e-05, 'total_loss': 247.37445068359375}, 'load_time_ms': 0.622, 'num_steps_sampled': 2065200, 'grad_time_ms': 757.339, 'update_time_ms': 2.661, 'sample_time_ms': 33640.564}",2025-08-31_07-12-46,cda-server-4,33.73885631561279,10326,1756617166,10.157.146.4,False,54112.9291601181,1200
+1722,-611.1959399478839,1722,2066400,{},-783.0309961956513,2066400,0,54146.44526910782,-459.75305454191744,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2066400, 'default': {'kl': 0.01074863038957119, 'policy_loss': -0.14955714344978333, 'vf_loss': 135.83352661132812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9852421879768372, 'entropy': 4.704469680786133, 'cur_lr': 4.999999873689376e-05, 'total_loss': 135.70028686523438}, 'load_time_ms': 0.614, 'num_steps_sampled': 2066400, 'grad_time_ms': 751.199, 'update_time_ms': 2.658, 'sample_time_ms': 33560.719}",2025-08-31_07-13-20,cda-server-4,33.516108989715576,10332,1756617200,10.157.146.4,False,54146.44526910782,1200
+1723,-610.7417420432978,1723,2067600,{},-783.0309961956513,2067600,0,54180.92145514488,-459.75305454191744,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2067600, 'default': {'kl': 0.010314841754734516, 'policy_loss': -0.14399658143520355, 'vf_loss': 164.70318603515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9795433878898621, 'entropy': 4.915503025054932, 'cur_lr': 4.999999873689376e-05, 'total_loss': 164.57485961914062}, 'load_time_ms': 0.624, 'num_steps_sampled': 2067600, 'grad_time_ms': 725.798, 'update_time_ms': 2.613, 'sample_time_ms': 33580.704}",2025-08-31_07-13-54,cda-server-4,34.4761860370636,10338,1756617234,10.157.146.4,False,54180.92145514488,1200
+1724,-609.2604052411187,1724,2068800,{},-783.0309961956513,2068800,0,54215.18258571625,-459.75305454191744,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2068800, 'default': {'kl': 0.011207150295376778, 'policy_loss': -0.14646945893764496, 'vf_loss': 300.2767333984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9788536429405212, 'entropy': 4.945768356323242, 'cur_lr': 4.999999873689376e-05, 'total_loss': 300.14727783203125}, 'load_time_ms': 0.6, 'num_steps_sampled': 2068800, 'grad_time_ms': 705.818, 'update_time_ms': 2.56, 'sample_time_ms': 33625.106}",2025-08-31_07-14-29,cda-server-4,34.261130571365356,10344,1756617269,10.157.146.4,False,54215.18258571625,1200
+1725,-609.029279575786,1725,2070000,{},-783.0309961956513,2070000,0,54249.22481417656,-459.75305454191744,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2070000, 'default': {'kl': 0.013031672686338425, 'policy_loss': -0.13400892913341522, 'vf_loss': 341.5743408203125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9680569171905518, 'entropy': 4.717405319213867, 'cur_lr': 4.999999873689376e-05, 'total_loss': 341.4601135253906}, 'load_time_ms': 0.602, 'num_steps_sampled': 2070000, 'grad_time_ms': 692.366, 'update_time_ms': 2.484, 'sample_time_ms': 33589.317}",2025-08-31_07-15-03,cda-server-4,34.04222846031189,10350,1756617303,10.157.146.4,False,54249.22481417656,1200
+1726,-610.9408772964442,1726,2071200,{},-783.0309961956513,2071200,0,54283.6523501873,-459.8629667694844,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2071200, 'default': {'kl': 0.010619509033858776, 'policy_loss': -0.15536409616470337, 'vf_loss': 179.06906127929688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.978158712387085, 'entropy': 4.85425329208374, 'cur_lr': 4.999999873689376e-05, 'total_loss': 178.92982482910156}, 'load_time_ms': 0.632, 'num_steps_sampled': 2071200, 'grad_time_ms': 694.14, 'update_time_ms': 2.458, 'sample_time_ms': 33584.341}",2025-08-31_07-15-37,cda-server-4,34.42753601074219,10356,1756617337,10.157.146.4,False,54283.6523501873,1200
+1727,-614.4805484317444,1727,2072400,{},-795.9160042379128,2072400,0,54319.08363986015,-464.55841852198137,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2072400, 'default': {'kl': 0.012134389951825142, 'policy_loss': -0.12853485345840454, 'vf_loss': 1412.5086669921875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8389018177986145, 'entropy': 5.047088146209717, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1412.3985595703125}, 'load_time_ms': 0.633, 'num_steps_sampled': 2072400, 'grad_time_ms': 693.56, 'update_time_ms': 2.375, 'sample_time_ms': 33692.122}",2025-08-31_07-16-12,cda-server-4,35.43128967285156,10362,1756617372,10.157.146.4,False,54319.08363986015,1200
+1728,-613.9971502129504,1728,2073600,{},-796.3062159480977,2073600,0,54353.45923137665,-464.55841852198137,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2073600, 'default': {'kl': 0.011029114946722984, 'policy_loss': -0.1358467936515808, 'vf_loss': 196.47943115234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9764779210090637, 'entropy': 5.240029335021973, 'cur_lr': 4.999999873689376e-05, 'total_loss': 196.36033630371094}, 'load_time_ms': 0.629, 'num_steps_sampled': 2073600, 'grad_time_ms': 654.179, 'update_time_ms': 2.354, 'sample_time_ms': 33741.982}",2025-08-31_07-16-47,cda-server-4,34.37559151649475,10368,1756617407,10.157.146.4,False,54353.45923137665,1200
+1729,-614.3163657732636,1729,2074800,{},-796.3062159480977,2074800,0,54387.566742658615,-464.55841852198137,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2074800, 'default': {'kl': 0.010343815200030804, 'policy_loss': -0.14487870037555695, 'vf_loss': 52.71162414550781, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.992666482925415, 'entropy': 4.983194351196289, 'cur_lr': 4.999999873689376e-05, 'total_loss': 52.58245849609375}, 'load_time_ms': 0.624, 'num_steps_sampled': 2074800, 'grad_time_ms': 642.833, 'update_time_ms': 2.08, 'sample_time_ms': 33630.024}",2025-08-31_07-17-21,cda-server-4,34.10751128196716,10374,1756617441,10.157.146.4,False,54387.566742658615,1200
+1730,-615.9727974897348,1730,2076000,{},-796.3062159480977,2076000,0,54422.58604502678,-464.55841852198137,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2076000, 'default': {'kl': 0.010493730194866657, 'policy_loss': -0.12117906659841537, 'vf_loss': 1086.3150634765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8910748362541199, 'entropy': 5.085280418395996, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1086.2098388671875}, 'load_time_ms': 0.618, 'num_steps_sampled': 2076000, 'grad_time_ms': 629.788, 'update_time_ms': 2.112, 'sample_time_ms': 33703.092}",2025-08-31_07-17-56,cda-server-4,35.01930236816406,10380,1756617476,10.157.146.4,False,54422.58604502678,1200
+1731,-615.4702797546147,1731,2077200,{},-796.3062159480977,2077200,0,54458.24250936508,-464.55841852198137,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2077200, 'default': {'kl': 0.009073910303413868, 'policy_loss': -0.13138194382190704, 'vf_loss': 157.89686584472656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9796735048294067, 'entropy': 4.726508617401123, 'cur_lr': 4.999999873689376e-05, 'total_loss': 157.77926635742188}, 'load_time_ms': 0.62, 'num_steps_sampled': 2077200, 'grad_time_ms': 642.92, 'update_time_ms': 2.149, 'sample_time_ms': 33881.664}",2025-08-31_07-18-32,cda-server-4,35.65646433830261,10386,1756617512,10.157.146.4,False,54458.24250936508,1200
+1732,-613.4222135246882,1732,2078400,{},-796.3062159480977,2078400,0,54492.52594947815,-464.55841852198137,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2078400, 'default': {'kl': 0.011617974378168583, 'policy_loss': -0.1560836136341095, 'vf_loss': 557.5995483398438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9343885779380798, 'entropy': 4.955870628356934, 'cur_lr': 4.999999873689376e-05, 'total_loss': 557.4611206054688}, 'load_time_ms': 0.619, 'num_steps_sampled': 2078400, 'grad_time_ms': 646.752, 'update_time_ms': 2.078, 'sample_time_ms': 33954.526}",2025-08-31_07-19-06,cda-server-4,34.28344011306763,10392,1756617546,10.157.146.4,False,54492.52594947815,1200
+1733,-614.3427444979909,1733,2079600,{},-796.3062159480977,2079600,0,54526.14533805847,-464.55841852198137,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2079600, 'default': {'kl': 0.00891808606684208, 'policy_loss': -0.12540608644485474, 'vf_loss': 155.5086212158203, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9764086604118347, 'entropy': 4.990212440490723, 'cur_lr': 4.999999873689376e-05, 'total_loss': 155.3967742919922}, 'load_time_ms': 0.618, 'num_steps_sampled': 2079600, 'grad_time_ms': 658.117, 'update_time_ms': 2.136, 'sample_time_ms': 33857.411}",2025-08-31_07-19-40,cda-server-4,33.619388580322266,10398,1756617580,10.157.146.4,False,54526.14533805847,1200
+1734,-614.5397020067904,1734,2080800,{},-796.3062159480977,2080800,0,54561.28718161583,-464.55841852198137,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2080800, 'default': {'kl': 0.013130038976669312, 'policy_loss': -0.1612328737974167, 'vf_loss': 1300.24462890625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9030281901359558, 'entropy': 5.058753967285156, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1300.1031494140625}, 'load_time_ms': 0.629, 'num_steps_sampled': 2080800, 'grad_time_ms': 662.928, 'update_time_ms': 2.146, 'sample_time_ms': 33940.567}",2025-08-31_07-20-15,cda-server-4,35.14184355735779,10404,1756617615,10.157.146.4,False,54561.28718161583,1200
+1735,-613.7144057167242,1735,2082000,{},-796.3062159480977,2082000,0,54596.49118280411,-464.55841852198137,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2082000, 'default': {'kl': 0.011810164898633957, 'policy_loss': -0.14953382313251495, 'vf_loss': 192.12625122070312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9809852242469788, 'entropy': 4.726559638977051, 'cur_lr': 4.999999873689376e-05, 'total_loss': 191.99462890625}, 'load_time_ms': 0.66, 'num_steps_sampled': 2082000, 'grad_time_ms': 667.343, 'update_time_ms': 2.214, 'sample_time_ms': 34052.149}",2025-08-31_07-20-50,cda-server-4,35.2040011882782,10410,1756617650,10.157.146.4,False,54596.49118280411,1200
+1736,-615.9832319338817,1736,2083200,{},-796.3062159480977,2083200,0,54630.503390312195,-465.63036817658406,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2083200, 'default': {'kl': 0.013800247572362423, 'policy_loss': -0.13818329572677612, 'vf_loss': 1405.714599609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9644694924354553, 'entropy': 5.076314926147461, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1405.597412109375}, 'load_time_ms': 0.663, 'num_steps_sampled': 2083200, 'grad_time_ms': 662.521, 'update_time_ms': 2.254, 'sample_time_ms': 34015.363}",2025-08-31_07-21-24,cda-server-4,34.01220750808716,10416,1756617684,10.157.146.4,False,54630.503390312195,1200
+1737,-616.5171498797645,1737,2084400,{},-796.3062159480977,2084400,0,54664.740300655365,-465.63036817658406,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2084400, 'default': {'kl': 0.01105243805795908, 'policy_loss': -0.1447530835866928, 'vf_loss': 125.89822387695312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9888948798179626, 'entropy': 4.917856216430664, 'cur_lr': 4.999999873689376e-05, 'total_loss': 125.770263671875}, 'load_time_ms': 0.682, 'num_steps_sampled': 2084400, 'grad_time_ms': 637.449, 'update_time_ms': 2.355, 'sample_time_ms': 33920.728}",2025-08-31_07-21-58,cda-server-4,34.236910343170166,10422,1756617718,10.157.146.4,False,54664.740300655365,1200
+1738,-618.2138671719554,1738,2085600,{},-796.3062159480977,2085600,0,54698.77162671089,-465.63036817658406,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2085600, 'default': {'kl': 0.012854663655161858, 'policy_loss': -0.17770129442214966, 'vf_loss': 486.6701965332031, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9638810753822327, 'entropy': 5.093103408813477, 'cur_lr': 4.999999873689376e-05, 'total_loss': 486.5120544433594}, 'load_time_ms': 0.683, 'num_steps_sampled': 2085600, 'grad_time_ms': 635.426, 'update_time_ms': 2.37, 'sample_time_ms': 33888.37}",2025-08-31_07-22-32,cda-server-4,34.03132605552673,10428,1756617752,10.157.146.4,False,54698.77162671089,1200
+1739,-619.996438604192,1739,2086800,{},-796.3062159480977,2086800,0,54733.06372833252,-465.63036817658406,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2086800, 'default': {'kl': 0.00872110016644001, 'policy_loss': -0.13008037209510803, 'vf_loss': 687.0316162109375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8891108632087708, 'entropy': 5.1484198570251465, 'cur_lr': 4.999999873689376e-05, 'total_loss': 686.914794921875}, 'load_time_ms': 0.679, 'num_steps_sampled': 2086800, 'grad_time_ms': 638.9, 'update_time_ms': 2.305, 'sample_time_ms': 33903.524}",2025-08-31_07-23-07,cda-server-4,34.29210162162781,10434,1756617787,10.157.146.4,False,54733.06372833252,1200
+1740,-621.9990525767148,1740,2088000,{},-796.3062159480977,2088000,0,54766.79846858978,-545.1535824195179,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2088000, 'default': {'kl': 0.010050108656287193, 'policy_loss': -0.14070647954940796, 'vf_loss': 316.768798828125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9527701139450073, 'entropy': 5.1518025398254395, 'cur_lr': 4.999999873689376e-05, 'total_loss': 316.6433410644531}, 'load_time_ms': 0.679, 'num_steps_sampled': 2088000, 'grad_time_ms': 646.351, 'update_time_ms': 2.261, 'sample_time_ms': 33767.7}",2025-08-31_07-23-40,cda-server-4,33.734740257263184,10440,1756617820,10.157.146.4,False,54766.79846858978,1200
+1741,-622.5798651708158,1741,2089200,{},-796.3062159480977,2089200,0,54801.56364226341,-545.1535824195179,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2089200, 'default': {'kl': 0.008689655922353268, 'policy_loss': -0.12548770010471344, 'vf_loss': 90.39013671875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9911109209060669, 'entropy': 4.894662857055664, 'cur_lr': 4.999999873689376e-05, 'total_loss': 90.27784729003906}, 'load_time_ms': 0.676, 'num_steps_sampled': 2089200, 'grad_time_ms': 624.478, 'update_time_ms': 2.3, 'sample_time_ms': 33700.439}",2025-08-31_07-24-15,cda-server-4,34.76517367362976,10446,1756617855,10.157.146.4,False,54801.56364226341,1200
+1742,-621.9117514973616,1742,2090400,{},-796.3062159480977,2090400,0,54836.698556900024,-545.1535824195179,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2090400, 'default': {'kl': 0.010552387684583664, 'policy_loss': -0.14384722709655762, 'vf_loss': 203.232177734375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9772728681564331, 'entropy': 4.929246425628662, 'cur_lr': 4.999999873689376e-05, 'total_loss': 203.1043701171875}, 'load_time_ms': 0.678, 'num_steps_sampled': 2090400, 'grad_time_ms': 617.075, 'update_time_ms': 2.324, 'sample_time_ms': 33793.009}",2025-08-31_07-24-50,cda-server-4,35.13491463661194,10452,1756617890,10.157.146.4,False,54836.698556900024,1200
+1743,-622.1672320066647,1743,2091600,{},-796.3062159480977,2091600,0,54871.49003362656,-545.1535824195179,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2091600, 'default': {'kl': 0.01208780612796545, 'policy_loss': -0.14854371547698975, 'vf_loss': 85.73394775390625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9937283396720886, 'entropy': 4.681037902832031, 'cur_lr': 4.999999873689376e-05, 'total_loss': 85.603759765625}, 'load_time_ms': 0.665, 'num_steps_sampled': 2091600, 'grad_time_ms': 625.544, 'update_time_ms': 2.327, 'sample_time_ms': 33901.742}",2025-08-31_07-25-25,cda-server-4,34.79147672653198,10458,1756617925,10.157.146.4,False,54871.49003362656,1200
+1744,-618.1381440162222,1744,2092800,{},-788.8328968354605,2092800,0,54904.99831914902,-545.1535824195179,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2092800, 'default': {'kl': 0.011497054249048233, 'policy_loss': -0.1402476280927658, 'vf_loss': 271.9731140136719, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9859654307365417, 'entropy': 5.068215847015381, 'cur_lr': 4.999999873689376e-05, 'total_loss': 271.8503112792969}, 'load_time_ms': 0.663, 'num_steps_sampled': 2092800, 'grad_time_ms': 640.305, 'update_time_ms': 2.329, 'sample_time_ms': 33723.676}",2025-08-31_07-25-59,cda-server-4,33.50828552246094,10464,1756617959,10.157.146.4,False,54904.99831914902,1200
+1745,-618.3308630615087,1745,2094000,{},-788.8328968354605,2094000,0,54939.679970264435,-545.1535824195179,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2094000, 'default': {'kl': 0.010476493276655674, 'policy_loss': -0.16161972284317017, 'vf_loss': 217.10580444335938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9826381206512451, 'entropy': 4.873287200927734, 'cur_lr': 4.999999873689376e-05, 'total_loss': 216.96011352539062}, 'load_time_ms': 0.629, 'num_steps_sampled': 2094000, 'grad_time_ms': 644.426, 'update_time_ms': 2.314, 'sample_time_ms': 33667.477}",2025-08-31_07-26-33,cda-server-4,34.68165111541748,10470,1756617993,10.157.146.4,False,54939.679970264435,1200
+1746,-617.9112614226666,1746,2095200,{},-788.8328968354605,2095200,0,54975.27853655815,-545.1535824195179,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2095200, 'default': {'kl': 0.011204127222299576, 'policy_loss': -0.14088964462280273, 'vf_loss': 395.3890075683594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9685277938842773, 'entropy': 5.188353538513184, 'cur_lr': 4.999999873689376e-05, 'total_loss': 395.2651062011719}, 'load_time_ms': 0.598, 'num_steps_sampled': 2095200, 'grad_time_ms': 641.872, 'update_time_ms': 2.298, 'sample_time_ms': 33828.767}",2025-08-31_07-27-09,cda-server-4,35.59856629371643,10476,1756618029,10.157.146.4,False,54975.27853655815,1200
+1747,-618.5701136353977,1747,2096400,{},-788.8328968354605,2096400,0,55009.21982860565,-545.1535824195179,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2096400, 'default': {'kl': 0.00888427160680294, 'policy_loss': -0.12477520853281021, 'vf_loss': 77.44571685791016, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.993683934211731, 'entropy': 4.716739177703857, 'cur_lr': 4.999999873689376e-05, 'total_loss': 77.33444213867188}, 'load_time_ms': 0.592, 'num_steps_sampled': 2096400, 'grad_time_ms': 659.644, 'update_time_ms': 2.245, 'sample_time_ms': 33781.513}",2025-08-31_07-27-43,cda-server-4,33.94129204750061,10482,1756618063,10.157.146.4,False,55009.21982860565,1200
+1748,-619.0131853406974,1748,2097600,{},-788.8328968354605,2097600,0,55043.36877846718,-545.1535824195179,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2097600, 'default': {'kl': 0.009484478272497654, 'policy_loss': -0.1434779316186905, 'vf_loss': 176.90939331054688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9782195687294006, 'entropy': 4.8157196044921875, 'cur_lr': 4.999999873689376e-05, 'total_loss': 176.7803192138672}, 'load_time_ms': 0.604, 'num_steps_sampled': 2097600, 'grad_time_ms': 668.722, 'update_time_ms': 2.194, 'sample_time_ms': 33784.152}",2025-08-31_07-28-17,cda-server-4,34.14894986152649,10488,1756618097,10.157.146.4,False,55043.36877846718,1200
+1749,-618.9945140978944,1749,2098800,{},-788.8328968354605,2098800,0,55077.586577415466,-585.239592622173,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2098800, 'default': {'kl': 0.010120440274477005, 'policy_loss': -0.14472784101963043, 'vf_loss': 198.279541015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9785592555999756, 'entropy': 4.9037652015686035, 'cur_lr': 4.999999873689376e-05, 'total_loss': 198.1501922607422}, 'load_time_ms': 0.608, 'num_steps_sampled': 2098800, 'grad_time_ms': 670.642, 'update_time_ms': 2.228, 'sample_time_ms': 33774.766}",2025-08-31_07-28-51,cda-server-4,34.217798948287964,10494,1756618131,10.157.146.4,False,55077.586577415466,1200
+1750,-618.7711136900409,1750,2100000,{},-788.8328968354605,2100000,0,55112.11680340767,-585.239592622173,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2100000, 'default': {'kl': 0.01049799844622612, 'policy_loss': -0.1481494903564453, 'vf_loss': 119.63693237304688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9928510189056396, 'entropy': 4.798524856567383, 'cur_lr': 4.999999873689376e-05, 'total_loss': 119.50472259521484}, 'load_time_ms': 0.603, 'num_steps_sampled': 2100000, 'grad_time_ms': 667.644, 'update_time_ms': 2.284, 'sample_time_ms': 33857.274}",2025-08-31_07-29-26,cda-server-4,34.53022599220276,10500,1756618166,10.157.146.4,False,55112.11680340767,1200
+1751,-619.1911974987042,1751,2101200,{},-788.8328968354605,2101200,0,55146.36776137352,-585.239592622173,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2101200, 'default': {'kl': 0.00846572034060955, 'policy_loss': -0.08659843355417252, 'vf_loss': 308.720458984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9765112400054932, 'entropy': 4.886989116668701, 'cur_lr': 4.999999873689376e-05, 'total_loss': 308.6466979980469}, 'load_time_ms': 0.607, 'num_steps_sampled': 2101200, 'grad_time_ms': 673.847, 'update_time_ms': 2.404, 'sample_time_ms': 33799.514}",2025-08-31_07-30-00,cda-server-4,34.25095796585083,10506,1756618200,10.157.146.4,False,55146.36776137352,1200
+1752,-620.7534187050928,1752,2102400,{},-788.8328968354605,2102400,0,55181.55363988876,-585.239592622173,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2102400, 'default': {'kl': 0.01125261839479208, 'policy_loss': -0.14885400235652924, 'vf_loss': 209.56544494628906, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9750590920448303, 'entropy': 5.118398666381836, 'cur_lr': 4.999999873689376e-05, 'total_loss': 209.4336700439453}, 'load_time_ms': 0.612, 'num_steps_sampled': 2102400, 'grad_time_ms': 683.149, 'update_time_ms': 2.464, 'sample_time_ms': 33795.244}",2025-08-31_07-30-36,cda-server-4,35.18587851524353,10512,1756618236,10.157.146.4,False,55181.55363988876,1200
+1753,-618.014616369735,1753,2103600,{},-671.5618371756566,2103600,0,55216.248354911804,-585.239592622173,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2103600, 'default': {'kl': 0.01104144100099802, 'policy_loss': -0.14305609464645386, 'vf_loss': 150.58078002929688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9759867191314697, 'entropy': 4.817807197570801, 'cur_lr': 4.999999873689376e-05, 'total_loss': 150.45449829101562}, 'load_time_ms': 0.613, 'num_steps_sampled': 2103600, 'grad_time_ms': 683.925, 'update_time_ms': 2.462, 'sample_time_ms': 33784.781}",2025-08-31_07-31-10,cda-server-4,34.69471502304077,10518,1756618270,10.157.146.4,False,55216.248354911804,1200
+1754,-619.6165724612993,1754,2104800,{},-713.4444151190861,2104800,0,55250.566417217255,-585.239592622173,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2104800, 'default': {'kl': 0.011791697703301907, 'policy_loss': -0.13767726719379425, 'vf_loss': 238.6331329345703, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9713284373283386, 'entropy': 5.309030532836914, 'cur_lr': 4.999999873689376e-05, 'total_loss': 238.5133514404297}, 'load_time_ms': 0.613, 'num_steps_sampled': 2104800, 'grad_time_ms': 684.293, 'update_time_ms': 2.46, 'sample_time_ms': 33865.387}",2025-08-31_07-31-45,cda-server-4,34.31806230545044,10524,1756618305,10.157.146.4,False,55250.566417217255,1200
+1755,-618.5231444968325,1755,2106000,{},-713.4444151190861,2106000,0,55284.89214849472,-585.239592622173,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2106000, 'default': {'kl': 0.011529411189258099, 'policy_loss': -0.1366703361272812, 'vf_loss': 79.0704574584961, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9879432320594788, 'entropy': 5.029623985290527, 'cur_lr': 4.999999873689376e-05, 'total_loss': 78.95128631591797}, 'load_time_ms': 0.625, 'num_steps_sampled': 2106000, 'grad_time_ms': 690.728, 'update_time_ms': 2.545, 'sample_time_ms': 33823.245}",2025-08-31_07-32-19,cda-server-4,34.32573127746582,10530,1756618339,10.157.146.4,False,55284.89214849472,1200
+1756,-618.0393431535106,1756,2107200,{},-713.4444151190861,2107200,0,55319.17392683029,-585.239592622173,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2107200, 'default': {'kl': 0.010661191307008266, 'policy_loss': -0.1464081108570099, 'vf_loss': 376.14129638671875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.973395049571991, 'entropy': 4.8247175216674805, 'cur_lr': 4.999999873689376e-05, 'total_loss': 376.0111083984375}, 'load_time_ms': 0.629, 'num_steps_sampled': 2107200, 'grad_time_ms': 674.192, 'update_time_ms': 2.585, 'sample_time_ms': 33708.116}",2025-08-31_07-32-53,cda-server-4,34.28177833557129,10536,1756618373,10.157.146.4,False,55319.17392683029,1200
+1757,-617.3427806544784,1757,2108400,{},-713.4444151190861,2108400,0,55353.92061972618,-585.239592622173,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2108400, 'default': {'kl': 0.008355624042451382, 'policy_loss': -0.10855332016944885, 'vf_loss': 312.9641418457031, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9679351449012756, 'entropy': 4.633808612823486, 'cur_lr': 4.999999873689376e-05, 'total_loss': 312.8682861328125}, 'load_time_ms': 0.65, 'num_steps_sampled': 2108400, 'grad_time_ms': 674.709, 'update_time_ms': 2.563, 'sample_time_ms': 33788.193}",2025-08-31_07-33-28,cda-server-4,34.74669289588928,10542,1756618408,10.157.146.4,False,55353.92061972618,1200
+1758,-617.9254675863804,1758,2109600,{},-713.4444151190861,2109600,0,55389.40009307861,-585.239592622173,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2109600, 'default': {'kl': 0.011737585999071598, 'policy_loss': -0.15555541217327118, 'vf_loss': 160.94119262695312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9866936206817627, 'entropy': 5.009252071380615, 'cur_lr': 4.999999873689376e-05, 'total_loss': 160.80343627929688}, 'load_time_ms': 0.649, 'num_steps_sampled': 2109600, 'grad_time_ms': 681.092, 'update_time_ms': 2.682, 'sample_time_ms': 33914.727}",2025-08-31_07-34-03,cda-server-4,35.47947335243225,10548,1756618443,10.157.146.4,False,55389.40009307861,1200
+1759,-617.7961327391664,1759,2110800,{},-713.4444151190861,2110800,0,55424.60210490227,-585.239592622173,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2110800, 'default': {'kl': 0.010697443969547749, 'policy_loss': -0.13742400705814362, 'vf_loss': 146.11192321777344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.984411895275116, 'entropy': 4.697253704071045, 'cur_lr': 4.999999873689376e-05, 'total_loss': 145.99073791503906}, 'load_time_ms': 0.649, 'num_steps_sampled': 2110800, 'grad_time_ms': 684.69, 'update_time_ms': 2.69, 'sample_time_ms': 34009.537}",2025-08-31_07-34-39,cda-server-4,35.202011823654175,10554,1756618479,10.157.146.4,False,55424.60210490227,1200
+1760,-618.6673130540902,1760,2112000,{},-713.4444151190861,2112000,0,55459.785108566284,-585.239592622173,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2112000, 'default': {'kl': 0.010306376963853836, 'policy_loss': -0.1395503133535385, 'vf_loss': 301.5770568847656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9590691328048706, 'entropy': 5.181336402893066, 'cur_lr': 4.999999873689376e-05, 'total_loss': 301.45318603515625}, 'load_time_ms': 0.661, 'num_steps_sampled': 2112000, 'grad_time_ms': 687.371, 'update_time_ms': 2.645, 'sample_time_ms': 34072.173}",2025-08-31_07-35-14,cda-server-4,35.183003664016724,10560,1756618514,10.157.146.4,False,55459.785108566284,1200
+1761,-619.7482979295996,1761,2113200,{},-794.6012683335867,2113200,0,55493.93283033371,-585.239592622173,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2113200, 'default': {'kl': 0.013668566942214966, 'policy_loss': -0.17085368931293488, 'vf_loss': 668.5663452148438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9422667622566223, 'entropy': 4.840640068054199, 'cur_lr': 4.999999873689376e-05, 'total_loss': 668.416259765625}, 'load_time_ms': 0.661, 'num_steps_sampled': 2113200, 'grad_time_ms': 680.68, 'update_time_ms': 2.493, 'sample_time_ms': 34068.671}",2025-08-31_07-35-48,cda-server-4,34.14772176742554,10566,1756618548,10.157.146.4,False,55493.93283033371,1200
+1762,-619.3824031091283,1762,2114400,{},-794.6012683335867,2114400,0,55528.146470069885,-585.239592622173,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2114400, 'default': {'kl': 0.011677373200654984, 'policy_loss': -0.14145420491695404, 'vf_loss': 390.587646484375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9552992582321167, 'entropy': 5.098606586456299, 'cur_lr': 4.999999873689376e-05, 'total_loss': 390.46392822265625}, 'load_time_ms': 0.655, 'num_steps_sampled': 2114400, 'grad_time_ms': 662.752, 'update_time_ms': 2.508, 'sample_time_ms': 33989.385}",2025-08-31_07-36-22,cda-server-4,34.21363973617554,10572,1756618582,10.157.146.4,False,55528.146470069885,1200
+1763,-618.3112666468539,1763,2115600,{},-794.6012683335867,2115600,0,55563.091331243515,-568.4333179398549,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2115600, 'default': {'kl': 0.009196819737553596, 'policy_loss': -0.14353877305984497, 'vf_loss': 301.4691467285156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.978805422782898, 'entropy': 4.821127891540527, 'cur_lr': 4.999999873689376e-05, 'total_loss': 301.339599609375}, 'load_time_ms': 0.656, 'num_steps_sampled': 2115600, 'grad_time_ms': 661.092, 'update_time_ms': 2.47, 'sample_time_ms': 34016.056}",2025-08-31_07-36-57,cda-server-4,34.94486117362976,10578,1756618617,10.157.146.4,False,55563.091331243515,1200
+1764,-617.0179212451635,1764,2116800,{},-794.6012683335867,2116800,0,55598.355446100235,-460.3910495490791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2116800, 'default': {'kl': 0.009665160439908504, 'policy_loss': -0.13740454614162445, 'vf_loss': 242.95155334472656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9704163670539856, 'entropy': 4.672124862670898, 'cur_lr': 4.999999873689376e-05, 'total_loss': 242.82882690429688}, 'load_time_ms': 0.647, 'num_steps_sampled': 2116800, 'grad_time_ms': 665.475, 'update_time_ms': 2.497, 'sample_time_ms': 34106.287}",2025-08-31_07-37-33,cda-server-4,35.26411485671997,10584,1756618653,10.157.146.4,False,55598.355446100235,1200
+1765,-617.5402484005042,1765,2118000,{},-794.6012683335867,2118000,0,55632.977620363235,-460.3910495490791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2118000, 'default': {'kl': 0.009007517248392105, 'policy_loss': -0.12174160033464432, 'vf_loss': 54.56570053100586, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9935809373855591, 'entropy': 4.630523681640625, 'cur_lr': 4.999999873689376e-05, 'total_loss': 54.457637786865234}, 'load_time_ms': 0.631, 'num_steps_sampled': 2118000, 'grad_time_ms': 665.096, 'update_time_ms': 2.373, 'sample_time_ms': 34136.47}",2025-08-31_07-38-07,cda-server-4,34.62217426300049,10590,1756618687,10.157.146.4,False,55632.977620363235,1200
+1766,-617.27947412773,1766,2119200,{},-794.6012683335867,2119200,0,55668.117535829544,-460.3910495490791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2119200, 'default': {'kl': 0.011576492339372635, 'policy_loss': -0.16850821673870087, 'vf_loss': 189.99984741210938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9779140949249268, 'entropy': 4.910895824432373, 'cur_lr': 4.999999873689376e-05, 'total_loss': 189.84893798828125}, 'load_time_ms': 0.643, 'num_steps_sampled': 2119200, 'grad_time_ms': 690.494, 'update_time_ms': 2.375, 'sample_time_ms': 34196.803}",2025-08-31_07-38-42,cda-server-4,35.139915466308594,10596,1756618722,10.157.146.4,False,55668.117535829544,1200
+1767,-617.4547083874801,1767,2120400,{},-794.6012683335867,2120400,0,55704.65357375145,-460.3910495490791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2120400, 'default': {'kl': 0.01227010041475296, 'policy_loss': -0.1453278660774231, 'vf_loss': 926.8646850585938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.923141360282898, 'entropy': 4.69486141204834, 'cur_lr': 4.999999873689376e-05, 'total_loss': 926.7379760742188}, 'load_time_ms': 0.612, 'num_steps_sampled': 2120400, 'grad_time_ms': 697.239, 'update_time_ms': 2.385, 'sample_time_ms': 34369.055}",2025-08-31_07-39-19,cda-server-4,36.53603792190552,10602,1756618759,10.157.146.4,False,55704.65357375145,1200
+1768,-616.8254360197345,1768,2121600,{},-794.6012683335867,2121600,0,55740.150554418564,-460.3910495490791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2121600, 'default': {'kl': 0.009656035341322422, 'policy_loss': -0.12296410650014877, 'vf_loss': 282.2344665527344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9682085514068604, 'entropy': 4.678800106048584, 'cur_lr': 4.999999873689376e-05, 'total_loss': 282.12615966796875}, 'load_time_ms': 0.604, 'num_steps_sampled': 2121600, 'grad_time_ms': 697.264, 'update_time_ms': 2.301, 'sample_time_ms': 34370.978}",2025-08-31_07-39-54,cda-server-4,35.49698066711426,10608,1756618794,10.157.146.4,False,55740.150554418564,1200
+1769,-616.105928275139,1769,2122800,{},-794.6012683335867,2122800,0,55774.8479578495,-460.3910495490791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2122800, 'default': {'kl': 0.01554828230291605, 'policy_loss': -0.20028303563594818, 'vf_loss': 196.4585418701172, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9869157075881958, 'entropy': 5.085344314575195, 'cur_lr': 4.999999873689376e-05, 'total_loss': 196.28187561035156}, 'load_time_ms': 0.635, 'num_steps_sampled': 2122800, 'grad_time_ms': 700.284, 'update_time_ms': 2.297, 'sample_time_ms': 34317.427}",2025-08-31_07-40-29,cda-server-4,34.69740343093872,10614,1756618829,10.157.146.4,False,55774.8479578495,1200
+1770,-615.964483503249,1770,2124000,{},-794.6012683335867,2124000,0,55810.094074487686,-460.3910495490791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2124000, 'default': {'kl': 0.008241718634963036, 'policy_loss': -0.1405235230922699, 'vf_loss': 334.4700622558594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9730780124664307, 'entropy': 4.836676597595215, 'cur_lr': 4.999999873689376e-05, 'total_loss': 334.342041015625}, 'load_time_ms': 0.642, 'num_steps_sampled': 2124000, 'grad_time_ms': 704.809, 'update_time_ms': 2.424, 'sample_time_ms': 34318.986}",2025-08-31_07-41-04,cda-server-4,35.246116638183594,10620,1756618864,10.157.146.4,False,55810.094074487686,1200
+1771,-615.5056303829363,1771,2125200,{},-794.6012683335867,2125200,0,55845.61140823364,-460.3910495490791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2125200, 'default': {'kl': 0.01102468091994524, 'policy_loss': -0.13889452815055847, 'vf_loss': 668.0045776367188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9325387477874756, 'entropy': 4.959386825561523, 'cur_lr': 4.999999873689376e-05, 'total_loss': 667.8824462890625}, 'load_time_ms': 0.642, 'num_steps_sampled': 2125200, 'grad_time_ms': 711.342, 'update_time_ms': 2.447, 'sample_time_ms': 34449.437}",2025-08-31_07-41-40,cda-server-4,35.51733374595642,10626,1756618900,10.157.146.4,False,55845.61140823364,1200
+1772,-615.3188869022068,1772,2126400,{},-794.6012683335867,2126400,0,55880.86139369011,-460.3910495490791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2126400, 'default': {'kl': 0.010229157283902168, 'policy_loss': -0.15057051181793213, 'vf_loss': 297.6935729980469, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9680430889129639, 'entropy': 4.806852340698242, 'cur_lr': 4.999999873689376e-05, 'total_loss': 297.5585632324219}, 'load_time_ms': 0.64, 'num_steps_sampled': 2126400, 'grad_time_ms': 728.108, 'update_time_ms': 2.54, 'sample_time_ms': 34536.225}",2025-08-31_07-42-15,cda-server-4,35.249985456466675,10632,1756618935,10.157.146.4,False,55880.86139369011,1200
+1773,-616.6669540118868,1773,2127600,{},-794.6012683335867,2127600,0,55916.205317020416,-460.3910495490791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2127600, 'default': {'kl': 0.015570346266031265, 'policy_loss': -0.15724121034145355, 'vf_loss': 1297.8809814453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9000195264816284, 'entropy': 5.008223056793213, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1297.7471923828125}, 'load_time_ms': 0.643, 'num_steps_sampled': 2127600, 'grad_time_ms': 731.972, 'update_time_ms': 2.628, 'sample_time_ms': 34572.169}",2025-08-31_07-42-51,cda-server-4,35.34392333030701,10638,1756618971,10.157.146.4,False,55916.205317020416,1200
+1774,-615.8689327043447,1774,2128800,{},-794.6012683335867,2128800,0,55952.3285908699,-460.3910495490791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2128800, 'default': {'kl': 0.010334227234125137, 'policy_loss': -0.13747142255306244, 'vf_loss': 722.2822265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9199793934822083, 'entropy': 5.04362154006958, 'cur_lr': 4.999999873689376e-05, 'total_loss': 722.1604614257812}, 'load_time_ms': 0.65, 'num_steps_sampled': 2128800, 'grad_time_ms': 725.91, 'update_time_ms': 2.74, 'sample_time_ms': 34664.058}",2025-08-31_07-43-27,cda-server-4,36.123273849487305,10644,1756619007,10.157.146.4,False,55952.3285908699,1200
+1775,-615.9568361974417,1775,2130000,{},-794.6012683335867,2130000,0,55988.6191008091,-460.3910495490791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2130000, 'default': {'kl': 0.011865230277180672, 'policy_loss': -0.14262181520462036, 'vf_loss': 294.1637268066406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9601619243621826, 'entropy': 5.010151386260986, 'cur_lr': 4.999999873689376e-05, 'total_loss': 294.0391845703125}, 'load_time_ms': 0.647, 'num_steps_sampled': 2130000, 'grad_time_ms': 708.501, 'update_time_ms': 2.757, 'sample_time_ms': 34848.305}",2025-08-31_07-44-03,cda-server-4,36.290509939193726,10650,1756619043,10.157.146.4,False,55988.6191008091,1200
+1776,-614.6950725717453,1776,2131200,{},-794.6012683335867,2131200,0,56023.261496305466,-460.3910495490791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2131200, 'default': {'kl': 0.010441694408655167, 'policy_loss': -0.13810019195079803, 'vf_loss': 573.89990234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9227291941642761, 'entropy': 4.995817184448242, 'cur_lr': 4.999999873689376e-05, 'total_loss': 573.777587890625}, 'load_time_ms': 0.624, 'num_steps_sampled': 2131200, 'grad_time_ms': 692.765, 'update_time_ms': 2.71, 'sample_time_ms': 34814.425}",2025-08-31_07-44-38,cda-server-4,34.64239549636841,10656,1756619078,10.157.146.4,False,56023.261496305466,1200
+1777,-612.8625954960179,1777,2132400,{},-791.9074540492807,2132400,0,56058.464547634125,-460.3910495490791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2132400, 'default': {'kl': 0.01180915255099535, 'policy_loss': -0.15337149798870087, 'vf_loss': 272.1217956542969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9686086177825928, 'entropy': 4.865828514099121, 'cur_lr': 4.999999873689376e-05, 'total_loss': 271.9863586425781}, 'load_time_ms': 0.635, 'num_steps_sampled': 2132400, 'grad_time_ms': 680.88, 'update_time_ms': 2.666, 'sample_time_ms': 34693.036}",2025-08-31_07-45-13,cda-server-4,35.20305132865906,10662,1756619113,10.157.146.4,False,56058.464547634125,1200
+1778,-613.0463926718851,1778,2133600,{},-791.9074540492807,2133600,0,56093.93992185593,-460.3910495490791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2133600, 'default': {'kl': 0.012483700178563595, 'policy_loss': -0.14567922055721283, 'vf_loss': 289.4109802246094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9751672744750977, 'entropy': 5.067634582519531, 'cur_lr': 4.999999873689376e-05, 'total_loss': 289.28424072265625}, 'load_time_ms': 0.629, 'num_steps_sampled': 2133600, 'grad_time_ms': 666.383, 'update_time_ms': 2.636, 'sample_time_ms': 34705.292}",2025-08-31_07-45-48,cda-server-4,35.47537422180176,10668,1756619148,10.157.146.4,False,56093.93992185593,1200
+1779,-613.9589497559468,1779,2134800,{},-791.9074540492807,2134800,0,56129.24340105057,-460.3910495490791,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2134800, 'default': {'kl': 0.009294227696955204, 'policy_loss': -0.11205804347991943, 'vf_loss': 389.8030700683594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9537302851676941, 'entropy': 4.756305694580078, 'cur_lr': 4.999999873689376e-05, 'total_loss': 389.7051696777344}, 'load_time_ms': 0.6, 'num_steps_sampled': 2134800, 'grad_time_ms': 657.129, 'update_time_ms': 2.626, 'sample_time_ms': 34775.21}",2025-08-31_07-46-24,cda-server-4,35.30347919464111,10674,1756619184,10.157.146.4,False,56129.24340105057,1200
+1780,-615.1780662691765,1780,2136000,{},-791.9074540492807,2136000,0,56164.74618935585,-473.2609467173449,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2136000, 'default': {'kl': 0.009725179523229599, 'policy_loss': -0.1258857101202011, 'vf_loss': 362.1384582519531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9602577686309814, 'entropy': 4.727693557739258, 'cur_lr': 4.999999873689376e-05, 'total_loss': 362.02728271484375}, 'load_time_ms': 0.591, 'num_steps_sampled': 2136000, 'grad_time_ms': 649.549, 'update_time_ms': 2.519, 'sample_time_ms': 34808.656}",2025-08-31_07-46-59,cda-server-4,35.50278830528259,10680,1756619219,10.157.146.4,False,56164.74618935585,1200
+1781,-614.6769495201468,1781,2137200,{},-791.9074540492807,2137200,0,56200.75695872307,-473.2609467173449,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2137200, 'default': {'kl': 0.010339433327317238, 'policy_loss': -0.13817162811756134, 'vf_loss': 217.89207458496094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9729418158531189, 'entropy': 4.774308204650879, 'cur_lr': 4.999999873689376e-05, 'total_loss': 217.7696075439453}, 'load_time_ms': 0.588, 'num_steps_sampled': 2137200, 'grad_time_ms': 635.778, 'update_time_ms': 2.566, 'sample_time_ms': 34871.795}",2025-08-31_07-47-35,cda-server-4,36.01076936721802,10686,1756619255,10.157.146.4,False,56200.75695872307,1200
+1782,-614.3002411591156,1782,2138400,{},-791.9074540492807,2138400,0,56236.88355135918,-473.2609467173449,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2138400, 'default': {'kl': 0.01008610613644123, 'policy_loss': -0.13122908771038055, 'vf_loss': 550.2338256835938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9246208667755127, 'entropy': 4.751061916351318, 'cur_lr': 4.999999873689376e-05, 'total_loss': 550.117919921875}, 'load_time_ms': 0.586, 'num_steps_sampled': 2138400, 'grad_time_ms': 626.137, 'update_time_ms': 2.388, 'sample_time_ms': 34969.26}",2025-08-31_07-48-11,cda-server-4,36.1265926361084,10692,1756619291,10.157.146.4,False,56236.88355135918,1200
+1783,-613.7365453389643,1783,2139600,{},-791.9074540492807,2139600,0,56271.54365468025,-473.2609467173449,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2139600, 'default': {'kl': 0.0131779033690691, 'policy_loss': -0.1542537808418274, 'vf_loss': 233.2499237060547, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9799725413322449, 'entropy': 4.719621658325195, 'cur_lr': 4.999999873689376e-05, 'total_loss': 233.11566162109375}, 'load_time_ms': 0.579, 'num_steps_sampled': 2139600, 'grad_time_ms': 609.782, 'update_time_ms': 2.398, 'sample_time_ms': 34917.291}",2025-08-31_07-48-46,cda-server-4,34.66010332107544,10698,1756619326,10.157.146.4,False,56271.54365468025,1200
+1784,-613.7100422056246,1784,2140800,{},-791.9074540492807,2140800,0,56306.761647462845,-473.2609467173449,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2140800, 'default': {'kl': 0.011388290673494339, 'policy_loss': -0.15491479635238647, 'vf_loss': 425.07440185546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9592030048370361, 'entropy': 4.9981560707092285, 'cur_lr': 4.999999873689376e-05, 'total_loss': 424.9367980957031}, 'load_time_ms': 0.581, 'num_steps_sampled': 2140800, 'grad_time_ms': 609.902, 'update_time_ms': 2.209, 'sample_time_ms': 34826.659}",2025-08-31_07-49-21,cda-server-4,35.21799278259277,10704,1756619361,10.157.146.4,False,56306.761647462845,1200
+1785,-614.1957168861131,1785,2142000,{},-791.9074540492807,2142000,0,56342.55244231224,-473.2609467173449,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2142000, 'default': {'kl': 0.010601942427456379, 'policy_loss': -0.13663353025913239, 'vf_loss': 179.28041076660156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9788385033607483, 'entropy': 4.701803207397461, 'cur_lr': 4.999999873689376e-05, 'total_loss': 179.15985107421875}, 'load_time_ms': 0.619, 'num_steps_sampled': 2142000, 'grad_time_ms': 612.732, 'update_time_ms': 2.23, 'sample_time_ms': 34773.696}",2025-08-31_07-49-57,cda-server-4,35.79079484939575,10710,1756619397,10.157.146.4,False,56342.55244231224,1200
+1786,-613.472837839131,1786,2143200,{},-791.9074540492807,2143200,0,56377.58593940735,-473.2609467173449,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2143200, 'default': {'kl': 0.008802013471722603, 'policy_loss': -0.08367152512073517, 'vf_loss': 398.3794860839844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9342009425163269, 'entropy': 4.631872177124023, 'cur_lr': 4.999999873689376e-05, 'total_loss': 398.3091735839844}, 'load_time_ms': 0.617, 'num_steps_sampled': 2143200, 'grad_time_ms': 612.94, 'update_time_ms': 2.389, 'sample_time_ms': 34812.331}",2025-08-31_07-50-32,cda-server-4,35.03349709510803,10716,1756619432,10.157.146.4,False,56377.58593940735,1200
+1787,-612.0072715729345,1787,2144400,{},-791.9074540492807,2144400,0,56412.74579167366,-473.2609467173449,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2144400, 'default': {'kl': 0.009870611131191254, 'policy_loss': -0.10282015800476074, 'vf_loss': 145.02215576171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9787400364875793, 'entropy': 4.434794902801514, 'cur_lr': 4.999999873689376e-05, 'total_loss': 144.93429565429688}, 'load_time_ms': 0.603, 'num_steps_sampled': 2144400, 'grad_time_ms': 620.296, 'update_time_ms': 2.513, 'sample_time_ms': 34800.494}",2025-08-31_07-51-07,cda-server-4,35.159852266311646,10722,1756619467,10.157.146.4,False,56412.74579167366,1200
+1788,-611.7999149818764,1788,2145600,{},-791.9074540492807,2145600,0,56448.15425801277,-473.2609467173449,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2145600, 'default': {'kl': 0.0094486428424716, 'policy_loss': -0.12916676700115204, 'vf_loss': 113.77253723144531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9869112372398376, 'entropy': 4.593995094299316, 'cur_lr': 4.999999873689376e-05, 'total_loss': 113.65772247314453}, 'load_time_ms': 0.625, 'num_steps_sampled': 2145600, 'grad_time_ms': 629.818, 'update_time_ms': 2.63, 'sample_time_ms': 34784.214}",2025-08-31_07-51-43,cda-server-4,35.40846633911133,10728,1756619503,10.157.146.4,False,56448.15425801277,1200
+1789,-611.6247786675302,1789,2146800,{},-791.9074540492807,2146800,0,56483.450092315674,-473.2609467173449,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2146800, 'default': {'kl': 0.009612426161766052, 'policy_loss': -0.11252101510763168, 'vf_loss': 294.050537109375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9677662253379822, 'entropy': 4.654801845550537, 'cur_lr': 4.999999873689376e-05, 'total_loss': 293.9526062011719}, 'load_time_ms': 0.614, 'num_steps_sampled': 2146800, 'grad_time_ms': 621.106, 'update_time_ms': 2.641, 'sample_time_ms': 34792.163}",2025-08-31_07-52-18,cda-server-4,35.29583430290222,10734,1756619538,10.157.146.4,False,56483.450092315674,1200
+1790,-609.8263752512539,1790,2148000,{},-680.0570329449032,2148000,0,56518.68299460411,-473.2609467173449,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2148000, 'default': {'kl': 0.011655140668153763, 'policy_loss': -0.16136997938156128, 'vf_loss': 392.8120422363281, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9572372436523438, 'entropy': 4.943212509155273, 'cur_lr': 4.999999873689376e-05, 'total_loss': 392.6683349609375}, 'load_time_ms': 0.611, 'num_steps_sampled': 2148000, 'grad_time_ms': 621.262, 'update_time_ms': 2.623, 'sample_time_ms': 34764.961}",2025-08-31_07-52-53,cda-server-4,35.23290228843689,10740,1756619573,10.157.146.4,False,56518.68299460411,1200
+1791,-611.8501397835826,1791,2149200,{},-680.0570329449032,2149200,0,56555.151641368866,-513.6460925905118,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2149200, 'default': {'kl': 0.012208450585603714, 'policy_loss': -0.163643479347229, 'vf_loss': 375.19171142578125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9414092302322388, 'entropy': 5.020816326141357, 'cur_lr': 4.999999873689376e-05, 'total_loss': 375.0466003417969}, 'load_time_ms': 0.613, 'num_steps_sampled': 2149200, 'grad_time_ms': 633.562, 'update_time_ms': 2.57, 'sample_time_ms': 34798.373}",2025-08-31_07-53-30,cda-server-4,36.46864676475525,10746,1756619610,10.157.146.4,False,56555.151641368866,1200
+1792,-611.5310713159356,1792,2150400,{},-668.5445176594637,2150400,0,56591.055433273315,-513.6460925905118,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2150400, 'default': {'kl': 0.010329953394830227, 'policy_loss': -0.14410775899887085, 'vf_loss': 243.27989196777344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9798596501350403, 'entropy': 4.892976760864258, 'cur_lr': 4.999999873689376e-05, 'total_loss': 243.1514434814453}, 'load_time_ms': 0.625, 'num_steps_sampled': 2150400, 'grad_time_ms': 641.471, 'update_time_ms': 2.636, 'sample_time_ms': 34768.091}",2025-08-31_07-54-06,cda-server-4,35.90379190444946,10752,1756619646,10.157.146.4,False,56591.055433273315,1200
+1793,-611.6226485995439,1793,2151600,{},-668.5445176594637,2151600,0,56626.3198223114,-513.6460925905118,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2151600, 'default': {'kl': 0.012049398384988308, 'policy_loss': -0.12808652222156525, 'vf_loss': 427.18963623046875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9578329920768738, 'entropy': 4.678617000579834, 'cur_lr': 4.999999873689376e-05, 'total_loss': 427.079833984375}, 'load_time_ms': 0.667, 'num_steps_sampled': 2151600, 'grad_time_ms': 659.3, 'update_time_ms': 2.622, 'sample_time_ms': 34810.651}",2025-08-31_07-54-41,cda-server-4,35.26438903808594,10758,1756619681,10.157.146.4,False,56626.3198223114,1200
+1794,-611.9301628983798,1794,2152800,{},-668.5445176594637,2152800,0,56661.68100476265,-513.6460925905118,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2152800, 'default': {'kl': 0.010199970565736294, 'policy_loss': -0.1372755765914917, 'vf_loss': 442.45458984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9473002552986145, 'entropy': 4.599618911743164, 'cur_lr': 4.999999873689376e-05, 'total_loss': 442.3327941894531}, 'load_time_ms': 0.678, 'num_steps_sampled': 2152800, 'grad_time_ms': 667.092, 'update_time_ms': 2.651, 'sample_time_ms': 34817.277}",2025-08-31_07-55-16,cda-server-4,35.36118245124817,10764,1756619716,10.157.146.4,False,56661.68100476265,1200
+1795,-611.8679022532698,1795,2154000,{},-668.5445176594637,2154000,0,56698.215742111206,-513.6460925905118,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2154000, 'default': {'kl': 0.011064324527978897, 'policy_loss': -0.14284712076187134, 'vf_loss': 205.318603515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9783045649528503, 'entropy': 4.608373165130615, 'cur_lr': 4.999999873689376e-05, 'total_loss': 205.19256591796875}, 'load_time_ms': 0.643, 'num_steps_sampled': 2154000, 'grad_time_ms': 680.434, 'update_time_ms': 2.614, 'sample_time_ms': 34878.408}",2025-08-31_07-55-53,cda-server-4,36.53473734855652,10770,1756619753,10.157.146.4,False,56698.215742111206,1200
+1796,-611.4224007338108,1796,2155200,{},-668.5445176594637,2155200,0,56733.9415307045,-513.6460925905118,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2155200, 'default': {'kl': 0.008745147846639156, 'policy_loss': -0.1331307291984558, 'vf_loss': 76.08048248291016, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.990157961845398, 'entropy': 4.660346031188965, 'cur_lr': 4.999999873689376e-05, 'total_loss': 75.96063995361328}, 'load_time_ms': 0.649, 'num_steps_sampled': 2155200, 'grad_time_ms': 694.222, 'update_time_ms': 2.5, 'sample_time_ms': 34933.98}",2025-08-31_07-56-29,cda-server-4,35.725788593292236,10776,1756619789,10.157.146.4,False,56733.9415307045,1200
+1797,-612.2611335147284,1797,2156400,{},-668.5445176594637,2156400,0,56768.39485049248,-493.04948382028357,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2156400, 'default': {'kl': 0.01005544327199459, 'policy_loss': -0.16516362130641937, 'vf_loss': 249.1798553466797, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.964167058467865, 'entropy': 4.86149787902832, 'cur_lr': 4.999999873689376e-05, 'total_loss': 249.0299530029297}, 'load_time_ms': 0.659, 'num_steps_sampled': 2156400, 'grad_time_ms': 698.428, 'update_time_ms': 2.429, 'sample_time_ms': 34859.196}",2025-08-31_07-57-03,cda-server-4,34.453319787979126,10782,1756619823,10.157.146.4,False,56768.39485049248,1200
+1798,-612.3046826471643,1798,2157600,{},-668.5445176594637,2157600,0,56804.15869355202,-493.04948382028357,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2157600, 'default': {'kl': 0.009831350296735764, 'policy_loss': -0.13403086364269257, 'vf_loss': 107.40499877929688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9856323599815369, 'entropy': 4.774500846862793, 'cur_lr': 4.999999873689376e-05, 'total_loss': 107.28590393066406}, 'load_time_ms': 0.641, 'num_steps_sampled': 2157600, 'grad_time_ms': 696.581, 'update_time_ms': 2.341, 'sample_time_ms': 34896.667}",2025-08-31_07-57-39,cda-server-4,35.763843059539795,10788,1756619859,10.157.146.4,False,56804.15869355202,1200
+1799,-610.1900135491928,1799,2158800,{},-668.5445176594637,2158800,0,56839.48165988922,-457.1962272799785,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2158800, 'default': {'kl': 0.010936465114355087, 'policy_loss': -0.1472022980451584, 'vf_loss': 593.9203491210938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9041771292686462, 'entropy': 4.619206428527832, 'cur_lr': 4.999999873689376e-05, 'total_loss': 593.7897338867188}, 'load_time_ms': 0.681, 'num_steps_sampled': 2158800, 'grad_time_ms': 703.194, 'update_time_ms': 2.334, 'sample_time_ms': 34892.68}",2025-08-31_07-58-14,cda-server-4,35.32296633720398,10794,1756619894,10.157.146.4,False,56839.48165988922,1200
+1800,-610.4584087666261,1800,2160000,{},-668.5445176594637,2160000,0,56874.76902484894,-457.1962272799785,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2160000, 'default': {'kl': 0.011227501556277275, 'policy_loss': -0.148305743932724, 'vf_loss': 243.52870178222656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9698721766471863, 'entropy': 4.765214920043945, 'cur_lr': 4.999999873689376e-05, 'total_loss': 243.39743041992188}, 'load_time_ms': 0.68, 'num_steps_sampled': 2160000, 'grad_time_ms': 705.011, 'update_time_ms': 2.313, 'sample_time_ms': 34896.353}",2025-08-31_07-58-50,cda-server-4,35.2873649597168,10800,1756619930,10.157.146.4,False,56874.76902484894,1200
+1801,-611.5677490303277,1801,2161200,{},-668.5445176594637,2161200,0,56909.97926878929,-457.1962272799785,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2161200, 'default': {'kl': 0.010367143899202347, 'policy_loss': -0.12179841101169586, 'vf_loss': 299.2856750488281, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9798917770385742, 'entropy': 4.6726250648498535, 'cur_lr': 4.999999873689376e-05, 'total_loss': 299.17962646484375}, 'load_time_ms': 0.715, 'num_steps_sampled': 2161200, 'grad_time_ms': 705.243, 'update_time_ms': 2.422, 'sample_time_ms': 34770.246}",2025-08-31_07-59-25,cda-server-4,35.210243940353394,10806,1756619965,10.157.146.4,False,56909.97926878929,1200
+1802,-612.3992232117826,1802,2162400,{},-672.1301368527273,2162400,0,56945.95634531975,-457.1962272799785,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2162400, 'default': {'kl': 0.01042960211634636, 'policy_loss': -0.13734692335128784, 'vf_loss': 496.3187255859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9460129141807556, 'entropy': 5.124110221862793, 'cur_lr': 4.999999873689376e-05, 'total_loss': 496.197265625}, 'load_time_ms': 0.747, 'num_steps_sampled': 2162400, 'grad_time_ms': 703.439, 'update_time_ms': 2.37, 'sample_time_ms': 34779.435}",2025-08-31_08-00-01,cda-server-4,35.97707653045654,10812,1756620001,10.157.146.4,False,56945.95634531975,1200
+1803,-611.9020365256592,1803,2163600,{},-672.1301368527273,2163600,0,56981.886712789536,-457.1962272799785,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2163600, 'default': {'kl': 0.010412666946649551, 'policy_loss': -0.13590320944786072, 'vf_loss': 171.60047912597656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9807262420654297, 'entropy': 4.769051551818848, 'cur_lr': 4.999999873689376e-05, 'total_loss': 171.48040771484375}, 'load_time_ms': 0.709, 'num_steps_sampled': 2163600, 'grad_time_ms': 702.503, 'update_time_ms': 2.296, 'sample_time_ms': 34847.072}",2025-08-31_08-00-37,cda-server-4,35.9303674697876,10818,1756620037,10.157.146.4,False,56981.886712789536,1200
+1804,-612.9458570350125,1804,2164800,{},-672.1301368527273,2164800,0,57016.72239899635,-457.1962272799785,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2164800, 'default': {'kl': 0.009792429395020008, 'policy_loss': -0.11078272014856339, 'vf_loss': 332.55523681640625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9513273239135742, 'entropy': 4.756560802459717, 'cur_lr': 4.999999873689376e-05, 'total_loss': 332.4593200683594}, 'load_time_ms': 0.697, 'num_steps_sampled': 2164800, 'grad_time_ms': 702.458, 'update_time_ms': 2.412, 'sample_time_ms': 34794.475}",2025-08-31_08-01-12,cda-server-4,34.83568620681763,10824,1756620072,10.157.146.4,False,57016.72239899635,1200
+1805,-612.0101968359565,1805,2166000,{},-672.1301368527273,2166000,0,57052.757274866104,-457.1962272799785,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2166000, 'default': {'kl': 0.010217903181910515, 'policy_loss': -0.1426543891429901, 'vf_loss': 306.5828857421875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9587259292602539, 'entropy': 4.848728179931641, 'cur_lr': 4.999999873689376e-05, 'total_loss': 306.4557800292969}, 'load_time_ms': 0.73, 'num_steps_sampled': 2166000, 'grad_time_ms': 699.89, 'update_time_ms': 2.408, 'sample_time_ms': 34747.001}",2025-08-31_08-01-48,cda-server-4,36.03487586975098,10830,1756620108,10.157.146.4,False,57052.757274866104,1200
+1806,-613.1969850575337,1806,2167200,{},-692.5096248667815,2167200,0,57088.051425457,-457.1962272799785,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2167200, 'default': {'kl': 0.013191776350140572, 'policy_loss': -0.16798949241638184, 'vf_loss': 520.2294311523438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9503586292266846, 'entropy': 5.121345520019531, 'cur_lr': 4.999999873689376e-05, 'total_loss': 520.0814819335938}, 'load_time_ms': 0.756, 'num_steps_sampled': 2167200, 'grad_time_ms': 694.718, 'update_time_ms': 2.428, 'sample_time_ms': 34709.013}",2025-08-31_08-02-23,cda-server-4,35.294150590896606,10836,1756620143,10.157.146.4,False,57088.051425457,1200
+1807,-612.9159446173653,1807,2168400,{},-692.5096248667815,2168400,0,57123.65640711784,-457.1962272799785,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2168400, 'default': {'kl': 0.011526075191795826, 'policy_loss': -0.14219117164611816, 'vf_loss': 168.16622924804688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9800519943237305, 'entropy': 4.846843719482422, 'cur_lr': 4.999999873689376e-05, 'total_loss': 168.0415496826172}, 'load_time_ms': 0.776, 'num_steps_sampled': 2168400, 'grad_time_ms': 687.847, 'update_time_ms': 2.375, 'sample_time_ms': 34831.096}",2025-08-31_08-02-59,cda-server-4,35.604981660842896,10842,1756620179,10.157.146.4,False,57123.65640711784,1200
+1808,-612.7466427267883,1808,2169600,{},-692.5096248667815,2169600,0,57158.053099393845,-457.1962272799785,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2169600, 'default': {'kl': 0.00935873482376337, 'policy_loss': -0.1232663094997406, 'vf_loss': 200.66082763671875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9728718996047974, 'entropy': 4.659813404083252, 'cur_lr': 4.999999873689376e-05, 'total_loss': 200.5517578125}, 'load_time_ms': 0.803, 'num_steps_sampled': 2169600, 'grad_time_ms': 695.64, 'update_time_ms': 2.363, 'sample_time_ms': 34686.506}",2025-08-31_08-03-33,cda-server-4,34.39669227600098,10848,1756620213,10.157.146.4,False,57158.053099393845,1200
+1809,-610.1121701063073,1809,2170800,{},-692.5096248667815,2170800,0,57194.74579811096,-457.1962272799785,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2170800, 'default': {'kl': 0.011758090928196907, 'policy_loss': -0.1402948647737503, 'vf_loss': 254.8484649658203, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9625977277755737, 'entropy': 4.638543128967285, 'cur_lr': 4.999999873689376e-05, 'total_loss': 254.72601318359375}, 'load_time_ms': 0.81, 'num_steps_sampled': 2170800, 'grad_time_ms': 707.093, 'update_time_ms': 2.362, 'sample_time_ms': 34812.016}",2025-08-31_08-04-10,cda-server-4,36.69269871711731,10854,1756620250,10.157.146.4,False,57194.74579811096,1200
+1810,-610.0531986814678,1810,2172000,{},-692.5096248667815,2172000,0,57229.9964056015,-457.1962272799785,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2172000, 'default': {'kl': 0.009966113604605198, 'policy_loss': -0.13237446546554565, 'vf_loss': 180.4005889892578, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9734630584716797, 'entropy': 4.631668567657471, 'cur_lr': 4.999999873689376e-05, 'total_loss': 180.2833709716797}, 'load_time_ms': 0.818, 'num_steps_sampled': 2172000, 'grad_time_ms': 705.514, 'update_time_ms': 2.409, 'sample_time_ms': 34809.935}",2025-08-31_08-04-45,cda-server-4,35.25060749053955,10860,1756620285,10.157.146.4,False,57229.9964056015,1200
+1811,-610.0869125090205,1811,2173200,{},-692.5096248667815,2173200,0,57264.46538686752,-457.1962272799785,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2173200, 'default': {'kl': 0.009969376027584076, 'policy_loss': -0.14343519508838654, 'vf_loss': 258.8845520019531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9760649800300598, 'entropy': 4.83820104598999, 'cur_lr': 4.999999873689376e-05, 'total_loss': 258.7562255859375}, 'load_time_ms': 0.783, 'num_steps_sampled': 2173200, 'grad_time_ms': 693.041, 'update_time_ms': 2.47, 'sample_time_ms': 34748.15}",2025-08-31_08-05-20,cda-server-4,34.46898126602173,10866,1756620320,10.157.146.4,False,57264.46538686752,1200
+1812,-609.8737932116069,1812,2174400,{},-692.5096248667815,2174400,0,57300.07663369179,-457.1962272799785,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2174400, 'default': {'kl': 0.009123333729803562, 'policy_loss': -0.11617977172136307, 'vf_loss': 40.081424713134766, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9939346313476562, 'entropy': 4.3913445472717285, 'cur_lr': 4.999999873689376e-05, 'total_loss': 39.979103088378906}, 'load_time_ms': 0.738, 'num_steps_sampled': 2174400, 'grad_time_ms': 679.237, 'update_time_ms': 2.468, 'sample_time_ms': 34725.453}",2025-08-31_08-05-55,cda-server-4,35.611246824264526,10872,1756620355,10.157.146.4,False,57300.07663369179,1200
+1813,-609.1070096951986,1813,2175600,{},-692.5096248667815,2175600,0,57335.35484433174,-457.1962272799785,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2175600, 'default': {'kl': 0.010506756603717804, 'policy_loss': -0.14504636824131012, 'vf_loss': 79.98592376708984, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9889839887619019, 'entropy': 4.817022323608398, 'cur_lr': 4.999999873689376e-05, 'total_loss': 79.85682678222656}, 'load_time_ms': 0.776, 'num_steps_sampled': 2175600, 'grad_time_ms': 679.266, 'update_time_ms': 2.497, 'sample_time_ms': 34660.11}",2025-08-31_08-06-31,cda-server-4,35.27821063995361,10878,1756620391,10.157.146.4,False,57335.35484433174,1200
+1814,-607.1222388382142,1814,2176800,{},-692.5096248667815,2176800,0,57370.58704948425,-457.1962272799785,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2176800, 'default': {'kl': 0.011122014373540878, 'policy_loss': -0.16010326147079468, 'vf_loss': 35.28717803955078, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9944426417350769, 'entropy': 4.752736568450928, 'cur_lr': 4.999999873689376e-05, 'total_loss': 35.14396667480469}, 'load_time_ms': 0.777, 'num_steps_sampled': 2176800, 'grad_time_ms': 678.291, 'update_time_ms': 2.417, 'sample_time_ms': 34700.762}",2025-08-31_08-07-06,cda-server-4,35.2322051525116,10884,1756620426,10.157.146.4,False,57370.58704948425,1200
+1815,-606.6594297605373,1815,2178000,{},-692.5096248667815,2178000,0,57405.19753623009,-457.1962272799785,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2178000, 'default': {'kl': 0.010704029351472855, 'policy_loss': -0.14495967328548431, 'vf_loss': 91.02731323242188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9910690784454346, 'entropy': 4.661810874938965, 'cur_lr': 4.999999873689376e-05, 'total_loss': 90.89862060546875}, 'load_time_ms': 0.753, 'num_steps_sampled': 2178000, 'grad_time_ms': 683.742, 'update_time_ms': 2.489, 'sample_time_ms': 34552.893}",2025-08-31_08-07-40,cda-server-4,34.61048674583435,10890,1756620460,10.157.146.4,False,57405.19753623009,1200
+1816,-608.0329290789607,1816,2179200,{},-692.5096248667815,2179200,0,57440.67687487602,-488.18068005439903,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2179200, 'default': {'kl': 0.01049311738461256, 'policy_loss': -0.1560535579919815, 'vf_loss': 241.23114013671875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9747171401977539, 'entropy': 4.756394863128662, 'cur_lr': 4.999999873689376e-05, 'total_loss': 241.09103393554688}, 'load_time_ms': 0.747, 'num_steps_sampled': 2179200, 'grad_time_ms': 687.54, 'update_time_ms': 2.432, 'sample_time_ms': 34567.68}",2025-08-31_08-08-16,cda-server-4,35.47933864593506,10896,1756620496,10.157.146.4,False,57440.67687487602,1200
+1817,-607.1260144026493,1817,2180400,{},-692.5096248667815,2180400,0,57476.32591366768,-488.18068005439903,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2180400, 'default': {'kl': 0.010016817599534988, 'policy_loss': -0.13331782817840576, 'vf_loss': 913.1077270507812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9389660358428955, 'entropy': 4.68950080871582, 'cur_lr': 4.999999873689376e-05, 'total_loss': 912.9896850585938}, 'load_time_ms': 0.716, 'num_steps_sampled': 2180400, 'grad_time_ms': 695.889, 'update_time_ms': 2.517, 'sample_time_ms': 34563.726}",2025-08-31_08-08-52,cda-server-4,35.649038791656494,10902,1756620532,10.157.146.4,False,57476.32591366768,1200
+1818,-606.6012134704541,1818,2181600,{},-692.5096248667815,2181600,0,57511.2110915184,-488.18068005439903,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2181600, 'default': {'kl': 0.011416385881602764, 'policy_loss': -0.13908855617046356, 'vf_loss': 295.7177429199219, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9733350276947021, 'entropy': 4.665856838226318, 'cur_lr': 4.999999873689376e-05, 'total_loss': 295.59600830078125}, 'load_time_ms': 0.725, 'num_steps_sampled': 2181600, 'grad_time_ms': 696.973, 'update_time_ms': 2.644, 'sample_time_ms': 34611.365}",2025-08-31_08-09-26,cda-server-4,34.88517785072327,10908,1756620566,10.157.146.4,False,57511.2110915184,1200
+1819,-605.8771386433342,1819,2182800,{},-692.5096248667815,2182800,0,57546.63637948036,-488.18068005439903,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2182800, 'default': {'kl': 0.009017485193908215, 'policy_loss': -0.1376267820596695, 'vf_loss': 164.1291046142578, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9775209426879883, 'entropy': 4.731100082397461, 'cur_lr': 4.999999873689376e-05, 'total_loss': 164.00518798828125}, 'load_time_ms': 0.727, 'num_steps_sampled': 2182800, 'grad_time_ms': 697.791, 'update_time_ms': 2.743, 'sample_time_ms': 34483.749}",2025-08-31_08-10-02,cda-server-4,35.42528796195984,10914,1756620602,10.157.146.4,False,57546.63637948036,1200
+1820,-608.1586419037817,1820,2184000,{},-692.5096248667815,2184000,0,57581.95585489273,-488.18068005439903,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2184000, 'default': {'kl': 0.012073706835508347, 'policy_loss': -0.15876919031143188, 'vf_loss': 710.3723754882812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9306437969207764, 'entropy': 4.927147388458252, 'cur_lr': 4.999999873689376e-05, 'total_loss': 710.23193359375}, 'load_time_ms': 0.717, 'num_steps_sampled': 2184000, 'grad_time_ms': 699.714, 'update_time_ms': 2.732, 'sample_time_ms': 34488.667}",2025-08-31_08-10-37,cda-server-4,35.319475412368774,10920,1756620637,10.157.146.4,False,57581.95585489273,1200
+1821,-607.4273291300462,1821,2185200,{},-692.5096248667815,2185200,0,57616.94420218468,-488.18068005439903,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2185200, 'default': {'kl': 0.01064496859908104, 'policy_loss': -0.1335679143667221, 'vf_loss': 120.45249938964844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9811904430389404, 'entropy': 4.4517340660095215, 'cur_lr': 4.999999873689376e-05, 'total_loss': 120.33509826660156}, 'load_time_ms': 0.716, 'num_steps_sampled': 2185200, 'grad_time_ms': 712.671, 'update_time_ms': 2.736, 'sample_time_ms': 34527.695}",2025-08-31_08-11-12,cda-server-4,34.98834729194641,10926,1756620672,10.157.146.4,False,57616.94420218468,1200
+1822,-608.3571209136707,1822,2186400,{},-692.5096248667815,2186400,0,57652.44558787346,-488.18068005439903,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2186400, 'default': {'kl': 0.011870250105857849, 'policy_loss': -0.15374056994915009, 'vf_loss': 76.40798950195312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9951289296150208, 'entropy': 4.644438743591309, 'cur_lr': 4.999999873689376e-05, 'total_loss': 76.27227020263672}, 'load_time_ms': 0.725, 'num_steps_sampled': 2186400, 'grad_time_ms': 723.029, 'update_time_ms': 2.787, 'sample_time_ms': 34506.157}",2025-08-31_08-11-48,cda-server-4,35.50138568878174,10932,1756620708,10.157.146.4,False,57652.44558787346,1200
+1823,-607.8410698679232,1823,2187600,{},-658.8088736111781,2187600,0,57687.91000986099,-488.18068005439903,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2187600, 'default': {'kl': 0.013860448263585567, 'policy_loss': -0.1611856073141098, 'vf_loss': 447.37701416015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9718766808509827, 'entropy': 4.409424781799316, 'cur_lr': 4.999999873689376e-05, 'total_loss': 447.2369079589844}, 'load_time_ms': 0.706, 'num_steps_sampled': 2187600, 'grad_time_ms': 715.054, 'update_time_ms': 2.812, 'sample_time_ms': 34532.733}",2025-08-31_08-12-23,cda-server-4,35.46442198753357,10938,1756620743,10.157.146.4,False,57687.91000986099,1200
+1824,-607.326074416509,1824,2188800,{},-658.8088736111781,2188800,0,57723.912895679474,-488.18068005439903,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2188800, 'default': {'kl': 0.009399567730724812, 'policy_loss': -0.12860089540481567, 'vf_loss': 220.20166015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9714340567588806, 'entropy': 4.395783424377441, 'cur_lr': 4.999999873689376e-05, 'total_loss': 220.08734130859375}, 'load_time_ms': 0.708, 'num_steps_sampled': 2188800, 'grad_time_ms': 711.082, 'update_time_ms': 2.774, 'sample_time_ms': 34613.869}",2025-08-31_08-12-59,cda-server-4,36.002885818481445,10944,1756620779,10.157.146.4,False,57723.912895679474,1200
+1825,-607.3639389938785,1825,2190000,{},-658.8088736111781,2190000,0,57759.11055612564,-488.18068005439903,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2190000, 'default': {'kl': 0.007266272325068712, 'policy_loss': -0.12424618750810623, 'vf_loss': 472.2374572753906, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9583098292350769, 'entropy': 4.395920753479004, 'cur_lr': 4.999999873689376e-05, 'total_loss': 472.1242370605469}, 'load_time_ms': 0.699, 'num_steps_sampled': 2190000, 'grad_time_ms': 709.979, 'update_time_ms': 2.773, 'sample_time_ms': 34673.673}",2025-08-31_08-13-34,cda-server-4,35.19766044616699,10950,1756620814,10.157.146.4,False,57759.11055612564,1200
+1826,-607.9194472949883,1826,2191200,{},-658.8088736111781,2191200,0,57794.09164023399,-488.18068005439903,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2191200, 'default': {'kl': 0.012060781009495258, 'policy_loss': -0.15637418627738953, 'vf_loss': 83.43153381347656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9926981329917908, 'entropy': 4.385969161987305, 'cur_lr': 4.999999873689376e-05, 'total_loss': 83.29347229003906}, 'load_time_ms': 0.685, 'num_steps_sampled': 2191200, 'grad_time_ms': 704.976, 'update_time_ms': 2.79, 'sample_time_ms': 34628.918}",2025-08-31_08-14-09,cda-server-4,34.98108410835266,10956,1756620849,10.157.146.4,False,57794.09164023399,1200
+1827,-608.3002461493134,1827,2192400,{},-658.8088736111781,2192400,0,57829.44376182556,-488.18068005439903,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2192400, 'default': {'kl': 0.0101129449903965, 'policy_loss': -0.12378304451704025, 'vf_loss': 261.5905456542969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9705556035041809, 'entropy': 4.803505897521973, 'cur_lr': 4.999999873689376e-05, 'total_loss': 261.48211669921875}, 'load_time_ms': 0.689, 'num_steps_sampled': 2192400, 'grad_time_ms': 698.924, 'update_time_ms': 2.763, 'sample_time_ms': 34605.239}",2025-08-31_08-14-45,cda-server-4,35.35212159156799,10962,1756620885,10.157.146.4,False,57829.44376182556,1200
+1828,-608.1101549260525,1828,2193600,{},-658.8088736111781,2193600,0,57864.705089092255,-488.18068005439903,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2193600, 'default': {'kl': 0.008324113674461842, 'policy_loss': -0.10640503466129303, 'vf_loss': 141.6858367919922, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9801323413848877, 'entropy': 4.516449928283691, 'cur_lr': 4.999999873689376e-05, 'total_loss': 141.59207153320312}, 'load_time_ms': 0.654, 'num_steps_sampled': 2193600, 'grad_time_ms': 695.894, 'update_time_ms': 2.669, 'sample_time_ms': 34646.054}",2025-08-31_08-15-20,cda-server-4,35.261327266693115,10968,1756620920,10.157.146.4,False,57864.705089092255,1200
+1829,-607.7734945795678,1829,2194800,{},-658.8088736111781,2194800,0,57899.08809328079,-488.18068005439903,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2194800, 'default': {'kl': 0.010735223069787025, 'policy_loss': -0.1311599612236023, 'vf_loss': 462.6697082519531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9411048889160156, 'entropy': 4.520028114318848, 'cur_lr': 4.999999873689376e-05, 'total_loss': 462.5549011230469}, 'load_time_ms': 0.646, 'num_steps_sampled': 2194800, 'grad_time_ms': 690.566, 'update_time_ms': 2.549, 'sample_time_ms': 34547.306}",2025-08-31_08-15-54,cda-server-4,34.3830041885376,10974,1756620954,10.157.146.4,False,57899.08809328079,1200
+1830,-611.5597425296687,1830,2196000,{},-660.2133820573594,2196000,0,57934.9640455246,-488.18068005439903,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2196000, 'default': {'kl': 0.011723164469003677, 'policy_loss': -0.1269288808107376, 'vf_loss': 310.21502685546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9751190543174744, 'entropy': 4.787585735321045, 'cur_lr': 4.999999873689376e-05, 'total_loss': 310.1059265136719}, 'load_time_ms': 0.646, 'num_steps_sampled': 2196000, 'grad_time_ms': 690.83, 'update_time_ms': 2.478, 'sample_time_ms': 34602.816}",2025-08-31_08-16-30,cda-server-4,35.87595224380493,10980,1756620990,10.157.146.4,False,57934.9640455246,1200
+1831,-611.4159005353642,1831,2197200,{},-660.2133820573594,2197200,0,57970.80819249153,-488.18068005439903,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2197200, 'default': {'kl': 0.012427863664925098, 'policy_loss': -0.14667364954948425, 'vf_loss': 89.54534912109375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9868454337120056, 'entropy': 4.58208703994751, 'cur_lr': 4.999999873689376e-05, 'total_loss': 89.41754913330078}, 'load_time_ms': 0.67, 'num_steps_sampled': 2197200, 'grad_time_ms': 693.528, 'update_time_ms': 2.381, 'sample_time_ms': 34685.769}",2025-08-31_08-17-06,cda-server-4,35.844146966934204,10986,1756621026,10.157.146.4,False,57970.80819249153,1200
+1832,-612.2347481540045,1832,2198400,{},-660.2133820573594,2198400,0,58005.50127029419,-488.18068005439903,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2198400, 'default': {'kl': 0.007943040691316128, 'policy_loss': -0.12214215844869614, 'vf_loss': 496.1263427734375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9515281319618225, 'entropy': 4.740427017211914, 'cur_lr': 4.999999873689376e-05, 'total_loss': 496.0162658691406}, 'load_time_ms': 0.67, 'num_steps_sampled': 2198400, 'grad_time_ms': 702.601, 'update_time_ms': 2.332, 'sample_time_ms': 34595.983}",2025-08-31_08-17-41,cda-server-4,34.69307780265808,10992,1756621061,10.157.146.4,False,58005.50127029419,1200
+1833,-612.9027850075436,1833,2199600,{},-660.2133820573594,2199600,0,58041.7402176857,-570.4720930847301,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2199600, 'default': {'kl': 0.009137922897934914, 'policy_loss': -0.13083404302597046, 'vf_loss': 94.72624969482422, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9872669577598572, 'entropy': 4.51323127746582, 'cur_lr': 4.999999873689376e-05, 'total_loss': 94.60929107666016}, 'load_time_ms': 0.651, 'num_steps_sampled': 2199600, 'grad_time_ms': 709.711, 'update_time_ms': 2.329, 'sample_time_ms': 34666.408}",2025-08-31_08-18-17,cda-server-4,36.23894739151001,10998,1756621097,10.157.146.4,False,58041.7402176857,1200
+1834,-611.479864359086,1834,2200800,{},-660.2133820573594,2200800,0,58077.625705718994,-486.66220417818766,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2200800, 'default': {'kl': 0.012561873532831669, 'policy_loss': -0.1711127907037735, 'vf_loss': 115.32386779785156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9888290762901306, 'entropy': 4.391855716705322, 'cur_lr': 4.999999873689376e-05, 'total_loss': 115.17183685302734}, 'load_time_ms': 0.643, 'num_steps_sampled': 2200800, 'grad_time_ms': 710.769, 'update_time_ms': 2.365, 'sample_time_ms': 34653.532}",2025-08-31_08-18-53,cda-server-4,35.88548803329468,11004,1756621133,10.157.146.4,False,58077.625705718994,1200
+1835,-611.0447001004027,1835,2202000,{},-660.2133820573594,2202000,0,58113.13143277168,-486.66220417818766,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2202000, 'default': {'kl': 0.009442588314414024, 'policy_loss': -0.1476975977420807, 'vf_loss': 92.73678588867188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9871231913566589, 'entropy': 4.5972161293029785, 'cur_lr': 4.999999873689376e-05, 'total_loss': 92.60342407226562}, 'load_time_ms': 0.641, 'num_steps_sampled': 2202000, 'grad_time_ms': 703.465, 'update_time_ms': 2.315, 'sample_time_ms': 34691.755}",2025-08-31_08-19-29,cda-server-4,35.5057270526886,11010,1756621169,10.157.146.4,False,58113.13143277168,1200
+1836,-610.5302636646389,1836,2203200,{},-660.2133820573594,2203200,0,58147.682082653046,-486.66220417818766,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2203200, 'default': {'kl': 0.010053069330751896, 'policy_loss': -0.1234874427318573, 'vf_loss': 57.41089630126953, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9934565424919128, 'entropy': 4.466163635253906, 'cur_lr': 4.999999873689376e-05, 'total_loss': 57.30268096923828}, 'load_time_ms': 0.661, 'num_steps_sampled': 2203200, 'grad_time_ms': 705.36, 'update_time_ms': 2.277, 'sample_time_ms': 34646.708}",2025-08-31_08-20-03,cda-server-4,34.550649881362915,11016,1756621203,10.157.146.4,False,58147.682082653046,1200
+1837,-609.8943260294817,1837,2204400,{},-660.2133820573594,2204400,0,58184.00445103645,-486.66220417818766,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2204400, 'default': {'kl': 0.007771508768200874, 'policy_loss': -0.11477308720350266, 'vf_loss': 718.7195434570312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9156326651573181, 'entropy': 4.7379560470581055, 'cur_lr': 4.999999873689376e-05, 'total_loss': 718.6165771484375}, 'load_time_ms': 0.692, 'num_steps_sampled': 2204400, 'grad_time_ms': 705.231, 'update_time_ms': 2.238, 'sample_time_ms': 34743.749}",2025-08-31_08-20-40,cda-server-4,36.32236838340759,11022,1756621240,10.157.146.4,False,58184.00445103645,1200
+1838,-611.8877754219767,1838,2205600,{},-771.4551260283122,2205600,0,58220.390286922455,-486.66220417818766,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2205600, 'default': {'kl': 0.010236292146146297, 'policy_loss': -0.13685323297977448, 'vf_loss': 487.4774169921875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9479051232337952, 'entropy': 5.051538467407227, 'cur_lr': 4.999999873689376e-05, 'total_loss': 487.3561096191406}, 'load_time_ms': 0.696, 'num_steps_sampled': 2205600, 'grad_time_ms': 699.487, 'update_time_ms': 2.326, 'sample_time_ms': 34861.889}",2025-08-31_08-21-16,cda-server-4,36.38583588600159,11028,1756621276,10.157.146.4,False,58220.390286922455,1200
+1839,-610.98198733471,1839,2206800,{},-771.4551260283122,2206800,0,58255.4494702816,-486.66220417818766,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2206800, 'default': {'kl': 0.009999571368098259, 'policy_loss': -0.14018486440181732, 'vf_loss': 164.4862060546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9773476123809814, 'entropy': 4.35255765914917, 'cur_lr': 4.999999873689376e-05, 'total_loss': 164.36122131347656}, 'load_time_ms': 0.666, 'num_steps_sampled': 2206800, 'grad_time_ms': 697.751, 'update_time_ms': 2.374, 'sample_time_ms': 34931.098}",2025-08-31_08-21-51,cda-server-4,35.05918335914612,11034,1756621311,10.157.146.4,False,58255.4494702816,1200
+1840,-611.7222223229552,1840,2208000,{},-771.4551260283122,2208000,0,58290.56447982788,-486.66220417818766,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2208000, 'default': {'kl': 0.009829264134168625, 'policy_loss': -0.13892929255962372, 'vf_loss': 53.14021682739258, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9926144480705261, 'entropy': 4.553985595703125, 'cur_lr': 4.999999873689376e-05, 'total_loss': 53.01622009277344}, 'load_time_ms': 0.677, 'num_steps_sampled': 2208000, 'grad_time_ms': 699.533, 'update_time_ms': 2.399, 'sample_time_ms': 34853.152}",2025-08-31_08-22-26,cda-server-4,35.11500954627991,11040,1756621346,10.157.146.4,False,58290.56447982788,1200
+1841,-612.1214863308028,1841,2209200,{},-771.4551260283122,2209200,0,58326.785613536835,-486.66220417818766,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2209200, 'default': {'kl': 0.013193810358643532, 'policy_loss': -0.15316885709762573, 'vf_loss': 258.53167724609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9768871665000916, 'entropy': 4.528432846069336, 'cur_lr': 4.999999873689376e-05, 'total_loss': 258.3985595703125}, 'load_time_ms': 0.652, 'num_steps_sampled': 2209200, 'grad_time_ms': 699.767, 'update_time_ms': 2.45, 'sample_time_ms': 34890.545}",2025-08-31_08-23-03,cda-server-4,36.22113370895386,11046,1756621383,10.157.146.4,False,58326.785613536835,1200
+1842,-611.264003399828,1842,2210400,{},-771.4551260283122,2210400,0,58362.42100787163,-486.66220417818766,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2210400, 'default': {'kl': 0.01174591202288866, 'policy_loss': -0.1480296552181244, 'vf_loss': 268.4996337890625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9687201380729675, 'entropy': 4.80695915222168, 'cur_lr': 4.999999873689376e-05, 'total_loss': 268.3694763183594}, 'load_time_ms': 0.683, 'num_steps_sampled': 2210400, 'grad_time_ms': 699.345, 'update_time_ms': 2.458, 'sample_time_ms': 34985.205}",2025-08-31_08-23-38,cda-server-4,35.63539433479309,11052,1756621418,10.157.146.4,False,58362.42100787163,1200
+1843,-611.2457017948936,1843,2211600,{},-771.4551260283122,2211600,0,58396.517055511475,-486.66220417818766,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2211600, 'default': {'kl': 0.011913836002349854, 'policy_loss': -0.1345730423927307, 'vf_loss': 172.24266052246094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9818291068077087, 'entropy': 4.527493000030518, 'cur_lr': 4.999999873689376e-05, 'total_loss': 172.1261749267578}, 'load_time_ms': 0.688, 'num_steps_sampled': 2211600, 'grad_time_ms': 700.668, 'update_time_ms': 2.483, 'sample_time_ms': 34769.528}",2025-08-31_08-24-12,cda-server-4,34.0960476398468,11058,1756621452,10.157.146.4,False,58396.517055511475,1200
+1844,-611.3114699469902,1844,2212800,{},-771.4551260283122,2212800,0,58431.21335911751,-486.66220417818766,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2212800, 'default': {'kl': 0.009851713664829731, 'policy_loss': -0.12120617926120758, 'vf_loss': 504.1893005371094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9454695582389832, 'entropy': 4.670413970947266, 'cur_lr': 4.999999873689376e-05, 'total_loss': 504.08306884765625}, 'load_time_ms': 0.688, 'num_steps_sampled': 2212800, 'grad_time_ms': 705.195, 'update_time_ms': 2.686, 'sample_time_ms': 34645.893}",2025-08-31_08-24-47,cda-server-4,34.696303606033325,11064,1756621487,10.157.146.4,False,58431.21335911751,1200
+1845,-610.397020851431,1845,2214000,{},-771.4551260283122,2214000,0,58466.551171541214,-486.66220417818766,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2214000, 'default': {'kl': 0.00966347474604845, 'policy_loss': -0.12083940953016281, 'vf_loss': 158.3485107421875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9798487424850464, 'entropy': 4.447274208068848, 'cur_lr': 4.999999873689376e-05, 'total_loss': 158.2423553466797}, 'load_time_ms': 0.72, 'num_steps_sampled': 2214000, 'grad_time_ms': 713.125, 'update_time_ms': 2.7, 'sample_time_ms': 34621.062}",2025-08-31_08-25-23,cda-server-4,35.337812423706055,11070,1756621523,10.157.146.4,False,58466.551171541214,1200
+1846,-609.9615395062715,1846,2215200,{},-771.4551260283122,2215200,0,58501.514256477356,-486.66220417818766,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2215200, 'default': {'kl': 0.01058317068964243, 'policy_loss': -0.13785070180892944, 'vf_loss': 175.2120361328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9785025119781494, 'entropy': 4.691525936126709, 'cur_lr': 4.999999873689376e-05, 'total_loss': 175.0902557373047}, 'load_time_ms': 0.705, 'num_steps_sampled': 2215200, 'grad_time_ms': 717.453, 'update_time_ms': 2.775, 'sample_time_ms': 34658.0}",2025-08-31_08-25-58,cda-server-4,34.96308493614197,11076,1756621558,10.157.146.4,False,58501.514256477356,1200
+1847,-608.3957776316179,1847,2216400,{},-771.4551260283122,2216400,0,58536.59261965752,-470.4446397315879,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2216400, 'default': {'kl': 0.01246030256152153, 'policy_loss': -0.1608627438545227, 'vf_loss': 118.85515594482422, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9871278405189514, 'entropy': 4.586982250213623, 'cur_lr': 4.999999873689376e-05, 'total_loss': 118.71322631835938}, 'load_time_ms': 0.674, 'num_steps_sampled': 2216400, 'grad_time_ms': 717.329, 'update_time_ms': 2.796, 'sample_time_ms': 34533.912}",2025-08-31_08-26-33,cda-server-4,35.07836318016052,11082,1756621593,10.157.146.4,False,58536.59261965752,1200
+1848,-608.2678246449948,1848,2217600,{},-771.4551260283122,2217600,0,58571.92138457298,-470.4446397315879,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2217600, 'default': {'kl': 0.012419788166880608, 'policy_loss': -0.153387188911438, 'vf_loss': 185.8761444091797, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9775583744049072, 'entropy': 4.422277450561523, 'cur_lr': 4.999999873689376e-05, 'total_loss': 185.7416229248047}, 'load_time_ms': 0.669, 'num_steps_sampled': 2217600, 'grad_time_ms': 722.265, 'update_time_ms': 2.667, 'sample_time_ms': 34423.456}",2025-08-31_08-27-08,cda-server-4,35.32876491546631,11088,1756621628,10.157.146.4,False,58571.92138457298,1200
+1849,-607.981163079243,1849,2218800,{},-771.4551260283122,2218800,0,58607.041196107864,-470.4446397315879,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2218800, 'default': {'kl': 0.011431368067860603, 'policy_loss': -0.1542799174785614, 'vf_loss': 344.3640441894531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9693264365196228, 'entropy': 4.394022464752197, 'cur_lr': 4.999999873689376e-05, 'total_loss': 344.2271423339844}, 'load_time_ms': 0.663, 'num_steps_sampled': 2218800, 'grad_time_ms': 725.458, 'update_time_ms': 2.649, 'sample_time_ms': 34426.518}",2025-08-31_08-27-43,cda-server-4,35.11981153488159,11094,1756621663,10.157.146.4,False,58607.041196107864,1200
+1850,-608.9723125639553,1850,2220000,{},-771.4551260283122,2220000,0,58641.74304127693,-470.4446397315879,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2220000, 'default': {'kl': 0.011756380088627338, 'policy_loss': -0.15627452731132507, 'vf_loss': 352.26776123046875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9760432839393616, 'entropy': 4.647180557250977, 'cur_lr': 4.999999873689376e-05, 'total_loss': 352.1293640136719}, 'load_time_ms': 0.686, 'num_steps_sampled': 2220000, 'grad_time_ms': 728.478, 'update_time_ms': 2.622, 'sample_time_ms': 34382.15}",2025-08-31_08-28-18,cda-server-4,34.70184516906738,11100,1756621698,10.157.146.4,False,58641.74304127693,1200
+1851,-610.8093882446187,1851,2221200,{},-771.4551260283122,2221200,0,58676.853449344635,-470.4446397315879,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2221200, 'default': {'kl': 0.009806559421122074, 'policy_loss': -0.12140031903982162, 'vf_loss': 179.81961059570312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9843747615814209, 'entropy': 4.520040035247803, 'cur_lr': 4.999999873689376e-05, 'total_loss': 179.71310424804688}, 'load_time_ms': 0.7, 'num_steps_sampled': 2221200, 'grad_time_ms': 725.42, 'update_time_ms': 2.463, 'sample_time_ms': 34274.36}",2025-08-31_08-28-53,cda-server-4,35.11040806770325,11106,1756621733,10.157.146.4,False,58676.853449344635,1200
+1852,-611.1313504371117,1852,2222400,{},-771.4551260283122,2222400,0,58711.88317966461,-470.4446397315879,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2222400, 'default': {'kl': 0.010102491825819016, 'policy_loss': -0.14448943734169006, 'vf_loss': 196.53565979003906, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9799734950065613, 'entropy': 4.566511631011963, 'cur_lr': 4.999999873689376e-05, 'total_loss': 196.40652465820312}, 'load_time_ms': 0.672, 'num_steps_sampled': 2222400, 'grad_time_ms': 724.719, 'update_time_ms': 2.487, 'sample_time_ms': 34214.449}",2025-08-31_08-29-28,cda-server-4,35.02973031997681,11112,1756621768,10.157.146.4,False,58711.88317966461,1200
+1853,-611.0436666096082,1853,2223600,{},-771.4551260283122,2223600,0,58746.80774450302,-470.4446397315879,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2223600, 'default': {'kl': 0.008827287703752518, 'policy_loss': -0.09101260453462601, 'vf_loss': 176.32073974609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9712681174278259, 'entropy': 4.455098628997803, 'cur_lr': 4.999999873689376e-05, 'total_loss': 176.24313354492188}, 'load_time_ms': 0.665, 'num_steps_sampled': 2223600, 'grad_time_ms': 726.729, 'update_time_ms': 2.416, 'sample_time_ms': 34295.367}",2025-08-31_08-30-03,cda-server-4,34.924564838409424,11118,1756621803,10.157.146.4,False,58746.80774450302,1200
+1854,-609.054559023447,1854,2224800,{},-771.4551260283122,2224800,0,58782.07614159584,-470.4446397315879,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2224800, 'default': {'kl': 0.011774942278862, 'policy_loss': -0.1562187671661377, 'vf_loss': 111.38330841064453, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9851822257041931, 'entropy': 4.468575477600098, 'cur_lr': 4.999999873689376e-05, 'total_loss': 111.24496459960938}, 'load_time_ms': 0.704, 'num_steps_sampled': 2224800, 'grad_time_ms': 724.935, 'update_time_ms': 2.221, 'sample_time_ms': 34354.508}",2025-08-31_08-30-38,cda-server-4,35.268397092819214,11124,1756621838,10.157.146.4,False,58782.07614159584,1200
+1855,-605.850367535385,1855,2226000,{},-673.9241152390382,2226000,0,58817.20664858818,-468.5198681810205,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2226000, 'default': {'kl': 0.011946088634431362, 'policy_loss': -0.1620967984199524, 'vf_loss': 199.31837463378906, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9766037464141846, 'entropy': 4.459071159362793, 'cur_lr': 4.999999873689376e-05, 'total_loss': 199.17445373535156}, 'load_time_ms': 0.677, 'num_steps_sampled': 2226000, 'grad_time_ms': 723.441, 'update_time_ms': 2.181, 'sample_time_ms': 34335.402}",2025-08-31_08-31-13,cda-server-4,35.13050699234009,11130,1756621873,10.157.146.4,False,58817.20664858818,1200
+1856,-604.9156523422338,1856,2227200,{},-673.9241152390382,2227200,0,58853.351486206055,-468.5198681810205,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2227200, 'default': {'kl': 0.011315914802253246, 'policy_loss': -0.14372529089450836, 'vf_loss': 292.76708984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9717381000518799, 'entropy': 4.486391067504883, 'cur_lr': 4.999999873689376e-05, 'total_loss': 292.6405334472656}, 'load_time_ms': 0.671, 'num_steps_sampled': 2227200, 'grad_time_ms': 723.954, 'update_time_ms': 2.114, 'sample_time_ms': 34453.163}",2025-08-31_08-31-50,cda-server-4,36.144837617874146,11136,1756621910,10.157.146.4,False,58853.351486206055,1200
+1857,-603.9996906766562,1857,2228400,{},-673.9241152390382,2228400,0,58887.872659921646,-468.5198681810205,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2228400, 'default': {'kl': 0.00918775424361229, 'policy_loss': -0.13974295556545258, 'vf_loss': 135.21290588378906, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9815390110015869, 'entropy': 4.471360206604004, 'cur_lr': 4.999999873689376e-05, 'total_loss': 135.08712768554688}, 'load_time_ms': 0.676, 'num_steps_sampled': 2228400, 'grad_time_ms': 730.146, 'update_time_ms': 2.104, 'sample_time_ms': 34391.291}",2025-08-31_08-32-24,cda-server-4,34.52117371559143,11142,1756621944,10.157.146.4,False,58887.872659921646,1200
+1858,-605.0707730203353,1858,2229600,{},-673.9241152390382,2229600,0,58922.616376161575,-468.5198681810205,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2229600, 'default': {'kl': 0.009308308362960815, 'policy_loss': -0.11331252008676529, 'vf_loss': 361.3709411621094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9492312669754028, 'entropy': 4.616216659545898, 'cur_lr': 4.999999873689376e-05, 'total_loss': 361.2717590332031}, 'load_time_ms': 0.678, 'num_steps_sampled': 2229600, 'grad_time_ms': 732.227, 'update_time_ms': 2.082, 'sample_time_ms': 34330.709}",2025-08-31_08-32-59,cda-server-4,34.7437162399292,11148,1756621979,10.157.146.4,False,58922.616376161575,1200
+1859,-605.1763934659194,1859,2230800,{},-673.9241152390382,2230800,0,58957.90088105202,-468.5198681810205,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2230800, 'default': {'kl': 0.010914957150816917, 'policy_loss': -0.1465362161397934, 'vf_loss': 35.72911834716797, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9952728748321533, 'entropy': 4.599719047546387, 'cur_lr': 4.999999873689376e-05, 'total_loss': 35.59916305541992}, 'load_time_ms': 0.682, 'num_steps_sampled': 2230800, 'grad_time_ms': 731.442, 'update_time_ms': 2.099, 'sample_time_ms': 34347.908}",2025-08-31_08-33-34,cda-server-4,35.284504890441895,11154,1756622014,10.157.146.4,False,58957.90088105202,1200
+1860,-605.8404306502266,1860,2232000,{},-673.9241152390382,2232000,0,58993.557057619095,-468.5198681810205,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2232000, 'default': {'kl': 0.010011487640440464, 'policy_loss': -0.12216615676879883, 'vf_loss': 112.54733276367188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9844847917556763, 'entropy': 4.403196334838867, 'cur_lr': 4.999999873689376e-05, 'total_loss': 112.44037628173828}, 'load_time_ms': 0.654, 'num_steps_sampled': 2232000, 'grad_time_ms': 727.866, 'update_time_ms': 2.166, 'sample_time_ms': 34446.862}",2025-08-31_08-34-10,cda-server-4,35.65617656707764,11160,1756622050,10.157.146.4,False,58993.557057619095,1200
+1861,-607.0192041740117,1861,2233200,{},-673.9241152390382,2233200,0,59029.03227472305,-468.5198681810205,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2233200, 'default': {'kl': 0.010008050128817558, 'policy_loss': -0.12352922558784485, 'vf_loss': 240.74978637695312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9709479808807373, 'entropy': 4.573344707489014, 'cur_lr': 4.999999873689376e-05, 'total_loss': 240.6414337158203}, 'load_time_ms': 0.638, 'num_steps_sampled': 2233200, 'grad_time_ms': 723.657, 'update_time_ms': 2.254, 'sample_time_ms': 34487.472}",2025-08-31_08-34-45,cda-server-4,35.47521710395813,11166,1756622085,10.157.146.4,False,59029.03227472305,1200
+1862,-606.5313689535653,1862,2234400,{},-673.9241152390382,2234400,0,59064.131383657455,-468.5198681810205,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2234400, 'default': {'kl': 0.010658442042768002, 'policy_loss': -0.1431174874305725, 'vf_loss': 364.6737060546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.957650899887085, 'entropy': 4.55171537399292, 'cur_lr': 4.999999873689376e-05, 'total_loss': 364.5467529296875}, 'load_time_ms': 0.637, 'num_steps_sampled': 2234400, 'grad_time_ms': 719.139, 'update_time_ms': 2.231, 'sample_time_ms': 34499.007}",2025-08-31_08-35-20,cda-server-4,35.099108934402466,11172,1756622120,10.157.146.4,False,59064.131383657455,1200
+1863,-609.158207423575,1863,2235600,{},-673.9241152390382,2235600,0,59099.58349132538,-468.5198681810205,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2235600, 'default': {'kl': 0.007173154037445784, 'policy_loss': -0.10915388911962509, 'vf_loss': 172.02569580078125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9767391681671143, 'entropy': 4.567051410675049, 'cur_lr': 4.999999873689376e-05, 'total_loss': 171.92742919921875}, 'load_time_ms': 0.671, 'num_steps_sampled': 2235600, 'grad_time_ms': 703.217, 'update_time_ms': 2.218, 'sample_time_ms': 34567.624}",2025-08-31_08-35-56,cda-server-4,35.452107667922974,11178,1756622156,10.157.146.4,False,59099.58349132538,1200
+1864,-607.0228023032965,1864,2236800,{},-673.9241152390382,2236800,0,59134.313173532486,-468.5198681810205,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2236800, 'default': {'kl': 0.009405846707522869, 'policy_loss': -0.1435595154762268, 'vf_loss': 280.7186584472656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9642512202262878, 'entropy': 4.711198806762695, 'cur_lr': 4.999999873689376e-05, 'total_loss': 280.58941650390625}, 'load_time_ms': 0.669, 'num_steps_sampled': 2236800, 'grad_time_ms': 690.707, 'update_time_ms': 2.306, 'sample_time_ms': 34526.16}",2025-08-31_08-36-31,cda-server-4,34.729682207107544,11184,1756622191,10.157.146.4,False,59134.313173532486,1200
+1865,-606.6242458858063,1865,2238000,{},-673.9241152390382,2238000,0,59168.888548612595,-468.5198681810205,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2238000, 'default': {'kl': 0.010460706427693367, 'policy_loss': -0.13244402408599854, 'vf_loss': 103.70799255371094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9906790852546692, 'entropy': 4.555520057678223, 'cur_lr': 4.999999873689376e-05, 'total_loss': 103.5914306640625}, 'load_time_ms': 0.671, 'num_steps_sampled': 2238000, 'grad_time_ms': 684.738, 'update_time_ms': 2.344, 'sample_time_ms': 34476.534}",2025-08-31_08-37-05,cda-server-4,34.57537508010864,11190,1756622225,10.157.146.4,False,59168.888548612595,1200
+1866,-606.9119415980272,1866,2239200,{},-673.9241152390382,2239200,0,59204.40062427521,-468.5198681810205,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2239200, 'default': {'kl': 0.007888519205152988, 'policy_loss': -0.1316213756799698, 'vf_loss': 269.9023132324219, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9663469791412354, 'entropy': 4.75045919418335, 'cur_lr': 4.999999873689376e-05, 'total_loss': 269.7826843261719}, 'load_time_ms': 0.665, 'num_steps_sampled': 2239200, 'grad_time_ms': 676.641, 'update_time_ms': 2.374, 'sample_time_ms': 34421.302}",2025-08-31_08-37-41,cda-server-4,35.512075662612915,11196,1756622261,10.157.146.4,False,59204.40062427521,1200
+1867,-606.9727390318974,1867,2240400,{},-658.908963457573,2240400,0,59239.255810022354,-468.5198681810205,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2240400, 'default': {'kl': 0.009595971554517746, 'policy_loss': -0.130348801612854, 'vf_loss': 286.0299377441406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9701542258262634, 'entropy': 4.66596794128418, 'cur_lr': 4.999999873689376e-05, 'total_loss': 285.9141845703125}, 'load_time_ms': 0.66, 'num_steps_sampled': 2240400, 'grad_time_ms': 675.445, 'update_time_ms': 2.375, 'sample_time_ms': 34455.845}",2025-08-31_08-38-16,cda-server-4,34.855185747146606,11202,1756622296,10.157.146.4,False,59239.255810022354,1200
+1868,-606.491592016345,1868,2241600,{},-658.908963457573,2241600,0,59273.952629327774,-468.5198681810205,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2241600, 'default': {'kl': 0.008784028701484203, 'policy_loss': -0.13579204678535461, 'vf_loss': 150.09959411621094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.979436457157135, 'entropy': 4.738261699676514, 'cur_lr': 4.999999873689376e-05, 'total_loss': 149.97714233398438}, 'load_time_ms': 0.701, 'num_steps_sampled': 2241600, 'grad_time_ms': 674.133, 'update_time_ms': 2.38, 'sample_time_ms': 34452.333}",2025-08-31_08-38-50,cda-server-4,34.69681930541992,11208,1756622330,10.157.146.4,False,59273.952629327774,1200
+1869,-606.2831506029603,1869,2242800,{},-658.908963457573,2242800,0,59309.303000450134,-468.5198681810205,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2242800, 'default': {'kl': 0.010838974267244339, 'policy_loss': -0.15180295705795288, 'vf_loss': 43.38739776611328, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9942114353179932, 'entropy': 4.501048564910889, 'cur_lr': 4.999999873689376e-05, 'total_loss': 43.25205612182617}, 'load_time_ms': 0.697, 'num_steps_sampled': 2242800, 'grad_time_ms': 664.286, 'update_time_ms': 2.395, 'sample_time_ms': 34468.543}",2025-08-31_08-39-26,cda-server-4,35.35037112236023,11214,1756622366,10.157.146.4,False,59309.303000450134,1200
+1870,-607.3312089327845,1870,2244000,{},-658.908963457573,2244000,0,59345.538959264755,-468.5198681810205,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2244000, 'default': {'kl': 0.010398777201771736, 'policy_loss': -0.14226725697517395, 'vf_loss': 76.45146942138672, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9901787638664246, 'entropy': 4.5903849601745605, 'cur_lr': 4.999999873689376e-05, 'total_loss': 76.32498931884766}, 'load_time_ms': 0.696, 'num_steps_sampled': 2244000, 'grad_time_ms': 666.14, 'update_time_ms': 2.393, 'sample_time_ms': 34524.776}",2025-08-31_08-40-02,cda-server-4,36.23595881462097,11220,1756622402,10.157.146.4,False,59345.538959264755,1200
+1871,-609.9094244687072,1871,2245200,{},-658.908963457573,2245200,0,59380.29015493393,-475.8821496184719,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2245200, 'default': {'kl': 0.01132587343454361, 'policy_loss': -0.14494973421096802, 'vf_loss': 115.56072235107422, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9848868250846863, 'entropy': 4.451964378356934, 'cur_lr': 4.999999873689376e-05, 'total_loss': 115.43296813964844}, 'load_time_ms': 0.734, 'num_steps_sampled': 2245200, 'grad_time_ms': 673.713, 'update_time_ms': 2.299, 'sample_time_ms': 34444.852}",2025-08-31_08-40-37,cda-server-4,34.751195669174194,11226,1756622437,10.157.146.4,False,59380.29015493393,1200
+1872,-610.4207533692745,1872,2246400,{},-658.908963457573,2246400,0,59415.71090555191,-475.8821496184719,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2246400, 'default': {'kl': 0.008086467161774635, 'policy_loss': -0.11677893251180649, 'vf_loss': 125.77427673339844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9800527095794678, 'entropy': 4.474642753601074, 'cur_lr': 4.999999873689376e-05, 'total_loss': 125.66976928710938}, 'load_time_ms': 0.753, 'num_steps_sampled': 2246400, 'grad_time_ms': 678.59, 'update_time_ms': 2.286, 'sample_time_ms': 34472.069}",2025-08-31_08-41-12,cda-server-4,35.42075061798096,11232,1756622472,10.157.146.4,False,59415.71090555191,1200
+1873,-609.7889291836233,1873,2247600,{},-658.908963457573,2247600,0,59451.01519227028,-475.8821496184719,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2247600, 'default': {'kl': 0.010797486640512943, 'policy_loss': -0.14850576221942902, 'vf_loss': 71.12689971923828, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9901077747344971, 'entropy': 4.65526819229126, 'cur_lr': 4.999999873689376e-05, 'total_loss': 70.99479675292969}, 'load_time_ms': 0.721, 'num_steps_sampled': 2247600, 'grad_time_ms': 686.384, 'update_time_ms': 2.466, 'sample_time_ms': 34449.404}",2025-08-31_08-41-48,cda-server-4,35.30428671836853,11238,1756622508,10.157.146.4,False,59451.01519227028,1200
+1874,-609.5016729991921,1874,2248800,{},-658.908963457573,2248800,0,59485.70967769623,-475.8821496184719,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2248800, 'default': {'kl': 0.011396045796573162, 'policy_loss': -0.14609289169311523, 'vf_loss': 316.27130126953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9620907306671143, 'entropy': 4.543003082275391, 'cur_lr': 4.999999873689376e-05, 'total_loss': 316.1424560546875}, 'load_time_ms': 0.689, 'num_steps_sampled': 2248800, 'grad_time_ms': 695.097, 'update_time_ms': 2.395, 'sample_time_ms': 34437.164}",2025-08-31_08-42-22,cda-server-4,34.6944854259491,11244,1756622542,10.157.146.4,False,59485.70967769623,1200
+1875,-607.875961433431,1875,2250000,{},-658.908963457573,2250000,0,59520.33652853966,-475.8821496184719,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2250000, 'default': {'kl': 0.011238831095397472, 'policy_loss': -0.16010461747646332, 'vf_loss': 209.0278778076172, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9723273515701294, 'entropy': 4.457356929779053, 'cur_lr': 4.999999873689376e-05, 'total_loss': 208.88482666015625}, 'load_time_ms': 0.688, 'num_steps_sampled': 2250000, 'grad_time_ms': 700.345, 'update_time_ms': 2.4, 'sample_time_ms': 34437.018}",2025-08-31_08-42-57,cda-server-4,34.626850843429565,11250,1756622577,10.157.146.4,False,59520.33652853966,1200
+1876,-608.1025322514047,1876,2251200,{},-658.908963457573,2251200,0,59555.510207891464,-475.8821496184719,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2251200, 'default': {'kl': 0.00961464736610651, 'policy_loss': -0.12395366281270981, 'vf_loss': 70.99617004394531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.990143895149231, 'entropy': 4.631591320037842, 'cur_lr': 4.999999873689376e-05, 'total_loss': 70.8868179321289}, 'load_time_ms': 0.718, 'num_steps_sampled': 2251200, 'grad_time_ms': 709.374, 'update_time_ms': 2.426, 'sample_time_ms': 34394.02}",2025-08-31_08-43-32,cda-server-4,35.17367935180664,11256,1756622612,10.157.146.4,False,59555.510207891464,1200
+1877,-608.2863274554007,1877,2252400,{},-658.908963457573,2252400,0,59591.49340176582,-475.8821496184719,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2252400, 'default': {'kl': 0.010510656982660294, 'policy_loss': -0.16070079803466797, 'vf_loss': 530.2830810546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9528338313102722, 'entropy': 4.786444187164307, 'cur_lr': 4.999999873689376e-05, 'total_loss': 530.1383666992188}, 'load_time_ms': 0.738, 'num_steps_sampled': 2252400, 'grad_time_ms': 711.939, 'update_time_ms': 2.421, 'sample_time_ms': 34504.264}",2025-08-31_08-44-08,cda-server-4,35.98319387435913,11262,1756622648,10.157.146.4,False,59591.49340176582,1200
+1878,-609.0736981213294,1878,2253600,{},-658.908963457573,2253600,0,59626.70145988464,-475.8821496184719,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2253600, 'default': {'kl': 0.010773956775665283, 'policy_loss': -0.14092642068862915, 'vf_loss': 370.173583984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9580804109573364, 'entropy': 4.822325229644775, 'cur_lr': 4.999999873689376e-05, 'total_loss': 370.04901123046875}, 'load_time_ms': 0.694, 'num_steps_sampled': 2253600, 'grad_time_ms': 711.866, 'update_time_ms': 2.501, 'sample_time_ms': 34555.529}",2025-08-31_08-44-43,cda-server-4,35.20805811882019,11268,1756622683,10.157.146.4,False,59626.70145988464,1200
+1879,-608.340657637495,1879,2254800,{},-658.908963457573,2254800,0,59662.02494978905,-475.8821496184719,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2254800, 'default': {'kl': 0.00952074769884348, 'policy_loss': -0.1500597596168518, 'vf_loss': 79.0191879272461, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9905041456222534, 'entropy': 4.523961544036865, 'cur_lr': 4.999999873689376e-05, 'total_loss': 78.88358306884766}, 'load_time_ms': 0.69, 'num_steps_sampled': 2254800, 'grad_time_ms': 716.709, 'update_time_ms': 2.469, 'sample_time_ms': 34548.289}",2025-08-31_08-45-19,cda-server-4,35.32348990440369,11274,1756622719,10.157.146.4,False,59662.02494978905,1200
+1880,-609.9711472751868,1880,2256000,{},-658.908963457573,2256000,0,59697.9871339798,-488.7675457216384,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2256000, 'default': {'kl': 0.008971050381660461, 'policy_loss': -0.11841101199388504, 'vf_loss': 127.56990814208984, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9848765134811401, 'entropy': 4.585569381713867, 'cur_lr': 4.999999873689376e-05, 'total_loss': 127.46511840820312}, 'load_time_ms': 0.686, 'num_steps_sampled': 2256000, 'grad_time_ms': 705.389, 'update_time_ms': 2.423, 'sample_time_ms': 34532.314}",2025-08-31_08-45-55,cda-server-4,35.96218419075012,11280,1756622755,10.157.146.4,False,59697.9871339798,1200
+1881,-608.856973759489,1881,2257200,{},-658.908963457573,2257200,0,59732.8558306694,-488.7675457216384,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2257200, 'default': {'kl': 0.009047603234648705, 'policy_loss': -0.10782808065414429, 'vf_loss': 202.07904052734375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9797747731208801, 'entropy': 4.620019912719727, 'cur_lr': 4.999999873689376e-05, 'total_loss': 201.98492431640625}, 'load_time_ms': 0.674, 'num_steps_sampled': 2257200, 'grad_time_ms': 695.494, 'update_time_ms': 2.471, 'sample_time_ms': 34553.882}",2025-08-31_08-46-30,cda-server-4,34.86869668960571,11286,1756622790,10.157.146.4,False,59732.8558306694,1200
+1882,-609.0946997461813,1882,2258400,{},-653.5768225447782,2258400,0,59767.878360271454,-488.7675457216384,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2258400, 'default': {'kl': 0.01174311712384224, 'policy_loss': -0.16410981118679047, 'vf_loss': 155.7248992919922, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9828503131866455, 'entropy': 4.731600284576416, 'cur_lr': 4.999999873689376e-05, 'total_loss': 155.57859802246094}, 'load_time_ms': 0.655, 'num_steps_sampled': 2258400, 'grad_time_ms': 695.91, 'update_time_ms': 2.441, 'sample_time_ms': 34513.708}",2025-08-31_08-47-05,cda-server-4,35.02252960205078,11292,1756622825,10.157.146.4,False,59767.878360271454,1200
+1883,-609.1106167715758,1883,2259600,{},-653.5768225447782,2259600,0,59804.121101379395,-488.7675457216384,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2259600, 'default': {'kl': 0.009650164283812046, 'policy_loss': -0.1347268521785736, 'vf_loss': 156.94786071777344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9825683236122131, 'entropy': 4.639603614807129, 'cur_lr': 4.999999873689376e-05, 'total_loss': 156.82778930664062}, 'load_time_ms': 0.688, 'num_steps_sampled': 2259600, 'grad_time_ms': 703.544, 'update_time_ms': 2.32, 'sample_time_ms': 34599.968}",2025-08-31_08-47-41,cda-server-4,36.242741107940674,11298,1756622861,10.157.146.4,False,59804.121101379395,1200
+1884,-608.4321295784238,1884,2260800,{},-654.592296364232,2260800,0,59839.44995713234,-488.7675457216384,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2260800, 'default': {'kl': 0.012712500058114529, 'policy_loss': -0.1566726565361023, 'vf_loss': 42.80247497558594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9957764148712158, 'entropy': 4.664846420288086, 'cur_lr': 4.999999873689376e-05, 'total_loss': 42.66510772705078}, 'load_time_ms': 0.715, 'num_steps_sampled': 2260800, 'grad_time_ms': 708.248, 'update_time_ms': 2.352, 'sample_time_ms': 34658.694}",2025-08-31_08-48-16,cda-server-4,35.328855752944946,11304,1756622896,10.157.146.4,False,59839.44995713234,1200
+1885,-607.4983137005645,1885,2262000,{},-654.592296364232,2262000,0,59875.27689766884,-488.7675457216384,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2262000, 'default': {'kl': 0.011600595898926258, 'policy_loss': -0.12806859612464905, 'vf_loss': 255.9854278564453, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9851011633872986, 'entropy': 4.510145664215088, 'cur_lr': 4.999999873689376e-05, 'total_loss': 255.875}, 'load_time_ms': 0.713, 'num_steps_sampled': 2262000, 'grad_time_ms': 710.409, 'update_time_ms': 2.43, 'sample_time_ms': 34776.488}",2025-08-31_08-48-52,cda-server-4,35.82694053649902,11310,1756622932,10.157.146.4,False,59875.27689766884,1200
+1886,-608.1794917979172,1886,2263200,{},-654.592296364232,2263200,0,59909.61556816101,-488.7675457216384,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2263200, 'default': {'kl': 0.009684552438557148, 'policy_loss': -0.13583821058273315, 'vf_loss': 133.56646728515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9793421626091003, 'entropy': 4.430937767028809, 'cur_lr': 4.999999873689376e-05, 'total_loss': 133.44534301757812}, 'load_time_ms': 0.689, 'num_steps_sampled': 2263200, 'grad_time_ms': 707.89, 'update_time_ms': 2.454, 'sample_time_ms': 34695.604}",2025-08-31_08-49-26,cda-server-4,34.33867049217224,11316,1756622966,10.157.146.4,False,59909.61556816101,1200
+1887,-608.1384795039211,1887,2264400,{},-673.448213356585,2264400,0,59945.53981637955,-488.7675457216384,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2264400, 'default': {'kl': 0.012199819087982178, 'policy_loss': -0.1383167952299118, 'vf_loss': 328.73065185546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.963430643081665, 'entropy': 4.515212535858154, 'cur_lr': 4.999999873689376e-05, 'total_loss': 328.6108703613281}, 'load_time_ms': 0.67, 'num_steps_sampled': 2264400, 'grad_time_ms': 705.79, 'update_time_ms': 2.462, 'sample_time_ms': 34691.816}",2025-08-31_08-50-02,cda-server-4,35.92424821853638,11322,1756623002,10.157.146.4,False,59945.53981637955,1200
+1888,-608.1215174460863,1888,2265600,{},-673.448213356585,2265600,0,59981.23711633682,-488.7675457216384,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2265600, 'default': {'kl': 0.010439612902700901, 'policy_loss': -0.11658426374197006, 'vf_loss': 437.7771301269531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9522927403450012, 'entropy': 4.552679538726807, 'cur_lr': 4.999999873689376e-05, 'total_loss': 437.6763916015625}, 'load_time_ms': 0.679, 'num_steps_sampled': 2265600, 'grad_time_ms': 707.676, 'update_time_ms': 2.376, 'sample_time_ms': 34738.898}",2025-08-31_08-50-38,cda-server-4,35.69729995727539,11328,1756623038,10.157.146.4,False,59981.23711633682,1200
+1889,-607.8579380897636,1889,2266800,{},-673.448213356585,2266800,0,60016.41475176811,-488.7675457216384,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2266800, 'default': {'kl': 0.009957320056855679, 'policy_loss': -0.1370723843574524, 'vf_loss': 96.09942626953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9855859279632568, 'entropy': 4.394604206085205, 'cur_lr': 4.999999873689376e-05, 'total_loss': 95.97747802734375}, 'load_time_ms': 0.706, 'num_steps_sampled': 2266800, 'grad_time_ms': 713.899, 'update_time_ms': 2.356, 'sample_time_ms': 34718.065}",2025-08-31_08-51-13,cda-server-4,35.17763543128967,11334,1756623073,10.157.146.4,False,60016.41475176811,1200
+1890,-608.990750460122,1890,2268000,{},-673.448213356585,2268000,0,60051.98593044281,-496.58376665395105,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2268000, 'default': {'kl': 0.008761223405599594, 'policy_loss': -0.11330679059028625, 'vf_loss': 54.30274200439453, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9946733117103577, 'entropy': 4.586752414703369, 'cur_lr': 4.999999873689376e-05, 'total_loss': 54.20274353027344}, 'load_time_ms': 0.715, 'num_steps_sampled': 2268000, 'grad_time_ms': 725.879, 'update_time_ms': 2.387, 'sample_time_ms': 34666.922}",2025-08-31_08-51-49,cda-server-4,35.571178674697876,11340,1756623109,10.157.146.4,False,60051.98593044281,1200
+1891,-610.5170593277912,1891,2269200,{},-673.448213356585,2269200,0,60087.78665757179,-541.2485258451148,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2269200, 'default': {'kl': 0.008209514431655407, 'policy_loss': -0.12623515725135803, 'vf_loss': 81.40249633789062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9911883473396301, 'entropy': 4.365841865539551, 'cur_lr': 4.999999873689376e-05, 'total_loss': 81.28872680664062}, 'load_time_ms': 0.69, 'num_steps_sampled': 2269200, 'grad_time_ms': 734.598, 'update_time_ms': 2.339, 'sample_time_ms': 34751.55}",2025-08-31_08-52-25,cda-server-4,35.800727128982544,11346,1756623145,10.157.146.4,False,60087.78665757179,1200
+1892,-610.3453001284955,1892,2270400,{},-673.448213356585,2270400,0,60123.24663066864,-541.2485258451148,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2270400, 'default': {'kl': 0.014813981018960476, 'policy_loss': -0.17079657316207886, 'vf_loss': 335.8788757324219, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.969568133354187, 'entropy': 4.538633346557617, 'cur_lr': 4.999999873689376e-05, 'total_loss': 335.7305908203125}, 'load_time_ms': 0.722, 'num_steps_sampled': 2270400, 'grad_time_ms': 734.208, 'update_time_ms': 2.368, 'sample_time_ms': 34795.695}",2025-08-31_08-53-00,cda-server-4,35.459973096847534,11352,1756623180,10.157.146.4,False,60123.24663066864,1200
+1893,-609.8668140908053,1893,2271600,{},-673.448213356585,2271600,0,60158.745151519775,-541.2485258451148,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2271600, 'default': {'kl': 0.011351686902344227, 'policy_loss': -0.13872435688972473, 'vf_loss': 64.54837799072266, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.990523636341095, 'entropy': 4.489047527313232, 'cur_lr': 4.999999873689376e-05, 'total_loss': 64.42689514160156}, 'load_time_ms': 0.69, 'num_steps_sampled': 2271600, 'grad_time_ms': 734.44, 'update_time_ms': 2.325, 'sample_time_ms': 34721.129}",2025-08-31_08-53-36,cda-server-4,35.498520851135254,11358,1756623216,10.157.146.4,False,60158.745151519775,1200
+1894,-607.9486204331967,1894,2272800,{},-673.448213356585,2272800,0,60195.038748025894,-491.35537346287913,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2272800, 'default': {'kl': 0.009718751534819603, 'policy_loss': -0.12990988790988922, 'vf_loss': 67.392333984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9920873641967773, 'entropy': 4.540516376495361, 'cur_lr': 4.999999873689376e-05, 'total_loss': 67.27719116210938}, 'load_time_ms': 0.658, 'num_steps_sampled': 2272800, 'grad_time_ms': 733.924, 'update_time_ms': 2.318, 'sample_time_ms': 34818.263}",2025-08-31_08-54-12,cda-server-4,36.293596506118774,11364,1756623252,10.157.146.4,False,60195.038748025894,1200
+1895,-608.0558083009105,1895,2274000,{},-673.448213356585,2274000,0,60230.47767210007,-491.35537346287913,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2274000, 'default': {'kl': 0.010346069000661373, 'policy_loss': -0.128778874874115, 'vf_loss': 388.4018859863281, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9648643136024475, 'entropy': 4.8063154220581055, 'cur_lr': 4.999999873689376e-05, 'total_loss': 388.2888488769531}, 'load_time_ms': 0.66, 'num_steps_sampled': 2274000, 'grad_time_ms': 732.339, 'update_time_ms': 2.29, 'sample_time_ms': 34781.026}",2025-08-31_08-54-47,cda-server-4,35.438924074172974,11370,1756623287,10.157.146.4,False,60230.47767210007,1200
+1896,-608.3675274089353,1896,2275200,{},-673.448213356585,2275200,0,60265.12314629555,-491.35537346287913,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2275200, 'default': {'kl': 0.009834829717874527, 'policy_loss': -0.1338658183813095, 'vf_loss': 149.04501342773438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9817459583282471, 'entropy': 4.538355350494385, 'cur_lr': 4.999999873689376e-05, 'total_loss': 148.92608642578125}, 'load_time_ms': 0.669, 'num_steps_sampled': 2275200, 'grad_time_ms': 732.619, 'update_time_ms': 2.34, 'sample_time_ms': 34811.267}",2025-08-31_08-55-22,cda-server-4,34.64547419548035,11376,1756623322,10.157.146.4,False,60265.12314629555,1200
+1897,-608.849288458413,1897,2276400,{},-673.448213356585,2276400,0,60301.23402643204,-491.35537346287913,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2276400, 'default': {'kl': 0.011361133307218552, 'policy_loss': -0.14765046536922455, 'vf_loss': 107.8177261352539, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9856516718864441, 'entropy': 4.585470199584961, 'cur_lr': 4.999999873689376e-05, 'total_loss': 107.68733978271484}, 'load_time_ms': 0.674, 'num_steps_sampled': 2276400, 'grad_time_ms': 734.896, 'update_time_ms': 2.37, 'sample_time_ms': 34827.639}",2025-08-31_08-55-58,cda-server-4,36.11088013648987,11382,1756623358,10.157.146.4,False,60301.23402643204,1200
+1898,-609.1949320596044,1898,2277600,{},-673.448213356585,2277600,0,60336.44385623932,-491.35537346287913,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2277600, 'default': {'kl': 0.00827508233487606, 'policy_loss': -0.131058931350708, 'vf_loss': 412.6100158691406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.962810218334198, 'entropy': 4.553155899047852, 'cur_lr': 4.999999873689376e-05, 'total_loss': 412.4915466308594}, 'load_time_ms': 0.673, 'num_steps_sampled': 2277600, 'grad_time_ms': 735.549, 'update_time_ms': 2.388, 'sample_time_ms': 34778.264}",2025-08-31_08-56-33,cda-server-4,35.209829807281494,11388,1756623393,10.157.146.4,False,60336.44385623932,1200
+1899,-608.6166447248714,1899,2278800,{},-673.448213356585,2278800,0,60371.70279979706,-491.35537346287913,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2278800, 'default': {'kl': 0.009782830253243446, 'policy_loss': -0.1519496738910675, 'vf_loss': 137.29747009277344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9880126118659973, 'entropy': 4.684049129486084, 'cur_lr': 4.999999873689376e-05, 'total_loss': 137.16038513183594}, 'load_time_ms': 0.645, 'num_steps_sampled': 2278800, 'grad_time_ms': 735.436, 'update_time_ms': 2.358, 'sample_time_ms': 34786.613}",2025-08-31_08-57-09,cda-server-4,35.25894355773926,11394,1756623429,10.157.146.4,False,60371.70279979706,1200
+1900,-608.4118641280418,1900,2280000,{},-673.448213356585,2280000,0,60406.66093611717,-491.35537346287913,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2280000, 'default': {'kl': 0.011205061338841915, 'policy_loss': -0.1447957307100296, 'vf_loss': 145.3854522705078, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9818503856658936, 'entropy': 4.64528226852417, 'cur_lr': 4.999999873689376e-05, 'total_loss': 145.25767517089844}, 'load_time_ms': 0.637, 'num_steps_sampled': 2280000, 'grad_time_ms': 733.803, 'update_time_ms': 2.327, 'sample_time_ms': 34726.937}",2025-08-31_08-57-44,cda-server-4,34.958136320114136,11400,1756623464,10.157.146.4,False,60406.66093611717,1200
+1901,-608.4670020009543,1901,2281200,{},-673.448213356585,2281200,0,60442.57949066162,-491.35537346287913,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2281200, 'default': {'kl': 0.009109103120863438, 'policy_loss': -0.12198293209075928, 'vf_loss': 403.6103820800781, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9784926176071167, 'entropy': 4.516965866088867, 'cur_lr': 4.999999873689376e-05, 'total_loss': 403.5022277832031}, 'load_time_ms': 0.64, 'num_steps_sampled': 2281200, 'grad_time_ms': 728.109, 'update_time_ms': 2.357, 'sample_time_ms': 34744.36}",2025-08-31_08-58-20,cda-server-4,35.91855454444885,11406,1756623500,10.157.146.4,False,60442.57949066162,1200
+1902,-608.7666709151146,1902,2282400,{},-673.448213356585,2282400,0,60478.77546262741,-491.35537346287913,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2282400, 'default': {'kl': 0.012117375619709492, 'policy_loss': -0.1441473811864853, 'vf_loss': 195.68894958496094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.976739764213562, 'entropy': 4.279546737670898, 'cur_lr': 4.999999873689376e-05, 'total_loss': 195.5631866455078}, 'load_time_ms': 0.613, 'num_steps_sampled': 2282400, 'grad_time_ms': 713.929, 'update_time_ms': 2.328, 'sample_time_ms': 34832.031}",2025-08-31_08-58-56,cda-server-4,36.195971965789795,11412,1756623536,10.157.146.4,False,60478.77546262741,1200
+1903,-608.8475636016404,1903,2283600,{},-673.448213356585,2283600,0,60513.334003686905,-491.35537346287913,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2283600, 'default': {'kl': 0.010504183359444141, 'policy_loss': -0.1124887764453888, 'vf_loss': 476.22515869140625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.923834502696991, 'entropy': 4.40914249420166, 'cur_lr': 4.999999873689376e-05, 'total_loss': 476.1286315917969}, 'load_time_ms': 0.612, 'num_steps_sampled': 2283600, 'grad_time_ms': 711.784, 'update_time_ms': 2.405, 'sample_time_ms': 34740.037}",2025-08-31_08-59-30,cda-server-4,34.55854105949402,11418,1756623570,10.157.146.4,False,60513.334003686905,1200
+1904,-607.7043929787114,1904,2284800,{},-665.3243581865374,2284800,0,60547.67194914818,-491.35537346287913,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2284800, 'default': {'kl': 0.011844339780509472, 'policy_loss': -0.15949298441410065, 'vf_loss': 70.95259857177734, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.993605375289917, 'entropy': 4.540931224822998, 'cur_lr': 4.999999873689376e-05, 'total_loss': 70.81108856201172}, 'load_time_ms': 0.617, 'num_steps_sampled': 2284800, 'grad_time_ms': 711.719, 'update_time_ms': 2.336, 'sample_time_ms': 34544.525}",2025-08-31_09-00-05,cda-server-4,34.33794546127319,11424,1756623605,10.157.146.4,False,60547.67194914818,1200
+1905,-608.333829062171,1905,2286000,{},-665.3243581865374,2286000,0,60582.21383523941,-491.35537346287913,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2286000, 'default': {'kl': 0.011510095559060574, 'policy_loss': -0.1195344403386116, 'vf_loss': 167.36968994140625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9785757064819336, 'entropy': 4.49379301071167, 'cur_lr': 4.999999873689376e-05, 'total_loss': 167.26763916015625}, 'load_time_ms': 0.615, 'num_steps_sampled': 2286000, 'grad_time_ms': 713.68, 'update_time_ms': 2.287, 'sample_time_ms': 34452.94}",2025-08-31_09-00-39,cda-server-4,34.5418860912323,11430,1756623639,10.157.146.4,False,60582.21383523941,1200
+1906,-608.8244420164881,1906,2287200,{},-711.7949099256788,2287200,0,60617.49005150795,-491.35537346287913,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2287200, 'default': {'kl': 0.012517728842794895, 'policy_loss': -0.15316836535930634, 'vf_loss': 328.22967529296875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9743553996086121, 'entropy': 4.835118770599365, 'cur_lr': 4.999999873689376e-05, 'total_loss': 328.09552001953125}, 'load_time_ms': 0.602, 'num_steps_sampled': 2287200, 'grad_time_ms': 714.09, 'update_time_ms': 2.191, 'sample_time_ms': 34515.766}",2025-08-31_09-01-15,cda-server-4,35.27621626853943,11436,1756623675,10.157.146.4,False,60617.49005150795,1200
+1907,-608.9673674518217,1907,2288400,{},-711.7949099256788,2288400,0,60651.6640856266,-491.35537346287913,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2288400, 'default': {'kl': 0.010573802515864372, 'policy_loss': -0.15745455026626587, 'vf_loss': 270.0554504394531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.962992250919342, 'entropy': 4.645623683929443, 'cur_lr': 4.999999873689376e-05, 'total_loss': 269.91400146484375}, 'load_time_ms': 0.59, 'num_steps_sampled': 2288400, 'grad_time_ms': 707.902, 'update_time_ms': 2.231, 'sample_time_ms': 34328.079}",2025-08-31_09-01-49,cda-server-4,34.174034118652344,11442,1756623709,10.157.146.4,False,60651.6640856266,1200
+1908,-609.67139903134,1908,2289600,{},-711.7949099256788,2289600,0,60686.80200576782,-491.35537346287913,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2289600, 'default': {'kl': 0.009358198381960392, 'policy_loss': -0.13190625607967377, 'vf_loss': 235.4491424560547, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9678032994270325, 'entropy': 4.434785842895508, 'cur_lr': 4.999999873689376e-05, 'total_loss': 235.33143615722656}, 'load_time_ms': 0.583, 'num_steps_sampled': 2289600, 'grad_time_ms': 703.449, 'update_time_ms': 2.313, 'sample_time_ms': 34325.076}",2025-08-31_09-02-24,cda-server-4,35.13792014122009,11448,1756623744,10.157.146.4,False,60686.80200576782,1200
+1909,-610.5643863332687,1909,2290800,{},-711.7949099256788,2290800,0,60723.19060611725,-491.35537346287913,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2290800, 'default': {'kl': 0.00932853389531374, 'policy_loss': -0.13244260847568512, 'vf_loss': 536.4887084960938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9408313035964966, 'entropy': 4.695019245147705, 'cur_lr': 4.999999873689376e-05, 'total_loss': 536.3704223632812}, 'load_time_ms': 0.583, 'num_steps_sampled': 2290800, 'grad_time_ms': 690.853, 'update_time_ms': 2.454, 'sample_time_ms': 34450.46}",2025-08-31_09-03-00,cda-server-4,36.38860034942627,11454,1756623780,10.157.146.4,False,60723.19060611725,1200
+1910,-612.1777576793576,1910,2292000,{},-711.7949099256788,2292000,0,60758.042894124985,-493.23119093761255,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2292000, 'default': {'kl': 0.010313901118934155, 'policy_loss': -0.12525266408920288, 'vf_loss': 324.7765808105469, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9514986872673035, 'entropy': 4.327268600463867, 'cur_lr': 4.999999873689376e-05, 'total_loss': 324.6669921875}, 'load_time_ms': 0.582, 'num_steps_sampled': 2292000, 'grad_time_ms': 679.198, 'update_time_ms': 2.452, 'sample_time_ms': 34451.557}",2025-08-31_09-03-35,cda-server-4,34.852288007736206,11460,1756623815,10.157.146.4,False,60758.042894124985,1200
+1911,-611.0792812337437,1911,2293200,{},-711.7949099256788,2293200,0,60793.385627031326,-493.23119093761255,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2293200, 'default': {'kl': 0.012058901600539684, 'policy_loss': -0.14233486354351044, 'vf_loss': 185.04928588867188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9863615036010742, 'entropy': 4.37265157699585, 'cur_lr': 4.999999873689376e-05, 'total_loss': 184.92526245117188}, 'load_time_ms': 0.614, 'num_steps_sampled': 2293200, 'grad_time_ms': 660.075, 'update_time_ms': 2.401, 'sample_time_ms': 34413.033}",2025-08-31_09-04-11,cda-server-4,35.34273290634155,11466,1756623851,10.157.146.4,False,60793.385627031326,1200
+1912,-612.1790472531103,1912,2294400,{},-711.7949099256788,2294400,0,60828.87524318695,-493.23119093761255,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2294400, 'default': {'kl': 0.010755562223494053, 'policy_loss': -0.13431116938591003, 'vf_loss': 490.87646484375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9360365271568298, 'entropy': 4.746589183807373, 'cur_lr': 4.999999873689376e-05, 'total_loss': 490.7584228515625}, 'load_time_ms': 0.609, 'num_steps_sampled': 2294400, 'grad_time_ms': 663.586, 'update_time_ms': 2.515, 'sample_time_ms': 34338.89}",2025-08-31_09-04-46,cda-server-4,35.48961615562439,11472,1756623886,10.157.146.4,False,60828.87524318695,1200
+1913,-611.8802309887368,1913,2295600,{},-711.7949099256788,2295600,0,60864.66790008545,-493.23119093761255,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2295600, 'default': {'kl': 0.009585955180227757, 'policy_loss': -0.14631208777427673, 'vf_loss': 319.6419372558594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9597170352935791, 'entropy': 4.5666022300720215, 'cur_lr': 4.999999873689376e-05, 'total_loss': 319.5101318359375}, 'load_time_ms': 0.605, 'num_steps_sampled': 2295600, 'grad_time_ms': 643.523, 'update_time_ms': 2.459, 'sample_time_ms': 34482.545}",2025-08-31_09-05-22,cda-server-4,35.792656898498535,11478,1756623922,10.157.146.4,False,60864.66790008545,1200
+1914,-611.4629075907234,1914,2296800,{},-711.7949099256788,2296800,0,60899.178899526596,-493.23119093761255,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2296800, 'default': {'kl': 0.009624130092561245, 'policy_loss': -0.12395029515028, 'vf_loss': 205.10739135742188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9688345789909363, 'entropy': 4.278701305389404, 'cur_lr': 4.999999873689376e-05, 'total_loss': 204.998046875}, 'load_time_ms': 0.602, 'num_steps_sampled': 2296800, 'grad_time_ms': 620.637, 'update_time_ms': 2.467, 'sample_time_ms': 34522.718}",2025-08-31_09-05-57,cda-server-4,34.51099944114685,11484,1756623957,10.157.146.4,False,60899.178899526596,1200
+1915,-611.3368560339159,1915,2298000,{},-711.7949099256788,2298000,0,60934.593205690384,-493.23119093761255,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2298000, 'default': {'kl': 0.011579863727092743, 'policy_loss': -0.13994735479354858, 'vf_loss': 1229.199462890625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.871361494064331, 'entropy': 4.373805999755859, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1229.0771484375}, 'load_time_ms': 0.65, 'num_steps_sampled': 2298000, 'grad_time_ms': 607.541, 'update_time_ms': 2.492, 'sample_time_ms': 34622.896}",2025-08-31_09-06-32,cda-server-4,35.41430616378784,11490,1756623992,10.157.146.4,False,60934.593205690384,1200
+1916,-609.4582650576749,1916,2299200,{},-711.7949099256788,2299200,0,60969.788880348206,-453.4022624480502,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2299200, 'default': {'kl': 0.010104686953127384, 'policy_loss': -0.14509406685829163, 'vf_loss': 756.299072265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9139741063117981, 'entropy': 4.417991638183594, 'cur_lr': 4.999999873689376e-05, 'total_loss': 756.1693115234375}, 'load_time_ms': 0.667, 'num_steps_sampled': 2299200, 'grad_time_ms': 609.439, 'update_time_ms': 2.476, 'sample_time_ms': 34612.959}",2025-08-31_09-07-07,cda-server-4,35.195674657821655,11496,1756624027,10.157.146.4,False,60969.788880348206,1200
+1917,-610.4678854296648,1917,2300400,{},-711.7949099256788,2300400,0,61005.318469285965,-453.4022624480502,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2300400, 'default': {'kl': 0.010647688992321491, 'policy_loss': -0.12670660018920898, 'vf_loss': 36.39363479614258, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9943398237228394, 'entropy': 4.351125240325928, 'cur_lr': 4.999999873689376e-05, 'total_loss': 36.28309631347656}, 'load_time_ms': 0.67, 'num_steps_sampled': 2300400, 'grad_time_ms': 614.244, 'update_time_ms': 2.468, 'sample_time_ms': 34743.878}",2025-08-31_09-07-43,cda-server-4,35.5295889377594,11502,1756624063,10.157.146.4,False,61005.318469285965,1200
+1918,-609.7115212093704,1918,2301600,{},-711.7949099256788,2301600,0,61040.188375234604,-453.4022624480502,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2301600, 'default': {'kl': 0.008742477744817734, 'policy_loss': -0.13144344091415405, 'vf_loss': 164.24713134765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9850142002105713, 'entropy': 4.45274019241333, 'cur_lr': 4.999999873689376e-05, 'total_loss': 164.1289520263672}, 'load_time_ms': 0.704, 'num_steps_sampled': 2301600, 'grad_time_ms': 616.708, 'update_time_ms': 2.388, 'sample_time_ms': 34714.698}",2025-08-31_09-08-18,cda-server-4,34.869905948638916,11508,1756624098,10.157.146.4,False,61040.188375234604,1200
+1919,-609.4032650588914,1919,2302800,{},-711.7949099256788,2302800,0,61075.278963804245,-453.4022624480502,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2302800, 'default': {'kl': 0.009640930220484734, 'policy_loss': -0.14328843355178833, 'vf_loss': 28.80316162109375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9954813718795776, 'entropy': 4.388057231903076, 'cur_lr': 4.999999873689376e-05, 'total_loss': 28.67452049255371}, 'load_time_ms': 0.712, 'num_steps_sampled': 2302800, 'grad_time_ms': 630.114, 'update_time_ms': 2.283, 'sample_time_ms': 34571.521}",2025-08-31_09-08-53,cda-server-4,35.09058856964111,11514,1756624133,10.157.146.4,False,61075.278963804245,1200
+1920,-610.5417477336977,1920,2304000,{},-711.7949099256788,2304000,0,61111.077171087265,-453.4022624480502,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2304000, 'default': {'kl': 0.010020543821156025, 'policy_loss': -0.1284727156162262, 'vf_loss': 105.61672973632812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9841420650482178, 'entropy': 4.640605926513672, 'cur_lr': 4.999999873689376e-05, 'total_loss': 105.50348663330078}, 'load_time_ms': 0.714, 'num_steps_sampled': 2304000, 'grad_time_ms': 640.794, 'update_time_ms': 2.343, 'sample_time_ms': 34655.313}",2025-08-31_09-09-28,cda-server-4,35.79820728302002,11520,1756624168,10.157.146.4,False,61111.077171087265,1200
+1921,-610.5323148901475,1921,2305200,{},-711.7949099256788,2305200,0,61145.77654790878,-453.4022624480502,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2305200, 'default': {'kl': 0.01399171818047762, 'policy_loss': -0.10656053572893143, 'vf_loss': 717.6774291992188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9385840892791748, 'entropy': 4.438390731811523, 'cur_lr': 4.999999873689376e-05, 'total_loss': 717.592041015625}, 'load_time_ms': 0.72, 'num_steps_sampled': 2305200, 'grad_time_ms': 663.423, 'update_time_ms': 2.446, 'sample_time_ms': 34568.238}",2025-08-31_09-10-03,cda-server-4,34.699376821517944,11526,1756624203,10.157.146.4,False,61145.77654790878,1200
+1922,-610.8195114736681,1922,2306400,{},-711.7949099256788,2306400,0,61181.4031085968,-453.4022624480502,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2306400, 'default': {'kl': 0.010695431381464005, 'policy_loss': -0.13833224773406982, 'vf_loss': 1040.58154296875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9123051166534424, 'entropy': 4.665299415588379, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1040.45947265625}, 'load_time_ms': 0.713, 'num_steps_sampled': 2306400, 'grad_time_ms': 671.884, 'update_time_ms': 2.425, 'sample_time_ms': 34573.493}",2025-08-31_09-10-39,cda-server-4,35.6265606880188,11532,1756624239,10.157.146.4,False,61181.4031085968,1200
+1923,-611.156085831753,1923,2307600,{},-696.1352879894887,2307600,0,61216.58201169968,-453.4022624480502,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2307600, 'default': {'kl': 0.008088094182312489, 'policy_loss': -0.11423100531101227, 'vf_loss': 245.07565307617188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9750953316688538, 'entropy': 4.362287521362305, 'cur_lr': 4.999999873689376e-05, 'total_loss': 244.97369384765625}, 'load_time_ms': 0.715, 'num_steps_sampled': 2307600, 'grad_time_ms': 691.741, 'update_time_ms': 2.509, 'sample_time_ms': 34492.143}",2025-08-31_09-11-14,cda-server-4,35.178903102874756,11538,1756624274,10.157.146.4,False,61216.58201169968,1200
+1924,-609.6262646525898,1924,2308800,{},-696.1352879894887,2308800,0,61251.56512928009,-453.4022624480502,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2308800, 'default': {'kl': 0.009610678069293499, 'policy_loss': -0.12001514434814453, 'vf_loss': 945.7374267578125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8541969060897827, 'entropy': 4.33214807510376, 'cur_lr': 4.999999873689376e-05, 'total_loss': 945.6318359375}, 'load_time_ms': 0.716, 'num_steps_sampled': 2308800, 'grad_time_ms': 715.294, 'update_time_ms': 2.492, 'sample_time_ms': 34515.911}",2025-08-31_09-11-49,cda-server-4,34.98311758041382,11544,1756624309,10.157.146.4,False,61251.56512928009,1200
+1925,-609.081046473101,1925,2310000,{},-696.1352879894887,2310000,0,61286.429401397705,-453.4022624480502,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2310000, 'default': {'kl': 0.01061274390667677, 'policy_loss': -0.135540172457695, 'vf_loss': 352.99859619140625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9571707248687744, 'entropy': 4.393710613250732, 'cur_lr': 4.999999873689376e-05, 'total_loss': 352.8791198730469}, 'load_time_ms': 0.672, 'num_steps_sampled': 2310000, 'grad_time_ms': 728.737, 'update_time_ms': 2.481, 'sample_time_ms': 34447.536}",2025-08-31_09-12-24,cda-server-4,34.864272117614746,11550,1756624344,10.157.146.4,False,61286.429401397705,1200
+1926,-608.4468769760498,1926,2311200,{},-696.1352879894887,2311200,0,61324.820581674576,-453.4022624480502,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2311200, 'default': {'kl': 0.009270290844142437, 'policy_loss': -0.13243253529071808, 'vf_loss': 180.14602661132812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9797140955924988, 'entropy': 4.582024574279785, 'cur_lr': 4.999999873689376e-05, 'total_loss': 180.0276641845703}, 'load_time_ms': 0.659, 'num_steps_sampled': 2311200, 'grad_time_ms': 729.915, 'update_time_ms': 2.487, 'sample_time_ms': 34765.923}",2025-08-31_09-13-02,cda-server-4,38.39118027687073,11556,1756624382,10.157.146.4,False,61324.820581674576,1200
+1927,-609.2950599836103,1927,2312400,{},-696.1352879894887,2312400,0,61360.513897418976,-453.4022624480502,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2312400, 'default': {'kl': 0.01144898496568203, 'policy_loss': -0.13741198182106018, 'vf_loss': 289.73345947265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9682984948158264, 'entropy': 4.715510368347168, 'cur_lr': 4.999999873689376e-05, 'total_loss': 289.61346435546875}, 'load_time_ms': 0.658, 'num_steps_sampled': 2312400, 'grad_time_ms': 730.953, 'update_time_ms': 2.492, 'sample_time_ms': 34781.187}",2025-08-31_09-13-38,cda-server-4,35.693315744400024,11562,1756624418,10.157.146.4,False,61360.513897418976,1200
+1928,-609.7592720622749,1928,2313600,{},-696.1352879894887,2313600,0,61395.215868234634,-453.4022624480502,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2313600, 'default': {'kl': 0.012213673442602158, 'policy_loss': -0.1524488776922226, 'vf_loss': 519.1139526367188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9348341822624207, 'entropy': 4.775939464569092, 'cur_lr': 4.999999873689376e-05, 'total_loss': 518.9800415039062}, 'load_time_ms': 0.655, 'num_steps_sampled': 2313600, 'grad_time_ms': 732.601, 'update_time_ms': 2.575, 'sample_time_ms': 34762.739}",2025-08-31_09-14-13,cda-server-4,34.70197081565857,11568,1756624453,10.157.146.4,False,61395.215868234634,1200
+1929,-609.3052888183628,1929,2314800,{},-662.842765028373,2314800,0,61430.22106575966,-453.4022624480502,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2314800, 'default': {'kl': 0.009586725383996964, 'policy_loss': -0.1406370848417282, 'vf_loss': 298.42022705078125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.973479151725769, 'entropy': 4.674661636352539, 'cur_lr': 4.999999873689376e-05, 'total_loss': 298.2940979003906}, 'load_time_ms': 0.684, 'num_steps_sampled': 2314800, 'grad_time_ms': 734.305, 'update_time_ms': 2.631, 'sample_time_ms': 34752.398}",2025-08-31_09-14-48,cda-server-4,35.005197525024414,11574,1756624488,10.157.146.4,False,61430.22106575966,1200
+1930,-610.2696105624126,1930,2316000,{},-674.7872613598831,2316000,0,61465.710005283356,-453.4022624480502,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2316000, 'default': {'kl': 0.009682310745120049, 'policy_loss': -0.13389360904693604, 'vf_loss': 545.7025146484375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9208500981330872, 'entropy': 4.747175693511963, 'cur_lr': 4.999999873689376e-05, 'total_loss': 545.5833129882812}, 'load_time_ms': 0.681, 'num_steps_sampled': 2316000, 'grad_time_ms': 737.58, 'update_time_ms': 2.669, 'sample_time_ms': 34718.166}",2025-08-31_09-15-23,cda-server-4,35.4889395236969,11580,1756624523,10.157.146.4,False,61465.710005283356,1200
+1931,-611.2001407041411,1931,2317200,{},-674.7872613598831,2317200,0,61499.55676174164,-453.4022624480502,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2317200, 'default': {'kl': 0.010903848335146904, 'policy_loss': -0.13397301733493805, 'vf_loss': 383.8142395019531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9626340866088867, 'entropy': 4.8521599769592285, 'cur_lr': 4.999999873689376e-05, 'total_loss': 383.69677734375}, 'load_time_ms': 0.646, 'num_steps_sampled': 2317200, 'grad_time_ms': 738.615, 'update_time_ms': 2.609, 'sample_time_ms': 34632.024}",2025-08-31_09-15-57,cda-server-4,33.84675645828247,11586,1756624557,10.157.146.4,False,61499.55676174164,1200
+1932,-611.1468059542095,1932,2318400,{},-674.7872613598831,2318400,0,61534.06065225601,-453.4022624480502,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2318400, 'default': {'kl': 0.009555835276842117, 'policy_loss': -0.1404067873954773, 'vf_loss': 70.87052917480469, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9888940453529358, 'entropy': 4.288478374481201, 'cur_lr': 4.999999873689376e-05, 'total_loss': 70.74463653564453}, 'load_time_ms': 0.648, 'num_steps_sampled': 2318400, 'grad_time_ms': 741.514, 'update_time_ms': 2.533, 'sample_time_ms': 34516.874}",2025-08-31_09-16-32,cda-server-4,34.50389051437378,11592,1756624592,10.157.146.4,False,61534.06065225601,1200
+1933,-611.6803628602847,1933,2319600,{},-674.7872613598831,2319600,0,61569.381210803986,-473.61961816904994,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2319600, 'default': {'kl': 0.011475702747702599, 'policy_loss': -0.16518999636173248, 'vf_loss': 211.96006774902344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9791772365570068, 'entropy': 4.575241565704346, 'cur_lr': 4.999999873689376e-05, 'total_loss': 211.81231689453125}, 'load_time_ms': 0.682, 'num_steps_sampled': 2319600, 'grad_time_ms': 739.036, 'update_time_ms': 2.464, 'sample_time_ms': 34533.563}",2025-08-31_09-17-07,cda-server-4,35.32055854797363,11598,1756624627,10.157.146.4,False,61569.381210803986,1200
+1934,-611.9705654846836,1934,2320800,{},-674.7872613598831,2320800,0,61604.06988453865,-473.61961816904994,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2320800, 'default': {'kl': 0.011736606247723103, 'policy_loss': -0.12796813249588013, 'vf_loss': 268.5278625488281, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9640697836875916, 'entropy': 4.307933330535889, 'cur_lr': 4.999999873689376e-05, 'total_loss': 268.4176940917969}, 'load_time_ms': 0.686, 'num_steps_sampled': 2320800, 'grad_time_ms': 732.622, 'update_time_ms': 2.454, 'sample_time_ms': 34510.565}",2025-08-31_09-17-42,cda-server-4,34.68867373466492,11604,1756624662,10.157.146.4,False,61604.06988453865,1200
+1935,-612.5628923774951,1935,2322000,{},-674.7872613598831,2322000,0,61639.41353726387,-473.61961816904994,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2322000, 'default': {'kl': 0.01197861135005951, 'policy_loss': -0.14781367778778076, 'vf_loss': 227.85923767089844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9761344194412231, 'entropy': 4.617947578430176, 'cur_lr': 4.999999873689376e-05, 'total_loss': 227.72962951660156}, 'load_time_ms': 0.682, 'num_steps_sampled': 2322000, 'grad_time_ms': 725.419, 'update_time_ms': 2.409, 'sample_time_ms': 34565.832}",2025-08-31_09-18-17,cda-server-4,35.34365272521973,11610,1756624697,10.157.146.4,False,61639.41353726387,1200
+1936,-613.5773483465539,1936,2323200,{},-674.7872613598831,2323200,0,61674.892579078674,-473.61961816904994,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2323200, 'default': {'kl': 0.009897320531308651, 'policy_loss': -0.148390531539917, 'vf_loss': 95.04729461669922, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9868233799934387, 'entropy': 4.521474838256836, 'cur_lr': 4.999999873689376e-05, 'total_loss': 94.91393280029297}, 'load_time_ms': 0.672, 'num_steps_sampled': 2323200, 'grad_time_ms': 716.404, 'update_time_ms': 2.417, 'sample_time_ms': 34283.562}",2025-08-31_09-18-53,cda-server-4,35.47904181480408,11616,1756624733,10.157.146.4,False,61674.892579078674,1200
+1937,-613.1978454025922,1937,2324400,{},-674.7872613598831,2324400,0,61705.32104086876,-473.61961816904994,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2324400, 'default': {'kl': 0.009118663147091866, 'policy_loss': -0.14722980558872223, 'vf_loss': 177.61297607421875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9835113883018494, 'entropy': 4.390396595001221, 'cur_lr': 4.999999873689376e-05, 'total_loss': 177.47959899902344}, 'load_time_ms': 0.673, 'num_steps_sampled': 2324400, 'grad_time_ms': 708.235, 'update_time_ms': 2.415, 'sample_time_ms': 33765.289}",2025-08-31_09-19-23,cda-server-4,30.42846179008484,11622,1756624763,10.157.146.4,False,61705.32104086876,1200
+1938,-612.8493352069277,1938,2325600,{},-674.7872613598831,2325600,0,61730.33917450905,-473.61961816904994,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2325600, 'default': {'kl': 0.008869525045156479, 'policy_loss': -0.11755108833312988, 'vf_loss': 230.19866943359375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9657080769538879, 'entropy': 4.226259231567383, 'cur_lr': 4.999999873689376e-05, 'total_loss': 230.09458923339844}, 'load_time_ms': 0.639, 'num_steps_sampled': 2325600, 'grad_time_ms': 693.109, 'update_time_ms': 2.393, 'sample_time_ms': 32812.158}",2025-08-31_09-19-48,cda-server-4,25.018133640289307,11628,1756624788,10.157.146.4,False,61730.33917450905,1200
+1939,-612.3346953302537,1939,2326800,{},-674.7872613598831,2326800,0,61753.96117377281,-473.61961816904994,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2326800, 'default': {'kl': 0.010294769890606403, 'policy_loss': -0.15063203871250153, 'vf_loss': 142.01205444335938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9822821021080017, 'entropy': 4.272276878356934, 'cur_lr': 4.999999873689376e-05, 'total_loss': 141.87705993652344}, 'load_time_ms': 0.61, 'num_steps_sampled': 2326800, 'grad_time_ms': 685.806, 'update_time_ms': 2.357, 'sample_time_ms': 31681.317}",2025-08-31_09-20-12,cda-server-4,23.621999263763428,11634,1756624812,10.157.146.4,False,61753.96117377281,1200
+1940,-610.4696903336406,1940,2328000,{},-674.7872613598831,2328000,0,61777.68186378479,-473.61961816904994,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2328000, 'default': {'kl': 0.01105304341763258, 'policy_loss': -0.1437155157327652, 'vf_loss': 221.37237548828125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.97690349817276, 'entropy': 4.328091144561768, 'cur_lr': 4.999999873689376e-05, 'total_loss': 221.24545288085938}, 'load_time_ms': 0.611, 'num_steps_sampled': 2328000, 'grad_time_ms': 684.222, 'update_time_ms': 2.325, 'sample_time_ms': 30506.195}",2025-08-31_09-20-35,cda-server-4,23.72069001197815,11640,1756624835,10.157.146.4,False,61777.68186378479,1200
+1941,-610.0130057395885,1941,2329200,{},-674.7872613598831,2329200,0,61803.16974234581,-473.61961816904994,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2329200, 'default': {'kl': 0.0124976746737957, 'policy_loss': -0.1602463722229004, 'vf_loss': 329.2377624511719, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.975723385810852, 'entropy': 4.496485233306885, 'cur_lr': 4.999999873689376e-05, 'total_loss': 329.0965270996094}, 'load_time_ms': 0.612, 'num_steps_sampled': 2329200, 'grad_time_ms': 683.9, 'update_time_ms': 2.272, 'sample_time_ms': 29670.689}",2025-08-31_09-21-01,cda-server-4,25.487878561019897,11646,1756624861,10.157.146.4,False,61803.16974234581,1200
+1942,-608.4820956659296,1942,2330400,{},-674.7872613598831,2330400,0,61829.77638411522,-473.61961816904994,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2330400, 'default': {'kl': 0.010036059655249119, 'policy_loss': -0.12106386572122574, 'vf_loss': 353.6280517578125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9465582370758057, 'entropy': 4.233028888702393, 'cur_lr': 4.999999873689376e-05, 'total_loss': 353.522216796875}, 'load_time_ms': 0.646, 'num_steps_sampled': 2330400, 'grad_time_ms': 674.095, 'update_time_ms': 2.337, 'sample_time_ms': 28890.691}",2025-08-31_09-21-28,cda-server-4,26.60664176940918,11652,1756624888,10.157.146.4,False,61829.77638411522,1200
+1943,-608.3192928800105,1943,2331600,{},-674.7872613598831,2331600,0,61855.131729364395,-473.61961816904994,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2331600, 'default': {'kl': 0.010765918530523777, 'policy_loss': -0.1264970451593399, 'vf_loss': 289.6826477050781, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9562215805053711, 'entropy': 4.399609565734863, 'cur_lr': 4.999999873689376e-05, 'total_loss': 289.5725402832031}, 'load_time_ms': 0.618, 'num_steps_sampled': 2331600, 'grad_time_ms': 670.835, 'update_time_ms': 2.419, 'sample_time_ms': 27897.34}",2025-08-31_09-21-53,cda-server-4,25.355345249176025,11658,1756624913,10.157.146.4,False,61855.131729364395,1200
+1944,-609.1856324684652,1944,2332800,{},-674.7872613598831,2332800,0,61882.560119628906,-473.61961816904994,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2332800, 'default': {'kl': 0.011290919035673141, 'policy_loss': -0.14991723001003265, 'vf_loss': 1114.13134765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9235615134239197, 'entropy': 4.733747959136963, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1113.9986572265625}, 'load_time_ms': 0.611, 'num_steps_sampled': 2332800, 'grad_time_ms': 675.776, 'update_time_ms': 2.434, 'sample_time_ms': 27166.365}",2025-08-31_09-22-20,cda-server-4,27.42839026451111,11664,1756624940,10.157.146.4,False,61882.560119628906,1200
+1945,-608.4258429608268,1945,2334000,{},-674.7872613598831,2334000,0,61910.18233394623,-473.61961816904994,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2334000, 'default': {'kl': 0.010613396763801575, 'policy_loss': -0.14665307104587555, 'vf_loss': 250.9366912841797, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9758484959602356, 'entropy': 4.302913188934326, 'cur_lr': 4.999999873689376e-05, 'total_loss': 250.80615234375}, 'load_time_ms': 0.649, 'num_steps_sampled': 2334000, 'grad_time_ms': 671.849, 'update_time_ms': 2.435, 'sample_time_ms': 26398.125}",2025-08-31_09-22-48,cda-server-4,27.622214317321777,11670,1756624968,10.157.146.4,False,61910.18233394623,1200
+1946,-609.6548309678285,1946,2335200,{},-674.7872613598831,2335200,0,61936.779711961746,-473.61961816904994,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2335200, 'default': {'kl': 0.01007895078510046, 'policy_loss': -0.13163559138774872, 'vf_loss': 340.3216247558594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.947627067565918, 'entropy': 4.386995315551758, 'cur_lr': 4.999999873689376e-05, 'total_loss': 340.20526123046875}, 'load_time_ms': 0.646, 'num_steps_sampled': 2335200, 'grad_time_ms': 671.779, 'update_time_ms': 2.404, 'sample_time_ms': 25510.143}",2025-08-31_09-23-15,cda-server-4,26.59737801551819,11676,1756624995,10.157.146.4,False,61936.779711961746,1200
+1947,-607.5461413044937,1947,2336400,{},-674.6404785098127,2336400,0,61963.57807826996,-449.7606772415611,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2336400, 'default': {'kl': 0.012860528193414211, 'policy_loss': -0.16519659757614136, 'vf_loss': 454.0220947265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.955231785774231, 'entropy': 4.546380996704102, 'cur_lr': 4.999999873689376e-05, 'total_loss': 453.87640380859375}, 'load_time_ms': 0.644, 'num_steps_sampled': 2336400, 'grad_time_ms': 673.377, 'update_time_ms': 2.31, 'sample_time_ms': 25145.65}",2025-08-31_09-23-41,cda-server-4,26.79836630821228,11682,1756625021,10.157.146.4,False,61963.57807826996,1200
+1948,-607.0360146495245,1948,2337600,{},-674.6404785098127,2337600,0,61989.97205662727,-449.7606772415611,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2337600, 'default': {'kl': 0.010171059519052505, 'policy_loss': -0.13965900242328644, 'vf_loss': 487.16986083984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9586901068687439, 'entropy': 4.631505012512207, 'cur_lr': 4.999999873689376e-05, 'total_loss': 487.0456237792969}, 'load_time_ms': 0.676, 'num_steps_sampled': 2337600, 'grad_time_ms': 679.864, 'update_time_ms': 2.228, 'sample_time_ms': 25276.71}",2025-08-31_09-24-08,cda-server-4,26.393978357315063,11688,1756625048,10.157.146.4,False,61989.97205662727,1200
+1949,-608.0428254796066,1949,2338800,{},-669.3661870723536,2338800,0,62016.42778134346,-449.7606772415611,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2338800, 'default': {'kl': 0.008036209270358086, 'policy_loss': -0.1386590301990509, 'vf_loss': 272.3854675292969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9709385633468628, 'entropy': 4.405193328857422, 'cur_lr': 4.999999873689376e-05, 'total_loss': 272.2590026855469}, 'load_time_ms': 0.669, 'num_steps_sampled': 2338800, 'grad_time_ms': 673.279, 'update_time_ms': 2.224, 'sample_time_ms': 25566.599}",2025-08-31_09-24-34,cda-server-4,26.455724716186523,11694,1756625074,10.157.146.4,False,62016.42778134346,1200
+1950,-608.49653776977,1950,2340000,{},-669.3661870723536,2340000,0,62043.014607429504,-449.7606772415611,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2340000, 'default': {'kl': 0.010118498466908932, 'policy_loss': -0.13253596425056458, 'vf_loss': 321.5871887207031, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.97154700756073, 'entropy': 4.314844131469727, 'cur_lr': 4.999999873689376e-05, 'total_loss': 321.4700012207031}, 'load_time_ms': 0.667, 'num_steps_sampled': 2340000, 'grad_time_ms': 669.384, 'update_time_ms': 2.214, 'sample_time_ms': 25857.123}",2025-08-31_09-25-01,cda-server-4,26.58682608604431,11700,1756625101,10.157.146.4,False,62043.014607429504,1200
+1951,-608.1990233418551,1951,2341200,{},-669.3661870723536,2341200,0,62067.775099277496,-449.7606772415611,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2341200, 'default': {'kl': 0.00958690419793129, 'policy_loss': -0.13164860010147095, 'vf_loss': 245.96087646484375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9685742259025574, 'entropy': 4.510868072509766, 'cur_lr': 4.999999873689376e-05, 'total_loss': 245.84381103515625}, 'load_time_ms': 0.661, 'num_steps_sampled': 2341200, 'grad_time_ms': 656.571, 'update_time_ms': 2.318, 'sample_time_ms': 25797.091}",2025-08-31_09-25-26,cda-server-4,24.760491847991943,11706,1756625126,10.157.146.4,False,62067.775099277496,1200
+1952,-607.3804093230228,1952,2342400,{},-669.3661870723536,2342400,0,62094.69020628929,-449.7606772415611,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2342400, 'default': {'kl': 0.010514120571315289, 'policy_loss': -0.14393757283687592, 'vf_loss': 516.457763671875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9467330574989319, 'entropy': 4.458310604095459, 'cur_lr': 4.999999873689376e-05, 'total_loss': 516.329833984375}, 'load_time_ms': 0.654, 'num_steps_sampled': 2342400, 'grad_time_ms': 661.785, 'update_time_ms': 2.236, 'sample_time_ms': 25822.837}",2025-08-31_09-25-53,cda-server-4,26.915107011795044,11712,1756625153,10.157.146.4,False,62094.69020628929,1200
+1953,-606.2978143518195,1953,2343600,{},-669.3661870723536,2343600,0,62122.572885751724,-449.7606772415611,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2343600, 'default': {'kl': 0.011612074449658394, 'policy_loss': -0.1496652215719223, 'vf_loss': 96.66001892089844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9864416122436523, 'entropy': 4.46790885925293, 'cur_lr': 4.999999873689376e-05, 'total_loss': 96.52798461914062}, 'load_time_ms': 0.653, 'num_steps_sampled': 2343600, 'grad_time_ms': 666.821, 'update_time_ms': 2.125, 'sample_time_ms': 26070.689}",2025-08-31_09-26-21,cda-server-4,27.88267946243286,11718,1756625181,10.157.146.4,False,62122.572885751724,1200
+1954,-606.5669051827342,1954,2344800,{},-669.3661870723536,2344800,0,62149.60029959679,-449.7606772415611,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2344800, 'default': {'kl': 0.010950639843940735, 'policy_loss': -0.13027456402778625, 'vf_loss': 160.0469207763672, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9806078672409058, 'entropy': 4.405973434448242, 'cur_lr': 4.999999873689376e-05, 'total_loss': 159.93328857421875}, 'load_time_ms': 0.655, 'num_steps_sampled': 2344800, 'grad_time_ms': 667.074, 'update_time_ms': 2.091, 'sample_time_ms': 26030.363}",2025-08-31_09-26-48,cda-server-4,27.027413845062256,11724,1756625208,10.157.146.4,False,62149.60029959679,1200
+1955,-607.2137995449622,1955,2346000,{},-669.3661870723536,2346000,0,62178.7813539505,-449.7606772415611,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2346000, 'default': {'kl': 0.012300030328333378, 'policy_loss': -0.15321940183639526, 'vf_loss': 190.32147216796875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.982670783996582, 'entropy': 4.4788818359375, 'cur_lr': 4.999999873689376e-05, 'total_loss': 190.1869354248047}, 'load_time_ms': 0.66, 'num_steps_sampled': 2346000, 'grad_time_ms': 675.999, 'update_time_ms': 2.137, 'sample_time_ms': 26177.242}",2025-08-31_09-27-17,cda-server-4,29.18105435371399,11730,1756625237,10.157.146.4,False,62178.7813539505,1200
+1956,-607.7563182548389,1956,2347200,{},-669.3661870723536,2347200,0,62203.94767355919,-449.7606772415611,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2347200, 'default': {'kl': 0.013116013258695602, 'policy_loss': -0.1491580754518509, 'vf_loss': 79.18472290039062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9918047785758972, 'entropy': 4.428892135620117, 'cur_lr': 4.999999873689376e-05, 'total_loss': 79.05549621582031}, 'load_time_ms': 0.703, 'num_steps_sampled': 2347200, 'grad_time_ms': 683.725, 'update_time_ms': 2.244, 'sample_time_ms': 26026.089}",2025-08-31_09-27-42,cda-server-4,25.166319608688354,11736,1756625262,10.157.146.4,False,62203.94767355919,1200
+1957,-608.679187254394,1957,2348400,{},-669.3661870723536,2348400,0,62230.87424135208,-449.7606772415611,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2348400, 'default': {'kl': 0.011811223812401295, 'policy_loss': -0.1392395794391632, 'vf_loss': 253.29788208007812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.971028208732605, 'entropy': 4.217649459838867, 'cur_lr': 4.999999873689376e-05, 'total_loss': 253.17654418945312}, 'load_time_ms': 0.713, 'num_steps_sampled': 2348400, 'grad_time_ms': 690.711, 'update_time_ms': 2.322, 'sample_time_ms': 26031.74}",2025-08-31_09-28-09,cda-server-4,26.926567792892456,11742,1756625289,10.157.146.4,False,62230.87424135208,1200
+1958,-609.6161105656337,1958,2349600,{},-669.3661870723536,2349600,0,62257.80857157707,-449.7606772415611,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2349600, 'default': {'kl': 0.009297233074903488, 'policy_loss': -0.12757669389247894, 'vf_loss': 154.54234313964844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9834109544754028, 'entropy': 4.264680862426758, 'cur_lr': 4.999999873689376e-05, 'total_loss': 154.42889404296875}, 'load_time_ms': 0.718, 'num_steps_sampled': 2349600, 'grad_time_ms': 700.811, 'update_time_ms': 2.35, 'sample_time_ms': 26075.645}",2025-08-31_09-28-36,cda-server-4,26.934330224990845,11748,1756625316,10.157.146.4,False,62257.80857157707,1200
+1959,-610.097080713144,1959,2350800,{},-669.3661870723536,2350800,0,62283.614788770676,-449.7606772415611,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2350800, 'default': {'kl': 0.010139401070773602, 'policy_loss': -0.13994307816028595, 'vf_loss': 327.65399169921875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9818577170372009, 'entropy': 4.395918846130371, 'cur_lr': 4.999999873689376e-05, 'total_loss': 327.5294494628906}, 'load_time_ms': 0.724, 'num_steps_sampled': 2350800, 'grad_time_ms': 715.068, 'update_time_ms': 2.357, 'sample_time_ms': 25996.419}",2025-08-31_09-29-02,cda-server-4,25.806217193603516,11754,1756625342,10.157.146.4,False,62283.614788770676,1200
+1960,-608.8308541767855,1960,2352000,{},-669.179018348564,2352000,0,62312.06343984604,-449.7606772415611,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2352000, 'default': {'kl': 0.00936153158545494, 'policy_loss': -0.1274164766073227, 'vf_loss': 97.02465057373047, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9885544180870056, 'entropy': 4.354447364807129, 'cur_lr': 4.999999873689376e-05, 'total_loss': 96.91144561767578}, 'load_time_ms': 0.727, 'num_steps_sampled': 2352000, 'grad_time_ms': 721.985, 'update_time_ms': 2.38, 'sample_time_ms': 26175.607}",2025-08-31_09-29-30,cda-server-4,28.44865107536316,11760,1756625370,10.157.146.4,False,62312.06343984604,1200
+1961,-608.5896238270966,1961,2353200,{},-669.179018348564,2353200,0,62343.329105854034,-449.7606772415611,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2353200, 'default': {'kl': 0.010886425152420998, 'policy_loss': -0.1508202850818634, 'vf_loss': 630.5194091796875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9199573993682861, 'entropy': 4.41579008102417, 'cur_lr': 4.999999873689376e-05, 'total_loss': 630.3851318359375}, 'load_time_ms': 0.762, 'num_steps_sampled': 2353200, 'grad_time_ms': 737.97, 'update_time_ms': 2.494, 'sample_time_ms': 26809.997}",2025-08-31_09-30-02,cda-server-4,31.265666007995605,11766,1756625402,10.157.146.4,False,62343.329105854034,1200
+1962,-608.3730857940807,1962,2354400,{},-669.179018348564,2354400,0,62369.65930223465,-449.7606772415611,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2354400, 'default': {'kl': 0.008958335965871811, 'policy_loss': -0.12169548869132996, 'vf_loss': 155.10035705566406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9788544774055481, 'entropy': 4.1750922203063965, 'cur_lr': 4.999999873689376e-05, 'total_loss': 154.99227905273438}, 'load_time_ms': 0.737, 'num_steps_sampled': 2354400, 'grad_time_ms': 742.402, 'update_time_ms': 2.556, 'sample_time_ms': 26747.06}",2025-08-31_09-30-28,cda-server-4,26.330196380615234,11772,1756625428,10.157.146.4,False,62369.65930223465,1200
+1963,-610.3994037834868,1963,2355600,{},-669.179018348564,2355600,0,62397.89811491966,-468.9678835970735,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2355600, 'default': {'kl': 0.009769846685230732, 'policy_loss': -0.13216140866279602, 'vf_loss': 459.5452880859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9617154002189636, 'entropy': 4.408590316772461, 'cur_lr': 4.999999873689376e-05, 'total_loss': 459.4280090332031}, 'load_time_ms': 0.736, 'num_steps_sampled': 2355600, 'grad_time_ms': 744.636, 'update_time_ms': 2.602, 'sample_time_ms': 26780.437}",2025-08-31_09-30-56,cda-server-4,28.238812685012817,11778,1756625456,10.157.146.4,False,62397.89811491966,1200
+1964,-609.3232185067841,1964,2356800,{},-669.179018348564,2356800,0,62423.455825805664,-468.9678835970735,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2356800, 'default': {'kl': 0.008276228792965412, 'policy_loss': -0.10724152624607086, 'vf_loss': 114.50814819335938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9829687476158142, 'entropy': 4.252288341522217, 'cur_lr': 4.999999873689376e-05, 'total_loss': 114.41346740722656}, 'load_time_ms': 0.744, 'num_steps_sampled': 2356800, 'grad_time_ms': 746.165, 'update_time_ms': 2.684, 'sample_time_ms': 26631.789}",2025-08-31_09-31-22,cda-server-4,25.557710886001587,11784,1756625482,10.157.146.4,False,62423.455825805664,1200
+1965,-609.4050531032557,1965,2358000,{},-651.6103336604758,2358000,0,62450.077894449234,-468.9678835970735,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2358000, 'default': {'kl': 0.009624541737139225, 'policy_loss': -0.1312766820192337, 'vf_loss': 103.41925811767578, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9861056804656982, 'entropy': 4.217861652374268, 'cur_lr': 4.999999873689376e-05, 'total_loss': 103.30259704589844}, 'load_time_ms': 0.701, 'num_steps_sampled': 2358000, 'grad_time_ms': 747.746, 'update_time_ms': 2.618, 'sample_time_ms': 26374.449}",2025-08-31_09-31-48,cda-server-4,26.622068643569946,11790,1756625508,10.157.146.4,False,62450.077894449234,1200
+1966,-609.5845827109833,1966,2359200,{},-651.6103336604758,2359200,0,62475.720378398895,-468.9678835970735,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2359200, 'default': {'kl': 0.010023762471973896, 'policy_loss': -0.12198405712842941, 'vf_loss': 180.60565185546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9802013039588928, 'entropy': 4.301232814788818, 'cur_lr': 4.999999873689376e-05, 'total_loss': 180.4989013671875}, 'load_time_ms': 0.702, 'num_steps_sampled': 2359200, 'grad_time_ms': 747.286, 'update_time_ms': 2.508, 'sample_time_ms': 26422.766}",2025-08-31_09-32-14,cda-server-4,25.642483949661255,11796,1756625534,10.157.146.4,False,62475.720378398895,1200
+1967,-609.2937929049549,1967,2360400,{},-651.6103336604758,2360400,0,62501.86730790138,-468.9678835970735,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2360400, 'default': {'kl': 0.01001692097634077, 'policy_loss': -0.14396774768829346, 'vf_loss': 173.0007781982422, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9815436601638794, 'entropy': 4.442144393920898, 'cur_lr': 4.999999873689376e-05, 'total_loss': 172.8720245361328}, 'load_time_ms': 0.69, 'num_steps_sampled': 2360400, 'grad_time_ms': 745.9, 'update_time_ms': 2.559, 'sample_time_ms': 26346.247}",2025-08-31_09-32-40,cda-server-4,26.146929502487183,11802,1756625560,10.157.146.4,False,62501.86730790138,1200
+1968,-609.3467349328713,1968,2361600,{},-651.6103336604758,2361600,0,62526.49716615677,-468.9678835970735,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2361600, 'default': {'kl': 0.009211018681526184, 'policy_loss': -0.11765976995229721, 'vf_loss': 338.1195373535156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9571203589439392, 'entropy': 4.210928440093994, 'cur_lr': 4.999999873689376e-05, 'total_loss': 338.015869140625}, 'load_time_ms': 0.689, 'num_steps_sampled': 2361600, 'grad_time_ms': 743.878, 'update_time_ms': 2.58, 'sample_time_ms': 26117.831}",2025-08-31_09-33-05,cda-server-4,24.629858255386353,11808,1756625585,10.157.146.4,False,62526.49716615677,1200
+1969,-611.8005552320539,1969,2362800,{},-763.1202552896649,2362800,0,62550.353598594666,-468.9678835970735,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2362800, 'default': {'kl': 0.011442108079791069, 'policy_loss': -0.13979749381542206, 'vf_loss': 257.81988525390625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.972759485244751, 'entropy': 4.612182140350342, 'cur_lr': 4.999999873689376e-05, 'total_loss': 257.69744873046875}, 'load_time_ms': 0.723, 'num_steps_sampled': 2362800, 'grad_time_ms': 743.829, 'update_time_ms': 2.578, 'sample_time_ms': 25922.809}",2025-08-31_09-33-29,cda-server-4,23.85643243789673,11814,1756625609,10.157.146.4,False,62550.353598594666,1200
+1970,-611.7770925225552,1970,2364000,{},-763.1202552896649,2364000,0,62572.88111400604,-468.9678835970735,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2364000, 'default': {'kl': 0.009676755405962467, 'policy_loss': -0.13268232345581055, 'vf_loss': 83.57206726074219, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.992461085319519, 'entropy': 4.33053731918335, 'cur_lr': 4.999999873689376e-05, 'total_loss': 83.45408630371094}, 'load_time_ms': 0.726, 'num_steps_sampled': 2364000, 'grad_time_ms': 736.486, 'update_time_ms': 2.492, 'sample_time_ms': 25338.035}",2025-08-31_09-33-51,cda-server-4,22.527515411376953,11820,1756625631,10.157.146.4,False,62572.88111400604,1200
+1971,-611.5966322156706,1971,2365200,{},-763.1202552896649,2365200,0,62598.30209183693,-468.9678835970735,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2365200, 'default': {'kl': 0.01243334636092186, 'policy_loss': -0.16307127475738525, 'vf_loss': 230.5232696533203, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9773845672607422, 'entropy': 4.384309768676758, 'cur_lr': 4.999999873689376e-05, 'total_loss': 230.37908935546875}, 'load_time_ms': 0.693, 'num_steps_sampled': 2365200, 'grad_time_ms': 729.287, 'update_time_ms': 2.408, 'sample_time_ms': 24760.866}",2025-08-31_09-34-17,cda-server-4,25.42097783088684,11826,1756625657,10.157.146.4,False,62598.30209183693,1200
+1972,-610.70633360601,1972,2366400,{},-763.1202552896649,2366400,0,62623.77124476433,-468.9678835970735,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2366400, 'default': {'kl': 0.009154457598924637, 'policy_loss': -0.12362715601921082, 'vf_loss': 161.09613037109375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9831958413124084, 'entropy': 4.261536121368408, 'cur_lr': 4.999999873689376e-05, 'total_loss': 160.98638916015625}, 'load_time_ms': 0.698, 'num_steps_sampled': 2366400, 'grad_time_ms': 725.831, 'update_time_ms': 2.353, 'sample_time_ms': 24678.309}",2025-08-31_09-34-42,cda-server-4,25.46915292739868,11832,1756625682,10.157.146.4,False,62623.77124476433,1200
+1973,-610.6439040756978,1973,2367600,{},-763.1202552896649,2367600,0,62648.10582232475,-468.9678835970735,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2367600, 'default': {'kl': 0.00769650936126709, 'policy_loss': -0.09440429508686066, 'vf_loss': 267.2775573730469, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9689968824386597, 'entropy': 4.211319923400879, 'cur_lr': 4.999999873689376e-05, 'total_loss': 267.19482421875}, 'load_time_ms': 0.723, 'num_steps_sampled': 2367600, 'grad_time_ms': 723.026, 'update_time_ms': 2.294, 'sample_time_ms': 24290.606}",2025-08-31_09-35-06,cda-server-4,24.334577560424805,11838,1756625706,10.157.146.4,False,62648.10582232475,1200
+1974,-611.1639773129722,1974,2368800,{},-763.1202552896649,2368800,0,62672.119025707245,-468.9678835970735,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2368800, 'default': {'kl': 0.007793743629008532, 'policy_loss': -0.12181106209754944, 'vf_loss': 408.36328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9419552683830261, 'entropy': 4.3456292152404785, 'cur_lr': 4.999999873689376e-05, 'total_loss': 408.2533264160156}, 'load_time_ms': 0.747, 'num_steps_sampled': 2368800, 'grad_time_ms': 721.49, 'update_time_ms': 2.338, 'sample_time_ms': 24137.522}",2025-08-31_09-35-30,cda-server-4,24.013203382492065,11844,1756625730,10.157.146.4,False,62672.119025707245,1200
+1975,-612.5951536631719,1975,2370000,{},-763.1202552896649,2370000,0,62699.46093869209,-562.2593782854456,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2370000, 'default': {'kl': 0.008301792666316032, 'policy_loss': -0.11803123354911804, 'vf_loss': 426.0191650390625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9436960220336914, 'entropy': 4.430280685424805, 'cur_lr': 4.999999873689376e-05, 'total_loss': 425.9137268066406}, 'load_time_ms': 0.749, 'num_steps_sampled': 2370000, 'grad_time_ms': 721.982, 'update_time_ms': 2.475, 'sample_time_ms': 24208.848}",2025-08-31_09-35-58,cda-server-4,27.341912984848022,11850,1756625758,10.157.146.4,False,62699.46093869209,1200
+1976,-612.1081381520981,1976,2371200,{},-763.1202552896649,2371200,0,62722.43511199951,-562.2593782854456,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2371200, 'default': {'kl': 0.01211002841591835, 'policy_loss': -0.1504986733198166, 'vf_loss': 76.61634826660156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9929623007774353, 'entropy': 4.369454383850098, 'cur_lr': 4.999999873689376e-05, 'total_loss': 76.48423767089844}, 'load_time_ms': 0.739, 'num_steps_sampled': 2371200, 'grad_time_ms': 722.588, 'update_time_ms': 2.514, 'sample_time_ms': 23941.429}",2025-08-31_09-36-21,cda-server-4,22.974173307418823,11856,1756625781,10.157.146.4,False,62722.43511199951,1200
+1977,-612.6626520536606,1977,2372400,{},-763.1202552896649,2372400,0,62750.91536283493,-562.2593782854456,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2372400, 'default': {'kl': 0.010798566974699497, 'policy_loss': -0.12879537045955658, 'vf_loss': 202.67755126953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9782712459564209, 'entropy': 4.2583818435668945, 'cur_lr': 4.999999873689376e-05, 'total_loss': 202.56515502929688}, 'load_time_ms': 0.751, 'num_steps_sampled': 2372400, 'grad_time_ms': 723.058, 'update_time_ms': 2.409, 'sample_time_ms': 24174.436}",2025-08-31_09-36-49,cda-server-4,28.4802508354187,11862,1756625809,10.157.146.4,False,62750.91536283493,1200
+1978,-612.1810930680924,1978,2373600,{},-763.1202552896649,2373600,0,62772.86358499527,-562.2593782854456,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2373600, 'default': {'kl': 0.01097969338297844, 'policy_loss': -0.1379757523536682, 'vf_loss': 97.71652221679688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9881789088249207, 'entropy': 4.273403167724609, 'cur_lr': 4.999999873689376e-05, 'total_loss': 97.59522247314453}, 'load_time_ms': 0.751, 'num_steps_sampled': 2373600, 'grad_time_ms': 724.353, 'update_time_ms': 2.354, 'sample_time_ms': 23905.027}",2025-08-31_09-37-11,cda-server-4,21.948222160339355,11868,1756625831,10.157.146.4,False,62772.86358499527,1200
+1979,-611.5608423072464,1979,2374800,{},-763.1202552896649,2374800,0,62795.76729774475,-562.2593782854456,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2374800, 'default': {'kl': 0.011366000398993492, 'policy_loss': -0.14739009737968445, 'vf_loss': 484.0177001953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9581314921379089, 'entropy': 4.089195251464844, 'cur_lr': 4.999999873689376e-05, 'total_loss': 483.8875732421875}, 'load_time_ms': 0.741, 'num_steps_sampled': 2374800, 'grad_time_ms': 724.338, 'update_time_ms': 2.443, 'sample_time_ms': 23809.762}",2025-08-31_09-37-34,cda-server-4,22.9037127494812,11874,1756625854,10.157.146.4,False,62795.76729774475,1200
+1980,-611.3670329477,1980,2376000,{},-763.1202552896649,2376000,0,62822.545453071594,-562.2593782854456,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2376000, 'default': {'kl': 0.009911423549056053, 'policy_loss': -0.12748433649539948, 'vf_loss': 130.64321899414062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.98182213306427, 'entropy': 4.209110736846924, 'cur_lr': 4.999999873689376e-05, 'total_loss': 130.53079223632812}, 'load_time_ms': 0.742, 'num_steps_sampled': 2376000, 'grad_time_ms': 729.861, 'update_time_ms': 2.519, 'sample_time_ms': 24229.288}",2025-08-31_09-38-01,cda-server-4,26.77815532684326,11880,1756625881,10.157.146.4,False,62822.545453071594,1200
+1981,-612.1059408931181,1981,2377200,{},-763.1202552896649,2377200,0,62850.1059525013,-562.2593782854456,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2377200, 'default': {'kl': 0.010420255362987518, 'policy_loss': -0.13142602145671844, 'vf_loss': 205.0207061767578, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9785586595535278, 'entropy': 4.375784873962402, 'cur_lr': 4.999999873689376e-05, 'total_loss': 204.9051055908203}, 'load_time_ms': 0.744, 'num_steps_sampled': 2377200, 'grad_time_ms': 736.37, 'update_time_ms': 2.559, 'sample_time_ms': 24436.62}",2025-08-31_09-38-29,cda-server-4,27.56049942970276,11886,1756625909,10.157.146.4,False,62850.1059525013,1200
+1982,-613.2253000406305,1982,2378400,{},-798.9962889973526,2378400,0,62873.80010056496,-562.2593782854456,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2378400, 'default': {'kl': 0.011897333897650242, 'policy_loss': -0.15723654627799988, 'vf_loss': 352.850830078125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9709946513175964, 'entropy': 4.518773078918457, 'cur_lr': 4.999999873689376e-05, 'total_loss': 352.7116394042969}, 'load_time_ms': 0.746, 'num_steps_sampled': 2378400, 'grad_time_ms': 740.04, 'update_time_ms': 2.674, 'sample_time_ms': 24255.284}",2025-08-31_09-38-52,cda-server-4,23.694148063659668,11892,1756625932,10.157.146.4,False,62873.80010056496,1200
+1983,-613.722178931668,1983,2379600,{},-798.9962889973526,2379600,0,62906.30266857147,-562.2593782854456,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2379600, 'default': {'kl': 0.01082590688019991, 'policy_loss': -0.13999049365520477, 'vf_loss': 206.60662841796875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9723778963088989, 'entropy': 4.520992279052734, 'cur_lr': 4.999999873689376e-05, 'total_loss': 206.48306274414062}, 'load_time_ms': 0.726, 'num_steps_sampled': 2379600, 'grad_time_ms': 742.2, 'update_time_ms': 2.722, 'sample_time_ms': 25069.9}",2025-08-31_09-39-25,cda-server-4,32.5025680065155,11898,1756625965,10.157.146.4,False,62906.30266857147,1200
+1984,-613.6410929668111,1984,2380800,{},-798.9962889973526,2380800,0,62938.67426228523,-562.2593782854456,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2380800, 'default': {'kl': 0.011257323436439037, 'policy_loss': -0.13362379372119904, 'vf_loss': 242.20616149902344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.983667254447937, 'entropy': 4.350576400756836, 'cur_lr': 4.999999873689376e-05, 'total_loss': 242.08966064453125}, 'load_time_ms': 0.698, 'num_steps_sampled': 2380800, 'grad_time_ms': 741.642, 'update_time_ms': 2.771, 'sample_time_ms': 25906.439}",2025-08-31_09-39-57,cda-server-4,32.371593713760376,11904,1756625997,10.157.146.4,False,62938.67426228523,1200
+1985,-612.7423419375178,1985,2382000,{},-798.9962889973526,2382000,0,62962.332871198654,-562.9411034902855,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2382000, 'default': {'kl': 0.010062875226140022, 'policy_loss': -0.13682107627391815, 'vf_loss': 94.34233856201172, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9932507276535034, 'entropy': 4.3661322593688965, 'cur_lr': 4.999999873689376e-05, 'total_loss': 94.22079467773438}, 'load_time_ms': 0.7, 'num_steps_sampled': 2382000, 'grad_time_ms': 739.706, 'update_time_ms': 2.646, 'sample_time_ms': 25540.144}",2025-08-31_09-40-21,cda-server-4,23.65860891342163,11910,1756626021,10.157.146.4,False,62962.332871198654,1200
+1986,-612.6859429936632,1986,2383200,{},-798.9962889973526,2383200,0,62986.49331378937,-562.9411034902855,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2383200, 'default': {'kl': 0.012575928121805191, 'policy_loss': -0.1586328148841858, 'vf_loss': 185.0186767578125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9837911128997803, 'entropy': 4.1667561531066895, 'cur_lr': 4.999999873689376e-05, 'total_loss': 184.879150390625}, 'load_time_ms': 0.672, 'num_steps_sampled': 2383200, 'grad_time_ms': 734.369, 'update_time_ms': 2.765, 'sample_time_ms': 25663.791}",2025-08-31_09-40-45,cda-server-4,24.1604425907135,11916,1756626045,10.157.146.4,False,62986.49331378937,1200
+1987,-612.4523247702496,1987,2384400,{},-798.9962889973526,2384400,0,63013.18058013916,-562.9411034902855,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2384400, 'default': {'kl': 0.01109696552157402, 'policy_loss': -0.14800387620925903, 'vf_loss': 188.5929412841797, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9844745993614197, 'entropy': 4.177940368652344, 'cur_lr': 4.999999873689376e-05, 'total_loss': 188.4617919921875}, 'load_time_ms': 0.695, 'num_steps_sampled': 2384400, 'grad_time_ms': 732.464, 'update_time_ms': 2.819, 'sample_time_ms': 25486.202}",2025-08-31_09-41-12,cda-server-4,26.68726634979248,11922,1756626072,10.157.146.4,False,63013.18058013916,1200
+1988,-614.7681832051678,1988,2385600,{},-798.9962889973526,2385600,0,63036.33140397072,-562.9411034902855,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2385600, 'default': {'kl': 0.011494569480419159, 'policy_loss': -0.14564742147922516, 'vf_loss': 586.264404296875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9486841559410095, 'entropy': 4.736078262329102, 'cur_lr': 4.999999873689376e-05, 'total_loss': 586.13623046875}, 'load_time_ms': 0.688, 'num_steps_sampled': 2385600, 'grad_time_ms': 725.382, 'update_time_ms': 2.879, 'sample_time_ms': 25613.533}",2025-08-31_09-41-35,cda-server-4,23.150823831558228,11928,1756626095,10.157.146.4,False,63036.33140397072,1200
+1989,-615.6967441713298,1989,2386800,{},-798.9962889973526,2386800,0,63063.01505494118,-562.9411034902855,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2386800, 'default': {'kl': 0.01116892322897911, 'policy_loss': -0.14983227849006653, 'vf_loss': 343.9393615722656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9591424465179443, 'entropy': 4.365029335021973, 'cur_lr': 4.999999873689376e-05, 'total_loss': 343.8065185546875}, 'load_time_ms': 0.677, 'num_steps_sampled': 2386800, 'grad_time_ms': 706.191, 'update_time_ms': 2.733, 'sample_time_ms': 26010.953}",2025-08-31_09-42-02,cda-server-4,26.683650970458984,11934,1756626122,10.157.146.4,False,63063.01505494118,1200
+1990,-615.8443271852426,1990,2388000,{},-798.9962889973526,2388000,0,63086.44520521164,-562.9411034902855,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2388000, 'default': {'kl': 0.01087038405239582, 'policy_loss': -0.16312074661254883, 'vf_loss': 369.4166259765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.974829375743866, 'entropy': 4.450165748596191, 'cur_lr': 4.999999873689376e-05, 'total_loss': 369.2700500488281}, 'load_time_ms': 0.706, 'num_steps_sampled': 2388000, 'grad_time_ms': 696.185, 'update_time_ms': 2.666, 'sample_time_ms': 25686.179}",2025-08-31_09-42-25,cda-server-4,23.430150270462036,11940,1756626145,10.157.146.4,False,63086.44520521164,1200
+1991,-616.044756672552,1991,2389200,{},-798.9962889973526,2389200,0,63107.71417546272,-562.9411034902855,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2389200, 'default': {'kl': 0.011354614049196243, 'policy_loss': -0.146931454539299, 'vf_loss': 66.9209213256836, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9895497560501099, 'entropy': 4.340816974639893, 'cur_lr': 4.999999873689376e-05, 'total_loss': 66.7912368774414}, 'load_time_ms': 0.736, 'num_steps_sampled': 2389200, 'grad_time_ms': 695.6, 'update_time_ms': 2.548, 'sample_time_ms': 25057.805}",2025-08-31_09-42-46,cda-server-4,21.268970251083374,11946,1756626166,10.157.146.4,False,63107.71417546272,1200
+1992,-615.186221982662,1992,2390400,{},-798.9962889973526,2390400,0,63130.560227394104,-562.9411034902855,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2390400, 'default': {'kl': 0.009964141063392162, 'policy_loss': -0.14613936841487885, 'vf_loss': 189.96250915527344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.982060432434082, 'entropy': 4.24357795715332, 'cur_lr': 4.999999873689376e-05, 'total_loss': 189.8314971923828}, 'load_time_ms': 0.744, 'num_steps_sampled': 2390400, 'grad_time_ms': 688.598, 'update_time_ms': 2.493, 'sample_time_ms': 24980.062}",2025-08-31_09-43-09,cda-server-4,22.846051931381226,11952,1756626189,10.157.146.4,False,63130.560227394104,1200
+1993,-615.5720469356725,1993,2391600,{},-798.9962889973526,2391600,0,63152.27888059616,-562.9411034902855,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2391600, 'default': {'kl': 0.0090885479003191, 'policy_loss': -0.1317782998085022, 'vf_loss': 65.52576446533203, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9896361231803894, 'entropy': 4.322342872619629, 'cur_lr': 4.999999873689376e-05, 'total_loss': 65.40778350830078}, 'load_time_ms': 0.743, 'num_steps_sampled': 2391600, 'grad_time_ms': 673.638, 'update_time_ms': 2.409, 'sample_time_ms': 23916.667}",2025-08-31_09-43-31,cda-server-4,21.718653202056885,11958,1756626211,10.157.146.4,False,63152.27888059616,1200
+1994,-615.5034231541978,1994,2392800,{},-798.9962889973526,2392800,0,63175.77379655838,-562.9411034902855,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2392800, 'default': {'kl': 0.010580329224467278, 'policy_loss': -0.15676972270011902, 'vf_loss': 216.2750244140625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9717854261398315, 'entropy': 4.435055732727051, 'cur_lr': 4.999999873689376e-05, 'total_loss': 216.13433837890625}, 'load_time_ms': 0.737, 'num_steps_sampled': 2392800, 'grad_time_ms': 659.491, 'update_time_ms': 2.331, 'sample_time_ms': 23043.127}",2025-08-31_09-43-54,cda-server-4,23.49491596221924,11964,1756626234,10.157.146.4,False,63175.77379655838,1200
+1995,-615.5901351004712,1995,2394000,{},-798.9962889973526,2394000,0,63199.474660634995,-562.9411034902855,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2394000, 'default': {'kl': 0.012038921006023884, 'policy_loss': -0.1605367213487625, 'vf_loss': 53.6840934753418, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9940734505653381, 'entropy': 4.159273147583008, 'cur_lr': 4.999999873689376e-05, 'total_loss': 53.541839599609375}, 'load_time_ms': 0.765, 'num_steps_sampled': 2394000, 'grad_time_ms': 636.379, 'update_time_ms': 2.449, 'sample_time_ms': 23070.373}",2025-08-31_09-44-18,cda-server-4,23.70086407661438,11970,1756626258,10.157.146.4,False,63199.474660634995,1200
+1996,-616.4024955080895,1996,2395200,{},-798.9962889973526,2395200,0,63223.80853652954,-569.9369665272582,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2395200, 'default': {'kl': 0.009061133489012718, 'policy_loss': -0.13670092821121216, 'vf_loss': 288.12518310546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9734777808189392, 'entropy': 4.345351219177246, 'cur_lr': 4.999999873689376e-05, 'total_loss': 288.00225830078125}, 'load_time_ms': 0.798, 'num_steps_sampled': 2395200, 'grad_time_ms': 615.888, 'update_time_ms': 2.426, 'sample_time_ms': 23108.353}",2025-08-31_09-44-43,cda-server-4,24.33387589454651,11976,1756626283,10.157.146.4,False,63223.80853652954,1200
+1997,-615.7920844216135,1997,2396400,{},-798.9962889973526,2396400,0,63246.67345952988,-569.9369665272582,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2396400, 'default': {'kl': 0.008752276189625263, 'policy_loss': -0.12996423244476318, 'vf_loss': 122.19673919677734, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.986286997795105, 'entropy': 4.309576034545898, 'cur_lr': 4.999999873689376e-05, 'total_loss': 122.080078125}, 'load_time_ms': 0.77, 'num_steps_sampled': 2396400, 'grad_time_ms': 608.798, 'update_time_ms': 2.438, 'sample_time_ms': 22733.246}",2025-08-31_09-45-05,cda-server-4,22.864923000335693,11982,1756626305,10.157.146.4,False,63246.67345952988,1200
+1998,-615.9108180505109,1998,2397600,{},-798.9962889973526,2397600,0,63269.43175768852,-569.9369665272582,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2397600, 'default': {'kl': 0.010516838170588017, 'policy_loss': -0.1427917331457138, 'vf_loss': 122.50892639160156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9888169765472412, 'entropy': 4.221045017242432, 'cur_lr': 4.999999873689376e-05, 'total_loss': 122.38211059570312}, 'load_time_ms': 0.764, 'num_steps_sampled': 2397600, 'grad_time_ms': 609.815, 'update_time_ms': 2.399, 'sample_time_ms': 22692.92}",2025-08-31_09-45-28,cda-server-4,22.75829815864563,11988,1756626328,10.157.146.4,False,63269.43175768852,1200
+1999,-614.1645931208323,1999,2398800,{},-794.8414820347457,2398800,0,63300.63290834427,-569.9369665272582,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2398800, 'default': {'kl': 0.009133610874414444, 'policy_loss': -0.12258175760507584, 'vf_loss': 115.11497497558594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9853732585906982, 'entropy': 4.18318510055542, 'cur_lr': 4.999999873689376e-05, 'total_loss': 115.00626373291016}, 'load_time_ms': 0.77, 'num_steps_sampled': 2398800, 'grad_time_ms': 620.01, 'update_time_ms': 2.473, 'sample_time_ms': 23134.381}",2025-08-31_09-45-59,cda-server-4,31.20115065574646,11994,1756626359,10.157.146.4,False,63300.63290834427,1200
+2000,-613.2623943743926,2000,2400000,{},-794.8414820347457,2400000,0,63332.72201323509,-569.9369665272582,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2400000, 'default': {'kl': 0.00990241952240467, 'policy_loss': -0.12082862854003906, 'vf_loss': 168.6277618408203, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9767289757728577, 'entropy': 4.131144046783447, 'cur_lr': 4.999999873689376e-05, 'total_loss': 168.52197265625}, 'load_time_ms': 0.74, 'num_steps_sampled': 2400000, 'grad_time_ms': 628.725, 'update_time_ms': 2.469, 'sample_time_ms': 23991.682}",2025-08-31_09-46-31,cda-server-4,32.089104890823364,12000,1756626391,10.157.146.4,False,63332.72201323509,1200
+2001,-613.0982687719857,2001,2401200,{},-794.8414820347457,2401200,0,63357.20713233948,-569.9369665272582,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2401200, 'default': {'kl': 0.01257584523409605, 'policy_loss': -0.14379993081092834, 'vf_loss': 179.25930786132812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9798058271408081, 'entropy': 4.15907621383667, 'cur_lr': 4.999999873689376e-05, 'total_loss': 179.1345977783203}, 'load_time_ms': 0.716, 'num_steps_sampled': 2401200, 'grad_time_ms': 628.518, 'update_time_ms': 2.445, 'sample_time_ms': 24313.528}",2025-08-31_09-46-56,cda-server-4,24.485119104385376,12006,1756626416,10.157.146.4,False,63357.20713233948,1200
+2002,-613.2867892435598,2002,2402400,{},-794.8414820347457,2402400,0,63380.87122154236,-569.9369665272582,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2402400, 'default': {'kl': 0.008096238598227501, 'policy_loss': -0.13066032528877258, 'vf_loss': 448.0787658691406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9489654898643494, 'entropy': 4.332069396972656, 'cur_lr': 4.999999873689376e-05, 'total_loss': 447.9604187011719}, 'load_time_ms': 0.728, 'num_steps_sampled': 2402400, 'grad_time_ms': 632.783, 'update_time_ms': 2.4, 'sample_time_ms': 24391.127}",2025-08-31_09-47-20,cda-server-4,23.66408920288086,12012,1756626440,10.157.146.4,False,63380.87122154236,1200
+2003,-613.8424267871522,2003,2403600,{},-794.8414820347457,2403600,0,63403.737604141235,-569.9369665272582,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2403600, 'default': {'kl': 0.011475787498056889, 'policy_loss': -0.15307702124118805, 'vf_loss': 323.3004150390625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9721477031707764, 'entropy': 4.357995510101318, 'cur_lr': 4.999999873689376e-05, 'total_loss': 323.16473388671875}, 'load_time_ms': 0.729, 'num_steps_sampled': 2403600, 'grad_time_ms': 648.075, 'update_time_ms': 2.419, 'sample_time_ms': 24490.734}",2025-08-31_09-47-43,cda-server-4,22.866382598876953,12018,1756626463,10.157.146.4,False,63403.737604141235,1200
+2004,-613.3926660248254,2004,2404800,{},-794.8414820347457,2404800,0,63426.18618941307,-564.8711143459088,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2404800, 'default': {'kl': 0.01023674476891756, 'policy_loss': -0.1372881531715393, 'vf_loss': 104.20802307128906, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9882347583770752, 'entropy': 4.032735824584961, 'cur_lr': 4.999999873689376e-05, 'total_loss': 104.0862808227539}, 'load_time_ms': 0.748, 'num_steps_sampled': 2404800, 'grad_time_ms': 665.246, 'update_time_ms': 2.319, 'sample_time_ms': 24368.935}",2025-08-31_09-48-05,cda-server-4,22.448585271835327,12024,1756626485,10.157.146.4,False,63426.18618941307,1200
+2005,-612.2076275373554,2005,2406000,{},-659.1485429332503,2406000,0,63449.833213567734,-564.8711143459088,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2406000, 'default': {'kl': 0.009942208416759968, 'policy_loss': -0.13260406255722046, 'vf_loss': 45.95455551147461, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.996319055557251, 'entropy': 4.282872676849365, 'cur_lr': 4.999999873689376e-05, 'total_loss': 45.83705520629883}, 'load_time_ms': 0.749, 'num_steps_sampled': 2406000, 'grad_time_ms': 688.18, 'update_time_ms': 2.343, 'sample_time_ms': 24340.635}",2025-08-31_09-48-29,cda-server-4,23.647024154663086,12030,1756626509,10.157.146.4,False,63449.833213567734,1200
+2006,-612.027767532302,2006,2407200,{},-658.550352641622,2407200,0,63474.55788064003,-564.8711143459088,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2407200, 'default': {'kl': 0.009134764783084393, 'policy_loss': -0.1290636658668518, 'vf_loss': 143.4561004638672, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.982452392578125, 'entropy': 4.295406818389893, 'cur_lr': 4.999999873689376e-05, 'total_loss': 143.34088134765625}, 'load_time_ms': 0.715, 'num_steps_sampled': 2407200, 'grad_time_ms': 713.265, 'update_time_ms': 2.214, 'sample_time_ms': 24354.868}",2025-08-31_09-48-53,cda-server-4,24.724667072296143,12036,1756626533,10.157.146.4,False,63474.55788064003,1200
+2007,-612.0331428776138,2007,2408400,{},-658.550352641622,2408400,0,63499.16510486603,-564.8711143459088,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2408400, 'default': {'kl': 0.010700431652367115, 'policy_loss': -0.1400274634361267, 'vf_loss': 432.3855895996094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9613327383995056, 'entropy': 4.428884983062744, 'cur_lr': 4.999999873689376e-05, 'total_loss': 432.2618103027344}, 'load_time_ms': 0.712, 'num_steps_sampled': 2408400, 'grad_time_ms': 722.78, 'update_time_ms': 2.176, 'sample_time_ms': 24519.587}",2025-08-31_09-49-18,cda-server-4,24.607224225997925,12042,1756626558,10.157.146.4,False,63499.16510486603,1200
+2008,-612.2197011445687,2008,2409600,{},-658.550352641622,2409600,0,63521.794874191284,-564.8711143459088,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2409600, 'default': {'kl': 0.010634006932377815, 'policy_loss': -0.1422506868839264, 'vf_loss': 137.8475799560547, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.982435941696167, 'entropy': 4.357753753662109, 'cur_lr': 4.999999873689376e-05, 'total_loss': 137.72146606445312}, 'load_time_ms': 0.692, 'num_steps_sampled': 2409600, 'grad_time_ms': 728.844, 'update_time_ms': 2.204, 'sample_time_ms': 24500.692}",2025-08-31_09-49-41,cda-server-4,22.629769325256348,12048,1756626581,10.157.146.4,False,63521.794874191284,1200
+2009,-613.0841371118476,2009,2410800,{},-667.8332642536071,2410800,0,63546.00821828842,-564.8711143459088,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2410800, 'default': {'kl': 0.011126981116831303, 'policy_loss': -0.1586746722459793, 'vf_loss': 182.72097778320312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9823014736175537, 'entropy': 4.488649845123291, 'cur_lr': 4.999999873689376e-05, 'total_loss': 182.57920837402344}, 'load_time_ms': 0.672, 'num_steps_sampled': 2410800, 'grad_time_ms': 736.991, 'update_time_ms': 2.242, 'sample_time_ms': 23793.705}",2025-08-31_09-50-05,cda-server-4,24.21334409713745,12054,1756626605,10.157.146.4,False,63546.00821828842,1200
+2010,-614.460881360955,2010,2412000,{},-667.8332642536071,2412000,0,63567.6793422699,-564.8711143459088,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2412000, 'default': {'kl': 0.010844496078789234, 'policy_loss': -0.11116104573011398, 'vf_loss': 403.7214660644531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9847797751426697, 'entropy': 4.159175395965576, 'cur_lr': 4.999999873689376e-05, 'total_loss': 403.62677001953125}, 'load_time_ms': 0.673, 'num_steps_sampled': 2412000, 'grad_time_ms': 735.309, 'update_time_ms': 2.293, 'sample_time_ms': 22753.546}",2025-08-31_09-50-27,cda-server-4,21.67112398147583,12060,1756626627,10.157.146.4,False,63567.6793422699,1200
+2011,-613.6915918193876,2011,2413200,{},-667.8332642536071,2413200,0,63592.99942159653,-564.8711143459088,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2413200, 'default': {'kl': 0.010505329817533493, 'policy_loss': -0.13991793990135193, 'vf_loss': 64.14192199707031, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.990792989730835, 'entropy': 4.263473033905029, 'cur_lr': 4.999999873689376e-05, 'total_loss': 64.01795959472656}, 'load_time_ms': 0.687, 'num_steps_sampled': 2413200, 'grad_time_ms': 736.516, 'update_time_ms': 2.258, 'sample_time_ms': 22835.827}",2025-08-31_09-50-52,cda-server-4,25.32007932662964,12066,1756626652,10.157.146.4,False,63592.99942159653,1200
+2012,-613.5306131481228,2012,2414400,{},-667.8332642536071,2414400,0,63619.00257253647,-564.8711143459088,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2414400, 'default': {'kl': 0.011522825807332993, 'policy_loss': -0.12844589352607727, 'vf_loss': 409.2733459472656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9652979373931885, 'entropy': 4.290781021118164, 'cur_lr': 4.999999873689376e-05, 'total_loss': 409.1624450683594}, 'load_time_ms': 0.658, 'num_steps_sampled': 2414400, 'grad_time_ms': 737.25, 'update_time_ms': 2.291, 'sample_time_ms': 23068.991}",2025-08-31_09-51-18,cda-server-4,26.003150939941406,12072,1756626678,10.157.146.4,False,63619.00257253647,1200
+2013,-612.4546383591653,2013,2415600,{},-667.8332642536071,2415600,0,63644.06195116043,-515.9491829769638,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2415600, 'default': {'kl': 0.01142896618694067, 'policy_loss': -0.15063011646270752, 'vf_loss': 337.2237243652344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.96097332239151, 'entropy': 4.2779693603515625, 'cur_lr': 4.999999873689376e-05, 'total_loss': 337.0904541015625}, 'load_time_ms': 0.675, 'num_steps_sampled': 2415600, 'grad_time_ms': 735.817, 'update_time_ms': 2.278, 'sample_time_ms': 23289.711}",2025-08-31_09-51-43,cda-server-4,25.059378623962402,12078,1756626703,10.157.146.4,False,63644.06195116043,1200
+2014,-613.5564043358294,2014,2416800,{},-667.8332642536071,2416800,0,63668.00774526596,-515.9491829769638,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2416800, 'default': {'kl': 0.009077299386262894, 'policy_loss': -0.11512168496847153, 'vf_loss': 253.75750732421875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9814476370811462, 'entropy': 4.511129379272461, 'cur_lr': 4.999999873689376e-05, 'total_loss': 253.6561737060547}, 'load_time_ms': 0.657, 'num_steps_sampled': 2416800, 'grad_time_ms': 728.252, 'update_time_ms': 2.409, 'sample_time_ms': 23446.993}",2025-08-31_09-52-07,cda-server-4,23.945794105529785,12084,1756626727,10.157.146.4,False,63668.00774526596,1200
+2015,-612.4537090843111,2015,2418000,{},-667.8332642536071,2418000,0,63702.618738889694,-488.404912227305,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2418000, 'default': {'kl': 0.010921098291873932, 'policy_loss': -0.12963172793388367, 'vf_loss': 254.3870391845703, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9735089540481567, 'entropy': 4.115916728973389, 'cur_lr': 4.999999873689376e-05, 'total_loss': 254.27398681640625}, 'load_time_ms': 0.661, 'num_steps_sampled': 2418000, 'grad_time_ms': 729.36, 'update_time_ms': 2.335, 'sample_time_ms': 24542.148}",2025-08-31_09-52-42,cda-server-4,34.61099362373352,12090,1756626762,10.157.146.4,False,63702.618738889694,1200
+2016,-612.6727900079766,2016,2419200,{},-667.8332642536071,2419200,0,63736.62942814827,-488.404912227305,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2419200, 'default': {'kl': 0.011230867356061935, 'policy_loss': -0.14339126646518707, 'vf_loss': 289.4910583496094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9788612723350525, 'entropy': 4.2359538078308105, 'cur_lr': 4.999999873689376e-05, 'total_loss': 289.36468505859375}, 'load_time_ms': 0.664, 'num_steps_sampled': 2419200, 'grad_time_ms': 727.997, 'update_time_ms': 2.394, 'sample_time_ms': 25471.988}",2025-08-31_09-53-16,cda-server-4,34.01068925857544,12096,1756626796,10.157.146.4,False,63736.62942814827,1200
+2017,-613.5009418438444,2017,2420400,{},-667.8332642536071,2420400,0,63771.77151465416,-488.404912227305,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2420400, 'default': {'kl': 0.010614593513309956, 'policy_loss': -0.13472014665603638, 'vf_loss': 210.6601104736328, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9731465578079224, 'entropy': 4.246026992797852, 'cur_lr': 4.999999873689376e-05, 'total_loss': 210.54150390625}, 'load_time_ms': 0.697, 'num_steps_sampled': 2420400, 'grad_time_ms': 726.692, 'update_time_ms': 2.428, 'sample_time_ms': 26526.744}",2025-08-31_09-53-51,cda-server-4,35.14208650588989,12102,1756626831,10.157.146.4,False,63771.77151465416,1200
+2018,-612.7061300018383,2018,2421600,{},-667.8332642536071,2421600,0,63806.89597034454,-488.404912227305,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2421600, 'default': {'kl': 0.008832222782075405, 'policy_loss': -0.11995945870876312, 'vf_loss': 246.22369384765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9755589365959167, 'entropy': 4.083195686340332, 'cur_lr': 4.999999873689376e-05, 'total_loss': 246.11715698242188}, 'load_time_ms': 0.692, 'num_steps_sampled': 2421600, 'grad_time_ms': 726.794, 'update_time_ms': 2.515, 'sample_time_ms': 27776.028}",2025-08-31_09-54-26,cda-server-4,35.12445569038391,12108,1756626866,10.157.146.4,False,63806.89597034454,1200
+2019,-612.3089281118257,2019,2422800,{},-667.8332642536071,2422800,0,63840.73905754089,-488.404912227305,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2422800, 'default': {'kl': 0.010732533410191536, 'policy_loss': -0.13915854692459106, 'vf_loss': 256.1571960449219, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9767665863037109, 'entropy': 4.124471664428711, 'cur_lr': 4.999999873689376e-05, 'total_loss': 256.0343017578125}, 'load_time_ms': 0.69, 'num_steps_sampled': 2422800, 'grad_time_ms': 726.487, 'update_time_ms': 2.49, 'sample_time_ms': 28739.305}",2025-08-31_09-55-00,cda-server-4,33.8430871963501,12114,1756626900,10.157.146.4,False,63840.73905754089,1200
+2020,-611.4578468271286,2020,2424000,{},-667.8332642536071,2424000,0,63875.66688799858,-488.404912227305,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2424000, 'default': {'kl': 0.011489655822515488, 'policy_loss': -0.15296152234077454, 'vf_loss': 357.1904296875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9567348957061768, 'entropy': 4.349120140075684, 'cur_lr': 4.999999873689376e-05, 'total_loss': 357.054931640625}, 'load_time_ms': 0.684, 'num_steps_sampled': 2424000, 'grad_time_ms': 726.533, 'update_time_ms': 2.52, 'sample_time_ms': 30064.749}",2025-08-31_09-55-35,cda-server-4,34.92783045768738,12120,1756626935,10.157.146.4,False,63875.66688799858,1200
+2021,-611.9941608885455,2021,2425200,{},-667.8332642536071,2425200,0,63910.482808589935,-488.404912227305,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2425200, 'default': {'kl': 0.009175159968435764, 'policy_loss': -0.14269718527793884, 'vf_loss': 372.6091613769531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9502071738243103, 'entropy': 4.376054286956787, 'cur_lr': 4.999999873689376e-05, 'total_loss': 372.48040771484375}, 'load_time_ms': 0.662, 'num_steps_sampled': 2425200, 'grad_time_ms': 709.327, 'update_time_ms': 2.699, 'sample_time_ms': 31031.416}",2025-08-31_09-56-10,cda-server-4,34.81592059135437,12126,1756626970,10.157.146.4,False,63910.482808589935,1200
+2022,-610.6884239937083,2022,2426400,{},-667.8332642536071,2426400,0,63946.52124285698,-488.404912227305,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2426400, 'default': {'kl': 0.010340334847569466, 'policy_loss': -0.11947119235992432, 'vf_loss': 423.18316650390625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9560093283653259, 'entropy': 3.963268280029297, 'cur_lr': 4.999999873689376e-05, 'total_loss': 423.07940673828125}, 'load_time_ms': 0.697, 'num_steps_sampled': 2426400, 'grad_time_ms': 695.842, 'update_time_ms': 2.641, 'sample_time_ms': 32048.475}",2025-08-31_09-56-46,cda-server-4,36.03843426704407,12132,1756627006,10.157.146.4,False,63946.52124285698,1200
+2023,-610.3460453223247,2023,2427600,{},-667.8332642536071,2427600,0,63981.434962272644,-488.404912227305,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2427600, 'default': {'kl': 0.010440889745950699, 'policy_loss': -0.1264711618423462, 'vf_loss': 131.70745849609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9922934770584106, 'entropy': 4.076664447784424, 'cur_lr': 4.999999873689376e-05, 'total_loss': 131.5968475341797}, 'load_time_ms': 0.707, 'num_steps_sampled': 2427600, 'grad_time_ms': 673.838, 'update_time_ms': 2.681, 'sample_time_ms': 33055.776}",2025-08-31_09-57-21,cda-server-4,34.91371941566467,12138,1756627041,10.157.146.4,False,63981.434962272644,1200
+2024,-609.3999185398981,2024,2428800,{},-667.8332642536071,2428800,0,64016.48617768288,-477.8031484292561,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2428800, 'default': {'kl': 0.009604154154658318, 'policy_loss': -0.12441173940896988, 'vf_loss': 523.77587890625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9337828755378723, 'entropy': 4.1791253089904785, 'cur_lr': 4.999999873689376e-05, 'total_loss': 523.6660766601562}, 'load_time_ms': 0.75, 'num_steps_sampled': 2428800, 'grad_time_ms': 662.336, 'update_time_ms': 2.625, 'sample_time_ms': 34177.781}",2025-08-31_09-57-56,cda-server-4,35.051215410232544,12144,1756627076,10.157.146.4,False,64016.48617768288,1200
+2025,-608.4821283412565,2025,2430000,{},-667.8332642536071,2430000,0,64052.41249370575,-477.8031484292561,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2430000, 'default': {'kl': 0.011412016116082668, 'policy_loss': -0.1355958878993988, 'vf_loss': 265.357421875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9666039347648621, 'entropy': 4.011388778686523, 'cur_lr': 4.999999873689376e-05, 'total_loss': 265.2391662597656}, 'load_time_ms': 0.716, 'num_steps_sampled': 2430000, 'grad_time_ms': 659.531, 'update_time_ms': 2.715, 'sample_time_ms': 34312.301}",2025-08-31_09-58-32,cda-server-4,35.926316022872925,12150,1756627112,10.157.146.4,False,64052.41249370575,1200
+2026,-607.044085142927,2026,2431200,{},-664.4512019127897,2431200,0,64086.60979104042,-477.8031484292561,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2431200, 'default': {'kl': 0.011824914254248142, 'policy_loss': -0.12954580783843994, 'vf_loss': 85.90414428710938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9873093366622925, 'entropy': 4.147247791290283, 'cur_lr': 4.999999873689376e-05, 'total_loss': 85.79257202148438}, 'load_time_ms': 0.718, 'num_steps_sampled': 2431200, 'grad_time_ms': 654.78, 'update_time_ms': 2.678, 'sample_time_ms': 34335.701}",2025-08-31_09-59-06,cda-server-4,34.19729733467102,12156,1756627146,10.157.146.4,False,64086.60979104042,1200
+2027,-605.4075594202818,2027,2432400,{},-664.4512019127897,2432400,0,64122.088451862335,-477.8031484292561,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2432400, 'default': {'kl': 0.010165474377572536, 'policy_loss': -0.1282338798046112, 'vf_loss': 489.3551025390625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9626333713531494, 'entropy': 4.179079055786133, 'cur_lr': 4.999999873689376e-05, 'total_loss': 489.2423095703125}, 'load_time_ms': 0.702, 'num_steps_sampled': 2432400, 'grad_time_ms': 652.726, 'update_time_ms': 2.736, 'sample_time_ms': 34371.364}",2025-08-31_09-59-41,cda-server-4,35.47866082191467,12162,1756627181,10.157.146.4,False,64122.088451862335,1200
+2028,-605.5847153957237,2028,2433600,{},-664.4512019127897,2433600,0,64157.59351873398,-477.8031484292561,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2433600, 'default': {'kl': 0.010091215372085571, 'policy_loss': -0.12608367204666138, 'vf_loss': 463.0042419433594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9495906829833984, 'entropy': 4.154469013214111, 'cur_lr': 4.999999873689376e-05, 'total_loss': 462.8934326171875}, 'load_time_ms': 0.715, 'num_steps_sampled': 2433600, 'grad_time_ms': 652.031, 'update_time_ms': 2.671, 'sample_time_ms': 34410.258}",2025-08-31_10-00-17,cda-server-4,35.505066871643066,12168,1756627217,10.157.146.4,False,64157.59351873398,1200
+2029,-605.9833937798517,2029,2434800,{},-664.4512019127897,2434800,0,64193.509624004364,-477.8031484292561,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2434800, 'default': {'kl': 0.010761321522295475, 'policy_loss': -0.11309216916561127, 'vf_loss': 564.4342651367188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9733642935752869, 'entropy': 4.015592575073242, 'cur_lr': 4.999999873689376e-05, 'total_loss': 564.3374633789062}, 'load_time_ms': 0.718, 'num_steps_sampled': 2434800, 'grad_time_ms': 652.595, 'update_time_ms': 2.689, 'sample_time_ms': 34616.978}",2025-08-31_10-00-53,cda-server-4,35.91610527038574,12174,1756627253,10.157.146.4,False,64193.509624004364,1200
+2030,-607.1615589408436,2030,2436000,{},-664.4512019127897,2436000,0,64227.95143079758,-477.8031484292561,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2436000, 'default': {'kl': 0.008207373321056366, 'policy_loss': -0.10809473693370819, 'vf_loss': 400.3438720703125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.959143877029419, 'entropy': 4.256446361541748, 'cur_lr': 4.999999873689376e-05, 'total_loss': 400.248291015625}, 'load_time_ms': 0.726, 'num_steps_sampled': 2436000, 'grad_time_ms': 654.283, 'update_time_ms': 2.649, 'sample_time_ms': 34566.782}",2025-08-31_10-01-27,cda-server-4,34.44180679321289,12180,1756627287,10.157.146.4,False,64227.95143079758,1200
+2031,-605.6192017391561,2031,2437200,{},-664.4512019127897,2437200,0,64263.6298789978,-477.8031484292561,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2437200, 'default': {'kl': 0.01115468330681324, 'policy_loss': -0.15638524293899536, 'vf_loss': 235.20301818847656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9893187284469604, 'entropy': 4.348250389099121, 'cur_lr': 4.999999873689376e-05, 'total_loss': 235.06358337402344}, 'load_time_ms': 0.758, 'num_steps_sampled': 2437200, 'grad_time_ms': 670.934, 'update_time_ms': 2.532, 'sample_time_ms': 34636.446}",2025-08-31_10-02-03,cda-server-4,35.67844820022583,12186,1756627323,10.157.146.4,False,64263.6298789978,1200
+2032,-606.8179531698918,2032,2438400,{},-664.4512019127897,2438400,0,64299.32050895691,-477.8031484292561,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2438400, 'default': {'kl': 0.011700189672410488, 'policy_loss': -0.12255658209323883, 'vf_loss': 159.67543029785156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9844297766685486, 'entropy': 4.0964579582214355, 'cur_lr': 4.999999873689376e-05, 'total_loss': 159.57064819335938}, 'load_time_ms': 0.726, 'num_steps_sampled': 2438400, 'grad_time_ms': 686.05, 'update_time_ms': 2.576, 'sample_time_ms': 34586.508}",2025-08-31_10-02-39,cda-server-4,35.690629959106445,12192,1756627359,10.157.146.4,False,64299.32050895691,1200
+2033,-606.4346757392004,2033,2439600,{},-663.9647998460921,2439600,0,64334.49496769905,-477.8031484292561,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2439600, 'default': {'kl': 0.009002667851746082, 'policy_loss': -0.13434791564941406, 'vf_loss': 139.79824829101562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9883713126182556, 'entropy': 4.303170680999756, 'cur_lr': 4.999999873689376e-05, 'total_loss': 139.6775665283203}, 'load_time_ms': 0.69, 'num_steps_sampled': 2439600, 'grad_time_ms': 711.078, 'update_time_ms': 2.622, 'sample_time_ms': 34587.574}",2025-08-31_10-03-14,cda-server-4,35.174458742141724,12198,1756627394,10.157.146.4,False,64334.49496769905,1200
+2034,-606.8502435785001,2034,2440800,{},-663.9647998460921,2440800,0,64369.24756526947,-477.8031484292561,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2440800, 'default': {'kl': 0.011067138984799385, 'policy_loss': -0.1575375497341156, 'vf_loss': 238.82818603515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9780243635177612, 'entropy': 4.203901290893555, 'cur_lr': 4.999999873689376e-05, 'total_loss': 238.68743896484375}, 'load_time_ms': 0.645, 'num_steps_sampled': 2440800, 'grad_time_ms': 729.861, 'update_time_ms': 2.65, 'sample_time_ms': 34538.967}",2025-08-31_10-03-49,cda-server-4,34.75259757041931,12204,1756627429,10.157.146.4,False,64369.24756526947,1200
+2035,-608.3305855076229,2035,2442000,{},-663.9647998460921,2442000,0,64404.56253314018,-477.8031484292561,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2442000, 'default': {'kl': 0.009712684899568558, 'policy_loss': -0.14288891851902008, 'vf_loss': 219.70790100097656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.976383626461029, 'entropy': 4.18858528137207, 'cur_lr': 4.999999873689376e-05, 'total_loss': 219.57977294921875}, 'load_time_ms': 0.681, 'num_steps_sampled': 2442000, 'grad_time_ms': 733.289, 'update_time_ms': 2.507, 'sample_time_ms': 34474.39}",2025-08-31_10-04-24,cda-server-4,35.31496787071228,12210,1756627464,10.157.146.4,False,64404.56253314018,1200
+2036,-607.2457131680366,2036,2443200,{},-663.9647998460921,2443200,0,64439.95021009445,-477.8031484292561,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2443200, 'default': {'kl': 0.009799139574170113, 'policy_loss': -0.11698576807975769, 'vf_loss': 344.62603759765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9609571099281311, 'entropy': 4.128256320953369, 'cur_lr': 4.999999873689376e-05, 'total_loss': 344.5238952636719}, 'load_time_ms': 0.703, 'num_steps_sampled': 2443200, 'grad_time_ms': 739.871, 'update_time_ms': 2.537, 'sample_time_ms': 34586.831}",2025-08-31_10-04-59,cda-server-4,35.38767695426941,12216,1756627499,10.157.146.4,False,64439.95021009445,1200
+2037,-608.6518702863609,2037,2444400,{},-663.9647998460921,2444400,0,64474.61052489281,-477.8031484292561,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2444400, 'default': {'kl': 0.009890284389257431, 'policy_loss': -0.13270048797130585, 'vf_loss': 208.83958435058594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9846373796463013, 'entropy': 4.313493728637695, 'cur_lr': 4.999999873689376e-05, 'total_loss': 208.72190856933594}, 'load_time_ms': 0.689, 'num_steps_sampled': 2444400, 'grad_time_ms': 743.188, 'update_time_ms': 2.488, 'sample_time_ms': 34501.774}",2025-08-31_10-05-34,cda-server-4,34.6603147983551,12222,1756627534,10.157.146.4,False,64474.61052489281,1200
+2038,-608.8427956102289,2038,2445600,{},-663.9647998460921,2445600,0,64509.7674241066,-477.8031484292561,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2445600, 'default': {'kl': 0.012373875826597214, 'policy_loss': -0.14643533527851105, 'vf_loss': 69.00789642333984, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9909298419952393, 'entropy': 4.167105674743652, 'cur_lr': 4.999999873689376e-05, 'total_loss': 68.88025665283203}, 'load_time_ms': 0.679, 'num_steps_sampled': 2445600, 'grad_time_ms': 744.304, 'update_time_ms': 2.413, 'sample_time_ms': 34465.854}",2025-08-31_10-06-09,cda-server-4,35.156899213790894,12228,1756627569,10.157.146.4,False,64509.7674241066,1200
+2039,-609.7515125865261,2039,2446800,{},-663.9647998460921,2446800,0,64544.74997258186,-477.8031484292561,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2446800, 'default': {'kl': 0.012273373082280159, 'policy_loss': -0.1576208919286728, 'vf_loss': 55.54164123535156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9971768856048584, 'entropy': 3.997685670852661, 'cur_lr': 4.999999873689376e-05, 'total_loss': 55.40266418457031}, 'load_time_ms': 0.704, 'num_steps_sampled': 2446800, 'grad_time_ms': 744.665, 'update_time_ms': 2.482, 'sample_time_ms': 34372.073}",2025-08-31_10-06-44,cda-server-4,34.9825484752655,12234,1756627604,10.157.146.4,False,64544.74997258186,1200
+2040,-610.3368371528649,2040,2448000,{},-663.9647998460921,2448000,0,64579.41946530342,-477.8031484292561,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2448000, 'default': {'kl': 0.010037221945822239, 'policy_loss': -0.13573895394802094, 'vf_loss': 300.1734313964844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9858004450798035, 'entropy': 4.160207748413086, 'cur_lr': 4.999999873689376e-05, 'total_loss': 300.05291748046875}, 'load_time_ms': 0.73, 'num_steps_sampled': 2448000, 'grad_time_ms': 747.122, 'update_time_ms': 2.469, 'sample_time_ms': 34392.387}",2025-08-31_10-07-19,cda-server-4,34.66949272155762,12240,1756627639,10.157.146.4,False,64579.41946530342,1200
+2041,-611.3649519250021,2041,2449200,{},-663.9647998460921,2449200,0,64614.261900901794,-488.9422069763497,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2449200, 'default': {'kl': 0.007463834248483181, 'policy_loss': -0.10202504694461823, 'vf_loss': 433.0526428222656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9520668387413025, 'entropy': 3.983771324157715, 'cur_lr': 4.999999873689376e-05, 'total_loss': 432.96197509765625}, 'load_time_ms': 0.7, 'num_steps_sampled': 2449200, 'grad_time_ms': 744.545, 'update_time_ms': 2.451, 'sample_time_ms': 34311.39}",2025-08-31_10-07-54,cda-server-4,34.84243559837341,12246,1756627674,10.157.146.4,False,64614.261900901794,1200
+2042,-612.1913829632181,2042,2450400,{},-663.9647998460921,2450400,0,64649.41395187378,-488.9422069763497,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2450400, 'default': {'kl': 0.01003697793930769, 'policy_loss': -0.11727956682443619, 'vf_loss': 63.57181930541992, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9937543869018555, 'entropy': 3.888138771057129, 'cur_lr': 4.999999873689376e-05, 'total_loss': 63.46977996826172}, 'load_time_ms': 0.696, 'num_steps_sampled': 2450400, 'grad_time_ms': 743.514, 'update_time_ms': 2.434, 'sample_time_ms': 34258.456}",2025-08-31_10-08-29,cda-server-4,35.15205097198486,12252,1756627709,10.157.146.4,False,64649.41395187378,1200
+2043,-612.7558893403377,2043,2451600,{},-663.9647998460921,2451600,0,64684.37498497963,-489.1571938997337,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2451600, 'default': {'kl': 0.010425997897982597, 'policy_loss': -0.12007958441972733, 'vf_loss': 295.1700439453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9550647735595703, 'entropy': 4.0788421630859375, 'cur_lr': 4.999999873689376e-05, 'total_loss': 295.0657653808594}, 'load_time_ms': 0.697, 'num_steps_sampled': 2451600, 'grad_time_ms': 737.495, 'update_time_ms': 2.375, 'sample_time_ms': 34243.193}",2025-08-31_10-09-04,cda-server-4,34.96103310585022,12258,1756627744,10.157.146.4,False,64684.37498497963,1200
+2044,-612.177872204411,2044,2452800,{},-663.9647998460921,2452800,0,64718.250480890274,-489.1571938997337,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2452800, 'default': {'kl': 0.014102306216955185, 'policy_loss': -0.1703842431306839, 'vf_loss': 507.8582763671875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9515368342399597, 'entropy': 4.149032115936279, 'cur_lr': 4.999999873689376e-05, 'total_loss': 507.7093200683594}, 'load_time_ms': 0.703, 'num_steps_sampled': 2452800, 'grad_time_ms': 732.453, 'update_time_ms': 2.356, 'sample_time_ms': 34160.58}",2025-08-31_10-09-38,cda-server-4,33.87549591064453,12264,1756627778,10.157.146.4,False,64718.250480890274,1200
+2045,-612.1226877118633,2045,2454000,{},-663.9647998460921,2454000,0,64752.99001479149,-489.1571938997337,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2454000, 'default': {'kl': 0.010684488341212273, 'policy_loss': -0.12174257636070251, 'vf_loss': 223.2486114501953, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9758872985839844, 'entropy': 4.217567443847656, 'cur_lr': 4.999999873689376e-05, 'total_loss': 223.14309692382812}, 'load_time_ms': 0.702, 'num_steps_sampled': 2454000, 'grad_time_ms': 719.306, 'update_time_ms': 2.344, 'sample_time_ms': 34116.084}",2025-08-31_10-10-13,cda-server-4,34.7395339012146,12270,1756627813,10.157.146.4,False,64752.99001479149,1200
+2046,-611.8051638727694,2046,2455200,{},-663.9647998460921,2455200,0,64782.394325733185,-489.1571938997337,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2455200, 'default': {'kl': 0.009259389713406563, 'policy_loss': -0.10437647998332977, 'vf_loss': 310.1751708984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.966874361038208, 'entropy': 4.178030490875244, 'cur_lr': 4.999999873689376e-05, 'total_loss': 310.0848388671875}, 'load_time_ms': 0.675, 'num_steps_sampled': 2455200, 'grad_time_ms': 716.315, 'update_time_ms': 2.294, 'sample_time_ms': 33520.827}",2025-08-31_10-10-42,cda-server-4,29.404310941696167,12276,1756627842,10.157.146.4,False,64782.394325733185,1200
+2047,-610.6749284609647,2047,2456400,{},-663.9647998460921,2456400,0,64813.776493787766,-489.1571938997337,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2456400, 'default': {'kl': 0.011595524847507477, 'policy_loss': -0.14413422346115112, 'vf_loss': 174.42987060546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9817184805870056, 'entropy': 4.020033359527588, 'cur_lr': 4.999999873689376e-05, 'total_loss': 174.3033447265625}, 'load_time_ms': 0.682, 'num_steps_sampled': 2456400, 'grad_time_ms': 716.435, 'update_time_ms': 2.22, 'sample_time_ms': 33192.94}",2025-08-31_10-11-13,cda-server-4,31.38216805458069,12282,1756627873,10.157.146.4,False,64813.776493787766,1200
+2048,-610.1414827559921,2048,2457600,{},-655.0910817152487,2457600,0,64848.208370923996,-514.9352086186043,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2457600, 'default': {'kl': 0.010943755507469177, 'policy_loss': -0.13565045595169067, 'vf_loss': 171.07179260253906, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9846767783164978, 'entropy': 3.9186389446258545, 'cur_lr': 4.999999873689376e-05, 'total_loss': 170.9527587890625}, 'load_time_ms': 0.683, 'num_steps_sampled': 2457600, 'grad_time_ms': 715.957, 'update_time_ms': 2.276, 'sample_time_ms': 33120.834}",2025-08-31_10-11-48,cda-server-4,34.43187713623047,12288,1756627908,10.157.146.4,False,64848.208370923996,1200
+2049,-610.1336114990643,2049,2458800,{},-655.0910817152487,2458800,0,64884.06841635704,-514.9352086186043,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2458800, 'default': {'kl': 0.012735891155898571, 'policy_loss': -0.1341901421546936, 'vf_loss': 140.1710662841797, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9856018424034119, 'entropy': 3.903134346008301, 'cur_lr': 4.999999873689376e-05, 'total_loss': 140.0562286376953}, 'load_time_ms': 0.656, 'num_steps_sampled': 2458800, 'grad_time_ms': 715.569, 'update_time_ms': 2.149, 'sample_time_ms': 33209.087}",2025-08-31_10-12-24,cda-server-4,35.860045433044434,12294,1756627944,10.157.146.4,False,64884.06841635704,1200
+2050,-609.7209855055946,2050,2460000,{},-655.0910817152487,2460000,0,64919.5548620224,-514.9352086186043,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2460000, 'default': {'kl': 0.013424146920442581, 'policy_loss': -0.14606614410877228, 'vf_loss': 279.7752380371094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.968307614326477, 'entropy': 4.041408061981201, 'cur_lr': 4.999999873689376e-05, 'total_loss': 279.6495666503906}, 'load_time_ms': 0.623, 'num_steps_sampled': 2460000, 'grad_time_ms': 714.052, 'update_time_ms': 2.298, 'sample_time_ms': 33292.193}",2025-08-31_10-12-59,cda-server-4,35.4864456653595,12300,1756627979,10.157.146.4,False,64919.5548620224,1200
+2051,-609.8267720392865,2051,2461200,{},-655.0910817152487,2461200,0,64955.42702579498,-514.9352086186043,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2461200, 'default': {'kl': 0.010951235890388489, 'policy_loss': -0.14471666514873505, 'vf_loss': 290.0811767578125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.977196455001831, 'entropy': 4.400574684143066, 'cur_lr': 4.999999873689376e-05, 'total_loss': 289.953125}, 'load_time_ms': 0.622, 'num_steps_sampled': 2461200, 'grad_time_ms': 715.374, 'update_time_ms': 2.474, 'sample_time_ms': 33393.689}",2025-08-31_10-13-35,cda-server-4,35.87216377258301,12306,1756628015,10.157.146.4,False,64955.42702579498,1200
+2052,-608.6683496960445,2052,2462400,{},-655.0910817152487,2462400,0,64989.80956745148,-514.9352086186043,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2462400, 'default': {'kl': 0.010940510779619217, 'policy_loss': -0.13001947104930878, 'vf_loss': 129.01243591308594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9844116568565369, 'entropy': 3.95746111869812, 'cur_lr': 4.999999873689376e-05, 'total_loss': 128.89903259277344}, 'load_time_ms': 0.623, 'num_steps_sampled': 2462400, 'grad_time_ms': 704.344, 'update_time_ms': 2.467, 'sample_time_ms': 33327.793}",2025-08-31_10-14-10,cda-server-4,34.38254165649414,12312,1756628050,10.157.146.4,False,64989.80956745148,1200
+2053,-608.1458916434415,2053,2463600,{},-653.2639046673952,2463600,0,65024.965124607086,-514.9352086186043,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2463600, 'default': {'kl': 0.008521654643118382, 'policy_loss': -0.1086898222565651, 'vf_loss': 136.1146697998047, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9882166981697083, 'entropy': 3.964229106903076, 'cur_lr': 4.999999873689376e-05, 'total_loss': 136.0189208984375}, 'load_time_ms': 0.63, 'num_steps_sampled': 2463600, 'grad_time_ms': 702.088, 'update_time_ms': 2.535, 'sample_time_ms': 33349.42}",2025-08-31_10-14-45,cda-server-4,35.15555715560913,12318,1756628085,10.157.146.4,False,65024.965124607086,1200
+2054,-607.2731784646816,2054,2464800,{},-653.2639046673952,2464800,0,65059.755435705185,-514.9352086186043,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2464800, 'default': {'kl': 0.011633077636361122, 'policy_loss': -0.15552037954330444, 'vf_loss': 327.3192138671875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9734999537467957, 'entropy': 4.261606216430664, 'cur_lr': 4.999999873689376e-05, 'total_loss': 327.1813659667969}, 'load_time_ms': 0.63, 'num_steps_sampled': 2464800, 'grad_time_ms': 698.641, 'update_time_ms': 2.573, 'sample_time_ms': 33444.325}",2025-08-31_10-15-20,cda-server-4,34.790311098098755,12324,1756628120,10.157.146.4,False,65059.755435705185,1200
+2055,-606.8849997755717,2055,2466000,{},-653.2639046673952,2466000,0,65094.108536720276,-514.9352086186043,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2466000, 'default': {'kl': 0.012488328851759434, 'policy_loss': -0.1259663850069046, 'vf_loss': 279.2848815917969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.970417320728302, 'entropy': 3.920755624771118, 'cur_lr': 4.999999873689376e-05, 'total_loss': 279.1778564453125}, 'load_time_ms': 0.628, 'num_steps_sampled': 2466000, 'grad_time_ms': 703.1, 'update_time_ms': 2.615, 'sample_time_ms': 33401.347}",2025-08-31_10-15-54,cda-server-4,34.35310101509094,12330,1756628154,10.157.146.4,False,65094.108536720276,1200
+2056,-605.8763895914378,2056,2467200,{},-653.2639046673952,2467200,0,65129.35938644409,-485.40846332782854,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2467200, 'default': {'kl': 0.008908233605325222, 'policy_loss': -0.1437826007604599, 'vf_loss': 172.4186248779297, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9868401288986206, 'entropy': 4.061081409454346, 'cur_lr': 4.999999873689376e-05, 'total_loss': 172.28836059570312}, 'load_time_ms': 0.628, 'num_steps_sampled': 2467200, 'grad_time_ms': 698.755, 'update_time_ms': 2.633, 'sample_time_ms': 33990.316}",2025-08-31_10-16-29,cda-server-4,35.25084972381592,12336,1756628189,10.157.146.4,False,65129.35938644409,1200
+2057,-605.1509355107514,2057,2468400,{},-653.2639046673952,2468400,0,65164.557968616486,-485.40846332782854,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2468400, 'default': {'kl': 0.011489378288388252, 'policy_loss': -0.1418990194797516, 'vf_loss': 216.12298583984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9734178185462952, 'entropy': 4.071103096008301, 'cur_lr': 4.999999873689376e-05, 'total_loss': 215.99853515625}, 'load_time_ms': 0.621, 'num_steps_sampled': 2468400, 'grad_time_ms': 688.984, 'update_time_ms': 2.684, 'sample_time_ms': 34381.598}",2025-08-31_10-17-04,cda-server-4,35.1985821723938,12342,1756628224,10.157.146.4,False,65164.557968616486,1200
+2058,-606.3675345139202,2058,2469600,{},-664.9762818010769,2469600,0,65199.361145973206,-485.40846332782854,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2469600, 'default': {'kl': 0.009287036024034023, 'policy_loss': -0.14043770730495453, 'vf_loss': 362.3501892089844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9606579542160034, 'entropy': 4.280064105987549, 'cur_lr': 4.999999873689376e-05, 'total_loss': 362.2238464355469}, 'load_time_ms': 0.634, 'num_steps_sampled': 2469600, 'grad_time_ms': 684.952, 'update_time_ms': 2.65, 'sample_time_ms': 34422.839}",2025-08-31_10-17-39,cda-server-4,34.80317735671997,12348,1756628259,10.157.146.4,False,65199.361145973206,1200
+2059,-607.5617942242208,2059,2470800,{},-664.9762818010769,2470800,0,65234.16112613678,-485.40846332782854,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2470800, 'default': {'kl': 0.009059731848537922, 'policy_loss': -0.1253693550825119, 'vf_loss': 71.43299102783203, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9887716770172119, 'entropy': 4.136510372161865, 'cur_lr': 4.999999873689376e-05, 'total_loss': 71.32138061523438}, 'load_time_ms': 0.645, 'num_steps_sampled': 2470800, 'grad_time_ms': 683.602, 'update_time_ms': 2.754, 'sample_time_ms': 34318.137}",2025-08-31_10-18-14,cda-server-4,34.79998016357422,12354,1756628294,10.157.146.4,False,65234.16112613678,1200
+2060,-607.343602771379,2060,2472000,{},-664.9762818010769,2472000,0,65269.66905713081,-485.40846332782854,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2472000, 'default': {'kl': 0.00945125613361597, 'policy_loss': -0.14759762585163116, 'vf_loss': 48.477081298828125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9954503178596497, 'entropy': 4.047145843505859, 'cur_lr': 4.999999873689376e-05, 'total_loss': 48.34383773803711}, 'load_time_ms': 0.664, 'num_steps_sampled': 2472000, 'grad_time_ms': 683.953, 'update_time_ms': 2.604, 'sample_time_ms': 34320.134}",2025-08-31_10-18-50,cda-server-4,35.50793099403381,12360,1756628330,10.157.146.4,False,65269.66905713081,1200
+2061,-608.9998155887913,2061,2473200,{},-664.9762818010769,2473200,0,65305.131563425064,-485.40846332782854,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2473200, 'default': {'kl': 0.010645515285432339, 'policy_loss': -0.12260765582323074, 'vf_loss': 103.99694061279297, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9894738793373108, 'entropy': 4.021725177764893, 'cur_lr': 4.999999873689376e-05, 'total_loss': 103.89049530029297}, 'load_time_ms': 0.697, 'num_steps_sampled': 2473200, 'grad_time_ms': 685.212, 'update_time_ms': 2.604, 'sample_time_ms': 34277.828}",2025-08-31_10-19-25,cda-server-4,35.46250629425049,12366,1756628365,10.157.146.4,False,65305.131563425064,1200
+2062,-608.2611543571337,2062,2474400,{},-664.9762818010769,2474400,0,65339.39551305771,-485.40846332782854,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2474400, 'default': {'kl': 0.01402646116912365, 'policy_loss': -0.17262868583202362, 'vf_loss': 32.186702728271484, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9964547753334045, 'entropy': 3.9364242553710938, 'cur_lr': 4.999999873689376e-05, 'total_loss': 32.035377502441406}, 'load_time_ms': 0.7, 'num_steps_sampled': 2474400, 'grad_time_ms': 694.78, 'update_time_ms': 2.702, 'sample_time_ms': 34256.424}",2025-08-31_10-19-59,cda-server-4,34.26394963264465,12372,1756628399,10.157.146.4,False,65339.39551305771,1200
+2063,-608.1895131056791,2063,2475600,{},-664.9762818010769,2475600,0,65374.54330253601,-485.40846332782854,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2475600, 'default': {'kl': 0.0130749037489295, 'policy_loss': -0.1243373304605484, 'vf_loss': 680.9761962890625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9378936290740967, 'entropy': 4.102517604827881, 'cur_lr': 4.999999873689376e-05, 'total_loss': 680.8717041015625}, 'load_time_ms': 0.695, 'num_steps_sampled': 2475600, 'grad_time_ms': 690.11, 'update_time_ms': 2.663, 'sample_time_ms': 34260.333}",2025-08-31_10-20-34,cda-server-4,35.147789478302,12378,1756628434,10.157.146.4,False,65374.54330253601,1200
+2064,-608.2209289340504,2064,2476800,{},-664.9762818010769,2476800,0,65410.38844227791,-485.40846332782854,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2476800, 'default': {'kl': 0.01106728333979845, 'policy_loss': -0.1394893229007721, 'vf_loss': 115.75987243652344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9872254133224487, 'entropy': 4.171017169952393, 'cur_lr': 4.999999873689376e-05, 'total_loss': 115.63719177246094}, 'load_time_ms': 0.695, 'num_steps_sampled': 2476800, 'grad_time_ms': 684.197, 'update_time_ms': 2.568, 'sample_time_ms': 34371.77}",2025-08-31_10-21-10,cda-server-4,35.84513974189758,12384,1756628470,10.157.146.4,False,65410.38844227791,1200
+2065,-610.1617882397293,2065,2478000,{},-664.9762818010769,2478000,0,65445.45421075821,-485.40846332782854,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2478000, 'default': {'kl': 0.010666805319488049, 'policy_loss': -0.14126081764698029, 'vf_loss': 147.87930297851562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9818927049636841, 'entropy': 4.192187786102295, 'cur_lr': 4.999999873689376e-05, 'total_loss': 147.7542266845703}, 'load_time_ms': 0.69, 'num_steps_sampled': 2478000, 'grad_time_ms': 687.219, 'update_time_ms': 2.591, 'sample_time_ms': 34440.054}",2025-08-31_10-21-45,cda-server-4,35.0657684803009,12390,1756628505,10.157.146.4,False,65445.45421075821,1200
+2066,-610.1922434384561,2066,2479200,{},-664.9762818010769,2479200,0,65480.0201523304,-485.40846332782854,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2479200, 'default': {'kl': 0.011247570626437664, 'policy_loss': -0.14585891366004944, 'vf_loss': 93.38036346435547, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9877747297286987, 'entropy': 4.054797172546387, 'cur_lr': 4.999999873689376e-05, 'total_loss': 93.2515869140625}, 'load_time_ms': 0.7, 'num_steps_sampled': 2479200, 'grad_time_ms': 687.889, 'update_time_ms': 2.63, 'sample_time_ms': 34370.808}",2025-08-31_10-22-20,cda-server-4,34.56594157218933,12396,1756628540,10.157.146.4,False,65480.0201523304,1200
+2067,-608.5841668372549,2067,2480400,{},-664.9762818010769,2480400,0,65515.31124329567,-453.3300349118434,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2480400, 'default': {'kl': 0.012393955141305923, 'policy_loss': -0.14337372779846191, 'vf_loss': 470.4095153808594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9393534064292908, 'entropy': 3.974686861038208, 'cur_lr': 4.999999873689376e-05, 'total_loss': 470.2850036621094}, 'load_time_ms': 0.726, 'num_steps_sampled': 2480400, 'grad_time_ms': 690.15, 'update_time_ms': 2.632, 'sample_time_ms': 34377.897}",2025-08-31_10-22-55,cda-server-4,35.291090965270996,12402,1756628575,10.157.146.4,False,65515.31124329567,1200
+2068,-608.8691546517999,2068,2481600,{},-664.9762818010769,2481600,0,65549.90647149086,-453.3300349118434,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2481600, 'default': {'kl': 0.011038951575756073, 'policy_loss': -0.13661803305149078, 'vf_loss': 45.88017272949219, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9935908913612366, 'entropy': 4.02536678314209, 'cur_lr': 4.999999873689376e-05, 'total_loss': 45.76031494140625}, 'load_time_ms': 0.712, 'num_steps_sampled': 2481600, 'grad_time_ms': 675.088, 'update_time_ms': 2.708, 'sample_time_ms': 34372.079}",2025-08-31_10-23-30,cda-server-4,34.59522819519043,12408,1756628610,10.157.146.4,False,65549.90647149086,1200
+2069,-609.5608673391303,2069,2482800,{},-664.9762818010769,2482800,0,65584.70662117004,-453.3300349118434,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2482800, 'default': {'kl': 0.011247136630117893, 'policy_loss': -0.12387879937887192, 'vf_loss': 737.7484130859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9526036381721497, 'entropy': 4.132699489593506, 'cur_lr': 4.999999873689376e-05, 'total_loss': 737.6416625976562}, 'load_time_ms': 0.696, 'num_steps_sampled': 2482800, 'grad_time_ms': 649.545, 'update_time_ms': 2.58, 'sample_time_ms': 34397.78}",2025-08-31_10-24-05,cda-server-4,34.80014967918396,12414,1756628645,10.157.146.4,False,65584.70662117004,1200
+2070,-609.6471707942934,2070,2484000,{},-664.9762818010769,2484000,0,65619.87455916405,-453.3300349118434,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2484000, 'default': {'kl': 0.011532281525433064, 'policy_loss': -0.14868217706680298, 'vf_loss': 60.81644058227539, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9938005805015564, 'entropy': 4.075606822967529, 'cur_lr': 4.999999873689376e-05, 'total_loss': 60.68527603149414}, 'load_time_ms': 0.693, 'num_steps_sampled': 2484000, 'grad_time_ms': 624.058, 'update_time_ms': 2.568, 'sample_time_ms': 34389.177}",2025-08-31_10-24-40,cda-server-4,35.167937994003296,12420,1756628680,10.157.146.4,False,65619.87455916405,1200
+2071,-609.3137584796021,2071,2485200,{},-664.9762818010769,2485200,0,65655.41621875763,-453.3300349118434,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2485200, 'default': {'kl': 0.010410713031888008, 'policy_loss': -0.1427786946296692, 'vf_loss': 96.09347534179688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9916523694992065, 'entropy': 3.889021873474121, 'cur_lr': 4.999999873689376e-05, 'total_loss': 95.96652221679688}, 'load_time_ms': 0.661, 'num_steps_sampled': 2485200, 'grad_time_ms': 617.13, 'update_time_ms': 2.523, 'sample_time_ms': 34404.149}",2025-08-31_10-25-16,cda-server-4,35.54165959358215,12426,1756628716,10.157.146.4,False,65655.41621875763,1200
+2072,-610.0450546669178,2072,2486400,{},-664.9762818010769,2486400,0,65690.94826030731,-453.3300349118434,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2486400, 'default': {'kl': 0.009483573026955128, 'policy_loss': -0.14571833610534668, 'vf_loss': 52.1303596496582, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9940810799598694, 'entropy': 4.0126824378967285, 'cur_lr': 4.999999873689376e-05, 'total_loss': 51.999046325683594}, 'load_time_ms': 0.661, 'num_steps_sampled': 2486400, 'grad_time_ms': 619.825, 'update_time_ms': 2.545, 'sample_time_ms': 34528.202}",2025-08-31_10-25-51,cda-server-4,35.53204154968262,12432,1756628751,10.157.146.4,False,65690.94826030731,1200
+2073,-608.3674169648496,2073,2487600,{},-664.9762818010769,2487600,0,65725.62027978897,-453.3300349118434,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2487600, 'default': {'kl': 0.0075427764095366, 'policy_loss': -0.12104969471693039, 'vf_loss': 293.3780212402344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9706339240074158, 'entropy': 4.031046390533447, 'cur_lr': 4.999999873689376e-05, 'total_loss': 293.2684020996094}, 'load_time_ms': 0.667, 'num_steps_sampled': 2487600, 'grad_time_ms': 628.331, 'update_time_ms': 2.548, 'sample_time_ms': 34472.204}",2025-08-31_10-26-26,cda-server-4,34.672019481658936,12438,1756628786,10.157.146.4,False,65725.62027978897,1200
+2074,-608.9607450084432,2074,2488800,{},-656.9921147523569,2488800,0,65761.02267050743,-453.3300349118434,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2488800, 'default': {'kl': 0.009236162528395653, 'policy_loss': -0.14371590316295624, 'vf_loss': 126.41392517089844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9856777191162109, 'entropy': 4.1397600173950195, 'cur_lr': 4.999999873689376e-05, 'total_loss': 126.28424835205078}, 'load_time_ms': 0.662, 'num_steps_sampled': 2488800, 'grad_time_ms': 632.472, 'update_time_ms': 2.568, 'sample_time_ms': 34423.742}",2025-08-31_10-27-01,cda-server-4,35.40239071846008,12444,1756628821,10.157.146.4,False,65761.02267050743,1200
+2075,-608.6954997567511,2075,2490000,{},-656.9921147523569,2490000,0,65796.56272649765,-453.3300349118434,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2490000, 'default': {'kl': 0.010905925184488297, 'policy_loss': -0.12175234407186508, 'vf_loss': 42.9635009765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9946002960205078, 'entropy': 4.120174407958984, 'cur_lr': 4.999999873689376e-05, 'total_loss': 42.85831069946289}, 'load_time_ms': 0.635, 'num_steps_sampled': 2490000, 'grad_time_ms': 626.674, 'update_time_ms': 2.533, 'sample_time_ms': 34476.972}",2025-08-31_10-27-37,cda-server-4,35.540055990219116,12450,1756628857,10.157.146.4,False,65796.56272649765,1200
+2076,-607.6356868851002,2076,2491200,{},-656.9921147523569,2491200,0,65830.66098952293,-453.3300349118434,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2491200, 'default': {'kl': 0.009179926477372646, 'policy_loss': -0.14522582292556763, 'vf_loss': 83.40316772460938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9903252720832825, 'entropy': 4.040403842926025, 'cur_lr': 4.999999873689376e-05, 'total_loss': 83.27188873291016}, 'load_time_ms': 0.628, 'num_steps_sampled': 2491200, 'grad_time_ms': 632.094, 'update_time_ms': 2.587, 'sample_time_ms': 34424.746}",2025-08-31_10-28-11,cda-server-4,34.09826302528381,12456,1756628891,10.157.146.4,False,65830.66098952293,1200
+2077,-607.7874966096908,2077,2492400,{},-656.9921147523569,2492400,0,65866.57011389732,-453.3300349118434,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2492400, 'default': {'kl': 0.00841266568750143, 'policy_loss': -0.12573213875293732, 'vf_loss': 228.0376739501953, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9654691219329834, 'entropy': 4.1278252601623535, 'cur_lr': 4.999999873689376e-05, 'total_loss': 227.9247283935547}, 'load_time_ms': 0.637, 'num_steps_sampled': 2492400, 'grad_time_ms': 638.586, 'update_time_ms': 2.528, 'sample_time_ms': 34480.039}",2025-08-31_10-28-47,cda-server-4,35.90912437438965,12462,1756628927,10.157.146.4,False,65866.57011389732,1200
+2078,-606.4717339824556,2078,2493600,{},-656.9921147523569,2493600,0,65901.6079916954,-453.3300349118434,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2493600, 'default': {'kl': 0.00891027506440878, 'policy_loss': -0.13116995990276337, 'vf_loss': 286.9630126953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9696370363235474, 'entropy': 4.206918716430664, 'cur_lr': 4.999999873689376e-05, 'total_loss': 286.8453674316406}, 'load_time_ms': 0.639, 'num_steps_sampled': 2493600, 'grad_time_ms': 655.64, 'update_time_ms': 2.49, 'sample_time_ms': 34507.259}",2025-08-31_10-29-22,cda-server-4,35.037877798080444,12468,1756628962,10.157.146.4,False,65901.6079916954,1200
+2079,-607.5157318036122,2079,2494800,{},-656.9921147523569,2494800,0,65936.74364495277,-453.3300349118434,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2494800, 'default': {'kl': 0.010229171253740788, 'policy_loss': -0.12821266055107117, 'vf_loss': 289.4273376464844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9662206172943115, 'entropy': 4.207815170288086, 'cur_lr': 4.999999873689376e-05, 'total_loss': 289.3146667480469}, 'load_time_ms': 0.643, 'num_steps_sampled': 2494800, 'grad_time_ms': 680.009, 'update_time_ms': 2.612, 'sample_time_ms': 34516.255}",2025-08-31_10-29-57,cda-server-4,35.135653257369995,12474,1756628997,10.157.146.4,False,65936.74364495277,1200
+2080,-608.132450042265,2080,2496000,{},-656.9921147523569,2496000,0,65971.87315893173,-453.3300349118434,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2496000, 'default': {'kl': 0.009420463815331459, 'policy_loss': -0.1503443717956543, 'vf_loss': 179.02981567382812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9791699647903442, 'entropy': 4.161661148071289, 'cur_lr': 4.999999873689376e-05, 'total_loss': 178.89378356933594}, 'load_time_ms': 0.63, 'num_steps_sampled': 2496000, 'grad_time_ms': 706.487, 'update_time_ms': 2.601, 'sample_time_ms': 34486.01}",2025-08-31_10-30-32,cda-server-4,35.12951397895813,12480,1756629032,10.157.146.4,False,65971.87315893173,1200
+2081,-608.792378625462,2081,2497200,{},-656.9921147523569,2497200,0,66007.56642246246,-453.3300349118434,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2497200, 'default': {'kl': 0.011945348232984543, 'policy_loss': -0.14615879952907562, 'vf_loss': 462.9425964355469, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9661105275154114, 'entropy': 4.317488193511963, 'cur_lr': 4.999999873689376e-05, 'total_loss': 462.8146057128906}, 'load_time_ms': 0.665, 'num_steps_sampled': 2497200, 'grad_time_ms': 712.352, 'update_time_ms': 2.616, 'sample_time_ms': 34495.255}",2025-08-31_10-31-08,cda-server-4,35.6932635307312,12486,1756629068,10.157.146.4,False,66007.56642246246,1200
+2082,-608.2759152595763,2082,2498400,{},-656.9921147523569,2498400,0,66043.02223038673,-453.3300349118434,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2498400, 'default': {'kl': 0.009907426312565804, 'policy_loss': -0.1287263035774231, 'vf_loss': 123.59890747070312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9869213104248047, 'entropy': 4.086843967437744, 'cur_lr': 4.999999873689376e-05, 'total_loss': 123.48521423339844}, 'load_time_ms': 0.699, 'num_steps_sampled': 2498400, 'grad_time_ms': 711.966, 'update_time_ms': 2.525, 'sample_time_ms': 34488.037}",2025-08-31_10-31-43,cda-server-4,35.45580792427063,12492,1756629103,10.157.146.4,False,66043.02223038673,1200
+2083,-607.9415697599801,2083,2499600,{},-656.9921147523569,2499600,0,66078.0120716095,-453.3300349118434,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2499600, 'default': {'kl': 0.01093318872153759, 'policy_loss': -0.1467795968055725, 'vf_loss': 88.64541625976562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9873769283294678, 'entropy': 4.114678382873535, 'cur_lr': 4.999999873689376e-05, 'total_loss': 88.51522827148438}, 'load_time_ms': 0.725, 'num_steps_sampled': 2499600, 'grad_time_ms': 712.957, 'update_time_ms': 2.529, 'sample_time_ms': 34518.739}",2025-08-31_10-32-18,cda-server-4,34.98984122276306,12498,1756629138,10.157.146.4,False,66078.0120716095,1200
+2084,-610.3508927235744,2084,2500800,{},-661.7047530417609,2500800,0,66113.37157893181,-519.910025898243,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2500800, 'default': {'kl': 0.012052077800035477, 'policy_loss': -0.1615724116563797, 'vf_loss': 207.32666015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9768294095993042, 'entropy': 4.356604099273682, 'cur_lr': 4.999999873689376e-05, 'total_loss': 207.1833953857422}, 'load_time_ms': 0.741, 'num_steps_sampled': 2500800, 'grad_time_ms': 716.682, 'update_time_ms': 2.523, 'sample_time_ms': 34510.68}",2025-08-31_10-32-54,cda-server-4,35.3595073223114,12504,1756629174,10.157.146.4,False,66113.37157893181,1200
+2085,-610.5504138110153,2085,2502000,{},-661.7047530417609,2502000,0,66149.6711230278,-519.910025898243,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2502000, 'default': {'kl': 0.011163178831338882, 'policy_loss': -0.1452101618051529, 'vf_loss': 52.29325866699219, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9963461756706238, 'entropy': 3.953988790512085, 'cur_lr': 4.999999873689376e-05, 'total_loss': 52.16500473022461}, 'load_time_ms': 0.758, 'num_steps_sampled': 2502000, 'grad_time_ms': 727.194, 'update_time_ms': 2.575, 'sample_time_ms': 34576.073}",2025-08-31_10-33-30,cda-server-4,36.29954409599304,12510,1756629210,10.157.146.4,False,66149.6711230278,1200
+2086,-609.0344900616684,2086,2503200,{},-661.7047530417609,2503200,0,66184.41840052605,-519.910025898243,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2503200, 'default': {'kl': 0.009527760557830334, 'policy_loss': -0.13915854692459106, 'vf_loss': 93.36918640136719, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9905186891555786, 'entropy': 4.098142623901367, 'cur_lr': 4.999999873689376e-05, 'total_loss': 93.24449920654297}, 'load_time_ms': 0.785, 'num_steps_sampled': 2503200, 'grad_time_ms': 726.095, 'update_time_ms': 2.532, 'sample_time_ms': 34642.12}",2025-08-31_10-34-05,cda-server-4,34.74727749824524,12516,1756629245,10.157.146.4,False,66184.41840052605,1200
+2087,-608.687208880446,2087,2504400,{},-661.7047530417609,2504400,0,66220.20141339302,-467.0230940938885,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2504400, 'default': {'kl': 0.00947506632655859, 'policy_loss': -0.10540485382080078, 'vf_loss': 260.99835205078125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9655570983886719, 'entropy': 4.011438846588135, 'cur_lr': 4.999999873689376e-05, 'total_loss': 260.9073486328125}, 'load_time_ms': 0.749, 'num_steps_sampled': 2504400, 'grad_time_ms': 724.184, 'update_time_ms': 2.599, 'sample_time_ms': 34631.352}",2025-08-31_10-34-41,cda-server-4,35.78301286697388,12522,1756629281,10.157.146.4,False,66220.20141339302,1200
+2088,-609.0930993341492,2088,2505600,{},-661.7047530417609,2505600,0,66255.54300093651,-467.0230940938885,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2505600, 'default': {'kl': 0.012836658395826817, 'policy_loss': -0.15230508148670197, 'vf_loss': 201.93031311035156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9905981421470642, 'entropy': 4.010553359985352, 'cur_lr': 4.999999873689376e-05, 'total_loss': 201.79751586914062}, 'load_time_ms': 0.782, 'num_steps_sampled': 2505600, 'grad_time_ms': 725.215, 'update_time_ms': 2.68, 'sample_time_ms': 34660.659}",2025-08-31_10-35-16,cda-server-4,35.34158754348755,12528,1756629316,10.157.146.4,False,66255.54300093651,1200
+2089,-610.0254289427597,2089,2506800,{},-661.7047530417609,2506800,0,66290.97491192818,-467.0230940938885,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2506800, 'default': {'kl': 0.011211053468286991, 'policy_loss': -0.15055911242961884, 'vf_loss': 66.34209442138672, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9927058815956116, 'entropy': 3.9440455436706543, 'cur_lr': 4.999999873689376e-05, 'total_loss': 66.20857238769531}, 'load_time_ms': 0.821, 'num_steps_sampled': 2506800, 'grad_time_ms': 729.041, 'update_time_ms': 2.574, 'sample_time_ms': 34686.458}",2025-08-31_10-35-51,cda-server-4,35.4319109916687,12534,1756629351,10.157.146.4,False,66290.97491192818,1200
+2090,-610.6457938734858,2090,2508000,{},-669.9291761104361,2508000,0,66326.07029867172,-467.0230940938885,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2508000, 'default': {'kl': 0.009907867759466171, 'policy_loss': -0.12418095022439957, 'vf_loss': 417.22955322265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.948371171951294, 'entropy': 4.255997657775879, 'cur_lr': 4.999999873689376e-05, 'total_loss': 417.1203918457031}, 'load_time_ms': 0.824, 'num_steps_sampled': 2508000, 'grad_time_ms': 722.866, 'update_time_ms': 2.695, 'sample_time_ms': 34689.019}",2025-08-31_10-36-27,cda-server-4,35.09538674354553,12540,1756629387,10.157.146.4,False,66326.07029867172,1200
+2091,-609.8887008987646,2091,2509200,{},-669.9291761104361,2509200,0,66361.75216341019,-467.0230940938885,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2509200, 'default': {'kl': 0.0099845165386796, 'policy_loss': -0.12348343431949615, 'vf_loss': 359.4259033203125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9684808254241943, 'entropy': 4.085598945617676, 'cur_lr': 4.999999873689376e-05, 'total_loss': 359.3175964355469}, 'load_time_ms': 0.79, 'num_steps_sampled': 2509200, 'grad_time_ms': 721.017, 'update_time_ms': 2.636, 'sample_time_ms': 34689.877}",2025-08-31_10-37-02,cda-server-4,35.681864738464355,12546,1756629422,10.157.146.4,False,66361.75216341019,1200
+2092,-611.0578967640806,2092,2510400,{},-687.2778232502594,2510400,0,66397.0661149025,-467.0230940938885,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2510400, 'default': {'kl': 0.01066083088517189, 'policy_loss': -0.14219598472118378, 'vf_loss': 359.7972717285156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9651734828948975, 'entropy': 4.321550369262695, 'cur_lr': 4.999999873689376e-05, 'total_loss': 359.6712951660156}, 'load_time_ms': 0.787, 'num_steps_sampled': 2510400, 'grad_time_ms': 720.536, 'update_time_ms': 2.641, 'sample_time_ms': 34676.071}",2025-08-31_10-37-38,cda-server-4,35.31395149230957,12552,1756629458,10.157.146.4,False,66397.0661149025,1200
+2093,-611.5855035965141,2093,2511600,{},-687.2778232502594,2511600,0,66432.11203861237,-467.0230940938885,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2511600, 'default': {'kl': 0.011554810218513012, 'policy_loss': -0.1507311463356018, 'vf_loss': 101.34004974365234, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9859127402305603, 'entropy': 4.130053997039795, 'cur_lr': 4.999999873689376e-05, 'total_loss': 101.20687103271484}, 'load_time_ms': 0.756, 'num_steps_sampled': 2511600, 'grad_time_ms': 722.229, 'update_time_ms': 2.614, 'sample_time_ms': 34680.063}",2025-08-31_10-38-13,cda-server-4,35.045923709869385,12558,1756629493,10.157.146.4,False,66432.11203861237,1200
+2094,-612.0508018467365,2094,2512800,{},-687.2778232502594,2512800,0,66467.2167005539,-467.0230940938885,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2512800, 'default': {'kl': 0.009153195656836033, 'policy_loss': -0.1195518970489502, 'vf_loss': 193.33099365234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9738698601722717, 'entropy': 3.962371826171875, 'cur_lr': 4.999999873689376e-05, 'total_loss': 193.225341796875}, 'load_time_ms': 0.757, 'num_steps_sampled': 2512800, 'grad_time_ms': 728.799, 'update_time_ms': 2.598, 'sample_time_ms': 34648.095}",2025-08-31_10-38-48,cda-server-4,35.10466194152832,12564,1756629528,10.157.146.4,False,66467.2167005539,1200
+2095,-612.741209805719,2095,2514000,{},-687.2778232502594,2514000,0,66503.04715132713,-467.0230940938885,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2514000, 'default': {'kl': 0.008201581425964832, 'policy_loss': -0.10288535058498383, 'vf_loss': 278.8355712890625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9696269631385803, 'entropy': 4.0345892906188965, 'cur_lr': 4.999999873689376e-05, 'total_loss': 278.7451477050781}, 'load_time_ms': 0.745, 'num_steps_sampled': 2514000, 'grad_time_ms': 729.873, 'update_time_ms': 2.581, 'sample_time_ms': 34600.169}",2025-08-31_10-39-24,cda-server-4,35.830450773239136,12570,1756629564,10.157.146.4,False,66503.04715132713,1200
+2096,-612.3449527270159,2096,2515200,{},-687.2778232502594,2515200,0,66538.61672234535,-467.0230940938885,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2515200, 'default': {'kl': 0.01016142312437296, 'policy_loss': -0.11986526101827621, 'vf_loss': 224.42970275878906, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9701138734817505, 'entropy': 4.0724873542785645, 'cur_lr': 4.999999873689376e-05, 'total_loss': 224.32525634765625}, 'load_time_ms': 0.726, 'num_steps_sampled': 2515200, 'grad_time_ms': 732.134, 'update_time_ms': 2.573, 'sample_time_ms': 34680.113}",2025-08-31_10-39-59,cda-server-4,35.569571018218994,12576,1756629599,10.157.146.4,False,66538.61672234535,1200
+2097,-611.5234279501542,2097,2516400,{},-687.2778232502594,2516400,0,66573.01687932014,-467.0230940938885,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2516400, 'default': {'kl': 0.008937072940170765, 'policy_loss': -0.12727046012878418, 'vf_loss': 59.618896484375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9907271265983582, 'entropy': 3.950697183609009, 'cur_lr': 4.999999873689376e-05, 'total_loss': 59.50519561767578}, 'load_time_ms': 0.765, 'num_steps_sampled': 2516400, 'grad_time_ms': 734.572, 'update_time_ms': 2.517, 'sample_time_ms': 34539.441}",2025-08-31_10-40-34,cda-server-4,34.40015697479248,12582,1756629634,10.157.146.4,False,66573.01687932014,1200
+2098,-611.9203363978668,2098,2517600,{},-687.2778232502594,2517600,0,66609.0665242672,-467.0230940938885,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2517600, 'default': {'kl': 0.009733215905725956, 'policy_loss': -0.13218729197978973, 'vf_loss': 404.4335021972656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9677619934082031, 'entropy': 3.9974911212921143, 'cur_lr': 4.999999873689376e-05, 'total_loss': 404.3161315917969}, 'load_time_ms': 0.744, 'num_steps_sampled': 2517600, 'grad_time_ms': 735.812, 'update_time_ms': 2.433, 'sample_time_ms': 34609.012}",2025-08-31_10-41-10,cda-server-4,36.049644947052,12588,1756629670,10.157.146.4,False,66609.0665242672,1200
+2099,-611.2291181194736,2099,2518800,{},-687.2778232502594,2518800,0,66644.06525039673,-467.0230940938885,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2518800, 'default': {'kl': 0.008820835500955582, 'policy_loss': -0.1304432898759842, 'vf_loss': 227.3024139404297, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9756160378456116, 'entropy': 3.933475971221924, 'cur_lr': 4.999999873689376e-05, 'total_loss': 227.18536376953125}, 'load_time_ms': 0.706, 'num_steps_sampled': 2518800, 'grad_time_ms': 734.732, 'update_time_ms': 2.531, 'sample_time_ms': 34566.817}",2025-08-31_10-41-45,cda-server-4,34.99872612953186,12594,1756629705,10.157.146.4,False,66644.06525039673,1200
+2100,-609.9357395140053,2100,2520000,{},-687.2778232502594,2520000,0,66679.38738822937,-467.0230940938885,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2520000, 'default': {'kl': 0.009797154925763607, 'policy_loss': -0.12815824151039124, 'vf_loss': 203.9614715576172, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9785271883010864, 'entropy': 4.0783562660217285, 'cur_lr': 4.999999873689376e-05, 'total_loss': 203.8481903076172}, 'load_time_ms': 0.706, 'num_steps_sampled': 2520000, 'grad_time_ms': 740.59, 'update_time_ms': 2.391, 'sample_time_ms': 34583.84}",2025-08-31_10-42-20,cda-server-4,35.3221378326416,12600,1756629740,10.157.146.4,False,66679.38738822937,1200
+2101,-609.6655227423764,2101,2521200,{},-687.2778232502594,2521200,0,66716.03165388107,-467.0230940938885,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2521200, 'default': {'kl': 0.011911271139979362, 'policy_loss': -0.14993637800216675, 'vf_loss': 212.3743896484375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9818379878997803, 'entropy': 3.994542121887207, 'cur_lr': 4.999999873689376e-05, 'total_loss': 212.24253845214844}, 'load_time_ms': 0.735, 'num_steps_sampled': 2521200, 'grad_time_ms': 743.11, 'update_time_ms': 2.322, 'sample_time_ms': 34677.551}",2025-08-31_10-42-57,cda-server-4,36.64426565170288,12606,1756629777,10.157.146.4,False,66716.03165388107,1200
+2102,-610.909698053795,2102,2522400,{},-687.2778232502594,2522400,0,66751.31684422493,-467.0230940938885,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2522400, 'default': {'kl': 0.011059779673814774, 'policy_loss': -0.14567328989505768, 'vf_loss': 574.822021484375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9390155076980591, 'entropy': 4.184855937957764, 'cur_lr': 4.999999873689376e-05, 'total_loss': 574.6932373046875}, 'load_time_ms': 0.705, 'num_steps_sampled': 2522400, 'grad_time_ms': 744.823, 'update_time_ms': 2.328, 'sample_time_ms': 34673.104}",2025-08-31_10-43-32,cda-server-4,35.28519034385681,12612,1756629812,10.157.146.4,False,66751.31684422493,1200
+2103,-610.8254479357237,2103,2523600,{},-687.2778232502594,2523600,0,66787.1715734005,-467.0230940938885,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2523600, 'default': {'kl': 0.010909710079431534, 'policy_loss': -0.13675040006637573, 'vf_loss': 66.38219451904297, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9910500645637512, 'entropy': 4.111893177032471, 'cur_lr': 4.999999873689376e-05, 'total_loss': 66.26201629638672}, 'load_time_ms': 0.743, 'num_steps_sampled': 2523600, 'grad_time_ms': 747.46, 'update_time_ms': 2.398, 'sample_time_ms': 34751.222}",2025-08-31_10-44-08,cda-server-4,35.85472917556763,12618,1756629848,10.157.146.4,False,66787.1715734005,1200
+2104,-611.8422070073041,2104,2524800,{},-687.2778232502594,2524800,0,66821.46646857262,-561.8724808687916,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2524800, 'default': {'kl': 0.010151590220630169, 'policy_loss': -0.12038634717464447, 'vf_loss': 211.66583251953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.972509503364563, 'entropy': 3.872100353240967, 'cur_lr': 4.999999873689376e-05, 'total_loss': 211.5608673095703}, 'load_time_ms': 0.725, 'num_steps_sampled': 2524800, 'grad_time_ms': 747.718, 'update_time_ms': 2.488, 'sample_time_ms': 34669.841}",2025-08-31_10-44-42,cda-server-4,34.29489517211914,12624,1756629882,10.157.146.4,False,66821.46646857262,1200
+2105,-611.2885047398743,2105,2526000,{},-687.2778232502594,2526000,0,66856.64675664902,-561.8724808687916,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2526000, 'default': {'kl': 0.01059933565557003, 'policy_loss': -0.13829749822616577, 'vf_loss': 215.13368225097656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.974588930606842, 'entropy': 3.8798227310180664, 'cur_lr': 4.999999873689376e-05, 'total_loss': 215.01145935058594}, 'load_time_ms': 0.722, 'num_steps_sampled': 2526000, 'grad_time_ms': 748.262, 'update_time_ms': 2.473, 'sample_time_ms': 34604.328}",2025-08-31_10-45-18,cda-server-4,35.18028807640076,12630,1756629918,10.157.146.4,False,66856.64675664902,1200
+2106,-610.6569317300779,2106,2527200,{},-687.2778232502594,2527200,0,66892.52885007858,-523.2130669262092,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2527200, 'default': {'kl': 0.009986193850636482, 'policy_loss': -0.1226787269115448, 'vf_loss': 227.42282104492188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9763603210449219, 'entropy': 3.891303539276123, 'cur_lr': 4.999999873689376e-05, 'total_loss': 227.31532287597656}, 'load_time_ms': 0.719, 'num_steps_sampled': 2527200, 'grad_time_ms': 749.289, 'update_time_ms': 2.415, 'sample_time_ms': 34634.634}",2025-08-31_10-45-53,cda-server-4,35.88209342956543,12636,1756629953,10.157.146.4,False,66892.52885007858,1200
+2107,-611.4857675304983,2107,2528400,{},-687.2778232502594,2528400,0,66927.72632884979,-523.2130669262092,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2528400, 'default': {'kl': 0.01184411346912384, 'policy_loss': -0.16721723973751068, 'vf_loss': 1189.558837890625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8937289118766785, 'entropy': 4.245126724243164, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1189.40966796875}, 'load_time_ms': 0.682, 'num_steps_sampled': 2528400, 'grad_time_ms': 750.078, 'update_time_ms': 2.455, 'sample_time_ms': 34713.637}",2025-08-31_10-46-29,cda-server-4,35.19747877120972,12642,1756629989,10.157.146.4,False,66927.72632884979,1200
+2108,-611.5913234438932,2108,2529600,{},-792.894191146211,2529600,0,66962.72546982765,-444.99197991696525,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2529600, 'default': {'kl': 0.01292217057198286, 'policy_loss': -0.16914692521095276, 'vf_loss': 603.4407958984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9352912902832031, 'entropy': 4.3435187339782715, 'cur_lr': 4.999999873689376e-05, 'total_loss': 603.2913208007812}, 'load_time_ms': 0.673, 'num_steps_sampled': 2529600, 'grad_time_ms': 747.853, 'update_time_ms': 2.463, 'sample_time_ms': 34610.843}",2025-08-31_10-47-04,cda-server-4,34.9991409778595,12648,1756630024,10.157.146.4,False,66962.72546982765,1200
+2109,-609.2915185777334,2109,2530800,{},-792.894191146211,2530800,0,66998.0498661995,-444.99197991696525,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2530800, 'default': {'kl': 0.011273454874753952, 'policy_loss': -0.14657045900821686, 'vf_loss': 376.487548828125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9790904521942139, 'entropy': 3.990025758743286, 'cur_lr': 4.999999873689376e-05, 'total_loss': 376.3581237792969}, 'load_time_ms': 0.682, 'num_steps_sampled': 2530800, 'grad_time_ms': 747.167, 'update_time_ms': 2.416, 'sample_time_ms': 34644.115}",2025-08-31_10-47-39,cda-server-4,35.32439637184143,12654,1756630059,10.157.146.4,False,66998.0498661995,1200
+2110,-606.107736009567,2110,2532000,{},-792.894191146211,2532000,0,67034.18961191177,-444.99197991696525,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2532000, 'default': {'kl': 0.009499619714915752, 'policy_loss': -0.1284082680940628, 'vf_loss': 168.82012939453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9723072052001953, 'entropy': 3.9397647380828857, 'cur_lr': 4.999999873689376e-05, 'total_loss': 168.70614624023438}, 'load_time_ms': 0.678, 'num_steps_sampled': 2532000, 'grad_time_ms': 747.619, 'update_time_ms': 2.44, 'sample_time_ms': 34725.367}",2025-08-31_10-48-15,cda-server-4,36.13974571228027,12660,1756630095,10.157.146.4,False,67034.18961191177,1200
+2111,-608.3302839880215,2111,2533200,{},-795.132250150758,2533200,0,67069.78491735458,-444.99197991696525,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2533200, 'default': {'kl': 0.010430052876472473, 'policy_loss': -0.13945919275283813, 'vf_loss': 470.2033996582031, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.952276885509491, 'entropy': 4.481314659118652, 'cur_lr': 4.999999873689376e-05, 'total_loss': 470.0798034667969}, 'load_time_ms': 0.644, 'num_steps_sampled': 2533200, 'grad_time_ms': 748.206, 'update_time_ms': 2.464, 'sample_time_ms': 34619.861}",2025-08-31_10-48-51,cda-server-4,35.59530544281006,12666,1756630131,10.157.146.4,False,67069.78491735458,1200
+2112,-608.4684903884116,2112,2534400,{},-795.132250150758,2534400,0,67105.23070144653,-444.99197991696525,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2534400, 'default': {'kl': 0.011930739507079124, 'policy_loss': -0.16622015833854675, 'vf_loss': 212.33123779296875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9800072908401489, 'entropy': 4.229185104370117, 'cur_lr': 4.999999873689376e-05, 'total_loss': 212.1831512451172}, 'load_time_ms': 0.642, 'num_steps_sampled': 2534400, 'grad_time_ms': 747.296, 'update_time_ms': 2.543, 'sample_time_ms': 34636.783}",2025-08-31_10-49-26,cda-server-4,35.44578409194946,12672,1756630166,10.157.146.4,False,67105.23070144653,1200
+2113,-608.5520195307674,2113,2535600,{},-795.132250150758,2535600,0,67141.4366710186,-444.99197991696525,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2535600, 'default': {'kl': 0.008381631225347519, 'policy_loss': -0.11356617510318756, 'vf_loss': 258.2740478515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9685952067375183, 'entropy': 3.8853933811187744, 'cur_lr': 4.999999873689376e-05, 'total_loss': 258.1732177734375}, 'load_time_ms': 0.639, 'num_steps_sampled': 2535600, 'grad_time_ms': 739.827, 'update_time_ms': 2.445, 'sample_time_ms': 34679.433}",2025-08-31_10-50-03,cda-server-4,36.20596957206726,12678,1756630203,10.157.146.4,False,67141.4366710186,1200
+2114,-608.5846656638367,2114,2536800,{},-795.132250150758,2536800,0,67176.13394665718,-444.99197991696525,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2536800, 'default': {'kl': 0.009978757239878178, 'policy_loss': -0.12028736621141434, 'vf_loss': 293.6295471191406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9704354405403137, 'entropy': 3.864412546157837, 'cur_lr': 4.999999873689376e-05, 'total_loss': 293.5244445800781}, 'load_time_ms': 0.644, 'num_steps_sampled': 2536800, 'grad_time_ms': 738.931, 'update_time_ms': 2.386, 'sample_time_ms': 34720.686}",2025-08-31_10-50-37,cda-server-4,34.69727563858032,12684,1756630237,10.157.146.4,False,67176.13394665718,1200
+2115,-608.3921604317715,2115,2538000,{},-795.132250150758,2538000,0,67211.11221647263,-444.99197991696525,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2538000, 'default': {'kl': 0.011829104274511337, 'policy_loss': -0.10702775418758392, 'vf_loss': 608.7882080078125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9480480551719666, 'entropy': 4.005354404449463, 'cur_lr': 4.999999873689376e-05, 'total_loss': 608.6991577148438}, 'load_time_ms': 0.64, 'num_steps_sampled': 2538000, 'grad_time_ms': 738.718, 'update_time_ms': 2.421, 'sample_time_ms': 34700.587}",2025-08-31_10-51-12,cda-server-4,34.978269815444946,12690,1756630272,10.157.146.4,False,67211.11221647263,1200
+2116,-609.3026625739898,2116,2539200,{},-795.132250150758,2539200,0,67246.2160820961,-444.99197991696525,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2539200, 'default': {'kl': 0.010474590584635735, 'policy_loss': -0.15077652037143707, 'vf_loss': 75.82998657226562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9911866784095764, 'entropy': 3.96811842918396, 'cur_lr': 4.999999873689376e-05, 'total_loss': 75.69512176513672}, 'load_time_ms': 0.644, 'num_steps_sampled': 2539200, 'grad_time_ms': 736.581, 'update_time_ms': 2.465, 'sample_time_ms': 34624.859}",2025-08-31_10-51-47,cda-server-4,35.10386562347412,12696,1756630307,10.157.146.4,False,67246.2160820961,1200
+2117,-609.5063232880216,2117,2540400,{},-795.132250150758,2540400,0,67281.97920298576,-444.99197991696525,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2540400, 'default': {'kl': 0.012016210705041885, 'policy_loss': -0.136116623878479, 'vf_loss': 317.9356689453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9729039669036865, 'entropy': 3.9816408157348633, 'cur_lr': 4.999999873689376e-05, 'total_loss': 317.8177795410156}, 'load_time_ms': 0.679, 'num_steps_sampled': 2540400, 'grad_time_ms': 736.933, 'update_time_ms': 2.487, 'sample_time_ms': 34680.944}",2025-08-31_10-52-23,cda-server-4,35.763120889663696,12702,1756630343,10.157.146.4,False,67281.97920298576,1200
+2118,-609.4501730981614,2118,2541600,{},-795.132250150758,2541600,0,67316.59956002235,-444.99197991696525,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2541600, 'default': {'kl': 0.009822496213018894, 'policy_loss': -0.13197651505470276, 'vf_loss': 112.72950744628906, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9852827787399292, 'entropy': 3.935469388961792, 'cur_lr': 4.999999873689376e-05, 'total_loss': 112.61244201660156}, 'load_time_ms': 0.673, 'num_steps_sampled': 2541600, 'grad_time_ms': 736.722, 'update_time_ms': 2.513, 'sample_time_ms': 34643.319}",2025-08-31_10-52-58,cda-server-4,34.620357036590576,12708,1756630378,10.157.146.4,False,67316.59956002235,1200
+2119,-608.6705837962667,2119,2542800,{},-795.132250150758,2542800,0,67351.98520565033,-444.99197991696525,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2542800, 'default': {'kl': 0.010169426910579205, 'policy_loss': -0.1266127973794937, 'vf_loss': 400.8708801269531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9531026482582092, 'entropy': 3.94289493560791, 'cur_lr': 4.999999873689376e-05, 'total_loss': 400.75970458984375}, 'load_time_ms': 0.662, 'num_steps_sampled': 2542800, 'grad_time_ms': 736.698, 'update_time_ms': 2.426, 'sample_time_ms': 34649.494}",2025-08-31_10-53-33,cda-server-4,35.385645627975464,12714,1756630413,10.157.146.4,False,67351.98520565033,1200
+2120,-608.7902854324068,2120,2544000,{},-795.132250150758,2544000,0,67387.49522995949,-444.99197991696525,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2544000, 'default': {'kl': 0.010875193402171135, 'policy_loss': -0.14664725959300995, 'vf_loss': 237.4443359375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9708124995231628, 'entropy': 4.050792694091797, 'cur_lr': 4.999999873689376e-05, 'total_loss': 237.314208984375}, 'load_time_ms': 0.697, 'num_steps_sampled': 2544000, 'grad_time_ms': 734.72, 'update_time_ms': 2.514, 'sample_time_ms': 34588.33}",2025-08-31_10-54-09,cda-server-4,35.510024309158325,12720,1756630449,10.157.146.4,False,67387.49522995949,1200
+2121,-609.6791827625053,2121,2545200,{},-795.132250150758,2545200,0,67423.2107181549,-444.99197991696525,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2545200, 'default': {'kl': 0.009264142252504826, 'policy_loss': -0.12580446898937225, 'vf_loss': 45.568302154541016, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.992726743221283, 'entropy': 4.052072525024414, 'cur_lr': 4.999999873689376e-05, 'total_loss': 45.456565856933594}, 'load_time_ms': 0.698, 'num_steps_sampled': 2545200, 'grad_time_ms': 732.699, 'update_time_ms': 2.486, 'sample_time_ms': 34602.423}",2025-08-31_10-54-44,cda-server-4,35.71548819541931,12726,1756630484,10.157.146.4,False,67423.2107181549,1200
+2122,-610.1514279048139,2122,2546400,{},-795.132250150758,2546400,0,67458.99409270287,-444.99197991696525,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2546400, 'default': {'kl': 0.01119274366647005, 'policy_loss': -0.16467411816120148, 'vf_loss': 181.0012664794922, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9756088256835938, 'entropy': 4.093776702880859, 'cur_lr': 4.999999873689376e-05, 'total_loss': 180.85357666015625}, 'load_time_ms': 0.705, 'num_steps_sampled': 2546400, 'grad_time_ms': 730.748, 'update_time_ms': 2.383, 'sample_time_ms': 34638.25}",2025-08-31_10-55-20,cda-server-4,35.783374547958374,12732,1756630520,10.157.146.4,False,67458.99409270287,1200
+2123,-611.2171048104722,2123,2547600,{},-795.132250150758,2547600,0,67494.65609288216,-444.99197991696525,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2547600, 'default': {'kl': 0.010613695718348026, 'policy_loss': -0.13432246446609497, 'vf_loss': 127.98140716552734, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9863779544830322, 'entropy': 4.0434889793396, 'cur_lr': 4.999999873689376e-05, 'total_loss': 127.86319732666016}, 'load_time_ms': 0.707, 'num_steps_sampled': 2547600, 'grad_time_ms': 726.616, 'update_time_ms': 2.446, 'sample_time_ms': 34587.787}",2025-08-31_10-55-56,cda-server-4,35.66200017929077,12738,1756630556,10.157.146.4,False,67494.65609288216,1200
+2124,-609.2529148179937,2124,2548800,{},-795.132250150758,2548800,0,67530.36566066742,-444.99197991696525,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2548800, 'default': {'kl': 0.011335467919707298, 'policy_loss': -0.15513218939304352, 'vf_loss': 399.0946350097656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9696744084358215, 'entropy': 4.147453308105469, 'cur_lr': 4.999999873689376e-05, 'total_loss': 398.9566955566406}, 'load_time_ms': 0.741, 'num_steps_sampled': 2548800, 'grad_time_ms': 718.342, 'update_time_ms': 2.453, 'sample_time_ms': 34697.322}",2025-08-31_10-56-32,cda-server-4,35.70956778526306,12744,1756630592,10.157.146.4,False,67530.36566066742,1200
+2125,-611.40116812102,2125,2550000,{},-795.132250150758,2550000,0,67564.98214530945,-493.427801190521,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2550000, 'default': {'kl': 0.011650711297988892, 'policy_loss': -0.12849318981170654, 'vf_loss': 149.42059326171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9835205078125, 'entropy': 3.8191630840301514, 'cur_lr': 4.999999873689376e-05, 'total_loss': 149.30978393554688}, 'load_time_ms': 0.776, 'num_steps_sampled': 2550000, 'grad_time_ms': 706.595, 'update_time_ms': 2.412, 'sample_time_ms': 34672.887}",2025-08-31_10-57-06,cda-server-4,34.61648464202881,12750,1756630626,10.157.146.4,False,67564.98214530945,1200
+2126,-612.6992140162138,2126,2551200,{},-795.132250150758,2551200,0,67601.02404093742,-552.5817008995135,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2551200, 'default': {'kl': 0.011348553001880646, 'policy_loss': -0.14787958562374115, 'vf_loss': 310.8244934082031, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9825913310050964, 'entropy': 4.0395731925964355, 'cur_lr': 4.999999873689376e-05, 'total_loss': 310.69384765625}, 'load_time_ms': 0.758, 'num_steps_sampled': 2551200, 'grad_time_ms': 706.962, 'update_time_ms': 2.386, 'sample_time_ms': 34766.428}",2025-08-31_10-57-42,cda-server-4,36.041895627975464,12756,1756630662,10.157.146.4,False,67601.02404093742,1200
+2127,-613.0423108424114,2127,2552400,{},-795.132250150758,2552400,0,67636.74287509918,-552.5817008995135,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2552400, 'default': {'kl': 0.010298475623130798, 'policy_loss': -0.14992481470108032, 'vf_loss': 156.45123291015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9887057542800903, 'entropy': 4.001976490020752, 'cur_lr': 4.999999873689376e-05, 'total_loss': 156.31695556640625}, 'load_time_ms': 0.726, 'num_steps_sampled': 2552400, 'grad_time_ms': 706.667, 'update_time_ms': 2.327, 'sample_time_ms': 34762.455}",2025-08-31_10-58-18,cda-server-4,35.71883416175842,12762,1756630698,10.157.146.4,False,67636.74287509918,1200
+2128,-612.6922031269737,2128,2553600,{},-776.4091783952593,2553600,0,67671.98682379723,-552.5817008995135,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2553600, 'default': {'kl': 0.00942000187933445, 'policy_loss': -0.13269612193107605, 'vf_loss': 712.757568359375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9620148539543152, 'entropy': 4.3214616775512695, 'cur_lr': 4.999999873689376e-05, 'total_loss': 712.63916015625}, 'load_time_ms': 0.73, 'num_steps_sampled': 2553600, 'grad_time_ms': 708.576, 'update_time_ms': 2.276, 'sample_time_ms': 34822.909}",2025-08-31_10-58-53,cda-server-4,35.24394869804382,12768,1756630733,10.157.146.4,False,67671.98682379723,1200
+2129,-611.7757642105614,2129,2554800,{},-776.4091783952593,2554800,0,67706.79139661789,-552.5817008995135,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2554800, 'default': {'kl': 0.011052236892282963, 'policy_loss': -0.12582120299339294, 'vf_loss': 86.15287017822266, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9893815517425537, 'entropy': 3.8319554328918457, 'cur_lr': 4.999999873689376e-05, 'total_loss': 86.04383087158203}, 'load_time_ms': 0.772, 'num_steps_sampled': 2554800, 'grad_time_ms': 708.96, 'update_time_ms': 2.312, 'sample_time_ms': 34764.447}",2025-08-31_10-59-28,cda-server-4,34.80457282066345,12774,1756630768,10.157.146.4,False,67706.79139661789,1200
+2130,-611.219714779898,2130,2556000,{},-776.4091783952593,2556000,0,67742.46499085426,-491.8343513638512,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2556000, 'default': {'kl': 0.010028521530330181, 'policy_loss': -0.15062618255615234, 'vf_loss': 398.2076721191406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9562812447547913, 'entropy': 4.0081658363342285, 'cur_lr': 4.999999873689376e-05, 'total_loss': 398.072265625}, 'load_time_ms': 0.737, 'num_steps_sampled': 2556000, 'grad_time_ms': 709.782, 'update_time_ms': 2.248, 'sample_time_ms': 34780.13}",2025-08-31_11-00-04,cda-server-4,35.6735942363739,12780,1756630804,10.157.146.4,False,67742.46499085426,1200
+2131,-609.6532670180452,2131,2557200,{},-776.4091783952593,2557200,0,67778.13375687599,-465.5834349432444,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2557200, 'default': {'kl': 0.010608052834868431, 'policy_loss': -0.13246671855449677, 'vf_loss': 153.74288940429688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9804508686065674, 'entropy': 3.912073850631714, 'cur_lr': 4.999999873689376e-05, 'total_loss': 153.62652587890625}, 'load_time_ms': 0.778, 'num_steps_sampled': 2557200, 'grad_time_ms': 711.146, 'update_time_ms': 2.308, 'sample_time_ms': 34773.954}",2025-08-31_11-00-40,cda-server-4,35.668766021728516,12786,1756630840,10.157.146.4,False,67778.13375687599,1200
+2132,-608.8675480885032,2132,2558400,{},-776.4091783952593,2558400,0,67812.9608848095,-465.5834349432444,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2558400, 'default': {'kl': 0.010898836888372898, 'policy_loss': -0.1615518182516098, 'vf_loss': 42.6531982421875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9945099949836731, 'entropy': 3.9494595527648926, 'cur_lr': 4.999999873689376e-05, 'total_loss': 42.508201599121094}, 'load_time_ms': 0.768, 'num_steps_sampled': 2558400, 'grad_time_ms': 711.594, 'update_time_ms': 2.302, 'sample_time_ms': 34677.903}",2025-08-31_11-01-14,cda-server-4,34.8271279335022,12792,1756630874,10.157.146.4,False,67812.9608848095,1200
+2133,-609.969769315466,2133,2559600,{},-796.803456048463,2559600,0,67849.10147070885,-465.5834349432444,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2559600, 'default': {'kl': 0.010113743133842945, 'policy_loss': -0.13109414279460907, 'vf_loss': 867.329345703125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9452223181724548, 'entropy': 4.253957748413086, 'cur_lr': 4.999999873689376e-05, 'total_loss': 867.213623046875}, 'load_time_ms': 0.764, 'num_steps_sampled': 2559600, 'grad_time_ms': 721.028, 'update_time_ms': 2.358, 'sample_time_ms': 34716.501}",2025-08-31_11-01-51,cda-server-4,36.14058589935303,12798,1756630911,10.157.146.4,False,67849.10147070885,1200
+2134,-610.3674650513182,2134,2560800,{},-796.803456048463,2560800,0,67884.61097574234,-465.5834349432444,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2560800, 'default': {'kl': 0.009699107147753239, 'policy_loss': -0.14369221031665802, 'vf_loss': 23.835477828979492, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9970239996910095, 'entropy': 4.0044636726379395, 'cur_lr': 4.999999873689376e-05, 'total_loss': 23.706518173217773}, 'load_time_ms': 0.726, 'num_steps_sampled': 2560800, 'grad_time_ms': 727.226, 'update_time_ms': 2.486, 'sample_time_ms': 34690.174}",2025-08-31_11-02-26,cda-server-4,35.50950503349304,12804,1756630946,10.157.146.4,False,67884.61097574234,1200
+2135,-611.0869494331812,2135,2562000,{},-796.803456048463,2562000,0,67920.43529129028,-465.5834349432444,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2562000, 'default': {'kl': 0.01092279702425003, 'policy_loss': -0.13402427732944489, 'vf_loss': 88.07266998291016, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9920728206634521, 'entropy': 3.9404428005218506, 'cur_lr': 4.999999873689376e-05, 'total_loss': 87.95523834228516}, 'load_time_ms': 0.694, 'num_steps_sampled': 2562000, 'grad_time_ms': 735.938, 'update_time_ms': 2.449, 'sample_time_ms': 34802.318}",2025-08-31_11-03-02,cda-server-4,35.824315547943115,12810,1756630982,10.157.146.4,False,67920.43529129028,1200
+2136,-611.8936256175333,2136,2563200,{},-796.803456048463,2563200,0,67955.01660871506,-465.5834349432444,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2563200, 'default': {'kl': 0.011090533807873726, 'policy_loss': -0.1515025943517685, 'vf_loss': 152.4479522705078, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9906209111213684, 'entropy': 3.9169185161590576, 'cur_lr': 4.999999873689376e-05, 'total_loss': 152.31329345703125}, 'load_time_ms': 0.703, 'num_steps_sampled': 2563200, 'grad_time_ms': 722.559, 'update_time_ms': 2.44, 'sample_time_ms': 34669.568}",2025-08-31_11-03-37,cda-server-4,34.58131742477417,12816,1756631017,10.157.146.4,False,67955.01660871506,1200
+2137,-611.0519473952968,2137,2564400,{},-796.803456048463,2564400,0,67990.51407432556,-465.5834349432444,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2564400, 'default': {'kl': 0.009423417039215565, 'policy_loss': -0.11873466521501541, 'vf_loss': 80.49378967285156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9885666966438293, 'entropy': 3.9253032207489014, 'cur_lr': 4.999999873689376e-05, 'total_loss': 80.38935852050781}, 'load_time_ms': 0.702, 'num_steps_sampled': 2564400, 'grad_time_ms': 696.858, 'update_time_ms': 2.539, 'sample_time_ms': 34673.081}",2025-08-31_11-04-12,cda-server-4,35.49746561050415,12822,1756631052,10.157.146.4,False,67990.51407432556,1200
+2138,-610.0228481452705,2138,2565600,{},-796.803456048463,2565600,0,68026.21373128891,-465.5834349432444,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2565600, 'default': {'kl': 0.010534554719924927, 'policy_loss': -0.1393415331840515, 'vf_loss': 87.86719512939453, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.990213930606842, 'entropy': 3.8762550354003906, 'cur_lr': 4.999999873689376e-05, 'total_loss': 87.74385070800781}, 'load_time_ms': 0.714, 'num_steps_sampled': 2565600, 'grad_time_ms': 670.415, 'update_time_ms': 2.559, 'sample_time_ms': 34745.106}",2025-08-31_11-04-48,cda-server-4,35.69965696334839,12828,1756631088,10.157.146.4,False,68026.21373128891,1200
+2139,-609.457282876534,2139,2566800,{},-796.803456048463,2566800,0,68060.81530690193,-465.5834349432444,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2566800, 'default': {'kl': 0.010054183192551136, 'policy_loss': -0.13152530789375305, 'vf_loss': 252.9229278564453, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9705049991607666, 'entropy': 3.9809863567352295, 'cur_lr': 4.999999873689376e-05, 'total_loss': 252.80667114257812}, 'load_time_ms': 0.703, 'num_steps_sampled': 2566800, 'grad_time_ms': 653.297, 'update_time_ms': 2.514, 'sample_time_ms': 34741.901}",2025-08-31_11-05-22,cda-server-4,34.60157561302185,12834,1756631122,10.157.146.4,False,68060.81530690193,1200
+2140,-611.1231367571421,2140,2568000,{},-796.803456048463,2568000,0,68095.95192432404,-465.5834349432444,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2568000, 'default': {'kl': 0.011194075457751751, 'policy_loss': -0.151719868183136, 'vf_loss': 378.1569519042969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9719390869140625, 'entropy': 4.2329888343811035, 'cur_lr': 4.999999873689376e-05, 'total_loss': 378.022216796875}, 'load_time_ms': 0.723, 'num_steps_sampled': 2568000, 'grad_time_ms': 628.593, 'update_time_ms': 2.537, 'sample_time_ms': 34712.953}",2025-08-31_11-05-57,cda-server-4,35.13661742210388,12840,1756631157,10.157.146.4,False,68095.95192432404,1200
+2141,-610.3309340701804,2141,2569200,{},-796.803456048463,2569200,0,68131.42287492752,-465.5834349432444,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2569200, 'default': {'kl': 0.013014400377869606, 'policy_loss': -0.1619514524936676, 'vf_loss': 201.82456970214844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9818825125694275, 'entropy': 3.958056926727295, 'cur_lr': 4.999999873689376e-05, 'total_loss': 201.68238830566406}, 'load_time_ms': 0.68, 'num_steps_sampled': 2569200, 'grad_time_ms': 603.392, 'update_time_ms': 2.443, 'sample_time_ms': 34718.588}",2025-08-31_11-06-33,cda-server-4,35.47095060348511,12846,1756631193,10.157.146.4,False,68131.42287492752,1200
+2142,-609.7345058064974,2142,2570400,{},-796.803456048463,2570400,0,68166.16264081001,-465.5834349432444,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2570400, 'default': {'kl': 0.009174809791147709, 'policy_loss': -0.13069210946559906, 'vf_loss': 128.29962158203125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9855210185050964, 'entropy': 3.939316749572754, 'cur_lr': 4.999999873689376e-05, 'total_loss': 128.18287658691406}, 'load_time_ms': 0.68, 'num_steps_sampled': 2570400, 'grad_time_ms': 592.224, 'update_time_ms': 2.424, 'sample_time_ms': 34720.932}",2025-08-31_11-07-08,cda-server-4,34.739765882492065,12852,1756631228,10.157.146.4,False,68166.16264081001,1200
+2143,-609.1642158601259,2143,2571600,{},-796.803456048463,2571600,0,68201.14614343643,-465.5834349432444,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2571600, 'default': {'kl': 0.012063219211995602, 'policy_loss': -0.14801964163780212, 'vf_loss': 80.00202941894531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9893061518669128, 'entropy': 3.934128761291504, 'cur_lr': 4.999999873689376e-05, 'total_loss': 79.87232208251953}, 'load_time_ms': 0.652, 'num_steps_sampled': 2571600, 'grad_time_ms': 584.157, 'update_time_ms': 2.379, 'sample_time_ms': 34613.39}",2025-08-31_11-07-43,cda-server-4,34.98350262641907,12858,1756631263,10.157.146.4,False,68201.14614343643,1200
+2144,-611.0889492901741,2144,2572800,{},-796.803456048463,2572800,0,68236.11615681648,-465.5834349432444,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2572800, 'default': {'kl': 0.01218993030488491, 'policy_loss': -0.15865015983581543, 'vf_loss': 332.58111572265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9705363512039185, 'entropy': 4.257010459899902, 'cur_lr': 4.999999873689376e-05, 'total_loss': 332.4410095214844}, 'load_time_ms': 0.683, 'num_steps_sampled': 2572800, 'grad_time_ms': 578.98, 'update_time_ms': 2.216, 'sample_time_ms': 34564.735}",2025-08-31_11-08-18,cda-server-4,34.97001338005066,12864,1756631298,10.157.146.4,False,68236.11615681648,1200
+2145,-609.6035551296394,2145,2574000,{},-796.803456048463,2574000,0,68272.28769659996,-465.5834349432444,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2574000, 'default': {'kl': 0.011144662275910378, 'policy_loss': -0.13991917669773102, 'vf_loss': 298.13330078125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9617430567741394, 'entropy': 3.9859237670898438, 'cur_lr': 4.999999873689376e-05, 'total_loss': 298.0102844238281}, 'load_time_ms': 0.681, 'num_steps_sampled': 2574000, 'grad_time_ms': 574.064, 'update_time_ms': 2.24, 'sample_time_ms': 34604.43}",2025-08-31_11-08-54,cda-server-4,36.17153978347778,12870,1756631334,10.157.146.4,False,68272.28769659996,1200
+2146,-609.2632172108899,2146,2575200,{},-796.803456048463,2575200,0,68306.98830103874,-465.5834349432444,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2575200, 'default': {'kl': 0.010421361774206161, 'policy_loss': -0.12782907485961914, 'vf_loss': 446.7897644042969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.93562251329422, 'entropy': 3.897040843963623, 'cur_lr': 4.999999873689376e-05, 'total_loss': 446.677734375}, 'load_time_ms': 0.674, 'num_steps_sampled': 2575200, 'grad_time_ms': 580.413, 'update_time_ms': 2.227, 'sample_time_ms': 34610.144}",2025-08-31_11-09-29,cda-server-4,34.70060443878174,12876,1756631369,10.157.146.4,False,68306.98830103874,1200
+2147,-608.6853325717608,2147,2576400,{},-796.803456048463,2576400,0,68342.99186730385,-450.7096416062522,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2576400, 'default': {'kl': 0.010172966867685318, 'policy_loss': -0.14062030613422394, 'vf_loss': 361.9304504394531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9507683515548706, 'entropy': 4.067106246948242, 'cur_lr': 4.999999873689376e-05, 'total_loss': 361.8052978515625}, 'load_time_ms': 0.67, 'num_steps_sampled': 2576400, 'grad_time_ms': 609.06, 'update_time_ms': 2.123, 'sample_time_ms': 34632.177}",2025-08-31_11-10-05,cda-server-4,36.0035662651062,12882,1756631405,10.157.146.4,False,68342.99186730385,1200
+2148,-610.0205688306759,2148,2577600,{},-796.803456048463,2577600,0,68378.7698135376,-450.7096416062522,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2577600, 'default': {'kl': 0.01116274669766426, 'policy_loss': -0.14906735718250275, 'vf_loss': 88.33808135986328, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.991395115852356, 'entropy': 4.026288032531738, 'cur_lr': 4.999999873689376e-05, 'total_loss': 88.20597076416016}, 'load_time_ms': 0.656, 'num_steps_sampled': 2577600, 'grad_time_ms': 635.858, 'update_time_ms': 2.24, 'sample_time_ms': 34613.045}",2025-08-31_11-10-40,cda-server-4,35.77794623374939,12888,1756631440,10.157.146.4,False,68378.7698135376,1200
+2149,-610.3648925959078,2149,2578800,{},-796.803456048463,2578800,0,68413.86211848259,-450.7096416062522,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2578800, 'default': {'kl': 0.010634851641952991, 'policy_loss': -0.1412164717912674, 'vf_loss': 302.4495849609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9817307591438293, 'entropy': 3.891392707824707, 'cur_lr': 4.999999873689376e-05, 'total_loss': 302.3245849609375}, 'load_time_ms': 0.666, 'num_steps_sampled': 2578800, 'grad_time_ms': 654.47, 'update_time_ms': 2.331, 'sample_time_ms': 34643.393}",2025-08-31_11-11-16,cda-server-4,35.092304944992065,12894,1756631476,10.157.146.4,False,68413.86211848259,1200
+2150,-608.210772146094,2150,2580000,{},-688.5591109507343,2580000,0,68448.53054952621,-450.7096416062522,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2580000, 'default': {'kl': 0.009461956098675728, 'policy_loss': -0.13603252172470093, 'vf_loss': 129.87857055664062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9871448874473572, 'entropy': 3.895833730697632, 'cur_lr': 4.999999873689376e-05, 'total_loss': 129.7569122314453}, 'load_time_ms': 0.644, 'num_steps_sampled': 2580000, 'grad_time_ms': 679.013, 'update_time_ms': 2.31, 'sample_time_ms': 34572.007}",2025-08-31_11-11-50,cda-server-4,34.66843104362488,12900,1756631510,10.157.146.4,False,68448.53054952621,1200
+2151,-607.6056921096069,2151,2581200,{},-688.5591109507343,2581200,0,68483.50428318977,-450.7096416062522,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2581200, 'default': {'kl': 0.011111687868833542, 'policy_loss': -0.1298791766166687, 'vf_loss': 123.19855499267578, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9854503273963928, 'entropy': 3.90018892288208, 'cur_lr': 4.999999873689376e-05, 'total_loss': 123.08554077148438}, 'load_time_ms': 0.647, 'num_steps_sampled': 2581200, 'grad_time_ms': 682.664, 'update_time_ms': 2.321, 'sample_time_ms': 34518.586}",2025-08-31_11-12-25,cda-server-4,34.97373366355896,12906,1756631545,10.157.146.4,False,68483.50428318977,1200
+2152,-607.1392230160526,2152,2582400,{},-688.5591109507343,2582400,0,68518.24267530441,-450.7096416062522,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2582400, 'default': {'kl': 0.011099845170974731, 'policy_loss': -0.14342884719371796, 'vf_loss': 104.79702758789062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9881629943847656, 'entropy': 4.027764320373535, 'cur_lr': 4.999999873689376e-05, 'total_loss': 104.67045593261719}, 'load_time_ms': 0.648, 'num_steps_sampled': 2582400, 'grad_time_ms': 684.683, 'update_time_ms': 2.368, 'sample_time_ms': 34516.452}",2025-08-31_11-13-00,cda-server-4,34.73839211463928,12912,1756631580,10.157.146.4,False,68518.24267530441,1200
+2153,-606.991626074605,2153,2583600,{},-688.5591109507343,2583600,0,68552.07358670235,-450.7096416062522,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2583600, 'default': {'kl': 0.009145810268819332, 'policy_loss': -0.11486489325761795, 'vf_loss': 61.04960250854492, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9934898018836975, 'entropy': 3.85829758644104, 'cur_lr': 4.999999873689376e-05, 'total_loss': 60.94863510131836}, 'load_time_ms': 0.647, 'num_steps_sampled': 2583600, 'grad_time_ms': 681.699, 'update_time_ms': 2.319, 'sample_time_ms': 34404.162}",2025-08-31_11-13-34,cda-server-4,33.83091139793396,12918,1756631614,10.157.146.4,False,68552.07358670235,1200
+2154,-606.75082278617,2154,2584800,{},-688.5591109507343,2584800,0,68586.88155508041,-450.7096416062522,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2584800, 'default': {'kl': 0.011262964457273483, 'policy_loss': -0.14258496463298798, 'vf_loss': 131.23289489746094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9873238801956177, 'entropy': 4.020364284515381, 'cur_lr': 4.999999873689376e-05, 'total_loss': 131.107421875}, 'load_time_ms': 0.638, 'num_steps_sampled': 2584800, 'grad_time_ms': 679.29, 'update_time_ms': 2.339, 'sample_time_ms': 34390.371}",2025-08-31_11-14-09,cda-server-4,34.80796837806702,12924,1756631649,10.157.146.4,False,68586.88155508041,1200
+2155,-606.6890556223402,2155,2586000,{},-688.5591109507343,2586000,0,68621.39546608925,-450.7096416062522,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2586000, 'default': {'kl': 0.012312313541769981, 'policy_loss': -0.15788938105106354, 'vf_loss': 120.26020050048828, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9890692234039307, 'entropy': 3.895932912826538, 'cur_lr': 4.999999873689376e-05, 'total_loss': 120.12100982666016}, 'load_time_ms': 0.652, 'num_steps_sampled': 2586000, 'grad_time_ms': 672.89, 'update_time_ms': 2.539, 'sample_time_ms': 34230.606}",2025-08-31_11-14-43,cda-server-4,34.51391100883484,12930,1756631683,10.157.146.4,False,68621.39546608925,1200
+2156,-605.8221973423753,2156,2587200,{},-680.4422518416446,2587200,0,68655.83295941353,-450.7096416062522,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2587200, 'default': {'kl': 0.00980361644178629, 'policy_loss': -0.14139924943447113, 'vf_loss': 100.26087951660156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9916204810142517, 'entropy': 3.8270063400268555, 'cur_lr': 4.999999873689376e-05, 'total_loss': 100.13436889648438}, 'load_time_ms': 0.656, 'num_steps_sampled': 2587200, 'grad_time_ms': 664.286, 'update_time_ms': 2.548, 'sample_time_ms': 34212.819}",2025-08-31_11-15-18,cda-server-4,34.437493324279785,12936,1756631718,10.157.146.4,False,68655.83295941353,1200
+2157,-604.2970576304956,2157,2588400,{},-680.4422518416446,2588400,0,68689.38299489021,-450.7096416062522,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2588400, 'default': {'kl': 0.011413555592298508, 'policy_loss': -0.15158945322036743, 'vf_loss': 45.98377990722656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9958130717277527, 'entropy': 3.8581111431121826, 'cur_lr': 4.999999873689376e-05, 'total_loss': 45.84952163696289}, 'load_time_ms': 0.664, 'num_steps_sampled': 2588400, 'grad_time_ms': 631.208, 'update_time_ms': 2.605, 'sample_time_ms': 34000.461}",2025-08-31_11-15-51,cda-server-4,33.55003547668457,12942,1756631751,10.157.146.4,False,68689.38299489021,1200
+2158,-603.9654940162247,2158,2589600,{},-680.4422518416446,2589600,0,68725.27707886696,-450.7096416062522,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2589600, 'default': {'kl': 0.010489674285054207, 'policy_loss': -0.149771049618721, 'vf_loss': 58.08779525756836, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9924365282058716, 'entropy': 3.9400346279144287, 'cur_lr': 4.999999873689376e-05, 'total_loss': 57.95395278930664}, 'load_time_ms': 0.678, 'num_steps_sampled': 2589600, 'grad_time_ms': 654.845, 'update_time_ms': 2.499, 'sample_time_ms': 33988.353}",2025-08-31_11-16-27,cda-server-4,35.894083976745605,12948,1756631787,10.157.146.4,False,68725.27707886696,1200
+2159,-604.5031302040436,2159,2590800,{},-680.4422518416446,2590800,0,68762.15668416023,-450.7096416062522,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2590800, 'default': {'kl': 0.009786856360733509, 'policy_loss': -0.14621341228485107, 'vf_loss': 305.152099609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9797810316085815, 'entropy': 3.972952127456665, 'cur_lr': 4.999999873689376e-05, 'total_loss': 305.020751953125}, 'load_time_ms': 0.654, 'num_steps_sampled': 2590800, 'grad_time_ms': 675.851, 'update_time_ms': 2.441, 'sample_time_ms': 34146.054}",2025-08-31_11-17-04,cda-server-4,36.879605293273926,12954,1756631824,10.157.146.4,False,68762.15668416023,1200
+2160,-603.6484557314243,2160,2592000,{},-674.9720592792971,2592000,0,68798.33011889458,-450.7096416062522,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2592000, 'default': {'kl': 0.009647693485021591, 'policy_loss': -0.12995924055576324, 'vf_loss': 69.82337188720703, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9900567531585693, 'entropy': 3.903669595718384, 'cur_lr': 4.999999873689376e-05, 'total_loss': 69.70806121826172}, 'load_time_ms': 0.792, 'num_steps_sampled': 2592000, 'grad_time_ms': 696.804, 'update_time_ms': 2.637, 'sample_time_ms': 34275.166}",2025-08-31_11-17-40,cda-server-4,36.17343473434448,12960,1756631860,10.157.146.4,False,68798.33011889458,1200
+2161,-602.7269486053966,2161,2593200,{},-636.5371730598472,2593200,0,68834.23529958725,-450.7096416062522,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2593200, 'default': {'kl': 0.0107572041451931, 'policy_loss': -0.1442037671804428, 'vf_loss': 61.92079544067383, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9928493499755859, 'entropy': 3.9927151203155518, 'cur_lr': 4.999999873689376e-05, 'total_loss': 61.79293441772461}, 'load_time_ms': 0.961, 'num_steps_sampled': 2593200, 'grad_time_ms': 741.232, 'update_time_ms': 2.747, 'sample_time_ms': 34323.418}",2025-08-31_11-18-16,cda-server-4,35.90518069267273,12966,1756631896,10.157.146.4,False,68834.23529958725,1200
+2162,-603.1984098844123,2162,2594400,{},-642.4067822807791,2594400,0,68870.96428012848,-450.7096416062522,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2594400, 'default': {'kl': 0.010720719583332539, 'policy_loss': -0.12955830991268158, 'vf_loss': 231.13107299804688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9729825258255005, 'entropy': 3.871381998062134, 'cur_lr': 4.999999873689376e-05, 'total_loss': 231.01779174804688}, 'load_time_ms': 0.964, 'num_steps_sampled': 2594400, 'grad_time_ms': 770.834, 'update_time_ms': 2.864, 'sample_time_ms': 34492.662}",2025-08-31_11-18-53,cda-server-4,36.72898054122925,12972,1756631933,10.157.146.4,False,68870.96428012848,1200
+2163,-604.9807657965829,2163,2595600,{},-642.4067822807791,2595600,0,68907.9522857666,-496.420342841387,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2595600, 'default': {'kl': 0.011122412048280239, 'policy_loss': -0.14001314342021942, 'vf_loss': 357.3464050292969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9725799560546875, 'entropy': 3.886897563934326, 'cur_lr': 4.999999873689376e-05, 'total_loss': 357.2232971191406}, 'load_time_ms': 0.974, 'num_steps_sampled': 2595600, 'grad_time_ms': 803.211, 'update_time_ms': 2.87, 'sample_time_ms': 34775.822}",2025-08-31_11-19-30,cda-server-4,36.98800563812256,12978,1756631970,10.157.146.4,False,68907.9522857666,1200
+2164,-604.7659085044775,2164,2596800,{},-642.4067822807791,2596800,0,68944.06349086761,-496.420342841387,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2596800, 'default': {'kl': 0.009951414540410042, 'policy_loss': -0.11627577245235443, 'vf_loss': 368.6150207519531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9576290845870972, 'entropy': 4.05154275894165, 'cur_lr': 4.999999873689376e-05, 'total_loss': 368.5138244628906}, 'load_time_ms': 0.964, 'num_steps_sampled': 2596800, 'grad_time_ms': 834.307, 'update_time_ms': 2.863, 'sample_time_ms': 34874.992}",2025-08-31_11-20-06,cda-server-4,36.111205101013184,12984,1756632006,10.157.146.4,False,68944.06349086761,1200
+2165,-605.884825930846,2165,2598000,{},-656.865313675927,2598000,0,68978.94048500061,-496.420342841387,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2598000, 'default': {'kl': 0.01178439799696207, 'policy_loss': -0.14556576311588287, 'vf_loss': 227.66802978515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9757721424102783, 'entropy': 4.1576642990112305, 'cur_lr': 4.999999873689376e-05, 'total_loss': 227.54039001464844}, 'load_time_ms': 0.957, 'num_steps_sampled': 2598000, 'grad_time_ms': 840.422, 'update_time_ms': 2.897, 'sample_time_ms': 34905.29}",2025-08-31_11-20-41,cda-server-4,34.876994132995605,12990,1756632041,10.157.146.4,False,68978.94048500061,1200
+2166,-606.0324728525596,2166,2599200,{},-656.865313675927,2599200,0,69014.56360793114,-496.420342841387,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2599200, 'default': {'kl': 0.009891163557767868, 'policy_loss': -0.1288723647594452, 'vf_loss': 177.740478515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9895398020744324, 'entropy': 3.9152612686157227, 'cur_lr': 4.999999873689376e-05, 'total_loss': 177.6266326904297}, 'load_time_ms': 0.955, 'num_steps_sampled': 2599200, 'grad_time_ms': 843.11, 'update_time_ms': 2.89, 'sample_time_ms': 35021.02}",2025-08-31_11-21-17,cda-server-4,35.62312293052673,12996,1756632077,10.157.146.4,False,69014.56360793114,1200
+2167,-606.4933818084911,2167,2600400,{},-656.865313675927,2600400,0,69048.65664196014,-496.420342841387,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2600400, 'default': {'kl': 0.010697824880480766, 'policy_loss': -0.13652150332927704, 'vf_loss': 312.2436218261719, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9769635796546936, 'entropy': 4.003194332122803, 'cur_lr': 4.999999873689376e-05, 'total_loss': 312.1233825683594}, 'load_time_ms': 0.952, 'num_steps_sampled': 2600400, 'grad_time_ms': 862.038, 'update_time_ms': 2.838, 'sample_time_ms': 35056.45}",2025-08-31_11-21-51,cda-server-4,34.09303402900696,13002,1756632111,10.157.146.4,False,69048.65664196014,1200
+2168,-607.3208219393745,2168,2601600,{},-796.5261505003525,2601600,0,69083.36297821999,-448.0642763194357,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2601600, 'default': {'kl': 0.012237799353897572, 'policy_loss': -0.14812123775482178, 'vf_loss': 1289.891845703125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9397872090339661, 'entropy': 4.163394927978516, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1289.76220703125}, 'load_time_ms': 0.937, 'num_steps_sampled': 2601600, 'grad_time_ms': 816.06, 'update_time_ms': 2.842, 'sample_time_ms': 34983.891}",2025-08-31_11-22-26,cda-server-4,34.70633625984192,13008,1756632146,10.157.146.4,False,69083.36297821999,1200
+2169,-606.8353410547193,2169,2602800,{},-796.5261505003525,2602800,0,69118.27905726433,-448.0642763194357,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2602800, 'default': {'kl': 0.010282850824296474, 'policy_loss': -0.1492806077003479, 'vf_loss': 309.4474182128906, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.961320161819458, 'entropy': 3.9305546283721924, 'cur_lr': 4.999999873689376e-05, 'total_loss': 309.31378173828125}, 'load_time_ms': 0.917, 'num_steps_sampled': 2602800, 'grad_time_ms': 781.774, 'update_time_ms': 2.839, 'sample_time_ms': 34821.986}",2025-08-31_11-23-00,cda-server-4,34.91607904434204,13014,1756632180,10.157.146.4,False,69118.27905726433,1200
+2170,-607.1060061689819,2170,2604000,{},-796.5261505003525,2604000,0,69153.33474469185,-448.0642763194357,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2604000, 'default': {'kl': 0.00822029635310173, 'policy_loss': -0.1283731609582901, 'vf_loss': 330.6525573730469, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9514889121055603, 'entropy': 3.8564915657043457, 'cur_lr': 4.999999873689376e-05, 'total_loss': 330.5367126464844}, 'load_time_ms': 0.814, 'num_steps_sampled': 2604000, 'grad_time_ms': 740.214, 'update_time_ms': 2.64, 'sample_time_ms': 34752.166}",2025-08-31_11-23-35,cda-server-4,35.05568742752075,13020,1756632215,10.157.146.4,False,69153.33474469185,1200
+2171,-607.5393208551014,2171,2605200,{},-796.5261505003525,2605200,0,69187.02594470978,-448.0642763194357,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2605200, 'default': {'kl': 0.012313934974372387, 'policy_loss': -0.15628282725811005, 'vf_loss': 166.60443115234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9872971773147583, 'entropy': 3.9459168910980225, 'cur_lr': 4.999999873689376e-05, 'total_loss': 166.4668731689453}, 'load_time_ms': 0.648, 'num_steps_sampled': 2605200, 'grad_time_ms': 696.33, 'update_time_ms': 2.513, 'sample_time_ms': 34575.133}",2025-08-31_11-24-09,cda-server-4,33.69120001792908,13026,1756632249,10.157.146.4,False,69187.02594470978,1200
+2172,-606.7658370304481,2172,2606400,{},-796.5261505003525,2606400,0,69221.34385919571,-448.0642763194357,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2606400, 'default': {'kl': 0.011881147511303425, 'policy_loss': -0.14266043901443481, 'vf_loss': 103.42443084716797, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9875630140304565, 'entropy': 3.9146242141723633, 'cur_lr': 4.999999873689376e-05, 'total_loss': 103.29981231689453}, 'load_time_ms': 0.648, 'num_steps_sampled': 2606400, 'grad_time_ms': 653.823, 'update_time_ms': 2.35, 'sample_time_ms': 34376.857}",2025-08-31_11-24-44,cda-server-4,34.3179144859314,13032,1756632284,10.157.146.4,False,69221.34385919571,1200
+2173,-606.8449925497899,2173,2607600,{},-796.5261505003525,2607600,0,69256.0283381939,-448.0642763194357,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2607600, 'default': {'kl': 0.012302273884415627, 'policy_loss': -0.13601917028427124, 'vf_loss': 112.80894470214844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9888196587562561, 'entropy': 3.744032621383667, 'cur_lr': 4.999999873689376e-05, 'total_loss': 112.69161987304688}, 'load_time_ms': 0.635, 'num_steps_sampled': 2607600, 'grad_time_ms': 603.173, 'update_time_ms': 2.348, 'sample_time_ms': 34197.371}",2025-08-31_11-25-18,cda-server-4,34.684478998184204,13038,1756632318,10.157.146.4,False,69256.0283381939,1200
+2174,-608.1738192564375,2174,2608800,{},-796.5261505003525,2608800,0,69290.28321814537,-448.0642763194357,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2608800, 'default': {'kl': 0.010511213913559914, 'policy_loss': -0.1438484936952591, 'vf_loss': 86.93777465820312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9866451621055603, 'entropy': 3.8649821281433105, 'cur_lr': 4.999999873689376e-05, 'total_loss': 86.80988311767578}, 'load_time_ms': 0.628, 'num_steps_sampled': 2608800, 'grad_time_ms': 573.364, 'update_time_ms': 2.305, 'sample_time_ms': 34041.649}",2025-08-31_11-25-53,cda-server-4,34.25487995147705,13044,1756632353,10.157.146.4,False,69290.28321814537,1200
+2175,-610.1554763066001,2175,2610000,{},-796.5261505003525,2610000,0,69325.63924694061,-448.0642763194357,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2610000, 'default': {'kl': 0.012789115309715271, 'policy_loss': -0.14254434406757355, 'vf_loss': 172.51976013183594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9830539226531982, 'entropy': 4.165283203125, 'cur_lr': 4.999999873689376e-05, 'total_loss': 172.3966522216797}, 'load_time_ms': 0.636, 'num_steps_sampled': 2610000, 'grad_time_ms': 575.798, 'update_time_ms': 2.109, 'sample_time_ms': 34087.355}",2025-08-31_11-26-28,cda-server-4,35.35602879524231,13050,1756632388,10.157.146.4,False,69325.63924694061,1200
+2176,-611.3650755059348,2176,2611200,{},-796.5261505003525,2611200,0,69361.77593111992,-448.0642763194357,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2611200, 'default': {'kl': 0.009014398790895939, 'policy_loss': -0.13200679421424866, 'vf_loss': 636.07568359375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9486048817634583, 'entropy': 3.988849639892578, 'cur_lr': 4.999999873689376e-05, 'total_loss': 635.9573974609375}, 'load_time_ms': 0.667, 'num_steps_sampled': 2611200, 'grad_time_ms': 583.827, 'update_time_ms': 2.154, 'sample_time_ms': 34130.699}",2025-08-31_11-27-04,cda-server-4,36.13668417930603,13056,1756632424,10.157.146.4,False,69361.77593111992,1200
+2177,-611.9590839648807,2177,2612400,{},-796.5261505003525,2612400,0,69397.87570214272,-448.0642763194357,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2612400, 'default': {'kl': 0.012176180258393288, 'policy_loss': -0.15734346210956573, 'vf_loss': 306.1552429199219, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9702770709991455, 'entropy': 3.8586583137512207, 'cur_lr': 4.999999873689376e-05, 'total_loss': 306.0163879394531}, 'load_time_ms': 0.666, 'num_steps_sampled': 2612400, 'grad_time_ms': 585.492, 'update_time_ms': 2.191, 'sample_time_ms': 34329.709}",2025-08-31_11-27-40,cda-server-4,36.09977102279663,13062,1756632460,10.157.146.4,False,69397.87570214272,1200
+2178,-611.7617953066257,2178,2613600,{},-796.5261505003525,2613600,0,69432.71921348572,-448.0642763194357,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2613600, 'default': {'kl': 0.010881257243454456, 'policy_loss': -0.130788192152977, 'vf_loss': 129.81024169921875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9820537567138672, 'entropy': 3.8383610248565674, 'cur_lr': 4.999999873689376e-05, 'total_loss': 129.69598388671875}, 'load_time_ms': 0.661, 'num_steps_sampled': 2613600, 'grad_time_ms': 583.042, 'update_time_ms': 2.213, 'sample_time_ms': 34345.64}",2025-08-31_11-28-15,cda-server-4,34.84351134300232,13068,1756632495,10.157.146.4,False,69432.71921348572,1200
+2179,-608.9862681845833,2179,2614800,{},-796.5261505003525,2614800,0,69467.86852169037,-447.87338801802895,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2614800, 'default': {'kl': 0.013031561858952045, 'policy_loss': -0.1690581887960434, 'vf_loss': 586.384033203125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9335795640945435, 'entropy': 4.00705099105835, 'cur_lr': 4.999999873689376e-05, 'total_loss': 586.2347412109375}, 'load_time_ms': 0.663, 'num_steps_sampled': 2614800, 'grad_time_ms': 592.741, 'update_time_ms': 2.318, 'sample_time_ms': 34359.167}",2025-08-31_11-28-50,cda-server-4,35.14930820465088,13074,1756632530,10.157.146.4,False,69467.86852169037,1200
+2180,-609.5703024314619,2180,2616000,{},-796.5261505003525,2616000,0,69503.73270487785,-447.87338801802895,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2616000, 'default': {'kl': 0.01018337719142437, 'policy_loss': -0.12234307825565338, 'vf_loss': 172.47079467773438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9789310097694397, 'entropy': 3.9935035705566406, 'cur_lr': 4.999999873689376e-05, 'total_loss': 172.36392211914062}, 'load_time_ms': 0.63, 'num_steps_sampled': 2616000, 'grad_time_ms': 613.441, 'update_time_ms': 2.37, 'sample_time_ms': 34419.334}",2025-08-31_11-29-26,cda-server-4,35.86418318748474,13080,1756632566,10.157.146.4,False,69503.73270487785,1200
+2181,-609.814381533516,2181,2617200,{},-796.5261505003525,2617200,0,69538.3556933403,-447.87338801802895,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2617200, 'default': {'kl': 0.009376989677548409, 'policy_loss': -0.13234341144561768, 'vf_loss': 354.3315124511719, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9492352604866028, 'entropy': 3.9628567695617676, 'cur_lr': 4.999999873689376e-05, 'total_loss': 354.21343994140625}, 'load_time_ms': 0.624, 'num_steps_sampled': 2617200, 'grad_time_ms': 631.291, 'update_time_ms': 2.474, 'sample_time_ms': 34494.59}",2025-08-31_11-30-01,cda-server-4,34.62298846244812,13086,1756632601,10.157.146.4,False,69538.3556933403,1200
+2182,-610.0662439321632,2182,2618400,{},-796.5261505003525,2618400,0,69573.5876185894,-447.87338801802895,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2618400, 'default': {'kl': 0.012297701090574265, 'policy_loss': -0.1460263729095459, 'vf_loss': 262.3035583496094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9801949262619019, 'entropy': 4.11646842956543, 'cur_lr': 4.999999873689376e-05, 'total_loss': 262.17620849609375}, 'load_time_ms': 0.625, 'num_steps_sampled': 2618400, 'grad_time_ms': 654.706, 'update_time_ms': 2.518, 'sample_time_ms': 34562.539}",2025-08-31_11-30-36,cda-server-4,35.23192524909973,13092,1756632636,10.157.146.4,False,69573.5876185894,1200
+2183,-610.1156814429065,2183,2619600,{},-796.5261505003525,2619600,0,69609.47894620895,-447.87338801802895,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2619600, 'default': {'kl': 0.011054154485464096, 'policy_loss': -0.13076342642307281, 'vf_loss': 129.18991088867188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9807420372962952, 'entropy': 3.893338918685913, 'cur_lr': 4.999999873689376e-05, 'total_loss': 129.075927734375}, 'load_time_ms': 0.661, 'num_steps_sampled': 2619600, 'grad_time_ms': 684.475, 'update_time_ms': 2.498, 'sample_time_ms': 34653.354}",2025-08-31_11-31-12,cda-server-4,35.89132761955261,13098,1756632672,10.157.146.4,False,69609.47894620895,1200
+2184,-612.1451941781247,2184,2620800,{},-796.5261505003525,2620800,0,69644.95865058899,-447.87338801802895,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2620800, 'default': {'kl': 0.010660897940397263, 'policy_loss': -0.14421691000461578, 'vf_loss': 186.40621948242188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.974577784538269, 'entropy': 3.9916980266571045, 'cur_lr': 4.999999873689376e-05, 'total_loss': 186.27818298339844}, 'load_time_ms': 0.657, 'num_steps_sampled': 2620800, 'grad_time_ms': 691.558, 'update_time_ms': 2.601, 'sample_time_ms': 34768.612}",2025-08-31_11-31-47,cda-server-4,35.4797043800354,13104,1756632707,10.157.146.4,False,69644.95865058899,1200
+2185,-609.9101851958505,2185,2622000,{},-792.823892258316,2622000,0,69680.37605571747,-447.87338801802895,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2622000, 'default': {'kl': 0.010412354953587055, 'policy_loss': -0.11972713470458984, 'vf_loss': 203.1915283203125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9725102186203003, 'entropy': 3.976320505142212, 'cur_lr': 4.999999873689376e-05, 'total_loss': 203.08763122558594}, 'load_time_ms': 0.642, 'num_steps_sampled': 2622000, 'grad_time_ms': 697.141, 'update_time_ms': 2.717, 'sample_time_ms': 34769.005}",2025-08-31_11-32-23,cda-server-4,35.417405128479004,13110,1756632743,10.157.146.4,False,69680.37605571747,1200
+2186,-611.0332842835288,2186,2623200,{},-792.823892258316,2623200,0,69716.14969229698,-447.87338801802895,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2623200, 'default': {'kl': 0.010237840004265308, 'policy_loss': -0.13995903730392456, 'vf_loss': 153.89370727539062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9813740849494934, 'entropy': 3.974313974380493, 'cur_lr': 4.999999873689376e-05, 'total_loss': 153.769287109375}, 'load_time_ms': 0.659, 'num_steps_sampled': 2623200, 'grad_time_ms': 703.788, 'update_time_ms': 2.74, 'sample_time_ms': 34726.008}",2025-08-31_11-32-59,cda-server-4,35.77363657951355,13116,1756632779,10.157.146.4,False,69716.14969229698,1200
+2187,-611.0398006262894,2187,2624400,{},-792.823892258316,2624400,0,69752.49546957016,-447.87338801802895,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2624400, 'default': {'kl': 0.00851184781640768, 'policy_loss': -0.11851075291633606, 'vf_loss': 195.7255401611328, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9679194688796997, 'entropy': 3.9703831672668457, 'cur_lr': 4.999999873689376e-05, 'total_loss': 195.61997985839844}, 'load_time_ms': 0.7, 'num_steps_sampled': 2624400, 'grad_time_ms': 712.556, 'update_time_ms': 2.848, 'sample_time_ms': 34741.639}",2025-08-31_11-33-35,cda-server-4,36.3457772731781,13122,1756632815,10.157.146.4,False,69752.49546957016,1200
+2188,-611.1581132886483,2188,2625600,{},-792.823892258316,2625600,0,69787.36907696724,-447.87338801802895,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2625600, 'default': {'kl': 0.012813949026167393, 'policy_loss': -0.1596025824546814, 'vf_loss': 45.14369201660156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9939847588539124, 'entropy': 3.77066969871521, 'cur_lr': 4.999999873689376e-05, 'total_loss': 45.00355529785156}, 'load_time_ms': 0.713, 'num_steps_sampled': 2625600, 'grad_time_ms': 735.629, 'update_time_ms': 2.843, 'sample_time_ms': 34721.691}",2025-08-31_11-34-10,cda-server-4,34.87360739707947,13128,1756632850,10.157.146.4,False,69787.36907696724,1200
+2189,-610.9713025959749,2189,2626800,{},-792.823892258316,2626800,0,69822.56375718117,-447.87338801802895,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2626800, 'default': {'kl': 0.012266889214515686, 'policy_loss': -0.1265440583229065, 'vf_loss': 476.0743408203125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.96038818359375, 'entropy': 3.879948854446411, 'cur_lr': 4.999999873689376e-05, 'total_loss': 475.9664306640625}, 'load_time_ms': 0.721, 'num_steps_sampled': 2626800, 'grad_time_ms': 737.907, 'update_time_ms': 2.839, 'sample_time_ms': 34724.009}",2025-08-31_11-34-45,cda-server-4,35.19468021392822,13134,1756632885,10.157.146.4,False,69822.56375718117,1200
+2190,-611.3764508476769,2190,2628000,{},-792.823892258316,2628000,0,69858.68234229088,-447.87338801802895,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2628000, 'default': {'kl': 0.00969721656292677, 'policy_loss': -0.13691440224647522, 'vf_loss': 43.53950119018555, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9950060248374939, 'entropy': 3.7767393589019775, 'cur_lr': 4.999999873689376e-05, 'total_loss': 43.41731262207031}, 'load_time_ms': 0.72, 'num_steps_sampled': 2628000, 'grad_time_ms': 740.445, 'update_time_ms': 2.764, 'sample_time_ms': 34746.977}",2025-08-31_11-35-21,cda-server-4,36.11858510971069,13140,1756632921,10.157.146.4,False,69858.68234229088,1200
+2191,-611.2783509079803,2191,2629200,{},-792.823892258316,2629200,0,69895.6604168415,-447.87338801802895,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2629200, 'default': {'kl': 0.009212936274707317, 'policy_loss': -0.13928458094596863, 'vf_loss': 122.3294677734375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9919869899749756, 'entropy': 3.9513375759124756, 'cur_lr': 4.999999873689376e-05, 'total_loss': 122.20418548583984}, 'load_time_ms': 0.717, 'num_steps_sampled': 2629200, 'grad_time_ms': 744.998, 'update_time_ms': 2.69, 'sample_time_ms': 34978.004}",2025-08-31_11-35-58,cda-server-4,36.97807455062866,13146,1756632958,10.157.146.4,False,69895.6604168415,1200
+2192,-609.0821485777823,2192,2630400,{},-791.711575325243,2630400,0,69931.42134809494,-447.87338801802895,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2630400, 'default': {'kl': 0.010666078887879848, 'policy_loss': -0.12707120180130005, 'vf_loss': 242.44921875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9765474796295166, 'entropy': 3.8872196674346924, 'cur_lr': 4.999999873689376e-05, 'total_loss': 242.33831787109375}, 'load_time_ms': 0.731, 'num_steps_sampled': 2630400, 'grad_time_ms': 745.586, 'update_time_ms': 2.679, 'sample_time_ms': 35030.24}",2025-08-31_11-36-34,cda-server-4,35.76093125343323,13152,1756632994,10.157.146.4,False,69931.42134809494,1200
+2193,-609.3162976196005,2193,2631600,{},-791.711575325243,2631600,0,69966.61091947556,-447.87338801802895,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2631600, 'default': {'kl': 0.012495611794292927, 'policy_loss': -0.15261618793010712, 'vf_loss': 123.35335540771484, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9856011867523193, 'entropy': 3.9217419624328613, 'cur_lr': 4.999999873689376e-05, 'total_loss': 123.21971130371094}, 'load_time_ms': 0.695, 'num_steps_sampled': 2631600, 'grad_time_ms': 743.932, 'update_time_ms': 2.702, 'sample_time_ms': 34961.775}",2025-08-31_11-37-09,cda-server-4,35.189571380615234,13158,1756633029,10.157.146.4,False,69966.61091947556,1200
+2194,-607.1146875184699,2194,2632800,{},-791.711575325243,2632800,0,70001.9562189579,-447.87338801802895,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2632800, 'default': {'kl': 0.011751324869692326, 'policy_loss': -0.1551114320755005, 'vf_loss': 117.01811981201172, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9912925362586975, 'entropy': 3.797593832015991, 'cur_lr': 4.999999873689376e-05, 'total_loss': 116.88087463378906}, 'load_time_ms': 0.692, 'num_steps_sampled': 2632800, 'grad_time_ms': 743.258, 'update_time_ms': 2.639, 'sample_time_ms': 34949.127}",2025-08-31_11-37-45,cda-server-4,35.34529948234558,13164,1756633065,10.157.146.4,False,70001.9562189579,1200
+2195,-610.4792667583231,2195,2634000,{},-791.711575325243,2634000,0,70037.37850832939,-462.9155060888452,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2634000, 'default': {'kl': 0.009895720519125462, 'policy_loss': -0.11565306782722473, 'vf_loss': 963.1047973632812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.901569664478302, 'entropy': 4.095968723297119, 'cur_lr': 4.999999873689376e-05, 'total_loss': 963.004150390625}, 'load_time_ms': 0.725, 'num_steps_sampled': 2634000, 'grad_time_ms': 743.466, 'update_time_ms': 2.569, 'sample_time_ms': 34949.335}",2025-08-31_11-38-20,cda-server-4,35.42228937149048,13170,1756633100,10.157.146.4,False,70037.37850832939,1200
+2196,-611.1394964806152,2196,2635200,{},-791.711575325243,2635200,0,70072.3477447033,-462.9155060888452,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2635200, 'default': {'kl': 0.009578406810760498, 'policy_loss': -0.13147003948688507, 'vf_loss': 137.3845977783203, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9804373979568481, 'entropy': 3.825409412384033, 'cur_lr': 4.999999873689376e-05, 'total_loss': 137.26766967773438}, 'load_time_ms': 0.679, 'num_steps_sampled': 2635200, 'grad_time_ms': 742.225, 'update_time_ms': 2.572, 'sample_time_ms': 34870.248}",2025-08-31_11-38-55,cda-server-4,34.96923637390137,13176,1756633135,10.157.146.4,False,70072.3477447033,1200
+2197,-610.4932717524208,2197,2636400,{},-791.711575325243,2636400,0,70107.99493074417,-462.9155060888452,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2636400, 'default': {'kl': 0.010981088504195213, 'policy_loss': -0.12969857454299927, 'vf_loss': 345.5114440917969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9582473039627075, 'entropy': 3.8964109420776367, 'cur_lr': 4.999999873689376e-05, 'total_loss': 345.3984375}, 'load_time_ms': 0.659, 'num_steps_sampled': 2636400, 'grad_time_ms': 742.196, 'update_time_ms': 2.416, 'sample_time_ms': 34800.61}",2025-08-31_11-39-31,cda-server-4,35.647186040878296,13182,1756633171,10.157.146.4,False,70107.99493074417,1200
+2198,-607.9293817823067,2198,2637600,{},-728.546677625191,2637600,0,70144.29471969604,-462.9155060888452,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2637600, 'default': {'kl': 0.01024044118821621, 'policy_loss': -0.14001870155334473, 'vf_loss': 76.20465850830078, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9909870624542236, 'entropy': 3.72121262550354, 'cur_lr': 4.999999873689376e-05, 'total_loss': 76.08018493652344}, 'load_time_ms': 0.649, 'num_steps_sampled': 2637600, 'grad_time_ms': 743.565, 'update_time_ms': 2.462, 'sample_time_ms': 34941.907}",2025-08-31_11-40-07,cda-server-4,36.29978895187378,13188,1756633207,10.157.146.4,False,70144.29471969604,1200
+2199,-607.2178159542894,2199,2638800,{},-728.546677625191,2638800,0,70178.85473299026,-462.9155060888452,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2638800, 'default': {'kl': 0.011778823100030422, 'policy_loss': -0.13953086733818054, 'vf_loss': 27.449827194213867, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9962813854217529, 'entropy': 3.747605323791504, 'cur_lr': 4.999999873689376e-05, 'total_loss': 27.32818603515625}, 'load_time_ms': 0.677, 'num_steps_sampled': 2638800, 'grad_time_ms': 743.461, 'update_time_ms': 2.378, 'sample_time_ms': 34878.574}",2025-08-31_11-40-42,cda-server-4,34.56001329421997,13194,1756633242,10.157.146.4,False,70178.85473299026,1200
+2200,-606.6708595517506,2200,2640000,{},-728.546677625191,2640000,0,70214.80387759209,-462.9155060888452,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2640000, 'default': {'kl': 0.010729951784014702, 'policy_loss': -0.11347980052232742, 'vf_loss': 216.01678466796875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9737260341644287, 'entropy': 3.8152389526367188, 'cur_lr': 4.999999873689376e-05, 'total_loss': 215.91961669921875}, 'load_time_ms': 0.679, 'num_steps_sampled': 2640000, 'grad_time_ms': 742.205, 'update_time_ms': 2.422, 'sample_time_ms': 34862.867}",2025-08-31_11-41-18,cda-server-4,35.9491446018219,13200,1756633278,10.157.146.4,False,70214.80387759209,1200
+2201,-605.8328328635205,2201,2641200,{},-728.546677625191,2641200,0,70250.36020159721,-462.9155060888452,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2641200, 'default': {'kl': 0.011280208826065063, 'policy_loss': -0.1385854035615921, 'vf_loss': 224.70330810546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9925791621208191, 'entropy': 3.7309281826019287, 'cur_lr': 4.999999873689376e-05, 'total_loss': 224.5818634033203}, 'load_time_ms': 0.684, 'num_steps_sampled': 2641200, 'grad_time_ms': 733.696, 'update_time_ms': 2.487, 'sample_time_ms': 34729.07}",2025-08-31_11-41-53,cda-server-4,35.55632400512695,13206,1756633313,10.157.146.4,False,70250.36020159721,1200
+2202,-606.5657601588341,2202,2642400,{},-731.5439980605577,2642400,0,70285.47923541069,-462.9155060888452,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2642400, 'default': {'kl': 0.011684030294418335, 'policy_loss': -0.14287686347961426, 'vf_loss': 810.0989379882812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.916496992111206, 'entropy': 4.014456272125244, 'cur_lr': 4.999999873689376e-05, 'total_loss': 809.9738159179688}, 'load_time_ms': 0.699, 'num_steps_sampled': 2642400, 'grad_time_ms': 708.564, 'update_time_ms': 2.475, 'sample_time_ms': 34689.946}",2025-08-31_11-42-28,cda-server-4,35.11903381347656,13212,1756633348,10.157.146.4,False,70285.47923541069,1200
+2203,-607.3888862406312,2203,2643600,{},-731.5439980605577,2643600,0,70320.164342165,-462.9155060888452,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2643600, 'default': {'kl': 0.012772751040756702, 'policy_loss': -0.14996325969696045, 'vf_loss': 231.3828125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9732151031494141, 'entropy': 3.95607328414917, 'cur_lr': 4.999999873689376e-05, 'total_loss': 231.25225830078125}, 'load_time_ms': 0.735, 'num_steps_sampled': 2643600, 'grad_time_ms': 694.602, 'update_time_ms': 2.502, 'sample_time_ms': 34653.435}",2025-08-31_11-43-03,cda-server-4,34.68510675430298,13218,1756633383,10.157.146.4,False,70320.164342165,1200
+2204,-606.8327948526918,2204,2644800,{},-731.5439980605577,2644800,0,70356.22322797775,-462.9155060888452,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2644800, 'default': {'kl': 0.00972544401884079, 'policy_loss': -0.1350318193435669, 'vf_loss': 272.4920349121094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9753850102424622, 'entropy': 3.7457869052886963, 'cur_lr': 4.999999873689376e-05, 'total_loss': 272.37176513671875}, 'load_time_ms': 0.772, 'num_steps_sampled': 2644800, 'grad_time_ms': 683.342, 'update_time_ms': 2.482, 'sample_time_ms': 34736.075}",2025-08-31_11-43-39,cda-server-4,36.0588858127594,13224,1756633419,10.157.146.4,False,70356.22322797775,1200
+2205,-606.6932610227624,2205,2646000,{},-731.5439980605577,2646000,0,70392.04021644592,-462.9155060888452,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2646000, 'default': {'kl': 0.009447265416383743, 'policy_loss': -0.12364979833364487, 'vf_loss': 75.40592193603516, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.991323709487915, 'entropy': 3.6651556491851807, 'cur_lr': 4.999999873689376e-05, 'total_loss': 75.29661560058594}, 'load_time_ms': 0.742, 'num_steps_sampled': 2646000, 'grad_time_ms': 673.961, 'update_time_ms': 2.445, 'sample_time_ms': 34785.091}",2025-08-31_11-44-15,cda-server-4,35.816988468170166,13230,1756633455,10.157.146.4,False,70392.04021644592,1200
+2206,-607.4697114905958,2206,2647200,{},-731.5439980605577,2647200,0,70427.50489234924,-462.9155060888452,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2647200, 'default': {'kl': 0.008698482997715473, 'policy_loss': -0.10276070982217789, 'vf_loss': 218.87232971191406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9694496989250183, 'entropy': 3.682649850845337, 'cur_lr': 4.999999873689376e-05, 'total_loss': 218.7827911376953}, 'load_time_ms': 0.768, 'num_steps_sampled': 2647200, 'grad_time_ms': 667.664, 'update_time_ms': 2.405, 'sample_time_ms': 34840.952}",2025-08-31_11-44-50,cda-server-4,35.46467590332031,13236,1756633490,10.157.146.4,False,70427.50489234924,1200
+2207,-606.8372410822583,2207,2648400,{},-731.5439980605577,2648400,0,70463.14539074898,-462.9155060888452,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2648400, 'default': {'kl': 0.01106494665145874, 'policy_loss': -0.14008405804634094, 'vf_loss': 94.4114990234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9941737055778503, 'entropy': 3.6857082843780518, 'cur_lr': 4.999999873689376e-05, 'total_loss': 94.28822326660156}, 'load_time_ms': 0.75, 'num_steps_sampled': 2648400, 'grad_time_ms': 666.139, 'update_time_ms': 2.397, 'sample_time_ms': 34841.796}",2025-08-31_11-45-26,cda-server-4,35.6404983997345,13242,1756633526,10.157.146.4,False,70463.14539074898,1200
+2208,-604.476722103151,2208,2649600,{},-731.5439980605577,2649600,0,70499.40336108208,-462.9155060888452,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2649600, 'default': {'kl': 0.012012584134936333, 'policy_loss': -0.15150727331638336, 'vf_loss': 115.41472625732422, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.988821268081665, 'entropy': 3.858046531677246, 'cur_lr': 4.999999873689376e-05, 'total_loss': 115.28146362304688}, 'load_time_ms': 0.751, 'num_steps_sampled': 2649600, 'grad_time_ms': 666.066, 'update_time_ms': 2.275, 'sample_time_ms': 34837.812}",2025-08-31_11-46-02,cda-server-4,36.257970333099365,13248,1756633562,10.157.146.4,False,70499.40336108208,1200
+2209,-604.527653214081,2209,2650800,{},-731.5439980605577,2650800,0,70534.88905978203,-462.9155060888452,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2650800, 'default': {'kl': 0.009540366008877754, 'policy_loss': -0.12339917570352554, 'vf_loss': 314.036376953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9680320024490356, 'entropy': 3.705092191696167, 'cur_lr': 4.999999873689376e-05, 'total_loss': 313.927490234375}, 'load_time_ms': 0.721, 'num_steps_sampled': 2650800, 'grad_time_ms': 664.317, 'update_time_ms': 2.252, 'sample_time_ms': 34932.183}",2025-08-31_11-46-38,cda-server-4,35.48569869995117,13254,1756633598,10.157.146.4,False,70534.88905978203,1200
+2210,-604.5015940704018,2210,2652000,{},-731.5439980605577,2652000,0,70570.12897205353,-462.9155060888452,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2652000, 'default': {'kl': 0.013752087950706482, 'policy_loss': -0.1592206209897995, 'vf_loss': 378.91339111328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9757464528083801, 'entropy': 3.7631137371063232, 'cur_lr': 4.999999873689376e-05, 'total_loss': 378.7750549316406}, 'load_time_ms': 0.74, 'num_steps_sampled': 2652000, 'grad_time_ms': 663.734, 'update_time_ms': 2.196, 'sample_time_ms': 34861.847}",2025-08-31_11-47-13,cda-server-4,35.239912271499634,13260,1756633633,10.157.146.4,False,70570.12897205353,1200
+2211,-606.3664016461386,2211,2653200,{},-731.5439980605577,2653200,0,70606.08446574211,-495.41970888426727,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2653200, 'default': {'kl': 0.010341562330722809, 'policy_loss': -0.12817293405532837, 'vf_loss': 404.0227355957031, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9551323652267456, 'entropy': 3.9679369926452637, 'cur_lr': 4.999999873689376e-05, 'total_loss': 403.9102783203125}, 'load_time_ms': 0.751, 'num_steps_sampled': 2653200, 'grad_time_ms': 670.694, 'update_time_ms': 2.185, 'sample_time_ms': 34894.881}",2025-08-31_11-47-49,cda-server-4,35.955493688583374,13266,1756633669,10.157.146.4,False,70606.08446574211,1200
+2212,-606.7544261562839,2212,2654400,{},-760.4743498423451,2654400,0,70641.84434723854,-495.41970888426727,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2654400, 'default': {'kl': 0.011355679482221603, 'policy_loss': -0.15491671860218048, 'vf_loss': 388.5750427246094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9845627546310425, 'entropy': 4.088462829589844, 'cur_lr': 4.999999873689376e-05, 'total_loss': 388.4373779296875}, 'load_time_ms': 0.75, 'num_steps_sampled': 2654400, 'grad_time_ms': 694.148, 'update_time_ms': 2.163, 'sample_time_ms': 34935.616}",2025-08-31_11-48-25,cda-server-4,35.75988149642944,13272,1756633705,10.157.146.4,False,70641.84434723854,1200
+2213,-606.9815175002941,2213,2655600,{},-760.4743498423451,2655600,0,70676.73996591568,-495.41970888426727,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2655600, 'default': {'kl': 0.011158201843500137, 'policy_loss': -0.1411670595407486, 'vf_loss': 113.63174438476562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9877176284790039, 'entropy': 3.780651569366455, 'cur_lr': 4.999999873689376e-05, 'total_loss': 113.50752258300781}, 'load_time_ms': 0.709, 'num_steps_sampled': 2655600, 'grad_time_ms': 707.994, 'update_time_ms': 2.192, 'sample_time_ms': 34942.851}",2025-08-31_11-49-00,cda-server-4,34.89561867713928,13278,1756633740,10.157.146.4,False,70676.73996591568,1200
+2214,-607.770789978165,2214,2656800,{},-760.4743498423451,2656800,0,70713.30189013481,-495.41970888426727,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2656800, 'default': {'kl': 0.010710742324590683, 'policy_loss': -0.13501279056072235, 'vf_loss': 137.5118865966797, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9836241602897644, 'entropy': 3.9191436767578125, 'cur_lr': 4.999999873689376e-05, 'total_loss': 137.3931427001953}, 'load_time_ms': 0.672, 'num_steps_sampled': 2656800, 'grad_time_ms': 721.454, 'update_time_ms': 2.214, 'sample_time_ms': 34979.66}",2025-08-31_11-49-36,cda-server-4,36.56192421913147,13284,1756633776,10.157.146.4,False,70713.30189013481,1200
+2215,-608.0379731275941,2215,2658000,{},-760.4743498423451,2658000,0,70749.7885248661,-495.41970888426727,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2658000, 'default': {'kl': 0.009236671961843967, 'policy_loss': -0.1354619860649109, 'vf_loss': 235.65359497070312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9837981462478638, 'entropy': 3.8775384426116943, 'cur_lr': 4.999999873689376e-05, 'total_loss': 235.5321502685547}, 'load_time_ms': 0.675, 'num_steps_sampled': 2658000, 'grad_time_ms': 729.974, 'update_time_ms': 2.222, 'sample_time_ms': 35038.15}",2025-08-31_11-50-13,cda-server-4,36.486634731292725,13290,1756633813,10.157.146.4,False,70749.7885248661,1200
+2216,-607.7719731426483,2216,2659200,{},-760.4743498423451,2659200,0,70784.90798544884,-495.41970888426727,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2659200, 'default': {'kl': 0.010099432431161404, 'policy_loss': -0.13906821608543396, 'vf_loss': 212.3520050048828, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9780394434928894, 'entropy': 3.8024609088897705, 'cur_lr': 4.999999873689376e-05, 'total_loss': 212.228271484375}, 'load_time_ms': 0.677, 'num_steps_sampled': 2659200, 'grad_time_ms': 736.115, 'update_time_ms': 2.2, 'sample_time_ms': 34997.541}",2025-08-31_11-50-48,cda-server-4,35.119460582733154,13296,1756633848,10.157.146.4,False,70784.90798544884,1200
+2217,-608.1733885329927,2217,2660400,{},-760.4743498423451,2660400,0,70819.88998866081,-495.41970888426727,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2660400, 'default': {'kl': 0.008110105991363525, 'policy_loss': -0.10953216999769211, 'vf_loss': 91.06614685058594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.988651692867279, 'entropy': 3.82405686378479, 'cur_lr': 4.999999873689376e-05, 'total_loss': 90.96892547607422}, 'load_time_ms': 0.675, 'num_steps_sampled': 2660400, 'grad_time_ms': 737.614, 'update_time_ms': 2.19, 'sample_time_ms': 34930.207}",2025-08-31_11-51-23,cda-server-4,34.9820032119751,13302,1756633883,10.157.146.4,False,70819.88998866081,1200
+2218,-607.5379393648074,2218,2661600,{},-760.4743498423451,2661600,0,70855.52701854706,-495.41970888426727,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2661600, 'default': {'kl': 0.009988008998334408, 'policy_loss': -0.1228397786617279, 'vf_loss': 70.49081420898438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9937453866004944, 'entropy': 3.714752197265625, 'cur_lr': 4.999999873689376e-05, 'total_loss': 70.38314819335938}, 'load_time_ms': 0.689, 'num_steps_sampled': 2661600, 'grad_time_ms': 737.765, 'update_time_ms': 2.281, 'sample_time_ms': 34867.832}",2025-08-31_11-51-59,cda-server-4,35.63702988624573,13308,1756633919,10.157.146.4,False,70855.52701854706,1200
+2219,-606.6177813471423,2219,2662800,{},-760.4743498423451,2662800,0,70891.10643315315,-495.41970888426727,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2662800, 'default': {'kl': 0.011725538410246372, 'policy_loss': -0.13368768990039825, 'vf_loss': 58.39229965209961, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9950134754180908, 'entropy': 3.7574942111968994, 'cur_lr': 4.999999873689376e-05, 'total_loss': 58.27642059326172}, 'load_time_ms': 0.691, 'num_steps_sampled': 2662800, 'grad_time_ms': 738.816, 'update_time_ms': 2.374, 'sample_time_ms': 34876.018}",2025-08-31_11-52-34,cda-server-4,35.57941460609436,13314,1756633954,10.157.146.4,False,70891.10643315315,1200
+2220,-606.2054090264645,2220,2664000,{},-760.4743498423451,2664000,0,70926.34776973724,-495.41970888426727,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2664000, 'default': {'kl': 0.010446319356560707, 'policy_loss': -0.14335031807422638, 'vf_loss': 152.14901733398438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9820802211761475, 'entropy': 3.889918804168701, 'cur_lr': 4.999999873689376e-05, 'total_loss': 152.02154541015625}, 'load_time_ms': 0.678, 'num_steps_sampled': 2664000, 'grad_time_ms': 739.345, 'update_time_ms': 2.546, 'sample_time_ms': 34875.457}",2025-08-31_11-53-09,cda-server-4,35.24133658409119,13320,1756633989,10.157.146.4,False,70926.34776973724,1200
+2221,-606.2674756194527,2221,2665200,{},-760.4743498423451,2665200,0,70961.8960146904,-495.41970888426727,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2665200, 'default': {'kl': 0.01051180250942707, 'policy_loss': -0.13732720911502838, 'vf_loss': 81.00239562988281, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9895802736282349, 'entropy': 3.949923276901245, 'cur_lr': 4.999999873689376e-05, 'total_loss': 80.88102722167969}, 'load_time_ms': 0.666, 'num_steps_sampled': 2665200, 'grad_time_ms': 740.415, 'update_time_ms': 2.506, 'sample_time_ms': 34833.683}",2025-08-31_11-53-45,cda-server-4,35.54824495315552,13326,1756634025,10.157.146.4,False,70961.8960146904,1200
+2222,-607.3543099343581,2222,2666400,{},-760.4743498423451,2666400,0,70997.78280329704,-495.41970888426727,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2666400, 'default': {'kl': 0.012073232792317867, 'policy_loss': -0.14472141861915588, 'vf_loss': 162.61587524414062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9858266115188599, 'entropy': 3.8425984382629395, 'cur_lr': 4.999999873689376e-05, 'total_loss': 162.489501953125}, 'load_time_ms': 0.653, 'num_steps_sampled': 2666400, 'grad_time_ms': 742.736, 'update_time_ms': 2.603, 'sample_time_ms': 34843.967}",2025-08-31_11-54-21,cda-server-4,35.88678860664368,13332,1756634061,10.157.146.4,False,70997.78280329704,1200
+2223,-607.3968923503869,2223,2667600,{},-760.4743498423451,2667600,0,71033.07567858696,-495.41970888426727,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2667600, 'default': {'kl': 0.009952960535883904, 'policy_loss': -0.1209300234913826, 'vf_loss': 113.32864379882812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9863079786300659, 'entropy': 3.9146080017089844, 'cur_lr': 4.999999873689376e-05, 'total_loss': 113.22283172607422}, 'load_time_ms': 0.664, 'num_steps_sampled': 2667600, 'grad_time_ms': 741.896, 'update_time_ms': 2.555, 'sample_time_ms': 34884.494}",2025-08-31_11-54-56,cda-server-4,35.29287528991699,13338,1756634096,10.157.146.4,False,71033.07567858696,1200
+2224,-608.8832001091794,2224,2668800,{},-760.4743498423451,2668800,0,71068.70281887054,-495.67651289119726,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2668800, 'default': {'kl': 0.01100987195968628, 'policy_loss': -0.12689323723316193, 'vf_loss': 183.33946228027344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9759992957115173, 'entropy': 3.913788318634033, 'cur_lr': 4.999999873689376e-05, 'total_loss': 183.22930908203125}, 'load_time_ms': 0.666, 'num_steps_sampled': 2668800, 'grad_time_ms': 735.639, 'update_time_ms': 2.625, 'sample_time_ms': 34797.249}",2025-08-31_11-55-32,cda-server-4,35.627140283584595,13344,1756634132,10.157.146.4,False,71068.70281887054,1200
+2225,-609.4431230233,2225,2670000,{},-760.4743498423451,2670000,0,71104.64347195625,-495.67651289119726,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2670000, 'default': {'kl': 0.011120183393359184, 'policy_loss': -0.14204730093479156, 'vf_loss': 28.97117042541504, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9980632066726685, 'entropy': 3.8080270290374756, 'cur_lr': 4.999999873689376e-05, 'total_loss': 28.846012115478516}, 'load_time_ms': 0.657, 'num_steps_sampled': 2670000, 'grad_time_ms': 733.957, 'update_time_ms': 2.556, 'sample_time_ms': 34744.409}",2025-08-31_11-56-08,cda-server-4,35.94065308570862,13350,1756634168,10.157.146.4,False,71104.64347195625,1200
+2226,-610.2885007658455,2226,2671200,{},-760.4743498423451,2671200,0,71139.94269275665,-495.67651289119726,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2671200, 'default': {'kl': 0.01010515820235014, 'policy_loss': -0.12963563203811646, 'vf_loss': 58.29574203491211, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9939366579055786, 'entropy': 3.8976876735687256, 'cur_lr': 4.999999873689376e-05, 'total_loss': 58.18144989013672}, 'load_time_ms': 0.619, 'num_steps_sampled': 2671200, 'grad_time_ms': 733.635, 'update_time_ms': 2.638, 'sample_time_ms': 34762.623}",2025-08-31_11-56-43,cda-server-4,35.29922080039978,13356,1756634203,10.157.146.4,False,71139.94269275665,1200
+2227,-610.4207274221831,2227,2672400,{},-760.4743498423451,2672400,0,71175.02071523666,-495.67651289119726,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2672400, 'default': {'kl': 0.008607292547821999, 'policy_loss': -0.13222163915634155, 'vf_loss': 91.917724609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9886434078216553, 'entropy': 3.794994831085205, 'cur_lr': 4.999999873689376e-05, 'total_loss': 91.79857635498047}, 'load_time_ms': 0.653, 'num_steps_sampled': 2672400, 'grad_time_ms': 732.45, 'update_time_ms': 2.764, 'sample_time_ms': 34773.269}",2025-08-31_11-57-18,cda-server-4,35.078022480010986,13362,1756634238,10.157.146.4,False,71175.02071523666,1200
+2228,-608.0058881988242,2228,2673600,{},-676.9232468011492,2673600,0,71209.78233742714,-495.67651289119726,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2673600, 'default': {'kl': 0.009702562354505062, 'policy_loss': -0.1339615285396576, 'vf_loss': 222.5525665283203, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9797251224517822, 'entropy': 3.912449836730957, 'cur_lr': 4.999999873689376e-05, 'total_loss': 222.43331909179688}, 'load_time_ms': 0.643, 'num_steps_sampled': 2673600, 'grad_time_ms': 728.987, 'update_time_ms': 2.768, 'sample_time_ms': 34689.062}",2025-08-31_11-57-53,cda-server-4,34.761622190475464,13368,1756634273,10.157.146.4,False,71209.78233742714,1200
+2229,-608.742877636172,2229,2674800,{},-676.9232468011492,2674800,0,71245.54462575912,-495.67651289119726,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2674800, 'default': {'kl': 0.010305993258953094, 'policy_loss': -0.125535249710083, 'vf_loss': 188.2442626953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9831801652908325, 'entropy': 3.959322929382324, 'cur_lr': 4.999999873689376e-05, 'total_loss': 188.13436889648438}, 'load_time_ms': 0.642, 'num_steps_sampled': 2674800, 'grad_time_ms': 729.452, 'update_time_ms': 2.769, 'sample_time_ms': 34706.846}",2025-08-31_11-58-29,cda-server-4,35.762288331985474,13374,1756634309,10.157.146.4,False,71245.54462575912,1200
+2230,-608.5011409275862,2230,2676000,{},-676.9232468011492,2676000,0,71282.32535004616,-495.67651289119726,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2676000, 'default': {'kl': 0.011188295669853687, 'policy_loss': -0.13792608678340912, 'vf_loss': 102.53545379638672, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9910707473754883, 'entropy': 3.7094764709472656, 'cur_lr': 4.999999873689376e-05, 'total_loss': 102.41452026367188}, 'load_time_ms': 0.673, 'num_steps_sampled': 2676000, 'grad_time_ms': 728.143, 'update_time_ms': 2.65, 'sample_time_ms': 34862.199}",2025-08-31_11-59-06,cda-server-4,36.78072428703308,13380,1756634346,10.157.146.4,False,71282.32535004616,1200
+2231,-607.6962985606743,2231,2677200,{},-676.9232468011492,2677200,0,71317.57905983925,-495.67651289119726,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2677200, 'default': {'kl': 0.009358054026961327, 'policy_loss': -0.12620924413204193, 'vf_loss': 83.26016235351562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9908642172813416, 'entropy': 3.74914288520813, 'cur_lr': 4.999999873689376e-05, 'total_loss': 83.14816284179688}, 'load_time_ms': 0.673, 'num_steps_sampled': 2677200, 'grad_time_ms': 726.968, 'update_time_ms': 2.641, 'sample_time_ms': 34833.917}",2025-08-31_11-59-41,cda-server-4,35.25370979309082,13386,1756634381,10.157.146.4,False,71317.57905983925,1200
+2232,-607.5874971359952,2232,2678400,{},-676.9232468011492,2678400,0,71354.0562992096,-495.67651289119726,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2678400, 'default': {'kl': 0.009887482970952988, 'policy_loss': -0.13596656918525696, 'vf_loss': 354.7336730957031, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9752746224403381, 'entropy': 3.910374641418457, 'cur_lr': 4.999999873689376e-05, 'total_loss': 354.6126708984375}, 'load_time_ms': 0.7, 'num_steps_sampled': 2678400, 'grad_time_ms': 725.954, 'update_time_ms': 2.581, 'sample_time_ms': 34893.971}",2025-08-31_12-00-17,cda-server-4,36.47723937034607,13392,1756634417,10.157.146.4,False,71354.0562992096,1200
+2233,-608.7102876805637,2233,2679600,{},-676.9232468011492,2679600,0,71389.90871214867,-550.9921535441807,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2679600, 'default': {'kl': 0.01084771379828453, 'policy_loss': -0.15156015753746033, 'vf_loss': 230.75946044921875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9738471508026123, 'entropy': 3.843953847885132, 'cur_lr': 4.999999873689376e-05, 'total_loss': 230.62437438964844}, 'load_time_ms': 0.691, 'num_steps_sampled': 2679600, 'grad_time_ms': 727.783, 'update_time_ms': 2.523, 'sample_time_ms': 34948.171}",2025-08-31_12-00-53,cda-server-4,35.852412939071655,13398,1756634453,10.157.146.4,False,71389.90871214867,1200
+2234,-608.4031779893047,2234,2680800,{},-676.9232468011492,2680800,0,71424.73464941978,-550.9921535441807,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2680800, 'default': {'kl': 0.013039465993642807, 'policy_loss': -0.1531229317188263, 'vf_loss': 111.90616607666016, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9898751378059387, 'entropy': 3.8361968994140625, 'cur_lr': 4.999999873689376e-05, 'total_loss': 111.7728500366211}, 'load_time_ms': 0.689, 'num_steps_sampled': 2680800, 'grad_time_ms': 733.104, 'update_time_ms': 2.447, 'sample_time_ms': 34862.798}",2025-08-31_12-01-28,cda-server-4,34.825937271118164,13404,1756634488,10.157.146.4,False,71424.73464941978,1200
+2235,-608.951981439958,2235,2682000,{},-676.9232468011492,2682000,0,71460.20252656937,-550.9921535441807,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2682000, 'default': {'kl': 0.009948944672942162, 'policy_loss': -0.13029688596725464, 'vf_loss': 575.0810546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9699820280075073, 'entropy': 3.826176643371582, 'cur_lr': 4.999999873689376e-05, 'total_loss': 574.9659423828125}, 'load_time_ms': 0.691, 'num_steps_sampled': 2682000, 'grad_time_ms': 731.651, 'update_time_ms': 2.483, 'sample_time_ms': 34816.933}",2025-08-31_12-02-04,cda-server-4,35.46787714958191,13410,1756634524,10.157.146.4,False,71460.20252656937,1200
+2236,-609.3579331823886,2236,2683200,{},-676.9232468011492,2683200,0,71496.22959518433,-550.9921535441807,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2683200, 'default': {'kl': 0.00947526190429926, 'policy_loss': -0.1392085999250412, 'vf_loss': 37.39328384399414, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9953139424324036, 'entropy': 3.8523364067077637, 'cur_lr': 4.999999873689376e-05, 'total_loss': 37.268463134765625}, 'load_time_ms': 0.699, 'num_steps_sampled': 2683200, 'grad_time_ms': 726.045, 'update_time_ms': 2.427, 'sample_time_ms': 34895.355}",2025-08-31_12-02-40,cda-server-4,36.02706861495972,13416,1756634560,10.157.146.4,False,71496.22959518433,1200
+2237,-608.920934008303,2237,2684400,{},-643.5885880030384,2684400,0,71531.2327349186,-550.9921535441807,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2684400, 'default': {'kl': 0.009888779371976852, 'policy_loss': -0.13127730786800385, 'vf_loss': 166.27647399902344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9757429957389832, 'entropy': 4.001611709594727, 'cur_lr': 4.999999873689376e-05, 'total_loss': 166.16021728515625}, 'load_time_ms': 0.669, 'num_steps_sampled': 2684400, 'grad_time_ms': 720.866, 'update_time_ms': 2.311, 'sample_time_ms': 34893.193}",2025-08-31_12-03-15,cda-server-4,35.00313973426819,13422,1756634595,10.157.146.4,False,71531.2327349186,1200
+2238,-609.0791317861763,2238,2685600,{},-643.5885880030384,2685600,0,71566.66413068771,-550.9921535441807,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2685600, 'default': {'kl': 0.010163228958845139, 'policy_loss': -0.13258439302444458, 'vf_loss': 113.7065200805664, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9864779710769653, 'entropy': 3.7921595573425293, 'cur_lr': 4.999999873689376e-05, 'total_loss': 113.5893783569336}, 'load_time_ms': 0.668, 'num_steps_sampled': 2685600, 'grad_time_ms': 720.352, 'update_time_ms': 2.298, 'sample_time_ms': 34960.856}",2025-08-31_12-03-50,cda-server-4,35.43139576911926,13428,1756634630,10.157.146.4,False,71566.66413068771,1200
+2239,-609.4542972682434,2239,2686800,{},-646.4476932486301,2686800,0,71602.69432520866,-550.9921535441807,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2686800, 'default': {'kl': 0.010329201817512512, 'policy_loss': -0.13447721302509308, 'vf_loss': 435.4161682128906, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9493540525436401, 'entropy': 3.9086341857910156, 'cur_lr': 4.999999873689376e-05, 'total_loss': 435.29742431640625}, 'load_time_ms': 0.701, 'num_steps_sampled': 2686800, 'grad_time_ms': 716.924, 'update_time_ms': 2.229, 'sample_time_ms': 34991.17}",2025-08-31_12-04-26,cda-server-4,36.03019452095032,13434,1756634666,10.157.146.4,False,71602.69432520866,1200
+2240,-608.4862519756923,2240,2688000,{},-646.4476932486301,2688000,0,71638.65936374664,-550.9921535441807,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2688000, 'default': {'kl': 0.009323995560407639, 'policy_loss': -0.1243176981806755, 'vf_loss': 138.65113830566406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.992297887802124, 'entropy': 3.8927981853485107, 'cur_lr': 4.999999873689376e-05, 'total_loss': 138.54100036621094}, 'load_time_ms': 0.666, 'num_steps_sampled': 2688000, 'grad_time_ms': 717.166, 'update_time_ms': 2.176, 'sample_time_ms': 34909.497}",2025-08-31_12-05-02,cda-server-4,35.965038537979126,13440,1756634702,10.157.146.4,False,71638.65936374664,1200
+2241,-609.6876059907045,2241,2689200,{},-685.2119729596952,2689200,0,71673.59419870377,-550.9921535441807,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2689200, 'default': {'kl': 0.01189399603754282, 'policy_loss': -0.1433347463607788, 'vf_loss': 591.0159301757812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9151990413665771, 'entropy': 4.178387641906738, 'cur_lr': 4.999999873689376e-05, 'total_loss': 590.8907470703125}, 'load_time_ms': 0.667, 'num_steps_sampled': 2689200, 'grad_time_ms': 717.6, 'update_time_ms': 2.265, 'sample_time_ms': 34877.135}",2025-08-31_12-05-37,cda-server-4,34.9348349571228,13446,1756634737,10.157.146.4,False,71673.59419870377,1200
+2242,-609.0034165625872,2242,2690400,{},-685.2119729596952,2690400,0,71709.21844053268,-550.9921535441807,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2690400, 'default': {'kl': 0.010316627100110054, 'policy_loss': -0.12472310662269592, 'vf_loss': 82.40166473388672, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.990238606929779, 'entropy': 3.96343731880188, 'cur_lr': 4.999999873689376e-05, 'total_loss': 82.29261016845703}, 'load_time_ms': 0.619, 'num_steps_sampled': 2690400, 'grad_time_ms': 716.188, 'update_time_ms': 2.255, 'sample_time_ms': 34793.319}",2025-08-31_12-06-13,cda-server-4,35.62424182891846,13452,1756634773,10.157.146.4,False,71709.21844053268,1200
+2243,-608.945252698844,2243,2691600,{},-685.2119729596952,2691600,0,71745.20542383194,-561.1466741839894,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2691600, 'default': {'kl': 0.010437705554068089, 'policy_loss': -0.1377851366996765, 'vf_loss': 183.49188232421875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9763028621673584, 'entropy': 3.7594096660614014, 'cur_lr': 4.999999873689376e-05, 'total_loss': 183.3699493408203}, 'load_time_ms': 0.623, 'num_steps_sampled': 2691600, 'grad_time_ms': 717.378, 'update_time_ms': 2.33, 'sample_time_ms': 34805.545}",2025-08-31_12-06-49,cda-server-4,35.98698329925537,13458,1756634809,10.157.146.4,False,71745.20542383194,1200
+2244,-608.7363023067251,2244,2692800,{},-685.2119729596952,2692800,0,71780.46984410286,-561.1466741839894,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2692800, 'default': {'kl': 0.0104488804936409, 'policy_loss': -0.12757611274719238, 'vf_loss': 110.85115814208984, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9869444370269775, 'entropy': 3.725931406021118, 'cur_lr': 4.999999873689376e-05, 'total_loss': 110.73944854736328}, 'load_time_ms': 0.626, 'num_steps_sampled': 2692800, 'grad_time_ms': 718.936, 'update_time_ms': 2.311, 'sample_time_ms': 34847.808}",2025-08-31_12-07-24,cda-server-4,35.2644202709198,13464,1756634844,10.157.146.4,False,71780.46984410286,1200
+2245,-608.5545202684125,2245,2694000,{},-685.2119729596952,2694000,0,71815.68227267265,-561.1466741839894,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2694000, 'default': {'kl': 0.01295209489762783, 'policy_loss': -0.14875225722789764, 'vf_loss': 159.57284545898438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9911442995071411, 'entropy': 3.859985828399658, 'cur_lr': 4.999999873689376e-05, 'total_loss': 159.4437713623047}, 'load_time_ms': 0.631, 'num_steps_sampled': 2694000, 'grad_time_ms': 722.449, 'update_time_ms': 2.268, 'sample_time_ms': 34818.736}",2025-08-31_12-07-59,cda-server-4,35.2124285697937,13470,1756634879,10.157.146.4,False,71815.68227267265,1200
+2246,-609.1191070770973,2246,2695200,{},-685.2119729596952,2695200,0,71850.8334581852,-561.1466741839894,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2695200, 'default': {'kl': 0.00942248199135065, 'policy_loss': -0.1300569772720337, 'vf_loss': 585.9041748046875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.93785560131073, 'entropy': 4.022296905517578, 'cur_lr': 4.999999873689376e-05, 'total_loss': 585.7883911132812}, 'load_time_ms': 0.627, 'num_steps_sampled': 2695200, 'grad_time_ms': 728.602, 'update_time_ms': 2.333, 'sample_time_ms': 34724.811}",2025-08-31_12-08-34,cda-server-4,35.151185512542725,13476,1756634914,10.157.146.4,False,71850.8334581852,1200
+2247,-609.3593665147723,2247,2696400,{},-685.2119729596952,2696400,0,71887.55403590202,-561.1466741839894,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2696400, 'default': {'kl': 0.010264288634061813, 'policy_loss': -0.13061653077602386, 'vf_loss': 203.05828857421875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9770646691322327, 'entropy': 3.901350259780884, 'cur_lr': 4.999999873689376e-05, 'total_loss': 202.94325256347656}, 'load_time_ms': 0.673, 'num_steps_sampled': 2696400, 'grad_time_ms': 733.568, 'update_time_ms': 2.403, 'sample_time_ms': 34891.35}",2025-08-31_12-09-11,cda-server-4,36.72057771682739,13482,1756634951,10.157.146.4,False,71887.55403590202,1200
+2248,-608.9380052224833,2248,2697600,{},-685.2119729596952,2697600,0,71923.46859002113,-561.1466741839894,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2697600, 'default': {'kl': 0.012880927883088589, 'policy_loss': -0.14354722201824188, 'vf_loss': 108.40890502929688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9934801459312439, 'entropy': 3.675827980041504, 'cur_lr': 4.999999873689376e-05, 'total_loss': 108.284912109375}, 'load_time_ms': 0.711, 'num_steps_sampled': 2697600, 'grad_time_ms': 735.631, 'update_time_ms': 2.409, 'sample_time_ms': 34937.455}",2025-08-31_12-09-47,cda-server-4,35.91455411911011,13488,1756634987,10.157.146.4,False,71923.46859002113,1200
+2249,-608.9724813037318,2249,2698800,{},-685.2119729596952,2698800,0,71958.57378101349,-561.1466741839894,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2698800, 'default': {'kl': 0.009997197426855564, 'policy_loss': -0.11744238436222076, 'vf_loss': 80.00962829589844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9894025325775146, 'entropy': 3.7658021450042725, 'cur_lr': 4.999999873689376e-05, 'total_loss': 79.90737915039062}, 'load_time_ms': 0.707, 'num_steps_sampled': 2698800, 'grad_time_ms': 738.57, 'update_time_ms': 2.496, 'sample_time_ms': 34841.86}",2025-08-31_12-10-22,cda-server-4,35.10519099235535,13494,1756635022,10.157.146.4,False,71958.57378101349,1200
+2250,-607.3487093203918,2250,2700000,{},-685.2119729596952,2700000,0,71994.24659132957,-467.21171837251154,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2700000, 'default': {'kl': 0.009422147646546364, 'policy_loss': -0.13783001899719238, 'vf_loss': 291.3714599609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9539905190467834, 'entropy': 3.783003091812134, 'cur_lr': 4.999999873689376e-05, 'total_loss': 291.2479553222656}, 'load_time_ms': 0.706, 'num_steps_sampled': 2700000, 'grad_time_ms': 739.166, 'update_time_ms': 2.565, 'sample_time_ms': 34811.868}",2025-08-31_12-10-58,cda-server-4,35.672810316085815,13500,1756635058,10.157.146.4,False,71994.24659132957,1200
+2251,-607.5900837115976,2251,2701200,{},-685.2119729596952,2701200,0,72029.95800995827,-467.21171837251154,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2701200, 'default': {'kl': 0.010485444217920303, 'policy_loss': -0.13733121752738953, 'vf_loss': 63.88568878173828, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9913641810417175, 'entropy': 3.810939311981201, 'cur_lr': 4.999999873689376e-05, 'total_loss': 63.7642822265625}, 'load_time_ms': 0.704, 'num_steps_sampled': 2701200, 'grad_time_ms': 739.303, 'update_time_ms': 2.679, 'sample_time_ms': 34889.233}",2025-08-31_12-11-34,cda-server-4,35.71141862869263,13506,1756635094,10.157.146.4,False,72029.95800995827,1200
+2252,-609.1439934322348,2252,2702400,{},-796.765209626063,2702400,0,72065.5861196518,-467.21171837251154,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2702400, 'default': {'kl': 0.014895117841660976, 'policy_loss': -0.17189928889274597, 'vf_loss': 308.9375915527344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9811671376228333, 'entropy': 4.066137313842773, 'cur_lr': 4.999999873689376e-05, 'total_loss': 308.7882995605469}, 'load_time_ms': 0.714, 'num_steps_sampled': 2702400, 'grad_time_ms': 741.237, 'update_time_ms': 2.674, 'sample_time_ms': 34887.676}",2025-08-31_12-12-09,cda-server-4,35.62810969352722,13512,1756635129,10.157.146.4,False,72065.5861196518,1200
+2253,-608.8330289940947,2253,2703600,{},-796.765209626063,2703600,0,72102.45369958878,-467.21171837251154,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2703600, 'default': {'kl': 0.010985706932842731, 'policy_loss': -0.1437738537788391, 'vf_loss': 84.96450805664062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.988709568977356, 'entropy': 3.7888853549957275, 'cur_lr': 4.999999873689376e-05, 'total_loss': 84.83740997314453}, 'load_time_ms': 0.729, 'num_steps_sampled': 2703600, 'grad_time_ms': 740.334, 'update_time_ms': 2.643, 'sample_time_ms': 34976.696}",2025-08-31_12-12-46,cda-server-4,36.8675799369812,13518,1756635166,10.157.146.4,False,72102.45369958878,1200
+2254,-608.760401564439,2254,2704800,{},-796.765209626063,2704800,0,72138.23357009888,-467.21171837251154,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2704800, 'default': {'kl': 0.011516624130308628, 'policy_loss': -0.15233920514583588, 'vf_loss': 77.52713012695312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9897528886795044, 'entropy': 3.665454864501953, 'cur_lr': 4.999999873689376e-05, 'total_loss': 77.39227294921875}, 'load_time_ms': 0.733, 'num_steps_sampled': 2704800, 'grad_time_ms': 740.302, 'update_time_ms': 2.707, 'sample_time_ms': 35028.296}",2025-08-31_12-13-22,cda-server-4,35.77987051010132,13524,1756635202,10.157.146.4,False,72138.23357009888,1200
+2255,-608.9785676783456,2255,2706000,{},-796.765209626063,2706000,0,72174.03607153893,-467.21171837251154,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2706000, 'default': {'kl': 0.011036310344934464, 'policy_loss': -0.14643709361553192, 'vf_loss': 73.6922607421875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9927188158035278, 'entropy': 3.7140073776245117, 'cur_lr': 4.999999873689376e-05, 'total_loss': 73.56258392333984}, 'load_time_ms': 0.729, 'num_steps_sampled': 2706000, 'grad_time_ms': 740.449, 'update_time_ms': 2.727, 'sample_time_ms': 35087.184}",2025-08-31_12-13-58,cda-server-4,35.80250144004822,13530,1756635238,10.157.146.4,False,72174.03607153893,1200
+2256,-609.1474197841704,2256,2707200,{},-796.765209626063,2707200,0,72209.48681259155,-467.21171837251154,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2707200, 'default': {'kl': 0.010339860804378986, 'policy_loss': -0.13799436390399933, 'vf_loss': 23.45282745361328, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9968688488006592, 'entropy': 3.787973165512085, 'cur_lr': 4.999999873689376e-05, 'total_loss': 23.330535888671875}, 'load_time_ms': 0.764, 'num_steps_sampled': 2707200, 'grad_time_ms': 739.451, 'update_time_ms': 2.683, 'sample_time_ms': 35118.247}",2025-08-31_12-14-33,cda-server-4,35.45074105262756,13536,1756635273,10.157.146.4,False,72209.48681259155,1200
+2257,-606.8727539871351,2257,2708400,{},-796.765209626063,2708400,0,72245.9782834053,-449.5331528268371,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2708400, 'default': {'kl': 0.010776721872389317, 'policy_loss': -0.1645893007516861, 'vf_loss': 688.564453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9472705125808716, 'entropy': 3.701866626739502, 'cur_lr': 4.999999873689376e-05, 'total_loss': 688.416259765625}, 'load_time_ms': 0.723, 'num_steps_sampled': 2708400, 'grad_time_ms': 740.949, 'update_time_ms': 2.78, 'sample_time_ms': 35093.952}",2025-08-31_12-15-10,cda-server-4,36.49147081375122,13542,1756635310,10.157.146.4,False,72245.9782834053,1200
+2258,-606.6959969763108,2258,2709600,{},-796.765209626063,2709600,0,72281.77600288391,-449.5331528268371,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2709600, 'default': {'kl': 0.010761967860162258, 'policy_loss': -0.1324968934059143, 'vf_loss': 137.2837677001953, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9894474744796753, 'entropy': 3.711359739303589, 'cur_lr': 4.999999873689376e-05, 'total_loss': 137.16761779785156}, 'load_time_ms': 0.679, 'num_steps_sampled': 2709600, 'grad_time_ms': 742.706, 'update_time_ms': 2.701, 'sample_time_ms': 35080.701}",2025-08-31_12-15-46,cda-server-4,35.79771947860718,13548,1756635346,10.157.146.4,False,72281.77600288391,1200
+2259,-606.9276058167766,2259,2710800,{},-796.765209626063,2710800,0,72317.21085643768,-449.5331528268371,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2710800, 'default': {'kl': 0.009973266161978245, 'policy_loss': -0.14947403967380524, 'vf_loss': 294.00225830078125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9748824238777161, 'entropy': 3.974809408187866, 'cur_lr': 4.999999873689376e-05, 'total_loss': 293.867919921875}, 'load_time_ms': 0.678, 'num_steps_sampled': 2710800, 'grad_time_ms': 742.314, 'update_time_ms': 2.606, 'sample_time_ms': 35114.145}",2025-08-31_12-16-21,cda-server-4,35.43485355377197,13554,1756635381,10.157.146.4,False,72317.21085643768,1200
+2260,-607.0519802743722,2260,2712000,{},-796.765209626063,2712000,0,72353.77211475372,-449.5331528268371,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2712000, 'default': {'kl': 0.008372397162020206, 'policy_loss': -0.11489894986152649, 'vf_loss': 181.64622497558594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9844985604286194, 'entropy': 3.747312307357788, 'cur_lr': 4.999999873689376e-05, 'total_loss': 181.54405212402344}, 'load_time_ms': 0.703, 'num_steps_sampled': 2712000, 'grad_time_ms': 742.93, 'update_time_ms': 2.545, 'sample_time_ms': 35202.539}",2025-08-31_12-16-58,cda-server-4,36.56125831604004,13560,1756635418,10.157.146.4,False,72353.77211475372,1200
+2261,-606.0836206435746,2261,2713200,{},-796.765209626063,2713200,0,72389.03734493256,-449.5331528268371,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2713200, 'default': {'kl': 0.008525880984961987, 'policy_loss': -0.11603525280952454, 'vf_loss': 68.87508392333984, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9922119975090027, 'entropy': 3.624866008758545, 'cur_lr': 4.999999873689376e-05, 'total_loss': 68.7719955444336}, 'load_time_ms': 0.719, 'num_steps_sampled': 2713200, 'grad_time_ms': 744.069, 'update_time_ms': 2.468, 'sample_time_ms': 35156.893}",2025-08-31_12-17-33,cda-server-4,35.26523017883301,13566,1756635453,10.157.146.4,False,72389.03734493256,1200
+2262,-605.8984972216524,2262,2714400,{},-796.765209626063,2714400,0,72424.1769516468,-449.5331528268371,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2714400, 'default': {'kl': 0.010562124662101269, 'policy_loss': -0.13012456893920898, 'vf_loss': 76.261962890625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9906636476516724, 'entropy': 3.8361740112304688, 'cur_lr': 4.999999873689376e-05, 'total_loss': 76.14787292480469}, 'load_time_ms': 0.712, 'num_steps_sampled': 2714400, 'grad_time_ms': 743.688, 'update_time_ms': 2.467, 'sample_time_ms': 35108.424}",2025-08-31_12-18-08,cda-server-4,35.13960671424866,13572,1756635488,10.157.146.4,False,72424.1769516468,1200
+2263,-605.8033198607104,2263,2715600,{},-796.765209626063,2715600,0,72460.41079449654,-449.5331528268371,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2715600, 'default': {'kl': 0.010406676679849625, 'policy_loss': -0.13514940440654755, 'vf_loss': 68.07666015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9898062944412231, 'entropy': 3.637096881866455, 'cur_lr': 4.999999873689376e-05, 'total_loss': 67.95731353759766}, 'load_time_ms': 0.707, 'num_steps_sampled': 2715600, 'grad_time_ms': 744.833, 'update_time_ms': 2.455, 'sample_time_ms': 35043.818}",2025-08-31_12-18-44,cda-server-4,36.233842849731445,13578,1756635524,10.157.146.4,False,72460.41079449654,1200
+2264,-606.1795676935591,2264,2716800,{},-796.765209626063,2716800,0,72495.98410010338,-449.5331528268371,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2716800, 'default': {'kl': 0.011506658047437668, 'policy_loss': -0.14122682809829712, 'vf_loss': 226.09432983398438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9788995385169983, 'entropy': 3.6689977645874023, 'cur_lr': 4.999999873689376e-05, 'total_loss': 225.97059631347656}, 'load_time_ms': 0.709, 'num_steps_sampled': 2716800, 'grad_time_ms': 745.474, 'update_time_ms': 2.393, 'sample_time_ms': 35022.488}",2025-08-31_12-19-20,cda-server-4,35.57330560684204,13584,1756635560,10.157.146.4,False,72495.98410010338,1200
+2265,-606.6025802911124,2265,2718000,{},-796.765209626063,2718000,0,72531.4585916996,-449.5331528268371,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2718000, 'default': {'kl': 0.011459977366030216, 'policy_loss': -0.14585411548614502, 'vf_loss': 69.65026092529297, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9936506748199463, 'entropy': 3.6780903339385986, 'cur_lr': 4.999999873689376e-05, 'total_loss': 69.52181243896484}, 'load_time_ms': 0.713, 'num_steps_sampled': 2718000, 'grad_time_ms': 745.514, 'update_time_ms': 2.379, 'sample_time_ms': 34989.621}",2025-08-31_12-19-55,cda-server-4,35.474491596221924,13590,1756635595,10.157.146.4,False,72531.4585916996,1200
+2266,-607.0164537574881,2266,2719200,{},-796.765209626063,2719200,0,72566.50393605232,-449.5331528268371,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2719200, 'default': {'kl': 0.00896493624895811, 'policy_loss': -0.12420916557312012, 'vf_loss': 172.82247924804688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9767454862594604, 'entropy': 3.696434497833252, 'cur_lr': 4.999999873689376e-05, 'total_loss': 172.71188354492188}, 'load_time_ms': 0.678, 'num_steps_sampled': 2719200, 'grad_time_ms': 741.769, 'update_time_ms': 2.316, 'sample_time_ms': 34953.006}",2025-08-31_12-20-31,cda-server-4,35.04534435272217,13596,1756635631,10.157.146.4,False,72566.50393605232,1200
+2267,-608.0569824650461,2267,2720400,{},-796.765209626063,2720400,0,72602.52244639397,-449.5331528268371,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2720400, 'default': {'kl': 0.010522548109292984, 'policy_loss': -0.12540121376514435, 'vf_loss': 108.15157318115234, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9894015192985535, 'entropy': 3.4883527755737305, 'cur_lr': 4.999999873689376e-05, 'total_loss': 108.04215240478516}, 'load_time_ms': 0.69, 'num_steps_sampled': 2720400, 'grad_time_ms': 735.609, 'update_time_ms': 2.232, 'sample_time_ms': 34911.894}",2025-08-31_12-21-07,cda-server-4,36.01851034164429,13602,1756635667,10.157.146.4,False,72602.52244639397,1200
+2268,-607.5227641178102,2268,2721600,{},-796.765209626063,2721600,0,72639.00715184212,-449.5331528268371,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2721600, 'default': {'kl': 0.010856034234166145, 'policy_loss': -0.1358794867992401, 'vf_loss': 159.56320190429688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9764747619628906, 'entropy': 3.7023086547851562, 'cur_lr': 4.999999873689376e-05, 'total_loss': 159.44381713867188}, 'load_time_ms': 0.691, 'num_steps_sampled': 2721600, 'grad_time_ms': 728.279, 'update_time_ms': 2.253, 'sample_time_ms': 34987.864}",2025-08-31_12-21-43,cda-server-4,36.484705448150635,13608,1756635703,10.157.146.4,False,72639.00715184212,1200
+2269,-605.7528059455109,2269,2722800,{},-639.4147928651023,2722800,0,72674.23266410828,-449.5331528268371,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2722800, 'default': {'kl': 0.010532466694712639, 'policy_loss': -0.1476643681526184, 'vf_loss': 288.22796630859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9781612753868103, 'entropy': 3.7922074794769287, 'cur_lr': 4.999999873689376e-05, 'total_loss': 288.0963134765625}, 'load_time_ms': 0.699, 'num_steps_sampled': 2722800, 'grad_time_ms': 728.746, 'update_time_ms': 2.289, 'sample_time_ms': 34966.519}",2025-08-31_12-22-18,cda-server-4,35.22551226615906,13614,1756635738,10.157.146.4,False,72674.23266410828,1200
+2270,-605.5913697654547,2270,2724000,{},-639.4147928651023,2724000,0,72710.71537446976,-449.5331528268371,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2724000, 'default': {'kl': 0.013051668182015419, 'policy_loss': -0.1479346603155136, 'vf_loss': 159.39080810546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9914255142211914, 'entropy': 3.7370195388793945, 'cur_lr': 4.999999873689376e-05, 'total_loss': 159.26271057128906}, 'load_time_ms': 0.671, 'num_steps_sampled': 2724000, 'grad_time_ms': 728.244, 'update_time_ms': 2.27, 'sample_time_ms': 34959.211}",2025-08-31_12-22-55,cda-server-4,36.48271036148071,13620,1756635775,10.157.146.4,False,72710.71537446976,1200
+2271,-605.7445948032056,2271,2725200,{},-639.4147928651023,2725200,0,72747.08477592468,-449.5331528268371,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2725200, 'default': {'kl': 0.012936845421791077, 'policy_loss': -0.15209001302719116, 'vf_loss': 31.28998565673828, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9962543845176697, 'entropy': 3.592363119125366, 'cur_lr': 4.999999873689376e-05, 'total_loss': 31.15754508972168}, 'load_time_ms': 0.664, 'num_steps_sampled': 2725200, 'grad_time_ms': 726.333, 'update_time_ms': 2.253, 'sample_time_ms': 35071.562}",2025-08-31_12-23-31,cda-server-4,36.36940145492554,13626,1756635811,10.157.146.4,False,72747.08477592468,1200
+2272,-605.5053943833036,2272,2726400,{},-639.4147928651023,2726400,0,72782.38723158836,-449.5331528268371,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2726400, 'default': {'kl': 0.011550880037248135, 'policy_loss': -0.1281110942363739, 'vf_loss': 52.113101959228516, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9935934543609619, 'entropy': 3.6359596252441406, 'cur_lr': 4.999999873689376e-05, 'total_loss': 52.002532958984375}, 'load_time_ms': 0.667, 'num_steps_sampled': 2726400, 'grad_time_ms': 724.984, 'update_time_ms': 2.232, 'sample_time_ms': 35089.275}",2025-08-31_12-24-07,cda-server-4,35.30245566368103,13632,1756635847,10.157.146.4,False,72782.38723158836,1200
+2273,-607.282548715372,2273,2727600,{},-785.960049917091,2727600,0,72817.25692129135,-489.6243142966183,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2727600, 'default': {'kl': 0.011406097561120987, 'policy_loss': -0.15132933855056763, 'vf_loss': 307.7575988769531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.974355936050415, 'entropy': 4.023298263549805, 'cur_lr': 4.999999873689376e-05, 'total_loss': 307.62359619140625}, 'load_time_ms': 0.655, 'num_steps_sampled': 2727600, 'grad_time_ms': 720.822, 'update_time_ms': 2.216, 'sample_time_ms': 34957.083}",2025-08-31_12-24-41,cda-server-4,34.86968970298767,13638,1756635881,10.157.146.4,False,72817.25692129135,1200
+2274,-608.351950925693,2274,2728800,{},-785.960049917091,2728800,0,72852.94139790535,-489.6243142966183,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2728800, 'default': {'kl': 0.012512107379734516, 'policy_loss': -0.14502550661563873, 'vf_loss': 39.157470703125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9945181608200073, 'entropy': 3.778093099594116, 'cur_lr': 4.999999873689376e-05, 'total_loss': 39.03144836425781}, 'load_time_ms': 0.666, 'num_steps_sampled': 2728800, 'grad_time_ms': 719.539, 'update_time_ms': 2.237, 'sample_time_ms': 34969.492}",2025-08-31_12-25-17,cda-server-4,35.68447661399841,13644,1756635917,10.157.146.4,False,72852.94139790535,1200
+2275,-607.3647529497774,2275,2730000,{},-785.960049917091,2730000,0,72888.2151787281,-489.6243142966183,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2730000, 'default': {'kl': 0.01251203939318657, 'policy_loss': -0.15936027467250824, 'vf_loss': 74.80589294433594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9951061606407166, 'entropy': 3.7815465927124023, 'cur_lr': 4.999999873689376e-05, 'total_loss': 74.66553497314453}, 'load_time_ms': 0.666, 'num_steps_sampled': 2730000, 'grad_time_ms': 719.561, 'update_time_ms': 2.224, 'sample_time_ms': 34949.435}",2025-08-31_12-25-52,cda-server-4,35.273780822753906,13650,1756635952,10.157.146.4,False,72888.2151787281,1200
+2276,-608.1664616458686,2276,2731200,{},-785.960049917091,2731200,0,72923.74612951279,-489.6243142966183,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2731200, 'default': {'kl': 0.01064382866024971, 'policy_loss': -0.12591329216957092, 'vf_loss': 99.83274841308594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9935640692710876, 'entropy': 3.80785870552063, 'cur_lr': 4.999999873689376e-05, 'total_loss': 99.72299194335938}, 'load_time_ms': 0.691, 'num_steps_sampled': 2731200, 'grad_time_ms': 723.222, 'update_time_ms': 2.295, 'sample_time_ms': 34994.206}",2025-08-31_12-26-28,cda-server-4,35.53095078468323,13656,1756635988,10.157.146.4,False,72923.74612951279,1200
+2277,-608.1639320953913,2277,2732400,{},-785.960049917091,2732400,0,72959.25859975815,-489.6243142966183,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2732400, 'default': {'kl': 0.011541241779923439, 'policy_loss': -0.13919170200824738, 'vf_loss': 357.1786804199219, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9843580722808838, 'entropy': 3.703660011291504, 'cur_lr': 4.999999873689376e-05, 'total_loss': 357.0570373535156}, 'load_time_ms': 0.675, 'num_steps_sampled': 2732400, 'grad_time_ms': 727.153, 'update_time_ms': 2.287, 'sample_time_ms': 34939.711}",2025-08-31_12-27-03,cda-server-4,35.51247024536133,13662,1756636023,10.157.146.4,False,72959.25859975815,1200
+2278,-604.775587377138,2278,2733600,{},-785.960049917091,2733600,0,72994.65687561035,-459.07306792209755,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2733600, 'default': {'kl': 0.011872519738972187, 'policy_loss': -0.1564294546842575, 'vf_loss': 459.3873596191406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9549774527549744, 'entropy': 3.7194833755493164, 'cur_lr': 4.999999873689376e-05, 'total_loss': 459.24896240234375}, 'load_time_ms': 0.71, 'num_steps_sampled': 2733600, 'grad_time_ms': 734.256, 'update_time_ms': 2.251, 'sample_time_ms': 34823.998}",2025-08-31_12-27-39,cda-server-4,35.39827585220337,13668,1756636059,10.157.146.4,False,72994.65687561035,1200
+2279,-604.1725990957451,2279,2734800,{},-785.960049917091,2734800,0,73029.9017162323,-459.07306792209755,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2734800, 'default': {'kl': 0.011128811165690422, 'policy_loss': -0.13056251406669617, 'vf_loss': 62.65557861328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9926234483718872, 'entropy': 3.6613566875457764, 'cur_lr': 4.999999873689376e-05, 'total_loss': 62.54191589355469}, 'load_time_ms': 0.671, 'num_steps_sampled': 2734800, 'grad_time_ms': 734.37, 'update_time_ms': 2.226, 'sample_time_ms': 34825.816}",2025-08-31_12-28-14,cda-server-4,35.24484062194824,13674,1756636094,10.157.146.4,False,73029.9017162323,1200
+2280,-604.4199602590251,2280,2736000,{},-785.960049917091,2736000,0,73065.44622087479,-459.07306792209755,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2736000, 'default': {'kl': 0.0076760705560445786, 'policy_loss': -0.13024601340293884, 'vf_loss': 321.77294921875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.97818523645401, 'entropy': 3.6538400650024414, 'cur_lr': 4.999999873689376e-05, 'total_loss': 321.6543884277344}, 'load_time_ms': 0.68, 'num_steps_sampled': 2736000, 'grad_time_ms': 734.699, 'update_time_ms': 2.344, 'sample_time_ms': 34731.485}",2025-08-31_12-28-50,cda-server-4,35.54450464248657,13680,1756636130,10.157.146.4,False,73065.44622087479,1200
+2281,-604.3316855536641,2281,2737200,{},-785.960049917091,2737200,0,73101.26226639748,-459.07306792209755,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2737200, 'default': {'kl': 0.008676495403051376, 'policy_loss': -0.12386234849691391, 'vf_loss': 187.6146697998047, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9785168170928955, 'entropy': 3.79250431060791, 'cur_lr': 4.999999873689376e-05, 'total_loss': 187.50396728515625}, 'load_time_ms': 0.682, 'num_steps_sampled': 2737200, 'grad_time_ms': 735.811, 'update_time_ms': 2.304, 'sample_time_ms': 34675.018}",2025-08-31_12-29-26,cda-server-4,35.81604552268982,13686,1756636166,10.157.146.4,False,73101.26226639748,1200
+2282,-605.276212315854,2282,2738400,{},-785.960049917091,2738400,0,73136.68638277054,-459.07306792209755,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2738400, 'default': {'kl': 0.009793099015951157, 'policy_loss': -0.1461891531944275, 'vf_loss': 282.4331359863281, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9682089686393738, 'entropy': 3.8695945739746094, 'cur_lr': 4.999999873689376e-05, 'total_loss': 282.30181884765625}, 'load_time_ms': 0.681, 'num_steps_sampled': 2738400, 'grad_time_ms': 735.154, 'update_time_ms': 2.372, 'sample_time_ms': 34687.721}",2025-08-31_12-30-01,cda-server-4,35.424116373062134,13692,1756636201,10.157.146.4,False,73136.68638277054,1200
+2283,-605.483275338705,2283,2739600,{},-785.960049917091,2739600,0,73172.61194348335,-459.07306792209755,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2739600, 'default': {'kl': 0.011199424043297768, 'policy_loss': -0.15254996716976166, 'vf_loss': 109.04305267333984, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9892885684967041, 'entropy': 3.6907975673675537, 'cur_lr': 4.999999873689376e-05, 'total_loss': 108.90750122070312}, 'load_time_ms': 0.683, 'num_steps_sampled': 2739600, 'grad_time_ms': 739.223, 'update_time_ms': 2.378, 'sample_time_ms': 34789.229}",2025-08-31_12-30-37,cda-server-4,35.92556071281433,13698,1756636237,10.157.146.4,False,73172.61194348335,1200
+2284,-604.5277626591504,2284,2740800,{},-785.960049917091,2740800,0,73207.93944144249,-459.07306792209755,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2740800, 'default': {'kl': 0.011460136622190475, 'policy_loss': -0.15507997572422028, 'vf_loss': 66.27399444580078, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9924731850624084, 'entropy': 3.7001283168792725, 'cur_lr': 4.999999873689376e-05, 'total_loss': 66.13631439208984}, 'load_time_ms': 0.693, 'num_steps_sampled': 2740800, 'grad_time_ms': 736.998, 'update_time_ms': 2.452, 'sample_time_ms': 34755.63}",2025-08-31_12-31-12,cda-server-4,35.32749795913696,13704,1756636272,10.157.146.4,False,73207.93944144249,1200
+2285,-604.4839484682635,2285,2742000,{},-785.960049917091,2742000,0,73243.83895349503,-459.07306792209755,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2742000, 'default': {'kl': 0.009522772394120693, 'policy_loss': -0.13035719096660614, 'vf_loss': 89.45297241210938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9903075098991394, 'entropy': 3.597409248352051, 'cur_lr': 4.999999873689376e-05, 'total_loss': 89.33707427978516}, 'load_time_ms': 0.729, 'num_steps_sampled': 2742000, 'grad_time_ms': 736.003, 'update_time_ms': 2.456, 'sample_time_ms': 34819.108}",2025-08-31_12-31-48,cda-server-4,35.89951205253601,13710,1756636308,10.157.146.4,False,73243.83895349503,1200
+2286,-604.2009261076953,2286,2743200,{},-785.960049917091,2743200,0,73279.35902881622,-459.07306792209755,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2743200, 'default': {'kl': 0.010235734283924103, 'policy_loss': -0.12850430607795715, 'vf_loss': 371.1243896484375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9696606397628784, 'entropy': 3.6584222316741943, 'cur_lr': 4.999999873689376e-05, 'total_loss': 371.0113830566406}, 'load_time_ms': 0.713, 'num_steps_sampled': 2743200, 'grad_time_ms': 735.243, 'update_time_ms': 2.419, 'sample_time_ms': 34818.806}",2025-08-31_12-32-24,cda-server-4,35.52007532119751,13716,1756636344,10.157.146.4,False,73279.35902881622,1200
+2287,-604.2718499434937,2287,2744400,{},-785.960049917091,2744400,0,73314.54463601112,-459.07306792209755,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2744400, 'default': {'kl': 0.009817824698984623, 'policy_loss': -0.13778142631053925, 'vf_loss': 144.3561248779297, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9896137714385986, 'entropy': 3.7234721183776855, 'cur_lr': 4.999999873689376e-05, 'total_loss': 144.23324584960938}, 'load_time_ms': 0.708, 'num_steps_sampled': 2744400, 'grad_time_ms': 735.398, 'update_time_ms': 2.33, 'sample_time_ms': 34786.054}",2025-08-31_12-32-59,cda-server-4,35.18560719490051,13722,1756636379,10.157.146.4,False,73314.54463601112,1200
+2288,-604.7065144023176,2288,2745600,{},-785.960049917091,2745600,0,73350.29161286354,-459.07306792209755,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2745600, 'default': {'kl': 0.010060425847768784, 'policy_loss': -0.1384257674217224, 'vf_loss': 57.74751663208008, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9949268698692322, 'entropy': 3.592280149459839, 'cur_lr': 4.999999873689376e-05, 'total_loss': 57.62436294555664}, 'load_time_ms': 0.708, 'num_steps_sampled': 2745600, 'grad_time_ms': 736.146, 'update_time_ms': 2.402, 'sample_time_ms': 34820.082}",2025-08-31_12-33-35,cda-server-4,35.74697685241699,13728,1756636415,10.157.146.4,False,73350.29161286354,1200
+2289,-604.285764593735,2289,2746800,{},-785.960049917091,2746800,0,73386.26231598854,-459.07306792209755,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2746800, 'default': {'kl': 0.011255254037678242, 'policy_loss': -0.11633091419935226, 'vf_loss': 118.69187927246094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9881733655929565, 'entropy': 3.6363580226898193, 'cur_lr': 4.999999873689376e-05, 'total_loss': 118.59262084960938}, 'load_time_ms': 0.71, 'num_steps_sampled': 2746800, 'grad_time_ms': 736.878, 'update_time_ms': 2.367, 'sample_time_ms': 34891.967}",2025-08-31_12-34-11,cda-server-4,35.970703125,13734,1756636451,10.157.146.4,False,73386.26231598854,1200
+2290,-605.7675864608051,2290,2748000,{},-787.6611464026573,2748000,0,73421.52928948402,-459.07306792209755,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2748000, 'default': {'kl': 0.010518069379031658, 'policy_loss': -0.12317100167274475, 'vf_loss': 926.105224609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9238489866256714, 'entropy': 4.158356666564941, 'cur_lr': 4.999999873689376e-05, 'total_loss': 925.998046875}, 'load_time_ms': 0.739, 'num_steps_sampled': 2748000, 'grad_time_ms': 736.937, 'update_time_ms': 2.332, 'sample_time_ms': 34864.12}",2025-08-31_12-34-46,cda-server-4,35.2669734954834,13740,1756636486,10.157.146.4,False,73421.52928948402,1200
+2291,-607.0010032472181,2291,2749200,{},-805.5209718694211,2749200,0,73457.24208498001,-459.07306792209755,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2749200, 'default': {'kl': 0.009173902682960033, 'policy_loss': -0.13074684143066406, 'vf_loss': 359.3551025390625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.964895486831665, 'entropy': 4.0929412841796875, 'cur_lr': 4.999999873689376e-05, 'total_loss': 359.23822021484375}, 'load_time_ms': 0.729, 'num_steps_sampled': 2749200, 'grad_time_ms': 735.792, 'update_time_ms': 2.237, 'sample_time_ms': 34855.005}",2025-08-31_12-35-22,cda-server-4,35.71279549598694,13746,1756636522,10.157.146.4,False,73457.24208498001,1200
+2292,-608.5810972352724,2292,2750400,{},-805.5209718694211,2750400,0,73493.19534397125,-459.07306792209755,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2750400, 'default': {'kl': 0.01015555951744318, 'policy_loss': -0.13277564942836761, 'vf_loss': 135.96771240234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9816702604293823, 'entropy': 3.9697046279907227, 'cur_lr': 4.999999873689376e-05, 'total_loss': 135.85037231445312}, 'load_time_ms': 0.726, 'num_steps_sampled': 2750400, 'grad_time_ms': 734.816, 'update_time_ms': 2.247, 'sample_time_ms': 34908.832}",2025-08-31_12-35-58,cda-server-4,35.953258991241455,13752,1756636558,10.157.146.4,False,73493.19534397125,1200
+2293,-607.6664001416983,2293,2751600,{},-805.5209718694211,2751600,0,73527.88225698471,-459.07306792209755,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2751600, 'default': {'kl': 0.01002582348883152, 'policy_loss': -0.11295660585165024, 'vf_loss': 230.26199340820312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9844352006912231, 'entropy': 3.71571683883667, 'cur_lr': 4.999999873689376e-05, 'total_loss': 230.16427612304688}, 'load_time_ms': 0.73, 'num_steps_sampled': 2751600, 'grad_time_ms': 733.547, 'update_time_ms': 2.249, 'sample_time_ms': 34786.239}",2025-08-31_12-36-32,cda-server-4,34.68691301345825,13758,1756636592,10.157.146.4,False,73527.88225698471,1200
+2294,-611.2942947733948,2294,2752800,{},-805.5209718694211,2752800,0,73563.55242156982,-511.83081234318985,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2752800, 'default': {'kl': 0.008803864941000938, 'policy_loss': -0.1306203007698059, 'vf_loss': 219.9475860595703, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9714663624763489, 'entropy': 3.706836700439453, 'cur_lr': 4.999999873689376e-05, 'total_loss': 219.8303680419922}, 'load_time_ms': 0.701, 'num_steps_sampled': 2752800, 'grad_time_ms': 735.813, 'update_time_ms': 2.153, 'sample_time_ms': 34818.379}",2025-08-31_12-37-08,cda-server-4,35.670164585113525,13764,1756636628,10.157.146.4,False,73563.55242156982,1200
+2295,-612.704800515521,2295,2754000,{},-805.5209718694211,2754000,0,73598.85923051834,-522.8819088519697,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2754000, 'default': {'kl': 0.01135300099849701, 'policy_loss': -0.14462193846702576, 'vf_loss': 69.140869140625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9926261901855469, 'entropy': 3.5831844806671143, 'cur_lr': 4.999999873689376e-05, 'total_loss': 69.01349639892578}, 'load_time_ms': 0.669, 'num_steps_sampled': 2754000, 'grad_time_ms': 731.597, 'update_time_ms': 2.194, 'sample_time_ms': 34763.399}",2025-08-31_12-37-43,cda-server-4,35.306808948516846,13770,1756636663,10.157.146.4,False,73598.85923051834,1200
+2296,-611.015933466558,2296,2755200,{},-805.5209718694211,2755200,0,73634.73256731033,-517.2001294265518,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2755200, 'default': {'kl': 0.011001172475516796, 'policy_loss': -0.13501900434494019, 'vf_loss': 222.11843872070312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9751086831092834, 'entropy': 3.5964529514312744, 'cur_lr': 4.999999873689376e-05, 'total_loss': 222.0001220703125}, 'load_time_ms': 0.667, 'num_steps_sampled': 2755200, 'grad_time_ms': 732.208, 'update_time_ms': 2.265, 'sample_time_ms': 34797.511}",2025-08-31_12-38-19,cda-server-4,35.87333679199219,13776,1756636699,10.157.146.4,False,73634.73256731033,1200
+2297,-610.8066937891964,2297,2756400,{},-805.5209718694211,2756400,0,73670.13319158554,-517.2001294265518,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2756400, 'default': {'kl': 0.009757405146956444, 'policy_loss': -0.15081408619880676, 'vf_loss': 39.78727722167969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9947692155838013, 'entropy': 3.749608039855957, 'cur_lr': 4.999999873689376e-05, 'total_loss': 39.65128707885742}, 'load_time_ms': 0.664, 'num_steps_sampled': 2756400, 'grad_time_ms': 731.887, 'update_time_ms': 2.287, 'sample_time_ms': 34819.325}",2025-08-31_12-38-55,cda-server-4,35.40062427520752,13782,1756636735,10.157.146.4,False,73670.13319158554,1200
+2298,-610.123690442754,2298,2757600,{},-805.5209718694211,2757600,0,73705.69412279129,-517.2001294265518,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2757600, 'default': {'kl': 0.010313776321709156, 'policy_loss': -0.12173344194889069, 'vf_loss': 269.1492614746094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9755204319953918, 'entropy': 3.623671293258667, 'cur_lr': 4.999999873689376e-05, 'total_loss': 269.0431823730469}, 'load_time_ms': 0.661, 'num_steps_sampled': 2757600, 'grad_time_ms': 730.092, 'update_time_ms': 2.219, 'sample_time_ms': 34802.618}",2025-08-31_12-39-30,cda-server-4,35.56093120574951,13788,1756636770,10.157.146.4,False,73705.69412279129,1200
+2299,-608.6456184674321,2299,2758800,{},-805.5209718694211,2758800,0,73741.40115475655,-517.2001294265518,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2758800, 'default': {'kl': 0.008726481348276138, 'policy_loss': -0.11696518957614899, 'vf_loss': 271.90948486328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9734427332878113, 'entropy': 3.468324661254883, 'cur_lr': 4.999999873689376e-05, 'total_loss': 271.8057861328125}, 'load_time_ms': 0.678, 'num_steps_sampled': 2758800, 'grad_time_ms': 727.43, 'update_time_ms': 2.289, 'sample_time_ms': 34778.863}",2025-08-31_12-40-06,cda-server-4,35.70703196525574,13794,1756636806,10.157.146.4,False,73741.40115475655,1200
+2300,-609.2153343766494,2300,2760000,{},-805.5209718694211,2760000,0,73776.47179579735,-517.2001294265518,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2760000, 'default': {'kl': 0.008511553518474102, 'policy_loss': -0.11574619263410568, 'vf_loss': 201.28125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9744029641151428, 'entropy': 3.814303398132324, 'cur_lr': 4.999999873689376e-05, 'total_loss': 201.17843627929688}, 'load_time_ms': 0.662, 'num_steps_sampled': 2760000, 'grad_time_ms': 724.705, 'update_time_ms': 2.396, 'sample_time_ms': 34761.895}",2025-08-31_12-40-41,cda-server-4,35.070641040802,13800,1756636841,10.157.146.4,False,73776.47179579735,1200
+2301,-610.4597222342484,2301,2761200,{},-805.5209718694211,2761200,0,73811.68807673454,-517.2001294265518,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2761200, 'default': {'kl': 0.010373870842158794, 'policy_loss': -0.13868005573749542, 'vf_loss': 87.82978820800781, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9871376752853394, 'entropy': 3.7866411209106445, 'cur_lr': 4.999999873689376e-05, 'total_loss': 87.70686340332031}, 'load_time_ms': 0.66, 'num_steps_sampled': 2761200, 'grad_time_ms': 721.285, 'update_time_ms': 2.528, 'sample_time_ms': 34715.544}",2025-08-31_12-41-16,cda-server-4,35.216280937194824,13806,1756636876,10.157.146.4,False,73811.68807673454,1200
+2302,-610.5826746182213,2302,2762400,{},-805.5209718694211,2762400,0,73847.90148854256,-517.2001294265518,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2762400, 'default': {'kl': 0.010863278061151505, 'policy_loss': -0.1307118535041809, 'vf_loss': 152.53335571289062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9805471897125244, 'entropy': 3.6714694499969482, 'cur_lr': 4.999999873689376e-05, 'total_loss': 152.41915893554688}, 'load_time_ms': 0.666, 'num_steps_sampled': 2762400, 'grad_time_ms': 723.582, 'update_time_ms': 2.479, 'sample_time_ms': 34739.352}",2025-08-31_12-41-53,cda-server-4,36.213411808013916,13812,1756636913,10.157.146.4,False,73847.90148854256,1200
+2303,-610.3079357631713,2303,2763600,{},-805.5209718694211,2763600,0,73884.04488801956,-517.2001294265518,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2763600, 'default': {'kl': 0.010308523662388325, 'policy_loss': -0.13998162746429443, 'vf_loss': 160.85585021972656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9843965172767639, 'entropy': 3.7392947673797607, 'cur_lr': 4.999999873689376e-05, 'total_loss': 160.7315216064453}, 'load_time_ms': 0.662, 'num_steps_sampled': 2763600, 'grad_time_ms': 724.647, 'update_time_ms': 2.532, 'sample_time_ms': 34883.882}",2025-08-31_12-42-29,cda-server-4,36.143399477005005,13818,1756636949,10.157.146.4,False,73884.04488801956,1200
+2304,-610.1522288243619,2304,2764800,{},-805.5209718694211,2764800,0,73919.4649720192,-517.2001294265518,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2764800, 'default': {'kl': 0.009800796397030354, 'policy_loss': -0.14391830563545227, 'vf_loss': 83.24116516113281, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9916460514068604, 'entropy': 3.7716593742370605, 'cur_lr': 4.999999873689376e-05, 'total_loss': 83.11213684082031}, 'load_time_ms': 0.661, 'num_steps_sampled': 2764800, 'grad_time_ms': 722.879, 'update_time_ms': 2.542, 'sample_time_ms': 34860.647}",2025-08-31_12-43-04,cda-server-4,35.42008399963379,13824,1756636984,10.157.146.4,False,73919.4649720192,1200
+2305,-609.7494046149865,2305,2766000,{},-805.5209718694211,2766000,0,73955.556173563,-517.2001294265518,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2766000, 'default': {'kl': 0.010776345618069172, 'policy_loss': -0.14081226289272308, 'vf_loss': 107.9688491821289, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9876710176467896, 'entropy': 3.749800443649292, 'cur_lr': 4.999999873689376e-05, 'total_loss': 107.84440612792969}, 'load_time_ms': 0.656, 'num_steps_sampled': 2766000, 'grad_time_ms': 721.107, 'update_time_ms': 2.631, 'sample_time_ms': 34940.786}",2025-08-31_12-43-40,cda-server-4,36.09120154380798,13830,1756637020,10.157.146.4,False,73955.556173563,1200
+2306,-609.4678892731281,2306,2767200,{},-805.5209718694211,2767200,0,73990.50480532646,-517.2001294265518,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2767200, 'default': {'kl': 0.009460036642849445, 'policy_loss': -0.12952816486358643, 'vf_loss': 50.45297622680664, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9924740195274353, 'entropy': 3.7806386947631836, 'cur_lr': 4.999999873689376e-05, 'total_loss': 50.33781433105469}, 'load_time_ms': 0.65, 'num_steps_sampled': 2767200, 'grad_time_ms': 716.042, 'update_time_ms': 2.562, 'sample_time_ms': 34854.063}",2025-08-31_12-44-15,cda-server-4,34.94863176345825,13836,1756637055,10.157.146.4,False,73990.50480532646,1200
+2307,-608.1504116248267,2307,2768400,{},-805.5209718694211,2768400,0,74025.90562391281,-517.2001294265518,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2768400, 'default': {'kl': 0.009348180145025253, 'policy_loss': -0.10889715701341629, 'vf_loss': 183.7393341064453, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9795261025428772, 'entropy': 3.505615472793579, 'cur_lr': 4.999999873689376e-05, 'total_loss': 183.64462280273438}, 'load_time_ms': 0.65, 'num_steps_sampled': 2768400, 'grad_time_ms': 711.684, 'update_time_ms': 2.539, 'sample_time_ms': 34858.488}",2025-08-31_12-44-51,cda-server-4,35.40081858634949,13842,1756637091,10.157.146.4,False,74025.90562391281,1200
+2308,-606.4150647762182,2308,2769600,{},-669.7480527650737,2769600,0,74061.24322199821,-517.2001294265518,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2769600, 'default': {'kl': 0.011416618712246418, 'policy_loss': -0.14285314083099365, 'vf_loss': 125.15706634521484, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9901959896087646, 'entropy': 3.672696828842163, 'cur_lr': 4.999999873689376e-05, 'total_loss': 125.03154754638672}, 'load_time_ms': 0.614, 'num_steps_sampled': 2769600, 'grad_time_ms': 705.465, 'update_time_ms': 2.694, 'sample_time_ms': 34842.293}",2025-08-31_12-45-26,cda-server-4,35.33759808540344,13848,1756637126,10.157.146.4,False,74061.24322199821,1200
+2309,-605.7776138252125,2309,2770800,{},-639.313478081638,2770800,0,74096.6252861023,-517.2001294265518,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2770800, 'default': {'kl': 0.01163297425955534, 'policy_loss': -0.15051859617233276, 'vf_loss': 155.4851531982422, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9868628978729248, 'entropy': 3.724700450897217, 'cur_lr': 4.999999873689376e-05, 'total_loss': 155.352294921875}, 'load_time_ms': 0.592, 'num_steps_sampled': 2770800, 'grad_time_ms': 705.718, 'update_time_ms': 2.616, 'sample_time_ms': 34809.57}",2025-08-31_12-46-01,cda-server-4,35.3820641040802,13854,1756637161,10.157.146.4,False,74096.6252861023,1200
+2310,-607.6769534932305,2310,2772000,{},-792.863500716533,2772000,0,74132.28769540787,-517.2001294265518,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2772000, 'default': {'kl': 0.011640738695859909, 'policy_loss': -0.14387677609920502, 'vf_loss': 253.02877807617188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9728541970252991, 'entropy': 3.926743745803833, 'cur_lr': 4.999999873689376e-05, 'total_loss': 252.90255737304688}, 'load_time_ms': 0.574, 'num_steps_sampled': 2772000, 'grad_time_ms': 708.741, 'update_time_ms': 2.559, 'sample_time_ms': 34865.776}",2025-08-31_12-46-37,cda-server-4,35.66240930557251,13860,1756637197,10.157.146.4,False,74132.28769540787,1200
+2311,-607.0683183502098,2311,2773200,{},-792.863500716533,2773200,0,74167.22001338005,-517.2001294265518,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2773200, 'default': {'kl': 0.011792337521910667, 'policy_loss': -0.15666131675243378, 'vf_loss': 117.90321350097656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9907761812210083, 'entropy': 3.543442726135254, 'cur_lr': 4.999999873689376e-05, 'total_loss': 117.76445770263672}, 'load_time_ms': 0.603, 'num_steps_sampled': 2773200, 'grad_time_ms': 709.394, 'update_time_ms': 2.492, 'sample_time_ms': 34836.757}",2025-08-31_12-47-12,cda-server-4,34.93231797218323,13866,1756637232,10.157.146.4,False,74167.22001338005,1200
+2312,-607.9724561342891,2312,2774400,{},-792.863500716533,2774400,0,74202.52003407478,-520.1888732617526,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2774400, 'default': {'kl': 0.013276129961013794, 'policy_loss': -0.15288515388965607, 'vf_loss': 53.6600456237793, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9938748478889465, 'entropy': 3.5846006870269775, 'cur_lr': 4.999999873689376e-05, 'total_loss': 53.52732467651367}, 'load_time_ms': 0.599, 'num_steps_sampled': 2774400, 'grad_time_ms': 704.032, 'update_time_ms': 2.597, 'sample_time_ms': 34750.759}",2025-08-31_12-47-48,cda-server-4,35.300020694732666,13872,1756637268,10.157.146.4,False,74202.52003407478,1200
+2313,-608.5815284166312,2313,2775600,{},-792.863500716533,2775600,0,74237.97791194916,-520.1888732617526,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2775600, 'default': {'kl': 0.012107964605093002, 'policy_loss': -0.1613728404045105, 'vf_loss': 27.701778411865234, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9959625601768494, 'entropy': 3.6414074897766113, 'cur_lr': 4.999999873689376e-05, 'total_loss': 27.558795928955078}, 'load_time_ms': 0.627, 'num_steps_sampled': 2775600, 'grad_time_ms': 701.703, 'update_time_ms': 2.612, 'sample_time_ms': 34684.532}",2025-08-31_12-48-23,cda-server-4,35.45787787437439,13878,1756637303,10.157.146.4,False,74237.97791194916,1200
+2314,-608.1573772471584,2314,2776800,{},-792.863500716533,2776800,0,74272.78864192963,-520.1888732617526,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2776800, 'default': {'kl': 0.011433382518589497, 'policy_loss': -0.13927125930786133, 'vf_loss': 76.40818786621094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9949789047241211, 'entropy': 3.6239614486694336, 'cur_lr': 4.999999873689376e-05, 'total_loss': 76.28628540039062}, 'load_time_ms': 0.626, 'num_steps_sampled': 2776800, 'grad_time_ms': 703.368, 'update_time_ms': 2.62, 'sample_time_ms': 34621.936}",2025-08-31_12-48-58,cda-server-4,34.81072998046875,13884,1756637338,10.157.146.4,False,74272.78864192963,1200
+2315,-608.8152975551686,2315,2778000,{},-792.863500716533,2778000,0,74308.70079064369,-520.1888732617526,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2778000, 'default': {'kl': 0.010359536856412888, 'policy_loss': -0.13527758419513702, 'vf_loss': 54.81560516357422, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9941480159759521, 'entropy': 3.6766481399536133, 'cur_lr': 4.999999873689376e-05, 'total_loss': 54.69606018066406}, 'load_time_ms': 0.632, 'num_steps_sampled': 2778000, 'grad_time_ms': 709.863, 'update_time_ms': 2.548, 'sample_time_ms': 34597.491}",2025-08-31_12-49-34,cda-server-4,35.91214871406555,13890,1756637374,10.157.146.4,False,74308.70079064369,1200
+2316,-608.9031277814785,2316,2779200,{},-792.863500716533,2779200,0,74345.11004161835,-520.1888732617526,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2779200, 'default': {'kl': 0.009393089450895786, 'policy_loss': -0.1203504428267479, 'vf_loss': 121.32109832763672, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9874300360679626, 'entropy': 3.6702303886413574, 'cur_lr': 4.999999873689376e-05, 'total_loss': 121.21503448486328}, 'load_time_ms': 0.633, 'num_steps_sampled': 2779200, 'grad_time_ms': 714.946, 'update_time_ms': 2.566, 'sample_time_ms': 34738.407}",2025-08-31_12-50-10,cda-server-4,36.40925097465515,13896,1756637410,10.157.146.4,False,74345.11004161835,1200
+2317,-607.9558847149542,2317,2780400,{},-792.863500716533,2780400,0,74380.19295120239,-520.1888732617526,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2780400, 'default': {'kl': 0.012293403036892414, 'policy_loss': -0.15928281843662262, 'vf_loss': 60.50303268432617, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9934723973274231, 'entropy': 3.636789083480835, 'cur_lr': 4.999999873689376e-05, 'total_loss': 60.36241912841797}, 'load_time_ms': 0.669, 'num_steps_sampled': 2780400, 'grad_time_ms': 717.724, 'update_time_ms': 2.657, 'sample_time_ms': 34703.567}",2025-08-31_12-50-45,cda-server-4,35.08290958404541,13902,1756637445,10.157.146.4,False,74380.19295120239,1200
+2318,-608.4042538538039,2318,2781600,{},-792.863500716533,2781600,0,74414.99788093567,-520.1888732617526,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2781600, 'default': {'kl': 0.010534849017858505, 'policy_loss': -0.14333093166351318, 'vf_loss': 82.84554290771484, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9877139329910278, 'entropy': 3.657236337661743, 'cur_lr': 4.999999873689376e-05, 'total_loss': 82.71820831298828}, 'load_time_ms': 0.677, 'num_steps_sampled': 2781600, 'grad_time_ms': 722.067, 'update_time_ms': 2.601, 'sample_time_ms': 34645.979}",2025-08-31_12-51-20,cda-server-4,34.80492973327637,13908,1756637480,10.157.146.4,False,74414.99788093567,1200
+2319,-609.3549544435383,2319,2782800,{},-792.863500716533,2782800,0,74450.52497458458,-520.1888732617526,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2782800, 'default': {'kl': 0.010092411190271378, 'policy_loss': -0.1426001638174057, 'vf_loss': 185.68263244628906, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9777018427848816, 'entropy': 3.9698824882507324, 'cur_lr': 4.999999873689376e-05, 'total_loss': 185.55535888671875}, 'load_time_ms': 0.716, 'num_steps_sampled': 2782800, 'grad_time_ms': 723.806, 'update_time_ms': 2.606, 'sample_time_ms': 34658.759}",2025-08-31_12-51-56,cda-server-4,35.52709364891052,13914,1756637516,10.157.146.4,False,74450.52497458458,1200
+2320,-608.9420116841354,2320,2784000,{},-792.863500716533,2784000,0,74485.77357244492,-520.1888732617526,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2784000, 'default': {'kl': 0.008488637395203114, 'policy_loss': -0.12734846770763397, 'vf_loss': 94.04442596435547, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9870204925537109, 'entropy': 3.62625789642334, 'cur_lr': 4.999999873689376e-05, 'total_loss': 93.92996978759766}, 'load_time_ms': 0.744, 'num_steps_sampled': 2784000, 'grad_time_ms': 723.936, 'update_time_ms': 2.488, 'sample_time_ms': 34617.31}",2025-08-31_12-52-31,cda-server-4,35.248597860336304,13920,1756637551,10.157.146.4,False,74485.77357244492,1200
+2321,-608.3750037980049,2321,2785200,{},-792.863500716533,2785200,0,74521.48356866837,-520.1888732617526,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2785200, 'default': {'kl': 0.011487822979688644, 'policy_loss': -0.16319487988948822, 'vf_loss': 226.39463806152344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9876165390014648, 'entropy': 3.7005386352539062, 'cur_lr': 4.999999873689376e-05, 'total_loss': 226.2489013671875}, 'load_time_ms': 0.715, 'num_steps_sampled': 2785200, 'grad_time_ms': 723.372, 'update_time_ms': 2.484, 'sample_time_ms': 34695.618}",2025-08-31_12-53-07,cda-server-4,35.70999622344971,13926,1756637587,10.157.146.4,False,74521.48356866837,1200
+2322,-609.0567081882562,2322,2786400,{},-792.863500716533,2786400,0,74556.32269072533,-520.1888732617526,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2786400, 'default': {'kl': 0.01079587172716856, 'policy_loss': -0.12853820621967316, 'vf_loss': 250.76095581054688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9782252907752991, 'entropy': 3.6497349739074707, 'cur_lr': 4.999999873689376e-05, 'total_loss': 250.64878845214844}, 'load_time_ms': 0.719, 'num_steps_sampled': 2786400, 'grad_time_ms': 726.094, 'update_time_ms': 2.401, 'sample_time_ms': 34646.74}",2025-08-31_12-53-42,cda-server-4,34.83912205696106,13932,1756637622,10.157.146.4,False,74556.32269072533,1200
+2323,-609.8762504758591,2323,2787600,{},-792.863500716533,2787600,0,74593.03744697571,-520.1888732617526,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2787600, 'default': {'kl': 0.010858147405087948, 'policy_loss': -0.14781056344509125, 'vf_loss': 38.86362838745117, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9953572750091553, 'entropy': 3.72157621383667, 'cur_lr': 4.999999873689376e-05, 'total_loss': 38.73230743408203}, 'load_time_ms': 0.698, 'num_steps_sampled': 2787600, 'grad_time_ms': 727.061, 'update_time_ms': 2.374, 'sample_time_ms': 34771.476}",2025-08-31_12-54-18,cda-server-4,36.71475625038147,13938,1756637658,10.157.146.4,False,74593.03744697571,1200
+2324,-609.0364670275462,2324,2788800,{},-792.863500716533,2788800,0,74628.80063700676,-520.1888732617526,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2788800, 'default': {'kl': 0.009243646636605263, 'policy_loss': -0.13517412543296814, 'vf_loss': 92.92232513427734, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9892752170562744, 'entropy': 3.5238842964172363, 'cur_lr': 4.999999873689376e-05, 'total_loss': 92.80117797851562}, 'load_time_ms': 0.705, 'num_steps_sampled': 2788800, 'grad_time_ms': 726.343, 'update_time_ms': 2.384, 'sample_time_ms': 34867.396}",2025-08-31_12-54-54,cda-server-4,35.763190031051636,13944,1756637694,10.157.146.4,False,74628.80063700676,1200
+2325,-608.9216500761868,2325,2790000,{},-792.863500716533,2790000,0,74663.80128574371,-520.1888732617526,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2790000, 'default': {'kl': 0.010517662391066551, 'policy_loss': -0.13706307113170624, 'vf_loss': 229.25897216796875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9727051854133606, 'entropy': 3.7833027839660645, 'cur_lr': 4.999999873689376e-05, 'total_loss': 229.13790893554688}, 'load_time_ms': 0.708, 'num_steps_sampled': 2790000, 'grad_time_ms': 726.405, 'update_time_ms': 2.437, 'sample_time_ms': 34776.216}",2025-08-31_12-55-29,cda-server-4,35.000648736953735,13950,1756637729,10.157.146.4,False,74663.80128574371,1200
+2326,-606.9596573958605,2326,2791200,{},-690.3635759723771,2791200,0,74699.41286849976,-520.1888732617526,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2791200, 'default': {'kl': 0.011358154937624931, 'policy_loss': -0.13647297024726868, 'vf_loss': 194.12075805664062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.993046224117279, 'entropy': 3.5198745727539062, 'cur_lr': 4.999999873689376e-05, 'total_loss': 194.00152587890625}, 'load_time_ms': 0.726, 'num_steps_sampled': 2791200, 'grad_time_ms': 728.028, 'update_time_ms': 2.394, 'sample_time_ms': 34694.852}",2025-08-31_12-56-05,cda-server-4,35.61158275604248,13956,1756637765,10.157.146.4,False,74699.41286849976,1200
+2327,-607.2192082029251,2327,2792400,{},-690.3635759723771,2792400,0,74735.7859826088,-522.1075075321137,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2792400, 'default': {'kl': 0.007947854697704315, 'policy_loss': -0.11562719941139221, 'vf_loss': 161.7105255126953, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9740738272666931, 'entropy': 3.678840160369873, 'cur_lr': 4.999999873689376e-05, 'total_loss': 161.6069793701172}, 'load_time_ms': 0.696, 'num_steps_sampled': 2792400, 'grad_time_ms': 732.601, 'update_time_ms': 2.364, 'sample_time_ms': 34819.533}",2025-08-31_12-56-41,cda-server-4,36.37311410903931,13962,1756637801,10.157.146.4,False,74735.7859826088,1200
+2328,-605.7983705295272,2328,2793600,{},-690.3635759723771,2793600,0,74771.43879890442,-522.1075075321137,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2793600, 'default': {'kl': 0.009274564683437347, 'policy_loss': -0.12841945886611938, 'vf_loss': 15.568452835083008, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9973261952400208, 'entropy': 3.4983694553375244, 'cur_lr': 4.999999873689376e-05, 'total_loss': 15.454118728637695}, 'load_time_ms': 0.698, 'num_steps_sampled': 2793600, 'grad_time_ms': 736.064, 'update_time_ms': 2.287, 'sample_time_ms': 34900.942}",2025-08-31_12-57-17,cda-server-4,35.65281629562378,13968,1756637837,10.157.146.4,False,74771.43879890442,1200
+2329,-605.9385678185303,2329,2794800,{},-690.3635759723771,2794800,0,74806.05792045593,-522.1075075321137,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2794800, 'default': {'kl': 0.008002575486898422, 'policy_loss': -0.11550866067409515, 'vf_loss': 163.0324249267578, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9910023212432861, 'entropy': 3.6036524772644043, 'cur_lr': 4.999999873689376e-05, 'total_loss': 162.9290771484375}, 'load_time_ms': 0.662, 'num_steps_sampled': 2794800, 'grad_time_ms': 736.219, 'update_time_ms': 2.327, 'sample_time_ms': 34809.993}",2025-08-31_12-57-51,cda-server-4,34.61912155151367,13974,1756637871,10.157.146.4,False,74806.05792045593,1200
+2330,-606.1136590320401,2330,2796000,{},-690.3635759723771,2796000,0,74842.12437319756,-522.1075075321137,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2796000, 'default': {'kl': 0.009106134064495564, 'policy_loss': -0.1348980814218521, 'vf_loss': 192.515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9797216057777405, 'entropy': 3.7494163513183594, 'cur_lr': 4.999999873689376e-05, 'total_loss': 192.39456176757812}, 'load_time_ms': 0.628, 'num_steps_sampled': 2796000, 'grad_time_ms': 736.134, 'update_time_ms': 2.397, 'sample_time_ms': 34891.841}",2025-08-31_12-58-27,cda-server-4,36.066452741622925,13980,1756637907,10.157.146.4,False,74842.12437319756,1200
+2331,-606.4328022664571,2331,2797200,{},-690.3635759723771,2797200,0,74878.37492537498,-522.1075075321137,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2797200, 'default': {'kl': 0.009991503320634365, 'policy_loss': -0.1274276226758957, 'vf_loss': 208.25442504882812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9818127155303955, 'entropy': 3.619295358657837, 'cur_lr': 4.999999873689376e-05, 'total_loss': 208.14219665527344}, 'load_time_ms': 0.641, 'num_steps_sampled': 2797200, 'grad_time_ms': 740.035, 'update_time_ms': 2.486, 'sample_time_ms': 34942.019}",2025-08-31_12-59-04,cda-server-4,36.2505521774292,13986,1756637944,10.157.146.4,False,74878.37492537498,1200
+2332,-605.8177891499437,2332,2798400,{},-690.3635759723771,2798400,0,74913.73677611351,-522.1075075321137,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2798400, 'default': {'kl': 0.011537490412592888, 'policy_loss': -0.1491255760192871, 'vf_loss': 102.92648315429688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9869279861450195, 'entropy': 3.5356783866882324, 'cur_lr': 4.999999873689376e-05, 'total_loss': 102.79488372802734}, 'load_time_ms': 0.67, 'num_steps_sampled': 2798400, 'grad_time_ms': 737.672, 'update_time_ms': 2.487, 'sample_time_ms': 34996.717}",2025-08-31_12-59-39,cda-server-4,35.36185073852539,13992,1756637979,10.157.146.4,False,74913.73677611351,1200
+2333,-606.2698320658194,2333,2799600,{},-690.3635759723771,2799600,0,74949.68949437141,-522.1075075321137,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2799600, 'default': {'kl': 0.007502966560423374, 'policy_loss': -0.1081228256225586, 'vf_loss': 142.06082153320312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9783040285110474, 'entropy': 3.68496036529541, 'cur_lr': 4.999999873689376e-05, 'total_loss': 141.96409606933594}, 'load_time_ms': 0.665, 'num_steps_sampled': 2799600, 'grad_time_ms': 736.341, 'update_time_ms': 2.458, 'sample_time_ms': 34921.857}",2025-08-31_13-00-15,cda-server-4,35.95271825790405,13998,1756638015,10.157.146.4,False,74949.68949437141,1200
+2334,-607.0458061524773,2334,2800800,{},-690.3635759723771,2800800,0,74984.90329623222,-522.1075075321137,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2800800, 'default': {'kl': 0.008534921333193779, 'policy_loss': -0.13979238271713257, 'vf_loss': 262.92205810546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9756402969360352, 'entropy': 3.6818737983703613, 'cur_lr': 4.999999873689376e-05, 'total_loss': 262.7952575683594}, 'load_time_ms': 0.656, 'num_steps_sampled': 2800800, 'grad_time_ms': 730.526, 'update_time_ms': 2.544, 'sample_time_ms': 34872.59}",2025-08-31_13-00-50,cda-server-4,35.213801860809326,14004,1756638050,10.157.146.4,False,74984.90329623222,1200
+2335,-605.6140050309048,2335,2802000,{},-664.1374172230038,2802000,0,75020.10860610008,-522.1075075321137,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2802000, 'default': {'kl': 0.009531433694064617, 'policy_loss': -0.13847793638706207, 'vf_loss': 111.29782104492188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9832687377929688, 'entropy': 3.6820318698883057, 'cur_lr': 4.999999873689376e-05, 'total_loss': 111.17382049560547}, 'load_time_ms': 0.655, 'num_steps_sampled': 2802000, 'grad_time_ms': 727.433, 'update_time_ms': 2.468, 'sample_time_ms': 34896.079}",2025-08-31_13-01-26,cda-server-4,35.20530986785889,14010,1756638086,10.157.146.4,False,75020.10860610008,1200
+2336,-606.0678462014365,2336,2803200,{},-664.1374172230038,2803200,0,75055.48857736588,-522.1075075321137,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2803200, 'default': {'kl': 0.010043938644230366, 'policy_loss': -0.12877798080444336, 'vf_loss': 227.7991485595703, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9796128869056702, 'entropy': 3.6988131999969482, 'cur_lr': 4.999999873689376e-05, 'total_loss': 227.6856231689453}, 'load_time_ms': 0.668, 'num_steps_sampled': 2803200, 'grad_time_ms': 723.844, 'update_time_ms': 2.497, 'sample_time_ms': 34876.408}",2025-08-31_13-02-01,cda-server-4,35.37997126579285,14016,1756638121,10.157.146.4,False,75055.48857736588,1200
+2337,-607.6944357426677,2337,2804400,{},-664.1374172230038,2804400,0,75091.95379066467,-528.4318625866853,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2804400, 'default': {'kl': 0.009873950853943825, 'policy_loss': -0.13563700020313263, 'vf_loss': 258.8172607421875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9625628590583801, 'entropy': 3.6695642471313477, 'cur_lr': 4.999999873689376e-05, 'total_loss': 258.69659423828125}, 'load_time_ms': 0.699, 'num_steps_sampled': 2804400, 'grad_time_ms': 721.599, 'update_time_ms': 2.495, 'sample_time_ms': 34887.744}",2025-08-31_13-02-37,cda-server-4,36.46521329879761,14022,1756638157,10.157.146.4,False,75091.95379066467,1200
+2338,-608.1602753290283,2338,2805600,{},-664.1374172230038,2805600,0,75127.35882520676,-528.4318625866853,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2805600, 'default': {'kl': 0.011585269123315811, 'policy_loss': -0.14967291057109833, 'vf_loss': 59.55715560913086, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9938938617706299, 'entropy': 3.624393939971924, 'cur_lr': 4.999999873689376e-05, 'total_loss': 59.42507553100586}, 'load_time_ms': 0.696, 'num_steps_sampled': 2805600, 'grad_time_ms': 719.702, 'update_time_ms': 2.551, 'sample_time_ms': 34864.698}",2025-08-31_13-03-13,cda-server-4,35.40503454208374,14028,1756638193,10.157.146.4,False,75127.35882520676,1200
+2339,-608.198478129741,2339,2806800,{},-664.1374172230038,2806800,0,75163.78088951111,-528.4318625866853,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2806800, 'default': {'kl': 0.010395560413599014, 'policy_loss': -0.13234132528305054, 'vf_loss': 342.3361511230469, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9701794385910034, 'entropy': 3.7496578693389893, 'cur_lr': 4.999999873689376e-05, 'total_loss': 342.2196044921875}, 'load_time_ms': 0.704, 'num_steps_sampled': 2806800, 'grad_time_ms': 719.256, 'update_time_ms': 2.542, 'sample_time_ms': 35045.448}",2025-08-31_13-03-49,cda-server-4,36.42206430435181,14034,1756638229,10.157.146.4,False,75163.78088951111,1200
+2340,-608.0417259768182,2340,2808000,{},-645.3111269026401,2808000,0,75198.8290219307,-528.4318625866853,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2808000, 'default': {'kl': 0.011244344525039196, 'policy_loss': -0.13780413568019867, 'vf_loss': 87.16547393798828, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9925046563148499, 'entropy': 3.6267597675323486, 'cur_lr': 4.999999873689376e-05, 'total_loss': 87.04474639892578}, 'load_time_ms': 0.741, 'num_steps_sampled': 2808000, 'grad_time_ms': 717.208, 'update_time_ms': 2.474, 'sample_time_ms': 34945.704}",2025-08-31_13-04-24,cda-server-4,35.04813241958618,14040,1756638264,10.157.146.4,False,75198.8290219307,1200
+2341,-607.5836653850216,2341,2809200,{},-645.3111269026401,2809200,0,75234.85454273224,-528.4318625866853,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2809200, 'default': {'kl': 0.010565800592303276, 'policy_loss': -0.14560356736183167, 'vf_loss': 45.40784454345703, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9941167831420898, 'entropy': 3.646732807159424, 'cur_lr': 4.999999873689376e-05, 'total_loss': 45.27828598022461}, 'load_time_ms': 0.727, 'num_steps_sampled': 2809200, 'grad_time_ms': 714.997, 'update_time_ms': 2.383, 'sample_time_ms': 34925.483}",2025-08-31_13-05-00,cda-server-4,36.02552080154419,14046,1756638300,10.157.146.4,False,75234.85454273224,1200
+2342,-609.6154533306135,2342,2810400,{},-775.7070369868308,2810400,0,75269.94395589828,-528.4318625866853,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2810400, 'default': {'kl': 0.012668682262301445, 'policy_loss': -0.1529165804386139, 'vf_loss': 722.0281372070312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.953912079334259, 'entropy': 3.9627370834350586, 'cur_lr': 4.999999873689376e-05, 'total_loss': 721.89453125}, 'load_time_ms': 0.695, 'num_steps_sampled': 2810400, 'grad_time_ms': 719.096, 'update_time_ms': 2.408, 'sample_time_ms': 34894.089}",2025-08-31_13-05-36,cda-server-4,35.08941316604614,14052,1756638336,10.157.146.4,False,75269.94395589828,1200
+2343,-609.4823515137435,2343,2811600,{},-775.7070369868308,2811600,0,75304.77633309364,-528.4318625866853,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2811600, 'default': {'kl': 0.009342172183096409, 'policy_loss': -0.12561249732971191, 'vf_loss': 227.8728790283203, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9743146896362305, 'entropy': 3.6048707962036133, 'cur_lr': 4.999999873689376e-05, 'total_loss': 227.76144409179688}, 'load_time_ms': 0.722, 'num_steps_sampled': 2811600, 'grad_time_ms': 717.887, 'update_time_ms': 2.393, 'sample_time_ms': 34783.195}",2025-08-31_13-06-10,cda-server-4,34.832377195358276,14058,1756638370,10.157.146.4,False,75304.77633309364,1200
+2344,-609.9116947789315,2344,2812800,{},-775.7070369868308,2812800,0,75341.55732178688,-528.4318625866853,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2812800, 'default': {'kl': 0.009104141965508461, 'policy_loss': -0.12773294746875763, 'vf_loss': 156.90097045898438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9806515574455261, 'entropy': 3.5833559036254883, 'cur_lr': 4.999999873689376e-05, 'total_loss': 156.78704833984375}, 'load_time_ms': 0.729, 'num_steps_sampled': 2812800, 'grad_time_ms': 721.912, 'update_time_ms': 2.364, 'sample_time_ms': 34935.965}",2025-08-31_13-06-47,cda-server-4,36.780988693237305,14064,1756638407,10.157.146.4,False,75341.55732178688,1200
+2345,-611.4973024114327,2345,2814000,{},-775.7070369868308,2814000,0,75377.91449856758,-557.828978591629,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2814000, 'default': {'kl': 0.011480903252959251, 'policy_loss': -0.13558241724967957, 'vf_loss': 53.71708679199219, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9937835335731506, 'entropy': 3.6560757160186768, 'cur_lr': 4.999999873689376e-05, 'total_loss': 53.59893798828125}, 'load_time_ms': 0.748, 'num_steps_sampled': 2814000, 'grad_time_ms': 723.718, 'update_time_ms': 2.454, 'sample_time_ms': 35049.204}",2025-08-31_13-07-24,cda-server-4,36.357176780700684,14070,1756638444,10.157.146.4,False,75377.91449856758,1200
+2346,-613.9742814256647,2346,2815200,{},-794.8574656312059,2815200,0,75413.46947264671,-557.828978591629,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2815200, 'default': {'kl': 0.010846646502614021, 'policy_loss': -0.12287727743387222, 'vf_loss': 314.6903991699219, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9643104076385498, 'entropy': 4.04691219329834, 'cur_lr': 4.999999873689376e-05, 'total_loss': 314.5839538574219}, 'load_time_ms': 0.713, 'num_steps_sampled': 2815200, 'grad_time_ms': 726.473, 'update_time_ms': 2.484, 'sample_time_ms': 35063.944}",2025-08-31_13-07-59,cda-server-4,35.55497407913208,14076,1756638479,10.157.146.4,False,75413.46947264671,1200
+2347,-614.060360472288,2347,2816400,{},-794.8574656312059,2816400,0,75449.1299226284,-557.828978591629,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2816400, 'default': {'kl': 0.00987384095788002, 'policy_loss': -0.1267826408147812, 'vf_loss': 132.47174072265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9859803318977356, 'entropy': 3.4762983322143555, 'cur_lr': 4.999999873689376e-05, 'total_loss': 132.35995483398438}, 'load_time_ms': 0.676, 'num_steps_sampled': 2816400, 'grad_time_ms': 716.702, 'update_time_ms': 2.57, 'sample_time_ms': 34993.153}",2025-08-31_13-08-35,cda-server-4,35.66044998168945,14082,1756638515,10.157.146.4,False,75449.1299226284,1200
+2348,-613.162959324537,2348,2817600,{},-794.8574656312059,2817600,0,75484.89762163162,-525.5188206585806,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2817600, 'default': {'kl': 0.009488541632890701, 'policy_loss': -0.12674419581890106, 'vf_loss': 242.02671813964844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9762833714485168, 'entropy': 3.5283212661743164, 'cur_lr': 4.999999873689376e-05, 'total_loss': 241.9143829345703}, 'load_time_ms': 0.671, 'num_steps_sampled': 2817600, 'grad_time_ms': 709.897, 'update_time_ms': 2.594, 'sample_time_ms': 35036.299}",2025-08-31_13-09-11,cda-server-4,35.767699003219604,14088,1756638551,10.157.146.4,False,75484.89762163162,1200
+2349,-615.8211585309996,2349,2818800,{},-794.8574656312059,2818800,0,75520.93960881233,-525.5188206585806,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2818800, 'default': {'kl': 0.01123746670782566, 'policy_loss': -0.13971646130084991, 'vf_loss': 460.4410705566406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9599289298057556, 'entropy': 3.952745199203491, 'cur_lr': 4.999999873689376e-05, 'total_loss': 460.31842041015625}, 'load_time_ms': 0.658, 'num_steps_sampled': 2818800, 'grad_time_ms': 700.92, 'update_time_ms': 2.602, 'sample_time_ms': 35007.304}",2025-08-31_13-09-47,cda-server-4,36.04198718070984,14094,1756638587,10.157.146.4,False,75520.93960881233,1200
+2350,-615.145763551192,2350,2820000,{},-794.8574656312059,2820000,0,75556.25160503387,-525.5188206585806,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2820000, 'default': {'kl': 0.009330613538622856, 'policy_loss': -0.11371159553527832, 'vf_loss': 31.155982971191406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9952030181884766, 'entropy': 3.500936508178711, 'cur_lr': 4.999999873689376e-05, 'total_loss': 31.056440353393555}, 'load_time_ms': 0.659, 'num_steps_sampled': 2820000, 'grad_time_ms': 702.001, 'update_time_ms': 2.621, 'sample_time_ms': 35032.586}",2025-08-31_13-10-22,cda-server-4,35.31199622154236,14100,1756638622,10.157.146.4,False,75556.25160503387,1200
+2351,-614.6572369661967,2351,2821200,{},-794.8574656312059,2821200,0,75591.6105761528,-525.5188206585806,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2821200, 'default': {'kl': 0.010726033709943295, 'policy_loss': -0.13924574851989746, 'vf_loss': 62.51618194580078, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9947600960731506, 'entropy': 3.6372761726379395, 'cur_lr': 4.999999873689376e-05, 'total_loss': 62.39322280883789}, 'load_time_ms': 0.664, 'num_steps_sampled': 2821200, 'grad_time_ms': 703.384, 'update_time_ms': 2.633, 'sample_time_ms': 34964.563}",2025-08-31_13-10-57,cda-server-4,35.358971118927,14106,1756638657,10.157.146.4,False,75591.6105761528,1200
+2352,-615.1812882118176,2352,2822400,{},-794.8574656312059,2822400,0,75627.37673473358,-525.5188206585806,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2822400, 'default': {'kl': 0.013165290467441082, 'policy_loss': -0.16498269140720367, 'vf_loss': 223.84239196777344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9736818671226501, 'entropy': 3.820643901824951, 'cur_lr': 4.999999873689376e-05, 'total_loss': 223.69740295410156}, 'load_time_ms': 0.697, 'num_steps_sampled': 2822400, 'grad_time_ms': 704.87, 'update_time_ms': 2.551, 'sample_time_ms': 35030.879}",2025-08-31_13-11-33,cda-server-4,35.76615858078003,14112,1756638693,10.157.146.4,False,75627.37673473358,1200
+2353,-614.4977606671629,2353,2823600,{},-794.8574656312059,2823600,0,75661.94069385529,-525.5188206585806,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2823600, 'default': {'kl': 0.009090812876820564, 'policy_loss': -0.13882741332054138, 'vf_loss': 85.6197509765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9920758008956909, 'entropy': 3.5596988201141357, 'cur_lr': 4.999999873689376e-05, 'total_loss': 85.49472045898438}, 'load_time_ms': 0.665, 'num_steps_sampled': 2823600, 'grad_time_ms': 707.39, 'update_time_ms': 2.538, 'sample_time_ms': 35001.554}",2025-08-31_13-12-08,cda-server-4,34.5639591217041,14118,1756638728,10.157.146.4,False,75661.94069385529,1200
+2354,-614.2290140536192,2354,2824800,{},-794.8574656312059,2824800,0,75698.36334657669,-525.5188206585806,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2824800, 'default': {'kl': 0.012157931923866272, 'policy_loss': -0.1457652896642685, 'vf_loss': 241.79359436035156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9808048605918884, 'entropy': 3.732255220413208, 'cur_lr': 4.999999873689376e-05, 'total_loss': 241.66629028320312}, 'load_time_ms': 0.666, 'num_steps_sampled': 2824800, 'grad_time_ms': 707.178, 'update_time_ms': 2.504, 'sample_time_ms': 34966.021}",2025-08-31_13-12-44,cda-server-4,36.42265272140503,14124,1756638764,10.157.146.4,False,75698.36334657669,1200
+2355,-613.9556978529097,2355,2826000,{},-794.8574656312059,2826000,0,75734.04571795464,-525.5188206585806,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2826000, 'default': {'kl': 0.010228092782199383, 'policy_loss': -0.13375195860862732, 'vf_loss': 114.93160247802734, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9840571880340576, 'entropy': 3.480113983154297, 'cur_lr': 4.999999873689376e-05, 'total_loss': 114.81339263916016}, 'load_time_ms': 0.642, 'num_steps_sampled': 2826000, 'grad_time_ms': 707.156, 'update_time_ms': 2.364, 'sample_time_ms': 34898.863}",2025-08-31_13-13-20,cda-server-4,35.682371377944946,14130,1756638800,10.157.146.4,False,75734.04571795464,1200
+2356,-613.6435733920885,2356,2827200,{},-794.8574656312059,2827200,0,75768.72619271278,-525.5188206585806,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2827200, 'default': {'kl': 0.010493765585124493, 'policy_loss': -0.13507792353630066, 'vf_loss': 83.87479400634766, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9902710318565369, 'entropy': 3.4904279708862305, 'cur_lr': 4.999999873689376e-05, 'total_loss': 83.75565338134766}, 'load_time_ms': 0.692, 'num_steps_sampled': 2827200, 'grad_time_ms': 705.891, 'update_time_ms': 2.356, 'sample_time_ms': 34812.719}",2025-08-31_13-13-55,cda-server-4,34.68047475814819,14136,1756638835,10.157.146.4,False,75768.72619271278,1200
+2357,-613.0069221366879,2357,2828400,{},-794.8574656312059,2828400,0,75804.14509487152,-525.5188206585806,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2828400, 'default': {'kl': 0.010447543114423752, 'policy_loss': -0.13595087826251984, 'vf_loss': 70.085693359375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9927098155021667, 'entropy': 3.567678689956665, 'cur_lr': 4.999999873689376e-05, 'total_loss': 69.96560668945312}, 'load_time_ms': 0.712, 'num_steps_sampled': 2828400, 'grad_time_ms': 714.704, 'update_time_ms': 2.221, 'sample_time_ms': 34779.984}",2025-08-31_13-14-30,cda-server-4,35.41890215873718,14142,1756638870,10.157.146.4,False,75804.14509487152,1200
+2358,-613.292948666724,2358,2829600,{},-794.8574656312059,2829600,0,75840.37333846092,-525.5188206585806,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2829600, 'default': {'kl': 0.011718625202775002, 'policy_loss': -0.1349896341562271, 'vf_loss': 175.59375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9818652272224426, 'entropy': 3.618746757507324, 'cur_lr': 4.999999873689376e-05, 'total_loss': 175.4765625}, 'load_time_ms': 0.723, 'num_steps_sampled': 2829600, 'grad_time_ms': 716.469, 'update_time_ms': 2.132, 'sample_time_ms': 34824.277}",2025-08-31_13-15-06,cda-server-4,36.228243589401245,14148,1756638906,10.157.146.4,False,75840.37333846092,1200
+2359,-611.5185184049604,2359,2830800,{},-794.8574656312059,2830800,0,75875.81013274193,-525.5188206585806,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2830800, 'default': {'kl': 0.010197311639785767, 'policy_loss': -0.13277408480644226, 'vf_loss': 152.61407470703125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9824088215827942, 'entropy': 3.6761229038238525, 'cur_lr': 4.999999873689376e-05, 'total_loss': 152.49676513671875}, 'load_time_ms': 0.728, 'num_steps_sampled': 2830800, 'grad_time_ms': 725.813, 'update_time_ms': 2.095, 'sample_time_ms': 34754.434}",2025-08-31_13-15-42,cda-server-4,35.43679428100586,14154,1756638942,10.157.146.4,False,75875.81013274193,1200
+2360,-611.5352231116887,2360,2832000,{},-794.8574656312059,2832000,0,75910.95891737938,-525.5188206585806,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2832000, 'default': {'kl': 0.00956546701490879, 'policy_loss': -0.12641090154647827, 'vf_loss': 162.55300903320312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9803683757781982, 'entropy': 3.619645118713379, 'cur_lr': 4.999999873689376e-05, 'total_loss': 162.44113159179688}, 'load_time_ms': 0.697, 'num_steps_sampled': 2832000, 'grad_time_ms': 727.015, 'update_time_ms': 2.111, 'sample_time_ms': 34736.958}",2025-08-31_13-16-17,cda-server-4,35.14878463745117,14160,1756638977,10.157.146.4,False,75910.95891737938,1200
+2361,-611.5048033941258,2361,2833200,{},-794.8574656312059,2833200,0,75946.95653605461,-525.5188206585806,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2833200, 'default': {'kl': 0.009709790349006653, 'policy_loss': -0.130592480301857, 'vf_loss': 96.77835845947266, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9901467561721802, 'entropy': 3.495511054992676, 'cur_lr': 4.999999873689376e-05, 'total_loss': 96.66251373291016}, 'load_time_ms': 0.693, 'num_steps_sampled': 2833200, 'grad_time_ms': 729.059, 'update_time_ms': 2.104, 'sample_time_ms': 34798.709}",2025-08-31_13-16-53,cda-server-4,35.997618675231934,14166,1756639013,10.157.146.4,False,75946.95653605461,1200
+2362,-610.255959728158,2362,2834400,{},-794.8574656312059,2834400,0,75982.93950271606,-525.5188206585806,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2834400, 'default': {'kl': 0.01223843079060316, 'policy_loss': -0.15263451635837555, 'vf_loss': 46.169864654541016, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9950019121170044, 'entropy': 3.512784004211426, 'cur_lr': 4.999999873689376e-05, 'total_loss': 46.03581237792969}, 'load_time_ms': 0.666, 'num_steps_sampled': 2834400, 'grad_time_ms': 727.577, 'update_time_ms': 2.141, 'sample_time_ms': 34821.907}",2025-08-31_13-17-29,cda-server-4,35.98296666145325,14172,1756639049,10.157.146.4,False,75982.93950271606,1200
+2363,-608.1840985121256,2363,2835600,{},-782.9709552553641,2835600,0,76018.21242570877,-525.5188206585806,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2835600, 'default': {'kl': 0.009110182523727417, 'policy_loss': -0.13179153203964233, 'vf_loss': 124.09587860107422, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9899851679801941, 'entropy': 3.5389864444732666, 'cur_lr': 4.999999873689376e-05, 'total_loss': 123.97793579101562}, 'load_time_ms': 0.697, 'num_steps_sampled': 2835600, 'grad_time_ms': 729.037, 'update_time_ms': 2.163, 'sample_time_ms': 34891.371}",2025-08-31_13-18-04,cda-server-4,35.2729229927063,14178,1756639084,10.157.146.4,False,76018.21242570877,1200
+2364,-609.2862400896266,2364,2836800,{},-782.9709552553641,2836800,0,76053.07266163826,-558.2060438065498,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2836800, 'default': {'kl': 0.012438328936696053, 'policy_loss': -0.16261941194534302, 'vf_loss': 133.18194580078125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9874086380004883, 'entropy': 3.7091500759124756, 'cur_lr': 4.999999873689376e-05, 'total_loss': 133.03823852539062}, 'load_time_ms': 0.697, 'num_steps_sampled': 2836800, 'grad_time_ms': 732.218, 'update_time_ms': 2.094, 'sample_time_ms': 34731.93}",2025-08-31_13-18-39,cda-server-4,34.860235929489136,14184,1756639119,10.157.146.4,False,76053.07266163826,1200
+2365,-607.6685540322319,2365,2838000,{},-637.8764874714248,2838000,0,76089.02956581116,-558.2060438065498,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2838000, 'default': {'kl': 0.010161006823182106, 'policy_loss': -0.13224928081035614, 'vf_loss': 190.14520263671875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9809367060661316, 'entropy': 3.7373526096343994, 'cur_lr': 4.999999873689376e-05, 'total_loss': 190.02838134765625}, 'load_time_ms': 0.712, 'num_steps_sampled': 2838000, 'grad_time_ms': 733.74, 'update_time_ms': 2.094, 'sample_time_ms': 34757.862}",2025-08-31_13-19-15,cda-server-4,35.95690417289734,14190,1756639155,10.157.146.4,False,76089.02956581116,1200
+2366,-608.0421667477669,2366,2839200,{},-637.8764874714248,2839200,0,76124.73751568794,-558.2060438065498,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2839200, 'default': {'kl': 0.010091941803693771, 'policy_loss': -0.13161435723304749, 'vf_loss': 53.98797607421875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9965012669563293, 'entropy': 3.6898672580718994, 'cur_lr': 4.999999873689376e-05, 'total_loss': 53.87168884277344}, 'load_time_ms': 0.674, 'num_steps_sampled': 2839200, 'grad_time_ms': 736.293, 'update_time_ms': 2.058, 'sample_time_ms': 34858.106}",2025-08-31_13-19-51,cda-server-4,35.70794987678528,14196,1756639191,10.157.146.4,False,76124.73751568794,1200
+2367,-608.2762420299215,2367,2840400,{},-637.8764874714248,2840400,0,76160.05888676643,-558.2060438065498,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2840400, 'default': {'kl': 0.014520774595439434, 'policy_loss': -0.1760639250278473, 'vf_loss': 63.05609130859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9948341846466064, 'entropy': 3.755089282989502, 'cur_lr': 4.999999873689376e-05, 'total_loss': 62.90207290649414}, 'load_time_ms': 0.687, 'num_steps_sampled': 2840400, 'grad_time_ms': 739.073, 'update_time_ms': 2.109, 'sample_time_ms': 34845.412}",2025-08-31_13-20-26,cda-server-4,35.32137107849121,14202,1756639226,10.157.146.4,False,76160.05888676643,1200
+2368,-608.7104052853862,2368,2841600,{},-637.8764874714248,2841600,0,76195.49854922295,-558.2060438065498,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2841600, 'default': {'kl': 0.011545452289283276, 'policy_loss': -0.1467006355524063, 'vf_loss': 38.59194564819336, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9956383109092712, 'entropy': 3.601508617401123, 'cur_lr': 4.999999873689376e-05, 'total_loss': 38.46278381347656}, 'load_time_ms': 0.681, 'num_steps_sampled': 2841600, 'grad_time_ms': 742.837, 'update_time_ms': 2.133, 'sample_time_ms': 34762.89}",2025-08-31_13-21-02,cda-server-4,35.43966245651245,14208,1756639262,10.157.146.4,False,76195.49854922295,1200
+2369,-608.1588518086986,2369,2842800,{},-637.8764874714248,2842800,0,76231.4629945755,-558.2060438065498,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2842800, 'default': {'kl': 0.010530597530305386, 'policy_loss': -0.1329106092453003, 'vf_loss': 237.29498291015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9831852316856384, 'entropy': 3.426365852355957, 'cur_lr': 4.999999873689376e-05, 'total_loss': 237.1780548095703}, 'load_time_ms': 0.681, 'num_steps_sampled': 2842800, 'grad_time_ms': 743.233, 'update_time_ms': 2.185, 'sample_time_ms': 34815.134}",2025-08-31_13-21-37,cda-server-4,35.96444535255432,14214,1756639297,10.157.146.4,False,76231.4629945755,1200
+2370,-607.7255869586,2370,2844000,{},-637.8764874714248,2844000,0,76267.37460780144,-558.2060438065498,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2844000, 'default': {'kl': 0.010481080040335655, 'policy_loss': -0.12614044547080994, 'vf_loss': 31.50239372253418, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9953697919845581, 'entropy': 3.541083335876465, 'cur_lr': 4.999999873689376e-05, 'total_loss': 31.39217185974121}, 'load_time_ms': 0.679, 'num_steps_sampled': 2844000, 'grad_time_ms': 741.777, 'update_time_ms': 2.199, 'sample_time_ms': 34892.79}",2025-08-31_13-22-13,cda-server-4,35.91161322593689,14220,1756639333,10.157.146.4,False,76267.37460780144,1200
+2371,-608.1731139606943,2371,2845200,{},-637.8764874714248,2845200,0,76302.26137471199,-558.2060438065498,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2845200, 'default': {'kl': 0.010928639210760593, 'policy_loss': -0.1455599069595337, 'vf_loss': 108.55290222167969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.988723635673523, 'entropy': 3.507092237472534, 'cur_lr': 4.999999873689376e-05, 'total_loss': 108.42394256591797}, 'load_time_ms': 0.693, 'num_steps_sampled': 2845200, 'grad_time_ms': 738.546, 'update_time_ms': 2.194, 'sample_time_ms': 34785.004}",2025-08-31_13-22-48,cda-server-4,34.88676691055298,14226,1756639368,10.157.146.4,False,76302.26137471199,1200
+2372,-606.9823744125342,2372,2846400,{},-637.8764874714248,2846400,0,76337.90737104416,-473.7311508434335,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2846400, 'default': {'kl': 0.014996577985584736, 'policy_loss': -0.16861200332641602, 'vf_loss': 338.1968994140625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9765303134918213, 'entropy': 3.5242793560028076, 'cur_lr': 4.999999873689376e-05, 'total_loss': 338.0509948730469}, 'load_time_ms': 0.69, 'num_steps_sampled': 2846400, 'grad_time_ms': 739.487, 'update_time_ms': 2.175, 'sample_time_ms': 34750.329}",2025-08-31_13-23-24,cda-server-4,35.64599633216858,14232,1756639404,10.157.146.4,False,76337.90737104416,1200
+2373,-607.4111182183215,2373,2847600,{},-639.466010625039,2847600,0,76373.76829648018,-473.7311508434335,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2847600, 'default': {'kl': 0.010272208601236343, 'policy_loss': -0.13352347910404205, 'vf_loss': 151.56874084472656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9815777540206909, 'entropy': 3.508725881576538, 'cur_lr': 4.999999873689376e-05, 'total_loss': 151.4508056640625}, 'load_time_ms': 0.689, 'num_steps_sampled': 2847600, 'grad_time_ms': 738.555, 'update_time_ms': 2.208, 'sample_time_ms': 34809.973}",2025-08-31_13-24-00,cda-server-4,35.8609254360199,14238,1756639440,10.157.146.4,False,76373.76829648018,1200
+2374,-607.7197737747011,2374,2848800,{},-639.466010625039,2848800,0,76408.84403967857,-473.7311508434335,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2848800, 'default': {'kl': 0.011980720795691013, 'policy_loss': -0.1482519656419754, 'vf_loss': 26.748117446899414, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9964839220046997, 'entropy': 3.4950320720672607, 'cur_lr': 4.999999873689376e-05, 'total_loss': 26.618061065673828}, 'load_time_ms': 0.691, 'num_steps_sampled': 2848800, 'grad_time_ms': 736.657, 'update_time_ms': 2.309, 'sample_time_ms': 34833.384}",2025-08-31_13-24-35,cda-server-4,35.075743198394775,14244,1756639475,10.157.146.4,False,76408.84403967857,1200
+2375,-607.0399468800118,2375,2850000,{},-639.466010625039,2850000,0,76444.254727602,-473.7311508434335,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2850000, 'default': {'kl': 0.012358075007796288, 'policy_loss': -0.1528671681880951, 'vf_loss': 127.52833557128906, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9847468137741089, 'entropy': 3.6382174491882324, 'cur_lr': 4.999999873689376e-05, 'total_loss': 127.39423370361328}, 'load_time_ms': 0.673, 'num_steps_sampled': 2850000, 'grad_time_ms': 733.335, 'update_time_ms': 2.37, 'sample_time_ms': 34782.026}",2025-08-31_13-25-10,cda-server-4,35.4106879234314,14250,1756639510,10.157.146.4,False,76444.254727602,1200
+2376,-606.7468488415519,2376,2851200,{},-639.466010625039,2851200,0,76479.97266888618,-473.7311508434335,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2851200, 'default': {'kl': 0.010835344903171062, 'policy_loss': -0.13261333107948303, 'vf_loss': 52.794254302978516, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9911748170852661, 'entropy': 3.4398508071899414, 'cur_lr': 4.999999873689376e-05, 'total_loss': 52.678096771240234}, 'load_time_ms': 0.669, 'num_steps_sampled': 2851200, 'grad_time_ms': 732.49, 'update_time_ms': 2.347, 'sample_time_ms': 34783.813}",2025-08-31_13-25-46,cda-server-4,35.71794128417969,14256,1756639546,10.157.146.4,False,76479.97266888618,1200
+2377,-606.2476356882551,2377,2852400,{},-639.466010625039,2852400,0,76515.22410798073,-473.7311508434335,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2852400, 'default': {'kl': 0.01162625104188919, 'policy_loss': -0.1517602801322937, 'vf_loss': 120.30084991455078, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9860520958900452, 'entropy': 3.5440752506256104, 'cur_lr': 4.999999873689376e-05, 'total_loss': 120.16673278808594}, 'load_time_ms': 0.639, 'num_steps_sampled': 2852400, 'grad_time_ms': 730.976, 'update_time_ms': 2.327, 'sample_time_ms': 34778.417}",2025-08-31_13-26-21,cda-server-4,35.25143909454346,14262,1756639581,10.157.146.4,False,76515.22410798073,1200
+2378,-605.471196255949,2378,2853600,{},-639.466010625039,2853600,0,76550.33413362503,-473.7311508434335,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2853600, 'default': {'kl': 0.00929866824299097, 'policy_loss': -0.14312118291854858, 'vf_loss': 155.3954620361328, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.982039749622345, 'entropy': 3.6398799419403076, 'cur_lr': 4.999999873689376e-05, 'total_loss': 155.2664337158203}, 'load_time_ms': 0.635, 'num_steps_sampled': 2853600, 'grad_time_ms': 731.618, 'update_time_ms': 2.398, 'sample_time_ms': 34744.688}",2025-08-31_13-26-57,cda-server-4,35.11002564430237,14268,1756639617,10.157.146.4,False,76550.33413362503,1200
+2379,-606.1560487701777,2379,2854800,{},-639.466010625039,2854800,0,76586.31107854843,-473.7311508434335,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2854800, 'default': {'kl': 0.008312683552503586, 'policy_loss': -0.11898466944694519, 'vf_loss': 128.7711181640625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9887669086456299, 'entropy': 3.5905346870422363, 'cur_lr': 4.999999873689376e-05, 'total_loss': 128.6647491455078}, 'load_time_ms': 0.643, 'num_steps_sampled': 2854800, 'grad_time_ms': 730.163, 'update_time_ms': 2.41, 'sample_time_ms': 34747.409}",2025-08-31_13-27-33,cda-server-4,35.97694492340088,14274,1756639653,10.157.146.4,False,76586.31107854843,1200
+2380,-606.4521356084923,2380,2856000,{},-639.466010625039,2856000,0,76622.02448368073,-473.7311508434335,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2856000, 'default': {'kl': 0.008606219664216042, 'policy_loss': -0.12692689895629883, 'vf_loss': 215.8399658203125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9638528823852539, 'entropy': 3.55128812789917, 'cur_lr': 4.999999873689376e-05, 'total_loss': 215.72613525390625}, 'load_time_ms': 0.677, 'num_steps_sampled': 2856000, 'grad_time_ms': 728.446, 'update_time_ms': 2.385, 'sample_time_ms': 34729.307}",2025-08-31_13-28-08,cda-server-4,35.7134051322937,14280,1756639688,10.157.146.4,False,76622.02448368073,1200
+2381,-605.9514314882067,2381,2857200,{},-639.466010625039,2857200,0,76657.19634389877,-473.7311508434335,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2857200, 'default': {'kl': 0.010483039543032646, 'policy_loss': -0.1464763879776001, 'vf_loss': 124.72251892089844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9876617789268494, 'entropy': 3.5608088970184326, 'cur_lr': 4.999999873689376e-05, 'total_loss': 124.59195709228516}, 'load_time_ms': 0.667, 'num_steps_sampled': 2857200, 'grad_time_ms': 730.48, 'update_time_ms': 2.423, 'sample_time_ms': 34755.739}",2025-08-31_13-28-44,cda-server-4,35.171860218048096,14286,1756639724,10.157.146.4,False,76657.19634389877,1200
+2382,-604.977388360751,2382,2858400,{},-639.466010625039,2858400,0,76693.20090961456,-473.7311508434335,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2858400, 'default': {'kl': 0.011053427122533321, 'policy_loss': -0.12904685735702515, 'vf_loss': 152.93446350097656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9759742021560669, 'entropy': 3.5178658962249756, 'cur_lr': 4.999999873689376e-05, 'total_loss': 152.82220458984375}, 'load_time_ms': 0.668, 'num_steps_sampled': 2858400, 'grad_time_ms': 729.695, 'update_time_ms': 2.42, 'sample_time_ms': 34792.436}",2025-08-31_13-29-20,cda-server-4,36.004565715789795,14292,1756639760,10.157.146.4,False,76693.20090961456,1200
+2383,-604.610700482624,2383,2859600,{},-639.466010625039,2859600,0,76728.78150224686,-473.7311508434335,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2859600, 'default': {'kl': 0.009786888025701046, 'policy_loss': -0.14296098053455353, 'vf_loss': 142.74203491210938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.980518102645874, 'entropy': 3.597829580307007, 'cur_lr': 4.999999873689376e-05, 'total_loss': 142.61395263671875}, 'load_time_ms': 0.655, 'num_steps_sampled': 2859600, 'grad_time_ms': 729.838, 'update_time_ms': 2.478, 'sample_time_ms': 34764.29}",2025-08-31_13-29-55,cda-server-4,35.5805926322937,14298,1756639795,10.157.146.4,False,76728.78150224686,1200
+2384,-602.9252917524647,2384,2860800,{},-639.466010625039,2860800,0,76764.0062391758,-473.7311508434335,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2860800, 'default': {'kl': 0.011253707110881805, 'policy_loss': -0.15745000541210175, 'vf_loss': 195.05345153808594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9762852191925049, 'entropy': 3.5122528076171875, 'cur_lr': 4.999999873689376e-05, 'total_loss': 194.9130859375}, 'load_time_ms': 0.689, 'num_steps_sampled': 2860800, 'grad_time_ms': 731.665, 'update_time_ms': 2.553, 'sample_time_ms': 34777.239}",2025-08-31_13-30-30,cda-server-4,35.22473692893982,14304,1756639830,10.157.146.4,False,76764.0062391758,1200
+2385,-602.364813956237,2385,2862000,{},-639.466010625039,2862000,0,76799.07276940346,-473.7311508434335,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2862000, 'default': {'kl': 0.010536721907556057, 'policy_loss': -0.14859355986118317, 'vf_loss': 456.0344543457031, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9780255556106567, 'entropy': 3.6864802837371826, 'cur_lr': 4.999999873689376e-05, 'total_loss': 455.90185546875}, 'load_time_ms': 0.688, 'num_steps_sampled': 2862000, 'grad_time_ms': 735.574, 'update_time_ms': 2.538, 'sample_time_ms': 34738.97}",2025-08-31_13-31-05,cda-server-4,35.06653022766113,14310,1756639865,10.157.146.4,False,76799.07276940346,1200
+2386,-603.463732376925,2386,2863200,{},-781.5350583275901,2863200,0,76835.41097736359,-463.50456114204286,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2863200, 'default': {'kl': 0.010915388353168964, 'policy_loss': -0.1487153023481369, 'vf_loss': 379.2909851074219, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9716331958770752, 'entropy': 3.852044105529785, 'cur_lr': 4.999999873689376e-05, 'total_loss': 379.15887451171875}, 'load_time_ms': 0.684, 'num_steps_sampled': 2863200, 'grad_time_ms': 735.989, 'update_time_ms': 2.564, 'sample_time_ms': 34800.646}",2025-08-31_13-31-42,cda-server-4,36.338207960128784,14316,1756639902,10.157.146.4,False,76835.41097736359,1200
+2387,-604.3694094399006,2387,2864400,{},-781.5350583275901,2864400,0,76871.11539888382,-463.50456114204286,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2864400, 'default': {'kl': 0.01438998058438301, 'policy_loss': -0.1597743034362793, 'vf_loss': 107.38699340820312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9910595417022705, 'entropy': 3.603126049041748, 'cur_lr': 4.999999873689376e-05, 'total_loss': 107.24907684326172}, 'load_time_ms': 0.702, 'num_steps_sampled': 2864400, 'grad_time_ms': 738.174, 'update_time_ms': 2.522, 'sample_time_ms': 34843.809}",2025-08-31_13-32-18,cda-server-4,35.704421520233154,14322,1756639938,10.157.146.4,False,76871.11539888382,1200
+2388,-606.2759437357585,2388,2865600,{},-781.5350583275901,2865600,0,76905.91442799568,-463.50456114204286,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2865600, 'default': {'kl': 0.010167581960558891, 'policy_loss': -0.13509415090084076, 'vf_loss': 302.47674560546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9656340479850769, 'entropy': 3.8627383708953857, 'cur_lr': 4.999999873689376e-05, 'total_loss': 302.35711669921875}, 'load_time_ms': 0.705, 'num_steps_sampled': 2865600, 'grad_time_ms': 739.283, 'update_time_ms': 2.422, 'sample_time_ms': 34811.678}",2025-08-31_13-32-52,cda-server-4,34.79902911186218,14328,1756639972,10.157.146.4,False,76905.91442799568,1200
+2389,-608.4901239553453,2389,2866800,{},-781.5350583275901,2866800,0,76941.67200660706,-463.50456114204286,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2866800, 'default': {'kl': 0.010789932683110237, 'policy_loss': -0.14716969430446625, 'vf_loss': 74.8873291015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9940145015716553, 'entropy': 3.728710651397705, 'cur_lr': 4.999999873689376e-05, 'total_loss': 74.75655364990234}, 'load_time_ms': 0.701, 'num_steps_sampled': 2866800, 'grad_time_ms': 740.221, 'update_time_ms': 2.408, 'sample_time_ms': 34788.843}",2025-08-31_13-33-28,cda-server-4,35.7575786113739,14334,1756640008,10.157.146.4,False,76941.67200660706,1200
+2390,-607.5575464465405,2390,2868000,{},-781.5350583275901,2868000,0,76977.46868276596,-463.50456114204286,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2868000, 'default': {'kl': 0.00985369086265564, 'policy_loss': -0.11458683013916016, 'vf_loss': 228.12628173828125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9862267374992371, 'entropy': 3.3975636959075928, 'cur_lr': 4.999999873689376e-05, 'total_loss': 228.02664184570312}, 'load_time_ms': 0.669, 'num_steps_sampled': 2868000, 'grad_time_ms': 736.356, 'update_time_ms': 2.395, 'sample_time_ms': 34801.214}",2025-08-31_13-34-04,cda-server-4,35.79667615890503,14340,1756640044,10.157.146.4,False,76977.46868276596,1200
+2391,-607.3099708324937,2391,2869200,{},-781.5350583275901,2869200,0,77012.55619192123,-463.50456114204286,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2869200, 'default': {'kl': 0.008400348015129566, 'policy_loss': -0.1166636273264885, 'vf_loss': 103.5809326171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9873520731925964, 'entropy': 3.5305445194244385, 'cur_lr': 4.999999873689376e-05, 'total_loss': 103.47702026367188}, 'load_time_ms': 0.666, 'num_steps_sampled': 2869200, 'grad_time_ms': 733.649, 'update_time_ms': 2.371, 'sample_time_ms': 34795.489}",2025-08-31_13-34-39,cda-server-4,35.08750915527344,14346,1756640079,10.157.146.4,False,77012.55619192123,1200
+2392,-607.7373102561309,2392,2870400,{},-781.5350583275901,2870400,0,77047.2792403698,-463.50456114204286,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2870400, 'default': {'kl': 0.009602759964764118, 'policy_loss': -0.11721571534872055, 'vf_loss': 173.0889434814453, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9783484935760498, 'entropy': 3.5321645736694336, 'cur_lr': 4.999999873689376e-05, 'total_loss': 172.98629760742188}, 'load_time_ms': 0.686, 'num_steps_sampled': 2870400, 'grad_time_ms': 728.518, 'update_time_ms': 2.45, 'sample_time_ms': 34672.356}",2025-08-31_13-35-14,cda-server-4,34.72304844856262,14352,1756640114,10.157.146.4,False,77047.2792403698,1200
+2393,-609.0638945043589,2393,2871600,{},-781.5350583275901,2871600,0,77082.87344288826,-463.50456114204286,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2871600, 'default': {'kl': 0.011819579638540745, 'policy_loss': -0.14673341810703278, 'vf_loss': 298.03802490234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9752976298332214, 'entropy': 3.742316722869873, 'cur_lr': 4.999999873689376e-05, 'total_loss': 297.90924072265625}, 'load_time_ms': 0.672, 'num_steps_sampled': 2871600, 'grad_time_ms': 723.406, 'update_time_ms': 2.367, 'sample_time_ms': 34678.906}",2025-08-31_13-35-49,cda-server-4,35.594202518463135,14358,1756640149,10.157.146.4,False,77082.87344288826,1200
+2394,-609.9636637948407,2394,2872800,{},-781.5350583275901,2872800,0,77118.24614214897,-463.50456114204286,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2872800, 'default': {'kl': 0.008743739686906338, 'policy_loss': -0.1307004988193512, 'vf_loss': 288.7549133300781, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9694592952728271, 'entropy': 3.7901012897491455, 'cur_lr': 4.999999873689376e-05, 'total_loss': 288.6374816894531}, 'load_time_ms': 0.638, 'num_steps_sampled': 2872800, 'grad_time_ms': 716.321, 'update_time_ms': 2.23, 'sample_time_ms': 34700.979}",2025-08-31_13-36-25,cda-server-4,35.37269926071167,14364,1756640185,10.157.146.4,False,77118.24614214897,1200
+2395,-611.1520396906197,2395,2874000,{},-781.5350583275901,2874000,0,77154.77659773827,-463.50456114204286,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2874000, 'default': {'kl': 0.010648461990058422, 'policy_loss': -0.14188773930072784, 'vf_loss': 126.08201599121094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9846174716949463, 'entropy': 3.554032802581787, 'cur_lr': 4.999999873689376e-05, 'total_loss': 125.956298828125}, 'load_time_ms': 0.646, 'num_steps_sampled': 2874000, 'grad_time_ms': 712.887, 'update_time_ms': 2.228, 'sample_time_ms': 34850.727}",2025-08-31_13-37-01,cda-server-4,36.530455589294434,14370,1756640221,10.157.146.4,False,77154.77659773827,1200
+2396,-610.0912939426765,2396,2875200,{},-781.5350583275901,2875200,0,77190.38973069191,-463.50456114204286,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2875200, 'default': {'kl': 0.011463627219200134, 'policy_loss': -0.14692480862140656, 'vf_loss': 122.55445861816406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.98841792345047, 'entropy': 3.5874791145324707, 'cur_lr': 4.999999873689376e-05, 'total_loss': 122.42495727539062}, 'load_time_ms': 0.657, 'num_steps_sampled': 2875200, 'grad_time_ms': 713.344, 'update_time_ms': 2.27, 'sample_time_ms': 34777.691}",2025-08-31_13-37-37,cda-server-4,35.6131329536438,14376,1756640257,10.157.146.4,False,77190.38973069191,1200
+2397,-610.6276486099274,2397,2876400,{},-781.5350583275901,2876400,0,77226.57136106491,-463.50456114204286,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2876400, 'default': {'kl': 0.010551814921200275, 'policy_loss': -0.14175038039684296, 'vf_loss': 146.35499572753906, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9815579652786255, 'entropy': 3.60890793800354, 'cur_lr': 4.999999873689376e-05, 'total_loss': 146.22926330566406}, 'load_time_ms': 0.669, 'num_steps_sampled': 2876400, 'grad_time_ms': 712.894, 'update_time_ms': 2.311, 'sample_time_ms': 34825.718}",2025-08-31_13-38-13,cda-server-4,36.1816303730011,14382,1756640293,10.157.146.4,False,77226.57136106491,1200
+2398,-611.4717786330857,2398,2877600,{},-781.5350583275901,2877600,0,77262.12313938141,-463.50456114204286,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2877600, 'default': {'kl': 0.011901401914656162, 'policy_loss': -0.1611957997083664, 'vf_loss': 80.7375717163086, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9953889846801758, 'entropy': 3.6086933612823486, 'cur_lr': 4.999999873689376e-05, 'total_loss': 80.59445190429688}, 'load_time_ms': 0.669, 'num_steps_sampled': 2877600, 'grad_time_ms': 711.912, 'update_time_ms': 2.328, 'sample_time_ms': 34902.068}",2025-08-31_13-38-49,cda-server-4,35.5517783164978,14388,1756640329,10.157.146.4,False,77262.12313938141,1200
+2399,-610.7233817793286,2399,2878800,{},-781.5350583275901,2878800,0,77297.65955424309,-444.2543286929469,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2878800, 'default': {'kl': 0.010857968591153622, 'policy_loss': -0.13576442003250122, 'vf_loss': 180.11888122558594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9838740229606628, 'entropy': 3.4698779582977295, 'cur_lr': 4.999999873689376e-05, 'total_loss': 179.99961853027344}, 'load_time_ms': 0.664, 'num_steps_sampled': 2878800, 'grad_time_ms': 709.855, 'update_time_ms': 2.255, 'sample_time_ms': 34881.978}",2025-08-31_13-39-24,cda-server-4,35.53641486167908,14394,1756640364,10.157.146.4,False,77297.65955424309,1200
+2400,-611.0335434622792,2400,2880000,{},-781.5350583275901,2880000,0,77333.31909298897,-444.2543286929469,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2880000, 'default': {'kl': 0.012885138392448425, 'policy_loss': -0.14551924169063568, 'vf_loss': 112.09925079345703, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9939835667610168, 'entropy': 3.587064027786255, 'cur_lr': 4.999999873689376e-05, 'total_loss': 111.97329711914062}, 'load_time_ms': 0.68, 'num_steps_sampled': 2880000, 'grad_time_ms': 713.361, 'update_time_ms': 2.33, 'sample_time_ms': 34864.605}",2025-08-31_13-40-00,cda-server-4,35.65953874588013,14400,1756640400,10.157.146.4,False,77333.31909298897,1200
+2401,-612.5540326545356,2401,2881200,{},-781.5350583275901,2881200,0,77369.05426001549,-444.2543286929469,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2881200, 'default': {'kl': 0.011330951936542988, 'policy_loss': -0.13112206757068634, 'vf_loss': 79.19525909423828, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9911988377571106, 'entropy': 3.469266176223755, 'cur_lr': 4.999999873689376e-05, 'total_loss': 79.08134460449219}, 'load_time_ms': 0.678, 'num_steps_sampled': 2881200, 'grad_time_ms': 709.63, 'update_time_ms': 2.431, 'sample_time_ms': 34933.003}",2025-08-31_13-40-36,cda-server-4,35.735167026519775,14406,1756640436,10.157.146.4,False,77369.05426001549,1200
+2402,-609.054447075855,2402,2882400,{},-766.9271369788507,2882400,0,77403.84288740158,-444.2543286929469,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2882400, 'default': {'kl': 0.01279149204492569, 'policy_loss': -0.15266121923923492, 'vf_loss': 454.5439453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9684701561927795, 'entropy': 3.580991506576538, 'cur_lr': 4.999999873689376e-05, 'total_loss': 454.41070556640625}, 'load_time_ms': 0.668, 'num_steps_sampled': 2882400, 'grad_time_ms': 709.766, 'update_time_ms': 2.419, 'sample_time_ms': 34939.4}",2025-08-31_13-41-11,cda-server-4,34.78862738609314,14412,1756640471,10.157.146.4,False,77403.84288740158,1200
+2403,-611.1516828864451,2403,2883600,{},-766.9271369788507,2883600,0,77439.04510784149,-444.2543286929469,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2883600, 'default': {'kl': 0.009606260806322098, 'policy_loss': -0.14308685064315796, 'vf_loss': 157.44805908203125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9802272319793701, 'entropy': 3.72396183013916, 'cur_lr': 4.999999873689376e-05, 'total_loss': 157.319580078125}, 'load_time_ms': 0.665, 'num_steps_sampled': 2883600, 'grad_time_ms': 711.898, 'update_time_ms': 2.389, 'sample_time_ms': 34898.106}",2025-08-31_13-41-46,cda-server-4,35.20222043991089,14418,1756640506,10.157.146.4,False,77439.04510784149,1200
+2404,-608.9362489026905,2404,2884800,{},-679.4180924814708,2884800,0,77474.74221086502,-444.2543286929469,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2884800, 'default': {'kl': 0.0128304623067379, 'policy_loss': -0.1526971310377121, 'vf_loss': 65.29745483398438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9930647611618042, 'entropy': 3.611858367919922, 'cur_lr': 4.999999873689376e-05, 'total_loss': 65.16424560546875}, 'load_time_ms': 0.668, 'num_steps_sampled': 2884800, 'grad_time_ms': 716.548, 'update_time_ms': 2.414, 'sample_time_ms': 34925.86}",2025-08-31_13-42-21,cda-server-4,35.69710302352905,14424,1756640541,10.157.146.4,False,77474.74221086502,1200
+2405,-607.9892782723141,2405,2886000,{},-679.4180924814708,2886000,0,77510.25198578835,-444.2543286929469,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2886000, 'default': {'kl': 0.010307871736586094, 'policy_loss': -0.13616593182086945, 'vf_loss': 157.7910614013672, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9881058931350708, 'entropy': 3.526231288909912, 'cur_lr': 4.999999873689376e-05, 'total_loss': 157.6705780029297}, 'load_time_ms': 0.658, 'num_steps_sampled': 2886000, 'grad_time_ms': 717.201, 'update_time_ms': 2.458, 'sample_time_ms': 34823.121}",2025-08-31_13-42-57,cda-server-4,35.509774923324585,14430,1756640577,10.157.146.4,False,77510.25198578835,1200
+2406,-608.7308816108568,2406,2887200,{},-697.8933180825372,2887200,0,77545.3712759018,-444.2543286929469,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2887200, 'default': {'kl': 0.008872661739587784, 'policy_loss': -0.12581437826156616, 'vf_loss': 674.4898681640625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9368201494216919, 'entropy': 3.7969725131988525, 'cur_lr': 4.999999873689376e-05, 'total_loss': 674.3775634765625}, 'load_time_ms': 0.648, 'num_steps_sampled': 2887200, 'grad_time_ms': 714.947, 'update_time_ms': 2.5, 'sample_time_ms': 34776.025}",2025-08-31_13-43-32,cda-server-4,35.1192901134491,14436,1756640612,10.157.146.4,False,77545.3712759018,1200
+2407,-608.7142890355858,2407,2888400,{},-697.8933180825372,2888400,0,77580.61304688454,-444.2543286929469,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2888400, 'default': {'kl': 0.010998223908245564, 'policy_loss': -0.13374409079551697, 'vf_loss': 19.33007049560547, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9971917271614075, 'entropy': 3.4344441890716553, 'cur_lr': 4.999999873689376e-05, 'total_loss': 19.213029861450195}, 'load_time_ms': 0.648, 'num_steps_sampled': 2888400, 'grad_time_ms': 713.33, 'update_time_ms': 2.527, 'sample_time_ms': 34683.66}",2025-08-31_13-44-07,cda-server-4,35.24177098274231,14442,1756640647,10.157.146.4,False,77580.61304688454,1200
+2408,-608.6886383098223,2408,2889600,{},-697.8933180825372,2889600,0,77616.36984229088,-444.2543286929469,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2889600, 'default': {'kl': 0.007642224431037903, 'policy_loss': -0.11312106996774673, 'vf_loss': 303.8415222167969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9649614691734314, 'entropy': 3.5851690769195557, 'cur_lr': 4.999999873689376e-05, 'total_loss': 303.739990234375}, 'load_time_ms': 0.648, 'num_steps_sampled': 2889600, 'grad_time_ms': 713.504, 'update_time_ms': 2.534, 'sample_time_ms': 34703.896}",2025-08-31_13-44-43,cda-server-4,35.75679540634155,14448,1756640683,10.157.146.4,False,77616.36984229088,1200
+2409,-608.4190434732777,2409,2890800,{},-697.8933180825372,2890800,0,77651.48393559456,-444.2543286929469,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2890800, 'default': {'kl': 0.0115257129073143, 'policy_loss': -0.14744152128696442, 'vf_loss': 113.96674346923828, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9887915849685669, 'entropy': 3.529142379760742, 'cur_lr': 4.999999873689376e-05, 'total_loss': 113.8367919921875}, 'load_time_ms': 0.652, 'num_steps_sampled': 2890800, 'grad_time_ms': 715.219, 'update_time_ms': 2.607, 'sample_time_ms': 34659.954}",2025-08-31_13-45-18,cda-server-4,35.11409330368042,14454,1756640718,10.157.146.4,False,77651.48393559456,1200
+2410,-608.1653167863077,2410,2892000,{},-697.8933180825372,2892000,0,77687.26703953743,-444.2543286929469,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2892000, 'default': {'kl': 0.010668993927538395, 'policy_loss': -0.12505315244197845, 'vf_loss': 104.74560546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.989788293838501, 'entropy': 3.6706907749176025, 'cur_lr': 4.999999873689376e-05, 'total_loss': 104.63674926757812}, 'load_time_ms': 0.63, 'num_steps_sampled': 2892000, 'grad_time_ms': 717.915, 'update_time_ms': 2.567, 'sample_time_ms': 34669.648}",2025-08-31_13-45-54,cda-server-4,35.783103942871094,14460,1756640754,10.157.146.4,False,77687.26703953743,1200
+2411,-607.5415310053564,2411,2893200,{},-697.8933180825372,2893200,0,77723.0849249363,-444.2543286929469,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2893200, 'default': {'kl': 0.009586233645677567, 'policy_loss': -0.13070128858089447, 'vf_loss': 38.83012771606445, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9943984150886536, 'entropy': 3.608708381652832, 'cur_lr': 4.999999873689376e-05, 'total_loss': 38.713985443115234}, 'load_time_ms': 0.637, 'num_steps_sampled': 2893200, 'grad_time_ms': 724.69, 'update_time_ms': 2.447, 'sample_time_ms': 34671.25}",2025-08-31_13-46-30,cda-server-4,35.817885398864746,14466,1756640790,10.157.146.4,False,77723.0849249363,1200
+2412,-607.9738737255178,2412,2894400,{},-697.8933180825372,2894400,0,77758.90500330925,-444.2543286929469,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2894400, 'default': {'kl': 0.012459054589271545, 'policy_loss': -0.15090759098529816, 'vf_loss': 279.70703125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9736005067825317, 'entropy': 3.574310302734375, 'cur_lr': 4.999999873689376e-05, 'total_loss': 279.5750427246094}, 'load_time_ms': 0.62, 'num_steps_sampled': 2894400, 'grad_time_ms': 731.95, 'update_time_ms': 2.38, 'sample_time_ms': 34767.268}",2025-08-31_13-47-06,cda-server-4,35.82007837295532,14472,1756640826,10.157.146.4,False,77758.90500330925,1200
+2413,-607.9424844123441,2413,2895600,{},-697.8933180825372,2895600,0,77794.84339213371,-444.2543286929469,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2895600, 'default': {'kl': 0.012171699665486813, 'policy_loss': -0.15682576596736908, 'vf_loss': 417.8795166015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9555822014808655, 'entropy': 3.623554229736328, 'cur_lr': 4.999999873689376e-05, 'total_loss': 417.7411804199219}, 'load_time_ms': 0.622, 'num_steps_sampled': 2895600, 'grad_time_ms': 736.33, 'update_time_ms': 2.42, 'sample_time_ms': 34836.445}",2025-08-31_13-47-42,cda-server-4,35.93838882446289,14478,1756640862,10.157.146.4,False,77794.84339213371,1200
+2414,-607.5279047838627,2414,2896800,{},-697.8933180825372,2896800,0,77831.09422206879,-444.2543286929469,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2896800, 'default': {'kl': 0.009907018393278122, 'policy_loss': -0.12818127870559692, 'vf_loss': 64.5232925415039, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9938741326332092, 'entropy': 3.5155763626098633, 'cur_lr': 4.999999873689376e-05, 'total_loss': 64.41015625}, 'load_time_ms': 0.614, 'num_steps_sampled': 2896800, 'grad_time_ms': 739.248, 'update_time_ms': 2.445, 'sample_time_ms': 34888.845}",2025-08-31_13-48-18,cda-server-4,36.25082993507385,14484,1756640898,10.157.146.4,False,77831.09422206879,1200
+2415,-608.6332877287733,2415,2898000,{},-697.8933180825372,2898000,0,77866.73693847656,-460.74205460488713,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2898000, 'default': {'kl': 0.010607188567519188, 'policy_loss': -0.14744065701961517, 'vf_loss': 116.39151000976562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9855473637580872, 'entropy': 3.542473793029785, 'cur_lr': 4.999999873689376e-05, 'total_loss': 116.26016998291016}, 'load_time_ms': 0.653, 'num_steps_sampled': 2898000, 'grad_time_ms': 742.088, 'update_time_ms': 2.464, 'sample_time_ms': 34899.239}",2025-08-31_13-48-54,cda-server-4,35.64271640777588,14490,1756640934,10.157.146.4,False,77866.73693847656,1200
+2416,-608.9677245530502,2416,2899200,{},-697.8933180825372,2899200,0,77901.00456953049,-460.74205460488713,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2899200, 'default': {'kl': 0.012400401756167412, 'policy_loss': -0.14715661108493805, 'vf_loss': 99.40572357177734, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9940821528434753, 'entropy': 3.56874680519104, 'cur_lr': 4.999999873689376e-05, 'total_loss': 99.27740478515625}, 'load_time_ms': 0.654, 'num_steps_sampled': 2899200, 'grad_time_ms': 743.437, 'update_time_ms': 2.401, 'sample_time_ms': 34812.725}",2025-08-31_13-49-28,cda-server-4,34.26763105392456,14496,1756640968,10.157.146.4,False,77901.00456953049,1200
+2417,-608.1196212511873,2417,2900400,{},-697.8933180825372,2900400,0,77936.57117414474,-460.74205460488713,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2900400, 'default': {'kl': 0.012394358403980732, 'policy_loss': -0.14955703914165497, 'vf_loss': 175.1343231201172, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9831445217132568, 'entropy': 3.469592571258545, 'cur_lr': 4.999999873689376e-05, 'total_loss': 175.00360107421875}, 'load_time_ms': 0.626, 'num_steps_sampled': 2900400, 'grad_time_ms': 745.351, 'update_time_ms': 2.358, 'sample_time_ms': 34843.374}",2025-08-31_13-50-04,cda-server-4,35.56660461425781,14502,1756641004,10.157.146.4,False,77936.57117414474,1200
+2418,-610.5471081485671,2418,2901600,{},-795.6369151687621,2901600,0,77971.06153297424,-460.74205460488713,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2901600, 'default': {'kl': 0.010992239229381084, 'policy_loss': -0.1435663104057312, 'vf_loss': 275.82720947265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9841380715370178, 'entropy': 3.79099702835083, 'cur_lr': 4.999999873689376e-05, 'total_loss': 275.7003173828125}, 'load_time_ms': 0.624, 'num_steps_sampled': 2901600, 'grad_time_ms': 732.794, 'update_time_ms': 2.335, 'sample_time_ms': 34729.342}",2025-08-31_13-50-38,cda-server-4,34.49035882949829,14508,1756641038,10.157.146.4,False,77971.06153297424,1200
+2419,-612.733735997334,2419,2902800,{},-795.6369151687621,2902800,0,78005.6173760891,-569.3060384063458,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2902800, 'default': {'kl': 0.009746459312736988, 'policy_loss': -0.12867462635040283, 'vf_loss': 276.3333740234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.985885739326477, 'entropy': 3.7307112216949463, 'cur_lr': 4.999999873689376e-05, 'total_loss': 276.2195129394531}, 'load_time_ms': 0.617, 'num_steps_sampled': 2902800, 'grad_time_ms': 710.471, 'update_time_ms': 2.355, 'sample_time_ms': 34695.751}",2025-08-31_13-51-13,cda-server-4,34.555843114852905,14514,1756641073,10.157.146.4,False,78005.6173760891,1200
+2420,-611.2202278028888,2420,2904000,{},-795.6369151687621,2904000,0,78040.3235464096,-523.1228377303808,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2904000, 'default': {'kl': 0.011557786725461483, 'policy_loss': -0.1334839165210724, 'vf_loss': 286.76654052734375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9754078984260559, 'entropy': 3.522118091583252, 'cur_lr': 4.999999873689376e-05, 'total_loss': 286.6506652832031}, 'load_time_ms': 0.618, 'num_steps_sampled': 2904000, 'grad_time_ms': 698.819, 'update_time_ms': 2.311, 'sample_time_ms': 34599.738}",2025-08-31_13-51-47,cda-server-4,34.706170320510864,14520,1756641107,10.157.146.4,False,78040.3235464096,1200
+2421,-611.2501703471329,2421,2905200,{},-795.6369151687621,2905200,0,78075.35414958,-523.1228377303808,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2905200, 'default': {'kl': 0.010963771492242813, 'policy_loss': -0.1589520275592804, 'vf_loss': 564.3343505859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9270037412643433, 'entropy': 3.8037290573120117, 'cur_lr': 4.999999873689376e-05, 'total_loss': 564.1920166015625}, 'load_time_ms': 0.611, 'num_steps_sampled': 2905200, 'grad_time_ms': 678.79, 'update_time_ms': 2.294, 'sample_time_ms': 34540.978}",2025-08-31_13-52-22,cda-server-4,35.0306031703949,14526,1756641142,10.157.146.4,False,78075.35414958,1200
+2422,-611.7667698360553,2422,2906400,{},-795.6369151687621,2906400,0,78109.67754268646,-523.1228377303808,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2906400, 'default': {'kl': 0.011602209880948067, 'policy_loss': -0.14588207006454468, 'vf_loss': 179.07846069335938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9866445064544678, 'entropy': 3.7118940353393555, 'cur_lr': 4.999999873689376e-05, 'total_loss': 178.95018005371094}, 'load_time_ms': 0.614, 'num_steps_sampled': 2906400, 'grad_time_ms': 657.011, 'update_time_ms': 2.405, 'sample_time_ms': 34412.947}",2025-08-31_13-52-57,cda-server-4,34.32339310646057,14532,1756641177,10.157.146.4,False,78109.67754268646,1200
+2423,-610.8600643116025,2423,2907600,{},-795.6369151687621,2907600,0,78143.61640405655,-523.1228377303808,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2907600, 'default': {'kl': 0.009005846455693245, 'policy_loss': -0.11891484260559082, 'vf_loss': 89.20101928710938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9859267473220825, 'entropy': 3.4513137340545654, 'cur_lr': 4.999999873689376e-05, 'total_loss': 89.09578704833984}, 'load_time_ms': 0.608, 'num_steps_sampled': 2907600, 'grad_time_ms': 653.656, 'update_time_ms': 2.425, 'sample_time_ms': 34216.343}",2025-08-31_13-53-31,cda-server-4,33.93886137008667,14538,1756641211,10.157.146.4,False,78143.61640405655,1200
+2424,-611.0126730798008,2424,2908800,{},-795.6369151687621,2908800,0,78178.58498740196,-523.1228377303808,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2908800, 'default': {'kl': 0.010474124923348427, 'policy_loss': -0.12531504034996033, 'vf_loss': 296.38238525390625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9679520726203918, 'entropy': 3.5968005657196045, 'cur_lr': 4.999999873689376e-05, 'total_loss': 296.2729797363281}, 'load_time_ms': 0.609, 'num_steps_sampled': 2908800, 'grad_time_ms': 645.587, 'update_time_ms': 2.536, 'sample_time_ms': 34096.065}",2025-08-31_13-54-06,cda-server-4,34.96858334541321,14544,1756641246,10.157.146.4,False,78178.58498740196,1200
+2425,-610.5663387343793,2425,2910000,{},-795.6369151687621,2910000,0,78213.55888605118,-523.1228377303808,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2910000, 'default': {'kl': 0.009445350617170334, 'policy_loss': -0.11071693897247314, 'vf_loss': 183.43060302734375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9740853905677795, 'entropy': 3.595611572265625, 'cur_lr': 4.999999873689376e-05, 'total_loss': 183.334228515625}, 'load_time_ms': 0.574, 'num_steps_sampled': 2910000, 'grad_time_ms': 638.163, 'update_time_ms': 2.5, 'sample_time_ms': 34036.68}",2025-08-31_13-54-41,cda-server-4,34.9738986492157,14550,1756641281,10.157.146.4,False,78213.55888605118,1200
+2426,-609.5230823884173,2426,2911200,{},-795.6369151687621,2911200,0,78248.59123158455,-445.63039712327276,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2911200, 'default': {'kl': 0.01128674391657114, 'policy_loss': -0.1577501893043518, 'vf_loss': 160.46990966796875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9803025126457214, 'entropy': 3.4936420917510986, 'cur_lr': 4.999999873689376e-05, 'total_loss': 160.3292999267578}, 'load_time_ms': 0.585, 'num_steps_sampled': 2911200, 'grad_time_ms': 635.45, 'update_time_ms': 2.538, 'sample_time_ms': 34115.855}",2025-08-31_13-55-16,cda-server-4,35.03234553337097,14556,1756641316,10.157.146.4,False,78248.59123158455,1200
+2427,-607.9740608591582,2427,2912400,{},-795.6369151687621,2912400,0,78282.78619885445,-445.63039712327276,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2912400, 'default': {'kl': 0.010901540517807007, 'policy_loss': -0.15884114801883698, 'vf_loss': 98.79193878173828, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9911013841629028, 'entropy': 3.611678123474121, 'cur_lr': 4.999999873689376e-05, 'total_loss': 98.649658203125}, 'load_time_ms': 0.583, 'num_steps_sampled': 2912400, 'grad_time_ms': 637.663, 'update_time_ms': 2.556, 'sample_time_ms': 33976.432}",2025-08-31_13-55-50,cda-server-4,34.19496726989746,14562,1756641350,10.157.146.4,False,78282.78619885445,1200
+2428,-608.4460182647856,2428,2913600,{},-795.6369151687621,2913600,0,78318.05460238457,-445.63039712327276,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2913600, 'default': {'kl': 0.012094014324247837, 'policy_loss': -0.14653469622135162, 'vf_loss': 46.649200439453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9948865175247192, 'entropy': 3.516709327697754, 'cur_lr': 4.999999873689376e-05, 'total_loss': 46.52103805541992}, 'load_time_ms': 0.582, 'num_steps_sampled': 2913600, 'grad_time_ms': 639.438, 'update_time_ms': 2.731, 'sample_time_ms': 34052.259}",2025-08-31_13-56-25,cda-server-4,35.26840353012085,14568,1756641385,10.157.146.4,False,78318.05460238457,1200
+2429,-608.7395946741713,2429,2914800,{},-795.6369151687621,2914800,0,78352.9415242672,-445.63039712327276,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2914800, 'default': {'kl': 0.010133092291653156, 'policy_loss': -0.13651998341083527, 'vf_loss': 162.114990234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9861888885498047, 'entropy': 3.643021821975708, 'cur_lr': 4.999999873689376e-05, 'total_loss': 161.99386596679688}, 'load_time_ms': 0.586, 'num_steps_sampled': 2914800, 'grad_time_ms': 646.9, 'update_time_ms': 2.703, 'sample_time_ms': 34077.945}",2025-08-31_13-57-00,cda-server-4,34.886921882629395,14574,1756641420,10.157.146.4,False,78352.9415242672,1200
+2430,-609.2767878923596,2430,2916000,{},-795.6369151687621,2916000,0,78386.82928538322,-445.63039712327276,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2916000, 'default': {'kl': 0.011675823479890823, 'policy_loss': -0.14178743958473206, 'vf_loss': 222.71148681640625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9889011383056641, 'entropy': 3.6322131156921387, 'cur_lr': 4.999999873689376e-05, 'total_loss': 222.58743286132812}, 'load_time_ms': 0.593, 'num_steps_sampled': 2916000, 'grad_time_ms': 647.316, 'update_time_ms': 2.777, 'sample_time_ms': 33995.587}",2025-08-31_13-57-34,cda-server-4,33.88776111602783,14580,1756641454,10.157.146.4,False,78386.82928538322,1200
+2431,-609.3166756630525,2431,2917200,{},-795.6369151687621,2917200,0,78421.62883806229,-445.63039712327276,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2917200, 'default': {'kl': 0.008621398359537125, 'policy_loss': -0.1277218908071518, 'vf_loss': 298.9923095703125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9691032767295837, 'entropy': 3.5001020431518555, 'cur_lr': 4.999999873689376e-05, 'total_loss': 298.8776550292969}, 'load_time_ms': 0.6, 'num_steps_sampled': 2917200, 'grad_time_ms': 668.291, 'update_time_ms': 2.738, 'sample_time_ms': 33951.684}",2025-08-31_13-58-09,cda-server-4,34.79955267906189,14586,1756641489,10.157.146.4,False,78421.62883806229,1200
+2432,-607.9364643622052,2432,2918400,{},-795.6369151687621,2918400,0,78456.53036808968,-445.63039712327276,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2918400, 'default': {'kl': 0.008507215417921543, 'policy_loss': -0.12339210510253906, 'vf_loss': 209.4803009033203, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9695215225219727, 'entropy': 3.5074126720428467, 'cur_lr': 4.999999873689376e-05, 'total_loss': 209.36981201171875}, 'load_time_ms': 0.602, 'num_steps_sampled': 2918400, 'grad_time_ms': 680.667, 'update_time_ms': 2.681, 'sample_time_ms': 33997.175}",2025-08-31_13-58-44,cda-server-4,34.901530027389526,14592,1756641524,10.157.146.4,False,78456.53036808968,1200
+2433,-607.4953470076119,2433,2919600,{},-795.6369151687621,2919600,0,78492.08573126793,-445.63039712327276,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2919600, 'default': {'kl': 0.010894077830016613, 'policy_loss': -0.14252209663391113, 'vf_loss': 120.50092315673828, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9892587661743164, 'entropy': 3.629993438720703, 'cur_lr': 4.999999873689376e-05, 'total_loss': 120.37494659423828}, 'load_time_ms': 0.599, 'num_steps_sampled': 2919600, 'grad_time_ms': 670.775, 'update_time_ms': 2.661, 'sample_time_ms': 34168.698}",2025-08-31_13-59-19,cda-server-4,35.555363178253174,14598,1756641559,10.157.146.4,False,78492.08573126793,1200
+2434,-607.7506620112857,2434,2920800,{},-795.6369151687621,2920800,0,78526.25383520126,-445.63039712327276,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2920800, 'default': {'kl': 0.010594765655696392, 'policy_loss': -0.13737879693508148, 'vf_loss': 140.13595581054688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9898841381072998, 'entropy': 3.644787311553955, 'cur_lr': 4.999999873689376e-05, 'total_loss': 140.01466369628906}, 'load_time_ms': 0.597, 'num_steps_sampled': 2920800, 'grad_time_ms': 668.966, 'update_time_ms': 2.559, 'sample_time_ms': 34090.617}",2025-08-31_13-59-54,cda-server-4,34.16810393333435,14604,1756641594,10.157.146.4,False,78526.25383520126,1200
+2435,-606.3920511288605,2435,2922000,{},-658.2806811726175,2922000,0,78561.13588380814,-445.63039712327276,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2922000, 'default': {'kl': 0.009870308451354504, 'policy_loss': -0.1469620168209076, 'vf_loss': 570.4994506835938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.970810055732727, 'entropy': 3.763472557067871, 'cur_lr': 4.999999873689376e-05, 'total_loss': 570.367431640625}, 'load_time_ms': 0.594, 'num_steps_sampled': 2922000, 'grad_time_ms': 665.772, 'update_time_ms': 2.574, 'sample_time_ms': 34084.604}",2025-08-31_14-00-28,cda-server-4,34.88204860687256,14610,1756641628,10.157.146.4,False,78561.13588380814,1200
+2436,-605.974896197591,2436,2923200,{},-658.2806811726175,2923200,0,78596.0420999527,-445.63039712327276,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2923200, 'default': {'kl': 0.01068816427141428, 'policy_loss': -0.12282795459032059, 'vf_loss': 111.03738403320312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9874951243400574, 'entropy': 3.4914958477020264, 'cur_lr': 4.999999873689376e-05, 'total_loss': 110.93079376220703}, 'load_time_ms': 0.589, 'num_steps_sampled': 2923200, 'grad_time_ms': 645.319, 'update_time_ms': 2.689, 'sample_time_ms': 34092.25}",2025-08-31_14-01-03,cda-server-4,34.90621614456177,14616,1756641663,10.157.146.4,False,78596.0420999527,1200
+2437,-606.8987306653743,2437,2924400,{},-658.2806811726175,2924400,0,78629.92100524902,-445.63039712327276,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2924400, 'default': {'kl': 0.010971690528094769, 'policy_loss': -0.1334734559059143, 'vf_loss': 145.67202758789062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9829185009002686, 'entropy': 3.4900171756744385, 'cur_lr': 4.999999873689376e-05, 'total_loss': 145.55523681640625}, 'load_time_ms': 0.597, 'num_steps_sampled': 2924400, 'grad_time_ms': 617.045, 'update_time_ms': 2.693, 'sample_time_ms': 34089.011}",2025-08-31_14-01-37,cda-server-4,33.878905296325684,14622,1756641697,10.157.146.4,False,78629.92100524902,1200
+2438,-605.8689015237433,2438,2925600,{},-658.2806811726175,2925600,0,78664.23723006248,-445.63039712327276,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2925600, 'default': {'kl': 0.01279283408075571, 'policy_loss': -0.1551106870174408, 'vf_loss': 96.72418975830078, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9884606599807739, 'entropy': 3.8345518112182617, 'cur_lr': 4.999999873689376e-05, 'total_loss': 96.58850860595703}, 'load_time_ms': 0.591, 'num_steps_sampled': 2925600, 'grad_time_ms': 613.713, 'update_time_ms': 2.537, 'sample_time_ms': 33997.373}",2025-08-31_14-02-12,cda-server-4,34.316224813461304,14628,1756641732,10.157.146.4,False,78664.23723006248,1200
+2439,-606.1850223647459,2439,2926800,{},-658.2806811726175,2926800,0,78699.02822971344,-445.63039712327276,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2926800, 'default': {'kl': 0.012878673151135445, 'policy_loss': -0.16487683355808258, 'vf_loss': 153.50411987304688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9899821877479553, 'entropy': 3.58408260345459, 'cur_lr': 4.999999873689376e-05, 'total_loss': 153.3588104248047}, 'load_time_ms': 0.595, 'num_steps_sampled': 2926800, 'grad_time_ms': 612.12, 'update_time_ms': 2.523, 'sample_time_ms': 33989.449}",2025-08-31_14-02-46,cda-server-4,34.7909996509552,14634,1756641766,10.157.146.4,False,78699.02822971344,1200
+2440,-604.8500740961473,2440,2928000,{},-658.2806811726175,2928000,0,78733.49186062813,-445.63039712327276,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2928000, 'default': {'kl': 0.011078521609306335, 'policy_loss': -0.14694662392139435, 'vf_loss': 158.71929931640625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9749953150749207, 'entropy': 3.564683198928833, 'cur_lr': 4.999999873689376e-05, 'total_loss': 158.5891876220703}, 'load_time_ms': 0.621, 'num_steps_sampled': 2928000, 'grad_time_ms': 601.901, 'update_time_ms': 2.466, 'sample_time_ms': 34057.348}",2025-08-31_14-03-21,cda-server-4,34.46363091468811,14640,1756641801,10.157.146.4,False,78733.49186062813,1200
+2441,-603.7048340148406,2441,2929200,{},-658.2806811726175,2929200,0,78768.00215029716,-445.63039712327276,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2929200, 'default': {'kl': 0.009934105910360813, 'policy_loss': -0.14786285161972046, 'vf_loss': 255.35205078125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9667959213256836, 'entropy': 3.52351975440979, 'cur_lr': 4.999999873689376e-05, 'total_loss': 255.21929931640625}, 'load_time_ms': 0.62, 'num_steps_sampled': 2929200, 'grad_time_ms': 588.083, 'update_time_ms': 2.484, 'sample_time_ms': 34042.118}",2025-08-31_14-03-55,cda-server-4,34.510289669036865,14646,1756641835,10.157.146.4,False,78768.00215029716,1200
+2442,-605.174969918437,2442,2930400,{},-658.2806811726175,2930400,0,78803.02730488777,-467.26027419604566,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2930400, 'default': {'kl': 0.010087679140269756, 'policy_loss': -0.1328788548707962, 'vf_loss': 213.546142578125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9837477207183838, 'entropy': 3.485060691833496, 'cur_lr': 4.999999873689376e-05, 'total_loss': 213.42857360839844}, 'load_time_ms': 0.622, 'num_steps_sampled': 2930400, 'grad_time_ms': 583.858, 'update_time_ms': 2.486, 'sample_time_ms': 34058.711}",2025-08-31_14-04-31,cda-server-4,35.02515459060669,14652,1756641871,10.157.146.4,False,78803.02730488777,1200
+2443,-605.2010312503228,2443,2931600,{},-658.2806811726175,2931600,0,78837.74239349365,-467.26027419604566,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2931600, 'default': {'kl': 0.013237264938652515, 'policy_loss': -0.14955633878707886, 'vf_loss': 117.634521484375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9935276508331299, 'entropy': 3.5334792137145996, 'cur_lr': 4.999999873689376e-05, 'total_loss': 117.50508880615234}, 'load_time_ms': 0.635, 'num_steps_sampled': 2931600, 'grad_time_ms': 585.167, 'update_time_ms': 2.475, 'sample_time_ms': 33973.44}",2025-08-31_14-05-05,cda-server-4,34.71508860588074,14658,1756641905,10.157.146.4,False,78837.74239349365,1200
+2444,-606.2894309613557,2444,2932800,{},-658.2806811726175,2932800,0,78872.19463205338,-467.26027419604566,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2932800, 'default': {'kl': 0.010279573500156403, 'policy_loss': -0.14838376641273499, 'vf_loss': 82.11602783203125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9899283647537231, 'entropy': 3.5705556869506836, 'cur_lr': 4.999999873689376e-05, 'total_loss': 81.98326110839844}, 'load_time_ms': 0.642, 'num_steps_sampled': 2932800, 'grad_time_ms': 592.346, 'update_time_ms': 2.427, 'sample_time_ms': 33994.666}",2025-08-31_14-05-40,cda-server-4,34.4522385597229,14664,1756641940,10.157.146.4,False,78872.19463205338,1200
+2445,-605.7126795779855,2445,2934000,{},-658.2806811726175,2934000,0,78906.46844410896,-467.26027419604566,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2934000, 'default': {'kl': 0.01129552349448204, 'policy_loss': -0.15294399857521057, 'vf_loss': 205.52456665039062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9876196384429932, 'entropy': 3.535853862762451, 'cur_lr': 4.999999873689376e-05, 'total_loss': 205.38876342773438}, 'load_time_ms': 0.652, 'num_steps_sampled': 2934000, 'grad_time_ms': 580.738, 'update_time_ms': 2.433, 'sample_time_ms': 33945.44}",2025-08-31_14-06-14,cda-server-4,34.27381205558777,14670,1756641974,10.157.146.4,False,78906.46844410896,1200
+2446,-605.2418149713554,2446,2935200,{},-658.2806811726175,2935200,0,78941.41451406479,-467.26027419604566,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2935200, 'default': {'kl': 0.010974790900945663, 'policy_loss': -0.14809320867061615, 'vf_loss': 185.07208251953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9762623310089111, 'entropy': 3.4924123287200928, 'cur_lr': 4.999999873689376e-05, 'total_loss': 184.94065856933594}, 'load_time_ms': 0.645, 'num_steps_sampled': 2935200, 'grad_time_ms': 585.01, 'update_time_ms': 2.321, 'sample_time_ms': 33945.368}",2025-08-31_14-06-49,cda-server-4,34.946069955825806,14676,1756642009,10.157.146.4,False,78941.41451406479,1200
+2447,-605.7171633648156,2447,2936400,{},-684.132043838043,2936400,0,78976.325371027,-467.26027419604566,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2936400, 'default': {'kl': 0.010955514386296272, 'policy_loss': -0.15231327712535858, 'vf_loss': 276.0415344238281, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9742381572723389, 'entropy': 3.8420987129211426, 'cur_lr': 4.999999873689376e-05, 'total_loss': 275.9058837890625}, 'load_time_ms': 0.651, 'num_steps_sampled': 2936400, 'grad_time_ms': 580.285, 'update_time_ms': 2.319, 'sample_time_ms': 34053.239}",2025-08-31_14-07-24,cda-server-4,34.91085696220398,14682,1756642044,10.157.146.4,False,78976.325371027,1200
+2448,-607.2255038449541,2448,2937600,{},-684.132043838043,2937600,0,79009.32835459709,-468.1041249488473,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2937600, 'default': {'kl': 0.012045351788401604, 'policy_loss': -0.15184062719345093, 'vf_loss': 72.13634490966797, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9932574033737183, 'entropy': 3.534634828567505, 'cur_lr': 4.999999873689376e-05, 'total_loss': 72.00279998779297}, 'load_time_ms': 0.689, 'num_steps_sampled': 2937600, 'grad_time_ms': 566.422, 'update_time_ms': 2.354, 'sample_time_ms': 33935.663}",2025-08-31_14-07-57,cda-server-4,33.00298357009888,14688,1756642077,10.157.146.4,False,79009.32835459709,1200
+2449,-607.3288634510386,2449,2938800,{},-684.132043838043,2938800,0,79043.57100224495,-468.1041249488473,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2938800, 'default': {'kl': 0.009766249917447567, 'policy_loss': -0.12834089994430542, 'vf_loss': 68.4822769165039, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9912889003753662, 'entropy': 3.5130434036254883, 'cur_lr': 4.999999873689376e-05, 'total_loss': 68.3687744140625}, 'load_time_ms': 0.697, 'num_steps_sampled': 2938800, 'grad_time_ms': 572.995, 'update_time_ms': 2.399, 'sample_time_ms': 33874.218}",2025-08-31_14-08-31,cda-server-4,34.242647647857666,14694,1756642111,10.157.146.4,False,79043.57100224495,1200
+2450,-606.8023594483873,2450,2940000,{},-684.132043838043,2940000,0,79078.02900409698,-468.1041249488473,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2940000, 'default': {'kl': 0.010827885009348392, 'policy_loss': -0.1445368230342865, 'vf_loss': 104.2108154296875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9884667992591858, 'entropy': 3.6667284965515137, 'cur_lr': 4.999999873689376e-05, 'total_loss': 104.08272552490234}, 'load_time_ms': 0.695, 'num_steps_sampled': 2940000, 'grad_time_ms': 565.824, 'update_time_ms': 2.4, 'sample_time_ms': 33880.813}",2025-08-31_14-09-06,cda-server-4,34.45800185203552,14700,1756642146,10.157.146.4,False,79078.02900409698,1200
+2451,-606.0666899903637,2451,2941200,{},-684.132043838043,2941200,0,79112.46141648293,-468.1041249488473,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2941200, 'default': {'kl': 0.010588336735963821, 'policy_loss': -0.12245885282754898, 'vf_loss': 32.72832489013672, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9969857335090637, 'entropy': 3.5754785537719727, 'cur_lr': 4.999999873689376e-05, 'total_loss': 32.621944427490234}, 'load_time_ms': 0.696, 'num_steps_sampled': 2941200, 'grad_time_ms': 565.587, 'update_time_ms': 2.4, 'sample_time_ms': 33873.178}",2025-08-31_14-09-40,cda-server-4,34.43241238594055,14706,1756642180,10.157.146.4,False,79112.46141648293,1200
+2452,-606.7526595687605,2452,2942400,{},-684.132043838043,2942400,0,79146.71581673622,-468.1041249488473,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2942400, 'default': {'kl': 0.011241395026445389, 'policy_loss': -0.14465981721878052, 'vf_loss': 73.58564758300781, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9928697943687439, 'entropy': 3.695711374282837, 'cur_lr': 4.999999873689376e-05, 'total_loss': 73.45806121826172}, 'load_time_ms': 0.689, 'num_steps_sampled': 2942400, 'grad_time_ms': 564.329, 'update_time_ms': 2.367, 'sample_time_ms': 33797.279}",2025-08-31_14-10-14,cda-server-4,34.2544002532959,14712,1756642214,10.157.146.4,False,79146.71581673622,1200
+2453,-606.9973252757652,2453,2943600,{},-684.132043838043,2943600,0,79181.37746715546,-468.1041249488473,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2943600, 'default': {'kl': 0.010681145824491978, 'policy_loss': -0.13575297594070435, 'vf_loss': 149.12042236328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9798333048820496, 'entropy': 3.6802613735198975, 'cur_lr': 4.999999873689376e-05, 'total_loss': 149.00088500976562}, 'load_time_ms': 0.688, 'num_steps_sampled': 2943600, 'grad_time_ms': 560.514, 'update_time_ms': 2.389, 'sample_time_ms': 33795.764}",2025-08-31_14-10-49,cda-server-4,34.66165041923523,14718,1756642249,10.157.146.4,False,79181.37746715546,1200
+2454,-607.0935498287371,2454,2944800,{},-684.132043838043,2944800,0,79216.60059142113,-468.1041249488473,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2944800, 'default': {'kl': 0.009376948699355125, 'policy_loss': -0.1276649385690689, 'vf_loss': 128.20785522460938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9858613610267639, 'entropy': 3.4006588459014893, 'cur_lr': 4.999999873689376e-05, 'total_loss': 128.0944366455078}, 'load_time_ms': 0.715, 'num_steps_sampled': 2944800, 'grad_time_ms': 559.661, 'update_time_ms': 2.382, 'sample_time_ms': 33873.696}",2025-08-31_14-11-24,cda-server-4,35.223124265670776,14724,1756642284,10.157.146.4,False,79216.60059142113,1200
+2455,-608.3406292436132,2455,2946000,{},-684.132043838043,2946000,0,79250.62835621834,-468.1041249488473,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2946000, 'default': {'kl': 0.010112122632563114, 'policy_loss': -0.12964993715286255, 'vf_loss': 205.84120178222656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9807667136192322, 'entropy': 3.5342862606048584, 'cur_lr': 4.999999873689376e-05, 'total_loss': 205.72689819335938}, 'load_time_ms': 0.707, 'num_steps_sampled': 2946000, 'grad_time_ms': 582.253, 'update_time_ms': 2.341, 'sample_time_ms': 33826.589}",2025-08-31_14-11-58,cda-server-4,34.02776479721069,14730,1756642318,10.157.146.4,False,79250.62835621834,1200
+2456,-608.3257464580714,2456,2947200,{},-684.132043838043,2947200,0,79284.78808736801,-468.1041249488473,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2947200, 'default': {'kl': 0.012154581025242805, 'policy_loss': -0.1454046219587326, 'vf_loss': 118.57524871826172, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9919760227203369, 'entropy': 3.4999778270721436, 'cur_lr': 4.999999873689376e-05, 'total_loss': 118.44831085205078}, 'load_time_ms': 0.713, 'num_steps_sampled': 2947200, 'grad_time_ms': 594.647, 'update_time_ms': 2.259, 'sample_time_ms': 33735.587}",2025-08-31_14-12-32,cda-server-4,34.15973114967346,14736,1756642352,10.157.146.4,False,79284.78808736801,1200
+2457,-609.7483964858161,2457,2948400,{},-684.132043838043,2948400,0,79319.68909478188,-468.1041249488473,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2948400, 'default': {'kl': 0.010547768324613571, 'policy_loss': -0.13506808876991272, 'vf_loss': 107.38021087646484, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9870373606681824, 'entropy': 3.5457992553710938, 'cur_lr': 4.999999873689376e-05, 'total_loss': 107.26114654541016}, 'load_time_ms': 0.728, 'num_steps_sampled': 2948400, 'grad_time_ms': 614.321, 'update_time_ms': 2.342, 'sample_time_ms': 33714.734}",2025-08-31_14-13-07,cda-server-4,34.901007413864136,14742,1756642387,10.157.146.4,False,79319.68909478188,1200
+2458,-612.2467087988059,2458,2949600,{},-684.132043838043,2949600,0,79354.73057723045,-561.5601738125282,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2949600, 'default': {'kl': 0.009813044220209122, 'policy_loss': -0.14026343822479248, 'vf_loss': 186.67115783691406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9874039888381958, 'entropy': 3.598728656768799, 'cur_lr': 4.999999873689376e-05, 'total_loss': 186.5457763671875}, 'load_time_ms': 0.696, 'num_steps_sampled': 2949600, 'grad_time_ms': 642.293, 'update_time_ms': 2.43, 'sample_time_ms': 33890.534}",2025-08-31_14-13-42,cda-server-4,35.04148244857788,14748,1756642422,10.157.146.4,False,79354.73057723045,1200
+2459,-612.6529870550349,2459,2950800,{},-684.132043838043,2950800,0,79389.44296121597,-561.5601738125282,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2950800, 'default': {'kl': 0.011208749376237392, 'policy_loss': -0.15086200833320618, 'vf_loss': 89.28006744384766, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9926313757896423, 'entropy': 3.544332265853882, 'cur_lr': 4.999999873689376e-05, 'total_loss': 89.14622497558594}, 'load_time_ms': 0.691, 'num_steps_sampled': 2950800, 'grad_time_ms': 638.038, 'update_time_ms': 2.402, 'sample_time_ms': 33941.754}",2025-08-31_14-14-17,cda-server-4,34.71238398551941,14754,1756642457,10.157.146.4,False,79389.44296121597,1200
+2460,-613.0717701965831,2460,2952000,{},-684.132043838043,2952000,0,79425.00285100937,-561.5601738125282,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2952000, 'default': {'kl': 0.01004400011152029, 'policy_loss': -0.14094185829162598, 'vf_loss': 111.60267639160156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9895645976066589, 'entropy': 3.604187488555908, 'cur_lr': 4.999999873689376e-05, 'total_loss': 111.47698211669922}, 'load_time_ms': 0.696, 'num_steps_sampled': 2952000, 'grad_time_ms': 660.773, 'update_time_ms': 2.464, 'sample_time_ms': 34029.127}",2025-08-31_14-14-53,cda-server-4,35.559889793395996,14760,1756642493,10.157.146.4,False,79425.00285100937,1200
+2461,-613.3268075465569,2461,2953200,{},-684.132043838043,2953200,0,79461.66365170479,-561.5601738125282,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2953200, 'default': {'kl': 0.011445406824350357, 'policy_loss': -0.12037888914346695, 'vf_loss': 136.36300659179688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9894943237304688, 'entropy': 3.448225259780884, 'cur_lr': 4.999999873689376e-05, 'total_loss': 136.26004028320312}, 'load_time_ms': 0.692, 'num_steps_sampled': 2953200, 'grad_time_ms': 673.842, 'update_time_ms': 2.484, 'sample_time_ms': 34239.024}",2025-08-31_14-15-30,cda-server-4,36.66080069541931,14766,1756642530,10.157.146.4,False,79461.66365170479,1200
+2462,-610.4239116904653,2462,2954400,{},-684.132043838043,2954400,0,79495.63109397888,-444.7383178213038,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2954400, 'default': {'kl': 0.011858277954161167, 'policy_loss': -0.15545666217803955, 'vf_loss': 189.06442260742188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9870595932006836, 'entropy': 3.525692939758301, 'cur_lr': 4.999999873689376e-05, 'total_loss': 188.92697143554688}, 'load_time_ms': 0.712, 'num_steps_sampled': 2954400, 'grad_time_ms': 675.754, 'update_time_ms': 2.45, 'sample_time_ms': 34208.538}",2025-08-31_14-16-03,cda-server-4,33.96744227409363,14772,1756642563,10.157.146.4,False,79495.63109397888,1200
+2463,-609.7960254877581,2463,2955600,{},-650.6135341720436,2955600,0,79529.27619791031,-444.7383178213038,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2955600, 'default': {'kl': 0.011556439101696014, 'policy_loss': -0.14641492068767548, 'vf_loss': 84.8607406616211, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9891226291656494, 'entropy': 3.6215226650238037, 'cur_lr': 4.999999873689376e-05, 'total_loss': 84.73186492919922}, 'load_time_ms': 0.707, 'num_steps_sampled': 2955600, 'grad_time_ms': 665.375, 'update_time_ms': 2.4, 'sample_time_ms': 34117.315}",2025-08-31_14-16-37,cda-server-4,33.645103931427,14778,1756642597,10.157.146.4,False,79529.27619791031,1200
+2464,-610.5565920482135,2464,2956800,{},-650.6135341720436,2956800,0,79564.17404723167,-444.7383178213038,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2956800, 'default': {'kl': 0.010239645838737488, 'policy_loss': -0.13842932879924774, 'vf_loss': 61.04959487915039, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9925963878631592, 'entropy': 3.5600709915161133, 'cur_lr': 4.999999873689376e-05, 'total_loss': 60.92671585083008}, 'load_time_ms': 0.679, 'num_steps_sampled': 2956800, 'grad_time_ms': 642.188, 'update_time_ms': 2.368, 'sample_time_ms': 34108.096}",2025-08-31_14-17-12,cda-server-4,34.897849321365356,14784,1756642632,10.157.146.4,False,79564.17404723167,1200
+2465,-610.2758026055367,2465,2958000,{},-650.6135341720436,2958000,0,79599.05782294273,-444.7383178213038,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2958000, 'default': {'kl': 0.01029832661151886, 'policy_loss': -0.1275867372751236, 'vf_loss': 113.61808776855469, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9857931137084961, 'entropy': 3.519667387008667, 'cur_lr': 4.999999873689376e-05, 'total_loss': 113.50614166259766}, 'load_time_ms': 0.684, 'num_steps_sampled': 2958000, 'grad_time_ms': 631.22, 'update_time_ms': 2.387, 'sample_time_ms': 34204.524}",2025-08-31_14-17-47,cda-server-4,34.88377571105957,14790,1756642667,10.157.146.4,False,79599.05782294273,1200
+2466,-609.2150177892421,2466,2959200,{},-650.6135341720436,2959200,0,79633.40287899971,-444.7383178213038,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2959200, 'default': {'kl': 0.009934796020388603, 'policy_loss': -0.13556723296642303, 'vf_loss': 25.972415924072266, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9957304000854492, 'entropy': 3.5123512744903564, 'cur_lr': 4.999999873689376e-05, 'total_loss': 25.85193634033203}, 'load_time_ms': 0.683, 'num_steps_sampled': 2959200, 'grad_time_ms': 631.386, 'update_time_ms': 2.458, 'sample_time_ms': 34222.8}",2025-08-31_14-18-21,cda-server-4,34.34505605697632,14796,1756642701,10.157.146.4,False,79633.40287899971,1200
+2467,-607.8280004901196,2467,2960400,{},-650.6135341720436,2960400,0,79667.57179951668,-444.7383178213038,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2960400, 'default': {'kl': 0.012036303989589214, 'policy_loss': -0.16332001984119415, 'vf_loss': 135.51486206054688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9820663928985596, 'entropy': 3.4700469970703125, 'cur_lr': 4.999999873689376e-05, 'total_loss': 135.3698272705078}, 'load_time_ms': 0.653, 'num_steps_sampled': 2960400, 'grad_time_ms': 634.282, 'update_time_ms': 2.35, 'sample_time_ms': 34146.885}",2025-08-31_14-18-55,cda-server-4,34.16892051696777,14802,1756642735,10.157.146.4,False,79667.57179951668,1200
+2468,-608.2558328644743,2468,2961600,{},-650.6135341720436,2961600,0,79702.49557042122,-444.7383178213038,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2961600, 'default': {'kl': 0.009097306057810783, 'policy_loss': -0.1308656632900238, 'vf_loss': 99.50724792480469, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9871928095817566, 'entropy': 3.483637809753418, 'cur_lr': 4.999999873689376e-05, 'total_loss': 99.39021301269531}, 'load_time_ms': 0.688, 'num_steps_sampled': 2961600, 'grad_time_ms': 637.473, 'update_time_ms': 2.257, 'sample_time_ms': 34131.819}",2025-08-31_14-19-30,cda-server-4,34.923770904541016,14808,1756642770,10.157.146.4,False,79702.49557042122,1200
+2469,-608.8310833004737,2469,2962800,{},-721.5089493229711,2962800,0,79737.6468527317,-444.7383178213038,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2962800, 'default': {'kl': 0.011522241868078709, 'policy_loss': -0.1407652497291565, 'vf_loss': 610.995849609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9579789042472839, 'entropy': 4.018448829650879, 'cur_lr': 4.999999873689376e-05, 'total_loss': 610.8726196289062}, 'load_time_ms': 0.692, 'num_steps_sampled': 2962800, 'grad_time_ms': 653.597, 'update_time_ms': 2.27, 'sample_time_ms': 34159.544}",2025-08-31_14-20-06,cda-server-4,35.15128231048584,14814,1756642806,10.157.146.4,False,79737.6468527317,1200
+2470,-608.1955693531469,2470,2964000,{},-721.5089493229711,2964000,0,79771.90593910217,-444.7383178213038,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2964000, 'default': {'kl': 0.008735407143831253, 'policy_loss': -0.11373218148946762, 'vf_loss': 191.22161865234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9788220524787903, 'entropy': 3.648653984069824, 'cur_lr': 4.999999873689376e-05, 'total_loss': 191.12115478515625}, 'load_time_ms': 0.656, 'num_steps_sampled': 2964000, 'grad_time_ms': 656.522, 'update_time_ms': 2.232, 'sample_time_ms': 34026.634}",2025-08-31_14-20-40,cda-server-4,34.25908637046814,14820,1756642840,10.157.146.4,False,79771.90593910217,1200
+2471,-608.157418371154,2471,2965200,{},-721.5089493229711,2965200,0,79806.5790605545,-444.7383178213038,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2965200, 'default': {'kl': 0.01016635075211525, 'policy_loss': -0.13941065967082977, 'vf_loss': 129.3541717529297, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.982863187789917, 'entropy': 3.5361833572387695, 'cur_lr': 4.999999873689376e-05, 'total_loss': 129.23019409179688}, 'load_time_ms': 0.655, 'num_steps_sampled': 2965200, 'grad_time_ms': 650.933, 'update_time_ms': 2.209, 'sample_time_ms': 33833.491}",2025-08-31_14-21-15,cda-server-4,34.67312145233154,14826,1756642875,10.157.146.4,False,79806.5790605545,1200
+2472,-607.7779594483343,2472,2966400,{},-721.5089493229711,2966400,0,79841.55003476143,-444.7383178213038,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2966400, 'default': {'kl': 0.00967688113451004, 'policy_loss': -0.13172781467437744, 'vf_loss': 93.10260772705078, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9896279573440552, 'entropy': 3.4280357360839844, 'cur_lr': 4.999999873689376e-05, 'total_loss': 92.9855728149414}, 'load_time_ms': 0.638, 'num_steps_sampled': 2966400, 'grad_time_ms': 660.693, 'update_time_ms': 2.217, 'sample_time_ms': 33924.053}",2025-08-31_14-21-50,cda-server-4,34.97097420692444,14832,1756642910,10.157.146.4,False,79841.55003476143,1200
+2473,-607.1591703620758,2473,2967600,{},-721.5089493229711,2967600,0,79875.46872878075,-444.7383178213038,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2967600, 'default': {'kl': 0.009931309148669243, 'policy_loss': -0.14112788438796997, 'vf_loss': 104.398681640625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9880736470222473, 'entropy': 3.540977954864502, 'cur_lr': 4.999999873689376e-05, 'total_loss': 104.27262878417969}, 'load_time_ms': 0.645, 'num_steps_sampled': 2967600, 'grad_time_ms': 669.875, 'update_time_ms': 2.266, 'sample_time_ms': 33942.135}",2025-08-31_14-22-24,cda-server-4,33.91869401931763,14838,1756642944,10.157.146.4,False,79875.46872878075,1200
+2474,-609.0922475463658,2474,2968800,{},-797.5765583045411,2968800,0,79909.74099636078,-444.7383178213038,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2968800, 'default': {'kl': 0.010129735805094242, 'policy_loss': -0.1295924037694931, 'vf_loss': 906.1040649414062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9301731586456299, 'entropy': 3.9988033771514893, 'cur_lr': 4.999999873689376e-05, 'total_loss': 905.9898071289062}, 'load_time_ms': 0.675, 'num_steps_sampled': 2968800, 'grad_time_ms': 686.686, 'update_time_ms': 2.302, 'sample_time_ms': 33862.637}",2025-08-31_14-22-58,cda-server-4,34.27226758003235,14844,1756642978,10.157.146.4,False,79909.74099636078,1200
+2475,-607.5349313265336,2475,2970000,{},-797.5765583045411,2970000,0,79944.85533499718,-444.7383178213038,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2970000, 'default': {'kl': 0.013055241666734219, 'policy_loss': -0.15695516765117645, 'vf_loss': 314.5657958984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9795429706573486, 'entropy': 3.604891061782837, 'cur_lr': 4.999999873689376e-05, 'total_loss': 314.4285888671875}, 'load_time_ms': 0.672, 'num_steps_sampled': 2970000, 'grad_time_ms': 697.987, 'update_time_ms': 2.339, 'sample_time_ms': 33874.485}",2025-08-31_14-23-33,cda-server-4,35.114338636398315,14850,1756643013,10.157.146.4,False,79944.85533499718,1200
+2476,-606.7912312960523,2476,2971200,{},-797.5765583045411,2971200,0,79979.73590445518,-444.7383178213038,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2971200, 'default': {'kl': 0.008204095996916294, 'policy_loss': -0.13082976639270782, 'vf_loss': 286.29095458984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9760956168174744, 'entropy': 3.528761863708496, 'cur_lr': 4.999999873689376e-05, 'total_loss': 286.1725769042969}, 'load_time_ms': 0.668, 'num_steps_sampled': 2971200, 'grad_time_ms': 693.296, 'update_time_ms': 2.281, 'sample_time_ms': 33932.85}",2025-08-31_14-24-08,cda-server-4,34.88056945800781,14856,1756643048,10.157.146.4,False,79979.73590445518,1200
+2477,-606.9435594352951,2477,2972400,{},-797.5765583045411,2972400,0,80013.6195321083,-444.7383178213038,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2972400, 'default': {'kl': 0.011783086694777012, 'policy_loss': -0.15597623586654663, 'vf_loss': 203.25189208984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9729734063148499, 'entropy': 3.624067544937134, 'cur_lr': 4.999999873689376e-05, 'total_loss': 203.1138153076172}, 'load_time_ms': 0.685, 'num_steps_sampled': 2972400, 'grad_time_ms': 678.36, 'update_time_ms': 2.3, 'sample_time_ms': 33919.269}",2025-08-31_14-24-42,cda-server-4,33.88362765312195,14862,1756643082,10.157.146.4,False,80013.6195321083,1200
+2478,-608.511550615696,2478,2973600,{},-797.5765583045411,2973600,0,80047.75284337997,-469.9236852373702,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2973600, 'default': {'kl': 0.011727129109203815, 'policy_loss': -0.14770187437534332, 'vf_loss': 125.53726959228516, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9862837195396423, 'entropy': 3.524594306945801, 'cur_lr': 4.999999873689376e-05, 'total_loss': 125.40737915039062}, 'load_time_ms': 0.645, 'num_steps_sampled': 2973600, 'grad_time_ms': 649.219, 'update_time_ms': 2.276, 'sample_time_ms': 33869.659}",2025-08-31_14-25-16,cda-server-4,34.13331127166748,14868,1756643116,10.157.146.4,False,80047.75284337997,1200
+2479,-609.2082838887954,2479,2974800,{},-797.5765583045411,2974800,0,80082.08250713348,-469.9236852373702,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2974800, 'default': {'kl': 0.009477641433477402, 'policy_loss': -0.13770507276058197, 'vf_loss': 69.97554779052734, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9905840754508972, 'entropy': 3.5348989963531494, 'cur_lr': 4.999999873689376e-05, 'total_loss': 69.85223388671875}, 'load_time_ms': 0.634, 'num_steps_sampled': 2974800, 'grad_time_ms': 633.767, 'update_time_ms': 2.201, 'sample_time_ms': 33803.072}",2025-08-31_14-25-50,cda-server-4,34.32966375350952,14874,1756643150,10.157.146.4,False,80082.08250713348,1200
+2480,-609.6306681625716,2480,2976000,{},-797.5765583045411,2976000,0,80115.6977379322,-469.9236852373702,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2976000, 'default': {'kl': 0.01265267375856638, 'policy_loss': -0.1573231965303421, 'vf_loss': 55.18659210205078, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9924275279045105, 'entropy': 3.59063458442688, 'cur_lr': 4.999999873689376e-05, 'total_loss': 55.04848098754883}, 'load_time_ms': 0.639, 'num_steps_sampled': 2976000, 'grad_time_ms': 612.207, 'update_time_ms': 2.217, 'sample_time_ms': 33760.137}",2025-08-31_14-26-24,cda-server-4,33.61523079872131,14880,1756643184,10.157.146.4,False,80115.6977379322,1200
+2481,-609.0958389996391,2481,2977200,{},-797.5765583045411,2977200,0,80149.72322773933,-469.9236852373702,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2977200, 'default': {'kl': 0.01037217490375042, 'policy_loss': -0.126481294631958, 'vf_loss': 79.70258331298828, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9908556342124939, 'entropy': 3.5161616802215576, 'cur_lr': 4.999999873689376e-05, 'total_loss': 79.59185791015625}, 'load_time_ms': 0.641, 'num_steps_sampled': 2977200, 'grad_time_ms': 591.916, 'update_time_ms': 2.405, 'sample_time_ms': 33715.345}",2025-08-31_14-26-58,cda-server-4,34.025489807128906,14886,1756643218,10.157.146.4,False,80149.72322773933,1200
+2482,-609.3690886327862,2482,2978400,{},-797.5765583045411,2978400,0,80184.95820951462,-469.9236852373702,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2978400, 'default': {'kl': 0.010618913918733597, 'policy_loss': -0.14455682039260864, 'vf_loss': 59.33656311035156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9945574998855591, 'entropy': 3.5150818824768066, 'cur_lr': 4.999999873689376e-05, 'total_loss': 59.20813751220703}, 'load_time_ms': 0.67, 'num_steps_sampled': 2978400, 'grad_time_ms': 576.618, 'update_time_ms': 2.492, 'sample_time_ms': 33756.887}",2025-08-31_14-27-33,cda-server-4,35.23498177528381,14892,1756643253,10.157.146.4,False,80184.95820951462,1200
+2483,-610.638580675095,2483,2979600,{},-797.5765583045411,2979600,0,80220.00656318665,-469.9236852373702,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2979600, 'default': {'kl': 0.012342792004346848, 'policy_loss': -0.1593686044216156, 'vf_loss': 23.11832046508789, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9969528913497925, 'entropy': 3.592705249786377, 'cur_lr': 4.999999873689376e-05, 'total_loss': 22.97769546508789}, 'load_time_ms': 0.683, 'num_steps_sampled': 2979600, 'grad_time_ms': 574.876, 'update_time_ms': 2.536, 'sample_time_ms': 33871.484}",2025-08-31_14-28-08,cda-server-4,35.04835367202759,14898,1756643288,10.157.146.4,False,80220.00656318665,1200
+2484,-610.9524751405183,2484,2980800,{},-797.5765583045411,2980800,0,80253.74291753769,-460.14932028104374,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2980800, 'default': {'kl': 0.010878296568989754, 'policy_loss': -0.14265868067741394, 'vf_loss': 328.0993957519531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9543583393096924, 'entropy': 3.596635580062866, 'cur_lr': 4.999999873689376e-05, 'total_loss': 327.9732666015625}, 'load_time_ms': 0.647, 'num_steps_sampled': 2980800, 'grad_time_ms': 570.317, 'update_time_ms': 2.573, 'sample_time_ms': 33822.456}",2025-08-31_14-28-42,cda-server-4,33.7363543510437,14904,1756643322,10.157.146.4,False,80253.74291753769,1200
+2485,-610.8018478046985,2485,2982000,{},-797.5765583045411,2982000,0,80288.21447920799,-460.14932028104374,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2982000, 'default': {'kl': 0.01001213863492012, 'policy_loss': -0.1389392614364624, 'vf_loss': 209.43264770507812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9733593463897705, 'entropy': 3.757014274597168, 'cur_lr': 4.999999873689376e-05, 'total_loss': 209.3089141845703}, 'load_time_ms': 0.651, 'num_steps_sampled': 2982000, 'grad_time_ms': 555.633, 'update_time_ms': 2.476, 'sample_time_ms': 33772.982}",2025-08-31_14-29-16,cda-server-4,34.471561670303345,14910,1756643356,10.157.146.4,False,80288.21447920799,1200
+2486,-610.2107317037454,2486,2983200,{},-797.5765583045411,2983200,0,80322.86632633209,-460.14932028104374,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2983200, 'default': {'kl': 0.01272033341228962, 'policy_loss': -0.14423248171806335, 'vf_loss': 52.70299530029297, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9952693581581116, 'entropy': 3.4853408336639404, 'cur_lr': 4.999999873689376e-05, 'total_loss': 52.57807922363281}, 'load_time_ms': 0.66, 'num_steps_sampled': 2983200, 'grad_time_ms': 548.142, 'update_time_ms': 2.499, 'sample_time_ms': 33757.532}",2025-08-31_14-29-51,cda-server-4,34.65184712409973,14916,1756643391,10.157.146.4,False,80322.86632633209,1200
+2487,-610.3434073317355,2487,2984400,{},-797.5765583045411,2984400,0,80357.44107317924,-460.14932028104374,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2984400, 'default': {'kl': 0.009326201863586903, 'policy_loss': -0.11058944463729858, 'vf_loss': 202.3509979248047, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9752291440963745, 'entropy': 3.600501537322998, 'cur_lr': 4.999999873689376e-05, 'total_loss': 202.25457763671875}, 'load_time_ms': 0.68, 'num_steps_sampled': 2984400, 'grad_time_ms': 565.76, 'update_time_ms': 2.547, 'sample_time_ms': 33808.888}",2025-08-31_14-30-26,cda-server-4,34.57474684715271,14922,1756643426,10.157.146.4,False,80357.44107317924,1200
+2488,-611.6521409440339,2488,2985600,{},-797.5765583045411,2985600,0,80391.58904075623,-460.14932028104374,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2985600, 'default': {'kl': 0.012404636479914188, 'policy_loss': -0.15676356852054596, 'vf_loss': 60.63046646118164, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9921267032623291, 'entropy': 3.73186993598938, 'cur_lr': 4.999999873689376e-05, 'total_loss': 60.49253845214844}, 'load_time_ms': 0.683, 'num_steps_sampled': 2985600, 'grad_time_ms': 574.107, 'update_time_ms': 2.554, 'sample_time_ms': 33801.887}",2025-08-31_14-31-00,cda-server-4,34.14796757698059,14928,1756643460,10.157.146.4,False,80391.58904075623,1200
+2489,-612.2539200723073,2489,2986800,{},-797.5765583045411,2986800,0,80426.89475512505,-460.14932028104374,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2986800, 'default': {'kl': 0.01231978740543127, 'policy_loss': -0.14545938372612, 'vf_loss': 32.468929290771484, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9965823292732239, 'entropy': 3.60874605178833, 'cur_lr': 4.999999873689376e-05, 'total_loss': 32.34217834472656}, 'load_time_ms': 0.721, 'num_steps_sampled': 2986800, 'grad_time_ms': 581.514, 'update_time_ms': 2.707, 'sample_time_ms': 33891.812}",2025-08-31_14-31-35,cda-server-4,35.30571436882019,14934,1756643495,10.157.146.4,False,80426.89475512505,1200
+2490,-610.5666332209026,2490,2988000,{},-654.6224625973563,2988000,0,80461.87856054306,-460.14932028104374,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2988000, 'default': {'kl': 0.012261051684617996, 'policy_loss': -0.14396785199642181, 'vf_loss': 113.31903076171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9854457378387451, 'entropy': 3.6730167865753174, 'cur_lr': 4.999999873689376e-05, 'total_loss': 113.19367980957031}, 'load_time_ms': 0.719, 'num_steps_sampled': 2988000, 'grad_time_ms': 603.747, 'update_time_ms': 2.684, 'sample_time_ms': 34006.555}",2025-08-31_14-32-10,cda-server-4,34.983805418014526,14940,1756643530,10.157.146.4,False,80461.87856054306,1200
+2491,-611.3826576113847,2491,2989200,{},-654.6224625973563,2989200,0,80496.55961465836,-460.14932028104374,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2989200, 'default': {'kl': 0.011785872280597687, 'policy_loss': -0.16632264852523804, 'vf_loss': 513.510986328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.955713152885437, 'entropy': 3.715278148651123, 'cur_lr': 4.999999873689376e-05, 'total_loss': 513.362548828125}, 'load_time_ms': 0.716, 'num_steps_sampled': 2989200, 'grad_time_ms': 622.986, 'update_time_ms': 2.542, 'sample_time_ms': 34053.131}",2025-08-31_14-32-45,cda-server-4,34.68105411529541,14946,1756643565,10.157.146.4,False,80496.55961465836,1200
+2492,-613.2006838823398,2492,2990400,{},-721.2173621575693,2990400,0,80531.05889821053,-460.14932028104374,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2990400, 'default': {'kl': 0.012360276654362679, 'policy_loss': -0.16078411042690277, 'vf_loss': 431.1946716308594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9736529588699341, 'entropy': 3.834649085998535, 'cur_lr': 4.999999873689376e-05, 'total_loss': 431.0526428222656}, 'load_time_ms': 0.688, 'num_steps_sampled': 2990400, 'grad_time_ms': 637.861, 'update_time_ms': 2.505, 'sample_time_ms': 33964.826}",2025-08-31_14-33-19,cda-server-4,34.4992835521698,14952,1756643599,10.157.146.4,False,80531.05889821053,1200
+2493,-612.5289085327302,2493,2991600,{},-721.2173621575693,2991600,0,80566.08734679222,-460.14932028104374,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2991600, 'default': {'kl': 0.010487610474228859, 'policy_loss': -0.13616794347763062, 'vf_loss': 237.533935546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9740204215049744, 'entropy': 3.4605398178100586, 'cur_lr': 4.999999873689376e-05, 'total_loss': 237.41368103027344}, 'load_time_ms': 0.665, 'num_steps_sampled': 2991600, 'grad_time_ms': 650.947, 'update_time_ms': 2.549, 'sample_time_ms': 33949.811}",2025-08-31_14-33-55,cda-server-4,35.02844858169556,14958,1756643635,10.157.146.4,False,80566.08734679222,1200
+2494,-612.3197363392148,2494,2992800,{},-721.2173621575693,2992800,0,80600.58452987671,-460.14932028104374,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2992800, 'default': {'kl': 0.011888546869158745, 'policy_loss': -0.1504017412662506, 'vf_loss': 314.55950927734375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9688450694084167, 'entropy': 3.5143377780914307, 'cur_lr': 4.999999873689376e-05, 'total_loss': 314.4271545410156}, 'load_time_ms': 0.669, 'num_steps_sampled': 2992800, 'grad_time_ms': 658.947, 'update_time_ms': 2.536, 'sample_time_ms': 34017.943}",2025-08-31_14-34-29,cda-server-4,34.497183084487915,14964,1756643669,10.157.146.4,False,80600.58452987671,1200
+2495,-613.2066540508156,2495,2994000,{},-796.6699741587374,2994000,0,80633.98405337334,-460.14932028104374,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2994000, 'default': {'kl': 0.013329599052667618, 'policy_loss': -0.1507384181022644, 'vf_loss': 339.5643310546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9685428142547607, 'entropy': 3.8683271408081055, 'cur_lr': 4.999999873689376e-05, 'total_loss': 339.4338073730469}, 'load_time_ms': 0.668, 'num_steps_sampled': 2994000, 'grad_time_ms': 657.958, 'update_time_ms': 2.611, 'sample_time_ms': 33911.574}",2025-08-31_14-35-02,cda-server-4,33.39952349662781,14970,1756643702,10.157.146.4,False,80633.98405337334,1200
+2496,-613.2781309854406,2496,2995200,{},-796.6699741587374,2995200,0,80669.01769304276,-460.14932028104374,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2995200, 'default': {'kl': 0.01193135417997837, 'policy_loss': -0.1522330641746521, 'vf_loss': 511.2022705078125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.977157473564148, 'entropy': 3.5214173793792725, 'cur_lr': 4.999999873689376e-05, 'total_loss': 511.0680847167969}, 'load_time_ms': 0.659, 'num_steps_sampled': 2995200, 'grad_time_ms': 674.68, 'update_time_ms': 2.624, 'sample_time_ms': 33933.044}",2025-08-31_14-35-37,cda-server-4,35.033639669418335,14976,1756643737,10.157.146.4,False,80669.01769304276,1200
+2497,-613.2256691893211,2497,2996400,{},-796.6699741587374,2996400,0,80703.52129721642,-460.14932028104374,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2996400, 'default': {'kl': 0.01150740496814251, 'policy_loss': -0.14637181162834167, 'vf_loss': 196.51158142089844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9797389507293701, 'entropy': 3.409749746322632, 'cur_lr': 4.999999873689376e-05, 'total_loss': 196.38267517089844}, 'load_time_ms': 0.623, 'num_steps_sampled': 2996400, 'grad_time_ms': 678.876, 'update_time_ms': 2.676, 'sample_time_ms': 33921.811}",2025-08-31_14-36-12,cda-server-4,34.50360417366028,14982,1756643772,10.157.146.4,False,80703.52129721642,1200
+2498,-612.3499815145177,2498,2997600,{},-796.6699741587374,2997600,0,80738.42677998543,-460.14932028104374,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2997600, 'default': {'kl': 0.010404744185507298, 'policy_loss': -0.136752650141716, 'vf_loss': 420.0688171386719, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9448535442352295, 'entropy': 3.503389358520508, 'cur_lr': 4.999999873689376e-05, 'total_loss': 419.9478759765625}, 'load_time_ms': 0.631, 'num_steps_sampled': 2997600, 'grad_time_ms': 698.249, 'update_time_ms': 2.664, 'sample_time_ms': 33978.232}",2025-08-31_14-36-47,cda-server-4,34.90548276901245,14988,1756643807,10.157.146.4,False,80738.42677998543,1200
+2499,-610.5569011290717,2499,2998800,{},-796.6699741587374,2998800,0,80772.84814572334,-460.14932028104374,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 2998800, 'default': {'kl': 0.01084558479487896, 'policy_loss': -0.15051908791065216, 'vf_loss': 395.1643981933594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9664489030838013, 'entropy': 3.518019437789917, 'cur_lr': 4.999999873689376e-05, 'total_loss': 395.0303649902344}, 'load_time_ms': 0.594, 'num_steps_sampled': 2998800, 'grad_time_ms': 692.394, 'update_time_ms': 2.53, 'sample_time_ms': 33895.914}",2025-08-31_14-37-21,cda-server-4,34.42136573791504,14994,1756643841,10.157.146.4,False,80772.84814572334,1200
+2500,-611.0473227222188,2500,3000000,{},-796.6699741587374,3000000,0,80807.57797527313,-460.14932028104374,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3000000, 'default': {'kl': 0.010683962143957615, 'policy_loss': -0.14605076611042023, 'vf_loss': 550.3936157226562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9269337058067322, 'entropy': 3.5468950271606445, 'cur_lr': 4.999999873689376e-05, 'total_loss': 550.2638549804688}, 'load_time_ms': 0.594, 'num_steps_sampled': 3000000, 'grad_time_ms': 693.627, 'update_time_ms': 2.498, 'sample_time_ms': 33869.289}",2025-08-31_14-37-56,cda-server-4,34.72982954978943,15000,1756643876,10.157.146.4,False,80807.57797527313,1200
+2501,-611.8555316204855,2501,3001200,{},-796.6699741587374,3001200,0,80841.66796326637,-469.53368753762345,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3001200, 'default': {'kl': 0.009082157164812088, 'policy_loss': -0.12285184860229492, 'vf_loss': 42.07218551635742, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9932885766029358, 'entropy': 3.286504030227661, 'cur_lr': 4.999999873689376e-05, 'total_loss': 41.96312713623047}, 'load_time_ms': 0.632, 'num_steps_sampled': 3001200, 'grad_time_ms': 676.62, 'update_time_ms': 2.461, 'sample_time_ms': 33827.066}",2025-08-31_14-38-30,cda-server-4,34.089987993240356,15006,1756643910,10.157.146.4,False,80841.66796326637,1200
+2502,-611.9397019369349,2502,3002400,{},-796.6699741587374,3002400,0,80875.79305672646,-469.53368753762345,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3002400, 'default': {'kl': 0.008942322805523872, 'policy_loss': -0.11085336655378342, 'vf_loss': 56.72688674926758, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9951449632644653, 'entropy': 3.5709524154663086, 'cur_lr': 4.999999873689376e-05, 'total_loss': 56.629615783691406}, 'load_time_ms': 0.63, 'num_steps_sampled': 3002400, 'grad_time_ms': 670.705, 'update_time_ms': 2.465, 'sample_time_ms': 33795.478}",2025-08-31_14-39-04,cda-server-4,34.12509346008301,15012,1756643944,10.157.146.4,False,80875.79305672646,1200
+2503,-612.540967927348,2503,3003600,{},-796.6699741587374,3003600,0,80910.79975414276,-469.53368753762345,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3003600, 'default': {'kl': 0.010089773684740067, 'policy_loss': -0.13456933200359344, 'vf_loss': 321.0320739746094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9600859880447388, 'entropy': 3.458907127380371, 'cur_lr': 4.999999873689376e-05, 'total_loss': 320.9128112792969}, 'load_time_ms': 0.631, 'num_steps_sampled': 3003600, 'grad_time_ms': 666.428, 'update_time_ms': 2.356, 'sample_time_ms': 33797.633}",2025-08-31_14-39-39,cda-server-4,35.00669741630554,15018,1756643979,10.157.146.4,False,80910.79975414276,1200
+2504,-611.9106345049964,2504,3004800,{},-796.6699741587374,3004800,0,80945.0724811554,-469.53368753762345,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3004800, 'default': {'kl': 0.011816016398370266, 'policy_loss': -0.14297275245189667, 'vf_loss': 19.685558319091797, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9975197911262512, 'entropy': 3.3250479698181152, 'cur_lr': 4.999999873689376e-05, 'total_loss': 19.560531616210938}, 'load_time_ms': 0.627, 'num_steps_sampled': 3004800, 'grad_time_ms': 667.398, 'update_time_ms': 2.371, 'sample_time_ms': 33774.163}",2025-08-31_14-40-14,cda-server-4,34.27272701263428,15024,1756644014,10.157.146.4,False,80945.0724811554,1200
+2505,-611.4790646731981,2505,3006000,{},-796.6699741587374,3006000,0,80979.8877491951,-469.53368753762345,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3006000, 'default': {'kl': 0.0135931596159935, 'policy_loss': -0.16628962755203247, 'vf_loss': 64.84346008300781, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.993646502494812, 'entropy': 3.4387457370758057, 'cur_lr': 4.999999873689376e-05, 'total_loss': 64.69781494140625}, 'load_time_ms': 0.629, 'num_steps_sampled': 3006000, 'grad_time_ms': 680.21, 'update_time_ms': 2.377, 'sample_time_ms': 33902.988}",2025-08-31_14-40-49,cda-server-4,34.81526803970337,15030,1756644049,10.157.146.4,False,80979.8877491951,1200
+2506,-611.2127196196383,2506,3007200,{},-796.6699741587374,3007200,0,81014.55414962769,-469.53368753762345,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3007200, 'default': {'kl': 0.01172038447111845, 'policy_loss': -0.1307011991739273, 'vf_loss': 92.2841796875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9914729595184326, 'entropy': 3.524360179901123, 'cur_lr': 4.999999873689376e-05, 'total_loss': 92.17127990722656}, 'load_time_ms': 0.623, 'num_steps_sampled': 3007200, 'grad_time_ms': 673.62, 'update_time_ms': 2.325, 'sample_time_ms': 33872.882}",2025-08-31_14-41-23,cda-server-4,34.66640043258667,15036,1756644083,10.157.146.4,False,81014.55414962769,1200
+2507,-610.679623091,2507,3008400,{},-796.6699741587374,3008400,0,81050.09147500992,-469.53368753762345,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3008400, 'default': {'kl': 0.010441215708851814, 'policy_loss': -0.13331206142902374, 'vf_loss': 117.50896453857422, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9859945774078369, 'entropy': 3.495600700378418, 'cur_lr': 4.999999873689376e-05, 'total_loss': 117.39151763916016}, 'load_time_ms': 0.657, 'num_steps_sampled': 3008400, 'grad_time_ms': 672.632, 'update_time_ms': 2.259, 'sample_time_ms': 33977.255}",2025-08-31_14-41-59,cda-server-4,35.537325382232666,15042,1756644119,10.157.146.4,False,81050.09147500992,1200
+2508,-609.8697069498721,2508,3009600,{},-796.6699741587374,3009600,0,81084.97846341133,-469.53368753762345,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3009600, 'default': {'kl': 0.008282299153506756, 'policy_loss': -0.12761592864990234, 'vf_loss': 206.95574951171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9683922529220581, 'entropy': 3.354384183883667, 'cur_lr': 4.999999873689376e-05, 'total_loss': 206.84071350097656}, 'load_time_ms': 0.685, 'num_steps_sampled': 3009600, 'grad_time_ms': 672.326, 'update_time_ms': 2.29, 'sample_time_ms': 33975.604}",2025-08-31_14-42-34,cda-server-4,34.886988401412964,15048,1756644154,10.157.146.4,False,81084.97846341133,1200
+2509,-609.8134271322964,2509,3010800,{},-796.6699741587374,3010800,0,81118.80236983299,-526.3448382836773,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3010800, 'default': {'kl': 0.010214090347290039, 'policy_loss': -0.11573966592550278, 'vf_loss': 178.93673706054688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9823654890060425, 'entropy': 3.3477277755737305, 'cur_lr': 4.999999873689376e-05, 'total_loss': 178.83651733398438}, 'load_time_ms': 0.682, 'num_steps_sampled': 3010800, 'grad_time_ms': 675.731, 'update_time_ms': 2.36, 'sample_time_ms': 33912.446}",2025-08-31_14-43-07,cda-server-4,33.82390642166138,15054,1756644187,10.157.146.4,False,81118.80236983299,1200
+2510,-612.0558115701659,2510,3012000,{},-796.6699741587374,3012000,0,81153.34612226486,-526.3448382836773,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3012000, 'default': {'kl': 0.00828276202082634, 'policy_loss': -0.12593761086463928, 'vf_loss': 198.14260864257812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9823911190032959, 'entropy': 3.70815372467041, 'cur_lr': 4.999999873689376e-05, 'total_loss': 198.02923583984375}, 'load_time_ms': 0.678, 'num_steps_sampled': 3012000, 'grad_time_ms': 672.71, 'update_time_ms': 2.345, 'sample_time_ms': 33896.934}",2025-08-31_14-43-42,cda-server-4,34.54375243186951,15060,1756644222,10.157.146.4,False,81153.34612226486,1200
+2511,-609.6084441380201,2511,3013200,{},-793.2232236790828,3013200,0,81188.04008340836,-526.3448382836773,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3013200, 'default': {'kl': 0.010900570079684258, 'policy_loss': -0.12873710691928864, 'vf_loss': 21.63641357421875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9970953464508057, 'entropy': 3.462925910949707, 'cur_lr': 4.999999873689376e-05, 'total_loss': 21.52423095703125}, 'load_time_ms': 0.642, 'num_steps_sampled': 3013200, 'grad_time_ms': 669.108, 'update_time_ms': 2.327, 'sample_time_ms': 33961.091}",2025-08-31_14-44-17,cda-server-4,34.69396114349365,15066,1756644257,10.157.146.4,False,81188.04008340836,1200
+2512,-610.4712559299978,2512,3014400,{},-793.2232236790828,3014400,0,81222.0899913311,-526.9736120823342,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3014400, 'default': {'kl': 0.010757103562355042, 'policy_loss': -0.11398442834615707, 'vf_loss': 278.27166748046875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9650084972381592, 'entropy': 3.2798502445220947, 'cur_lr': 4.999999873689376e-05, 'total_loss': 278.1740417480469}, 'load_time_ms': 0.642, 'num_steps_sampled': 3014400, 'grad_time_ms': 660.447, 'update_time_ms': 2.275, 'sample_time_ms': 33962.398}",2025-08-31_14-44-51,cda-server-4,34.04990792274475,15072,1756644291,10.157.146.4,False,81222.0899913311,1200
+2513,-610.8339558886963,2513,3015600,{},-793.2232236790828,3015600,0,81255.82265210152,-526.9736120823342,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3015600, 'default': {'kl': 0.013243849389255047, 'policy_loss': -0.1576230525970459, 'vf_loss': 39.07477951049805, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9954025745391846, 'entropy': 3.346946954727173, 'cur_lr': 4.999999873689376e-05, 'total_loss': 38.93727111816406}, 'load_time_ms': 0.647, 'num_steps_sampled': 3015600, 'grad_time_ms': 651.532, 'update_time_ms': 2.285, 'sample_time_ms': 33843.937}",2025-08-31_14-45-25,cda-server-4,33.73266077041626,15078,1756644325,10.157.146.4,False,81255.82265210152,1200
+2514,-609.65859040473,2514,3016800,{},-793.2232236790828,3016800,0,81290.88964867592,-484.2258931115029,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3016800, 'default': {'kl': 0.01242965366691351, 'policy_loss': -0.15676827728748322, 'vf_loss': 314.1180114746094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9697352647781372, 'entropy': 3.310091972351074, 'cur_lr': 4.999999873689376e-05, 'total_loss': 313.9801330566406}, 'load_time_ms': 0.653, 'num_steps_sampled': 3016800, 'grad_time_ms': 629.715, 'update_time_ms': 2.266, 'sample_time_ms': 33945.253}",2025-08-31_14-46-00,cda-server-4,35.066996574401855,15084,1756644360,10.157.146.4,False,81290.88964867592,1200
+2515,-610.5687988546744,2515,3018000,{},-793.2232236790828,3018000,0,81325.62909722328,-484.2258931115029,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3018000, 'default': {'kl': 0.01155807450413704, 'policy_loss': -0.14629629254341125, 'vf_loss': 50.261314392089844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9936119914054871, 'entropy': 3.3489410877227783, 'cur_lr': 4.999999873689376e-05, 'total_loss': 50.132568359375}, 'load_time_ms': 0.652, 'num_steps_sampled': 3018000, 'grad_time_ms': 616.202, 'update_time_ms': 2.22, 'sample_time_ms': 33951.049}",2025-08-31_14-46-34,cda-server-4,34.73944854736328,15090,1756644394,10.157.146.4,False,81325.62909722328,1200
+2516,-611.4498767378896,2516,3019200,{},-793.2232236790828,3019200,0,81359.78460550308,-484.2258931115029,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3019200, 'default': {'kl': 0.011559166945517063, 'policy_loss': -0.15158069133758545, 'vf_loss': 408.34765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9635851383209229, 'entropy': 3.6552281379699707, 'cur_lr': 4.999999873689376e-05, 'total_loss': 408.2136535644531}, 'load_time_ms': 0.693, 'num_steps_sampled': 3019200, 'grad_time_ms': 601.057, 'update_time_ms': 2.247, 'sample_time_ms': 33915.006}",2025-08-31_14-47-09,cda-server-4,34.155508279800415,15096,1756644429,10.157.146.4,False,81359.78460550308,1200
+2517,-610.8898250025115,2517,3020400,{},-793.2232236790828,3020400,0,81394.1995344162,-484.2258931115029,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3020400, 'default': {'kl': 0.013193611055612564, 'policy_loss': -0.15473991632461548, 'vf_loss': 75.16090393066406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.991652250289917, 'entropy': 3.51417875289917, 'cur_lr': 4.999999873689376e-05, 'total_loss': 75.02619934082031}, 'load_time_ms': 0.659, 'num_steps_sampled': 3020400, 'grad_time_ms': 588.292, 'update_time_ms': 2.191, 'sample_time_ms': 33815.629}",2025-08-31_14-47-43,cda-server-4,34.414928913116455,15102,1756644463,10.157.146.4,False,81394.1995344162,1200
+2518,-611.287012671302,2518,3021600,{},-793.2232236790828,3021600,0,81428.90459012985,-484.2258931115029,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3021600, 'default': {'kl': 0.009964029304683208, 'policy_loss': -0.13784806430339813, 'vf_loss': 198.82171630859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9724494218826294, 'entropy': 3.425177574157715, 'cur_lr': 4.999999873689376e-05, 'total_loss': 198.69900512695312}, 'load_time_ms': 0.62, 'num_steps_sampled': 3021600, 'grad_time_ms': 576.276, 'update_time_ms': 2.147, 'sample_time_ms': 33809.57}",2025-08-31_14-48-18,cda-server-4,34.705055713653564,15108,1756644498,10.157.146.4,False,81428.90459012985,1200
+2519,-611.4504107582009,2519,3022800,{},-793.2232236790828,3022800,0,81463.73177194595,-484.2258931115029,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3022800, 'default': {'kl': 0.01062131766229868, 'policy_loss': -0.1463819444179535, 'vf_loss': 70.99542999267578, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.992172360420227, 'entropy': 3.4053752422332764, 'cur_lr': 4.999999873689376e-05, 'total_loss': 70.86518096923828}, 'load_time_ms': 0.658, 'num_steps_sampled': 3022800, 'grad_time_ms': 581.986, 'update_time_ms': 2.143, 'sample_time_ms': 33904.015}",2025-08-31_14-48-53,cda-server-4,34.827181816101074,15114,1756644533,10.157.146.4,False,81463.73177194595,1200
+2520,-610.1900034054137,2520,3024000,{},-793.2232236790828,3024000,0,81497.85386562347,-484.2258931115029,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3024000, 'default': {'kl': 0.013441496528685093, 'policy_loss': -0.1637830138206482, 'vf_loss': 458.5948486328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.95313960313797, 'entropy': 3.38854718208313, 'cur_lr': 4.999999873689376e-05, 'total_loss': 458.4514465332031}, 'load_time_ms': 0.659, 'num_steps_sampled': 3024000, 'grad_time_ms': 576.085, 'update_time_ms': 2.222, 'sample_time_ms': 33867.659}",2025-08-31_14-49-27,cda-server-4,34.12209367752075,15120,1756644567,10.157.146.4,False,81497.85386562347,1200
+2521,-609.4347531752165,2521,3025200,{},-793.2232236790828,3025200,0,81533.05271911621,-484.2258931115029,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3025200, 'default': {'kl': 0.012599604204297066, 'policy_loss': -0.15509560704231262, 'vf_loss': 88.07687377929688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9923110604286194, 'entropy': 3.43487811088562, 'cur_lr': 4.999999873689376e-05, 'total_loss': 87.94091796875}, 'load_time_ms': 0.666, 'num_steps_sampled': 3025200, 'grad_time_ms': 596.375, 'update_time_ms': 2.217, 'sample_time_ms': 33897.917}",2025-08-31_14-50-02,cda-server-4,35.198853492736816,15126,1756644602,10.157.146.4,False,81533.05271911621,1200
+2522,-610.2015283465506,2522,3026400,{},-793.2232236790828,3026400,0,81567.78797793388,-484.2258931115029,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3026400, 'default': {'kl': 0.010566280223429203, 'policy_loss': -0.14598363637924194, 'vf_loss': 341.2807312011719, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9783260822296143, 'entropy': 3.544196844100952, 'cur_lr': 4.999999873689376e-05, 'total_loss': 341.1507568359375}, 'load_time_ms': 0.663, 'num_steps_sampled': 3026400, 'grad_time_ms': 588.175, 'update_time_ms': 2.243, 'sample_time_ms': 33974.533}",2025-08-31_14-50-37,cda-server-4,34.73525881767273,15132,1756644637,10.157.146.4,False,81567.78797793388,1200
+2523,-610.6225194991325,2523,3027600,{},-793.2232236790828,3027600,0,81601.84523582458,-484.2258931115029,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3027600, 'default': {'kl': 0.010125677101314068, 'policy_loss': -0.1330610066652298, 'vf_loss': 152.83584594726562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9757493138313293, 'entropy': 3.468173027038574, 'cur_lr': 4.999999873689376e-05, 'total_loss': 152.71815490722656}, 'load_time_ms': 0.66, 'num_steps_sampled': 3027600, 'grad_time_ms': 576.8, 'update_time_ms': 2.225, 'sample_time_ms': 34018.419}",2025-08-31_14-51-11,cda-server-4,34.057257890701294,15138,1756644671,10.157.146.4,False,81601.84523582458,1200
+2524,-610.5592738919402,2524,3028800,{},-793.2232236790828,3028800,0,81635.19900512695,-484.2258931115029,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3028800, 'default': {'kl': 0.011818038299679756, 'policy_loss': -0.1565084457397461, 'vf_loss': 49.58824920654297, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9924719333648682, 'entropy': 3.5525169372558594, 'cur_lr': 4.999999873689376e-05, 'total_loss': 49.44969177246094}, 'load_time_ms': 0.658, 'num_steps_sampled': 3028800, 'grad_time_ms': 576.896, 'update_time_ms': 2.191, 'sample_time_ms': 33847.019}",2025-08-31_14-51-44,cda-server-4,33.353769302368164,15144,1756644704,10.157.146.4,False,81635.19900512695,1200
+2525,-610.0206392776619,2525,3030000,{},-793.2232236790828,3030000,0,81669.77264428139,-484.2258931115029,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3030000, 'default': {'kl': 0.009507421404123306, 'policy_loss': -0.11747537553310394, 'vf_loss': 144.66697692871094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9761778712272644, 'entropy': 3.324625015258789, 'cur_lr': 4.999999873689376e-05, 'total_loss': 144.56394958496094}, 'load_time_ms': 0.651, 'num_steps_sampled': 3030000, 'grad_time_ms': 568.174, 'update_time_ms': 2.229, 'sample_time_ms': 33839.27}",2025-08-31_14-52-19,cda-server-4,34.573639154434204,15150,1756644739,10.157.146.4,False,81669.77264428139,1200
+2526,-611.2118265754308,2526,3031200,{},-793.2232236790828,3031200,0,81705.21549797058,-484.2258931115029,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3031200, 'default': {'kl': 0.01048082485795021, 'policy_loss': -0.135944664478302, 'vf_loss': 137.54359436035156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9920022487640381, 'entropy': 3.4980478286743164, 'cur_lr': 4.999999873689376e-05, 'total_loss': 137.42356872558594}, 'load_time_ms': 0.616, 'num_steps_sampled': 3031200, 'grad_time_ms': 590.04, 'update_time_ms': 2.253, 'sample_time_ms': 33946.079}",2025-08-31_14-52-54,cda-server-4,35.442853689193726,15156,1756644774,10.157.146.4,False,81705.21549797058,1200
+2527,-610.1090051600427,2527,3032400,{},-669.9579326299478,3032400,0,81738.93142104149,-484.2258931115029,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3032400, 'default': {'kl': 0.012672674842178822, 'policy_loss': -0.15305227041244507, 'vf_loss': 20.888933181762695, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9970818758010864, 'entropy': 3.5768191814422607, 'cur_lr': 4.999999873689376e-05, 'total_loss': 20.755126953125}, 'load_time_ms': 0.628, 'num_steps_sampled': 3032400, 'grad_time_ms': 603.168, 'update_time_ms': 2.294, 'sample_time_ms': 33862.979}",2025-08-31_14-53-28,cda-server-4,33.71592307090759,15162,1756644808,10.157.146.4,False,81738.93142104149,1200
+2528,-610.4909985629675,2528,3033600,{},-669.9579326299478,3033600,0,81773.39772677422,-484.2258931115029,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3033600, 'default': {'kl': 0.00987317319959402, 'policy_loss': -0.13773249089717865, 'vf_loss': 235.26715087890625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.971887469291687, 'entropy': 3.644749879837036, 'cur_lr': 4.999999873689376e-05, 'total_loss': 235.14442443847656}, 'load_time_ms': 0.639, 'num_steps_sampled': 3033600, 'grad_time_ms': 615.476, 'update_time_ms': 2.369, 'sample_time_ms': 33826.735}",2025-08-31_14-54-02,cda-server-4,34.46630573272705,15168,1756644842,10.157.146.4,False,81773.39772677422,1200
+2529,-609.8929285939294,2529,3034800,{},-669.9579326299478,3034800,0,81808.88496613503,-484.2258931115029,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3034800, 'default': {'kl': 0.012488448061048985, 'policy_loss': -0.15397171676158905, 'vf_loss': 115.20993041992188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9966320395469666, 'entropy': 3.422740936279297, 'cur_lr': 4.999999873689376e-05, 'total_loss': 115.07493591308594}, 'load_time_ms': 0.602, 'num_steps_sampled': 3034800, 'grad_time_ms': 613.441, 'update_time_ms': 2.329, 'sample_time_ms': 33894.941}",2025-08-31_14-54-38,cda-server-4,35.487239360809326,15174,1756644878,10.157.146.4,False,81808.88496613503,1200
+2530,-609.1840970027873,2530,3036000,{},-669.9579326299478,3036000,0,81843.79049706459,-484.2258931115029,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3036000, 'default': {'kl': 0.009962956421077251, 'policy_loss': -0.13616451621055603, 'vf_loss': 59.23115539550781, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9915740489959717, 'entropy': 3.35893177986145, 'cur_lr': 4.999999873689376e-05, 'total_loss': 59.11012649536133}, 'load_time_ms': 0.611, 'num_steps_sampled': 3036000, 'grad_time_ms': 620.21, 'update_time_ms': 2.333, 'sample_time_ms': 33966.486}",2025-08-31_14-55-13,cda-server-4,34.90553092956543,15180,1756644913,10.157.146.4,False,81843.79049706459,1200
+2531,-610.9769119404481,2531,3037200,{},-669.9579326299478,3037200,0,81877.53592848778,-520.6643424990391,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3037200, 'default': {'kl': 0.011642576195299625, 'policy_loss': -0.14133939146995544, 'vf_loss': 192.73036193847656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9855428338050842, 'entropy': 3.3602426052093506, 'cur_lr': 4.999999873689376e-05, 'total_loss': 192.60671997070312}, 'load_time_ms': 0.601, 'num_steps_sampled': 3037200, 'grad_time_ms': 610.156, 'update_time_ms': 2.448, 'sample_time_ms': 33830.98}",2025-08-31_14-55-47,cda-server-4,33.745431423187256,15186,1756644947,10.157.146.4,False,81877.53592848778,1200
+2532,-610.954332386594,2532,3038400,{},-669.9579326299478,3038400,0,81914.36928153038,-520.6643424990391,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3038400, 'default': {'kl': 0.011980145238339901, 'policy_loss': -0.1454308182001114, 'vf_loss': 268.4280090332031, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9741908311843872, 'entropy': 3.324127197265625, 'cur_lr': 4.999999873689376e-05, 'total_loss': 268.30072021484375}, 'load_time_ms': 0.627, 'num_steps_sampled': 3038400, 'grad_time_ms': 620.303, 'update_time_ms': 2.455, 'sample_time_ms': 34030.695}",2025-08-31_14-56-24,cda-server-4,36.83335304260254,15192,1756644984,10.157.146.4,False,81914.36928153038,1200
+2533,-610.3356300742921,2533,3039600,{},-669.9579326299478,3039600,0,81949.33669257164,-520.6643424990391,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3039600, 'default': {'kl': 0.009142033755779266, 'policy_loss': -0.14492422342300415, 'vf_loss': 89.16783142089844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9914560317993164, 'entropy': 3.3062050342559814, 'cur_lr': 4.999999873689376e-05, 'total_loss': 89.03679656982422}, 'load_time_ms': 0.632, 'num_steps_sampled': 3039600, 'grad_time_ms': 654.132, 'update_time_ms': 2.486, 'sample_time_ms': 34087.734}",2025-08-31_14-56-58,cda-server-4,34.967411041259766,15198,1756645018,10.157.146.4,False,81949.33669257164,1200
+2534,-610.0257858170003,2534,3040800,{},-669.9579326299478,3040800,0,81983.26359248161,-520.6643424990391,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3040800, 'default': {'kl': 0.011481489054858685, 'policy_loss': -0.15207745134830475, 'vf_loss': 41.289859771728516, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9948228001594543, 'entropy': 3.3354649543762207, 'cur_lr': 4.999999873689376e-05, 'total_loss': 41.15522384643555}, 'load_time_ms': 0.64, 'num_steps_sampled': 3040800, 'grad_time_ms': 660.677, 'update_time_ms': 2.615, 'sample_time_ms': 34138.356}",2025-08-31_14-57-32,cda-server-4,33.926899909973145,15204,1756645052,10.157.146.4,False,81983.26359248161,1200
+2535,-609.9567953232122,2535,3042000,{},-669.9579326299478,3042000,0,82017.18993854523,-520.6643424990391,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3042000, 'default': {'kl': 0.009805107489228249, 'policy_loss': -0.13500873744487762, 'vf_loss': 310.3597412109375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9616882801055908, 'entropy': 3.4174909591674805, 'cur_lr': 4.999999873689376e-05, 'total_loss': 310.2395935058594}, 'load_time_ms': 0.647, 'num_steps_sampled': 3042000, 'grad_time_ms': 656.379, 'update_time_ms': 2.622, 'sample_time_ms': 34077.895}",2025-08-31_14-58-06,cda-server-4,33.92634606361389,15210,1756645086,10.157.146.4,False,82017.18993854523,1200
+2536,-609.2026467926207,2536,3043200,{},-669.9579326299478,3043200,0,82052.07038927078,-486.5865004302283,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3043200, 'default': {'kl': 0.010686662979424, 'policy_loss': -0.13793690502643585, 'vf_loss': 325.52093505859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9750306010246277, 'entropy': 3.3752596378326416, 'cur_lr': 4.999999873689376e-05, 'total_loss': 325.3992614746094}, 'load_time_ms': 0.642, 'num_steps_sampled': 3043200, 'grad_time_ms': 649.642, 'update_time_ms': 2.649, 'sample_time_ms': 34028.573}",2025-08-31_14-58-41,cda-server-4,34.88045072555542,15216,1756645121,10.157.146.4,False,82052.07038927078,1200
+2537,-610.2259203923771,2537,3044400,{},-669.9579326299478,3044400,0,82087.22057199478,-486.5865004302283,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3044400, 'default': {'kl': 0.010256296023726463, 'policy_loss': -0.1296243816614151, 'vf_loss': 60.88906478881836, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9925361275672913, 'entropy': 3.3071725368499756, 'cur_lr': 4.999999873689376e-05, 'total_loss': 60.77501678466797}, 'load_time_ms': 0.631, 'num_steps_sampled': 3044400, 'grad_time_ms': 645.639, 'update_time_ms': 2.639, 'sample_time_ms': 34176.064}",2025-08-31_14-59-16,cda-server-4,35.15018272399902,15222,1756645156,10.157.146.4,False,82087.22057199478,1200
+2538,-609.5951040830801,2538,3045600,{},-669.9579326299478,3045600,0,82121.3662481308,-486.5865004302283,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3045600, 'default': {'kl': 0.008064445108175278, 'policy_loss': -0.09096047282218933, 'vf_loss': 220.09603881835938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9699242115020752, 'entropy': 3.1244094371795654, 'cur_lr': 4.999999873689376e-05, 'total_loss': 220.017333984375}, 'load_time_ms': 0.645, 'num_steps_sampled': 3045600, 'grad_time_ms': 643.458, 'update_time_ms': 2.539, 'sample_time_ms': 34146.256}",2025-08-31_14-59-51,cda-server-4,34.145676136016846,15228,1756645191,10.157.146.4,False,82121.3662481308,1200
+2539,-609.01020654204,2539,3046800,{},-653.6214980217353,3046800,0,82156.42320203781,-486.5865004302283,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3046800, 'default': {'kl': 0.010053731501102448, 'policy_loss': -0.13211143016815186, 'vf_loss': 268.7254943847656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9681652784347534, 'entropy': 3.3942766189575195, 'cur_lr': 4.999999873689376e-05, 'total_loss': 268.6086730957031}, 'load_time_ms': 0.647, 'num_steps_sampled': 3046800, 'grad_time_ms': 633.067, 'update_time_ms': 2.521, 'sample_time_ms': 34113.648}",2025-08-31_15-00-26,cda-server-4,35.05695390701294,15234,1756645226,10.157.146.4,False,82156.42320203781,1200
+2540,-608.8230455452094,2540,3048000,{},-653.6214980217353,3048000,0,82191.02286195755,-486.5865004302283,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3048000, 'default': {'kl': 0.010398130863904953, 'policy_loss': -0.1567252278327942, 'vf_loss': 201.44952392578125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9842115044593811, 'entropy': 3.4025707244873047, 'cur_lr': 4.999999873689376e-05, 'total_loss': 201.30859375}, 'load_time_ms': 0.675, 'num_steps_sampled': 3048000, 'grad_time_ms': 628.256, 'update_time_ms': 2.477, 'sample_time_ms': 34087.842}",2025-08-31_15-01-00,cda-server-4,34.59965991973877,15240,1756645260,10.157.146.4,False,82191.02286195755,1200
+2541,-608.6709052009629,2541,3049200,{},-653.6214980217353,3049200,0,82224.91184401512,-486.5865004302283,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3049200, 'default': {'kl': 0.010749544017016888, 'policy_loss': -0.15190355479717255, 'vf_loss': 107.31385803222656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9856846928596497, 'entropy': 3.4162988662719727, 'cur_lr': 4.999999873689376e-05, 'total_loss': 107.17828369140625}, 'load_time_ms': 0.673, 'num_steps_sampled': 3049200, 'grad_time_ms': 621.206, 'update_time_ms': 2.396, 'sample_time_ms': 34109.451}",2025-08-31_15-01-34,cda-server-4,33.88898205757141,15246,1756645294,10.157.146.4,False,82224.91184401512,1200
+2542,-608.5392036083554,2542,3050400,{},-653.6214980217353,3050400,0,82258.74071025848,-486.5865004302283,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3050400, 'default': {'kl': 0.008516267873346806, 'policy_loss': -0.13325421512126923, 'vf_loss': 160.86578369140625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9844788312911987, 'entropy': 3.4668633937835693, 'cur_lr': 4.999999873689376e-05, 'total_loss': 160.74549865722656}, 'load_time_ms': 0.647, 'num_steps_sampled': 3050400, 'grad_time_ms': 609.109, 'update_time_ms': 2.363, 'sample_time_ms': 33821.192}",2025-08-31_15-02-08,cda-server-4,33.82886624336243,15252,1756645328,10.157.146.4,False,82258.74071025848,1200
+2543,-607.8860010751055,2543,3051600,{},-639.2323720941288,3051600,0,82292.77899169922,-486.5865004302283,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3051600, 'default': {'kl': 0.008967138826847076, 'policy_loss': -0.13976025581359863, 'vf_loss': 77.59017944335938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9893075227737427, 'entropy': 3.338650941848755, 'cur_lr': 4.999999873689376e-05, 'total_loss': 77.46403503417969}, 'load_time_ms': 0.635, 'num_steps_sampled': 3051600, 'grad_time_ms': 575.954, 'update_time_ms': 2.304, 'sample_time_ms': 33761.575}",2025-08-31_15-02-42,cda-server-4,34.03828144073486,15258,1756645362,10.157.146.4,False,82292.77899169922,1200
+2544,-606.644835559501,2544,3052800,{},-639.2323720941288,3052800,0,82328.14762306213,-486.5865004302283,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3052800, 'default': {'kl': 0.010108113288879395, 'policy_loss': -0.1431848704814911, 'vf_loss': 118.09152221679688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9859183430671692, 'entropy': 3.27665114402771, 'cur_lr': 4.999999873689376e-05, 'total_loss': 117.96370697021484}, 'load_time_ms': 0.638, 'num_steps_sampled': 3052800, 'grad_time_ms': 613.89, 'update_time_ms': 2.148, 'sample_time_ms': 33867.795}",2025-08-31_15-03-18,cda-server-4,35.36863136291504,15264,1756645398,10.157.146.4,False,82328.14762306213,1200
+2545,-607.5763041451751,2545,3054000,{},-639.2323720941288,3054000,0,82362.78139901161,-486.5865004302283,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3054000, 'default': {'kl': 0.010222827084362507, 'policy_loss': -0.13758844137191772, 'vf_loss': 152.7062225341797, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9766620993614197, 'entropy': 3.4308338165283203, 'cur_lr': 4.999999873689376e-05, 'total_loss': 152.58416748046875}, 'load_time_ms': 0.647, 'num_steps_sampled': 3054000, 'grad_time_ms': 642.339, 'update_time_ms': 2.282, 'sample_time_ms': 33909.968}",2025-08-31_15-03-52,cda-server-4,34.63377594947815,15270,1756645432,10.157.146.4,False,82362.78139901161,1200
+2546,-607.8585954136984,2546,3055200,{},-649.8817988146737,3055200,0,82397.78531646729,-486.5865004302283,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3055200, 'default': {'kl': 0.012669427320361137, 'policy_loss': -0.15612369775772095, 'vf_loss': 190.320556640625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9808146357536316, 'entropy': 3.425180435180664, 'cur_lr': 4.999999873689376e-05, 'total_loss': 190.18365478515625}, 'load_time_ms': 0.651, 'num_steps_sampled': 3055200, 'grad_time_ms': 647.274, 'update_time_ms': 2.257, 'sample_time_ms': 33917.291}",2025-08-31_15-04-27,cda-server-4,35.00391745567322,15276,1756645467,10.157.146.4,False,82397.78531646729,1200
+2547,-607.9560800356721,2547,3056400,{},-649.8817988146737,3056400,0,82432.84790873528,-486.5865004302283,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3056400, 'default': {'kl': 0.01030805241316557, 'policy_loss': -0.13623438775539398, 'vf_loss': 93.987060546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9903870820999146, 'entropy': 3.360812187194824, 'cur_lr': 4.999999873689376e-05, 'total_loss': 93.86647033691406}, 'load_time_ms': 0.651, 'num_steps_sampled': 3056400, 'grad_time_ms': 646.846, 'update_time_ms': 2.299, 'sample_time_ms': 33908.852}",2025-08-31_15-05-02,cda-server-4,35.06259226799011,15282,1756645502,10.157.146.4,False,82432.84790873528,1200
+2548,-608.7401060240203,2548,3057600,{},-649.8817988146737,3057600,0,82466.7592830658,-486.5865004302283,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3057600, 'default': {'kl': 0.009944245219230652, 'policy_loss': -0.14017456769943237, 'vf_loss': 69.65869903564453, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9908854961395264, 'entropy': 3.36691951751709, 'cur_lr': 4.999999873689376e-05, 'total_loss': 69.53362274169922}, 'load_time_ms': 0.666, 'num_steps_sampled': 3057600, 'grad_time_ms': 641.242, 'update_time_ms': 2.394, 'sample_time_ms': 33890.925}",2025-08-31_15-05-36,cda-server-4,33.91137433052063,15288,1756645536,10.157.146.4,False,82466.7592830658,1200
+2549,-609.3145404516094,2549,3058800,{},-684.9965867600007,3058800,0,82500.65321779251,-486.5865004302283,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3058800, 'default': {'kl': 0.011034977622330189, 'policy_loss': -0.15109208226203918, 'vf_loss': 479.32421875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9614890217781067, 'entropy': 3.539210796356201, 'cur_lr': 4.999999873689376e-05, 'total_loss': 479.18988037109375}, 'load_time_ms': 0.7, 'num_steps_sampled': 3058800, 'grad_time_ms': 656.63, 'update_time_ms': 2.406, 'sample_time_ms': 33759.132}",2025-08-31_15-06-10,cda-server-4,33.89393472671509,15294,1756645570,10.157.146.4,False,82500.65321779251,1200
+2550,-608.6486813368006,2550,3060000,{},-684.9965867600007,3060000,0,82535.09452366829,-486.5865004302283,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3060000, 'default': {'kl': 0.01129092276096344, 'policy_loss': -0.15745535492897034, 'vf_loss': 354.73284912109375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.950347363948822, 'entropy': 3.361600399017334, 'cur_lr': 4.999999873689376e-05, 'total_loss': 354.592529296875}, 'load_time_ms': 0.666, 'num_steps_sampled': 3060000, 'grad_time_ms': 665.54, 'update_time_ms': 2.446, 'sample_time_ms': 33734.44}",2025-08-31_15-06-45,cda-server-4,34.4413058757782,15300,1756645605,10.157.146.4,False,82535.09452366829,1200
+2551,-608.4673764635979,2551,3061200,{},-684.9965867600007,3061200,0,82570.21356534958,-486.5865004302283,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3061200, 'default': {'kl': 0.011080925352871418, 'policy_loss': -0.14752639830112457, 'vf_loss': 150.60690307617188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9789836406707764, 'entropy': 3.6494483947753906, 'cur_lr': 4.999999873689376e-05, 'total_loss': 150.47621154785156}, 'load_time_ms': 0.67, 'num_steps_sampled': 3061200, 'grad_time_ms': 683.879, 'update_time_ms': 2.467, 'sample_time_ms': 33839.101}",2025-08-31_15-07-20,cda-server-4,35.11904168128967,15306,1756645640,10.157.146.4,False,82570.21356534958,1200
+2552,-607.9015243269037,2552,3062400,{},-684.9965867600007,3062400,0,82604.4339621067,-486.5865004302283,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3062400, 'default': {'kl': 0.010830316692590714, 'policy_loss': -0.14885902404785156, 'vf_loss': 95.20171356201172, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9871256351470947, 'entropy': 3.3692240715026855, 'cur_lr': 4.999999873689376e-05, 'total_loss': 95.06930541992188}, 'load_time_ms': 0.68, 'num_steps_sampled': 3062400, 'grad_time_ms': 712.097, 'update_time_ms': 2.447, 'sample_time_ms': 33849.987}",2025-08-31_15-07-54,cda-server-4,34.220396757125854,15312,1756645674,10.157.146.4,False,82604.4339621067,1200
+2553,-608.9467957021633,2553,3063600,{},-684.9965867600007,3063600,0,82639.01385331154,-521.6329380756581,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3063600, 'default': {'kl': 0.011218838393688202, 'policy_loss': -0.12265961617231369, 'vf_loss': 416.3656005859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9493447542190552, 'entropy': 3.410313844680786, 'cur_lr': 4.999999873689376e-05, 'total_loss': 416.2599792480469}, 'load_time_ms': 0.688, 'num_steps_sampled': 3063600, 'grad_time_ms': 739.434, 'update_time_ms': 2.47, 'sample_time_ms': 33876.77}",2025-08-31_15-08-29,cda-server-4,34.579891204833984,15318,1756645709,10.157.146.4,False,82639.01385331154,1200
+2554,-609.3009585946337,2554,3064800,{},-684.9965867600007,3064800,0,82673.74552607536,-521.6329380756581,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3064800, 'default': {'kl': 0.009573463350534439, 'policy_loss': -0.12553632259368896, 'vf_loss': 141.20584106445312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9789083003997803, 'entropy': 3.248948335647583, 'cur_lr': 4.999999873689376e-05, 'total_loss': 141.0948486328125}, 'load_time_ms': 0.702, 'num_steps_sampled': 3064800, 'grad_time_ms': 722.265, 'update_time_ms': 2.465, 'sample_time_ms': 33830.359}",2025-08-31_15-09-03,cda-server-4,34.73167276382446,15324,1756645743,10.157.146.4,False,82673.74552607536,1200
+2555,-610.1664375575326,2555,3066000,{},-684.9965867600007,3066000,0,82708.24399924278,-521.6329380756581,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3066000, 'default': {'kl': 0.011477984488010406, 'policy_loss': -0.15048664808273315, 'vf_loss': 107.56055450439453, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9865880608558655, 'entropy': 3.380758047103882, 'cur_lr': 4.999999873689376e-05, 'total_loss': 107.427490234375}, 'load_time_ms': 0.699, 'num_steps_sampled': 3066000, 'grad_time_ms': 719.958, 'update_time_ms': 2.307, 'sample_time_ms': 33819.257}",2025-08-31_15-09-38,cda-server-4,34.498473167419434,15330,1756645778,10.157.146.4,False,82708.24399924278,1200
+2556,-608.9870537853024,2556,3067200,{},-684.9965867600007,3067200,0,82742.00548291206,-487.03481574139903,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3067200, 'default': {'kl': 0.010788604617118835, 'policy_loss': -0.1500048041343689, 'vf_loss': 232.97743225097656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.98198002576828, 'entropy': 3.4107539653778076, 'cur_lr': 4.999999873689376e-05, 'total_loss': 232.8438262939453}, 'load_time_ms': 0.735, 'num_steps_sampled': 3067200, 'grad_time_ms': 718.731, 'update_time_ms': 2.274, 'sample_time_ms': 33696.162}",2025-08-31_15-10-12,cda-server-4,33.761483669281006,15336,1756645812,10.157.146.4,False,82742.00548291206,1200
+2557,-608.4595216189609,2557,3068400,{},-684.9965867600007,3068400,0,82776.5320327282,-487.03481574139903,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3068400, 'default': {'kl': 0.011551840230822563, 'policy_loss': -0.15236836671829224, 'vf_loss': 229.63455200195312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9686944484710693, 'entropy': 3.2460947036743164, 'cur_lr': 4.999999873689376e-05, 'total_loss': 229.49972534179688}, 'load_time_ms': 0.737, 'num_steps_sampled': 3068400, 'grad_time_ms': 715.887, 'update_time_ms': 2.255, 'sample_time_ms': 33645.459}",2025-08-31_15-10-46,cda-server-4,34.52654981613159,15342,1756645846,10.157.146.4,False,82776.5320327282,1200
+2558,-608.5376354599127,2558,3069600,{},-684.9965867600007,3069600,0,82811.39068388939,-487.03481574139903,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3069600, 'default': {'kl': 0.012640770524740219, 'policy_loss': -0.16112083196640015, 'vf_loss': 302.0054016113281, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9680138826370239, 'entropy': 3.5173840522766113, 'cur_lr': 4.999999873689376e-05, 'total_loss': 301.8634948730469}, 'load_time_ms': 0.735, 'num_steps_sampled': 3069600, 'grad_time_ms': 696.111, 'update_time_ms': 2.251, 'sample_time_ms': 33759.937}",2025-08-31_15-11-21,cda-server-4,34.85865116119385,15348,1756645881,10.157.146.4,False,82811.39068388939,1200
+2559,-608.9995199184831,2559,3070800,{},-684.9965867600007,3070800,0,82845.29501271248,-487.03481574139903,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3070800, 'default': {'kl': 0.010092649608850479, 'policy_loss': -0.1351199746131897, 'vf_loss': 51.55376434326172, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9916436076164246, 'entropy': 3.319857597351074, 'cur_lr': 4.999999873689376e-05, 'total_loss': 51.43397521972656}, 'load_time_ms': 0.705, 'num_steps_sampled': 3070800, 'grad_time_ms': 689.394, 'update_time_ms': 2.293, 'sample_time_ms': 33767.711}",2025-08-31_15-11-55,cda-server-4,33.9043288230896,15354,1756645915,10.157.146.4,False,82845.29501271248,1200
+2560,-608.9238860325067,2560,3072000,{},-684.9965867600007,3072000,0,82879.04464387894,-487.03481574139903,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3072000, 'default': {'kl': 0.010521153919398785, 'policy_loss': -0.13432489335536957, 'vf_loss': 258.8731689453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9680120944976807, 'entropy': 3.2339930534362793, 'cur_lr': 4.999999873689376e-05, 'total_loss': 258.7547912597656}, 'load_time_ms': 0.712, 'num_steps_sampled': 3072000, 'grad_time_ms': 676.362, 'update_time_ms': 2.361, 'sample_time_ms': 33711.479}",2025-08-31_15-12-29,cda-server-4,33.74963116645813,15360,1756645949,10.157.146.4,False,82879.04464387894,1200
+2561,-607.9290928931213,2561,3073200,{},-684.9965867600007,3073200,0,82913.31673431396,-463.74351192995977,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3073200, 'default': {'kl': 0.011861484497785568, 'policy_loss': -0.15494318306446075, 'vf_loss': 174.67247009277344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9833307266235352, 'entropy': 3.289918899536133, 'cur_lr': 4.999999873689376e-05, 'total_loss': 174.53555297851562}, 'load_time_ms': 0.717, 'num_steps_sampled': 3073200, 'grad_time_ms': 668.61, 'update_time_ms': 2.326, 'sample_time_ms': 33634.476}",2025-08-31_15-13-03,cda-server-4,34.272090435028076,15366,1756645983,10.157.146.4,False,82913.31673431396,1200
+2562,-607.4647990584821,2562,3074400,{},-684.9965867600007,3074400,0,82948.2412519455,-463.74351192995977,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3074400, 'default': {'kl': 0.011213120073080063, 'policy_loss': -0.1336846798658371, 'vf_loss': 38.958641052246094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9947212934494019, 'entropy': 3.2510015964508057, 'cur_lr': 4.999999873689376e-05, 'total_loss': 38.84198760986328}, 'load_time_ms': 0.715, 'num_steps_sampled': 3074400, 'grad_time_ms': 648.586, 'update_time_ms': 2.341, 'sample_time_ms': 33724.871}",2025-08-31_15-13-38,cda-server-4,34.92451763153076,15372,1756646018,10.157.146.4,False,82948.2412519455,1200
+2563,-607.207292846809,2563,3075600,{},-684.9965867600007,3075600,0,82982.05553674698,-463.74351192995977,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3075600, 'default': {'kl': 0.014553959481418133, 'policy_loss': -0.14239376783370972, 'vf_loss': 80.68927001953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9906972050666809, 'entropy': 3.214946746826172, 'cur_lr': 4.999999873689376e-05, 'total_loss': 80.5689697265625}, 'load_time_ms': 0.711, 'num_steps_sampled': 3075600, 'grad_time_ms': 624.586, 'update_time_ms': 2.354, 'sample_time_ms': 33672.345}",2025-08-31_15-14-12,cda-server-4,33.814284801483154,15378,1756646052,10.157.146.4,False,82982.05553674698,1200
+2564,-607.618018180019,2564,3076800,{},-684.9965867600007,3076800,0,83016.39179706573,-463.74351192995977,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3076800, 'default': {'kl': 0.013203609734773636, 'policy_loss': -0.11778493970632553, 'vf_loss': 420.6372985839844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9744234085083008, 'entropy': 3.3080873489379883, 'cur_lr': 4.999999873689376e-05, 'total_loss': 420.5395812988281}, 'load_time_ms': 0.712, 'num_steps_sampled': 3076800, 'grad_time_ms': 609.866, 'update_time_ms': 2.347, 'sample_time_ms': 33647.525}",2025-08-31_15-14-46,cda-server-4,34.3362603187561,15384,1756646086,10.157.146.4,False,83016.39179706573,1200
+2565,-607.4041110484172,2565,3078000,{},-684.9965867600007,3078000,0,83051.16871452332,-463.74351192995977,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3078000, 'default': {'kl': 0.008858611807227135, 'policy_loss': -0.12309891730546951, 'vf_loss': 108.03089904785156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9850879311561584, 'entropy': 3.2594501972198486, 'cur_lr': 4.999999873689376e-05, 'total_loss': 107.92125701904297}, 'load_time_ms': 0.697, 'num_steps_sampled': 3078000, 'grad_time_ms': 608.148, 'update_time_ms': 2.329, 'sample_time_ms': 33677.146}",2025-08-31_15-15-21,cda-server-4,34.776917457580566,15390,1756646121,10.157.146.4,False,83051.16871452332,1200
+2566,-607.2256292656438,2566,3079200,{},-654.8214529049151,3079200,0,83084.84254288673,-463.74351192995977,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3079200, 'default': {'kl': 0.011975124478340149, 'policy_loss': -0.13288144767284393, 'vf_loss': 333.2058410644531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9558899998664856, 'entropy': 3.1196694374084473, 'cur_lr': 4.999999873689376e-05, 'total_loss': 333.0911560058594}, 'load_time_ms': 0.695, 'num_steps_sampled': 3079200, 'grad_time_ms': 609.596, 'update_time_ms': 2.459, 'sample_time_ms': 33666.821}",2025-08-31_15-15-55,cda-server-4,33.67382836341858,15396,1756646155,10.157.146.4,False,83084.84254288673,1200
+2567,-607.8425509718244,2567,3080400,{},-654.8214529049151,3080400,0,83118.7793931961,-463.74351192995977,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3080400, 'default': {'kl': 0.009760214015841484, 'policy_loss': -0.13588100671768188, 'vf_loss': 185.59117126464844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9752739667892456, 'entropy': 3.5096559524536133, 'cur_lr': 4.999999873689376e-05, 'total_loss': 185.47010803222656}, 'load_time_ms': 0.695, 'num_steps_sampled': 3080400, 'grad_time_ms': 601.809, 'update_time_ms': 2.494, 'sample_time_ms': 33615.625}",2025-08-31_15-16-29,cda-server-4,33.93685030937195,15402,1756646189,10.157.146.4,False,83118.7793931961,1200
+2568,-608.1859058134784,2568,3081600,{},-651.7266696906875,3081600,0,83153.21876978874,-463.74351192995977,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3081600, 'default': {'kl': 0.010202179662883282, 'policy_loss': -0.12783239781856537, 'vf_loss': 114.98313903808594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9835562109947205, 'entropy': 3.1938722133636475, 'cur_lr': 4.999999873689376e-05, 'total_loss': 114.87079620361328}, 'load_time_ms': 0.66, 'num_steps_sampled': 3081600, 'grad_time_ms': 602.744, 'update_time_ms': 2.416, 'sample_time_ms': 33572.946}",2025-08-31_15-17-03,cda-server-4,34.43937659263611,15408,1756646223,10.157.146.4,False,83153.21876978874,1200
+2569,-608.9445671041751,2569,3082800,{},-651.7266696906875,3082800,0,83188.2820224762,-463.74351192995977,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3082800, 'default': {'kl': 0.01104399561882019, 'policy_loss': -0.13473306596279144, 'vf_loss': 162.72933959960938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9815812706947327, 'entropy': 3.3824374675750732, 'cur_lr': 4.999999873689376e-05, 'total_loss': 162.61138916015625}, 'load_time_ms': 0.653, 'num_steps_sampled': 3082800, 'grad_time_ms': 581.929, 'update_time_ms': 2.398, 'sample_time_ms': 33709.725}",2025-08-31_15-17-38,cda-server-4,35.063252687454224,15414,1756646258,10.157.146.4,False,83188.2820224762,1200
+2570,-610.0520149723015,2570,3084000,{},-794.2700187485217,3084000,0,83222.47669649124,-463.74351192995977,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3084000, 'default': {'kl': 0.012049625627696514, 'policy_loss': -0.1252804696559906, 'vf_loss': 382.3997802734375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9735432863235474, 'entropy': 3.630336284637451, 'cur_lr': 4.999999873689376e-05, 'total_loss': 382.2928161621094}, 'load_time_ms': 0.657, 'num_steps_sampled': 3084000, 'grad_time_ms': 578.288, 'update_time_ms': 2.309, 'sample_time_ms': 33757.974}",2025-08-31_15-18-12,cda-server-4,34.194674015045166,15420,1756646292,10.157.146.4,False,83222.47669649124,1200
+2571,-609.7419375995664,2571,3085200,{},-794.2700187485217,3085200,0,83256.4762763977,-463.74351192995977,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3085200, 'default': {'kl': 0.010011464357376099, 'policy_loss': -0.14086633920669556, 'vf_loss': 140.3428497314453, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9759389162063599, 'entropy': 3.1931684017181396, 'cur_lr': 4.999999873689376e-05, 'total_loss': 140.21719360351562}, 'load_time_ms': 0.682, 'num_steps_sampled': 3085200, 'grad_time_ms': 577.208, 'update_time_ms': 2.327, 'sample_time_ms': 33731.779}",2025-08-31_15-18-46,cda-server-4,33.99957990646362,15426,1756646326,10.157.146.4,False,83256.4762763977,1200
+2572,-610.2167710393913,2572,3086400,{},-794.2700187485217,3086400,0,83292.08559775352,-463.74351192995977,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3086400, 'default': {'kl': 0.011958744376897812, 'policy_loss': -0.16425946354866028, 'vf_loss': 46.96091842651367, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9939648509025574, 'entropy': 3.1428723335266113, 'cur_lr': 4.999999873689376e-05, 'total_loss': 46.814815521240234}, 'load_time_ms': 0.712, 'num_steps_sampled': 3086400, 'grad_time_ms': 594.043, 'update_time_ms': 2.396, 'sample_time_ms': 33783.292}",2025-08-31_15-19-22,cda-server-4,35.6093213558197,15432,1756646362,10.157.146.4,False,83292.08559775352,1200
+2573,-610.2339482557524,2573,3087600,{},-794.2700187485217,3087600,0,83327.08273816109,-463.74351192995977,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3087600, 'default': {'kl': 0.010820978321135044, 'policy_loss': -0.1469506472349167, 'vf_loss': 193.10791015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9720509052276611, 'entropy': 3.332369327545166, 'cur_lr': 4.999999873689376e-05, 'total_loss': 192.9773712158203}, 'load_time_ms': 0.722, 'num_steps_sampled': 3087600, 'grad_time_ms': 606.533, 'update_time_ms': 2.413, 'sample_time_ms': 33889.03}",2025-08-31_15-19-57,cda-server-4,34.997140407562256,15438,1756646397,10.157.146.4,False,83327.08273816109,1200
+2574,-610.5810553147587,2574,3088800,{},-794.2700187485217,3088800,0,83360.75982236862,-463.74351192995977,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3088800, 'default': {'kl': 0.008750120177865028, 'policy_loss': -0.128107488155365, 'vf_loss': 679.4781494140625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.918660044670105, 'entropy': 3.348449230194092, 'cur_lr': 4.999999873689376e-05, 'total_loss': 679.3633422851562}, 'load_time_ms': 0.696, 'num_steps_sampled': 3088800, 'grad_time_ms': 604.061, 'update_time_ms': 2.465, 'sample_time_ms': 33825.512}",2025-08-31_15-20-31,cda-server-4,33.67708420753479,15444,1756646431,10.157.146.4,False,83360.75982236862,1200
+2575,-610.0222306154866,2575,3090000,{},-794.2700187485217,3090000,0,83395.53380990028,-463.74351192995977,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3090000, 'default': {'kl': 0.009745059534907341, 'policy_loss': -0.123885378241539, 'vf_loss': 207.62994384765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9757608771324158, 'entropy': 3.465193748474121, 'cur_lr': 4.999999873689376e-05, 'total_loss': 207.52085876464844}, 'load_time_ms': 0.735, 'num_steps_sampled': 3090000, 'grad_time_ms': 603.65, 'update_time_ms': 2.509, 'sample_time_ms': 33825.494}",2025-08-31_15-21-05,cda-server-4,34.77398753166199,15450,1756646465,10.157.146.4,False,83395.53380990028,1200
+2576,-609.8227012574023,2576,3091200,{},-794.2700187485217,3091200,0,83429.94337511063,-463.74351192995977,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3091200, 'default': {'kl': 0.00902397371828556, 'policy_loss': -0.11465813219547272, 'vf_loss': 313.1053466796875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.962444007396698, 'entropy': 3.118459939956665, 'cur_lr': 4.999999873689376e-05, 'total_loss': 313.0043640136719}, 'load_time_ms': 0.704, 'num_steps_sampled': 3091200, 'grad_time_ms': 587.32, 'update_time_ms': 2.397, 'sample_time_ms': 33915.562}",2025-08-31_15-21-40,cda-server-4,34.40956521034241,15456,1756646500,10.157.146.4,False,83429.94337511063,1200
+2577,-609.1014178917154,2577,3092400,{},-794.2700187485217,3092400,0,83464.8316476345,-463.74351192995977,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3092400, 'default': {'kl': 0.01015722006559372, 'policy_loss': -0.12709777057170868, 'vf_loss': 62.81495666503906, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9900487065315247, 'entropy': 3.3454275131225586, 'cur_lr': 4.999999873689376e-05, 'total_loss': 62.70328140258789}, 'load_time_ms': 0.703, 'num_steps_sampled': 3092400, 'grad_time_ms': 629.637, 'update_time_ms': 2.35, 'sample_time_ms': 33968.136}",2025-08-31_15-22-15,cda-server-4,34.888272523880005,15462,1756646535,10.157.146.4,False,83464.8316476345,1200
+2578,-610.7768610570449,2578,3093600,{},-794.2700187485217,3093600,0,83499.29613089561,-554.06549749409,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3093600, 'default': {'kl': 0.008923870511353016, 'policy_loss': -0.1137947216629982, 'vf_loss': 87.69314575195312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9847860336303711, 'entropy': 3.219843864440918, 'cur_lr': 4.999999873689376e-05, 'total_loss': 87.59290313720703}, 'load_time_ms': 0.702, 'num_steps_sampled': 3093600, 'grad_time_ms': 656.005, 'update_time_ms': 2.564, 'sample_time_ms': 33944.012}",2025-08-31_15-22-49,cda-server-4,34.4644832611084,15468,1756646569,10.157.146.4,False,83499.29613089561,1200
+2579,-610.4271131313932,2579,3094800,{},-794.2700187485217,3094800,0,83533.9410829544,-554.06549749409,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3094800, 'default': {'kl': 0.012094004079699516, 'policy_loss': -0.15200760960578918, 'vf_loss': 120.00233459472656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9872527718544006, 'entropy': 3.303431749343872, 'cur_lr': 4.999999873689376e-05, 'total_loss': 119.86870574951172}, 'load_time_ms': 0.732, 'num_steps_sampled': 3094800, 'grad_time_ms': 684.543, 'update_time_ms': 2.534, 'sample_time_ms': 33873.596}",2025-08-31_15-23-24,cda-server-4,34.644952058792114,15474,1756646604,10.157.146.4,False,83533.9410829544,1200
+2580,-609.4263991995025,2580,3096000,{},-794.2700187485217,3096000,0,83569.07253932953,-445.13394856185755,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3096000, 'default': {'kl': 0.01056552492082119, 'policy_loss': -0.14302222430706024, 'vf_loss': 237.6197052001953, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9796789884567261, 'entropy': 3.251193046569824, 'cur_lr': 4.999999873689376e-05, 'total_loss': 237.49273681640625}, 'load_time_ms': 0.718, 'num_steps_sampled': 3096000, 'grad_time_ms': 699.992, 'update_time_ms': 2.524, 'sample_time_ms': 33951.877}",2025-08-31_15-23-59,cda-server-4,35.13145637512207,15480,1756646639,10.157.146.4,False,83569.07253932953,1200
+2581,-608.3303929791188,2581,3097200,{},-794.2700187485217,3097200,0,83603.06551122665,-445.13394856185755,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3097200, 'default': {'kl': 0.01163675356656313, 'policy_loss': -0.15457801520824432, 'vf_loss': 196.613525390625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9749491214752197, 'entropy': 3.270907402038574, 'cur_lr': 4.999999873689376e-05, 'total_loss': 196.47662353515625}, 'load_time_ms': 0.69, 'num_steps_sampled': 3097200, 'grad_time_ms': 705.424, 'update_time_ms': 2.506, 'sample_time_ms': 33945.844}",2025-08-31_15-24-33,cda-server-4,33.992971897125244,15486,1756646673,10.157.146.4,False,83603.06551122665,1200
+2582,-608.2674930527583,2582,3098400,{},-794.2700187485217,3098400,0,83636.75055527687,-445.13394856185755,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3098400, 'default': {'kl': 0.009780725464224815, 'policy_loss': -0.10973796993494034, 'vf_loss': 125.46097564697266, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9817290902137756, 'entropy': 3.1261978149414062, 'cur_lr': 4.999999873689376e-05, 'total_loss': 125.36610412597656}, 'load_time_ms': 0.655, 'num_steps_sampled': 3098400, 'grad_time_ms': 699.201, 'update_time_ms': 2.522, 'sample_time_ms': 33759.72}",2025-08-31_15-25-07,cda-server-4,33.685044050216675,15492,1756646707,10.157.146.4,False,83636.75055527687,1200
+2583,-608.6623609839453,2583,3099600,{},-794.2700187485217,3099600,0,83672.82345414162,-445.13394856185755,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3099600, 'default': {'kl': 0.011985593475401402, 'policy_loss': -0.15589849650859833, 'vf_loss': 104.08257293701172, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.988518476486206, 'entropy': 3.3347158432006836, 'cur_lr': 4.999999873689376e-05, 'total_loss': 103.94487762451172}, 'load_time_ms': 0.655, 'num_steps_sampled': 3099600, 'grad_time_ms': 747.334, 'update_time_ms': 2.5, 'sample_time_ms': 33818.949}",2025-08-31_15-25-43,cda-server-4,36.072898864746094,15498,1756646743,10.157.146.4,False,83672.82345414162,1200
+2584,-607.8216561332291,2584,3100800,{},-794.2700187485217,3100800,0,83707.80334663391,-445.13394856185755,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3100800, 'default': {'kl': 0.009166785515844822, 'policy_loss': -0.12883946299552917, 'vf_loss': 380.19183349609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9521055221557617, 'entropy': 3.278062105178833, 'cur_lr': 4.999999873689376e-05, 'total_loss': 380.07696533203125}, 'load_time_ms': 0.653, 'num_steps_sampled': 3100800, 'grad_time_ms': 757.951, 'update_time_ms': 2.716, 'sample_time_ms': 33938.456}",2025-08-31_15-26-18,cda-server-4,34.97989249229431,15504,1756646778,10.157.146.4,False,83707.80334663391,1200
+2585,-607.1650958194144,2585,3102000,{},-794.2700187485217,3102000,0,83741.59514760971,-445.13394856185755,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3102000, 'default': {'kl': 0.011741570197045803, 'policy_loss': -0.13351310789585114, 'vf_loss': 182.05914306640625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9821285605430603, 'entropy': 3.2202610969543457, 'cur_lr': 4.999999873689376e-05, 'total_loss': 181.94346618652344}, 'load_time_ms': 0.631, 'num_steps_sampled': 3102000, 'grad_time_ms': 756.851, 'update_time_ms': 2.67, 'sample_time_ms': 33841.485}",2025-08-31_15-26-52,cda-server-4,33.79180097579956,15510,1756646812,10.157.146.4,False,83741.59514760971,1200
+2586,-606.8939440700601,2586,3103200,{},-794.2700187485217,3103200,0,83777.17181229591,-445.13394856185755,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3103200, 'default': {'kl': 0.011211293749511242, 'policy_loss': -0.14363053441047668, 'vf_loss': 115.71865844726562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9857175350189209, 'entropy': 3.271328926086426, 'cur_lr': 4.999999873689376e-05, 'total_loss': 115.59205627441406}, 'load_time_ms': 0.629, 'num_steps_sampled': 3103200, 'grad_time_ms': 774.495, 'update_time_ms': 2.662, 'sample_time_ms': 33940.658}",2025-08-31_15-27-27,cda-server-4,35.576664686203,15516,1756646847,10.157.146.4,False,83777.17181229591,1200
+2587,-604.5652541214523,2587,3104400,{},-681.6002803111835,3104400,0,83811.96263957024,-445.13394856185755,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3104400, 'default': {'kl': 0.011659315787255764, 'policy_loss': -0.1440204381942749, 'vf_loss': 315.38525390625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9804532527923584, 'entropy': 3.411060333251953, 'cur_lr': 4.999999873689376e-05, 'total_loss': 315.25897216796875}, 'load_time_ms': 0.637, 'num_steps_sampled': 3104400, 'grad_time_ms': 745.392, 'update_time_ms': 2.605, 'sample_time_ms': 33960.241}",2025-08-31_15-28-02,cda-server-4,34.79082727432251,15522,1756646882,10.157.146.4,False,83811.96263957024,1200
+2588,-604.8672418236297,2588,3105600,{},-681.6002803111835,3105600,0,83845.65739941597,-445.13394856185755,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3105600, 'default': {'kl': 0.010385311208665371, 'policy_loss': -0.1401766985654831, 'vf_loss': 302.4141845703125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9696125388145447, 'entropy': 3.379899024963379, 'cur_lr': 4.999999873689376e-05, 'total_loss': 302.289794921875}, 'load_time_ms': 0.634, 'num_steps_sampled': 3105600, 'grad_time_ms': 718.172, 'update_time_ms': 2.437, 'sample_time_ms': 33910.712}",2025-08-31_15-28-36,cda-server-4,33.69475984573364,15528,1756646916,10.157.146.4,False,83845.65739941597,1200
+2589,-605.0582690451166,2589,3106800,{},-681.6002803111835,3106800,0,83879.80736017227,-445.13394856185755,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3106800, 'default': {'kl': 0.014207910746335983, 'policy_loss': -0.10161516070365906, 'vf_loss': 100.68698120117188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.98911452293396, 'entropy': 3.2588284015655518, 'cur_lr': 4.999999873689376e-05, 'total_loss': 100.60694122314453}, 'load_time_ms': 0.616, 'num_steps_sampled': 3106800, 'grad_time_ms': 705.702, 'update_time_ms': 2.416, 'sample_time_ms': 33873.666}",2025-08-31_15-29-10,cda-server-4,34.14996075630188,15534,1756646950,10.157.146.4,False,83879.80736017227,1200
+2590,-605.4800546522222,2590,3108000,{},-681.6002803111835,3108000,0,83914.12622904778,-445.13394856185755,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3108000, 'default': {'kl': 0.010605989024043083, 'policy_loss': -0.11463207751512527, 'vf_loss': 224.79969787597656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9686874747276306, 'entropy': 3.210540294647217, 'cur_lr': 4.999999873689376e-05, 'total_loss': 224.701171875}, 'load_time_ms': 0.626, 'num_steps_sampled': 3108000, 'grad_time_ms': 687.265, 'update_time_ms': 2.427, 'sample_time_ms': 33810.793}",2025-08-31_15-29-44,cda-server-4,34.31886887550354,15540,1756646984,10.157.146.4,False,83914.12622904778,1200
+2591,-605.6481023207407,2591,3109200,{},-681.6002803111835,3109200,0,83948.75742912292,-445.13394856185755,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3109200, 'default': {'kl': 0.010096733458340168, 'policy_loss': -0.1342029571533203, 'vf_loss': 245.59971618652344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9752785563468933, 'entropy': 3.2654600143432617, 'cur_lr': 4.999999873689376e-05, 'total_loss': 245.4808807373047}, 'load_time_ms': 0.624, 'num_steps_sampled': 3109200, 'grad_time_ms': 681.659, 'update_time_ms': 2.432, 'sample_time_ms': 33880.183}",2025-08-31_15-30-19,cda-server-4,34.631200075149536,15546,1756647019,10.157.146.4,False,83948.75742912292,1200
+2592,-605.4873691291231,2592,3110400,{},-681.6002803111835,3110400,0,83982.50976800919,-445.13394856185755,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3110400, 'default': {'kl': 0.010533932596445084, 'policy_loss': -0.13702800869941711, 'vf_loss': 281.44976806640625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9583582282066345, 'entropy': 3.2740774154663086, 'cur_lr': 4.999999873689376e-05, 'total_loss': 281.3287353515625}, 'load_time_ms': 0.622, 'num_steps_sampled': 3110400, 'grad_time_ms': 685.925, 'update_time_ms': 2.431, 'sample_time_ms': 33882.661}",2025-08-31_15-30-53,cda-server-4,33.752338886260986,15552,1756647053,10.157.146.4,False,83982.50976800919,1200
+2593,-606.4736079960362,2593,3111600,{},-681.6002803111835,3111600,0,84017.80862998962,-445.13394856185755,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3111600, 'default': {'kl': 0.010955526493489742, 'policy_loss': -0.14825791120529175, 'vf_loss': 103.57180786132812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9889357686042786, 'entropy': 3.269214630126953, 'cur_lr': 4.999999873689376e-05, 'total_loss': 103.44017791748047}, 'load_time_ms': 0.655, 'num_steps_sampled': 3111600, 'grad_time_ms': 658.823, 'update_time_ms': 2.431, 'sample_time_ms': 33832.446}",2025-08-31_15-31-28,cda-server-4,35.29886198043823,15558,1756647088,10.157.146.4,False,84017.80862998962,1200
+2594,-606.7044033500531,2594,3112800,{},-681.6002803111835,3112800,0,84053.46365427971,-445.13394856185755,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3112800, 'default': {'kl': 0.00955696776509285, 'policy_loss': -0.11805684119462967, 'vf_loss': 155.49490356445312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9828883409500122, 'entropy': 3.211587429046631, 'cur_lr': 4.999999873689376e-05, 'total_loss': 155.391357421875}, 'load_time_ms': 0.661, 'num_steps_sampled': 3112800, 'grad_time_ms': 642.397, 'update_time_ms': 2.22, 'sample_time_ms': 33916.669}",2025-08-31_15-32-04,cda-server-4,35.65502429008484,15564,1756647124,10.157.146.4,False,84053.46365427971,1200
+2595,-606.8608951337621,2595,3114000,{},-681.6002803111835,3114000,0,84087.91768693924,-445.13394856185755,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3114000, 'default': {'kl': 0.009256276302039623, 'policy_loss': -0.12291595339775085, 'vf_loss': 102.94341278076172, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9848525524139404, 'entropy': 3.220743179321289, 'cur_lr': 4.999999873689376e-05, 'total_loss': 102.83456420898438}, 'load_time_ms': 0.645, 'num_steps_sampled': 3114000, 'grad_time_ms': 643.171, 'update_time_ms': 2.198, 'sample_time_ms': 33982.089}",2025-08-31_15-32-38,cda-server-4,34.45403265953064,15570,1756647158,10.157.146.4,False,84087.91768693924,1200
+2596,-606.7705860303847,2596,3115200,{},-681.6002803111835,3115200,0,84121.8905172348,-445.13394856185755,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3115200, 'default': {'kl': 0.009190342389047146, 'policy_loss': -0.1298537701368332, 'vf_loss': 50.75230407714844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9953216910362244, 'entropy': 3.1885898113250732, 'cur_lr': 4.999999873689376e-05, 'total_loss': 50.63640213012695}, 'load_time_ms': 0.653, 'num_steps_sampled': 3115200, 'grad_time_ms': 631.983, 'update_time_ms': 2.171, 'sample_time_ms': 33832.876}",2025-08-31_15-33-12,cda-server-4,33.972830295562744,15576,1756647192,10.157.146.4,False,84121.8905172348,1200
+2597,-604.8062331469699,2597,3116400,{},-681.6002803111835,3116400,0,84156.31324458122,-446.7132160691175,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3116400, 'default': {'kl': 0.013164736330509186, 'policy_loss': -0.1507798284292221, 'vf_loss': 145.3813934326172, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9893214106559753, 'entropy': 3.2869033813476562, 'cur_lr': 4.999999873689376e-05, 'total_loss': 145.25059509277344}, 'load_time_ms': 0.646, 'num_steps_sampled': 3116400, 'grad_time_ms': 608.603, 'update_time_ms': 2.246, 'sample_time_ms': 33819.527}",2025-08-31_15-33-47,cda-server-4,34.42272734642029,15582,1756647227,10.157.146.4,False,84156.31324458122,1200
+2598,-604.6271394177734,2598,3117600,{},-681.6002803111835,3117600,0,84190.59149074554,-446.7132160691175,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3117600, 'default': {'kl': 0.011282223276793957, 'policy_loss': -0.1492682248353958, 'vf_loss': 75.01842498779297, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.990315854549408, 'entropy': 3.1410069465637207, 'cur_lr': 4.999999873689376e-05, 'total_loss': 74.88629150390625}, 'load_time_ms': 0.654, 'num_steps_sampled': 3117600, 'grad_time_ms': 620.918, 'update_time_ms': 2.19, 'sample_time_ms': 33865.566}",2025-08-31_15-34-21,cda-server-4,34.2782461643219,15588,1756647261,10.157.146.4,False,84190.59149074554,1200
+2599,-604.735154518309,2599,3118800,{},-681.6002803111835,3118800,0,84224.4228875637,-446.7132160691175,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3118800, 'default': {'kl': 0.010347678326070309, 'policy_loss': -0.12563581764698029, 'vf_loss': 132.82293701171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.988226056098938, 'entropy': 3.3549392223358154, 'cur_lr': 4.999999873689376e-05, 'total_loss': 132.71302795410156}, 'load_time_ms': 0.647, 'num_steps_sampled': 3118800, 'grad_time_ms': 628.764, 'update_time_ms': 2.347, 'sample_time_ms': 33825.775}",2025-08-31_15-34-55,cda-server-4,33.83139681816101,15594,1756647295,10.157.146.4,False,84224.4228875637,1200
+2600,-604.9214584999578,2600,3120000,{},-681.6002803111835,3120000,0,84258.45930838585,-446.7132160691175,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3120000, 'default': {'kl': 0.011494153179228306, 'policy_loss': -0.1369936764240265, 'vf_loss': 87.7856674194336, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.992217481136322, 'entropy': 3.2222089767456055, 'cur_lr': 4.999999873689376e-05, 'total_loss': 87.66612243652344}, 'load_time_ms': 0.649, 'num_steps_sampled': 3120000, 'grad_time_ms': 622.299, 'update_time_ms': 2.337, 'sample_time_ms': 33804.013}",2025-08-31_15-35-29,cda-server-4,34.036420822143555,15600,1756647329,10.157.146.4,False,84258.45930838585,1200
+2601,-604.8164729631602,2601,3121200,{},-681.6002803111835,3121200,0,84292.84816169739,-446.7132160691175,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3121200, 'default': {'kl': 0.009266412816941738, 'policy_loss': -0.11453361064195633, 'vf_loss': 213.14779663085938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9725269675254822, 'entropy': 3.3602795600891113, 'cur_lr': 4.999999873689376e-05, 'total_loss': 213.04733276367188}, 'load_time_ms': 0.656, 'num_steps_sampled': 3121200, 'grad_time_ms': 622.818, 'update_time_ms': 2.319, 'sample_time_ms': 33779.276}",2025-08-31_15-36-03,cda-server-4,34.388853311538696,15606,1756647363,10.157.146.4,False,84292.84816169739,1200
+2602,-604.667554722406,2602,3122400,{},-681.6002803111835,3122400,0,84327.40528583527,-446.7132160691175,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3122400, 'default': {'kl': 0.01296126376837492, 'policy_loss': -0.1479022204875946, 'vf_loss': 93.38795471191406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9904143810272217, 'entropy': 3.3805742263793945, 'cur_lr': 4.999999873689376e-05, 'total_loss': 93.25972747802734}, 'load_time_ms': 0.662, 'num_steps_sampled': 3122400, 'grad_time_ms': 619.668, 'update_time_ms': 2.275, 'sample_time_ms': 33862.937}",2025-08-31_15-36-38,cda-server-4,34.55712413787842,15612,1756647398,10.157.146.4,False,84327.40528583527,1200
+2603,-606.2095455431084,2603,3123600,{},-681.6002803111835,3123600,0,84361.37042880058,-446.7132160691175,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3123600, 'default': {'kl': 0.01064921822398901, 'policy_loss': -0.13054829835891724, 'vf_loss': 162.61630249023438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9828314185142517, 'entropy': 3.2281394004821777, 'cur_lr': 4.999999873689376e-05, 'total_loss': 162.501953125}, 'load_time_ms': 0.627, 'num_steps_sampled': 3123600, 'grad_time_ms': 599.554, 'update_time_ms': 2.317, 'sample_time_ms': 33749.808}",2025-08-31_15-37-12,cda-server-4,33.96514296531677,15618,1756647432,10.157.146.4,False,84361.37042880058,1200
+2604,-605.2933119412619,2604,3124800,{},-651.0617890631208,3124800,0,84395.89617013931,-446.7132160691175,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3124800, 'default': {'kl': 0.011063377372920513, 'policy_loss': -0.14795280992984772, 'vf_loss': 107.4515151977539, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9850013256072998, 'entropy': 3.3044586181640625, 'cur_lr': 4.999999873689376e-05, 'total_loss': 107.32037353515625}, 'load_time_ms': 0.617, 'num_steps_sampled': 3124800, 'grad_time_ms': 592.554, 'update_time_ms': 2.3, 'sample_time_ms': 33643.891}",2025-08-31_15-37-46,cda-server-4,34.52574133872986,15624,1756647466,10.157.146.4,False,84395.89617013931,1200
+2605,-605.6775494071649,2605,3126000,{},-651.0617890631208,3126000,0,84430.5617275238,-446.7132160691175,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3126000, 'default': {'kl': 0.008444367907941341, 'policy_loss': -0.11983316391706467, 'vf_loss': 162.97764587402344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.983057975769043, 'entropy': 3.1444010734558105, 'cur_lr': 4.999999873689376e-05, 'total_loss': 162.8706512451172}, 'load_time_ms': 0.66, 'num_steps_sampled': 3126000, 'grad_time_ms': 575.573, 'update_time_ms': 2.386, 'sample_time_ms': 33681.899}",2025-08-31_15-38-21,cda-server-4,34.66555738449097,15630,1756647501,10.157.146.4,False,84430.5617275238,1200
+2606,-605.8421555890072,2606,3127200,{},-651.0617890631208,3127200,0,84464.8844909668,-446.7132160691175,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3127200, 'default': {'kl': 0.010276546701788902, 'policy_loss': -0.14104118943214417, 'vf_loss': 74.33765411376953, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9882903695106506, 'entropy': 3.271712303161621, 'cur_lr': 4.999999873689376e-05, 'total_loss': 74.21222686767578}, 'load_time_ms': 0.651, 'num_steps_sampled': 3127200, 'grad_time_ms': 583.131, 'update_time_ms': 2.462, 'sample_time_ms': 33709.21}",2025-08-31_15-38-55,cda-server-4,34.322763442993164,15636,1756647535,10.157.146.4,False,84464.8844909668,1200
+2607,-605.8655352373,2607,3128400,{},-651.0617890631208,3128400,0,84499.42662525177,-446.7132160691175,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3128400, 'default': {'kl': 0.012125734239816666, 'policy_loss': -0.16257184743881226, 'vf_loss': 154.75579833984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9895005822181702, 'entropy': 3.2610151767730713, 'cur_lr': 4.999999873689376e-05, 'total_loss': 154.61163330078125}, 'load_time_ms': 0.651, 'num_steps_sampled': 3128400, 'grad_time_ms': 605.51, 'update_time_ms': 2.466, 'sample_time_ms': 33698.702}",2025-08-31_15-39-30,cda-server-4,34.542134284973145,15642,1756647570,10.157.146.4,False,84499.42662525177,1200
+2608,-605.639962629995,2608,3129600,{},-651.0617890631208,3129600,0,84534.4962220192,-446.7132160691175,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3129600, 'default': {'kl': 0.010379225946962833, 'policy_loss': -0.09797097742557526, 'vf_loss': 312.1920166015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9658325910568237, 'entropy': 3.2282750606536865, 'cur_lr': 4.999999873689376e-05, 'total_loss': 312.1098327636719}, 'load_time_ms': 0.645, 'num_steps_sampled': 3129600, 'grad_time_ms': 619.373, 'update_time_ms': 2.547, 'sample_time_ms': 33763.884}",2025-08-31_15-40-05,cda-server-4,35.06959676742554,15648,1756647605,10.157.146.4,False,84534.4962220192,1200
+2609,-605.5167217451917,2609,3130800,{},-639.4178913639134,3130800,0,84569.60935688019,-446.7132160691175,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3130800, 'default': {'kl': 0.01211200188845396, 'policy_loss': -0.14346647262573242, 'vf_loss': 122.31525421142578, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9876816272735596, 'entropy': 3.27756404876709, 'cur_lr': 4.999999873689376e-05, 'total_loss': 122.190185546875}, 'load_time_ms': 0.645, 'num_steps_sampled': 3130800, 'grad_time_ms': 618.036, 'update_time_ms': 2.454, 'sample_time_ms': 33893.495}",2025-08-31_15-40-40,cda-server-4,35.11313486099243,15654,1756647640,10.157.146.4,False,84569.60935688019,1200
+2610,-606.1111465118464,2610,3132000,{},-639.4178913639134,3132000,0,84603.32466340065,-446.7132160691175,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3132000, 'default': {'kl': 0.010743636637926102, 'policy_loss': -0.12987224757671356, 'vf_loss': 78.01468658447266, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9934580326080322, 'entropy': 3.236508369445801, 'cur_lr': 4.999999873689376e-05, 'total_loss': 77.90113830566406}, 'load_time_ms': 0.632, 'num_steps_sampled': 3132000, 'grad_time_ms': 624.535, 'update_time_ms': 2.433, 'sample_time_ms': 33854.817}",2025-08-31_15-41-14,cda-server-4,33.715306520462036,15660,1756647674,10.157.146.4,False,84603.32466340065,1200
+2611,-604.3513748123157,2611,3133200,{},-639.4178913639134,3133200,0,84637.845764637,-446.7132160691175,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3133200, 'default': {'kl': 0.011545062996447086, 'policy_loss': -0.14434784650802612, 'vf_loss': 107.06269836425781, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.991435706615448, 'entropy': 3.2095184326171875, 'cur_lr': 4.999999873689376e-05, 'total_loss': 106.93588256835938}, 'load_time_ms': 0.622, 'num_steps_sampled': 3133200, 'grad_time_ms': 609.514, 'update_time_ms': 2.511, 'sample_time_ms': 33883.035}",2025-08-31_15-41-48,cda-server-4,34.521101236343384,15666,1756647708,10.157.146.4,False,84637.845764637,1200
+2612,-604.7610430020846,2612,3134400,{},-639.4178913639134,3134400,0,84672.54614043236,-446.7132160691175,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3134400, 'default': {'kl': 0.00916554220020771, 'policy_loss': -0.1156880334019661, 'vf_loss': 98.43741607666016, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9851717352867126, 'entropy': 3.156630277633667, 'cur_lr': 4.999999873689376e-05, 'total_loss': 98.33564758300781}, 'load_time_ms': 0.613, 'num_steps_sampled': 3134400, 'grad_time_ms': 588.695, 'update_time_ms': 2.461, 'sample_time_ms': 33918.261}",2025-08-31_15-42-23,cda-server-4,34.70037579536438,15672,1756647743,10.157.146.4,False,84672.54614043236,1200
+2613,-605.2438985967042,2613,3135600,{},-639.4178913639134,3135600,0,84706.52021098137,-446.7132160691175,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3135600, 'default': {'kl': 0.012153410352766514, 'policy_loss': -0.14704544842243195, 'vf_loss': 250.80528259277344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9727455973625183, 'entropy': 3.194366693496704, 'cur_lr': 4.999999873689376e-05, 'total_loss': 250.67669677734375}, 'load_time_ms': 0.609, 'num_steps_sampled': 3135600, 'grad_time_ms': 573.993, 'update_time_ms': 2.504, 'sample_time_ms': 33933.79}",2025-08-31_15-42-57,cda-server-4,33.97407054901123,15678,1756647777,10.157.146.4,False,84706.52021098137,1200
+2614,-608.9010467126315,2614,3136800,{},-639.4178913639134,3136800,0,84740.70696496964,-515.1897550912979,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3136800, 'default': {'kl': 0.010079155676066875, 'policy_loss': -0.13820284605026245, 'vf_loss': 66.15827941894531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9920722246170044, 'entropy': 3.2099769115448, 'cur_lr': 4.999999873689376e-05, 'total_loss': 66.0353775024414}, 'load_time_ms': 0.614, 'num_steps_sampled': 3136800, 'grad_time_ms': 589.824, 'update_time_ms': 2.484, 'sample_time_ms': 33884.098}",2025-08-31_15-43-31,cda-server-4,34.18675398826599,15684,1756647811,10.157.146.4,False,84740.70696496964,1200
+2615,-608.7989951563451,2615,3138000,{},-639.4178913639134,3138000,0,84775.32726311684,-515.1897550912979,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3138000, 'default': {'kl': 0.011027950793504715, 'policy_loss': -0.1391982138156891, 'vf_loss': 95.26436614990234, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9888120293617249, 'entropy': 3.279489040374756, 'cur_lr': 4.999999873689376e-05, 'total_loss': 95.14192199707031}, 'load_time_ms': 0.58, 'num_steps_sampled': 3138000, 'grad_time_ms': 589.634, 'update_time_ms': 2.416, 'sample_time_ms': 33879.943}",2025-08-31_15-44-06,cda-server-4,34.62029814720154,15690,1756647846,10.157.146.4,False,84775.32726311684,1200
+2616,-606.8444206570554,2616,3139200,{},-640.1933156166792,3139200,0,84810.6345345974,-496.7861350732189,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3139200, 'default': {'kl': 0.01256974320858717, 'policy_loss': -0.15307775139808655, 'vf_loss': 114.67766571044922, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.985405683517456, 'entropy': 3.236835241317749, 'cur_lr': 4.999999873689376e-05, 'total_loss': 114.54368591308594}, 'load_time_ms': 0.61, 'num_steps_sampled': 3139200, 'grad_time_ms': 619.628, 'update_time_ms': 2.329, 'sample_time_ms': 33948.397}",2025-08-31_15-44-41,cda-server-4,35.3072714805603,15696,1756647881,10.157.146.4,False,84810.6345345974,1200
+2617,-607.2155676256124,2617,3140400,{},-651.274891904131,3140400,0,84845.38033127785,-496.7861350732189,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3140400, 'default': {'kl': 0.013416659086942673, 'policy_loss': -0.16244162619113922, 'vf_loss': 30.97001838684082, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9958463311195374, 'entropy': 3.427490711212158, 'cur_lr': 4.999999873689376e-05, 'total_loss': 30.827951431274414}, 'load_time_ms': 0.609, 'num_steps_sampled': 3140400, 'grad_time_ms': 602.16, 'update_time_ms': 2.406, 'sample_time_ms': 33986.147}",2025-08-31_15-45-16,cda-server-4,34.74579668045044,15702,1756647916,10.157.146.4,False,84845.38033127785,1200
+2618,-607.3929852410062,2618,3141600,{},-651.274891904131,3141600,0,84880.17343044281,-496.7861350732189,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3141600, 'default': {'kl': 0.01004360057413578, 'policy_loss': -0.12200755625963211, 'vf_loss': 78.51606750488281, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9880143404006958, 'entropy': 3.2148220539093018, 'cur_lr': 4.999999873689376e-05, 'total_loss': 78.40930938720703}, 'load_time_ms': 0.612, 'num_steps_sampled': 3141600, 'grad_time_ms': 588.577, 'update_time_ms': 2.35, 'sample_time_ms': 33972.063}",2025-08-31_15-45-51,cda-server-4,34.79309916496277,15708,1756647951,10.157.146.4,False,84880.17343044281,1200
+2619,-608.134679668057,2619,3142800,{},-651.274891904131,3142800,0,84915.96177911758,-496.7861350732189,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3142800, 'default': {'kl': 0.010788727551698685, 'policy_loss': -0.13878227770328522, 'vf_loss': 195.32711791992188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9805769324302673, 'entropy': 3.1087586879730225, 'cur_lr': 4.999999873689376e-05, 'total_loss': 195.20472717285156}, 'load_time_ms': 0.616, 'num_steps_sampled': 3142800, 'grad_time_ms': 583.188, 'update_time_ms': 2.313, 'sample_time_ms': 34045.026}",2025-08-31_15-46-27,cda-server-4,35.78834867477417,15714,1756647987,10.157.146.4,False,84915.96177911758,1200
+2620,-608.6387450168367,2620,3144000,{},-651.274891904131,3144000,0,84950.28894281387,-496.7861350732189,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3144000, 'default': {'kl': 0.0112991314381361, 'policy_loss': -0.14329157769680023, 'vf_loss': 236.31773376464844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9801876544952393, 'entropy': 3.281853199005127, 'cur_lr': 4.999999873689376e-05, 'total_loss': 236.19158935546875}, 'load_time_ms': 0.623, 'num_steps_sampled': 3144000, 'grad_time_ms': 586.369, 'update_time_ms': 2.311, 'sample_time_ms': 34103.094}",2025-08-31_15-47-01,cda-server-4,34.32716369628906,15720,1756648021,10.157.146.4,False,84950.28894281387,1200
+2621,-608.6634511557049,2621,3145200,{},-651.274891904131,3145200,0,84984.11958909035,-496.7861350732189,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3145200, 'default': {'kl': 0.007517317775636911, 'policy_loss': -0.11515046656131744, 'vf_loss': 159.6145477294922, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9837631583213806, 'entropy': 3.206965446472168, 'cur_lr': 4.999999873689376e-05, 'total_loss': 159.5108184814453}, 'load_time_ms': 0.632, 'num_steps_sampled': 3145200, 'grad_time_ms': 612.893, 'update_time_ms': 2.261, 'sample_time_ms': 34007.598}",2025-08-31_15-47-35,cda-server-4,33.830646276474,15726,1756648055,10.157.146.4,False,84984.11958909035,1200
+2622,-608.6707197633508,2622,3146400,{},-651.274891904131,3146400,0,85019.81572318077,-496.7861350732189,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3146400, 'default': {'kl': 0.01002162229269743, 'policy_loss': -0.113590769469738, 'vf_loss': 57.43764114379883, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9917519092559814, 'entropy': 3.200812339782715, 'cur_lr': 4.999999873689376e-05, 'total_loss': 57.33927536010742}, 'load_time_ms': 0.634, 'num_steps_sampled': 3146400, 'grad_time_ms': 635.432, 'update_time_ms': 2.302, 'sample_time_ms': 34084.58}",2025-08-31_15-48-11,cda-server-4,35.696134090423584,15732,1756648091,10.157.146.4,False,85019.81572318077,1200
+2623,-606.6142943139042,2623,3147600,{},-651.274891904131,3147600,0,85055.61922287941,-472.6794403396286,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3147600, 'default': {'kl': 0.012822740711271763, 'policy_loss': -0.15200239419937134, 'vf_loss': 264.904052734375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9673311710357666, 'entropy': 3.163895606994629, 'cur_lr': 4.999999873689376e-05, 'total_loss': 264.77154541015625}, 'load_time_ms': 0.651, 'num_steps_sampled': 3147600, 'grad_time_ms': 688.335, 'update_time_ms': 2.253, 'sample_time_ms': 34214.426}",2025-08-31_15-48-46,cda-server-4,35.803499698638916,15738,1756648126,10.157.146.4,False,85055.61922287941,1200
+2624,-604.6495661074359,2624,3148800,{},-651.274891904131,3148800,0,85090.42791724205,-472.6794403396286,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3148800, 'default': {'kl': 0.010871957056224346, 'policy_loss': -0.12190805375576019, 'vf_loss': 258.0816650390625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9801595211029053, 'entropy': 3.1024131774902344, 'cur_lr': 4.999999873689376e-05, 'total_loss': 257.97625732421875}, 'load_time_ms': 0.646, 'num_steps_sampled': 3148800, 'grad_time_ms': 692.989, 'update_time_ms': 2.546, 'sample_time_ms': 34271.658}",2025-08-31_15-49-21,cda-server-4,34.80869436264038,15744,1756648161,10.157.146.4,False,85090.42791724205,1200
+2625,-604.4695933953991,2625,3150000,{},-651.274891904131,3150000,0,85124.76038360596,-472.6794403396286,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3150000, 'default': {'kl': 0.00913163460791111, 'policy_loss': -0.09059187024831772, 'vf_loss': 155.82627868652344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9951289296150208, 'entropy': 3.23055362701416, 'cur_lr': 4.999999873689376e-05, 'total_loss': 155.74957275390625}, 'load_time_ms': 0.635, 'num_steps_sampled': 3150000, 'grad_time_ms': 691.014, 'update_time_ms': 2.538, 'sample_time_ms': 34244.897}",2025-08-31_15-49-56,cda-server-4,34.33246636390686,15750,1756648196,10.157.146.4,False,85124.76038360596,1200
+2626,-603.884238685718,2626,3151200,{},-651.274891904131,3151200,0,85159.49321317673,-472.6794403396286,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3151200, 'default': {'kl': 0.008427615277469158, 'policy_loss': -0.10396745800971985, 'vf_loss': 149.73968505859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9902017116546631, 'entropy': 3.2477502822875977, 'cur_lr': 4.999999873689376e-05, 'total_loss': 149.64849853515625}, 'load_time_ms': 0.602, 'num_steps_sampled': 3151200, 'grad_time_ms': 656.143, 'update_time_ms': 2.536, 'sample_time_ms': 34222.546}",2025-08-31_15-50-30,cda-server-4,34.732829570770264,15756,1756648230,10.157.146.4,False,85159.49321317673,1200
+2627,-603.7728221261345,2627,3152400,{},-651.274891904131,3152400,0,85194.27958273888,-472.6794403396286,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3152400, 'default': {'kl': 0.009679542854428291, 'policy_loss': -0.12886260449886322, 'vf_loss': 392.3779296875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9666646122932434, 'entropy': 3.1728909015655518, 'cur_lr': 4.999999873689376e-05, 'total_loss': 392.2637634277344}, 'load_time_ms': 0.601, 'num_steps_sampled': 3152400, 'grad_time_ms': 659.015, 'update_time_ms': 2.484, 'sample_time_ms': 34223.798}",2025-08-31_15-51-05,cda-server-4,34.78636956214905,15762,1756648265,10.157.146.4,False,85194.27958273888,1200
+2628,-604.7174005950654,2628,3153600,{},-651.274891904131,3153600,0,85228.44690561295,-472.6794403396286,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3153600, 'default': {'kl': 0.01062693726271391, 'policy_loss': -0.13246041536331177, 'vf_loss': 43.73623275756836, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9956722259521484, 'entropy': 3.2358007431030273, 'cur_lr': 4.999999873689376e-05, 'total_loss': 43.61991500854492}, 'load_time_ms': 0.6, 'num_steps_sampled': 3153600, 'grad_time_ms': 669.508, 'update_time_ms': 2.451, 'sample_time_ms': 34150.866}",2025-08-31_15-51-39,cda-server-4,34.167322874069214,15768,1756648299,10.157.146.4,False,85228.44690561295,1200
+2629,-603.8484683836422,2629,3154800,{},-651.274891904131,3154800,0,85263.07161712646,-472.6794403396286,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3154800, 'default': {'kl': 0.011893432587385178, 'policy_loss': -0.14434076845645905, 'vf_loss': 49.53939437866211, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9956463575363159, 'entropy': 3.137230157852173, 'cur_lr': 4.999999873689376e-05, 'total_loss': 49.413116455078125}, 'load_time_ms': 0.592, 'num_steps_sampled': 3154800, 'grad_time_ms': 680.399, 'update_time_ms': 2.419, 'sample_time_ms': 34023.564}",2025-08-31_15-52-14,cda-server-4,34.62471151351929,15774,1756648334,10.157.146.4,False,85263.07161712646,1200
+2630,-602.9792763213925,2630,3156000,{},-651.274891904131,3156000,0,85297.50572299957,-472.6794403396286,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3156000, 'default': {'kl': 0.012518271803855896, 'policy_loss': -0.15413914620876312, 'vf_loss': 92.48741149902344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9896969199180603, 'entropy': 3.302544355392456, 'cur_lr': 4.999999873689376e-05, 'total_loss': 92.35228729248047}, 'load_time_ms': 0.592, 'num_steps_sampled': 3156000, 'grad_time_ms': 697.011, 'update_time_ms': 2.431, 'sample_time_ms': 34017.665}",2025-08-31_15-52-48,cda-server-4,34.43410587310791,15780,1756648368,10.157.146.4,False,85297.50572299957,1200
+2631,-603.6543500932254,2631,3157200,{},-651.274891904131,3157200,0,85331.06922864914,-472.6794403396286,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3157200, 'default': {'kl': 0.011267471127212048, 'policy_loss': -0.1090797409415245, 'vf_loss': 219.29327392578125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9837273359298706, 'entropy': 3.1480836868286133, 'cur_lr': 4.999999873689376e-05, 'total_loss': 219.20130920410156}, 'load_time_ms': 0.588, 'num_steps_sampled': 3157200, 'grad_time_ms': 687.389, 'update_time_ms': 2.419, 'sample_time_ms': 34000.572}",2025-08-31_15-53-22,cda-server-4,33.56350564956665,15786,1756648402,10.157.146.4,False,85331.06922864914,1200
+2632,-605.195877287798,2632,3158400,{},-651.274891904131,3158400,0,85365.00370955467,-472.6794403396286,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3158400, 'default': {'kl': 0.012001501396298409, 'policy_loss': -0.15356706082820892, 'vf_loss': 73.71963500976562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9922707676887512, 'entropy': 3.128547430038452, 'cur_lr': 4.999999873689376e-05, 'total_loss': 73.58429718017578}, 'load_time_ms': 0.593, 'num_steps_sampled': 3158400, 'grad_time_ms': 668.144, 'update_time_ms': 2.481, 'sample_time_ms': 33843.513}",2025-08-31_15-53-56,cda-server-4,33.93448090553284,15792,1756648436,10.157.146.4,False,85365.00370955467,1200
+2633,-605.6401030560803,2633,3159600,{},-651.274891904131,3159600,0,85399.47973513603,-472.6794403396286,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3159600, 'default': {'kl': 0.01292404904961586, 'policy_loss': -0.16505067050457, 'vf_loss': 156.86203002929688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9859645366668701, 'entropy': 3.3180088996887207, 'cur_lr': 4.999999873689376e-05, 'total_loss': 156.71661376953125}, 'load_time_ms': 0.57, 'num_steps_sampled': 3159600, 'grad_time_ms': 615.137, 'update_time_ms': 2.479, 'sample_time_ms': 33764.039}",2025-08-31_15-54-31,cda-server-4,34.47602558135986,15798,1756648471,10.157.146.4,False,85399.47973513603,1200
+2634,-605.7077669185854,2634,3160800,{},-647.6490223517822,3160800,0,85434.95996284485,-472.6794403396286,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3160800, 'default': {'kl': 0.011023957282304764, 'policy_loss': -0.1546497642993927, 'vf_loss': 107.30764770507812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9856497645378113, 'entropy': 3.0807130336761475, 'cur_lr': 4.999999873689376e-05, 'total_loss': 107.16973876953125}, 'load_time_ms': 0.576, 'num_steps_sampled': 3160800, 'grad_time_ms': 623.474, 'update_time_ms': 2.207, 'sample_time_ms': 33823.124}",2025-08-31_15-55-06,cda-server-4,35.48022770881653,15804,1756648506,10.157.146.4,False,85434.95996284485,1200
+2635,-605.4383910849451,2635,3162000,{},-642.9283773535362,3162000,0,85469.45092988014,-472.6794403396286,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3162000, 'default': {'kl': 0.009119493886828423, 'policy_loss': -0.13036540150642395, 'vf_loss': 143.70626831054688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9785538911819458, 'entropy': 3.166477680206299, 'cur_lr': 4.999999873689376e-05, 'total_loss': 143.5897674560547}, 'load_time_ms': 0.577, 'num_steps_sampled': 3162000, 'grad_time_ms': 647.183, 'update_time_ms': 2.21, 'sample_time_ms': 33815.183}",2025-08-31_15-55-41,cda-server-4,34.49096703529358,15810,1756648541,10.157.146.4,False,85469.45092988014,1200
+2636,-605.8354007163724,2636,3163200,{},-642.9283773535362,3163200,0,85504.21698951721,-472.6794403396286,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3163200, 'default': {'kl': 0.012560669332742691, 'policy_loss': -0.11671958863735199, 'vf_loss': 239.2603302001953, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9673260450363159, 'entropy': 3.221438407897949, 'cur_lr': 4.999999873689376e-05, 'total_loss': 239.16270446777344}, 'load_time_ms': 0.59, 'num_steps_sampled': 3163200, 'grad_time_ms': 659.263, 'update_time_ms': 2.244, 'sample_time_ms': 33806.345}",2025-08-31_15-56-15,cda-server-4,34.7660596370697,15816,1756648575,10.157.146.4,False,85504.21698951721,1200
+2637,-605.7559269257443,2637,3164400,{},-642.9283773535362,3164400,0,85538.70786380768,-472.6794403396286,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3164400, 'default': {'kl': 0.013149324804544449, 'policy_loss': -0.14686539769172668, 'vf_loss': 248.1128692626953, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.979441225528717, 'entropy': 3.261759042739868, 'cur_lr': 4.999999873689376e-05, 'total_loss': 247.9860076904297}, 'load_time_ms': 0.595, 'num_steps_sampled': 3164400, 'grad_time_ms': 675.303, 'update_time_ms': 2.191, 'sample_time_ms': 33760.852}",2025-08-31_15-56-50,cda-server-4,34.49087429046631,15822,1756648610,10.157.146.4,False,85538.70786380768,1200
+2638,-605.7584209729482,2638,3165600,{},-642.9283773535362,3165600,0,85573.73937392235,-472.6794403396286,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3165600, 'default': {'kl': 0.00975856650620699, 'policy_loss': -0.12984010577201843, 'vf_loss': 226.33517456054688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.982452392578125, 'entropy': 3.1750569343566895, 'cur_lr': 4.999999873689376e-05, 'total_loss': 226.22015380859375}, 'load_time_ms': 0.631, 'num_steps_sampled': 3165600, 'grad_time_ms': 668.42, 'update_time_ms': 2.204, 'sample_time_ms': 33854.031}",2025-08-31_15-57-25,cda-server-4,35.0315101146698,15828,1756648645,10.157.146.4,False,85573.73937392235,1200
+2639,-605.3735315110658,2639,3166800,{},-642.9283773535362,3166800,0,85607.88491797447,-472.6794403396286,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3166800, 'default': {'kl': 0.00904801208525896, 'policy_loss': -0.11933384835720062, 'vf_loss': 128.44744873046875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9828755855560303, 'entropy': 3.126296043395996, 'cur_lr': 4.999999873689376e-05, 'total_loss': 128.34185791015625}, 'load_time_ms': 0.631, 'num_steps_sampled': 3166800, 'grad_time_ms': 661.264, 'update_time_ms': 2.286, 'sample_time_ms': 33813.266}",2025-08-31_15-57-59,cda-server-4,34.14554405212402,15834,1756648679,10.157.146.4,False,85607.88491797447,1200
+2640,-607.2437579450794,2640,3168000,{},-636.9940010016755,3168000,0,85642.59381699562,-489.01486464710183,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3168000, 'default': {'kl': 0.01095916423946619, 'policy_loss': -0.13523413240909576, 'vf_loss': 70.18115234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9916316270828247, 'entropy': 3.156554698944092, 'cur_lr': 4.999999873689376e-05, 'total_loss': 70.06255340576172}, 'load_time_ms': 0.638, 'num_steps_sampled': 3168000, 'grad_time_ms': 664.29, 'update_time_ms': 2.258, 'sample_time_ms': 33837.686}",2025-08-31_15-58-34,cda-server-4,34.70889902114868,15840,1756648714,10.157.146.4,False,85642.59381699562,1200
+2641,-609.254688540335,2641,3169200,{},-759.7759700224021,3169200,0,85677.87314891815,-489.01486464710183,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3169200, 'default': {'kl': 0.012013214640319347, 'policy_loss': -0.14221899211406708, 'vf_loss': 256.0488586425781, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9764364957809448, 'entropy': 3.5375514030456543, 'cur_lr': 4.999999873689376e-05, 'total_loss': 255.9248809814453}, 'load_time_ms': 0.638, 'num_steps_sampled': 3169200, 'grad_time_ms': 659.401, 'update_time_ms': 2.275, 'sample_time_ms': 34014.092}",2025-08-31_15-59-09,cda-server-4,35.27933192253113,15846,1756648749,10.157.146.4,False,85677.87314891815,1200
+2642,-609.8413357545978,2642,3170400,{},-759.7759700224021,3170400,0,85711.35439324379,-489.01486464710183,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3170400, 'default': {'kl': 0.011372051201760769, 'policy_loss': -0.13728123903274536, 'vf_loss': 131.528076171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9842898845672607, 'entropy': 3.140352964401245, 'cur_lr': 4.999999873689376e-05, 'total_loss': 131.40805053710938}, 'load_time_ms': 0.638, 'num_steps_sampled': 3170400, 'grad_time_ms': 674.509, 'update_time_ms': 2.189, 'sample_time_ms': 33953.781}",2025-08-31_15-59-43,cda-server-4,33.48124432563782,15852,1756648783,10.157.146.4,False,85711.35439324379,1200
+2643,-610.8348322777065,2643,3171600,{},-759.7759700224021,3171600,0,85745.6282479763,-489.01486464710183,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3171600, 'default': {'kl': 0.009302783757448196, 'policy_loss': -0.1277165710926056, 'vf_loss': 251.71734619140625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9748314619064331, 'entropy': 3.2486085891723633, 'cur_lr': 4.999999873689376e-05, 'total_loss': 251.60372924804688}, 'load_time_ms': 0.643, 'num_steps_sampled': 3171600, 'grad_time_ms': 681.559, 'update_time_ms': 2.153, 'sample_time_ms': 33926.536}",2025-08-31_16-00-17,cda-server-4,34.27385473251343,15858,1756648817,10.157.146.4,False,85745.6282479763,1200
+2644,-610.4721758924976,2644,3172800,{},-759.7759700224021,3172800,0,85780.5583999157,-489.01486464710183,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3172800, 'default': {'kl': 0.009708053432404995, 'policy_loss': -0.12880273163318634, 'vf_loss': 64.63241577148438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9918953776359558, 'entropy': 3.1548449993133545, 'cur_lr': 4.999999873689376e-05, 'total_loss': 64.51834869384766}, 'load_time_ms': 0.672, 'num_steps_sampled': 3172800, 'grad_time_ms': 675.773, 'update_time_ms': 2.17, 'sample_time_ms': 33877.166}",2025-08-31_16-00-52,cda-server-4,34.93015193939209,15864,1756648852,10.157.146.4,False,85780.5583999157,1200
+2645,-610.3706126119589,2645,3174000,{},-759.7759700224021,3174000,0,85814.78544211388,-465.0780308529559,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3174000, 'default': {'kl': 0.010533453896641731, 'policy_loss': -0.12757712602615356, 'vf_loss': 146.9900360107422, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9779758453369141, 'entropy': 3.1372859477996826, 'cur_lr': 4.999999873689376e-05, 'total_loss': 146.87844848632812}, 'load_time_ms': 0.694, 'num_steps_sampled': 3174000, 'grad_time_ms': 669.631, 'update_time_ms': 2.227, 'sample_time_ms': 33856.791}",2025-08-31_16-01-26,cda-server-4,34.22704219818115,15870,1756648886,10.157.146.4,False,85814.78544211388,1200
+2646,-610.2930020170115,2646,3175200,{},-759.7759700224021,3175200,0,85848.71007585526,-465.0780308529559,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3175200, 'default': {'kl': 0.012037638574838638, 'policy_loss': -0.15952642261981964, 'vf_loss': 79.51482391357422, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9895308017730713, 'entropy': 3.123938798904419, 'cur_lr': 4.999999873689376e-05, 'total_loss': 79.37358093261719}, 'load_time_ms': 0.684, 'num_steps_sampled': 3175200, 'grad_time_ms': 647.101, 'update_time_ms': 2.266, 'sample_time_ms': 33795.157}",2025-08-31_16-02-00,cda-server-4,33.924633741378784,15876,1756648920,10.157.146.4,False,85848.71007585526,1200
+2647,-611.2376527227268,2647,3176400,{},-759.7759700224021,3176400,0,85883.36198496819,-465.0780308529559,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3176400, 'default': {'kl': 0.011143693700432777, 'policy_loss': -0.14666706323623657, 'vf_loss': 36.56327819824219, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9943829774856567, 'entropy': 3.239398956298828, 'cur_lr': 4.999999873689376e-05, 'total_loss': 36.43353271484375}, 'load_time_ms': 0.683, 'num_steps_sampled': 3176400, 'grad_time_ms': 639.412, 'update_time_ms': 2.228, 'sample_time_ms': 33818.95}",2025-08-31_16-02-35,cda-server-4,34.6519091129303,15882,1756648955,10.157.146.4,False,85883.36198496819,1200
+2648,-612.2657934395535,2648,3177600,{},-759.7759700224021,3177600,0,85918.18281507492,-465.0780308529559,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3177600, 'default': {'kl': 0.0114403385668993, 'policy_loss': -0.15098831057548523, 'vf_loss': 372.6004943847656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9740758538246155, 'entropy': 3.4860916137695312, 'cur_lr': 4.999999873689376e-05, 'total_loss': 372.4668884277344}, 'load_time_ms': 0.674, 'num_steps_sampled': 3177600, 'grad_time_ms': 625.477, 'update_time_ms': 2.239, 'sample_time_ms': 33811.805}",2025-08-31_16-03-09,cda-server-4,34.82083010673523,15888,1756648989,10.157.146.4,False,85918.18281507492,1200
+2649,-611.5728645331014,2649,3178800,{},-759.7759700224021,3178800,0,85952.433989048,-465.0780308529559,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3178800, 'default': {'kl': 0.011583653278648853, 'policy_loss': -0.13391023874282837, 'vf_loss': 53.36878204345703, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9952252507209778, 'entropy': 3.0679147243499756, 'cur_lr': 4.999999873689376e-05, 'total_loss': 53.25246047973633}, 'load_time_ms': 0.676, 'num_steps_sampled': 3178800, 'grad_time_ms': 613.488, 'update_time_ms': 2.25, 'sample_time_ms': 33834.37}",2025-08-31_16-03-44,cda-server-4,34.251173973083496,15894,1756649024,10.157.146.4,False,85952.433989048,1200
+2650,-611.0325353844942,2650,3180000,{},-759.7759700224021,3180000,0,85988.02342057228,-465.0780308529559,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3180000, 'default': {'kl': 0.009527763351798058, 'policy_loss': -0.12649911642074585, 'vf_loss': 154.14645385742188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9880722761154175, 'entropy': 3.0744612216949463, 'cur_lr': 4.999999873689376e-05, 'total_loss': 154.034423828125}, 'load_time_ms': 0.671, 'num_steps_sampled': 3180000, 'grad_time_ms': 589.381, 'update_time_ms': 2.29, 'sample_time_ms': 33946.518}",2025-08-31_16-04-19,cda-server-4,35.58943152427673,15900,1756649059,10.157.146.4,False,85988.02342057228,1200
+2651,-610.0034109290806,2651,3181200,{},-759.7759700224021,3181200,0,86022.62450814247,-465.0780308529559,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3181200, 'default': {'kl': 0.011379020288586617, 'policy_loss': -0.13598819077014923, 'vf_loss': 79.01333618164062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9899474382400513, 'entropy': 3.2396936416625977, 'cur_lr': 4.999999873689376e-05, 'total_loss': 78.8946304321289}, 'load_time_ms': 0.673, 'num_steps_sampled': 3181200, 'grad_time_ms': 591.549, 'update_time_ms': 2.284, 'sample_time_ms': 33876.512}",2025-08-31_16-04-54,cda-server-4,34.60108757019043,15906,1756649094,10.157.146.4,False,86022.62450814247,1200
+2652,-610.0545970516753,2652,3182400,{},-759.7759700224021,3182400,0,86057.67805171013,-465.0780308529559,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3182400, 'default': {'kl': 0.011038542725145817, 'policy_loss': -0.1294359415769577, 'vf_loss': 280.92120361328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9679580330848694, 'entropy': 3.2452166080474854, 'cur_lr': 4.999999873689376e-05, 'total_loss': 280.8085021972656}, 'load_time_ms': 0.678, 'num_steps_sampled': 3182400, 'grad_time_ms': 582.194, 'update_time_ms': 2.364, 'sample_time_ms': 34042.968}",2025-08-31_16-05-29,cda-server-4,35.05354356765747,15912,1756649129,10.157.146.4,False,86057.67805171013,1200
+2653,-610.2160808583089,2653,3183600,{},-759.7759700224021,3183600,0,86090.8989238739,-465.0780308529559,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3183600, 'default': {'kl': 0.009008270688354969, 'policy_loss': -0.12333296239376068, 'vf_loss': 94.96012878417969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9853439331054688, 'entropy': 3.2464559078216553, 'cur_lr': 4.999999873689376e-05, 'total_loss': 94.85047912597656}, 'load_time_ms': 0.682, 'num_steps_sampled': 3183600, 'grad_time_ms': 576.071, 'update_time_ms': 2.433, 'sample_time_ms': 33943.73}",2025-08-31_16-06-02,cda-server-4,33.22087216377258,15918,1756649162,10.157.146.4,False,86090.8989238739,1200
+2654,-610.7236107301177,2654,3184800,{},-759.7759700224021,3184800,0,86125.95607018471,-465.0780308529559,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3184800, 'default': {'kl': 0.009663148783147335, 'policy_loss': -0.11001140624284744, 'vf_loss': 239.0645294189453, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9863626956939697, 'entropy': 3.120741844177246, 'cur_lr': 4.999999873689376e-05, 'total_loss': 238.96917724609375}, 'load_time_ms': 0.658, 'num_steps_sampled': 3184800, 'grad_time_ms': 569.38, 'update_time_ms': 2.418, 'sample_time_ms': 33963.263}",2025-08-31_16-06-37,cda-server-4,35.057146310806274,15924,1756649197,10.157.146.4,False,86125.95607018471,1200
+2655,-610.8714041065491,2655,3186000,{},-759.7759700224021,3186000,0,86160.94253993034,-465.0780308529559,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3186000, 'default': {'kl': 0.011414770036935806, 'policy_loss': -0.14345265924930573, 'vf_loss': 40.72883605957031, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9962040781974792, 'entropy': 3.0897152423858643, 'cur_lr': 4.999999873689376e-05, 'total_loss': 40.60271453857422}, 'load_time_ms': 0.642, 'num_steps_sampled': 3186000, 'grad_time_ms': 567.981, 'update_time_ms': 2.346, 'sample_time_ms': 34040.779}",2025-08-31_16-07-12,cda-server-4,34.986469745635986,15930,1756649232,10.157.146.4,False,86160.94253993034,1200
+2656,-610.268300648977,2656,3187200,{},-759.7759700224021,3187200,0,86194.83777928352,-465.0780308529559,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3187200, 'default': {'kl': 0.010773850604891777, 'policy_loss': -0.14367759227752686, 'vf_loss': 116.25092315673828, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9920982718467712, 'entropy': 3.1274688243865967, 'cur_lr': 4.999999873689376e-05, 'total_loss': 116.12358856201172}, 'load_time_ms': 0.651, 'num_steps_sampled': 3187200, 'grad_time_ms': 578.332, 'update_time_ms': 2.297, 'sample_time_ms': 34027.556}",2025-08-31_16-07-46,cda-server-4,33.89523935317993,15936,1756649266,10.157.146.4,False,86194.83777928352,1200
+2657,-609.2758973427685,2657,3188400,{},-664.7735096902584,3188400,0,86228.83078837395,-465.0780308529559,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3188400, 'default': {'kl': 0.00796995498239994, 'policy_loss': -0.11389393359422684, 'vf_loss': 151.40391540527344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9810268878936768, 'entropy': 3.1533517837524414, 'cur_lr': 4.999999873689376e-05, 'total_loss': 151.30213928222656}, 'load_time_ms': 0.643, 'num_steps_sampled': 3188400, 'grad_time_ms': 576.742, 'update_time_ms': 2.304, 'sample_time_ms': 33963.151}",2025-08-31_16-08-20,cda-server-4,33.993009090423584,15942,1756649300,10.157.146.4,False,86228.83078837395,1200
+2658,-609.5764418941917,2658,3189600,{},-664.7735096902584,3189600,0,86263.65706825256,-465.0780308529559,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3189600, 'default': {'kl': 0.008544130250811577, 'policy_loss': -0.11269625276327133, 'vf_loss': 133.98519897460938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9809479117393494, 'entropy': 3.2170896530151367, 'cur_lr': 4.999999873689376e-05, 'total_loss': 133.88546752929688}, 'load_time_ms': 0.62, 'num_steps_sampled': 3189600, 'grad_time_ms': 601.653, 'update_time_ms': 2.349, 'sample_time_ms': 33938.791}",2025-08-31_16-08-55,cda-server-4,34.82627987861633,15948,1756649335,10.157.146.4,False,86263.65706825256,1200
+2659,-609.3400198069107,2659,3190800,{},-664.7735096902584,3190800,0,86298.53091573715,-465.0780308529559,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3190800, 'default': {'kl': 0.011856413446366787, 'policy_loss': -0.11874474585056305, 'vf_loss': 225.37045288085938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9749208092689514, 'entropy': 3.0833892822265625, 'cur_lr': 4.999999873689376e-05, 'total_loss': 225.26971435546875}, 'load_time_ms': 0.637, 'num_steps_sampled': 3190800, 'grad_time_ms': 620.127, 'update_time_ms': 2.316, 'sample_time_ms': 33982.584}",2025-08-31_16-09-30,cda-server-4,34.87384748458862,15954,1756649370,10.157.146.4,False,86298.53091573715,1200
+2660,-609.0798197178445,2660,3192000,{},-664.7735096902584,3192000,0,86332.53249335289,-465.0780308529559,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3192000, 'default': {'kl': 0.010761748999357224, 'policy_loss': -0.13553622364997864, 'vf_loss': 130.22705078125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9818446636199951, 'entropy': 3.1224989891052246, 'cur_lr': 4.999999873689376e-05, 'total_loss': 130.1078643798828}, 'load_time_ms': 0.662, 'num_steps_sampled': 3192000, 'grad_time_ms': 623.915, 'update_time_ms': 2.311, 'sample_time_ms': 33820.018}",2025-08-31_16-10-04,cda-server-4,34.001577615737915,15960,1756649404,10.157.146.4,False,86332.53249335289,1200
+2661,-607.2937881462663,2661,3193200,{},-664.7735096902584,3193200,0,86366.2563636303,-462.4414140000323,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3193200, 'default': {'kl': 0.012507366016507149, 'policy_loss': -0.15839549899101257, 'vf_loss': 184.4624481201172, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9824236631393433, 'entropy': 3.0543696880340576, 'cur_lr': 4.999999873689376e-05, 'total_loss': 184.3230438232422}, 'load_time_ms': 0.658, 'num_steps_sampled': 3193200, 'grad_time_ms': 615.421, 'update_time_ms': 2.296, 'sample_time_ms': 33740.878}",2025-08-31_16-10-38,cda-server-4,33.723870277404785,15966,1756649438,10.157.146.4,False,86366.2563636303,1200
+2662,-608.1288174340593,2662,3194400,{},-664.7735096902584,3194400,0,86400.96622014046,-462.4414140000323,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3194400, 'default': {'kl': 0.011536991223692894, 'policy_loss': -0.14217247068881989, 'vf_loss': 71.60990905761719, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9900035858154297, 'entropy': 3.098019599914551, 'cur_lr': 4.999999873689376e-05, 'total_loss': 71.48526000976562}, 'load_time_ms': 0.645, 'num_steps_sampled': 3194400, 'grad_time_ms': 606.279, 'update_time_ms': 2.271, 'sample_time_ms': 33715.778}",2025-08-31_16-11-13,cda-server-4,34.70985651016235,15972,1756649473,10.157.146.4,False,86400.96622014046,1200
+2663,-608.9777948506847,2663,3195600,{},-664.7735096902584,3195600,0,86436.36138916016,-462.4414140000323,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3195600, 'default': {'kl': 0.011389615014195442, 'policy_loss': -0.15992724895477295, 'vf_loss': 83.55807495117188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9887943267822266, 'entropy': 3.3840110301971436, 'cur_lr': 4.999999873689376e-05, 'total_loss': 83.41544342041016}, 'load_time_ms': 0.647, 'num_steps_sampled': 3195600, 'grad_time_ms': 622.195, 'update_time_ms': 2.25, 'sample_time_ms': 33917.3}",2025-08-31_16-11-48,cda-server-4,35.3951690196991,15978,1756649508,10.157.146.4,False,86436.36138916016,1200
+2664,-608.5820875322886,2664,3196800,{},-664.7735096902584,3196800,0,86471.02945566177,-462.4414140000323,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3196800, 'default': {'kl': 0.00896663498133421, 'policy_loss': -0.12130032479763031, 'vf_loss': 160.41305541992188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9762815833091736, 'entropy': 3.1989266872406006, 'cur_lr': 4.999999873689376e-05, 'total_loss': 160.3053741455078}, 'load_time_ms': 0.646, 'num_steps_sampled': 3196800, 'grad_time_ms': 628.379, 'update_time_ms': 2.245, 'sample_time_ms': 33872.172}",2025-08-31_16-12-23,cda-server-4,34.66806650161743,15984,1756649543,10.157.146.4,False,86471.02945566177,1200
+2665,-608.1975827460047,2665,3198000,{},-651.7749679378544,3198000,0,86505.2359931469,-462.4414140000323,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3198000, 'default': {'kl': 0.01116675604134798, 'policy_loss': -0.146169513463974, 'vf_loss': 138.39398193359375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.982917070388794, 'entropy': 3.1519904136657715, 'cur_lr': 4.999999873689376e-05, 'total_loss': 138.2647705078125}, 'load_time_ms': 0.651, 'num_steps_sampled': 3198000, 'grad_time_ms': 618.3, 'update_time_ms': 2.252, 'sample_time_ms': 33804.235}",2025-08-31_16-12-57,cda-server-4,34.20653748512268,15990,1756649577,10.157.146.4,False,86505.2359931469,1200
+2666,-606.4218739256946,2666,3199200,{},-651.7749679378544,3199200,0,86539.7985200882,-462.4414140000323,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3199200, 'default': {'kl': 0.011551731266081333, 'policy_loss': -0.13744708895683289, 'vf_loss': 113.60659790039062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9861137866973877, 'entropy': 3.0365898609161377, 'cur_lr': 4.999999873689376e-05, 'total_loss': 113.48668670654297}, 'load_time_ms': 0.651, 'num_steps_sampled': 3199200, 'grad_time_ms': 609.462, 'update_time_ms': 2.238, 'sample_time_ms': 33879.735}",2025-08-31_16-13-31,cda-server-4,34.56252694129944,15996,1756649611,10.157.146.4,False,86539.7985200882,1200
+2667,-607.2345001931063,2667,3200400,{},-651.7749679378544,3200400,0,86573.85818362236,-462.4414140000323,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3200400, 'default': {'kl': 0.01269834116101265, 'policy_loss': -0.1486237645149231, 'vf_loss': 151.0218048095703, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9845559000968933, 'entropy': 3.1171987056732178, 'cur_lr': 4.999999873689376e-05, 'total_loss': 150.89247131347656}, 'load_time_ms': 0.654, 'num_steps_sampled': 3200400, 'grad_time_ms': 591.676, 'update_time_ms': 2.307, 'sample_time_ms': 33904.255}",2025-08-31_16-14-05,cda-server-4,34.05966353416443,16002,1756649645,10.157.146.4,False,86573.85818362236,1200
+2668,-607.2465462767617,2668,3201600,{},-651.7749679378544,3201600,0,86607.78052449226,-462.4414140000323,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3201600, 'default': {'kl': 0.009334739297628403, 'policy_loss': -0.1109570562839508, 'vf_loss': 509.5110168457031, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9737496972084045, 'entropy': 3.1416616439819336, 'cur_lr': 4.999999873689376e-05, 'total_loss': 509.4142761230469}, 'load_time_ms': 0.65, 'num_steps_sampled': 3201600, 'grad_time_ms': 562.343, 'update_time_ms': 2.245, 'sample_time_ms': 33843.325}",2025-08-31_16-14-39,cda-server-4,33.922340869903564,16008,1756649679,10.157.146.4,False,86607.78052449226,1200
+2669,-606.814360730866,2669,3202800,{},-651.7749679378544,3202800,0,86642.77966570854,-462.4414140000323,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3202800, 'default': {'kl': 0.009670163504779339, 'policy_loss': -0.12654095888137817, 'vf_loss': 104.98957061767578, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9946094155311584, 'entropy': 3.1119327545166016, 'cur_lr': 4.999999873689376e-05, 'total_loss': 104.87771606445312}, 'load_time_ms': 0.634, 'num_steps_sampled': 3202800, 'grad_time_ms': 540.046, 'update_time_ms': 2.246, 'sample_time_ms': 33878.215}",2025-08-31_16-15-14,cda-server-4,34.999141216278076,16014,1756649714,10.157.146.4,False,86642.77966570854,1200
+2670,-606.615505251774,2670,3204000,{},-651.7749679378544,3204000,0,86678.07805895805,-462.4414140000323,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3204000, 'default': {'kl': 0.009759010747075081, 'policy_loss': -0.13147775828838348, 'vf_loss': 218.03578186035156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9747807383537292, 'entropy': 3.149479627609253, 'cur_lr': 4.999999873689376e-05, 'total_loss': 217.91912841796875}, 'load_time_ms': 0.599, 'num_steps_sampled': 3204000, 'grad_time_ms': 532.916, 'update_time_ms': 2.213, 'sample_time_ms': 34015.135}",2025-08-31_16-15-50,cda-server-4,35.29839324951172,16020,1756649750,10.157.146.4,False,86678.07805895805,1200
+2671,-605.95168326854,2671,3205200,{},-651.7749679378544,3205200,0,86712.24119830132,-462.4414140000323,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3205200, 'default': {'kl': 0.01073773205280304, 'policy_loss': -0.14174893498420715, 'vf_loss': 86.69644165039062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9907162189483643, 'entropy': 3.1157376766204834, 'cur_lr': 4.999999873689376e-05, 'total_loss': 86.57100677490234}, 'load_time_ms': 0.601, 'num_steps_sampled': 3205200, 'grad_time_ms': 535.427, 'update_time_ms': 2.239, 'sample_time_ms': 34056.366}",2025-08-31_16-16-24,cda-server-4,34.16313934326172,16026,1756649784,10.157.146.4,False,86712.24119830132,1200
+2672,-605.7232408926454,2672,3206400,{},-651.7749679378544,3206400,0,86746.86587929726,-462.4414140000323,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3206400, 'default': {'kl': 0.011217108927667141, 'policy_loss': -0.13897402584552765, 'vf_loss': 348.7162780761719, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9686250686645508, 'entropy': 3.217841863632202, 'cur_lr': 4.999999873689376e-05, 'total_loss': 348.5943603515625}, 'load_time_ms': 0.616, 'num_steps_sampled': 3206400, 'grad_time_ms': 551.282, 'update_time_ms': 2.206, 'sample_time_ms': 34032.001}",2025-08-31_16-16-59,cda-server-4,34.62468099594116,16032,1756649819,10.157.146.4,False,86746.86587929726,1200
+2673,-607.1954442477067,2673,3207600,{},-651.7749679378544,3207600,0,86781.5362329483,-462.4414140000323,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3207600, 'default': {'kl': 0.011335760354995728, 'policy_loss': -0.14842399954795837, 'vf_loss': 145.5726776123047, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9807687401771545, 'entropy': 3.2100777626037598, 'cur_lr': 4.999999873689376e-05, 'total_loss': 145.44146728515625}, 'load_time_ms': 0.616, 'num_steps_sampled': 3207600, 'grad_time_ms': 548.786, 'update_time_ms': 2.139, 'sample_time_ms': 33962.064}",2025-08-31_16-17-33,cda-server-4,34.67035365104675,16038,1756649853,10.157.146.4,False,86781.5362329483,1200
+2674,-606.7116721266423,2674,3208800,{},-651.7749679378544,3208800,0,86815.53345775604,-462.4414140000323,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3208800, 'default': {'kl': 0.011138238944113255, 'policy_loss': -0.1281185895204544, 'vf_loss': 103.51940155029297, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9906003475189209, 'entropy': 2.9578945636749268, 'cur_lr': 4.999999873689376e-05, 'total_loss': 103.40819549560547}, 'load_time_ms': 0.617, 'num_steps_sampled': 3208800, 'grad_time_ms': 546.196, 'update_time_ms': 2.13, 'sample_time_ms': 33897.619}",2025-08-31_16-18-07,cda-server-4,33.99722480773926,16044,1756649887,10.157.146.4,False,86815.53345775604,1200
+2675,-606.9729507593795,2675,3210000,{},-651.7749679378544,3210000,0,86849.32934236526,-462.4414140000323,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3210000, 'default': {'kl': 0.008528976701200008, 'policy_loss': -0.11853011697530746, 'vf_loss': 76.44927978515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9939884543418884, 'entropy': 3.1490747928619385, 'cur_lr': 4.999999873689376e-05, 'total_loss': 76.34370422363281}, 'load_time_ms': 0.612, 'num_steps_sampled': 3210000, 'grad_time_ms': 559.82, 'update_time_ms': 2.118, 'sample_time_ms': 33842.94}",2025-08-31_16-18-41,cda-server-4,33.79588460922241,16050,1756649921,10.157.146.4,False,86849.32934236526,1200
+2676,-607.6355409709531,2676,3211200,{},-651.7749679378544,3211200,0,86884.02824187279,-462.4414140000323,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3211200, 'default': {'kl': 0.010041543282568455, 'policy_loss': -0.14228582382202148, 'vf_loss': 112.30984497070312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.989625096321106, 'entropy': 3.0702099800109863, 'cur_lr': 4.999999873689376e-05, 'total_loss': 112.18280029296875}, 'load_time_ms': 0.607, 'num_steps_sampled': 3211200, 'grad_time_ms': 581.251, 'update_time_ms': 2.15, 'sample_time_ms': 33835.163}",2025-08-31_16-19-16,cda-server-4,34.69889950752258,16056,1756649956,10.157.146.4,False,86884.02824187279,1200
+2677,-607.0129187513195,2677,3212400,{},-651.7749679378544,3212400,0,86918.61434602737,-462.4414140000323,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3212400, 'default': {'kl': 0.009467022493481636, 'policy_loss': -0.08473379164934158, 'vf_loss': 79.61785125732422, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9937615990638733, 'entropy': 2.9750239849090576, 'cur_lr': 4.999999873689376e-05, 'total_loss': 79.54750061035156}, 'load_time_ms': 0.612, 'num_steps_sampled': 3212400, 'grad_time_ms': 609.143, 'update_time_ms': 2.128, 'sample_time_ms': 33859.887}",2025-08-31_16-19-50,cda-server-4,34.58610415458679,16062,1756649990,10.157.146.4,False,86918.61434602737,1200
+2678,-608.4085732847666,2678,3213600,{},-651.7749679378544,3213600,0,86952.77222108841,-470.9586929498987,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3213600, 'default': {'kl': 0.01048978976905346, 'policy_loss': -0.1250579059123993, 'vf_loss': 99.40975189208984, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9874117970466614, 'entropy': 3.040673017501831, 'cur_lr': 4.999999873689376e-05, 'total_loss': 99.30062866210938}, 'load_time_ms': 0.616, 'num_steps_sampled': 3213600, 'grad_time_ms': 638.359, 'update_time_ms': 2.186, 'sample_time_ms': 33854.146}",2025-08-31_16-20-25,cda-server-4,34.157875061035156,16068,1756650025,10.157.146.4,False,86952.77222108841,1200
+2679,-608.2865180428739,2679,3214800,{},-651.7749679378544,3214800,0,86986.9920592308,-470.9586929498987,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3214800, 'default': {'kl': 0.009949015453457832, 'policy_loss': -0.10406221449375153, 'vf_loss': 261.8840637207031, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9803528189659119, 'entropy': 3.1724863052368164, 'cur_lr': 4.999999873689376e-05, 'total_loss': 261.79510498046875}, 'load_time_ms': 0.613, 'num_steps_sampled': 3214800, 'grad_time_ms': 660.958, 'update_time_ms': 2.153, 'sample_time_ms': 33753.526}",2025-08-31_16-20-59,cda-server-4,34.21983814239502,16074,1756650059,10.157.146.4,False,86986.9920592308,1200
+2680,-606.7892985168535,2680,3216000,{},-642.4505687422298,3216000,0,87021.96821832657,-470.9586929498987,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3216000, 'default': {'kl': 0.010223452933132648, 'policy_loss': -0.11333142220973969, 'vf_loss': 220.86680603027344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.980661928653717, 'entropy': 3.0604631900787354, 'cur_lr': 4.999999873689376e-05, 'total_loss': 220.7689971923828}, 'load_time_ms': 0.617, 'num_steps_sampled': 3216000, 'grad_time_ms': 683.809, 'update_time_ms': 2.199, 'sample_time_ms': 33698.374}",2025-08-31_16-21-34,cda-server-4,34.97615909576416,16080,1756650094,10.157.146.4,False,87021.96821832657,1200
+2681,-606.205451538501,2681,3217200,{},-642.4505687422298,3217200,0,87057.34664607048,-470.9586929498987,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3217200, 'default': {'kl': 0.010570930317044258, 'policy_loss': -0.12938816845417023, 'vf_loss': 205.26080322265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9717795848846436, 'entropy': 3.2793936729431152, 'cur_lr': 4.999999873689376e-05, 'total_loss': 205.14747619628906}, 'load_time_ms': 0.628, 'num_steps_sampled': 3217200, 'grad_time_ms': 698.737, 'update_time_ms': 2.305, 'sample_time_ms': 33804.984}",2025-08-31_16-22-09,cda-server-4,35.37842774391174,16086,1756650129,10.157.146.4,False,87057.34664607048,1200
+2682,-606.1866798297397,2682,3218400,{},-639.042003502628,3218400,0,87092.85062670708,-470.9586929498987,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3218400, 'default': {'kl': 0.011952017433941364, 'policy_loss': -0.1370488554239273, 'vf_loss': 220.10226440429688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9767068028450012, 'entropy': 3.2470922470092773, 'cur_lr': 4.999999873689376e-05, 'total_loss': 219.98336791992188}, 'load_time_ms': 0.619, 'num_steps_sampled': 3218400, 'grad_time_ms': 748.359, 'update_time_ms': 2.267, 'sample_time_ms': 33843.258}",2025-08-31_16-22-45,cda-server-4,35.50398063659668,16092,1756650165,10.157.146.4,False,87092.85062670708,1200
+2683,-607.4536567512,2683,3219600,{},-635.9075448334427,3219600,0,87129.14330768585,-526.9526325628062,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3219600, 'default': {'kl': 0.008822130039334297, 'policy_loss': -0.112873874604702, 'vf_loss': 81.24712371826172, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.995445966720581, 'entropy': 3.2472784519195557, 'cur_lr': 4.999999873689376e-05, 'total_loss': 81.14764404296875}, 'load_time_ms': 0.63, 'num_steps_sampled': 3219600, 'grad_time_ms': 759.763, 'update_time_ms': 2.464, 'sample_time_ms': 33993.85}",2025-08-31_16-23-21,cda-server-4,36.292680978775024,16098,1756650201,10.157.146.4,False,87129.14330768585,1200
+2684,-606.8117254419752,2684,3220800,{},-635.8487957900841,3220800,0,87163.80418753624,-513.8180935737481,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3220800, 'default': {'kl': 0.01285381056368351, 'policy_loss': -0.13813334703445435, 'vf_loss': 235.51356506347656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9856522083282471, 'entropy': 3.1732640266418457, 'cur_lr': 4.999999873689376e-05, 'total_loss': 235.39495849609375}, 'load_time_ms': 0.642, 'num_steps_sampled': 3220800, 'grad_time_ms': 763.25, 'update_time_ms': 2.53, 'sample_time_ms': 34056.633}",2025-08-31_16-23-56,cda-server-4,34.66087985038757,16104,1756650236,10.157.146.4,False,87163.80418753624,1200
+2685,-607.2993019390935,2685,3222000,{},-635.8487957900841,3222000,0,87198.44600248337,-513.8180935737481,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3222000, 'default': {'kl': 0.010917559266090393, 'policy_loss': -0.13703349232673645, 'vf_loss': 79.17890167236328, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9915153980255127, 'entropy': 3.102269172668457, 'cur_lr': 4.999999873689376e-05, 'total_loss': 79.05844116210938}, 'load_time_ms': 0.645, 'num_steps_sampled': 3222000, 'grad_time_ms': 766.313, 'update_time_ms': 2.568, 'sample_time_ms': 34138.081}",2025-08-31_16-24-30,cda-server-4,34.641814947128296,16110,1756650270,10.157.146.4,False,87198.44600248337,1200
+2686,-607.1780905723407,2686,3223200,{},-635.8487957900841,3223200,0,87232.83400797844,-513.8180935737481,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3223200, 'default': {'kl': 0.012676138430833817, 'policy_loss': -0.13173282146453857, 'vf_loss': 99.23961639404297, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9917382001876831, 'entropy': 3.1718738079071045, 'cur_lr': 4.999999873689376e-05, 'total_loss': 99.12713623046875}, 'load_time_ms': 0.649, 'num_steps_sampled': 3223200, 'grad_time_ms': 762.322, 'update_time_ms': 2.629, 'sample_time_ms': 34110.853}",2025-08-31_16-25-05,cda-server-4,34.38800549507141,16116,1756650305,10.157.146.4,False,87232.83400797844,1200
+2687,-607.966270232508,2687,3224400,{},-635.8487957900841,3224400,0,87268.19561743736,-513.8180935737481,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3224400, 'default': {'kl': 0.009216473437845707, 'policy_loss': -0.1410611867904663, 'vf_loss': 122.06389617919922, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9896150231361389, 'entropy': 3.1201729774475098, 'cur_lr': 4.999999873689376e-05, 'total_loss': 121.93683624267578}, 'load_time_ms': 0.657, 'num_steps_sampled': 3224400, 'grad_time_ms': 755.487, 'update_time_ms': 2.654, 'sample_time_ms': 34195.2}",2025-08-31_16-25-40,cda-server-4,35.36160945892334,16122,1756650340,10.157.146.4,False,87268.19561743736,1200
+2688,-606.7620294380558,2688,3225600,{},-635.8487957900841,3225600,0,87302.83479499817,-513.5135391334062,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3225600, 'default': {'kl': 0.012183803133666515, 'policy_loss': -0.14904630184173584, 'vf_loss': 238.167724609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9756253361701965, 'entropy': 3.2505757808685303, 'cur_lr': 4.999999873689376e-05, 'total_loss': 238.03717041015625}, 'load_time_ms': 0.652, 'num_steps_sampled': 3225600, 'grad_time_ms': 748.486, 'update_time_ms': 2.647, 'sample_time_ms': 34250.146}",2025-08-31_16-26-15,cda-server-4,34.639177560806274,16128,1756650375,10.157.146.4,False,87302.83479499817,1200
+2689,-605.6658875128685,2689,3226800,{},-635.8487957900841,3226800,0,87336.8326792717,-513.5135391334062,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3226800, 'default': {'kl': 0.01124359481036663, 'policy_loss': -0.15196187794208527, 'vf_loss': 62.47340393066406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9919016361236572, 'entropy': 3.188547134399414, 'cur_lr': 4.999999873689376e-05, 'total_loss': 62.33852005004883}, 'load_time_ms': 0.66, 'num_steps_sampled': 3226800, 'grad_time_ms': 739.976, 'update_time_ms': 2.707, 'sample_time_ms': 34236.418}",2025-08-31_16-26-49,cda-server-4,33.99788427352905,16134,1756650409,10.157.146.4,False,87336.8326792717,1200
+2690,-605.2499550960453,2690,3228000,{},-635.8487957900841,3228000,0,87371.61186528206,-513.5135391334062,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3228000, 'default': {'kl': 0.011051332578063011, 'policy_loss': -0.14037728309631348, 'vf_loss': 179.99374389648438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.97739177942276, 'entropy': 3.135481595993042, 'cur_lr': 4.999999873689376e-05, 'total_loss': 179.87013244628906}, 'load_time_ms': 0.661, 'num_steps_sampled': 3228000, 'grad_time_ms': 730.567, 'update_time_ms': 2.671, 'sample_time_ms': 34226.099}",2025-08-31_16-27-24,cda-server-4,34.77918601036072,16140,1756650444,10.157.146.4,False,87371.61186528206,1200
+2691,-605.5110568840449,2691,3229200,{},-635.8487957900841,3229200,0,87405.81718182564,-513.5135391334062,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3229200, 'default': {'kl': 0.012326468713581562, 'policy_loss': -0.16033540666103363, 'vf_loss': 163.7033233642578, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.98692387342453, 'entropy': 3.243123769760132, 'cur_lr': 4.999999873689376e-05, 'total_loss': 163.56170654296875}, 'load_time_ms': 0.681, 'num_steps_sampled': 3229200, 'grad_time_ms': 726.05, 'update_time_ms': 2.535, 'sample_time_ms': 34113.355}",2025-08-31_16-27-58,cda-server-4,34.2053165435791,16146,1756650478,10.157.146.4,False,87405.81718182564,1200
+2692,-605.1818106565161,2692,3230400,{},-634.7162675304606,3230400,0,87440.33310294151,-513.5135391334062,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3230400, 'default': {'kl': 0.012201141566038132, 'policy_loss': -0.1448180079460144, 'vf_loss': 104.7481918334961, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9908202290534973, 'entropy': 3.123013496398926, 'cur_lr': 4.999999873689376e-05, 'total_loss': 104.62190246582031}, 'load_time_ms': 0.687, 'num_steps_sampled': 3230400, 'grad_time_ms': 680.185, 'update_time_ms': 2.58, 'sample_time_ms': 34060.386}",2025-08-31_16-28-32,cda-server-4,34.515921115875244,16152,1756650512,10.157.146.4,False,87440.33310294151,1200
+2693,-605.0991974557829,2693,3231600,{},-634.7162675304606,3231600,0,87474.51384234428,-513.5135391334062,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3231600, 'default': {'kl': 0.011189424432814121, 'policy_loss': -0.14186523854732513, 'vf_loss': 54.72173309326172, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.99317866563797, 'entropy': 3.0370242595672607, 'cur_lr': 4.999999873689376e-05, 'total_loss': 54.59687042236328}, 'load_time_ms': 0.674, 'num_steps_sampled': 3231600, 'grad_time_ms': 674.036, 'update_time_ms': 2.42, 'sample_time_ms': 33855.521}",2025-08-31_16-29-07,cda-server-4,34.180739402770996,16158,1756650547,10.157.146.4,False,87474.51384234428,1200
+2694,-604.9754246291806,2694,3232800,{},-634.2486790516972,3232800,0,87509.40314173698,-513.5135391334062,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3232800, 'default': {'kl': 0.011047150939702988, 'policy_loss': -0.1160937249660492, 'vf_loss': 84.06130981445312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.986522376537323, 'entropy': 3.1901803016662598, 'cur_lr': 4.999999873689376e-05, 'total_loss': 83.96199798583984}, 'load_time_ms': 0.667, 'num_steps_sampled': 3232800, 'grad_time_ms': 665.354, 'update_time_ms': 2.365, 'sample_time_ms': 33887.073}",2025-08-31_16-29-42,cda-server-4,34.889299392700195,16164,1756650582,10.157.146.4,False,87509.40314173698,1200
+2695,-605.9132175864199,2695,3234000,{},-634.2486790516972,3234000,0,87544.3102273941,-513.5135391334062,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3234000, 'default': {'kl': 0.01092517003417015, 'policy_loss': -0.1465221345424652, 'vf_loss': 184.4178009033203, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9852567315101624, 'entropy': 3.0902605056762695, 'cur_lr': 4.999999873689376e-05, 'total_loss': 184.2878875732422}, 'load_time_ms': 0.656, 'num_steps_sampled': 3234000, 'grad_time_ms': 652.178, 'update_time_ms': 2.451, 'sample_time_ms': 33926.734}",2025-08-31_16-30-16,cda-server-4,34.90708565711975,16170,1756650616,10.157.146.4,False,87544.3102273941,1200
+2696,-606.8798197278566,2696,3235200,{},-652.4794361177061,3235200,0,87578.48312234879,-513.5135391334062,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3235200, 'default': {'kl': 0.009707245975732803, 'policy_loss': -0.13022181391716003, 'vf_loss': 68.82633209228516, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.990233302116394, 'entropy': 3.259594678878784, 'cur_lr': 4.999999873689376e-05, 'total_loss': 68.71085357666016}, 'load_time_ms': 0.689, 'num_steps_sampled': 3235200, 'grad_time_ms': 639.814, 'update_time_ms': 2.414, 'sample_time_ms': 33917.651}",2025-08-31_16-30-51,cda-server-4,34.1728949546814,16176,1756650651,10.157.146.4,False,87578.48312234879,1200
+2697,-607.2832237405081,2697,3236400,{},-652.4794361177061,3236400,0,87613.60591769218,-513.5135391334062,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3236400, 'default': {'kl': 0.010339265689253807, 'policy_loss': -0.14871333539485931, 'vf_loss': 46.77760314941406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9943243861198425, 'entropy': 3.1353421211242676, 'cur_lr': 4.999999873689376e-05, 'total_loss': 46.644596099853516}, 'load_time_ms': 0.671, 'num_steps_sampled': 3236400, 'grad_time_ms': 635.454, 'update_time_ms': 2.385, 'sample_time_ms': 33898.23}",2025-08-31_16-31-26,cda-server-4,35.12279534339905,16182,1756650686,10.157.146.4,False,87613.60591769218,1200
+2698,-606.3015903989946,2698,3237600,{},-652.4794361177061,3237600,0,87648.15070652962,-513.5135391334062,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3237600, 'default': {'kl': 0.010398345068097115, 'policy_loss': -0.13281992077827454, 'vf_loss': 109.29461669921875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9846458435058594, 'entropy': 2.987961530685425, 'cur_lr': 4.999999873689376e-05, 'total_loss': 109.1775894165039}, 'load_time_ms': 0.681, 'num_steps_sampled': 3237600, 'grad_time_ms': 641.932, 'update_time_ms': 2.344, 'sample_time_ms': 33882.508}",2025-08-31_16-32-00,cda-server-4,34.54478883743286,16188,1756650720,10.157.146.4,False,87648.15070652962,1200
+2699,-606.1127193114596,2699,3238800,{},-652.4794361177061,3238800,0,87682.95110440254,-513.5135391334062,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3238800, 'default': {'kl': 0.013289663009345531, 'policy_loss': -0.15185698866844177, 'vf_loss': 110.6727294921875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9919421076774597, 'entropy': 3.111755847930908, 'cur_lr': 4.999999873689376e-05, 'total_loss': 110.54105377197266}, 'load_time_ms': 0.681, 'num_steps_sampled': 3238800, 'grad_time_ms': 652.03, 'update_time_ms': 2.344, 'sample_time_ms': 33952.63}",2025-08-31_16-32-35,cda-server-4,34.800397872924805,16194,1756650755,10.157.146.4,False,87682.95110440254,1200
+2700,-605.972200005514,2700,3240000,{},-652.4794361177061,3240000,0,87716.92566132545,-513.5135391334062,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3240000, 'default': {'kl': 0.008230634965002537, 'policy_loss': -0.10870438069105148, 'vf_loss': 269.71954345703125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9763417840003967, 'entropy': 3.0940637588500977, 'cur_lr': 4.999999873689376e-05, 'total_loss': 269.6233215332031}, 'load_time_ms': 0.684, 'num_steps_sampled': 3240000, 'grad_time_ms': 650.199, 'update_time_ms': 2.442, 'sample_time_ms': 33873.981}",2025-08-31_16-33-09,cda-server-4,33.9745569229126,16200,1756650789,10.157.146.4,False,87716.92566132545,1200
+2701,-607.1045954540378,2701,3241200,{},-652.4794361177061,3241200,0,87752.06814098358,-513.5135391334062,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3241200, 'default': {'kl': 0.008116287179291248, 'policy_loss': -0.09884694963693619, 'vf_loss': 223.3565216064453, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9616531729698181, 'entropy': 3.1753363609313965, 'cur_lr': 4.999999873689376e-05, 'total_loss': 223.27000427246094}, 'load_time_ms': 0.647, 'num_steps_sampled': 3241200, 'grad_time_ms': 646.019, 'update_time_ms': 2.384, 'sample_time_ms': 33972.1}",2025-08-31_16-33-44,cda-server-4,35.14247965812683,16206,1756650824,10.157.146.4,False,87752.06814098358,1200
+2702,-607.4168589135061,2702,3242400,{},-652.4794361177061,3242400,0,87788.1584751606,-513.5135391334062,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3242400, 'default': {'kl': 0.010656205005943775, 'policy_loss': -0.11742658168077469, 'vf_loss': 112.85741424560547, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9843109846115112, 'entropy': 2.9716105461120605, 'cur_lr': 4.999999873689376e-05, 'total_loss': 112.75617980957031}, 'load_time_ms': 0.641, 'num_steps_sampled': 3242400, 'grad_time_ms': 653.113, 'update_time_ms': 2.347, 'sample_time_ms': 34122.491}",2025-08-31_16-34-20,cda-server-4,36.09033417701721,16212,1756650860,10.157.146.4,False,87788.1584751606,1200
+2703,-606.8166891015118,2703,3243600,{},-652.4794361177061,3243600,0,87822.30740213394,-513.5135391334062,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3243600, 'default': {'kl': 0.011683696880936623, 'policy_loss': -0.1334461271762848, 'vf_loss': 20.323474884033203, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9970846176147461, 'entropy': 3.0290400981903076, 'cur_lr': 4.999999873689376e-05, 'total_loss': 20.20777130126953}, 'load_time_ms': 0.671, 'num_steps_sampled': 3243600, 'grad_time_ms': 660.063, 'update_time_ms': 2.329, 'sample_time_ms': 34112.307}",2025-08-31_16-34-55,cda-server-4,34.148926973342896,16218,1756650895,10.157.146.4,False,87822.30740213394,1200
+2704,-607.6836435039695,2704,3244800,{},-652.4794361177061,3244800,0,87856.8509645462,-525.135897388664,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3244800, 'default': {'kl': 0.011886508204042912, 'policy_loss': -0.14473049342632294, 'vf_loss': 105.17157745361328, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9905619025230408, 'entropy': 3.0748958587646484, 'cur_lr': 4.999999873689376e-05, 'total_loss': 105.04489135742188}, 'load_time_ms': 0.668, 'num_steps_sampled': 3244800, 'grad_time_ms': 661.091, 'update_time_ms': 2.346, 'sample_time_ms': 34076.757}",2025-08-31_16-35-29,cda-server-4,34.54356241226196,16224,1756650929,10.157.146.4,False,87856.8509645462,1200
+2705,-607.7950426454062,2705,3246000,{},-652.4794361177061,3246000,0,87890.95501470566,-525.135897388664,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3246000, 'default': {'kl': 0.01030920259654522, 'policy_loss': -0.16471067070960999, 'vf_loss': 313.960205078125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9621928334236145, 'entropy': 3.2522642612457275, 'cur_lr': 4.999999873689376e-05, 'total_loss': 313.8111877441406}, 'load_time_ms': 0.669, 'num_steps_sampled': 3246000, 'grad_time_ms': 652.989, 'update_time_ms': 2.224, 'sample_time_ms': 34004.71}",2025-08-31_16-36-03,cda-server-4,34.104050159454346,16230,1756650963,10.157.146.4,False,87890.95501470566,1200
+2706,-607.5207001262844,2706,3247200,{},-652.4794361177061,3247200,0,87925.6005847454,-525.135897388664,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3247200, 'default': {'kl': 0.010848556645214558, 'policy_loss': -0.1452009081840515, 'vf_loss': 58.26279067993164, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9904576539993286, 'entropy': 3.2076504230499268, 'cur_lr': 4.999999873689376e-05, 'total_loss': 58.13405990600586}, 'load_time_ms': 0.626, 'num_steps_sampled': 3247200, 'grad_time_ms': 638.486, 'update_time_ms': 2.179, 'sample_time_ms': 34066.548}",2025-08-31_16-36-38,cda-server-4,34.645570039749146,16236,1756650998,10.157.146.4,False,87925.6005847454,1200
+2707,-607.0929117131313,2707,3248400,{},-652.4794361177061,3248400,0,87959.15066790581,-525.135897388664,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3248400, 'default': {'kl': 0.012248186394572258, 'policy_loss': -0.14040066301822662, 'vf_loss': 70.12954711914062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9905545115470886, 'entropy': 3.1055967807769775, 'cur_lr': 4.999999873689376e-05, 'total_loss': 70.00775146484375}, 'load_time_ms': 0.633, 'num_steps_sampled': 3248400, 'grad_time_ms': 642.774, 'update_time_ms': 2.178, 'sample_time_ms': 33904.897}",2025-08-31_16-37-11,cda-server-4,33.55008316040039,16242,1756651031,10.157.146.4,False,87959.15066790581,1200
+2708,-606.8220253485808,2708,3249600,{},-652.4794361177061,3249600,0,87994.25939059258,-525.135897388664,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3249600, 'default': {'kl': 0.010474136099219322, 'policy_loss': -0.13271455466747284, 'vf_loss': 185.1255645751953, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9771172404289246, 'entropy': 3.1820249557495117, 'cur_lr': 4.999999873689376e-05, 'total_loss': 185.0087890625}, 'load_time_ms': 0.628, 'num_steps_sampled': 3249600, 'grad_time_ms': 636.965, 'update_time_ms': 2.258, 'sample_time_ms': 33966.996}",2025-08-31_16-37-47,cda-server-4,35.10872268676758,16248,1756651067,10.157.146.4,False,87994.25939059258,1200
+2709,-606.9385037262648,2709,3250800,{},-652.4794361177061,3250800,0,88029.08893370628,-525.135897388664,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3250800, 'default': {'kl': 0.01041954942047596, 'policy_loss': -0.13240741193294525, 'vf_loss': 28.817344665527344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9960613250732422, 'entropy': 3.0723648071289062, 'cur_lr': 4.999999873689376e-05, 'total_loss': 28.70076560974121}, 'load_time_ms': 0.619, 'num_steps_sampled': 3250800, 'grad_time_ms': 621.924, 'update_time_ms': 2.21, 'sample_time_ms': 33985.08}",2025-08-31_16-38-21,cda-server-4,34.829543113708496,16254,1756651101,10.157.146.4,False,88029.08893370628,1200
+2710,-607.423895163308,2710,3252000,{},-652.4794361177061,3252000,0,88063.32101130486,-525.135897388664,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3252000, 'default': {'kl': 0.010318215005099773, 'policy_loss': -0.12341973185539246, 'vf_loss': 160.0531768798828, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9778220653533936, 'entropy': 3.1071836948394775, 'cur_lr': 4.999999873689376e-05, 'total_loss': 159.94541931152344}, 'load_time_ms': 0.62, 'num_steps_sampled': 3252000, 'grad_time_ms': 621.293, 'update_time_ms': 2.138, 'sample_time_ms': 34011.434}",2025-08-31_16-38-56,cda-server-4,34.23207759857178,16260,1756651136,10.157.146.4,False,88063.32101130486,1200
+2711,-607.3120627468637,2711,3253200,{},-652.4794361177061,3253200,0,88097.36316156387,-525.135897388664,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3253200, 'default': {'kl': 0.010946442373096943, 'policy_loss': -0.1266041398048401, 'vf_loss': 183.4632110595703, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9795985817909241, 'entropy': 3.1486520767211914, 'cur_lr': 4.999999873689376e-05, 'total_loss': 183.35324096679688}, 'load_time_ms': 0.631, 'num_steps_sampled': 3253200, 'grad_time_ms': 626.083, 'update_time_ms': 2.23, 'sample_time_ms': 33896.464}",2025-08-31_16-39-30,cda-server-4,34.042150259017944,16266,1756651170,10.157.146.4,False,88097.36316156387,1200
+2712,-607.3593375170279,2712,3254400,{},-652.4794361177061,3254400,0,88132.31891965866,-525.135897388664,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3254400, 'default': {'kl': 0.010251917876303196, 'policy_loss': -0.1434262990951538, 'vf_loss': 88.06893157958984, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9868999123573303, 'entropy': 3.1609020233154297, 'cur_lr': 4.999999873689376e-05, 'total_loss': 87.94107055664062}, 'load_time_ms': 0.636, 'num_steps_sampled': 3254400, 'grad_time_ms': 627.268, 'update_time_ms': 2.28, 'sample_time_ms': 33781.78}",2025-08-31_16-40-05,cda-server-4,34.9557580947876,16272,1756651205,10.157.146.4,False,88132.31891965866,1200
+2713,-607.3661314861087,2713,3255600,{},-651.3324623309902,3255600,0,88166.84844756126,-525.135897388664,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3255600, 'default': {'kl': 0.01142123993486166, 'policy_loss': -0.14858898520469666, 'vf_loss': 321.9324035644531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9806646704673767, 'entropy': 3.2435357570648193, 'cur_lr': 4.999999873689376e-05, 'total_loss': 321.8011474609375}, 'load_time_ms': 0.607, 'num_steps_sampled': 3255600, 'grad_time_ms': 627.104, 'update_time_ms': 2.291, 'sample_time_ms': 33820.057}",2025-08-31_16-40-39,cda-server-4,34.52952790260315,16278,1756651239,10.157.146.4,False,88166.84844756126,1200
+2714,-607.854191010437,2714,3256800,{},-651.3324623309902,3256800,0,88200.72546052933,-533.171612115317,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3256800, 'default': {'kl': 0.009060340002179146, 'policy_loss': -0.13520534336566925, 'vf_loss': 259.31658935546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9701693058013916, 'entropy': 3.137579917907715, 'cur_lr': 4.999999873689376e-05, 'total_loss': 259.19512939453125}, 'load_time_ms': 0.599, 'num_steps_sampled': 3256800, 'grad_time_ms': 637.792, 'update_time_ms': 2.342, 'sample_time_ms': 33742.621}",2025-08-31_16-41-13,cda-server-4,33.877012968063354,16284,1756651273,10.157.146.4,False,88200.72546052933,1200
+2715,-608.098617002375,2715,3258000,{},-651.3324623309902,3258000,0,88235.7418513298,-533.171612115317,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3258000, 'default': {'kl': 0.013906167820096016, 'policy_loss': -0.16301654279232025, 'vf_loss': 158.8813018798828, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9834927320480347, 'entropy': 3.2704827785491943, 'cur_lr': 4.999999873689376e-05, 'total_loss': 158.73941040039062}, 'load_time_ms': 0.604, 'num_steps_sampled': 3258000, 'grad_time_ms': 659.789, 'update_time_ms': 2.402, 'sample_time_ms': 33811.776}",2025-08-31_16-41-48,cda-server-4,35.016390800476074,16290,1756651308,10.157.146.4,False,88235.7418513298,1200
+2716,-607.5661653132923,2716,3259200,{},-651.3324623309902,3259200,0,88270.29227900505,-533.171612115317,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3259200, 'default': {'kl': 0.011147577315568924, 'policy_loss': -0.14047175645828247, 'vf_loss': 47.348262786865234, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9942512512207031, 'entropy': 3.237456798553467, 'cur_lr': 4.999999873689376e-05, 'total_loss': 47.2247200012207}, 'load_time_ms': 0.608, 'num_steps_sampled': 3259200, 'grad_time_ms': 679.405, 'update_time_ms': 2.423, 'sample_time_ms': 33782.64}",2025-08-31_16-42-23,cda-server-4,34.55042767524719,16296,1756651343,10.157.146.4,False,88270.29227900505,1200
+2717,-607.480388508192,2717,3260400,{},-651.3324623309902,3260400,0,88304.78668737411,-533.171612115317,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3260400, 'default': {'kl': 0.010035699233412743, 'policy_loss': -0.1240624338388443, 'vf_loss': 161.27577209472656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9744904637336731, 'entropy': 3.2501161098480225, 'cur_lr': 4.999999873689376e-05, 'total_loss': 161.1669464111328}, 'load_time_ms': 0.61, 'num_steps_sampled': 3260400, 'grad_time_ms': 664.899, 'update_time_ms': 2.414, 'sample_time_ms': 33891.629}",2025-08-31_16-42-57,cda-server-4,34.49440836906433,16302,1756651377,10.157.146.4,False,88304.78668737411,1200
+2718,-606.4061156489475,2718,3261600,{},-651.3324623309902,3261600,0,88338.9696893692,-491.2688356340194,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3261600, 'default': {'kl': 0.011832814663648605, 'policy_loss': -0.15034468472003937, 'vf_loss': 60.72352981567383, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9931641817092896, 'entropy': 3.1902623176574707, 'cur_lr': 4.999999873689376e-05, 'total_loss': 60.59116744995117}, 'load_time_ms': 0.608, 'num_steps_sampled': 3261600, 'grad_time_ms': 656.201, 'update_time_ms': 2.368, 'sample_time_ms': 33807.814}",2025-08-31_16-43-31,cda-server-4,34.18300199508667,16308,1756651411,10.157.146.4,False,88338.9696893692,1200
+2719,-607.487072585199,2719,3262800,{},-651.3324623309902,3262800,0,88373.24775981903,-491.2688356340194,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3262800, 'default': {'kl': 0.009207501076161861, 'policy_loss': -0.1430271565914154, 'vf_loss': 189.7791290283203, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9755337834358215, 'entropy': 3.061937093734741, 'cur_lr': 4.999999873689376e-05, 'total_loss': 189.65008544921875}, 'load_time_ms': 0.611, 'num_steps_sampled': 3262800, 'grad_time_ms': 660.888, 'update_time_ms': 2.348, 'sample_time_ms': 33747.95}",2025-08-31_16-44-06,cda-server-4,34.2780704498291,16314,1756651446,10.157.146.4,False,88373.24775981903,1200
+2720,-608.0308558565197,2720,3264000,{},-651.3324623309902,3264000,0,88408.27427339554,-491.2688356340194,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3264000, 'default': {'kl': 0.012111115269362926, 'policy_loss': -0.13155142962932587, 'vf_loss': 89.05862426757812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9924526214599609, 'entropy': 3.101949691772461, 'cur_lr': 4.999999873689376e-05, 'total_loss': 88.94546508789062}, 'load_time_ms': 0.609, 'num_steps_sampled': 3264000, 'grad_time_ms': 673.268, 'update_time_ms': 2.381, 'sample_time_ms': 33815.016}",2025-08-31_16-44-41,cda-server-4,35.02651357650757,16320,1756651481,10.157.146.4,False,88408.27427339554,1200
+2721,-608.7620473843525,2721,3265200,{},-642.2495698526931,3265200,0,88442.08113098145,-491.2688356340194,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3265200, 'default': {'kl': 0.0103479428216815, 'policy_loss': -0.145229309797287, 'vf_loss': 144.1568145751953, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9774565100669861, 'entropy': 3.3656086921691895, 'cur_lr': 4.999999873689376e-05, 'total_loss': 144.0272979736328}, 'load_time_ms': 0.6, 'num_steps_sampled': 3265200, 'grad_time_ms': 680.872, 'update_time_ms': 2.392, 'sample_time_ms': 33783.839}",2025-08-31_16-45-15,cda-server-4,33.80685758590698,16326,1756651515,10.157.146.4,False,88442.08113098145,1200
+2722,-609.7284885571308,2722,3266400,{},-645.4434583275032,3266400,0,88476.49863171577,-491.2688356340194,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3266400, 'default': {'kl': 0.009727961383759975, 'policy_loss': -0.14023233950138092, 'vf_loss': 613.0850219726562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9550011157989502, 'entropy': 3.316737413406372, 'cur_lr': 4.999999873689376e-05, 'total_loss': 612.9595947265625}, 'load_time_ms': 0.6, 'num_steps_sampled': 3266400, 'grad_time_ms': 674.129, 'update_time_ms': 2.386, 'sample_time_ms': 33736.764}",2025-08-31_16-45-49,cda-server-4,34.417500734329224,16332,1756651549,10.157.146.4,False,88476.49863171577,1200
+2723,-609.4203605087721,2723,3267600,{},-645.4434583275032,3267600,0,88511.3232421875,-470.69398006049727,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3267600, 'default': {'kl': 0.010412582196295261, 'policy_loss': -0.13532394170761108, 'vf_loss': 85.57788848876953, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9904380440711975, 'entropy': 3.132244110107422, 'cur_lr': 4.999999873689376e-05, 'total_loss': 85.45838165283203}, 'load_time_ms': 0.612, 'num_steps_sampled': 3267600, 'grad_time_ms': 659.714, 'update_time_ms': 2.41, 'sample_time_ms': 33780.624}",2025-08-31_16-46-24,cda-server-4,34.824610471725464,16338,1756651584,10.157.146.4,False,88511.3232421875,1200
+2724,-610.3334745527413,2724,3268800,{},-645.4434583275032,3268800,0,88546.0782983303,-470.69398006049727,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3268800, 'default': {'kl': 0.007468936964869499, 'policy_loss': -0.11320219933986664, 'vf_loss': 135.57086181640625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9783912301063538, 'entropy': 3.06253719329834, 'cur_lr': 4.999999873689376e-05, 'total_loss': 135.46900939941406}, 'load_time_ms': 0.613, 'num_steps_sampled': 3268800, 'grad_time_ms': 644.398, 'update_time_ms': 2.34, 'sample_time_ms': 33883.855}",2025-08-31_16-46-59,cda-server-4,34.75505614280701,16344,1756651619,10.157.146.4,False,88546.0782983303,1200
+2725,-609.5613341088178,2725,3270000,{},-645.4434583275032,3270000,0,88580.52596282959,-470.69398006049727,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3270000, 'default': {'kl': 0.011600004509091377, 'policy_loss': -0.14490413665771484, 'vf_loss': 108.6964340209961, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9855706691741943, 'entropy': 2.986842632293701, 'cur_lr': 4.999999873689376e-05, 'total_loss': 108.56916046142578}, 'load_time_ms': 0.63, 'num_steps_sampled': 3270000, 'grad_time_ms': 654.803, 'update_time_ms': 2.322, 'sample_time_ms': 33816.607}",2025-08-31_16-47-33,cda-server-4,34.44766449928284,16350,1756651653,10.157.146.4,False,88580.52596282959,1200
+2726,-610.4315001192554,2726,3271200,{},-645.4434583275032,3271200,0,88615.71595478058,-470.69398006049727,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3271200, 'default': {'kl': 0.01254073902964592, 'policy_loss': -0.17555227875709534, 'vf_loss': 178.42745971679688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9818969368934631, 'entropy': 3.3783493041992188, 'cur_lr': 4.999999873689376e-05, 'total_loss': 178.2709503173828}, 'load_time_ms': 0.629, 'num_steps_sampled': 3271200, 'grad_time_ms': 656.731, 'update_time_ms': 2.283, 'sample_time_ms': 33878.621}",2025-08-31_16-48-08,cda-server-4,35.18999195098877,16356,1756651688,10.157.146.4,False,88615.71595478058,1200
+2727,-610.9566069368018,2727,3272400,{},-646.1239781725993,3272400,0,88650.35786032677,-470.69398006049727,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3272400, 'default': {'kl': 0.011831711046397686, 'policy_loss': -0.1518115997314453, 'vf_loss': 237.6275177001953, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9842812418937683, 'entropy': 3.10418963432312, 'cur_lr': 4.999999873689376e-05, 'total_loss': 237.49368286132812}, 'load_time_ms': 0.633, 'num_steps_sampled': 3272400, 'grad_time_ms': 672.07, 'update_time_ms': 2.282, 'sample_time_ms': 33878.014}",2025-08-31_16-48-43,cda-server-4,34.641905546188354,16362,1756651723,10.157.146.4,False,88650.35786032677,1200
+2728,-609.9212999040617,2728,3273600,{},-646.1239781725993,3273600,0,88684.69430375099,-470.69398006049727,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3273600, 'default': {'kl': 0.009533407166600227, 'policy_loss': -0.12780217826366425, 'vf_loss': 112.57192993164062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9839774370193481, 'entropy': 3.137077569961548, 'cur_lr': 4.999999873689376e-05, 'total_loss': 112.45861053466797}, 'load_time_ms': 0.635, 'num_steps_sampled': 3273600, 'grad_time_ms': 682.372, 'update_time_ms': 2.331, 'sample_time_ms': 33883.092}",2025-08-31_16-49-17,cda-server-4,34.33644342422485,16368,1756651757,10.157.146.4,False,88684.69430375099,1200
+2729,-609.0579142833789,2729,3274800,{},-646.1239781725993,3274800,0,88718.08180975914,-470.69398006049727,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3274800, 'default': {'kl': 0.01016606017947197, 'policy_loss': -0.13805100321769714, 'vf_loss': 98.09243774414062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9864310026168823, 'entropy': 3.138948678970337, 'cur_lr': 4.999999873689376e-05, 'total_loss': 97.9698257446289}, 'load_time_ms': 0.636, 'num_steps_sampled': 3274800, 'grad_time_ms': 673.036, 'update_time_ms': 2.32, 'sample_time_ms': 33803.435}",2025-08-31_16-49-51,cda-server-4,33.38750600814819,16374,1756651791,10.157.146.4,False,88718.08180975914,1200
+2730,-608.6479108511,2730,3276000,{},-646.1239781725993,3276000,0,88753.51961278915,-470.69398006049727,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3276000, 'default': {'kl': 0.010269690304994583, 'policy_loss': -0.13364827632904053, 'vf_loss': 256.8064880371094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9735152721405029, 'entropy': 2.99363112449646, 'cur_lr': 4.999999873689376e-05, 'total_loss': 256.68841552734375}, 'load_time_ms': 0.666, 'num_steps_sampled': 3276000, 'grad_time_ms': 652.324, 'update_time_ms': 2.298, 'sample_time_ms': 33865.256}",2025-08-31_16-50-26,cda-server-4,35.43780303001404,16380,1756651826,10.157.146.4,False,88753.51961278915,1200
+2731,-607.5857215919096,2731,3277200,{},-653.099251980979,3277200,0,88788.08950209618,-470.69398006049727,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3277200, 'default': {'kl': 0.01138980034738779, 'policy_loss': -0.15153907239437103, 'vf_loss': 256.439453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9778566360473633, 'entropy': 3.2001616954803467, 'cur_lr': 4.999999873689376e-05, 'total_loss': 256.30523681640625}, 'load_time_ms': 0.709, 'num_steps_sampled': 3277200, 'grad_time_ms': 627.495, 'update_time_ms': 2.256, 'sample_time_ms': 33966.349}",2025-08-31_16-51-01,cda-server-4,34.569889307022095,16386,1756651861,10.157.146.4,False,88788.08950209618,1200
+2732,-608.8221195808796,2732,3278400,{},-653.099251980979,3278400,0,88822.08705759048,-470.69398006049727,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3278400, 'default': {'kl': 0.011712048202753067, 'policy_loss': -0.1424018293619156, 'vf_loss': 418.54608154296875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9556840062141418, 'entropy': 3.1585373878479004, 'cur_lr': 4.999999873689376e-05, 'total_loss': 418.4215087890625}, 'load_time_ms': 0.704, 'num_steps_sampled': 3278400, 'grad_time_ms': 606.706, 'update_time_ms': 2.244, 'sample_time_ms': 33945.17}",2025-08-31_16-51-35,cda-server-4,33.99755549430847,16392,1756651895,10.157.146.4,False,88822.08705759048,1200
+2733,-609.4322367878761,2733,3279600,{},-653.099251980979,3279600,0,88856.77480649948,-470.69398006049727,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3279600, 'default': {'kl': 0.01297785621136427, 'policy_loss': -0.16080135107040405, 'vf_loss': 72.4115219116211, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9938210248947144, 'entropy': 3.069366455078125, 'cur_lr': 4.999999873689376e-05, 'total_loss': 72.27042388916016}, 'load_time_ms': 0.683, 'num_steps_sampled': 3279600, 'grad_time_ms': 601.637, 'update_time_ms': 2.246, 'sample_time_ms': 33936.665}",2025-08-31_16-52-10,cda-server-4,34.68774890899658,16398,1756651930,10.157.146.4,False,88856.77480649948,1200
+2734,-611.0824663642251,2734,3280800,{},-653.099251980979,3280800,0,88890.73213815689,-470.69398006049727,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3280800, 'default': {'kl': 0.010766040533781052, 'policy_loss': -0.14238914847373962, 'vf_loss': 66.0133056640625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9909346699714661, 'entropy': 3.1225152015686035, 'cur_lr': 4.999999873689376e-05, 'total_loss': 65.88726806640625}, 'load_time_ms': 0.679, 'num_steps_sampled': 3280800, 'grad_time_ms': 601.073, 'update_time_ms': 2.217, 'sample_time_ms': 33857.474}",2025-08-31_16-52-44,cda-server-4,33.95733165740967,16404,1756651964,10.157.146.4,False,88890.73213815689,1200
+2735,-610.36721142629,2735,3282000,{},-653.099251980979,3282000,0,88925.72265839577,-470.69398006049727,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3282000, 'default': {'kl': 0.0112378541380167, 'policy_loss': -0.11302974820137024, 'vf_loss': 165.2554168701172, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9764924645423889, 'entropy': 3.2032668590545654, 'cur_lr': 4.999999873689376e-05, 'total_loss': 165.15945434570312}, 'load_time_ms': 0.664, 'num_steps_sampled': 3282000, 'grad_time_ms': 587.035, 'update_time_ms': 2.242, 'sample_time_ms': 33925.727}",2025-08-31_16-53-19,cda-server-4,34.99052023887634,16410,1756651999,10.157.146.4,False,88925.72265839577,1200
+2736,-609.866403203788,2736,3283200,{},-653.099251980979,3283200,0,88959.8283443451,-470.69398006049727,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3283200, 'default': {'kl': 0.010113757103681564, 'policy_loss': -0.14339862763881683, 'vf_loss': 40.38993835449219, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9938114881515503, 'entropy': 3.0483202934265137, 'cur_lr': 4.999999873689376e-05, 'total_loss': 40.261905670166016}, 'load_time_ms': 0.669, 'num_steps_sampled': 3283200, 'grad_time_ms': 594.5, 'update_time_ms': 2.301, 'sample_time_ms': 33809.797}",2025-08-31_16-53-53,cda-server-4,34.10568594932556,16416,1756652033,10.157.146.4,False,88959.8283443451,1200
+2737,-609.4936601969691,2737,3284400,{},-653.099251980979,3284400,0,88994.62425804138,-470.69398006049727,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3284400, 'default': {'kl': 0.010947185568511486, 'policy_loss': -0.1320776641368866, 'vf_loss': 466.88226318359375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9680237174034119, 'entropy': 3.138678789138794, 'cur_lr': 4.999999873689376e-05, 'total_loss': 466.7668151855469}, 'load_time_ms': 0.676, 'num_steps_sampled': 3284400, 'grad_time_ms': 597.448, 'update_time_ms': 2.261, 'sample_time_ms': 33822.272}",2025-08-31_16-54-28,cda-server-4,34.79591369628906,16422,1756652068,10.157.146.4,False,88994.62425804138,1200
+2738,-609.0902198085115,2738,3285600,{},-653.099251980979,3285600,0,89029.36260008812,-470.69398006049727,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3285600, 'default': {'kl': 0.01082766056060791, 'policy_loss': -0.145601287484169, 'vf_loss': 47.91946792602539, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9932289123535156, 'entropy': 3.0239036083221436, 'cur_lr': 4.999999873689376e-05, 'total_loss': 47.790306091308594}, 'load_time_ms': 0.675, 'num_steps_sampled': 3285600, 'grad_time_ms': 601.59, 'update_time_ms': 2.258, 'sample_time_ms': 33858.306}",2025-08-31_16-55-02,cda-server-4,34.73834204673767,16428,1756652102,10.157.146.4,False,89029.36260008812,1200
+2739,-606.03165835383,2739,3286800,{},-653.099251980979,3286800,0,89063.33531785011,-470.41101960231146,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3286800, 'default': {'kl': 0.01285193394869566, 'policy_loss': -0.160721093416214, 'vf_loss': 141.70155334472656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9769904613494873, 'entropy': 3.123152494430542, 'cur_lr': 4.999999873689376e-05, 'total_loss': 141.56036376953125}, 'load_time_ms': 0.673, 'num_steps_sampled': 3286800, 'grad_time_ms': 618.868, 'update_time_ms': 2.3, 'sample_time_ms': 33899.509}",2025-08-31_16-55-36,cda-server-4,33.97271776199341,16434,1756652136,10.157.146.4,False,89063.33531785011,1200
+2740,-607.6983626578017,2740,3288000,{},-653.099251980979,3288000,0,89097.73351812363,-470.41101960231146,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3288000, 'default': {'kl': 0.01091947965323925, 'policy_loss': -0.12432920932769775, 'vf_loss': 33.35969543457031, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9958271384239197, 'entropy': 2.94608736038208, 'cur_lr': 4.999999873689376e-05, 'total_loss': 33.251953125}, 'load_time_ms': 0.64, 'num_steps_sampled': 3288000, 'grad_time_ms': 638.712, 'update_time_ms': 2.29, 'sample_time_ms': 33775.809}",2025-08-31_16-56-11,cda-server-4,34.398200273513794,16440,1756652171,10.157.146.4,False,89097.73351812363,1200
+2741,-606.5850313517261,2741,3289200,{},-653.5621584169138,3289200,0,89133.0004901886,-470.41101960231146,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3289200, 'default': {'kl': 0.011052214540541172, 'policy_loss': -0.1382695436477661, 'vf_loss': 189.75823974609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9776555299758911, 'entropy': 3.2656946182250977, 'cur_lr': 4.999999873689376e-05, 'total_loss': 189.63674926757812}, 'load_time_ms': 0.601, 'num_steps_sampled': 3289200, 'grad_time_ms': 664.044, 'update_time_ms': 2.374, 'sample_time_ms': 33820.234}",2025-08-31_16-56-46,cda-server-4,35.266972064971924,16446,1756652206,10.157.146.4,False,89133.0004901886,1200
+2742,-607.3244131344564,2742,3290400,{},-653.5621584169138,3290400,0,89167.3151371479,-470.41101960231146,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3290400, 'default': {'kl': 0.009587228298187256, 'policy_loss': -0.12974125146865845, 'vf_loss': 75.69176483154297, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.99009770154953, 'entropy': 3.0990140438079834, 'cur_lr': 4.999999873689376e-05, 'total_loss': 75.57658386230469}, 'load_time_ms': 0.599, 'num_steps_sampled': 3290400, 'grad_time_ms': 689.98, 'update_time_ms': 2.334, 'sample_time_ms': 33826.042}",2025-08-31_16-57-20,cda-server-4,34.31464695930481,16452,1756652240,10.157.146.4,False,89167.3151371479,1200
+2743,-606.2792455661273,2743,3291600,{},-653.5621584169138,3291600,0,89201.78373670578,-470.41101960231146,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3291600, 'default': {'kl': 0.013104426674544811, 'policy_loss': -0.14097005128860474, 'vf_loss': 83.65966033935547, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9937149882316589, 'entropy': 3.1475250720977783, 'cur_lr': 4.999999873689376e-05, 'total_loss': 83.5385971069336}, 'load_time_ms': 0.619, 'num_steps_sampled': 3291600, 'grad_time_ms': 735.977, 'update_time_ms': 2.347, 'sample_time_ms': 33758.008}",2025-08-31_16-57-55,cda-server-4,34.46859955787659,16458,1756652275,10.157.146.4,False,89201.78373670578,1200
+2744,-605.9549261614663,2744,3292800,{},-653.5621584169138,3292800,0,89238.39248490334,-470.41101960231146,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3292800, 'default': {'kl': 0.011490543372929096, 'policy_loss': -0.1428973376750946, 'vf_loss': 88.3005142211914, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9859225153923035, 'entropy': 3.073899507522583, 'cur_lr': 4.999999873689376e-05, 'total_loss': 88.17507934570312}, 'load_time_ms': 0.626, 'num_steps_sampled': 3292800, 'grad_time_ms': 748.434, 'update_time_ms': 2.39, 'sample_time_ms': 34010.658}",2025-08-31_16-58-31,cda-server-4,36.60874819755554,16464,1756652311,10.157.146.4,False,89238.39248490334,1200
+2745,-606.5572475597622,2745,3294000,{},-653.5621584169138,3294000,0,89272.74476361275,-470.41101960231146,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3294000, 'default': {'kl': 0.00916043110191822, 'policy_loss': -0.12925463914871216, 'vf_loss': 97.27505493164062, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9877997636795044, 'entropy': 3.0251877307891846, 'cur_lr': 4.999999873689376e-05, 'total_loss': 97.15970611572266}, 'load_time_ms': 0.622, 'num_steps_sampled': 3294000, 'grad_time_ms': 749.808, 'update_time_ms': 2.316, 'sample_time_ms': 33945.556}",2025-08-31_16-59-06,cda-server-4,34.35227870941162,16470,1756652346,10.157.146.4,False,89272.74476361275,1200
+2746,-607.4855360412826,2746,3295200,{},-653.5621584169138,3295200,0,89306.66661572456,-470.41101960231146,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3295200, 'default': {'kl': 0.012174133211374283, 'policy_loss': -0.15762881934642792, 'vf_loss': 28.11456871032715, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9962804317474365, 'entropy': 3.139529228210449, 'cur_lr': 4.999999873689376e-05, 'total_loss': 27.97542953491211}, 'load_time_ms': 0.616, 'num_steps_sampled': 3295200, 'grad_time_ms': 737.645, 'update_time_ms': 2.261, 'sample_time_ms': 33939.387}",2025-08-31_16-59-40,cda-server-4,33.921852111816406,16476,1756652380,10.157.146.4,False,89306.66661572456,1200
+2747,-608.8331053486625,2747,3296400,{},-653.5621584169138,3296400,0,89340.99769878387,-470.41101960231146,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3296400, 'default': {'kl': 0.011554664932191372, 'policy_loss': -0.17197686433792114, 'vf_loss': 150.5484161376953, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9833380579948425, 'entropy': 3.264503240585327, 'cur_lr': 4.999999873689376e-05, 'total_loss': 150.39398193359375}, 'load_time_ms': 0.61, 'num_steps_sampled': 3296400, 'grad_time_ms': 724.594, 'update_time_ms': 2.267, 'sample_time_ms': 33905.934}",2025-08-31_17-00-14,cda-server-4,34.33108305931091,16482,1756652414,10.157.146.4,False,89340.99769878387,1200
+2748,-608.6136122601963,2748,3297600,{},-653.5621584169138,3297600,0,89375.95495843887,-470.41101960231146,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3297600, 'default': {'kl': 0.010138287208974361, 'policy_loss': -0.12647195160388947, 'vf_loss': 40.43772888183594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9957716464996338, 'entropy': 3.0657339096069336, 'cur_lr': 4.999999873689376e-05, 'total_loss': 40.326656341552734}, 'load_time_ms': 0.609, 'num_steps_sampled': 3297600, 'grad_time_ms': 716.156, 'update_time_ms': 2.274, 'sample_time_ms': 33936.163}",2025-08-31_17-00-49,cda-server-4,34.95725965499878,16488,1756652449,10.157.146.4,False,89375.95495843887,1200
+2749,-608.5158108547322,2749,3298800,{},-653.5621584169138,3298800,0,89411.16947960854,-470.41101960231146,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3298800, 'default': {'kl': 0.012076685205101967, 'policy_loss': -0.14845603704452515, 'vf_loss': 121.14168548583984, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.989195704460144, 'entropy': 2.978024482727051, 'cur_lr': 4.999999873689376e-05, 'total_loss': 121.01158142089844}, 'load_time_ms': 0.613, 'num_steps_sampled': 3298800, 'grad_time_ms': 710.126, 'update_time_ms': 2.255, 'sample_time_ms': 34066.388}",2025-08-31_17-01-24,cda-server-4,35.214521169662476,16494,1756652484,10.157.146.4,False,89411.16947960854,1200
+2750,-607.7494466193754,2750,3300000,{},-653.5621584169138,3300000,0,89444.97543311119,-470.41101960231146,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3300000, 'default': {'kl': 0.012691998854279518, 'policy_loss': -0.15307317674160004, 'vf_loss': 36.921661376953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9953038096427917, 'entropy': 3.099863290786743, 'cur_lr': 4.999999873689376e-05, 'total_loss': 36.78786087036133}, 'load_time_ms': 0.615, 'num_steps_sampled': 3300000, 'grad_time_ms': 701.839, 'update_time_ms': 2.257, 'sample_time_ms': 34015.391}",2025-08-31_17-01-58,cda-server-4,33.80595350265503,16500,1756652518,10.157.146.4,False,89444.97543311119,1200
+2751,-606.9214902151955,2751,3301200,{},-653.5621584169138,3301200,0,89479.46504545212,-470.41101960231146,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3301200, 'default': {'kl': 0.01019386388361454, 'policy_loss': -0.1184743344783783, 'vf_loss': 42.270423889160156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9949064254760742, 'entropy': 2.978170871734619, 'cur_lr': 4.999999873689376e-05, 'total_loss': 42.16742706298828}, 'load_time_ms': 0.614, 'num_steps_sampled': 3301200, 'grad_time_ms': 680.466, 'update_time_ms': 2.214, 'sample_time_ms': 33958.988}",2025-08-31_17-02-33,cda-server-4,34.489612340927124,16506,1756652553,10.157.146.4,False,89479.46504545212,1200
+2752,-606.2165213251942,2752,3302400,{},-653.5621584169138,3302400,0,89514.2004430294,-470.41101960231146,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3302400, 'default': {'kl': 0.00893376674503088, 'policy_loss': -0.11216185986995697, 'vf_loss': 214.76605224609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9757770895957947, 'entropy': 3.041971206665039, 'cur_lr': 4.999999873689376e-05, 'total_loss': 214.66744995117188}, 'load_time_ms': 0.625, 'num_steps_sampled': 3302400, 'grad_time_ms': 678.841, 'update_time_ms': 2.327, 'sample_time_ms': 34002.558}",2025-08-31_17-03-07,cda-server-4,34.73539757728577,16512,1756652587,10.157.146.4,False,89514.2004430294,1200
+2753,-606.5029032025773,2753,3303600,{},-653.5621584169138,3303600,0,89548.42889213562,-470.41101960231146,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3303600, 'default': {'kl': 0.009534627199172974, 'policy_loss': -0.12874044477939606, 'vf_loss': 242.4208221435547, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9652460813522339, 'entropy': 3.030346632003784, 'cur_lr': 4.999999873689376e-05, 'total_loss': 242.3065643310547}, 'load_time_ms': 0.606, 'num_steps_sampled': 3303600, 'grad_time_ms': 646.55, 'update_time_ms': 2.359, 'sample_time_ms': 34010.773}",2025-08-31_17-03-42,cda-server-4,34.22844910621643,16518,1756652622,10.157.146.4,False,89548.42889213562,1200
+2754,-606.9934607573414,2754,3304800,{},-653.5621584169138,3304800,0,89582.26426386833,-470.41101960231146,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3304800, 'default': {'kl': 0.010605324991047382, 'policy_loss': -0.12408774346113205, 'vf_loss': 218.99029541015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9686096906661987, 'entropy': 2.9636735916137695, 'cur_lr': 4.999999873689376e-05, 'total_loss': 218.88229370117188}, 'load_time_ms': 0.622, 'num_steps_sampled': 3304800, 'grad_time_ms': 642.849, 'update_time_ms': 2.37, 'sample_time_ms': 33737.127}",2025-08-31_17-04-16,cda-server-4,33.83537173271179,16524,1756652656,10.157.146.4,False,89582.26426386833,1200
+2755,-608.0469646257868,2755,3306000,{},-653.5621584169138,3306000,0,89617.08299827576,-470.41101960231146,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3306000, 'default': {'kl': 0.011328568682074547, 'policy_loss': -0.1426004022359848, 'vf_loss': 230.67816162109375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9771893620491028, 'entropy': 3.101253032684326, 'cur_lr': 4.999999873689376e-05, 'total_loss': 230.55279541015625}, 'load_time_ms': 0.624, 'num_steps_sampled': 3306000, 'grad_time_ms': 645.121, 'update_time_ms': 2.37, 'sample_time_ms': 33781.546}",2025-08-31_17-04-50,cda-server-4,34.81873440742493,16530,1756652690,10.157.146.4,False,89617.08299827576,1200
+2756,-609.6363657455454,2756,3307200,{},-653.5621584169138,3307200,0,89652.20082330704,-514.8010388927323,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3307200, 'default': {'kl': 0.009465554729104042, 'policy_loss': -0.14803916215896606, 'vf_loss': 84.96687316894531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9904011487960815, 'entropy': 3.1548242568969727, 'cur_lr': 4.999999873689376e-05, 'total_loss': 84.83320617675781}, 'load_time_ms': 0.623, 'num_steps_sampled': 3307200, 'grad_time_ms': 657.58, 'update_time_ms': 2.364, 'sample_time_ms': 33888.765}",2025-08-31_17-05-25,cda-server-4,35.11782503128052,16536,1756652725,10.157.146.4,False,89652.20082330704,1200
+2757,-610.0327364536411,2757,3308400,{},-653.5621584169138,3308400,0,89686.734872818,-514.8010388927323,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3308400, 'default': {'kl': 0.010198676027357578, 'policy_loss': -0.1346481591463089, 'vf_loss': 162.39389038085938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9877131581306458, 'entropy': 3.0713865756988525, 'cur_lr': 4.999999873689376e-05, 'total_loss': 162.27471923828125}, 'load_time_ms': 0.621, 'num_steps_sampled': 3308400, 'grad_time_ms': 665.781, 'update_time_ms': 2.353, 'sample_time_ms': 33900.84}",2025-08-31_17-06-00,cda-server-4,34.53404951095581,16542,1756652760,10.157.146.4,False,89686.734872818,1200
+2758,-610.1071720646006,2758,3309600,{},-644.4886957806114,3309600,0,89720.80099463463,-514.8010388927323,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3309600, 'default': {'kl': 0.010354114696383476, 'policy_loss': -0.12140049040317535, 'vf_loss': 414.4659118652344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.959405243396759, 'entropy': 3.027216911315918, 'cur_lr': 4.999999873689376e-05, 'total_loss': 414.3602294921875}, 'load_time_ms': 0.626, 'num_steps_sampled': 3309600, 'grad_time_ms': 658.363, 'update_time_ms': 2.32, 'sample_time_ms': 33819.235}",2025-08-31_17-06-34,cda-server-4,34.06612181663513,16548,1756652794,10.157.146.4,False,89720.80099463463,1200
+2759,-610.013163434342,2759,3310800,{},-644.4886957806114,3310800,0,89755.65084314346,-526.6021729653461,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3310800, 'default': {'kl': 0.01162024401128292, 'policy_loss': -0.14326435327529907, 'vf_loss': 135.00218200683594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9831690192222595, 'entropy': 3.094078302383423, 'cur_lr': 4.999999873689376e-05, 'total_loss': 134.87655639648438}, 'load_time_ms': 0.651, 'num_steps_sampled': 3310800, 'grad_time_ms': 652.019, 'update_time_ms': 2.323, 'sample_time_ms': 33789.081}",2025-08-31_17-07-09,cda-server-4,34.84984850883484,16554,1756652829,10.157.146.4,False,89755.65084314346,1200
+2760,-608.9904498184306,2760,3312000,{},-644.4886957806114,3312000,0,89789.84554886818,-526.6021729653461,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3312000, 'default': {'kl': 0.010630737990140915, 'policy_loss': -0.13711291551589966, 'vf_loss': 86.65914154052734, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.987228512763977, 'entropy': 2.960934638977051, 'cur_lr': 4.999999873689376e-05, 'total_loss': 86.53816986083984}, 'load_time_ms': 0.652, 'num_steps_sampled': 3312000, 'grad_time_ms': 655.453, 'update_time_ms': 2.322, 'sample_time_ms': 33824.487}",2025-08-31_17-07-43,cda-server-4,34.19470572471619,16560,1756652863,10.157.146.4,False,89789.84554886818,1200
+2761,-609.5612242608541,2761,3313200,{},-644.4886957806114,3313200,0,89825.021266222,-526.6021729653461,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3313200, 'default': {'kl': 0.010377040132880211, 'policy_loss': -0.13906218111515045, 'vf_loss': 154.08477783203125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.978003740310669, 'entropy': 3.0517492294311523, 'cur_lr': 4.999999873689376e-05, 'total_loss': 153.96148681640625}, 'load_time_ms': 0.656, 'num_steps_sampled': 3313200, 'grad_time_ms': 676.05, 'update_time_ms': 2.307, 'sample_time_ms': 33872.549}",2025-08-31_17-08-18,cda-server-4,35.1757173538208,16566,1756652898,10.157.146.4,False,89825.021266222,1200
+2762,-609.597987285009,2762,3314400,{},-644.4886957806114,3314400,0,89860.19361758232,-526.6021729653461,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3314400, 'default': {'kl': 0.011392186395823956, 'policy_loss': -0.1451001763343811, 'vf_loss': 82.27444458007812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9904496669769287, 'entropy': 3.0419702529907227, 'cur_lr': 4.999999873689376e-05, 'total_loss': 82.14663696289062}, 'load_time_ms': 0.646, 'num_steps_sampled': 3314400, 'grad_time_ms': 671.936, 'update_time_ms': 2.25, 'sample_time_ms': 33920.38}",2025-08-31_17-08-54,cda-server-4,35.172351360321045,16572,1756652934,10.157.146.4,False,89860.19361758232,1200
+2763,-608.4015615065222,2763,3315600,{},-660.7558850158249,3315600,0,89894.76870584488,-456.36020423705327,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3315600, 'default': {'kl': 0.013297532685101032, 'policy_loss': -0.164608895778656, 'vf_loss': 340.39404296875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9701223373413086, 'entropy': 3.0541164875030518, 'cur_lr': 4.999999873689376e-05, 'total_loss': 340.2496337890625}, 'load_time_ms': 0.663, 'num_steps_sampled': 3315600, 'grad_time_ms': 656.497, 'update_time_ms': 2.16, 'sample_time_ms': 33970.63}",2025-08-31_17-09-28,cda-server-4,34.57508826255798,16578,1756652968,10.157.146.4,False,89894.76870584488,1200
+2764,-608.9438509945948,2764,3316800,{},-660.7558850158249,3316800,0,89928.86881828308,-456.36020423705327,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3316800, 'default': {'kl': 0.013653240166604519, 'policy_loss': -0.15094834566116333, 'vf_loss': 157.61151123046875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9856970310211182, 'entropy': 3.0982322692871094, 'cur_lr': 4.999999873689376e-05, 'total_loss': 157.48130798339844}, 'load_time_ms': 0.643, 'num_steps_sampled': 3316800, 'grad_time_ms': 664.204, 'update_time_ms': 2.202, 'sample_time_ms': 33989.313}",2025-08-31_17-10-02,cda-server-4,34.100112438201904,16584,1756653002,10.157.146.4,False,89928.86881828308,1200
+2765,-609.3101506961137,2765,3318000,{},-660.7558850158249,3318000,0,89963.37748098373,-456.36020423705327,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3318000, 'default': {'kl': 0.01003322470933199, 'policy_loss': -0.12991078197956085, 'vf_loss': 108.51932525634766, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9883343577384949, 'entropy': 3.079343318939209, 'cur_lr': 4.999999873689376e-05, 'total_loss': 108.40465545654297}, 'load_time_ms': 0.647, 'num_steps_sampled': 3318000, 'grad_time_ms': 662.196, 'update_time_ms': 2.256, 'sample_time_ms': 33960.171}",2025-08-31_17-10-37,cda-server-4,34.508662700653076,16590,1756653037,10.157.146.4,False,89963.37748098373,1200
+2766,-609.3489561347869,2766,3319200,{},-660.7558850158249,3319200,0,89998.26920723915,-456.36020423705327,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3319200, 'default': {'kl': 0.012428631074726582, 'policy_loss': -0.14846926927566528, 'vf_loss': 173.6026153564453, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9862957000732422, 'entropy': 3.0155818462371826, 'cur_lr': 4.999999873689376e-05, 'total_loss': 173.4730224609375}, 'load_time_ms': 0.66, 'num_steps_sampled': 3319200, 'grad_time_ms': 659.479, 'update_time_ms': 2.347, 'sample_time_ms': 33940.004}",2025-08-31_17-11-12,cda-server-4,34.89172625541687,16596,1756653072,10.157.146.4,False,89998.26920723915,1200
+2767,-609.9618744397375,2767,3320400,{},-660.7558850158249,3320400,0,90033.57437610626,-456.36020423705327,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3320400, 'default': {'kl': 0.009997060522437096, 'policy_loss': -0.128901869058609, 'vf_loss': 87.021728515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9896306991577148, 'entropy': 3.149651527404785, 'cur_lr': 4.999999873689376e-05, 'total_loss': 86.90801239013672}, 'load_time_ms': 0.692, 'num_steps_sampled': 3320400, 'grad_time_ms': 670.098, 'update_time_ms': 2.658, 'sample_time_ms': 34006.202}",2025-08-31_17-11-47,cda-server-4,35.305168867111206,16602,1756653107,10.157.146.4,False,90033.57437610626,1200
+2768,-611.1424582115465,2768,3321600,{},-660.7558850158249,3321600,0,90067.90869522095,-456.36020423705327,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3321600, 'default': {'kl': 0.009825754910707474, 'policy_loss': -0.1247066780924797, 'vf_loss': 160.6577606201172, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9773017168045044, 'entropy': 3.053616762161255, 'cur_lr': 4.999999873689376e-05, 'total_loss': 160.5479736328125}, 'load_time_ms': 0.689, 'num_steps_sampled': 3321600, 'grad_time_ms': 685.48, 'update_time_ms': 2.638, 'sample_time_ms': 34017.703}",2025-08-31_17-12-21,cda-server-4,34.33431911468506,16608,1756653141,10.157.146.4,False,90067.90869522095,1200
+2769,-611.6674615343959,2769,3322800,{},-660.7558850158249,3322800,0,90102.56544303894,-456.36020423705327,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3322800, 'default': {'kl': 0.013383460231125355, 'policy_loss': -0.15891730785369873, 'vf_loss': 474.1702880859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9529504776000977, 'entropy': 3.2720324993133545, 'cur_lr': 4.999999873689376e-05, 'total_loss': 474.03173828125}, 'load_time_ms': 0.667, 'num_steps_sampled': 3322800, 'grad_time_ms': 699.143, 'update_time_ms': 2.628, 'sample_time_ms': 33984.753}",2025-08-31_17-12-56,cda-server-4,34.656747817993164,16614,1756653176,10.157.146.4,False,90102.56544303894,1200
+2770,-610.5949266442639,2770,3324000,{},-660.7558850158249,3324000,0,90136.83802080154,-456.36020423705327,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3324000, 'default': {'kl': 0.008264871314167976, 'policy_loss': -0.1254591941833496, 'vf_loss': 269.7578125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.967982828617096, 'entropy': 3.1370344161987305, 'cur_lr': 4.999999873689376e-05, 'total_loss': 269.6449279785156}, 'load_time_ms': 0.671, 'num_steps_sampled': 3324000, 'grad_time_ms': 696.27, 'update_time_ms': 2.658, 'sample_time_ms': 33995.432}",2025-08-31_17-13-30,cda-server-4,34.27257776260376,16620,1756653210,10.157.146.4,False,90136.83802080154,1200
+2771,-611.3812265754765,2771,3325200,{},-660.7558850158249,3325200,0,90171.46119046211,-456.36020423705327,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3325200, 'default': {'kl': 0.010198037140071392, 'policy_loss': -0.14723967015743256, 'vf_loss': 110.39693450927734, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9841883778572083, 'entropy': 3.174740791320801, 'cur_lr': 4.999999873689376e-05, 'total_loss': 110.26518249511719}, 'load_time_ms': 0.664, 'num_steps_sampled': 3325200, 'grad_time_ms': 712.182, 'update_time_ms': 2.765, 'sample_time_ms': 33923.918}",2025-08-31_17-14-05,cda-server-4,34.62316966056824,16626,1756653245,10.157.146.4,False,90171.46119046211,1200
+2772,-610.4647693819226,2772,3326400,{},-660.7558850158249,3326400,0,90206.32068157196,-456.36020423705327,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3326400, 'default': {'kl': 0.012528562918305397, 'policy_loss': -0.15195754170417786, 'vf_loss': 200.07501220703125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9727999567985535, 'entropy': 3.1274876594543457, 'cur_lr': 4.999999873689376e-05, 'total_loss': 199.94207763671875}, 'load_time_ms': 0.665, 'num_steps_sampled': 3326400, 'grad_time_ms': 712.745, 'update_time_ms': 3.031, 'sample_time_ms': 33891.853}",2025-08-31_17-14-40,cda-server-4,34.85949110984802,16632,1756653280,10.157.146.4,False,90206.32068157196,1200
+2773,-610.7779353163016,2773,3327600,{},-660.7558850158249,3327600,0,90241.80845594406,-456.36020423705327,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3327600, 'default': {'kl': 0.01078796200454235, 'policy_loss': -0.13763539493083954, 'vf_loss': 17.37963104248047, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9970642924308777, 'entropy': 3.056978940963745, 'cur_lr': 4.999999873689376e-05, 'total_loss': 17.25838279724121}, 'load_time_ms': 0.657, 'num_steps_sampled': 3327600, 'grad_time_ms': 713.935, 'update_time_ms': 3.177, 'sample_time_ms': 33981.681}",2025-08-31_17-15-15,cda-server-4,35.48777437210083,16638,1756653315,10.157.146.4,False,90241.80845594406,1200
+2774,-610.1448750242066,2774,3328800,{},-660.7558850158249,3328800,0,90276.51798963547,-456.36020423705327,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3328800, 'default': {'kl': 0.010589729994535446, 'policy_loss': -0.14032790064811707, 'vf_loss': 128.24481201171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9834880828857422, 'entropy': 3.0468227863311768, 'cur_lr': 4.999999873689376e-05, 'total_loss': 128.12057495117188}, 'load_time_ms': 0.66, 'num_steps_sampled': 3328800, 'grad_time_ms': 712.823, 'update_time_ms': 3.138, 'sample_time_ms': 34043.75}",2025-08-31_17-15-50,cda-server-4,34.70953369140625,16644,1756653350,10.157.146.4,False,90276.51798963547,1200
+2775,-610.2587058245527,2775,3330000,{},-660.7558850158249,3330000,0,90310.14477324486,-456.36020423705327,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3330000, 'default': {'kl': 0.007446295581758022, 'policy_loss': -0.10773336887359619, 'vf_loss': 235.0003204345703, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9638079404830933, 'entropy': 3.145869255065918, 'cur_lr': 4.999999873689376e-05, 'total_loss': 234.90391540527344}, 'load_time_ms': 0.66, 'num_steps_sampled': 3330000, 'grad_time_ms': 702.667, 'update_time_ms': 3.136, 'sample_time_ms': 33965.714}",2025-08-31_17-16-24,cda-server-4,33.62678360939026,16650,1756653384,10.157.146.4,False,90310.14477324486,1200
+2776,-610.9682073139709,2776,3331200,{},-660.7558850158249,3331200,0,90344.56749463081,-456.36020423705327,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3331200, 'default': {'kl': 0.010983413085341454, 'policy_loss': -0.13472071290016174, 'vf_loss': 147.67437744140625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9819778800010681, 'entropy': 3.2055485248565674, 'cur_lr': 4.999999873689376e-05, 'total_loss': 147.55633544921875}, 'load_time_ms': 0.651, 'num_steps_sampled': 3331200, 'grad_time_ms': 701.787, 'update_time_ms': 3.105, 'sample_time_ms': 33919.857}",2025-08-31_17-16-58,cda-server-4,34.42272138595581,16656,1756653418,10.157.146.4,False,90344.56749463081,1200
+2777,-610.7858218407443,2777,3332400,{},-660.7558850158249,3332400,0,90379.33910489082,-456.36020423705327,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3332400, 'default': {'kl': 0.009671716019511223, 'policy_loss': -0.13336580991744995, 'vf_loss': 141.03277587890625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9837244749069214, 'entropy': 3.1238977909088135, 'cur_lr': 4.999999873689376e-05, 'total_loss': 140.91409301757812}, 'load_time_ms': 0.614, 'num_steps_sampled': 3332400, 'grad_time_ms': 699.996, 'update_time_ms': 2.851, 'sample_time_ms': 33868.511}",2025-08-31_17-17-33,cda-server-4,34.771610260009766,16662,1756653453,10.157.146.4,False,90379.33910489082,1200
+2778,-610.4084776589019,2778,3333600,{},-660.7558850158249,3333600,0,90413.22847366333,-456.36020423705327,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3333600, 'default': {'kl': 0.012989156879484653, 'policy_loss': -0.17487965524196625, 'vf_loss': 75.61409759521484, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9908390045166016, 'entropy': 3.1590864658355713, 'cur_lr': 4.999999873689376e-05, 'total_loss': 75.45893859863281}, 'load_time_ms': 0.616, 'num_steps_sampled': 3333600, 'grad_time_ms': 681.553, 'update_time_ms': 2.858, 'sample_time_ms': 33842.336}",2025-08-31_17-18-07,cda-server-4,33.889368772506714,16668,1756653487,10.157.146.4,False,90413.22847366333,1200
+2779,-614.5817784295623,2779,3334800,{},-820.6384056507642,3334800,0,90447.01439070702,-562.2069228110031,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3334800, 'default': {'kl': 0.009042763151228428, 'policy_loss': -0.10883964598178864, 'vf_loss': 936.3998413085938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9265227913856506, 'entropy': 3.421095848083496, 'cur_lr': 4.999999873689376e-05, 'total_loss': 936.3048095703125}, 'load_time_ms': 0.612, 'num_steps_sampled': 3334800, 'grad_time_ms': 681.602, 'update_time_ms': 2.887, 'sample_time_ms': 33755.22}",2025-08-31_17-18-41,cda-server-4,33.78591704368591,16674,1756653521,10.157.146.4,False,90447.01439070702,1200
+2780,-613.2795298569087,2780,3336000,{},-820.6384056507642,3336000,0,90481.59393548965,-530.9166954418378,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3336000, 'default': {'kl': 0.011056099086999893, 'policy_loss': -0.13820643723011017, 'vf_loss': 160.0592803955078, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9791203737258911, 'entropy': 3.1015360355377197, 'cur_lr': 4.999999873689376e-05, 'total_loss': 159.9378662109375}, 'load_time_ms': 0.607, 'num_steps_sampled': 3336000, 'grad_time_ms': 673.82, 'update_time_ms': 2.795, 'sample_time_ms': 33793.831}",2025-08-31_17-19-15,cda-server-4,34.57954478263855,16680,1756653555,10.157.146.4,False,90481.59393548965,1200
+2781,-613.2201913411664,2781,3337200,{},-820.6384056507642,3337200,0,90516.02453041077,-530.9166954418378,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3337200, 'default': {'kl': 0.011733893305063248, 'policy_loss': -0.13689684867858887, 'vf_loss': 205.42193603515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9785425662994385, 'entropy': 3.2269234657287598, 'cur_lr': 4.999999873689376e-05, 'total_loss': 205.30284118652344}, 'load_time_ms': 0.604, 'num_steps_sampled': 3337200, 'grad_time_ms': 641.186, 'update_time_ms': 2.672, 'sample_time_ms': 33807.64}",2025-08-31_17-19-50,cda-server-4,34.43059492111206,16686,1756653590,10.157.146.4,False,90516.02453041077,1200
+2782,-611.8930997513272,2782,3338400,{},-820.6384056507642,3338400,0,90550.41155862808,-523.7643940768428,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3338400, 'default': {'kl': 0.011172914877533913, 'policy_loss': -0.1360260397195816, 'vf_loss': 266.4527893066406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9660171866416931, 'entropy': 2.9642701148986816, 'cur_lr': 4.999999873689376e-05, 'total_loss': 266.3337097167969}, 'load_time_ms': 0.607, 'num_steps_sampled': 3338400, 'grad_time_ms': 633.281, 'update_time_ms': 2.394, 'sample_time_ms': 33768.566}",2025-08-31_17-20-24,cda-server-4,34.387028217315674,16692,1756653624,10.157.146.4,False,90550.41155862808,1200
+2783,-611.0539624631932,2783,3339600,{},-820.6384056507642,3339600,0,90584.74323678017,-523.7643940768428,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3339600, 'default': {'kl': 0.009991724044084549, 'policy_loss': -0.1351347118616104, 'vf_loss': 112.73704528808594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.983100175857544, 'entropy': 3.0605154037475586, 'cur_lr': 4.999999873689376e-05, 'total_loss': 112.61709594726562}, 'load_time_ms': 0.601, 'num_steps_sampled': 3339600, 'grad_time_ms': 638.958, 'update_time_ms': 2.288, 'sample_time_ms': 33647.534}",2025-08-31_17-20-59,cda-server-4,34.33167815208435,16698,1756653659,10.157.146.4,False,90584.74323678017,1200
+2784,-610.3894129306129,2784,3340800,{},-820.6384056507642,3340800,0,90619.57609295845,-523.7643940768428,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3340800, 'default': {'kl': 0.010582138784229755, 'policy_loss': -0.13394540548324585, 'vf_loss': 108.10208892822266, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9838333129882812, 'entropy': 3.1060221195220947, 'cur_lr': 4.999999873689376e-05, 'total_loss': 107.98421478271484}, 'load_time_ms': 0.595, 'num_steps_sampled': 3340800, 'grad_time_ms': 627.079, 'update_time_ms': 2.259, 'sample_time_ms': 33671.863}",2025-08-31_17-21-33,cda-server-4,34.83285617828369,16704,1756653693,10.157.146.4,False,90619.57609295845,1200
+2785,-609.2015955973508,2785,3342000,{},-820.6384056507642,3342000,0,90654.16608953476,-523.7643940768428,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3342000, 'default': {'kl': 0.011687842197716236, 'policy_loss': -0.15159164369106293, 'vf_loss': 112.23919677734375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9859368205070496, 'entropy': 3.032059669494629, 'cur_lr': 4.999999873689376e-05, 'total_loss': 112.10535430908203}, 'load_time_ms': 0.595, 'num_steps_sampled': 3342000, 'grad_time_ms': 631.692, 'update_time_ms': 2.267, 'sample_time_ms': 33763.595}",2025-08-31_17-22-08,cda-server-4,34.589996576309204,16710,1756653728,10.157.146.4,False,90654.16608953476,1200
+2786,-609.5281879181827,2786,3343200,{},-820.6384056507642,3343200,0,90688.3016102314,-523.7643940768428,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3343200, 'default': {'kl': 0.010893851518630981, 'policy_loss': -0.12462376058101654, 'vf_loss': 136.828125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.983860969543457, 'entropy': 3.0644140243530273, 'cur_lr': 4.999999873689376e-05, 'total_loss': 136.72006225585938}, 'load_time_ms': 0.597, 'num_steps_sampled': 3343200, 'grad_time_ms': 625.931, 'update_time_ms': 2.246, 'sample_time_ms': 33740.667}",2025-08-31_17-22-42,cda-server-4,34.135520696640015,16716,1756653762,10.157.146.4,False,90688.3016102314,1200
+2787,-610.2618983751998,2787,3344400,{},-820.6384056507642,3344400,0,90722.8543715477,-523.7643940768428,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3344400, 'default': {'kl': 0.010904984548687935, 'policy_loss': -0.1402125507593155, 'vf_loss': 59.29103469848633, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9905804395675659, 'entropy': 3.043761730194092, 'cur_lr': 4.999999873689376e-05, 'total_loss': 59.16738510131836}, 'load_time_ms': 0.596, 'num_steps_sampled': 3344400, 'grad_time_ms': 613.253, 'update_time_ms': 2.306, 'sample_time_ms': 33731.543}",2025-08-31_17-23-17,cda-server-4,34.55276131629944,16722,1756653797,10.157.146.4,False,90722.8543715477,1200
+2788,-609.5597647730079,2788,3345600,{},-820.6384056507642,3345600,0,90757.58287382126,-523.7643940768428,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3345600, 'default': {'kl': 0.010023046284914017, 'policy_loss': -0.14588305354118347, 'vf_loss': 232.479248046875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9775844216346741, 'entropy': 3.124223470687866, 'cur_lr': 4.999999873689376e-05, 'total_loss': 232.34860229492188}, 'load_time_ms': 0.591, 'num_steps_sampled': 3345600, 'grad_time_ms': 618.672, 'update_time_ms': 2.296, 'sample_time_ms': 33810.168}",2025-08-31_17-23-51,cda-server-4,34.72850227355957,16728,1756653831,10.157.146.4,False,90757.58287382126,1200
+2789,-610.2676125745402,2789,3346800,{},-820.6384056507642,3346800,0,90792.074198246,-523.7643940768428,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3346800, 'default': {'kl': 0.012017196044325829, 'policy_loss': -0.1468139886856079, 'vf_loss': 29.914804458618164, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9959076642990112, 'entropy': 3.017289161682129, 'cur_lr': 4.999999873689376e-05, 'total_loss': 29.786245346069336}, 'load_time_ms': 0.583, 'num_steps_sampled': 3346800, 'grad_time_ms': 599.047, 'update_time_ms': 2.314, 'sample_time_ms': 33900.339}",2025-08-31_17-24-26,cda-server-4,34.49132442474365,16734,1756653866,10.157.146.4,False,90792.074198246,1200
+2790,-609.7380252311174,2790,3348000,{},-820.6384056507642,3348000,0,90825.55210494995,-523.7643940768428,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3348000, 'default': {'kl': 0.012396218255162239, 'policy_loss': -0.1605832427740097, 'vf_loss': 44.25625991821289, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9949871897697449, 'entropy': 3.062619686126709, 'cur_lr': 4.999999873689376e-05, 'total_loss': 44.114501953125}, 'load_time_ms': 0.577, 'num_steps_sampled': 3348000, 'grad_time_ms': 604.91, 'update_time_ms': 2.373, 'sample_time_ms': 33784.203}",2025-08-31_17-24-59,cda-server-4,33.477906703948975,16740,1756653899,10.157.146.4,False,90825.55210494995,1200
+2791,-609.1868704385555,2791,3349200,{},-820.6384056507642,3349200,0,90860.54918003082,-517.8198954466465,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3349200, 'default': {'kl': 0.009578892029821873, 'policy_loss': -0.1382366269826889, 'vf_loss': 65.23822021484375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9901329874992371, 'entropy': 2.9569685459136963, 'cur_lr': 4.999999873689376e-05, 'total_loss': 65.11453247070312}, 'load_time_ms': 0.586, 'num_steps_sampled': 3349200, 'grad_time_ms': 616.542, 'update_time_ms': 2.361, 'sample_time_ms': 33829.203}",2025-08-31_17-25-35,cda-server-4,34.99707508087158,16746,1756653935,10.157.146.4,False,90860.54918003082,1200
+2792,-609.3157441656984,2792,3350400,{},-820.6384056507642,3350400,0,90895.44361877441,-517.8198954466465,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3350400, 'default': {'kl': 0.010482480749487877, 'policy_loss': -0.11977551877498627, 'vf_loss': 91.91374969482422, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.986169695854187, 'entropy': 2.927093744277954, 'cur_lr': 4.999999873689376e-05, 'total_loss': 91.80989837646484}, 'load_time_ms': 0.588, 'num_steps_sampled': 3350400, 'grad_time_ms': 624.39, 'update_time_ms': 2.348, 'sample_time_ms': 33872.156}",2025-08-31_17-26-09,cda-server-4,34.89443874359131,16752,1756653969,10.157.146.4,False,90895.44361877441,1200
+2793,-607.9118226085019,2793,3351600,{},-820.6384056507642,3351600,0,90930.59518551826,-490.36127337376854,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3351600, 'default': {'kl': 0.00980610866099596, 'policy_loss': -0.13167805969715118, 'vf_loss': 287.6963806152344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.960805356502533, 'entropy': 3.0401556491851807, 'cur_lr': 4.999999873689376e-05, 'total_loss': 287.57958984375}, 'load_time_ms': 0.591, 'num_steps_sampled': 3351600, 'grad_time_ms': 631.39, 'update_time_ms': 2.319, 'sample_time_ms': 33947.139}",2025-08-31_17-26-45,cda-server-4,35.15156674385071,16758,1756654005,10.157.146.4,False,90930.59518551826,1200
+2794,-608.3475948261603,2794,3352800,{},-820.6384056507642,3352800,0,90965.10634160042,-490.36127337376854,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3352800, 'default': {'kl': 0.010804448276758194, 'policy_loss': -0.14329487085342407, 'vf_loss': 140.08055114746094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9810224175453186, 'entropy': 3.075833320617676, 'cur_lr': 4.999999873689376e-05, 'total_loss': 139.9536895751953}, 'load_time_ms': 0.628, 'num_steps_sampled': 3352800, 'grad_time_ms': 637.082, 'update_time_ms': 2.395, 'sample_time_ms': 33909.131}",2025-08-31_17-27-19,cda-server-4,34.51115608215332,16764,1756654039,10.157.146.4,False,90965.10634160042,1200
+2795,-608.5836717481927,2795,3354000,{},-820.6384056507642,3354000,0,90999.13944649696,-490.36127337376854,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3354000, 'default': {'kl': 0.010396427474915981, 'policy_loss': -0.14359678328037262, 'vf_loss': 21.03569793701172, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9969882965087891, 'entropy': 3.0465073585510254, 'cur_lr': 4.999999873689376e-05, 'total_loss': 20.90789222717285}, 'load_time_ms': 0.623, 'num_steps_sampled': 3354000, 'grad_time_ms': 622.036, 'update_time_ms': 2.39, 'sample_time_ms': 33868.486}",2025-08-31_17-27-53,cda-server-4,34.03310489654541,16770,1756654073,10.157.146.4,False,90999.13944649696,1200
+2796,-606.3034213401297,2796,3355200,{},-643.1561240390838,3355200,0,91033.68191862106,-490.36127337376854,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3355200, 'default': {'kl': 0.010796125046908855, 'policy_loss': -0.1314651221036911, 'vf_loss': 121.16631317138672, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9850414991378784, 'entropy': 3.054215908050537, 'cur_lr': 4.999999873689376e-05, 'total_loss': 121.05125427246094}, 'load_time_ms': 0.636, 'num_steps_sampled': 3355200, 'grad_time_ms': 623.518, 'update_time_ms': 2.451, 'sample_time_ms': 33907.5}",2025-08-31_17-28-28,cda-server-4,34.54247212409973,16776,1756654108,10.157.146.4,False,91033.68191862106,1200
+2797,-605.2106705830732,2797,3356400,{},-643.1561240390838,3356400,0,91067.29566574097,-490.36127337376854,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3356400, 'default': {'kl': 0.01094674039632082, 'policy_loss': -0.1624498814344406, 'vf_loss': 194.09429931640625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.97757887840271, 'entropy': 3.004387855529785, 'cur_lr': 4.999999873689376e-05, 'total_loss': 193.94847106933594}, 'load_time_ms': 0.632, 'num_steps_sampled': 3356400, 'grad_time_ms': 624.992, 'update_time_ms': 2.428, 'sample_time_ms': 33812.115}",2025-08-31_17-29-01,cda-server-4,33.613747119903564,16782,1756654141,10.157.146.4,False,91067.29566574097,1200
+2798,-604.8804965065282,2798,3357600,{},-643.1561240390838,3357600,0,91102.61662554741,-490.36127337376854,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3357600, 'default': {'kl': 0.011170146986842155, 'policy_loss': -0.1523875892162323, 'vf_loss': 74.55635070800781, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9911221265792847, 'entropy': 3.1199262142181396, 'cur_lr': 4.999999873689376e-05, 'total_loss': 74.42092895507812}, 'load_time_ms': 0.635, 'num_steps_sampled': 3357600, 'grad_time_ms': 623.97, 'update_time_ms': 2.479, 'sample_time_ms': 33872.335}",2025-08-31_17-29-37,cda-server-4,35.32095980644226,16788,1756654177,10.157.146.4,False,91102.61662554741,1200
+2799,-605.8317101166513,2799,3358800,{},-643.1561240390838,3358800,0,91137.57993555069,-490.36127337376854,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3358800, 'default': {'kl': 0.00968827772885561, 'policy_loss': -0.12669934332370758, 'vf_loss': 166.45291137695312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.978076696395874, 'entropy': 3.0536980628967285, 'cur_lr': 4.999999873689376e-05, 'total_loss': 166.34091186523438}, 'load_time_ms': 0.642, 'num_steps_sampled': 3358800, 'grad_time_ms': 643.992, 'update_time_ms': 2.448, 'sample_time_ms': 33899.419}",2025-08-31_17-30-12,cda-server-4,34.96331000328064,16794,1756654212,10.157.146.4,False,91137.57993555069,1200
+2800,-605.9500266672176,2800,3360000,{},-643.1561240390838,3360000,0,91171.82462501526,-490.36127337376854,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3360000, 'default': {'kl': 0.009704462252557278, 'policy_loss': -0.12230271846055984, 'vf_loss': 223.57003784179688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9711674451828003, 'entropy': 3.025968313217163, 'cur_lr': 4.999999873689376e-05, 'total_loss': 223.46246337890625}, 'load_time_ms': 0.659, 'num_steps_sampled': 3360000, 'grad_time_ms': 655.696, 'update_time_ms': 2.485, 'sample_time_ms': 33964.287}",2025-08-31_17-30-46,cda-server-4,34.24468946456909,16800,1756654246,10.157.146.4,False,91171.82462501526,1200
+2801,-607.8337577390542,2801,3361200,{},-643.1561240390838,3361200,0,91206.23661661148,-490.36127337376854,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3361200, 'default': {'kl': 0.010790416970849037, 'policy_loss': -0.14337903261184692, 'vf_loss': 187.4340362548828, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9760334491729736, 'entropy': 3.0891664028167725, 'cur_lr': 4.999999873689376e-05, 'total_loss': 187.3070526123047}, 'load_time_ms': 0.658, 'num_steps_sampled': 3361200, 'grad_time_ms': 663.51, 'update_time_ms': 2.497, 'sample_time_ms': 33897.988}",2025-08-31_17-31-20,cda-server-4,34.411991596221924,16806,1756654280,10.157.146.4,False,91206.23661661148,1200
+2802,-608.1471995840518,2802,3362400,{},-643.1561240390838,3362400,0,91240.40715551376,-490.36127337376854,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3362400, 'default': {'kl': 0.009647821076214314, 'policy_loss': -0.12988807260990143, 'vf_loss': 313.6745300292969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.963782012462616, 'entropy': 3.039431571960449, 'cur_lr': 4.999999873689376e-05, 'total_loss': 313.5592956542969}, 'load_time_ms': 0.684, 'num_steps_sampled': 3362400, 'grad_time_ms': 657.314, 'update_time_ms': 2.48, 'sample_time_ms': 33831.735}",2025-08-31_17-31-55,cda-server-4,34.170538902282715,16812,1756654315,10.157.146.4,False,91240.40715551376,1200
+2803,-607.2744815957026,2803,3363600,{},-643.1561240390838,3363600,0,91274.87135529518,-490.36127337376854,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3363600, 'default': {'kl': 0.009496782906353474, 'policy_loss': -0.13557499647140503, 'vf_loss': 57.72511672973633, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9908301830291748, 'entropy': 2.913186550140381, 'cur_lr': 4.999999873689376e-05, 'total_loss': 57.60396957397461}, 'load_time_ms': 0.71, 'num_steps_sampled': 3363600, 'grad_time_ms': 654.401, 'update_time_ms': 2.479, 'sample_time_ms': 33765.951}",2025-08-31_17-32-29,cda-server-4,34.46419978141785,16818,1756654349,10.157.146.4,False,91274.87135529518,1200
+2804,-605.5233860118906,2804,3364800,{},-643.1561240390838,3364800,0,91308.22520065308,-464.0198797861875,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3364800, 'default': {'kl': 0.014958792366087437, 'policy_loss': -0.16716742515563965, 'vf_loss': 94.13502502441406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.994533121585846, 'entropy': 3.074688673019409, 'cur_lr': 4.999999873689376e-05, 'total_loss': 93.9905776977539}, 'load_time_ms': 0.676, 'num_steps_sampled': 3364800, 'grad_time_ms': 633.864, 'update_time_ms': 2.396, 'sample_time_ms': 33670.922}",2025-08-31_17-33-02,cda-server-4,33.3538453578949,16824,1756654382,10.157.146.4,False,91308.22520065308,1200
+2805,-605.1512771273134,2805,3366000,{},-643.1561240390838,3366000,0,91343.11687397957,-464.0198797861875,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3366000, 'default': {'kl': 0.012786921113729477, 'policy_loss': -0.14695172011852264, 'vf_loss': 293.2203063964844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9761223196983337, 'entropy': 3.064746379852295, 'cur_lr': 4.999999873689376e-05, 'total_loss': 293.0927734375}, 'load_time_ms': 0.676, 'num_steps_sampled': 3366000, 'grad_time_ms': 639.642, 'update_time_ms': 2.338, 'sample_time_ms': 33751.097}",2025-08-31_17-33-37,cda-server-4,34.89167332649231,16830,1756654417,10.157.146.4,False,91343.11687397957,1200
+2806,-604.1890435359177,2806,3367200,{},-643.1561240390838,3367200,0,91377.63640117645,-448.9591059009268,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3367200, 'default': {'kl': 0.012352876365184784, 'policy_loss': -0.15941394865512848, 'vf_loss': 85.0291748046875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9884687066078186, 'entropy': 3.0505287647247314, 'cur_lr': 4.999999873689376e-05, 'total_loss': 84.88851928710938}, 'load_time_ms': 0.689, 'num_steps_sampled': 3367200, 'grad_time_ms': 626.181, 'update_time_ms': 2.309, 'sample_time_ms': 33762.387}",2025-08-31_17-34-12,cda-server-4,34.519527196884155,16836,1756654452,10.157.146.4,False,91377.63640117645,1200
+2807,-603.6719160452901,2807,3368400,{},-640.1099186596153,3368400,0,91412.00096178055,-448.9591059009268,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3368400, 'default': {'kl': 0.009354179725050926, 'policy_loss': -0.12106646597385406, 'vf_loss': 73.38716888427734, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9887264966964722, 'entropy': 3.058441400527954, 'cur_lr': 4.999999873689376e-05, 'total_loss': 73.28031158447266}, 'load_time_ms': 0.704, 'num_steps_sampled': 3368400, 'grad_time_ms': 630.384, 'update_time_ms': 2.268, 'sample_time_ms': 33833.25}",2025-08-31_17-34-46,cda-server-4,34.36456060409546,16842,1756654486,10.157.146.4,False,91412.00096178055,1200
+2808,-604.2931106581708,2808,3369600,{},-668.5402796583767,3369600,0,91446.45067572594,-448.9591059009268,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3369600, 'default': {'kl': 0.013407886028289795, 'policy_loss': -0.17140845954418182, 'vf_loss': 392.7027893066406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9797690510749817, 'entropy': 3.1791532039642334, 'cur_lr': 4.999999873689376e-05, 'total_loss': 392.5517272949219}, 'load_time_ms': 0.705, 'num_steps_sampled': 3369600, 'grad_time_ms': 647.633, 'update_time_ms': 2.244, 'sample_time_ms': 33728.865}",2025-08-31_17-35-21,cda-server-4,34.449713945388794,16848,1756654521,10.157.146.4,False,91446.45067572594,1200
+2809,-603.1323027035426,2809,3370800,{},-668.5402796583767,3370800,0,91481.50559282303,-448.9591059009268,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3370800, 'default': {'kl': 0.012880724854767323, 'policy_loss': -0.15125828981399536, 'vf_loss': 91.69562530517578, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9927809834480286, 'entropy': 3.0195486545562744, 'cur_lr': 4.999999873689376e-05, 'total_loss': 91.56393432617188}, 'load_time_ms': 0.708, 'num_steps_sampled': 3370800, 'grad_time_ms': 647.726, 'update_time_ms': 2.256, 'sample_time_ms': 33738.018}",2025-08-31_17-35-56,cda-server-4,35.054917097091675,16854,1756654556,10.157.146.4,False,91481.50559282303,1200
+2810,-605.00898057484,2810,3372000,{},-668.5402796583767,3372000,0,91516.58099293709,-448.9591059009268,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3372000, 'default': {'kl': 0.010984484106302261, 'policy_loss': -0.1514873206615448, 'vf_loss': 108.9475326538086, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9867541193962097, 'entropy': 3.091926097869873, 'cur_lr': 4.999999873689376e-05, 'total_loss': 108.81272888183594}, 'load_time_ms': 0.691, 'num_steps_sampled': 3372000, 'grad_time_ms': 645.707, 'update_time_ms': 2.22, 'sample_time_ms': 33823.234}",2025-08-31_17-36-31,cda-server-4,35.07540011405945,16860,1756654591,10.157.146.4,False,91516.58099293709,1200
+2811,-604.9766943232266,2811,3373200,{},-668.5402796583767,3373200,0,91549.9859611988,-448.9591059009268,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3373200, 'default': {'kl': 0.011899925768375397, 'policy_loss': -0.14873161911964417, 'vf_loss': 170.01513671875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9802271723747253, 'entropy': 3.3187828063964844, 'cur_lr': 4.999999873689376e-05, 'total_loss': 169.88449096679688}, 'load_time_ms': 0.697, 'num_steps_sampled': 3373200, 'grad_time_ms': 634.221, 'update_time_ms': 2.241, 'sample_time_ms': 33733.944}",2025-08-31_17-37-04,cda-server-4,33.40496826171875,16866,1756654624,10.157.146.4,False,91549.9859611988,1200
+2812,-604.7491138076566,2812,3374400,{},-668.5402796583767,3374400,0,91584.61601018906,-448.9591059009268,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3374400, 'default': {'kl': 0.011537115089595318, 'policy_loss': -0.14763639867305756, 'vf_loss': 48.82544708251953, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9927985072135925, 'entropy': 3.1322386264801025, 'cur_lr': 4.999999873689376e-05, 'total_loss': 48.69532775878906}, 'load_time_ms': 0.663, 'num_steps_sampled': 3374400, 'grad_time_ms': 629.041, 'update_time_ms': 2.412, 'sample_time_ms': 33784.968}",2025-08-31_17-37-39,cda-server-4,34.630048990249634,16872,1756654659,10.157.146.4,False,91584.61601018906,1200
+2813,-607.4804299655899,2813,3375600,{},-668.5402796583767,3375600,0,91618.99729037285,-448.9591059009268,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3375600, 'default': {'kl': 0.0130074517801404, 'policy_loss': -0.1641198992729187, 'vf_loss': 269.2648620605469, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9846785068511963, 'entropy': 3.3187341690063477, 'cur_lr': 4.999999873689376e-05, 'total_loss': 269.1205139160156}, 'load_time_ms': 0.631, 'num_steps_sampled': 3375600, 'grad_time_ms': 618.414, 'update_time_ms': 2.435, 'sample_time_ms': 33787.267}",2025-08-31_17-38-13,cda-server-4,34.381280183792114,16878,1756654693,10.157.146.4,False,91618.99729037285,1200
+2814,-606.7522787797197,2814,3376800,{},-668.5402796583767,3376800,0,91653.94150829315,-448.9591059009268,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3376800, 'default': {'kl': 0.011320984922349453, 'policy_loss': -0.14014947414398193, 'vf_loss': 71.52092742919922, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9903546571731567, 'entropy': 3.2672557830810547, 'cur_lr': 4.999999873689376e-05, 'total_loss': 71.39797973632812}, 'load_time_ms': 0.633, 'num_steps_sampled': 3376800, 'grad_time_ms': 637.724, 'update_time_ms': 2.437, 'sample_time_ms': 33926.933}",2025-08-31_17-38-48,cda-server-4,34.944217920303345,16884,1756654728,10.157.146.4,False,91653.94150829315,1200
+2815,-607.4411416844034,2815,3378000,{},-668.5402796583767,3378000,0,91688.00645041466,-448.9591059009268,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3378000, 'default': {'kl': 0.013654518872499466, 'policy_loss': -0.1664516180753708, 'vf_loss': 238.35333251953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9798469543457031, 'entropy': 3.0342776775360107, 'cur_lr': 4.999999873689376e-05, 'total_loss': 238.2075958251953}, 'load_time_ms': 0.636, 'num_steps_sampled': 3378000, 'grad_time_ms': 657.228, 'update_time_ms': 2.445, 'sample_time_ms': 33824.586}",2025-08-31_17-39-22,cda-server-4,34.06494212150574,16890,1756654762,10.157.146.4,False,91688.00645041466,1200
+2816,-606.7023596238366,2816,3379200,{},-668.5402796583767,3379200,0,91723.46974754333,-448.9591059009268,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3379200, 'default': {'kl': 0.012834949418902397, 'policy_loss': -0.14430779218673706, 'vf_loss': 90.68180847167969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9893116354942322, 'entropy': 3.0084965229034424, 'cur_lr': 4.999999873689376e-05, 'total_loss': 90.5570068359375}, 'load_time_ms': 0.61, 'num_steps_sampled': 3379200, 'grad_time_ms': 677.375, 'update_time_ms': 2.556, 'sample_time_ms': 33898.789}",2025-08-31_17-39-58,cda-server-4,35.46329712867737,16896,1756654798,10.157.146.4,False,91723.46974754333,1200
+2817,-606.7930897227287,2817,3380400,{},-668.5402796583767,3380400,0,91758.45260214806,-448.9591059009268,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3380400, 'default': {'kl': 0.009380249306559563, 'policy_loss': -0.11762038618326187, 'vf_loss': 54.631771087646484, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9916293621063232, 'entropy': 3.0380122661590576, 'cur_lr': 4.999999873689376e-05, 'total_loss': 54.52839660644531}, 'load_time_ms': 0.601, 'num_steps_sampled': 3380400, 'grad_time_ms': 685.5, 'update_time_ms': 2.573, 'sample_time_ms': 33952.533}",2025-08-31_17-40-33,cda-server-4,34.98285460472107,16902,1756654833,10.157.146.4,False,91758.45260214806,1200
+2818,-606.4691614773875,2818,3381600,{},-668.5402796583767,3381600,0,91792.48054099083,-448.9591059009268,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3381600, 'default': {'kl': 0.008975590579211712, 'policy_loss': -0.12109461426734924, 'vf_loss': 93.30521392822266, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9863593578338623, 'entropy': 3.048999786376953, 'cur_lr': 4.999999873689376e-05, 'total_loss': 93.19773864746094}, 'load_time_ms': 0.622, 'num_steps_sampled': 3381600, 'grad_time_ms': 684.917, 'update_time_ms': 2.505, 'sample_time_ms': 33911.029}",2025-08-31_17-41-07,cda-server-4,34.02793884277344,16908,1756654867,10.157.146.4,False,91792.48054099083,1200
+2819,-605.2160576543978,2819,3382800,{},-668.5402796583767,3382800,0,91827.36083865166,-448.9591059009268,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3382800, 'default': {'kl': 0.013068069703876972, 'policy_loss': -0.15766407549381256, 'vf_loss': 265.0350646972656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9648244380950928, 'entropy': 2.997175693511963, 'cur_lr': 4.999999873689376e-05, 'total_loss': 264.89727783203125}, 'load_time_ms': 0.635, 'num_steps_sampled': 3382800, 'grad_time_ms': 686.747, 'update_time_ms': 2.445, 'sample_time_ms': 33891.724}",2025-08-31_17-41-42,cda-server-4,34.88029766082764,16914,1756654902,10.157.146.4,False,91827.36083865166,1200
+2820,-605.4000003353899,2820,3384000,{},-668.5402796583767,3384000,0,91863.13258814812,-448.9591059009268,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3384000, 'default': {'kl': 0.01090363971889019, 'policy_loss': -0.1396758258342743, 'vf_loss': 241.01866149902344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.973240315914154, 'entropy': 3.0384910106658936, 'cur_lr': 4.999999873689376e-05, 'total_loss': 240.89553833007812}, 'load_time_ms': 0.646, 'num_steps_sampled': 3384000, 'grad_time_ms': 688.615, 'update_time_ms': 2.423, 'sample_time_ms': 33959.543}",2025-08-31_17-42-18,cda-server-4,35.77174949645996,16920,1756654938,10.157.146.4,False,91863.13258814812,1200
+2821,-607.5622460463808,2821,3385200,{},-668.5402796583767,3385200,0,91897.84172177315,-448.9591059009268,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3385200, 'default': {'kl': 0.011196142993867397, 'policy_loss': -0.15542076528072357, 'vf_loss': 35.23411178588867, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9943861365318298, 'entropy': 3.219153642654419, 'cur_lr': 4.999999873689376e-05, 'total_loss': 35.09569549560547}, 'load_time_ms': 0.639, 'num_steps_sampled': 3385200, 'grad_time_ms': 694.482, 'update_time_ms': 2.417, 'sample_time_ms': 34084.085}",2025-08-31_17-42-52,cda-server-4,34.70913362503052,16926,1756654972,10.157.146.4,False,91897.84172177315,1200
+2822,-609.5610336919258,2822,3386400,{},-668.5402796583767,3386400,0,91931.90632414818,-473.05313748100735,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3386400, 'default': {'kl': 0.0077683161944150925, 'policy_loss': -0.11177036166191101, 'vf_loss': 243.79156494140625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9778635501861572, 'entropy': 3.030424118041992, 'cur_lr': 4.999999873689376e-05, 'total_loss': 243.69158935546875}, 'load_time_ms': 0.642, 'num_steps_sampled': 3386400, 'grad_time_ms': 713.633, 'update_time_ms': 2.393, 'sample_time_ms': 34008.378}",2025-08-31_17-43-26,cda-server-4,34.06460237503052,16932,1756655006,10.157.146.4,False,91931.90632414818,1200
+2823,-609.7010382378585,2823,3387600,{},-668.5402796583767,3387600,0,91966.59047555923,-473.05313748100735,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3387600, 'default': {'kl': 0.01148967444896698, 'policy_loss': -0.15184232592582703, 'vf_loss': 162.4016876220703, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9858481884002686, 'entropy': 3.0478038787841797, 'cur_lr': 4.999999873689376e-05, 'total_loss': 162.26731872558594}, 'load_time_ms': 0.667, 'num_steps_sampled': 3387600, 'grad_time_ms': 734.578, 'update_time_ms': 2.427, 'sample_time_ms': 34017.67}",2025-08-31_17-44-01,cda-server-4,34.68415141105652,16938,1756655041,10.157.146.4,False,91966.59047555923,1200
+2824,-610.380503891052,2824,3388800,{},-668.5402796583767,3388800,0,92001.35782337189,-473.05313748100735,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3388800, 'default': {'kl': 0.008433372713625431, 'policy_loss': -0.1288536936044693, 'vf_loss': 217.7254180908203, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9723767042160034, 'entropy': 3.036118507385254, 'cur_lr': 4.999999873689376e-05, 'total_loss': 217.609375}, 'load_time_ms': 0.663, 'num_steps_sampled': 3388800, 'grad_time_ms': 746.829, 'update_time_ms': 2.417, 'sample_time_ms': 33987.637}",2025-08-31_17-44-36,cda-server-4,34.76734781265259,16944,1756655076,10.157.146.4,False,92001.35782337189,1200
+2825,-610.5352124766716,2825,3390000,{},-645.9890004239546,3390000,0,92035.26351642609,-473.05313748100735,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3390000, 'default': {'kl': 0.010628025978803635, 'policy_loss': -0.13723134994506836, 'vf_loss': 133.66143798828125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9907723665237427, 'entropy': 3.076615571975708, 'cur_lr': 4.999999873689376e-05, 'total_loss': 133.54034423828125}, 'load_time_ms': 0.662, 'num_steps_sampled': 3390000, 'grad_time_ms': 743.88, 'update_time_ms': 2.42, 'sample_time_ms': 33974.791}",2025-08-31_17-45-10,cda-server-4,33.90569305419922,16950,1756655110,10.157.146.4,False,92035.26351642609,1200
+2826,-611.4488665403544,2826,3391200,{},-645.9890004239546,3391200,0,92069.68694972992,-522.0503088140603,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3391200, 'default': {'kl': 0.01134728267788887, 'policy_loss': -0.1516641229391098, 'vf_loss': 55.54039001464844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9925770163536072, 'entropy': 3.0745320320129395, 'cur_lr': 4.999999873689376e-05, 'total_loss': 55.40596008300781}, 'load_time_ms': 0.658, 'num_steps_sampled': 3391200, 'grad_time_ms': 720.889, 'update_time_ms': 2.291, 'sample_time_ms': 33893.823}",2025-08-31_17-45-44,cda-server-4,34.42343330383301,16956,1756655144,10.157.146.4,False,92069.68694972992,1200
+2827,-610.6588926186639,2827,3392400,{},-645.9890004239546,3392400,0,92104.04435443878,-522.0503088140603,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3392400, 'default': {'kl': 0.009689238853752613, 'policy_loss': -0.12259076535701752, 'vf_loss': 204.48806762695312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9790909886360168, 'entropy': 2.967925548553467, 'cur_lr': 4.999999873689376e-05, 'total_loss': 204.38018798828125}, 'load_time_ms': 0.662, 'num_steps_sampled': 3392400, 'grad_time_ms': 709.83, 'update_time_ms': 2.326, 'sample_time_ms': 33842.307}",2025-08-31_17-46-19,cda-server-4,34.357404708862305,16962,1756655179,10.157.146.4,False,92104.04435443878,1200
+2828,-610.3749424138281,2828,3393600,{},-645.7925556540165,3393600,0,92139.1875064373,-522.0503088140603,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3393600, 'default': {'kl': 0.00963309220969677, 'policy_loss': -0.13748317956924438, 'vf_loss': 328.18292236328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9627310633659363, 'entropy': 2.982842445373535, 'cur_lr': 4.999999873689376e-05, 'total_loss': 328.0600891113281}, 'load_time_ms': 0.641, 'num_steps_sampled': 3393600, 'grad_time_ms': 705.569, 'update_time_ms': 2.371, 'sample_time_ms': 33958.005}",2025-08-31_17-46-54,cda-server-4,35.1431519985199,16968,1756655214,10.157.146.4,False,92139.1875064373,1200
+2829,-610.2127651975079,2829,3394800,{},-645.7925556540165,3394800,0,92173.50872278214,-522.0503088140603,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3394800, 'default': {'kl': 0.01019640639424324, 'policy_loss': -0.12451961636543274, 'vf_loss': 226.4691925048828, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.985518217086792, 'entropy': 2.9614415168762207, 'cur_lr': 4.999999873689376e-05, 'total_loss': 226.36016845703125}, 'load_time_ms': 0.64, 'num_steps_sampled': 3394800, 'grad_time_ms': 707.886, 'update_time_ms': 2.401, 'sample_time_ms': 33899.79}",2025-08-31_17-47-28,cda-server-4,34.321216344833374,16974,1756655248,10.157.146.4,False,92173.50872278214,1200
+2830,-608.7384335568113,2830,3396000,{},-642.1519206216958,3396000,0,92208.62175226212,-522.0503088140603,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3396000, 'default': {'kl': 0.012560270726680756, 'policy_loss': -0.14094188809394836, 'vf_loss': 60.28664779663086, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9913321733474731, 'entropy': 3.083200216293335, 'cur_lr': 4.999999873689376e-05, 'total_loss': 60.16477966308594}, 'load_time_ms': 0.631, 'num_steps_sampled': 3396000, 'grad_time_ms': 704.948, 'update_time_ms': 2.507, 'sample_time_ms': 33836.759}",2025-08-31_17-48-03,cda-server-4,35.11302947998047,16980,1756655283,10.157.146.4,False,92208.62175226212,1200
+2831,-610.1724144064159,2831,3397200,{},-646.2711861409205,3397200,0,92243.22637367249,-522.0503088140603,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3397200, 'default': {'kl': 0.011815941892564297, 'policy_loss': -0.14687544107437134, 'vf_loss': 397.43377685546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9532291889190674, 'entropy': 3.2801852226257324, 'cur_lr': 4.999999873689376e-05, 'total_loss': 397.3049011230469}, 'load_time_ms': 0.634, 'num_steps_sampled': 3397200, 'grad_time_ms': 712.644, 'update_time_ms': 2.471, 'sample_time_ms': 33818.642}",2025-08-31_17-48-38,cda-server-4,34.60462141036987,16986,1756655318,10.157.146.4,False,92243.22637367249,1200
+2832,-611.0555253664044,2832,3398400,{},-680.5186219006805,3398400,0,92277.5877828598,-522.0503088140603,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3398400, 'default': {'kl': 0.012640721164643764, 'policy_loss': -0.1571045219898224, 'vf_loss': 548.2146606445312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9298900961875916, 'entropy': 3.422396421432495, 'cur_lr': 4.999999873689376e-05, 'total_loss': 548.0768432617188}, 'load_time_ms': 0.644, 'num_steps_sampled': 3398400, 'grad_time_ms': 712.499, 'update_time_ms': 2.323, 'sample_time_ms': 33848.641}",2025-08-31_17-49-12,cda-server-4,34.361409187316895,16992,1756655352,10.157.146.4,False,92277.5877828598,1200
+2833,-611.5982402618044,2833,3399600,{},-680.5186219006805,3399600,0,92311.57411885262,-522.0503088140603,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3399600, 'default': {'kl': 0.010911850258708, 'policy_loss': -0.13815569877624512, 'vf_loss': 82.43350219726562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9907233715057373, 'entropy': 2.9552276134490967, 'cur_lr': 4.999999873689376e-05, 'total_loss': 82.31192016601562}, 'load_time_ms': 0.638, 'num_steps_sampled': 3399600, 'grad_time_ms': 710.138, 'update_time_ms': 2.297, 'sample_time_ms': 33781.187}",2025-08-31_17-49-46,cda-server-4,33.98633599281311,16998,1756655386,10.157.146.4,False,92311.57411885262,1200
+2834,-611.3115327990142,2834,3400800,{},-680.5186219006805,3400800,0,92345.88382554054,-522.0503088140603,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3400800, 'default': {'kl': 0.011287761852145195, 'policy_loss': -0.1497052013874054, 'vf_loss': 78.95999145507812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9884884357452393, 'entropy': 3.092911720275879, 'cur_lr': 4.999999873689376e-05, 'total_loss': 78.82742309570312}, 'load_time_ms': 0.674, 'num_steps_sampled': 3400800, 'grad_time_ms': 702.927, 'update_time_ms': 2.286, 'sample_time_ms': 33742.664}",2025-08-31_17-50-21,cda-server-4,34.309706687927246,17004,1756655421,10.157.146.4,False,92345.88382554054,1200
+2835,-612.1159934942356,2835,3402000,{},-680.5186219006805,3402000,0,92380.76826000214,-550.1251467913913,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3402000, 'default': {'kl': 0.010722752660512924, 'policy_loss': -0.14509886503219604, 'vf_loss': 80.11434173583984, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9930906295776367, 'entropy': 3.0410542488098145, 'cur_lr': 4.999999873689376e-05, 'total_loss': 79.98552703857422}, 'load_time_ms': 0.676, 'num_steps_sampled': 3402000, 'grad_time_ms': 683.004, 'update_time_ms': 2.348, 'sample_time_ms': 33860.441}",2025-08-31_17-50-56,cda-server-4,34.88443446159363,17010,1756655456,10.157.146.4,False,92380.76826000214,1200
+2836,-612.1467340596699,2836,3403200,{},-680.5186219006805,3403200,0,92414.93431973457,-550.1251467913913,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3403200, 'default': {'kl': 0.011603234335780144, 'policy_loss': -0.14159747958183289, 'vf_loss': 121.99713897705078, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9844188690185547, 'entropy': 2.9589619636535645, 'cur_lr': 4.999999873689376e-05, 'total_loss': 121.8731689453125}, 'load_time_ms': 0.684, 'num_steps_sampled': 3403200, 'grad_time_ms': 712.61, 'update_time_ms': 2.358, 'sample_time_ms': 33805.098}",2025-08-31_17-51-30,cda-server-4,34.166059732437134,17016,1756655490,10.157.146.4,False,92414.93431973457,1200
+2837,-611.6278387911974,2837,3404400,{},-680.5186219006805,3404400,0,92449.26314306259,-525.8025463216225,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3404400, 'default': {'kl': 0.008976178243756294, 'policy_loss': -0.12662886083126068, 'vf_loss': 198.35015869140625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.982819139957428, 'entropy': 3.090378999710083, 'cur_lr': 4.999999873689376e-05, 'total_loss': 198.2371368408203}, 'load_time_ms': 0.677, 'num_steps_sampled': 3404400, 'grad_time_ms': 709.24, 'update_time_ms': 2.308, 'sample_time_ms': 33805.686}",2025-08-31_17-52-04,cda-server-4,34.32882332801819,17022,1756655524,10.157.146.4,False,92449.26314306259,1200
+2838,-610.5353563637784,2838,3405600,{},-680.5186219006805,3405600,0,92484.23486638069,-525.8025463216225,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3405600, 'default': {'kl': 0.011403449811041355, 'policy_loss': -0.14438173174858093, 'vf_loss': 247.306640625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9836485385894775, 'entropy': 2.9863452911376953, 'cur_lr': 4.999999873689376e-05, 'total_loss': 247.17958068847656}, 'load_time_ms': 0.677, 'num_steps_sampled': 3405600, 'grad_time_ms': 700.0, 'update_time_ms': 2.324, 'sample_time_ms': 33797.715}",2025-08-31_17-52-39,cda-server-4,34.971723318099976,17028,1756655559,10.157.146.4,False,92484.23486638069,1200
+2839,-609.929729339192,2839,3406800,{},-680.5186219006805,3406800,0,92518.69660496712,-525.8025463216225,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3406800, 'default': {'kl': 0.00983685813844204, 'policy_loss': -0.1382126808166504, 'vf_loss': 96.29623413085938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9899911880493164, 'entropy': 3.221372365951538, 'cur_lr': 4.999999873689376e-05, 'total_loss': 96.17296600341797}, 'load_time_ms': 0.669, 'num_steps_sampled': 3406800, 'grad_time_ms': 682.932, 'update_time_ms': 2.342, 'sample_time_ms': 33828.765}",2025-08-31_17-53-13,cda-server-4,34.46173858642578,17034,1756655593,10.157.146.4,False,92518.69660496712,1200
+2840,-610.3709153168162,2840,3408000,{},-680.5186219006805,3408000,0,92552.33602142334,-525.8025463216225,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3408000, 'default': {'kl': 0.01015436090528965, 'policy_loss': -0.1089886873960495, 'vf_loss': 308.51031494140625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9638065695762634, 'entropy': 3.0219287872314453, 'cur_lr': 4.999999873689376e-05, 'total_loss': 308.416748046875}, 'load_time_ms': 0.664, 'num_steps_sampled': 3408000, 'grad_time_ms': 657.388, 'update_time_ms': 2.278, 'sample_time_ms': 33706.962}",2025-08-31_17-53-47,cda-server-4,33.639416456222534,17040,1756655627,10.157.146.4,False,92552.33602142334,1200
+2841,-609.7245775483216,2841,3409200,{},-680.5186219006805,3409200,0,92587.90963625908,-525.8025463216225,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3409200, 'default': {'kl': 0.009911631233990192, 'policy_loss': -0.12987537682056427, 'vf_loss': 251.1807403564453, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9715694785118103, 'entropy': 2.948779344558716, 'cur_lr': 4.999999873689376e-05, 'total_loss': 251.06594848632812}, 'load_time_ms': 0.656, 'num_steps_sampled': 3409200, 'grad_time_ms': 640.258, 'update_time_ms': 2.33, 'sample_time_ms': 33820.947}",2025-08-31_17-54-23,cda-server-4,35.573614835739136,17046,1756655663,10.157.146.4,False,92587.90963625908,1200
+2842,-609.4478438492418,2842,3410400,{},-680.5186219006805,3410400,0,92622.28364753723,-525.8025463216225,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3410400, 'default': {'kl': 0.010772169567644596, 'policy_loss': -0.12788349390029907, 'vf_loss': 143.3133544921875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9900853037834167, 'entropy': 2.884082555770874, 'cur_lr': 4.999999873689376e-05, 'total_loss': 143.20184326171875}, 'load_time_ms': 0.648, 'num_steps_sampled': 3410400, 'grad_time_ms': 624.816, 'update_time_ms': 2.392, 'sample_time_ms': 33837.589}",2025-08-31_17-54-57,cda-server-4,34.374011278152466,17052,1756655697,10.157.146.4,False,92622.28364753723,1200
+2843,-609.4070378216546,2843,3411600,{},-680.5186219006805,3411600,0,92655.99997377396,-525.8025463216225,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3411600, 'default': {'kl': 0.01110643520951271, 'policy_loss': -0.14755547046661377, 'vf_loss': 132.37799072265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9885498881340027, 'entropy': 3.152857780456543, 'cur_lr': 4.999999873689376e-05, 'total_loss': 132.247314453125}, 'load_time_ms': 0.63, 'num_steps_sampled': 3411600, 'grad_time_ms': 614.36, 'update_time_ms': 2.4, 'sample_time_ms': 33821.114}",2025-08-31_17-55-31,cda-server-4,33.71632623672485,17058,1756655731,10.157.146.4,False,92655.99997377396,1200
+2844,-609.5879789347622,2844,3412800,{},-680.5186219006805,3412800,0,92690.10483646393,-525.8025463216225,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3412800, 'default': {'kl': 0.011680176481604576, 'policy_loss': -0.1468394547700882, 'vf_loss': 395.5042724609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9565101265907288, 'entropy': 3.215723991394043, 'cur_lr': 4.999999873689376e-05, 'total_loss': 395.3751525878906}, 'load_time_ms': 0.593, 'num_steps_sampled': 3412800, 'grad_time_ms': 605.668, 'update_time_ms': 2.441, 'sample_time_ms': 33809.413}",2025-08-31_17-56-05,cda-server-4,34.104862689971924,17064,1756655765,10.157.146.4,False,92690.10483646393,1200
+2845,-609.9017323991056,2845,3414000,{},-680.5186219006805,3414000,0,92724.90092539787,-525.8025463216225,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3414000, 'default': {'kl': 0.013160590082406998, 'policy_loss': -0.126485213637352, 'vf_loss': 49.89547348022461, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.993799090385437, 'entropy': 2.993499517440796, 'cur_lr': 4.999999873689376e-05, 'total_loss': 49.78897476196289}, 'load_time_ms': 0.594, 'num_steps_sampled': 3414000, 'grad_time_ms': 600.557, 'update_time_ms': 2.471, 'sample_time_ms': 33805.592}",2025-08-31_17-56-40,cda-server-4,34.7960889339447,17070,1756655800,10.157.146.4,False,92724.90092539787,1200
+2846,-610.4445459907635,2846,3415200,{},-680.5186219006805,3415200,0,92760.01246523857,-525.8025463216225,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3415200, 'default': {'kl': 0.008357701823115349, 'policy_loss': -0.11639910191297531, 'vf_loss': 56.22035217285156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9938080906867981, 'entropy': 2.867190361022949, 'cur_lr': 4.999999873689376e-05, 'total_loss': 56.116641998291016}, 'load_time_ms': 0.59, 'num_steps_sampled': 3415200, 'grad_time_ms': 568.335, 'update_time_ms': 2.472, 'sample_time_ms': 33932.394}",2025-08-31_17-57-15,cda-server-4,35.11153984069824,17076,1756655835,10.157.146.4,False,92760.01246523857,1200
+2847,-610.0041323975137,2847,3416400,{},-680.5186219006805,3416400,0,92793.55525946617,-525.8025463216225,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3416400, 'default': {'kl': 0.00995874498039484, 'policy_loss': -0.11893594264984131, 'vf_loss': 301.0430908203125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.96198970079422, 'entropy': 3.325329542160034, 'cur_lr': 4.999999873689376e-05, 'total_loss': 300.9393005371094}, 'load_time_ms': 0.6, 'num_steps_sampled': 3416400, 'grad_time_ms': 558.454, 'update_time_ms': 2.435, 'sample_time_ms': 33863.663}",2025-08-31_17-57-49,cda-server-4,33.5427942276001,17082,1756655869,10.157.146.4,False,92793.55525946617,1200
+2848,-609.7316855330979,2848,3417600,{},-680.5186219006805,3417600,0,92828.67184972763,-525.8025463216225,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3417600, 'default': {'kl': 0.013205152004957199, 'policy_loss': -0.15424832701683044, 'vf_loss': 392.8194580078125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9810028076171875, 'entropy': 3.0904767513275146, 'cur_lr': 4.999999873689376e-05, 'total_loss': 392.6852722167969}, 'load_time_ms': 0.614, 'num_steps_sampled': 3417600, 'grad_time_ms': 559.606, 'update_time_ms': 2.407, 'sample_time_ms': 33877.073}",2025-08-31_17-58-24,cda-server-4,35.11659026145935,17088,1756655904,10.157.146.4,False,92828.67184972763,1200
+2849,-608.8969490936468,2849,3418800,{},-678.0759359824194,3418800,0,92863.20195436478,-525.8025463216225,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3418800, 'default': {'kl': 0.01035197451710701, 'policy_loss': -0.13817547261714935, 'vf_loss': 95.90911865234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9883704781532288, 'entropy': 3.0459558963775635, 'cur_lr': 4.999999873689376e-05, 'total_loss': 95.78665924072266}, 'load_time_ms': 0.644, 'num_steps_sampled': 3418800, 'grad_time_ms': 559.313, 'update_time_ms': 2.382, 'sample_time_ms': 33884.239}",2025-08-31_17-58-58,cda-server-4,34.530104637145996,17094,1756655938,10.157.146.4,False,92863.20195436478,1200
+2850,-608.1071767990965,2850,3420000,{},-678.0759359824194,3420000,0,92897.1262011528,-525.8025463216225,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3420000, 'default': {'kl': 0.009661502204835415, 'policy_loss': -0.12753881514072418, 'vf_loss': 191.54400634765625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9715343117713928, 'entropy': 2.9699857234954834, 'cur_lr': 4.999999873689376e-05, 'total_loss': 191.43115234375}, 'load_time_ms': 0.656, 'num_steps_sampled': 3420000, 'grad_time_ms': 569.207, 'update_time_ms': 2.357, 'sample_time_ms': 33902.827}",2025-08-31_17-59-32,cda-server-4,33.9242467880249,17100,1756655972,10.157.146.4,False,92897.1262011528,1200
+2851,-608.9808236649807,2851,3421200,{},-806.0177866786424,3421200,0,92931.34849977493,-525.8025463216225,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3421200, 'default': {'kl': 0.009764154441654682, 'policy_loss': -0.11791907250881195, 'vf_loss': 1560.0302734375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8360562920570374, 'entropy': 3.34549617767334, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1559.9271240234375}, 'load_time_ms': 0.695, 'num_steps_sampled': 3421200, 'grad_time_ms': 574.73, 'update_time_ms': 2.329, 'sample_time_ms': 33762.127}",2025-08-31_18-00-06,cda-server-4,34.22229862213135,17106,1756656006,10.157.146.4,False,92931.34849977493,1200
+2852,-609.6068558319087,2852,3422400,{},-806.0177866786424,3422400,0,92965.8715326786,-525.8025463216225,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3422400, 'default': {'kl': 0.013068881817162037, 'policy_loss': -0.17013144493103027, 'vf_loss': 63.10588836669922, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9936497807502747, 'entropy': 3.169419050216675, 'cur_lr': 4.999999873689376e-05, 'total_loss': 62.95560836791992}, 'load_time_ms': 0.691, 'num_steps_sampled': 3422400, 'grad_time_ms': 574.02, 'update_time_ms': 2.398, 'sample_time_ms': 33777.695}",2025-08-31_18-00-41,cda-server-4,34.523032903671265,17112,1756656041,10.157.146.4,False,92965.8715326786,1200
+2853,-608.7875943888354,2853,3423600,{},-806.0177866786424,3423600,0,93000.86134409904,-525.8025463216225,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3423600, 'default': {'kl': 0.010072441771626472, 'policy_loss': -0.1400734782218933, 'vf_loss': 114.95555114746094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9831566214561462, 'entropy': 2.9703214168548584, 'cur_lr': 4.999999873689376e-05, 'total_loss': 114.83078002929688}, 'load_time_ms': 0.7, 'num_steps_sampled': 3423600, 'grad_time_ms': 576.271, 'update_time_ms': 2.404, 'sample_time_ms': 33902.666}",2025-08-31_18-01-16,cda-server-4,34.989811420440674,17118,1756656076,10.157.146.4,False,93000.86134409904,1200
+2854,-607.3836783504668,2854,3424800,{},-806.0177866786424,3424800,0,93034.83898377419,-465.4157761910161,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3424800, 'default': {'kl': 0.013866577297449112, 'policy_loss': -0.17602211236953735, 'vf_loss': 313.70404052734375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9728429317474365, 'entropy': 2.9395341873168945, 'cur_lr': 4.999999873689376e-05, 'total_loss': 313.549072265625}, 'load_time_ms': 0.704, 'num_steps_sampled': 3424800, 'grad_time_ms': 573.785, 'update_time_ms': 2.461, 'sample_time_ms': 33892.351}",2025-08-31_18-01-50,cda-server-4,33.97763967514038,17124,1756656110,10.157.146.4,False,93034.83898377419,1200
+2855,-606.9232866591118,2855,3426000,{},-806.0177866786424,3426000,0,93069.13761019707,-451.0489279493311,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3426000, 'default': {'kl': 0.013721317052841187, 'policy_loss': -0.14321346580982208, 'vf_loss': 314.9033203125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9773920774459839, 'entropy': 3.1701126098632812, 'cur_lr': 4.999999873689376e-05, 'total_loss': 314.78094482421875}, 'load_time_ms': 0.719, 'num_steps_sampled': 3426000, 'grad_time_ms': 601.57, 'update_time_ms': 2.344, 'sample_time_ms': 33814.905}",2025-08-31_18-02-24,cda-server-4,34.29862642288208,17130,1756656144,10.157.146.4,False,93069.13761019707,1200
+2856,-606.5190446853751,2856,3427200,{},-806.0177866786424,3427200,0,93103.7394156456,-451.0489279493311,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3427200, 'default': {'kl': 0.014251346699893475, 'policy_loss': -0.1713566780090332, 'vf_loss': 140.08831787109375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9915594458580017, 'entropy': 3.002206563949585, 'cur_lr': 4.999999873689376e-05, 'total_loss': 139.93858337402344}, 'load_time_ms': 0.715, 'num_steps_sampled': 3427200, 'grad_time_ms': 622.769, 'update_time_ms': 2.344, 'sample_time_ms': 33742.698}",2025-08-31_18-02-59,cda-server-4,34.601805448532104,17136,1756656179,10.157.146.4,False,93103.7394156456,1200
+2857,-609.0105680715662,2857,3428400,{},-806.0177866786424,3428400,0,93138.3629899025,-451.0489279493311,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3428400, 'default': {'kl': 0.011508545838296413, 'policy_loss': -0.15328724682331085, 'vf_loss': 538.531982421875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9556300640106201, 'entropy': 3.50921630859375, 'cur_lr': 4.999999873689376e-05, 'total_loss': 538.3961791992188}, 'load_time_ms': 0.719, 'num_steps_sampled': 3428400, 'grad_time_ms': 641.296, 'update_time_ms': 2.417, 'sample_time_ms': 33832.185}",2025-08-31_18-03-33,cda-server-4,34.62357425689697,17142,1756656213,10.157.146.4,False,93138.3629899025,1200
+2858,-609.4947335052414,2858,3429600,{},-806.0177866786424,3429600,0,93172.72569417953,-451.0489279493311,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3429600, 'default': {'kl': 0.010209666565060616, 'policy_loss': -0.14032156765460968, 'vf_loss': 355.9501953125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9700404405593872, 'entropy': 3.133467197418213, 'cur_lr': 4.999999873689376e-05, 'total_loss': 355.8254089355469}, 'load_time_ms': 0.711, 'num_steps_sampled': 3429600, 'grad_time_ms': 648.804, 'update_time_ms': 2.401, 'sample_time_ms': 33749.237}",2025-08-31_18-04-08,cda-server-4,34.362704277038574,17148,1756656248,10.157.146.4,False,93172.72569417953,1200
+2859,-609.7865790511111,2859,3430800,{},-806.0177866786424,3430800,0,93207.73027968407,-451.0489279493311,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3430800, 'default': {'kl': 0.010658388026058674, 'policy_loss': -0.13351206481456757, 'vf_loss': 113.69794464111328, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9882307052612305, 'entropy': 2.993819236755371, 'cur_lr': 4.999999873689376e-05, 'total_loss': 113.58061218261719}, 'load_time_ms': 0.679, 'num_steps_sampled': 3430800, 'grad_time_ms': 660.569, 'update_time_ms': 2.503, 'sample_time_ms': 33784.918}",2025-08-31_18-04-43,cda-server-4,35.00458550453186,17154,1756656283,10.157.146.4,False,93207.73027968407,1200
+2860,-609.4205197114779,2860,3432000,{},-806.0177866786424,3432000,0,93243.79860472679,-451.0489279493311,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3432000, 'default': {'kl': 0.010805179364979267, 'policy_loss': -0.13461241126060486, 'vf_loss': 166.54832458496094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9769799709320068, 'entropy': 2.9656388759613037, 'cur_lr': 4.999999873689376e-05, 'total_loss': 166.4301300048828}, 'load_time_ms': 0.676, 'num_steps_sampled': 3432000, 'grad_time_ms': 679.096, 'update_time_ms': 2.449, 'sample_time_ms': 33980.882}",2025-08-31_18-05-19,cda-server-4,36.06832504272461,17160,1756656319,10.157.146.4,False,93243.79860472679,1200
+2861,-609.3496224742441,2861,3433200,{},-806.0177866786424,3433200,0,93278.02219867706,-451.0489279493311,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3433200, 'default': {'kl': 0.010907072573900223, 'policy_loss': -0.12602829933166504, 'vf_loss': 99.9003677368164, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9904438853263855, 'entropy': 2.989940881729126, 'cur_lr': 4.999999873689376e-05, 'total_loss': 99.7909164428711}, 'load_time_ms': 0.68, 'num_steps_sampled': 3433200, 'grad_time_ms': 682.172, 'update_time_ms': 2.45, 'sample_time_ms': 33977.912}",2025-08-31_18-05-53,cda-server-4,34.223593950271606,17166,1756656353,10.157.146.4,False,93278.02219867706,1200
+2862,-609.2242258631652,2862,3434400,{},-806.0177866786424,3434400,0,93312.27444648743,-451.0489279493311,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3434400, 'default': {'kl': 0.010885793715715408, 'policy_loss': -0.1215381994843483, 'vf_loss': 137.37985229492188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.991425096988678, 'entropy': 3.0974221229553223, 'cur_lr': 4.999999873689376e-05, 'total_loss': 137.27484130859375}, 'load_time_ms': 0.685, 'num_steps_sampled': 3434400, 'grad_time_ms': 691.061, 'update_time_ms': 2.424, 'sample_time_ms': 33941.981}",2025-08-31_18-06-28,cda-server-4,34.25224781036377,17172,1756656388,10.157.146.4,False,93312.27444648743,1200
+2863,-609.3621527464511,2863,3435600,{},-806.0177866786424,3435600,0,93346.37769079208,-451.0489279493311,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3435600, 'default': {'kl': 0.011884909123182297, 'policy_loss': -0.1557842642068863, 'vf_loss': 311.4297790527344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9790440797805786, 'entropy': 3.1101808547973633, 'cur_lr': 4.999999873689376e-05, 'total_loss': 311.2920227050781}, 'load_time_ms': 0.688, 'num_steps_sampled': 3435600, 'grad_time_ms': 702.252, 'update_time_ms': 2.405, 'sample_time_ms': 33842.256}",2025-08-31_18-07-02,cda-server-4,34.10324430465698,17178,1756656422,10.157.146.4,False,93346.37769079208,1200
+2864,-607.5855639014877,2864,3436800,{},-806.0177866786424,3436800,0,93382.25582551956,-451.0489279493311,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3436800, 'default': {'kl': 0.01183389499783516, 'policy_loss': -0.1525663435459137, 'vf_loss': 131.1398162841797, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9845806956291199, 'entropy': 3.164801597595215, 'cur_lr': 4.999999873689376e-05, 'total_loss': 131.00521850585938}, 'load_time_ms': 0.702, 'num_steps_sampled': 3436800, 'grad_time_ms': 719.802, 'update_time_ms': 2.31, 'sample_time_ms': 34014.724}",2025-08-31_18-07-38,cda-server-4,35.87813472747803,17184,1756656458,10.157.146.4,False,93382.25582551956,1200
+2865,-607.938100432876,2865,3438000,{},-806.0177866786424,3438000,0,93416.06093502045,-451.0489279493311,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3438000, 'default': {'kl': 0.010659251362085342, 'policy_loss': -0.14155130088329315, 'vf_loss': 293.8737487792969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9570726752281189, 'entropy': 3.292146682739258, 'cur_lr': 4.999999873689376e-05, 'total_loss': 293.7483825683594}, 'load_time_ms': 0.685, 'num_steps_sampled': 3438000, 'grad_time_ms': 714.691, 'update_time_ms': 2.38, 'sample_time_ms': 33970.457}",2025-08-31_18-08-11,cda-server-4,33.80510950088501,17190,1756656491,10.157.146.4,False,93416.06093502045,1200
+2866,-606.7033275483404,2866,3439200,{},-806.0177866786424,3439200,0,93450.44300842285,-451.0489279493311,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3439200, 'default': {'kl': 0.010634253732860088, 'policy_loss': -0.1463603973388672, 'vf_loss': 255.6939239501953, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9707686901092529, 'entropy': 3.1851518154144287, 'cur_lr': 4.999999873689376e-05, 'total_loss': 255.563720703125}, 'load_time_ms': 0.683, 'num_steps_sampled': 3439200, 'grad_time_ms': 717.758, 'update_time_ms': 2.409, 'sample_time_ms': 33945.409}",2025-08-31_18-08-46,cda-server-4,34.382073402404785,17196,1756656526,10.157.146.4,False,93450.44300842285,1200
+2867,-607.4211147643753,2867,3440400,{},-806.0177866786424,3440400,0,93485.24060702324,-451.0489279493311,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3440400, 'default': {'kl': 0.011147667653858662, 'policy_loss': -0.13256369531154633, 'vf_loss': 343.9938659667969, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9654310941696167, 'entropy': 3.176724672317505, 'cur_lr': 4.999999873689376e-05, 'total_loss': 343.87823486328125}, 'load_time_ms': 0.667, 'num_steps_sampled': 3440400, 'grad_time_ms': 721.808, 'update_time_ms': 2.348, 'sample_time_ms': 33958.804}",2025-08-31_18-09-21,cda-server-4,34.79759860038757,17202,1756656561,10.157.146.4,False,93485.24060702324,1200
+2868,-606.2071251421398,2868,3441600,{},-787.8867338495685,3441600,0,93518.93572568893,-451.0489279493311,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3441600, 'default': {'kl': 0.009671138599514961, 'policy_loss': -0.11995697021484375, 'vf_loss': 99.13614654541016, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9873300194740295, 'entropy': 3.07926344871521, 'cur_lr': 4.999999873689376e-05, 'total_loss': 99.0308837890625}, 'load_time_ms': 0.659, 'num_steps_sampled': 3441600, 'grad_time_ms': 702.842, 'update_time_ms': 2.355, 'sample_time_ms': 33911.038}",2025-08-31_18-09-54,cda-server-4,33.69511866569519,17208,1756656594,10.157.146.4,False,93518.93572568893,1200
+2869,-605.7335749418576,2869,3442800,{},-787.8867338495685,3442800,0,93552.96792054176,-451.0489279493311,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3442800, 'default': {'kl': 0.012253575958311558, 'policy_loss': -0.13230815529823303, 'vf_loss': 265.5408935546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9688257575035095, 'entropy': 2.988009452819824, 'cur_lr': 4.999999873689376e-05, 'total_loss': 265.42718505859375}, 'load_time_ms': 0.653, 'num_steps_sampled': 3442800, 'grad_time_ms': 700.256, 'update_time_ms': 2.288, 'sample_time_ms': 33816.419}",2025-08-31_18-10-28,cda-server-4,34.03219485282898,17214,1756656628,10.157.146.4,False,93552.96792054176,1200
+2870,-605.9822328876163,2870,3444000,{},-787.8867338495685,3444000,0,93587.99677491188,-451.0489279493311,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3444000, 'default': {'kl': 0.010345923714339733, 'policy_loss': -0.12052330374717712, 'vf_loss': 332.40997314453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9519076943397522, 'entropy': 3.191655397415161, 'cur_lr': 4.999999873689376e-05, 'total_loss': 332.3051452636719}, 'load_time_ms': 0.65, 'num_steps_sampled': 3444000, 'grad_time_ms': 685.636, 'update_time_ms': 2.33, 'sample_time_ms': 33727.013}",2025-08-31_18-11-03,cda-server-4,35.02885437011719,17220,1756656663,10.157.146.4,False,93587.99677491188,1200
+2871,-607.1552280076672,2871,3445200,{},-787.8867338495685,3445200,0,93622.38974452019,-451.0489279493311,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3445200, 'default': {'kl': 0.008311502635478973, 'policy_loss': -0.10689956694841385, 'vf_loss': 336.9437255859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9416778087615967, 'entropy': 3.039041519165039, 'cur_lr': 4.999999873689376e-05, 'total_loss': 336.84942626953125}, 'load_time_ms': 0.634, 'num_steps_sampled': 3445200, 'grad_time_ms': 674.7, 'update_time_ms': 2.314, 'sample_time_ms': 33754.972}",2025-08-31_18-11-38,cda-server-4,34.392969608306885,17226,1756656698,10.157.146.4,False,93622.38974452019,1200
+2872,-609.3961521783427,2872,3446400,{},-787.8867338495685,3446400,0,93656.15567421913,-470.8388183492251,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3446400, 'default': {'kl': 0.00954317394644022, 'policy_loss': -0.13327650725841522, 'vf_loss': 103.85177612304688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9847210645675659, 'entropy': 3.054215431213379, 'cur_lr': 4.999999873689376e-05, 'total_loss': 103.73300170898438}, 'load_time_ms': 0.663, 'num_steps_sampled': 3446400, 'grad_time_ms': 663.03, 'update_time_ms': 2.246, 'sample_time_ms': 33718.031}",2025-08-31_18-12-12,cda-server-4,33.76592969894409,17232,1756656732,10.157.146.4,False,93656.15567421913,1200
+2873,-609.2517620896546,2873,3447600,{},-787.8867338495685,3447600,0,93690.2602148056,-470.8388183492251,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3447600, 'default': {'kl': 0.010790593922138214, 'policy_loss': -0.13026541471481323, 'vf_loss': 179.12454223632812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9800642728805542, 'entropy': 3.0356855392456055, 'cur_lr': 4.999999873689376e-05, 'total_loss': 179.0106658935547}, 'load_time_ms': 0.653, 'num_steps_sampled': 3447600, 'grad_time_ms': 660.134, 'update_time_ms': 2.229, 'sample_time_ms': 33721.093}",2025-08-31_18-12-46,cda-server-4,34.10454058647156,17238,1756656766,10.157.146.4,False,93690.2602148056,1200
+2874,-607.436576279821,2874,3448800,{},-657.105226754241,3448800,0,93725.60979175568,-470.8388183492251,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3448800, 'default': {'kl': 0.010888610035181046, 'policy_loss': -0.1505430042743683, 'vf_loss': 214.2458038330078, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9735243916511536, 'entropy': 3.171583652496338, 'cur_lr': 4.999999873689376e-05, 'total_loss': 214.11178588867188}, 'load_time_ms': 0.644, 'num_steps_sampled': 3448800, 'grad_time_ms': 658.518, 'update_time_ms': 2.309, 'sample_time_ms': 33669.844}",2025-08-31_18-13-21,cda-server-4,35.34957695007324,17244,1756656801,10.157.146.4,False,93725.60979175568,1200
+2875,-608.0712007798428,2875,3450000,{},-657.105226754241,3450000,0,93760.15267515182,-470.8388183492251,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3450000, 'default': {'kl': 0.011139016598463058, 'policy_loss': -0.1315002143383026, 'vf_loss': 162.5580291748047, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9813966751098633, 'entropy': 2.971452474594116, 'cur_lr': 4.999999873689376e-05, 'total_loss': 162.4434356689453}, 'load_time_ms': 0.649, 'num_steps_sampled': 3450000, 'grad_time_ms': 650.827, 'update_time_ms': 2.328, 'sample_time_ms': 33751.246}",2025-08-31_18-13-56,cda-server-4,34.54288339614868,17250,1756656836,10.157.146.4,False,93760.15267515182,1200
+2876,-607.0632652372765,2876,3451200,{},-657.105226754241,3451200,0,93794.1870765686,-470.8388183492251,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3451200, 'default': {'kl': 0.010439248755574226, 'policy_loss': -0.13248485326766968, 'vf_loss': 154.90780639648438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9932399392127991, 'entropy': 3.1827871799468994, 'cur_lr': 4.999999873689376e-05, 'total_loss': 154.79116821289062}, 'load_time_ms': 0.649, 'num_steps_sampled': 3451200, 'grad_time_ms': 632.363, 'update_time_ms': 2.348, 'sample_time_ms': 33734.989}",2025-08-31_18-14-30,cda-server-4,34.034401416778564,17256,1756656870,10.157.146.4,False,93794.1870765686,1200
+2877,-606.7312352753946,2877,3452400,{},-657.105226754241,3452400,0,93829.22775316238,-470.8388183492251,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3452400, 'default': {'kl': 0.010118182748556137, 'policy_loss': -0.14513935148715973, 'vf_loss': 125.55177307128906, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9861069917678833, 'entropy': 2.8733434677124023, 'cur_lr': 4.999999873689376e-05, 'total_loss': 125.4219970703125}, 'load_time_ms': 0.654, 'num_steps_sampled': 3452400, 'grad_time_ms': 624.018, 'update_time_ms': 2.358, 'sample_time_ms': 33767.662}",2025-08-31_18-15-05,cda-server-4,35.04067659378052,17262,1756656905,10.157.146.4,False,93829.22775316238,1200
+2878,-605.6395075125611,2878,3453600,{},-657.105226754241,3453600,0,93863.61488628387,-458.7591718268592,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3453600, 'default': {'kl': 0.0128854401409626, 'policy_loss': -0.15769760310649872, 'vf_loss': 119.402587890625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9898495078086853, 'entropy': 2.984358787536621, 'cur_lr': 4.999999873689376e-05, 'total_loss': 119.26447296142578}, 'load_time_ms': 0.678, 'num_steps_sampled': 3453600, 'grad_time_ms': 616.54, 'update_time_ms': 2.346, 'sample_time_ms': 33844.415}",2025-08-31_18-15-39,cda-server-4,34.38713312149048,17268,1756656939,10.157.146.4,False,93863.61488628387,1200
+2879,-604.0208417139569,2879,3454800,{},-657.105226754241,3454800,0,93897.59578418732,-458.7591718268592,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3454800, 'default': {'kl': 0.013104516081511974, 'policy_loss': -0.168016254901886, 'vf_loss': 250.5817108154297, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9687771201133728, 'entropy': 3.1525557041168213, 'cur_lr': 4.999999873689376e-05, 'total_loss': 250.43362426757812}, 'load_time_ms': 0.681, 'num_steps_sampled': 3454800, 'grad_time_ms': 600.915, 'update_time_ms': 2.341, 'sample_time_ms': 33854.894}",2025-08-31_18-16-13,cda-server-4,33.98089790344238,17274,1756656973,10.157.146.4,False,93897.59578418732,1200
+2880,-603.2180047941606,2880,3456000,{},-657.105226754241,3456000,0,93932.13582205772,-458.7591718268592,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3456000, 'default': {'kl': 0.0123654305934906, 'policy_loss': -0.15531128644943237, 'vf_loss': 211.664306640625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9737585783004761, 'entropy': 2.9285595417022705, 'cur_lr': 4.999999873689376e-05, 'total_loss': 211.5277557373047}, 'load_time_ms': 0.687, 'num_steps_sampled': 3456000, 'grad_time_ms': 604.569, 'update_time_ms': 2.358, 'sample_time_ms': 33802.395}",2025-08-31_18-16-48,cda-server-4,34.540037870407104,17280,1756657008,10.157.146.4,False,93932.13582205772,1200
+2881,-605.1390475081075,2881,3457200,{},-657.105226754241,3457200,0,93967.72592926025,-458.7591718268592,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3457200, 'default': {'kl': 0.01117786392569542, 'policy_loss': -0.13794101774692535, 'vf_loss': 345.361083984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9537872672080994, 'entropy': 3.095311403274536, 'cur_lr': 4.999999873689376e-05, 'total_loss': 345.2401428222656}, 'load_time_ms': 0.661, 'num_steps_sampled': 3457200, 'grad_time_ms': 634.563, 'update_time_ms': 2.395, 'sample_time_ms': 33891.745}",2025-08-31_18-17-23,cda-server-4,35.59010720252991,17286,1756657043,10.157.146.4,False,93967.72592926025,1200
+2882,-604.7197198086847,2882,3458400,{},-657.105226754241,3458400,0,94002.80506849289,-458.7591718268592,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3458400, 'default': {'kl': 0.0076147522777318954, 'policy_loss': -0.11924275010824203, 'vf_loss': 78.18136596679688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9876918792724609, 'entropy': 3.032470703125, 'cur_lr': 4.999999873689376e-05, 'total_loss': 78.07369995117188}, 'load_time_ms': 0.628, 'num_steps_sampled': 3458400, 'grad_time_ms': 651.066, 'update_time_ms': 2.635, 'sample_time_ms': 34006.356}",2025-08-31_18-17-58,cda-server-4,35.0791392326355,17292,1756657078,10.157.146.4,False,94002.80506849289,1200
+2883,-604.8339754467318,2883,3459600,{},-657.105226754241,3459600,0,94036.84730815887,-458.7591718268592,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3459600, 'default': {'kl': 0.010607960633933544, 'policy_loss': -0.14056628942489624, 'vf_loss': 419.68316650390625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9480860233306885, 'entropy': 2.967780351638794, 'cur_lr': 4.999999873689376e-05, 'total_loss': 419.5587158203125}, 'load_time_ms': 0.658, 'num_steps_sampled': 3459600, 'grad_time_ms': 654.449, 'update_time_ms': 2.623, 'sample_time_ms': 33996.664}",2025-08-31_18-18-32,cda-server-4,34.04223966598511,17298,1756657112,10.157.146.4,False,94036.84730815887,1200
+2884,-605.1834919510023,2884,3460800,{},-657.105226754241,3460800,0,94071.51465773582,-458.7591718268592,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3460800, 'default': {'kl': 0.012301649898290634, 'policy_loss': -0.14819420874118805, 'vf_loss': 270.89263916015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9663098454475403, 'entropy': 3.0593271255493164, 'cur_lr': 4.999999873689376e-05, 'total_loss': 270.76312255859375}, 'load_time_ms': 0.659, 'num_steps_sampled': 3460800, 'grad_time_ms': 655.738, 'update_time_ms': 2.598, 'sample_time_ms': 33927.239}",2025-08-31_18-19-07,cda-server-4,34.66734957695007,17304,1756657147,10.157.146.4,False,94071.51465773582,1200
+2885,-605.7645218757111,2885,3462000,{},-657.105226754241,3462000,0,94106.54640293121,-458.7591718268592,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3462000, 'default': {'kl': 0.010509653016924858, 'policy_loss': -0.14274154603481293, 'vf_loss': 223.85348510742188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9765974879264832, 'entropy': 3.2106447219848633, 'cur_lr': 4.999999873689376e-05, 'total_loss': 223.72669982910156}, 'load_time_ms': 0.653, 'num_steps_sampled': 3462000, 'grad_time_ms': 643.163, 'update_time_ms': 2.539, 'sample_time_ms': 33988.776}",2025-08-31_18-19-42,cda-server-4,35.031745195388794,17310,1756657182,10.157.146.4,False,94106.54640293121,1200
+2886,-604.1079496045063,2886,3463200,{},-657.105226754241,3463200,0,94140.95909905434,-458.7591718268592,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3463200, 'default': {'kl': 0.012155907228589058, 'policy_loss': -0.15017904341220856, 'vf_loss': 104.38417053222656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.985676646232605, 'entropy': 2.893028736114502, 'cur_lr': 4.999999873689376e-05, 'total_loss': 104.25245666503906}, 'load_time_ms': 0.656, 'num_steps_sampled': 3463200, 'grad_time_ms': 652.373, 'update_time_ms': 2.478, 'sample_time_ms': 34017.307}",2025-08-31_18-20-17,cda-server-4,34.41269612312317,17316,1756657217,10.157.146.4,False,94140.95909905434,1200
+2887,-604.4908404425646,2887,3464400,{},-657.105226754241,3464400,0,94174.39003705978,-458.7591718268592,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3464400, 'default': {'kl': 0.010374622419476509, 'policy_loss': -0.1477448046207428, 'vf_loss': 303.0611572265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9594587683677673, 'entropy': 3.1579856872558594, 'cur_lr': 4.999999873689376e-05, 'total_loss': 302.92913818359375}, 'load_time_ms': 0.654, 'num_steps_sampled': 3464400, 'grad_time_ms': 653.399, 'update_time_ms': 2.471, 'sample_time_ms': 33855.244}",2025-08-31_18-20-50,cda-server-4,33.43093800544739,17322,1756657250,10.157.146.4,False,94174.39003705978,1200
+2888,-605.3845467567677,2888,3465600,{},-657.105226754241,3465600,0,94209.45825338364,-458.7591718268592,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3465600, 'default': {'kl': 0.009709211066365242, 'policy_loss': -0.12915337085723877, 'vf_loss': 150.34182739257812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9784730076789856, 'entropy': 3.0068507194519043, 'cur_lr': 4.999999873689376e-05, 'total_loss': 150.2274169921875}, 'load_time_ms': 0.632, 'num_steps_sampled': 3465600, 'grad_time_ms': 674.844, 'update_time_ms': 2.505, 'sample_time_ms': 33901.859}",2025-08-31_18-21-25,cda-server-4,35.06821632385254,17328,1756657285,10.157.146.4,False,94209.45825338364,1200
+2889,-606.03729735946,2889,3466800,{},-790.0005271671558,3466800,0,94243.9344587326,-458.7591718268592,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3466800, 'default': {'kl': 0.012408727779984474, 'policy_loss': -0.14189080893993378, 'vf_loss': 1123.203369140625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8892943263053894, 'entropy': 3.5458874702453613, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1123.0804443359375}, 'load_time_ms': 0.626, 'num_steps_sampled': 3466800, 'grad_time_ms': 688.894, 'update_time_ms': 2.496, 'sample_time_ms': 33937.419}",2025-08-31_18-22-00,cda-server-4,34.476205348968506,17334,1756657320,10.157.146.4,False,94243.9344587326,1200
+2890,-605.6132948177933,2890,3468000,{},-790.0005271671558,3468000,0,94277.96442103386,-458.7591718268592,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3468000, 'default': {'kl': 0.009408452548086643, 'policy_loss': -0.1267198920249939, 'vf_loss': 163.61997985839844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9789366126060486, 'entropy': 2.863369941711426, 'cur_lr': 4.999999873689376e-05, 'total_loss': 163.50755310058594}, 'load_time_ms': 0.623, 'num_steps_sampled': 3468000, 'grad_time_ms': 697.201, 'update_time_ms': 2.472, 'sample_time_ms': 33878.13}",2025-08-31_18-22-34,cda-server-4,34.02996230125427,17340,1756657354,10.157.146.4,False,94277.96442103386,1200
+2891,-604.6172740318532,2891,3469200,{},-790.0005271671558,3469200,0,94312.49121975899,-458.7591718268592,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3469200, 'default': {'kl': 0.009341031312942505, 'policy_loss': -0.133976012468338, 'vf_loss': 138.3413543701172, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.983250617980957, 'entropy': 2.9319417476654053, 'cur_lr': 4.999999873689376e-05, 'total_loss': 138.2215576171875}, 'load_time_ms': 0.625, 'num_steps_sampled': 3469200, 'grad_time_ms': 683.233, 'update_time_ms': 2.427, 'sample_time_ms': 33786.175}",2025-08-31_18-23-08,cda-server-4,34.526798725128174,17346,1756657388,10.157.146.4,False,94312.49121975899,1200
+2892,-604.8479991615585,2892,3470400,{},-790.0005271671558,3470400,0,94346.99191331863,-458.7591718268592,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3470400, 'default': {'kl': 0.011159472167491913, 'policy_loss': -0.1146845668554306, 'vf_loss': 560.4281616210938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.92934250831604, 'entropy': 3.202650785446167, 'cur_lr': 4.999999873689376e-05, 'total_loss': 560.3303833007812}, 'load_time_ms': 0.633, 'num_steps_sampled': 3470400, 'grad_time_ms': 662.081, 'update_time_ms': 2.199, 'sample_time_ms': 33749.72}",2025-08-31_18-23-43,cda-server-4,34.500693559646606,17352,1756657423,10.157.146.4,False,94346.99191331863,1200
+2893,-605.4351513809193,2893,3471600,{},-790.0005271671558,3471600,0,94381.15060901642,-458.7591718268592,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3471600, 'default': {'kl': 0.009630587883293629, 'policy_loss': -0.11401471495628357, 'vf_loss': 391.33056640625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9534534811973572, 'entropy': 2.880305528640747, 'cur_lr': 4.999999873689376e-05, 'total_loss': 391.2312316894531}, 'load_time_ms': 0.601, 'num_steps_sampled': 3471600, 'grad_time_ms': 636.881, 'update_time_ms': 2.228, 'sample_time_ms': 33786.491}",2025-08-31_18-24-17,cda-server-4,34.158695697784424,17358,1756657457,10.157.146.4,False,94381.15060901642,1200
+2894,-607.9202503471398,2894,3472800,{},-790.0005271671558,3472800,0,94414.92738771439,-464.4002352186299,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3472800, 'default': {'kl': 0.009545300155878067, 'policy_loss': -0.126661017537117, 'vf_loss': 76.82540893554688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9883447289466858, 'entropy': 2.9205148220062256, 'cur_lr': 4.999999873689376e-05, 'total_loss': 76.71324920654297}, 'load_time_ms': 0.593, 'num_steps_sampled': 3472800, 'grad_time_ms': 621.868, 'update_time_ms': 2.19, 'sample_time_ms': 33712.377}",2025-08-31_18-24-51,cda-server-4,33.77677869796753,17364,1756657491,10.157.146.4,False,94414.92738771439,1200
+2895,-606.9096749891035,2895,3474000,{},-790.0005271671558,3474000,0,94449.7393181324,-464.4002352186299,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3474000, 'default': {'kl': 0.010805981233716011, 'policy_loss': -0.1360575556755066, 'vf_loss': 63.37748336791992, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9907929301261902, 'entropy': 3.0223400592803955, 'cur_lr': 4.999999873689376e-05, 'total_loss': 63.25783157348633}, 'load_time_ms': 0.598, 'num_steps_sampled': 3474000, 'grad_time_ms': 625.652, 'update_time_ms': 2.222, 'sample_time_ms': 33686.613}",2025-08-31_18-25-26,cda-server-4,34.811930418014526,17370,1756657526,10.157.146.4,False,94449.7393181324,1200
+2896,-608.4707660971098,2896,3475200,{},-790.0005271671558,3475200,0,94484.2082452774,-464.4002352186299,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3475200, 'default': {'kl': 0.010186690837144852, 'policy_loss': -0.12862636148929596, 'vf_loss': 95.79155731201172, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9863986968994141, 'entropy': 3.0834569931030273, 'cur_lr': 4.999999873689376e-05, 'total_loss': 95.67839050292969}, 'load_time_ms': 0.598, 'num_steps_sampled': 3475200, 'grad_time_ms': 608.779, 'update_time_ms': 2.307, 'sample_time_ms': 33709.15}",2025-08-31_18-26-00,cda-server-4,34.46892714500427,17376,1756657560,10.157.146.4,False,94484.2082452774,1200
+2897,-608.7439184595147,2897,3476400,{},-790.0005271671558,3476400,0,94518.67389702797,-464.4002352186299,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3476400, 'default': {'kl': 0.010485638864338398, 'policy_loss': -0.137865349650383, 'vf_loss': 91.018310546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9907759428024292, 'entropy': 3.084427833557129, 'cur_lr': 4.999999873689376e-05, 'total_loss': 90.89637756347656}, 'load_time_ms': 0.599, 'num_steps_sampled': 3476400, 'grad_time_ms': 607.647, 'update_time_ms': 2.349, 'sample_time_ms': 33813.726}",2025-08-31_18-26-35,cda-server-4,34.465651750564575,17382,1756657595,10.157.146.4,False,94518.67389702797,1200
+2898,-609.3827791490158,2898,3477600,{},-790.0005271671558,3477600,0,94552.46951127052,-464.4002352186299,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3477600, 'default': {'kl': 0.009817223995923996, 'policy_loss': -0.13408850133419037, 'vf_loss': 145.92857360839844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9825743436813354, 'entropy': 3.0775442123413086, 'cur_lr': 4.999999873689376e-05, 'total_loss': 145.8094024658203}, 'load_time_ms': 0.622, 'num_steps_sampled': 3477600, 'grad_time_ms': 598.844, 'update_time_ms': 2.428, 'sample_time_ms': 33695.199}",2025-08-31_18-27-08,cda-server-4,33.79561424255371,17388,1756657628,10.157.146.4,False,94552.46951127052,1200
+2899,-609.9756197809567,2899,3478800,{},-790.0005271671558,3478800,0,94586.56609344482,-464.4002352186299,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3478800, 'default': {'kl': 0.011127043515443802, 'policy_loss': -0.14452123641967773, 'vf_loss': 99.42552185058594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9884951114654541, 'entropy': 3.0002377033233643, 'cur_lr': 4.999999873689376e-05, 'total_loss': 99.29789733886719}, 'load_time_ms': 0.633, 'num_steps_sampled': 3478800, 'grad_time_ms': 585.06, 'update_time_ms': 2.446, 'sample_time_ms': 33670.775}",2025-08-31_18-27-42,cda-server-4,34.09658217430115,17394,1756657662,10.157.146.4,False,94586.56609344482,1200
+2900,-608.9482866406331,2900,3480000,{},-790.0005271671558,3480000,0,94621.56119465828,-464.4002352186299,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3480000, 'default': {'kl': 0.009920641779899597, 'policy_loss': -0.12357282638549805, 'vf_loss': 36.10336685180664, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9951444268226624, 'entropy': 3.0120675563812256, 'cur_lr': 4.999999873689376e-05, 'total_loss': 35.9948616027832}, 'load_time_ms': 0.631, 'num_steps_sampled': 3480000, 'grad_time_ms': 573.799, 'update_time_ms': 2.516, 'sample_time_ms': 33778.356}",2025-08-31_18-28-17,cda-server-4,34.9951012134552,17400,1756657697,10.157.146.4,False,94621.56119465828,1200
+2901,-611.2182409967935,2901,3481200,{},-810.4610582350292,3481200,0,94655.5631017685,-464.4002352186299,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3481200, 'default': {'kl': 0.008844335563480854, 'policy_loss': -0.1102636530995369, 'vf_loss': 354.5466613769531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9666595458984375, 'entropy': 3.2974798679351807, 'cur_lr': 4.999999873689376e-05, 'total_loss': 354.4498291015625}, 'load_time_ms': 0.642, 'num_steps_sampled': 3481200, 'grad_time_ms': 583.431, 'update_time_ms': 2.624, 'sample_time_ms': 33716.097}",2025-08-31_18-28-52,cda-server-4,34.00190711021423,17406,1756657732,10.157.146.4,False,94655.5631017685,1200
+2902,-611.4161773123411,2902,3482400,{},-810.4610582350292,3482400,0,94691.2102921009,-464.4002352186299,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3482400, 'default': {'kl': 0.010084441863000393, 'policy_loss': -0.11852778494358063, 'vf_loss': 87.3203125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9886181950569153, 'entropy': 2.987187623977661, 'cur_lr': 4.999999873689376e-05, 'total_loss': 87.21710205078125}, 'load_time_ms': 0.635, 'num_steps_sampled': 3482400, 'grad_time_ms': 597.978, 'update_time_ms': 2.604, 'sample_time_ms': 33816.136}",2025-08-31_18-29-27,cda-server-4,35.64719033241272,17412,1756657767,10.157.146.4,False,94691.2102921009,1200
+2903,-610.7324953186346,2903,3483600,{},-810.4610582350292,3483600,0,94727.0524456501,-444.041069252962,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3483600, 'default': {'kl': 0.009909682907164097, 'policy_loss': -0.12053114920854568, 'vf_loss': 1106.660400390625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.8777831792831421, 'entropy': 2.994075298309326, 'cur_lr': 4.999999873689376e-05, 'total_loss': 1106.554931640625}, 'load_time_ms': 0.634, 'num_steps_sampled': 3483600, 'grad_time_ms': 640.887, 'update_time_ms': 2.589, 'sample_time_ms': 33941.524}",2025-08-31_18-30-03,cda-server-4,35.842153549194336,17418,1756657803,10.157.146.4,False,94727.0524456501,1200
+2904,-610.6480824397557,2904,3484800,{},-810.4610582350292,3484800,0,94761.62088513374,-444.041069252962,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3484800, 'default': {'kl': 0.011458848603069782, 'policy_loss': -0.1345842480659485, 'vf_loss': 60.70630645751953, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.994806706905365, 'entropy': 2.906235456466675, 'cur_lr': 4.999999873689376e-05, 'total_loss': 60.58912658691406}, 'load_time_ms': 0.636, 'num_steps_sampled': 3484800, 'grad_time_ms': 652.44, 'update_time_ms': 2.839, 'sample_time_ms': 34008.945}",2025-08-31_18-30-38,cda-server-4,34.56843948364258,17424,1756657838,10.157.146.4,False,94761.62088513374,1200
+2905,-609.332725355374,2905,3486000,{},-810.4610582350292,3486000,0,94795.52918195724,-444.041069252962,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3486000, 'default': {'kl': 0.00955821294337511, 'policy_loss': -0.13609009981155396, 'vf_loss': 602.6250610351562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9543612003326416, 'entropy': 3.154416084289551, 'cur_lr': 4.999999873689376e-05, 'total_loss': 602.5035400390625}, 'load_time_ms': 0.628, 'num_steps_sampled': 3486000, 'grad_time_ms': 671.257, 'update_time_ms': 2.834, 'sample_time_ms': 33899.796}",2025-08-31_18-31-12,cda-server-4,33.90829682350159,17430,1756657872,10.157.146.4,False,94795.52918195724,1200
+2906,-609.3151643426961,2906,3487200,{},-810.4610582350292,3487200,0,94830.659273386,-444.041069252962,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3487200, 'default': {'kl': 0.0098145492374897, 'policy_loss': -0.13869354128837585, 'vf_loss': 172.36778259277344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.981282651424408, 'entropy': 2.8161802291870117, 'cur_lr': 4.999999873689376e-05, 'total_loss': 172.2440185546875}, 'load_time_ms': 0.629, 'num_steps_sampled': 3487200, 'grad_time_ms': 699.578, 'update_time_ms': 2.754, 'sample_time_ms': 33937.648}",2025-08-31_18-31-47,cda-server-4,35.130091428756714,17436,1756657907,10.157.146.4,False,94830.659273386,1200
+2907,-609.4101736795933,2907,3488400,{},-810.4610582350292,3488400,0,94865.34634900093,-444.041069252962,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3488400, 'default': {'kl': 0.010443083010613918, 'policy_loss': -0.155511274933815, 'vf_loss': 285.56512451171875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9742549061775208, 'entropy': 2.9529917240142822, 'cur_lr': 4.999999873689376e-05, 'total_loss': 285.4255065917969}, 'load_time_ms': 0.631, 'num_steps_sampled': 3488400, 'grad_time_ms': 694.609, 'update_time_ms': 2.704, 'sample_time_ms': 33964.819}",2025-08-31_18-32-21,cda-server-4,34.6870756149292,17442,1756657941,10.157.146.4,False,94865.34634900093,1200
+2908,-610.8885935629645,2908,3489600,{},-810.4610582350292,3489600,0,94898.95733833313,-444.041069252962,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3489600, 'default': {'kl': 0.009444167837500572, 'policy_loss': -0.122773677110672, 'vf_loss': 100.26295471191406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.985816240310669, 'entropy': 3.085933208465576, 'cur_lr': 4.999999873689376e-05, 'total_loss': 100.15452575683594}, 'load_time_ms': 0.609, 'num_steps_sampled': 3489600, 'grad_time_ms': 689.446, 'update_time_ms': 2.62, 'sample_time_ms': 33951.523}",2025-08-31_18-32-55,cda-server-4,33.6109893321991,17448,1756657975,10.157.146.4,False,94898.95733833313,1200
+2909,-611.352411103834,2909,3490800,{},-810.4610582350292,3490800,0,94934.0726056099,-444.041069252962,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3490800, 'default': {'kl': 0.010166989639401436, 'policy_loss': -0.1331828534603119, 'vf_loss': 307.87896728515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9743393659591675, 'entropy': 3.08735990524292, 'cur_lr': 4.999999873689376e-05, 'total_loss': 307.76123046875}, 'load_time_ms': 0.601, 'num_steps_sampled': 3490800, 'grad_time_ms': 706.642, 'update_time_ms': 2.604, 'sample_time_ms': 34036.393}",2025-08-31_18-33-30,cda-server-4,35.115267276763916,17454,1756658010,10.157.146.4,False,94934.0726056099,1200
+2910,-611.6035866706272,2910,3492000,{},-810.4610582350292,3492000,0,94968.40260982513,-444.041069252962,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3492000, 'default': {'kl': 0.0098697729408741, 'policy_loss': -0.1345692276954651, 'vf_loss': 113.45867919921875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.984775960445404, 'entropy': 3.0755984783172607, 'cur_lr': 4.999999873689376e-05, 'total_loss': 113.33909606933594}, 'load_time_ms': 0.632, 'num_steps_sampled': 3492000, 'grad_time_ms': 703.31, 'update_time_ms': 2.561, 'sample_time_ms': 33973.245}",2025-08-31_18-34-05,cda-server-4,34.33000421524048,17460,1756658045,10.157.146.4,False,94968.40260982513,1200
+2911,-612.9220670495898,2911,3493200,{},-810.4610582350292,3493200,0,95002.93793582916,-444.041069252962,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3493200, 'default': {'kl': 0.00966183003038168, 'policy_loss': -0.1224755197763443, 'vf_loss': 284.43011474609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9698538184165955, 'entropy': 3.14424467086792, 'cur_lr': 4.999999873689376e-05, 'total_loss': 284.32232666015625}, 'load_time_ms': 0.619, 'num_steps_sampled': 3493200, 'grad_time_ms': 687.117, 'update_time_ms': 2.46, 'sample_time_ms': 34042.915}",2025-08-31_18-34-39,cda-server-4,34.53532600402832,17466,1756658079,10.157.146.4,False,95002.93793582916,1200
+2912,-613.468340825868,2912,3494400,{},-810.4610582350292,3494400,0,95037.01771879196,-444.041069252962,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3494400, 'default': {'kl': 0.011213365010917187, 'policy_loss': -0.15305431187152863, 'vf_loss': 88.52129364013672, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9894751310348511, 'entropy': 3.1383275985717773, 'cur_lr': 4.999999873689376e-05, 'total_loss': 88.38528442382812}, 'load_time_ms': 0.633, 'num_steps_sampled': 3494400, 'grad_time_ms': 678.76, 'update_time_ms': 2.467, 'sample_time_ms': 33894.587}",2025-08-31_18-35-13,cda-server-4,34.07978296279907,17472,1756658113,10.157.146.4,False,95037.01771879196,1200
+2913,-614.3703104844734,2913,3495600,{},-810.4610582350292,3495600,0,95071.52705645561,-444.041069252962,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3495600, 'default': {'kl': 0.012551152147352695, 'policy_loss': -0.16004854440689087, 'vf_loss': 239.826416015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9738269448280334, 'entropy': 3.1551101207733154, 'cur_lr': 4.999999873689376e-05, 'total_loss': 239.68544006347656}, 'load_time_ms': 0.635, 'num_steps_sampled': 3495600, 'grad_time_ms': 650.095, 'update_time_ms': 2.476, 'sample_time_ms': 33790.069}",2025-08-31_18-35-48,cda-server-4,34.50933766365051,17478,1756658148,10.157.146.4,False,95071.52705645561,1200
+2914,-614.4921411825819,2914,3496800,{},-810.4610582350292,3496800,0,95106.45830798149,-444.041069252962,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3496800, 'default': {'kl': 0.011908084154129028, 'policy_loss': -0.15130235254764557, 'vf_loss': 284.84027099609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9696483612060547, 'entropy': 3.0265963077545166, 'cur_lr': 4.999999873689376e-05, 'total_loss': 284.7070617675781}, 'load_time_ms': 0.634, 'num_steps_sampled': 3496800, 'grad_time_ms': 632.747, 'update_time_ms': 2.298, 'sample_time_ms': 33843.948}",2025-08-31_18-36-23,cda-server-4,34.931251525878906,17484,1756658183,10.157.146.4,False,95106.45830798149,1200
+2915,-615.276108645501,2915,3498000,{},-810.4610582350292,3498000,0,95140.45836424828,-444.041069252962,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3498000, 'default': {'kl': 0.012384368106722832, 'policy_loss': -0.1622714400291443, 'vf_loss': 218.66513061523438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9774558544158936, 'entropy': 3.2360010147094727, 'cur_lr': 4.999999873689376e-05, 'total_loss': 218.52166748046875}, 'load_time_ms': 0.637, 'num_steps_sampled': 3498000, 'grad_time_ms': 603.739, 'update_time_ms': 2.272, 'sample_time_ms': 33882.116}",2025-08-31_18-36-57,cda-server-4,34.00005626678467,17490,1756658217,10.157.146.4,False,95140.45836424828,1200
+2916,-615.7387833403992,2916,3499200,{},-810.4610582350292,3499200,0,95175.5508685112,-444.041069252962,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3499200, 'default': {'kl': 0.009757050313055515, 'policy_loss': -0.09792932868003845, 'vf_loss': 242.03665161132812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.978007972240448, 'entropy': 3.0206735134124756, 'cur_lr': 4.999999873689376e-05, 'total_loss': 241.95355224609375}, 'load_time_ms': 0.63, 'num_steps_sampled': 3499200, 'grad_time_ms': 599.689, 'update_time_ms': 2.275, 'sample_time_ms': 33882.393}",2025-08-31_18-37-32,cda-server-4,35.092504262924194,17496,1756658252,10.157.146.4,False,95175.5508685112,1200
+2917,-615.4143050227294,2917,3500400,{},-810.4610582350292,3500400,0,95210.62788558006,-444.041069252962,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3500400, 'default': {'kl': 0.01105839665979147, 'policy_loss': -0.12982667982578278, 'vf_loss': 345.8952941894531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9634577631950378, 'entropy': 3.036868095397949, 'cur_lr': 4.999999873689376e-05, 'total_loss': 345.7822265625}, 'load_time_ms': 0.632, 'num_steps_sampled': 3500400, 'grad_time_ms': 600.074, 'update_time_ms': 2.348, 'sample_time_ms': 33920.989}",2025-08-31_18-38-07,cda-server-4,35.077017068862915,17502,1756658287,10.157.146.4,False,95210.62788558006,1200
+2918,-612.9196169768433,2918,3501600,{},-790.5277067088309,3501600,0,95245.20427823067,-444.041069252962,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3501600, 'default': {'kl': 0.010403948836028576, 'policy_loss': -0.13129590451717377, 'vf_loss': 157.4399871826172, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.982365608215332, 'entropy': 2.9430551528930664, 'cur_lr': 4.999999873689376e-05, 'total_loss': 157.32449340820312}, 'load_time_ms': 0.625, 'num_steps_sampled': 3501600, 'grad_time_ms': 600.773, 'update_time_ms': 2.362, 'sample_time_ms': 34016.854}",2025-08-31_18-38-42,cda-server-4,34.57639265060425,17508,1756658322,10.157.146.4,False,95245.20427823067,1200
+2919,-612.2269487536058,2919,3502800,{},-790.5277067088309,3502800,0,95279.49693870544,-444.041069252962,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3502800, 'default': {'kl': 0.011002243496477604, 'policy_loss': -0.15117433667182922, 'vf_loss': 192.7182159423828, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9841396808624268, 'entropy': 3.026700258255005, 'cur_lr': 4.999999873689376e-05, 'total_loss': 192.58375549316406}, 'load_time_ms': 0.627, 'num_steps_sampled': 3502800, 'grad_time_ms': 590.823, 'update_time_ms': 2.355, 'sample_time_ms': 33944.481}",2025-08-31_18-39-16,cda-server-4,34.29266047477722,17514,1756658356,10.157.146.4,False,95279.49693870544,1200
+2920,-613.891584613195,2920,3504000,{},-790.5277067088309,3504000,0,95313.64124774933,-485.41087291942415,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3504000, 'default': {'kl': 0.011071907356381416, 'policy_loss': -0.12985439598560333, 'vf_loss': 60.30918884277344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9948294162750244, 'entropy': 2.9855144023895264, 'cur_lr': 4.999999873689376e-05, 'total_loss': 60.19615173339844}, 'load_time_ms': 0.626, 'num_steps_sampled': 3504000, 'grad_time_ms': 598.698, 'update_time_ms': 2.343, 'sample_time_ms': 33918.096}",2025-08-31_18-39-50,cda-server-4,34.14430904388428,17520,1756658390,10.157.146.4,False,95313.64124774933,1200
+2921,-613.9520393475487,2921,3505200,{},-790.5277067088309,3505200,0,95348.36339449883,-485.41087291942415,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3505200, 'default': {'kl': 0.011723697185516357, 'policy_loss': -0.15438036620616913, 'vf_loss': 211.0606689453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.973353922367096, 'entropy': 3.015009880065918, 'cur_lr': 4.999999873689376e-05, 'total_loss': 210.92410278320312}, 'load_time_ms': 0.627, 'num_steps_sampled': 3505200, 'grad_time_ms': 604.633, 'update_time_ms': 2.458, 'sample_time_ms': 33930.703}",2025-08-31_18-40-25,cda-server-4,34.72214674949646,17526,1756658425,10.157.146.4,False,95348.36339449883,1200
+2922,-613.3045021704801,2922,3506400,{},-790.5277067088309,3506400,0,95382.51608753204,-485.41087291942415,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3506400, 'default': {'kl': 0.01077589113265276, 'policy_loss': -0.15253476798534393, 'vf_loss': 52.28150939941406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9929214119911194, 'entropy': 3.032487392425537, 'cur_lr': 4.999999873689376e-05, 'total_loss': 52.14533615112305}, 'load_time_ms': 0.615, 'num_steps_sampled': 3506400, 'grad_time_ms': 616.787, 'update_time_ms': 2.455, 'sample_time_ms': 33925.812}",2025-08-31_18-40-59,cda-server-4,34.152693033218384,17532,1756658459,10.157.146.4,False,95382.51608753204,1200
+2923,-614.6040458770225,2923,3507600,{},-790.5277067088309,3507600,0,95417.15713214874,-539.6786950580071,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3507600, 'default': {'kl': 0.008857144974172115, 'policy_loss': -0.10780730098485947, 'vf_loss': 315.7210998535156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9754359722137451, 'entropy': 2.9193661212921143, 'cur_lr': 4.999999873689376e-05, 'total_loss': 315.6267395019531}, 'load_time_ms': 0.646, 'num_steps_sampled': 3507600, 'grad_time_ms': 657.828, 'update_time_ms': 2.539, 'sample_time_ms': 33897.876}",2025-08-31_18-41-34,cda-server-4,34.64104461669922,17538,1756658494,10.157.146.4,False,95417.15713214874,1200
+2924,-614.1276221538656,2924,3508800,{},-790.5277067088309,3508800,0,95453.4426150322,-539.6786950580071,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3508800, 'default': {'kl': 0.010885813273489475, 'policy_loss': -0.11012666672468185, 'vf_loss': 213.89532470703125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9808197021484375, 'entropy': 2.8162076473236084, 'cur_lr': 4.999999873689376e-05, 'total_loss': 213.8017120361328}, 'load_time_ms': 0.643, 'num_steps_sampled': 3508800, 'grad_time_ms': 670.48, 'update_time_ms': 2.512, 'sample_time_ms': 34020.602}",2025-08-31_18-42-10,cda-server-4,36.28548288345337,17544,1756658530,10.157.146.4,False,95453.4426150322,1200
+2925,-612.6593004033404,2925,3510000,{},-790.5277067088309,3510000,0,95487.51394057274,-539.6786950580071,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3510000, 'default': {'kl': 0.01184283196926117, 'policy_loss': -0.14885935187339783, 'vf_loss': 153.16928100585938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.97861248254776, 'entropy': 2.905111074447632, 'cur_lr': 4.999999873689376e-05, 'total_loss': 153.0384063720703}, 'load_time_ms': 0.639, 'num_steps_sampled': 3510000, 'grad_time_ms': 677.818, 'update_time_ms': 2.551, 'sample_time_ms': 34020.39}",2025-08-31_18-42-44,cda-server-4,34.0713255405426,17550,1756658564,10.157.146.4,False,95487.51394057274,1200
+2926,-611.2749156363718,2926,3511200,{},-790.5277067088309,3511200,0,95521.01956248283,-539.6786950580071,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3511200, 'default': {'kl': 0.01134820468723774, 'policy_loss': -0.13432684540748596, 'vf_loss': 46.63468551635742, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.994619607925415, 'entropy': 2.887225389480591, 'cur_lr': 4.999999873689376e-05, 'total_loss': 46.5175895690918}, 'load_time_ms': 0.639, 'num_steps_sampled': 3511200, 'grad_time_ms': 667.466, 'update_time_ms': 2.585, 'sample_time_ms': 33872.045}",2025-08-31_18-43-18,cda-server-4,33.505621910095215,17556,1756658598,10.157.146.4,False,95521.01956248283,1200
+2927,-612.3378406528711,2927,3512400,{},-790.5277067088309,3512400,0,95555.86360883713,-520.5034840980849,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3512400, 'default': {'kl': 0.01104668527841568, 'policy_loss': -0.13515505194664001, 'vf_loss': 501.2981872558594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9536880850791931, 'entropy': 3.293201446533203, 'cur_lr': 4.999999873689376e-05, 'total_loss': 501.17974853515625}, 'load_time_ms': 0.635, 'num_steps_sampled': 3512400, 'grad_time_ms': 681.835, 'update_time_ms': 2.498, 'sample_time_ms': 33834.411}",2025-08-31_18-43-52,cda-server-4,34.84404635429382,17562,1756658632,10.157.146.4,False,95555.86360883713,1200
+2928,-611.027565092744,2928,3513600,{},-776.9724347359438,3513600,0,95591.14475822449,-520.5034840980849,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3513600, 'default': {'kl': 0.0098797045648098, 'policy_loss': -0.11186625063419342, 'vf_loss': 241.90017700195312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9721165895462036, 'entropy': 2.915057420730591, 'cur_lr': 4.999999873689376e-05, 'total_loss': 241.80332946777344}, 'load_time_ms': 0.641, 'num_steps_sampled': 3513600, 'grad_time_ms': 704.299, 'update_time_ms': 2.59, 'sample_time_ms': 33882.317}",2025-08-31_18-44-28,cda-server-4,35.28114938735962,17568,1756658668,10.157.146.4,False,95591.14475822449,1200
+2929,-609.9812013961656,2929,3514800,{},-776.9724347359438,3514800,0,95625.16911649704,-520.5034840980849,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3514800, 'default': {'kl': 0.011830084957182407, 'policy_loss': -0.14391790330410004, 'vf_loss': 131.06483459472656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9868994951248169, 'entropy': 2.944973945617676, 'cur_lr': 4.999999873689376e-05, 'total_loss': 130.93887329101562}, 'load_time_ms': 0.645, 'num_steps_sampled': 3514800, 'grad_time_ms': 716.444, 'update_time_ms': 2.709, 'sample_time_ms': 33843.317}",2025-08-31_18-45-02,cda-server-4,34.02435827255249,17574,1756658702,10.157.146.4,False,95625.16911649704,1200
+2930,-609.4047318110881,2930,3516000,{},-776.9724347359438,3516000,0,95659.28741145134,-520.5034840980849,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3516000, 'default': {'kl': 0.011921526864171028, 'policy_loss': -0.1486380696296692, 'vf_loss': 42.585365295410156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9965317845344543, 'entropy': 3.0383987426757812, 'cur_lr': 4.999999873689376e-05, 'total_loss': 42.454830169677734}, 'load_time_ms': 0.625, 'num_steps_sampled': 3516000, 'grad_time_ms': 707.351, 'update_time_ms': 2.688, 'sample_time_ms': 33849.874}",2025-08-31_18-45-36,cda-server-4,34.11829495429993,17580,1756658736,10.157.146.4,False,95659.28741145134,1200
+2931,-609.2190480649282,2931,3517200,{},-776.9724347359438,3517200,0,95693.60810399055,-520.5034840980849,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3517200, 'default': {'kl': 0.009986290708184242, 'policy_loss': -0.12227329611778259, 'vf_loss': 39.45524978637695, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9953283667564392, 'entropy': 2.862128257751465, 'cur_lr': 4.999999873689376e-05, 'total_loss': 39.34814453125}, 'load_time_ms': 0.632, 'num_steps_sampled': 3517200, 'grad_time_ms': 695.905, 'update_time_ms': 2.579, 'sample_time_ms': 33821.294}",2025-08-31_18-46-10,cda-server-4,34.32069253921509,17586,1756658770,10.157.146.4,False,95693.60810399055,1200
+2932,-609.0251152735772,2932,3518400,{},-776.9724347359438,3518400,0,95728.21762180328,-520.5034840980849,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3518400, 'default': {'kl': 0.010457353666424751, 'policy_loss': -0.1346665471792221, 'vf_loss': 42.850379943847656, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9948244094848633, 'entropy': 2.958815097808838, 'cur_lr': 4.999999873689376e-05, 'total_loss': 42.73159408569336}, 'load_time_ms': 0.663, 'num_steps_sampled': 3518400, 'grad_time_ms': 692.562, 'update_time_ms': 2.585, 'sample_time_ms': 33870.257}",2025-08-31_18-46-45,cda-server-4,34.60951781272888,17592,1756658805,10.157.146.4,False,95728.21762180328,1200
+2933,-607.9330684795169,2933,3519600,{},-776.9724347359438,3519600,0,95761.96188259125,-520.5034840980849,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3519600, 'default': {'kl': 0.012654716148972511, 'policy_loss': -0.12372001260519028, 'vf_loss': 255.495361328125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9777737855911255, 'entropy': 2.8264575004577637, 'cur_lr': 4.999999873689376e-05, 'total_loss': 255.390869140625}, 'load_time_ms': 0.657, 'num_steps_sampled': 3519600, 'grad_time_ms': 658.898, 'update_time_ms': 2.497, 'sample_time_ms': 33814.314}",2025-08-31_18-47-19,cda-server-4,33.74426078796387,17598,1756658839,10.157.146.4,False,95761.96188259125,1200
+2934,-608.2654171187222,2934,3520800,{},-776.9724347359438,3520800,0,95796.71897387505,-520.5034840980849,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3520800, 'default': {'kl': 0.01064381469041109, 'policy_loss': -0.14583207666873932, 'vf_loss': 79.99174499511719, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9915135502815247, 'entropy': 2.9544906616210938, 'cur_lr': 4.999999873689376e-05, 'total_loss': 79.86207580566406}, 'load_time_ms': 0.668, 'num_steps_sampled': 3520800, 'grad_time_ms': 666.583, 'update_time_ms': 2.504, 'sample_time_ms': 33653.828}",2025-08-31_18-47-53,cda-server-4,34.75709128379822,17604,1756658873,10.157.146.4,False,95796.71897387505,1200
+2935,-608.9504773012034,2935,3522000,{},-776.9724347359438,3522000,0,95831.41526293755,-520.5034840980849,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3522000, 'default': {'kl': 0.009201680310070515, 'policy_loss': -0.12485391646623611, 'vf_loss': 76.66055297851562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9877617955207825, 'entropy': 3.0282340049743652, 'cur_lr': 4.999999873689376e-05, 'total_loss': 76.54966735839844}, 'load_time_ms': 0.671, 'num_steps_sampled': 3522000, 'grad_time_ms': 672.6, 'update_time_ms': 2.492, 'sample_time_ms': 33710.218}",2025-08-31_18-48-28,cda-server-4,34.6962890625,17610,1756658908,10.157.146.4,False,95831.41526293755,1200
+2936,-610.9892939659699,2936,3523200,{},-784.3512044774034,3523200,0,95865.90434122086,-520.5034840980849,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3523200, 'default': {'kl': 0.014755482785403728, 'policy_loss': -0.1651138961315155, 'vf_loss': 605.0375366210938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9610593318939209, 'entropy': 3.1475343704223633, 'cur_lr': 4.999999873689376e-05, 'total_loss': 604.894775390625}, 'load_time_ms': 0.678, 'num_steps_sampled': 3523200, 'grad_time_ms': 674.289, 'update_time_ms': 2.457, 'sample_time_ms': 33806.862}",2025-08-31_18-49-03,cda-server-4,34.48907828330994,17616,1756658943,10.157.146.4,False,95865.90434122086,1200
+2937,-610.3915691326448,2937,3524400,{},-784.3512044774034,3524400,0,95899.82847738266,-520.5034840980849,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3524400, 'default': {'kl': 0.013799067586660385, 'policy_loss': -0.1449614018201828, 'vf_loss': 296.1860046386719, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9694250822067261, 'entropy': 2.8369529247283936, 'cur_lr': 4.999999873689376e-05, 'total_loss': 296.06201171875}, 'load_time_ms': 0.683, 'num_steps_sampled': 3524400, 'grad_time_ms': 656.365, 'update_time_ms': 2.513, 'sample_time_ms': 33732.777}",2025-08-31_18-49-37,cda-server-4,33.9241361618042,17622,1756658977,10.157.146.4,False,95899.82847738266,1200
+2938,-610.1847449602985,2938,3525600,{},-784.3512044774034,3525600,0,95934.5307776928,-520.5034840980849,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3525600, 'default': {'kl': 0.010538153350353241, 'policy_loss': -0.1329934000968933, 'vf_loss': 41.13402557373047, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9942032694816589, 'entropy': 2.8463988304138184, 'cur_lr': 4.999999873689376e-05, 'total_loss': 41.01703643798828}, 'load_time_ms': 0.678, 'num_steps_sampled': 3525600, 'grad_time_ms': 638.71, 'update_time_ms': 2.396, 'sample_time_ms': 33692.682}",2025-08-31_18-50-11,cda-server-4,34.70230031013489,17628,1756659011,10.157.146.4,False,95934.5307776928,1200
+2939,-610.7048078400626,2939,3526800,{},-784.3512044774034,3526800,0,95969.31637310982,-520.5034840980849,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3526800, 'default': {'kl': 0.008071155287325382, 'policy_loss': -0.12438558042049408, 'vf_loss': 124.5865478515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9881535768508911, 'entropy': 2.888679265975952, 'cur_lr': 4.999999873689376e-05, 'total_loss': 124.47441864013672}, 'load_time_ms': 0.677, 'num_steps_sampled': 3526800, 'grad_time_ms': 628.782, 'update_time_ms': 2.298, 'sample_time_ms': 33778.781}",2025-08-31_18-50-46,cda-server-4,34.785595417022705,17634,1756659046,10.157.146.4,False,95969.31637310982,1200
+2940,-610.1552565076975,2940,3528000,{},-784.3512044774034,3528000,0,96003.03369235992,-520.5034840980849,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3528000, 'default': {'kl': 0.009144780226051807, 'policy_loss': -0.12241419404745102, 'vf_loss': 50.08475112915039, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9922627210617065, 'entropy': 2.9812514781951904, 'cur_lr': 4.999999873689376e-05, 'total_loss': 49.97622299194336}, 'load_time_ms': 0.67, 'num_steps_sampled': 3528000, 'grad_time_ms': 628.921, 'update_time_ms': 2.314, 'sample_time_ms': 33738.548}",2025-08-31_18-51-20,cda-server-4,33.71731925010681,17640,1756659080,10.157.146.4,False,96003.03369235992,1200
+2941,-610.1382187800405,2941,3529200,{},-784.3512044774034,3529200,0,96037.18250346184,-520.5034840980849,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3529200, 'default': {'kl': 0.012373197823762894, 'policy_loss': -0.16520391404628754, 'vf_loss': 17.27336883544922, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9975347518920898, 'entropy': 2.9370951652526855, 'cur_lr': 4.999999873689376e-05, 'total_loss': 17.1269588470459}, 'load_time_ms': 0.703, 'num_steps_sampled': 3529200, 'grad_time_ms': 628.55, 'update_time_ms': 2.319, 'sample_time_ms': 33721.638}",2025-08-31_18-51-54,cda-server-4,34.14881110191345,17646,1756659114,10.157.146.4,False,96037.18250346184,1200
+2942,-611.002529182569,2942,3530400,{},-784.3512044774034,3530400,0,96071.85996937752,-520.5034840980849,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3530400, 'default': {'kl': 0.011689450591802597, 'policy_loss': -0.14062997698783875, 'vf_loss': 236.9876251220703, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.975871741771698, 'entropy': 2.9466607570648193, 'cur_lr': 4.999999873689376e-05, 'total_loss': 236.86477661132812}, 'load_time_ms': 0.674, 'num_steps_sampled': 3530400, 'grad_time_ms': 631.432, 'update_time_ms': 2.37, 'sample_time_ms': 33725.611}",2025-08-31_18-52-29,cda-server-4,34.67746591567993,17652,1756659149,10.157.146.4,False,96071.85996937752,1200
+2943,-610.8261917817777,2943,3531600,{},-784.3512044774034,3531600,0,96106.66278290749,-525.8353815511038,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3531600, 'default': {'kl': 0.011349032633006573, 'policy_loss': -0.13331246376037598, 'vf_loss': 614.7518920898438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9345494508743286, 'entropy': 3.1053342819213867, 'cur_lr': 4.999999873689376e-05, 'total_loss': 614.6358032226562}, 'load_time_ms': 0.685, 'num_steps_sampled': 3531600, 'grad_time_ms': 634.381, 'update_time_ms': 2.379, 'sample_time_ms': 33828.549}",2025-08-31_18-53-03,cda-server-4,34.80281352996826,17658,1756659183,10.157.146.4,False,96106.66278290749,1200
+2944,-610.2896910759224,2944,3532800,{},-784.3512044774034,3532800,0,96140.92048573494,-525.8353815511038,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3532800, 'default': {'kl': 0.010890880599617958, 'policy_loss': -0.1127605065703392, 'vf_loss': 296.9185485839844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9695122241973877, 'entropy': 2.9348607063293457, 'cur_lr': 4.999999873689376e-05, 'total_loss': 296.822265625}, 'load_time_ms': 0.689, 'num_steps_sampled': 3532800, 'grad_time_ms': 668.024, 'update_time_ms': 2.388, 'sample_time_ms': 33744.903}",2025-08-31_18-53-38,cda-server-4,34.25770282745361,17664,1756659218,10.157.146.4,False,96140.92048573494,1200
+2945,-610.5237470755187,2945,3534000,{},-784.3512044774034,3534000,0,96177.21218967438,-518.4406063865612,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3534000, 'default': {'kl': 0.011128359474241734, 'policy_loss': -0.12433324754238129, 'vf_loss': 110.55494689941406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9862039089202881, 'entropy': 2.8795766830444336, 'cur_lr': 4.999999873689376e-05, 'total_loss': 110.447509765625}, 'load_time_ms': 0.693, 'num_steps_sampled': 3534000, 'grad_time_ms': 669.644, 'update_time_ms': 2.429, 'sample_time_ms': 33902.889}",2025-08-31_18-54-14,cda-server-4,36.291703939437866,17670,1756659254,10.157.146.4,False,96177.21218967438,1200
+2946,-610.146942301498,2946,3535200,{},-784.3512044774034,3535200,0,96211.67705106735,-518.4406063865612,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3535200, 'default': {'kl': 0.011585192754864693, 'policy_loss': -0.14352576434612274, 'vf_loss': 115.76905822753906, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9856104254722595, 'entropy': 2.9675278663635254, 'cur_lr': 4.999999873689376e-05, 'total_loss': 115.64311981201172}, 'load_time_ms': 0.694, 'num_steps_sampled': 3535200, 'grad_time_ms': 676.497, 'update_time_ms': 2.383, 'sample_time_ms': 33893.72}",2025-08-31_18-54-49,cda-server-4,34.46486139297485,17676,1756659289,10.157.146.4,False,96211.67705106735,1200
+2947,-609.7079700747094,2947,3536400,{},-784.3512044774034,3536400,0,96245.1971476078,-518.4406063865612,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3536400, 'default': {'kl': 0.011594796553254128, 'policy_loss': -0.1451711654663086, 'vf_loss': 180.5288543701172, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9816038608551025, 'entropy': 2.9419562816619873, 'cur_lr': 4.999999873689376e-05, 'total_loss': 180.4012908935547}, 'load_time_ms': 0.696, 'num_steps_sampled': 3536400, 'grad_time_ms': 669.755, 'update_time_ms': 2.328, 'sample_time_ms': 33860.088}",2025-08-31_18-55-22,cda-server-4,33.52009654045105,17682,1756659322,10.157.146.4,False,96245.1971476078,1200
+2948,-608.9451129303148,2948,3537600,{},-784.3512044774034,3537600,0,96278.7592511177,-518.4406063865612,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3537600, 'default': {'kl': 0.01128390897065401, 'policy_loss': -0.152684286236763, 'vf_loss': 99.88545989990234, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9919658303260803, 'entropy': 2.9352686405181885, 'cur_lr': 4.999999873689376e-05, 'total_loss': 99.74990844726562}, 'load_time_ms': 0.7, 'num_steps_sampled': 3537600, 'grad_time_ms': 657.381, 'update_time_ms': 2.362, 'sample_time_ms': 33758.453}",2025-08-31_18-55-56,cda-server-4,33.562103509902954,17688,1756659356,10.157.146.4,False,96278.7592511177,1200
+2949,-609.1319019566594,2949,3538800,{},-784.3512044774034,3538800,0,96313.46407365799,-518.4406063865612,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3538800, 'default': {'kl': 0.013567070476710796, 'policy_loss': -0.1517765372991562, 'vf_loss': 334.58795166015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9750199913978577, 'entropy': 2.745345115661621, 'cur_lr': 4.999999873689376e-05, 'total_loss': 334.4568176269531}, 'load_time_ms': 0.699, 'num_steps_sampled': 3538800, 'grad_time_ms': 655.011, 'update_time_ms': 2.379, 'sample_time_ms': 33752.724}",2025-08-31_18-56-30,cda-server-4,34.7048225402832,17694,1756659390,10.157.146.4,False,96313.46407365799,1200
+2950,-609.0178845766403,2950,3540000,{},-784.3512044774034,3540000,0,96349.10789108276,-518.4406063865612,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3540000, 'default': {'kl': 0.010502465069293976, 'policy_loss': -0.11558875441551208, 'vf_loss': 132.10984802246094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9859662652015686, 'entropy': 2.8934850692749023, 'cur_lr': 4.999999873689376e-05, 'total_loss': 132.0102081298828}, 'load_time_ms': 0.706, 'num_steps_sampled': 3540000, 'grad_time_ms': 671.495, 'update_time_ms': 2.366, 'sample_time_ms': 33928.933}",2025-08-31_18-57-06,cda-server-4,35.64381742477417,17700,1756659426,10.157.146.4,False,96349.10789108276,1200
+2951,-608.3623846497068,2951,3541200,{},-784.3512044774034,3541200,0,96383.13868832588,-518.4406063865612,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3541200, 'default': {'kl': 0.010961702093482018, 'policy_loss': -0.1298539638519287, 'vf_loss': 266.7249755859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9749630689620972, 'entropy': 2.756566286087036, 'cur_lr': 4.999999873689376e-05, 'total_loss': 266.6117858886719}, 'load_time_ms': 0.665, 'num_steps_sampled': 3541200, 'grad_time_ms': 674.235, 'update_time_ms': 2.357, 'sample_time_ms': 33914.543}",2025-08-31_18-57-40,cda-server-4,34.030797243118286,17706,1756659460,10.157.146.4,False,96383.13868832588,1200
+2952,-608.1291332844914,2952,3542400,{},-784.3512044774034,3542400,0,96417.37395572662,-518.4406063865612,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3542400, 'default': {'kl': 0.009526832029223442, 'policy_loss': -0.13091666996479034, 'vf_loss': 316.0787353515625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9598268866539001, 'entropy': 2.8963186740875244, 'cur_lr': 4.999999873689376e-05, 'total_loss': 315.9622497558594}, 'load_time_ms': 0.661, 'num_steps_sampled': 3542400, 'grad_time_ms': 657.713, 'update_time_ms': 2.301, 'sample_time_ms': 33886.772}",2025-08-31_18-58-14,cda-server-4,34.23526740074158,17712,1756659494,10.157.146.4,False,96417.37395572662,1200
+2953,-605.9131610619228,2953,3543600,{},-650.91484748318,3543600,0,96451.9866039753,-518.4406063865612,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3543600, 'default': {'kl': 0.01030387356877327, 'policy_loss': -0.12879304587841034, 'vf_loss': 359.7904968261719, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9551042914390564, 'entropy': 2.8642354011535645, 'cur_lr': 4.999999873689376e-05, 'total_loss': 359.6773681640625}, 'load_time_ms': 0.622, 'num_steps_sampled': 3543600, 'grad_time_ms': 633.86, 'update_time_ms': 2.325, 'sample_time_ms': 33891.643}",2025-08-31_18-58-49,cda-server-4,34.612648248672485,17718,1756659529,10.157.146.4,False,96451.9866039753,1200
+2954,-605.69094102499,2954,3544800,{},-650.91484748318,3544800,0,96486.78665590286,-518.4406063865612,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3544800, 'default': {'kl': 0.011820941232144833, 'policy_loss': -0.14689309895038605, 'vf_loss': 160.81613159179688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9852218627929688, 'entropy': 3.0747015476226807, 'cur_lr': 4.999999873689376e-05, 'total_loss': 160.68719482421875}, 'load_time_ms': 0.643, 'num_steps_sampled': 3544800, 'grad_time_ms': 582.071, 'update_time_ms': 2.29, 'sample_time_ms': 33997.697}",2025-08-31_18-59-24,cda-server-4,34.80005192756653,17724,1756659564,10.157.146.4,False,96486.78665590286,1200
+2955,-606.1764864429093,2955,3546000,{},-650.91484748318,3546000,0,96520.48847007751,-518.4406063865612,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3546000, 'default': {'kl': 0.011719867587089539, 'policy_loss': -0.16262690722942352, 'vf_loss': 167.1334991455078, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9835860133171082, 'entropy': 3.061293840408325, 'cur_lr': 4.999999873689376e-05, 'total_loss': 166.9886932373047}, 'load_time_ms': 0.646, 'num_steps_sampled': 3546000, 'grad_time_ms': 580.657, 'update_time_ms': 2.262, 'sample_time_ms': 33740.091}",2025-08-31_18-59-58,cda-server-4,33.7018141746521,17730,1756659598,10.157.146.4,False,96520.48847007751,1200
+2956,-605.6333946950488,2956,3547200,{},-650.91484748318,3547200,0,96554.91354584694,-518.4406063865612,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3547200, 'default': {'kl': 0.011110300198197365, 'policy_loss': -0.14975695312023163, 'vf_loss': 271.0414123535156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9647220969200134, 'entropy': 2.9752516746520996, 'cur_lr': 4.999999873689376e-05, 'total_loss': 270.9085388183594}, 'load_time_ms': 0.636, 'num_steps_sampled': 3547200, 'grad_time_ms': 574.473, 'update_time_ms': 2.35, 'sample_time_ms': 33742.204}",2025-08-31_19-00-32,cda-server-4,34.42507576942444,17736,1756659632,10.157.146.4,False,96554.91354584694,1200
+2957,-606.1231260929725,2957,3548400,{},-650.91484748318,3548400,0,96589.50769853592,-518.4406063865612,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3548400, 'default': {'kl': 0.009791340678930283, 'policy_loss': -0.1448826938867569, 'vf_loss': 53.79665756225586, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9921287894248962, 'entropy': 2.990468740463257, 'cur_lr': 4.999999873689376e-05, 'total_loss': 53.666648864746094}, 'load_time_ms': 0.639, 'num_steps_sampled': 3548400, 'grad_time_ms': 579.383, 'update_time_ms': 2.386, 'sample_time_ms': 33844.627}",2025-08-31_19-01-07,cda-server-4,34.5941526889801,17742,1756659667,10.157.146.4,False,96589.50769853592,1200
+2958,-606.1000438042126,2958,3549600,{},-650.91484748318,3549600,0,96623.18504691124,-518.4406063865612,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3549600, 'default': {'kl': 0.011031397618353367, 'policy_loss': -0.15141922235488892, 'vf_loss': 185.7244873046875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9777196049690247, 'entropy': 3.008659601211548, 'cur_lr': 4.999999873689376e-05, 'total_loss': 185.58982849121094}, 'load_time_ms': 0.634, 'num_steps_sampled': 3549600, 'grad_time_ms': 590.39, 'update_time_ms': 2.355, 'sample_time_ms': 33845.125}",2025-08-31_19-01-40,cda-server-4,33.677348375320435,17748,1756659700,10.157.146.4,False,96623.18504691124,1200
+2959,-605.3987370799782,2959,3550800,{},-641.1555189616273,3550800,0,96657.82564163208,-518.4406063865612,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3550800, 'default': {'kl': 0.010275267995893955, 'policy_loss': -0.1409631371498108, 'vf_loss': 79.21849060058594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9894126057624817, 'entropy': 2.8874621391296387, 'cur_lr': 4.999999873689376e-05, 'total_loss': 79.09313201904297}, 'load_time_ms': 0.665, 'num_steps_sampled': 3550800, 'grad_time_ms': 596.321, 'update_time_ms': 2.327, 'sample_time_ms': 33832.743}",2025-08-31_19-02-15,cda-server-4,34.640594720840454,17754,1756659735,10.157.146.4,False,96657.82564163208,1200
+2960,-604.8745389409992,2960,3552000,{},-641.1555189616273,3552000,0,96692.67354345322,-518.4406063865612,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3552000, 'default': {'kl': 0.010006610304117203, 'policy_loss': -0.13666339218616486, 'vf_loss': 85.11082458496094, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9962884187698364, 'entropy': 2.823190212249756, 'cur_lr': 4.999999873689376e-05, 'total_loss': 84.98936462402344}, 'load_time_ms': 0.653, 'num_steps_sampled': 3552000, 'grad_time_ms': 594.276, 'update_time_ms': 2.336, 'sample_time_ms': 33755.177}",2025-08-31_19-02-50,cda-server-4,34.847901821136475,17760,1756659770,10.157.146.4,False,96692.67354345322,1200
+2961,-606.3583174948858,2961,3553200,{},-641.1555189616273,3553200,0,96727.82529520988,-550.0761756087633,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3553200, 'default': {'kl': 0.01058149803429842, 'policy_loss': -0.13691288232803345, 'vf_loss': 123.41008758544922, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.988606333732605, 'entropy': 2.8786051273345947, 'cur_lr': 4.999999873689376e-05, 'total_loss': 123.28925323486328}, 'load_time_ms': 0.656, 'num_steps_sampled': 3553200, 'grad_time_ms': 596.602, 'update_time_ms': 2.348, 'sample_time_ms': 33864.861}",2025-08-31_19-03-25,cda-server-4,35.15175175666809,17766,1756659805,10.157.146.4,False,96727.82529520988,1200
+2962,-605.911025967733,2962,3554400,{},-641.1555189616273,3554400,0,96761.623285532,-550.0761756087633,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3554400, 'default': {'kl': 0.010331181809306145, 'policy_loss': -0.13706541061401367, 'vf_loss': 96.81649780273438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9884200692176819, 'entropy': 2.8650810718536377, 'cur_lr': 4.999999873689376e-05, 'total_loss': 96.69511413574219}, 'load_time_ms': 0.66, 'num_steps_sampled': 3554400, 'grad_time_ms': 617.361, 'update_time_ms': 2.368, 'sample_time_ms': 33800.424}",2025-08-31_19-03-59,cda-server-4,33.79799032211304,17772,1756659839,10.157.146.4,False,96761.623285532,1200
+2963,-606.5415187862054,2963,3555600,{},-643.9242741690454,3555600,0,96795.64555883408,-550.0761756087633,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3555600, 'default': {'kl': 0.011153224855661392, 'policy_loss': -0.15982957184314728, 'vf_loss': 615.3065185546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9279441833496094, 'entropy': 3.143176794052124, 'cur_lr': 4.999999873689376e-05, 'total_loss': 615.1636352539062}, 'load_time_ms': 0.66, 'num_steps_sampled': 3555600, 'grad_time_ms': 615.109, 'update_time_ms': 2.296, 'sample_time_ms': 33743.67}",2025-08-31_19-04-33,cda-server-4,34.02227330207825,17778,1756659873,10.157.146.4,False,96795.64555883408,1200
+2964,-606.7411956108878,2964,3556800,{},-643.9242741690454,3556800,0,96830.63551449776,-550.0761756087633,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3556800, 'default': {'kl': 0.011713538318872452, 'policy_loss': -0.13430282473564148, 'vf_loss': 56.14682388305664, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9930874705314636, 'entropy': 2.8846065998077393, 'cur_lr': 4.999999873689376e-05, 'total_loss': 56.030311584472656}, 'load_time_ms': 0.659, 'num_steps_sampled': 3556800, 'grad_time_ms': 618.13, 'update_time_ms': 2.309, 'sample_time_ms': 33759.463}",2025-08-31_19-05-08,cda-server-4,34.98995566368103,17784,1756659908,10.157.146.4,False,96830.63551449776,1200
+2965,-607.0954979164945,2965,3558000,{},-643.9242741690454,3558000,0,96864.54536628723,-550.0761756087633,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3558000, 'default': {'kl': 0.01260101143270731, 'policy_loss': -0.1617763489484787, 'vf_loss': 283.3540954589844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9706589579582214, 'entropy': 3.0121757984161377, 'cur_lr': 4.999999873689376e-05, 'total_loss': 283.2114562988281}, 'load_time_ms': 0.66, 'num_steps_sampled': 3558000, 'grad_time_ms': 616.818, 'update_time_ms': 2.275, 'sample_time_ms': 33781.629}",2025-08-31_19-05-42,cda-server-4,33.90985178947449,17790,1756659942,10.157.146.4,False,96864.54536628723,1200
+2966,-606.2182900058922,2966,3559200,{},-643.9242741690454,3559200,0,96898.70989871025,-550.0761756087633,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3559200, 'default': {'kl': 0.013753719627857208, 'policy_loss': -0.15675218403339386, 'vf_loss': 75.9393310546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9919617176055908, 'entropy': 2.7934303283691406, 'cur_lr': 4.999999873689376e-05, 'total_loss': 75.803466796875}, 'load_time_ms': 0.67, 'num_steps_sampled': 3559200, 'grad_time_ms': 616.682, 'update_time_ms': 2.27, 'sample_time_ms': 33755.662}",2025-08-31_19-06-16,cda-server-4,34.16453242301941,17796,1756659976,10.157.146.4,False,96898.70989871025,1200
+2967,-606.226948061179,2967,3560400,{},-643.9242741690454,3560400,0,96934.31492114067,-552.1399962783659,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3560400, 'default': {'kl': 0.010669663548469543, 'policy_loss': -0.1324777454137802, 'vf_loss': 56.36172866821289, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9922587275505066, 'entropy': 2.875234603881836, 'cur_lr': 4.999999873689376e-05, 'total_loss': 56.245452880859375}, 'load_time_ms': 0.705, 'num_steps_sampled': 3560400, 'grad_time_ms': 633.744, 'update_time_ms': 2.227, 'sample_time_ms': 33839.694}",2025-08-31_19-06-52,cda-server-4,35.60502243041992,17802,1756660012,10.157.146.4,False,96934.31492114067,1200
+2968,-604.8064847677014,2968,3561600,{},-643.9242741690454,3561600,0,96968.65168380737,-512.6668609655324,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3561600, 'default': {'kl': 0.0100961709395051, 'policy_loss': -0.12715251743793488, 'vf_loss': 183.09474182128906, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9843463897705078, 'entropy': 2.684067964553833, 'cur_lr': 4.999999873689376e-05, 'total_loss': 182.98291015625}, 'load_time_ms': 0.719, 'num_steps_sampled': 3561600, 'grad_time_ms': 638.661, 'update_time_ms': 2.393, 'sample_time_ms': 33900.644}",2025-08-31_19-07-26,cda-server-4,34.33676266670227,17808,1756660046,10.157.146.4,False,96968.65168380737,1200
+2969,-605.8160190818488,2969,3562800,{},-643.9242741690454,3562800,0,97002.58091378212,-512.6668609655324,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3562800, 'default': {'kl': 0.01084211003035307, 'policy_loss': -0.13738931715488434, 'vf_loss': 214.7025146484375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9734532833099365, 'entropy': 2.9420413970947266, 'cur_lr': 4.999999873689376e-05, 'total_loss': 214.58157348632812}, 'load_time_ms': 0.699, 'num_steps_sampled': 3562800, 'grad_time_ms': 631.194, 'update_time_ms': 2.342, 'sample_time_ms': 33837.099}",2025-08-31_19-08-00,cda-server-4,33.929229974746704,17814,1756660080,10.157.146.4,False,97002.58091378212,1200
+2970,-606.5698660672524,2970,3564000,{},-643.9242741690454,3564000,0,97036.64599251747,-512.6668609655324,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3564000, 'default': {'kl': 0.010847666300833225, 'policy_loss': -0.13985925912857056, 'vf_loss': 44.030250549316406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9951967597007751, 'entropy': 2.891742706298828, 'cur_lr': 4.999999873689376e-05, 'total_loss': 43.90686798095703}, 'load_time_ms': 0.703, 'num_steps_sampled': 3564000, 'grad_time_ms': 628.707, 'update_time_ms': 2.354, 'sample_time_ms': 33761.274}",2025-08-31_19-08-34,cda-server-4,34.06507873535156,17820,1756660114,10.157.146.4,False,97036.64599251747,1200
+2971,-606.1400640687095,2971,3565200,{},-643.9242741690454,3565200,0,97071.5295112133,-512.6668609655324,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3565200, 'default': {'kl': 0.010861335322260857, 'policy_loss': -0.13192223012447357, 'vf_loss': 102.59060668945312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9874469041824341, 'entropy': 2.99532151222229, 'cur_lr': 4.999999873689376e-05, 'total_loss': 102.47516632080078}, 'load_time_ms': 0.703, 'num_steps_sampled': 3565200, 'grad_time_ms': 627.048, 'update_time_ms': 2.412, 'sample_time_ms': 33736.111}",2025-08-31_19-09-09,cda-server-4,34.8835186958313,17826,1756660149,10.157.146.4,False,97071.5295112133,1200
+2972,-606.2556014586552,2972,3566400,{},-643.9242741690454,3566400,0,97106.02942323685,-512.6668609655324,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3566400, 'default': {'kl': 0.010030929930508137, 'policy_loss': -0.149879589676857, 'vf_loss': 153.11550903320312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9824886322021484, 'entropy': 2.88586688041687, 'cur_lr': 4.999999873689376e-05, 'total_loss': 152.98086547851562}, 'load_time_ms': 0.704, 'num_steps_sampled': 3566400, 'grad_time_ms': 622.706, 'update_time_ms': 2.448, 'sample_time_ms': 33810.622}",2025-08-31_19-09-43,cda-server-4,34.49991202354431,17832,1756660183,10.157.146.4,False,97106.02942323685,1200
+2973,-606.2426247745158,2973,3567600,{},-643.9242741690454,3567600,0,97140.49162006378,-512.6668609655324,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3567600, 'default': {'kl': 0.01021700818091631, 'policy_loss': -0.12542085349559784, 'vf_loss': 69.92664337158203, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9915071129798889, 'entropy': 2.997919797897339, 'cur_lr': 4.999999873689376e-05, 'total_loss': 69.81674194335938}, 'load_time_ms': 0.702, 'num_steps_sampled': 3567600, 'grad_time_ms': 644.964, 'update_time_ms': 2.479, 'sample_time_ms': 33832.338}",2025-08-31_19-10-18,cda-server-4,34.462196826934814,17838,1756660218,10.157.146.4,False,97140.49162006378,1200
+2974,-606.038139360769,2974,3568800,{},-643.9242741690454,3568800,0,97175.6242120266,-512.6668609655324,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3568800, 'default': {'kl': 0.01193598099052906, 'policy_loss': -0.1498650461435318, 'vf_loss': 155.67181396484375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9793313145637512, 'entropy': 3.1134285926818848, 'cur_lr': 4.999999873689376e-05, 'total_loss': 155.54010009765625}, 'load_time_ms': 0.674, 'num_steps_sampled': 3568800, 'grad_time_ms': 648.575, 'update_time_ms': 2.461, 'sample_time_ms': 33843.209}",2025-08-31_19-10-53,cda-server-4,35.13259196281433,17844,1756660253,10.157.146.4,False,97175.6242120266,1200
+2975,-606.9569743769811,2975,3570000,{},-643.9242741690454,3570000,0,97209.87717318535,-512.6668609655324,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3570000, 'default': {'kl': 0.01163919921964407, 'policy_loss': -0.14785930514335632, 'vf_loss': 51.50580978393555, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.993152916431427, 'entropy': 3.0885531902313232, 'cur_lr': 4.999999873689376e-05, 'total_loss': 51.37562942504883}, 'load_time_ms': 0.674, 'num_steps_sampled': 3570000, 'grad_time_ms': 650.294, 'update_time_ms': 2.466, 'sample_time_ms': 33875.834}",2025-08-31_19-11-27,cda-server-4,34.25296115875244,17850,1756660287,10.157.146.4,False,97209.87717318535,1200
+2976,-607.2159488053097,2976,3571200,{},-643.9242741690454,3571200,0,97243.36643362045,-512.6668609655324,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3571200, 'default': {'kl': 0.010670140385627747, 'policy_loss': -0.12675940990447998, 'vf_loss': 75.05669403076172, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9937992095947266, 'entropy': 2.930802345275879, 'cur_lr': 4.999999873689376e-05, 'total_loss': 74.9461441040039}, 'load_time_ms': 0.675, 'num_steps_sampled': 3571200, 'grad_time_ms': 639.194, 'update_time_ms': 2.453, 'sample_time_ms': 33819.489}",2025-08-31_19-12-01,cda-server-4,33.48926043510437,17856,1756660321,10.157.146.4,False,97243.36643362045,1200
+2977,-607.528308916537,2977,3572400,{},-643.9242741690454,3572400,0,97277.96496248245,-512.6668609655324,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3572400, 'default': {'kl': 0.010559487156569958, 'policy_loss': -0.12477263063192368, 'vf_loss': 313.9486389160156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9751518964767456, 'entropy': 2.9184086322784424, 'cur_lr': 4.999999873689376e-05, 'total_loss': 313.8399353027344}, 'load_time_ms': 0.634, 'num_steps_sampled': 3572400, 'grad_time_ms': 622.173, 'update_time_ms': 2.458, 'sample_time_ms': 33735.813}",2025-08-31_19-12-35,cda-server-4,34.59852886199951,17862,1756660355,10.157.146.4,False,97277.96496248245,1200
+2978,-605.9366661009338,2978,3573600,{},-643.9242741690454,3573600,0,97312.56112027168,-469.87402080504955,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3573600, 'default': {'kl': 0.01334121823310852, 'policy_loss': -0.15703058242797852, 'vf_loss': 133.61061096191406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9874710440635681, 'entropy': 2.881408452987671, 'cur_lr': 4.999999873689376e-05, 'total_loss': 133.4738311767578}, 'load_time_ms': 0.62, 'num_steps_sampled': 3573600, 'grad_time_ms': 632.929, 'update_time_ms': 2.314, 'sample_time_ms': 33751.039}",2025-08-31_19-13-10,cda-server-4,34.59615778923035,17868,1756660390,10.157.146.4,False,97312.56112027168,1200
+2979,-605.4078622939963,2979,3574800,{},-643.9242741690454,3574800,0,97347.08708000183,-469.87402080504955,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3574800, 'default': {'kl': 0.008641179651021957, 'policy_loss': -0.12387894093990326, 'vf_loss': 113.01651000976562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9829422831535339, 'entropy': 2.9550158977508545, 'cur_lr': 4.999999873689376e-05, 'total_loss': 112.90576934814453}, 'load_time_ms': 0.606, 'num_steps_sampled': 3574800, 'grad_time_ms': 644.038, 'update_time_ms': 2.375, 'sample_time_ms': 33799.572}",2025-08-31_19-13-45,cda-server-4,34.525959730148315,17874,1756660425,10.157.146.4,False,97347.08708000183,1200
+2980,-604.8636184251109,2980,3576000,{},-631.9520119081493,3576000,0,97380.81552481651,-469.87402080504955,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3576000, 'default': {'kl': 0.012256979010999203, 'policy_loss': -0.14026567339897156, 'vf_loss': 47.64595413208008, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9958599805831909, 'entropy': 2.8185646533966064, 'cur_lr': 4.999999873689376e-05, 'total_loss': 47.52430725097656}, 'load_time_ms': 0.605, 'num_steps_sampled': 3576000, 'grad_time_ms': 640.612, 'update_time_ms': 2.351, 'sample_time_ms': 33769.334}",2025-08-31_19-14-18,cda-server-4,33.72844481468201,17880,1756660458,10.157.146.4,False,97380.81552481651,1200
+2981,-604.9562932023664,2981,3577200,{},-631.9520119081493,3577200,0,97415.9529299736,-469.87402080504955,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3577200, 'default': {'kl': 0.008712800219655037, 'policy_loss': -0.1128087043762207, 'vf_loss': 96.0828628540039, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9874150156974792, 'entropy': 2.9322447776794434, 'cur_lr': 4.999999873689376e-05, 'total_loss': 95.98328399658203}, 'load_time_ms': 0.602, 'num_steps_sampled': 3577200, 'grad_time_ms': 634.315, 'update_time_ms': 2.284, 'sample_time_ms': 33801.07}",2025-08-31_19-14-54,cda-server-4,35.13740515708923,17886,1756660494,10.157.146.4,False,97415.9529299736,1200
+2982,-605.5692718906207,2982,3578400,{},-636.7065349821584,3578400,0,97451.14441752434,-469.87402080504955,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3578400, 'default': {'kl': 0.00974510982632637, 'policy_loss': -0.14435049891471863, 'vf_loss': 261.6362609863281, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.970407247543335, 'entropy': 2.899489402770996, 'cur_lr': 4.999999873689376e-05, 'total_loss': 261.5067138671875}, 'load_time_ms': 0.632, 'num_steps_sampled': 3578400, 'grad_time_ms': 650.778, 'update_time_ms': 2.201, 'sample_time_ms': 33853.651}",2025-08-31_19-15-29,cda-server-4,35.191487550735474,17892,1756660529,10.157.146.4,False,97451.14441752434,1200
+2983,-606.5324445711219,2983,3579600,{},-636.7065349821584,3579600,0,97485.74782919884,-469.87402080504955,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3579600, 'default': {'kl': 0.012541871517896652, 'policy_loss': -0.15060418844223022, 'vf_loss': 198.20123291015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9782257080078125, 'entropy': 2.891879081726074, 'cur_lr': 4.999999873689376e-05, 'total_loss': 198.06968688964844}, 'load_time_ms': 0.638, 'num_steps_sampled': 3579600, 'grad_time_ms': 652.544, 'update_time_ms': 2.358, 'sample_time_ms': 33865.831}",2025-08-31_19-16-03,cda-server-4,34.60341167449951,17898,1756660563,10.157.146.4,False,97485.74782919884,1200
+2984,-606.556752243872,2984,3580800,{},-636.7065349821584,3580800,0,97519.6643588543,-469.87402080504955,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3580800, 'default': {'kl': 0.009802833199501038, 'policy_loss': -0.11200657486915588, 'vf_loss': 175.3915557861328, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9784458875656128, 'entropy': 2.7598507404327393, 'cur_lr': 4.999999873689376e-05, 'total_loss': 175.29443359375}, 'load_time_ms': 0.638, 'num_steps_sampled': 3580800, 'grad_time_ms': 663.904, 'update_time_ms': 2.349, 'sample_time_ms': 33732.889}",2025-08-31_19-16-37,cda-server-4,33.91652965545654,17904,1756660597,10.157.146.4,False,97519.6643588543,1200
+2985,-607.7230672165587,2985,3582000,{},-636.7065349821584,3582000,0,97555.15531682968,-469.87402080504955,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3582000, 'default': {'kl': 0.008691992610692978, 'policy_loss': -0.12387614697217941, 'vf_loss': 109.62362670898438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9838460087776184, 'entropy': 2.8260679244995117, 'cur_lr': 4.999999873689376e-05, 'total_loss': 109.51295471191406}, 'load_time_ms': 0.63, 'num_steps_sampled': 3582000, 'grad_time_ms': 679.721, 'update_time_ms': 2.385, 'sample_time_ms': 33840.811}",2025-08-31_19-17-13,cda-server-4,35.49095797538757,17910,1756660633,10.157.146.4,False,97555.15531682968,1200
+2986,-606.6025475981515,2986,3583200,{},-636.7065349821584,3583200,0,97590.66149020195,-469.87402080504955,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3583200, 'default': {'kl': 0.012276513502001762, 'policy_loss': -0.1332457810640335, 'vf_loss': 159.61740112304688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9817969799041748, 'entropy': 2.861983299255371, 'cur_lr': 4.999999873689376e-05, 'total_loss': 159.50282287597656}, 'load_time_ms': 0.659, 'num_steps_sampled': 3583200, 'grad_time_ms': 702.142, 'update_time_ms': 2.352, 'sample_time_ms': 34019.998}",2025-08-31_19-17-48,cda-server-4,35.50617337226868,17916,1756660668,10.157.146.4,False,97590.66149020195,1200
+2987,-605.8142821478782,2987,3584400,{},-637.3448546229874,3584400,0,97626.74588608742,-469.87402080504955,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3584400, 'default': {'kl': 0.008692502044141293, 'policy_loss': -0.11686958372592926, 'vf_loss': 136.4291534423828, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9817266464233398, 'entropy': 2.8156659603118896, 'cur_lr': 4.999999873689376e-05, 'total_loss': 136.32550048828125}, 'load_time_ms': 0.687, 'num_steps_sampled': 3584400, 'grad_time_ms': 754.543, 'update_time_ms': 2.426, 'sample_time_ms': 34116.146}",2025-08-31_19-18-24,cda-server-4,36.08439588546753,17922,1756660704,10.157.146.4,False,97626.74588608742,1200
+2988,-605.4820920794203,2988,3585600,{},-637.3448546229874,3585600,0,97662.2404460907,-469.87402080504955,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3585600, 'default': {'kl': 0.011678118258714676, 'policy_loss': -0.13720703125, 'vf_loss': 130.83010864257812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9839944839477539, 'entropy': 2.8828964233398438, 'cur_lr': 4.999999873689376e-05, 'total_loss': 130.71063232421875}, 'load_time_ms': 0.697, 'num_steps_sampled': 3585600, 'grad_time_ms': 758.007, 'update_time_ms': 2.402, 'sample_time_ms': 34202.557}",2025-08-31_19-19-00,cda-server-4,35.49456000328064,17928,1756660740,10.157.146.4,False,97662.2404460907,1200
+2989,-606.859100642788,2989,3586800,{},-637.3448546229874,3586800,0,97696.62164974213,-469.87402080504955,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3586800, 'default': {'kl': 0.011609688401222229, 'policy_loss': -0.14304909110069275, 'vf_loss': 113.46337890625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9860856533050537, 'entropy': 2.909756660461426, 'cur_lr': 4.999999873689376e-05, 'total_loss': 113.33796691894531}, 'load_time_ms': 0.719, 'num_steps_sampled': 3586800, 'grad_time_ms': 760.104, 'update_time_ms': 2.419, 'sample_time_ms': 34185.887}",2025-08-31_19-19-34,cda-server-4,34.38120365142822,17934,1756660774,10.157.146.4,False,97696.62164974213,1200
+2990,-607.2730263313917,2990,3588000,{},-642.0487574207194,3588000,0,97729.66357064247,-469.87402080504955,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3588000, 'default': {'kl': 0.010320212692022324, 'policy_loss': -0.1370704174041748, 'vf_loss': 361.2919616699219, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9585049152374268, 'entropy': 2.8391828536987305, 'cur_lr': 4.999999873689376e-05, 'total_loss': 361.17059326171875}, 'load_time_ms': 0.719, 'num_steps_sampled': 3588000, 'grad_time_ms': 766.142, 'update_time_ms': 2.51, 'sample_time_ms': 34111.121}",2025-08-31_19-20-07,cda-server-4,33.04192090034485,17940,1756660807,10.157.146.4,False,97729.66357064247,1200
+2991,-607.239323236511,2991,3589200,{},-642.0487574207194,3589200,0,97763.08039689064,-469.87402080504955,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3589200, 'default': {'kl': 0.012402691878378391, 'policy_loss': -0.16445960104465485, 'vf_loss': 15.76217269897461, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9975659251213074, 'entropy': 2.764286518096924, 'cur_lr': 4.999999873689376e-05, 'total_loss': 15.616551399230957}, 'load_time_ms': 0.778, 'num_steps_sampled': 3589200, 'grad_time_ms': 764.267, 'update_time_ms': 2.567, 'sample_time_ms': 33940.749}",2025-08-31_19-20-41,cda-server-4,33.416826248168945,17946,1756660841,10.157.146.4,False,97763.08039689064,1200
+2992,-606.4686145877006,2992,3590400,{},-642.0487574207194,3590400,0,97797.90239143372,-469.87402080504955,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3590400, 'default': {'kl': 0.013970870524644852, 'policy_loss': -0.1785399317741394, 'vf_loss': 30.616947174072266, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9960216879844666, 'entropy': 2.8572816848754883, 'cur_lr': 4.999999873689376e-05, 'total_loss': 30.45962142944336}, 'load_time_ms': 0.751, 'num_steps_sampled': 3590400, 'grad_time_ms': 742.164, 'update_time_ms': 2.608, 'sample_time_ms': 33926.05}",2025-08-31_19-21-16,cda-server-4,34.82199454307556,17952,1756660876,10.157.146.4,False,97797.90239143372,1200
+2993,-606.1501078421129,2993,3591600,{},-642.0487574207194,3591600,0,97832.5081794262,-469.87402080504955,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3591600, 'default': {'kl': 0.00852261483669281, 'policy_loss': -0.11218895018100739, 'vf_loss': 160.814697265625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9725250601768494, 'entropy': 2.945974349975586, 'cur_lr': 4.999999873689376e-05, 'total_loss': 160.71543884277344}, 'load_time_ms': 0.75, 'num_steps_sampled': 3591600, 'grad_time_ms': 738.458, 'update_time_ms': 2.466, 'sample_time_ms': 33930.067}",2025-08-31_19-21-50,cda-server-4,34.60578799247742,17958,1756660910,10.157.146.4,False,97832.5081794262,1200
+2994,-605.8959847524361,2994,3592800,{},-642.0487574207194,3592800,0,97867.08514332771,-469.87402080504955,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3592800, 'default': {'kl': 0.011547347530722618, 'policy_loss': -0.1452864557504654, 'vf_loss': 85.76409912109375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9901256561279297, 'entropy': 2.9407565593719482, 'cur_lr': 4.999999873689376e-05, 'total_loss': 85.63633728027344}, 'load_time_ms': 0.749, 'num_steps_sampled': 3592800, 'grad_time_ms': 725.908, 'update_time_ms': 2.534, 'sample_time_ms': 34008.483}",2025-08-31_19-22-25,cda-server-4,34.576963901519775,17964,1756660945,10.157.146.4,False,97867.08514332771,1200
+2995,-607.3058446823667,2995,3594000,{},-642.0487574207194,3594000,0,97900.4365735054,-527.4269990892635,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3594000, 'default': {'kl': 0.010066533461213112, 'policy_loss': -0.1273854374885559, 'vf_loss': 191.06820678710938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9728367328643799, 'entropy': 2.8571739196777344, 'cur_lr': 4.999999873689376e-05, 'total_loss': 190.95611572265625}, 'load_time_ms': 0.747, 'num_steps_sampled': 3594000, 'grad_time_ms': 715.229, 'update_time_ms': 2.519, 'sample_time_ms': 33805.223}",2025-08-31_19-22-58,cda-server-4,33.3514301776886,17970,1756660978,10.157.146.4,False,97900.4365735054,1200
+2996,-607.9190624656196,2996,3595200,{},-642.0487574207194,3595200,0,97934.65833830833,-527.4269990892635,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3595200, 'default': {'kl': 0.011314693838357925, 'policy_loss': -0.14474105834960938, 'vf_loss': 181.44281005859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9822679162025452, 'entropy': 2.990708589553833, 'cur_lr': 4.999999873689376e-05, 'total_loss': 181.31524658203125}, 'load_time_ms': 0.714, 'num_steps_sampled': 3595200, 'grad_time_ms': 703.637, 'update_time_ms': 2.507, 'sample_time_ms': 33688.496}",2025-08-31_19-23-32,cda-server-4,34.22176480293274,17976,1756661012,10.157.146.4,False,97934.65833830833,1200
+2997,-608.2243877227767,2997,3596400,{},-642.0487574207194,3596400,0,97969.04009699821,-527.4269990892635,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3596400, 'default': {'kl': 0.009966500103473663, 'policy_loss': -0.1301710158586502, 'vf_loss': 40.17298889160156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9947993159294128, 'entropy': 2.8758347034454346, 'cur_lr': 4.999999873689376e-05, 'total_loss': 40.05794906616211}, 'load_time_ms': 0.677, 'num_steps_sampled': 3596400, 'grad_time_ms': 642.288, 'update_time_ms': 2.455, 'sample_time_ms': 33579.712}",2025-08-31_19-24-07,cda-server-4,34.38175868988037,17982,1756661047,10.157.146.4,False,97969.04009699821,1200
+2998,-607.6671705652219,2998,3597600,{},-642.0487574207194,3597600,0,98002.67692232132,-522.836666896002,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3597600, 'default': {'kl': 0.010485329665243626, 'policy_loss': -0.14200717210769653, 'vf_loss': 66.63534545898438, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9900957942008972, 'entropy': 2.8684535026550293, 'cur_lr': 4.999999873689376e-05, 'total_loss': 66.5092544555664}, 'load_time_ms': 0.67, 'num_steps_sampled': 3597600, 'grad_time_ms': 626.623, 'update_time_ms': 2.48, 'sample_time_ms': 33409.588}",2025-08-31_19-24-40,cda-server-4,33.63682532310486,17988,1756661080,10.157.146.4,False,98002.67692232132,1200
+2999,-606.5044732853689,2999,3598800,{},-642.0487574207194,3598800,0,98037.54607391357,-522.836666896002,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3598800, 'default': {'kl': 0.011083691380918026, 'policy_loss': -0.14530573785305023, 'vf_loss': 153.46119689941406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9852997660636902, 'entropy': 2.828296184539795, 'cur_lr': 4.999999873689376e-05, 'total_loss': 153.3327178955078}, 'load_time_ms': 0.659, 'num_steps_sampled': 3598800, 'grad_time_ms': 620.272, 'update_time_ms': 2.455, 'sample_time_ms': 33464.796}",2025-08-31_19-25-15,cda-server-4,34.86915159225464,17994,1756661115,10.157.146.4,False,98037.54607391357,1200
+3000,-606.7013059428932,3000,3600000,{},-642.0487574207194,3600000,0,98071.86299395561,-522.836666896002,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3600000, 'default': {'kl': 0.012650132179260254, 'policy_loss': -0.1363103687763214, 'vf_loss': 56.687931060791016, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9941851496696472, 'entropy': 2.8195619583129883, 'cur_lr': 4.999999873689376e-05, 'total_loss': 56.57083511352539}, 'load_time_ms': 0.659, 'num_steps_sampled': 3600000, 'grad_time_ms': 596.862, 'update_time_ms': 2.402, 'sample_time_ms': 33615.793}",2025-08-31_19-25-50,cda-server-4,34.316920042037964,18000,1756661150,10.157.146.4,False,98071.86299395561,1200
+3001,-605.2902323262239,3001,3601200,{},-642.0487574207194,3601200,0,98106.02926445007,-465.00788705976504,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3601200, 'default': {'kl': 0.012264668941497803, 'policy_loss': -0.14600130915641785, 'vf_loss': 77.21253967285156, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9915752410888672, 'entropy': 2.773773193359375, 'cur_lr': 4.999999873689376e-05, 'total_loss': 77.08516693115234}, 'load_time_ms': 0.601, 'num_steps_sampled': 3601200, 'grad_time_ms': 586.739, 'update_time_ms': 2.34, 'sample_time_ms': 33701.076}",2025-08-31_19-26-24,cda-server-4,34.16627049446106,18006,1756661184,10.157.146.4,False,98106.02926445007,1200
+3002,-605.1425009999708,3002,3602400,{},-642.0487574207194,3602400,0,98140.14249372482,-465.00788705976504,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3602400, 'default': {'kl': 0.01019349042326212, 'policy_loss': -0.14080996811389923, 'vf_loss': 46.476593017578125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.994355320930481, 'entropy': 2.76468563079834, 'cur_lr': 4.999999873689376e-05, 'total_loss': 46.35127258300781}, 'load_time_ms': 0.596, 'num_steps_sampled': 3602400, 'grad_time_ms': 588.635, 'update_time_ms': 2.347, 'sample_time_ms': 33628.343}",2025-08-31_19-26-58,cda-server-4,34.113229274749756,18012,1756661218,10.157.146.4,False,98140.14249372482,1200
+3003,-605.6493275079785,3003,3603600,{},-642.0487574207194,3603600,0,98174.93790483475,-465.00788705976504,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3603600, 'default': {'kl': 0.009996457025408745, 'policy_loss': -0.11851730942726135, 'vf_loss': 145.6651153564453, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9837969541549683, 'entropy': 2.8886709213256836, 'cur_lr': 4.999999873689376e-05, 'total_loss': 145.56178283691406}, 'load_time_ms': 0.593, 'num_steps_sampled': 3603600, 'grad_time_ms': 598.549, 'update_time_ms': 2.311, 'sample_time_ms': 33637.412}",2025-08-31_19-27-33,cda-server-4,34.795411109924316,18018,1756661253,10.157.146.4,False,98174.93790483475,1200
+3004,-606.1050503433886,3004,3604800,{},-642.0487574207194,3604800,0,98210.34965777397,-465.00788705976504,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3604800, 'default': {'kl': 0.00974820926785469, 'policy_loss': -0.13682112097740173, 'vf_loss': 113.11227416992188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9869458079338074, 'entropy': 2.8411567211151123, 'cur_lr': 4.999999873689376e-05, 'total_loss': 112.9902572631836}, 'load_time_ms': 0.597, 'num_steps_sampled': 3604800, 'grad_time_ms': 602.256, 'update_time_ms': 2.444, 'sample_time_ms': 33717.131}",2025-08-31_19-28-08,cda-server-4,35.41175293922424,18024,1756661288,10.157.146.4,False,98210.34965777397,1200
+3005,-605.4317744040484,3005,3606000,{},-645.4803302416784,3606000,0,98244.14627337456,-465.00788705976504,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3606000, 'default': {'kl': 0.012139026075601578, 'policy_loss': -0.14182813465595245, 'vf_loss': 66.19230651855469, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.992685854434967, 'entropy': 2.7948527336120605, 'cur_lr': 4.999999873689376e-05, 'total_loss': 66.06890869140625}, 'load_time_ms': 0.605, 'num_steps_sampled': 3606000, 'grad_time_ms': 608.099, 'update_time_ms': 2.427, 'sample_time_ms': 33755.892}",2025-08-31_19-28-42,cda-server-4,33.79661560058594,18030,1756661322,10.157.146.4,False,98244.14627337456,1200
+3006,-604.9244389854699,3006,3607200,{},-645.4803302416784,3607200,0,98278.76430773735,-465.00788705976504,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3607200, 'default': {'kl': 0.009431547485291958, 'policy_loss': -0.12414807826280594, 'vf_loss': 54.14724349975586, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9948495030403137, 'entropy': 2.9907259941101074, 'cur_lr': 4.999999873689376e-05, 'total_loss': 54.03742218017578}, 'load_time_ms': 0.608, 'num_steps_sampled': 3607200, 'grad_time_ms': 618.881, 'update_time_ms': 2.416, 'sample_time_ms': 33784.767}",2025-08-31_19-29-17,cda-server-4,34.61803436279297,18036,1756661357,10.157.146.4,False,98278.76430773735,1200
+3007,-604.7822042272052,3007,3608400,{},-645.4803302416784,3608400,0,98313.40134811401,-465.00788705976504,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3608400, 'default': {'kl': 0.010759602300822735, 'policy_loss': -0.14055100083351135, 'vf_loss': 147.56777954101562, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9885044097900391, 'entropy': 2.8539559841156006, 'cur_lr': 4.999999873689376e-05, 'total_loss': 147.4435577392578}, 'load_time_ms': 0.618, 'num_steps_sampled': 3608400, 'grad_time_ms': 641.582, 'update_time_ms': 2.395, 'sample_time_ms': 33787.583}",2025-08-31_19-29-51,cda-server-4,34.63704037666321,18042,1756661391,10.157.146.4,False,98313.40134811401,1200
+3008,-604.6325536025464,3008,3609600,{},-645.4803302416784,3609600,0,98348.49936962128,-465.00788705976504,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3609600, 'default': {'kl': 0.009857646189630032, 'policy_loss': -0.10006575286388397, 'vf_loss': 133.43362426757812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9857707619667053, 'entropy': 2.8138952255249023, 'cur_lr': 4.999999873689376e-05, 'total_loss': 133.34854125976562}, 'load_time_ms': 0.619, 'num_steps_sampled': 3609600, 'grad_time_ms': 648.226, 'update_time_ms': 2.403, 'sample_time_ms': 33927.113}",2025-08-31_19-30-26,cda-server-4,35.098021507263184,18048,1756661426,10.157.146.4,False,98348.49936962128,1200
+3009,-603.4293443961723,3009,3610800,{},-645.4803302416784,3610800,0,98382.35892891884,-465.00788705976504,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3610800, 'default': {'kl': 0.01221264898777008, 'policy_loss': -0.1338377594947815, 'vf_loss': 39.715824127197266, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.99559086561203, 'entropy': 2.8270418643951416, 'cur_lr': 4.999999873689376e-05, 'total_loss': 39.60053253173828}, 'load_time_ms': 0.639, 'num_steps_sampled': 3610800, 'grad_time_ms': 640.974, 'update_time_ms': 2.365, 'sample_time_ms': 33833.412}",2025-08-31_19-31-00,cda-server-4,33.859559297561646,18054,1756661460,10.157.146.4,False,98382.35892891884,1200
+3010,-603.346208067539,3010,3612000,{},-645.4803302416784,3612000,0,98417.77927136421,-465.00788705976504,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3612000, 'default': {'kl': 0.011608246713876724, 'policy_loss': -0.13436567783355713, 'vf_loss': 410.4130859375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.951918363571167, 'entropy': 2.929985761642456, 'cur_lr': 4.999999873689376e-05, 'total_loss': 410.2963562011719}, 'load_time_ms': 0.639, 'num_steps_sampled': 3612000, 'grad_time_ms': 667.596, 'update_time_ms': 2.337, 'sample_time_ms': 33917.11}",2025-08-31_19-31-36,cda-server-4,35.420342445373535,18060,1756661496,10.157.146.4,False,98417.77927136421,1200
+3011,-602.8581658418143,3011,3613200,{},-645.4803302416784,3613200,0,98451.96658682823,-465.00788705976504,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3613200, 'default': {'kl': 0.00931874942034483, 'policy_loss': -0.13330107927322388, 'vf_loss': 128.09396362304688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9870867133140564, 'entropy': 2.813934803009033, 'cur_lr': 4.999999873689376e-05, 'total_loss': 127.97482299804688}, 'load_time_ms': 0.64, 'num_steps_sampled': 3613200, 'grad_time_ms': 696.974, 'update_time_ms': 2.421, 'sample_time_ms': 33889.704}",2025-08-31_19-32-10,cda-server-4,34.187315464019775,18066,1756661530,10.157.146.4,False,98451.96658682823,1200
+3012,-602.3444902846367,3012,3614400,{},-645.4803302416784,3614400,0,98486.09781312943,-465.00788705976504,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3614400, 'default': {'kl': 0.009376082569360733, 'policy_loss': -0.12061789631843567, 'vf_loss': 234.01730346679688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.962653398513794, 'entropy': 2.8898274898529053, 'cur_lr': 4.999999873689376e-05, 'total_loss': 233.91094970703125}, 'load_time_ms': 0.668, 'num_steps_sampled': 3614400, 'grad_time_ms': 698.583, 'update_time_ms': 2.399, 'sample_time_ms': 33889.846}",2025-08-31_19-32-44,cda-server-4,34.13122630119324,18072,1756661564,10.157.146.4,False,98486.09781312943,1200
+3013,-601.1515173180005,3013,3615600,{},-645.4803302416784,3615600,0,98519.62678647041,-465.00788705976504,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3615600, 'default': {'kl': 0.010246437974274158, 'policy_loss': -0.12950587272644043, 'vf_loss': 267.54132080078125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.970586895942688, 'entropy': 2.8971030712127686, 'cur_lr': 4.999999873689376e-05, 'total_loss': 267.4273986816406}, 'load_time_ms': 0.671, 'num_steps_sampled': 3615600, 'grad_time_ms': 691.719, 'update_time_ms': 2.393, 'sample_time_ms': 33770.236}",2025-08-31_19-33-18,cda-server-4,33.52897334098816,18078,1756661598,10.157.146.4,False,98519.62678647041,1200
+3014,-600.0712777839015,3014,3616800,{},-645.4803302416784,3616800,0,98553.88759088516,-465.00788705976504,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3616800, 'default': {'kl': 0.010647077113389969, 'policy_loss': -0.13563650846481323, 'vf_loss': 290.36163330078125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.976988673210144, 'entropy': 2.7672040462493896, 'cur_lr': 4.999999873689376e-05, 'total_loss': 290.2421875}, 'load_time_ms': 0.671, 'num_steps_sampled': 3616800, 'grad_time_ms': 697.446, 'update_time_ms': 2.174, 'sample_time_ms': 33649.606}",2025-08-31_19-33-52,cda-server-4,34.260804414749146,18084,1756661632,10.157.146.4,False,98553.88759088516,1200
+3015,-600.7341164810952,3015,3618000,{},-645.4803302416784,3618000,0,98588.7426097393,-465.00788705976504,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3618000, 'default': {'kl': 0.011455641128122807, 'policy_loss': -0.14329631626605988, 'vf_loss': 28.492027282714844, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9960136413574219, 'entropy': 2.7553486824035645, 'cur_lr': 4.999999873689376e-05, 'total_loss': 28.36612892150879}, 'load_time_ms': 0.664, 'num_steps_sampled': 3618000, 'grad_time_ms': 700.948, 'update_time_ms': 2.226, 'sample_time_ms': 33751.816}",2025-08-31_19-34-27,cda-server-4,34.855018854141235,18090,1756661667,10.157.146.4,False,98588.7426097393,1200
+3016,-600.4554247995345,3016,3619200,{},-645.4803302416784,3619200,0,98622.24234819412,-465.00788705976504,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3619200, 'default': {'kl': 0.009981258772313595, 'policy_loss': -0.12624819576740265, 'vf_loss': 139.5253143310547, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9900414943695068, 'entropy': 2.7693655490875244, 'cur_lr': 4.999999873689376e-05, 'total_loss': 139.41421508789062}, 'load_time_ms': 0.662, 'num_steps_sampled': 3619200, 'grad_time_ms': 700.863, 'update_time_ms': 2.273, 'sample_time_ms': 33639.934}",2025-08-31_19-35-00,cda-server-4,33.499738454818726,18096,1756661700,10.157.146.4,False,98622.24234819412,1200
+3017,-602.0655102263815,3017,3620400,{},-645.4803302416784,3620400,0,98656.9469935894,-488.5760341503407,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3620400, 'default': {'kl': 0.01125580444931984, 'policy_loss': -0.14347980916500092, 'vf_loss': 126.26475524902344, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9829273223876953, 'entropy': 3.047705888748169, 'cur_lr': 4.999999873689376e-05, 'total_loss': 126.13837432861328}, 'load_time_ms': 0.656, 'num_steps_sampled': 3620400, 'grad_time_ms': 705.224, 'update_time_ms': 2.285, 'sample_time_ms': 33642.42}",2025-08-31_19-35-35,cda-server-4,34.70464539527893,18102,1756661735,10.157.146.4,False,98656.9469935894,1200
+3018,-601.7421575119203,3018,3621600,{},-645.4803302416784,3621600,0,98691.58408021927,-488.5760341503407,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3621600, 'default': {'kl': 0.010761876590549946, 'policy_loss': -0.13098075985908508, 'vf_loss': 114.281982421875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9836586713790894, 'entropy': 2.924450159072876, 'cur_lr': 4.999999873689376e-05, 'total_loss': 114.16734313964844}, 'load_time_ms': 0.653, 'num_steps_sampled': 3621600, 'grad_time_ms': 711.838, 'update_time_ms': 2.252, 'sample_time_ms': 33589.713}",2025-08-31_19-36-10,cda-server-4,34.637086629867554,18108,1756661770,10.157.146.4,False,98691.58408021927,1200
+3019,-602.1481888303431,3019,3622800,{},-645.4803302416784,3622800,0,98726.27653551102,-488.5760341503407,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3622800, 'default': {'kl': 0.011271185241639614, 'policy_loss': -0.14042380452156067, 'vf_loss': 119.84249877929688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9886510372161865, 'entropy': 2.74741268157959, 'cur_lr': 4.999999873689376e-05, 'total_loss': 119.71918487548828}, 'load_time_ms': 0.655, 'num_steps_sampled': 3622800, 'grad_time_ms': 718.27, 'update_time_ms': 2.323, 'sample_time_ms': 33666.545}",2025-08-31_19-36-44,cda-server-4,34.69245529174805,18114,1756661804,10.157.146.4,False,98726.27653551102,1200
+3020,-602.2869352294146,3020,3624000,{},-645.4803302416784,3624000,0,98760.61714076996,-488.5760341503407,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3624000, 'default': {'kl': 0.009907908737659454, 'policy_loss': -0.13891293108463287, 'vf_loss': 132.06787109375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9876916408538818, 'entropy': 2.7603671550750732, 'cur_lr': 4.999999873689376e-05, 'total_loss': 131.9440155029297}, 'load_time_ms': 0.694, 'num_steps_sampled': 3624000, 'grad_time_ms': 716.523, 'update_time_ms': 2.342, 'sample_time_ms': 33560.227}",2025-08-31_19-37-19,cda-server-4,34.34060525894165,18120,1756661839,10.157.146.4,False,98760.61714076996,1200
+3021,-601.809987134618,3021,3625200,{},-639.7877615541315,3625200,0,98795.0777938366,-488.5760341503407,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3625200, 'default': {'kl': 0.01056230440735817, 'policy_loss': -0.1292232871055603, 'vf_loss': 481.9924011230469, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9433451890945435, 'entropy': 2.786386728286743, 'cur_lr': 4.999999873689376e-05, 'total_loss': 481.8792419433594}, 'load_time_ms': 0.692, 'num_steps_sampled': 3625200, 'grad_time_ms': 712.997, 'update_time_ms': 2.342, 'sample_time_ms': 33591.093}",2025-08-31_19-37-53,cda-server-4,34.46065306663513,18126,1756661873,10.157.146.4,False,98795.0777938366,1200
+3022,-602.6357439137388,3022,3626400,{},-639.7877615541315,3626400,0,98829.80628728867,-488.5760341503407,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3626400, 'default': {'kl': 0.010187600739300251, 'policy_loss': -0.14832475781440735, 'vf_loss': 146.43695068359375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.98470538854599, 'entropy': 2.899466037750244, 'cur_lr': 4.999999873689376e-05, 'total_loss': 146.30410766601562}, 'load_time_ms': 0.691, 'num_steps_sampled': 3626400, 'grad_time_ms': 710.267, 'update_time_ms': 2.335, 'sample_time_ms': 33653.564}",2025-08-31_19-38-28,cda-server-4,34.728493452072144,18132,1756661908,10.157.146.4,False,98829.80628728867,1200
+3023,-603.3615678392237,3023,3627600,{},-639.7877615541315,3627600,0,98864.48941636086,-488.5760341503407,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3627600, 'default': {'kl': 0.011292574927210808, 'policy_loss': -0.12833374738693237, 'vf_loss': 94.345458984375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9876849055290222, 'entropy': 2.8116514682769775, 'cur_lr': 4.999999873689376e-05, 'total_loss': 94.2342758178711}, 'load_time_ms': 0.691, 'num_steps_sampled': 3627600, 'grad_time_ms': 703.131, 'update_time_ms': 2.434, 'sample_time_ms': 33775.913}",2025-08-31_19-39-03,cda-server-4,34.68312907218933,18138,1756661943,10.157.146.4,False,98864.48941636086,1200
+3024,-601.8953936500834,3024,3628800,{},-639.7877615541315,3628800,0,98898.95601940155,-486.49792731158084,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3628800, 'default': {'kl': 0.00999770499765873, 'policy_loss': -0.12941277027130127, 'vf_loss': 215.33206176757812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9715061187744141, 'entropy': 3.000826835632324, 'cur_lr': 4.999999873689376e-05, 'total_loss': 215.21783447265625}, 'load_time_ms': 0.687, 'num_steps_sampled': 3628800, 'grad_time_ms': 698.684, 'update_time_ms': 2.477, 'sample_time_ms': 33800.96}",2025-08-31_19-39-37,cda-server-4,34.46660304069519,18144,1756661977,10.157.146.4,False,98898.95601940155,1200
+3025,-602.13631711893,3025,3630000,{},-639.7877615541315,3630000,0,98934.0547413826,-486.49792731158084,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3630000, 'default': {'kl': 0.011421299539506435, 'policy_loss': -0.147932231426239, 'vf_loss': 48.22760772705078, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9935309886932373, 'entropy': 2.9056508541107178, 'cur_lr': 4.999999873689376e-05, 'total_loss': 48.09701919555664}, 'load_time_ms': 0.736, 'num_steps_sampled': 3630000, 'grad_time_ms': 699.318, 'update_time_ms': 2.399, 'sample_time_ms': 33824.722}",2025-08-31_19-40-12,cda-server-4,35.098721981048584,18150,1756662012,10.157.146.4,False,98934.0547413826,1200
+3026,-603.5605541398971,3026,3631200,{},-639.7877615541315,3631200,0,98969.35075163841,-486.49792731158084,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3631200, 'default': {'kl': 0.01044827327132225, 'policy_loss': -0.1557444930076599, 'vf_loss': 250.38986206054688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9738200306892395, 'entropy': 2.8428239822387695, 'cur_lr': 4.999999873689376e-05, 'total_loss': 250.25}, 'load_time_ms': 0.749, 'num_steps_sampled': 3631200, 'grad_time_ms': 700.384, 'update_time_ms': 2.391, 'sample_time_ms': 34003.324}",2025-08-31_19-40-48,cda-server-4,35.2960102558136,18156,1756662048,10.157.146.4,False,98969.35075163841,1200
+3027,-604.022621265467,3027,3632400,{},-648.1609710629814,3632400,0,99003.09949207306,-486.49792731158084,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3632400, 'default': {'kl': 0.009680974297225475, 'policy_loss': -0.12953795492649078, 'vf_loss': 232.0270233154297, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.96819007396698, 'entropy': 3.136005163192749, 'cur_lr': 4.999999873689376e-05, 'total_loss': 231.91217041015625}, 'load_time_ms': 0.753, 'num_steps_sampled': 3632400, 'grad_time_ms': 693.179, 'update_time_ms': 2.38, 'sample_time_ms': 33914.879}",2025-08-31_19-41-21,cda-server-4,33.748740434646606,18162,1756662081,10.157.146.4,False,99003.09949207306,1200
+3028,-605.3888106266415,3028,3633600,{},-648.1609710629814,3633600,0,99037.21349930763,-486.49792731158084,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3633600, 'default': {'kl': 0.009884542785584927, 'policy_loss': -0.13684241473674774, 'vf_loss': 130.95388793945312, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9818669557571411, 'entropy': 2.9004974365234375, 'cur_lr': 4.999999873689376e-05, 'total_loss': 130.83204650878906}, 'load_time_ms': 0.752, 'num_steps_sampled': 3633600, 'grad_time_ms': 684.543, 'update_time_ms': 2.419, 'sample_time_ms': 33871.215}",2025-08-31_19-41-56,cda-server-4,34.114007234573364,18168,1756662116,10.157.146.4,False,99037.21349930763,1200
+3029,-606.0401591985187,3029,3634800,{},-648.1609710629814,3634800,0,99071.43095636368,-486.49792731158084,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3634800, 'default': {'kl': 0.011097117327153683, 'policy_loss': -0.13070830702781677, 'vf_loss': 112.52531433105469, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9885258078575134, 'entropy': 2.7595744132995605, 'cur_lr': 4.999999873689376e-05, 'total_loss': 112.41146850585938}, 'load_time_ms': 0.721, 'num_steps_sampled': 3634800, 'grad_time_ms': 684.358, 'update_time_ms': 2.349, 'sample_time_ms': 33823.95}",2025-08-31_19-42-30,cda-server-4,34.21745705604553,18174,1756662150,10.157.146.4,False,99071.43095636368,1200
+3030,-605.7787058364444,3030,3636000,{},-648.1609710629814,3636000,0,99105.9195754528,-486.49792731158084,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3636000, 'default': {'kl': 0.01319920178502798, 'policy_loss': -0.1405201554298401, 'vf_loss': 263.00677490234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9732406139373779, 'entropy': 2.846050977706909, 'cur_lr': 4.999999873689376e-05, 'total_loss': 262.88629150390625}, 'load_time_ms': 0.689, 'num_steps_sampled': 3636000, 'grad_time_ms': 674.028, 'update_time_ms': 2.352, 'sample_time_ms': 33849.198}",2025-08-31_19-43-04,cda-server-4,34.48861908912659,18180,1756662184,10.157.146.4,False,99105.9195754528,1200
+3031,-606.8979066561625,3031,3637200,{},-648.1609710629814,3637200,0,99139.53397011757,-486.49792731158084,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3637200, 'default': {'kl': 0.013489502482116222, 'policy_loss': -0.16342371702194214, 'vf_loss': 244.34866333007812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9804403781890869, 'entropy': 2.9193458557128906, 'cur_lr': 4.999999873689376e-05, 'total_loss': 244.2057342529297}, 'load_time_ms': 0.695, 'num_steps_sampled': 3637200, 'grad_time_ms': 664.556, 'update_time_ms': 2.392, 'sample_time_ms': 33774.014}",2025-08-31_19-43-38,cda-server-4,33.614394664764404,18186,1756662218,10.157.146.4,False,99139.53397011757,1200
+3032,-607.0525379722466,3032,3638400,{},-648.1609710629814,3638400,0,99173.2859814167,-486.49792731158084,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3638400, 'default': {'kl': 0.011231150478124619, 'policy_loss': -0.12926128506660461, 'vf_loss': 80.96334838867188, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9961487650871277, 'entropy': 2.9071474075317383, 'cur_lr': 4.999999873689376e-05, 'total_loss': 80.85113525390625}, 'load_time_ms': 0.675, 'num_steps_sampled': 3638400, 'grad_time_ms': 667.138, 'update_time_ms': 2.383, 'sample_time_ms': 33673.777}",2025-08-31_19-44-12,cda-server-4,33.7520112991333,18192,1756662252,10.157.146.4,False,99173.2859814167,1200
+3033,-606.847926600161,3033,3639600,{},-648.1609710629814,3639600,0,99208.12251901627,-486.49792731158084,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3639600, 'default': {'kl': 0.008130727335810661, 'policy_loss': -0.11646619439125061, 'vf_loss': 123.63011169433594, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9867663979530334, 'entropy': 2.971200704574585, 'cur_lr': 4.999999873689376e-05, 'total_loss': 123.52598571777344}, 'load_time_ms': 0.685, 'num_steps_sampled': 3639600, 'grad_time_ms': 656.11, 'update_time_ms': 2.318, 'sample_time_ms': 33700.211}",2025-08-31_19-44-47,cda-server-4,34.8365375995636,18198,1756662287,10.157.146.4,False,99208.12251901627,1200
+3034,-607.5338059685381,3034,3640800,{},-655.9547295261219,3640800,0,99242.19300866127,-486.49792731158084,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3640800, 'default': {'kl': 0.008663411252200603, 'policy_loss': -0.1273384690284729, 'vf_loss': 84.26789855957031, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9944363832473755, 'entropy': 2.9103994369506836, 'cur_lr': 4.999999873689376e-05, 'total_loss': 84.15372467041016}, 'load_time_ms': 0.679, 'num_steps_sampled': 3640800, 'grad_time_ms': 641.312, 'update_time_ms': 2.268, 'sample_time_ms': 33675.451}",2025-08-31_19-45-21,cda-server-4,34.07048964500427,18204,1756662321,10.157.146.4,False,99242.19300866127,1200
+3035,-609.1837292176937,3035,3642000,{},-768.2999142917959,3642000,0,99276.14336371422,-486.49792731158084,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3642000, 'default': {'kl': 0.01375700905919075, 'policy_loss': -0.12392012029886246, 'vf_loss': 844.9810791015625, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9138949513435364, 'entropy': 3.2799668312072754, 'cur_lr': 4.999999873689376e-05, 'total_loss': 844.8780517578125}, 'load_time_ms': 0.66, 'num_steps_sampled': 3642000, 'grad_time_ms': 611.916, 'update_time_ms': 2.325, 'sample_time_ms': 33589.983}",2025-08-31_19-45-55,cda-server-4,33.950355052948,18210,1756662355,10.157.146.4,False,99276.14336371422,1200
+3036,-609.0015042588744,3036,3643200,{},-768.2999142917959,3643200,0,99311.01059031487,-486.49792731158084,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3643200, 'default': {'kl': 0.009939391165971756, 'policy_loss': -0.13970544934272766, 'vf_loss': 90.18468475341797, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9869774580001831, 'entropy': 2.8179514408111572, 'cur_lr': 4.999999873689376e-05, 'total_loss': 90.06007385253906}, 'load_time_ms': 0.642, 'num_steps_sampled': 3643200, 'grad_time_ms': 583.921, 'update_time_ms': 2.353, 'sample_time_ms': 33575.107}",2025-08-31_19-46-30,cda-server-4,34.86722660064697,18216,1756662390,10.157.146.4,False,99311.01059031487,1200
+3037,-608.884946712047,3037,3644400,{},-768.2999142917959,3644400,0,99346.01137447357,-486.49792731158084,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3644400, 'default': {'kl': 0.00970645621418953, 'policy_loss': -0.12889555096626282, 'vf_loss': 479.0618896484375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9547448754310608, 'entropy': 2.9931814670562744, 'cur_lr': 4.999999873689376e-05, 'total_loss': 478.94775390625}, 'load_time_ms': 0.638, 'num_steps_sampled': 3644400, 'grad_time_ms': 580.965, 'update_time_ms': 2.386, 'sample_time_ms': 33703.16}",2025-08-31_19-47-05,cda-server-4,35.000784158706665,18222,1756662425,10.157.146.4,False,99346.01137447357,1200
+3038,-609.0721310199602,3038,3645600,{},-768.2999142917959,3645600,0,99380.32966327667,-486.49792731158084,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3645600, 'default': {'kl': 0.012632109224796295, 'policy_loss': -0.15578775107860565, 'vf_loss': 57.99063491821289, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.996282160282135, 'entropy': 2.774317979812622, 'cur_lr': 4.999999873689376e-05, 'total_loss': 57.85403060913086}, 'load_time_ms': 0.641, 'num_steps_sampled': 3645600, 'grad_time_ms': 562.671, 'update_time_ms': 2.443, 'sample_time_ms': 33741.802}",2025-08-31_19-47-39,cda-server-4,34.318288803100586,18228,1756662459,10.157.146.4,False,99380.32966327667,1200
+3039,-609.9984102473769,3039,3646800,{},-768.2999142917959,3646800,0,99414.98575687408,-486.49792731158084,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3646800, 'default': {'kl': 0.011535908095538616, 'policy_loss': -0.12955699861049652, 'vf_loss': 456.4314270019531, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9673132300376892, 'entropy': 3.0367355346679688, 'cur_lr': 4.999999873689376e-05, 'total_loss': 456.3194580078125}, 'load_time_ms': 0.649, 'num_steps_sampled': 3646800, 'grad_time_ms': 564.544, 'update_time_ms': 2.492, 'sample_time_ms': 33783.783}",2025-08-31_19-48-14,cda-server-4,34.65609359741211,18234,1756662494,10.157.146.4,False,99414.98575687408,1200
+3040,-609.9399102983193,3040,3648000,{},-768.2999142917959,3648000,0,99450.83782505989,-486.49792731158084,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3648000, 'default': {'kl': 0.010824508033692837, 'policy_loss': -0.14031581580638885, 'vf_loss': 49.27273178100586, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9958693981170654, 'entropy': 2.878554582595825, 'cur_lr': 4.999999873689376e-05, 'total_loss': 49.14885330200195}, 'load_time_ms': 0.675, 'num_steps_sampled': 3648000, 'grad_time_ms': 574.271, 'update_time_ms': 2.444, 'sample_time_ms': 33910.375}",2025-08-31_19-48-49,cda-server-4,35.852068185806274,18240,1756662529,10.157.146.4,False,99450.83782505989,1200
+3041,-611.506781481463,3041,3649200,{},-768.2999142917959,3649200,0,99485.70551013947,-569.9556477618125,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3649200, 'default': {'kl': 0.011274044401943684, 'policy_loss': -0.1484737992286682, 'vf_loss': 61.85995864868164, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9920978546142578, 'entropy': 2.927661418914795, 'cur_lr': 4.999999873689376e-05, 'total_loss': 61.72861099243164}, 'load_time_ms': 0.668, 'num_steps_sampled': 3649200, 'grad_time_ms': 574.743, 'update_time_ms': 2.49, 'sample_time_ms': 34035.201}",2025-08-31_19-49-24,cda-server-4,34.867685079574585,18246,1756662564,10.157.146.4,False,99485.70551013947,1200
+3042,-612.1833216784391,3042,3650400,{},-768.2999142917959,3650400,0,99520.16702413559,-569.9556477618125,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3650400, 'default': {'kl': 0.010258463211357594, 'policy_loss': -0.1497306227684021, 'vf_loss': 114.03109741210938, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9901383519172668, 'entropy': 3.0218355655670166, 'cur_lr': 4.999999873689376e-05, 'total_loss': 113.89694213867188}, 'load_time_ms': 0.663, 'num_steps_sampled': 3650400, 'grad_time_ms': 578.172, 'update_time_ms': 2.508, 'sample_time_ms': 34102.785}",2025-08-31_19-49-59,cda-server-4,34.46151399612427,18252,1756662599,10.157.146.4,False,99520.16702413559,1200
+3043,-611.186193390335,3043,3651600,{},-768.2999142917959,3651600,0,99554.03726172447,-550.219617801258,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3651600, 'default': {'kl': 0.011381410993635654, 'policy_loss': -0.1521742194890976, 'vf_loss': 196.57101440429688, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9771915078163147, 'entropy': 2.845536947250366, 'cur_lr': 4.999999873689376e-05, 'total_loss': 196.43614196777344}, 'load_time_ms': 0.661, 'num_steps_sampled': 3651600, 'grad_time_ms': 579.74, 'update_time_ms': 2.479, 'sample_time_ms': 34004.656}",2025-08-31_19-50-33,cda-server-4,33.870237588882446,18258,1756662633,10.157.146.4,False,99554.03726172447,1200
+3044,-611.3811299890073,3044,3652800,{},-768.2999142917959,3652800,0,99587.7943572998,-550.219617801258,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3652800, 'default': {'kl': 0.00953558087348938, 'policy_loss': -0.1252809315919876, 'vf_loss': 313.838623046875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9622711539268494, 'entropy': 2.8237783908843994, 'cur_lr': 4.999999873689376e-05, 'total_loss': 313.7278137207031}, 'load_time_ms': 0.672, 'num_steps_sampled': 3652800, 'grad_time_ms': 582.406, 'update_time_ms': 2.503, 'sample_time_ms': 33970.579}",2025-08-31_19-51-06,cda-server-4,33.75709557533264,18264,1756662666,10.157.146.4,False,99587.7943572998,1200
+3045,-611.3965500413887,3045,3654000,{},-768.2999142917959,3654000,0,99622.46963596344,-550.219617801258,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3654000, 'default': {'kl': 0.007850627414882183, 'policy_loss': -0.11781920492649078, 'vf_loss': 151.4506072998047, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9843307137489319, 'entropy': 2.6752302646636963, 'cur_lr': 4.999999873689376e-05, 'total_loss': 151.34471130371094}, 'load_time_ms': 0.645, 'num_steps_sampled': 3654000, 'grad_time_ms': 600.817, 'update_time_ms': 2.462, 'sample_time_ms': 34024.662}",2025-08-31_19-51-41,cda-server-4,34.675278663635254,18270,1756662701,10.157.146.4,False,99622.46963596344,1200
+3046,-611.4506277613273,3046,3655200,{},-768.2999142917959,3655200,0,99655.85424375534,-550.219617801258,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3655200, 'default': {'kl': 0.009400501847267151, 'policy_loss': -0.12988197803497314, 'vf_loss': 97.67427825927734, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9917159676551819, 'entropy': 2.991481304168701, 'cur_lr': 4.999999873689376e-05, 'total_loss': 97.55867767333984}, 'load_time_ms': 0.677, 'num_steps_sampled': 3655200, 'grad_time_ms': 615.315, 'update_time_ms': 2.466, 'sample_time_ms': 33861.839}",2025-08-31_19-52-15,cda-server-4,33.384607791900635,18276,1756662735,10.157.146.4,False,99655.85424375534,1200
+3047,-611.0480967374613,3047,3656400,{},-768.2999142917959,3656400,0,99690.59342074394,-550.219617801258,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3656400, 'default': {'kl': 0.008337081409990788, 'policy_loss': -0.12288457900285721, 'vf_loss': 82.71961212158203, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9904093146324158, 'entropy': 2.98329496383667, 'cur_lr': 4.999999873689376e-05, 'total_loss': 82.60938262939453}, 'load_time_ms': 0.68, 'num_steps_sampled': 3656400, 'grad_time_ms': 622.475, 'update_time_ms': 2.487, 'sample_time_ms': 33828.525}",2025-08-31_19-52-49,cda-server-4,34.739176988601685,18282,1756662769,10.157.146.4,False,99690.59342074394,1200
+3048,-611.9883427542976,3048,3657600,{},-768.2999142917959,3657600,0,99725.67052388191,-550.219617801258,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3657600, 'default': {'kl': 0.010827150195837021, 'policy_loss': -0.12521487474441528, 'vf_loss': 210.00372314453125, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.978821337223053, 'entropy': 2.7582263946533203, 'cur_lr': 4.999999873689376e-05, 'total_loss': 209.8949432373047}, 'load_time_ms': 0.68, 'num_steps_sampled': 3657600, 'grad_time_ms': 645.833, 'update_time_ms': 2.441, 'sample_time_ms': 33881.037}",2025-08-31_19-53-24,cda-server-4,35.07710313796997,18288,1756662804,10.157.146.4,False,99725.67052388191,1200
+3049,-612.5585093116264,3049,3658800,{},-768.2999142917959,3658800,0,99759.26241731644,-550.219617801258,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3658800, 'default': {'kl': 0.010761099867522717, 'policy_loss': -0.15052850544452667, 'vf_loss': 260.261474609375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9702416658401489, 'entropy': 3.143040895462036, 'cur_lr': 4.999999873689376e-05, 'total_loss': 260.1272888183594}, 'load_time_ms': 0.671, 'num_steps_sampled': 3658800, 'grad_time_ms': 637.092, 'update_time_ms': 2.442, 'sample_time_ms': 33783.232}",2025-08-31_19-53-58,cda-server-4,33.591893434524536,18294,1756662838,10.157.146.4,False,99759.26241731644,1200
+3050,-611.5340026207704,3050,3660000,{},-768.2999142917959,3660000,0,99792.61314105988,-550.219617801258,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3660000, 'default': {'kl': 0.011285758577287197, 'policy_loss': -0.13105076551437378, 'vf_loss': 151.94996643066406, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9805374145507812, 'entropy': 3.0563151836395264, 'cur_lr': 4.999999873689376e-05, 'total_loss': 151.83604431152344}, 'load_time_ms': 0.644, 'num_steps_sampled': 3660000, 'grad_time_ms': 629.087, 'update_time_ms': 2.469, 'sample_time_ms': 33541.037}",2025-08-31_19-54-31,cda-server-4,33.35072374343872,18300,1756662871,10.157.146.4,False,99792.61314105988,1200
+3051,-611.7273468377618,3051,3661200,{},-768.2999142917959,3661200,0,99826.69450640678,-550.219617801258,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3661200, 'default': {'kl': 0.009712089784443378, 'policy_loss': -0.12994132936000824, 'vf_loss': 160.6927490234375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9761269092559814, 'entropy': 2.9523019790649414, 'cur_lr': 4.999999873689376e-05, 'total_loss': 160.5775604248047}, 'load_time_ms': 0.654, 'num_steps_sampled': 3661200, 'grad_time_ms': 637.884, 'update_time_ms': 2.302, 'sample_time_ms': 33453.74}",2025-08-31_19-55-06,cda-server-4,34.08136534690857,18306,1756662906,10.157.146.4,False,99826.69450640678,1200
+3052,-609.8710096776713,3052,3662400,{},-748.5907806241792,3662400,0,99861.77033686638,-549.4589514286349,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3662400, 'default': {'kl': 0.011404252611100674, 'policy_loss': -0.13362115621566772, 'vf_loss': 48.51262283325195, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9954094290733337, 'entropy': 2.6727075576782227, 'cur_lr': 4.999999873689376e-05, 'total_loss': 48.396324157714844}, 'load_time_ms': 0.649, 'num_steps_sampled': 3662400, 'grad_time_ms': 640.35, 'update_time_ms': 2.295, 'sample_time_ms': 33512.72}",2025-08-31_19-55-41,cda-server-4,35.07583045959473,18312,1756662941,10.157.146.4,False,99861.77033686638,1200
+3053,-609.1825609881168,3053,3663600,{},-748.5907806241792,3663600,0,99896.13940405846,-549.4589514286349,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3663600, 'default': {'kl': 0.014221318997442722, 'policy_loss': -0.16467876732349396, 'vf_loss': 108.7283935546875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9866459369659424, 'entropy': 2.7350950241088867, 'cur_lr': 4.999999873689376e-05, 'total_loss': 108.58531951904297}, 'load_time_ms': 0.648, 'num_steps_sampled': 3663600, 'grad_time_ms': 657.242, 'update_time_ms': 2.334, 'sample_time_ms': 33545.665}",2025-08-31_19-56-15,cda-server-4,34.36906719207764,18318,1756662975,10.157.146.4,False,99896.13940405846,1200
+3054,-609.2182398671756,3054,3664800,{},-748.5907806241792,3664800,0,99930.57497572899,-549.4589514286349,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3664800, 'default': {'kl': 0.010622333735227585, 'policy_loss': -0.1424441784620285, 'vf_loss': 50.28511047363281, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9935789108276367, 'entropy': 2.8761799335479736, 'cur_lr': 4.999999873689376e-05, 'total_loss': 50.15879821777344}, 'load_time_ms': 0.671, 'num_steps_sampled': 3664800, 'grad_time_ms': 656.371, 'update_time_ms': 2.377, 'sample_time_ms': 33614.317}",2025-08-31_19-56-49,cda-server-4,34.43557167053223,18324,1756663009,10.157.146.4,False,99930.57497572899,1200
+3055,-608.0224885539134,3055,3666000,{},-748.5907806241792,3666000,0,99965.18207287788,-513.7101664411617,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3666000, 'default': {'kl': 0.011711441911756992, 'policy_loss': -0.14152437448501587, 'vf_loss': 143.0726318359375, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9867474436759949, 'entropy': 2.93552565574646, 'cur_lr': 4.999999873689376e-05, 'total_loss': 142.94891357421875}, 'load_time_ms': 0.674, 'num_steps_sampled': 3666000, 'grad_time_ms': 649.469, 'update_time_ms': 2.409, 'sample_time_ms': 33614.514}",2025-08-31_19-57-24,cda-server-4,34.607097148895264,18330,1756663044,10.157.146.4,False,99965.18207287788,1200
+3056,-606.1258164819739,3056,3667200,{},-644.7640614858582,3667200,0,99999.04911851883,-513.7101664411617,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3667200, 'default': {'kl': 0.012098308652639389, 'policy_loss': -0.13529878854751587, 'vf_loss': 210.49171447753906, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9738784432411194, 'entropy': 2.7442288398742676, 'cur_lr': 4.999999873689376e-05, 'total_loss': 210.37478637695312}, 'load_time_ms': 0.644, 'num_steps_sampled': 3667200, 'grad_time_ms': 658.528, 'update_time_ms': 2.325, 'sample_time_ms': 33653.825}",2025-08-31_19-57-58,cda-server-4,33.867045640945435,18336,1756663078,10.157.146.4,False,99999.04911851883,1200
+3057,-606.5212920259776,3057,3668400,{},-644.7640614858582,3668400,0,100032.43713736534,-513.7101664411617,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3668400, 'default': {'kl': 0.009077923372387886, 'policy_loss': -0.12681999802589417, 'vf_loss': 133.4578399658203, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9816966652870178, 'entropy': 2.9154837131500244, 'cur_lr': 4.999999873689376e-05, 'total_loss': 133.3448028564453}, 'load_time_ms': 0.647, 'num_steps_sampled': 3668400, 'grad_time_ms': 668.138, 'update_time_ms': 2.284, 'sample_time_ms': 33509.152}",2025-08-31_19-58-31,cda-server-4,33.38801884651184,18342,1756663111,10.157.146.4,False,100032.43713736534,1200
+3058,-605.9262679571499,3058,3669600,{},-644.7640614858582,3669600,0,100066.71138095856,-513.7101664411617,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3669600, 'default': {'kl': 0.011352547444403172, 'policy_loss': -0.12993238866329193, 'vf_loss': 51.0887336730957, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9938316345214844, 'entropy': 2.893364191055298, 'cur_lr': 4.999999873689376e-05, 'total_loss': 50.97603988647461}, 'load_time_ms': 0.646, 'num_steps_sampled': 3669600, 'grad_time_ms': 671.183, 'update_time_ms': 2.296, 'sample_time_ms': 33425.834}",2025-08-31_19-59-06,cda-server-4,34.27424359321594,18348,1756663146,10.157.146.4,False,100066.71138095856,1200
+3059,-605.3951112481327,3059,3670800,{},-644.7640614858582,3670800,0,100101.73543834686,-513.7101664411617,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3670800, 'default': {'kl': 0.013967086561024189, 'policy_loss': -0.17991803586483002, 'vf_loss': 763.6213989257812, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9729573130607605, 'entropy': 2.7507596015930176, 'cur_lr': 4.999999873689376e-05, 'total_loss': 763.4627075195312}, 'load_time_ms': 0.652, 'num_steps_sampled': 3670800, 'grad_time_ms': 683.238, 'update_time_ms': 2.265, 'sample_time_ms': 33557.13}",2025-08-31_19-59-41,cda-server-4,35.024057388305664,18354,1756663181,10.157.146.4,False,100101.73543834686,1200
+3060,-604.4462944608543,3060,3672000,{},-644.7640614858582,3672000,0,100136.4359099865,-442.03573088121436,"{'clip_rewards': None, 'observation_filter': 'MeanStdFilter', 'output_max_file_size': 67108864, 'synchronize_filters': True, 'simple_optimizer': False, 'lr_schedule': None, 'vf_loss_coeff': 1.0, 'num_gpus': 0, 'compress_observations': False, 'output': None, 'postprocess_inputs': False, 'kl_target': 0.01, 'vf_clip_param': 10.0, 'num_workers': 3, 'num_cpus_per_worker': 1, 'num_sgd_iter': 30, 'grad_clip': None, 'clip_param': 0.3, 'tf_session_args': {'log_device_placement': False, 'device_count': {'CPU': 1}, 'inter_op_parallelism_threads': 2, 'allow_soft_placement': True, 'gpu_options': {'allow_growth': True}, 'intra_op_parallelism_threads': 2}, 'num_envs_per_worker': 1, 'log_level': 'INFO', 'lr': 5e-05, 'custom_resources_per_worker': {}, 'sample_async': False, 'input': 'sampler', 'entropy_coeff': 0.0, 'batch_mode': 'truncate_episodes', 'kl_coeff': 0.2, 'output_compress_columns': ['obs', 'new_obs'], 'num_gpus_per_worker': 0, 'straggler_mitigation': False, 'callbacks': {'on_episode_end': None, 'on_episode_start': None, 'on_train_result': None, 'on_sample_end': None, 'on_episode_step': None}, 'env': 'LEDRO_D_FC', 'model': {'grayscale': False, 'zero_mean': True, 'dim': 84, 'custom_model': None, 'custom_preprocessor': None, 'conv_activation': 'relu', 'use_lstm': False, 'framestack': True, 'custom_options': {}, 'fcnet_hiddens': [128, 128, 128], 'lstm_cell_size': 256, 'free_log_std': False, 'conv_filters': None, 'fcnet_activation': 'tanh', 'max_seq_len': 20, 'squash_to_range': False, 'lstm_use_prev_action_reward': False}, 'preprocessor_pref': 'deepmind', 'vf_share_layers': False, 'lambda': 1.0, 'monitor': False, 'input_evaluation': None, 'train_batch_size': 1200, 'sgd_minibatch_size': 128, 'optimizer': {}, 'num_cpus_for_driver': 1, 'sample_batch_size': 200, 'collect_metrics_timeout': 180, 'horizon': 200, 'env_config': {'run_valid': False, 'generalize': True}, 'use_gae': True, 'local_evaluator_tf_session_args': {'intra_op_parallelism_threads': 8, 'inter_op_parallelism_threads': 8}, 'gamma': 0.99, 'multiagent': {'policy_mapping_fn': None, 'policies_to_train': None, 'policy_graphs': {}}, 'clip_actions': True}",6,942113,a33cac0cd2704ce0884bd1d13a520a1e,200.0,{},"{'num_steps_trained': 3672000, 'default': {'kl': 0.011209080927073956, 'policy_loss': -0.1380814164876938, 'vf_loss': 262.67791748046875, 'cur_kl_coeff': 1.5187499523162842, 'vf_explained_var': 0.9569117426872253, 'entropy': 2.6908483505249023, 'cur_lr': 4.999999873689376e-05, 'total_loss': 262.556884765625}, 'load_time_ms': 0.66, 'num_steps_sampled': 3672000, 'grad_time_ms': 684.604, 'update_time_ms': 2.271, 'sample_time_ms': 33690.814}",2025-08-31_20-00-15,cda-server-4,34.70047163963318,18360,1756663215,10.157.146.4,False,100136.4359099865,1200
diff --git a/experiments/run_params_10_990_400_horizon200_start200/PPO_LEDRO_D_FC_0_2025-08-30_16-10-10yltfhz_o/result.json b/experiments/run_params_10_990_400_horizon200_start200/PPO_LEDRO_D_FC_0_2025-08-30_16-10-10yltfhz_o/result.json
new file mode 100644
index 0000000..2c06cf6
--- /dev/null
+++ b/experiments/run_params_10_990_400_horizon200_start200/PPO_LEDRO_D_FC_0_2025-08-30_16-10-10yltfhz_o/result.json
@@ -0,0 +1,3062 @@
+{"iterations_since_restore": 1, "episode_reward_mean": -915.4631628403382, "training_iteration": 1, "timesteps_total": 1200, "policy_reward_mean": {}, "episode_reward_min": -962.3449331318349, "timesteps_since_restore": 1200, "num_metric_batches_dropped": 0, "time_since_restore": 40.931931018829346, "episode_reward_max": -891.590952136459, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1200, "default": {"kl": 0.021566931158304214, "policy_loss": -0.11831244826316833, "vf_loss": 82504.34375, "cur_kl_coeff": 0.20000000298023224, "vf_explained_var": -0.0019222100963816047, "entropy": 18.654489517211914, "cur_lr": 4.999999873689376e-05, "total_loss": 82504.2265625}, "load_time_ms": 94.602, "num_steps_sampled": 1200, "grad_time_ms": 1800.816, "update_time_ms": 1375.652, "sample_time_ms": 37576.671}, "date": "2025-08-30_16-11-04", "hostname": "cda-server-4", "time_this_iter_s": 40.931931018829346, "episodes_total": 6, "timestamp": 1756563064, "node_ip": "10.157.146.4", "done": false, "time_total_s": 40.931931018829346, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2, "episode_reward_mean": -914.8397641689475, "training_iteration": 2, "timesteps_total": 2400, "policy_reward_mean": {}, "episode_reward_min": -962.3449331318349, "timesteps_since_restore": 2400, "num_metric_batches_dropped": 0, "time_since_restore": 73.4474310874939, "episode_reward_max": -883.6583674706847, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2400, "default": {"kl": 0.02416645921766758, "policy_loss": -0.13607536256313324, "vf_loss": 80162.28125, "cur_kl_coeff": 0.30000001192092896, "vf_explained_var": -0.002534416038542986, "entropy": 18.629140853881836, "cur_lr": 4.999999873689376e-05, "total_loss": 80162.1484375}, "load_time_ms": 47.747, "num_steps_sampled": 2400, "grad_time_ms": 1275.018, "update_time_ms": 689.006, "sample_time_ms": 34668.153}, "date": "2025-08-30_16-11-36", "hostname": "cda-server-4", "time_this_iter_s": 32.51550006866455, "episodes_total": 12, "timestamp": 1756563096, "node_ip": "10.157.146.4", "done": false, "time_total_s": 73.4474310874939, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3, "episode_reward_mean": -925.7608040250925, "training_iteration": 3, "timesteps_total": 3600, "policy_reward_mean": {}, "episode_reward_min": -980.18169914487, "timesteps_since_restore": 3600, "num_metric_batches_dropped": 0, "time_since_restore": 101.4539270401001, "episode_reward_max": -883.6583674706847, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3600, "default": {"kl": 0.022288603708148003, "policy_loss": -0.12421447783708572, "vf_loss": 85742.53125, "cur_kl_coeff": 0.44999995827674866, "vf_explained_var": 0.017854519188404083, "entropy": 18.607887268066406, "cur_lr": 4.999999873689376e-05, "total_loss": 85742.421875}, "load_time_ms": 32.111, "num_steps_sampled": 3600, "grad_time_ms": 1099.167, "update_time_ms": 460.09, "sample_time_ms": 32196.136}, "date": "2025-08-30_16-12-04", "hostname": "cda-server-4", "time_this_iter_s": 28.0064959526062, "episodes_total": 18, "timestamp": 1756563124, "node_ip": "10.157.146.4", "done": false, "time_total_s": 101.4539270401001, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 4, "episode_reward_mean": -929.7724155678834, "training_iteration": 4, "timesteps_total": 4800, "policy_reward_mean": {}, "episode_reward_min": -980.18169914487, "timesteps_since_restore": 4800, "num_metric_batches_dropped": 0, "time_since_restore": 134.29423356056213, "episode_reward_max": -883.6583674706847, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 4800, "default": {"kl": 0.02014957182109356, "policy_loss": -0.12444224953651428, "vf_loss": 82854.4296875, "cur_kl_coeff": 0.675000011920929, "vf_explained_var": 0.014362143352627754, "entropy": 18.598543167114258, "cur_lr": 4.999999873689376e-05, "total_loss": 82854.3203125}, "load_time_ms": 24.24, "num_steps_sampled": 4800, "grad_time_ms": 1009.972, "update_time_ms": 345.53, "sample_time_ms": 32169.991}, "date": "2025-08-30_16-12-37", "hostname": "cda-server-4", "time_this_iter_s": 32.840306520462036, "episodes_total": 24, "timestamp": 1756563157, "node_ip": "10.157.146.4", "done": false, "time_total_s": 134.29423356056213, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 5, "episode_reward_mean": -929.2023818293707, "training_iteration": 5, "timesteps_total": 6000, "policy_reward_mean": {}, "episode_reward_min": -980.18169914487, "timesteps_since_restore": 6000, "num_metric_batches_dropped": 0, "time_since_restore": 166.18449664115906, "episode_reward_max": -855.9187727248385, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 6000, "default": {"kl": 0.016802439466118813, "policy_loss": -0.10144172608852386, "vf_loss": 80344.265625, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": 0.007548067253082991, "entropy": 18.570688247680664, "cur_lr": 4.999999873689376e-05, "total_loss": 80344.171875}, "load_time_ms": 19.55, "num_steps_sampled": 6000, "grad_time_ms": 946.265, "update_time_ms": 276.862, "sample_time_ms": 31974.482}, "date": "2025-08-30_16-13-09", "hostname": "cda-server-4", "time_this_iter_s": 31.890263080596924, "episodes_total": 30, "timestamp": 1756563189, "node_ip": "10.157.146.4", "done": false, "time_total_s": 166.18449664115906, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 6, "episode_reward_mean": -929.9683224817782, "training_iteration": 6, "timesteps_total": 7200, "policy_reward_mean": {}, "episode_reward_min": -980.18169914487, "timesteps_since_restore": 7200, "num_metric_batches_dropped": 0, "time_since_restore": 195.12424230575562, "episode_reward_max": -855.9187727248385, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 7200, "default": {"kl": 0.01950201950967312, "policy_loss": -0.13636747002601624, "vf_loss": 79892.859375, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": 0.007063898723572493, "entropy": 18.52806282043457, "cur_lr": 4.999999873689376e-05, "total_loss": 79892.75}, "load_time_ms": 16.405, "num_steps_sampled": 7200, "grad_time_ms": 903.103, "update_time_ms": 231.094, "sample_time_ms": 31353.057}, "date": "2025-08-30_16-13-38", "hostname": "cda-server-4", "time_this_iter_s": 28.939745664596558, "episodes_total": 36, "timestamp": 1756563218, "node_ip": "10.157.146.4", "done": false, "time_total_s": 195.12424230575562, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 7, "episode_reward_mean": -928.2371501124954, "training_iteration": 7, "timesteps_total": 8400, "policy_reward_mean": {}, "episode_reward_min": -980.18169914487, "timesteps_since_restore": 8400, "num_metric_batches_dropped": 0, "time_since_restore": 225.43561267852783, "episode_reward_max": -851.7273463798581, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 8400, "default": {"kl": 0.017083577811717987, "policy_loss": -0.1263360232114792, "vf_loss": 77957.59375, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": -0.001894659479148686, "entropy": 18.511943817138672, "cur_lr": 4.999999873689376e-05, "total_loss": 77957.46875}, "load_time_ms": 14.193, "num_steps_sampled": 8400, "grad_time_ms": 870.78, "update_time_ms": 198.452, "sample_time_ms": 31106.489}, "date": "2025-08-30_16-14-08", "hostname": "cda-server-4", "time_this_iter_s": 30.311370372772217, "episodes_total": 42, "timestamp": 1756563248, "node_ip": "10.157.146.4", "done": false, "time_total_s": 225.43561267852783, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 8, "episode_reward_mean": -926.6774743133832, "training_iteration": 8, "timesteps_total": 9600, "policy_reward_mean": {}, "episode_reward_min": -980.18169914487, "timesteps_since_restore": 9600, "num_metric_batches_dropped": 0, "time_since_restore": 256.3548216819763, "episode_reward_max": -851.7273463798581, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 9600, "default": {"kl": 0.017528928816318512, "policy_loss": -0.12441110610961914, "vf_loss": 76247.46875, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": 0.012998421676456928, "entropy": 18.499597549438477, "cur_lr": 4.999999873689376e-05, "total_loss": 76247.359375}, "load_time_ms": 12.489, "num_steps_sampled": 9600, "grad_time_ms": 850.172, "update_time_ms": 173.952, "sample_time_ms": 30993.925}, "date": "2025-08-30_16-14-39", "hostname": "cda-server-4", "time_this_iter_s": 30.919209003448486, "episodes_total": 48, "timestamp": 1756563279, "node_ip": "10.157.146.4", "done": false, "time_total_s": 256.3548216819763, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 9, "episode_reward_mean": -926.038209150126, "training_iteration": 9, "timesteps_total": 10800, "policy_reward_mean": {}, "episode_reward_min": -980.18169914487, "timesteps_since_restore": 10800, "num_metric_batches_dropped": 0, "time_since_restore": 286.87660121917725, "episode_reward_max": -851.7273463798581, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 10800, "default": {"kl": 0.017439113929867744, "policy_loss": -0.1284089982509613, "vf_loss": 74520.859375, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": 0.0015607806853950024, "entropy": 18.48875617980957, "cur_lr": 4.999999873689376e-05, "total_loss": 74520.75}, "load_time_ms": 11.169, "num_steps_sampled": 10800, "grad_time_ms": 813.285, "update_time_ms": 154.907, "sample_time_ms": 30883.177}, "date": "2025-08-30_16-15-10", "hostname": "cda-server-4", "time_this_iter_s": 30.521779537200928, "episodes_total": 54, "timestamp": 1756563310, "node_ip": "10.157.146.4", "done": false, "time_total_s": 286.87660121917725, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 10, "episode_reward_mean": -924.0231970547859, "training_iteration": 10, "timesteps_total": 12000, "policy_reward_mean": {}, "episode_reward_min": -980.18169914487, "timesteps_since_restore": 12000, "num_metric_batches_dropped": 0, "time_since_restore": 320.3386015892029, "episode_reward_max": -851.7273463798581, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 12000, "default": {"kl": 0.017573727294802666, "policy_loss": -0.14503222703933716, "vf_loss": 71783.90625, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": -0.0021464957389980555, "entropy": 18.44955825805664, "cur_lr": 4.999999873689376e-05, "total_loss": 71783.78125}, "load_time_ms": 10.11, "num_steps_sampled": 12000, "grad_time_ms": 801.27, "update_time_ms": 139.586, "sample_time_ms": 31071.088}, "date": "2025-08-30_16-15-43", "hostname": "cda-server-4", "time_this_iter_s": 33.462000370025635, "episodes_total": 60, "timestamp": 1756563343, "node_ip": "10.157.146.4", "done": false, "time_total_s": 320.3386015892029, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 11, "episode_reward_mean": -918.986927698508, "training_iteration": 11, "timesteps_total": 13200, "policy_reward_mean": {}, "episode_reward_min": -980.18169914487, "timesteps_since_restore": 13200, "num_metric_batches_dropped": 0, "time_since_restore": 349.0447373390198, "episode_reward_max": -762.9241498624782, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 13200, "default": {"kl": 0.017201995477080345, "policy_loss": -0.12166617810726166, "vf_loss": 67131.1015625, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": -0.020276201888918877, "entropy": 18.43106460571289, "cur_lr": 4.999999873689376e-05, "total_loss": 67131.0078125}, "load_time_ms": 0.711, "num_steps_sampled": 13200, "grad_time_ms": 694.043, "update_time_ms": 2.258, "sample_time_ms": 30110.521}, "date": "2025-08-30_16-16-12", "hostname": "cda-server-4", "time_this_iter_s": 28.706135749816895, "episodes_total": 66, "timestamp": 1756563372, "node_ip": "10.157.146.4", "done": false, "time_total_s": 349.0447373390198, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 12, "episode_reward_mean": -918.2665259130619, "training_iteration": 12, "timesteps_total": 14400, "policy_reward_mean": {}, "episode_reward_min": -980.18169914487, "timesteps_since_restore": 14400, "num_metric_batches_dropped": 0, "time_since_restore": 378.7079584598541, "episode_reward_max": -762.9241498624782, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 14400, "default": {"kl": 0.016904253512620926, "policy_loss": -0.11986447870731354, "vf_loss": 70183.3515625, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": 0.00018828445172403008, "entropy": 18.42489242553711, "cur_lr": 4.999999873689376e-05, "total_loss": 70183.25}, "load_time_ms": 0.688, "num_steps_sampled": 14400, "grad_time_ms": 670.084, "update_time_ms": 2.194, "sample_time_ms": 29849.239}, "date": "2025-08-30_16-16-42", "hostname": "cda-server-4", "time_this_iter_s": 29.66322112083435, "episodes_total": 72, "timestamp": 1756563402, "node_ip": "10.157.146.4", "done": false, "time_total_s": 378.7079584598541, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 13, "episode_reward_mean": -917.7553229268651, "training_iteration": 13, "timesteps_total": 15600, "policy_reward_mean": {}, "episode_reward_min": -980.18169914487, "timesteps_since_restore": 15600, "num_metric_batches_dropped": 0, "time_since_restore": 409.1483449935913, "episode_reward_max": -762.9241498624782, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 15600, "default": {"kl": 0.018256906419992447, "policy_loss": -0.14394323527812958, "vf_loss": 68537.234375, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": 0.007131695747375488, "entropy": 18.394933700561523, "cur_lr": 4.999999873689376e-05, "total_loss": 68537.109375}, "load_time_ms": 0.664, "num_steps_sampled": 15600, "grad_time_ms": 661.626, "update_time_ms": 2.159, "sample_time_ms": 30101.131}, "date": "2025-08-30_16-17-12", "hostname": "cda-server-4", "time_this_iter_s": 30.440386533737183, "episodes_total": 78, "timestamp": 1756563432, "node_ip": "10.157.146.4", "done": false, "time_total_s": 409.1483449935913, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 14, "episode_reward_mean": -916.2402333367097, "training_iteration": 14, "timesteps_total": 16800, "policy_reward_mean": {}, "episode_reward_min": -980.18169914487, "timesteps_since_restore": 16800, "num_metric_batches_dropped": 0, "time_since_restore": 439.97073769569397, "episode_reward_max": -762.9241498624782, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 16800, "default": {"kl": 0.01816420443356037, "policy_loss": -0.13565292954444885, "vf_loss": 67150.4375, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": -0.00011689132952596992, "entropy": 18.369239807128906, "cur_lr": 4.999999873689376e-05, "total_loss": 67150.3203125}, "load_time_ms": 0.659, "num_steps_sampled": 16800, "grad_time_ms": 637.764, "update_time_ms": 2.18, "sample_time_ms": 29923.093}, "date": "2025-08-30_16-17-43", "hostname": "cda-server-4", "time_this_iter_s": 30.82239270210266, "episodes_total": 84, "timestamp": 1756563463, "node_ip": "10.157.146.4", "done": false, "time_total_s": 439.97073769569397, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 15, "episode_reward_mean": -914.622603229799, "training_iteration": 15, "timesteps_total": 18000, "policy_reward_mean": {}, "episode_reward_min": -980.18169914487, "timesteps_since_restore": 18000, "num_metric_batches_dropped": 0, "time_since_restore": 469.8236918449402, "episode_reward_max": -762.9241498624782, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 18000, "default": {"kl": 0.01707661896944046, "policy_loss": -0.12581056356430054, "vf_loss": 65607.390625, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": 0.0064279502257704735, "entropy": 18.32332420349121, "cur_lr": 4.999999873689376e-05, "total_loss": 65607.28125}, "load_time_ms": 0.67, "num_steps_sampled": 18000, "grad_time_ms": 632.068, "update_time_ms": 2.147, "sample_time_ms": 29725.043}, "date": "2025-08-30_16-18-13", "hostname": "cda-server-4", "time_this_iter_s": 29.852954149246216, "episodes_total": 90, "timestamp": 1756563493, "node_ip": "10.157.146.4", "done": false, "time_total_s": 469.8236918449402, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 16, "episode_reward_mean": -914.586381346429, "training_iteration": 16, "timesteps_total": 19200, "policy_reward_mean": {}, "episode_reward_min": -980.18169914487, "timesteps_since_restore": 19200, "num_metric_batches_dropped": 0, "time_since_restore": 499.1648304462433, "episode_reward_max": -762.9241498624782, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 19200, "default": {"kl": 0.017755145207047462, "policy_loss": -0.13263991475105286, "vf_loss": 67840.8984375, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": -0.0077851214446127415, "entropy": 18.352575302124023, "cur_lr": 4.999999873689376e-05, "total_loss": 67840.78125}, "load_time_ms": 0.692, "num_steps_sampled": 19200, "grad_time_ms": 623.453, "update_time_ms": 2.114, "sample_time_ms": 29773.668}, "date": "2025-08-30_16-18-42", "hostname": "cda-server-4", "time_this_iter_s": 29.3411386013031, "episodes_total": 96, "timestamp": 1756563522, "node_ip": "10.157.146.4", "done": false, "time_total_s": 499.1648304462433, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 17, "episode_reward_mean": -912.9202926666521, "training_iteration": 17, "timesteps_total": 20400, "policy_reward_mean": {}, "episode_reward_min": -980.18169914487, "timesteps_since_restore": 20400, "num_metric_batches_dropped": 0, "time_since_restore": 528.7519083023071, "episode_reward_max": -762.9241498624782, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 20400, "default": {"kl": 0.017818383872509003, "policy_loss": -0.13474389910697937, "vf_loss": 64468.85546875, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": -0.02842794544994831, "entropy": 18.316118240356445, "cur_lr": 4.999999873689376e-05, "total_loss": 64468.734375}, "load_time_ms": 0.659, "num_steps_sampled": 20400, "grad_time_ms": 625.432, "update_time_ms": 2.105, "sample_time_ms": 29699.265}, "date": "2025-08-30_16-19-12", "hostname": "cda-server-4", "time_this_iter_s": 29.587077856063843, "episodes_total": 102, "timestamp": 1756563552, "node_ip": "10.157.146.4", "done": false, "time_total_s": 528.7519083023071, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 18, "episode_reward_mean": -911.629946595034, "training_iteration": 18, "timesteps_total": 21600, "policy_reward_mean": {}, "episode_reward_min": -980.18169914487, "timesteps_since_restore": 21600, "num_metric_batches_dropped": 0, "time_since_restore": 559.5828275680542, "episode_reward_max": -762.9241498624782, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 21600, "default": {"kl": 0.017155751585960388, "policy_loss": -0.1270543932914734, "vf_loss": 62929.73046875, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": -0.003036028705537319, "entropy": 18.303882598876953, "cur_lr": 4.999999873689376e-05, "total_loss": 62929.6171875}, "load_time_ms": 0.668, "num_steps_sampled": 21600, "grad_time_ms": 624.511, "update_time_ms": 2.114, "sample_time_ms": 29691.356}, "date": "2025-08-30_16-19-43", "hostname": "cda-server-4", "time_this_iter_s": 30.83091926574707, "episodes_total": 108, "timestamp": 1756563583, "node_ip": "10.157.146.4", "done": false, "time_total_s": 559.5828275680542, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 19, "episode_reward_mean": -908.0807341097496, "training_iteration": 19, "timesteps_total": 22800, "policy_reward_mean": {}, "episode_reward_min": -976.4182222940282, "timesteps_since_restore": 22800, "num_metric_batches_dropped": 0, "time_since_restore": 590.2648494243622, "episode_reward_max": -762.9241498624782, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 22800, "default": {"kl": 0.016594327986240387, "policy_loss": -0.13239796459674835, "vf_loss": 59815.765625, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": -0.008357041515409946, "entropy": 18.27692222595215, "cur_lr": 4.999999873689376e-05, "total_loss": 59815.64453125}, "load_time_ms": 0.674, "num_steps_sampled": 22800, "grad_time_ms": 643.489, "update_time_ms": 2.081, "sample_time_ms": 29688.354}, "date": "2025-08-30_16-20-13", "hostname": "cda-server-4", "time_this_iter_s": 30.682021856307983, "episodes_total": 114, "timestamp": 1756563613, "node_ip": "10.157.146.4", "done": false, "time_total_s": 590.2648494243622, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 20, "episode_reward_mean": -903.0250780303811, "training_iteration": 20, "timesteps_total": 24000, "policy_reward_mean": {}, "episode_reward_min": -976.4182222940282, "timesteps_since_restore": 24000, "num_metric_batches_dropped": 0, "time_since_restore": 622.7006895542145, "episode_reward_max": -753.8632362758399, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 24000, "default": {"kl": 0.016153855249285698, "policy_loss": -0.13912120461463928, "vf_loss": 57708.16796875, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": 0.006848951335996389, "entropy": 18.269086837768555, "cur_lr": 4.999999873689376e-05, "total_loss": 57708.04296875}, "load_time_ms": 0.675, "num_steps_sampled": 24000, "grad_time_ms": 642.132, "update_time_ms": 2.126, "sample_time_ms": 29587.057}, "date": "2025-08-30_16-20-46", "hostname": "cda-server-4", "time_this_iter_s": 32.435840129852295, "episodes_total": 120, "timestamp": 1756563646, "node_ip": "10.157.146.4", "done": false, "time_total_s": 622.7006895542145, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 21, "episode_reward_mean": -900.5313856582856, "training_iteration": 21, "timesteps_total": 25200, "policy_reward_mean": {}, "episode_reward_min": -976.4182222940282, "timesteps_since_restore": 25200, "num_metric_batches_dropped": 0, "time_since_restore": 651.7712457180023, "episode_reward_max": -753.8632362758399, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 25200, "default": {"kl": 0.01708853989839554, "policy_loss": -0.12779764831066132, "vf_loss": 60473.8046875, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": 0.008386459201574326, "entropy": 18.254671096801758, "cur_lr": 4.999999873689376e-05, "total_loss": 60473.6953125}, "load_time_ms": 0.679, "num_steps_sampled": 25200, "grad_time_ms": 625.005, "update_time_ms": 2.167, "sample_time_ms": 29640.578}, "date": "2025-08-30_16-21-15", "hostname": "cda-server-4", "time_this_iter_s": 29.070556163787842, "episodes_total": 126, "timestamp": 1756563675, "node_ip": "10.157.146.4", "done": false, "time_total_s": 651.7712457180023, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 22, "episode_reward_mean": -894.9012763866832, "training_iteration": 22, "timesteps_total": 26400, "policy_reward_mean": {}, "episode_reward_min": -976.4182222940282, "timesteps_since_restore": 26400, "num_metric_batches_dropped": 0, "time_since_restore": 683.6725625991821, "episode_reward_max": -753.8632362758399, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 26400, "default": {"kl": 0.01762104406952858, "policy_loss": -0.1500639021396637, "vf_loss": 52610.859375, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": 0.012904386036098003, "entropy": 18.20142936706543, "cur_lr": 4.999999873689376e-05, "total_loss": 52610.73046875}, "load_time_ms": 0.705, "num_steps_sampled": 26400, "grad_time_ms": 638.403, "update_time_ms": 2.187, "sample_time_ms": 29850.929}, "date": "2025-08-30_16-21-47", "hostname": "cda-server-4", "time_this_iter_s": 31.90131688117981, "episodes_total": 132, "timestamp": 1756563707, "node_ip": "10.157.146.4", "done": false, "time_total_s": 683.6725625991821, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 23, "episode_reward_mean": -891.9187581438864, "training_iteration": 23, "timesteps_total": 27600, "policy_reward_mean": {}, "episode_reward_min": -976.4182222940282, "timesteps_since_restore": 27600, "num_metric_batches_dropped": 0, "time_since_restore": 711.339563369751, "episode_reward_max": -739.0367111082321, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 27600, "default": {"kl": 0.01635853201150894, "policy_loss": -0.13426262140274048, "vf_loss": 58194.6640625, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": -0.014830774627625942, "entropy": 18.22475814819336, "cur_lr": 4.999999873689376e-05, "total_loss": 58194.546875}, "load_time_ms": 0.702, "num_steps_sampled": 27600, "grad_time_ms": 627.553, "update_time_ms": 2.259, "sample_time_ms": 29584.307}, "date": "2025-08-30_16-22-15", "hostname": "cda-server-4", "time_this_iter_s": 27.667000770568848, "episodes_total": 138, "timestamp": 1756563735, "node_ip": "10.157.146.4", "done": false, "time_total_s": 711.339563369751, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 24, "episode_reward_mean": -889.783713075679, "training_iteration": 24, "timesteps_total": 28800, "policy_reward_mean": {}, "episode_reward_min": -976.4182222940282, "timesteps_since_restore": 28800, "num_metric_batches_dropped": 0, "time_since_restore": 741.6248207092285, "episode_reward_max": -739.0367111082321, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 28800, "default": {"kl": 0.017707517370581627, "policy_loss": -0.12216290086507797, "vf_loss": 57003.265625, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": 0.06256808340549469, "entropy": 18.209636688232422, "cur_lr": 4.999999873689376e-05, "total_loss": 57003.16015625}, "load_time_ms": 0.701, "num_steps_sampled": 28800, "grad_time_ms": 633.337, "update_time_ms": 2.313, "sample_time_ms": 29524.897}, "date": "2025-08-30_16-22-45", "hostname": "cda-server-4", "time_this_iter_s": 30.28525733947754, "episodes_total": 144, "timestamp": 1756563765, "node_ip": "10.157.146.4", "done": false, "time_total_s": 741.6248207092285, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 25, "episode_reward_mean": -889.4152942752276, "training_iteration": 25, "timesteps_total": 30000, "policy_reward_mean": {}, "episode_reward_min": -976.4182222940282, "timesteps_since_restore": 30000, "num_metric_batches_dropped": 0, "time_since_restore": 770.0583472251892, "episode_reward_max": -739.0367111082321, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 30000, "default": {"kl": 0.01824086159467697, "policy_loss": -0.12564553320407867, "vf_loss": 60686.52734375, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": 0.00032483867835253477, "entropy": 18.185951232910156, "cur_lr": 4.999999873689376e-05, "total_loss": 60686.421875}, "load_time_ms": 0.671, "num_steps_sampled": 30000, "grad_time_ms": 639.769, "update_time_ms": 2.419, "sample_time_ms": 29376.463}, "date": "2025-08-30_16-23-13", "hostname": "cda-server-4", "time_this_iter_s": 28.433526515960693, "episodes_total": 150, "timestamp": 1756563793, "node_ip": "10.157.146.4", "done": false, "time_total_s": 770.0583472251892, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 26, "episode_reward_mean": -888.7473224687473, "training_iteration": 26, "timesteps_total": 31200, "policy_reward_mean": {}, "episode_reward_min": -976.4182222940282, "timesteps_since_restore": 31200, "num_metric_batches_dropped": 0, "time_since_restore": 799.8116199970245, "episode_reward_max": -739.0367111082321, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 31200, "default": {"kl": 0.018158189952373505, "policy_loss": -0.13563212752342224, "vf_loss": 61034.1875, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": 0.006142907775938511, "entropy": 18.17540168762207, "cur_lr": 4.999999873689376e-05, "total_loss": 61034.0703125}, "load_time_ms": 0.641, "num_steps_sampled": 31200, "grad_time_ms": 651.281, "update_time_ms": 2.404, "sample_time_ms": 29406.354}, "date": "2025-08-30_16-23-43", "hostname": "cda-server-4", "time_this_iter_s": 29.753272771835327, "episodes_total": 156, "timestamp": 1756563823, "node_ip": "10.157.146.4", "done": false, "time_total_s": 799.8116199970245, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 27, "episode_reward_mean": -886.9611635116205, "training_iteration": 27, "timesteps_total": 32400, "policy_reward_mean": {}, "episode_reward_min": -976.4182222940282, "timesteps_since_restore": 32400, "num_metric_batches_dropped": 0, "time_since_restore": 828.6089632511139, "episode_reward_max": -739.0367111082321, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 32400, "default": {"kl": 0.016860978677868843, "policy_loss": -0.12771891057491302, "vf_loss": 51889.83203125, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": 0.05117950960993767, "entropy": 18.094324111938477, "cur_lr": 4.999999873689376e-05, "total_loss": 51889.72265625}, "load_time_ms": 0.642, "num_steps_sampled": 32400, "grad_time_ms": 636.029, "update_time_ms": 2.42, "sample_time_ms": 29342.663}, "date": "2025-08-30_16-24-12", "hostname": "cda-server-4", "time_this_iter_s": 28.797343254089355, "episodes_total": 162, "timestamp": 1756563852, "node_ip": "10.157.146.4", "done": false, "time_total_s": 828.6089632511139, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 28, "episode_reward_mean": -887.9106305591266, "training_iteration": 28, "timesteps_total": 33600, "policy_reward_mean": {}, "episode_reward_min": -981.9046795866857, "timesteps_since_restore": 33600, "num_metric_batches_dropped": 0, "time_since_restore": 857.7356524467468, "episode_reward_max": -739.0367111082321, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 33600, "default": {"kl": 0.016421927139163017, "policy_loss": -0.13010376691818237, "vf_loss": 52550.9453125, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": -0.021654851734638214, "entropy": 18.096134185791016, "cur_lr": 4.999999873689376e-05, "total_loss": 52550.828125}, "load_time_ms": 0.633, "num_steps_sampled": 33600, "grad_time_ms": 611.744, "update_time_ms": 2.357, "sample_time_ms": 29196.644}, "date": "2025-08-30_16-24-41", "hostname": "cda-server-4", "time_this_iter_s": 29.126689195632935, "episodes_total": 168, "timestamp": 1756563881, "node_ip": "10.157.146.4", "done": false, "time_total_s": 857.7356524467468, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 29, "episode_reward_mean": -885.5772023654441, "training_iteration": 29, "timesteps_total": 34800, "policy_reward_mean": {}, "episode_reward_min": -981.9046795866857, "timesteps_since_restore": 34800, "num_metric_batches_dropped": 0, "time_since_restore": 886.1898310184479, "episode_reward_max": -739.0367111082321, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 34800, "default": {"kl": 0.018114497885107994, "policy_loss": -0.13586656749248505, "vf_loss": 53538.6171875, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": 0.008729232475161552, "entropy": 18.085893630981445, "cur_lr": 4.999999873689376e-05, "total_loss": 53538.50390625}, "load_time_ms": 0.653, "num_steps_sampled": 34800, "grad_time_ms": 596.91, "update_time_ms": 2.315, "sample_time_ms": 28988.737}, "date": "2025-08-30_16-25-10", "hostname": "cda-server-4", "time_this_iter_s": 28.45417857170105, "episodes_total": 174, "timestamp": 1756563910, "node_ip": "10.157.146.4", "done": false, "time_total_s": 886.1898310184479, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 30, "episode_reward_mean": -886.6820241999361, "training_iteration": 30, "timesteps_total": 36000, "policy_reward_mean": {}, "episode_reward_min": -981.9046795866857, "timesteps_since_restore": 36000, "num_metric_batches_dropped": 0, "time_since_restore": 914.8635594844818, "episode_reward_max": -739.0367111082321, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 36000, "default": {"kl": 0.01719333790242672, "policy_loss": -0.13435746729373932, "vf_loss": 55006.73046875, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": -0.003946503158658743, "entropy": 18.08782958984375, "cur_lr": 4.999999873689376e-05, "total_loss": 55006.609375}, "load_time_ms": 0.65, "num_steps_sampled": 36000, "grad_time_ms": 578.957, "update_time_ms": 2.383, "sample_time_ms": 28630.429}, "date": "2025-08-30_16-25-38", "hostname": "cda-server-4", "time_this_iter_s": 28.673728466033936, "episodes_total": 180, "timestamp": 1756563938, "node_ip": "10.157.146.4", "done": false, "time_total_s": 914.8635594844818, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 31, "episode_reward_mean": -882.5311326199828, "training_iteration": 31, "timesteps_total": 37200, "policy_reward_mean": {}, "episode_reward_min": -981.9046795866857, "timesteps_since_restore": 37200, "num_metric_batches_dropped": 0, "time_since_restore": 945.0326428413391, "episode_reward_max": -739.0026804527274, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 37200, "default": {"kl": 0.018084479495882988, "policy_loss": -0.1433933675289154, "vf_loss": 51568.66015625, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": -0.03786463290452957, "entropy": 18.041444778442383, "cur_lr": 4.999999873689376e-05, "total_loss": 51568.53515625}, "load_time_ms": 0.647, "num_steps_sampled": 37200, "grad_time_ms": 578.234, "update_time_ms": 2.322, "sample_time_ms": 28741.012}, "date": "2025-08-30_16-26-09", "hostname": "cda-server-4", "time_this_iter_s": 30.1690833568573, "episodes_total": 186, "timestamp": 1756563969, "node_ip": "10.157.146.4", "done": false, "time_total_s": 945.0326428413391, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 32, "episode_reward_mean": -881.6046316829396, "training_iteration": 32, "timesteps_total": 38400, "policy_reward_mean": {}, "episode_reward_min": -981.9046795866857, "timesteps_since_restore": 38400, "num_metric_batches_dropped": 0, "time_since_restore": 974.4406771659851, "episode_reward_max": -739.0026804527274, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 38400, "default": {"kl": 0.01934289187192917, "policy_loss": -0.14301855862140656, "vf_loss": 50934.06640625, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": 0.08869722485542297, "entropy": 18.035669326782227, "cur_lr": 4.999999873689376e-05, "total_loss": 50933.9453125}, "load_time_ms": 0.624, "num_steps_sampled": 38400, "grad_time_ms": 576.794, "update_time_ms": 2.379, "sample_time_ms": 28493.109}, "date": "2025-08-30_16-26-38", "hostname": "cda-server-4", "time_this_iter_s": 29.408034324645996, "episodes_total": 192, "timestamp": 1756563998, "node_ip": "10.157.146.4", "done": false, "time_total_s": 974.4406771659851, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 33, "episode_reward_mean": -878.603431014317, "training_iteration": 33, "timesteps_total": 39600, "policy_reward_mean": {}, "episode_reward_min": -981.9046795866857, "timesteps_since_restore": 39600, "num_metric_batches_dropped": 0, "time_since_restore": 1003.1410448551178, "episode_reward_max": -739.0026804527274, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 39600, "default": {"kl": 0.018692830577492714, "policy_loss": -0.13658860325813293, "vf_loss": 46284.4296875, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": 0.014788176864385605, "entropy": 18.037172317504883, "cur_lr": 4.999999873689376e-05, "total_loss": 46284.3125}, "load_time_ms": 0.625, "num_steps_sampled": 39600, "grad_time_ms": 588.899, "update_time_ms": 2.359, "sample_time_ms": 28584.38}, "date": "2025-08-30_16-27-07", "hostname": "cda-server-4", "time_this_iter_s": 28.70036768913269, "episodes_total": 198, "timestamp": 1756564027, "node_ip": "10.157.146.4", "done": false, "time_total_s": 1003.1410448551178, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 34, "episode_reward_mean": -876.5911522896346, "training_iteration": 34, "timesteps_total": 40800, "policy_reward_mean": {}, "episode_reward_min": -981.9046795866857, "timesteps_since_restore": 40800, "num_metric_batches_dropped": 0, "time_since_restore": 1032.8066980838776, "episode_reward_max": -739.0026804527274, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 40800, "default": {"kl": 0.01756933704018593, "policy_loss": -0.13986395299434662, "vf_loss": 50280.14453125, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": -0.014708942733705044, "entropy": 17.970590591430664, "cur_lr": 4.999999873689376e-05, "total_loss": 50280.0234375}, "load_time_ms": 0.629, "num_steps_sampled": 40800, "grad_time_ms": 598.76, "update_time_ms": 2.367, "sample_time_ms": 28512.515}, "date": "2025-08-30_16-27-36", "hostname": "cda-server-4", "time_this_iter_s": 29.665653228759766, "episodes_total": 204, "timestamp": 1756564056, "node_ip": "10.157.146.4", "done": false, "time_total_s": 1032.8066980838776, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 35, "episode_reward_mean": -877.938759189584, "training_iteration": 35, "timesteps_total": 42000, "policy_reward_mean": {}, "episode_reward_min": -981.9046795866857, "timesteps_since_restore": 42000, "num_metric_batches_dropped": 0, "time_since_restore": 1061.0999927520752, "episode_reward_max": -739.0026804527274, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 42000, "default": {"kl": 0.018952852115035057, "policy_loss": -0.13939183950424194, "vf_loss": 52647.07421875, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": 0.026923788711428642, "entropy": 17.993410110473633, "cur_lr": 4.999999873689376e-05, "total_loss": 52646.953125}, "load_time_ms": 0.637, "num_steps_sampled": 42000, "grad_time_ms": 580.6, "update_time_ms": 2.282, "sample_time_ms": 28516.701}, "date": "2025-08-30_16-28-05", "hostname": "cda-server-4", "time_this_iter_s": 28.293294668197632, "episodes_total": 210, "timestamp": 1756564085, "node_ip": "10.157.146.4", "done": false, "time_total_s": 1061.0999927520752, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 36, "episode_reward_mean": -879.9127506989753, "training_iteration": 36, "timesteps_total": 43200, "policy_reward_mean": {}, "episode_reward_min": -981.9046795866857, "timesteps_since_restore": 43200, "num_metric_batches_dropped": 0, "time_since_restore": 1092.392107963562, "episode_reward_max": -739.0026804527274, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 43200, "default": {"kl": 0.017963387072086334, "policy_loss": -0.14379927515983582, "vf_loss": 47845.671875, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": -0.008248137310147285, "entropy": 17.94219970703125, "cur_lr": 4.999999873689376e-05, "total_loss": 47845.546875}, "load_time_ms": 0.667, "num_steps_sampled": 43200, "grad_time_ms": 581.678, "update_time_ms": 2.299, "sample_time_ms": 28669.362}, "date": "2025-08-30_16-28-36", "hostname": "cda-server-4", "time_this_iter_s": 31.292115211486816, "episodes_total": 216, "timestamp": 1756564116, "node_ip": "10.157.146.4", "done": false, "time_total_s": 1092.392107963562, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 37, "episode_reward_mean": -879.9155243075546, "training_iteration": 37, "timesteps_total": 44400, "policy_reward_mean": {}, "episode_reward_min": -981.9046795866857, "timesteps_since_restore": 44400, "num_metric_batches_dropped": 0, "time_since_restore": 1122.365995645523, "episode_reward_max": -739.0026804527274, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 44400, "default": {"kl": 0.016701312735676765, "policy_loss": -0.1295337826013565, "vf_loss": 52499.76171875, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": -0.030680980533361435, "entropy": 17.97269630432129, "cur_lr": 4.999999873689376e-05, "total_loss": 52499.65234375}, "load_time_ms": 0.665, "num_steps_sampled": 44400, "grad_time_ms": 602.029, "update_time_ms": 2.296, "sample_time_ms": 28766.656}, "date": "2025-08-30_16-29-06", "hostname": "cda-server-4", "time_this_iter_s": 29.97388768196106, "episodes_total": 222, "timestamp": 1756564146, "node_ip": "10.157.146.4", "done": false, "time_total_s": 1122.365995645523, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 38, "episode_reward_mean": -880.3047462039774, "training_iteration": 38, "timesteps_total": 45600, "policy_reward_mean": {}, "episode_reward_min": -981.9046795866857, "timesteps_since_restore": 45600, "num_metric_batches_dropped": 0, "time_since_restore": 1153.765305519104, "episode_reward_max": -739.0026804527274, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 45600, "default": {"kl": 0.01829145848751068, "policy_loss": -0.1491517275571823, "vf_loss": 46117.8828125, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": 0.029628276824951172, "entropy": 17.941238403320312, "cur_lr": 4.999999873689376e-05, "total_loss": 46117.7578125}, "load_time_ms": 0.674, "num_steps_sampled": 45600, "grad_time_ms": 632.107, "update_time_ms": 2.361, "sample_time_ms": 28963.774}, "date": "2025-08-30_16-29-37", "hostname": "cda-server-4", "time_this_iter_s": 31.399309873580933, "episodes_total": 228, "timestamp": 1756564177, "node_ip": "10.157.146.4", "done": false, "time_total_s": 1153.765305519104, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 39, "episode_reward_mean": -881.1011500175181, "training_iteration": 39, "timesteps_total": 46800, "policy_reward_mean": {}, "episode_reward_min": -981.9046795866857, "timesteps_since_restore": 46800, "num_metric_batches_dropped": 0, "time_since_restore": 1185.5621988773346, "episode_reward_max": -739.0026804527274, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 46800, "default": {"kl": 0.017761630937457085, "policy_loss": -0.14278210699558258, "vf_loss": 47039.58203125, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": 0.04119976982474327, "entropy": 17.930877685546875, "cur_lr": 4.999999873689376e-05, "total_loss": 47039.4609375}, "load_time_ms": 0.642, "num_steps_sampled": 46800, "grad_time_ms": 650.475, "update_time_ms": 2.431, "sample_time_ms": 29279.602}, "date": "2025-08-30_16-30-09", "hostname": "cda-server-4", "time_this_iter_s": 31.79689335823059, "episodes_total": 234, "timestamp": 1756564209, "node_ip": "10.157.146.4", "done": false, "time_total_s": 1185.5621988773346, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 40, "episode_reward_mean": -877.8779080136975, "training_iteration": 40, "timesteps_total": 48000, "policy_reward_mean": {}, "episode_reward_min": -981.9046795866857, "timesteps_since_restore": 48000, "num_metric_batches_dropped": 0, "time_since_restore": 1218.2464129924774, "episode_reward_max": -739.0026804527274, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 48000, "default": {"kl": 0.017717722803354263, "policy_loss": -0.13905538618564606, "vf_loss": 41759.984375, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": -0.04036077484488487, "entropy": 17.872047424316406, "cur_lr": 4.999999873689376e-05, "total_loss": 41759.859375}, "load_time_ms": 0.645, "num_steps_sampled": 48000, "grad_time_ms": 676.332, "update_time_ms": 2.403, "sample_time_ms": 29654.813}, "date": "2025-08-30_16-30-42", "hostname": "cda-server-4", "time_this_iter_s": 32.68421411514282, "episodes_total": 240, "timestamp": 1756564242, "node_ip": "10.157.146.4", "done": false, "time_total_s": 1218.2464129924774, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 41, "episode_reward_mean": -876.7328819215867, "training_iteration": 41, "timesteps_total": 49200, "policy_reward_mean": {}, "episode_reward_min": -981.9046795866857, "timesteps_since_restore": 49200, "num_metric_batches_dropped": 0, "time_since_restore": 1248.5635945796967, "episode_reward_max": -739.0026804527274, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 49200, "default": {"kl": 0.018270378932356834, "policy_loss": -0.14956586062908173, "vf_loss": 45079.6875, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": 0.03893605247139931, "entropy": 17.83980941772461, "cur_lr": 4.999999873689376e-05, "total_loss": 45079.55859375}, "load_time_ms": 0.655, "num_steps_sampled": 49200, "grad_time_ms": 694.928, "update_time_ms": 2.425, "sample_time_ms": 29651.003}, "date": "2025-08-30_16-31-12", "hostname": "cda-server-4", "time_this_iter_s": 30.31718158721924, "episodes_total": 246, "timestamp": 1756564272, "node_ip": "10.157.146.4", "done": false, "time_total_s": 1248.5635945796967, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 42, "episode_reward_mean": -872.9232533640676, "training_iteration": 42, "timesteps_total": 50400, "policy_reward_mean": {}, "episode_reward_min": -981.9046795866857, "timesteps_since_restore": 50400, "num_metric_batches_dropped": 0, "time_since_restore": 1276.7941181659698, "episode_reward_max": -739.0026804527274, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 50400, "default": {"kl": 0.019881827756762505, "policy_loss": -0.15592987835407257, "vf_loss": 43153.07421875, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": 0.08442696928977966, "entropy": 17.85050392150879, "cur_lr": 4.999999873689376e-05, "total_loss": 43152.9375}, "load_time_ms": 0.675, "num_steps_sampled": 50400, "grad_time_ms": 706.915, "update_time_ms": 2.483, "sample_time_ms": 29521.27}, "date": "2025-08-30_16-31-40", "hostname": "cda-server-4", "time_this_iter_s": 28.230523586273193, "episodes_total": 252, "timestamp": 1756564300, "node_ip": "10.157.146.4", "done": false, "time_total_s": 1276.7941181659698, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 43, "episode_reward_mean": -874.2120420832957, "training_iteration": 43, "timesteps_total": 51600, "policy_reward_mean": {}, "episode_reward_min": -981.9046795866857, "timesteps_since_restore": 51600, "num_metric_batches_dropped": 0, "time_since_restore": 1306.9174859523773, "episode_reward_max": -739.0026804527274, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 51600, "default": {"kl": 0.01702212542295456, "policy_loss": -0.12855461239814758, "vf_loss": 45992.21875, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": 0.10363467037677765, "entropy": 17.86389923095703, "cur_lr": 4.999999873689376e-05, "total_loss": 45992.109375}, "load_time_ms": 0.684, "num_steps_sampled": 51600, "grad_time_ms": 712.413, "update_time_ms": 2.419, "sample_time_ms": 29658.14}, "date": "2025-08-30_16-32-11", "hostname": "cda-server-4", "time_this_iter_s": 30.12336778640747, "episodes_total": 258, "timestamp": 1756564331, "node_ip": "10.157.146.4", "done": false, "time_total_s": 1306.9174859523773, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 44, "episode_reward_mean": -873.2286480208683, "training_iteration": 44, "timesteps_total": 52800, "policy_reward_mean": {}, "episode_reward_min": -981.9046795866857, "timesteps_since_restore": 52800, "num_metric_batches_dropped": 0, "time_since_restore": 1339.281741142273, "episode_reward_max": -739.0026804527274, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 52800, "default": {"kl": 0.01663035899400711, "policy_loss": -0.14124959707260132, "vf_loss": 43894.2265625, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": 0.052430927753448486, "entropy": 17.83277130126953, "cur_lr": 4.999999873689376e-05, "total_loss": 43894.09765625}, "load_time_ms": 0.679, "num_steps_sampled": 52800, "grad_time_ms": 714.798, "update_time_ms": 2.427, "sample_time_ms": 29925.571}, "date": "2025-08-30_16-32-43", "hostname": "cda-server-4", "time_this_iter_s": 32.36425518989563, "episodes_total": 264, "timestamp": 1756564363, "node_ip": "10.157.146.4", "done": false, "time_total_s": 1339.281741142273, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 45, "episode_reward_mean": -871.6812839898029, "training_iteration": 45, "timesteps_total": 54000, "policy_reward_mean": {}, "episode_reward_min": -980.7142817065137, "timesteps_since_restore": 54000, "num_metric_batches_dropped": 0, "time_since_restore": 1370.4770600795746, "episode_reward_max": -739.0026804527274, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 54000, "default": {"kl": 0.020550604909658432, "policy_loss": -0.14845044910907745, "vf_loss": 40583.3515625, "cur_kl_coeff": 1.0125000476837158, "vf_explained_var": 0.11585471034049988, "entropy": 17.82061004638672, "cur_lr": 4.999999873689376e-05, "total_loss": 40583.22265625}, "load_time_ms": 0.678, "num_steps_sampled": 54000, "grad_time_ms": 732.3, "update_time_ms": 2.453, "sample_time_ms": 30198.202}, "date": "2025-08-30_16-33-14", "hostname": "cda-server-4", "time_this_iter_s": 31.195318937301636, "episodes_total": 270, "timestamp": 1756564394, "node_ip": "10.157.146.4", "done": false, "time_total_s": 1370.4770600795746, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 46, "episode_reward_mean": -873.0181914191536, "training_iteration": 46, "timesteps_total": 55200, "policy_reward_mean": {}, "episode_reward_min": -980.7142817065137, "timesteps_since_restore": 55200, "num_metric_batches_dropped": 0, "time_since_restore": 1403.472193479538, "episode_reward_max": -739.0026804527274, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 55200, "default": {"kl": 0.014039422385394573, "policy_loss": -0.12323704361915588, "vf_loss": 46591.6484375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.05788230150938034, "entropy": 17.82915496826172, "cur_lr": 4.999999873689376e-05, "total_loss": 46591.54296875}, "load_time_ms": 0.675, "num_steps_sampled": 55200, "grad_time_ms": 718.84, "update_time_ms": 2.478, "sample_time_ms": 30382.009}, "date": "2025-08-30_16-33-47", "hostname": "cda-server-4", "time_this_iter_s": 32.99513339996338, "episodes_total": 276, "timestamp": 1756564427, "node_ip": "10.157.146.4", "done": false, "time_total_s": 1403.472193479538, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 47, "episode_reward_mean": -870.4475240353297, "training_iteration": 47, "timesteps_total": 56400, "policy_reward_mean": {}, "episode_reward_min": -980.7142817065137, "timesteps_since_restore": 56400, "num_metric_batches_dropped": 0, "time_since_restore": 1432.291677236557, "episode_reward_max": -739.0026804527274, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 56400, "default": {"kl": 0.014118300750851631, "policy_loss": -0.12818722426891327, "vf_loss": 42680.63671875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.08711125701665878, "entropy": 17.826887130737305, "cur_lr": 4.999999873689376e-05, "total_loss": 42680.52734375}, "load_time_ms": 0.683, "num_steps_sampled": 56400, "grad_time_ms": 714.137, "update_time_ms": 2.452, "sample_time_ms": 30271.272}, "date": "2025-08-30_16-34-16", "hostname": "cda-server-4", "time_this_iter_s": 28.819483757019043, "episodes_total": 282, "timestamp": 1756564456, "node_ip": "10.157.146.4", "done": false, "time_total_s": 1432.291677236557, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 48, "episode_reward_mean": -873.4834233882045, "training_iteration": 48, "timesteps_total": 57600, "policy_reward_mean": {}, "episode_reward_min": -980.7142817065137, "timesteps_since_restore": 57600, "num_metric_batches_dropped": 0, "time_since_restore": 1465.0501940250397, "episode_reward_max": -745.3589641308753, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 57600, "default": {"kl": 0.01543828658759594, "policy_loss": -0.13110020756721497, "vf_loss": 43348.83984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.07138708233833313, "entropy": 17.79393768310547, "cur_lr": 4.999999873689376e-05, "total_loss": 43348.734375}, "load_time_ms": 0.672, "num_steps_sampled": 57600, "grad_time_ms": 706.463, "update_time_ms": 2.433, "sample_time_ms": 30414.893}, "date": "2025-08-30_16-34-49", "hostname": "cda-server-4", "time_this_iter_s": 32.758516788482666, "episodes_total": 288, "timestamp": 1756564489, "node_ip": "10.157.146.4", "done": false, "time_total_s": 1465.0501940250397, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 49, "episode_reward_mean": -870.8398382924195, "training_iteration": 49, "timesteps_total": 58800, "policy_reward_mean": {}, "episode_reward_min": -980.7142817065137, "timesteps_since_restore": 58800, "num_metric_batches_dropped": 0, "time_since_restore": 1495.779944896698, "episode_reward_max": -745.3589641308753, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 58800, "default": {"kl": 0.013956185430288315, "policy_loss": -0.154091477394104, "vf_loss": 37142.296875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.08520456403493881, "entropy": 17.66846466064453, "cur_lr": 4.999999873689376e-05, "total_loss": 37142.1640625}, "load_time_ms": 0.672, "num_steps_sampled": 58800, "grad_time_ms": 700.998, "update_time_ms": 2.364, "sample_time_ms": 30313.715}, "date": "2025-08-30_16-35-19", "hostname": "cda-server-4", "time_this_iter_s": 30.729750871658325, "episodes_total": 294, "timestamp": 1756564519, "node_ip": "10.157.146.4", "done": false, "time_total_s": 1495.779944896698, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 50, "episode_reward_mean": -867.9102290166808, "training_iteration": 50, "timesteps_total": 60000, "policy_reward_mean": {}, "episode_reward_min": -980.7142817065137, "timesteps_since_restore": 60000, "num_metric_batches_dropped": 0, "time_since_restore": 1524.6201400756836, "episode_reward_max": -745.3589641308753, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 60000, "default": {"kl": 0.01347693707793951, "policy_loss": -0.1280955672264099, "vf_loss": 37589.09765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.1509552299976349, "entropy": 17.655920028686523, "cur_lr": 4.999999873689376e-05, "total_loss": 37588.9921875}, "load_time_ms": 0.672, "num_steps_sampled": 60000, "grad_time_ms": 698.324, "update_time_ms": 2.327, "sample_time_ms": 29932.076}, "date": "2025-08-30_16-35-48", "hostname": "cda-server-4", "time_this_iter_s": 28.840195178985596, "episodes_total": 300, "timestamp": 1756564548, "node_ip": "10.157.146.4", "done": false, "time_total_s": 1524.6201400756836, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 51, "episode_reward_mean": -863.6446738008552, "training_iteration": 51, "timesteps_total": 61200, "policy_reward_mean": {}, "episode_reward_min": -980.7142817065137, "timesteps_since_restore": 61200, "num_metric_batches_dropped": 0, "time_since_restore": 1553.3103561401367, "episode_reward_max": -734.5583801101448, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 61200, "default": {"kl": 0.013862375169992447, "policy_loss": -0.1383589208126068, "vf_loss": 37985.6171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": -0.014558832161128521, "entropy": 17.688257217407227, "cur_lr": 4.999999873689376e-05, "total_loss": 37985.5}, "load_time_ms": 0.693, "num_steps_sampled": 61200, "grad_time_ms": 698.951, "update_time_ms": 2.396, "sample_time_ms": 29768.687}, "date": "2025-08-30_16-36-17", "hostname": "cda-server-4", "time_this_iter_s": 28.690216064453125, "episodes_total": 306, "timestamp": 1756564577, "node_ip": "10.157.146.4", "done": false, "time_total_s": 1553.3103561401367, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 52, "episode_reward_mean": -862.6594682345001, "training_iteration": 52, "timesteps_total": 62400, "policy_reward_mean": {}, "episode_reward_min": -980.7142817065137, "timesteps_since_restore": 62400, "num_metric_batches_dropped": 0, "time_since_restore": 1582.5692274570465, "episode_reward_max": -734.5583801101448, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 62400, "default": {"kl": 0.014478879049420357, "policy_loss": -0.1398439109325409, "vf_loss": 38347.70703125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.12668204307556152, "entropy": 17.718669891357422, "cur_lr": 4.999999873689376e-05, "total_loss": 38347.59375}, "load_time_ms": 0.66, "num_steps_sampled": 62400, "grad_time_ms": 699.841, "update_time_ms": 2.288, "sample_time_ms": 29870.699}, "date": "2025-08-30_16-36-46", "hostname": "cda-server-4", "time_this_iter_s": 29.25887131690979, "episodes_total": 312, "timestamp": 1756564606, "node_ip": "10.157.146.4", "done": false, "time_total_s": 1582.5692274570465, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 53, "episode_reward_mean": -860.4159630217167, "training_iteration": 53, "timesteps_total": 63600, "policy_reward_mean": {}, "episode_reward_min": -980.7142817065137, "timesteps_since_restore": 63600, "num_metric_batches_dropped": 0, "time_since_restore": 1614.9603996276855, "episode_reward_max": -734.5583801101448, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 63600, "default": {"kl": 0.013204572722315788, "policy_loss": -0.1328582763671875, "vf_loss": 39180.96484375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": -0.057274844497442245, "entropy": 17.65797233581543, "cur_lr": 4.999999873689376e-05, "total_loss": 39180.85546875}, "load_time_ms": 0.656, "num_steps_sampled": 63600, "grad_time_ms": 683.121, "update_time_ms": 2.388, "sample_time_ms": 30114.08}, "date": "2025-08-30_16-37-19", "hostname": "cda-server-4", "time_this_iter_s": 32.39117217063904, "episodes_total": 318, "timestamp": 1756564639, "node_ip": "10.157.146.4", "done": false, "time_total_s": 1614.9603996276855, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 54, "episode_reward_mean": -858.8311938228085, "training_iteration": 54, "timesteps_total": 64800, "policy_reward_mean": {}, "episode_reward_min": -973.4891781648787, "timesteps_since_restore": 64800, "num_metric_batches_dropped": 0, "time_since_restore": 1647.5950586795807, "episode_reward_max": -734.5583801101448, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 64800, "default": {"kl": 0.013604514300823212, "policy_loss": -0.12275266647338867, "vf_loss": 40523.8046875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.12490443140268326, "entropy": 17.665618896484375, "cur_lr": 4.999999873689376e-05, "total_loss": 40523.70703125}, "load_time_ms": 0.666, "num_steps_sampled": 64800, "grad_time_ms": 681.658, "update_time_ms": 2.344, "sample_time_ms": 30142.581}, "date": "2025-08-30_16-37-51", "hostname": "cda-server-4", "time_this_iter_s": 32.63465905189514, "episodes_total": 324, "timestamp": 1756564671, "node_ip": "10.157.146.4", "done": false, "time_total_s": 1647.5950586795807, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 55, "episode_reward_mean": -860.0805065334434, "training_iteration": 55, "timesteps_total": 66000, "policy_reward_mean": {}, "episode_reward_min": -973.4891781648787, "timesteps_since_restore": 66000, "num_metric_batches_dropped": 0, "time_since_restore": 1677.6875941753387, "episode_reward_max": -734.5583801101448, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 66000, "default": {"kl": 0.015203320421278477, "policy_loss": -0.13887649774551392, "vf_loss": 38716.51953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.04813024774193764, "entropy": 17.67608642578125, "cur_lr": 4.999999873689376e-05, "total_loss": 38716.40625}, "load_time_ms": 0.659, "num_steps_sampled": 66000, "grad_time_ms": 682.455, "update_time_ms": 2.345, "sample_time_ms": 30031.578}, "date": "2025-08-30_16-38-22", "hostname": "cda-server-4", "time_this_iter_s": 30.092535495758057, "episodes_total": 330, "timestamp": 1756564702, "node_ip": "10.157.146.4", "done": false, "time_total_s": 1677.6875941753387, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 56, "episode_reward_mean": -855.9473553733114, "training_iteration": 56, "timesteps_total": 67200, "policy_reward_mean": {}, "episode_reward_min": -973.4891781648787, "timesteps_since_restore": 67200, "num_metric_batches_dropped": 0, "time_since_restore": 1708.580013513565, "episode_reward_max": -734.5583801101448, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 67200, "default": {"kl": 0.014552335254848003, "policy_loss": -0.13128291070461273, "vf_loss": 43111.78515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": -0.12474583089351654, "entropy": 17.630048751831055, "cur_lr": 4.999999873689376e-05, "total_loss": 43111.6796875}, "load_time_ms": 0.633, "num_steps_sampled": 67200, "grad_time_ms": 688.904, "update_time_ms": 2.32, "sample_time_ms": 29814.899}, "date": "2025-08-30_16-38-52", "hostname": "cda-server-4", "time_this_iter_s": 30.89241933822632, "episodes_total": 336, "timestamp": 1756564732, "node_ip": "10.157.146.4", "done": false, "time_total_s": 1708.580013513565, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 57, "episode_reward_mean": -858.0892645921703, "training_iteration": 57, "timesteps_total": 68400, "policy_reward_mean": {}, "episode_reward_min": -973.4891781648787, "timesteps_since_restore": 68400, "num_metric_batches_dropped": 0, "time_since_restore": 1740.972985982895, "episode_reward_max": -734.5583801101448, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 68400, "default": {"kl": 0.015110603533685207, "policy_loss": -0.14376135170459747, "vf_loss": 36028.796875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.11510767042636871, "entropy": 17.649539947509766, "cur_lr": 4.999999873689376e-05, "total_loss": 36028.67578125}, "load_time_ms": 0.634, "num_steps_sampled": 68400, "grad_time_ms": 667.658, "update_time_ms": 2.31, "sample_time_ms": 30193.54}, "date": "2025-08-30_16-39-25", "hostname": "cda-server-4", "time_this_iter_s": 32.392972469329834, "episodes_total": 342, "timestamp": 1756564765, "node_ip": "10.157.146.4", "done": false, "time_total_s": 1740.972985982895, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 58, "episode_reward_mean": -858.1568022808875, "training_iteration": 58, "timesteps_total": 69600, "policy_reward_mean": {}, "episode_reward_min": -973.4891781648787, "timesteps_since_restore": 69600, "num_metric_batches_dropped": 0, "time_since_restore": 1771.0329959392548, "episode_reward_max": -734.5583801101448, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 69600, "default": {"kl": 0.013966952450573444, "policy_loss": -0.1389802098274231, "vf_loss": 36557.93359375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.14060409367084503, "entropy": 17.592824935913086, "cur_lr": 4.999999873689376e-05, "total_loss": 36557.81640625}, "load_time_ms": 0.639, "num_steps_sampled": 69600, "grad_time_ms": 692.563, "update_time_ms": 2.26, "sample_time_ms": 29898.582}, "date": "2025-08-30_16-39-55", "hostname": "cda-server-4", "time_this_iter_s": 30.060009956359863, "episodes_total": 348, "timestamp": 1756564795, "node_ip": "10.157.146.4", "done": false, "time_total_s": 1771.0329959392548, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 59, "episode_reward_mean": -857.9586595937762, "training_iteration": 59, "timesteps_total": 70800, "policy_reward_mean": {}, "episode_reward_min": -973.4891781648787, "timesteps_since_restore": 70800, "num_metric_batches_dropped": 0, "time_since_restore": 1798.5630342960358, "episode_reward_max": -734.5583801101448, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 70800, "default": {"kl": 0.01400977186858654, "policy_loss": -0.13010820746421814, "vf_loss": 34705.82421875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.18688175082206726, "entropy": 17.60047149658203, "cur_lr": 4.999999873689376e-05, "total_loss": 34705.71484375}, "load_time_ms": 0.638, "num_steps_sampled": 70800, "grad_time_ms": 693.7, "update_time_ms": 2.343, "sample_time_ms": 29577.406}, "date": "2025-08-30_16-40-22", "hostname": "cda-server-4", "time_this_iter_s": 27.530038356781006, "episodes_total": 354, "timestamp": 1756564822, "node_ip": "10.157.146.4", "done": false, "time_total_s": 1798.5630342960358, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 60, "episode_reward_mean": -859.1027265937701, "training_iteration": 60, "timesteps_total": 72000, "policy_reward_mean": {}, "episode_reward_min": -973.4891781648787, "timesteps_since_restore": 72000, "num_metric_batches_dropped": 0, "time_since_restore": 1829.4130942821503, "episode_reward_max": -734.5583801101448, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 72000, "default": {"kl": 0.01362981740385294, "policy_loss": -0.1288180947303772, "vf_loss": 37832.64453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.09861123561859131, "entropy": 17.563894271850586, "cur_lr": 4.999999873689376e-05, "total_loss": 37832.5390625}, "load_time_ms": 0.638, "num_steps_sampled": 72000, "grad_time_ms": 692.143, "update_time_ms": 2.388, "sample_time_ms": 29779.884}, "date": "2025-08-30_16-40-53", "hostname": "cda-server-4", "time_this_iter_s": 30.850059986114502, "episodes_total": 360, "timestamp": 1756564853, "node_ip": "10.157.146.4", "done": false, "time_total_s": 1829.4130942821503, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 61, "episode_reward_mean": -858.6332326429327, "training_iteration": 61, "timesteps_total": 73200, "policy_reward_mean": {}, "episode_reward_min": -973.4891781648787, "timesteps_since_restore": 73200, "num_metric_batches_dropped": 0, "time_since_restore": 1858.199934720993, "episode_reward_max": -734.5583801101448, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 73200, "default": {"kl": 0.014063586480915546, "policy_loss": -0.1449885219335556, "vf_loss": 34977.52734375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.04882168769836426, "entropy": 17.547128677368164, "cur_lr": 4.999999873689376e-05, "total_loss": 34977.40234375}, "load_time_ms": 0.619, "num_steps_sampled": 73200, "grad_time_ms": 678.612, "update_time_ms": 2.332, "sample_time_ms": 29803.185}, "date": "2025-08-30_16-41-22", "hostname": "cda-server-4", "time_this_iter_s": 28.786840438842773, "episodes_total": 366, "timestamp": 1756564882, "node_ip": "10.157.146.4", "done": false, "time_total_s": 1858.199934720993, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 62, "episode_reward_mean": -856.6603985314991, "training_iteration": 62, "timesteps_total": 74400, "policy_reward_mean": {}, "episode_reward_min": -973.4891781648787, "timesteps_since_restore": 74400, "num_metric_batches_dropped": 0, "time_since_restore": 1887.9243314266205, "episode_reward_max": -731.392137238432, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 74400, "default": {"kl": 0.014774234965443611, "policy_loss": -0.14910082519054413, "vf_loss": 38674.7109375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": -0.05255056172609329, "entropy": 17.605031967163086, "cur_lr": 4.999999873689376e-05, "total_loss": 38674.58203125}, "load_time_ms": 0.625, "num_steps_sampled": 74400, "grad_time_ms": 668.336, "update_time_ms": 2.328, "sample_time_ms": 29860.066}, "date": "2025-08-30_16-41-52", "hostname": "cda-server-4", "time_this_iter_s": 29.72439670562744, "episodes_total": 372, "timestamp": 1756564912, "node_ip": "10.157.146.4", "done": false, "time_total_s": 1887.9243314266205, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 63, "episode_reward_mean": -853.4106823827258, "training_iteration": 63, "timesteps_total": 75600, "policy_reward_mean": {}, "episode_reward_min": -968.1095941989413, "timesteps_since_restore": 75600, "num_metric_batches_dropped": 0, "time_since_restore": 1916.6990644931793, "episode_reward_max": -731.392137238432, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 75600, "default": {"kl": 0.013897955417633057, "policy_loss": -0.1318075805902481, "vf_loss": 35908.421875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.1437988579273224, "entropy": 17.49303436279297, "cur_lr": 4.999999873689376e-05, "total_loss": 35908.30859375}, "load_time_ms": 0.626, "num_steps_sampled": 75600, "grad_time_ms": 678.481, "update_time_ms": 2.242, "sample_time_ms": 29488.409}, "date": "2025-08-30_16-42-21", "hostname": "cda-server-4", "time_this_iter_s": 28.774733066558838, "episodes_total": 378, "timestamp": 1756564941, "node_ip": "10.157.146.4", "done": false, "time_total_s": 1916.6990644931793, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 64, "episode_reward_mean": -851.3689011697483, "training_iteration": 64, "timesteps_total": 76800, "policy_reward_mean": {}, "episode_reward_min": -968.1095941989413, "timesteps_since_restore": 76800, "num_metric_batches_dropped": 0, "time_since_restore": 1946.5833642482758, "episode_reward_max": -731.392137238432, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 76800, "default": {"kl": 0.014843578450381756, "policy_loss": -0.14710034430027008, "vf_loss": 34969.99609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.026113709434866905, "entropy": 17.5076847076416, "cur_lr": 4.999999873689376e-05, "total_loss": 34969.8671875}, "load_time_ms": 0.628, "num_steps_sampled": 76800, "grad_time_ms": 683.168, "update_time_ms": 2.229, "sample_time_ms": 29208.813}, "date": "2025-08-30_16-42-51", "hostname": "cda-server-4", "time_this_iter_s": 29.884299755096436, "episodes_total": 384, "timestamp": 1756564971, "node_ip": "10.157.146.4", "done": false, "time_total_s": 1946.5833642482758, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 65, "episode_reward_mean": -851.5518896882724, "training_iteration": 65, "timesteps_total": 78000, "policy_reward_mean": {}, "episode_reward_min": -968.1095941989413, "timesteps_since_restore": 78000, "num_metric_batches_dropped": 0, "time_since_restore": 1978.9226565361023, "episode_reward_max": -731.392137238432, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 78000, "default": {"kl": 0.015238078311085701, "policy_loss": -0.13867218792438507, "vf_loss": 34641.9296875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.15812794864177704, "entropy": 17.456039428710938, "cur_lr": 4.999999873689376e-05, "total_loss": 34641.8203125}, "load_time_ms": 0.625, "num_steps_sampled": 78000, "grad_time_ms": 688.948, "update_time_ms": 2.21, "sample_time_ms": 29427.73}, "date": "2025-08-30_16-43-23", "hostname": "cda-server-4", "time_this_iter_s": 32.33929228782654, "episodes_total": 390, "timestamp": 1756565003, "node_ip": "10.157.146.4", "done": false, "time_total_s": 1978.9226565361023, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 66, "episode_reward_mean": -850.8313788831541, "training_iteration": 66, "timesteps_total": 79200, "policy_reward_mean": {}, "episode_reward_min": -968.1095941989413, "timesteps_since_restore": 79200, "num_metric_batches_dropped": 0, "time_since_restore": 2010.047566652298, "episode_reward_max": -731.392137238432, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 79200, "default": {"kl": 0.014476388692855835, "policy_loss": -0.1393568217754364, "vf_loss": 34715.4453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": -0.026421109214425087, "entropy": 17.568944931030273, "cur_lr": 4.999999873689376e-05, "total_loss": 34715.328125}, "load_time_ms": 0.622, "num_steps_sampled": 79200, "grad_time_ms": 694.951, "update_time_ms": 2.221, "sample_time_ms": 29445.002}, "date": "2025-08-30_16-43-54", "hostname": "cda-server-4", "time_this_iter_s": 31.12491011619568, "episodes_total": 396, "timestamp": 1756565034, "node_ip": "10.157.146.4", "done": false, "time_total_s": 2010.047566652298, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 67, "episode_reward_mean": -855.5893706313482, "training_iteration": 67, "timesteps_total": 80400, "policy_reward_mean": {}, "episode_reward_min": -979.4741011877373, "timesteps_since_restore": 80400, "num_metric_batches_dropped": 0, "time_since_restore": 2038.7406253814697, "episode_reward_max": -731.392137238432, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 80400, "default": {"kl": 0.014603018760681152, "policy_loss": -0.14872290194034576, "vf_loss": 30677.25390625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.2192346304655075, "entropy": 17.46091651916504, "cur_lr": 4.999999873689376e-05, "total_loss": 30677.12890625}, "load_time_ms": 0.615, "num_steps_sampled": 80400, "grad_time_ms": 712.216, "update_time_ms": 2.225, "sample_time_ms": 29057.751}, "date": "2025-08-30_16-44-23", "hostname": "cda-server-4", "time_this_iter_s": 28.693058729171753, "episodes_total": 402, "timestamp": 1756565063, "node_ip": "10.157.146.4", "done": false, "time_total_s": 2038.7406253814697, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 68, "episode_reward_mean": -856.349942656662, "training_iteration": 68, "timesteps_total": 81600, "policy_reward_mean": {}, "episode_reward_min": -979.4741011877373, "timesteps_since_restore": 81600, "num_metric_batches_dropped": 0, "time_since_restore": 2069.881936073303, "episode_reward_max": -731.392137238432, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 81600, "default": {"kl": 0.013102930039167404, "policy_loss": -0.1249057948589325, "vf_loss": 29721.77734375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.21419773995876312, "entropy": 17.366506576538086, "cur_lr": 4.999999873689376e-05, "total_loss": 29721.673828125}, "load_time_ms": 0.617, "num_steps_sampled": 81600, "grad_time_ms": 677.997, "update_time_ms": 2.25, "sample_time_ms": 29200.288}, "date": "2025-08-30_16-44-54", "hostname": "cda-server-4", "time_this_iter_s": 31.141310691833496, "episodes_total": 408, "timestamp": 1756565094, "node_ip": "10.157.146.4", "done": false, "time_total_s": 2069.881936073303, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 69, "episode_reward_mean": -855.3496082433437, "training_iteration": 69, "timesteps_total": 82800, "policy_reward_mean": {}, "episode_reward_min": -979.4741011877373, "timesteps_since_restore": 82800, "num_metric_batches_dropped": 0, "time_since_restore": 2101.4314074516296, "episode_reward_max": -731.392137238432, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 82800, "default": {"kl": 0.014523578807711601, "policy_loss": -0.13659808039665222, "vf_loss": 27467.4765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.2555531859397888, "entropy": 17.27393341064453, "cur_lr": 4.999999873689376e-05, "total_loss": 27467.361328125}, "load_time_ms": 0.624, "num_steps_sampled": 82800, "grad_time_ms": 676.449, "update_time_ms": 2.194, "sample_time_ms": 29603.767}, "date": "2025-08-30_16-45-25", "hostname": "cda-server-4", "time_this_iter_s": 31.549471378326416, "episodes_total": 414, "timestamp": 1756565125, "node_ip": "10.157.146.4", "done": false, "time_total_s": 2101.4314074516296, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 70, "episode_reward_mean": -857.1216939258547, "training_iteration": 70, "timesteps_total": 84000, "policy_reward_mean": {}, "episode_reward_min": -979.4741011877373, "timesteps_since_restore": 84000, "num_metric_batches_dropped": 0, "time_since_restore": 2131.8137855529785, "episode_reward_max": -731.392137238432, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 84000, "default": {"kl": 0.013939561322331429, "policy_loss": -0.13034029304981232, "vf_loss": 32343.5703125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.2333582192659378, "entropy": 17.355751037597656, "cur_lr": 4.999999873689376e-05, "total_loss": 32343.4609375}, "load_time_ms": 0.626, "num_steps_sampled": 84000, "grad_time_ms": 680.197, "update_time_ms": 2.116, "sample_time_ms": 29553.277}, "date": "2025-08-30_16-45-56", "hostname": "cda-server-4", "time_this_iter_s": 30.382378101348877, "episodes_total": 420, "timestamp": 1756565156, "node_ip": "10.157.146.4", "done": false, "time_total_s": 2131.8137855529785, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 71, "episode_reward_mean": -853.8851085967481, "training_iteration": 71, "timesteps_total": 85200, "policy_reward_mean": {}, "episode_reward_min": -979.4741011877373, "timesteps_since_restore": 85200, "num_metric_batches_dropped": 0, "time_since_restore": 2163.614848613739, "episode_reward_max": -731.392137238432, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 85200, "default": {"kl": 0.01454092189669609, "policy_loss": -0.13469865918159485, "vf_loss": 27587.908203125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.17435364425182343, "entropy": 17.409528732299805, "cur_lr": 4.999999873689376e-05, "total_loss": 27587.79296875}, "load_time_ms": 0.625, "num_steps_sampled": 85200, "grad_time_ms": 692.831, "update_time_ms": 2.172, "sample_time_ms": 29841.925}, "date": "2025-08-30_16-46-28", "hostname": "cda-server-4", "time_this_iter_s": 31.801063060760498, "episodes_total": 426, "timestamp": 1756565188, "node_ip": "10.157.146.4", "done": false, "time_total_s": 2163.614848613739, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 72, "episode_reward_mean": -852.1823415847849, "training_iteration": 72, "timesteps_total": 86400, "policy_reward_mean": {}, "episode_reward_min": -979.4741011877373, "timesteps_since_restore": 86400, "num_metric_batches_dropped": 0, "time_since_restore": 2195.4732875823975, "episode_reward_max": -731.392137238432, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 86400, "default": {"kl": 0.01374353189021349, "policy_loss": -0.14909517765045166, "vf_loss": 24670.984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.4960322976112366, "entropy": 17.254638671875, "cur_lr": 4.999999873689376e-05, "total_loss": 24670.853515625}, "load_time_ms": 0.636, "num_steps_sampled": 86400, "grad_time_ms": 728.655, "update_time_ms": 2.217, "sample_time_ms": 30019.368}, "date": "2025-08-30_16-47-00", "hostname": "cda-server-4", "time_this_iter_s": 31.858438968658447, "episodes_total": 432, "timestamp": 1756565220, "node_ip": "10.157.146.4", "done": false, "time_total_s": 2195.4732875823975, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 73, "episode_reward_mean": -852.0217552780788, "training_iteration": 73, "timesteps_total": 87600, "policy_reward_mean": {}, "episode_reward_min": -979.4741011877373, "timesteps_since_restore": 87600, "num_metric_batches_dropped": 0, "time_since_restore": 2224.561930656433, "episode_reward_max": -731.392137238432, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 87600, "default": {"kl": 0.013781542889773846, "policy_loss": -0.12357684224843979, "vf_loss": 25881.66015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.4124091863632202, "entropy": 17.31092071533203, "cur_lr": 4.999999873689376e-05, "total_loss": 25881.556640625}, "load_time_ms": 0.626, "num_steps_sampled": 87600, "grad_time_ms": 726.093, "update_time_ms": 2.268, "sample_time_ms": 30053.317}, "date": "2025-08-30_16-47-29", "hostname": "cda-server-4", "time_this_iter_s": 29.088643074035645, "episodes_total": 438, "timestamp": 1756565249, "node_ip": "10.157.146.4", "done": false, "time_total_s": 2224.561930656433, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 74, "episode_reward_mean": -850.1790707086999, "training_iteration": 74, "timesteps_total": 88800, "policy_reward_mean": {}, "episode_reward_min": -979.4741011877373, "timesteps_since_restore": 88800, "num_metric_batches_dropped": 0, "time_since_restore": 2254.534178495407, "episode_reward_max": -731.392137238432, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 88800, "default": {"kl": 0.013922701589763165, "policy_loss": -0.1427626758813858, "vf_loss": 26209.892578125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.2682536542415619, "entropy": 17.25695037841797, "cur_lr": 4.999999873689376e-05, "total_loss": 26209.771484375}, "load_time_ms": 0.613, "num_steps_sampled": 88800, "grad_time_ms": 714.073, "update_time_ms": 2.252, "sample_time_ms": 30074.078}, "date": "2025-08-30_16-47-59", "hostname": "cda-server-4", "time_this_iter_s": 29.972247838974, "episodes_total": 444, "timestamp": 1756565279, "node_ip": "10.157.146.4", "done": false, "time_total_s": 2254.534178495407, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 75, "episode_reward_mean": -849.5151609296171, "training_iteration": 75, "timesteps_total": 90000, "policy_reward_mean": {}, "episode_reward_min": -979.4741011877373, "timesteps_since_restore": 90000, "num_metric_batches_dropped": 0, "time_since_restore": 2284.6145927906036, "episode_reward_max": -731.392137238432, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 90000, "default": {"kl": 0.014644701033830643, "policy_loss": -0.14247579872608185, "vf_loss": 24245.0234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.40078699588775635, "entropy": 17.262798309326172, "cur_lr": 4.999999873689376e-05, "total_loss": 24244.90234375}, "load_time_ms": 0.61, "num_steps_sampled": 90000, "grad_time_ms": 696.902, "update_time_ms": 2.273, "sample_time_ms": 29865.276}, "date": "2025-08-30_16-48-29", "hostname": "cda-server-4", "time_this_iter_s": 30.080414295196533, "episodes_total": 450, "timestamp": 1756565309, "node_ip": "10.157.146.4", "done": false, "time_total_s": 2284.6145927906036, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 76, "episode_reward_mean": -846.2862135647503, "training_iteration": 76, "timesteps_total": 91200, "policy_reward_mean": {}, "episode_reward_min": -979.4741011877373, "timesteps_since_restore": 91200, "num_metric_batches_dropped": 0, "time_since_restore": 2316.1929540634155, "episode_reward_max": -731.392137238432, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 91200, "default": {"kl": 0.015267057344317436, "policy_loss": -0.14221900701522827, "vf_loss": 21864.33984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.4084622859954834, "entropy": 17.29100227355957, "cur_lr": 4.999999873689376e-05, "total_loss": 21864.220703125}, "load_time_ms": 0.609, "num_steps_sampled": 91200, "grad_time_ms": 669.911, "update_time_ms": 2.296, "sample_time_ms": 29937.554}, "date": "2025-08-30_16-49-00", "hostname": "cda-server-4", "time_this_iter_s": 31.57836127281189, "episodes_total": 456, "timestamp": 1756565340, "node_ip": "10.157.146.4", "done": false, "time_total_s": 2316.1929540634155, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 77, "episode_reward_mean": -841.9119524286945, "training_iteration": 77, "timesteps_total": 92400, "policy_reward_mean": {}, "episode_reward_min": -981.4711297072583, "timesteps_since_restore": 92400, "num_metric_batches_dropped": 0, "time_since_restore": 2348.612753391266, "episode_reward_max": -731.392137238432, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 92400, "default": {"kl": 0.014910014346241951, "policy_loss": -0.15492962300777435, "vf_loss": 21874.40234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.33035194873809814, "entropy": 17.22534942626953, "cur_lr": 4.999999873689376e-05, "total_loss": 21874.271484375}, "load_time_ms": 0.61, "num_steps_sampled": 92400, "grad_time_ms": 655.033, "update_time_ms": 2.245, "sample_time_ms": 30325.21}, "date": "2025-08-30_16-49-33", "hostname": "cda-server-4", "time_this_iter_s": 32.41979932785034, "episodes_total": 462, "timestamp": 1756565373, "node_ip": "10.157.146.4", "done": false, "time_total_s": 2348.612753391266, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 78, "episode_reward_mean": -844.63263748892, "training_iteration": 78, "timesteps_total": 93600, "policy_reward_mean": {}, "episode_reward_min": -981.4711297072583, "timesteps_since_restore": 93600, "num_metric_batches_dropped": 0, "time_since_restore": 2379.3245441913605, "episode_reward_max": -732.6943492419538, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 93600, "default": {"kl": 0.013486234471201897, "policy_loss": -0.13311965763568878, "vf_loss": 23452.3125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.424092173576355, "entropy": 17.210290908813477, "cur_lr": 4.999999873689376e-05, "total_loss": 23452.19921875}, "load_time_ms": 0.609, "num_steps_sampled": 93600, "grad_time_ms": 663.679, "update_time_ms": 2.233, "sample_time_ms": 30273.629}, "date": "2025-08-30_16-50-04", "hostname": "cda-server-4", "time_this_iter_s": 30.711790800094604, "episodes_total": 468, "timestamp": 1756565404, "node_ip": "10.157.146.4", "done": false, "time_total_s": 2379.3245441913605, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 79, "episode_reward_mean": -842.2319985311974, "training_iteration": 79, "timesteps_total": 94800, "policy_reward_mean": {}, "episode_reward_min": -981.4711297072583, "timesteps_since_restore": 94800, "num_metric_batches_dropped": 0, "time_since_restore": 2410.448032617569, "episode_reward_max": -732.6943492419538, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 94800, "default": {"kl": 0.014013934880495071, "policy_loss": -0.14053601026535034, "vf_loss": 20429.701171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.30881398916244507, "entropy": 17.223379135131836, "cur_lr": 4.999999873689376e-05, "total_loss": 20429.58203125}, "load_time_ms": 0.598, "num_steps_sampled": 94800, "grad_time_ms": 645.621, "update_time_ms": 2.199, "sample_time_ms": 30249.218}, "date": "2025-08-30_16-50-35", "hostname": "cda-server-4", "time_this_iter_s": 31.123488426208496, "episodes_total": 474, "timestamp": 1756565435, "node_ip": "10.157.146.4", "done": false, "time_total_s": 2410.448032617569, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 80, "episode_reward_mean": -840.7452938150574, "training_iteration": 80, "timesteps_total": 96000, "policy_reward_mean": {}, "episode_reward_min": -981.4711297072583, "timesteps_since_restore": 96000, "num_metric_batches_dropped": 0, "time_since_restore": 2441.772285938263, "episode_reward_max": -732.6943492419538, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 96000, "default": {"kl": 0.015268232673406601, "policy_loss": -0.1516943871974945, "vf_loss": 20859.603515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.25698861479759216, "entropy": 17.201623916625977, "cur_lr": 4.999999873689376e-05, "total_loss": 20859.474609375}, "load_time_ms": 0.632, "num_steps_sampled": 96000, "grad_time_ms": 615.52, "update_time_ms": 2.204, "sample_time_ms": 30373.506}, "date": "2025-08-30_16-51-06", "hostname": "cda-server-4", "time_this_iter_s": 31.32425332069397, "episodes_total": 480, "timestamp": 1756565466, "node_ip": "10.157.146.4", "done": false, "time_total_s": 2441.772285938263, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 81, "episode_reward_mean": -837.1563376474405, "training_iteration": 81, "timesteps_total": 97200, "policy_reward_mean": {}, "episode_reward_min": -981.4711297072583, "timesteps_since_restore": 97200, "num_metric_batches_dropped": 0, "time_since_restore": 2473.9159286022186, "episode_reward_max": -709.5186385352666, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 97200, "default": {"kl": 0.013509301468729973, "policy_loss": -0.14114832878112793, "vf_loss": 14499.99609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.4399718940258026, "entropy": 17.26691246032715, "cur_lr": 4.999999873689376e-05, "total_loss": 14499.875}, "load_time_ms": 0.617, "num_steps_sampled": 97200, "grad_time_ms": 613.163, "update_time_ms": 2.143, "sample_time_ms": 30410.228}, "date": "2025-08-30_16-51-38", "hostname": "cda-server-4", "time_this_iter_s": 32.14364266395569, "episodes_total": 486, "timestamp": 1756565498, "node_ip": "10.157.146.4", "done": false, "time_total_s": 2473.9159286022186, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 82, "episode_reward_mean": -835.842721401758, "training_iteration": 82, "timesteps_total": 98400, "policy_reward_mean": {}, "episode_reward_min": -981.4711297072583, "timesteps_since_restore": 98400, "num_metric_batches_dropped": 0, "time_since_restore": 2503.3499717712402, "episode_reward_max": -709.5186385352666, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 98400, "default": {"kl": 0.01514357328414917, "policy_loss": -0.14084061980247498, "vf_loss": 18627.978515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.28775227069854736, "entropy": 17.240182876586914, "cur_lr": 4.999999873689376e-05, "total_loss": 18627.861328125}, "load_time_ms": 0.601, "num_steps_sampled": 98400, "grad_time_ms": 579.237, "update_time_ms": 2.121, "sample_time_ms": 30201.791}, "date": "2025-08-30_16-52-08", "hostname": "cda-server-4", "time_this_iter_s": 29.434043169021606, "episodes_total": 492, "timestamp": 1756565528, "node_ip": "10.157.146.4", "done": false, "time_total_s": 2503.3499717712402, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 83, "episode_reward_mean": -834.4774667310745, "training_iteration": 83, "timesteps_total": 99600, "policy_reward_mean": {}, "episode_reward_min": -981.4711297072583, "timesteps_since_restore": 99600, "num_metric_batches_dropped": 0, "time_since_restore": 2534.879022359848, "episode_reward_max": -709.5186385352666, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 99600, "default": {"kl": 0.013973835855722427, "policy_loss": -0.1484135240316391, "vf_loss": 17378.8515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.31474387645721436, "entropy": 17.216026306152344, "cur_lr": 4.999999873689376e-05, "total_loss": 17378.724609375}, "load_time_ms": 0.61, "num_steps_sampled": 99600, "grad_time_ms": 601.91, "update_time_ms": 2.103, "sample_time_ms": 30423.053}, "date": "2025-08-30_16-52-39", "hostname": "cda-server-4", "time_this_iter_s": 31.529050588607788, "episodes_total": 498, "timestamp": 1756565559, "node_ip": "10.157.146.4", "done": false, "time_total_s": 2534.879022359848, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 84, "episode_reward_mean": -830.3279132683102, "training_iteration": 84, "timesteps_total": 100800, "policy_reward_mean": {}, "episode_reward_min": -981.4711297072583, "timesteps_since_restore": 100800, "num_metric_batches_dropped": 0, "time_since_restore": 2565.5534529685974, "episode_reward_max": -709.5186385352666, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 100800, "default": {"kl": 0.013125281780958176, "policy_loss": -0.144551619887352, "vf_loss": 18276.01171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.33386147022247314, "entropy": 17.11829948425293, "cur_lr": 4.999999873689376e-05, "total_loss": 18275.88671875}, "load_time_ms": 0.619, "num_steps_sampled": 100800, "grad_time_ms": 617.179, "update_time_ms": 2.092, "sample_time_ms": 30477.998}, "date": "2025-08-30_16-53-10", "hostname": "cda-server-4", "time_this_iter_s": 30.67443060874939, "episodes_total": 504, "timestamp": 1756565590, "node_ip": "10.157.146.4", "done": false, "time_total_s": 2565.5534529685974, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 85, "episode_reward_mean": -827.0621178141726, "training_iteration": 85, "timesteps_total": 102000, "policy_reward_mean": {}, "episode_reward_min": -981.4711297072583, "timesteps_since_restore": 102000, "num_metric_batches_dropped": 0, "time_since_restore": 2596.644282579422, "episode_reward_max": -709.5186385352666, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 102000, "default": {"kl": 0.01553522888571024, "policy_loss": -0.15143774449825287, "vf_loss": 13543.6123046875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.3382088840007782, "entropy": 17.154464721679688, "cur_lr": 4.999999873689376e-05, "total_loss": 13543.484375}, "load_time_ms": 0.627, "num_steps_sampled": 102000, "grad_time_ms": 634.321, "update_time_ms": 2.119, "sample_time_ms": 30561.896}, "date": "2025-08-30_16-53-41", "hostname": "cda-server-4", "time_this_iter_s": 31.090829610824585, "episodes_total": 510, "timestamp": 1756565621, "node_ip": "10.157.146.4", "done": false, "time_total_s": 2596.644282579422, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 86, "episode_reward_mean": -821.3719611766464, "training_iteration": 86, "timesteps_total": 103200, "policy_reward_mean": {}, "episode_reward_min": -981.4711297072583, "timesteps_since_restore": 103200, "num_metric_batches_dropped": 0, "time_since_restore": 2626.7579686641693, "episode_reward_max": -709.5186385352666, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 103200, "default": {"kl": 0.01364248525351286, "policy_loss": -0.13285723328590393, "vf_loss": 14223.8525390625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.40563857555389404, "entropy": 17.123966217041016, "cur_lr": 4.999999873689376e-05, "total_loss": 14223.7392578125}, "load_time_ms": 0.635, "num_steps_sampled": 103200, "grad_time_ms": 657.663, "update_time_ms": 2.146, "sample_time_ms": 30392.103}, "date": "2025-08-30_16-54-11", "hostname": "cda-server-4", "time_this_iter_s": 30.113686084747314, "episodes_total": 516, "timestamp": 1756565651, "node_ip": "10.157.146.4", "done": false, "time_total_s": 2626.7579686641693, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 87, "episode_reward_mean": -818.0310948645669, "training_iteration": 87, "timesteps_total": 104400, "policy_reward_mean": {}, "episode_reward_min": -981.4711297072583, "timesteps_since_restore": 104400, "num_metric_batches_dropped": 0, "time_since_restore": 2658.4986419677734, "episode_reward_max": -709.5186385352666, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 104400, "default": {"kl": 0.013563921675086021, "policy_loss": -0.14048999547958374, "vf_loss": 16259.2763671875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.4310189187526703, "entropy": 17.12251853942871, "cur_lr": 4.999999873689376e-05, "total_loss": 16259.15625}, "load_time_ms": 0.63, "num_steps_sampled": 104400, "grad_time_ms": 668.06, "update_time_ms": 2.146, "sample_time_ms": 30313.679}, "date": "2025-08-30_16-54-43", "hostname": "cda-server-4", "time_this_iter_s": 31.740673303604126, "episodes_total": 522, "timestamp": 1756565683, "node_ip": "10.157.146.4", "done": false, "time_total_s": 2658.4986419677734, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 88, "episode_reward_mean": -817.6204538958108, "training_iteration": 88, "timesteps_total": 105600, "policy_reward_mean": {}, "episode_reward_min": -981.4711297072583, "timesteps_since_restore": 105600, "num_metric_batches_dropped": 0, "time_since_restore": 2689.9201579093933, "episode_reward_max": -709.5186385352666, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 105600, "default": {"kl": 0.013793888501822948, "policy_loss": -0.15002372860908508, "vf_loss": 15819.111328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.29278141260147095, "entropy": 17.072885513305664, "cur_lr": 4.999999873689376e-05, "total_loss": 15818.98046875}, "load_time_ms": 0.635, "num_steps_sampled": 105600, "grad_time_ms": 661.985, "update_time_ms": 2.18, "sample_time_ms": 30390.675}, "date": "2025-08-30_16-55-14", "hostname": "cda-server-4", "time_this_iter_s": 31.421515941619873, "episodes_total": 528, "timestamp": 1756565714, "node_ip": "10.157.146.4", "done": false, "time_total_s": 2689.9201579093933, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 89, "episode_reward_mean": -817.7095986540329, "training_iteration": 89, "timesteps_total": 106800, "policy_reward_mean": {}, "episode_reward_min": -981.4711297072583, "timesteps_since_restore": 106800, "num_metric_batches_dropped": 0, "time_since_restore": 2716.335453748703, "episode_reward_max": -709.5186385352666, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 106800, "default": {"kl": 0.01422095950692892, "policy_loss": -0.14408311247825623, "vf_loss": 15421.296875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.4698730707168579, "entropy": 16.928668975830078, "cur_lr": 4.999999873689376e-05, "total_loss": 15421.173828125}, "load_time_ms": 0.643, "num_steps_sampled": 106800, "grad_time_ms": 681.247, "update_time_ms": 2.255, "sample_time_ms": 29900.473}, "date": "2025-08-30_16-55-41", "hostname": "cda-server-4", "time_this_iter_s": 26.415295839309692, "episodes_total": 534, "timestamp": 1756565741, "node_ip": "10.157.146.4", "done": false, "time_total_s": 2716.335453748703, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 90, "episode_reward_mean": -816.7952104280349, "training_iteration": 90, "timesteps_total": 108000, "policy_reward_mean": {}, "episode_reward_min": -981.4711297072583, "timesteps_since_restore": 108000, "num_metric_batches_dropped": 0, "time_since_restore": 2745.4208233356476, "episode_reward_max": -709.5186385352666, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 108000, "default": {"kl": 0.013728815130889416, "policy_loss": -0.15147794783115387, "vf_loss": 17394.6015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.24695968627929688, "entropy": 16.91851806640625, "cur_lr": 4.999999873689376e-05, "total_loss": 17394.46875}, "load_time_ms": 0.606, "num_steps_sampled": 108000, "grad_time_ms": 695.484, "update_time_ms": 2.409, "sample_time_ms": 29662.282}, "date": "2025-08-30_16-56-10", "hostname": "cda-server-4", "time_this_iter_s": 29.08536958694458, "episodes_total": 540, "timestamp": 1756565770, "node_ip": "10.157.146.4", "done": false, "time_total_s": 2745.4208233356476, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 91, "episode_reward_mean": -816.6712814426444, "training_iteration": 91, "timesteps_total": 109200, "policy_reward_mean": {}, "episode_reward_min": -981.4711297072583, "timesteps_since_restore": 109200, "num_metric_batches_dropped": 0, "time_since_restore": 2776.843770980835, "episode_reward_max": -709.5186385352666, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 109200, "default": {"kl": 0.014087576419115067, "policy_loss": -0.14372506737709045, "vf_loss": 16730.13671875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.32801198959350586, "entropy": 16.899282455444336, "cur_lr": 4.999999873689376e-05, "total_loss": 16730.013671875}, "load_time_ms": 0.616, "num_steps_sampled": 109200, "grad_time_ms": 669.901, "update_time_ms": 2.381, "sample_time_ms": 29615.849}, "date": "2025-08-30_16-56-41", "hostname": "cda-server-4", "time_this_iter_s": 31.422947645187378, "episodes_total": 546, "timestamp": 1756565801, "node_ip": "10.157.146.4", "done": false, "time_total_s": 2776.843770980835, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 92, "episode_reward_mean": -814.9635348072218, "training_iteration": 92, "timesteps_total": 110400, "policy_reward_mean": {}, "episode_reward_min": -981.4711297072583, "timesteps_since_restore": 110400, "num_metric_batches_dropped": 0, "time_since_restore": 2805.4438667297363, "episode_reward_max": -709.5186385352666, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 110400, "default": {"kl": 0.01234897505491972, "policy_loss": -0.12987416982650757, "vf_loss": 13649.0634765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.4770004451274872, "entropy": 16.9301700592041, "cur_lr": 4.999999873689376e-05, "total_loss": 13648.951171875}, "load_time_ms": 0.625, "num_steps_sampled": 110400, "grad_time_ms": 648.342, "update_time_ms": 2.442, "sample_time_ms": 29553.9}, "date": "2025-08-30_16-57-10", "hostname": "cda-server-4", "time_this_iter_s": 28.600095748901367, "episodes_total": 552, "timestamp": 1756565830, "node_ip": "10.157.146.4", "done": false, "time_total_s": 2805.4438667297363, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 93, "episode_reward_mean": -811.6805104637476, "training_iteration": 93, "timesteps_total": 111600, "policy_reward_mean": {}, "episode_reward_min": -981.4711297072583, "timesteps_since_restore": 111600, "num_metric_batches_dropped": 0, "time_since_restore": 2833.776356458664, "episode_reward_max": -709.5186385352666, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 111600, "default": {"kl": 0.012756765820086002, "policy_loss": -0.13095258176326752, "vf_loss": 12561.64453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.38474640250205994, "entropy": 16.970788955688477, "cur_lr": 4.999999873689376e-05, "total_loss": 12561.533203125}, "load_time_ms": 0.614, "num_steps_sampled": 111600, "grad_time_ms": 606.578, "update_time_ms": 2.501, "sample_time_ms": 29276.09}, "date": "2025-08-30_16-57-38", "hostname": "cda-server-4", "time_this_iter_s": 28.332489728927612, "episodes_total": 558, "timestamp": 1756565858, "node_ip": "10.157.146.4", "done": false, "time_total_s": 2833.776356458664, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 94, "episode_reward_mean": -810.3770983894157, "training_iteration": 94, "timesteps_total": 112800, "policy_reward_mean": {}, "episode_reward_min": -972.9885477422378, "timesteps_since_restore": 112800, "num_metric_batches_dropped": 0, "time_since_restore": 2864.0232479572296, "episode_reward_max": -709.5186385352666, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 112800, "default": {"kl": 0.014304311946034431, "policy_loss": -0.14848308265209198, "vf_loss": 14529.7353515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.5041902661323547, "entropy": 16.886150360107422, "cur_lr": 4.999999873689376e-05, "total_loss": 14529.6083984375}, "load_time_ms": 0.649, "num_steps_sampled": 112800, "grad_time_ms": 597.378, "update_time_ms": 2.57, "sample_time_ms": 29242.339}, "date": "2025-08-30_16-58-09", "hostname": "cda-server-4", "time_this_iter_s": 30.246891498565674, "episodes_total": 564, "timestamp": 1756565889, "node_ip": "10.157.146.4", "done": false, "time_total_s": 2864.0232479572296, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 95, "episode_reward_mean": -806.1651306790953, "training_iteration": 95, "timesteps_total": 114000, "policy_reward_mean": {}, "episode_reward_min": -972.9885477422378, "timesteps_since_restore": 114000, "num_metric_batches_dropped": 0, "time_since_restore": 2896.150473356247, "episode_reward_max": -709.5186385352666, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 114000, "default": {"kl": 0.014665831811726093, "policy_loss": -0.15105798840522766, "vf_loss": 11452.6787109375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.44039803743362427, "entropy": 17.012924194335938, "cur_lr": 4.999999873689376e-05, "total_loss": 11452.5498046875}, "load_time_ms": 0.644, "num_steps_sampled": 114000, "grad_time_ms": 587.479, "update_time_ms": 2.557, "sample_time_ms": 29355.887}, "date": "2025-08-30_16-58-41", "hostname": "cda-server-4", "time_this_iter_s": 32.127225399017334, "episodes_total": 570, "timestamp": 1756565921, "node_ip": "10.157.146.4", "done": false, "time_total_s": 2896.150473356247, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 96, "episode_reward_mean": -806.1032858626166, "training_iteration": 96, "timesteps_total": 115200, "policy_reward_mean": {}, "episode_reward_min": -972.9885477422378, "timesteps_since_restore": 115200, "num_metric_batches_dropped": 0, "time_since_restore": 2925.032495498657, "episode_reward_max": -709.5186385352666, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 115200, "default": {"kl": 0.012477223761379719, "policy_loss": -0.12976548075675964, "vf_loss": 14396.16015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.5557022094726562, "entropy": 16.81788444519043, "cur_lr": 4.999999873689376e-05, "total_loss": 14396.048828125}, "load_time_ms": 0.639, "num_steps_sampled": 115200, "grad_time_ms": 586.812, "update_time_ms": 2.52, "sample_time_ms": 29233.34}, "date": "2025-08-30_16-59-10", "hostname": "cda-server-4", "time_this_iter_s": 28.88202214241028, "episodes_total": 576, "timestamp": 1756565950, "node_ip": "10.157.146.4", "done": false, "time_total_s": 2925.032495498657, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 97, "episode_reward_mean": -805.1341460315631, "training_iteration": 97, "timesteps_total": 116400, "policy_reward_mean": {}, "episode_reward_min": -956.7746711208466, "timesteps_since_restore": 116400, "num_metric_batches_dropped": 0, "time_since_restore": 2955.241163253784, "episode_reward_max": -709.5186385352666, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 116400, "default": {"kl": 0.014392446726560593, "policy_loss": -0.13610312342643738, "vf_loss": 14873.626953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.4848285913467407, "entropy": 16.98821449279785, "cur_lr": 4.999999873689376e-05, "total_loss": 14873.51171875}, "load_time_ms": 0.644, "num_steps_sampled": 116400, "grad_time_ms": 591.628, "update_time_ms": 2.56, "sample_time_ms": 29075.262}, "date": "2025-08-30_16-59-40", "hostname": "cda-server-4", "time_this_iter_s": 30.208667755126953, "episodes_total": 582, "timestamp": 1756565980, "node_ip": "10.157.146.4", "done": false, "time_total_s": 2955.241163253784, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 98, "episode_reward_mean": -806.6937242460069, "training_iteration": 98, "timesteps_total": 117600, "policy_reward_mean": {}, "episode_reward_min": -956.7746711208466, "timesteps_since_restore": 117600, "num_metric_batches_dropped": 0, "time_since_restore": 2984.691062450409, "episode_reward_max": -734.6280789274458, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 117600, "default": {"kl": 0.01426281500607729, "policy_loss": -0.1463281363248825, "vf_loss": 11286.6953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.5545079112052917, "entropy": 16.998075485229492, "cur_lr": 4.999999873689376e-05, "total_loss": 11286.5703125}, "load_time_ms": 0.636, "num_steps_sampled": 117600, "grad_time_ms": 599.37, "update_time_ms": 2.6, "sample_time_ms": 28870.327}, "date": "2025-08-30_17-00-09", "hostname": "cda-server-4", "time_this_iter_s": 29.449899196624756, "episodes_total": 588, "timestamp": 1756566009, "node_ip": "10.157.146.4", "done": false, "time_total_s": 2984.691062450409, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 99, "episode_reward_mean": -804.9000048185404, "training_iteration": 99, "timesteps_total": 118800, "policy_reward_mean": {}, "episode_reward_min": -956.7746711208466, "timesteps_since_restore": 118800, "num_metric_batches_dropped": 0, "time_since_restore": 3017.6259446144104, "episode_reward_max": -735.2771769088171, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 118800, "default": {"kl": 0.014978764578700066, "policy_loss": -0.1510799378156662, "vf_loss": 10859.1005859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.4479990005493164, "entropy": 16.912933349609375, "cur_lr": 4.999999873689376e-05, "total_loss": 10858.97265625}, "load_time_ms": 0.644, "num_steps_sampled": 118800, "grad_time_ms": 598.563, "update_time_ms": 2.629, "sample_time_ms": 29523.036}, "date": "2025-08-30_17-00-42", "hostname": "cda-server-4", "time_this_iter_s": 32.934882164001465, "episodes_total": 594, "timestamp": 1756566042, "node_ip": "10.157.146.4", "done": false, "time_total_s": 3017.6259446144104, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 100, "episode_reward_mean": -802.1324748607968, "training_iteration": 100, "timesteps_total": 120000, "policy_reward_mean": {}, "episode_reward_min": -956.7746711208466, "timesteps_since_restore": 120000, "num_metric_batches_dropped": 0, "time_since_restore": 3046.842861890793, "episode_reward_max": -723.1930965581467, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 120000, "default": {"kl": 0.014140031300485134, "policy_loss": -0.15178698301315308, "vf_loss": 9591.646484375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.4281945824623108, "entropy": 16.976089477539062, "cur_lr": 4.999999873689376e-05, "total_loss": 9591.517578125}, "load_time_ms": 0.656, "num_steps_sampled": 120000, "grad_time_ms": 599.182, "update_time_ms": 2.61, "sample_time_ms": 29535.545}, "date": "2025-08-30_17-01-11", "hostname": "cda-server-4", "time_this_iter_s": 29.216917276382446, "episodes_total": 600, "timestamp": 1756566071, "node_ip": "10.157.146.4", "done": false, "time_total_s": 3046.842861890793, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 101, "episode_reward_mean": -802.2113008793233, "training_iteration": 101, "timesteps_total": 121200, "policy_reward_mean": {}, "episode_reward_min": -956.7746711208466, "timesteps_since_restore": 121200, "num_metric_batches_dropped": 0, "time_since_restore": 3075.557591199875, "episode_reward_max": -723.1930965581467, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 121200, "default": {"kl": 0.01472857128828764, "policy_loss": -0.16406458616256714, "vf_loss": 13978.259765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.624720573425293, "entropy": 16.85585594177246, "cur_lr": 4.999999873689376e-05, "total_loss": 13978.1181640625}, "load_time_ms": 0.656, "num_steps_sampled": 121200, "grad_time_ms": 620.152, "update_time_ms": 2.609, "sample_time_ms": 29243.739}, "date": "2025-08-30_17-01-40", "hostname": "cda-server-4", "time_this_iter_s": 28.71472930908203, "episodes_total": 606, "timestamp": 1756566100, "node_ip": "10.157.146.4", "done": false, "time_total_s": 3075.557591199875, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 102, "episode_reward_mean": -804.0742654427969, "training_iteration": 102, "timesteps_total": 122400, "policy_reward_mean": {}, "episode_reward_min": -956.7746711208466, "timesteps_since_restore": 122400, "num_metric_batches_dropped": 0, "time_since_restore": 3107.568733215332, "episode_reward_max": -723.1930965581467, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 122400, "default": {"kl": 0.01365965511649847, "policy_loss": -0.13468213379383087, "vf_loss": 11440.5341796875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.37099581956863403, "entropy": 16.736997604370117, "cur_lr": 4.999999873689376e-05, "total_loss": 11440.419921875}, "load_time_ms": 0.64, "num_steps_sampled": 122400, "grad_time_ms": 634.158, "update_time_ms": 2.525, "sample_time_ms": 29571.024}, "date": "2025-08-30_17-02-12", "hostname": "cda-server-4", "time_this_iter_s": 32.01114201545715, "episodes_total": 612, "timestamp": 1756566132, "node_ip": "10.157.146.4", "done": false, "time_total_s": 3107.568733215332, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 103, "episode_reward_mean": -803.0141896430576, "training_iteration": 103, "timesteps_total": 123600, "policy_reward_mean": {}, "episode_reward_min": -956.7746711208466, "timesteps_since_restore": 123600, "num_metric_batches_dropped": 0, "time_since_restore": 3135.95450758934, "episode_reward_max": -714.3528765041708, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 123600, "default": {"kl": 0.014599953778088093, "policy_loss": -0.1530725657939911, "vf_loss": 10350.9609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.4864889681339264, "entropy": 16.836299896240234, "cur_lr": 4.999999873689376e-05, "total_loss": 10350.830078125}, "load_time_ms": 0.642, "num_steps_sampled": 123600, "grad_time_ms": 655.571, "update_time_ms": 2.501, "sample_time_ms": 29554.912}, "date": "2025-08-30_17-02-41", "hostname": "cda-server-4", "time_this_iter_s": 28.38577437400818, "episodes_total": 618, "timestamp": 1756566161, "node_ip": "10.157.146.4", "done": false, "time_total_s": 3135.95450758934, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 104, "episode_reward_mean": -802.6589464604235, "training_iteration": 104, "timesteps_total": 124800, "policy_reward_mean": {}, "episode_reward_min": -956.7746711208466, "timesteps_since_restore": 124800, "num_metric_batches_dropped": 0, "time_since_restore": 3165.100104570389, "episode_reward_max": -714.3528765041708, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 124800, "default": {"kl": 0.0149539178237319, "policy_loss": -0.15719527006149292, "vf_loss": 10432.10546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.48206281661987305, "entropy": 16.76079559326172, "cur_lr": 4.999999873689376e-05, "total_loss": 10431.9716796875}, "load_time_ms": 0.607, "num_steps_sampled": 124800, "grad_time_ms": 642.123, "update_time_ms": 2.42, "sample_time_ms": 29458.443}, "date": "2025-08-30_17-03-10", "hostname": "cda-server-4", "time_this_iter_s": 29.145596981048584, "episodes_total": 624, "timestamp": 1756566190, "node_ip": "10.157.146.4", "done": false, "time_total_s": 3165.100104570389, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 105, "episode_reward_mean": -804.8055280082581, "training_iteration": 105, "timesteps_total": 126000, "policy_reward_mean": {}, "episode_reward_min": -956.7746711208466, "timesteps_since_restore": 126000, "num_metric_batches_dropped": 0, "time_since_restore": 3196.182101726532, "episode_reward_max": -714.3528765041708, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 126000, "default": {"kl": 0.014392412267625332, "policy_loss": -0.13776642084121704, "vf_loss": 12827.953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.38938790559768677, "entropy": 16.59514045715332, "cur_lr": 4.999999873689376e-05, "total_loss": 12827.8369140625}, "load_time_ms": 0.621, "num_steps_sampled": 126000, "grad_time_ms": 626.794, "update_time_ms": 2.348, "sample_time_ms": 29369.361}, "date": "2025-08-30_17-03-41", "hostname": "cda-server-4", "time_this_iter_s": 31.08199715614319, "episodes_total": 630, "timestamp": 1756566221, "node_ip": "10.157.146.4", "done": false, "time_total_s": 3196.182101726532, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 106, "episode_reward_mean": -805.5421817087341, "training_iteration": 106, "timesteps_total": 127200, "policy_reward_mean": {}, "episode_reward_min": -956.7746711208466, "timesteps_since_restore": 127200, "num_metric_batches_dropped": 0, "time_since_restore": 3225.8817439079285, "episode_reward_max": -714.3528765041708, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 127200, "default": {"kl": 0.014189387671649456, "policy_loss": -0.1402725875377655, "vf_loss": 16452.05859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.5155084133148193, "entropy": 16.66063690185547, "cur_lr": 4.999999873689376e-05, "total_loss": 16451.94140625}, "load_time_ms": 0.619, "num_steps_sampled": 127200, "grad_time_ms": 618.379, "update_time_ms": 2.331, "sample_time_ms": 29459.581}, "date": "2025-08-30_17-04-11", "hostname": "cda-server-4", "time_this_iter_s": 29.699642181396484, "episodes_total": 636, "timestamp": 1756566251, "node_ip": "10.157.146.4", "done": false, "time_total_s": 3225.8817439079285, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 107, "episode_reward_mean": -801.9475121428936, "training_iteration": 107, "timesteps_total": 128400, "policy_reward_mean": {}, "episode_reward_min": -941.0205108405895, "timesteps_since_restore": 128400, "num_metric_batches_dropped": 0, "time_since_restore": 3257.4702639579773, "episode_reward_max": -714.3528765041708, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 128400, "default": {"kl": 0.014838033355772495, "policy_loss": -0.14512616395950317, "vf_loss": 10543.9169921875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.41667574644088745, "entropy": 16.534923553466797, "cur_lr": 4.999999873689376e-05, "total_loss": 10543.7939453125}, "load_time_ms": 0.627, "num_steps_sampled": 128400, "grad_time_ms": 620.072, "update_time_ms": 2.352, "sample_time_ms": 29595.896}, "date": "2025-08-30_17-04-42", "hostname": "cda-server-4", "time_this_iter_s": 31.588520050048828, "episodes_total": 642, "timestamp": 1756566282, "node_ip": "10.157.146.4", "done": false, "time_total_s": 3257.4702639579773, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 108, "episode_reward_mean": -800.1212450622329, "training_iteration": 108, "timesteps_total": 129600, "policy_reward_mean": {}, "episode_reward_min": -941.0205108405895, "timesteps_since_restore": 129600, "num_metric_batches_dropped": 0, "time_since_restore": 3290.4084043502808, "episode_reward_max": -714.3528765041708, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 129600, "default": {"kl": 0.01346120610833168, "policy_loss": -0.14614291489124298, "vf_loss": 9050.16015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.3558026850223541, "entropy": 16.55389404296875, "cur_lr": 4.999999873689376e-05, "total_loss": 9050.03515625}, "load_time_ms": 0.631, "num_steps_sampled": 129600, "grad_time_ms": 609.508, "update_time_ms": 2.292, "sample_time_ms": 29955.356}, "date": "2025-08-30_17-05-15", "hostname": "cda-server-4", "time_this_iter_s": 32.93814039230347, "episodes_total": 648, "timestamp": 1756566315, "node_ip": "10.157.146.4", "done": false, "time_total_s": 3290.4084043502808, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 109, "episode_reward_mean": -803.1218750079913, "training_iteration": 109, "timesteps_total": 130800, "policy_reward_mean": {}, "episode_reward_min": -941.0205108405895, "timesteps_since_restore": 130800, "num_metric_batches_dropped": 0, "time_since_restore": 3320.6012518405914, "episode_reward_max": -714.3528765041708, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 130800, "default": {"kl": 0.013885698281228542, "policy_loss": -0.14436471462249756, "vf_loss": 12159.0078125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.5594943761825562, "entropy": 16.483591079711914, "cur_lr": 4.999999873689376e-05, "total_loss": 12158.884765625}, "load_time_ms": 0.616, "num_steps_sampled": 130800, "grad_time_ms": 588.354, "update_time_ms": 2.203, "sample_time_ms": 29702.446}, "date": "2025-08-30_17-05-45", "hostname": "cda-server-4", "time_this_iter_s": 30.19284749031067, "episodes_total": 654, "timestamp": 1756566345, "node_ip": "10.157.146.4", "done": false, "time_total_s": 3320.6012518405914, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 110, "episode_reward_mean": -802.0587914236443, "training_iteration": 110, "timesteps_total": 132000, "policy_reward_mean": {}, "episode_reward_min": -941.0205108405895, "timesteps_since_restore": 132000, "num_metric_batches_dropped": 0, "time_since_restore": 3352.8177075386047, "episode_reward_max": -714.3528765041708, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 132000, "default": {"kl": 0.013067735359072685, "policy_loss": -0.14019609987735748, "vf_loss": 7698.47314453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.5279508829116821, "entropy": 16.609086990356445, "cur_lr": 4.999999873689376e-05, "total_loss": 7698.353515625}, "load_time_ms": 0.606, "num_steps_sampled": 132000, "grad_time_ms": 590.12, "update_time_ms": 2.07, "sample_time_ms": 30000.693}, "date": "2025-08-30_17-06-18", "hostname": "cda-server-4", "time_this_iter_s": 32.216455698013306, "episodes_total": 660, "timestamp": 1756566378, "node_ip": "10.157.146.4", "done": false, "time_total_s": 3352.8177075386047, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 111, "episode_reward_mean": -801.7061204227591, "training_iteration": 111, "timesteps_total": 133200, "policy_reward_mean": {}, "episode_reward_min": -941.0205108405895, "timesteps_since_restore": 133200, "num_metric_batches_dropped": 0, "time_since_restore": 3385.4400746822357, "episode_reward_max": -714.3528765041708, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 133200, "default": {"kl": 0.014829148538410664, "policy_loss": -0.14515455067157745, "vf_loss": 9662.8974609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.3141554296016693, "entropy": 16.409494400024414, "cur_lr": 4.999999873689376e-05, "total_loss": 9662.7744140625}, "load_time_ms": 0.606, "num_steps_sampled": 133200, "grad_time_ms": 598.503, "update_time_ms": 2.096, "sample_time_ms": 30383.054}, "date": "2025-08-30_17-06-50", "hostname": "cda-server-4", "time_this_iter_s": 32.62236714363098, "episodes_total": 666, "timestamp": 1756566410, "node_ip": "10.157.146.4", "done": false, "time_total_s": 3385.4400746822357, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 112, "episode_reward_mean": -802.4774634864721, "training_iteration": 112, "timesteps_total": 134400, "policy_reward_mean": {}, "episode_reward_min": -941.0205108405895, "timesteps_since_restore": 134400, "num_metric_batches_dropped": 0, "time_since_restore": 3415.889870405197, "episode_reward_max": -714.3528765041708, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 134400, "default": {"kl": 0.013694499619305134, "policy_loss": -0.14410744607448578, "vf_loss": 9119.384765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.4918966293334961, "entropy": 16.452709197998047, "cur_lr": 4.999999873689376e-05, "total_loss": 9119.2607421875}, "load_time_ms": 0.617, "num_steps_sampled": 134400, "grad_time_ms": 609.481, "update_time_ms": 2.156, "sample_time_ms": 30215.834}, "date": "2025-08-30_17-07-21", "hostname": "cda-server-4", "time_this_iter_s": 30.449795722961426, "episodes_total": 672, "timestamp": 1756566441, "node_ip": "10.157.146.4", "done": false, "time_total_s": 3415.889870405197, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 113, "episode_reward_mean": -800.9142123870171, "training_iteration": 113, "timesteps_total": 135600, "policy_reward_mean": {}, "episode_reward_min": -941.0205108405895, "timesteps_since_restore": 135600, "num_metric_batches_dropped": 0, "time_since_restore": 3446.3877894878387, "episode_reward_max": -714.3528765041708, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 135600, "default": {"kl": 0.014658331871032715, "policy_loss": -0.1632656455039978, "vf_loss": 9009.9013671875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.3917551040649414, "entropy": 16.5051212310791, "cur_lr": 4.999999873689376e-05, "total_loss": 9009.7607421875}, "load_time_ms": 0.622, "num_steps_sampled": 135600, "grad_time_ms": 611.691, "update_time_ms": 2.157, "sample_time_ms": 30424.837}, "date": "2025-08-30_17-07-51", "hostname": "cda-server-4", "time_this_iter_s": 30.4979190826416, "episodes_total": 678, "timestamp": 1756566471, "node_ip": "10.157.146.4", "done": false, "time_total_s": 3446.3877894878387, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 114, "episode_reward_mean": -799.7743163160843, "training_iteration": 114, "timesteps_total": 136800, "policy_reward_mean": {}, "episode_reward_min": -941.0205108405895, "timesteps_since_restore": 136800, "num_metric_batches_dropped": 0, "time_since_restore": 3476.6721544265747, "episode_reward_max": -714.3528765041708, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 136800, "default": {"kl": 0.012617984786629677, "policy_loss": -0.14563533663749695, "vf_loss": 8892.4501953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.43376868963241577, "entropy": 16.42209243774414, "cur_lr": 4.999999873689376e-05, "total_loss": 8892.32421875}, "load_time_ms": 0.623, "num_steps_sampled": 136800, "grad_time_ms": 633.54, "update_time_ms": 2.203, "sample_time_ms": 30516.867}, "date": "2025-08-30_17-08-22", "hostname": "cda-server-4", "time_this_iter_s": 30.284364938735962, "episodes_total": 684, "timestamp": 1756566502, "node_ip": "10.157.146.4", "done": false, "time_total_s": 3476.6721544265747, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 115, "episode_reward_mean": -800.507048372607, "training_iteration": 115, "timesteps_total": 138000, "policy_reward_mean": {}, "episode_reward_min": -941.0205108405895, "timesteps_since_restore": 138000, "num_metric_batches_dropped": 0, "time_since_restore": 3508.609578371048, "episode_reward_max": -714.3528765041708, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 138000, "default": {"kl": 0.013602690771222115, "policy_loss": -0.12575572729110718, "vf_loss": 8238.498046875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.44295939803123474, "entropy": 16.544864654541016, "cur_lr": 4.999999873689376e-05, "total_loss": 8238.3935546875}, "load_time_ms": 0.608, "num_steps_sampled": 138000, "grad_time_ms": 656.859, "update_time_ms": 2.227, "sample_time_ms": 30579.08}, "date": "2025-08-30_17-08-53", "hostname": "cda-server-4", "time_this_iter_s": 31.937423944473267, "episodes_total": 690, "timestamp": 1756566533, "node_ip": "10.157.146.4", "done": false, "time_total_s": 3508.609578371048, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 116, "episode_reward_mean": -801.5588919659332, "training_iteration": 116, "timesteps_total": 139200, "policy_reward_mean": {}, "episode_reward_min": -941.0205108405895, "timesteps_since_restore": 139200, "num_metric_batches_dropped": 0, "time_since_restore": 3540.459550857544, "episode_reward_max": -714.3528765041708, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 139200, "default": {"kl": 0.013587859459221363, "policy_loss": -0.1277955025434494, "vf_loss": 8182.52587890625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.6010781526565552, "entropy": 16.34548568725586, "cur_lr": 4.999999873689376e-05, "total_loss": 8182.41845703125}, "load_time_ms": 0.615, "num_steps_sampled": 139200, "grad_time_ms": 670.482, "update_time_ms": 2.206, "sample_time_ms": 30780.502}, "date": "2025-08-30_17-09-25", "hostname": "cda-server-4", "time_this_iter_s": 31.84997248649597, "episodes_total": 696, "timestamp": 1756566565, "node_ip": "10.157.146.4", "done": false, "time_total_s": 3540.459550857544, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 117, "episode_reward_mean": -803.0134129718482, "training_iteration": 117, "timesteps_total": 140400, "policy_reward_mean": {}, "episode_reward_min": -941.0205108405895, "timesteps_since_restore": 140400, "num_metric_batches_dropped": 0, "time_since_restore": 3573.4452040195465, "episode_reward_max": -714.3528765041708, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 140400, "default": {"kl": 0.01276597660034895, "policy_loss": -0.12072822451591492, "vf_loss": 8749.8203125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.5165402889251709, "entropy": 16.278173446655273, "cur_lr": 4.999999873689376e-05, "total_loss": 8749.7197265625}, "load_time_ms": 0.601, "num_steps_sampled": 140400, "grad_time_ms": 664.953, "update_time_ms": 2.149, "sample_time_ms": 30925.83}, "date": "2025-08-30_17-09-58", "hostname": "cda-server-4", "time_this_iter_s": 32.98565316200256, "episodes_total": 702, "timestamp": 1756566598, "node_ip": "10.157.146.4", "done": false, "time_total_s": 3573.4452040195465, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 118, "episode_reward_mean": -803.6765021179499, "training_iteration": 118, "timesteps_total": 141600, "policy_reward_mean": {}, "episode_reward_min": -941.0205108405895, "timesteps_since_restore": 141600, "num_metric_batches_dropped": 0, "time_since_restore": 3603.71874332428, "episode_reward_max": -714.3528765041708, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 141600, "default": {"kl": 0.013848243281245232, "policy_loss": -0.14234177768230438, "vf_loss": 8726.51953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.6101889610290527, "entropy": 16.346101760864258, "cur_lr": 4.999999873689376e-05, "total_loss": 8726.3984375}, "load_time_ms": 0.61, "num_steps_sampled": 141600, "grad_time_ms": 661.565, "update_time_ms": 2.148, "sample_time_ms": 30662.726}, "date": "2025-08-30_17-10-29", "hostname": "cda-server-4", "time_this_iter_s": 30.273539304733276, "episodes_total": 708, "timestamp": 1756566629, "node_ip": "10.157.146.4", "done": false, "time_total_s": 3603.71874332428, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 119, "episode_reward_mean": -801.3309058327171, "training_iteration": 119, "timesteps_total": 142800, "policy_reward_mean": {}, "episode_reward_min": -941.0205108405895, "timesteps_since_restore": 142800, "num_metric_batches_dropped": 0, "time_since_restore": 3634.416325569153, "episode_reward_max": -704.62935646587, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 142800, "default": {"kl": 0.012904105708003044, "policy_loss": -0.13530363142490387, "vf_loss": 6537.634765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.5406391620635986, "entropy": 16.287090301513672, "cur_lr": 4.999999873689376e-05, "total_loss": 6537.5185546875}, "load_time_ms": 0.613, "num_steps_sampled": 142800, "grad_time_ms": 660.255, "update_time_ms": 2.152, "sample_time_ms": 30714.521}, "date": "2025-08-30_17-10-59", "hostname": "cda-server-4", "time_this_iter_s": 30.697582244873047, "episodes_total": 714, "timestamp": 1756566659, "node_ip": "10.157.146.4", "done": false, "time_total_s": 3634.416325569153, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 120, "episode_reward_mean": -803.4798626100238, "training_iteration": 120, "timesteps_total": 144000, "policy_reward_mean": {}, "episode_reward_min": -941.0205108405895, "timesteps_since_restore": 144000, "num_metric_batches_dropped": 0, "time_since_restore": 3665.368983030319, "episode_reward_max": -704.62935646587, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 144000, "default": {"kl": 0.014230172149837017, "policy_loss": -0.13813476264476776, "vf_loss": 8939.8349609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.47532811760902405, "entropy": 16.330718994140625, "cur_lr": 4.999999873689376e-05, "total_loss": 8939.716796875}, "load_time_ms": 0.607, "num_steps_sampled": 144000, "grad_time_ms": 650.251, "update_time_ms": 2.195, "sample_time_ms": 30598.213}, "date": "2025-08-30_17-11-30", "hostname": "cda-server-4", "time_this_iter_s": 30.952657461166382, "episodes_total": 720, "timestamp": 1756566690, "node_ip": "10.157.146.4", "done": false, "time_total_s": 3665.368983030319, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 121, "episode_reward_mean": -799.4967627312055, "training_iteration": 121, "timesteps_total": 145200, "policy_reward_mean": {}, "episode_reward_min": -915.653534172743, "timesteps_since_restore": 145200, "num_metric_batches_dropped": 0, "time_since_restore": 3698.559951543808, "episode_reward_max": -702.9554605526179, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 145200, "default": {"kl": 0.014873562380671501, "policy_loss": -0.15488584339618683, "vf_loss": 5843.7099609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.5443446636199951, "entropy": 16.451066970825195, "cur_lr": 4.999999873689376e-05, "total_loss": 5843.57763671875}, "load_time_ms": 0.599, "num_steps_sampled": 145200, "grad_time_ms": 638.988, "update_time_ms": 2.175, "sample_time_ms": 30666.389}, "date": "2025-08-30_17-12-04", "hostname": "cda-server-4", "time_this_iter_s": 33.19096851348877, "episodes_total": 726, "timestamp": 1756566724, "node_ip": "10.157.146.4", "done": false, "time_total_s": 3698.559951543808, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 122, "episode_reward_mean": -798.0125215497421, "training_iteration": 122, "timesteps_total": 146400, "policy_reward_mean": {}, "episode_reward_min": -915.653534172743, "timesteps_since_restore": 146400, "num_metric_batches_dropped": 0, "time_since_restore": 3727.822667360306, "episode_reward_max": -702.9554605526179, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 146400, "default": {"kl": 0.013492015190422535, "policy_loss": -0.13200527429580688, "vf_loss": 6512.224609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.621221661567688, "entropy": 16.186304092407227, "cur_lr": 4.999999873689376e-05, "total_loss": 6512.11279296875}, "load_time_ms": 0.605, "num_steps_sampled": 146400, "grad_time_ms": 633.067, "update_time_ms": 2.144, "sample_time_ms": 30553.634}, "date": "2025-08-30_17-12-33", "hostname": "cda-server-4", "time_this_iter_s": 29.262715816497803, "episodes_total": 732, "timestamp": 1756566753, "node_ip": "10.157.146.4", "done": false, "time_total_s": 3727.822667360306, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 123, "episode_reward_mean": -796.4634133721571, "training_iteration": 123, "timesteps_total": 147600, "policy_reward_mean": {}, "episode_reward_min": -915.653534172743, "timesteps_since_restore": 147600, "num_metric_batches_dropped": 0, "time_since_restore": 3758.171707868576, "episode_reward_max": -697.9130988716843, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 147600, "default": {"kl": 0.013203272596001625, "policy_loss": -0.13792571425437927, "vf_loss": 7689.978515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.5817861557006836, "entropy": 16.336971282958984, "cur_lr": 4.999999873689376e-05, "total_loss": 7689.8603515625}, "load_time_ms": 0.603, "num_steps_sampled": 147600, "grad_time_ms": 623.486, "update_time_ms": 2.139, "sample_time_ms": 30548.387}, "date": "2025-08-30_17-13-03", "hostname": "cda-server-4", "time_this_iter_s": 30.349040508270264, "episodes_total": 738, "timestamp": 1756566783, "node_ip": "10.157.146.4", "done": false, "time_total_s": 3758.171707868576, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 124, "episode_reward_mean": -795.1277166447617, "training_iteration": 124, "timesteps_total": 148800, "policy_reward_mean": {}, "episode_reward_min": -915.653534172743, "timesteps_since_restore": 148800, "num_metric_batches_dropped": 0, "time_since_restore": 3786.27650642395, "episode_reward_max": -697.9130988716843, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 148800, "default": {"kl": 0.014012758620083332, "policy_loss": -0.1416754424571991, "vf_loss": 6447.58837890625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.6963209509849548, "entropy": 16.32210350036621, "cur_lr": 4.999999873689376e-05, "total_loss": 6447.4677734375}, "load_time_ms": 0.607, "num_steps_sampled": 148800, "grad_time_ms": 612.559, "update_time_ms": 2.154, "sample_time_ms": 30341.27}, "date": "2025-08-30_17-13-31", "hostname": "cda-server-4", "time_this_iter_s": 28.104798555374146, "episodes_total": 744, "timestamp": 1756566811, "node_ip": "10.157.146.4", "done": false, "time_total_s": 3786.27650642395, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 125, "episode_reward_mean": -795.3697393904407, "training_iteration": 125, "timesteps_total": 150000, "policy_reward_mean": {}, "episode_reward_min": -915.653534172743, "timesteps_since_restore": 150000, "num_metric_batches_dropped": 0, "time_since_restore": 3815.324691057205, "episode_reward_max": -697.9130988716843, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 150000, "default": {"kl": 0.01513027772307396, "policy_loss": -0.15601393580436707, "vf_loss": 6261.80078125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.5887801051139832, "entropy": 16.288414001464844, "cur_lr": 4.999999873689376e-05, "total_loss": 6261.66748046875}, "load_time_ms": 0.618, "num_steps_sampled": 150000, "grad_time_ms": 592.542, "update_time_ms": 2.214, "sample_time_ms": 30072.259}, "date": "2025-08-30_17-14-00", "hostname": "cda-server-4", "time_this_iter_s": 29.048184633255005, "episodes_total": 750, "timestamp": 1756566840, "node_ip": "10.157.146.4", "done": false, "time_total_s": 3815.324691057205, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 126, "episode_reward_mean": -794.0965400800876, "training_iteration": 126, "timesteps_total": 151200, "policy_reward_mean": {}, "episode_reward_min": -915.653534172743, "timesteps_since_restore": 151200, "num_metric_batches_dropped": 0, "time_since_restore": 3846.9161064624786, "episode_reward_max": -697.9130988716843, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 151200, "default": {"kl": 0.01471856888383627, "policy_loss": -0.15504804253578186, "vf_loss": 6246.3671875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.6708298921585083, "entropy": 16.24193000793457, "cur_lr": 4.999999873689376e-05, "total_loss": 6246.23486328125}, "load_time_ms": 0.607, "num_steps_sampled": 151200, "grad_time_ms": 565.428, "update_time_ms": 2.228, "sample_time_ms": 30073.588}, "date": "2025-08-30_17-14-32", "hostname": "cda-server-4", "time_this_iter_s": 31.591415405273438, "episodes_total": 756, "timestamp": 1756566872, "node_ip": "10.157.146.4", "done": false, "time_total_s": 3846.9161064624786, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 127, "episode_reward_mean": -795.7481658572309, "training_iteration": 127, "timesteps_total": 152400, "policy_reward_mean": {}, "episode_reward_min": -915.653534172743, "timesteps_since_restore": 152400, "num_metric_batches_dropped": 0, "time_since_restore": 3878.9695818424225, "episode_reward_max": -697.9130988716843, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 152400, "default": {"kl": 0.012576091103255749, "policy_loss": -0.14117108285427094, "vf_loss": 6154.37646484375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.7062615156173706, "entropy": 16.274436950683594, "cur_lr": 4.999999873689376e-05, "total_loss": 6154.25341796875}, "load_time_ms": 0.608, "num_steps_sampled": 152400, "grad_time_ms": 553.124, "update_time_ms": 2.257, "sample_time_ms": 29992.65}, "date": "2025-08-30_17-15-04", "hostname": "cda-server-4", "time_this_iter_s": 32.05347537994385, "episodes_total": 762, "timestamp": 1756566904, "node_ip": "10.157.146.4", "done": false, "time_total_s": 3878.9695818424225, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 128, "episode_reward_mean": -794.1218949792132, "training_iteration": 128, "timesteps_total": 153600, "policy_reward_mean": {}, "episode_reward_min": -915.653534172743, "timesteps_since_restore": 153600, "num_metric_batches_dropped": 0, "time_since_restore": 3912.258667945862, "episode_reward_max": -697.9130988716843, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 153600, "default": {"kl": 0.013078860007226467, "policy_loss": -0.1411914825439453, "vf_loss": 5527.357421875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.6486455202102661, "entropy": 16.27155303955078, "cur_lr": 4.999999873689376e-05, "total_loss": 5527.236328125}, "load_time_ms": 0.593, "num_steps_sampled": 153600, "grad_time_ms": 561.996, "update_time_ms": 2.295, "sample_time_ms": 30285.387}, "date": "2025-08-30_17-15-37", "hostname": "cda-server-4", "time_this_iter_s": 33.28908610343933, "episodes_total": 768, "timestamp": 1756566937, "node_ip": "10.157.146.4", "done": false, "time_total_s": 3912.258667945862, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 129, "episode_reward_mean": -794.4350561002085, "training_iteration": 129, "timesteps_total": 154800, "policy_reward_mean": {}, "episode_reward_min": -915.653534172743, "timesteps_since_restore": 154800, "num_metric_batches_dropped": 0, "time_since_restore": 3941.5431699752808, "episode_reward_max": -697.9130988716843, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 154800, "default": {"kl": 0.013900283724069595, "policy_loss": -0.14333657920360565, "vf_loss": 5302.95556640625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.6205723285675049, "entropy": 16.188894271850586, "cur_lr": 4.999999873689376e-05, "total_loss": 5302.8330078125}, "load_time_ms": 0.591, "num_steps_sampled": 154800, "grad_time_ms": 561.811, "update_time_ms": 2.319, "sample_time_ms": 30144.283}, "date": "2025-08-30_17-16-07", "hostname": "cda-server-4", "time_this_iter_s": 29.284502029418945, "episodes_total": 774, "timestamp": 1756566967, "node_ip": "10.157.146.4", "done": false, "time_total_s": 3941.5431699752808, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 130, "episode_reward_mean": -793.6283453627173, "training_iteration": 130, "timesteps_total": 156000, "policy_reward_mean": {}, "episode_reward_min": -915.653534172743, "timesteps_since_restore": 156000, "num_metric_batches_dropped": 0, "time_since_restore": 3973.650799036026, "episode_reward_max": -697.9130988716843, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 156000, "default": {"kl": 0.01345739234238863, "policy_loss": -0.131301611661911, "vf_loss": 9937.6220703125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.5664384365081787, "entropy": 16.1070556640625, "cur_lr": 4.999999873689376e-05, "total_loss": 9937.51171875}, "load_time_ms": 0.593, "num_steps_sampled": 156000, "grad_time_ms": 557.48, "update_time_ms": 2.253, "sample_time_ms": 30264.206}, "date": "2025-08-30_17-16-39", "hostname": "cda-server-4", "time_this_iter_s": 32.10762906074524, "episodes_total": 780, "timestamp": 1756566999, "node_ip": "10.157.146.4", "done": false, "time_total_s": 3973.650799036026, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 131, "episode_reward_mean": -794.9429331785681, "training_iteration": 131, "timesteps_total": 157200, "policy_reward_mean": {}, "episode_reward_min": -915.653534172743, "timesteps_since_restore": 157200, "num_metric_batches_dropped": 0, "time_since_restore": 4006.4166378974915, "episode_reward_max": -697.9130988716843, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 157200, "default": {"kl": 0.013545895926654339, "policy_loss": -0.13840129971504211, "vf_loss": 5954.83935546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.6694700717926025, "entropy": 16.129878997802734, "cur_lr": 4.999999873689376e-05, "total_loss": 5954.72119140625}, "load_time_ms": 0.59, "num_steps_sampled": 157200, "grad_time_ms": 555.686, "update_time_ms": 2.228, "sample_time_ms": 30223.387}, "date": "2025-08-30_17-17-12", "hostname": "cda-server-4", "time_this_iter_s": 32.765838861465454, "episodes_total": 786, "timestamp": 1756567032, "node_ip": "10.157.146.4", "done": false, "time_total_s": 4006.4166378974915, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 132, "episode_reward_mean": -794.4686618853881, "training_iteration": 132, "timesteps_total": 158400, "policy_reward_mean": {}, "episode_reward_min": -915.653534172743, "timesteps_since_restore": 158400, "num_metric_batches_dropped": 0, "time_since_restore": 4036.5258893966675, "episode_reward_max": -687.7247058696488, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 158400, "default": {"kl": 0.013039689511060715, "policy_loss": -0.13456332683563232, "vf_loss": 4320.0498046875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.740790605545044, "entropy": 16.021541595458984, "cur_lr": 4.999999873689376e-05, "total_loss": 4319.935546875}, "load_time_ms": 0.595, "num_steps_sampled": 158400, "grad_time_ms": 557.538, "update_time_ms": 2.288, "sample_time_ms": 30306.119}, "date": "2025-08-30_17-17-42", "hostname": "cda-server-4", "time_this_iter_s": 30.109251499176025, "episodes_total": 792, "timestamp": 1756567062, "node_ip": "10.157.146.4", "done": false, "time_total_s": 4036.5258893966675, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 133, "episode_reward_mean": -791.662864477053, "training_iteration": 133, "timesteps_total": 159600, "policy_reward_mean": {}, "episode_reward_min": -915.653534172743, "timesteps_since_restore": 159600, "num_metric_batches_dropped": 0, "time_since_restore": 4069.5915002822876, "episode_reward_max": -687.7247058696488, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 159600, "default": {"kl": 0.01409365888684988, "policy_loss": -0.15350395441055298, "vf_loss": 3990.93310546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.7045049667358398, "entropy": 16.20172882080078, "cur_lr": 4.999999873689376e-05, "total_loss": 3990.80078125}, "load_time_ms": 0.613, "num_steps_sampled": 159600, "grad_time_ms": 571.972, "update_time_ms": 2.285, "sample_time_ms": 30563.222}, "date": "2025-08-30_17-18-15", "hostname": "cda-server-4", "time_this_iter_s": 33.06561088562012, "episodes_total": 798, "timestamp": 1756567095, "node_ip": "10.157.146.4", "done": false, "time_total_s": 4069.5915002822876, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 134, "episode_reward_mean": -788.2836196009646, "training_iteration": 134, "timesteps_total": 160800, "policy_reward_mean": {}, "episode_reward_min": -893.5739099620158, "timesteps_since_restore": 160800, "num_metric_batches_dropped": 0, "time_since_restore": 4099.858693122864, "episode_reward_max": -687.7247058696488, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 160800, "default": {"kl": 0.013675114139914513, "policy_loss": -0.1444784551858902, "vf_loss": 6474.00244140625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.41920310258865356, "entropy": 16.02494239807129, "cur_lr": 4.999999873689376e-05, "total_loss": 6473.87841796875}, "load_time_ms": 0.601, "num_steps_sampled": 160800, "grad_time_ms": 568.656, "update_time_ms": 2.281, "sample_time_ms": 30782.91}, "date": "2025-08-30_17-18-45", "hostname": "cda-server-4", "time_this_iter_s": 30.267192840576172, "episodes_total": 804, "timestamp": 1756567125, "node_ip": "10.157.146.4", "done": false, "time_total_s": 4099.858693122864, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 135, "episode_reward_mean": -788.9888900237046, "training_iteration": 135, "timesteps_total": 162000, "policy_reward_mean": {}, "episode_reward_min": -895.0747660485674, "timesteps_since_restore": 162000, "num_metric_batches_dropped": 0, "time_since_restore": 4131.387482881546, "episode_reward_max": -687.7247058696488, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 162000, "default": {"kl": 0.014877148903906345, "policy_loss": -0.14997698366641998, "vf_loss": 4990.3837890625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.7626512050628662, "entropy": 16.1468563079834, "cur_lr": 4.999999873689376e-05, "total_loss": 4990.255859375}, "load_time_ms": 0.593, "num_steps_sampled": 162000, "grad_time_ms": 579.967, "update_time_ms": 2.193, "sample_time_ms": 31019.76}, "date": "2025-08-30_17-19-17", "hostname": "cda-server-4", "time_this_iter_s": 31.52878975868225, "episodes_total": 810, "timestamp": 1756567157, "node_ip": "10.157.146.4", "done": false, "time_total_s": 4131.387482881546, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 136, "episode_reward_mean": -789.274990223462, "training_iteration": 136, "timesteps_total": 163200, "policy_reward_mean": {}, "episode_reward_min": -895.0747660485674, "timesteps_since_restore": 163200, "num_metric_batches_dropped": 0, "time_since_restore": 4163.772831201553, "episode_reward_max": -687.7247058696488, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 163200, "default": {"kl": 0.013096383772790432, "policy_loss": -0.13929623365402222, "vf_loss": 4682.296875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.6442572474479675, "entropy": 16.00442123413086, "cur_lr": 4.999999873689376e-05, "total_loss": 4682.177734375}, "load_time_ms": 0.599, "num_steps_sampled": 163200, "grad_time_ms": 604.568, "update_time_ms": 2.216, "sample_time_ms": 31074.441}, "date": "2025-08-30_17-19-49", "hostname": "cda-server-4", "time_this_iter_s": 32.385348320007324, "episodes_total": 816, "timestamp": 1756567189, "node_ip": "10.157.146.4", "done": false, "time_total_s": 4163.772831201553, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 137, "episode_reward_mean": -790.5155963703894, "training_iteration": 137, "timesteps_total": 164400, "policy_reward_mean": {}, "episode_reward_min": -895.0747660485674, "timesteps_since_restore": 164400, "num_metric_batches_dropped": 0, "time_since_restore": 4193.754025697708, "episode_reward_max": -687.7247058696488, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 164400, "default": {"kl": 0.013758416287600994, "policy_loss": -0.1380118578672409, "vf_loss": 5201.5478515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.667597770690918, "entropy": 16.0682430267334, "cur_lr": 4.999999873689376e-05, "total_loss": 5201.4306640625}, "load_time_ms": 0.615, "num_steps_sampled": 164400, "grad_time_ms": 609.951, "update_time_ms": 2.239, "sample_time_ms": 30861.804}, "date": "2025-08-30_17-20-19", "hostname": "cda-server-4", "time_this_iter_s": 29.981194496154785, "episodes_total": 822, "timestamp": 1756567219, "node_ip": "10.157.146.4", "done": false, "time_total_s": 4193.754025697708, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 138, "episode_reward_mean": -790.7016647888428, "training_iteration": 138, "timesteps_total": 165600, "policy_reward_mean": {}, "episode_reward_min": -895.0747660485674, "timesteps_since_restore": 165600, "num_metric_batches_dropped": 0, "time_since_restore": 4223.95081615448, "episode_reward_max": -687.7247058696488, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 165600, "default": {"kl": 0.013123426586389542, "policy_loss": -0.12782256305217743, "vf_loss": 4783.55517578125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.6816250085830688, "entropy": 15.962108612060547, "cur_lr": 4.999999873689376e-05, "total_loss": 4783.447265625}, "load_time_ms": 0.619, "num_steps_sampled": 165600, "grad_time_ms": 612.322, "update_time_ms": 2.207, "sample_time_ms": 30550.112}, "date": "2025-08-30_17-20-49", "hostname": "cda-server-4", "time_this_iter_s": 30.19679045677185, "episodes_total": 828, "timestamp": 1756567249, "node_ip": "10.157.146.4", "done": false, "time_total_s": 4223.95081615448, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 139, "episode_reward_mean": -788.3785557568058, "training_iteration": 139, "timesteps_total": 166800, "policy_reward_mean": {}, "episode_reward_min": -895.0747660485674, "timesteps_since_restore": 166800, "num_metric_batches_dropped": 0, "time_since_restore": 4255.692442417145, "episode_reward_max": -687.7247058696488, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 166800, "default": {"kl": 0.013179545290768147, "policy_loss": -0.14642997086048126, "vf_loss": 3977.1640625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.7982923984527588, "entropy": 16.09640121459961, "cur_lr": 4.999999873689376e-05, "total_loss": 3977.037841796875}, "load_time_ms": 0.63, "num_steps_sampled": 166800, "grad_time_ms": 633.89, "update_time_ms": 2.226, "sample_time_ms": 30774.096}, "date": "2025-08-30_17-21-21", "hostname": "cda-server-4", "time_this_iter_s": 31.741626262664795, "episodes_total": 834, "timestamp": 1756567281, "node_ip": "10.157.146.4", "done": false, "time_total_s": 4255.692442417145, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 140, "episode_reward_mean": -788.821228559337, "training_iteration": 140, "timesteps_total": 168000, "policy_reward_mean": {}, "episode_reward_min": -895.0747660485674, "timesteps_since_restore": 168000, "num_metric_batches_dropped": 0, "time_since_restore": 4285.820912122726, "episode_reward_max": -687.7247058696488, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 168000, "default": {"kl": 0.014116492122411728, "policy_loss": -0.15166465938091278, "vf_loss": 3447.130126953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.7101404070854187, "entropy": 16.118877410888672, "cur_lr": 4.999999873689376e-05, "total_loss": 3447.0}, "load_time_ms": 0.643, "num_steps_sampled": 168000, "grad_time_ms": 657.603, "update_time_ms": 2.256, "sample_time_ms": 30552.389}, "date": "2025-08-30_17-21-51", "hostname": "cda-server-4", "time_this_iter_s": 30.128469705581665, "episodes_total": 840, "timestamp": 1756567311, "node_ip": "10.157.146.4", "done": false, "time_total_s": 4285.820912122726, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 141, "episode_reward_mean": -787.7396640331609, "training_iteration": 141, "timesteps_total": 169200, "policy_reward_mean": {}, "episode_reward_min": -895.0747660485674, "timesteps_since_restore": 169200, "num_metric_batches_dropped": 0, "time_since_restore": 4319.139651298523, "episode_reward_max": -687.7247058696488, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 169200, "default": {"kl": 0.013347822241485119, "policy_loss": -0.14106327295303345, "vf_loss": 4329.47802734375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.6682416796684265, "entropy": 15.968070030212402, "cur_lr": 4.999999873689376e-05, "total_loss": 4329.357421875}, "load_time_ms": 0.645, "num_steps_sampled": 169200, "grad_time_ms": 657.796, "update_time_ms": 2.298, "sample_time_ms": 30607.541}, "date": "2025-08-30_17-22-24", "hostname": "cda-server-4", "time_this_iter_s": 33.31873917579651, "episodes_total": 846, "timestamp": 1756567344, "node_ip": "10.157.146.4", "done": false, "time_total_s": 4319.139651298523, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 142, "episode_reward_mean": -786.9439100136238, "training_iteration": 142, "timesteps_total": 170400, "policy_reward_mean": {}, "episode_reward_min": -895.0747660485674, "timesteps_since_restore": 170400, "num_metric_batches_dropped": 0, "time_since_restore": 4347.476767539978, "episode_reward_max": -687.7247058696488, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 170400, "default": {"kl": 0.012647945433855057, "policy_loss": -0.1412762701511383, "vf_loss": 3830.53515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.7981475591659546, "entropy": 15.82872486114502, "cur_lr": 4.999999873689376e-05, "total_loss": 3830.412841796875}, "load_time_ms": 0.631, "num_steps_sampled": 170400, "grad_time_ms": 657.24, "update_time_ms": 2.253, "sample_time_ms": 30430.947}, "date": "2025-08-30_17-22-53", "hostname": "cda-server-4", "time_this_iter_s": 28.337116241455078, "episodes_total": 852, "timestamp": 1756567373, "node_ip": "10.157.146.4", "done": false, "time_total_s": 4347.476767539978, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 143, "episode_reward_mean": -786.4659191642729, "training_iteration": 143, "timesteps_total": 171600, "policy_reward_mean": {}, "episode_reward_min": -895.0747660485674, "timesteps_since_restore": 171600, "num_metric_batches_dropped": 0, "time_since_restore": 4374.414999246597, "episode_reward_max": -687.7247058696488, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 171600, "default": {"kl": 0.01402511727064848, "policy_loss": -0.14084719121456146, "vf_loss": 3590.265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.7483723163604736, "entropy": 15.868170738220215, "cur_lr": 4.999999873689376e-05, "total_loss": 3590.14599609375}, "load_time_ms": 0.614, "num_steps_sampled": 171600, "grad_time_ms": 658.381, "update_time_ms": 2.252, "sample_time_ms": 29817.141}, "date": "2025-08-30_17-23-20", "hostname": "cda-server-4", "time_this_iter_s": 26.938231706619263, "episodes_total": 858, "timestamp": 1756567400, "node_ip": "10.157.146.4", "done": false, "time_total_s": 4374.414999246597, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 144, "episode_reward_mean": -784.4366211967478, "training_iteration": 144, "timesteps_total": 172800, "policy_reward_mean": {}, "episode_reward_min": -895.0747660485674, "timesteps_since_restore": 172800, "num_metric_batches_dropped": 0, "time_since_restore": 4405.804496765137, "episode_reward_max": -687.7247058696488, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 172800, "default": {"kl": 0.013455902226269245, "policy_loss": -0.1415918469429016, "vf_loss": 3909.319091796875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.7573978900909424, "entropy": 15.961076736450195, "cur_lr": 4.999999873689376e-05, "total_loss": 3909.197998046875}, "load_time_ms": 0.616, "num_steps_sampled": 172800, "grad_time_ms": 674.687, "update_time_ms": 2.207, "sample_time_ms": 29912.989}, "date": "2025-08-30_17-23-51", "hostname": "cda-server-4", "time_this_iter_s": 31.38949751853943, "episodes_total": 864, "timestamp": 1756567431, "node_ip": "10.157.146.4", "done": false, "time_total_s": 4405.804496765137, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 145, "episode_reward_mean": -785.1525453003452, "training_iteration": 145, "timesteps_total": 174000, "policy_reward_mean": {}, "episode_reward_min": -895.0747660485674, "timesteps_since_restore": 174000, "num_metric_batches_dropped": 0, "time_since_restore": 4436.659413814545, "episode_reward_max": -687.7247058696488, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 174000, "default": {"kl": 0.01129129808396101, "policy_loss": -0.1263919472694397, "vf_loss": 3905.302490234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8019201755523682, "entropy": 15.874411582946777, "cur_lr": 4.999999873689376e-05, "total_loss": 3905.193115234375}, "load_time_ms": 0.611, "num_steps_sampled": 174000, "grad_time_ms": 684.462, "update_time_ms": 2.316, "sample_time_ms": 29835.782}, "date": "2025-08-30_17-24-22", "hostname": "cda-server-4", "time_this_iter_s": 30.85491704940796, "episodes_total": 870, "timestamp": 1756567462, "node_ip": "10.157.146.4", "done": false, "time_total_s": 4436.659413814545, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 146, "episode_reward_mean": -784.965655326367, "training_iteration": 146, "timesteps_total": 175200, "policy_reward_mean": {}, "episode_reward_min": -942.0806494659109, "timesteps_since_restore": 175200, "num_metric_batches_dropped": 0, "time_since_restore": 4465.698798894882, "episode_reward_max": -687.7247058696488, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 175200, "default": {"kl": 0.012080499902367592, "policy_loss": -0.1351131796836853, "vf_loss": 4648.64501953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.7552443146705627, "entropy": 15.906261444091797, "cur_lr": 4.999999873689376e-05, "total_loss": 4648.5283203125}, "load_time_ms": 0.612, "num_steps_sampled": 175200, "grad_time_ms": 687.983, "update_time_ms": 2.323, "sample_time_ms": 29497.652}, "date": "2025-08-30_17-24-51", "hostname": "cda-server-4", "time_this_iter_s": 29.039385080337524, "episodes_total": 876, "timestamp": 1756567491, "node_ip": "10.157.146.4", "done": false, "time_total_s": 4465.698798894882, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 147, "episode_reward_mean": -785.32053837269, "training_iteration": 147, "timesteps_total": 176400, "policy_reward_mean": {}, "episode_reward_min": -942.0806494659109, "timesteps_since_restore": 176400, "num_metric_batches_dropped": 0, "time_since_restore": 4495.804662942886, "episode_reward_max": -687.7247058696488, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 176400, "default": {"kl": 0.013524950481951237, "policy_loss": -0.13196080923080444, "vf_loss": 5197.810546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.7223164439201355, "entropy": 15.92021369934082, "cur_lr": 4.999999873689376e-05, "total_loss": 5197.69873046875}, "load_time_ms": 0.606, "num_steps_sampled": 176400, "grad_time_ms": 704.889, "update_time_ms": 2.315, "sample_time_ms": 29493.229}, "date": "2025-08-30_17-25-21", "hostname": "cda-server-4", "time_this_iter_s": 30.10586404800415, "episodes_total": 882, "timestamp": 1756567521, "node_ip": "10.157.146.4", "done": false, "time_total_s": 4495.804662942886, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 148, "episode_reward_mean": -784.4474592837131, "training_iteration": 148, "timesteps_total": 177600, "policy_reward_mean": {}, "episode_reward_min": -942.0806494659109, "timesteps_since_restore": 177600, "num_metric_batches_dropped": 0, "time_since_restore": 4527.186166763306, "episode_reward_max": -687.7247058696488, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 177600, "default": {"kl": 0.014631741680204868, "policy_loss": -0.15100842714309692, "vf_loss": 2793.6904296875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.847395658493042, "entropy": 15.896501541137695, "cur_lr": 4.999999873689376e-05, "total_loss": 2793.5615234375}, "load_time_ms": 0.605, "num_steps_sampled": 177600, "grad_time_ms": 707.97, "update_time_ms": 2.268, "sample_time_ms": 29608.738}, "date": "2025-08-30_17-25-53", "hostname": "cda-server-4", "time_this_iter_s": 31.38150382041931, "episodes_total": 888, "timestamp": 1756567553, "node_ip": "10.157.146.4", "done": false, "time_total_s": 4527.186166763306, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 149, "episode_reward_mean": -786.7419126380845, "training_iteration": 149, "timesteps_total": 178800, "policy_reward_mean": {}, "episode_reward_min": -942.0806494659109, "timesteps_since_restore": 178800, "num_metric_batches_dropped": 0, "time_since_restore": 4559.307156801224, "episode_reward_max": -692.0049929151292, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 178800, "default": {"kl": 0.013234134763479233, "policy_loss": -0.14331062138080597, "vf_loss": 4118.02490234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.703839898109436, "entropy": 15.994486808776855, "cur_lr": 4.999999873689376e-05, "total_loss": 4117.90185546875}, "load_time_ms": 0.596, "num_steps_sampled": 178800, "grad_time_ms": 715.093, "update_time_ms": 2.222, "sample_time_ms": 29639.674}, "date": "2025-08-30_17-26-25", "hostname": "cda-server-4", "time_this_iter_s": 32.12099003791809, "episodes_total": 894, "timestamp": 1756567585, "node_ip": "10.157.146.4", "done": false, "time_total_s": 4559.307156801224, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 150, "episode_reward_mean": -788.3955058303092, "training_iteration": 150, "timesteps_total": 180000, "policy_reward_mean": {}, "episode_reward_min": -942.0806494659109, "timesteps_since_restore": 180000, "num_metric_batches_dropped": 0, "time_since_restore": 4591.099524497986, "episode_reward_max": -692.0049929151292, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 180000, "default": {"kl": 0.013832640834152699, "policy_loss": -0.15013043582439423, "vf_loss": 3344.253662109375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.7478959560394287, "entropy": 15.813724517822266, "cur_lr": 4.999999873689376e-05, "total_loss": 3344.124267578125}, "load_time_ms": 0.618, "num_steps_sampled": 180000, "grad_time_ms": 707.556, "update_time_ms": 2.293, "sample_time_ms": 29813.442}, "date": "2025-08-30_17-26-57", "hostname": "cda-server-4", "time_this_iter_s": 31.792367696762085, "episodes_total": 900, "timestamp": 1756567617, "node_ip": "10.157.146.4", "done": false, "time_total_s": 4591.099524497986, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 151, "episode_reward_mean": -790.0498817146789, "training_iteration": 151, "timesteps_total": 181200, "policy_reward_mean": {}, "episode_reward_min": -942.0806494659109, "timesteps_since_restore": 181200, "num_metric_batches_dropped": 0, "time_since_restore": 4619.305025339127, "episode_reward_max": -690.4132307793062, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 181200, "default": {"kl": 0.015015706419944763, "policy_loss": -0.1512027084827423, "vf_loss": 4015.411376953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.6973390579223633, "entropy": 15.827632904052734, "cur_lr": 4.999999873689376e-05, "total_loss": 4015.283447265625}, "load_time_ms": 0.618, "num_steps_sampled": 181200, "grad_time_ms": 709.429, "update_time_ms": 2.282, "sample_time_ms": 29300.227}, "date": "2025-08-30_17-27-25", "hostname": "cda-server-4", "time_this_iter_s": 28.205500841140747, "episodes_total": 906, "timestamp": 1756567645, "node_ip": "10.157.146.4", "done": false, "time_total_s": 4619.305025339127, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 152, "episode_reward_mean": -791.0539519233416, "training_iteration": 152, "timesteps_total": 182400, "policy_reward_mean": {}, "episode_reward_min": -942.0806494659109, "timesteps_since_restore": 182400, "num_metric_batches_dropped": 0, "time_since_restore": 4648.879606246948, "episode_reward_max": -690.4132307793062, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 182400, "default": {"kl": 0.013339626602828503, "policy_loss": -0.1445232778787613, "vf_loss": 2935.977294921875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8060896396636963, "entropy": 15.723933219909668, "cur_lr": 4.999999873689376e-05, "total_loss": 2935.85302734375}, "load_time_ms": 0.647, "num_steps_sampled": 182400, "grad_time_ms": 710.73, "update_time_ms": 2.281, "sample_time_ms": 29422.573}, "date": "2025-08-30_17-27-54", "hostname": "cda-server-4", "time_this_iter_s": 29.574580907821655, "episodes_total": 912, "timestamp": 1756567674, "node_ip": "10.157.146.4", "done": false, "time_total_s": 4648.879606246948, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 153, "episode_reward_mean": -789.7414951006654, "training_iteration": 153, "timesteps_total": 183600, "policy_reward_mean": {}, "episode_reward_min": -942.0806494659109, "timesteps_since_restore": 183600, "num_metric_batches_dropped": 0, "time_since_restore": 4679.70893907547, "episode_reward_max": -690.4132307793062, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 183600, "default": {"kl": 0.012936671264469624, "policy_loss": -0.14605844020843506, "vf_loss": 4274.90625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.848870575428009, "entropy": 15.764448165893555, "cur_lr": 4.999999873689376e-05, "total_loss": 4274.779296875}, "load_time_ms": 0.65, "num_steps_sampled": 183600, "grad_time_ms": 696.799, "update_time_ms": 2.29, "sample_time_ms": 29825.619}, "date": "2025-08-30_17-28-25", "hostname": "cda-server-4", "time_this_iter_s": 30.82933282852173, "episodes_total": 918, "timestamp": 1756567705, "node_ip": "10.157.146.4", "done": false, "time_total_s": 4679.70893907547, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 154, "episode_reward_mean": -788.2838892402881, "training_iteration": 154, "timesteps_total": 184800, "policy_reward_mean": {}, "episode_reward_min": -942.0806494659109, "timesteps_since_restore": 184800, "num_metric_batches_dropped": 0, "time_since_restore": 4709.309748888016, "episode_reward_max": -690.4132307793062, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 184800, "default": {"kl": 0.01346661988645792, "policy_loss": -0.1493275910615921, "vf_loss": 2467.13623046875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8089322447776794, "entropy": 15.80008316040039, "cur_lr": 4.999999873689376e-05, "total_loss": 2467.0078125}, "load_time_ms": 0.655, "num_steps_sampled": 184800, "grad_time_ms": 682.289, "update_time_ms": 2.353, "sample_time_ms": 29661.161}, "date": "2025-08-30_17-28-55", "hostname": "cda-server-4", "time_this_iter_s": 29.600809812545776, "episodes_total": 924, "timestamp": 1756567735, "node_ip": "10.157.146.4", "done": false, "time_total_s": 4709.309748888016, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 155, "episode_reward_mean": -787.7879615426639, "training_iteration": 155, "timesteps_total": 186000, "policy_reward_mean": {}, "episode_reward_min": -942.0806494659109, "timesteps_since_restore": 186000, "num_metric_batches_dropped": 0, "time_since_restore": 4738.398552656174, "episode_reward_max": -690.4132307793062, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 186000, "default": {"kl": 0.013568048365414143, "policy_loss": -0.1491881161928177, "vf_loss": 2826.37158203125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.7523906230926514, "entropy": 15.726811408996582, "cur_lr": 4.999999873689376e-05, "total_loss": 2826.2431640625}, "load_time_ms": 0.663, "num_steps_sampled": 186000, "grad_time_ms": 672.116, "update_time_ms": 2.342, "sample_time_ms": 29494.681}, "date": "2025-08-30_17-29-24", "hostname": "cda-server-4", "time_this_iter_s": 29.08880376815796, "episodes_total": 930, "timestamp": 1756567764, "node_ip": "10.157.146.4", "done": false, "time_total_s": 4738.398552656174, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 156, "episode_reward_mean": -788.7802836219666, "training_iteration": 156, "timesteps_total": 187200, "policy_reward_mean": {}, "episode_reward_min": -942.0806494659109, "timesteps_since_restore": 187200, "num_metric_batches_dropped": 0, "time_since_restore": 4769.616274356842, "episode_reward_max": -690.4132307793062, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 187200, "default": {"kl": 0.012415886856615543, "policy_loss": -0.13492567837238312, "vf_loss": 2365.87451171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8510298132896423, "entropy": 15.765284538269043, "cur_lr": 4.999999873689376e-05, "total_loss": 2365.7578125}, "load_time_ms": 0.667, "num_steps_sampled": 187200, "grad_time_ms": 658.529, "update_time_ms": 2.311, "sample_time_ms": 29726.137}, "date": "2025-08-30_17-29-55", "hostname": "cda-server-4", "time_this_iter_s": 31.217721700668335, "episodes_total": 936, "timestamp": 1756567795, "node_ip": "10.157.146.4", "done": false, "time_total_s": 4769.616274356842, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 157, "episode_reward_mean": -789.7243963831236, "training_iteration": 157, "timesteps_total": 188400, "policy_reward_mean": {}, "episode_reward_min": -942.0806494659109, "timesteps_since_restore": 188400, "num_metric_batches_dropped": 0, "time_since_restore": 4800.127503871918, "episode_reward_max": -690.4132307793062, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 188400, "default": {"kl": 0.014926631934940815, "policy_loss": -0.15396234393119812, "vf_loss": 2560.481689453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8353294134140015, "entropy": 15.691633224487305, "cur_lr": 4.999999873689376e-05, "total_loss": 2560.350341796875}, "load_time_ms": 0.662, "num_steps_sampled": 188400, "grad_time_ms": 654.713, "update_time_ms": 2.331, "sample_time_ms": 29770.43}, "date": "2025-08-30_17-30-26", "hostname": "cda-server-4", "time_this_iter_s": 30.511229515075684, "episodes_total": 942, "timestamp": 1756567826, "node_ip": "10.157.146.4", "done": false, "time_total_s": 4800.127503871918, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 158, "episode_reward_mean": -791.8125840867027, "training_iteration": 158, "timesteps_total": 189600, "policy_reward_mean": {}, "episode_reward_min": -948.0526115049018, "timesteps_since_restore": 189600, "num_metric_batches_dropped": 0, "time_since_restore": 4831.217490196228, "episode_reward_max": -690.4132307793062, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 189600, "default": {"kl": 0.014585118740797043, "policy_loss": -0.15397021174430847, "vf_loss": 3247.25439453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.7279195785522461, "entropy": 15.718117713928223, "cur_lr": 4.999999873689376e-05, "total_loss": 3247.122314453125}, "load_time_ms": 0.665, "num_steps_sampled": 189600, "grad_time_ms": 661.1, "update_time_ms": 2.404, "sample_time_ms": 29734.857}, "date": "2025-08-30_17-30-57", "hostname": "cda-server-4", "time_this_iter_s": 31.089986324310303, "episodes_total": 948, "timestamp": 1756567857, "node_ip": "10.157.146.4", "done": false, "time_total_s": 4831.217490196228, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 159, "episode_reward_mean": -789.3295583500731, "training_iteration": 159, "timesteps_total": 190800, "policy_reward_mean": {}, "episode_reward_min": -948.0526115049018, "timesteps_since_restore": 190800, "num_metric_batches_dropped": 0, "time_since_restore": 4861.167252063751, "episode_reward_max": -690.4132307793062, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 190800, "default": {"kl": 0.013656501658260822, "policy_loss": -0.1407003551721573, "vf_loss": 2781.33837890625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8072513937950134, "entropy": 15.682517051696777, "cur_lr": 4.999999873689376e-05, "total_loss": 2781.218505859375}, "load_time_ms": 0.672, "num_steps_sampled": 190800, "grad_time_ms": 656.256, "update_time_ms": 2.415, "sample_time_ms": 29522.585}, "date": "2025-08-30_17-31-27", "hostname": "cda-server-4", "time_this_iter_s": 29.949761867523193, "episodes_total": 954, "timestamp": 1756567887, "node_ip": "10.157.146.4", "done": false, "time_total_s": 4861.167252063751, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 160, "episode_reward_mean": -790.156313288813, "training_iteration": 160, "timesteps_total": 192000, "policy_reward_mean": {}, "episode_reward_min": -948.0526115049018, "timesteps_since_restore": 192000, "num_metric_batches_dropped": 0, "time_since_restore": 4888.81346988678, "episode_reward_max": -690.4132307793062, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 192000, "default": {"kl": 0.013592400588095188, "policy_loss": -0.14127399027347565, "vf_loss": 2305.095947265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.794750452041626, "entropy": 15.7242431640625, "cur_lr": 4.999999873689376e-05, "total_loss": 2304.9755859375}, "load_time_ms": 0.637, "num_steps_sampled": 192000, "grad_time_ms": 664.51, "update_time_ms": 2.343, "sample_time_ms": 29099.86}, "date": "2025-08-30_17-31-54", "hostname": "cda-server-4", "time_this_iter_s": 27.646217823028564, "episodes_total": 960, "timestamp": 1756567914, "node_ip": "10.157.146.4", "done": false, "time_total_s": 4888.81346988678, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 161, "episode_reward_mean": -788.1750442547678, "training_iteration": 161, "timesteps_total": 193200, "policy_reward_mean": {}, "episode_reward_min": -948.0526115049018, "timesteps_since_restore": 193200, "num_metric_batches_dropped": 0, "time_since_restore": 4919.07203578949, "episode_reward_max": -690.4132307793062, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 193200, "default": {"kl": 0.013927120715379715, "policy_loss": -0.14989537000656128, "vf_loss": 2184.9443359375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.812926709651947, "entropy": 15.67266845703125, "cur_lr": 4.999999873689376e-05, "total_loss": 2184.81591796875}, "load_time_ms": 0.636, "num_steps_sampled": 193200, "grad_time_ms": 670.72, "update_time_ms": 2.572, "sample_time_ms": 29298.728}, "date": "2025-08-30_17-32-25", "hostname": "cda-server-4", "time_this_iter_s": 30.25856590270996, "episodes_total": 966, "timestamp": 1756567945, "node_ip": "10.157.146.4", "done": false, "time_total_s": 4919.07203578949, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 162, "episode_reward_mean": -787.7121788186977, "training_iteration": 162, "timesteps_total": 194400, "policy_reward_mean": {}, "episode_reward_min": -948.0526115049018, "timesteps_since_restore": 194400, "num_metric_batches_dropped": 0, "time_since_restore": 4947.914361715317, "episode_reward_max": -690.4132307793062, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 194400, "default": {"kl": 0.01222043577581644, "policy_loss": -0.14113381505012512, "vf_loss": 3239.754150390625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.7005748748779297, "entropy": 15.694619178771973, "cur_lr": 4.999999873689376e-05, "total_loss": 3239.631591796875}, "load_time_ms": 0.612, "num_steps_sampled": 194400, "grad_time_ms": 667.599, "update_time_ms": 2.633, "sample_time_ms": 29228.675}, "date": "2025-08-30_17-32-54", "hostname": "cda-server-4", "time_this_iter_s": 28.842325925827026, "episodes_total": 972, "timestamp": 1756567974, "node_ip": "10.157.146.4", "done": false, "time_total_s": 4947.914361715317, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 163, "episode_reward_mean": -788.4281631671511, "training_iteration": 163, "timesteps_total": 195600, "policy_reward_mean": {}, "episode_reward_min": -948.0526115049018, "timesteps_since_restore": 195600, "num_metric_batches_dropped": 0, "time_since_restore": 4978.404206991196, "episode_reward_max": -690.4132307793062, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 195600, "default": {"kl": 0.013386095874011517, "policy_loss": -0.16112661361694336, "vf_loss": 1954.2764892578125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8936374187469482, "entropy": 15.64023494720459, "cur_lr": 4.999999873689376e-05, "total_loss": 1954.1358642578125}, "load_time_ms": 0.608, "num_steps_sampled": 195600, "grad_time_ms": 672.836, "update_time_ms": 2.592, "sample_time_ms": 29189.504}, "date": "2025-08-30_17-33-24", "hostname": "cda-server-4", "time_this_iter_s": 30.489845275878906, "episodes_total": 978, "timestamp": 1756568004, "node_ip": "10.157.146.4", "done": false, "time_total_s": 4978.404206991196, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 164, "episode_reward_mean": -790.4251576118611, "training_iteration": 164, "timesteps_total": 196800, "policy_reward_mean": {}, "episode_reward_min": -948.0526115049018, "timesteps_since_restore": 196800, "num_metric_batches_dropped": 0, "time_since_restore": 5006.62023639679, "episode_reward_max": -690.4132307793062, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 196800, "default": {"kl": 0.013673605397343636, "policy_loss": -0.15216781198978424, "vf_loss": 2950.50537109375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.837608277797699, "entropy": 15.67989444732666, "cur_lr": 4.999999873689376e-05, "total_loss": 2950.373779296875}, "load_time_ms": 0.605, "num_steps_sampled": 196800, "grad_time_ms": 676.488, "update_time_ms": 2.566, "sample_time_ms": 29047.379}, "date": "2025-08-30_17-33-52", "hostname": "cda-server-4", "time_this_iter_s": 28.216029405593872, "episodes_total": 984, "timestamp": 1756568032, "node_ip": "10.157.146.4", "done": false, "time_total_s": 5006.62023639679, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 165, "episode_reward_mean": -790.361652760224, "training_iteration": 165, "timesteps_total": 198000, "policy_reward_mean": {}, "episode_reward_min": -948.0526115049018, "timesteps_since_restore": 198000, "num_metric_batches_dropped": 0, "time_since_restore": 5040.161801099777, "episode_reward_max": -690.4132307793062, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 198000, "default": {"kl": 0.01328043919056654, "policy_loss": -0.15453507006168365, "vf_loss": 1349.0455322265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8818728923797607, "entropy": 15.64729118347168, "cur_lr": 4.999999873689376e-05, "total_loss": 1348.9112548828125}, "load_time_ms": 0.598, "num_steps_sampled": 198000, "grad_time_ms": 670.689, "update_time_ms": 2.537, "sample_time_ms": 29498.445}, "date": "2025-08-30_17-34-26", "hostname": "cda-server-4", "time_this_iter_s": 33.54156470298767, "episodes_total": 990, "timestamp": 1756568066, "node_ip": "10.157.146.4", "done": false, "time_total_s": 5040.161801099777, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 166, "episode_reward_mean": -788.1829429621688, "training_iteration": 166, "timesteps_total": 199200, "policy_reward_mean": {}, "episode_reward_min": -948.0526115049018, "timesteps_since_restore": 199200, "num_metric_batches_dropped": 0, "time_since_restore": 5071.038853406906, "episode_reward_max": -690.4132307793062, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 199200, "default": {"kl": 0.011439521797001362, "policy_loss": -0.12755976617336273, "vf_loss": 2935.47802734375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8630006313323975, "entropy": 15.706525802612305, "cur_lr": 4.999999873689376e-05, "total_loss": 2935.36767578125}, "load_time_ms": 0.586, "num_steps_sampled": 199200, "grad_time_ms": 670.813, "update_time_ms": 2.564, "sample_time_ms": 29464.257}, "date": "2025-08-30_17-34-57", "hostname": "cda-server-4", "time_this_iter_s": 30.877052307128906, "episodes_total": 996, "timestamp": 1756568097, "node_ip": "10.157.146.4", "done": false, "time_total_s": 5071.038853406906, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 167, "episode_reward_mean": -787.581657234461, "training_iteration": 167, "timesteps_total": 200400, "policy_reward_mean": {}, "episode_reward_min": -948.0526115049018, "timesteps_since_restore": 200400, "num_metric_batches_dropped": 0, "time_since_restore": 5101.029596328735, "episode_reward_max": -690.4132307793062, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 200400, "default": {"kl": 0.012279270216822624, "policy_loss": -0.1268455535173416, "vf_loss": 2888.968505859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.6985438466072083, "entropy": 15.594942092895508, "cur_lr": 4.999999873689376e-05, "total_loss": 2888.8603515625}, "load_time_ms": 0.622, "num_steps_sampled": 200400, "grad_time_ms": 674.937, "update_time_ms": 2.553, "sample_time_ms": 29407.964}, "date": "2025-08-30_17-35-27", "hostname": "cda-server-4", "time_this_iter_s": 29.990742921829224, "episodes_total": 1002, "timestamp": 1756568127, "node_ip": "10.157.146.4", "done": false, "time_total_s": 5101.029596328735, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 168, "episode_reward_mean": -786.3101609295647, "training_iteration": 168, "timesteps_total": 201600, "policy_reward_mean": {}, "episode_reward_min": -948.0526115049018, "timesteps_since_restore": 201600, "num_metric_batches_dropped": 0, "time_since_restore": 5133.630520820618, "episode_reward_max": -697.5845435100812, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 201600, "default": {"kl": 0.01490350067615509, "policy_loss": -0.15232224762439728, "vf_loss": 2569.893310546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8086826801300049, "entropy": 15.548697471618652, "cur_lr": 4.999999873689376e-05, "total_loss": 2569.763671875}, "load_time_ms": 0.616, "num_steps_sampled": 201600, "grad_time_ms": 667.633, "update_time_ms": 2.507, "sample_time_ms": 29566.343}, "date": "2025-08-30_17-35-59", "hostname": "cda-server-4", "time_this_iter_s": 32.600924491882324, "episodes_total": 1008, "timestamp": 1756568159, "node_ip": "10.157.146.4", "done": false, "time_total_s": 5133.630520820618, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 169, "episode_reward_mean": -784.0536117295991, "training_iteration": 169, "timesteps_total": 202800, "policy_reward_mean": {}, "episode_reward_min": -948.0526115049018, "timesteps_since_restore": 202800, "num_metric_batches_dropped": 0, "time_since_restore": 5164.407820940018, "episode_reward_max": -697.5845435100812, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 202800, "default": {"kl": 0.013013187795877457, "policy_loss": -0.14936396479606628, "vf_loss": 2338.89208984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.7608562111854553, "entropy": 15.324057579040527, "cur_lr": 4.999999873689376e-05, "total_loss": 2338.7626953125}, "load_time_ms": 0.615, "num_steps_sampled": 202800, "grad_time_ms": 669.363, "update_time_ms": 2.575, "sample_time_ms": 29647.241}, "date": "2025-08-30_17-36-30", "hostname": "cda-server-4", "time_this_iter_s": 30.777300119400024, "episodes_total": 1014, "timestamp": 1756568190, "node_ip": "10.157.146.4", "done": false, "time_total_s": 5164.407820940018, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 170, "episode_reward_mean": -783.8332764902826, "training_iteration": 170, "timesteps_total": 204000, "policy_reward_mean": {}, "episode_reward_min": -948.0526115049018, "timesteps_since_restore": 204000, "num_metric_batches_dropped": 0, "time_since_restore": 5191.704406499863, "episode_reward_max": -697.5845435100812, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 204000, "default": {"kl": 0.013320892117917538, "policy_loss": -0.15623539686203003, "vf_loss": 1582.755615234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9007766246795654, "entropy": 15.493671417236328, "cur_lr": 4.999999873689376e-05, "total_loss": 1582.61962890625}, "load_time_ms": 0.627, "num_steps_sampled": 204000, "grad_time_ms": 672.574, "update_time_ms": 2.605, "sample_time_ms": 29608.995}, "date": "2025-08-30_17-36-57", "hostname": "cda-server-4", "time_this_iter_s": 27.29658555984497, "episodes_total": 1020, "timestamp": 1756568217, "node_ip": "10.157.146.4", "done": false, "time_total_s": 5191.704406499863, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 171, "episode_reward_mean": -784.3062225927903, "training_iteration": 171, "timesteps_total": 205200, "policy_reward_mean": {}, "episode_reward_min": -948.0526115049018, "timesteps_since_restore": 205200, "num_metric_batches_dropped": 0, "time_since_restore": 5222.406142950058, "episode_reward_max": -697.5845435100812, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 205200, "default": {"kl": 0.013153918087482452, "policy_loss": -0.1358332484960556, "vf_loss": 2898.4208984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.7347643971443176, "entropy": 15.37924575805664, "cur_lr": 4.999999873689376e-05, "total_loss": 2898.304931640625}, "load_time_ms": 0.623, "num_steps_sampled": 205200, "grad_time_ms": 676.705, "update_time_ms": 2.479, "sample_time_ms": 29649.325}, "date": "2025-08-30_17-37-28", "hostname": "cda-server-4", "time_this_iter_s": 30.701736450195312, "episodes_total": 1026, "timestamp": 1756568248, "node_ip": "10.157.146.4", "done": false, "time_total_s": 5222.406142950058, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 172, "episode_reward_mean": -784.6754681182377, "training_iteration": 172, "timesteps_total": 206400, "policy_reward_mean": {}, "episode_reward_min": -948.0526115049018, "timesteps_since_restore": 206400, "num_metric_batches_dropped": 0, "time_since_restore": 5254.546874046326, "episode_reward_max": -695.5904441133008, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 206400, "default": {"kl": 0.012361343018710613, "policy_loss": -0.12870976328849792, "vf_loss": 2187.7880859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8532736301422119, "entropy": 15.39278793334961, "cur_lr": 4.999999873689376e-05, "total_loss": 2187.67822265625}, "load_time_ms": 0.622, "num_steps_sampled": 206400, "grad_time_ms": 687.046, "update_time_ms": 2.46, "sample_time_ms": 29968.842}, "date": "2025-08-30_17-38-00", "hostname": "cda-server-4", "time_this_iter_s": 32.1407310962677, "episodes_total": 1032, "timestamp": 1756568280, "node_ip": "10.157.146.4", "done": false, "time_total_s": 5254.546874046326, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 173, "episode_reward_mean": -783.2549772248411, "training_iteration": 173, "timesteps_total": 207600, "policy_reward_mean": {}, "episode_reward_min": -948.0526115049018, "timesteps_since_restore": 207600, "num_metric_batches_dropped": 0, "time_since_restore": 5283.395123958588, "episode_reward_max": -695.5904441133008, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 207600, "default": {"kl": 0.012031110003590584, "policy_loss": -0.13145048916339874, "vf_loss": 8501.68359375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.50377357006073, "entropy": 15.483745574951172, "cur_lr": 4.999999873689376e-05, "total_loss": 8501.5703125}, "load_time_ms": 0.621, "num_steps_sampled": 207600, "grad_time_ms": 674.722, "update_time_ms": 2.465, "sample_time_ms": 29817.057}, "date": "2025-08-30_17-38-29", "hostname": "cda-server-4", "time_this_iter_s": 28.848249912261963, "episodes_total": 1038, "timestamp": 1756568309, "node_ip": "10.157.146.4", "done": false, "time_total_s": 5283.395123958588, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 174, "episode_reward_mean": -780.6259012848886, "training_iteration": 174, "timesteps_total": 208800, "policy_reward_mean": {}, "episode_reward_min": -916.0618769621652, "timesteps_since_restore": 208800, "num_metric_batches_dropped": 0, "time_since_restore": 5314.406693220139, "episode_reward_max": -695.5904441133008, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 208800, "default": {"kl": 0.013255160301923752, "policy_loss": -0.13446107506752014, "vf_loss": 2775.015380859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.7263634204864502, "entropy": 15.301716804504395, "cur_lr": 4.999999873689376e-05, "total_loss": 2774.901123046875}, "load_time_ms": 0.621, "num_steps_sampled": 208800, "grad_time_ms": 653.994, "update_time_ms": 2.414, "sample_time_ms": 30117.545}, "date": "2025-08-30_17-39-00", "hostname": "cda-server-4", "time_this_iter_s": 31.011569261550903, "episodes_total": 1044, "timestamp": 1756568340, "node_ip": "10.157.146.4", "done": false, "time_total_s": 5314.406693220139, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 175, "episode_reward_mean": -780.8356085255218, "training_iteration": 175, "timesteps_total": 210000, "policy_reward_mean": {}, "episode_reward_min": -916.0618769621652, "timesteps_since_restore": 210000, "num_metric_batches_dropped": 0, "time_since_restore": 5345.473089933395, "episode_reward_max": -695.5904441133008, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 210000, "default": {"kl": 0.01382536068558693, "policy_loss": -0.13491034507751465, "vf_loss": 4795.05029296875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.5996000170707703, "entropy": 15.457161903381348, "cur_lr": 4.999999873689376e-05, "total_loss": 4794.9365234375}, "load_time_ms": 0.633, "num_steps_sampled": 210000, "grad_time_ms": 639.492, "update_time_ms": 2.347, "sample_time_ms": 29884.6}, "date": "2025-08-30_17-39-31", "hostname": "cda-server-4", "time_this_iter_s": 31.066396713256836, "episodes_total": 1050, "timestamp": 1756568371, "node_ip": "10.157.146.4", "done": false, "time_total_s": 5345.473089933395, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 176, "episode_reward_mean": -782.8908616060561, "training_iteration": 176, "timesteps_total": 211200, "policy_reward_mean": {}, "episode_reward_min": -916.0618769621652, "timesteps_since_restore": 211200, "num_metric_batches_dropped": 0, "time_since_restore": 5376.837910890579, "episode_reward_max": -695.5904441133008, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 211200, "default": {"kl": 0.013009266927838326, "policy_loss": -0.142803356051445, "vf_loss": 1827.50439453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8342416286468506, "entropy": 15.396699905395508, "cur_lr": 4.999999873689376e-05, "total_loss": 1827.38134765625}, "load_time_ms": 0.634, "num_steps_sampled": 211200, "grad_time_ms": 634.192, "update_time_ms": 2.368, "sample_time_ms": 29938.665}, "date": "2025-08-30_17-40-03", "hostname": "cda-server-4", "time_this_iter_s": 31.364820957183838, "episodes_total": 1056, "timestamp": 1756568403, "node_ip": "10.157.146.4", "done": false, "time_total_s": 5376.837910890579, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 177, "episode_reward_mean": -783.8785178256221, "training_iteration": 177, "timesteps_total": 212400, "policy_reward_mean": {}, "episode_reward_min": -916.0618769621652, "timesteps_since_restore": 212400, "num_metric_batches_dropped": 0, "time_since_restore": 5408.932446718216, "episode_reward_max": -695.5904441133008, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 212400, "default": {"kl": 0.014546907506883144, "policy_loss": -0.14908906817436218, "vf_loss": 1849.6595458984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8550441265106201, "entropy": 15.51331615447998, "cur_lr": 4.999999873689376e-05, "total_loss": 1849.5325927734375}, "load_time_ms": 0.593, "num_steps_sampled": 212400, "grad_time_ms": 620.179, "update_time_ms": 2.358, "sample_time_ms": 30163.217}, "date": "2025-08-30_17-40-35", "hostname": "cda-server-4", "time_this_iter_s": 32.09453582763672, "episodes_total": 1062, "timestamp": 1756568435, "node_ip": "10.157.146.4", "done": false, "time_total_s": 5408.932446718216, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 178, "episode_reward_mean": -781.8750929105644, "training_iteration": 178, "timesteps_total": 213600, "policy_reward_mean": {}, "episode_reward_min": -916.0618769621652, "timesteps_since_restore": 213600, "num_metric_batches_dropped": 0, "time_since_restore": 5441.2351722717285, "episode_reward_max": -679.3506860046155, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 213600, "default": {"kl": 0.012649808079004288, "policy_loss": -0.1422017216682434, "vf_loss": 1729.66552734375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8602436184883118, "entropy": 15.241093635559082, "cur_lr": 4.999999873689376e-05, "total_loss": 1729.5426025390625}, "load_time_ms": 0.593, "num_steps_sampled": 213600, "grad_time_ms": 628.601, "update_time_ms": 2.409, "sample_time_ms": 30124.957}, "date": "2025-08-30_17-41-07", "hostname": "cda-server-4", "time_this_iter_s": 32.30272555351257, "episodes_total": 1068, "timestamp": 1756568467, "node_ip": "10.157.146.4", "done": false, "time_total_s": 5441.2351722717285, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 179, "episode_reward_mean": -783.5408310873256, "training_iteration": 179, "timesteps_total": 214800, "policy_reward_mean": {}, "episode_reward_min": -916.0618769621652, "timesteps_since_restore": 214800, "num_metric_batches_dropped": 0, "time_since_restore": 5469.359526157379, "episode_reward_max": -679.3506860046155, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 214800, "default": {"kl": 0.011682241223752499, "policy_loss": -0.13159556686878204, "vf_loss": 3492.881591796875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.7845871448516846, "entropy": 15.44524097442627, "cur_lr": 4.999999873689376e-05, "total_loss": 3492.767333984375}, "load_time_ms": 0.586, "num_steps_sampled": 214800, "grad_time_ms": 628.325, "update_time_ms": 2.34, "sample_time_ms": 29860.054}, "date": "2025-08-30_17-41-35", "hostname": "cda-server-4", "time_this_iter_s": 28.124353885650635, "episodes_total": 1074, "timestamp": 1756568495, "node_ip": "10.157.146.4", "done": false, "time_total_s": 5469.359526157379, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 180, "episode_reward_mean": -783.3399376042539, "training_iteration": 180, "timesteps_total": 216000, "policy_reward_mean": {}, "episode_reward_min": -916.0618769621652, "timesteps_since_restore": 216000, "num_metric_batches_dropped": 0, "time_since_restore": 5502.585190296173, "episode_reward_max": -679.3506860046155, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 216000, "default": {"kl": 0.01419881172478199, "policy_loss": -0.15138819813728333, "vf_loss": 2024.9696044921875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8653022646903992, "entropy": 15.221696853637695, "cur_lr": 4.999999873689376e-05, "total_loss": 2024.839599609375}, "load_time_ms": 0.598, "num_steps_sampled": 216000, "grad_time_ms": 624.524, "update_time_ms": 2.324, "sample_time_ms": 30456.827}, "date": "2025-08-30_17-42-09", "hostname": "cda-server-4", "time_this_iter_s": 33.225664138793945, "episodes_total": 1080, "timestamp": 1756568529, "node_ip": "10.157.146.4", "done": false, "time_total_s": 5502.585190296173, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 181, "episode_reward_mean": -780.8003948060829, "training_iteration": 181, "timesteps_total": 217200, "policy_reward_mean": {}, "episode_reward_min": -892.4060588562425, "timesteps_since_restore": 217200, "num_metric_batches_dropped": 0, "time_since_restore": 5535.124830245972, "episode_reward_max": -678.3042831183864, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 217200, "default": {"kl": 0.013829178176820278, "policy_loss": -0.1382705718278885, "vf_loss": 1571.7005615234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.884283721446991, "entropy": 15.174665451049805, "cur_lr": 4.999999873689376e-05, "total_loss": 1571.5833740234375}, "load_time_ms": 0.616, "num_steps_sampled": 217200, "grad_time_ms": 622.947, "update_time_ms": 2.156, "sample_time_ms": 30642.387}, "date": "2025-08-30_17-42-41", "hostname": "cda-server-4", "time_this_iter_s": 32.539639949798584, "episodes_total": 1086, "timestamp": 1756568561, "node_ip": "10.157.146.4", "done": false, "time_total_s": 5535.124830245972, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 182, "episode_reward_mean": -778.2337202262269, "training_iteration": 182, "timesteps_total": 218400, "policy_reward_mean": {}, "episode_reward_min": -892.4060588562425, "timesteps_since_restore": 218400, "num_metric_batches_dropped": 0, "time_since_restore": 5566.918329954147, "episode_reward_max": -650.2216053610996, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 218400, "default": {"kl": 0.012027038261294365, "policy_loss": -0.1491294503211975, "vf_loss": 1378.8114013671875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8686743974685669, "entropy": 15.181477546691895, "cur_lr": 4.999999873689376e-05, "total_loss": 1378.680419921875}, "load_time_ms": 0.61, "num_steps_sampled": 218400, "grad_time_ms": 621.11, "update_time_ms": 2.139, "sample_time_ms": 30609.505}, "date": "2025-08-30_17-43-13", "hostname": "cda-server-4", "time_this_iter_s": 31.79349970817566, "episodes_total": 1092, "timestamp": 1756568593, "node_ip": "10.157.146.4", "done": false, "time_total_s": 5566.918329954147, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 183, "episode_reward_mean": -778.1447072520816, "training_iteration": 183, "timesteps_total": 219600, "policy_reward_mean": {}, "episode_reward_min": -892.4060588562425, "timesteps_since_restore": 219600, "num_metric_batches_dropped": 0, "time_since_restore": 5598.726477622986, "episode_reward_max": -650.2216053610996, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 219600, "default": {"kl": 0.011418793350458145, "policy_loss": -0.1349620223045349, "vf_loss": 2626.042724609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.7793319225311279, "entropy": 15.21595573425293, "cur_lr": 4.999999873689376e-05, "total_loss": 2625.925048828125}, "load_time_ms": 0.609, "num_steps_sampled": 219600, "grad_time_ms": 641.236, "update_time_ms": 2.12, "sample_time_ms": 30885.401}, "date": "2025-08-30_17-43-45", "hostname": "cda-server-4", "time_this_iter_s": 31.8081476688385, "episodes_total": 1098, "timestamp": 1756568625, "node_ip": "10.157.146.4", "done": false, "time_total_s": 5598.726477622986, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 184, "episode_reward_mean": -778.3790682798893, "training_iteration": 184, "timesteps_total": 220800, "policy_reward_mean": {}, "episode_reward_min": -892.4060588562425, "timesteps_since_restore": 220800, "num_metric_batches_dropped": 0, "time_since_restore": 5631.58145570755, "episode_reward_max": -650.2216053610996, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 220800, "default": {"kl": 0.012438913807272911, "policy_loss": -0.14206074178218842, "vf_loss": 1310.5008544921875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8829628825187683, "entropy": 15.256342887878418, "cur_lr": 4.999999873689376e-05, "total_loss": 1310.377685546875}, "load_time_ms": 0.608, "num_steps_sampled": 220800, "grad_time_ms": 670.639, "update_time_ms": 2.128, "sample_time_ms": 31040.274}, "date": "2025-08-30_17-44-18", "hostname": "cda-server-4", "time_this_iter_s": 32.85497808456421, "episodes_total": 1104, "timestamp": 1756568658, "node_ip": "10.157.146.4", "done": false, "time_total_s": 5631.58145570755, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 185, "episode_reward_mean": -779.3153299515526, "training_iteration": 185, "timesteps_total": 222000, "policy_reward_mean": {}, "episode_reward_min": -875.6746798038785, "timesteps_since_restore": 222000, "num_metric_batches_dropped": 0, "time_since_restore": 5665.034644365311, "episode_reward_max": -650.2216053610996, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 222000, "default": {"kl": 0.01237262412905693, "policy_loss": -0.12474887818098068, "vf_loss": 1839.15771484375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8587132096290588, "entropy": 15.258463859558105, "cur_lr": 4.999999873689376e-05, "total_loss": 1839.0521240234375}, "load_time_ms": 0.608, "num_steps_sampled": 222000, "grad_time_ms": 678.908, "update_time_ms": 2.153, "sample_time_ms": 31270.562}, "date": "2025-08-30_17-44-51", "hostname": "cda-server-4", "time_this_iter_s": 33.45318865776062, "episodes_total": 1110, "timestamp": 1756568691, "node_ip": "10.157.146.4", "done": false, "time_total_s": 5665.034644365311, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 186, "episode_reward_mean": -779.3542661547813, "training_iteration": 186, "timesteps_total": 223200, "policy_reward_mean": {}, "episode_reward_min": -875.6746798038785, "timesteps_since_restore": 223200, "num_metric_batches_dropped": 0, "time_since_restore": 5696.50901389122, "episode_reward_max": -650.2216053610996, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 223200, "default": {"kl": 0.014862790703773499, "policy_loss": -0.15543398261070251, "vf_loss": 1473.252197265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8760046362876892, "entropy": 15.182169914245605, "cur_lr": 4.999999873689376e-05, "total_loss": 1473.1192626953125}, "load_time_ms": 0.623, "num_steps_sampled": 223200, "grad_time_ms": 688.216, "update_time_ms": 2.146, "sample_time_ms": 31272.158}, "date": "2025-08-30_17-45-23", "hostname": "cda-server-4", "time_this_iter_s": 31.474369525909424, "episodes_total": 1116, "timestamp": 1756568723, "node_ip": "10.157.146.4", "done": false, "time_total_s": 5696.50901389122, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 187, "episode_reward_mean": -777.22138888661, "training_iteration": 187, "timesteps_total": 224400, "policy_reward_mean": {}, "episode_reward_min": -875.6746798038785, "timesteps_since_restore": 224400, "num_metric_batches_dropped": 0, "time_since_restore": 5726.437877893448, "episode_reward_max": -650.2216053610996, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 224400, "default": {"kl": 0.012644434347748756, "policy_loss": -0.13919411599636078, "vf_loss": 2337.90673828125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8776271939277649, "entropy": 15.362001419067383, "cur_lr": 4.999999873689376e-05, "total_loss": 2337.78662109375}, "load_time_ms": 0.671, "num_steps_sampled": 224400, "grad_time_ms": 699.901, "update_time_ms": 2.143, "sample_time_ms": 31043.809}, "date": "2025-08-30_17-45-53", "hostname": "cda-server-4", "time_this_iter_s": 29.928864002227783, "episodes_total": 1122, "timestamp": 1756568753, "node_ip": "10.157.146.4", "done": false, "time_total_s": 5726.437877893448, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 188, "episode_reward_mean": -776.9100785941087, "training_iteration": 188, "timesteps_total": 225600, "policy_reward_mean": {}, "episode_reward_min": -875.6746798038785, "timesteps_since_restore": 225600, "num_metric_batches_dropped": 0, "time_since_restore": 5754.717573404312, "episode_reward_max": -650.2216053610996, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 225600, "default": {"kl": 0.01288212463259697, "policy_loss": -0.1449759602546692, "vf_loss": 1559.88427734375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8904181718826294, "entropy": 15.170230865478516, "cur_lr": 4.999999873689376e-05, "total_loss": 1559.7587890625}, "load_time_ms": 0.676, "num_steps_sampled": 225600, "grad_time_ms": 684.132, "update_time_ms": 2.126, "sample_time_ms": 30657.264}, "date": "2025-08-30_17-46-21", "hostname": "cda-server-4", "time_this_iter_s": 28.279695510864258, "episodes_total": 1128, "timestamp": 1756568781, "node_ip": "10.157.146.4", "done": false, "time_total_s": 5754.717573404312, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 189, "episode_reward_mean": -776.3718564716407, "training_iteration": 189, "timesteps_total": 226800, "policy_reward_mean": {}, "episode_reward_min": -875.6746798038785, "timesteps_since_restore": 226800, "num_metric_batches_dropped": 0, "time_since_restore": 5784.883064746857, "episode_reward_max": -650.2216053610996, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 226800, "default": {"kl": 0.014476724900305271, "policy_loss": -0.1499406099319458, "vf_loss": 1324.74560546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9070312976837158, "entropy": 15.194887161254883, "cur_lr": 4.999999873689376e-05, "total_loss": 1324.61767578125}, "load_time_ms": 0.673, "num_steps_sampled": 226800, "grad_time_ms": 667.073, "update_time_ms": 2.196, "sample_time_ms": 30878.354}, "date": "2025-08-30_17-46-51", "hostname": "cda-server-4", "time_this_iter_s": 30.165491342544556, "episodes_total": 1134, "timestamp": 1756568811, "node_ip": "10.157.146.4", "done": false, "time_total_s": 5784.883064746857, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 190, "episode_reward_mean": -777.2323020161936, "training_iteration": 190, "timesteps_total": 228000, "policy_reward_mean": {}, "episode_reward_min": -875.6746798038785, "timesteps_since_restore": 228000, "num_metric_batches_dropped": 0, "time_since_restore": 5816.32182431221, "episode_reward_max": -650.2216053610996, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 228000, "default": {"kl": 0.012806777842342854, "policy_loss": -0.14156264066696167, "vf_loss": 1661.7000732421875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9078689217567444, "entropy": 15.336223602294922, "cur_lr": 4.999999873689376e-05, "total_loss": 1661.577880859375}, "load_time_ms": 0.654, "num_steps_sampled": 228000, "grad_time_ms": 664.492, "update_time_ms": 2.205, "sample_time_ms": 30702.218}, "date": "2025-08-30_17-47-22", "hostname": "cda-server-4", "time_this_iter_s": 31.438759565353394, "episodes_total": 1140, "timestamp": 1756568842, "node_ip": "10.157.146.4", "done": false, "time_total_s": 5816.32182431221, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 191, "episode_reward_mean": -776.2475004647106, "training_iteration": 191, "timesteps_total": 229200, "policy_reward_mean": {}, "episode_reward_min": -875.6746798038785, "timesteps_since_restore": 229200, "num_metric_batches_dropped": 0, "time_since_restore": 5847.969817638397, "episode_reward_max": -650.2216053610996, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 229200, "default": {"kl": 0.014266987331211567, "policy_loss": -0.16023558378219604, "vf_loss": 2804.099365234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.7776660919189453, "entropy": 15.102863311767578, "cur_lr": 4.999999873689376e-05, "total_loss": 2803.9609375}, "load_time_ms": 0.641, "num_steps_sampled": 229200, "grad_time_ms": 658.822, "update_time_ms": 2.338, "sample_time_ms": 30618.63}, "date": "2025-08-30_17-47-54", "hostname": "cda-server-4", "time_this_iter_s": 31.647993326187134, "episodes_total": 1146, "timestamp": 1756568874, "node_ip": "10.157.146.4", "done": false, "time_total_s": 5847.969817638397, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 192, "episode_reward_mean": -776.2493223309726, "training_iteration": 192, "timesteps_total": 230400, "policy_reward_mean": {}, "episode_reward_min": -875.6746798038785, "timesteps_since_restore": 230400, "num_metric_batches_dropped": 0, "time_since_restore": 5879.929069519043, "episode_reward_max": -650.2216053610996, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 230400, "default": {"kl": 0.012068657204508781, "policy_loss": -0.13750380277633667, "vf_loss": 1220.43798828125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9199763536453247, "entropy": 15.169628143310547, "cur_lr": 4.999999873689376e-05, "total_loss": 1220.31884765625}, "load_time_ms": 0.647, "num_steps_sampled": 230400, "grad_time_ms": 654.414, "update_time_ms": 2.25, "sample_time_ms": 30639.704}, "date": "2025-08-30_17-48-26", "hostname": "cda-server-4", "time_this_iter_s": 31.959251880645752, "episodes_total": 1152, "timestamp": 1756568906, "node_ip": "10.157.146.4", "done": false, "time_total_s": 5879.929069519043, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 193, "episode_reward_mean": -777.2653751295832, "training_iteration": 193, "timesteps_total": 231600, "policy_reward_mean": {}, "episode_reward_min": -875.6746798038785, "timesteps_since_restore": 231600, "num_metric_batches_dropped": 0, "time_since_restore": 5911.758118391037, "episode_reward_max": -650.2216053610996, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 231600, "default": {"kl": 0.012334790080785751, "policy_loss": -0.1204984039068222, "vf_loss": 1241.7640380859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8787018656730652, "entropy": 15.419261932373047, "cur_lr": 4.999999873689376e-05, "total_loss": 1241.6622314453125}, "load_time_ms": 0.678, "num_steps_sampled": 231600, "grad_time_ms": 653.765, "update_time_ms": 2.259, "sample_time_ms": 30642.349}, "date": "2025-08-30_17-48-58", "hostname": "cda-server-4", "time_this_iter_s": 31.82904887199402, "episodes_total": 1158, "timestamp": 1756568938, "node_ip": "10.157.146.4", "done": false, "time_total_s": 5911.758118391037, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 194, "episode_reward_mean": -774.5284376292922, "training_iteration": 194, "timesteps_total": 232800, "policy_reward_mean": {}, "episode_reward_min": -875.6746798038785, "timesteps_since_restore": 232800, "num_metric_batches_dropped": 0, "time_since_restore": 5944.637488126755, "episode_reward_max": -650.2216053610996, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 232800, "default": {"kl": 0.014042920432984829, "policy_loss": -0.15183573961257935, "vf_loss": 2394.15625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9029449820518494, "entropy": 14.97634506225586, "cur_lr": 4.999999873689376e-05, "total_loss": 2394.02587890625}, "load_time_ms": 0.696, "num_steps_sampled": 232800, "grad_time_ms": 654.041, "update_time_ms": 2.264, "sample_time_ms": 30644.499}, "date": "2025-08-30_17-49-31", "hostname": "cda-server-4", "time_this_iter_s": 32.87936973571777, "episodes_total": 1164, "timestamp": 1756568971, "node_ip": "10.157.146.4", "done": false, "time_total_s": 5944.637488126755, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 195, "episode_reward_mean": -773.1441927528246, "training_iteration": 195, "timesteps_total": 234000, "policy_reward_mean": {}, "episode_reward_min": -875.6746798038785, "timesteps_since_restore": 234000, "num_metric_batches_dropped": 0, "time_since_restore": 5975.053570985794, "episode_reward_max": -650.2216053610996, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 234000, "default": {"kl": 0.01319674588739872, "policy_loss": -0.12649862468242645, "vf_loss": 2146.6298828125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.852931559085846, "entropy": 14.768942832946777, "cur_lr": 4.999999873689376e-05, "total_loss": 2146.5234375}, "load_time_ms": 0.686, "num_steps_sampled": 234000, "grad_time_ms": 675.656, "update_time_ms": 2.303, "sample_time_ms": 30319.272}, "date": "2025-08-30_17-50-01", "hostname": "cda-server-4", "time_this_iter_s": 30.416082859039307, "episodes_total": 1170, "timestamp": 1756569001, "node_ip": "10.157.146.4", "done": false, "time_total_s": 5975.053570985794, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 196, "episode_reward_mean": -770.6657316353167, "training_iteration": 196, "timesteps_total": 235200, "policy_reward_mean": {}, "episode_reward_min": -875.6746798038785, "timesteps_since_restore": 235200, "num_metric_batches_dropped": 0, "time_since_restore": 6005.214209318161, "episode_reward_max": -650.2216053610996, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 235200, "default": {"kl": 0.013981233350932598, "policy_loss": -0.14901287853717804, "vf_loss": 1267.3116455078125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.878068745136261, "entropy": 15.122697830200195, "cur_lr": 4.999999873689376e-05, "total_loss": 1267.183837890625}, "load_time_ms": 0.673, "num_steps_sampled": 235200, "grad_time_ms": 683.225, "update_time_ms": 2.264, "sample_time_ms": 30180.434}, "date": "2025-08-30_17-50-31", "hostname": "cda-server-4", "time_this_iter_s": 30.160638332366943, "episodes_total": 1176, "timestamp": 1756569031, "node_ip": "10.157.146.4", "done": false, "time_total_s": 6005.214209318161, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 197, "episode_reward_mean": -769.3949569880891, "training_iteration": 197, "timesteps_total": 236400, "policy_reward_mean": {}, "episode_reward_min": -875.6746798038785, "timesteps_since_restore": 236400, "num_metric_batches_dropped": 0, "time_since_restore": 6034.439298629761, "episode_reward_max": -650.2216053610996, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 236400, "default": {"kl": 0.01154758594930172, "policy_loss": -0.11709710955619812, "vf_loss": 1050.08740234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9147846698760986, "entropy": 15.164913177490234, "cur_lr": 4.999999873689376e-05, "total_loss": 1049.98779296875}, "load_time_ms": 0.632, "num_steps_sampled": 236400, "grad_time_ms": 685.908, "update_time_ms": 2.264, "sample_time_ms": 30107.444}, "date": "2025-08-30_17-51-01", "hostname": "cda-server-4", "time_this_iter_s": 29.22508931159973, "episodes_total": 1182, "timestamp": 1756569061, "node_ip": "10.157.146.4", "done": false, "time_total_s": 6034.439298629761, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 198, "episode_reward_mean": -770.6046127861928, "training_iteration": 198, "timesteps_total": 237600, "policy_reward_mean": {}, "episode_reward_min": -875.6746798038785, "timesteps_since_restore": 237600, "num_metric_batches_dropped": 0, "time_since_restore": 6067.145894527435, "episode_reward_max": -666.7645205153999, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 237600, "default": {"kl": 0.011262001469731331, "policy_loss": -0.10861492156982422, "vf_loss": 2467.634521484375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8239952921867371, "entropy": 14.828367233276367, "cur_lr": 4.999999873689376e-05, "total_loss": 2467.54296875}, "load_time_ms": 0.628, "num_steps_sampled": 237600, "grad_time_ms": 698.871, "update_time_ms": 2.273, "sample_time_ms": 30537.109}, "date": "2025-08-30_17-51-33", "hostname": "cda-server-4", "time_this_iter_s": 32.70659589767456, "episodes_total": 1188, "timestamp": 1756569093, "node_ip": "10.157.146.4", "done": false, "time_total_s": 6067.145894527435, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 199, "episode_reward_mean": -768.8809748227833, "training_iteration": 199, "timesteps_total": 238800, "policy_reward_mean": {}, "episode_reward_min": -875.6746798038785, "timesteps_since_restore": 238800, "num_metric_batches_dropped": 0, "time_since_restore": 6097.901347398758, "episode_reward_max": -666.7645205153999, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 238800, "default": {"kl": 0.013275863602757454, "policy_loss": -0.14936386048793793, "vf_loss": 1137.2548828125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8983170986175537, "entropy": 14.715959548950195, "cur_lr": 4.999999873689376e-05, "total_loss": 1137.1256103515625}, "load_time_ms": 0.635, "num_steps_sampled": 238800, "grad_time_ms": 715.643, "update_time_ms": 2.233, "sample_time_ms": 30579.431}, "date": "2025-08-30_17-52-04", "hostname": "cda-server-4", "time_this_iter_s": 30.755452871322632, "episodes_total": 1194, "timestamp": 1756569124, "node_ip": "10.157.146.4", "done": false, "time_total_s": 6097.901347398758, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 200, "episode_reward_mean": -768.2431462360166, "training_iteration": 200, "timesteps_total": 240000, "policy_reward_mean": {}, "episode_reward_min": -875.6746798038785, "timesteps_since_restore": 240000, "num_metric_batches_dropped": 0, "time_since_restore": 6128.84285402298, "episode_reward_max": -656.31983957899, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 240000, "default": {"kl": 0.01239701360464096, "policy_loss": -0.13571880757808685, "vf_loss": 1006.8764038085938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8996522426605225, "entropy": 15.219182014465332, "cur_lr": 4.999999873689376e-05, "total_loss": 1006.759521484375}, "load_time_ms": 0.636, "num_steps_sampled": 240000, "grad_time_ms": 724.628, "update_time_ms": 2.264, "sample_time_ms": 30520.447}, "date": "2025-08-30_17-52-35", "hostname": "cda-server-4", "time_this_iter_s": 30.9415066242218, "episodes_total": 1200, "timestamp": 1756569155, "node_ip": "10.157.146.4", "done": false, "time_total_s": 6128.84285402298, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 201, "episode_reward_mean": -765.3115284621907, "training_iteration": 201, "timesteps_total": 241200, "policy_reward_mean": {}, "episode_reward_min": -875.6746798038785, "timesteps_since_restore": 241200, "num_metric_batches_dropped": 0, "time_since_restore": 6157.072705984116, "episode_reward_max": -656.31983957899, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 241200, "default": {"kl": 0.012423909269273281, "policy_loss": -0.1399681717157364, "vf_loss": 1079.3145751953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9376199245452881, "entropy": 14.935385704040527, "cur_lr": 4.999999873689376e-05, "total_loss": 1079.1934814453125}, "load_time_ms": 0.668, "num_steps_sampled": 241200, "grad_time_ms": 707.756, "update_time_ms": 2.37, "sample_time_ms": 30195.257}, "date": "2025-08-30_17-53-03", "hostname": "cda-server-4", "time_this_iter_s": 28.229851961135864, "episodes_total": 1206, "timestamp": 1756569183, "node_ip": "10.157.146.4", "done": false, "time_total_s": 6157.072705984116, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 202, "episode_reward_mean": -761.8446913266483, "training_iteration": 202, "timesteps_total": 242400, "policy_reward_mean": {}, "episode_reward_min": -816.5558255939859, "timesteps_since_restore": 242400, "num_metric_batches_dropped": 0, "time_since_restore": 6186.627103567123, "episode_reward_max": -656.31983957899, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 242400, "default": {"kl": 0.014741050079464912, "policy_loss": -0.16751697659492493, "vf_loss": 1021.3129272460938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9356208443641663, "entropy": 14.89122200012207, "cur_lr": 4.999999873689376e-05, "total_loss": 1021.167724609375}, "load_time_ms": 0.657, "num_steps_sampled": 242400, "grad_time_ms": 686.443, "update_time_ms": 2.405, "sample_time_ms": 29976.088}, "date": "2025-08-30_17-53-33", "hostname": "cda-server-4", "time_this_iter_s": 29.554397583007812, "episodes_total": 1212, "timestamp": 1756569213, "node_ip": "10.157.146.4", "done": false, "time_total_s": 6186.627103567123, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 203, "episode_reward_mean": -760.2864794735076, "training_iteration": 203, "timesteps_total": 243600, "policy_reward_mean": {}, "episode_reward_min": -816.5558255939859, "timesteps_since_restore": 243600, "num_metric_batches_dropped": 0, "time_since_restore": 6214.460370540619, "episode_reward_max": -656.31983957899, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 243600, "default": {"kl": 0.011641984805464745, "policy_loss": -0.12095861881971359, "vf_loss": 693.02685546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.935821533203125, "entropy": 14.499744415283203, "cur_lr": 4.999999873689376e-05, "total_loss": 692.923583984375}, "load_time_ms": 0.624, "num_steps_sampled": 243600, "grad_time_ms": 659.822, "update_time_ms": 2.388, "sample_time_ms": 29603.255}, "date": "2025-08-30_17-54-01", "hostname": "cda-server-4", "time_this_iter_s": 27.833266973495483, "episodes_total": 1218, "timestamp": 1756569241, "node_ip": "10.157.146.4", "done": false, "time_total_s": 6214.460370540619, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 204, "episode_reward_mean": -762.3649049427805, "training_iteration": 204, "timesteps_total": 244800, "policy_reward_mean": {}, "episode_reward_min": -816.5558255939859, "timesteps_since_restore": 244800, "num_metric_batches_dropped": 0, "time_since_restore": 6242.086228847504, "episode_reward_max": -656.31983957899, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 244800, "default": {"kl": 0.012190484441816807, "policy_loss": -0.13218845427036285, "vf_loss": 1077.8779296875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.903518795967102, "entropy": 14.924182891845703, "cur_lr": 4.999999873689376e-05, "total_loss": 1077.76416015625}, "load_time_ms": 0.604, "num_steps_sampled": 244800, "grad_time_ms": 651.008, "update_time_ms": 2.426, "sample_time_ms": 29086.726}, "date": "2025-08-30_17-54-28", "hostname": "cda-server-4", "time_this_iter_s": 27.625858306884766, "episodes_total": 1224, "timestamp": 1756569268, "node_ip": "10.157.146.4", "done": false, "time_total_s": 6242.086228847504, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 205, "episode_reward_mean": -762.252315297145, "training_iteration": 205, "timesteps_total": 246000, "policy_reward_mean": {}, "episode_reward_min": -816.5558255939859, "timesteps_since_restore": 246000, "num_metric_batches_dropped": 0, "time_since_restore": 6270.750032901764, "episode_reward_max": -656.31983957899, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 246000, "default": {"kl": 0.014709454029798508, "policy_loss": -0.14594666659832, "vf_loss": 1238.5528564453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9438456296920776, "entropy": 14.983790397644043, "cur_lr": 4.999999873689376e-05, "total_loss": 1238.4293212890625}, "load_time_ms": 0.631, "num_steps_sampled": 246000, "grad_time_ms": 645.927, "update_time_ms": 2.369, "sample_time_ms": 28916.598}, "date": "2025-08-30_17-54-57", "hostname": "cda-server-4", "time_this_iter_s": 28.663804054260254, "episodes_total": 1230, "timestamp": 1756569297, "node_ip": "10.157.146.4", "done": false, "time_total_s": 6270.750032901764, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 206, "episode_reward_mean": -762.7158868085193, "training_iteration": 206, "timesteps_total": 247200, "policy_reward_mean": {}, "episode_reward_min": -816.5558255939859, "timesteps_since_restore": 247200, "num_metric_batches_dropped": 0, "time_since_restore": 6302.241589784622, "episode_reward_max": -656.31983957899, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 247200, "default": {"kl": 0.01189601793885231, "policy_loss": -0.128957599401474, "vf_loss": 2078.05419921875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8704563975334167, "entropy": 14.868091583251953, "cur_lr": 4.999999873689376e-05, "total_loss": 2077.943115234375}, "load_time_ms": 0.634, "num_steps_sampled": 247200, "grad_time_ms": 636.975, "update_time_ms": 2.344, "sample_time_ms": 29058.699}, "date": "2025-08-30_17-55-29", "hostname": "cda-server-4", "time_this_iter_s": 31.491556882858276, "episodes_total": 1236, "timestamp": 1756569329, "node_ip": "10.157.146.4", "done": false, "time_total_s": 6302.241589784622, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 207, "episode_reward_mean": -762.5753482104292, "training_iteration": 207, "timesteps_total": 248400, "policy_reward_mean": {}, "episode_reward_min": -816.5558255939859, "timesteps_since_restore": 248400, "num_metric_batches_dropped": 0, "time_since_restore": 6335.87416434288, "episode_reward_max": -656.31983957899, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 248400, "default": {"kl": 0.011348956264555454, "policy_loss": -0.12503017485141754, "vf_loss": 1425.24169921875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8734676837921143, "entropy": 15.215456008911133, "cur_lr": 4.999999873689376e-05, "total_loss": 1425.1339111328125}, "load_time_ms": 0.631, "num_steps_sampled": 248400, "grad_time_ms": 628.92, "update_time_ms": 2.303, "sample_time_ms": 29507.647}, "date": "2025-08-30_17-56-02", "hostname": "cda-server-4", "time_this_iter_s": 33.63257455825806, "episodes_total": 1242, "timestamp": 1756569362, "node_ip": "10.157.146.4", "done": false, "time_total_s": 6335.87416434288, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 208, "episode_reward_mean": -762.3535064234629, "training_iteration": 208, "timesteps_total": 249600, "policy_reward_mean": {}, "episode_reward_min": -816.5558255939859, "timesteps_since_restore": 249600, "num_metric_batches_dropped": 0, "time_since_restore": 6367.586314201355, "episode_reward_max": -656.31983957899, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 249600, "default": {"kl": 0.011635011062026024, "policy_loss": -0.1247389018535614, "vf_loss": 1246.4127197265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8786408305168152, "entropy": 14.866701126098633, "cur_lr": 4.999999873689376e-05, "total_loss": 1246.3056640625}, "load_time_ms": 0.633, "num_steps_sampled": 249600, "grad_time_ms": 621.126, "update_time_ms": 2.285, "sample_time_ms": 29416.039}, "date": "2025-08-30_17-56-34", "hostname": "cda-server-4", "time_this_iter_s": 31.71214985847473, "episodes_total": 1248, "timestamp": 1756569394, "node_ip": "10.157.146.4", "done": false, "time_total_s": 6367.586314201355, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 209, "episode_reward_mean": -761.3653356392189, "training_iteration": 209, "timesteps_total": 250800, "policy_reward_mean": {}, "episode_reward_min": -816.5558255939859, "timesteps_since_restore": 250800, "num_metric_batches_dropped": 0, "time_since_restore": 6397.909002780914, "episode_reward_max": -656.31983957899, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 250800, "default": {"kl": 0.012715205550193787, "policy_loss": -0.1468845009803772, "vf_loss": 868.9049072265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9464036226272583, "entropy": 14.620555877685547, "cur_lr": 4.999999873689376e-05, "total_loss": 868.77734375}, "load_time_ms": 0.639, "num_steps_sampled": 250800, "grad_time_ms": 615.069, "update_time_ms": 2.299, "sample_time_ms": 29378.76}, "date": "2025-08-30_17-57-04", "hostname": "cda-server-4", "time_this_iter_s": 30.322688579559326, "episodes_total": 1254, "timestamp": 1756569424, "node_ip": "10.157.146.4", "done": false, "time_total_s": 6397.909002780914, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 210, "episode_reward_mean": -761.8095192253459, "training_iteration": 210, "timesteps_total": 252000, "policy_reward_mean": {}, "episode_reward_min": -816.5558255939859, "timesteps_since_restore": 252000, "num_metric_batches_dropped": 0, "time_since_restore": 6429.520866394043, "episode_reward_max": -656.31983957899, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 252000, "default": {"kl": 0.012186344712972641, "policy_loss": -0.1262197047472, "vf_loss": 1049.1483154296875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9343802332878113, "entropy": 14.88453197479248, "cur_lr": 4.999999873689376e-05, "total_loss": 1049.04052734375}, "load_time_ms": 0.641, "num_steps_sampled": 252000, "grad_time_ms": 592.983, "update_time_ms": 2.256, "sample_time_ms": 29468.186}, "date": "2025-08-30_17-57-36", "hostname": "cda-server-4", "time_this_iter_s": 31.611863613128662, "episodes_total": 1260, "timestamp": 1756569456, "node_ip": "10.157.146.4", "done": false, "time_total_s": 6429.520866394043, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 211, "episode_reward_mean": -764.159949276628, "training_iteration": 211, "timesteps_total": 253200, "policy_reward_mean": {}, "episode_reward_min": -816.5558255939859, "timesteps_since_restore": 253200, "num_metric_batches_dropped": 0, "time_since_restore": 6462.2311000823975, "episode_reward_max": -656.31983957899, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 253200, "default": {"kl": 0.01196000725030899, "policy_loss": -0.12342984229326248, "vf_loss": 1817.66357421875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8451416492462158, "entropy": 14.54273509979248, "cur_lr": 4.999999873689376e-05, "total_loss": 1817.55810546875}, "load_time_ms": 0.612, "num_steps_sampled": 253200, "grad_time_ms": 611.909, "update_time_ms": 2.061, "sample_time_ms": 29897.572}, "date": "2025-08-30_17-58-09", "hostname": "cda-server-4", "time_this_iter_s": 32.71023368835449, "episodes_total": 1266, "timestamp": 1756569489, "node_ip": "10.157.146.4", "done": false, "time_total_s": 6462.2311000823975, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 212, "episode_reward_mean": -766.109922337125, "training_iteration": 212, "timesteps_total": 254400, "policy_reward_mean": {}, "episode_reward_min": -816.5558255939859, "timesteps_since_restore": 254400, "num_metric_batches_dropped": 0, "time_since_restore": 6492.061650753021, "episode_reward_max": -656.31983957899, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 254400, "default": {"kl": 0.013560662977397442, "policy_loss": -0.1379910111427307, "vf_loss": 671.1541137695312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9467993974685669, "entropy": 14.922832489013672, "cur_lr": 4.999999873689376e-05, "total_loss": 671.0368041992188}, "load_time_ms": 0.649, "num_steps_sampled": 254400, "grad_time_ms": 628.107, "update_time_ms": 2.056, "sample_time_ms": 29908.92}, "date": "2025-08-30_17-58-39", "hostname": "cda-server-4", "time_this_iter_s": 29.83055067062378, "episodes_total": 1272, "timestamp": 1756569519, "node_ip": "10.157.146.4", "done": false, "time_total_s": 6492.061650753021, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 213, "episode_reward_mean": -767.9917825158495, "training_iteration": 213, "timesteps_total": 255600, "policy_reward_mean": {}, "episode_reward_min": -816.5558255939859, "timesteps_since_restore": 255600, "num_metric_batches_dropped": 0, "time_since_restore": 6520.155786991119, "episode_reward_max": -656.31983957899, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 255600, "default": {"kl": 0.013134732842445374, "policy_loss": -0.1302383691072464, "vf_loss": 803.8109130859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9464755654335022, "entropy": 14.756086349487305, "cur_lr": 4.999999873689376e-05, "total_loss": 803.7006225585938}, "load_time_ms": 0.648, "num_steps_sampled": 255600, "grad_time_ms": 628.402, "update_time_ms": 2.046, "sample_time_ms": 29934.698}, "date": "2025-08-30_17-59-07", "hostname": "cda-server-4", "time_this_iter_s": 28.094136238098145, "episodes_total": 1278, "timestamp": 1756569547, "node_ip": "10.157.146.4", "done": false, "time_total_s": 6520.155786991119, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 214, "episode_reward_mean": -767.7932115802624, "training_iteration": 214, "timesteps_total": 256800, "policy_reward_mean": {}, "episode_reward_min": -816.5558255939859, "timesteps_since_restore": 256800, "num_metric_batches_dropped": 0, "time_since_restore": 6551.637071847916, "episode_reward_max": -656.31983957899, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 256800, "default": {"kl": 0.012526613660156727, "policy_loss": -0.13357046246528625, "vf_loss": 1197.85302734375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9204511642456055, "entropy": 14.81003189086914, "cur_lr": 4.999999873689376e-05, "total_loss": 1197.738525390625}, "load_time_ms": 0.648, "num_steps_sampled": 256800, "grad_time_ms": 610.551, "update_time_ms": 2.085, "sample_time_ms": 30338.054}, "date": "2025-08-30_17-59-38", "hostname": "cda-server-4", "time_this_iter_s": 31.481284856796265, "episodes_total": 1284, "timestamp": 1756569578, "node_ip": "10.157.146.4", "done": false, "time_total_s": 6551.637071847916, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 215, "episode_reward_mean": -770.4567069778454, "training_iteration": 215, "timesteps_total": 258000, "policy_reward_mean": {}, "episode_reward_min": -816.5558255939859, "timesteps_since_restore": 258000, "num_metric_batches_dropped": 0, "time_since_restore": 6584.063513278961, "episode_reward_max": -656.31983957899, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 258000, "default": {"kl": 0.011857522651553154, "policy_loss": -0.12517055869102478, "vf_loss": 2510.2900390625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8232736587524414, "entropy": 14.902369499206543, "cur_lr": 4.999999873689376e-05, "total_loss": 2510.18310546875}, "load_time_ms": 0.628, "num_steps_sampled": 258000, "grad_time_ms": 596.637, "update_time_ms": 2.171, "sample_time_ms": 30728.178}, "date": "2025-08-30_18-00-11", "hostname": "cda-server-4", "time_this_iter_s": 32.42644143104553, "episodes_total": 1290, "timestamp": 1756569611, "node_ip": "10.157.146.4", "done": false, "time_total_s": 6584.063513278961, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 216, "episode_reward_mean": -770.9790358101002, "training_iteration": 216, "timesteps_total": 259200, "policy_reward_mean": {}, "episode_reward_min": -816.5558255939859, "timesteps_since_restore": 259200, "num_metric_batches_dropped": 0, "time_since_restore": 6616.291554927826, "episode_reward_max": -657.0992927973821, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 259200, "default": {"kl": 0.012124845758080482, "policy_loss": -0.13083814084529877, "vf_loss": 466.26513671875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.961762547492981, "entropy": 14.564006805419922, "cur_lr": 4.999999873689376e-05, "total_loss": 466.1527099609375}, "load_time_ms": 0.64, "num_steps_sampled": 259200, "grad_time_ms": 605.968, "update_time_ms": 2.192, "sample_time_ms": 30792.401}, "date": "2025-08-30_18-00-43", "hostname": "cda-server-4", "time_this_iter_s": 32.228041648864746, "episodes_total": 1296, "timestamp": 1756569643, "node_ip": "10.157.146.4", "done": false, "time_total_s": 6616.291554927826, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 217, "episode_reward_mean": -772.1514585878316, "training_iteration": 217, "timesteps_total": 260400, "policy_reward_mean": {}, "episode_reward_min": -816.5558255939859, "timesteps_since_restore": 260400, "num_metric_batches_dropped": 0, "time_since_restore": 6647.913309812546, "episode_reward_max": -657.0992927973821, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 260400, "default": {"kl": 0.01333546731621027, "policy_loss": -0.13897879421710968, "vf_loss": 2047.546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.854362428188324, "entropy": 14.798381805419922, "cur_lr": 4.999999873689376e-05, "total_loss": 2047.42822265625}, "load_time_ms": 0.652, "num_steps_sampled": 260400, "grad_time_ms": 601.437, "update_time_ms": 2.234, "sample_time_ms": 30595.688}, "date": "2025-08-30_18-01-15", "hostname": "cda-server-4", "time_this_iter_s": 31.62175488471985, "episodes_total": 1302, "timestamp": 1756569675, "node_ip": "10.157.146.4", "done": false, "time_total_s": 6647.913309812546, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 218, "episode_reward_mean": -772.1891470797763, "training_iteration": 218, "timesteps_total": 261600, "policy_reward_mean": {}, "episode_reward_min": -812.1440472047747, "timesteps_since_restore": 261600, "num_metric_batches_dropped": 0, "time_since_restore": 6678.024124383926, "episode_reward_max": -657.0992927973821, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 261600, "default": {"kl": 0.014452116563916206, "policy_loss": -0.1408669352531433, "vf_loss": 1036.6844482421875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9474757313728333, "entropy": 14.634349822998047, "cur_lr": 4.999999873689376e-05, "total_loss": 1036.5654296875}, "load_time_ms": 0.686, "num_steps_sampled": 261600, "grad_time_ms": 601.777, "update_time_ms": 2.431, "sample_time_ms": 30435.022}, "date": "2025-08-30_18-01-45", "hostname": "cda-server-4", "time_this_iter_s": 30.110814571380615, "episodes_total": 1308, "timestamp": 1756569705, "node_ip": "10.157.146.4", "done": false, "time_total_s": 6678.024124383926, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 219, "episode_reward_mean": -773.5068838920531, "training_iteration": 219, "timesteps_total": 262800, "policy_reward_mean": {}, "episode_reward_min": -812.1440472047747, "timesteps_since_restore": 262800, "num_metric_batches_dropped": 0, "time_since_restore": 6706.128180742264, "episode_reward_max": -657.0992927973821, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 262800, "default": {"kl": 0.010870043188333511, "policy_loss": -0.12041262537240982, "vf_loss": 1235.69677734375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.895592987537384, "entropy": 14.202518463134766, "cur_lr": 4.999999873689376e-05, "total_loss": 1235.5927734375}, "load_time_ms": 0.686, "num_steps_sampled": 262800, "grad_time_ms": 610.714, "update_time_ms": 2.375, "sample_time_ms": 30204.241}, "date": "2025-08-30_18-02-13", "hostname": "cda-server-4", "time_this_iter_s": 28.104056358337402, "episodes_total": 1314, "timestamp": 1756569733, "node_ip": "10.157.146.4", "done": false, "time_total_s": 6706.128180742264, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 220, "episode_reward_mean": -774.5241636366005, "training_iteration": 220, "timesteps_total": 264000, "policy_reward_mean": {}, "episode_reward_min": -812.1440472047747, "timesteps_since_restore": 264000, "num_metric_batches_dropped": 0, "time_since_restore": 6739.178822040558, "episode_reward_max": -671.3147923682886, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 264000, "default": {"kl": 0.011614995077252388, "policy_loss": -0.13037805259227753, "vf_loss": 1689.449462890625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8528369665145874, "entropy": 14.315935134887695, "cur_lr": 4.999999873689376e-05, "total_loss": 1689.336669921875}, "load_time_ms": 0.68, "num_steps_sampled": 264000, "grad_time_ms": 629.153, "update_time_ms": 2.378, "sample_time_ms": 30329.669}, "date": "2025-08-30_18-02-46", "hostname": "cda-server-4", "time_this_iter_s": 33.05064129829407, "episodes_total": 1320, "timestamp": 1756569766, "node_ip": "10.157.146.4", "done": false, "time_total_s": 6739.178822040558, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 221, "episode_reward_mean": -772.5135887523903, "training_iteration": 221, "timesteps_total": 265200, "policy_reward_mean": {}, "episode_reward_min": -817.0664642692551, "timesteps_since_restore": 265200, "num_metric_batches_dropped": 0, "time_since_restore": 6766.930157661438, "episode_reward_max": -668.9785199428921, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 265200, "default": {"kl": 0.01282799057662487, "policy_loss": -0.13428856432437897, "vf_loss": 658.5834350585938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9578973054885864, "entropy": 14.417824745178223, "cur_lr": 4.999999873689376e-05, "total_loss": 658.4686279296875}, "load_time_ms": 0.677, "num_steps_sampled": 265200, "grad_time_ms": 635.034, "update_time_ms": 2.412, "sample_time_ms": 29827.885}, "date": "2025-08-30_18-03-14", "hostname": "cda-server-4", "time_this_iter_s": 27.751335620880127, "episodes_total": 1326, "timestamp": 1756569794, "node_ip": "10.157.146.4", "done": false, "time_total_s": 6766.930157661438, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 222, "episode_reward_mean": -770.6150877538437, "training_iteration": 222, "timesteps_total": 266400, "policy_reward_mean": {}, "episode_reward_min": -817.0664642692551, "timesteps_since_restore": 266400, "num_metric_batches_dropped": 0, "time_since_restore": 6796.68820977211, "episode_reward_max": -668.9785199428921, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 266400, "default": {"kl": 0.011355001479387283, "policy_loss": -0.13548535108566284, "vf_loss": 648.3850708007812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9489176869392395, "entropy": 14.200672149658203, "cur_lr": 4.999999873689376e-05, "total_loss": 648.266845703125}, "load_time_ms": 0.643, "num_steps_sampled": 266400, "grad_time_ms": 646.616, "update_time_ms": 2.516, "sample_time_ms": 29808.983}, "date": "2025-08-30_18-03-43", "hostname": "cda-server-4", "time_this_iter_s": 29.758052110671997, "episodes_total": 1332, "timestamp": 1756569823, "node_ip": "10.157.146.4", "done": false, "time_total_s": 6796.68820977211, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 223, "episode_reward_mean": -766.321757565058, "training_iteration": 223, "timesteps_total": 267600, "policy_reward_mean": {}, "episode_reward_min": -817.0664642692551, "timesteps_since_restore": 267600, "num_metric_batches_dropped": 0, "time_since_restore": 6826.159619569778, "episode_reward_max": -658.9758458310174, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 267600, "default": {"kl": 0.011689577251672745, "policy_loss": -0.12905259430408478, "vf_loss": 678.59814453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9419817328453064, "entropy": 14.187430381774902, "cur_lr": 4.999999873689376e-05, "total_loss": 678.48681640625}, "load_time_ms": 0.663, "num_steps_sampled": 267600, "grad_time_ms": 673.895, "update_time_ms": 2.582, "sample_time_ms": 29919.25}, "date": "2025-08-30_18-04-13", "hostname": "cda-server-4", "time_this_iter_s": 29.471409797668457, "episodes_total": 1338, "timestamp": 1756569853, "node_ip": "10.157.146.4", "done": false, "time_total_s": 6826.159619569778, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 224, "episode_reward_mean": -766.8589775966964, "training_iteration": 224, "timesteps_total": 268800, "policy_reward_mean": {}, "episode_reward_min": -817.0664642692551, "timesteps_since_restore": 268800, "num_metric_batches_dropped": 0, "time_since_restore": 6857.163364887238, "episode_reward_max": -658.9758458310174, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 268800, "default": {"kl": 0.013265659101307392, "policy_loss": -0.13901124894618988, "vf_loss": 1055.3680419921875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9350332617759705, "entropy": 14.712541580200195, "cur_lr": 4.999999873689376e-05, "total_loss": 1055.2491455078125}, "load_time_ms": 0.698, "num_steps_sampled": 268800, "grad_time_ms": 698.63, "update_time_ms": 2.613, "sample_time_ms": 29846.657}, "date": "2025-08-30_18-04-44", "hostname": "cda-server-4", "time_this_iter_s": 31.003745317459106, "episodes_total": 1344, "timestamp": 1756569884, "node_ip": "10.157.146.4", "done": false, "time_total_s": 6857.163364887238, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 225, "episode_reward_mean": -763.8542485297072, "training_iteration": 225, "timesteps_total": 270000, "policy_reward_mean": {}, "episode_reward_min": -817.0664642692551, "timesteps_since_restore": 270000, "num_metric_batches_dropped": 0, "time_since_restore": 6887.033984661102, "episode_reward_max": -658.9758458310174, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 270000, "default": {"kl": 0.014121579006314278, "policy_loss": -0.16322393715381622, "vf_loss": 497.5164794921875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9613398313522339, "entropy": 14.48061752319336, "cur_lr": 4.999999873689376e-05, "total_loss": 497.3747253417969}, "load_time_ms": 0.692, "num_steps_sampled": 270000, "grad_time_ms": 716.185, "update_time_ms": 2.59, "sample_time_ms": 29573.537}, "date": "2025-08-30_18-05-14", "hostname": "cda-server-4", "time_this_iter_s": 29.870619773864746, "episodes_total": 1350, "timestamp": 1756569914, "node_ip": "10.157.146.4", "done": false, "time_total_s": 6887.033984661102, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 226, "episode_reward_mean": -760.7049965156153, "training_iteration": 226, "timesteps_total": 271200, "policy_reward_mean": {}, "episode_reward_min": -817.0664642692551, "timesteps_since_restore": 271200, "num_metric_batches_dropped": 0, "time_since_restore": 6917.499672412872, "episode_reward_max": -658.9758458310174, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 271200, "default": {"kl": 0.013628794811666012, "policy_loss": -0.1350216567516327, "vf_loss": 1289.01025390625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9215202331542969, "entropy": 14.286154747009277, "cur_lr": 4.999999873689376e-05, "total_loss": 1288.89599609375}, "load_time_ms": 0.676, "num_steps_sampled": 271200, "grad_time_ms": 712.341, "update_time_ms": 2.589, "sample_time_ms": 29401.152}, "date": "2025-08-30_18-05-44", "hostname": "cda-server-4", "time_this_iter_s": 30.46568775177002, "episodes_total": 1356, "timestamp": 1756569944, "node_ip": "10.157.146.4", "done": false, "time_total_s": 6917.499672412872, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 227, "episode_reward_mean": -759.2225415438936, "training_iteration": 227, "timesteps_total": 272400, "policy_reward_mean": {}, "episode_reward_min": -817.0664642692551, "timesteps_since_restore": 272400, "num_metric_batches_dropped": 0, "time_since_restore": 6948.275052547455, "episode_reward_max": -658.9758458310174, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 272400, "default": {"kl": 0.01130254939198494, "policy_loss": -0.12144708633422852, "vf_loss": 1678.1829833984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.893224835395813, "entropy": 14.35274887084961, "cur_lr": 4.999999873689376e-05, "total_loss": 1678.07861328125}, "load_time_ms": 0.671, "num_steps_sampled": 272400, "grad_time_ms": 715.95, "update_time_ms": 2.611, "sample_time_ms": 29312.953}, "date": "2025-08-30_18-06-15", "hostname": "cda-server-4", "time_this_iter_s": 30.77538013458252, "episodes_total": 1362, "timestamp": 1756569975, "node_ip": "10.157.146.4", "done": false, "time_total_s": 6948.275052547455, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 228, "episode_reward_mean": -757.4188989019945, "training_iteration": 228, "timesteps_total": 273600, "policy_reward_mean": {}, "episode_reward_min": -817.0664642692551, "timesteps_since_restore": 273600, "num_metric_batches_dropped": 0, "time_since_restore": 6979.679294586182, "episode_reward_max": -658.9758458310174, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 273600, "default": {"kl": 0.013471491634845734, "policy_loss": -0.14828814566135406, "vf_loss": 1629.01611328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8845847249031067, "entropy": 14.484370231628418, "cur_lr": 4.999999873689376e-05, "total_loss": 1628.88818359375}, "load_time_ms": 0.633, "num_steps_sampled": 273600, "grad_time_ms": 716.014, "update_time_ms": 2.402, "sample_time_ms": 29442.464}, "date": "2025-08-30_18-06-46", "hostname": "cda-server-4", "time_this_iter_s": 31.404242038726807, "episodes_total": 1368, "timestamp": 1756570006, "node_ip": "10.157.146.4", "done": false, "time_total_s": 6979.679294586182, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 229, "episode_reward_mean": -753.5058425439398, "training_iteration": 229, "timesteps_total": 274800, "policy_reward_mean": {}, "episode_reward_min": -817.0664642692551, "timesteps_since_restore": 274800, "num_metric_batches_dropped": 0, "time_since_restore": 7013.4012360572815, "episode_reward_max": -658.9758458310174, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 274800, "default": {"kl": 0.011811546050012112, "policy_loss": -0.1305905431509018, "vf_loss": 1021.155029296875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9148290157318115, "entropy": 14.219124794006348, "cur_lr": 4.999999873689376e-05, "total_loss": 1021.0424194335938}, "load_time_ms": 0.629, "num_steps_sampled": 274800, "grad_time_ms": 701.923, "update_time_ms": 2.449, "sample_time_ms": 30018.334}, "date": "2025-08-30_18-07-20", "hostname": "cda-server-4", "time_this_iter_s": 33.72194147109985, "episodes_total": 1374, "timestamp": 1756570040, "node_ip": "10.157.146.4", "done": false, "time_total_s": 7013.4012360572815, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 230, "episode_reward_mean": -751.5301233504184, "training_iteration": 230, "timesteps_total": 276000, "policy_reward_mean": {}, "episode_reward_min": -817.0664642692551, "timesteps_since_restore": 276000, "num_metric_batches_dropped": 0, "time_since_restore": 7046.896975040436, "episode_reward_max": -658.9758458310174, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 276000, "default": {"kl": 0.012665435671806335, "policy_loss": -0.1434449553489685, "vf_loss": 1409.3966064453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9264912009239197, "entropy": 14.190516471862793, "cur_lr": 4.999999873689376e-05, "total_loss": 1409.2723388671875}, "load_time_ms": 0.642, "num_steps_sampled": 276000, "grad_time_ms": 690.956, "update_time_ms": 2.43, "sample_time_ms": 30073.756}, "date": "2025-08-30_18-07-54", "hostname": "cda-server-4", "time_this_iter_s": 33.4957389831543, "episodes_total": 1380, "timestamp": 1756570074, "node_ip": "10.157.146.4", "done": false, "time_total_s": 7046.896975040436, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 231, "episode_reward_mean": -749.5451199421665, "training_iteration": 231, "timesteps_total": 277200, "policy_reward_mean": {}, "episode_reward_min": -817.0664642692551, "timesteps_since_restore": 277200, "num_metric_batches_dropped": 0, "time_since_restore": 7076.290871143341, "episode_reward_max": -658.9758458310174, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 277200, "default": {"kl": 0.012300782836973667, "policy_loss": -0.14081010222434998, "vf_loss": 900.3688354492188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9401698708534241, "entropy": 14.312920570373535, "cur_lr": 4.999999873689376e-05, "total_loss": 900.2467041015625}, "load_time_ms": 0.649, "num_steps_sampled": 277200, "grad_time_ms": 681.556, "update_time_ms": 2.535, "sample_time_ms": 30247.226}, "date": "2025-08-30_18-08-23", "hostname": "cda-server-4", "time_this_iter_s": 29.393896102905273, "episodes_total": 1386, "timestamp": 1756570103, "node_ip": "10.157.146.4", "done": false, "time_total_s": 7076.290871143341, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 232, "episode_reward_mean": -746.6788849977231, "training_iteration": 232, "timesteps_total": 278400, "policy_reward_mean": {}, "episode_reward_min": -817.0664642692551, "timesteps_since_restore": 278400, "num_metric_batches_dropped": 0, "time_since_restore": 7108.270347118378, "episode_reward_max": -658.9758458310174, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 278400, "default": {"kl": 0.01338163111358881, "policy_loss": -0.1595889925956726, "vf_loss": 827.1482543945312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9329918622970581, "entropy": 14.060859680175781, "cur_lr": 4.999999873689376e-05, "total_loss": 827.009033203125}, "load_time_ms": 0.653, "num_steps_sampled": 278400, "grad_time_ms": 680.834, "update_time_ms": 2.464, "sample_time_ms": 30470.146}, "date": "2025-08-30_18-08-55", "hostname": "cda-server-4", "time_this_iter_s": 31.97947597503662, "episodes_total": 1392, "timestamp": 1756570135, "node_ip": "10.157.146.4", "done": false, "time_total_s": 7108.270347118378, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 233, "episode_reward_mean": -747.1780402521504, "training_iteration": 233, "timesteps_total": 279600, "policy_reward_mean": {}, "episode_reward_min": -817.0664642692551, "timesteps_since_restore": 279600, "num_metric_batches_dropped": 0, "time_since_restore": 7141.94899892807, "episode_reward_max": -658.9758458310174, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 279600, "default": {"kl": 0.014721893705427647, "policy_loss": -0.1580149531364441, "vf_loss": 2336.529541015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9189570546150208, "entropy": 14.158514022827148, "cur_lr": 4.999999873689376e-05, "total_loss": 2336.393798828125}, "load_time_ms": 0.645, "num_steps_sampled": 279600, "grad_time_ms": 679.719, "update_time_ms": 2.453, "sample_time_ms": 30892.029}, "date": "2025-08-30_18-09-29", "hostname": "cda-server-4", "time_this_iter_s": 33.67865180969238, "episodes_total": 1398, "timestamp": 1756570169, "node_ip": "10.157.146.4", "done": false, "time_total_s": 7141.94899892807, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 234, "episode_reward_mean": -745.5227935588316, "training_iteration": 234, "timesteps_total": 280800, "policy_reward_mean": {}, "episode_reward_min": -824.7477422933937, "timesteps_since_restore": 280800, "num_metric_batches_dropped": 0, "time_since_restore": 7171.384119272232, "episode_reward_max": -658.9758458310174, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 280800, "default": {"kl": 0.011806921102106571, "policy_loss": -0.12265811860561371, "vf_loss": 1018.0805053710938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9107342958450317, "entropy": 14.039169311523438, "cur_lr": 4.999999873689376e-05, "total_loss": 1017.9758911132812}, "load_time_ms": 0.615, "num_steps_sampled": 280800, "grad_time_ms": 676.114, "update_time_ms": 2.379, "sample_time_ms": 30738.901}, "date": "2025-08-30_18-09-58", "hostname": "cda-server-4", "time_this_iter_s": 29.435120344161987, "episodes_total": 1404, "timestamp": 1756570198, "node_ip": "10.157.146.4", "done": false, "time_total_s": 7171.384119272232, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 235, "episode_reward_mean": -743.1479597522514, "training_iteration": 235, "timesteps_total": 282000, "policy_reward_mean": {}, "episode_reward_min": -824.7477422933937, "timesteps_since_restore": 282000, "num_metric_batches_dropped": 0, "time_since_restore": 7202.181316614151, "episode_reward_max": -658.9758458310174, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 282000, "default": {"kl": 0.01200790423899889, "policy_loss": -0.1547696590423584, "vf_loss": 380.9507751464844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9690568447113037, "entropy": 14.247587203979492, "cur_lr": 4.999999873689376e-05, "total_loss": 380.8142395019531}, "load_time_ms": 0.619, "num_steps_sampled": 282000, "grad_time_ms": 677.184, "update_time_ms": 2.353, "sample_time_ms": 30830.484}, "date": "2025-08-30_18-10-29", "hostname": "cda-server-4", "time_this_iter_s": 30.797197341918945, "episodes_total": 1410, "timestamp": 1756570229, "node_ip": "10.157.146.4", "done": false, "time_total_s": 7202.181316614151, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 236, "episode_reward_mean": -743.032454463038, "training_iteration": 236, "timesteps_total": 283200, "policy_reward_mean": {}, "episode_reward_min": -824.7477422933937, "timesteps_since_restore": 283200, "num_metric_batches_dropped": 0, "time_since_restore": 7235.096935033798, "episode_reward_max": -658.9758458310174, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 283200, "default": {"kl": 0.012029696255922318, "policy_loss": -0.14230817556381226, "vf_loss": 547.1163330078125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9640365242958069, "entropy": 14.078639030456543, "cur_lr": 4.999999873689376e-05, "total_loss": 546.9922485351562}, "load_time_ms": 0.629, "num_steps_sampled": 283200, "grad_time_ms": 682.434, "update_time_ms": 2.39, "sample_time_ms": 31070.214}, "date": "2025-08-30_18-11-02", "hostname": "cda-server-4", "time_this_iter_s": 32.91561841964722, "episodes_total": 1416, "timestamp": 1756570262, "node_ip": "10.157.146.4", "done": false, "time_total_s": 7235.096935033798, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 237, "episode_reward_mean": -741.3223961943312, "training_iteration": 237, "timesteps_total": 284400, "policy_reward_mean": {}, "episode_reward_min": -824.7477422933937, "timesteps_since_restore": 284400, "num_metric_batches_dropped": 0, "time_since_restore": 7265.897544622421, "episode_reward_max": -658.9758458310174, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 284400, "default": {"kl": 0.012317215092480183, "policy_loss": -0.14440026879310608, "vf_loss": 355.8188781738281, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9670789241790771, "entropy": 14.00362777709961, "cur_lr": 4.999999873689376e-05, "total_loss": 355.6931457519531}, "load_time_ms": 0.621, "num_steps_sampled": 284400, "grad_time_ms": 690.566, "update_time_ms": 2.334, "sample_time_ms": 31064.642}, "date": "2025-08-30_18-11-33", "hostname": "cda-server-4", "time_this_iter_s": 30.800609588623047, "episodes_total": 1422, "timestamp": 1756570293, "node_ip": "10.157.146.4", "done": false, "time_total_s": 7265.897544622421, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 238, "episode_reward_mean": -744.2457842359966, "training_iteration": 238, "timesteps_total": 285600, "policy_reward_mean": {}, "episode_reward_min": -824.7477422933937, "timesteps_since_restore": 285600, "num_metric_batches_dropped": 0, "time_since_restore": 7298.293344974518, "episode_reward_max": -658.9758458310174, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 285600, "default": {"kl": 0.013868389651179314, "policy_loss": -0.17128470540046692, "vf_loss": 432.02435302734375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9677094221115112, "entropy": 14.394204139709473, "cur_lr": 4.999999873689376e-05, "total_loss": 431.8741455078125}, "load_time_ms": 0.628, "num_steps_sampled": 285600, "grad_time_ms": 691.973, "update_time_ms": 2.393, "sample_time_ms": 31162.303}, "date": "2025-08-30_18-12-05", "hostname": "cda-server-4", "time_this_iter_s": 32.39580035209656, "episodes_total": 1428, "timestamp": 1756570325, "node_ip": "10.157.146.4", "done": false, "time_total_s": 7298.293344974518, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 239, "episode_reward_mean": -744.0933346815629, "training_iteration": 239, "timesteps_total": 286800, "policy_reward_mean": {}, "episode_reward_min": -824.7477422933937, "timesteps_since_restore": 286800, "num_metric_batches_dropped": 0, "time_since_restore": 7329.867017507553, "episode_reward_max": -658.9758458310174, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 286800, "default": {"kl": 0.013494370505213737, "policy_loss": -0.1437498778104782, "vf_loss": 1222.607177734375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9205951690673828, "entropy": 14.31385612487793, "cur_lr": 4.999999873689376e-05, "total_loss": 1222.48388671875}, "load_time_ms": 0.657, "num_steps_sampled": 286800, "grad_time_ms": 698.269, "update_time_ms": 2.402, "sample_time_ms": 30941.111}, "date": "2025-08-30_18-12-37", "hostname": "cda-server-4", "time_this_iter_s": 31.57367253303528, "episodes_total": 1434, "timestamp": 1756570357, "node_ip": "10.157.146.4", "done": false, "time_total_s": 7329.867017507553, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 240, "episode_reward_mean": -747.2570676885231, "training_iteration": 240, "timesteps_total": 288000, "policy_reward_mean": {}, "episode_reward_min": -824.7477422933937, "timesteps_since_restore": 288000, "num_metric_batches_dropped": 0, "time_since_restore": 7361.445508718491, "episode_reward_max": -662.7134727513279, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 288000, "default": {"kl": 0.013241034001111984, "policy_loss": -0.15567469596862793, "vf_loss": 887.3976440429688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9515326619148254, "entropy": 14.346379280090332, "cur_lr": 4.999999873689376e-05, "total_loss": 887.2620239257812}, "load_time_ms": 0.652, "num_steps_sampled": 288000, "grad_time_ms": 700.947, "update_time_ms": 2.436, "sample_time_ms": 30746.748}, "date": "2025-08-30_18-13-08", "hostname": "cda-server-4", "time_this_iter_s": 31.5784912109375, "episodes_total": 1440, "timestamp": 1756570388, "node_ip": "10.157.146.4", "done": false, "time_total_s": 7361.445508718491, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 241, "episode_reward_mean": -746.2732565718818, "training_iteration": 241, "timesteps_total": 289200, "policy_reward_mean": {}, "episode_reward_min": -824.7477422933937, "timesteps_since_restore": 289200, "num_metric_batches_dropped": 0, "time_since_restore": 7392.008821964264, "episode_reward_max": -662.7134727513279, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 289200, "default": {"kl": 0.011014659889042377, "policy_loss": -0.1516837179660797, "vf_loss": 512.4671630859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9535578489303589, "entropy": 14.09610366821289, "cur_lr": 4.999999873689376e-05, "total_loss": 512.332275390625}, "load_time_ms": 0.65, "num_steps_sampled": 289200, "grad_time_ms": 705.609, "update_time_ms": 2.321, "sample_time_ms": 30859.226}, "date": "2025-08-30_18-13-39", "hostname": "cda-server-4", "time_this_iter_s": 30.563313245773315, "episodes_total": 1446, "timestamp": 1756570419, "node_ip": "10.157.146.4", "done": false, "time_total_s": 7392.008821964264, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 242, "episode_reward_mean": -748.115951231651, "training_iteration": 242, "timesteps_total": 290400, "policy_reward_mean": {}, "episode_reward_min": -824.7477422933937, "timesteps_since_restore": 290400, "num_metric_batches_dropped": 0, "time_since_restore": 7419.841382026672, "episode_reward_max": -662.7134727513279, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 290400, "default": {"kl": 0.01284899190068245, "policy_loss": -0.14667870104312897, "vf_loss": 962.3575439453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9362231492996216, "entropy": 14.113704681396484, "cur_lr": 4.999999873689376e-05, "total_loss": 962.23046875}, "load_time_ms": 0.643, "num_steps_sampled": 290400, "grad_time_ms": 704.418, "update_time_ms": 2.261, "sample_time_ms": 30445.823}, "date": "2025-08-30_18-14-07", "hostname": "cda-server-4", "time_this_iter_s": 27.832560062408447, "episodes_total": 1452, "timestamp": 1756570447, "node_ip": "10.157.146.4", "done": false, "time_total_s": 7419.841382026672, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 243, "episode_reward_mean": -747.8510843772485, "training_iteration": 243, "timesteps_total": 291600, "policy_reward_mean": {}, "episode_reward_min": -824.7477422933937, "timesteps_since_restore": 291600, "num_metric_batches_dropped": 0, "time_since_restore": 7449.4340987205505, "episode_reward_max": -662.7134727513279, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 291600, "default": {"kl": 0.011355799622833729, "policy_loss": -0.09893360733985901, "vf_loss": 1789.6141357421875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8494045734405518, "entropy": 13.575976371765137, "cur_lr": 4.999999873689376e-05, "total_loss": 1789.532470703125}, "load_time_ms": 0.664, "num_steps_sampled": 291600, "grad_time_ms": 706.067, "update_time_ms": 2.22, "sample_time_ms": 30035.66}, "date": "2025-08-30_18-14-36", "hostname": "cda-server-4", "time_this_iter_s": 29.592716693878174, "episodes_total": 1458, "timestamp": 1756570476, "node_ip": "10.157.146.4", "done": false, "time_total_s": 7449.4340987205505, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 244, "episode_reward_mean": -749.7921628405811, "training_iteration": 244, "timesteps_total": 292800, "policy_reward_mean": {}, "episode_reward_min": -867.4818464095868, "timesteps_since_restore": 292800, "num_metric_batches_dropped": 0, "time_since_restore": 7480.097305297852, "episode_reward_max": -662.7134727513279, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 292800, "default": {"kl": 0.014940517023205757, "policy_loss": -0.14820338785648346, "vf_loss": 2021.118896484375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9006237387657166, "entropy": 14.07781982421875, "cur_lr": 4.999999873689376e-05, "total_loss": 2020.9935302734375}, "load_time_ms": 0.66, "num_steps_sampled": 292800, "grad_time_ms": 710.622, "update_time_ms": 2.183, "sample_time_ms": 30153.913}, "date": "2025-08-30_18-15-07", "hostname": "cda-server-4", "time_this_iter_s": 30.663206577301025, "episodes_total": 1464, "timestamp": 1756570507, "node_ip": "10.157.146.4", "done": false, "time_total_s": 7480.097305297852, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 245, "episode_reward_mean": -749.2496628421183, "training_iteration": 245, "timesteps_total": 294000, "policy_reward_mean": {}, "episode_reward_min": -867.4818464095868, "timesteps_since_restore": 294000, "num_metric_batches_dropped": 0, "time_since_restore": 7513.703853607178, "episode_reward_max": -662.7134727513279, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 294000, "default": {"kl": 0.012691243551671505, "policy_loss": -0.14539597928524017, "vf_loss": 400.6439514160156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9674990773200989, "entropy": 14.021228790283203, "cur_lr": 4.999999873689376e-05, "total_loss": 400.517822265625}, "load_time_ms": 0.654, "num_steps_sampled": 294000, "grad_time_ms": 689.162, "update_time_ms": 2.154, "sample_time_ms": 30456.307}, "date": "2025-08-30_18-15-41", "hostname": "cda-server-4", "time_this_iter_s": 33.60654830932617, "episodes_total": 1470, "timestamp": 1756570541, "node_ip": "10.157.146.4", "done": false, "time_total_s": 7513.703853607178, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 246, "episode_reward_mean": -750.2753231015698, "training_iteration": 246, "timesteps_total": 295200, "policy_reward_mean": {}, "episode_reward_min": -867.4818464095868, "timesteps_since_restore": 295200, "num_metric_batches_dropped": 0, "time_since_restore": 7544.376897573471, "episode_reward_max": -665.2973618519286, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 295200, "default": {"kl": 0.014177094213664532, "policy_loss": -0.1445581167936325, "vf_loss": 264.7836608886719, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9764794111251831, "entropy": 13.8848295211792, "cur_lr": 4.999999873689376e-05, "total_loss": 264.6606750488281}, "load_time_ms": 0.648, "num_steps_sampled": 295200, "grad_time_ms": 674.391, "update_time_ms": 2.186, "sample_time_ms": 30246.719}, "date": "2025-08-30_18-16-11", "hostname": "cda-server-4", "time_this_iter_s": 30.673043966293335, "episodes_total": 1476, "timestamp": 1756570571, "node_ip": "10.157.146.4", "done": false, "time_total_s": 7544.376897573471, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 247, "episode_reward_mean": -747.649780390343, "training_iteration": 247, "timesteps_total": 296400, "policy_reward_mean": {}, "episode_reward_min": -867.4818464095868, "timesteps_since_restore": 296400, "num_metric_batches_dropped": 0, "time_since_restore": 7571.358117103577, "episode_reward_max": -642.623303710175, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 296400, "default": {"kl": 0.012382343411445618, "policy_loss": -0.13706199824810028, "vf_loss": 1261.23681640625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8935385942459106, "entropy": 13.705828666687012, "cur_lr": 4.999999873689376e-05, "total_loss": 1261.118408203125}, "load_time_ms": 0.649, "num_steps_sampled": 296400, "grad_time_ms": 660.604, "update_time_ms": 2.227, "sample_time_ms": 29878.441}, "date": "2025-08-30_18-16-38", "hostname": "cda-server-4", "time_this_iter_s": 26.98121953010559, "episodes_total": 1482, "timestamp": 1756570598, "node_ip": "10.157.146.4", "done": false, "time_total_s": 7571.358117103577, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 248, "episode_reward_mean": -749.0185698702034, "training_iteration": 248, "timesteps_total": 297600, "policy_reward_mean": {}, "episode_reward_min": -867.4818464095868, "timesteps_since_restore": 297600, "num_metric_batches_dropped": 0, "time_since_restore": 7602.34827041626, "episode_reward_max": -642.623303710175, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 297600, "default": {"kl": 0.01149357482790947, "policy_loss": -0.13426347076892853, "vf_loss": 1059.78173828125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9045997262001038, "entropy": 14.099593162536621, "cur_lr": 4.999999873689376e-05, "total_loss": 1059.6649169921875}, "load_time_ms": 0.648, "num_steps_sampled": 297600, "grad_time_ms": 645.398, "update_time_ms": 2.172, "sample_time_ms": 29753.199}, "date": "2025-08-30_18-17-09", "hostname": "cda-server-4", "time_this_iter_s": 30.990153312683105, "episodes_total": 1488, "timestamp": 1756570629, "node_ip": "10.157.146.4", "done": false, "time_total_s": 7602.34827041626, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 249, "episode_reward_mean": -748.4992327385019, "training_iteration": 249, "timesteps_total": 298800, "policy_reward_mean": {}, "episode_reward_min": -867.4818464095868, "timesteps_since_restore": 298800, "num_metric_batches_dropped": 0, "time_since_restore": 7634.263424873352, "episode_reward_max": -642.623303710175, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 298800, "default": {"kl": 0.01379440724849701, "policy_loss": -0.15837980806827545, "vf_loss": 1395.765869140625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9479135870933533, "entropy": 13.80025863647461, "cur_lr": 4.999999873689376e-05, "total_loss": 1395.62841796875}, "load_time_ms": 0.613, "num_steps_sampled": 298800, "grad_time_ms": 651.158, "update_time_ms": 2.144, "sample_time_ms": 29781.609}, "date": "2025-08-30_18-17-41", "hostname": "cda-server-4", "time_this_iter_s": 31.915154457092285, "episodes_total": 1494, "timestamp": 1756570661, "node_ip": "10.157.146.4", "done": false, "time_total_s": 7634.263424873352, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 250, "episode_reward_mean": -746.6872673126092, "training_iteration": 250, "timesteps_total": 300000, "policy_reward_mean": {}, "episode_reward_min": -867.4818464095868, "timesteps_since_restore": 300000, "num_metric_batches_dropped": 0, "time_since_restore": 7664.198764801025, "episode_reward_max": -642.623303710175, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 300000, "default": {"kl": 0.01231742836534977, "policy_loss": -0.12388438731431961, "vf_loss": 496.7072448730469, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9526269435882568, "entropy": 13.661115646362305, "cur_lr": 4.999999873689376e-05, "total_loss": 496.60211181640625}, "load_time_ms": 0.644, "num_steps_sampled": 300000, "grad_time_ms": 659.634, "update_time_ms": 2.187, "sample_time_ms": 29608.698}, "date": "2025-08-30_18-18-11", "hostname": "cda-server-4", "time_this_iter_s": 29.93533992767334, "episodes_total": 1500, "timestamp": 1756570691, "node_ip": "10.157.146.4", "done": false, "time_total_s": 7664.198764801025, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 251, "episode_reward_mean": -744.082576963131, "training_iteration": 251, "timesteps_total": 301200, "policy_reward_mean": {}, "episode_reward_min": -867.4818464095868, "timesteps_since_restore": 301200, "num_metric_batches_dropped": 0, "time_since_restore": 7696.428809404373, "episode_reward_max": -638.8648693308375, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 301200, "default": {"kl": 0.01123795285820961, "policy_loss": -0.12564389407634735, "vf_loss": 346.1900634765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9765503406524658, "entropy": 13.662581443786621, "cur_lr": 4.999999873689376e-05, "total_loss": 346.08148193359375}, "load_time_ms": 0.644, "num_steps_sampled": 301200, "grad_time_ms": 662.897, "update_time_ms": 2.221, "sample_time_ms": 29772.002}, "date": "2025-08-30_18-18-44", "hostname": "cda-server-4", "time_this_iter_s": 32.23004460334778, "episodes_total": 1506, "timestamp": 1756570724, "node_ip": "10.157.146.4", "done": false, "time_total_s": 7696.428809404373, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 252, "episode_reward_mean": -743.9088159227161, "training_iteration": 252, "timesteps_total": 302400, "policy_reward_mean": {}, "episode_reward_min": -867.4818464095868, "timesteps_since_restore": 302400, "num_metric_batches_dropped": 0, "time_since_restore": 7727.280985593796, "episode_reward_max": -638.8648693308375, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 302400, "default": {"kl": 0.012442934326827526, "policy_loss": -0.1410875767469406, "vf_loss": 560.002197265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9562659859657288, "entropy": 13.865729331970215, "cur_lr": 4.999999873689376e-05, "total_loss": 559.8800048828125}, "load_time_ms": 0.66, "num_steps_sampled": 302400, "grad_time_ms": 651.001, "update_time_ms": 2.245, "sample_time_ms": 30085.781}, "date": "2025-08-30_18-19-14", "hostname": "cda-server-4", "time_this_iter_s": 30.852176189422607, "episodes_total": 1512, "timestamp": 1756570754, "node_ip": "10.157.146.4", "done": false, "time_total_s": 7727.280985593796, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 253, "episode_reward_mean": -742.9215411044003, "training_iteration": 253, "timesteps_total": 303600, "policy_reward_mean": {}, "episode_reward_min": -867.4818464095868, "timesteps_since_restore": 303600, "num_metric_batches_dropped": 0, "time_since_restore": 7759.765821933746, "episode_reward_max": -638.8648693308375, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 303600, "default": {"kl": 0.012719275429844856, "policy_loss": -0.14113980531692505, "vf_loss": 1822.828125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8669880032539368, "entropy": 13.400684356689453, "cur_lr": 4.999999873689376e-05, "total_loss": 1822.7064208984375}, "load_time_ms": 0.638, "num_steps_sampled": 303600, "grad_time_ms": 633.028, "update_time_ms": 2.223, "sample_time_ms": 30392.951}, "date": "2025-08-30_18-19-47", "hostname": "cda-server-4", "time_this_iter_s": 32.48483633995056, "episodes_total": 1518, "timestamp": 1756570787, "node_ip": "10.157.146.4", "done": false, "time_total_s": 7759.765821933746, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 254, "episode_reward_mean": -741.1048096981062, "training_iteration": 254, "timesteps_total": 304800, "policy_reward_mean": {}, "episode_reward_min": -867.4818464095868, "timesteps_since_restore": 304800, "num_metric_batches_dropped": 0, "time_since_restore": 7790.9313197135925, "episode_reward_max": -633.222412332292, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 304800, "default": {"kl": 0.013417642563581467, "policy_loss": -0.15002931654453278, "vf_loss": 880.028564453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9343044757843018, "entropy": 13.8759183883667, "cur_lr": 4.999999873689376e-05, "total_loss": 879.8989868164062}, "load_time_ms": 0.642, "num_steps_sampled": 304800, "grad_time_ms": 622.781, "update_time_ms": 2.298, "sample_time_ms": 30453.365}, "date": "2025-08-30_18-20-18", "hostname": "cda-server-4", "time_this_iter_s": 31.16549777984619, "episodes_total": 1524, "timestamp": 1756570818, "node_ip": "10.157.146.4", "done": false, "time_total_s": 7790.9313197135925, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 255, "episode_reward_mean": -736.1737130927695, "training_iteration": 255, "timesteps_total": 306000, "policy_reward_mean": {}, "episode_reward_min": -867.4818464095868, "timesteps_since_restore": 306000, "num_metric_batches_dropped": 0, "time_since_restore": 7822.6555943489075, "episode_reward_max": -633.222412332292, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 306000, "default": {"kl": 0.011968320235610008, "policy_loss": -0.11574946343898773, "vf_loss": 500.4434814453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9412376880645752, "entropy": 13.337209701538086, "cur_lr": 4.999999873689376e-05, "total_loss": 500.3459167480469}, "load_time_ms": 0.645, "num_steps_sampled": 306000, "grad_time_ms": 629.468, "update_time_ms": 2.343, "sample_time_ms": 30258.472}, "date": "2025-08-30_18-20-50", "hostname": "cda-server-4", "time_this_iter_s": 31.72427463531494, "episodes_total": 1530, "timestamp": 1756570850, "node_ip": "10.157.146.4", "done": false, "time_total_s": 7822.6555943489075, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 256, "episode_reward_mean": -734.1377852137375, "training_iteration": 256, "timesteps_total": 307200, "policy_reward_mean": {}, "episode_reward_min": -867.4818464095868, "timesteps_since_restore": 307200, "num_metric_batches_dropped": 0, "time_since_restore": 7853.398483037949, "episode_reward_max": -633.222412332292, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 307200, "default": {"kl": 0.01191532053053379, "policy_loss": -0.12996000051498413, "vf_loss": 758.6951293945312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9495684504508972, "entropy": 13.753128051757812, "cur_lr": 4.999999873689376e-05, "total_loss": 758.583251953125}, "load_time_ms": 0.649, "num_steps_sampled": 307200, "grad_time_ms": 640.073, "update_time_ms": 2.302, "sample_time_ms": 30254.975}, "date": "2025-08-30_18-21-21", "hostname": "cda-server-4", "time_this_iter_s": 30.742888689041138, "episodes_total": 1536, "timestamp": 1756570881, "node_ip": "10.157.146.4", "done": false, "time_total_s": 7853.398483037949, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 257, "episode_reward_mean": -734.8190060069924, "training_iteration": 257, "timesteps_total": 308400, "policy_reward_mean": {}, "episode_reward_min": -867.4818464095868, "timesteps_since_restore": 308400, "num_metric_batches_dropped": 0, "time_since_restore": 7885.254684686661, "episode_reward_max": -633.222412332292, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 308400, "default": {"kl": 0.013633140362799168, "policy_loss": -0.1557554006576538, "vf_loss": 575.2354736328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.961979866027832, "entropy": 13.901071548461914, "cur_lr": 4.999999873689376e-05, "total_loss": 575.1004028320312}, "load_time_ms": 0.674, "num_steps_sampled": 308400, "grad_time_ms": 647.601, "update_time_ms": 2.255, "sample_time_ms": 30735.059}, "date": "2025-08-30_18-21-52", "hostname": "cda-server-4", "time_this_iter_s": 31.856201648712158, "episodes_total": 1542, "timestamp": 1756570912, "node_ip": "10.157.146.4", "done": false, "time_total_s": 7885.254684686661, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 258, "episode_reward_mean": -734.6438870297699, "training_iteration": 258, "timesteps_total": 309600, "policy_reward_mean": {}, "episode_reward_min": -867.4818464095868, "timesteps_since_restore": 309600, "num_metric_batches_dropped": 0, "time_since_restore": 7916.198476791382, "episode_reward_max": -633.222412332292, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 309600, "default": {"kl": 0.011284446343779564, "policy_loss": -0.12239982187747955, "vf_loss": 556.432861328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9481278657913208, "entropy": 13.349513053894043, "cur_lr": 4.999999873689376e-05, "total_loss": 556.32763671875}, "load_time_ms": 0.677, "num_steps_sampled": 309600, "grad_time_ms": 666.777, "update_time_ms": 2.287, "sample_time_ms": 30711.131}, "date": "2025-08-30_18-22-23", "hostname": "cda-server-4", "time_this_iter_s": 30.94379210472107, "episodes_total": 1548, "timestamp": 1756570943, "node_ip": "10.157.146.4", "done": false, "time_total_s": 7916.198476791382, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 259, "episode_reward_mean": -733.8111160087309, "training_iteration": 259, "timesteps_total": 310800, "policy_reward_mean": {}, "episode_reward_min": -867.4818464095868, "timesteps_since_restore": 310800, "num_metric_batches_dropped": 0, "time_since_restore": 7948.46201133728, "episode_reward_max": -633.222412332292, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 310800, "default": {"kl": 0.012652803212404251, "policy_loss": -0.1483040452003479, "vf_loss": 677.464599609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9597554802894592, "entropy": 13.887555122375488, "cur_lr": 4.999999873689376e-05, "total_loss": 677.3353881835938}, "load_time_ms": 0.689, "num_steps_sampled": 310800, "grad_time_ms": 667.841, "update_time_ms": 2.391, "sample_time_ms": 30744.882}, "date": "2025-08-30_18-22-56", "hostname": "cda-server-4", "time_this_iter_s": 32.26353454589844, "episodes_total": 1554, "timestamp": 1756570976, "node_ip": "10.157.146.4", "done": false, "time_total_s": 7948.46201133728, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 260, "episode_reward_mean": -732.2527477277406, "training_iteration": 260, "timesteps_total": 312000, "policy_reward_mean": {}, "episode_reward_min": -842.3341915804651, "timesteps_since_restore": 312000, "num_metric_batches_dropped": 0, "time_since_restore": 7978.749780654907, "episode_reward_max": -633.222412332292, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 312000, "default": {"kl": 0.013079357333481312, "policy_loss": -0.13989077508449554, "vf_loss": 322.63970947265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.975938081741333, "entropy": 13.700403213500977, "cur_lr": 4.999999873689376e-05, "total_loss": 322.5196533203125}, "load_time_ms": 0.652, "num_steps_sampled": 312000, "grad_time_ms": 668.071, "update_time_ms": 2.366, "sample_time_ms": 30779.96}, "date": "2025-08-30_18-23-26", "hostname": "cda-server-4", "time_this_iter_s": 30.287769317626953, "episodes_total": 1560, "timestamp": 1756571006, "node_ip": "10.157.146.4", "done": false, "time_total_s": 7978.749780654907, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 261, "episode_reward_mean": -730.3590083483303, "training_iteration": 261, "timesteps_total": 313200, "policy_reward_mean": {}, "episode_reward_min": -802.4535288320104, "timesteps_since_restore": 313200, "num_metric_batches_dropped": 0, "time_since_restore": 8011.6668791770935, "episode_reward_max": -633.222412332292, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 313200, "default": {"kl": 0.012895317748188972, "policy_loss": -0.12566232681274414, "vf_loss": 563.1509399414062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9701309204101562, "entropy": 13.442577362060547, "cur_lr": 4.999999873689376e-05, "total_loss": 563.0448608398438}, "load_time_ms": 0.646, "num_steps_sampled": 313200, "grad_time_ms": 669.691, "update_time_ms": 2.41, "sample_time_ms": 30847.095}, "date": "2025-08-30_18-23-59", "hostname": "cda-server-4", "time_this_iter_s": 32.91709852218628, "episodes_total": 1566, "timestamp": 1756571039, "node_ip": "10.157.146.4", "done": false, "time_total_s": 8011.6668791770935, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 262, "episode_reward_mean": -729.9809301373448, "training_iteration": 262, "timesteps_total": 314400, "policy_reward_mean": {}, "episode_reward_min": -802.4535288320104, "timesteps_since_restore": 314400, "num_metric_batches_dropped": 0, "time_since_restore": 8039.578441858292, "episode_reward_max": -633.222412332292, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 314400, "default": {"kl": 0.010768848471343517, "policy_loss": -0.14207832515239716, "vf_loss": 783.727783203125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9343903660774231, "entropy": 13.512801170349121, "cur_lr": 4.999999873689376e-05, "total_loss": 783.6019287109375}, "load_time_ms": 0.632, "num_steps_sampled": 314400, "grad_time_ms": 684.74, "update_time_ms": 2.39, "sample_time_ms": 30538.104}, "date": "2025-08-30_18-24-27", "hostname": "cda-server-4", "time_this_iter_s": 27.91156268119812, "episodes_total": 1572, "timestamp": 1756571067, "node_ip": "10.157.146.4", "done": false, "time_total_s": 8039.578441858292, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 263, "episode_reward_mean": -733.158371885028, "training_iteration": 263, "timesteps_total": 315600, "policy_reward_mean": {}, "episode_reward_min": -828.7038018613944, "timesteps_since_restore": 315600, "num_metric_batches_dropped": 0, "time_since_restore": 8066.548141002655, "episode_reward_max": -633.222412332292, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 315600, "default": {"kl": 0.013733652420341969, "policy_loss": -0.14469200372695923, "vf_loss": 1140.31298828125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9409355521202087, "entropy": 13.94416618347168, "cur_lr": 4.999999873689376e-05, "total_loss": 1140.189208984375}, "load_time_ms": 0.624, "num_steps_sampled": 315600, "grad_time_ms": 705.518, "update_time_ms": 2.4, "sample_time_ms": 29965.786}, "date": "2025-08-30_18-24-54", "hostname": "cda-server-4", "time_this_iter_s": 26.969699144363403, "episodes_total": 1578, "timestamp": 1756571094, "node_ip": "10.157.146.4", "done": false, "time_total_s": 8066.548141002655, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 264, "episode_reward_mean": -733.6101463315556, "training_iteration": 264, "timesteps_total": 316800, "policy_reward_mean": {}, "episode_reward_min": -828.7038018613944, "timesteps_since_restore": 316800, "num_metric_batches_dropped": 0, "time_since_restore": 8094.67693901062, "episode_reward_max": -633.222412332292, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 316800, "default": {"kl": 0.01286102645099163, "policy_loss": -0.14570914208889008, "vf_loss": 587.285400390625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9702636003494263, "entropy": 13.649741172790527, "cur_lr": 4.999999873689376e-05, "total_loss": 587.1592407226562}, "load_time_ms": 0.624, "num_steps_sampled": 316800, "grad_time_ms": 716.014, "update_time_ms": 2.368, "sample_time_ms": 29651.62}, "date": "2025-08-30_18-25-22", "hostname": "cda-server-4", "time_this_iter_s": 28.128798007965088, "episodes_total": 1584, "timestamp": 1756571122, "node_ip": "10.157.146.4", "done": false, "time_total_s": 8094.67693901062, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 265, "episode_reward_mean": -732.1567270184236, "training_iteration": 265, "timesteps_total": 318000, "policy_reward_mean": {}, "episode_reward_min": -828.7038018613944, "timesteps_since_restore": 318000, "num_metric_batches_dropped": 0, "time_since_restore": 8124.96907377243, "episode_reward_max": -633.222412332292, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 318000, "default": {"kl": 0.011723197996616364, "policy_loss": -0.13152119517326355, "vf_loss": 328.3791198730469, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9745995998382568, "entropy": 13.135442733764648, "cur_lr": 4.999999873689376e-05, "total_loss": 328.2654113769531}, "load_time_ms": 0.62, "num_steps_sampled": 318000, "grad_time_ms": 733.088, "update_time_ms": 2.353, "sample_time_ms": 29491.383}, "date": "2025-08-30_18-25-52", "hostname": "cda-server-4", "time_this_iter_s": 30.292134761810303, "episodes_total": 1590, "timestamp": 1756571152, "node_ip": "10.157.146.4", "done": false, "time_total_s": 8124.96907377243, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 266, "episode_reward_mean": -733.6980430851439, "training_iteration": 266, "timesteps_total": 319200, "policy_reward_mean": {}, "episode_reward_min": -828.7038018613944, "timesteps_since_restore": 319200, "num_metric_batches_dropped": 0, "time_since_restore": 8156.492572069168, "episode_reward_max": -633.222412332292, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 319200, "default": {"kl": 0.011162208393216133, "policy_loss": -0.11675238609313965, "vf_loss": 1251.142333984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9274418950080872, "entropy": 13.37326717376709, "cur_lr": 4.999999873689376e-05, "total_loss": 1251.0426025390625}, "load_time_ms": 0.626, "num_steps_sampled": 319200, "grad_time_ms": 733.213, "update_time_ms": 2.322, "sample_time_ms": 29569.312}, "date": "2025-08-30_18-26-24", "hostname": "cda-server-4", "time_this_iter_s": 31.52349829673767, "episodes_total": 1596, "timestamp": 1756571184, "node_ip": "10.157.146.4", "done": false, "time_total_s": 8156.492572069168, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 267, "episode_reward_mean": -732.2196478353928, "training_iteration": 267, "timesteps_total": 320400, "policy_reward_mean": {}, "episode_reward_min": -828.7038018613944, "timesteps_since_restore": 320400, "num_metric_batches_dropped": 0, "time_since_restore": 8188.726788759232, "episode_reward_max": -633.222412332292, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 320400, "default": {"kl": 0.010234184563159943, "policy_loss": -0.11920963227748871, "vf_loss": 831.7177124023438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9069499969482422, "entropy": 13.102458000183105, "cur_lr": 4.999999873689376e-05, "total_loss": 831.6140747070312}, "load_time_ms": 0.635, "num_steps_sampled": 320400, "grad_time_ms": 740.218, "update_time_ms": 2.341, "sample_time_ms": 29600.049}, "date": "2025-08-30_18-26-56", "hostname": "cda-server-4", "time_this_iter_s": 32.23421669006348, "episodes_total": 1602, "timestamp": 1756571216, "node_ip": "10.157.146.4", "done": false, "time_total_s": 8188.726788759232, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 268, "episode_reward_mean": -733.0271438484848, "training_iteration": 268, "timesteps_total": 321600, "policy_reward_mean": {}, "episode_reward_min": -828.7038018613944, "timesteps_since_restore": 321600, "num_metric_batches_dropped": 0, "time_since_restore": 8219.213377475739, "episode_reward_max": -633.222412332292, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 321600, "default": {"kl": 0.013153361156582832, "policy_loss": -0.14168968796730042, "vf_loss": 351.1569519042969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9717053174972534, "entropy": 13.600113868713379, "cur_lr": 4.999999873689376e-05, "total_loss": 351.0352478027344}, "load_time_ms": 0.63, "num_steps_sampled": 321600, "grad_time_ms": 732.064, "update_time_ms": 2.295, "sample_time_ms": 29562.567}, "date": "2025-08-30_18-27-27", "hostname": "cda-server-4", "time_this_iter_s": 30.486588716506958, "episodes_total": 1608, "timestamp": 1756571247, "node_ip": "10.157.146.4", "done": false, "time_total_s": 8219.213377475739, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 269, "episode_reward_mean": -733.1431442837128, "training_iteration": 269, "timesteps_total": 322800, "policy_reward_mean": {}, "episode_reward_min": -828.7038018613944, "timesteps_since_restore": 322800, "num_metric_batches_dropped": 0, "time_since_restore": 8246.330621957779, "episode_reward_max": -633.222412332292, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 322800, "default": {"kl": 0.009208186529576778, "policy_loss": -0.10352053493261337, "vf_loss": 920.0862426757812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9137091040611267, "entropy": 13.36030387878418, "cur_lr": 4.999999873689376e-05, "total_loss": 919.996826171875}, "load_time_ms": 0.618, "num_steps_sampled": 322800, "grad_time_ms": 704.014, "update_time_ms": 2.187, "sample_time_ms": 29076.099}, "date": "2025-08-30_18-27-54", "hostname": "cda-server-4", "time_this_iter_s": 27.117244482040405, "episodes_total": 1614, "timestamp": 1756571274, "node_ip": "10.157.146.4", "done": false, "time_total_s": 8246.330621957779, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 270, "episode_reward_mean": -729.6064572470059, "training_iteration": 270, "timesteps_total": 324000, "policy_reward_mean": {}, "episode_reward_min": -828.7038018613944, "timesteps_since_restore": 324000, "num_metric_batches_dropped": 0, "time_since_restore": 8277.990301132202, "episode_reward_max": -620.5057089141492, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 324000, "default": {"kl": 0.009876000694930553, "policy_loss": -0.12725968658924103, "vf_loss": 603.72509765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.939768373966217, "entropy": 13.172237396240234, "cur_lr": 4.999999873689376e-05, "total_loss": 603.6128540039062}, "load_time_ms": 0.626, "num_steps_sampled": 324000, "grad_time_ms": 692.286, "update_time_ms": 2.17, "sample_time_ms": 29225.066}, "date": "2025-08-30_18-28-25", "hostname": "cda-server-4", "time_this_iter_s": 31.659679174423218, "episodes_total": 1620, "timestamp": 1756571305, "node_ip": "10.157.146.4", "done": false, "time_total_s": 8277.990301132202, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 271, "episode_reward_mean": -731.555755989802, "training_iteration": 271, "timesteps_total": 325200, "policy_reward_mean": {}, "episode_reward_min": -828.7038018613944, "timesteps_since_restore": 325200, "num_metric_batches_dropped": 0, "time_since_restore": 8309.562978982925, "episode_reward_max": -620.5057089141492, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 325200, "default": {"kl": 0.011392155662178993, "policy_loss": -0.1328662931919098, "vf_loss": 646.059814453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9516627788543701, "entropy": 13.4348783493042, "cur_lr": 4.999999873689376e-05, "total_loss": 645.9442138671875}, "load_time_ms": 0.662, "num_steps_sampled": 325200, "grad_time_ms": 688.999, "update_time_ms": 2.102, "sample_time_ms": 29093.832}, "date": "2025-08-30_18-28-57", "hostname": "cda-server-4", "time_this_iter_s": 31.572677850723267, "episodes_total": 1626, "timestamp": 1756571337, "node_ip": "10.157.146.4", "done": false, "time_total_s": 8309.562978982925, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 272, "episode_reward_mean": -731.9806520060575, "training_iteration": 272, "timesteps_total": 326400, "policy_reward_mean": {}, "episode_reward_min": -828.7038018613944, "timesteps_since_restore": 326400, "num_metric_batches_dropped": 0, "time_since_restore": 8338.774850606918, "episode_reward_max": -620.5057089141492, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 326400, "default": {"kl": 0.011772241443395615, "policy_loss": -0.13685926795005798, "vf_loss": 731.3402709960938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9496092200279236, "entropy": 13.311923027038574, "cur_lr": 4.999999873689376e-05, "total_loss": 731.2212524414062}, "load_time_ms": 0.689, "num_steps_sampled": 326400, "grad_time_ms": 687.777, "update_time_ms": 2.158, "sample_time_ms": 29224.926}, "date": "2025-08-30_18-29-26", "hostname": "cda-server-4", "time_this_iter_s": 29.21187162399292, "episodes_total": 1632, "timestamp": 1756571366, "node_ip": "10.157.146.4", "done": false, "time_total_s": 8338.774850606918, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 273, "episode_reward_mean": -731.4387721218071, "training_iteration": 273, "timesteps_total": 327600, "policy_reward_mean": {}, "episode_reward_min": -828.7038018613944, "timesteps_since_restore": 327600, "num_metric_batches_dropped": 0, "time_since_restore": 8369.35188961029, "episode_reward_max": -620.5057089141492, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 327600, "default": {"kl": 0.010600791312754154, "policy_loss": -0.13423830270767212, "vf_loss": 1027.9703369140625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9230104088783264, "entropy": 13.215490341186523, "cur_lr": 4.999999873689376e-05, "total_loss": 1027.8521728515625}, "load_time_ms": 0.688, "num_steps_sampled": 327600, "grad_time_ms": 686.996, "update_time_ms": 2.169, "sample_time_ms": 29586.446}, "date": "2025-08-30_18-29-57", "hostname": "cda-server-4", "time_this_iter_s": 30.577039003372192, "episodes_total": 1638, "timestamp": 1756571397, "node_ip": "10.157.146.4", "done": false, "time_total_s": 8369.35188961029, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 274, "episode_reward_mean": -731.7024277698174, "training_iteration": 274, "timesteps_total": 328800, "policy_reward_mean": {}, "episode_reward_min": -828.7038018613944, "timesteps_since_restore": 328800, "num_metric_batches_dropped": 0, "time_since_restore": 8399.269432544708, "episode_reward_max": -620.5057089141492, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 328800, "default": {"kl": 0.012904728762805462, "policy_loss": -0.15788012742996216, "vf_loss": 491.19488525390625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9621821641921997, "entropy": 13.558588027954102, "cur_lr": 4.999999873689376e-05, "total_loss": 491.056640625}, "load_time_ms": 0.688, "num_steps_sampled": 328800, "grad_time_ms": 688.099, "update_time_ms": 2.173, "sample_time_ms": 29764.247}, "date": "2025-08-30_18-30-27", "hostname": "cda-server-4", "time_this_iter_s": 29.917542934417725, "episodes_total": 1644, "timestamp": 1756571427, "node_ip": "10.157.146.4", "done": false, "time_total_s": 8399.269432544708, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 275, "episode_reward_mean": -731.8115751531536, "training_iteration": 275, "timesteps_total": 330000, "policy_reward_mean": {}, "episode_reward_min": -831.7603259305037, "timesteps_since_restore": 330000, "num_metric_batches_dropped": 0, "time_since_restore": 8429.878422260284, "episode_reward_max": -620.5057089141492, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 330000, "default": {"kl": 0.01099952682852745, "policy_loss": -0.11802412569522858, "vf_loss": 528.689208984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9595413208007812, "entropy": 13.076717376708984, "cur_lr": 4.999999873689376e-05, "total_loss": 528.587890625}, "load_time_ms": 0.706, "num_steps_sampled": 330000, "grad_time_ms": 687.039, "update_time_ms": 2.134, "sample_time_ms": 29796.936}, "date": "2025-08-30_18-30-57", "hostname": "cda-server-4", "time_this_iter_s": 30.608989715576172, "episodes_total": 1650, "timestamp": 1756571457, "node_ip": "10.157.146.4", "done": false, "time_total_s": 8429.878422260284, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 276, "episode_reward_mean": -729.1084711446508, "training_iteration": 276, "timesteps_total": 331200, "policy_reward_mean": {}, "episode_reward_min": -831.7603259305037, "timesteps_since_restore": 331200, "num_metric_batches_dropped": 0, "time_since_restore": 8459.313580513, "episode_reward_max": -620.5057089141492, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 331200, "default": {"kl": 0.01110704243183136, "policy_loss": -0.14281511306762695, "vf_loss": 994.2623901367188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8903858661651611, "entropy": 13.221559524536133, "cur_lr": 4.999999873689376e-05, "total_loss": 994.136474609375}, "load_time_ms": 0.694, "num_steps_sampled": 331200, "grad_time_ms": 675.552, "update_time_ms": 2.233, "sample_time_ms": 29599.525}, "date": "2025-08-30_18-31-27", "hostname": "cda-server-4", "time_this_iter_s": 29.435158252716064, "episodes_total": 1656, "timestamp": 1756571487, "node_ip": "10.157.146.4", "done": false, "time_total_s": 8459.313580513, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 277, "episode_reward_mean": -728.0338045387751, "training_iteration": 277, "timesteps_total": 332400, "policy_reward_mean": {}, "episode_reward_min": -831.7603259305037, "timesteps_since_restore": 332400, "num_metric_batches_dropped": 0, "time_since_restore": 8491.440937757492, "episode_reward_max": -620.5057089141492, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 332400, "default": {"kl": 0.012792712077498436, "policy_loss": -0.15850712358951569, "vf_loss": 935.1987915039062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9293324947357178, "entropy": 13.225822448730469, "cur_lr": 4.999999873689376e-05, "total_loss": 935.0596923828125}, "load_time_ms": 0.693, "num_steps_sampled": 332400, "grad_time_ms": 676.479, "update_time_ms": 2.239, "sample_time_ms": 29587.9}, "date": "2025-08-30_18-31-59", "hostname": "cda-server-4", "time_this_iter_s": 32.12735724449158, "episodes_total": 1662, "timestamp": 1756571519, "node_ip": "10.157.146.4", "done": false, "time_total_s": 8491.440937757492, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 278, "episode_reward_mean": -726.4827580366001, "training_iteration": 278, "timesteps_total": 333600, "policy_reward_mean": {}, "episode_reward_min": -831.7603259305037, "timesteps_since_restore": 333600, "num_metric_batches_dropped": 0, "time_since_restore": 8523.02310204506, "episode_reward_max": -620.5057089141492, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 333600, "default": {"kl": 0.012480903416872025, "policy_loss": -0.14398102462291718, "vf_loss": 254.112060546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9753735661506653, "entropy": 13.351693153381348, "cur_lr": 4.999999873689376e-05, "total_loss": 253.98703002929688}, "load_time_ms": 0.7, "num_steps_sampled": 333600, "grad_time_ms": 687.465, "update_time_ms": 2.305, "sample_time_ms": 29686.336}, "date": "2025-08-30_18-32-31", "hostname": "cda-server-4", "time_this_iter_s": 31.58216428756714, "episodes_total": 1668, "timestamp": 1756571551, "node_ip": "10.157.146.4", "done": false, "time_total_s": 8523.02310204506, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 279, "episode_reward_mean": -724.8843160536148, "training_iteration": 279, "timesteps_total": 334800, "policy_reward_mean": {}, "episode_reward_min": -831.7603259305037, "timesteps_since_restore": 334800, "num_metric_batches_dropped": 0, "time_since_restore": 8556.136403083801, "episode_reward_max": -620.5057089141492, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 334800, "default": {"kl": 0.013101722113788128, "policy_loss": -0.13275843858718872, "vf_loss": 367.4743957519531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9666612148284912, "entropy": 13.333313941955566, "cur_lr": 4.999999873689376e-05, "total_loss": 367.36151123046875}, "load_time_ms": 0.721, "num_steps_sampled": 334800, "grad_time_ms": 713.937, "update_time_ms": 2.352, "sample_time_ms": 30259.347}, "date": "2025-08-30_18-33-04", "hostname": "cda-server-4", "time_this_iter_s": 33.113301038742065, "episodes_total": 1674, "timestamp": 1756571584, "node_ip": "10.157.146.4", "done": false, "time_total_s": 8556.136403083801, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 280, "episode_reward_mean": -720.8243589209408, "training_iteration": 280, "timesteps_total": 336000, "policy_reward_mean": {}, "episode_reward_min": -831.7603259305037, "timesteps_since_restore": 336000, "num_metric_batches_dropped": 0, "time_since_restore": 8585.33066534996, "episode_reward_max": -620.5057089141492, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 336000, "default": {"kl": 0.013017650693655014, "policy_loss": -0.15068604052066803, "vf_loss": 202.12924194335938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9823534488677979, "entropy": 13.202985763549805, "cur_lr": 4.999999873689376e-05, "total_loss": 201.9983367919922}, "load_time_ms": 0.725, "num_steps_sampled": 336000, "grad_time_ms": 724.782, "update_time_ms": 2.332, "sample_time_ms": 30001.94}, "date": "2025-08-30_18-33-33", "hostname": "cda-server-4", "time_this_iter_s": 29.194262266159058, "episodes_total": 1680, "timestamp": 1756571613, "node_ip": "10.157.146.4", "done": false, "time_total_s": 8585.33066534996, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 281, "episode_reward_mean": -721.5207742255155, "training_iteration": 281, "timesteps_total": 337200, "policy_reward_mean": {}, "episode_reward_min": -831.7603259305037, "timesteps_since_restore": 337200, "num_metric_batches_dropped": 0, "time_since_restore": 8614.886694669724, "episode_reward_max": -620.5057089141492, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 337200, "default": {"kl": 0.01225439365953207, "policy_loss": -0.14708498120307922, "vf_loss": 444.6356201171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9645121097564697, "entropy": 13.402144432067871, "cur_lr": 4.999999873689376e-05, "total_loss": 444.50714111328125}, "load_time_ms": 0.699, "num_steps_sampled": 337200, "grad_time_ms": 718.634, "update_time_ms": 2.352, "sample_time_ms": 29806.524}, "date": "2025-08-30_18-34-03", "hostname": "cda-server-4", "time_this_iter_s": 29.556029319763184, "episodes_total": 1686, "timestamp": 1756571643, "node_ip": "10.157.146.4", "done": false, "time_total_s": 8614.886694669724, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 282, "episode_reward_mean": -720.5278969307764, "training_iteration": 282, "timesteps_total": 338400, "policy_reward_mean": {}, "episode_reward_min": -831.7603259305037, "timesteps_since_restore": 338400, "num_metric_batches_dropped": 0, "time_since_restore": 8644.875756978989, "episode_reward_max": -620.5057089141492, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 338400, "default": {"kl": 0.012577964924275875, "policy_loss": -0.1272546947002411, "vf_loss": 705.1400756835938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9474582672119141, "entropy": 12.896075248718262, "cur_lr": 4.999999873689376e-05, "total_loss": 705.031982421875}, "load_time_ms": 0.671, "num_steps_sampled": 338400, "grad_time_ms": 718.776, "update_time_ms": 2.373, "sample_time_ms": 29884.118}, "date": "2025-08-30_18-34-33", "hostname": "cda-server-4", "time_this_iter_s": 29.989062309265137, "episodes_total": 1692, "timestamp": 1756571673, "node_ip": "10.157.146.4", "done": false, "time_total_s": 8644.875756978989, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 283, "episode_reward_mean": -719.027168354637, "training_iteration": 283, "timesteps_total": 339600, "policy_reward_mean": {}, "episode_reward_min": -831.7603259305037, "timesteps_since_restore": 339600, "num_metric_batches_dropped": 0, "time_since_restore": 8676.975930929184, "episode_reward_max": -620.5057089141492, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 339600, "default": {"kl": 0.012477654963731766, "policy_loss": -0.13944584131240845, "vf_loss": 563.7444458007812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9519338607788086, "entropy": 13.338841438293457, "cur_lr": 4.999999873689376e-05, "total_loss": 563.6239624023438}, "load_time_ms": 0.676, "num_steps_sampled": 339600, "grad_time_ms": 716.783, "update_time_ms": 2.391, "sample_time_ms": 30038.491}, "date": "2025-08-30_18-35-05", "hostname": "cda-server-4", "time_this_iter_s": 32.10017395019531, "episodes_total": 1698, "timestamp": 1756571705, "node_ip": "10.157.146.4", "done": false, "time_total_s": 8676.975930929184, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 284, "episode_reward_mean": -718.5054324461248, "training_iteration": 284, "timesteps_total": 340800, "policy_reward_mean": {}, "episode_reward_min": -831.7603259305037, "timesteps_since_restore": 340800, "num_metric_batches_dropped": 0, "time_since_restore": 8709.591125488281, "episode_reward_max": -620.5057089141492, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 340800, "default": {"kl": 0.009752129204571247, "policy_loss": -0.11191526800394058, "vf_loss": 1293.7994384765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9174357652664185, "entropy": 13.319262504577637, "cur_lr": 4.999999873689376e-05, "total_loss": 1293.7022705078125}, "load_time_ms": 0.671, "num_steps_sampled": 340800, "grad_time_ms": 716.175, "update_time_ms": 2.366, "sample_time_ms": 30308.942}, "date": "2025-08-30_18-35-37", "hostname": "cda-server-4", "time_this_iter_s": 32.61519455909729, "episodes_total": 1704, "timestamp": 1756571737, "node_ip": "10.157.146.4", "done": false, "time_total_s": 8709.591125488281, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 285, "episode_reward_mean": -718.5511643526069, "training_iteration": 285, "timesteps_total": 342000, "policy_reward_mean": {}, "episode_reward_min": -831.7603259305037, "timesteps_since_restore": 342000, "num_metric_batches_dropped": 0, "time_since_restore": 8741.283398628235, "episode_reward_max": -620.5057089141492, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 342000, "default": {"kl": 0.011149706318974495, "policy_loss": -0.13290570676326752, "vf_loss": 820.0985107421875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9396412968635559, "entropy": 13.050820350646973, "cur_lr": 4.999999873689376e-05, "total_loss": 819.9825439453125}, "load_time_ms": 0.664, "num_steps_sampled": 342000, "grad_time_ms": 715.188, "update_time_ms": 2.407, "sample_time_ms": 30418.273}, "date": "2025-08-30_18-36-09", "hostname": "cda-server-4", "time_this_iter_s": 31.692273139953613, "episodes_total": 1710, "timestamp": 1756571769, "node_ip": "10.157.146.4", "done": false, "time_total_s": 8741.283398628235, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 286, "episode_reward_mean": -720.5528863200435, "training_iteration": 286, "timesteps_total": 343200, "policy_reward_mean": {}, "episode_reward_min": -831.7603259305037, "timesteps_since_restore": 343200, "num_metric_batches_dropped": 0, "time_since_restore": 8772.279833316803, "episode_reward_max": -626.2019993626095, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 343200, "default": {"kl": 0.009545559994876385, "policy_loss": -0.11171163618564606, "vf_loss": 671.4990234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9486469626426697, "entropy": 12.95020580291748, "cur_lr": 4.999999873689376e-05, "total_loss": 671.4017944335938}, "load_time_ms": 0.669, "num_steps_sampled": 343200, "grad_time_ms": 729.233, "update_time_ms": 2.309, "sample_time_ms": 30560.44}, "date": "2025-08-30_18-36-40", "hostname": "cda-server-4", "time_this_iter_s": 30.996434688568115, "episodes_total": 1716, "timestamp": 1756571800, "node_ip": "10.157.146.4", "done": false, "time_total_s": 8772.279833316803, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 287, "episode_reward_mean": -723.323149019454, "training_iteration": 287, "timesteps_total": 344400, "policy_reward_mean": {}, "episode_reward_min": -831.7603259305037, "timesteps_since_restore": 344400, "num_metric_batches_dropped": 0, "time_since_restore": 8805.599873304367, "episode_reward_max": -626.2019993626095, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 344400, "default": {"kl": 0.013106235302984715, "policy_loss": -0.12715043127536774, "vf_loss": 466.50048828125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9737069010734558, "entropy": 12.99968433380127, "cur_lr": 4.999999873689376e-05, "total_loss": 466.3932189941406}, "load_time_ms": 0.637, "num_steps_sampled": 344400, "grad_time_ms": 709.897, "update_time_ms": 2.289, "sample_time_ms": 30699.128}, "date": "2025-08-30_18-37-13", "hostname": "cda-server-4", "time_this_iter_s": 33.32003998756409, "episodes_total": 1722, "timestamp": 1756571833, "node_ip": "10.157.146.4", "done": false, "time_total_s": 8805.599873304367, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 288, "episode_reward_mean": -722.7625755181064, "training_iteration": 288, "timesteps_total": 345600, "policy_reward_mean": {}, "episode_reward_min": -831.7603259305037, "timesteps_since_restore": 345600, "num_metric_batches_dropped": 0, "time_since_restore": 8837.90132522583, "episode_reward_max": -626.2019993626095, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 345600, "default": {"kl": 0.01143964659422636, "policy_loss": -0.14128343760967255, "vf_loss": 600.720458984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9423995614051819, "entropy": 13.27757453918457, "cur_lr": 4.999999873689376e-05, "total_loss": 600.5965576171875}, "load_time_ms": 0.64, "num_steps_sampled": 345600, "grad_time_ms": 699.351, "update_time_ms": 2.246, "sample_time_ms": 30781.631}, "date": "2025-08-30_18-37-46", "hostname": "cda-server-4", "time_this_iter_s": 32.30145192146301, "episodes_total": 1728, "timestamp": 1756571866, "node_ip": "10.157.146.4", "done": false, "time_total_s": 8837.90132522583, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 289, "episode_reward_mean": -720.4567523169919, "training_iteration": 289, "timesteps_total": 346800, "policy_reward_mean": {}, "episode_reward_min": -831.7603259305037, "timesteps_since_restore": 346800, "num_metric_batches_dropped": 0, "time_since_restore": 8869.611619472504, "episode_reward_max": -626.2019993626095, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 346800, "default": {"kl": 0.011604719795286655, "policy_loss": -0.12145956605672836, "vf_loss": 216.0713653564453, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9777961373329163, "entropy": 12.781102180480957, "cur_lr": 4.999999873689376e-05, "total_loss": 215.967529296875}, "load_time_ms": 0.622, "num_steps_sampled": 346800, "grad_time_ms": 687.543, "update_time_ms": 2.187, "sample_time_ms": 30653.182}, "date": "2025-08-30_18-38-17", "hostname": "cda-server-4", "time_this_iter_s": 31.710294246673584, "episodes_total": 1734, "timestamp": 1756571897, "node_ip": "10.157.146.4", "done": false, "time_total_s": 8869.611619472504, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 290, "episode_reward_mean": -718.7967525756525, "training_iteration": 290, "timesteps_total": 348000, "policy_reward_mean": {}, "episode_reward_min": -831.7603259305037, "timesteps_since_restore": 348000, "num_metric_batches_dropped": 0, "time_since_restore": 8901.633833408356, "episode_reward_max": -625.8361226977133, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 348000, "default": {"kl": 0.013554967008531094, "policy_loss": -0.1546093225479126, "vf_loss": 483.4078369140625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9564158916473389, "entropy": 13.0939302444458, "cur_lr": 4.999999873689376e-05, "total_loss": 483.2738037109375}, "load_time_ms": 0.64, "num_steps_sampled": 348000, "grad_time_ms": 679.885, "update_time_ms": 2.217, "sample_time_ms": 30943.535}, "date": "2025-08-30_18-38-49", "hostname": "cda-server-4", "time_this_iter_s": 32.02221393585205, "episodes_total": 1740, "timestamp": 1756571929, "node_ip": "10.157.146.4", "done": false, "time_total_s": 8901.633833408356, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 291, "episode_reward_mean": -716.6269125956018, "training_iteration": 291, "timesteps_total": 349200, "policy_reward_mean": {}, "episode_reward_min": -831.7603259305037, "timesteps_since_restore": 349200, "num_metric_batches_dropped": 0, "time_since_restore": 8932.263687849045, "episode_reward_max": -595.044618742254, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 349200, "default": {"kl": 0.012182150036096573, "policy_loss": -0.12521988153457642, "vf_loss": 533.1240234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9573729038238525, "entropy": 12.984842300415039, "cur_lr": 4.999999873689376e-05, "total_loss": 533.017333984375}, "load_time_ms": 0.639, "num_steps_sampled": 349200, "grad_time_ms": 670.416, "update_time_ms": 2.217, "sample_time_ms": 31060.396}, "date": "2025-08-30_18-39-20", "hostname": "cda-server-4", "time_this_iter_s": 30.629854440689087, "episodes_total": 1746, "timestamp": 1756571960, "node_ip": "10.157.146.4", "done": false, "time_total_s": 8932.263687849045, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 292, "episode_reward_mean": -715.0090673829845, "training_iteration": 292, "timesteps_total": 350400, "policy_reward_mean": {}, "episode_reward_min": -805.009503009116, "timesteps_since_restore": 350400, "num_metric_batches_dropped": 0, "time_since_restore": 8965.152281284332, "episode_reward_max": -595.044618742254, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 350400, "default": {"kl": 0.013462428003549576, "policy_loss": -0.13993631303310394, "vf_loss": 354.5260009765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.967193603515625, "entropy": 13.066158294677734, "cur_lr": 4.999999873689376e-05, "total_loss": 354.4065246582031}, "load_time_ms": 0.645, "num_steps_sampled": 350400, "grad_time_ms": 657.856, "update_time_ms": 2.175, "sample_time_ms": 31363.024}, "date": "2025-08-30_18-39-53", "hostname": "cda-server-4", "time_this_iter_s": 32.888593435287476, "episodes_total": 1752, "timestamp": 1756571993, "node_ip": "10.157.146.4", "done": false, "time_total_s": 8965.152281284332, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 293, "episode_reward_mean": -713.860514460734, "training_iteration": 293, "timesteps_total": 351600, "policy_reward_mean": {}, "episode_reward_min": -805.009503009116, "timesteps_since_restore": 351600, "num_metric_batches_dropped": 0, "time_since_restore": 8994.76729297638, "episode_reward_max": -595.044618742254, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 351600, "default": {"kl": 0.011060558259487152, "policy_loss": -0.12386894226074219, "vf_loss": 1335.2471923828125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8552218675613403, "entropy": 13.100796699523926, "cur_lr": 4.999999873689376e-05, "total_loss": 1335.1400146484375}, "load_time_ms": 0.663, "num_steps_sampled": 351600, "grad_time_ms": 654.152, "update_time_ms": 2.244, "sample_time_ms": 31118.047}, "date": "2025-08-30_18-40-23", "hostname": "cda-server-4", "time_this_iter_s": 29.61501169204712, "episodes_total": 1758, "timestamp": 1756572023, "node_ip": "10.157.146.4", "done": false, "time_total_s": 8994.76729297638, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 294, "episode_reward_mean": -714.1694570192693, "training_iteration": 294, "timesteps_total": 352800, "policy_reward_mean": {}, "episode_reward_min": -805.009503009116, "timesteps_since_restore": 352800, "num_metric_batches_dropped": 0, "time_since_restore": 9024.04818534851, "episode_reward_max": -595.044618742254, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 352800, "default": {"kl": 0.01288018561899662, "policy_loss": -0.15499259531497955, "vf_loss": 406.16510009765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9707621335983276, "entropy": 12.787577629089355, "cur_lr": 4.999999873689376e-05, "total_loss": 406.0296630859375}, "load_time_ms": 0.667, "num_steps_sampled": 352800, "grad_time_ms": 654.404, "update_time_ms": 2.285, "sample_time_ms": 30784.26}, "date": "2025-08-30_18-40-52", "hostname": "cda-server-4", "time_this_iter_s": 29.280892372131348, "episodes_total": 1764, "timestamp": 1756572052, "node_ip": "10.157.146.4", "done": false, "time_total_s": 9024.04818534851, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 295, "episode_reward_mean": -712.5450753320055, "training_iteration": 295, "timesteps_total": 354000, "policy_reward_mean": {}, "episode_reward_min": -805.009503009116, "timesteps_since_restore": 354000, "num_metric_batches_dropped": 0, "time_since_restore": 9051.961976528168, "episode_reward_max": -595.044618742254, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 354000, "default": {"kl": 0.012370269745588303, "policy_loss": -0.12107792496681213, "vf_loss": 711.9481811523438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9421083927154541, "entropy": 12.917118072509766, "cur_lr": 4.999999873689376e-05, "total_loss": 711.845947265625}, "load_time_ms": 0.66, "num_steps_sampled": 354000, "grad_time_ms": 647.696, "update_time_ms": 2.32, "sample_time_ms": 30413.034}, "date": "2025-08-30_18-41-20", "hostname": "cda-server-4", "time_this_iter_s": 27.913791179656982, "episodes_total": 1770, "timestamp": 1756572080, "node_ip": "10.157.146.4", "done": false, "time_total_s": 9051.961976528168, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 296, "episode_reward_mean": -711.9664763567629, "training_iteration": 296, "timesteps_total": 355200, "policy_reward_mean": {}, "episode_reward_min": -805.009503009116, "timesteps_since_restore": 355200, "num_metric_batches_dropped": 0, "time_since_restore": 9082.869657278061, "episode_reward_max": -595.044618742254, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 355200, "default": {"kl": 0.013963914476335049, "policy_loss": -0.135398268699646, "vf_loss": 536.6640625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9589101076126099, "entropy": 12.826006889343262, "cur_lr": 4.999999873689376e-05, "total_loss": 536.5498046875}, "load_time_ms": 0.657, "num_steps_sampled": 355200, "grad_time_ms": 635.185, "update_time_ms": 2.392, "sample_time_ms": 30416.621}, "date": "2025-08-30_18-41-51", "hostname": "cda-server-4", "time_this_iter_s": 30.90768074989319, "episodes_total": 1776, "timestamp": 1756572111, "node_ip": "10.157.146.4", "done": false, "time_total_s": 9082.869657278061, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 297, "episode_reward_mean": -711.3256051509516, "training_iteration": 297, "timesteps_total": 356400, "policy_reward_mean": {}, "episode_reward_min": -805.009503009116, "timesteps_since_restore": 356400, "num_metric_batches_dropped": 0, "time_since_restore": 9112.57939004898, "episode_reward_max": -595.044618742254, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 356400, "default": {"kl": 0.012533068656921387, "policy_loss": -0.14192569255828857, "vf_loss": 213.9569091796875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9788229465484619, "entropy": 12.91860294342041, "cur_lr": 4.999999873689376e-05, "total_loss": 213.83399963378906}, "load_time_ms": 0.654, "num_steps_sampled": 356400, "grad_time_ms": 641.934, "update_time_ms": 2.427, "sample_time_ms": 30048.837}, "date": "2025-08-30_18-42-20", "hostname": "cda-server-4", "time_this_iter_s": 29.7097327709198, "episodes_total": 1782, "timestamp": 1756572140, "node_ip": "10.157.146.4", "done": false, "time_total_s": 9112.57939004898, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 298, "episode_reward_mean": -709.9505442642869, "training_iteration": 298, "timesteps_total": 357600, "policy_reward_mean": {}, "episode_reward_min": -802.5231498481648, "timesteps_since_restore": 357600, "num_metric_batches_dropped": 0, "time_since_restore": 9140.471915960312, "episode_reward_max": -595.044618742254, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 357600, "default": {"kl": 0.013012871146202087, "policy_loss": -0.1493036299943924, "vf_loss": 933.5675048828125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9558462500572205, "entropy": 13.06198501586914, "cur_lr": 4.999999873689376e-05, "total_loss": 933.4379272460938}, "load_time_ms": 0.679, "num_steps_sampled": 357600, "grad_time_ms": 634.626, "update_time_ms": 2.437, "sample_time_ms": 29615.264}, "date": "2025-08-30_18-42-48", "hostname": "cda-server-4", "time_this_iter_s": 27.892525911331177, "episodes_total": 1788, "timestamp": 1756572168, "node_ip": "10.157.146.4", "done": false, "time_total_s": 9140.471915960312, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 299, "episode_reward_mean": -708.9977004860042, "training_iteration": 299, "timesteps_total": 358800, "policy_reward_mean": {}, "episode_reward_min": -802.5231498481648, "timesteps_since_restore": 358800, "num_metric_batches_dropped": 0, "time_since_restore": 9167.61768245697, "episode_reward_max": -595.044618742254, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 358800, "default": {"kl": 0.012485180050134659, "policy_loss": -0.13880275189876556, "vf_loss": 508.4940185546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9660834074020386, "entropy": 12.938386917114258, "cur_lr": 4.999999873689376e-05, "total_loss": 508.3742370605469}, "load_time_ms": 0.699, "num_steps_sampled": 358800, "grad_time_ms": 633.323, "update_time_ms": 2.505, "sample_time_ms": 29160.031}, "date": "2025-08-30_18-43-16", "hostname": "cda-server-4", "time_this_iter_s": 27.145766496658325, "episodes_total": 1794, "timestamp": 1756572196, "node_ip": "10.157.146.4", "done": false, "time_total_s": 9167.61768245697, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 300, "episode_reward_mean": -708.6801863590248, "training_iteration": 300, "timesteps_total": 360000, "policy_reward_mean": {}, "episode_reward_min": -802.5231498481648, "timesteps_since_restore": 360000, "num_metric_batches_dropped": 0, "time_since_restore": 9199.09749531746, "episode_reward_max": -595.044618742254, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 360000, "default": {"kl": 0.013789261691272259, "policy_loss": -0.16847136616706848, "vf_loss": 941.122802734375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.945521891117096, "entropy": 13.04391860961914, "cur_lr": 4.999999873689376e-05, "total_loss": 940.9752807617188}, "load_time_ms": 0.664, "num_steps_sampled": 360000, "grad_time_ms": 635.433, "update_time_ms": 2.481, "sample_time_ms": 29103.82}, "date": "2025-08-30_18-43-47", "hostname": "cda-server-4", "time_this_iter_s": 31.47981286048889, "episodes_total": 1800, "timestamp": 1756572227, "node_ip": "10.157.146.4", "done": false, "time_total_s": 9199.09749531746, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 301, "episode_reward_mean": -705.6476195139238, "training_iteration": 301, "timesteps_total": 361200, "policy_reward_mean": {}, "episode_reward_min": -799.6904747310442, "timesteps_since_restore": 361200, "num_metric_batches_dropped": 0, "time_since_restore": 9231.86960029602, "episode_reward_max": -595.044618742254, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 361200, "default": {"kl": 0.011618373915553093, "policy_loss": -0.13356079161167145, "vf_loss": 476.8249206542969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9694162011146545, "entropy": 12.930486679077148, "cur_lr": 4.999999873689376e-05, "total_loss": 476.70904541015625}, "load_time_ms": 0.696, "num_steps_sampled": 361200, "grad_time_ms": 653.075, "update_time_ms": 2.62, "sample_time_ms": 29300.148}, "date": "2025-08-30_18-44-20", "hostname": "cda-server-4", "time_this_iter_s": 32.7721049785614, "episodes_total": 1806, "timestamp": 1756572260, "node_ip": "10.157.146.4", "done": false, "time_total_s": 9231.86960029602, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 302, "episode_reward_mean": -708.8563578147784, "training_iteration": 302, "timesteps_total": 362400, "policy_reward_mean": {}, "episode_reward_min": -799.6904747310442, "timesteps_since_restore": 362400, "num_metric_batches_dropped": 0, "time_since_restore": 9260.90166926384, "episode_reward_max": -595.044618742254, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 362400, "default": {"kl": 0.012342691421508789, "policy_loss": -0.13761191070079803, "vf_loss": 1663.21484375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9131940007209778, "entropy": 12.881888389587402, "cur_lr": 4.999999873689376e-05, "total_loss": 1663.0960693359375}, "load_time_ms": 0.691, "num_steps_sampled": 362400, "grad_time_ms": 652.811, "update_time_ms": 2.707, "sample_time_ms": 28914.629}, "date": "2025-08-30_18-44-49", "hostname": "cda-server-4", "time_this_iter_s": 29.032068967819214, "episodes_total": 1812, "timestamp": 1756572289, "node_ip": "10.157.146.4", "done": false, "time_total_s": 9260.90166926384, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 303, "episode_reward_mean": -704.0169608314443, "training_iteration": 303, "timesteps_total": 363600, "policy_reward_mean": {}, "episode_reward_min": -799.6904747310442, "timesteps_since_restore": 363600, "num_metric_batches_dropped": 0, "time_since_restore": 9293.865013837814, "episode_reward_max": -595.044618742254, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 363600, "default": {"kl": 0.01078004390001297, "policy_loss": -0.12402664124965668, "vf_loss": 1008.507568359375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8929091691970825, "entropy": 12.73666000366211, "cur_lr": 4.999999873689376e-05, "total_loss": 1008.3999633789062}, "load_time_ms": 0.681, "num_steps_sampled": 363600, "grad_time_ms": 637.32, "update_time_ms": 2.61, "sample_time_ms": 29265.098}, "date": "2025-08-30_18-45-22", "hostname": "cda-server-4", "time_this_iter_s": 32.96334457397461, "episodes_total": 1818, "timestamp": 1756572322, "node_ip": "10.157.146.4", "done": false, "time_total_s": 9293.865013837814, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 304, "episode_reward_mean": -703.5449574542158, "training_iteration": 304, "timesteps_total": 364800, "policy_reward_mean": {}, "episode_reward_min": -799.6904747310442, "timesteps_since_restore": 364800, "num_metric_batches_dropped": 0, "time_since_restore": 9323.727890729904, "episode_reward_max": -595.044618742254, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 364800, "default": {"kl": 0.01208583079278469, "policy_loss": -0.1399444043636322, "vf_loss": 592.9386596679688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9426863789558411, "entropy": 12.955503463745117, "cur_lr": 4.999999873689376e-05, "total_loss": 592.8170166015625}, "load_time_ms": 0.696, "num_steps_sampled": 364800, "grad_time_ms": 624.384, "update_time_ms": 2.556, "sample_time_ms": 29336.191}, "date": "2025-08-30_18-45-52", "hostname": "cda-server-4", "time_this_iter_s": 29.862876892089844, "episodes_total": 1824, "timestamp": 1756572352, "node_ip": "10.157.146.4", "done": false, "time_total_s": 9323.727890729904, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 305, "episode_reward_mean": -704.6010762581728, "training_iteration": 305, "timesteps_total": 366000, "policy_reward_mean": {}, "episode_reward_min": -799.6904747310442, "timesteps_since_restore": 366000, "num_metric_batches_dropped": 0, "time_since_restore": 9356.394894123077, "episode_reward_max": -595.044618742254, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 366000, "default": {"kl": 0.012492909096181393, "policy_loss": -0.1515706330537796, "vf_loss": 564.4402465820312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9642024636268616, "entropy": 13.042348861694336, "cur_lr": 4.999999873689376e-05, "total_loss": 564.3076171875}, "load_time_ms": 0.712, "num_steps_sampled": 366000, "grad_time_ms": 627.247, "update_time_ms": 2.569, "sample_time_ms": 29808.67}, "date": "2025-08-30_18-46-24", "hostname": "cda-server-4", "time_this_iter_s": 32.66700339317322, "episodes_total": 1830, "timestamp": 1756572384, "node_ip": "10.157.146.4", "done": false, "time_total_s": 9356.394894123077, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 306, "episode_reward_mean": -704.9857112442634, "training_iteration": 306, "timesteps_total": 367200, "policy_reward_mean": {}, "episode_reward_min": -799.6904747310442, "timesteps_since_restore": 367200, "num_metric_batches_dropped": 0, "time_since_restore": 9385.906100034714, "episode_reward_max": -595.044618742254, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 367200, "default": {"kl": 0.011689498089253902, "policy_loss": -0.13431023061275482, "vf_loss": 729.3430786132812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9284777045249939, "entropy": 12.713752746582031, "cur_lr": 4.999999873689376e-05, "total_loss": 729.2265625}, "load_time_ms": 0.709, "num_steps_sampled": 367200, "grad_time_ms": 637.979, "update_time_ms": 2.507, "sample_time_ms": 29658.27}, "date": "2025-08-30_18-46-54", "hostname": "cda-server-4", "time_this_iter_s": 29.511205911636353, "episodes_total": 1836, "timestamp": 1756572414, "node_ip": "10.157.146.4", "done": false, "time_total_s": 9385.906100034714, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 307, "episode_reward_mean": -705.38980754343, "training_iteration": 307, "timesteps_total": 368400, "policy_reward_mean": {}, "episode_reward_min": -799.4323093087522, "timesteps_since_restore": 368400, "num_metric_batches_dropped": 0, "time_since_restore": 9416.334292411804, "episode_reward_max": -595.044618742254, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 368400, "default": {"kl": 0.013246696442365646, "policy_loss": -0.12158621847629547, "vf_loss": 335.4291076660156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9695315957069397, "entropy": 12.557744026184082, "cur_lr": 4.999999873689376e-05, "total_loss": 335.32763671875}, "load_time_ms": 0.709, "num_steps_sampled": 368400, "grad_time_ms": 649.149, "update_time_ms": 2.484, "sample_time_ms": 29719.014}, "date": "2025-08-30_18-47-24", "hostname": "cda-server-4", "time_this_iter_s": 30.428192377090454, "episodes_total": 1842, "timestamp": 1756572444, "node_ip": "10.157.146.4", "done": false, "time_total_s": 9416.334292411804, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 308, "episode_reward_mean": -703.8103351454773, "training_iteration": 308, "timesteps_total": 369600, "policy_reward_mean": {}, "episode_reward_min": -799.4323093087522, "timesteps_since_restore": 369600, "num_metric_batches_dropped": 0, "time_since_restore": 9448.717587471008, "episode_reward_max": -596.4187915982512, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 369600, "default": {"kl": 0.011937962844967842, "policy_loss": -0.12883073091506958, "vf_loss": 620.58984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9355123043060303, "entropy": 12.87744140625, "cur_lr": 4.999999873689376e-05, "total_loss": 620.4791259765625}, "load_time_ms": 0.679, "num_steps_sampled": 369600, "grad_time_ms": 663.048, "update_time_ms": 2.485, "sample_time_ms": 30154.237}, "date": "2025-08-30_18-47-57", "hostname": "cda-server-4", "time_this_iter_s": 32.3832950592041, "episodes_total": 1848, "timestamp": 1756572477, "node_ip": "10.157.146.4", "done": false, "time_total_s": 9448.717587471008, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 309, "episode_reward_mean": -701.846203493792, "training_iteration": 309, "timesteps_total": 370800, "policy_reward_mean": {}, "episode_reward_min": -799.4323093087522, "timesteps_since_restore": 370800, "num_metric_batches_dropped": 0, "time_since_restore": 9479.052629470825, "episode_reward_max": -596.4187915982512, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 370800, "default": {"kl": 0.013136954978108406, "policy_loss": -0.14976266026496887, "vf_loss": 368.81256103515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9649488925933838, "entropy": 12.852884292602539, "cur_lr": 4.999999873689376e-05, "total_loss": 368.6827697753906}, "load_time_ms": 0.659, "num_steps_sampled": 370800, "grad_time_ms": 678.894, "update_time_ms": 2.409, "sample_time_ms": 30457.443}, "date": "2025-08-30_18-48-27", "hostname": "cda-server-4", "time_this_iter_s": 30.335041999816895, "episodes_total": 1854, "timestamp": 1756572507, "node_ip": "10.157.146.4", "done": false, "time_total_s": 9479.052629470825, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 310, "episode_reward_mean": -705.0743622744471, "training_iteration": 310, "timesteps_total": 372000, "policy_reward_mean": {}, "episode_reward_min": -801.6974474205065, "timesteps_since_restore": 372000, "num_metric_batches_dropped": 0, "time_since_restore": 9506.991186618805, "episode_reward_max": -596.4187915982512, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 372000, "default": {"kl": 0.013140873052179813, "policy_loss": -0.13345567882061005, "vf_loss": 859.2943115234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9413283467292786, "entropy": 12.32619857788086, "cur_lr": 4.999999873689376e-05, "total_loss": 859.1808471679688}, "load_time_ms": 0.672, "num_steps_sampled": 372000, "grad_time_ms": 685.384, "update_time_ms": 2.467, "sample_time_ms": 30096.759}, "date": "2025-08-30_18-48-55", "hostname": "cda-server-4", "time_this_iter_s": 27.938557147979736, "episodes_total": 1860, "timestamp": 1756572535, "node_ip": "10.157.146.4", "done": false, "time_total_s": 9506.991186618805, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 311, "episode_reward_mean": -702.7575152334489, "training_iteration": 311, "timesteps_total": 373200, "policy_reward_mean": {}, "episode_reward_min": -801.6974474205065, "timesteps_since_restore": 373200, "num_metric_batches_dropped": 0, "time_since_restore": 9535.688334703445, "episode_reward_max": -596.4187915982512, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 373200, "default": {"kl": 0.012027140706777573, "policy_loss": -0.13839495182037354, "vf_loss": 898.6915893554688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9372808933258057, "entropy": 13.048412322998047, "cur_lr": 4.999999873689376e-05, "total_loss": 898.5714721679688}, "load_time_ms": 0.636, "num_steps_sampled": 373200, "grad_time_ms": 685.812, "update_time_ms": 2.282, "sample_time_ms": 29689.117}, "date": "2025-08-30_18-49-24", "hostname": "cda-server-4", "time_this_iter_s": 28.697148084640503, "episodes_total": 1866, "timestamp": 1756572564, "node_ip": "10.157.146.4", "done": false, "time_total_s": 9535.688334703445, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 312, "episode_reward_mean": -703.031531975502, "training_iteration": 312, "timesteps_total": 374400, "policy_reward_mean": {}, "episode_reward_min": -801.6974474205065, "timesteps_since_restore": 374400, "num_metric_batches_dropped": 0, "time_since_restore": 9566.4819521904, "episode_reward_max": -596.4187915982512, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 374400, "default": {"kl": 0.013887416571378708, "policy_loss": -0.16039159893989563, "vf_loss": 234.01611328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9784005284309387, "entropy": 12.963979721069336, "cur_lr": 4.999999873689376e-05, "total_loss": 233.8767852783203}, "load_time_ms": 0.671, "num_steps_sampled": 374400, "grad_time_ms": 694.328, "update_time_ms": 2.169, "sample_time_ms": 29856.732}, "date": "2025-08-30_18-49-55", "hostname": "cda-server-4", "time_this_iter_s": 30.793617486953735, "episodes_total": 1872, "timestamp": 1756572595, "node_ip": "10.157.146.4", "done": false, "time_total_s": 9566.4819521904, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 313, "episode_reward_mean": -703.8768809870728, "training_iteration": 313, "timesteps_total": 375600, "policy_reward_mean": {}, "episode_reward_min": -801.6974474205065, "timesteps_since_restore": 375600, "num_metric_batches_dropped": 0, "time_since_restore": 9595.673404455185, "episode_reward_max": -596.4187915982512, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 375600, "default": {"kl": 0.013500652275979519, "policy_loss": -0.15621253848075867, "vf_loss": 562.7306518554688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9466798305511475, "entropy": 12.672296524047852, "cur_lr": 4.999999873689376e-05, "total_loss": 562.594970703125}, "load_time_ms": 0.662, "num_steps_sampled": 375600, "grad_time_ms": 713.975, "update_time_ms": 2.208, "sample_time_ms": 29459.825}, "date": "2025-08-30_18-50-24", "hostname": "cda-server-4", "time_this_iter_s": 29.191452264785767, "episodes_total": 1878, "timestamp": 1756572624, "node_ip": "10.157.146.4", "done": false, "time_total_s": 9595.673404455185, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 314, "episode_reward_mean": -703.6613001616535, "training_iteration": 314, "timesteps_total": 376800, "policy_reward_mean": {}, "episode_reward_min": -802.426592712514, "timesteps_since_restore": 376800, "num_metric_batches_dropped": 0, "time_since_restore": 9626.871644496918, "episode_reward_max": -595.4706823893439, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 376800, "default": {"kl": 0.013020848855376244, "policy_loss": -0.14528529345989227, "vf_loss": 232.3220977783203, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.978983998298645, "entropy": 12.881868362426758, "cur_lr": 4.999999873689376e-05, "total_loss": 232.19659423828125}, "load_time_ms": 0.654, "num_steps_sampled": 376800, "grad_time_ms": 725.844, "update_time_ms": 2.25, "sample_time_ms": 29581.425}, "date": "2025-08-30_18-50-55", "hostname": "cda-server-4", "time_this_iter_s": 31.198240041732788, "episodes_total": 1884, "timestamp": 1756572655, "node_ip": "10.157.146.4", "done": false, "time_total_s": 9626.871644496918, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 315, "episode_reward_mean": -703.5328733749868, "training_iteration": 315, "timesteps_total": 378000, "policy_reward_mean": {}, "episode_reward_min": -802.426592712514, "timesteps_since_restore": 378000, "num_metric_batches_dropped": 0, "time_since_restore": 9659.038366556168, "episode_reward_max": -595.4706823893439, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 378000, "default": {"kl": 0.012233614921569824, "policy_loss": -0.14059777557849884, "vf_loss": 208.68861389160156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9798057079315186, "entropy": 12.74368953704834, "cur_lr": 4.999999873689376e-05, "total_loss": 208.56658935546875}, "load_time_ms": 0.643, "num_steps_sampled": 378000, "grad_time_ms": 730.527, "update_time_ms": 2.209, "sample_time_ms": 29526.749}, "date": "2025-08-30_18-51-27", "hostname": "cda-server-4", "time_this_iter_s": 32.16672205924988, "episodes_total": 1890, "timestamp": 1756572687, "node_ip": "10.157.146.4", "done": false, "time_total_s": 9659.038366556168, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 316, "episode_reward_mean": -700.1108228803637, "training_iteration": 316, "timesteps_total": 379200, "policy_reward_mean": {}, "episode_reward_min": -802.426592712514, "timesteps_since_restore": 379200, "num_metric_batches_dropped": 0, "time_since_restore": 9691.578606128693, "episode_reward_max": -595.4706823893439, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 379200, "default": {"kl": 0.01187069807201624, "policy_loss": -0.12771683931350708, "vf_loss": 456.3721923828125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9609631299972534, "entropy": 12.438872337341309, "cur_lr": 4.999999873689376e-05, "total_loss": 456.2624816894531}, "load_time_ms": 0.646, "num_steps_sampled": 379200, "grad_time_ms": 734.788, "update_time_ms": 2.201, "sample_time_ms": 29825.479}, "date": "2025-08-30_18-52-00", "hostname": "cda-server-4", "time_this_iter_s": 32.540239572525024, "episodes_total": 1896, "timestamp": 1756572720, "node_ip": "10.157.146.4", "done": false, "time_total_s": 9691.578606128693, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 317, "episode_reward_mean": -701.0486818993148, "training_iteration": 317, "timesteps_total": 380400, "policy_reward_mean": {}, "episode_reward_min": -802.426592712514, "timesteps_since_restore": 380400, "num_metric_batches_dropped": 0, "time_since_restore": 9722.436306476593, "episode_reward_max": -595.4706823893439, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 380400, "default": {"kl": 0.012515961192548275, "policy_loss": -0.1448635309934616, "vf_loss": 859.2845458984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9499176740646362, "entropy": 12.900279998779297, "cur_lr": 4.999999873689376e-05, "total_loss": 859.1587524414062}, "load_time_ms": 0.656, "num_steps_sampled": 380400, "grad_time_ms": 733.945, "update_time_ms": 2.232, "sample_time_ms": 29869.184}, "date": "2025-08-30_18-52-31", "hostname": "cda-server-4", "time_this_iter_s": 30.85770034790039, "episodes_total": 1902, "timestamp": 1756572751, "node_ip": "10.157.146.4", "done": false, "time_total_s": 9722.436306476593, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 318, "episode_reward_mean": -701.0577149809221, "training_iteration": 318, "timesteps_total": 381600, "policy_reward_mean": {}, "episode_reward_min": -802.426592712514, "timesteps_since_restore": 381600, "num_metric_batches_dropped": 0, "time_since_restore": 9751.481254816055, "episode_reward_max": -595.4706823893439, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 381600, "default": {"kl": 0.013049798086285591, "policy_loss": -0.15561135113239288, "vf_loss": 533.052001953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9754099249839783, "entropy": 12.736699104309082, "cur_lr": 4.999999873689376e-05, "total_loss": 532.9161376953125}, "load_time_ms": 0.659, "num_steps_sampled": 381600, "grad_time_ms": 725.222, "update_time_ms": 2.194, "sample_time_ms": 29544.134}, "date": "2025-08-30_18-53-00", "hostname": "cda-server-4", "time_this_iter_s": 29.04494833946228, "episodes_total": 1908, "timestamp": 1756572780, "node_ip": "10.157.146.4", "done": false, "time_total_s": 9751.481254816055, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 319, "episode_reward_mean": -697.8136184657893, "training_iteration": 319, "timesteps_total": 382800, "policy_reward_mean": {}, "episode_reward_min": -802.426592712514, "timesteps_since_restore": 382800, "num_metric_batches_dropped": 0, "time_since_restore": 9784.364231348038, "episode_reward_max": -595.4706823893439, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 382800, "default": {"kl": 0.011446905322372913, "policy_loss": -0.14374174177646637, "vf_loss": 481.3133544921875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.956641435623169, "entropy": 12.537480354309082, "cur_lr": 4.999999873689376e-05, "total_loss": 481.18695068359375}, "load_time_ms": 0.656, "num_steps_sampled": 382800, "grad_time_ms": 708.757, "update_time_ms": 2.241, "sample_time_ms": 29815.403}, "date": "2025-08-30_18-53-33", "hostname": "cda-server-4", "time_this_iter_s": 32.88297653198242, "episodes_total": 1914, "timestamp": 1756572813, "node_ip": "10.157.146.4", "done": false, "time_total_s": 9784.364231348038, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 320, "episode_reward_mean": -698.6526722301141, "training_iteration": 320, "timesteps_total": 384000, "policy_reward_mean": {}, "episode_reward_min": -802.426592712514, "timesteps_since_restore": 384000, "num_metric_batches_dropped": 0, "time_since_restore": 9815.38261961937, "episode_reward_max": -595.4706823893439, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 384000, "default": {"kl": 0.01253677997738123, "policy_loss": -0.14889678359031677, "vf_loss": 259.6505126953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.971534013748169, "entropy": 12.604217529296875, "cur_lr": 4.999999873689376e-05, "total_loss": 259.5206604003906}, "load_time_ms": 0.654, "num_steps_sampled": 384000, "grad_time_ms": 701.221, "update_time_ms": 2.202, "sample_time_ms": 30130.984}, "date": "2025-08-30_18-54-04", "hostname": "cda-server-4", "time_this_iter_s": 31.018388271331787, "episodes_total": 1920, "timestamp": 1756572844, "node_ip": "10.157.146.4", "done": false, "time_total_s": 9815.38261961937, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 321, "episode_reward_mean": -696.4565213815108, "training_iteration": 321, "timesteps_total": 385200, "policy_reward_mean": {}, "episode_reward_min": -802.426592712514, "timesteps_since_restore": 385200, "num_metric_batches_dropped": 0, "time_since_restore": 9847.74550485611, "episode_reward_max": -595.4706823893439, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 385200, "default": {"kl": 0.012302556075155735, "policy_loss": -0.12419375032186508, "vf_loss": 620.0968017578125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9512699842453003, "entropy": 12.615986824035645, "cur_lr": 4.999999873689376e-05, "total_loss": 619.9912719726562}, "load_time_ms": 0.653, "num_steps_sampled": 385200, "grad_time_ms": 692.043, "update_time_ms": 2.227, "sample_time_ms": 30506.689}, "date": "2025-08-30_18-54-36", "hostname": "cda-server-4", "time_this_iter_s": 32.36288523674011, "episodes_total": 1926, "timestamp": 1756572876, "node_ip": "10.157.146.4", "done": false, "time_total_s": 9847.74550485611, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 322, "episode_reward_mean": -694.6523032992467, "training_iteration": 322, "timesteps_total": 386400, "policy_reward_mean": {}, "episode_reward_min": -802.426592712514, "timesteps_since_restore": 386400, "num_metric_batches_dropped": 0, "time_since_restore": 9876.769228935242, "episode_reward_max": -595.4706823893439, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 386400, "default": {"kl": 0.012509223073720932, "policy_loss": -0.1350371241569519, "vf_loss": 485.1667175292969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.954868733882904, "entropy": 12.520462989807129, "cur_lr": 4.999999873689376e-05, "total_loss": 485.0506591796875}, "load_time_ms": 0.63, "num_steps_sampled": 386400, "grad_time_ms": 677.754, "update_time_ms": 2.259, "sample_time_ms": 30344.046}, "date": "2025-08-30_18-55-05", "hostname": "cda-server-4", "time_this_iter_s": 29.02372407913208, "episodes_total": 1932, "timestamp": 1756572905, "node_ip": "10.157.146.4", "done": false, "time_total_s": 9876.769228935242, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 323, "episode_reward_mean": -693.8617285044072, "training_iteration": 323, "timesteps_total": 387600, "policy_reward_mean": {}, "episode_reward_min": -808.1669642941381, "timesteps_since_restore": 387600, "num_metric_batches_dropped": 0, "time_since_restore": 9906.371312141418, "episode_reward_max": -595.4706823893439, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 387600, "default": {"kl": 0.011337029747664928, "policy_loss": -0.11999722570180893, "vf_loss": 656.3443603515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9662917256355286, "entropy": 12.485161781311035, "cur_lr": 4.999999873689376e-05, "total_loss": 656.241455078125}, "load_time_ms": 0.663, "num_steps_sampled": 387600, "grad_time_ms": 673.369, "update_time_ms": 2.233, "sample_time_ms": 30389.481}, "date": "2025-08-30_18-55-35", "hostname": "cda-server-4", "time_this_iter_s": 29.602083206176758, "episodes_total": 1938, "timestamp": 1756572935, "node_ip": "10.157.146.4", "done": false, "time_total_s": 9906.371312141418, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 324, "episode_reward_mean": -690.5790719287572, "training_iteration": 324, "timesteps_total": 388800, "policy_reward_mean": {}, "episode_reward_min": -808.1669642941381, "timesteps_since_restore": 388800, "num_metric_batches_dropped": 0, "time_since_restore": 9935.628594398499, "episode_reward_max": -595.4706823893439, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 388800, "default": {"kl": 0.012503260746598244, "policy_loss": -0.1247900053858757, "vf_loss": 2398.10498046875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9193277359008789, "entropy": 12.335196495056152, "cur_lr": 4.999999873689376e-05, "total_loss": 2397.9990234375}, "load_time_ms": 0.658, "num_steps_sampled": 388800, "grad_time_ms": 675.306, "update_time_ms": 2.261, "sample_time_ms": 30193.566}, "date": "2025-08-30_18-56-04", "hostname": "cda-server-4", "time_this_iter_s": 29.257282257080078, "episodes_total": 1944, "timestamp": 1756572964, "node_ip": "10.157.146.4", "done": false, "time_total_s": 9935.628594398499, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 325, "episode_reward_mean": -694.9603615095356, "training_iteration": 325, "timesteps_total": 390000, "policy_reward_mean": {}, "episode_reward_min": -808.1669642941381, "timesteps_since_restore": 390000, "num_metric_batches_dropped": 0, "time_since_restore": 9966.108959913254, "episode_reward_max": -595.4706823893439, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 390000, "default": {"kl": 0.01367180421948433, "policy_loss": -0.14025408029556274, "vf_loss": 1395.1441650390625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9243195056915283, "entropy": 12.773940086364746, "cur_lr": 4.999999873689376e-05, "total_loss": 1395.024658203125}, "load_time_ms": 0.683, "num_steps_sampled": 390000, "grad_time_ms": 674.71, "update_time_ms": 2.311, "sample_time_ms": 30025.391}, "date": "2025-08-30_18-56-34", "hostname": "cda-server-4", "time_this_iter_s": 30.48036551475525, "episodes_total": 1950, "timestamp": 1756572994, "node_ip": "10.157.146.4", "done": false, "time_total_s": 9966.108959913254, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 326, "episode_reward_mean": -696.2905139722715, "training_iteration": 326, "timesteps_total": 391200, "policy_reward_mean": {}, "episode_reward_min": -808.1669642941381, "timesteps_since_restore": 391200, "num_metric_batches_dropped": 0, "time_since_restore": 9997.996777534485, "episode_reward_max": -595.4706823893439, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 391200, "default": {"kl": 0.014346431009471416, "policy_loss": -0.14345747232437134, "vf_loss": 192.30873107910156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9797531962394714, "entropy": 12.784830093383789, "cur_lr": 4.999999873689376e-05, "total_loss": 192.18707275390625}, "load_time_ms": 0.683, "num_steps_sampled": 391200, "grad_time_ms": 675.324, "update_time_ms": 2.378, "sample_time_ms": 29959.462}, "date": "2025-08-30_18-57-06", "hostname": "cda-server-4", "time_this_iter_s": 31.88781762123108, "episodes_total": 1956, "timestamp": 1756573026, "node_ip": "10.157.146.4", "done": false, "time_total_s": 9997.996777534485, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 327, "episode_reward_mean": -694.1948169008195, "training_iteration": 327, "timesteps_total": 392400, "policy_reward_mean": {}, "episode_reward_min": -808.1669642941381, "timesteps_since_restore": 392400, "num_metric_batches_dropped": 0, "time_since_restore": 10027.365290164948, "episode_reward_max": -595.4706823893439, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 392400, "default": {"kl": 0.01272787619382143, "policy_loss": -0.1397557407617569, "vf_loss": 1035.81201171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9240735173225403, "entropy": 12.591564178466797, "cur_lr": 4.999999873689376e-05, "total_loss": 1035.69140625}, "load_time_ms": 0.673, "num_steps_sampled": 392400, "grad_time_ms": 678.888, "update_time_ms": 2.357, "sample_time_ms": 29807.006}, "date": "2025-08-30_18-57-36", "hostname": "cda-server-4", "time_this_iter_s": 29.368512630462646, "episodes_total": 1962, "timestamp": 1756573056, "node_ip": "10.157.146.4", "done": false, "time_total_s": 10027.365290164948, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 328, "episode_reward_mean": -695.7979117338608, "training_iteration": 328, "timesteps_total": 393600, "policy_reward_mean": {}, "episode_reward_min": -808.1669642941381, "timesteps_since_restore": 393600, "num_metric_batches_dropped": 0, "time_since_restore": 10054.381493330002, "episode_reward_max": -595.4706823893439, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 393600, "default": {"kl": 0.013296958990395069, "policy_loss": -0.14182184636592865, "vf_loss": 769.0372314453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9479973316192627, "entropy": 12.646681785583496, "cur_lr": 4.999999873689376e-05, "total_loss": 768.9155883789062}, "load_time_ms": 0.683, "num_steps_sampled": 393600, "grad_time_ms": 693.616, "update_time_ms": 2.432, "sample_time_ms": 29589.322}, "date": "2025-08-30_18-58-03", "hostname": "cda-server-4", "time_this_iter_s": 27.01620316505432, "episodes_total": 1968, "timestamp": 1756573083, "node_ip": "10.157.146.4", "done": false, "time_total_s": 10054.381493330002, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 329, "episode_reward_mean": -692.129920223943, "training_iteration": 329, "timesteps_total": 394800, "policy_reward_mean": {}, "episode_reward_min": -808.1669642941381, "timesteps_since_restore": 394800, "num_metric_batches_dropped": 0, "time_since_restore": 10081.243705272675, "episode_reward_max": -582.876641578361, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 394800, "default": {"kl": 0.012698921374976635, "policy_loss": -0.1498500257730484, "vf_loss": 757.5446166992188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9524261951446533, "entropy": 12.353188514709473, "cur_lr": 4.999999873689376e-05, "total_loss": 757.4140625}, "load_time_ms": 0.701, "num_steps_sampled": 394800, "grad_time_ms": 705.742, "update_time_ms": 2.397, "sample_time_ms": 28975.112}, "date": "2025-08-30_18-58-30", "hostname": "cda-server-4", "time_this_iter_s": 26.86221194267273, "episodes_total": 1974, "timestamp": 1756573110, "node_ip": "10.157.146.4", "done": false, "time_total_s": 10081.243705272675, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 330, "episode_reward_mean": -688.1273723129806, "training_iteration": 330, "timesteps_total": 396000, "policy_reward_mean": {}, "episode_reward_min": -808.1669642941381, "timesteps_since_restore": 396000, "num_metric_batches_dropped": 0, "time_since_restore": 10111.789680957794, "episode_reward_max": -582.876641578361, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 396000, "default": {"kl": 0.010906555689871311, "policy_loss": -0.13948388397693634, "vf_loss": 634.9765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9213796257972717, "entropy": 12.395002365112305, "cur_lr": 4.999999873689376e-05, "total_loss": 634.8536987304688}, "load_time_ms": 0.704, "num_steps_sampled": 396000, "grad_time_ms": 691.854, "update_time_ms": 2.42, "sample_time_ms": 28941.751}, "date": "2025-08-30_18-59-00", "hostname": "cda-server-4", "time_this_iter_s": 30.54597568511963, "episodes_total": 1980, "timestamp": 1756573140, "node_ip": "10.157.146.4", "done": false, "time_total_s": 10111.789680957794, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 331, "episode_reward_mean": -686.9597226429863, "training_iteration": 331, "timesteps_total": 397200, "policy_reward_mean": {}, "episode_reward_min": -808.1669642941381, "timesteps_since_restore": 397200, "num_metric_batches_dropped": 0, "time_since_restore": 10143.115589857101, "episode_reward_max": -552.2348160617232, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 397200, "default": {"kl": 0.011182621121406555, "policy_loss": -0.14289897680282593, "vf_loss": 608.955322265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9252368211746216, "entropy": 12.488670349121094, "cur_lr": 4.999999873689376e-05, "total_loss": 608.829345703125}, "load_time_ms": 0.703, "num_steps_sampled": 397200, "grad_time_ms": 690.14, "update_time_ms": 2.37, "sample_time_ms": 28839.775}, "date": "2025-08-30_18-59-32", "hostname": "cda-server-4", "time_this_iter_s": 31.32590889930725, "episodes_total": 1986, "timestamp": 1756573172, "node_ip": "10.157.146.4", "done": false, "time_total_s": 10143.115589857101, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 332, "episode_reward_mean": -688.1932865076739, "training_iteration": 332, "timesteps_total": 398400, "policy_reward_mean": {}, "episode_reward_min": -808.1669642941381, "timesteps_since_restore": 398400, "num_metric_batches_dropped": 0, "time_since_restore": 10173.278679132462, "episode_reward_max": -552.2348160617232, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 398400, "default": {"kl": 0.012021200731396675, "policy_loss": -0.13586783409118652, "vf_loss": 1068.9832763671875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9189721345901489, "entropy": 12.527660369873047, "cur_lr": 4.999999873689376e-05, "total_loss": 1068.86572265625}, "load_time_ms": 0.725, "num_steps_sampled": 398400, "grad_time_ms": 702.615, "update_time_ms": 2.394, "sample_time_ms": 28941.163}, "date": "2025-08-30_19-00-02", "hostname": "cda-server-4", "time_this_iter_s": 30.163089275360107, "episodes_total": 1992, "timestamp": 1756573202, "node_ip": "10.157.146.4", "done": false, "time_total_s": 10173.278679132462, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 333, "episode_reward_mean": -692.2143794938654, "training_iteration": 333, "timesteps_total": 399600, "policy_reward_mean": {}, "episode_reward_min": -808.1669642941381, "timesteps_since_restore": 399600, "num_metric_batches_dropped": 0, "time_since_restore": 10200.855293512344, "episode_reward_max": -552.2348160617232, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 399600, "default": {"kl": 0.012057602405548096, "policy_loss": -0.14655493199825287, "vf_loss": 868.572998046875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9154348373413086, "entropy": 12.585277557373047, "cur_lr": 4.999999873689376e-05, "total_loss": 868.44482421875}, "load_time_ms": 0.687, "num_steps_sampled": 399600, "grad_time_ms": 701.182, "update_time_ms": 2.398, "sample_time_ms": 28740.062}, "date": "2025-08-30_19-00-29", "hostname": "cda-server-4", "time_this_iter_s": 27.576614379882812, "episodes_total": 1998, "timestamp": 1756573229, "node_ip": "10.157.146.4", "done": false, "time_total_s": 10200.855293512344, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 334, "episode_reward_mean": -691.8323473323221, "training_iteration": 334, "timesteps_total": 400800, "policy_reward_mean": {}, "episode_reward_min": -808.1669642941381, "timesteps_since_restore": 400800, "num_metric_batches_dropped": 0, "time_since_restore": 10232.322353601456, "episode_reward_max": -552.2348160617232, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 400800, "default": {"kl": 0.01281936839222908, "policy_loss": -0.13538499176502228, "vf_loss": 393.4561462402344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9613813757896423, "entropy": 12.570915222167969, "cur_lr": 4.999999873689376e-05, "total_loss": 393.3402099609375}, "load_time_ms": 0.709, "num_steps_sampled": 400800, "grad_time_ms": 699.69, "update_time_ms": 2.348, "sample_time_ms": 28962.57}, "date": "2025-08-30_19-01-01", "hostname": "cda-server-4", "time_this_iter_s": 31.467060089111328, "episodes_total": 2004, "timestamp": 1756573261, "node_ip": "10.157.146.4", "done": false, "time_total_s": 10232.322353601456, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 335, "episode_reward_mean": -689.6911750782996, "training_iteration": 335, "timesteps_total": 402000, "policy_reward_mean": {}, "episode_reward_min": -808.1669642941381, "timesteps_since_restore": 402000, "num_metric_batches_dropped": 0, "time_since_restore": 10263.415404319763, "episode_reward_max": -552.2348160617232, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 402000, "default": {"kl": 0.011266729794442654, "policy_loss": -0.13049226999282837, "vf_loss": 740.729248046875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9211007356643677, "entropy": 12.582470893859863, "cur_lr": 4.999999873689376e-05, "total_loss": 740.6158447265625}, "load_time_ms": 0.676, "num_steps_sampled": 402000, "grad_time_ms": 694.223, "update_time_ms": 2.297, "sample_time_ms": 29029.444}, "date": "2025-08-30_19-01-32", "hostname": "cda-server-4", "time_this_iter_s": 31.093050718307495, "episodes_total": 2010, "timestamp": 1756573292, "node_ip": "10.157.146.4", "done": false, "time_total_s": 10263.415404319763, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 336, "episode_reward_mean": -686.8956729791788, "training_iteration": 336, "timesteps_total": 403200, "policy_reward_mean": {}, "episode_reward_min": -808.1669642941381, "timesteps_since_restore": 403200, "num_metric_batches_dropped": 0, "time_since_restore": 10294.978871583939, "episode_reward_max": -552.2348160617232, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 403200, "default": {"kl": 0.011353434063494205, "policy_loss": -0.11508292704820633, "vf_loss": 909.987548828125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9130551815032959, "entropy": 12.193889617919922, "cur_lr": 4.999999873689376e-05, "total_loss": 909.8897094726562}, "load_time_ms": 0.678, "num_steps_sampled": 403200, "grad_time_ms": 688.604, "update_time_ms": 2.229, "sample_time_ms": 29002.725}, "date": "2025-08-30_19-02-04", "hostname": "cda-server-4", "time_this_iter_s": 31.563467264175415, "episodes_total": 2016, "timestamp": 1756573324, "node_ip": "10.157.146.4", "done": false, "time_total_s": 10294.978871583939, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 337, "episode_reward_mean": -686.0688748746553, "training_iteration": 337, "timesteps_total": 404400, "policy_reward_mean": {}, "episode_reward_min": -808.1669642941381, "timesteps_since_restore": 404400, "num_metric_batches_dropped": 0, "time_since_restore": 10324.41952419281, "episode_reward_max": -552.2348160617232, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 404400, "default": {"kl": 0.011037030257284641, "policy_loss": -0.13518965244293213, "vf_loss": 872.8781127929688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9161654710769653, "entropy": 12.286064147949219, "cur_lr": 4.999999873689376e-05, "total_loss": 872.7595825195312}, "load_time_ms": 0.682, "num_steps_sampled": 404400, "grad_time_ms": 674.512, "update_time_ms": 2.231, "sample_time_ms": 29024.008}, "date": "2025-08-30_19-02-33", "hostname": "cda-server-4", "time_this_iter_s": 29.44065260887146, "episodes_total": 2022, "timestamp": 1756573353, "node_ip": "10.157.146.4", "done": false, "time_total_s": 10324.41952419281, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 338, "episode_reward_mean": -688.5612229871043, "training_iteration": 338, "timesteps_total": 405600, "policy_reward_mean": {}, "episode_reward_min": -808.1669642941381, "timesteps_since_restore": 405600, "num_metric_batches_dropped": 0, "time_since_restore": 10354.438476324081, "episode_reward_max": -552.2348160617232, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 405600, "default": {"kl": 0.01271902211010456, "policy_loss": -0.14182744920253754, "vf_loss": 1729.05859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9132717847824097, "entropy": 12.643294334411621, "cur_lr": 4.999999873689376e-05, "total_loss": 1728.93603515625}, "load_time_ms": 0.669, "num_steps_sampled": 405600, "grad_time_ms": 657.192, "update_time_ms": 2.15, "sample_time_ms": 29341.707}, "date": "2025-08-30_19-03-03", "hostname": "cda-server-4", "time_this_iter_s": 30.018952131271362, "episodes_total": 2028, "timestamp": 1756573383, "node_ip": "10.157.146.4", "done": false, "time_total_s": 10354.438476324081, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 339, "episode_reward_mean": -688.3163403039491, "training_iteration": 339, "timesteps_total": 406800, "policy_reward_mean": {}, "episode_reward_min": -808.1669642941381, "timesteps_since_restore": 406800, "num_metric_batches_dropped": 0, "time_since_restore": 10385.882917642593, "episode_reward_max": -552.2348160617232, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 406800, "default": {"kl": 0.01243774313479662, "policy_loss": -0.1400708556175232, "vf_loss": 673.0374145507812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9446370601654053, "entropy": 12.509346008300781, "cur_lr": 4.999999873689376e-05, "total_loss": 672.9161987304688}, "load_time_ms": 0.657, "num_steps_sampled": 406800, "grad_time_ms": 651.204, "update_time_ms": 2.133, "sample_time_ms": 29805.968}, "date": "2025-08-30_19-03-34", "hostname": "cda-server-4", "time_this_iter_s": 31.444441318511963, "episodes_total": 2034, "timestamp": 1756573414, "node_ip": "10.157.146.4", "done": false, "time_total_s": 10385.882917642593, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 340, "episode_reward_mean": -688.4521268773975, "training_iteration": 340, "timesteps_total": 408000, "policy_reward_mean": {}, "episode_reward_min": -798.9369435450832, "timesteps_since_restore": 408000, "num_metric_batches_dropped": 0, "time_since_restore": 10413.973895072937, "episode_reward_max": -552.2348160617232, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 408000, "default": {"kl": 0.013857938349246979, "policy_loss": -0.15320800244808197, "vf_loss": 415.1290588378906, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9640305042266846, "entropy": 12.230777740478516, "cur_lr": 4.999999873689376e-05, "total_loss": 414.99688720703125}, "load_time_ms": 0.652, "num_steps_sampled": 408000, "grad_time_ms": 659.794, "update_time_ms": 2.07, "sample_time_ms": 29551.815}, "date": "2025-08-30_19-04-03", "hostname": "cda-server-4", "time_this_iter_s": 28.090977430343628, "episodes_total": 2040, "timestamp": 1756573443, "node_ip": "10.157.146.4", "done": false, "time_total_s": 10413.973895072937, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 341, "episode_reward_mean": -685.0990755774068, "training_iteration": 341, "timesteps_total": 409200, "policy_reward_mean": {}, "episode_reward_min": -798.9369435450832, "timesteps_since_restore": 409200, "num_metric_batches_dropped": 0, "time_since_restore": 10445.306821346283, "episode_reward_max": -552.2348160617232, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 409200, "default": {"kl": 0.012881143018603325, "policy_loss": -0.13289940357208252, "vf_loss": 650.812255859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.94870924949646, "entropy": 12.322696685791016, "cur_lr": 4.999999873689376e-05, "total_loss": 650.698974609375}, "load_time_ms": 0.66, "num_steps_sampled": 409200, "grad_time_ms": 644.211, "update_time_ms": 2.196, "sample_time_ms": 29568.003}, "date": "2025-08-30_19-04-34", "hostname": "cda-server-4", "time_this_iter_s": 31.332926273345947, "episodes_total": 2046, "timestamp": 1756573474, "node_ip": "10.157.146.4", "done": false, "time_total_s": 10445.306821346283, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 342, "episode_reward_mean": -678.2926828498479, "training_iteration": 342, "timesteps_total": 410400, "policy_reward_mean": {}, "episode_reward_min": -798.9369435450832, "timesteps_since_restore": 410400, "num_metric_batches_dropped": 0, "time_since_restore": 10478.397949695587, "episode_reward_max": -552.2348160617232, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 410400, "default": {"kl": 0.013753366656601429, "policy_loss": -0.15262344479560852, "vf_loss": 475.9490661621094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9411972761154175, "entropy": 12.174397468566895, "cur_lr": 4.999999873689376e-05, "total_loss": 475.81732177734375}, "load_time_ms": 0.634, "num_steps_sampled": 410400, "grad_time_ms": 629.44, "update_time_ms": 2.194, "sample_time_ms": 29875.589}, "date": "2025-08-30_19-05-07", "hostname": "cda-server-4", "time_this_iter_s": 33.0911283493042, "episodes_total": 2052, "timestamp": 1756573507, "node_ip": "10.157.146.4", "done": false, "time_total_s": 10478.397949695587, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 343, "episode_reward_mean": -674.8312146321686, "training_iteration": 343, "timesteps_total": 411600, "policy_reward_mean": {}, "episode_reward_min": -798.9369435450832, "timesteps_since_restore": 411600, "num_metric_batches_dropped": 0, "time_since_restore": 10511.230682611465, "episode_reward_max": -529.7464601374267, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 411600, "default": {"kl": 0.012516112066805363, "policy_loss": -0.1489691585302353, "vf_loss": 289.8532409667969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9720987677574158, "entropy": 12.199522018432617, "cur_lr": 4.999999873689376e-05, "total_loss": 289.7232666015625}, "load_time_ms": 0.639, "num_steps_sampled": 411600, "grad_time_ms": 624.865, "update_time_ms": 2.26, "sample_time_ms": 30405.778}, "date": "2025-08-30_19-05-40", "hostname": "cda-server-4", "time_this_iter_s": 32.832732915878296, "episodes_total": 2058, "timestamp": 1756573540, "node_ip": "10.157.146.4", "done": false, "time_total_s": 10511.230682611465, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 344, "episode_reward_mean": -676.4780593615541, "training_iteration": 344, "timesteps_total": 412800, "policy_reward_mean": {}, "episode_reward_min": -798.9369435450832, "timesteps_since_restore": 412800, "num_metric_batches_dropped": 0, "time_since_restore": 10538.850121974945, "episode_reward_max": -529.7464601374267, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 412800, "default": {"kl": 0.011129476130008698, "policy_loss": -0.12956172227859497, "vf_loss": 656.712158203125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9521514177322388, "entropy": 12.145316123962402, "cur_lr": 4.999999873689376e-05, "total_loss": 656.5994873046875}, "load_time_ms": 0.615, "num_steps_sampled": 412800, "grad_time_ms": 618.726, "update_time_ms": 2.248, "sample_time_ms": 30027.13}, "date": "2025-08-30_19-06-08", "hostname": "cda-server-4", "time_this_iter_s": 27.619439363479614, "episodes_total": 2064, "timestamp": 1756573568, "node_ip": "10.157.146.4", "done": false, "time_total_s": 10538.850121974945, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 345, "episode_reward_mean": -675.1851689033974, "training_iteration": 345, "timesteps_total": 414000, "policy_reward_mean": {}, "episode_reward_min": -798.9369435450832, "timesteps_since_restore": 414000, "num_metric_batches_dropped": 0, "time_since_restore": 10567.268199205399, "episode_reward_max": -529.7464601374267, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 414000, "default": {"kl": 0.012887947261333466, "policy_loss": -0.1491110920906067, "vf_loss": 418.1214294433594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9615808129310608, "entropy": 12.238137245178223, "cur_lr": 4.999999873689376e-05, "total_loss": 417.99188232421875}, "load_time_ms": 0.627, "num_steps_sampled": 414000, "grad_time_ms": 610.016, "update_time_ms": 2.265, "sample_time_ms": 29768.322}, "date": "2025-08-30_19-06-36", "hostname": "cda-server-4", "time_this_iter_s": 28.41807723045349, "episodes_total": 2070, "timestamp": 1756573596, "node_ip": "10.157.146.4", "done": false, "time_total_s": 10567.268199205399, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 346, "episode_reward_mean": -674.2290679605746, "training_iteration": 346, "timesteps_total": 415200, "policy_reward_mean": {}, "episode_reward_min": -798.9369435450832, "timesteps_since_restore": 415200, "num_metric_batches_dropped": 0, "time_since_restore": 10595.29206252098, "episode_reward_max": -529.7464601374267, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 415200, "default": {"kl": 0.012406324036419392, "policy_loss": -0.13739915192127228, "vf_loss": 361.1536865234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9667894840240479, "entropy": 12.087801933288574, "cur_lr": 4.999999873689376e-05, "total_loss": 361.0351257324219}, "load_time_ms": 0.625, "num_steps_sampled": 415200, "grad_time_ms": 612.941, "update_time_ms": 2.294, "sample_time_ms": 29411.343}, "date": "2025-08-30_19-07-04", "hostname": "cda-server-4", "time_this_iter_s": 28.023863315582275, "episodes_total": 2076, "timestamp": 1756573624, "node_ip": "10.157.146.4", "done": false, "time_total_s": 10595.29206252098, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 347, "episode_reward_mean": -675.6792775670924, "training_iteration": 347, "timesteps_total": 416400, "policy_reward_mean": {}, "episode_reward_min": -798.9369435450832, "timesteps_since_restore": 416400, "num_metric_batches_dropped": 0, "time_since_restore": 10627.177107095718, "episode_reward_max": -529.7464601374267, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 416400, "default": {"kl": 0.011447721160948277, "policy_loss": -0.13105496764183044, "vf_loss": 556.663330078125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9398133754730225, "entropy": 12.513118743896484, "cur_lr": 4.999999873689376e-05, "total_loss": 556.5496215820312}, "load_time_ms": 0.625, "num_steps_sampled": 416400, "grad_time_ms": 620.042, "update_time_ms": 2.347, "sample_time_ms": 29648.675}, "date": "2025-08-30_19-07-36", "hostname": "cda-server-4", "time_this_iter_s": 31.88504457473755, "episodes_total": 2082, "timestamp": 1756573656, "node_ip": "10.157.146.4", "done": false, "time_total_s": 10627.177107095718, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 348, "episode_reward_mean": -677.923592218014, "training_iteration": 348, "timesteps_total": 417600, "policy_reward_mean": {}, "episode_reward_min": -798.9369435450832, "timesteps_since_restore": 417600, "num_metric_batches_dropped": 0, "time_since_restore": 10659.331364870071, "episode_reward_max": -529.7464601374267, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 417600, "default": {"kl": 0.013313500210642815, "policy_loss": -0.15784858167171478, "vf_loss": 358.9510192871094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.966277003288269, "entropy": 12.406009674072266, "cur_lr": 4.999999873689376e-05, "total_loss": 358.8133850097656}, "load_time_ms": 0.624, "num_steps_sampled": 417600, "grad_time_ms": 613.75, "update_time_ms": 2.335, "sample_time_ms": 29868.474}, "date": "2025-08-30_19-08-08", "hostname": "cda-server-4", "time_this_iter_s": 32.15425777435303, "episodes_total": 2088, "timestamp": 1756573688, "node_ip": "10.157.146.4", "done": false, "time_total_s": 10659.331364870071, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 349, "episode_reward_mean": -675.9344130914769, "training_iteration": 349, "timesteps_total": 418800, "policy_reward_mean": {}, "episode_reward_min": -798.9369435450832, "timesteps_since_restore": 418800, "num_metric_batches_dropped": 0, "time_since_restore": 10689.622563123703, "episode_reward_max": -529.7464601374267, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 418800, "default": {"kl": 0.010964653454720974, "policy_loss": -0.14613159000873566, "vf_loss": 926.6092529296875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9000122547149658, "entropy": 12.402730941772461, "cur_lr": 4.999999873689376e-05, "total_loss": 926.479736328125}, "load_time_ms": 0.628, "num_steps_sampled": 418800, "grad_time_ms": 603.859, "update_time_ms": 2.366, "sample_time_ms": 29763.03}, "date": "2025-08-30_19-08-38", "hostname": "cda-server-4", "time_this_iter_s": 30.291198253631592, "episodes_total": 2094, "timestamp": 1756573718, "node_ip": "10.157.146.4", "done": false, "time_total_s": 10689.622563123703, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 350, "episode_reward_mean": -670.5505900135596, "training_iteration": 350, "timesteps_total": 420000, "policy_reward_mean": {}, "episode_reward_min": -797.7474615262463, "timesteps_since_restore": 420000, "num_metric_batches_dropped": 0, "time_since_restore": 10719.516128063202, "episode_reward_max": -529.7464601374267, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 420000, "default": {"kl": 0.01166903879493475, "policy_loss": -0.15171441435813904, "vf_loss": 761.2325439453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9405888319015503, "entropy": 12.218255996704102, "cur_lr": 4.999999873689376e-05, "total_loss": 761.0985717773438}, "load_time_ms": 0.626, "num_steps_sampled": 420000, "grad_time_ms": 606.217, "update_time_ms": 2.368, "sample_time_ms": 29941.07}, "date": "2025-08-30_19-09-08", "hostname": "cda-server-4", "time_this_iter_s": 29.8935649394989, "episodes_total": 2100, "timestamp": 1756573748, "node_ip": "10.157.146.4", "done": false, "time_total_s": 10719.516128063202, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 351, "episode_reward_mean": -671.192544122135, "training_iteration": 351, "timesteps_total": 421200, "policy_reward_mean": {}, "episode_reward_min": -797.7474615262463, "timesteps_since_restore": 421200, "num_metric_batches_dropped": 0, "time_since_restore": 10747.694571256638, "episode_reward_max": -529.7464601374267, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 421200, "default": {"kl": 0.013471947982907295, "policy_loss": -0.14352835714817047, "vf_loss": 454.0290222167969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.957651674747467, "entropy": 12.245844841003418, "cur_lr": 4.999999873689376e-05, "total_loss": 453.9059143066406}, "load_time_ms": 0.62, "num_steps_sampled": 421200, "grad_time_ms": 631.965, "update_time_ms": 2.248, "sample_time_ms": 29600.075}, "date": "2025-08-30_19-09-37", "hostname": "cda-server-4", "time_this_iter_s": 28.17844319343567, "episodes_total": 2106, "timestamp": 1756573777, "node_ip": "10.157.146.4", "done": false, "time_total_s": 10747.694571256638, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 352, "episode_reward_mean": -669.7108421864617, "training_iteration": 352, "timesteps_total": 422400, "policy_reward_mean": {}, "episode_reward_min": -797.7474615262463, "timesteps_since_restore": 422400, "num_metric_batches_dropped": 0, "time_since_restore": 10781.648062705994, "episode_reward_max": -529.7464601374267, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 422400, "default": {"kl": 0.010898757725954056, "policy_loss": -0.12291496247053146, "vf_loss": 333.5877685546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9560755491256714, "entropy": 12.182732582092285, "cur_lr": 4.999999873689376e-05, "total_loss": 333.4813232421875}, "load_time_ms": 0.649, "num_steps_sampled": 422400, "grad_time_ms": 647.923, "update_time_ms": 2.192, "sample_time_ms": 29670.415}, "date": "2025-08-30_19-10-10", "hostname": "cda-server-4", "time_this_iter_s": 33.95349144935608, "episodes_total": 2112, "timestamp": 1756573810, "node_ip": "10.157.146.4", "done": false, "time_total_s": 10781.648062705994, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 353, "episode_reward_mean": -671.254734990517, "training_iteration": 353, "timesteps_total": 423600, "policy_reward_mean": {}, "episode_reward_min": -797.7474615262463, "timesteps_since_restore": 423600, "num_metric_batches_dropped": 0, "time_since_restore": 10810.94195485115, "episode_reward_max": -529.7464601374267, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 423600, "default": {"kl": 0.011702095158398151, "policy_loss": -0.14512409269809723, "vf_loss": 260.9912414550781, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9751221537590027, "entropy": 12.269438743591309, "cur_lr": 4.999999873689376e-05, "total_loss": 260.8638610839844}, "load_time_ms": 0.648, "num_steps_sampled": 423600, "grad_time_ms": 647.653, "update_time_ms": 2.147, "sample_time_ms": 29316.735}, "date": "2025-08-30_19-10-40", "hostname": "cda-server-4", "time_this_iter_s": 29.29389214515686, "episodes_total": 2118, "timestamp": 1756573840, "node_ip": "10.157.146.4", "done": false, "time_total_s": 10810.94195485115, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 354, "episode_reward_mean": -667.9599069935061, "training_iteration": 354, "timesteps_total": 424800, "policy_reward_mean": {}, "episode_reward_min": -797.7474615262463, "timesteps_since_restore": 424800, "num_metric_batches_dropped": 0, "time_since_restore": 10839.610797643661, "episode_reward_max": -529.7464601374267, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 424800, "default": {"kl": 0.010491169057786465, "policy_loss": -0.1397227644920349, "vf_loss": 475.4378356933594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9529439210891724, "entropy": 12.117349624633789, "cur_lr": 4.999999873689376e-05, "total_loss": 475.31402587890625}, "load_time_ms": 0.654, "num_steps_sampled": 424800, "grad_time_ms": 643.448, "update_time_ms": 2.14, "sample_time_ms": 29425.867}, "date": "2025-08-30_19-11-08", "hostname": "cda-server-4", "time_this_iter_s": 28.668842792510986, "episodes_total": 2124, "timestamp": 1756573868, "node_ip": "10.157.146.4", "done": false, "time_total_s": 10839.610797643661, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 355, "episode_reward_mean": -665.6102488766071, "training_iteration": 355, "timesteps_total": 426000, "policy_reward_mean": {}, "episode_reward_min": -797.7474615262463, "timesteps_since_restore": 426000, "num_metric_batches_dropped": 0, "time_since_restore": 10872.116556882858, "episode_reward_max": -529.7464601374267, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 426000, "default": {"kl": 0.012723434716463089, "policy_loss": -0.14359760284423828, "vf_loss": 391.2402038574219, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9602332711219788, "entropy": 12.378924369812012, "cur_lr": 4.999999873689376e-05, "total_loss": 391.11590576171875}, "load_time_ms": 0.644, "num_steps_sampled": 426000, "grad_time_ms": 657.602, "update_time_ms": 2.123, "sample_time_ms": 29820.511}, "date": "2025-08-30_19-11-41", "hostname": "cda-server-4", "time_this_iter_s": 32.50575923919678, "episodes_total": 2130, "timestamp": 1756573901, "node_ip": "10.157.146.4", "done": false, "time_total_s": 10872.116556882858, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 356, "episode_reward_mean": -660.4647512030217, "training_iteration": 356, "timesteps_total": 427200, "policy_reward_mean": {}, "episode_reward_min": -793.1255921315346, "timesteps_since_restore": 427200, "num_metric_batches_dropped": 0, "time_since_restore": 10902.751859664917, "episode_reward_max": -529.7464601374267, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 427200, "default": {"kl": 0.01291726529598236, "policy_loss": -0.13273780047893524, "vf_loss": 450.4675598144531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.953912079334259, "entropy": 11.993765830993652, "cur_lr": 4.999999873689376e-05, "total_loss": 450.35443115234375}, "load_time_ms": 0.647, "num_steps_sampled": 427200, "grad_time_ms": 660.154, "update_time_ms": 2.13, "sample_time_ms": 30079.102}, "date": "2025-08-30_19-12-12", "hostname": "cda-server-4", "time_this_iter_s": 30.635302782058716, "episodes_total": 2136, "timestamp": 1756573932, "node_ip": "10.157.146.4", "done": false, "time_total_s": 10902.751859664917, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 357, "episode_reward_mean": -657.4791723140556, "training_iteration": 357, "timesteps_total": 428400, "policy_reward_mean": {}, "episode_reward_min": -793.1255921315346, "timesteps_since_restore": 428400, "num_metric_batches_dropped": 0, "time_since_restore": 10931.614634037018, "episode_reward_max": -529.7464601374267, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 428400, "default": {"kl": 0.01209017913788557, "policy_loss": -0.12166254967451096, "vf_loss": 427.2095031738281, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.944880485534668, "entropy": 12.004915237426758, "cur_lr": 4.999999873689376e-05, "total_loss": 427.106201171875}, "load_time_ms": 0.649, "num_steps_sampled": 428400, "grad_time_ms": 663.432, "update_time_ms": 2.083, "sample_time_ms": 29773.601}, "date": "2025-08-30_19-12-40", "hostname": "cda-server-4", "time_this_iter_s": 28.86277437210083, "episodes_total": 2142, "timestamp": 1756573960, "node_ip": "10.157.146.4", "done": false, "time_total_s": 10931.614634037018, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 358, "episode_reward_mean": -659.5609738456344, "training_iteration": 358, "timesteps_total": 429600, "policy_reward_mean": {}, "episode_reward_min": -793.1255921315346, "timesteps_since_restore": 429600, "num_metric_batches_dropped": 0, "time_since_restore": 10961.71468925476, "episode_reward_max": -529.7464601374267, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 429600, "default": {"kl": 0.01325797475874424, "policy_loss": -0.1483605057001114, "vf_loss": 223.19677734375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.98200923204422, "entropy": 11.95703125, "cur_lr": 4.999999873689376e-05, "total_loss": 223.06854248046875}, "load_time_ms": 0.651, "num_steps_sampled": 429600, "grad_time_ms": 671.975, "update_time_ms": 2.126, "sample_time_ms": 29559.569}, "date": "2025-08-30_19-13-11", "hostname": "cda-server-4", "time_this_iter_s": 30.10005521774292, "episodes_total": 2148, "timestamp": 1756573991, "node_ip": "10.157.146.4", "done": false, "time_total_s": 10961.71468925476, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 359, "episode_reward_mean": -662.6905075256665, "training_iteration": 359, "timesteps_total": 430800, "policy_reward_mean": {}, "episode_reward_min": -793.1255921315346, "timesteps_since_restore": 430800, "num_metric_batches_dropped": 0, "time_since_restore": 10988.1281914711, "episode_reward_max": -531.8821348059028, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 430800, "default": {"kl": 0.01132895052433014, "policy_loss": -0.1308848261833191, "vf_loss": 470.6153564453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.945103645324707, "entropy": 11.837614059448242, "cur_lr": 4.999999873689376e-05, "total_loss": 470.5016174316406}, "load_time_ms": 0.647, "num_steps_sampled": 430800, "grad_time_ms": 664.507, "update_time_ms": 2.133, "sample_time_ms": 29179.257}, "date": "2025-08-30_19-13-37", "hostname": "cda-server-4", "time_this_iter_s": 26.41350221633911, "episodes_total": 2154, "timestamp": 1756574017, "node_ip": "10.157.146.4", "done": false, "time_total_s": 10988.1281914711, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 360, "episode_reward_mean": -661.5905852008523, "training_iteration": 360, "timesteps_total": 432000, "policy_reward_mean": {}, "episode_reward_min": -793.1255921315346, "timesteps_since_restore": 432000, "num_metric_batches_dropped": 0, "time_since_restore": 11019.120131254196, "episode_reward_max": -531.8821348059028, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 432000, "default": {"kl": 0.011307726614177227, "policy_loss": -0.1278906613588333, "vf_loss": 612.376220703125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9645116329193115, "entropy": 12.111734390258789, "cur_lr": 4.999999873689376e-05, "total_loss": 612.2655029296875}, "load_time_ms": 0.639, "num_steps_sampled": 432000, "grad_time_ms": 679.774, "update_time_ms": 2.113, "sample_time_ms": 29273.767}, "date": "2025-08-30_19-14-08", "hostname": "cda-server-4", "time_this_iter_s": 30.991939783096313, "episodes_total": 2160, "timestamp": 1756574048, "node_ip": "10.157.146.4", "done": false, "time_total_s": 11019.120131254196, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 361, "episode_reward_mean": -659.5191230144774, "training_iteration": 361, "timesteps_total": 433200, "policy_reward_mean": {}, "episode_reward_min": -779.9262794866036, "timesteps_since_restore": 433200, "num_metric_batches_dropped": 0, "time_since_restore": 11051.89932346344, "episode_reward_max": -531.8821348059028, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 433200, "default": {"kl": 0.010311324149370193, "policy_loss": -0.13780800998210907, "vf_loss": 390.74285888671875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9599650502204895, "entropy": 12.011969566345215, "cur_lr": 4.999999873689376e-05, "total_loss": 390.6206970214844}, "load_time_ms": 0.638, "num_steps_sampled": 433200, "grad_time_ms": 680.13, "update_time_ms": 2.333, "sample_time_ms": 29733.221}, "date": "2025-08-30_19-14-41", "hostname": "cda-server-4", "time_this_iter_s": 32.779192209243774, "episodes_total": 2166, "timestamp": 1756574081, "node_ip": "10.157.146.4", "done": false, "time_total_s": 11051.89932346344, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 362, "episode_reward_mean": -659.3764517113004, "training_iteration": 362, "timesteps_total": 434400, "policy_reward_mean": {}, "episode_reward_min": -779.9262794866036, "timesteps_since_restore": 434400, "num_metric_batches_dropped": 0, "time_since_restore": 11079.228989124298, "episode_reward_max": -531.8821348059028, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 434400, "default": {"kl": 0.012264400720596313, "policy_loss": -0.1364085078239441, "vf_loss": 157.8299102783203, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9805479049682617, "entropy": 11.759389877319336, "cur_lr": 4.999999873689376e-05, "total_loss": 157.71212768554688}, "load_time_ms": 0.604, "num_steps_sampled": 434400, "grad_time_ms": 680.361, "update_time_ms": 2.433, "sample_time_ms": 29070.575}, "date": "2025-08-30_19-15-08", "hostname": "cda-server-4", "time_this_iter_s": 27.329665660858154, "episodes_total": 2172, "timestamp": 1756574108, "node_ip": "10.157.146.4", "done": false, "time_total_s": 11079.228989124298, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 363, "episode_reward_mean": -656.3913315109224, "training_iteration": 363, "timesteps_total": 435600, "policy_reward_mean": {}, "episode_reward_min": -779.9262794866036, "timesteps_since_restore": 435600, "num_metric_batches_dropped": 0, "time_since_restore": 11110.45657324791, "episode_reward_max": -531.8821348059028, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 435600, "default": {"kl": 0.010398616082966328, "policy_loss": -0.12007072567939758, "vf_loss": 251.78659057617188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9770198464393616, "entropy": 11.690271377563477, "cur_lr": 4.999999873689376e-05, "total_loss": 251.6822967529297}, "load_time_ms": 0.601, "num_steps_sampled": 435600, "grad_time_ms": 673.306, "update_time_ms": 2.453, "sample_time_ms": 29271.052}, "date": "2025-08-30_19-15-39", "hostname": "cda-server-4", "time_this_iter_s": 31.22758412361145, "episodes_total": 2178, "timestamp": 1756574139, "node_ip": "10.157.146.4", "done": false, "time_total_s": 11110.45657324791, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 364, "episode_reward_mean": -653.5019094679128, "training_iteration": 364, "timesteps_total": 436800, "policy_reward_mean": {}, "episode_reward_min": -779.9262794866036, "timesteps_since_restore": 436800, "num_metric_batches_dropped": 0, "time_since_restore": 11141.260165929794, "episode_reward_max": -531.8821348059028, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 436800, "default": {"kl": 0.01297477912157774, "policy_loss": -0.1373092085123062, "vf_loss": 517.228271484375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9587048292160034, "entropy": 11.855205535888672, "cur_lr": 4.999999873689376e-05, "total_loss": 517.110595703125}, "load_time_ms": 0.595, "num_steps_sampled": 436800, "grad_time_ms": 661.797, "update_time_ms": 2.476, "sample_time_ms": 29496.109}, "date": "2025-08-30_19-16-10", "hostname": "cda-server-4", "time_this_iter_s": 30.803592681884766, "episodes_total": 2184, "timestamp": 1756574170, "node_ip": "10.157.146.4", "done": false, "time_total_s": 11141.260165929794, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 365, "episode_reward_mean": -651.6592624932271, "training_iteration": 365, "timesteps_total": 438000, "policy_reward_mean": {}, "episode_reward_min": -779.9262794866036, "timesteps_since_restore": 438000, "num_metric_batches_dropped": 0, "time_since_restore": 11171.024110078812, "episode_reward_max": -531.8821348059028, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 438000, "default": {"kl": 0.012388080358505249, "policy_loss": -0.13801229000091553, "vf_loss": 183.64889526367188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9787243604660034, "entropy": 11.688871383666992, "cur_lr": 4.999999873689376e-05, "total_loss": 183.52972412109375}, "load_time_ms": 0.613, "num_steps_sampled": 438000, "grad_time_ms": 653.417, "update_time_ms": 2.432, "sample_time_ms": 29230.36}, "date": "2025-08-30_19-16-40", "hostname": "cda-server-4", "time_this_iter_s": 29.763944149017334, "episodes_total": 2190, "timestamp": 1756574200, "node_ip": "10.157.146.4", "done": false, "time_total_s": 11171.024110078812, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 366, "episode_reward_mean": -649.8250670351615, "training_iteration": 366, "timesteps_total": 439200, "policy_reward_mean": {}, "episode_reward_min": -783.6325620114673, "timesteps_since_restore": 439200, "num_metric_batches_dropped": 0, "time_since_restore": 11202.93855547905, "episode_reward_max": -531.8821348059028, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 439200, "default": {"kl": 0.013163303025066853, "policy_loss": -0.15501652657985687, "vf_loss": 782.3692016601562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9083096981048584, "entropy": 12.015533447265625, "cur_lr": 4.999999873689376e-05, "total_loss": 782.234130859375}, "load_time_ms": 0.612, "num_steps_sampled": 439200, "grad_time_ms": 631.666, "update_time_ms": 2.42, "sample_time_ms": 29380.033}, "date": "2025-08-30_19-17-12", "hostname": "cda-server-4", "time_this_iter_s": 31.914445400238037, "episodes_total": 2196, "timestamp": 1756574232, "node_ip": "10.157.146.4", "done": false, "time_total_s": 11202.93855547905, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 367, "episode_reward_mean": -652.5707766637508, "training_iteration": 367, "timesteps_total": 440400, "policy_reward_mean": {}, "episode_reward_min": -783.6325620114673, "timesteps_since_restore": 440400, "num_metric_batches_dropped": 0, "time_since_restore": 11232.425256490707, "episode_reward_max": -531.8821348059028, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 440400, "default": {"kl": 0.014182791113853455, "policy_loss": -0.1622396856546402, "vf_loss": 173.9324493408203, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9821863174438477, "entropy": 12.24074935913086, "cur_lr": 4.999999873689376e-05, "total_loss": 173.791748046875}, "load_time_ms": 0.62, "num_steps_sampled": 440400, "grad_time_ms": 604.173, "update_time_ms": 2.514, "sample_time_ms": 29469.809}, "date": "2025-08-30_19-17-41", "hostname": "cda-server-4", "time_this_iter_s": 29.486701011657715, "episodes_total": 2202, "timestamp": 1756574261, "node_ip": "10.157.146.4", "done": false, "time_total_s": 11232.425256490707, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 368, "episode_reward_mean": -652.8958381158045, "training_iteration": 368, "timesteps_total": 441600, "policy_reward_mean": {}, "episode_reward_min": -787.2701304789948, "timesteps_since_restore": 441600, "num_metric_batches_dropped": 0, "time_since_restore": 11263.404405593872, "episode_reward_max": -531.8821348059028, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 441600, "default": {"kl": 0.011770833283662796, "policy_loss": -0.14712181687355042, "vf_loss": 308.9986267089844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9833388924598694, "entropy": 11.87253475189209, "cur_lr": 4.999999873689376e-05, "total_loss": 308.869384765625}, "load_time_ms": 0.619, "num_steps_sampled": 441600, "grad_time_ms": 591.767, "update_time_ms": 2.47, "sample_time_ms": 29570.268}, "date": "2025-08-30_19-18-12", "hostname": "cda-server-4", "time_this_iter_s": 30.979149103164673, "episodes_total": 2208, "timestamp": 1756574292, "node_ip": "10.157.146.4", "done": false, "time_total_s": 11263.404405593872, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 369, "episode_reward_mean": -653.7618206240363, "training_iteration": 369, "timesteps_total": 442800, "policy_reward_mean": {}, "episode_reward_min": -787.2701304789948, "timesteps_since_restore": 442800, "num_metric_batches_dropped": 0, "time_since_restore": 11296.417956352234, "episode_reward_max": -531.8821348059028, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 442800, "default": {"kl": 0.012733805924654007, "policy_loss": -0.14355581998825073, "vf_loss": 164.1221923828125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.977875828742981, "entropy": 12.01869010925293, "cur_lr": 4.999999873689376e-05, "total_loss": 163.99798583984375}, "load_time_ms": 0.617, "num_steps_sampled": 442800, "grad_time_ms": 603.728, "update_time_ms": 2.461, "sample_time_ms": 30218.301}, "date": "2025-08-30_19-18-45", "hostname": "cda-server-4", "time_this_iter_s": 33.013550758361816, "episodes_total": 2214, "timestamp": 1756574325, "node_ip": "10.157.146.4", "done": false, "time_total_s": 11296.417956352234, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 370, "episode_reward_mean": -651.6739541318019, "training_iteration": 370, "timesteps_total": 444000, "policy_reward_mean": {}, "episode_reward_min": -787.2701304789948, "timesteps_since_restore": 444000, "num_metric_batches_dropped": 0, "time_since_restore": 11325.051797866821, "episode_reward_max": -531.8821348059028, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 444000, "default": {"kl": 0.011563828215003014, "policy_loss": -0.12343472987413406, "vf_loss": 349.3642578125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9653588533401489, "entropy": 11.833115577697754, "cur_lr": 4.999999873689376e-05, "total_loss": 349.2583923339844}, "load_time_ms": 0.625, "num_steps_sampled": 444000, "grad_time_ms": 580.137, "update_time_ms": 2.508, "sample_time_ms": 30005.963}, "date": "2025-08-30_19-19-14", "hostname": "cda-server-4", "time_this_iter_s": 28.633841514587402, "episodes_total": 2220, "timestamp": 1756574354, "node_ip": "10.157.146.4", "done": false, "time_total_s": 11325.051797866821, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 371, "episode_reward_mean": -652.1429027889683, "training_iteration": 371, "timesteps_total": 445200, "policy_reward_mean": {}, "episode_reward_min": -800.4861222376395, "timesteps_since_restore": 445200, "num_metric_batches_dropped": 0, "time_since_restore": 11352.330226898193, "episode_reward_max": -531.8821348059028, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 445200, "default": {"kl": 0.012125001288950443, "policy_loss": -0.1385250687599182, "vf_loss": 229.4317169189453, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9736897349357605, "entropy": 11.942022323608398, "cur_lr": 4.999999873689376e-05, "total_loss": 229.3115997314453}, "load_time_ms": 0.626, "num_steps_sampled": 445200, "grad_time_ms": 579.75, "update_time_ms": 2.492, "sample_time_ms": 29456.25}, "date": "2025-08-30_19-19-41", "hostname": "cda-server-4", "time_this_iter_s": 27.27842903137207, "episodes_total": 2226, "timestamp": 1756574381, "node_ip": "10.157.146.4", "done": false, "time_total_s": 11352.330226898193, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 372, "episode_reward_mean": -652.8653301989901, "training_iteration": 372, "timesteps_total": 446400, "policy_reward_mean": {}, "episode_reward_min": -800.4861222376395, "timesteps_since_restore": 446400, "num_metric_batches_dropped": 0, "time_since_restore": 11381.560165643692, "episode_reward_max": -576.3193639085121, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 446400, "default": {"kl": 0.012154823169112206, "policy_loss": -0.13855712115764618, "vf_loss": 612.4223022460938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.926721453666687, "entropy": 11.804417610168457, "cur_lr": 4.999999873689376e-05, "total_loss": 612.3021850585938}, "load_time_ms": 0.626, "num_steps_sampled": 446400, "grad_time_ms": 569.407, "update_time_ms": 2.465, "sample_time_ms": 29656.623}, "date": "2025-08-30_19-20-11", "hostname": "cda-server-4", "time_this_iter_s": 29.229938745498657, "episodes_total": 2232, "timestamp": 1756574411, "node_ip": "10.157.146.4", "done": false, "time_total_s": 11381.560165643692, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 373, "episode_reward_mean": -652.7920449990539, "training_iteration": 373, "timesteps_total": 447600, "policy_reward_mean": {}, "episode_reward_min": -800.4861222376395, "timesteps_since_restore": 447600, "num_metric_batches_dropped": 0, "time_since_restore": 11412.40290427208, "episode_reward_max": -576.3193639085121, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 447600, "default": {"kl": 0.012823138386011124, "policy_loss": -0.1375441998243332, "vf_loss": 283.98443603515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9572903513908386, "entropy": 11.896403312683105, "cur_lr": 4.999999873689376e-05, "total_loss": 283.8663330078125}, "load_time_ms": 0.664, "num_steps_sampled": 447600, "grad_time_ms": 562.342, "update_time_ms": 2.405, "sample_time_ms": 29625.212}, "date": "2025-08-30_19-20-42", "hostname": "cda-server-4", "time_this_iter_s": 30.84273862838745, "episodes_total": 2238, "timestamp": 1756574442, "node_ip": "10.157.146.4", "done": false, "time_total_s": 11412.40290427208, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 374, "episode_reward_mean": -652.8176718913951, "training_iteration": 374, "timesteps_total": 448800, "policy_reward_mean": {}, "episode_reward_min": -800.4861222376395, "timesteps_since_restore": 448800, "num_metric_batches_dropped": 0, "time_since_restore": 11445.364431142807, "episode_reward_max": -576.3193639085121, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 448800, "default": {"kl": 0.011577640660107136, "policy_loss": -0.12470022588968277, "vf_loss": 813.1932983398438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9254924058914185, "entropy": 11.665861129760742, "cur_lr": 4.999999873689376e-05, "total_loss": 813.086181640625}, "load_time_ms": 0.666, "num_steps_sampled": 448800, "grad_time_ms": 577.006, "update_time_ms": 2.428, "sample_time_ms": 29826.275}, "date": "2025-08-30_19-21-15", "hostname": "cda-server-4", "time_this_iter_s": 32.96152687072754, "episodes_total": 2244, "timestamp": 1756574475, "node_ip": "10.157.146.4", "done": false, "time_total_s": 11445.364431142807, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 375, "episode_reward_mean": -651.5675999281955, "training_iteration": 375, "timesteps_total": 450000, "policy_reward_mean": {}, "episode_reward_min": -800.4861222376395, "timesteps_since_restore": 450000, "num_metric_batches_dropped": 0, "time_since_restore": 11474.790271997452, "episode_reward_max": -576.3193639085121, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 450000, "default": {"kl": 0.01066372636705637, "policy_loss": -0.1282341033220291, "vf_loss": 288.3180236816406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9632014036178589, "entropy": 11.790325164794922, "cur_lr": 4.999999873689376e-05, "total_loss": 288.20599365234375}, "load_time_ms": 0.644, "num_steps_sampled": 450000, "grad_time_ms": 574.956, "update_time_ms": 2.434, "sample_time_ms": 29794.518}, "date": "2025-08-30_19-21-44", "hostname": "cda-server-4", "time_this_iter_s": 29.425840854644775, "episodes_total": 2250, "timestamp": 1756574504, "node_ip": "10.157.146.4", "done": false, "time_total_s": 11474.790271997452, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 376, "episode_reward_mean": -649.8284041151247, "training_iteration": 376, "timesteps_total": 451200, "policy_reward_mean": {}, "episode_reward_min": -800.4861222376395, "timesteps_since_restore": 451200, "num_metric_batches_dropped": 0, "time_since_restore": 11504.721803665161, "episode_reward_max": -576.3193639085121, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 451200, "default": {"kl": 0.011767422780394554, "policy_loss": -0.12729433178901672, "vf_loss": 558.8378295898438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9242022037506104, "entropy": 11.564064979553223, "cur_lr": 4.999999873689376e-05, "total_loss": 558.7283935546875}, "load_time_ms": 0.644, "num_steps_sampled": 451200, "grad_time_ms": 580.315, "update_time_ms": 2.413, "sample_time_ms": 29590.906}, "date": "2025-08-30_19-22-14", "hostname": "cda-server-4", "time_this_iter_s": 29.93153166770935, "episodes_total": 2256, "timestamp": 1756574534, "node_ip": "10.157.146.4", "done": false, "time_total_s": 11504.721803665161, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 377, "episode_reward_mean": -650.1408786588042, "training_iteration": 377, "timesteps_total": 452400, "policy_reward_mean": {}, "episode_reward_min": -800.4861222376395, "timesteps_since_restore": 452400, "num_metric_batches_dropped": 0, "time_since_restore": 11534.818470954895, "episode_reward_max": -576.3193639085121, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 452400, "default": {"kl": 0.013074897229671478, "policy_loss": -0.14729051291942596, "vf_loss": 587.1740112304688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9347745180130005, "entropy": 11.740240097045898, "cur_lr": 4.999999873689376e-05, "total_loss": 587.046630859375}, "load_time_ms": 0.638, "num_steps_sampled": 452400, "grad_time_ms": 594.455, "update_time_ms": 2.313, "sample_time_ms": 29637.882}, "date": "2025-08-30_19-22-44", "hostname": "cda-server-4", "time_this_iter_s": 30.096667289733887, "episodes_total": 2262, "timestamp": 1756574564, "node_ip": "10.157.146.4", "done": false, "time_total_s": 11534.818470954895, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 378, "episode_reward_mean": -649.6706326792633, "training_iteration": 378, "timesteps_total": 453600, "policy_reward_mean": {}, "episode_reward_min": -800.4861222376395, "timesteps_since_restore": 453600, "num_metric_batches_dropped": 0, "time_since_restore": 11568.820597410202, "episode_reward_max": -576.3193639085121, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 453600, "default": {"kl": 0.011658120900392532, "policy_loss": -0.13328033685684204, "vf_loss": 358.858154296875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9640960693359375, "entropy": 11.77822208404541, "cur_lr": 4.999999873689376e-05, "total_loss": 358.7425537109375}, "load_time_ms": 0.638, "num_steps_sampled": 453600, "grad_time_ms": 600.534, "update_time_ms": 2.378, "sample_time_ms": 29933.96}, "date": "2025-08-30_19-23-18", "hostname": "cda-server-4", "time_this_iter_s": 34.00212645530701, "episodes_total": 2268, "timestamp": 1756574598, "node_ip": "10.157.146.4", "done": false, "time_total_s": 11568.820597410202, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 379, "episode_reward_mean": -649.2406625795317, "training_iteration": 379, "timesteps_total": 454800, "policy_reward_mean": {}, "episode_reward_min": -800.4861222376395, "timesteps_since_restore": 454800, "num_metric_batches_dropped": 0, "time_since_restore": 11599.372833967209, "episode_reward_max": -576.3193639085121, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 454800, "default": {"kl": 0.011643631383776665, "policy_loss": -0.1349378228187561, "vf_loss": 106.65695190429688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9870976209640503, "entropy": 11.521137237548828, "cur_lr": 4.999999873689376e-05, "total_loss": 106.53970336914062}, "load_time_ms": 0.674, "num_steps_sampled": 454800, "grad_time_ms": 598.335, "update_time_ms": 2.444, "sample_time_ms": 29689.862}, "date": "2025-08-30_19-23-49", "hostname": "cda-server-4", "time_this_iter_s": 30.552236557006836, "episodes_total": 2274, "timestamp": 1756574629, "node_ip": "10.157.146.4", "done": false, "time_total_s": 11599.372833967209, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 380, "episode_reward_mean": -650.0969925426709, "training_iteration": 380, "timesteps_total": 456000, "policy_reward_mean": {}, "episode_reward_min": -800.4861222376395, "timesteps_since_restore": 456000, "num_metric_batches_dropped": 0, "time_since_restore": 11629.52064037323, "episode_reward_max": -576.3193639085121, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 456000, "default": {"kl": 0.01220494695007801, "policy_loss": -0.12758710980415344, "vf_loss": 685.902587890625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9308052062988281, "entropy": 11.769736289978027, "cur_lr": 4.999999873689376e-05, "total_loss": 685.7935180664062}, "load_time_ms": 0.668, "num_steps_sampled": 456000, "grad_time_ms": 605.811, "update_time_ms": 2.471, "sample_time_ms": 29833.881}, "date": "2025-08-30_19-24-19", "hostname": "cda-server-4", "time_this_iter_s": 30.147806406021118, "episodes_total": 2280, "timestamp": 1756574659, "node_ip": "10.157.146.4", "done": false, "time_total_s": 11629.52064037323, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 381, "episode_reward_mean": -650.5574809042857, "training_iteration": 381, "timesteps_total": 457200, "policy_reward_mean": {}, "episode_reward_min": -800.4861222376395, "timesteps_since_restore": 457200, "num_metric_batches_dropped": 0, "time_since_restore": 11660.885551214218, "episode_reward_max": -576.3193639085121, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 457200, "default": {"kl": 0.01098396722227335, "policy_loss": -0.13409923017024994, "vf_loss": 217.50735473632812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9714789986610413, "entropy": 11.805960655212402, "cur_lr": 4.999999873689376e-05, "total_loss": 217.3899383544922}, "load_time_ms": 0.677, "num_steps_sampled": 457200, "grad_time_ms": 595.137, "update_time_ms": 2.368, "sample_time_ms": 30253.308}, "date": "2025-08-30_19-24-50", "hostname": "cda-server-4", "time_this_iter_s": 31.36491084098816, "episodes_total": 2286, "timestamp": 1756574690, "node_ip": "10.157.146.4", "done": false, "time_total_s": 11660.885551214218, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 382, "episode_reward_mean": -650.8956960966549, "training_iteration": 382, "timesteps_total": 458400, "policy_reward_mean": {}, "episode_reward_min": -800.4861222376395, "timesteps_since_restore": 458400, "num_metric_batches_dropped": 0, "time_since_restore": 11693.643800258636, "episode_reward_max": -576.3193639085121, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 458400, "default": {"kl": 0.009565525688230991, "policy_loss": -0.13193246722221375, "vf_loss": 1002.6173095703125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.900008499622345, "entropy": 11.843884468078613, "cur_lr": 4.999999873689376e-05, "total_loss": 1002.4998779296875}, "load_time_ms": 0.674, "num_steps_sampled": 458400, "grad_time_ms": 600.849, "update_time_ms": 2.339, "sample_time_ms": 30600.403}, "date": "2025-08-30_19-25-23", "hostname": "cda-server-4", "time_this_iter_s": 32.758249044418335, "episodes_total": 2292, "timestamp": 1756574723, "node_ip": "10.157.146.4", "done": false, "time_total_s": 11693.643800258636, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 383, "episode_reward_mean": -648.8597581291662, "training_iteration": 383, "timesteps_total": 459600, "policy_reward_mean": {}, "episode_reward_min": -800.4861222376395, "timesteps_since_restore": 459600, "num_metric_batches_dropped": 0, "time_since_restore": 11724.705814123154, "episode_reward_max": -576.3193639085121, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 459600, "default": {"kl": 0.012100663036108017, "policy_loss": -0.13107337057590485, "vf_loss": 216.83876037597656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9790356755256653, "entropy": 11.72041130065918, "cur_lr": 4.999999873689376e-05, "total_loss": 216.72608947753906}, "load_time_ms": 0.636, "num_steps_sampled": 459600, "grad_time_ms": 603.043, "update_time_ms": 2.321, "sample_time_ms": 30620.258}, "date": "2025-08-30_19-25-54", "hostname": "cda-server-4", "time_this_iter_s": 31.062013864517212, "episodes_total": 2298, "timestamp": 1756574754, "node_ip": "10.157.146.4", "done": false, "time_total_s": 11724.705814123154, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 384, "episode_reward_mean": -643.2989448842276, "training_iteration": 384, "timesteps_total": 460800, "policy_reward_mean": {}, "episode_reward_min": -800.4861222376395, "timesteps_since_restore": 460800, "num_metric_batches_dropped": 0, "time_since_restore": 11752.914869308472, "episode_reward_max": -576.3193639085121, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 460800, "default": {"kl": 0.010782729834318161, "policy_loss": -0.12820371985435486, "vf_loss": 335.3606872558594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9792271852493286, "entropy": 11.716666221618652, "cur_lr": 4.999999873689376e-05, "total_loss": 335.2488708496094}, "load_time_ms": 0.629, "num_steps_sampled": 460800, "grad_time_ms": 596.833, "update_time_ms": 2.25, "sample_time_ms": 30151.338}, "date": "2025-08-30_19-26-22", "hostname": "cda-server-4", "time_this_iter_s": 28.209055185317993, "episodes_total": 2304, "timestamp": 1756574782, "node_ip": "10.157.146.4", "done": false, "time_total_s": 11752.914869308472, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 385, "episode_reward_mean": -643.6460106562218, "training_iteration": 385, "timesteps_total": 462000, "policy_reward_mean": {}, "episode_reward_min": -800.4861222376395, "timesteps_since_restore": 462000, "num_metric_batches_dropped": 0, "time_since_restore": 11784.118421554565, "episode_reward_max": -576.3193639085121, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 462000, "default": {"kl": 0.011434676125645638, "policy_loss": -0.13393837213516235, "vf_loss": 283.8072814941406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9711477756500244, "entropy": 11.767513275146484, "cur_lr": 4.999999873689376e-05, "total_loss": 283.69073486328125}, "load_time_ms": 0.64, "num_steps_sampled": 462000, "grad_time_ms": 600.969, "update_time_ms": 2.235, "sample_time_ms": 30324.995}, "date": "2025-08-30_19-26-53", "hostname": "cda-server-4", "time_this_iter_s": 31.20355224609375, "episodes_total": 2310, "timestamp": 1756574813, "node_ip": "10.157.146.4", "done": false, "time_total_s": 11784.118421554565, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 386, "episode_reward_mean": -643.2106339713988, "training_iteration": 386, "timesteps_total": 463200, "policy_reward_mean": {}, "episode_reward_min": -800.4861222376395, "timesteps_since_restore": 463200, "num_metric_batches_dropped": 0, "time_since_restore": 11814.248703241348, "episode_reward_max": -576.3193639085121, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 463200, "default": {"kl": 0.010650929063558578, "policy_loss": -0.12613458931446075, "vf_loss": 296.56719970703125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9681307673454285, "entropy": 11.701899528503418, "cur_lr": 4.999999873689376e-05, "total_loss": 296.4572448730469}, "load_time_ms": 0.648, "num_steps_sampled": 463200, "grad_time_ms": 633.02, "update_time_ms": 2.236, "sample_time_ms": 30312.541}, "date": "2025-08-30_19-27-24", "hostname": "cda-server-4", "time_this_iter_s": 30.130281686782837, "episodes_total": 2316, "timestamp": 1756574844, "node_ip": "10.157.146.4", "done": false, "time_total_s": 11814.248703241348, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 387, "episode_reward_mean": -644.2593353442014, "training_iteration": 387, "timesteps_total": 464400, "policy_reward_mean": {}, "episode_reward_min": -800.4861222376395, "timesteps_since_restore": 464400, "num_metric_batches_dropped": 0, "time_since_restore": 11847.027981996536, "episode_reward_max": -597.3579411612487, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 464400, "default": {"kl": 0.011310750618577003, "policy_loss": -0.12007595598697662, "vf_loss": 662.0377807617188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9165183305740356, "entropy": 11.58356761932373, "cur_lr": 4.999999873689376e-05, "total_loss": 661.9348754882812}, "load_time_ms": 0.643, "num_steps_sampled": 464400, "grad_time_ms": 646.724, "update_time_ms": 2.326, "sample_time_ms": 30566.973}, "date": "2025-08-30_19-27-56", "hostname": "cda-server-4", "time_this_iter_s": 32.77927875518799, "episodes_total": 2322, "timestamp": 1756574876, "node_ip": "10.157.146.4", "done": false, "time_total_s": 11847.027981996536, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 388, "episode_reward_mean": -641.8445474073538, "training_iteration": 388, "timesteps_total": 465600, "policy_reward_mean": {}, "episode_reward_min": -758.3651657788904, "timesteps_since_restore": 465600, "num_metric_batches_dropped": 0, "time_since_restore": 11873.937721967697, "episode_reward_max": -597.3579411612487, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 465600, "default": {"kl": 0.009687335230410099, "policy_loss": -0.11192846298217773, "vf_loss": 65.97167205810547, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9894397258758545, "entropy": 11.56912612915039, "cur_lr": 4.999999873689376e-05, "total_loss": 65.87445831298828}, "load_time_ms": 0.64, "num_steps_sampled": 465600, "grad_time_ms": 666.051, "update_time_ms": 2.299, "sample_time_ms": 29838.458}, "date": "2025-08-30_19-28-23", "hostname": "cda-server-4", "time_this_iter_s": 26.90973997116089, "episodes_total": 2328, "timestamp": 1756574903, "node_ip": "10.157.146.4", "done": false, "time_total_s": 11873.937721967697, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 389, "episode_reward_mean": -641.3893401211699, "training_iteration": 389, "timesteps_total": 466800, "policy_reward_mean": {}, "episode_reward_min": -758.3651657788904, "timesteps_since_restore": 466800, "num_metric_batches_dropped": 0, "time_since_restore": 11905.565346956253, "episode_reward_max": -593.5997156179308, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 466800, "default": {"kl": 0.01167338714003563, "policy_loss": -0.13282667100429535, "vf_loss": 707.8972778320312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9187676310539246, "entropy": 11.824955940246582, "cur_lr": 4.999999873689376e-05, "total_loss": 707.7822265625}, "load_time_ms": 0.603, "num_steps_sampled": 466800, "grad_time_ms": 684.879, "update_time_ms": 2.274, "sample_time_ms": 29927.262}, "date": "2025-08-30_19-28-55", "hostname": "cda-server-4", "time_this_iter_s": 31.627624988555908, "episodes_total": 2334, "timestamp": 1756574935, "node_ip": "10.157.146.4", "done": false, "time_total_s": 11905.565346956253, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 390, "episode_reward_mean": -639.3587540417171, "training_iteration": 390, "timesteps_total": 468000, "policy_reward_mean": {}, "episode_reward_min": -758.3651657788904, "timesteps_since_restore": 468000, "num_metric_batches_dropped": 0, "time_since_restore": 11937.218532085419, "episode_reward_max": -593.5997156179308, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 468000, "default": {"kl": 0.00939159281551838, "policy_loss": -0.10155928879976273, "vf_loss": 340.8047790527344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9560463428497314, "entropy": 11.446356773376465, "cur_lr": 4.999999873689376e-05, "total_loss": 340.7174987792969}, "load_time_ms": 0.623, "num_steps_sampled": 468000, "grad_time_ms": 692.442, "update_time_ms": 2.272, "sample_time_ms": 30070.163}, "date": "2025-08-30_19-29-27", "hostname": "cda-server-4", "time_this_iter_s": 31.65318512916565, "episodes_total": 2340, "timestamp": 1756574967, "node_ip": "10.157.146.4", "done": false, "time_total_s": 11937.218532085419, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 391, "episode_reward_mean": -640.3061784259476, "training_iteration": 391, "timesteps_total": 469200, "policy_reward_mean": {}, "episode_reward_min": -764.2894088460642, "timesteps_since_restore": 469200, "num_metric_batches_dropped": 0, "time_since_restore": 11968.945586204529, "episode_reward_max": -593.5997156179308, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 469200, "default": {"kl": 0.011856277473270893, "policy_loss": -0.14098389446735382, "vf_loss": 647.330322265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9365953803062439, "entropy": 11.632464408874512, "cur_lr": 4.999999873689376e-05, "total_loss": 647.207275390625}, "load_time_ms": 0.613, "num_steps_sampled": 469200, "grad_time_ms": 707.075, "update_time_ms": 2.217, "sample_time_ms": 30091.817}, "date": "2025-08-30_19-29-58", "hostname": "cda-server-4", "time_this_iter_s": 31.727054119110107, "episodes_total": 2346, "timestamp": 1756574998, "node_ip": "10.157.146.4", "done": false, "time_total_s": 11968.945586204529, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 392, "episode_reward_mean": -638.0925406045736, "training_iteration": 392, "timesteps_total": 470400, "policy_reward_mean": {}, "episode_reward_min": -764.2894088460642, "timesteps_since_restore": 470400, "num_metric_batches_dropped": 0, "time_since_restore": 11997.806302785873, "episode_reward_max": -518.1842460559923, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 470400, "default": {"kl": 0.010743703693151474, "policy_loss": -0.13002611696720123, "vf_loss": 291.41351318359375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.956954300403595, "entropy": 11.546682357788086, "cur_lr": 4.999999873689376e-05, "total_loss": 291.2998352050781}, "load_time_ms": 0.609, "num_steps_sampled": 470400, "grad_time_ms": 704.448, "update_time_ms": 2.24, "sample_time_ms": 29704.726}, "date": "2025-08-30_19-30-27", "hostname": "cda-server-4", "time_this_iter_s": 28.860716581344604, "episodes_total": 2352, "timestamp": 1756575027, "node_ip": "10.157.146.4", "done": false, "time_total_s": 11997.806302785873, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 393, "episode_reward_mean": -638.4542569107549, "training_iteration": 393, "timesteps_total": 471600, "policy_reward_mean": {}, "episode_reward_min": -764.2894088460642, "timesteps_since_restore": 471600, "num_metric_batches_dropped": 0, "time_since_restore": 12029.222579240799, "episode_reward_max": -518.1842460559923, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 471600, "default": {"kl": 0.010707036592066288, "policy_loss": -0.12268233299255371, "vf_loss": 130.2811279296875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9791914820671082, "entropy": 11.49620532989502, "cur_lr": 4.999999873689376e-05, "total_loss": 130.1747283935547}, "load_time_ms": 0.618, "num_steps_sampled": 471600, "grad_time_ms": 724.863, "update_time_ms": 2.362, "sample_time_ms": 29719.572}, "date": "2025-08-30_19-30-59", "hostname": "cda-server-4", "time_this_iter_s": 31.416276454925537, "episodes_total": 2358, "timestamp": 1756575059, "node_ip": "10.157.146.4", "done": false, "time_total_s": 12029.222579240799, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 394, "episode_reward_mean": -637.0219740204739, "training_iteration": 394, "timesteps_total": 472800, "policy_reward_mean": {}, "episode_reward_min": -764.2894088460642, "timesteps_since_restore": 472800, "num_metric_batches_dropped": 0, "time_since_restore": 12058.608887195587, "episode_reward_max": -518.1842460559923, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 472800, "default": {"kl": 0.008886952884495258, "policy_loss": -0.1033916175365448, "vf_loss": 214.4928741455078, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9702847599983215, "entropy": 11.353751182556152, "cur_lr": 4.999999873689376e-05, "total_loss": 214.40298461914062}, "load_time_ms": 0.633, "num_steps_sampled": 472800, "grad_time_ms": 730.783, "update_time_ms": 2.418, "sample_time_ms": 29831.244}, "date": "2025-08-30_19-31-28", "hostname": "cda-server-4", "time_this_iter_s": 29.386307954788208, "episodes_total": 2364, "timestamp": 1756575088, "node_ip": "10.157.146.4", "done": false, "time_total_s": 12058.608887195587, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 395, "episode_reward_mean": -637.0527711782138, "training_iteration": 395, "timesteps_total": 474000, "policy_reward_mean": {}, "episode_reward_min": -764.2894088460642, "timesteps_since_restore": 474000, "num_metric_batches_dropped": 0, "time_since_restore": 12087.368093252182, "episode_reward_max": -518.1842460559923, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 474000, "default": {"kl": 0.011468911543488503, "policy_loss": -0.12514740228652954, "vf_loss": 308.1039123535156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.95999675989151, "entropy": 11.39576530456543, "cur_lr": 4.999999873689376e-05, "total_loss": 307.9962158203125}, "load_time_ms": 0.633, "num_steps_sampled": 474000, "grad_time_ms": 728.129, "update_time_ms": 2.47, "sample_time_ms": 29589.375}, "date": "2025-08-30_19-31-57", "hostname": "cda-server-4", "time_this_iter_s": 28.75920605659485, "episodes_total": 2370, "timestamp": 1756575117, "node_ip": "10.157.146.4", "done": false, "time_total_s": 12087.368093252182, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 396, "episode_reward_mean": -635.9459869771283, "training_iteration": 396, "timesteps_total": 475200, "policy_reward_mean": {}, "episode_reward_min": -764.2894088460642, "timesteps_since_restore": 475200, "num_metric_batches_dropped": 0, "time_since_restore": 12117.13676571846, "episode_reward_max": -518.1842460559923, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 475200, "default": {"kl": 0.010440576821565628, "policy_loss": -0.1325313001871109, "vf_loss": 398.856201171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9466834664344788, "entropy": 11.533336639404297, "cur_lr": 4.999999873689376e-05, "total_loss": 398.739501953125}, "load_time_ms": 0.62, "num_steps_sampled": 475200, "grad_time_ms": 705.401, "update_time_ms": 2.537, "sample_time_ms": 29576.129}, "date": "2025-08-30_19-32-27", "hostname": "cda-server-4", "time_this_iter_s": 29.768672466278076, "episodes_total": 2376, "timestamp": 1756575147, "node_ip": "10.157.146.4", "done": false, "time_total_s": 12117.13676571846, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 397, "episode_reward_mean": -636.2962000953278, "training_iteration": 397, "timesteps_total": 476400, "policy_reward_mean": {}, "episode_reward_min": -764.2894088460642, "timesteps_since_restore": 476400, "num_metric_batches_dropped": 0, "time_since_restore": 12146.842475414276, "episode_reward_max": -518.1842460559923, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 476400, "default": {"kl": 0.009664906188845634, "policy_loss": -0.12295028567314148, "vf_loss": 633.0899047851562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9232500791549683, "entropy": 11.570501327514648, "cur_lr": 4.999999873689376e-05, "total_loss": 632.9815673828125}, "load_time_ms": 0.651, "num_steps_sampled": 476400, "grad_time_ms": 701.184, "update_time_ms": 2.465, "sample_time_ms": 29273.067}, "date": "2025-08-30_19-32-56", "hostname": "cda-server-4", "time_this_iter_s": 29.70570969581604, "episodes_total": 2382, "timestamp": 1756575176, "node_ip": "10.157.146.4", "done": false, "time_total_s": 12146.842475414276, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 398, "episode_reward_mean": -635.3789662273747, "training_iteration": 398, "timesteps_total": 477600, "policy_reward_mean": {}, "episode_reward_min": -764.2894088460642, "timesteps_since_restore": 477600, "num_metric_batches_dropped": 0, "time_since_restore": 12175.232906341553, "episode_reward_max": -518.1842460559923, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 477600, "default": {"kl": 0.009058279916644096, "policy_loss": -0.10953252762556076, "vf_loss": 117.97886657714844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9830417633056641, "entropy": 11.38052749633789, "cur_lr": 4.999999873689376e-05, "total_loss": 117.88309478759766}, "load_time_ms": 0.65, "num_steps_sampled": 477600, "grad_time_ms": 685.49, "update_time_ms": 2.447, "sample_time_ms": 29436.817}, "date": "2025-08-30_19-33-25", "hostname": "cda-server-4", "time_this_iter_s": 28.39043092727661, "episodes_total": 2388, "timestamp": 1756575205, "node_ip": "10.157.146.4", "done": false, "time_total_s": 12175.232906341553, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 399, "episode_reward_mean": -632.0463065918715, "training_iteration": 399, "timesteps_total": 478800, "policy_reward_mean": {}, "episode_reward_min": -764.2894088460642, "timesteps_since_restore": 478800, "num_metric_batches_dropped": 0, "time_since_restore": 12203.38697886467, "episode_reward_max": -518.1842460559923, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 478800, "default": {"kl": 0.010417578741908073, "policy_loss": -0.1012813150882721, "vf_loss": 471.23675537109375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9441288709640503, "entropy": 11.517040252685547, "cur_lr": 4.999999873689376e-05, "total_loss": 471.15130615234375}, "load_time_ms": 0.655, "num_steps_sampled": 478800, "grad_time_ms": 675.934, "update_time_ms": 2.388, "sample_time_ms": 29099.112}, "date": "2025-08-30_19-33-53", "hostname": "cda-server-4", "time_this_iter_s": 28.154072523117065, "episodes_total": 2394, "timestamp": 1756575233, "node_ip": "10.157.146.4", "done": false, "time_total_s": 12203.38697886467, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 400, "episode_reward_mean": -630.6477203099523, "training_iteration": 400, "timesteps_total": 480000, "policy_reward_mean": {}, "episode_reward_min": -764.2894088460642, "timesteps_since_restore": 480000, "num_metric_batches_dropped": 0, "time_since_restore": 12235.20381307602, "episode_reward_max": -518.1842460559923, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 480000, "default": {"kl": 0.01210097037255764, "policy_loss": -0.11926588416099548, "vf_loss": 236.53054809570312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9697193503379822, "entropy": 11.465248107910156, "cur_lr": 4.999999873689376e-05, "total_loss": 236.42962646484375}, "load_time_ms": 0.633, "num_steps_sampled": 480000, "grad_time_ms": 669.503, "update_time_ms": 2.33, "sample_time_ms": 29122.052}, "date": "2025-08-30_19-34-25", "hostname": "cda-server-4", "time_this_iter_s": 31.816834211349487, "episodes_total": 2400, "timestamp": 1756575265, "node_ip": "10.157.146.4", "done": false, "time_total_s": 12235.20381307602, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 401, "episode_reward_mean": -630.070922685056, "training_iteration": 401, "timesteps_total": 481200, "policy_reward_mean": {}, "episode_reward_min": -782.4764472088095, "timesteps_since_restore": 481200, "num_metric_batches_dropped": 0, "time_since_restore": 12264.352214574814, "episode_reward_max": -518.1842460559923, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 481200, "default": {"kl": 0.010675868950784206, "policy_loss": -0.11996091902256012, "vf_loss": 325.6916198730469, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9630425572395325, "entropy": 11.53316879272461, "cur_lr": 4.999999873689376e-05, "total_loss": 325.587890625}, "load_time_ms": 0.635, "num_steps_sampled": 481200, "grad_time_ms": 651.415, "update_time_ms": 2.316, "sample_time_ms": 28882.303}, "date": "2025-08-30_19-34-54", "hostname": "cda-server-4", "time_this_iter_s": 29.148401498794556, "episodes_total": 2406, "timestamp": 1756575294, "node_ip": "10.157.146.4", "done": false, "time_total_s": 12264.352214574814, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 402, "episode_reward_mean": -629.590650470041, "training_iteration": 402, "timesteps_total": 482400, "policy_reward_mean": {}, "episode_reward_min": -782.4764472088095, "timesteps_since_restore": 482400, "num_metric_batches_dropped": 0, "time_since_restore": 12293.472075462341, "episode_reward_max": -518.1842460559923, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 482400, "default": {"kl": 0.011053700931370258, "policy_loss": -0.11506802588701248, "vf_loss": 249.33132934570312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9695475101470947, "entropy": 11.340203285217285, "cur_lr": 4.999999873689376e-05, "total_loss": 249.2330780029297}, "load_time_ms": 0.636, "num_steps_sampled": 482400, "grad_time_ms": 645.98, "update_time_ms": 2.292, "sample_time_ms": 28913.698}, "date": "2025-08-30_19-35-23", "hostname": "cda-server-4", "time_this_iter_s": 29.119860887527466, "episodes_total": 2412, "timestamp": 1756575323, "node_ip": "10.157.146.4", "done": false, "time_total_s": 12293.472075462341, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 403, "episode_reward_mean": -629.3684182694725, "training_iteration": 403, "timesteps_total": 483600, "policy_reward_mean": {}, "episode_reward_min": -782.4764472088095, "timesteps_since_restore": 483600, "num_metric_batches_dropped": 0, "time_since_restore": 12325.66844367981, "episode_reward_max": -518.1842460559923, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 483600, "default": {"kl": 0.01203213632106781, "policy_loss": -0.12897709012031555, "vf_loss": 731.0440063476562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9272438883781433, "entropy": 11.450332641601562, "cur_lr": 4.999999873689376e-05, "total_loss": 730.9332885742188}, "load_time_ms": 0.642, "num_steps_sampled": 483600, "grad_time_ms": 644.294, "update_time_ms": 2.23, "sample_time_ms": 28993.428}, "date": "2025-08-30_19-35-55", "hostname": "cda-server-4", "time_this_iter_s": 32.19636821746826, "episodes_total": 2418, "timestamp": 1756575355, "node_ip": "10.157.146.4", "done": false, "time_total_s": 12325.66844367981, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 404, "episode_reward_mean": -629.2739963451844, "training_iteration": 404, "timesteps_total": 484800, "policy_reward_mean": {}, "episode_reward_min": -782.4764472088095, "timesteps_since_restore": 484800, "num_metric_batches_dropped": 0, "time_since_restore": 12356.036906719208, "episode_reward_max": -518.1842460559923, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 484800, "default": {"kl": 0.012592227198183537, "policy_loss": -0.1328529268503189, "vf_loss": 637.7174072265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9417679309844971, "entropy": 11.46181869506836, "cur_lr": 4.999999873689376e-05, "total_loss": 637.6036376953125}, "load_time_ms": 0.637, "num_steps_sampled": 484800, "grad_time_ms": 646.458, "update_time_ms": 2.217, "sample_time_ms": 29089.516}, "date": "2025-08-30_19-36-26", "hostname": "cda-server-4", "time_this_iter_s": 30.368463039398193, "episodes_total": 2424, "timestamp": 1756575386, "node_ip": "10.157.146.4", "done": false, "time_total_s": 12356.036906719208, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 405, "episode_reward_mean": -629.2053234945873, "training_iteration": 405, "timesteps_total": 486000, "policy_reward_mean": {}, "episode_reward_min": -782.4764472088095, "timesteps_since_restore": 486000, "num_metric_batches_dropped": 0, "time_since_restore": 12386.143423080444, "episode_reward_max": -518.1842460559923, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 486000, "default": {"kl": 0.010442240163683891, "policy_loss": -0.12765835225582123, "vf_loss": 81.42512512207031, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9879038333892822, "entropy": 11.37342643737793, "cur_lr": 4.999999873689376e-05, "total_loss": 81.31332397460938}, "load_time_ms": 0.645, "num_steps_sampled": 486000, "grad_time_ms": 655.852, "update_time_ms": 2.19, "sample_time_ms": 29214.83}, "date": "2025-08-30_19-36-56", "hostname": "cda-server-4", "time_this_iter_s": 30.106516361236572, "episodes_total": 2430, "timestamp": 1756575416, "node_ip": "10.157.146.4", "done": false, "time_total_s": 12386.143423080444, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 406, "episode_reward_mean": -629.5320869696337, "training_iteration": 406, "timesteps_total": 487200, "policy_reward_mean": {}, "episode_reward_min": -782.4764472088095, "timesteps_since_restore": 487200, "num_metric_batches_dropped": 0, "time_since_restore": 12417.765795469284, "episode_reward_max": -518.1842460559923, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 487200, "default": {"kl": 0.011922824196517467, "policy_loss": -0.1370454877614975, "vf_loss": 98.642333984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9891690015792847, "entropy": 11.456135749816895, "cur_lr": 4.999999873689376e-05, "total_loss": 98.52339172363281}, "load_time_ms": 0.654, "num_steps_sampled": 487200, "grad_time_ms": 656.439, "update_time_ms": 2.181, "sample_time_ms": 29399.659}, "date": "2025-08-30_19-37-27", "hostname": "cda-server-4", "time_this_iter_s": 31.62237238883972, "episodes_total": 2436, "timestamp": 1756575447, "node_ip": "10.157.146.4", "done": false, "time_total_s": 12417.765795469284, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 407, "episode_reward_mean": -627.1523379959885, "training_iteration": 407, "timesteps_total": 488400, "policy_reward_mean": {}, "episode_reward_min": -782.4764472088095, "timesteps_since_restore": 488400, "num_metric_batches_dropped": 0, "time_since_restore": 12449.251817941666, "episode_reward_max": -506.83196623773284, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 488400, "default": {"kl": 0.011445329524576664, "policy_loss": -0.14757797122001648, "vf_loss": 173.9502410888672, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9724202752113342, "entropy": 11.427553176879883, "cur_lr": 4.999999873689376e-05, "total_loss": 173.82005310058594}, "load_time_ms": 0.634, "num_steps_sampled": 488400, "grad_time_ms": 650.832, "update_time_ms": 2.18, "sample_time_ms": 29583.334}, "date": "2025-08-30_19-37-59", "hostname": "cda-server-4", "time_this_iter_s": 31.486022472381592, "episodes_total": 2442, "timestamp": 1756575479, "node_ip": "10.157.146.4", "done": false, "time_total_s": 12449.251817941666, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 408, "episode_reward_mean": -627.0102033011055, "training_iteration": 408, "timesteps_total": 489600, "policy_reward_mean": {}, "episode_reward_min": -782.4764472088095, "timesteps_since_restore": 489600, "num_metric_batches_dropped": 0, "time_since_restore": 12481.213478326797, "episode_reward_max": -506.83196623773284, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 489600, "default": {"kl": 0.010416422970592976, "policy_loss": -0.11337693780660629, "vf_loss": 311.725830078125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9562718272209167, "entropy": 11.226083755493164, "cur_lr": 4.999999873689376e-05, "total_loss": 311.6282958984375}, "load_time_ms": 0.631, "num_steps_sampled": 489600, "grad_time_ms": 655.695, "update_time_ms": 2.24, "sample_time_ms": 29935.532}, "date": "2025-08-30_19-38-31", "hostname": "cda-server-4", "time_this_iter_s": 31.961660385131836, "episodes_total": 2448, "timestamp": 1756575511, "node_ip": "10.157.146.4", "done": false, "time_total_s": 12481.213478326797, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 409, "episode_reward_mean": -627.089309124117, "training_iteration": 409, "timesteps_total": 490800, "policy_reward_mean": {}, "episode_reward_min": -782.4764472088095, "timesteps_since_restore": 490800, "num_metric_batches_dropped": 0, "time_since_restore": 12514.273154973984, "episode_reward_max": -506.83196623773284, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 490800, "default": {"kl": 0.010660373605787754, "policy_loss": -0.1196177527308464, "vf_loss": 236.1148223876953, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9723075032234192, "entropy": 11.234155654907227, "cur_lr": 4.999999873689376e-05, "total_loss": 236.01141357421875}, "load_time_ms": 0.628, "num_steps_sampled": 490800, "grad_time_ms": 663.191, "update_time_ms": 2.288, "sample_time_ms": 30418.547}, "date": "2025-08-30_19-39-04", "hostname": "cda-server-4", "time_this_iter_s": 33.05967664718628, "episodes_total": 2454, "timestamp": 1756575544, "node_ip": "10.157.146.4", "done": false, "time_total_s": 12514.273154973984, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 410, "episode_reward_mean": -625.9663237265503, "training_iteration": 410, "timesteps_total": 492000, "policy_reward_mean": {}, "episode_reward_min": -782.4764472088095, "timesteps_since_restore": 492000, "num_metric_batches_dropped": 0, "time_since_restore": 12542.822041988373, "episode_reward_max": -506.83196623773284, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 492000, "default": {"kl": 0.010048512369394302, "policy_loss": -0.10869237780570984, "vf_loss": 261.45941162109375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9706953763961792, "entropy": 11.431215286254883, "cur_lr": 4.999999873689376e-05, "total_loss": 261.36602783203125}, "load_time_ms": 0.625, "num_steps_sampled": 492000, "grad_time_ms": 671.866, "update_time_ms": 2.282, "sample_time_ms": 30083.087}, "date": "2025-08-30_19-39-33", "hostname": "cda-server-4", "time_this_iter_s": 28.548887014389038, "episodes_total": 2460, "timestamp": 1756575573, "node_ip": "10.157.146.4", "done": false, "time_total_s": 12542.822041988373, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 411, "episode_reward_mean": -625.487158955676, "training_iteration": 411, "timesteps_total": 493200, "policy_reward_mean": {}, "episode_reward_min": -782.4764472088095, "timesteps_since_restore": 493200, "num_metric_batches_dropped": 0, "time_since_restore": 12573.701320409775, "episode_reward_max": -506.83196623773284, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 493200, "default": {"kl": 0.011952308937907219, "policy_loss": -0.1293184459209442, "vf_loss": 113.887451171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.984186053276062, "entropy": 11.308212280273438, "cur_lr": 4.999999873689376e-05, "total_loss": 113.77627563476562}, "load_time_ms": 0.622, "num_steps_sampled": 493200, "grad_time_ms": 688.149, "update_time_ms": 2.306, "sample_time_ms": 30239.764}, "date": "2025-08-30_19-40-04", "hostname": "cda-server-4", "time_this_iter_s": 30.879278421401978, "episodes_total": 2466, "timestamp": 1756575604, "node_ip": "10.157.146.4", "done": false, "time_total_s": 12573.701320409775, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 412, "episode_reward_mean": -623.0988042255907, "training_iteration": 412, "timesteps_total": 494400, "policy_reward_mean": {}, "episode_reward_min": -782.4764472088095, "timesteps_since_restore": 494400, "num_metric_batches_dropped": 0, "time_since_restore": 12606.23567891121, "episode_reward_max": -506.83196623773284, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 494400, "default": {"kl": 0.010702704079449177, "policy_loss": -0.12768039107322693, "vf_loss": 199.48411560058594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9695566892623901, "entropy": 11.187212944030762, "cur_lr": 4.999999873689376e-05, "total_loss": 199.3726806640625}, "load_time_ms": 0.63, "num_steps_sampled": 494400, "grad_time_ms": 705.202, "update_time_ms": 2.29, "sample_time_ms": 30564.179}, "date": "2025-08-30_19-40-36", "hostname": "cda-server-4", "time_this_iter_s": 32.534358501434326, "episodes_total": 2472, "timestamp": 1756575636, "node_ip": "10.157.146.4", "done": false, "time_total_s": 12606.23567891121, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 413, "episode_reward_mean": -623.6688732314686, "training_iteration": 413, "timesteps_total": 495600, "policy_reward_mean": {}, "episode_reward_min": -782.4764472088095, "timesteps_since_restore": 495600, "num_metric_batches_dropped": 0, "time_since_restore": 12635.75145983696, "episode_reward_max": -506.83196623773284, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 495600, "default": {"kl": 0.011852279305458069, "policy_loss": -0.1349233090877533, "vf_loss": 581.3892211914062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9387467503547668, "entropy": 11.466529846191406, "cur_lr": 4.999999873689376e-05, "total_loss": 581.2722778320312}, "load_time_ms": 0.625, "num_steps_sampled": 495600, "grad_time_ms": 707.11, "update_time_ms": 2.283, "sample_time_ms": 30294.186}, "date": "2025-08-30_19-41-06", "hostname": "cda-server-4", "time_this_iter_s": 29.515780925750732, "episodes_total": 2478, "timestamp": 1756575666, "node_ip": "10.157.146.4", "done": false, "time_total_s": 12635.75145983696, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 414, "episode_reward_mean": -621.9032268446656, "training_iteration": 414, "timesteps_total": 496800, "policy_reward_mean": {}, "episode_reward_min": -782.4764472088095, "timesteps_since_restore": 496800, "num_metric_batches_dropped": 0, "time_since_restore": 12667.866390228271, "episode_reward_max": -506.83196623773284, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 496800, "default": {"kl": 0.011990140192210674, "policy_loss": -0.13053886592388153, "vf_loss": 312.5345764160156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9626268744468689, "entropy": 11.422290802001953, "cur_lr": 4.999999873689376e-05, "total_loss": 312.4222412109375}, "load_time_ms": 0.644, "num_steps_sampled": 496800, "grad_time_ms": 706.697, "update_time_ms": 2.348, "sample_time_ms": 30469.128}, "date": "2025-08-30_19-41-38", "hostname": "cda-server-4", "time_this_iter_s": 32.114930391311646, "episodes_total": 2484, "timestamp": 1756575698, "node_ip": "10.157.146.4", "done": false, "time_total_s": 12667.866390228271, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 415, "episode_reward_mean": -621.9048972912019, "training_iteration": 415, "timesteps_total": 498000, "policy_reward_mean": {}, "episode_reward_min": -782.4764472088095, "timesteps_since_restore": 498000, "num_metric_batches_dropped": 0, "time_since_restore": 12700.491395235062, "episode_reward_max": -506.83196623773284, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 498000, "default": {"kl": 0.010699301958084106, "policy_loss": -0.1238834336400032, "vf_loss": 529.3602294921875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.982121467590332, "entropy": 11.358133316040039, "cur_lr": 4.999999873689376e-05, "total_loss": 529.2526245117188}, "load_time_ms": 0.666, "num_steps_sampled": 498000, "grad_time_ms": 704.572, "update_time_ms": 2.422, "sample_time_ms": 30723.015}, "date": "2025-08-30_19-42-10", "hostname": "cda-server-4", "time_this_iter_s": 32.62500500679016, "episodes_total": 2490, "timestamp": 1756575730, "node_ip": "10.157.146.4", "done": false, "time_total_s": 12700.491395235062, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 416, "episode_reward_mean": -623.2323353074803, "training_iteration": 416, "timesteps_total": 499200, "policy_reward_mean": {}, "episode_reward_min": -782.4764472088095, "timesteps_since_restore": 499200, "num_metric_batches_dropped": 0, "time_since_restore": 12733.438433885574, "episode_reward_max": -506.83196623773284, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 499200, "default": {"kl": 0.010188507847487926, "policy_loss": -0.12752032279968262, "vf_loss": 204.20030212402344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9729959964752197, "entropy": 11.354167938232422, "cur_lr": 4.999999873689376e-05, "total_loss": 204.0882568359375}, "load_time_ms": 0.67, "num_steps_sampled": 499200, "grad_time_ms": 707.51, "update_time_ms": 2.406, "sample_time_ms": 30852.51}, "date": "2025-08-30_19-42-43", "hostname": "cda-server-4", "time_this_iter_s": 32.947038650512695, "episodes_total": 2496, "timestamp": 1756575763, "node_ip": "10.157.146.4", "done": false, "time_total_s": 12733.438433885574, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 417, "episode_reward_mean": -622.6801538703096, "training_iteration": 417, "timesteps_total": 500400, "policy_reward_mean": {}, "episode_reward_min": -782.4764472088095, "timesteps_since_restore": 500400, "num_metric_batches_dropped": 0, "time_since_restore": 12764.138852119446, "episode_reward_max": -506.83196623773284, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 500400, "default": {"kl": 0.010038874112069607, "policy_loss": -0.10395693778991699, "vf_loss": 168.76083374023438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9752934575080872, "entropy": 11.355460166931152, "cur_lr": 4.999999873689376e-05, "total_loss": 168.672119140625}, "load_time_ms": 0.653, "num_steps_sampled": 500400, "grad_time_ms": 712.738, "update_time_ms": 2.429, "sample_time_ms": 30768.703}, "date": "2025-08-30_19-43-14", "hostname": "cda-server-4", "time_this_iter_s": 30.70041823387146, "episodes_total": 2502, "timestamp": 1756575794, "node_ip": "10.157.146.4", "done": false, "time_total_s": 12764.138852119446, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 418, "episode_reward_mean": -621.5231927624033, "training_iteration": 418, "timesteps_total": 501600, "policy_reward_mean": {}, "episode_reward_min": -760.0049193372963, "timesteps_since_restore": 501600, "num_metric_batches_dropped": 0, "time_since_restore": 12793.557911634445, "episode_reward_max": -506.83196623773284, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 501600, "default": {"kl": 0.008787785656750202, "policy_loss": -0.10416018962860107, "vf_loss": 202.17193603515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9657336473464966, "entropy": 11.252314567565918, "cur_lr": 4.999999873689376e-05, "total_loss": 202.08111572265625}, "load_time_ms": 0.653, "num_steps_sampled": 501600, "grad_time_ms": 717.887, "update_time_ms": 2.402, "sample_time_ms": 30509.391}, "date": "2025-08-30_19-43-43", "hostname": "cda-server-4", "time_this_iter_s": 29.41905951499939, "episodes_total": 2508, "timestamp": 1756575823, "node_ip": "10.157.146.4", "done": false, "time_total_s": 12793.557911634445, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 419, "episode_reward_mean": -618.507011320635, "training_iteration": 419, "timesteps_total": 502800, "policy_reward_mean": {}, "episode_reward_min": -760.0049193372963, "timesteps_since_restore": 502800, "num_metric_batches_dropped": 0, "time_since_restore": 12824.353038787842, "episode_reward_max": -482.43287111861144, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 502800, "default": {"kl": 0.01253261137753725, "policy_loss": -0.12642724812030792, "vf_loss": 290.8473815917969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9589463472366333, "entropy": 11.290937423706055, "cur_lr": 4.999999873689376e-05, "total_loss": 290.739990234375}, "load_time_ms": 0.652, "num_steps_sampled": 502800, "grad_time_ms": 716.745, "update_time_ms": 2.4, "sample_time_ms": 30284.068}, "date": "2025-08-30_19-44-14", "hostname": "cda-server-4", "time_this_iter_s": 30.795127153396606, "episodes_total": 2514, "timestamp": 1756575854, "node_ip": "10.157.146.4", "done": false, "time_total_s": 12824.353038787842, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 420, "episode_reward_mean": -619.6955398966081, "training_iteration": 420, "timesteps_total": 504000, "policy_reward_mean": {}, "episode_reward_min": -760.0049193372963, "timesteps_since_restore": 504000, "num_metric_batches_dropped": 0, "time_since_restore": 12854.474318504333, "episode_reward_max": -482.43287111861144, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 504000, "default": {"kl": 0.010044042021036148, "policy_loss": -0.11829026788473129, "vf_loss": 189.12606811523438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9707055687904358, "entropy": 11.271196365356445, "cur_lr": 4.999999873689376e-05, "total_loss": 189.02304077148438}, "load_time_ms": 0.659, "num_steps_sampled": 504000, "grad_time_ms": 716.76, "update_time_ms": 2.406, "sample_time_ms": 30441.23}, "date": "2025-08-30_19-44-44", "hostname": "cda-server-4", "time_this_iter_s": 30.1212797164917, "episodes_total": 2520, "timestamp": 1756575884, "node_ip": "10.157.146.4", "done": false, "time_total_s": 12854.474318504333, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 421, "episode_reward_mean": -618.9670094085825, "training_iteration": 421, "timesteps_total": 505200, "policy_reward_mean": {}, "episode_reward_min": -760.0049193372963, "timesteps_since_restore": 505200, "num_metric_batches_dropped": 0, "time_since_restore": 12886.199102401733, "episode_reward_max": -482.43287111861144, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 505200, "default": {"kl": 0.012418705970048904, "policy_loss": -0.14550410211086273, "vf_loss": 492.1916809082031, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9489838480949402, "entropy": 11.276808738708496, "cur_lr": 4.999999873689376e-05, "total_loss": 492.06500244140625}, "load_time_ms": 0.663, "num_steps_sampled": 505200, "grad_time_ms": 713.906, "update_time_ms": 2.397, "sample_time_ms": 30528.729}, "date": "2025-08-30_19-45-16", "hostname": "cda-server-4", "time_this_iter_s": 31.724783897399902, "episodes_total": 2526, "timestamp": 1756575916, "node_ip": "10.157.146.4", "done": false, "time_total_s": 12886.199102401733, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 422, "episode_reward_mean": -618.7656254554308, "training_iteration": 422, "timesteps_total": 506400, "policy_reward_mean": {}, "episode_reward_min": -760.0049193372963, "timesteps_since_restore": 506400, "num_metric_batches_dropped": 0, "time_since_restore": 12915.277660369873, "episode_reward_max": -482.43287111861144, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 506400, "default": {"kl": 0.010196722112596035, "policy_loss": -0.1120087057352066, "vf_loss": 199.46400451660156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9681761860847473, "entropy": 11.231833457946777, "cur_lr": 4.999999873689376e-05, "total_loss": 199.3674774169922}, "load_time_ms": 0.677, "num_steps_sampled": 506400, "grad_time_ms": 699.941, "update_time_ms": 2.436, "sample_time_ms": 30197.084}, "date": "2025-08-30_19-45-45", "hostname": "cda-server-4", "time_this_iter_s": 29.07855796813965, "episodes_total": 2532, "timestamp": 1756575945, "node_ip": "10.157.146.4", "done": false, "time_total_s": 12915.277660369873, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 423, "episode_reward_mean": -618.3038711962608, "training_iteration": 423, "timesteps_total": 507600, "policy_reward_mean": {}, "episode_reward_min": -741.761673754797, "timesteps_since_restore": 507600, "num_metric_batches_dropped": 0, "time_since_restore": 12942.4099214077, "episode_reward_max": -482.43287111861144, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 507600, "default": {"kl": 0.009446612559258938, "policy_loss": -0.12381798774003983, "vf_loss": 328.1785583496094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.956655740737915, "entropy": 11.244695663452148, "cur_lr": 4.999999873689376e-05, "total_loss": 328.0691223144531}, "load_time_ms": 0.679, "num_steps_sampled": 507600, "grad_time_ms": 682.023, "update_time_ms": 2.394, "sample_time_ms": 29976.757}, "date": "2025-08-30_19-46-12", "hostname": "cda-server-4", "time_this_iter_s": 27.132261037826538, "episodes_total": 2538, "timestamp": 1756575972, "node_ip": "10.157.146.4", "done": false, "time_total_s": 12942.4099214077, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 424, "episode_reward_mean": -619.7433987677543, "training_iteration": 424, "timesteps_total": 508800, "policy_reward_mean": {}, "episode_reward_min": -741.761673754797, "timesteps_since_restore": 508800, "num_metric_batches_dropped": 0, "time_since_restore": 12974.022131204605, "episode_reward_max": -482.43287111861144, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 508800, "default": {"kl": 0.012159706093370914, "policy_loss": -0.12351974099874496, "vf_loss": 76.57357788085938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.988806962966919, "entropy": 11.440713882446289, "cur_lr": 4.999999873689376e-05, "total_loss": 76.46853637695312}, "load_time_ms": 0.664, "num_steps_sampled": 508800, "grad_time_ms": 682.103, "update_time_ms": 2.333, "sample_time_ms": 29926.48}, "date": "2025-08-30_19-46-44", "hostname": "cda-server-4", "time_this_iter_s": 31.612209796905518, "episodes_total": 2544, "timestamp": 1756576004, "node_ip": "10.157.146.4", "done": false, "time_total_s": 12974.022131204605, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 425, "episode_reward_mean": -617.0982117588579, "training_iteration": 425, "timesteps_total": 510000, "policy_reward_mean": {}, "episode_reward_min": -741.761673754797, "timesteps_since_restore": 510000, "num_metric_batches_dropped": 0, "time_since_restore": 13005.40347647667, "episode_reward_max": -478.5827394039238, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 510000, "default": {"kl": 0.011943568475544453, "policy_loss": -0.11899343878030777, "vf_loss": 380.9001770019531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9735039472579956, "entropy": 11.278118133544922, "cur_lr": 4.999999873689376e-05, "total_loss": 380.79931640625}, "load_time_ms": 0.629, "num_steps_sampled": 510000, "grad_time_ms": 675.056, "update_time_ms": 2.32, "sample_time_ms": 29809.255}, "date": "2025-08-30_19-47-15", "hostname": "cda-server-4", "time_this_iter_s": 31.38134527206421, "episodes_total": 2550, "timestamp": 1756576035, "node_ip": "10.157.146.4", "done": false, "time_total_s": 13005.40347647667, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 426, "episode_reward_mean": -617.6200980365638, "training_iteration": 426, "timesteps_total": 511200, "policy_reward_mean": {}, "episode_reward_min": -741.761673754797, "timesteps_since_restore": 511200, "num_metric_batches_dropped": 0, "time_since_restore": 13036.351165771484, "episode_reward_max": -478.5827394039238, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 511200, "default": {"kl": 0.011105973273515701, "policy_loss": -0.12592798471450806, "vf_loss": 138.3424835205078, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9791160225868225, "entropy": 11.151764869689941, "cur_lr": 4.999999873689376e-05, "total_loss": 138.23341369628906}, "load_time_ms": 0.648, "num_steps_sampled": 511200, "grad_time_ms": 652.38, "update_time_ms": 2.31, "sample_time_ms": 29632.024}, "date": "2025-08-30_19-47-46", "hostname": "cda-server-4", "time_this_iter_s": 30.947689294815063, "episodes_total": 2556, "timestamp": 1756576066, "node_ip": "10.157.146.4", "done": false, "time_total_s": 13036.351165771484, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 427, "episode_reward_mean": -618.4377279832704, "training_iteration": 427, "timesteps_total": 512400, "policy_reward_mean": {}, "episode_reward_min": -741.761673754797, "timesteps_since_restore": 512400, "num_metric_batches_dropped": 0, "time_since_restore": 13063.384565353394, "episode_reward_max": -478.5827394039238, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 512400, "default": {"kl": 0.010105280205607414, "policy_loss": -0.12210208922624588, "vf_loss": 148.76092529296875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9810664653778076, "entropy": 11.260576248168945, "cur_lr": 4.999999873689376e-05, "total_loss": 148.6541748046875}, "load_time_ms": 0.67, "num_steps_sampled": 512400, "grad_time_ms": 644.391, "update_time_ms": 2.279, "sample_time_ms": 29273.332}, "date": "2025-08-30_19-48-13", "hostname": "cda-server-4", "time_this_iter_s": 27.03339958190918, "episodes_total": 2562, "timestamp": 1756576093, "node_ip": "10.157.146.4", "done": false, "time_total_s": 13063.384565353394, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 428, "episode_reward_mean": -618.9783714056946, "training_iteration": 428, "timesteps_total": 513600, "policy_reward_mean": {}, "episode_reward_min": -741.761673754797, "timesteps_since_restore": 513600, "num_metric_batches_dropped": 0, "time_since_restore": 13094.03524184227, "episode_reward_max": -478.5827394039238, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 513600, "default": {"kl": 0.01181074883788824, "policy_loss": -0.12302935123443604, "vf_loss": 832.305908203125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9039230346679688, "entropy": 11.307456016540527, "cur_lr": 4.999999873689376e-05, "total_loss": 832.2008666992188}, "load_time_ms": 0.679, "num_steps_sampled": 513600, "grad_time_ms": 638.83, "update_time_ms": 2.224, "sample_time_ms": 29402.082}, "date": "2025-08-30_19-48-44", "hostname": "cda-server-4", "time_this_iter_s": 30.650676488876343, "episodes_total": 2568, "timestamp": 1756576124, "node_ip": "10.157.146.4", "done": false, "time_total_s": 13094.03524184227, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 429, "episode_reward_mean": -618.8616033700997, "training_iteration": 429, "timesteps_total": 514800, "policy_reward_mean": {}, "episode_reward_min": -741.761673754797, "timesteps_since_restore": 514800, "num_metric_batches_dropped": 0, "time_since_restore": 13125.25627207756, "episode_reward_max": -478.5827394039238, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 514800, "default": {"kl": 0.009826356545090675, "policy_loss": -0.11310335248708725, "vf_loss": 253.86778259277344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9634772539138794, "entropy": 11.30257511138916, "cur_lr": 4.999999873689376e-05, "total_loss": 253.7696075439453}, "load_time_ms": 0.678, "num_steps_sampled": 514800, "grad_time_ms": 638.267, "update_time_ms": 2.235, "sample_time_ms": 29445.223}, "date": "2025-08-30_19-49-15", "hostname": "cda-server-4", "time_this_iter_s": 31.221030235290527, "episodes_total": 2574, "timestamp": 1756576155, "node_ip": "10.157.146.4", "done": false, "time_total_s": 13125.25627207756, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 430, "episode_reward_mean": -619.7888873964351, "training_iteration": 430, "timesteps_total": 516000, "policy_reward_mean": {}, "episode_reward_min": -741.761673754797, "timesteps_since_restore": 516000, "num_metric_batches_dropped": 0, "time_since_restore": 13154.664698839188, "episode_reward_max": -478.5827394039238, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 516000, "default": {"kl": 0.01113604474812746, "policy_loss": -0.13459329307079315, "vf_loss": 474.64605712890625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9574849605560303, "entropy": 11.21823501586914, "cur_lr": 4.999999873689376e-05, "total_loss": 474.5284423828125}, "load_time_ms": 0.671, "num_steps_sampled": 516000, "grad_time_ms": 619.996, "update_time_ms": 2.318, "sample_time_ms": 29392.215}, "date": "2025-08-30_19-49-45", "hostname": "cda-server-4", "time_this_iter_s": 29.408426761627197, "episodes_total": 2580, "timestamp": 1756576185, "node_ip": "10.157.146.4", "done": false, "time_total_s": 13154.664698839188, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 431, "episode_reward_mean": -619.4488186822738, "training_iteration": 431, "timesteps_total": 517200, "policy_reward_mean": {}, "episode_reward_min": -741.761673754797, "timesteps_since_restore": 517200, "num_metric_batches_dropped": 0, "time_since_restore": 13183.19893336296, "episode_reward_max": -478.5827394039238, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 517200, "default": {"kl": 0.011878893710672855, "policy_loss": -0.10315563529729843, "vf_loss": 469.1370849609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9485947489738464, "entropy": 11.376200675964355, "cur_lr": 4.999999873689376e-05, "total_loss": 469.0519714355469}, "load_time_ms": 0.674, "num_steps_sampled": 517200, "grad_time_ms": 594.16, "update_time_ms": 2.258, "sample_time_ms": 29099.081}, "date": "2025-08-30_19-50-13", "hostname": "cda-server-4", "time_this_iter_s": 28.534234523773193, "episodes_total": 2586, "timestamp": 1756576213, "node_ip": "10.157.146.4", "done": false, "time_total_s": 13183.19893336296, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 432, "episode_reward_mean": -618.2018147123015, "training_iteration": 432, "timesteps_total": 518400, "policy_reward_mean": {}, "episode_reward_min": -714.2999314164217, "timesteps_since_restore": 518400, "num_metric_batches_dropped": 0, "time_since_restore": 13215.731056213379, "episode_reward_max": -478.5827394039238, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 518400, "default": {"kl": 0.012274261564016342, "policy_loss": -0.13418982923030853, "vf_loss": 560.4349365234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9271774291992188, "entropy": 11.306244850158691, "cur_lr": 4.999999873689376e-05, "total_loss": 560.3193969726562}, "load_time_ms": 0.686, "num_steps_sampled": 518400, "grad_time_ms": 592.688, "update_time_ms": 2.193, "sample_time_ms": 29445.849}, "date": "2025-08-30_19-50-46", "hostname": "cda-server-4", "time_this_iter_s": 32.53212285041809, "episodes_total": 2592, "timestamp": 1756576246, "node_ip": "10.157.146.4", "done": false, "time_total_s": 13215.731056213379, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 433, "episode_reward_mean": -619.5565128633268, "training_iteration": 433, "timesteps_total": 519600, "policy_reward_mean": {}, "episode_reward_min": -754.4954095844768, "timesteps_since_restore": 519600, "num_metric_batches_dropped": 0, "time_since_restore": 13244.602402687073, "episode_reward_max": -478.5827394039238, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 519600, "default": {"kl": 0.007900144904851913, "policy_loss": -0.11487600207328796, "vf_loss": 440.142578125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9400902986526489, "entropy": 11.542848587036133, "cur_lr": 4.999999873689376e-05, "total_loss": 440.0396728515625}, "load_time_ms": 0.688, "num_steps_sampled": 519600, "grad_time_ms": 601.067, "update_time_ms": 2.226, "sample_time_ms": 29611.338}, "date": "2025-08-30_19-51-15", "hostname": "cda-server-4", "time_this_iter_s": 28.871346473693848, "episodes_total": 2598, "timestamp": 1756576275, "node_ip": "10.157.146.4", "done": false, "time_total_s": 13244.602402687073, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 434, "episode_reward_mean": -618.2397096885383, "training_iteration": 434, "timesteps_total": 520800, "policy_reward_mean": {}, "episode_reward_min": -754.4954095844768, "timesteps_since_restore": 520800, "num_metric_batches_dropped": 0, "time_since_restore": 13275.924944639206, "episode_reward_max": -478.5827394039238, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 520800, "default": {"kl": 0.01175084337592125, "policy_loss": -0.12848405539989471, "vf_loss": 192.15391540527344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9802989959716797, "entropy": 11.126642227172852, "cur_lr": 4.999999873689376e-05, "total_loss": 192.04327392578125}, "load_time_ms": 0.687, "num_steps_sampled": 520800, "grad_time_ms": 598.976, "update_time_ms": 2.207, "sample_time_ms": 29584.534}, "date": "2025-08-30_19-51-46", "hostname": "cda-server-4", "time_this_iter_s": 31.32254195213318, "episodes_total": 2604, "timestamp": 1756576306, "node_ip": "10.157.146.4", "done": false, "time_total_s": 13275.924944639206, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 435, "episode_reward_mean": -618.3961777189661, "training_iteration": 435, "timesteps_total": 522000, "policy_reward_mean": {}, "episode_reward_min": -754.4954095844768, "timesteps_since_restore": 522000, "num_metric_batches_dropped": 0, "time_since_restore": 13306.270076990128, "episode_reward_max": -478.5827394039238, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 522000, "default": {"kl": 0.011411968618631363, "policy_loss": -0.11522074788808823, "vf_loss": 508.5558776855469, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9566535949707031, "entropy": 11.049055099487305, "cur_lr": 4.999999873689376e-05, "total_loss": 508.4580078125}, "load_time_ms": 0.686, "num_steps_sampled": 522000, "grad_time_ms": 593.335, "update_time_ms": 2.142, "sample_time_ms": 29486.592}, "date": "2025-08-30_19-52-16", "hostname": "cda-server-4", "time_this_iter_s": 30.34513235092163, "episodes_total": 2610, "timestamp": 1756576336, "node_ip": "10.157.146.4", "done": false, "time_total_s": 13306.270076990128, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 436, "episode_reward_mean": -620.7734393866698, "training_iteration": 436, "timesteps_total": 523200, "policy_reward_mean": {}, "episode_reward_min": -754.4954095844768, "timesteps_since_restore": 523200, "num_metric_batches_dropped": 0, "time_since_restore": 13337.704042196274, "episode_reward_max": -478.5827394039238, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 523200, "default": {"kl": 0.010413645766675472, "policy_loss": -0.12308567017316818, "vf_loss": 289.9085693359375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9676696062088013, "entropy": 11.17711067199707, "cur_lr": 4.999999873689376e-05, "total_loss": 289.8013000488281}, "load_time_ms": 0.687, "num_steps_sampled": 523200, "grad_time_ms": 604.379, "update_time_ms": 2.171, "sample_time_ms": 29524.142}, "date": "2025-08-30_19-52-48", "hostname": "cda-server-4", "time_this_iter_s": 31.43396520614624, "episodes_total": 2616, "timestamp": 1756576368, "node_ip": "10.157.146.4", "done": false, "time_total_s": 13337.704042196274, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 437, "episode_reward_mean": -618.887726551697, "training_iteration": 437, "timesteps_total": 524400, "policy_reward_mean": {}, "episode_reward_min": -754.4954095844768, "timesteps_since_restore": 524400, "num_metric_batches_dropped": 0, "time_since_restore": 13369.030546665192, "episode_reward_max": -478.5827394039238, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 524400, "default": {"kl": 0.010223116725683212, "policy_loss": -0.10484219342470169, "vf_loss": 365.40985107421875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9622731804847717, "entropy": 11.085165023803711, "cur_lr": 4.999999873689376e-05, "total_loss": 365.320556640625}, "load_time_ms": 0.698, "num_steps_sampled": 524400, "grad_time_ms": 614.265, "update_time_ms": 2.116, "sample_time_ms": 29943.576}, "date": "2025-08-30_19-53-19", "hostname": "cda-server-4", "time_this_iter_s": 31.326504468917847, "episodes_total": 2622, "timestamp": 1756576399, "node_ip": "10.157.146.4", "done": false, "time_total_s": 13369.030546665192, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 438, "episode_reward_mean": -620.227636096882, "training_iteration": 438, "timesteps_total": 525600, "policy_reward_mean": {}, "episode_reward_min": -754.4954095844768, "timesteps_since_restore": 525600, "num_metric_batches_dropped": 0, "time_since_restore": 13398.344521284103, "episode_reward_max": -478.5827394039238, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 525600, "default": {"kl": 0.010720684193074703, "policy_loss": -0.12073726207017899, "vf_loss": 147.25755310058594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9806778430938721, "entropy": 11.136150360107422, "cur_lr": 4.999999873689376e-05, "total_loss": 147.15310668945312}, "load_time_ms": 0.698, "num_steps_sampled": 525600, "grad_time_ms": 625.6, "update_time_ms": 2.174, "sample_time_ms": 29798.504}, "date": "2025-08-30_19-53-49", "hostname": "cda-server-4", "time_this_iter_s": 29.313974618911743, "episodes_total": 2628, "timestamp": 1756576429, "node_ip": "10.157.146.4", "done": false, "time_total_s": 13398.344521284103, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 439, "episode_reward_mean": -618.0132041908639, "training_iteration": 439, "timesteps_total": 526800, "policy_reward_mean": {}, "episode_reward_min": -754.4954095844768, "timesteps_since_restore": 526800, "num_metric_batches_dropped": 0, "time_since_restore": 13427.999064445496, "episode_reward_max": -477.8698393574042, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 526800, "default": {"kl": 0.010507526807487011, "policy_loss": -0.1191876232624054, "vf_loss": 167.7955780029297, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.972925066947937, "entropy": 11.11034870147705, "cur_lr": 4.999999873689376e-05, "total_loss": 167.6923370361328}, "load_time_ms": 0.728, "num_steps_sampled": 526800, "grad_time_ms": 629.935, "update_time_ms": 2.139, "sample_time_ms": 29637.488}, "date": "2025-08-30_19-54-18", "hostname": "cda-server-4", "time_this_iter_s": 29.654543161392212, "episodes_total": 2634, "timestamp": 1756576458, "node_ip": "10.157.146.4", "done": false, "time_total_s": 13427.999064445496, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 440, "episode_reward_mean": -617.1057796624341, "training_iteration": 440, "timesteps_total": 528000, "policy_reward_mean": {}, "episode_reward_min": -754.4954095844768, "timesteps_since_restore": 528000, "num_metric_batches_dropped": 0, "time_since_restore": 13460.296050548553, "episode_reward_max": -477.8698393574042, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 528000, "default": {"kl": 0.009674395434558392, "policy_loss": -0.09741339087486267, "vf_loss": 406.3402099609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9408784508705139, "entropy": 10.950899124145508, "cur_lr": 4.999999873689376e-05, "total_loss": 406.2574462890625}, "load_time_ms": 0.736, "num_steps_sampled": 528000, "grad_time_ms": 650.016, "update_time_ms": 2.045, "sample_time_ms": 29906.239}, "date": "2025-08-30_19-54-51", "hostname": "cda-server-4", "time_this_iter_s": 32.29698610305786, "episodes_total": 2640, "timestamp": 1756576491, "node_ip": "10.157.146.4", "done": false, "time_total_s": 13460.296050548553, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 441, "episode_reward_mean": -617.2222281089366, "training_iteration": 441, "timesteps_total": 529200, "policy_reward_mean": {}, "episode_reward_min": -754.4954095844768, "timesteps_since_restore": 529200, "num_metric_batches_dropped": 0, "time_since_restore": 13487.136195659637, "episode_reward_max": -477.8698393574042, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 529200, "default": {"kl": 0.009605806320905685, "policy_loss": -0.12376541644334793, "vf_loss": 59.38190460205078, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9918918609619141, "entropy": 11.096755981445312, "cur_lr": 4.999999873689376e-05, "total_loss": 59.27272415161133}, "load_time_ms": 0.73, "num_steps_sampled": 529200, "grad_time_ms": 675.153, "update_time_ms": 2.165, "sample_time_ms": 29711.593}, "date": "2025-08-30_19-55-17", "hostname": "cda-server-4", "time_this_iter_s": 26.840145111083984, "episodes_total": 2646, "timestamp": 1756576517, "node_ip": "10.157.146.4", "done": false, "time_total_s": 13487.136195659637, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 442, "episode_reward_mean": -618.5671173310204, "training_iteration": 442, "timesteps_total": 530400, "policy_reward_mean": {}, "episode_reward_min": -754.4954095844768, "timesteps_since_restore": 530400, "num_metric_batches_dropped": 0, "time_since_restore": 13517.612721681595, "episode_reward_max": -477.8698393574042, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 530400, "default": {"kl": 0.01261213794350624, "policy_loss": -0.13193361461162567, "vf_loss": 103.00617980957031, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9872576594352722, "entropy": 11.210396766662598, "cur_lr": 4.999999873689376e-05, "total_loss": 102.89339447021484}, "load_time_ms": 0.702, "num_steps_sampled": 530400, "grad_time_ms": 688.839, "update_time_ms": 2.159, "sample_time_ms": 29492.434}, "date": "2025-08-30_19-55-48", "hostname": "cda-server-4", "time_this_iter_s": 30.476526021957397, "episodes_total": 2652, "timestamp": 1756576548, "node_ip": "10.157.146.4", "done": false, "time_total_s": 13517.612721681595, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 443, "episode_reward_mean": -618.248516089753, "training_iteration": 443, "timesteps_total": 531600, "policy_reward_mean": {}, "episode_reward_min": -754.4954095844768, "timesteps_since_restore": 531600, "num_metric_batches_dropped": 0, "time_since_restore": 13548.090602636337, "episode_reward_max": -477.8698393574042, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 531600, "default": {"kl": 0.009559571743011475, "policy_loss": -0.11067056655883789, "vf_loss": 292.37689208984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9740414023399353, "entropy": 11.048171997070312, "cur_lr": 4.999999873689376e-05, "total_loss": 292.2807312011719}, "load_time_ms": 0.696, "num_steps_sampled": 531600, "grad_time_ms": 698.354, "update_time_ms": 2.163, "sample_time_ms": 29643.602}, "date": "2025-08-30_19-56-18", "hostname": "cda-server-4", "time_this_iter_s": 30.47788095474243, "episodes_total": 2658, "timestamp": 1756576578, "node_ip": "10.157.146.4", "done": false, "time_total_s": 13548.090602636337, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 444, "episode_reward_mean": -617.9316665686562, "training_iteration": 444, "timesteps_total": 532800, "policy_reward_mean": {}, "episode_reward_min": -754.4954095844768, "timesteps_since_restore": 532800, "num_metric_batches_dropped": 0, "time_since_restore": 13577.614768981934, "episode_reward_max": -477.8698393574042, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 532800, "default": {"kl": 0.00951873417943716, "policy_loss": -0.10757703334093094, "vf_loss": 508.3123779296875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9256016612052917, "entropy": 10.95256233215332, "cur_lr": 4.999999873689376e-05, "total_loss": 508.21929931640625}, "load_time_ms": 0.725, "num_steps_sampled": 532800, "grad_time_ms": 705.948, "update_time_ms": 2.182, "sample_time_ms": 29456.068}, "date": "2025-08-30_19-56-48", "hostname": "cda-server-4", "time_this_iter_s": 29.524166345596313, "episodes_total": 2664, "timestamp": 1756576608, "node_ip": "10.157.146.4", "done": false, "time_total_s": 13577.614768981934, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 445, "episode_reward_mean": -619.8079515324335, "training_iteration": 445, "timesteps_total": 534000, "policy_reward_mean": {}, "episode_reward_min": -754.4954095844768, "timesteps_since_restore": 534000, "num_metric_batches_dropped": 0, "time_since_restore": 13611.172102212906, "episode_reward_max": -477.8698393574042, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 534000, "default": {"kl": 0.010123070329427719, "policy_loss": -0.11215332895517349, "vf_loss": 218.11282348632812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9762314558029175, "entropy": 11.04014778137207, "cur_lr": 4.999999873689376e-05, "total_loss": 218.0160369873047}, "load_time_ms": 0.719, "num_steps_sampled": 534000, "grad_time_ms": 715.578, "update_time_ms": 2.235, "sample_time_ms": 29767.637}, "date": "2025-08-30_19-57-22", "hostname": "cda-server-4", "time_this_iter_s": 33.55733323097229, "episodes_total": 2670, "timestamp": 1756576642, "node_ip": "10.157.146.4", "done": false, "time_total_s": 13611.172102212906, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 446, "episode_reward_mean": -620.4819894383271, "training_iteration": 446, "timesteps_total": 535200, "policy_reward_mean": {}, "episode_reward_min": -754.4954095844768, "timesteps_since_restore": 535200, "num_metric_batches_dropped": 0, "time_since_restore": 13642.2602725029, "episode_reward_max": -477.8698393574042, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 535200, "default": {"kl": 0.008759144693613052, "policy_loss": -0.11334971338510513, "vf_loss": 534.3622436523438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9174603223800659, "entropy": 11.19375228881836, "cur_lr": 4.999999873689376e-05, "total_loss": 534.2622680664062}, "load_time_ms": 0.689, "num_steps_sampled": 535200, "grad_time_ms": 731.599, "update_time_ms": 2.262, "sample_time_ms": 29716.995}, "date": "2025-08-30_19-57-53", "hostname": "cda-server-4", "time_this_iter_s": 31.088170289993286, "episodes_total": 2676, "timestamp": 1756576673, "node_ip": "10.157.146.4", "done": false, "time_total_s": 13642.2602725029, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 447, "episode_reward_mean": -619.2860705952822, "training_iteration": 447, "timesteps_total": 536400, "policy_reward_mean": {}, "episode_reward_min": -754.4954095844768, "timesteps_since_restore": 536400, "num_metric_batches_dropped": 0, "time_since_restore": 13673.844406604767, "episode_reward_max": -477.8698393574042, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 536400, "default": {"kl": 0.011812294833362103, "policy_loss": -0.09959924966096878, "vf_loss": 519.2363891601562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9370423555374146, "entropy": 10.94975757598877, "cur_lr": 4.999999873689376e-05, "total_loss": 519.1547241210938}, "load_time_ms": 0.661, "num_steps_sampled": 536400, "grad_time_ms": 737.116, "update_time_ms": 2.309, "sample_time_ms": 29737.248}, "date": "2025-08-30_19-58-24", "hostname": "cda-server-4", "time_this_iter_s": 31.584134101867676, "episodes_total": 2682, "timestamp": 1756576704, "node_ip": "10.157.146.4", "done": false, "time_total_s": 13673.844406604767, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 448, "episode_reward_mean": -620.8398765791339, "training_iteration": 448, "timesteps_total": 537600, "policy_reward_mean": {}, "episode_reward_min": -754.4954095844768, "timesteps_since_restore": 537600, "num_metric_batches_dropped": 0, "time_since_restore": 13702.926866054535, "episode_reward_max": -477.8698393574042, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 537600, "default": {"kl": 0.012666087597608566, "policy_loss": -0.13876546919345856, "vf_loss": 402.6359558105469, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.967880368232727, "entropy": 10.897870063781738, "cur_lr": 4.999999873689376e-05, "total_loss": 402.51641845703125}, "load_time_ms": 0.664, "num_steps_sampled": 537600, "grad_time_ms": 737.488, "update_time_ms": 2.268, "sample_time_ms": 29713.746}, "date": "2025-08-30_19-58-53", "hostname": "cda-server-4", "time_this_iter_s": 29.082459449768066, "episodes_total": 2688, "timestamp": 1756576733, "node_ip": "10.157.146.4", "done": false, "time_total_s": 13702.926866054535, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 449, "episode_reward_mean": -621.7826303513091, "training_iteration": 449, "timesteps_total": 538800, "policy_reward_mean": {}, "episode_reward_min": -754.4954095844768, "timesteps_since_restore": 538800, "num_metric_batches_dropped": 0, "time_since_restore": 13735.881003379822, "episode_reward_max": -477.8698393574042, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 538800, "default": {"kl": 0.008443779312074184, "policy_loss": -0.117045558989048, "vf_loss": 334.7080383300781, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9571969509124756, "entropy": 11.06395435333252, "cur_lr": 4.999999873689376e-05, "total_loss": 334.60382080078125}, "load_time_ms": 0.631, "num_steps_sampled": 538800, "grad_time_ms": 732.998, "update_time_ms": 2.25, "sample_time_ms": 30048.339}, "date": "2025-08-30_19-59-26", "hostname": "cda-server-4", "time_this_iter_s": 32.954137325286865, "episodes_total": 2694, "timestamp": 1756576766, "node_ip": "10.157.146.4", "done": false, "time_total_s": 13735.881003379822, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 450, "episode_reward_mean": -623.7718853410722, "training_iteration": 450, "timesteps_total": 540000, "policy_reward_mean": {}, "episode_reward_min": -795.1451085947858, "timesteps_since_restore": 540000, "num_metric_batches_dropped": 0, "time_since_restore": 13766.15259051323, "episode_reward_max": -477.8698393574042, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 540000, "default": {"kl": 0.011179734021425247, "policy_loss": -0.1340395212173462, "vf_loss": 341.8172607421875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9622538685798645, "entropy": 11.082621574401855, "cur_lr": 4.999999873689376e-05, "total_loss": 341.7002258300781}, "load_time_ms": 0.637, "num_steps_sampled": 540000, "grad_time_ms": 717.502, "update_time_ms": 2.303, "sample_time_ms": 29861.288}, "date": "2025-08-30_19-59-57", "hostname": "cda-server-4", "time_this_iter_s": 30.271587133407593, "episodes_total": 2700, "timestamp": 1756576797, "node_ip": "10.157.146.4", "done": false, "time_total_s": 13766.15259051323, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 451, "episode_reward_mean": -625.4798293951617, "training_iteration": 451, "timesteps_total": 541200, "policy_reward_mean": {}, "episode_reward_min": -795.1451085947858, "timesteps_since_restore": 541200, "num_metric_batches_dropped": 0, "time_since_restore": 13796.959985017776, "episode_reward_max": -477.8698393574042, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 541200, "default": {"kl": 0.011080041527748108, "policy_loss": -0.11797753721475601, "vf_loss": 392.2762145996094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9494214653968811, "entropy": 10.868993759155273, "cur_lr": 4.999999873689376e-05, "total_loss": 392.1750793457031}, "load_time_ms": 0.672, "num_steps_sampled": 541200, "grad_time_ms": 700.399, "update_time_ms": 2.226, "sample_time_ms": 30275.123}, "date": "2025-08-30_20-00-27", "hostname": "cda-server-4", "time_this_iter_s": 30.80739450454712, "episodes_total": 2706, "timestamp": 1756576827, "node_ip": "10.157.146.4", "done": false, "time_total_s": 13796.959985017776, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 452, "episode_reward_mean": -624.9714210737807, "training_iteration": 452, "timesteps_total": 542400, "policy_reward_mean": {}, "episode_reward_min": -795.1451085947858, "timesteps_since_restore": 542400, "num_metric_batches_dropped": 0, "time_since_restore": 13825.330749750137, "episode_reward_max": -477.8698393574042, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 542400, "default": {"kl": 0.012937087565660477, "policy_loss": -0.13519510626792908, "vf_loss": 776.182861328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9378864765167236, "entropy": 11.043757438659668, "cur_lr": 4.999999873689376e-05, "total_loss": 776.0674438476562}, "load_time_ms": 0.68, "num_steps_sampled": 542400, "grad_time_ms": 680.222, "update_time_ms": 2.323, "sample_time_ms": 30084.583}, "date": "2025-08-30_20-00-56", "hostname": "cda-server-4", "time_this_iter_s": 28.37076473236084, "episodes_total": 2712, "timestamp": 1756576856, "node_ip": "10.157.146.4", "done": false, "time_total_s": 13825.330749750137, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 453, "episode_reward_mean": -626.1122110859855, "training_iteration": 453, "timesteps_total": 543600, "policy_reward_mean": {}, "episode_reward_min": -795.1451085947858, "timesteps_since_restore": 543600, "num_metric_batches_dropped": 0, "time_since_restore": 13853.653752803802, "episode_reward_max": -477.8698393574042, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 543600, "default": {"kl": 0.009691610932350159, "policy_loss": -0.13002413511276245, "vf_loss": 192.2396697998047, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9851133823394775, "entropy": 10.918725967407227, "cur_lr": 4.999999873689376e-05, "total_loss": 192.1243438720703}, "load_time_ms": 0.672, "num_steps_sampled": 543600, "grad_time_ms": 654.907, "update_time_ms": 2.34, "sample_time_ms": 29894.373}, "date": "2025-08-30_20-01-24", "hostname": "cda-server-4", "time_this_iter_s": 28.32300305366516, "episodes_total": 2718, "timestamp": 1756576884, "node_ip": "10.157.146.4", "done": false, "time_total_s": 13853.653752803802, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 454, "episode_reward_mean": -627.0090146813001, "training_iteration": 454, "timesteps_total": 544800, "policy_reward_mean": {}, "episode_reward_min": -795.1451085947858, "timesteps_since_restore": 544800, "num_metric_batches_dropped": 0, "time_since_restore": 13884.222023010254, "episode_reward_max": -477.8698393574042, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 544800, "default": {"kl": 0.011771554127335548, "policy_loss": -0.11822578310966492, "vf_loss": 542.2007446289062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9435520172119141, "entropy": 11.006814002990723, "cur_lr": 4.999999873689376e-05, "total_loss": 542.100341796875}, "load_time_ms": 0.671, "num_steps_sampled": 544800, "grad_time_ms": 638.742, "update_time_ms": 2.351, "sample_time_ms": 30014.884}, "date": "2025-08-30_20-01-55", "hostname": "cda-server-4", "time_this_iter_s": 30.568270206451416, "episodes_total": 2724, "timestamp": 1756576915, "node_ip": "10.157.146.4", "done": false, "time_total_s": 13884.222023010254, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 455, "episode_reward_mean": -626.774358154718, "training_iteration": 455, "timesteps_total": 546000, "policy_reward_mean": {}, "episode_reward_min": -795.1451085947858, "timesteps_since_restore": 546000, "num_metric_batches_dropped": 0, "time_since_restore": 13910.867819547653, "episode_reward_max": -477.8698393574042, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 546000, "default": {"kl": 0.009761239401996136, "policy_loss": -0.11705771833658218, "vf_loss": 248.08335876464844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9806420207023621, "entropy": 11.134438514709473, "cur_lr": 4.999999873689376e-05, "total_loss": 247.98114013671875}, "load_time_ms": 0.671, "num_steps_sampled": 546000, "grad_time_ms": 618.016, "update_time_ms": 2.334, "sample_time_ms": 29344.518}, "date": "2025-08-30_20-02-21", "hostname": "cda-server-4", "time_this_iter_s": 26.645796537399292, "episodes_total": 2730, "timestamp": 1756576941, "node_ip": "10.157.146.4", "done": false, "time_total_s": 13910.867819547653, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 456, "episode_reward_mean": -626.9305592472365, "training_iteration": 456, "timesteps_total": 547200, "policy_reward_mean": {}, "episode_reward_min": -795.1451085947858, "timesteps_since_restore": 547200, "num_metric_batches_dropped": 0, "time_since_restore": 13941.040147781372, "episode_reward_max": -502.23436115699616, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 547200, "default": {"kl": 0.01187687087804079, "policy_loss": -0.12870319187641144, "vf_loss": 237.98733520507812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9726995825767517, "entropy": 10.854279518127441, "cur_lr": 4.999999873689376e-05, "total_loss": 237.87664794921875}, "load_time_ms": 0.671, "num_steps_sampled": 547200, "grad_time_ms": 617.126, "update_time_ms": 2.228, "sample_time_ms": 29253.953}, "date": "2025-08-30_20-02-52", "hostname": "cda-server-4", "time_this_iter_s": 30.172328233718872, "episodes_total": 2736, "timestamp": 1756576972, "node_ip": "10.157.146.4", "done": false, "time_total_s": 13941.040147781372, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 457, "episode_reward_mean": -628.9082143701471, "training_iteration": 457, "timesteps_total": 548400, "policy_reward_mean": {}, "episode_reward_min": -795.1451085947858, "timesteps_since_restore": 548400, "num_metric_batches_dropped": 0, "time_since_restore": 13973.203260183334, "episode_reward_max": -502.23436115699616, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 548400, "default": {"kl": 0.008532809093594551, "policy_loss": -0.11340778321027756, "vf_loss": 328.3537292480469, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9667870402336121, "entropy": 10.85225772857666, "cur_lr": 4.999999873689376e-05, "total_loss": 328.2532653808594}, "load_time_ms": 0.67, "num_steps_sampled": 548400, "grad_time_ms": 614.107, "update_time_ms": 2.242, "sample_time_ms": 29314.873}, "date": "2025-08-30_20-03-24", "hostname": "cda-server-4", "time_this_iter_s": 32.16311240196228, "episodes_total": 2742, "timestamp": 1756577004, "node_ip": "10.157.146.4", "done": false, "time_total_s": 13973.203260183334, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 458, "episode_reward_mean": -628.4376244775493, "training_iteration": 458, "timesteps_total": 549600, "policy_reward_mean": {}, "episode_reward_min": -795.1451085947858, "timesteps_since_restore": 549600, "num_metric_batches_dropped": 0, "time_since_restore": 14005.301946401596, "episode_reward_max": -565.9127786669212, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 549600, "default": {"kl": 0.010677252896130085, "policy_loss": -0.09670945256948471, "vf_loss": 293.049072265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9624599814414978, "entropy": 10.818774223327637, "cur_lr": 4.999999873689376e-05, "total_loss": 292.9686279296875}, "load_time_ms": 0.662, "num_steps_sampled": 549600, "grad_time_ms": 604.972, "update_time_ms": 2.263, "sample_time_ms": 29625.625}, "date": "2025-08-30_20-03-56", "hostname": "cda-server-4", "time_this_iter_s": 32.09868621826172, "episodes_total": 2748, "timestamp": 1756577036, "node_ip": "10.157.146.4", "done": false, "time_total_s": 14005.301946401596, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 459, "episode_reward_mean": -629.860624967939, "training_iteration": 459, "timesteps_total": 550800, "policy_reward_mean": {}, "episode_reward_min": -795.1451085947858, "timesteps_since_restore": 550800, "num_metric_batches_dropped": 0, "time_since_restore": 14037.893481016159, "episode_reward_max": -565.9127786669212, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 550800, "default": {"kl": 0.009920721873641014, "policy_loss": -0.12251467257738113, "vf_loss": 259.9671325683594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9616109132766724, "entropy": 10.844526290893555, "cur_lr": 4.999999873689376e-05, "total_loss": 259.85968017578125}, "load_time_ms": 0.667, "num_steps_sampled": 550800, "grad_time_ms": 593.806, "update_time_ms": 2.317, "sample_time_ms": 29600.453}, "date": "2025-08-30_20-04-28", "hostname": "cda-server-4", "time_this_iter_s": 32.59153461456299, "episodes_total": 2754, "timestamp": 1756577068, "node_ip": "10.157.146.4", "done": false, "time_total_s": 14037.893481016159, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 460, "episode_reward_mean": -630.3936442474046, "training_iteration": 460, "timesteps_total": 552000, "policy_reward_mean": {}, "episode_reward_min": -795.1451085947858, "timesteps_since_restore": 552000, "num_metric_batches_dropped": 0, "time_since_restore": 14066.232396125793, "episode_reward_max": -565.9127786669212, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 552000, "default": {"kl": 0.010878431610763073, "policy_loss": -0.12890978157520294, "vf_loss": 383.9095153808594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9711061120033264, "entropy": 10.981531143188477, "cur_lr": 4.999999873689376e-05, "total_loss": 383.7970275878906}, "load_time_ms": 0.668, "num_steps_sampled": 552000, "grad_time_ms": 589.175, "update_time_ms": 2.329, "sample_time_ms": 29411.767}, "date": "2025-08-30_20-04-57", "hostname": "cda-server-4", "time_this_iter_s": 28.3389151096344, "episodes_total": 2760, "timestamp": 1756577097, "node_ip": "10.157.146.4", "done": false, "time_total_s": 14066.232396125793, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 461, "episode_reward_mean": -630.675761852481, "training_iteration": 461, "timesteps_total": 553200, "policy_reward_mean": {}, "episode_reward_min": -795.1451085947858, "timesteps_since_restore": 553200, "num_metric_batches_dropped": 0, "time_since_restore": 14093.556669712067, "episode_reward_max": -565.9127786669212, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 553200, "default": {"kl": 0.01134013943374157, "policy_loss": -0.12939196825027466, "vf_loss": 184.0482635498047, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.981164276599884, "entropy": 10.791619300842285, "cur_lr": 4.999999873689376e-05, "total_loss": 183.93606567382812}, "load_time_ms": 0.659, "num_steps_sampled": 553200, "grad_time_ms": 607.173, "update_time_ms": 2.326, "sample_time_ms": 29045.376}, "date": "2025-08-30_20-05-24", "hostname": "cda-server-4", "time_this_iter_s": 27.324273586273193, "episodes_total": 2766, "timestamp": 1756577124, "node_ip": "10.157.146.4", "done": false, "time_total_s": 14093.556669712067, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 462, "episode_reward_mean": -629.6181357687631, "training_iteration": 462, "timesteps_total": 554400, "policy_reward_mean": {}, "episode_reward_min": -795.1451085947858, "timesteps_since_restore": 554400, "num_metric_batches_dropped": 0, "time_since_restore": 14122.022104024887, "episode_reward_max": -565.9127786669212, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 554400, "default": {"kl": 0.009736290201544762, "policy_loss": -0.11847731471061707, "vf_loss": 850.9285888671875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8929267525672913, "entropy": 10.876133918762207, "cur_lr": 4.999999873689376e-05, "total_loss": 850.8248901367188}, "load_time_ms": 0.648, "num_steps_sampled": 554400, "grad_time_ms": 626.94, "update_time_ms": 2.335, "sample_time_ms": 29035.106}, "date": "2025-08-30_20-05-53", "hostname": "cda-server-4", "time_this_iter_s": 28.465434312820435, "episodes_total": 2772, "timestamp": 1756577153, "node_ip": "10.157.146.4", "done": false, "time_total_s": 14122.022104024887, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 463, "episode_reward_mean": -630.8345934194884, "training_iteration": 463, "timesteps_total": 555600, "policy_reward_mean": {}, "episode_reward_min": -795.1451085947858, "timesteps_since_restore": 555600, "num_metric_batches_dropped": 0, "time_since_restore": 14153.114756822586, "episode_reward_max": -565.9127786669212, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 555600, "default": {"kl": 0.00998605601489544, "policy_loss": -0.11459699273109436, "vf_loss": 539.9859008789062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9453212022781372, "entropy": 10.93400764465332, "cur_lr": 4.999999873689376e-05, "total_loss": 539.886474609375}, "load_time_ms": 0.665, "num_steps_sampled": 555600, "grad_time_ms": 653.394, "update_time_ms": 2.318, "sample_time_ms": 29285.592}, "date": "2025-08-30_20-06-24", "hostname": "cda-server-4", "time_this_iter_s": 31.092652797698975, "episodes_total": 2778, "timestamp": 1756577184, "node_ip": "10.157.146.4", "done": false, "time_total_s": 14153.114756822586, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 464, "episode_reward_mean": -630.9719779777214, "training_iteration": 464, "timesteps_total": 556800, "policy_reward_mean": {}, "episode_reward_min": -795.1451085947858, "timesteps_since_restore": 556800, "num_metric_batches_dropped": 0, "time_since_restore": 14184.831750869751, "episode_reward_max": -566.8017751453431, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 556800, "default": {"kl": 0.010697430931031704, "policy_loss": -0.11582326889038086, "vf_loss": 377.7140808105469, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9649955034255981, "entropy": 10.641366958618164, "cur_lr": 4.999999873689376e-05, "total_loss": 377.614501953125}, "load_time_ms": 0.632, "num_steps_sampled": 556800, "grad_time_ms": 664.989, "update_time_ms": 2.321, "sample_time_ms": 29389.016}, "date": "2025-08-30_20-06-55", "hostname": "cda-server-4", "time_this_iter_s": 31.716994047164917, "episodes_total": 2784, "timestamp": 1756577215, "node_ip": "10.157.146.4", "done": false, "time_total_s": 14184.831750869751, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 465, "episode_reward_mean": -630.9608317757986, "training_iteration": 465, "timesteps_total": 558000, "policy_reward_mean": {}, "episode_reward_min": -795.1451085947858, "timesteps_since_restore": 558000, "num_metric_batches_dropped": 0, "time_since_restore": 14217.377351999283, "episode_reward_max": -566.8017751453431, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 558000, "default": {"kl": 0.009929349645972252, "policy_loss": -0.1287732720375061, "vf_loss": 224.63229370117188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9691026210784912, "entropy": 10.75227165222168, "cur_lr": 4.999999873689376e-05, "total_loss": 224.5186004638672}, "load_time_ms": 0.643, "num_steps_sampled": 558000, "grad_time_ms": 690.469, "update_time_ms": 2.275, "sample_time_ms": 29953.5}, "date": "2025-08-30_20-07-28", "hostname": "cda-server-4", "time_this_iter_s": 32.54560112953186, "episodes_total": 2790, "timestamp": 1756577248, "node_ip": "10.157.146.4", "done": false, "time_total_s": 14217.377351999283, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 466, "episode_reward_mean": -630.2946317867118, "training_iteration": 466, "timesteps_total": 559200, "policy_reward_mean": {}, "episode_reward_min": -795.1451085947858, "timesteps_since_restore": 559200, "num_metric_batches_dropped": 0, "time_since_restore": 14246.73190832138, "episode_reward_max": -566.8017751453431, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 559200, "default": {"kl": 0.009804246947169304, "policy_loss": -0.10696824640035629, "vf_loss": 494.6482849121094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9625284671783447, "entropy": 10.84268856048584, "cur_lr": 4.999999873689376e-05, "total_loss": 494.55621337890625}, "load_time_ms": 0.64, "num_steps_sampled": 559200, "grad_time_ms": 690.029, "update_time_ms": 2.296, "sample_time_ms": 29872.13}, "date": "2025-08-30_20-07-57", "hostname": "cda-server-4", "time_this_iter_s": 29.35455632209778, "episodes_total": 2796, "timestamp": 1756577277, "node_ip": "10.157.146.4", "done": false, "time_total_s": 14246.73190832138, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 467, "episode_reward_mean": -627.3832873165793, "training_iteration": 467, "timesteps_total": 560400, "policy_reward_mean": {}, "episode_reward_min": -747.9873686635922, "timesteps_since_restore": 560400, "num_metric_batches_dropped": 0, "time_since_restore": 14278.656976938248, "episode_reward_max": -566.8017751453431, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 560400, "default": {"kl": 0.012098006904125214, "policy_loss": -0.12763404846191406, "vf_loss": 209.5469207763672, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9893143773078918, "entropy": 10.785600662231445, "cur_lr": 4.999999873689376e-05, "total_loss": 209.4376678466797}, "load_time_ms": 0.637, "num_steps_sampled": 560400, "grad_time_ms": 693.447, "update_time_ms": 2.239, "sample_time_ms": 29844.902}, "date": "2025-08-30_20-08-29", "hostname": "cda-server-4", "time_this_iter_s": 31.925068616867065, "episodes_total": 2802, "timestamp": 1756577309, "node_ip": "10.157.146.4", "done": false, "time_total_s": 14278.656976938248, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 468, "episode_reward_mean": -625.3414525792409, "training_iteration": 468, "timesteps_total": 561600, "policy_reward_mean": {}, "episode_reward_min": -747.9873686635922, "timesteps_since_restore": 561600, "num_metric_batches_dropped": 0, "time_since_restore": 14309.051544904709, "episode_reward_max": -489.0717477332604, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 561600, "default": {"kl": 0.01129474863409996, "policy_loss": -0.12040206044912338, "vf_loss": 92.28482818603516, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9854227900505066, "entropy": 10.60959529876709, "cur_lr": 4.999999873689376e-05, "total_loss": 92.18157958984375}, "load_time_ms": 0.637, "num_steps_sampled": 561600, "grad_time_ms": 702.93, "update_time_ms": 2.29, "sample_time_ms": 29664.944}, "date": "2025-08-30_20-09-00", "hostname": "cda-server-4", "time_this_iter_s": 30.39456796646118, "episodes_total": 2808, "timestamp": 1756577340, "node_ip": "10.157.146.4", "done": false, "time_total_s": 14309.051544904709, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 469, "episode_reward_mean": -623.9740090287357, "training_iteration": 469, "timesteps_total": 562800, "policy_reward_mean": {}, "episode_reward_min": -747.9873686635922, "timesteps_since_restore": 562800, "num_metric_batches_dropped": 0, "time_since_restore": 14338.53987812996, "episode_reward_max": -489.0717477332604, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 562800, "default": {"kl": 0.011340021155774593, "policy_loss": -0.11015105247497559, "vf_loss": 112.05113220214844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9886970520019531, "entropy": 10.686305046081543, "cur_lr": 4.999999873689376e-05, "total_loss": 111.95820617675781}, "load_time_ms": 0.648, "num_steps_sampled": 562800, "grad_time_ms": 717.787, "update_time_ms": 2.339, "sample_time_ms": 29339.655}, "date": "2025-08-30_20-09-29", "hostname": "cda-server-4", "time_this_iter_s": 29.488333225250244, "episodes_total": 2814, "timestamp": 1756577369, "node_ip": "10.157.146.4", "done": false, "time_total_s": 14338.53987812996, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 470, "episode_reward_mean": -624.3229792387127, "training_iteration": 470, "timesteps_total": 564000, "policy_reward_mean": {}, "episode_reward_min": -747.9873686635922, "timesteps_since_restore": 564000, "num_metric_batches_dropped": 0, "time_since_restore": 14367.861992359161, "episode_reward_max": -489.0717477332604, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 564000, "default": {"kl": 0.011410888284444809, "policy_loss": -0.12313880026340485, "vf_loss": 188.88711547851562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9738715291023254, "entropy": 10.671566009521484, "cur_lr": 4.999999873689376e-05, "total_loss": 188.78131103515625}, "load_time_ms": 0.648, "num_steps_sampled": 564000, "grad_time_ms": 735.495, "update_time_ms": 2.404, "sample_time_ms": 29420.188}, "date": "2025-08-30_20-09-59", "hostname": "cda-server-4", "time_this_iter_s": 29.32211422920227, "episodes_total": 2820, "timestamp": 1756577399, "node_ip": "10.157.146.4", "done": false, "time_total_s": 14367.861992359161, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 471, "episode_reward_mean": -623.1939130976009, "training_iteration": 471, "timesteps_total": 565200, "policy_reward_mean": {}, "episode_reward_min": -747.9873686635922, "timesteps_since_restore": 565200, "num_metric_batches_dropped": 0, "time_since_restore": 14397.991278409958, "episode_reward_max": -489.0717477332604, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 565200, "default": {"kl": 0.010624594055116177, "policy_loss": -0.11947456747293472, "vf_loss": 223.61376953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9776116609573364, "entropy": 10.508391380310059, "cur_lr": 4.999999873689376e-05, "total_loss": 223.51043701171875}, "load_time_ms": 0.622, "num_steps_sampled": 565200, "grad_time_ms": 735.039, "update_time_ms": 2.444, "sample_time_ms": 29701.203}, "date": "2025-08-30_20-10-29", "hostname": "cda-server-4", "time_this_iter_s": 30.12928605079651, "episodes_total": 2826, "timestamp": 1756577429, "node_ip": "10.157.146.4", "done": false, "time_total_s": 14397.991278409958, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 472, "episode_reward_mean": -622.0128241756186, "training_iteration": 472, "timesteps_total": 566400, "policy_reward_mean": {}, "episode_reward_min": -747.9873686635922, "timesteps_since_restore": 566400, "num_metric_batches_dropped": 0, "time_since_restore": 14429.602895498276, "episode_reward_max": -489.0717477332604, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 566400, "default": {"kl": 0.009902327321469784, "policy_loss": -0.12570494413375854, "vf_loss": 274.0677185058594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9696680903434753, "entropy": 10.588297843933105, "cur_lr": 4.999999873689376e-05, "total_loss": 273.9570617675781}, "load_time_ms": 0.626, "num_steps_sampled": 566400, "grad_time_ms": 734.382, "update_time_ms": 2.36, "sample_time_ms": 30016.607}, "date": "2025-08-30_20-11-00", "hostname": "cda-server-4", "time_this_iter_s": 31.61161708831787, "episodes_total": 2832, "timestamp": 1756577460, "node_ip": "10.157.146.4", "done": false, "time_total_s": 14429.602895498276, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 473, "episode_reward_mean": -623.3057833357827, "training_iteration": 473, "timesteps_total": 567600, "policy_reward_mean": {}, "episode_reward_min": -747.9873686635922, "timesteps_since_restore": 567600, "num_metric_batches_dropped": 0, "time_since_restore": 14462.095220088959, "episode_reward_max": -489.0717477332604, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 567600, "default": {"kl": 0.011791376397013664, "policy_loss": -0.13621598482131958, "vf_loss": 315.7736511230469, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9771355390548706, "entropy": 10.750141143798828, "cur_lr": 4.999999873689376e-05, "total_loss": 315.65533447265625}, "load_time_ms": 0.61, "num_steps_sampled": 567600, "grad_time_ms": 732.326, "update_time_ms": 2.337, "sample_time_ms": 30158.653}, "date": "2025-08-30_20-11-33", "hostname": "cda-server-4", "time_this_iter_s": 32.49232459068298, "episodes_total": 2838, "timestamp": 1756577493, "node_ip": "10.157.146.4", "done": false, "time_total_s": 14462.095220088959, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 474, "episode_reward_mean": -621.2305686111517, "training_iteration": 474, "timesteps_total": 568800, "policy_reward_mean": {}, "episode_reward_min": -692.7180555588534, "timesteps_since_restore": 568800, "num_metric_batches_dropped": 0, "time_since_restore": 14488.690290212631, "episode_reward_max": -489.0717477332604, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 568800, "default": {"kl": 0.011109679937362671, "policy_loss": -0.11358562856912613, "vf_loss": 800.6145629882812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9197766780853271, "entropy": 10.557552337646484, "cur_lr": 4.999999873689376e-05, "total_loss": 800.517822265625}, "load_time_ms": 0.609, "num_steps_sampled": 568800, "grad_time_ms": 737.67, "update_time_ms": 2.365, "sample_time_ms": 29641.049}, "date": "2025-08-30_20-12-00", "hostname": "cda-server-4", "time_this_iter_s": 26.595070123672485, "episodes_total": 2844, "timestamp": 1756577520, "node_ip": "10.157.146.4", "done": false, "time_total_s": 14488.690290212631, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 475, "episode_reward_mean": -621.351306205796, "training_iteration": 475, "timesteps_total": 570000, "policy_reward_mean": {}, "episode_reward_min": -692.7180555588534, "timesteps_since_restore": 570000, "num_metric_batches_dropped": 0, "time_since_restore": 14516.711057424545, "episode_reward_max": -489.0717477332604, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 570000, "default": {"kl": 0.011039173230528831, "policy_loss": -0.125493124127388, "vf_loss": 234.49871826171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9652140140533447, "entropy": 10.529582977294922, "cur_lr": 4.999999873689376e-05, "total_loss": 234.38999938964844}, "load_time_ms": 0.601, "num_steps_sampled": 570000, "grad_time_ms": 738.655, "update_time_ms": 2.411, "sample_time_ms": 29187.521}, "date": "2025-08-30_20-12-28", "hostname": "cda-server-4", "time_this_iter_s": 28.020767211914062, "episodes_total": 2850, "timestamp": 1756577548, "node_ip": "10.157.146.4", "done": false, "time_total_s": 14516.711057424545, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 476, "episode_reward_mean": -618.5606090700471, "training_iteration": 476, "timesteps_total": 571200, "policy_reward_mean": {}, "episode_reward_min": -692.7180555588534, "timesteps_since_restore": 571200, "num_metric_batches_dropped": 0, "time_since_restore": 14550.901116847992, "episode_reward_max": -482.04465924752645, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 571200, "default": {"kl": 0.01131260022521019, "policy_loss": -0.12262899428606033, "vf_loss": 334.3079833984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9659857153892517, "entropy": 10.538531303405762, "cur_lr": 4.999999873689376e-05, "total_loss": 334.2025146484375}, "load_time_ms": 0.608, "num_steps_sampled": 571200, "grad_time_ms": 749.239, "update_time_ms": 2.485, "sample_time_ms": 29660.413}, "date": "2025-08-30_20-13-02", "hostname": "cda-server-4", "time_this_iter_s": 34.190059423446655, "episodes_total": 2856, "timestamp": 1756577582, "node_ip": "10.157.146.4", "done": false, "time_total_s": 14550.901116847992, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 477, "episode_reward_mean": -617.4928071104679, "training_iteration": 477, "timesteps_total": 572400, "policy_reward_mean": {}, "episode_reward_min": -692.7180555588534, "timesteps_since_restore": 572400, "num_metric_batches_dropped": 0, "time_since_restore": 14580.0464117527, "episode_reward_max": -482.04465924752645, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 572400, "default": {"kl": 0.01048298366367817, "policy_loss": -0.13178366422653198, "vf_loss": 256.23065185546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9739600419998169, "entropy": 10.555044174194336, "cur_lr": 4.999999873689376e-05, "total_loss": 256.1147766113281}, "load_time_ms": 0.618, "num_steps_sampled": 572400, "grad_time_ms": 734.755, "update_time_ms": 2.686, "sample_time_ms": 29396.679}, "date": "2025-08-30_20-13-31", "hostname": "cda-server-4", "time_this_iter_s": 29.145294904708862, "episodes_total": 2862, "timestamp": 1756577611, "node_ip": "10.157.146.4", "done": false, "time_total_s": 14580.0464117527, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 478, "episode_reward_mean": -616.577953671547, "training_iteration": 478, "timesteps_total": 573600, "policy_reward_mean": {}, "episode_reward_min": -692.7180555588534, "timesteps_since_restore": 573600, "num_metric_batches_dropped": 0, "time_since_restore": 14610.271255493164, "episode_reward_max": -482.04465924752645, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 573600, "default": {"kl": 0.0106305917724967, "policy_loss": -0.12019157409667969, "vf_loss": 475.4367980957031, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9523729681968689, "entropy": 10.357699394226074, "cur_lr": 4.999999873689376e-05, "total_loss": 475.3327331542969}, "load_time_ms": 0.638, "num_steps_sampled": 573600, "grad_time_ms": 731.136, "update_time_ms": 2.607, "sample_time_ms": 29383.359}, "date": "2025-08-30_20-14-01", "hostname": "cda-server-4", "time_this_iter_s": 30.224843740463257, "episodes_total": 2868, "timestamp": 1756577641, "node_ip": "10.157.146.4", "done": false, "time_total_s": 14610.271255493164, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 479, "episode_reward_mean": -613.8744630531228, "training_iteration": 479, "timesteps_total": 574800, "policy_reward_mean": {}, "episode_reward_min": -678.5653606300741, "timesteps_since_restore": 574800, "num_metric_batches_dropped": 0, "time_since_restore": 14642.029087543488, "episode_reward_max": -482.04465924752645, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 574800, "default": {"kl": 0.010847837664186954, "policy_loss": -0.11721155047416687, "vf_loss": 109.27031707763672, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9811757206916809, "entropy": 10.420119285583496, "cur_lr": 4.999999873689376e-05, "total_loss": 109.16958618164062}, "load_time_ms": 0.645, "num_steps_sampled": 574800, "grad_time_ms": 723.738, "update_time_ms": 2.554, "sample_time_ms": 29617.734}, "date": "2025-08-30_20-14-33", "hostname": "cda-server-4", "time_this_iter_s": 31.757832050323486, "episodes_total": 2874, "timestamp": 1756577673, "node_ip": "10.157.146.4", "done": false, "time_total_s": 14642.029087543488, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 480, "episode_reward_mean": -612.4136420380987, "training_iteration": 480, "timesteps_total": 576000, "policy_reward_mean": {}, "episode_reward_min": -677.8703088589712, "timesteps_since_restore": 576000, "num_metric_batches_dropped": 0, "time_since_restore": 14673.149114847183, "episode_reward_max": -482.04465924752645, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 576000, "default": {"kl": 0.010245506651699543, "policy_loss": -0.11359046399593353, "vf_loss": 280.3131408691406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9694551825523376, "entropy": 10.424800872802734, "cur_lr": 4.999999873689376e-05, "total_loss": 280.2151184082031}, "load_time_ms": 0.635, "num_steps_sampled": 576000, "grad_time_ms": 719.726, "update_time_ms": 2.443, "sample_time_ms": 29801.687}, "date": "2025-08-30_20-15-04", "hostname": "cda-server-4", "time_this_iter_s": 31.12002730369568, "episodes_total": 2880, "timestamp": 1756577704, "node_ip": "10.157.146.4", "done": false, "time_total_s": 14673.149114847183, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 481, "episode_reward_mean": -610.9220460971451, "training_iteration": 481, "timesteps_total": 577200, "policy_reward_mean": {}, "episode_reward_min": -677.8703088589712, "timesteps_since_restore": 577200, "num_metric_batches_dropped": 0, "time_since_restore": 14703.677479743958, "episode_reward_max": -482.04465924752645, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 577200, "default": {"kl": 0.011525980196893215, "policy_loss": -0.12026838213205338, "vf_loss": 603.531494140625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9301914572715759, "entropy": 10.381888389587402, "cur_lr": 4.999999873689376e-05, "total_loss": 603.4287719726562}, "load_time_ms": 0.644, "num_steps_sampled": 577200, "grad_time_ms": 715.608, "update_time_ms": 2.479, "sample_time_ms": 29845.61}, "date": "2025-08-30_20-15-35", "hostname": "cda-server-4", "time_this_iter_s": 30.528364896774292, "episodes_total": 2886, "timestamp": 1756577735, "node_ip": "10.157.146.4", "done": false, "time_total_s": 14703.677479743958, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 482, "episode_reward_mean": -610.8453437837894, "training_iteration": 482, "timesteps_total": 578400, "policy_reward_mean": {}, "episode_reward_min": -677.8703088589712, "timesteps_since_restore": 578400, "num_metric_batches_dropped": 0, "time_since_restore": 14735.606813669205, "episode_reward_max": -482.04465924752645, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 578400, "default": {"kl": 0.010702998377382755, "policy_loss": -0.10960324108600616, "vf_loss": 409.7930603027344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9742264151573181, "entropy": 10.469870567321777, "cur_lr": 4.999999873689376e-05, "total_loss": 409.6997375488281}, "load_time_ms": 0.637, "num_steps_sampled": 578400, "grad_time_ms": 718.769, "update_time_ms": 2.497, "sample_time_ms": 29874.2}, "date": "2025-08-30_20-16-07", "hostname": "cda-server-4", "time_this_iter_s": 31.929333925247192, "episodes_total": 2892, "timestamp": 1756577767, "node_ip": "10.157.146.4", "done": false, "time_total_s": 14735.606813669205, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 483, "episode_reward_mean": -609.1725325283, "training_iteration": 483, "timesteps_total": 579600, "policy_reward_mean": {}, "episode_reward_min": -674.5477917087512, "timesteps_since_restore": 579600, "num_metric_batches_dropped": 0, "time_since_restore": 14767.46385216713, "episode_reward_max": -482.04465924752645, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 579600, "default": {"kl": 0.011050191707909107, "policy_loss": -0.12233808636665344, "vf_loss": 498.5579833984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9437351226806641, "entropy": 10.40301513671875, "cur_lr": 4.999999873689376e-05, "total_loss": 498.4524841308594}, "load_time_ms": 0.646, "num_steps_sampled": 579600, "grad_time_ms": 722.213, "update_time_ms": 2.492, "sample_time_ms": 29807.275}, "date": "2025-08-30_20-16-38", "hostname": "cda-server-4", "time_this_iter_s": 31.857038497924805, "episodes_total": 2898, "timestamp": 1756577798, "node_ip": "10.157.146.4", "done": false, "time_total_s": 14767.46385216713, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 484, "episode_reward_mean": -609.4443779832566, "training_iteration": 484, "timesteps_total": 580800, "policy_reward_mean": {}, "episode_reward_min": -674.5477917087512, "timesteps_since_restore": 580800, "num_metric_batches_dropped": 0, "time_since_restore": 14797.112611293793, "episode_reward_max": -482.04465924752645, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 580800, "default": {"kl": 0.008471601642668247, "policy_loss": -0.1267573982477188, "vf_loss": 295.2075500488281, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9711069464683533, "entropy": 10.514030456542969, "cur_lr": 4.999999873689376e-05, "total_loss": 295.0936279296875}, "load_time_ms": 0.655, "num_steps_sampled": 580800, "grad_time_ms": 721.978, "update_time_ms": 2.446, "sample_time_ms": 30112.976}, "date": "2025-08-30_20-17-08", "hostname": "cda-server-4", "time_this_iter_s": 29.648759126663208, "episodes_total": 2904, "timestamp": 1756577828, "node_ip": "10.157.146.4", "done": false, "time_total_s": 14797.112611293793, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 485, "episode_reward_mean": -611.1587481023676, "training_iteration": 485, "timesteps_total": 582000, "policy_reward_mean": {}, "episode_reward_min": -674.5477917087512, "timesteps_since_restore": 582000, "num_metric_batches_dropped": 0, "time_since_restore": 14828.365115642548, "episode_reward_max": -482.04465924752645, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 582000, "default": {"kl": 0.011722813360393047, "policy_loss": -0.11704465746879578, "vf_loss": 110.803466796875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9880480170249939, "entropy": 10.215019226074219, "cur_lr": 4.999999873689376e-05, "total_loss": 110.7042236328125}, "load_time_ms": 0.654, "num_steps_sampled": 582000, "grad_time_ms": 720.61, "update_time_ms": 2.417, "sample_time_ms": 30437.58}, "date": "2025-08-30_20-17-39", "hostname": "cda-server-4", "time_this_iter_s": 31.252504348754883, "episodes_total": 2910, "timestamp": 1756577859, "node_ip": "10.157.146.4", "done": false, "time_total_s": 14828.365115642548, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 486, "episode_reward_mean": -611.5654731057102, "training_iteration": 486, "timesteps_total": 583200, "policy_reward_mean": {}, "episode_reward_min": -674.5477917087512, "timesteps_since_restore": 583200, "num_metric_batches_dropped": 0, "time_since_restore": 14857.073689460754, "episode_reward_max": -482.04465924752645, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 583200, "default": {"kl": 0.009841789491474628, "policy_loss": -0.11135557293891907, "vf_loss": 185.69091796875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9749400615692139, "entropy": 10.4392671585083, "cur_lr": 4.999999873689376e-05, "total_loss": 185.59451293945312}, "load_time_ms": 0.647, "num_steps_sampled": 583200, "grad_time_ms": 709.142, "update_time_ms": 2.411, "sample_time_ms": 29900.992}, "date": "2025-08-30_20-18-08", "hostname": "cda-server-4", "time_this_iter_s": 28.708573818206787, "episodes_total": 2916, "timestamp": 1756577888, "node_ip": "10.157.146.4", "done": false, "time_total_s": 14857.073689460754, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 487, "episode_reward_mean": -611.0152847380639, "training_iteration": 487, "timesteps_total": 584400, "policy_reward_mean": {}, "episode_reward_min": -683.7823390422077, "timesteps_since_restore": 584400, "num_metric_batches_dropped": 0, "time_since_restore": 14886.285536289215, "episode_reward_max": -482.04465924752645, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 584400, "default": {"kl": 0.009947240352630615, "policy_loss": -0.117399662733078, "vf_loss": 708.2380981445312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8881614208221436, "entropy": 10.318172454833984, "cur_lr": 4.999999873689376e-05, "total_loss": 708.1358642578125}, "load_time_ms": 0.639, "num_steps_sampled": 584400, "grad_time_ms": 721.742, "update_time_ms": 2.219, "sample_time_ms": 29895.325}, "date": "2025-08-30_20-18-37", "hostname": "cda-server-4", "time_this_iter_s": 29.211846828460693, "episodes_total": 2922, "timestamp": 1756577917, "node_ip": "10.157.146.4", "done": false, "time_total_s": 14886.285536289215, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 488, "episode_reward_mean": -611.5619927630421, "training_iteration": 488, "timesteps_total": 585600, "policy_reward_mean": {}, "episode_reward_min": -683.7823390422077, "timesteps_since_restore": 585600, "num_metric_batches_dropped": 0, "time_since_restore": 14914.83472776413, "episode_reward_max": -482.04465924752645, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 585600, "default": {"kl": 0.009075875394046307, "policy_loss": -0.11817637830972672, "vf_loss": 248.84681701660156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9662017822265625, "entropy": 10.490976333618164, "cur_lr": 4.999999873689376e-05, "total_loss": 248.74240112304688}, "load_time_ms": 0.62, "num_steps_sampled": 585600, "grad_time_ms": 724.564, "update_time_ms": 2.276, "sample_time_ms": 29724.987}, "date": "2025-08-30_20-19-06", "hostname": "cda-server-4", "time_this_iter_s": 28.54919147491455, "episodes_total": 2928, "timestamp": 1756577946, "node_ip": "10.157.146.4", "done": false, "time_total_s": 14914.83472776413, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 489, "episode_reward_mean": -611.7001729868347, "training_iteration": 489, "timesteps_total": 586800, "policy_reward_mean": {}, "episode_reward_min": -683.7823390422077, "timesteps_since_restore": 586800, "num_metric_batches_dropped": 0, "time_since_restore": 14945.926100254059, "episode_reward_max": -482.04465924752645, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 586800, "default": {"kl": 0.010796387679874897, "policy_loss": -0.12322735786437988, "vf_loss": 143.7589111328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9787914752960205, "entropy": 10.269213676452637, "cur_lr": 4.999999873689376e-05, "total_loss": 143.65206909179688}, "load_time_ms": 0.596, "num_steps_sampled": 586800, "grad_time_ms": 727.62, "update_time_ms": 2.218, "sample_time_ms": 29655.347}, "date": "2025-08-30_20-19-37", "hostname": "cda-server-4", "time_this_iter_s": 31.0913724899292, "episodes_total": 2934, "timestamp": 1756577977, "node_ip": "10.157.146.4", "done": false, "time_total_s": 14945.926100254059, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 490, "episode_reward_mean": -612.8366684238888, "training_iteration": 490, "timesteps_total": 588000, "policy_reward_mean": {}, "episode_reward_min": -683.7823390422077, "timesteps_since_restore": 588000, "num_metric_batches_dropped": 0, "time_since_restore": 14977.971162557602, "episode_reward_max": -482.04465924752645, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 588000, "default": {"kl": 0.011736764572560787, "policy_loss": -0.11963734030723572, "vf_loss": 374.98614501953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9643362760543823, "entropy": 10.33987045288086, "cur_lr": 4.999999873689376e-05, "total_loss": 374.88433837890625}, "load_time_ms": 0.596, "num_steps_sampled": 588000, "grad_time_ms": 732.002, "update_time_ms": 2.203, "sample_time_ms": 29743.449}, "date": "2025-08-30_20-20-09", "hostname": "cda-server-4", "time_this_iter_s": 32.04506230354309, "episodes_total": 2940, "timestamp": 1756578009, "node_ip": "10.157.146.4", "done": false, "time_total_s": 14977.971162557602, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 491, "episode_reward_mean": -613.8113332196318, "training_iteration": 491, "timesteps_total": 589200, "policy_reward_mean": {}, "episode_reward_min": -683.7823390422077, "timesteps_since_restore": 589200, "num_metric_batches_dropped": 0, "time_since_restore": 15005.025549173355, "episode_reward_max": -482.04465924752645, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 589200, "default": {"kl": 0.009092975407838821, "policy_loss": -0.11911138892173767, "vf_loss": 445.365966796875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9294979572296143, "entropy": 10.45309829711914, "cur_lr": 4.999999873689376e-05, "total_loss": 445.2606506347656}, "load_time_ms": 0.587, "num_steps_sampled": 589200, "grad_time_ms": 728.491, "update_time_ms": 2.142, "sample_time_ms": 29399.761}, "date": "2025-08-30_20-20-36", "hostname": "cda-server-4", "time_this_iter_s": 27.054386615753174, "episodes_total": 2946, "timestamp": 1756578036, "node_ip": "10.157.146.4", "done": false, "time_total_s": 15005.025549173355, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 492, "episode_reward_mean": -613.2308629845155, "training_iteration": 492, "timesteps_total": 590400, "policy_reward_mean": {}, "episode_reward_min": -683.7823390422077, "timesteps_since_restore": 590400, "num_metric_batches_dropped": 0, "time_since_restore": 15033.824259996414, "episode_reward_max": -482.04465924752645, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 590400, "default": {"kl": 0.009409790858626366, "policy_loss": -0.11563295871019363, "vf_loss": 598.3735961914062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9346035718917847, "entropy": 10.30482006072998, "cur_lr": 4.999999873689376e-05, "total_loss": 598.272216796875}, "load_time_ms": 0.597, "num_steps_sampled": 590400, "grad_time_ms": 714.173, "update_time_ms": 2.132, "sample_time_ms": 29100.999}, "date": "2025-08-30_20-21-05", "hostname": "cda-server-4", "time_this_iter_s": 28.798710823059082, "episodes_total": 2952, "timestamp": 1756578065, "node_ip": "10.157.146.4", "done": false, "time_total_s": 15033.824259996414, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 493, "episode_reward_mean": -613.7344577498175, "training_iteration": 493, "timesteps_total": 591600, "policy_reward_mean": {}, "episode_reward_min": -683.7823390422077, "timesteps_since_restore": 591600, "num_metric_batches_dropped": 0, "time_since_restore": 15066.46635556221, "episode_reward_max": -503.97648109568945, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 591600, "default": {"kl": 0.011359247379004955, "policy_loss": -0.11699298024177551, "vf_loss": 239.45806884765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.965142548084259, "entropy": 10.166695594787598, "cur_lr": 4.999999873689376e-05, "total_loss": 239.3583221435547}, "load_time_ms": 0.591, "num_steps_sampled": 591600, "grad_time_ms": 700.516, "update_time_ms": 2.165, "sample_time_ms": 29193.134}, "date": "2025-08-30_20-21-38", "hostname": "cda-server-4", "time_this_iter_s": 32.6420955657959, "episodes_total": 2958, "timestamp": 1756578098, "node_ip": "10.157.146.4", "done": false, "time_total_s": 15066.46635556221, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 494, "episode_reward_mean": -612.1038578953423, "training_iteration": 494, "timesteps_total": 592800, "policy_reward_mean": {}, "episode_reward_min": -683.7823390422077, "timesteps_since_restore": 592800, "num_metric_batches_dropped": 0, "time_since_restore": 15094.121259212494, "episode_reward_max": -492.75414956258624, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 592800, "default": {"kl": 0.012798420153558254, "policy_loss": -0.13706769049167633, "vf_loss": 195.534423828125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9759035110473633, "entropy": 10.30477237701416, "cur_lr": 4.999999873689376e-05, "total_loss": 195.4167938232422}, "load_time_ms": 0.58, "num_steps_sampled": 592800, "grad_time_ms": 698.139, "update_time_ms": 2.177, "sample_time_ms": 28996.105}, "date": "2025-08-30_20-22-05", "hostname": "cda-server-4", "time_this_iter_s": 27.654903650283813, "episodes_total": 2964, "timestamp": 1756578125, "node_ip": "10.157.146.4", "done": false, "time_total_s": 15094.121259212494, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 495, "episode_reward_mean": -612.7750994293697, "training_iteration": 495, "timesteps_total": 594000, "policy_reward_mean": {}, "episode_reward_min": -683.7823390422077, "timesteps_since_restore": 594000, "num_metric_batches_dropped": 0, "time_since_restore": 15122.885069847107, "episode_reward_max": -492.75414956258624, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 594000, "default": {"kl": 0.009767989628016949, "policy_loss": -0.12261547148227692, "vf_loss": 224.89642333984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9756033420562744, "entropy": 10.26629638671875, "cur_lr": 4.999999873689376e-05, "total_loss": 224.78863525390625}, "load_time_ms": 0.58, "num_steps_sampled": 594000, "grad_time_ms": 697.013, "update_time_ms": 2.221, "sample_time_ms": 28748.307}, "date": "2025-08-30_20-22-34", "hostname": "cda-server-4", "time_this_iter_s": 28.763810634613037, "episodes_total": 2970, "timestamp": 1756578154, "node_ip": "10.157.146.4", "done": false, "time_total_s": 15122.885069847107, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 496, "episode_reward_mean": -614.8915004900382, "training_iteration": 496, "timesteps_total": 595200, "policy_reward_mean": {}, "episode_reward_min": -683.7823390422077, "timesteps_since_restore": 595200, "num_metric_batches_dropped": 0, "time_since_restore": 15153.798025131226, "episode_reward_max": -492.75414956258624, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 595200, "default": {"kl": 0.009796315804123878, "policy_loss": -0.10610461235046387, "vf_loss": 664.332763671875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9064957499504089, "entropy": 10.347919464111328, "cur_lr": 4.999999873689376e-05, "total_loss": 664.2415771484375}, "load_time_ms": 0.583, "num_steps_sampled": 595200, "grad_time_ms": 697.033, "update_time_ms": 2.171, "sample_time_ms": 28968.704}, "date": "2025-08-30_20-23-05", "hostname": "cda-server-4", "time_this_iter_s": 30.912955284118652, "episodes_total": 2976, "timestamp": 1756578185, "node_ip": "10.157.146.4", "done": false, "time_total_s": 15153.798025131226, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 497, "episode_reward_mean": -616.3716119962668, "training_iteration": 497, "timesteps_total": 596400, "policy_reward_mean": {}, "episode_reward_min": -687.2593478001473, "timesteps_since_restore": 596400, "num_metric_batches_dropped": 0, "time_since_restore": 15183.71996307373, "episode_reward_max": -492.75414956258624, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 596400, "default": {"kl": 0.009302336722612381, "policy_loss": -0.12426638603210449, "vf_loss": 76.19387817382812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9897227883338928, "entropy": 10.371956825256348, "cur_lr": 4.999999873689376e-05, "total_loss": 76.083740234375}, "load_time_ms": 0.584, "num_steps_sampled": 596400, "grad_time_ms": 681.667, "update_time_ms": 2.165, "sample_time_ms": 29055.101}, "date": "2025-08-30_20-23-35", "hostname": "cda-server-4", "time_this_iter_s": 29.921937942504883, "episodes_total": 2982, "timestamp": 1756578215, "node_ip": "10.157.146.4", "done": false, "time_total_s": 15183.71996307373, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 498, "episode_reward_mean": -616.2084993091281, "training_iteration": 498, "timesteps_total": 597600, "policy_reward_mean": {}, "episode_reward_min": -687.2593478001473, "timesteps_since_restore": 597600, "num_metric_batches_dropped": 0, "time_since_restore": 15215.661854028702, "episode_reward_max": -492.75414956258624, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 597600, "default": {"kl": 0.010139092803001404, "policy_loss": -0.12608526647090912, "vf_loss": 281.8765869140625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9759384989738464, "entropy": 10.38109016418457, "cur_lr": 4.999999873689376e-05, "total_loss": 281.765869140625}, "load_time_ms": 0.616, "num_steps_sampled": 597600, "grad_time_ms": 666.69, "update_time_ms": 2.114, "sample_time_ms": 29409.186}, "date": "2025-08-30_20-24-07", "hostname": "cda-server-4", "time_this_iter_s": 31.941890954971313, "episodes_total": 2988, "timestamp": 1756578247, "node_ip": "10.157.146.4", "done": false, "time_total_s": 15215.661854028702, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 499, "episode_reward_mean": -617.0289755619202, "training_iteration": 499, "timesteps_total": 598800, "policy_reward_mean": {}, "episode_reward_min": -687.2593478001473, "timesteps_since_restore": 598800, "num_metric_batches_dropped": 0, "time_since_restore": 15245.807072162628, "episode_reward_max": -492.75414956258624, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 598800, "default": {"kl": 0.009876182302832603, "policy_loss": -0.11287294328212738, "vf_loss": 606.0432739257812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9084818363189697, "entropy": 10.1349458694458, "cur_lr": 4.999999873689376e-05, "total_loss": 605.9454956054688}, "load_time_ms": 0.63, "num_steps_sampled": 598800, "grad_time_ms": 652.711, "update_time_ms": 2.164, "sample_time_ms": 29328.546}, "date": "2025-08-30_20-24-37", "hostname": "cda-server-4", "time_this_iter_s": 30.14521813392639, "episodes_total": 2994, "timestamp": 1756578277, "node_ip": "10.157.146.4", "done": false, "time_total_s": 15245.807072162628, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 500, "episode_reward_mean": -617.597440572687, "training_iteration": 500, "timesteps_total": 600000, "policy_reward_mean": {}, "episode_reward_min": -687.2593478001473, "timesteps_since_restore": 600000, "num_metric_batches_dropped": 0, "time_since_restore": 15276.944052696228, "episode_reward_max": -492.75414956258624, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 600000, "default": {"kl": 0.008925780653953552, "policy_loss": -0.10970591008663177, "vf_loss": 180.59619140625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9708876013755798, "entropy": 10.331533432006836, "cur_lr": 4.999999873689376e-05, "total_loss": 180.5000457763672}, "load_time_ms": 0.635, "num_steps_sampled": 600000, "grad_time_ms": 645.845, "update_time_ms": 2.178, "sample_time_ms": 29244.6}, "date": "2025-08-30_20-25-08", "hostname": "cda-server-4", "time_this_iter_s": 31.136980533599854, "episodes_total": 3000, "timestamp": 1756578308, "node_ip": "10.157.146.4", "done": false, "time_total_s": 15276.944052696228, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 501, "episode_reward_mean": -617.5771433437204, "training_iteration": 501, "timesteps_total": 601200, "policy_reward_mean": {}, "episode_reward_min": -687.2593478001473, "timesteps_since_restore": 601200, "num_metric_batches_dropped": 0, "time_since_restore": 15305.913101434708, "episode_reward_max": -492.75414956258624, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 601200, "default": {"kl": 0.009030654095113277, "policy_loss": -0.12158433347940445, "vf_loss": 399.52459716796875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9363994598388672, "entropy": 10.324128150939941, "cur_lr": 4.999999873689376e-05, "total_loss": 399.4167175292969}, "load_time_ms": 0.663, "num_steps_sampled": 601200, "grad_time_ms": 628.97, "update_time_ms": 2.203, "sample_time_ms": 29452.868}, "date": "2025-08-30_20-25-37", "hostname": "cda-server-4", "time_this_iter_s": 28.969048738479614, "episodes_total": 3006, "timestamp": 1756578337, "node_ip": "10.157.146.4", "done": false, "time_total_s": 15305.913101434708, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 502, "episode_reward_mean": -617.4213851857231, "training_iteration": 502, "timesteps_total": 602400, "policy_reward_mean": {}, "episode_reward_min": -687.2593478001473, "timesteps_since_restore": 602400, "num_metric_batches_dropped": 0, "time_since_restore": 15337.222692966461, "episode_reward_max": -492.75414956258624, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 602400, "default": {"kl": 0.010158966295421124, "policy_loss": -0.1164940893650055, "vf_loss": 328.42535400390625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9757274985313416, "entropy": 10.448343276977539, "cur_lr": 4.999999873689376e-05, "total_loss": 328.32427978515625}, "load_time_ms": 0.659, "num_steps_sampled": 602400, "grad_time_ms": 618.336, "update_time_ms": 2.21, "sample_time_ms": 29714.514}, "date": "2025-08-30_20-26-09", "hostname": "cda-server-4", "time_this_iter_s": 31.30959153175354, "episodes_total": 3012, "timestamp": 1756578369, "node_ip": "10.157.146.4", "done": false, "time_total_s": 15337.222692966461, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 503, "episode_reward_mean": -617.6634254662197, "training_iteration": 503, "timesteps_total": 603600, "policy_reward_mean": {}, "episode_reward_min": -687.2593478001473, "timesteps_since_restore": 603600, "num_metric_batches_dropped": 0, "time_since_restore": 15366.210186481476, "episode_reward_max": -492.75414956258624, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 603600, "default": {"kl": 0.010989136062562466, "policy_loss": -0.11748053133487701, "vf_loss": 214.44935607910156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9679291844367981, "entropy": 10.073660850524902, "cur_lr": 4.999999873689376e-05, "total_loss": 214.34857177734375}, "load_time_ms": 0.666, "num_steps_sampled": 603600, "grad_time_ms": 612.954, "update_time_ms": 2.219, "sample_time_ms": 29354.436}, "date": "2025-08-30_20-26-38", "hostname": "cda-server-4", "time_this_iter_s": 28.98749351501465, "episodes_total": 3018, "timestamp": 1756578398, "node_ip": "10.157.146.4", "done": false, "time_total_s": 15366.210186481476, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 504, "episode_reward_mean": -617.2950554626652, "training_iteration": 504, "timesteps_total": 604800, "policy_reward_mean": {}, "episode_reward_min": -687.2593478001473, "timesteps_since_restore": 604800, "num_metric_batches_dropped": 0, "time_since_restore": 15393.765782356262, "episode_reward_max": -492.75414956258624, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 604800, "default": {"kl": 0.008406001143157482, "policy_loss": -0.11653611063957214, "vf_loss": 367.96722412109375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9575991034507751, "entropy": 10.284957885742188, "cur_lr": 4.999999873689376e-05, "total_loss": 367.8634338378906}, "load_time_ms": 0.666, "num_steps_sampled": 604800, "grad_time_ms": 603.347, "update_time_ms": 2.189, "sample_time_ms": 29354.115}, "date": "2025-08-30_20-27-05", "hostname": "cda-server-4", "time_this_iter_s": 27.555595874786377, "episodes_total": 3024, "timestamp": 1756578425, "node_ip": "10.157.146.4", "done": false, "time_total_s": 15393.765782356262, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 505, "episode_reward_mean": -618.4169191126767, "training_iteration": 505, "timesteps_total": 606000, "policy_reward_mean": {}, "episode_reward_min": -687.2593478001473, "timesteps_since_restore": 606000, "num_metric_batches_dropped": 0, "time_since_restore": 15422.779547691345, "episode_reward_max": -492.75414956258624, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 606000, "default": {"kl": 0.011198894120752811, "policy_loss": -0.13563178479671478, "vf_loss": 885.796630859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9222115278244019, "entropy": 10.44873332977295, "cur_lr": 4.999999873689376e-05, "total_loss": 885.677978515625}, "load_time_ms": 0.68, "num_steps_sampled": 606000, "grad_time_ms": 586.729, "update_time_ms": 2.276, "sample_time_ms": 29395.58}, "date": "2025-08-30_20-27-34", "hostname": "cda-server-4", "time_this_iter_s": 29.013765335083008, "episodes_total": 3030, "timestamp": 1756578454, "node_ip": "10.157.146.4", "done": false, "time_total_s": 15422.779547691345, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 506, "episode_reward_mean": -618.2881874770952, "training_iteration": 506, "timesteps_total": 607200, "policy_reward_mean": {}, "episode_reward_min": -687.2593478001473, "timesteps_since_restore": 607200, "num_metric_batches_dropped": 0, "time_since_restore": 15453.349476575851, "episode_reward_max": -492.75414956258624, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 607200, "default": {"kl": 0.0095829414203763, "policy_loss": -0.1203770786523819, "vf_loss": 219.44424438476562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9666303992271423, "entropy": 10.130552291870117, "cur_lr": 4.999999873689376e-05, "total_loss": 219.33840942382812}, "load_time_ms": 0.683, "num_steps_sampled": 607200, "grad_time_ms": 578.031, "update_time_ms": 2.262, "sample_time_ms": 29369.96}, "date": "2025-08-30_20-28-05", "hostname": "cda-server-4", "time_this_iter_s": 30.569928884506226, "episodes_total": 3036, "timestamp": 1756578485, "node_ip": "10.157.146.4", "done": false, "time_total_s": 15453.349476575851, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 507, "episode_reward_mean": -616.6909095921326, "training_iteration": 507, "timesteps_total": 608400, "policy_reward_mean": {}, "episode_reward_min": -687.2593478001473, "timesteps_since_restore": 608400, "num_metric_batches_dropped": 0, "time_since_restore": 15486.700155258179, "episode_reward_max": -492.75414956258624, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 608400, "default": {"kl": 0.010727759450674057, "policy_loss": -0.12090073525905609, "vf_loss": 441.6849060058594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9576277136802673, "entropy": 10.302809715270996, "cur_lr": 4.999999873689376e-05, "total_loss": 441.580322265625}, "load_time_ms": 0.715, "num_steps_sampled": 608400, "grad_time_ms": 588.432, "update_time_ms": 2.383, "sample_time_ms": 29702.227}, "date": "2025-08-30_20-28-38", "hostname": "cda-server-4", "time_this_iter_s": 33.35067868232727, "episodes_total": 3042, "timestamp": 1756578518, "node_ip": "10.157.146.4", "done": false, "time_total_s": 15486.700155258179, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 508, "episode_reward_mean": -616.7257401714108, "training_iteration": 508, "timesteps_total": 609600, "policy_reward_mean": {}, "episode_reward_min": -687.2593478001473, "timesteps_since_restore": 609600, "num_metric_batches_dropped": 0, "time_since_restore": 15516.285274744034, "episode_reward_max": -492.75414956258624, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 609600, "default": {"kl": 0.009701067581772804, "policy_loss": -0.11083558201789856, "vf_loss": 606.5291748046875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9209262132644653, "entropy": 10.070096969604492, "cur_lr": 4.999999873689376e-05, "total_loss": 606.4330444335938}, "load_time_ms": 0.683, "num_steps_sampled": 609600, "grad_time_ms": 604.017, "update_time_ms": 2.426, "sample_time_ms": 29451.089}, "date": "2025-08-30_20-29-08", "hostname": "cda-server-4", "time_this_iter_s": 29.585119485855103, "episodes_total": 3048, "timestamp": 1756578548, "node_ip": "10.157.146.4", "done": false, "time_total_s": 15516.285274744034, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 509, "episode_reward_mean": -616.4712158967843, "training_iteration": 509, "timesteps_total": 610800, "policy_reward_mean": {}, "episode_reward_min": -687.2593478001473, "timesteps_since_restore": 610800, "num_metric_batches_dropped": 0, "time_since_restore": 15547.24286198616, "episode_reward_max": -492.75414956258624, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 610800, "default": {"kl": 0.011906541883945465, "policy_loss": -0.12726765871047974, "vf_loss": 267.6753845214844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9679921269416809, "entropy": 10.36803913116455, "cur_lr": 4.999999873689376e-05, "total_loss": 267.5661926269531}, "load_time_ms": 0.668, "num_steps_sampled": 610800, "grad_time_ms": 619.643, "update_time_ms": 2.417, "sample_time_ms": 29516.726}, "date": "2025-08-30_20-29-39", "hostname": "cda-server-4", "time_this_iter_s": 30.957587242126465, "episodes_total": 3054, "timestamp": 1756578579, "node_ip": "10.157.146.4", "done": false, "time_total_s": 15547.24286198616, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 510, "episode_reward_mean": -616.1194181580917, "training_iteration": 510, "timesteps_total": 612000, "policy_reward_mean": {}, "episode_reward_min": -687.2593478001473, "timesteps_since_restore": 612000, "num_metric_batches_dropped": 0, "time_since_restore": 15577.362131118774, "episode_reward_max": -492.75414956258624, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 612000, "default": {"kl": 0.009202418848872185, "policy_loss": -0.12840691208839417, "vf_loss": 310.3863525390625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9587684273719788, "entropy": 10.284270286560059, "cur_lr": 4.999999873689376e-05, "total_loss": 310.27191162109375}, "load_time_ms": 0.66, "num_steps_sampled": 612000, "grad_time_ms": 621.442, "update_time_ms": 2.453, "sample_time_ms": 29413.177}, "date": "2025-08-30_20-30-09", "hostname": "cda-server-4", "time_this_iter_s": 30.119269132614136, "episodes_total": 3060, "timestamp": 1756578609, "node_ip": "10.157.146.4", "done": false, "time_total_s": 15577.362131118774, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 511, "episode_reward_mean": -617.6539461024482, "training_iteration": 511, "timesteps_total": 613200, "policy_reward_mean": {}, "episode_reward_min": -687.2593478001473, "timesteps_since_restore": 613200, "num_metric_batches_dropped": 0, "time_since_restore": 15607.616966962814, "episode_reward_max": -525.7392183423149, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 613200, "default": {"kl": 0.01035059243440628, "policy_loss": -0.12387951463460922, "vf_loss": 82.15750885009766, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9891764521598816, "entropy": 10.182857513427734, "cur_lr": 4.999999873689376e-05, "total_loss": 82.04935455322266}, "load_time_ms": 0.631, "num_steps_sampled": 613200, "grad_time_ms": 632.414, "update_time_ms": 2.428, "sample_time_ms": 29530.82}, "date": "2025-08-30_20-30-39", "hostname": "cda-server-4", "time_this_iter_s": 30.254835844039917, "episodes_total": 3066, "timestamp": 1756578639, "node_ip": "10.157.146.4", "done": false, "time_total_s": 15607.616966962814, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 512, "episode_reward_mean": -615.4223206328497, "training_iteration": 512, "timesteps_total": 614400, "policy_reward_mean": {}, "episode_reward_min": -687.2593478001473, "timesteps_since_restore": 614400, "num_metric_batches_dropped": 0, "time_since_restore": 15639.241664886475, "episode_reward_max": -491.2839050822093, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 614400, "default": {"kl": 0.01057523861527443, "policy_loss": -0.11162492632865906, "vf_loss": 276.8630065917969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9597384929656982, "entropy": 10.172090530395508, "cur_lr": 4.999999873689376e-05, "total_loss": 276.7674560546875}, "load_time_ms": 0.712, "num_steps_sampled": 614400, "grad_time_ms": 688.546, "update_time_ms": 2.43, "sample_time_ms": 29505.976}, "date": "2025-08-30_20-31-11", "hostname": "cda-server-4", "time_this_iter_s": 31.62469792366028, "episodes_total": 3072, "timestamp": 1756578671, "node_ip": "10.157.146.4", "done": false, "time_total_s": 15639.241664886475, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 513, "episode_reward_mean": -614.9988519785577, "training_iteration": 513, "timesteps_total": 615600, "policy_reward_mean": {}, "episode_reward_min": -681.5368023144719, "timesteps_since_restore": 615600, "num_metric_batches_dropped": 0, "time_since_restore": 15671.988368749619, "episode_reward_max": -491.2839050822093, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 615600, "default": {"kl": 0.011605508625507355, "policy_loss": -0.1347551792860031, "vf_loss": 878.9948120117188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.942547082901001, "entropy": 10.320121765136719, "cur_lr": 4.999999873689376e-05, "total_loss": 878.877685546875}, "load_time_ms": 0.719, "num_steps_sampled": 615600, "grad_time_ms": 699.493, "update_time_ms": 2.394, "sample_time_ms": 29870.971}, "date": "2025-08-30_20-31-43", "hostname": "cda-server-4", "time_this_iter_s": 32.74670386314392, "episodes_total": 3078, "timestamp": 1756578703, "node_ip": "10.157.146.4", "done": false, "time_total_s": 15671.988368749619, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 514, "episode_reward_mean": -616.4751657566518, "training_iteration": 514, "timesteps_total": 616800, "policy_reward_mean": {}, "episode_reward_min": -790.0202304601228, "timesteps_since_restore": 616800, "num_metric_batches_dropped": 0, "time_since_restore": 15702.60909318924, "episode_reward_max": -491.2839050822093, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 616800, "default": {"kl": 0.012382318265736103, "policy_loss": -0.14508973062038422, "vf_loss": 372.60406494140625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9650505781173706, "entropy": 10.245697975158691, "cur_lr": 4.999999873689376e-05, "total_loss": 372.47772216796875}, "load_time_ms": 0.721, "num_steps_sampled": 616800, "grad_time_ms": 693.014, "update_time_ms": 2.412, "sample_time_ms": 30183.993}, "date": "2025-08-30_20-32-14", "hostname": "cda-server-4", "time_this_iter_s": 30.62072443962097, "episodes_total": 3084, "timestamp": 1756578734, "node_ip": "10.157.146.4", "done": false, "time_total_s": 15702.60909318924, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 515, "episode_reward_mean": -618.0343709553272, "training_iteration": 515, "timesteps_total": 618000, "policy_reward_mean": {}, "episode_reward_min": -790.0202304601228, "timesteps_since_restore": 618000, "num_metric_batches_dropped": 0, "time_since_restore": 15729.980680704117, "episode_reward_max": -491.2839050822093, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 618000, "default": {"kl": 0.01073629129678011, "policy_loss": -0.12288472056388855, "vf_loss": 660.76806640625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9013449549674988, "entropy": 10.373371124267578, "cur_lr": 4.999999873689376e-05, "total_loss": 660.6614379882812}, "load_time_ms": 0.714, "num_steps_sampled": 618000, "grad_time_ms": 693.093, "update_time_ms": 2.279, "sample_time_ms": 30019.772}, "date": "2025-08-30_20-32-41", "hostname": "cda-server-4", "time_this_iter_s": 27.37158751487732, "episodes_total": 3090, "timestamp": 1756578761, "node_ip": "10.157.146.4", "done": false, "time_total_s": 15729.980680704117, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 516, "episode_reward_mean": -619.3307746503224, "training_iteration": 516, "timesteps_total": 619200, "policy_reward_mean": {}, "episode_reward_min": -790.0202304601228, "timesteps_since_restore": 619200, "num_metric_batches_dropped": 0, "time_since_restore": 15760.88647031784, "episode_reward_max": -491.2839050822093, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 619200, "default": {"kl": 0.012034377083182335, "policy_loss": -0.13284002244472504, "vf_loss": 261.21392822265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9620370864868164, "entropy": 10.231449127197266, "cur_lr": 4.999999873689376e-05, "total_loss": 261.099365234375}, "load_time_ms": 0.715, "num_steps_sampled": 619200, "grad_time_ms": 683.011, "update_time_ms": 2.294, "sample_time_ms": 30063.479}, "date": "2025-08-30_20-33-12", "hostname": "cda-server-4", "time_this_iter_s": 30.905789613723755, "episodes_total": 3096, "timestamp": 1756578792, "node_ip": "10.157.146.4", "done": false, "time_total_s": 15760.88647031784, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 517, "episode_reward_mean": -619.3078925757736, "training_iteration": 517, "timesteps_total": 620400, "policy_reward_mean": {}, "episode_reward_min": -790.0202304601228, "timesteps_since_restore": 620400, "num_metric_batches_dropped": 0, "time_since_restore": 15789.78678059578, "episode_reward_max": -491.2839050822093, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 620400, "default": {"kl": 0.010916860774159431, "policy_loss": -0.13536322116851807, "vf_loss": 493.8644104003906, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9407352805137634, "entropy": 10.091202735900879, "cur_lr": 4.999999873689376e-05, "total_loss": 493.74566650390625}, "load_time_ms": 0.692, "num_steps_sampled": 620400, "grad_time_ms": 680.398, "update_time_ms": 2.266, "sample_time_ms": 29621.156}, "date": "2025-08-30_20-33-41", "hostname": "cda-server-4", "time_this_iter_s": 28.900310277938843, "episodes_total": 3102, "timestamp": 1756578821, "node_ip": "10.157.146.4", "done": false, "time_total_s": 15789.78678059578, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 518, "episode_reward_mean": -619.6209579068629, "training_iteration": 518, "timesteps_total": 621600, "policy_reward_mean": {}, "episode_reward_min": -790.0202304601228, "timesteps_since_restore": 621600, "num_metric_batches_dropped": 0, "time_since_restore": 15818.725476264954, "episode_reward_max": -491.2839050822093, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 621600, "default": {"kl": 0.0124993696808815, "policy_loss": -0.13766156136989594, "vf_loss": 278.99462890625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9643943309783936, "entropy": 10.058174133300781, "cur_lr": 4.999999873689376e-05, "total_loss": 278.87591552734375}, "load_time_ms": 0.701, "num_steps_sampled": 621600, "grad_time_ms": 664.744, "update_time_ms": 2.28, "sample_time_ms": 29572.119}, "date": "2025-08-30_20-34-10", "hostname": "cda-server-4", "time_this_iter_s": 28.938695669174194, "episodes_total": 3108, "timestamp": 1756578850, "node_ip": "10.157.146.4", "done": false, "time_total_s": 15818.725476264954, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 519, "episode_reward_mean": -619.1225003788433, "training_iteration": 519, "timesteps_total": 622800, "policy_reward_mean": {}, "episode_reward_min": -790.0202304601228, "timesteps_since_restore": 622800, "num_metric_batches_dropped": 0, "time_since_restore": 15850.022336483002, "episode_reward_max": -491.2839050822093, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 622800, "default": {"kl": 0.010242287069559097, "policy_loss": -0.12653574347496033, "vf_loss": 252.189208984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9566884636878967, "entropy": 10.002917289733887, "cur_lr": 4.999999873689376e-05, "total_loss": 252.07823181152344}, "load_time_ms": 0.708, "num_steps_sampled": 622800, "grad_time_ms": 658.62, "update_time_ms": 2.355, "sample_time_ms": 29612.064}, "date": "2025-08-30_20-34-42", "hostname": "cda-server-4", "time_this_iter_s": 31.296860218048096, "episodes_total": 3114, "timestamp": 1756578882, "node_ip": "10.157.146.4", "done": false, "time_total_s": 15850.022336483002, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 520, "episode_reward_mean": -617.7889277936098, "training_iteration": 520, "timesteps_total": 624000, "policy_reward_mean": {}, "episode_reward_min": -790.0202304601228, "timesteps_since_restore": 624000, "num_metric_batches_dropped": 0, "time_since_restore": 15879.420688152313, "episode_reward_max": -491.2839050822093, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 624000, "default": {"kl": 0.010512049309909344, "policy_loss": -0.1314239799976349, "vf_loss": 859.16796875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9222143888473511, "entropy": 10.033998489379883, "cur_lr": 4.999999873689376e-05, "total_loss": 859.0525512695312}, "load_time_ms": 0.716, "num_steps_sampled": 624000, "grad_time_ms": 653.547, "update_time_ms": 2.328, "sample_time_ms": 29545.032}, "date": "2025-08-30_20-35-11", "hostname": "cda-server-4", "time_this_iter_s": 29.398351669311523, "episodes_total": 3120, "timestamp": 1756578911, "node_ip": "10.157.146.4", "done": false, "time_total_s": 15879.420688152313, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 521, "episode_reward_mean": -615.2667817171653, "training_iteration": 521, "timesteps_total": 625200, "policy_reward_mean": {}, "episode_reward_min": -790.0202304601228, "timesteps_since_restore": 625200, "num_metric_batches_dropped": 0, "time_since_restore": 15910.227376699448, "episode_reward_max": -491.2839050822093, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 625200, "default": {"kl": 0.011036183685064316, "policy_loss": -0.11883534491062164, "vf_loss": 181.0576934814453, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9768969416618347, "entropy": 9.910478591918945, "cur_lr": 4.999999873689376e-05, "total_loss": 180.95562744140625}, "load_time_ms": 0.716, "num_steps_sampled": 625200, "grad_time_ms": 668.658, "update_time_ms": 2.305, "sample_time_ms": 29585.17}, "date": "2025-08-30_20-35-42", "hostname": "cda-server-4", "time_this_iter_s": 30.8066885471344, "episodes_total": 3126, "timestamp": 1756578942, "node_ip": "10.157.146.4", "done": false, "time_total_s": 15910.227376699448, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 522, "episode_reward_mean": -616.1103616572249, "training_iteration": 522, "timesteps_total": 626400, "policy_reward_mean": {}, "episode_reward_min": -790.0202304601228, "timesteps_since_restore": 626400, "num_metric_batches_dropped": 0, "time_since_restore": 15939.25824022293, "episode_reward_max": -491.2839050822093, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 626400, "default": {"kl": 0.010581272654235363, "policy_loss": -0.14322388172149658, "vf_loss": 684.9435424804688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9440057277679443, "entropy": 10.233210563659668, "cur_lr": 4.999999873689376e-05, "total_loss": 684.8162841796875}, "load_time_ms": 0.634, "num_steps_sampled": 626400, "grad_time_ms": 637.49, "update_time_ms": 2.314, "sample_time_ms": 29357.196}, "date": "2025-08-30_20-36-11", "hostname": "cda-server-4", "time_this_iter_s": 29.030863523483276, "episodes_total": 3132, "timestamp": 1756578971, "node_ip": "10.157.146.4", "done": false, "time_total_s": 15939.25824022293, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 523, "episode_reward_mean": -618.2255582547708, "training_iteration": 523, "timesteps_total": 627600, "policy_reward_mean": {}, "episode_reward_min": -790.0202304601228, "timesteps_since_restore": 627600, "num_metric_batches_dropped": 0, "time_since_restore": 15972.26362991333, "episode_reward_max": -491.2839050822093, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 627600, "default": {"kl": 0.010411839932203293, "policy_loss": -0.14059992134571075, "vf_loss": 338.1313781738281, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9506849646568298, "entropy": 10.091381072998047, "cur_lr": 4.999999873689376e-05, "total_loss": 338.006591796875}, "load_time_ms": 0.638, "num_steps_sampled": 627600, "grad_time_ms": 646.236, "update_time_ms": 2.313, "sample_time_ms": 29374.214}, "date": "2025-08-30_20-36-44", "hostname": "cda-server-4", "time_this_iter_s": 33.00538969039917, "episodes_total": 3138, "timestamp": 1756579004, "node_ip": "10.157.146.4", "done": false, "time_total_s": 15972.26362991333, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 524, "episode_reward_mean": -619.0532414843963, "training_iteration": 524, "timesteps_total": 628800, "policy_reward_mean": {}, "episode_reward_min": -790.0202304601228, "timesteps_since_restore": 628800, "num_metric_batches_dropped": 0, "time_since_restore": 16004.45817565918, "episode_reward_max": -491.2839050822093, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 628800, "default": {"kl": 0.010872787795960903, "policy_loss": -0.13199114799499512, "vf_loss": 486.3606872558594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9349870681762695, "entropy": 10.10987663269043, "cur_lr": 4.999999873689376e-05, "total_loss": 486.2451171875}, "load_time_ms": 0.675, "num_steps_sampled": 628800, "grad_time_ms": 665.252, "update_time_ms": 2.31, "sample_time_ms": 29512.491}, "date": "2025-08-30_20-37-16", "hostname": "cda-server-4", "time_this_iter_s": 32.19454574584961, "episodes_total": 3144, "timestamp": 1756579036, "node_ip": "10.157.146.4", "done": false, "time_total_s": 16004.45817565918, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 525, "episode_reward_mean": -619.441915743789, "training_iteration": 525, "timesteps_total": 630000, "policy_reward_mean": {}, "episode_reward_min": -790.0202304601228, "timesteps_since_restore": 630000, "num_metric_batches_dropped": 0, "time_since_restore": 16036.0646879673, "episode_reward_max": -491.2839050822093, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 630000, "default": {"kl": 0.01119519118219614, "policy_loss": -0.12851892411708832, "vf_loss": 187.9602813720703, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9755532145500183, "entropy": 9.989285469055176, "cur_lr": 4.999999873689376e-05, "total_loss": 187.84878540039062}, "load_time_ms": 0.674, "num_steps_sampled": 630000, "grad_time_ms": 682.675, "update_time_ms": 2.35, "sample_time_ms": 29918.577}, "date": "2025-08-30_20-37-48", "hostname": "cda-server-4", "time_this_iter_s": 31.606512308120728, "episodes_total": 3150, "timestamp": 1756579068, "node_ip": "10.157.146.4", "done": false, "time_total_s": 16036.0646879673, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 526, "episode_reward_mean": -620.7147838262056, "training_iteration": 526, "timesteps_total": 631200, "policy_reward_mean": {}, "episode_reward_min": -790.0202304601228, "timesteps_since_restore": 631200, "num_metric_batches_dropped": 0, "time_since_restore": 16065.832470655441, "episode_reward_max": -491.2839050822093, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 631200, "default": {"kl": 0.008290572091937065, "policy_loss": -0.12369512021541595, "vf_loss": 472.6839294433594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9382305145263672, "entropy": 10.124764442443848, "cur_lr": 4.999999873689376e-05, "total_loss": 472.57281494140625}, "load_time_ms": 0.664, "num_steps_sampled": 631200, "grad_time_ms": 703.558, "update_time_ms": 2.349, "sample_time_ms": 29783.952}, "date": "2025-08-30_20-38-17", "hostname": "cda-server-4", "time_this_iter_s": 29.76778268814087, "episodes_total": 3156, "timestamp": 1756579097, "node_ip": "10.157.146.4", "done": false, "time_total_s": 16065.832470655441, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 527, "episode_reward_mean": -621.0996791638582, "training_iteration": 527, "timesteps_total": 632400, "policy_reward_mean": {}, "episode_reward_min": -790.0202304601228, "timesteps_since_restore": 632400, "num_metric_batches_dropped": 0, "time_since_restore": 16095.976719617844, "episode_reward_max": -491.2839050822093, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 632400, "default": {"kl": 0.01070559024810791, "policy_loss": -0.11007315665483475, "vf_loss": 139.71295166015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9807137250900269, "entropy": 9.991328239440918, "cur_lr": 4.999999873689376e-05, "total_loss": 139.619140625}, "load_time_ms": 0.69, "num_steps_sampled": 632400, "grad_time_ms": 712.655, "update_time_ms": 2.255, "sample_time_ms": 29899.333}, "date": "2025-08-30_20-38-48", "hostname": "cda-server-4", "time_this_iter_s": 30.144248962402344, "episodes_total": 3162, "timestamp": 1756579128, "node_ip": "10.157.146.4", "done": false, "time_total_s": 16095.976719617844, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 528, "episode_reward_mean": -622.3613971299403, "training_iteration": 528, "timesteps_total": 633600, "policy_reward_mean": {}, "episode_reward_min": -790.0202304601228, "timesteps_since_restore": 633600, "num_metric_batches_dropped": 0, "time_since_restore": 16125.912268400192, "episode_reward_max": -506.9586324772753, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 633600, "default": {"kl": 0.009510033763945103, "policy_loss": -0.1147080808877945, "vf_loss": 681.5159301757812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9222891330718994, "entropy": 9.995594024658203, "cur_lr": 4.999999873689376e-05, "total_loss": 681.4157104492188}, "load_time_ms": 0.706, "num_steps_sampled": 633600, "grad_time_ms": 726.543, "update_time_ms": 2.198, "sample_time_ms": 29985.194}, "date": "2025-08-30_20-39-18", "hostname": "cda-server-4", "time_this_iter_s": 29.935548782348633, "episodes_total": 3168, "timestamp": 1756579158, "node_ip": "10.157.146.4", "done": false, "time_total_s": 16125.912268400192, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 529, "episode_reward_mean": -620.8269639040548, "training_iteration": 529, "timesteps_total": 634800, "policy_reward_mean": {}, "episode_reward_min": -790.0202304601228, "timesteps_since_restore": 634800, "num_metric_batches_dropped": 0, "time_since_restore": 16158.177815437317, "episode_reward_max": -506.9586324772753, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 634800, "default": {"kl": 0.011999172158539295, "policy_loss": -0.1309131383895874, "vf_loss": 193.5796661376953, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9790738224983215, "entropy": 9.951457977294922, "cur_lr": 4.999999873689376e-05, "total_loss": 193.46697998046875}, "load_time_ms": 0.705, "num_steps_sampled": 634800, "grad_time_ms": 728.959, "update_time_ms": 2.112, "sample_time_ms": 30079.779}, "date": "2025-08-30_20-39-50", "hostname": "cda-server-4", "time_this_iter_s": 32.265547037124634, "episodes_total": 3174, "timestamp": 1756579190, "node_ip": "10.157.146.4", "done": false, "time_total_s": 16158.177815437317, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 530, "episode_reward_mean": -621.0539217955178, "training_iteration": 530, "timesteps_total": 636000, "policy_reward_mean": {}, "episode_reward_min": -790.0202304601228, "timesteps_since_restore": 636000, "num_metric_batches_dropped": 0, "time_since_restore": 16187.65285563469, "episode_reward_max": -506.9586324772753, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 636000, "default": {"kl": 0.012089126743376255, "policy_loss": -0.11848387122154236, "vf_loss": 55.817447662353516, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9945513606071472, "entropy": 10.247371673583984, "cur_lr": 4.999999873689376e-05, "total_loss": 55.717323303222656}, "load_time_ms": 0.697, "num_steps_sampled": 636000, "grad_time_ms": 734.384, "update_time_ms": 2.177, "sample_time_ms": 30081.952}, "date": "2025-08-30_20-40-19", "hostname": "cda-server-4", "time_this_iter_s": 29.475040197372437, "episodes_total": 3180, "timestamp": 1756579219, "node_ip": "10.157.146.4", "done": false, "time_total_s": 16187.65285563469, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 531, "episode_reward_mean": -618.2828502597569, "training_iteration": 531, "timesteps_total": 637200, "policy_reward_mean": {}, "episode_reward_min": -724.7825406534525, "timesteps_since_restore": 637200, "num_metric_batches_dropped": 0, "time_since_restore": 16219.906694889069, "episode_reward_max": -506.9586324772753, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 637200, "default": {"kl": 0.010136512108147144, "policy_loss": -0.12494075298309326, "vf_loss": 304.9195556640625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9679862260818481, "entropy": 9.973822593688965, "cur_lr": 4.999999873689376e-05, "total_loss": 304.81005859375}, "load_time_ms": 0.713, "num_steps_sampled": 637200, "grad_time_ms": 732.279, "update_time_ms": 2.31, "sample_time_ms": 30228.57}, "date": "2025-08-30_20-40-52", "hostname": "cda-server-4", "time_this_iter_s": 32.25383925437927, "episodes_total": 3186, "timestamp": 1756579252, "node_ip": "10.157.146.4", "done": false, "time_total_s": 16219.906694889069, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 532, "episode_reward_mean": -617.488848963781, "training_iteration": 532, "timesteps_total": 638400, "policy_reward_mean": {}, "episode_reward_min": -724.7825406534525, "timesteps_since_restore": 638400, "num_metric_batches_dropped": 0, "time_since_restore": 16250.279926776886, "episode_reward_max": -506.9586324772753, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 638400, "default": {"kl": 0.010587668046355247, "policy_loss": -0.11777172982692719, "vf_loss": 156.42022705078125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9773924350738525, "entropy": 10.179656982421875, "cur_lr": 4.999999873689376e-05, "total_loss": 156.31854248046875}, "load_time_ms": 0.717, "num_steps_sampled": 638400, "grad_time_ms": 725.624, "update_time_ms": 2.342, "sample_time_ms": 30369.486}, "date": "2025-08-30_20-41-22", "hostname": "cda-server-4", "time_this_iter_s": 30.373231887817383, "episodes_total": 3192, "timestamp": 1756579282, "node_ip": "10.157.146.4", "done": false, "time_total_s": 16250.279926776886, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 533, "episode_reward_mean": -615.538084271266, "training_iteration": 533, "timesteps_total": 639600, "policy_reward_mean": {}, "episode_reward_min": -724.7825406534525, "timesteps_since_restore": 639600, "num_metric_batches_dropped": 0, "time_since_restore": 16282.183629989624, "episode_reward_max": -506.9586324772753, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 639600, "default": {"kl": 0.011996139772236347, "policy_loss": -0.12442628294229507, "vf_loss": 280.2891845703125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.979543924331665, "entropy": 10.046499252319336, "cur_lr": 4.999999873689376e-05, "total_loss": 280.1830139160156}, "load_time_ms": 0.698, "num_steps_sampled": 639600, "grad_time_ms": 722.384, "update_time_ms": 2.323, "sample_time_ms": 30262.64}, "date": "2025-08-30_20-41-54", "hostname": "cda-server-4", "time_this_iter_s": 31.903703212738037, "episodes_total": 3198, "timestamp": 1756579314, "node_ip": "10.157.146.4", "done": false, "time_total_s": 16282.183629989624, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 534, "episode_reward_mean": -614.5153147591086, "training_iteration": 534, "timesteps_total": 640800, "policy_reward_mean": {}, "episode_reward_min": -724.7825406534525, "timesteps_since_restore": 640800, "num_metric_batches_dropped": 0, "time_since_restore": 16312.134269952774, "episode_reward_max": -506.9586324772753, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 640800, "default": {"kl": 0.009401826187968254, "policy_loss": -0.1165916919708252, "vf_loss": 371.4346618652344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9555030465126038, "entropy": 10.100142478942871, "cur_lr": 4.999999873689376e-05, "total_loss": 371.3323974609375}, "load_time_ms": 0.666, "num_steps_sampled": 640800, "grad_time_ms": 724.068, "update_time_ms": 2.353, "sample_time_ms": 30036.594}, "date": "2025-08-30_20-42-24", "hostname": "cda-server-4", "time_this_iter_s": 29.950639963150024, "episodes_total": 3204, "timestamp": 1756579344, "node_ip": "10.157.146.4", "done": false, "time_total_s": 16312.134269952774, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 535, "episode_reward_mean": -614.3987760926736, "training_iteration": 535, "timesteps_total": 642000, "policy_reward_mean": {}, "episode_reward_min": -724.7825406534525, "timesteps_since_restore": 642000, "num_metric_batches_dropped": 0, "time_since_restore": 16340.08780670166, "episode_reward_max": -520.2557895077076, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 642000, "default": {"kl": 0.009419546462595463, "policy_loss": -0.1071864664554596, "vf_loss": 342.68951416015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.94831782579422, "entropy": 9.890848159790039, "cur_lr": 4.999999873689376e-05, "total_loss": 342.59661865234375}, "load_time_ms": 0.665, "num_steps_sampled": 642000, "grad_time_ms": 724.22, "update_time_ms": 2.342, "sample_time_ms": 29671.23}, "date": "2025-08-30_20-42-52", "hostname": "cda-server-4", "time_this_iter_s": 27.95353674888611, "episodes_total": 3210, "timestamp": 1756579372, "node_ip": "10.157.146.4", "done": false, "time_total_s": 16340.08780670166, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 536, "episode_reward_mean": -615.2392192892919, "training_iteration": 536, "timesteps_total": 643200, "policy_reward_mean": {}, "episode_reward_min": -724.7825406534525, "timesteps_since_restore": 643200, "num_metric_batches_dropped": 0, "time_since_restore": 16371.484252214432, "episode_reward_max": -520.2557895077076, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 643200, "default": {"kl": 0.009364424273371696, "policy_loss": -0.11790560185909271, "vf_loss": 160.54066467285156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9819245934486389, "entropy": 10.011823654174805, "cur_lr": 4.999999873689376e-05, "total_loss": 160.43699645996094}, "load_time_ms": 0.679, "num_steps_sampled": 643200, "grad_time_ms": 724.863, "update_time_ms": 2.322, "sample_time_ms": 29833.397}, "date": "2025-08-30_20-43-23", "hostname": "cda-server-4", "time_this_iter_s": 31.396445512771606, "episodes_total": 3216, "timestamp": 1756579403, "node_ip": "10.157.146.4", "done": false, "time_total_s": 16371.484252214432, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 537, "episode_reward_mean": -615.1844835450675, "training_iteration": 537, "timesteps_total": 644400, "policy_reward_mean": {}, "episode_reward_min": -724.7825406534525, "timesteps_since_restore": 644400, "num_metric_batches_dropped": 0, "time_since_restore": 16402.377694368362, "episode_reward_max": -520.2557895077076, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 644400, "default": {"kl": 0.009822864085435867, "policy_loss": -0.12510226666927338, "vf_loss": 115.39393615722656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9818527698516846, "entropy": 9.91799545288086, "cur_lr": 4.999999873689376e-05, "total_loss": 115.28376007080078}, "load_time_ms": 0.68, "num_steps_sampled": 644400, "grad_time_ms": 724.647, "update_time_ms": 2.342, "sample_time_ms": 29908.37}, "date": "2025-08-30_20-43-54", "hostname": "cda-server-4", "time_this_iter_s": 30.893442153930664, "episodes_total": 3222, "timestamp": 1756579434, "node_ip": "10.157.146.4", "done": false, "time_total_s": 16402.377694368362, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 538, "episode_reward_mean": -615.5713728516998, "training_iteration": 538, "timesteps_total": 645600, "policy_reward_mean": {}, "episode_reward_min": -724.7825406534525, "timesteps_since_restore": 645600, "num_metric_batches_dropped": 0, "time_since_restore": 16434.645998716354, "episode_reward_max": -520.2557895077076, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 645600, "default": {"kl": 0.008761433884501457, "policy_loss": -0.12852640450000763, "vf_loss": 285.8805847167969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9662262797355652, "entropy": 10.104073524475098, "cur_lr": 4.999999873689376e-05, "total_loss": 285.765380859375}, "load_time_ms": 0.659, "num_steps_sampled": 645600, "grad_time_ms": 715.917, "update_time_ms": 2.408, "sample_time_ms": 30150.239}, "date": "2025-08-30_20-44-27", "hostname": "cda-server-4", "time_this_iter_s": 32.26830434799194, "episodes_total": 3228, "timestamp": 1756579467, "node_ip": "10.157.146.4", "done": false, "time_total_s": 16434.645998716354, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 539, "episode_reward_mean": -613.6359232663839, "training_iteration": 539, "timesteps_total": 646800, "policy_reward_mean": {}, "episode_reward_min": -708.9841395221275, "timesteps_since_restore": 646800, "num_metric_batches_dropped": 0, "time_since_restore": 16462.86671066284, "episode_reward_max": -520.2557895077076, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 646800, "default": {"kl": 0.010631296783685684, "policy_loss": -0.11839502304792404, "vf_loss": 99.63408660888672, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9837499260902405, "entropy": 9.863357543945312, "cur_lr": 4.999999873689376e-05, "total_loss": 99.5318374633789}, "load_time_ms": 0.661, "num_steps_sampled": 646800, "grad_time_ms": 701.547, "update_time_ms": 2.424, "sample_time_ms": 29760.084}, "date": "2025-08-30_20-44-55", "hostname": "cda-server-4", "time_this_iter_s": 28.220711946487427, "episodes_total": 3234, "timestamp": 1756579495, "node_ip": "10.157.146.4", "done": false, "time_total_s": 16462.86671066284, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 540, "episode_reward_mean": -613.5516945983775, "training_iteration": 540, "timesteps_total": 648000, "policy_reward_mean": {}, "episode_reward_min": -708.9841395221275, "timesteps_since_restore": 648000, "num_metric_batches_dropped": 0, "time_since_restore": 16494.0982837677, "episode_reward_max": -520.29624009555, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 648000, "default": {"kl": 0.008991777896881104, "policy_loss": -0.11019554734230042, "vf_loss": 75.67779541015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9881579875946045, "entropy": 10.064410209655762, "cur_lr": 4.999999873689376e-05, "total_loss": 75.58126068115234}, "load_time_ms": 0.675, "num_steps_sampled": 648000, "grad_time_ms": 678.997, "update_time_ms": 2.477, "sample_time_ms": 29958.29}, "date": "2025-08-30_20-45-26", "hostname": "cda-server-4", "time_this_iter_s": 31.2315731048584, "episodes_total": 3240, "timestamp": 1756579526, "node_ip": "10.157.146.4", "done": false, "time_total_s": 16494.0982837677, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 541, "episode_reward_mean": -611.5488081949313, "training_iteration": 541, "timesteps_total": 649200, "policy_reward_mean": {}, "episode_reward_min": -708.9841395221275, "timesteps_since_restore": 649200, "num_metric_batches_dropped": 0, "time_since_restore": 16524.808342456818, "episode_reward_max": -509.594974457923, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 649200, "default": {"kl": 0.012254755944013596, "policy_loss": -0.13424958288669586, "vf_loss": 280.29931640625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9586204886436462, "entropy": 10.069011688232422, "cur_lr": 4.999999873689376e-05, "total_loss": 280.1836853027344}, "load_time_ms": 0.669, "num_steps_sampled": 649200, "grad_time_ms": 659.339, "update_time_ms": 2.35, "sample_time_ms": 29823.735}, "date": "2025-08-30_20-45-57", "hostname": "cda-server-4", "time_this_iter_s": 30.71005868911743, "episodes_total": 3246, "timestamp": 1756579557, "node_ip": "10.157.146.4", "done": false, "time_total_s": 16524.808342456818, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 542, "episode_reward_mean": -611.8441111606151, "training_iteration": 542, "timesteps_total": 650400, "policy_reward_mean": {}, "episode_reward_min": -708.9841395221275, "timesteps_since_restore": 650400, "num_metric_batches_dropped": 0, "time_since_restore": 16553.337040424347, "episode_reward_max": -509.594974457923, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 650400, "default": {"kl": 0.010345679707825184, "policy_loss": -0.12259471416473389, "vf_loss": 662.0067749023438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9462240934371948, "entropy": 10.02454948425293, "cur_lr": 4.999999873689376e-05, "total_loss": 661.89990234375}, "load_time_ms": 0.666, "num_steps_sampled": 650400, "grad_time_ms": 653.361, "update_time_ms": 2.263, "sample_time_ms": 29645.326}, "date": "2025-08-30_20-46-25", "hostname": "cda-server-4", "time_this_iter_s": 28.528697967529297, "episodes_total": 3252, "timestamp": 1756579585, "node_ip": "10.157.146.4", "done": false, "time_total_s": 16553.337040424347, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 543, "episode_reward_mean": -609.1862411522399, "training_iteration": 543, "timesteps_total": 651600, "policy_reward_mean": {}, "episode_reward_min": -661.5500774147783, "timesteps_since_restore": 651600, "num_metric_batches_dropped": 0, "time_since_restore": 16580.85715842247, "episode_reward_max": -509.594974457923, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 651600, "default": {"kl": 0.009380371309816837, "policy_loss": -0.12076420336961746, "vf_loss": 137.06333923339844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9819883704185486, "entropy": 9.924129486083984, "cur_lr": 4.999999873689376e-05, "total_loss": 136.9568328857422}, "load_time_ms": 0.671, "num_steps_sampled": 651600, "grad_time_ms": 655.11, "update_time_ms": 2.329, "sample_time_ms": 29205.216}, "date": "2025-08-30_20-46-53", "hostname": "cda-server-4", "time_this_iter_s": 27.52011799812317, "episodes_total": 3258, "timestamp": 1756579613, "node_ip": "10.157.146.4", "done": false, "time_total_s": 16580.85715842247, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 544, "episode_reward_mean": -609.6118993412197, "training_iteration": 544, "timesteps_total": 652800, "policy_reward_mean": {}, "episode_reward_min": -661.5500774147783, "timesteps_since_restore": 652800, "num_metric_batches_dropped": 0, "time_since_restore": 16611.646775960922, "episode_reward_max": -509.594974457923, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 652800, "default": {"kl": 0.007568818051367998, "policy_loss": -0.09347453713417053, "vf_loss": 195.35226440429688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9739644527435303, "entropy": 10.030099868774414, "cur_lr": 4.999999873689376e-05, "total_loss": 195.27027893066406}, "load_time_ms": 0.666, "num_steps_sampled": 652800, "grad_time_ms": 653.687, "update_time_ms": 2.265, "sample_time_ms": 29290.61}, "date": "2025-08-30_20-47-24", "hostname": "cda-server-4", "time_this_iter_s": 30.78961753845215, "episodes_total": 3264, "timestamp": 1756579644, "node_ip": "10.157.146.4", "done": false, "time_total_s": 16611.646775960922, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 545, "episode_reward_mean": -610.3899526234842, "training_iteration": 545, "timesteps_total": 654000, "policy_reward_mean": {}, "episode_reward_min": -661.5500774147783, "timesteps_since_restore": 654000, "num_metric_batches_dropped": 0, "time_since_restore": 16641.672328472137, "episode_reward_max": -509.594974457923, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 654000, "default": {"kl": 0.010409300215542316, "policy_loss": -0.12559130787849426, "vf_loss": 274.3468933105469, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9700899124145508, "entropy": 10.163469314575195, "cur_lr": 4.999999873689376e-05, "total_loss": 274.23712158203125}, "load_time_ms": 0.669, "num_steps_sampled": 654000, "grad_time_ms": 654.113, "update_time_ms": 2.255, "sample_time_ms": 29497.388}, "date": "2025-08-30_20-47-54", "hostname": "cda-server-4", "time_this_iter_s": 30.02555251121521, "episodes_total": 3270, "timestamp": 1756579674, "node_ip": "10.157.146.4", "done": false, "time_total_s": 16641.672328472137, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 546, "episode_reward_mean": -610.2443690747627, "training_iteration": 546, "timesteps_total": 655200, "policy_reward_mean": {}, "episode_reward_min": -661.5500774147783, "timesteps_since_restore": 655200, "num_metric_batches_dropped": 0, "time_since_restore": 16673.825635671616, "episode_reward_max": -509.594974457923, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 655200, "default": {"kl": 0.009878816083073616, "policy_loss": -0.11036422103643417, "vf_loss": 138.86788940429688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9876170754432678, "entropy": 10.008864402770996, "cur_lr": 4.999999873689376e-05, "total_loss": 138.7725372314453}, "load_time_ms": 0.658, "num_steps_sampled": 655200, "grad_time_ms": 652.557, "update_time_ms": 2.244, "sample_time_ms": 29574.655}, "date": "2025-08-30_20-48-26", "hostname": "cda-server-4", "time_this_iter_s": 32.15330719947815, "episodes_total": 3276, "timestamp": 1756579706, "node_ip": "10.157.146.4", "done": false, "time_total_s": 16673.825635671616, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 547, "episode_reward_mean": -611.4680030466785, "training_iteration": 547, "timesteps_total": 656400, "policy_reward_mean": {}, "episode_reward_min": -661.5500774147783, "timesteps_since_restore": 656400, "num_metric_batches_dropped": 0, "time_since_restore": 16701.85434126854, "episode_reward_max": -509.594974457923, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 656400, "default": {"kl": 0.01105254516005516, "policy_loss": -0.14132803678512573, "vf_loss": 391.0574951171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.960041880607605, "entropy": 10.241620063781738, "cur_lr": 4.999999873689376e-05, "total_loss": 390.9328918457031}, "load_time_ms": 0.641, "num_steps_sampled": 656400, "grad_time_ms": 641.733, "update_time_ms": 2.362, "sample_time_ms": 29299.029}, "date": "2025-08-30_20-48-54", "hostname": "cda-server-4", "time_this_iter_s": 28.028705596923828, "episodes_total": 3282, "timestamp": 1756579734, "node_ip": "10.157.146.4", "done": false, "time_total_s": 16701.85434126854, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 548, "episode_reward_mean": -611.288111963648, "training_iteration": 548, "timesteps_total": 657600, "policy_reward_mean": {}, "episode_reward_min": -661.5500774147783, "timesteps_since_restore": 657600, "num_metric_batches_dropped": 0, "time_since_restore": 16731.720999240875, "episode_reward_max": -509.594974457923, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 657600, "default": {"kl": 0.010708107613027096, "policy_loss": -0.1299036294221878, "vf_loss": 333.71441650390625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9615076780319214, "entropy": 9.937858581542969, "cur_lr": 4.999999873689376e-05, "total_loss": 333.6007995605469}, "load_time_ms": 0.635, "num_steps_sampled": 657600, "grad_time_ms": 647.927, "update_time_ms": 2.352, "sample_time_ms": 29052.747}, "date": "2025-08-30_20-49-24", "hostname": "cda-server-4", "time_this_iter_s": 29.866657972335815, "episodes_total": 3288, "timestamp": 1756579764, "node_ip": "10.157.146.4", "done": false, "time_total_s": 16731.720999240875, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 549, "episode_reward_mean": -611.0533358232017, "training_iteration": 549, "timesteps_total": 658800, "policy_reward_mean": {}, "episode_reward_min": -661.5500774147783, "timesteps_since_restore": 658800, "num_metric_batches_dropped": 0, "time_since_restore": 16762.34542298317, "episode_reward_max": -509.594974457923, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 658800, "default": {"kl": 0.011515870690345764, "policy_loss": -0.12183773517608643, "vf_loss": 391.7244873046875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9523783922195435, "entropy": 9.937058448791504, "cur_lr": 4.999999873689376e-05, "total_loss": 391.62017822265625}, "load_time_ms": 0.628, "num_steps_sampled": 658800, "grad_time_ms": 666.478, "update_time_ms": 2.344, "sample_time_ms": 29274.588}, "date": "2025-08-30_20-49-54", "hostname": "cda-server-4", "time_this_iter_s": 30.62442374229431, "episodes_total": 3294, "timestamp": 1756579794, "node_ip": "10.157.146.4", "done": false, "time_total_s": 16762.34542298317, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 550, "episode_reward_mean": -611.4340472995062, "training_iteration": 550, "timesteps_total": 660000, "policy_reward_mean": {}, "episode_reward_min": -661.5500774147783, "timesteps_since_restore": 660000, "num_metric_batches_dropped": 0, "time_since_restore": 16794.20192503929, "episode_reward_max": -509.594974457923, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 660000, "default": {"kl": 0.009290464222431183, "policy_loss": -0.11336556077003479, "vf_loss": 247.19970703125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9699633121490479, "entropy": 10.132556915283203, "cur_lr": 4.999999873689376e-05, "total_loss": 247.10044860839844}, "load_time_ms": 0.634, "num_steps_sampled": 660000, "grad_time_ms": 693.325, "update_time_ms": 2.265, "sample_time_ms": 29310.239}, "date": "2025-08-30_20-50-26", "hostname": "cda-server-4", "time_this_iter_s": 31.856502056121826, "episodes_total": 3300, "timestamp": 1756579826, "node_ip": "10.157.146.4", "done": false, "time_total_s": 16794.20192503929, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 551, "episode_reward_mean": -612.5216260525912, "training_iteration": 551, "timesteps_total": 661200, "policy_reward_mean": {}, "episode_reward_min": -661.5500774147783, "timesteps_since_restore": 661200, "num_metric_batches_dropped": 0, "time_since_restore": 16825.43114900589, "episode_reward_max": -509.594974457923, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 661200, "default": {"kl": 0.00903959572315216, "policy_loss": -0.1306103616952896, "vf_loss": 204.7042236328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9733209609985352, "entropy": 9.828688621520996, "cur_lr": 4.999999873689376e-05, "total_loss": 204.58734130859375}, "load_time_ms": 0.622, "num_steps_sampled": 661200, "grad_time_ms": 713.609, "update_time_ms": 2.272, "sample_time_ms": 29341.897}, "date": "2025-08-30_20-50-58", "hostname": "cda-server-4", "time_this_iter_s": 31.22922396659851, "episodes_total": 3306, "timestamp": 1756579858, "node_ip": "10.157.146.4", "done": false, "time_total_s": 16825.43114900589, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 552, "episode_reward_mean": -611.3124533377361, "training_iteration": 552, "timesteps_total": 662400, "policy_reward_mean": {}, "episode_reward_min": -661.5500774147783, "timesteps_since_restore": 662400, "num_metric_batches_dropped": 0, "time_since_restore": 16854.41908121109, "episode_reward_max": -509.594974457923, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 662400, "default": {"kl": 0.010856563225388527, "policy_loss": -0.14347264170646667, "vf_loss": 279.4120788574219, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.977110743522644, "entropy": 9.955864906311035, "cur_lr": 4.999999873689376e-05, "total_loss": 279.2850341796875}, "load_time_ms": 0.627, "num_steps_sampled": 662400, "grad_time_ms": 726.628, "update_time_ms": 2.291, "sample_time_ms": 29374.77}, "date": "2025-08-30_20-51-27", "hostname": "cda-server-4", "time_this_iter_s": 28.987932205200195, "episodes_total": 3312, "timestamp": 1756579887, "node_ip": "10.157.146.4", "done": false, "time_total_s": 16854.41908121109, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 553, "episode_reward_mean": -611.4543870661696, "training_iteration": 553, "timesteps_total": 663600, "policy_reward_mean": {}, "episode_reward_min": -661.5500774147783, "timesteps_since_restore": 663600, "num_metric_batches_dropped": 0, "time_since_restore": 16885.18371295929, "episode_reward_max": -509.594974457923, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 663600, "default": {"kl": 0.011379954405128956, "policy_loss": -0.13084155321121216, "vf_loss": 317.1529846191406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.964069128036499, "entropy": 10.047607421875, "cur_lr": 4.999999873689376e-05, "total_loss": 317.0394287109375}, "load_time_ms": 0.635, "num_steps_sampled": 663600, "grad_time_ms": 727.107, "update_time_ms": 2.235, "sample_time_ms": 29698.811}, "date": "2025-08-30_20-51-57", "hostname": "cda-server-4", "time_this_iter_s": 30.764631748199463, "episodes_total": 3318, "timestamp": 1756579917, "node_ip": "10.157.146.4", "done": false, "time_total_s": 16885.18371295929, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 554, "episode_reward_mean": -612.2919975108695, "training_iteration": 554, "timesteps_total": 664800, "policy_reward_mean": {}, "episode_reward_min": -661.5500774147783, "timesteps_since_restore": 664800, "num_metric_batches_dropped": 0, "time_since_restore": 16915.81846523285, "episode_reward_max": -509.594974457923, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 664800, "default": {"kl": 0.011128092184662819, "policy_loss": -0.13643042743206024, "vf_loss": 181.1377716064453, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.98775714635849, "entropy": 9.86246395111084, "cur_lr": 4.999999873689376e-05, "total_loss": 181.01824951171875}, "load_time_ms": 0.638, "num_steps_sampled": 664800, "grad_time_ms": 726.905, "update_time_ms": 2.242, "sample_time_ms": 29683.502}, "date": "2025-08-30_20-52-28", "hostname": "cda-server-4", "time_this_iter_s": 30.63475227355957, "episodes_total": 3324, "timestamp": 1756579948, "node_ip": "10.157.146.4", "done": false, "time_total_s": 16915.81846523285, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 555, "episode_reward_mean": -612.9049112708179, "training_iteration": 555, "timesteps_total": 666000, "policy_reward_mean": {}, "episode_reward_min": -661.5500774147783, "timesteps_since_restore": 666000, "num_metric_batches_dropped": 0, "time_since_restore": 16946.2095079422, "episode_reward_max": -509.594974457923, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 666000, "default": {"kl": 0.01133174728602171, "policy_loss": -0.12616044282913208, "vf_loss": 313.22076416015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9593656063079834, "entropy": 9.815875053405762, "cur_lr": 4.999999873689376e-05, "total_loss": 313.1117858886719}, "load_time_ms": 0.634, "num_steps_sampled": 666000, "grad_time_ms": 726.266, "update_time_ms": 2.208, "sample_time_ms": 29720.738}, "date": "2025-08-30_20-52-58", "hostname": "cda-server-4", "time_this_iter_s": 30.391042709350586, "episodes_total": 3330, "timestamp": 1756579978, "node_ip": "10.157.146.4", "done": false, "time_total_s": 16946.2095079422, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 556, "episode_reward_mean": -612.9781018909667, "training_iteration": 556, "timesteps_total": 667200, "policy_reward_mean": {}, "episode_reward_min": -661.5500774147783, "timesteps_since_restore": 667200, "num_metric_batches_dropped": 0, "time_since_restore": 16975.55885219574, "episode_reward_max": -509.594974457923, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 667200, "default": {"kl": 0.009980953298509121, "policy_loss": -0.12240856140851974, "vf_loss": 452.9295349121094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.94536292552948, "entropy": 9.7695951461792, "cur_lr": 4.999999873689376e-05, "total_loss": 452.822265625}, "load_time_ms": 0.669, "num_steps_sampled": 667200, "grad_time_ms": 726.731, "update_time_ms": 2.23, "sample_time_ms": 29439.828}, "date": "2025-08-30_20-53-28", "hostname": "cda-server-4", "time_this_iter_s": 29.34934425354004, "episodes_total": 3336, "timestamp": 1756580008, "node_ip": "10.157.146.4", "done": false, "time_total_s": 16975.55885219574, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 557, "episode_reward_mean": -612.5739935046975, "training_iteration": 557, "timesteps_total": 668400, "policy_reward_mean": {}, "episode_reward_min": -661.5500774147783, "timesteps_since_restore": 668400, "num_metric_batches_dropped": 0, "time_since_restore": 17008.301743745804, "episode_reward_max": -509.594974457923, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 668400, "default": {"kl": 0.009486428461968899, "policy_loss": -0.09425970911979675, "vf_loss": 376.21954345703125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9541195631027222, "entropy": 9.818892478942871, "cur_lr": 4.999999873689376e-05, "total_loss": 376.1396789550781}, "load_time_ms": 0.663, "num_steps_sampled": 668400, "grad_time_ms": 729.396, "update_time_ms": 2.126, "sample_time_ms": 29908.584}, "date": "2025-08-30_20-54-00", "hostname": "cda-server-4", "time_this_iter_s": 32.74289155006409, "episodes_total": 3342, "timestamp": 1756580040, "node_ip": "10.157.146.4", "done": false, "time_total_s": 17008.301743745804, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 558, "episode_reward_mean": -613.1364510906341, "training_iteration": 558, "timesteps_total": 669600, "policy_reward_mean": {}, "episode_reward_min": -661.5500774147783, "timesteps_since_restore": 669600, "num_metric_batches_dropped": 0, "time_since_restore": 17037.299775123596, "episode_reward_max": -518.9374632439963, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 669600, "default": {"kl": 0.01249330397695303, "policy_loss": -0.13692128658294678, "vf_loss": 347.0527648925781, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9527511596679688, "entropy": 9.596115112304688, "cur_lr": 4.999999873689376e-05, "total_loss": 346.934814453125}, "load_time_ms": 0.663, "num_steps_sampled": 669600, "grad_time_ms": 724.459, "update_time_ms": 2.101, "sample_time_ms": 29826.696}, "date": "2025-08-30_20-54-29", "hostname": "cda-server-4", "time_this_iter_s": 28.99803137779236, "episodes_total": 3348, "timestamp": 1756580069, "node_ip": "10.157.146.4", "done": false, "time_total_s": 17037.299775123596, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 559, "episode_reward_mean": -612.401211929273, "training_iteration": 559, "timesteps_total": 670800, "policy_reward_mean": {}, "episode_reward_min": -661.5500774147783, "timesteps_since_restore": 670800, "num_metric_batches_dropped": 0, "time_since_restore": 17067.84576201439, "episode_reward_max": -503.21056512928806, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 670800, "default": {"kl": 0.011890758760273457, "policy_loss": -0.13127461075782776, "vf_loss": 372.5495300292969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9522508978843689, "entropy": 9.825468063354492, "cur_lr": 4.999999873689376e-05, "total_loss": 372.4363098144531}, "load_time_ms": 0.691, "num_steps_sampled": 670800, "grad_time_ms": 711.126, "update_time_ms": 2.106, "sample_time_ms": 29832.14}, "date": "2025-08-30_20-55-00", "hostname": "cda-server-4", "time_this_iter_s": 30.545986890792847, "episodes_total": 3354, "timestamp": 1756580100, "node_ip": "10.157.146.4", "done": false, "time_total_s": 17067.84576201439, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 560, "episode_reward_mean": -612.5901849379128, "training_iteration": 560, "timesteps_total": 672000, "policy_reward_mean": {}, "episode_reward_min": -661.1931067320966, "timesteps_since_restore": 672000, "num_metric_batches_dropped": 0, "time_since_restore": 17098.89839720726, "episode_reward_max": -503.21056512928806, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 672000, "default": {"kl": 0.010446809232234955, "policy_loss": -0.12846240401268005, "vf_loss": 763.8804321289062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9172493815422058, "entropy": 9.818803787231445, "cur_lr": 4.999999873689376e-05, "total_loss": 763.767822265625}, "load_time_ms": 0.676, "num_steps_sampled": 672000, "grad_time_ms": 714.035, "update_time_ms": 2.1, "sample_time_ms": 29748.872}, "date": "2025-08-30_20-55-31", "hostname": "cda-server-4", "time_this_iter_s": 31.052635192871094, "episodes_total": 3360, "timestamp": 1756580131, "node_ip": "10.157.146.4", "done": false, "time_total_s": 17098.89839720726, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 561, "episode_reward_mean": -612.3688628201282, "training_iteration": 561, "timesteps_total": 673200, "policy_reward_mean": {}, "episode_reward_min": -661.1931067320966, "timesteps_since_restore": 673200, "num_metric_batches_dropped": 0, "time_since_restore": 17127.626200437546, "episode_reward_max": -503.21056512928806, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 673200, "default": {"kl": 0.011355208232998848, "policy_loss": -0.12614478170871735, "vf_loss": 58.37223815917969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9926831722259521, "entropy": 9.92141342163086, "cur_lr": 4.999999873689376e-05, "total_loss": 58.26333999633789}, "load_time_ms": 0.681, "num_steps_sampled": 673200, "grad_time_ms": 712.435, "update_time_ms": 2.331, "sample_time_ms": 29500.039}, "date": "2025-08-30_20-56-00", "hostname": "cda-server-4", "time_this_iter_s": 28.727803230285645, "episodes_total": 3366, "timestamp": 1756580160, "node_ip": "10.157.146.4", "done": false, "time_total_s": 17127.626200437546, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 562, "episode_reward_mean": -612.7913137755766, "training_iteration": 562, "timesteps_total": 674400, "policy_reward_mean": {}, "episode_reward_min": -676.6038093872376, "timesteps_since_restore": 674400, "num_metric_batches_dropped": 0, "time_since_restore": 17159.735206604004, "episode_reward_max": -503.21056512928806, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 674400, "default": {"kl": 0.00949043594300747, "policy_loss": -0.12050436437129974, "vf_loss": 1012.4786376953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8593498468399048, "entropy": 9.677512168884277, "cur_lr": 4.999999873689376e-05, "total_loss": 1012.3726196289062}, "load_time_ms": 0.693, "num_steps_sampled": 674400, "grad_time_ms": 711.517, "update_time_ms": 2.366, "sample_time_ms": 29812.957}, "date": "2025-08-30_20-56-32", "hostname": "cda-server-4", "time_this_iter_s": 32.10900616645813, "episodes_total": 3372, "timestamp": 1756580192, "node_ip": "10.157.146.4", "done": false, "time_total_s": 17159.735206604004, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 563, "episode_reward_mean": -612.1169622467928, "training_iteration": 563, "timesteps_total": 675600, "policy_reward_mean": {}, "episode_reward_min": -676.6038093872376, "timesteps_since_restore": 675600, "num_metric_batches_dropped": 0, "time_since_restore": 17190.513974666595, "episode_reward_max": -491.2734930231883, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 675600, "default": {"kl": 0.011338609270751476, "policy_loss": -0.1377890557050705, "vf_loss": 673.4642944335938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9360821843147278, "entropy": 9.727497100830078, "cur_lr": 4.999999873689376e-05, "total_loss": 673.34375}, "load_time_ms": 0.683, "num_steps_sampled": 675600, "grad_time_ms": 711.477, "update_time_ms": 2.432, "sample_time_ms": 29814.288}, "date": "2025-08-30_20-57-03", "hostname": "cda-server-4", "time_this_iter_s": 30.778768062591553, "episodes_total": 3378, "timestamp": 1756580223, "node_ip": "10.157.146.4", "done": false, "time_total_s": 17190.513974666595, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 564, "episode_reward_mean": -613.4959704398634, "training_iteration": 564, "timesteps_total": 676800, "policy_reward_mean": {}, "episode_reward_min": -779.3428236475446, "timesteps_since_restore": 676800, "num_metric_batches_dropped": 0, "time_since_restore": 17220.09855389595, "episode_reward_max": -491.2734930231883, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 676800, "default": {"kl": 0.009691791608929634, "policy_loss": -0.13371753692626953, "vf_loss": 378.4728698730469, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9561564326286316, "entropy": 9.79186725616455, "cur_lr": 4.999999873689376e-05, "total_loss": 378.3538513183594}, "load_time_ms": 0.689, "num_steps_sampled": 676800, "grad_time_ms": 711.879, "update_time_ms": 2.478, "sample_time_ms": 29708.837}, "date": "2025-08-30_20-57-32", "hostname": "cda-server-4", "time_this_iter_s": 29.58457922935486, "episodes_total": 3384, "timestamp": 1756580252, "node_ip": "10.157.146.4", "done": false, "time_total_s": 17220.09855389595, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 565, "episode_reward_mean": -612.8949308644164, "training_iteration": 565, "timesteps_total": 678000, "policy_reward_mean": {}, "episode_reward_min": -779.3428236475446, "timesteps_since_restore": 678000, "num_metric_batches_dropped": 0, "time_since_restore": 17248.404955148697, "episode_reward_max": -491.2734930231883, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 678000, "default": {"kl": 0.010577634908258915, "policy_loss": -0.1306239366531372, "vf_loss": 278.6214294433594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9609339833259583, "entropy": 9.673492431640625, "cur_lr": 4.999999873689376e-05, "total_loss": 278.5068359375}, "load_time_ms": 0.687, "num_steps_sampled": 678000, "grad_time_ms": 713.69, "update_time_ms": 2.557, "sample_time_ms": 29498.442}, "date": "2025-08-30_20-58-01", "hostname": "cda-server-4", "time_this_iter_s": 28.306401252746582, "episodes_total": 3390, "timestamp": 1756580281, "node_ip": "10.157.146.4", "done": false, "time_total_s": 17248.404955148697, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 566, "episode_reward_mean": -614.4432869904201, "training_iteration": 566, "timesteps_total": 679200, "policy_reward_mean": {}, "episode_reward_min": -779.3428236475446, "timesteps_since_restore": 679200, "num_metric_batches_dropped": 0, "time_since_restore": 17280.07763361931, "episode_reward_max": -491.2734930231883, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 679200, "default": {"kl": 0.013388600200414658, "policy_loss": -0.13790906965732574, "vf_loss": 856.5707397460938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9385480880737305, "entropy": 9.667899131774902, "cur_lr": 4.999999873689376e-05, "total_loss": 856.4531860351562}, "load_time_ms": 0.657, "num_steps_sampled": 679200, "grad_time_ms": 734.385, "update_time_ms": 2.685, "sample_time_ms": 29709.92}, "date": "2025-08-30_20-58-32", "hostname": "cda-server-4", "time_this_iter_s": 31.672678470611572, "episodes_total": 3396, "timestamp": 1756580312, "node_ip": "10.157.146.4", "done": false, "time_total_s": 17280.07763361931, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 567, "episode_reward_mean": -613.7602639124457, "training_iteration": 567, "timesteps_total": 680400, "policy_reward_mean": {}, "episode_reward_min": -779.3428236475446, "timesteps_since_restore": 680400, "num_metric_batches_dropped": 0, "time_since_restore": 17313.269364118576, "episode_reward_max": -491.2734930231883, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 680400, "default": {"kl": 0.009584642946720123, "policy_loss": -0.11520794034004211, "vf_loss": 267.03924560546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9691091179847717, "entropy": 9.879892349243164, "cur_lr": 4.999999873689376e-05, "total_loss": 266.9385986328125}, "load_time_ms": 0.643, "num_steps_sampled": 680400, "grad_time_ms": 744.286, "update_time_ms": 2.83, "sample_time_ms": 29744.795}, "date": "2025-08-30_20-59-06", "hostname": "cda-server-4", "time_this_iter_s": 33.19173049926758, "episodes_total": 3402, "timestamp": 1756580346, "node_ip": "10.157.146.4", "done": false, "time_total_s": 17313.269364118576, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 568, "episode_reward_mean": -613.8008150366163, "training_iteration": 568, "timesteps_total": 681600, "policy_reward_mean": {}, "episode_reward_min": -779.3428236475446, "timesteps_since_restore": 681600, "num_metric_batches_dropped": 0, "time_since_restore": 17343.46815109253, "episode_reward_max": -491.2734930231883, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 681600, "default": {"kl": 0.008844994939863682, "policy_loss": -0.10580179840326309, "vf_loss": 301.83197021484375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9536299109458923, "entropy": 9.56690502166748, "cur_lr": 4.999999873689376e-05, "total_loss": 301.7395935058594}, "load_time_ms": 0.647, "num_steps_sampled": 681600, "grad_time_ms": 751.748, "update_time_ms": 2.852, "sample_time_ms": 29857.428}, "date": "2025-08-30_20-59-36", "hostname": "cda-server-4", "time_this_iter_s": 30.198786973953247, "episodes_total": 3408, "timestamp": 1756580376, "node_ip": "10.157.146.4", "done": false, "time_total_s": 17343.46815109253, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 569, "episode_reward_mean": -615.2932971883312, "training_iteration": 569, "timesteps_total": 682800, "policy_reward_mean": {}, "episode_reward_min": -779.3428236475446, "timesteps_since_restore": 682800, "num_metric_batches_dropped": 0, "time_since_restore": 17372.671855926514, "episode_reward_max": -491.2734930231883, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 682800, "default": {"kl": 0.010360443033277988, "policy_loss": -0.12874609231948853, "vf_loss": 594.4419555664062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9343584775924683, "entropy": 9.618459701538086, "cur_lr": 4.999999873689376e-05, "total_loss": 594.328857421875}, "load_time_ms": 0.622, "num_steps_sampled": 682800, "grad_time_ms": 757.131, "update_time_ms": 2.821, "sample_time_ms": 29717.886}, "date": "2025-08-30_21-00-05", "hostname": "cda-server-4", "time_this_iter_s": 29.203704833984375, "episodes_total": 3414, "timestamp": 1756580405, "node_ip": "10.157.146.4", "done": false, "time_total_s": 17372.671855926514, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 570, "episode_reward_mean": -614.8120712780421, "training_iteration": 570, "timesteps_total": 684000, "policy_reward_mean": {}, "episode_reward_min": -779.3428236475446, "timesteps_since_restore": 684000, "num_metric_batches_dropped": 0, "time_since_restore": 17403.23874592781, "episode_reward_max": -491.2734930231883, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 684000, "default": {"kl": 0.012724770233035088, "policy_loss": -0.12444211542606354, "vf_loss": 586.8143310546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.967515230178833, "entropy": 9.576632499694824, "cur_lr": 4.999999873689376e-05, "total_loss": 586.709228515625}, "load_time_ms": 0.623, "num_steps_sampled": 684000, "grad_time_ms": 742.956, "update_time_ms": 2.815, "sample_time_ms": 29683.51}, "date": "2025-08-30_21-00-36", "hostname": "cda-server-4", "time_this_iter_s": 30.566890001296997, "episodes_total": 3420, "timestamp": 1756580436, "node_ip": "10.157.146.4", "done": false, "time_total_s": 17403.23874592781, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 571, "episode_reward_mean": -615.0564902022146, "training_iteration": 571, "timesteps_total": 685200, "policy_reward_mean": {}, "episode_reward_min": -779.3428236475446, "timesteps_since_restore": 685200, "num_metric_batches_dropped": 0, "time_since_restore": 17434.154129505157, "episode_reward_max": -491.2734930231883, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 685200, "default": {"kl": 0.009535199031233788, "policy_loss": -0.11051080375909805, "vf_loss": 166.96018981933594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.976013720035553, "entropy": 9.670022010803223, "cur_lr": 4.999999873689376e-05, "total_loss": 166.86416625976562}, "load_time_ms": 0.629, "num_steps_sampled": 685200, "grad_time_ms": 740.357, "update_time_ms": 2.717, "sample_time_ms": 29904.993}, "date": "2025-08-30_21-01-07", "hostname": "cda-server-4", "time_this_iter_s": 30.9153835773468, "episodes_total": 3426, "timestamp": 1756580467, "node_ip": "10.157.146.4", "done": false, "time_total_s": 17434.154129505157, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 572, "episode_reward_mean": -614.4157922999308, "training_iteration": 572, "timesteps_total": 686400, "policy_reward_mean": {}, "episode_reward_min": -779.3428236475446, "timesteps_since_restore": 686400, "num_metric_batches_dropped": 0, "time_since_restore": 17461.82030749321, "episode_reward_max": -491.2734930231883, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 686400, "default": {"kl": 0.00970547180622816, "policy_loss": -0.10716657340526581, "vf_loss": 192.58953857421875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.980718731880188, "entropy": 9.524877548217773, "cur_lr": 4.999999873689376e-05, "total_loss": 192.49713134765625}, "load_time_ms": 0.61, "num_steps_sampled": 686400, "grad_time_ms": 739.192, "update_time_ms": 2.709, "sample_time_ms": 29461.951}, "date": "2025-08-30_21-01-34", "hostname": "cda-server-4", "time_this_iter_s": 27.666177988052368, "episodes_total": 3432, "timestamp": 1756580494, "node_ip": "10.157.146.4", "done": false, "time_total_s": 17461.82030749321, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 573, "episode_reward_mean": -615.9747768946498, "training_iteration": 573, "timesteps_total": 687600, "policy_reward_mean": {}, "episode_reward_min": -779.3428236475446, "timesteps_since_restore": 687600, "num_metric_batches_dropped": 0, "time_since_restore": 17489.479825496674, "episode_reward_max": -491.2734930231883, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 687600, "default": {"kl": 0.010056711733341217, "policy_loss": -0.10587356984615326, "vf_loss": 250.60736083984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.981370210647583, "entropy": 9.84052562713623, "cur_lr": 4.999999873689376e-05, "total_loss": 250.51678466796875}, "load_time_ms": 0.618, "num_steps_sampled": 687600, "grad_time_ms": 725.673, "update_time_ms": 2.688, "sample_time_ms": 29163.408}, "date": "2025-08-30_21-02-02", "hostname": "cda-server-4", "time_this_iter_s": 27.659518003463745, "episodes_total": 3438, "timestamp": 1756580522, "node_ip": "10.157.146.4", "done": false, "time_total_s": 17489.479825496674, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 574, "episode_reward_mean": -616.3316896875714, "training_iteration": 574, "timesteps_total": 688800, "policy_reward_mean": {}, "episode_reward_min": -779.3428236475446, "timesteps_since_restore": 688800, "num_metric_batches_dropped": 0, "time_since_restore": 17518.7174782753, "episode_reward_max": -491.2734930231883, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 688800, "default": {"kl": 0.008950948715209961, "policy_loss": -0.11261730641126633, "vf_loss": 189.98123168945312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9706084132194519, "entropy": 9.607809066772461, "cur_lr": 4.999999873689376e-05, "total_loss": 189.88218688964844}, "load_time_ms": 0.607, "num_steps_sampled": 688800, "grad_time_ms": 715.484, "update_time_ms": 2.667, "sample_time_ms": 29138.913}, "date": "2025-08-30_21-02-31", "hostname": "cda-server-4", "time_this_iter_s": 29.23765277862549, "episodes_total": 3444, "timestamp": 1756580551, "node_ip": "10.157.146.4", "done": false, "time_total_s": 17518.7174782753, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 575, "episode_reward_mean": -615.7091926962306, "training_iteration": 575, "timesteps_total": 690000, "policy_reward_mean": {}, "episode_reward_min": -779.3428236475446, "timesteps_since_restore": 690000, "num_metric_batches_dropped": 0, "time_since_restore": 17550.276401281357, "episode_reward_max": -491.2734930231883, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 690000, "default": {"kl": 0.011684320867061615, "policy_loss": -0.1259143054485321, "vf_loss": 81.86355590820312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.991550862789154, "entropy": 9.449613571166992, "cur_lr": 4.999999873689376e-05, "total_loss": 81.7553939819336}, "load_time_ms": 0.608, "num_steps_sampled": 690000, "grad_time_ms": 706.784, "update_time_ms": 2.616, "sample_time_ms": 29472.929}, "date": "2025-08-30_21-03-03", "hostname": "cda-server-4", "time_this_iter_s": 31.55892300605774, "episodes_total": 3450, "timestamp": 1756580583, "node_ip": "10.157.146.4", "done": false, "time_total_s": 17550.276401281357, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 576, "episode_reward_mean": -617.4679662278545, "training_iteration": 576, "timesteps_total": 691200, "policy_reward_mean": {}, "episode_reward_min": -779.3428236475446, "timesteps_since_restore": 691200, "num_metric_batches_dropped": 0, "time_since_restore": 17579.854864120483, "episode_reward_max": -491.2734930231883, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 691200, "default": {"kl": 0.010151026770472527, "policy_loss": -0.13851404190063477, "vf_loss": 157.4898681640625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9844635725021362, "entropy": 9.788643836975098, "cur_lr": 4.999999873689376e-05, "total_loss": 157.36676025390625}, "load_time_ms": 0.638, "num_steps_sampled": 691200, "grad_time_ms": 662.276, "update_time_ms": 2.504, "sample_time_ms": 29308.161}, "date": "2025-08-30_21-03-32", "hostname": "cda-server-4", "time_this_iter_s": 29.578462839126587, "episodes_total": 3456, "timestamp": 1756580612, "node_ip": "10.157.146.4", "done": false, "time_total_s": 17579.854864120483, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 577, "episode_reward_mean": -617.7585532006048, "training_iteration": 577, "timesteps_total": 692400, "policy_reward_mean": {}, "episode_reward_min": -779.3428236475446, "timesteps_since_restore": 692400, "num_metric_batches_dropped": 0, "time_since_restore": 17610.33811020851, "episode_reward_max": -491.2734930231883, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 692400, "default": {"kl": 0.011291442438960075, "policy_loss": -0.12834957242012024, "vf_loss": 223.28436279296875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9791123867034912, "entropy": 9.671029090881348, "cur_lr": 4.999999873689376e-05, "total_loss": 223.17315673828125}, "load_time_ms": 0.649, "num_steps_sampled": 692400, "grad_time_ms": 658.075, "update_time_ms": 2.384, "sample_time_ms": 29041.682}, "date": "2025-08-30_21-04-03", "hostname": "cda-server-4", "time_this_iter_s": 30.483246088027954, "episodes_total": 3462, "timestamp": 1756580643, "node_ip": "10.157.146.4", "done": false, "time_total_s": 17610.33811020851, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 578, "episode_reward_mean": -616.8637671176497, "training_iteration": 578, "timesteps_total": 693600, "policy_reward_mean": {}, "episode_reward_min": -779.3428236475446, "timesteps_since_restore": 693600, "num_metric_batches_dropped": 0, "time_since_restore": 17641.76815509796, "episode_reward_max": -491.2734930231883, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 693600, "default": {"kl": 0.007429724093526602, "policy_loss": -0.11312976479530334, "vf_loss": 122.03062438964844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9817049503326416, "entropy": 9.574504852294922, "cur_lr": 4.999999873689376e-05, "total_loss": 121.92877960205078}, "load_time_ms": 0.645, "num_steps_sampled": 693600, "grad_time_ms": 658.444, "update_time_ms": 2.417, "sample_time_ms": 29164.432}, "date": "2025-08-30_21-04-34", "hostname": "cda-server-4", "time_this_iter_s": 31.430044889450073, "episodes_total": 3468, "timestamp": 1756580674, "node_ip": "10.157.146.4", "done": false, "time_total_s": 17641.76815509796, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 579, "episode_reward_mean": -616.7211491326701, "training_iteration": 579, "timesteps_total": 694800, "policy_reward_mean": {}, "episode_reward_min": -779.3428236475446, "timesteps_since_restore": 694800, "num_metric_batches_dropped": 0, "time_since_restore": 17674.306287288666, "episode_reward_max": -491.2734930231883, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 694800, "default": {"kl": 0.0091854901984334, "policy_loss": -0.12162517011165619, "vf_loss": 276.61834716796875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9651148915290833, "entropy": 9.395771980285645, "cur_lr": 4.999999873689376e-05, "total_loss": 276.51068115234375}, "load_time_ms": 0.649, "num_steps_sampled": 694800, "grad_time_ms": 643.173, "update_time_ms": 2.389, "sample_time_ms": 29513.035}, "date": "2025-08-30_21-05-07", "hostname": "cda-server-4", "time_this_iter_s": 32.538132190704346, "episodes_total": 3474, "timestamp": 1756580707, "node_ip": "10.157.146.4", "done": false, "time_total_s": 17674.306287288666, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 580, "episode_reward_mean": -616.335872106675, "training_iteration": 580, "timesteps_total": 696000, "policy_reward_mean": {}, "episode_reward_min": -688.667095510996, "timesteps_since_restore": 696000, "num_metric_batches_dropped": 0, "time_since_restore": 17707.81675553322, "episode_reward_max": -514.7503226075005, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 696000, "default": {"kl": 0.009989721700549126, "policy_loss": -0.12711744010448456, "vf_loss": 1005.7776489257812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9061805009841919, "entropy": 9.804445266723633, "cur_lr": 4.999999873689376e-05, "total_loss": 1005.6657104492188}, "load_time_ms": 0.65, "num_steps_sampled": 696000, "grad_time_ms": 648.365, "update_time_ms": 2.385, "sample_time_ms": 29802.134}, "date": "2025-08-30_21-05-40", "hostname": "cda-server-4", "time_this_iter_s": 33.51046824455261, "episodes_total": 3480, "timestamp": 1756580740, "node_ip": "10.157.146.4", "done": false, "time_total_s": 17707.81675553322, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 581, "episode_reward_mean": -615.70596811074, "training_iteration": 581, "timesteps_total": 697200, "policy_reward_mean": {}, "episode_reward_min": -688.667095510996, "timesteps_since_restore": 697200, "num_metric_batches_dropped": 0, "time_since_restore": 17736.847863197327, "episode_reward_max": -514.7503226075005, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 697200, "default": {"kl": 0.012471634894609451, "policy_loss": -0.13007672131061554, "vf_loss": 416.9767150878906, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9572774171829224, "entropy": 9.43813705444336, "cur_lr": 4.999999873689376e-05, "total_loss": 416.8656005859375}, "load_time_ms": 0.639, "num_steps_sampled": 697200, "grad_time_ms": 653.249, "update_time_ms": 2.265, "sample_time_ms": 29608.961}, "date": "2025-08-30_21-06-09", "hostname": "cda-server-4", "time_this_iter_s": 29.031107664108276, "episodes_total": 3486, "timestamp": 1756580769, "node_ip": "10.157.146.4", "done": false, "time_total_s": 17736.847863197327, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 582, "episode_reward_mean": -615.4396055873797, "training_iteration": 582, "timesteps_total": 698400, "policy_reward_mean": {}, "episode_reward_min": -688.667095510996, "timesteps_since_restore": 698400, "num_metric_batches_dropped": 0, "time_since_restore": 17766.466956853867, "episode_reward_max": -514.7503226075005, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 698400, "default": {"kl": 0.009842906147241592, "policy_loss": -0.10332503914833069, "vf_loss": 436.03631591796875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.961659848690033, "entropy": 9.54046630859375, "cur_lr": 4.999999873689376e-05, "total_loss": 435.9479064941406}, "load_time_ms": 0.65, "num_steps_sampled": 698400, "grad_time_ms": 640.241, "update_time_ms": 2.241, "sample_time_ms": 29817.349}, "date": "2025-08-30_21-06-39", "hostname": "cda-server-4", "time_this_iter_s": 29.619093656539917, "episodes_total": 3492, "timestamp": 1756580799, "node_ip": "10.157.146.4", "done": false, "time_total_s": 17766.466956853867, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 583, "episode_reward_mean": -615.6596597051914, "training_iteration": 583, "timesteps_total": 699600, "policy_reward_mean": {}, "episode_reward_min": -688.667095510996, "timesteps_since_restore": 699600, "num_metric_batches_dropped": 0, "time_since_restore": 17798.571351528168, "episode_reward_max": -514.7503226075005, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 699600, "default": {"kl": 0.007835199125111103, "policy_loss": -0.11706683039665222, "vf_loss": 412.1337890625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9449668526649475, "entropy": 9.579608917236328, "cur_lr": 4.999999873689376e-05, "total_loss": 412.0286560058594}, "load_time_ms": 0.639, "num_steps_sampled": 699600, "grad_time_ms": 660.628, "update_time_ms": 2.194, "sample_time_ms": 30241.662}, "date": "2025-08-30_21-07-11", "hostname": "cda-server-4", "time_this_iter_s": 32.10439467430115, "episodes_total": 3498, "timestamp": 1756580831, "node_ip": "10.157.146.4", "done": false, "time_total_s": 17798.571351528168, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 584, "episode_reward_mean": -617.0011816541964, "training_iteration": 584, "timesteps_total": 700800, "policy_reward_mean": {}, "episode_reward_min": -688.667095510996, "timesteps_since_restore": 700800, "num_metric_batches_dropped": 0, "time_since_restore": 17830.44056725502, "episode_reward_max": -514.7503226075005, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 700800, "default": {"kl": 0.010830122977495193, "policy_loss": -0.1317913681268692, "vf_loss": 964.7042236328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9184488654136658, "entropy": 9.780253410339355, "cur_lr": 4.999999873689376e-05, "total_loss": 964.5889892578125}, "load_time_ms": 0.643, "num_steps_sampled": 700800, "grad_time_ms": 661.936, "update_time_ms": 2.333, "sample_time_ms": 30503.361}, "date": "2025-08-30_21-07-43", "hostname": "cda-server-4", "time_this_iter_s": 31.869215726852417, "episodes_total": 3504, "timestamp": 1756580863, "node_ip": "10.157.146.4", "done": false, "time_total_s": 17830.44056725502, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 585, "episode_reward_mean": -616.4880705917841, "training_iteration": 585, "timesteps_total": 702000, "policy_reward_mean": {}, "episode_reward_min": -688.667095510996, "timesteps_since_restore": 702000, "num_metric_batches_dropped": 0, "time_since_restore": 17862.26367378235, "episode_reward_max": -514.7503226075005, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 702000, "default": {"kl": 0.01063202042132616, "policy_loss": -0.13154897093772888, "vf_loss": 262.0792236328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9773640036582947, "entropy": 9.55286693572998, "cur_lr": 4.999999873689376e-05, "total_loss": 261.9638366699219}, "load_time_ms": 0.641, "num_steps_sampled": 702000, "grad_time_ms": 657.066, "update_time_ms": 2.315, "sample_time_ms": 30534.697}, "date": "2025-08-30_21-08-15", "hostname": "cda-server-4", "time_this_iter_s": 31.82310652732849, "episodes_total": 3510, "timestamp": 1756580895, "node_ip": "10.157.146.4", "done": false, "time_total_s": 17862.26367378235, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 586, "episode_reward_mean": -616.4632814671844, "training_iteration": 586, "timesteps_total": 703200, "policy_reward_mean": {}, "episode_reward_min": -673.6351435526208, "timesteps_since_restore": 703200, "num_metric_batches_dropped": 0, "time_since_restore": 17892.673768281937, "episode_reward_max": -514.7503226075005, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 703200, "default": {"kl": 0.012106990441679955, "policy_loss": -0.1476048231124878, "vf_loss": 371.9835205078125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9736945033073425, "entropy": 9.565720558166504, "cur_lr": 4.999999873689376e-05, "total_loss": 371.8543395996094}, "load_time_ms": 0.604, "num_steps_sampled": 703200, "grad_time_ms": 651.685, "update_time_ms": 2.298, "sample_time_ms": 30623.276}, "date": "2025-08-30_21-08-45", "hostname": "cda-server-4", "time_this_iter_s": 30.410094499588013, "episodes_total": 3516, "timestamp": 1756580925, "node_ip": "10.157.146.4", "done": false, "time_total_s": 17892.673768281937, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 587, "episode_reward_mean": -616.599603083728, "training_iteration": 587, "timesteps_total": 704400, "policy_reward_mean": {}, "episode_reward_min": -673.6351435526208, "timesteps_since_restore": 704400, "num_metric_batches_dropped": 0, "time_since_restore": 17923.00922226906, "episode_reward_max": -514.7503226075005, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 704400, "default": {"kl": 0.010935652069747448, "policy_loss": -0.12647058069705963, "vf_loss": 253.94216918945312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9593396782875061, "entropy": 9.308793067932129, "cur_lr": 4.999999873689376e-05, "total_loss": 253.83230590820312}, "load_time_ms": 0.594, "num_steps_sampled": 704400, "grad_time_ms": 643.05, "update_time_ms": 2.295, "sample_time_ms": 30617.199}, "date": "2025-08-30_21-09-16", "hostname": "cda-server-4", "time_this_iter_s": 30.335453987121582, "episodes_total": 3522, "timestamp": 1756580956, "node_ip": "10.157.146.4", "done": false, "time_total_s": 17923.00922226906, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 588, "episode_reward_mean": -616.7623209653659, "training_iteration": 588, "timesteps_total": 705600, "policy_reward_mean": {}, "episode_reward_min": -673.6351435526208, "timesteps_since_restore": 705600, "num_metric_batches_dropped": 0, "time_since_restore": 17952.92941880226, "episode_reward_max": -514.7503226075005, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 705600, "default": {"kl": 0.009152778424322605, "policy_loss": -0.11853653937578201, "vf_loss": 357.29736328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9515821933746338, "entropy": 9.477558135986328, "cur_lr": 4.999999873689376e-05, "total_loss": 357.1927490234375}, "load_time_ms": 0.592, "num_steps_sampled": 705600, "grad_time_ms": 641.399, "update_time_ms": 2.217, "sample_time_ms": 30467.891}, "date": "2025-08-30_21-09-46", "hostname": "cda-server-4", "time_this_iter_s": 29.920196533203125, "episodes_total": 3528, "timestamp": 1756580986, "node_ip": "10.157.146.4", "done": false, "time_total_s": 17952.92941880226, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 589, "episode_reward_mean": -616.0512876814938, "training_iteration": 589, "timesteps_total": 706800, "policy_reward_mean": {}, "episode_reward_min": -673.6351435526208, "timesteps_since_restore": 706800, "num_metric_batches_dropped": 0, "time_since_restore": 17983.279368400574, "episode_reward_max": -514.7503226075005, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 706800, "default": {"kl": 0.009657223708927631, "policy_loss": -0.11953692883253098, "vf_loss": 357.8992919921875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9530900120735168, "entropy": 9.441727638244629, "cur_lr": 4.999999873689376e-05, "total_loss": 357.79443359375}, "load_time_ms": 0.586, "num_steps_sampled": 706800, "grad_time_ms": 665.006, "update_time_ms": 2.302, "sample_time_ms": 30225.532}, "date": "2025-08-30_21-10-16", "hostname": "cda-server-4", "time_this_iter_s": 30.349949598312378, "episodes_total": 3534, "timestamp": 1756581016, "node_ip": "10.157.146.4", "done": false, "time_total_s": 17983.279368400574, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 590, "episode_reward_mean": -616.8060920620313, "training_iteration": 590, "timesteps_total": 708000, "policy_reward_mean": {}, "episode_reward_min": -796.0704798252793, "timesteps_since_restore": 708000, "num_metric_batches_dropped": 0, "time_since_restore": 18010.59068608284, "episode_reward_max": -514.7503226075005, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 708000, "default": {"kl": 0.008650233037769794, "policy_loss": -0.11941654235124588, "vf_loss": 225.9669647216797, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9729494452476501, "entropy": 9.678723335266113, "cur_lr": 4.999999873689376e-05, "total_loss": 225.86065673828125}, "load_time_ms": 0.589, "num_steps_sampled": 708000, "grad_time_ms": 674.22, "update_time_ms": 2.251, "sample_time_ms": 29596.524}, "date": "2025-08-30_21-10-43", "hostname": "cda-server-4", "time_this_iter_s": 27.311317682266235, "episodes_total": 3540, "timestamp": 1756581043, "node_ip": "10.157.146.4", "done": false, "time_total_s": 18010.59068608284, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 591, "episode_reward_mean": -616.3231414337464, "training_iteration": 591, "timesteps_total": 709200, "policy_reward_mean": {}, "episode_reward_min": -796.0704798252793, "timesteps_since_restore": 709200, "num_metric_batches_dropped": 0, "time_since_restore": 18041.62502670288, "episode_reward_max": -514.7503226075005, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 709200, "default": {"kl": 0.010805145837366581, "policy_loss": -0.13331688940525055, "vf_loss": 234.15541076660156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9785289764404297, "entropy": 9.53798770904541, "cur_lr": 4.999999873689376e-05, "total_loss": 234.03851318359375}, "load_time_ms": 0.599, "num_steps_sampled": 709200, "grad_time_ms": 675.527, "update_time_ms": 2.229, "sample_time_ms": 29795.515}, "date": "2025-08-30_21-11-14", "hostname": "cda-server-4", "time_this_iter_s": 31.034340620040894, "episodes_total": 3546, "timestamp": 1756581074, "node_ip": "10.157.146.4", "done": false, "time_total_s": 18041.62502670288, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 592, "episode_reward_mean": -617.3391224707107, "training_iteration": 592, "timesteps_total": 710400, "policy_reward_mean": {}, "episode_reward_min": -796.0704798252793, "timesteps_since_restore": 710400, "num_metric_batches_dropped": 0, "time_since_restore": 18071.99793124199, "episode_reward_max": -514.7503226075005, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 710400, "default": {"kl": 0.008448367938399315, "policy_loss": -0.10977599024772644, "vf_loss": 1436.56005859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8414895534515381, "entropy": 9.72845458984375, "cur_lr": 4.999999873689376e-05, "total_loss": 1436.462890625}, "load_time_ms": 0.588, "num_steps_sampled": 710400, "grad_time_ms": 688.409, "update_time_ms": 2.22, "sample_time_ms": 29857.932}, "date": "2025-08-30_21-11-45", "hostname": "cda-server-4", "time_this_iter_s": 30.372904539108276, "episodes_total": 3552, "timestamp": 1756581105, "node_ip": "10.157.146.4", "done": false, "time_total_s": 18071.99793124199, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 593, "episode_reward_mean": -616.5894979158655, "training_iteration": 593, "timesteps_total": 711600, "policy_reward_mean": {}, "episode_reward_min": -796.0704798252793, "timesteps_since_restore": 711600, "num_metric_batches_dropped": 0, "time_since_restore": 18100.53288960457, "episode_reward_max": -514.7503226075005, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 711600, "default": {"kl": 0.009933038614690304, "policy_loss": -0.12368971854448318, "vf_loss": 119.2158203125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.986078679561615, "entropy": 9.385868072509766, "cur_lr": 4.999999873689376e-05, "total_loss": 119.10721588134766}, "load_time_ms": 0.584, "num_steps_sampled": 711600, "grad_time_ms": 667.083, "update_time_ms": 2.284, "sample_time_ms": 29522.224}, "date": "2025-08-30_21-12-13", "hostname": "cda-server-4", "time_this_iter_s": 28.534958362579346, "episodes_total": 3558, "timestamp": 1756581133, "node_ip": "10.157.146.4", "done": false, "time_total_s": 18100.53288960457, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 594, "episode_reward_mean": -616.8882039735614, "training_iteration": 594, "timesteps_total": 712800, "policy_reward_mean": {}, "episode_reward_min": -796.0704798252793, "timesteps_since_restore": 712800, "num_metric_batches_dropped": 0, "time_since_restore": 18129.962776184082, "episode_reward_max": -514.7503226075005, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 712800, "default": {"kl": 0.008989566005766392, "policy_loss": -0.12994801998138428, "vf_loss": 357.0096435546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9598469138145447, "entropy": 9.581499099731445, "cur_lr": 4.999999873689376e-05, "total_loss": 356.89337158203125}, "load_time_ms": 0.583, "num_steps_sampled": 712800, "grad_time_ms": 660.101, "update_time_ms": 2.171, "sample_time_ms": 29285.407}, "date": "2025-08-30_21-12-43", "hostname": "cda-server-4", "time_this_iter_s": 29.42988657951355, "episodes_total": 3564, "timestamp": 1756581163, "node_ip": "10.157.146.4", "done": false, "time_total_s": 18129.962776184082, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 595, "episode_reward_mean": -618.4299525424419, "training_iteration": 595, "timesteps_total": 714000, "policy_reward_mean": {}, "episode_reward_min": -796.0704798252793, "timesteps_since_restore": 714000, "num_metric_batches_dropped": 0, "time_since_restore": 18159.942209243774, "episode_reward_max": -514.7503226075005, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 714000, "default": {"kl": 0.009143250063061714, "policy_loss": -0.12931165099143982, "vf_loss": 421.56103515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9493645429611206, "entropy": 9.69604206085205, "cur_lr": 4.999999873689376e-05, "total_loss": 421.4455871582031}, "load_time_ms": 0.603, "num_steps_sampled": 714000, "grad_time_ms": 652.412, "update_time_ms": 2.204, "sample_time_ms": 29108.634}, "date": "2025-08-30_21-13-13", "hostname": "cda-server-4", "time_this_iter_s": 29.979433059692383, "episodes_total": 3570, "timestamp": 1756581193, "node_ip": "10.157.146.4", "done": false, "time_total_s": 18159.942209243774, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 596, "episode_reward_mean": -617.9900950545184, "training_iteration": 596, "timesteps_total": 715200, "policy_reward_mean": {}, "episode_reward_min": -796.0704798252793, "timesteps_since_restore": 715200, "num_metric_batches_dropped": 0, "time_since_restore": 18192.056468486786, "episode_reward_max": -514.7503226075005, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 715200, "default": {"kl": 0.008406232111155987, "policy_loss": -0.12250460684299469, "vf_loss": 175.45152282714844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9715348482131958, "entropy": 9.275659561157227, "cur_lr": 4.999999873689376e-05, "total_loss": 175.34178161621094}, "load_time_ms": 0.611, "num_steps_sampled": 715200, "grad_time_ms": 670.035, "update_time_ms": 2.245, "sample_time_ms": 29261.341}, "date": "2025-08-30_21-13-45", "hostname": "cda-server-4", "time_this_iter_s": 32.114259243011475, "episodes_total": 3576, "timestamp": 1756581225, "node_ip": "10.157.146.4", "done": false, "time_total_s": 18192.056468486786, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 597, "episode_reward_mean": -616.8395293124784, "training_iteration": 597, "timesteps_total": 716400, "policy_reward_mean": {}, "episode_reward_min": -796.0704798252793, "timesteps_since_restore": 716400, "num_metric_batches_dropped": 0, "time_since_restore": 18223.167361021042, "episode_reward_max": -528.7214626501338, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 716400, "default": {"kl": 0.012872888706624508, "policy_loss": -0.15140148997306824, "vf_loss": 928.4426879882812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9232509136199951, "entropy": 9.672388076782227, "cur_lr": 4.999999873689376e-05, "total_loss": 928.3108520507812}, "load_time_ms": 0.618, "num_steps_sampled": 716400, "grad_time_ms": 666.069, "update_time_ms": 2.262, "sample_time_ms": 29342.76}, "date": "2025-08-30_21-14-16", "hostname": "cda-server-4", "time_this_iter_s": 31.11089253425598, "episodes_total": 3582, "timestamp": 1756581256, "node_ip": "10.157.146.4", "done": false, "time_total_s": 18223.167361021042, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 598, "episode_reward_mean": -617.0684336884959, "training_iteration": 598, "timesteps_total": 717600, "policy_reward_mean": {}, "episode_reward_min": -796.0704798252793, "timesteps_since_restore": 717600, "num_metric_batches_dropped": 0, "time_since_restore": 18255.068278312683, "episode_reward_max": -528.7214626501338, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 717600, "default": {"kl": 0.011266443878412247, "policy_loss": -0.12814538180828094, "vf_loss": 157.1390838623047, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.97984379529953, "entropy": 9.41433334350586, "cur_lr": 4.999999873689376e-05, "total_loss": 157.02804565429688}, "load_time_ms": 0.63, "num_steps_sampled": 717600, "grad_time_ms": 660.308, "update_time_ms": 2.295, "sample_time_ms": 29546.5}, "date": "2025-08-30_21-14-48", "hostname": "cda-server-4", "time_this_iter_s": 31.900917291641235, "episodes_total": 3588, "timestamp": 1756581288, "node_ip": "10.157.146.4", "done": false, "time_total_s": 18255.068278312683, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 599, "episode_reward_mean": -616.1032204110085, "training_iteration": 599, "timesteps_total": 718800, "policy_reward_mean": {}, "episode_reward_min": -796.0704798252793, "timesteps_since_restore": 718800, "num_metric_batches_dropped": 0, "time_since_restore": 18284.20788550377, "episode_reward_max": -528.7214626501338, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 718800, "default": {"kl": 0.010463749058544636, "policy_loss": -0.12894785404205322, "vf_loss": 227.85110473632812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9687631130218506, "entropy": 9.330144882202148, "cur_lr": 4.999999873689376e-05, "total_loss": 227.738037109375}, "load_time_ms": 0.633, "num_steps_sampled": 718800, "grad_time_ms": 653.523, "update_time_ms": 2.264, "sample_time_ms": 29432.178}, "date": "2025-08-30_21-15-17", "hostname": "cda-server-4", "time_this_iter_s": 29.139607191085815, "episodes_total": 3594, "timestamp": 1756581317, "node_ip": "10.157.146.4", "done": false, "time_total_s": 18284.20788550377, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 600, "episode_reward_mean": -616.0111859233979, "training_iteration": 600, "timesteps_total": 720000, "policy_reward_mean": {}, "episode_reward_min": -796.0704798252793, "timesteps_since_restore": 720000, "num_metric_batches_dropped": 0, "time_since_restore": 18314.14937734604, "episode_reward_max": -528.7214626501338, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 720000, "default": {"kl": 0.010088253766298294, "policy_loss": -0.12650255858898163, "vf_loss": 186.24766540527344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9767255783081055, "entropy": 9.424371719360352, "cur_lr": 4.999999873689376e-05, "total_loss": 186.13648986816406}, "load_time_ms": 0.647, "num_steps_sampled": 720000, "grad_time_ms": 653.387, "update_time_ms": 2.357, "sample_time_ms": 29695.061}, "date": "2025-08-30_21-15-47", "hostname": "cda-server-4", "time_this_iter_s": 29.941491842269897, "episodes_total": 3600, "timestamp": 1756581347, "node_ip": "10.157.146.4", "done": false, "time_total_s": 18314.14937734604, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 601, "episode_reward_mean": -614.4164530216405, "training_iteration": 601, "timesteps_total": 721200, "policy_reward_mean": {}, "episode_reward_min": -796.0704798252793, "timesteps_since_restore": 721200, "num_metric_batches_dropped": 0, "time_since_restore": 18346.095603466034, "episode_reward_max": -528.7214626501338, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 721200, "default": {"kl": 0.010292001999914646, "policy_loss": -0.1357170045375824, "vf_loss": 377.7448425292969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9416916966438293, "entropy": 9.568523406982422, "cur_lr": 4.999999873689376e-05, "total_loss": 377.624755859375}, "load_time_ms": 0.638, "num_steps_sampled": 721200, "grad_time_ms": 653.941, "update_time_ms": 2.37, "sample_time_ms": 29785.708}, "date": "2025-08-30_21-16-19", "hostname": "cda-server-4", "time_this_iter_s": 31.946226119995117, "episodes_total": 3606, "timestamp": 1756581379, "node_ip": "10.157.146.4", "done": false, "time_total_s": 18346.095603466034, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 602, "episode_reward_mean": -614.8358615686216, "training_iteration": 602, "timesteps_total": 722400, "policy_reward_mean": {}, "episode_reward_min": -796.0704798252793, "timesteps_since_restore": 722400, "num_metric_batches_dropped": 0, "time_since_restore": 18376.558204889297, "episode_reward_max": -528.7214626501338, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 722400, "default": {"kl": 0.010205863043665886, "policy_loss": -0.1125846579670906, "vf_loss": 377.1962890625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9479743242263794, "entropy": 9.591042518615723, "cur_lr": 4.999999873689376e-05, "total_loss": 377.0992431640625}, "load_time_ms": 0.637, "num_steps_sampled": 722400, "grad_time_ms": 652.818, "update_time_ms": 2.421, "sample_time_ms": 29795.791}, "date": "2025-08-30_21-16-50", "hostname": "cda-server-4", "time_this_iter_s": 30.46260142326355, "episodes_total": 3612, "timestamp": 1756581410, "node_ip": "10.157.146.4", "done": false, "time_total_s": 18376.558204889297, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 603, "episode_reward_mean": -614.5720713371132, "training_iteration": 603, "timesteps_total": 723600, "policy_reward_mean": {}, "episode_reward_min": -796.0704798252793, "timesteps_since_restore": 723600, "num_metric_batches_dropped": 0, "time_since_restore": 18409.119691371918, "episode_reward_max": -528.7214626501338, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 723600, "default": {"kl": 0.009657826274633408, "policy_loss": -0.1253858506679535, "vf_loss": 704.8580932617188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9253944754600525, "entropy": 9.605533599853516, "cur_lr": 4.999999873689376e-05, "total_loss": 704.747314453125}, "load_time_ms": 0.674, "num_steps_sampled": 723600, "grad_time_ms": 659.925, "update_time_ms": 2.407, "sample_time_ms": 30191.332}, "date": "2025-08-30_21-17-22", "hostname": "cda-server-4", "time_this_iter_s": 32.56148648262024, "episodes_total": 3618, "timestamp": 1756581442, "node_ip": "10.157.146.4", "done": false, "time_total_s": 18409.119691371918, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 604, "episode_reward_mean": -613.6384516689926, "training_iteration": 604, "timesteps_total": 724800, "policy_reward_mean": {}, "episode_reward_min": -796.0704798252793, "timesteps_since_restore": 724800, "num_metric_batches_dropped": 0, "time_since_restore": 18436.582662820816, "episode_reward_max": -528.7214626501338, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 724800, "default": {"kl": 0.012120986357331276, "policy_loss": -0.13904692232608795, "vf_loss": 453.340087890625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.953324019908905, "entropy": 9.365586280822754, "cur_lr": 4.999999873689376e-05, "total_loss": 453.2194519042969}, "load_time_ms": 0.672, "num_steps_sampled": 724800, "grad_time_ms": 672.177, "update_time_ms": 2.395, "sample_time_ms": 29982.426}, "date": "2025-08-30_21-17-50", "hostname": "cda-server-4", "time_this_iter_s": 27.462971448898315, "episodes_total": 3624, "timestamp": 1756581470, "node_ip": "10.157.146.4", "done": false, "time_total_s": 18436.582662820816, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 605, "episode_reward_mean": -614.4105313453587, "training_iteration": 605, "timesteps_total": 726000, "policy_reward_mean": {}, "episode_reward_min": -796.0704798252793, "timesteps_since_restore": 726000, "num_metric_batches_dropped": 0, "time_since_restore": 18466.77520751953, "episode_reward_max": -528.7214626501338, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 726000, "default": {"kl": 0.011254728771746159, "policy_loss": -0.14620383083820343, "vf_loss": 386.2335510253906, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9668678641319275, "entropy": 9.595887184143066, "cur_lr": 4.999999873689376e-05, "total_loss": 386.10443115234375}, "load_time_ms": 0.651, "num_steps_sampled": 726000, "grad_time_ms": 677.014, "update_time_ms": 2.478, "sample_time_ms": 29998.886}, "date": "2025-08-30_21-18-20", "hostname": "cda-server-4", "time_this_iter_s": 30.19254469871521, "episodes_total": 3630, "timestamp": 1756581500, "node_ip": "10.157.146.4", "done": false, "time_total_s": 18466.77520751953, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 606, "episode_reward_mean": -611.7929029617349, "training_iteration": 606, "timesteps_total": 727200, "policy_reward_mean": {}, "episode_reward_min": -703.7027058045996, "timesteps_since_restore": 727200, "num_metric_batches_dropped": 0, "time_since_restore": 18495.91878581047, "episode_reward_max": -523.4394749044243, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 727200, "default": {"kl": 0.010241260752081871, "policy_loss": -0.11215664446353912, "vf_loss": 101.40977478027344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9849798679351807, "entropy": 9.240912437438965, "cur_lr": 4.999999873689376e-05, "total_loss": 101.31317138671875}, "load_time_ms": 0.647, "num_steps_sampled": 727200, "grad_time_ms": 684.584, "update_time_ms": 2.403, "sample_time_ms": 29694.304}, "date": "2025-08-30_21-18-49", "hostname": "cda-server-4", "time_this_iter_s": 29.14357829093933, "episodes_total": 3636, "timestamp": 1756581529, "node_ip": "10.157.146.4", "done": false, "time_total_s": 18495.91878581047, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 607, "episode_reward_mean": -612.9059305473182, "training_iteration": 607, "timesteps_total": 728400, "policy_reward_mean": {}, "episode_reward_min": -703.7027058045996, "timesteps_since_restore": 728400, "num_metric_batches_dropped": 0, "time_since_restore": 18526.887234926224, "episode_reward_max": -523.4394749044243, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 728400, "default": {"kl": 0.009090539067983627, "policy_loss": -0.12137099355459213, "vf_loss": 327.3459167480469, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9532119035720825, "entropy": 9.397849082946777, "cur_lr": 4.999999873689376e-05, "total_loss": 327.2383728027344}, "load_time_ms": 0.654, "num_steps_sampled": 728400, "grad_time_ms": 700.076, "update_time_ms": 2.372, "sample_time_ms": 29664.612}, "date": "2025-08-30_21-19-20", "hostname": "cda-server-4", "time_this_iter_s": 30.968449115753174, "episodes_total": 3642, "timestamp": 1756581560, "node_ip": "10.157.146.4", "done": false, "time_total_s": 18526.887234926224, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 608, "episode_reward_mean": -613.4662533956675, "training_iteration": 608, "timesteps_total": 729600, "policy_reward_mean": {}, "episode_reward_min": -703.7027058045996, "timesteps_since_restore": 729600, "num_metric_batches_dropped": 0, "time_since_restore": 18556.552196979523, "episode_reward_max": -523.4394749044243, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 729600, "default": {"kl": 0.010343777947127819, "policy_loss": -0.10977420955896378, "vf_loss": 93.43639373779297, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9893245697021484, "entropy": 9.52718448638916, "cur_lr": 4.999999873689376e-05, "total_loss": 93.34232330322266}, "load_time_ms": 0.644, "num_steps_sampled": 729600, "grad_time_ms": 698.235, "update_time_ms": 2.333, "sample_time_ms": 29442.974}, "date": "2025-08-30_21-19-50", "hostname": "cda-server-4", "time_this_iter_s": 29.66496205329895, "episodes_total": 3648, "timestamp": 1756581590, "node_ip": "10.157.146.4", "done": false, "time_total_s": 18556.552196979523, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 609, "episode_reward_mean": -612.6298924637742, "training_iteration": 609, "timesteps_total": 730800, "policy_reward_mean": {}, "episode_reward_min": -703.7027058045996, "timesteps_since_restore": 730800, "num_metric_batches_dropped": 0, "time_since_restore": 18588.639993429184, "episode_reward_max": -523.4394749044243, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 730800, "default": {"kl": 0.010823615826666355, "policy_loss": -0.12089046835899353, "vf_loss": 131.663818359375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9832665324211121, "entropy": 9.40251350402832, "cur_lr": 4.999999873689376e-05, "total_loss": 131.55935668945312}, "load_time_ms": 0.642, "num_steps_sampled": 730800, "grad_time_ms": 682.868, "update_time_ms": 2.37, "sample_time_ms": 29753.228}, "date": "2025-08-30_21-20-22", "hostname": "cda-server-4", "time_this_iter_s": 32.087796449661255, "episodes_total": 3654, "timestamp": 1756581622, "node_ip": "10.157.146.4", "done": false, "time_total_s": 18588.639993429184, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 610, "episode_reward_mean": -612.6736995560183, "training_iteration": 610, "timesteps_total": 732000, "policy_reward_mean": {}, "episode_reward_min": -703.7027058045996, "timesteps_since_restore": 732000, "num_metric_batches_dropped": 0, "time_since_restore": 18618.985557556152, "episode_reward_max": -523.4394749044243, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 732000, "default": {"kl": 0.009681729599833488, "policy_loss": -0.11810668557882309, "vf_loss": 246.02532958984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9714028239250183, "entropy": 9.114435195922852, "cur_lr": 4.999999873689376e-05, "total_loss": 245.9219512939453}, "load_time_ms": 0.633, "num_steps_sampled": 732000, "grad_time_ms": 665.516, "update_time_ms": 2.323, "sample_time_ms": 29811.162}, "date": "2025-08-30_21-20-52", "hostname": "cda-server-4", "time_this_iter_s": 30.345564126968384, "episodes_total": 3660, "timestamp": 1756581652, "node_ip": "10.157.146.4", "done": false, "time_total_s": 18618.985557556152, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 611, "episode_reward_mean": -611.9150962798352, "training_iteration": 611, "timesteps_total": 733200, "policy_reward_mean": {}, "episode_reward_min": -703.7027058045996, "timesteps_since_restore": 733200, "num_metric_batches_dropped": 0, "time_since_restore": 18648.135957717896, "episode_reward_max": -523.4394749044243, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 733200, "default": {"kl": 0.00802838709205389, "policy_loss": -0.1194978654384613, "vf_loss": 251.3912811279297, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9644008278846741, "entropy": 9.395561218261719, "cur_lr": 4.999999873689376e-05, "total_loss": 251.28396606445312}, "load_time_ms": 0.628, "num_steps_sampled": 733200, "grad_time_ms": 641.037, "update_time_ms": 2.35, "sample_time_ms": 29556.076}, "date": "2025-08-30_21-21-21", "hostname": "cda-server-4", "time_this_iter_s": 29.150400161743164, "episodes_total": 3666, "timestamp": 1756581681, "node_ip": "10.157.146.4", "done": false, "time_total_s": 18648.135957717896, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 612, "episode_reward_mean": -612.0974348202252, "training_iteration": 612, "timesteps_total": 734400, "policy_reward_mean": {}, "episode_reward_min": -676.2661638367055, "timesteps_since_restore": 734400, "num_metric_batches_dropped": 0, "time_since_restore": 18677.402584552765, "episode_reward_max": -523.4394749044243, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 734400, "default": {"kl": 0.00998616497963667, "policy_loss": -0.13281302154064178, "vf_loss": 637.1245727539062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9055226445198059, "entropy": 9.283284187316895, "cur_lr": 4.999999873689376e-05, "total_loss": 637.0069580078125}, "load_time_ms": 0.633, "num_steps_sampled": 734400, "grad_time_ms": 639.122, "update_time_ms": 2.287, "sample_time_ms": 29438.524}, "date": "2025-08-30_21-21-51", "hostname": "cda-server-4", "time_this_iter_s": 29.266626834869385, "episodes_total": 3672, "timestamp": 1756581711, "node_ip": "10.157.146.4", "done": false, "time_total_s": 18677.402584552765, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 613, "episode_reward_mean": -611.381122524482, "training_iteration": 613, "timesteps_total": 735600, "policy_reward_mean": {}, "episode_reward_min": -676.2661638367055, "timesteps_since_restore": 735600, "num_metric_batches_dropped": 0, "time_since_restore": 18707.652385234833, "episode_reward_max": -523.4394749044243, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 735600, "default": {"kl": 0.010063499212265015, "policy_loss": -0.11941280961036682, "vf_loss": 177.26724243164062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9770724177360535, "entropy": 9.25495433807373, "cur_lr": 4.999999873689376e-05, "total_loss": 177.16311645507812}, "load_time_ms": 0.604, "num_steps_sampled": 735600, "grad_time_ms": 642.059, "update_time_ms": 2.303, "sample_time_ms": 29204.497}, "date": "2025-08-30_21-22-21", "hostname": "cda-server-4", "time_this_iter_s": 30.24980068206787, "episodes_total": 3678, "timestamp": 1756581741, "node_ip": "10.157.146.4", "done": false, "time_total_s": 18707.652385234833, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 614, "episode_reward_mean": -614.4649446033974, "training_iteration": 614, "timesteps_total": 736800, "policy_reward_mean": {}, "episode_reward_min": -676.2661638367055, "timesteps_since_restore": 736800, "num_metric_batches_dropped": 0, "time_since_restore": 18735.964825868607, "episode_reward_max": -523.4394749044243, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 736800, "default": {"kl": 0.011301112361252308, "policy_loss": -0.1396128386259079, "vf_loss": 1193.043212890625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8696916103363037, "entropy": 9.530757904052734, "cur_lr": 4.999999873689376e-05, "total_loss": 1192.920654296875}, "load_time_ms": 0.607, "num_steps_sampled": 736800, "grad_time_ms": 626.531, "update_time_ms": 2.324, "sample_time_ms": 29304.913}, "date": "2025-08-30_21-22-49", "hostname": "cda-server-4", "time_this_iter_s": 28.312440633773804, "episodes_total": 3684, "timestamp": 1756581769, "node_ip": "10.157.146.4", "done": false, "time_total_s": 18735.964825868607, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 615, "episode_reward_mean": -613.5546681648307, "training_iteration": 615, "timesteps_total": 738000, "policy_reward_mean": {}, "episode_reward_min": -676.2661638367055, "timesteps_since_restore": 738000, "num_metric_batches_dropped": 0, "time_since_restore": 18767.40708208084, "episode_reward_max": -495.4336848013551, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 738000, "default": {"kl": 0.01178044080734253, "policy_loss": -0.13422667980194092, "vf_loss": 101.92871856689453, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9888765811920166, "entropy": 9.196290969848633, "cur_lr": 4.999999873689376e-05, "total_loss": 101.8123779296875}, "load_time_ms": 0.614, "num_steps_sampled": 738000, "grad_time_ms": 623.36, "update_time_ms": 2.214, "sample_time_ms": 29433.125}, "date": "2025-08-30_21-23-21", "hostname": "cda-server-4", "time_this_iter_s": 31.442256212234497, "episodes_total": 3690, "timestamp": 1756581801, "node_ip": "10.157.146.4", "done": false, "time_total_s": 18767.40708208084, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 616, "episode_reward_mean": -614.4137335062469, "training_iteration": 616, "timesteps_total": 739200, "policy_reward_mean": {}, "episode_reward_min": -676.2661638367055, "timesteps_since_restore": 739200, "num_metric_batches_dropped": 0, "time_since_restore": 18798.341631174088, "episode_reward_max": -495.4336848013551, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 739200, "default": {"kl": 0.010686339810490608, "policy_loss": -0.13289515674114227, "vf_loss": 651.8970947265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.95238196849823, "entropy": 9.430442810058594, "cur_lr": 4.999999873689376e-05, "total_loss": 651.780517578125}, "load_time_ms": 0.621, "num_steps_sampled": 739200, "grad_time_ms": 623.488, "update_time_ms": 2.316, "sample_time_ms": 29612.064}, "date": "2025-08-30_21-23-52", "hostname": "cda-server-4", "time_this_iter_s": 30.93454909324646, "episodes_total": 3696, "timestamp": 1756581832, "node_ip": "10.157.146.4", "done": false, "time_total_s": 18798.341631174088, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 617, "episode_reward_mean": -615.3310058363032, "training_iteration": 617, "timesteps_total": 740400, "policy_reward_mean": {}, "episode_reward_min": -677.385722139051, "timesteps_since_restore": 740400, "num_metric_batches_dropped": 0, "time_since_restore": 18828.241535663605, "episode_reward_max": -495.4336848013551, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 740400, "default": {"kl": 0.011539111845195293, "policy_loss": -0.1449800282716751, "vf_loss": 843.9257202148438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8872631788253784, "entropy": 9.653806686401367, "cur_lr": 4.999999873689376e-05, "total_loss": 843.7982788085938}, "load_time_ms": 0.609, "num_steps_sampled": 740400, "grad_time_ms": 623.138, "update_time_ms": 2.361, "sample_time_ms": 29505.541}, "date": "2025-08-30_21-24-21", "hostname": "cda-server-4", "time_this_iter_s": 29.899904489517212, "episodes_total": 3702, "timestamp": 1756581861, "node_ip": "10.157.146.4", "done": false, "time_total_s": 18828.241535663605, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 618, "episode_reward_mean": -615.3835293988487, "training_iteration": 618, "timesteps_total": 741600, "policy_reward_mean": {}, "episode_reward_min": -677.385722139051, "timesteps_since_restore": 741600, "num_metric_batches_dropped": 0, "time_since_restore": 18859.352145671844, "episode_reward_max": -495.4336848013551, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 741600, "default": {"kl": 0.009553378447890282, "policy_loss": -0.12175551056861877, "vf_loss": 180.49615478515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9819848537445068, "entropy": 9.227897644042969, "cur_lr": 4.999999873689376e-05, "total_loss": 180.38893127441406}, "load_time_ms": 0.605, "num_steps_sampled": 741600, "grad_time_ms": 630.848, "update_time_ms": 2.379, "sample_time_ms": 29642.422}, "date": "2025-08-30_21-24-53", "hostname": "cda-server-4", "time_this_iter_s": 31.110610008239746, "episodes_total": 3708, "timestamp": 1756581893, "node_ip": "10.157.146.4", "done": false, "time_total_s": 18859.352145671844, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 619, "episode_reward_mean": -616.7773050246602, "training_iteration": 619, "timesteps_total": 742800, "policy_reward_mean": {}, "episode_reward_min": -701.6023017366261, "timesteps_since_restore": 742800, "num_metric_batches_dropped": 0, "time_since_restore": 18888.57083964348, "episode_reward_max": -495.4336848013551, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 742800, "default": {"kl": 0.010213086381554604, "policy_loss": -0.11669044941663742, "vf_loss": 384.1334228515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9497079849243164, "entropy": 9.645615577697754, "cur_lr": 4.999999873689376e-05, "total_loss": 384.0322265625}, "load_time_ms": 0.619, "num_steps_sampled": 742800, "grad_time_ms": 651.776, "update_time_ms": 2.31, "sample_time_ms": 29334.675}, "date": "2025-08-30_21-25-22", "hostname": "cda-server-4", "time_this_iter_s": 29.21869397163391, "episodes_total": 3714, "timestamp": 1756581922, "node_ip": "10.157.146.4", "done": false, "time_total_s": 18888.57083964348, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 620, "episode_reward_mean": -616.3889674273403, "training_iteration": 620, "timesteps_total": 744000, "policy_reward_mean": {}, "episode_reward_min": -701.6023017366261, "timesteps_since_restore": 744000, "num_metric_batches_dropped": 0, "time_since_restore": 18915.663234233856, "episode_reward_max": -495.4336848013551, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 744000, "default": {"kl": 0.010928193107247353, "policy_loss": -0.13709001243114471, "vf_loss": 394.0869445800781, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.946984589099884, "entropy": 9.467720031738281, "cur_lr": 4.999999873689376e-05, "total_loss": 393.9664611816406}, "load_time_ms": 0.606, "num_steps_sampled": 744000, "grad_time_ms": 664.534, "update_time_ms": 2.259, "sample_time_ms": 28996.76}, "date": "2025-08-30_21-25-49", "hostname": "cda-server-4", "time_this_iter_s": 27.092394590377808, "episodes_total": 3720, "timestamp": 1756581949, "node_ip": "10.157.146.4", "done": false, "time_total_s": 18915.663234233856, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 621, "episode_reward_mean": -617.2081610808764, "training_iteration": 621, "timesteps_total": 745200, "policy_reward_mean": {}, "episode_reward_min": -701.6023017366261, "timesteps_since_restore": 745200, "num_metric_batches_dropped": 0, "time_since_restore": 18945.151652812958, "episode_reward_max": -495.4336848013551, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 745200, "default": {"kl": 0.01075182855129242, "policy_loss": -0.12491145730018616, "vf_loss": 1078.7061767578125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8674647212028503, "entropy": 9.410543441772461, "cur_lr": 4.999999873689376e-05, "total_loss": 1078.5975341796875}, "load_time_ms": 0.637, "num_steps_sampled": 745200, "grad_time_ms": 679.207, "update_time_ms": 2.228, "sample_time_ms": 29015.856}, "date": "2025-08-30_21-26-18", "hostname": "cda-server-4", "time_this_iter_s": 29.488418579101562, "episodes_total": 3726, "timestamp": 1756581978, "node_ip": "10.157.146.4", "done": false, "time_total_s": 18945.151652812958, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 622, "episode_reward_mean": -617.8666542525114, "training_iteration": 622, "timesteps_total": 746400, "policy_reward_mean": {}, "episode_reward_min": -701.6023017366261, "timesteps_since_restore": 746400, "num_metric_batches_dropped": 0, "time_since_restore": 18978.090211868286, "episode_reward_max": -495.4336848013551, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 746400, "default": {"kl": 0.008835389278829098, "policy_loss": -0.12353364378213882, "vf_loss": 251.75599670410156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9564879536628723, "entropy": 9.426933288574219, "cur_lr": 4.999999873689376e-05, "total_loss": 251.64588928222656}, "load_time_ms": 0.629, "num_steps_sampled": 746400, "grad_time_ms": 659.869, "update_time_ms": 2.28, "sample_time_ms": 29402.307}, "date": "2025-08-30_21-26-51", "hostname": "cda-server-4", "time_this_iter_s": 32.93855905532837, "episodes_total": 3732, "timestamp": 1756582011, "node_ip": "10.157.146.4", "done": false, "time_total_s": 18978.090211868286, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 623, "episode_reward_mean": -618.4489074938103, "training_iteration": 623, "timesteps_total": 747600, "policy_reward_mean": {}, "episode_reward_min": -701.6023017366261, "timesteps_since_restore": 747600, "num_metric_batches_dropped": 0, "time_since_restore": 19010.831167936325, "episode_reward_max": -495.4336848013551, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 747600, "default": {"kl": 0.008733519352972507, "policy_loss": -0.11325684934854507, "vf_loss": 226.20632934570312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9749224781990051, "entropy": 9.463001251220703, "cur_lr": 4.999999873689376e-05, "total_loss": 226.1063232421875}, "load_time_ms": 0.624, "num_steps_sampled": 747600, "grad_time_ms": 654.745, "update_time_ms": 2.294, "sample_time_ms": 29656.475}, "date": "2025-08-30_21-27-24", "hostname": "cda-server-4", "time_this_iter_s": 32.74095606803894, "episodes_total": 3738, "timestamp": 1756582044, "node_ip": "10.157.146.4", "done": false, "time_total_s": 19010.831167936325, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 624, "episode_reward_mean": -617.9629841380438, "training_iteration": 624, "timesteps_total": 748800, "policy_reward_mean": {}, "episode_reward_min": -701.6023017366261, "timesteps_since_restore": 748800, "num_metric_batches_dropped": 0, "time_since_restore": 19036.94801425934, "episode_reward_max": -495.4336848013551, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 748800, "default": {"kl": 0.00988049153238535, "policy_loss": -0.11267595738172531, "vf_loss": 291.4622802734375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9655329585075378, "entropy": 9.249786376953125, "cur_lr": 4.999999873689376e-05, "total_loss": 291.3646240234375}, "load_time_ms": 0.631, "num_steps_sampled": 748800, "grad_time_ms": 657.508, "update_time_ms": 2.246, "sample_time_ms": 29434.148}, "date": "2025-08-30_21-27-50", "hostname": "cda-server-4", "time_this_iter_s": 26.116846323013306, "episodes_total": 3744, "timestamp": 1756582070, "node_ip": "10.157.146.4", "done": false, "time_total_s": 19036.94801425934, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 625, "episode_reward_mean": -617.9956912444519, "training_iteration": 625, "timesteps_total": 750000, "policy_reward_mean": {}, "episode_reward_min": -701.6023017366261, "timesteps_since_restore": 750000, "num_metric_batches_dropped": 0, "time_since_restore": 19068.194312810898, "episode_reward_max": -495.4336848013551, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 750000, "default": {"kl": 0.011027377098798752, "policy_loss": -0.13092248141765594, "vf_loss": 439.5149230957031, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.944298505783081, "entropy": 9.294520378112793, "cur_lr": 4.999999873689376e-05, "total_loss": 439.4007568359375}, "load_time_ms": 0.628, "num_steps_sampled": 750000, "grad_time_ms": 665.65, "update_time_ms": 2.253, "sample_time_ms": 29406.404}, "date": "2025-08-30_21-28-22", "hostname": "cda-server-4", "time_this_iter_s": 31.24629855155945, "episodes_total": 3750, "timestamp": 1756582102, "node_ip": "10.157.146.4", "done": false, "time_total_s": 19068.194312810898, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 626, "episode_reward_mean": -618.7166373505282, "training_iteration": 626, "timesteps_total": 751200, "policy_reward_mean": {}, "episode_reward_min": -701.6023017366261, "timesteps_since_restore": 751200, "num_metric_batches_dropped": 0, "time_since_restore": 19097.62056493759, "episode_reward_max": -495.4336848013551, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 751200, "default": {"kl": 0.010206437669694424, "policy_loss": -0.11820260435342789, "vf_loss": 123.15281677246094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9800331592559814, "entropy": 9.448763847351074, "cur_lr": 4.999999873689376e-05, "total_loss": 123.05011749267578}, "load_time_ms": 0.623, "num_steps_sampled": 751200, "grad_time_ms": 661.242, "update_time_ms": 2.187, "sample_time_ms": 29260.026}, "date": "2025-08-30_21-28-51", "hostname": "cda-server-4", "time_this_iter_s": 29.426252126693726, "episodes_total": 3756, "timestamp": 1756582131, "node_ip": "10.157.146.4", "done": false, "time_total_s": 19097.62056493759, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 627, "episode_reward_mean": -621.1688124607076, "training_iteration": 627, "timesteps_total": 752400, "policy_reward_mean": {}, "episode_reward_min": -701.6023017366261, "timesteps_since_restore": 752400, "num_metric_batches_dropped": 0, "time_since_restore": 19128.699669122696, "episode_reward_max": -495.4336848013551, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 752400, "default": {"kl": 0.011984766460955143, "policy_loss": -0.14559108018875122, "vf_loss": 612.4314575195312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9226465225219727, "entropy": 9.575551986694336, "cur_lr": 4.999999873689376e-05, "total_loss": 612.3041381835938}, "load_time_ms": 0.629, "num_steps_sampled": 752400, "grad_time_ms": 645.817, "update_time_ms": 2.139, "sample_time_ms": 29393.363}, "date": "2025-08-30_21-29-22", "hostname": "cda-server-4", "time_this_iter_s": 31.07910418510437, "episodes_total": 3762, "timestamp": 1756582162, "node_ip": "10.157.146.4", "done": false, "time_total_s": 19128.699669122696, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 628, "episode_reward_mean": -621.3416895022524, "training_iteration": 628, "timesteps_total": 753600, "policy_reward_mean": {}, "episode_reward_min": -701.6023017366261, "timesteps_since_restore": 753600, "num_metric_batches_dropped": 0, "time_since_restore": 19158.64855670929, "episode_reward_max": -495.4336848013551, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 753600, "default": {"kl": 0.00957582425326109, "policy_loss": -0.13089889287948608, "vf_loss": 511.2555847167969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9236477613449097, "entropy": 9.548198699951172, "cur_lr": 4.999999873689376e-05, "total_loss": 511.1392822265625}, "load_time_ms": 0.65, "num_steps_sampled": 753600, "grad_time_ms": 670.7, "update_time_ms": 2.186, "sample_time_ms": 29252.092}, "date": "2025-08-30_21-29-52", "hostname": "cda-server-4", "time_this_iter_s": 29.948887586593628, "episodes_total": 3768, "timestamp": 1756582192, "node_ip": "10.157.146.4", "done": false, "time_total_s": 19158.64855670929, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 629, "episode_reward_mean": -621.2838322652217, "training_iteration": 629, "timesteps_total": 754800, "policy_reward_mean": {}, "episode_reward_min": -701.6023017366261, "timesteps_since_restore": 754800, "num_metric_batches_dropped": 0, "time_since_restore": 19187.699516296387, "episode_reward_max": -495.4336848013551, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 754800, "default": {"kl": 0.009523420594632626, "policy_loss": -0.11414489150047302, "vf_loss": 633.1608276367188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9293069839477539, "entropy": 9.776615142822266, "cur_lr": 4.999999873689376e-05, "total_loss": 633.0611572265625}, "load_time_ms": 0.655, "num_steps_sampled": 754800, "grad_time_ms": 647.52, "update_time_ms": 2.252, "sample_time_ms": 29258.437}, "date": "2025-08-30_21-30-21", "hostname": "cda-server-4", "time_this_iter_s": 29.050959587097168, "episodes_total": 3774, "timestamp": 1756582221, "node_ip": "10.157.146.4", "done": false, "time_total_s": 19187.699516296387, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 630, "episode_reward_mean": -623.473487769233, "training_iteration": 630, "timesteps_total": 756000, "policy_reward_mean": {}, "episode_reward_min": -701.7687175026296, "timesteps_since_restore": 756000, "num_metric_batches_dropped": 0, "time_since_restore": 19217.388452529907, "episode_reward_max": -495.4336848013551, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 756000, "default": {"kl": 0.01155577227473259, "policy_loss": -0.1371551752090454, "vf_loss": 328.2255554199219, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9490001201629639, "entropy": 9.635116577148438, "cur_lr": 4.999999873689376e-05, "total_loss": 328.1059875488281}, "load_time_ms": 0.652, "num_steps_sampled": 756000, "grad_time_ms": 623.666, "update_time_ms": 2.255, "sample_time_ms": 29541.906}, "date": "2025-08-30_21-30-51", "hostname": "cda-server-4", "time_this_iter_s": 29.688936233520508, "episodes_total": 3780, "timestamp": 1756582251, "node_ip": "10.157.146.4", "done": false, "time_total_s": 19217.388452529907, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 631, "episode_reward_mean": -622.8312858993465, "training_iteration": 631, "timesteps_total": 757200, "policy_reward_mean": {}, "episode_reward_min": -701.7687175026296, "timesteps_since_restore": 757200, "num_metric_batches_dropped": 0, "time_since_restore": 19248.116787672043, "episode_reward_max": -510.4030513979545, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 757200, "default": {"kl": 0.010659505613148212, "policy_loss": -0.11441484093666077, "vf_loss": 631.2178344726562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9531819224357605, "entropy": 9.312905311584473, "cur_lr": 4.999999873689376e-05, "total_loss": 631.1195678710938}, "load_time_ms": 0.635, "num_steps_sampled": 757200, "grad_time_ms": 619.996, "update_time_ms": 2.267, "sample_time_ms": 29669.568}, "date": "2025-08-30_21-31-22", "hostname": "cda-server-4", "time_this_iter_s": 30.72833514213562, "episodes_total": 3786, "timestamp": 1756582282, "node_ip": "10.157.146.4", "done": false, "time_total_s": 19248.116787672043, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 632, "episode_reward_mean": -623.1144559786608, "training_iteration": 632, "timesteps_total": 758400, "policy_reward_mean": {}, "episode_reward_min": -701.7687175026296, "timesteps_since_restore": 758400, "num_metric_batches_dropped": 0, "time_since_restore": 19278.789110660553, "episode_reward_max": -510.4030513979545, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 758400, "default": {"kl": 0.008512952364981174, "policy_loss": -0.12089843302965164, "vf_loss": 892.3563232421875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8673126697540283, "entropy": 9.413139343261719, "cur_lr": 4.999999873689376e-05, "total_loss": 892.2484741210938}, "load_time_ms": 0.64, "num_steps_sampled": 758400, "grad_time_ms": 640.831, "update_time_ms": 2.26, "sample_time_ms": 29422.054}, "date": "2025-08-30_21-31-52", "hostname": "cda-server-4", "time_this_iter_s": 30.672322988510132, "episodes_total": 3792, "timestamp": 1756582312, "node_ip": "10.157.146.4", "done": false, "time_total_s": 19278.789110660553, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 633, "episode_reward_mean": -623.7288054024094, "training_iteration": 633, "timesteps_total": 759600, "policy_reward_mean": {}, "episode_reward_min": -701.7687175026296, "timesteps_since_restore": 759600, "num_metric_batches_dropped": 0, "time_since_restore": 19311.06698012352, "episode_reward_max": -510.4030513979545, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 759600, "default": {"kl": 0.009456031024456024, "policy_loss": -0.14098109304904938, "vf_loss": 748.764404296875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8976601362228394, "entropy": 9.458982467651367, "cur_lr": 4.999999873689376e-05, "total_loss": 748.6378784179688}, "load_time_ms": 0.645, "num_steps_sampled": 759600, "grad_time_ms": 642.559, "update_time_ms": 2.222, "sample_time_ms": 29374.05}, "date": "2025-08-30_21-32-25", "hostname": "cda-server-4", "time_this_iter_s": 32.27786946296692, "episodes_total": 3798, "timestamp": 1756582345, "node_ip": "10.157.146.4", "done": false, "time_total_s": 19311.06698012352, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 634, "episode_reward_mean": -626.0681088165868, "training_iteration": 634, "timesteps_total": 760800, "policy_reward_mean": {}, "episode_reward_min": -701.7687175026296, "timesteps_since_restore": 760800, "num_metric_batches_dropped": 0, "time_since_restore": 19343.525161981583, "episode_reward_max": -537.8677949915786, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 760800, "default": {"kl": 0.0112698283046484, "policy_loss": -0.12331615388393402, "vf_loss": 758.2173461914062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.901846170425415, "entropy": 9.289639472961426, "cur_lr": 4.999999873689376e-05, "total_loss": 758.1111450195312}, "load_time_ms": 0.637, "num_steps_sampled": 760800, "grad_time_ms": 654.963, "update_time_ms": 2.222, "sample_time_ms": 29995.848}, "date": "2025-08-30_21-32-57", "hostname": "cda-server-4", "time_this_iter_s": 32.458181858062744, "episodes_total": 3804, "timestamp": 1756582377, "node_ip": "10.157.146.4", "done": false, "time_total_s": 19343.525161981583, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 635, "episode_reward_mean": -626.537761506158, "training_iteration": 635, "timesteps_total": 762000, "policy_reward_mean": {}, "episode_reward_min": -701.7687175026296, "timesteps_since_restore": 762000, "num_metric_batches_dropped": 0, "time_since_restore": 19376.001874685287, "episode_reward_max": -537.8677949915786, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 762000, "default": {"kl": 0.008889279328286648, "policy_loss": -0.11890896409749985, "vf_loss": 508.8790588378906, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.932499885559082, "entropy": 9.463111877441406, "cur_lr": 4.999999873689376e-05, "total_loss": 508.7736511230469}, "load_time_ms": 0.637, "num_steps_sampled": 762000, "grad_time_ms": 665.553, "update_time_ms": 2.219, "sample_time_ms": 30108.319}, "date": "2025-08-30_21-33-29", "hostname": "cda-server-4", "time_this_iter_s": 32.476712703704834, "episodes_total": 3810, "timestamp": 1756582409, "node_ip": "10.157.146.4", "done": false, "time_total_s": 19376.001874685287, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 636, "episode_reward_mean": -626.134027653873, "training_iteration": 636, "timesteps_total": 763200, "policy_reward_mean": {}, "episode_reward_min": -701.7687175026296, "timesteps_since_restore": 763200, "num_metric_batches_dropped": 0, "time_since_restore": 19404.99565243721, "episode_reward_max": -537.8677949915786, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 763200, "default": {"kl": 0.010471895337104797, "policy_loss": -0.11659174412488937, "vf_loss": 343.8387451171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9505848288536072, "entropy": 9.28917121887207, "cur_lr": 4.999999873689376e-05, "total_loss": 343.7380065917969}, "load_time_ms": 0.636, "num_steps_sampled": 763200, "grad_time_ms": 674.482, "update_time_ms": 2.197, "sample_time_ms": 30056.159}, "date": "2025-08-30_21-33-58", "hostname": "cda-server-4", "time_this_iter_s": 28.993777751922607, "episodes_total": 3816, "timestamp": 1756582438, "node_ip": "10.157.146.4", "done": false, "time_total_s": 19404.99565243721, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 637, "episode_reward_mean": -627.5128889635628, "training_iteration": 637, "timesteps_total": 764400, "policy_reward_mean": {}, "episode_reward_min": -701.7687175026296, "timesteps_since_restore": 764400, "num_metric_batches_dropped": 0, "time_since_restore": 19434.285917282104, "episode_reward_max": -537.8677949915786, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 764400, "default": {"kl": 0.010508377104997635, "policy_loss": -0.14059258997440338, "vf_loss": 294.0735168457031, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9652576446533203, "entropy": 9.356441497802734, "cur_lr": 4.999999873689376e-05, "total_loss": 293.9488525390625}, "load_time_ms": 0.633, "num_steps_sampled": 764400, "grad_time_ms": 687.701, "update_time_ms": 2.163, "sample_time_ms": 29864.11}, "date": "2025-08-30_21-34-28", "hostname": "cda-server-4", "time_this_iter_s": 29.29026484489441, "episodes_total": 3822, "timestamp": 1756582468, "node_ip": "10.157.146.4", "done": false, "time_total_s": 19434.285917282104, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 638, "episode_reward_mean": -628.4749758471554, "training_iteration": 638, "timesteps_total": 765600, "policy_reward_mean": {}, "episode_reward_min": -730.5414704151301, "timesteps_since_restore": 765600, "num_metric_batches_dropped": 0, "time_since_restore": 19463.431182146072, "episode_reward_max": -543.7642923330395, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 765600, "default": {"kl": 0.010700203478336334, "policy_loss": -0.12585929036140442, "vf_loss": 401.59808349609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9547132849693298, "entropy": 9.238773345947266, "cur_lr": 4.999999873689376e-05, "total_loss": 401.48846435546875}, "load_time_ms": 0.616, "num_steps_sampled": 765600, "grad_time_ms": 656.945, "update_time_ms": 2.141, "sample_time_ms": 29814.647}, "date": "2025-08-30_21-34-57", "hostname": "cda-server-4", "time_this_iter_s": 29.145264863967896, "episodes_total": 3828, "timestamp": 1756582497, "node_ip": "10.157.146.4", "done": false, "time_total_s": 19463.431182146072, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 639, "episode_reward_mean": -629.0176186212817, "training_iteration": 639, "timesteps_total": 766800, "policy_reward_mean": {}, "episode_reward_min": -730.5414704151301, "timesteps_since_restore": 766800, "num_metric_batches_dropped": 0, "time_since_restore": 19494.82442355156, "episode_reward_max": -543.7642923330395, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 766800, "default": {"kl": 0.009214870631694794, "policy_loss": -0.1141245886683464, "vf_loss": 385.7215576171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9652910232543945, "entropy": 9.447142601013184, "cur_lr": 4.999999873689376e-05, "total_loss": 385.6214294433594}, "load_time_ms": 0.599, "num_steps_sampled": 766800, "grad_time_ms": 670.594, "update_time_ms": 2.117, "sample_time_ms": 30035.224}, "date": "2025-08-30_21-35-28", "hostname": "cda-server-4", "time_this_iter_s": 31.39324140548706, "episodes_total": 3834, "timestamp": 1756582528, "node_ip": "10.157.146.4", "done": false, "time_total_s": 19494.82442355156, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 640, "episode_reward_mean": -629.8851833117585, "training_iteration": 640, "timesteps_total": 768000, "policy_reward_mean": {}, "episode_reward_min": -730.5414704151301, "timesteps_since_restore": 768000, "num_metric_batches_dropped": 0, "time_since_restore": 19524.239834547043, "episode_reward_max": -543.7642923330395, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 768000, "default": {"kl": 0.010053502395749092, "policy_loss": -0.11483412235975266, "vf_loss": 389.45037841796875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9570225477218628, "entropy": 9.432698249816895, "cur_lr": 4.999999873689376e-05, "total_loss": 389.3507995605469}, "load_time_ms": 0.601, "num_steps_sampled": 768000, "grad_time_ms": 689.698, "update_time_ms": 2.182, "sample_time_ms": 29988.71}, "date": "2025-08-30_21-35-58", "hostname": "cda-server-4", "time_this_iter_s": 29.4154109954834, "episodes_total": 3840, "timestamp": 1756582558, "node_ip": "10.157.146.4", "done": false, "time_total_s": 19524.239834547043, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 641, "episode_reward_mean": -630.432019180204, "training_iteration": 641, "timesteps_total": 769200, "policy_reward_mean": {}, "episode_reward_min": -730.5414704151301, "timesteps_since_restore": 769200, "num_metric_batches_dropped": 0, "time_since_restore": 19554.741577625275, "episode_reward_max": -543.7642923330395, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 769200, "default": {"kl": 0.010929673910140991, "policy_loss": -0.13999952375888824, "vf_loss": 769.6151123046875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.924895167350769, "entropy": 9.135265350341797, "cur_lr": 4.999999873689376e-05, "total_loss": 769.49169921875}, "load_time_ms": 0.59, "num_steps_sampled": 769200, "grad_time_ms": 696.815, "update_time_ms": 2.171, "sample_time_ms": 29959.017}, "date": "2025-08-30_21-36-28", "hostname": "cda-server-4", "time_this_iter_s": 30.50174307823181, "episodes_total": 3846, "timestamp": 1756582588, "node_ip": "10.157.146.4", "done": false, "time_total_s": 19554.741577625275, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 642, "episode_reward_mean": -630.7651847690726, "training_iteration": 642, "timesteps_total": 770400, "policy_reward_mean": {}, "episode_reward_min": -730.5414704151301, "timesteps_since_restore": 770400, "num_metric_batches_dropped": 0, "time_since_restore": 19587.61361026764, "episode_reward_max": -543.7642923330395, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 770400, "default": {"kl": 0.008461951278150082, "policy_loss": -0.13542361557483673, "vf_loss": 684.341796875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.908035159111023, "entropy": 9.16572093963623, "cur_lr": 4.999999873689376e-05, "total_loss": 684.2192993164062}, "load_time_ms": 0.591, "num_steps_sampled": 770400, "grad_time_ms": 698.631, "update_time_ms": 2.15, "sample_time_ms": 30177.271}, "date": "2025-08-30_21-37-01", "hostname": "cda-server-4", "time_this_iter_s": 32.8720326423645, "episodes_total": 3852, "timestamp": 1756582621, "node_ip": "10.157.146.4", "done": false, "time_total_s": 19587.61361026764, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 643, "episode_reward_mean": -630.5706039696703, "training_iteration": 643, "timesteps_total": 771600, "policy_reward_mean": {}, "episode_reward_min": -730.5414704151301, "timesteps_since_restore": 771600, "num_metric_batches_dropped": 0, "time_since_restore": 19618.329939603806, "episode_reward_max": -543.7642923330395, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 771600, "default": {"kl": 0.008823237381875515, "policy_loss": -0.11282186955213547, "vf_loss": 415.3757019042969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9297314882278442, "entropy": 9.191634178161621, "cur_lr": 4.999999873689376e-05, "total_loss": 415.2762756347656}, "load_time_ms": 0.593, "num_steps_sampled": 771600, "grad_time_ms": 694.216, "update_time_ms": 2.095, "sample_time_ms": 30025.629}, "date": "2025-08-30_21-37-32", "hostname": "cda-server-4", "time_this_iter_s": 30.716329336166382, "episodes_total": 3858, "timestamp": 1756582652, "node_ip": "10.157.146.4", "done": false, "time_total_s": 19618.329939603806, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 644, "episode_reward_mean": -630.0740425534859, "training_iteration": 644, "timesteps_total": 772800, "policy_reward_mean": {}, "episode_reward_min": -730.5414704151301, "timesteps_since_restore": 772800, "num_metric_batches_dropped": 0, "time_since_restore": 19651.215894460678, "episode_reward_max": -543.7642923330395, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 772800, "default": {"kl": 0.009444128721952438, "policy_loss": -0.1301242560148239, "vf_loss": 383.3898010253906, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9476457238197327, "entropy": 9.3377046585083, "cur_lr": 4.999999873689376e-05, "total_loss": 383.2740173339844}, "load_time_ms": 0.602, "num_steps_sampled": 772800, "grad_time_ms": 684.113, "update_time_ms": 2.158, "sample_time_ms": 30078.4}, "date": "2025-08-30_21-38-05", "hostname": "cda-server-4", "time_this_iter_s": 32.88595485687256, "episodes_total": 3864, "timestamp": 1756582685, "node_ip": "10.157.146.4", "done": false, "time_total_s": 19651.215894460678, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 645, "episode_reward_mean": -629.6934107379259, "training_iteration": 645, "timesteps_total": 774000, "policy_reward_mean": {}, "episode_reward_min": -730.5414704151301, "timesteps_since_restore": 774000, "num_metric_batches_dropped": 0, "time_since_restore": 19680.14657020569, "episode_reward_max": -543.7642923330395, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 774000, "default": {"kl": 0.00993307400494814, "policy_loss": -0.13561779260635376, "vf_loss": 121.97345733642578, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9843521118164062, "entropy": 9.43754768371582, "cur_lr": 4.999999873689376e-05, "total_loss": 121.85293579101562}, "load_time_ms": 0.601, "num_steps_sampled": 774000, "grad_time_ms": 667.958, "update_time_ms": 2.19, "sample_time_ms": 29739.909}, "date": "2025-08-30_21-38-34", "hostname": "cda-server-4", "time_this_iter_s": 28.930675745010376, "episodes_total": 3870, "timestamp": 1756582714, "node_ip": "10.157.146.4", "done": false, "time_total_s": 19680.14657020569, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 646, "episode_reward_mean": -629.8969289819534, "training_iteration": 646, "timesteps_total": 775200, "policy_reward_mean": {}, "episode_reward_min": -730.5414704151301, "timesteps_since_restore": 775200, "num_metric_batches_dropped": 0, "time_since_restore": 19711.104014635086, "episode_reward_max": -543.7642923330395, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 775200, "default": {"kl": 0.008779722265899181, "policy_loss": -0.11436311155557632, "vf_loss": 498.7356872558594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.929070234298706, "entropy": 9.491064071655273, "cur_lr": 4.999999873689376e-05, "total_loss": 498.6346435546875}, "load_time_ms": 0.618, "num_steps_sampled": 775200, "grad_time_ms": 656.35, "update_time_ms": 2.23, "sample_time_ms": 29947.794}, "date": "2025-08-30_21-39-05", "hostname": "cda-server-4", "time_this_iter_s": 30.957444429397583, "episodes_total": 3876, "timestamp": 1756582745, "node_ip": "10.157.146.4", "done": false, "time_total_s": 19711.104014635086, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 647, "episode_reward_mean": -628.927312885911, "training_iteration": 647, "timesteps_total": 776400, "policy_reward_mean": {}, "episode_reward_min": -730.5414704151301, "timesteps_since_restore": 776400, "num_metric_batches_dropped": 0, "time_since_restore": 19742.86066842079, "episode_reward_max": -543.7642923330395, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 776400, "default": {"kl": 0.0092327781021595, "policy_loss": -0.10969232022762299, "vf_loss": 200.74790954589844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9716238379478455, "entropy": 9.375930786132812, "cur_lr": 4.999999873689376e-05, "total_loss": 200.65223693847656}, "load_time_ms": 0.612, "num_steps_sampled": 776400, "grad_time_ms": 655.521, "update_time_ms": 2.303, "sample_time_ms": 30195.204}, "date": "2025-08-30_21-39-37", "hostname": "cda-server-4", "time_this_iter_s": 31.756653785705566, "episodes_total": 3882, "timestamp": 1756582777, "node_ip": "10.157.146.4", "done": false, "time_total_s": 19742.86066842079, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 648, "episode_reward_mean": -630.211593794062, "training_iteration": 648, "timesteps_total": 777600, "policy_reward_mean": {}, "episode_reward_min": -730.5414704151301, "timesteps_since_restore": 777600, "num_metric_batches_dropped": 0, "time_since_restore": 19772.60214161873, "episode_reward_max": -585.8250750944952, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 777600, "default": {"kl": 0.009002704173326492, "policy_loss": -0.13822495937347412, "vf_loss": 407.7834777832031, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9522687196731567, "entropy": 9.139220237731934, "cur_lr": 4.999999873689376e-05, "total_loss": 407.658935546875}, "load_time_ms": 0.611, "num_steps_sampled": 777600, "grad_time_ms": 662.941, "update_time_ms": 2.258, "sample_time_ms": 30247.446}, "date": "2025-08-30_21-40-06", "hostname": "cda-server-4", "time_this_iter_s": 29.74147319793701, "episodes_total": 3888, "timestamp": 1756582806, "node_ip": "10.157.146.4", "done": false, "time_total_s": 19772.60214161873, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 649, "episode_reward_mean": -630.7215716217798, "training_iteration": 649, "timesteps_total": 778800, "policy_reward_mean": {}, "episode_reward_min": -730.5414704151301, "timesteps_since_restore": 778800, "num_metric_batches_dropped": 0, "time_since_restore": 19803.272684574127, "episode_reward_max": -585.8250750944952, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 778800, "default": {"kl": 0.010744157247245312, "policy_loss": -0.1387900710105896, "vf_loss": 1254.4879150390625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8803377151489258, "entropy": 9.260064125061035, "cur_lr": 4.999999873689376e-05, "total_loss": 1254.3656005859375}, "load_time_ms": 0.614, "num_steps_sampled": 778800, "grad_time_ms": 675.171, "update_time_ms": 2.259, "sample_time_ms": 30162.928}, "date": "2025-08-30_21-40-37", "hostname": "cda-server-4", "time_this_iter_s": 30.67054295539856, "episodes_total": 3894, "timestamp": 1756582837, "node_ip": "10.157.146.4", "done": false, "time_total_s": 19803.272684574127, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 650, "episode_reward_mean": -627.6459201271675, "training_iteration": 650, "timesteps_total": 780000, "policy_reward_mean": {}, "episode_reward_min": -730.5414704151301, "timesteps_since_restore": 780000, "num_metric_batches_dropped": 0, "time_since_restore": 19831.95257282257, "episode_reward_max": -529.8269884376676, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 780000, "default": {"kl": 0.01006387546658516, "policy_loss": -0.11508938670158386, "vf_loss": 470.9490051269531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9590473175048828, "entropy": 9.024280548095703, "cur_lr": 4.999999873689376e-05, "total_loss": 470.84918212890625}, "load_time_ms": 0.619, "num_steps_sampled": 780000, "grad_time_ms": 670.088, "update_time_ms": 2.259, "sample_time_ms": 30094.452}, "date": "2025-08-30_21-41-06", "hostname": "cda-server-4", "time_this_iter_s": 28.679888248443604, "episodes_total": 3900, "timestamp": 1756582866, "node_ip": "10.157.146.4", "done": false, "time_total_s": 19831.95257282257, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 651, "episode_reward_mean": -628.1555473195762, "training_iteration": 651, "timesteps_total": 781200, "policy_reward_mean": {}, "episode_reward_min": -730.5414704151301, "timesteps_since_restore": 781200, "num_metric_batches_dropped": 0, "time_since_restore": 19862.437352657318, "episode_reward_max": -529.8269884376676, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 781200, "default": {"kl": 0.01013248972594738, "policy_loss": -0.14247995615005493, "vf_loss": 193.1735076904297, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9738792777061462, "entropy": 9.6670503616333, "cur_lr": 4.999999873689376e-05, "total_loss": 193.04641723632812}, "load_time_ms": 0.626, "num_steps_sampled": 781200, "grad_time_ms": 704.546, "update_time_ms": 2.275, "sample_time_ms": 30057.929}, "date": "2025-08-30_21-41-36", "hostname": "cda-server-4", "time_this_iter_s": 30.484779834747314, "episodes_total": 3906, "timestamp": 1756582896, "node_ip": "10.157.146.4", "done": false, "time_total_s": 19862.437352657318, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 652, "episode_reward_mean": -627.0017935249438, "training_iteration": 652, "timesteps_total": 782400, "policy_reward_mean": {}, "episode_reward_min": -730.5414704151301, "timesteps_since_restore": 782400, "num_metric_batches_dropped": 0, "time_since_restore": 19892.377199411392, "episode_reward_max": -529.8269884376676, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 782400, "default": {"kl": 0.008183577097952366, "policy_loss": -0.12086469680070877, "vf_loss": 303.995361328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9599543809890747, "entropy": 9.385013580322266, "cur_lr": 4.999999873689376e-05, "total_loss": 303.88690185546875}, "load_time_ms": 0.653, "num_steps_sampled": 782400, "grad_time_ms": 679.768, "update_time_ms": 2.557, "sample_time_ms": 29789.076}, "date": "2025-08-30_21-42-06", "hostname": "cda-server-4", "time_this_iter_s": 29.939846754074097, "episodes_total": 3912, "timestamp": 1756582926, "node_ip": "10.157.146.4", "done": false, "time_total_s": 19892.377199411392, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 653, "episode_reward_mean": -626.3486035263765, "training_iteration": 653, "timesteps_total": 783600, "policy_reward_mean": {}, "episode_reward_min": -730.5414704151301, "timesteps_since_restore": 783600, "num_metric_batches_dropped": 0, "time_since_restore": 19923.87049293518, "episode_reward_max": -529.8269884376676, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 783600, "default": {"kl": 0.010183528997004032, "policy_loss": -0.13554465770721436, "vf_loss": 543.9617919921875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9262131452560425, "entropy": 8.90755844116211, "cur_lr": 4.999999873689376e-05, "total_loss": 543.8417358398438}, "load_time_ms": 0.648, "num_steps_sampled": 783600, "grad_time_ms": 667.348, "update_time_ms": 2.578, "sample_time_ms": 29879.212}, "date": "2025-08-30_21-42-38", "hostname": "cda-server-4", "time_this_iter_s": 31.493293523788452, "episodes_total": 3918, "timestamp": 1756582958, "node_ip": "10.157.146.4", "done": false, "time_total_s": 19923.87049293518, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 654, "episode_reward_mean": -625.0362120497987, "training_iteration": 654, "timesteps_total": 784800, "policy_reward_mean": {}, "episode_reward_min": -730.5414704151301, "timesteps_since_restore": 784800, "num_metric_batches_dropped": 0, "time_since_restore": 19952.87361884117, "episode_reward_max": -529.8269884376676, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 784800, "default": {"kl": 0.009900444187223911, "policy_loss": -0.11134278774261475, "vf_loss": 413.0296630859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9674714207649231, "entropy": 9.130203247070312, "cur_lr": 4.999999873689376e-05, "total_loss": 412.9333801269531}, "load_time_ms": 0.673, "num_steps_sampled": 784800, "grad_time_ms": 664.826, "update_time_ms": 2.511, "sample_time_ms": 29493.52}, "date": "2025-08-30_21-43-07", "hostname": "cda-server-4", "time_this_iter_s": 29.0031259059906, "episodes_total": 3924, "timestamp": 1756582987, "node_ip": "10.157.146.4", "done": false, "time_total_s": 19952.87361884117, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 655, "episode_reward_mean": -624.0038151530008, "training_iteration": 655, "timesteps_total": 786000, "policy_reward_mean": {}, "episode_reward_min": -695.9800573593499, "timesteps_since_restore": 786000, "num_metric_batches_dropped": 0, "time_since_restore": 19983.8523645401, "episode_reward_max": -529.8269884376676, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 786000, "default": {"kl": 0.00964579451829195, "policy_loss": -0.12494965642690659, "vf_loss": 244.84378051757812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9671246409416199, "entropy": 9.127899169921875, "cur_lr": 4.999999873689376e-05, "total_loss": 244.73345947265625}, "load_time_ms": 0.673, "num_steps_sampled": 786000, "grad_time_ms": 665.123, "update_time_ms": 2.515, "sample_time_ms": 29698.064}, "date": "2025-08-30_21-43-38", "hostname": "cda-server-4", "time_this_iter_s": 30.978745698928833, "episodes_total": 3930, "timestamp": 1756583018, "node_ip": "10.157.146.4", "done": false, "time_total_s": 19983.8523645401, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 656, "episode_reward_mean": -622.7111707237682, "training_iteration": 656, "timesteps_total": 787200, "policy_reward_mean": {}, "episode_reward_min": -695.9800573593499, "timesteps_since_restore": 787200, "num_metric_batches_dropped": 0, "time_since_restore": 20013.685215950012, "episode_reward_max": -529.8269884376676, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 787200, "default": {"kl": 0.010333629325032234, "policy_loss": -0.09923332184553146, "vf_loss": 222.67469787597656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.966754674911499, "entropy": 9.051114082336426, "cur_lr": 4.999999873689376e-05, "total_loss": 222.5911407470703}, "load_time_ms": 0.653, "num_steps_sampled": 787200, "grad_time_ms": 659.777, "update_time_ms": 2.501, "sample_time_ms": 29591.09}, "date": "2025-08-30_21-44-08", "hostname": "cda-server-4", "time_this_iter_s": 29.83285140991211, "episodes_total": 3936, "timestamp": 1756583048, "node_ip": "10.157.146.4", "done": false, "time_total_s": 20013.685215950012, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 657, "episode_reward_mean": -623.0420979397937, "training_iteration": 657, "timesteps_total": 788400, "policy_reward_mean": {}, "episode_reward_min": -695.9800573593499, "timesteps_since_restore": 788400, "num_metric_batches_dropped": 0, "time_since_restore": 20040.963624954224, "episode_reward_max": -529.8269884376676, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 788400, "default": {"kl": 0.011091751046478748, "policy_loss": -0.1198822557926178, "vf_loss": 740.9144287109375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8861200213432312, "entropy": 9.328290939331055, "cur_lr": 4.999999873689376e-05, "total_loss": 740.8114624023438}, "load_time_ms": 0.658, "num_steps_sampled": 788400, "grad_time_ms": 659.341, "update_time_ms": 2.458, "sample_time_ms": 29143.771}, "date": "2025-08-30_21-44-35", "hostname": "cda-server-4", "time_this_iter_s": 27.278409004211426, "episodes_total": 3942, "timestamp": 1756583075, "node_ip": "10.157.146.4", "done": false, "time_total_s": 20040.963624954224, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 658, "episode_reward_mean": -623.3847608389843, "training_iteration": 658, "timesteps_total": 789600, "policy_reward_mean": {}, "episode_reward_min": -695.9800573593499, "timesteps_since_restore": 789600, "num_metric_batches_dropped": 0, "time_since_restore": 20071.173629283905, "episode_reward_max": -529.8269884376676, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 789600, "default": {"kl": 0.007892456836998463, "policy_loss": -0.10590209811925888, "vf_loss": 131.07655334472656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.981842577457428, "entropy": 9.046199798583984, "cur_lr": 4.999999873689376e-05, "total_loss": 130.98263549804688}, "load_time_ms": 0.689, "num_steps_sampled": 789600, "grad_time_ms": 638.924, "update_time_ms": 2.45, "sample_time_ms": 29211.065}, "date": "2025-08-30_21-45-05", "hostname": "cda-server-4", "time_this_iter_s": 30.210004329681396, "episodes_total": 3948, "timestamp": 1756583105, "node_ip": "10.157.146.4", "done": false, "time_total_s": 20071.173629283905, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 659, "episode_reward_mean": -622.5712200872698, "training_iteration": 659, "timesteps_total": 790800, "policy_reward_mean": {}, "episode_reward_min": -695.9800573593499, "timesteps_since_restore": 790800, "num_metric_batches_dropped": 0, "time_since_restore": 20099.08093237877, "episode_reward_max": -529.8269884376676, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 790800, "default": {"kl": 0.009941209107637405, "policy_loss": -0.10828462988138199, "vf_loss": 436.15472412109375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9560770392417908, "entropy": 8.641597747802734, "cur_lr": 4.999999873689376e-05, "total_loss": 436.0615539550781}, "load_time_ms": 0.685, "num_steps_sampled": 790800, "grad_time_ms": 614.069, "update_time_ms": 2.384, "sample_time_ms": 28959.691}, "date": "2025-08-30_21-45-33", "hostname": "cda-server-4", "time_this_iter_s": 27.90730309486389, "episodes_total": 3954, "timestamp": 1756583133, "node_ip": "10.157.146.4", "done": false, "time_total_s": 20099.08093237877, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 660, "episode_reward_mean": -620.7924880756165, "training_iteration": 660, "timesteps_total": 792000, "policy_reward_mean": {}, "episode_reward_min": -695.9800573593499, "timesteps_since_restore": 792000, "num_metric_batches_dropped": 0, "time_since_restore": 20128.490295648575, "episode_reward_max": -525.4448601176575, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 792000, "default": {"kl": 0.011579538695514202, "policy_loss": -0.13881045579910278, "vf_loss": 300.5319519042969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9537074565887451, "entropy": 9.087750434875488, "cur_lr": 4.999999873689376e-05, "total_loss": 300.4107666015625}, "load_time_ms": 0.694, "num_steps_sampled": 792000, "grad_time_ms": 624.398, "update_time_ms": 2.341, "sample_time_ms": 29022.3}, "date": "2025-08-30_21-46-02", "hostname": "cda-server-4", "time_this_iter_s": 29.409363269805908, "episodes_total": 3960, "timestamp": 1756583162, "node_ip": "10.157.146.4", "done": false, "time_total_s": 20128.490295648575, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 661, "episode_reward_mean": -620.8567973540951, "training_iteration": 661, "timesteps_total": 793200, "policy_reward_mean": {}, "episode_reward_min": -695.9800573593499, "timesteps_since_restore": 793200, "num_metric_batches_dropped": 0, "time_since_restore": 20158.84287238121, "episode_reward_max": -525.4448601176575, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 793200, "default": {"kl": 0.010300697758793831, "policy_loss": -0.12428838759660721, "vf_loss": 507.30755615234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9338486790657043, "entropy": 9.067548751831055, "cur_lr": 4.999999873689376e-05, "total_loss": 507.1988830566406}, "load_time_ms": 0.705, "num_steps_sampled": 793200, "grad_time_ms": 588.091, "update_time_ms": 2.293, "sample_time_ms": 29045.594}, "date": "2025-08-30_21-46-33", "hostname": "cda-server-4", "time_this_iter_s": 30.352576732635498, "episodes_total": 3966, "timestamp": 1756583193, "node_ip": "10.157.146.4", "done": false, "time_total_s": 20158.84287238121, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 662, "episode_reward_mean": -619.7369372268699, "training_iteration": 662, "timesteps_total": 794400, "policy_reward_mean": {}, "episode_reward_min": -695.9800573593499, "timesteps_since_restore": 794400, "num_metric_batches_dropped": 0, "time_since_restore": 20188.947716474533, "episode_reward_max": -525.4448601176575, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 794400, "default": {"kl": 0.01178425271064043, "policy_loss": -0.15766803920269012, "vf_loss": 213.47149658203125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.974339485168457, "entropy": 9.14973258972168, "cur_lr": 4.999999873689376e-05, "total_loss": 213.33172607421875}, "load_time_ms": 0.673, "num_steps_sampled": 794400, "grad_time_ms": 587.81, "update_time_ms": 2.047, "sample_time_ms": 29062.731}, "date": "2025-08-30_21-47-03", "hostname": "cda-server-4", "time_this_iter_s": 30.104844093322754, "episodes_total": 3972, "timestamp": 1756583223, "node_ip": "10.157.146.4", "done": false, "time_total_s": 20188.947716474533, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 663, "episode_reward_mean": -618.4289734719227, "training_iteration": 663, "timesteps_total": 795600, "policy_reward_mean": {}, "episode_reward_min": -695.9800573593499, "timesteps_since_restore": 795600, "num_metric_batches_dropped": 0, "time_since_restore": 20218.727644205093, "episode_reward_max": -525.4448601176575, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 795600, "default": {"kl": 0.009552767500281334, "policy_loss": -0.11988639831542969, "vf_loss": 116.01737213134766, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9839890003204346, "entropy": 9.180355072021484, "cur_lr": 4.999999873689376e-05, "total_loss": 115.91200256347656}, "load_time_ms": 0.669, "num_steps_sampled": 795600, "grad_time_ms": 605.523, "update_time_ms": 2.118, "sample_time_ms": 28873.609}, "date": "2025-08-30_21-47-33", "hostname": "cda-server-4", "time_this_iter_s": 29.779927730560303, "episodes_total": 3978, "timestamp": 1756583253, "node_ip": "10.157.146.4", "done": false, "time_total_s": 20218.727644205093, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 664, "episode_reward_mean": -618.5586335579301, "training_iteration": 664, "timesteps_total": 796800, "policy_reward_mean": {}, "episode_reward_min": -695.9800573593499, "timesteps_since_restore": 796800, "num_metric_batches_dropped": 0, "time_since_restore": 20248.517738103867, "episode_reward_max": -525.4448601176575, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 796800, "default": {"kl": 0.008367154747247696, "policy_loss": -0.12130796909332275, "vf_loss": 524.7991333007812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.917710542678833, "entropy": 8.983460426330566, "cur_lr": 4.999999873689376e-05, "total_loss": 524.6905517578125}, "load_time_ms": 0.635, "num_steps_sampled": 796800, "grad_time_ms": 616.552, "update_time_ms": 2.109, "sample_time_ms": 28941.379}, "date": "2025-08-30_21-48-03", "hostname": "cda-server-4", "time_this_iter_s": 29.790093898773193, "episodes_total": 3984, "timestamp": 1756583283, "node_ip": "10.157.146.4", "done": false, "time_total_s": 20248.517738103867, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 665, "episode_reward_mean": -618.9730726336835, "training_iteration": 665, "timesteps_total": 798000, "policy_reward_mean": {}, "episode_reward_min": -695.9800573593499, "timesteps_since_restore": 798000, "num_metric_batches_dropped": 0, "time_since_restore": 20281.857147216797, "episode_reward_max": -525.4448601176575, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 798000, "default": {"kl": 0.01028737798333168, "policy_loss": -0.12596718966960907, "vf_loss": 397.4225769042969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9550575613975525, "entropy": 9.051732063293457, "cur_lr": 4.999999873689376e-05, "total_loss": 397.3122253417969}, "load_time_ms": 0.637, "num_steps_sampled": 798000, "grad_time_ms": 622.439, "update_time_ms": 2.049, "sample_time_ms": 29171.595}, "date": "2025-08-30_21-48-36", "hostname": "cda-server-4", "time_this_iter_s": 33.3394091129303, "episodes_total": 3990, "timestamp": 1756583316, "node_ip": "10.157.146.4", "done": false, "time_total_s": 20281.857147216797, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 666, "episode_reward_mean": -619.6162854757738, "training_iteration": 666, "timesteps_total": 799200, "policy_reward_mean": {}, "episode_reward_min": -698.8402387337401, "timesteps_since_restore": 799200, "num_metric_batches_dropped": 0, "time_since_restore": 20314.514560222626, "episode_reward_max": -525.4448601176575, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 799200, "default": {"kl": 0.011279137805104256, "policy_loss": -0.14799970388412476, "vf_loss": 233.6588592529297, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9661172032356262, "entropy": 9.248638153076172, "cur_lr": 4.999999873689376e-05, "total_loss": 233.5279998779297}, "load_time_ms": 0.641, "num_steps_sampled": 799200, "grad_time_ms": 628.573, "update_time_ms": 2.077, "sample_time_ms": 29447.883}, "date": "2025-08-30_21-49-09", "hostname": "cda-server-4", "time_this_iter_s": 32.65741300582886, "episodes_total": 3996, "timestamp": 1756583349, "node_ip": "10.157.146.4", "done": false, "time_total_s": 20314.514560222626, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 667, "episode_reward_mean": -620.0869638057709, "training_iteration": 667, "timesteps_total": 800400, "policy_reward_mean": {}, "episode_reward_min": -698.8402387337401, "timesteps_since_restore": 800400, "num_metric_batches_dropped": 0, "time_since_restore": 20344.76334142685, "episode_reward_max": -525.4448601176575, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 800400, "default": {"kl": 0.011649947613477707, "policy_loss": -0.11505797505378723, "vf_loss": 259.71875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9681445360183716, "entropy": 8.743193626403809, "cur_lr": 4.999999873689376e-05, "total_loss": 259.62139892578125}, "load_time_ms": 0.637, "num_steps_sampled": 800400, "grad_time_ms": 624.909, "update_time_ms": 2.057, "sample_time_ms": 29748.582}, "date": "2025-08-30_21-49-39", "hostname": "cda-server-4", "time_this_iter_s": 30.248781204223633, "episodes_total": 4002, "timestamp": 1756583379, "node_ip": "10.157.146.4", "done": false, "time_total_s": 20344.76334142685, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 668, "episode_reward_mean": -621.6092943992494, "training_iteration": 668, "timesteps_total": 801600, "policy_reward_mean": {}, "episode_reward_min": -795.8528690712707, "timesteps_since_restore": 801600, "num_metric_batches_dropped": 0, "time_since_restore": 20376.93799853325, "episode_reward_max": -525.4448601176575, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 801600, "default": {"kl": 0.009878003038465977, "policy_loss": -0.13192641735076904, "vf_loss": 391.51446533203125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.975692868232727, "entropy": 9.088465690612793, "cur_lr": 4.999999873689376e-05, "total_loss": 391.3975830078125}, "load_time_ms": 0.603, "num_steps_sampled": 801600, "grad_time_ms": 635.852, "update_time_ms": 2.13, "sample_time_ms": 29934.067}, "date": "2025-08-30_21-50-11", "hostname": "cda-server-4", "time_this_iter_s": 32.174657106399536, "episodes_total": 4008, "timestamp": 1756583411, "node_ip": "10.157.146.4", "done": false, "time_total_s": 20376.93799853325, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 669, "episode_reward_mean": -622.1910524629385, "training_iteration": 669, "timesteps_total": 802800, "policy_reward_mean": {}, "episode_reward_min": -795.8528690712707, "timesteps_since_restore": 802800, "num_metric_batches_dropped": 0, "time_since_restore": 20404.424060821533, "episode_reward_max": -525.4448601176575, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 802800, "default": {"kl": 0.009893441572785378, "policy_loss": -0.1349462866783142, "vf_loss": 121.94852447509766, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9842232465744019, "entropy": 8.936972618103027, "cur_lr": 4.999999873689376e-05, "total_loss": 121.82861328125}, "load_time_ms": 0.608, "num_steps_sampled": 802800, "grad_time_ms": 651.296, "update_time_ms": 2.341, "sample_time_ms": 29876.283}, "date": "2025-08-30_21-50-38", "hostname": "cda-server-4", "time_this_iter_s": 27.4860622882843, "episodes_total": 4014, "timestamp": 1756583438, "node_ip": "10.157.146.4", "done": false, "time_total_s": 20404.424060821533, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 670, "episode_reward_mean": -622.0648471981624, "training_iteration": 670, "timesteps_total": 804000, "policy_reward_mean": {}, "episode_reward_min": -795.8528690712707, "timesteps_since_restore": 804000, "num_metric_batches_dropped": 0, "time_since_restore": 20436.488041639328, "episode_reward_max": -525.4448601176575, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 804000, "default": {"kl": 0.010088611394166946, "policy_loss": -0.13691972196102142, "vf_loss": 146.36155700683594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9872950315475464, "entropy": 8.879951477050781, "cur_lr": 4.999999873689376e-05, "total_loss": 146.23995971679688}, "load_time_ms": 0.607, "num_steps_sampled": 804000, "grad_time_ms": 648.14, "update_time_ms": 2.364, "sample_time_ms": 30144.863}, "date": "2025-08-30_21-51-11", "hostname": "cda-server-4", "time_this_iter_s": 32.0639808177948, "episodes_total": 4020, "timestamp": 1756583471, "node_ip": "10.157.146.4", "done": false, "time_total_s": 20436.488041639328, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 671, "episode_reward_mean": -620.6538773822239, "training_iteration": 671, "timesteps_total": 805200, "policy_reward_mean": {}, "episode_reward_min": -795.8528690712707, "timesteps_since_restore": 805200, "num_metric_batches_dropped": 0, "time_since_restore": 20467.14849114418, "episode_reward_max": -525.4448601176575, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 805200, "default": {"kl": 0.010247645899653435, "policy_loss": -0.10818649083375931, "vf_loss": 532.2247314453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9492474794387817, "entropy": 8.482383728027344, "cur_lr": 4.999999873689376e-05, "total_loss": 532.132080078125}, "load_time_ms": 0.604, "num_steps_sampled": 805200, "grad_time_ms": 648.872, "update_time_ms": 2.482, "sample_time_ms": 30174.893}, "date": "2025-08-30_21-51-41", "hostname": "cda-server-4", "time_this_iter_s": 30.660449504852295, "episodes_total": 4026, "timestamp": 1756583501, "node_ip": "10.157.146.4", "done": false, "time_total_s": 20467.14849114418, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 672, "episode_reward_mean": -620.5305215148967, "training_iteration": 672, "timesteps_total": 806400, "policy_reward_mean": {}, "episode_reward_min": -795.8528690712707, "timesteps_since_restore": 806400, "num_metric_batches_dropped": 0, "time_since_restore": 20499.600203037262, "episode_reward_max": -525.4448601176575, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 806400, "default": {"kl": 0.009597735479474068, "policy_loss": -0.12254519015550613, "vf_loss": 357.53106689453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.962457001209259, "entropy": 9.061080932617188, "cur_lr": 4.999999873689376e-05, "total_loss": 357.423095703125}, "load_time_ms": 0.601, "num_steps_sampled": 806400, "grad_time_ms": 664.268, "update_time_ms": 2.518, "sample_time_ms": 30394.108}, "date": "2025-08-30_21-52-14", "hostname": "cda-server-4", "time_this_iter_s": 32.451711893081665, "episodes_total": 4032, "timestamp": 1756583534, "node_ip": "10.157.146.4", "done": false, "time_total_s": 20499.600203037262, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 673, "episode_reward_mean": -621.1033676759552, "training_iteration": 673, "timesteps_total": 807600, "policy_reward_mean": {}, "episode_reward_min": -795.8528690712707, "timesteps_since_restore": 807600, "num_metric_batches_dropped": 0, "time_since_restore": 20531.782811641693, "episode_reward_max": -525.4448601176575, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 807600, "default": {"kl": 0.008457977324724197, "policy_loss": -0.12717211246490479, "vf_loss": 775.839111328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8773778080940247, "entropy": 9.144731521606445, "cur_lr": 4.999999873689376e-05, "total_loss": 775.724853515625}, "load_time_ms": 0.605, "num_steps_sampled": 807600, "grad_time_ms": 649.998, "update_time_ms": 2.44, "sample_time_ms": 30648.706}, "date": "2025-08-30_21-52-46", "hostname": "cda-server-4", "time_this_iter_s": 32.18260860443115, "episodes_total": 4038, "timestamp": 1756583566, "node_ip": "10.157.146.4", "done": false, "time_total_s": 20531.782811641693, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 674, "episode_reward_mean": -620.7200507632833, "training_iteration": 674, "timesteps_total": 808800, "policy_reward_mean": {}, "episode_reward_min": -795.8528690712707, "timesteps_since_restore": 808800, "num_metric_batches_dropped": 0, "time_since_restore": 20561.03491282463, "episode_reward_max": -525.4448601176575, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 808800, "default": {"kl": 0.008376671001315117, "policy_loss": -0.12020647525787354, "vf_loss": 399.7463684082031, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9493488669395447, "entropy": 8.708276748657227, "cur_lr": 4.999999873689376e-05, "total_loss": 399.63885498046875}, "load_time_ms": 0.603, "num_steps_sampled": 808800, "grad_time_ms": 639.31, "update_time_ms": 2.48, "sample_time_ms": 30605.457}, "date": "2025-08-30_21-53-15", "hostname": "cda-server-4", "time_this_iter_s": 29.252101182937622, "episodes_total": 4044, "timestamp": 1756583595, "node_ip": "10.157.146.4", "done": false, "time_total_s": 20561.03491282463, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 675, "episode_reward_mean": -619.8662531234106, "training_iteration": 675, "timesteps_total": 810000, "policy_reward_mean": {}, "episode_reward_min": -795.8528690712707, "timesteps_since_restore": 810000, "num_metric_batches_dropped": 0, "time_since_restore": 20591.83783698082, "episode_reward_max": -525.4448601176575, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 810000, "default": {"kl": 0.010130786336958408, "policy_loss": -0.11541905999183655, "vf_loss": 968.8946533203125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8991954326629639, "entropy": 8.915398597717285, "cur_lr": 4.999999873689376e-05, "total_loss": 968.7944946289062}, "load_time_ms": 0.622, "num_steps_sampled": 810000, "grad_time_ms": 627.66, "update_time_ms": 2.566, "sample_time_ms": 30363.299}, "date": "2025-08-30_21-53-46", "hostname": "cda-server-4", "time_this_iter_s": 30.802924156188965, "episodes_total": 4050, "timestamp": 1756583626, "node_ip": "10.157.146.4", "done": false, "time_total_s": 20591.83783698082, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 676, "episode_reward_mean": -620.0436732878578, "training_iteration": 676, "timesteps_total": 811200, "policy_reward_mean": {}, "episode_reward_min": -795.8528690712707, "timesteps_since_restore": 811200, "num_metric_batches_dropped": 0, "time_since_restore": 20624.736075401306, "episode_reward_max": -525.4448601176575, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 811200, "default": {"kl": 0.008544307202100754, "policy_loss": -0.10943691432476044, "vf_loss": 360.53057861328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.948266863822937, "entropy": 9.194361686706543, "cur_lr": 4.999999873689376e-05, "total_loss": 360.43414306640625}, "load_time_ms": 0.619, "num_steps_sampled": 811200, "grad_time_ms": 618.338, "update_time_ms": 2.57, "sample_time_ms": 30396.686}, "date": "2025-08-30_21-54-19", "hostname": "cda-server-4", "time_this_iter_s": 32.89823842048645, "episodes_total": 4056, "timestamp": 1756583659, "node_ip": "10.157.146.4", "done": false, "time_total_s": 20624.736075401306, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 677, "episode_reward_mean": -619.0629261286127, "training_iteration": 677, "timesteps_total": 812400, "policy_reward_mean": {}, "episode_reward_min": -795.8528690712707, "timesteps_since_restore": 812400, "num_metric_batches_dropped": 0, "time_since_restore": 20655.0270884037, "episode_reward_max": -491.91508624837354, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 812400, "default": {"kl": 0.010505616664886475, "policy_loss": -0.12356866896152496, "vf_loss": 438.2318420410156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9407170414924622, "entropy": 8.728374481201172, "cur_lr": 4.999999873689376e-05, "total_loss": 438.1242370605469}, "load_time_ms": 0.617, "num_steps_sampled": 812400, "grad_time_ms": 610.908, "update_time_ms": 2.649, "sample_time_ms": 30408.251}, "date": "2025-08-30_21-54-49", "hostname": "cda-server-4", "time_this_iter_s": 30.29101300239563, "episodes_total": 4062, "timestamp": 1756583689, "node_ip": "10.157.146.4", "done": false, "time_total_s": 20655.0270884037, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 678, "episode_reward_mean": -620.1776092076675, "training_iteration": 678, "timesteps_total": 813600, "policy_reward_mean": {}, "episode_reward_min": -795.8528690712707, "timesteps_since_restore": 813600, "num_metric_batches_dropped": 0, "time_since_restore": 20688.59840464592, "episode_reward_max": -491.91508624837354, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 813600, "default": {"kl": 0.010337785817682743, "policy_loss": -0.13763538002967834, "vf_loss": 344.86566162109375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9464187622070312, "entropy": 9.031017303466797, "cur_lr": 4.999999873689376e-05, "total_loss": 344.7437438964844}, "load_time_ms": 0.622, "num_steps_sampled": 813600, "grad_time_ms": 596.315, "update_time_ms": 2.565, "sample_time_ms": 30562.6}, "date": "2025-08-30_21-55-23", "hostname": "cda-server-4", "time_this_iter_s": 33.57131624221802, "episodes_total": 4068, "timestamp": 1756583723, "node_ip": "10.157.146.4", "done": false, "time_total_s": 20688.59840464592, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 679, "episode_reward_mean": -619.7057348347321, "training_iteration": 679, "timesteps_total": 814800, "policy_reward_mean": {}, "episode_reward_min": -795.8528690712707, "timesteps_since_restore": 814800, "num_metric_batches_dropped": 0, "time_since_restore": 20719.36078596115, "episode_reward_max": -491.91508624837354, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 814800, "default": {"kl": 0.009298601187765598, "policy_loss": -0.11286091804504395, "vf_loss": 398.63134765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9560714364051819, "entropy": 8.698049545288086, "cur_lr": 4.999999873689376e-05, "total_loss": 398.5326232910156}, "load_time_ms": 0.648, "num_steps_sampled": 814800, "grad_time_ms": 588.791, "update_time_ms": 2.422, "sample_time_ms": 30897.817}, "date": "2025-08-30_21-55-54", "hostname": "cda-server-4", "time_this_iter_s": 30.762381315231323, "episodes_total": 4074, "timestamp": 1756583754, "node_ip": "10.157.146.4", "done": false, "time_total_s": 20719.36078596115, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 680, "episode_reward_mean": -620.1007759636412, "training_iteration": 680, "timesteps_total": 816000, "policy_reward_mean": {}, "episode_reward_min": -795.8528690712707, "timesteps_since_restore": 816000, "num_metric_batches_dropped": 0, "time_since_restore": 20750.85488128662, "episode_reward_max": -491.91508624837354, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 816000, "default": {"kl": 0.00841771811246872, "policy_loss": -0.12680146098136902, "vf_loss": 418.6529541015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9505434036254883, "entropy": 8.992923736572266, "cur_lr": 4.999999873689376e-05, "total_loss": 418.5389404296875}, "load_time_ms": 0.636, "num_steps_sampled": 816000, "grad_time_ms": 579.136, "update_time_ms": 2.464, "sample_time_ms": 30850.439}, "date": "2025-08-30_21-56-25", "hostname": "cda-server-4", "time_this_iter_s": 31.49409532546997, "episodes_total": 4080, "timestamp": 1756583785, "node_ip": "10.157.146.4", "done": false, "time_total_s": 20750.85488128662, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 681, "episode_reward_mean": -619.3682725815344, "training_iteration": 681, "timesteps_total": 817200, "policy_reward_mean": {}, "episode_reward_min": -795.8528690712707, "timesteps_since_restore": 817200, "num_metric_batches_dropped": 0, "time_since_restore": 20782.339609622955, "episode_reward_max": -491.91508624837354, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 817200, "default": {"kl": 0.00944704469293356, "policy_loss": -0.1178554818034172, "vf_loss": 548.3931884765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.938643217086792, "entropy": 8.967686653137207, "cur_lr": 4.999999873689376e-05, "total_loss": 548.2896728515625}, "load_time_ms": 0.626, "num_steps_sampled": 817200, "grad_time_ms": 585.9, "update_time_ms": 2.365, "sample_time_ms": 30926.19}, "date": "2025-08-30_21-56-57", "hostname": "cda-server-4", "time_this_iter_s": 31.48472833633423, "episodes_total": 4086, "timestamp": 1756583817, "node_ip": "10.157.146.4", "done": false, "time_total_s": 20782.339609622955, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 682, "episode_reward_mean": -618.9073696356932, "training_iteration": 682, "timesteps_total": 818400, "policy_reward_mean": {}, "episode_reward_min": -795.8528690712707, "timesteps_since_restore": 818400, "num_metric_batches_dropped": 0, "time_since_restore": 20812.637644529343, "episode_reward_max": -491.91508624837354, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 818400, "default": {"kl": 0.011582456529140472, "policy_loss": -0.1398562639951706, "vf_loss": 554.7230834960938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9384095072746277, "entropy": 9.028730392456055, "cur_lr": 4.999999873689376e-05, "total_loss": 554.600830078125}, "load_time_ms": 0.631, "num_steps_sampled": 818400, "grad_time_ms": 596.766, "update_time_ms": 2.275, "sample_time_ms": 30700.087}, "date": "2025-08-30_21-57-27", "hostname": "cda-server-4", "time_this_iter_s": 30.29803490638733, "episodes_total": 4092, "timestamp": 1756583847, "node_ip": "10.157.146.4", "done": false, "time_total_s": 20812.637644529343, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 683, "episode_reward_mean": -616.586110929374, "training_iteration": 683, "timesteps_total": 819600, "policy_reward_mean": {}, "episode_reward_min": -795.8528690712707, "timesteps_since_restore": 819600, "num_metric_batches_dropped": 0, "time_since_restore": 20844.021187067032, "episode_reward_max": -472.861862858257, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 819600, "default": {"kl": 0.012981478124856949, "policy_loss": -0.13526786863803864, "vf_loss": 330.9864807128906, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9588037133216858, "entropy": 8.746779441833496, "cur_lr": 4.999999873689376e-05, "total_loss": 330.8709411621094}, "load_time_ms": 0.63, "num_steps_sampled": 819600, "grad_time_ms": 615.406, "update_time_ms": 2.319, "sample_time_ms": 30601.443}, "date": "2025-08-30_21-57-58", "hostname": "cda-server-4", "time_this_iter_s": 31.38354253768921, "episodes_total": 4098, "timestamp": 1756583878, "node_ip": "10.157.146.4", "done": false, "time_total_s": 20844.021187067032, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 684, "episode_reward_mean": -614.1918884096806, "training_iteration": 684, "timesteps_total": 820800, "policy_reward_mean": {}, "episode_reward_min": -693.5595119832211, "timesteps_since_restore": 820800, "num_metric_batches_dropped": 0, "time_since_restore": 20877.914070129395, "episode_reward_max": -472.861862858257, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 820800, "default": {"kl": 0.007397504523396492, "policy_loss": -0.09031633287668228, "vf_loss": 624.8235473632812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9212128520011902, "entropy": 8.795719146728516, "cur_lr": 4.999999873689376e-05, "total_loss": 624.7445068359375}, "load_time_ms": 0.65, "num_steps_sampled": 820800, "grad_time_ms": 629.341, "update_time_ms": 2.333, "sample_time_ms": 31051.47}, "date": "2025-08-30_21-58-32", "hostname": "cda-server-4", "time_this_iter_s": 33.89288306236267, "episodes_total": 4104, "timestamp": 1756583912, "node_ip": "10.157.146.4", "done": false, "time_total_s": 20877.914070129395, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 685, "episode_reward_mean": -613.091960465938, "training_iteration": 685, "timesteps_total": 822000, "policy_reward_mean": {}, "episode_reward_min": -693.5595119832211, "timesteps_since_restore": 822000, "num_metric_batches_dropped": 0, "time_since_restore": 20905.599224328995, "episode_reward_max": -472.861862858257, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 822000, "default": {"kl": 0.01135211531072855, "policy_loss": -0.12223431468009949, "vf_loss": 514.4599609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9632638096809387, "entropy": 8.404228210449219, "cur_lr": 4.999999873689376e-05, "total_loss": 514.35498046875}, "load_time_ms": 0.658, "num_steps_sampled": 822000, "grad_time_ms": 625.491, "update_time_ms": 2.5, "sample_time_ms": 30743.367}, "date": "2025-08-30_21-59-00", "hostname": "cda-server-4", "time_this_iter_s": 27.68515419960022, "episodes_total": 4110, "timestamp": 1756583940, "node_ip": "10.157.146.4", "done": false, "time_total_s": 20905.599224328995, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 686, "episode_reward_mean": -611.1692351779805, "training_iteration": 686, "timesteps_total": 823200, "policy_reward_mean": {}, "episode_reward_min": -693.5595119832211, "timesteps_since_restore": 823200, "num_metric_batches_dropped": 0, "time_since_restore": 20936.060836076736, "episode_reward_max": -472.861862858257, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 823200, "default": {"kl": 0.010300226509571075, "policy_loss": -0.13420134782791138, "vf_loss": 1183.4637451171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.817608118057251, "entropy": 8.74007511138916, "cur_lr": 4.999999873689376e-05, "total_loss": 1183.34521484375}, "load_time_ms": 0.657, "num_steps_sampled": 823200, "grad_time_ms": 614.412, "update_time_ms": 2.439, "sample_time_ms": 30510.831}, "date": "2025-08-30_21-59-30", "hostname": "cda-server-4", "time_this_iter_s": 30.4616117477417, "episodes_total": 4116, "timestamp": 1756583970, "node_ip": "10.157.146.4", "done": false, "time_total_s": 20936.060836076736, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 687, "episode_reward_mean": -612.7754381269377, "training_iteration": 687, "timesteps_total": 824400, "policy_reward_mean": {}, "episode_reward_min": -693.5595119832211, "timesteps_since_restore": 824400, "num_metric_batches_dropped": 0, "time_since_restore": 20969.57229089737, "episode_reward_max": -472.861862858257, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 824400, "default": {"kl": 0.009441599249839783, "policy_loss": -0.12143415957689285, "vf_loss": 196.2190704345703, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9751456379890442, "entropy": 8.761014938354492, "cur_lr": 4.999999873689376e-05, "total_loss": 196.1119842529297}, "load_time_ms": 0.668, "num_steps_sampled": 824400, "grad_time_ms": 600.624, "update_time_ms": 2.364, "sample_time_ms": 30846.758}, "date": "2025-08-30_22-00-04", "hostname": "cda-server-4", "time_this_iter_s": 33.511454820632935, "episodes_total": 4122, "timestamp": 1756584004, "node_ip": "10.157.146.4", "done": false, "time_total_s": 20969.57229089737, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 688, "episode_reward_mean": -613.2142284529111, "training_iteration": 688, "timesteps_total": 825600, "policy_reward_mean": {}, "episode_reward_min": -693.5595119832211, "timesteps_since_restore": 825600, "num_metric_batches_dropped": 0, "time_since_restore": 21001.213457345963, "episode_reward_max": -472.861862858257, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 825600, "default": {"kl": 0.008925989270210266, "policy_loss": -0.10885078459978104, "vf_loss": 366.7447509765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.955371618270874, "entropy": 8.784989356994629, "cur_lr": 4.999999873689376e-05, "total_loss": 366.6494445800781}, "load_time_ms": 0.704, "num_steps_sampled": 825600, "grad_time_ms": 619.035, "update_time_ms": 2.398, "sample_time_ms": 30635.157}, "date": "2025-08-30_22-00-36", "hostname": "cda-server-4", "time_this_iter_s": 31.64116644859314, "episodes_total": 4128, "timestamp": 1756584036, "node_ip": "10.157.146.4", "done": false, "time_total_s": 21001.213457345963, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 689, "episode_reward_mean": -612.0546529833089, "training_iteration": 689, "timesteps_total": 826800, "policy_reward_mean": {}, "episode_reward_min": -693.5595119832211, "timesteps_since_restore": 826800, "num_metric_batches_dropped": 0, "time_since_restore": 21029.53671693802, "episode_reward_max": -472.861862858257, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 826800, "default": {"kl": 0.011650647968053818, "policy_loss": -0.14089608192443848, "vf_loss": 383.1009826660156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9687783718109131, "entropy": 9.112659454345703, "cur_lr": 4.999999873689376e-05, "total_loss": 382.9778137207031}, "load_time_ms": 0.673, "num_steps_sampled": 826800, "grad_time_ms": 630.225, "update_time_ms": 2.418, "sample_time_ms": 30380.061}, "date": "2025-08-30_22-01-04", "hostname": "cda-server-4", "time_this_iter_s": 28.323259592056274, "episodes_total": 4134, "timestamp": 1756584064, "node_ip": "10.157.146.4", "done": false, "time_total_s": 21029.53671693802, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 690, "episode_reward_mean": -611.3313900732096, "training_iteration": 690, "timesteps_total": 828000, "policy_reward_mean": {}, "episode_reward_min": -693.5595119832211, "timesteps_since_restore": 828000, "num_metric_batches_dropped": 0, "time_since_restore": 21059.193363428116, "episode_reward_max": -472.861862858257, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 828000, "default": {"kl": 0.008160451427102089, "policy_loss": -0.11607760936021805, "vf_loss": 136.63592529296875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9788201451301575, "entropy": 8.821623802185059, "cur_lr": 4.999999873689376e-05, "total_loss": 136.53224182128906}, "load_time_ms": 0.707, "num_steps_sampled": 828000, "grad_time_ms": 636.702, "update_time_ms": 2.387, "sample_time_ms": 30189.776}, "date": "2025-08-30_22-01-34", "hostname": "cda-server-4", "time_this_iter_s": 29.656646490097046, "episodes_total": 4140, "timestamp": 1756584094, "node_ip": "10.157.146.4", "done": false, "time_total_s": 21059.193363428116, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 691, "episode_reward_mean": -611.2193000029876, "training_iteration": 691, "timesteps_total": 829200, "policy_reward_mean": {}, "episode_reward_min": -693.5595119832211, "timesteps_since_restore": 829200, "num_metric_batches_dropped": 0, "time_since_restore": 21093.08497595787, "episode_reward_max": -472.861862858257, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 829200, "default": {"kl": 0.008388040587306023, "policy_loss": -0.11234702169895172, "vf_loss": 491.7650146484375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.94729083776474, "entropy": 8.777036666870117, "cur_lr": 4.999999873689376e-05, "total_loss": 491.6654052734375}, "load_time_ms": 0.709, "num_steps_sampled": 829200, "grad_time_ms": 647.053, "update_time_ms": 2.376, "sample_time_ms": 30420.095}, "date": "2025-08-30_22-02-08", "hostname": "cda-server-4", "time_this_iter_s": 33.89161252975464, "episodes_total": 4146, "timestamp": 1756584128, "node_ip": "10.157.146.4", "done": false, "time_total_s": 21093.08497595787, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 692, "episode_reward_mean": -612.2266592575413, "training_iteration": 692, "timesteps_total": 830400, "policy_reward_mean": {}, "episode_reward_min": -693.5595119832211, "timesteps_since_restore": 830400, "num_metric_batches_dropped": 0, "time_since_restore": 21123.671226739883, "episode_reward_max": -472.861862858257, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 830400, "default": {"kl": 0.008572359569370747, "policy_loss": -0.11569768935441971, "vf_loss": 328.0683898925781, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9751185178756714, "entropy": 9.311729431152344, "cur_lr": 4.999999873689376e-05, "total_loss": 327.9657287597656}, "load_time_ms": 0.718, "num_steps_sampled": 830400, "grad_time_ms": 627.139, "update_time_ms": 2.52, "sample_time_ms": 30468.651}, "date": "2025-08-30_22-02-38", "hostname": "cda-server-4", "time_this_iter_s": 30.58625078201294, "episodes_total": 4152, "timestamp": 1756584158, "node_ip": "10.157.146.4", "done": false, "time_total_s": 21123.671226739883, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 693, "episode_reward_mean": -614.0883845964336, "training_iteration": 693, "timesteps_total": 831600, "policy_reward_mean": {}, "episode_reward_min": -693.5595119832211, "timesteps_since_restore": 831600, "num_metric_batches_dropped": 0, "time_since_restore": 21153.70996427536, "episode_reward_max": -472.861862858257, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 831600, "default": {"kl": 0.010440428741276264, "policy_loss": -0.1371767371892929, "vf_loss": 297.45709228515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9583260416984558, "entropy": 9.076536178588867, "cur_lr": 4.999999873689376e-05, "total_loss": 297.3357849121094}, "load_time_ms": 0.723, "num_steps_sampled": 831600, "grad_time_ms": 608.929, "update_time_ms": 2.539, "sample_time_ms": 30352.367}, "date": "2025-08-30_22-03-08", "hostname": "cda-server-4", "time_this_iter_s": 30.038737535476685, "episodes_total": 4158, "timestamp": 1756584188, "node_ip": "10.157.146.4", "done": false, "time_total_s": 21153.70996427536, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 694, "episode_reward_mean": -615.2239779902247, "training_iteration": 694, "timesteps_total": 832800, "policy_reward_mean": {}, "episode_reward_min": -693.5595119832211, "timesteps_since_restore": 832800, "num_metric_batches_dropped": 0, "time_since_restore": 21187.20645737648, "episode_reward_max": -472.861862858257, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 832800, "default": {"kl": 0.009115679189562798, "policy_loss": -0.10640697181224823, "vf_loss": 1204.4615478515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8587049841880798, "entropy": 9.574135780334473, "cur_lr": 4.999999873689376e-05, "total_loss": 1204.369140625}, "load_time_ms": 0.707, "num_steps_sampled": 832800, "grad_time_ms": 596.928, "update_time_ms": 2.521, "sample_time_ms": 30324.848}, "date": "2025-08-30_22-03-42", "hostname": "cda-server-4", "time_this_iter_s": 33.496493101119995, "episodes_total": 4164, "timestamp": 1756584222, "node_ip": "10.157.146.4", "done": false, "time_total_s": 21187.20645737648, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 695, "episode_reward_mean": -615.0520073703556, "training_iteration": 695, "timesteps_total": 834000, "policy_reward_mean": {}, "episode_reward_min": -693.5595119832211, "timesteps_since_restore": 834000, "num_metric_batches_dropped": 0, "time_since_restore": 21218.125597953796, "episode_reward_max": -472.861862858257, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 834000, "default": {"kl": 0.007749637588858604, "policy_loss": -0.11370086669921875, "vf_loss": 507.66058349609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9383015036582947, "entropy": 9.009100914001465, "cur_lr": 4.999999873689376e-05, "total_loss": 507.55865478515625}, "load_time_ms": 0.686, "num_steps_sampled": 834000, "grad_time_ms": 615.043, "update_time_ms": 2.373, "sample_time_ms": 30630.38}, "date": "2025-08-30_22-04-13", "hostname": "cda-server-4", "time_this_iter_s": 30.919140577316284, "episodes_total": 4170, "timestamp": 1756584253, "node_ip": "10.157.146.4", "done": false, "time_total_s": 21218.125597953796, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 696, "episode_reward_mean": -616.514241745223, "training_iteration": 696, "timesteps_total": 835200, "policy_reward_mean": {}, "episode_reward_min": -693.5595119832211, "timesteps_since_restore": 835200, "num_metric_batches_dropped": 0, "time_since_restore": 21251.061582803726, "episode_reward_max": -472.861862858257, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 835200, "default": {"kl": 0.010723360814154148, "policy_loss": -0.1268998682498932, "vf_loss": 445.2445373535156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9356080293655396, "entropy": 8.856081008911133, "cur_lr": 4.999999873689376e-05, "total_loss": 445.1339416503906}, "load_time_ms": 0.691, "num_steps_sampled": 835200, "grad_time_ms": 633.478, "update_time_ms": 2.367, "sample_time_ms": 30859.338}, "date": "2025-08-30_22-04-46", "hostname": "cda-server-4", "time_this_iter_s": 32.93598484992981, "episodes_total": 4176, "timestamp": 1756584286, "node_ip": "10.157.146.4", "done": false, "time_total_s": 21251.061582803726, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 697, "episode_reward_mean": -617.0182127125776, "training_iteration": 697, "timesteps_total": 836400, "policy_reward_mean": {}, "episode_reward_min": -693.5595119832211, "timesteps_since_restore": 836400, "num_metric_batches_dropped": 0, "time_since_restore": 21281.7278380394, "episode_reward_max": -472.861862858257, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 836400, "default": {"kl": 0.010210197418928146, "policy_loss": -0.1323952078819275, "vf_loss": 411.9324951171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9490147829055786, "entropy": 8.691123008728027, "cur_lr": 4.999999873689376e-05, "total_loss": 411.8155822753906}, "load_time_ms": 0.694, "num_steps_sampled": 836400, "grad_time_ms": 658.626, "update_time_ms": 2.422, "sample_time_ms": 30549.575}, "date": "2025-08-30_22-05-16", "hostname": "cda-server-4", "time_this_iter_s": 30.666255235671997, "episodes_total": 4182, "timestamp": 1756584316, "node_ip": "10.157.146.4", "done": false, "time_total_s": 21281.7278380394, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 698, "episode_reward_mean": -615.04008307171, "training_iteration": 698, "timesteps_total": 837600, "policy_reward_mean": {}, "episode_reward_min": -670.1928521030159, "timesteps_since_restore": 837600, "num_metric_batches_dropped": 0, "time_since_restore": 21313.288629055023, "episode_reward_max": -472.861862858257, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 837600, "default": {"kl": 0.010913791134953499, "policy_loss": -0.12412641942501068, "vf_loss": 354.62017822265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9448069334030151, "entropy": 9.254240989685059, "cur_lr": 4.999999873689376e-05, "total_loss": 354.51263427734375}, "load_time_ms": 0.681, "num_steps_sampled": 837600, "grad_time_ms": 662.557, "update_time_ms": 2.462, "sample_time_ms": 30537.639}, "date": "2025-08-30_22-05-48", "hostname": "cda-server-4", "time_this_iter_s": 31.560791015625, "episodes_total": 4188, "timestamp": 1756584348, "node_ip": "10.157.146.4", "done": false, "time_total_s": 21313.288629055023, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 699, "episode_reward_mean": -616.8722781463284, "training_iteration": 699, "timesteps_total": 838800, "policy_reward_mean": {}, "episode_reward_min": -670.1928521030159, "timesteps_since_restore": 838800, "num_metric_batches_dropped": 0, "time_since_restore": 21343.962198972702, "episode_reward_max": -478.3225952691209, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 838800, "default": {"kl": 0.008662454783916473, "policy_loss": -0.123200923204422, "vf_loss": 252.809814453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9669463038444519, "entropy": 9.151077270507812, "cur_lr": 4.999999873689376e-05, "total_loss": 252.69976806640625}, "load_time_ms": 0.676, "num_steps_sampled": 838800, "grad_time_ms": 668.704, "update_time_ms": 2.38, "sample_time_ms": 30766.663}, "date": "2025-08-30_22-06-19", "hostname": "cda-server-4", "time_this_iter_s": 30.673569917678833, "episodes_total": 4194, "timestamp": 1756584379, "node_ip": "10.157.146.4", "done": false, "time_total_s": 21343.962198972702, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 700, "episode_reward_mean": -617.6508882330488, "training_iteration": 700, "timesteps_total": 840000, "policy_reward_mean": {}, "episode_reward_min": -670.1928521030159, "timesteps_since_restore": 840000, "num_metric_batches_dropped": 0, "time_since_restore": 21376.27998328209, "episode_reward_max": -478.3225952691209, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 840000, "default": {"kl": 0.009531335905194283, "policy_loss": -0.12071221321821213, "vf_loss": 85.56141662597656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9909236431121826, "entropy": 8.690062522888184, "cur_lr": 4.999999873689376e-05, "total_loss": 85.4551773071289}, "load_time_ms": 0.65, "num_steps_sampled": 840000, "grad_time_ms": 677.776, "update_time_ms": 2.341, "sample_time_ms": 31023.88}, "date": "2025-08-30_22-06-51", "hostname": "cda-server-4", "time_this_iter_s": 32.31778430938721, "episodes_total": 4200, "timestamp": 1756584411, "node_ip": "10.157.146.4", "done": false, "time_total_s": 21376.27998328209, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 701, "episode_reward_mean": -616.6363512802492, "training_iteration": 701, "timesteps_total": 841200, "policy_reward_mean": {}, "episode_reward_min": -670.1928521030159, "timesteps_since_restore": 841200, "num_metric_batches_dropped": 0, "time_since_restore": 21408.10641169548, "episode_reward_max": -468.4896691488617, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 841200, "default": {"kl": 0.013168929144740105, "policy_loss": -0.13621607422828674, "vf_loss": 863.468017578125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9405874609947205, "entropy": 8.54196548461914, "cur_lr": 4.999999873689376e-05, "total_loss": 863.351806640625}, "load_time_ms": 0.649, "num_steps_sampled": 841200, "grad_time_ms": 668.29, "update_time_ms": 2.388, "sample_time_ms": 30826.865}, "date": "2025-08-30_22-07-23", "hostname": "cda-server-4", "time_this_iter_s": 31.826428413391113, "episodes_total": 4206, "timestamp": 1756584443, "node_ip": "10.157.146.4", "done": false, "time_total_s": 21408.10641169548, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 702, "episode_reward_mean": -615.121783878896, "training_iteration": 702, "timesteps_total": 842400, "policy_reward_mean": {}, "episode_reward_min": -670.1928521030159, "timesteps_since_restore": 842400, "num_metric_batches_dropped": 0, "time_since_restore": 21439.07342195511, "episode_reward_max": -468.4896691488617, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 842400, "default": {"kl": 0.0127114187926054, "policy_loss": -0.13210970163345337, "vf_loss": 376.05523681640625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9632132053375244, "entropy": 9.08148193359375, "cur_lr": 4.999999873689376e-05, "total_loss": 375.94244384765625}, "load_time_ms": 0.653, "num_steps_sampled": 842400, "grad_time_ms": 688.601, "update_time_ms": 2.296, "sample_time_ms": 30844.7}, "date": "2025-08-30_22-07-54", "hostname": "cda-server-4", "time_this_iter_s": 30.967010259628296, "episodes_total": 4212, "timestamp": 1756584474, "node_ip": "10.157.146.4", "done": false, "time_total_s": 21439.07342195511, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 703, "episode_reward_mean": -617.0535346187498, "training_iteration": 703, "timesteps_total": 843600, "policy_reward_mean": {}, "episode_reward_min": -670.1928521030159, "timesteps_since_restore": 843600, "num_metric_batches_dropped": 0, "time_since_restore": 21470.73978328705, "episode_reward_max": -468.4896691488617, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 843600, "default": {"kl": 0.009664412587881088, "policy_loss": -0.1306748390197754, "vf_loss": 490.5570068359375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9501627683639526, "entropy": 9.211808204650879, "cur_lr": 4.999999873689376e-05, "total_loss": 490.4410705566406}, "load_time_ms": 0.662, "num_steps_sampled": 843600, "grad_time_ms": 702.519, "update_time_ms": 2.286, "sample_time_ms": 30993.552}, "date": "2025-08-30_22-08-25", "hostname": "cda-server-4", "time_this_iter_s": 31.666361331939697, "episodes_total": 4218, "timestamp": 1756584505, "node_ip": "10.157.146.4", "done": false, "time_total_s": 21470.73978328705, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 704, "episode_reward_mean": -616.545179193387, "training_iteration": 704, "timesteps_total": 844800, "policy_reward_mean": {}, "episode_reward_min": -670.1928521030159, "timesteps_since_restore": 844800, "num_metric_batches_dropped": 0, "time_since_restore": 21502.003882169724, "episode_reward_max": -468.4896691488617, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 844800, "default": {"kl": 0.009880196303129196, "policy_loss": -0.1322457492351532, "vf_loss": 172.65989685058594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9803940653800964, "entropy": 8.743607521057129, "cur_lr": 4.999999873689376e-05, "total_loss": 172.54266357421875}, "load_time_ms": 0.66, "num_steps_sampled": 844800, "grad_time_ms": 710.011, "update_time_ms": 2.282, "sample_time_ms": 30762.87}, "date": "2025-08-30_22-08-57", "hostname": "cda-server-4", "time_this_iter_s": 31.26409888267517, "episodes_total": 4224, "timestamp": 1756584537, "node_ip": "10.157.146.4", "done": false, "time_total_s": 21502.003882169724, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 705, "episode_reward_mean": -616.1821698290048, "training_iteration": 705, "timesteps_total": 846000, "policy_reward_mean": {}, "episode_reward_min": -670.1928521030159, "timesteps_since_restore": 846000, "num_metric_batches_dropped": 0, "time_since_restore": 21535.817991256714, "episode_reward_max": -468.4896691488617, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 846000, "default": {"kl": 0.010755483992397785, "policy_loss": -0.12595656514167786, "vf_loss": 300.21221923828125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9561090469360352, "entropy": 8.987163543701172, "cur_lr": 4.999999873689376e-05, "total_loss": 300.10260009765625}, "load_time_ms": 0.684, "num_steps_sampled": 846000, "grad_time_ms": 711.582, "update_time_ms": 2.199, "sample_time_ms": 31050.783}, "date": "2025-08-30_22-09-31", "hostname": "cda-server-4", "time_this_iter_s": 33.814109086990356, "episodes_total": 4230, "timestamp": 1756584571, "node_ip": "10.157.146.4", "done": false, "time_total_s": 21535.817991256714, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 706, "episode_reward_mean": -616.2635648532371, "training_iteration": 706, "timesteps_total": 847200, "policy_reward_mean": {}, "episode_reward_min": -670.1928521030159, "timesteps_since_restore": 847200, "num_metric_batches_dropped": 0, "time_since_restore": 21566.33461046219, "episode_reward_max": -468.4896691488617, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 847200, "default": {"kl": 0.009646758437156677, "policy_loss": -0.12333212792873383, "vf_loss": 289.75115966796875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9599952697753906, "entropy": 8.741557121276855, "cur_lr": 4.999999873689376e-05, "total_loss": 289.6424865722656}, "load_time_ms": 0.679, "num_steps_sampled": 847200, "grad_time_ms": 719.478, "update_time_ms": 2.21, "sample_time_ms": 30801.01}, "date": "2025-08-30_22-10-01", "hostname": "cda-server-4", "time_this_iter_s": 30.516619205474854, "episodes_total": 4236, "timestamp": 1756584601, "node_ip": "10.157.146.4", "done": false, "time_total_s": 21566.33461046219, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 707, "episode_reward_mean": -616.7265622680928, "training_iteration": 707, "timesteps_total": 848400, "policy_reward_mean": {}, "episode_reward_min": -670.1928521030159, "timesteps_since_restore": 848400, "num_metric_batches_dropped": 0, "time_since_restore": 21597.609090566635, "episode_reward_max": -468.4896691488617, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 848400, "default": {"kl": 0.011458019725978374, "policy_loss": -0.1391746699810028, "vf_loss": 132.70111083984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9888546466827393, "entropy": 8.901054382324219, "cur_lr": 4.999999873689376e-05, "total_loss": 132.57933044433594}, "load_time_ms": 0.668, "num_steps_sampled": 848400, "grad_time_ms": 721.872, "update_time_ms": 2.151, "sample_time_ms": 30859.582}, "date": "2025-08-30_22-10-32", "hostname": "cda-server-4", "time_this_iter_s": 31.27448010444641, "episodes_total": 4242, "timestamp": 1756584632, "node_ip": "10.157.146.4", "done": false, "time_total_s": 21597.609090566635, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 708, "episode_reward_mean": -616.8533063050181, "training_iteration": 708, "timesteps_total": 849600, "policy_reward_mean": {}, "episode_reward_min": -670.1928521030159, "timesteps_since_restore": 849600, "num_metric_batches_dropped": 0, "time_since_restore": 21627.241420269012, "episode_reward_max": -468.4896691488617, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 849600, "default": {"kl": 0.012161912396550179, "policy_loss": -0.14596205949783325, "vf_loss": 251.37583923339844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9730237126350403, "entropy": 8.648907661437988, "cur_lr": 4.999999873689376e-05, "total_loss": 251.24835205078125}, "load_time_ms": 0.654, "num_steps_sampled": 849600, "grad_time_ms": 724.413, "update_time_ms": 2.103, "sample_time_ms": 30664.219}, "date": "2025-08-30_22-11-02", "hostname": "cda-server-4", "time_this_iter_s": 29.63232970237732, "episodes_total": 4248, "timestamp": 1756584662, "node_ip": "10.157.146.4", "done": false, "time_total_s": 21627.241420269012, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 709, "episode_reward_mean": -614.9195373105173, "training_iteration": 709, "timesteps_total": 850800, "policy_reward_mean": {}, "episode_reward_min": -669.8865683900158, "timesteps_since_restore": 850800, "num_metric_batches_dropped": 0, "time_since_restore": 21659.471593141556, "episode_reward_max": -468.4896691488617, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 850800, "default": {"kl": 0.01075051724910736, "policy_loss": -0.12752927839756012, "vf_loss": 261.2982482910156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9850170612335205, "entropy": 8.653031349182129, "cur_lr": 4.999999873689376e-05, "total_loss": 261.18707275390625}, "load_time_ms": 0.662, "num_steps_sampled": 850800, "grad_time_ms": 722.803, "update_time_ms": 2.118, "sample_time_ms": 30821.51}, "date": "2025-08-30_22-11-34", "hostname": "cda-server-4", "time_this_iter_s": 32.230172872543335, "episodes_total": 4254, "timestamp": 1756584694, "node_ip": "10.157.146.4", "done": false, "time_total_s": 21659.471593141556, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 710, "episode_reward_mean": -615.0670610881164, "training_iteration": 710, "timesteps_total": 852000, "policy_reward_mean": {}, "episode_reward_min": -669.8865683900158, "timesteps_since_restore": 852000, "num_metric_batches_dropped": 0, "time_since_restore": 21690.95176911354, "episode_reward_max": -468.4896691488617, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 852000, "default": {"kl": 0.011547183617949486, "policy_loss": -0.13190919160842896, "vf_loss": 673.4758911132812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.939133882522583, "entropy": 8.514336585998535, "cur_lr": 4.999999873689376e-05, "total_loss": 673.3615112304688}, "load_time_ms": 0.654, "num_steps_sampled": 852000, "grad_time_ms": 721.951, "update_time_ms": 2.143, "sample_time_ms": 30738.547}, "date": "2025-08-30_22-12-06", "hostname": "cda-server-4", "time_this_iter_s": 31.480175971984863, "episodes_total": 4260, "timestamp": 1756584726, "node_ip": "10.157.146.4", "done": false, "time_total_s": 21690.95176911354, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 711, "episode_reward_mean": -616.0288916992462, "training_iteration": 711, "timesteps_total": 853200, "policy_reward_mean": {}, "episode_reward_min": -669.8865683900158, "timesteps_since_restore": 853200, "num_metric_batches_dropped": 0, "time_since_restore": 21723.4534137249, "episode_reward_max": -468.4896691488617, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 853200, "default": {"kl": 0.009393393062055111, "policy_loss": -0.143804132938385, "vf_loss": 321.95654296875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9671790599822998, "entropy": 9.268677711486816, "cur_lr": 4.999999873689376e-05, "total_loss": 321.8270263671875}, "load_time_ms": 0.648, "num_steps_sampled": 853200, "grad_time_ms": 715.073, "update_time_ms": 2.269, "sample_time_ms": 30812.83}, "date": "2025-08-30_22-12-38", "hostname": "cda-server-4", "time_this_iter_s": 32.50164461135864, "episodes_total": 4266, "timestamp": 1756584758, "node_ip": "10.157.146.4", "done": false, "time_total_s": 21723.4534137249, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 712, "episode_reward_mean": -614.0368606422478, "training_iteration": 712, "timesteps_total": 854400, "policy_reward_mean": {}, "episode_reward_min": -669.8865683900158, "timesteps_since_restore": 854400, "num_metric_batches_dropped": 0, "time_since_restore": 21752.27915906906, "episode_reward_max": -468.4896691488617, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 854400, "default": {"kl": 0.010541343130171299, "policy_loss": -0.11758671700954437, "vf_loss": 141.4408721923828, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9804894328117371, "entropy": 8.31449031829834, "cur_lr": 4.999999873689376e-05, "total_loss": 141.3393096923828}, "load_time_ms": 0.64, "num_steps_sampled": 854400, "grad_time_ms": 711.989, "update_time_ms": 2.262, "sample_time_ms": 30601.847}, "date": "2025-08-30_22-13-07", "hostname": "cda-server-4", "time_this_iter_s": 28.825745344161987, "episodes_total": 4272, "timestamp": 1756584787, "node_ip": "10.157.146.4", "done": false, "time_total_s": 21752.27915906906, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 713, "episode_reward_mean": -614.7271770853133, "training_iteration": 713, "timesteps_total": 855600, "policy_reward_mean": {}, "episode_reward_min": -671.9789303839086, "timesteps_since_restore": 855600, "num_metric_batches_dropped": 0, "time_since_restore": 21785.148908376694, "episode_reward_max": -468.4896691488617, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 855600, "default": {"kl": 0.009522904641926289, "policy_loss": -0.12796583771705627, "vf_loss": 586.0341186523438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9095735549926758, "entropy": 8.955026626586914, "cur_lr": 4.999999873689376e-05, "total_loss": 585.9205932617188}, "load_time_ms": 0.623, "num_steps_sampled": 855600, "grad_time_ms": 717.824, "update_time_ms": 2.258, "sample_time_ms": 30716.385}, "date": "2025-08-30_22-13-40", "hostname": "cda-server-4", "time_this_iter_s": 32.869749307632446, "episodes_total": 4278, "timestamp": 1756584820, "node_ip": "10.157.146.4", "done": false, "time_total_s": 21785.148908376694, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 714, "episode_reward_mean": -614.5584559841889, "training_iteration": 714, "timesteps_total": 856800, "policy_reward_mean": {}, "episode_reward_min": -671.9789303839086, "timesteps_since_restore": 856800, "num_metric_batches_dropped": 0, "time_since_restore": 21813.613123893738, "episode_reward_max": -468.4896691488617, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 856800, "default": {"kl": 0.008747434243559837, "policy_loss": -0.11986055970191956, "vf_loss": 376.1387634277344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9489567279815674, "entropy": 9.316475868225098, "cur_lr": 4.999999873689376e-05, "total_loss": 376.03216552734375}, "load_time_ms": 0.622, "num_steps_sampled": 856800, "grad_time_ms": 724.652, "update_time_ms": 2.262, "sample_time_ms": 30429.567}, "date": "2025-08-30_22-14-08", "hostname": "cda-server-4", "time_this_iter_s": 28.464215517044067, "episodes_total": 4284, "timestamp": 1756584848, "node_ip": "10.157.146.4", "done": false, "time_total_s": 21813.613123893738, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 715, "episode_reward_mean": -614.2375540520661, "training_iteration": 715, "timesteps_total": 858000, "policy_reward_mean": {}, "episode_reward_min": -671.9789303839086, "timesteps_since_restore": 858000, "num_metric_batches_dropped": 0, "time_since_restore": 21844.76351571083, "episode_reward_max": -468.4896691488617, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 858000, "default": {"kl": 0.010881522670388222, "policy_loss": -0.13032808899879456, "vf_loss": 378.4139709472656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9581272602081299, "entropy": 8.706050872802734, "cur_lr": 4.999999873689376e-05, "total_loss": 378.3001708984375}, "load_time_ms": 0.585, "num_steps_sampled": 858000, "grad_time_ms": 728.031, "update_time_ms": 2.239, "sample_time_ms": 30159.959}, "date": "2025-08-30_22-14-40", "hostname": "cda-server-4", "time_this_iter_s": 31.150391817092896, "episodes_total": 4290, "timestamp": 1756584880, "node_ip": "10.157.146.4", "done": false, "time_total_s": 21844.76351571083, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 716, "episode_reward_mean": -613.4247632846063, "training_iteration": 716, "timesteps_total": 859200, "policy_reward_mean": {}, "episode_reward_min": -671.9789303839086, "timesteps_since_restore": 859200, "num_metric_batches_dropped": 0, "time_since_restore": 21873.464893341064, "episode_reward_max": -468.4896691488617, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 859200, "default": {"kl": 0.010669191367924213, "policy_loss": -0.10747618973255157, "vf_loss": 56.21430969238281, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9901902079582214, "entropy": 7.957954406738281, "cur_lr": 4.999999873689376e-05, "total_loss": 56.12303924560547}, "load_time_ms": 0.586, "num_steps_sampled": 859200, "grad_time_ms": 726.615, "update_time_ms": 2.287, "sample_time_ms": 29979.747}, "date": "2025-08-30_22-15-08", "hostname": "cda-server-4", "time_this_iter_s": 28.701377630233765, "episodes_total": 4296, "timestamp": 1756584908, "node_ip": "10.157.146.4", "done": false, "time_total_s": 21873.464893341064, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 717, "episode_reward_mean": -612.7419269191062, "training_iteration": 717, "timesteps_total": 860400, "policy_reward_mean": {}, "episode_reward_min": -671.9789303839086, "timesteps_since_restore": 860400, "num_metric_batches_dropped": 0, "time_since_restore": 21904.576246023178, "episode_reward_max": -468.4896691488617, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 860400, "default": {"kl": 0.008952447213232517, "policy_loss": -0.1256554126739502, "vf_loss": 237.7881622314453, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9670903086662292, "entropy": 9.049275398254395, "cur_lr": 4.999999873689376e-05, "total_loss": 237.67613220214844}, "load_time_ms": 0.588, "num_steps_sampled": 860400, "grad_time_ms": 727.789, "update_time_ms": 2.314, "sample_time_ms": 29962.146}, "date": "2025-08-30_22-15-39", "hostname": "cda-server-4", "time_this_iter_s": 31.111352682113647, "episodes_total": 4302, "timestamp": 1756584939, "node_ip": "10.157.146.4", "done": false, "time_total_s": 21904.576246023178, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 718, "episode_reward_mean": -615.7136922690584, "training_iteration": 718, "timesteps_total": 861600, "policy_reward_mean": {}, "episode_reward_min": -671.9789303839086, "timesteps_since_restore": 861600, "num_metric_batches_dropped": 0, "time_since_restore": 21936.728921175003, "episode_reward_max": -490.94650069315594, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 861600, "default": {"kl": 0.010544054210186005, "policy_loss": -0.12835627794265747, "vf_loss": 231.2452850341797, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.981339156627655, "entropy": 8.89731216430664, "cur_lr": 4.999999873689376e-05, "total_loss": 231.1329803466797}, "load_time_ms": 0.579, "num_steps_sampled": 861600, "grad_time_ms": 725.701, "update_time_ms": 2.316, "sample_time_ms": 30216.302}, "date": "2025-08-30_22-16-12", "hostname": "cda-server-4", "time_this_iter_s": 32.15267515182495, "episodes_total": 4308, "timestamp": 1756584972, "node_ip": "10.157.146.4", "done": false, "time_total_s": 21936.728921175003, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 719, "episode_reward_mean": -616.3459543174828, "training_iteration": 719, "timesteps_total": 862800, "policy_reward_mean": {}, "episode_reward_min": -671.9789303839086, "timesteps_since_restore": 862800, "num_metric_batches_dropped": 0, "time_since_restore": 21969.29177212715, "episode_reward_max": -490.94650069315594, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 862800, "default": {"kl": 0.010763585567474365, "policy_loss": -0.13354724645614624, "vf_loss": 431.6907653808594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9522111415863037, "entropy": 8.906241416931152, "cur_lr": 4.999999873689376e-05, "total_loss": 431.5735778808594}, "load_time_ms": 0.575, "num_steps_sampled": 862800, "grad_time_ms": 716.967, "update_time_ms": 2.378, "sample_time_ms": 30258.142}, "date": "2025-08-30_22-16-44", "hostname": "cda-server-4", "time_this_iter_s": 32.56285095214844, "episodes_total": 4314, "timestamp": 1756585004, "node_ip": "10.157.146.4", "done": false, "time_total_s": 21969.29177212715, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 720, "episode_reward_mean": -616.7917314556038, "training_iteration": 720, "timesteps_total": 864000, "policy_reward_mean": {}, "episode_reward_min": -671.9789303839086, "timesteps_since_restore": 864000, "num_metric_batches_dropped": 0, "time_since_restore": 21999.30380630493, "episode_reward_max": -490.94650069315594, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 864000, "default": {"kl": 0.010471820831298828, "policy_loss": -0.12565763294696808, "vf_loss": 160.7554168701172, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9864177703857422, "entropy": 9.07017993927002, "cur_lr": 4.999999873689376e-05, "total_loss": 160.6456756591797}, "load_time_ms": 0.611, "num_steps_sampled": 864000, "grad_time_ms": 704.967, "update_time_ms": 2.342, "sample_time_ms": 30123.353}, "date": "2025-08-30_22-17-14", "hostname": "cda-server-4", "time_this_iter_s": 30.01203417778015, "episodes_total": 4320, "timestamp": 1756585034, "node_ip": "10.157.146.4", "done": false, "time_total_s": 21999.30380630493, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 721, "episode_reward_mean": -617.2655139876792, "training_iteration": 721, "timesteps_total": 865200, "policy_reward_mean": {}, "episode_reward_min": -671.9789303839086, "timesteps_since_restore": 865200, "num_metric_batches_dropped": 0, "time_since_restore": 22029.249616622925, "episode_reward_max": -490.94650069315594, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 865200, "default": {"kl": 0.008181550540030003, "policy_loss": -0.13815104961395264, "vf_loss": 325.9002685546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9495363235473633, "entropy": 8.820087432861328, "cur_lr": 4.999999873689376e-05, "total_loss": 325.7745361328125}, "load_time_ms": 0.615, "num_steps_sampled": 865200, "grad_time_ms": 705.457, "update_time_ms": 2.235, "sample_time_ms": 29867.278}, "date": "2025-08-30_22-17-44", "hostname": "cda-server-4", "time_this_iter_s": 29.945810317993164, "episodes_total": 4326, "timestamp": 1756585064, "node_ip": "10.157.146.4", "done": false, "time_total_s": 22029.249616622925, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 722, "episode_reward_mean": -617.9293829695679, "training_iteration": 722, "timesteps_total": 866400, "policy_reward_mean": {}, "episode_reward_min": -671.9789303839086, "timesteps_since_restore": 866400, "num_metric_batches_dropped": 0, "time_since_restore": 22058.64703130722, "episode_reward_max": -490.94650069315594, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 866400, "default": {"kl": 0.009725641459226608, "policy_loss": -0.1188986599445343, "vf_loss": 713.5615844726562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9196445941925049, "entropy": 9.459600448608398, "cur_lr": 4.999999873689376e-05, "total_loss": 713.4574584960938}, "load_time_ms": 0.609, "num_steps_sampled": 866400, "grad_time_ms": 701.992, "update_time_ms": 2.239, "sample_time_ms": 29927.889}, "date": "2025-08-30_22-18-14", "hostname": "cda-server-4", "time_this_iter_s": 29.397414684295654, "episodes_total": 4332, "timestamp": 1756585094, "node_ip": "10.157.146.4", "done": false, "time_total_s": 22058.64703130722, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 723, "episode_reward_mean": -617.7902894832389, "training_iteration": 723, "timesteps_total": 867600, "policy_reward_mean": {}, "episode_reward_min": -671.9789303839086, "timesteps_since_restore": 867600, "num_metric_batches_dropped": 0, "time_since_restore": 22089.891060352325, "episode_reward_max": -490.94650069315594, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 867600, "default": {"kl": 0.01026875153183937, "policy_loss": -0.11985894292593002, "vf_loss": 253.86209106445312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9584946036338806, "entropy": 8.609817504882812, "cur_lr": 4.999999873689376e-05, "total_loss": 253.7578125}, "load_time_ms": 0.608, "num_steps_sampled": 867600, "grad_time_ms": 682.084, "update_time_ms": 2.188, "sample_time_ms": 29785.198}, "date": "2025-08-30_22-18-45", "hostname": "cda-server-4", "time_this_iter_s": 31.24402904510498, "episodes_total": 4338, "timestamp": 1756585125, "node_ip": "10.157.146.4", "done": false, "time_total_s": 22089.891060352325, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 724, "episode_reward_mean": -616.9814181257502, "training_iteration": 724, "timesteps_total": 868800, "policy_reward_mean": {}, "episode_reward_min": -671.9789303839086, "timesteps_since_restore": 868800, "num_metric_batches_dropped": 0, "time_since_restore": 22122.789601802826, "episode_reward_max": -490.94650069315594, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 868800, "default": {"kl": 0.01141296699643135, "policy_loss": -0.13573810458183289, "vf_loss": 344.05859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9528704881668091, "entropy": 9.147181510925293, "cur_lr": 4.999999873689376e-05, "total_loss": 343.9401550292969}, "load_time_ms": 0.618, "num_steps_sampled": 868800, "grad_time_ms": 669.095, "update_time_ms": 2.189, "sample_time_ms": 30241.542}, "date": "2025-08-30_22-19-18", "hostname": "cda-server-4", "time_this_iter_s": 32.89854145050049, "episodes_total": 4344, "timestamp": 1756585158, "node_ip": "10.157.146.4", "done": false, "time_total_s": 22122.789601802826, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 725, "episode_reward_mean": -617.8819785784347, "training_iteration": 725, "timesteps_total": 870000, "policy_reward_mean": {}, "episode_reward_min": -671.9789303839086, "timesteps_since_restore": 870000, "num_metric_batches_dropped": 0, "time_since_restore": 22155.584454774857, "episode_reward_max": -490.94650069315594, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 870000, "default": {"kl": 0.009277921169996262, "policy_loss": -0.11938472837209702, "vf_loss": 429.7360534667969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9433966875076294, "entropy": 8.985857963562012, "cur_lr": 4.999999873689376e-05, "total_loss": 429.6307373046875}, "load_time_ms": 0.63, "num_steps_sampled": 870000, "grad_time_ms": 652.265, "update_time_ms": 2.226, "sample_time_ms": 30422.697}, "date": "2025-08-30_22-19-51", "hostname": "cda-server-4", "time_this_iter_s": 32.79485297203064, "episodes_total": 4350, "timestamp": 1756585191, "node_ip": "10.157.146.4", "done": false, "time_total_s": 22155.584454774857, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 726, "episode_reward_mean": -616.3444996780671, "training_iteration": 726, "timesteps_total": 871200, "policy_reward_mean": {}, "episode_reward_min": -671.9789303839086, "timesteps_since_restore": 871200, "num_metric_batches_dropped": 0, "time_since_restore": 22185.90354013443, "episode_reward_max": -490.94650069315594, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 871200, "default": {"kl": 0.010653833858668804, "policy_loss": -0.12149104475975037, "vf_loss": 547.570556640625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9277176260948181, "entropy": 8.82553482055664, "cur_lr": 4.999999873689376e-05, "total_loss": 547.4652099609375}, "load_time_ms": 0.632, "num_steps_sampled": 871200, "grad_time_ms": 649.045, "update_time_ms": 2.214, "sample_time_ms": 30587.68}, "date": "2025-08-30_22-20-21", "hostname": "cda-server-4", "time_this_iter_s": 30.319085359573364, "episodes_total": 4356, "timestamp": 1756585221, "node_ip": "10.157.146.4", "done": false, "time_total_s": 22185.90354013443, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 727, "episode_reward_mean": -616.1829149523296, "training_iteration": 727, "timesteps_total": 872400, "policy_reward_mean": {}, "episode_reward_min": -671.9789303839086, "timesteps_since_restore": 872400, "num_metric_batches_dropped": 0, "time_since_restore": 22213.219984292984, "episode_reward_max": -490.94650069315594, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 872400, "default": {"kl": 0.009340579621493816, "policy_loss": -0.12338953465223312, "vf_loss": 1423.576904296875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.7881511449813843, "entropy": 9.387072563171387, "cur_lr": 4.999999873689376e-05, "total_loss": 1423.467529296875}, "load_time_ms": 0.67, "num_steps_sampled": 872400, "grad_time_ms": 645.635, "update_time_ms": 2.263, "sample_time_ms": 30211.446}, "date": "2025-08-30_22-20-48", "hostname": "cda-server-4", "time_this_iter_s": 27.316444158554077, "episodes_total": 4362, "timestamp": 1756585248, "node_ip": "10.157.146.4", "done": false, "time_total_s": 22213.219984292984, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 728, "episode_reward_mean": -616.0135160708638, "training_iteration": 728, "timesteps_total": 873600, "policy_reward_mean": {}, "episode_reward_min": -674.0226627793099, "timesteps_since_restore": 873600, "num_metric_batches_dropped": 0, "time_since_restore": 22244.654147863388, "episode_reward_max": -490.94650069315594, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 873600, "default": {"kl": 0.01219414547085762, "policy_loss": -0.1354072540998459, "vf_loss": 610.7743530273438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.933325469493866, "entropy": 8.417376518249512, "cur_lr": 4.999999873689376e-05, "total_loss": 610.657470703125}, "load_time_ms": 0.679, "num_steps_sampled": 873600, "grad_time_ms": 645.369, "update_time_ms": 2.304, "sample_time_ms": 30139.83}, "date": "2025-08-30_22-21-20", "hostname": "cda-server-4", "time_this_iter_s": 31.434163570404053, "episodes_total": 4368, "timestamp": 1756585280, "node_ip": "10.157.146.4", "done": false, "time_total_s": 22244.654147863388, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 729, "episode_reward_mean": -617.3064178301679, "training_iteration": 729, "timesteps_total": 874800, "policy_reward_mean": {}, "episode_reward_min": -674.0226627793099, "timesteps_since_restore": 874800, "num_metric_batches_dropped": 0, "time_since_restore": 22278.21233868599, "episode_reward_max": -490.94650069315594, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 874800, "default": {"kl": 0.01022027712315321, "policy_loss": -0.13656675815582275, "vf_loss": 305.0074157714844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9647440314292908, "entropy": 9.279261589050293, "cur_lr": 4.999999873689376e-05, "total_loss": 304.8863525390625}, "load_time_ms": 0.679, "num_steps_sampled": 874800, "grad_time_ms": 656.654, "update_time_ms": 2.22, "sample_time_ms": 30228.197}, "date": "2025-08-30_22-21-53", "hostname": "cda-server-4", "time_this_iter_s": 33.55819082260132, "episodes_total": 4374, "timestamp": 1756585313, "node_ip": "10.157.146.4", "done": false, "time_total_s": 22278.21233868599, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 730, "episode_reward_mean": -618.2010716573357, "training_iteration": 730, "timesteps_total": 876000, "policy_reward_mean": {}, "episode_reward_min": -674.0226627793099, "timesteps_since_restore": 876000, "num_metric_batches_dropped": 0, "time_since_restore": 22312.935595989227, "episode_reward_max": -490.94650069315594, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 876000, "default": {"kl": 0.01146087609231472, "policy_loss": -0.1469741016626358, "vf_loss": 683.7271118164062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9415740966796875, "entropy": 8.993813514709473, "cur_lr": 4.999999873689376e-05, "total_loss": 683.5975341796875}, "load_time_ms": 0.647, "num_steps_sampled": 876000, "grad_time_ms": 668.984, "update_time_ms": 2.232, "sample_time_ms": 30687.06}, "date": "2025-08-30_22-22-28", "hostname": "cda-server-4", "time_this_iter_s": 34.723257303237915, "episodes_total": 4380, "timestamp": 1756585348, "node_ip": "10.157.146.4", "done": false, "time_total_s": 22312.935595989227, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 731, "episode_reward_mean": -619.0665567812082, "training_iteration": 731, "timesteps_total": 877200, "policy_reward_mean": {}, "episode_reward_min": -683.3066257404824, "timesteps_since_restore": 877200, "num_metric_batches_dropped": 0, "time_since_restore": 22344.685007333755, "episode_reward_max": -489.6546994733901, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 877200, "default": {"kl": 0.012564578093588352, "policy_loss": -0.15142494440078735, "vf_loss": 430.5729064941406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9549664258956909, "entropy": 8.561031341552734, "cur_lr": 4.999999873689376e-05, "total_loss": 430.4405517578125}, "load_time_ms": 0.648, "num_steps_sampled": 877200, "grad_time_ms": 655.226, "update_time_ms": 2.17, "sample_time_ms": 30881.269}, "date": "2025-08-30_22-23-00", "hostname": "cda-server-4", "time_this_iter_s": 31.7494113445282, "episodes_total": 4386, "timestamp": 1756585380, "node_ip": "10.157.146.4", "done": false, "time_total_s": 22344.685007333755, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 732, "episode_reward_mean": -618.8689670831053, "training_iteration": 732, "timesteps_total": 878400, "policy_reward_mean": {}, "episode_reward_min": -683.3066257404824, "timesteps_since_restore": 878400, "num_metric_batches_dropped": 0, "time_since_restore": 22377.144221782684, "episode_reward_max": -489.6546994733901, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 878400, "default": {"kl": 0.009927157312631607, "policy_loss": -0.12471042573451996, "vf_loss": 318.8612976074219, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9622856974601746, "entropy": 8.693923950195312, "cur_lr": 4.999999873689376e-05, "total_loss": 318.75164794921875}, "load_time_ms": 0.648, "num_steps_sampled": 878400, "grad_time_ms": 636.191, "update_time_ms": 2.125, "sample_time_ms": 31206.541}, "date": "2025-08-30_22-23-32", "hostname": "cda-server-4", "time_this_iter_s": 32.45921444892883, "episodes_total": 4392, "timestamp": 1756585412, "node_ip": "10.157.146.4", "done": false, "time_total_s": 22377.144221782684, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 733, "episode_reward_mean": -618.4090467445665, "training_iteration": 733, "timesteps_total": 879600, "policy_reward_mean": {}, "episode_reward_min": -683.3066257404824, "timesteps_since_restore": 879600, "num_metric_batches_dropped": 0, "time_since_restore": 22406.73792052269, "episode_reward_max": -489.6546994733901, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 879600, "default": {"kl": 0.009966540150344372, "policy_loss": -0.12184759974479675, "vf_loss": 509.41754150390625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.955018162727356, "entropy": 8.295307159423828, "cur_lr": 4.999999873689376e-05, "total_loss": 509.3108825683594}, "load_time_ms": 0.646, "num_steps_sampled": 879600, "grad_time_ms": 626.259, "update_time_ms": 2.17, "sample_time_ms": 31051.466}, "date": "2025-08-30_22-24-02", "hostname": "cda-server-4", "time_this_iter_s": 29.593698740005493, "episodes_total": 4398, "timestamp": 1756585442, "node_ip": "10.157.146.4", "done": false, "time_total_s": 22406.73792052269, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 734, "episode_reward_mean": -618.5648496441418, "training_iteration": 734, "timesteps_total": 880800, "policy_reward_mean": {}, "episode_reward_min": -683.3066257404824, "timesteps_since_restore": 880800, "num_metric_batches_dropped": 0, "time_since_restore": 22441.20833659172, "episode_reward_max": -489.6546994733901, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 880800, "default": {"kl": 0.009845467284321785, "policy_loss": -0.1382514089345932, "vf_loss": 568.6348876953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9545869827270508, "entropy": 9.087925910949707, "cur_lr": 4.999999873689376e-05, "total_loss": 568.5115966796875}, "load_time_ms": 0.637, "num_steps_sampled": 880800, "grad_time_ms": 617.552, "update_time_ms": 2.228, "sample_time_ms": 31217.346}, "date": "2025-08-30_22-24-36", "hostname": "cda-server-4", "time_this_iter_s": 34.47041606903076, "episodes_total": 4404, "timestamp": 1756585476, "node_ip": "10.157.146.4", "done": false, "time_total_s": 22441.20833659172, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 735, "episode_reward_mean": -619.0023962377286, "training_iteration": 735, "timesteps_total": 882000, "policy_reward_mean": {}, "episode_reward_min": -683.3066257404824, "timesteps_since_restore": 882000, "num_metric_batches_dropped": 0, "time_since_restore": 22472.22368645668, "episode_reward_max": -489.6546994733901, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 882000, "default": {"kl": 0.011010034941136837, "policy_loss": -0.14012277126312256, "vf_loss": 924.7021484375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9514504671096802, "entropy": 8.877350807189941, "cur_lr": 4.999999873689376e-05, "total_loss": 924.5786743164062}, "load_time_ms": 0.635, "num_steps_sampled": 882000, "grad_time_ms": 630.812, "update_time_ms": 2.257, "sample_time_ms": 31026.144}, "date": "2025-08-30_22-25-07", "hostname": "cda-server-4", "time_this_iter_s": 31.015349864959717, "episodes_total": 4410, "timestamp": 1756585507, "node_ip": "10.157.146.4", "done": false, "time_total_s": 22472.22368645668, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 736, "episode_reward_mean": -618.1020604259586, "training_iteration": 736, "timesteps_total": 883200, "policy_reward_mean": {}, "episode_reward_min": -683.3066257404824, "timesteps_since_restore": 883200, "num_metric_batches_dropped": 0, "time_since_restore": 22505.227257728577, "episode_reward_max": -489.6546994733901, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 883200, "default": {"kl": 0.010876609943807125, "policy_loss": -0.1394299417734146, "vf_loss": 395.1981201171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9470131993293762, "entropy": 8.261981964111328, "cur_lr": 4.999999873689376e-05, "total_loss": 395.0751953125}, "load_time_ms": 0.635, "num_steps_sampled": 883200, "grad_time_ms": 619.398, "update_time_ms": 2.246, "sample_time_ms": 31306.031}, "date": "2025-08-30_22-25-40", "hostname": "cda-server-4", "time_this_iter_s": 33.00357127189636, "episodes_total": 4416, "timestamp": 1756585540, "node_ip": "10.157.146.4", "done": false, "time_total_s": 22505.227257728577, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 737, "episode_reward_mean": -618.345080490053, "training_iteration": 737, "timesteps_total": 884400, "policy_reward_mean": {}, "episode_reward_min": -683.3066257404824, "timesteps_since_restore": 884400, "num_metric_batches_dropped": 0, "time_since_restore": 22533.34880208969, "episode_reward_max": -489.6546994733901, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 884400, "default": {"kl": 0.010840477421879768, "policy_loss": -0.12443608790636063, "vf_loss": 116.71939086914062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9818263649940491, "entropy": 8.725071907043457, "cur_lr": 4.999999873689376e-05, "total_loss": 116.61141204833984}, "load_time_ms": 0.608, "num_steps_sampled": 884400, "grad_time_ms": 618.264, "update_time_ms": 2.218, "sample_time_ms": 31387.836}, "date": "2025-08-30_22-26-09", "hostname": "cda-server-4", "time_this_iter_s": 28.121544361114502, "episodes_total": 4422, "timestamp": 1756585569, "node_ip": "10.157.146.4", "done": false, "time_total_s": 22533.34880208969, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 738, "episode_reward_mean": -618.2949917204381, "training_iteration": 738, "timesteps_total": 885600, "policy_reward_mean": {}, "episode_reward_min": -683.3066257404824, "timesteps_since_restore": 885600, "num_metric_batches_dropped": 0, "time_since_restore": 22564.22314786911, "episode_reward_max": -489.6546994733901, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 885600, "default": {"kl": 0.009527033194899559, "policy_loss": -0.11087407171726227, "vf_loss": 238.8505859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9760189056396484, "entropy": 9.014849662780762, "cur_lr": 4.999999873689376e-05, "total_loss": 238.75418090820312}, "load_time_ms": 0.632, "num_steps_sampled": 885600, "grad_time_ms": 628.65, "update_time_ms": 2.173, "sample_time_ms": 31321.428}, "date": "2025-08-30_22-26-39", "hostname": "cda-server-4", "time_this_iter_s": 30.874345779418945, "episodes_total": 4428, "timestamp": 1756585599, "node_ip": "10.157.146.4", "done": false, "time_total_s": 22564.22314786911, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 739, "episode_reward_mean": -618.9175193840541, "training_iteration": 739, "timesteps_total": 886800, "policy_reward_mean": {}, "episode_reward_min": -683.3066257404824, "timesteps_since_restore": 886800, "num_metric_batches_dropped": 0, "time_since_restore": 22593.851574659348, "episode_reward_max": -489.6546994733901, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 886800, "default": {"kl": 0.008958094753324986, "policy_loss": -0.1321202665567398, "vf_loss": 233.12538146972656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9828467965126038, "entropy": 8.668445587158203, "cur_lr": 4.999999873689376e-05, "total_loss": 233.00686645507812}, "load_time_ms": 0.635, "num_steps_sampled": 886800, "grad_time_ms": 627.013, "update_time_ms": 2.286, "sample_time_ms": 30929.975}, "date": "2025-08-30_22-27-09", "hostname": "cda-server-4", "time_this_iter_s": 29.628426790237427, "episodes_total": 4434, "timestamp": 1756585629, "node_ip": "10.157.146.4", "done": false, "time_total_s": 22593.851574659348, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 740, "episode_reward_mean": -618.0922398854235, "training_iteration": 740, "timesteps_total": 888000, "policy_reward_mean": {}, "episode_reward_min": -683.3066257404824, "timesteps_since_restore": 888000, "num_metric_batches_dropped": 0, "time_since_restore": 22623.924858808517, "episode_reward_max": -489.6546994733901, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 888000, "default": {"kl": 0.011248103342950344, "policy_loss": -0.12025218456983566, "vf_loss": 540.9624633789062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9506029486656189, "entropy": 8.92508316040039, "cur_lr": 4.999999873689376e-05, "total_loss": 540.8593139648438}, "load_time_ms": 0.631, "num_steps_sampled": 888000, "grad_time_ms": 629.031, "update_time_ms": 2.275, "sample_time_ms": 30462.913}, "date": "2025-08-30_22-27-39", "hostname": "cda-server-4", "time_this_iter_s": 30.073284149169922, "episodes_total": 4440, "timestamp": 1756585659, "node_ip": "10.157.146.4", "done": false, "time_total_s": 22623.924858808517, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 741, "episode_reward_mean": -618.4657795951406, "training_iteration": 741, "timesteps_total": 889200, "policy_reward_mean": {}, "episode_reward_min": -683.3066257404824, "timesteps_since_restore": 889200, "num_metric_batches_dropped": 0, "time_since_restore": 22653.45337343216, "episode_reward_max": -489.6546994733901, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 889200, "default": {"kl": 0.011798497289419174, "policy_loss": -0.1385287046432495, "vf_loss": 174.3125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9827414751052856, "entropy": 8.678010940551758, "cur_lr": 4.999999873689376e-05, "total_loss": 174.19189453125}, "load_time_ms": 0.63, "num_steps_sampled": 889200, "grad_time_ms": 648.228, "update_time_ms": 2.286, "sample_time_ms": 30221.716}, "date": "2025-08-30_22-28-09", "hostname": "cda-server-4", "time_this_iter_s": 29.528514623641968, "episodes_total": 4446, "timestamp": 1756585689, "node_ip": "10.157.146.4", "done": false, "time_total_s": 22653.45337343216, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 742, "episode_reward_mean": -620.8214242462128, "training_iteration": 742, "timesteps_total": 890400, "policy_reward_mean": {}, "episode_reward_min": -683.3066257404824, "timesteps_since_restore": 890400, "num_metric_batches_dropped": 0, "time_since_restore": 22685.610932826996, "episode_reward_max": -489.6546994733901, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 890400, "default": {"kl": 0.012938205152750015, "policy_loss": -0.150111585855484, "vf_loss": 2358.6591796875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8222811222076416, "entropy": 8.822604179382324, "cur_lr": 4.999999873689376e-05, "total_loss": 2358.529052734375}, "load_time_ms": 0.63, "num_steps_sampled": 890400, "grad_time_ms": 671.089, "update_time_ms": 2.34, "sample_time_ms": 30168.654}, "date": "2025-08-30_22-28-41", "hostname": "cda-server-4", "time_this_iter_s": 32.157559394836426, "episodes_total": 4452, "timestamp": 1756585721, "node_ip": "10.157.146.4", "done": false, "time_total_s": 22685.610932826996, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 743, "episode_reward_mean": -619.9172887940789, "training_iteration": 743, "timesteps_total": 891600, "policy_reward_mean": {}, "episode_reward_min": -683.3066257404824, "timesteps_since_restore": 891600, "num_metric_batches_dropped": 0, "time_since_restore": 22716.364256858826, "episode_reward_max": -489.6546994733901, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 891600, "default": {"kl": 0.011504643596708775, "policy_loss": -0.13418322801589966, "vf_loss": 615.1690063476562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9400284886360168, "entropy": 8.985515594482422, "cur_lr": 4.999999873689376e-05, "total_loss": 615.0523071289062}, "load_time_ms": 0.633, "num_steps_sampled": 891600, "grad_time_ms": 693.536, "update_time_ms": 2.334, "sample_time_ms": 30262.157}, "date": "2025-08-30_22-29-12", "hostname": "cda-server-4", "time_this_iter_s": 30.753324031829834, "episodes_total": 4458, "timestamp": 1756585752, "node_ip": "10.157.146.4", "done": false, "time_total_s": 22716.364256858826, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 744, "episode_reward_mean": -620.2616947803718, "training_iteration": 744, "timesteps_total": 892800, "policy_reward_mean": {}, "episode_reward_min": -683.3066257404824, "timesteps_since_restore": 892800, "num_metric_batches_dropped": 0, "time_since_restore": 22746.315811157227, "episode_reward_max": -489.6546994733901, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 892800, "default": {"kl": 0.010871491394937038, "policy_loss": -0.14045003056526184, "vf_loss": 822.1574096679688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8729375004768372, "entropy": 8.704907417297363, "cur_lr": 4.999999873689376e-05, "total_loss": 822.033447265625}, "load_time_ms": 0.638, "num_steps_sampled": 892800, "grad_time_ms": 714.596, "update_time_ms": 2.284, "sample_time_ms": 29789.237}, "date": "2025-08-30_22-29-42", "hostname": "cda-server-4", "time_this_iter_s": 29.95155429840088, "episodes_total": 4464, "timestamp": 1756585782, "node_ip": "10.157.146.4", "done": false, "time_total_s": 22746.315811157227, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 745, "episode_reward_mean": -619.1548901045817, "training_iteration": 745, "timesteps_total": 894000, "policy_reward_mean": {}, "episode_reward_min": -683.3066257404824, "timesteps_since_restore": 894000, "num_metric_batches_dropped": 0, "time_since_restore": 22778.883927345276, "episode_reward_max": -489.6546994733901, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 894000, "default": {"kl": 0.008941552601754665, "policy_loss": -0.13175766170024872, "vf_loss": 342.4310302734375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9622864127159119, "entropy": 8.513937950134277, "cur_lr": 4.999999873689376e-05, "total_loss": 342.3128356933594}, "load_time_ms": 0.629, "num_steps_sampled": 894000, "grad_time_ms": 720.844, "update_time_ms": 2.232, "sample_time_ms": 29938.323}, "date": "2025-08-30_22-30-14", "hostname": "cda-server-4", "time_this_iter_s": 32.568116188049316, "episodes_total": 4470, "timestamp": 1756585814, "node_ip": "10.157.146.4", "done": false, "time_total_s": 22778.883927345276, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 746, "episode_reward_mean": -618.1922571587812, "training_iteration": 746, "timesteps_total": 895200, "policy_reward_mean": {}, "episode_reward_min": -683.3066257404824, "timesteps_since_restore": 895200, "num_metric_batches_dropped": 0, "time_since_restore": 22808.805204629898, "episode_reward_max": -489.6546994733901, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 895200, "default": {"kl": 0.007774179335683584, "policy_loss": -0.09918542951345444, "vf_loss": 174.5108184814453, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9731417894363403, "entropy": 8.566243171691895, "cur_lr": 4.999999873689376e-05, "total_loss": 174.42344665527344}, "load_time_ms": 0.628, "num_steps_sampled": 895200, "grad_time_ms": 739.363, "update_time_ms": 2.291, "sample_time_ms": 29611.539}, "date": "2025-08-30_22-30-44", "hostname": "cda-server-4", "time_this_iter_s": 29.921277284622192, "episodes_total": 4476, "timestamp": 1756585844, "node_ip": "10.157.146.4", "done": false, "time_total_s": 22808.805204629898, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 747, "episode_reward_mean": -616.5617307461142, "training_iteration": 747, "timesteps_total": 896400, "policy_reward_mean": {}, "episode_reward_min": -683.3066257404824, "timesteps_since_restore": 896400, "num_metric_batches_dropped": 0, "time_since_restore": 22842.30123448372, "episode_reward_max": -489.6546994733901, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 896400, "default": {"kl": 0.009189794771373272, "policy_loss": -0.12697860598564148, "vf_loss": 200.3389892578125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9734945297241211, "entropy": 8.5494384765625, "cur_lr": 4.999999873689376e-05, "total_loss": 200.22598266601562}, "load_time_ms": 0.617, "num_steps_sampled": 896400, "grad_time_ms": 716.044, "update_time_ms": 2.283, "sample_time_ms": 30172.322}, "date": "2025-08-30_22-31-18", "hostname": "cda-server-4", "time_this_iter_s": 33.4960298538208, "episodes_total": 4482, "timestamp": 1756585878, "node_ip": "10.157.146.4", "done": false, "time_total_s": 22842.30123448372, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 748, "episode_reward_mean": -617.4587364858317, "training_iteration": 748, "timesteps_total": 897600, "policy_reward_mean": {}, "episode_reward_min": -683.1083076741232, "timesteps_since_restore": 897600, "num_metric_batches_dropped": 0, "time_since_restore": 22874.024919509888, "episode_reward_max": -566.9728672694137, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 897600, "default": {"kl": 0.01173925120383501, "policy_loss": -0.1456039398908615, "vf_loss": 500.92779541015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9325399398803711, "entropy": 8.988801002502441, "cur_lr": 4.999999873689376e-05, "total_loss": 500.8000793457031}, "load_time_ms": 0.579, "num_steps_sampled": 897600, "grad_time_ms": 680.111, "update_time_ms": 2.322, "sample_time_ms": 30293.229}, "date": "2025-08-30_22-31-49", "hostname": "cda-server-4", "time_this_iter_s": 31.723685026168823, "episodes_total": 4488, "timestamp": 1756585909, "node_ip": "10.157.146.4", "done": false, "time_total_s": 22874.024919509888, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 749, "episode_reward_mean": -617.034535625216, "training_iteration": 749, "timesteps_total": 898800, "policy_reward_mean": {}, "episode_reward_min": -683.1083076741232, "timesteps_since_restore": 898800, "num_metric_batches_dropped": 0, "time_since_restore": 22905.708318710327, "episode_reward_max": -566.9728672694137, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 898800, "default": {"kl": 0.011047829873859882, "policy_loss": -0.12254621088504791, "vf_loss": 490.0809326171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.971049964427948, "entropy": 9.125934600830078, "cur_lr": 4.999999873689376e-05, "total_loss": 489.97515869140625}, "load_time_ms": 0.577, "num_steps_sampled": 898800, "grad_time_ms": 674.241, "update_time_ms": 2.23, "sample_time_ms": 30504.641}, "date": "2025-08-30_22-32-21", "hostname": "cda-server-4", "time_this_iter_s": 31.683399200439453, "episodes_total": 4494, "timestamp": 1756585941, "node_ip": "10.157.146.4", "done": false, "time_total_s": 22905.708318710327, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 750, "episode_reward_mean": -617.7775367289498, "training_iteration": 750, "timesteps_total": 900000, "policy_reward_mean": {}, "episode_reward_min": -683.1083076741232, "timesteps_since_restore": 900000, "num_metric_batches_dropped": 0, "time_since_restore": 22936.202861070633, "episode_reward_max": -566.9728672694137, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 900000, "default": {"kl": 0.010549533180892467, "policy_loss": -0.10758897662162781, "vf_loss": 127.41171264648438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9913284778594971, "entropy": 9.156078338623047, "cur_lr": 4.999999873689376e-05, "total_loss": 127.32015228271484}, "load_time_ms": 0.585, "num_steps_sampled": 900000, "grad_time_ms": 664.916, "update_time_ms": 2.298, "sample_time_ms": 30556.067}, "date": "2025-08-30_22-32-52", "hostname": "cda-server-4", "time_this_iter_s": 30.494542360305786, "episodes_total": 4500, "timestamp": 1756585972, "node_ip": "10.157.146.4", "done": false, "time_total_s": 22936.202861070633, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 751, "episode_reward_mean": -617.9047081185411, "training_iteration": 751, "timesteps_total": 901200, "policy_reward_mean": {}, "episode_reward_min": -683.1083076741232, "timesteps_since_restore": 901200, "num_metric_batches_dropped": 0, "time_since_restore": 22969.966463804245, "episode_reward_max": -566.9728672694137, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 901200, "default": {"kl": 0.012349172495305538, "policy_loss": -0.129011332988739, "vf_loss": 541.647216796875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9649847745895386, "entropy": 8.628888130187988, "cur_lr": 4.999999873689376e-05, "total_loss": 541.5369873046875}, "load_time_ms": 0.59, "num_steps_sampled": 901200, "grad_time_ms": 660.44, "update_time_ms": 2.321, "sample_time_ms": 30983.968}, "date": "2025-08-30_22-33-26", "hostname": "cda-server-4", "time_this_iter_s": 33.76360273361206, "episodes_total": 4506, "timestamp": 1756586006, "node_ip": "10.157.146.4", "done": false, "time_total_s": 22969.966463804245, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 752, "episode_reward_mean": -618.2991901831208, "training_iteration": 752, "timesteps_total": 902400, "policy_reward_mean": {}, "episode_reward_min": -683.1083076741232, "timesteps_since_restore": 902400, "num_metric_batches_dropped": 0, "time_since_restore": 23000.427659273148, "episode_reward_max": -566.9728672694137, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 902400, "default": {"kl": 0.009941508993506432, "policy_loss": -0.11270719021558762, "vf_loss": 242.9630584716797, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9792667031288147, "entropy": 9.046639442443848, "cur_lr": 4.999999873689376e-05, "total_loss": 242.86544799804688}, "load_time_ms": 0.6, "num_steps_sampled": 902400, "grad_time_ms": 654.621, "update_time_ms": 2.302, "sample_time_ms": 30820.12}, "date": "2025-08-30_22-33-56", "hostname": "cda-server-4", "time_this_iter_s": 30.461195468902588, "episodes_total": 4512, "timestamp": 1756586036, "node_ip": "10.157.146.4", "done": false, "time_total_s": 23000.427659273148, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 753, "episode_reward_mean": -619.3019418018415, "training_iteration": 753, "timesteps_total": 903600, "policy_reward_mean": {}, "episode_reward_min": -683.1083076741232, "timesteps_since_restore": 903600, "num_metric_batches_dropped": 0, "time_since_restore": 23029.700823307037, "episode_reward_max": -566.9728672694137, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 903600, "default": {"kl": 0.009944835677742958, "policy_loss": -0.12306981533765793, "vf_loss": 384.177734375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9631969928741455, "entropy": 9.062294960021973, "cur_lr": 4.999999873689376e-05, "total_loss": 384.0697937011719}, "load_time_ms": 0.606, "num_steps_sampled": 903600, "grad_time_ms": 660.253, "update_time_ms": 2.275, "sample_time_ms": 30666.498}, "date": "2025-08-30_22-34-25", "hostname": "cda-server-4", "time_this_iter_s": 29.27316403388977, "episodes_total": 4518, "timestamp": 1756586065, "node_ip": "10.157.146.4", "done": false, "time_total_s": 23029.700823307037, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 754, "episode_reward_mean": -619.3978753856517, "training_iteration": 754, "timesteps_total": 904800, "policy_reward_mean": {}, "episode_reward_min": -683.1083076741232, "timesteps_since_restore": 904800, "num_metric_batches_dropped": 0, "time_since_restore": 23061.91388487816, "episode_reward_max": -566.9728672694137, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 904800, "default": {"kl": 0.009883537888526917, "policy_loss": -0.13543039560317993, "vf_loss": 260.9453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9748213887214661, "entropy": 8.693624496459961, "cur_lr": 4.999999873689376e-05, "total_loss": 260.82489013671875}, "load_time_ms": 0.602, "num_steps_sampled": 904800, "grad_time_ms": 660.496, "update_time_ms": 2.288, "sample_time_ms": 30892.434}, "date": "2025-08-30_22-34-57", "hostname": "cda-server-4", "time_this_iter_s": 32.213061571121216, "episodes_total": 4524, "timestamp": 1756586097, "node_ip": "10.157.146.4", "done": false, "time_total_s": 23061.91388487816, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 755, "episode_reward_mean": -618.8655419847535, "training_iteration": 755, "timesteps_total": 906000, "policy_reward_mean": {}, "episode_reward_min": -683.1083076741232, "timesteps_since_restore": 906000, "num_metric_batches_dropped": 0, "time_since_restore": 23094.305648565292, "episode_reward_max": -566.9728672694137, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 906000, "default": {"kl": 0.011386111378669739, "policy_loss": -0.1237710565328598, "vf_loss": 588.7218017578125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.930164635181427, "entropy": 8.151530265808105, "cur_lr": 4.999999873689376e-05, "total_loss": 588.6152954101562}, "load_time_ms": 0.619, "num_steps_sampled": 906000, "grad_time_ms": 650.486, "update_time_ms": 2.334, "sample_time_ms": 30884.732}, "date": "2025-08-30_22-35-30", "hostname": "cda-server-4", "time_this_iter_s": 32.39176368713379, "episodes_total": 4530, "timestamp": 1756586130, "node_ip": "10.157.146.4", "done": false, "time_total_s": 23094.305648565292, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 756, "episode_reward_mean": -618.2110828008707, "training_iteration": 756, "timesteps_total": 907200, "policy_reward_mean": {}, "episode_reward_min": -683.1083076741232, "timesteps_since_restore": 907200, "num_metric_batches_dropped": 0, "time_since_restore": 23124.371403217316, "episode_reward_max": -566.9728672694137, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 907200, "default": {"kl": 0.009504619985818863, "policy_loss": -0.10746723413467407, "vf_loss": 76.46360778808594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9885787963867188, "entropy": 8.26976203918457, "cur_lr": 4.999999873689376e-05, "total_loss": 76.3705825805664}, "load_time_ms": 0.621, "num_steps_sampled": 907200, "grad_time_ms": 634.71, "update_time_ms": 2.24, "sample_time_ms": 30915.081}, "date": "2025-08-30_22-36-00", "hostname": "cda-server-4", "time_this_iter_s": 30.065754652023315, "episodes_total": 4536, "timestamp": 1756586160, "node_ip": "10.157.146.4", "done": false, "time_total_s": 23124.371403217316, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 757, "episode_reward_mean": -619.0262666560513, "training_iteration": 757, "timesteps_total": 908400, "policy_reward_mean": {}, "episode_reward_min": -683.1083076741232, "timesteps_since_restore": 908400, "num_metric_batches_dropped": 0, "time_since_restore": 23154.17093229294, "episode_reward_max": -566.9728672694137, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 908400, "default": {"kl": 0.009872769005596638, "policy_loss": -0.12056214362382889, "vf_loss": 496.2840576171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9475833177566528, "entropy": 8.84311294555664, "cur_lr": 4.999999873689376e-05, "total_loss": 496.1784973144531}, "load_time_ms": 0.631, "num_steps_sampled": 908400, "grad_time_ms": 636.77, "update_time_ms": 2.186, "sample_time_ms": 30543.424}, "date": "2025-08-30_22-36-30", "hostname": "cda-server-4", "time_this_iter_s": 29.79952907562256, "episodes_total": 4542, "timestamp": 1756586190, "node_ip": "10.157.146.4", "done": false, "time_total_s": 23154.17093229294, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 758, "episode_reward_mean": -619.0998396848621, "training_iteration": 758, "timesteps_total": 909600, "policy_reward_mean": {}, "episode_reward_min": -681.6278308522026, "timesteps_since_restore": 909600, "num_metric_batches_dropped": 0, "time_since_restore": 23187.970534086227, "episode_reward_max": -566.9728672694137, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 909600, "default": {"kl": 0.012476135976612568, "policy_loss": -0.14287710189819336, "vf_loss": 385.9012756347656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9590588808059692, "entropy": 8.794343948364258, "cur_lr": 4.999999873689376e-05, "total_loss": 385.77734375}, "load_time_ms": 0.661, "num_steps_sampled": 909600, "grad_time_ms": 636.238, "update_time_ms": 2.119, "sample_time_ms": 30751.564}, "date": "2025-08-30_22-37-04", "hostname": "cda-server-4", "time_this_iter_s": 33.799601793289185, "episodes_total": 4548, "timestamp": 1756586224, "node_ip": "10.157.146.4", "done": false, "time_total_s": 23187.970534086227, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 759, "episode_reward_mean": -617.8751043928429, "training_iteration": 759, "timesteps_total": 910800, "policy_reward_mean": {}, "episode_reward_min": -681.6278308522026, "timesteps_since_restore": 910800, "num_metric_batches_dropped": 0, "time_since_restore": 23221.295681238174, "episode_reward_max": -490.3839777240791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 910800, "default": {"kl": 0.01134142093360424, "policy_loss": -0.12978997826576233, "vf_loss": 577.5689086914062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9543575644493103, "entropy": 8.636566162109375, "cur_lr": 4.999999873689376e-05, "total_loss": 577.4563598632812}, "load_time_ms": 0.664, "num_steps_sampled": 910800, "grad_time_ms": 639.242, "update_time_ms": 2.158, "sample_time_ms": 30912.659}, "date": "2025-08-30_22-37-37", "hostname": "cda-server-4", "time_this_iter_s": 33.32514715194702, "episodes_total": 4554, "timestamp": 1756586257, "node_ip": "10.157.146.4", "done": false, "time_total_s": 23221.295681238174, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 760, "episode_reward_mean": -618.9998568657603, "training_iteration": 760, "timesteps_total": 912000, "policy_reward_mean": {}, "episode_reward_min": -681.6278308522026, "timesteps_since_restore": 912000, "num_metric_batches_dropped": 0, "time_since_restore": 23251.942494630814, "episode_reward_max": -490.3839777240791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 912000, "default": {"kl": 0.012878382578492165, "policy_loss": -0.14535056054592133, "vf_loss": 163.81834411621094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9864711761474609, "entropy": 8.373284339904785, "cur_lr": 4.999999873689376e-05, "total_loss": 163.69256591796875}, "load_time_ms": 0.66, "num_steps_sampled": 912000, "grad_time_ms": 645.754, "update_time_ms": 2.145, "sample_time_ms": 30921.34}, "date": "2025-08-30_22-38-08", "hostname": "cda-server-4", "time_this_iter_s": 30.64681339263916, "episodes_total": 4560, "timestamp": 1756586288, "node_ip": "10.157.146.4", "done": false, "time_total_s": 23251.942494630814, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 761, "episode_reward_mean": -618.021648097806, "training_iteration": 761, "timesteps_total": 913200, "policy_reward_mean": {}, "episode_reward_min": -681.6278308522026, "timesteps_since_restore": 913200, "num_metric_batches_dropped": 0, "time_since_restore": 23285.711623430252, "episode_reward_max": -490.3839777240791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 913200, "default": {"kl": 0.011325579136610031, "policy_loss": -0.11858269572257996, "vf_loss": 121.52078247070312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9895936250686646, "entropy": 8.70104694366455, "cur_lr": 4.999999873689376e-05, "total_loss": 121.41938018798828}, "load_time_ms": 0.652, "num_steps_sampled": 913200, "grad_time_ms": 647.974, "update_time_ms": 2.188, "sample_time_ms": 30919.656}, "date": "2025-08-30_22-38-41", "hostname": "cda-server-4", "time_this_iter_s": 33.76912879943848, "episodes_total": 4566, "timestamp": 1756586321, "node_ip": "10.157.146.4", "done": false, "time_total_s": 23285.711623430252, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 762, "episode_reward_mean": -617.0589674365706, "training_iteration": 762, "timesteps_total": 914400, "policy_reward_mean": {}, "episode_reward_min": -681.6278308522026, "timesteps_since_restore": 914400, "num_metric_batches_dropped": 0, "time_since_restore": 23319.150102376938, "episode_reward_max": -490.3839777240791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 914400, "default": {"kl": 0.0117591992020607, "policy_loss": -0.13870687782764435, "vf_loss": 390.2163391113281, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9573100209236145, "entropy": 8.21146011352539, "cur_lr": 4.999999873689376e-05, "total_loss": 390.09552001953125}, "load_time_ms": 0.643, "num_steps_sampled": 914400, "grad_time_ms": 651.948, "update_time_ms": 2.195, "sample_time_ms": 31213.369}, "date": "2025-08-30_22-39-15", "hostname": "cda-server-4", "time_this_iter_s": 33.43847894668579, "episodes_total": 4572, "timestamp": 1756586355, "node_ip": "10.157.146.4", "done": false, "time_total_s": 23319.150102376938, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 763, "episode_reward_mean": -617.4335534697868, "training_iteration": 763, "timesteps_total": 915600, "policy_reward_mean": {}, "episode_reward_min": -681.6278308522026, "timesteps_since_restore": 915600, "num_metric_batches_dropped": 0, "time_since_restore": 23348.086534023285, "episode_reward_max": -490.3839777240791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 915600, "default": {"kl": 0.009395689703524113, "policy_loss": -0.10970529913902283, "vf_loss": 513.713134765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9314224720001221, "entropy": 8.410070419311523, "cur_lr": 4.999999873689376e-05, "total_loss": 513.6177368164062}, "load_time_ms": 0.642, "num_steps_sampled": 915600, "grad_time_ms": 630.849, "update_time_ms": 2.197, "sample_time_ms": 31200.815}, "date": "2025-08-30_22-39-44", "hostname": "cda-server-4", "time_this_iter_s": 28.936431646347046, "episodes_total": 4578, "timestamp": 1756586384, "node_ip": "10.157.146.4", "done": false, "time_total_s": 23348.086534023285, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 764, "episode_reward_mean": -619.6233911978081, "training_iteration": 764, "timesteps_total": 916800, "policy_reward_mean": {}, "episode_reward_min": -681.6278308522026, "timesteps_since_restore": 916800, "num_metric_batches_dropped": 0, "time_since_restore": 23377.560274362564, "episode_reward_max": -490.3839777240791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 916800, "default": {"kl": 0.009058069437742233, "policy_loss": -0.13083723187446594, "vf_loss": 467.22222900390625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9614075422286987, "entropy": 9.16628646850586, "cur_lr": 4.999999873689376e-05, "total_loss": 467.1051330566406}, "load_time_ms": 0.671, "num_steps_sampled": 916800, "grad_time_ms": 616.227, "update_time_ms": 2.123, "sample_time_ms": 30941.554}, "date": "2025-08-30_22-40-13", "hostname": "cda-server-4", "time_this_iter_s": 29.473740339279175, "episodes_total": 4584, "timestamp": 1756586413, "node_ip": "10.157.146.4", "done": false, "time_total_s": 23377.560274362564, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 765, "episode_reward_mean": -620.2342112685201, "training_iteration": 765, "timesteps_total": 918000, "policy_reward_mean": {}, "episode_reward_min": -660.885034656831, "timesteps_since_restore": 918000, "num_metric_batches_dropped": 0, "time_since_restore": 23409.01389336586, "episode_reward_max": -490.3839777240791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 918000, "default": {"kl": 0.011350144632160664, "policy_loss": -0.13735361397266388, "vf_loss": 330.8795166015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9658298492431641, "entropy": 8.583413124084473, "cur_lr": 4.999999873689376e-05, "total_loss": 330.7593994140625}, "load_time_ms": 0.652, "num_steps_sampled": 918000, "grad_time_ms": 612.419, "update_time_ms": 2.126, "sample_time_ms": 30851.559}, "date": "2025-08-30_22-40-45", "hostname": "cda-server-4", "time_this_iter_s": 31.4536190032959, "episodes_total": 4590, "timestamp": 1756586445, "node_ip": "10.157.146.4", "done": false, "time_total_s": 23409.01389336586, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 766, "episode_reward_mean": -620.3672178740238, "training_iteration": 766, "timesteps_total": 919200, "policy_reward_mean": {}, "episode_reward_min": -660.885034656831, "timesteps_since_restore": 919200, "num_metric_batches_dropped": 0, "time_since_restore": 23440.38298535347, "episode_reward_max": -490.3839777240791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 919200, "default": {"kl": 0.01171233132481575, "policy_loss": -0.15354149043560028, "vf_loss": 1417.1728515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8325172066688538, "entropy": 8.374954223632812, "cur_lr": 4.999999873689376e-05, "total_loss": 1417.0372314453125}, "load_time_ms": 0.649, "num_steps_sampled": 919200, "grad_time_ms": 617.367, "update_time_ms": 2.135, "sample_time_ms": 30976.943}, "date": "2025-08-30_22-41-16", "hostname": "cda-server-4", "time_this_iter_s": 31.369091987609863, "episodes_total": 4596, "timestamp": 1756586476, "node_ip": "10.157.146.4", "done": false, "time_total_s": 23440.38298535347, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 767, "episode_reward_mean": -619.7907580152322, "training_iteration": 767, "timesteps_total": 920400, "policy_reward_mean": {}, "episode_reward_min": -660.885034656831, "timesteps_since_restore": 920400, "num_metric_batches_dropped": 0, "time_since_restore": 23470.66936326027, "episode_reward_max": -490.3839777240791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 920400, "default": {"kl": 0.01059836708009243, "policy_loss": -0.13130098581314087, "vf_loss": 372.8787841796875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9672018885612488, "entropy": 8.129901885986328, "cur_lr": 4.999999873689376e-05, "total_loss": 372.7635803222656}, "load_time_ms": 0.647, "num_steps_sampled": 920400, "grad_time_ms": 635.06, "update_time_ms": 2.141, "sample_time_ms": 31007.864}, "date": "2025-08-30_22-41-46", "hostname": "cda-server-4", "time_this_iter_s": 30.286377906799316, "episodes_total": 4602, "timestamp": 1756586506, "node_ip": "10.157.146.4", "done": false, "time_total_s": 23470.66936326027, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 768, "episode_reward_mean": -618.4429846149163, "training_iteration": 768, "timesteps_total": 921600, "policy_reward_mean": {}, "episode_reward_min": -660.885034656831, "timesteps_since_restore": 921600, "num_metric_batches_dropped": 0, "time_since_restore": 23500.41118335724, "episode_reward_max": -490.3839777240791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 921600, "default": {"kl": 0.010816942900419235, "policy_loss": -0.12609902024269104, "vf_loss": 1070.080322265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8491517305374146, "entropy": 8.916098594665527, "cur_lr": 4.999999873689376e-05, "total_loss": 1069.970703125}, "load_time_ms": 0.624, "num_steps_sampled": 921600, "grad_time_ms": 655.051, "update_time_ms": 2.198, "sample_time_ms": 30582.046}, "date": "2025-08-30_22-42-16", "hostname": "cda-server-4", "time_this_iter_s": 29.741820096969604, "episodes_total": 4608, "timestamp": 1756586536, "node_ip": "10.157.146.4", "done": false, "time_total_s": 23500.41118335724, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 769, "episode_reward_mean": -617.9590900204114, "training_iteration": 769, "timesteps_total": 922800, "policy_reward_mean": {}, "episode_reward_min": -660.9605758742799, "timesteps_since_restore": 922800, "num_metric_batches_dropped": 0, "time_since_restore": 23532.070775032043, "episode_reward_max": -490.3839777240791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 922800, "default": {"kl": 0.009949802421033382, "policy_loss": -0.11426646262407303, "vf_loss": 498.4326171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9436075687408447, "entropy": 8.523143768310547, "cur_lr": 4.999999873689376e-05, "total_loss": 498.33343505859375}, "load_time_ms": 0.649, "num_steps_sampled": 922800, "grad_time_ms": 643.964, "update_time_ms": 2.188, "sample_time_ms": 30426.696}, "date": "2025-08-30_22-42-48", "hostname": "cda-server-4", "time_this_iter_s": 31.659591674804688, "episodes_total": 4614, "timestamp": 1756586568, "node_ip": "10.157.146.4", "done": false, "time_total_s": 23532.070775032043, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 770, "episode_reward_mean": -617.5079211353273, "training_iteration": 770, "timesteps_total": 924000, "policy_reward_mean": {}, "episode_reward_min": -660.9605758742799, "timesteps_since_restore": 924000, "num_metric_batches_dropped": 0, "time_since_restore": 23562.197200536728, "episode_reward_max": -490.3839777240791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 924000, "default": {"kl": 0.010830353945493698, "policy_loss": -0.1325632631778717, "vf_loss": 352.53631591796875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9541798830032349, "entropy": 8.468048095703125, "cur_lr": 4.999999873689376e-05, "total_loss": 352.42022705078125}, "load_time_ms": 0.661, "num_steps_sampled": 924000, "grad_time_ms": 634.492, "update_time_ms": 2.17, "sample_time_ms": 30384.2}, "date": "2025-08-30_22-43-18", "hostname": "cda-server-4", "time_this_iter_s": 30.12642550468445, "episodes_total": 4620, "timestamp": 1756586598, "node_ip": "10.157.146.4", "done": false, "time_total_s": 23562.197200536728, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 771, "episode_reward_mean": -617.4619830307245, "training_iteration": 771, "timesteps_total": 925200, "policy_reward_mean": {}, "episode_reward_min": -660.9605758742799, "timesteps_since_restore": 925200, "num_metric_batches_dropped": 0, "time_since_restore": 23592.631360054016, "episode_reward_max": -490.3839777240791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 925200, "default": {"kl": 0.009337563067674637, "policy_loss": -0.12856031954288483, "vf_loss": 368.8023681640625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9475710391998291, "entropy": 8.790600776672363, "cur_lr": 4.999999873689376e-05, "total_loss": 368.6880187988281}, "load_time_ms": 0.667, "num_steps_sampled": 925200, "grad_time_ms": 626.214, "update_time_ms": 2.078, "sample_time_ms": 30059.088}, "date": "2025-08-30_22-43-49", "hostname": "cda-server-4", "time_this_iter_s": 30.434159517288208, "episodes_total": 4626, "timestamp": 1756586629, "node_ip": "10.157.146.4", "done": false, "time_total_s": 23592.631360054016, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 772, "episode_reward_mean": -618.5763965435835, "training_iteration": 772, "timesteps_total": 926400, "policy_reward_mean": {}, "episode_reward_min": -660.9605758742799, "timesteps_since_restore": 926400, "num_metric_batches_dropped": 0, "time_since_restore": 23622.36448097229, "episode_reward_max": -490.3839777240791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 926400, "default": {"kl": 0.0096127949655056, "policy_loss": -0.11984165757894516, "vf_loss": 389.0948486328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9530026912689209, "entropy": 8.428380012512207, "cur_lr": 4.999999873689376e-05, "total_loss": 388.9896240234375}, "load_time_ms": 0.666, "num_steps_sampled": 926400, "grad_time_ms": 615.061, "update_time_ms": 2.024, "sample_time_ms": 29699.849}, "date": "2025-08-30_22-44-18", "hostname": "cda-server-4", "time_this_iter_s": 29.733120918273926, "episodes_total": 4632, "timestamp": 1756586658, "node_ip": "10.157.146.4", "done": false, "time_total_s": 23622.36448097229, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 773, "episode_reward_mean": -617.648159785148, "training_iteration": 773, "timesteps_total": 927600, "policy_reward_mean": {}, "episode_reward_min": -677.0035312000097, "timesteps_since_restore": 927600, "num_metric_batches_dropped": 0, "time_since_restore": 23654.236276626587, "episode_reward_max": -490.3839777240791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 927600, "default": {"kl": 0.012388224713504314, "policy_loss": -0.14281558990478516, "vf_loss": 390.9633483886719, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9531009197235107, "entropy": 8.479877471923828, "cur_lr": 4.999999873689376e-05, "total_loss": 390.83935546875}, "load_time_ms": 0.695, "num_steps_sampled": 927600, "grad_time_ms": 626.811, "update_time_ms": 2.075, "sample_time_ms": 29981.516}, "date": "2025-08-30_22-44-50", "hostname": "cda-server-4", "time_this_iter_s": 31.871795654296875, "episodes_total": 4638, "timestamp": 1756586690, "node_ip": "10.157.146.4", "done": false, "time_total_s": 23654.236276626587, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 774, "episode_reward_mean": -617.7908128980534, "training_iteration": 774, "timesteps_total": 928800, "policy_reward_mean": {}, "episode_reward_min": -677.0035312000097, "timesteps_since_restore": 928800, "num_metric_batches_dropped": 0, "time_since_restore": 23685.09935235977, "episode_reward_max": -490.3839777240791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 928800, "default": {"kl": 0.008803214877843857, "policy_loss": -0.13878419995307922, "vf_loss": 381.70904541015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9422679543495178, "entropy": 8.554939270019531, "cur_lr": 4.999999873689376e-05, "total_loss": 381.5836181640625}, "load_time_ms": 0.661, "num_steps_sampled": 928800, "grad_time_ms": 627.189, "update_time_ms": 2.144, "sample_time_ms": 30120.048}, "date": "2025-08-30_22-45-21", "hostname": "cda-server-4", "time_this_iter_s": 30.863075733184814, "episodes_total": 4644, "timestamp": 1756586721, "node_ip": "10.157.146.4", "done": false, "time_total_s": 23685.09935235977, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 775, "episode_reward_mean": -619.660478095555, "training_iteration": 775, "timesteps_total": 930000, "policy_reward_mean": {}, "episode_reward_min": -677.0035312000097, "timesteps_since_restore": 930000, "num_metric_batches_dropped": 0, "time_since_restore": 23715.911348104477, "episode_reward_max": -498.2609084144236, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 930000, "default": {"kl": 0.011460918933153152, "policy_loss": -0.1428578644990921, "vf_loss": 349.9024353027344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.967334508895874, "entropy": 8.61740493774414, "cur_lr": 4.999999873689376e-05, "total_loss": 349.7769775390625}, "load_time_ms": 0.666, "num_steps_sampled": 930000, "grad_time_ms": 636.895, "update_time_ms": 2.082, "sample_time_ms": 30046.193}, "date": "2025-08-30_22-45-52", "hostname": "cda-server-4", "time_this_iter_s": 30.8119957447052, "episodes_total": 4650, "timestamp": 1756586752, "node_ip": "10.157.146.4", "done": false, "time_total_s": 23715.911348104477, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 776, "episode_reward_mean": -619.2207430862389, "training_iteration": 776, "timesteps_total": 931200, "policy_reward_mean": {}, "episode_reward_min": -677.0035312000097, "timesteps_since_restore": 931200, "num_metric_batches_dropped": 0, "time_since_restore": 23745.169711351395, "episode_reward_max": -498.2609084144236, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 931200, "default": {"kl": 0.009880716912448406, "policy_loss": -0.12177267670631409, "vf_loss": 347.8214111328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9699321389198303, "entropy": 8.750622749328613, "cur_lr": 4.999999873689376e-05, "total_loss": 347.7146911621094}, "load_time_ms": 0.665, "num_steps_sampled": 931200, "grad_time_ms": 638.158, "update_time_ms": 2.174, "sample_time_ms": 29833.707}, "date": "2025-08-30_22-46-21", "hostname": "cda-server-4", "time_this_iter_s": 29.258363246917725, "episodes_total": 4656, "timestamp": 1756586781, "node_ip": "10.157.146.4", "done": false, "time_total_s": 23745.169711351395, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 777, "episode_reward_mean": -618.7678859281738, "training_iteration": 777, "timesteps_total": 932400, "policy_reward_mean": {}, "episode_reward_min": -678.6256210159688, "timesteps_since_restore": 932400, "num_metric_batches_dropped": 0, "time_since_restore": 23777.983783006668, "episode_reward_max": -498.2609084144236, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 932400, "default": {"kl": 0.007377209607511759, "policy_loss": -0.1059289202094078, "vf_loss": 764.0560302734375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8836434483528137, "entropy": 8.216404914855957, "cur_lr": 4.999999873689376e-05, "total_loss": 763.9613037109375}, "load_time_ms": 0.659, "num_steps_sampled": 932400, "grad_time_ms": 636.928, "update_time_ms": 2.234, "sample_time_ms": 30087.607}, "date": "2025-08-30_22-46-54", "hostname": "cda-server-4", "time_this_iter_s": 32.81407165527344, "episodes_total": 4662, "timestamp": 1756586814, "node_ip": "10.157.146.4", "done": false, "time_total_s": 23777.983783006668, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 778, "episode_reward_mean": -617.1316268515947, "training_iteration": 778, "timesteps_total": 933600, "policy_reward_mean": {}, "episode_reward_min": -678.6256210159688, "timesteps_since_restore": 933600, "num_metric_batches_dropped": 0, "time_since_restore": 23807.54709982872, "episode_reward_max": -456.971305317847, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 933600, "default": {"kl": 0.01180959865450859, "policy_loss": -0.13984766602516174, "vf_loss": 454.57672119140625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.963428258895874, "entropy": 8.30264663696289, "cur_lr": 4.999999873689376e-05, "total_loss": 454.4548034667969}, "load_time_ms": 0.662, "num_steps_sampled": 933600, "grad_time_ms": 639.821, "update_time_ms": 2.269, "sample_time_ms": 30066.89}, "date": "2025-08-30_22-47-24", "hostname": "cda-server-4", "time_this_iter_s": 29.563316822052002, "episodes_total": 4668, "timestamp": 1756586844, "node_ip": "10.157.146.4", "done": false, "time_total_s": 23807.54709982872, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 779, "episode_reward_mean": -618.5172703996312, "training_iteration": 779, "timesteps_total": 934800, "policy_reward_mean": {}, "episode_reward_min": -678.6256210159688, "timesteps_since_restore": 934800, "num_metric_batches_dropped": 0, "time_since_restore": 23838.19767332077, "episode_reward_max": -456.971305317847, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 934800, "default": {"kl": 0.008998127654194832, "policy_loss": -0.119558185338974, "vf_loss": 509.8059387207031, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9386389255523682, "entropy": 8.828438758850098, "cur_lr": 4.999999873689376e-05, "total_loss": 509.7000732421875}, "load_time_ms": 0.631, "num_steps_sampled": 934800, "grad_time_ms": 638.017, "update_time_ms": 2.236, "sample_time_ms": 29967.751}, "date": "2025-08-30_22-47-54", "hostname": "cda-server-4", "time_this_iter_s": 30.65057349205017, "episodes_total": 4674, "timestamp": 1756586874, "node_ip": "10.157.146.4", "done": false, "time_total_s": 23838.19767332077, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 780, "episode_reward_mean": -618.23065616367, "training_iteration": 780, "timesteps_total": 936000, "policy_reward_mean": {}, "episode_reward_min": -682.232984703791, "timesteps_since_restore": 936000, "num_metric_batches_dropped": 0, "time_since_restore": 23870.766876220703, "episode_reward_max": -456.971305317847, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 936000, "default": {"kl": 0.009534847922623158, "policy_loss": -0.1124785766005516, "vf_loss": 487.59429931640625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9222615361213684, "entropy": 8.95103645324707, "cur_lr": 4.999999873689376e-05, "total_loss": 487.4963073730469}, "load_time_ms": 0.615, "num_steps_sampled": 936000, "grad_time_ms": 637.658, "update_time_ms": 2.411, "sample_time_ms": 30212.185}, "date": "2025-08-30_22-48-27", "hostname": "cda-server-4", "time_this_iter_s": 32.56920289993286, "episodes_total": 4680, "timestamp": 1756586907, "node_ip": "10.157.146.4", "done": false, "time_total_s": 23870.766876220703, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 781, "episode_reward_mean": -616.812257393703, "training_iteration": 781, "timesteps_total": 937200, "policy_reward_mean": {}, "episode_reward_min": -682.232984703791, "timesteps_since_restore": 937200, "num_metric_batches_dropped": 0, "time_since_restore": 23900.57979106903, "episode_reward_max": -456.971305317847, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 937200, "default": {"kl": 0.010708576999604702, "policy_loss": -0.13520297408103943, "vf_loss": 118.31809997558594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9838254451751709, "entropy": 8.631179809570312, "cur_lr": 4.999999873689376e-05, "total_loss": 118.19915008544922}, "load_time_ms": 0.621, "num_steps_sampled": 937200, "grad_time_ms": 646.827, "update_time_ms": 2.434, "sample_time_ms": 30140.893}, "date": "2025-08-30_22-48-57", "hostname": "cda-server-4", "time_this_iter_s": 29.812914848327637, "episodes_total": 4686, "timestamp": 1756586937, "node_ip": "10.157.146.4", "done": false, "time_total_s": 23900.57979106903, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 782, "episode_reward_mean": -617.3295966502297, "training_iteration": 782, "timesteps_total": 938400, "policy_reward_mean": {}, "episode_reward_min": -682.232984703791, "timesteps_since_restore": 938400, "num_metric_batches_dropped": 0, "time_since_restore": 23932.06708741188, "episode_reward_max": -456.971305317847, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 938400, "default": {"kl": 0.009899154305458069, "policy_loss": -0.11887913197278976, "vf_loss": 257.3402099609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9670933485031128, "entropy": 8.402328491210938, "cur_lr": 4.999999873689376e-05, "total_loss": 257.2363586425781}, "load_time_ms": 0.624, "num_steps_sampled": 938400, "grad_time_ms": 660.256, "update_time_ms": 2.453, "sample_time_ms": 30302.792}, "date": "2025-08-30_22-49-28", "hostname": "cda-server-4", "time_this_iter_s": 31.48729634284973, "episodes_total": 4692, "timestamp": 1756586968, "node_ip": "10.157.146.4", "done": false, "time_total_s": 23932.06708741188, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 783, "episode_reward_mean": -617.4519810862099, "training_iteration": 783, "timesteps_total": 939600, "policy_reward_mean": {}, "episode_reward_min": -682.232984703791, "timesteps_since_restore": 939600, "num_metric_batches_dropped": 0, "time_since_restore": 23962.934200525284, "episode_reward_max": -456.971305317847, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 939600, "default": {"kl": 0.0093756765127182, "policy_loss": -0.13369256258010864, "vf_loss": 977.4959716796875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8760316371917725, "entropy": 8.592076301574707, "cur_lr": 4.999999873689376e-05, "total_loss": 977.3765258789062}, "load_time_ms": 0.6, "num_steps_sampled": 939600, "grad_time_ms": 651.307, "update_time_ms": 2.452, "sample_time_ms": 30211.368}, "date": "2025-08-30_22-49-59", "hostname": "cda-server-4", "time_this_iter_s": 30.86711311340332, "episodes_total": 4698, "timestamp": 1756586999, "node_ip": "10.157.146.4", "done": false, "time_total_s": 23962.934200525284, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 784, "episode_reward_mean": -618.0847631466828, "training_iteration": 784, "timesteps_total": 940800, "policy_reward_mean": {}, "episode_reward_min": -682.232984703791, "timesteps_since_restore": 940800, "num_metric_batches_dropped": 0, "time_since_restore": 23995.365948200226, "episode_reward_max": -456.971305317847, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 940800, "default": {"kl": 0.008553016930818558, "policy_loss": -0.11936553567647934, "vf_loss": 601.58837890625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8992481231689453, "entropy": 8.147379875183105, "cur_lr": 4.999999873689376e-05, "total_loss": 601.4819946289062}, "load_time_ms": 0.603, "num_steps_sampled": 940800, "grad_time_ms": 679.608, "update_time_ms": 2.387, "sample_time_ms": 30339.901}, "date": "2025-08-30_22-50-31", "hostname": "cda-server-4", "time_this_iter_s": 32.43174767494202, "episodes_total": 4704, "timestamp": 1756587031, "node_ip": "10.157.146.4", "done": false, "time_total_s": 23995.365948200226, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 785, "episode_reward_mean": -619.8749235047128, "training_iteration": 785, "timesteps_total": 942000, "policy_reward_mean": {}, "episode_reward_min": -682.232984703791, "timesteps_since_restore": 942000, "num_metric_batches_dropped": 0, "time_since_restore": 24027.414561986923, "episode_reward_max": -456.971305317847, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 942000, "default": {"kl": 0.008565007708966732, "policy_loss": -0.11624272912740707, "vf_loss": 380.5303955078125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9377307891845703, "entropy": 8.64648723602295, "cur_lr": 4.999999873689376e-05, "total_loss": 380.4271240234375}, "load_time_ms": 0.611, "num_steps_sampled": 942000, "grad_time_ms": 673.18, "update_time_ms": 2.623, "sample_time_ms": 30469.815}, "date": "2025-08-30_22-51-04", "hostname": "cda-server-4", "time_this_iter_s": 32.04861378669739, "episodes_total": 4710, "timestamp": 1756587064, "node_ip": "10.157.146.4", "done": false, "time_total_s": 24027.414561986923, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 786, "episode_reward_mean": -618.2490825945291, "training_iteration": 786, "timesteps_total": 943200, "policy_reward_mean": {}, "episode_reward_min": -682.232984703791, "timesteps_since_restore": 943200, "num_metric_batches_dropped": 0, "time_since_restore": 24057.224660873413, "episode_reward_max": -456.971305317847, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 943200, "default": {"kl": 0.010959829203784466, "policy_loss": -0.12254762649536133, "vf_loss": 615.3468627929688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9549217224121094, "entropy": 8.04141616821289, "cur_lr": 4.999999873689376e-05, "total_loss": 615.240966796875}, "load_time_ms": 0.622, "num_steps_sampled": 943200, "grad_time_ms": 663.542, "update_time_ms": 2.575, "sample_time_ms": 30534.684}, "date": "2025-08-30_22-51-33", "hostname": "cda-server-4", "time_this_iter_s": 29.810098886489868, "episodes_total": 4716, "timestamp": 1756587093, "node_ip": "10.157.146.4", "done": false, "time_total_s": 24057.224660873413, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 787, "episode_reward_mean": -619.0756545355628, "training_iteration": 787, "timesteps_total": 944400, "policy_reward_mean": {}, "episode_reward_min": -682.232984703791, "timesteps_since_restore": 944400, "num_metric_batches_dropped": 0, "time_since_restore": 24088.28103995323, "episode_reward_max": -456.971305317847, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 944400, "default": {"kl": 0.010092006996273994, "policy_loss": -0.12875035405158997, "vf_loss": 500.8063049316406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9487265348434448, "entropy": 8.538982391357422, "cur_lr": 4.999999873689376e-05, "total_loss": 500.69281005859375}, "load_time_ms": 0.62, "num_steps_sampled": 944400, "grad_time_ms": 661.079, "update_time_ms": 2.529, "sample_time_ms": 30361.475}, "date": "2025-08-30_22-52-04", "hostname": "cda-server-4", "time_this_iter_s": 31.056379079818726, "episodes_total": 4722, "timestamp": 1756587124, "node_ip": "10.157.146.4", "done": false, "time_total_s": 24088.28103995323, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 788, "episode_reward_mean": -616.9257053589571, "training_iteration": 788, "timesteps_total": 945600, "policy_reward_mean": {}, "episode_reward_min": -682.232984703791, "timesteps_since_restore": 945600, "num_metric_batches_dropped": 0, "time_since_restore": 24120.133912086487, "episode_reward_max": -456.971305317847, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 945600, "default": {"kl": 0.011620281264185905, "policy_loss": -0.1436612606048584, "vf_loss": 460.1720886230469, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9342261552810669, "entropy": 8.546735763549805, "cur_lr": 4.999999873689376e-05, "total_loss": 460.0461120605469}, "load_time_ms": 0.623, "num_steps_sampled": 945600, "grad_time_ms": 664.526, "update_time_ms": 2.522, "sample_time_ms": 30586.955}, "date": "2025-08-30_22-52-36", "hostname": "cda-server-4", "time_this_iter_s": 31.852872133255005, "episodes_total": 4728, "timestamp": 1756587156, "node_ip": "10.157.146.4", "done": false, "time_total_s": 24120.133912086487, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 789, "episode_reward_mean": -616.6020916032044, "training_iteration": 789, "timesteps_total": 946800, "policy_reward_mean": {}, "episode_reward_min": -682.232984703791, "timesteps_since_restore": 946800, "num_metric_batches_dropped": 0, "time_since_restore": 24150.974388360977, "episode_reward_max": -456.971305317847, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 946800, "default": {"kl": 0.011353711597621441, "policy_loss": -0.1364479959011078, "vf_loss": 349.1905822753906, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9572845101356506, "entropy": 8.222609519958496, "cur_lr": 4.999999873689376e-05, "total_loss": 349.0714111328125}, "load_time_ms": 0.633, "num_steps_sampled": 946800, "grad_time_ms": 672.581, "update_time_ms": 2.542, "sample_time_ms": 30597.911}, "date": "2025-08-30_22-53-07", "hostname": "cda-server-4", "time_this_iter_s": 30.840476274490356, "episodes_total": 4734, "timestamp": 1756587187, "node_ip": "10.157.146.4", "done": false, "time_total_s": 24150.974388360977, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 790, "episode_reward_mean": -618.0625976085344, "training_iteration": 790, "timesteps_total": 948000, "policy_reward_mean": {}, "episode_reward_min": -682.232984703791, "timesteps_since_restore": 948000, "num_metric_batches_dropped": 0, "time_since_restore": 24180.432316064835, "episode_reward_max": -456.971305317847, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 948000, "default": {"kl": 0.013570081442594528, "policy_loss": -0.13363581895828247, "vf_loss": 141.90858459472656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9803833365440369, "entropy": 8.579425811767578, "cur_lr": 4.999999873689376e-05, "total_loss": 141.79554748535156}, "load_time_ms": 0.636, "num_steps_sampled": 948000, "grad_time_ms": 680.232, "update_time_ms": 2.354, "sample_time_ms": 30279.324}, "date": "2025-08-30_22-53-37", "hostname": "cda-server-4", "time_this_iter_s": 29.457927703857422, "episodes_total": 4740, "timestamp": 1756587217, "node_ip": "10.157.146.4", "done": false, "time_total_s": 24180.432316064835, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 791, "episode_reward_mean": -616.9302080780805, "training_iteration": 791, "timesteps_total": 949200, "policy_reward_mean": {}, "episode_reward_min": -682.232984703791, "timesteps_since_restore": 949200, "num_metric_batches_dropped": 0, "time_since_restore": 24211.73507142067, "episode_reward_max": -456.971305317847, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 949200, "default": {"kl": 0.011732811108231544, "policy_loss": -0.14369820058345795, "vf_loss": 959.166259765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9636921286582947, "entropy": 8.297252655029297, "cur_lr": 4.999999873689376e-05, "total_loss": 959.0403442382812}, "load_time_ms": 0.625, "num_steps_sampled": 949200, "grad_time_ms": 681.291, "update_time_ms": 2.371, "sample_time_ms": 30427.156}, "date": "2025-08-30_22-54-08", "hostname": "cda-server-4", "time_this_iter_s": 31.30275535583496, "episodes_total": 4746, "timestamp": 1756587248, "node_ip": "10.157.146.4", "done": false, "time_total_s": 24211.73507142067, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 792, "episode_reward_mean": -616.3319022985244, "training_iteration": 792, "timesteps_total": 950400, "policy_reward_mean": {}, "episode_reward_min": -682.232984703791, "timesteps_since_restore": 950400, "num_metric_batches_dropped": 0, "time_since_restore": 24242.298273324966, "episode_reward_max": -456.971305317847, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 950400, "default": {"kl": 0.009275643154978752, "policy_loss": -0.11351803690195084, "vf_loss": 401.2407531738281, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9441074728965759, "entropy": 8.123478889465332, "cur_lr": 4.999999873689376e-05, "total_loss": 401.14129638671875}, "load_time_ms": 0.624, "num_steps_sampled": 950400, "grad_time_ms": 677.089, "update_time_ms": 2.369, "sample_time_ms": 30338.945}, "date": "2025-08-30_22-54-39", "hostname": "cda-server-4", "time_this_iter_s": 30.563201904296875, "episodes_total": 4752, "timestamp": 1756587279, "node_ip": "10.157.146.4", "done": false, "time_total_s": 24242.298273324966, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 793, "episode_reward_mean": -614.9463348238053, "training_iteration": 793, "timesteps_total": 951600, "policy_reward_mean": {}, "episode_reward_min": -682.232984703791, "timesteps_since_restore": 951600, "num_metric_batches_dropped": 0, "time_since_restore": 24273.148542165756, "episode_reward_max": -456.971305317847, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 951600, "default": {"kl": 0.009811273775994778, "policy_loss": -0.12209924310445786, "vf_loss": 354.7138671875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9503563642501831, "entropy": 7.944812297821045, "cur_lr": 4.999999873689376e-05, "total_loss": 354.6066589355469}, "load_time_ms": 0.629, "num_steps_sampled": 951600, "grad_time_ms": 695.101, "update_time_ms": 2.341, "sample_time_ms": 30319.232}, "date": "2025-08-30_22-55-09", "hostname": "cda-server-4", "time_this_iter_s": 30.850268840789795, "episodes_total": 4758, "timestamp": 1756587309, "node_ip": "10.157.146.4", "done": false, "time_total_s": 24273.148542165756, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 794, "episode_reward_mean": -616.9800990135174, "training_iteration": 794, "timesteps_total": 952800, "policy_reward_mean": {}, "episode_reward_min": -682.232984703791, "timesteps_since_restore": 952800, "num_metric_batches_dropped": 0, "time_since_restore": 24301.008211135864, "episode_reward_max": -462.0467579791261, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 952800, "default": {"kl": 0.011599867604672909, "policy_loss": -0.12965898215770721, "vf_loss": 271.25494384765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.962688148021698, "entropy": 8.584208488464355, "cur_lr": 4.999999873689376e-05, "total_loss": 271.1429138183594}, "load_time_ms": 0.631, "num_steps_sampled": 952800, "grad_time_ms": 659.629, "update_time_ms": 2.415, "sample_time_ms": 29897.512}, "date": "2025-08-30_22-55-37", "hostname": "cda-server-4", "time_this_iter_s": 27.859668970108032, "episodes_total": 4764, "timestamp": 1756587337, "node_ip": "10.157.146.4", "done": false, "time_total_s": 24301.008211135864, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 795, "episode_reward_mean": -617.2758571129427, "training_iteration": 795, "timesteps_total": 954000, "policy_reward_mean": {}, "episode_reward_min": -682.232984703791, "timesteps_since_restore": 954000, "num_metric_batches_dropped": 0, "time_since_restore": 24331.194785118103, "episode_reward_max": -462.0467579791261, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 954000, "default": {"kl": 0.010118423961102962, "policy_loss": -0.12583065032958984, "vf_loss": 283.4810485839844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9631593227386475, "entropy": 8.14030647277832, "cur_lr": 4.999999873689376e-05, "total_loss": 283.3705749511719}, "load_time_ms": 0.621, "num_steps_sampled": 954000, "grad_time_ms": 651.763, "update_time_ms": 2.221, "sample_time_ms": 29719.333}, "date": "2025-08-30_22-56-07", "hostname": "cda-server-4", "time_this_iter_s": 30.18657398223877, "episodes_total": 4770, "timestamp": 1756587367, "node_ip": "10.157.146.4", "done": false, "time_total_s": 24331.194785118103, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 796, "episode_reward_mean": -617.3903247706859, "training_iteration": 796, "timesteps_total": 955200, "policy_reward_mean": {}, "episode_reward_min": -680.910862018182, "timesteps_since_restore": 955200, "num_metric_batches_dropped": 0, "time_since_restore": 24363.874492168427, "episode_reward_max": -462.0467579791261, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 955200, "default": {"kl": 0.012515135109424591, "policy_loss": -0.14742593467235565, "vf_loss": 412.6019592285156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9536768794059753, "entropy": 8.435380935668945, "cur_lr": 4.999999873689376e-05, "total_loss": 412.4735412597656}, "load_time_ms": 0.614, "num_steps_sampled": 955200, "grad_time_ms": 647.917, "update_time_ms": 2.238, "sample_time_ms": 30010.179}, "date": "2025-08-30_22-56-40", "hostname": "cda-server-4", "time_this_iter_s": 32.679707050323486, "episodes_total": 4776, "timestamp": 1756587400, "node_ip": "10.157.146.4", "done": false, "time_total_s": 24363.874492168427, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 797, "episode_reward_mean": -618.110649569905, "training_iteration": 797, "timesteps_total": 956400, "policy_reward_mean": {}, "episode_reward_min": -680.910862018182, "timesteps_since_restore": 956400, "num_metric_batches_dropped": 0, "time_since_restore": 24393.843097686768, "episode_reward_max": -462.0467579791261, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 956400, "default": {"kl": 0.009970907121896744, "policy_loss": -0.13550782203674316, "vf_loss": 293.62615966796875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9602752327919006, "entropy": 8.389580726623535, "cur_lr": 4.999999873689376e-05, "total_loss": 293.50579833984375}, "load_time_ms": 0.623, "num_steps_sampled": 956400, "grad_time_ms": 639.075, "update_time_ms": 2.229, "sample_time_ms": 29910.289}, "date": "2025-08-30_22-57-10", "hostname": "cda-server-4", "time_this_iter_s": 29.968605518341064, "episodes_total": 4782, "timestamp": 1756587430, "node_ip": "10.157.146.4", "done": false, "time_total_s": 24393.843097686768, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 798, "episode_reward_mean": -617.4823953189282, "training_iteration": 798, "timesteps_total": 957600, "policy_reward_mean": {}, "episode_reward_min": -680.910862018182, "timesteps_since_restore": 957600, "num_metric_batches_dropped": 0, "time_since_restore": 24423.601734876633, "episode_reward_max": -462.0467579791261, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 957600, "default": {"kl": 0.010745096951723099, "policy_loss": -0.13857348263263702, "vf_loss": 276.32391357421875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9733731150627136, "entropy": 8.495758056640625, "cur_lr": 4.999999873689376e-05, "total_loss": 276.20166015625}, "load_time_ms": 0.641, "num_steps_sampled": 957600, "grad_time_ms": 629.508, "update_time_ms": 2.191, "sample_time_ms": 29710.435}, "date": "2025-08-30_22-57-40", "hostname": "cda-server-4", "time_this_iter_s": 29.758637189865112, "episodes_total": 4788, "timestamp": 1756587460, "node_ip": "10.157.146.4", "done": false, "time_total_s": 24423.601734876633, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 799, "episode_reward_mean": -616.9769118076562, "training_iteration": 799, "timesteps_total": 958800, "policy_reward_mean": {}, "episode_reward_min": -680.910862018182, "timesteps_since_restore": 958800, "num_metric_batches_dropped": 0, "time_since_restore": 24457.09190106392, "episode_reward_max": -462.0467579791261, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 958800, "default": {"kl": 0.009615018963813782, "policy_loss": -0.12914477288722992, "vf_loss": 624.3413696289062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9329981207847595, "entropy": 8.25693130493164, "cur_lr": 4.999999873689376e-05, "total_loss": 624.226806640625}, "load_time_ms": 0.63, "num_steps_sampled": 958800, "grad_time_ms": 632.136, "update_time_ms": 2.207, "sample_time_ms": 29972.801}, "date": "2025-08-30_22-58-13", "hostname": "cda-server-4", "time_this_iter_s": 33.49016618728638, "episodes_total": 4794, "timestamp": 1756587493, "node_ip": "10.157.146.4", "done": false, "time_total_s": 24457.09190106392, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 800, "episode_reward_mean": -617.3368035566111, "training_iteration": 800, "timesteps_total": 960000, "policy_reward_mean": {}, "episode_reward_min": -680.910862018182, "timesteps_since_restore": 960000, "num_metric_batches_dropped": 0, "time_since_restore": 24487.515795230865, "episode_reward_max": -462.0467579791261, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 960000, "default": {"kl": 0.009975354187190533, "policy_loss": -0.1223042830824852, "vf_loss": 363.14239501953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9666277766227722, "entropy": 8.993130683898926, "cur_lr": 4.999999873689376e-05, "total_loss": 363.0352478027344}, "load_time_ms": 0.638, "num_steps_sampled": 960000, "grad_time_ms": 632.298, "update_time_ms": 2.274, "sample_time_ms": 30069.171}, "date": "2025-08-30_22-58-44", "hostname": "cda-server-4", "time_this_iter_s": 30.42389416694641, "episodes_total": 4800, "timestamp": 1756587524, "node_ip": "10.157.146.4", "done": false, "time_total_s": 24487.515795230865, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 801, "episode_reward_mean": -616.7778975062632, "training_iteration": 801, "timesteps_total": 961200, "policy_reward_mean": {}, "episode_reward_min": -680.910862018182, "timesteps_since_restore": 961200, "num_metric_batches_dropped": 0, "time_since_restore": 24520.158903360367, "episode_reward_max": -462.0467579791261, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 961200, "default": {"kl": 0.009303072467446327, "policy_loss": -0.11772796511650085, "vf_loss": 475.03326416015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9509909749031067, "entropy": 8.57107925415039, "cur_lr": 4.999999873689376e-05, "total_loss": 474.92962646484375}, "load_time_ms": 0.64, "num_steps_sampled": 961200, "grad_time_ms": 620.412, "update_time_ms": 2.307, "sample_time_ms": 30215.141}, "date": "2025-08-30_22-59-17", "hostname": "cda-server-4", "time_this_iter_s": 32.64310812950134, "episodes_total": 4806, "timestamp": 1756587557, "node_ip": "10.157.146.4", "done": false, "time_total_s": 24520.158903360367, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 802, "episode_reward_mean": -616.2160137290562, "training_iteration": 802, "timesteps_total": 962400, "policy_reward_mean": {}, "episode_reward_min": -680.910862018182, "timesteps_since_restore": 962400, "num_metric_batches_dropped": 0, "time_since_restore": 24551.8845410347, "episode_reward_max": -462.0467579791261, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 962400, "default": {"kl": 0.009475103579461575, "policy_loss": -0.12203587591648102, "vf_loss": 210.399658203125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9750916957855225, "entropy": 8.455570220947266, "cur_lr": 4.999999873689376e-05, "total_loss": 210.2919921875}, "load_time_ms": 0.634, "num_steps_sampled": 962400, "grad_time_ms": 621.209, "update_time_ms": 2.298, "sample_time_ms": 30330.691}, "date": "2025-08-30_22-59-48", "hostname": "cda-server-4", "time_this_iter_s": 31.725637674331665, "episodes_total": 4812, "timestamp": 1756587588, "node_ip": "10.157.146.4", "done": false, "time_total_s": 24551.8845410347, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 803, "episode_reward_mean": -616.8965897785365, "training_iteration": 803, "timesteps_total": 963600, "policy_reward_mean": {}, "episode_reward_min": -680.910862018182, "timesteps_since_restore": 963600, "num_metric_batches_dropped": 0, "time_since_restore": 24583.31604361534, "episode_reward_max": -462.0467579791261, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 963600, "default": {"kl": 0.009223456494510174, "policy_loss": -0.1269763708114624, "vf_loss": 502.74273681640625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9389813542366028, "entropy": 8.771031379699707, "cur_lr": 4.999999873689376e-05, "total_loss": 502.6297607421875}, "load_time_ms": 0.651, "num_steps_sampled": 963600, "grad_time_ms": 624.304, "update_time_ms": 2.254, "sample_time_ms": 30385.712}, "date": "2025-08-30_23-00-20", "hostname": "cda-server-4", "time_this_iter_s": 31.4315025806427, "episodes_total": 4818, "timestamp": 1756587620, "node_ip": "10.157.146.4", "done": false, "time_total_s": 24583.31604361534, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 804, "episode_reward_mean": -617.6859885259414, "training_iteration": 804, "timesteps_total": 964800, "policy_reward_mean": {}, "episode_reward_min": -680.910862018182, "timesteps_since_restore": 964800, "num_metric_batches_dropped": 0, "time_since_restore": 24613.62823319435, "episode_reward_max": -462.0467579791261, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 964800, "default": {"kl": 0.00977497547864914, "policy_loss": -0.13748212158679962, "vf_loss": 230.48699951171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9661884307861328, "entropy": 8.533207893371582, "cur_lr": 4.999999873689376e-05, "total_loss": 230.36436462402344}, "load_time_ms": 0.658, "num_steps_sampled": 964800, "grad_time_ms": 641.748, "update_time_ms": 2.209, "sample_time_ms": 30613.552}, "date": "2025-08-30_23-00-50", "hostname": "cda-server-4", "time_this_iter_s": 30.31218957901001, "episodes_total": 4824, "timestamp": 1756587650, "node_ip": "10.157.146.4", "done": false, "time_total_s": 24613.62823319435, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 805, "episode_reward_mean": -618.866306977487, "training_iteration": 805, "timesteps_total": 966000, "policy_reward_mean": {}, "episode_reward_min": -680.910862018182, "timesteps_since_restore": 966000, "num_metric_batches_dropped": 0, "time_since_restore": 24643.110585212708, "episode_reward_max": -567.0866143162455, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 966000, "default": {"kl": 0.008465996012091637, "policy_loss": -0.1302030235528946, "vf_loss": 97.72959899902344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9887266159057617, "entropy": 8.678384780883789, "cur_lr": 4.999999873689376e-05, "total_loss": 97.61225891113281}, "load_time_ms": 0.658, "num_steps_sampled": 966000, "grad_time_ms": 650.105, "update_time_ms": 2.215, "sample_time_ms": 30534.772}, "date": "2025-08-30_23-01-20", "hostname": "cda-server-4", "time_this_iter_s": 29.482352018356323, "episodes_total": 4830, "timestamp": 1756587680, "node_ip": "10.157.146.4", "done": false, "time_total_s": 24643.110585212708, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 806, "episode_reward_mean": -618.49784656158, "training_iteration": 806, "timesteps_total": 967200, "policy_reward_mean": {}, "episode_reward_min": -671.2708866022449, "timesteps_since_restore": 967200, "num_metric_batches_dropped": 0, "time_since_restore": 24676.277683258057, "episode_reward_max": -567.0866143162455, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 967200, "default": {"kl": 0.008271808736026287, "policy_loss": -0.11396095156669617, "vf_loss": 306.2438049316406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9753449559211731, "entropy": 8.42092514038086, "cur_lr": 4.999999873689376e-05, "total_loss": 306.1424255371094}, "load_time_ms": 0.655, "num_steps_sampled": 967200, "grad_time_ms": 667.379, "update_time_ms": 2.238, "sample_time_ms": 30566.134}, "date": "2025-08-30_23-01-53", "hostname": "cda-server-4", "time_this_iter_s": 33.16709804534912, "episodes_total": 4836, "timestamp": 1756587713, "node_ip": "10.157.146.4", "done": false, "time_total_s": 24676.277683258057, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 807, "episode_reward_mean": -619.0588052367461, "training_iteration": 807, "timesteps_total": 968400, "policy_reward_mean": {}, "episode_reward_min": -671.2708866022449, "timesteps_since_restore": 968400, "num_metric_batches_dropped": 0, "time_since_restore": 24706.94550395012, "episode_reward_max": -567.0866143162455, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 968400, "default": {"kl": 0.01057616900652647, "policy_loss": -0.13372217118740082, "vf_loss": 355.6243591308594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9661322832107544, "entropy": 8.420702934265137, "cur_lr": 4.999999873689376e-05, "total_loss": 355.5067138671875}, "load_time_ms": 0.644, "num_steps_sampled": 968400, "grad_time_ms": 680.147, "update_time_ms": 2.284, "sample_time_ms": 30623.266}, "date": "2025-08-30_23-02-23", "hostname": "cda-server-4", "time_this_iter_s": 30.667820692062378, "episodes_total": 4842, "timestamp": 1756587743, "node_ip": "10.157.146.4", "done": false, "time_total_s": 24706.94550395012, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 808, "episode_reward_mean": -620.6012216102421, "training_iteration": 808, "timesteps_total": 969600, "policy_reward_mean": {}, "episode_reward_min": -795.6608774783772, "timesteps_since_restore": 969600, "num_metric_batches_dropped": 0, "time_since_restore": 24739.103223085403, "episode_reward_max": -567.0866143162455, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 969600, "default": {"kl": 0.01153232716023922, "policy_loss": -0.14038197696208954, "vf_loss": 1815.8182373046875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8234453797340393, "entropy": 8.622246742248535, "cur_lr": 4.999999873689376e-05, "total_loss": 1815.695556640625}, "load_time_ms": 0.621, "num_steps_sampled": 969600, "grad_time_ms": 690.878, "update_time_ms": 2.305, "sample_time_ms": 30852.459}, "date": "2025-08-30_23-02-56", "hostname": "cda-server-4", "time_this_iter_s": 32.157719135284424, "episodes_total": 4848, "timestamp": 1756587776, "node_ip": "10.157.146.4", "done": false, "time_total_s": 24739.103223085403, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 809, "episode_reward_mean": -620.6389542321517, "training_iteration": 809, "timesteps_total": 970800, "policy_reward_mean": {}, "episode_reward_min": -795.6608774783772, "timesteps_since_restore": 970800, "num_metric_batches_dropped": 0, "time_since_restore": 24769.45698595047, "episode_reward_max": -518.9058223383454, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 970800, "default": {"kl": 0.011857944540679455, "policy_loss": -0.13925303518772125, "vf_loss": 216.44122314453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9693084359169006, "entropy": 8.522147178649902, "cur_lr": 4.999999873689376e-05, "total_loss": 216.3199462890625}, "load_time_ms": 0.625, "num_steps_sampled": 970800, "grad_time_ms": 697.281, "update_time_ms": 2.41, "sample_time_ms": 30532.286}, "date": "2025-08-30_23-03-26", "hostname": "cda-server-4", "time_this_iter_s": 30.35376286506653, "episodes_total": 4854, "timestamp": 1756587806, "node_ip": "10.157.146.4", "done": false, "time_total_s": 24769.45698595047, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 810, "episode_reward_mean": -621.3529827972724, "training_iteration": 810, "timesteps_total": 972000, "policy_reward_mean": {}, "episode_reward_min": -795.6608774783772, "timesteps_since_restore": 972000, "num_metric_batches_dropped": 0, "time_since_restore": 24802.595408201218, "episode_reward_max": -518.9058223383454, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 972000, "default": {"kl": 0.010155360214412212, "policy_loss": -0.13946455717086792, "vf_loss": 501.6208190917969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9592635631561279, "entropy": 8.480259895324707, "cur_lr": 4.999999873689376e-05, "total_loss": 501.4967956542969}, "load_time_ms": 0.624, "num_steps_sampled": 972000, "grad_time_ms": 702.06, "update_time_ms": 2.349, "sample_time_ms": 30798.987}, "date": "2025-08-30_23-03-59", "hostname": "cda-server-4", "time_this_iter_s": 33.13842225074768, "episodes_total": 4860, "timestamp": 1756587839, "node_ip": "10.157.146.4", "done": false, "time_total_s": 24802.595408201218, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 811, "episode_reward_mean": -622.5174318049312, "training_iteration": 811, "timesteps_total": 973200, "policy_reward_mean": {}, "episode_reward_min": -795.6608774783772, "timesteps_since_restore": 973200, "num_metric_batches_dropped": 0, "time_since_restore": 24831.671720266342, "episode_reward_max": -518.9058223383454, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 973200, "default": {"kl": 0.011253601871430874, "policy_loss": -0.132335364818573, "vf_loss": 909.946533203125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9252855777740479, "entropy": 8.736084938049316, "cur_lr": 4.999999873689376e-05, "total_loss": 909.831298828125}, "load_time_ms": 0.625, "num_steps_sampled": 973200, "grad_time_ms": 716.276, "update_time_ms": 2.342, "sample_time_ms": 30427.998}, "date": "2025-08-30_23-04-28", "hostname": "cda-server-4", "time_this_iter_s": 29.07631206512451, "episodes_total": 4866, "timestamp": 1756587868, "node_ip": "10.157.146.4", "done": false, "time_total_s": 24831.671720266342, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 812, "episode_reward_mean": -621.7981644045038, "training_iteration": 812, "timesteps_total": 974400, "policy_reward_mean": {}, "episode_reward_min": -795.6608774783772, "timesteps_since_restore": 974400, "num_metric_batches_dropped": 0, "time_since_restore": 24861.40155315399, "episode_reward_max": -518.9058223383454, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 974400, "default": {"kl": 0.010779048316180706, "policy_loss": -0.1297629326581955, "vf_loss": 227.63180541992188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9729069471359253, "entropy": 8.060138702392578, "cur_lr": 4.999999873689376e-05, "total_loss": 227.5184326171875}, "load_time_ms": 0.631, "num_steps_sampled": 974400, "grad_time_ms": 721.952, "update_time_ms": 2.403, "sample_time_ms": 30222.633}, "date": "2025-08-30_23-04-58", "hostname": "cda-server-4", "time_this_iter_s": 29.729832887649536, "episodes_total": 4872, "timestamp": 1756587898, "node_ip": "10.157.146.4", "done": false, "time_total_s": 24861.40155315399, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 813, "episode_reward_mean": -620.6455984539359, "training_iteration": 813, "timesteps_total": 975600, "policy_reward_mean": {}, "episode_reward_min": -795.6608774783772, "timesteps_since_restore": 975600, "num_metric_batches_dropped": 0, "time_since_restore": 24894.560876846313, "episode_reward_max": -518.9058223383454, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 975600, "default": {"kl": 0.010235454887151718, "policy_loss": -0.12713530659675598, "vf_loss": 711.3500366210938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9149748682975769, "entropy": 8.074166297912598, "cur_lr": 4.999999873689376e-05, "total_loss": 711.238525390625}, "load_time_ms": 0.601, "num_steps_sampled": 975600, "grad_time_ms": 729.781, "update_time_ms": 2.471, "sample_time_ms": 30387.566}, "date": "2025-08-30_23-05-31", "hostname": "cda-server-4", "time_this_iter_s": 33.15932369232178, "episodes_total": 4878, "timestamp": 1756587931, "node_ip": "10.157.146.4", "done": false, "time_total_s": 24894.560876846313, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 814, "episode_reward_mean": -621.8461453627066, "training_iteration": 814, "timesteps_total": 976800, "policy_reward_mean": {}, "episode_reward_min": -795.6608774783772, "timesteps_since_restore": 976800, "num_metric_batches_dropped": 0, "time_since_restore": 24925.988095998764, "episode_reward_max": -518.9058223383454, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 976800, "default": {"kl": 0.010822538286447525, "policy_loss": -0.13819581270217896, "vf_loss": 657.268798828125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9313454031944275, "entropy": 8.60904312133789, "cur_lr": 4.999999873689376e-05, "total_loss": 657.14697265625}, "load_time_ms": 0.594, "num_steps_sampled": 976800, "grad_time_ms": 734.008, "update_time_ms": 2.766, "sample_time_ms": 30494.538}, "date": "2025-08-30_23-06-03", "hostname": "cda-server-4", "time_this_iter_s": 31.42721915245056, "episodes_total": 4884, "timestamp": 1756587963, "node_ip": "10.157.146.4", "done": false, "time_total_s": 24925.988095998764, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 815, "episode_reward_mean": -622.0528931783807, "training_iteration": 815, "timesteps_total": 978000, "policy_reward_mean": {}, "episode_reward_min": -795.6608774783772, "timesteps_since_restore": 978000, "num_metric_batches_dropped": 0, "time_since_restore": 24958.921911001205, "episode_reward_max": -518.9058223383454, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 978000, "default": {"kl": 0.011980934999883175, "policy_loss": -0.14205758273601532, "vf_loss": 61.07197952270508, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9911708831787109, "entropy": 8.249730110168457, "cur_lr": 4.999999873689376e-05, "total_loss": 60.9481201171875}, "load_time_ms": 0.624, "num_steps_sampled": 978000, "grad_time_ms": 722.182, "update_time_ms": 2.764, "sample_time_ms": 30851.507}, "date": "2025-08-30_23-06-36", "hostname": "cda-server-4", "time_this_iter_s": 32.933815002441406, "episodes_total": 4890, "timestamp": 1756587996, "node_ip": "10.157.146.4", "done": false, "time_total_s": 24958.921911001205, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 816, "episode_reward_mean": -622.4546428724608, "training_iteration": 816, "timesteps_total": 979200, "policy_reward_mean": {}, "episode_reward_min": -795.6608774783772, "timesteps_since_restore": 979200, "num_metric_batches_dropped": 0, "time_since_restore": 24988.362748622894, "episode_reward_max": -518.9058223383454, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 979200, "default": {"kl": 0.00988820195198059, "policy_loss": -0.12943702936172485, "vf_loss": 248.39239501953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9687218070030212, "entropy": 8.496028900146484, "cur_lr": 4.999999873689376e-05, "total_loss": 248.27796936035156}, "load_time_ms": 0.627, "num_steps_sampled": 979200, "grad_time_ms": 724.312, "update_time_ms": 2.691, "sample_time_ms": 30476.813}, "date": "2025-08-30_23-07-05", "hostname": "cda-server-4", "time_this_iter_s": 29.440837621688843, "episodes_total": 4896, "timestamp": 1756588025, "node_ip": "10.157.146.4", "done": false, "time_total_s": 24988.362748622894, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 817, "episode_reward_mean": -621.7537301512481, "training_iteration": 817, "timesteps_total": 980400, "policy_reward_mean": {}, "episode_reward_min": -795.6608774783772, "timesteps_since_restore": 980400, "num_metric_batches_dropped": 0, "time_since_restore": 25020.577302455902, "episode_reward_max": -518.9058223383454, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 980400, "default": {"kl": 0.01077166199684143, "policy_loss": -0.14009246230125427, "vf_loss": 624.4223022460938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9217094779014587, "entropy": 8.993009567260742, "cur_lr": 4.999999873689376e-05, "total_loss": 624.2985229492188}, "load_time_ms": 0.638, "num_steps_sampled": 980400, "grad_time_ms": 732.76, "update_time_ms": 2.678, "sample_time_ms": 30622.996}, "date": "2025-08-30_23-07-37", "hostname": "cda-server-4", "time_this_iter_s": 32.21455383300781, "episodes_total": 4902, "timestamp": 1756588057, "node_ip": "10.157.146.4", "done": false, "time_total_s": 25020.577302455902, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 818, "episode_reward_mean": -622.7902129687518, "training_iteration": 818, "timesteps_total": 981600, "policy_reward_mean": {}, "episode_reward_min": -795.6608774783772, "timesteps_since_restore": 981600, "num_metric_batches_dropped": 0, "time_since_restore": 25049.605474233627, "episode_reward_max": -518.9058223383454, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 981600, "default": {"kl": 0.011098641902208328, "policy_loss": -0.14164811372756958, "vf_loss": 303.3591003417969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9631001353263855, "entropy": 8.632856369018555, "cur_lr": 4.999999873689376e-05, "total_loss": 303.2342834472656}, "load_time_ms": 0.632, "num_steps_sampled": 981600, "grad_time_ms": 727.527, "update_time_ms": 2.703, "sample_time_ms": 30315.268}, "date": "2025-08-30_23-08-06", "hostname": "cda-server-4", "time_this_iter_s": 29.02817177772522, "episodes_total": 4908, "timestamp": 1756588086, "node_ip": "10.157.146.4", "done": false, "time_total_s": 25049.605474233627, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 819, "episode_reward_mean": -624.4523467328033, "training_iteration": 819, "timesteps_total": 982800, "policy_reward_mean": {}, "episode_reward_min": -795.6608774783772, "timesteps_since_restore": 982800, "num_metric_batches_dropped": 0, "time_since_restore": 25081.449553012848, "episode_reward_max": -518.9058223383454, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 982800, "default": {"kl": 0.00926895346492529, "policy_loss": -0.132496178150177, "vf_loss": 654.1864624023438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9138028025627136, "entropy": 8.86606216430664, "cur_lr": 4.999999873689376e-05, "total_loss": 654.0679931640625}, "load_time_ms": 0.656, "num_steps_sampled": 982800, "grad_time_ms": 711.51, "update_time_ms": 2.642, "sample_time_ms": 30480.345}, "date": "2025-08-30_23-08-38", "hostname": "cda-server-4", "time_this_iter_s": 31.84407877922058, "episodes_total": 4914, "timestamp": 1756588118, "node_ip": "10.157.146.4", "done": false, "time_total_s": 25081.449553012848, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 820, "episode_reward_mean": -623.3140771863203, "training_iteration": 820, "timesteps_total": 984000, "policy_reward_mean": {}, "episode_reward_min": -795.6608774783772, "timesteps_since_restore": 984000, "num_metric_batches_dropped": 0, "time_since_restore": 25112.337039470673, "episode_reward_max": -490.39339904058795, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 984000, "default": {"kl": 0.012519365176558495, "policy_loss": -0.14844690263271332, "vf_loss": 555.854248046875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9543386101722717, "entropy": 8.193727493286133, "cur_lr": 4.999999873689376e-05, "total_loss": 555.724853515625}, "load_time_ms": 0.645, "num_steps_sampled": 984000, "grad_time_ms": 696.541, "update_time_ms": 2.685, "sample_time_ms": 30270.236}, "date": "2025-08-30_23-09-09", "hostname": "cda-server-4", "time_this_iter_s": 30.887486457824707, "episodes_total": 4920, "timestamp": 1756588149, "node_ip": "10.157.146.4", "done": false, "time_total_s": 25112.337039470673, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 821, "episode_reward_mean": -623.3736300552966, "training_iteration": 821, "timesteps_total": 985200, "policy_reward_mean": {}, "episode_reward_min": -795.6608774783772, "timesteps_since_restore": 985200, "num_metric_batches_dropped": 0, "time_since_restore": 25145.192175865173, "episode_reward_max": -490.39339904058795, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 985200, "default": {"kl": 0.009890229441225529, "policy_loss": -0.13429845869541168, "vf_loss": 238.9169921875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9728238582611084, "entropy": 8.463912963867188, "cur_lr": 4.999999873689376e-05, "total_loss": 238.79771423339844}, "load_time_ms": 0.642, "num_steps_sampled": 985200, "grad_time_ms": 669.732, "update_time_ms": 2.662, "sample_time_ms": 30675.049}, "date": "2025-08-30_23-09-42", "hostname": "cda-server-4", "time_this_iter_s": 32.85513639450073, "episodes_total": 4926, "timestamp": 1756588182, "node_ip": "10.157.146.4", "done": false, "time_total_s": 25145.192175865173, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 822, "episode_reward_mean": -623.1115460795901, "training_iteration": 822, "timesteps_total": 986400, "policy_reward_mean": {}, "episode_reward_min": -795.6608774783772, "timesteps_since_restore": 986400, "num_metric_batches_dropped": 0, "time_since_restore": 25175.092620134354, "episode_reward_max": -490.39339904058795, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 986400, "default": {"kl": 0.007772459648549557, "policy_loss": -0.11883541941642761, "vf_loss": 428.6787109375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9411756992340088, "entropy": 8.100112915039062, "cur_lr": 4.999999873689376e-05, "total_loss": 428.5716552734375}, "load_time_ms": 0.639, "num_steps_sampled": 986400, "grad_time_ms": 665.862, "update_time_ms": 2.612, "sample_time_ms": 30696.061}, "date": "2025-08-30_23-10-12", "hostname": "cda-server-4", "time_this_iter_s": 29.900444269180298, "episodes_total": 4932, "timestamp": 1756588212, "node_ip": "10.157.146.4", "done": false, "time_total_s": 25175.092620134354, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 823, "episode_reward_mean": -622.5223473919036, "training_iteration": 823, "timesteps_total": 987600, "policy_reward_mean": {}, "episode_reward_min": -795.6608774783772, "timesteps_since_restore": 987600, "num_metric_batches_dropped": 0, "time_since_restore": 25207.35070681572, "episode_reward_max": -490.39339904058795, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 987600, "default": {"kl": 0.00948462262749672, "policy_loss": -0.1226629689335823, "vf_loss": 191.89393615722656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9723497033119202, "entropy": 8.355042457580566, "cur_lr": 4.999999873689376e-05, "total_loss": 191.7856903076172}, "load_time_ms": 0.665, "num_steps_sampled": 987600, "grad_time_ms": 656.039, "update_time_ms": 2.624, "sample_time_ms": 30615.703}, "date": "2025-08-30_23-10-44", "hostname": "cda-server-4", "time_this_iter_s": 32.25808668136597, "episodes_total": 4938, "timestamp": 1756588244, "node_ip": "10.157.146.4", "done": false, "time_total_s": 25207.35070681572, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 824, "episode_reward_mean": -623.0042322987746, "training_iteration": 824, "timesteps_total": 988800, "policy_reward_mean": {}, "episode_reward_min": -795.6608774783772, "timesteps_since_restore": 988800, "num_metric_batches_dropped": 0, "time_since_restore": 25238.88271355629, "episode_reward_max": -490.39339904058795, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 988800, "default": {"kl": 0.011137357912957668, "policy_loss": -0.1367693841457367, "vf_loss": 247.49783325195312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.970861554145813, "entropy": 8.342341423034668, "cur_lr": 4.999999873689376e-05, "total_loss": 247.37799072265625}, "load_time_ms": 0.699, "num_steps_sampled": 988800, "grad_time_ms": 657.406, "update_time_ms": 2.377, "sample_time_ms": 30624.985}, "date": "2025-08-30_23-11-16", "hostname": "cda-server-4", "time_this_iter_s": 31.53200674057007, "episodes_total": 4944, "timestamp": 1756588276, "node_ip": "10.157.146.4", "done": false, "time_total_s": 25238.88271355629, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 825, "episode_reward_mean": -620.3582833465944, "training_iteration": 825, "timesteps_total": 990000, "policy_reward_mean": {}, "episode_reward_min": -794.7367260721951, "timesteps_since_restore": 990000, "num_metric_batches_dropped": 0, "time_since_restore": 25267.312995672226, "episode_reward_max": -490.39339904058795, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 990000, "default": {"kl": 0.01064034178853035, "policy_loss": -0.12788432836532593, "vf_loss": 306.409423828125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9671742916107178, "entropy": 8.25655746459961, "cur_lr": 4.999999873689376e-05, "total_loss": 306.2977294921875}, "load_time_ms": 0.677, "num_steps_sampled": 990000, "grad_time_ms": 675.386, "update_time_ms": 2.411, "sample_time_ms": 30156.664}, "date": "2025-08-30_23-11-44", "hostname": "cda-server-4", "time_this_iter_s": 28.43028211593628, "episodes_total": 4950, "timestamp": 1756588304, "node_ip": "10.157.146.4", "done": false, "time_total_s": 25267.312995672226, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 826, "episode_reward_mean": -622.7879799822118, "training_iteration": 826, "timesteps_total": 991200, "policy_reward_mean": {}, "episode_reward_min": -794.7367260721951, "timesteps_since_restore": 991200, "num_metric_batches_dropped": 0, "time_since_restore": 25299.853471279144, "episode_reward_max": -490.39339904058795, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 991200, "default": {"kl": 0.010997087694704533, "policy_loss": -0.13349178433418274, "vf_loss": 1253.370849609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8539827466011047, "entropy": 8.306270599365234, "cur_lr": 4.999999873689376e-05, "total_loss": 1253.254150390625}, "load_time_ms": 0.671, "num_steps_sampled": 991200, "grad_time_ms": 660.803, "update_time_ms": 2.458, "sample_time_ms": 30481.241}, "date": "2025-08-30_23-12-17", "hostname": "cda-server-4", "time_this_iter_s": 32.540475606918335, "episodes_total": 4956, "timestamp": 1756588337, "node_ip": "10.157.146.4", "done": false, "time_total_s": 25299.853471279144, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 827, "episode_reward_mean": -622.6907449563071, "training_iteration": 827, "timesteps_total": 992400, "policy_reward_mean": {}, "episode_reward_min": -794.7367260721951, "timesteps_since_restore": 992400, "num_metric_batches_dropped": 0, "time_since_restore": 25331.844441890717, "episode_reward_max": -490.39339904058795, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 992400, "default": {"kl": 0.01100196223706007, "policy_loss": -0.14537866413593292, "vf_loss": 278.26519775390625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9681308269500732, "entropy": 8.619808197021484, "cur_lr": 4.999999873689376e-05, "total_loss": 278.1365051269531}, "load_time_ms": 0.668, "num_steps_sampled": 992400, "grad_time_ms": 639.799, "update_time_ms": 2.424, "sample_time_ms": 30480.016}, "date": "2025-08-30_23-12-49", "hostname": "cda-server-4", "time_this_iter_s": 31.990970611572266, "episodes_total": 4962, "timestamp": 1756588369, "node_ip": "10.157.146.4", "done": false, "time_total_s": 25331.844441890717, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 828, "episode_reward_mean": -622.0427210797483, "training_iteration": 828, "timesteps_total": 993600, "policy_reward_mean": {}, "episode_reward_min": -767.6431110753841, "timesteps_since_restore": 993600, "num_metric_batches_dropped": 0, "time_since_restore": 25359.234493017197, "episode_reward_max": -490.39339904058795, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 993600, "default": {"kl": 0.011769892647862434, "policy_loss": -0.13528741896152496, "vf_loss": 629.2464599609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9293681383132935, "entropy": 8.572513580322266, "cur_lr": 4.999999873689376e-05, "total_loss": 629.129150390625}, "load_time_ms": 0.696, "num_steps_sampled": 993600, "grad_time_ms": 639.532, "update_time_ms": 2.347, "sample_time_ms": 30316.472}, "date": "2025-08-30_23-13-16", "hostname": "cda-server-4", "time_this_iter_s": 27.390051126480103, "episodes_total": 4968, "timestamp": 1756588396, "node_ip": "10.157.146.4", "done": false, "time_total_s": 25359.234493017197, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 829, "episode_reward_mean": -620.3721560774503, "training_iteration": 829, "timesteps_total": 994800, "policy_reward_mean": {}, "episode_reward_min": -767.6431110753841, "timesteps_since_restore": 994800, "num_metric_batches_dropped": 0, "time_since_restore": 25391.494536161423, "episode_reward_max": -490.39339904058795, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 994800, "default": {"kl": 0.009463028982281685, "policy_loss": -0.12128346413373947, "vf_loss": 981.7686767578125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9235044121742249, "entropy": 8.107157707214355, "cur_lr": 4.999999873689376e-05, "total_loss": 981.6618041992188}, "load_time_ms": 0.7, "num_steps_sampled": 994800, "grad_time_ms": 640.161, "update_time_ms": 2.308, "sample_time_ms": 30357.404}, "date": "2025-08-30_23-13-48", "hostname": "cda-server-4", "time_this_iter_s": 32.260043144226074, "episodes_total": 4974, "timestamp": 1756588428, "node_ip": "10.157.146.4", "done": false, "time_total_s": 25391.494536161423, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 830, "episode_reward_mean": -619.7035491926401, "training_iteration": 830, "timesteps_total": 996000, "policy_reward_mean": {}, "episode_reward_min": -687.7297350001919, "timesteps_since_restore": 996000, "num_metric_batches_dropped": 0, "time_since_restore": 25424.022475481033, "episode_reward_max": -490.39339904058795, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 996000, "default": {"kl": 0.009102806448936462, "policy_loss": -0.09957706183195114, "vf_loss": 153.907958984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9766086935997009, "entropy": 8.397909164428711, "cur_lr": 4.999999873689376e-05, "total_loss": 153.82220458984375}, "load_time_ms": 0.703, "num_steps_sampled": 996000, "grad_time_ms": 653.759, "update_time_ms": 2.311, "sample_time_ms": 30507.845}, "date": "2025-08-30_23-14-21", "hostname": "cda-server-4", "time_this_iter_s": 32.527939319610596, "episodes_total": 4980, "timestamp": 1756588461, "node_ip": "10.157.146.4", "done": false, "time_total_s": 25424.022475481033, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 831, "episode_reward_mean": -618.9275179681946, "training_iteration": 831, "timesteps_total": 997200, "policy_reward_mean": {}, "episode_reward_min": -687.7297350001919, "timesteps_since_restore": 997200, "num_metric_batches_dropped": 0, "time_since_restore": 25454.280462026596, "episode_reward_max": -490.39339904058795, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 997200, "default": {"kl": 0.009416800923645496, "policy_loss": -0.11986810714006424, "vf_loss": 254.48117065429688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9587686061859131, "entropy": 7.906655311584473, "cur_lr": 4.999999873689376e-05, "total_loss": 254.37559509277344}, "load_time_ms": 0.736, "num_steps_sampled": 997200, "grad_time_ms": 678.657, "update_time_ms": 2.286, "sample_time_ms": 30223.158}, "date": "2025-08-30_23-14-51", "hostname": "cda-server-4", "time_this_iter_s": 30.257986545562744, "episodes_total": 4986, "timestamp": 1756588491, "node_ip": "10.157.146.4", "done": false, "time_total_s": 25454.280462026596, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 832, "episode_reward_mean": -619.4830892295115, "training_iteration": 832, "timesteps_total": 998400, "policy_reward_mean": {}, "episode_reward_min": -687.7297350001919, "timesteps_since_restore": 998400, "num_metric_batches_dropped": 0, "time_since_restore": 25486.542717456818, "episode_reward_max": -490.39339904058795, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 998400, "default": {"kl": 0.010034569539129734, "policy_loss": -0.14633244276046753, "vf_loss": 524.4956665039062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9356100559234619, "entropy": 8.204171180725098, "cur_lr": 4.999999873689376e-05, "total_loss": 524.3645629882812}, "load_time_ms": 0.738, "num_steps_sampled": 998400, "grad_time_ms": 699.24, "update_time_ms": 2.335, "sample_time_ms": 30438.516}, "date": "2025-08-30_23-15-24", "hostname": "cda-server-4", "time_this_iter_s": 32.26225543022156, "episodes_total": 4992, "timestamp": 1756588524, "node_ip": "10.157.146.4", "done": false, "time_total_s": 25486.542717456818, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 833, "episode_reward_mean": -619.6359586211024, "training_iteration": 833, "timesteps_total": 999600, "policy_reward_mean": {}, "episode_reward_min": -687.7297350001919, "timesteps_since_restore": 999600, "num_metric_batches_dropped": 0, "time_since_restore": 25518.850306987762, "episode_reward_max": -490.39339904058795, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 999600, "default": {"kl": 0.009509803727269173, "policy_loss": -0.12751765549182892, "vf_loss": 385.6056213378906, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9500615000724792, "entropy": 8.133018493652344, "cur_lr": 4.999999873689376e-05, "total_loss": 385.4925537109375}, "load_time_ms": 0.713, "num_steps_sampled": 999600, "grad_time_ms": 699.67, "update_time_ms": 2.356, "sample_time_ms": 30443.071}, "date": "2025-08-30_23-15-56", "hostname": "cda-server-4", "time_this_iter_s": 32.307589530944824, "episodes_total": 4998, "timestamp": 1756588556, "node_ip": "10.157.146.4", "done": false, "time_total_s": 25518.850306987762, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 834, "episode_reward_mean": -619.1586135199691, "training_iteration": 834, "timesteps_total": 1000800, "policy_reward_mean": {}, "episode_reward_min": -687.7297350001919, "timesteps_since_restore": 1000800, "num_metric_batches_dropped": 0, "time_since_restore": 25551.020187854767, "episode_reward_max": -490.39339904058795, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1000800, "default": {"kl": 0.011009465903043747, "policy_loss": -0.13784171640872955, "vf_loss": 308.63580322265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9614536762237549, "entropy": 8.166041374206543, "cur_lr": 4.999999873689376e-05, "total_loss": 308.51470947265625}, "load_time_ms": 0.677, "num_steps_sampled": 1000800, "grad_time_ms": 698.352, "update_time_ms": 2.364, "sample_time_ms": 30508.221}, "date": "2025-08-30_23-16-28", "hostname": "cda-server-4", "time_this_iter_s": 32.169880867004395, "episodes_total": 5004, "timestamp": 1756588588, "node_ip": "10.157.146.4", "done": false, "time_total_s": 25551.020187854767, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 835, "episode_reward_mean": -618.4992454727969, "training_iteration": 835, "timesteps_total": 1002000, "policy_reward_mean": {}, "episode_reward_min": -687.7297350001919, "timesteps_since_restore": 1002000, "num_metric_batches_dropped": 0, "time_since_restore": 25583.61321401596, "episode_reward_max": -490.39339904058795, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1002000, "default": {"kl": 0.01034693606197834, "policy_loss": -0.14568082988262177, "vf_loss": 424.9205322265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9525644779205322, "entropy": 8.32653522491455, "cur_lr": 4.999999873689376e-05, "total_loss": 424.7905578613281}, "load_time_ms": 0.674, "num_steps_sampled": 1002000, "grad_time_ms": 698.464, "update_time_ms": 2.349, "sample_time_ms": 30924.354}, "date": "2025-08-30_23-17-01", "hostname": "cda-server-4", "time_this_iter_s": 32.59302616119385, "episodes_total": 5010, "timestamp": 1756588621, "node_ip": "10.157.146.4", "done": false, "time_total_s": 25583.61321401596, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 836, "episode_reward_mean": -616.7811531470034, "training_iteration": 836, "timesteps_total": 1003200, "policy_reward_mean": {}, "episode_reward_min": -687.7297350001919, "timesteps_since_restore": 1003200, "num_metric_batches_dropped": 0, "time_since_restore": 25613.120048046112, "episode_reward_max": -490.39339904058795, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1003200, "default": {"kl": 0.009948622435331345, "policy_loss": -0.13617290556430817, "vf_loss": 717.985595703125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9524112343788147, "entropy": 8.567646026611328, "cur_lr": 4.999999873689376e-05, "total_loss": 717.8646240234375}, "load_time_ms": 0.679, "num_steps_sampled": 1003200, "grad_time_ms": 709.936, "update_time_ms": 2.322, "sample_time_ms": 30609.51}, "date": "2025-08-30_23-17-30", "hostname": "cda-server-4", "time_this_iter_s": 29.506834030151367, "episodes_total": 5016, "timestamp": 1756588650, "node_ip": "10.157.146.4", "done": false, "time_total_s": 25613.120048046112, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 837, "episode_reward_mean": -616.7401540753757, "training_iteration": 837, "timesteps_total": 1004400, "policy_reward_mean": {}, "episode_reward_min": -687.7297350001919, "timesteps_since_restore": 1004400, "num_metric_batches_dropped": 0, "time_since_restore": 25642.755136966705, "episode_reward_max": -527.3145808014764, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1004400, "default": {"kl": 0.009852278977632523, "policy_loss": -0.12650908529758453, "vf_loss": 242.79397583007812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9665528535842896, "entropy": 7.901372909545898, "cur_lr": 4.999999873689376e-05, "total_loss": 242.6824493408203}, "load_time_ms": 0.674, "num_steps_sampled": 1004400, "grad_time_ms": 719.331, "update_time_ms": 2.388, "sample_time_ms": 30364.385}, "date": "2025-08-30_23-18-00", "hostname": "cda-server-4", "time_this_iter_s": 29.63508892059326, "episodes_total": 5022, "timestamp": 1756588680, "node_ip": "10.157.146.4", "done": false, "time_total_s": 25642.755136966705, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 838, "episode_reward_mean": -617.0141612308925, "training_iteration": 838, "timesteps_total": 1005600, "policy_reward_mean": {}, "episode_reward_min": -687.7297350001919, "timesteps_since_restore": 1005600, "num_metric_batches_dropped": 0, "time_since_restore": 25674.127346992493, "episode_reward_max": -527.3145808014764, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1005600, "default": {"kl": 0.010175243951380253, "policy_loss": -0.12401334196329117, "vf_loss": 403.13714599609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9476993083953857, "entropy": 8.120250701904297, "cur_lr": 4.999999873689376e-05, "total_loss": 403.0285949707031}, "load_time_ms": 0.648, "num_steps_sampled": 1005600, "grad_time_ms": 718.808, "update_time_ms": 2.437, "sample_time_ms": 30763.135}, "date": "2025-08-30_23-18-31", "hostname": "cda-server-4", "time_this_iter_s": 31.372210025787354, "episodes_total": 5028, "timestamp": 1756588711, "node_ip": "10.157.146.4", "done": false, "time_total_s": 25674.127346992493, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 839, "episode_reward_mean": -616.243959418656, "training_iteration": 839, "timesteps_total": 1006800, "policy_reward_mean": {}, "episode_reward_min": -687.7297350001919, "timesteps_since_restore": 1006800, "num_metric_batches_dropped": 0, "time_since_restore": 25705.273352384567, "episode_reward_max": -527.3145808014764, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1006800, "default": {"kl": 0.010647616349160671, "policy_loss": -0.1394217312335968, "vf_loss": 476.40582275390625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9438042044639587, "entropy": 8.029191970825195, "cur_lr": 4.999999873689376e-05, "total_loss": 476.2825927734375}, "load_time_ms": 0.65, "num_steps_sampled": 1006800, "grad_time_ms": 731.706, "update_time_ms": 2.437, "sample_time_ms": 30638.874}, "date": "2025-08-30_23-19-02", "hostname": "cda-server-4", "time_this_iter_s": 31.146005392074585, "episodes_total": 5034, "timestamp": 1756588742, "node_ip": "10.157.146.4", "done": false, "time_total_s": 25705.273352384567, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 840, "episode_reward_mean": -615.3772654737875, "training_iteration": 840, "timesteps_total": 1008000, "policy_reward_mean": {}, "episode_reward_min": -687.7297350001919, "timesteps_since_restore": 1008000, "num_metric_batches_dropped": 0, "time_since_restore": 25738.707337379456, "episode_reward_max": -527.3145808014764, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1008000, "default": {"kl": 0.009658975526690483, "policy_loss": -0.1303367018699646, "vf_loss": 205.88052368164062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9706401824951172, "entropy": 8.096906661987305, "cur_lr": 4.999999873689376e-05, "total_loss": 205.7648468017578}, "load_time_ms": 0.653, "num_steps_sampled": 1008000, "grad_time_ms": 729.853, "update_time_ms": 2.411, "sample_time_ms": 30731.364}, "date": "2025-08-30_23-19-36", "hostname": "cda-server-4", "time_this_iter_s": 33.433984994888306, "episodes_total": 5040, "timestamp": 1756588776, "node_ip": "10.157.146.4", "done": false, "time_total_s": 25738.707337379456, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 841, "episode_reward_mean": -615.1959805460752, "training_iteration": 841, "timesteps_total": 1009200, "policy_reward_mean": {}, "episode_reward_min": -687.7297350001919, "timesteps_since_restore": 1009200, "num_metric_batches_dropped": 0, "time_since_restore": 25768.697842359543, "episode_reward_max": -527.3145808014764, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1009200, "default": {"kl": 0.009432967752218246, "policy_loss": -0.13086482882499695, "vf_loss": 293.5654602050781, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9656410217285156, "entropy": 8.411556243896484, "cur_lr": 4.999999873689376e-05, "total_loss": 293.44891357421875}, "load_time_ms": 0.626, "num_steps_sampled": 1009200, "grad_time_ms": 730.278, "update_time_ms": 2.395, "sample_time_ms": 30704.3}, "date": "2025-08-30_23-20-06", "hostname": "cda-server-4", "time_this_iter_s": 29.99050498008728, "episodes_total": 5046, "timestamp": 1756588806, "node_ip": "10.157.146.4", "done": false, "time_total_s": 25768.697842359543, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 842, "episode_reward_mean": -614.4480803402478, "training_iteration": 842, "timesteps_total": 1010400, "policy_reward_mean": {}, "episode_reward_min": -687.7297350001919, "timesteps_since_restore": 1010400, "num_metric_batches_dropped": 0, "time_since_restore": 25801.788211107254, "episode_reward_max": -471.54491093674767, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1010400, "default": {"kl": 0.010342339053750038, "policy_loss": -0.12283478677272797, "vf_loss": 754.7987670898438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8856211304664612, "entropy": 8.067037582397461, "cur_lr": 4.999999873689376e-05, "total_loss": 754.691650390625}, "load_time_ms": 0.628, "num_steps_sampled": 1010400, "grad_time_ms": 711.634, "update_time_ms": 2.352, "sample_time_ms": 30805.898}, "date": "2025-08-30_23-20-39", "hostname": "cda-server-4", "time_this_iter_s": 33.09036874771118, "episodes_total": 5052, "timestamp": 1756588839, "node_ip": "10.157.146.4", "done": false, "time_total_s": 25801.788211107254, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 843, "episode_reward_mean": -612.1369936121636, "training_iteration": 843, "timesteps_total": 1011600, "policy_reward_mean": {}, "episode_reward_min": -685.4989156650346, "timesteps_since_restore": 1011600, "num_metric_batches_dropped": 0, "time_since_restore": 25834.338230848312, "episode_reward_max": -471.54491093674767, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1011600, "default": {"kl": 0.009512675926089287, "policy_loss": -0.12709176540374756, "vf_loss": 605.2188110351562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9163162708282471, "entropy": 7.971207618713379, "cur_lr": 4.999999873689376e-05, "total_loss": 605.106201171875}, "load_time_ms": 0.632, "num_steps_sampled": 1011600, "grad_time_ms": 699.883, "update_time_ms": 2.339, "sample_time_ms": 30841.906}, "date": "2025-08-30_23-21-11", "hostname": "cda-server-4", "time_this_iter_s": 32.55001974105835, "episodes_total": 5058, "timestamp": 1756588871, "node_ip": "10.157.146.4", "done": false, "time_total_s": 25834.338230848312, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 844, "episode_reward_mean": -611.8554132085715, "training_iteration": 844, "timesteps_total": 1012800, "policy_reward_mean": {}, "episode_reward_min": -685.4989156650346, "timesteps_since_restore": 1012800, "num_metric_batches_dropped": 0, "time_since_restore": 25866.094943523407, "episode_reward_max": -471.54491093674767, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1012800, "default": {"kl": 0.009140574373304844, "policy_loss": -0.12313929945230484, "vf_loss": 506.81097412109375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9394739866256714, "entropy": 8.269271850585938, "cur_lr": 4.999999873689376e-05, "total_loss": 506.70172119140625}, "load_time_ms": 0.634, "num_steps_sampled": 1012800, "grad_time_ms": 686.077, "update_time_ms": 2.325, "sample_time_ms": 30814.396}, "date": "2025-08-30_23-21-43", "hostname": "cda-server-4", "time_this_iter_s": 31.756712675094604, "episodes_total": 5064, "timestamp": 1756588903, "node_ip": "10.157.146.4", "done": false, "time_total_s": 25866.094943523407, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 845, "episode_reward_mean": -612.1335602299149, "training_iteration": 845, "timesteps_total": 1014000, "policy_reward_mean": {}, "episode_reward_min": -685.4989156650346, "timesteps_since_restore": 1014000, "num_metric_batches_dropped": 0, "time_since_restore": 25894.89648747444, "episode_reward_max": -471.54491093674767, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1014000, "default": {"kl": 0.012922225520014763, "policy_loss": -0.13090075552463531, "vf_loss": 88.45018005371094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9923194050788879, "entropy": 7.63054084777832, "cur_lr": 4.999999873689376e-05, "total_loss": 88.33890533447266}, "load_time_ms": 0.623, "num_steps_sampled": 1014000, "grad_time_ms": 661.755, "update_time_ms": 2.305, "sample_time_ms": 30459.649}, "date": "2025-08-30_23-22-12", "hostname": "cda-server-4", "time_this_iter_s": 28.801543951034546, "episodes_total": 5070, "timestamp": 1756588932, "node_ip": "10.157.146.4", "done": false, "time_total_s": 25894.89648747444, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 846, "episode_reward_mean": -612.2694636131986, "training_iteration": 846, "timesteps_total": 1015200, "policy_reward_mean": {}, "episode_reward_min": -685.4989156650346, "timesteps_since_restore": 1015200, "num_metric_batches_dropped": 0, "time_since_restore": 25926.846120595932, "episode_reward_max": -471.54491093674767, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1015200, "default": {"kl": 0.008399083279073238, "policy_loss": -0.11705945432186127, "vf_loss": 303.0325927734375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9713784456253052, "entropy": 7.946738243103027, "cur_lr": 4.999999873689376e-05, "total_loss": 302.9283142089844}, "load_time_ms": 0.62, "num_steps_sampled": 1015200, "grad_time_ms": 641.724, "update_time_ms": 2.358, "sample_time_ms": 30723.931}, "date": "2025-08-30_23-22-44", "hostname": "cda-server-4", "time_this_iter_s": 31.94963312149048, "episodes_total": 5076, "timestamp": 1756588964, "node_ip": "10.157.146.4", "done": false, "time_total_s": 25926.846120595932, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 847, "episode_reward_mean": -613.0817883296575, "training_iteration": 847, "timesteps_total": 1016400, "policy_reward_mean": {}, "episode_reward_min": -685.4989156650346, "timesteps_since_restore": 1016400, "num_metric_batches_dropped": 0, "time_since_restore": 25957.67493891716, "episode_reward_max": -471.54491093674767, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1016400, "default": {"kl": 0.010202523320913315, "policy_loss": -0.1298295557498932, "vf_loss": 416.511474609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9585586190223694, "entropy": 8.099716186523438, "cur_lr": 4.999999873689376e-05, "total_loss": 416.3971252441406}, "load_time_ms": 0.624, "num_steps_sampled": 1016400, "grad_time_ms": 639.04, "update_time_ms": 2.372, "sample_time_ms": 30845.955}, "date": "2025-08-30_23-23-15", "hostname": "cda-server-4", "time_this_iter_s": 30.828818321228027, "episodes_total": 5082, "timestamp": 1756588995, "node_ip": "10.157.146.4", "done": false, "time_total_s": 25957.67493891716, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 848, "episode_reward_mean": -613.1536699773277, "training_iteration": 848, "timesteps_total": 1017600, "policy_reward_mean": {}, "episode_reward_min": -668.4423660442302, "timesteps_since_restore": 1017600, "num_metric_batches_dropped": 0, "time_since_restore": 25987.721346378326, "episode_reward_max": -471.54491093674767, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1017600, "default": {"kl": 0.009143102914094925, "policy_loss": -0.13143564760684967, "vf_loss": 669.1669921875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9292094111442566, "entropy": 8.166975975036621, "cur_lr": 4.999999873689376e-05, "total_loss": 669.0494995117188}, "load_time_ms": 0.619, "num_steps_sampled": 1017600, "grad_time_ms": 618.258, "update_time_ms": 2.432, "sample_time_ms": 30734.059}, "date": "2025-08-30_23-23-45", "hostname": "cda-server-4", "time_this_iter_s": 30.046407461166382, "episodes_total": 5088, "timestamp": 1756589025, "node_ip": "10.157.146.4", "done": false, "time_total_s": 25987.721346378326, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 849, "episode_reward_mean": -612.4199525283072, "training_iteration": 849, "timesteps_total": 1018800, "policy_reward_mean": {}, "episode_reward_min": -668.4423660442302, "timesteps_since_restore": 1018800, "num_metric_batches_dropped": 0, "time_since_restore": 26020.44348669052, "episode_reward_max": -471.54491093674767, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1018800, "default": {"kl": 0.010553406551480293, "policy_loss": -0.1355900913476944, "vf_loss": 200.979736328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9698983430862427, "entropy": 7.98581600189209, "cur_lr": 4.999999873689376e-05, "total_loss": 200.8601837158203}, "load_time_ms": 0.588, "num_steps_sampled": 1018800, "grad_time_ms": 605.577, "update_time_ms": 2.461, "sample_time_ms": 30904.349}, "date": "2025-08-30_23-24-18", "hostname": "cda-server-4", "time_this_iter_s": 32.722140312194824, "episodes_total": 5094, "timestamp": 1756589058, "node_ip": "10.157.146.4", "done": false, "time_total_s": 26020.44348669052, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 850, "episode_reward_mean": -612.0671801373261, "training_iteration": 850, "timesteps_total": 1020000, "policy_reward_mean": {}, "episode_reward_min": -670.1707710624022, "timesteps_since_restore": 1020000, "num_metric_batches_dropped": 0, "time_since_restore": 26053.090214967728, "episode_reward_max": -471.54491093674767, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1020000, "default": {"kl": 0.01066848635673523, "policy_loss": -0.13329818844795227, "vf_loss": 215.6407928466797, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9716009497642517, "entropy": 8.144499778747559, "cur_lr": 4.999999873689376e-05, "total_loss": 215.523681640625}, "load_time_ms": 0.583, "num_steps_sampled": 1020000, "grad_time_ms": 580.762, "update_time_ms": 2.423, "sample_time_ms": 30850.402}, "date": "2025-08-30_23-24-50", "hostname": "cda-server-4", "time_this_iter_s": 32.64672827720642, "episodes_total": 5100, "timestamp": 1756589090, "node_ip": "10.157.146.4", "done": false, "time_total_s": 26053.090214967728, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 851, "episode_reward_mean": -611.7548771246232, "training_iteration": 851, "timesteps_total": 1021200, "policy_reward_mean": {}, "episode_reward_min": -670.1707710624022, "timesteps_since_restore": 1021200, "num_metric_batches_dropped": 0, "time_since_restore": 26085.022943019867, "episode_reward_max": -471.54491093674767, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1021200, "default": {"kl": 0.011534028686583042, "policy_loss": -0.14836451411247253, "vf_loss": 410.7582702636719, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9522488117218018, "entropy": 8.123414993286133, "cur_lr": 4.999999873689376e-05, "total_loss": 410.62744140625}, "load_time_ms": 0.578, "num_steps_sampled": 1021200, "grad_time_ms": 567.493, "update_time_ms": 2.618, "sample_time_ms": 31057.665}, "date": "2025-08-30_23-25-22", "hostname": "cda-server-4", "time_this_iter_s": 31.932728052139282, "episodes_total": 5106, "timestamp": 1756589122, "node_ip": "10.157.146.4", "done": false, "time_total_s": 26085.022943019867, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 852, "episode_reward_mean": -612.3147267484753, "training_iteration": 852, "timesteps_total": 1022400, "policy_reward_mean": {}, "episode_reward_min": -670.1707710624022, "timesteps_since_restore": 1022400, "num_metric_batches_dropped": 0, "time_since_restore": 26117.596151828766, "episode_reward_max": -471.54491093674767, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1022400, "default": {"kl": 0.01031390018761158, "policy_loss": -0.11664901673793793, "vf_loss": 335.0403747558594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9573501944541931, "entropy": 7.984128952026367, "cur_lr": 4.999999873689376e-05, "total_loss": 334.939453125}, "load_time_ms": 0.574, "num_steps_sampled": 1022400, "grad_time_ms": 550.584, "update_time_ms": 2.622, "sample_time_ms": 31022.919}, "date": "2025-08-30_23-25-55", "hostname": "cda-server-4", "time_this_iter_s": 32.573208808898926, "episodes_total": 5112, "timestamp": 1756589155, "node_ip": "10.157.146.4", "done": false, "time_total_s": 26117.596151828766, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 853, "episode_reward_mean": -611.9157149419312, "training_iteration": 853, "timesteps_total": 1023600, "policy_reward_mean": {}, "episode_reward_min": -670.1707710624022, "timesteps_since_restore": 1023600, "num_metric_batches_dropped": 0, "time_since_restore": 26148.57836151123, "episode_reward_max": -471.54491093674767, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1023600, "default": {"kl": 0.010159816592931747, "policy_loss": -0.12349234521389008, "vf_loss": 187.1181640625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.985636830329895, "entropy": 7.985935688018799, "cur_lr": 4.999999873689376e-05, "total_loss": 187.01010131835938}, "load_time_ms": 0.563, "num_steps_sampled": 1023600, "grad_time_ms": 547.293, "update_time_ms": 2.633, "sample_time_ms": 30869.378}, "date": "2025-08-30_23-26-26", "hostname": "cda-server-4", "time_this_iter_s": 30.9822096824646, "episodes_total": 5118, "timestamp": 1756589186, "node_ip": "10.157.146.4", "done": false, "time_total_s": 26148.57836151123, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 854, "episode_reward_mean": -612.2414000711236, "training_iteration": 854, "timesteps_total": 1024800, "policy_reward_mean": {}, "episode_reward_min": -670.1707710624022, "timesteps_since_restore": 1024800, "num_metric_batches_dropped": 0, "time_since_restore": 26182.23349714279, "episode_reward_max": -471.54491093674767, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1024800, "default": {"kl": 0.010376469232141972, "policy_loss": -0.12785132229328156, "vf_loss": 119.53543090820312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9853759407997131, "entropy": 8.327739715576172, "cur_lr": 4.999999873689376e-05, "total_loss": 119.42333984375}, "load_time_ms": 0.573, "num_steps_sampled": 1024800, "grad_time_ms": 545.78, "update_time_ms": 2.624, "sample_time_ms": 31060.808}, "date": "2025-08-30_23-27-00", "hostname": "cda-server-4", "time_this_iter_s": 33.65513563156128, "episodes_total": 5124, "timestamp": 1756589220, "node_ip": "10.157.146.4", "done": false, "time_total_s": 26182.23349714279, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 855, "episode_reward_mean": -611.5765412674715, "training_iteration": 855, "timesteps_total": 1026000, "policy_reward_mean": {}, "episode_reward_min": -670.1707710624022, "timesteps_since_restore": 1026000, "num_metric_batches_dropped": 0, "time_since_restore": 26213.580941200256, "episode_reward_max": -471.54491093674767, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1026000, "default": {"kl": 0.009656759910285473, "policy_loss": -0.12339843809604645, "vf_loss": 379.3041076660156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9446457624435425, "entropy": 8.144041061401367, "cur_lr": 4.999999873689376e-05, "total_loss": 379.19537353515625}, "load_time_ms": 0.571, "num_steps_sampled": 1026000, "grad_time_ms": 557.053, "update_time_ms": 2.602, "sample_time_ms": 31304.133}, "date": "2025-08-30_23-27-31", "hostname": "cda-server-4", "time_this_iter_s": 31.3474440574646, "episodes_total": 5130, "timestamp": 1756589251, "node_ip": "10.157.146.4", "done": false, "time_total_s": 26213.580941200256, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 856, "episode_reward_mean": -611.8733737867698, "training_iteration": 856, "timesteps_total": 1027200, "policy_reward_mean": {}, "episode_reward_min": -670.1707710624022, "timesteps_since_restore": 1027200, "num_metric_batches_dropped": 0, "time_since_restore": 26245.324193239212, "episode_reward_max": -471.54491093674767, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1027200, "default": {"kl": 0.008317888714373112, "policy_loss": -0.11083385348320007, "vf_loss": 223.27853393554688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9681053161621094, "entropy": 8.012754440307617, "cur_lr": 4.999999873689376e-05, "total_loss": 223.1803436279297}, "load_time_ms": 0.588, "num_steps_sampled": 1027200, "grad_time_ms": 577.788, "update_time_ms": 2.594, "sample_time_ms": 31262.65}, "date": "2025-08-30_23-28-03", "hostname": "cda-server-4", "time_this_iter_s": 31.74325203895569, "episodes_total": 5136, "timestamp": 1756589283, "node_ip": "10.157.146.4", "done": false, "time_total_s": 26245.324193239212, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 857, "episode_reward_mean": -614.5381611323317, "training_iteration": 857, "timesteps_total": 1028400, "policy_reward_mean": {}, "episode_reward_min": -796.6720842944036, "timesteps_since_restore": 1028400, "num_metric_batches_dropped": 0, "time_since_restore": 26274.762197971344, "episode_reward_max": -471.54491093674767, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1028400, "default": {"kl": 0.012076937593519688, "policy_loss": -0.14330795407295227, "vf_loss": 924.7340698242188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9196298122406006, "entropy": 8.027457237243652, "cur_lr": 4.999999873689376e-05, "total_loss": 924.609130859375}, "load_time_ms": 0.617, "num_steps_sampled": 1028400, "grad_time_ms": 582.792, "update_time_ms": 2.557, "sample_time_ms": 31118.624}, "date": "2025-08-30_23-28-32", "hostname": "cda-server-4", "time_this_iter_s": 29.438004732131958, "episodes_total": 5142, "timestamp": 1756589312, "node_ip": "10.157.146.4", "done": false, "time_total_s": 26274.762197971344, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 858, "episode_reward_mean": -615.7722467233932, "training_iteration": 858, "timesteps_total": 1029600, "policy_reward_mean": {}, "episode_reward_min": -796.6720842944036, "timesteps_since_restore": 1029600, "num_metric_batches_dropped": 0, "time_since_restore": 26305.30609178543, "episode_reward_max": -527.2133899852907, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1029600, "default": {"kl": 0.010745084844529629, "policy_loss": -0.12117738276720047, "vf_loss": 86.14535522460938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9865167140960693, "entropy": 7.615378379821777, "cur_lr": 4.999999873689376e-05, "total_loss": 86.0405044555664}, "load_time_ms": 0.621, "num_steps_sampled": 1029600, "grad_time_ms": 608.006, "update_time_ms": 2.5, "sample_time_ms": 31143.307}, "date": "2025-08-30_23-29-03", "hostname": "cda-server-4", "time_this_iter_s": 30.543893814086914, "episodes_total": 5148, "timestamp": 1756589343, "node_ip": "10.157.146.4", "done": false, "time_total_s": 26305.30609178543, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 859, "episode_reward_mean": -616.1130984713853, "training_iteration": 859, "timesteps_total": 1030800, "policy_reward_mean": {}, "episode_reward_min": -796.6720842944036, "timesteps_since_restore": 1030800, "num_metric_batches_dropped": 0, "time_since_restore": 26337.648819208145, "episode_reward_max": -527.2133899852907, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1030800, "default": {"kl": 0.010229668579995632, "policy_loss": -0.1264776736497879, "vf_loss": 275.1752624511719, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9696335196495056, "entropy": 8.114919662475586, "cur_lr": 4.999999873689376e-05, "total_loss": 275.0643310546875}, "load_time_ms": 0.624, "num_steps_sampled": 1030800, "grad_time_ms": 622.728, "update_time_ms": 2.45, "sample_time_ms": 31090.714}, "date": "2025-08-30_23-29-35", "hostname": "cda-server-4", "time_this_iter_s": 32.34272742271423, "episodes_total": 5154, "timestamp": 1756589375, "node_ip": "10.157.146.4", "done": false, "time_total_s": 26337.648819208145, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 860, "episode_reward_mean": -616.3602007280435, "training_iteration": 860, "timesteps_total": 1032000, "policy_reward_mean": {}, "episode_reward_min": -796.6720842944036, "timesteps_since_restore": 1032000, "num_metric_batches_dropped": 0, "time_since_restore": 26371.95843219757, "episode_reward_max": -527.2133899852907, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1032000, "default": {"kl": 0.011014638468623161, "policy_loss": -0.13023307919502258, "vf_loss": 274.0899353027344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9694747924804688, "entropy": 7.801991939544678, "cur_lr": 4.999999873689376e-05, "total_loss": 273.9764099121094}, "load_time_ms": 0.624, "num_steps_sampled": 1032000, "grad_time_ms": 649.331, "update_time_ms": 2.507, "sample_time_ms": 31230.367}, "date": "2025-08-30_23-30-09", "hostname": "cda-server-4", "time_this_iter_s": 34.30961298942566, "episodes_total": 5160, "timestamp": 1756589409, "node_ip": "10.157.146.4", "done": false, "time_total_s": 26371.95843219757, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 861, "episode_reward_mean": -616.7009833567298, "training_iteration": 861, "timesteps_total": 1033200, "policy_reward_mean": {}, "episode_reward_min": -796.6720842944036, "timesteps_since_restore": 1033200, "num_metric_batches_dropped": 0, "time_since_restore": 26401.870719194412, "episode_reward_max": -527.2133899852907, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1033200, "default": {"kl": 0.009365309961140156, "policy_loss": -0.12393805384635925, "vf_loss": 113.35725402832031, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9873602390289307, "entropy": 7.684728145599365, "cur_lr": 4.999999873689376e-05, "total_loss": 113.24754333496094}, "load_time_ms": 0.632, "num_steps_sampled": 1033200, "grad_time_ms": 660.892, "update_time_ms": 2.33, "sample_time_ms": 31016.917}, "date": "2025-08-30_23-30-39", "hostname": "cda-server-4", "time_this_iter_s": 29.91228699684143, "episodes_total": 5166, "timestamp": 1756589439, "node_ip": "10.157.146.4", "done": false, "time_total_s": 26401.870719194412, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 862, "episode_reward_mean": -617.4135261959832, "training_iteration": 862, "timesteps_total": 1034400, "policy_reward_mean": {}, "episode_reward_min": -796.6720842944036, "timesteps_since_restore": 1034400, "num_metric_batches_dropped": 0, "time_since_restore": 26428.345789909363, "episode_reward_max": -527.2133899852907, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1034400, "default": {"kl": 0.01035454124212265, "policy_loss": -0.12992769479751587, "vf_loss": 116.26490783691406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9844700694084167, "entropy": 8.111532211303711, "cur_lr": 4.999999873689376e-05, "total_loss": 116.15071868896484}, "load_time_ms": 0.635, "num_steps_sampled": 1034400, "grad_time_ms": 677.51, "update_time_ms": 2.422, "sample_time_ms": 30390.427}, "date": "2025-08-30_23-31-06", "hostname": "cda-server-4", "time_this_iter_s": 26.47507071495056, "episodes_total": 5172, "timestamp": 1756589466, "node_ip": "10.157.146.4", "done": false, "time_total_s": 26428.345789909363, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 863, "episode_reward_mean": -616.197482179489, "training_iteration": 863, "timesteps_total": 1035600, "policy_reward_mean": {}, "episode_reward_min": -796.6720842944036, "timesteps_since_restore": 1035600, "num_metric_batches_dropped": 0, "time_since_restore": 26458.30251955986, "episode_reward_max": -527.2133899852907, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1035600, "default": {"kl": 0.012113033793866634, "policy_loss": -0.14505727589130402, "vf_loss": 71.95470428466797, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9927147626876831, "entropy": 7.845436096191406, "cur_lr": 4.999999873689376e-05, "total_loss": 71.82804107666016}, "load_time_ms": 0.642, "num_steps_sampled": 1035600, "grad_time_ms": 687.685, "update_time_ms": 2.418, "sample_time_ms": 30277.721}, "date": "2025-08-30_23-31-36", "hostname": "cda-server-4", "time_this_iter_s": 29.956729650497437, "episodes_total": 5178, "timestamp": 1756589496, "node_ip": "10.157.146.4", "done": false, "time_total_s": 26458.30251955986, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 864, "episode_reward_mean": -615.3379745384177, "training_iteration": 864, "timesteps_total": 1036800, "policy_reward_mean": {}, "episode_reward_min": -796.6720842944036, "timesteps_since_restore": 1036800, "num_metric_batches_dropped": 0, "time_since_restore": 26490.799943447113, "episode_reward_max": -527.2133899852907, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1036800, "default": {"kl": 0.01029725931584835, "policy_loss": -0.10830863565206528, "vf_loss": 174.08660888671875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9773281812667847, "entropy": 7.919370174407959, "cur_lr": 4.999999873689376e-05, "total_loss": 173.9939422607422}, "load_time_ms": 0.626, "num_steps_sampled": 1036800, "grad_time_ms": 697.897, "update_time_ms": 2.429, "sample_time_ms": 30151.692}, "date": "2025-08-30_23-32-08", "hostname": "cda-server-4", "time_this_iter_s": 32.49742388725281, "episodes_total": 5184, "timestamp": 1756589528, "node_ip": "10.157.146.4", "done": false, "time_total_s": 26490.799943447113, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 865, "episode_reward_mean": -614.3931542439598, "training_iteration": 865, "timesteps_total": 1038000, "policy_reward_mean": {}, "episode_reward_min": -796.6720842944036, "timesteps_since_restore": 1038000, "num_metric_batches_dropped": 0, "time_since_restore": 26519.87539577484, "episode_reward_max": -527.2133899852907, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1038000, "default": {"kl": 0.00943776499480009, "policy_loss": -0.13431768119335175, "vf_loss": 308.97637939453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9654201865196228, "entropy": 7.806691646575928, "cur_lr": 4.999999873689376e-05, "total_loss": 308.8563537597656}, "load_time_ms": 0.634, "num_steps_sampled": 1038000, "grad_time_ms": 699.375, "update_time_ms": 2.457, "sample_time_ms": 29922.978}, "date": "2025-08-30_23-32-37", "hostname": "cda-server-4", "time_this_iter_s": 29.07545232772827, "episodes_total": 5190, "timestamp": 1756589557, "node_ip": "10.157.146.4", "done": false, "time_total_s": 26519.87539577484, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 866, "episode_reward_mean": -615.0963639100631, "training_iteration": 866, "timesteps_total": 1039200, "policy_reward_mean": {}, "episode_reward_min": -796.6720842944036, "timesteps_since_restore": 1039200, "num_metric_batches_dropped": 0, "time_since_restore": 26552.183486938477, "episode_reward_max": -530.0552288303139, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1039200, "default": {"kl": 0.012090719304978848, "policy_loss": -0.13784664869308472, "vf_loss": 832.8232421875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.932667076587677, "entropy": 8.031383514404297, "cur_lr": 4.999999873689376e-05, "total_loss": 832.7037353515625}, "load_time_ms": 0.637, "num_steps_sampled": 1039200, "grad_time_ms": 698.718, "update_time_ms": 2.423, "sample_time_ms": 29980.244}, "date": "2025-08-30_23-33-10", "hostname": "cda-server-4", "time_this_iter_s": 32.308091163635254, "episodes_total": 5196, "timestamp": 1756589590, "node_ip": "10.157.146.4", "done": false, "time_total_s": 26552.183486938477, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 867, "episode_reward_mean": -614.63113623991, "training_iteration": 867, "timesteps_total": 1040400, "policy_reward_mean": {}, "episode_reward_min": -796.6720842944036, "timesteps_since_restore": 1040400, "num_metric_batches_dropped": 0, "time_since_restore": 26584.63617491722, "episode_reward_max": -530.0552288303139, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1040400, "default": {"kl": 0.012696515768766403, "policy_loss": -0.15195751190185547, "vf_loss": 368.42401123046875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.979345440864563, "entropy": 8.287562370300293, "cur_lr": 4.999999873689376e-05, "total_loss": 368.2913513183594}, "load_time_ms": 0.605, "num_steps_sampled": 1040400, "grad_time_ms": 700.59, "update_time_ms": 2.384, "sample_time_ms": 30279.915}, "date": "2025-08-30_23-33-42", "hostname": "cda-server-4", "time_this_iter_s": 32.45268797874451, "episodes_total": 5202, "timestamp": 1756589622, "node_ip": "10.157.146.4", "done": false, "time_total_s": 26584.63617491722, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 868, "episode_reward_mean": -614.2620070698449, "training_iteration": 868, "timesteps_total": 1041600, "policy_reward_mean": {}, "episode_reward_min": -796.6720842944036, "timesteps_since_restore": 1041600, "num_metric_batches_dropped": 0, "time_since_restore": 26618.2518992424, "episode_reward_max": -530.0552288303139, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1041600, "default": {"kl": 0.0099144596606493, "policy_loss": -0.12227591872215271, "vf_loss": 134.1614532470703, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9835965037345886, "entropy": 8.023238182067871, "cur_lr": 4.999999873689376e-05, "total_loss": 134.0542449951172}, "load_time_ms": 0.614, "num_steps_sampled": 1041600, "grad_time_ms": 702.619, "update_time_ms": 2.371, "sample_time_ms": 30585.039}, "date": "2025-08-30_23-34-16", "hostname": "cda-server-4", "time_this_iter_s": 33.615724325180054, "episodes_total": 5208, "timestamp": 1756589656, "node_ip": "10.157.146.4", "done": false, "time_total_s": 26618.2518992424, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 869, "episode_reward_mean": -613.1101253579229, "training_iteration": 869, "timesteps_total": 1042800, "policy_reward_mean": {}, "episode_reward_min": -796.6720842944036, "timesteps_since_restore": 1042800, "num_metric_batches_dropped": 0, "time_since_restore": 26649.780689239502, "episode_reward_max": -530.0552288303139, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1042800, "default": {"kl": 0.010103265754878521, "policy_loss": -0.11348431557416916, "vf_loss": 111.39260864257812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9879993796348572, "entropy": 7.621346473693848, "cur_lr": 4.999999873689376e-05, "total_loss": 111.29446411132812}, "load_time_ms": 0.608, "num_steps_sampled": 1042800, "grad_time_ms": 701.08, "update_time_ms": 2.397, "sample_time_ms": 30505.204}, "date": "2025-08-30_23-34-47", "hostname": "cda-server-4", "time_this_iter_s": 31.52878999710083, "episodes_total": 5214, "timestamp": 1756589687, "node_ip": "10.157.146.4", "done": false, "time_total_s": 26649.780689239502, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 870, "episode_reward_mean": -612.4750652740771, "training_iteration": 870, "timesteps_total": 1044000, "policy_reward_mean": {}, "episode_reward_min": -796.6720842944036, "timesteps_since_restore": 1044000, "num_metric_batches_dropped": 0, "time_since_restore": 26678.969739198685, "episode_reward_max": -530.0552288303139, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1044000, "default": {"kl": 0.011576283723115921, "policy_loss": -0.1245448887348175, "vf_loss": 222.3448028564453, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9745347499847412, "entropy": 8.385965347290039, "cur_lr": 4.999999873689376e-05, "total_loss": 222.2378387451172}, "load_time_ms": 0.61, "num_steps_sampled": 1044000, "grad_time_ms": 701.47, "update_time_ms": 2.35, "sample_time_ms": 29992.807}, "date": "2025-08-30_23-35-17", "hostname": "cda-server-4", "time_this_iter_s": 29.18904995918274, "episodes_total": 5220, "timestamp": 1756589717, "node_ip": "10.157.146.4", "done": false, "time_total_s": 26678.969739198685, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 871, "episode_reward_mean": -612.3271975612527, "training_iteration": 871, "timesteps_total": 1045200, "policy_reward_mean": {}, "episode_reward_min": -796.6720842944036, "timesteps_since_restore": 1045200, "num_metric_batches_dropped": 0, "time_since_restore": 26711.157199382782, "episode_reward_max": -530.0552288303139, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1045200, "default": {"kl": 0.010200098156929016, "policy_loss": -0.12624815106391907, "vf_loss": 424.14111328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.948375940322876, "entropy": 8.372750282287598, "cur_lr": 4.999999873689376e-05, "total_loss": 424.0303649902344}, "load_time_ms": 0.608, "num_steps_sampled": 1045200, "grad_time_ms": 730.332, "update_time_ms": 2.506, "sample_time_ms": 30191.178}, "date": "2025-08-30_23-35-49", "hostname": "cda-server-4", "time_this_iter_s": 32.18746018409729, "episodes_total": 5226, "timestamp": 1756589749, "node_ip": "10.157.146.4", "done": false, "time_total_s": 26711.157199382782, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 872, "episode_reward_mean": -612.9702914132729, "training_iteration": 872, "timesteps_total": 1046400, "policy_reward_mean": {}, "episode_reward_min": -796.6720842944036, "timesteps_since_restore": 1046400, "num_metric_batches_dropped": 0, "time_since_restore": 26744.559323072433, "episode_reward_max": -562.0380004034773, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1046400, "default": {"kl": 0.009615283459424973, "policy_loss": -0.11944568157196045, "vf_loss": 286.80474853515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9600443243980408, "entropy": 7.896517276763916, "cur_lr": 4.999999873689376e-05, "total_loss": 286.6999206542969}, "load_time_ms": 0.62, "num_steps_sampled": 1046400, "grad_time_ms": 755.369, "update_time_ms": 2.421, "sample_time_ms": 30858.849}, "date": "2025-08-30_23-36-22", "hostname": "cda-server-4", "time_this_iter_s": 33.40212368965149, "episodes_total": 5232, "timestamp": 1756589782, "node_ip": "10.157.146.4", "done": false, "time_total_s": 26744.559323072433, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 873, "episode_reward_mean": -612.7463166910858, "training_iteration": 873, "timesteps_total": 1047600, "policy_reward_mean": {}, "episode_reward_min": -796.6720842944036, "timesteps_since_restore": 1047600, "num_metric_batches_dropped": 0, "time_since_restore": 26777.827216148376, "episode_reward_max": -562.0380004034773, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1047600, "default": {"kl": 0.009398512542247772, "policy_loss": -0.12714062631130219, "vf_loss": 120.40067291259766, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9812700748443604, "entropy": 7.864542484283447, "cur_lr": 4.999999873689376e-05, "total_loss": 120.28781127929688}, "load_time_ms": 0.628, "num_steps_sampled": 1047600, "grad_time_ms": 737.939, "update_time_ms": 2.376, "sample_time_ms": 31207.438}, "date": "2025-08-30_23-36-56", "hostname": "cda-server-4", "time_this_iter_s": 33.26789307594299, "episodes_total": 5238, "timestamp": 1756589816, "node_ip": "10.157.146.4", "done": false, "time_total_s": 26777.827216148376, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 874, "episode_reward_mean": -610.7707540077721, "training_iteration": 874, "timesteps_total": 1048800, "policy_reward_mean": {}, "episode_reward_min": -790.8724407379913, "timesteps_since_restore": 1048800, "num_metric_batches_dropped": 0, "time_since_restore": 26806.86654663086, "episode_reward_max": -562.0380004034773, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1048800, "default": {"kl": 0.011401106603443623, "policy_loss": -0.1308520883321762, "vf_loss": 742.7569580078125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9602218270301819, "entropy": 8.085919380187988, "cur_lr": 4.999999873689376e-05, "total_loss": 742.6434326171875}, "load_time_ms": 0.631, "num_steps_sampled": 1048800, "grad_time_ms": 733.074, "update_time_ms": 2.37, "sample_time_ms": 30866.518}, "date": "2025-08-30_23-37-25", "hostname": "cda-server-4", "time_this_iter_s": 29.03933048248291, "episodes_total": 5244, "timestamp": 1756589845, "node_ip": "10.157.146.4", "done": false, "time_total_s": 26806.86654663086, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 875, "episode_reward_mean": -611.2628466062881, "training_iteration": 875, "timesteps_total": 1050000, "policy_reward_mean": {}, "episode_reward_min": -790.8724407379913, "timesteps_since_restore": 1050000, "num_metric_batches_dropped": 0, "time_since_restore": 26836.052238702774, "episode_reward_max": -562.0380004034773, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1050000, "default": {"kl": 0.008880523033440113, "policy_loss": -0.10852058976888657, "vf_loss": 240.25900268554688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9666239619255066, "entropy": 8.129501342773438, "cur_lr": 4.999999873689376e-05, "total_loss": 240.16395568847656}, "load_time_ms": 0.627, "num_steps_sampled": 1050000, "grad_time_ms": 747.145, "update_time_ms": 2.345, "sample_time_ms": 30863.528}, "date": "2025-08-30_23-37-54", "hostname": "cda-server-4", "time_this_iter_s": 29.185692071914673, "episodes_total": 5250, "timestamp": 1756589874, "node_ip": "10.157.146.4", "done": false, "time_total_s": 26836.052238702774, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 876, "episode_reward_mean": -610.0887859903173, "training_iteration": 876, "timesteps_total": 1051200, "policy_reward_mean": {}, "episode_reward_min": -663.8999811399729, "timesteps_since_restore": 1051200, "num_metric_batches_dropped": 0, "time_since_restore": 26866.31370329857, "episode_reward_max": -562.0380004034773, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1051200, "default": {"kl": 0.011360050179064274, "policy_loss": -0.1296316534280777, "vf_loss": 179.19126892089844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9751605987548828, "entropy": 8.240965843200684, "cur_lr": 4.999999873689376e-05, "total_loss": 179.0789031982422}, "load_time_ms": 0.615, "num_steps_sampled": 1051200, "grad_time_ms": 751.304, "update_time_ms": 2.311, "sample_time_ms": 30654.716}, "date": "2025-08-30_23-38-24", "hostname": "cda-server-4", "time_this_iter_s": 30.261464595794678, "episodes_total": 5256, "timestamp": 1756589904, "node_ip": "10.157.146.4", "done": false, "time_total_s": 26866.31370329857, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 877, "episode_reward_mean": -610.2090021472569, "training_iteration": 877, "timesteps_total": 1052400, "policy_reward_mean": {}, "episode_reward_min": -663.8999811399729, "timesteps_since_restore": 1052400, "num_metric_batches_dropped": 0, "time_since_restore": 26898.15786266327, "episode_reward_max": -565.8253503949923, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1052400, "default": {"kl": 0.011198495514690876, "policy_loss": -0.14391358196735382, "vf_loss": 234.09375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9663235545158386, "entropy": 8.106426239013672, "cur_lr": 4.999999873689376e-05, "total_loss": 233.96685791015625}, "load_time_ms": 0.62, "num_steps_sampled": 1052400, "grad_time_ms": 737.657, "update_time_ms": 2.351, "sample_time_ms": 30607.502}, "date": "2025-08-30_23-38-56", "hostname": "cda-server-4", "time_this_iter_s": 31.844159364700317, "episodes_total": 5262, "timestamp": 1756589936, "node_ip": "10.157.146.4", "done": false, "time_total_s": 26898.15786266327, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 878, "episode_reward_mean": -610.4959290960879, "training_iteration": 878, "timesteps_total": 1053600, "policy_reward_mean": {}, "episode_reward_min": -663.8999811399729, "timesteps_since_restore": 1053600, "num_metric_batches_dropped": 0, "time_since_restore": 26928.1625995636, "episode_reward_max": -565.8253503949923, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1053600, "default": {"kl": 0.011963321827352047, "policy_loss": -0.13923878967761993, "vf_loss": 85.90973663330078, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9909763336181641, "entropy": 7.792171001434326, "cur_lr": 4.999999873689376e-05, "total_loss": 85.78866577148438}, "load_time_ms": 0.621, "num_steps_sampled": 1053600, "grad_time_ms": 722.696, "update_time_ms": 2.334, "sample_time_ms": 30261.338}, "date": "2025-08-30_23-39-26", "hostname": "cda-server-4", "time_this_iter_s": 30.00473690032959, "episodes_total": 5268, "timestamp": 1756589966, "node_ip": "10.157.146.4", "done": false, "time_total_s": 26928.1625995636, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 879, "episode_reward_mean": -611.8119118850586, "training_iteration": 879, "timesteps_total": 1054800, "policy_reward_mean": {}, "episode_reward_min": -671.5891967602828, "timesteps_since_restore": 1054800, "num_metric_batches_dropped": 0, "time_since_restore": 26959.492529153824, "episode_reward_max": -565.8253503949923, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1054800, "default": {"kl": 0.010877339169383049, "policy_loss": -0.13973860442638397, "vf_loss": 251.24249267578125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.971989631652832, "entropy": 8.131999015808105, "cur_lr": 4.999999873689376e-05, "total_loss": 251.11927795410156}, "load_time_ms": 0.632, "num_steps_sampled": 1054800, "grad_time_ms": 709.112, "update_time_ms": 2.345, "sample_time_ms": 30254.841}, "date": "2025-08-30_23-39-57", "hostname": "cda-server-4", "time_this_iter_s": 31.32992959022522, "episodes_total": 5274, "timestamp": 1756589997, "node_ip": "10.157.146.4", "done": false, "time_total_s": 26959.492529153824, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 880, "episode_reward_mean": -611.195601847368, "training_iteration": 880, "timesteps_total": 1056000, "policy_reward_mean": {}, "episode_reward_min": -671.5891967602828, "timesteps_since_restore": 1056000, "num_metric_batches_dropped": 0, "time_since_restore": 26993.101853609085, "episode_reward_max": -498.09182040758907, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1056000, "default": {"kl": 0.013144350610673428, "policy_loss": -0.1506025195121765, "vf_loss": 416.8216247558594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.973364531993866, "entropy": 8.165348052978516, "cur_lr": 4.999999873689376e-05, "total_loss": 416.69097900390625}, "load_time_ms": 0.634, "num_steps_sampled": 1056000, "grad_time_ms": 694.373, "update_time_ms": 2.346, "sample_time_ms": 30711.584}, "date": "2025-08-30_23-40-31", "hostname": "cda-server-4", "time_this_iter_s": 33.60932445526123, "episodes_total": 5280, "timestamp": 1756590031, "node_ip": "10.157.146.4", "done": false, "time_total_s": 26993.101853609085, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 881, "episode_reward_mean": -612.252643734068, "training_iteration": 881, "timesteps_total": 1057200, "policy_reward_mean": {}, "episode_reward_min": -671.5891967602828, "timesteps_since_restore": 1057200, "num_metric_batches_dropped": 0, "time_since_restore": 27025.72288298607, "episode_reward_max": -498.09182040758907, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1057200, "default": {"kl": 0.00997300073504448, "policy_loss": -0.12377476692199707, "vf_loss": 189.7303924560547, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9811218976974487, "entropy": 8.119853973388672, "cur_lr": 4.999999873689376e-05, "total_loss": 189.6217498779297}, "load_time_ms": 0.629, "num_steps_sampled": 1057200, "grad_time_ms": 638.66, "update_time_ms": 2.23, "sample_time_ms": 30810.982}, "date": "2025-08-30_23-41-04", "hostname": "cda-server-4", "time_this_iter_s": 32.62102937698364, "episodes_total": 5286, "timestamp": 1756590064, "node_ip": "10.157.146.4", "done": false, "time_total_s": 27025.72288298607, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 882, "episode_reward_mean": -613.1827342237215, "training_iteration": 882, "timesteps_total": 1058400, "policy_reward_mean": {}, "episode_reward_min": -671.5891967602828, "timesteps_since_restore": 1058400, "num_metric_batches_dropped": 0, "time_since_restore": 27052.394669532776, "episode_reward_max": -498.09182040758907, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1058400, "default": {"kl": 0.008158509619534016, "policy_loss": -0.11607277393341064, "vf_loss": 196.85787963867188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9764571785926819, "entropy": 8.223786354064941, "cur_lr": 4.999999873689376e-05, "total_loss": 196.75421142578125}, "load_time_ms": 0.652, "num_steps_sampled": 1058400, "grad_time_ms": 596.195, "update_time_ms": 2.183, "sample_time_ms": 30180.435}, "date": "2025-08-30_23-41-30", "hostname": "cda-server-4", "time_this_iter_s": 26.671786546707153, "episodes_total": 5292, "timestamp": 1756590090, "node_ip": "10.157.146.4", "done": false, "time_total_s": 27052.394669532776, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 883, "episode_reward_mean": -614.2827518700226, "training_iteration": 883, "timesteps_total": 1059600, "policy_reward_mean": {}, "episode_reward_min": -684.342128247563, "timesteps_since_restore": 1059600, "num_metric_batches_dropped": 0, "time_since_restore": 27080.845425367355, "episode_reward_max": -498.09182040758907, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1059600, "default": {"kl": 0.008234892040491104, "policy_loss": -0.11689729243516922, "vf_loss": 1131.2203369140625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8908909559249878, "entropy": 8.067598342895508, "cur_lr": 4.999999873689376e-05, "total_loss": 1131.1158447265625}, "load_time_ms": 0.645, "num_steps_sampled": 1059600, "grad_time_ms": 603.055, "update_time_ms": 2.133, "sample_time_ms": 29691.887}, "date": "2025-08-30_23-41-59", "hostname": "cda-server-4", "time_this_iter_s": 28.450755834579468, "episodes_total": 5298, "timestamp": 1756590119, "node_ip": "10.157.146.4", "done": false, "time_total_s": 27080.845425367355, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 884, "episode_reward_mean": -614.1925179252587, "training_iteration": 884, "timesteps_total": 1060800, "policy_reward_mean": {}, "episode_reward_min": -684.342128247563, "timesteps_since_restore": 1060800, "num_metric_batches_dropped": 0, "time_since_restore": 27113.4166970253, "episode_reward_max": -498.09182040758907, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1060800, "default": {"kl": 0.010660413652658463, "policy_loss": -0.13194149732589722, "vf_loss": 436.3251953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9578580856323242, "entropy": 7.930840492248535, "cur_lr": 4.999999873689376e-05, "total_loss": 436.2094421386719}, "load_time_ms": 0.653, "num_steps_sampled": 1060800, "grad_time_ms": 595.78, "update_time_ms": 2.114, "sample_time_ms": 30052.377}, "date": "2025-08-30_23-42-31", "hostname": "cda-server-4", "time_this_iter_s": 32.571271657943726, "episodes_total": 5304, "timestamp": 1756590151, "node_ip": "10.157.146.4", "done": false, "time_total_s": 27113.4166970253, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 885, "episode_reward_mean": -615.1124723770828, "training_iteration": 885, "timesteps_total": 1062000, "policy_reward_mean": {}, "episode_reward_min": -684.342128247563, "timesteps_since_restore": 1062000, "num_metric_batches_dropped": 0, "time_since_restore": 27141.85945367813, "episode_reward_max": -498.09182040758907, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1062000, "default": {"kl": 0.010012478567659855, "policy_loss": -0.12560313940048218, "vf_loss": 69.15718078613281, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9907025098800659, "entropy": 7.935606002807617, "cur_lr": 4.999999873689376e-05, "total_loss": 69.0467758178711}, "load_time_ms": 0.653, "num_steps_sampled": 1062000, "grad_time_ms": 568.575, "update_time_ms": 2.101, "sample_time_ms": 30005.325}, "date": "2025-08-30_23-43-00", "hostname": "cda-server-4", "time_this_iter_s": 28.44275665283203, "episodes_total": 5310, "timestamp": 1756590180, "node_ip": "10.157.146.4", "done": false, "time_total_s": 27141.85945367813, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 886, "episode_reward_mean": -616.5003513773471, "training_iteration": 886, "timesteps_total": 1063200, "policy_reward_mean": {}, "episode_reward_min": -717.1676541400791, "timesteps_since_restore": 1063200, "num_metric_batches_dropped": 0, "time_since_restore": 27171.544028282166, "episode_reward_max": -498.09182040758907, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1063200, "default": {"kl": 0.009212280623614788, "policy_loss": -0.12420514225959778, "vf_loss": 228.94998168945312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9714171290397644, "entropy": 7.730119705200195, "cur_lr": 4.999999873689376e-05, "total_loss": 228.8397674560547}, "load_time_ms": 0.652, "num_steps_sampled": 1063200, "grad_time_ms": 544.566, "update_time_ms": 2.135, "sample_time_ms": 29971.67}, "date": "2025-08-30_23-43-29", "hostname": "cda-server-4", "time_this_iter_s": 29.684574604034424, "episodes_total": 5316, "timestamp": 1756590209, "node_ip": "10.157.146.4", "done": false, "time_total_s": 27171.544028282166, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 887, "episode_reward_mean": -617.858762949344, "training_iteration": 887, "timesteps_total": 1064400, "policy_reward_mean": {}, "episode_reward_min": -717.1676541400791, "timesteps_since_restore": 1064400, "num_metric_batches_dropped": 0, "time_since_restore": 27199.413417816162, "episode_reward_max": -474.1831117307202, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1064400, "default": {"kl": 0.012062091380357742, "policy_loss": -0.1402951329946518, "vf_loss": 577.3612060546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9245246052742004, "entropy": 8.138238906860352, "cur_lr": 4.999999873689376e-05, "total_loss": 577.2392578125}, "load_time_ms": 0.66, "num_steps_sampled": 1064400, "grad_time_ms": 551.374, "update_time_ms": 2.086, "sample_time_ms": 29567.355}, "date": "2025-08-30_23-43-57", "hostname": "cda-server-4", "time_this_iter_s": 27.869389533996582, "episodes_total": 5322, "timestamp": 1756590237, "node_ip": "10.157.146.4", "done": false, "time_total_s": 27199.413417816162, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 888, "episode_reward_mean": -617.1223770682182, "training_iteration": 888, "timesteps_total": 1065600, "policy_reward_mean": {}, "episode_reward_min": -717.1676541400791, "timesteps_since_restore": 1065600, "num_metric_batches_dropped": 0, "time_since_restore": 27231.316065311432, "episode_reward_max": -474.1831117307202, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1065600, "default": {"kl": 0.011443229392170906, "policy_loss": -0.14382211863994598, "vf_loss": 241.66343688964844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9701208472251892, "entropy": 7.928401470184326, "cur_lr": 4.999999873689376e-05, "total_loss": 241.53700256347656}, "load_time_ms": 0.663, "num_steps_sampled": 1065600, "grad_time_ms": 565.449, "update_time_ms": 2.099, "sample_time_ms": 29743.11}, "date": "2025-08-30_23-44-29", "hostname": "cda-server-4", "time_this_iter_s": 31.902647495269775, "episodes_total": 5328, "timestamp": 1756590269, "node_ip": "10.157.146.4", "done": false, "time_total_s": 27231.316065311432, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 889, "episode_reward_mean": -615.8256836181318, "training_iteration": 889, "timesteps_total": 1066800, "policy_reward_mean": {}, "episode_reward_min": -717.1676541400791, "timesteps_since_restore": 1066800, "num_metric_batches_dropped": 0, "time_since_restore": 27264.61401939392, "episode_reward_max": -474.1831117307202, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1066800, "default": {"kl": 0.012447760440409184, "policy_loss": -0.14922195672988892, "vf_loss": 251.0076446533203, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9783916473388672, "entropy": 7.657693862915039, "cur_lr": 4.999999873689376e-05, "total_loss": 250.87733459472656}, "load_time_ms": 0.652, "num_steps_sampled": 1066800, "grad_time_ms": 573.288, "update_time_ms": 2.056, "sample_time_ms": 29932.339}, "date": "2025-08-30_23-45-03", "hostname": "cda-server-4", "time_this_iter_s": 33.297954082489014, "episodes_total": 5334, "timestamp": 1756590303, "node_ip": "10.157.146.4", "done": false, "time_total_s": 27264.61401939392, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 890, "episode_reward_mean": -615.6751003135387, "training_iteration": 890, "timesteps_total": 1068000, "policy_reward_mean": {}, "episode_reward_min": -717.1676541400791, "timesteps_since_restore": 1068000, "num_metric_batches_dropped": 0, "time_since_restore": 27296.15877199173, "episode_reward_max": -474.1831117307202, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1068000, "default": {"kl": 0.010488089174032211, "policy_loss": -0.12723854184150696, "vf_loss": 646.3125610351562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9664741158485413, "entropy": 7.99927282333374, "cur_lr": 4.999999873689376e-05, "total_loss": 646.2012939453125}, "load_time_ms": 0.649, "num_steps_sampled": 1068000, "grad_time_ms": 572.661, "update_time_ms": 2.024, "sample_time_ms": 29726.59}, "date": "2025-08-30_23-45-34", "hostname": "cda-server-4", "time_this_iter_s": 31.544752597808838, "episodes_total": 5340, "timestamp": 1756590334, "node_ip": "10.157.146.4", "done": false, "time_total_s": 27296.15877199173, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 891, "episode_reward_mean": -614.2557880229365, "training_iteration": 891, "timesteps_total": 1069200, "policy_reward_mean": {}, "episode_reward_min": -717.1676541400791, "timesteps_since_restore": 1069200, "num_metric_batches_dropped": 0, "time_since_restore": 27325.120982646942, "episode_reward_max": -474.1831117307202, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1069200, "default": {"kl": 0.012431587092578411, "policy_loss": -0.13435323536396027, "vf_loss": 89.50906372070312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9887285232543945, "entropy": 7.96919584274292, "cur_lr": 4.999999873689376e-05, "total_loss": 89.39358520507812}, "load_time_ms": 0.657, "num_steps_sampled": 1069200, "grad_time_ms": 589.495, "update_time_ms": 2.075, "sample_time_ms": 29343.651}, "date": "2025-08-30_23-46-03", "hostname": "cda-server-4", "time_this_iter_s": 28.962210655212402, "episodes_total": 5346, "timestamp": 1756590363, "node_ip": "10.157.146.4", "done": false, "time_total_s": 27325.120982646942, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 892, "episode_reward_mean": -614.4058124643321, "training_iteration": 892, "timesteps_total": 1070400, "policy_reward_mean": {}, "episode_reward_min": -717.1676541400791, "timesteps_since_restore": 1070400, "num_metric_batches_dropped": 0, "time_since_restore": 27357.394151210785, "episode_reward_max": -474.1831117307202, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1070400, "default": {"kl": 0.012082341127097607, "policy_loss": -0.1337515413761139, "vf_loss": 924.9998779296875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9431027173995972, "entropy": 7.654019832611084, "cur_lr": 4.999999873689376e-05, "total_loss": 924.884521484375}, "load_time_ms": 0.632, "num_steps_sampled": 1070400, "grad_time_ms": 582.2, "update_time_ms": 2.16, "sample_time_ms": 29911.063}, "date": "2025-08-30_23-46-35", "hostname": "cda-server-4", "time_this_iter_s": 32.27316856384277, "episodes_total": 5352, "timestamp": 1756590395, "node_ip": "10.157.146.4", "done": false, "time_total_s": 27357.394151210785, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 893, "episode_reward_mean": -614.4315629364668, "training_iteration": 893, "timesteps_total": 1071600, "policy_reward_mean": {}, "episode_reward_min": -717.1676541400791, "timesteps_since_restore": 1071600, "num_metric_batches_dropped": 0, "time_since_restore": 27387.660782575607, "episode_reward_max": -474.1831117307202, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1071600, "default": {"kl": 0.010774403810501099, "policy_loss": -0.1374226212501526, "vf_loss": 138.9148406982422, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9821417927742004, "entropy": 8.146063804626465, "cur_lr": 4.999999873689376e-05, "total_loss": 138.7937774658203}, "load_time_ms": 0.633, "num_steps_sampled": 1071600, "grad_time_ms": 591.355, "update_time_ms": 2.223, "sample_time_ms": 30083.428}, "date": "2025-08-30_23-47-06", "hostname": "cda-server-4", "time_this_iter_s": 30.266631364822388, "episodes_total": 5358, "timestamp": 1756590426, "node_ip": "10.157.146.4", "done": false, "time_total_s": 27387.660782575607, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 894, "episode_reward_mean": -614.0501400727446, "training_iteration": 894, "timesteps_total": 1072800, "policy_reward_mean": {}, "episode_reward_min": -717.1676541400791, "timesteps_since_restore": 1072800, "num_metric_batches_dropped": 0, "time_since_restore": 27419.588422060013, "episode_reward_max": -474.1831117307202, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1072800, "default": {"kl": 0.01064176857471466, "policy_loss": -0.13242588937282562, "vf_loss": 203.73548889160156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9694842100143433, "entropy": 7.956035137176514, "cur_lr": 4.999999873689376e-05, "total_loss": 203.6192169189453}, "load_time_ms": 0.626, "num_steps_sampled": 1072800, "grad_time_ms": 606.382, "update_time_ms": 2.208, "sample_time_ms": 30004.0}, "date": "2025-08-30_23-47-38", "hostname": "cda-server-4", "time_this_iter_s": 31.927639484405518, "episodes_total": 5364, "timestamp": 1756590458, "node_ip": "10.157.146.4", "done": false, "time_total_s": 27419.588422060013, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 895, "episode_reward_mean": -613.4705731417338, "training_iteration": 895, "timesteps_total": 1074000, "policy_reward_mean": {}, "episode_reward_min": -717.1676541400791, "timesteps_since_restore": 1074000, "num_metric_batches_dropped": 0, "time_since_restore": 27448.876655101776, "episode_reward_max": -474.1831117307202, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1074000, "default": {"kl": 0.01006572786718607, "policy_loss": -0.1220485270023346, "vf_loss": 176.6547393798828, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9792993068695068, "entropy": 8.029817581176758, "cur_lr": 4.999999873689376e-05, "total_loss": 176.5479736328125}, "load_time_ms": 0.638, "num_steps_sampled": 1074000, "grad_time_ms": 611.917, "update_time_ms": 2.267, "sample_time_ms": 30082.919}, "date": "2025-08-30_23-48-07", "hostname": "cda-server-4", "time_this_iter_s": 29.288233041763306, "episodes_total": 5370, "timestamp": 1756590487, "node_ip": "10.157.146.4", "done": false, "time_total_s": 27448.876655101776, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 896, "episode_reward_mean": -612.7960398369104, "training_iteration": 896, "timesteps_total": 1075200, "policy_reward_mean": {}, "episode_reward_min": -717.1676541400791, "timesteps_since_restore": 1075200, "num_metric_batches_dropped": 0, "time_since_restore": 27481.278608083725, "episode_reward_max": -474.1831117307202, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1075200, "default": {"kl": 0.010554812848567963, "policy_loss": -0.12574008107185364, "vf_loss": 488.0929260253906, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9436062574386597, "entropy": 8.227754592895508, "cur_lr": 4.999999873689376e-05, "total_loss": 487.9832763671875}, "load_time_ms": 0.629, "num_steps_sampled": 1075200, "grad_time_ms": 622.816, "update_time_ms": 2.227, "sample_time_ms": 30343.752}, "date": "2025-08-30_23-48-39", "hostname": "cda-server-4", "time_this_iter_s": 32.40195298194885, "episodes_total": 5376, "timestamp": 1756590519, "node_ip": "10.157.146.4", "done": false, "time_total_s": 27481.278608083725, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 897, "episode_reward_mean": -613.1125421943484, "training_iteration": 897, "timesteps_total": 1076400, "policy_reward_mean": {}, "episode_reward_min": -717.1676541400791, "timesteps_since_restore": 1076400, "num_metric_batches_dropped": 0, "time_since_restore": 27511.693686008453, "episode_reward_max": -474.1831117307202, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1076400, "default": {"kl": 0.012524723075330257, "policy_loss": -0.1441299319267273, "vf_loss": 495.65911865234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9443374276161194, "entropy": 7.822608947753906, "cur_lr": 4.999999873689376e-05, "total_loss": 495.5340270996094}, "load_time_ms": 0.623, "num_steps_sampled": 1076400, "grad_time_ms": 634.627, "update_time_ms": 2.318, "sample_time_ms": 30586.456}, "date": "2025-08-30_23-49-10", "hostname": "cda-server-4", "time_this_iter_s": 30.415077924728394, "episodes_total": 5382, "timestamp": 1756590550, "node_ip": "10.157.146.4", "done": false, "time_total_s": 27511.693686008453, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 898, "episode_reward_mean": -613.6314146169368, "training_iteration": 898, "timesteps_total": 1077600, "policy_reward_mean": {}, "episode_reward_min": -717.1676541400791, "timesteps_since_restore": 1077600, "num_metric_batches_dropped": 0, "time_since_restore": 27543.339556455612, "episode_reward_max": -474.1831117307202, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1077600, "default": {"kl": 0.011636241339147091, "policy_loss": -0.15208135545253754, "vf_loss": 727.2562866210938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9600257873535156, "entropy": 7.943928241729736, "cur_lr": 4.999999873689376e-05, "total_loss": 727.1219482421875}, "load_time_ms": 0.622, "num_steps_sampled": 1077600, "grad_time_ms": 633.377, "update_time_ms": 2.345, "sample_time_ms": 30561.973}, "date": "2025-08-30_23-49-41", "hostname": "cda-server-4", "time_this_iter_s": 31.645870447158813, "episodes_total": 5388, "timestamp": 1756590581, "node_ip": "10.157.146.4", "done": false, "time_total_s": 27543.339556455612, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 899, "episode_reward_mean": -612.0003725439669, "training_iteration": 899, "timesteps_total": 1078800, "policy_reward_mean": {}, "episode_reward_min": -717.1676541400791, "timesteps_since_restore": 1078800, "num_metric_batches_dropped": 0, "time_since_restore": 27574.382872104645, "episode_reward_max": -474.1831117307202, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1078800, "default": {"kl": 0.011253835633397102, "policy_loss": -0.13523083925247192, "vf_loss": 388.1249694824219, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9546105861663818, "entropy": 7.462297439575195, "cur_lr": 4.999999873689376e-05, "total_loss": 388.0068359375}, "load_time_ms": 0.625, "num_steps_sampled": 1078800, "grad_time_ms": 635.55, "update_time_ms": 2.352, "sample_time_ms": 30334.202}, "date": "2025-08-30_23-50-12", "hostname": "cda-server-4", "time_this_iter_s": 31.043315649032593, "episodes_total": 5394, "timestamp": 1756590612, "node_ip": "10.157.146.4", "done": false, "time_total_s": 27574.382872104645, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 900, "episode_reward_mean": -611.633784111155, "training_iteration": 900, "timesteps_total": 1080000, "policy_reward_mean": {}, "episode_reward_min": -717.1676541400791, "timesteps_since_restore": 1080000, "num_metric_batches_dropped": 0, "time_since_restore": 27606.434551000595, "episode_reward_max": -474.1831117307202, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1080000, "default": {"kl": 0.010502733290195465, "policy_loss": -0.12799982726573944, "vf_loss": 128.10842895507812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9885295033454895, "entropy": 7.7371673583984375, "cur_lr": 4.999999873689376e-05, "total_loss": 127.99637603759766}, "load_time_ms": 0.631, "num_steps_sampled": 1080000, "grad_time_ms": 642.758, "update_time_ms": 2.45, "sample_time_ms": 30377.58}, "date": "2025-08-30_23-50-45", "hostname": "cda-server-4", "time_this_iter_s": 32.05167889595032, "episodes_total": 5400, "timestamp": 1756590645, "node_ip": "10.157.146.4", "done": false, "time_total_s": 27606.434551000595, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 901, "episode_reward_mean": -611.0448890995829, "training_iteration": 901, "timesteps_total": 1081200, "policy_reward_mean": {}, "episode_reward_min": -717.1676541400791, "timesteps_since_restore": 1081200, "num_metric_batches_dropped": 0, "time_since_restore": 27638.963022232056, "episode_reward_max": -474.1831117307202, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1081200, "default": {"kl": 0.010153167881071568, "policy_loss": -0.13401442766189575, "vf_loss": 297.5089416503906, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9713283181190491, "entropy": 7.505144119262695, "cur_lr": 4.999999873689376e-05, "total_loss": 297.39031982421875}, "load_time_ms": 0.632, "num_steps_sampled": 1081200, "grad_time_ms": 643.678, "update_time_ms": 2.362, "sample_time_ms": 30733.435}, "date": "2025-08-30_23-51-17", "hostname": "cda-server-4", "time_this_iter_s": 32.52847123146057, "episodes_total": 5406, "timestamp": 1756590677, "node_ip": "10.157.146.4", "done": false, "time_total_s": 27638.963022232056, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 902, "episode_reward_mean": -612.406764973265, "training_iteration": 902, "timesteps_total": 1082400, "policy_reward_mean": {}, "episode_reward_min": -717.1676541400791, "timesteps_since_restore": 1082400, "num_metric_batches_dropped": 0, "time_since_restore": 27671.334337949753, "episode_reward_max": -474.1831117307202, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1082400, "default": {"kl": 0.008662078529596329, "policy_loss": -0.12840406596660614, "vf_loss": 478.8326721191406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9324228763580322, "entropy": 8.072477340698242, "cur_lr": 4.999999873689376e-05, "total_loss": 478.7174072265625}, "load_time_ms": 0.627, "num_steps_sampled": 1082400, "grad_time_ms": 655.739, "update_time_ms": 2.337, "sample_time_ms": 30731.14}, "date": "2025-08-30_23-51-50", "hostname": "cda-server-4", "time_this_iter_s": 32.371315717697144, "episodes_total": 5412, "timestamp": 1756590710, "node_ip": "10.157.146.4", "done": false, "time_total_s": 27671.334337949753, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 903, "episode_reward_mean": -611.3144236666354, "training_iteration": 903, "timesteps_total": 1083600, "policy_reward_mean": {}, "episode_reward_min": -690.1374147731261, "timesteps_since_restore": 1083600, "num_metric_batches_dropped": 0, "time_since_restore": 27704.41582775116, "episode_reward_max": -474.1831117307202, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1083600, "default": {"kl": 0.011321168392896652, "policy_loss": -0.11872533708810806, "vf_loss": 239.37774658203125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9743124842643738, "entropy": 7.711357116699219, "cur_lr": 4.999999873689376e-05, "total_loss": 239.2761993408203}, "load_time_ms": 0.62, "num_steps_sampled": 1083600, "grad_time_ms": 648.759, "update_time_ms": 2.33, "sample_time_ms": 31019.659}, "date": "2025-08-30_23-52-23", "hostname": "cda-server-4", "time_this_iter_s": 33.08148980140686, "episodes_total": 5418, "timestamp": 1756590743, "node_ip": "10.157.146.4", "done": false, "time_total_s": 27704.41582775116, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 904, "episode_reward_mean": -611.1246735372171, "training_iteration": 904, "timesteps_total": 1084800, "policy_reward_mean": {}, "episode_reward_min": -676.4016534297151, "timesteps_since_restore": 1084800, "num_metric_batches_dropped": 0, "time_since_restore": 27735.157967090607, "episode_reward_max": -476.87621637078985, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1084800, "default": {"kl": 0.009714843705296516, "policy_loss": -0.12837208807468414, "vf_loss": 691.4629516601562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9452196955680847, "entropy": 7.601839542388916, "cur_lr": 4.999999873689376e-05, "total_loss": 691.349365234375}, "load_time_ms": 0.617, "num_steps_sampled": 1084800, "grad_time_ms": 629.531, "update_time_ms": 2.38, "sample_time_ms": 30920.366}, "date": "2025-08-30_23-52-53", "hostname": "cda-server-4", "time_this_iter_s": 30.74213933944702, "episodes_total": 5424, "timestamp": 1756590773, "node_ip": "10.157.146.4", "done": false, "time_total_s": 27735.157967090607, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 905, "episode_reward_mean": -612.8141192579176, "training_iteration": 905, "timesteps_total": 1086000, "policy_reward_mean": {}, "episode_reward_min": -676.4016534297151, "timesteps_since_restore": 1086000, "num_metric_batches_dropped": 0, "time_since_restore": 27767.167273759842, "episode_reward_max": -489.2935383389225, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1086000, "default": {"kl": 0.011737959459424019, "policy_loss": -0.14479130506515503, "vf_loss": 324.7423095703125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9662820100784302, "entropy": 7.746450424194336, "cur_lr": 4.999999873689376e-05, "total_loss": 324.6153564453125}, "load_time_ms": 0.639, "num_steps_sampled": 1086000, "grad_time_ms": 643.565, "update_time_ms": 2.395, "sample_time_ms": 31178.258}, "date": "2025-08-30_23-53-25", "hostname": "cda-server-4", "time_this_iter_s": 32.00930666923523, "episodes_total": 5430, "timestamp": 1756590805, "node_ip": "10.157.146.4", "done": false, "time_total_s": 27767.167273759842, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 906, "episode_reward_mean": -612.7048915209479, "training_iteration": 906, "timesteps_total": 1087200, "policy_reward_mean": {}, "episode_reward_min": -676.4016534297151, "timesteps_since_restore": 1087200, "num_metric_batches_dropped": 0, "time_since_restore": 27797.56822538376, "episode_reward_max": -489.2935383389225, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1087200, "default": {"kl": 0.01342904381453991, "policy_loss": -0.1496136635541916, "vf_loss": 430.65435791015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.963057816028595, "entropy": 7.65907621383667, "cur_lr": 4.999999873689376e-05, "total_loss": 430.5251159667969}, "load_time_ms": 0.663, "num_steps_sampled": 1087200, "grad_time_ms": 651.085, "update_time_ms": 2.478, "sample_time_ms": 30970.54}, "date": "2025-08-30_23-53-56", "hostname": "cda-server-4", "time_this_iter_s": 30.400951623916626, "episodes_total": 5436, "timestamp": 1756590836, "node_ip": "10.157.146.4", "done": false, "time_total_s": 27797.56822538376, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 907, "episode_reward_mean": -613.0049503186337, "training_iteration": 907, "timesteps_total": 1088400, "policy_reward_mean": {}, "episode_reward_min": -676.4016534297151, "timesteps_since_restore": 1088400, "num_metric_batches_dropped": 0, "time_since_restore": 27827.242395401, "episode_reward_max": -489.2935383389225, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1088400, "default": {"kl": 0.012187173590064049, "policy_loss": -0.12845902144908905, "vf_loss": 219.5741424560547, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9720572233200073, "entropy": 7.530771732330322, "cur_lr": 4.999999873689376e-05, "total_loss": 219.46420288085938}, "load_time_ms": 0.677, "num_steps_sampled": 1088400, "grad_time_ms": 641.504, "update_time_ms": 2.443, "sample_time_ms": 30905.972}, "date": "2025-08-30_23-54-26", "hostname": "cda-server-4", "time_this_iter_s": 29.67417001724243, "episodes_total": 5442, "timestamp": 1756590866, "node_ip": "10.157.146.4", "done": false, "time_total_s": 27827.242395401, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 908, "episode_reward_mean": -613.8734401461984, "training_iteration": 908, "timesteps_total": 1089600, "policy_reward_mean": {}, "episode_reward_min": -676.4016534297151, "timesteps_since_restore": 1089600, "num_metric_batches_dropped": 0, "time_since_restore": 27855.747906923294, "episode_reward_max": -522.8310636383682, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1089600, "default": {"kl": 0.010240522213280201, "policy_loss": -0.13414667546749115, "vf_loss": 177.6729278564453, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.984487771987915, "entropy": 8.01108169555664, "cur_lr": 4.999999873689376e-05, "total_loss": 177.55433654785156}, "load_time_ms": 0.674, "num_steps_sampled": 1089600, "grad_time_ms": 628.679, "update_time_ms": 2.454, "sample_time_ms": 30604.754}, "date": "2025-08-30_23-54-54", "hostname": "cda-server-4", "time_this_iter_s": 28.50551152229309, "episodes_total": 5448, "timestamp": 1756590894, "node_ip": "10.157.146.4", "done": false, "time_total_s": 27855.747906923294, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 909, "episode_reward_mean": -613.9059295690707, "training_iteration": 909, "timesteps_total": 1090800, "policy_reward_mean": {}, "episode_reward_min": -709.3134140328982, "timesteps_since_restore": 1090800, "num_metric_batches_dropped": 0, "time_since_restore": 27888.21944141388, "episode_reward_max": -522.8310636383682, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1090800, "default": {"kl": 0.007692290470004082, "policy_loss": -0.11000817269086838, "vf_loss": 1360.1531982421875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8788642287254333, "entropy": 7.665323257446289, "cur_lr": 4.999999873689376e-05, "total_loss": 1360.054931640625}, "load_time_ms": 0.679, "num_steps_sampled": 1090800, "grad_time_ms": 623.785, "update_time_ms": 2.535, "sample_time_ms": 30752.502}, "date": "2025-08-30_23-55-27", "hostname": "cda-server-4", "time_this_iter_s": 32.47153449058533, "episodes_total": 5454, "timestamp": 1756590927, "node_ip": "10.157.146.4", "done": false, "time_total_s": 27888.21944141388, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 910, "episode_reward_mean": -613.801804590063, "training_iteration": 910, "timesteps_total": 1092000, "policy_reward_mean": {}, "episode_reward_min": -709.3134140328982, "timesteps_since_restore": 1092000, "num_metric_batches_dropped": 0, "time_since_restore": 27917.457444906235, "episode_reward_max": -522.8310636383682, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1092000, "default": {"kl": 0.010925871320068836, "policy_loss": -0.1366003304719925, "vf_loss": 137.66354370117188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.987280011177063, "entropy": 7.502488136291504, "cur_lr": 4.999999873689376e-05, "total_loss": 137.5435333251953}, "load_time_ms": 0.675, "num_steps_sampled": 1092000, "grad_time_ms": 625.624, "update_time_ms": 2.475, "sample_time_ms": 30469.318}, "date": "2025-08-30_23-55-56", "hostname": "cda-server-4", "time_this_iter_s": 29.238003492355347, "episodes_total": 5460, "timestamp": 1756590956, "node_ip": "10.157.146.4", "done": false, "time_total_s": 27917.457444906235, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 911, "episode_reward_mean": -613.3743569829641, "training_iteration": 911, "timesteps_total": 1093200, "policy_reward_mean": {}, "episode_reward_min": -709.3134140328982, "timesteps_since_restore": 1093200, "num_metric_batches_dropped": 0, "time_since_restore": 27952.38145327568, "episode_reward_max": -529.7862660843864, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1093200, "default": {"kl": 0.009331118315458298, "policy_loss": -0.12195886671543121, "vf_loss": 164.59405517578125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.977331817150116, "entropy": 7.407069683074951, "cur_lr": 4.999999873689376e-05, "total_loss": 164.48626708984375}, "load_time_ms": 0.667, "num_steps_sampled": 1093200, "grad_time_ms": 635.389, "update_time_ms": 2.505, "sample_time_ms": 30699.079}, "date": "2025-08-30_23-56-31", "hostname": "cda-server-4", "time_this_iter_s": 34.9240083694458, "episodes_total": 5466, "timestamp": 1756590991, "node_ip": "10.157.146.4", "done": false, "time_total_s": 27952.38145327568, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 912, "episode_reward_mean": -613.106824011057, "training_iteration": 912, "timesteps_total": 1094400, "policy_reward_mean": {}, "episode_reward_min": -709.3134140328982, "timesteps_since_restore": 1094400, "num_metric_batches_dropped": 0, "time_since_restore": 27979.279693603516, "episode_reward_max": -529.7862660843864, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1094400, "default": {"kl": 0.009299679659307003, "policy_loss": -0.12237241864204407, "vf_loss": 184.21746826171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9852514266967773, "entropy": 7.337130069732666, "cur_lr": 4.999999873689376e-05, "total_loss": 184.1092071533203}, "load_time_ms": 0.663, "num_steps_sampled": 1094400, "grad_time_ms": 650.207, "update_time_ms": 2.521, "sample_time_ms": 30137.051}, "date": "2025-08-30_23-56-58", "hostname": "cda-server-4", "time_this_iter_s": 26.898240327835083, "episodes_total": 5472, "timestamp": 1756591018, "node_ip": "10.157.146.4", "done": false, "time_total_s": 27979.279693603516, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 913, "episode_reward_mean": -612.6002328421077, "training_iteration": 913, "timesteps_total": 1095600, "policy_reward_mean": {}, "episode_reward_min": -709.3134140328982, "timesteps_since_restore": 1095600, "num_metric_batches_dropped": 0, "time_since_restore": 28009.01583790779, "episode_reward_max": -529.7862660843864, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1095600, "default": {"kl": 0.009371805936098099, "policy_loss": -0.09996601939201355, "vf_loss": 83.66789245605469, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9888045191764832, "entropy": 7.639802932739258, "cur_lr": 4.999999873689376e-05, "total_loss": 83.5821533203125}, "load_time_ms": 0.705, "num_steps_sampled": 1095600, "grad_time_ms": 686.086, "update_time_ms": 2.494, "sample_time_ms": 29766.254}, "date": "2025-08-30_23-57-27", "hostname": "cda-server-4", "time_this_iter_s": 29.736144304275513, "episodes_total": 5478, "timestamp": 1756591047, "node_ip": "10.157.146.4", "done": false, "time_total_s": 28009.01583790779, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 914, "episode_reward_mean": -613.5693790278691, "training_iteration": 914, "timesteps_total": 1096800, "policy_reward_mean": {}, "episode_reward_min": -709.3134140328982, "timesteps_since_restore": 1096800, "num_metric_batches_dropped": 0, "time_since_restore": 28043.247569084167, "episode_reward_max": -529.7862660843864, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1096800, "default": {"kl": 0.010858792811632156, "policy_loss": -0.13434267044067383, "vf_loss": 223.4573974609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9785948991775513, "entropy": 7.577000141143799, "cur_lr": 4.999999873689376e-05, "total_loss": 223.33953857421875}, "load_time_ms": 0.712, "num_steps_sampled": 1096800, "grad_time_ms": 702.402, "update_time_ms": 2.462, "sample_time_ms": 30098.89}, "date": "2025-08-30_23-58-02", "hostname": "cda-server-4", "time_this_iter_s": 34.23173117637634, "episodes_total": 5484, "timestamp": 1756591082, "node_ip": "10.157.146.4", "done": false, "time_total_s": 28043.247569084167, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 915, "episode_reward_mean": -614.2869719400778, "training_iteration": 915, "timesteps_total": 1098000, "policy_reward_mean": {}, "episode_reward_min": -709.3134140328982, "timesteps_since_restore": 1098000, "num_metric_batches_dropped": 0, "time_since_restore": 28075.271690130234, "episode_reward_max": -529.7862660843864, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1098000, "default": {"kl": 0.010057407431304455, "policy_loss": -0.11343015730381012, "vf_loss": 234.56768798828125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9737077355384827, "entropy": 7.900532245635986, "cur_lr": 4.999999873689376e-05, "total_loss": 234.46954345703125}, "load_time_ms": 0.682, "num_steps_sampled": 1098000, "grad_time_ms": 706.676, "update_time_ms": 2.394, "sample_time_ms": 30096.29}, "date": "2025-08-30_23-58-34", "hostname": "cda-server-4", "time_this_iter_s": 32.024121046066284, "episodes_total": 5490, "timestamp": 1756591114, "node_ip": "10.157.146.4", "done": false, "time_total_s": 28075.271690130234, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 916, "episode_reward_mean": -615.2670049926082, "training_iteration": 916, "timesteps_total": 1099200, "policy_reward_mean": {}, "episode_reward_min": -709.3134140328982, "timesteps_since_restore": 1099200, "num_metric_batches_dropped": 0, "time_since_restore": 28108.899354696274, "episode_reward_max": -529.7862660843864, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1099200, "default": {"kl": 0.009534367360174656, "policy_loss": -0.12022487074136734, "vf_loss": 286.7099304199219, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9770900011062622, "entropy": 7.930671691894531, "cur_lr": 4.999999873689376e-05, "total_loss": 286.60418701171875}, "load_time_ms": 0.679, "num_steps_sampled": 1099200, "grad_time_ms": 716.232, "update_time_ms": 2.397, "sample_time_ms": 30409.423}, "date": "2025-08-30_23-59-07", "hostname": "cda-server-4", "time_this_iter_s": 33.62766456604004, "episodes_total": 5496, "timestamp": 1756591147, "node_ip": "10.157.146.4", "done": false, "time_total_s": 28108.899354696274, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 917, "episode_reward_mean": -615.3864580118809, "training_iteration": 917, "timesteps_total": 1100400, "policy_reward_mean": {}, "episode_reward_min": -709.3134140328982, "timesteps_since_restore": 1100400, "num_metric_batches_dropped": 0, "time_since_restore": 28141.756974220276, "episode_reward_max": -529.7862660843864, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1100400, "default": {"kl": 0.012669521383941174, "policy_loss": -0.1409868597984314, "vf_loss": 288.6908264160156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9840461015701294, "entropy": 7.5325751304626465, "cur_lr": 4.999999873689376e-05, "total_loss": 288.569091796875}, "load_time_ms": 0.663, "num_steps_sampled": 1100400, "grad_time_ms": 728.132, "update_time_ms": 2.394, "sample_time_ms": 30715.926}, "date": "2025-08-30_23-59-40", "hostname": "cda-server-4", "time_this_iter_s": 32.857619524002075, "episodes_total": 5502, "timestamp": 1756591180, "node_ip": "10.157.146.4", "done": false, "time_total_s": 28141.756974220276, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 918, "episode_reward_mean": -616.3491119869212, "training_iteration": 918, "timesteps_total": 1101600, "policy_reward_mean": {}, "episode_reward_min": -709.3134140328982, "timesteps_since_restore": 1101600, "num_metric_batches_dropped": 0, "time_since_restore": 28170.115520715714, "episode_reward_max": -588.7534470544964, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1101600, "default": {"kl": 0.009606283158063889, "policy_loss": -0.12331695109605789, "vf_loss": 315.8037109375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9562087655067444, "entropy": 8.14035701751709, "cur_lr": 4.999999873689376e-05, "total_loss": 315.6949768066406}, "load_time_ms": 0.667, "num_steps_sampled": 1101600, "grad_time_ms": 742.162, "update_time_ms": 2.411, "sample_time_ms": 30687.209}, "date": "2025-08-31_00-00-09", "hostname": "cda-server-4", "time_this_iter_s": 28.358546495437622, "episodes_total": 5508, "timestamp": 1756591209, "node_ip": "10.157.146.4", "done": false, "time_total_s": 28170.115520715714, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 919, "episode_reward_mean": -615.15890187466, "training_iteration": 919, "timesteps_total": 1102800, "policy_reward_mean": {}, "episode_reward_min": -709.3134140328982, "timesteps_since_restore": 1102800, "num_metric_batches_dropped": 0, "time_since_restore": 28203.611493825912, "episode_reward_max": -489.56306658147383, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1102800, "default": {"kl": 0.012555930763483047, "policy_loss": -0.15392468869686127, "vf_loss": 507.1023254394531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9360520839691162, "entropy": 8.21208381652832, "cur_lr": 4.999999873689376e-05, "total_loss": 506.9674987792969}, "load_time_ms": 0.659, "num_steps_sampled": 1102800, "grad_time_ms": 749.617, "update_time_ms": 2.355, "sample_time_ms": 30782.241}, "date": "2025-08-31_00-00-42", "hostname": "cda-server-4", "time_this_iter_s": 33.495973110198975, "episodes_total": 5514, "timestamp": 1756591242, "node_ip": "10.157.146.4", "done": false, "time_total_s": 28203.611493825912, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 920, "episode_reward_mean": -616.7750861986116, "training_iteration": 920, "timesteps_total": 1104000, "policy_reward_mean": {}, "episode_reward_min": -709.3134140328982, "timesteps_since_restore": 1104000, "num_metric_batches_dropped": 0, "time_since_restore": 28236.2224817276, "episode_reward_max": -489.56306658147383, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1104000, "default": {"kl": 0.011170792393386364, "policy_loss": -0.12972566485404968, "vf_loss": 314.3042297363281, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.963141143321991, "entropy": 7.861806392669678, "cur_lr": 4.999999873689376e-05, "total_loss": 314.19146728515625}, "load_time_ms": 0.657, "num_steps_sampled": 1104000, "grad_time_ms": 755.158, "update_time_ms": 2.365, "sample_time_ms": 31114.014}, "date": "2025-08-31_00-01-15", "hostname": "cda-server-4", "time_this_iter_s": 32.61098790168762, "episodes_total": 5520, "timestamp": 1756591275, "node_ip": "10.157.146.4", "done": false, "time_total_s": 28236.2224817276, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 921, "episode_reward_mean": -616.3468427036717, "training_iteration": 921, "timesteps_total": 1105200, "policy_reward_mean": {}, "episode_reward_min": -709.3134140328982, "timesteps_since_restore": 1105200, "num_metric_batches_dropped": 0, "time_since_restore": 28268.93801522255, "episode_reward_max": -489.56306658147383, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1105200, "default": {"kl": 0.008775817230343819, "policy_loss": -0.10393490642309189, "vf_loss": 144.36978149414062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.99357670545578, "entropy": 7.594357967376709, "cur_lr": 4.999999873689376e-05, "total_loss": 144.2791748046875}, "load_time_ms": 0.663, "num_steps_sampled": 1105200, "grad_time_ms": 755.146, "update_time_ms": 2.395, "sample_time_ms": 30893.189}, "date": "2025-08-31_00-01-48", "hostname": "cda-server-4", "time_this_iter_s": 32.71553349494934, "episodes_total": 5526, "timestamp": 1756591308, "node_ip": "10.157.146.4", "done": false, "time_total_s": 28268.93801522255, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 922, "episode_reward_mean": -617.5684528742668, "training_iteration": 922, "timesteps_total": 1106400, "policy_reward_mean": {}, "episode_reward_min": -709.3134140328982, "timesteps_since_restore": 1106400, "num_metric_batches_dropped": 0, "time_since_restore": 28296.37494635582, "episode_reward_max": -489.56306658147383, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1106400, "default": {"kl": 0.01096432562917471, "policy_loss": -0.134230837225914, "vf_loss": 535.1069946289062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9459022879600525, "entropy": 7.795073509216309, "cur_lr": 4.999999873689376e-05, "total_loss": 534.9894409179688}, "load_time_ms": 0.66, "num_steps_sampled": 1106400, "grad_time_ms": 755.852, "update_time_ms": 2.374, "sample_time_ms": 30946.313}, "date": "2025-08-31_00-02-15", "hostname": "cda-server-4", "time_this_iter_s": 27.436931133270264, "episodes_total": 5532, "timestamp": 1756591335, "node_ip": "10.157.146.4", "done": false, "time_total_s": 28296.37494635582, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 923, "episode_reward_mean": -617.9526396654974, "training_iteration": 923, "timesteps_total": 1107600, "policy_reward_mean": {}, "episode_reward_min": -709.3134140328982, "timesteps_since_restore": 1107600, "num_metric_batches_dropped": 0, "time_since_restore": 28330.57017302513, "episode_reward_max": -489.56306658147383, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1107600, "default": {"kl": 0.011914661154150963, "policy_loss": -0.1345411092042923, "vf_loss": 66.39344787597656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9929850697517395, "entropy": 7.569554805755615, "cur_lr": 4.999999873689376e-05, "total_loss": 66.2770004272461}, "load_time_ms": 0.628, "num_steps_sampled": 1107600, "grad_time_ms": 733.915, "update_time_ms": 2.351, "sample_time_ms": 31414.593}, "date": "2025-08-31_00-02-49", "hostname": "cda-server-4", "time_this_iter_s": 34.19522666931152, "episodes_total": 5538, "timestamp": 1756591369, "node_ip": "10.157.146.4", "done": false, "time_total_s": 28330.57017302513, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 924, "episode_reward_mean": -617.4618842550569, "training_iteration": 924, "timesteps_total": 1108800, "policy_reward_mean": {}, "episode_reward_min": -709.3134140328982, "timesteps_since_restore": 1108800, "num_metric_batches_dropped": 0, "time_since_restore": 28361.463748455048, "episode_reward_max": -489.56306658147383, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1108800, "default": {"kl": 0.009768941439688206, "policy_loss": -0.13434728980064392, "vf_loss": 980.5393676757812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9306734800338745, "entropy": 7.5489501953125, "cur_lr": 4.999999873689376e-05, "total_loss": 980.419921875}, "load_time_ms": 0.633, "num_steps_sampled": 1108800, "grad_time_ms": 736.566, "update_time_ms": 2.336, "sample_time_ms": 31078.15}, "date": "2025-08-31_00-03-20", "hostname": "cda-server-4", "time_this_iter_s": 30.893575429916382, "episodes_total": 5544, "timestamp": 1756591400, "node_ip": "10.157.146.4", "done": false, "time_total_s": 28361.463748455048, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 925, "episode_reward_mean": -617.9812874403697, "training_iteration": 925, "timesteps_total": 1110000, "policy_reward_mean": {}, "episode_reward_min": -693.661250852949, "timesteps_since_restore": 1110000, "num_metric_batches_dropped": 0, "time_since_restore": 28391.078963279724, "episode_reward_max": -489.56306658147383, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1110000, "default": {"kl": 0.011013351380825043, "policy_loss": -0.140890970826149, "vf_loss": 270.5753173828125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9775587916374207, "entropy": 8.144433975219727, "cur_lr": 4.999999873689376e-05, "total_loss": 270.4511413574219}, "load_time_ms": 0.639, "num_steps_sampled": 1110000, "grad_time_ms": 742.904, "update_time_ms": 2.317, "sample_time_ms": 30830.965}, "date": "2025-08-31_00-03-50", "hostname": "cda-server-4", "time_this_iter_s": 29.615214824676514, "episodes_total": 5550, "timestamp": 1756591430, "node_ip": "10.157.146.4", "done": false, "time_total_s": 28391.078963279724, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 926, "episode_reward_mean": -619.0514424808568, "training_iteration": 926, "timesteps_total": 1111200, "policy_reward_mean": {}, "episode_reward_min": -693.661250852949, "timesteps_since_restore": 1111200, "num_metric_batches_dropped": 0, "time_since_restore": 28422.496252775192, "episode_reward_max": -489.56306658147383, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1111200, "default": {"kl": 0.009476989507675171, "policy_loss": -0.123502217233181, "vf_loss": 304.8507995605469, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9704724550247192, "entropy": 7.769559860229492, "cur_lr": 4.999999873689376e-05, "total_loss": 304.7417297363281}, "load_time_ms": 0.62, "num_steps_sampled": 1111200, "grad_time_ms": 740.201, "update_time_ms": 2.234, "sample_time_ms": 30612.702}, "date": "2025-08-31_00-04-21", "hostname": "cda-server-4", "time_this_iter_s": 31.41728949546814, "episodes_total": 5556, "timestamp": 1756591461, "node_ip": "10.157.146.4", "done": false, "time_total_s": 28422.496252775192, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 927, "episode_reward_mean": -619.6934673661452, "training_iteration": 927, "timesteps_total": 1112400, "policy_reward_mean": {}, "episode_reward_min": -693.661250852949, "timesteps_since_restore": 1112400, "num_metric_batches_dropped": 0, "time_since_restore": 28451.671802520752, "episode_reward_max": -489.56306658147383, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1112400, "default": {"kl": 0.011494861915707588, "policy_loss": -0.14296108484268188, "vf_loss": 401.5055236816406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.970203697681427, "entropy": 7.559266090393066, "cur_lr": 4.999999873689376e-05, "total_loss": 401.3800048828125}, "load_time_ms": 0.615, "num_steps_sampled": 1112400, "grad_time_ms": 716.558, "update_time_ms": 2.191, "sample_time_ms": 30268.161}, "date": "2025-08-31_00-04-50", "hostname": "cda-server-4", "time_this_iter_s": 29.175549745559692, "episodes_total": 5562, "timestamp": 1756591490, "node_ip": "10.157.146.4", "done": false, "time_total_s": 28451.671802520752, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 928, "episode_reward_mean": -619.9898036237702, "training_iteration": 928, "timesteps_total": 1113600, "policy_reward_mean": {}, "episode_reward_min": -693.661250852949, "timesteps_since_restore": 1113600, "num_metric_batches_dropped": 0, "time_since_restore": 28482.95458292961, "episode_reward_max": -489.56306658147383, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1113600, "default": {"kl": 0.009915530681610107, "policy_loss": -0.13898153603076935, "vf_loss": 522.109375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9287628531455994, "entropy": 7.667253494262695, "cur_lr": 4.999999873689376e-05, "total_loss": 521.9855346679688}, "load_time_ms": 0.636, "num_steps_sampled": 1113600, "grad_time_ms": 710.045, "update_time_ms": 2.133, "sample_time_ms": 30567.061}, "date": "2025-08-31_00-05-22", "hostname": "cda-server-4", "time_this_iter_s": 31.282780408859253, "episodes_total": 5568, "timestamp": 1756591522, "node_ip": "10.157.146.4", "done": false, "time_total_s": 28482.95458292961, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 929, "episode_reward_mean": -622.1717623461897, "training_iteration": 929, "timesteps_total": 1114800, "policy_reward_mean": {}, "episode_reward_min": -800.1416240272931, "timesteps_since_restore": 1114800, "num_metric_batches_dropped": 0, "time_since_restore": 28512.468033075333, "episode_reward_max": -489.56306658147383, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1114800, "default": {"kl": 0.0076567381620407104, "policy_loss": -0.11774233728647232, "vf_loss": 570.634521484375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9266717433929443, "entropy": 7.673429489135742, "cur_lr": 4.999999873689376e-05, "total_loss": 570.5284423828125}, "load_time_ms": 0.642, "num_steps_sampled": 1114800, "grad_time_ms": 697.289, "update_time_ms": 2.163, "sample_time_ms": 30181.528}, "date": "2025-08-31_00-05-51", "hostname": "cda-server-4", "time_this_iter_s": 29.513450145721436, "episodes_total": 5574, "timestamp": 1756591551, "node_ip": "10.157.146.4", "done": false, "time_total_s": 28512.468033075333, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 930, "episode_reward_mean": -621.3981226247487, "training_iteration": 930, "timesteps_total": 1116000, "policy_reward_mean": {}, "episode_reward_min": -800.1416240272931, "timesteps_since_restore": 1116000, "num_metric_batches_dropped": 0, "time_since_restore": 28541.358216285706, "episode_reward_max": -489.56306658147383, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1116000, "default": {"kl": 0.010005377233028412, "policy_loss": -0.12838466465473175, "vf_loss": 241.24459838867188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9815576076507568, "entropy": 7.343589782714844, "cur_lr": 4.999999873689376e-05, "total_loss": 241.13140869140625}, "load_time_ms": 0.643, "num_steps_sampled": 1116000, "grad_time_ms": 687.875, "update_time_ms": 2.133, "sample_time_ms": 29818.854}, "date": "2025-08-31_00-06-20", "hostname": "cda-server-4", "time_this_iter_s": 28.890183210372925, "episodes_total": 5580, "timestamp": 1756591580, "node_ip": "10.157.146.4", "done": false, "time_total_s": 28541.358216285706, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 931, "episode_reward_mean": -621.8077561377604, "training_iteration": 931, "timesteps_total": 1117200, "policy_reward_mean": {}, "episode_reward_min": -800.1416240272931, "timesteps_since_restore": 1117200, "num_metric_batches_dropped": 0, "time_since_restore": 28572.090037107468, "episode_reward_max": -489.56306658147383, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1117200, "default": {"kl": 0.011552316136658192, "policy_loss": -0.150538831949234, "vf_loss": 101.77137756347656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9903112053871155, "entropy": 7.729622840881348, "cur_lr": 4.999999873689376e-05, "total_loss": 101.63838958740234}, "load_time_ms": 0.642, "num_steps_sampled": 1117200, "grad_time_ms": 669.838, "update_time_ms": 2.127, "sample_time_ms": 29638.55}, "date": "2025-08-31_00-06-51", "hostname": "cda-server-4", "time_this_iter_s": 30.731820821762085, "episodes_total": 5586, "timestamp": 1756591611, "node_ip": "10.157.146.4", "done": false, "time_total_s": 28572.090037107468, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 932, "episode_reward_mean": -621.0241555691202, "training_iteration": 932, "timesteps_total": 1118400, "policy_reward_mean": {}, "episode_reward_min": -800.1416240272931, "timesteps_since_restore": 1118400, "num_metric_batches_dropped": 0, "time_since_restore": 28602.150723457336, "episode_reward_max": -489.56306658147383, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1118400, "default": {"kl": 0.010670074261724949, "policy_loss": -0.1214829534292221, "vf_loss": 148.75054931640625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9844322204589844, "entropy": 7.488448143005371, "cur_lr": 4.999999873689376e-05, "total_loss": 148.645263671875}, "load_time_ms": 0.661, "num_steps_sampled": 1118400, "grad_time_ms": 655.658, "update_time_ms": 2.126, "sample_time_ms": 29915.058}, "date": "2025-08-31_00-07-21", "hostname": "cda-server-4", "time_this_iter_s": 30.060686349868774, "episodes_total": 5592, "timestamp": 1756591641, "node_ip": "10.157.146.4", "done": false, "time_total_s": 28602.150723457336, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 933, "episode_reward_mean": -621.0251783697356, "training_iteration": 933, "timesteps_total": 1119600, "policy_reward_mean": {}, "episode_reward_min": -800.1416240272931, "timesteps_since_restore": 1119600, "num_metric_batches_dropped": 0, "time_since_restore": 28632.860137939453, "episode_reward_max": -489.56306658147383, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1119600, "default": {"kl": 0.011532086879014969, "policy_loss": -0.13866080343723297, "vf_loss": 186.39340209960938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9824209213256836, "entropy": 7.785046100616455, "cur_lr": 4.999999873689376e-05, "total_loss": 186.27227783203125}, "load_time_ms": 0.654, "num_steps_sampled": 1119600, "grad_time_ms": 641.393, "update_time_ms": 2.192, "sample_time_ms": 29580.74}, "date": "2025-08-31_00-07-52", "hostname": "cda-server-4", "time_this_iter_s": 30.7094144821167, "episodes_total": 5598, "timestamp": 1756591672, "node_ip": "10.157.146.4", "done": false, "time_total_s": 28632.860137939453, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 934, "episode_reward_mean": -619.9797603683072, "training_iteration": 934, "timesteps_total": 1120800, "policy_reward_mean": {}, "episode_reward_min": -800.1416240272931, "timesteps_since_restore": 1120800, "num_metric_batches_dropped": 0, "time_since_restore": 28662.730969429016, "episode_reward_max": -489.56306658147383, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1120800, "default": {"kl": 0.012998063117265701, "policy_loss": -0.13956622779369354, "vf_loss": 2286.942138671875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9299534559249878, "entropy": 7.3519768714904785, "cur_lr": 4.999999873689376e-05, "total_loss": 2286.822021484375}, "load_time_ms": 0.647, "num_steps_sampled": 1120800, "grad_time_ms": 636.06, "update_time_ms": 2.16, "sample_time_ms": 29483.825}, "date": "2025-08-31_00-08-22", "hostname": "cda-server-4", "time_this_iter_s": 29.87083148956299, "episodes_total": 5604, "timestamp": 1756591702, "node_ip": "10.157.146.4", "done": false, "time_total_s": 28662.730969429016, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 935, "episode_reward_mean": -618.9976373596595, "training_iteration": 935, "timesteps_total": 1122000, "policy_reward_mean": {}, "episode_reward_min": -800.1416240272931, "timesteps_since_restore": 1122000, "num_metric_batches_dropped": 0, "time_since_restore": 28696.66599035263, "episode_reward_max": -489.56306658147383, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1122000, "default": {"kl": 0.009341984987258911, "policy_loss": -0.11290434002876282, "vf_loss": 203.71620178222656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9747548699378967, "entropy": 7.337774276733398, "cur_lr": 4.999999873689376e-05, "total_loss": 203.6174774169922}, "load_time_ms": 0.665, "num_steps_sampled": 1122000, "grad_time_ms": 623.683, "update_time_ms": 2.21, "sample_time_ms": 29928.017}, "date": "2025-08-31_00-08-55", "hostname": "cda-server-4", "time_this_iter_s": 33.9350209236145, "episodes_total": 5610, "timestamp": 1756591735, "node_ip": "10.157.146.4", "done": false, "time_total_s": 28696.66599035263, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 936, "episode_reward_mean": -618.391513215096, "training_iteration": 936, "timesteps_total": 1123200, "policy_reward_mean": {}, "episode_reward_min": -800.1416240272931, "timesteps_since_restore": 1123200, "num_metric_batches_dropped": 0, "time_since_restore": 28725.32213449478, "episode_reward_max": -524.4232277901907, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1123200, "default": {"kl": 0.008649655617773533, "policy_loss": -0.11900663375854492, "vf_loss": 102.6175308227539, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9878049492835999, "entropy": 7.533214092254639, "cur_lr": 4.999999873689376e-05, "total_loss": 102.51165771484375}, "load_time_ms": 0.668, "num_steps_sampled": 1123200, "grad_time_ms": 613.205, "update_time_ms": 2.301, "sample_time_ms": 29662.359}, "date": "2025-08-31_00-09-24", "hostname": "cda-server-4", "time_this_iter_s": 28.65614414215088, "episodes_total": 5616, "timestamp": 1756591764, "node_ip": "10.157.146.4", "done": false, "time_total_s": 28725.32213449478, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 937, "episode_reward_mean": -617.9710078383106, "training_iteration": 937, "timesteps_total": 1124400, "policy_reward_mean": {}, "episode_reward_min": -800.1416240272931, "timesteps_since_restore": 1124400, "num_metric_batches_dropped": 0, "time_since_restore": 28752.712682962418, "episode_reward_max": -524.4232277901907, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1124400, "default": {"kl": 0.012905670329928398, "policy_loss": -0.13769227266311646, "vf_loss": 244.48399353027344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9764934182167053, "entropy": 7.49672794342041, "cur_lr": 4.999999873689376e-05, "total_loss": 244.36590576171875}, "load_time_ms": 0.671, "num_steps_sampled": 1124400, "grad_time_ms": 629.716, "update_time_ms": 2.341, "sample_time_ms": 29467.325}, "date": "2025-08-31_00-09-52", "hostname": "cda-server-4", "time_this_iter_s": 27.39054846763611, "episodes_total": 5622, "timestamp": 1756591792, "node_ip": "10.157.146.4", "done": false, "time_total_s": 28752.712682962418, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 938, "episode_reward_mean": -616.9706575454276, "training_iteration": 938, "timesteps_total": 1125600, "policy_reward_mean": {}, "episode_reward_min": -800.1416240272931, "timesteps_since_restore": 1125600, "num_metric_batches_dropped": 0, "time_since_restore": 28782.505962371826, "episode_reward_max": -524.4232277901907, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1125600, "default": {"kl": 0.009191877208650112, "policy_loss": -0.1165703535079956, "vf_loss": 167.426513671875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9755318760871887, "entropy": 7.437169551849365, "cur_lr": 4.999999873689376e-05, "total_loss": 167.32391357421875}, "load_time_ms": 0.669, "num_steps_sampled": 1125600, "grad_time_ms": 637.388, "update_time_ms": 2.308, "sample_time_ms": 29310.753}, "date": "2025-08-31_00-10-21", "hostname": "cda-server-4", "time_this_iter_s": 29.79327940940857, "episodes_total": 5628, "timestamp": 1756591821, "node_ip": "10.157.146.4", "done": false, "time_total_s": 28782.505962371826, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 939, "episode_reward_mean": -617.115191594933, "training_iteration": 939, "timesteps_total": 1126800, "policy_reward_mean": {}, "episode_reward_min": -800.1416240272931, "timesteps_since_restore": 1126800, "num_metric_batches_dropped": 0, "time_since_restore": 28813.588010311127, "episode_reward_max": -524.4232277901907, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1126800, "default": {"kl": 0.01039968803524971, "policy_loss": -0.13579465448856354, "vf_loss": 225.75526428222656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9764264225959778, "entropy": 7.529163837432861, "cur_lr": 4.999999873689376e-05, "total_loss": 225.63526916503906}, "load_time_ms": 0.668, "num_steps_sampled": 1126800, "grad_time_ms": 652.153, "update_time_ms": 2.26, "sample_time_ms": 29452.842}, "date": "2025-08-31_00-10-52", "hostname": "cda-server-4", "time_this_iter_s": 31.082047939300537, "episodes_total": 5634, "timestamp": 1756591852, "node_ip": "10.157.146.4", "done": false, "time_total_s": 28813.588010311127, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 940, "episode_reward_mean": -616.784574076852, "training_iteration": 940, "timesteps_total": 1128000, "policy_reward_mean": {}, "episode_reward_min": -800.1416240272931, "timesteps_since_restore": 1128000, "num_metric_batches_dropped": 0, "time_since_restore": 28842.60325860977, "episode_reward_max": -524.4232277901907, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1128000, "default": {"kl": 0.010876546613872051, "policy_loss": -0.13213437795639038, "vf_loss": 86.54533386230469, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9889459609985352, "entropy": 7.33608341217041, "cur_lr": 4.999999873689376e-05, "total_loss": 86.42971801757812}, "load_time_ms": 0.668, "num_steps_sampled": 1128000, "grad_time_ms": 663.585, "update_time_ms": 2.31, "sample_time_ms": 29453.903}, "date": "2025-08-31_00-11-21", "hostname": "cda-server-4", "time_this_iter_s": 29.01524829864502, "episodes_total": 5640, "timestamp": 1756591881, "node_ip": "10.157.146.4", "done": false, "time_total_s": 28842.60325860977, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 941, "episode_reward_mean": -615.5636252982657, "training_iteration": 941, "timesteps_total": 1129200, "policy_reward_mean": {}, "episode_reward_min": -800.1416240272931, "timesteps_since_restore": 1129200, "num_metric_batches_dropped": 0, "time_since_restore": 28873.700440883636, "episode_reward_max": -524.4232277901907, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1129200, "default": {"kl": 0.010697949677705765, "policy_loss": -0.15542125701904297, "vf_loss": 116.63115692138672, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9855130314826965, "entropy": 7.520781517028809, "cur_lr": 4.999999873689376e-05, "total_loss": 116.49198150634766}, "load_time_ms": 0.659, "num_steps_sampled": 1129200, "grad_time_ms": 681.941, "update_time_ms": 2.331, "sample_time_ms": 29472.109}, "date": "2025-08-31_00-11-53", "hostname": "cda-server-4", "time_this_iter_s": 31.097182273864746, "episodes_total": 5646, "timestamp": 1756591913, "node_ip": "10.157.146.4", "done": false, "time_total_s": 28873.700440883636, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 942, "episode_reward_mean": -614.7221078734501, "training_iteration": 942, "timesteps_total": 1130400, "policy_reward_mean": {}, "episode_reward_min": -800.1416240272931, "timesteps_since_restore": 1130400, "num_metric_batches_dropped": 0, "time_since_restore": 28904.79709672928, "episode_reward_max": -524.4232277901907, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1130400, "default": {"kl": 0.009910911321640015, "policy_loss": -0.12089068442583084, "vf_loss": 269.3365173339844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9692102074623108, "entropy": 7.397062301635742, "cur_lr": 4.999999873689376e-05, "total_loss": 269.23065185546875}, "load_time_ms": 0.648, "num_steps_sampled": 1130400, "grad_time_ms": 695.419, "update_time_ms": 2.315, "sample_time_ms": 29562.301}, "date": "2025-08-31_00-12-24", "hostname": "cda-server-4", "time_this_iter_s": 31.09665584564209, "episodes_total": 5652, "timestamp": 1756591944, "node_ip": "10.157.146.4", "done": false, "time_total_s": 28904.79709672928, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 943, "episode_reward_mean": -613.5480827547186, "training_iteration": 943, "timesteps_total": 1131600, "policy_reward_mean": {}, "episode_reward_min": -800.1416240272931, "timesteps_since_restore": 1131600, "num_metric_batches_dropped": 0, "time_since_restore": 28934.153043031693, "episode_reward_max": -524.4232277901907, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1131600, "default": {"kl": 0.012415085919201374, "policy_loss": -0.14846640825271606, "vf_loss": 161.67417907714844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9789103269577026, "entropy": 7.5178351402282715, "cur_lr": 4.999999873689376e-05, "total_loss": 161.5446014404297}, "load_time_ms": 0.682, "num_steps_sampled": 1131600, "grad_time_ms": 710.748, "update_time_ms": 2.274, "sample_time_ms": 29411.599}, "date": "2025-08-31_00-12-53", "hostname": "cda-server-4", "time_this_iter_s": 29.35594630241394, "episodes_total": 5658, "timestamp": 1756591973, "node_ip": "10.157.146.4", "done": false, "time_total_s": 28934.153043031693, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 944, "episode_reward_mean": -612.9598969476336, "training_iteration": 944, "timesteps_total": 1132800, "policy_reward_mean": {}, "episode_reward_min": -800.1416240272931, "timesteps_since_restore": 1132800, "num_metric_batches_dropped": 0, "time_since_restore": 28965.888293981552, "episode_reward_max": -524.4232277901907, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1132800, "default": {"kl": 0.009657480753958225, "policy_loss": -0.12276899814605713, "vf_loss": 121.41818237304688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9845045804977417, "entropy": 7.52015495300293, "cur_lr": 4.999999873689376e-05, "total_loss": 121.31007385253906}, "load_time_ms": 0.767, "num_steps_sampled": 1132800, "grad_time_ms": 740.711, "update_time_ms": 2.29, "sample_time_ms": 29567.777}, "date": "2025-08-31_00-13-25", "hostname": "cda-server-4", "time_this_iter_s": 31.73525094985962, "episodes_total": 5664, "timestamp": 1756592005, "node_ip": "10.157.146.4", "done": false, "time_total_s": 28965.888293981552, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 945, "episode_reward_mean": -611.9908143608517, "training_iteration": 945, "timesteps_total": 1134000, "policy_reward_mean": {}, "episode_reward_min": -665.2995726128914, "timesteps_since_restore": 1134000, "num_metric_batches_dropped": 0, "time_since_restore": 28996.645133018494, "episode_reward_max": -543.3741758152412, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1134000, "default": {"kl": 0.010413178242743015, "policy_loss": -0.1238052025437355, "vf_loss": 156.82640075683594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.983968198299408, "entropy": 7.823531150817871, "cur_lr": 4.999999873689376e-05, "total_loss": 156.71841430664062}, "load_time_ms": 0.762, "num_steps_sampled": 1134000, "grad_time_ms": 743.562, "update_time_ms": 2.421, "sample_time_ms": 29247.025}, "date": "2025-08-31_00-13-56", "hostname": "cda-server-4", "time_this_iter_s": 30.75683903694153, "episodes_total": 5670, "timestamp": 1756592036, "node_ip": "10.157.146.4", "done": false, "time_total_s": 28996.645133018494, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 946, "episode_reward_mean": -613.4455077828608, "training_iteration": 946, "timesteps_total": 1135200, "policy_reward_mean": {}, "episode_reward_min": -665.2995726128914, "timesteps_since_restore": 1135200, "num_metric_batches_dropped": 0, "time_since_restore": 29024.401311159134, "episode_reward_max": -543.3741758152412, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1135200, "default": {"kl": 0.009756222367286682, "policy_loss": -0.11994104832410812, "vf_loss": 288.7948303222656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9709577560424805, "entropy": 7.427919387817383, "cur_lr": 4.999999873689376e-05, "total_loss": 288.68975830078125}, "load_time_ms": 0.776, "num_steps_sampled": 1135200, "grad_time_ms": 751.382, "update_time_ms": 2.434, "sample_time_ms": 29149.099}, "date": "2025-08-31_00-14-23", "hostname": "cda-server-4", "time_this_iter_s": 27.75617814064026, "episodes_total": 5676, "timestamp": 1756592063, "node_ip": "10.157.146.4", "done": false, "time_total_s": 29024.401311159134, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 947, "episode_reward_mean": -612.9334528129565, "training_iteration": 947, "timesteps_total": 1136400, "policy_reward_mean": {}, "episode_reward_min": -665.2995726128914, "timesteps_since_restore": 1136400, "num_metric_batches_dropped": 0, "time_since_restore": 29057.183541297913, "episode_reward_max": -543.3741758152412, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1136400, "default": {"kl": 0.012352894060313702, "policy_loss": -0.14284908771514893, "vf_loss": 1072.01708984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9707435965538025, "entropy": 7.824956893920898, "cur_lr": 4.999999873689376e-05, "total_loss": 1071.89306640625}, "load_time_ms": 0.796, "num_steps_sampled": 1136400, "grad_time_ms": 746.127, "update_time_ms": 2.479, "sample_time_ms": 29693.452}, "date": "2025-08-31_00-14-56", "hostname": "cda-server-4", "time_this_iter_s": 32.78223013877869, "episodes_total": 5682, "timestamp": 1756592096, "node_ip": "10.157.146.4", "done": false, "time_total_s": 29057.183541297913, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 948, "episode_reward_mean": -612.2492342869036, "training_iteration": 948, "timesteps_total": 1137600, "policy_reward_mean": {}, "episode_reward_min": -665.2995726128914, "timesteps_since_restore": 1137600, "num_metric_batches_dropped": 0, "time_since_restore": 29089.489455461502, "episode_reward_max": -543.3741758152412, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1137600, "default": {"kl": 0.009934390895068645, "policy_loss": -0.13286876678466797, "vf_loss": 161.45278930664062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9852306842803955, "entropy": 7.311376094818115, "cur_lr": 4.999999873689376e-05, "total_loss": 161.3350067138672}, "load_time_ms": 0.761, "num_steps_sampled": 1137600, "grad_time_ms": 729.176, "update_time_ms": 2.548, "sample_time_ms": 29961.651}, "date": "2025-08-31_00-15-29", "hostname": "cda-server-4", "time_this_iter_s": 32.30591416358948, "episodes_total": 5688, "timestamp": 1756592129, "node_ip": "10.157.146.4", "done": false, "time_total_s": 29089.489455461502, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 949, "episode_reward_mean": -611.810528786714, "training_iteration": 949, "timesteps_total": 1138800, "policy_reward_mean": {}, "episode_reward_min": -665.2995726128914, "timesteps_since_restore": 1138800, "num_metric_batches_dropped": 0, "time_since_restore": 29122.330409526825, "episode_reward_max": -543.3741758152412, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1138800, "default": {"kl": 0.010385917499661446, "policy_loss": -0.13620243966579437, "vf_loss": 403.6711730957031, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9532500505447388, "entropy": 7.57694149017334, "cur_lr": 4.999999873689376e-05, "total_loss": 403.55072021484375}, "load_time_ms": 0.76, "num_steps_sampled": 1138800, "grad_time_ms": 720.527, "update_time_ms": 2.582, "sample_time_ms": 30146.122}, "date": "2025-08-31_00-16-01", "hostname": "cda-server-4", "time_this_iter_s": 32.840954065322876, "episodes_total": 5694, "timestamp": 1756592161, "node_ip": "10.157.146.4", "done": false, "time_total_s": 29122.330409526825, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 950, "episode_reward_mean": -613.0495874991113, "training_iteration": 950, "timesteps_total": 1140000, "policy_reward_mean": {}, "episode_reward_min": -665.2995726128914, "timesteps_since_restore": 1140000, "num_metric_batches_dropped": 0, "time_since_restore": 29152.483157873154, "episode_reward_max": -543.3741758152412, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1140000, "default": {"kl": 0.00784207507967949, "policy_loss": -0.1084834560751915, "vf_loss": 308.92578125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9810361862182617, "entropy": 7.361153602600098, "cur_lr": 4.999999873689376e-05, "total_loss": 308.8291931152344}, "load_time_ms": 0.787, "num_steps_sampled": 1140000, "grad_time_ms": 705.607, "update_time_ms": 2.691, "sample_time_ms": 30274.54}, "date": "2025-08-31_00-16-32", "hostname": "cda-server-4", "time_this_iter_s": 30.152748346328735, "episodes_total": 5700, "timestamp": 1756592192, "node_ip": "10.157.146.4", "done": false, "time_total_s": 29152.483157873154, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 951, "episode_reward_mean": -613.0949003394236, "training_iteration": 951, "timesteps_total": 1141200, "policy_reward_mean": {}, "episode_reward_min": -665.2995726128914, "timesteps_since_restore": 1141200, "num_metric_batches_dropped": 0, "time_since_restore": 29182.618604183197, "episode_reward_max": -543.3741758152412, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1141200, "default": {"kl": 0.010588115081191063, "policy_loss": -0.12835770845413208, "vf_loss": 178.56719970703125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9898126125335693, "entropy": 7.245811462402344, "cur_lr": 4.999999873689376e-05, "total_loss": 178.4549102783203}, "load_time_ms": 0.794, "num_steps_sampled": 1141200, "grad_time_ms": 687.758, "update_time_ms": 2.634, "sample_time_ms": 30196.179}, "date": "2025-08-31_00-17-02", "hostname": "cda-server-4", "time_this_iter_s": 30.135446310043335, "episodes_total": 5706, "timestamp": 1756592222, "node_ip": "10.157.146.4", "done": false, "time_total_s": 29182.618604183197, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 952, "episode_reward_mean": -615.0858854986682, "training_iteration": 952, "timesteps_total": 1142400, "policy_reward_mean": {}, "episode_reward_min": -665.2995726128914, "timesteps_since_restore": 1142400, "num_metric_batches_dropped": 0, "time_since_restore": 29216.0776617527, "episode_reward_max": -543.3741758152412, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1142400, "default": {"kl": 0.012967720627784729, "policy_loss": -0.15945087373256683, "vf_loss": 198.7948760986328, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.984787106513977, "entropy": 7.39444637298584, "cur_lr": 4.999999873689376e-05, "total_loss": 198.65512084960938}, "load_time_ms": 0.817, "num_steps_sampled": 1142400, "grad_time_ms": 684.124, "update_time_ms": 2.647, "sample_time_ms": 30436.006}, "date": "2025-08-31_00-17-35", "hostname": "cda-server-4", "time_this_iter_s": 33.459057569503784, "episodes_total": 5712, "timestamp": 1756592255, "node_ip": "10.157.146.4", "done": false, "time_total_s": 29216.0776617527, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 953, "episode_reward_mean": -615.4409701182245, "training_iteration": 953, "timesteps_total": 1143600, "policy_reward_mean": {}, "episode_reward_min": -665.2995726128914, "timesteps_since_restore": 1143600, "num_metric_batches_dropped": 0, "time_since_restore": 29245.263416051865, "episode_reward_max": -543.3741758152412, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1143600, "default": {"kl": 0.009991598315536976, "policy_loss": -0.1291256695985794, "vf_loss": 251.69332885742188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9707189202308655, "entropy": 7.56467866897583, "cur_lr": 4.999999873689376e-05, "total_loss": 251.57937622070312}, "load_time_ms": 0.788, "num_steps_sampled": 1143600, "grad_time_ms": 677.508, "update_time_ms": 2.62, "sample_time_ms": 30425.622}, "date": "2025-08-31_00-18-04", "hostname": "cda-server-4", "time_this_iter_s": 29.18575429916382, "episodes_total": 5718, "timestamp": 1756592284, "node_ip": "10.157.146.4", "done": false, "time_total_s": 29245.263416051865, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 954, "episode_reward_mean": -615.2992438288697, "training_iteration": 954, "timesteps_total": 1144800, "policy_reward_mean": {}, "episode_reward_min": -665.2995726128914, "timesteps_since_restore": 1144800, "num_metric_batches_dropped": 0, "time_since_restore": 29276.012558221817, "episode_reward_max": -543.3741758152412, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1144800, "default": {"kl": 0.0110081247985363, "policy_loss": -0.12945477664470673, "vf_loss": 347.920166015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9526844024658203, "entropy": 7.7067437171936035, "cur_lr": 4.999999873689376e-05, "total_loss": 347.80743408203125}, "load_time_ms": 0.724, "num_steps_sampled": 1144800, "grad_time_ms": 632.531, "update_time_ms": 2.666, "sample_time_ms": 30372.224}, "date": "2025-08-31_00-18-35", "hostname": "cda-server-4", "time_this_iter_s": 30.749142169952393, "episodes_total": 5724, "timestamp": 1756592315, "node_ip": "10.157.146.4", "done": false, "time_total_s": 29276.012558221817, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 955, "episode_reward_mean": -615.0138457262591, "training_iteration": 955, "timesteps_total": 1146000, "policy_reward_mean": {}, "episode_reward_min": -665.2995726128914, "timesteps_since_restore": 1146000, "num_metric_batches_dropped": 0, "time_since_restore": 29306.49736881256, "episode_reward_max": -543.3741758152412, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1146000, "default": {"kl": 0.007666291669011116, "policy_loss": -0.11707374453544617, "vf_loss": 157.1749267578125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9756630659103394, "entropy": 7.35750675201416, "cur_lr": 4.999999873689376e-05, "total_loss": 157.0695037841797}, "load_time_ms": 0.731, "num_steps_sampled": 1146000, "grad_time_ms": 612.207, "update_time_ms": 2.547, "sample_time_ms": 30365.552}, "date": "2025-08-31_00-19-06", "hostname": "cda-server-4", "time_this_iter_s": 30.48481059074402, "episodes_total": 5730, "timestamp": 1756592346, "node_ip": "10.157.146.4", "done": false, "time_total_s": 29306.49736881256, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 956, "episode_reward_mean": -615.4436198976896, "training_iteration": 956, "timesteps_total": 1147200, "policy_reward_mean": {}, "episode_reward_min": -665.2995726128914, "timesteps_since_restore": 1147200, "num_metric_batches_dropped": 0, "time_since_restore": 29338.560799837112, "episode_reward_max": -543.3741758152412, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1147200, "default": {"kl": 0.009999975562095642, "policy_loss": -0.13747365772724152, "vf_loss": 261.1354064941406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9721189141273499, "entropy": 7.307345867156982, "cur_lr": 4.999999873689376e-05, "total_loss": 261.01312255859375}, "load_time_ms": 0.713, "num_steps_sampled": 1147200, "grad_time_ms": 594.383, "update_time_ms": 2.425, "sample_time_ms": 30814.238}, "date": "2025-08-31_00-19-38", "hostname": "cda-server-4", "time_this_iter_s": 32.06343102455139, "episodes_total": 5736, "timestamp": 1756592378, "node_ip": "10.157.146.4", "done": false, "time_total_s": 29338.560799837112, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 957, "episode_reward_mean": -615.8712703126505, "training_iteration": 957, "timesteps_total": 1148400, "policy_reward_mean": {}, "episode_reward_min": -665.2995726128914, "timesteps_since_restore": 1148400, "num_metric_batches_dropped": 0, "time_since_restore": 29369.614771842957, "episode_reward_max": -563.4113531156958, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1148400, "default": {"kl": 0.010077684186398983, "policy_loss": -0.14446678757667542, "vf_loss": 715.0712280273438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9409646987915039, "entropy": 7.450324058532715, "cur_lr": 4.999999873689376e-05, "total_loss": 714.9420776367188}, "load_time_ms": 0.689, "num_steps_sampled": 1148400, "grad_time_ms": 597.091, "update_time_ms": 2.357, "sample_time_ms": 30638.86}, "date": "2025-08-31_00-20-09", "hostname": "cda-server-4", "time_this_iter_s": 31.053972005844116, "episodes_total": 5742, "timestamp": 1756592409, "node_ip": "10.157.146.4", "done": false, "time_total_s": 29369.614771842957, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 958, "episode_reward_mean": -615.2177085182317, "training_iteration": 958, "timesteps_total": 1149600, "policy_reward_mean": {}, "episode_reward_min": -665.2995726128914, "timesteps_since_restore": 1149600, "num_metric_batches_dropped": 0, "time_since_restore": 29399.006778240204, "episode_reward_max": -563.4113531156958, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1149600, "default": {"kl": 0.010276714339852333, "policy_loss": -0.13458339869976044, "vf_loss": 632.6473388671875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9316591620445251, "entropy": 7.567716598510742, "cur_lr": 4.999999873689376e-05, "total_loss": 632.5284423828125}, "load_time_ms": 0.689, "num_steps_sampled": 1149600, "grad_time_ms": 608.756, "update_time_ms": 2.322, "sample_time_ms": 30335.747}, "date": "2025-08-31_00-20-38", "hostname": "cda-server-4", "time_this_iter_s": 29.392006397247314, "episodes_total": 5748, "timestamp": 1756592438, "node_ip": "10.157.146.4", "done": false, "time_total_s": 29399.006778240204, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 959, "episode_reward_mean": -615.8544244466626, "training_iteration": 959, "timesteps_total": 1150800, "policy_reward_mean": {}, "episode_reward_min": -665.2995726128914, "timesteps_since_restore": 1150800, "num_metric_batches_dropped": 0, "time_since_restore": 29430.555960655212, "episode_reward_max": -563.4113531156958, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1150800, "default": {"kl": 0.010160096921026707, "policy_loss": -0.13553054630756378, "vf_loss": 827.3342895507812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8844323754310608, "entropy": 8.000910758972168, "cur_lr": 4.999999873689376e-05, "total_loss": 827.214111328125}, "load_time_ms": 0.687, "num_steps_sampled": 1150800, "grad_time_ms": 617.536, "update_time_ms": 2.274, "sample_time_ms": 30197.921}, "date": "2025-08-31_00-21-10", "hostname": "cda-server-4", "time_this_iter_s": 31.549182415008545, "episodes_total": 5754, "timestamp": 1756592470, "node_ip": "10.157.146.4", "done": false, "time_total_s": 29430.555960655212, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 960, "episode_reward_mean": -615.8323166274021, "training_iteration": 960, "timesteps_total": 1152000, "policy_reward_mean": {}, "episode_reward_min": -665.2995726128914, "timesteps_since_restore": 1152000, "num_metric_batches_dropped": 0, "time_since_restore": 29463.360164642334, "episode_reward_max": -563.4113531156958, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1152000, "default": {"kl": 0.012354914098978043, "policy_loss": -0.11727699637413025, "vf_loss": 170.52391052246094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9782991409301758, "entropy": 7.18843936920166, "cur_lr": 4.999999873689376e-05, "total_loss": 170.42539978027344}, "load_time_ms": 0.659, "num_steps_sampled": 1152000, "grad_time_ms": 623.986, "update_time_ms": 2.145, "sample_time_ms": 30456.878}, "date": "2025-08-31_00-21-43", "hostname": "cda-server-4", "time_this_iter_s": 32.80420398712158, "episodes_total": 5760, "timestamp": 1756592503, "node_ip": "10.157.146.4", "done": false, "time_total_s": 29463.360164642334, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 961, "episode_reward_mean": -615.1648677314707, "training_iteration": 961, "timesteps_total": 1153200, "policy_reward_mean": {}, "episode_reward_min": -665.2995726128914, "timesteps_since_restore": 1153200, "num_metric_batches_dropped": 0, "time_since_restore": 29489.532269001007, "episode_reward_max": -563.4113531156958, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1153200, "default": {"kl": 0.009763733483850956, "policy_loss": -0.13294027745723724, "vf_loss": 114.43852996826172, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9842567443847656, "entropy": 7.13226842880249, "cur_lr": 4.999999873689376e-05, "total_loss": 114.32041931152344}, "load_time_ms": 0.656, "num_steps_sampled": 1153200, "grad_time_ms": 640.562, "update_time_ms": 2.196, "sample_time_ms": 30043.842}, "date": "2025-08-31_00-22-09", "hostname": "cda-server-4", "time_this_iter_s": 26.172104358673096, "episodes_total": 5766, "timestamp": 1756592529, "node_ip": "10.157.146.4", "done": false, "time_total_s": 29489.532269001007, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 962, "episode_reward_mean": -614.0366937640837, "training_iteration": 962, "timesteps_total": 1154400, "policy_reward_mean": {}, "episode_reward_min": -661.6093986199195, "timesteps_since_restore": 1154400, "num_metric_batches_dropped": 0, "time_since_restore": 29521.775873184204, "episode_reward_max": -563.4113531156958, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1154400, "default": {"kl": 0.008177452720701694, "policy_loss": -0.12161470949649811, "vf_loss": 510.3821716308594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9320579171180725, "entropy": 7.876283645629883, "cur_lr": 4.999999873689376e-05, "total_loss": 510.27301025390625}, "load_time_ms": 0.624, "num_steps_sampled": 1154400, "grad_time_ms": 640.801, "update_time_ms": 2.167, "sample_time_ms": 29922.127}, "date": "2025-08-31_00-22-41", "hostname": "cda-server-4", "time_this_iter_s": 32.24360418319702, "episodes_total": 5772, "timestamp": 1756592561, "node_ip": "10.157.146.4", "done": false, "time_total_s": 29521.775873184204, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 963, "episode_reward_mean": -614.5590446144125, "training_iteration": 963, "timesteps_total": 1155600, "policy_reward_mean": {}, "episode_reward_min": -661.6093986199195, "timesteps_since_restore": 1155600, "num_metric_batches_dropped": 0, "time_since_restore": 29552.039968013763, "episode_reward_max": -563.4113531156958, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1155600, "default": {"kl": 0.009721110574901104, "policy_loss": -0.12525010108947754, "vf_loss": 425.1763610839844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9628136157989502, "entropy": 7.38861083984375, "cur_lr": 4.999999873689376e-05, "total_loss": 425.06585693359375}, "load_time_ms": 0.63, "num_steps_sampled": 1155600, "grad_time_ms": 648.094, "update_time_ms": 2.265, "sample_time_ms": 30022.572}, "date": "2025-08-31_00-23-11", "hostname": "cda-server-4", "time_this_iter_s": 30.264094829559326, "episodes_total": 5778, "timestamp": 1756592591, "node_ip": "10.157.146.4", "done": false, "time_total_s": 29552.039968013763, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 964, "episode_reward_mean": -615.6379106278705, "training_iteration": 964, "timesteps_total": 1156800, "policy_reward_mean": {}, "episode_reward_min": -673.8506407665668, "timesteps_since_restore": 1156800, "num_metric_batches_dropped": 0, "time_since_restore": 29582.509196043015, "episode_reward_max": -563.4113531156958, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1156800, "default": {"kl": 0.013118596747517586, "policy_loss": -0.15341566503047943, "vf_loss": 2034.1595458984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8154500722885132, "entropy": 7.599114418029785, "cur_lr": 4.999999873689376e-05, "total_loss": 2034.0262451171875}, "load_time_ms": 0.614, "num_steps_sampled": 1156800, "grad_time_ms": 668.662, "update_time_ms": 2.237, "sample_time_ms": 29974.109}, "date": "2025-08-31_00-23-42", "hostname": "cda-server-4", "time_this_iter_s": 30.4692280292511, "episodes_total": 5784, "timestamp": 1756592622, "node_ip": "10.157.146.4", "done": false, "time_total_s": 29582.509196043015, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 965, "episode_reward_mean": -615.2334634146821, "training_iteration": 965, "timesteps_total": 1158000, "policy_reward_mean": {}, "episode_reward_min": -673.8506407665668, "timesteps_since_restore": 1158000, "num_metric_batches_dropped": 0, "time_since_restore": 29616.223186969757, "episode_reward_max": -563.4113531156958, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1158000, "default": {"kl": 0.00979153998196125, "policy_loss": -0.12531334161758423, "vf_loss": 176.12884521484375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.979381799697876, "entropy": 7.44175910949707, "cur_lr": 4.999999873689376e-05, "total_loss": 176.01841735839844}, "load_time_ms": 0.584, "num_steps_sampled": 1158000, "grad_time_ms": 694.367, "update_time_ms": 2.186, "sample_time_ms": 30271.334}, "date": "2025-08-31_00-24-16", "hostname": "cda-server-4", "time_this_iter_s": 33.713990926742554, "episodes_total": 5790, "timestamp": 1756592656, "node_ip": "10.157.146.4", "done": false, "time_total_s": 29616.223186969757, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 966, "episode_reward_mean": -615.153905434973, "training_iteration": 966, "timesteps_total": 1159200, "policy_reward_mean": {}, "episode_reward_min": -673.8506407665668, "timesteps_since_restore": 1159200, "num_metric_batches_dropped": 0, "time_since_restore": 29648.743052244186, "episode_reward_max": -563.4113531156958, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1159200, "default": {"kl": 0.010126051492989063, "policy_loss": -0.12650038301944733, "vf_loss": 167.29296875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.981134831905365, "entropy": 7.356131553649902, "cur_lr": 4.999999873689376e-05, "total_loss": 167.1818389892578}, "load_time_ms": 0.587, "num_steps_sampled": 1159200, "grad_time_ms": 717.558, "update_time_ms": 2.304, "sample_time_ms": 30293.699}, "date": "2025-08-31_00-24-48", "hostname": "cda-server-4", "time_this_iter_s": 32.51986527442932, "episodes_total": 5796, "timestamp": 1756592688, "node_ip": "10.157.146.4", "done": false, "time_total_s": 29648.743052244186, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 967, "episode_reward_mean": -615.108992603973, "training_iteration": 967, "timesteps_total": 1160400, "policy_reward_mean": {}, "episode_reward_min": -673.8506407665668, "timesteps_since_restore": 1160400, "num_metric_batches_dropped": 0, "time_since_restore": 29679.286677837372, "episode_reward_max": -563.4113531156958, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1160400, "default": {"kl": 0.009122977964580059, "policy_loss": -0.12561993300914764, "vf_loss": 124.56565856933594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9797025322914124, "entropy": 7.617338180541992, "cur_lr": 4.999999873689376e-05, "total_loss": 124.45389556884766}, "load_time_ms": 0.596, "num_steps_sampled": 1160400, "grad_time_ms": 717.533, "update_time_ms": 2.31, "sample_time_ms": 30242.644}, "date": "2025-08-31_00-25-19", "hostname": "cda-server-4", "time_this_iter_s": 30.543625593185425, "episodes_total": 5802, "timestamp": 1756592719, "node_ip": "10.157.146.4", "done": false, "time_total_s": 29679.286677837372, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 968, "episode_reward_mean": -614.6420564073826, "training_iteration": 968, "timesteps_total": 1161600, "policy_reward_mean": {}, "episode_reward_min": -673.8506407665668, "timesteps_since_restore": 1161600, "num_metric_batches_dropped": 0, "time_since_restore": 29707.72600364685, "episode_reward_max": -563.4113531156958, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1161600, "default": {"kl": 0.00841214507818222, "policy_loss": -0.10548976063728333, "vf_loss": 265.38623046875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9665378928184509, "entropy": 7.565133094787598, "cur_lr": 4.999999873689376e-05, "total_loss": 265.2934875488281}, "load_time_ms": 0.594, "num_steps_sampled": 1161600, "grad_time_ms": 708.921, "update_time_ms": 2.3, "sample_time_ms": 30156.118}, "date": "2025-08-31_00-25-47", "hostname": "cda-server-4", "time_this_iter_s": 28.43932580947876, "episodes_total": 5808, "timestamp": 1756592747, "node_ip": "10.157.146.4", "done": false, "time_total_s": 29707.72600364685, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 969, "episode_reward_mean": -612.9127531306026, "training_iteration": 969, "timesteps_total": 1162800, "policy_reward_mean": {}, "episode_reward_min": -673.8506407665668, "timesteps_since_restore": 1162800, "num_metric_batches_dropped": 0, "time_since_restore": 29739.399032831192, "episode_reward_max": -563.4113531156958, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1162800, "default": {"kl": 0.009462693706154823, "policy_loss": -0.11431516706943512, "vf_loss": 339.6562194824219, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.958165168762207, "entropy": 7.778133869171143, "cur_lr": 4.999999873689376e-05, "total_loss": 339.5562744140625}, "load_time_ms": 0.638, "num_steps_sampled": 1162800, "grad_time_ms": 693.831, "update_time_ms": 2.284, "sample_time_ms": 30183.501}, "date": "2025-08-31_00-26-19", "hostname": "cda-server-4", "time_this_iter_s": 31.67302918434143, "episodes_total": 5814, "timestamp": 1756592779, "node_ip": "10.157.146.4", "done": false, "time_total_s": 29739.399032831192, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 970, "episode_reward_mean": -612.7569034903368, "training_iteration": 970, "timesteps_total": 1164000, "policy_reward_mean": {}, "episode_reward_min": -673.8506407665668, "timesteps_since_restore": 1164000, "num_metric_batches_dropped": 0, "time_since_restore": 29770.089010715485, "episode_reward_max": -574.8029752812189, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1164000, "default": {"kl": 0.012576197274029255, "policy_loss": -0.14172686636447906, "vf_loss": 186.10337829589844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9728430509567261, "entropy": 7.198686599731445, "cur_lr": 4.999999873689376e-05, "total_loss": 185.98074340820312}, "load_time_ms": 0.652, "num_steps_sampled": 1164000, "grad_time_ms": 698.933, "update_time_ms": 2.301, "sample_time_ms": 29966.962}, "date": "2025-08-31_00-26-49", "hostname": "cda-server-4", "time_this_iter_s": 30.689977884292603, "episodes_total": 5820, "timestamp": 1756592809, "node_ip": "10.157.146.4", "done": false, "time_total_s": 29770.089010715485, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 971, "episode_reward_mean": -614.7338809434339, "training_iteration": 971, "timesteps_total": 1165200, "policy_reward_mean": {}, "episode_reward_min": -762.1336235200425, "timesteps_since_restore": 1165200, "num_metric_batches_dropped": 0, "time_since_restore": 29803.092551469803, "episode_reward_max": -574.8029752812189, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1165200, "default": {"kl": 0.008976287208497524, "policy_loss": -0.10734164714813232, "vf_loss": 435.76287841796875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9436463117599487, "entropy": 7.548470497131348, "cur_lr": 4.999999873689376e-05, "total_loss": 435.6690979003906}, "load_time_ms": 0.657, "num_steps_sampled": 1165200, "grad_time_ms": 698.063, "update_time_ms": 2.279, "sample_time_ms": 30651.034}, "date": "2025-08-31_00-27-23", "hostname": "cda-server-4", "time_this_iter_s": 33.00354075431824, "episodes_total": 5826, "timestamp": 1756592843, "node_ip": "10.157.146.4", "done": false, "time_total_s": 29803.092551469803, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 972, "episode_reward_mean": -615.263775314253, "training_iteration": 972, "timesteps_total": 1166400, "policy_reward_mean": {}, "episode_reward_min": -762.1336235200425, "timesteps_since_restore": 1166400, "num_metric_batches_dropped": 0, "time_since_restore": 29831.859199762344, "episode_reward_max": -574.8029752812189, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1166400, "default": {"kl": 0.009447132237255573, "policy_loss": -0.13461878895759583, "vf_loss": 135.99868774414062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9834688901901245, "entropy": 7.524463176727295, "cur_lr": 4.999999873689376e-05, "total_loss": 135.87840270996094}, "load_time_ms": 0.657, "num_steps_sampled": 1166400, "grad_time_ms": 694.677, "update_time_ms": 2.276, "sample_time_ms": 30306.699}, "date": "2025-08-31_00-27-51", "hostname": "cda-server-4", "time_this_iter_s": 28.766648292541504, "episodes_total": 5832, "timestamp": 1756592871, "node_ip": "10.157.146.4", "done": false, "time_total_s": 29831.859199762344, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 973, "episode_reward_mean": -615.2323528719002, "training_iteration": 973, "timesteps_total": 1167600, "policy_reward_mean": {}, "episode_reward_min": -762.1336235200425, "timesteps_since_restore": 1167600, "num_metric_batches_dropped": 0, "time_since_restore": 29865.555982112885, "episode_reward_max": -574.8029752812189, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1167600, "default": {"kl": 0.010145552456378937, "policy_loss": -0.13428542017936707, "vf_loss": 280.6829833984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9753531217575073, "entropy": 7.429656982421875, "cur_lr": 4.999999873689376e-05, "total_loss": 280.56414794921875}, "load_time_ms": 0.652, "num_steps_sampled": 1167600, "grad_time_ms": 693.88, "update_time_ms": 2.247, "sample_time_ms": 30650.866}, "date": "2025-08-31_00-28-25", "hostname": "cda-server-4", "time_this_iter_s": 33.69678235054016, "episodes_total": 5838, "timestamp": 1756592905, "node_ip": "10.157.146.4", "done": false, "time_total_s": 29865.555982112885, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 974, "episode_reward_mean": -614.7092544208961, "training_iteration": 974, "timesteps_total": 1168800, "policy_reward_mean": {}, "episode_reward_min": -762.1336235200425, "timesteps_since_restore": 1168800, "num_metric_batches_dropped": 0, "time_since_restore": 29896.63490986824, "episode_reward_max": -492.3186468769762, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1168800, "default": {"kl": 0.010935317724943161, "policy_loss": -0.15005172789096832, "vf_loss": 648.9147338867188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9310177564620972, "entropy": 7.500551700592041, "cur_lr": 4.999999873689376e-05, "total_loss": 648.78125}, "load_time_ms": 0.642, "num_steps_sampled": 1168800, "grad_time_ms": 696.372, "update_time_ms": 2.227, "sample_time_ms": 30709.337}, "date": "2025-08-31_00-28-56", "hostname": "cda-server-4", "time_this_iter_s": 31.078927755355835, "episodes_total": 5844, "timestamp": 1756592936, "node_ip": "10.157.146.4", "done": false, "time_total_s": 29896.63490986824, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 975, "episode_reward_mean": -614.8584113101919, "training_iteration": 975, "timesteps_total": 1170000, "policy_reward_mean": {}, "episode_reward_min": -762.1336235200425, "timesteps_since_restore": 1170000, "num_metric_batches_dropped": 0, "time_since_restore": 29927.2479660511, "episode_reward_max": -492.3186468769762, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1170000, "default": {"kl": 0.010424409061670303, "policy_loss": -0.12216974794864655, "vf_loss": 247.91929626464844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9666204452514648, "entropy": 7.50670862197876, "cur_lr": 4.999999873689376e-05, "total_loss": 247.81295776367188}, "load_time_ms": 0.651, "num_steps_sampled": 1170000, "grad_time_ms": 695.565, "update_time_ms": 2.271, "sample_time_ms": 30400.015}, "date": "2025-08-31_00-29-27", "hostname": "cda-server-4", "time_this_iter_s": 30.613056182861328, "episodes_total": 5850, "timestamp": 1756592967, "node_ip": "10.157.146.4", "done": false, "time_total_s": 29927.2479660511, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 976, "episode_reward_mean": -615.1193218253394, "training_iteration": 976, "timesteps_total": 1171200, "policy_reward_mean": {}, "episode_reward_min": -762.1336235200425, "timesteps_since_restore": 1171200, "num_metric_batches_dropped": 0, "time_since_restore": 29956.121698856354, "episode_reward_max": -492.3186468769762, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1171200, "default": {"kl": 0.010435190051794052, "policy_loss": -0.1167205423116684, "vf_loss": 190.1379852294922, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9826700687408447, "entropy": 6.996903896331787, "cur_lr": 4.999999873689376e-05, "total_loss": 190.03709411621094}, "load_time_ms": 0.651, "num_steps_sampled": 1171200, "grad_time_ms": 682.664, "update_time_ms": 2.224, "sample_time_ms": 30048.264}, "date": "2025-08-31_00-29-56", "hostname": "cda-server-4", "time_this_iter_s": 28.873732805252075, "episodes_total": 5856, "timestamp": 1756592996, "node_ip": "10.157.146.4", "done": false, "time_total_s": 29956.121698856354, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 977, "episode_reward_mean": -615.2176086129783, "training_iteration": 977, "timesteps_total": 1172400, "policy_reward_mean": {}, "episode_reward_min": -762.1336235200425, "timesteps_since_restore": 1172400, "num_metric_batches_dropped": 0, "time_since_restore": 29984.082011938095, "episode_reward_max": -492.3186468769762, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1172400, "default": {"kl": 0.011365882121026516, "policy_loss": -0.12098921835422516, "vf_loss": 302.658935546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9668582081794739, "entropy": 7.093448162078857, "cur_lr": 4.999999873689376e-05, "total_loss": 302.5552062988281}, "load_time_ms": 0.646, "num_steps_sampled": 1172400, "grad_time_ms": 680.093, "update_time_ms": 2.353, "sample_time_ms": 29792.353}, "date": "2025-08-31_00-30-24", "hostname": "cda-server-4", "time_this_iter_s": 27.960313081741333, "episodes_total": 5862, "timestamp": 1756593024, "node_ip": "10.157.146.4", "done": false, "time_total_s": 29984.082011938095, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 978, "episode_reward_mean": -614.9993151662746, "training_iteration": 978, "timesteps_total": 1173600, "policy_reward_mean": {}, "episode_reward_min": -762.1336235200425, "timesteps_since_restore": 1173600, "num_metric_batches_dropped": 0, "time_since_restore": 30017.620859861374, "episode_reward_max": -492.3186468769762, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1173600, "default": {"kl": 0.009249787777662277, "policy_loss": -0.11125221848487854, "vf_loss": 255.46763610839844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9768033623695374, "entropy": 7.605929851531982, "cur_lr": 4.999999873689376e-05, "total_loss": 255.37039184570312}, "load_time_ms": 0.652, "num_steps_sampled": 1173600, "grad_time_ms": 689.738, "update_time_ms": 2.417, "sample_time_ms": 30292.51}, "date": "2025-08-31_00-30-57", "hostname": "cda-server-4", "time_this_iter_s": 33.53884792327881, "episodes_total": 5868, "timestamp": 1756593057, "node_ip": "10.157.146.4", "done": false, "time_total_s": 30017.620859861374, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 979, "episode_reward_mean": -615.3337048658309, "training_iteration": 979, "timesteps_total": 1174800, "policy_reward_mean": {}, "episode_reward_min": -762.1336235200425, "timesteps_since_restore": 1174800, "num_metric_batches_dropped": 0, "time_since_restore": 30046.471390247345, "episode_reward_max": -492.3186468769762, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1174800, "default": {"kl": 0.010207533836364746, "policy_loss": -0.12049257755279541, "vf_loss": 127.41355895996094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9861140847206116, "entropy": 7.236469745635986, "cur_lr": 4.999999873689376e-05, "total_loss": 127.30855560302734}, "load_time_ms": 0.624, "num_steps_sampled": 1174800, "grad_time_ms": 697.729, "update_time_ms": 2.462, "sample_time_ms": 30002.244}, "date": "2025-08-31_00-31-26", "hostname": "cda-server-4", "time_this_iter_s": 28.85053038597107, "episodes_total": 5874, "timestamp": 1756593086, "node_ip": "10.157.146.4", "done": false, "time_total_s": 30046.471390247345, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 980, "episode_reward_mean": -611.8722722983662, "training_iteration": 980, "timesteps_total": 1176000, "policy_reward_mean": {}, "episode_reward_min": -762.1336235200425, "timesteps_since_restore": 1176000, "num_metric_batches_dropped": 0, "time_since_restore": 30078.79089641571, "episode_reward_max": -485.63829960569666, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1176000, "default": {"kl": 0.011029962450265884, "policy_loss": -0.13845747709274292, "vf_loss": 426.57110595703125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9417192935943604, "entropy": 7.17132043838501, "cur_lr": 4.999999873689376e-05, "total_loss": 426.4493713378906}, "load_time_ms": 0.609, "num_steps_sampled": 1176000, "grad_time_ms": 688.061, "update_time_ms": 2.482, "sample_time_ms": 30174.904}, "date": "2025-08-31_00-31-58", "hostname": "cda-server-4", "time_this_iter_s": 32.31950616836548, "episodes_total": 5880, "timestamp": 1756593118, "node_ip": "10.157.146.4", "done": false, "time_total_s": 30078.79089641571, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 981, "episode_reward_mean": -611.4420040902837, "training_iteration": 981, "timesteps_total": 1177200, "policy_reward_mean": {}, "episode_reward_min": -762.1336235200425, "timesteps_since_restore": 1177200, "num_metric_batches_dropped": 0, "time_since_restore": 30106.77046895027, "episode_reward_max": -485.63829960569666, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1177200, "default": {"kl": 0.009330466389656067, "policy_loss": -0.11157870292663574, "vf_loss": 79.82858276367188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9936395287513733, "entropy": 7.175470352172852, "cur_lr": 4.999999873689376e-05, "total_loss": 79.73117065429688}, "load_time_ms": 0.603, "num_steps_sampled": 1177200, "grad_time_ms": 681.13, "update_time_ms": 2.463, "sample_time_ms": 29679.517}, "date": "2025-08-31_00-32-26", "hostname": "cda-server-4", "time_this_iter_s": 27.979572534561157, "episodes_total": 5886, "timestamp": 1756593146, "node_ip": "10.157.146.4", "done": false, "time_total_s": 30106.77046895027, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 982, "episode_reward_mean": -612.6839742534099, "training_iteration": 982, "timesteps_total": 1178400, "policy_reward_mean": {}, "episode_reward_min": -762.1336235200425, "timesteps_since_restore": 1178400, "num_metric_batches_dropped": 0, "time_since_restore": 30140.762998342514, "episode_reward_max": -485.63829960569666, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1178400, "default": {"kl": 0.011323491111397743, "policy_loss": -0.149543896317482, "vf_loss": 460.7462158203125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.963874101638794, "entropy": 7.50266695022583, "cur_lr": 4.999999873689376e-05, "total_loss": 460.61383056640625}, "load_time_ms": 0.607, "num_steps_sampled": 1178400, "grad_time_ms": 669.525, "update_time_ms": 2.499, "sample_time_ms": 30213.739}, "date": "2025-08-31_00-33-00", "hostname": "cda-server-4", "time_this_iter_s": 33.99252939224243, "episodes_total": 5892, "timestamp": 1756593180, "node_ip": "10.157.146.4", "done": false, "time_total_s": 30140.762998342514, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 983, "episode_reward_mean": -612.2245137594988, "training_iteration": 983, "timesteps_total": 1179600, "policy_reward_mean": {}, "episode_reward_min": -762.1336235200425, "timesteps_since_restore": 1179600, "num_metric_batches_dropped": 0, "time_since_restore": 30169.45678281784, "episode_reward_max": -485.63829960569666, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1179600, "default": {"kl": 0.009249387308955193, "policy_loss": -0.11732739955186844, "vf_loss": 137.07916259765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9822195768356323, "entropy": 7.292179584503174, "cur_lr": 4.999999873689376e-05, "total_loss": 136.9758758544922}, "load_time_ms": 0.604, "num_steps_sampled": 1179600, "grad_time_ms": 656.061, "update_time_ms": 2.478, "sample_time_ms": 29726.906}, "date": "2025-08-31_00-33-29", "hostname": "cda-server-4", "time_this_iter_s": 28.693784475326538, "episodes_total": 5898, "timestamp": 1756593209, "node_ip": "10.157.146.4", "done": false, "time_total_s": 30169.45678281784, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 984, "episode_reward_mean": -611.6256137371322, "training_iteration": 984, "timesteps_total": 1180800, "policy_reward_mean": {}, "episode_reward_min": -762.1336235200425, "timesteps_since_restore": 1180800, "num_metric_batches_dropped": 0, "time_since_restore": 30201.22997713089, "episode_reward_max": -485.63829960569666, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1180800, "default": {"kl": 0.009165742434561253, "policy_loss": -0.13668975234031677, "vf_loss": 268.69183349609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9727855324745178, "entropy": 7.116640090942383, "cur_lr": 4.999999873689376e-05, "total_loss": 268.569091796875}, "load_time_ms": 0.608, "num_steps_sampled": 1180800, "grad_time_ms": 641.47, "update_time_ms": 2.508, "sample_time_ms": 29810.902}, "date": "2025-08-31_00-34-01", "hostname": "cda-server-4", "time_this_iter_s": 31.773194313049316, "episodes_total": 5904, "timestamp": 1756593241, "node_ip": "10.157.146.4", "done": false, "time_total_s": 30201.22997713089, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 985, "episode_reward_mean": -612.3902847096917, "training_iteration": 985, "timesteps_total": 1182000, "policy_reward_mean": {}, "episode_reward_min": -762.1336235200425, "timesteps_since_restore": 1182000, "num_metric_batches_dropped": 0, "time_since_restore": 30231.175652742386, "episode_reward_max": -485.63829960569666, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1182000, "default": {"kl": 0.01186863612383604, "policy_loss": -0.1319899559020996, "vf_loss": 201.08157348632812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9806980490684509, "entropy": 7.333564758300781, "cur_lr": 4.999999873689376e-05, "total_loss": 200.9676055908203}, "load_time_ms": 0.608, "num_steps_sampled": 1182000, "grad_time_ms": 636.984, "update_time_ms": 2.502, "sample_time_ms": 29748.701}, "date": "2025-08-31_00-34-31", "hostname": "cda-server-4", "time_this_iter_s": 29.94567561149597, "episodes_total": 5910, "timestamp": 1756593271, "node_ip": "10.157.146.4", "done": false, "time_total_s": 30231.175652742386, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 986, "episode_reward_mean": -613.751166724686, "training_iteration": 986, "timesteps_total": 1183200, "policy_reward_mean": {}, "episode_reward_min": -762.1336235200425, "timesteps_since_restore": 1183200, "num_metric_batches_dropped": 0, "time_since_restore": 30262.334517002106, "episode_reward_max": -485.63829960569666, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1183200, "default": {"kl": 0.010250418446958065, "policy_loss": -0.13000522553920746, "vf_loss": 237.20635986328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9646170735359192, "entropy": 7.499698162078857, "cur_lr": 4.999999873689376e-05, "total_loss": 237.09193420410156}, "load_time_ms": 0.626, "num_steps_sampled": 1183200, "grad_time_ms": 643.901, "update_time_ms": 2.433, "sample_time_ms": 29970.361}, "date": "2025-08-31_00-35-02", "hostname": "cda-server-4", "time_this_iter_s": 31.15886425971985, "episodes_total": 5916, "timestamp": 1756593302, "node_ip": "10.157.146.4", "done": false, "time_total_s": 30262.334517002106, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 987, "episode_reward_mean": -614.9651676313939, "training_iteration": 987, "timesteps_total": 1184400, "policy_reward_mean": {}, "episode_reward_min": -762.1336235200425, "timesteps_since_restore": 1184400, "num_metric_batches_dropped": 0, "time_since_restore": 30294.68387556076, "episode_reward_max": -485.63829960569666, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1184400, "default": {"kl": 0.009716027416288853, "policy_loss": -0.12283162027597427, "vf_loss": 121.15731811523438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9830667972564697, "entropy": 7.272896766662598, "cur_lr": 4.999999873689376e-05, "total_loss": 121.04924774169922}, "load_time_ms": 0.627, "num_steps_sampled": 1184400, "grad_time_ms": 655.52, "update_time_ms": 2.336, "sample_time_ms": 30397.758}, "date": "2025-08-31_00-35-34", "hostname": "cda-server-4", "time_this_iter_s": 32.349358558654785, "episodes_total": 5922, "timestamp": 1756593334, "node_ip": "10.157.146.4", "done": false, "time_total_s": 30294.68387556076, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 988, "episode_reward_mean": -613.1949801625776, "training_iteration": 988, "timesteps_total": 1185600, "policy_reward_mean": {}, "episode_reward_min": -677.6100790116703, "timesteps_since_restore": 1185600, "num_metric_batches_dropped": 0, "time_since_restore": 30324.28250312805, "episode_reward_max": -485.63829960569666, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1185600, "default": {"kl": 0.008443324826657772, "policy_loss": -0.11379267275333405, "vf_loss": 641.7809448242188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9358238577842712, "entropy": 7.483497619628906, "cur_lr": 4.999999873689376e-05, "total_loss": 641.679931640625}, "load_time_ms": 0.636, "num_steps_sampled": 1185600, "grad_time_ms": 659.829, "update_time_ms": 2.284, "sample_time_ms": 29999.504}, "date": "2025-08-31_00-36-04", "hostname": "cda-server-4", "time_this_iter_s": 29.59862756729126, "episodes_total": 5928, "timestamp": 1756593364, "node_ip": "10.157.146.4", "done": false, "time_total_s": 30324.28250312805, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 989, "episode_reward_mean": -613.3303740484048, "training_iteration": 989, "timesteps_total": 1186800, "policy_reward_mean": {}, "episode_reward_min": -677.6100790116703, "timesteps_since_restore": 1186800, "num_metric_batches_dropped": 0, "time_since_restore": 30352.62116408348, "episode_reward_max": -485.63829960569666, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1186800, "default": {"kl": 0.010579880326986313, "policy_loss": -0.1381467580795288, "vf_loss": 183.9440460205078, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.98341965675354, "entropy": 7.38899040222168, "cur_lr": 4.999999873689376e-05, "total_loss": 183.82196044921875}, "load_time_ms": 0.624, "num_steps_sampled": 1186800, "grad_time_ms": 647.472, "update_time_ms": 2.304, "sample_time_ms": 29960.651}, "date": "2025-08-31_00-36-32", "hostname": "cda-server-4", "time_this_iter_s": 28.338660955429077, "episodes_total": 5934, "timestamp": 1756593392, "node_ip": "10.157.146.4", "done": false, "time_total_s": 30352.62116408348, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 990, "episode_reward_mean": -615.0939247585865, "training_iteration": 990, "timesteps_total": 1188000, "policy_reward_mean": {}, "episode_reward_min": -677.6100790116703, "timesteps_since_restore": 1188000, "num_metric_batches_dropped": 0, "time_since_restore": 30384.605741500854, "episode_reward_max": -485.63829960569666, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1188000, "default": {"kl": 0.01007807906717062, "policy_loss": -0.1254776269197464, "vf_loss": 301.6348876953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9737443923950195, "entropy": 7.140846252441406, "cur_lr": 4.999999873689376e-05, "total_loss": 301.5246887207031}, "load_time_ms": 0.623, "num_steps_sampled": 1188000, "grad_time_ms": 643.752, "update_time_ms": 2.263, "sample_time_ms": 29930.898}, "date": "2025-08-31_00-37-04", "hostname": "cda-server-4", "time_this_iter_s": 31.984577417373657, "episodes_total": 5940, "timestamp": 1756593424, "node_ip": "10.157.146.4", "done": false, "time_total_s": 30384.605741500854, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 991, "episode_reward_mean": -614.5099680781796, "training_iteration": 991, "timesteps_total": 1189200, "policy_reward_mean": {}, "episode_reward_min": -677.6100790116703, "timesteps_since_restore": 1189200, "num_metric_batches_dropped": 0, "time_since_restore": 30417.163927078247, "episode_reward_max": -485.63829960569666, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1189200, "default": {"kl": 0.009025368839502335, "policy_loss": -0.12959188222885132, "vf_loss": 319.2357177734375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9682320356369019, "entropy": 7.467482566833496, "cur_lr": 4.999999873689376e-05, "total_loss": 319.1198425292969}, "load_time_ms": 0.652, "num_steps_sampled": 1189200, "grad_time_ms": 641.913, "update_time_ms": 2.306, "sample_time_ms": 30390.587}, "date": "2025-08-31_00-37-37", "hostname": "cda-server-4", "time_this_iter_s": 32.55818557739258, "episodes_total": 5946, "timestamp": 1756593457, "node_ip": "10.157.146.4", "done": false, "time_total_s": 30417.163927078247, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 992, "episode_reward_mean": -614.8224688192672, "training_iteration": 992, "timesteps_total": 1190400, "policy_reward_mean": {}, "episode_reward_min": -677.6100790116703, "timesteps_since_restore": 1190400, "num_metric_batches_dropped": 0, "time_since_restore": 30447.316064596176, "episode_reward_max": -485.63829960569666, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1190400, "default": {"kl": 0.01056324690580368, "policy_loss": -0.13159684836864471, "vf_loss": 196.88514709472656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9824737906455994, "entropy": 7.506618976593018, "cur_lr": 4.999999873689376e-05, "total_loss": 196.76959228515625}, "load_time_ms": 0.642, "num_steps_sampled": 1190400, "grad_time_ms": 646.148, "update_time_ms": 2.277, "sample_time_ms": 30002.345}, "date": "2025-08-31_00-38-07", "hostname": "cda-server-4", "time_this_iter_s": 30.152137517929077, "episodes_total": 5952, "timestamp": 1756593487, "node_ip": "10.157.146.4", "done": false, "time_total_s": 30447.316064596176, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 993, "episode_reward_mean": -614.0942624674417, "training_iteration": 993, "timesteps_total": 1191600, "policy_reward_mean": {}, "episode_reward_min": -677.6100790116703, "timesteps_since_restore": 1191600, "num_metric_batches_dropped": 0, "time_since_restore": 30479.103187322617, "episode_reward_max": -485.63829960569666, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1191600, "default": {"kl": 0.009678936563432217, "policy_loss": -0.12386948615312576, "vf_loss": 230.60031127929688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9695528745651245, "entropy": 7.5049896240234375, "cur_lr": 4.999999873689376e-05, "total_loss": 230.49114990234375}, "load_time_ms": 0.678, "num_steps_sampled": 1191600, "grad_time_ms": 653.975, "update_time_ms": 2.242, "sample_time_ms": 30303.835}, "date": "2025-08-31_00-38-39", "hostname": "cda-server-4", "time_this_iter_s": 31.78712272644043, "episodes_total": 5958, "timestamp": 1756593519, "node_ip": "10.157.146.4", "done": false, "time_total_s": 30479.103187322617, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 994, "episode_reward_mean": -614.3713640560779, "training_iteration": 994, "timesteps_total": 1192800, "policy_reward_mean": {}, "episode_reward_min": -677.6100790116703, "timesteps_since_restore": 1192800, "num_metric_batches_dropped": 0, "time_since_restore": 30510.603018283844, "episode_reward_max": -485.63829960569666, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1192800, "default": {"kl": 0.011011078022420406, "policy_loss": -0.11810681223869324, "vf_loss": 234.77243041992188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9643741250038147, "entropy": 7.13096284866333, "cur_lr": 4.999999873689376e-05, "total_loss": 234.6710662841797}, "load_time_ms": 0.674, "num_steps_sampled": 1192800, "grad_time_ms": 664.111, "update_time_ms": 2.261, "sample_time_ms": 30266.37}, "date": "2025-08-31_00-39-10", "hostname": "cda-server-4", "time_this_iter_s": 31.499830961227417, "episodes_total": 5964, "timestamp": 1756593550, "node_ip": "10.157.146.4", "done": false, "time_total_s": 30510.603018283844, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 995, "episode_reward_mean": -614.387156259296, "training_iteration": 995, "timesteps_total": 1194000, "policy_reward_mean": {}, "episode_reward_min": -677.6100790116703, "timesteps_since_restore": 1194000, "num_metric_batches_dropped": 0, "time_since_restore": 30542.669003725052, "episode_reward_max": -485.63829960569666, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1194000, "default": {"kl": 0.011965770274400711, "policy_loss": -0.15844525396823883, "vf_loss": 152.0209503173828, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9865489602088928, "entropy": 7.450986385345459, "cur_lr": 4.999999873689376e-05, "total_loss": 151.88067626953125}, "load_time_ms": 0.667, "num_steps_sampled": 1194000, "grad_time_ms": 659.325, "update_time_ms": 2.221, "sample_time_ms": 30483.089}, "date": "2025-08-31_00-39-42", "hostname": "cda-server-4", "time_this_iter_s": 32.065985441207886, "episodes_total": 5970, "timestamp": 1756593582, "node_ip": "10.157.146.4", "done": false, "time_total_s": 30542.669003725052, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 996, "episode_reward_mean": -615.1978871754457, "training_iteration": 996, "timesteps_total": 1195200, "policy_reward_mean": {}, "episode_reward_min": -677.6100790116703, "timesteps_since_restore": 1195200, "num_metric_batches_dropped": 0, "time_since_restore": 30574.35307621956, "episode_reward_max": -485.63829960569666, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1195200, "default": {"kl": 0.009767618030309677, "policy_loss": -0.10882972180843353, "vf_loss": 113.44175720214844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9825446009635925, "entropy": 7.282007217407227, "cur_lr": 4.999999873689376e-05, "total_loss": 113.34776306152344}, "load_time_ms": 0.654, "num_steps_sampled": 1195200, "grad_time_ms": 646.599, "update_time_ms": 2.337, "sample_time_ms": 30548.3}, "date": "2025-08-31_00-40-14", "hostname": "cda-server-4", "time_this_iter_s": 31.684072494506836, "episodes_total": 5976, "timestamp": 1756593614, "node_ip": "10.157.146.4", "done": false, "time_total_s": 30574.35307621956, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 997, "episode_reward_mean": -616.4479848352706, "training_iteration": 997, "timesteps_total": 1196400, "policy_reward_mean": {}, "episode_reward_min": -677.6100790116703, "timesteps_since_restore": 1196400, "num_metric_batches_dropped": 0, "time_since_restore": 30606.69668841362, "episode_reward_max": -563.1699918333742, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1196400, "default": {"kl": 0.011294695548713207, "policy_loss": -0.1320882886648178, "vf_loss": 108.5775146484375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9859038591384888, "entropy": 7.291264057159424, "cur_lr": 4.999999873689376e-05, "total_loss": 108.46258544921875}, "load_time_ms": 0.657, "num_steps_sampled": 1196400, "grad_time_ms": 635.367, "update_time_ms": 2.322, "sample_time_ms": 30558.921}, "date": "2025-08-31_00-40-47", "hostname": "cda-server-4", "time_this_iter_s": 32.34361219406128, "episodes_total": 5982, "timestamp": 1756593647, "node_ip": "10.157.146.4", "done": false, "time_total_s": 30606.69668841362, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 998, "episode_reward_mean": -616.3547765278608, "training_iteration": 998, "timesteps_total": 1197600, "policy_reward_mean": {}, "episode_reward_min": -672.8105149982754, "timesteps_since_restore": 1197600, "num_metric_batches_dropped": 0, "time_since_restore": 30633.9125726223, "episode_reward_max": -563.1699918333742, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1197600, "default": {"kl": 0.011880154721438885, "policy_loss": -0.14804744720458984, "vf_loss": 86.74794006347656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9892224073410034, "entropy": 7.261724472045898, "cur_lr": 4.999999873689376e-05, "total_loss": 86.6179428100586}, "load_time_ms": 0.657, "num_steps_sampled": 1197600, "grad_time_ms": 628.108, "update_time_ms": 2.296, "sample_time_ms": 30327.98}, "date": "2025-08-31_00-41-14", "hostname": "cda-server-4", "time_this_iter_s": 27.2158842086792, "episodes_total": 5988, "timestamp": 1756593674, "node_ip": "10.157.146.4", "done": false, "time_total_s": 30633.9125726223, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 999, "episode_reward_mean": -615.7980126426286, "training_iteration": 999, "timesteps_total": 1198800, "policy_reward_mean": {}, "episode_reward_min": -672.8105149982754, "timesteps_since_restore": 1198800, "num_metric_batches_dropped": 0, "time_since_restore": 30664.763437986374, "episode_reward_max": -563.1699918333742, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1198800, "default": {"kl": 0.01064346358180046, "policy_loss": -0.1278393715620041, "vf_loss": 106.57978820800781, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9868420362472534, "entropy": 7.218528747558594, "cur_lr": 4.999999873689376e-05, "total_loss": 106.46810913085938}, "load_time_ms": 0.655, "num_steps_sampled": 1198800, "grad_time_ms": 648.19, "update_time_ms": 2.329, "sample_time_ms": 30559.178}, "date": "2025-08-31_00-41-45", "hostname": "cda-server-4", "time_this_iter_s": 30.850865364074707, "episodes_total": 5994, "timestamp": 1756593705, "node_ip": "10.157.146.4", "done": false, "time_total_s": 30664.763437986374, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1000, "episode_reward_mean": -615.4501840188583, "training_iteration": 1000, "timesteps_total": 1200000, "policy_reward_mean": {}, "episode_reward_min": -672.8105149982754, "timesteps_since_restore": 1200000, "num_metric_batches_dropped": 0, "time_since_restore": 30696.984349250793, "episode_reward_max": -563.1699918333742, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1200000, "default": {"kl": 0.009322753176093102, "policy_loss": -0.11077073216438293, "vf_loss": 112.08198547363281, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9857222437858582, "entropy": 6.9155073165893555, "cur_lr": 4.999999873689376e-05, "total_loss": 111.98538208007812}, "load_time_ms": 0.659, "num_steps_sampled": 1200000, "grad_time_ms": 664.157, "update_time_ms": 2.323, "sample_time_ms": 30566.855}, "date": "2025-08-31_00-42-17", "hostname": "cda-server-4", "time_this_iter_s": 32.220911264419556, "episodes_total": 6000, "timestamp": 1756593737, "node_ip": "10.157.146.4", "done": false, "time_total_s": 30696.984349250793, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1001, "episode_reward_mean": -615.399833150253, "training_iteration": 1001, "timesteps_total": 1201200, "policy_reward_mean": {}, "episode_reward_min": -672.8105149982754, "timesteps_since_restore": 1201200, "num_metric_batches_dropped": 0, "time_since_restore": 30728.798241853714, "episode_reward_max": -563.1699918333742, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1201200, "default": {"kl": 0.011433147825300694, "policy_loss": -0.13437464833259583, "vf_loss": 87.51775360107422, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9906172156333923, "entropy": 7.154234886169434, "cur_lr": 4.999999873689376e-05, "total_loss": 87.40074157714844}, "load_time_ms": 0.663, "num_steps_sampled": 1201200, "grad_time_ms": 675.999, "update_time_ms": 2.265, "sample_time_ms": 30480.598}, "date": "2025-08-31_00-42-49", "hostname": "cda-server-4", "time_this_iter_s": 31.813892602920532, "episodes_total": 6006, "timestamp": 1756593769, "node_ip": "10.157.146.4", "done": false, "time_total_s": 30728.798241853714, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1002, "episode_reward_mean": -615.8604608198661, "training_iteration": 1002, "timesteps_total": 1202400, "policy_reward_mean": {}, "episode_reward_min": -672.8105149982754, "timesteps_since_restore": 1202400, "num_metric_batches_dropped": 0, "time_since_restore": 30756.673317670822, "episode_reward_max": -563.1699918333742, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1202400, "default": {"kl": 0.01152394711971283, "policy_loss": -0.11499546468257904, "vf_loss": 510.1617431640625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9369962215423584, "entropy": 7.194773197174072, "cur_lr": 4.999999873689376e-05, "total_loss": 510.0642395019531}, "load_time_ms": 0.679, "num_steps_sampled": 1202400, "grad_time_ms": 684.353, "update_time_ms": 2.379, "sample_time_ms": 30244.414}, "date": "2025-08-31_00-43-17", "hostname": "cda-server-4", "time_this_iter_s": 27.875075817108154, "episodes_total": 6012, "timestamp": 1756593797, "node_ip": "10.157.146.4", "done": false, "time_total_s": 30756.673317670822, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1003, "episode_reward_mean": -614.5240263203758, "training_iteration": 1003, "timesteps_total": 1203600, "policy_reward_mean": {}, "episode_reward_min": -672.8105149982754, "timesteps_since_restore": 1203600, "num_metric_batches_dropped": 0, "time_since_restore": 30785.4774954319, "episode_reward_max": -563.1699918333742, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1203600, "default": {"kl": 0.010073269717395306, "policy_loss": -0.11532582342624664, "vf_loss": 82.5900650024414, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9887485504150391, "entropy": 7.062209606170654, "cur_lr": 4.999999873689376e-05, "total_loss": 82.49003601074219}, "load_time_ms": 0.662, "num_steps_sampled": 1203600, "grad_time_ms": 677.679, "update_time_ms": 2.411, "sample_time_ms": 29952.766}, "date": "2025-08-31_00-43-46", "hostname": "cda-server-4", "time_this_iter_s": 28.80417776107788, "episodes_total": 6018, "timestamp": 1756593826, "node_ip": "10.157.146.4", "done": false, "time_total_s": 30785.4774954319, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1004, "episode_reward_mean": -613.5296880239387, "training_iteration": 1004, "timesteps_total": 1204800, "policy_reward_mean": {}, "episode_reward_min": -672.8105149982754, "timesteps_since_restore": 1204800, "num_metric_batches_dropped": 0, "time_since_restore": 30814.04994249344, "episode_reward_max": -563.1699918333742, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1204800, "default": {"kl": 0.008265610784292221, "policy_loss": -0.11439323425292969, "vf_loss": 215.4010467529297, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9801958799362183, "entropy": 7.432792663574219, "cur_lr": 4.999999873689376e-05, "total_loss": 215.29917907714844}, "load_time_ms": 0.675, "num_steps_sampled": 1204800, "grad_time_ms": 661.673, "update_time_ms": 2.423, "sample_time_ms": 29675.919}, "date": "2025-08-31_00-44-14", "hostname": "cda-server-4", "time_this_iter_s": 28.572447061538696, "episodes_total": 6024, "timestamp": 1756593854, "node_ip": "10.157.146.4", "done": false, "time_total_s": 30814.04994249344, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1005, "episode_reward_mean": -613.8750870048799, "training_iteration": 1005, "timesteps_total": 1206000, "policy_reward_mean": {}, "episode_reward_min": -674.5337928954478, "timesteps_since_restore": 1206000, "num_metric_batches_dropped": 0, "time_since_restore": 30844.675124645233, "episode_reward_max": -563.1699918333742, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1206000, "default": {"kl": 0.011709741316735744, "policy_loss": -0.1502836048603058, "vf_loss": 296.2238464355469, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9630447030067444, "entropy": 7.29924201965332, "cur_lr": 4.999999873689376e-05, "total_loss": 296.09136962890625}, "load_time_ms": 0.678, "num_steps_sampled": 1206000, "grad_time_ms": 663.898, "update_time_ms": 2.546, "sample_time_ms": 29529.592}, "date": "2025-08-31_00-44-45", "hostname": "cda-server-4", "time_this_iter_s": 30.625182151794434, "episodes_total": 6030, "timestamp": 1756593885, "node_ip": "10.157.146.4", "done": false, "time_total_s": 30844.675124645233, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1006, "episode_reward_mean": -613.687154680486, "training_iteration": 1006, "timesteps_total": 1207200, "policy_reward_mean": {}, "episode_reward_min": -674.5337928954478, "timesteps_since_restore": 1207200, "num_metric_batches_dropped": 0, "time_since_restore": 30873.473541021347, "episode_reward_max": -563.1699918333742, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1207200, "default": {"kl": 0.009907814674079418, "policy_loss": -0.1288006603717804, "vf_loss": 233.66552734375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9818611145019531, "entropy": 7.364226341247559, "cur_lr": 4.999999873689376e-05, "total_loss": 233.55178833007812}, "load_time_ms": 0.68, "num_steps_sampled": 1207200, "grad_time_ms": 682.445, "update_time_ms": 2.469, "sample_time_ms": 29222.606}, "date": "2025-08-31_00-45-14", "hostname": "cda-server-4", "time_this_iter_s": 28.79841637611389, "episodes_total": 6036, "timestamp": 1756593914, "node_ip": "10.157.146.4", "done": false, "time_total_s": 30873.473541021347, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1007, "episode_reward_mean": -611.3473087329212, "training_iteration": 1007, "timesteps_total": 1208400, "policy_reward_mean": {}, "episode_reward_min": -674.5337928954478, "timesteps_since_restore": 1208400, "num_metric_batches_dropped": 0, "time_since_restore": 30901.60626101494, "episode_reward_max": -495.2530693686155, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1208400, "default": {"kl": 0.0120629807934165, "policy_loss": -0.1491362750530243, "vf_loss": 243.7061309814453, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9832813739776611, "entropy": 7.014010906219482, "cur_lr": 4.999999873689376e-05, "total_loss": 243.57533264160156}, "load_time_ms": 0.673, "num_steps_sampled": 1208400, "grad_time_ms": 677.92, "update_time_ms": 2.41, "sample_time_ms": 28806.155}, "date": "2025-08-31_00-45-42", "hostname": "cda-server-4", "time_this_iter_s": 28.13271999359131, "episodes_total": 6042, "timestamp": 1756593942, "node_ip": "10.157.146.4", "done": false, "time_total_s": 30901.60626101494, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1008, "episode_reward_mean": -611.4419468566808, "training_iteration": 1008, "timesteps_total": 1209600, "policy_reward_mean": {}, "episode_reward_min": -674.5337928954478, "timesteps_since_restore": 1209600, "num_metric_batches_dropped": 0, "time_since_restore": 30933.13958311081, "episode_reward_max": -495.2530693686155, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1209600, "default": {"kl": 0.009436352178454399, "policy_loss": -0.11636417359113693, "vf_loss": 230.88880920410156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9634786248207092, "entropy": 7.099538326263428, "cur_lr": 4.999999873689376e-05, "total_loss": 230.7867889404297}, "load_time_ms": 0.678, "num_steps_sampled": 1209600, "grad_time_ms": 685.243, "update_time_ms": 2.596, "sample_time_ms": 29230.413}, "date": "2025-08-31_00-46-13", "hostname": "cda-server-4", "time_this_iter_s": 31.53332209587097, "episodes_total": 6048, "timestamp": 1756593973, "node_ip": "10.157.146.4", "done": false, "time_total_s": 30933.13958311081, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1009, "episode_reward_mean": -610.5902775320671, "training_iteration": 1009, "timesteps_total": 1210800, "policy_reward_mean": {}, "episode_reward_min": -674.5337928954478, "timesteps_since_restore": 1210800, "num_metric_batches_dropped": 0, "time_since_restore": 30963.42694401741, "episode_reward_max": -495.2530693686155, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1210800, "default": {"kl": 0.0072565642185509205, "policy_loss": -0.10709769278764725, "vf_loss": 243.71229553222656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9693750739097595, "entropy": 7.21965217590332, "cur_lr": 4.999999873689376e-05, "total_loss": 243.61624145507812}, "load_time_ms": 0.692, "num_steps_sampled": 1210800, "grad_time_ms": 685.616, "update_time_ms": 2.519, "sample_time_ms": 29173.736}, "date": "2025-08-31_00-46-44", "hostname": "cda-server-4", "time_this_iter_s": 30.287360906600952, "episodes_total": 6054, "timestamp": 1756594004, "node_ip": "10.157.146.4", "done": false, "time_total_s": 30963.42694401741, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1010, "episode_reward_mean": -611.2047404009753, "training_iteration": 1010, "timesteps_total": 1212000, "policy_reward_mean": {}, "episode_reward_min": -674.5337928954478, "timesteps_since_restore": 1212000, "num_metric_batches_dropped": 0, "time_since_restore": 30996.39334321022, "episode_reward_max": -495.2530693686155, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1212000, "default": {"kl": 0.011810453608632088, "policy_loss": -0.13481825590133667, "vf_loss": 208.8544921875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9787079691886902, "entropy": 7.062017440795898, "cur_lr": 4.999999873689376e-05, "total_loss": 208.73760986328125}, "load_time_ms": 0.697, "num_steps_sampled": 1212000, "grad_time_ms": 684.886, "update_time_ms": 2.535, "sample_time_ms": 29248.904}, "date": "2025-08-31_00-47-16", "hostname": "cda-server-4", "time_this_iter_s": 32.96639919281006, "episodes_total": 6060, "timestamp": 1756594036, "node_ip": "10.157.146.4", "done": false, "time_total_s": 30996.39334321022, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1011, "episode_reward_mean": -610.9802156726073, "training_iteration": 1011, "timesteps_total": 1213200, "policy_reward_mean": {}, "episode_reward_min": -674.5337928954478, "timesteps_since_restore": 1213200, "num_metric_batches_dropped": 0, "time_since_restore": 31027.86691093445, "episode_reward_max": -491.93221196215717, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1213200, "default": {"kl": 0.012151538394391537, "policy_loss": -0.1452222317457199, "vf_loss": 541.003173828125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9377009272575378, "entropy": 7.520964622497559, "cur_lr": 4.999999873689376e-05, "total_loss": 540.8762817382812}, "load_time_ms": 0.679, "num_steps_sampled": 1213200, "grad_time_ms": 681.913, "update_time_ms": 2.541, "sample_time_ms": 29217.842}, "date": "2025-08-31_00-47-48", "hostname": "cda-server-4", "time_this_iter_s": 31.473567724227905, "episodes_total": 6066, "timestamp": 1756594068, "node_ip": "10.157.146.4", "done": false, "time_total_s": 31027.86691093445, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1012, "episode_reward_mean": -610.9148303656694, "training_iteration": 1012, "timesteps_total": 1214400, "policy_reward_mean": {}, "episode_reward_min": -674.5337928954478, "timesteps_since_restore": 1214400, "num_metric_batches_dropped": 0, "time_since_restore": 31057.648106098175, "episode_reward_max": -491.93221196215717, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1214400, "default": {"kl": 0.012637006118893623, "policy_loss": -0.14635087549686432, "vf_loss": 381.9981994628906, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9807210564613342, "entropy": 7.231871604919434, "cur_lr": 4.999999873689376e-05, "total_loss": 381.8710021972656}, "load_time_ms": 0.667, "num_steps_sampled": 1214400, "grad_time_ms": 681.354, "update_time_ms": 2.422, "sample_time_ms": 29409.12}, "date": "2025-08-31_00-48-18", "hostname": "cda-server-4", "time_this_iter_s": 29.781195163726807, "episodes_total": 6072, "timestamp": 1756594098, "node_ip": "10.157.146.4", "done": false, "time_total_s": 31057.648106098175, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1013, "episode_reward_mean": -610.9314972957993, "training_iteration": 1013, "timesteps_total": 1215600, "policy_reward_mean": {}, "episode_reward_min": -674.5337928954478, "timesteps_since_restore": 1215600, "num_metric_batches_dropped": 0, "time_since_restore": 31086.98020005226, "episode_reward_max": -491.93221196215717, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1215600, "default": {"kl": 0.010270100086927414, "policy_loss": -0.13221530616283417, "vf_loss": 231.61590576171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9783522486686707, "entropy": 7.149892330169678, "cur_lr": 4.999999873689376e-05, "total_loss": 231.49929809570312}, "load_time_ms": 0.68, "num_steps_sampled": 1215600, "grad_time_ms": 678.519, "update_time_ms": 2.375, "sample_time_ms": 29464.735}, "date": "2025-08-31_00-48-47", "hostname": "cda-server-4", "time_this_iter_s": 29.332093954086304, "episodes_total": 6078, "timestamp": 1756594127, "node_ip": "10.157.146.4", "done": false, "time_total_s": 31086.98020005226, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1014, "episode_reward_mean": -612.4036018128212, "training_iteration": 1014, "timesteps_total": 1216800, "policy_reward_mean": {}, "episode_reward_min": -674.5337928954478, "timesteps_since_restore": 1216800, "num_metric_batches_dropped": 0, "time_since_restore": 31116.36720275879, "episode_reward_max": -491.93221196215717, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1216800, "default": {"kl": 0.009638057090342045, "policy_loss": -0.12587524950504303, "vf_loss": 203.37147521972656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9687315821647644, "entropy": 7.0924177169799805, "cur_lr": 4.999999873689376e-05, "total_loss": 203.26022338867188}, "load_time_ms": 0.672, "num_steps_sampled": 1216800, "grad_time_ms": 681.43, "update_time_ms": 2.388, "sample_time_ms": 29543.323}, "date": "2025-08-31_00-49-17", "hostname": "cda-server-4", "time_this_iter_s": 29.38700270652771, "episodes_total": 6084, "timestamp": 1756594157, "node_ip": "10.157.146.4", "done": false, "time_total_s": 31116.36720275879, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1015, "episode_reward_mean": -611.9406913995125, "training_iteration": 1015, "timesteps_total": 1218000, "policy_reward_mean": {}, "episode_reward_min": -674.5337928954478, "timesteps_since_restore": 1218000, "num_metric_batches_dropped": 0, "time_since_restore": 31144.982233047485, "episode_reward_max": -491.93221196215717, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1218000, "default": {"kl": 0.010012416169047356, "policy_loss": -0.13320596516132355, "vf_loss": 54.7859992980957, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9933024644851685, "entropy": 7.190034866333008, "cur_lr": 4.999999873689376e-05, "total_loss": 54.66800308227539}, "load_time_ms": 0.702, "num_steps_sampled": 1218000, "grad_time_ms": 664.251, "update_time_ms": 2.304, "sample_time_ms": 29359.543}, "date": "2025-08-31_00-49-45", "hostname": "cda-server-4", "time_this_iter_s": 28.61503028869629, "episodes_total": 6090, "timestamp": 1756594185, "node_ip": "10.157.146.4", "done": false, "time_total_s": 31144.982233047485, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1016, "episode_reward_mean": -612.6969965779394, "training_iteration": 1016, "timesteps_total": 1219200, "policy_reward_mean": {}, "episode_reward_min": -674.5337928954478, "timesteps_since_restore": 1219200, "num_metric_batches_dropped": 0, "time_since_restore": 31175.346351861954, "episode_reward_max": -491.93221196215717, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1219200, "default": {"kl": 0.01063942164182663, "policy_loss": -0.12335406243801117, "vf_loss": 529.0348510742188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9163803458213806, "entropy": 7.062264919281006, "cur_lr": 4.999999873689376e-05, "total_loss": 528.9276123046875}, "load_time_ms": 0.696, "num_steps_sampled": 1219200, "grad_time_ms": 637.177, "update_time_ms": 2.288, "sample_time_ms": 29543.16}, "date": "2025-08-31_00-50-16", "hostname": "cda-server-4", "time_this_iter_s": 30.364118814468384, "episodes_total": 6096, "timestamp": 1756594216, "node_ip": "10.157.146.4", "done": false, "time_total_s": 31175.346351861954, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1017, "episode_reward_mean": -611.4430371246082, "training_iteration": 1017, "timesteps_total": 1220400, "policy_reward_mean": {}, "episode_reward_min": -674.5337928954478, "timesteps_since_restore": 1220400, "num_metric_batches_dropped": 0, "time_since_restore": 31207.1786339283, "episode_reward_max": -463.7595174968843, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1220400, "default": {"kl": 0.012741278856992722, "policy_loss": -0.14918392896652222, "vf_loss": 435.2578430175781, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9652693271636963, "entropy": 7.378994464874268, "cur_lr": 4.999999873689376e-05, "total_loss": 435.1280212402344}, "load_time_ms": 0.699, "num_steps_sampled": 1220400, "grad_time_ms": 638.117, "update_time_ms": 2.315, "sample_time_ms": 29912.141}, "date": "2025-08-31_00-50-47", "hostname": "cda-server-4", "time_this_iter_s": 31.832282066345215, "episodes_total": 6102, "timestamp": 1756594247, "node_ip": "10.157.146.4", "done": false, "time_total_s": 31207.1786339283, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1018, "episode_reward_mean": -609.932830991561, "training_iteration": 1018, "timesteps_total": 1221600, "policy_reward_mean": {}, "episode_reward_min": -674.5337928954478, "timesteps_since_restore": 1221600, "num_metric_batches_dropped": 0, "time_since_restore": 31240.31646823883, "episode_reward_max": -463.7595174968843, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1221600, "default": {"kl": 0.010012296959757805, "policy_loss": -0.12527123093605042, "vf_loss": 117.89515686035156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9836722612380981, "entropy": 7.058613300323486, "cur_lr": 4.999999873689376e-05, "total_loss": 117.78510284423828}, "load_time_ms": 0.691, "num_steps_sampled": 1221600, "grad_time_ms": 636.474, "update_time_ms": 2.256, "sample_time_ms": 30074.249}, "date": "2025-08-31_00-51-21", "hostname": "cda-server-4", "time_this_iter_s": 33.137834310531616, "episodes_total": 6108, "timestamp": 1756594281, "node_ip": "10.157.146.4", "done": false, "time_total_s": 31240.31646823883, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1019, "episode_reward_mean": -609.6759422655371, "training_iteration": 1019, "timesteps_total": 1222800, "policy_reward_mean": {}, "episode_reward_min": -674.5337928954478, "timesteps_since_restore": 1222800, "num_metric_batches_dropped": 0, "time_since_restore": 31269.283111333847, "episode_reward_max": -463.7595174968843, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1222800, "default": {"kl": 0.011673484928905964, "policy_loss": -0.1332194209098816, "vf_loss": 109.79098510742188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9858214259147644, "entropy": 7.006028175354004, "cur_lr": 4.999999873689376e-05, "total_loss": 109.67549896240234}, "load_time_ms": 0.681, "num_steps_sampled": 1222800, "grad_time_ms": 618.421, "update_time_ms": 2.254, "sample_time_ms": 29960.25}, "date": "2025-08-31_00-51-50", "hostname": "cda-server-4", "time_this_iter_s": 28.96664309501648, "episodes_total": 6114, "timestamp": 1756594310, "node_ip": "10.157.146.4", "done": false, "time_total_s": 31269.283111333847, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1020, "episode_reward_mean": -610.1564367241506, "training_iteration": 1020, "timesteps_total": 1224000, "policy_reward_mean": {}, "episode_reward_min": -674.5337928954478, "timesteps_since_restore": 1224000, "num_metric_batches_dropped": 0, "time_since_restore": 31300.97380590439, "episode_reward_max": -463.7595174968843, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1224000, "default": {"kl": 0.010768111795186996, "policy_loss": -0.1387290507555008, "vf_loss": 169.1531219482422, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9772825241088867, "entropy": 7.18330717086792, "cur_lr": 4.999999873689376e-05, "total_loss": 169.03073120117188}, "load_time_ms": 0.676, "num_steps_sampled": 1224000, "grad_time_ms": 609.124, "update_time_ms": 2.287, "sample_time_ms": 29841.995}, "date": "2025-08-31_00-52-21", "hostname": "cda-server-4", "time_this_iter_s": 31.690694570541382, "episodes_total": 6120, "timestamp": 1756594341, "node_ip": "10.157.146.4", "done": false, "time_total_s": 31300.97380590439, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1021, "episode_reward_mean": -609.3507626448904, "training_iteration": 1021, "timesteps_total": 1225200, "policy_reward_mean": {}, "episode_reward_min": -674.5337928954478, "timesteps_since_restore": 1225200, "num_metric_batches_dropped": 0, "time_since_restore": 31333.91275048256, "episode_reward_max": -463.7595174968843, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1225200, "default": {"kl": 0.011507692746818066, "policy_loss": -0.1327199935913086, "vf_loss": 74.78905487060547, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.99365234375, "entropy": 6.962779998779297, "cur_lr": 4.999999873689376e-05, "total_loss": 74.6738052368164}, "load_time_ms": 0.664, "num_steps_sampled": 1225200, "grad_time_ms": 603.886, "update_time_ms": 2.283, "sample_time_ms": 29993.812}, "date": "2025-08-31_00-52-54", "hostname": "cda-server-4", "time_this_iter_s": 32.938944578170776, "episodes_total": 6126, "timestamp": 1756594374, "node_ip": "10.157.146.4", "done": false, "time_total_s": 31333.91275048256, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1022, "episode_reward_mean": -607.2049490978726, "training_iteration": 1022, "timesteps_total": 1226400, "policy_reward_mean": {}, "episode_reward_min": -657.5878832148607, "timesteps_since_restore": 1226400, "num_metric_batches_dropped": 0, "time_since_restore": 31364.737335443497, "episode_reward_max": -463.7595174968843, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1226400, "default": {"kl": 0.00963315088301897, "policy_loss": -0.11739248782396317, "vf_loss": 324.4266052246094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.992731511592865, "entropy": 7.377002239227295, "cur_lr": 4.999999873689376e-05, "total_loss": 324.3238525390625}, "load_time_ms": 0.672, "num_steps_sampled": 1226400, "grad_time_ms": 611.385, "update_time_ms": 2.315, "sample_time_ms": 30090.574}, "date": "2025-08-31_00-53-25", "hostname": "cda-server-4", "time_this_iter_s": 30.8245849609375, "episodes_total": 6132, "timestamp": 1756594405, "node_ip": "10.157.146.4", "done": false, "time_total_s": 31364.737335443497, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1023, "episode_reward_mean": -607.3049668965497, "training_iteration": 1023, "timesteps_total": 1227600, "policy_reward_mean": {}, "episode_reward_min": -657.5878832148607, "timesteps_since_restore": 1227600, "num_metric_batches_dropped": 0, "time_since_restore": 31397.090950012207, "episode_reward_max": -463.7595174968843, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1227600, "default": {"kl": 0.01055178139358759, "policy_loss": -0.11766154319047928, "vf_loss": 243.51942443847656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9623560309410095, "entropy": 6.875294208526611, "cur_lr": 4.999999873689376e-05, "total_loss": 243.41775512695312}, "load_time_ms": 0.64, "num_steps_sampled": 1227600, "grad_time_ms": 625.669, "update_time_ms": 2.379, "sample_time_ms": 30378.414}, "date": "2025-08-31_00-53-57", "hostname": "cda-server-4", "time_this_iter_s": 32.35361456871033, "episodes_total": 6138, "timestamp": 1756594437, "node_ip": "10.157.146.4", "done": false, "time_total_s": 31397.090950012207, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1024, "episode_reward_mean": -607.4805983535143, "training_iteration": 1024, "timesteps_total": 1228800, "policy_reward_mean": {}, "episode_reward_min": -657.5878832148607, "timesteps_since_restore": 1228800, "num_metric_batches_dropped": 0, "time_since_restore": 31426.767835617065, "episode_reward_max": -463.7595174968843, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1228800, "default": {"kl": 0.008868963457643986, "policy_loss": -0.12422217428684235, "vf_loss": 67.74210357666016, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9898850321769714, "entropy": 7.060341835021973, "cur_lr": 4.999999873689376e-05, "total_loss": 67.63135528564453}, "load_time_ms": 0.637, "num_steps_sampled": 1228800, "grad_time_ms": 643.262, "update_time_ms": 2.357, "sample_time_ms": 30389.804}, "date": "2025-08-31_00-54-27", "hostname": "cda-server-4", "time_this_iter_s": 29.6768856048584, "episodes_total": 6144, "timestamp": 1756594467, "node_ip": "10.157.146.4", "done": false, "time_total_s": 31426.767835617065, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1025, "episode_reward_mean": -609.0106506554225, "training_iteration": 1025, "timesteps_total": 1230000, "policy_reward_mean": {}, "episode_reward_min": -746.387029705181, "timesteps_since_restore": 1230000, "num_metric_batches_dropped": 0, "time_since_restore": 31457.816504478455, "episode_reward_max": -463.7595174968843, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1230000, "default": {"kl": 0.011053983122110367, "policy_loss": -0.13013701140880585, "vf_loss": 420.3702392578125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9487070441246033, "entropy": 7.203586101531982, "cur_lr": 4.999999873689376e-05, "total_loss": 420.2569274902344}, "load_time_ms": 0.608, "num_steps_sampled": 1230000, "grad_time_ms": 685.649, "update_time_ms": 2.323, "sample_time_ms": 30590.792}, "date": "2025-08-31_00-54-58", "hostname": "cda-server-4", "time_this_iter_s": 31.04866886138916, "episodes_total": 6150, "timestamp": 1756594498, "node_ip": "10.157.146.4", "done": false, "time_total_s": 31457.816504478455, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1026, "episode_reward_mean": -610.1844903236725, "training_iteration": 1026, "timesteps_total": 1231200, "policy_reward_mean": {}, "episode_reward_min": -746.387029705181, "timesteps_since_restore": 1231200, "num_metric_batches_dropped": 0, "time_since_restore": 31490.790165424347, "episode_reward_max": -463.7595174968843, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1231200, "default": {"kl": 0.010969582945108414, "policy_loss": -0.13521650433540344, "vf_loss": 862.0908813476562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9296939373016357, "entropy": 7.331244468688965, "cur_lr": 4.999999873689376e-05, "total_loss": 861.9723510742188}, "load_time_ms": 0.607, "num_steps_sampled": 1231200, "grad_time_ms": 694.776, "update_time_ms": 2.366, "sample_time_ms": 30842.599}, "date": "2025-08-31_00-55-31", "hostname": "cda-server-4", "time_this_iter_s": 32.973660945892334, "episodes_total": 6156, "timestamp": 1756594531, "node_ip": "10.157.146.4", "done": false, "time_total_s": 31490.790165424347, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1027, "episode_reward_mean": -610.369086687725, "training_iteration": 1027, "timesteps_total": 1232400, "policy_reward_mean": {}, "episode_reward_min": -746.387029705181, "timesteps_since_restore": 1232400, "num_metric_batches_dropped": 0, "time_since_restore": 31520.63891005516, "episode_reward_max": -463.7595174968843, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1232400, "default": {"kl": 0.009508463554084301, "policy_loss": -0.12690135836601257, "vf_loss": 77.56410217285156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9918116331100464, "entropy": 7.487209796905518, "cur_lr": 4.999999873689376e-05, "total_loss": 77.45162963867188}, "load_time_ms": 0.608, "num_steps_sampled": 1232400, "grad_time_ms": 709.659, "update_time_ms": 2.358, "sample_time_ms": 30629.355}, "date": "2025-08-31_00-56-01", "hostname": "cda-server-4", "time_this_iter_s": 29.8487446308136, "episodes_total": 6162, "timestamp": 1756594561, "node_ip": "10.157.146.4", "done": false, "time_total_s": 31520.63891005516, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1028, "episode_reward_mean": -610.030077311123, "training_iteration": 1028, "timesteps_total": 1233600, "policy_reward_mean": {}, "episode_reward_min": -746.387029705181, "timesteps_since_restore": 1233600, "num_metric_batches_dropped": 0, "time_since_restore": 31551.47759771347, "episode_reward_max": -463.7595174968843, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1233600, "default": {"kl": 0.01090081688016653, "policy_loss": -0.1404440850019455, "vf_loss": 221.65536499023438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9735441207885742, "entropy": 6.994132995605469, "cur_lr": 4.999999873689376e-05, "total_loss": 221.531494140625}, "load_time_ms": 0.6, "num_steps_sampled": 1233600, "grad_time_ms": 708.152, "update_time_ms": 2.237, "sample_time_ms": 30401.082}, "date": "2025-08-31_00-56-32", "hostname": "cda-server-4", "time_this_iter_s": 30.838687658309937, "episodes_total": 6168, "timestamp": 1756594592, "node_ip": "10.157.146.4", "done": false, "time_total_s": 31551.47759771347, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1029, "episode_reward_mean": -610.1090044778532, "training_iteration": 1029, "timesteps_total": 1234800, "policy_reward_mean": {}, "episode_reward_min": -746.387029705181, "timesteps_since_restore": 1234800, "num_metric_batches_dropped": 0, "time_since_restore": 31582.674844503403, "episode_reward_max": -463.7595174968843, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1234800, "default": {"kl": 0.008904019370675087, "policy_loss": -0.13195063173770905, "vf_loss": 43.483951568603516, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9941216707229614, "entropy": 7.365719318389893, "cur_lr": 4.999999873689376e-05, "total_loss": 43.36552429199219}, "load_time_ms": 0.633, "num_steps_sampled": 1234800, "grad_time_ms": 716.008, "update_time_ms": 2.309, "sample_time_ms": 30616.168}, "date": "2025-08-31_00-57-03", "hostname": "cda-server-4", "time_this_iter_s": 31.19724678993225, "episodes_total": 6174, "timestamp": 1756594623, "node_ip": "10.157.146.4", "done": false, "time_total_s": 31582.674844503403, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1030, "episode_reward_mean": -610.8434751350264, "training_iteration": 1030, "timesteps_total": 1236000, "policy_reward_mean": {}, "episode_reward_min": -746.387029705181, "timesteps_since_restore": 1236000, "num_metric_batches_dropped": 0, "time_since_restore": 31614.46370458603, "episode_reward_max": -463.7595174968843, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1236000, "default": {"kl": 0.008946448564529419, "policy_loss": -0.12924063205718994, "vf_loss": 274.7725830078125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9738150835037231, "entropy": 7.150022029876709, "cur_lr": 4.999999873689376e-05, "total_loss": 274.65692138671875}, "load_time_ms": 0.648, "num_steps_sampled": 1236000, "grad_time_ms": 716.306, "update_time_ms": 2.264, "sample_time_ms": 30625.772}, "date": "2025-08-31_00-57-35", "hostname": "cda-server-4", "time_this_iter_s": 31.788860082626343, "episodes_total": 6180, "timestamp": 1756594655, "node_ip": "10.157.146.4", "done": false, "time_total_s": 31614.46370458603, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1031, "episode_reward_mean": -610.221051460889, "training_iteration": 1031, "timesteps_total": 1237200, "policy_reward_mean": {}, "episode_reward_min": -746.387029705181, "timesteps_since_restore": 1237200, "num_metric_batches_dropped": 0, "time_since_restore": 31645.422600746155, "episode_reward_max": -463.7595174968843, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1237200, "default": {"kl": 0.009435366839170456, "policy_loss": -0.10700297355651855, "vf_loss": 497.30804443359375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9615716934204102, "entropy": 7.161624431610107, "cur_lr": 4.999999873689376e-05, "total_loss": 497.21533203125}, "load_time_ms": 0.674, "num_steps_sampled": 1237200, "grad_time_ms": 712.194, "update_time_ms": 2.299, "sample_time_ms": 30431.805}, "date": "2025-08-31_00-58-06", "hostname": "cda-server-4", "time_this_iter_s": 30.958896160125732, "episodes_total": 6186, "timestamp": 1756594686, "node_ip": "10.157.146.4", "done": false, "time_total_s": 31645.422600746155, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1032, "episode_reward_mean": -610.3057244056273, "training_iteration": 1032, "timesteps_total": 1238400, "policy_reward_mean": {}, "episode_reward_min": -746.387029705181, "timesteps_since_restore": 1238400, "num_metric_batches_dropped": 0, "time_since_restore": 31674.715168952942, "episode_reward_max": -463.7595174968843, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1238400, "default": {"kl": 0.009523186832666397, "policy_loss": -0.12383827567100525, "vf_loss": 328.5429992675781, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9557643532752991, "entropy": 7.072312831878662, "cur_lr": 4.999999873689376e-05, "total_loss": 328.43359375}, "load_time_ms": 0.669, "num_steps_sampled": 1238400, "grad_time_ms": 706.87, "update_time_ms": 2.302, "sample_time_ms": 30283.956}, "date": "2025-08-31_00-58-35", "hostname": "cda-server-4", "time_this_iter_s": 29.29256820678711, "episodes_total": 6192, "timestamp": 1756594715, "node_ip": "10.157.146.4", "done": false, "time_total_s": 31674.715168952942, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1033, "episode_reward_mean": -608.7174886561426, "training_iteration": 1033, "timesteps_total": 1239600, "policy_reward_mean": {}, "episode_reward_min": -746.387029705181, "timesteps_since_restore": 1239600, "num_metric_batches_dropped": 0, "time_since_restore": 31704.505708694458, "episode_reward_max": -463.7595174968843, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1239600, "default": {"kl": 0.011124708689749241, "policy_loss": -0.15461498498916626, "vf_loss": 92.68314361572266, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9924795627593994, "entropy": 7.122711181640625, "cur_lr": 4.999999873689376e-05, "total_loss": 92.54542541503906}, "load_time_ms": 0.669, "num_steps_sampled": 1239600, "grad_time_ms": 691.916, "update_time_ms": 2.255, "sample_time_ms": 30042.664}, "date": "2025-08-31_00-59-05", "hostname": "cda-server-4", "time_this_iter_s": 29.790539741516113, "episodes_total": 6198, "timestamp": 1756594745, "node_ip": "10.157.146.4", "done": false, "time_total_s": 31704.505708694458, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1034, "episode_reward_mean": -609.2826246148614, "training_iteration": 1034, "timesteps_total": 1240800, "policy_reward_mean": {}, "episode_reward_min": -746.387029705181, "timesteps_since_restore": 1240800, "num_metric_batches_dropped": 0, "time_since_restore": 31736.885966062546, "episode_reward_max": -515.6794280317215, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1240800, "default": {"kl": 0.011353782378137112, "policy_loss": -0.14936016499996185, "vf_loss": 210.54002380371094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9812839031219482, "entropy": 6.904638290405273, "cur_lr": 4.999999873689376e-05, "total_loss": 210.40789794921875}, "load_time_ms": 0.673, "num_steps_sampled": 1240800, "grad_time_ms": 680.745, "update_time_ms": 2.241, "sample_time_ms": 30324.122}, "date": "2025-08-31_00-59-38", "hostname": "cda-server-4", "time_this_iter_s": 32.38025736808777, "episodes_total": 6204, "timestamp": 1756594778, "node_ip": "10.157.146.4", "done": false, "time_total_s": 31736.885966062546, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1035, "episode_reward_mean": -609.0213031151752, "training_iteration": 1035, "timesteps_total": 1242000, "policy_reward_mean": {}, "episode_reward_min": -746.387029705181, "timesteps_since_restore": 1242000, "num_metric_batches_dropped": 0, "time_since_restore": 31769.57245492935, "episode_reward_max": -515.6794280317215, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1242000, "default": {"kl": 0.011334747076034546, "policy_loss": -0.13716769218444824, "vf_loss": 263.1972351074219, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9719690680503845, "entropy": 7.147309303283691, "cur_lr": 4.999999873689376e-05, "total_loss": 263.0772705078125}, "load_time_ms": 0.669, "num_steps_sampled": 1242000, "grad_time_ms": 658.268, "update_time_ms": 2.269, "sample_time_ms": 30510.371}, "date": "2025-08-31_01-00-10", "hostname": "cda-server-4", "time_this_iter_s": 32.68648886680603, "episodes_total": 6210, "timestamp": 1756594810, "node_ip": "10.157.146.4", "done": false, "time_total_s": 31769.57245492935, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1036, "episode_reward_mean": -610.3588876497996, "training_iteration": 1036, "timesteps_total": 1243200, "policy_reward_mean": {}, "episode_reward_min": -746.387029705181, "timesteps_since_restore": 1243200, "num_metric_batches_dropped": 0, "time_since_restore": 31801.777012825012, "episode_reward_max": -515.6794280317215, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1243200, "default": {"kl": 0.008171441964805126, "policy_loss": -0.12766119837760925, "vf_loss": 282.8642272949219, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.96690833568573, "entropy": 7.253535747528076, "cur_lr": 4.999999873689376e-05, "total_loss": 282.74896240234375}, "load_time_ms": 0.676, "num_steps_sampled": 1243200, "grad_time_ms": 676.977, "update_time_ms": 2.259, "sample_time_ms": 30414.758}, "date": "2025-08-31_01-00-42", "hostname": "cda-server-4", "time_this_iter_s": 32.2045578956604, "episodes_total": 6216, "timestamp": 1756594842, "node_ip": "10.157.146.4", "done": false, "time_total_s": 31801.777012825012, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1037, "episode_reward_mean": -612.489759439871, "training_iteration": 1037, "timesteps_total": 1244400, "policy_reward_mean": {}, "episode_reward_min": -746.387029705181, "timesteps_since_restore": 1244400, "num_metric_batches_dropped": 0, "time_since_restore": 31831.67020010948, "episode_reward_max": -515.6794280317215, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1244400, "default": {"kl": 0.01104232482612133, "policy_loss": -0.1307275891304016, "vf_loss": 447.0111083984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9630591869354248, "entropy": 7.139168739318848, "cur_lr": 4.999999873689376e-05, "total_loss": 446.8971862792969}, "load_time_ms": 0.673, "num_steps_sampled": 1244400, "grad_time_ms": 675.706, "update_time_ms": 2.276, "sample_time_ms": 30420.485}, "date": "2025-08-31_01-01-12", "hostname": "cda-server-4", "time_this_iter_s": 29.893187284469604, "episodes_total": 6222, "timestamp": 1756594872, "node_ip": "10.157.146.4", "done": false, "time_total_s": 31831.67020010948, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1038, "episode_reward_mean": -612.0501709777508, "training_iteration": 1038, "timesteps_total": 1245600, "policy_reward_mean": {}, "episode_reward_min": -746.387029705181, "timesteps_since_restore": 1245600, "num_metric_batches_dropped": 0, "time_since_restore": 31863.273879766464, "episode_reward_max": -515.6794280317215, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1245600, "default": {"kl": 0.008354853838682175, "policy_loss": -0.11127490550279617, "vf_loss": 77.11360168457031, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9889835715293884, "entropy": 7.054704666137695, "cur_lr": 4.999999873689376e-05, "total_loss": 77.0150146484375}, "load_time_ms": 0.682, "num_steps_sampled": 1245600, "grad_time_ms": 675.834, "update_time_ms": 2.301, "sample_time_ms": 30496.845}, "date": "2025-08-31_01-01-44", "hostname": "cda-server-4", "time_this_iter_s": 31.603679656982422, "episodes_total": 6228, "timestamp": 1756594904, "node_ip": "10.157.146.4", "done": false, "time_total_s": 31863.273879766464, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1039, "episode_reward_mean": -612.7460275555673, "training_iteration": 1039, "timesteps_total": 1246800, "policy_reward_mean": {}, "episode_reward_min": -746.387029705181, "timesteps_since_restore": 1246800, "num_metric_batches_dropped": 0, "time_since_restore": 31895.652921676636, "episode_reward_max": -515.6794280317215, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1246800, "default": {"kl": 0.010301641188561916, "policy_loss": -0.1345243752002716, "vf_loss": 150.87437438964844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.981517493724823, "entropy": 6.980655193328857, "cur_lr": 4.999999873689376e-05, "total_loss": 150.75550842285156}, "load_time_ms": 0.681, "num_steps_sampled": 1246800, "grad_time_ms": 685.315, "update_time_ms": 2.265, "sample_time_ms": 30605.565}, "date": "2025-08-31_01-02-16", "hostname": "cda-server-4", "time_this_iter_s": 32.37904191017151, "episodes_total": 6234, "timestamp": 1756594936, "node_ip": "10.157.146.4", "done": false, "time_total_s": 31895.652921676636, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1040, "episode_reward_mean": -612.4605910657193, "training_iteration": 1040, "timesteps_total": 1248000, "policy_reward_mean": {}, "episode_reward_min": -746.387029705181, "timesteps_since_restore": 1248000, "num_metric_batches_dropped": 0, "time_since_restore": 31925.540556430817, "episode_reward_max": -497.81922727358614, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1248000, "default": {"kl": 0.01119756605476141, "policy_loss": -0.14236237108707428, "vf_loss": 112.56605529785156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9887576699256897, "entropy": 7.076725006103516, "cur_lr": 4.999999873689376e-05, "total_loss": 112.44070434570312}, "load_time_ms": 0.668, "num_steps_sampled": 1248000, "grad_time_ms": 686.714, "update_time_ms": 2.282, "sample_time_ms": 30413.939}, "date": "2025-08-31_01-02-46", "hostname": "cda-server-4", "time_this_iter_s": 29.887634754180908, "episodes_total": 6240, "timestamp": 1756594966, "node_ip": "10.157.146.4", "done": false, "time_total_s": 31925.540556430817, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1041, "episode_reward_mean": -612.457697602732, "training_iteration": 1041, "timesteps_total": 1249200, "policy_reward_mean": {}, "episode_reward_min": -746.387029705181, "timesteps_since_restore": 1249200, "num_metric_batches_dropped": 0, "time_since_restore": 31956.778705835342, "episode_reward_max": -497.81922727358614, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1249200, "default": {"kl": 0.013094071298837662, "policy_loss": -0.1439129263162613, "vf_loss": 493.8904113769531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9454196095466614, "entropy": 7.187119483947754, "cur_lr": 4.999999873689376e-05, "total_loss": 493.7663879394531}, "load_time_ms": 0.639, "num_steps_sampled": 1249200, "grad_time_ms": 690.397, "update_time_ms": 2.358, "sample_time_ms": 30438.046}, "date": "2025-08-31_01-03-18", "hostname": "cda-server-4", "time_this_iter_s": 31.238149404525757, "episodes_total": 6246, "timestamp": 1756594998, "node_ip": "10.157.146.4", "done": false, "time_total_s": 31956.778705835342, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1042, "episode_reward_mean": -612.1789545635243, "training_iteration": 1042, "timesteps_total": 1250400, "policy_reward_mean": {}, "episode_reward_min": -690.8886828456064, "timesteps_since_restore": 1250400, "num_metric_batches_dropped": 0, "time_since_restore": 31985.00830078125, "episode_reward_max": -497.81922727358614, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1250400, "default": {"kl": 0.00899518746882677, "policy_loss": -0.11944714933633804, "vf_loss": 615.7225341796875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.964000403881073, "entropy": 7.192622661590576, "cur_lr": 4.999999873689376e-05, "total_loss": 615.6168212890625}, "load_time_ms": 0.647, "num_steps_sampled": 1250400, "grad_time_ms": 686.262, "update_time_ms": 2.359, "sample_time_ms": 30335.888}, "date": "2025-08-31_01-03-46", "hostname": "cda-server-4", "time_this_iter_s": 28.229594945907593, "episodes_total": 6252, "timestamp": 1756595026, "node_ip": "10.157.146.4", "done": false, "time_total_s": 31985.00830078125, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1043, "episode_reward_mean": -611.2244667078477, "training_iteration": 1043, "timesteps_total": 1251600, "policy_reward_mean": {}, "episode_reward_min": -689.3911130221468, "timesteps_since_restore": 1251600, "num_metric_batches_dropped": 0, "time_since_restore": 32016.992751836777, "episode_reward_max": -497.81922727358614, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1251600, "default": {"kl": 0.012013883329927921, "policy_loss": -0.13544677197933197, "vf_loss": 192.59805297851562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9804703593254089, "entropy": 7.150023460388184, "cur_lr": 4.999999873689376e-05, "total_loss": 192.48086547851562}, "load_time_ms": 0.679, "num_steps_sampled": 1251600, "grad_time_ms": 700.398, "update_time_ms": 2.366, "sample_time_ms": 30541.109}, "date": "2025-08-31_01-04-18", "hostname": "cda-server-4", "time_this_iter_s": 31.984451055526733, "episodes_total": 6258, "timestamp": 1756595058, "node_ip": "10.157.146.4", "done": false, "time_total_s": 32016.992751836777, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1044, "episode_reward_mean": -611.2563357368596, "training_iteration": 1044, "timesteps_total": 1252800, "policy_reward_mean": {}, "episode_reward_min": -689.3911130221468, "timesteps_since_restore": 1252800, "num_metric_batches_dropped": 0, "time_since_restore": 32048.504744291306, "episode_reward_max": -471.99798381529996, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1252800, "default": {"kl": 0.012028587982058525, "policy_loss": -0.13970763981342316, "vf_loss": 228.61732482910156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9907527565956116, "entropy": 7.09236478805542, "cur_lr": 4.999999873689376e-05, "total_loss": 228.49588012695312}, "load_time_ms": 0.678, "num_steps_sampled": 1252800, "grad_time_ms": 710.593, "update_time_ms": 2.378, "sample_time_ms": 30444.101}, "date": "2025-08-31_01-04-49", "hostname": "cda-server-4", "time_this_iter_s": 31.51199245452881, "episodes_total": 6264, "timestamp": 1756595089, "node_ip": "10.157.146.4", "done": false, "time_total_s": 32048.504744291306, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1045, "episode_reward_mean": -611.2513959477112, "training_iteration": 1045, "timesteps_total": 1254000, "policy_reward_mean": {}, "episode_reward_min": -689.3911130221468, "timesteps_since_restore": 1254000, "num_metric_batches_dropped": 0, "time_since_restore": 32076.871500968933, "episode_reward_max": -471.99798381529996, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1254000, "default": {"kl": 0.012139595113694668, "policy_loss": -0.14114348590373993, "vf_loss": 180.45831298828125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9836181998252869, "entropy": 6.772765159606934, "cur_lr": 4.999999873689376e-05, "total_loss": 180.3356170654297}, "load_time_ms": 0.681, "num_steps_sampled": 1254000, "grad_time_ms": 712.325, "update_time_ms": 2.402, "sample_time_ms": 30010.435}, "date": "2025-08-31_01-05-18", "hostname": "cda-server-4", "time_this_iter_s": 28.366756677627563, "episodes_total": 6270, "timestamp": 1756595118, "node_ip": "10.157.146.4", "done": false, "time_total_s": 32076.871500968933, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1046, "episode_reward_mean": -610.7829875522261, "training_iteration": 1046, "timesteps_total": 1255200, "policy_reward_mean": {}, "episode_reward_min": -689.3911130221468, "timesteps_since_restore": 1255200, "num_metric_batches_dropped": 0, "time_since_restore": 32109.519632339478, "episode_reward_max": -471.99798381529996, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1255200, "default": {"kl": 0.010470341891050339, "policy_loss": -0.12108471989631653, "vf_loss": 127.29329681396484, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9854704737663269, "entropy": 6.670491695404053, "cur_lr": 4.999999873689376e-05, "total_loss": 127.1881103515625}, "load_time_ms": 0.673, "num_steps_sampled": 1255200, "grad_time_ms": 704.281, "update_time_ms": 2.395, "sample_time_ms": 30062.822}, "date": "2025-08-31_01-05-50", "hostname": "cda-server-4", "time_this_iter_s": 32.648131370544434, "episodes_total": 6276, "timestamp": 1756595150, "node_ip": "10.157.146.4", "done": false, "time_total_s": 32109.519632339478, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1047, "episode_reward_mean": -612.6887986846357, "training_iteration": 1047, "timesteps_total": 1256400, "policy_reward_mean": {}, "episode_reward_min": -795.2166613321065, "timesteps_since_restore": 1256400, "num_metric_batches_dropped": 0, "time_since_restore": 32140.778073072433, "episode_reward_max": -471.99798381529996, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1256400, "default": {"kl": 0.010981575585901737, "policy_loss": -0.14766094088554382, "vf_loss": 576.1209716796875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9576810002326965, "entropy": 7.310792922973633, "cur_lr": 4.999999873689376e-05, "total_loss": 575.989990234375}, "load_time_ms": 0.68, "num_steps_sampled": 1256400, "grad_time_ms": 697.845, "update_time_ms": 2.41, "sample_time_ms": 30205.779}, "date": "2025-08-31_01-06-22", "hostname": "cda-server-4", "time_this_iter_s": 31.258440732955933, "episodes_total": 6282, "timestamp": 1756595182, "node_ip": "10.157.146.4", "done": false, "time_total_s": 32140.778073072433, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1048, "episode_reward_mean": -611.7919488623162, "training_iteration": 1048, "timesteps_total": 1257600, "policy_reward_mean": {}, "episode_reward_min": -795.2166613321065, "timesteps_since_restore": 1257600, "num_metric_batches_dropped": 0, "time_since_restore": 32173.459202051163, "episode_reward_max": -471.99798381529996, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1257600, "default": {"kl": 0.010020343586802483, "policy_loss": -0.11745011806488037, "vf_loss": 146.11129760742188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.980055570602417, "entropy": 7.235422611236572, "cur_lr": 4.999999873689376e-05, "total_loss": 146.0090789794922}, "load_time_ms": 0.677, "num_steps_sampled": 1257600, "grad_time_ms": 693.151, "update_time_ms": 2.372, "sample_time_ms": 30318.239}, "date": "2025-08-31_01-06-54", "hostname": "cda-server-4", "time_this_iter_s": 32.68112897872925, "episodes_total": 6288, "timestamp": 1756595214, "node_ip": "10.157.146.4", "done": false, "time_total_s": 32173.459202051163, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1049, "episode_reward_mean": -612.8600700017719, "training_iteration": 1049, "timesteps_total": 1258800, "policy_reward_mean": {}, "episode_reward_min": -795.2166613321065, "timesteps_since_restore": 1258800, "num_metric_batches_dropped": 0, "time_since_restore": 32201.588269233704, "episode_reward_max": -471.99798381529996, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1258800, "default": {"kl": 0.007308985572308302, "policy_loss": -0.10240568220615387, "vf_loss": 548.677490234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.954565703868866, "entropy": 7.130929946899414, "cur_lr": 4.999999873689376e-05, "total_loss": 548.5862426757812}, "load_time_ms": 0.644, "num_steps_sampled": 1258800, "grad_time_ms": 683.155, "update_time_ms": 2.37, "sample_time_ms": 29903.299}, "date": "2025-08-31_01-07-22", "hostname": "cda-server-4", "time_this_iter_s": 28.129067182540894, "episodes_total": 6294, "timestamp": 1756595242, "node_ip": "10.157.146.4", "done": false, "time_total_s": 32201.588269233704, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1050, "episode_reward_mean": -613.7816004582567, "training_iteration": 1050, "timesteps_total": 1260000, "policy_reward_mean": {}, "episode_reward_min": -795.2166613321065, "timesteps_since_restore": 1260000, "num_metric_batches_dropped": 0, "time_since_restore": 32233.862272024155, "episode_reward_max": -471.99798381529996, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1260000, "default": {"kl": 0.009236347861588001, "policy_loss": -0.10603722929954529, "vf_loss": 194.31781005859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9818307161331177, "entropy": 7.128374099731445, "cur_lr": 4.999999873689376e-05, "total_loss": 194.2257843017578}, "load_time_ms": 0.643, "num_steps_sampled": 1260000, "grad_time_ms": 688.7, "update_time_ms": 2.34, "sample_time_ms": 30136.491}, "date": "2025-08-31_01-07-55", "hostname": "cda-server-4", "time_this_iter_s": 32.27400279045105, "episodes_total": 6300, "timestamp": 1756595275, "node_ip": "10.157.146.4", "done": false, "time_total_s": 32233.862272024155, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1051, "episode_reward_mean": -615.4658765499813, "training_iteration": 1051, "timesteps_total": 1261200, "policy_reward_mean": {}, "episode_reward_min": -795.2166613321065, "timesteps_since_restore": 1261200, "num_metric_batches_dropped": 0, "time_since_restore": 32267.472019195557, "episode_reward_max": -471.99798381529996, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1261200, "default": {"kl": 0.009680250659584999, "policy_loss": -0.13719238340854645, "vf_loss": 212.9993438720703, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9687343239784241, "entropy": 7.4209723472595215, "cur_lr": 4.999999873689376e-05, "total_loss": 212.87686157226562}, "load_time_ms": 0.65, "num_steps_sampled": 1261200, "grad_time_ms": 694.867, "update_time_ms": 2.247, "sample_time_ms": 30367.634}, "date": "2025-08-31_01-08-28", "hostname": "cda-server-4", "time_this_iter_s": 33.60974717140198, "episodes_total": 6306, "timestamp": 1756595308, "node_ip": "10.157.146.4", "done": false, "time_total_s": 32267.472019195557, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1052, "episode_reward_mean": -615.8325152703289, "training_iteration": 1052, "timesteps_total": 1262400, "policy_reward_mean": {}, "episode_reward_min": -795.2166613321065, "timesteps_since_restore": 1262400, "num_metric_batches_dropped": 0, "time_since_restore": 32299.374597787857, "episode_reward_max": -471.99798381529996, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1262400, "default": {"kl": 0.013368485495448112, "policy_loss": -0.16595228016376495, "vf_loss": 313.2471618652344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9853922724723816, "entropy": 6.995584487915039, "cur_lr": 4.999999873689376e-05, "total_loss": 313.1014709472656}, "load_time_ms": 0.647, "num_steps_sampled": 1262400, "grad_time_ms": 695.975, "update_time_ms": 2.251, "sample_time_ms": 30733.779}, "date": "2025-08-31_01-09-00", "hostname": "cda-server-4", "time_this_iter_s": 31.902578592300415, "episodes_total": 6312, "timestamp": 1756595340, "node_ip": "10.157.146.4", "done": false, "time_total_s": 32299.374597787857, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1053, "episode_reward_mean": -614.999656677694, "training_iteration": 1053, "timesteps_total": 1263600, "policy_reward_mean": {}, "episode_reward_min": -795.2166613321065, "timesteps_since_restore": 1263600, "num_metric_batches_dropped": 0, "time_since_restore": 32331.257249355316, "episode_reward_max": -471.99798381529996, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1263600, "default": {"kl": 0.010432731360197067, "policy_loss": -0.13741742074489594, "vf_loss": 73.06466674804688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9904837012290955, "entropy": 6.962738990783691, "cur_lr": 4.999999873689376e-05, "total_loss": 72.94309997558594}, "load_time_ms": 0.615, "num_steps_sampled": 1263600, "grad_time_ms": 692.165, "update_time_ms": 2.275, "sample_time_ms": 30727.43}, "date": "2025-08-31_01-09-32", "hostname": "cda-server-4", "time_this_iter_s": 31.882651567459106, "episodes_total": 6318, "timestamp": 1756595372, "node_ip": "10.157.146.4", "done": false, "time_total_s": 32331.257249355316, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1054, "episode_reward_mean": -614.0542948899335, "training_iteration": 1054, "timesteps_total": 1264800, "policy_reward_mean": {}, "episode_reward_min": -795.2166613321065, "timesteps_since_restore": 1264800, "num_metric_batches_dropped": 0, "time_since_restore": 32363.55260872841, "episode_reward_max": -471.99798381529996, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1264800, "default": {"kl": 0.012072332203388214, "policy_loss": -0.140092670917511, "vf_loss": 87.64349365234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9895797371864319, "entropy": 6.834365367889404, "cur_lr": 4.999999873689376e-05, "total_loss": 87.521728515625}, "load_time_ms": 0.618, "num_steps_sampled": 1264800, "grad_time_ms": 686.116, "update_time_ms": 2.278, "sample_time_ms": 30811.841}, "date": "2025-08-31_01-10-05", "hostname": "cda-server-4", "time_this_iter_s": 32.29535937309265, "episodes_total": 6324, "timestamp": 1756595405, "node_ip": "10.157.146.4", "done": false, "time_total_s": 32363.55260872841, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1055, "episode_reward_mean": -613.0295321782769, "training_iteration": 1055, "timesteps_total": 1266000, "policy_reward_mean": {}, "episode_reward_min": -795.2166613321065, "timesteps_since_restore": 1266000, "num_metric_batches_dropped": 0, "time_since_restore": 32394.62371468544, "episode_reward_max": -471.99798381529996, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1266000, "default": {"kl": 0.009822634980082512, "policy_loss": -0.13098526000976562, "vf_loss": 763.858642578125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9463686347007751, "entropy": 6.744482040405273, "cur_lr": 4.999999873689376e-05, "total_loss": 763.7426147460938}, "load_time_ms": 0.619, "num_steps_sampled": 1266000, "grad_time_ms": 682.688, "update_time_ms": 2.251, "sample_time_ms": 31085.694}, "date": "2025-08-31_01-10-36", "hostname": "cda-server-4", "time_this_iter_s": 31.07110595703125, "episodes_total": 6330, "timestamp": 1756595436, "node_ip": "10.157.146.4", "done": false, "time_total_s": 32394.62371468544, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1056, "episode_reward_mean": -615.0922039927616, "training_iteration": 1056, "timesteps_total": 1267200, "policy_reward_mean": {}, "episode_reward_min": -795.2166613321065, "timesteps_since_restore": 1267200, "num_metric_batches_dropped": 0, "time_since_restore": 32423.786543130875, "episode_reward_max": -471.99798381529996, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1267200, "default": {"kl": 0.011087953113019466, "policy_loss": -0.1265648603439331, "vf_loss": 273.2079162597656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9704892635345459, "entropy": 7.02569580078125, "cur_lr": 4.999999873689376e-05, "total_loss": 273.0982360839844}, "load_time_ms": 0.618, "num_steps_sampled": 1267200, "grad_time_ms": 673.59, "update_time_ms": 2.266, "sample_time_ms": 30746.248}, "date": "2025-08-31_01-11-05", "hostname": "cda-server-4", "time_this_iter_s": 29.16282844543457, "episodes_total": 6336, "timestamp": 1756595465, "node_ip": "10.157.146.4", "done": false, "time_total_s": 32423.786543130875, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1057, "episode_reward_mean": -616.1935457375697, "training_iteration": 1057, "timesteps_total": 1268400, "policy_reward_mean": {}, "episode_reward_min": -795.2166613321065, "timesteps_since_restore": 1268400, "num_metric_batches_dropped": 0, "time_since_restore": 32454.95839738846, "episode_reward_max": -471.99798381529996, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1268400, "default": {"kl": 0.010623347014188766, "policy_loss": -0.13038010895252228, "vf_loss": 643.7394409179688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9365580677986145, "entropy": 6.813505172729492, "cur_lr": 4.999999873689376e-05, "total_loss": 643.625244140625}, "load_time_ms": 0.61, "num_steps_sampled": 1268400, "grad_time_ms": 654.509, "update_time_ms": 2.21, "sample_time_ms": 30756.716}, "date": "2025-08-31_01-11-36", "hostname": "cda-server-4", "time_this_iter_s": 31.171854257583618, "episodes_total": 6342, "timestamp": 1756595496, "node_ip": "10.157.146.4", "done": false, "time_total_s": 32454.95839738846, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1058, "episode_reward_mean": -616.3949711155697, "training_iteration": 1058, "timesteps_total": 1269600, "policy_reward_mean": {}, "episode_reward_min": -795.2166613321065, "timesteps_since_restore": 1269600, "num_metric_batches_dropped": 0, "time_since_restore": 32487.8762717247, "episode_reward_max": -471.99798381529996, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1269600, "default": {"kl": 0.011479225009679794, "policy_loss": -0.13205736875534058, "vf_loss": 54.30984878540039, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9914955496788025, "entropy": 6.571225166320801, "cur_lr": 4.999999873689376e-05, "total_loss": 54.19522476196289}, "load_time_ms": 0.601, "num_steps_sampled": 1269600, "grad_time_ms": 635.206, "update_time_ms": 2.23, "sample_time_ms": 30799.742}, "date": "2025-08-31_01-12-09", "hostname": "cda-server-4", "time_this_iter_s": 32.917874336242676, "episodes_total": 6348, "timestamp": 1756595529, "node_ip": "10.157.146.4", "done": false, "time_total_s": 32487.8762717247, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1059, "episode_reward_mean": -615.2213719354553, "training_iteration": 1059, "timesteps_total": 1270800, "policy_reward_mean": {}, "episode_reward_min": -795.2166613321065, "timesteps_since_restore": 1270800, "num_metric_batches_dropped": 0, "time_since_restore": 32518.5942466259, "episode_reward_max": -471.99798381529996, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1270800, "default": {"kl": 0.010286173783242702, "policy_loss": -0.12052391469478607, "vf_loss": 397.23699951171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9424915313720703, "entropy": 7.013757705688477, "cur_lr": 4.999999873689376e-05, "total_loss": 397.1321105957031}, "load_time_ms": 0.593, "num_steps_sampled": 1270800, "grad_time_ms": 616.255, "update_time_ms": 2.199, "sample_time_ms": 31077.655}, "date": "2025-08-31_01-12-40", "hostname": "cda-server-4", "time_this_iter_s": 30.71797490119934, "episodes_total": 6354, "timestamp": 1756595560, "node_ip": "10.157.146.4", "done": false, "time_total_s": 32518.5942466259, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1060, "episode_reward_mean": -616.097694725995, "training_iteration": 1060, "timesteps_total": 1272000, "policy_reward_mean": {}, "episode_reward_min": -795.2166613321065, "timesteps_since_restore": 1272000, "num_metric_batches_dropped": 0, "time_since_restore": 32549.149678707123, "episode_reward_max": -471.99798381529996, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1272000, "default": {"kl": 0.010980535298585892, "policy_loss": -0.13714773952960968, "vf_loss": 452.5550842285156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9478546977043152, "entropy": 7.135615825653076, "cur_lr": 4.999999873689376e-05, "total_loss": 452.4346618652344}, "load_time_ms": 0.585, "num_steps_sampled": 1272000, "grad_time_ms": 590.848, "update_time_ms": 2.228, "sample_time_ms": 30931.216}, "date": "2025-08-31_01-13-10", "hostname": "cda-server-4", "time_this_iter_s": 30.555432081222534, "episodes_total": 6360, "timestamp": 1756595590, "node_ip": "10.157.146.4", "done": false, "time_total_s": 32549.149678707123, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1061, "episode_reward_mean": -617.4100669102139, "training_iteration": 1061, "timesteps_total": 1273200, "policy_reward_mean": {}, "episode_reward_min": -795.2166613321065, "timesteps_since_restore": 1273200, "num_metric_batches_dropped": 0, "time_since_restore": 32580.345144033432, "episode_reward_max": -480.4177787791791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1273200, "default": {"kl": 0.010435810312628746, "policy_loss": -0.1275000423192978, "vf_loss": 79.494384765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9887517094612122, "entropy": 6.564307689666748, "cur_lr": 4.999999873689376e-05, "total_loss": 79.38272857666016}, "load_time_ms": 0.587, "num_steps_sampled": 1273200, "grad_time_ms": 572.792, "update_time_ms": 2.194, "sample_time_ms": 30707.921}, "date": "2025-08-31_01-13-41", "hostname": "cda-server-4", "time_this_iter_s": 31.195465326309204, "episodes_total": 6366, "timestamp": 1756595621, "node_ip": "10.157.146.4", "done": false, "time_total_s": 32580.345144033432, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1062, "episode_reward_mean": -616.5558656084709, "training_iteration": 1062, "timesteps_total": 1274400, "policy_reward_mean": {}, "episode_reward_min": -795.2166613321065, "timesteps_since_restore": 1274400, "num_metric_batches_dropped": 0, "time_since_restore": 32611.487774848938, "episode_reward_max": -480.4177787791791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1274400, "default": {"kl": 0.009879284538328648, "policy_loss": -0.12492404878139496, "vf_loss": 450.1199951171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9373486638069153, "entropy": 7.100813865661621, "cur_lr": 4.999999873689376e-05, "total_loss": 450.01007080078125}, "load_time_ms": 0.58, "num_steps_sampled": 1274400, "grad_time_ms": 571.019, "update_time_ms": 2.139, "sample_time_ms": 30633.723}, "date": "2025-08-31_01-14-13", "hostname": "cda-server-4", "time_this_iter_s": 31.14263081550598, "episodes_total": 6372, "timestamp": 1756595653, "node_ip": "10.157.146.4", "done": false, "time_total_s": 32611.487774848938, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1063, "episode_reward_mean": -615.5909388768451, "training_iteration": 1063, "timesteps_total": 1275600, "policy_reward_mean": {}, "episode_reward_min": -680.7370241301865, "timesteps_since_restore": 1275600, "num_metric_batches_dropped": 0, "time_since_restore": 32645.136798381805, "episode_reward_max": -480.4177787791791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1275600, "default": {"kl": 0.01063038595020771, "policy_loss": -0.13092511892318726, "vf_loss": 405.6360778808594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9633646011352539, "entropy": 7.211420059204102, "cur_lr": 4.999999873689376e-05, "total_loss": 405.5212707519531}, "load_time_ms": 0.584, "num_steps_sampled": 1275600, "grad_time_ms": 562.992, "update_time_ms": 2.133, "sample_time_ms": 30818.429}, "date": "2025-08-31_01-14-46", "hostname": "cda-server-4", "time_this_iter_s": 33.64902353286743, "episodes_total": 6378, "timestamp": 1756595686, "node_ip": "10.157.146.4", "done": false, "time_total_s": 32645.136798381805, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1064, "episode_reward_mean": -615.7765643238185, "training_iteration": 1064, "timesteps_total": 1276800, "policy_reward_mean": {}, "episode_reward_min": -680.7370241301865, "timesteps_since_restore": 1276800, "num_metric_batches_dropped": 0, "time_since_restore": 32675.861453294754, "episode_reward_max": -480.4177787791791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1276800, "default": {"kl": 0.010833960957825184, "policy_loss": -0.1214342936873436, "vf_loss": 174.51922607421875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9786596298217773, "entropy": 6.836457252502441, "cur_lr": 4.999999873689376e-05, "total_loss": 174.4142303466797}, "load_time_ms": 0.582, "num_steps_sampled": 1276800, "grad_time_ms": 555.095, "update_time_ms": 2.143, "sample_time_ms": 30669.274}, "date": "2025-08-31_01-15-17", "hostname": "cda-server-4", "time_this_iter_s": 30.72465491294861, "episodes_total": 6384, "timestamp": 1756595717, "node_ip": "10.157.146.4", "done": false, "time_total_s": 32675.861453294754, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1065, "episode_reward_mean": -615.9893180542651, "training_iteration": 1065, "timesteps_total": 1278000, "policy_reward_mean": {}, "episode_reward_min": -680.7370241301865, "timesteps_since_restore": 1278000, "num_metric_batches_dropped": 0, "time_since_restore": 32704.905270576477, "episode_reward_max": -480.4177787791791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1278000, "default": {"kl": 0.01110304705798626, "policy_loss": -0.11902648955583572, "vf_loss": 51.12295913696289, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9926738739013672, "entropy": 6.965353488922119, "cur_lr": 4.999999873689376e-05, "total_loss": 51.02079772949219}, "load_time_ms": 0.584, "num_steps_sampled": 1278000, "grad_time_ms": 559.903, "update_time_ms": 2.113, "sample_time_ms": 30461.756}, "date": "2025-08-31_01-15-46", "hostname": "cda-server-4", "time_this_iter_s": 29.043817281723022, "episodes_total": 6390, "timestamp": 1756595746, "node_ip": "10.157.146.4", "done": false, "time_total_s": 32704.905270576477, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1066, "episode_reward_mean": -615.4439628648695, "training_iteration": 1066, "timesteps_total": 1279200, "policy_reward_mean": {}, "episode_reward_min": -680.7370241301865, "timesteps_since_restore": 1279200, "num_metric_batches_dropped": 0, "time_since_restore": 32738.832031726837, "episode_reward_max": -480.4177787791791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1279200, "default": {"kl": 0.009170221164822578, "policy_loss": -0.12332916259765625, "vf_loss": 243.22067260742188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9694446921348572, "entropy": 6.823151111602783, "cur_lr": 4.999999873689376e-05, "total_loss": 243.11126708984375}, "load_time_ms": 0.616, "num_steps_sampled": 1279200, "grad_time_ms": 562.519, "update_time_ms": 2.076, "sample_time_ms": 30935.517}, "date": "2025-08-31_01-16-20", "hostname": "cda-server-4", "time_this_iter_s": 33.92676115036011, "episodes_total": 6396, "timestamp": 1756595780, "node_ip": "10.157.146.4", "done": false, "time_total_s": 32738.832031726837, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1067, "episode_reward_mean": -616.0275776108482, "training_iteration": 1067, "timesteps_total": 1280400, "policy_reward_mean": {}, "episode_reward_min": -680.7370241301865, "timesteps_since_restore": 1280400, "num_metric_batches_dropped": 0, "time_since_restore": 32769.516211271286, "episode_reward_max": -480.4177787791791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1280400, "default": {"kl": 0.009128078818321228, "policy_loss": -0.1258137822151184, "vf_loss": 503.9349060058594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9331865310668945, "entropy": 6.94373893737793, "cur_lr": 4.999999873689376e-05, "total_loss": 503.8229064941406}, "load_time_ms": 0.617, "num_steps_sampled": 1280400, "grad_time_ms": 561.623, "update_time_ms": 2.145, "sample_time_ms": 30887.586}, "date": "2025-08-31_01-16-51", "hostname": "cda-server-4", "time_this_iter_s": 30.684179544448853, "episodes_total": 6402, "timestamp": 1756595811, "node_ip": "10.157.146.4", "done": false, "time_total_s": 32769.516211271286, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1068, "episode_reward_mean": -616.2221490562824, "training_iteration": 1068, "timesteps_total": 1281600, "policy_reward_mean": {}, "episode_reward_min": -680.7370241301865, "timesteps_since_restore": 1281600, "num_metric_batches_dropped": 0, "time_since_restore": 32802.13826584816, "episode_reward_max": -480.4177787791791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1281600, "default": {"kl": 0.00922329444438219, "policy_loss": -0.13194067776203156, "vf_loss": 436.9713439941406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9407424926757812, "entropy": 7.171703815460205, "cur_lr": 4.999999873689376e-05, "total_loss": 436.8533935546875}, "load_time_ms": 0.653, "num_steps_sampled": 1281600, "grad_time_ms": 560.137, "update_time_ms": 2.224, "sample_time_ms": 30859.326}, "date": "2025-08-31_01-17-23", "hostname": "cda-server-4", "time_this_iter_s": 32.62205457687378, "episodes_total": 6408, "timestamp": 1756595843, "node_ip": "10.157.146.4", "done": false, "time_total_s": 32802.13826584816, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1069, "episode_reward_mean": -616.8436942341526, "training_iteration": 1069, "timesteps_total": 1282800, "policy_reward_mean": {}, "episode_reward_min": -680.6410383481847, "timesteps_since_restore": 1282800, "num_metric_batches_dropped": 0, "time_since_restore": 32831.62533378601, "episode_reward_max": -480.4177787791791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1282800, "default": {"kl": 0.011219476349651814, "policy_loss": -0.1328636258840561, "vf_loss": 149.24310302734375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9874797463417053, "entropy": 6.840340614318848, "cur_lr": 4.999999873689376e-05, "total_loss": 149.12728881835938}, "load_time_ms": 0.663, "num_steps_sampled": 1282800, "grad_time_ms": 561.811, "update_time_ms": 2.259, "sample_time_ms": 30734.426}, "date": "2025-08-31_01-17-53", "hostname": "cda-server-4", "time_this_iter_s": 29.487067937850952, "episodes_total": 6414, "timestamp": 1756595873, "node_ip": "10.157.146.4", "done": false, "time_total_s": 32831.62533378601, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1070, "episode_reward_mean": -616.7673367278271, "training_iteration": 1070, "timesteps_total": 1284000, "policy_reward_mean": {}, "episode_reward_min": -680.6410383481847, "timesteps_since_restore": 1284000, "num_metric_batches_dropped": 0, "time_since_restore": 32863.61049699783, "episode_reward_max": -480.4177787791791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1284000, "default": {"kl": 0.009400433860719204, "policy_loss": -0.10988262295722961, "vf_loss": 252.6779022216797, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.975261390209198, "entropy": 6.870731830596924, "cur_lr": 4.999999873689376e-05, "total_loss": 252.582275390625}, "load_time_ms": 0.664, "num_steps_sampled": 1284000, "grad_time_ms": 583.583, "update_time_ms": 2.213, "sample_time_ms": 30855.613}, "date": "2025-08-31_01-18-25", "hostname": "cda-server-4", "time_this_iter_s": 31.98516321182251, "episodes_total": 6420, "timestamp": 1756595905, "node_ip": "10.157.146.4", "done": false, "time_total_s": 32863.61049699783, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1071, "episode_reward_mean": -618.953125198675, "training_iteration": 1071, "timesteps_total": 1285200, "policy_reward_mean": {}, "episode_reward_min": -680.6410383481847, "timesteps_since_restore": 1285200, "num_metric_batches_dropped": 0, "time_since_restore": 32894.9948618412, "episode_reward_max": -576.5642895225193, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1285200, "default": {"kl": 0.0090884268283844, "policy_loss": -0.1362542361021042, "vf_loss": 75.67914581298828, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9898673295974731, "entropy": 6.901924133300781, "cur_lr": 4.999999873689376e-05, "total_loss": 75.55669403076172}, "load_time_ms": 0.663, "num_steps_sampled": 1285200, "grad_time_ms": 604.909, "update_time_ms": 2.28, "sample_time_ms": 30853.086}, "date": "2025-08-31_01-18-56", "hostname": "cda-server-4", "time_this_iter_s": 31.38436484336853, "episodes_total": 6426, "timestamp": 1756595936, "node_ip": "10.157.146.4", "done": false, "time_total_s": 32894.9948618412, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1072, "episode_reward_mean": -619.8848643892834, "training_iteration": 1072, "timesteps_total": 1286400, "policy_reward_mean": {}, "episode_reward_min": -680.6410383481847, "timesteps_since_restore": 1286400, "num_metric_batches_dropped": 0, "time_since_restore": 32925.5395359993, "episode_reward_max": -576.5642895225193, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1286400, "default": {"kl": 0.011162570677697659, "policy_loss": -0.14263781905174255, "vf_loss": 96.23330688476562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9931522011756897, "entropy": 6.76301908493042, "cur_lr": 4.999999873689376e-05, "total_loss": 96.10761260986328}, "load_time_ms": 0.697, "num_steps_sampled": 1286400, "grad_time_ms": 613.661, "update_time_ms": 2.333, "sample_time_ms": 30784.432}, "date": "2025-08-31_01-19-27", "hostname": "cda-server-4", "time_this_iter_s": 30.544674158096313, "episodes_total": 6432, "timestamp": 1756595967, "node_ip": "10.157.146.4", "done": false, "time_total_s": 32925.5395359993, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1073, "episode_reward_mean": -620.9587396393086, "training_iteration": 1073, "timesteps_total": 1287600, "policy_reward_mean": {}, "episode_reward_min": -680.6410383481847, "timesteps_since_restore": 1287600, "num_metric_batches_dropped": 0, "time_since_restore": 32957.66036057472, "episode_reward_max": -576.5642895225193, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1287600, "default": {"kl": 0.010051514953374863, "policy_loss": -0.13157054781913757, "vf_loss": 512.5034790039062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9378021955490112, "entropy": 7.244687557220459, "cur_lr": 4.999999873689376e-05, "total_loss": 512.3871459960938}, "load_time_ms": 0.692, "num_steps_sampled": 1287600, "grad_time_ms": 627.45, "update_time_ms": 2.339, "sample_time_ms": 30617.78}, "date": "2025-08-31_01-19-59", "hostname": "cda-server-4", "time_this_iter_s": 32.120824575424194, "episodes_total": 6438, "timestamp": 1756595999, "node_ip": "10.157.146.4", "done": false, "time_total_s": 32957.66036057472, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1074, "episode_reward_mean": -620.1331646803061, "training_iteration": 1074, "timesteps_total": 1288800, "policy_reward_mean": {}, "episode_reward_min": -680.3777063694968, "timesteps_since_restore": 1288800, "num_metric_batches_dropped": 0, "time_since_restore": 32990.00157260895, "episode_reward_max": -576.5642895225193, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1288800, "default": {"kl": 0.011585461907088757, "policy_loss": -0.14899718761444092, "vf_loss": 248.58018493652344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9793050289154053, "entropy": 6.6891021728515625, "cur_lr": 4.999999873689376e-05, "total_loss": 248.44879150390625}, "load_time_ms": 0.694, "num_steps_sampled": 1288800, "grad_time_ms": 641.651, "update_time_ms": 2.316, "sample_time_ms": 30765.249}, "date": "2025-08-31_01-20-31", "hostname": "cda-server-4", "time_this_iter_s": 32.341212034225464, "episodes_total": 6444, "timestamp": 1756596031, "node_ip": "10.157.146.4", "done": false, "time_total_s": 32990.00157260895, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1075, "episode_reward_mean": -620.8556386929936, "training_iteration": 1075, "timesteps_total": 1290000, "policy_reward_mean": {}, "episode_reward_min": -680.3777063694968, "timesteps_since_restore": 1290000, "num_metric_batches_dropped": 0, "time_since_restore": 33020.776151418686, "episode_reward_max": -576.5642895225193, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1290000, "default": {"kl": 0.010759172961115837, "policy_loss": -0.1327405571937561, "vf_loss": 363.3708801269531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9624699354171753, "entropy": 6.913599967956543, "cur_lr": 4.999999873689376e-05, "total_loss": 363.2545166015625}, "load_time_ms": 0.686, "num_steps_sampled": 1290000, "grad_time_ms": 645.764, "update_time_ms": 2.389, "sample_time_ms": 30934.178}, "date": "2025-08-31_01-21-02", "hostname": "cda-server-4", "time_this_iter_s": 30.77457880973816, "episodes_total": 6450, "timestamp": 1756596062, "node_ip": "10.157.146.4", "done": false, "time_total_s": 33020.776151418686, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1076, "episode_reward_mean": -620.4078584292654, "training_iteration": 1076, "timesteps_total": 1291200, "policy_reward_mean": {}, "episode_reward_min": -680.3777063694968, "timesteps_since_restore": 1291200, "num_metric_batches_dropped": 0, "time_since_restore": 33049.93032360077, "episode_reward_max": -569.4402808937202, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1291200, "default": {"kl": 0.010787052102386951, "policy_loss": -0.12848897278308868, "vf_loss": 255.87716674804688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9785010814666748, "entropy": 6.6741485595703125, "cur_lr": 4.999999873689376e-05, "total_loss": 255.76502990722656}, "load_time_ms": 0.658, "num_steps_sampled": 1291200, "grad_time_ms": 657.66, "update_time_ms": 2.427, "sample_time_ms": 30445.031}, "date": "2025-08-31_01-21-31", "hostname": "cda-server-4", "time_this_iter_s": 29.15417218208313, "episodes_total": 6456, "timestamp": 1756596091, "node_ip": "10.157.146.4", "done": false, "time_total_s": 33049.93032360077, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1077, "episode_reward_mean": -619.1145744029594, "training_iteration": 1077, "timesteps_total": 1292400, "policy_reward_mean": {}, "episode_reward_min": -680.3777063694968, "timesteps_since_restore": 1292400, "num_metric_batches_dropped": 0, "time_since_restore": 33081.51006793976, "episode_reward_max": -569.4402808937202, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1292400, "default": {"kl": 0.009777690283954144, "policy_loss": -0.11859651654958725, "vf_loss": 125.16768646240234, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9861826300621033, "entropy": 6.8018574714660645, "cur_lr": 4.999999873689376e-05, "total_loss": 125.06393432617188}, "load_time_ms": 0.666, "num_steps_sampled": 1292400, "grad_time_ms": 686.45, "update_time_ms": 2.387, "sample_time_ms": 30505.81}, "date": "2025-08-31_01-22-03", "hostname": "cda-server-4", "time_this_iter_s": 31.579744338989258, "episodes_total": 6462, "timestamp": 1756596123, "node_ip": "10.157.146.4", "done": false, "time_total_s": 33081.51006793976, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1078, "episode_reward_mean": -620.018746110155, "training_iteration": 1078, "timesteps_total": 1293600, "policy_reward_mean": {}, "episode_reward_min": -680.3777063694968, "timesteps_since_restore": 1293600, "num_metric_batches_dropped": 0, "time_since_restore": 33112.500148296356, "episode_reward_max": -569.4402808937202, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1293600, "default": {"kl": 0.010355653241276741, "policy_loss": -0.1333308070898056, "vf_loss": 343.2093200683594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9649937152862549, "entropy": 6.841892242431641, "cur_lr": 4.999999873689376e-05, "total_loss": 343.0916748046875}, "load_time_ms": 0.636, "num_steps_sampled": 1293600, "grad_time_ms": 699.913, "update_time_ms": 2.432, "sample_time_ms": 30329.159}, "date": "2025-08-31_01-22-34", "hostname": "cda-server-4", "time_this_iter_s": 30.9900803565979, "episodes_total": 6468, "timestamp": 1756596154, "node_ip": "10.157.146.4", "done": false, "time_total_s": 33112.500148296356, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1079, "episode_reward_mean": -620.1284684754195, "training_iteration": 1079, "timesteps_total": 1294800, "policy_reward_mean": {}, "episode_reward_min": -680.3777063694968, "timesteps_since_restore": 1294800, "num_metric_batches_dropped": 0, "time_since_restore": 33142.10560321808, "episode_reward_max": -569.4402808937202, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1294800, "default": {"kl": 0.011313870549201965, "policy_loss": -0.13356062769889832, "vf_loss": 83.99958038330078, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9865971803665161, "entropy": 6.644640922546387, "cur_lr": 4.999999873689376e-05, "total_loss": 83.88319396972656}, "load_time_ms": 0.63, "num_steps_sampled": 1294800, "grad_time_ms": 711.185, "update_time_ms": 2.41, "sample_time_ms": 30329.792}, "date": "2025-08-31_01-23-03", "hostname": "cda-server-4", "time_this_iter_s": 29.605454921722412, "episodes_total": 6474, "timestamp": 1756596183, "node_ip": "10.157.146.4", "done": false, "time_total_s": 33142.10560321808, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1080, "episode_reward_mean": -620.4680083938129, "training_iteration": 1080, "timesteps_total": 1296000, "policy_reward_mean": {}, "episode_reward_min": -680.3777063694968, "timesteps_since_restore": 1296000, "num_metric_batches_dropped": 0, "time_since_restore": 33174.74926614761, "episode_reward_max": -569.4402808937202, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1296000, "default": {"kl": 0.01123395562171936, "policy_loss": -0.13337403535842896, "vf_loss": 237.54953002929688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9742100238800049, "entropy": 6.776908874511719, "cur_lr": 4.999999873689376e-05, "total_loss": 237.43321228027344}, "load_time_ms": 0.666, "num_steps_sampled": 1296000, "grad_time_ms": 706.043, "update_time_ms": 2.405, "sample_time_ms": 30400.76}, "date": "2025-08-31_01-23-36", "hostname": "cda-server-4", "time_this_iter_s": 32.64366292953491, "episodes_total": 6480, "timestamp": 1756596216, "node_ip": "10.157.146.4", "done": false, "time_total_s": 33174.74926614761, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1081, "episode_reward_mean": -619.556972586931, "training_iteration": 1081, "timesteps_total": 1297200, "policy_reward_mean": {}, "episode_reward_min": -680.3777063694968, "timesteps_since_restore": 1297200, "num_metric_batches_dropped": 0, "time_since_restore": 33205.18607354164, "episode_reward_max": -569.4402808937202, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1297200, "default": {"kl": 0.010512142442166805, "policy_loss": -0.13275277614593506, "vf_loss": 388.56231689453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9674546718597412, "entropy": 6.750830173492432, "cur_lr": 4.999999873689376e-05, "total_loss": 388.445556640625}, "load_time_ms": 0.68, "num_steps_sampled": 1297200, "grad_time_ms": 676.769, "update_time_ms": 2.34, "sample_time_ms": 30335.322}, "date": "2025-08-31_01-24-07", "hostname": "cda-server-4", "time_this_iter_s": 30.43680739402771, "episodes_total": 6486, "timestamp": 1756596247, "node_ip": "10.157.146.4", "done": false, "time_total_s": 33205.18607354164, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1082, "episode_reward_mean": -619.9685484536085, "training_iteration": 1082, "timesteps_total": 1298400, "policy_reward_mean": {}, "episode_reward_min": -680.3777063694968, "timesteps_since_restore": 1298400, "num_metric_batches_dropped": 0, "time_since_restore": 33235.69197535515, "episode_reward_max": -569.4402808937202, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1298400, "default": {"kl": 0.0110378572717309, "policy_loss": -0.13341794908046722, "vf_loss": 110.86463165283203, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9917225241661072, "entropy": 6.595364570617676, "cur_lr": 4.999999873689376e-05, "total_loss": 110.74797821044922}, "load_time_ms": 0.669, "num_steps_sampled": 1298400, "grad_time_ms": 669.275, "update_time_ms": 2.313, "sample_time_ms": 30339.048}, "date": "2025-08-31_01-24-37", "hostname": "cda-server-4", "time_this_iter_s": 30.50590181350708, "episodes_total": 6492, "timestamp": 1756596277, "node_ip": "10.157.146.4", "done": false, "time_total_s": 33235.69197535515, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1083, "episode_reward_mean": -618.703524394059, "training_iteration": 1083, "timesteps_total": 1299600, "policy_reward_mean": {}, "episode_reward_min": -680.3777063694968, "timesteps_since_restore": 1299600, "num_metric_batches_dropped": 0, "time_since_restore": 33263.128647089005, "episode_reward_max": -493.3984957178343, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1299600, "default": {"kl": 0.010720442049205303, "policy_loss": -0.1503356248140335, "vf_loss": 199.10836791992188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9778351187705994, "entropy": 6.901277542114258, "cur_lr": 4.999999873689376e-05, "total_loss": 198.97430419921875}, "load_time_ms": 0.67, "num_steps_sampled": 1299600, "grad_time_ms": 651.957, "update_time_ms": 2.31, "sample_time_ms": 29887.999}, "date": "2025-08-31_01-25-05", "hostname": "cda-server-4", "time_this_iter_s": 27.4366717338562, "episodes_total": 6498, "timestamp": 1756596305, "node_ip": "10.157.146.4", "done": false, "time_total_s": 33263.128647089005, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1084, "episode_reward_mean": -618.2912725439907, "training_iteration": 1084, "timesteps_total": 1300800, "policy_reward_mean": {}, "episode_reward_min": -680.3777063694968, "timesteps_since_restore": 1300800, "num_metric_batches_dropped": 0, "time_since_restore": 33296.391300201416, "episode_reward_max": -493.3984957178343, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1300800, "default": {"kl": 0.011346405372023582, "policy_loss": -0.12957130372524261, "vf_loss": 188.52072143554688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9808580875396729, "entropy": 6.761632919311523, "cur_lr": 4.999999873689376e-05, "total_loss": 188.40838623046875}, "load_time_ms": 0.675, "num_steps_sampled": 1300800, "grad_time_ms": 649.739, "update_time_ms": 2.322, "sample_time_ms": 29982.299}, "date": "2025-08-31_01-25-38", "hostname": "cda-server-4", "time_this_iter_s": 33.2626531124115, "episodes_total": 6504, "timestamp": 1756596338, "node_ip": "10.157.146.4", "done": false, "time_total_s": 33296.391300201416, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1085, "episode_reward_mean": -618.0401972197292, "training_iteration": 1085, "timesteps_total": 1302000, "policy_reward_mean": {}, "episode_reward_min": -676.0118394401314, "timesteps_since_restore": 1302000, "num_metric_batches_dropped": 0, "time_since_restore": 33329.58741879463, "episode_reward_max": -493.3984957178343, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1302000, "default": {"kl": 0.009772931225597858, "policy_loss": -0.1331956684589386, "vf_loss": 258.838623046875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9690093994140625, "entropy": 6.767106533050537, "cur_lr": 4.999999873689376e-05, "total_loss": 258.72027587890625}, "load_time_ms": 0.681, "num_steps_sampled": 1302000, "grad_time_ms": 651.078, "update_time_ms": 2.269, "sample_time_ms": 30223.064}, "date": "2025-08-31_01-26-11", "hostname": "cda-server-4", "time_this_iter_s": 33.19611859321594, "episodes_total": 6510, "timestamp": 1756596371, "node_ip": "10.157.146.4", "done": false, "time_total_s": 33329.58741879463, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1086, "episode_reward_mean": -617.4996401016011, "training_iteration": 1086, "timesteps_total": 1303200, "policy_reward_mean": {}, "episode_reward_min": -676.0118394401314, "timesteps_since_restore": 1303200, "num_metric_batches_dropped": 0, "time_since_restore": 33359.868200302124, "episode_reward_max": -493.3984957178343, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1303200, "default": {"kl": 0.007889865897595882, "policy_loss": -0.11504009366035461, "vf_loss": 291.1443786621094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9648191928863525, "entropy": 6.922488689422607, "cur_lr": 4.999999873689376e-05, "total_loss": 291.0412902832031}, "load_time_ms": 0.685, "num_steps_sampled": 1303200, "grad_time_ms": 655.014, "update_time_ms": 2.24, "sample_time_ms": 30331.802}, "date": "2025-08-31_01-26-41", "hostname": "cda-server-4", "time_this_iter_s": 30.280781507492065, "episodes_total": 6516, "timestamp": 1756596401, "node_ip": "10.157.146.4", "done": false, "time_total_s": 33359.868200302124, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1087, "episode_reward_mean": -617.4978550430257, "training_iteration": 1087, "timesteps_total": 1304400, "policy_reward_mean": {}, "episode_reward_min": -676.0118394401314, "timesteps_since_restore": 1304400, "num_metric_batches_dropped": 0, "time_since_restore": 33389.87094068527, "episode_reward_max": -493.3984957178343, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1304400, "default": {"kl": 0.013502825051546097, "policy_loss": -0.17004480957984924, "vf_loss": 497.1877136230469, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9714121222496033, "entropy": 6.955673694610596, "cur_lr": 4.999999873689376e-05, "total_loss": 497.0382080078125}, "load_time_ms": 0.68, "num_steps_sampled": 1304400, "grad_time_ms": 651.843, "update_time_ms": 2.232, "sample_time_ms": 30177.313}, "date": "2025-08-31_01-27-11", "hostname": "cda-server-4", "time_this_iter_s": 30.002740383148193, "episodes_total": 6522, "timestamp": 1756596431, "node_ip": "10.157.146.4", "done": false, "time_total_s": 33389.87094068527, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1088, "episode_reward_mean": -617.293899313528, "training_iteration": 1088, "timesteps_total": 1305600, "policy_reward_mean": {}, "episode_reward_min": -676.0118394401314, "timesteps_since_restore": 1305600, "num_metric_batches_dropped": 0, "time_since_restore": 33421.61006402969, "episode_reward_max": -493.3984957178343, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1305600, "default": {"kl": 0.012620531022548676, "policy_loss": -0.14366206526756287, "vf_loss": 522.0381469726562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.98222815990448, "entropy": 7.0834059715271, "cur_lr": 4.999999873689376e-05, "total_loss": 521.9136352539062}, "load_time_ms": 0.675, "num_steps_sampled": 1305600, "grad_time_ms": 660.615, "update_time_ms": 2.107, "sample_time_ms": 30243.528}, "date": "2025-08-31_01-27-43", "hostname": "cda-server-4", "time_this_iter_s": 31.739123344421387, "episodes_total": 6528, "timestamp": 1756596463, "node_ip": "10.157.146.4", "done": false, "time_total_s": 33421.61006402969, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1089, "episode_reward_mean": -616.0328180521363, "training_iteration": 1089, "timesteps_total": 1306800, "policy_reward_mean": {}, "episode_reward_min": -670.124138973062, "timesteps_since_restore": 1306800, "num_metric_batches_dropped": 0, "time_since_restore": 33452.98003053665, "episode_reward_max": -493.3984957178343, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1306800, "default": {"kl": 0.01226222887635231, "policy_loss": -0.14909499883651733, "vf_loss": 269.35418701171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9781107306480408, "entropy": 6.968891620635986, "cur_lr": 4.999999873689376e-05, "total_loss": 269.2237243652344}, "load_time_ms": 0.677, "num_steps_sampled": 1306800, "grad_time_ms": 671.201, "update_time_ms": 2.13, "sample_time_ms": 30409.326}, "date": "2025-08-31_01-28-15", "hostname": "cda-server-4", "time_this_iter_s": 31.369966506958008, "episodes_total": 6534, "timestamp": 1756596495, "node_ip": "10.157.146.4", "done": false, "time_total_s": 33452.98003053665, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1090, "episode_reward_mean": -615.734977299206, "training_iteration": 1090, "timesteps_total": 1308000, "policy_reward_mean": {}, "episode_reward_min": -670.124138973062, "timesteps_since_restore": 1308000, "num_metric_batches_dropped": 0, "time_since_restore": 33484.932616472244, "episode_reward_max": -493.3984957178343, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1308000, "default": {"kl": 0.009796532802283764, "policy_loss": -0.1283462643623352, "vf_loss": 566.3408813476562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9498894214630127, "entropy": 6.6721086502075195, "cur_lr": 4.999999873689376e-05, "total_loss": 566.2274169921875}, "load_time_ms": 0.643, "num_steps_sampled": 1308000, "grad_time_ms": 672.753, "update_time_ms": 2.176, "sample_time_ms": 30338.615}, "date": "2025-08-31_01-28-46", "hostname": "cda-server-4", "time_this_iter_s": 31.95258593559265, "episodes_total": 6540, "timestamp": 1756596526, "node_ip": "10.157.146.4", "done": false, "time_total_s": 33484.932616472244, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1091, "episode_reward_mean": -617.1739912516119, "training_iteration": 1091, "timesteps_total": 1309200, "policy_reward_mean": {}, "episode_reward_min": -681.2645812599118, "timesteps_since_restore": 1309200, "num_metric_batches_dropped": 0, "time_since_restore": 33514.68558573723, "episode_reward_max": -493.3984957178343, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1309200, "default": {"kl": 0.009412133134901524, "policy_loss": -0.12025383859872818, "vf_loss": 183.39938354492188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9802592396736145, "entropy": 7.0595855712890625, "cur_lr": 4.999999873689376e-05, "total_loss": 183.29339599609375}, "load_time_ms": 0.622, "num_steps_sampled": 1309200, "grad_time_ms": 699.225, "update_time_ms": 2.304, "sample_time_ms": 30243.647}, "date": "2025-08-31_01-29-16", "hostname": "cda-server-4", "time_this_iter_s": 29.75296926498413, "episodes_total": 6546, "timestamp": 1756596556, "node_ip": "10.157.146.4", "done": false, "time_total_s": 33514.68558573723, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1092, "episode_reward_mean": -620.3767272333594, "training_iteration": 1092, "timesteps_total": 1310400, "policy_reward_mean": {}, "episode_reward_min": -791.5706079825424, "timesteps_since_restore": 1310400, "num_metric_batches_dropped": 0, "time_since_restore": 33547.25522327423, "episode_reward_max": -493.3984957178343, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1310400, "default": {"kl": 0.010010818019509315, "policy_loss": -0.11905304342508316, "vf_loss": 535.158447265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9508401155471802, "entropy": 6.930460453033447, "cur_lr": 4.999999873689376e-05, "total_loss": 535.0545654296875}, "load_time_ms": 0.602, "num_steps_sampled": 1310400, "grad_time_ms": 705.567, "update_time_ms": 2.335, "sample_time_ms": 30443.642}, "date": "2025-08-31_01-29-49", "hostname": "cda-server-4", "time_this_iter_s": 32.56963753700256, "episodes_total": 6552, "timestamp": 1756596589, "node_ip": "10.157.146.4", "done": false, "time_total_s": 33547.25522327423, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1093, "episode_reward_mean": -620.1183939821121, "training_iteration": 1093, "timesteps_total": 1311600, "policy_reward_mean": {}, "episode_reward_min": -791.5706079825424, "timesteps_since_restore": 1311600, "num_metric_batches_dropped": 0, "time_since_restore": 33577.67798280716, "episode_reward_max": -493.3984957178343, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1311600, "default": {"kl": 0.009661171585321426, "policy_loss": -0.12268038839101791, "vf_loss": 379.9334411621094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9531041383743286, "entropy": 6.652472972869873, "cur_lr": 4.999999873689376e-05, "total_loss": 379.8254089355469}, "load_time_ms": 0.601, "num_steps_sampled": 1311600, "grad_time_ms": 717.771, "update_time_ms": 2.316, "sample_time_ms": 30729.989}, "date": "2025-08-31_01-30-19", "hostname": "cda-server-4", "time_this_iter_s": 30.422759532928467, "episodes_total": 6558, "timestamp": 1756596619, "node_ip": "10.157.146.4", "done": false, "time_total_s": 33577.67798280716, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1094, "episode_reward_mean": -620.6295225771664, "training_iteration": 1094, "timesteps_total": 1312800, "policy_reward_mean": {}, "episode_reward_min": -791.5706079825424, "timesteps_since_restore": 1312800, "num_metric_batches_dropped": 0, "time_since_restore": 33610.63956069946, "episode_reward_max": -493.3984957178343, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1312800, "default": {"kl": 0.010285461321473122, "policy_loss": -0.12310484051704407, "vf_loss": 192.59327697753906, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9816573262214661, "entropy": 6.913756847381592, "cur_lr": 4.999999873689376e-05, "total_loss": 192.4857940673828}, "load_time_ms": 0.588, "num_steps_sampled": 1312800, "grad_time_ms": 709.015, "update_time_ms": 2.255, "sample_time_ms": 30708.735}, "date": "2025-08-31_01-30-52", "hostname": "cda-server-4", "time_this_iter_s": 32.96157789230347, "episodes_total": 6564, "timestamp": 1756596652, "node_ip": "10.157.146.4", "done": false, "time_total_s": 33610.63956069946, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1095, "episode_reward_mean": -620.0521103999453, "training_iteration": 1095, "timesteps_total": 1314000, "policy_reward_mean": {}, "episode_reward_min": -791.5706079825424, "timesteps_since_restore": 1314000, "num_metric_batches_dropped": 0, "time_since_restore": 33638.67106437683, "episode_reward_max": -493.3984957178343, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1314000, "default": {"kl": 0.010466966778039932, "policy_loss": -0.13674066960811615, "vf_loss": 117.03677368164062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9854283928871155, "entropy": 7.016899108886719, "cur_lr": 4.999999873689376e-05, "total_loss": 116.91593170166016}, "load_time_ms": 0.583, "num_steps_sampled": 1314000, "grad_time_ms": 691.289, "update_time_ms": 2.29, "sample_time_ms": 30210.031}, "date": "2025-08-31_01-31-20", "hostname": "cda-server-4", "time_this_iter_s": 28.031503677368164, "episodes_total": 6570, "timestamp": 1756596680, "node_ip": "10.157.146.4", "done": false, "time_total_s": 33638.67106437683, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1096, "episode_reward_mean": -619.2842569399952, "training_iteration": 1096, "timesteps_total": 1315200, "policy_reward_mean": {}, "episode_reward_min": -791.5706079825424, "timesteps_since_restore": 1315200, "num_metric_batches_dropped": 0, "time_since_restore": 33669.18877339363, "episode_reward_max": -493.3984957178343, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1315200, "default": {"kl": 0.010168522596359253, "policy_loss": -0.13094928860664368, "vf_loss": 362.77105712890625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9569921493530273, "entropy": 7.037050724029541, "cur_lr": 4.999999873689376e-05, "total_loss": 362.6555480957031}, "load_time_ms": 0.61, "num_steps_sampled": 1315200, "grad_time_ms": 675.113, "update_time_ms": 2.357, "sample_time_ms": 30249.806}, "date": "2025-08-31_01-31-51", "hostname": "cda-server-4", "time_this_iter_s": 30.517709016799927, "episodes_total": 6576, "timestamp": 1756596711, "node_ip": "10.157.146.4", "done": false, "time_total_s": 33669.18877339363, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1097, "episode_reward_mean": -619.0039569307266, "training_iteration": 1097, "timesteps_total": 1316400, "policy_reward_mean": {}, "episode_reward_min": -791.5706079825424, "timesteps_since_restore": 1316400, "num_metric_batches_dropped": 0, "time_since_restore": 33701.19350361824, "episode_reward_max": -493.3984957178343, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1316400, "default": {"kl": 0.010471382178366184, "policy_loss": -0.1360197812318802, "vf_loss": 423.29217529296875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9573924541473389, "entropy": 7.100557327270508, "cur_lr": 4.999999873689376e-05, "total_loss": 423.1719970703125}, "load_time_ms": 0.614, "num_steps_sampled": 1316400, "grad_time_ms": 674.62, "update_time_ms": 2.402, "sample_time_ms": 30450.34}, "date": "2025-08-31_01-32-23", "hostname": "cda-server-4", "time_this_iter_s": 32.004730224609375, "episodes_total": 6582, "timestamp": 1756596743, "node_ip": "10.157.146.4", "done": false, "time_total_s": 33701.19350361824, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1098, "episode_reward_mean": -619.3603446513258, "training_iteration": 1098, "timesteps_total": 1317600, "policy_reward_mean": {}, "episode_reward_min": -791.5706079825424, "timesteps_since_restore": 1317600, "num_metric_batches_dropped": 0, "time_since_restore": 33732.273706912994, "episode_reward_max": -493.3984957178343, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1317600, "default": {"kl": 0.012705422937870026, "policy_loss": -0.15239617228507996, "vf_loss": 563.4364013671875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9741314649581909, "entropy": 6.687869071960449, "cur_lr": 4.999999873689376e-05, "total_loss": 563.3032836914062}, "load_time_ms": 0.619, "num_steps_sampled": 1317600, "grad_time_ms": 680.338, "update_time_ms": 2.409, "sample_time_ms": 30378.714}, "date": "2025-08-31_01-32-54", "hostname": "cda-server-4", "time_this_iter_s": 31.08020329475403, "episodes_total": 6588, "timestamp": 1756596774, "node_ip": "10.157.146.4", "done": false, "time_total_s": 33732.273706912994, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1099, "episode_reward_mean": -620.0642191295851, "training_iteration": 1099, "timesteps_total": 1318800, "policy_reward_mean": {}, "episode_reward_min": -791.5706079825424, "timesteps_since_restore": 1318800, "num_metric_batches_dropped": 0, "time_since_restore": 33764.64416027069, "episode_reward_max": -493.3984957178343, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1318800, "default": {"kl": 0.0087355338037014, "policy_loss": -0.10442949831485748, "vf_loss": 1614.1317138671875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.7627613544464111, "entropy": 6.880678653717041, "cur_lr": 4.999999873689376e-05, "total_loss": 1614.04052734375}, "load_time_ms": 0.625, "num_steps_sampled": 1318800, "grad_time_ms": 678.532, "update_time_ms": 2.336, "sample_time_ms": 30480.666}, "date": "2025-08-31_01-33-26", "hostname": "cda-server-4", "time_this_iter_s": 32.37045335769653, "episodes_total": 6594, "timestamp": 1756596806, "node_ip": "10.157.146.4", "done": false, "time_total_s": 33764.64416027069, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1100, "episode_reward_mean": -621.12439448653, "training_iteration": 1100, "timesteps_total": 1320000, "policy_reward_mean": {}, "episode_reward_min": -791.5706079825424, "timesteps_since_restore": 1320000, "num_metric_batches_dropped": 0, "time_since_restore": 33793.89780378342, "episode_reward_max": -569.4493682136208, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1320000, "default": {"kl": 0.010129868052899837, "policy_loss": -0.14440226554870605, "vf_loss": 458.85980224609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9581849575042725, "entropy": 6.987758159637451, "cur_lr": 4.999999873689376e-05, "total_loss": 458.7308044433594}, "load_time_ms": 0.627, "num_steps_sampled": 1320000, "grad_time_ms": 673.625, "update_time_ms": 2.381, "sample_time_ms": 30215.682}, "date": "2025-08-31_01-33-56", "hostname": "cda-server-4", "time_this_iter_s": 29.25364351272583, "episodes_total": 6600, "timestamp": 1756596836, "node_ip": "10.157.146.4", "done": false, "time_total_s": 33793.89780378342, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1101, "episode_reward_mean": -620.82501021798, "training_iteration": 1101, "timesteps_total": 1321200, "policy_reward_mean": {}, "episode_reward_min": -791.5706079825424, "timesteps_since_restore": 1321200, "num_metric_batches_dropped": 0, "time_since_restore": 33823.399933338165, "episode_reward_max": -569.4493682136208, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1321200, "default": {"kl": 0.008824083022773266, "policy_loss": -0.12347596138715744, "vf_loss": 442.394775390625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9639628529548645, "entropy": 6.797654151916504, "cur_lr": 4.999999873689376e-05, "total_loss": 442.28472900390625}, "load_time_ms": 0.623, "num_steps_sampled": 1321200, "grad_time_ms": 648.308, "update_time_ms": 2.348, "sample_time_ms": 30215.945}, "date": "2025-08-31_01-34-25", "hostname": "cda-server-4", "time_this_iter_s": 29.502129554748535, "episodes_total": 6606, "timestamp": 1756596865, "node_ip": "10.157.146.4", "done": false, "time_total_s": 33823.399933338165, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1102, "episode_reward_mean": -620.7536975982049, "training_iteration": 1102, "timesteps_total": 1322400, "policy_reward_mean": {}, "episode_reward_min": -791.5706079825424, "timesteps_since_restore": 1322400, "num_metric_batches_dropped": 0, "time_since_restore": 33852.50904870033, "episode_reward_max": -569.4493682136208, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1322400, "default": {"kl": 0.011127562262117863, "policy_loss": -0.13574650883674622, "vf_loss": 84.08480834960938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9876232147216797, "entropy": 6.565128326416016, "cur_lr": 4.999999873689376e-05, "total_loss": 83.9659652709961}, "load_time_ms": 0.625, "num_steps_sampled": 1322400, "grad_time_ms": 639.96, "update_time_ms": 2.339, "sample_time_ms": 29878.255}, "date": "2025-08-31_01-34-54", "hostname": "cda-server-4", "time_this_iter_s": 29.10911536216736, "episodes_total": 6612, "timestamp": 1756596894, "node_ip": "10.157.146.4", "done": false, "time_total_s": 33852.50904870033, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1103, "episode_reward_mean": -620.3996318242814, "training_iteration": 1103, "timesteps_total": 1323600, "policy_reward_mean": {}, "episode_reward_min": -791.5706079825424, "timesteps_since_restore": 1323600, "num_metric_batches_dropped": 0, "time_since_restore": 33886.191167593, "episode_reward_max": -569.4493682136208, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1323600, "default": {"kl": 0.00783636886626482, "policy_loss": -0.09312477707862854, "vf_loss": 219.2204132080078, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9709107875823975, "entropy": 6.681498050689697, "cur_lr": 4.999999873689376e-05, "total_loss": 219.13922119140625}, "load_time_ms": 0.66, "num_steps_sampled": 1323600, "grad_time_ms": 627.334, "update_time_ms": 2.379, "sample_time_ms": 30216.74}, "date": "2025-08-31_01-35-28", "hostname": "cda-server-4", "time_this_iter_s": 33.68211889266968, "episodes_total": 6618, "timestamp": 1756596928, "node_ip": "10.157.146.4", "done": false, "time_total_s": 33886.191167593, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1104, "episode_reward_mean": -620.0130604682647, "training_iteration": 1104, "timesteps_total": 1324800, "policy_reward_mean": {}, "episode_reward_min": -791.5706079825424, "timesteps_since_restore": 1324800, "num_metric_batches_dropped": 0, "time_since_restore": 33917.45345067978, "episode_reward_max": -569.4493682136208, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1324800, "default": {"kl": 0.009679400362074375, "policy_loss": -0.10979215055704117, "vf_loss": 348.7064514160156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9627764821052551, "entropy": 6.868557453155518, "cur_lr": 4.999999873689376e-05, "total_loss": 348.6114196777344}, "load_time_ms": 0.658, "num_steps_sampled": 1324800, "grad_time_ms": 610.457, "update_time_ms": 2.472, "sample_time_ms": 30063.649}, "date": "2025-08-31_01-35-59", "hostname": "cda-server-4", "time_this_iter_s": 31.262283086776733, "episodes_total": 6624, "timestamp": 1756596959, "node_ip": "10.157.146.4", "done": false, "time_total_s": 33917.45345067978, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1105, "episode_reward_mean": -619.6527219049239, "training_iteration": 1105, "timesteps_total": 1326000, "policy_reward_mean": {}, "episode_reward_min": -791.5706079825424, "timesteps_since_restore": 1326000, "num_metric_batches_dropped": 0, "time_since_restore": 33949.870114803314, "episode_reward_max": -569.4493682136208, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1326000, "default": {"kl": 0.00998301524668932, "policy_loss": -0.14074867963790894, "vf_loss": 105.2033920288086, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.98602294921875, "entropy": 6.942111492156982, "cur_lr": 4.999999873689376e-05, "total_loss": 105.07780456542969}, "load_time_ms": 0.655, "num_steps_sampled": 1326000, "grad_time_ms": 598.679, "update_time_ms": 2.478, "sample_time_ms": 30513.946}, "date": "2025-08-31_01-36-32", "hostname": "cda-server-4", "time_this_iter_s": 32.416664123535156, "episodes_total": 6630, "timestamp": 1756596992, "node_ip": "10.157.146.4", "done": false, "time_total_s": 33949.870114803314, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1106, "episode_reward_mean": -619.5709753014676, "training_iteration": 1106, "timesteps_total": 1327200, "policy_reward_mean": {}, "episode_reward_min": -791.5706079825424, "timesteps_since_restore": 1327200, "num_metric_batches_dropped": 0, "time_since_restore": 33980.22667813301, "episode_reward_max": -569.4493682136208, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1327200, "default": {"kl": 0.012347337789833546, "policy_loss": -0.14054475724697113, "vf_loss": 516.71240234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9392716288566589, "entropy": 6.7689385414123535, "cur_lr": 4.999999873689376e-05, "total_loss": 516.590576171875}, "load_time_ms": 0.621, "num_steps_sampled": 1327200, "grad_time_ms": 592.106, "update_time_ms": 2.438, "sample_time_ms": 30504.562}, "date": "2025-08-31_01-37-02", "hostname": "cda-server-4", "time_this_iter_s": 30.356563329696655, "episodes_total": 6636, "timestamp": 1756597022, "node_ip": "10.157.146.4", "done": false, "time_total_s": 33980.22667813301, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1107, "episode_reward_mean": -619.1669500275947, "training_iteration": 1107, "timesteps_total": 1328400, "policy_reward_mean": {}, "episode_reward_min": -791.5706079825424, "timesteps_since_restore": 1328400, "num_metric_batches_dropped": 0, "time_since_restore": 34012.774891614914, "episode_reward_max": -569.4493682136208, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1328400, "default": {"kl": 0.012199124321341515, "policy_loss": -0.13721267879009247, "vf_loss": 162.92234802246094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9883490800857544, "entropy": 6.664876937866211, "cur_lr": 4.999999873689376e-05, "total_loss": 162.80364990234375}, "load_time_ms": 0.617, "num_steps_sampled": 1328400, "grad_time_ms": 585.387, "update_time_ms": 2.403, "sample_time_ms": 30565.714}, "date": "2025-08-31_01-37-35", "hostname": "cda-server-4", "time_this_iter_s": 32.548213481903076, "episodes_total": 6642, "timestamp": 1756597055, "node_ip": "10.157.146.4", "done": false, "time_total_s": 34012.774891614914, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1108, "episode_reward_mean": -616.8694310716867, "training_iteration": 1108, "timesteps_total": 1329600, "policy_reward_mean": {}, "episode_reward_min": -790.4817205437538, "timesteps_since_restore": 1329600, "num_metric_batches_dropped": 0, "time_since_restore": 34045.63313102722, "episode_reward_max": -569.4493682136208, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1329600, "default": {"kl": 0.009503071196377277, "policy_loss": -0.1267811506986618, "vf_loss": 317.1749267578125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9840881824493408, "entropy": 6.672971248626709, "cur_lr": 4.999999873689376e-05, "total_loss": 317.0626220703125}, "load_time_ms": 0.644, "num_steps_sampled": 1329600, "grad_time_ms": 577.738, "update_time_ms": 2.423, "sample_time_ms": 30751.076}, "date": "2025-08-31_01-38-08", "hostname": "cda-server-4", "time_this_iter_s": 32.85823941230774, "episodes_total": 6648, "timestamp": 1756597088, "node_ip": "10.157.146.4", "done": false, "time_total_s": 34045.63313102722, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1109, "episode_reward_mean": -615.4517690660576, "training_iteration": 1109, "timesteps_total": 1330800, "policy_reward_mean": {}, "episode_reward_min": -775.2959751816111, "timesteps_since_restore": 1330800, "num_metric_batches_dropped": 0, "time_since_restore": 34077.380182266235, "episode_reward_max": -569.4493682136208, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1330800, "default": {"kl": 0.011367655359208584, "policy_loss": -0.13498082756996155, "vf_loss": 341.9864196777344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.98287433385849, "entropy": 6.7643208503723145, "cur_lr": 4.999999873689376e-05, "total_loss": 341.86871337890625}, "load_time_ms": 0.639, "num_steps_sampled": 1330800, "grad_time_ms": 569.042, "update_time_ms": 2.492, "sample_time_ms": 30697.43}, "date": "2025-08-31_01-38-39", "hostname": "cda-server-4", "time_this_iter_s": 31.747051239013672, "episodes_total": 6654, "timestamp": 1756597119, "node_ip": "10.157.146.4", "done": false, "time_total_s": 34077.380182266235, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1110, "episode_reward_mean": -615.4576396862814, "training_iteration": 1110, "timesteps_total": 1332000, "policy_reward_mean": {}, "episode_reward_min": -775.2959751816111, "timesteps_since_restore": 1332000, "num_metric_batches_dropped": 0, "time_since_restore": 34110.490119218826, "episode_reward_max": -569.4493682136208, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1332000, "default": {"kl": 0.010473083704710007, "policy_loss": -0.1339205503463745, "vf_loss": 166.15298461914062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9853662848472595, "entropy": 6.754985809326172, "cur_lr": 4.999999873689376e-05, "total_loss": 166.03497314453125}, "load_time_ms": 0.637, "num_steps_sampled": 1332000, "grad_time_ms": 557.144, "update_time_ms": 2.396, "sample_time_ms": 31095.114}, "date": "2025-08-31_01-39-12", "hostname": "cda-server-4", "time_this_iter_s": 33.10993695259094, "episodes_total": 6660, "timestamp": 1756597152, "node_ip": "10.157.146.4", "done": false, "time_total_s": 34110.490119218826, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1111, "episode_reward_mean": -614.8113272711063, "training_iteration": 1111, "timesteps_total": 1333200, "policy_reward_mean": {}, "episode_reward_min": -775.2959751816111, "timesteps_since_restore": 1333200, "num_metric_batches_dropped": 0, "time_since_restore": 34141.489077568054, "episode_reward_max": -569.4493682136208, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1333200, "default": {"kl": 0.010221320204436779, "policy_loss": -0.1355455219745636, "vf_loss": 180.3109893798828, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9776870012283325, "entropy": 6.459749221801758, "cur_lr": 4.999999873689376e-05, "total_loss": 180.19097900390625}, "load_time_ms": 0.649, "num_steps_sampled": 1333200, "grad_time_ms": 574.084, "update_time_ms": 2.314, "sample_time_ms": 31227.914}, "date": "2025-08-31_01-39-44", "hostname": "cda-server-4", "time_this_iter_s": 30.998958349227905, "episodes_total": 6666, "timestamp": 1756597184, "node_ip": "10.157.146.4", "done": false, "time_total_s": 34141.489077568054, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1112, "episode_reward_mean": -616.3067237508244, "training_iteration": 1112, "timesteps_total": 1334400, "policy_reward_mean": {}, "episode_reward_min": -775.2959751816111, "timesteps_since_restore": 1334400, "num_metric_batches_dropped": 0, "time_since_restore": 34172.65347409248, "episode_reward_max": -569.4493682136208, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1334400, "default": {"kl": 0.008780477568507195, "policy_loss": -0.09558790922164917, "vf_loss": 927.6626586914062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8778769969940186, "entropy": 6.684818744659424, "cur_lr": 4.999999873689376e-05, "total_loss": 927.5805053710938}, "load_time_ms": 0.645, "num_steps_sampled": 1334400, "grad_time_ms": 580.207, "update_time_ms": 2.314, "sample_time_ms": 31427.366}, "date": "2025-08-31_01-40-15", "hostname": "cda-server-4", "time_this_iter_s": 31.16439652442932, "episodes_total": 6672, "timestamp": 1756597215, "node_ip": "10.157.146.4", "done": false, "time_total_s": 34172.65347409248, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1113, "episode_reward_mean": -617.3370558487077, "training_iteration": 1113, "timesteps_total": 1335600, "policy_reward_mean": {}, "episode_reward_min": -775.2959751816111, "timesteps_since_restore": 1335600, "num_metric_batches_dropped": 0, "time_since_restore": 34200.9351606369, "episode_reward_max": -572.1352140555139, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1335600, "default": {"kl": 0.009524945169687271, "policy_loss": -0.13132628798484802, "vf_loss": 334.3545837402344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9681152701377869, "entropy": 7.064764976501465, "cur_lr": 4.999999873689376e-05, "total_loss": 334.23773193359375}, "load_time_ms": 0.622, "num_steps_sampled": 1335600, "grad_time_ms": 598.314, "update_time_ms": 2.292, "sample_time_ms": 30869.314}, "date": "2025-08-31_01-40-43", "hostname": "cda-server-4", "time_this_iter_s": 28.281686544418335, "episodes_total": 6678, "timestamp": 1756597243, "node_ip": "10.157.146.4", "done": false, "time_total_s": 34200.9351606369, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1114, "episode_reward_mean": -617.683402823506, "training_iteration": 1114, "timesteps_total": 1336800, "policy_reward_mean": {}, "episode_reward_min": -775.2959751816111, "timesteps_since_restore": 1336800, "num_metric_batches_dropped": 0, "time_since_restore": 34229.51477622986, "episode_reward_max": -572.1352140555139, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1336800, "default": {"kl": 0.009633926674723625, "policy_loss": -0.1252020001411438, "vf_loss": 194.30479431152344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9761097431182861, "entropy": 6.384120464324951, "cur_lr": 4.999999873689376e-05, "total_loss": 194.19422912597656}, "load_time_ms": 0.631, "num_steps_sampled": 1336800, "grad_time_ms": 621.346, "update_time_ms": 2.297, "sample_time_ms": 30577.973}, "date": "2025-08-31_01-41-12", "hostname": "cda-server-4", "time_this_iter_s": 28.579615592956543, "episodes_total": 6684, "timestamp": 1756597272, "node_ip": "10.157.146.4", "done": false, "time_total_s": 34229.51477622986, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1115, "episode_reward_mean": -620.4084219988182, "training_iteration": 1115, "timesteps_total": 1338000, "policy_reward_mean": {}, "episode_reward_min": -784.2243084303117, "timesteps_since_restore": 1338000, "num_metric_batches_dropped": 0, "time_since_restore": 34260.39559698105, "episode_reward_max": -572.1352140555139, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1338000, "default": {"kl": 0.010742668993771076, "policy_loss": -0.14624327421188354, "vf_loss": 1083.0079345703125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9279103875160217, "entropy": 6.939515590667725, "cur_lr": 4.999999873689376e-05, "total_loss": 1082.8780517578125}, "load_time_ms": 0.633, "num_steps_sampled": 1338000, "grad_time_ms": 647.085, "update_time_ms": 2.242, "sample_time_ms": 30398.664}, "date": "2025-08-31_01-41-42", "hostname": "cda-server-4", "time_this_iter_s": 30.880820751190186, "episodes_total": 6690, "timestamp": 1756597302, "node_ip": "10.157.146.4", "done": false, "time_total_s": 34260.39559698105, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1116, "episode_reward_mean": -618.3902034968564, "training_iteration": 1116, "timesteps_total": 1339200, "policy_reward_mean": {}, "episode_reward_min": -784.2243084303117, "timesteps_since_restore": 1339200, "num_metric_batches_dropped": 0, "time_since_restore": 34289.32132291794, "episode_reward_max": -520.2923560440028, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1339200, "default": {"kl": 0.00863798800855875, "policy_loss": -0.09496548771858215, "vf_loss": 139.33969116210938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9809664487838745, "entropy": 6.55949592590332, "cur_lr": 4.999999873689376e-05, "total_loss": 139.2578582763672}, "load_time_ms": 0.631, "num_steps_sampled": 1339200, "grad_time_ms": 660.84, "update_time_ms": 2.246, "sample_time_ms": 30241.707}, "date": "2025-08-31_01-42-11", "hostname": "cda-server-4", "time_this_iter_s": 28.92572593688965, "episodes_total": 6696, "timestamp": 1756597331, "node_ip": "10.157.146.4", "done": false, "time_total_s": 34289.32132291794, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1117, "episode_reward_mean": -619.2428665074835, "training_iteration": 1117, "timesteps_total": 1340400, "policy_reward_mean": {}, "episode_reward_min": -784.2243084303117, "timesteps_since_restore": 1340400, "num_metric_batches_dropped": 0, "time_since_restore": 34321.54627394676, "episode_reward_max": -520.2923560440028, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1340400, "default": {"kl": 0.010132933966815472, "policy_loss": -0.12144052982330322, "vf_loss": 886.390869140625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9450466632843018, "entropy": 6.6843132972717285, "cur_lr": 4.999999873689376e-05, "total_loss": 886.2848510742188}, "load_time_ms": 0.631, "num_steps_sampled": 1340400, "grad_time_ms": 670.204, "update_time_ms": 2.343, "sample_time_ms": 30199.961}, "date": "2025-08-31_01-42-44", "hostname": "cda-server-4", "time_this_iter_s": 32.22495102882385, "episodes_total": 6702, "timestamp": 1756597364, "node_ip": "10.157.146.4", "done": false, "time_total_s": 34321.54627394676, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1118, "episode_reward_mean": -618.4586827461206, "training_iteration": 1118, "timesteps_total": 1341600, "policy_reward_mean": {}, "episode_reward_min": -784.2243084303117, "timesteps_since_restore": 1341600, "num_metric_batches_dropped": 0, "time_since_restore": 34352.27151298523, "episode_reward_max": -520.2923560440028, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1341600, "default": {"kl": 0.00947872456163168, "policy_loss": -0.1283179521560669, "vf_loss": 89.7015380859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9898931980133057, "entropy": 6.622117042541504, "cur_lr": 4.999999873689376e-05, "total_loss": 89.58761596679688}, "load_time_ms": 0.602, "num_steps_sampled": 1341600, "grad_time_ms": 679.575, "update_time_ms": 2.313, "sample_time_ms": 29977.448}, "date": "2025-08-31_01-43-14", "hostname": "cda-server-4", "time_this_iter_s": 30.725239038467407, "episodes_total": 6708, "timestamp": 1756597394, "node_ip": "10.157.146.4", "done": false, "time_total_s": 34352.27151298523, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1119, "episode_reward_mean": -618.3010290205754, "training_iteration": 1119, "timesteps_total": 1342800, "policy_reward_mean": {}, "episode_reward_min": -784.2243084303117, "timesteps_since_restore": 1342800, "num_metric_batches_dropped": 0, "time_since_restore": 34385.75823879242, "episode_reward_max": -520.2923560440028, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1342800, "default": {"kl": 0.0093403784558177, "policy_loss": -0.12581636011600494, "vf_loss": 107.66708374023438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9863113760948181, "entropy": 6.648893356323242, "cur_lr": 4.999999873689376e-05, "total_loss": 107.55545043945312}, "load_time_ms": 0.605, "num_steps_sampled": 1342800, "grad_time_ms": 694.154, "update_time_ms": 2.253, "sample_time_ms": 30136.909}, "date": "2025-08-31_01-43-48", "hostname": "cda-server-4", "time_this_iter_s": 33.48672580718994, "episodes_total": 6714, "timestamp": 1756597428, "node_ip": "10.157.146.4", "done": false, "time_total_s": 34385.75823879242, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1120, "episode_reward_mean": -618.9395404571238, "training_iteration": 1120, "timesteps_total": 1344000, "policy_reward_mean": {}, "episode_reward_min": -784.2243084303117, "timesteps_since_restore": 1344000, "num_metric_batches_dropped": 0, "time_since_restore": 34411.75946569443, "episode_reward_max": -520.2923560440028, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1344000, "default": {"kl": 0.01036731619387865, "policy_loss": -0.14913591742515564, "vf_loss": 126.84829711914062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9913073778152466, "entropy": 7.096040725708008, "cur_lr": 4.999999873689376e-05, "total_loss": 126.71489715576172}, "load_time_ms": 0.639, "num_steps_sampled": 1344000, "grad_time_ms": 719.09, "update_time_ms": 2.279, "sample_time_ms": 29400.993}, "date": "2025-08-31_01-44-14", "hostname": "cda-server-4", "time_this_iter_s": 26.001226902008057, "episodes_total": 6720, "timestamp": 1756597454, "node_ip": "10.157.146.4", "done": false, "time_total_s": 34411.75946569443, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1121, "episode_reward_mean": -618.3148388117652, "training_iteration": 1121, "timesteps_total": 1345200, "policy_reward_mean": {}, "episode_reward_min": -784.2243084303117, "timesteps_since_restore": 1345200, "num_metric_batches_dropped": 0, "time_since_restore": 34442.33597397804, "episode_reward_max": -520.2923560440028, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1345200, "default": {"kl": 0.013574454002082348, "policy_loss": -0.15403223037719727, "vf_loss": 656.716064453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9765948057174683, "entropy": 6.540998935699463, "cur_lr": 4.999999873689376e-05, "total_loss": 656.5827026367188}, "load_time_ms": 0.63, "num_steps_sampled": 1345200, "grad_time_ms": 728.199, "update_time_ms": 2.309, "sample_time_ms": 29349.678}, "date": "2025-08-31_01-44-45", "hostname": "cda-server-4", "time_this_iter_s": 30.576508283615112, "episodes_total": 6726, "timestamp": 1756597485, "node_ip": "10.157.146.4", "done": false, "time_total_s": 34442.33597397804, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1122, "episode_reward_mean": -618.860746691655, "training_iteration": 1122, "timesteps_total": 1346400, "policy_reward_mean": {}, "episode_reward_min": -784.2243084303117, "timesteps_since_restore": 1346400, "num_metric_batches_dropped": 0, "time_since_restore": 34471.249841451645, "episode_reward_max": -520.2923560440028, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1346400, "default": {"kl": 0.010206256061792374, "policy_loss": -0.12858322262763977, "vf_loss": 246.78326416015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9770739078521729, "entropy": 6.676938533782959, "cur_lr": 4.999999873689376e-05, "total_loss": 246.67019653320312}, "load_time_ms": 0.629, "num_steps_sampled": 1346400, "grad_time_ms": 730.936, "update_time_ms": 2.304, "sample_time_ms": 29121.906}, "date": "2025-08-31_01-45-13", "hostname": "cda-server-4", "time_this_iter_s": 28.913867473602295, "episodes_total": 6732, "timestamp": 1756597513, "node_ip": "10.157.146.4", "done": false, "time_total_s": 34471.249841451645, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1123, "episode_reward_mean": -618.0044267106489, "training_iteration": 1123, "timesteps_total": 1347600, "policy_reward_mean": {}, "episode_reward_min": -784.2243084303117, "timesteps_since_restore": 1347600, "num_metric_batches_dropped": 0, "time_since_restore": 34502.77080702782, "episode_reward_max": -520.2923560440028, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1347600, "default": {"kl": 0.010595133528113365, "policy_loss": -0.12561385333538055, "vf_loss": 138.6077880859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.992435872554779, "entropy": 6.687100410461426, "cur_lr": 4.999999873689376e-05, "total_loss": 138.49826049804688}, "load_time_ms": 0.624, "num_steps_sampled": 1347600, "grad_time_ms": 729.255, "update_time_ms": 2.299, "sample_time_ms": 29447.565}, "date": "2025-08-31_01-45-45", "hostname": "cda-server-4", "time_this_iter_s": 31.520965576171875, "episodes_total": 6738, "timestamp": 1756597545, "node_ip": "10.157.146.4", "done": false, "time_total_s": 34502.77080702782, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1124, "episode_reward_mean": -619.0079273073437, "training_iteration": 1124, "timesteps_total": 1348800, "policy_reward_mean": {}, "episode_reward_min": -789.2576470464004, "timesteps_since_restore": 1348800, "num_metric_batches_dropped": 0, "time_since_restore": 34532.66748714447, "episode_reward_max": -520.2923560440028, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1348800, "default": {"kl": 0.008243871852755547, "policy_loss": -0.10366762429475784, "vf_loss": 1173.3046875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.862163782119751, "entropy": 6.686075210571289, "cur_lr": 4.999999873689376e-05, "total_loss": 1173.2135009765625}, "load_time_ms": 0.616, "num_steps_sampled": 1348800, "grad_time_ms": 727.43, "update_time_ms": 2.2, "sample_time_ms": 29581.222}, "date": "2025-08-31_01-46-15", "hostname": "cda-server-4", "time_this_iter_s": 29.896680116653442, "episodes_total": 6744, "timestamp": 1756597575, "node_ip": "10.157.146.4", "done": false, "time_total_s": 34532.66748714447, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1125, "episode_reward_mean": -618.3433508917602, "training_iteration": 1125, "timesteps_total": 1350000, "policy_reward_mean": {}, "episode_reward_min": -789.2576470464004, "timesteps_since_restore": 1350000, "num_metric_batches_dropped": 0, "time_since_restore": 34562.28294849396, "episode_reward_max": -520.2923560440028, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1350000, "default": {"kl": 0.010609394870698452, "policy_loss": -0.13347676396369934, "vf_loss": 195.907958984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9760108590126038, "entropy": 6.524558067321777, "cur_lr": 4.999999873689376e-05, "total_loss": 195.79058837890625}, "load_time_ms": 0.619, "num_steps_sampled": 1350000, "grad_time_ms": 726.967, "update_time_ms": 2.238, "sample_time_ms": 29455.133}, "date": "2025-08-31_01-46-45", "hostname": "cda-server-4", "time_this_iter_s": 29.615461349487305, "episodes_total": 6750, "timestamp": 1756597605, "node_ip": "10.157.146.4", "done": false, "time_total_s": 34562.28294849396, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1126, "episode_reward_mean": -620.0852292832637, "training_iteration": 1126, "timesteps_total": 1351200, "policy_reward_mean": {}, "episode_reward_min": -789.2576470464004, "timesteps_since_restore": 1351200, "num_metric_batches_dropped": 0, "time_since_restore": 34594.674933195114, "episode_reward_max": -520.2923560440028, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1351200, "default": {"kl": 0.010685686022043228, "policy_loss": -0.13082976639270782, "vf_loss": 437.0572204589844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9522974491119385, "entropy": 6.733343124389648, "cur_lr": 4.999999873689376e-05, "total_loss": 436.9425964355469}, "load_time_ms": 0.64, "num_steps_sampled": 1351200, "grad_time_ms": 730.607, "update_time_ms": 2.207, "sample_time_ms": 29798.126}, "date": "2025-08-31_01-47-17", "hostname": "cda-server-4", "time_this_iter_s": 32.391984701156616, "episodes_total": 6756, "timestamp": 1756597637, "node_ip": "10.157.146.4", "done": false, "time_total_s": 34594.674933195114, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1127, "episode_reward_mean": -619.8533132351122, "training_iteration": 1127, "timesteps_total": 1352400, "policy_reward_mean": {}, "episode_reward_min": -789.2576470464004, "timesteps_since_restore": 1352400, "num_metric_batches_dropped": 0, "time_since_restore": 34624.18128180504, "episode_reward_max": -520.2923560440028, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1352400, "default": {"kl": 0.010988206602633, "policy_loss": -0.1457807570695877, "vf_loss": 86.91384887695312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9914628267288208, "entropy": 6.393271446228027, "cur_lr": 4.999999873689376e-05, "total_loss": 86.78475189208984}, "load_time_ms": 0.646, "num_steps_sampled": 1352400, "grad_time_ms": 728.679, "update_time_ms": 2.118, "sample_time_ms": 29528.209}, "date": "2025-08-31_01-47-46", "hostname": "cda-server-4", "time_this_iter_s": 29.506348609924316, "episodes_total": 6762, "timestamp": 1756597666, "node_ip": "10.157.146.4", "done": false, "time_total_s": 34624.18128180504, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1128, "episode_reward_mean": -620.2454210676191, "training_iteration": 1128, "timesteps_total": 1353600, "policy_reward_mean": {}, "episode_reward_min": -789.2576470464004, "timesteps_since_restore": 1353600, "num_metric_batches_dropped": 0, "time_since_restore": 34655.526146411896, "episode_reward_max": -520.2923560440028, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1353600, "default": {"kl": 0.0112064890563488, "policy_loss": -0.13801607489585876, "vf_loss": 203.7643280029297, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9709315896034241, "entropy": 6.8573737144470215, "cur_lr": 4.999999873689376e-05, "total_loss": 203.643310546875}, "load_time_ms": 0.651, "num_steps_sampled": 1353600, "grad_time_ms": 726.336, "update_time_ms": 2.15, "sample_time_ms": 29592.429}, "date": "2025-08-31_01-48-18", "hostname": "cda-server-4", "time_this_iter_s": 31.3448646068573, "episodes_total": 6768, "timestamp": 1756597698, "node_ip": "10.157.146.4", "done": false, "time_total_s": 34655.526146411896, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1129, "episode_reward_mean": -619.0060101041712, "training_iteration": 1129, "timesteps_total": 1354800, "policy_reward_mean": {}, "episode_reward_min": -789.2576470464004, "timesteps_since_restore": 1354800, "num_metric_batches_dropped": 0, "time_since_restore": 34684.70443892479, "episode_reward_max": -520.2923560440028, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1354800, "default": {"kl": 0.010669449344277382, "policy_loss": -0.13922053575515747, "vf_loss": 140.91549682617188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9846466779708862, "entropy": 6.760274887084961, "cur_lr": 4.999999873689376e-05, "total_loss": 140.79248046875}, "load_time_ms": 0.665, "num_steps_sampled": 1354800, "grad_time_ms": 724.288, "update_time_ms": 2.254, "sample_time_ms": 29163.414}, "date": "2025-08-31_01-48-47", "hostname": "cda-server-4", "time_this_iter_s": 29.178292512893677, "episodes_total": 6774, "timestamp": 1756597727, "node_ip": "10.157.146.4", "done": false, "time_total_s": 34684.70443892479, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1130, "episode_reward_mean": -618.875278875866, "training_iteration": 1130, "timesteps_total": 1356000, "policy_reward_mean": {}, "episode_reward_min": -789.2576470464004, "timesteps_since_restore": 1356000, "num_metric_batches_dropped": 0, "time_since_restore": 34714.20515155792, "episode_reward_max": -520.2923560440028, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1356000, "default": {"kl": 0.011053141206502914, "policy_loss": -0.14734120666980743, "vf_loss": 98.52082061767578, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9924346208572388, "entropy": 6.732542514801025, "cur_lr": 4.999999873689376e-05, "total_loss": 98.39027404785156}, "load_time_ms": 0.645, "num_steps_sampled": 1356000, "grad_time_ms": 724.096, "update_time_ms": 2.287, "sample_time_ms": 29513.549}, "date": "2025-08-31_01-49-17", "hostname": "cda-server-4", "time_this_iter_s": 29.500712633132935, "episodes_total": 6780, "timestamp": 1756597757, "node_ip": "10.157.146.4", "done": false, "time_total_s": 34714.20515155792, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1131, "episode_reward_mean": -616.6845610578763, "training_iteration": 1131, "timesteps_total": 1357200, "policy_reward_mean": {}, "episode_reward_min": -789.2576470464004, "timesteps_since_restore": 1357200, "num_metric_batches_dropped": 0, "time_since_restore": 34747.3494246006, "episode_reward_max": -520.2923560440028, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1357200, "default": {"kl": 0.010505800135433674, "policy_loss": -0.13085749745368958, "vf_loss": 94.60769653320312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9892245531082153, "entropy": 6.565914630889893, "cur_lr": 4.999999873689376e-05, "total_loss": 94.49279022216797}, "load_time_ms": 0.645, "num_steps_sampled": 1357200, "grad_time_ms": 725.853, "update_time_ms": 2.279, "sample_time_ms": 29768.561}, "date": "2025-08-31_01-49-50", "hostname": "cda-server-4", "time_this_iter_s": 33.14427304267883, "episodes_total": 6786, "timestamp": 1756597790, "node_ip": "10.157.146.4", "done": false, "time_total_s": 34747.3494246006, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1132, "episode_reward_mean": -617.3805596844308, "training_iteration": 1132, "timesteps_total": 1358400, "policy_reward_mean": {}, "episode_reward_min": -797.5044391740212, "timesteps_since_restore": 1358400, "num_metric_batches_dropped": 0, "time_since_restore": 34775.42442584038, "episode_reward_max": -520.2923560440028, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1358400, "default": {"kl": 0.008631820790469646, "policy_loss": -0.09167981892824173, "vf_loss": 1140.30810546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.901337206363678, "entropy": 6.749942779541016, "cur_lr": 4.999999873689376e-05, "total_loss": 1140.2296142578125}, "load_time_ms": 0.645, "num_steps_sampled": 1358400, "grad_time_ms": 717.755, "update_time_ms": 2.284, "sample_time_ms": 29692.717}, "date": "2025-08-31_01-50-18", "hostname": "cda-server-4", "time_this_iter_s": 28.07500123977661, "episodes_total": 6792, "timestamp": 1756597818, "node_ip": "10.157.146.4", "done": false, "time_total_s": 34775.42442584038, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1133, "episode_reward_mean": -619.2957334247055, "training_iteration": 1133, "timesteps_total": 1359600, "policy_reward_mean": {}, "episode_reward_min": -797.5044391740212, "timesteps_since_restore": 1359600, "num_metric_batches_dropped": 0, "time_since_restore": 34805.20669865608, "episode_reward_max": -565.469346849023, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1359600, "default": {"kl": 0.00961296632885933, "policy_loss": -0.12395048141479492, "vf_loss": 226.94468688964844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9657412767410278, "entropy": 6.828749656677246, "cur_lr": 4.999999873689376e-05, "total_loss": 226.8353271484375}, "load_time_ms": 0.645, "num_steps_sampled": 1359600, "grad_time_ms": 700.76, "update_time_ms": 2.35, "sample_time_ms": 29535.705}, "date": "2025-08-31_01-50-48", "hostname": "cda-server-4", "time_this_iter_s": 29.782272815704346, "episodes_total": 6798, "timestamp": 1756597848, "node_ip": "10.157.146.4", "done": false, "time_total_s": 34805.20669865608, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1134, "episode_reward_mean": -619.43048525842, "training_iteration": 1134, "timesteps_total": 1360800, "policy_reward_mean": {}, "episode_reward_min": -797.5044391740212, "timesteps_since_restore": 1360800, "num_metric_batches_dropped": 0, "time_since_restore": 34833.87456679344, "episode_reward_max": -565.469346849023, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1360800, "default": {"kl": 0.011860277503728867, "policy_loss": -0.13028286397457123, "vf_loss": 319.6204833984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9731621146202087, "entropy": 7.189659118652344, "cur_lr": 4.999999873689376e-05, "total_loss": 319.5081787109375}, "load_time_ms": 0.645, "num_steps_sampled": 1360800, "grad_time_ms": 682.087, "update_time_ms": 2.367, "sample_time_ms": 29431.48}, "date": "2025-08-31_01-51-16", "hostname": "cda-server-4", "time_this_iter_s": 28.66786813735962, "episodes_total": 6804, "timestamp": 1756597876, "node_ip": "10.157.146.4", "done": false, "time_total_s": 34833.87456679344, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1135, "episode_reward_mean": -619.898407459747, "training_iteration": 1135, "timesteps_total": 1362000, "policy_reward_mean": {}, "episode_reward_min": -797.5044391740212, "timesteps_since_restore": 1362000, "num_metric_batches_dropped": 0, "time_since_restore": 34864.31179499626, "episode_reward_max": -565.469346849023, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1362000, "default": {"kl": 0.009728114120662212, "policy_loss": -0.13773897290229797, "vf_loss": 229.57090759277344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.977299153804779, "entropy": 7.012087345123291, "cur_lr": 4.999999873689376e-05, "total_loss": 229.44793701171875}, "load_time_ms": 0.677, "num_steps_sampled": 1362000, "grad_time_ms": 666.659, "update_time_ms": 2.363, "sample_time_ms": 29529.068}, "date": "2025-08-31_01-51-47", "hostname": "cda-server-4", "time_this_iter_s": 30.437228202819824, "episodes_total": 6810, "timestamp": 1756597907, "node_ip": "10.157.146.4", "done": false, "time_total_s": 34864.31179499626, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1136, "episode_reward_mean": -619.3761034847687, "training_iteration": 1136, "timesteps_total": 1363200, "policy_reward_mean": {}, "episode_reward_min": -797.5044391740212, "timesteps_since_restore": 1363200, "num_metric_batches_dropped": 0, "time_since_restore": 34894.05176830292, "episode_reward_max": -565.469346849023, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1363200, "default": {"kl": 0.009255454875528812, "policy_loss": -0.11275429278612137, "vf_loss": 543.819580078125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9818769097328186, "entropy": 6.292454719543457, "cur_lr": 4.999999873689376e-05, "total_loss": 543.7208251953125}, "load_time_ms": 0.659, "num_steps_sampled": 1363200, "grad_time_ms": 655.702, "update_time_ms": 2.375, "sample_time_ms": 29274.867}, "date": "2025-08-31_01-52-17", "hostname": "cda-server-4", "time_this_iter_s": 29.739973306655884, "episodes_total": 6816, "timestamp": 1756597937, "node_ip": "10.157.146.4", "done": false, "time_total_s": 34894.05176830292, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1137, "episode_reward_mean": -619.4124238181663, "training_iteration": 1137, "timesteps_total": 1364400, "policy_reward_mean": {}, "episode_reward_min": -797.5044391740212, "timesteps_since_restore": 1364400, "num_metric_batches_dropped": 0, "time_since_restore": 34925.00993561745, "episode_reward_max": -565.469346849023, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1364400, "default": {"kl": 0.009008029475808144, "policy_loss": -0.12815214693546295, "vf_loss": 131.72410583496094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9817067384719849, "entropy": 6.606265544891357, "cur_lr": 4.999999873689376e-05, "total_loss": 131.60963439941406}, "load_time_ms": 0.656, "num_steps_sampled": 1364400, "grad_time_ms": 653.986, "update_time_ms": 2.409, "sample_time_ms": 29421.842}, "date": "2025-08-31_01-52-47", "hostname": "cda-server-4", "time_this_iter_s": 30.95816731452942, "episodes_total": 6822, "timestamp": 1756597967, "node_ip": "10.157.146.4", "done": false, "time_total_s": 34925.00993561745, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1138, "episode_reward_mean": -619.5650015752577, "training_iteration": 1138, "timesteps_total": 1365600, "policy_reward_mean": {}, "episode_reward_min": -797.5044391740212, "timesteps_since_restore": 1365600, "num_metric_batches_dropped": 0, "time_since_restore": 34954.98396945, "episode_reward_max": -565.469346849023, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1365600, "default": {"kl": 0.010944414883852005, "policy_loss": -0.13620921969413757, "vf_loss": 327.3981628417969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9823641180992126, "entropy": 6.884366989135742, "cur_lr": 4.999999873689376e-05, "total_loss": 327.278564453125}, "load_time_ms": 0.653, "num_steps_sampled": 1365600, "grad_time_ms": 655.534, "update_time_ms": 2.379, "sample_time_ms": 29283.241}, "date": "2025-08-31_01-53-17", "hostname": "cda-server-4", "time_this_iter_s": 29.97403383255005, "episodes_total": 6828, "timestamp": 1756597997, "node_ip": "10.157.146.4", "done": false, "time_total_s": 34954.98396945, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1139, "episode_reward_mean": -619.942936683862, "training_iteration": 1139, "timesteps_total": 1366800, "policy_reward_mean": {}, "episode_reward_min": -797.5044391740212, "timesteps_since_restore": 1366800, "num_metric_batches_dropped": 0, "time_since_restore": 34987.71451091766, "episode_reward_max": -565.469346849023, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1366800, "default": {"kl": 0.010104657150804996, "policy_loss": -0.1260204017162323, "vf_loss": 190.313720703125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.98588627576828, "entropy": 6.846592903137207, "cur_lr": 4.999999873689376e-05, "total_loss": 190.2030487060547}, "load_time_ms": 0.638, "num_steps_sampled": 1366800, "grad_time_ms": 650.3, "update_time_ms": 2.335, "sample_time_ms": 29643.74}, "date": "2025-08-31_01-53-50", "hostname": "cda-server-4", "time_this_iter_s": 32.730541467666626, "episodes_total": 6834, "timestamp": 1756598030, "node_ip": "10.157.146.4", "done": false, "time_total_s": 34987.71451091766, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1140, "episode_reward_mean": -620.4223437980069, "training_iteration": 1140, "timesteps_total": 1368000, "policy_reward_mean": {}, "episode_reward_min": -797.5044391740212, "timesteps_since_restore": 1368000, "num_metric_batches_dropped": 0, "time_since_restore": 35018.3479142189, "episode_reward_max": -565.469346849023, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1368000, "default": {"kl": 0.011065030470490456, "policy_loss": -0.1547277569770813, "vf_loss": 103.75808715820312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9869398474693298, "entropy": 6.701616287231445, "cur_lr": 4.999999873689376e-05, "total_loss": 103.62016296386719}, "load_time_ms": 0.628, "num_steps_sampled": 1368000, "grad_time_ms": 643.992, "update_time_ms": 2.341, "sample_time_ms": 29763.227}, "date": "2025-08-31_01-54-21", "hostname": "cda-server-4", "time_this_iter_s": 30.633403301239014, "episodes_total": 6840, "timestamp": 1756598061, "node_ip": "10.157.146.4", "done": false, "time_total_s": 35018.3479142189, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1141, "episode_reward_mean": -618.4823256520718, "training_iteration": 1141, "timesteps_total": 1369200, "policy_reward_mean": {}, "episode_reward_min": -797.5044391740212, "timesteps_since_restore": 1369200, "num_metric_batches_dropped": 0, "time_since_restore": 35050.03673124313, "episode_reward_max": -565.469346849023, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1369200, "default": {"kl": 0.011334527283906937, "policy_loss": -0.12957435846328735, "vf_loss": 105.39692687988281, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9862733483314514, "entropy": 6.565272331237793, "cur_lr": 4.999999873689376e-05, "total_loss": 105.2845687866211}, "load_time_ms": 0.624, "num_steps_sampled": 1369200, "grad_time_ms": 619.863, "update_time_ms": 2.342, "sample_time_ms": 29641.856}, "date": "2025-08-31_01-54-53", "hostname": "cda-server-4", "time_this_iter_s": 31.688817024230957, "episodes_total": 6846, "timestamp": 1756598093, "node_ip": "10.157.146.4", "done": false, "time_total_s": 35050.03673124313, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1142, "episode_reward_mean": -619.3199680063319, "training_iteration": 1142, "timesteps_total": 1370400, "policy_reward_mean": {}, "episode_reward_min": -797.5044391740212, "timesteps_since_restore": 1370400, "num_metric_batches_dropped": 0, "time_since_restore": 35080.60205960274, "episode_reward_max": -565.469346849023, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1370400, "default": {"kl": 0.01122030708938837, "policy_loss": -0.15137937664985657, "vf_loss": 502.06451416015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9514447450637817, "entropy": 6.417526721954346, "cur_lr": 4.999999873689376e-05, "total_loss": 501.93017578125}, "load_time_ms": 0.623, "num_steps_sampled": 1370400, "grad_time_ms": 613.517, "update_time_ms": 2.363, "sample_time_ms": 29897.287}, "date": "2025-08-31_01-55-23", "hostname": "cda-server-4", "time_this_iter_s": 30.565328359603882, "episodes_total": 6852, "timestamp": 1756598123, "node_ip": "10.157.146.4", "done": false, "time_total_s": 35080.60205960274, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1143, "episode_reward_mean": -617.665829587958, "training_iteration": 1143, "timesteps_total": 1371600, "policy_reward_mean": {}, "episode_reward_min": -797.5044391740212, "timesteps_since_restore": 1371600, "num_metric_batches_dropped": 0, "time_since_restore": 35111.413504362106, "episode_reward_max": -565.469346849023, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1371600, "default": {"kl": 0.011231271550059319, "policy_loss": -0.14608646929264069, "vf_loss": 34.24761199951172, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9950466156005859, "entropy": 6.65839958190918, "cur_lr": 4.999999873689376e-05, "total_loss": 34.11858367919922}, "load_time_ms": 0.621, "num_steps_sampled": 1371600, "grad_time_ms": 616.438, "update_time_ms": 2.344, "sample_time_ms": 29997.289}, "date": "2025-08-31_01-55-54", "hostname": "cda-server-4", "time_this_iter_s": 30.811444759368896, "episodes_total": 6858, "timestamp": 1756598154, "node_ip": "10.157.146.4", "done": false, "time_total_s": 35111.413504362106, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1144, "episode_reward_mean": -618.858294177304, "training_iteration": 1144, "timesteps_total": 1372800, "policy_reward_mean": {}, "episode_reward_min": -797.5044391740212, "timesteps_since_restore": 1372800, "num_metric_batches_dropped": 0, "time_since_restore": 35144.236397743225, "episode_reward_max": -565.469346849023, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1372800, "default": {"kl": 0.009229284711182117, "policy_loss": -0.12278972566127777, "vf_loss": 369.8394775390625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9675309062004089, "entropy": 6.831792831420898, "cur_lr": 4.999999873689376e-05, "total_loss": 369.730712890625}, "load_time_ms": 0.622, "num_steps_sampled": 1372800, "grad_time_ms": 627.232, "update_time_ms": 2.378, "sample_time_ms": 30401.962}, "date": "2025-08-31_01-56-27", "hostname": "cda-server-4", "time_this_iter_s": 32.822893381118774, "episodes_total": 6864, "timestamp": 1756598187, "node_ip": "10.157.146.4", "done": false, "time_total_s": 35144.236397743225, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1145, "episode_reward_mean": -617.1028925405459, "training_iteration": 1145, "timesteps_total": 1374000, "policy_reward_mean": {}, "episode_reward_min": -797.5044391740212, "timesteps_since_restore": 1374000, "num_metric_batches_dropped": 0, "time_since_restore": 35171.88030004501, "episode_reward_max": -486.4488002806889, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1374000, "default": {"kl": 0.010774167254567146, "policy_loss": -0.14671409130096436, "vf_loss": 165.34437561035156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9858932495117188, "entropy": 6.662939071655273, "cur_lr": 4.999999873689376e-05, "total_loss": 165.2140350341797}, "load_time_ms": 0.59, "num_steps_sampled": 1374000, "grad_time_ms": 623.518, "update_time_ms": 2.34, "sample_time_ms": 30126.43}, "date": "2025-08-31_01-56-55", "hostname": "cda-server-4", "time_this_iter_s": 27.64390230178833, "episodes_total": 6870, "timestamp": 1756598215, "node_ip": "10.157.146.4", "done": false, "time_total_s": 35171.88030004501, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1146, "episode_reward_mean": -616.6858030440113, "training_iteration": 1146, "timesteps_total": 1375200, "policy_reward_mean": {}, "episode_reward_min": -797.5044391740212, "timesteps_since_restore": 1375200, "num_metric_batches_dropped": 0, "time_since_restore": 35200.3395075798, "episode_reward_max": -486.4488002806889, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1375200, "default": {"kl": 0.008363377302885056, "policy_loss": -0.11007189005613327, "vf_loss": 317.8153991699219, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9543959498405457, "entropy": 6.696533203125, "cur_lr": 4.999999873689376e-05, "total_loss": 317.718017578125}, "load_time_ms": 0.591, "num_steps_sampled": 1375200, "grad_time_ms": 609.715, "update_time_ms": 2.363, "sample_time_ms": 30012.178}, "date": "2025-08-31_01-57-23", "hostname": "cda-server-4", "time_this_iter_s": 28.45920753479004, "episodes_total": 6876, "timestamp": 1756598243, "node_ip": "10.157.146.4", "done": false, "time_total_s": 35200.3395075798, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1147, "episode_reward_mean": -616.6534210652158, "training_iteration": 1147, "timesteps_total": 1376400, "policy_reward_mean": {}, "episode_reward_min": -797.5044391740212, "timesteps_since_restore": 1376400, "num_metric_batches_dropped": 0, "time_since_restore": 35231.928940057755, "episode_reward_max": -486.4488002806889, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1376400, "default": {"kl": 0.009224653244018555, "policy_loss": -0.11675059795379639, "vf_loss": 68.218505859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9926941394805908, "entropy": 6.581850051879883, "cur_lr": 4.999999873689376e-05, "total_loss": 68.11576843261719}, "load_time_ms": 0.583, "num_steps_sampled": 1376400, "grad_time_ms": 611.064, "update_time_ms": 2.336, "sample_time_ms": 30073.977}, "date": "2025-08-31_01-57-55", "hostname": "cda-server-4", "time_this_iter_s": 31.58943247795105, "episodes_total": 6882, "timestamp": 1756598275, "node_ip": "10.157.146.4", "done": false, "time_total_s": 35231.928940057755, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1148, "episode_reward_mean": -616.7191698455374, "training_iteration": 1148, "timesteps_total": 1377600, "policy_reward_mean": {}, "episode_reward_min": -797.5044391740212, "timesteps_since_restore": 1377600, "num_metric_batches_dropped": 0, "time_since_restore": 35263.724316358566, "episode_reward_max": -486.4488002806889, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1377600, "default": {"kl": 0.007777214050292969, "policy_loss": -0.10855009406805038, "vf_loss": 241.94737243652344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.976039469242096, "entropy": 6.8010382652282715, "cur_lr": 4.999999873689376e-05, "total_loss": 241.8506622314453}, "load_time_ms": 0.578, "num_steps_sampled": 1377600, "grad_time_ms": 610.135, "update_time_ms": 2.412, "sample_time_ms": 30256.913}, "date": "2025-08-31_01-58-26", "hostname": "cda-server-4", "time_this_iter_s": 31.795376300811768, "episodes_total": 6888, "timestamp": 1756598306, "node_ip": "10.157.146.4", "done": false, "time_total_s": 35263.724316358566, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1149, "episode_reward_mean": -615.446230784448, "training_iteration": 1149, "timesteps_total": 1378800, "policy_reward_mean": {}, "episode_reward_min": -683.0792106073068, "timesteps_since_restore": 1378800, "num_metric_batches_dropped": 0, "time_since_restore": 35294.84992599487, "episode_reward_max": -486.4488002806889, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1378800, "default": {"kl": 0.009054825641214848, "policy_loss": -0.13377222418785095, "vf_loss": 136.12649536132812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9904988408088684, "entropy": 6.707151412963867, "cur_lr": 4.999999873689376e-05, "total_loss": 136.00645446777344}, "load_time_ms": 0.575, "num_steps_sampled": 1378800, "grad_time_ms": 612.727, "update_time_ms": 2.411, "sample_time_ms": 30093.912}, "date": "2025-08-31_01-58-58", "hostname": "cda-server-4", "time_this_iter_s": 31.125609636306763, "episodes_total": 6894, "timestamp": 1756598338, "node_ip": "10.157.146.4", "done": false, "time_total_s": 35294.84992599487, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1150, "episode_reward_mean": -615.2162812310844, "training_iteration": 1150, "timesteps_total": 1380000, "policy_reward_mean": {}, "episode_reward_min": -683.0792106073068, "timesteps_since_restore": 1380000, "num_metric_batches_dropped": 0, "time_since_restore": 35326.41791296005, "episode_reward_max": -486.4488002806889, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1380000, "default": {"kl": 0.010917183943092823, "policy_loss": -0.12849737703800201, "vf_loss": 78.89606475830078, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9893967509269714, "entropy": 6.5749030113220215, "cur_lr": 4.999999873689376e-05, "total_loss": 78.78414916992188}, "load_time_ms": 0.574, "num_steps_sampled": 1380000, "grad_time_ms": 617.47, "update_time_ms": 2.405, "sample_time_ms": 30182.668}, "date": "2025-08-31_01-59-29", "hostname": "cda-server-4", "time_this_iter_s": 31.567986965179443, "episodes_total": 6900, "timestamp": 1756598369, "node_ip": "10.157.146.4", "done": false, "time_total_s": 35326.41791296005, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1151, "episode_reward_mean": -615.3042068429683, "training_iteration": 1151, "timesteps_total": 1381200, "policy_reward_mean": {}, "episode_reward_min": -683.0792106073068, "timesteps_since_restore": 1381200, "num_metric_batches_dropped": 0, "time_since_restore": 35355.68327951431, "episode_reward_max": -486.4488002806889, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1381200, "default": {"kl": 0.008698729798197746, "policy_loss": -0.13016118109226227, "vf_loss": 133.61708068847656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9848461151123047, "entropy": 6.903947830200195, "cur_lr": 4.999999873689376e-05, "total_loss": 133.50010681152344}, "load_time_ms": 0.578, "num_steps_sampled": 1381200, "grad_time_ms": 639.995, "update_time_ms": 2.376, "sample_time_ms": 29917.768}, "date": "2025-08-31_01-59-58", "hostname": "cda-server-4", "time_this_iter_s": 29.265366554260254, "episodes_total": 6906, "timestamp": 1756598398, "node_ip": "10.157.146.4", "done": false, "time_total_s": 35355.68327951431, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1152, "episode_reward_mean": -615.0334534453652, "training_iteration": 1152, "timesteps_total": 1382400, "policy_reward_mean": {}, "episode_reward_min": -683.0792106073068, "timesteps_since_restore": 1382400, "num_metric_batches_dropped": 0, "time_since_restore": 35386.216797590256, "episode_reward_max": -486.4488002806889, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1382400, "default": {"kl": 0.009260986000299454, "policy_loss": -0.12643340229988098, "vf_loss": 301.3128662109375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9690166115760803, "entropy": 6.940607070922852, "cur_lr": 4.999999873689376e-05, "total_loss": 301.20050048828125}, "load_time_ms": 0.597, "num_steps_sampled": 1382400, "grad_time_ms": 664.145, "update_time_ms": 2.406, "sample_time_ms": 29890.306}, "date": "2025-08-31_02-00-29", "hostname": "cda-server-4", "time_this_iter_s": 30.533518075942993, "episodes_total": 6912, "timestamp": 1756598429, "node_ip": "10.157.146.4", "done": false, "time_total_s": 35386.216797590256, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1153, "episode_reward_mean": -614.4296045751242, "training_iteration": 1153, "timesteps_total": 1383600, "policy_reward_mean": {}, "episode_reward_min": -683.0792106073068, "timesteps_since_restore": 1383600, "num_metric_batches_dropped": 0, "time_since_restore": 35417.0353243351, "episode_reward_max": -486.4488002806889, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1383600, "default": {"kl": 0.008826685138046741, "policy_loss": -0.12241068482398987, "vf_loss": 638.466064453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9749529957771301, "entropy": 6.313662052154541, "cur_lr": 4.999999873689376e-05, "total_loss": 638.3571166992188}, "load_time_ms": 0.629, "num_steps_sampled": 1383600, "grad_time_ms": 673.32, "update_time_ms": 2.337, "sample_time_ms": 29881.894}, "date": "2025-08-31_02-01-00", "hostname": "cda-server-4", "time_this_iter_s": 30.81852674484253, "episodes_total": 6918, "timestamp": 1756598460, "node_ip": "10.157.146.4", "done": false, "time_total_s": 35417.0353243351, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1154, "episode_reward_mean": -614.9995862937817, "training_iteration": 1154, "timesteps_total": 1384800, "policy_reward_mean": {}, "episode_reward_min": -683.0792106073068, "timesteps_since_restore": 1384800, "num_metric_batches_dropped": 0, "time_since_restore": 35451.25091481209, "episode_reward_max": -486.4488002806889, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1384800, "default": {"kl": 0.0105208121240139, "policy_loss": -0.11411616206169128, "vf_loss": 128.6576690673828, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9803874492645264, "entropy": 6.467855453491211, "cur_lr": 4.999999873689376e-05, "total_loss": 128.55953979492188}, "load_time_ms": 0.63, "num_steps_sampled": 1384800, "grad_time_ms": 681.985, "update_time_ms": 2.362, "sample_time_ms": 30012.362}, "date": "2025-08-31_02-01-34", "hostname": "cda-server-4", "time_this_iter_s": 34.215590476989746, "episodes_total": 6924, "timestamp": 1756598494, "node_ip": "10.157.146.4", "done": false, "time_total_s": 35451.25091481209, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1155, "episode_reward_mean": -615.5784415928937, "training_iteration": 1155, "timesteps_total": 1386000, "policy_reward_mean": {}, "episode_reward_min": -683.0792106073068, "timesteps_since_restore": 1386000, "num_metric_batches_dropped": 0, "time_since_restore": 35482.4861664772, "episode_reward_max": -486.4488002806889, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1386000, "default": {"kl": 0.010424850508570671, "policy_loss": -0.12496806681156158, "vf_loss": 110.79617309570312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9896990656852722, "entropy": 6.688895225524902, "cur_lr": 4.999999873689376e-05, "total_loss": 110.6870346069336}, "load_time_ms": 0.625, "num_steps_sampled": 1386000, "grad_time_ms": 682.246, "update_time_ms": 2.446, "sample_time_ms": 30371.155}, "date": "2025-08-31_02-02-05", "hostname": "cda-server-4", "time_this_iter_s": 31.235251665115356, "episodes_total": 6930, "timestamp": 1756598525, "node_ip": "10.157.146.4", "done": false, "time_total_s": 35482.4861664772, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1156, "episode_reward_mean": -615.0868153014045, "training_iteration": 1156, "timesteps_total": 1387200, "policy_reward_mean": {}, "episode_reward_min": -683.0792106073068, "timesteps_since_restore": 1387200, "num_metric_batches_dropped": 0, "time_since_restore": 35513.66921567917, "episode_reward_max": -486.4488002806889, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1387200, "default": {"kl": 0.011660140007734299, "policy_loss": -0.14184413850307465, "vf_loss": 45.48628616333008, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9944388270378113, "entropy": 6.374484539031982, "cur_lr": 4.999999873689376e-05, "total_loss": 45.36214828491211}, "load_time_ms": 0.655, "num_steps_sampled": 1387200, "grad_time_ms": 682.368, "update_time_ms": 2.461, "sample_time_ms": 30643.323}, "date": "2025-08-31_02-02-37", "hostname": "cda-server-4", "time_this_iter_s": 31.183049201965332, "episodes_total": 6936, "timestamp": 1756598557, "node_ip": "10.157.146.4", "done": false, "time_total_s": 35513.66921567917, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1157, "episode_reward_mean": -616.5362265004819, "training_iteration": 1157, "timesteps_total": 1388400, "policy_reward_mean": {}, "episode_reward_min": -777.0560566619906, "timesteps_since_restore": 1388400, "num_metric_batches_dropped": 0, "time_since_restore": 35545.00969457626, "episode_reward_max": -486.4488002806889, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1388400, "default": {"kl": 0.011438556015491486, "policy_loss": -0.14367130398750305, "vf_loss": 1161.53076171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9092187881469727, "entropy": 6.6904191970825195, "cur_lr": 4.999999873689376e-05, "total_loss": 1161.404541015625}, "load_time_ms": 0.659, "num_steps_sampled": 1388400, "grad_time_ms": 677.35, "update_time_ms": 2.429, "sample_time_ms": 30623.402}, "date": "2025-08-31_02-03-08", "hostname": "cda-server-4", "time_this_iter_s": 31.340478897094727, "episodes_total": 6942, "timestamp": 1756598588, "node_ip": "10.157.146.4", "done": false, "time_total_s": 35545.00969457626, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1158, "episode_reward_mean": -616.7549785141606, "training_iteration": 1158, "timesteps_total": 1389600, "policy_reward_mean": {}, "episode_reward_min": -777.0560566619906, "timesteps_since_restore": 1389600, "num_metric_batches_dropped": 0, "time_since_restore": 35574.46993947029, "episode_reward_max": -486.4488002806889, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1389600, "default": {"kl": 0.009841855615377426, "policy_loss": -0.14583200216293335, "vf_loss": 92.00363159179688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9914221167564392, "entropy": 6.85841178894043, "cur_lr": 4.999999873689376e-05, "total_loss": 91.87274169921875}, "load_time_ms": 0.666, "num_steps_sampled": 1389600, "grad_time_ms": 676.061, "update_time_ms": 2.38, "sample_time_ms": 30391.266}, "date": "2025-08-31_02-03-37", "hostname": "cda-server-4", "time_this_iter_s": 29.46024489402771, "episodes_total": 6948, "timestamp": 1756598617, "node_ip": "10.157.146.4", "done": false, "time_total_s": 35574.46993947029, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1159, "episode_reward_mean": -616.9064439770586, "training_iteration": 1159, "timesteps_total": 1390800, "policy_reward_mean": {}, "episode_reward_min": -777.0560566619906, "timesteps_since_restore": 1390800, "num_metric_batches_dropped": 0, "time_since_restore": 35603.554698228836, "episode_reward_max": -486.4488002806889, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1390800, "default": {"kl": 0.01242806576192379, "policy_loss": -0.15865108370780945, "vf_loss": 218.81517028808594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9774565100669861, "entropy": 6.814303398132324, "cur_lr": 4.999999873689376e-05, "total_loss": 218.67539978027344}, "load_time_ms": 0.671, "num_steps_sampled": 1390800, "grad_time_ms": 655.325, "update_time_ms": 2.346, "sample_time_ms": 30207.901}, "date": "2025-08-31_02-04-06", "hostname": "cda-server-4", "time_this_iter_s": 29.084758758544922, "episodes_total": 6954, "timestamp": 1756598646, "node_ip": "10.157.146.4", "done": false, "time_total_s": 35603.554698228836, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1160, "episode_reward_mean": -615.4736360943207, "training_iteration": 1160, "timesteps_total": 1392000, "policy_reward_mean": {}, "episode_reward_min": -777.0560566619906, "timesteps_since_restore": 1392000, "num_metric_batches_dropped": 0, "time_since_restore": 35632.305488824844, "episode_reward_max": -486.4488002806889, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1392000, "default": {"kl": 0.010317791253328323, "policy_loss": -0.14058303833007812, "vf_loss": 186.8959503173828, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9866130352020264, "entropy": 6.9755859375, "cur_lr": 4.999999873689376e-05, "total_loss": 186.77105712890625}, "load_time_ms": 0.697, "num_steps_sampled": 1392000, "grad_time_ms": 652.894, "update_time_ms": 2.383, "sample_time_ms": 29928.553}, "date": "2025-08-31_02-04-35", "hostname": "cda-server-4", "time_this_iter_s": 28.7507905960083, "episodes_total": 6960, "timestamp": 1756598675, "node_ip": "10.157.146.4", "done": false, "time_total_s": 35632.305488824844, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1161, "episode_reward_mean": -615.9499133012002, "training_iteration": 1161, "timesteps_total": 1393200, "policy_reward_mean": {}, "episode_reward_min": -777.0560566619906, "timesteps_since_restore": 1393200, "num_metric_batches_dropped": 0, "time_since_restore": 35662.84237551689, "episode_reward_max": -541.1883386845803, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1393200, "default": {"kl": 0.011435880325734615, "policy_loss": -0.1239674910902977, "vf_loss": 273.2658386230469, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9698169231414795, "entropy": 6.699565410614014, "cur_lr": 4.999999873689376e-05, "total_loss": 273.15924072265625}, "load_time_ms": 0.699, "num_steps_sampled": 1393200, "grad_time_ms": 651.459, "update_time_ms": 2.496, "sample_time_ms": 30057.025}, "date": "2025-08-31_02-05-06", "hostname": "cda-server-4", "time_this_iter_s": 30.53688669204712, "episodes_total": 6966, "timestamp": 1756598706, "node_ip": "10.157.146.4", "done": false, "time_total_s": 35662.84237551689, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1162, "episode_reward_mean": -618.1096000188078, "training_iteration": 1162, "timesteps_total": 1394400, "policy_reward_mean": {}, "episode_reward_min": -793.6845475425754, "timesteps_since_restore": 1394400, "num_metric_batches_dropped": 0, "time_since_restore": 35693.50382208824, "episode_reward_max": -541.1883386845803, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1394400, "default": {"kl": 0.010458282195031643, "policy_loss": -0.13310378789901733, "vf_loss": 476.8254089355469, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9526146650314331, "entropy": 6.602046966552734, "cur_lr": 4.999999873689376e-05, "total_loss": 476.7082214355469}, "load_time_ms": 0.686, "num_steps_sampled": 1394400, "grad_time_ms": 642.694, "update_time_ms": 2.406, "sample_time_ms": 30078.739}, "date": "2025-08-31_02-05-37", "hostname": "cda-server-4", "time_this_iter_s": 30.661446571350098, "episodes_total": 6972, "timestamp": 1756598737, "node_ip": "10.157.146.4", "done": false, "time_total_s": 35693.50382208824, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1163, "episode_reward_mean": -617.9328643813263, "training_iteration": 1163, "timesteps_total": 1395600, "policy_reward_mean": {}, "episode_reward_min": -793.6845475425754, "timesteps_since_restore": 1395600, "num_metric_batches_dropped": 0, "time_since_restore": 35723.736228227615, "episode_reward_max": -541.1883386845803, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1395600, "default": {"kl": 0.009389117360115051, "policy_loss": -0.12842005491256714, "vf_loss": 72.67515563964844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9910851716995239, "entropy": 6.4367852210998535, "cur_lr": 4.999999873689376e-05, "total_loss": 72.56098937988281}, "load_time_ms": 0.65, "num_steps_sampled": 1395600, "grad_time_ms": 649.068, "update_time_ms": 2.395, "sample_time_ms": 30013.887}, "date": "2025-08-31_02-06-07", "hostname": "cda-server-4", "time_this_iter_s": 30.23240613937378, "episodes_total": 6978, "timestamp": 1756598767, "node_ip": "10.157.146.4", "done": false, "time_total_s": 35723.736228227615, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1164, "episode_reward_mean": -617.8789592288208, "training_iteration": 1164, "timesteps_total": 1396800, "policy_reward_mean": {}, "episode_reward_min": -793.6845475425754, "timesteps_since_restore": 1396800, "num_metric_batches_dropped": 0, "time_since_restore": 35757.48871946335, "episode_reward_max": -541.1883386845803, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1396800, "default": {"kl": 0.008447827771306038, "policy_loss": -0.10818999260663986, "vf_loss": 194.22967529296875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9748724699020386, "entropy": 6.491098880767822, "cur_lr": 4.999999873689376e-05, "total_loss": 194.13433837890625}, "load_time_ms": 0.652, "num_steps_sampled": 1396800, "grad_time_ms": 649.445, "update_time_ms": 2.32, "sample_time_ms": 29967.395}, "date": "2025-08-31_02-06-41", "hostname": "cda-server-4", "time_this_iter_s": 33.75249123573303, "episodes_total": 6984, "timestamp": 1756598801, "node_ip": "10.157.146.4", "done": false, "time_total_s": 35757.48871946335, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1165, "episode_reward_mean": -618.4068233245516, "training_iteration": 1165, "timesteps_total": 1398000, "policy_reward_mean": {}, "episode_reward_min": -793.6845475425754, "timesteps_since_restore": 1398000, "num_metric_batches_dropped": 0, "time_since_restore": 35785.709186792374, "episode_reward_max": -541.1883386845803, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1398000, "default": {"kl": 0.00783204659819603, "policy_loss": -0.12147312611341476, "vf_loss": 260.99591064453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9653943181037903, "entropy": 6.963979721069336, "cur_lr": 4.999999873689376e-05, "total_loss": 260.8863220214844}, "load_time_ms": 0.685, "num_steps_sampled": 1398000, "grad_time_ms": 669.242, "update_time_ms": 2.229, "sample_time_ms": 29646.197}, "date": "2025-08-31_02-07-09", "hostname": "cda-server-4", "time_this_iter_s": 28.22046732902527, "episodes_total": 6990, "timestamp": 1756598829, "node_ip": "10.157.146.4", "done": false, "time_total_s": 35785.709186792374, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1166, "episode_reward_mean": -617.4096046304878, "training_iteration": 1166, "timesteps_total": 1399200, "policy_reward_mean": {}, "episode_reward_min": -793.6845475425754, "timesteps_since_restore": 1399200, "num_metric_batches_dropped": 0, "time_since_restore": 35815.488488674164, "episode_reward_max": -541.1883386845803, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1399200, "default": {"kl": 0.01328208576887846, "policy_loss": -0.15493279695510864, "vf_loss": 182.08197021484375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9872419834136963, "entropy": 6.402498245239258, "cur_lr": 4.999999873689376e-05, "total_loss": 181.94720458984375}, "load_time_ms": 0.656, "num_steps_sampled": 1399200, "grad_time_ms": 689.465, "update_time_ms": 2.204, "sample_time_ms": 29485.712}, "date": "2025-08-31_02-07-39", "hostname": "cda-server-4", "time_this_iter_s": 29.77930188179016, "episodes_total": 6996, "timestamp": 1756598859, "node_ip": "10.157.146.4", "done": false, "time_total_s": 35815.488488674164, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1167, "episode_reward_mean": -614.8148825580854, "training_iteration": 1167, "timesteps_total": 1400400, "policy_reward_mean": {}, "episode_reward_min": -793.6845475425754, "timesteps_since_restore": 1400400, "num_metric_batches_dropped": 0, "time_since_restore": 35847.15464258194, "episode_reward_max": -521.1167368108609, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1400400, "default": {"kl": 0.01062859408557415, "policy_loss": -0.1249360740184784, "vf_loss": 170.46885681152344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9803333282470703, "entropy": 6.5157623291015625, "cur_lr": 4.999999873689376e-05, "total_loss": 170.36004638671875}, "load_time_ms": 0.654, "num_steps_sampled": 1400400, "grad_time_ms": 683.711, "update_time_ms": 2.21, "sample_time_ms": 29524.063}, "date": "2025-08-31_02-08-10", "hostname": "cda-server-4", "time_this_iter_s": 31.66615390777588, "episodes_total": 7002, "timestamp": 1756598890, "node_ip": "10.157.146.4", "done": false, "time_total_s": 35847.15464258194, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1168, "episode_reward_mean": -614.4128350406334, "training_iteration": 1168, "timesteps_total": 1401600, "policy_reward_mean": {}, "episode_reward_min": -793.6845475425754, "timesteps_since_restore": 1401600, "num_metric_batches_dropped": 0, "time_since_restore": 35879.08573579788, "episode_reward_max": -521.1167368108609, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1401600, "default": {"kl": 0.011568726971745491, "policy_loss": -0.12543562054634094, "vf_loss": 240.08990478515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9766563773155212, "entropy": 6.38339900970459, "cur_lr": 4.999999873689376e-05, "total_loss": 239.98204040527344}, "load_time_ms": 0.661, "num_steps_sampled": 1401600, "grad_time_ms": 694.417, "update_time_ms": 2.191, "sample_time_ms": 29760.493}, "date": "2025-08-31_02-08-42", "hostname": "cda-server-4", "time_this_iter_s": 31.931093215942383, "episodes_total": 7008, "timestamp": 1756598922, "node_ip": "10.157.146.4", "done": false, "time_total_s": 35879.08573579788, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1169, "episode_reward_mean": -615.4310813587422, "training_iteration": 1169, "timesteps_total": 1402800, "policy_reward_mean": {}, "episode_reward_min": -793.6845475425754, "timesteps_since_restore": 1402800, "num_metric_batches_dropped": 0, "time_since_restore": 35909.316663980484, "episode_reward_max": -521.1167368108609, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1402800, "default": {"kl": 0.011388571932911873, "policy_loss": -0.15143850445747375, "vf_loss": 205.49481201171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9819146394729614, "entropy": 6.856208801269531, "cur_lr": 4.999999873689376e-05, "total_loss": 205.36065673828125}, "load_time_ms": 0.663, "num_steps_sampled": 1402800, "grad_time_ms": 697.648, "update_time_ms": 2.314, "sample_time_ms": 29871.799}, "date": "2025-08-31_02-09-12", "hostname": "cda-server-4", "time_this_iter_s": 30.23092818260193, "episodes_total": 7014, "timestamp": 1756598952, "node_ip": "10.157.146.4", "done": false, "time_total_s": 35909.316663980484, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1170, "episode_reward_mean": -616.5211983400087, "training_iteration": 1170, "timesteps_total": 1404000, "policy_reward_mean": {}, "episode_reward_min": -793.6845475425754, "timesteps_since_restore": 1404000, "num_metric_batches_dropped": 0, "time_since_restore": 35940.64692568779, "episode_reward_max": -521.1167368108609, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1404000, "default": {"kl": 0.010095306672155857, "policy_loss": -0.14556492865085602, "vf_loss": 56.59641647338867, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9958594441413879, "entropy": 6.6449480056762695, "cur_lr": 4.999999873689376e-05, "total_loss": 56.4661865234375}, "load_time_ms": 0.641, "num_steps_sampled": 1404000, "grad_time_ms": 692.408, "update_time_ms": 2.249, "sample_time_ms": 30135.086}, "date": "2025-08-31_02-09-44", "hostname": "cda-server-4", "time_this_iter_s": 31.330261707305908, "episodes_total": 7020, "timestamp": 1756598984, "node_ip": "10.157.146.4", "done": false, "time_total_s": 35940.64692568779, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1171, "episode_reward_mean": -614.7327527519521, "training_iteration": 1171, "timesteps_total": 1405200, "policy_reward_mean": {}, "episode_reward_min": -793.6845475425754, "timesteps_since_restore": 1405200, "num_metric_batches_dropped": 0, "time_since_restore": 35971.99820923805, "episode_reward_max": -521.1167368108609, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1405200, "default": {"kl": 0.01282771397382021, "policy_loss": -0.14161837100982666, "vf_loss": 220.04185485839844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9834263324737549, "entropy": 6.5499491691589355, "cur_lr": 4.999999873689376e-05, "total_loss": 219.9197235107422}, "load_time_ms": 0.643, "num_steps_sampled": 1405200, "grad_time_ms": 680.483, "update_time_ms": 2.171, "sample_time_ms": 30228.45}, "date": "2025-08-31_02-10-15", "hostname": "cda-server-4", "time_this_iter_s": 31.35128355026245, "episodes_total": 7026, "timestamp": 1756599015, "node_ip": "10.157.146.4", "done": false, "time_total_s": 35971.99820923805, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1172, "episode_reward_mean": -614.0134828031495, "training_iteration": 1172, "timesteps_total": 1406400, "policy_reward_mean": {}, "episode_reward_min": -793.6845475425754, "timesteps_since_restore": 1406400, "num_metric_batches_dropped": 0, "time_since_restore": 36001.06973528862, "episode_reward_max": -521.1167368108609, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1406400, "default": {"kl": 0.010659039951860905, "policy_loss": -0.13654309511184692, "vf_loss": 56.73310470581055, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9934065937995911, "entropy": 6.426513671875, "cur_lr": 4.999999873689376e-05, "total_loss": 56.61274719238281}, "load_time_ms": 0.642, "num_steps_sampled": 1406400, "grad_time_ms": 672.165, "update_time_ms": 2.261, "sample_time_ms": 30077.568}, "date": "2025-08-31_02-10-44", "hostname": "cda-server-4", "time_this_iter_s": 29.071526050567627, "episodes_total": 7032, "timestamp": 1756599044, "node_ip": "10.157.146.4", "done": false, "time_total_s": 36001.06973528862, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1173, "episode_reward_mean": -613.5386640355811, "training_iteration": 1173, "timesteps_total": 1407600, "policy_reward_mean": {}, "episode_reward_min": -793.6845475425754, "timesteps_since_restore": 1407600, "num_metric_batches_dropped": 0, "time_since_restore": 36029.165610075, "episode_reward_max": -521.1167368108609, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1407600, "default": {"kl": 0.009500202722847462, "policy_loss": -0.13051892817020416, "vf_loss": 904.3231201171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9116788506507874, "entropy": 6.780632972717285, "cur_lr": 4.999999873689376e-05, "total_loss": 904.20703125}, "load_time_ms": 0.667, "num_steps_sampled": 1407600, "grad_time_ms": 666.302, "update_time_ms": 2.306, "sample_time_ms": 29869.64}, "date": "2025-08-31_02-11-12", "hostname": "cda-server-4", "time_this_iter_s": 28.095874786376953, "episodes_total": 7038, "timestamp": 1756599072, "node_ip": "10.157.146.4", "done": false, "time_total_s": 36029.165610075, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1174, "episode_reward_mean": -613.5557654703699, "training_iteration": 1174, "timesteps_total": 1408800, "policy_reward_mean": {}, "episode_reward_min": -793.6845475425754, "timesteps_since_restore": 1408800, "num_metric_batches_dropped": 0, "time_since_restore": 36058.67369270325, "episode_reward_max": -521.1167368108609, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1408800, "default": {"kl": 0.008903170935809612, "policy_loss": -0.14042623341083527, "vf_loss": 171.58409118652344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9869896769523621, "entropy": 6.553966045379639, "cur_lr": 4.999999873689376e-05, "total_loss": 171.4571990966797}, "load_time_ms": 0.668, "num_steps_sampled": 1408800, "grad_time_ms": 670.152, "update_time_ms": 2.323, "sample_time_ms": 29441.285}, "date": "2025-08-31_02-11-42", "hostname": "cda-server-4", "time_this_iter_s": 29.508082628250122, "episodes_total": 7044, "timestamp": 1756599102, "node_ip": "10.157.146.4", "done": false, "time_total_s": 36058.67369270325, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1175, "episode_reward_mean": -614.4154620425383, "training_iteration": 1175, "timesteps_total": 1410000, "policy_reward_mean": {}, "episode_reward_min": -793.6845475425754, "timesteps_since_restore": 1410000, "num_metric_batches_dropped": 0, "time_since_restore": 36092.05082011223, "episode_reward_max": -521.1167368108609, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1410000, "default": {"kl": 0.010018477216362953, "policy_loss": -0.14145317673683167, "vf_loss": 327.98858642578125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9841184616088867, "entropy": 6.645496368408203, "cur_lr": 4.999999873689376e-05, "total_loss": 327.86236572265625}, "load_time_ms": 0.644, "num_steps_sampled": 1410000, "grad_time_ms": 662.185, "update_time_ms": 2.345, "sample_time_ms": 29964.865}, "date": "2025-08-31_02-12-15", "hostname": "cda-server-4", "time_this_iter_s": 33.37712740898132, "episodes_total": 7050, "timestamp": 1756599135, "node_ip": "10.157.146.4", "done": false, "time_total_s": 36092.05082011223, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1176, "episode_reward_mean": -613.5011022711171, "training_iteration": 1176, "timesteps_total": 1411200, "policy_reward_mean": {}, "episode_reward_min": -793.6845475425754, "timesteps_since_restore": 1411200, "num_metric_batches_dropped": 0, "time_since_restore": 36124.62738132477, "episode_reward_max": -521.1167368108609, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1411200, "default": {"kl": 0.008809677325189114, "policy_loss": -0.13205955922603607, "vf_loss": 327.7359619140625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9565261006355286, "entropy": 6.73250150680542, "cur_lr": 4.999999873689376e-05, "total_loss": 327.6173095703125}, "load_time_ms": 0.674, "num_steps_sampled": 1411200, "grad_time_ms": 663.7, "update_time_ms": 2.313, "sample_time_ms": 30243.014}, "date": "2025-08-31_02-12-48", "hostname": "cda-server-4", "time_this_iter_s": 32.57656121253967, "episodes_total": 7056, "timestamp": 1756599168, "node_ip": "10.157.146.4", "done": false, "time_total_s": 36124.62738132477, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1177, "episode_reward_mean": -614.9855842328234, "training_iteration": 1177, "timesteps_total": 1412400, "policy_reward_mean": {}, "episode_reward_min": -793.6845475425754, "timesteps_since_restore": 1412400, "num_metric_batches_dropped": 0, "time_since_restore": 36155.200910806656, "episode_reward_max": -521.1167368108609, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1412400, "default": {"kl": 0.011650375090539455, "policy_loss": -0.13666322827339172, "vf_loss": 738.5380249023438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9287458062171936, "entropy": 6.6306257247924805, "cur_lr": 4.999999873689376e-05, "total_loss": 738.4190673828125}, "load_time_ms": 0.675, "num_steps_sampled": 1412400, "grad_time_ms": 675.985, "update_time_ms": 2.308, "sample_time_ms": 30121.462}, "date": "2025-08-31_02-13-18", "hostname": "cda-server-4", "time_this_iter_s": 30.573529481887817, "episodes_total": 7062, "timestamp": 1756599198, "node_ip": "10.157.146.4", "done": false, "time_total_s": 36155.200910806656, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1178, "episode_reward_mean": -614.8729585823899, "training_iteration": 1178, "timesteps_total": 1413600, "policy_reward_mean": {}, "episode_reward_min": -793.6845475425754, "timesteps_since_restore": 1413600, "num_metric_batches_dropped": 0, "time_since_restore": 36186.4825425148, "episode_reward_max": -521.1167368108609, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1413600, "default": {"kl": 0.008795622736215591, "policy_loss": -0.11985700577497482, "vf_loss": 385.260986328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9750227332115173, "entropy": 6.586745262145996, "cur_lr": 4.999999873689376e-05, "total_loss": 385.1544494628906}, "load_time_ms": 0.669, "num_steps_sampled": 1413600, "grad_time_ms": 651.3, "update_time_ms": 2.381, "sample_time_ms": 30081.157}, "date": "2025-08-31_02-13-50", "hostname": "cda-server-4", "time_this_iter_s": 31.28163170814514, "episodes_total": 7068, "timestamp": 1756599230, "node_ip": "10.157.146.4", "done": false, "time_total_s": 36186.4825425148, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1179, "episode_reward_mean": -613.5683636390563, "training_iteration": 1179, "timesteps_total": 1414800, "policy_reward_mean": {}, "episode_reward_min": -792.9367333486649, "timesteps_since_restore": 1414800, "num_metric_batches_dropped": 0, "time_since_restore": 36214.26136827469, "episode_reward_max": -521.1167368108609, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1414800, "default": {"kl": 0.011411896906793118, "policy_loss": -0.1430392563343048, "vf_loss": 92.3613510131836, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9919455647468567, "entropy": 6.5239715576171875, "cur_lr": 4.999999873689376e-05, "total_loss": 92.23563385009766}, "load_time_ms": 0.666, "num_steps_sampled": 1414800, "grad_time_ms": 656.371, "update_time_ms": 2.255, "sample_time_ms": 29830.958}, "date": "2025-08-31_02-14-18", "hostname": "cda-server-4", "time_this_iter_s": 27.778825759887695, "episodes_total": 7074, "timestamp": 1756599258, "node_ip": "10.157.146.4", "done": false, "time_total_s": 36214.26136827469, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1180, "episode_reward_mean": -613.6641676719348, "training_iteration": 1180, "timesteps_total": 1416000, "policy_reward_mean": {}, "episode_reward_min": -792.9367333486649, "timesteps_since_restore": 1416000, "num_metric_batches_dropped": 0, "time_since_restore": 36246.674461364746, "episode_reward_max": -521.1167368108609, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1416000, "default": {"kl": 0.011717000976204872, "policy_loss": -0.15069976449012756, "vf_loss": 530.761474609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9462975263595581, "entropy": 6.866905689239502, "cur_lr": 4.999999873689376e-05, "total_loss": 530.6285400390625}, "load_time_ms": 0.657, "num_steps_sampled": 1416000, "grad_time_ms": 645.005, "update_time_ms": 2.286, "sample_time_ms": 29950.558}, "date": "2025-08-31_02-14-50", "hostname": "cda-server-4", "time_this_iter_s": 32.41309309005737, "episodes_total": 7080, "timestamp": 1756599290, "node_ip": "10.157.146.4", "done": false, "time_total_s": 36246.674461364746, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1181, "episode_reward_mean": -613.8972335968047, "training_iteration": 1181, "timesteps_total": 1417200, "policy_reward_mean": {}, "episode_reward_min": -792.9367333486649, "timesteps_since_restore": 1417200, "num_metric_batches_dropped": 0, "time_since_restore": 36279.790442466736, "episode_reward_max": -521.1167368108609, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1417200, "default": {"kl": 0.01022540032863617, "policy_loss": -0.12136627733707428, "vf_loss": 439.6024475097656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.983422577381134, "entropy": 6.650886535644531, "cur_lr": 4.999999873689376e-05, "total_loss": 439.49664306640625}, "load_time_ms": 0.65, "num_steps_sampled": 1417200, "grad_time_ms": 645.287, "update_time_ms": 2.253, "sample_time_ms": 30126.781}, "date": "2025-08-31_02-15-23", "hostname": "cda-server-4", "time_this_iter_s": 33.115981101989746, "episodes_total": 7086, "timestamp": 1756599323, "node_ip": "10.157.146.4", "done": false, "time_total_s": 36279.790442466736, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1182, "episode_reward_mean": -615.2231766178052, "training_iteration": 1182, "timesteps_total": 1418400, "policy_reward_mean": {}, "episode_reward_min": -792.9367333486649, "timesteps_since_restore": 1418400, "num_metric_batches_dropped": 0, "time_since_restore": 36311.97126054764, "episode_reward_max": -521.1167368108609, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1418400, "default": {"kl": 0.009430285543203354, "policy_loss": -0.12887828052043915, "vf_loss": 418.6953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9516048431396484, "entropy": 6.66180419921875, "cur_lr": 4.999999873689376e-05, "total_loss": 418.5807189941406}, "load_time_ms": 0.651, "num_steps_sampled": 1418400, "grad_time_ms": 642.609, "update_time_ms": 2.253, "sample_time_ms": 30440.383}, "date": "2025-08-31_02-15-55", "hostname": "cda-server-4", "time_this_iter_s": 32.1808180809021, "episodes_total": 7092, "timestamp": 1756599355, "node_ip": "10.157.146.4", "done": false, "time_total_s": 36311.97126054764, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1183, "episode_reward_mean": -616.5228811213636, "training_iteration": 1183, "timesteps_total": 1419600, "policy_reward_mean": {}, "episode_reward_min": -792.9367333486649, "timesteps_since_restore": 1419600, "num_metric_batches_dropped": 0, "time_since_restore": 36341.500541210175, "episode_reward_max": -521.7345451272948, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1419600, "default": {"kl": 0.00981885101646185, "policy_loss": -0.13172030448913574, "vf_loss": 108.96133422851562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9863510131835938, "entropy": 6.525604248046875, "cur_lr": 4.999999873689376e-05, "total_loss": 108.84452056884766}, "load_time_ms": 0.633, "num_steps_sampled": 1419600, "grad_time_ms": 642.569, "update_time_ms": 2.208, "sample_time_ms": 30583.782}, "date": "2025-08-31_02-16-25", "hostname": "cda-server-4", "time_this_iter_s": 29.52928066253662, "episodes_total": 7098, "timestamp": 1756599385, "node_ip": "10.157.146.4", "done": false, "time_total_s": 36341.500541210175, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1184, "episode_reward_mean": -616.4843061964006, "training_iteration": 1184, "timesteps_total": 1420800, "policy_reward_mean": {}, "episode_reward_min": -792.9367333486649, "timesteps_since_restore": 1420800, "num_metric_batches_dropped": 0, "time_since_restore": 36374.658348321915, "episode_reward_max": -521.7345451272948, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1420800, "default": {"kl": 0.010181041434407234, "policy_loss": -0.13768689334392548, "vf_loss": 286.10723876953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9739024639129639, "entropy": 6.60783576965332, "cur_lr": 4.999999873689376e-05, "total_loss": 285.9849853515625}, "load_time_ms": 0.648, "num_steps_sampled": 1420800, "grad_time_ms": 642.517, "update_time_ms": 2.267, "sample_time_ms": 30948.709}, "date": "2025-08-31_02-16-58", "hostname": "cda-server-4", "time_this_iter_s": 33.15780711174011, "episodes_total": 7104, "timestamp": 1756599418, "node_ip": "10.157.146.4", "done": false, "time_total_s": 36374.658348321915, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1185, "episode_reward_mean": -615.5036205236264, "training_iteration": 1185, "timesteps_total": 1422000, "policy_reward_mean": {}, "episode_reward_min": -792.9367333486649, "timesteps_since_restore": 1422000, "num_metric_batches_dropped": 0, "time_since_restore": 36407.64622306824, "episode_reward_max": -521.7345451272948, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1422000, "default": {"kl": 0.010044555179774761, "policy_loss": -0.14486341178417206, "vf_loss": 302.845703125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9650850296020508, "entropy": 6.584146976470947, "cur_lr": 4.999999873689376e-05, "total_loss": 302.7160949707031}, "load_time_ms": 0.663, "num_steps_sampled": 1422000, "grad_time_ms": 656.911, "update_time_ms": 2.309, "sample_time_ms": 30895.372}, "date": "2025-08-31_02-17-31", "hostname": "cda-server-4", "time_this_iter_s": 32.98787474632263, "episodes_total": 7110, "timestamp": 1756599451, "node_ip": "10.157.146.4", "done": false, "time_total_s": 36407.64622306824, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1186, "episode_reward_mean": -614.9899188708379, "training_iteration": 1186, "timesteps_total": 1423200, "policy_reward_mean": {}, "episode_reward_min": -792.9367333486649, "timesteps_since_restore": 1423200, "num_metric_batches_dropped": 0, "time_since_restore": 36435.570991277695, "episode_reward_max": -521.7345451272948, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1423200, "default": {"kl": 0.012405764311552048, "policy_loss": -0.1554926484823227, "vf_loss": 235.51663208007812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9701128005981445, "entropy": 6.695984840393066, "cur_lr": 4.999999873689376e-05, "total_loss": 235.37998962402344}, "load_time_ms": 0.639, "num_steps_sampled": 1423200, "grad_time_ms": 645.988, "update_time_ms": 2.402, "sample_time_ms": 30441.051}, "date": "2025-08-31_02-17-59", "hostname": "cda-server-4", "time_this_iter_s": 27.924768209457397, "episodes_total": 7116, "timestamp": 1756599479, "node_ip": "10.157.146.4", "done": false, "time_total_s": 36435.570991277695, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1187, "episode_reward_mean": -613.1416676814572, "training_iteration": 1187, "timesteps_total": 1424400, "policy_reward_mean": {}, "episode_reward_min": -792.9367333486649, "timesteps_since_restore": 1424400, "num_metric_batches_dropped": 0, "time_since_restore": 36466.89553618431, "episode_reward_max": -521.7345451272948, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1424400, "default": {"kl": 0.01175668090581894, "policy_loss": -0.14071905612945557, "vf_loss": 285.4818115234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9792851209640503, "entropy": 6.453644752502441, "cur_lr": 4.999999873689376e-05, "total_loss": 285.35894775390625}, "load_time_ms": 0.647, "num_steps_sampled": 1424400, "grad_time_ms": 627.0, "update_time_ms": 2.476, "sample_time_ms": 30535.112}, "date": "2025-08-31_02-18-30", "hostname": "cda-server-4", "time_this_iter_s": 31.32454490661621, "episodes_total": 7122, "timestamp": 1756599510, "node_ip": "10.157.146.4", "done": false, "time_total_s": 36466.89553618431, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1188, "episode_reward_mean": -616.2829296493644, "training_iteration": 1188, "timesteps_total": 1425600, "policy_reward_mean": {}, "episode_reward_min": -792.9367333486649, "timesteps_since_restore": 1425600, "num_metric_batches_dropped": 0, "time_since_restore": 36498.19806432724, "episode_reward_max": -541.5082033595423, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1425600, "default": {"kl": 0.006318050902336836, "policy_loss": -0.08020952343940735, "vf_loss": 805.906494140625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.87375807762146, "entropy": 6.408655166625977, "cur_lr": 4.999999873689376e-05, "total_loss": 805.8358154296875}, "load_time_ms": 0.649, "num_steps_sampled": 1425600, "grad_time_ms": 634.587, "update_time_ms": 2.381, "sample_time_ms": 30529.644}, "date": "2025-08-31_02-19-02", "hostname": "cda-server-4", "time_this_iter_s": 31.302528142929077, "episodes_total": 7128, "timestamp": 1756599542, "node_ip": "10.157.146.4", "done": false, "time_total_s": 36498.19806432724, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1189, "episode_reward_mean": -615.5749985978468, "training_iteration": 1189, "timesteps_total": 1426800, "policy_reward_mean": {}, "episode_reward_min": -792.9367333486649, "timesteps_since_restore": 1426800, "num_metric_batches_dropped": 0, "time_since_restore": 36528.04072141647, "episode_reward_max": -541.5082033595423, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1426800, "default": {"kl": 0.0108720101416111, "policy_loss": -0.1414026916027069, "vf_loss": 54.97222137451172, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.992853045463562, "entropy": 6.354549884796143, "cur_lr": 4.999999873689376e-05, "total_loss": 54.84733581542969}, "load_time_ms": 0.64, "num_steps_sampled": 1426800, "grad_time_ms": 639.768, "update_time_ms": 2.419, "sample_time_ms": 30730.786}, "date": "2025-08-31_02-19-31", "hostname": "cda-server-4", "time_this_iter_s": 29.8426570892334, "episodes_total": 7134, "timestamp": 1756599571, "node_ip": "10.157.146.4", "done": false, "time_total_s": 36528.04072141647, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1190, "episode_reward_mean": -617.1728991289942, "training_iteration": 1190, "timesteps_total": 1428000, "policy_reward_mean": {}, "episode_reward_min": -792.9367333486649, "timesteps_since_restore": 1428000, "num_metric_batches_dropped": 0, "time_since_restore": 36559.18474316597, "episode_reward_max": -541.5082033595423, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1428000, "default": {"kl": 0.011140676215291023, "policy_loss": -0.13634340465068817, "vf_loss": 448.0782470703125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9584320783615112, "entropy": 6.710151672363281, "cur_lr": 4.999999873689376e-05, "total_loss": 447.95880126953125}, "load_time_ms": 0.647, "num_steps_sampled": 1428000, "grad_time_ms": 643.713, "update_time_ms": 2.414, "sample_time_ms": 30599.988}, "date": "2025-08-31_02-20-03", "hostname": "cda-server-4", "time_this_iter_s": 31.14402174949646, "episodes_total": 7140, "timestamp": 1756599603, "node_ip": "10.157.146.4", "done": false, "time_total_s": 36559.18474316597, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1191, "episode_reward_mean": -616.2227105073036, "training_iteration": 1191, "timesteps_total": 1429200, "policy_reward_mean": {}, "episode_reward_min": -792.9367333486649, "timesteps_since_restore": 1429200, "num_metric_batches_dropped": 0, "time_since_restore": 36592.19420838356, "episode_reward_max": -541.5082033595423, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1429200, "default": {"kl": 0.009269597008824348, "policy_loss": -0.12208599597215652, "vf_loss": 348.1049499511719, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.962753176689148, "entropy": 6.285189151763916, "cur_lr": 4.999999873689376e-05, "total_loss": 347.9969482421875}, "load_time_ms": 0.657, "num_steps_sampled": 1429200, "grad_time_ms": 638.267, "update_time_ms": 2.446, "sample_time_ms": 30594.832}, "date": "2025-08-31_02-20-36", "hostname": "cda-server-4", "time_this_iter_s": 33.00946521759033, "episodes_total": 7146, "timestamp": 1756599636, "node_ip": "10.157.146.4", "done": false, "time_total_s": 36592.19420838356, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1192, "episode_reward_mean": -615.8325028104138, "training_iteration": 1192, "timesteps_total": 1430400, "policy_reward_mean": {}, "episode_reward_min": -792.9367333486649, "timesteps_since_restore": 1430400, "num_metric_batches_dropped": 0, "time_since_restore": 36626.0984249115, "episode_reward_max": -541.5082033595423, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1430400, "default": {"kl": 0.00899517722427845, "policy_loss": -0.11946593225002289, "vf_loss": 133.78187561035156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9805047512054443, "entropy": 6.24737024307251, "cur_lr": 4.999999873689376e-05, "total_loss": 133.67605590820312}, "load_time_ms": 0.645, "num_steps_sampled": 1430400, "grad_time_ms": 622.704, "update_time_ms": 2.406, "sample_time_ms": 30782.946}, "date": "2025-08-31_02-21-10", "hostname": "cda-server-4", "time_this_iter_s": 33.90421652793884, "episodes_total": 7152, "timestamp": 1756599670, "node_ip": "10.157.146.4", "done": false, "time_total_s": 36626.0984249115, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1193, "episode_reward_mean": -617.0067411582598, "training_iteration": 1193, "timesteps_total": 1431600, "policy_reward_mean": {}, "episode_reward_min": -792.9367333486649, "timesteps_since_restore": 1431600, "num_metric_batches_dropped": 0, "time_since_restore": 36654.058544397354, "episode_reward_max": -541.5082033595423, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1431600, "default": {"kl": 0.009864619001746178, "policy_loss": -0.14245669543743134, "vf_loss": 178.5244598388672, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9807984232902527, "entropy": 6.712246894836426, "cur_lr": 4.999999873689376e-05, "total_loss": 178.39697265625}, "load_time_ms": 0.636, "num_steps_sampled": 1431600, "grad_time_ms": 599.794, "update_time_ms": 2.481, "sample_time_ms": 30648.936}, "date": "2025-08-31_02-21-38", "hostname": "cda-server-4", "time_this_iter_s": 27.960119485855103, "episodes_total": 7158, "timestamp": 1756599698, "node_ip": "10.157.146.4", "done": false, "time_total_s": 36654.058544397354, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1194, "episode_reward_mean": -616.8141919069865, "training_iteration": 1194, "timesteps_total": 1432800, "policy_reward_mean": {}, "episode_reward_min": -776.0113901266323, "timesteps_since_restore": 1432800, "num_metric_batches_dropped": 0, "time_since_restore": 36683.75633645058, "episode_reward_max": -541.5082033595423, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1432800, "default": {"kl": 0.012237678281962872, "policy_loss": -0.16627109050750732, "vf_loss": 23.60331153869629, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9963760375976562, "entropy": 6.753268241882324, "cur_lr": 4.999999873689376e-05, "total_loss": 23.455629348754883}, "load_time_ms": 0.616, "num_steps_sampled": 1432800, "grad_time_ms": 574.574, "update_time_ms": 2.493, "sample_time_ms": 30328.195}, "date": "2025-08-31_02-22-07", "hostname": "cda-server-4", "time_this_iter_s": 29.697792053222656, "episodes_total": 7164, "timestamp": 1756599727, "node_ip": "10.157.146.4", "done": false, "time_total_s": 36683.75633645058, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1195, "episode_reward_mean": -617.4377963961584, "training_iteration": 1195, "timesteps_total": 1434000, "policy_reward_mean": {}, "episode_reward_min": -776.0113901266323, "timesteps_since_restore": 1434000, "num_metric_batches_dropped": 0, "time_since_restore": 36713.40245628357, "episode_reward_max": -541.5082033595423, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1434000, "default": {"kl": 0.012273896485567093, "policy_loss": -0.16016161441802979, "vf_loss": 173.4939727783203, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9853206276893616, "entropy": 6.464570999145508, "cur_lr": 4.999999873689376e-05, "total_loss": 173.35244750976562}, "load_time_ms": 0.592, "num_steps_sampled": 1434000, "grad_time_ms": 554.442, "update_time_ms": 2.484, "sample_time_ms": 30014.187}, "date": "2025-08-31_02-22-37", "hostname": "cda-server-4", "time_this_iter_s": 29.646119832992554, "episodes_total": 7170, "timestamp": 1756599757, "node_ip": "10.157.146.4", "done": false, "time_total_s": 36713.40245628357, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1196, "episode_reward_mean": -617.5625465445789, "training_iteration": 1196, "timesteps_total": 1435200, "policy_reward_mean": {}, "episode_reward_min": -776.0113901266323, "timesteps_since_restore": 1435200, "num_metric_batches_dropped": 0, "time_since_restore": 36743.89902019501, "episode_reward_max": -541.5082033595423, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1435200, "default": {"kl": 0.00955595076084137, "policy_loss": -0.14167912304401398, "vf_loss": 229.80953979492188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.987359344959259, "entropy": 6.943862438201904, "cur_lr": 4.999999873689376e-05, "total_loss": 229.68240356445312}, "load_time_ms": 0.584, "num_steps_sampled": 1435200, "grad_time_ms": 544.283, "update_time_ms": 2.397, "sample_time_ms": 30281.711}, "date": "2025-08-31_02-23-07", "hostname": "cda-server-4", "time_this_iter_s": 30.49656391143799, "episodes_total": 7176, "timestamp": 1756599787, "node_ip": "10.157.146.4", "done": false, "time_total_s": 36743.89902019501, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1197, "episode_reward_mean": -617.8722614905937, "training_iteration": 1197, "timesteps_total": 1436400, "policy_reward_mean": {}, "episode_reward_min": -776.0113901266323, "timesteps_since_restore": 1436400, "num_metric_batches_dropped": 0, "time_since_restore": 36773.89680838585, "episode_reward_max": -541.5082033595423, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1436400, "default": {"kl": 0.011177442967891693, "policy_loss": -0.14309333264827728, "vf_loss": 300.4331970214844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9614851474761963, "entropy": 6.427460670471191, "cur_lr": 4.999999873689376e-05, "total_loss": 300.30706787109375}, "load_time_ms": 0.584, "num_steps_sampled": 1436400, "grad_time_ms": 537.459, "update_time_ms": 2.319, "sample_time_ms": 30155.887}, "date": "2025-08-31_02-23-37", "hostname": "cda-server-4", "time_this_iter_s": 29.997788190841675, "episodes_total": 7182, "timestamp": 1756599817, "node_ip": "10.157.146.4", "done": false, "time_total_s": 36773.89680838585, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1198, "episode_reward_mean": -617.7865798480361, "training_iteration": 1198, "timesteps_total": 1437600, "policy_reward_mean": {}, "episode_reward_min": -776.0113901266323, "timesteps_since_restore": 1437600, "num_metric_batches_dropped": 0, "time_since_restore": 36801.27557849884, "episode_reward_max": -541.5082033595423, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1437600, "default": {"kl": 0.010966416448354721, "policy_loss": -0.14927639067173004, "vf_loss": 170.1128387451172, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9850479960441589, "entropy": 6.663620471954346, "cur_lr": 4.999999873689376e-05, "total_loss": 169.980224609375}, "load_time_ms": 0.583, "num_steps_sampled": 1437600, "grad_time_ms": 533.776, "update_time_ms": 2.334, "sample_time_ms": 29767.217}, "date": "2025-08-31_02-24-05", "hostname": "cda-server-4", "time_this_iter_s": 27.378770112991333, "episodes_total": 7188, "timestamp": 1756599845, "node_ip": "10.157.146.4", "done": false, "time_total_s": 36801.27557849884, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1199, "episode_reward_mean": -616.8767510068323, "training_iteration": 1199, "timesteps_total": 1438800, "policy_reward_mean": {}, "episode_reward_min": -776.0113901266323, "timesteps_since_restore": 1438800, "num_metric_batches_dropped": 0, "time_since_restore": 36833.57875919342, "episode_reward_max": -541.5082033595423, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1438800, "default": {"kl": 0.008541043847799301, "policy_loss": -0.12421023845672607, "vf_loss": 41.17657470703125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9938521981239319, "entropy": 6.476313591003418, "cur_lr": 4.999999873689376e-05, "total_loss": 41.06534194946289}, "load_time_ms": 0.586, "num_steps_sampled": 1438800, "grad_time_ms": 538.463, "update_time_ms": 2.416, "sample_time_ms": 30008.569}, "date": "2025-08-31_02-24-37", "hostname": "cda-server-4", "time_this_iter_s": 32.30318069458008, "episodes_total": 7194, "timestamp": 1756599877, "node_ip": "10.157.146.4", "done": false, "time_total_s": 36833.57875919342, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1200, "episode_reward_mean": -617.6573766643612, "training_iteration": 1200, "timesteps_total": 1440000, "policy_reward_mean": {}, "episode_reward_min": -776.0113901266323, "timesteps_since_restore": 1440000, "num_metric_batches_dropped": 0, "time_since_restore": 36864.89383292198, "episode_reward_max": -541.5082033595423, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1440000, "default": {"kl": 0.008403794839978218, "policy_loss": -0.10795995593070984, "vf_loss": 330.0843505859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9837974905967712, "entropy": 6.443402290344238, "cur_lr": 4.999999873689376e-05, "total_loss": 329.9891052246094}, "load_time_ms": 0.58, "num_steps_sampled": 1440000, "grad_time_ms": 544.23, "update_time_ms": 2.388, "sample_time_ms": 30019.816}, "date": "2025-08-31_02-25-08", "hostname": "cda-server-4", "time_this_iter_s": 31.3150737285614, "episodes_total": 7200, "timestamp": 1756599908, "node_ip": "10.157.146.4", "done": false, "time_total_s": 36864.89383292198, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1201, "episode_reward_mean": -617.6456202767475, "training_iteration": 1201, "timesteps_total": 1441200, "policy_reward_mean": {}, "episode_reward_min": -776.0113901266323, "timesteps_since_restore": 1441200, "num_metric_batches_dropped": 0, "time_since_restore": 36898.213411569595, "episode_reward_max": -541.5082033595423, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1441200, "default": {"kl": 0.009281682781875134, "policy_loss": -0.1253984570503235, "vf_loss": 63.84977340698242, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9919064044952393, "entropy": 6.705208778381348, "cur_lr": 4.999999873689376e-05, "total_loss": 63.73847198486328}, "load_time_ms": 0.582, "num_steps_sampled": 1441200, "grad_time_ms": 544.524, "update_time_ms": 2.36, "sample_time_ms": 30050.53}, "date": "2025-08-31_02-25-42", "hostname": "cda-server-4", "time_this_iter_s": 33.319578647613525, "episodes_total": 7206, "timestamp": 1756599942, "node_ip": "10.157.146.4", "done": false, "time_total_s": 36898.213411569595, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1202, "episode_reward_mean": -619.7914340743567, "training_iteration": 1202, "timesteps_total": 1442400, "policy_reward_mean": {}, "episode_reward_min": -776.0113901266323, "timesteps_since_restore": 1442400, "num_metric_batches_dropped": 0, "time_since_restore": 36929.88974428177, "episode_reward_max": -561.0595839542957, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1442400, "default": {"kl": 0.011611294001340866, "policy_loss": -0.14338020980358124, "vf_loss": 171.9384765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9899032115936279, "entropy": 6.479742527008057, "cur_lr": 4.999999873689376e-05, "total_loss": 171.812744140625}, "load_time_ms": 0.593, "num_steps_sampled": 1442400, "grad_time_ms": 559.388, "update_time_ms": 2.431, "sample_time_ms": 29812.739}, "date": "2025-08-31_02-26-14", "hostname": "cda-server-4", "time_this_iter_s": 31.676332712173462, "episodes_total": 7212, "timestamp": 1756599974, "node_ip": "10.157.146.4", "done": false, "time_total_s": 36929.88974428177, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1203, "episode_reward_mean": -619.1692408337123, "training_iteration": 1203, "timesteps_total": 1443600, "policy_reward_mean": {}, "episode_reward_min": -776.0113901266323, "timesteps_since_restore": 1443600, "num_metric_batches_dropped": 0, "time_since_restore": 36957.127584934235, "episode_reward_max": -561.0595839542957, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1443600, "default": {"kl": 0.010306427255272865, "policy_loss": -0.13394173979759216, "vf_loss": 287.0680847167969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9792995452880859, "entropy": 6.446382522583008, "cur_lr": 4.999999873689376e-05, "total_loss": 286.94976806640625}, "load_time_ms": 0.599, "num_steps_sampled": 1443600, "grad_time_ms": 584.701, "update_time_ms": 2.395, "sample_time_ms": 29715.247}, "date": "2025-08-31_02-26-41", "hostname": "cda-server-4", "time_this_iter_s": 27.23784065246582, "episodes_total": 7218, "timestamp": 1756600001, "node_ip": "10.157.146.4", "done": false, "time_total_s": 36957.127584934235, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1204, "episode_reward_mean": -617.5679460122309, "training_iteration": 1204, "timesteps_total": 1444800, "policy_reward_mean": {}, "episode_reward_min": -776.0113901266323, "timesteps_since_restore": 1444800, "num_metric_batches_dropped": 0, "time_since_restore": 36988.14322352409, "episode_reward_max": -528.4325337316299, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1444800, "default": {"kl": 0.012472325935959816, "policy_loss": -0.1595003306865692, "vf_loss": 89.69036102294922, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9926967620849609, "entropy": 6.484635829925537, "cur_lr": 4.999999873689376e-05, "total_loss": 89.5498046875}, "load_time_ms": 0.603, "num_steps_sampled": 1444800, "grad_time_ms": 611.026, "update_time_ms": 2.318, "sample_time_ms": 29820.823}, "date": "2025-08-31_02-27-12", "hostname": "cda-server-4", "time_this_iter_s": 31.01563858985901, "episodes_total": 7224, "timestamp": 1756600032, "node_ip": "10.157.146.4", "done": false, "time_total_s": 36988.14322352409, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1205, "episode_reward_mean": -621.3158414087251, "training_iteration": 1205, "timesteps_total": 1446000, "policy_reward_mean": {}, "episode_reward_min": -776.0113901266323, "timesteps_since_restore": 1446000, "num_metric_batches_dropped": 0, "time_since_restore": 37018.09630584717, "episode_reward_max": -528.4325337316299, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1446000, "default": {"kl": 0.009701870381832123, "policy_loss": -0.11767984926700592, "vf_loss": 1181.326416015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8699465394020081, "entropy": 6.481197834014893, "cur_lr": 4.999999873689376e-05, "total_loss": 1181.2235107421875}, "load_time_ms": 0.608, "num_steps_sampled": 1446000, "grad_time_ms": 613.908, "update_time_ms": 2.299, "sample_time_ms": 29848.659}, "date": "2025-08-31_02-27-42", "hostname": "cda-server-4", "time_this_iter_s": 29.95308232307434, "episodes_total": 7230, "timestamp": 1756600062, "node_ip": "10.157.146.4", "done": false, "time_total_s": 37018.09630584717, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1206, "episode_reward_mean": -621.8447555245024, "training_iteration": 1206, "timesteps_total": 1447200, "policy_reward_mean": {}, "episode_reward_min": -776.0113901266323, "timesteps_since_restore": 1447200, "num_metric_batches_dropped": 0, "time_since_restore": 37049.44646000862, "episode_reward_max": -528.4325337316299, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1447200, "default": {"kl": 0.009511524811387062, "policy_loss": -0.12749198079109192, "vf_loss": 180.201171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9843928217887878, "entropy": 6.427037715911865, "cur_lr": 4.999999873689376e-05, "total_loss": 180.08811950683594}, "load_time_ms": 0.607, "num_steps_sampled": 1447200, "grad_time_ms": 615.26, "update_time_ms": 2.283, "sample_time_ms": 29932.677}, "date": "2025-08-31_02-28-13", "hostname": "cda-server-4", "time_this_iter_s": 31.350154161453247, "episodes_total": 7236, "timestamp": 1756600093, "node_ip": "10.157.146.4", "done": false, "time_total_s": 37049.44646000862, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1207, "episode_reward_mean": -619.8739727101665, "training_iteration": 1207, "timesteps_total": 1448400, "policy_reward_mean": {}, "episode_reward_min": -769.3642234155334, "timesteps_since_restore": 1448400, "num_metric_batches_dropped": 0, "time_since_restore": 37078.47000145912, "episode_reward_max": -528.4325337316299, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1448400, "default": {"kl": 0.011896589770913124, "policy_loss": -0.15592961013317108, "vf_loss": 223.65090942382812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9815000891685486, "entropy": 6.53996467590332, "cur_lr": 4.999999873689376e-05, "total_loss": 223.51304626464844}, "load_time_ms": 0.596, "num_steps_sampled": 1448400, "grad_time_ms": 625.859, "update_time_ms": 2.301, "sample_time_ms": 29824.599}, "date": "2025-08-31_02-28-42", "hostname": "cda-server-4", "time_this_iter_s": 29.02354145050049, "episodes_total": 7242, "timestamp": 1756600122, "node_ip": "10.157.146.4", "done": false, "time_total_s": 37078.47000145912, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1208, "episode_reward_mean": -620.4207887420936, "training_iteration": 1208, "timesteps_total": 1449600, "policy_reward_mean": {}, "episode_reward_min": -769.3642234155334, "timesteps_since_restore": 1449600, "num_metric_batches_dropped": 0, "time_since_restore": 37111.406453847885, "episode_reward_max": -528.4325337316299, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1449600, "default": {"kl": 0.008634738624095917, "policy_loss": -0.13595709204673767, "vf_loss": 84.42808532714844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9893358945846558, "entropy": 6.756058692932129, "cur_lr": 4.999999873689376e-05, "total_loss": 84.30524444580078}, "load_time_ms": 0.622, "num_steps_sampled": 1449600, "grad_time_ms": 627.979, "update_time_ms": 2.324, "sample_time_ms": 30378.097}, "date": "2025-08-31_02-29-15", "hostname": "cda-server-4", "time_this_iter_s": 32.93645238876343, "episodes_total": 7248, "timestamp": 1756600155, "node_ip": "10.157.146.4", "done": false, "time_total_s": 37111.406453847885, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1209, "episode_reward_mean": -620.4675095155333, "training_iteration": 1209, "timesteps_total": 1450800, "policy_reward_mean": {}, "episode_reward_min": -769.3642234155334, "timesteps_since_restore": 1450800, "num_metric_batches_dropped": 0, "time_since_restore": 37144.090399980545, "episode_reward_max": -528.4325337316299, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1450800, "default": {"kl": 0.00952206552028656, "policy_loss": -0.13650602102279663, "vf_loss": 624.3147583007812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9162572026252747, "entropy": 6.852806091308594, "cur_lr": 4.999999873689376e-05, "total_loss": 624.1927490234375}, "load_time_ms": 0.627, "num_steps_sampled": 1450800, "grad_time_ms": 616.771, "update_time_ms": 2.232, "sample_time_ms": 30427.397}, "date": "2025-08-31_02-29-48", "hostname": "cda-server-4", "time_this_iter_s": 32.68394613265991, "episodes_total": 7254, "timestamp": 1756600188, "node_ip": "10.157.146.4", "done": false, "time_total_s": 37144.090399980545, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1210, "episode_reward_mean": -619.2440724192993, "training_iteration": 1210, "timesteps_total": 1452000, "policy_reward_mean": {}, "episode_reward_min": -769.3642234155334, "timesteps_since_restore": 1452000, "num_metric_batches_dropped": 0, "time_since_restore": 37177.65387058258, "episode_reward_max": -493.87963533840605, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1452000, "default": {"kl": 0.010960027575492859, "policy_loss": -0.15620973706245422, "vf_loss": 141.8977813720703, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9791309833526611, "entropy": 6.582380294799805, "cur_lr": 4.999999873689376e-05, "total_loss": 141.7582244873047}, "load_time_ms": 0.64, "num_steps_sampled": 1452000, "grad_time_ms": 623.536, "update_time_ms": 2.261, "sample_time_ms": 30645.56}, "date": "2025-08-31_02-30-21", "hostname": "cda-server-4", "time_this_iter_s": 33.56347060203552, "episodes_total": 7260, "timestamp": 1756600221, "node_ip": "10.157.146.4", "done": false, "time_total_s": 37177.65387058258, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1211, "episode_reward_mean": -616.743189018229, "training_iteration": 1211, "timesteps_total": 1453200, "policy_reward_mean": {}, "episode_reward_min": -769.3642234155334, "timesteps_since_restore": 1453200, "num_metric_batches_dropped": 0, "time_since_restore": 37208.00488638878, "episode_reward_max": -493.87963533840605, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1453200, "default": {"kl": 0.00811733677983284, "policy_loss": -0.12345424294471741, "vf_loss": 133.80662536621094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9864928126335144, "entropy": 6.4160332679748535, "cur_lr": 4.999999873689376e-05, "total_loss": 133.69549560546875}, "load_time_ms": 0.634, "num_steps_sampled": 1453200, "grad_time_ms": 642.827, "update_time_ms": 2.252, "sample_time_ms": 30329.457}, "date": "2025-08-31_02-30-52", "hostname": "cda-server-4", "time_this_iter_s": 30.35101580619812, "episodes_total": 7266, "timestamp": 1756600252, "node_ip": "10.157.146.4", "done": false, "time_total_s": 37208.00488638878, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1212, "episode_reward_mean": -616.2363591788439, "training_iteration": 1212, "timesteps_total": 1454400, "policy_reward_mean": {}, "episode_reward_min": -769.3642234155334, "timesteps_since_restore": 1454400, "num_metric_batches_dropped": 0, "time_since_restore": 37241.00915360451, "episode_reward_max": -493.87963533840605, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1454400, "default": {"kl": 0.010529089719057083, "policy_loss": -0.14829497039318085, "vf_loss": 87.87680053710938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.988300621509552, "entropy": 6.516524791717529, "cur_lr": 4.999999873689376e-05, "total_loss": 87.7444839477539}, "load_time_ms": 0.629, "num_steps_sampled": 1454400, "grad_time_ms": 655.91, "update_time_ms": 2.161, "sample_time_ms": 30449.32}, "date": "2025-08-31_02-31-25", "hostname": "cda-server-4", "time_this_iter_s": 33.00426721572876, "episodes_total": 7272, "timestamp": 1756600285, "node_ip": "10.157.146.4", "done": false, "time_total_s": 37241.00915360451, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1213, "episode_reward_mean": -615.9569191248713, "training_iteration": 1213, "timesteps_total": 1455600, "policy_reward_mean": {}, "episode_reward_min": -769.3642234155334, "timesteps_since_restore": 1455600, "num_metric_batches_dropped": 0, "time_since_restore": 37272.3041844368, "episode_reward_max": -493.87963533840605, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1455600, "default": {"kl": 0.009079336188733578, "policy_loss": -0.12915247678756714, "vf_loss": 315.5221862792969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9588267207145691, "entropy": 6.685068130493164, "cur_lr": 4.999999873689376e-05, "total_loss": 315.4068603515625}, "load_time_ms": 0.635, "num_steps_sampled": 1455600, "grad_time_ms": 653.746, "update_time_ms": 2.156, "sample_time_ms": 30857.18}, "date": "2025-08-31_02-31-56", "hostname": "cda-server-4", "time_this_iter_s": 31.29503083229065, "episodes_total": 7278, "timestamp": 1756600316, "node_ip": "10.157.146.4", "done": false, "time_total_s": 37272.3041844368, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1214, "episode_reward_mean": -617.2729876583973, "training_iteration": 1214, "timesteps_total": 1456800, "policy_reward_mean": {}, "episode_reward_min": -775.3014075720512, "timesteps_since_restore": 1456800, "num_metric_batches_dropped": 0, "time_since_restore": 37306.150409936905, "episode_reward_max": -493.87963533840605, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1456800, "default": {"kl": 0.009762264788150787, "policy_loss": -0.13387848436832428, "vf_loss": 386.9510498046875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9658315181732178, "entropy": 6.467435836791992, "cur_lr": 4.999999873689376e-05, "total_loss": 386.83197021484375}, "load_time_ms": 0.645, "num_steps_sampled": 1456800, "grad_time_ms": 652.881, "update_time_ms": 2.154, "sample_time_ms": 31141.043}, "date": "2025-08-31_02-32-30", "hostname": "cda-server-4", "time_this_iter_s": 33.84622550010681, "episodes_total": 7284, "timestamp": 1756600350, "node_ip": "10.157.146.4", "done": false, "time_total_s": 37306.150409936905, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1215, "episode_reward_mean": -616.706006166841, "training_iteration": 1215, "timesteps_total": 1458000, "policy_reward_mean": {}, "episode_reward_min": -775.3014075720512, "timesteps_since_restore": 1458000, "num_metric_batches_dropped": 0, "time_since_restore": 37337.20829749107, "episode_reward_max": -493.87963533840605, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1458000, "default": {"kl": 0.011352954432368279, "policy_loss": -0.13609719276428223, "vf_loss": 147.98455810546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9885962605476379, "entropy": 6.395811080932617, "cur_lr": 4.999999873689376e-05, "total_loss": 147.86572265625}, "load_time_ms": 0.643, "num_steps_sampled": 1458000, "grad_time_ms": 666.737, "update_time_ms": 2.124, "sample_time_ms": 31237.708}, "date": "2025-08-31_02-33-01", "hostname": "cda-server-4", "time_this_iter_s": 31.0578875541687, "episodes_total": 7290, "timestamp": 1756600381, "node_ip": "10.157.146.4", "done": false, "time_total_s": 37337.20829749107, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1216, "episode_reward_mean": -615.8501081781886, "training_iteration": 1216, "timesteps_total": 1459200, "policy_reward_mean": {}, "episode_reward_min": -775.3014075720512, "timesteps_since_restore": 1459200, "num_metric_batches_dropped": 0, "time_since_restore": 37370.35575437546, "episode_reward_max": -493.87963533840605, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1459200, "default": {"kl": 0.01064164936542511, "policy_loss": -0.14355389773845673, "vf_loss": 204.24484252929688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9744741916656494, "entropy": 6.714414596557617, "cur_lr": 4.999999873689376e-05, "total_loss": 204.117431640625}, "load_time_ms": 0.647, "num_steps_sampled": 1459200, "grad_time_ms": 691.261, "update_time_ms": 2.152, "sample_time_ms": 31392.827}, "date": "2025-08-31_02-33-34", "hostname": "cda-server-4", "time_this_iter_s": 33.147456884384155, "episodes_total": 7296, "timestamp": 1756600414, "node_ip": "10.157.146.4", "done": false, "time_total_s": 37370.35575437546, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1217, "episode_reward_mean": -617.228082872267, "training_iteration": 1217, "timesteps_total": 1460400, "policy_reward_mean": {}, "episode_reward_min": -775.3014075720512, "timesteps_since_restore": 1460400, "num_metric_batches_dropped": 0, "time_since_restore": 37398.65814447403, "episode_reward_max": -493.87963533840605, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1460400, "default": {"kl": 0.012144341133534908, "policy_loss": -0.15374749898910522, "vf_loss": 443.8825378417969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9533390402793884, "entropy": 6.483492851257324, "cur_lr": 4.999999873689376e-05, "total_loss": 443.7472229003906}, "load_time_ms": 0.651, "num_steps_sampled": 1460400, "grad_time_ms": 706.783, "update_time_ms": 2.148, "sample_time_ms": 31305.263}, "date": "2025-08-31_02-34-03", "hostname": "cda-server-4", "time_this_iter_s": 28.302390098571777, "episodes_total": 7302, "timestamp": 1756600443, "node_ip": "10.157.146.4", "done": false, "time_total_s": 37398.65814447403, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1218, "episode_reward_mean": -617.1363995011841, "training_iteration": 1218, "timesteps_total": 1461600, "policy_reward_mean": {}, "episode_reward_min": -775.3014075720512, "timesteps_since_restore": 1461600, "num_metric_batches_dropped": 0, "time_since_restore": 37427.2457318306, "episode_reward_max": -493.87963533840605, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1461600, "default": {"kl": 0.010406293906271458, "policy_loss": -0.1372414231300354, "vf_loss": 179.6166534423828, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9901988506317139, "entropy": 6.452325344085693, "cur_lr": 4.999999873689376e-05, "total_loss": 179.49522399902344}, "load_time_ms": 0.618, "num_steps_sampled": 1461600, "grad_time_ms": 714.741, "update_time_ms": 2.148, "sample_time_ms": 30862.568}, "date": "2025-08-31_02-34-31", "hostname": "cda-server-4", "time_this_iter_s": 28.587587356567383, "episodes_total": 7308, "timestamp": 1756600471, "node_ip": "10.157.146.4", "done": false, "time_total_s": 37427.2457318306, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1219, "episode_reward_mean": -617.5405770586517, "training_iteration": 1219, "timesteps_total": 1462800, "policy_reward_mean": {}, "episode_reward_min": -778.6656835035349, "timesteps_since_restore": 1462800, "num_metric_batches_dropped": 0, "time_since_restore": 37457.1017100811, "episode_reward_max": -493.87963533840605, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1462800, "default": {"kl": 0.010485578328371048, "policy_loss": -0.1429242640733719, "vf_loss": 785.6289672851562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9282824993133545, "entropy": 6.67016077041626, "cur_lr": 4.999999873689376e-05, "total_loss": 785.501953125}, "load_time_ms": 0.621, "num_steps_sampled": 1462800, "grad_time_ms": 733.72, "update_time_ms": 2.108, "sample_time_ms": 30560.804}, "date": "2025-08-31_02-35-01", "hostname": "cda-server-4", "time_this_iter_s": 29.85597825050354, "episodes_total": 7314, "timestamp": 1756600501, "node_ip": "10.157.146.4", "done": false, "time_total_s": 37457.1017100811, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1220, "episode_reward_mean": -618.1005054479959, "training_iteration": 1220, "timesteps_total": 1464000, "policy_reward_mean": {}, "episode_reward_min": -778.6656835035349, "timesteps_since_restore": 1464000, "num_metric_batches_dropped": 0, "time_since_restore": 37485.651559114456, "episode_reward_max": -493.87963533840605, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1464000, "default": {"kl": 0.01181185431778431, "policy_loss": -0.13802474737167358, "vf_loss": 223.80484008789062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9812340140342712, "entropy": 6.280903339385986, "cur_lr": 4.999999873689376e-05, "total_loss": 223.68475341796875}, "load_time_ms": 0.641, "num_steps_sampled": 1464000, "grad_time_ms": 739.248, "update_time_ms": 2.121, "sample_time_ms": 30053.805}, "date": "2025-08-31_02-35-30", "hostname": "cda-server-4", "time_this_iter_s": 28.549849033355713, "episodes_total": 7320, "timestamp": 1756600530, "node_ip": "10.157.146.4", "done": false, "time_total_s": 37485.651559114456, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1221, "episode_reward_mean": -618.0975211891864, "training_iteration": 1221, "timesteps_total": 1465200, "policy_reward_mean": {}, "episode_reward_min": -778.6656835035349, "timesteps_since_restore": 1465200, "num_metric_batches_dropped": 0, "time_since_restore": 37515.537400722504, "episode_reward_max": -493.87963533840605, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1465200, "default": {"kl": 0.012938727624714375, "policy_loss": -0.1380312144756317, "vf_loss": 277.4752197265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9728447794914246, "entropy": 6.512147426605225, "cur_lr": 4.999999873689376e-05, "total_loss": 277.3568115234375}, "load_time_ms": 0.674, "num_steps_sampled": 1465200, "grad_time_ms": 740.351, "update_time_ms": 2.106, "sample_time_ms": 30006.089}, "date": "2025-08-31_02-36-00", "hostname": "cda-server-4", "time_this_iter_s": 29.885841608047485, "episodes_total": 7326, "timestamp": 1756600560, "node_ip": "10.157.146.4", "done": false, "time_total_s": 37515.537400722504, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1222, "episode_reward_mean": -616.4892329426345, "training_iteration": 1222, "timesteps_total": 1466400, "policy_reward_mean": {}, "episode_reward_min": -778.6656835035349, "timesteps_since_restore": 1466400, "num_metric_batches_dropped": 0, "time_since_restore": 37545.2690474987, "episode_reward_max": -493.87963533840605, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1466400, "default": {"kl": 0.010352231562137604, "policy_loss": -0.139661967754364, "vf_loss": 409.5243225097656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9696068167686462, "entropy": 6.398184776306152, "cur_lr": 4.999999873689376e-05, "total_loss": 409.400390625}, "load_time_ms": 0.705, "num_steps_sampled": 1466400, "grad_time_ms": 736.673, "update_time_ms": 2.122, "sample_time_ms": 29682.383}, "date": "2025-08-31_02-36-29", "hostname": "cda-server-4", "time_this_iter_s": 29.73164677619934, "episodes_total": 7332, "timestamp": 1756600589, "node_ip": "10.157.146.4", "done": false, "time_total_s": 37545.2690474987, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1223, "episode_reward_mean": -616.3818142173357, "training_iteration": 1223, "timesteps_total": 1467600, "policy_reward_mean": {}, "episode_reward_min": -778.6656835035349, "timesteps_since_restore": 1467600, "num_metric_batches_dropped": 0, "time_since_restore": 37575.66104865074, "episode_reward_max": -493.87963533840605, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1467600, "default": {"kl": 0.00904797948896885, "policy_loss": -0.13446536660194397, "vf_loss": 129.92071533203125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9864420294761658, "entropy": 6.5418925285339355, "cur_lr": 4.999999873689376e-05, "total_loss": 129.79998779296875}, "load_time_ms": 0.73, "num_steps_sampled": 1467600, "grad_time_ms": 733.61, "update_time_ms": 2.124, "sample_time_ms": 29595.073}, "date": "2025-08-31_02-37-00", "hostname": "cda-server-4", "time_this_iter_s": 30.392001152038574, "episodes_total": 7338, "timestamp": 1756600620, "node_ip": "10.157.146.4", "done": false, "time_total_s": 37575.66104865074, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1224, "episode_reward_mean": -616.6263525869231, "training_iteration": 1224, "timesteps_total": 1468800, "policy_reward_mean": {}, "episode_reward_min": -778.6656835035349, "timesteps_since_restore": 1468800, "num_metric_batches_dropped": 0, "time_since_restore": 37607.39156913757, "episode_reward_max": -493.87963533840605, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1468800, "default": {"kl": 0.010240748524665833, "policy_loss": -0.1317029744386673, "vf_loss": 57.8204345703125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9923584461212158, "entropy": 6.328425407409668, "cur_lr": 4.999999873689376e-05, "total_loss": 57.70427703857422}, "load_time_ms": 0.729, "num_steps_sampled": 1468800, "grad_time_ms": 727.514, "update_time_ms": 2.199, "sample_time_ms": 29389.493}, "date": "2025-08-31_02-37-31", "hostname": "cda-server-4", "time_this_iter_s": 31.730520486831665, "episodes_total": 7344, "timestamp": 1756600651, "node_ip": "10.157.146.4", "done": false, "time_total_s": 37607.39156913757, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1225, "episode_reward_mean": -617.6192116375223, "training_iteration": 1225, "timesteps_total": 1470000, "policy_reward_mean": {}, "episode_reward_min": -778.6656835035349, "timesteps_since_restore": 1470000, "num_metric_batches_dropped": 0, "time_since_restore": 37640.93718600273, "episode_reward_max": -493.87963533840605, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1470000, "default": {"kl": 0.01044369675219059, "policy_loss": -0.14874278008937836, "vf_loss": 355.126708984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9644686579704285, "entropy": 6.586800575256348, "cur_lr": 4.999999873689376e-05, "total_loss": 354.9938049316406}, "load_time_ms": 0.737, "num_steps_sampled": 1470000, "grad_time_ms": 715.249, "update_time_ms": 2.254, "sample_time_ms": 29650.468}, "date": "2025-08-31_02-38-05", "hostname": "cda-server-4", "time_this_iter_s": 33.54561686515808, "episodes_total": 7350, "timestamp": 1756600685, "node_ip": "10.157.146.4", "done": false, "time_total_s": 37640.93718600273, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1226, "episode_reward_mean": -618.7474539529321, "training_iteration": 1226, "timesteps_total": 1471200, "policy_reward_mean": {}, "episode_reward_min": -778.6656835035349, "timesteps_since_restore": 1471200, "num_metric_batches_dropped": 0, "time_since_restore": 37669.75228762627, "episode_reward_max": -493.87963533840605, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1471200, "default": {"kl": 0.01037850882858038, "policy_loss": -0.12881746888160706, "vf_loss": 188.57379150390625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9831719994544983, "entropy": 6.2426371574401855, "cur_lr": 4.999999873689376e-05, "total_loss": 188.46075439453125}, "load_time_ms": 0.739, "num_steps_sampled": 1471200, "grad_time_ms": 716.017, "update_time_ms": 2.265, "sample_time_ms": 29216.463}, "date": "2025-08-31_02-38-34", "hostname": "cda-server-4", "time_this_iter_s": 28.815101623535156, "episodes_total": 7356, "timestamp": 1756600714, "node_ip": "10.157.146.4", "done": false, "time_total_s": 37669.75228762627, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1227, "episode_reward_mean": -619.3747721430677, "training_iteration": 1227, "timesteps_total": 1472400, "policy_reward_mean": {}, "episode_reward_min": -778.6656835035349, "timesteps_since_restore": 1472400, "num_metric_batches_dropped": 0, "time_since_restore": 37702.83443117142, "episode_reward_max": -528.1198921968391, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1472400, "default": {"kl": 0.01061304286122322, "policy_loss": -0.1410938948392868, "vf_loss": 257.7508850097656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9808927178382874, "entropy": 6.096357822418213, "cur_lr": 4.999999873689376e-05, "total_loss": 257.62591552734375}, "load_time_ms": 0.735, "num_steps_sampled": 1472400, "grad_time_ms": 714.685, "update_time_ms": 2.325, "sample_time_ms": 29695.706}, "date": "2025-08-31_02-39-07", "hostname": "cda-server-4", "time_this_iter_s": 33.08214354515076, "episodes_total": 7362, "timestamp": 1756600747, "node_ip": "10.157.146.4", "done": false, "time_total_s": 37702.83443117142, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1228, "episode_reward_mean": -621.2036742795807, "training_iteration": 1228, "timesteps_total": 1473600, "policy_reward_mean": {}, "episode_reward_min": -778.6656835035349, "timesteps_since_restore": 1473600, "num_metric_batches_dropped": 0, "time_since_restore": 37734.49569439888, "episode_reward_max": -561.3829052722605, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1473600, "default": {"kl": 0.009430618956685066, "policy_loss": -0.13031648099422455, "vf_loss": 82.63754272460938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9879502058029175, "entropy": 6.466310977935791, "cur_lr": 4.999999873689376e-05, "total_loss": 82.52154541015625}, "load_time_ms": 0.747, "num_steps_sampled": 1473600, "grad_time_ms": 712.847, "update_time_ms": 2.348, "sample_time_ms": 30004.899}, "date": "2025-08-31_02-39-39", "hostname": "cda-server-4", "time_this_iter_s": 31.66126322746277, "episodes_total": 7368, "timestamp": 1756600779, "node_ip": "10.157.146.4", "done": false, "time_total_s": 37734.49569439888, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1229, "episode_reward_mean": -620.1267026718406, "training_iteration": 1229, "timesteps_total": 1474800, "policy_reward_mean": {}, "episode_reward_min": -778.6656835035349, "timesteps_since_restore": 1474800, "num_metric_batches_dropped": 0, "time_since_restore": 37765.745200157166, "episode_reward_max": -561.3829052722605, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1474800, "default": {"kl": 0.009121556766331196, "policy_loss": -0.12942057847976685, "vf_loss": 402.7961730957031, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9552169442176819, "entropy": 6.279299259185791, "cur_lr": 4.999999873689376e-05, "total_loss": 402.68060302734375}, "load_time_ms": 0.743, "num_steps_sampled": 1474800, "grad_time_ms": 701.263, "update_time_ms": 2.335, "sample_time_ms": 30155.849}, "date": "2025-08-31_02-40-10", "hostname": "cda-server-4", "time_this_iter_s": 31.249505758285522, "episodes_total": 7374, "timestamp": 1756600810, "node_ip": "10.157.146.4", "done": false, "time_total_s": 37765.745200157166, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1230, "episode_reward_mean": -619.1584630035934, "training_iteration": 1230, "timesteps_total": 1476000, "policy_reward_mean": {}, "episode_reward_min": -778.6656835035349, "timesteps_since_restore": 1476000, "num_metric_batches_dropped": 0, "time_since_restore": 37798.806114435196, "episode_reward_max": -590.4332739621267, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1476000, "default": {"kl": 0.012766345404088497, "policy_loss": -0.13997748494148254, "vf_loss": 407.9644775390625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9636127948760986, "entropy": 6.280923366546631, "cur_lr": 4.999999873689376e-05, "total_loss": 407.8438720703125}, "load_time_ms": 0.716, "num_steps_sampled": 1476000, "grad_time_ms": 691.53, "update_time_ms": 2.325, "sample_time_ms": 30616.774}, "date": "2025-08-31_02-40-43", "hostname": "cda-server-4", "time_this_iter_s": 33.060914278030396, "episodes_total": 7380, "timestamp": 1756600843, "node_ip": "10.157.146.4", "done": false, "time_total_s": 37798.806114435196, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1231, "episode_reward_mean": -617.9508561934672, "training_iteration": 1231, "timesteps_total": 1477200, "policy_reward_mean": {}, "episode_reward_min": -778.6656835035349, "timesteps_since_restore": 1477200, "num_metric_batches_dropped": 0, "time_since_restore": 37828.17761874199, "episode_reward_max": -480.90329058134824, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1477200, "default": {"kl": 0.010576006025075912, "policy_loss": -0.15204960107803345, "vf_loss": 426.6293640136719, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9510090947151184, "entropy": 6.668093204498291, "cur_lr": 4.999999873689376e-05, "total_loss": 426.4933776855469}, "load_time_ms": 0.689, "num_steps_sampled": 1477200, "grad_time_ms": 678.145, "update_time_ms": 2.355, "sample_time_ms": 30578.717}, "date": "2025-08-31_02-41-12", "hostname": "cda-server-4", "time_this_iter_s": 29.371504306793213, "episodes_total": 7386, "timestamp": 1756600872, "node_ip": "10.157.146.4", "done": false, "time_total_s": 37828.17761874199, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1232, "episode_reward_mean": -619.3290030442697, "training_iteration": 1232, "timesteps_total": 1478400, "policy_reward_mean": {}, "episode_reward_min": -778.6656835035349, "timesteps_since_restore": 1478400, "num_metric_batches_dropped": 0, "time_since_restore": 37858.064821481705, "episode_reward_max": -480.90329058134824, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1478400, "default": {"kl": 0.00954366847872734, "policy_loss": -0.13549068570137024, "vf_loss": 107.017822265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9858779907226562, "entropy": 6.843328475952148, "cur_lr": 4.999999873689376e-05, "total_loss": 106.8968276977539}, "load_time_ms": 0.663, "num_steps_sampled": 1478400, "grad_time_ms": 678.867, "update_time_ms": 2.339, "sample_time_ms": 30593.598}, "date": "2025-08-31_02-41-42", "hostname": "cda-server-4", "time_this_iter_s": 29.887202739715576, "episodes_total": 7392, "timestamp": 1756600902, "node_ip": "10.157.146.4", "done": false, "time_total_s": 37858.064821481705, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1233, "episode_reward_mean": -622.600377741489, "training_iteration": 1233, "timesteps_total": 1479600, "policy_reward_mean": {}, "episode_reward_min": -790.0482665682625, "timesteps_since_restore": 1479600, "num_metric_batches_dropped": 0, "time_since_restore": 37890.00175046921, "episode_reward_max": -480.90329058134824, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1479600, "default": {"kl": 0.013257919810712337, "policy_loss": -0.13937197625637054, "vf_loss": 2774.9931640625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9199475049972534, "entropy": 6.508416175842285, "cur_lr": 4.999999873689376e-05, "total_loss": 2774.873779296875}, "load_time_ms": 0.638, "num_steps_sampled": 1479600, "grad_time_ms": 688.756, "update_time_ms": 2.301, "sample_time_ms": 30738.311}, "date": "2025-08-31_02-42-14", "hostname": "cda-server-4", "time_this_iter_s": 31.93692898750305, "episodes_total": 7398, "timestamp": 1756600934, "node_ip": "10.157.146.4", "done": false, "time_total_s": 37890.00175046921, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1234, "episode_reward_mean": -622.1334406850276, "training_iteration": 1234, "timesteps_total": 1480800, "policy_reward_mean": {}, "episode_reward_min": -790.0482665682625, "timesteps_since_restore": 1480800, "num_metric_batches_dropped": 0, "time_since_restore": 37922.43099427223, "episode_reward_max": -480.90329058134824, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1480800, "default": {"kl": 0.00936868879944086, "policy_loss": -0.1257607489824295, "vf_loss": 166.01171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9792921543121338, "entropy": 6.580899715423584, "cur_lr": 4.999999873689376e-05, "total_loss": 165.90020751953125}, "load_time_ms": 0.663, "num_steps_sampled": 1480800, "grad_time_ms": 686.59, "update_time_ms": 2.28, "sample_time_ms": 30810.269}, "date": "2025-08-31_02-42-47", "hostname": "cda-server-4", "time_this_iter_s": 32.42924380302429, "episodes_total": 7404, "timestamp": 1756600967, "node_ip": "10.157.146.4", "done": false, "time_total_s": 37922.43099427223, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1235, "episode_reward_mean": -621.2957335091176, "training_iteration": 1235, "timesteps_total": 1482000, "policy_reward_mean": {}, "episode_reward_min": -790.0482665682625, "timesteps_since_restore": 1482000, "num_metric_batches_dropped": 0, "time_since_restore": 37950.758192777634, "episode_reward_max": -480.90329058134824, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1482000, "default": {"kl": 0.010006858967244625, "policy_loss": -0.11745790392160416, "vf_loss": 159.6992645263672, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9764026999473572, "entropy": 6.0940141677856445, "cur_lr": 4.999999873689376e-05, "total_loss": 159.5970001220703}, "load_time_ms": 0.664, "num_steps_sampled": 1482000, "grad_time_ms": 682.651, "update_time_ms": 2.252, "sample_time_ms": 30292.261}, "date": "2025-08-31_02-43-15", "hostname": "cda-server-4", "time_this_iter_s": 28.32719850540161, "episodes_total": 7410, "timestamp": 1756600995, "node_ip": "10.157.146.4", "done": false, "time_total_s": 37950.758192777634, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1236, "episode_reward_mean": -622.0931005186126, "training_iteration": 1236, "timesteps_total": 1483200, "policy_reward_mean": {}, "episode_reward_min": -790.0482665682625, "timesteps_since_restore": 1483200, "num_metric_batches_dropped": 0, "time_since_restore": 37982.00518035889, "episode_reward_max": -480.90329058134824, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1483200, "default": {"kl": 0.010525353252887726, "policy_loss": -0.1387990266084671, "vf_loss": 170.14065551757812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9779489040374756, "entropy": 6.409413814544678, "cur_lr": 4.999999873689376e-05, "total_loss": 170.01783752441406}, "load_time_ms": 0.698, "num_steps_sampled": 1483200, "grad_time_ms": 682.359, "update_time_ms": 2.317, "sample_time_ms": 30535.559}, "date": "2025-08-31_02-43-46", "hostname": "cda-server-4", "time_this_iter_s": 31.24698758125305, "episodes_total": 7416, "timestamp": 1756601026, "node_ip": "10.157.146.4", "done": false, "time_total_s": 37982.00518035889, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1237, "episode_reward_mean": -624.0573147231723, "training_iteration": 1237, "timesteps_total": 1484400, "policy_reward_mean": {}, "episode_reward_min": -790.0482665682625, "timesteps_since_restore": 1484400, "num_metric_batches_dropped": 0, "time_since_restore": 38010.271971702576, "episode_reward_max": -480.90329058134824, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1484400, "default": {"kl": 0.00941496528685093, "policy_loss": -0.12941701710224152, "vf_loss": 327.9490051269531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9583657383918762, "entropy": 6.535194396972656, "cur_lr": 4.999999873689376e-05, "total_loss": 327.8338928222656}, "load_time_ms": 0.697, "num_steps_sampled": 1484400, "grad_time_ms": 671.985, "update_time_ms": 2.331, "sample_time_ms": 30064.3}, "date": "2025-08-31_02-44-15", "hostname": "cda-server-4", "time_this_iter_s": 28.266791343688965, "episodes_total": 7422, "timestamp": 1756601055, "node_ip": "10.157.146.4", "done": false, "time_total_s": 38010.271971702576, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1238, "episode_reward_mean": -622.9972436913698, "training_iteration": 1238, "timesteps_total": 1485600, "policy_reward_mean": {}, "episode_reward_min": -790.0482665682625, "timesteps_since_restore": 1485600, "num_metric_batches_dropped": 0, "time_since_restore": 38038.17354011536, "episode_reward_max": -480.90329058134824, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1485600, "default": {"kl": 0.009605302475392818, "policy_loss": -0.1331627368927002, "vf_loss": 160.10260009765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9800854921340942, "entropy": 6.5226335525512695, "cur_lr": 4.999999873689376e-05, "total_loss": 159.98403930664062}, "load_time_ms": 0.708, "num_steps_sampled": 1485600, "grad_time_ms": 665.788, "update_time_ms": 2.32, "sample_time_ms": 29694.485}, "date": "2025-08-31_02-44-42", "hostname": "cda-server-4", "time_this_iter_s": 27.90156841278076, "episodes_total": 7428, "timestamp": 1756601082, "node_ip": "10.157.146.4", "done": false, "time_total_s": 38038.17354011536, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1239, "episode_reward_mean": -624.3052753671333, "training_iteration": 1239, "timesteps_total": 1486800, "policy_reward_mean": {}, "episode_reward_min": -790.405554450529, "timesteps_since_restore": 1486800, "num_metric_batches_dropped": 0, "time_since_restore": 38070.95448732376, "episode_reward_max": -480.90329058134824, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1486800, "default": {"kl": 0.012232549488544464, "policy_loss": -0.13370074331760406, "vf_loss": 352.29364013671875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9687025547027588, "entropy": 6.372080326080322, "cur_lr": 4.999999873689376e-05, "total_loss": 352.1785583496094}, "load_time_ms": 0.703, "num_steps_sampled": 1486800, "grad_time_ms": 674.987, "update_time_ms": 2.349, "sample_time_ms": 29838.42}, "date": "2025-08-31_02-45-15", "hostname": "cda-server-4", "time_this_iter_s": 32.78094720840454, "episodes_total": 7434, "timestamp": 1756601115, "node_ip": "10.157.146.4", "done": false, "time_total_s": 38070.95448732376, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1240, "episode_reward_mean": -624.2983645487092, "training_iteration": 1240, "timesteps_total": 1488000, "policy_reward_mean": {}, "episode_reward_min": -790.405554450529, "timesteps_since_restore": 1488000, "num_metric_batches_dropped": 0, "time_since_restore": 38101.97479867935, "episode_reward_max": -480.90329058134824, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1488000, "default": {"kl": 0.01196132693439722, "policy_loss": -0.145725280046463, "vf_loss": 58.8619384765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9943444132804871, "entropy": 6.124906539916992, "cur_lr": 4.999999873689376e-05, "total_loss": 58.73438262939453}, "load_time_ms": 0.7, "num_steps_sampled": 1488000, "grad_time_ms": 673.124, "update_time_ms": 2.344, "sample_time_ms": 29636.242}, "date": "2025-08-31_02-45-46", "hostname": "cda-server-4", "time_this_iter_s": 31.02031135559082, "episodes_total": 7440, "timestamp": 1756601146, "node_ip": "10.157.146.4", "done": false, "time_total_s": 38101.97479867935, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1241, "episode_reward_mean": -623.449800624987, "training_iteration": 1241, "timesteps_total": 1489200, "policy_reward_mean": {}, "episode_reward_min": -790.405554450529, "timesteps_since_restore": 1489200, "num_metric_batches_dropped": 0, "time_since_restore": 38132.46573615074, "episode_reward_max": -480.90329058134824, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1489200, "default": {"kl": 0.009147515520453453, "policy_loss": -0.13389724493026733, "vf_loss": 170.03341674804688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9813841581344604, "entropy": 6.498622894287109, "cur_lr": 4.999999873689376e-05, "total_loss": 169.9134063720703}, "load_time_ms": 0.701, "num_steps_sampled": 1489200, "grad_time_ms": 682.865, "update_time_ms": 2.419, "sample_time_ms": 29738.444}, "date": "2025-08-31_02-46-17", "hostname": "cda-server-4", "time_this_iter_s": 30.49093747138977, "episodes_total": 7446, "timestamp": 1756601177, "node_ip": "10.157.146.4", "done": false, "time_total_s": 38132.46573615074, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1242, "episode_reward_mean": -622.7845061122214, "training_iteration": 1242, "timesteps_total": 1490400, "policy_reward_mean": {}, "episode_reward_min": -790.405554450529, "timesteps_since_restore": 1490400, "num_metric_batches_dropped": 0, "time_since_restore": 38162.315395116806, "episode_reward_max": -480.90329058134824, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1490400, "default": {"kl": 0.010882187634706497, "policy_loss": -0.14608636498451233, "vf_loss": 93.58726501464844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9952390193939209, "entropy": 6.092192649841309, "cur_lr": 4.999999873689376e-05, "total_loss": 93.45769500732422}, "load_time_ms": 0.694, "num_steps_sampled": 1490400, "grad_time_ms": 680.9, "update_time_ms": 2.414, "sample_time_ms": 29736.636}, "date": "2025-08-31_02-46-47", "hostname": "cda-server-4", "time_this_iter_s": 29.849658966064453, "episodes_total": 7452, "timestamp": 1756601207, "node_ip": "10.157.146.4", "done": false, "time_total_s": 38162.315395116806, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1243, "episode_reward_mean": -621.9560181337721, "training_iteration": 1243, "timesteps_total": 1491600, "policy_reward_mean": {}, "episode_reward_min": -790.405554450529, "timesteps_since_restore": 1491600, "num_metric_batches_dropped": 0, "time_since_restore": 38192.43833589554, "episode_reward_max": -480.90329058134824, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1491600, "default": {"kl": 0.010432031005620956, "policy_loss": -0.13784028589725494, "vf_loss": 318.9806823730469, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9814837574958801, "entropy": 6.423098564147949, "cur_lr": 4.999999873689376e-05, "total_loss": 318.85870361328125}, "load_time_ms": 0.721, "num_steps_sampled": 1491600, "grad_time_ms": 660.268, "update_time_ms": 2.402, "sample_time_ms": 29575.819}, "date": "2025-08-31_02-47-17", "hostname": "cda-server-4", "time_this_iter_s": 30.1229407787323, "episodes_total": 7458, "timestamp": 1756601237, "node_ip": "10.157.146.4", "done": false, "time_total_s": 38192.43833589554, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1244, "episode_reward_mean": -620.8911995109363, "training_iteration": 1244, "timesteps_total": 1492800, "policy_reward_mean": {}, "episode_reward_min": -790.405554450529, "timesteps_since_restore": 1492800, "num_metric_batches_dropped": 0, "time_since_restore": 38223.230113744736, "episode_reward_max": -480.90329058134824, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1492800, "default": {"kl": 0.011756852269172668, "policy_loss": -0.13656990230083466, "vf_loss": 56.26340866088867, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.99161696434021, "entropy": 6.501759052276611, "cur_lr": 4.999999873689376e-05, "total_loss": 56.144691467285156}, "load_time_ms": 0.686, "num_steps_sampled": 1492800, "grad_time_ms": 670.048, "update_time_ms": 2.432, "sample_time_ms": 29402.415}, "date": "2025-08-31_02-47-48", "hostname": "cda-server-4", "time_this_iter_s": 30.791777849197388, "episodes_total": 7464, "timestamp": 1756601268, "node_ip": "10.157.146.4", "done": false, "time_total_s": 38223.230113744736, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1245, "episode_reward_mean": -620.0654905533776, "training_iteration": 1245, "timesteps_total": 1494000, "policy_reward_mean": {}, "episode_reward_min": -790.405554450529, "timesteps_since_restore": 1494000, "num_metric_batches_dropped": 0, "time_since_restore": 38252.6910007, "episode_reward_max": -480.90329058134824, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1494000, "default": {"kl": 0.011532857082784176, "policy_loss": -0.15129674971103668, "vf_loss": 501.5661926269531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.95289146900177, "entropy": 6.552776336669922, "cur_lr": 4.999999873689376e-05, "total_loss": 501.4324035644531}, "load_time_ms": 0.711, "num_steps_sampled": 1494000, "grad_time_ms": 682.162, "update_time_ms": 2.496, "sample_time_ms": 29503.656}, "date": "2025-08-31_02-48-17", "hostname": "cda-server-4", "time_this_iter_s": 29.46088695526123, "episodes_total": 7470, "timestamp": 1756601297, "node_ip": "10.157.146.4", "done": false, "time_total_s": 38252.6910007, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1246, "episode_reward_mean": -621.4488316717188, "training_iteration": 1246, "timesteps_total": 1495200, "policy_reward_mean": {}, "episode_reward_min": -790.405554450529, "timesteps_since_restore": 1495200, "num_metric_batches_dropped": 0, "time_since_restore": 38285.78818964958, "episode_reward_max": -480.90329058134824, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1495200, "default": {"kl": 0.011380909942090511, "policy_loss": -0.1360815167427063, "vf_loss": 230.9528045654297, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9796438217163086, "entropy": 6.711490631103516, "cur_lr": 4.999999873689376e-05, "total_loss": 230.833984375}, "load_time_ms": 0.677, "num_steps_sampled": 1495200, "grad_time_ms": 680.651, "update_time_ms": 2.421, "sample_time_ms": 29690.313}, "date": "2025-08-31_02-48-50", "hostname": "cda-server-4", "time_this_iter_s": 33.09718894958496, "episodes_total": 7476, "timestamp": 1756601330, "node_ip": "10.157.146.4", "done": false, "time_total_s": 38285.78818964958, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1247, "episode_reward_mean": -621.332057784891, "training_iteration": 1247, "timesteps_total": 1496400, "policy_reward_mean": {}, "episode_reward_min": -790.405554450529, "timesteps_since_restore": 1496400, "num_metric_batches_dropped": 0, "time_since_restore": 38319.513587236404, "episode_reward_max": -480.90329058134824, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1496400, "default": {"kl": 0.010822822339832783, "policy_loss": -0.12812453508377075, "vf_loss": 285.2591247558594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9698617458343506, "entropy": 6.426301956176758, "cur_lr": 4.999999873689376e-05, "total_loss": 285.1474304199219}, "load_time_ms": 0.681, "num_steps_sampled": 1496400, "grad_time_ms": 682.26, "update_time_ms": 2.384, "sample_time_ms": 30234.664}, "date": "2025-08-31_02-49-24", "hostname": "cda-server-4", "time_this_iter_s": 33.72539758682251, "episodes_total": 7482, "timestamp": 1756601364, "node_ip": "10.157.146.4", "done": false, "time_total_s": 38319.513587236404, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1248, "episode_reward_mean": -623.0318417439906, "training_iteration": 1248, "timesteps_total": 1497600, "policy_reward_mean": {}, "episode_reward_min": -790.405554450529, "timesteps_since_restore": 1497600, "num_metric_batches_dropped": 0, "time_since_restore": 38351.28926610947, "episode_reward_max": -513.0075792187437, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1497600, "default": {"kl": 0.011175408028066158, "policy_loss": -0.13416773080825806, "vf_loss": 138.35006713867188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.983860969543457, "entropy": 6.341047286987305, "cur_lr": 4.999999873689376e-05, "total_loss": 138.23287963867188}, "load_time_ms": 0.691, "num_steps_sampled": 1497600, "grad_time_ms": 689.639, "update_time_ms": 2.458, "sample_time_ms": 30614.55}, "date": "2025-08-31_02-49-56", "hostname": "cda-server-4", "time_this_iter_s": 31.775678873062134, "episodes_total": 7488, "timestamp": 1756601396, "node_ip": "10.157.146.4", "done": false, "time_total_s": 38351.28926610947, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1249, "episode_reward_mean": -621.8077912826369, "training_iteration": 1249, "timesteps_total": 1498800, "policy_reward_mean": {}, "episode_reward_min": -790.405554450529, "timesteps_since_restore": 1498800, "num_metric_batches_dropped": 0, "time_since_restore": 38382.85528373718, "episode_reward_max": -513.0075792187437, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1498800, "default": {"kl": 0.010782938450574875, "policy_loss": -0.11875177919864655, "vf_loss": 75.8450927734375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9905045032501221, "entropy": 6.507458209991455, "cur_lr": 4.999999873689376e-05, "total_loss": 75.74271392822266}, "load_time_ms": 0.692, "num_steps_sampled": 1498800, "grad_time_ms": 687.331, "update_time_ms": 2.518, "sample_time_ms": 30495.368}, "date": "2025-08-31_02-50-27", "hostname": "cda-server-4", "time_this_iter_s": 31.566017627716064, "episodes_total": 7494, "timestamp": 1756601427, "node_ip": "10.157.146.4", "done": false, "time_total_s": 38382.85528373718, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1250, "episode_reward_mean": -618.6753782023587, "training_iteration": 1250, "timesteps_total": 1500000, "policy_reward_mean": {}, "episode_reward_min": -790.405554450529, "timesteps_since_restore": 1500000, "num_metric_batches_dropped": 0, "time_since_restore": 38415.36612677574, "episode_reward_max": -513.0075792187437, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1500000, "default": {"kl": 0.009335841052234173, "policy_loss": -0.12293635308742523, "vf_loss": 100.14883422851562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9930131435394287, "entropy": 6.396009922027588, "cur_lr": 4.999999873689376e-05, "total_loss": 100.04006958007812}, "load_time_ms": 0.719, "num_steps_sampled": 1500000, "grad_time_ms": 692.849, "update_time_ms": 2.482, "sample_time_ms": 30638.935}, "date": "2025-08-31_02-51-00", "hostname": "cda-server-4", "time_this_iter_s": 32.51084303855896, "episodes_total": 7500, "timestamp": 1756601460, "node_ip": "10.157.146.4", "done": false, "time_total_s": 38415.36612677574, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1251, "episode_reward_mean": -616.1059885560305, "training_iteration": 1251, "timesteps_total": 1501200, "policy_reward_mean": {}, "episode_reward_min": -790.405554450529, "timesteps_since_restore": 1501200, "num_metric_batches_dropped": 0, "time_since_restore": 38445.8471865654, "episode_reward_max": -513.0075792187437, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1501200, "default": {"kl": 0.012504960410296917, "policy_loss": -0.16288524866104126, "vf_loss": 200.3593292236328, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9829980134963989, "entropy": 6.139450550079346, "cur_lr": 4.999999873689376e-05, "total_loss": 200.21543884277344}, "load_time_ms": 0.718, "num_steps_sampled": 1501200, "grad_time_ms": 671.732, "update_time_ms": 2.449, "sample_time_ms": 30659.11}, "date": "2025-08-31_02-51-30", "hostname": "cda-server-4", "time_this_iter_s": 30.481059789657593, "episodes_total": 7506, "timestamp": 1756601490, "node_ip": "10.157.146.4", "done": false, "time_total_s": 38445.8471865654, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1252, "episode_reward_mean": -616.4617885960208, "training_iteration": 1252, "timesteps_total": 1502400, "policy_reward_mean": {}, "episode_reward_min": -790.405554450529, "timesteps_since_restore": 1502400, "num_metric_batches_dropped": 0, "time_since_restore": 38477.35177278519, "episode_reward_max": -513.0075792187437, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1502400, "default": {"kl": 0.009941971860826015, "policy_loss": -0.13370007276535034, "vf_loss": 227.01092529296875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9813578128814697, "entropy": 6.375673294067383, "cur_lr": 4.999999873689376e-05, "total_loss": 226.892333984375}, "load_time_ms": 0.716, "num_steps_sampled": 1502400, "grad_time_ms": 645.93, "update_time_ms": 2.495, "sample_time_ms": 30850.473}, "date": "2025-08-31_02-52-02", "hostname": "cda-server-4", "time_this_iter_s": 31.504586219787598, "episodes_total": 7512, "timestamp": 1756601522, "node_ip": "10.157.146.4", "done": false, "time_total_s": 38477.35177278519, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1253, "episode_reward_mean": -617.2751659679268, "training_iteration": 1253, "timesteps_total": 1503600, "policy_reward_mean": {}, "episode_reward_min": -790.405554450529, "timesteps_since_restore": 1503600, "num_metric_batches_dropped": 0, "time_since_restore": 38508.73171186447, "episode_reward_max": -513.0075792187437, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1503600, "default": {"kl": 0.01099794078618288, "policy_loss": -0.1490664780139923, "vf_loss": 570.4736328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9546555280685425, "entropy": 6.46983528137207, "cur_lr": 4.999999873689376e-05, "total_loss": 570.3412475585938}, "load_time_ms": 0.686, "num_steps_sampled": 1503600, "grad_time_ms": 658.606, "update_time_ms": 2.519, "sample_time_ms": 30963.512}, "date": "2025-08-31_02-52-33", "hostname": "cda-server-4", "time_this_iter_s": 31.379939079284668, "episodes_total": 7518, "timestamp": 1756601553, "node_ip": "10.157.146.4", "done": false, "time_total_s": 38508.73171186447, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1254, "episode_reward_mean": -614.4733912048415, "training_iteration": 1254, "timesteps_total": 1504800, "policy_reward_mean": {}, "episode_reward_min": -790.405554450529, "timesteps_since_restore": 1504800, "num_metric_batches_dropped": 0, "time_since_restore": 38536.34018492699, "episode_reward_max": -513.0075792187437, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1504800, "default": {"kl": 0.01194776315242052, "policy_loss": -0.1553732454776764, "vf_loss": 624.6427612304688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9548741579055786, "entropy": 5.9555487632751465, "cur_lr": 4.999999873689376e-05, "total_loss": 624.5054931640625}, "load_time_ms": 0.691, "num_steps_sampled": 1504800, "grad_time_ms": 659.928, "update_time_ms": 2.484, "sample_time_ms": 30643.928}, "date": "2025-08-31_02-53-01", "hostname": "cda-server-4", "time_this_iter_s": 27.60847306251526, "episodes_total": 7524, "timestamp": 1756601581, "node_ip": "10.157.146.4", "done": false, "time_total_s": 38536.34018492699, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1255, "episode_reward_mean": -613.2822620386415, "training_iteration": 1255, "timesteps_total": 1506000, "policy_reward_mean": {}, "episode_reward_min": -753.710841297536, "timesteps_since_restore": 1506000, "num_metric_batches_dropped": 0, "time_since_restore": 38565.83474993706, "episode_reward_max": -513.0075792187437, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1506000, "default": {"kl": 0.011997995898127556, "policy_loss": -0.14915584027767181, "vf_loss": 506.38958740234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9631870985031128, "entropy": 6.26649284362793, "cur_lr": 4.999999873689376e-05, "total_loss": 506.2585754394531}, "load_time_ms": 0.657, "num_steps_sampled": 1506000, "grad_time_ms": 656.86, "update_time_ms": 2.428, "sample_time_ms": 30650.406}, "date": "2025-08-31_02-53-30", "hostname": "cda-server-4", "time_this_iter_s": 29.4945650100708, "episodes_total": 7530, "timestamp": 1756601610, "node_ip": "10.157.146.4", "done": false, "time_total_s": 38565.83474993706, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1256, "episode_reward_mean": -612.7530831839609, "training_iteration": 1256, "timesteps_total": 1507200, "policy_reward_mean": {}, "episode_reward_min": -753.710841297536, "timesteps_since_restore": 1507200, "num_metric_batches_dropped": 0, "time_since_restore": 38598.11569547653, "episode_reward_max": -513.0075792187437, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1507200, "default": {"kl": 0.008126934058964252, "policy_loss": -0.10432229936122894, "vf_loss": 109.12983703613281, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.98304283618927, "entropy": 5.981939315795898, "cur_lr": 4.999999873689376e-05, "total_loss": 109.0378646850586}, "load_time_ms": 0.651, "num_steps_sampled": 1507200, "grad_time_ms": 648.353, "update_time_ms": 2.441, "sample_time_ms": 30577.344}, "date": "2025-08-31_02-54-03", "hostname": "cda-server-4", "time_this_iter_s": 32.28094553947449, "episodes_total": 7536, "timestamp": 1756601643, "node_ip": "10.157.146.4", "done": false, "time_total_s": 38598.11569547653, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1257, "episode_reward_mean": -612.7872378638888, "training_iteration": 1257, "timesteps_total": 1508400, "policy_reward_mean": {}, "episode_reward_min": -753.710841297536, "timesteps_since_restore": 1508400, "num_metric_batches_dropped": 0, "time_since_restore": 38627.508373975754, "episode_reward_max": -513.0075792187437, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1508400, "default": {"kl": 0.00822870060801506, "policy_loss": -0.12262209504842758, "vf_loss": 507.9348449707031, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9533782601356506, "entropy": 6.4207682609558105, "cur_lr": 4.999999873689376e-05, "total_loss": 507.82476806640625}, "load_time_ms": 0.647, "num_steps_sampled": 1508400, "grad_time_ms": 640.826, "update_time_ms": 2.404, "sample_time_ms": 30151.633}, "date": "2025-08-31_02-54-32", "hostname": "cda-server-4", "time_this_iter_s": 29.3926784992218, "episodes_total": 7542, "timestamp": 1756601672, "node_ip": "10.157.146.4", "done": false, "time_total_s": 38627.508373975754, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1258, "episode_reward_mean": -611.3874366541868, "training_iteration": 1258, "timesteps_total": 1509600, "policy_reward_mean": {}, "episode_reward_min": -753.710841297536, "timesteps_since_restore": 1509600, "num_metric_batches_dropped": 0, "time_since_restore": 38654.560891628265, "episode_reward_max": -513.0075792187437, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1509600, "default": {"kl": 0.011659812182188034, "policy_loss": -0.14964430034160614, "vf_loss": 117.15962982177734, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9836906790733337, "entropy": 6.286069869995117, "cur_lr": 4.999999873689376e-05, "total_loss": 117.02767944335938}, "load_time_ms": 0.64, "num_steps_sampled": 1509600, "grad_time_ms": 615.645, "update_time_ms": 2.292, "sample_time_ms": 29704.632}, "date": "2025-08-31_02-54-59", "hostname": "cda-server-4", "time_this_iter_s": 27.052517652511597, "episodes_total": 7548, "timestamp": 1756601699, "node_ip": "10.157.146.4", "done": false, "time_total_s": 38654.560891628265, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1259, "episode_reward_mean": -611.6097887844752, "training_iteration": 1259, "timesteps_total": 1510800, "policy_reward_mean": {}, "episode_reward_min": -753.710841297536, "timesteps_since_restore": 1510800, "num_metric_batches_dropped": 0, "time_since_restore": 38685.14040565491, "episode_reward_max": -513.0075792187437, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1510800, "default": {"kl": 0.011162987910211086, "policy_loss": -0.14918053150177002, "vf_loss": 215.63792419433594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9803905487060547, "entropy": 6.4141130447387695, "cur_lr": 4.999999873689376e-05, "total_loss": 215.50572204589844}, "load_time_ms": 0.653, "num_steps_sampled": 1510800, "grad_time_ms": 603.205, "update_time_ms": 2.336, "sample_time_ms": 29618.395}, "date": "2025-08-31_02-55-30", "hostname": "cda-server-4", "time_this_iter_s": 30.579514026641846, "episodes_total": 7554, "timestamp": 1756601730, "node_ip": "10.157.146.4", "done": false, "time_total_s": 38685.14040565491, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1260, "episode_reward_mean": -613.8640471923795, "training_iteration": 1260, "timesteps_total": 1512000, "policy_reward_mean": {}, "episode_reward_min": -753.710841297536, "timesteps_since_restore": 1512000, "num_metric_batches_dropped": 0, "time_since_restore": 38714.043811798096, "episode_reward_max": -529.7337661550009, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1512000, "default": {"kl": 0.01122667733579874, "policy_loss": -0.14902204275131226, "vf_loss": 81.95684051513672, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9936233162879944, "entropy": 6.17511510848999, "cur_lr": 4.999999873689376e-05, "total_loss": 81.82486724853516}, "load_time_ms": 0.625, "num_steps_sampled": 1512000, "grad_time_ms": 591.423, "update_time_ms": 2.379, "sample_time_ms": 29269.418}, "date": "2025-08-31_02-55-59", "hostname": "cda-server-4", "time_this_iter_s": 28.903406143188477, "episodes_total": 7560, "timestamp": 1756601759, "node_ip": "10.157.146.4", "done": false, "time_total_s": 38714.043811798096, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1261, "episode_reward_mean": -615.0399152604432, "training_iteration": 1261, "timesteps_total": 1513200, "policy_reward_mean": {}, "episode_reward_min": -753.710841297536, "timesteps_since_restore": 1513200, "num_metric_batches_dropped": 0, "time_since_restore": 38744.154758930206, "episode_reward_max": -529.7337661550009, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1513200, "default": {"kl": 0.011577237397432327, "policy_loss": -0.16439837217330933, "vf_loss": 229.12600708007812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9762797951698303, "entropy": 6.453497886657715, "cur_lr": 4.999999873689376e-05, "total_loss": 228.97918701171875}, "load_time_ms": 0.63, "num_steps_sampled": 1513200, "grad_time_ms": 604.15, "update_time_ms": 2.315, "sample_time_ms": 29219.691}, "date": "2025-08-31_02-56-29", "hostname": "cda-server-4", "time_this_iter_s": 30.110947132110596, "episodes_total": 7566, "timestamp": 1756601789, "node_ip": "10.157.146.4", "done": false, "time_total_s": 38744.154758930206, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1262, "episode_reward_mean": -614.1053132745714, "training_iteration": 1262, "timesteps_total": 1514400, "policy_reward_mean": {}, "episode_reward_min": -753.710841297536, "timesteps_since_restore": 1514400, "num_metric_batches_dropped": 0, "time_since_restore": 38774.6344268322, "episode_reward_max": -529.7337661550009, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1514400, "default": {"kl": 0.008071990683674812, "policy_loss": -0.12326182425022125, "vf_loss": 182.71304321289062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9845967888832092, "entropy": 6.1517863273620605, "cur_lr": 4.999999873689376e-05, "total_loss": 182.60202026367188}, "load_time_ms": 0.642, "num_steps_sampled": 1514400, "grad_time_ms": 630.274, "update_time_ms": 2.297, "sample_time_ms": 29090.991}, "date": "2025-08-31_02-56-59", "hostname": "cda-server-4", "time_this_iter_s": 30.479667901992798, "episodes_total": 7572, "timestamp": 1756601819, "node_ip": "10.157.146.4", "done": false, "time_total_s": 38774.6344268322, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1263, "episode_reward_mean": -616.0767733958179, "training_iteration": 1263, "timesteps_total": 1515600, "policy_reward_mean": {}, "episode_reward_min": -793.130360073574, "timesteps_since_restore": 1515600, "num_metric_batches_dropped": 0, "time_since_restore": 38804.81109189987, "episode_reward_max": -529.7337661550009, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1515600, "default": {"kl": 0.012959184125065804, "policy_loss": -0.14307790994644165, "vf_loss": 2546.273193359375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8460767269134521, "entropy": 6.507570266723633, "cur_lr": 4.999999873689376e-05, "total_loss": 2546.1494140625}, "load_time_ms": 0.639, "num_steps_sampled": 1515600, "grad_time_ms": 634.898, "update_time_ms": 2.384, "sample_time_ms": 28965.955}, "date": "2025-08-31_02-57-30", "hostname": "cda-server-4", "time_this_iter_s": 30.17666506767273, "episodes_total": 7578, "timestamp": 1756601850, "node_ip": "10.157.146.4", "done": false, "time_total_s": 38804.81109189987, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1264, "episode_reward_mean": -614.7699944903557, "training_iteration": 1264, "timesteps_total": 1516800, "policy_reward_mean": {}, "episode_reward_min": -793.130360073574, "timesteps_since_restore": 1516800, "num_metric_batches_dropped": 0, "time_since_restore": 38833.53611660004, "episode_reward_max": -529.7337661550009, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1516800, "default": {"kl": 0.009136565029621124, "policy_loss": -0.1484559178352356, "vf_loss": 410.4657287597656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9614083766937256, "entropy": 6.557668209075928, "cur_lr": 4.999999873689376e-05, "total_loss": 410.3311767578125}, "load_time_ms": 0.631, "num_steps_sampled": 1516800, "grad_time_ms": 631.434, "update_time_ms": 2.357, "sample_time_ms": 29081.084}, "date": "2025-08-31_02-57-58", "hostname": "cda-server-4", "time_this_iter_s": 28.725024700164795, "episodes_total": 7584, "timestamp": 1756601878, "node_ip": "10.157.146.4", "done": false, "time_total_s": 38833.53611660004, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1265, "episode_reward_mean": -615.2009567893824, "training_iteration": 1265, "timesteps_total": 1518000, "policy_reward_mean": {}, "episode_reward_min": -793.130360073574, "timesteps_since_restore": 1518000, "num_metric_batches_dropped": 0, "time_since_restore": 38864.31926560402, "episode_reward_max": -512.9435683828881, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1518000, "default": {"kl": 0.009816624224185944, "policy_loss": -0.1292470246553421, "vf_loss": 811.7908935546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9222242832183838, "entropy": 6.155036449432373, "cur_lr": 4.999999873689376e-05, "total_loss": 811.6765747070312}, "load_time_ms": 0.662, "num_steps_sampled": 1518000, "grad_time_ms": 628.808, "update_time_ms": 2.357, "sample_time_ms": 29212.58}, "date": "2025-08-31_02-58-29", "hostname": "cda-server-4", "time_this_iter_s": 30.783149003982544, "episodes_total": 7590, "timestamp": 1756601909, "node_ip": "10.157.146.4", "done": false, "time_total_s": 38864.31926560402, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1266, "episode_reward_mean": -615.9202919156397, "training_iteration": 1266, "timesteps_total": 1519200, "policy_reward_mean": {}, "episode_reward_min": -793.130360073574, "timesteps_since_restore": 1519200, "num_metric_batches_dropped": 0, "time_since_restore": 38894.36703538895, "episode_reward_max": -512.9435683828881, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1519200, "default": {"kl": 0.010682458989322186, "policy_loss": -0.14705955982208252, "vf_loss": 66.39925384521484, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9930480122566223, "entropy": 6.197766304016113, "cur_lr": 4.999999873689376e-05, "total_loss": 66.26841735839844}, "load_time_ms": 0.667, "num_steps_sampled": 1519200, "grad_time_ms": 632.549, "update_time_ms": 2.388, "sample_time_ms": 28985.43}, "date": "2025-08-31_02-58-59", "hostname": "cda-server-4", "time_this_iter_s": 30.047769784927368, "episodes_total": 7596, "timestamp": 1756601939, "node_ip": "10.157.146.4", "done": false, "time_total_s": 38894.36703538895, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1267, "episode_reward_mean": -618.0369698665311, "training_iteration": 1267, "timesteps_total": 1520400, "policy_reward_mean": {}, "episode_reward_min": -793.130360073574, "timesteps_since_restore": 1520400, "num_metric_batches_dropped": 0, "time_since_restore": 38921.88300347328, "episode_reward_max": -512.9435683828881, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1520400, "default": {"kl": 0.012357473373413086, "policy_loss": -0.13502083718776703, "vf_loss": 311.4602966308594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9647335410118103, "entropy": 6.563246726989746, "cur_lr": 4.999999873689376e-05, "total_loss": 311.34405517578125}, "load_time_ms": 0.671, "num_steps_sampled": 1520400, "grad_time_ms": 623.844, "update_time_ms": 2.4, "sample_time_ms": 28806.504}, "date": "2025-08-31_02-59-27", "hostname": "cda-server-4", "time_this_iter_s": 27.515968084335327, "episodes_total": 7602, "timestamp": 1756601967, "node_ip": "10.157.146.4", "done": false, "time_total_s": 38921.88300347328, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1268, "episode_reward_mean": -618.7724572096182, "training_iteration": 1268, "timesteps_total": 1521600, "policy_reward_mean": {}, "episode_reward_min": -793.130360073574, "timesteps_since_restore": 1521600, "num_metric_batches_dropped": 0, "time_since_restore": 38951.91705203056, "episode_reward_max": -512.9435683828881, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1521600, "default": {"kl": 0.011424221098423004, "policy_loss": -0.1470513492822647, "vf_loss": 245.8273162841797, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9769302010536194, "entropy": 6.2575483322143555, "cur_lr": 4.999999873689376e-05, "total_loss": 245.69761657714844}, "load_time_ms": 0.679, "num_steps_sampled": 1521600, "grad_time_ms": 641.271, "update_time_ms": 2.404, "sample_time_ms": 29087.199}, "date": "2025-08-31_02-59-57", "hostname": "cda-server-4", "time_this_iter_s": 30.034048557281494, "episodes_total": 7608, "timestamp": 1756601997, "node_ip": "10.157.146.4", "done": false, "time_total_s": 38951.91705203056, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1269, "episode_reward_mean": -617.3654483610075, "training_iteration": 1269, "timesteps_total": 1522800, "policy_reward_mean": {}, "episode_reward_min": -793.130360073574, "timesteps_since_restore": 1522800, "num_metric_batches_dropped": 0, "time_since_restore": 38981.722504615784, "episode_reward_max": -485.40576032553645, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1522800, "default": {"kl": 0.01004608441144228, "policy_loss": -0.14664584398269653, "vf_loss": 169.15771484375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9761378765106201, "entropy": 6.160588264465332, "cur_lr": 4.999999873689376e-05, "total_loss": 169.0263214111328}, "load_time_ms": 0.682, "num_steps_sampled": 1522800, "grad_time_ms": 647.868, "update_time_ms": 2.344, "sample_time_ms": 29003.233}, "date": "2025-08-31_03-00-27", "hostname": "cda-server-4", "time_this_iter_s": 29.805452585220337, "episodes_total": 7614, "timestamp": 1756602027, "node_ip": "10.157.146.4", "done": false, "time_total_s": 38981.722504615784, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1270, "episode_reward_mean": -616.5961498888195, "training_iteration": 1270, "timesteps_total": 1524000, "policy_reward_mean": {}, "episode_reward_min": -793.130360073574, "timesteps_since_restore": 1524000, "num_metric_batches_dropped": 0, "time_since_restore": 39008.501192092896, "episode_reward_max": -485.40576032553645, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1524000, "default": {"kl": 0.012019848451018333, "policy_loss": -0.14496272802352905, "vf_loss": 22.432172775268555, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9967055916786194, "entropy": 6.1165642738342285, "cur_lr": 4.999999873689376e-05, "total_loss": 22.305463790893555}, "load_time_ms": 0.679, "num_steps_sampled": 1524000, "grad_time_ms": 641.23, "update_time_ms": 2.326, "sample_time_ms": 28797.463}, "date": "2025-08-31_03-00-53", "hostname": "cda-server-4", "time_this_iter_s": 26.778687477111816, "episodes_total": 7620, "timestamp": 1756602053, "node_ip": "10.157.146.4", "done": false, "time_total_s": 39008.501192092896, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1271, "episode_reward_mean": -616.699977001137, "training_iteration": 1271, "timesteps_total": 1525200, "policy_reward_mean": {}, "episode_reward_min": -793.130360073574, "timesteps_since_restore": 1525200, "num_metric_batches_dropped": 0, "time_since_restore": 39040.37552642822, "episode_reward_max": -485.40576032553645, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1525200, "default": {"kl": 0.013445860706269741, "policy_loss": -0.1627333164215088, "vf_loss": 519.09130859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9595873355865479, "entropy": 6.196854591369629, "cur_lr": 4.999999873689376e-05, "total_loss": 518.948974609375}, "load_time_ms": 0.672, "num_steps_sampled": 1525200, "grad_time_ms": 644.185, "update_time_ms": 2.341, "sample_time_ms": 28970.862}, "date": "2025-08-31_03-01-25", "hostname": "cda-server-4", "time_this_iter_s": 31.87433433532715, "episodes_total": 7626, "timestamp": 1756602085, "node_ip": "10.157.146.4", "done": false, "time_total_s": 39040.37552642822, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1272, "episode_reward_mean": -616.3774913135877, "training_iteration": 1272, "timesteps_total": 1526400, "policy_reward_mean": {}, "episode_reward_min": -793.130360073574, "timesteps_since_restore": 1526400, "num_metric_batches_dropped": 0, "time_since_restore": 39071.5289106369, "episode_reward_max": -485.40576032553645, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1526400, "default": {"kl": 0.00799970980733633, "policy_loss": -0.11830046772956848, "vf_loss": 253.15687561035156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9723442792892456, "entropy": 6.287878513336182, "cur_lr": 4.999999873689376e-05, "total_loss": 253.05075073242188}, "load_time_ms": 0.667, "num_steps_sampled": 1526400, "grad_time_ms": 641.142, "update_time_ms": 2.332, "sample_time_ms": 29041.3}, "date": "2025-08-31_03-01-56", "hostname": "cda-server-4", "time_this_iter_s": 31.1533842086792, "episodes_total": 7632, "timestamp": 1756602116, "node_ip": "10.157.146.4", "done": false, "time_total_s": 39071.5289106369, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1273, "episode_reward_mean": -615.9201561855515, "training_iteration": 1273, "timesteps_total": 1527600, "policy_reward_mean": {}, "episode_reward_min": -793.130360073574, "timesteps_since_restore": 1527600, "num_metric_batches_dropped": 0, "time_since_restore": 39103.360000133514, "episode_reward_max": -485.40576032553645, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1527600, "default": {"kl": 0.010783434845507145, "policy_loss": -0.13206754624843597, "vf_loss": 107.70718383789062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9860618114471436, "entropy": 6.029272079467773, "cur_lr": 4.999999873689376e-05, "total_loss": 107.59149169921875}, "load_time_ms": 0.701, "num_steps_sampled": 1527600, "grad_time_ms": 640.223, "update_time_ms": 2.244, "sample_time_ms": 29207.715}, "date": "2025-08-31_03-02-28", "hostname": "cda-server-4", "time_this_iter_s": 31.83108949661255, "episodes_total": 7638, "timestamp": 1756602148, "node_ip": "10.157.146.4", "done": false, "time_total_s": 39103.360000133514, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1274, "episode_reward_mean": -616.5634079684285, "training_iteration": 1274, "timesteps_total": 1528800, "policy_reward_mean": {}, "episode_reward_min": -793.130360073574, "timesteps_since_restore": 1528800, "num_metric_batches_dropped": 0, "time_since_restore": 39133.94968056679, "episode_reward_max": -485.40576032553645, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1528800, "default": {"kl": 0.00876469537615776, "policy_loss": -0.1177532970905304, "vf_loss": 408.5387268066406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.972112774848938, "entropy": 6.179543972015381, "cur_lr": 4.999999873689376e-05, "total_loss": 408.4342956542969}, "load_time_ms": 0.702, "num_steps_sampled": 1528800, "grad_time_ms": 641.473, "update_time_ms": 2.271, "sample_time_ms": 29392.84}, "date": "2025-08-31_03-02-59", "hostname": "cda-server-4", "time_this_iter_s": 30.589680433273315, "episodes_total": 7644, "timestamp": 1756602179, "node_ip": "10.157.146.4", "done": false, "time_total_s": 39133.94968056679, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1275, "episode_reward_mean": -616.9606413621115, "training_iteration": 1275, "timesteps_total": 1530000, "policy_reward_mean": {}, "episode_reward_min": -793.130360073574, "timesteps_since_restore": 1530000, "num_metric_batches_dropped": 0, "time_since_restore": 39163.21699881554, "episode_reward_max": -485.40576032553645, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1530000, "default": {"kl": 0.0092597845941782, "policy_loss": -0.12247046828269958, "vf_loss": 435.39324951171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.96506667137146, "entropy": 6.29154634475708, "cur_lr": 4.999999873689376e-05, "total_loss": 435.2848205566406}, "load_time_ms": 0.706, "num_steps_sampled": 1530000, "grad_time_ms": 648.984, "update_time_ms": 2.228, "sample_time_ms": 29233.771}, "date": "2025-08-31_03-03-28", "hostname": "cda-server-4", "time_this_iter_s": 29.26731824874878, "episodes_total": 7650, "timestamp": 1756602208, "node_ip": "10.157.146.4", "done": false, "time_total_s": 39163.21699881554, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1276, "episode_reward_mean": -616.0228614430922, "training_iteration": 1276, "timesteps_total": 1531200, "policy_reward_mean": {}, "episode_reward_min": -793.130360073574, "timesteps_since_restore": 1531200, "num_metric_batches_dropped": 0, "time_since_restore": 39193.38957071304, "episode_reward_max": -485.40576032553645, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1531200, "default": {"kl": 0.010259388014674187, "policy_loss": -0.14382342994213104, "vf_loss": 75.17511749267578, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9910887479782104, "entropy": 6.1657562255859375, "cur_lr": 4.999999873689376e-05, "total_loss": 75.04688262939453}, "load_time_ms": 0.715, "num_steps_sampled": 1531200, "grad_time_ms": 647.924, "update_time_ms": 2.236, "sample_time_ms": 29247.323}, "date": "2025-08-31_03-03-58", "hostname": "cda-server-4", "time_this_iter_s": 30.172571897506714, "episodes_total": 7656, "timestamp": 1756602238, "node_ip": "10.157.146.4", "done": false, "time_total_s": 39193.38957071304, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1277, "episode_reward_mean": -615.0360176512785, "training_iteration": 1277, "timesteps_total": 1532400, "policy_reward_mean": {}, "episode_reward_min": -793.130360073574, "timesteps_since_restore": 1532400, "num_metric_batches_dropped": 0, "time_since_restore": 39224.360845565796, "episode_reward_max": -485.40576032553645, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1532400, "default": {"kl": 0.010572874918580055, "policy_loss": -0.13565224409103394, "vf_loss": 163.53839111328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9887553453445435, "entropy": 5.993703365325928, "cur_lr": 4.999999873689376e-05, "total_loss": 163.4187774658203}, "load_time_ms": 0.715, "num_steps_sampled": 1532400, "grad_time_ms": 670.892, "update_time_ms": 2.339, "sample_time_ms": 29569.775}, "date": "2025-08-31_03-04-29", "hostname": "cda-server-4", "time_this_iter_s": 30.971274852752686, "episodes_total": 7662, "timestamp": 1756602269, "node_ip": "10.157.146.4", "done": false, "time_total_s": 39224.360845565796, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1278, "episode_reward_mean": -614.8384994169148, "training_iteration": 1278, "timesteps_total": 1533600, "policy_reward_mean": {}, "episode_reward_min": -793.130360073574, "timesteps_since_restore": 1533600, "num_metric_batches_dropped": 0, "time_since_restore": 39256.530307769775, "episode_reward_max": -485.40576032553645, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1533600, "default": {"kl": 0.011387347243726254, "policy_loss": -0.13974228501319885, "vf_loss": 156.560302734375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9791381359100342, "entropy": 6.009072780609131, "cur_lr": 4.999999873689376e-05, "total_loss": 156.43785095214844}, "load_time_ms": 0.678, "num_steps_sampled": 1533600, "grad_time_ms": 681.203, "update_time_ms": 2.38, "sample_time_ms": 29773.017}, "date": "2025-08-31_03-05-02", "hostname": "cda-server-4", "time_this_iter_s": 32.16946220397949, "episodes_total": 7668, "timestamp": 1756602302, "node_ip": "10.157.146.4", "done": false, "time_total_s": 39256.530307769775, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1279, "episode_reward_mean": -615.1158339987068, "training_iteration": 1279, "timesteps_total": 1534800, "policy_reward_mean": {}, "episode_reward_min": -793.130360073574, "timesteps_since_restore": 1534800, "num_metric_batches_dropped": 0, "time_since_restore": 39288.48229265213, "episode_reward_max": -485.40576032553645, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1534800, "default": {"kl": 0.013159642927348614, "policy_loss": -0.15242673456668854, "vf_loss": 449.2908935546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9617173671722412, "entropy": 6.4677815437316895, "cur_lr": 4.999999873689376e-05, "total_loss": 449.158447265625}, "load_time_ms": 0.679, "num_steps_sampled": 1534800, "grad_time_ms": 693.387, "update_time_ms": 2.331, "sample_time_ms": 29975.557}, "date": "2025-08-31_03-05-33", "hostname": "cda-server-4", "time_this_iter_s": 31.951984882354736, "episodes_total": 7674, "timestamp": 1756602333, "node_ip": "10.157.146.4", "done": false, "time_total_s": 39288.48229265213, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1280, "episode_reward_mean": -610.9575388735225, "training_iteration": 1280, "timesteps_total": 1536000, "policy_reward_mean": {}, "episode_reward_min": -785.9375208312354, "timesteps_since_restore": 1536000, "num_metric_batches_dropped": 0, "time_since_restore": 39320.005227565765, "episode_reward_max": -485.40576032553645, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1536000, "default": {"kl": 0.0129149304702878, "policy_loss": -0.16829968988895416, "vf_loss": 659.5772094726562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9562943577766418, "entropy": 6.204498291015625, "cur_lr": 4.999999873689376e-05, "total_loss": 659.4285888671875}, "load_time_ms": 0.688, "num_steps_sampled": 1536000, "grad_time_ms": 696.859, "update_time_ms": 2.364, "sample_time_ms": 30446.4}, "date": "2025-08-31_03-06-05", "hostname": "cda-server-4", "time_this_iter_s": 31.522934913635254, "episodes_total": 7680, "timestamp": 1756602365, "node_ip": "10.157.146.4", "done": false, "time_total_s": 39320.005227565765, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1281, "episode_reward_mean": -609.9093088787363, "training_iteration": 1281, "timesteps_total": 1537200, "policy_reward_mean": {}, "episode_reward_min": -785.9375208312354, "timesteps_since_restore": 1537200, "num_metric_batches_dropped": 0, "time_since_restore": 39353.32863306999, "episode_reward_max": -477.78949343779914, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1537200, "default": {"kl": 0.01136779598891735, "policy_loss": -0.15573523938655853, "vf_loss": 265.36663818359375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9693304896354675, "entropy": 6.074611663818359, "cur_lr": 4.999999873689376e-05, "total_loss": 265.2281799316406}, "load_time_ms": 0.684, "num_steps_sampled": 1537200, "grad_time_ms": 703.109, "update_time_ms": 2.37, "sample_time_ms": 30585.079}, "date": "2025-08-31_03-06-38", "hostname": "cda-server-4", "time_this_iter_s": 33.323405504226685, "episodes_total": 7686, "timestamp": 1756602398, "node_ip": "10.157.146.4", "done": false, "time_total_s": 39353.32863306999, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1282, "episode_reward_mean": -608.9736126947846, "training_iteration": 1282, "timesteps_total": 1538400, "policy_reward_mean": {}, "episode_reward_min": -672.5049917278782, "timesteps_since_restore": 1538400, "num_metric_batches_dropped": 0, "time_since_restore": 39384.969292640686, "episode_reward_max": -477.78949343779914, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1538400, "default": {"kl": 0.010498232208192348, "policy_loss": -0.1455894261598587, "vf_loss": 46.06834411621094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9934632778167725, "entropy": 6.088992595672607, "cur_lr": 4.999999873689376e-05, "total_loss": 45.938697814941406}, "load_time_ms": 0.688, "num_steps_sampled": 1538400, "grad_time_ms": 708.845, "update_time_ms": 2.322, "sample_time_ms": 30628.124}, "date": "2025-08-31_03-07-10", "hostname": "cda-server-4", "time_this_iter_s": 31.64065957069397, "episodes_total": 7692, "timestamp": 1756602430, "node_ip": "10.157.146.4", "done": false, "time_total_s": 39384.969292640686, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1283, "episode_reward_mean": -608.0260518128715, "training_iteration": 1283, "timesteps_total": 1539600, "policy_reward_mean": {}, "episode_reward_min": -672.5049917278782, "timesteps_since_restore": 1539600, "num_metric_batches_dropped": 0, "time_since_restore": 39416.18471002579, "episode_reward_max": -477.78949343779914, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1539600, "default": {"kl": 0.008804836310446262, "policy_loss": -0.136318176984787, "vf_loss": 90.62893676757812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9889260530471802, "entropy": 6.099520683288574, "cur_lr": 4.999999873689376e-05, "total_loss": 90.5059814453125}, "load_time_ms": 0.659, "num_steps_sampled": 1539600, "grad_time_ms": 709.261, "update_time_ms": 2.386, "sample_time_ms": 30566.136}, "date": "2025-08-31_03-07-41", "hostname": "cda-server-4", "time_this_iter_s": 31.21541738510132, "episodes_total": 7698, "timestamp": 1756602461, "node_ip": "10.157.146.4", "done": false, "time_total_s": 39416.18471002579, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1284, "episode_reward_mean": -607.7035173234499, "training_iteration": 1284, "timesteps_total": 1540800, "policy_reward_mean": {}, "episode_reward_min": -650.8222175545466, "timesteps_since_restore": 1540800, "num_metric_batches_dropped": 0, "time_since_restore": 39447.671404123306, "episode_reward_max": -477.78949343779914, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1540800, "default": {"kl": 0.010820646770298481, "policy_loss": -0.14598137140274048, "vf_loss": 96.83849334716797, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.992203950881958, "entropy": 6.085649490356445, "cur_lr": 4.999999873689376e-05, "total_loss": 96.70894622802734}, "load_time_ms": 0.658, "num_steps_sampled": 1540800, "grad_time_ms": 721.023, "update_time_ms": 2.37, "sample_time_ms": 30644.042}, "date": "2025-08-31_03-08-13", "hostname": "cda-server-4", "time_this_iter_s": 31.48669409751892, "episodes_total": 7704, "timestamp": 1756602493, "node_ip": "10.157.146.4", "done": false, "time_total_s": 39447.671404123306, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1285, "episode_reward_mean": -607.0287342093911, "training_iteration": 1285, "timesteps_total": 1542000, "policy_reward_mean": {}, "episode_reward_min": -653.5990588973796, "timesteps_since_restore": 1542000, "num_metric_batches_dropped": 0, "time_since_restore": 39476.63152241707, "episode_reward_max": -477.78949343779914, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1542000, "default": {"kl": 0.011834132485091686, "policy_loss": -0.14247804880142212, "vf_loss": 263.1396789550781, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9830804467201233, "entropy": 6.216646194458008, "cur_lr": 4.999999873689376e-05, "total_loss": 263.0151672363281}, "load_time_ms": 0.625, "num_steps_sampled": 1542000, "grad_time_ms": 710.157, "update_time_ms": 2.52, "sample_time_ms": 30624.123}, "date": "2025-08-31_03-08-42", "hostname": "cda-server-4", "time_this_iter_s": 28.960118293762207, "episodes_total": 7710, "timestamp": 1756602522, "node_ip": "10.157.146.4", "done": false, "time_total_s": 39476.63152241707, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1286, "episode_reward_mean": -607.6019102428075, "training_iteration": 1286, "timesteps_total": 1543200, "policy_reward_mean": {}, "episode_reward_min": -657.635537046757, "timesteps_since_restore": 1543200, "num_metric_batches_dropped": 0, "time_since_restore": 39505.37902569771, "episode_reward_max": -477.78949343779914, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1543200, "default": {"kl": 0.009924110025167465, "policy_loss": -0.14856313169002533, "vf_loss": 177.57957458496094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9826921820640564, "entropy": 6.334786891937256, "cur_lr": 4.999999873689376e-05, "total_loss": 177.4460906982422}, "load_time_ms": 0.618, "num_steps_sampled": 1543200, "grad_time_ms": 711.222, "update_time_ms": 2.477, "sample_time_ms": 30480.601}, "date": "2025-08-31_03-09-11", "hostname": "cda-server-4", "time_this_iter_s": 28.74750328063965, "episodes_total": 7716, "timestamp": 1756602551, "node_ip": "10.157.146.4", "done": false, "time_total_s": 39505.37902569771, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1287, "episode_reward_mean": -607.918250255396, "training_iteration": 1287, "timesteps_total": 1544400, "policy_reward_mean": {}, "episode_reward_min": -657.635537046757, "timesteps_since_restore": 1544400, "num_metric_batches_dropped": 0, "time_since_restore": 39536.074518203735, "episode_reward_max": -477.78949343779914, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1544400, "default": {"kl": 0.01099586021155119, "policy_loss": -0.15582434833049774, "vf_loss": 271.5595703125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9807147979736328, "entropy": 6.192715644836426, "cur_lr": 4.999999873689376e-05, "total_loss": 271.4204406738281}, "load_time_ms": 0.614, "num_steps_sampled": 1544400, "grad_time_ms": 708.026, "update_time_ms": 2.375, "sample_time_ms": 30456.229}, "date": "2025-08-31_03-09-41", "hostname": "cda-server-4", "time_this_iter_s": 30.69549250602722, "episodes_total": 7722, "timestamp": 1756602581, "node_ip": "10.157.146.4", "done": false, "time_total_s": 39536.074518203735, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1288, "episode_reward_mean": -608.1657336619625, "training_iteration": 1288, "timesteps_total": 1545600, "policy_reward_mean": {}, "episode_reward_min": -657.635537046757, "timesteps_since_restore": 1545600, "num_metric_batches_dropped": 0, "time_since_restore": 39566.473680734634, "episode_reward_max": -477.78949343779914, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1545600, "default": {"kl": 0.012031828984618187, "policy_loss": -0.1527375429868698, "vf_loss": 262.45703125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9716288447380066, "entropy": 6.186598777770996, "cur_lr": 4.999999873689376e-05, "total_loss": 262.32257080078125}, "load_time_ms": 0.619, "num_steps_sampled": 1545600, "grad_time_ms": 699.437, "update_time_ms": 2.358, "sample_time_ms": 30287.862}, "date": "2025-08-31_03-10-12", "hostname": "cda-server-4", "time_this_iter_s": 30.399162530899048, "episodes_total": 7728, "timestamp": 1756602612, "node_ip": "10.157.146.4", "done": false, "time_total_s": 39566.473680734634, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1289, "episode_reward_mean": -607.9402830147912, "training_iteration": 1289, "timesteps_total": 1546800, "policy_reward_mean": {}, "episode_reward_min": -667.7061371058259, "timesteps_since_restore": 1546800, "num_metric_batches_dropped": 0, "time_since_restore": 39598.3263566494, "episode_reward_max": -477.78949343779914, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1546800, "default": {"kl": 0.010143551044166088, "policy_loss": -0.13001686334609985, "vf_loss": 263.75347900390625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9832667112350464, "entropy": 6.083725929260254, "cur_lr": 4.999999873689376e-05, "total_loss": 263.6388244628906}, "load_time_ms": 0.616, "num_steps_sampled": 1546800, "grad_time_ms": 682.518, "update_time_ms": 2.339, "sample_time_ms": 30294.839}, "date": "2025-08-31_03-10-43", "hostname": "cda-server-4", "time_this_iter_s": 31.852675914764404, "episodes_total": 7734, "timestamp": 1756602643, "node_ip": "10.157.146.4", "done": false, "time_total_s": 39598.3263566494, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1290, "episode_reward_mean": -608.6923127609484, "training_iteration": 1290, "timesteps_total": 1548000, "policy_reward_mean": {}, "episode_reward_min": -667.7061371058259, "timesteps_since_restore": 1548000, "num_metric_batches_dropped": 0, "time_since_restore": 39628.10168218613, "episode_reward_max": -477.78949343779914, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1548000, "default": {"kl": 0.009371708147227764, "policy_loss": -0.1121189296245575, "vf_loss": 126.08687591552734, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.983454167842865, "entropy": 6.059956073760986, "cur_lr": 4.999999873689376e-05, "total_loss": 125.98898315429688}, "load_time_ms": 0.606, "num_steps_sampled": 1548000, "grad_time_ms": 685.722, "update_time_ms": 2.371, "sample_time_ms": 30116.902}, "date": "2025-08-31_03-11-13", "hostname": "cda-server-4", "time_this_iter_s": 29.775325536727905, "episodes_total": 7740, "timestamp": 1756602673, "node_ip": "10.157.146.4", "done": false, "time_total_s": 39628.10168218613, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1291, "episode_reward_mean": -608.6264977205832, "training_iteration": 1291, "timesteps_total": 1549200, "policy_reward_mean": {}, "episode_reward_min": -667.7061371058259, "timesteps_since_restore": 1549200, "num_metric_batches_dropped": 0, "time_since_restore": 39659.515973091125, "episode_reward_max": -477.78949343779914, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1549200, "default": {"kl": 0.012319391593337059, "policy_loss": -0.1415972113609314, "vf_loss": 74.57978820800781, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9900988340377808, "entropy": 5.967610836029053, "cur_lr": 4.999999873689376e-05, "total_loss": 74.45689392089844}, "load_time_ms": 0.607, "num_steps_sampled": 1549200, "grad_time_ms": 679.532, "update_time_ms": 2.369, "sample_time_ms": 29932.197}, "date": "2025-08-31_03-11-45", "hostname": "cda-server-4", "time_this_iter_s": 31.41429090499878, "episodes_total": 7746, "timestamp": 1756602705, "node_ip": "10.157.146.4", "done": false, "time_total_s": 39659.515973091125, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1292, "episode_reward_mean": -608.9635670254646, "training_iteration": 1292, "timesteps_total": 1550400, "policy_reward_mean": {}, "episode_reward_min": -667.7061371058259, "timesteps_since_restore": 1550400, "num_metric_batches_dropped": 0, "time_since_restore": 39692.75075650215, "episode_reward_max": -477.78949343779914, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1550400, "default": {"kl": 0.008923151530325413, "policy_loss": -0.12825065851211548, "vf_loss": 150.71917724609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9818041324615479, "entropy": 6.147810935974121, "cur_lr": 4.999999873689376e-05, "total_loss": 150.60447692871094}, "load_time_ms": 0.598, "num_steps_sampled": 1550400, "grad_time_ms": 671.088, "update_time_ms": 2.368, "sample_time_ms": 30099.877}, "date": "2025-08-31_03-12-18", "hostname": "cda-server-4", "time_this_iter_s": 33.234783411026, "episodes_total": 7752, "timestamp": 1756602738, "node_ip": "10.157.146.4", "done": false, "time_total_s": 39692.75075650215, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1293, "episode_reward_mean": -608.9175973442997, "training_iteration": 1293, "timesteps_total": 1551600, "policy_reward_mean": {}, "episode_reward_min": -667.7061371058259, "timesteps_since_restore": 1551600, "num_metric_batches_dropped": 0, "time_since_restore": 39724.493876457214, "episode_reward_max": -477.78949343779914, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1551600, "default": {"kl": 0.01127632986754179, "policy_loss": -0.13894158601760864, "vf_loss": 381.1640625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.961913526058197, "entropy": 6.128141403198242, "cur_lr": 4.999999873689376e-05, "total_loss": 381.0422668457031}, "load_time_ms": 0.598, "num_steps_sampled": 1551600, "grad_time_ms": 664.582, "update_time_ms": 2.308, "sample_time_ms": 30159.145}, "date": "2025-08-31_03-12-50", "hostname": "cda-server-4", "time_this_iter_s": 31.743119955062866, "episodes_total": 7758, "timestamp": 1756602770, "node_ip": "10.157.146.4", "done": false, "time_total_s": 39724.493876457214, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1294, "episode_reward_mean": -610.4573708224492, "training_iteration": 1294, "timesteps_total": 1552800, "policy_reward_mean": {}, "episode_reward_min": -691.2814711367646, "timesteps_since_restore": 1552800, "num_metric_batches_dropped": 0, "time_since_restore": 39757.37033677101, "episode_reward_max": -477.78949343779914, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1552800, "default": {"kl": 0.008673314936459064, "policy_loss": -0.12307964265346527, "vf_loss": 651.2708129882812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9535696506500244, "entropy": 6.314254283905029, "cur_lr": 4.999999873689376e-05, "total_loss": 651.160888671875}, "load_time_ms": 0.599, "num_steps_sampled": 1552800, "grad_time_ms": 651.961, "update_time_ms": 2.359, "sample_time_ms": 30310.785}, "date": "2025-08-31_03-13-23", "hostname": "cda-server-4", "time_this_iter_s": 32.876460313797, "episodes_total": 7764, "timestamp": 1756602803, "node_ip": "10.157.146.4", "done": false, "time_total_s": 39757.37033677101, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1295, "episode_reward_mean": -609.6610033682335, "training_iteration": 1295, "timesteps_total": 1554000, "policy_reward_mean": {}, "episode_reward_min": -691.2814711367646, "timesteps_since_restore": 1554000, "num_metric_batches_dropped": 0, "time_since_restore": 39790.90426325798, "episode_reward_max": -477.78949343779914, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1554000, "default": {"kl": 0.011903620325028896, "policy_loss": -0.16263607144355774, "vf_loss": 752.4049682617188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9653028845787048, "entropy": 5.9839348793029785, "cur_lr": 4.999999873689376e-05, "total_loss": 752.2604370117188}, "load_time_ms": 0.598, "num_steps_sampled": 1554000, "grad_time_ms": 661.647, "update_time_ms": 2.317, "sample_time_ms": 30758.507}, "date": "2025-08-31_03-13-56", "hostname": "cda-server-4", "time_this_iter_s": 33.533926486968994, "episodes_total": 7770, "timestamp": 1756602836, "node_ip": "10.157.146.4", "done": false, "time_total_s": 39790.90426325798, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1296, "episode_reward_mean": -609.0794038937788, "training_iteration": 1296, "timesteps_total": 1555200, "policy_reward_mean": {}, "episode_reward_min": -691.2814711367646, "timesteps_since_restore": 1555200, "num_metric_batches_dropped": 0, "time_since_restore": 39824.87806391716, "episode_reward_max": -477.78949343779914, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1555200, "default": {"kl": 0.008673695847392082, "policy_loss": -0.13463810086250305, "vf_loss": 285.80194091796875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9807448983192444, "entropy": 6.062993049621582, "cur_lr": 4.999999873689376e-05, "total_loss": 285.68048095703125}, "load_time_ms": 0.602, "num_steps_sampled": 1555200, "grad_time_ms": 661.701, "update_time_ms": 2.291, "sample_time_ms": 31281.131}, "date": "2025-08-31_03-14-30", "hostname": "cda-server-4", "time_this_iter_s": 33.97380065917969, "episodes_total": 7776, "timestamp": 1756602870, "node_ip": "10.157.146.4", "done": false, "time_total_s": 39824.87806391716, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1297, "episode_reward_mean": -610.4533740946556, "training_iteration": 1297, "timesteps_total": 1556400, "policy_reward_mean": {}, "episode_reward_min": -691.2814711367646, "timesteps_since_restore": 1556400, "num_metric_batches_dropped": 0, "time_since_restore": 39852.496205329895, "episode_reward_max": -477.78949343779914, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1556400, "default": {"kl": 0.012644640170037746, "policy_loss": -0.13881155848503113, "vf_loss": 66.5249252319336, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9905993342399597, "entropy": 5.997876167297363, "cur_lr": 4.999999873689376e-05, "total_loss": 66.40531158447266}, "load_time_ms": 0.611, "num_steps_sampled": 1556400, "grad_time_ms": 652.449, "update_time_ms": 2.336, "sample_time_ms": 30982.625}, "date": "2025-08-31_03-14-58", "hostname": "cda-server-4", "time_this_iter_s": 27.618141412734985, "episodes_total": 7782, "timestamp": 1756602898, "node_ip": "10.157.146.4", "done": false, "time_total_s": 39852.496205329895, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1298, "episode_reward_mean": -611.7909472416854, "training_iteration": 1298, "timesteps_total": 1557600, "policy_reward_mean": {}, "episode_reward_min": -691.2814711367646, "timesteps_since_restore": 1557600, "num_metric_batches_dropped": 0, "time_since_restore": 39883.947479486465, "episode_reward_max": -495.87198604045585, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1557600, "default": {"kl": 0.010572191327810287, "policy_loss": -0.14487968385219574, "vf_loss": 83.16515350341797, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9938009977340698, "entropy": 6.024530410766602, "cur_lr": 4.999999873689376e-05, "total_loss": 83.03632354736328}, "load_time_ms": 0.621, "num_steps_sampled": 1557600, "grad_time_ms": 646.389, "update_time_ms": 2.315, "sample_time_ms": 31093.896}, "date": "2025-08-31_03-15-29", "hostname": "cda-server-4", "time_this_iter_s": 31.451274156570435, "episodes_total": 7788, "timestamp": 1756602929, "node_ip": "10.157.146.4", "done": false, "time_total_s": 39883.947479486465, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1299, "episode_reward_mean": -611.531977891945, "training_iteration": 1299, "timesteps_total": 1558800, "policy_reward_mean": {}, "episode_reward_min": -691.2814711367646, "timesteps_since_restore": 1558800, "num_metric_batches_dropped": 0, "time_since_restore": 39916.23282265663, "episode_reward_max": -495.87198604045585, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1558800, "default": {"kl": 0.01254782173782587, "policy_loss": -0.16464224457740784, "vf_loss": 127.89620208740234, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9831289649009705, "entropy": 5.969881057739258, "cur_lr": 4.999999873689376e-05, "total_loss": 127.75062561035156}, "load_time_ms": 0.605, "num_steps_sampled": 1558800, "grad_time_ms": 633.314, "update_time_ms": 2.319, "sample_time_ms": 31150.285}, "date": "2025-08-31_03-16-02", "hostname": "cda-server-4", "time_this_iter_s": 32.285343170166016, "episodes_total": 7794, "timestamp": 1756602962, "node_ip": "10.157.146.4", "done": false, "time_total_s": 39916.23282265663, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1300, "episode_reward_mean": -610.9330946172813, "training_iteration": 1300, "timesteps_total": 1560000, "policy_reward_mean": {}, "episode_reward_min": -691.2814711367646, "timesteps_since_restore": 1560000, "num_metric_batches_dropped": 0, "time_since_restore": 39949.81556582451, "episode_reward_max": -495.87198604045585, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1560000, "default": {"kl": 0.01197590958327055, "policy_loss": -0.1288711130619049, "vf_loss": 136.77035522460938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9925392866134644, "entropy": 6.06711483001709, "cur_lr": 4.999999873689376e-05, "total_loss": 136.65968322753906}, "load_time_ms": 0.609, "num_steps_sampled": 1560000, "grad_time_ms": 633.487, "update_time_ms": 2.264, "sample_time_ms": 31530.849}, "date": "2025-08-31_03-16-35", "hostname": "cda-server-4", "time_this_iter_s": 33.5827431678772, "episodes_total": 7800, "timestamp": 1756602995, "node_ip": "10.157.146.4", "done": false, "time_total_s": 39949.81556582451, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1301, "episode_reward_mean": -611.7797567112764, "training_iteration": 1301, "timesteps_total": 1561200, "policy_reward_mean": {}, "episode_reward_min": -691.2814711367646, "timesteps_since_restore": 1561200, "num_metric_batches_dropped": 0, "time_since_restore": 39977.225132226944, "episode_reward_max": -495.87198604045585, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1561200, "default": {"kl": 0.008973639458417892, "policy_loss": -0.1253250241279602, "vf_loss": 96.75060272216797, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9905825853347778, "entropy": 6.183717727661133, "cur_lr": 4.999999873689376e-05, "total_loss": 96.63890075683594}, "load_time_ms": 0.609, "num_steps_sampled": 1561200, "grad_time_ms": 627.737, "update_time_ms": 2.269, "sample_time_ms": 31136.111}, "date": "2025-08-31_03-17-03", "hostname": "cda-server-4", "time_this_iter_s": 27.409566402435303, "episodes_total": 7806, "timestamp": 1756603023, "node_ip": "10.157.146.4", "done": false, "time_total_s": 39977.225132226944, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1302, "episode_reward_mean": -611.8913906690409, "training_iteration": 1302, "timesteps_total": 1562400, "policy_reward_mean": {}, "episode_reward_min": -691.2814711367646, "timesteps_since_restore": 1562400, "num_metric_batches_dropped": 0, "time_since_restore": 40008.94562840462, "episode_reward_max": -495.87198604045585, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1562400, "default": {"kl": 0.009194821119308472, "policy_loss": -0.0983540415763855, "vf_loss": 183.67364501953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9837608337402344, "entropy": 6.011987686157227, "cur_lr": 4.999999873689376e-05, "total_loss": 183.58924865722656}, "load_time_ms": 0.62, "num_steps_sampled": 1562400, "grad_time_ms": 627.242, "update_time_ms": 2.317, "sample_time_ms": 30985.324}, "date": "2025-08-31_03-17-34", "hostname": "cda-server-4", "time_this_iter_s": 31.72049617767334, "episodes_total": 7812, "timestamp": 1756603054, "node_ip": "10.157.146.4", "done": false, "time_total_s": 40008.94562840462, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1303, "episode_reward_mean": -612.727776139403, "training_iteration": 1303, "timesteps_total": 1563600, "policy_reward_mean": {}, "episode_reward_min": -786.738677814882, "timesteps_since_restore": 1563600, "num_metric_batches_dropped": 0, "time_since_restore": 40040.423325538635, "episode_reward_max": -495.87198604045585, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1563600, "default": {"kl": 0.011915605515241623, "policy_loss": -0.13179025053977966, "vf_loss": 1677.32568359375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8295590281486511, "entropy": 6.196235179901123, "cur_lr": 4.999999873689376e-05, "total_loss": 1677.212158203125}, "load_time_ms": 0.617, "num_steps_sampled": 1563600, "grad_time_ms": 609.979, "update_time_ms": 2.346, "sample_time_ms": 30976.071}, "date": "2025-08-31_03-18-06", "hostname": "cda-server-4", "time_this_iter_s": 31.477697134017944, "episodes_total": 7818, "timestamp": 1756603086, "node_ip": "10.157.146.4", "done": false, "time_total_s": 40040.423325538635, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1304, "episode_reward_mean": -612.840231130625, "training_iteration": 1304, "timesteps_total": 1564800, "policy_reward_mean": {}, "episode_reward_min": -786.738677814882, "timesteps_since_restore": 1564800, "num_metric_batches_dropped": 0, "time_since_restore": 40070.613830566406, "episode_reward_max": -495.87198604045585, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1564800, "default": {"kl": 0.009144936688244343, "policy_loss": -0.12622110545635223, "vf_loss": 104.60614013671875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9888697862625122, "entropy": 6.118069648742676, "cur_lr": 4.999999873689376e-05, "total_loss": 104.49380493164062}, "load_time_ms": 0.62, "num_steps_sampled": 1564800, "grad_time_ms": 606.098, "update_time_ms": 2.311, "sample_time_ms": 30711.368}, "date": "2025-08-31_03-18-36", "hostname": "cda-server-4", "time_this_iter_s": 30.190505027770996, "episodes_total": 7824, "timestamp": 1756603116, "node_ip": "10.157.146.4", "done": false, "time_total_s": 40070.613830566406, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1305, "episode_reward_mean": -614.1124607031583, "training_iteration": 1305, "timesteps_total": 1566000, "policy_reward_mean": {}, "episode_reward_min": -786.738677814882, "timesteps_since_restore": 1566000, "num_metric_batches_dropped": 0, "time_since_restore": 40098.57674956322, "episode_reward_max": -495.87198604045585, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1566000, "default": {"kl": 0.009206460788846016, "policy_loss": -0.10813465714454651, "vf_loss": 983.2708129882812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9337289333343506, "entropy": 6.237458229064941, "cur_lr": 4.999999873689376e-05, "total_loss": 983.1767578125}, "load_time_ms": 0.648, "num_steps_sampled": 1566000, "grad_time_ms": 602.686, "update_time_ms": 2.24, "sample_time_ms": 30157.743}, "date": "2025-08-31_03-19-04", "hostname": "cda-server-4", "time_this_iter_s": 27.962918996810913, "episodes_total": 7830, "timestamp": 1756603144, "node_ip": "10.157.146.4", "done": false, "time_total_s": 40098.57674956322, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1306, "episode_reward_mean": -614.3215039027053, "training_iteration": 1306, "timesteps_total": 1567200, "policy_reward_mean": {}, "episode_reward_min": -786.738677814882, "timesteps_since_restore": 1567200, "num_metric_batches_dropped": 0, "time_since_restore": 40126.91440272331, "episode_reward_max": -495.87198604045585, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1567200, "default": {"kl": 0.008944656699895859, "policy_loss": -0.12612959742546082, "vf_loss": 212.87901306152344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9805218577384949, "entropy": 5.95079231262207, "cur_lr": 4.999999873689376e-05, "total_loss": 212.76646423339844}, "load_time_ms": 0.641, "num_steps_sampled": 1567200, "grad_time_ms": 610.291, "update_time_ms": 2.243, "sample_time_ms": 29586.481}, "date": "2025-08-31_03-19-32", "hostname": "cda-server-4", "time_this_iter_s": 28.337653160095215, "episodes_total": 7836, "timestamp": 1756603172, "node_ip": "10.157.146.4", "done": false, "time_total_s": 40126.91440272331, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1307, "episode_reward_mean": -613.6410712786799, "training_iteration": 1307, "timesteps_total": 1568400, "policy_reward_mean": {}, "episode_reward_min": -786.738677814882, "timesteps_since_restore": 1568400, "num_metric_batches_dropped": 0, "time_since_restore": 40159.0765376091, "episode_reward_max": -495.87198604045585, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1568400, "default": {"kl": 0.01068966370075941, "policy_loss": -0.12609915435314178, "vf_loss": 301.7845458984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9744703769683838, "entropy": 5.965677738189697, "cur_lr": 4.999999873689376e-05, "total_loss": 301.6747131347656}, "load_time_ms": 0.668, "num_steps_sampled": 1568400, "grad_time_ms": 627.209, "update_time_ms": 2.258, "sample_time_ms": 30024.025}, "date": "2025-08-31_03-20-05", "hostname": "cda-server-4", "time_this_iter_s": 32.162134885787964, "episodes_total": 7842, "timestamp": 1756603205, "node_ip": "10.157.146.4", "done": false, "time_total_s": 40159.0765376091, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1308, "episode_reward_mean": -613.4208535040993, "training_iteration": 1308, "timesteps_total": 1569600, "policy_reward_mean": {}, "episode_reward_min": -786.738677814882, "timesteps_since_restore": 1569600, "num_metric_batches_dropped": 0, "time_since_restore": 40190.58245563507, "episode_reward_max": -495.87198604045585, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1569600, "default": {"kl": 0.009049751795828342, "policy_loss": -0.10510598868131638, "vf_loss": 181.76632690429688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9739207029342651, "entropy": 5.822977542877197, "cur_lr": 4.999999873689376e-05, "total_loss": 181.6749725341797}, "load_time_ms": 0.659, "num_steps_sampled": 1569600, "grad_time_ms": 642.191, "update_time_ms": 2.247, "sample_time_ms": 30014.546}, "date": "2025-08-31_03-20-36", "hostname": "cda-server-4", "time_this_iter_s": 31.50591802597046, "episodes_total": 7848, "timestamp": 1756603236, "node_ip": "10.157.146.4", "done": false, "time_total_s": 40190.58245563507, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1309, "episode_reward_mean": -612.3207225806503, "training_iteration": 1309, "timesteps_total": 1570800, "policy_reward_mean": {}, "episode_reward_min": -786.738677814882, "timesteps_since_restore": 1570800, "num_metric_batches_dropped": 0, "time_since_restore": 40221.21049141884, "episode_reward_max": -495.87198604045585, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1570800, "default": {"kl": 0.010492833331227303, "policy_loss": -0.1357298493385315, "vf_loss": 72.02631378173828, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9941704273223877, "entropy": 6.002212047576904, "cur_lr": 4.999999873689376e-05, "total_loss": 71.9065170288086}, "load_time_ms": 0.67, "num_steps_sampled": 1570800, "grad_time_ms": 659.293, "update_time_ms": 2.236, "sample_time_ms": 29831.666}, "date": "2025-08-31_03-21-07", "hostname": "cda-server-4", "time_this_iter_s": 30.6280357837677, "episodes_total": 7854, "timestamp": 1756603267, "node_ip": "10.157.146.4", "done": false, "time_total_s": 40221.21049141884, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1310, "episode_reward_mean": -612.7691677974906, "training_iteration": 1310, "timesteps_total": 1572000, "policy_reward_mean": {}, "episode_reward_min": -786.738677814882, "timesteps_since_restore": 1572000, "num_metric_batches_dropped": 0, "time_since_restore": 40252.55646395683, "episode_reward_max": -531.4614479609428, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1572000, "default": {"kl": 0.007848634384572506, "policy_loss": -0.12275382876396179, "vf_loss": 764.1983642578125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9326019287109375, "entropy": 5.9200921058654785, "cur_lr": 4.999999873689376e-05, "total_loss": 764.0875244140625}, "load_time_ms": 0.685, "num_steps_sampled": 1572000, "grad_time_ms": 684.637, "update_time_ms": 2.231, "sample_time_ms": 29582.645}, "date": "2025-08-31_03-21-38", "hostname": "cda-server-4", "time_this_iter_s": 31.345972537994385, "episodes_total": 7860, "timestamp": 1756603298, "node_ip": "10.157.146.4", "done": false, "time_total_s": 40252.55646395683, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1311, "episode_reward_mean": -611.9988530676375, "training_iteration": 1311, "timesteps_total": 1573200, "policy_reward_mean": {}, "episode_reward_min": -786.738677814882, "timesteps_since_restore": 1573200, "num_metric_batches_dropped": 0, "time_since_restore": 40285.41734409332, "episode_reward_max": -531.4614479609428, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1573200, "default": {"kl": 0.010547162964940071, "policy_loss": -0.13808497786521912, "vf_loss": 369.4226379394531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9683271050453186, "entropy": 6.031463623046875, "cur_lr": 4.999999873689376e-05, "total_loss": 369.300537109375}, "load_time_ms": 0.717, "num_steps_sampled": 1573200, "grad_time_ms": 695.427, "update_time_ms": 2.279, "sample_time_ms": 30116.822}, "date": "2025-08-31_03-22-11", "hostname": "cda-server-4", "time_this_iter_s": 32.86088013648987, "episodes_total": 7866, "timestamp": 1756603331, "node_ip": "10.157.146.4", "done": false, "time_total_s": 40285.41734409332, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1312, "episode_reward_mean": -612.4334018290848, "training_iteration": 1312, "timesteps_total": 1574400, "policy_reward_mean": {}, "episode_reward_min": -786.738677814882, "timesteps_since_restore": 1574400, "num_metric_batches_dropped": 0, "time_since_restore": 40316.14095187187, "episode_reward_max": -563.7321007033697, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1574400, "default": {"kl": 0.007596207782626152, "policy_loss": -0.11458342522382736, "vf_loss": 221.93960571289062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9731874465942383, "entropy": 5.931643486022949, "cur_lr": 4.999999873689376e-05, "total_loss": 221.83657836914062}, "load_time_ms": 0.708, "num_steps_sampled": 1574400, "grad_time_ms": 701.705, "update_time_ms": 2.293, "sample_time_ms": 30010.718}, "date": "2025-08-31_03-22-42", "hostname": "cda-server-4", "time_this_iter_s": 30.723607778549194, "episodes_total": 7872, "timestamp": 1756603362, "node_ip": "10.157.146.4", "done": false, "time_total_s": 40316.14095187187, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1313, "episode_reward_mean": -614.8851835216981, "training_iteration": 1313, "timesteps_total": 1575600, "policy_reward_mean": {}, "episode_reward_min": -786.738677814882, "timesteps_since_restore": 1575600, "num_metric_batches_dropped": 0, "time_since_restore": 40348.65990495682, "episode_reward_max": -563.7321007033697, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1575600, "default": {"kl": 0.011888876557350159, "policy_loss": -0.14010119438171387, "vf_loss": 457.5889892578125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9558151960372925, "entropy": 6.057001113891602, "cur_lr": 4.999999873689376e-05, "total_loss": 457.4669189453125}, "load_time_ms": 0.705, "num_steps_sampled": 1575600, "grad_time_ms": 725.155, "update_time_ms": 2.328, "sample_time_ms": 30091.357}, "date": "2025-08-31_03-23-14", "hostname": "cda-server-4", "time_this_iter_s": 32.51895308494568, "episodes_total": 7878, "timestamp": 1756603394, "node_ip": "10.157.146.4", "done": false, "time_total_s": 40348.65990495682, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1314, "episode_reward_mean": -614.8247398601985, "training_iteration": 1314, "timesteps_total": 1576800, "policy_reward_mean": {}, "episode_reward_min": -786.738677814882, "timesteps_since_restore": 1576800, "num_metric_batches_dropped": 0, "time_since_restore": 40376.06887149811, "episode_reward_max": -563.7321007033697, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1576800, "default": {"kl": 0.010672274976968765, "policy_loss": -0.12365011125802994, "vf_loss": 217.71282958984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9688058495521545, "entropy": 5.650367259979248, "cur_lr": 4.999999873689376e-05, "total_loss": 217.60540771484375}, "load_time_ms": 0.7, "num_steps_sampled": 1576800, "grad_time_ms": 720.976, "update_time_ms": 2.289, "sample_time_ms": 29817.442}, "date": "2025-08-31_03-23-42", "hostname": "cda-server-4", "time_this_iter_s": 27.408966541290283, "episodes_total": 7884, "timestamp": 1756603422, "node_ip": "10.157.146.4", "done": false, "time_total_s": 40376.06887149811, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1315, "episode_reward_mean": -614.5208530856286, "training_iteration": 1315, "timesteps_total": 1578000, "policy_reward_mean": {}, "episode_reward_min": -786.738677814882, "timesteps_since_restore": 1578000, "num_metric_batches_dropped": 0, "time_since_restore": 40404.33013558388, "episode_reward_max": -525.6637924810932, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1578000, "default": {"kl": 0.010088724084198475, "policy_loss": -0.15206597745418549, "vf_loss": 266.6117858886719, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9702343344688416, "entropy": 6.128432273864746, "cur_lr": 4.999999873689376e-05, "total_loss": 266.4750061035156}, "load_time_ms": 0.668, "num_steps_sampled": 1578000, "grad_time_ms": 702.841, "update_time_ms": 2.314, "sample_time_ms": 29865.477}, "date": "2025-08-31_03-24-10", "hostname": "cda-server-4", "time_this_iter_s": 28.261264085769653, "episodes_total": 7890, "timestamp": 1756603450, "node_ip": "10.157.146.4", "done": false, "time_total_s": 40404.33013558388, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1316, "episode_reward_mean": -615.6973668972546, "training_iteration": 1316, "timesteps_total": 1579200, "policy_reward_mean": {}, "episode_reward_min": -786.738677814882, "timesteps_since_restore": 1579200, "num_metric_batches_dropped": 0, "time_since_restore": 40438.01118397713, "episode_reward_max": -525.6637924810932, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1579200, "default": {"kl": 0.010763364844024181, "policy_loss": -0.1446956843137741, "vf_loss": 83.2762222290039, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.993230938911438, "entropy": 6.021439552307129, "cur_lr": 4.999999873689376e-05, "total_loss": 83.14787292480469}, "load_time_ms": 0.669, "num_steps_sampled": 1579200, "grad_time_ms": 707.981, "update_time_ms": 2.338, "sample_time_ms": 30394.608}, "date": "2025-08-31_03-24-44", "hostname": "cda-server-4", "time_this_iter_s": 33.68104839324951, "episodes_total": 7896, "timestamp": 1756603484, "node_ip": "10.157.146.4", "done": false, "time_total_s": 40438.01118397713, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1317, "episode_reward_mean": -616.0827422547941, "training_iteration": 1317, "timesteps_total": 1580400, "policy_reward_mean": {}, "episode_reward_min": -786.738677814882, "timesteps_since_restore": 1580400, "num_metric_batches_dropped": 0, "time_since_restore": 40467.40689659119, "episode_reward_max": -525.6637924810932, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1580400, "default": {"kl": 0.010285455733537674, "policy_loss": -0.12801140546798706, "vf_loss": 287.1677551269531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9785770773887634, "entropy": 6.088909149169922, "cur_lr": 4.999999873689376e-05, "total_loss": 287.0553283691406}, "load_time_ms": 0.633, "num_steps_sampled": 1580400, "grad_time_ms": 698.236, "update_time_ms": 2.394, "sample_time_ms": 30127.653}, "date": "2025-08-31_03-25-13", "hostname": "cda-server-4", "time_this_iter_s": 29.39571261405945, "episodes_total": 7902, "timestamp": 1756603513, "node_ip": "10.157.146.4", "done": false, "time_total_s": 40467.40689659119, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1318, "episode_reward_mean": -615.2400102237701, "training_iteration": 1318, "timesteps_total": 1581600, "policy_reward_mean": {}, "episode_reward_min": -786.738677814882, "timesteps_since_restore": 1581600, "num_metric_batches_dropped": 0, "time_since_restore": 40499.62862730026, "episode_reward_max": -525.6637924810932, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1581600, "default": {"kl": 0.01129881665110588, "policy_loss": -0.1391557902097702, "vf_loss": 506.04046630859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9566282629966736, "entropy": 5.842573165893555, "cur_lr": 4.999999873689376e-05, "total_loss": 505.91851806640625}, "load_time_ms": 0.633, "num_steps_sampled": 1581600, "grad_time_ms": 691.653, "update_time_ms": 2.428, "sample_time_ms": 30205.7}, "date": "2025-08-31_03-25-45", "hostname": "cda-server-4", "time_this_iter_s": 32.22173070907593, "episodes_total": 7908, "timestamp": 1756603545, "node_ip": "10.157.146.4", "done": false, "time_total_s": 40499.62862730026, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1319, "episode_reward_mean": -615.488371867231, "training_iteration": 1319, "timesteps_total": 1582800, "policy_reward_mean": {}, "episode_reward_min": -786.738677814882, "timesteps_since_restore": 1582800, "num_metric_batches_dropped": 0, "time_since_restore": 40533.172654628754, "episode_reward_max": -525.6637924810932, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1582800, "default": {"kl": 0.010243590921163559, "policy_loss": -0.12694686651229858, "vf_loss": 221.66372680664062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9772374629974365, "entropy": 5.943243980407715, "cur_lr": 4.999999873689376e-05, "total_loss": 221.55233764648438}, "load_time_ms": 0.66, "num_steps_sampled": 1582800, "grad_time_ms": 702.816, "update_time_ms": 2.451, "sample_time_ms": 30486.08}, "date": "2025-08-31_03-26-19", "hostname": "cda-server-4", "time_this_iter_s": 33.54402732849121, "episodes_total": 7914, "timestamp": 1756603579, "node_ip": "10.157.146.4", "done": false, "time_total_s": 40533.172654628754, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1320, "episode_reward_mean": -613.7053717514156, "training_iteration": 1320, "timesteps_total": 1584000, "policy_reward_mean": {}, "episode_reward_min": -736.6774111036497, "timesteps_since_restore": 1584000, "num_metric_batches_dropped": 0, "time_since_restore": 40562.86644554138, "episode_reward_max": -525.6637924810932, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1584000, "default": {"kl": 0.0122253792360425, "policy_loss": -0.15190915763378143, "vf_loss": 151.25518798828125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9815965294837952, "entropy": 6.040567398071289, "cur_lr": 4.999999873689376e-05, "total_loss": 151.12184143066406}, "load_time_ms": 0.643, "num_steps_sampled": 1584000, "grad_time_ms": 680.971, "update_time_ms": 2.442, "sample_time_ms": 30342.639}, "date": "2025-08-31_03-26-49", "hostname": "cda-server-4", "time_this_iter_s": 29.693790912628174, "episodes_total": 7920, "timestamp": 1756603609, "node_ip": "10.157.146.4", "done": false, "time_total_s": 40562.86644554138, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1321, "episode_reward_mean": -614.1649757726391, "training_iteration": 1321, "timesteps_total": 1585200, "policy_reward_mean": {}, "episode_reward_min": -763.2915608105427, "timesteps_since_restore": 1585200, "num_metric_batches_dropped": 0, "time_since_restore": 40593.03455758095, "episode_reward_max": -525.6637924810932, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1585200, "default": {"kl": 0.010078108869493008, "policy_loss": -0.14459776878356934, "vf_loss": 438.853515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.966345489025116, "entropy": 6.31381368637085, "cur_lr": 4.999999873689376e-05, "total_loss": 438.7242126464844}, "load_time_ms": 0.644, "num_steps_sampled": 1585200, "grad_time_ms": 671.009, "update_time_ms": 2.494, "sample_time_ms": 30083.371}, "date": "2025-08-31_03-27-19", "hostname": "cda-server-4", "time_this_iter_s": 30.16811203956604, "episodes_total": 7926, "timestamp": 1756603639, "node_ip": "10.157.146.4", "done": false, "time_total_s": 40593.03455758095, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1322, "episode_reward_mean": -613.06378948302, "training_iteration": 1322, "timesteps_total": 1586400, "policy_reward_mean": {}, "episode_reward_min": -763.2915608105427, "timesteps_since_restore": 1586400, "num_metric_batches_dropped": 0, "time_since_restore": 40620.987107753754, "episode_reward_max": -525.6637924810932, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1586400, "default": {"kl": 0.011253681033849716, "policy_loss": -0.14973707497119904, "vf_loss": 312.0950927734375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.956344485282898, "entropy": 5.951529026031494, "cur_lr": 4.999999873689376e-05, "total_loss": 311.96246337890625}, "load_time_ms": 0.641, "num_steps_sampled": 1586400, "grad_time_ms": 671.157, "update_time_ms": 2.486, "sample_time_ms": 29806.163}, "date": "2025-08-31_03-27-47", "hostname": "cda-server-4", "time_this_iter_s": 27.952550172805786, "episodes_total": 7932, "timestamp": 1756603667, "node_ip": "10.157.146.4", "done": false, "time_total_s": 40620.987107753754, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1323, "episode_reward_mean": -612.7724602008666, "training_iteration": 1323, "timesteps_total": 1587600, "policy_reward_mean": {}, "episode_reward_min": -763.2915608105427, "timesteps_since_restore": 1587600, "num_metric_batches_dropped": 0, "time_since_restore": 40650.253286361694, "episode_reward_max": -525.6637924810932, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1587600, "default": {"kl": 0.00975791271775961, "policy_loss": -0.13800552487373352, "vf_loss": 113.24286651611328, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9867241978645325, "entropy": 6.142317771911621, "cur_lr": 4.999999873689376e-05, "total_loss": 113.11968231201172}, "load_time_ms": 0.641, "num_steps_sampled": 1587600, "grad_time_ms": 674.373, "update_time_ms": 2.43, "sample_time_ms": 29477.731}, "date": "2025-08-31_03-28-16", "hostname": "cda-server-4", "time_this_iter_s": 29.266178607940674, "episodes_total": 7938, "timestamp": 1756603696, "node_ip": "10.157.146.4", "done": false, "time_total_s": 40650.253286361694, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1324, "episode_reward_mean": -613.0499559157831, "training_iteration": 1324, "timesteps_total": 1588800, "policy_reward_mean": {}, "episode_reward_min": -763.2915608105427, "timesteps_since_restore": 1588800, "num_metric_batches_dropped": 0, "time_since_restore": 40683.01741027832, "episode_reward_max": -525.6637924810932, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1588800, "default": {"kl": 0.009258215315639973, "policy_loss": -0.14283126592636108, "vf_loss": 101.29918670654297, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9906138181686401, "entropy": 5.978855609893799, "cur_lr": 4.999999873689376e-05, "total_loss": 101.17041778564453}, "load_time_ms": 0.655, "num_steps_sampled": 1588800, "grad_time_ms": 685.195, "update_time_ms": 2.49, "sample_time_ms": 30002.264}, "date": "2025-08-31_03-28-49", "hostname": "cda-server-4", "time_this_iter_s": 32.76412391662598, "episodes_total": 7944, "timestamp": 1756603729, "node_ip": "10.157.146.4", "done": false, "time_total_s": 40683.01741027832, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1325, "episode_reward_mean": -614.2212400865482, "training_iteration": 1325, "timesteps_total": 1590000, "policy_reward_mean": {}, "episode_reward_min": -763.2915608105427, "timesteps_since_restore": 1590000, "num_metric_batches_dropped": 0, "time_since_restore": 40712.49841308594, "episode_reward_max": -525.6637924810932, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1590000, "default": {"kl": 0.011912493966519833, "policy_loss": -0.14744813740253448, "vf_loss": 126.94419860839844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9884358644485474, "entropy": 5.909915924072266, "cur_lr": 4.999999873689376e-05, "total_loss": 126.81484985351562}, "load_time_ms": 0.667, "num_steps_sampled": 1590000, "grad_time_ms": 709.156, "update_time_ms": 2.499, "sample_time_ms": 30100.156}, "date": "2025-08-31_03-29-18", "hostname": "cda-server-4", "time_this_iter_s": 29.481002807617188, "episodes_total": 7950, "timestamp": 1756603758, "node_ip": "10.157.146.4", "done": false, "time_total_s": 40712.49841308594, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1326, "episode_reward_mean": -615.7522074797433, "training_iteration": 1326, "timesteps_total": 1591200, "policy_reward_mean": {}, "episode_reward_min": -763.2915608105427, "timesteps_since_restore": 1591200, "num_metric_batches_dropped": 0, "time_since_restore": 40742.41499018669, "episode_reward_max": -525.6637924810932, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1591200, "default": {"kl": 0.010307314805686474, "policy_loss": -0.14037221670150757, "vf_loss": 362.9580383300781, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9508548378944397, "entropy": 6.348339080810547, "cur_lr": 4.999999873689376e-05, "total_loss": 362.8333435058594}, "load_time_ms": 0.688, "num_steps_sampled": 1591200, "grad_time_ms": 702.519, "update_time_ms": 2.504, "sample_time_ms": 29730.375}, "date": "2025-08-31_03-29-48", "hostname": "cda-server-4", "time_this_iter_s": 29.916577100753784, "episodes_total": 7956, "timestamp": 1756603788, "node_ip": "10.157.146.4", "done": false, "time_total_s": 40742.41499018669, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1327, "episode_reward_mean": -615.7500038907747, "training_iteration": 1327, "timesteps_total": 1592400, "policy_reward_mean": {}, "episode_reward_min": -794.7734096447045, "timesteps_since_restore": 1592400, "num_metric_batches_dropped": 0, "time_since_restore": 40774.48891925812, "episode_reward_max": -492.74591479622165, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1592400, "default": {"kl": 0.013580179773271084, "policy_loss": -0.13512077927589417, "vf_loss": 2406.572265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8878524899482727, "entropy": 6.018021583557129, "cur_lr": 4.999999873689376e-05, "total_loss": 2406.4580078125}, "load_time_ms": 0.689, "num_steps_sampled": 1592400, "grad_time_ms": 708.82, "update_time_ms": 2.428, "sample_time_ms": 29991.995}, "date": "2025-08-31_03-30-20", "hostname": "cda-server-4", "time_this_iter_s": 32.07392907142639, "episodes_total": 7962, "timestamp": 1756603820, "node_ip": "10.157.146.4", "done": false, "time_total_s": 40774.48891925812, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1328, "episode_reward_mean": -615.1145879779327, "training_iteration": 1328, "timesteps_total": 1593600, "policy_reward_mean": {}, "episode_reward_min": -794.7734096447045, "timesteps_since_restore": 1593600, "num_metric_batches_dropped": 0, "time_since_restore": 40805.639984846115, "episode_reward_max": -492.74591479622165, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1593600, "default": {"kl": 0.00981952901929617, "policy_loss": -0.1465819627046585, "vf_loss": 107.56783294677734, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9890481233596802, "entropy": 5.954261779785156, "cur_lr": 4.999999873689376e-05, "total_loss": 107.43616485595703}, "load_time_ms": 0.692, "num_steps_sampled": 1593600, "grad_time_ms": 709.146, "update_time_ms": 2.45, "sample_time_ms": 29884.64}, "date": "2025-08-31_03-30-51", "hostname": "cda-server-4", "time_this_iter_s": 31.151065587997437, "episodes_total": 7968, "timestamp": 1756603851, "node_ip": "10.157.146.4", "done": false, "time_total_s": 40805.639984846115, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1329, "episode_reward_mean": -613.4737473091022, "training_iteration": 1329, "timesteps_total": 1594800, "policy_reward_mean": {}, "episode_reward_min": -794.7734096447045, "timesteps_since_restore": 1594800, "num_metric_batches_dropped": 0, "time_since_restore": 40836.157730579376, "episode_reward_max": -492.74591479622165, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1594800, "default": {"kl": 0.008334871381521225, "policy_loss": -0.1327606439590454, "vf_loss": 80.17969512939453, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9869903922080994, "entropy": 5.857841491699219, "cur_lr": 4.999999873689376e-05, "total_loss": 80.05958557128906}, "load_time_ms": 0.673, "num_steps_sampled": 1594800, "grad_time_ms": 707.636, "update_time_ms": 2.485, "sample_time_ms": 29583.562}, "date": "2025-08-31_03-31-22", "hostname": "cda-server-4", "time_this_iter_s": 30.51774573326111, "episodes_total": 7974, "timestamp": 1756603882, "node_ip": "10.157.146.4", "done": false, "time_total_s": 40836.157730579376, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1330, "episode_reward_mean": -613.7287332421181, "training_iteration": 1330, "timesteps_total": 1596000, "policy_reward_mean": {}, "episode_reward_min": -794.7734096447045, "timesteps_since_restore": 1596000, "num_metric_batches_dropped": 0, "time_since_restore": 40867.93902182579, "episode_reward_max": -492.74591479622165, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1596000, "default": {"kl": 0.01083090715110302, "policy_loss": -0.1439761221408844, "vf_loss": 135.79725646972656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9934460520744324, "entropy": 5.883203983306885, "cur_lr": 4.999999873689376e-05, "total_loss": 135.66973876953125}, "load_time_ms": 0.671, "num_steps_sampled": 1596000, "grad_time_ms": 715.148, "update_time_ms": 2.446, "sample_time_ms": 29784.924}, "date": "2025-08-31_03-31-54", "hostname": "cda-server-4", "time_this_iter_s": 31.781291246414185, "episodes_total": 7980, "timestamp": 1756603914, "node_ip": "10.157.146.4", "done": false, "time_total_s": 40867.93902182579, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1331, "episode_reward_mean": -614.0742998551617, "training_iteration": 1331, "timesteps_total": 1597200, "policy_reward_mean": {}, "episode_reward_min": -794.7734096447045, "timesteps_since_restore": 1597200, "num_metric_batches_dropped": 0, "time_since_restore": 40898.21057224274, "episode_reward_max": -492.74591479622165, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1597200, "default": {"kl": 0.010247371159493923, "policy_loss": -0.12974153459072113, "vf_loss": 89.12417602539062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9887969493865967, "entropy": 5.8969407081604, "cur_lr": 4.999999873689376e-05, "total_loss": 89.00999450683594}, "load_time_ms": 0.636, "num_steps_sampled": 1597200, "grad_time_ms": 714.637, "update_time_ms": 2.323, "sample_time_ms": 29795.922}, "date": "2025-08-31_03-32-24", "hostname": "cda-server-4", "time_this_iter_s": 30.27155041694641, "episodes_total": 7986, "timestamp": 1756603944, "node_ip": "10.157.146.4", "done": false, "time_total_s": 40898.21057224274, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1332, "episode_reward_mean": -613.8951889427019, "training_iteration": 1332, "timesteps_total": 1598400, "policy_reward_mean": {}, "episode_reward_min": -794.7734096447045, "timesteps_since_restore": 1598400, "num_metric_batches_dropped": 0, "time_since_restore": 40928.347222328186, "episode_reward_max": -492.74591479622165, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1598400, "default": {"kl": 0.009876878932118416, "policy_loss": -0.13185983896255493, "vf_loss": 439.9173583984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9415314793586731, "entropy": 6.381216049194336, "cur_lr": 4.999999873689376e-05, "total_loss": 439.8005065917969}, "load_time_ms": 0.63, "num_steps_sampled": 1598400, "grad_time_ms": 688.646, "update_time_ms": 2.298, "sample_time_ms": 30040.517}, "date": "2025-08-31_03-32-54", "hostname": "cda-server-4", "time_this_iter_s": 30.13665008544922, "episodes_total": 7992, "timestamp": 1756603974, "node_ip": "10.157.146.4", "done": false, "time_total_s": 40928.347222328186, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1333, "episode_reward_mean": -612.4345429343294, "training_iteration": 1333, "timesteps_total": 1599600, "policy_reward_mean": {}, "episode_reward_min": -794.7734096447045, "timesteps_since_restore": 1599600, "num_metric_batches_dropped": 0, "time_since_restore": 40960.282608509064, "episode_reward_max": -492.74591479622165, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1599600, "default": {"kl": 0.010343037545681, "policy_loss": -0.14501257240772247, "vf_loss": 343.42803955078125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9623926877975464, "entropy": 5.8343915939331055, "cur_lr": 4.999999873689376e-05, "total_loss": 343.29876708984375}, "load_time_ms": 0.633, "num_steps_sampled": 1599600, "grad_time_ms": 678.697, "update_time_ms": 2.276, "sample_time_ms": 30317.361}, "date": "2025-08-31_03-33-26", "hostname": "cda-server-4", "time_this_iter_s": 31.935386180877686, "episodes_total": 7998, "timestamp": 1756604006, "node_ip": "10.157.146.4", "done": false, "time_total_s": 40960.282608509064, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1334, "episode_reward_mean": -612.4762908842072, "training_iteration": 1334, "timesteps_total": 1600800, "policy_reward_mean": {}, "episode_reward_min": -794.7734096447045, "timesteps_since_restore": 1600800, "num_metric_batches_dropped": 0, "time_since_restore": 40990.786326408386, "episode_reward_max": -492.74591479622165, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1600800, "default": {"kl": 0.009588120505213737, "policy_loss": -0.12337964028120041, "vf_loss": 113.81080627441406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9870368242263794, "entropy": 5.839752674102783, "cur_lr": 4.999999873689376e-05, "total_loss": 113.70199584960938}, "load_time_ms": 0.621, "num_steps_sampled": 1600800, "grad_time_ms": 674.643, "update_time_ms": 2.283, "sample_time_ms": 30095.426}, "date": "2025-08-31_03-33-57", "hostname": "cda-server-4", "time_this_iter_s": 30.50371789932251, "episodes_total": 8004, "timestamp": 1756604037, "node_ip": "10.157.146.4", "done": false, "time_total_s": 40990.786326408386, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1335, "episode_reward_mean": -612.523436448978, "training_iteration": 1335, "timesteps_total": 1602000, "policy_reward_mean": {}, "episode_reward_min": -794.7734096447045, "timesteps_since_restore": 1602000, "num_metric_batches_dropped": 0, "time_since_restore": 41020.12232923508, "episode_reward_max": -492.74591479622165, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1602000, "default": {"kl": 0.010757951997220516, "policy_loss": -0.14703162014484406, "vf_loss": 144.25852966308594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9867956638336182, "entropy": 6.082766056060791, "cur_lr": 4.999999873689376e-05, "total_loss": 144.12783813476562}, "load_time_ms": 0.627, "num_steps_sampled": 1602000, "grad_time_ms": 669.021, "update_time_ms": 2.278, "sample_time_ms": 30086.585}, "date": "2025-08-31_03-34-26", "hostname": "cda-server-4", "time_this_iter_s": 29.336002826690674, "episodes_total": 8010, "timestamp": 1756604066, "node_ip": "10.157.146.4", "done": false, "time_total_s": 41020.12232923508, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1336, "episode_reward_mean": -612.528016612921, "training_iteration": 1336, "timesteps_total": 1603200, "policy_reward_mean": {}, "episode_reward_min": -794.7734096447045, "timesteps_since_restore": 1603200, "num_metric_batches_dropped": 0, "time_since_restore": 41052.14305686951, "episode_reward_max": -492.74591479622165, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1603200, "default": {"kl": 0.009537720121443272, "policy_loss": -0.1251133382320404, "vf_loss": 117.84798431396484, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9878941774368286, "entropy": 5.907951831817627, "cur_lr": 4.999999873689376e-05, "total_loss": 117.73735809326172}, "load_time_ms": 0.605, "num_steps_sampled": 1603200, "grad_time_ms": 668.964, "update_time_ms": 2.254, "sample_time_ms": 30297.071}, "date": "2025-08-31_03-34-58", "hostname": "cda-server-4", "time_this_iter_s": 32.02072763442993, "episodes_total": 8016, "timestamp": 1756604098, "node_ip": "10.157.146.4", "done": false, "time_total_s": 41052.14305686951, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1337, "episode_reward_mean": -612.556128375767, "training_iteration": 1337, "timesteps_total": 1604400, "policy_reward_mean": {}, "episode_reward_min": -794.7734096447045, "timesteps_since_restore": 1604400, "num_metric_batches_dropped": 0, "time_since_restore": 41082.230561971664, "episode_reward_max": -492.74591479622165, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1604400, "default": {"kl": 0.011254378594458103, "policy_loss": -0.14180278778076172, "vf_loss": 47.57035446166992, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9935548305511475, "entropy": 6.020720481872559, "cur_lr": 4.999999873689376e-05, "total_loss": 47.445640563964844}, "load_time_ms": 0.602, "num_steps_sampled": 1604400, "grad_time_ms": 669.94, "update_time_ms": 2.276, "sample_time_ms": 30097.374}, "date": "2025-08-31_03-35-28", "hostname": "cda-server-4", "time_this_iter_s": 30.087505102157593, "episodes_total": 8022, "timestamp": 1756604128, "node_ip": "10.157.146.4", "done": false, "time_total_s": 41082.230561971664, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1338, "episode_reward_mean": -610.8960614845555, "training_iteration": 1338, "timesteps_total": 1605600, "policy_reward_mean": {}, "episode_reward_min": -794.7734096447045, "timesteps_since_restore": 1605600, "num_metric_batches_dropped": 0, "time_since_restore": 41114.746999025345, "episode_reward_max": -492.74591479622165, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1605600, "default": {"kl": 0.010172838345170021, "policy_loss": -0.140066459774971, "vf_loss": 449.16351318359375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.97050940990448, "entropy": 6.436428546905518, "cur_lr": 4.999999873689376e-05, "total_loss": 449.0389404296875}, "load_time_ms": 0.599, "num_steps_sampled": 1605600, "grad_time_ms": 661.441, "update_time_ms": 2.286, "sample_time_ms": 30242.423}, "date": "2025-08-31_03-36-01", "hostname": "cda-server-4", "time_this_iter_s": 32.51643705368042, "episodes_total": 8028, "timestamp": 1756604161, "node_ip": "10.157.146.4", "done": false, "time_total_s": 41114.746999025345, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1339, "episode_reward_mean": -611.4531560445594, "training_iteration": 1339, "timesteps_total": 1606800, "policy_reward_mean": {}, "episode_reward_min": -794.7734096447045, "timesteps_since_restore": 1606800, "num_metric_batches_dropped": 0, "time_since_restore": 41145.14852619171, "episode_reward_max": -492.74591479622165, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1606800, "default": {"kl": 0.010066269896924496, "policy_loss": -0.1324339658021927, "vf_loss": 142.68524169921875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9850349426269531, "entropy": 6.0911173820495605, "cur_lr": 4.999999873689376e-05, "total_loss": 142.56808471679688}, "load_time_ms": 0.588, "num_steps_sampled": 1606800, "grad_time_ms": 651.216, "update_time_ms": 2.308, "sample_time_ms": 30240.968}, "date": "2025-08-31_03-36-31", "hostname": "cda-server-4", "time_this_iter_s": 30.401527166366577, "episodes_total": 8034, "timestamp": 1756604191, "node_ip": "10.157.146.4", "done": false, "time_total_s": 41145.14852619171, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1340, "episode_reward_mean": -611.7700847462141, "training_iteration": 1340, "timesteps_total": 1608000, "policy_reward_mean": {}, "episode_reward_min": -794.7734096447045, "timesteps_since_restore": 1608000, "num_metric_batches_dropped": 0, "time_since_restore": 41176.64273571968, "episode_reward_max": -492.74591479622165, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1608000, "default": {"kl": 0.011530745774507523, "policy_loss": -0.14829792082309723, "vf_loss": 97.59732055664062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.988458514213562, "entropy": 5.801795959472656, "cur_lr": 4.999999873689376e-05, "total_loss": 97.46654510498047}, "load_time_ms": 0.594, "num_steps_sampled": 1608000, "grad_time_ms": 645.159, "update_time_ms": 2.327, "sample_time_ms": 30218.316}, "date": "2025-08-31_03-37-03", "hostname": "cda-server-4", "time_this_iter_s": 31.49420952796936, "episodes_total": 8040, "timestamp": 1756604223, "node_ip": "10.157.146.4", "done": false, "time_total_s": 41176.64273571968, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1341, "episode_reward_mean": -611.8340764012963, "training_iteration": 1341, "timesteps_total": 1609200, "policy_reward_mean": {}, "episode_reward_min": -794.7734096447045, "timesteps_since_restore": 1609200, "num_metric_batches_dropped": 0, "time_since_restore": 41205.80269241333, "episode_reward_max": -492.74591479622165, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1609200, "default": {"kl": 0.010268162935972214, "policy_loss": -0.12421715259552002, "vf_loss": 137.41783142089844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9818171262741089, "entropy": 6.017971038818359, "cur_lr": 4.999999873689376e-05, "total_loss": 137.3092041015625}, "load_time_ms": 0.595, "num_steps_sampled": 1609200, "grad_time_ms": 632.722, "update_time_ms": 2.357, "sample_time_ms": 30119.555}, "date": "2025-08-31_03-37-32", "hostname": "cda-server-4", "time_this_iter_s": 29.159956693649292, "episodes_total": 8046, "timestamp": 1756604252, "node_ip": "10.157.146.4", "done": false, "time_total_s": 41205.80269241333, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1342, "episode_reward_mean": -612.9982151747398, "training_iteration": 1342, "timesteps_total": 1610400, "policy_reward_mean": {}, "episode_reward_min": -794.7734096447045, "timesteps_since_restore": 1610400, "num_metric_batches_dropped": 0, "time_since_restore": 41236.27303195, "episode_reward_max": -492.74591479622165, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1610400, "default": {"kl": 0.0075878482311964035, "policy_loss": -0.11187908053398132, "vf_loss": 626.9808349609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9215644001960754, "entropy": 6.18323278427124, "cur_lr": 4.999999873689376e-05, "total_loss": 626.8805541992188}, "load_time_ms": 0.6, "num_steps_sampled": 1610400, "grad_time_ms": 658.834, "update_time_ms": 2.386, "sample_time_ms": 30126.703}, "date": "2025-08-31_03-38-02", "hostname": "cda-server-4", "time_this_iter_s": 30.47033953666687, "episodes_total": 8052, "timestamp": 1756604282, "node_ip": "10.157.146.4", "done": false, "time_total_s": 41236.27303195, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1343, "episode_reward_mean": -612.4268559085467, "training_iteration": 1343, "timesteps_total": 1611600, "policy_reward_mean": {}, "episode_reward_min": -794.7734096447045, "timesteps_since_restore": 1611600, "num_metric_batches_dropped": 0, "time_since_restore": 41269.265382528305, "episode_reward_max": -492.74591479622165, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1611600, "default": {"kl": 0.009123698808252811, "policy_loss": -0.11246057599782944, "vf_loss": 72.25728607177734, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9898662567138672, "entropy": 5.994962692260742, "cur_lr": 4.999999873689376e-05, "total_loss": 72.15867614746094}, "load_time_ms": 0.624, "num_steps_sampled": 1611600, "grad_time_ms": 660.884, "update_time_ms": 2.401, "sample_time_ms": 30230.364}, "date": "2025-08-31_03-38-35", "hostname": "cda-server-4", "time_this_iter_s": 32.992350578308105, "episodes_total": 8058, "timestamp": 1756604315, "node_ip": "10.157.146.4", "done": false, "time_total_s": 41269.265382528305, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1344, "episode_reward_mean": -613.0403396305751, "training_iteration": 1344, "timesteps_total": 1612800, "policy_reward_mean": {}, "episode_reward_min": -770.4476612772469, "timesteps_since_restore": 1612800, "num_metric_batches_dropped": 0, "time_since_restore": 41298.29206323624, "episode_reward_max": -564.1441464651194, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1612800, "default": {"kl": 0.011873964220285416, "policy_loss": -0.14471013844013214, "vf_loss": 380.9928283691406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9670522212982178, "entropy": 5.904476165771484, "cur_lr": 4.999999873689376e-05, "total_loss": 380.8661804199219}, "load_time_ms": 0.62, "num_steps_sampled": 1612800, "grad_time_ms": 651.746, "update_time_ms": 2.371, "sample_time_ms": 30091.8}, "date": "2025-08-31_03-39-04", "hostname": "cda-server-4", "time_this_iter_s": 29.02668070793152, "episodes_total": 8064, "timestamp": 1756604344, "node_ip": "10.157.146.4", "done": false, "time_total_s": 41298.29206323624, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1345, "episode_reward_mean": -612.5998967192857, "training_iteration": 1345, "timesteps_total": 1614000, "policy_reward_mean": {}, "episode_reward_min": -770.4476612772469, "timesteps_since_restore": 1614000, "num_metric_batches_dropped": 0, "time_since_restore": 41331.03198099136, "episode_reward_max": -564.1441464651194, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1614000, "default": {"kl": 0.01079504657536745, "policy_loss": -0.1301899552345276, "vf_loss": 444.5260925292969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.95621258020401, "entropy": 5.904043197631836, "cur_lr": 4.999999873689376e-05, "total_loss": 444.4123229980469}, "load_time_ms": 0.611, "num_steps_sampled": 1614000, "grad_time_ms": 644.773, "update_time_ms": 2.324, "sample_time_ms": 30439.191}, "date": "2025-08-31_03-39-37", "hostname": "cda-server-4", "time_this_iter_s": 32.73991775512695, "episodes_total": 8070, "timestamp": 1756604377, "node_ip": "10.157.146.4", "done": false, "time_total_s": 41331.03198099136, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1346, "episode_reward_mean": -612.7382023256511, "training_iteration": 1346, "timesteps_total": 1615200, "policy_reward_mean": {}, "episode_reward_min": -770.4476612772469, "timesteps_since_restore": 1615200, "num_metric_batches_dropped": 0, "time_since_restore": 41361.67618560791, "episode_reward_max": -564.1441464651194, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1615200, "default": {"kl": 0.009390904568135738, "policy_loss": -0.12090057879686356, "vf_loss": 82.3724136352539, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9867861866950989, "entropy": 5.69470739364624, "cur_lr": 4.999999873689376e-05, "total_loss": 82.26577758789062}, "load_time_ms": 0.619, "num_steps_sampled": 1615200, "grad_time_ms": 637.755, "update_time_ms": 2.329, "sample_time_ms": 30308.584}, "date": "2025-08-31_03-40-08", "hostname": "cda-server-4", "time_this_iter_s": 30.64420461654663, "episodes_total": 8076, "timestamp": 1756604408, "node_ip": "10.157.146.4", "done": false, "time_total_s": 41361.67618560791, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1347, "episode_reward_mean": -614.4701733617172, "training_iteration": 1347, "timesteps_total": 1616400, "policy_reward_mean": {}, "episode_reward_min": -770.4476612772469, "timesteps_since_restore": 1616400, "num_metric_batches_dropped": 0, "time_since_restore": 41393.833810806274, "episode_reward_max": -564.1441464651194, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1616400, "default": {"kl": 0.01109037920832634, "policy_loss": -0.13852746784687042, "vf_loss": 291.0893249511719, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.965478241443634, "entropy": 6.189815998077393, "cur_lr": 4.999999873689376e-05, "total_loss": 290.9676513671875}, "load_time_ms": 0.621, "num_steps_sampled": 1616400, "grad_time_ms": 638.564, "update_time_ms": 2.302, "sample_time_ms": 30514.876}, "date": "2025-08-31_03-40-40", "hostname": "cda-server-4", "time_this_iter_s": 32.15762519836426, "episodes_total": 8082, "timestamp": 1756604440, "node_ip": "10.157.146.4", "done": false, "time_total_s": 41393.833810806274, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1348, "episode_reward_mean": -614.8960615913205, "training_iteration": 1348, "timesteps_total": 1617600, "policy_reward_mean": {}, "episode_reward_min": -770.4476612772469, "timesteps_since_restore": 1617600, "num_metric_batches_dropped": 0, "time_since_restore": 41423.76759457588, "episode_reward_max": -564.1441464651194, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1617600, "default": {"kl": 0.010181516408920288, "policy_loss": -0.13772955536842346, "vf_loss": 88.65955352783203, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9935035705566406, "entropy": 5.761523723602295, "cur_lr": 4.999999873689376e-05, "total_loss": 88.53728485107422}, "load_time_ms": 0.625, "num_steps_sampled": 1617600, "grad_time_ms": 652.557, "update_time_ms": 2.255, "sample_time_ms": 30242.65}, "date": "2025-08-31_03-41-10", "hostname": "cda-server-4", "time_this_iter_s": 29.933783769607544, "episodes_total": 8088, "timestamp": 1756604470, "node_ip": "10.157.146.4", "done": false, "time_total_s": 41423.76759457588, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1349, "episode_reward_mean": -614.8463395253189, "training_iteration": 1349, "timesteps_total": 1618800, "policy_reward_mean": {}, "episode_reward_min": -770.4476612772469, "timesteps_since_restore": 1618800, "num_metric_batches_dropped": 0, "time_since_restore": 41455.775742053986, "episode_reward_max": -564.1441464651194, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1618800, "default": {"kl": 0.010308791883289814, "policy_loss": -0.12823736667633057, "vf_loss": 138.27279663085938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9808168411254883, "entropy": 5.846373558044434, "cur_lr": 4.999999873689376e-05, "total_loss": 138.16021728515625}, "load_time_ms": 0.623, "num_steps_sampled": 1618800, "grad_time_ms": 667.582, "update_time_ms": 2.209, "sample_time_ms": 30388.282}, "date": "2025-08-31_03-41-42", "hostname": "cda-server-4", "time_this_iter_s": 32.00814747810364, "episodes_total": 8094, "timestamp": 1756604502, "node_ip": "10.157.146.4", "done": false, "time_total_s": 41455.775742053986, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1350, "episode_reward_mean": -615.5658362454756, "training_iteration": 1350, "timesteps_total": 1620000, "policy_reward_mean": {}, "episode_reward_min": -770.4476612772469, "timesteps_since_restore": 1620000, "num_metric_batches_dropped": 0, "time_since_restore": 41488.47069597244, "episode_reward_max": -564.1441464651194, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1620000, "default": {"kl": 0.010867208242416382, "policy_loss": -0.1284056156873703, "vf_loss": 415.9257507324219, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9821686148643494, "entropy": 6.0373969078063965, "cur_lr": 4.999999873689376e-05, "total_loss": 415.8138427734375}, "load_time_ms": 0.625, "num_steps_sampled": 1620000, "grad_time_ms": 664.672, "update_time_ms": 2.217, "sample_time_ms": 30511.202}, "date": "2025-08-31_03-42-15", "hostname": "cda-server-4", "time_this_iter_s": 32.69495391845703, "episodes_total": 8100, "timestamp": 1756604535, "node_ip": "10.157.146.4", "done": false, "time_total_s": 41488.47069597244, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1351, "episode_reward_mean": -615.1717456788831, "training_iteration": 1351, "timesteps_total": 1621200, "policy_reward_mean": {}, "episode_reward_min": -770.4476612772469, "timesteps_since_restore": 1621200, "num_metric_batches_dropped": 0, "time_since_restore": 41516.484070301056, "episode_reward_max": -564.1441464651194, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1621200, "default": {"kl": 0.011082027107477188, "policy_loss": -0.12550438940525055, "vf_loss": 234.6720428466797, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9735957384109497, "entropy": 5.767301559448242, "cur_lr": 4.999999873689376e-05, "total_loss": 234.56333923339844}, "load_time_ms": 0.636, "num_steps_sampled": 1621200, "grad_time_ms": 663.907, "update_time_ms": 2.316, "sample_time_ms": 30397.194}, "date": "2025-08-31_03-42-43", "hostname": "cda-server-4", "time_this_iter_s": 28.01337432861328, "episodes_total": 8106, "timestamp": 1756604563, "node_ip": "10.157.146.4", "done": false, "time_total_s": 41516.484070301056, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1352, "episode_reward_mean": -615.8110785757963, "training_iteration": 1352, "timesteps_total": 1622400, "policy_reward_mean": {}, "episode_reward_min": -770.4476612772469, "timesteps_since_restore": 1622400, "num_metric_batches_dropped": 0, "time_since_restore": 41548.45867061615, "episode_reward_max": -564.1441464651194, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1622400, "default": {"kl": 0.010079564526677132, "policy_loss": -0.13051214814186096, "vf_loss": 169.479736328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9847729206085205, "entropy": 5.95717191696167, "cur_lr": 4.999999873689376e-05, "total_loss": 169.36453247070312}, "load_time_ms": 0.635, "num_steps_sampled": 1622400, "grad_time_ms": 649.499, "update_time_ms": 2.274, "sample_time_ms": 30562.109}, "date": "2025-08-31_03-43-15", "hostname": "cda-server-4", "time_this_iter_s": 31.974600315093994, "episodes_total": 8112, "timestamp": 1756604595, "node_ip": "10.157.146.4", "done": false, "time_total_s": 41548.45867061615, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1353, "episode_reward_mean": -614.7641515151134, "training_iteration": 1353, "timesteps_total": 1623600, "policy_reward_mean": {}, "episode_reward_min": -770.4476612772469, "timesteps_since_restore": 1623600, "num_metric_batches_dropped": 0, "time_since_restore": 41577.57390546799, "episode_reward_max": -564.1441464651194, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1623600, "default": {"kl": 0.010437307879328728, "policy_loss": -0.12408682703971863, "vf_loss": 156.91676330566406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.984595537185669, "entropy": 5.765796184539795, "cur_lr": 4.999999873689376e-05, "total_loss": 156.80853271484375}, "load_time_ms": 0.611, "num_steps_sampled": 1623600, "grad_time_ms": 647.861, "update_time_ms": 2.313, "sample_time_ms": 30175.924}, "date": "2025-08-31_03-43-44", "hostname": "cda-server-4", "time_this_iter_s": 29.115234851837158, "episodes_total": 8118, "timestamp": 1756604624, "node_ip": "10.157.146.4", "done": false, "time_total_s": 41577.57390546799, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1354, "episode_reward_mean": -616.460573214123, "training_iteration": 1354, "timesteps_total": 1624800, "policy_reward_mean": {}, "episode_reward_min": -773.3422845846271, "timesteps_since_restore": 1624800, "num_metric_batches_dropped": 0, "time_since_restore": 41607.97693800926, "episode_reward_max": -564.1441464651194, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1624800, "default": {"kl": 0.009693442843854427, "policy_loss": -0.11428427696228027, "vf_loss": 499.5657958984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.943008542060852, "entropy": 5.711012840270996, "cur_lr": 4.999999873689376e-05, "total_loss": 499.46624755859375}, "load_time_ms": 0.649, "num_steps_sampled": 1624800, "grad_time_ms": 653.747, "update_time_ms": 2.264, "sample_time_ms": 30307.624}, "date": "2025-08-31_03-44-14", "hostname": "cda-server-4", "time_this_iter_s": 30.403032541275024, "episodes_total": 8124, "timestamp": 1756604654, "node_ip": "10.157.146.4", "done": false, "time_total_s": 41607.97693800926, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1355, "episode_reward_mean": -617.0052381186294, "training_iteration": 1355, "timesteps_total": 1626000, "policy_reward_mean": {}, "episode_reward_min": -773.3422845846271, "timesteps_since_restore": 1626000, "num_metric_batches_dropped": 0, "time_since_restore": 41639.89407157898, "episode_reward_max": -566.8808459588365, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1626000, "default": {"kl": 0.007993999868631363, "policy_loss": -0.1300661861896515, "vf_loss": 276.7060546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9702900648117065, "entropy": 5.838209629058838, "cur_lr": 4.999999873689376e-05, "total_loss": 276.5881652832031}, "load_time_ms": 0.647, "num_steps_sampled": 1626000, "grad_time_ms": 662.871, "update_time_ms": 2.295, "sample_time_ms": 30216.206}, "date": "2025-08-31_03-44-46", "hostname": "cda-server-4", "time_this_iter_s": 31.917133569717407, "episodes_total": 8130, "timestamp": 1756604686, "node_ip": "10.157.146.4", "done": false, "time_total_s": 41639.89407157898, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1356, "episode_reward_mean": -616.9924190196072, "training_iteration": 1356, "timesteps_total": 1627200, "policy_reward_mean": {}, "episode_reward_min": -773.3422845846271, "timesteps_since_restore": 1627200, "num_metric_batches_dropped": 0, "time_since_restore": 41669.12968540192, "episode_reward_max": -566.8808459588365, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1627200, "default": {"kl": 0.01130103413015604, "policy_loss": -0.12617014348506927, "vf_loss": 51.94176483154297, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.992790937423706, "entropy": 5.679193496704102, "cur_lr": 4.999999873689376e-05, "total_loss": 51.832763671875}, "load_time_ms": 0.644, "num_steps_sampled": 1627200, "grad_time_ms": 661.279, "update_time_ms": 2.366, "sample_time_ms": 30076.83}, "date": "2025-08-31_03-45-15", "hostname": "cda-server-4", "time_this_iter_s": 29.23561382293701, "episodes_total": 8136, "timestamp": 1756604715, "node_ip": "10.157.146.4", "done": false, "time_total_s": 41669.12968540192, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1357, "episode_reward_mean": -616.9437072504909, "training_iteration": 1357, "timesteps_total": 1628400, "policy_reward_mean": {}, "episode_reward_min": -773.3422845846271, "timesteps_since_restore": 1628400, "num_metric_batches_dropped": 0, "time_since_restore": 41698.10655641556, "episode_reward_max": -566.8808459588365, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1628400, "default": {"kl": 0.009180103428661823, "policy_loss": -0.13115856051445007, "vf_loss": 121.6151123046875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9802119731903076, "entropy": 5.602186679840088, "cur_lr": 4.999999873689376e-05, "total_loss": 121.49789428710938}, "load_time_ms": 0.643, "num_steps_sampled": 1628400, "grad_time_ms": 644.54, "update_time_ms": 2.306, "sample_time_ms": 29775.478}, "date": "2025-08-31_03-45-44", "hostname": "cda-server-4", "time_this_iter_s": 28.976871013641357, "episodes_total": 8142, "timestamp": 1756604744, "node_ip": "10.157.146.4", "done": false, "time_total_s": 41698.10655641556, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1358, "episode_reward_mean": -616.1388093700806, "training_iteration": 1358, "timesteps_total": 1629600, "policy_reward_mean": {}, "episode_reward_min": -773.3422845846271, "timesteps_since_restore": 1629600, "num_metric_batches_dropped": 0, "time_since_restore": 41728.22961473465, "episode_reward_max": -566.8808459588365, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1629600, "default": {"kl": 0.009017504751682281, "policy_loss": -0.12193780392408371, "vf_loss": 100.85525512695312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9889545440673828, "entropy": 5.90052604675293, "cur_lr": 4.999999873689376e-05, "total_loss": 100.74700164794922}, "load_time_ms": 0.656, "num_steps_sampled": 1629600, "grad_time_ms": 630.626, "update_time_ms": 2.312, "sample_time_ms": 29808.281}, "date": "2025-08-31_03-46-15", "hostname": "cda-server-4", "time_this_iter_s": 30.123058319091797, "episodes_total": 8148, "timestamp": 1756604775, "node_ip": "10.157.146.4", "done": false, "time_total_s": 41728.22961473465, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1359, "episode_reward_mean": -614.0476883388028, "training_iteration": 1359, "timesteps_total": 1630800, "policy_reward_mean": {}, "episode_reward_min": -773.3422845846271, "timesteps_since_restore": 1630800, "num_metric_batches_dropped": 0, "time_since_restore": 41758.3296186924, "episode_reward_max": -566.8808459588365, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1630800, "default": {"kl": 0.007654294371604919, "policy_loss": -0.10990701615810394, "vf_loss": 224.72694396972656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9666023254394531, "entropy": 5.977989673614502, "cur_lr": 4.999999873689376e-05, "total_loss": 224.62867736816406}, "load_time_ms": 0.652, "num_steps_sampled": 1630800, "grad_time_ms": 612.414, "update_time_ms": 2.326, "sample_time_ms": 29635.758}, "date": "2025-08-31_03-46-45", "hostname": "cda-server-4", "time_this_iter_s": 30.100003957748413, "episodes_total": 8154, "timestamp": 1756604805, "node_ip": "10.157.146.4", "done": false, "time_total_s": 41758.3296186924, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1360, "episode_reward_mean": -613.0829551027116, "training_iteration": 1360, "timesteps_total": 1632000, "policy_reward_mean": {}, "episode_reward_min": -773.3422845846271, "timesteps_since_restore": 1632000, "num_metric_batches_dropped": 0, "time_since_restore": 41786.689247369766, "episode_reward_max": -559.1330891213794, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1632000, "default": {"kl": 0.009377911686897278, "policy_loss": -0.1394602358341217, "vf_loss": 235.98468017578125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9690946936607361, "entropy": 5.83825159072876, "cur_lr": 4.999999873689376e-05, "total_loss": 235.8594512939453}, "load_time_ms": 0.656, "num_steps_sampled": 1632000, "grad_time_ms": 627.799, "update_time_ms": 2.374, "sample_time_ms": 29186.862}, "date": "2025-08-31_03-47-13", "hostname": "cda-server-4", "time_this_iter_s": 28.359628677368164, "episodes_total": 8160, "timestamp": 1756604833, "node_ip": "10.157.146.4", "done": false, "time_total_s": 41786.689247369766, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1361, "episode_reward_mean": -613.047654715523, "training_iteration": 1361, "timesteps_total": 1633200, "policy_reward_mean": {}, "episode_reward_min": -773.3422845846271, "timesteps_since_restore": 1633200, "num_metric_batches_dropped": 0, "time_since_restore": 41817.846318244934, "episode_reward_max": -559.1330891213794, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1633200, "default": {"kl": 0.01168923731893301, "policy_loss": -0.14513690769672394, "vf_loss": 107.73501586914062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9885157346725464, "entropy": 5.731104850769043, "cur_lr": 4.999999873689376e-05, "total_loss": 107.60763549804688}, "load_time_ms": 0.648, "num_steps_sampled": 1633200, "grad_time_ms": 650.159, "update_time_ms": 2.279, "sample_time_ms": 29479.003}, "date": "2025-08-31_03-47-44", "hostname": "cda-server-4", "time_this_iter_s": 31.157070875167847, "episodes_total": 8166, "timestamp": 1756604864, "node_ip": "10.157.146.4", "done": false, "time_total_s": 41817.846318244934, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1362, "episode_reward_mean": -613.4547669358158, "training_iteration": 1362, "timesteps_total": 1634400, "policy_reward_mean": {}, "episode_reward_min": -773.3422845846271, "timesteps_since_restore": 1634400, "num_metric_batches_dropped": 0, "time_since_restore": 41848.215522527695, "episode_reward_max": -559.1330891213794, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1634400, "default": {"kl": 0.009719962254166603, "policy_loss": -0.11996826529502869, "vf_loss": 179.12652587890625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9759811758995056, "entropy": 6.277510643005371, "cur_lr": 4.999999873689376e-05, "total_loss": 179.02133178710938}, "load_time_ms": 0.652, "num_steps_sampled": 1634400, "grad_time_ms": 665.491, "update_time_ms": 2.327, "sample_time_ms": 29303.082}, "date": "2025-08-31_03-48-15", "hostname": "cda-server-4", "time_this_iter_s": 30.36920428276062, "episodes_total": 8172, "timestamp": 1756604895, "node_ip": "10.157.146.4", "done": false, "time_total_s": 41848.215522527695, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1363, "episode_reward_mean": -615.5701810912835, "training_iteration": 1363, "timesteps_total": 1635600, "policy_reward_mean": {}, "episode_reward_min": -773.3422845846271, "timesteps_since_restore": 1635600, "num_metric_batches_dropped": 0, "time_since_restore": 41882.035367012024, "episode_reward_max": -559.1330891213794, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1635600, "default": {"kl": 0.012417041696608067, "policy_loss": -0.1483721137046814, "vf_loss": 899.4408569335938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9618465900421143, "entropy": 6.205467224121094, "cur_lr": 4.999999873689376e-05, "total_loss": 899.311279296875}, "load_time_ms": 0.655, "num_steps_sampled": 1635600, "grad_time_ms": 657.91, "update_time_ms": 2.28, "sample_time_ms": 29781.253}, "date": "2025-08-31_03-48-49", "hostname": "cda-server-4", "time_this_iter_s": 33.819844484329224, "episodes_total": 8178, "timestamp": 1756604929, "node_ip": "10.157.146.4", "done": false, "time_total_s": 41882.035367012024, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1364, "episode_reward_mean": -614.1657396588281, "training_iteration": 1364, "timesteps_total": 1636800, "policy_reward_mean": {}, "episode_reward_min": -783.7483122773626, "timesteps_since_restore": 1636800, "num_metric_batches_dropped": 0, "time_since_restore": 41914.0061314106, "episode_reward_max": -529.2839946520149, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1636800, "default": {"kl": 0.011438476853072643, "policy_loss": -0.13663770258426666, "vf_loss": 1300.57568359375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9266331791877747, "entropy": 6.288002014160156, "cur_lr": 4.999999873689376e-05, "total_loss": 1300.4564208984375}, "load_time_ms": 0.626, "num_steps_sampled": 1636800, "grad_time_ms": 646.039, "update_time_ms": 2.336, "sample_time_ms": 29950.036}, "date": "2025-08-31_03-49-20", "hostname": "cda-server-4", "time_this_iter_s": 31.97076439857483, "episodes_total": 8184, "timestamp": 1756604960, "node_ip": "10.157.146.4", "done": false, "time_total_s": 41914.0061314106, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1365, "episode_reward_mean": -614.4491896936966, "training_iteration": 1365, "timesteps_total": 1638000, "policy_reward_mean": {}, "episode_reward_min": -783.7483122773626, "timesteps_since_restore": 1638000, "num_metric_batches_dropped": 0, "time_since_restore": 41943.375087976456, "episode_reward_max": -529.2839946520149, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1638000, "default": {"kl": 0.01024739071726799, "policy_loss": -0.13954395055770874, "vf_loss": 95.62244415283203, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9877948760986328, "entropy": 5.7969279289245605, "cur_lr": 4.999999873689376e-05, "total_loss": 95.49845886230469}, "load_time_ms": 0.64, "num_steps_sampled": 1638000, "grad_time_ms": 619.119, "update_time_ms": 2.31, "sample_time_ms": 29722.153}, "date": "2025-08-31_03-49-50", "hostname": "cda-server-4", "time_this_iter_s": 29.368956565856934, "episodes_total": 8190, "timestamp": 1756604990, "node_ip": "10.157.146.4", "done": false, "time_total_s": 41943.375087976456, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1366, "episode_reward_mean": -614.0344445134602, "training_iteration": 1366, "timesteps_total": 1639200, "policy_reward_mean": {}, "episode_reward_min": -783.7483122773626, "timesteps_since_restore": 1639200, "num_metric_batches_dropped": 0, "time_since_restore": 41973.60404539108, "episode_reward_max": -529.2839946520149, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1639200, "default": {"kl": 0.011202525347471237, "policy_loss": -0.135385200381279, "vf_loss": 81.33853149414062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9926170706748962, "entropy": 5.685708999633789, "cur_lr": 4.999999873689376e-05, "total_loss": 81.22017669677734}, "load_time_ms": 0.64, "num_steps_sampled": 1639200, "grad_time_ms": 609.674, "update_time_ms": 2.258, "sample_time_ms": 29830.96}, "date": "2025-08-31_03-50-20", "hostname": "cda-server-4", "time_this_iter_s": 30.228957414627075, "episodes_total": 8196, "timestamp": 1756605020, "node_ip": "10.157.146.4", "done": false, "time_total_s": 41973.60404539108, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1367, "episode_reward_mean": -614.5588093836056, "training_iteration": 1367, "timesteps_total": 1640400, "policy_reward_mean": {}, "episode_reward_min": -783.7483122773626, "timesteps_since_restore": 1640400, "num_metric_batches_dropped": 0, "time_since_restore": 42006.71539711952, "episode_reward_max": -529.2839946520149, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1640400, "default": {"kl": 0.008072987198829651, "policy_loss": -0.12197072058916092, "vf_loss": 299.301025390625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9810020923614502, "entropy": 6.094736099243164, "cur_lr": 4.999999873689376e-05, "total_loss": 299.1913146972656}, "load_time_ms": 0.651, "num_steps_sampled": 1640400, "grad_time_ms": 616.991, "update_time_ms": 2.309, "sample_time_ms": 30237.033}, "date": "2025-08-31_03-50-53", "hostname": "cda-server-4", "time_this_iter_s": 33.11135172843933, "episodes_total": 8202, "timestamp": 1756605053, "node_ip": "10.157.146.4", "done": false, "time_total_s": 42006.71539711952, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1368, "episode_reward_mean": -614.9100913908063, "training_iteration": 1368, "timesteps_total": 1641600, "policy_reward_mean": {}, "episode_reward_min": -783.7483122773626, "timesteps_since_restore": 1641600, "num_metric_batches_dropped": 0, "time_since_restore": 42037.26843833923, "episode_reward_max": -472.8931191153918, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1641600, "default": {"kl": 0.011945251375436783, "policy_loss": -0.17619715631008148, "vf_loss": 408.4486999511719, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9667350053787231, "entropy": 6.154731750488281, "cur_lr": 4.999999873689376e-05, "total_loss": 408.2906799316406}, "load_time_ms": 0.631, "num_steps_sampled": 1641600, "grad_time_ms": 624.652, "update_time_ms": 2.287, "sample_time_ms": 30272.43}, "date": "2025-08-31_03-51-24", "hostname": "cda-server-4", "time_this_iter_s": 30.553041219711304, "episodes_total": 8208, "timestamp": 1756605084, "node_ip": "10.157.146.4", "done": false, "time_total_s": 42037.26843833923, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1369, "episode_reward_mean": -615.524708688919, "training_iteration": 1369, "timesteps_total": 1642800, "policy_reward_mean": {}, "episode_reward_min": -783.7483122773626, "timesteps_since_restore": 1642800, "num_metric_batches_dropped": 0, "time_since_restore": 42067.88984870911, "episode_reward_max": -472.8931191153918, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1642800, "default": {"kl": 0.010483152233064175, "policy_loss": -0.14825575053691864, "vf_loss": 253.1474609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9852901101112366, "entropy": 5.991241931915283, "cur_lr": 4.999999873689376e-05, "total_loss": 253.01507568359375}, "load_time_ms": 0.668, "num_steps_sampled": 1642800, "grad_time_ms": 637.608, "update_time_ms": 2.262, "sample_time_ms": 30311.561}, "date": "2025-08-31_03-51-54", "hostname": "cda-server-4", "time_this_iter_s": 30.621410369873047, "episodes_total": 8214, "timestamp": 1756605114, "node_ip": "10.157.146.4", "done": false, "time_total_s": 42067.88984870911, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1370, "episode_reward_mean": -616.2051826843486, "training_iteration": 1370, "timesteps_total": 1644000, "policy_reward_mean": {}, "episode_reward_min": -783.7483122773626, "timesteps_since_restore": 1644000, "num_metric_batches_dropped": 0, "time_since_restore": 42098.10145664215, "episode_reward_max": -472.8931191153918, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1644000, "default": {"kl": 0.010078218765556812, "policy_loss": -0.12181222438812256, "vf_loss": 125.26799774169922, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9849739074707031, "entropy": 5.782153129577637, "cur_lr": 4.999999873689376e-05, "total_loss": 125.1614990234375}, "load_time_ms": 0.663, "num_steps_sampled": 1644000, "grad_time_ms": 620.897, "update_time_ms": 2.246, "sample_time_ms": 30513.499}, "date": "2025-08-31_03-52-25", "hostname": "cda-server-4", "time_this_iter_s": 30.211607933044434, "episodes_total": 8220, "timestamp": 1756605145, "node_ip": "10.157.146.4", "done": false, "time_total_s": 42098.10145664215, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1371, "episode_reward_mean": -616.4964172553019, "training_iteration": 1371, "timesteps_total": 1645200, "policy_reward_mean": {}, "episode_reward_min": -783.7483122773626, "timesteps_since_restore": 1645200, "num_metric_batches_dropped": 0, "time_since_restore": 42127.32548618317, "episode_reward_max": -472.8931191153918, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1645200, "default": {"kl": 0.01406402513384819, "policy_loss": -0.1501496434211731, "vf_loss": 732.339111328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9496100544929504, "entropy": 5.942624092102051, "cur_lr": 4.999999873689376e-05, "total_loss": 732.2103271484375}, "load_time_ms": 0.661, "num_steps_sampled": 1645200, "grad_time_ms": 596.126, "update_time_ms": 2.245, "sample_time_ms": 30344.939}, "date": "2025-08-31_03-52-54", "hostname": "cda-server-4", "time_this_iter_s": 29.224029541015625, "episodes_total": 8226, "timestamp": 1756605174, "node_ip": "10.157.146.4", "done": false, "time_total_s": 42127.32548618317, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1372, "episode_reward_mean": -616.6877135129646, "training_iteration": 1372, "timesteps_total": 1646400, "policy_reward_mean": {}, "episode_reward_min": -783.7483122773626, "timesteps_since_restore": 1646400, "num_metric_batches_dropped": 0, "time_since_restore": 42160.845776319504, "episode_reward_max": -472.8931191153918, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1646400, "default": {"kl": 0.011540438048541546, "policy_loss": -0.1561451256275177, "vf_loss": 361.54339599609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9650055766105652, "entropy": 5.898815631866455, "cur_lr": 4.999999873689376e-05, "total_loss": 361.4047546386719}, "load_time_ms": 0.667, "num_steps_sampled": 1646400, "grad_time_ms": 578.061, "update_time_ms": 2.278, "sample_time_ms": 30678.046}, "date": "2025-08-31_03-53-27", "hostname": "cda-server-4", "time_this_iter_s": 33.52029013633728, "episodes_total": 8232, "timestamp": 1756605207, "node_ip": "10.157.146.4", "done": false, "time_total_s": 42160.845776319504, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1373, "episode_reward_mean": -616.0943185182076, "training_iteration": 1373, "timesteps_total": 1647600, "policy_reward_mean": {}, "episode_reward_min": -783.7483122773626, "timesteps_since_restore": 1647600, "num_metric_batches_dropped": 0, "time_since_restore": 42194.57494664192, "episode_reward_max": -472.8931191153918, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1647600, "default": {"kl": 0.012880207039415836, "policy_loss": -0.16086089611053467, "vf_loss": 82.40800476074219, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9928596019744873, "entropy": 5.624796390533447, "cur_lr": 4.999999873689376e-05, "total_loss": 82.2667007446289}, "load_time_ms": 0.663, "num_steps_sampled": 1647600, "grad_time_ms": 580.118, "update_time_ms": 2.305, "sample_time_ms": 30666.918}, "date": "2025-08-31_03-54-01", "hostname": "cda-server-4", "time_this_iter_s": 33.72917032241821, "episodes_total": 8238, "timestamp": 1756605241, "node_ip": "10.157.146.4", "done": false, "time_total_s": 42194.57494664192, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1374, "episode_reward_mean": -617.4020908072646, "training_iteration": 1374, "timesteps_total": 1648800, "policy_reward_mean": {}, "episode_reward_min": -783.7483122773626, "timesteps_since_restore": 1648800, "num_metric_batches_dropped": 0, "time_since_restore": 42227.83390927315, "episode_reward_max": -472.8931191153918, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1648800, "default": {"kl": 0.01232712808996439, "policy_loss": -0.15516787767410278, "vf_loss": 116.693603515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9865612387657166, "entropy": 5.993937969207764, "cur_lr": 4.999999873689376e-05, "total_loss": 116.55715942382812}, "load_time_ms": 0.688, "num_steps_sampled": 1648800, "grad_time_ms": 570.43, "update_time_ms": 2.285, "sample_time_ms": 30805.338}, "date": "2025-08-31_03-54-35", "hostname": "cda-server-4", "time_this_iter_s": 33.258962631225586, "episodes_total": 8244, "timestamp": 1756605275, "node_ip": "10.157.146.4", "done": false, "time_total_s": 42227.83390927315, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1375, "episode_reward_mean": -617.1105712362418, "training_iteration": 1375, "timesteps_total": 1650000, "policy_reward_mean": {}, "episode_reward_min": -783.7483122773626, "timesteps_since_restore": 1650000, "num_metric_batches_dropped": 0, "time_since_restore": 42257.35997700691, "episode_reward_max": -472.8931191153918, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1650000, "default": {"kl": 0.010830238461494446, "policy_loss": -0.1408018171787262, "vf_loss": 213.15859985351562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.971246063709259, "entropy": 5.788561820983887, "cur_lr": 4.999999873689376e-05, "total_loss": 213.03424072265625}, "load_time_ms": 0.667, "num_steps_sampled": 1650000, "grad_time_ms": 572.065, "update_time_ms": 2.321, "sample_time_ms": 30819.368}, "date": "2025-08-31_03-55-04", "hostname": "cda-server-4", "time_this_iter_s": 29.52606773376465, "episodes_total": 8250, "timestamp": 1756605304, "node_ip": "10.157.146.4", "done": false, "time_total_s": 42257.35997700691, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1376, "episode_reward_mean": -617.0543183509229, "training_iteration": 1376, "timesteps_total": 1651200, "policy_reward_mean": {}, "episode_reward_min": -783.7483122773626, "timesteps_since_restore": 1651200, "num_metric_batches_dropped": 0, "time_since_restore": 42288.720470905304, "episode_reward_max": -472.8931191153918, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1651200, "default": {"kl": 0.010048961266875267, "policy_loss": -0.1290576457977295, "vf_loss": 223.57391357421875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9825922846794128, "entropy": 5.777848243713379, "cur_lr": 4.999999873689376e-05, "total_loss": 223.46011352539062}, "load_time_ms": 0.661, "num_steps_sampled": 1651200, "grad_time_ms": 610.284, "update_time_ms": 2.307, "sample_time_ms": 30894.235}, "date": "2025-08-31_03-55-35", "hostname": "cda-server-4", "time_this_iter_s": 31.360493898391724, "episodes_total": 8256, "timestamp": 1756605335, "node_ip": "10.157.146.4", "done": false, "time_total_s": 42288.720470905304, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1377, "episode_reward_mean": -618.5277101687271, "training_iteration": 1377, "timesteps_total": 1652400, "policy_reward_mean": {}, "episode_reward_min": -783.7483122773626, "timesteps_since_restore": 1652400, "num_metric_batches_dropped": 0, "time_since_restore": 42318.42215538025, "episode_reward_max": -472.8931191153918, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1652400, "default": {"kl": 0.009482178837060928, "policy_loss": -0.12747234106063843, "vf_loss": 191.68724060058594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9798376560211182, "entropy": 5.791593551635742, "cur_lr": 4.999999873689376e-05, "total_loss": 191.57415771484375}, "load_time_ms": 0.646, "num_steps_sampled": 1652400, "grad_time_ms": 620.733, "update_time_ms": 2.306, "sample_time_ms": 30542.883}, "date": "2025-08-31_03-56-05", "hostname": "cda-server-4", "time_this_iter_s": 29.70168447494507, "episodes_total": 8262, "timestamp": 1756605365, "node_ip": "10.157.146.4", "done": false, "time_total_s": 42318.42215538025, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1378, "episode_reward_mean": -618.8986574639017, "training_iteration": 1378, "timesteps_total": 1653600, "policy_reward_mean": {}, "episode_reward_min": -783.7483122773626, "timesteps_since_restore": 1653600, "num_metric_batches_dropped": 0, "time_since_restore": 42350.49072599411, "episode_reward_max": -472.8931191153918, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1653600, "default": {"kl": 0.010234687477350235, "policy_loss": -0.13490456342697144, "vf_loss": 107.9880599975586, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9858105778694153, "entropy": 6.146940231323242, "cur_lr": 4.999999873689376e-05, "total_loss": 107.86869812011719}, "load_time_ms": 0.647, "num_steps_sampled": 1653600, "grad_time_ms": 608.797, "update_time_ms": 2.294, "sample_time_ms": 30706.424}, "date": "2025-08-31_03-56-37", "hostname": "cda-server-4", "time_this_iter_s": 32.068570613861084, "episodes_total": 8268, "timestamp": 1756605397, "node_ip": "10.157.146.4", "done": false, "time_total_s": 42350.49072599411, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1379, "episode_reward_mean": -619.0893295017631, "training_iteration": 1379, "timesteps_total": 1654800, "policy_reward_mean": {}, "episode_reward_min": -783.7483122773626, "timesteps_since_restore": 1654800, "num_metric_batches_dropped": 0, "time_since_restore": 42381.36734890938, "episode_reward_max": -472.8931191153918, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1654800, "default": {"kl": 0.01117707695811987, "policy_loss": -0.16077017784118652, "vf_loss": 284.3376159667969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9760014414787292, "entropy": 5.597832202911377, "cur_lr": 4.999999873689376e-05, "total_loss": 284.1938171386719}, "load_time_ms": 0.612, "num_steps_sampled": 1654800, "grad_time_ms": 596.213, "update_time_ms": 2.331, "sample_time_ms": 30744.565}, "date": "2025-08-31_03-57-08", "hostname": "cda-server-4", "time_this_iter_s": 30.876622915267944, "episodes_total": 8274, "timestamp": 1756605428, "node_ip": "10.157.146.4", "done": false, "time_total_s": 42381.36734890938, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1380, "episode_reward_mean": -617.271162839471, "training_iteration": 1380, "timesteps_total": 1656000, "policy_reward_mean": {}, "episode_reward_min": -783.7483122773626, "timesteps_since_restore": 1656000, "num_metric_batches_dropped": 0, "time_since_restore": 42413.61403512955, "episode_reward_max": -472.8931191153918, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1656000, "default": {"kl": 0.011307117529213428, "policy_loss": -0.14431346952915192, "vf_loss": 322.34991455078125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9547165632247925, "entropy": 6.021106243133545, "cur_lr": 4.999999873689376e-05, "total_loss": 322.2227478027344}, "load_time_ms": 0.606, "num_steps_sampled": 1656000, "grad_time_ms": 601.857, "update_time_ms": 2.325, "sample_time_ms": 30942.404}, "date": "2025-08-31_03-57-40", "hostname": "cda-server-4", "time_this_iter_s": 32.24668622016907, "episodes_total": 8280, "timestamp": 1756605460, "node_ip": "10.157.146.4", "done": false, "time_total_s": 42413.61403512955, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1381, "episode_reward_mean": -615.7322923814963, "training_iteration": 1381, "timesteps_total": 1657200, "policy_reward_mean": {}, "episode_reward_min": -783.4127641902975, "timesteps_since_restore": 1657200, "num_metric_batches_dropped": 0, "time_since_restore": 42443.170753479004, "episode_reward_max": -472.8931191153918, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1657200, "default": {"kl": 0.010721358470618725, "policy_loss": -0.14463835954666138, "vf_loss": 563.4129638671875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9448811411857605, "entropy": 5.87500524520874, "cur_lr": 4.999999873689376e-05, "total_loss": 563.2846069335938}, "load_time_ms": 0.604, "num_steps_sampled": 1657200, "grad_time_ms": 611.581, "update_time_ms": 2.301, "sample_time_ms": 30965.968}, "date": "2025-08-31_03-58-10", "hostname": "cda-server-4", "time_this_iter_s": 29.556718349456787, "episodes_total": 8286, "timestamp": 1756605490, "node_ip": "10.157.146.4", "done": false, "time_total_s": 42443.170753479004, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1382, "episode_reward_mean": -616.036927427259, "training_iteration": 1382, "timesteps_total": 1658400, "policy_reward_mean": {}, "episode_reward_min": -783.4127641902975, "timesteps_since_restore": 1658400, "num_metric_batches_dropped": 0, "time_since_restore": 42475.67092251778, "episode_reward_max": -472.8931191153918, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1658400, "default": {"kl": 0.010420192033052444, "policy_loss": -0.13780030608177185, "vf_loss": 232.52072143554688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9823659062385559, "entropy": 5.79630184173584, "cur_lr": 4.999999873689376e-05, "total_loss": 232.39874267578125}, "load_time_ms": 0.6, "num_steps_sampled": 1658400, "grad_time_ms": 624.335, "update_time_ms": 2.378, "sample_time_ms": 30850.982}, "date": "2025-08-31_03-58-43", "hostname": "cda-server-4", "time_this_iter_s": 32.50016903877258, "episodes_total": 8292, "timestamp": 1756605523, "node_ip": "10.157.146.4", "done": false, "time_total_s": 42475.67092251778, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1383, "episode_reward_mean": -616.2471202386874, "training_iteration": 1383, "timesteps_total": 1659600, "policy_reward_mean": {}, "episode_reward_min": -783.4127641902975, "timesteps_since_restore": 1659600, "num_metric_batches_dropped": 0, "time_since_restore": 42503.562015771866, "episode_reward_max": -472.8931191153918, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1659600, "default": {"kl": 0.00902103167027235, "policy_loss": -0.12603598833084106, "vf_loss": 179.93817138671875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9778770804405212, "entropy": 5.673852920532227, "cur_lr": 4.999999873689376e-05, "total_loss": 179.8258514404297}, "load_time_ms": 0.675, "num_steps_sampled": 1659600, "grad_time_ms": 630.996, "update_time_ms": 2.381, "sample_time_ms": 30260.387}, "date": "2025-08-31_03-59-10", "hostname": "cda-server-4", "time_this_iter_s": 27.891093254089355, "episodes_total": 8298, "timestamp": 1756605550, "node_ip": "10.157.146.4", "done": false, "time_total_s": 42503.562015771866, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1384, "episode_reward_mean": -614.6583390084236, "training_iteration": 1384, "timesteps_total": 1660800, "policy_reward_mean": {}, "episode_reward_min": -783.4127641902975, "timesteps_since_restore": 1660800, "num_metric_batches_dropped": 0, "time_since_restore": 42537.04898810387, "episode_reward_max": -472.8931191153918, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1660800, "default": {"kl": 0.009924962185323238, "policy_loss": -0.12570984661579132, "vf_loss": 129.15896606445312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9877512454986572, "entropy": 5.558727741241455, "cur_lr": 4.999999873689376e-05, "total_loss": 129.04832458496094}, "load_time_ms": 0.644, "num_steps_sampled": 1660800, "grad_time_ms": 637.634, "update_time_ms": 2.346, "sample_time_ms": 30276.611}, "date": "2025-08-31_03-59-44", "hostname": "cda-server-4", "time_this_iter_s": 33.48697233200073, "episodes_total": 8304, "timestamp": 1756605584, "node_ip": "10.157.146.4", "done": false, "time_total_s": 42537.04898810387, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1385, "episode_reward_mean": -615.2852789436146, "training_iteration": 1385, "timesteps_total": 1662000, "policy_reward_mean": {}, "episode_reward_min": -783.4127641902975, "timesteps_since_restore": 1662000, "num_metric_batches_dropped": 0, "time_since_restore": 42568.83642292023, "episode_reward_max": -506.3492992656244, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1662000, "default": {"kl": 0.012117980979382992, "policy_loss": -0.1426413357257843, "vf_loss": 67.97562408447266, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9918978214263916, "entropy": 5.745508193969727, "cur_lr": 4.999999873689376e-05, "total_loss": 67.85138702392578}, "load_time_ms": 0.65, "num_steps_sampled": 1662000, "grad_time_ms": 680.536, "update_time_ms": 2.295, "sample_time_ms": 30459.828}, "date": "2025-08-31_04-00-16", "hostname": "cda-server-4", "time_this_iter_s": 31.787434816360474, "episodes_total": 8310, "timestamp": 1756605616, "node_ip": "10.157.146.4", "done": false, "time_total_s": 42568.83642292023, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1386, "episode_reward_mean": -614.6711144982414, "training_iteration": 1386, "timesteps_total": 1663200, "policy_reward_mean": {}, "episode_reward_min": -783.4127641902975, "timesteps_since_restore": 1663200, "num_metric_batches_dropped": 0, "time_since_restore": 42602.368626117706, "episode_reward_max": -506.3492992656244, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1663200, "default": {"kl": 0.008005030453205109, "policy_loss": -0.11121264845132828, "vf_loss": 261.5163879394531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.981715202331543, "entropy": 5.721516132354736, "cur_lr": 4.999999873689376e-05, "total_loss": 261.4173278808594}, "load_time_ms": 0.652, "num_steps_sampled": 1663200, "grad_time_ms": 660.71, "update_time_ms": 2.311, "sample_time_ms": 30696.972}, "date": "2025-08-31_04-00-49", "hostname": "cda-server-4", "time_this_iter_s": 33.53220319747925, "episodes_total": 8316, "timestamp": 1756605649, "node_ip": "10.157.146.4", "done": false, "time_total_s": 42602.368626117706, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1387, "episode_reward_mean": -612.0936575495911, "training_iteration": 1387, "timesteps_total": 1664400, "policy_reward_mean": {}, "episode_reward_min": -665.3897768607126, "timesteps_since_restore": 1664400, "num_metric_batches_dropped": 0, "time_since_restore": 42632.45131444931, "episode_reward_max": -506.3492992656244, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1664400, "default": {"kl": 0.01009153202176094, "policy_loss": -0.13725070655345917, "vf_loss": 152.79376220703125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9843972325325012, "entropy": 5.846512794494629, "cur_lr": 4.999999873689376e-05, "total_loss": 152.6718292236328}, "load_time_ms": 0.653, "num_steps_sampled": 1664400, "grad_time_ms": 662.972, "update_time_ms": 2.285, "sample_time_ms": 30732.79}, "date": "2025-08-31_04-01-19", "hostname": "cda-server-4", "time_this_iter_s": 30.082688331604004, "episodes_total": 8322, "timestamp": 1756605679, "node_ip": "10.157.146.4", "done": false, "time_total_s": 42632.45131444931, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1388, "episode_reward_mean": -612.2269701652418, "training_iteration": 1388, "timesteps_total": 1665600, "policy_reward_mean": {}, "episode_reward_min": -665.3897768607126, "timesteps_since_restore": 1665600, "num_metric_batches_dropped": 0, "time_since_restore": 42661.01548194885, "episode_reward_max": -506.3492992656244, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1665600, "default": {"kl": 0.00945036020129919, "policy_loss": -0.12012199312448502, "vf_loss": 115.59609985351562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9863774180412292, "entropy": 5.766104698181152, "cur_lr": 4.999999873689376e-05, "total_loss": 115.49031829833984}, "load_time_ms": 0.655, "num_steps_sampled": 1665600, "grad_time_ms": 680.93, "update_time_ms": 2.357, "sample_time_ms": 30364.296}, "date": "2025-08-31_04-01-48", "hostname": "cda-server-4", "time_this_iter_s": 28.564167499542236, "episodes_total": 8328, "timestamp": 1756605708, "node_ip": "10.157.146.4", "done": false, "time_total_s": 42661.01548194885, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1389, "episode_reward_mean": -612.6784824103654, "training_iteration": 1389, "timesteps_total": 1666800, "policy_reward_mean": {}, "episode_reward_min": -665.3897768607126, "timesteps_since_restore": 1666800, "num_metric_batches_dropped": 0, "time_since_restore": 42691.96147465706, "episode_reward_max": -506.3492992656244, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1666800, "default": {"kl": 0.00980527326464653, "policy_loss": -0.12079163640737534, "vf_loss": 36.02253723144531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9945467710494995, "entropy": 5.92836856842041, "cur_lr": 4.999999873689376e-05, "total_loss": 35.91663360595703}, "load_time_ms": 0.654, "num_steps_sampled": 1666800, "grad_time_ms": 684.545, "update_time_ms": 2.301, "sample_time_ms": 30367.617}, "date": "2025-08-31_04-02-19", "hostname": "cda-server-4", "time_this_iter_s": 30.945992708206177, "episodes_total": 8334, "timestamp": 1756605739, "node_ip": "10.157.146.4", "done": false, "time_total_s": 42691.96147465706, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1390, "episode_reward_mean": -612.0581941179151, "training_iteration": 1390, "timesteps_total": 1668000, "policy_reward_mean": {}, "episode_reward_min": -665.3897768607126, "timesteps_since_restore": 1668000, "num_metric_batches_dropped": 0, "time_since_restore": 42725.300414562225, "episode_reward_max": -506.3492992656244, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1668000, "default": {"kl": 0.008382522501051426, "policy_loss": -0.12481635063886642, "vf_loss": 271.75921630859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.960722804069519, "entropy": 5.672434329986572, "cur_lr": 4.999999873689376e-05, "total_loss": 271.6471252441406}, "load_time_ms": 0.653, "num_steps_sampled": 1668000, "grad_time_ms": 685.338, "update_time_ms": 2.328, "sample_time_ms": 30475.983}, "date": "2025-08-31_04-02-52", "hostname": "cda-server-4", "time_this_iter_s": 33.338939905166626, "episodes_total": 8340, "timestamp": 1756605772, "node_ip": "10.157.146.4", "done": false, "time_total_s": 42725.300414562225, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1391, "episode_reward_mean": -611.6494838405292, "training_iteration": 1391, "timesteps_total": 1669200, "policy_reward_mean": {}, "episode_reward_min": -665.3897768607126, "timesteps_since_restore": 1669200, "num_metric_batches_dropped": 0, "time_since_restore": 42756.203372716904, "episode_reward_max": -506.3492992656244, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1669200, "default": {"kl": 0.010347548872232437, "policy_loss": -0.15530143678188324, "vf_loss": 205.08375549316406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9740120768547058, "entropy": 6.152266502380371, "cur_lr": 4.999999873689376e-05, "total_loss": 204.94415283203125}, "load_time_ms": 0.659, "num_steps_sampled": 1669200, "grad_time_ms": 702.456, "update_time_ms": 2.442, "sample_time_ms": 30593.329}, "date": "2025-08-31_04-03-23", "hostname": "cda-server-4", "time_this_iter_s": 30.902958154678345, "episodes_total": 8346, "timestamp": 1756605803, "node_ip": "10.157.146.4", "done": false, "time_total_s": 42756.203372716904, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1392, "episode_reward_mean": -612.473804502599, "training_iteration": 1392, "timesteps_total": 1670400, "policy_reward_mean": {}, "episode_reward_min": -665.3897768607126, "timesteps_since_restore": 1670400, "num_metric_batches_dropped": 0, "time_since_restore": 42788.84565138817, "episode_reward_max": -506.3492992656244, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1670400, "default": {"kl": 0.009830760769546032, "policy_loss": -0.12528736889362335, "vf_loss": 145.70689392089844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9854003190994263, "entropy": 5.595094203948975, "cur_lr": 4.999999873689376e-05, "total_loss": 145.59654235839844}, "load_time_ms": 0.663, "num_steps_sampled": 1670400, "grad_time_ms": 695.467, "update_time_ms": 2.303, "sample_time_ms": 30614.798}, "date": "2025-08-31_04-03-56", "hostname": "cda-server-4", "time_this_iter_s": 32.64227867126465, "episodes_total": 8352, "timestamp": 1756605836, "node_ip": "10.157.146.4", "done": false, "time_total_s": 42788.84565138817, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1393, "episode_reward_mean": -612.696034036295, "training_iteration": 1393, "timesteps_total": 1671600, "policy_reward_mean": {}, "episode_reward_min": -665.3897768607126, "timesteps_since_restore": 1671600, "num_metric_batches_dropped": 0, "time_since_restore": 42822.55020737648, "episode_reward_max": -506.3492992656244, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1671600, "default": {"kl": 0.010332739911973476, "policy_loss": -0.12698957324028015, "vf_loss": 407.3007507324219, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9547103047370911, "entropy": 5.596165657043457, "cur_lr": 4.999999873689376e-05, "total_loss": 407.1894226074219}, "load_time_ms": 0.596, "num_steps_sampled": 1671600, "grad_time_ms": 690.634, "update_time_ms": 2.36, "sample_time_ms": 31200.996}, "date": "2025-08-31_04-04-30", "hostname": "cda-server-4", "time_this_iter_s": 33.70455598831177, "episodes_total": 8358, "timestamp": 1756605870, "node_ip": "10.157.146.4", "done": false, "time_total_s": 42822.55020737648, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1394, "episode_reward_mean": -612.2973182487551, "training_iteration": 1394, "timesteps_total": 1672800, "policy_reward_mean": {}, "episode_reward_min": -665.3897768607126, "timesteps_since_restore": 1672800, "num_metric_batches_dropped": 0, "time_since_restore": 42856.23315358162, "episode_reward_max": -506.3492992656244, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1672800, "default": {"kl": 0.011446833610534668, "policy_loss": -0.13194529712200165, "vf_loss": 241.24378967285156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9748367667198181, "entropy": 6.000014305114746, "cur_lr": 4.999999873689376e-05, "total_loss": 241.1292266845703}, "load_time_ms": 0.598, "num_steps_sampled": 1672800, "grad_time_ms": 708.936, "update_time_ms": 2.426, "sample_time_ms": 31202.19}, "date": "2025-08-31_04-05-03", "hostname": "cda-server-4", "time_this_iter_s": 33.68294620513916, "episodes_total": 8364, "timestamp": 1756605903, "node_ip": "10.157.146.4", "done": false, "time_total_s": 42856.23315358162, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1395, "episode_reward_mean": -611.3864100141138, "training_iteration": 1395, "timesteps_total": 1674000, "policy_reward_mean": {}, "episode_reward_min": -665.3897768607126, "timesteps_since_restore": 1674000, "num_metric_batches_dropped": 0, "time_since_restore": 42889.233875989914, "episode_reward_max": -506.3492992656244, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1674000, "default": {"kl": 0.010583404451608658, "policy_loss": -0.13765639066696167, "vf_loss": 97.67050170898438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9916373491287231, "entropy": 5.828080177307129, "cur_lr": 4.999999873689376e-05, "total_loss": 97.54891967773438}, "load_time_ms": 0.597, "num_steps_sampled": 1674000, "grad_time_ms": 671.592, "update_time_ms": 2.461, "sample_time_ms": 31360.893}, "date": "2025-08-31_04-05-36", "hostname": "cda-server-4", "time_this_iter_s": 33.00072240829468, "episodes_total": 8370, "timestamp": 1756605936, "node_ip": "10.157.146.4", "done": false, "time_total_s": 42889.233875989914, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1396, "episode_reward_mean": -612.0933019916761, "training_iteration": 1396, "timesteps_total": 1675200, "policy_reward_mean": {}, "episode_reward_min": -665.3897768607126, "timesteps_since_restore": 1675200, "num_metric_batches_dropped": 0, "time_since_restore": 42923.244030714035, "episode_reward_max": -506.3492992656244, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1675200, "default": {"kl": 0.010970463976264, "policy_loss": -0.15148858726024628, "vf_loss": 40.32722473144531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.995025098323822, "entropy": 6.055532455444336, "cur_lr": 4.999999873689376e-05, "total_loss": 40.19239807128906}, "load_time_ms": 0.608, "num_steps_sampled": 1675200, "grad_time_ms": 659.926, "update_time_ms": 2.409, "sample_time_ms": 31420.322}, "date": "2025-08-31_04-06-10", "hostname": "cda-server-4", "time_this_iter_s": 34.010154724121094, "episodes_total": 8376, "timestamp": 1756605970, "node_ip": "10.157.146.4", "done": false, "time_total_s": 42923.244030714035, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1397, "episode_reward_mean": -612.3135140207686, "training_iteration": 1397, "timesteps_total": 1676400, "policy_reward_mean": {}, "episode_reward_min": -663.1049415741464, "timesteps_since_restore": 1676400, "num_metric_batches_dropped": 0, "time_since_restore": 42957.41911768913, "episode_reward_max": -561.6448480696677, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1676400, "default": {"kl": 0.008243606425821781, "policy_loss": -0.12388507276773453, "vf_loss": 158.66567993164062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9824070334434509, "entropy": 5.431283950805664, "cur_lr": 4.999999873689376e-05, "total_loss": 158.5543212890625}, "load_time_ms": 0.616, "num_steps_sampled": 1676400, "grad_time_ms": 640.427, "update_time_ms": 2.461, "sample_time_ms": 31849.002}, "date": "2025-08-31_04-06-44", "hostname": "cda-server-4", "time_this_iter_s": 34.175086975097656, "episodes_total": 8382, "timestamp": 1756606004, "node_ip": "10.157.146.4", "done": false, "time_total_s": 42957.41911768913, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1398, "episode_reward_mean": -613.4678368038573, "training_iteration": 1398, "timesteps_total": 1677600, "policy_reward_mean": {}, "episode_reward_min": -663.1049415741464, "timesteps_since_restore": 1677600, "num_metric_batches_dropped": 0, "time_since_restore": 42991.04051947594, "episode_reward_max": -561.6448480696677, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1677600, "default": {"kl": 0.009805314242839813, "policy_loss": -0.13120977580547333, "vf_loss": 438.5394287109375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9699178338050842, "entropy": 6.060690879821777, "cur_lr": 4.999999873689376e-05, "total_loss": 438.4231262207031}, "load_time_ms": 0.62, "num_steps_sampled": 1677600, "grad_time_ms": 639.232, "update_time_ms": 2.44, "sample_time_ms": 32355.842}, "date": "2025-08-31_04-07-18", "hostname": "cda-server-4", "time_this_iter_s": 33.6214017868042, "episodes_total": 8388, "timestamp": 1756606038, "node_ip": "10.157.146.4", "done": false, "time_total_s": 42991.04051947594, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1399, "episode_reward_mean": -613.1086617648319, "training_iteration": 1399, "timesteps_total": 1678800, "policy_reward_mean": {}, "episode_reward_min": -663.1049415741464, "timesteps_since_restore": 1678800, "num_metric_batches_dropped": 0, "time_since_restore": 43024.37323331833, "episode_reward_max": -497.3306164957701, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1678800, "default": {"kl": 0.010185007937252522, "policy_loss": -0.13935671746730804, "vf_loss": 147.51248168945312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9816153049468994, "entropy": 6.134580612182617, "cur_lr": 4.999999873689376e-05, "total_loss": 147.38858032226562}, "load_time_ms": 0.618, "num_steps_sampled": 1678800, "grad_time_ms": 648.363, "update_time_ms": 2.538, "sample_time_ms": 32585.261}, "date": "2025-08-31_04-07-51", "hostname": "cda-server-4", "time_this_iter_s": 33.33271384239197, "episodes_total": 8394, "timestamp": 1756606071, "node_ip": "10.157.146.4", "done": false, "time_total_s": 43024.37323331833, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1400, "episode_reward_mean": -614.1243478352385, "training_iteration": 1400, "timesteps_total": 1680000, "policy_reward_mean": {}, "episode_reward_min": -663.1049415741464, "timesteps_since_restore": 1680000, "num_metric_batches_dropped": 0, "time_since_restore": 43058.081564188, "episode_reward_max": -497.3306164957701, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1680000, "default": {"kl": 0.010085329413414001, "policy_loss": -0.14530295133590698, "vf_loss": 245.53448486328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9806063771247864, "entropy": 6.2148637771606445, "cur_lr": 4.999999873689376e-05, "total_loss": 245.40447998046875}, "load_time_ms": 0.641, "num_steps_sampled": 1680000, "grad_time_ms": 656.693, "update_time_ms": 2.576, "sample_time_ms": 32613.689}, "date": "2025-08-31_04-08-25", "hostname": "cda-server-4", "time_this_iter_s": 33.70833086967468, "episodes_total": 8400, "timestamp": 1756606105, "node_ip": "10.157.146.4", "done": false, "time_total_s": 43058.081564188, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1401, "episode_reward_mean": -615.6895836289193, "training_iteration": 1401, "timesteps_total": 1681200, "policy_reward_mean": {}, "episode_reward_min": -792.2652031311154, "timesteps_since_restore": 1681200, "num_metric_batches_dropped": 0, "time_since_restore": 43092.56906867027, "episode_reward_max": -497.3306164957701, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1681200, "default": {"kl": 0.01317319180816412, "policy_loss": -0.16202715039253235, "vf_loss": 1075.22265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9359922409057617, "entropy": 5.677194595336914, "cur_lr": 4.999999873689376e-05, "total_loss": 1075.08056640625}, "load_time_ms": 0.636, "num_steps_sampled": 1681200, "grad_time_ms": 639.441, "update_time_ms": 2.662, "sample_time_ms": 32989.376}, "date": "2025-08-31_04-09-00", "hostname": "cda-server-4", "time_this_iter_s": 34.48750448226929, "episodes_total": 8406, "timestamp": 1756606140, "node_ip": "10.157.146.4", "done": false, "time_total_s": 43092.56906867027, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1402, "episode_reward_mean": -616.0670336473302, "training_iteration": 1402, "timesteps_total": 1682400, "policy_reward_mean": {}, "episode_reward_min": -792.2652031311154, "timesteps_since_restore": 1682400, "num_metric_batches_dropped": 0, "time_since_restore": 43126.48639464378, "episode_reward_max": -497.3306164957701, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1682400, "default": {"kl": 0.009085847064852715, "policy_loss": -0.10549108684062958, "vf_loss": 238.35574340820312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9660136103630066, "entropy": 5.37152099609375, "cur_lr": 4.999999873689376e-05, "total_loss": 238.26402282714844}, "load_time_ms": 0.636, "num_steps_sampled": 1682400, "grad_time_ms": 641.88, "update_time_ms": 2.729, "sample_time_ms": 33114.343}, "date": "2025-08-31_04-09-34", "hostname": "cda-server-4", "time_this_iter_s": 33.91732597351074, "episodes_total": 8412, "timestamp": 1756606174, "node_ip": "10.157.146.4", "done": false, "time_total_s": 43126.48639464378, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1403, "episode_reward_mean": -616.2830888650342, "training_iteration": 1403, "timesteps_total": 1683600, "policy_reward_mean": {}, "episode_reward_min": -792.2652031311154, "timesteps_since_restore": 1683600, "num_metric_batches_dropped": 0, "time_since_restore": 43161.232836961746, "episode_reward_max": -497.3306164957701, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1683600, "default": {"kl": 0.009344040416181087, "policy_loss": -0.13282015919685364, "vf_loss": 57.04484176635742, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9929646253585815, "entropy": 5.94008731842041, "cur_lr": 4.999999873689376e-05, "total_loss": 56.92620849609375}, "load_time_ms": 0.628, "num_steps_sampled": 1683600, "grad_time_ms": 640.737, "update_time_ms": 2.672, "sample_time_ms": 33219.747}, "date": "2025-08-31_04-10-08", "hostname": "cda-server-4", "time_this_iter_s": 34.74644231796265, "episodes_total": 8418, "timestamp": 1756606208, "node_ip": "10.157.146.4", "done": false, "time_total_s": 43161.232836961746, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1404, "episode_reward_mean": -616.0546598256647, "training_iteration": 1404, "timesteps_total": 1684800, "policy_reward_mean": {}, "episode_reward_min": -792.2652031311154, "timesteps_since_restore": 1684800, "num_metric_batches_dropped": 0, "time_since_restore": 43195.99139380455, "episode_reward_max": -497.3306164957701, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1684800, "default": {"kl": 0.009707218036055565, "policy_loss": -0.1192576214671135, "vf_loss": 215.46270751953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9684350490570068, "entropy": 5.668519020080566, "cur_lr": 4.999999873689376e-05, "total_loss": 215.3582000732422}, "load_time_ms": 0.629, "num_steps_sampled": 1684800, "grad_time_ms": 631.849, "update_time_ms": 2.672, "sample_time_ms": 33336.245}, "date": "2025-08-31_04-10-43", "hostname": "cda-server-4", "time_this_iter_s": 34.758556842803955, "episodes_total": 8424, "timestamp": 1756606243, "node_ip": "10.157.146.4", "done": false, "time_total_s": 43195.99139380455, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1405, "episode_reward_mean": -616.4959677380119, "training_iteration": 1405, "timesteps_total": 1686000, "policy_reward_mean": {}, "episode_reward_min": -792.2652031311154, "timesteps_since_restore": 1686000, "num_metric_batches_dropped": 0, "time_since_restore": 43230.15976500511, "episode_reward_max": -497.3306164957701, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1686000, "default": {"kl": 0.009837203659117222, "policy_loss": -0.14758284389972687, "vf_loss": 138.5169219970703, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.980560302734375, "entropy": 5.690394878387451, "cur_lr": 4.999999873689376e-05, "total_loss": 138.38427734375}, "load_time_ms": 0.668, "num_steps_sampled": 1686000, "grad_time_ms": 639.017, "update_time_ms": 2.668, "sample_time_ms": 33445.779}, "date": "2025-08-31_04-11-17", "hostname": "cda-server-4", "time_this_iter_s": 34.16837120056152, "episodes_total": 8430, "timestamp": 1756606277, "node_ip": "10.157.146.4", "done": false, "time_total_s": 43230.15976500511, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1406, "episode_reward_mean": -616.0501199841643, "training_iteration": 1406, "timesteps_total": 1687200, "policy_reward_mean": {}, "episode_reward_min": -792.2652031311154, "timesteps_since_restore": 1687200, "num_metric_batches_dropped": 0, "time_since_restore": 43264.89197969437, "episode_reward_max": -497.3306164957701, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1687200, "default": {"kl": 0.01165020652115345, "policy_loss": -0.13482370972633362, "vf_loss": 795.822998046875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9364839196205139, "entropy": 5.5744781494140625, "cur_lr": 4.999999873689376e-05, "total_loss": 795.7058715820312}, "load_time_ms": 0.667, "num_steps_sampled": 1687200, "grad_time_ms": 643.307, "update_time_ms": 2.784, "sample_time_ms": 33513.561}, "date": "2025-08-31_04-11-52", "hostname": "cda-server-4", "time_this_iter_s": 34.73221468925476, "episodes_total": 8436, "timestamp": 1756606312, "node_ip": "10.157.146.4", "done": false, "time_total_s": 43264.89197969437, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1407, "episode_reward_mean": -615.4338530144494, "training_iteration": 1407, "timesteps_total": 1688400, "policy_reward_mean": {}, "episode_reward_min": -792.2652031311154, "timesteps_since_restore": 1688400, "num_metric_batches_dropped": 0, "time_since_restore": 43299.42641210556, "episode_reward_max": -497.3306164957701, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1688400, "default": {"kl": 0.009208666160702705, "policy_loss": -0.13074500858783722, "vf_loss": 114.19879913330078, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9841905236244202, "entropy": 5.327968597412109, "cur_lr": 4.999999873689376e-05, "total_loss": 114.08203125}, "load_time_ms": 0.661, "num_steps_sampled": 1688400, "grad_time_ms": 642.126, "update_time_ms": 2.828, "sample_time_ms": 33550.689}, "date": "2025-08-31_04-12-27", "hostname": "cda-server-4", "time_this_iter_s": 34.53443241119385, "episodes_total": 8442, "timestamp": 1756606347, "node_ip": "10.157.146.4", "done": false, "time_total_s": 43299.42641210556, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1408, "episode_reward_mean": -616.0316190671132, "training_iteration": 1408, "timesteps_total": 1689600, "policy_reward_mean": {}, "episode_reward_min": -792.2652031311154, "timesteps_since_restore": 1689600, "num_metric_batches_dropped": 0, "time_since_restore": 43333.61630868912, "episode_reward_max": -497.3306164957701, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1689600, "default": {"kl": 0.009599405340850353, "policy_loss": -0.11763104796409607, "vf_loss": 133.6080322265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9839364290237427, "entropy": 5.677212715148926, "cur_lr": 4.999999873689376e-05, "total_loss": 133.50498962402344}, "load_time_ms": 0.66, "num_steps_sampled": 1689600, "grad_time_ms": 633.99, "update_time_ms": 2.85, "sample_time_ms": 33615.706}, "date": "2025-08-31_04-13-01", "hostname": "cda-server-4", "time_this_iter_s": 34.18989658355713, "episodes_total": 8448, "timestamp": 1756606381, "node_ip": "10.157.146.4", "done": false, "time_total_s": 43333.61630868912, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1409, "episode_reward_mean": -615.7959659175126, "training_iteration": 1409, "timesteps_total": 1690800, "policy_reward_mean": {}, "episode_reward_min": -792.2652031311154, "timesteps_since_restore": 1690800, "num_metric_batches_dropped": 0, "time_since_restore": 43367.37784457207, "episode_reward_max": -497.3306164957701, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1690800, "default": {"kl": 0.01075541228055954, "policy_loss": -0.15568950772285461, "vf_loss": 103.69935607910156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.989287257194519, "entropy": 6.012138843536377, "cur_lr": 4.999999873689376e-05, "total_loss": 103.55999755859375}, "load_time_ms": 0.698, "num_steps_sampled": 1690800, "grad_time_ms": 627.413, "update_time_ms": 2.838, "sample_time_ms": 33665.227}, "date": "2025-08-31_04-13-35", "hostname": "cda-server-4", "time_this_iter_s": 33.76153588294983, "episodes_total": 8454, "timestamp": 1756606415, "node_ip": "10.157.146.4", "done": false, "time_total_s": 43367.37784457207, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1410, "episode_reward_mean": -614.7546115653225, "training_iteration": 1410, "timesteps_total": 1692000, "policy_reward_mean": {}, "episode_reward_min": -792.2652031311154, "timesteps_since_restore": 1692000, "num_metric_batches_dropped": 0, "time_since_restore": 43401.715834617615, "episode_reward_max": -497.3306164957701, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1692000, "default": {"kl": 0.009084248915314674, "policy_loss": -0.122769795358181, "vf_loss": 216.76617431640625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9665764570236206, "entropy": 5.439415454864502, "cur_lr": 4.999999873689376e-05, "total_loss": 216.6571807861328}, "load_time_ms": 0.691, "num_steps_sampled": 1692000, "grad_time_ms": 619.015, "update_time_ms": 2.863, "sample_time_ms": 33736.711}, "date": "2025-08-31_04-14-09", "hostname": "cda-server-4", "time_this_iter_s": 34.337990045547485, "episodes_total": 8460, "timestamp": 1756606449, "node_ip": "10.157.146.4", "done": false, "time_total_s": 43401.715834617615, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1411, "episode_reward_mean": -614.4691522100675, "training_iteration": 1411, "timesteps_total": 1693200, "policy_reward_mean": {}, "episode_reward_min": -792.2652031311154, "timesteps_since_restore": 1693200, "num_metric_batches_dropped": 0, "time_since_restore": 43435.946508169174, "episode_reward_max": -497.3306164957701, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1693200, "default": {"kl": 0.010661396197974682, "policy_loss": -0.11844095587730408, "vf_loss": 382.78399658203125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9660412669181824, "entropy": 5.648270606994629, "cur_lr": 4.999999873689376e-05, "total_loss": 382.6817626953125}, "load_time_ms": 0.69, "num_steps_sampled": 1693200, "grad_time_ms": 618.011, "update_time_ms": 2.705, "sample_time_ms": 33712.181}, "date": "2025-08-31_04-14-43", "hostname": "cda-server-4", "time_this_iter_s": 34.23067355155945, "episodes_total": 8466, "timestamp": 1756606483, "node_ip": "10.157.146.4", "done": false, "time_total_s": 43435.946508169174, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1412, "episode_reward_mean": -614.2653983271704, "training_iteration": 1412, "timesteps_total": 1694400, "policy_reward_mean": {}, "episode_reward_min": -792.2652031311154, "timesteps_since_restore": 1694400, "num_metric_batches_dropped": 0, "time_since_restore": 43469.820125103, "episode_reward_max": -497.3306164957701, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1694400, "default": {"kl": 0.00800349097698927, "policy_loss": -0.11712483316659927, "vf_loss": 104.27564239501953, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9871939420700073, "entropy": 5.435991287231445, "cur_lr": 4.999999873689376e-05, "total_loss": 104.1706771850586}, "load_time_ms": 0.687, "num_steps_sampled": 1694400, "grad_time_ms": 614.191, "update_time_ms": 2.67, "sample_time_ms": 33711.656}, "date": "2025-08-31_04-15-17", "hostname": "cda-server-4", "time_this_iter_s": 33.87361693382263, "episodes_total": 8472, "timestamp": 1756606517, "node_ip": "10.157.146.4", "done": false, "time_total_s": 43469.820125103, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1413, "episode_reward_mean": -614.7398356869953, "training_iteration": 1413, "timesteps_total": 1695600, "policy_reward_mean": {}, "episode_reward_min": -792.2652031311154, "timesteps_since_restore": 1695600, "num_metric_batches_dropped": 0, "time_since_restore": 43503.143010139465, "episode_reward_max": -497.3306164957701, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1695600, "default": {"kl": 0.008135885000228882, "policy_loss": -0.11842841655015945, "vf_loss": 199.89105224609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.972601592540741, "entropy": 5.89752721786499, "cur_lr": 4.999999873689376e-05, "total_loss": 199.7849884033203}, "load_time_ms": 0.692, "num_steps_sampled": 1695600, "grad_time_ms": 614.334, "update_time_ms": 2.758, "sample_time_ms": 33568.986}, "date": "2025-08-31_04-15-51", "hostname": "cda-server-4", "time_this_iter_s": 33.322885036468506, "episodes_total": 8478, "timestamp": 1756606551, "node_ip": "10.157.146.4", "done": false, "time_total_s": 43503.143010139465, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1414, "episode_reward_mean": -614.5778475953568, "training_iteration": 1414, "timesteps_total": 1696800, "policy_reward_mean": {}, "episode_reward_min": -792.2652031311154, "timesteps_since_restore": 1696800, "num_metric_batches_dropped": 0, "time_since_restore": 43537.363312482834, "episode_reward_max": -497.3306164957701, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1696800, "default": {"kl": 0.007624107878655195, "policy_loss": -0.12021197378635406, "vf_loss": 222.29335021972656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9680208563804626, "entropy": 5.756577491760254, "cur_lr": 4.999999873689376e-05, "total_loss": 222.1847381591797}, "load_time_ms": 0.691, "num_steps_sampled": 1696800, "grad_time_ms": 607.955, "update_time_ms": 2.737, "sample_time_ms": 33521.577}, "date": "2025-08-31_04-16-25", "hostname": "cda-server-4", "time_this_iter_s": 34.22030234336853, "episodes_total": 8484, "timestamp": 1756606585, "node_ip": "10.157.146.4", "done": false, "time_total_s": 43537.363312482834, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1415, "episode_reward_mean": -613.383058444355, "training_iteration": 1415, "timesteps_total": 1698000, "policy_reward_mean": {}, "episode_reward_min": -792.2652031311154, "timesteps_since_restore": 1698000, "num_metric_batches_dropped": 0, "time_since_restore": 43572.12019300461, "episode_reward_max": -497.3306164957701, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1698000, "default": {"kl": 0.00988580472767353, "policy_loss": -0.1276634782552719, "vf_loss": 194.14955139160156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9888570308685303, "entropy": 5.523665904998779, "cur_lr": 4.999999873689376e-05, "total_loss": 194.03692626953125}, "load_time_ms": 0.67, "num_steps_sampled": 1698000, "grad_time_ms": 599.444, "update_time_ms": 2.737, "sample_time_ms": 33588.993}, "date": "2025-08-31_04-17-00", "hostname": "cda-server-4", "time_this_iter_s": 34.75688052177429, "episodes_total": 8490, "timestamp": 1756606620, "node_ip": "10.157.146.4", "done": false, "time_total_s": 43572.12019300461, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1416, "episode_reward_mean": -613.928106908896, "training_iteration": 1416, "timesteps_total": 1699200, "policy_reward_mean": {}, "episode_reward_min": -792.2652031311154, "timesteps_since_restore": 1699200, "num_metric_batches_dropped": 0, "time_since_restore": 43605.85330796242, "episode_reward_max": -563.2056724101128, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1699200, "default": {"kl": 0.011903876438736916, "policy_loss": -0.13720983266830444, "vf_loss": 201.2029266357422, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9759539365768433, "entropy": 5.624608993530273, "cur_lr": 4.999999873689376e-05, "total_loss": 201.08380126953125}, "load_time_ms": 0.66, "num_steps_sampled": 1699200, "grad_time_ms": 603.773, "update_time_ms": 2.684, "sample_time_ms": 33484.909}, "date": "2025-08-31_04-17-33", "hostname": "cda-server-4", "time_this_iter_s": 33.73311495780945, "episodes_total": 8496, "timestamp": 1756606653, "node_ip": "10.157.146.4", "done": false, "time_total_s": 43605.85330796242, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1417, "episode_reward_mean": -612.5879180451374, "training_iteration": 1417, "timesteps_total": 1700400, "policy_reward_mean": {}, "episode_reward_min": -792.2652031311154, "timesteps_since_restore": 1700400, "num_metric_batches_dropped": 0, "time_since_restore": 43640.3605594635, "episode_reward_max": -563.2056724101128, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1700400, "default": {"kl": 0.0100638372823596, "policy_loss": -0.1335117220878601, "vf_loss": 201.33880615234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9733153581619263, "entropy": 5.587081432342529, "cur_lr": 4.999999873689376e-05, "total_loss": 201.22059631347656}, "load_time_ms": 0.661, "num_steps_sampled": 1700400, "grad_time_ms": 621.818, "update_time_ms": 2.653, "sample_time_ms": 33464.069}, "date": "2025-08-31_04-18-08", "hostname": "cda-server-4", "time_this_iter_s": 34.507251501083374, "episodes_total": 8502, "timestamp": 1756606688, "node_ip": "10.157.146.4", "done": false, "time_total_s": 43640.3605594635, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1418, "episode_reward_mean": -610.8699770115302, "training_iteration": 1418, "timesteps_total": 1701600, "policy_reward_mean": {}, "episode_reward_min": -657.4363553658045, "timesteps_since_restore": 1701600, "num_metric_batches_dropped": 0, "time_since_restore": 43674.73434138298, "episode_reward_max": -562.3930527109692, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1701600, "default": {"kl": 0.009748178534209728, "policy_loss": -0.1368454396724701, "vf_loss": 75.74812316894531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9895142316818237, "entropy": 5.460249900817871, "cur_lr": 4.999999873689376e-05, "total_loss": 75.62608337402344}, "load_time_ms": 0.658, "num_steps_sampled": 1701600, "grad_time_ms": 632.129, "update_time_ms": 2.635, "sample_time_ms": 33472.142}, "date": "2025-08-31_04-18-42", "hostname": "cda-server-4", "time_this_iter_s": 34.37378191947937, "episodes_total": 8508, "timestamp": 1756606722, "node_ip": "10.157.146.4", "done": false, "time_total_s": 43674.73434138298, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1419, "episode_reward_mean": -611.2147684991547, "training_iteration": 1419, "timesteps_total": 1702800, "policy_reward_mean": {}, "episode_reward_min": -657.4363553658045, "timesteps_since_restore": 1702800, "num_metric_batches_dropped": 0, "time_since_restore": 43709.60330700874, "episode_reward_max": -562.3930527109692, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1702800, "default": {"kl": 0.00864082295447588, "policy_loss": -0.12167925387620926, "vf_loss": 454.64947509765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9604021906852722, "entropy": 5.559779167175293, "cur_lr": 4.999999873689376e-05, "total_loss": 454.5408935546875}, "load_time_ms": 0.634, "num_steps_sampled": 1702800, "grad_time_ms": 624.649, "update_time_ms": 2.664, "sample_time_ms": 33590.305}, "date": "2025-08-31_04-19-17", "hostname": "cda-server-4", "time_this_iter_s": 34.86896562576294, "episodes_total": 8514, "timestamp": 1756606757, "node_ip": "10.157.146.4", "done": false, "time_total_s": 43709.60330700874, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1420, "episode_reward_mean": -611.9668824062677, "training_iteration": 1420, "timesteps_total": 1704000, "policy_reward_mean": {}, "episode_reward_min": -662.9585164610452, "timesteps_since_restore": 1704000, "num_metric_batches_dropped": 0, "time_since_restore": 43743.25791430473, "episode_reward_max": -562.3930527109692, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1704000, "default": {"kl": 0.012226628139615059, "policy_loss": -0.13100865483283997, "vf_loss": 708.962158203125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9486413598060608, "entropy": 5.633447170257568, "cur_lr": 4.999999873689376e-05, "total_loss": 708.8497314453125}, "load_time_ms": 0.622, "num_steps_sampled": 1704000, "grad_time_ms": 617.169, "update_time_ms": 2.622, "sample_time_ms": 33529.456}, "date": "2025-08-31_04-19-51", "hostname": "cda-server-4", "time_this_iter_s": 33.65460729598999, "episodes_total": 8520, "timestamp": 1756606791, "node_ip": "10.157.146.4", "done": false, "time_total_s": 43743.25791430473, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1421, "episode_reward_mean": -611.2538074925392, "training_iteration": 1421, "timesteps_total": 1705200, "policy_reward_mean": {}, "episode_reward_min": -662.9585164610452, "timesteps_since_restore": 1705200, "num_metric_batches_dropped": 0, "time_since_restore": 43778.06971287727, "episode_reward_max": -562.3930527109692, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1705200, "default": {"kl": 0.01030010636895895, "policy_loss": -0.1235547736287117, "vf_loss": 136.3016815185547, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9897220134735107, "entropy": 5.5974931716918945, "cur_lr": 4.999999873689376e-05, "total_loss": 136.19375610351562}, "load_time_ms": 0.658, "num_steps_sampled": 1705200, "grad_time_ms": 625.361, "update_time_ms": 2.627, "sample_time_ms": 33579.27}, "date": "2025-08-31_04-20-26", "hostname": "cda-server-4", "time_this_iter_s": 34.81179857254028, "episodes_total": 8526, "timestamp": 1756606826, "node_ip": "10.157.146.4", "done": false, "time_total_s": 43778.06971287727, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1422, "episode_reward_mean": -610.6003175642595, "training_iteration": 1422, "timesteps_total": 1706400, "policy_reward_mean": {}, "episode_reward_min": -662.9585164610452, "timesteps_since_restore": 1706400, "num_metric_batches_dropped": 0, "time_since_restore": 43812.640984773636, "episode_reward_max": -562.3930527109692, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1706400, "default": {"kl": 0.011779092252254486, "policy_loss": -0.16374900937080383, "vf_loss": 177.27867126464844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9799947738647461, "entropy": 5.716902732849121, "cur_lr": 4.999999873689376e-05, "total_loss": 177.13282775878906}, "load_time_ms": 0.657, "num_steps_sampled": 1706400, "grad_time_ms": 628.521, "update_time_ms": 2.61, "sample_time_ms": 33645.949}, "date": "2025-08-31_04-21-00", "hostname": "cda-server-4", "time_this_iter_s": 34.571271896362305, "episodes_total": 8532, "timestamp": 1756606860, "node_ip": "10.157.146.4", "done": false, "time_total_s": 43812.640984773636, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1423, "episode_reward_mean": -610.4142305765681, "training_iteration": 1423, "timesteps_total": 1707600, "policy_reward_mean": {}, "episode_reward_min": -662.9585164610452, "timesteps_since_restore": 1707600, "num_metric_batches_dropped": 0, "time_since_restore": 43845.852266311646, "episode_reward_max": -502.44483736579065, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1707600, "default": {"kl": 0.01093218568712473, "policy_loss": -0.15273621678352356, "vf_loss": 302.1339416503906, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9618208408355713, "entropy": 5.769708633422852, "cur_lr": 4.999999873689376e-05, "total_loss": 301.9978332519531}, "load_time_ms": 0.645, "num_steps_sampled": 1707600, "grad_time_ms": 614.446, "update_time_ms": 2.58, "sample_time_ms": 33649.023}, "date": "2025-08-31_04-21-33", "hostname": "cda-server-4", "time_this_iter_s": 33.211281538009644, "episodes_total": 8538, "timestamp": 1756606893, "node_ip": "10.157.146.4", "done": false, "time_total_s": 43845.852266311646, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1424, "episode_reward_mean": -611.0615538092242, "training_iteration": 1424, "timesteps_total": 1708800, "policy_reward_mean": {}, "episode_reward_min": -662.9585164610452, "timesteps_since_restore": 1708800, "num_metric_batches_dropped": 0, "time_since_restore": 43879.91815447807, "episode_reward_max": -502.44483736579065, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1708800, "default": {"kl": 0.009058519266545773, "policy_loss": -0.13668686151504517, "vf_loss": 114.47276306152344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9910033345222473, "entropy": 5.513612747192383, "cur_lr": 4.999999873689376e-05, "total_loss": 114.34982299804688}, "load_time_ms": 0.642, "num_steps_sampled": 1708800, "grad_time_ms": 627.149, "update_time_ms": 2.586, "sample_time_ms": 33620.812}, "date": "2025-08-31_04-22-08", "hostname": "cda-server-4", "time_this_iter_s": 34.06588816642761, "episodes_total": 8544, "timestamp": 1756606928, "node_ip": "10.157.146.4", "done": false, "time_total_s": 43879.91815447807, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1425, "episode_reward_mean": -610.6336249735776, "training_iteration": 1425, "timesteps_total": 1710000, "policy_reward_mean": {}, "episode_reward_min": -662.9585164610452, "timesteps_since_restore": 1710000, "num_metric_batches_dropped": 0, "time_since_restore": 43914.54014515877, "episode_reward_max": -502.44483736579065, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1710000, "default": {"kl": 0.009117369540035725, "policy_loss": -0.14231586456298828, "vf_loss": 214.17849731445312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9779824018478394, "entropy": 5.762584686279297, "cur_lr": 4.999999873689376e-05, "total_loss": 214.05003356933594}, "load_time_ms": 0.63, "num_steps_sampled": 1710000, "grad_time_ms": 651.263, "update_time_ms": 2.638, "sample_time_ms": 33583.177}, "date": "2025-08-31_04-22-42", "hostname": "cda-server-4", "time_this_iter_s": 34.62199068069458, "episodes_total": 8550, "timestamp": 1756606962, "node_ip": "10.157.146.4", "done": false, "time_total_s": 43914.54014515877, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1426, "episode_reward_mean": -609.3643229829958, "training_iteration": 1426, "timesteps_total": 1711200, "policy_reward_mean": {}, "episode_reward_min": -662.9585164610452, "timesteps_since_restore": 1711200, "num_metric_batches_dropped": 0, "time_since_restore": 43949.42440867424, "episode_reward_max": -496.1069184598624, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1711200, "default": {"kl": 0.012468098662793636, "policy_loss": -0.12168126553297043, "vf_loss": 347.1459045410156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9615290760993958, "entropy": 5.502270698547363, "cur_lr": 4.999999873689376e-05, "total_loss": 347.04315185546875}, "load_time_ms": 0.639, "num_steps_sampled": 1711200, "grad_time_ms": 638.395, "update_time_ms": 2.653, "sample_time_ms": 33711.127}, "date": "2025-08-31_04-23-17", "hostname": "cda-server-4", "time_this_iter_s": 34.88426351547241, "episodes_total": 8556, "timestamp": 1756606997, "node_ip": "10.157.146.4", "done": false, "time_total_s": 43949.42440867424, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1427, "episode_reward_mean": -610.0436434506228, "training_iteration": 1427, "timesteps_total": 1712400, "policy_reward_mean": {}, "episode_reward_min": -662.9585164610452, "timesteps_since_restore": 1712400, "num_metric_batches_dropped": 0, "time_since_restore": 43982.77881479263, "episode_reward_max": -496.1069184598624, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1712400, "default": {"kl": 0.011004537343978882, "policy_loss": -0.14082366228103638, "vf_loss": 325.24359130859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9712805151939392, "entropy": 5.553370475769043, "cur_lr": 4.999999873689376e-05, "total_loss": 325.1194763183594}, "load_time_ms": 0.644, "num_steps_sampled": 1712400, "grad_time_ms": 612.744, "update_time_ms": 2.582, "sample_time_ms": 33621.628}, "date": "2025-08-31_04-23-50", "hostname": "cda-server-4", "time_this_iter_s": 33.354406118392944, "episodes_total": 8562, "timestamp": 1756607030, "node_ip": "10.157.146.4", "done": false, "time_total_s": 43982.77881479263, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1428, "episode_reward_mean": -609.9403377942995, "training_iteration": 1428, "timesteps_total": 1713600, "policy_reward_mean": {}, "episode_reward_min": -662.9585164610452, "timesteps_since_restore": 1713600, "num_metric_batches_dropped": 0, "time_since_restore": 44016.889124155045, "episode_reward_max": -496.1069184598624, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1713600, "default": {"kl": 0.012352383695542812, "policy_loss": -0.15297093987464905, "vf_loss": 290.3724365234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9855809807777405, "entropy": 5.534626483917236, "cur_lr": 4.999999873689376e-05, "total_loss": 290.2381896972656}, "load_time_ms": 0.646, "num_steps_sampled": 1713600, "grad_time_ms": 611.632, "update_time_ms": 2.592, "sample_time_ms": 33596.408}, "date": "2025-08-31_04-24-25", "hostname": "cda-server-4", "time_this_iter_s": 34.1103093624115, "episodes_total": 8568, "timestamp": 1756607065, "node_ip": "10.157.146.4", "done": false, "time_total_s": 44016.889124155045, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1429, "episode_reward_mean": -609.3168026458584, "training_iteration": 1429, "timesteps_total": 1714800, "policy_reward_mean": {}, "episode_reward_min": -662.9585164610452, "timesteps_since_restore": 1714800, "num_metric_batches_dropped": 0, "time_since_restore": 44050.8524851799, "episode_reward_max": -496.1069184598624, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1714800, "default": {"kl": 0.009249810129404068, "policy_loss": -0.12529096007347107, "vf_loss": 202.0209197998047, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9767622351646423, "entropy": 5.495698928833008, "cur_lr": 4.999999873689376e-05, "total_loss": 201.90968322753906}, "load_time_ms": 0.657, "num_steps_sampled": 1714800, "grad_time_ms": 604.326, "update_time_ms": 2.529, "sample_time_ms": 33513.147}, "date": "2025-08-31_04-24-59", "hostname": "cda-server-4", "time_this_iter_s": 33.96336102485657, "episodes_total": 8574, "timestamp": 1756607099, "node_ip": "10.157.146.4", "done": false, "time_total_s": 44050.8524851799, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1430, "episode_reward_mean": -608.9568307662827, "training_iteration": 1430, "timesteps_total": 1716000, "policy_reward_mean": {}, "episode_reward_min": -662.9585164610452, "timesteps_since_restore": 1716000, "num_metric_batches_dropped": 0, "time_since_restore": 44085.056163311005, "episode_reward_max": -496.1069184598624, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1716000, "default": {"kl": 0.009772894904017448, "policy_loss": -0.1360863447189331, "vf_loss": 503.5948486328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9829525351524353, "entropy": 5.689233779907227, "cur_lr": 4.999999873689376e-05, "total_loss": 503.4736328125}, "load_time_ms": 0.688, "num_steps_sampled": 1716000, "grad_time_ms": 615.298, "update_time_ms": 2.538, "sample_time_ms": 33557.02}, "date": "2025-08-31_04-25-33", "hostname": "cda-server-4", "time_this_iter_s": 34.203678131103516, "episodes_total": 8580, "timestamp": 1756607133, "node_ip": "10.157.146.4", "done": false, "time_total_s": 44085.056163311005, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1431, "episode_reward_mean": -608.8379138784962, "training_iteration": 1431, "timesteps_total": 1717200, "policy_reward_mean": {}, "episode_reward_min": -662.9585164610452, "timesteps_since_restore": 1717200, "num_metric_batches_dropped": 0, "time_since_restore": 44118.98302793503, "episode_reward_max": -496.1069184598624, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1717200, "default": {"kl": 0.010688213631510735, "policy_loss": -0.11929115653038025, "vf_loss": 116.42487335205078, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9846563339233398, "entropy": 5.278940677642822, "cur_lr": 4.999999873689376e-05, "total_loss": 116.32181549072266}, "load_time_ms": 0.689, "num_steps_sampled": 1717200, "grad_time_ms": 619.544, "update_time_ms": 2.542, "sample_time_ms": 33464.324}, "date": "2025-08-31_04-26-07", "hostname": "cda-server-4", "time_this_iter_s": 33.92686462402344, "episodes_total": 8586, "timestamp": 1756607167, "node_ip": "10.157.146.4", "done": false, "time_total_s": 44118.98302793503, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1432, "episode_reward_mean": -609.2104166277697, "training_iteration": 1432, "timesteps_total": 1718400, "policy_reward_mean": {}, "episode_reward_min": -662.9585164610452, "timesteps_since_restore": 1718400, "num_metric_batches_dropped": 0, "time_since_restore": 44153.204511642456, "episode_reward_max": -496.1069184598624, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1718400, "default": {"kl": 0.01066681556403637, "policy_loss": -0.1453472226858139, "vf_loss": 270.78497314453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9771109819412231, "entropy": 5.813950061798096, "cur_lr": 4.999999873689376e-05, "total_loss": 270.6558532714844}, "load_time_ms": 0.687, "num_steps_sampled": 1718400, "grad_time_ms": 623.829, "update_time_ms": 2.558, "sample_time_ms": 33425.057}, "date": "2025-08-31_04-26-41", "hostname": "cda-server-4", "time_this_iter_s": 34.22148370742798, "episodes_total": 8592, "timestamp": 1756607201, "node_ip": "10.157.146.4", "done": false, "time_total_s": 44153.204511642456, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1433, "episode_reward_mean": -609.9845586091086, "training_iteration": 1433, "timesteps_total": 1719600, "policy_reward_mean": {}, "episode_reward_min": -662.9585164610452, "timesteps_since_restore": 1719600, "num_metric_batches_dropped": 0, "time_since_restore": 44187.61998319626, "episode_reward_max": -496.1069184598624, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1719600, "default": {"kl": 0.009951294399797916, "policy_loss": -0.13822750747203827, "vf_loss": 53.73195266723633, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9917681217193604, "entropy": 5.839303493499756, "cur_lr": 4.999999873689376e-05, "total_loss": 53.60884094238281}, "load_time_ms": 0.7, "num_steps_sampled": 1719600, "grad_time_ms": 637.525, "update_time_ms": 2.488, "sample_time_ms": 33531.814}, "date": "2025-08-31_04-27-15", "hostname": "cda-server-4", "time_this_iter_s": 34.41547155380249, "episodes_total": 8598, "timestamp": 1756607235, "node_ip": "10.157.146.4", "done": false, "time_total_s": 44187.61998319626, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1434, "episode_reward_mean": -610.2813306016354, "training_iteration": 1434, "timesteps_total": 1720800, "policy_reward_mean": {}, "episode_reward_min": -662.9585164610452, "timesteps_since_restore": 1720800, "num_metric_batches_dropped": 0, "time_since_restore": 44221.724642276764, "episode_reward_max": -496.1069184598624, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1720800, "default": {"kl": 0.009314232505857944, "policy_loss": -0.13460326194763184, "vf_loss": 134.30267333984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9823874235153198, "entropy": 5.4596638679504395, "cur_lr": 4.999999873689376e-05, "total_loss": 134.1822052001953}, "load_time_ms": 0.705, "num_steps_sampled": 1720800, "grad_time_ms": 637.501, "update_time_ms": 2.476, "sample_time_ms": 33535.825}, "date": "2025-08-31_04-27-50", "hostname": "cda-server-4", "time_this_iter_s": 34.10465908050537, "episodes_total": 8604, "timestamp": 1756607270, "node_ip": "10.157.146.4", "done": false, "time_total_s": 44221.724642276764, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1435, "episode_reward_mean": -609.9966731854987, "training_iteration": 1435, "timesteps_total": 1722000, "policy_reward_mean": {}, "episode_reward_min": -662.9585164610452, "timesteps_since_restore": 1722000, "num_metric_batches_dropped": 0, "time_since_restore": 44256.23359465599, "episode_reward_max": -496.1069184598624, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1722000, "default": {"kl": 0.010783297009766102, "policy_loss": -0.12244585901498795, "vf_loss": 719.7866821289062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9313154220581055, "entropy": 5.530993938446045, "cur_lr": 4.999999873689376e-05, "total_loss": 719.6806030273438}, "load_time_ms": 0.732, "num_steps_sampled": 1722000, "grad_time_ms": 637.712, "update_time_ms": 2.417, "sample_time_ms": 33524.356}, "date": "2025-08-31_04-28-24", "hostname": "cda-server-4", "time_this_iter_s": 34.508952379226685, "episodes_total": 8610, "timestamp": 1756607304, "node_ip": "10.157.146.4", "done": false, "time_total_s": 44256.23359465599, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1436, "episode_reward_mean": -609.6622139179663, "training_iteration": 1436, "timesteps_total": 1723200, "policy_reward_mean": {}, "episode_reward_min": -662.9585164610452, "timesteps_since_restore": 1723200, "num_metric_batches_dropped": 0, "time_since_restore": 44291.270144462585, "episode_reward_max": -496.1069184598624, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1723200, "default": {"kl": 0.011007444933056831, "policy_loss": -0.1502721756696701, "vf_loss": 121.96449279785156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9842255115509033, "entropy": 5.676570415496826, "cur_lr": 4.999999873689376e-05, "total_loss": 121.83091735839844}, "load_time_ms": 0.757, "num_steps_sampled": 1723200, "grad_time_ms": 641.786, "update_time_ms": 2.419, "sample_time_ms": 33535.396}, "date": "2025-08-31_04-28-59", "hostname": "cda-server-4", "time_this_iter_s": 35.03654980659485, "episodes_total": 8616, "timestamp": 1756607339, "node_ip": "10.157.146.4", "done": false, "time_total_s": 44291.270144462585, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1437, "episode_reward_mean": -609.5016547333703, "training_iteration": 1437, "timesteps_total": 1724400, "policy_reward_mean": {}, "episode_reward_min": -648.9931439731695, "timesteps_since_restore": 1724400, "num_metric_batches_dropped": 0, "time_since_restore": 44325.58753013611, "episode_reward_max": -496.1069184598624, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1724400, "default": {"kl": 0.009221899323165417, "policy_loss": -0.13466861844062805, "vf_loss": 194.81517028808594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9730550050735474, "entropy": 5.475387096405029, "cur_lr": 4.999999873689376e-05, "total_loss": 194.69451904296875}, "load_time_ms": 0.749, "num_steps_sampled": 1724400, "grad_time_ms": 637.15, "update_time_ms": 2.506, "sample_time_ms": 33636.311}, "date": "2025-08-31_04-29-33", "hostname": "cda-server-4", "time_this_iter_s": 34.31738567352295, "episodes_total": 8622, "timestamp": 1756607373, "node_ip": "10.157.146.4", "done": false, "time_total_s": 44325.58753013611, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1438, "episode_reward_mean": -610.1128292302133, "training_iteration": 1438, "timesteps_total": 1725600, "policy_reward_mean": {}, "episode_reward_min": -648.9931439731695, "timesteps_since_restore": 1725600, "num_metric_batches_dropped": 0, "time_since_restore": 44359.166680812836, "episode_reward_max": -496.1069184598624, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1725600, "default": {"kl": 0.010663297958672047, "policy_loss": -0.13008196651935577, "vf_loss": 185.0507049560547, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9720732569694519, "entropy": 5.387735843658447, "cur_lr": 4.999999873689376e-05, "total_loss": 184.93679809570312}, "load_time_ms": 0.788, "num_steps_sampled": 1725600, "grad_time_ms": 608.014, "update_time_ms": 2.454, "sample_time_ms": 33612.353}, "date": "2025-08-31_04-30-07", "hostname": "cda-server-4", "time_this_iter_s": 33.579150676727295, "episodes_total": 8628, "timestamp": 1756607407, "node_ip": "10.157.146.4", "done": false, "time_total_s": 44359.166680812836, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1439, "episode_reward_mean": -609.6388029687573, "training_iteration": 1439, "timesteps_total": 1726800, "policy_reward_mean": {}, "episode_reward_min": -654.4019025843643, "timesteps_since_restore": 1726800, "num_metric_batches_dropped": 0, "time_since_restore": 44393.19955658913, "episode_reward_max": -496.1069184598624, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1726800, "default": {"kl": 0.0120142363011837, "policy_loss": -0.15080338716506958, "vf_loss": 89.96144104003906, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9885650277137756, "entropy": 5.64023494720459, "cur_lr": 4.999999873689376e-05, "total_loss": 89.82888793945312}, "load_time_ms": 0.77, "num_steps_sampled": 1726800, "grad_time_ms": 612.856, "update_time_ms": 2.485, "sample_time_ms": 33614.505}, "date": "2025-08-31_04-30-41", "hostname": "cda-server-4", "time_this_iter_s": 34.032875776290894, "episodes_total": 8634, "timestamp": 1756607441, "node_ip": "10.157.146.4", "done": false, "time_total_s": 44393.19955658913, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1440, "episode_reward_mean": -610.4145194723584, "training_iteration": 1440, "timesteps_total": 1728000, "policy_reward_mean": {}, "episode_reward_min": -654.4019025843643, "timesteps_since_restore": 1728000, "num_metric_batches_dropped": 0, "time_since_restore": 44428.116243600845, "episode_reward_max": -496.1069184598624, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1728000, "default": {"kl": 0.008757916279137135, "policy_loss": -0.1327235996723175, "vf_loss": 114.1927490234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.982475996017456, "entropy": 5.306863784790039, "cur_lr": 4.999999873689376e-05, "total_loss": 114.07332611083984}, "load_time_ms": 0.739, "num_steps_sampled": 1728000, "grad_time_ms": 617.027, "update_time_ms": 2.462, "sample_time_ms": 33681.778}, "date": "2025-08-31_04-31-16", "hostname": "cda-server-4", "time_this_iter_s": 34.91668701171875, "episodes_total": 8640, "timestamp": 1756607476, "node_ip": "10.157.146.4", "done": false, "time_total_s": 44428.116243600845, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1441, "episode_reward_mean": -610.900802313383, "training_iteration": 1441, "timesteps_total": 1729200, "policy_reward_mean": {}, "episode_reward_min": -654.4019025843643, "timesteps_since_restore": 1729200, "num_metric_batches_dropped": 0, "time_since_restore": 44461.932679891586, "episode_reward_max": -496.1069184598624, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1729200, "default": {"kl": 0.009337148629128933, "policy_loss": -0.13475339114665985, "vf_loss": 101.5504379272461, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9876660108566284, "entropy": 5.529428958892822, "cur_lr": 4.999999873689376e-05, "total_loss": 101.42985534667969}, "load_time_ms": 0.703, "num_steps_sampled": 1729200, "grad_time_ms": 621.74, "update_time_ms": 2.615, "sample_time_ms": 33665.927}, "date": "2025-08-31_04-31-50", "hostname": "cda-server-4", "time_this_iter_s": 33.81643629074097, "episodes_total": 8646, "timestamp": 1756607510, "node_ip": "10.157.146.4", "done": false, "time_total_s": 44461.932679891586, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1442, "episode_reward_mean": -612.0012971106403, "training_iteration": 1442, "timesteps_total": 1730400, "policy_reward_mean": {}, "episode_reward_min": -655.6251498608694, "timesteps_since_restore": 1730400, "num_metric_batches_dropped": 0, "time_since_restore": 44495.535801410675, "episode_reward_max": -496.1069184598624, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1730400, "default": {"kl": 0.009898959659039974, "policy_loss": -0.13780134916305542, "vf_loss": 393.8327941894531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9658297300338745, "entropy": 5.744812488555908, "cur_lr": 4.999999873689376e-05, "total_loss": 393.71002197265625}, "load_time_ms": 0.702, "num_steps_sampled": 1730400, "grad_time_ms": 614.32, "update_time_ms": 2.571, "sample_time_ms": 33611.551}, "date": "2025-08-31_04-32-24", "hostname": "cda-server-4", "time_this_iter_s": 33.603121519088745, "episodes_total": 8652, "timestamp": 1756607544, "node_ip": "10.157.146.4", "done": false, "time_total_s": 44495.535801410675, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1443, "episode_reward_mean": -612.6336276000853, "training_iteration": 1443, "timesteps_total": 1731600, "policy_reward_mean": {}, "episode_reward_min": -655.6251498608694, "timesteps_since_restore": 1731600, "num_metric_batches_dropped": 0, "time_since_restore": 44530.16982769966, "episode_reward_max": -529.4398182172952, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1731600, "default": {"kl": 0.011276423931121826, "policy_loss": -0.11924878507852554, "vf_loss": 264.8652038574219, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9637100696563721, "entropy": 5.307811260223389, "cur_lr": 4.999999873689376e-05, "total_loss": 264.7630615234375}, "load_time_ms": 0.69, "num_steps_sampled": 1731600, "grad_time_ms": 598.666, "update_time_ms": 2.585, "sample_time_ms": 33649.071}, "date": "2025-08-31_04-32-58", "hostname": "cda-server-4", "time_this_iter_s": 34.634026288986206, "episodes_total": 8658, "timestamp": 1756607578, "node_ip": "10.157.146.4", "done": false, "time_total_s": 44530.16982769966, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1444, "episode_reward_mean": -612.5412836278402, "training_iteration": 1444, "timesteps_total": 1732800, "policy_reward_mean": {}, "episode_reward_min": -655.6251498608694, "timesteps_since_restore": 1732800, "num_metric_batches_dropped": 0, "time_since_restore": 44565.10557961464, "episode_reward_max": -529.4398182172952, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1732800, "default": {"kl": 0.010558301582932472, "policy_loss": -0.14057037234306335, "vf_loss": 183.13404846191406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9822757244110107, "entropy": 5.546627044677734, "cur_lr": 4.999999873689376e-05, "total_loss": 183.00949096679688}, "load_time_ms": 0.69, "num_steps_sampled": 1732800, "grad_time_ms": 596.32, "update_time_ms": 2.665, "sample_time_ms": 33734.406}, "date": "2025-08-31_04-33-33", "hostname": "cda-server-4", "time_this_iter_s": 34.93575191497803, "episodes_total": 8664, "timestamp": 1756607613, "node_ip": "10.157.146.4", "done": false, "time_total_s": 44565.10557961464, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1445, "episode_reward_mean": -609.1118565732958, "training_iteration": 1445, "timesteps_total": 1734000, "policy_reward_mean": {}, "episode_reward_min": -655.6251498608694, "timesteps_since_restore": 1734000, "num_metric_batches_dropped": 0, "time_since_restore": 44599.39814400673, "episode_reward_max": -471.7197869698855, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1734000, "default": {"kl": 0.014405450783669949, "policy_loss": -0.16584110260009766, "vf_loss": 390.3367614746094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9520913362503052, "entropy": 5.723719120025635, "cur_lr": 4.999999873689376e-05, "total_loss": 390.1927490234375}, "load_time_ms": 0.664, "num_steps_sampled": 1734000, "grad_time_ms": 592.402, "update_time_ms": 2.744, "sample_time_ms": 33716.597}, "date": "2025-08-31_04-34-07", "hostname": "cda-server-4", "time_this_iter_s": 34.292564392089844, "episodes_total": 8670, "timestamp": 1756607647, "node_ip": "10.157.146.4", "done": false, "time_total_s": 44599.39814400673, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1446, "episode_reward_mean": -609.172718407, "training_iteration": 1446, "timesteps_total": 1735200, "policy_reward_mean": {}, "episode_reward_min": -655.6251498608694, "timesteps_since_restore": 1735200, "num_metric_batches_dropped": 0, "time_since_restore": 44632.86021232605, "episode_reward_max": -471.7197869698855, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1735200, "default": {"kl": 0.011454160325229168, "policy_loss": -0.14387120306491852, "vf_loss": 264.4932861328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9727475643157959, "entropy": 5.25386381149292, "cur_lr": 4.999999873689376e-05, "total_loss": 264.3668212890625}, "load_time_ms": 0.631, "num_steps_sampled": 1735200, "grad_time_ms": 584.603, "update_time_ms": 2.74, "sample_time_ms": 33567.095}, "date": "2025-08-31_04-34-41", "hostname": "cda-server-4", "time_this_iter_s": 33.46206831932068, "episodes_total": 8676, "timestamp": 1756607681, "node_ip": "10.157.146.4", "done": false, "time_total_s": 44632.86021232605, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1447, "episode_reward_mean": -609.8134662126463, "training_iteration": 1447, "timesteps_total": 1736400, "policy_reward_mean": {}, "episode_reward_min": -655.6251498608694, "timesteps_since_restore": 1736400, "num_metric_batches_dropped": 0, "time_since_restore": 44668.08449792862, "episode_reward_max": -471.7197869698855, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1736400, "default": {"kl": 0.009959080256521702, "policy_loss": -0.1343185305595398, "vf_loss": 147.2952117919922, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9800555109977722, "entropy": 5.409512996673584, "cur_lr": 4.999999873689376e-05, "total_loss": 147.17601013183594}, "load_time_ms": 0.637, "num_steps_sampled": 1736400, "grad_time_ms": 606.885, "update_time_ms": 2.682, "sample_time_ms": 33635.537}, "date": "2025-08-31_04-35-16", "hostname": "cda-server-4", "time_this_iter_s": 35.22428560256958, "episodes_total": 8682, "timestamp": 1756607716, "node_ip": "10.157.146.4", "done": false, "time_total_s": 44668.08449792862, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1448, "episode_reward_mean": -610.8741537187674, "training_iteration": 1448, "timesteps_total": 1737600, "policy_reward_mean": {}, "episode_reward_min": -655.6251498608694, "timesteps_since_restore": 1737600, "num_metric_batches_dropped": 0, "time_since_restore": 44703.31487441063, "episode_reward_max": -471.7197869698855, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1737600, "default": {"kl": 0.009055566042661667, "policy_loss": -0.12176863104104996, "vf_loss": 177.02621459960938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9837324619293213, "entropy": 5.572511196136475, "cur_lr": 4.999999873689376e-05, "total_loss": 176.918212890625}, "load_time_ms": 0.6, "num_steps_sampled": 1737600, "grad_time_ms": 636.431, "update_time_ms": 2.694, "sample_time_ms": 33771.07}, "date": "2025-08-31_04-35-51", "hostname": "cda-server-4", "time_this_iter_s": 35.23037648200989, "episodes_total": 8688, "timestamp": 1756607751, "node_ip": "10.157.146.4", "done": false, "time_total_s": 44703.31487441063, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1449, "episode_reward_mean": -609.6380370338383, "training_iteration": 1449, "timesteps_total": 1738800, "policy_reward_mean": {}, "episode_reward_min": -655.6251498608694, "timesteps_since_restore": 1738800, "num_metric_batches_dropped": 0, "time_since_restore": 44736.85330533981, "episode_reward_max": -471.7197869698855, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1738800, "default": {"kl": 0.0093807652592659, "policy_loss": -0.11365791410207748, "vf_loss": 248.63497924804688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9638186693191528, "entropy": 5.658349514007568, "cur_lr": 4.999999873689376e-05, "total_loss": 248.5355682373047}, "load_time_ms": 0.61, "num_steps_sampled": 1738800, "grad_time_ms": 652.029, "update_time_ms": 2.678, "sample_time_ms": 33706.058}, "date": "2025-08-31_04-36-25", "hostname": "cda-server-4", "time_this_iter_s": 33.53843092918396, "episodes_total": 8694, "timestamp": 1756607785, "node_ip": "10.157.146.4", "done": false, "time_total_s": 44736.85330533981, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1450, "episode_reward_mean": -608.9897226986635, "training_iteration": 1450, "timesteps_total": 1740000, "policy_reward_mean": {}, "episode_reward_min": -655.6251498608694, "timesteps_since_restore": 1740000, "num_metric_batches_dropped": 0, "time_since_restore": 44770.84867930412, "episode_reward_max": -471.7197869698855, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1740000, "default": {"kl": 0.008415882475674152, "policy_loss": -0.12532448768615723, "vf_loss": 224.8760528564453, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9644562602043152, "entropy": 5.497864723205566, "cur_lr": 4.999999873689376e-05, "total_loss": 224.7635040283203}, "load_time_ms": 0.613, "num_steps_sampled": 1740000, "grad_time_ms": 654.7, "update_time_ms": 2.636, "sample_time_ms": 33611.313}, "date": "2025-08-31_04-36-59", "hostname": "cda-server-4", "time_this_iter_s": 33.99537396430969, "episodes_total": 8700, "timestamp": 1756607819, "node_ip": "10.157.146.4", "done": false, "time_total_s": 44770.84867930412, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1451, "episode_reward_mean": -608.2510746012534, "training_iteration": 1451, "timesteps_total": 1741200, "policy_reward_mean": {}, "episode_reward_min": -655.6251498608694, "timesteps_since_restore": 1741200, "num_metric_batches_dropped": 0, "time_since_restore": 44805.70750498772, "episode_reward_max": -471.7197869698855, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1741200, "default": {"kl": 0.009469723328948021, "policy_loss": -0.12770408391952515, "vf_loss": 180.0172576904297, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9721454977989197, "entropy": 5.254810810089111, "cur_lr": 4.999999873689376e-05, "total_loss": 179.9039306640625}, "load_time_ms": 0.616, "num_steps_sampled": 1741200, "grad_time_ms": 657.554, "update_time_ms": 2.447, "sample_time_ms": 33712.889}, "date": "2025-08-31_04-37-34", "hostname": "cda-server-4", "time_this_iter_s": 34.85882568359375, "episodes_total": 8706, "timestamp": 1756607854, "node_ip": "10.157.146.4", "done": false, "time_total_s": 44805.70750498772, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1452, "episode_reward_mean": -607.6345293049482, "training_iteration": 1452, "timesteps_total": 1742400, "policy_reward_mean": {}, "episode_reward_min": -655.6251498608694, "timesteps_since_restore": 1742400, "num_metric_batches_dropped": 0, "time_since_restore": 44840.23846530914, "episode_reward_max": -463.66404875932346, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1742400, "default": {"kl": 0.01129805576056242, "policy_loss": -0.1468571126461029, "vf_loss": 264.7355651855469, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9708628058433533, "entropy": 5.483675003051758, "cur_lr": 4.999999873689376e-05, "total_loss": 264.60589599609375}, "load_time_ms": 0.62, "num_steps_sampled": 1742400, "grad_time_ms": 651.531, "update_time_ms": 2.494, "sample_time_ms": 33811.523}, "date": "2025-08-31_04-38-08", "hostname": "cda-server-4", "time_this_iter_s": 34.53096032142639, "episodes_total": 8712, "timestamp": 1756607888, "node_ip": "10.157.146.4", "done": false, "time_total_s": 44840.23846530914, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1453, "episode_reward_mean": -607.4105221096778, "training_iteration": 1453, "timesteps_total": 1743600, "policy_reward_mean": {}, "episode_reward_min": -655.6251498608694, "timesteps_since_restore": 1743600, "num_metric_batches_dropped": 0, "time_since_restore": 44873.55298733711, "episode_reward_max": -463.66404875932346, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1743600, "default": {"kl": 0.009570066817104816, "policy_loss": -0.11735299229621887, "vf_loss": 208.33778381347656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9705183506011963, "entropy": 5.182562351226807, "cur_lr": 4.999999873689376e-05, "total_loss": 208.23495483398438}, "load_time_ms": 0.625, "num_steps_sampled": 1743600, "grad_time_ms": 673.094, "update_time_ms": 2.52, "sample_time_ms": 33657.918}, "date": "2025-08-31_04-38-42", "hostname": "cda-server-4", "time_this_iter_s": 33.31452202796936, "episodes_total": 8718, "timestamp": 1756607922, "node_ip": "10.157.146.4", "done": false, "time_total_s": 44873.55298733711, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1454, "episode_reward_mean": -606.6396360673726, "training_iteration": 1454, "timesteps_total": 1744800, "policy_reward_mean": {}, "episode_reward_min": -655.6251498608694, "timesteps_since_restore": 1744800, "num_metric_batches_dropped": 0, "time_since_restore": 44908.02332687378, "episode_reward_max": -463.66404875932346, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1744800, "default": {"kl": 0.010311335325241089, "policy_loss": -0.1536349505186081, "vf_loss": 467.2947082519531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9459487199783325, "entropy": 5.843931198120117, "cur_lr": 4.999999873689376e-05, "total_loss": 467.15673828125}, "load_time_ms": 0.626, "num_steps_sampled": 1744800, "grad_time_ms": 671.14, "update_time_ms": 2.406, "sample_time_ms": 33613.455}, "date": "2025-08-31_04-39-16", "hostname": "cda-server-4", "time_this_iter_s": 34.47033953666687, "episodes_total": 8724, "timestamp": 1756607956, "node_ip": "10.157.146.4", "done": false, "time_total_s": 44908.02332687378, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1455, "episode_reward_mean": -605.6045836243437, "training_iteration": 1455, "timesteps_total": 1746000, "policy_reward_mean": {}, "episode_reward_min": -655.6251498608694, "timesteps_since_restore": 1746000, "num_metric_batches_dropped": 0, "time_since_restore": 44942.64766454697, "episode_reward_max": -463.66404875932346, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1746000, "default": {"kl": 0.01069901417940855, "policy_loss": -0.14083093404769897, "vf_loss": 412.9970397949219, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9760717749595642, "entropy": 5.2565741539001465, "cur_lr": 4.999999873689376e-05, "total_loss": 412.8724365234375}, "load_time_ms": 0.615, "num_steps_sampled": 1746000, "grad_time_ms": 667.561, "update_time_ms": 2.366, "sample_time_ms": 33650.253}, "date": "2025-08-31_04-39-51", "hostname": "cda-server-4", "time_this_iter_s": 34.624337673187256, "episodes_total": 8730, "timestamp": 1756607991, "node_ip": "10.157.146.4", "done": false, "time_total_s": 44942.64766454697, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1456, "episode_reward_mean": -604.9205825739218, "training_iteration": 1456, "timesteps_total": 1747200, "policy_reward_mean": {}, "episode_reward_min": -655.6251498608694, "timesteps_since_restore": 1747200, "num_metric_batches_dropped": 0, "time_since_restore": 44977.00592470169, "episode_reward_max": -463.66404875932346, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1747200, "default": {"kl": 0.009074333123862743, "policy_loss": -0.12660467624664307, "vf_loss": 240.60421752929688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9890429377555847, "entropy": 5.452604293823242, "cur_lr": 4.999999873689376e-05, "total_loss": 240.49139404296875}, "load_time_ms": 0.612, "num_steps_sampled": 1747200, "grad_time_ms": 686.463, "update_time_ms": 2.375, "sample_time_ms": 33720.921}, "date": "2025-08-31_04-40-25", "hostname": "cda-server-4", "time_this_iter_s": 34.35826015472412, "episodes_total": 8736, "timestamp": 1756608025, "node_ip": "10.157.146.4", "done": false, "time_total_s": 44977.00592470169, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1457, "episode_reward_mean": -605.1715286306403, "training_iteration": 1457, "timesteps_total": 1748400, "policy_reward_mean": {}, "episode_reward_min": -655.6251498608694, "timesteps_since_restore": 1748400, "num_metric_batches_dropped": 0, "time_since_restore": 45010.46418380737, "episode_reward_max": -463.66404875932346, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1748400, "default": {"kl": 0.012149585410952568, "policy_loss": -0.1578269898891449, "vf_loss": 497.1471252441406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9817519783973694, "entropy": 5.609358310699463, "cur_lr": 4.999999873689376e-05, "total_loss": 497.0078125}, "load_time_ms": 0.61, "num_steps_sampled": 1748400, "grad_time_ms": 693.718, "update_time_ms": 2.432, "sample_time_ms": 33536.93}, "date": "2025-08-31_04-40-59", "hostname": "cda-server-4", "time_this_iter_s": 33.45825910568237, "episodes_total": 8742, "timestamp": 1756608059, "node_ip": "10.157.146.4", "done": false, "time_total_s": 45010.46418380737, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1458, "episode_reward_mean": -604.2953647776881, "training_iteration": 1458, "timesteps_total": 1749600, "policy_reward_mean": {}, "episode_reward_min": -655.6251498608694, "timesteps_since_restore": 1749600, "num_metric_batches_dropped": 0, "time_since_restore": 45045.66698074341, "episode_reward_max": -463.66404875932346, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1749600, "default": {"kl": 0.009831800125539303, "policy_loss": -0.12551923096179962, "vf_loss": 280.6243896484375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9521157145500183, "entropy": 5.264781475067139, "cur_lr": 4.999999873689376e-05, "total_loss": 280.5137939453125}, "load_time_ms": 0.602, "num_steps_sampled": 1749600, "grad_time_ms": 692.29, "update_time_ms": 2.504, "sample_time_ms": 33535.633}, "date": "2025-08-31_04-41-34", "hostname": "cda-server-4", "time_this_iter_s": 35.202796936035156, "episodes_total": 8748, "timestamp": 1756608094, "node_ip": "10.157.146.4", "done": false, "time_total_s": 45045.66698074341, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1459, "episode_reward_mean": -604.5254220655613, "training_iteration": 1459, "timesteps_total": 1750800, "policy_reward_mean": {}, "episode_reward_min": -651.9663945030645, "timesteps_since_restore": 1750800, "num_metric_batches_dropped": 0, "time_since_restore": 45081.334633111954, "episode_reward_max": -463.66404875932346, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1750800, "default": {"kl": 0.013474483042955399, "policy_loss": -0.16092140972614288, "vf_loss": 77.0045166015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9912751317024231, "entropy": 5.431766986846924, "cur_lr": 4.999999873689376e-05, "total_loss": 76.86405181884766}, "load_time_ms": 0.586, "num_steps_sampled": 1750800, "grad_time_ms": 693.492, "update_time_ms": 2.508, "sample_time_ms": 33747.422}, "date": "2025-08-31_04-42-10", "hostname": "cda-server-4", "time_this_iter_s": 35.66765236854553, "episodes_total": 8754, "timestamp": 1756608130, "node_ip": "10.157.146.4", "done": false, "time_total_s": 45081.334633111954, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1460, "episode_reward_mean": -605.770457965148, "training_iteration": 1460, "timesteps_total": 1752000, "policy_reward_mean": {}, "episode_reward_min": -651.9663945030645, "timesteps_since_restore": 1752000, "num_metric_batches_dropped": 0, "time_since_restore": 45115.30931854248, "episode_reward_max": -463.66404875932346, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1752000, "default": {"kl": 0.009239507839083672, "policy_loss": -0.13408811390399933, "vf_loss": 251.62217712402344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9747449159622192, "entropy": 5.751748561859131, "cur_lr": 4.999999873689376e-05, "total_loss": 251.5021209716797}, "load_time_ms": 0.58, "num_steps_sampled": 1752000, "grad_time_ms": 693.454, "update_time_ms": 2.479, "sample_time_ms": 33745.393}, "date": "2025-08-31_04-42-44", "hostname": "cda-server-4", "time_this_iter_s": 33.97468543052673, "episodes_total": 8760, "timestamp": 1756608164, "node_ip": "10.157.146.4", "done": false, "time_total_s": 45115.30931854248, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1461, "episode_reward_mean": -608.1836733657815, "training_iteration": 1461, "timesteps_total": 1753200, "policy_reward_mean": {}, "episode_reward_min": -651.9663945030645, "timesteps_since_restore": 1753200, "num_metric_batches_dropped": 0, "time_since_restore": 45149.73795056343, "episode_reward_max": -463.66404875932346, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1753200, "default": {"kl": 0.009317003190517426, "policy_loss": -0.13977709412574768, "vf_loss": 87.12284851074219, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9879345297813416, "entropy": 5.667367935180664, "cur_lr": 4.999999873689376e-05, "total_loss": 86.99722290039062}, "load_time_ms": 0.58, "num_steps_sampled": 1753200, "grad_time_ms": 691.622, "update_time_ms": 2.488, "sample_time_ms": 33704.208}, "date": "2025-08-31_04-43-18", "hostname": "cda-server-4", "time_this_iter_s": 34.42863202095032, "episodes_total": 8766, "timestamp": 1756608198, "node_ip": "10.157.146.4", "done": false, "time_total_s": 45149.73795056343, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1462, "episode_reward_mean": -608.4962740694638, "training_iteration": 1462, "timesteps_total": 1754400, "policy_reward_mean": {}, "episode_reward_min": -651.9663945030645, "timesteps_since_restore": 1754400, "num_metric_batches_dropped": 0, "time_since_restore": 45184.07434988022, "episode_reward_max": -463.66404875932346, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1754400, "default": {"kl": 0.009672369807958603, "policy_loss": -0.1484033614397049, "vf_loss": 205.59645080566406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9705562591552734, "entropy": 5.3987650871276855, "cur_lr": 4.999999873689376e-05, "total_loss": 205.46273803710938}, "load_time_ms": 0.58, "num_steps_sampled": 1754400, "grad_time_ms": 692.683, "update_time_ms": 2.454, "sample_time_ms": 33683.75}, "date": "2025-08-31_04-43-52", "hostname": "cda-server-4", "time_this_iter_s": 34.33639931678772, "episodes_total": 8772, "timestamp": 1756608232, "node_ip": "10.157.146.4", "done": false, "time_total_s": 45184.07434988022, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1463, "episode_reward_mean": -608.8770731195375, "training_iteration": 1463, "timesteps_total": 1755600, "policy_reward_mean": {}, "episode_reward_min": -651.9663945030645, "timesteps_since_restore": 1755600, "num_metric_batches_dropped": 0, "time_since_restore": 45218.669909477234, "episode_reward_max": -463.66404875932346, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1755600, "default": {"kl": 0.01215514075011015, "policy_loss": -0.14766961336135864, "vf_loss": 34.028621673583984, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9950439929962158, "entropy": 5.5124382972717285, "cur_lr": 4.999999873689376e-05, "total_loss": 33.899410247802734}, "load_time_ms": 0.584, "num_steps_sampled": 1755600, "grad_time_ms": 698.128, "update_time_ms": 2.42, "sample_time_ms": 33806.356}, "date": "2025-08-31_04-44-27", "hostname": "cda-server-4", "time_this_iter_s": 34.59555959701538, "episodes_total": 8778, "timestamp": 1756608267, "node_ip": "10.157.146.4", "done": false, "time_total_s": 45218.669909477234, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1464, "episode_reward_mean": -608.2820256522086, "training_iteration": 1464, "timesteps_total": 1756800, "policy_reward_mean": {}, "episode_reward_min": -662.483519154692, "timesteps_since_restore": 1756800, "num_metric_batches_dropped": 0, "time_since_restore": 45252.87015748024, "episode_reward_max": -463.66404875932346, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1756800, "default": {"kl": 0.00956699438393116, "policy_loss": -0.1208624467253685, "vf_loss": 609.160400390625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9520807266235352, "entropy": 5.39410924911499, "cur_lr": 4.999999873689376e-05, "total_loss": 609.0541381835938}, "load_time_ms": 0.574, "num_steps_sampled": 1756800, "grad_time_ms": 705.333, "update_time_ms": 2.508, "sample_time_ms": 33772.104}, "date": "2025-08-31_04-45-01", "hostname": "cda-server-4", "time_this_iter_s": 34.20024800300598, "episodes_total": 8784, "timestamp": 1756608301, "node_ip": "10.157.146.4", "done": false, "time_total_s": 45252.87015748024, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1465, "episode_reward_mean": -609.3839132552774, "training_iteration": 1465, "timesteps_total": 1758000, "policy_reward_mean": {}, "episode_reward_min": -667.5222094718622, "timesteps_since_restore": 1758000, "num_metric_batches_dropped": 0, "time_since_restore": 45287.35700368881, "episode_reward_max": -463.66404875932346, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1758000, "default": {"kl": 0.008823893032968044, "policy_loss": -0.13451994955539703, "vf_loss": 89.94039916992188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9871202111244202, "entropy": 5.5067267417907715, "cur_lr": 4.999999873689376e-05, "total_loss": 89.81927490234375}, "load_time_ms": 0.612, "num_steps_sampled": 1758000, "grad_time_ms": 700.652, "update_time_ms": 2.598, "sample_time_ms": 33762.917}, "date": "2025-08-31_04-45-36", "hostname": "cda-server-4", "time_this_iter_s": 34.48684620857239, "episodes_total": 8790, "timestamp": 1756608336, "node_ip": "10.157.146.4", "done": false, "time_total_s": 45287.35700368881, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1466, "episode_reward_mean": -607.9267047855316, "training_iteration": 1466, "timesteps_total": 1759200, "policy_reward_mean": {}, "episode_reward_min": -667.5222094718622, "timesteps_since_restore": 1759200, "num_metric_batches_dropped": 0, "time_since_restore": 45321.36013364792, "episode_reward_max": -463.66404875932346, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1759200, "default": {"kl": 0.01025567576289177, "policy_loss": -0.1523650735616684, "vf_loss": 519.9422607421875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9408228397369385, "entropy": 5.491296768188477, "cur_lr": 4.999999873689376e-05, "total_loss": 519.805419921875}, "load_time_ms": 0.652, "num_steps_sampled": 1759200, "grad_time_ms": 686.775, "update_time_ms": 2.572, "sample_time_ms": 33741.198}, "date": "2025-08-31_04-46-10", "hostname": "cda-server-4", "time_this_iter_s": 34.003129959106445, "episodes_total": 8796, "timestamp": 1756608370, "node_ip": "10.157.146.4", "done": false, "time_total_s": 45321.36013364792, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1467, "episode_reward_mean": -608.5164929776013, "training_iteration": 1467, "timesteps_total": 1760400, "policy_reward_mean": {}, "episode_reward_min": -667.5222094718622, "timesteps_since_restore": 1760400, "num_metric_batches_dropped": 0, "time_since_restore": 45355.15184688568, "episode_reward_max": -463.66404875932346, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1760400, "default": {"kl": 0.010236711241304874, "policy_loss": -0.13318413496017456, "vf_loss": 182.7198486328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9811382293701172, "entropy": 5.450526714324951, "cur_lr": 4.999999873689376e-05, "total_loss": 182.6022186279297}, "load_time_ms": 0.678, "num_steps_sampled": 1760400, "grad_time_ms": 679.325, "update_time_ms": 2.501, "sample_time_ms": 33782.042}, "date": "2025-08-31_04-46-44", "hostname": "cda-server-4", "time_this_iter_s": 33.79171323776245, "episodes_total": 8802, "timestamp": 1756608404, "node_ip": "10.157.146.4", "done": false, "time_total_s": 45355.15184688568, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1468, "episode_reward_mean": -606.9514769638434, "training_iteration": 1468, "timesteps_total": 1761600, "policy_reward_mean": {}, "episode_reward_min": -667.5222094718622, "timesteps_since_restore": 1761600, "num_metric_batches_dropped": 0, "time_since_restore": 45389.66070532799, "episode_reward_max": -463.66404875932346, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1761600, "default": {"kl": 0.01117264200001955, "policy_loss": -0.13916081190109253, "vf_loss": 245.12896728515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9782609939575195, "entropy": 5.583625793457031, "cur_lr": 4.999999873689376e-05, "total_loss": 245.0067596435547}, "load_time_ms": 0.712, "num_steps_sampled": 1761600, "grad_time_ms": 658.53, "update_time_ms": 2.486, "sample_time_ms": 33733.309}, "date": "2025-08-31_04-47-18", "hostname": "cda-server-4", "time_this_iter_s": 34.50885844230652, "episodes_total": 8808, "timestamp": 1756608438, "node_ip": "10.157.146.4", "done": false, "time_total_s": 45389.66070532799, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1469, "episode_reward_mean": -609.039703996945, "training_iteration": 1469, "timesteps_total": 1762800, "policy_reward_mean": {}, "episode_reward_min": -672.8575638015141, "timesteps_since_restore": 1762800, "num_metric_batches_dropped": 0, "time_since_restore": 45424.94392776489, "episode_reward_max": -473.0313583598007, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1762800, "default": {"kl": 0.012481050565838814, "policy_loss": -0.1719117909669876, "vf_loss": 580.239013671875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9540229439735413, "entropy": 5.783524036407471, "cur_lr": 4.999999873689376e-05, "total_loss": 580.0861206054688}, "load_time_ms": 0.716, "num_steps_sampled": 1762800, "grad_time_ms": 633.115, "update_time_ms": 2.485, "sample_time_ms": 33720.26}, "date": "2025-08-31_04-47-53", "hostname": "cda-server-4", "time_this_iter_s": 35.28322243690491, "episodes_total": 8814, "timestamp": 1756608473, "node_ip": "10.157.146.4", "done": false, "time_total_s": 45424.94392776489, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1470, "episode_reward_mean": -610.0395548069508, "training_iteration": 1470, "timesteps_total": 1764000, "policy_reward_mean": {}, "episode_reward_min": -672.8575638015141, "timesteps_since_restore": 1764000, "num_metric_batches_dropped": 0, "time_since_restore": 45459.94922041893, "episode_reward_max": -473.0313583598007, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1764000, "default": {"kl": 0.011298183351755142, "policy_loss": -0.1295510083436966, "vf_loss": 295.9984130859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9590640664100647, "entropy": 5.638167381286621, "cur_lr": 4.999999873689376e-05, "total_loss": 295.88604736328125}, "load_time_ms": 0.72, "num_steps_sampled": 1764000, "grad_time_ms": 617.193, "update_time_ms": 2.55, "sample_time_ms": 33839.212}, "date": "2025-08-31_04-48-28", "hostname": "cda-server-4", "time_this_iter_s": 35.005292654037476, "episodes_total": 8820, "timestamp": 1756608508, "node_ip": "10.157.146.4", "done": false, "time_total_s": 45459.94922041893, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1471, "episode_reward_mean": -610.7295275381534, "training_iteration": 1471, "timesteps_total": 1765200, "policy_reward_mean": {}, "episode_reward_min": -672.8575638015141, "timesteps_since_restore": 1765200, "num_metric_batches_dropped": 0, "time_since_restore": 45493.94675350189, "episode_reward_max": -473.0313583598007, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1765200, "default": {"kl": 0.010271487757563591, "policy_loss": -0.13785207271575928, "vf_loss": 342.2023620605469, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9596565961837769, "entropy": 5.263651371002197, "cur_lr": 4.999999873689376e-05, "total_loss": 342.08013916015625}, "load_time_ms": 0.72, "num_steps_sampled": 1765200, "grad_time_ms": 610.001, "update_time_ms": 2.55, "sample_time_ms": 33803.137}, "date": "2025-08-31_04-49-03", "hostname": "cda-server-4", "time_this_iter_s": 33.997533082962036, "episodes_total": 8826, "timestamp": 1756608543, "node_ip": "10.157.146.4", "done": false, "time_total_s": 45493.94675350189, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1472, "episode_reward_mean": -612.1895345231796, "training_iteration": 1472, "timesteps_total": 1766400, "policy_reward_mean": {}, "episode_reward_min": -672.8575638015141, "timesteps_since_restore": 1766400, "num_metric_batches_dropped": 0, "time_since_restore": 45529.49606466293, "episode_reward_max": -473.0313583598007, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1766400, "default": {"kl": 0.00875945296138525, "policy_loss": -0.10861315578222275, "vf_loss": 168.60317993164062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9724093675613403, "entropy": 5.898658752441406, "cur_lr": 4.999999873689376e-05, "total_loss": 168.5078582763672}, "load_time_ms": 0.72, "num_steps_sampled": 1766400, "grad_time_ms": 630.793, "update_time_ms": 2.554, "sample_time_ms": 33903.71}, "date": "2025-08-31_04-49-38", "hostname": "cda-server-4", "time_this_iter_s": 35.54931116104126, "episodes_total": 8832, "timestamp": 1756608578, "node_ip": "10.157.146.4", "done": false, "time_total_s": 45529.49606466293, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1473, "episode_reward_mean": -609.5643437360309, "training_iteration": 1473, "timesteps_total": 1767600, "policy_reward_mean": {}, "episode_reward_min": -672.8575638015141, "timesteps_since_restore": 1767600, "num_metric_batches_dropped": 0, "time_since_restore": 45565.09605097771, "episode_reward_max": -473.0313583598007, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1767600, "default": {"kl": 0.011532057076692581, "policy_loss": -0.1660352349281311, "vf_loss": 134.9496307373047, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.985210120677948, "entropy": 5.327062129974365, "cur_lr": 4.999999873689376e-05, "total_loss": 134.8011016845703}, "load_time_ms": 0.716, "num_steps_sampled": 1767600, "grad_time_ms": 632.557, "update_time_ms": 2.58, "sample_time_ms": 34002.495}, "date": "2025-08-31_04-50-14", "hostname": "cda-server-4", "time_this_iter_s": 35.59998631477356, "episodes_total": 8838, "timestamp": 1756608614, "node_ip": "10.157.146.4", "done": false, "time_total_s": 45565.09605097771, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1474, "episode_reward_mean": -609.1334504788647, "training_iteration": 1474, "timesteps_total": 1768800, "policy_reward_mean": {}, "episode_reward_min": -672.8575638015141, "timesteps_since_restore": 1768800, "num_metric_batches_dropped": 0, "time_since_restore": 45599.30842781067, "episode_reward_max": -473.0313583598007, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1768800, "default": {"kl": 0.011926252394914627, "policy_loss": -0.12575678527355194, "vf_loss": 302.6756896972656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9774349927902222, "entropy": 5.306881427764893, "cur_lr": 4.999999873689376e-05, "total_loss": 302.56805419921875}, "load_time_ms": 0.74, "num_steps_sampled": 1768800, "grad_time_ms": 627.703, "update_time_ms": 2.541, "sample_time_ms": 34008.538}, "date": "2025-08-31_04-50-48", "hostname": "cda-server-4", "time_this_iter_s": 34.212376832962036, "episodes_total": 8844, "timestamp": 1756608648, "node_ip": "10.157.146.4", "done": false, "time_total_s": 45599.30842781067, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1475, "episode_reward_mean": -609.4278757948567, "training_iteration": 1475, "timesteps_total": 1770000, "policy_reward_mean": {}, "episode_reward_min": -672.8575638015141, "timesteps_since_restore": 1770000, "num_metric_batches_dropped": 0, "time_since_restore": 45633.14013314247, "episode_reward_max": -473.0313583598007, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1770000, "default": {"kl": 0.008559424430131912, "policy_loss": -0.11554078012704849, "vf_loss": 59.34626007080078, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9919210076332092, "entropy": 5.4101362228393555, "cur_lr": 4.999999873689376e-05, "total_loss": 59.24372100830078}, "load_time_ms": 0.709, "num_steps_sampled": 1770000, "grad_time_ms": 631.522, "update_time_ms": 2.479, "sample_time_ms": 33939.326}, "date": "2025-08-31_04-51-22", "hostname": "cda-server-4", "time_this_iter_s": 33.83170533180237, "episodes_total": 8850, "timestamp": 1756608682, "node_ip": "10.157.146.4", "done": false, "time_total_s": 45633.14013314247, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1476, "episode_reward_mean": -609.248286417235, "training_iteration": 1476, "timesteps_total": 1771200, "policy_reward_mean": {}, "episode_reward_min": -672.8575638015141, "timesteps_since_restore": 1771200, "num_metric_batches_dropped": 0, "time_since_restore": 45668.34597635269, "episode_reward_max": -473.0313583598007, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1771200, "default": {"kl": 0.009729682467877865, "policy_loss": -0.13776545226573944, "vf_loss": 64.69970703125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9928585886955261, "entropy": 5.460093021392822, "cur_lr": 4.999999873689376e-05, "total_loss": 64.57672882080078}, "load_time_ms": 0.675, "num_steps_sampled": 1771200, "grad_time_ms": 632.813, "update_time_ms": 2.503, "sample_time_ms": 34058.433}, "date": "2025-08-31_04-51-57", "hostname": "cda-server-4", "time_this_iter_s": 35.20584321022034, "episodes_total": 8856, "timestamp": 1756608717, "node_ip": "10.157.146.4", "done": false, "time_total_s": 45668.34597635269, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1477, "episode_reward_mean": -607.1313331586982, "training_iteration": 1477, "timesteps_total": 1772400, "policy_reward_mean": {}, "episode_reward_min": -672.8575638015141, "timesteps_since_restore": 1772400, "num_metric_batches_dropped": 0, "time_since_restore": 45703.7761452198, "episode_reward_max": -462.6674575047815, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1772400, "default": {"kl": 0.01083456166088581, "policy_loss": -0.14156122505664825, "vf_loss": 165.20101928710938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.984867513179779, "entropy": 5.271298408508301, "cur_lr": 4.999999873689376e-05, "total_loss": 165.075927734375}, "load_time_ms": 0.646, "num_steps_sampled": 1772400, "grad_time_ms": 621.096, "update_time_ms": 2.528, "sample_time_ms": 34233.994}, "date": "2025-08-31_04-52-32", "hostname": "cda-server-4", "time_this_iter_s": 35.430168867111206, "episodes_total": 8862, "timestamp": 1756608752, "node_ip": "10.157.146.4", "done": false, "time_total_s": 45703.7761452198, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1478, "episode_reward_mean": -607.3086244974799, "training_iteration": 1478, "timesteps_total": 1773600, "policy_reward_mean": {}, "episode_reward_min": -672.8575638015141, "timesteps_since_restore": 1773600, "num_metric_batches_dropped": 0, "time_since_restore": 45738.335705041885, "episode_reward_max": -462.6674575047815, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1773600, "default": {"kl": 0.013514291495084763, "policy_loss": -0.16276003420352936, "vf_loss": 1232.24365234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9517533779144287, "entropy": 5.646003246307373, "cur_lr": 4.999999873689376e-05, "total_loss": 1232.1014404296875}, "load_time_ms": 0.645, "num_steps_sampled": 1773600, "grad_time_ms": 637.504, "update_time_ms": 2.565, "sample_time_ms": 34222.618}, "date": "2025-08-31_04-53-07", "hostname": "cda-server-4", "time_this_iter_s": 34.55955982208252, "episodes_total": 8868, "timestamp": 1756608787, "node_ip": "10.157.146.4", "done": false, "time_total_s": 45738.335705041885, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1479, "episode_reward_mean": -608.2534561511288, "training_iteration": 1479, "timesteps_total": 1774800, "policy_reward_mean": {}, "episode_reward_min": -672.8575638015141, "timesteps_since_restore": 1774800, "num_metric_batches_dropped": 0, "time_since_restore": 45773.08282971382, "episode_reward_max": -462.6674575047815, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1774800, "default": {"kl": 0.009846199303865433, "policy_loss": -0.14229875802993774, "vf_loss": 292.0986022949219, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9680955410003662, "entropy": 5.681943893432617, "cur_lr": 4.999999873689376e-05, "total_loss": 291.9713134765625}, "load_time_ms": 0.647, "num_steps_sampled": 1774800, "grad_time_ms": 661.957, "update_time_ms": 2.503, "sample_time_ms": 34144.574}, "date": "2025-08-31_04-53-42", "hostname": "cda-server-4", "time_this_iter_s": 34.747124671936035, "episodes_total": 8874, "timestamp": 1756608822, "node_ip": "10.157.146.4", "done": false, "time_total_s": 45773.08282971382, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1480, "episode_reward_mean": -607.3470332471092, "training_iteration": 1480, "timesteps_total": 1776000, "policy_reward_mean": {}, "episode_reward_min": -672.8575638015141, "timesteps_since_restore": 1776000, "num_metric_batches_dropped": 0, "time_since_restore": 45808.15754079819, "episode_reward_max": -462.6674575047815, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1776000, "default": {"kl": 0.008013843558728695, "policy_loss": -0.1316901594400406, "vf_loss": 188.15740966796875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9826609492301941, "entropy": 5.537345886230469, "cur_lr": 4.999999873689376e-05, "total_loss": 188.0378875732422}, "load_time_ms": 0.675, "num_steps_sampled": 1776000, "grad_time_ms": 678.443, "update_time_ms": 2.458, "sample_time_ms": 34134.983}, "date": "2025-08-31_04-54-17", "hostname": "cda-server-4", "time_this_iter_s": 35.074711084365845, "episodes_total": 8880, "timestamp": 1756608857, "node_ip": "10.157.146.4", "done": false, "time_total_s": 45808.15754079819, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1481, "episode_reward_mean": -607.4782863969568, "training_iteration": 1481, "timesteps_total": 1777200, "policy_reward_mean": {}, "episode_reward_min": -672.8575638015141, "timesteps_since_restore": 1777200, "num_metric_batches_dropped": 0, "time_since_restore": 45842.16433477402, "episode_reward_max": -462.6674575047815, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1777200, "default": {"kl": 0.01117917150259018, "policy_loss": -0.14612412452697754, "vf_loss": 125.52200317382812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9853203892707825, "entropy": 5.300523281097412, "cur_lr": 4.999999873689376e-05, "total_loss": 125.39285278320312}, "load_time_ms": 0.67, "num_steps_sampled": 1777200, "grad_time_ms": 686.998, "update_time_ms": 2.492, "sample_time_ms": 34127.511}, "date": "2025-08-31_04-54-51", "hostname": "cda-server-4", "time_this_iter_s": 34.00679397583008, "episodes_total": 8886, "timestamp": 1756608891, "node_ip": "10.157.146.4", "done": false, "time_total_s": 45842.16433477402, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1482, "episode_reward_mean": -609.3572831503802, "training_iteration": 1482, "timesteps_total": 1778400, "policy_reward_mean": {}, "episode_reward_min": -672.8575638015141, "timesteps_since_restore": 1778400, "num_metric_batches_dropped": 0, "time_since_restore": 45876.05537176132, "episode_reward_max": -462.6674575047815, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1778400, "default": {"kl": 0.01099051907658577, "policy_loss": -0.1391950249671936, "vf_loss": 364.7057800292969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9779819846153259, "entropy": 5.455266952514648, "cur_lr": 4.999999873689376e-05, "total_loss": 364.5832824707031}, "load_time_ms": 0.67, "num_steps_sampled": 1778400, "grad_time_ms": 684.944, "update_time_ms": 2.508, "sample_time_ms": 33963.738}, "date": "2025-08-31_04-55-25", "hostname": "cda-server-4", "time_this_iter_s": 33.89103698730469, "episodes_total": 8892, "timestamp": 1756608925, "node_ip": "10.157.146.4", "done": false, "time_total_s": 45876.05537176132, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1483, "episode_reward_mean": -609.6786040137436, "training_iteration": 1483, "timesteps_total": 1779600, "policy_reward_mean": {}, "episode_reward_min": -672.8575638015141, "timesteps_since_restore": 1779600, "num_metric_batches_dropped": 0, "time_since_restore": 45910.76450943947, "episode_reward_max": -462.6674575047815, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1779600, "default": {"kl": 0.010146531276404858, "policy_loss": -0.130126953125, "vf_loss": 229.4781951904297, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9834893345832825, "entropy": 5.295177936553955, "cur_lr": 4.999999873689376e-05, "total_loss": 229.36346435546875}, "load_time_ms": 0.666, "num_steps_sampled": 1779600, "grad_time_ms": 679.674, "update_time_ms": 2.566, "sample_time_ms": 33879.807}, "date": "2025-08-31_04-56-00", "hostname": "cda-server-4", "time_this_iter_s": 34.70913767814636, "episodes_total": 8898, "timestamp": 1756608960, "node_ip": "10.157.146.4", "done": false, "time_total_s": 45910.76450943947, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1484, "episode_reward_mean": -610.2208851983138, "training_iteration": 1484, "timesteps_total": 1780800, "policy_reward_mean": {}, "episode_reward_min": -672.8575638015141, "timesteps_since_restore": 1780800, "num_metric_batches_dropped": 0, "time_since_restore": 45945.90643119812, "episode_reward_max": -462.6674575047815, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1780800, "default": {"kl": 0.011535950936377048, "policy_loss": -0.15536464750766754, "vf_loss": 32.26128005981445, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9961627125740051, "entropy": 5.25954008102417, "cur_lr": 4.999999873689376e-05, "total_loss": 32.12343978881836}, "load_time_ms": 0.652, "num_steps_sampled": 1780800, "grad_time_ms": 683.225, "update_time_ms": 2.631, "sample_time_ms": 33969.216}, "date": "2025-08-31_04-56-35", "hostname": "cda-server-4", "time_this_iter_s": 35.14192175865173, "episodes_total": 8904, "timestamp": 1756608995, "node_ip": "10.157.146.4", "done": false, "time_total_s": 45945.90643119812, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1485, "episode_reward_mean": -610.0143940549873, "training_iteration": 1485, "timesteps_total": 1782000, "policy_reward_mean": {}, "episode_reward_min": -672.8575638015141, "timesteps_since_restore": 1782000, "num_metric_batches_dropped": 0, "time_since_restore": 45980.28030228615, "episode_reward_max": -462.6674575047815, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1782000, "default": {"kl": 0.012798336334526539, "policy_loss": -0.14776365458965302, "vf_loss": 509.1468200683594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9803041815757751, "entropy": 5.103259086608887, "cur_lr": 4.999999873689376e-05, "total_loss": 509.01849365234375}, "load_time_ms": 0.644, "num_steps_sampled": 1782000, "grad_time_ms": 687.14, "update_time_ms": 2.591, "sample_time_ms": 34019.637}, "date": "2025-08-31_04-57-09", "hostname": "cda-server-4", "time_this_iter_s": 34.373871088027954, "episodes_total": 8910, "timestamp": 1756609029, "node_ip": "10.157.146.4", "done": false, "time_total_s": 45980.28030228615, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1486, "episode_reward_mean": -609.691644527305, "training_iteration": 1486, "timesteps_total": 1783200, "policy_reward_mean": {}, "episode_reward_min": -663.7686039297481, "timesteps_since_restore": 1783200, "num_metric_batches_dropped": 0, "time_since_restore": 46014.551080703735, "episode_reward_max": -462.6674575047815, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1783200, "default": {"kl": 0.01109338365495205, "policy_loss": -0.14245104789733887, "vf_loss": 189.13812255859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9864632487297058, "entropy": 5.396353721618652, "cur_lr": 4.999999873689376e-05, "total_loss": 189.0125274658203}, "load_time_ms": 0.655, "num_steps_sampled": 1783200, "grad_time_ms": 698.944, "update_time_ms": 2.574, "sample_time_ms": 33914.291}, "date": "2025-08-31_04-57-43", "hostname": "cda-server-4", "time_this_iter_s": 34.27077841758728, "episodes_total": 8916, "timestamp": 1756609063, "node_ip": "10.157.146.4", "done": false, "time_total_s": 46014.551080703735, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1487, "episode_reward_mean": -609.6350552528546, "training_iteration": 1487, "timesteps_total": 1784400, "policy_reward_mean": {}, "episode_reward_min": -659.8037417155663, "timesteps_since_restore": 1784400, "num_metric_batches_dropped": 0, "time_since_restore": 46049.291848897934, "episode_reward_max": -462.6674575047815, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1784400, "default": {"kl": 0.009181035682559013, "policy_loss": -0.1274692714214325, "vf_loss": 60.04166030883789, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9949874877929688, "entropy": 5.402456283569336, "cur_lr": 4.999999873689376e-05, "total_loss": 59.92814254760742}, "load_time_ms": 0.659, "num_steps_sampled": 1784400, "grad_time_ms": 717.252, "update_time_ms": 2.592, "sample_time_ms": 33827.117}, "date": "2025-08-31_04-58-18", "hostname": "cda-server-4", "time_this_iter_s": 34.74076819419861, "episodes_total": 8922, "timestamp": 1756609098, "node_ip": "10.157.146.4", "done": false, "time_total_s": 46049.291848897934, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1488, "episode_reward_mean": -609.7288961402542, "training_iteration": 1488, "timesteps_total": 1785600, "policy_reward_mean": {}, "episode_reward_min": -659.8037417155663, "timesteps_since_restore": 1785600, "num_metric_batches_dropped": 0, "time_since_restore": 46084.59340882301, "episode_reward_max": -462.6674575047815, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1785600, "default": {"kl": 0.011208336800336838, "policy_loss": -0.13893303275108337, "vf_loss": 607.2048950195312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9570576548576355, "entropy": 5.802915573120117, "cur_lr": 4.999999873689376e-05, "total_loss": 607.0830078125}, "load_time_ms": 0.635, "num_steps_sampled": 1785600, "grad_time_ms": 720.546, "update_time_ms": 2.489, "sample_time_ms": 33898.26}, "date": "2025-08-31_04-58-53", "hostname": "cda-server-4", "time_this_iter_s": 35.301559925079346, "episodes_total": 8928, "timestamp": 1756609133, "node_ip": "10.157.146.4", "done": false, "time_total_s": 46084.59340882301, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1489, "episode_reward_mean": -611.050037815303, "training_iteration": 1489, "timesteps_total": 1786800, "policy_reward_mean": {}, "episode_reward_min": -659.8037417155663, "timesteps_since_restore": 1786800, "num_metric_batches_dropped": 0, "time_since_restore": 46118.57941579819, "episode_reward_max": -462.6674575047815, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1786800, "default": {"kl": 0.007860904559493065, "policy_loss": -0.12343461066484451, "vf_loss": 290.4691467285156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9722506999969482, "entropy": 5.258369445800781, "cur_lr": 4.999999873689376e-05, "total_loss": 290.357666015625}, "load_time_ms": 0.635, "num_steps_sampled": 1786800, "grad_time_ms": 720.954, "update_time_ms": 2.566, "sample_time_ms": 33821.697}, "date": "2025-08-31_04-59-27", "hostname": "cda-server-4", "time_this_iter_s": 33.98600697517395, "episodes_total": 8934, "timestamp": 1756609167, "node_ip": "10.157.146.4", "done": false, "time_total_s": 46118.57941579819, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1490, "episode_reward_mean": -611.7830058174557, "training_iteration": 1490, "timesteps_total": 1788000, "policy_reward_mean": {}, "episode_reward_min": -659.8037417155663, "timesteps_since_restore": 1788000, "num_metric_batches_dropped": 0, "time_since_restore": 46153.12497019768, "episode_reward_max": -462.6674575047815, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1788000, "default": {"kl": 0.008997712284326553, "policy_loss": -0.1115848645567894, "vf_loss": 367.4471435546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9713555574417114, "entropy": 5.375598430633545, "cur_lr": 4.999999873689376e-05, "total_loss": 367.3492431640625}, "load_time_ms": 0.607, "num_steps_sampled": 1788000, "grad_time_ms": 711.164, "update_time_ms": 2.611, "sample_time_ms": 33778.592}, "date": "2025-08-31_05-00-02", "hostname": "cda-server-4", "time_this_iter_s": 34.545554399490356, "episodes_total": 8940, "timestamp": 1756609202, "node_ip": "10.157.146.4", "done": false, "time_total_s": 46153.12497019768, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1491, "episode_reward_mean": -611.179528756356, "training_iteration": 1491, "timesteps_total": 1789200, "policy_reward_mean": {}, "episode_reward_min": -659.8037417155663, "timesteps_since_restore": 1789200, "num_metric_batches_dropped": 0, "time_since_restore": 46187.846499443054, "episode_reward_max": -462.6674575047815, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1789200, "default": {"kl": 0.01110118068754673, "policy_loss": -0.17120054364204407, "vf_loss": 685.114501953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9171757102012634, "entropy": 6.008673667907715, "cur_lr": 4.999999873689376e-05, "total_loss": 684.960205078125}, "load_time_ms": 0.61, "num_steps_sampled": 1789200, "grad_time_ms": 708.374, "update_time_ms": 2.59, "sample_time_ms": 33852.778}, "date": "2025-08-31_05-00-37", "hostname": "cda-server-4", "time_this_iter_s": 34.72152924537659, "episodes_total": 8946, "timestamp": 1756609237, "node_ip": "10.157.146.4", "done": false, "time_total_s": 46187.846499443054, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1492, "episode_reward_mean": -609.8110707023501, "training_iteration": 1492, "timesteps_total": 1790400, "policy_reward_mean": {}, "episode_reward_min": -659.8037417155663, "timesteps_since_restore": 1790400, "num_metric_batches_dropped": 0, "time_since_restore": 46222.88276267052, "episode_reward_max": -462.6674575047815, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1790400, "default": {"kl": 0.01041744090616703, "policy_loss": -0.10070391744375229, "vf_loss": 527.4688110351562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9427624940872192, "entropy": 5.067842483520508, "cur_lr": 4.999999873689376e-05, "total_loss": 527.3839721679688}, "load_time_ms": 0.609, "num_steps_sampled": 1790400, "grad_time_ms": 686.802, "update_time_ms": 2.717, "sample_time_ms": 33988.732}, "date": "2025-08-31_05-01-12", "hostname": "cda-server-4", "time_this_iter_s": 35.03626322746277, "episodes_total": 8952, "timestamp": 1756609272, "node_ip": "10.157.146.4", "done": false, "time_total_s": 46222.88276267052, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1493, "episode_reward_mean": -610.4946749875778, "training_iteration": 1493, "timesteps_total": 1791600, "policy_reward_mean": {}, "episode_reward_min": -659.8037417155663, "timesteps_since_restore": 1791600, "num_metric_batches_dropped": 0, "time_since_restore": 46256.15670347214, "episode_reward_max": -462.6674575047815, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1791600, "default": {"kl": 0.007485987618565559, "policy_loss": -0.109304279088974, "vf_loss": 453.5342102050781, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9599387645721436, "entropy": 5.427022933959961, "cur_lr": 4.999999873689376e-05, "total_loss": 453.4362487792969}, "load_time_ms": 0.646, "num_steps_sampled": 1791600, "grad_time_ms": 686.408, "update_time_ms": 2.621, "sample_time_ms": 33845.633}, "date": "2025-08-31_05-01-45", "hostname": "cda-server-4", "time_this_iter_s": 33.27394080162048, "episodes_total": 8958, "timestamp": 1756609305, "node_ip": "10.157.146.4", "done": false, "time_total_s": 46256.15670347214, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1494, "episode_reward_mean": -612.1780194366125, "training_iteration": 1494, "timesteps_total": 1792800, "policy_reward_mean": {}, "episode_reward_min": -659.8037417155663, "timesteps_since_restore": 1792800, "num_metric_batches_dropped": 0, "time_since_restore": 46290.90499806404, "episode_reward_max": -492.55955450520065, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1792800, "default": {"kl": 0.008904147893190384, "policy_loss": -0.12061231583356857, "vf_loss": 176.99310302734375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9851335883140564, "entropy": 5.266918659210205, "cur_lr": 4.999999873689376e-05, "total_loss": 176.88601684570312}, "load_time_ms": 0.65, "num_steps_sampled": 1792800, "grad_time_ms": 688.907, "update_time_ms": 2.614, "sample_time_ms": 33803.696}, "date": "2025-08-31_05-02-20", "hostname": "cda-server-4", "time_this_iter_s": 34.74829459190369, "episodes_total": 8964, "timestamp": 1756609340, "node_ip": "10.157.146.4", "done": false, "time_total_s": 46290.90499806404, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1495, "episode_reward_mean": -611.2719502580203, "training_iteration": 1495, "timesteps_total": 1794000, "policy_reward_mean": {}, "episode_reward_min": -659.2345079926405, "timesteps_since_restore": 1794000, "num_metric_batches_dropped": 0, "time_since_restore": 46326.03776025772, "episode_reward_max": -492.55955450520065, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1794000, "default": {"kl": 0.011089742183685303, "policy_loss": -0.15367253124713898, "vf_loss": 266.7143859863281, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9854206442832947, "entropy": 5.38696813583374, "cur_lr": 4.999999873689376e-05, "total_loss": 266.5775451660156}, "load_time_ms": 0.655, "num_steps_sampled": 1794000, "grad_time_ms": 692.761, "update_time_ms": 2.676, "sample_time_ms": 33875.555}, "date": "2025-08-31_05-02-55", "hostname": "cda-server-4", "time_this_iter_s": 35.13276219367981, "episodes_total": 8970, "timestamp": 1756609375, "node_ip": "10.157.146.4", "done": false, "time_total_s": 46326.03776025772, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1496, "episode_reward_mean": -611.2656689745969, "training_iteration": 1496, "timesteps_total": 1795200, "policy_reward_mean": {}, "episode_reward_min": -659.2345079926405, "timesteps_since_restore": 1795200, "num_metric_batches_dropped": 0, "time_since_restore": 46359.65937876701, "episode_reward_max": -492.55955450520065, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1795200, "default": {"kl": 0.008670628070831299, "policy_loss": -0.122862309217453, "vf_loss": 300.7247314453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9725251793861389, "entropy": 5.035801410675049, "cur_lr": 4.999999873689376e-05, "total_loss": 300.6150207519531}, "load_time_ms": 0.64, "num_steps_sampled": 1795200, "grad_time_ms": 693.151, "update_time_ms": 2.686, "sample_time_ms": 33810.265}, "date": "2025-08-31_05-03-29", "hostname": "cda-server-4", "time_this_iter_s": 33.6216185092926, "episodes_total": 8976, "timestamp": 1756609409, "node_ip": "10.157.146.4", "done": false, "time_total_s": 46359.65937876701, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1497, "episode_reward_mean": -611.5314667561671, "training_iteration": 1497, "timesteps_total": 1796400, "policy_reward_mean": {}, "episode_reward_min": -659.2345079926405, "timesteps_since_restore": 1796400, "num_metric_batches_dropped": 0, "time_since_restore": 46394.24248337746, "episode_reward_max": -492.55955450520065, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1796400, "default": {"kl": 0.01182684488594532, "policy_loss": -0.16343443095684052, "vf_loss": 237.53170776367188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9785056710243225, "entropy": 5.37591552734375, "cur_lr": 4.999999873689376e-05, "total_loss": 237.38623046875}, "load_time_ms": 0.636, "num_steps_sampled": 1796400, "grad_time_ms": 688.968, "update_time_ms": 2.643, "sample_time_ms": 33798.603}, "date": "2025-08-31_05-04-03", "hostname": "cda-server-4", "time_this_iter_s": 34.583104610443115, "episodes_total": 8982, "timestamp": 1756609443, "node_ip": "10.157.146.4", "done": false, "time_total_s": 46394.24248337746, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1498, "episode_reward_mean": -611.9488184371878, "training_iteration": 1498, "timesteps_total": 1797600, "policy_reward_mean": {}, "episode_reward_min": -659.2345079926405, "timesteps_since_restore": 1797600, "num_metric_batches_dropped": 0, "time_since_restore": 46428.27960109711, "episode_reward_max": -492.55955450520065, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1797600, "default": {"kl": 0.008796478621661663, "policy_loss": -0.117092065513134, "vf_loss": 165.053955078125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9720194339752197, "entropy": 5.42594051361084, "cur_lr": 4.999999873689376e-05, "total_loss": 164.95025634765625}, "load_time_ms": 0.633, "num_steps_sampled": 1797600, "grad_time_ms": 678.599, "update_time_ms": 2.687, "sample_time_ms": 33682.494}, "date": "2025-08-31_05-04-37", "hostname": "cda-server-4", "time_this_iter_s": 34.03711771965027, "episodes_total": 8988, "timestamp": 1756609477, "node_ip": "10.157.146.4", "done": false, "time_total_s": 46428.27960109711, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1499, "episode_reward_mean": -610.9383667483621, "training_iteration": 1499, "timesteps_total": 1798800, "policy_reward_mean": {}, "episode_reward_min": -659.2345079926405, "timesteps_since_restore": 1798800, "num_metric_batches_dropped": 0, "time_since_restore": 46462.95826005936, "episode_reward_max": -492.55955450520065, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1798800, "default": {"kl": 0.010211457498371601, "policy_loss": -0.1218574196100235, "vf_loss": 477.32232666015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9773678183555603, "entropy": 5.234869003295898, "cur_lr": 4.999999873689376e-05, "total_loss": 477.2159729003906}, "load_time_ms": 0.63, "num_steps_sampled": 1798800, "grad_time_ms": 672.865, "update_time_ms": 2.621, "sample_time_ms": 33757.512}, "date": "2025-08-31_05-05-12", "hostname": "cda-server-4", "time_this_iter_s": 34.678658962249756, "episodes_total": 8994, "timestamp": 1756609512, "node_ip": "10.157.146.4", "done": false, "time_total_s": 46462.95826005936, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1500, "episode_reward_mean": -610.3673888652249, "training_iteration": 1500, "timesteps_total": 1800000, "policy_reward_mean": {}, "episode_reward_min": -659.2345079926405, "timesteps_since_restore": 1800000, "num_metric_batches_dropped": 0, "time_since_restore": 46496.981134176254, "episode_reward_max": -492.55955450520065, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1800000, "default": {"kl": 0.010028253309428692, "policy_loss": -0.12829409539699554, "vf_loss": 432.75860595703125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9438798427581787, "entropy": 5.116857528686523, "cur_lr": 4.999999873689376e-05, "total_loss": 432.6455078125}, "load_time_ms": 0.625, "num_steps_sampled": 1800000, "grad_time_ms": 676.135, "update_time_ms": 2.62, "sample_time_ms": 33701.947}, "date": "2025-08-31_05-05-46", "hostname": "cda-server-4", "time_this_iter_s": 34.02287411689758, "episodes_total": 9000, "timestamp": 1756609546, "node_ip": "10.157.146.4", "done": false, "time_total_s": 46496.981134176254, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1501, "episode_reward_mean": -609.9945915664186, "training_iteration": 1501, "timesteps_total": 1801200, "policy_reward_mean": {}, "episode_reward_min": -659.2345079926405, "timesteps_since_restore": 1801200, "num_metric_batches_dropped": 0, "time_since_restore": 46531.96143960953, "episode_reward_max": -492.55955450520065, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1801200, "default": {"kl": 0.010358382947742939, "policy_loss": -0.14664146304130554, "vf_loss": 40.051246643066406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9950997829437256, "entropy": 5.231073379516602, "cur_lr": 4.999999873689376e-05, "total_loss": 39.92033386230469}, "load_time_ms": 0.63, "num_steps_sampled": 1801200, "grad_time_ms": 674.402, "update_time_ms": 2.761, "sample_time_ms": 33729.416}, "date": "2025-08-31_05-06-21", "hostname": "cda-server-4", "time_this_iter_s": 34.980305433273315, "episodes_total": 9006, "timestamp": 1756609581, "node_ip": "10.157.146.4", "done": false, "time_total_s": 46531.96143960953, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1502, "episode_reward_mean": -612.1995908032466, "training_iteration": 1502, "timesteps_total": 1802400, "policy_reward_mean": {}, "episode_reward_min": -659.2345079926405, "timesteps_since_restore": 1802400, "num_metric_batches_dropped": 0, "time_since_restore": 46566.058361291885, "episode_reward_max": -492.55955450520065, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1802400, "default": {"kl": 0.011348685249686241, "policy_loss": -0.1471133828163147, "vf_loss": 66.15008544921875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9911714196205139, "entropy": 5.327556133270264, "cur_lr": 4.999999873689376e-05, "total_loss": 66.02021026611328}, "load_time_ms": 0.641, "num_steps_sampled": 1802400, "grad_time_ms": 677.861, "update_time_ms": 2.635, "sample_time_ms": 33632.132}, "date": "2025-08-31_05-06-55", "hostname": "cda-server-4", "time_this_iter_s": 34.09692168235779, "episodes_total": 9012, "timestamp": 1756609615, "node_ip": "10.157.146.4", "done": false, "time_total_s": 46566.058361291885, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1503, "episode_reward_mean": -613.0983161158784, "training_iteration": 1503, "timesteps_total": 1803600, "policy_reward_mean": {}, "episode_reward_min": -659.2345079926405, "timesteps_since_restore": 1803600, "num_metric_batches_dropped": 0, "time_since_restore": 46599.85985326767, "episode_reward_max": -492.55955450520065, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1803600, "default": {"kl": 0.01005211565643549, "policy_loss": -0.13979360461235046, "vf_loss": 127.43694305419922, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9859727025032043, "entropy": 5.289743423461914, "cur_lr": 4.999999873689376e-05, "total_loss": 127.31240844726562}, "load_time_ms": 0.607, "num_steps_sampled": 1803600, "grad_time_ms": 674.483, "update_time_ms": 2.652, "sample_time_ms": 33688.366}, "date": "2025-08-31_05-07-29", "hostname": "cda-server-4", "time_this_iter_s": 33.8014919757843, "episodes_total": 9018, "timestamp": 1756609649, "node_ip": "10.157.146.4", "done": false, "time_total_s": 46599.85985326767, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1504, "episode_reward_mean": -613.3236505530922, "training_iteration": 1504, "timesteps_total": 1804800, "policy_reward_mean": {}, "episode_reward_min": -659.2345079926405, "timesteps_since_restore": 1804800, "num_metric_batches_dropped": 0, "time_since_restore": 46633.62792420387, "episode_reward_max": -492.55955450520065, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1804800, "default": {"kl": 0.010018297471106052, "policy_loss": -0.14046713709831238, "vf_loss": 130.7348175048828, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9880592823028564, "entropy": 5.15358304977417, "cur_lr": 4.999999873689376e-05, "total_loss": 130.6095733642578}, "load_time_ms": 0.606, "num_steps_sampled": 1804800, "grad_time_ms": 673.884, "update_time_ms": 2.604, "sample_time_ms": 33591.087}, "date": "2025-08-31_05-08-03", "hostname": "cda-server-4", "time_this_iter_s": 33.768070936203, "episodes_total": 9024, "timestamp": 1756609683, "node_ip": "10.157.146.4", "done": false, "time_total_s": 46633.62792420387, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1505, "episode_reward_mean": -613.8132919594667, "training_iteration": 1505, "timesteps_total": 1806000, "policy_reward_mean": {}, "episode_reward_min": -659.2345079926405, "timesteps_since_restore": 1806000, "num_metric_batches_dropped": 0, "time_since_restore": 46668.38981580734, "episode_reward_max": -492.55955450520065, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1806000, "default": {"kl": 0.010392447002232075, "policy_loss": -0.13549424707889557, "vf_loss": 563.5133666992188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9789330363273621, "entropy": 5.316657543182373, "cur_lr": 4.999999873689376e-05, "total_loss": 563.3936157226562}, "load_time_ms": 0.615, "num_steps_sampled": 1806000, "grad_time_ms": 672.769, "update_time_ms": 2.545, "sample_time_ms": 33555.207}, "date": "2025-08-31_05-08-38", "hostname": "cda-server-4", "time_this_iter_s": 34.76189160346985, "episodes_total": 9030, "timestamp": 1756609718, "node_ip": "10.157.146.4", "done": false, "time_total_s": 46668.38981580734, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1506, "episode_reward_mean": -615.1365557966324, "training_iteration": 1506, "timesteps_total": 1807200, "policy_reward_mean": {}, "episode_reward_min": -659.2345079926405, "timesteps_since_restore": 1807200, "num_metric_batches_dropped": 0, "time_since_restore": 46703.68720006943, "episode_reward_max": -492.55955450520065, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1807200, "default": {"kl": 0.012290974147617817, "policy_loss": -0.170880988240242, "vf_loss": 551.9287109375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9493958353996277, "entropy": 5.80100154876709, "cur_lr": 4.999999873689376e-05, "total_loss": 551.7765502929688}, "load_time_ms": 0.618, "num_steps_sampled": 1807200, "grad_time_ms": 671.354, "update_time_ms": 2.52, "sample_time_ms": 33724.246}, "date": "2025-08-31_05-09-13", "hostname": "cda-server-4", "time_this_iter_s": 35.29738426208496, "episodes_total": 9036, "timestamp": 1756609753, "node_ip": "10.157.146.4", "done": false, "time_total_s": 46703.68720006943, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1507, "episode_reward_mean": -614.8297799104898, "training_iteration": 1507, "timesteps_total": 1808400, "policy_reward_mean": {}, "episode_reward_min": -659.2345079926405, "timesteps_since_restore": 1808400, "num_metric_batches_dropped": 0, "time_since_restore": 46737.343250989914, "episode_reward_max": -492.55955450520065, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1808400, "default": {"kl": 0.011559250764548779, "policy_loss": -0.15352973341941833, "vf_loss": 359.8691711425781, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9660181403160095, "entropy": 5.577399253845215, "cur_lr": 4.999999873689376e-05, "total_loss": 359.73321533203125}, "load_time_ms": 0.621, "num_steps_sampled": 1808400, "grad_time_ms": 662.612, "update_time_ms": 2.537, "sample_time_ms": 33640.219}, "date": "2025-08-31_05-09-47", "hostname": "cda-server-4", "time_this_iter_s": 33.65605092048645, "episodes_total": 9042, "timestamp": 1756609787, "node_ip": "10.157.146.4", "done": false, "time_total_s": 46737.343250989914, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1508, "episode_reward_mean": -616.6752479283759, "training_iteration": 1508, "timesteps_total": 1809600, "policy_reward_mean": {}, "episode_reward_min": -659.2345079926405, "timesteps_since_restore": 1809600, "num_metric_batches_dropped": 0, "time_since_restore": 46771.756528139114, "episode_reward_max": -566.1514347498166, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1809600, "default": {"kl": 0.013498248532414436, "policy_loss": -0.16030721366405487, "vf_loss": 46.19514465332031, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9929452538490295, "entropy": 5.716225624084473, "cur_lr": 4.999999873689376e-05, "total_loss": 46.05533981323242}, "load_time_ms": 0.619, "num_steps_sampled": 1809600, "grad_time_ms": 660.075, "update_time_ms": 2.522, "sample_time_ms": 33680.371}, "date": "2025-08-31_05-10-21", "hostname": "cda-server-4", "time_this_iter_s": 34.41327714920044, "episodes_total": 9048, "timestamp": 1756609821, "node_ip": "10.157.146.4", "done": false, "time_total_s": 46771.756528139114, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1509, "episode_reward_mean": -616.2802887710592, "training_iteration": 1509, "timesteps_total": 1810800, "policy_reward_mean": {}, "episode_reward_min": -659.2345079926405, "timesteps_since_restore": 1810800, "num_metric_batches_dropped": 0, "time_since_restore": 46806.38424229622, "episode_reward_max": -566.1514347498166, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1810800, "default": {"kl": 0.00968286395072937, "policy_loss": -0.14139187335968018, "vf_loss": 192.84225463867188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9842512607574463, "entropy": 5.12581205368042, "cur_lr": 4.999999873689376e-05, "total_loss": 192.715576171875}, "load_time_ms": 0.627, "num_steps_sampled": 1810800, "grad_time_ms": 661.699, "update_time_ms": 2.566, "sample_time_ms": 33673.628}, "date": "2025-08-31_05-10-56", "hostname": "cda-server-4", "time_this_iter_s": 34.62771415710449, "episodes_total": 9054, "timestamp": 1756609856, "node_ip": "10.157.146.4", "done": false, "time_total_s": 46806.38424229622, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1510, "episode_reward_mean": -616.3483469169392, "training_iteration": 1510, "timesteps_total": 1812000, "policy_reward_mean": {}, "episode_reward_min": -655.5190448976773, "timesteps_since_restore": 1812000, "num_metric_batches_dropped": 0, "time_since_restore": 46841.14977836609, "episode_reward_max": -566.1514347498166, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1812000, "default": {"kl": 0.009317093528807163, "policy_loss": -0.13865798711776733, "vf_loss": 396.1114501953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9498329162597656, "entropy": 5.314474105834961, "cur_lr": 4.999999873689376e-05, "total_loss": 395.9869689941406}, "load_time_ms": 0.628, "num_steps_sampled": 1812000, "grad_time_ms": 669.553, "update_time_ms": 2.572, "sample_time_ms": 33739.988}, "date": "2025-08-31_05-11-30", "hostname": "cda-server-4", "time_this_iter_s": 34.765536069869995, "episodes_total": 9060, "timestamp": 1756609890, "node_ip": "10.157.146.4", "done": false, "time_total_s": 46841.14977836609, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1511, "episode_reward_mean": -615.3559771132699, "training_iteration": 1511, "timesteps_total": 1813200, "policy_reward_mean": {}, "episode_reward_min": -655.5190448976773, "timesteps_since_restore": 1813200, "num_metric_batches_dropped": 0, "time_since_restore": 46875.33956003189, "episode_reward_max": -518.9828191738028, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1813200, "default": {"kl": 0.010028843767940998, "policy_loss": -0.14544451236724854, "vf_loss": 177.11781311035156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9845439195632935, "entropy": 5.434799671173096, "cur_lr": 4.999999873689376e-05, "total_loss": 176.98760986328125}, "load_time_ms": 0.624, "num_steps_sampled": 1813200, "grad_time_ms": 675.396, "update_time_ms": 2.484, "sample_time_ms": 33655.168}, "date": "2025-08-31_05-12-05", "hostname": "cda-server-4", "time_this_iter_s": 34.189781665802, "episodes_total": 9066, "timestamp": 1756609925, "node_ip": "10.157.146.4", "done": false, "time_total_s": 46875.33956003189, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1512, "episode_reward_mean": -614.4772031141384, "training_iteration": 1512, "timesteps_total": 1814400, "policy_reward_mean": {}, "episode_reward_min": -655.5190448976773, "timesteps_since_restore": 1814400, "num_metric_batches_dropped": 0, "time_since_restore": 46910.053745508194, "episode_reward_max": -496.84025693396717, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1814400, "default": {"kl": 0.01210973970592022, "policy_loss": -0.14136146008968353, "vf_loss": 98.85459899902344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9940670728683472, "entropy": 5.22610330581665, "cur_lr": 4.999999873689376e-05, "total_loss": 98.73163604736328}, "load_time_ms": 0.626, "num_steps_sampled": 1814400, "grad_time_ms": 697.636, "update_time_ms": 2.527, "sample_time_ms": 33694.507}, "date": "2025-08-31_05-12-39", "hostname": "cda-server-4", "time_this_iter_s": 34.7141854763031, "episodes_total": 9072, "timestamp": 1756609959, "node_ip": "10.157.146.4", "done": false, "time_total_s": 46910.053745508194, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1513, "episode_reward_mean": -614.156468209653, "training_iteration": 1513, "timesteps_total": 1815600, "policy_reward_mean": {}, "episode_reward_min": -655.5190448976773, "timesteps_since_restore": 1815600, "num_metric_batches_dropped": 0, "time_since_restore": 46944.506049633026, "episode_reward_max": -496.84025693396717, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1815600, "default": {"kl": 0.010461545549333096, "policy_loss": -0.14392894506454468, "vf_loss": 401.2354736328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9531816840171814, "entropy": 5.333057403564453, "cur_lr": 4.999999873689376e-05, "total_loss": 401.107421875}, "load_time_ms": 0.634, "num_steps_sampled": 1815600, "grad_time_ms": 687.132, "update_time_ms": 2.626, "sample_time_ms": 33769.989}, "date": "2025-08-31_05-13-14", "hostname": "cda-server-4", "time_this_iter_s": 34.45230412483215, "episodes_total": 9078, "timestamp": 1756609994, "node_ip": "10.157.146.4", "done": false, "time_total_s": 46944.506049633026, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1514, "episode_reward_mean": -614.3983724673137, "training_iteration": 1514, "timesteps_total": 1816800, "policy_reward_mean": {}, "episode_reward_min": -660.7301372506987, "timesteps_since_restore": 1816800, "num_metric_batches_dropped": 0, "time_since_restore": 46978.367408275604, "episode_reward_max": -496.84025693396717, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1816800, "default": {"kl": 0.012427229434251785, "policy_loss": -0.14409174025058746, "vf_loss": 488.13372802734375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9472127556800842, "entropy": 5.8162126541137695, "cur_lr": 4.999999873689376e-05, "total_loss": 488.0085144042969}, "load_time_ms": 0.626, "num_steps_sampled": 1816800, "grad_time_ms": 668.329, "update_time_ms": 2.663, "sample_time_ms": 33798.051}, "date": "2025-08-31_05-13-48", "hostname": "cda-server-4", "time_this_iter_s": 33.861358642578125, "episodes_total": 9084, "timestamp": 1756610028, "node_ip": "10.157.146.4", "done": false, "time_total_s": 46978.367408275604, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1515, "episode_reward_mean": -613.8294583515363, "training_iteration": 1515, "timesteps_total": 1818000, "policy_reward_mean": {}, "episode_reward_min": -660.7301372506987, "timesteps_since_restore": 1818000, "num_metric_batches_dropped": 0, "time_since_restore": 47013.64551949501, "episode_reward_max": -496.84025693396717, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1818000, "default": {"kl": 0.0116293765604496, "policy_loss": -0.15955062210559845, "vf_loss": 275.866943359375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9772849678993225, "entropy": 5.198934555053711, "cur_lr": 4.999999873689376e-05, "total_loss": 275.7250671386719}, "load_time_ms": 0.617, "num_steps_sampled": 1818000, "grad_time_ms": 665.577, "update_time_ms": 2.67, "sample_time_ms": 33852.452}, "date": "2025-08-31_05-14-23", "hostname": "cda-server-4", "time_this_iter_s": 35.27811121940613, "episodes_total": 9090, "timestamp": 1756610063, "node_ip": "10.157.146.4", "done": false, "time_total_s": 47013.64551949501, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1516, "episode_reward_mean": -613.6906048188181, "training_iteration": 1516, "timesteps_total": 1819200, "policy_reward_mean": {}, "episode_reward_min": -673.847361923844, "timesteps_since_restore": 1819200, "num_metric_batches_dropped": 0, "time_since_restore": 47047.88429880142, "episode_reward_max": -496.84025693396717, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1819200, "default": {"kl": 0.009555812925100327, "policy_loss": -0.14493539929389954, "vf_loss": 236.6722869873047, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9645309448242188, "entropy": 5.371976375579834, "cur_lr": 4.999999873689376e-05, "total_loss": 236.54185485839844}, "load_time_ms": 0.628, "num_steps_sampled": 1819200, "grad_time_ms": 660.104, "update_time_ms": 2.639, "sample_time_ms": 33752.08}, "date": "2025-08-31_05-14-57", "hostname": "cda-server-4", "time_this_iter_s": 34.23877930641174, "episodes_total": 9096, "timestamp": 1756610097, "node_ip": "10.157.146.4", "done": false, "time_total_s": 47047.88429880142, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1517, "episode_reward_mean": -614.440764023397, "training_iteration": 1517, "timesteps_total": 1820400, "policy_reward_mean": {}, "episode_reward_min": -673.847361923844, "timesteps_since_restore": 1820400, "num_metric_batches_dropped": 0, "time_since_restore": 47083.715457201004, "episode_reward_max": -496.84025693396717, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1820400, "default": {"kl": 0.01014226209372282, "policy_loss": -0.1488763839006424, "vf_loss": 583.6820678710938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9308559894561768, "entropy": 5.564419269561768, "cur_lr": 4.999999873689376e-05, "total_loss": 583.5485229492188}, "load_time_ms": 0.633, "num_steps_sampled": 1820400, "grad_time_ms": 665.877, "update_time_ms": 2.646, "sample_time_ms": 33963.895}, "date": "2025-08-31_05-15-33", "hostname": "cda-server-4", "time_this_iter_s": 35.83115839958191, "episodes_total": 9102, "timestamp": 1756610133, "node_ip": "10.157.146.4", "done": false, "time_total_s": 47083.715457201004, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1518, "episode_reward_mean": -614.9490149033032, "training_iteration": 1518, "timesteps_total": 1821600, "policy_reward_mean": {}, "episode_reward_min": -673.847361923844, "timesteps_since_restore": 1821600, "num_metric_batches_dropped": 0, "time_since_restore": 47117.29598355293, "episode_reward_max": -496.84025693396717, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1821600, "default": {"kl": 0.010852369479835033, "policy_loss": -0.14277812838554382, "vf_loss": 451.12408447265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9529159069061279, "entropy": 5.67153263092041, "cur_lr": 4.999999873689376e-05, "total_loss": 450.9978332519531}, "load_time_ms": 0.634, "num_steps_sampled": 1821600, "grad_time_ms": 672.945, "update_time_ms": 2.608, "sample_time_ms": 33873.529}, "date": "2025-08-31_05-16-07", "hostname": "cda-server-4", "time_this_iter_s": 33.58052635192871, "episodes_total": 9108, "timestamp": 1756610167, "node_ip": "10.157.146.4", "done": false, "time_total_s": 47117.29598355293, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1519, "episode_reward_mean": -614.28595129178, "training_iteration": 1519, "timesteps_total": 1822800, "policy_reward_mean": {}, "episode_reward_min": -673.847361923844, "timesteps_since_restore": 1822800, "num_metric_batches_dropped": 0, "time_since_restore": 47152.06616783142, "episode_reward_max": -496.84025693396717, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1822800, "default": {"kl": 0.009378303773701191, "policy_loss": -0.1376461386680603, "vf_loss": 428.0925598144531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9361655712127686, "entropy": 5.265106678009033, "cur_lr": 4.999999873689376e-05, "total_loss": 427.9691467285156}, "load_time_ms": 0.624, "num_steps_sampled": 1822800, "grad_time_ms": 674.501, "update_time_ms": 2.609, "sample_time_ms": 33886.219}, "date": "2025-08-31_05-16-41", "hostname": "cda-server-4", "time_this_iter_s": 34.77018427848816, "episodes_total": 9114, "timestamp": 1756610201, "node_ip": "10.157.146.4", "done": false, "time_total_s": 47152.06616783142, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1520, "episode_reward_mean": -614.8692602617461, "training_iteration": 1520, "timesteps_total": 1824000, "policy_reward_mean": {}, "episode_reward_min": -673.847361923844, "timesteps_since_restore": 1824000, "num_metric_batches_dropped": 0, "time_since_restore": 47187.04544711113, "episode_reward_max": -496.84025693396717, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1824000, "default": {"kl": 0.011927779763936996, "policy_loss": -0.15433092415332794, "vf_loss": 561.4907836914062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9568846225738525, "entropy": 5.296613693237305, "cur_lr": 4.999999873689376e-05, "total_loss": 561.3545532226562}, "load_time_ms": 0.656, "num_steps_sampled": 1824000, "grad_time_ms": 670.45, "update_time_ms": 2.578, "sample_time_ms": 33911.634}, "date": "2025-08-31_05-17-16", "hostname": "cda-server-4", "time_this_iter_s": 34.97927927970886, "episodes_total": 9120, "timestamp": 1756610236, "node_ip": "10.157.146.4", "done": false, "time_total_s": 47187.04544711113, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1521, "episode_reward_mean": -614.4566966963946, "training_iteration": 1521, "timesteps_total": 1825200, "policy_reward_mean": {}, "episode_reward_min": -673.847361923844, "timesteps_since_restore": 1825200, "num_metric_batches_dropped": 0, "time_since_restore": 47221.81389141083, "episode_reward_max": -496.84025693396717, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1825200, "default": {"kl": 0.009502211585640907, "policy_loss": -0.11757528781890869, "vf_loss": 159.66934204101562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9893150329589844, "entropy": 5.365217685699463, "cur_lr": 4.999999873689376e-05, "total_loss": 159.5662078857422}, "load_time_ms": 0.658, "num_steps_sampled": 1825200, "grad_time_ms": 666.518, "update_time_ms": 2.53, "sample_time_ms": 33973.477}, "date": "2025-08-31_05-17-51", "hostname": "cda-server-4", "time_this_iter_s": 34.768444299697876, "episodes_total": 9126, "timestamp": 1756610271, "node_ip": "10.157.146.4", "done": false, "time_total_s": 47221.81389141083, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1522, "episode_reward_mean": -612.2086888945134, "training_iteration": 1522, "timesteps_total": 1826400, "policy_reward_mean": {}, "episode_reward_min": -673.847361923844, "timesteps_since_restore": 1826400, "num_metric_batches_dropped": 0, "time_since_restore": 47256.02751350403, "episode_reward_max": -496.84025693396717, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1826400, "default": {"kl": 0.009972896426916122, "policy_loss": -0.14557844400405884, "vf_loss": 160.10150146484375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9822012782096863, "entropy": 5.176984786987305, "cur_lr": 4.999999873689376e-05, "total_loss": 159.9710693359375}, "load_time_ms": 0.657, "num_steps_sampled": 1826400, "grad_time_ms": 655.265, "update_time_ms": 2.502, "sample_time_ms": 33934.82}, "date": "2025-08-31_05-18-26", "hostname": "cda-server-4", "time_this_iter_s": 34.213622093200684, "episodes_total": 9132, "timestamp": 1756610306, "node_ip": "10.157.146.4", "done": false, "time_total_s": 47256.02751350403, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1523, "episode_reward_mean": -612.2142755917723, "training_iteration": 1523, "timesteps_total": 1827600, "policy_reward_mean": {}, "episode_reward_min": -673.847361923844, "timesteps_since_restore": 1827600, "num_metric_batches_dropped": 0, "time_since_restore": 47291.18648433685, "episode_reward_max": -496.84025693396717, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1827600, "default": {"kl": 0.010218452662229538, "policy_loss": -0.12730923295021057, "vf_loss": 68.14950561523438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.993514358997345, "entropy": 5.334443092346191, "cur_lr": 4.999999873689376e-05, "total_loss": 68.03770446777344}, "load_time_ms": 0.651, "num_steps_sampled": 1827600, "grad_time_ms": 666.908, "update_time_ms": 2.409, "sample_time_ms": 33993.939}, "date": "2025-08-31_05-19-01", "hostname": "cda-server-4", "time_this_iter_s": 35.15897083282471, "episodes_total": 9138, "timestamp": 1756610341, "node_ip": "10.157.146.4", "done": false, "time_total_s": 47291.18648433685, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1524, "episode_reward_mean": -612.2422874789343, "training_iteration": 1524, "timesteps_total": 1828800, "policy_reward_mean": {}, "episode_reward_min": -673.847361923844, "timesteps_since_restore": 1828800, "num_metric_batches_dropped": 0, "time_since_restore": 47325.89887738228, "episode_reward_max": -496.84025693396717, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1828800, "default": {"kl": 0.011557121761143208, "policy_loss": -0.15844422578811646, "vf_loss": 275.8050231933594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9717277884483337, "entropy": 5.545504093170166, "cur_lr": 4.999999873689376e-05, "total_loss": 275.66412353515625}, "load_time_ms": 0.656, "num_steps_sampled": 1828800, "grad_time_ms": 672.196, "update_time_ms": 2.39, "sample_time_ms": 34073.744}, "date": "2025-08-31_05-19-35", "hostname": "cda-server-4", "time_this_iter_s": 34.712393045425415, "episodes_total": 9144, "timestamp": 1756610375, "node_ip": "10.157.146.4", "done": false, "time_total_s": 47325.89887738228, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1525, "episode_reward_mean": -612.8219517599697, "training_iteration": 1525, "timesteps_total": 1830000, "policy_reward_mean": {}, "episode_reward_min": -673.847361923844, "timesteps_since_restore": 1830000, "num_metric_batches_dropped": 0, "time_since_restore": 47359.85864520073, "episode_reward_max": -496.84025693396717, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1830000, "default": {"kl": 0.010664843954145908, "policy_loss": -0.1542438268661499, "vf_loss": 31.01034927368164, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9961776733398438, "entropy": 5.294342041015625, "cur_lr": 4.999999873689376e-05, "total_loss": 30.87230110168457}, "load_time_ms": 0.654, "num_steps_sampled": 1830000, "grad_time_ms": 663.255, "update_time_ms": 2.365, "sample_time_ms": 33950.742}, "date": "2025-08-31_05-20-09", "hostname": "cda-server-4", "time_this_iter_s": 33.95976781845093, "episodes_total": 9150, "timestamp": 1756610409, "node_ip": "10.157.146.4", "done": false, "time_total_s": 47359.85864520073, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1526, "episode_reward_mean": -613.0217227244987, "training_iteration": 1526, "timesteps_total": 1831200, "policy_reward_mean": {}, "episode_reward_min": -673.847361923844, "timesteps_since_restore": 1831200, "num_metric_batches_dropped": 0, "time_since_restore": 47393.8265209198, "episode_reward_max": -496.84025693396717, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1831200, "default": {"kl": 0.010031159967184067, "policy_loss": -0.13144725561141968, "vf_loss": 378.8010559082031, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9515594840049744, "entropy": 5.499138355255127, "cur_lr": 4.999999873689376e-05, "total_loss": 378.6848449707031}, "load_time_ms": 0.64, "num_steps_sampled": 1831200, "grad_time_ms": 664.361, "update_time_ms": 2.373, "sample_time_ms": 33922.521}, "date": "2025-08-31_05-20-43", "hostname": "cda-server-4", "time_this_iter_s": 33.967875719070435, "episodes_total": 9156, "timestamp": 1756610443, "node_ip": "10.157.146.4", "done": false, "time_total_s": 47393.8265209198, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1527, "episode_reward_mean": -613.4139597472489, "training_iteration": 1527, "timesteps_total": 1832400, "policy_reward_mean": {}, "episode_reward_min": -673.847361923844, "timesteps_since_restore": 1832400, "num_metric_batches_dropped": 0, "time_since_restore": 47428.12521767616, "episode_reward_max": -496.84025693396717, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1832400, "default": {"kl": 0.010453056544065475, "policy_loss": -0.11052624136209488, "vf_loss": 753.545654296875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8976141810417175, "entropy": 5.470785140991211, "cur_lr": 4.999999873689376e-05, "total_loss": 753.4510498046875}, "load_time_ms": 0.638, "num_steps_sampled": 1832400, "grad_time_ms": 673.48, "update_time_ms": 2.372, "sample_time_ms": 33760.102}, "date": "2025-08-31_05-21-18", "hostname": "cda-server-4", "time_this_iter_s": 34.298696756362915, "episodes_total": 9162, "timestamp": 1756610478, "node_ip": "10.157.146.4", "done": false, "time_total_s": 47428.12521767616, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1528, "episode_reward_mean": -613.6451526379425, "training_iteration": 1528, "timesteps_total": 1833600, "policy_reward_mean": {}, "episode_reward_min": -673.847361923844, "timesteps_since_restore": 1833600, "num_metric_batches_dropped": 0, "time_since_restore": 47462.65791106224, "episode_reward_max": -526.4574356751871, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1833600, "default": {"kl": 0.01204919908195734, "policy_loss": -0.13668569922447205, "vf_loss": 371.3968811035156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9622095823287964, "entropy": 5.112026691436768, "cur_lr": 4.999999873689376e-05, "total_loss": 371.2784729003906}, "load_time_ms": 0.641, "num_steps_sampled": 1833600, "grad_time_ms": 680.468, "update_time_ms": 2.486, "sample_time_ms": 33848.281}, "date": "2025-08-31_05-21-52", "hostname": "cda-server-4", "time_this_iter_s": 34.53269338607788, "episodes_total": 9168, "timestamp": 1756610512, "node_ip": "10.157.146.4", "done": false, "time_total_s": 47462.65791106224, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1529, "episode_reward_mean": -614.0162320060217, "training_iteration": 1529, "timesteps_total": 1834800, "policy_reward_mean": {}, "episode_reward_min": -673.847361923844, "timesteps_since_restore": 1834800, "num_metric_batches_dropped": 0, "time_since_restore": 47496.624480485916, "episode_reward_max": -526.4574356751871, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1834800, "default": {"kl": 0.009863666258752346, "policy_loss": -0.13317950069904327, "vf_loss": 303.17486572265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9547213315963745, "entropy": 5.748441696166992, "cur_lr": 4.999999873689376e-05, "total_loss": 303.0566711425781}, "load_time_ms": 0.648, "num_steps_sampled": 1834800, "grad_time_ms": 687.067, "update_time_ms": 2.477, "sample_time_ms": 33761.353}, "date": "2025-08-31_05-22-26", "hostname": "cda-server-4", "time_this_iter_s": 33.96656942367554, "episodes_total": 9174, "timestamp": 1756610546, "node_ip": "10.157.146.4", "done": false, "time_total_s": 47496.624480485916, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1530, "episode_reward_mean": -614.2200913467491, "training_iteration": 1530, "timesteps_total": 1836000, "policy_reward_mean": {}, "episode_reward_min": -673.847361923844, "timesteps_since_restore": 1836000, "num_metric_batches_dropped": 0, "time_since_restore": 47530.9016289711, "episode_reward_max": -526.4574356751871, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1836000, "default": {"kl": 0.009905293583869934, "policy_loss": -0.12758830189704895, "vf_loss": 128.62921142578125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9913650155067444, "entropy": 5.273369789123535, "cur_lr": 4.999999873689376e-05, "total_loss": 128.5166778564453}, "load_time_ms": 0.62, "num_steps_sampled": 1836000, "grad_time_ms": 688.963, "update_time_ms": 2.503, "sample_time_ms": 33689.347}, "date": "2025-08-31_05-23-01", "hostname": "cda-server-4", "time_this_iter_s": 34.277148485183716, "episodes_total": 9180, "timestamp": 1756610581, "node_ip": "10.157.146.4", "done": false, "time_total_s": 47530.9016289711, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1531, "episode_reward_mean": -612.7805509156079, "training_iteration": 1531, "timesteps_total": 1837200, "policy_reward_mean": {}, "episode_reward_min": -673.847361923844, "timesteps_since_restore": 1837200, "num_metric_batches_dropped": 0, "time_since_restore": 47567.47825407982, "episode_reward_max": -502.2860522062785, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1837200, "default": {"kl": 0.010334457270801067, "policy_loss": -0.14371581375598907, "vf_loss": 178.9377899169922, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9698789119720459, "entropy": 5.479743480682373, "cur_lr": 4.999999873689376e-05, "total_loss": 178.8097686767578}, "load_time_ms": 0.618, "num_steps_sampled": 1837200, "grad_time_ms": 711.16, "update_time_ms": 2.524, "sample_time_ms": 33847.88}, "date": "2025-08-31_05-23-37", "hostname": "cda-server-4", "time_this_iter_s": 36.57662510871887, "episodes_total": 9186, "timestamp": 1756610617, "node_ip": "10.157.146.4", "done": false, "time_total_s": 47567.47825407982, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1532, "episode_reward_mean": -612.0931540371628, "training_iteration": 1532, "timesteps_total": 1838400, "policy_reward_mean": {}, "episode_reward_min": -673.847361923844, "timesteps_since_restore": 1838400, "num_metric_batches_dropped": 0, "time_since_restore": 47602.36839723587, "episode_reward_max": -473.16220768935375, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1838400, "default": {"kl": 0.012512357905507088, "policy_loss": -0.16207782924175262, "vf_loss": 530.3941650390625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9338611960411072, "entropy": 5.50147008895874, "cur_lr": 4.999999873689376e-05, "total_loss": 530.2510986328125}, "load_time_ms": 0.603, "num_steps_sampled": 1838400, "grad_time_ms": 719.005, "update_time_ms": 2.678, "sample_time_ms": 33907.582}, "date": "2025-08-31_05-24-12", "hostname": "cda-server-4", "time_this_iter_s": 34.890143156051636, "episodes_total": 9192, "timestamp": 1756610652, "node_ip": "10.157.146.4", "done": false, "time_total_s": 47602.36839723587, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1533, "episode_reward_mean": -610.4569000366128, "training_iteration": 1533, "timesteps_total": 1839600, "policy_reward_mean": {}, "episode_reward_min": -668.0081544995834, "timesteps_since_restore": 1839600, "num_metric_batches_dropped": 0, "time_since_restore": 47637.43052864075, "episode_reward_max": -473.16220768935375, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1839600, "default": {"kl": 0.009658437222242355, "policy_loss": -0.1380467712879181, "vf_loss": 301.26080322265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.961182177066803, "entropy": 5.490849494934082, "cur_lr": 4.999999873689376e-05, "total_loss": 301.1374206542969}, "load_time_ms": 0.599, "num_steps_sampled": 1839600, "grad_time_ms": 707.886, "update_time_ms": 2.668, "sample_time_ms": 33909.0}, "date": "2025-08-31_05-24-47", "hostname": "cda-server-4", "time_this_iter_s": 35.06213140487671, "episodes_total": 9198, "timestamp": 1756610687, "node_ip": "10.157.146.4", "done": false, "time_total_s": 47637.43052864075, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1534, "episode_reward_mean": -609.9303661405933, "training_iteration": 1534, "timesteps_total": 1840800, "policy_reward_mean": {}, "episode_reward_min": -668.0081544995834, "timesteps_since_restore": 1840800, "num_metric_batches_dropped": 0, "time_since_restore": 47671.59815573692, "episode_reward_max": -473.16220768935375, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1840800, "default": {"kl": 0.011868438683450222, "policy_loss": -0.15145628154277802, "vf_loss": 47.00970458984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9940487742424011, "entropy": 5.28306770324707, "cur_lr": 4.999999873689376e-05, "total_loss": 46.87627410888672}, "load_time_ms": 0.593, "num_steps_sampled": 1840800, "grad_time_ms": 710.543, "update_time_ms": 2.63, "sample_time_ms": 33851.946}, "date": "2025-08-31_05-25-21", "hostname": "cda-server-4", "time_this_iter_s": 34.16762709617615, "episodes_total": 9204, "timestamp": 1756610721, "node_ip": "10.157.146.4", "done": false, "time_total_s": 47671.59815573692, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1535, "episode_reward_mean": -611.3315855003367, "training_iteration": 1535, "timesteps_total": 1842000, "policy_reward_mean": {}, "episode_reward_min": -799.3733266164081, "timesteps_since_restore": 1842000, "num_metric_batches_dropped": 0, "time_since_restore": 47706.511446237564, "episode_reward_max": -473.16220768935375, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1842000, "default": {"kl": 0.008573773317039013, "policy_loss": -0.11801237612962723, "vf_loss": 452.7704162597656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9505133032798767, "entropy": 5.193894386291504, "cur_lr": 4.999999873689376e-05, "total_loss": 452.6654357910156}, "load_time_ms": 0.591, "num_steps_sampled": 1842000, "grad_time_ms": 718.049, "update_time_ms": 2.666, "sample_time_ms": 33939.837}, "date": "2025-08-31_05-25-56", "hostname": "cda-server-4", "time_this_iter_s": 34.91329050064087, "episodes_total": 9210, "timestamp": 1756610756, "node_ip": "10.157.146.4", "done": false, "time_total_s": 47706.511446237564, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1536, "episode_reward_mean": -610.7212557114304, "training_iteration": 1536, "timesteps_total": 1843200, "policy_reward_mean": {}, "episode_reward_min": -799.3733266164081, "timesteps_since_restore": 1843200, "num_metric_batches_dropped": 0, "time_since_restore": 47740.440678834915, "episode_reward_max": -473.16220768935375, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1843200, "default": {"kl": 0.010433624498546124, "policy_loss": -0.15473483502864838, "vf_loss": 172.8724822998047, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9762095212936401, "entropy": 5.149892330169678, "cur_lr": 4.999999873689376e-05, "total_loss": 172.73358154296875}, "load_time_ms": 0.592, "num_steps_sampled": 1843200, "grad_time_ms": 723.817, "update_time_ms": 2.727, "sample_time_ms": 33930.067}, "date": "2025-08-31_05-26-30", "hostname": "cda-server-4", "time_this_iter_s": 33.929232597351074, "episodes_total": 9216, "timestamp": 1756610790, "node_ip": "10.157.146.4", "done": false, "time_total_s": 47740.440678834915, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1537, "episode_reward_mean": -610.4335679122776, "training_iteration": 1537, "timesteps_total": 1844400, "policy_reward_mean": {}, "episode_reward_min": -799.3733266164081, "timesteps_since_restore": 1844400, "num_metric_batches_dropped": 0, "time_since_restore": 47774.83748269081, "episode_reward_max": -473.16220768935375, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1844400, "default": {"kl": 0.009138954803347588, "policy_loss": -0.13221730291843414, "vf_loss": 144.93714904785156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.978402853012085, "entropy": 5.373157501220703, "cur_lr": 4.999999873689376e-05, "total_loss": 144.8188018798828}, "load_time_ms": 0.596, "num_steps_sampled": 1844400, "grad_time_ms": 700.098, "update_time_ms": 2.747, "sample_time_ms": 33963.555}, "date": "2025-08-31_05-27-05", "hostname": "cda-server-4", "time_this_iter_s": 34.396803855895996, "episodes_total": 9222, "timestamp": 1756610825, "node_ip": "10.157.146.4", "done": false, "time_total_s": 47774.83748269081, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1538, "episode_reward_mean": -610.703812389802, "training_iteration": 1538, "timesteps_total": 1845600, "policy_reward_mean": {}, "episode_reward_min": -799.3733266164081, "timesteps_since_restore": 1845600, "num_metric_batches_dropped": 0, "time_since_restore": 47809.19813799858, "episode_reward_max": -473.16220768935375, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1845600, "default": {"kl": 0.008472200483083725, "policy_loss": -0.13737523555755615, "vf_loss": 787.8186645507812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8922764658927917, "entropy": 5.495011329650879, "cur_lr": 4.999999873689376e-05, "total_loss": 787.6941528320312}, "load_time_ms": 0.631, "num_steps_sampled": 1845600, "grad_time_ms": 692.051, "update_time_ms": 2.677, "sample_time_ms": 33954.329}, "date": "2025-08-31_05-27-39", "hostname": "cda-server-4", "time_this_iter_s": 34.360655307769775, "episodes_total": 9228, "timestamp": 1756610859, "node_ip": "10.157.146.4", "done": false, "time_total_s": 47809.19813799858, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1539, "episode_reward_mean": -612.4162476956562, "training_iteration": 1539, "timesteps_total": 1846800, "policy_reward_mean": {}, "episode_reward_min": -799.3733266164081, "timesteps_since_restore": 1846800, "num_metric_batches_dropped": 0, "time_since_restore": 47843.336189985275, "episode_reward_max": -473.16220768935375, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1846800, "default": {"kl": 0.01134959515184164, "policy_loss": -0.1655738800764084, "vf_loss": 539.4066772460938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9470250606536865, "entropy": 5.440115451812744, "cur_lr": 4.999999873689376e-05, "total_loss": 539.2583618164062}, "load_time_ms": 0.629, "num_steps_sampled": 1846800, "grad_time_ms": 677.72, "update_time_ms": 2.716, "sample_time_ms": 33985.721}, "date": "2025-08-31_05-28-13", "hostname": "cda-server-4", "time_this_iter_s": 34.138051986694336, "episodes_total": 9234, "timestamp": 1756610893, "node_ip": "10.157.146.4", "done": false, "time_total_s": 47843.336189985275, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1540, "episode_reward_mean": -612.4868602188914, "training_iteration": 1540, "timesteps_total": 1848000, "policy_reward_mean": {}, "episode_reward_min": -799.3733266164081, "timesteps_since_restore": 1848000, "num_metric_batches_dropped": 0, "time_since_restore": 47877.18588638306, "episode_reward_max": -473.16220768935375, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1848000, "default": {"kl": 0.01224478054791689, "policy_loss": -0.15662270784378052, "vf_loss": 246.63455200195312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9817014336585999, "entropy": 5.454433917999268, "cur_lr": 4.999999873689376e-05, "total_loss": 246.4965057373047}, "load_time_ms": 0.632, "num_steps_sampled": 1848000, "grad_time_ms": 674.915, "update_time_ms": 2.774, "sample_time_ms": 33945.584}, "date": "2025-08-31_05-28-47", "hostname": "cda-server-4", "time_this_iter_s": 33.84969639778137, "episodes_total": 9240, "timestamp": 1756610927, "node_ip": "10.157.146.4", "done": false, "time_total_s": 47877.18588638306, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1541, "episode_reward_mean": -612.7175826358762, "training_iteration": 1541, "timesteps_total": 1849200, "policy_reward_mean": {}, "episode_reward_min": -799.3733266164081, "timesteps_since_restore": 1849200, "num_metric_batches_dropped": 0, "time_since_restore": 47911.76003885269, "episode_reward_max": -473.16220768935375, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1849200, "default": {"kl": 0.008763434365391731, "policy_loss": -0.12941963970661163, "vf_loss": 388.7520751953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9645770192146301, "entropy": 5.570586204528809, "cur_lr": 4.999999873689376e-05, "total_loss": 388.6359558105469}, "load_time_ms": 0.631, "num_steps_sampled": 1849200, "grad_time_ms": 654.529, "update_time_ms": 2.851, "sample_time_ms": 33765.737}, "date": "2025-08-31_05-29-22", "hostname": "cda-server-4", "time_this_iter_s": 34.57415246963501, "episodes_total": 9246, "timestamp": 1756610962, "node_ip": "10.157.146.4", "done": false, "time_total_s": 47911.76003885269, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1542, "episode_reward_mean": -613.0173074854162, "training_iteration": 1542, "timesteps_total": 1850400, "policy_reward_mean": {}, "episode_reward_min": -799.3733266164081, "timesteps_since_restore": 1850400, "num_metric_batches_dropped": 0, "time_since_restore": 47946.3238093853, "episode_reward_max": -473.16220768935375, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1850400, "default": {"kl": 0.008414224721491337, "policy_loss": -0.12615682184696198, "vf_loss": 264.8200378417969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9683993458747864, "entropy": 5.469366073608398, "cur_lr": 4.999999873689376e-05, "total_loss": 264.7066650390625}, "load_time_ms": 0.633, "num_steps_sampled": 1850400, "grad_time_ms": 653.894, "update_time_ms": 2.669, "sample_time_ms": 33733.904}, "date": "2025-08-31_05-29-56", "hostname": "cda-server-4", "time_this_iter_s": 34.56377053260803, "episodes_total": 9252, "timestamp": 1756610996, "node_ip": "10.157.146.4", "done": false, "time_total_s": 47946.3238093853, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1543, "episode_reward_mean": -613.9310573432927, "training_iteration": 1543, "timesteps_total": 1851600, "policy_reward_mean": {}, "episode_reward_min": -799.3733266164081, "timesteps_since_restore": 1851600, "num_metric_batches_dropped": 0, "time_since_restore": 47979.83333849907, "episode_reward_max": -473.16220768935375, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1851600, "default": {"kl": 0.009636681526899338, "policy_loss": -0.14628352224826813, "vf_loss": 371.7089538574219, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.966071367263794, "entropy": 5.429965496063232, "cur_lr": 4.999999873689376e-05, "total_loss": 371.57733154296875}, "load_time_ms": 0.642, "num_steps_sampled": 1851600, "grad_time_ms": 644.654, "update_time_ms": 2.685, "sample_time_ms": 33587.955}, "date": "2025-08-31_05-30-30", "hostname": "cda-server-4", "time_this_iter_s": 33.50952911376953, "episodes_total": 9258, "timestamp": 1756611030, "node_ip": "10.157.146.4", "done": false, "time_total_s": 47979.83333849907, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1544, "episode_reward_mean": -614.8481537703025, "training_iteration": 1544, "timesteps_total": 1852800, "policy_reward_mean": {}, "episode_reward_min": -799.3733266164081, "timesteps_since_restore": 1852800, "num_metric_batches_dropped": 0, "time_since_restore": 48013.615694999695, "episode_reward_max": -473.16220768935375, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1852800, "default": {"kl": 0.010569293983280659, "policy_loss": -0.13967055082321167, "vf_loss": 109.88902282714844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9862396717071533, "entropy": 5.4435133934021, "cur_lr": 4.999999873689376e-05, "total_loss": 109.76541137695312}, "load_time_ms": 0.638, "num_steps_sampled": 1852800, "grad_time_ms": 642.075, "update_time_ms": 2.626, "sample_time_ms": 33552.063}, "date": "2025-08-31_05-31-04", "hostname": "cda-server-4", "time_this_iter_s": 33.78235650062561, "episodes_total": 9264, "timestamp": 1756611064, "node_ip": "10.157.146.4", "done": false, "time_total_s": 48013.615694999695, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1545, "episode_reward_mean": -613.5611359611304, "training_iteration": 1545, "timesteps_total": 1854000, "policy_reward_mean": {}, "episode_reward_min": -799.3733266164081, "timesteps_since_restore": 1854000, "num_metric_batches_dropped": 0, "time_since_restore": 48047.87830042839, "episode_reward_max": -473.16220768935375, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1854000, "default": {"kl": 0.01115705631673336, "policy_loss": -0.1469545215368271, "vf_loss": 725.6786499023438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.927753210067749, "entropy": 5.309476375579834, "cur_lr": 4.999999873689376e-05, "total_loss": 725.548583984375}, "load_time_ms": 0.646, "num_steps_sampled": 1854000, "grad_time_ms": 636.934, "update_time_ms": 2.576, "sample_time_ms": 33492.244}, "date": "2025-08-31_05-31-38", "hostname": "cda-server-4", "time_this_iter_s": 34.26260542869568, "episodes_total": 9270, "timestamp": 1756611098, "node_ip": "10.157.146.4", "done": false, "time_total_s": 48047.87830042839, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1546, "episode_reward_mean": -615.6944132985909, "training_iteration": 1546, "timesteps_total": 1855200, "policy_reward_mean": {}, "episode_reward_min": -799.3733266164081, "timesteps_since_restore": 1855200, "num_metric_batches_dropped": 0, "time_since_restore": 48082.212178468704, "episode_reward_max": -473.16220768935375, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1855200, "default": {"kl": 0.01243632659316063, "policy_loss": -0.1445435881614685, "vf_loss": 295.9155578613281, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9624450206756592, "entropy": 5.769352436065674, "cur_lr": 4.999999873689376e-05, "total_loss": 295.7898864746094}, "load_time_ms": 0.655, "num_steps_sampled": 1855200, "grad_time_ms": 638.063, "update_time_ms": 2.523, "sample_time_ms": 33531.699}, "date": "2025-08-31_05-32-12", "hostname": "cda-server-4", "time_this_iter_s": 34.33387804031372, "episodes_total": 9276, "timestamp": 1756611132, "node_ip": "10.157.146.4", "done": false, "time_total_s": 48082.212178468704, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1547, "episode_reward_mean": -615.3593983416577, "training_iteration": 1547, "timesteps_total": 1856400, "policy_reward_mean": {}, "episode_reward_min": -799.3733266164081, "timesteps_since_restore": 1856400, "num_metric_batches_dropped": 0, "time_since_restore": 48116.735067367554, "episode_reward_max": -473.16220768935375, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1856400, "default": {"kl": 0.01145699992775917, "policy_loss": -0.15925118327140808, "vf_loss": 120.51866149902344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9885542988777161, "entropy": 5.42981481552124, "cur_lr": 4.999999873689376e-05, "total_loss": 120.37680053710938}, "load_time_ms": 0.649, "num_steps_sampled": 1856400, "grad_time_ms": 663.151, "update_time_ms": 2.484, "sample_time_ms": 33519.358}, "date": "2025-08-31_05-32-47", "hostname": "cda-server-4", "time_this_iter_s": 34.52288889884949, "episodes_total": 9282, "timestamp": 1756611167, "node_ip": "10.157.146.4", "done": false, "time_total_s": 48116.735067367554, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1548, "episode_reward_mean": -617.8896001723195, "training_iteration": 1548, "timesteps_total": 1857600, "policy_reward_mean": {}, "episode_reward_min": -799.3733266164081, "timesteps_since_restore": 1857600, "num_metric_batches_dropped": 0, "time_since_restore": 48150.95608043671, "episode_reward_max": -478.7673434256331, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1857600, "default": {"kl": 0.0090840645134449, "policy_loss": -0.12236776947975159, "vf_loss": 216.41551208496094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9838160276412964, "entropy": 5.409290313720703, "cur_lr": 4.999999873689376e-05, "total_loss": 216.30694580078125}, "load_time_ms": 0.632, "num_steps_sampled": 1857600, "grad_time_ms": 673.735, "update_time_ms": 2.428, "sample_time_ms": 33494.925}, "date": "2025-08-31_05-33-21", "hostname": "cda-server-4", "time_this_iter_s": 34.22101306915283, "episodes_total": 9288, "timestamp": 1756611201, "node_ip": "10.157.146.4", "done": false, "time_total_s": 48150.95608043671, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1549, "episode_reward_mean": -621.1423190785507, "training_iteration": 1549, "timesteps_total": 1858800, "policy_reward_mean": {}, "episode_reward_min": -799.3733266164081, "timesteps_since_restore": 1858800, "num_metric_batches_dropped": 0, "time_since_restore": 48186.280898332596, "episode_reward_max": -478.7673434256331, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1858800, "default": {"kl": 0.014569465070962906, "policy_loss": -0.15429440140724182, "vf_loss": 3164.931884765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8841779828071594, "entropy": 5.739384651184082, "cur_lr": 4.999999873689376e-05, "total_loss": 3164.799560546875}, "load_time_ms": 0.628, "num_steps_sampled": 1858800, "grad_time_ms": 688.006, "update_time_ms": 2.382, "sample_time_ms": 33599.431}, "date": "2025-08-31_05-33-56", "hostname": "cda-server-4", "time_this_iter_s": 35.32481789588928, "episodes_total": 9294, "timestamp": 1756611236, "node_ip": "10.157.146.4", "done": false, "time_total_s": 48186.280898332596, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1550, "episode_reward_mean": -621.3484733402302, "training_iteration": 1550, "timesteps_total": 1860000, "policy_reward_mean": {}, "episode_reward_min": -799.3733266164081, "timesteps_since_restore": 1860000, "num_metric_batches_dropped": 0, "time_since_restore": 48220.707310676575, "episode_reward_max": -478.7673434256331, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1860000, "default": {"kl": 0.01126459427177906, "policy_loss": -0.15989816188812256, "vf_loss": 257.0638427734375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9657763242721558, "entropy": 5.62961483001709, "cur_lr": 4.999999873689376e-05, "total_loss": 256.9210510253906}, "load_time_ms": 0.629, "num_steps_sampled": 1860000, "grad_time_ms": 690.863, "update_time_ms": 2.287, "sample_time_ms": 33654.435}, "date": "2025-08-31_05-34-31", "hostname": "cda-server-4", "time_this_iter_s": 34.42641234397888, "episodes_total": 9300, "timestamp": 1756611271, "node_ip": "10.157.146.4", "done": false, "time_total_s": 48220.707310676575, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1551, "episode_reward_mean": -618.4895948676602, "training_iteration": 1551, "timesteps_total": 1861200, "policy_reward_mean": {}, "episode_reward_min": -795.752041269979, "timesteps_since_restore": 1861200, "num_metric_batches_dropped": 0, "time_since_restore": 48254.522762060165, "episode_reward_max": -478.7673434256331, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1861200, "default": {"kl": 0.011317853815853596, "policy_loss": -0.13773928582668304, "vf_loss": 669.0447387695312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9570362567901611, "entropy": 5.394198894500732, "cur_lr": 4.999999873689376e-05, "total_loss": 668.9241943359375}, "load_time_ms": 0.632, "num_steps_sampled": 1861200, "grad_time_ms": 691.264, "update_time_ms": 2.304, "sample_time_ms": 33578.103}, "date": "2025-08-31_05-35-05", "hostname": "cda-server-4", "time_this_iter_s": 33.8154513835907, "episodes_total": 9306, "timestamp": 1756611305, "node_ip": "10.157.146.4", "done": false, "time_total_s": 48254.522762060165, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1552, "episode_reward_mean": -618.7201588536487, "training_iteration": 1552, "timesteps_total": 1862400, "policy_reward_mean": {}, "episode_reward_min": -795.752041269979, "timesteps_since_restore": 1862400, "num_metric_batches_dropped": 0, "time_since_restore": 48288.923022031784, "episode_reward_max": -478.7673434256331, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1862400, "default": {"kl": 0.008134890347719193, "policy_loss": -0.13033586740493774, "vf_loss": 101.30645751953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9892587661743164, "entropy": 5.416449546813965, "cur_lr": 4.999999873689376e-05, "total_loss": 101.1884765625}, "load_time_ms": 0.659, "num_steps_sampled": 1862400, "grad_time_ms": 683.771, "update_time_ms": 2.29, "sample_time_ms": 33569.227}, "date": "2025-08-31_05-35-39", "hostname": "cda-server-4", "time_this_iter_s": 34.40025997161865, "episodes_total": 9312, "timestamp": 1756611339, "node_ip": "10.157.146.4", "done": false, "time_total_s": 48288.923022031784, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1553, "episode_reward_mean": -618.3880952568394, "training_iteration": 1553, "timesteps_total": 1863600, "policy_reward_mean": {}, "episode_reward_min": -795.752041269979, "timesteps_since_restore": 1863600, "num_metric_batches_dropped": 0, "time_since_restore": 48323.7750351429, "episode_reward_max": -478.7673434256331, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1863600, "default": {"kl": 0.008707708679139614, "policy_loss": -0.11856725811958313, "vf_loss": 349.6824645996094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9624837040901184, "entropy": 5.251414775848389, "cur_lr": 4.999999873689376e-05, "total_loss": 349.57708740234375}, "load_time_ms": 0.653, "num_steps_sampled": 1863600, "grad_time_ms": 701.201, "update_time_ms": 2.316, "sample_time_ms": 33686.018}, "date": "2025-08-31_05-36-14", "hostname": "cda-server-4", "time_this_iter_s": 34.8520131111145, "episodes_total": 9318, "timestamp": 1756611374, "node_ip": "10.157.146.4", "done": false, "time_total_s": 48323.7750351429, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1554, "episode_reward_mean": -619.3309767879404, "training_iteration": 1554, "timesteps_total": 1864800, "policy_reward_mean": {}, "episode_reward_min": -795.752041269979, "timesteps_since_restore": 1864800, "num_metric_batches_dropped": 0, "time_since_restore": 48357.42870640755, "episode_reward_max": -478.7673434256331, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1864800, "default": {"kl": 0.011504937894642353, "policy_loss": -0.13977421820163727, "vf_loss": 516.3519897460938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9608227610588074, "entropy": 5.371063709259033, "cur_lr": 4.999999873689376e-05, "total_loss": 516.229736328125}, "load_time_ms": 0.662, "num_steps_sampled": 1864800, "grad_time_ms": 688.812, "update_time_ms": 2.347, "sample_time_ms": 33685.462}, "date": "2025-08-31_05-36-48", "hostname": "cda-server-4", "time_this_iter_s": 33.65367126464844, "episodes_total": 9324, "timestamp": 1756611408, "node_ip": "10.157.146.4", "done": false, "time_total_s": 48357.42870640755, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1555, "episode_reward_mean": -619.612910732945, "training_iteration": 1555, "timesteps_total": 1866000, "policy_reward_mean": {}, "episode_reward_min": -795.752041269979, "timesteps_since_restore": 1866000, "num_metric_batches_dropped": 0, "time_since_restore": 48391.99323773384, "episode_reward_max": -478.7673434256331, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1866000, "default": {"kl": 0.01000573206692934, "policy_loss": -0.12938062846660614, "vf_loss": 55.5484733581543, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9928370714187622, "entropy": 5.241158485412598, "cur_lr": 4.999999873689376e-05, "total_loss": 55.434288024902344}, "load_time_ms": 0.658, "num_steps_sampled": 1866000, "grad_time_ms": 677.415, "update_time_ms": 2.387, "sample_time_ms": 33726.966}, "date": "2025-08-31_05-37-22", "hostname": "cda-server-4", "time_this_iter_s": 34.564531326293945, "episodes_total": 9330, "timestamp": 1756611442, "node_ip": "10.157.146.4", "done": false, "time_total_s": 48391.99323773384, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1556, "episode_reward_mean": -619.6951901006578, "training_iteration": 1556, "timesteps_total": 1867200, "policy_reward_mean": {}, "episode_reward_min": -795.752041269979, "timesteps_since_restore": 1867200, "num_metric_batches_dropped": 0, "time_since_restore": 48426.69097185135, "episode_reward_max": -478.7673434256331, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1867200, "default": {"kl": 0.01139664463698864, "policy_loss": -0.16009306907653809, "vf_loss": 318.027587890625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9675494432449341, "entropy": 5.364871501922607, "cur_lr": 4.999999873689376e-05, "total_loss": 317.88482666015625}, "load_time_ms": 0.648, "num_steps_sampled": 1867200, "grad_time_ms": 670.189, "update_time_ms": 2.415, "sample_time_ms": 33770.598}, "date": "2025-08-31_05-37-57", "hostname": "cda-server-4", "time_this_iter_s": 34.697734117507935, "episodes_total": 9336, "timestamp": 1756611477, "node_ip": "10.157.146.4", "done": false, "time_total_s": 48426.69097185135, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1557, "episode_reward_mean": -621.3446853386794, "training_iteration": 1557, "timesteps_total": 1868400, "policy_reward_mean": {}, "episode_reward_min": -795.752041269979, "timesteps_since_restore": 1868400, "num_metric_batches_dropped": 0, "time_since_restore": 48462.32403755188, "episode_reward_max": -478.7673434256331, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1868400, "default": {"kl": 0.01063599344342947, "policy_loss": -0.13472291827201843, "vf_loss": 711.4257202148438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9461742043495178, "entropy": 5.529943466186523, "cur_lr": 4.999999873689376e-05, "total_loss": 711.3070678710938}, "load_time_ms": 0.679, "num_steps_sampled": 1868400, "grad_time_ms": 660.48, "update_time_ms": 2.415, "sample_time_ms": 33891.27}, "date": "2025-08-31_05-38-32", "hostname": "cda-server-4", "time_this_iter_s": 35.633065700531006, "episodes_total": 9342, "timestamp": 1756611512, "node_ip": "10.157.146.4", "done": false, "time_total_s": 48462.32403755188, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1558, "episode_reward_mean": -622.5491810826832, "training_iteration": 1558, "timesteps_total": 1869600, "policy_reward_mean": {}, "episode_reward_min": -795.752041269979, "timesteps_since_restore": 1869600, "num_metric_batches_dropped": 0, "time_since_restore": 48495.85254907608, "episode_reward_max": -478.7673434256331, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1869600, "default": {"kl": 0.012539844959974289, "policy_loss": -0.15204580128192902, "vf_loss": 769.0361328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9502888917922974, "entropy": 5.531083106994629, "cur_lr": 4.999999873689376e-05, "total_loss": 768.9031982421875}, "load_time_ms": 0.67, "num_steps_sampled": 1869600, "grad_time_ms": 644.835, "update_time_ms": 2.436, "sample_time_ms": 33837.715}, "date": "2025-08-31_05-39-06", "hostname": "cda-server-4", "time_this_iter_s": 33.52851152420044, "episodes_total": 9348, "timestamp": 1756611546, "node_ip": "10.157.146.4", "done": false, "time_total_s": 48495.85254907608, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1559, "episode_reward_mean": -623.0240916774849, "training_iteration": 1559, "timesteps_total": 1870800, "policy_reward_mean": {}, "episode_reward_min": -795.752041269979, "timesteps_since_restore": 1870800, "num_metric_batches_dropped": 0, "time_since_restore": 48530.517835617065, "episode_reward_max": -478.7673434256331, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1870800, "default": {"kl": 0.010680768638849258, "policy_loss": -0.16223861277103424, "vf_loss": 101.19107818603516, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9854286909103394, "entropy": 5.38243293762207, "cur_lr": 4.999999873689376e-05, "total_loss": 101.04505920410156}, "load_time_ms": 0.668, "num_steps_sampled": 1870800, "grad_time_ms": 630.663, "update_time_ms": 2.467, "sample_time_ms": 33785.9}, "date": "2025-08-31_05-39-41", "hostname": "cda-server-4", "time_this_iter_s": 34.66528654098511, "episodes_total": 9354, "timestamp": 1756611581, "node_ip": "10.157.146.4", "done": false, "time_total_s": 48530.517835617065, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1560, "episode_reward_mean": -624.1255743259428, "training_iteration": 1560, "timesteps_total": 1872000, "policy_reward_mean": {}, "episode_reward_min": -801.4004371856357, "timesteps_since_restore": 1872000, "num_metric_batches_dropped": 0, "time_since_restore": 48565.840782403946, "episode_reward_max": -478.7673434256331, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1872000, "default": {"kl": 0.012239386327564716, "policy_loss": -0.15642084181308746, "vf_loss": 602.6292724609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9569817781448364, "entropy": 5.465463638305664, "cur_lr": 4.999999873689376e-05, "total_loss": 602.491455078125}, "load_time_ms": 0.666, "num_steps_sampled": 1872000, "grad_time_ms": 628.336, "update_time_ms": 2.477, "sample_time_ms": 33877.864}, "date": "2025-08-31_05-40-16", "hostname": "cda-server-4", "time_this_iter_s": 35.32294678688049, "episodes_total": 9360, "timestamp": 1756611616, "node_ip": "10.157.146.4", "done": false, "time_total_s": 48565.840782403946, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1561, "episode_reward_mean": -621.7326930559385, "training_iteration": 1561, "timesteps_total": 1873200, "policy_reward_mean": {}, "episode_reward_min": -801.4004371856357, "timesteps_since_restore": 1873200, "num_metric_batches_dropped": 0, "time_since_restore": 48599.76307749748, "episode_reward_max": -478.7673434256331, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1873200, "default": {"kl": 0.009446870535612106, "policy_loss": -0.13290555775165558, "vf_loss": 104.51637268066406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9857547283172607, "entropy": 4.966334819793701, "cur_lr": 4.999999873689376e-05, "total_loss": 104.3978042602539}, "load_time_ms": 0.662, "num_steps_sampled": 1873200, "grad_time_ms": 619.346, "update_time_ms": 2.378, "sample_time_ms": 33897.742}, "date": "2025-08-31_05-40-50", "hostname": "cda-server-4", "time_this_iter_s": 33.92229509353638, "episodes_total": 9366, "timestamp": 1756611650, "node_ip": "10.157.146.4", "done": false, "time_total_s": 48599.76307749748, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1562, "episode_reward_mean": -621.9402463385359, "training_iteration": 1562, "timesteps_total": 1874400, "policy_reward_mean": {}, "episode_reward_min": -801.4004371856357, "timesteps_since_restore": 1874400, "num_metric_batches_dropped": 0, "time_since_restore": 48633.84142112732, "episode_reward_max": -511.7474071644976, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1874400, "default": {"kl": 0.010690795257687569, "policy_loss": -0.14826248586177826, "vf_loss": 103.313720703125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9792962670326233, "entropy": 5.367863655090332, "cur_lr": 4.999999873689376e-05, "total_loss": 103.18168640136719}, "load_time_ms": 0.634, "num_steps_sampled": 1874400, "grad_time_ms": 618.582, "update_time_ms": 2.403, "sample_time_ms": 33866.309}, "date": "2025-08-31_05-41-24", "hostname": "cda-server-4", "time_this_iter_s": 34.078343629837036, "episodes_total": 9372, "timestamp": 1756611684, "node_ip": "10.157.146.4", "done": false, "time_total_s": 48633.84142112732, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1563, "episode_reward_mean": -619.2732719134643, "training_iteration": 1563, "timesteps_total": 1875600, "policy_reward_mean": {}, "episode_reward_min": -801.4004371856357, "timesteps_since_restore": 1875600, "num_metric_batches_dropped": 0, "time_since_restore": 48668.90150141716, "episode_reward_max": -511.7474071644976, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1875600, "default": {"kl": 0.010157187469303608, "policy_loss": -0.14615270495414734, "vf_loss": 71.15021514892578, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9888177514076233, "entropy": 5.463284969329834, "cur_lr": 4.999999873689376e-05, "total_loss": 71.01950073242188}, "load_time_ms": 0.635, "num_steps_sampled": 1875600, "grad_time_ms": 626.998, "update_time_ms": 2.413, "sample_time_ms": 33878.635}, "date": "2025-08-31_05-41-59", "hostname": "cda-server-4", "time_this_iter_s": 35.0600802898407, "episodes_total": 9378, "timestamp": 1756611719, "node_ip": "10.157.146.4", "done": false, "time_total_s": 48668.90150141716, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1564, "episode_reward_mean": -618.8533895622395, "training_iteration": 1564, "timesteps_total": 1876800, "policy_reward_mean": {}, "episode_reward_min": -801.4004371856357, "timesteps_since_restore": 1876800, "num_metric_batches_dropped": 0, "time_since_restore": 48703.53028130531, "episode_reward_max": -511.7474071644976, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1876800, "default": {"kl": 0.008505391888320446, "policy_loss": -0.12539547681808472, "vf_loss": 227.36630249023438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9699607491493225, "entropy": 5.072801113128662, "cur_lr": 4.999999873689376e-05, "total_loss": 227.2538299560547}, "load_time_ms": 0.649, "num_steps_sampled": 1876800, "grad_time_ms": 636.198, "update_time_ms": 2.421, "sample_time_ms": 33966.986}, "date": "2025-08-31_05-42-34", "hostname": "cda-server-4", "time_this_iter_s": 34.628779888153076, "episodes_total": 9384, "timestamp": 1756611754, "node_ip": "10.157.146.4", "done": false, "time_total_s": 48703.53028130531, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1565, "episode_reward_mean": -616.9569112890795, "training_iteration": 1565, "timesteps_total": 1878000, "policy_reward_mean": {}, "episode_reward_min": -801.4004371856357, "timesteps_since_restore": 1878000, "num_metric_batches_dropped": 0, "time_since_restore": 48737.86846971512, "episode_reward_max": -511.7474071644976, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1878000, "default": {"kl": 0.011403360404074192, "policy_loss": -0.14091867208480835, "vf_loss": 429.6531982421875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9555771946907043, "entropy": 5.219686031341553, "cur_lr": 4.999999873689376e-05, "total_loss": 429.52960205078125}, "load_time_ms": 0.649, "num_steps_sampled": 1878000, "grad_time_ms": 656.953, "update_time_ms": 2.36, "sample_time_ms": 33923.669}, "date": "2025-08-31_05-43-08", "hostname": "cda-server-4", "time_this_iter_s": 34.3381884098053, "episodes_total": 9390, "timestamp": 1756611788, "node_ip": "10.157.146.4", "done": false, "time_total_s": 48737.86846971512, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1566, "episode_reward_mean": -615.5124137648398, "training_iteration": 1566, "timesteps_total": 1879200, "policy_reward_mean": {}, "episode_reward_min": -801.4004371856357, "timesteps_since_restore": 1879200, "num_metric_batches_dropped": 0, "time_since_restore": 48772.81625509262, "episode_reward_max": -511.7474071644976, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1879200, "default": {"kl": 0.011052601970732212, "policy_loss": -0.15078110992908478, "vf_loss": 102.16666412353516, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9889829158782959, "entropy": 5.289636611938477, "cur_lr": 4.999999873689376e-05, "total_loss": 102.03266906738281}, "load_time_ms": 0.664, "num_steps_sampled": 1879200, "grad_time_ms": 667.789, "update_time_ms": 2.339, "sample_time_ms": 33937.789}, "date": "2025-08-31_05-43-43", "hostname": "cda-server-4", "time_this_iter_s": 34.94778537750244, "episodes_total": 9396, "timestamp": 1756611823, "node_ip": "10.157.146.4", "done": false, "time_total_s": 48772.81625509262, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1567, "episode_reward_mean": -617.2323633077347, "training_iteration": 1567, "timesteps_total": 1880400, "policy_reward_mean": {}, "episode_reward_min": -801.4004371856357, "timesteps_since_restore": 1880400, "num_metric_batches_dropped": 0, "time_since_restore": 48807.254984378815, "episode_reward_max": -522.1119112861826, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1880400, "default": {"kl": 0.008067624643445015, "policy_loss": -0.08574031293392181, "vf_loss": 268.9961853027344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9733863472938538, "entropy": 5.224282741546631, "cur_lr": 4.999999873689376e-05, "total_loss": 268.9226989746094}, "load_time_ms": 0.626, "num_steps_sampled": 1880400, "grad_time_ms": 677.607, "update_time_ms": 2.36, "sample_time_ms": 33808.575}, "date": "2025-08-31_05-44-18", "hostname": "cda-server-4", "time_this_iter_s": 34.43872928619385, "episodes_total": 9402, "timestamp": 1756611858, "node_ip": "10.157.146.4", "done": false, "time_total_s": 48807.254984378815, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1568, "episode_reward_mean": -617.0116457898882, "training_iteration": 1568, "timesteps_total": 1881600, "policy_reward_mean": {}, "episode_reward_min": -801.4004371856357, "timesteps_since_restore": 1881600, "num_metric_batches_dropped": 0, "time_since_restore": 48842.131799697876, "episode_reward_max": -522.1119112861826, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1881600, "default": {"kl": 0.013759467750787735, "policy_loss": -0.16066783666610718, "vf_loss": 463.2481994628906, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9730408787727356, "entropy": 5.335076808929443, "cur_lr": 4.999999873689376e-05, "total_loss": 463.1083984375}, "load_time_ms": 0.612, "num_steps_sampled": 1881600, "grad_time_ms": 690.847, "update_time_ms": 2.367, "sample_time_ms": 33930.176}, "date": "2025-08-31_05-44-52", "hostname": "cda-server-4", "time_this_iter_s": 34.87681531906128, "episodes_total": 9408, "timestamp": 1756611892, "node_ip": "10.157.146.4", "done": false, "time_total_s": 48842.131799697876, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1569, "episode_reward_mean": -616.0933271003553, "training_iteration": 1569, "timesteps_total": 1882800, "policy_reward_mean": {}, "episode_reward_min": -801.4004371856357, "timesteps_since_restore": 1882800, "num_metric_batches_dropped": 0, "time_since_restore": 48875.83149576187, "episode_reward_max": -522.1119112861826, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1882800, "default": {"kl": 0.010340298525989056, "policy_loss": -0.12332011759281158, "vf_loss": 389.4866638183594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9490721821784973, "entropy": 5.146902084350586, "cur_lr": 4.999999873689376e-05, "total_loss": 389.3789978027344}, "load_time_ms": 0.613, "num_steps_sampled": 1882800, "grad_time_ms": 702.281, "update_time_ms": 2.284, "sample_time_ms": 33822.3}, "date": "2025-08-31_05-45-26", "hostname": "cda-server-4", "time_this_iter_s": 33.69969606399536, "episodes_total": 9414, "timestamp": 1756611926, "node_ip": "10.157.146.4", "done": false, "time_total_s": 48875.83149576187, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1570, "episode_reward_mean": -614.9396708716976, "training_iteration": 1570, "timesteps_total": 1884000, "policy_reward_mean": {}, "episode_reward_min": -801.4004371856357, "timesteps_since_restore": 1884000, "num_metric_batches_dropped": 0, "time_since_restore": 48910.40542650223, "episode_reward_max": -522.1119112861826, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1884000, "default": {"kl": 0.009237091057002544, "policy_loss": -0.12330284714698792, "vf_loss": 459.6260986328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9446129202842712, "entropy": 4.945051670074463, "cur_lr": 4.999999873689376e-05, "total_loss": 459.5168151855469}, "load_time_ms": 0.602, "num_steps_sampled": 1884000, "grad_time_ms": 696.963, "update_time_ms": 2.256, "sample_time_ms": 33752.758}, "date": "2025-08-31_05-46-01", "hostname": "cda-server-4", "time_this_iter_s": 34.573930740356445, "episodes_total": 9420, "timestamp": 1756611961, "node_ip": "10.157.146.4", "done": false, "time_total_s": 48910.40542650223, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1571, "episode_reward_mean": -615.6457722581931, "training_iteration": 1571, "timesteps_total": 1885200, "policy_reward_mean": {}, "episode_reward_min": -801.4004371856357, "timesteps_since_restore": 1885200, "num_metric_batches_dropped": 0, "time_since_restore": 48944.77001070976, "episode_reward_max": -522.1119112861826, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1885200, "default": {"kl": 0.010713557712733746, "policy_loss": -0.1445755958557129, "vf_loss": 406.400634765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.986443817615509, "entropy": 5.231691360473633, "cur_lr": 4.999999873689376e-05, "total_loss": 406.2723388671875}, "load_time_ms": 0.602, "num_steps_sampled": 1885200, "grad_time_ms": 691.579, "update_time_ms": 2.236, "sample_time_ms": 33802.402}, "date": "2025-08-31_05-46-35", "hostname": "cda-server-4", "time_this_iter_s": 34.36458420753479, "episodes_total": 9426, "timestamp": 1756611995, "node_ip": "10.157.146.4", "done": false, "time_total_s": 48944.77001070976, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1572, "episode_reward_mean": -615.5712214850247, "training_iteration": 1572, "timesteps_total": 1886400, "policy_reward_mean": {}, "episode_reward_min": -801.4004371856357, "timesteps_since_restore": 1886400, "num_metric_batches_dropped": 0, "time_since_restore": 48978.794353723526, "episode_reward_max": -522.1119112861826, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1886400, "default": {"kl": 0.00908267218619585, "policy_loss": -0.11038964241743088, "vf_loss": 187.56524658203125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9783860445022583, "entropy": 5.103265762329102, "cur_lr": 4.999999873689376e-05, "total_loss": 187.46865844726562}, "load_time_ms": 0.6, "num_steps_sampled": 1886400, "grad_time_ms": 685.065, "update_time_ms": 2.249, "sample_time_ms": 33803.51}, "date": "2025-08-31_05-47-09", "hostname": "cda-server-4", "time_this_iter_s": 34.02434301376343, "episodes_total": 9432, "timestamp": 1756612029, "node_ip": "10.157.146.4", "done": false, "time_total_s": 48978.794353723526, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1573, "episode_reward_mean": -614.6883659304915, "training_iteration": 1573, "timesteps_total": 1887600, "policy_reward_mean": {}, "episode_reward_min": -801.4004371856357, "timesteps_since_restore": 1887600, "num_metric_batches_dropped": 0, "time_since_restore": 49013.134041547775, "episode_reward_max": -522.1119112861826, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1887600, "default": {"kl": 0.009659973904490471, "policy_loss": -0.14134515821933746, "vf_loss": 166.90435791015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9856593608856201, "entropy": 5.208453178405762, "cur_lr": 4.999999873689376e-05, "total_loss": 166.7776641845703}, "load_time_ms": 0.597, "num_steps_sampled": 1887600, "grad_time_ms": 685.389, "update_time_ms": 2.26, "sample_time_ms": 33731.179}, "date": "2025-08-31_05-47-44", "hostname": "cda-server-4", "time_this_iter_s": 34.33968782424927, "episodes_total": 9438, "timestamp": 1756612064, "node_ip": "10.157.146.4", "done": false, "time_total_s": 49013.134041547775, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1574, "episode_reward_mean": -612.8613038060295, "training_iteration": 1574, "timesteps_total": 1888800, "policy_reward_mean": {}, "episode_reward_min": -801.4004371856357, "timesteps_since_restore": 1888800, "num_metric_batches_dropped": 0, "time_since_restore": 49047.92683720589, "episode_reward_max": -522.1119112861826, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1888800, "default": {"kl": 0.012199001386761665, "policy_loss": -0.15525542199611664, "vf_loss": 307.03497314453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9709591269493103, "entropy": 5.389886379241943, "cur_lr": 4.999999873689376e-05, "total_loss": 306.8982238769531}, "load_time_ms": 0.578, "num_steps_sampled": 1888800, "grad_time_ms": 694.471, "update_time_ms": 2.242, "sample_time_ms": 33738.452}, "date": "2025-08-31_05-48-18", "hostname": "cda-server-4", "time_this_iter_s": 34.79279565811157, "episodes_total": 9444, "timestamp": 1756612098, "node_ip": "10.157.146.4", "done": false, "time_total_s": 49047.92683720589, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1575, "episode_reward_mean": -609.6456154823829, "training_iteration": 1575, "timesteps_total": 1890000, "policy_reward_mean": {}, "episode_reward_min": -801.4004371856357, "timesteps_since_restore": 1890000, "num_metric_batches_dropped": 0, "time_since_restore": 49082.42353892326, "episode_reward_max": -522.1119112861826, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1890000, "default": {"kl": 0.010561560280621052, "policy_loss": -0.11740194261074066, "vf_loss": 119.18310546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9847737550735474, "entropy": 4.969969272613525, "cur_lr": 4.999999873689376e-05, "total_loss": 119.08175659179688}, "load_time_ms": 0.606, "num_steps_sampled": 1890000, "grad_time_ms": 681.517, "update_time_ms": 2.314, "sample_time_ms": 33767.077}, "date": "2025-08-31_05-48-53", "hostname": "cda-server-4", "time_this_iter_s": 34.49670171737671, "episodes_total": 9450, "timestamp": 1756612133, "node_ip": "10.157.146.4", "done": false, "time_total_s": 49082.42353892326, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1576, "episode_reward_mean": -610.2410059782598, "training_iteration": 1576, "timesteps_total": 1891200, "policy_reward_mean": {}, "episode_reward_min": -801.4004371856357, "timesteps_since_restore": 1891200, "num_metric_batches_dropped": 0, "time_since_restore": 49115.80488753319, "episode_reward_max": -522.1119112861826, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1891200, "default": {"kl": 0.011459075845777988, "policy_loss": -0.14477583765983582, "vf_loss": 289.9872741699219, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9727954864501953, "entropy": 5.292919158935547, "cur_lr": 4.999999873689376e-05, "total_loss": 289.85992431640625}, "load_time_ms": 0.595, "num_steps_sampled": 1891200, "grad_time_ms": 673.121, "update_time_ms": 2.274, "sample_time_ms": 33618.871}, "date": "2025-08-31_05-49-26", "hostname": "cda-server-4", "time_this_iter_s": 33.381348609924316, "episodes_total": 9456, "timestamp": 1756612166, "node_ip": "10.157.146.4", "done": false, "time_total_s": 49115.80488753319, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1577, "episode_reward_mean": -608.0761926859701, "training_iteration": 1577, "timesteps_total": 1892400, "policy_reward_mean": {}, "episode_reward_min": -663.6254017889756, "timesteps_since_restore": 1892400, "num_metric_batches_dropped": 0, "time_since_restore": 49149.59594655037, "episode_reward_max": -522.1119112861826, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1892400, "default": {"kl": 0.009152946062386036, "policy_loss": -0.1250387281179428, "vf_loss": 263.818603515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9716595411300659, "entropy": 5.31683874130249, "cur_lr": 4.999999873689376e-05, "total_loss": 263.7074279785156}, "load_time_ms": 0.606, "num_steps_sampled": 1892400, "grad_time_ms": 654.925, "update_time_ms": 2.29, "sample_time_ms": 33572.238}, "date": "2025-08-31_05-50-00", "hostname": "cda-server-4", "time_this_iter_s": 33.7910590171814, "episodes_total": 9462, "timestamp": 1756612200, "node_ip": "10.157.146.4", "done": false, "time_total_s": 49149.59594655037, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1578, "episode_reward_mean": -610.4660563495346, "training_iteration": 1578, "timesteps_total": 1893600, "policy_reward_mean": {}, "episode_reward_min": -663.6254017889756, "timesteps_since_restore": 1893600, "num_metric_batches_dropped": 0, "time_since_restore": 49183.6937186718, "episode_reward_max": -524.4666472980541, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1893600, "default": {"kl": 0.010539502836763859, "policy_loss": -0.14274920523166656, "vf_loss": 370.0993957519531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9584049582481384, "entropy": 5.121731758117676, "cur_lr": 4.999999873689376e-05, "total_loss": 369.97265625}, "load_time_ms": 0.613, "num_steps_sampled": 1893600, "grad_time_ms": 649.824, "update_time_ms": 2.368, "sample_time_ms": 33499.289}, "date": "2025-08-31_05-50-34", "hostname": "cda-server-4", "time_this_iter_s": 34.09777212142944, "episodes_total": 9468, "timestamp": 1756612234, "node_ip": "10.157.146.4", "done": false, "time_total_s": 49183.6937186718, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1579, "episode_reward_mean": -611.4901797079176, "training_iteration": 1579, "timesteps_total": 1894800, "policy_reward_mean": {}, "episode_reward_min": -663.6254017889756, "timesteps_since_restore": 1894800, "num_metric_batches_dropped": 0, "time_since_restore": 49218.34445667267, "episode_reward_max": -524.4666472980541, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1894800, "default": {"kl": 0.012071688659489155, "policy_loss": -0.15572187304496765, "vf_loss": 252.2130584716797, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.983525812625885, "entropy": 5.3066253662109375, "cur_lr": 4.999999873689376e-05, "total_loss": 252.07568359375}, "load_time_ms": 0.63, "num_steps_sampled": 1894800, "grad_time_ms": 634.394, "update_time_ms": 2.428, "sample_time_ms": 33609.679}, "date": "2025-08-31_05-51-09", "hostname": "cda-server-4", "time_this_iter_s": 34.65073800086975, "episodes_total": 9474, "timestamp": 1756612269, "node_ip": "10.157.146.4", "done": false, "time_total_s": 49218.34445667267, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1580, "episode_reward_mean": -611.70572279367, "training_iteration": 1580, "timesteps_total": 1896000, "policy_reward_mean": {}, "episode_reward_min": -663.6254017889756, "timesteps_since_restore": 1896000, "num_metric_batches_dropped": 0, "time_since_restore": 49252.40743851662, "episode_reward_max": -524.4666472980541, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1896000, "default": {"kl": 0.008618133142590523, "policy_loss": -0.13618487119674683, "vf_loss": 289.6223449707031, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9687451124191284, "entropy": 5.367177486419678, "cur_lr": 4.999999873689376e-05, "total_loss": 289.4992370605469}, "load_time_ms": 0.636, "num_steps_sampled": 1896000, "grad_time_ms": 639.094, "update_time_ms": 2.458, "sample_time_ms": 33553.886}, "date": "2025-08-31_05-51-43", "hostname": "cda-server-4", "time_this_iter_s": 34.062981843948364, "episodes_total": 9480, "timestamp": 1756612303, "node_ip": "10.157.146.4", "done": false, "time_total_s": 49252.40743851662, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1581, "episode_reward_mean": -612.2361842272879, "training_iteration": 1581, "timesteps_total": 1897200, "policy_reward_mean": {}, "episode_reward_min": -663.6254017889756, "timesteps_since_restore": 1897200, "num_metric_batches_dropped": 0, "time_since_restore": 49287.99104595184, "episode_reward_max": -524.4666472980541, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1897200, "default": {"kl": 0.01074863038957119, "policy_loss": -0.15283602476119995, "vf_loss": 115.22262573242188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9905531406402588, "entropy": 5.37896203994751, "cur_lr": 4.999999873689376e-05, "total_loss": 115.08611297607422}, "load_time_ms": 0.647, "num_steps_sampled": 1897200, "grad_time_ms": 652.405, "update_time_ms": 2.485, "sample_time_ms": 33662.377}, "date": "2025-08-31_05-52-19", "hostname": "cda-server-4", "time_this_iter_s": 35.58360743522644, "episodes_total": 9486, "timestamp": 1756612339, "node_ip": "10.157.146.4", "done": false, "time_total_s": 49287.99104595184, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1582, "episode_reward_mean": -612.6250652754321, "training_iteration": 1582, "timesteps_total": 1898400, "policy_reward_mean": {}, "episode_reward_min": -663.6254017889756, "timesteps_since_restore": 1898400, "num_metric_batches_dropped": 0, "time_since_restore": 49323.18134903908, "episode_reward_max": -524.4666472980541, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1898400, "default": {"kl": 0.009319180622696877, "policy_loss": -0.13235822319984436, "vf_loss": 178.12152099609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9770320057868958, "entropy": 5.155594825744629, "cur_lr": 4.999999873689376e-05, "total_loss": 178.00332641601562}, "load_time_ms": 0.649, "num_steps_sampled": 1898400, "grad_time_ms": 663.407, "update_time_ms": 2.469, "sample_time_ms": 33767.968}, "date": "2025-08-31_05-52-54", "hostname": "cda-server-4", "time_this_iter_s": 35.1903030872345, "episodes_total": 9492, "timestamp": 1756612374, "node_ip": "10.157.146.4", "done": false, "time_total_s": 49323.18134903908, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1583, "episode_reward_mean": -613.667219516791, "training_iteration": 1583, "timesteps_total": 1899600, "policy_reward_mean": {}, "episode_reward_min": -663.6254017889756, "timesteps_since_restore": 1899600, "num_metric_batches_dropped": 0, "time_since_restore": 49356.734590530396, "episode_reward_max": -524.4666472980541, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1899600, "default": {"kl": 0.008609606884419918, "policy_loss": -0.1246991977095604, "vf_loss": 316.3526611328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9574536085128784, "entropy": 5.31766414642334, "cur_lr": 4.999999873689376e-05, "total_loss": 316.2410583496094}, "load_time_ms": 0.653, "num_steps_sampled": 1899600, "grad_time_ms": 653.309, "update_time_ms": 2.378, "sample_time_ms": 33699.474}, "date": "2025-08-31_05-53-27", "hostname": "cda-server-4", "time_this_iter_s": 33.55324149131775, "episodes_total": 9498, "timestamp": 1756612407, "node_ip": "10.157.146.4", "done": false, "time_total_s": 49356.734590530396, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1584, "episode_reward_mean": -613.5646396016856, "training_iteration": 1584, "timesteps_total": 1900800, "policy_reward_mean": {}, "episode_reward_min": -663.6254017889756, "timesteps_since_restore": 1900800, "num_metric_batches_dropped": 0, "time_since_restore": 49390.59574794769, "episode_reward_max": -524.4666472980541, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1900800, "default": {"kl": 0.011731366626918316, "policy_loss": -0.1420769989490509, "vf_loss": 80.99703979492188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9917171001434326, "entropy": 5.133200168609619, "cur_lr": 4.999999873689376e-05, "total_loss": 80.87277221679688}, "load_time_ms": 0.651, "num_steps_sampled": 1900800, "grad_time_ms": 649.04, "update_time_ms": 2.425, "sample_time_ms": 33610.612}, "date": "2025-08-31_05-54-01", "hostname": "cda-server-4", "time_this_iter_s": 33.86115741729736, "episodes_total": 9504, "timestamp": 1756612441, "node_ip": "10.157.146.4", "done": false, "time_total_s": 49390.59574794769, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1585, "episode_reward_mean": -614.0982268877566, "training_iteration": 1585, "timesteps_total": 1902000, "policy_reward_mean": {}, "episode_reward_min": -663.6254017889756, "timesteps_since_restore": 1902000, "num_metric_batches_dropped": 0, "time_since_restore": 49427.20791172981, "episode_reward_max": -541.9706747283017, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1902000, "default": {"kl": 0.011214806698262691, "policy_loss": -0.14963547885417938, "vf_loss": 138.36236572265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9873387217521667, "entropy": 5.352598190307617, "cur_lr": 4.999999873689376e-05, "total_loss": 138.22975158691406}, "load_time_ms": 0.636, "num_steps_sampled": 1902000, "grad_time_ms": 651.679, "update_time_ms": 2.326, "sample_time_ms": 33819.714}, "date": "2025-08-31_05-54-38", "hostname": "cda-server-4", "time_this_iter_s": 36.61216378211975, "episodes_total": 9510, "timestamp": 1756612478, "node_ip": "10.157.146.4", "done": false, "time_total_s": 49427.20791172981, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1586, "episode_reward_mean": -613.9115813786807, "training_iteration": 1586, "timesteps_total": 1903200, "policy_reward_mean": {}, "episode_reward_min": -663.6254017889756, "timesteps_since_restore": 1903200, "num_metric_batches_dropped": 0, "time_since_restore": 49462.46643638611, "episode_reward_max": -541.9706747283017, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1903200, "default": {"kl": 0.012299071997404099, "policy_loss": -0.1584821343421936, "vf_loss": 212.92979431152344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9811645150184631, "entropy": 5.347200393676758, "cur_lr": 4.999999873689376e-05, "total_loss": 212.78997802734375}, "load_time_ms": 0.639, "num_steps_sampled": 1903200, "grad_time_ms": 653.169, "update_time_ms": 2.374, "sample_time_ms": 34005.955}, "date": "2025-08-31_05-55-13", "hostname": "cda-server-4", "time_this_iter_s": 35.258524656295776, "episodes_total": 9516, "timestamp": 1756612513, "node_ip": "10.157.146.4", "done": false, "time_total_s": 49462.46643638611, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1587, "episode_reward_mean": -613.6336062256062, "training_iteration": 1587, "timesteps_total": 1904400, "policy_reward_mean": {}, "episode_reward_min": -663.6254017889756, "timesteps_since_restore": 1904400, "num_metric_batches_dropped": 0, "time_since_restore": 49496.59789800644, "episode_reward_max": -541.9706747283017, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1904400, "default": {"kl": 0.010486182756721973, "policy_loss": -0.139949768781662, "vf_loss": 346.3331298828125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9724347591400146, "entropy": 5.489974021911621, "cur_lr": 4.999999873689376e-05, "total_loss": 346.2091064453125}, "load_time_ms": 0.633, "num_steps_sampled": 1904400, "grad_time_ms": 665.502, "update_time_ms": 2.376, "sample_time_ms": 34027.736}, "date": "2025-08-31_05-55-47", "hostname": "cda-server-4", "time_this_iter_s": 34.13146162033081, "episodes_total": 9522, "timestamp": 1756612547, "node_ip": "10.157.146.4", "done": false, "time_total_s": 49496.59789800644, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1588, "episode_reward_mean": -613.6028521491883, "training_iteration": 1588, "timesteps_total": 1905600, "policy_reward_mean": {}, "episode_reward_min": -663.6254017889756, "timesteps_since_restore": 1905600, "num_metric_batches_dropped": 0, "time_since_restore": 49530.240626096725, "episode_reward_max": -541.9706747283017, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1905600, "default": {"kl": 0.009891675785183907, "policy_loss": -0.1333807408809662, "vf_loss": 199.69114685058594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9790459871292114, "entropy": 5.248780727386475, "cur_lr": 4.999999873689376e-05, "total_loss": 199.57278442382812}, "load_time_ms": 0.631, "num_steps_sampled": 1905600, "grad_time_ms": 669.865, "update_time_ms": 2.322, "sample_time_ms": 33978.04}, "date": "2025-08-31_05-56-21", "hostname": "cda-server-4", "time_this_iter_s": 33.642728090286255, "episodes_total": 9528, "timestamp": 1756612581, "node_ip": "10.157.146.4", "done": false, "time_total_s": 49530.240626096725, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1589, "episode_reward_mean": -614.1872442828058, "training_iteration": 1589, "timesteps_total": 1906800, "policy_reward_mean": {}, "episode_reward_min": -663.6254017889756, "timesteps_since_restore": 1906800, "num_metric_batches_dropped": 0, "time_since_restore": 49565.66792678833, "episode_reward_max": -541.9706747283017, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1906800, "default": {"kl": 0.01014305092394352, "policy_loss": -0.12496035546064377, "vf_loss": 423.14447021484375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9726378917694092, "entropy": 5.049015522003174, "cur_lr": 4.999999873689376e-05, "total_loss": 423.0349426269531}, "load_time_ms": 0.623, "num_steps_sampled": 1906800, "grad_time_ms": 661.122, "update_time_ms": 2.302, "sample_time_ms": 34064.517}, "date": "2025-08-31_05-56-56", "hostname": "cda-server-4", "time_this_iter_s": 35.427300691604614, "episodes_total": 9534, "timestamp": 1756612616, "node_ip": "10.157.146.4", "done": false, "time_total_s": 49565.66792678833, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1590, "episode_reward_mean": -613.5211564955603, "training_iteration": 1590, "timesteps_total": 1908000, "policy_reward_mean": {}, "episode_reward_min": -663.6254017889756, "timesteps_since_restore": 1908000, "num_metric_batches_dropped": 0, "time_since_restore": 49600.00480747223, "episode_reward_max": -541.9706747283017, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1908000, "default": {"kl": 0.011694024316966534, "policy_loss": -0.1347058117389679, "vf_loss": 260.364013671875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9756119847297668, "entropy": 5.2146406173706055, "cur_lr": 4.999999873689376e-05, "total_loss": 260.2471008300781}, "load_time_ms": 0.62, "num_steps_sampled": 1908000, "grad_time_ms": 653.206, "update_time_ms": 2.275, "sample_time_ms": 34099.877}, "date": "2025-08-31_05-57-31", "hostname": "cda-server-4", "time_this_iter_s": 34.336880683898926, "episodes_total": 9540, "timestamp": 1756612651, "node_ip": "10.157.146.4", "done": false, "time_total_s": 49600.00480747223, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1591, "episode_reward_mean": -614.1721366016989, "training_iteration": 1591, "timesteps_total": 1909200, "policy_reward_mean": {}, "episode_reward_min": -663.6254017889756, "timesteps_since_restore": 1909200, "num_metric_batches_dropped": 0, "time_since_restore": 49633.83096790314, "episode_reward_max": -541.9706747283017, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1909200, "default": {"kl": 0.009814348071813583, "policy_loss": -0.14851845800876617, "vf_loss": 169.09747314453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9768996834754944, "entropy": 5.387808322906494, "cur_lr": 4.999999873689376e-05, "total_loss": 168.96385192871094}, "load_time_ms": 0.611, "num_steps_sampled": 1909200, "grad_time_ms": 653.905, "update_time_ms": 2.305, "sample_time_ms": 33923.41}, "date": "2025-08-31_05-58-05", "hostname": "cda-server-4", "time_this_iter_s": 33.8261604309082, "episodes_total": 9546, "timestamp": 1756612685, "node_ip": "10.157.146.4", "done": false, "time_total_s": 49633.83096790314, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1592, "episode_reward_mean": -612.9004864769308, "training_iteration": 1592, "timesteps_total": 1910400, "policy_reward_mean": {}, "episode_reward_min": -659.9975749669235, "timesteps_since_restore": 1910400, "num_metric_batches_dropped": 0, "time_since_restore": 49668.68288207054, "episode_reward_max": -476.2367995474341, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1910400, "default": {"kl": 0.011301208287477493, "policy_loss": -0.14738230407238007, "vf_loss": 424.6429138183594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9582871198654175, "entropy": 5.260366916656494, "cur_lr": 4.999999873689376e-05, "total_loss": 424.5126953125}, "load_time_ms": 0.646, "num_steps_sampled": 1910400, "grad_time_ms": 657.752, "update_time_ms": 2.277, "sample_time_ms": 33885.674}, "date": "2025-08-31_05-58-40", "hostname": "cda-server-4", "time_this_iter_s": 34.851914167404175, "episodes_total": 9552, "timestamp": 1756612720, "node_ip": "10.157.146.4", "done": false, "time_total_s": 49668.68288207054, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1593, "episode_reward_mean": -613.3574381978112, "training_iteration": 1593, "timesteps_total": 1911600, "policy_reward_mean": {}, "episode_reward_min": -659.9975749669235, "timesteps_since_restore": 1911600, "num_metric_batches_dropped": 0, "time_since_restore": 49703.28253245354, "episode_reward_max": -476.2367995474341, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1911600, "default": {"kl": 0.009498902596533298, "policy_loss": -0.12586185336112976, "vf_loss": 189.81068420410156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9789502620697021, "entropy": 5.253913402557373, "cur_lr": 4.999999873689376e-05, "total_loss": 189.6992645263672}, "load_time_ms": 0.646, "num_steps_sampled": 1911600, "grad_time_ms": 647.378, "update_time_ms": 2.336, "sample_time_ms": 34000.604}, "date": "2025-08-31_05-59-14", "hostname": "cda-server-4", "time_this_iter_s": 34.599650382995605, "episodes_total": 9558, "timestamp": 1756612754, "node_ip": "10.157.146.4", "done": false, "time_total_s": 49703.28253245354, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1594, "episode_reward_mean": -615.0803760797678, "training_iteration": 1594, "timesteps_total": 1912800, "policy_reward_mean": {}, "episode_reward_min": -659.9975749669235, "timesteps_since_restore": 1912800, "num_metric_batches_dropped": 0, "time_since_restore": 49736.84429311752, "episode_reward_max": -476.2367995474341, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1912800, "default": {"kl": 0.012205700390040874, "policy_loss": -0.16225481033325195, "vf_loss": 86.51405334472656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9882986545562744, "entropy": 5.396505355834961, "cur_lr": 4.999999873689376e-05, "total_loss": 86.37033081054688}, "load_time_ms": 0.643, "num_steps_sampled": 1912800, "grad_time_ms": 632.336, "update_time_ms": 2.309, "sample_time_ms": 33985.715}, "date": "2025-08-31_05-59-48", "hostname": "cda-server-4", "time_this_iter_s": 33.561760663986206, "episodes_total": 9564, "timestamp": 1756612788, "node_ip": "10.157.146.4", "done": false, "time_total_s": 49736.84429311752, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1595, "episode_reward_mean": -614.8514206478801, "training_iteration": 1595, "timesteps_total": 1914000, "policy_reward_mean": {}, "episode_reward_min": -659.2815880780578, "timesteps_since_restore": 1914000, "num_metric_batches_dropped": 0, "time_since_restore": 49770.41298913956, "episode_reward_max": -476.2367995474341, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1914000, "default": {"kl": 0.009250112809240818, "policy_loss": -0.14368432760238647, "vf_loss": 212.90956115722656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9845846891403198, "entropy": 5.028726100921631, "cur_lr": 4.999999873689376e-05, "total_loss": 212.77993774414062}, "load_time_ms": 0.634, "num_steps_sampled": 1914000, "grad_time_ms": 619.543, "update_time_ms": 2.326, "sample_time_ms": 33694.201}, "date": "2025-08-31_06-00-21", "hostname": "cda-server-4", "time_this_iter_s": 33.56869602203369, "episodes_total": 9570, "timestamp": 1756612821, "node_ip": "10.157.146.4", "done": false, "time_total_s": 49770.41298913956, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1596, "episode_reward_mean": -614.1451791393664, "training_iteration": 1596, "timesteps_total": 1915200, "policy_reward_mean": {}, "episode_reward_min": -659.2815880780578, "timesteps_since_restore": 1915200, "num_metric_batches_dropped": 0, "time_since_restore": 49804.82386279106, "episode_reward_max": -476.2367995474341, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1915200, "default": {"kl": 0.012048114091157913, "policy_loss": -0.159254252910614, "vf_loss": 185.20896911621094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9815284013748169, "entropy": 5.417332172393799, "cur_lr": 4.999999873689376e-05, "total_loss": 185.06802368164062}, "load_time_ms": 0.634, "num_steps_sampled": 1915200, "grad_time_ms": 601.15, "update_time_ms": 2.259, "sample_time_ms": 33627.885}, "date": "2025-08-31_06-00-56", "hostname": "cda-server-4", "time_this_iter_s": 34.41087365150452, "episodes_total": 9576, "timestamp": 1756612856, "node_ip": "10.157.146.4", "done": false, "time_total_s": 49804.82386279106, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1597, "episode_reward_mean": -614.7506411503374, "training_iteration": 1597, "timesteps_total": 1916400, "policy_reward_mean": {}, "episode_reward_min": -659.2815880780578, "timesteps_since_restore": 1916400, "num_metric_batches_dropped": 0, "time_since_restore": 49839.73019742966, "episode_reward_max": -476.2367995474341, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1916400, "default": {"kl": 0.009908688254654408, "policy_loss": -0.13958127796649933, "vf_loss": 35.93141555786133, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9955876469612122, "entropy": 5.4966583251953125, "cur_lr": 4.999999873689376e-05, "total_loss": 35.806884765625}, "load_time_ms": 0.636, "num_steps_sampled": 1916400, "grad_time_ms": 595.237, "update_time_ms": 2.22, "sample_time_ms": 33711.277}, "date": "2025-08-31_06-01-31", "hostname": "cda-server-4", "time_this_iter_s": 34.90633463859558, "episodes_total": 9582, "timestamp": 1756612891, "node_ip": "10.157.146.4", "done": false, "time_total_s": 49839.73019742966, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1598, "episode_reward_mean": -614.5800754956109, "training_iteration": 1598, "timesteps_total": 1917600, "policy_reward_mean": {}, "episode_reward_min": -659.2815880780578, "timesteps_since_restore": 1917600, "num_metric_batches_dropped": 0, "time_since_restore": 49874.25486493111, "episode_reward_max": -476.2367995474341, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1917600, "default": {"kl": 0.012762553058564663, "policy_loss": -0.13832026720046997, "vf_loss": 767.267822265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9750194549560547, "entropy": 5.0085625648498535, "cur_lr": 4.999999873689376e-05, "total_loss": 767.1488647460938}, "load_time_ms": 0.633, "num_steps_sampled": 1917600, "grad_time_ms": 594.082, "update_time_ms": 2.237, "sample_time_ms": 33800.548}, "date": "2025-08-31_06-02-05", "hostname": "cda-server-4", "time_this_iter_s": 34.524667501449585, "episodes_total": 9588, "timestamp": 1756612925, "node_ip": "10.157.146.4", "done": false, "time_total_s": 49874.25486493111, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1599, "episode_reward_mean": -613.3430191289615, "training_iteration": 1599, "timesteps_total": 1918800, "policy_reward_mean": {}, "episode_reward_min": -659.2815880780578, "timesteps_since_restore": 1918800, "num_metric_batches_dropped": 0, "time_since_restore": 49908.21275782585, "episode_reward_max": -476.2367995474341, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1918800, "default": {"kl": 0.010099534876644611, "policy_loss": -0.143032044172287, "vf_loss": 170.43653869628906, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9855481386184692, "entropy": 5.002508163452148, "cur_lr": 4.999999873689376e-05, "total_loss": 170.308837890625}, "load_time_ms": 0.631, "num_steps_sampled": 1918800, "grad_time_ms": 611.444, "update_time_ms": 2.274, "sample_time_ms": 33636.196}, "date": "2025-08-31_06-02-39", "hostname": "cda-server-4", "time_this_iter_s": 33.95789289474487, "episodes_total": 9594, "timestamp": 1756612959, "node_ip": "10.157.146.4", "done": false, "time_total_s": 49908.21275782585, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1600, "episode_reward_mean": -614.000305730697, "training_iteration": 1600, "timesteps_total": 1920000, "policy_reward_mean": {}, "episode_reward_min": -659.2815880780578, "timesteps_since_restore": 1920000, "num_metric_batches_dropped": 0, "time_since_restore": 49942.54987502098, "episode_reward_max": -476.2367995474341, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1920000, "default": {"kl": 0.011339988559484482, "policy_loss": -0.1408868134021759, "vf_loss": 143.17303466796875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9869697093963623, "entropy": 5.1820759773254395, "cur_lr": 4.999999873689376e-05, "total_loss": 143.04937744140625}, "load_time_ms": 0.632, "num_steps_sampled": 1920000, "grad_time_ms": 613.232, "update_time_ms": 2.263, "sample_time_ms": 33634.424}, "date": "2025-08-31_06-03-14", "hostname": "cda-server-4", "time_this_iter_s": 34.337117195129395, "episodes_total": 9600, "timestamp": 1756612994, "node_ip": "10.157.146.4", "done": false, "time_total_s": 49942.54987502098, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1601, "episode_reward_mean": -613.214973184123, "training_iteration": 1601, "timesteps_total": 1921200, "policy_reward_mean": {}, "episode_reward_min": -659.2815880780578, "timesteps_since_restore": 1921200, "num_metric_batches_dropped": 0, "time_since_restore": 49977.53041744232, "episode_reward_max": -476.2367995474341, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1921200, "default": {"kl": 0.011021791025996208, "policy_loss": -0.15383389592170715, "vf_loss": 153.85533142089844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9832830429077148, "entropy": 5.089776992797852, "cur_lr": 4.999999873689376e-05, "total_loss": 153.71823120117188}, "load_time_ms": 0.636, "num_steps_sampled": 1921200, "grad_time_ms": 614.311, "update_time_ms": 2.171, "sample_time_ms": 33748.878}, "date": "2025-08-31_06-03-49", "hostname": "cda-server-4", "time_this_iter_s": 34.98054242134094, "episodes_total": 9606, "timestamp": 1756613029, "node_ip": "10.157.146.4", "done": false, "time_total_s": 49977.53041744232, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1602, "episode_reward_mean": -613.8222614306065, "training_iteration": 1602, "timesteps_total": 1922400, "policy_reward_mean": {}, "episode_reward_min": -659.2815880780578, "timesteps_since_restore": 1922400, "num_metric_batches_dropped": 0, "time_since_restore": 50011.62150526047, "episode_reward_max": -476.2367995474341, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1922400, "default": {"kl": 0.009797412902116776, "policy_loss": -0.14507606625556946, "vf_loss": 182.47235107421875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9769363403320312, "entropy": 5.154476642608643, "cur_lr": 4.999999873689376e-05, "total_loss": 182.3421630859375}, "load_time_ms": 0.611, "num_steps_sampled": 1922400, "grad_time_ms": 615.214, "update_time_ms": 2.162, "sample_time_ms": 33671.962}, "date": "2025-08-31_06-04-23", "hostname": "cda-server-4", "time_this_iter_s": 34.09108781814575, "episodes_total": 9612, "timestamp": 1756613063, "node_ip": "10.157.146.4", "done": false, "time_total_s": 50011.62150526047, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1603, "episode_reward_mean": -614.2344842902793, "training_iteration": 1603, "timesteps_total": 1923600, "policy_reward_mean": {}, "episode_reward_min": -659.2815880780578, "timesteps_since_restore": 1923600, "num_metric_batches_dropped": 0, "time_since_restore": 50046.19371819496, "episode_reward_max": -476.2367995474341, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1923600, "default": {"kl": 0.008543262258172035, "policy_loss": -0.1341245174407959, "vf_loss": 149.89288330078125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9810166954994202, "entropy": 5.427677631378174, "cur_lr": 4.999999873689376e-05, "total_loss": 149.771728515625}, "load_time_ms": 0.606, "num_steps_sampled": 1923600, "grad_time_ms": 638.265, "update_time_ms": 2.137, "sample_time_ms": 33646.207}, "date": "2025-08-31_06-04-57", "hostname": "cda-server-4", "time_this_iter_s": 34.57221293449402, "episodes_total": 9618, "timestamp": 1756613097, "node_ip": "10.157.146.4", "done": false, "time_total_s": 50046.19371819496, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1604, "episode_reward_mean": -613.9196488818387, "training_iteration": 1604, "timesteps_total": 1924800, "policy_reward_mean": {}, "episode_reward_min": -659.2815880780578, "timesteps_since_restore": 1924800, "num_metric_batches_dropped": 0, "time_since_restore": 50080.93727183342, "episode_reward_max": -476.2367995474341, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1924800, "default": {"kl": 0.011375617235898972, "policy_loss": -0.1554625779390335, "vf_loss": 39.66335678100586, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9963328242301941, "entropy": 5.228739261627197, "cur_lr": 4.999999873689376e-05, "total_loss": 39.52517318725586}, "load_time_ms": 0.61, "num_steps_sampled": 1924800, "grad_time_ms": 667.317, "update_time_ms": 2.181, "sample_time_ms": 33735.217}, "date": "2025-08-31_06-05-32", "hostname": "cda-server-4", "time_this_iter_s": 34.74355363845825, "episodes_total": 9624, "timestamp": 1756613132, "node_ip": "10.157.146.4", "done": false, "time_total_s": 50080.93727183342, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1605, "episode_reward_mean": -613.310311835588, "training_iteration": 1605, "timesteps_total": 1926000, "policy_reward_mean": {}, "episode_reward_min": -659.2815880780578, "timesteps_since_restore": 1926000, "num_metric_batches_dropped": 0, "time_since_restore": 50115.519105911255, "episode_reward_max": -476.2367995474341, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1926000, "default": {"kl": 0.010699630714952946, "policy_loss": -0.14580701291561127, "vf_loss": 100.21480560302734, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9903900623321533, "entropy": 4.897233963012695, "cur_lr": 4.999999873689376e-05, "total_loss": 100.08525085449219}, "load_time_ms": 0.601, "num_steps_sampled": 1926000, "grad_time_ms": 692.936, "update_time_ms": 2.222, "sample_time_ms": 33810.86}, "date": "2025-08-31_06-06-07", "hostname": "cda-server-4", "time_this_iter_s": 34.58183407783508, "episodes_total": 9630, "timestamp": 1756613167, "node_ip": "10.157.146.4", "done": false, "time_total_s": 50115.519105911255, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1606, "episode_reward_mean": -611.8908369605921, "training_iteration": 1606, "timesteps_total": 1927200, "policy_reward_mean": {}, "episode_reward_min": -659.2815880780578, "timesteps_since_restore": 1927200, "num_metric_batches_dropped": 0, "time_since_restore": 50150.286940813065, "episode_reward_max": -476.2367995474341, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1927200, "default": {"kl": 0.012520491145551205, "policy_loss": -0.14104801416397095, "vf_loss": 699.0006713867188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9641492366790771, "entropy": 4.9559326171875, "cur_lr": 4.999999873689376e-05, "total_loss": 698.878662109375}, "load_time_ms": 0.604, "num_steps_sampled": 1927200, "grad_time_ms": 704.468, "update_time_ms": 2.257, "sample_time_ms": 33834.995}, "date": "2025-08-31_06-06-41", "hostname": "cda-server-4", "time_this_iter_s": 34.76783490180969, "episodes_total": 9636, "timestamp": 1756613201, "node_ip": "10.157.146.4", "done": false, "time_total_s": 50150.286940813065, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1607, "episode_reward_mean": -611.4972759217553, "training_iteration": 1607, "timesteps_total": 1928400, "policy_reward_mean": {}, "episode_reward_min": -659.2815880780578, "timesteps_since_restore": 1928400, "num_metric_batches_dropped": 0, "time_since_restore": 50185.482519865036, "episode_reward_max": -476.2367995474341, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1928400, "default": {"kl": 0.01077330857515335, "policy_loss": -0.1564289629459381, "vf_loss": 399.5029602050781, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9647219777107239, "entropy": 5.261239528656006, "cur_lr": 4.999999873689376e-05, "total_loss": 399.3629150390625}, "load_time_ms": 0.633, "num_steps_sampled": 1928400, "grad_time_ms": 705.641, "update_time_ms": 2.22, "sample_time_ms": 33862.734}, "date": "2025-08-31_06-07-17", "hostname": "cda-server-4", "time_this_iter_s": 35.195579051971436, "episodes_total": 9642, "timestamp": 1756613237, "node_ip": "10.157.146.4", "done": false, "time_total_s": 50185.482519865036, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1608, "episode_reward_mean": -609.7530558858888, "training_iteration": 1608, "timesteps_total": 1929600, "policy_reward_mean": {}, "episode_reward_min": -659.2815880780578, "timesteps_since_restore": 1929600, "num_metric_batches_dropped": 0, "time_since_restore": 50220.6527929306, "episode_reward_max": -476.2367995474341, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1929600, "default": {"kl": 0.011589843779802322, "policy_loss": -0.1519947648048401, "vf_loss": 213.48887634277344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9834364652633667, "entropy": 5.091375350952148, "cur_lr": 4.999999873689376e-05, "total_loss": 213.35447692871094}, "load_time_ms": 0.63, "num_steps_sampled": 1929600, "grad_time_ms": 693.963, "update_time_ms": 2.232, "sample_time_ms": 33938.958}, "date": "2025-08-31_06-07-52", "hostname": "cda-server-4", "time_this_iter_s": 35.17027306556702, "episodes_total": 9648, "timestamp": 1756613272, "node_ip": "10.157.146.4", "done": false, "time_total_s": 50220.6527929306, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1609, "episode_reward_mean": -609.6034283212705, "training_iteration": 1609, "timesteps_total": 1930800, "policy_reward_mean": {}, "episode_reward_min": -659.2815880780578, "timesteps_since_restore": 1930800, "num_metric_batches_dropped": 0, "time_since_restore": 50255.25433039665, "episode_reward_max": -472.06052588354106, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1930800, "default": {"kl": 0.011071236804127693, "policy_loss": -0.14926797151565552, "vf_loss": 272.7643127441406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9754180908203125, "entropy": 5.037342071533203, "cur_lr": 4.999999873689376e-05, "total_loss": 272.6318664550781}, "load_time_ms": 0.628, "num_steps_sampled": 1930800, "grad_time_ms": 693.242, "update_time_ms": 2.209, "sample_time_ms": 34004.056}, "date": "2025-08-31_06-08-26", "hostname": "cda-server-4", "time_this_iter_s": 34.601537466049194, "episodes_total": 9654, "timestamp": 1756613306, "node_ip": "10.157.146.4", "done": false, "time_total_s": 50255.25433039665, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1610, "episode_reward_mean": -608.0985194483067, "training_iteration": 1610, "timesteps_total": 1932000, "policy_reward_mean": {}, "episode_reward_min": -659.2815880780578, "timesteps_since_restore": 1932000, "num_metric_batches_dropped": 0, "time_since_restore": 50289.40784215927, "episode_reward_max": -472.06052588354106, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1932000, "default": {"kl": 0.011734236031770706, "policy_loss": -0.15171512961387634, "vf_loss": 28.4974365234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9956327080726624, "entropy": 5.023453235626221, "cur_lr": 4.999999873689376e-05, "total_loss": 28.363544464111328}, "load_time_ms": 0.631, "num_steps_sampled": 1932000, "grad_time_ms": 689.694, "update_time_ms": 2.295, "sample_time_ms": 33989.024}, "date": "2025-08-31_06-09-01", "hostname": "cda-server-4", "time_this_iter_s": 34.15351176261902, "episodes_total": 9660, "timestamp": 1756613341, "node_ip": "10.157.146.4", "done": false, "time_total_s": 50289.40784215927, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1611, "episode_reward_mean": -607.5163895412866, "training_iteration": 1611, "timesteps_total": 1933200, "policy_reward_mean": {}, "episode_reward_min": -674.0557533129664, "timesteps_since_restore": 1933200, "num_metric_batches_dropped": 0, "time_since_restore": 50324.56378698349, "episode_reward_max": -472.06052588354106, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1933200, "default": {"kl": 0.013287747278809547, "policy_loss": -0.1420268714427948, "vf_loss": 599.3448486328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9381599426269531, "entropy": 5.324286460876465, "cur_lr": 4.999999873689376e-05, "total_loss": 599.2229614257812}, "load_time_ms": 0.626, "num_steps_sampled": 1933200, "grad_time_ms": 686.818, "update_time_ms": 2.376, "sample_time_ms": 34009.426}, "date": "2025-08-31_06-09-36", "hostname": "cda-server-4", "time_this_iter_s": 35.15594482421875, "episodes_total": 9666, "timestamp": 1756613376, "node_ip": "10.157.146.4", "done": false, "time_total_s": 50324.56378698349, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1612, "episode_reward_mean": -608.2847171437184, "training_iteration": 1612, "timesteps_total": 1934400, "policy_reward_mean": {}, "episode_reward_min": -674.0557533129664, "timesteps_since_restore": 1934400, "num_metric_batches_dropped": 0, "time_since_restore": 50358.86815714836, "episode_reward_max": -472.06052588354106, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1934400, "default": {"kl": 0.010507260449230671, "policy_loss": -0.14400175213813782, "vf_loss": 551.5286865234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9340536594390869, "entropy": 5.014490127563477, "cur_lr": 4.999999873689376e-05, "total_loss": 551.400634765625}, "load_time_ms": 0.617, "num_steps_sampled": 1934400, "grad_time_ms": 687.085, "update_time_ms": 2.37, "sample_time_ms": 34030.524}, "date": "2025-08-31_06-10-10", "hostname": "cda-server-4", "time_this_iter_s": 34.304370164871216, "episodes_total": 9672, "timestamp": 1756613410, "node_ip": "10.157.146.4", "done": false, "time_total_s": 50358.86815714836, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1613, "episode_reward_mean": -607.5285205972656, "training_iteration": 1613, "timesteps_total": 1935600, "policy_reward_mean": {}, "episode_reward_min": -674.0557533129664, "timesteps_since_restore": 1935600, "num_metric_batches_dropped": 0, "time_since_restore": 50393.30641770363, "episode_reward_max": -472.06052588354106, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1935600, "default": {"kl": 0.009880468249320984, "policy_loss": -0.13191258907318115, "vf_loss": 290.2701416015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9658535718917847, "entropy": 4.971090316772461, "cur_lr": 4.999999873689376e-05, "total_loss": 290.15325927734375}, "load_time_ms": 0.62, "num_steps_sampled": 1935600, "grad_time_ms": 704.963, "update_time_ms": 2.336, "sample_time_ms": 33999.092}, "date": "2025-08-31_06-10-45", "hostname": "cda-server-4", "time_this_iter_s": 34.438260555267334, "episodes_total": 9678, "timestamp": 1756613445, "node_ip": "10.157.146.4", "done": false, "time_total_s": 50393.30641770363, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1614, "episode_reward_mean": -607.3913997399167, "training_iteration": 1614, "timesteps_total": 1936800, "policy_reward_mean": {}, "episode_reward_min": -674.0557533129664, "timesteps_since_restore": 1936800, "num_metric_batches_dropped": 0, "time_since_restore": 50429.290727853775, "episode_reward_max": -472.06052588354106, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1936800, "default": {"kl": 0.01093390490859747, "policy_loss": -0.14157313108444214, "vf_loss": 255.7008514404297, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9742491245269775, "entropy": 5.296597003936768, "cur_lr": 4.999999873689376e-05, "total_loss": 255.57586669921875}, "load_time_ms": 0.621, "num_steps_sampled": 1936800, "grad_time_ms": 707.474, "update_time_ms": 2.465, "sample_time_ms": 34120.583}, "date": "2025-08-31_06-11-21", "hostname": "cda-server-4", "time_this_iter_s": 35.984310150146484, "episodes_total": 9684, "timestamp": 1756613481, "node_ip": "10.157.146.4", "done": false, "time_total_s": 50429.290727853775, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1615, "episode_reward_mean": -607.3167106809368, "training_iteration": 1615, "timesteps_total": 1938000, "policy_reward_mean": {}, "episode_reward_min": -674.0557533129664, "timesteps_since_restore": 1938000, "num_metric_batches_dropped": 0, "time_since_restore": 50464.45334601402, "episode_reward_max": -472.06052588354106, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1938000, "default": {"kl": 0.00896172784268856, "policy_loss": -0.12565389275550842, "vf_loss": 313.01446533203125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9617892503738403, "entropy": 4.881345272064209, "cur_lr": 4.999999873689376e-05, "total_loss": 312.90240478515625}, "load_time_ms": 0.624, "num_steps_sampled": 1938000, "grad_time_ms": 705.824, "update_time_ms": 2.438, "sample_time_ms": 34180.33}, "date": "2025-08-31_06-11-56", "hostname": "cda-server-4", "time_this_iter_s": 35.1626181602478, "episodes_total": 9690, "timestamp": 1756613516, "node_ip": "10.157.146.4", "done": false, "time_total_s": 50464.45334601402, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1616, "episode_reward_mean": -607.6392080024838, "training_iteration": 1616, "timesteps_total": 1939200, "policy_reward_mean": {}, "episode_reward_min": -674.0557533129664, "timesteps_since_restore": 1939200, "num_metric_batches_dropped": 0, "time_since_restore": 50498.59863424301, "episode_reward_max": -472.06052588354106, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1939200, "default": {"kl": 0.009828663431107998, "policy_loss": -0.12927840650081635, "vf_loss": 294.15484619140625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9674630761146545, "entropy": 5.101933002471924, "cur_lr": 4.999999873689376e-05, "total_loss": 294.0404968261719}, "load_time_ms": 0.621, "num_steps_sampled": 1939200, "grad_time_ms": 717.667, "update_time_ms": 2.458, "sample_time_ms": 34106.136}, "date": "2025-08-31_06-12-30", "hostname": "cda-server-4", "time_this_iter_s": 34.14528822898865, "episodes_total": 9696, "timestamp": 1756613550, "node_ip": "10.157.146.4", "done": false, "time_total_s": 50498.59863424301, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1617, "episode_reward_mean": -606.9515878925525, "training_iteration": 1617, "timesteps_total": 1940400, "policy_reward_mean": {}, "episode_reward_min": -674.0557533129664, "timesteps_since_restore": 1940400, "num_metric_batches_dropped": 0, "time_since_restore": 50532.90312600136, "episode_reward_max": -472.06052588354106, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1940400, "default": {"kl": 0.01179384533315897, "policy_loss": -0.13373877108097076, "vf_loss": 68.21562957763672, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9918888807296753, "entropy": 4.798585891723633, "cur_lr": 4.999999873689376e-05, "total_loss": 68.09980010986328}, "load_time_ms": 0.588, "num_steps_sampled": 1940400, "grad_time_ms": 724.884, "update_time_ms": 2.514, "sample_time_ms": 34009.826}, "date": "2025-08-31_06-13-04", "hostname": "cda-server-4", "time_this_iter_s": 34.30449175834656, "episodes_total": 9702, "timestamp": 1756613584, "node_ip": "10.157.146.4", "done": false, "time_total_s": 50532.90312600136, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1618, "episode_reward_mean": -608.1594563386315, "training_iteration": 1618, "timesteps_total": 1941600, "policy_reward_mean": {}, "episode_reward_min": -674.0557533129664, "timesteps_since_restore": 1941600, "num_metric_batches_dropped": 0, "time_since_restore": 50567.73391914368, "episode_reward_max": -472.06052588354106, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1941600, "default": {"kl": 0.012455095537006855, "policy_loss": -0.15165184438228607, "vf_loss": 225.9020538330078, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9916197657585144, "entropy": 5.097517013549805, "cur_lr": 4.999999873689376e-05, "total_loss": 225.76934814453125}, "load_time_ms": 0.592, "num_steps_sampled": 1941600, "grad_time_ms": 739.281, "update_time_ms": 2.564, "sample_time_ms": 33961.45}, "date": "2025-08-31_06-13-39", "hostname": "cda-server-4", "time_this_iter_s": 34.830793142318726, "episodes_total": 9708, "timestamp": 1756613619, "node_ip": "10.157.146.4", "done": false, "time_total_s": 50567.73391914368, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1619, "episode_reward_mean": -608.2767143720076, "training_iteration": 1619, "timesteps_total": 1942800, "policy_reward_mean": {}, "episode_reward_min": -674.0557533129664, "timesteps_since_restore": 1942800, "num_metric_batches_dropped": 0, "time_since_restore": 50603.41454744339, "episode_reward_max": -472.06052588354106, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1942800, "default": {"kl": 0.008815574459731579, "policy_loss": -0.1348278671503067, "vf_loss": 160.71243286132812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9778769016265869, "entropy": 4.954461097717285, "cur_lr": 4.999999873689376e-05, "total_loss": 160.59100341796875}, "load_time_ms": 0.598, "num_steps_sampled": 1942800, "grad_time_ms": 747.604, "update_time_ms": 2.536, "sample_time_ms": 34061.049}, "date": "2025-08-31_06-14-15", "hostname": "cda-server-4", "time_this_iter_s": 35.680628299713135, "episodes_total": 9714, "timestamp": 1756613655, "node_ip": "10.157.146.4", "done": false, "time_total_s": 50603.41454744339, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1620, "episode_reward_mean": -609.1643339345356, "training_iteration": 1620, "timesteps_total": 1944000, "policy_reward_mean": {}, "episode_reward_min": -757.0035875322523, "timesteps_since_restore": 1944000, "num_metric_batches_dropped": 0, "time_since_restore": 50636.794994831085, "episode_reward_max": -472.06052588354106, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1944000, "default": {"kl": 0.012471513822674751, "policy_loss": -0.16059446334838867, "vf_loss": 566.130126953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.96071457862854, "entropy": 5.363794803619385, "cur_lr": 4.999999873689376e-05, "total_loss": 565.988525390625}, "load_time_ms": 0.615, "num_steps_sampled": 1944000, "grad_time_ms": 760.292, "update_time_ms": 2.463, "sample_time_ms": 33971.235}, "date": "2025-08-31_06-14-48", "hostname": "cda-server-4", "time_this_iter_s": 33.38044738769531, "episodes_total": 9720, "timestamp": 1756613688, "node_ip": "10.157.146.4", "done": false, "time_total_s": 50636.794994831085, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1621, "episode_reward_mean": -609.4227917105636, "training_iteration": 1621, "timesteps_total": 1945200, "policy_reward_mean": {}, "episode_reward_min": -757.0035875322523, "timesteps_since_restore": 1945200, "num_metric_batches_dropped": 0, "time_since_restore": 50672.1175467968, "episode_reward_max": -472.06052588354106, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1945200, "default": {"kl": 0.00942912232130766, "policy_loss": -0.1254468709230423, "vf_loss": 127.43435668945312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9814857840538025, "entropy": 4.788263320922852, "cur_lr": 4.999999873689376e-05, "total_loss": 127.32322692871094}, "load_time_ms": 0.617, "num_steps_sampled": 1945200, "grad_time_ms": 760.486, "update_time_ms": 2.447, "sample_time_ms": 33987.622}, "date": "2025-08-31_06-15-24", "hostname": "cda-server-4", "time_this_iter_s": 35.3225519657135, "episodes_total": 9726, "timestamp": 1756613724, "node_ip": "10.157.146.4", "done": false, "time_total_s": 50672.1175467968, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1622, "episode_reward_mean": -610.9483890500687, "training_iteration": 1622, "timesteps_total": 1946400, "policy_reward_mean": {}, "episode_reward_min": -757.0035875322523, "timesteps_since_restore": 1946400, "num_metric_batches_dropped": 0, "time_since_restore": 50707.92476916313, "episode_reward_max": -472.06052588354106, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1946400, "default": {"kl": 0.008216303773224354, "policy_loss": -0.1254539042711258, "vf_loss": 209.0336151123047, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9785864949226379, "entropy": 5.230060577392578, "cur_lr": 4.999999873689376e-05, "total_loss": 208.92062377929688}, "load_time_ms": 0.627, "num_steps_sampled": 1946400, "grad_time_ms": 748.734, "update_time_ms": 2.491, "sample_time_ms": 34149.531}, "date": "2025-08-31_06-15-59", "hostname": "cda-server-4", "time_this_iter_s": 35.80722236633301, "episodes_total": 9732, "timestamp": 1756613759, "node_ip": "10.157.146.4", "done": false, "time_total_s": 50707.92476916313, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1623, "episode_reward_mean": -612.2956053239635, "training_iteration": 1623, "timesteps_total": 1947600, "policy_reward_mean": {}, "episode_reward_min": -757.0035875322523, "timesteps_since_restore": 1947600, "num_metric_batches_dropped": 0, "time_since_restore": 50742.03413271904, "episode_reward_max": -472.06052588354106, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1947600, "default": {"kl": 0.01187726017087698, "policy_loss": -0.1393466591835022, "vf_loss": 625.478515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9244450330734253, "entropy": 5.545161724090576, "cur_lr": 4.999999873689376e-05, "total_loss": 625.357177734375}, "load_time_ms": 0.625, "num_steps_sampled": 1947600, "grad_time_ms": 728.046, "update_time_ms": 2.604, "sample_time_ms": 34137.326}, "date": "2025-08-31_06-16-34", "hostname": "cda-server-4", "time_this_iter_s": 34.1093635559082, "episodes_total": 9738, "timestamp": 1756613794, "node_ip": "10.157.146.4", "done": false, "time_total_s": 50742.03413271904, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1624, "episode_reward_mean": -613.7514729488198, "training_iteration": 1624, "timesteps_total": 1948800, "policy_reward_mean": {}, "episode_reward_min": -757.0035875322523, "timesteps_since_restore": 1948800, "num_metric_batches_dropped": 0, "time_since_restore": 50775.815180301666, "episode_reward_max": -472.06052588354106, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1948800, "default": {"kl": 0.00951874628663063, "policy_loss": -0.120943583548069, "vf_loss": 106.88705444335938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9873864650726318, "entropy": 5.206047058105469, "cur_lr": 4.999999873689376e-05, "total_loss": 106.78057098388672}, "load_time_ms": 0.626, "num_steps_sampled": 1948800, "grad_time_ms": 723.864, "update_time_ms": 2.461, "sample_time_ms": 33921.342}, "date": "2025-08-31_06-17-07", "hostname": "cda-server-4", "time_this_iter_s": 33.78104758262634, "episodes_total": 9744, "timestamp": 1756613827, "node_ip": "10.157.146.4", "done": false, "time_total_s": 50775.815180301666, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1625, "episode_reward_mean": -613.633064289386, "training_iteration": 1625, "timesteps_total": 1950000, "policy_reward_mean": {}, "episode_reward_min": -757.0035875322523, "timesteps_since_restore": 1950000, "num_metric_batches_dropped": 0, "time_since_restore": 50809.922572374344, "episode_reward_max": -472.06052588354106, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1950000, "default": {"kl": 0.009191655553877354, "policy_loss": -0.12587100267410278, "vf_loss": 239.751708984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9615206122398376, "entropy": 5.021203994750977, "cur_lr": 4.999999873689376e-05, "total_loss": 239.6398162841797}, "load_time_ms": 0.626, "num_steps_sampled": 1950000, "grad_time_ms": 718.448, "update_time_ms": 2.503, "sample_time_ms": 33821.137}, "date": "2025-08-31_06-17-41", "hostname": "cda-server-4", "time_this_iter_s": 34.10739207267761, "episodes_total": 9750, "timestamp": 1756613861, "node_ip": "10.157.146.4", "done": false, "time_total_s": 50809.922572374344, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1626, "episode_reward_mean": -615.2598055537685, "training_iteration": 1626, "timesteps_total": 1951200, "policy_reward_mean": {}, "episode_reward_min": -757.0035875322523, "timesteps_since_restore": 1951200, "num_metric_batches_dropped": 0, "time_since_restore": 50845.08430671692, "episode_reward_max": -573.0136508054343, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1951200, "default": {"kl": 0.010688696056604385, "policy_loss": -0.14027565717697144, "vf_loss": 66.07373046875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9923903346061707, "entropy": 5.1427903175354, "cur_lr": 4.999999873689376e-05, "total_loss": 65.94969177246094}, "load_time_ms": 0.629, "num_steps_sampled": 1951200, "grad_time_ms": 705.114, "update_time_ms": 2.543, "sample_time_ms": 33936.096}, "date": "2025-08-31_06-18-17", "hostname": "cda-server-4", "time_this_iter_s": 35.16173434257507, "episodes_total": 9756, "timestamp": 1756613897, "node_ip": "10.157.146.4", "done": false, "time_total_s": 50845.08430671692, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1627, "episode_reward_mean": -615.1880311930489, "training_iteration": 1627, "timesteps_total": 1952400, "policy_reward_mean": {}, "episode_reward_min": -757.0035875322523, "timesteps_since_restore": 1952400, "num_metric_batches_dropped": 0, "time_since_restore": 50878.85563468933, "episode_reward_max": -573.0136508054343, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1952400, "default": {"kl": 0.009200125932693481, "policy_loss": -0.11838340759277344, "vf_loss": 172.97999572753906, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9731835126876831, "entropy": 5.211206912994385, "cur_lr": 4.999999873689376e-05, "total_loss": 172.87557983398438}, "load_time_ms": 0.629, "num_steps_sampled": 1952400, "grad_time_ms": 685.714, "update_time_ms": 2.588, "sample_time_ms": 33902.092}, "date": "2025-08-31_06-18-50", "hostname": "cda-server-4", "time_this_iter_s": 33.77132797241211, "episodes_total": 9762, "timestamp": 1756613930, "node_ip": "10.157.146.4", "done": false, "time_total_s": 50878.85563468933, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1628, "episode_reward_mean": -615.7248617368781, "training_iteration": 1628, "timesteps_total": 1953600, "policy_reward_mean": {}, "episode_reward_min": -757.0035875322523, "timesteps_since_restore": 1953600, "num_metric_batches_dropped": 0, "time_since_restore": 50913.03299713135, "episode_reward_max": -573.0136508054343, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1953600, "default": {"kl": 0.01106284186244011, "policy_loss": -0.12561286985874176, "vf_loss": 138.22378540039062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9825920462608337, "entropy": 5.105738162994385, "cur_lr": 4.999999873689376e-05, "total_loss": 138.11495971679688}, "load_time_ms": 0.635, "num_steps_sampled": 1953600, "grad_time_ms": 665.346, "update_time_ms": 2.559, "sample_time_ms": 33857.101}, "date": "2025-08-31_06-19-25", "hostname": "cda-server-4", "time_this_iter_s": 34.1773624420166, "episodes_total": 9768, "timestamp": 1756613965, "node_ip": "10.157.146.4", "done": false, "time_total_s": 50913.03299713135, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1629, "episode_reward_mean": -615.8212869382421, "training_iteration": 1629, "timesteps_total": 1954800, "policy_reward_mean": {}, "episode_reward_min": -757.0035875322523, "timesteps_since_restore": 1954800, "num_metric_batches_dropped": 0, "time_since_restore": 50947.349959135056, "episode_reward_max": -573.0136508054343, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1954800, "default": {"kl": 0.00924542173743248, "policy_loss": -0.12892858684062958, "vf_loss": 293.5361328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9671323299407959, "entropy": 5.040517330169678, "cur_lr": 4.999999873689376e-05, "total_loss": 293.4212646484375}, "load_time_ms": 0.63, "num_steps_sampled": 1954800, "grad_time_ms": 656.686, "update_time_ms": 2.589, "sample_time_ms": 33729.375}, "date": "2025-08-31_06-19-59", "hostname": "cda-server-4", "time_this_iter_s": 34.316962003707886, "episodes_total": 9774, "timestamp": 1756613999, "node_ip": "10.157.146.4", "done": false, "time_total_s": 50947.349959135056, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1630, "episode_reward_mean": -615.9436895422622, "training_iteration": 1630, "timesteps_total": 1956000, "policy_reward_mean": {}, "episode_reward_min": -757.0035875322523, "timesteps_since_restore": 1956000, "num_metric_batches_dropped": 0, "time_since_restore": 50982.52263331413, "episode_reward_max": -573.0136508054343, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1956000, "default": {"kl": 0.010141528211534023, "policy_loss": -0.13264423608779907, "vf_loss": 92.01423645019531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.988943338394165, "entropy": 4.9521965980529785, "cur_lr": 4.999999873689376e-05, "total_loss": 91.89700317382812}, "load_time_ms": 0.613, "num_steps_sampled": 1956000, "grad_time_ms": 655.86, "update_time_ms": 2.614, "sample_time_ms": 33909.328}, "date": "2025-08-31_06-20-34", "hostname": "cda-server-4", "time_this_iter_s": 35.17267417907715, "episodes_total": 9780, "timestamp": 1756614034, "node_ip": "10.157.146.4", "done": false, "time_total_s": 50982.52263331413, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1631, "episode_reward_mean": -616.8362580829686, "training_iteration": 1631, "timesteps_total": 1957200, "policy_reward_mean": {}, "episode_reward_min": -773.4829560811617, "timesteps_since_restore": 1957200, "num_metric_batches_dropped": 0, "time_since_restore": 51016.21455574036, "episode_reward_max": -573.0136508054343, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1957200, "default": {"kl": 0.01123502105474472, "policy_loss": -0.14947505295276642, "vf_loss": 712.6895751953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.938970685005188, "entropy": 5.332995414733887, "cur_lr": 4.999999873689376e-05, "total_loss": 712.55712890625}, "load_time_ms": 0.623, "num_steps_sampled": 1957200, "grad_time_ms": 657.023, "update_time_ms": 2.591, "sample_time_ms": 33745.141}, "date": "2025-08-31_06-21-08", "hostname": "cda-server-4", "time_this_iter_s": 33.691922426223755, "episodes_total": 9786, "timestamp": 1756614068, "node_ip": "10.157.146.4", "done": false, "time_total_s": 51016.21455574036, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1632, "episode_reward_mean": -616.6496447469779, "training_iteration": 1632, "timesteps_total": 1958400, "policy_reward_mean": {}, "episode_reward_min": -773.4829560811617, "timesteps_since_restore": 1958400, "num_metric_batches_dropped": 0, "time_since_restore": 51050.84179329872, "episode_reward_max": -573.0136508054343, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1958400, "default": {"kl": 0.009223905391991138, "policy_loss": -0.12050158530473709, "vf_loss": 175.14227294921875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9754626154899597, "entropy": 5.042898178100586, "cur_lr": 4.999999873689376e-05, "total_loss": 175.0357666015625}, "load_time_ms": 0.614, "num_steps_sampled": 1958400, "grad_time_ms": 666.565, "update_time_ms": 2.624, "sample_time_ms": 33617.65}, "date": "2025-08-31_06-21-43", "hostname": "cda-server-4", "time_this_iter_s": 34.62723755836487, "episodes_total": 9792, "timestamp": 1756614103, "node_ip": "10.157.146.4", "done": false, "time_total_s": 51050.84179329872, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1633, "episode_reward_mean": -617.1491802846745, "training_iteration": 1633, "timesteps_total": 1959600, "policy_reward_mean": {}, "episode_reward_min": -773.4829560811617, "timesteps_since_restore": 1959600, "num_metric_batches_dropped": 0, "time_since_restore": 51085.44942903519, "episode_reward_max": -573.0136508054343, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1959600, "default": {"kl": 0.009537763893604279, "policy_loss": -0.13450467586517334, "vf_loss": 140.08482360839844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9793922901153564, "entropy": 5.460491180419922, "cur_lr": 4.999999873689376e-05, "total_loss": 139.96481323242188}, "load_time_ms": 0.623, "num_steps_sampled": 1959600, "grad_time_ms": 652.341, "update_time_ms": 2.518, "sample_time_ms": 33681.866}, "date": "2025-08-31_06-22-17", "hostname": "cda-server-4", "time_this_iter_s": 34.607635736465454, "episodes_total": 9798, "timestamp": 1756614137, "node_ip": "10.157.146.4", "done": false, "time_total_s": 51085.44942903519, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1634, "episode_reward_mean": -616.7564762178939, "training_iteration": 1634, "timesteps_total": 1960800, "policy_reward_mean": {}, "episode_reward_min": -773.4829560811617, "timesteps_since_restore": 1960800, "num_metric_batches_dropped": 0, "time_since_restore": 51119.26212000847, "episode_reward_max": -573.0136508054343, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1960800, "default": {"kl": 0.010692781768739223, "policy_loss": -0.1504356861114502, "vf_loss": 172.2418670654297, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9897536039352417, "entropy": 5.235387802124023, "cur_lr": 4.999999873689376e-05, "total_loss": 172.107666015625}, "load_time_ms": 0.632, "num_steps_sampled": 1960800, "grad_time_ms": 651.726, "update_time_ms": 2.522, "sample_time_ms": 33685.651}, "date": "2025-08-31_06-22-51", "hostname": "cda-server-4", "time_this_iter_s": 33.81269097328186, "episodes_total": 9804, "timestamp": 1756614171, "node_ip": "10.157.146.4", "done": false, "time_total_s": 51119.26212000847, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1635, "episode_reward_mean": -617.7963387193064, "training_iteration": 1635, "timesteps_total": 1962000, "policy_reward_mean": {}, "episode_reward_min": -773.4829560811617, "timesteps_since_restore": 1962000, "num_metric_batches_dropped": 0, "time_since_restore": 51152.88803577423, "episode_reward_max": -568.6822423787587, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1962000, "default": {"kl": 0.008680105209350586, "policy_loss": -0.1199895441532135, "vf_loss": 951.0889892578125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8894563317298889, "entropy": 5.327816963195801, "cur_lr": 4.999999873689376e-05, "total_loss": 950.9821166992188}, "load_time_ms": 0.632, "num_steps_sampled": 1962000, "grad_time_ms": 652.352, "update_time_ms": 2.494, "sample_time_ms": 33636.989}, "date": "2025-08-31_06-23-25", "hostname": "cda-server-4", "time_this_iter_s": 33.62591576576233, "episodes_total": 9810, "timestamp": 1756614205, "node_ip": "10.157.146.4", "done": false, "time_total_s": 51152.88803577423, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1636, "episode_reward_mean": -616.1508657847318, "training_iteration": 1636, "timesteps_total": 1963200, "policy_reward_mean": {}, "episode_reward_min": -773.4829560811617, "timesteps_since_restore": 1963200, "num_metric_batches_dropped": 0, "time_since_restore": 51187.191855192184, "episode_reward_max": -503.5482877284669, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1963200, "default": {"kl": 0.009870079346001148, "policy_loss": -0.12372969090938568, "vf_loss": 433.2717590332031, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9288752675056458, "entropy": 5.079380512237549, "cur_lr": 4.999999873689376e-05, "total_loss": 433.16302490234375}, "load_time_ms": 0.623, "num_steps_sampled": 1963200, "grad_time_ms": 653.63, "update_time_ms": 2.414, "sample_time_ms": 33549.953}, "date": "2025-08-31_06-23-59", "hostname": "cda-server-4", "time_this_iter_s": 34.30381941795349, "episodes_total": 9816, "timestamp": 1756614239, "node_ip": "10.157.146.4", "done": false, "time_total_s": 51187.191855192184, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1637, "episode_reward_mean": -615.3298734344509, "training_iteration": 1637, "timesteps_total": 1964400, "policy_reward_mean": {}, "episode_reward_min": -773.4829560811617, "timesteps_since_restore": 1964400, "num_metric_batches_dropped": 0, "time_since_restore": 51222.07940530777, "episode_reward_max": -503.5482877284669, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1964400, "default": {"kl": 0.00924039725214243, "policy_loss": -0.12366923689842224, "vf_loss": 154.09593200683594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9781310558319092, "entropy": 4.939330577850342, "cur_lr": 4.999999873689376e-05, "total_loss": 153.98629760742188}, "load_time_ms": 0.623, "num_steps_sampled": 1964400, "grad_time_ms": 650.813, "update_time_ms": 2.369, "sample_time_ms": 33664.514}, "date": "2025-08-31_06-24-34", "hostname": "cda-server-4", "time_this_iter_s": 34.88755011558533, "episodes_total": 9822, "timestamp": 1756614274, "node_ip": "10.157.146.4", "done": false, "time_total_s": 51222.07940530777, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1638, "episode_reward_mean": -614.9148582553067, "training_iteration": 1638, "timesteps_total": 1965600, "policy_reward_mean": {}, "episode_reward_min": -773.4829560811617, "timesteps_since_restore": 1965600, "num_metric_batches_dropped": 0, "time_since_restore": 51255.98560166359, "episode_reward_max": -503.5482877284669, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1965600, "default": {"kl": 0.011175472289323807, "policy_loss": -0.13887134194374084, "vf_loss": 255.14675903320312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.982837438583374, "entropy": 5.1894450187683105, "cur_lr": 4.999999873689376e-05, "total_loss": 255.02484130859375}, "load_time_ms": 0.617, "num_steps_sampled": 1965600, "grad_time_ms": 663.154, "update_time_ms": 2.302, "sample_time_ms": 33625.13}, "date": "2025-08-31_06-25-08", "hostname": "cda-server-4", "time_this_iter_s": 33.9061963558197, "episodes_total": 9828, "timestamp": 1756614308, "node_ip": "10.157.146.4", "done": false, "time_total_s": 51255.98560166359, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1639, "episode_reward_mean": -614.6017926659943, "training_iteration": 1639, "timesteps_total": 1966800, "policy_reward_mean": {}, "episode_reward_min": -773.4829560811617, "timesteps_since_restore": 1966800, "num_metric_batches_dropped": 0, "time_since_restore": 51290.26431727409, "episode_reward_max": -503.5482877284669, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1966800, "default": {"kl": 0.009619134478271008, "policy_loss": -0.13286609947681427, "vf_loss": 85.10311126708984, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9911465048789978, "entropy": 5.023772716522217, "cur_lr": 4.999999873689376e-05, "total_loss": 84.98484802246094}, "load_time_ms": 0.641, "num_steps_sampled": 1966800, "grad_time_ms": 670.002, "update_time_ms": 2.307, "sample_time_ms": 33614.448}, "date": "2025-08-31_06-25-42", "hostname": "cda-server-4", "time_this_iter_s": 34.27871561050415, "episodes_total": 9834, "timestamp": 1756614342, "node_ip": "10.157.146.4", "done": false, "time_total_s": 51290.26431727409, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1640, "episode_reward_mean": -614.0486695617831, "training_iteration": 1640, "timesteps_total": 1968000, "policy_reward_mean": {}, "episode_reward_min": -773.4829560811617, "timesteps_since_restore": 1968000, "num_metric_batches_dropped": 0, "time_since_restore": 51324.65726232529, "episode_reward_max": -503.5482877284669, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1968000, "default": {"kl": 0.011978821828961372, "policy_loss": -0.14480192959308624, "vf_loss": 334.5757141113281, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9724797010421753, "entropy": 5.097685813903809, "cur_lr": 4.999999873689376e-05, "total_loss": 334.4490966796875}, "load_time_ms": 0.64, "num_steps_sampled": 1968000, "grad_time_ms": 670.08, "update_time_ms": 2.245, "sample_time_ms": 33536.537}, "date": "2025-08-31_06-26-16", "hostname": "cda-server-4", "time_this_iter_s": 34.39294505119324, "episodes_total": 9840, "timestamp": 1756614376, "node_ip": "10.157.146.4", "done": false, "time_total_s": 51324.65726232529, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1641, "episode_reward_mean": -613.8522194302764, "training_iteration": 1641, "timesteps_total": 1969200, "policy_reward_mean": {}, "episode_reward_min": -773.4829560811617, "timesteps_since_restore": 1969200, "num_metric_batches_dropped": 0, "time_since_restore": 51359.680092811584, "episode_reward_max": -503.5482877284669, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1969200, "default": {"kl": 0.009480051696300507, "policy_loss": -0.1139678955078125, "vf_loss": 70.27813720703125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9897640943527222, "entropy": 4.940563201904297, "cur_lr": 4.999999873689376e-05, "total_loss": 70.1785659790039}, "load_time_ms": 0.63, "num_steps_sampled": 1969200, "grad_time_ms": 669.42, "update_time_ms": 2.23, "sample_time_ms": 33670.326}, "date": "2025-08-31_06-26-52", "hostname": "cda-server-4", "time_this_iter_s": 35.02283048629761, "episodes_total": 9846, "timestamp": 1756614412, "node_ip": "10.157.146.4", "done": false, "time_total_s": 51359.680092811584, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1642, "episode_reward_mean": -614.6529710504168, "training_iteration": 1642, "timesteps_total": 1970400, "policy_reward_mean": {}, "episode_reward_min": -773.4829560811617, "timesteps_since_restore": 1970400, "num_metric_batches_dropped": 0, "time_since_restore": 51393.39672803879, "episode_reward_max": -503.5482877284669, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1970400, "default": {"kl": 0.009717006236314774, "policy_loss": -0.1282375454902649, "vf_loss": 260.8291320800781, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9846591949462891, "entropy": 5.199324607849121, "cur_lr": 4.999999873689376e-05, "total_loss": 260.71563720703125}, "load_time_ms": 0.638, "num_steps_sampled": 1970400, "grad_time_ms": 666.734, "update_time_ms": 2.17, "sample_time_ms": 33581.999}, "date": "2025-08-31_06-27-25", "hostname": "cda-server-4", "time_this_iter_s": 33.71663522720337, "episodes_total": 9852, "timestamp": 1756614445, "node_ip": "10.157.146.4", "done": false, "time_total_s": 51393.39672803879, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1643, "episode_reward_mean": -614.6664251985939, "training_iteration": 1643, "timesteps_total": 1971600, "policy_reward_mean": {}, "episode_reward_min": -773.4829560811617, "timesteps_since_restore": 1971600, "num_metric_batches_dropped": 0, "time_since_restore": 51428.15582203865, "episode_reward_max": -503.5482877284669, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1971600, "default": {"kl": 0.008865865878760815, "policy_loss": -0.12067735195159912, "vf_loss": 155.69137573242188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9812123775482178, "entropy": 5.124043941497803, "cur_lr": 4.999999873689376e-05, "total_loss": 155.58416748046875}, "load_time_ms": 0.628, "num_steps_sampled": 1971600, "grad_time_ms": 678.334, "update_time_ms": 2.165, "sample_time_ms": 33585.547}, "date": "2025-08-31_06-28-00", "hostname": "cda-server-4", "time_this_iter_s": 34.75909399986267, "episodes_total": 9858, "timestamp": 1756614480, "node_ip": "10.157.146.4", "done": false, "time_total_s": 51428.15582203865, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1644, "episode_reward_mean": -614.616878311121, "training_iteration": 1644, "timesteps_total": 1972800, "policy_reward_mean": {}, "episode_reward_min": -773.4829560811617, "timesteps_since_restore": 1972800, "num_metric_batches_dropped": 0, "time_since_restore": 51463.24611163139, "episode_reward_max": -503.5482877284669, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1972800, "default": {"kl": 0.011073005385696888, "policy_loss": -0.14731517434120178, "vf_loss": 238.12657165527344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9632048010826111, "entropy": 5.118959426879883, "cur_lr": 4.999999873689376e-05, "total_loss": 237.99609375}, "load_time_ms": 0.623, "num_steps_sampled": 1972800, "grad_time_ms": 679.131, "update_time_ms": 2.146, "sample_time_ms": 33712.513}, "date": "2025-08-31_06-28-35", "hostname": "cda-server-4", "time_this_iter_s": 35.09028959274292, "episodes_total": 9864, "timestamp": 1756614515, "node_ip": "10.157.146.4", "done": false, "time_total_s": 51463.24611163139, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1645, "episode_reward_mean": -614.5608202540443, "training_iteration": 1645, "timesteps_total": 1974000, "policy_reward_mean": {}, "episode_reward_min": -773.4829560811617, "timesteps_since_restore": 1974000, "num_metric_batches_dropped": 0, "time_since_restore": 51497.576113939285, "episode_reward_max": -503.5482877284669, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1974000, "default": {"kl": 0.010175288654863834, "policy_loss": -0.11738783866167068, "vf_loss": 255.99688720703125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9792366027832031, "entropy": 5.006714820861816, "cur_lr": 4.999999873689376e-05, "total_loss": 255.8949432373047}, "load_time_ms": 0.625, "num_steps_sampled": 1974000, "grad_time_ms": 683.233, "update_time_ms": 2.161, "sample_time_ms": 33778.767}, "date": "2025-08-31_06-29-09", "hostname": "cda-server-4", "time_this_iter_s": 34.330002307891846, "episodes_total": 9870, "timestamp": 1756614549, "node_ip": "10.157.146.4", "done": false, "time_total_s": 51497.576113939285, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1646, "episode_reward_mean": -614.6156834175554, "training_iteration": 1646, "timesteps_total": 1975200, "policy_reward_mean": {}, "episode_reward_min": -773.4829560811617, "timesteps_since_restore": 1975200, "num_metric_batches_dropped": 0, "time_since_restore": 51531.99365353584, "episode_reward_max": -503.5482877284669, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1975200, "default": {"kl": 0.010739133693277836, "policy_loss": -0.14225424826145172, "vf_loss": 109.27821350097656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9904593229293823, "entropy": 5.017617225646973, "cur_lr": 4.999999873689376e-05, "total_loss": 109.15225982666016}, "load_time_ms": 0.625, "num_steps_sampled": 1975200, "grad_time_ms": 681.388, "update_time_ms": 2.157, "sample_time_ms": 33792.062}, "date": "2025-08-31_06-29-44", "hostname": "cda-server-4", "time_this_iter_s": 34.41753959655762, "episodes_total": 9876, "timestamp": 1756614584, "node_ip": "10.157.146.4", "done": false, "time_total_s": 51531.99365353584, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1647, "episode_reward_mean": -614.3863402484076, "training_iteration": 1647, "timesteps_total": 1976400, "policy_reward_mean": {}, "episode_reward_min": -684.8853324552879, "timesteps_since_restore": 1976400, "num_metric_batches_dropped": 0, "time_since_restore": 51563.22103500366, "episode_reward_max": -503.5482877284669, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1976400, "default": {"kl": 0.010380133055150509, "policy_loss": -0.1434503048658371, "vf_loss": 72.38493347167969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9915971755981445, "entropy": 5.168113708496094, "cur_lr": 4.999999873689376e-05, "total_loss": 72.25725555419922}, "load_time_ms": 0.621, "num_steps_sampled": 1976400, "grad_time_ms": 685.928, "update_time_ms": 2.15, "sample_time_ms": 33421.506}, "date": "2025-08-31_06-30-15", "hostname": "cda-server-4", "time_this_iter_s": 31.227381467819214, "episodes_total": 9882, "timestamp": 1756614615, "node_ip": "10.157.146.4", "done": false, "time_total_s": 51563.22103500366, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1648, "episode_reward_mean": -615.2992552249441, "training_iteration": 1648, "timesteps_total": 1977600, "policy_reward_mean": {}, "episode_reward_min": -684.8853324552879, "timesteps_since_restore": 1977600, "num_metric_batches_dropped": 0, "time_since_restore": 51598.340164899826, "episode_reward_max": -503.5482877284669, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1977600, "default": {"kl": 0.010435610078275204, "policy_loss": -0.14659643173217773, "vf_loss": 136.1812286376953, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9808775782585144, "entropy": 4.957277774810791, "cur_lr": 4.999999873689376e-05, "total_loss": 136.05047607421875}, "load_time_ms": 0.634, "num_steps_sampled": 1977600, "grad_time_ms": 682.773, "update_time_ms": 2.174, "sample_time_ms": 33545.968}, "date": "2025-08-31_06-30-50", "hostname": "cda-server-4", "time_this_iter_s": 35.11912989616394, "episodes_total": 9888, "timestamp": 1756614650, "node_ip": "10.157.146.4", "done": false, "time_total_s": 51598.340164899826, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1649, "episode_reward_mean": -616.1459650863799, "training_iteration": 1649, "timesteps_total": 1978800, "policy_reward_mean": {}, "episode_reward_min": -684.8853324552879, "timesteps_since_restore": 1978800, "num_metric_batches_dropped": 0, "time_since_restore": 51633.06691741943, "episode_reward_max": -503.5482877284669, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1978800, "default": {"kl": 0.011414283886551857, "policy_loss": -0.14544212818145752, "vf_loss": 278.1414489746094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9644259214401245, "entropy": 5.266412734985352, "cur_lr": 4.999999873689376e-05, "total_loss": 278.0133056640625}, "load_time_ms": 0.61, "num_steps_sampled": 1978800, "grad_time_ms": 678.615, "update_time_ms": 2.16, "sample_time_ms": 33594.916}, "date": "2025-08-31_06-31-25", "hostname": "cda-server-4", "time_this_iter_s": 34.726752519607544, "episodes_total": 9894, "timestamp": 1756614685, "node_ip": "10.157.146.4", "done": false, "time_total_s": 51633.06691741943, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1650, "episode_reward_mean": -615.4288002491752, "training_iteration": 1650, "timesteps_total": 1980000, "policy_reward_mean": {}, "episode_reward_min": -684.8853324552879, "timesteps_since_restore": 1980000, "num_metric_batches_dropped": 0, "time_since_restore": 51667.61470460892, "episode_reward_max": -503.5482877284669, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1980000, "default": {"kl": 0.010574530810117722, "policy_loss": -0.1509116142988205, "vf_loss": 165.16665649414062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.980872392654419, "entropy": 5.306469917297363, "cur_lr": 4.999999873689376e-05, "total_loss": 165.03179931640625}, "load_time_ms": 0.612, "num_steps_sampled": 1980000, "grad_time_ms": 676.098, "update_time_ms": 2.225, "sample_time_ms": 33612.821}, "date": "2025-08-31_06-32-00", "hostname": "cda-server-4", "time_this_iter_s": 34.54778718948364, "episodes_total": 9900, "timestamp": 1756614720, "node_ip": "10.157.146.4", "done": false, "time_total_s": 51667.61470460892, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1651, "episode_reward_mean": -614.8174318851588, "training_iteration": 1651, "timesteps_total": 1981200, "policy_reward_mean": {}, "episode_reward_min": -681.8097452707199, "timesteps_since_restore": 1981200, "num_metric_batches_dropped": 0, "time_since_restore": 51702.43178844452, "episode_reward_max": -503.5482877284669, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1981200, "default": {"kl": 0.010112615302205086, "policy_loss": -0.14464826881885529, "vf_loss": 176.8636932373047, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9843745827674866, "entropy": 4.981277942657471, "cur_lr": 4.999999873689376e-05, "total_loss": 176.7344207763672}, "load_time_ms": 0.61, "num_steps_sampled": 1981200, "grad_time_ms": 679.974, "update_time_ms": 2.332, "sample_time_ms": 33588.28}, "date": "2025-08-31_06-32-34", "hostname": "cda-server-4", "time_this_iter_s": 34.81708383560181, "episodes_total": 9906, "timestamp": 1756614754, "node_ip": "10.157.146.4", "done": false, "time_total_s": 51702.43178844452, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1652, "episode_reward_mean": -618.0067055133779, "training_iteration": 1652, "timesteps_total": 1982400, "policy_reward_mean": {}, "episode_reward_min": -756.4925361150586, "timesteps_since_restore": 1982400, "num_metric_batches_dropped": 0, "time_since_restore": 51736.82071852684, "episode_reward_max": -587.0250580082243, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1982400, "default": {"kl": 0.011564914137125015, "policy_loss": -0.12985759973526, "vf_loss": 811.514404296875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9431941509246826, "entropy": 5.348876476287842, "cur_lr": 4.999999873689376e-05, "total_loss": 811.402099609375}, "load_time_ms": 0.602, "num_steps_sampled": 1982400, "grad_time_ms": 684.156, "update_time_ms": 2.316, "sample_time_ms": 33651.301}, "date": "2025-08-31_06-33-09", "hostname": "cda-server-4", "time_this_iter_s": 34.38893008232117, "episodes_total": 9912, "timestamp": 1756614789, "node_ip": "10.157.146.4", "done": false, "time_total_s": 51736.82071852684, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1653, "episode_reward_mean": -619.0138446481325, "training_iteration": 1653, "timesteps_total": 1983600, "policy_reward_mean": {}, "episode_reward_min": -756.4925361150586, "timesteps_since_restore": 1983600, "num_metric_batches_dropped": 0, "time_since_restore": 51770.46069073677, "episode_reward_max": -587.0250580082243, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1983600, "default": {"kl": 0.011272651143372059, "policy_loss": -0.14977939426898956, "vf_loss": 87.43353271484375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9870225191116333, "entropy": 5.325479507446289, "cur_lr": 4.999999873689376e-05, "total_loss": 87.30087280273438}, "load_time_ms": 0.609, "num_steps_sampled": 1983600, "grad_time_ms": 688.639, "update_time_ms": 2.39, "sample_time_ms": 33534.859}, "date": "2025-08-31_06-33-43", "hostname": "cda-server-4", "time_this_iter_s": 33.63997220993042, "episodes_total": 9918, "timestamp": 1756614823, "node_ip": "10.157.146.4", "done": false, "time_total_s": 51770.46069073677, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1654, "episode_reward_mean": -620.0513956125337, "training_iteration": 1654, "timesteps_total": 1984800, "policy_reward_mean": {}, "episode_reward_min": -756.4925361150586, "timesteps_since_restore": 1984800, "num_metric_batches_dropped": 0, "time_since_restore": 51805.34515118599, "episode_reward_max": -587.0250580082243, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1984800, "default": {"kl": 0.009490307420492172, "policy_loss": -0.1196594089269638, "vf_loss": 53.216102600097656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9932494759559631, "entropy": 4.936820983886719, "cur_lr": 4.999999873689376e-05, "total_loss": 53.11085510253906}, "load_time_ms": 0.633, "num_steps_sampled": 1984800, "grad_time_ms": 685.968, "update_time_ms": 2.438, "sample_time_ms": 33516.837}, "date": "2025-08-31_06-34-17", "hostname": "cda-server-4", "time_this_iter_s": 34.88446044921875, "episodes_total": 9924, "timestamp": 1756614857, "node_ip": "10.157.146.4", "done": false, "time_total_s": 51805.34515118599, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1655, "episode_reward_mean": -619.9420938766455, "training_iteration": 1655, "timesteps_total": 1986000, "policy_reward_mean": {}, "episode_reward_min": -756.4925361150586, "timesteps_since_restore": 1986000, "num_metric_batches_dropped": 0, "time_since_restore": 51839.80745244026, "episode_reward_max": -587.0250580082243, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1986000, "default": {"kl": 0.012099426239728928, "policy_loss": -0.15630346536636353, "vf_loss": 191.43972778320312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9731664657592773, "entropy": 4.8590569496154785, "cur_lr": 4.999999873689376e-05, "total_loss": 191.30178833007812}, "load_time_ms": 0.632, "num_steps_sampled": 1986000, "grad_time_ms": 672.56, "update_time_ms": 2.426, "sample_time_ms": 33543.504}, "date": "2025-08-31_06-34-52", "hostname": "cda-server-4", "time_this_iter_s": 34.46230125427246, "episodes_total": 9930, "timestamp": 1756614892, "node_ip": "10.157.146.4", "done": false, "time_total_s": 51839.80745244026, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1656, "episode_reward_mean": -620.8162536016769, "training_iteration": 1656, "timesteps_total": 1987200, "policy_reward_mean": {}, "episode_reward_min": -756.4925361150586, "timesteps_since_restore": 1987200, "num_metric_batches_dropped": 0, "time_since_restore": 51873.69000029564, "episode_reward_max": -587.0250580082243, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1987200, "default": {"kl": 0.009684362448751926, "policy_loss": -0.14405468106269836, "vf_loss": 573.289306640625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9284927845001221, "entropy": 5.2923784255981445, "cur_lr": 4.999999873689376e-05, "total_loss": 573.159912109375}, "load_time_ms": 0.635, "num_steps_sampled": 1987200, "grad_time_ms": 666.57, "update_time_ms": 2.443, "sample_time_ms": 33496.021}, "date": "2025-08-31_06-35-26", "hostname": "cda-server-4", "time_this_iter_s": 33.8825478553772, "episodes_total": 9936, "timestamp": 1756614926, "node_ip": "10.157.146.4", "done": false, "time_total_s": 51873.69000029564, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1657, "episode_reward_mean": -621.7904504155517, "training_iteration": 1657, "timesteps_total": 1988400, "policy_reward_mean": {}, "episode_reward_min": -756.4925361150586, "timesteps_since_restore": 1988400, "num_metric_batches_dropped": 0, "time_since_restore": 51907.39214801788, "episode_reward_max": -587.0250580082243, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1988400, "default": {"kl": 0.010084950365126133, "policy_loss": -0.12043435126543045, "vf_loss": 611.98779296875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.925633430480957, "entropy": 5.228389263153076, "cur_lr": 4.999999873689376e-05, "total_loss": 611.8826293945312}, "load_time_ms": 0.648, "num_steps_sampled": 1988400, "grad_time_ms": 680.43, "update_time_ms": 2.441, "sample_time_ms": 33729.63}, "date": "2025-08-31_06-36-00", "hostname": "cda-server-4", "time_this_iter_s": 33.70214772224426, "episodes_total": 9942, "timestamp": 1756614960, "node_ip": "10.157.146.4", "done": false, "time_total_s": 51907.39214801788, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1658, "episode_reward_mean": -623.2725787529012, "training_iteration": 1658, "timesteps_total": 1989600, "policy_reward_mean": {}, "episode_reward_min": -756.4925361150586, "timesteps_since_restore": 1989600, "num_metric_batches_dropped": 0, "time_since_restore": 51942.19015240669, "episode_reward_max": -587.0250580082243, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1989600, "default": {"kl": 0.008761536329984665, "policy_loss": -0.1373872309923172, "vf_loss": 294.844482421875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9628414511680603, "entropy": 5.384030818939209, "cur_lr": 4.999999873689376e-05, "total_loss": 294.7204284667969}, "load_time_ms": 0.647, "num_steps_sampled": 1989600, "grad_time_ms": 690.5, "update_time_ms": 2.376, "sample_time_ms": 33687.459}, "date": "2025-08-31_06-36-34", "hostname": "cda-server-4", "time_this_iter_s": 34.798004388809204, "episodes_total": 9948, "timestamp": 1756614994, "node_ip": "10.157.146.4", "done": false, "time_total_s": 51942.19015240669, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1659, "episode_reward_mean": -622.336277378608, "training_iteration": 1659, "timesteps_total": 1990800, "policy_reward_mean": {}, "episode_reward_min": -756.4925361150586, "timesteps_since_restore": 1990800, "num_metric_batches_dropped": 0, "time_since_restore": 51976.67927932739, "episode_reward_max": -587.0250580082243, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1990800, "default": {"kl": 0.009397861547768116, "policy_loss": -0.12532258033752441, "vf_loss": 458.20172119140625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9360415935516357, "entropy": 5.08518648147583, "cur_lr": 4.999999873689376e-05, "total_loss": 458.0906677246094}, "load_time_ms": 0.68, "num_steps_sampled": 1990800, "grad_time_ms": 683.358, "update_time_ms": 2.441, "sample_time_ms": 33670.702}, "date": "2025-08-31_06-37-09", "hostname": "cda-server-4", "time_this_iter_s": 34.48912692070007, "episodes_total": 9954, "timestamp": 1756615029, "node_ip": "10.157.146.4", "done": false, "time_total_s": 51976.67927932739, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1660, "episode_reward_mean": -621.771653433216, "training_iteration": 1660, "timesteps_total": 1992000, "policy_reward_mean": {}, "episode_reward_min": -756.4925361150586, "timesteps_since_restore": 1992000, "num_metric_batches_dropped": 0, "time_since_restore": 52010.45788860321, "episode_reward_max": -587.0250580082243, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1992000, "default": {"kl": 0.011201784014701843, "policy_loss": -0.15425501763820648, "vf_loss": 464.1354675292969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9625365138053894, "entropy": 4.955488204956055, "cur_lr": 4.999999873689376e-05, "total_loss": 463.9981994628906}, "load_time_ms": 0.672, "num_steps_sampled": 1992000, "grad_time_ms": 681.231, "update_time_ms": 2.455, "sample_time_ms": 33595.931}, "date": "2025-08-31_06-37-43", "hostname": "cda-server-4", "time_this_iter_s": 33.77860927581787, "episodes_total": 9960, "timestamp": 1756615063, "node_ip": "10.157.146.4", "done": false, "time_total_s": 52010.45788860321, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1661, "episode_reward_mean": -621.8340999831426, "training_iteration": 1661, "timesteps_total": 1993200, "policy_reward_mean": {}, "episode_reward_min": -756.4925361150586, "timesteps_since_restore": 1993200, "num_metric_batches_dropped": 0, "time_since_restore": 52045.063470602036, "episode_reward_max": -592.391237450205, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1993200, "default": {"kl": 0.0098488237708807, "policy_loss": -0.141805037856102, "vf_loss": 450.3864440917969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9488226771354675, "entropy": 4.817741394042969, "cur_lr": 4.999999873689376e-05, "total_loss": 450.2596130371094}, "load_time_ms": 0.676, "num_steps_sampled": 1993200, "grad_time_ms": 672.596, "update_time_ms": 2.41, "sample_time_ms": 33583.47}, "date": "2025-08-31_06-38-17", "hostname": "cda-server-4", "time_this_iter_s": 34.60558199882507, "episodes_total": 9966, "timestamp": 1756615097, "node_ip": "10.157.146.4", "done": false, "time_total_s": 52045.063470602036, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1662, "episode_reward_mean": -622.0216121360999, "training_iteration": 1662, "timesteps_total": 1994400, "policy_reward_mean": {}, "episode_reward_min": -756.4925361150586, "timesteps_since_restore": 1994400, "num_metric_batches_dropped": 0, "time_since_restore": 52080.310765743256, "episode_reward_max": -589.6551277692329, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1994400, "default": {"kl": 0.009495251812040806, "policy_loss": -0.12776252627372742, "vf_loss": 137.24850463867188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9803173542022705, "entropy": 5.188528537750244, "cur_lr": 4.999999873689376e-05, "total_loss": 137.13516235351562}, "load_time_ms": 0.677, "num_steps_sampled": 1994400, "grad_time_ms": 670.285, "update_time_ms": 2.456, "sample_time_ms": 33671.636}, "date": "2025-08-31_06-38-53", "hostname": "cda-server-4", "time_this_iter_s": 35.24729514122009, "episodes_total": 9972, "timestamp": 1756615133, "node_ip": "10.157.146.4", "done": false, "time_total_s": 52080.310765743256, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1663, "episode_reward_mean": -622.7421620972785, "training_iteration": 1663, "timesteps_total": 1995600, "policy_reward_mean": {}, "episode_reward_min": -756.4925361150586, "timesteps_since_restore": 1995600, "num_metric_batches_dropped": 0, "time_since_restore": 52115.0779902935, "episode_reward_max": -589.6551277692329, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1995600, "default": {"kl": 0.010675818659365177, "policy_loss": -0.13226032257080078, "vf_loss": 223.3833770751953, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9749874472618103, "entropy": 5.140250205993652, "cur_lr": 4.999999873689376e-05, "total_loss": 223.26731872558594}, "load_time_ms": 0.675, "num_steps_sampled": 1995600, "grad_time_ms": 672.909, "update_time_ms": 2.368, "sample_time_ms": 33781.819}, "date": "2025-08-31_06-39-27", "hostname": "cda-server-4", "time_this_iter_s": 34.76722455024719, "episodes_total": 9978, "timestamp": 1756615167, "node_ip": "10.157.146.4", "done": false, "time_total_s": 52115.0779902935, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1664, "episode_reward_mean": -621.7015135489805, "training_iteration": 1664, "timesteps_total": 1996800, "policy_reward_mean": {}, "episode_reward_min": -756.4925361150586, "timesteps_since_restore": 1996800, "num_metric_batches_dropped": 0, "time_since_restore": 52148.56289124489, "episode_reward_max": -589.6551277692329, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1996800, "default": {"kl": 0.008030490018427372, "policy_loss": -0.1254977583885193, "vf_loss": 227.0117950439453, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9659648537635803, "entropy": 4.904479026794434, "cur_lr": 4.999999873689376e-05, "total_loss": 226.89849853515625}, "load_time_ms": 0.66, "num_steps_sampled": 1996800, "grad_time_ms": 689.122, "update_time_ms": 2.303, "sample_time_ms": 33625.634}, "date": "2025-08-31_06-40-01", "hostname": "cda-server-4", "time_this_iter_s": 33.4849009513855, "episodes_total": 9984, "timestamp": 1756615201, "node_ip": "10.157.146.4", "done": false, "time_total_s": 52148.56289124489, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1665, "episode_reward_mean": -621.2372917180074, "training_iteration": 1665, "timesteps_total": 1998000, "policy_reward_mean": {}, "episode_reward_min": -756.4925361150586, "timesteps_since_restore": 1998000, "num_metric_batches_dropped": 0, "time_since_restore": 52184.13945937157, "episode_reward_max": -589.6551277692329, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1998000, "default": {"kl": 0.011954400688409805, "policy_loss": -0.14688590168952942, "vf_loss": 274.3028564453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9833154678344727, "entropy": 5.1689252853393555, "cur_lr": 4.999999873689376e-05, "total_loss": 274.17413330078125}, "load_time_ms": 0.664, "num_steps_sampled": 1998000, "grad_time_ms": 701.449, "update_time_ms": 2.427, "sample_time_ms": 33724.534}, "date": "2025-08-31_06-40-36", "hostname": "cda-server-4", "time_this_iter_s": 35.57656812667847, "episodes_total": 9990, "timestamp": 1756615236, "node_ip": "10.157.146.4", "done": false, "time_total_s": 52184.13945937157, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1666, "episode_reward_mean": -619.363622718776, "training_iteration": 1666, "timesteps_total": 1999200, "policy_reward_mean": {}, "episode_reward_min": -756.4925361150586, "timesteps_since_restore": 1999200, "num_metric_batches_dropped": 0, "time_since_restore": 52218.595754384995, "episode_reward_max": -482.68979663451745, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 1999200, "default": {"kl": 0.009408123791217804, "policy_loss": -0.12618035078048706, "vf_loss": 123.71234893798828, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9874144792556763, "entropy": 4.989286422729492, "cur_lr": 4.999999873689376e-05, "total_loss": 123.60044860839844}, "load_time_ms": 0.663, "num_steps_sampled": 1999200, "grad_time_ms": 719.602, "update_time_ms": 2.547, "sample_time_ms": 33763.612}, "date": "2025-08-31_06-41-11", "hostname": "cda-server-4", "time_this_iter_s": 34.456295013427734, "episodes_total": 9996, "timestamp": 1756615271, "node_ip": "10.157.146.4", "done": false, "time_total_s": 52218.595754384995, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1667, "episode_reward_mean": -618.6618754532742, "training_iteration": 1667, "timesteps_total": 2000400, "policy_reward_mean": {}, "episode_reward_min": -756.4925361150586, "timesteps_since_restore": 2000400, "num_metric_batches_dropped": 0, "time_since_restore": 52252.50130867958, "episode_reward_max": -482.68979663451745, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2000400, "default": {"kl": 0.009372198022902012, "policy_loss": -0.130501389503479, "vf_loss": 391.3116455078125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9658260345458984, "entropy": 4.992753028869629, "cur_lr": 4.999999873689376e-05, "total_loss": 391.1954040527344}, "load_time_ms": 0.661, "num_steps_sampled": 2000400, "grad_time_ms": 722.203, "update_time_ms": 2.51, "sample_time_ms": 33781.401}, "date": "2025-08-31_06-41-45", "hostname": "cda-server-4", "time_this_iter_s": 33.90555429458618, "episodes_total": 10002, "timestamp": 1756615305, "node_ip": "10.157.146.4", "done": false, "time_total_s": 52252.50130867958, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1668, "episode_reward_mean": -618.1791815463512, "training_iteration": 1668, "timesteps_total": 2001600, "policy_reward_mean": {}, "episode_reward_min": -756.4925361150586, "timesteps_since_restore": 2001600, "num_metric_batches_dropped": 0, "time_since_restore": 52286.5419921875, "episode_reward_max": -482.68979663451745, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2001600, "default": {"kl": 0.010549956001341343, "policy_loss": -0.14590945839881897, "vf_loss": 296.7293701171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.964346170425415, "entropy": 5.030244827270508, "cur_lr": 4.999999873689376e-05, "total_loss": 296.5994873046875}, "load_time_ms": 0.648, "num_steps_sampled": 2001600, "grad_time_ms": 725.346, "update_time_ms": 2.514, "sample_time_ms": 33702.541}, "date": "2025-08-31_06-42-19", "hostname": "cda-server-4", "time_this_iter_s": 34.04068350791931, "episodes_total": 10008, "timestamp": 1756615339, "node_ip": "10.157.146.4", "done": false, "time_total_s": 52286.5419921875, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1669, "episode_reward_mean": -616.4900002046985, "training_iteration": 1669, "timesteps_total": 2002800, "policy_reward_mean": {}, "episode_reward_min": -705.0083384542166, "timesteps_since_restore": 2002800, "num_metric_batches_dropped": 0, "time_since_restore": 52322.53579521179, "episode_reward_max": -482.68979663451745, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2002800, "default": {"kl": 0.00959163811057806, "policy_loss": -0.14271624386310577, "vf_loss": 148.50942993164062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9836238026618958, "entropy": 5.166898727416992, "cur_lr": 4.999999873689376e-05, "total_loss": 148.3812713623047}, "load_time_ms": 0.613, "num_steps_sampled": 2002800, "grad_time_ms": 731.627, "update_time_ms": 2.394, "sample_time_ms": 33846.938}, "date": "2025-08-31_06-42-55", "hostname": "cda-server-4", "time_this_iter_s": 35.99380302429199, "episodes_total": 10014, "timestamp": 1756615375, "node_ip": "10.157.146.4", "done": false, "time_total_s": 52322.53579521179, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1670, "episode_reward_mean": -616.7939684538494, "training_iteration": 1670, "timesteps_total": 2004000, "policy_reward_mean": {}, "episode_reward_min": -705.0083384542166, "timesteps_since_restore": 2004000, "num_metric_batches_dropped": 0, "time_since_restore": 52357.22738838196, "episode_reward_max": -482.68979663451745, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2004000, "default": {"kl": 0.012345550581812859, "policy_loss": -0.1538000851869583, "vf_loss": 574.3896484375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.930175244808197, "entropy": 5.299978256225586, "cur_lr": 4.999999873689376e-05, "total_loss": 574.254638671875}, "load_time_ms": 0.616, "num_steps_sampled": 2004000, "grad_time_ms": 729.646, "update_time_ms": 2.33, "sample_time_ms": 33940.297}, "date": "2025-08-31_06-43-30", "hostname": "cda-server-4", "time_this_iter_s": 34.691593170166016, "episodes_total": 10020, "timestamp": 1756615410, "node_ip": "10.157.146.4", "done": false, "time_total_s": 52357.22738838196, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1671, "episode_reward_mean": -615.8679581934093, "training_iteration": 1671, "timesteps_total": 2005200, "policy_reward_mean": {}, "episode_reward_min": -705.0083384542166, "timesteps_since_restore": 2005200, "num_metric_batches_dropped": 0, "time_since_restore": 52390.42551469803, "episode_reward_max": -482.68979663451745, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2005200, "default": {"kl": 0.011464063078165054, "policy_loss": -0.14867667853832245, "vf_loss": 69.243896484375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.990951418876648, "entropy": 4.999584197998047, "cur_lr": 4.999999873689376e-05, "total_loss": 69.11263275146484}, "load_time_ms": 0.611, "num_steps_sampled": 2005200, "grad_time_ms": 734.043, "update_time_ms": 2.29, "sample_time_ms": 33795.199}, "date": "2025-08-31_06-44-03", "hostname": "cda-server-4", "time_this_iter_s": 33.19812631607056, "episodes_total": 10026, "timestamp": 1756615443, "node_ip": "10.157.146.4", "done": false, "time_total_s": 52390.42551469803, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1672, "episode_reward_mean": -617.000706460689, "training_iteration": 1672, "timesteps_total": 2006400, "policy_reward_mean": {}, "episode_reward_min": -705.0083384542166, "timesteps_since_restore": 2006400, "num_metric_batches_dropped": 0, "time_since_restore": 52425.38239073753, "episode_reward_max": -482.68979663451745, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2006400, "default": {"kl": 0.0076484945602715015, "policy_loss": -0.11806503683328629, "vf_loss": 157.30508422851562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9740919470787048, "entropy": 5.055891036987305, "cur_lr": 4.999999873689376e-05, "total_loss": 157.19863891601562}, "load_time_ms": 0.613, "num_steps_sampled": 2006400, "grad_time_ms": 736.146, "update_time_ms": 2.244, "sample_time_ms": 33764.072}, "date": "2025-08-31_06-44-38", "hostname": "cda-server-4", "time_this_iter_s": 34.956876039505005, "episodes_total": 10032, "timestamp": 1756615478, "node_ip": "10.157.146.4", "done": false, "time_total_s": 52425.38239073753, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1673, "episode_reward_mean": -616.4922312944118, "training_iteration": 1673, "timesteps_total": 2007600, "policy_reward_mean": {}, "episode_reward_min": -705.0083384542166, "timesteps_since_restore": 2007600, "num_metric_batches_dropped": 0, "time_since_restore": 52460.05966424942, "episode_reward_max": -482.68979663451745, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2007600, "default": {"kl": 0.008800068870186806, "policy_loss": -0.12389269471168518, "vf_loss": 136.62051391601562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9785333275794983, "entropy": 4.977048397064209, "cur_lr": 4.999999873689376e-05, "total_loss": 136.50997924804688}, "load_time_ms": 0.642, "num_steps_sampled": 2007600, "grad_time_ms": 734.556, "update_time_ms": 2.318, "sample_time_ms": 33756.569}, "date": "2025-08-31_06-45-13", "hostname": "cda-server-4", "time_this_iter_s": 34.6772735118866, "episodes_total": 10038, "timestamp": 1756615513, "node_ip": "10.157.146.4", "done": false, "time_total_s": 52460.05966424942, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1674, "episode_reward_mean": -614.7824120351165, "training_iteration": 1674, "timesteps_total": 2008800, "policy_reward_mean": {}, "episode_reward_min": -671.2484070391986, "timesteps_since_restore": 2008800, "num_metric_batches_dropped": 0, "time_since_restore": 52493.867626428604, "episode_reward_max": -482.68979663451745, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2008800, "default": {"kl": 0.010730155743658543, "policy_loss": -0.12699463963508606, "vf_loss": 397.8643798828125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9699985980987549, "entropy": 5.067419052124023, "cur_lr": 4.999999873689376e-05, "total_loss": 397.7536926269531}, "load_time_ms": 0.633, "num_steps_sampled": 2008800, "grad_time_ms": 722.951, "update_time_ms": 2.292, "sample_time_ms": 33800.648}, "date": "2025-08-31_06-45-46", "hostname": "cda-server-4", "time_this_iter_s": 33.80796217918396, "episodes_total": 10044, "timestamp": 1756615546, "node_ip": "10.157.146.4", "done": false, "time_total_s": 52493.867626428604, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1675, "episode_reward_mean": -615.0499241460516, "training_iteration": 1675, "timesteps_total": 2010000, "policy_reward_mean": {}, "episode_reward_min": -671.2484070391986, "timesteps_since_restore": 2010000, "num_metric_batches_dropped": 0, "time_since_restore": 52528.12783622742, "episode_reward_max": -482.68979663451745, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2010000, "default": {"kl": 0.009975210763514042, "policy_loss": -0.12664079666137695, "vf_loss": 392.67523193359375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9563229084014893, "entropy": 5.09563684463501, "cur_lr": 4.999999873689376e-05, "total_loss": 392.563720703125}, "load_time_ms": 0.638, "num_steps_sampled": 2010000, "grad_time_ms": 724.25, "update_time_ms": 2.174, "sample_time_ms": 33667.824}, "date": "2025-08-31_06-46-21", "hostname": "cda-server-4", "time_this_iter_s": 34.260209798812866, "episodes_total": 10050, "timestamp": 1756615581, "node_ip": "10.157.146.4", "done": false, "time_total_s": 52528.12783622742, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1676, "episode_reward_mean": -614.943104852372, "training_iteration": 1676, "timesteps_total": 2011200, "policy_reward_mean": {}, "episode_reward_min": -671.2484070391986, "timesteps_since_restore": 2011200, "num_metric_batches_dropped": 0, "time_since_restore": 52562.807047605515, "episode_reward_max": -482.68979663451745, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2011200, "default": {"kl": 0.008805316872894764, "policy_loss": -0.11822611838579178, "vf_loss": 447.44635009765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.946930468082428, "entropy": 5.31347131729126, "cur_lr": 4.999999873689376e-05, "total_loss": 447.3414306640625}, "load_time_ms": 0.656, "num_steps_sampled": 2011200, "grad_time_ms": 711.734, "update_time_ms": 2.084, "sample_time_ms": 33702.77}, "date": "2025-08-31_06-46-55", "hostname": "cda-server-4", "time_this_iter_s": 34.679211378097534, "episodes_total": 10056, "timestamp": 1756615615, "node_ip": "10.157.146.4", "done": false, "time_total_s": 52562.807047605515, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1677, "episode_reward_mean": -614.3799785193183, "training_iteration": 1677, "timesteps_total": 2012400, "policy_reward_mean": {}, "episode_reward_min": -671.2484070391986, "timesteps_since_restore": 2012400, "num_metric_batches_dropped": 0, "time_since_restore": 52597.70344233513, "episode_reward_max": -465.0218432759591, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2012400, "default": {"kl": 0.01252479013055563, "policy_loss": -0.15208682417869568, "vf_loss": 575.7318115234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9469884037971497, "entropy": 4.906133651733398, "cur_lr": 4.999999873689376e-05, "total_loss": 575.5986938476562}, "load_time_ms": 0.689, "num_steps_sampled": 2012400, "grad_time_ms": 714.766, "update_time_ms": 2.113, "sample_time_ms": 33798.656}, "date": "2025-08-31_06-47-30", "hostname": "cda-server-4", "time_this_iter_s": 34.89639472961426, "episodes_total": 10062, "timestamp": 1756615650, "node_ip": "10.157.146.4", "done": false, "time_total_s": 52597.70344233513, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1678, "episode_reward_mean": -616.8821256801857, "training_iteration": 1678, "timesteps_total": 2013600, "policy_reward_mean": {}, "episode_reward_min": -793.0394977829762, "timesteps_since_restore": 2013600, "num_metric_batches_dropped": 0, "time_since_restore": 52631.328924655914, "episode_reward_max": -465.0218432759591, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2013600, "default": {"kl": 0.013168485835194588, "policy_loss": -0.15253081917762756, "vf_loss": 1069.98388671875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9306426644325256, "entropy": 5.432408809661865, "cur_lr": 4.999999873689376e-05, "total_loss": 1069.8511962890625}, "load_time_ms": 0.696, "num_steps_sampled": 2013600, "grad_time_ms": 708.103, "update_time_ms": 2.2, "sample_time_ms": 33763.756}, "date": "2025-08-31_06-48-04", "hostname": "cda-server-4", "time_this_iter_s": 33.62548232078552, "episodes_total": 10068, "timestamp": 1756615684, "node_ip": "10.157.146.4", "done": false, "time_total_s": 52631.328924655914, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1679, "episode_reward_mean": -617.4866719459603, "training_iteration": 1679, "timesteps_total": 2014800, "policy_reward_mean": {}, "episode_reward_min": -793.0394977829762, "timesteps_since_restore": 2014800, "num_metric_batches_dropped": 0, "time_since_restore": 52666.322761297226, "episode_reward_max": -465.0218432759591, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2014800, "default": {"kl": 0.011913011781871319, "policy_loss": -0.14880524575710297, "vf_loss": 1003.6389770507812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8942797780036926, "entropy": 5.139577388763428, "cur_lr": 4.999999873689376e-05, "total_loss": 1003.5083618164062}, "load_time_ms": 0.695, "num_steps_sampled": 2014800, "grad_time_ms": 703.322, "update_time_ms": 2.274, "sample_time_ms": 33668.478}, "date": "2025-08-31_06-48-39", "hostname": "cda-server-4", "time_this_iter_s": 34.993836641311646, "episodes_total": 10074, "timestamp": 1756615719, "node_ip": "10.157.146.4", "done": false, "time_total_s": 52666.322761297226, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1680, "episode_reward_mean": -616.5965553337563, "training_iteration": 1680, "timesteps_total": 2016000, "policy_reward_mean": {}, "episode_reward_min": -793.0394977829762, "timesteps_since_restore": 2016000, "num_metric_batches_dropped": 0, "time_since_restore": 52701.0405523777, "episode_reward_max": -465.0218432759591, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2016000, "default": {"kl": 0.012402559630572796, "policy_loss": -0.16248703002929688, "vf_loss": 217.38414001464844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9811109900474548, "entropy": 5.07042121887207, "cur_lr": 4.999999873689376e-05, "total_loss": 217.24049377441406}, "load_time_ms": 0.721, "num_steps_sampled": 2016000, "grad_time_ms": 706.062, "update_time_ms": 2.264, "sample_time_ms": 33668.355}, "date": "2025-08-31_06-49-14", "hostname": "cda-server-4", "time_this_iter_s": 34.71779108047485, "episodes_total": 10080, "timestamp": 1756615754, "node_ip": "10.157.146.4", "done": false, "time_total_s": 52701.0405523777, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1681, "episode_reward_mean": -617.397454687371, "training_iteration": 1681, "timesteps_total": 2017200, "policy_reward_mean": {}, "episode_reward_min": -793.0394977829762, "timesteps_since_restore": 2017200, "num_metric_batches_dropped": 0, "time_since_restore": 52735.85670852661, "episode_reward_max": -465.0218432759591, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2017200, "default": {"kl": 0.009291240945458412, "policy_loss": -0.12903186678886414, "vf_loss": 146.1886444091797, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9842236638069153, "entropy": 4.924269676208496, "cur_lr": 4.999999873689376e-05, "total_loss": 146.07373046875}, "load_time_ms": 0.724, "num_steps_sampled": 2017200, "grad_time_ms": 708.463, "update_time_ms": 2.179, "sample_time_ms": 33827.842}, "date": "2025-08-31_06-49-48", "hostname": "cda-server-4", "time_this_iter_s": 34.81615614891052, "episodes_total": 10086, "timestamp": 1756615788, "node_ip": "10.157.146.4", "done": false, "time_total_s": 52735.85670852661, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1682, "episode_reward_mean": -618.1622904229672, "training_iteration": 1682, "timesteps_total": 2018400, "policy_reward_mean": {}, "episode_reward_min": -793.0394977829762, "timesteps_since_restore": 2018400, "num_metric_batches_dropped": 0, "time_since_restore": 52769.589144945145, "episode_reward_max": -465.0218432759591, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2018400, "default": {"kl": 0.010168964974582195, "policy_loss": -0.1278659999370575, "vf_loss": 256.37261962890625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9669440388679504, "entropy": 4.864245891571045, "cur_lr": 4.999999873689376e-05, "total_loss": 256.2601623535156}, "load_time_ms": 0.72, "num_steps_sampled": 2018400, "grad_time_ms": 709.24, "update_time_ms": 2.208, "sample_time_ms": 33704.659}, "date": "2025-08-31_06-50-22", "hostname": "cda-server-4", "time_this_iter_s": 33.732436418533325, "episodes_total": 10092, "timestamp": 1756615822, "node_ip": "10.157.146.4", "done": false, "time_total_s": 52769.589144945145, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1683, "episode_reward_mean": -620.9535266868288, "training_iteration": 1683, "timesteps_total": 2019600, "policy_reward_mean": {}, "episode_reward_min": -793.0394977829762, "timesteps_since_restore": 2019600, "num_metric_batches_dropped": 0, "time_since_restore": 52804.32290434837, "episode_reward_max": -465.0218432759591, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2019600, "default": {"kl": 0.01032671332359314, "policy_loss": -0.1304960399866104, "vf_loss": 94.59182739257812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9855734705924988, "entropy": 5.19420862197876, "cur_lr": 4.999999873689376e-05, "total_loss": 94.47702026367188}, "load_time_ms": 0.702, "num_steps_sampled": 2019600, "grad_time_ms": 706.655, "update_time_ms": 2.151, "sample_time_ms": 33712.984}, "date": "2025-08-31_06-50-57", "hostname": "cda-server-4", "time_this_iter_s": 34.73375940322876, "episodes_total": 10098, "timestamp": 1756615857, "node_ip": "10.157.146.4", "done": false, "time_total_s": 52804.32290434837, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1684, "episode_reward_mean": -620.7672737618607, "training_iteration": 1684, "timesteps_total": 2020800, "policy_reward_mean": {}, "episode_reward_min": -793.0394977829762, "timesteps_since_restore": 2020800, "num_metric_batches_dropped": 0, "time_since_restore": 52839.2417948246, "episode_reward_max": -465.0218432759591, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2020800, "default": {"kl": 0.01212573517113924, "policy_loss": -0.16421622037887573, "vf_loss": 29.12277603149414, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9959924221038818, "entropy": 4.998523235321045, "cur_lr": 4.999999873689376e-05, "total_loss": 28.97697639465332}, "load_time_ms": 0.7, "num_steps_sampled": 2020800, "grad_time_ms": 704.884, "update_time_ms": 2.196, "sample_time_ms": 33825.824}, "date": "2025-08-31_06-51-32", "hostname": "cda-server-4", "time_this_iter_s": 34.91889047622681, "episodes_total": 10104, "timestamp": 1756615892, "node_ip": "10.157.146.4", "done": false, "time_total_s": 52839.2417948246, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1685, "episode_reward_mean": -620.7022125854847, "training_iteration": 1685, "timesteps_total": 2022000, "policy_reward_mean": {}, "episode_reward_min": -793.0394977829762, "timesteps_since_restore": 2022000, "num_metric_batches_dropped": 0, "time_since_restore": 52873.994477033615, "episode_reward_max": -465.0218432759591, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2022000, "default": {"kl": 0.012791547924280167, "policy_loss": -0.15119294822216034, "vf_loss": 91.59104919433594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9904253482818604, "entropy": 4.860795021057129, "cur_lr": 4.999999873689376e-05, "total_loss": 91.45928192138672}, "load_time_ms": 0.695, "num_steps_sampled": 2022000, "grad_time_ms": 705.09, "update_time_ms": 2.182, "sample_time_ms": 33874.914}, "date": "2025-08-31_06-52-07", "hostname": "cda-server-4", "time_this_iter_s": 34.75268220901489, "episodes_total": 10110, "timestamp": 1756615927, "node_ip": "10.157.146.4", "done": false, "time_total_s": 52873.994477033615, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1686, "episode_reward_mean": -619.7271519723179, "training_iteration": 1686, "timesteps_total": 2023200, "policy_reward_mean": {}, "episode_reward_min": -793.0394977829762, "timesteps_since_restore": 2023200, "num_metric_batches_dropped": 0, "time_since_restore": 52908.20432186127, "episode_reward_max": -465.0218432759591, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2023200, "default": {"kl": 0.010851586237549782, "policy_loss": -0.14978832006454468, "vf_loss": 239.98866271972656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.969939649105072, "entropy": 5.090696334838867, "cur_lr": 4.999999873689376e-05, "total_loss": 239.85536193847656}, "load_time_ms": 0.679, "num_steps_sampled": 2023200, "grad_time_ms": 714.745, "update_time_ms": 2.171, "sample_time_ms": 33818.278}, "date": "2025-08-31_06-52-41", "hostname": "cda-server-4", "time_this_iter_s": 34.20984482765198, "episodes_total": 10116, "timestamp": 1756615961, "node_ip": "10.157.146.4", "done": false, "time_total_s": 52908.20432186127, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1687, "episode_reward_mean": -619.6108299469881, "training_iteration": 1687, "timesteps_total": 2024400, "policy_reward_mean": {}, "episode_reward_min": -793.0394977829762, "timesteps_since_restore": 2024400, "num_metric_batches_dropped": 0, "time_since_restore": 52942.95327568054, "episode_reward_max": -465.0218432759591, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2024400, "default": {"kl": 0.009726913645863533, "policy_loss": -0.12321220338344574, "vf_loss": 199.43753051757812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9762829542160034, "entropy": 4.9759111404418945, "cur_lr": 4.999999873689376e-05, "total_loss": 199.32908630371094}, "load_time_ms": 0.641, "num_steps_sampled": 2024400, "grad_time_ms": 712.712, "update_time_ms": 2.163, "sample_time_ms": 33805.678}, "date": "2025-08-31_06-53-16", "hostname": "cda-server-4", "time_this_iter_s": 34.7489538192749, "episodes_total": 10122, "timestamp": 1756615996, "node_ip": "10.157.146.4", "done": false, "time_total_s": 52942.95327568054, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1688, "episode_reward_mean": -619.6323704954443, "training_iteration": 1688, "timesteps_total": 2025600, "policy_reward_mean": {}, "episode_reward_min": -793.0394977829762, "timesteps_since_restore": 2025600, "num_metric_batches_dropped": 0, "time_since_restore": 52977.674667835236, "episode_reward_max": -465.0218432759591, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2025600, "default": {"kl": 0.011474071070551872, "policy_loss": -0.14127594232559204, "vf_loss": 137.97532653808594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9917858839035034, "entropy": 5.027894496917725, "cur_lr": 4.999999873689376e-05, "total_loss": 137.8514862060547}, "load_time_ms": 0.63, "num_steps_sampled": 2025600, "grad_time_ms": 716.687, "update_time_ms": 2.119, "sample_time_ms": 33911.302}, "date": "2025-08-31_06-53-50", "hostname": "cda-server-4", "time_this_iter_s": 34.7213921546936, "episodes_total": 10128, "timestamp": 1756616030, "node_ip": "10.157.146.4", "done": false, "time_total_s": 52977.674667835236, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1689, "episode_reward_mean": -619.3353719873356, "training_iteration": 1689, "timesteps_total": 2026800, "policy_reward_mean": {}, "episode_reward_min": -793.0394977829762, "timesteps_since_restore": 2026800, "num_metric_batches_dropped": 0, "time_since_restore": 53011.65207743645, "episode_reward_max": -465.0218432759591, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2026800, "default": {"kl": 0.010153726674616337, "policy_loss": -0.13621002435684204, "vf_loss": 176.1688690185547, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9794789552688599, "entropy": 4.997603893280029, "cur_lr": 4.999999873689376e-05, "total_loss": 176.0480499267578}, "load_time_ms": 0.63, "num_steps_sampled": 2026800, "grad_time_ms": 724.381, "update_time_ms": 2.074, "sample_time_ms": 33802.043}, "date": "2025-08-31_06-54-24", "hostname": "cda-server-4", "time_this_iter_s": 33.97740960121155, "episodes_total": 10134, "timestamp": 1756616064, "node_ip": "10.157.146.4", "done": false, "time_total_s": 53011.65207743645, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1690, "episode_reward_mean": -619.9011299266722, "training_iteration": 1690, "timesteps_total": 2028000, "policy_reward_mean": {}, "episode_reward_min": -793.0394977829762, "timesteps_since_restore": 2028000, "num_metric_batches_dropped": 0, "time_since_restore": 53046.3041369915, "episode_reward_max": -465.0218432759591, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2028000, "default": {"kl": 0.008561825379729271, "policy_loss": -0.0968320369720459, "vf_loss": 292.2956237792969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9536924362182617, "entropy": 4.780170917510986, "cur_lr": 4.999999873689376e-05, "total_loss": 292.2117919921875}, "load_time_ms": 0.607, "num_steps_sampled": 2028000, "grad_time_ms": 727.515, "update_time_ms": 2.139, "sample_time_ms": 33792.302}, "date": "2025-08-31_06-54-59", "hostname": "cda-server-4", "time_this_iter_s": 34.65205955505371, "episodes_total": 10140, "timestamp": 1756616099, "node_ip": "10.157.146.4", "done": false, "time_total_s": 53046.3041369915, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1691, "episode_reward_mean": -619.0657026329212, "training_iteration": 1691, "timesteps_total": 2029200, "policy_reward_mean": {}, "episode_reward_min": -793.0394977829762, "timesteps_since_restore": 2029200, "num_metric_batches_dropped": 0, "time_since_restore": 53080.91663646698, "episode_reward_max": -465.0218432759591, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2029200, "default": {"kl": 0.010772719979286194, "policy_loss": -0.13875868916511536, "vf_loss": 428.7481689453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9781250357627869, "entropy": 4.876240253448486, "cur_lr": 4.999999873689376e-05, "total_loss": 428.6257629394531}, "load_time_ms": 0.607, "num_steps_sampled": 2029200, "grad_time_ms": 725.28, "update_time_ms": 2.171, "sample_time_ms": 33774.169}, "date": "2025-08-31_06-55-34", "hostname": "cda-server-4", "time_this_iter_s": 34.612499475479126, "episodes_total": 10146, "timestamp": 1756616134, "node_ip": "10.157.146.4", "done": false, "time_total_s": 53080.91663646698, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1692, "episode_reward_mean": -617.6495876935378, "training_iteration": 1692, "timesteps_total": 2030400, "policy_reward_mean": {}, "episode_reward_min": -793.0394977829762, "timesteps_since_restore": 2030400, "num_metric_batches_dropped": 0, "time_since_restore": 53114.91012573242, "episode_reward_max": -465.0218432759591, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2030400, "default": {"kl": 0.012496139854192734, "policy_loss": -0.1547681838274002, "vf_loss": 80.02322387695312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9894106984138489, "entropy": 4.941890239715576, "cur_lr": 4.999999873689376e-05, "total_loss": 79.88743591308594}, "load_time_ms": 0.603, "num_steps_sampled": 2030400, "grad_time_ms": 711.265, "update_time_ms": 2.158, "sample_time_ms": 33814.247}, "date": "2025-08-31_06-56-08", "hostname": "cda-server-4", "time_this_iter_s": 33.993489265441895, "episodes_total": 10152, "timestamp": 1756616168, "node_ip": "10.157.146.4", "done": false, "time_total_s": 53114.91012573242, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1693, "episode_reward_mean": -616.7954442869666, "training_iteration": 1693, "timesteps_total": 2031600, "policy_reward_mean": {}, "episode_reward_min": -793.0394977829762, "timesteps_since_restore": 2031600, "num_metric_batches_dropped": 0, "time_since_restore": 53149.00225996971, "episode_reward_max": -465.0218432759591, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2031600, "default": {"kl": 0.01076548546552658, "policy_loss": -0.14214807748794556, "vf_loss": 53.64493942260742, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9932664036750793, "entropy": 4.945014476776123, "cur_lr": 4.999999873689376e-05, "total_loss": 53.519142150878906}, "load_time_ms": 0.587, "num_steps_sampled": 2031600, "grad_time_ms": 698.869, "update_time_ms": 2.194, "sample_time_ms": 33762.527}, "date": "2025-08-31_06-56-42", "hostname": "cda-server-4", "time_this_iter_s": 34.09213423728943, "episodes_total": 10158, "timestamp": 1756616202, "node_ip": "10.157.146.4", "done": false, "time_total_s": 53149.00225996971, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1694, "episode_reward_mean": -617.4994376583792, "training_iteration": 1694, "timesteps_total": 2032800, "policy_reward_mean": {}, "episode_reward_min": -793.0394977829762, "timesteps_since_restore": 2032800, "num_metric_batches_dropped": 0, "time_since_restore": 53183.370099544525, "episode_reward_max": -536.4069171498451, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2032800, "default": {"kl": 0.00892555434256792, "policy_loss": -0.12974077463150024, "vf_loss": 245.40945434570312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9697847366333008, "entropy": 4.954230308532715, "cur_lr": 4.999999873689376e-05, "total_loss": 245.29327392578125}, "load_time_ms": 0.582, "num_steps_sampled": 2032800, "grad_time_ms": 685.659, "update_time_ms": 2.144, "sample_time_ms": 33720.661}, "date": "2025-08-31_06-57-16", "hostname": "cda-server-4", "time_this_iter_s": 34.36783957481384, "episodes_total": 10164, "timestamp": 1756616236, "node_ip": "10.157.146.4", "done": false, "time_total_s": 53183.370099544525, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1695, "episode_reward_mean": -615.818644155466, "training_iteration": 1695, "timesteps_total": 2034000, "policy_reward_mean": {}, "episode_reward_min": -691.5023583273774, "timesteps_since_restore": 2034000, "num_metric_batches_dropped": 0, "time_since_restore": 53218.91529369354, "episode_reward_max": -536.4069171498451, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2034000, "default": {"kl": 0.011262006126344204, "policy_loss": -0.14429765939712524, "vf_loss": 118.72003936767578, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9860067367553711, "entropy": 5.048254489898682, "cur_lr": 4.999999873689376e-05, "total_loss": 118.59284210205078}, "load_time_ms": 0.581, "num_steps_sampled": 2034000, "grad_time_ms": 677.992, "update_time_ms": 2.166, "sample_time_ms": 33807.469}, "date": "2025-08-31_06-57-52", "hostname": "cda-server-4", "time_this_iter_s": 35.545194149017334, "episodes_total": 10170, "timestamp": 1756616272, "node_ip": "10.157.146.4", "done": false, "time_total_s": 53218.91529369354, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1696, "episode_reward_mean": -614.795179637807, "training_iteration": 1696, "timesteps_total": 2035200, "policy_reward_mean": {}, "episode_reward_min": -691.5023583273774, "timesteps_since_restore": 2035200, "num_metric_batches_dropped": 0, "time_since_restore": 53252.90548610687, "episode_reward_max": -536.4069171498451, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2035200, "default": {"kl": 0.010871674865484238, "policy_loss": -0.13808327913284302, "vf_loss": 113.62274932861328, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.98665851354599, "entropy": 4.794201374053955, "cur_lr": 4.999999873689376e-05, "total_loss": 113.50117492675781}, "load_time_ms": 0.582, "num_steps_sampled": 2035200, "grad_time_ms": 672.864, "update_time_ms": 2.186, "sample_time_ms": 33790.646}, "date": "2025-08-31_06-58-26", "hostname": "cda-server-4", "time_this_iter_s": 33.99019241333008, "episodes_total": 10176, "timestamp": 1756616306, "node_ip": "10.157.146.4", "done": false, "time_total_s": 53252.90548610687, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1697, "episode_reward_mean": -613.8824418974637, "training_iteration": 1697, "timesteps_total": 2036400, "policy_reward_mean": {}, "episode_reward_min": -691.5023583273774, "timesteps_since_restore": 2036400, "num_metric_batches_dropped": 0, "time_since_restore": 53287.035059690475, "episode_reward_max": -536.4069171498451, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2036400, "default": {"kl": 0.009164048358798027, "policy_loss": -0.12025030702352524, "vf_loss": 218.57864379882812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9692294597625732, "entropy": 4.744017601013184, "cur_lr": 4.999999873689376e-05, "total_loss": 218.4723358154297}, "load_time_ms": 0.585, "num_steps_sampled": 2036400, "grad_time_ms": 675.981, "update_time_ms": 2.225, "sample_time_ms": 33725.491}, "date": "2025-08-31_06-59-00", "hostname": "cda-server-4", "time_this_iter_s": 34.129573583602905, "episodes_total": 10182, "timestamp": 1756616340, "node_ip": "10.157.146.4", "done": false, "time_total_s": 53287.035059690475, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1698, "episode_reward_mean": -614.6507541654237, "training_iteration": 1698, "timesteps_total": 2037600, "policy_reward_mean": {}, "episode_reward_min": -691.5023583273774, "timesteps_since_restore": 2037600, "num_metric_batches_dropped": 0, "time_since_restore": 53322.025451660156, "episode_reward_max": -536.4069171498451, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2037600, "default": {"kl": 0.00893571600317955, "policy_loss": -0.12274793535470963, "vf_loss": 397.08880615234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9483805894851685, "entropy": 5.232900142669678, "cur_lr": 4.999999873689376e-05, "total_loss": 396.9796142578125}, "load_time_ms": 0.6, "num_steps_sampled": 2037600, "grad_time_ms": 679.407, "update_time_ms": 2.311, "sample_time_ms": 33748.847}, "date": "2025-08-31_06-59-35", "hostname": "cda-server-4", "time_this_iter_s": 34.990391969680786, "episodes_total": 10188, "timestamp": 1756616375, "node_ip": "10.157.146.4", "done": false, "time_total_s": 53322.025451660156, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1699, "episode_reward_mean": -612.3756847807521, "training_iteration": 1699, "timesteps_total": 2038800, "policy_reward_mean": {}, "episode_reward_min": -691.5023583273774, "timesteps_since_restore": 2038800, "num_metric_batches_dropped": 0, "time_since_restore": 53356.4388384819, "episode_reward_max": -478.9133142248239, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2038800, "default": {"kl": 0.011959116905927658, "policy_loss": -0.153781920671463, "vf_loss": 478.43365478515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9647825956344604, "entropy": 5.212043762207031, "cur_lr": 4.999999873689376e-05, "total_loss": 478.2979736328125}, "load_time_ms": 0.61, "num_steps_sampled": 2038800, "grad_time_ms": 685.213, "update_time_ms": 2.447, "sample_time_ms": 33786.473}, "date": "2025-08-31_07-00-09", "hostname": "cda-server-4", "time_this_iter_s": 34.413386821746826, "episodes_total": 10194, "timestamp": 1756616409, "node_ip": "10.157.146.4", "done": false, "time_total_s": 53356.4388384819, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1700, "episode_reward_mean": -610.2064967690443, "training_iteration": 1700, "timesteps_total": 2040000, "policy_reward_mean": {}, "episode_reward_min": -678.1985483653367, "timesteps_since_restore": 2040000, "num_metric_batches_dropped": 0, "time_since_restore": 53390.36984395981, "episode_reward_max": -478.9133142248239, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2040000, "default": {"kl": 0.012680270709097385, "policy_loss": -0.15886299312114716, "vf_loss": 133.20285034179688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9835491180419922, "entropy": 4.857030391693115, "cur_lr": 4.999999873689376e-05, "total_loss": 133.06324768066406}, "load_time_ms": 0.601, "num_steps_sampled": 2040000, "grad_time_ms": 687.455, "update_time_ms": 2.481, "sample_time_ms": 33712.09}, "date": "2025-08-31_07-00-43", "hostname": "cda-server-4", "time_this_iter_s": 33.93100547790527, "episodes_total": 10200, "timestamp": 1756616443, "node_ip": "10.157.146.4", "done": false, "time_total_s": 53390.36984395981, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1701, "episode_reward_mean": -610.5646813374074, "training_iteration": 1701, "timesteps_total": 2041200, "policy_reward_mean": {}, "episode_reward_min": -678.1985483653367, "timesteps_since_restore": 2041200, "num_metric_batches_dropped": 0, "time_since_restore": 53424.8918838501, "episode_reward_max": -478.9133142248239, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2041200, "default": {"kl": 0.011436969973146915, "policy_loss": -0.1480841487646103, "vf_loss": 490.2523193359375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9678388237953186, "entropy": 4.919393539428711, "cur_lr": 4.999999873689376e-05, "total_loss": 490.12164306640625}, "load_time_ms": 0.638, "num_steps_sampled": 2041200, "grad_time_ms": 689.547, "update_time_ms": 2.482, "sample_time_ms": 33700.866}, "date": "2025-08-31_07-01-18", "hostname": "cda-server-4", "time_this_iter_s": 34.52203989028931, "episodes_total": 10206, "timestamp": 1756616478, "node_ip": "10.157.146.4", "done": false, "time_total_s": 53424.8918838501, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1702, "episode_reward_mean": -610.708400670237, "training_iteration": 1702, "timesteps_total": 2042400, "policy_reward_mean": {}, "episode_reward_min": -678.1985483653367, "timesteps_since_restore": 2042400, "num_metric_batches_dropped": 0, "time_since_restore": 53460.07203388214, "episode_reward_max": -478.9133142248239, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2042400, "default": {"kl": 0.011004188098013401, "policy_loss": -0.14953333139419556, "vf_loss": 59.04638671875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9940049052238464, "entropy": 4.80067253112793, "cur_lr": 4.999999873689376e-05, "total_loss": 58.91356658935547}, "load_time_ms": 0.65, "num_steps_sampled": 2042400, "grad_time_ms": 701.983, "update_time_ms": 2.504, "sample_time_ms": 33807.039}, "date": "2025-08-31_07-01-53", "hostname": "cda-server-4", "time_this_iter_s": 35.18015003204346, "episodes_total": 10212, "timestamp": 1756616513, "node_ip": "10.157.146.4", "done": false, "time_total_s": 53460.07203388214, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1703, "episode_reward_mean": -611.104715260594, "training_iteration": 1703, "timesteps_total": 2043600, "policy_reward_mean": {}, "episode_reward_min": -678.1985483653367, "timesteps_since_restore": 2043600, "num_metric_batches_dropped": 0, "time_since_restore": 53494.22133231163, "episode_reward_max": -478.9133142248239, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2043600, "default": {"kl": 0.008863004855811596, "policy_loss": -0.1336255669593811, "vf_loss": 252.3473358154297, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9865826368331909, "entropy": 4.8456807136535645, "cur_lr": 4.999999873689376e-05, "total_loss": 252.22715759277344}, "load_time_ms": 0.656, "num_steps_sampled": 2043600, "grad_time_ms": 715.423, "update_time_ms": 2.533, "sample_time_ms": 33799.172}, "date": "2025-08-31_07-02-27", "hostname": "cda-server-4", "time_this_iter_s": 34.149298429489136, "episodes_total": 10218, "timestamp": 1756616547, "node_ip": "10.157.146.4", "done": false, "time_total_s": 53494.22133231163, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1704, "episode_reward_mean": -610.5563471623312, "training_iteration": 1704, "timesteps_total": 2044800, "policy_reward_mean": {}, "episode_reward_min": -678.1985483653367, "timesteps_since_restore": 2044800, "num_metric_batches_dropped": 0, "time_since_restore": 53528.238775491714, "episode_reward_max": -478.9133142248239, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2044800, "default": {"kl": 0.010009584948420525, "policy_loss": -0.13438136875629425, "vf_loss": 34.49742889404297, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9973803758621216, "entropy": 4.798284530639648, "cur_lr": 4.999999873689376e-05, "total_loss": 34.37825012207031}, "load_time_ms": 0.656, "num_steps_sampled": 2044800, "grad_time_ms": 729.853, "update_time_ms": 2.602, "sample_time_ms": 33749.633}, "date": "2025-08-31_07-03-01", "hostname": "cda-server-4", "time_this_iter_s": 34.01744318008423, "episodes_total": 10224, "timestamp": 1756616581, "node_ip": "10.157.146.4", "done": false, "time_total_s": 53528.238775491714, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1705, "episode_reward_mean": -610.2029047769565, "training_iteration": 1705, "timesteps_total": 2046000, "policy_reward_mean": {}, "episode_reward_min": -678.1985483653367, "timesteps_since_restore": 2046000, "num_metric_batches_dropped": 0, "time_since_restore": 53563.02075791359, "episode_reward_max": -478.9133142248239, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2046000, "default": {"kl": 0.009198030456900597, "policy_loss": -0.11877962946891785, "vf_loss": 325.3170471191406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9594234824180603, "entropy": 4.942877769470215, "cur_lr": 4.999999873689376e-05, "total_loss": 325.2122802734375}, "load_time_ms": 0.656, "num_steps_sampled": 2046000, "grad_time_ms": 738.938, "update_time_ms": 2.579, "sample_time_ms": 33664.402}, "date": "2025-08-31_07-03-36", "hostname": "cda-server-4", "time_this_iter_s": 34.781982421875, "episodes_total": 10230, "timestamp": 1756616616, "node_ip": "10.157.146.4", "done": false, "time_total_s": 53563.02075791359, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1706, "episode_reward_mean": -611.2695239220373, "training_iteration": 1706, "timesteps_total": 2047200, "policy_reward_mean": {}, "episode_reward_min": -782.1305054738026, "timesteps_since_restore": 2047200, "num_metric_batches_dropped": 0, "time_since_restore": 53597.50739240646, "episode_reward_max": -478.9133142248239, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2047200, "default": {"kl": 0.01332436129450798, "policy_loss": -0.14167283475399017, "vf_loss": 779.742919921875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9395487308502197, "entropy": 4.98604154586792, "cur_lr": 4.999999873689376e-05, "total_loss": 779.6215209960938}, "load_time_ms": 0.647, "num_steps_sampled": 2047200, "grad_time_ms": 745.977, "update_time_ms": 2.529, "sample_time_ms": 33706.913}, "date": "2025-08-31_07-04-11", "hostname": "cda-server-4", "time_this_iter_s": 34.486634492874146, "episodes_total": 10236, "timestamp": 1756616651, "node_ip": "10.157.146.4", "done": false, "time_total_s": 53597.50739240646, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1707, "episode_reward_mean": -610.9167537505214, "training_iteration": 1707, "timesteps_total": 2048400, "policy_reward_mean": {}, "episode_reward_min": -782.1305054738026, "timesteps_since_restore": 2048400, "num_metric_batches_dropped": 0, "time_since_restore": 53631.13800024986, "episode_reward_max": -478.9133142248239, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2048400, "default": {"kl": 0.010325565002858639, "policy_loss": -0.14628589153289795, "vf_loss": 282.4489440917969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9776241779327393, "entropy": 4.937375545501709, "cur_lr": 4.999999873689376e-05, "total_loss": 282.318359375}, "load_time_ms": 0.65, "num_steps_sampled": 2048400, "grad_time_ms": 736.695, "update_time_ms": 2.485, "sample_time_ms": 33666.38}, "date": "2025-08-31_07-04-44", "hostname": "cda-server-4", "time_this_iter_s": 33.63060784339905, "episodes_total": 10242, "timestamp": 1756616684, "node_ip": "10.157.146.4", "done": false, "time_total_s": 53631.13800024986, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1708, "episode_reward_mean": -611.3644880808615, "training_iteration": 1708, "timesteps_total": 2049600, "policy_reward_mean": {}, "episode_reward_min": -782.1305054738026, "timesteps_since_restore": 2049600, "num_metric_batches_dropped": 0, "time_since_restore": 53665.348118543625, "episode_reward_max": -478.9133142248239, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2049600, "default": {"kl": 0.010000471957027912, "policy_loss": -0.14102134108543396, "vf_loss": 220.07339477539062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.974207878112793, "entropy": 5.001544952392578, "cur_lr": 4.999999873689376e-05, "total_loss": 219.94757080078125}, "load_time_ms": 0.644, "num_steps_sampled": 2049600, "grad_time_ms": 721.807, "update_time_ms": 2.438, "sample_time_ms": 33603.367}, "date": "2025-08-31_07-05-18", "hostname": "cda-server-4", "time_this_iter_s": 34.21011829376221, "episodes_total": 10248, "timestamp": 1756616718, "node_ip": "10.157.146.4", "done": false, "time_total_s": 53665.348118543625, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1709, "episode_reward_mean": -609.7150327197755, "training_iteration": 1709, "timesteps_total": 2050800, "policy_reward_mean": {}, "episode_reward_min": -782.1305054738026, "timesteps_since_restore": 2050800, "num_metric_batches_dropped": 0, "time_since_restore": 53699.56790328026, "episode_reward_max": -459.75305454191744, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2050800, "default": {"kl": 0.010187370702624321, "policy_loss": -0.1415640413761139, "vf_loss": 554.7219848632812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9487688541412354, "entropy": 4.860780715942383, "cur_lr": 4.999999873689376e-05, "total_loss": 554.595947265625}, "load_time_ms": 0.645, "num_steps_sampled": 2050800, "grad_time_ms": 709.324, "update_time_ms": 2.294, "sample_time_ms": 33596.617}, "date": "2025-08-31_07-05-53", "hostname": "cda-server-4", "time_this_iter_s": 34.2197847366333, "episodes_total": 10254, "timestamp": 1756616753, "node_ip": "10.157.146.4", "done": false, "time_total_s": 53699.56790328026, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1710, "episode_reward_mean": -608.2682407904008, "training_iteration": 1710, "timesteps_total": 2052000, "policy_reward_mean": {}, "episode_reward_min": -782.1305054738026, "timesteps_since_restore": 2052000, "num_metric_batches_dropped": 0, "time_since_restore": 53734.31048774719, "episode_reward_max": -459.75305454191744, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2052000, "default": {"kl": 0.011317117139697075, "policy_loss": -0.141681507229805, "vf_loss": 105.54122161865234, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.991678774356842, "entropy": 4.786422252655029, "cur_lr": 4.999999873689376e-05, "total_loss": 105.41671752929688}, "load_time_ms": 0.673, "num_steps_sampled": 2052000, "grad_time_ms": 705.837, "update_time_ms": 2.269, "sample_time_ms": 33681.261}, "date": "2025-08-31_07-06-27", "hostname": "cda-server-4", "time_this_iter_s": 34.742584466934204, "episodes_total": 10260, "timestamp": 1756616787, "node_ip": "10.157.146.4", "done": false, "time_total_s": 53734.31048774719, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1711, "episode_reward_mean": -609.2712777909771, "training_iteration": 1711, "timesteps_total": 2053200, "policy_reward_mean": {}, "episode_reward_min": -782.1305054738026, "timesteps_since_restore": 2053200, "num_metric_batches_dropped": 0, "time_since_restore": 53768.87493824959, "episode_reward_max": -459.75305454191744, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2053200, "default": {"kl": 0.009432639926671982, "policy_loss": -0.12982811033725739, "vf_loss": 546.0050048828125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9284377694129944, "entropy": 5.183053493499756, "cur_lr": 4.999999873689376e-05, "total_loss": 545.8895263671875}, "load_time_ms": 0.64, "num_steps_sampled": 2053200, "grad_time_ms": 706.227, "update_time_ms": 2.335, "sample_time_ms": 33685.06}, "date": "2025-08-31_07-07-02", "hostname": "cda-server-4", "time_this_iter_s": 34.56445050239563, "episodes_total": 10266, "timestamp": 1756616822, "node_ip": "10.157.146.4", "done": false, "time_total_s": 53768.87493824959, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1712, "episode_reward_mean": -610.8971664701705, "training_iteration": 1712, "timesteps_total": 2054400, "policy_reward_mean": {}, "episode_reward_min": -783.0309961956513, "timesteps_since_restore": 2054400, "num_metric_batches_dropped": 0, "time_since_restore": 53803.25169253349, "episode_reward_max": -459.75305454191744, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2054400, "default": {"kl": 0.011408623307943344, "policy_loss": -0.12572576105594635, "vf_loss": 404.8343505859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9677822589874268, "entropy": 5.094503402709961, "cur_lr": 4.999999873689376e-05, "total_loss": 404.7259521484375}, "load_time_ms": 0.639, "num_steps_sampled": 2054400, "grad_time_ms": 707.333, "update_time_ms": 2.364, "sample_time_ms": 33603.568}, "date": "2025-08-31_07-07-36", "hostname": "cda-server-4", "time_this_iter_s": 34.37675428390503, "episodes_total": 10272, "timestamp": 1756616856, "node_ip": "10.157.146.4", "done": false, "time_total_s": 53803.25169253349, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1713, "episode_reward_mean": -610.5930359601575, "training_iteration": 1713, "timesteps_total": 2055600, "policy_reward_mean": {}, "episode_reward_min": -783.0309961956513, "timesteps_since_restore": 2055600, "num_metric_batches_dropped": 0, "time_since_restore": 53837.7826294899, "episode_reward_max": -459.75305454191744, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2055600, "default": {"kl": 0.011606751941144466, "policy_loss": -0.15515974164009094, "vf_loss": 501.87005615234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9756118059158325, "entropy": 4.943633079528809, "cur_lr": 4.999999873689376e-05, "total_loss": 501.7325439453125}, "load_time_ms": 0.634, "num_steps_sampled": 2055600, "grad_time_ms": 708.87, "update_time_ms": 2.329, "sample_time_ms": 33640.3}, "date": "2025-08-31_07-08-11", "hostname": "cda-server-4", "time_this_iter_s": 34.53093695640564, "episodes_total": 10278, "timestamp": 1756616891, "node_ip": "10.157.146.4", "done": false, "time_total_s": 53837.7826294899, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1714, "episode_reward_mean": -610.69808580341, "training_iteration": 1714, "timesteps_total": 2056800, "policy_reward_mean": {}, "episode_reward_min": -783.0309961956513, "timesteps_since_restore": 2056800, "num_metric_batches_dropped": 0, "time_since_restore": 53871.80068349838, "episode_reward_max": -459.75305454191744, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2056800, "default": {"kl": 0.010495968163013458, "policy_loss": -0.12299387902021408, "vf_loss": 106.96696472167969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9859910607337952, "entropy": 4.967864036560059, "cur_lr": 4.999999873689376e-05, "total_loss": 106.85990905761719}, "load_time_ms": 0.657, "num_steps_sampled": 2056800, "grad_time_ms": 702.036, "update_time_ms": 2.346, "sample_time_ms": 33647.149}, "date": "2025-08-31_07-08-45", "hostname": "cda-server-4", "time_this_iter_s": 34.01805400848389, "episodes_total": 10284, "timestamp": 1756616925, "node_ip": "10.157.146.4", "done": false, "time_total_s": 53871.80068349838, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1715, "episode_reward_mean": -609.800960511091, "training_iteration": 1715, "timesteps_total": 2058000, "policy_reward_mean": {}, "episode_reward_min": -783.0309961956513, "timesteps_since_restore": 2058000, "num_metric_batches_dropped": 0, "time_since_restore": 53906.336486816406, "episode_reward_max": -459.75305454191744, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2058000, "default": {"kl": 0.009784695692360401, "policy_loss": -0.14206010103225708, "vf_loss": 186.16419982910156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9767305850982666, "entropy": 4.9478020668029785, "cur_lr": 4.999999873689376e-05, "total_loss": 186.03700256347656}, "load_time_ms": 0.657, "num_steps_sampled": 2058000, "grad_time_ms": 699.205, "update_time_ms": 2.388, "sample_time_ms": 33625.246}, "date": "2025-08-31_07-09-20", "hostname": "cda-server-4", "time_this_iter_s": 34.53580331802368, "episodes_total": 10290, "timestamp": 1756616960, "node_ip": "10.157.146.4", "done": false, "time_total_s": 53906.336486816406, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1716, "episode_reward_mean": -613.0105475353956, "training_iteration": 1716, "timesteps_total": 2059200, "policy_reward_mean": {}, "episode_reward_min": -783.0309961956513, "timesteps_since_restore": 2059200, "num_metric_batches_dropped": 0, "time_since_restore": 53940.79608154297, "episode_reward_max": -459.75305454191744, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2059200, "default": {"kl": 0.010988103225827217, "policy_loss": -0.1435934454202652, "vf_loss": 300.2253112792969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9688977003097534, "entropy": 4.943446159362793, "cur_lr": 4.999999873689376e-05, "total_loss": 300.098388671875}, "load_time_ms": 0.662, "num_steps_sampled": 2059200, "grad_time_ms": 698.099, "update_time_ms": 2.396, "sample_time_ms": 33623.733}, "date": "2025-08-31_07-09-54", "hostname": "cda-server-4", "time_this_iter_s": 34.4595947265625, "episodes_total": 10296, "timestamp": 1756616994, "node_ip": "10.157.146.4", "done": false, "time_total_s": 53940.79608154297, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1717, "episode_reward_mean": -612.734336677585, "training_iteration": 1717, "timesteps_total": 2060400, "policy_reward_mean": {}, "episode_reward_min": -783.0309961956513, "timesteps_since_restore": 2060400, "num_metric_batches_dropped": 0, "time_since_restore": 53975.15676140785, "episode_reward_max": -459.75305454191744, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2060400, "default": {"kl": 0.010279483161866665, "policy_loss": -0.14504101872444153, "vf_loss": 150.80810546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9848321080207825, "entropy": 4.754672050476074, "cur_lr": 4.999999873689376e-05, "total_loss": 150.67868041992188}, "load_time_ms": 0.651, "num_steps_sampled": 2060400, "grad_time_ms": 704.29, "update_time_ms": 2.446, "sample_time_ms": 33690.498}, "date": "2025-08-31_07-10-28", "hostname": "cda-server-4", "time_this_iter_s": 34.36067986488342, "episodes_total": 10302, "timestamp": 1756617028, "node_ip": "10.157.146.4", "done": false, "time_total_s": 53975.15676140785, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1718, "episode_reward_mean": -613.958702619163, "training_iteration": 1718, "timesteps_total": 2061600, "policy_reward_mean": {}, "episode_reward_min": -783.0309961956513, "timesteps_since_restore": 2061600, "num_metric_batches_dropped": 0, "time_since_restore": 54009.4293012619, "episode_reward_max": -459.75305454191744, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2061600, "default": {"kl": 0.011747592128813267, "policy_loss": -0.14973287284374237, "vf_loss": 152.50201416015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9799321293830872, "entropy": 4.99779748916626, "cur_lr": 4.999999873689376e-05, "total_loss": 152.37014770507812}, "load_time_ms": 0.647, "num_steps_sampled": 2061600, "grad_time_ms": 741.635, "update_time_ms": 2.438, "sample_time_ms": 33659.206}, "date": "2025-08-31_07-11-03", "hostname": "cda-server-4", "time_this_iter_s": 34.27253985404968, "episodes_total": 10308, "timestamp": 1756617063, "node_ip": "10.157.146.4", "done": false, "time_total_s": 54009.4293012619, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1719, "episode_reward_mean": -612.9986588390391, "training_iteration": 1719, "timesteps_total": 2062800, "policy_reward_mean": {}, "episode_reward_min": -783.0309961956513, "timesteps_since_restore": 2062800, "num_metric_batches_dropped": 0, "time_since_restore": 54044.77165532112, "episode_reward_max": -459.75305454191744, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2062800, "default": {"kl": 0.012340313754975796, "policy_loss": -0.17004133760929108, "vf_loss": 230.3995819091797, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9764232635498047, "entropy": 5.097055912017822, "cur_lr": 4.999999873689376e-05, "total_loss": 230.248291015625}, "load_time_ms": 0.644, "num_steps_sampled": 2062800, "grad_time_ms": 751.975, "update_time_ms": 2.767, "sample_time_ms": 33760.807}, "date": "2025-08-31_07-11-38", "hostname": "cda-server-4", "time_this_iter_s": 35.34235405921936, "episodes_total": 10314, "timestamp": 1756617098, "node_ip": "10.157.146.4", "done": false, "time_total_s": 54044.77165532112, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1720, "episode_reward_mean": -613.0536216410582, "training_iteration": 1720, "timesteps_total": 2064000, "policy_reward_mean": {}, "episode_reward_min": -783.0309961956513, "timesteps_since_restore": 2064000, "num_metric_batches_dropped": 0, "time_since_restore": 54079.19030380249, "episode_reward_max": -459.75305454191744, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2064000, "default": {"kl": 0.01100863330066204, "policy_loss": -0.1268150508403778, "vf_loss": 195.43313598632812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.981891393661499, "entropy": 4.818365097045898, "cur_lr": 4.999999873689376e-05, "total_loss": 195.32302856445312}, "load_time_ms": 0.625, "num_steps_sampled": 2064000, "grad_time_ms": 756.761, "update_time_ms": 2.749, "sample_time_ms": 33723.607}, "date": "2025-08-31_07-12-12", "hostname": "cda-server-4", "time_this_iter_s": 34.41864848136902, "episodes_total": 10320, "timestamp": 1756617132, "node_ip": "10.157.146.4", "done": false, "time_total_s": 54079.19030380249, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1721, "episode_reward_mean": -612.7797065741775, "training_iteration": 1721, "timesteps_total": 2065200, "policy_reward_mean": {}, "episode_reward_min": -783.0309961956513, "timesteps_since_restore": 2065200, "num_metric_batches_dropped": 0, "time_since_restore": 54112.9291601181, "episode_reward_max": -459.75305454191744, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2065200, "default": {"kl": 0.012525934725999832, "policy_loss": -0.1678391695022583, "vf_loss": 247.52325439453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9864904880523682, "entropy": 4.9852166175842285, "cur_lr": 4.999999873689376e-05, "total_loss": 247.37445068359375}, "load_time_ms": 0.622, "num_steps_sampled": 2065200, "grad_time_ms": 757.339, "update_time_ms": 2.661, "sample_time_ms": 33640.564}, "date": "2025-08-31_07-12-46", "hostname": "cda-server-4", "time_this_iter_s": 33.73885631561279, "episodes_total": 10326, "timestamp": 1756617166, "node_ip": "10.157.146.4", "done": false, "time_total_s": 54112.9291601181, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1722, "episode_reward_mean": -611.1959399478839, "training_iteration": 1722, "timesteps_total": 2066400, "policy_reward_mean": {}, "episode_reward_min": -783.0309961956513, "timesteps_since_restore": 2066400, "num_metric_batches_dropped": 0, "time_since_restore": 54146.44526910782, "episode_reward_max": -459.75305454191744, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2066400, "default": {"kl": 0.01074863038957119, "policy_loss": -0.14955714344978333, "vf_loss": 135.83352661132812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9852421879768372, "entropy": 4.704469680786133, "cur_lr": 4.999999873689376e-05, "total_loss": 135.70028686523438}, "load_time_ms": 0.614, "num_steps_sampled": 2066400, "grad_time_ms": 751.199, "update_time_ms": 2.658, "sample_time_ms": 33560.719}, "date": "2025-08-31_07-13-20", "hostname": "cda-server-4", "time_this_iter_s": 33.516108989715576, "episodes_total": 10332, "timestamp": 1756617200, "node_ip": "10.157.146.4", "done": false, "time_total_s": 54146.44526910782, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1723, "episode_reward_mean": -610.7417420432978, "training_iteration": 1723, "timesteps_total": 2067600, "policy_reward_mean": {}, "episode_reward_min": -783.0309961956513, "timesteps_since_restore": 2067600, "num_metric_batches_dropped": 0, "time_since_restore": 54180.92145514488, "episode_reward_max": -459.75305454191744, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2067600, "default": {"kl": 0.010314841754734516, "policy_loss": -0.14399658143520355, "vf_loss": 164.70318603515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9795433878898621, "entropy": 4.915503025054932, "cur_lr": 4.999999873689376e-05, "total_loss": 164.57485961914062}, "load_time_ms": 0.624, "num_steps_sampled": 2067600, "grad_time_ms": 725.798, "update_time_ms": 2.613, "sample_time_ms": 33580.704}, "date": "2025-08-31_07-13-54", "hostname": "cda-server-4", "time_this_iter_s": 34.4761860370636, "episodes_total": 10338, "timestamp": 1756617234, "node_ip": "10.157.146.4", "done": false, "time_total_s": 54180.92145514488, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1724, "episode_reward_mean": -609.2604052411187, "training_iteration": 1724, "timesteps_total": 2068800, "policy_reward_mean": {}, "episode_reward_min": -783.0309961956513, "timesteps_since_restore": 2068800, "num_metric_batches_dropped": 0, "time_since_restore": 54215.18258571625, "episode_reward_max": -459.75305454191744, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2068800, "default": {"kl": 0.011207150295376778, "policy_loss": -0.14646945893764496, "vf_loss": 300.2767333984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9788536429405212, "entropy": 4.945768356323242, "cur_lr": 4.999999873689376e-05, "total_loss": 300.14727783203125}, "load_time_ms": 0.6, "num_steps_sampled": 2068800, "grad_time_ms": 705.818, "update_time_ms": 2.56, "sample_time_ms": 33625.106}, "date": "2025-08-31_07-14-29", "hostname": "cda-server-4", "time_this_iter_s": 34.261130571365356, "episodes_total": 10344, "timestamp": 1756617269, "node_ip": "10.157.146.4", "done": false, "time_total_s": 54215.18258571625, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1725, "episode_reward_mean": -609.029279575786, "training_iteration": 1725, "timesteps_total": 2070000, "policy_reward_mean": {}, "episode_reward_min": -783.0309961956513, "timesteps_since_restore": 2070000, "num_metric_batches_dropped": 0, "time_since_restore": 54249.22481417656, "episode_reward_max": -459.75305454191744, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2070000, "default": {"kl": 0.013031672686338425, "policy_loss": -0.13400892913341522, "vf_loss": 341.5743408203125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9680569171905518, "entropy": 4.717405319213867, "cur_lr": 4.999999873689376e-05, "total_loss": 341.4601135253906}, "load_time_ms": 0.602, "num_steps_sampled": 2070000, "grad_time_ms": 692.366, "update_time_ms": 2.484, "sample_time_ms": 33589.317}, "date": "2025-08-31_07-15-03", "hostname": "cda-server-4", "time_this_iter_s": 34.04222846031189, "episodes_total": 10350, "timestamp": 1756617303, "node_ip": "10.157.146.4", "done": false, "time_total_s": 54249.22481417656, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1726, "episode_reward_mean": -610.9408772964442, "training_iteration": 1726, "timesteps_total": 2071200, "policy_reward_mean": {}, "episode_reward_min": -783.0309961956513, "timesteps_since_restore": 2071200, "num_metric_batches_dropped": 0, "time_since_restore": 54283.6523501873, "episode_reward_max": -459.8629667694844, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2071200, "default": {"kl": 0.010619509033858776, "policy_loss": -0.15536409616470337, "vf_loss": 179.06906127929688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.978158712387085, "entropy": 4.85425329208374, "cur_lr": 4.999999873689376e-05, "total_loss": 178.92982482910156}, "load_time_ms": 0.632, "num_steps_sampled": 2071200, "grad_time_ms": 694.14, "update_time_ms": 2.458, "sample_time_ms": 33584.341}, "date": "2025-08-31_07-15-37", "hostname": "cda-server-4", "time_this_iter_s": 34.42753601074219, "episodes_total": 10356, "timestamp": 1756617337, "node_ip": "10.157.146.4", "done": false, "time_total_s": 54283.6523501873, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1727, "episode_reward_mean": -614.4805484317444, "training_iteration": 1727, "timesteps_total": 2072400, "policy_reward_mean": {}, "episode_reward_min": -795.9160042379128, "timesteps_since_restore": 2072400, "num_metric_batches_dropped": 0, "time_since_restore": 54319.08363986015, "episode_reward_max": -464.55841852198137, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2072400, "default": {"kl": 0.012134389951825142, "policy_loss": -0.12853485345840454, "vf_loss": 1412.5086669921875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8389018177986145, "entropy": 5.047088146209717, "cur_lr": 4.999999873689376e-05, "total_loss": 1412.3985595703125}, "load_time_ms": 0.633, "num_steps_sampled": 2072400, "grad_time_ms": 693.56, "update_time_ms": 2.375, "sample_time_ms": 33692.122}, "date": "2025-08-31_07-16-12", "hostname": "cda-server-4", "time_this_iter_s": 35.43128967285156, "episodes_total": 10362, "timestamp": 1756617372, "node_ip": "10.157.146.4", "done": false, "time_total_s": 54319.08363986015, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1728, "episode_reward_mean": -613.9971502129504, "training_iteration": 1728, "timesteps_total": 2073600, "policy_reward_mean": {}, "episode_reward_min": -796.3062159480977, "timesteps_since_restore": 2073600, "num_metric_batches_dropped": 0, "time_since_restore": 54353.45923137665, "episode_reward_max": -464.55841852198137, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2073600, "default": {"kl": 0.011029114946722984, "policy_loss": -0.1358467936515808, "vf_loss": 196.47943115234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9764779210090637, "entropy": 5.240029335021973, "cur_lr": 4.999999873689376e-05, "total_loss": 196.36033630371094}, "load_time_ms": 0.629, "num_steps_sampled": 2073600, "grad_time_ms": 654.179, "update_time_ms": 2.354, "sample_time_ms": 33741.982}, "date": "2025-08-31_07-16-47", "hostname": "cda-server-4", "time_this_iter_s": 34.37559151649475, "episodes_total": 10368, "timestamp": 1756617407, "node_ip": "10.157.146.4", "done": false, "time_total_s": 54353.45923137665, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1729, "episode_reward_mean": -614.3163657732636, "training_iteration": 1729, "timesteps_total": 2074800, "policy_reward_mean": {}, "episode_reward_min": -796.3062159480977, "timesteps_since_restore": 2074800, "num_metric_batches_dropped": 0, "time_since_restore": 54387.566742658615, "episode_reward_max": -464.55841852198137, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2074800, "default": {"kl": 0.010343815200030804, "policy_loss": -0.14487870037555695, "vf_loss": 52.71162414550781, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.992666482925415, "entropy": 4.983194351196289, "cur_lr": 4.999999873689376e-05, "total_loss": 52.58245849609375}, "load_time_ms": 0.624, "num_steps_sampled": 2074800, "grad_time_ms": 642.833, "update_time_ms": 2.08, "sample_time_ms": 33630.024}, "date": "2025-08-31_07-17-21", "hostname": "cda-server-4", "time_this_iter_s": 34.10751128196716, "episodes_total": 10374, "timestamp": 1756617441, "node_ip": "10.157.146.4", "done": false, "time_total_s": 54387.566742658615, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1730, "episode_reward_mean": -615.9727974897348, "training_iteration": 1730, "timesteps_total": 2076000, "policy_reward_mean": {}, "episode_reward_min": -796.3062159480977, "timesteps_since_restore": 2076000, "num_metric_batches_dropped": 0, "time_since_restore": 54422.58604502678, "episode_reward_max": -464.55841852198137, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2076000, "default": {"kl": 0.010493730194866657, "policy_loss": -0.12117906659841537, "vf_loss": 1086.3150634765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8910748362541199, "entropy": 5.085280418395996, "cur_lr": 4.999999873689376e-05, "total_loss": 1086.2098388671875}, "load_time_ms": 0.618, "num_steps_sampled": 2076000, "grad_time_ms": 629.788, "update_time_ms": 2.112, "sample_time_ms": 33703.092}, "date": "2025-08-31_07-17-56", "hostname": "cda-server-4", "time_this_iter_s": 35.01930236816406, "episodes_total": 10380, "timestamp": 1756617476, "node_ip": "10.157.146.4", "done": false, "time_total_s": 54422.58604502678, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1731, "episode_reward_mean": -615.4702797546147, "training_iteration": 1731, "timesteps_total": 2077200, "policy_reward_mean": {}, "episode_reward_min": -796.3062159480977, "timesteps_since_restore": 2077200, "num_metric_batches_dropped": 0, "time_since_restore": 54458.24250936508, "episode_reward_max": -464.55841852198137, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2077200, "default": {"kl": 0.009073910303413868, "policy_loss": -0.13138194382190704, "vf_loss": 157.89686584472656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9796735048294067, "entropy": 4.726508617401123, "cur_lr": 4.999999873689376e-05, "total_loss": 157.77926635742188}, "load_time_ms": 0.62, "num_steps_sampled": 2077200, "grad_time_ms": 642.92, "update_time_ms": 2.149, "sample_time_ms": 33881.664}, "date": "2025-08-31_07-18-32", "hostname": "cda-server-4", "time_this_iter_s": 35.65646433830261, "episodes_total": 10386, "timestamp": 1756617512, "node_ip": "10.157.146.4", "done": false, "time_total_s": 54458.24250936508, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1732, "episode_reward_mean": -613.4222135246882, "training_iteration": 1732, "timesteps_total": 2078400, "policy_reward_mean": {}, "episode_reward_min": -796.3062159480977, "timesteps_since_restore": 2078400, "num_metric_batches_dropped": 0, "time_since_restore": 54492.52594947815, "episode_reward_max": -464.55841852198137, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2078400, "default": {"kl": 0.011617974378168583, "policy_loss": -0.1560836136341095, "vf_loss": 557.5995483398438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9343885779380798, "entropy": 4.955870628356934, "cur_lr": 4.999999873689376e-05, "total_loss": 557.4611206054688}, "load_time_ms": 0.619, "num_steps_sampled": 2078400, "grad_time_ms": 646.752, "update_time_ms": 2.078, "sample_time_ms": 33954.526}, "date": "2025-08-31_07-19-06", "hostname": "cda-server-4", "time_this_iter_s": 34.28344011306763, "episodes_total": 10392, "timestamp": 1756617546, "node_ip": "10.157.146.4", "done": false, "time_total_s": 54492.52594947815, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1733, "episode_reward_mean": -614.3427444979909, "training_iteration": 1733, "timesteps_total": 2079600, "policy_reward_mean": {}, "episode_reward_min": -796.3062159480977, "timesteps_since_restore": 2079600, "num_metric_batches_dropped": 0, "time_since_restore": 54526.14533805847, "episode_reward_max": -464.55841852198137, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2079600, "default": {"kl": 0.00891808606684208, "policy_loss": -0.12540608644485474, "vf_loss": 155.5086212158203, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9764086604118347, "entropy": 4.990212440490723, "cur_lr": 4.999999873689376e-05, "total_loss": 155.3967742919922}, "load_time_ms": 0.618, "num_steps_sampled": 2079600, "grad_time_ms": 658.117, "update_time_ms": 2.136, "sample_time_ms": 33857.411}, "date": "2025-08-31_07-19-40", "hostname": "cda-server-4", "time_this_iter_s": 33.619388580322266, "episodes_total": 10398, "timestamp": 1756617580, "node_ip": "10.157.146.4", "done": false, "time_total_s": 54526.14533805847, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1734, "episode_reward_mean": -614.5397020067904, "training_iteration": 1734, "timesteps_total": 2080800, "policy_reward_mean": {}, "episode_reward_min": -796.3062159480977, "timesteps_since_restore": 2080800, "num_metric_batches_dropped": 0, "time_since_restore": 54561.28718161583, "episode_reward_max": -464.55841852198137, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2080800, "default": {"kl": 0.013130038976669312, "policy_loss": -0.1612328737974167, "vf_loss": 1300.24462890625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9030281901359558, "entropy": 5.058753967285156, "cur_lr": 4.999999873689376e-05, "total_loss": 1300.1031494140625}, "load_time_ms": 0.629, "num_steps_sampled": 2080800, "grad_time_ms": 662.928, "update_time_ms": 2.146, "sample_time_ms": 33940.567}, "date": "2025-08-31_07-20-15", "hostname": "cda-server-4", "time_this_iter_s": 35.14184355735779, "episodes_total": 10404, "timestamp": 1756617615, "node_ip": "10.157.146.4", "done": false, "time_total_s": 54561.28718161583, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1735, "episode_reward_mean": -613.7144057167242, "training_iteration": 1735, "timesteps_total": 2082000, "policy_reward_mean": {}, "episode_reward_min": -796.3062159480977, "timesteps_since_restore": 2082000, "num_metric_batches_dropped": 0, "time_since_restore": 54596.49118280411, "episode_reward_max": -464.55841852198137, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2082000, "default": {"kl": 0.011810164898633957, "policy_loss": -0.14953382313251495, "vf_loss": 192.12625122070312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9809852242469788, "entropy": 4.726559638977051, "cur_lr": 4.999999873689376e-05, "total_loss": 191.99462890625}, "load_time_ms": 0.66, "num_steps_sampled": 2082000, "grad_time_ms": 667.343, "update_time_ms": 2.214, "sample_time_ms": 34052.149}, "date": "2025-08-31_07-20-50", "hostname": "cda-server-4", "time_this_iter_s": 35.2040011882782, "episodes_total": 10410, "timestamp": 1756617650, "node_ip": "10.157.146.4", "done": false, "time_total_s": 54596.49118280411, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1736, "episode_reward_mean": -615.9832319338817, "training_iteration": 1736, "timesteps_total": 2083200, "policy_reward_mean": {}, "episode_reward_min": -796.3062159480977, "timesteps_since_restore": 2083200, "num_metric_batches_dropped": 0, "time_since_restore": 54630.503390312195, "episode_reward_max": -465.63036817658406, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2083200, "default": {"kl": 0.013800247572362423, "policy_loss": -0.13818329572677612, "vf_loss": 1405.714599609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9644694924354553, "entropy": 5.076314926147461, "cur_lr": 4.999999873689376e-05, "total_loss": 1405.597412109375}, "load_time_ms": 0.663, "num_steps_sampled": 2083200, "grad_time_ms": 662.521, "update_time_ms": 2.254, "sample_time_ms": 34015.363}, "date": "2025-08-31_07-21-24", "hostname": "cda-server-4", "time_this_iter_s": 34.01220750808716, "episodes_total": 10416, "timestamp": 1756617684, "node_ip": "10.157.146.4", "done": false, "time_total_s": 54630.503390312195, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1737, "episode_reward_mean": -616.5171498797645, "training_iteration": 1737, "timesteps_total": 2084400, "policy_reward_mean": {}, "episode_reward_min": -796.3062159480977, "timesteps_since_restore": 2084400, "num_metric_batches_dropped": 0, "time_since_restore": 54664.740300655365, "episode_reward_max": -465.63036817658406, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2084400, "default": {"kl": 0.01105243805795908, "policy_loss": -0.1447530835866928, "vf_loss": 125.89822387695312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9888948798179626, "entropy": 4.917856216430664, "cur_lr": 4.999999873689376e-05, "total_loss": 125.770263671875}, "load_time_ms": 0.682, "num_steps_sampled": 2084400, "grad_time_ms": 637.449, "update_time_ms": 2.355, "sample_time_ms": 33920.728}, "date": "2025-08-31_07-21-58", "hostname": "cda-server-4", "time_this_iter_s": 34.236910343170166, "episodes_total": 10422, "timestamp": 1756617718, "node_ip": "10.157.146.4", "done": false, "time_total_s": 54664.740300655365, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1738, "episode_reward_mean": -618.2138671719554, "training_iteration": 1738, "timesteps_total": 2085600, "policy_reward_mean": {}, "episode_reward_min": -796.3062159480977, "timesteps_since_restore": 2085600, "num_metric_batches_dropped": 0, "time_since_restore": 54698.77162671089, "episode_reward_max": -465.63036817658406, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2085600, "default": {"kl": 0.012854663655161858, "policy_loss": -0.17770129442214966, "vf_loss": 486.6701965332031, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9638810753822327, "entropy": 5.093103408813477, "cur_lr": 4.999999873689376e-05, "total_loss": 486.5120544433594}, "load_time_ms": 0.683, "num_steps_sampled": 2085600, "grad_time_ms": 635.426, "update_time_ms": 2.37, "sample_time_ms": 33888.37}, "date": "2025-08-31_07-22-32", "hostname": "cda-server-4", "time_this_iter_s": 34.03132605552673, "episodes_total": 10428, "timestamp": 1756617752, "node_ip": "10.157.146.4", "done": false, "time_total_s": 54698.77162671089, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1739, "episode_reward_mean": -619.996438604192, "training_iteration": 1739, "timesteps_total": 2086800, "policy_reward_mean": {}, "episode_reward_min": -796.3062159480977, "timesteps_since_restore": 2086800, "num_metric_batches_dropped": 0, "time_since_restore": 54733.06372833252, "episode_reward_max": -465.63036817658406, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2086800, "default": {"kl": 0.00872110016644001, "policy_loss": -0.13008037209510803, "vf_loss": 687.0316162109375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8891108632087708, "entropy": 5.1484198570251465, "cur_lr": 4.999999873689376e-05, "total_loss": 686.914794921875}, "load_time_ms": 0.679, "num_steps_sampled": 2086800, "grad_time_ms": 638.9, "update_time_ms": 2.305, "sample_time_ms": 33903.524}, "date": "2025-08-31_07-23-07", "hostname": "cda-server-4", "time_this_iter_s": 34.29210162162781, "episodes_total": 10434, "timestamp": 1756617787, "node_ip": "10.157.146.4", "done": false, "time_total_s": 54733.06372833252, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1740, "episode_reward_mean": -621.9990525767148, "training_iteration": 1740, "timesteps_total": 2088000, "policy_reward_mean": {}, "episode_reward_min": -796.3062159480977, "timesteps_since_restore": 2088000, "num_metric_batches_dropped": 0, "time_since_restore": 54766.79846858978, "episode_reward_max": -545.1535824195179, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2088000, "default": {"kl": 0.010050108656287193, "policy_loss": -0.14070647954940796, "vf_loss": 316.768798828125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9527701139450073, "entropy": 5.1518025398254395, "cur_lr": 4.999999873689376e-05, "total_loss": 316.6433410644531}, "load_time_ms": 0.679, "num_steps_sampled": 2088000, "grad_time_ms": 646.351, "update_time_ms": 2.261, "sample_time_ms": 33767.7}, "date": "2025-08-31_07-23-40", "hostname": "cda-server-4", "time_this_iter_s": 33.734740257263184, "episodes_total": 10440, "timestamp": 1756617820, "node_ip": "10.157.146.4", "done": false, "time_total_s": 54766.79846858978, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1741, "episode_reward_mean": -622.5798651708158, "training_iteration": 1741, "timesteps_total": 2089200, "policy_reward_mean": {}, "episode_reward_min": -796.3062159480977, "timesteps_since_restore": 2089200, "num_metric_batches_dropped": 0, "time_since_restore": 54801.56364226341, "episode_reward_max": -545.1535824195179, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2089200, "default": {"kl": 0.008689655922353268, "policy_loss": -0.12548770010471344, "vf_loss": 90.39013671875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9911109209060669, "entropy": 4.894662857055664, "cur_lr": 4.999999873689376e-05, "total_loss": 90.27784729003906}, "load_time_ms": 0.676, "num_steps_sampled": 2089200, "grad_time_ms": 624.478, "update_time_ms": 2.3, "sample_time_ms": 33700.439}, "date": "2025-08-31_07-24-15", "hostname": "cda-server-4", "time_this_iter_s": 34.76517367362976, "episodes_total": 10446, "timestamp": 1756617855, "node_ip": "10.157.146.4", "done": false, "time_total_s": 54801.56364226341, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1742, "episode_reward_mean": -621.9117514973616, "training_iteration": 1742, "timesteps_total": 2090400, "policy_reward_mean": {}, "episode_reward_min": -796.3062159480977, "timesteps_since_restore": 2090400, "num_metric_batches_dropped": 0, "time_since_restore": 54836.698556900024, "episode_reward_max": -545.1535824195179, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2090400, "default": {"kl": 0.010552387684583664, "policy_loss": -0.14384722709655762, "vf_loss": 203.232177734375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9772728681564331, "entropy": 4.929246425628662, "cur_lr": 4.999999873689376e-05, "total_loss": 203.1043701171875}, "load_time_ms": 0.678, "num_steps_sampled": 2090400, "grad_time_ms": 617.075, "update_time_ms": 2.324, "sample_time_ms": 33793.009}, "date": "2025-08-31_07-24-50", "hostname": "cda-server-4", "time_this_iter_s": 35.13491463661194, "episodes_total": 10452, "timestamp": 1756617890, "node_ip": "10.157.146.4", "done": false, "time_total_s": 54836.698556900024, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1743, "episode_reward_mean": -622.1672320066647, "training_iteration": 1743, "timesteps_total": 2091600, "policy_reward_mean": {}, "episode_reward_min": -796.3062159480977, "timesteps_since_restore": 2091600, "num_metric_batches_dropped": 0, "time_since_restore": 54871.49003362656, "episode_reward_max": -545.1535824195179, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2091600, "default": {"kl": 0.01208780612796545, "policy_loss": -0.14854371547698975, "vf_loss": 85.73394775390625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9937283396720886, "entropy": 4.681037902832031, "cur_lr": 4.999999873689376e-05, "total_loss": 85.603759765625}, "load_time_ms": 0.665, "num_steps_sampled": 2091600, "grad_time_ms": 625.544, "update_time_ms": 2.327, "sample_time_ms": 33901.742}, "date": "2025-08-31_07-25-25", "hostname": "cda-server-4", "time_this_iter_s": 34.79147672653198, "episodes_total": 10458, "timestamp": 1756617925, "node_ip": "10.157.146.4", "done": false, "time_total_s": 54871.49003362656, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1744, "episode_reward_mean": -618.1381440162222, "training_iteration": 1744, "timesteps_total": 2092800, "policy_reward_mean": {}, "episode_reward_min": -788.8328968354605, "timesteps_since_restore": 2092800, "num_metric_batches_dropped": 0, "time_since_restore": 54904.99831914902, "episode_reward_max": -545.1535824195179, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2092800, "default": {"kl": 0.011497054249048233, "policy_loss": -0.1402476280927658, "vf_loss": 271.9731140136719, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9859654307365417, "entropy": 5.068215847015381, "cur_lr": 4.999999873689376e-05, "total_loss": 271.8503112792969}, "load_time_ms": 0.663, "num_steps_sampled": 2092800, "grad_time_ms": 640.305, "update_time_ms": 2.329, "sample_time_ms": 33723.676}, "date": "2025-08-31_07-25-59", "hostname": "cda-server-4", "time_this_iter_s": 33.50828552246094, "episodes_total": 10464, "timestamp": 1756617959, "node_ip": "10.157.146.4", "done": false, "time_total_s": 54904.99831914902, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1745, "episode_reward_mean": -618.3308630615087, "training_iteration": 1745, "timesteps_total": 2094000, "policy_reward_mean": {}, "episode_reward_min": -788.8328968354605, "timesteps_since_restore": 2094000, "num_metric_batches_dropped": 0, "time_since_restore": 54939.679970264435, "episode_reward_max": -545.1535824195179, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2094000, "default": {"kl": 0.010476493276655674, "policy_loss": -0.16161972284317017, "vf_loss": 217.10580444335938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9826381206512451, "entropy": 4.873287200927734, "cur_lr": 4.999999873689376e-05, "total_loss": 216.96011352539062}, "load_time_ms": 0.629, "num_steps_sampled": 2094000, "grad_time_ms": 644.426, "update_time_ms": 2.314, "sample_time_ms": 33667.477}, "date": "2025-08-31_07-26-33", "hostname": "cda-server-4", "time_this_iter_s": 34.68165111541748, "episodes_total": 10470, "timestamp": 1756617993, "node_ip": "10.157.146.4", "done": false, "time_total_s": 54939.679970264435, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1746, "episode_reward_mean": -617.9112614226666, "training_iteration": 1746, "timesteps_total": 2095200, "policy_reward_mean": {}, "episode_reward_min": -788.8328968354605, "timesteps_since_restore": 2095200, "num_metric_batches_dropped": 0, "time_since_restore": 54975.27853655815, "episode_reward_max": -545.1535824195179, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2095200, "default": {"kl": 0.011204127222299576, "policy_loss": -0.14088964462280273, "vf_loss": 395.3890075683594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9685277938842773, "entropy": 5.188353538513184, "cur_lr": 4.999999873689376e-05, "total_loss": 395.2651062011719}, "load_time_ms": 0.598, "num_steps_sampled": 2095200, "grad_time_ms": 641.872, "update_time_ms": 2.298, "sample_time_ms": 33828.767}, "date": "2025-08-31_07-27-09", "hostname": "cda-server-4", "time_this_iter_s": 35.59856629371643, "episodes_total": 10476, "timestamp": 1756618029, "node_ip": "10.157.146.4", "done": false, "time_total_s": 54975.27853655815, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1747, "episode_reward_mean": -618.5701136353977, "training_iteration": 1747, "timesteps_total": 2096400, "policy_reward_mean": {}, "episode_reward_min": -788.8328968354605, "timesteps_since_restore": 2096400, "num_metric_batches_dropped": 0, "time_since_restore": 55009.21982860565, "episode_reward_max": -545.1535824195179, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2096400, "default": {"kl": 0.00888427160680294, "policy_loss": -0.12477520853281021, "vf_loss": 77.44571685791016, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.993683934211731, "entropy": 4.716739177703857, "cur_lr": 4.999999873689376e-05, "total_loss": 77.33444213867188}, "load_time_ms": 0.592, "num_steps_sampled": 2096400, "grad_time_ms": 659.644, "update_time_ms": 2.245, "sample_time_ms": 33781.513}, "date": "2025-08-31_07-27-43", "hostname": "cda-server-4", "time_this_iter_s": 33.94129204750061, "episodes_total": 10482, "timestamp": 1756618063, "node_ip": "10.157.146.4", "done": false, "time_total_s": 55009.21982860565, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1748, "episode_reward_mean": -619.0131853406974, "training_iteration": 1748, "timesteps_total": 2097600, "policy_reward_mean": {}, "episode_reward_min": -788.8328968354605, "timesteps_since_restore": 2097600, "num_metric_batches_dropped": 0, "time_since_restore": 55043.36877846718, "episode_reward_max": -545.1535824195179, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2097600, "default": {"kl": 0.009484478272497654, "policy_loss": -0.1434779316186905, "vf_loss": 176.90939331054688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9782195687294006, "entropy": 4.8157196044921875, "cur_lr": 4.999999873689376e-05, "total_loss": 176.7803192138672}, "load_time_ms": 0.604, "num_steps_sampled": 2097600, "grad_time_ms": 668.722, "update_time_ms": 2.194, "sample_time_ms": 33784.152}, "date": "2025-08-31_07-28-17", "hostname": "cda-server-4", "time_this_iter_s": 34.14894986152649, "episodes_total": 10488, "timestamp": 1756618097, "node_ip": "10.157.146.4", "done": false, "time_total_s": 55043.36877846718, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1749, "episode_reward_mean": -618.9945140978944, "training_iteration": 1749, "timesteps_total": 2098800, "policy_reward_mean": {}, "episode_reward_min": -788.8328968354605, "timesteps_since_restore": 2098800, "num_metric_batches_dropped": 0, "time_since_restore": 55077.586577415466, "episode_reward_max": -585.239592622173, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2098800, "default": {"kl": 0.010120440274477005, "policy_loss": -0.14472784101963043, "vf_loss": 198.279541015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9785592555999756, "entropy": 4.9037652015686035, "cur_lr": 4.999999873689376e-05, "total_loss": 198.1501922607422}, "load_time_ms": 0.608, "num_steps_sampled": 2098800, "grad_time_ms": 670.642, "update_time_ms": 2.228, "sample_time_ms": 33774.766}, "date": "2025-08-31_07-28-51", "hostname": "cda-server-4", "time_this_iter_s": 34.217798948287964, "episodes_total": 10494, "timestamp": 1756618131, "node_ip": "10.157.146.4", "done": false, "time_total_s": 55077.586577415466, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1750, "episode_reward_mean": -618.7711136900409, "training_iteration": 1750, "timesteps_total": 2100000, "policy_reward_mean": {}, "episode_reward_min": -788.8328968354605, "timesteps_since_restore": 2100000, "num_metric_batches_dropped": 0, "time_since_restore": 55112.11680340767, "episode_reward_max": -585.239592622173, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2100000, "default": {"kl": 0.01049799844622612, "policy_loss": -0.1481494903564453, "vf_loss": 119.63693237304688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9928510189056396, "entropy": 4.798524856567383, "cur_lr": 4.999999873689376e-05, "total_loss": 119.50472259521484}, "load_time_ms": 0.603, "num_steps_sampled": 2100000, "grad_time_ms": 667.644, "update_time_ms": 2.284, "sample_time_ms": 33857.274}, "date": "2025-08-31_07-29-26", "hostname": "cda-server-4", "time_this_iter_s": 34.53022599220276, "episodes_total": 10500, "timestamp": 1756618166, "node_ip": "10.157.146.4", "done": false, "time_total_s": 55112.11680340767, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1751, "episode_reward_mean": -619.1911974987042, "training_iteration": 1751, "timesteps_total": 2101200, "policy_reward_mean": {}, "episode_reward_min": -788.8328968354605, "timesteps_since_restore": 2101200, "num_metric_batches_dropped": 0, "time_since_restore": 55146.36776137352, "episode_reward_max": -585.239592622173, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2101200, "default": {"kl": 0.00846572034060955, "policy_loss": -0.08659843355417252, "vf_loss": 308.720458984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9765112400054932, "entropy": 4.886989116668701, "cur_lr": 4.999999873689376e-05, "total_loss": 308.6466979980469}, "load_time_ms": 0.607, "num_steps_sampled": 2101200, "grad_time_ms": 673.847, "update_time_ms": 2.404, "sample_time_ms": 33799.514}, "date": "2025-08-31_07-30-00", "hostname": "cda-server-4", "time_this_iter_s": 34.25095796585083, "episodes_total": 10506, "timestamp": 1756618200, "node_ip": "10.157.146.4", "done": false, "time_total_s": 55146.36776137352, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1752, "episode_reward_mean": -620.7534187050928, "training_iteration": 1752, "timesteps_total": 2102400, "policy_reward_mean": {}, "episode_reward_min": -788.8328968354605, "timesteps_since_restore": 2102400, "num_metric_batches_dropped": 0, "time_since_restore": 55181.55363988876, "episode_reward_max": -585.239592622173, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2102400, "default": {"kl": 0.01125261839479208, "policy_loss": -0.14885400235652924, "vf_loss": 209.56544494628906, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9750590920448303, "entropy": 5.118398666381836, "cur_lr": 4.999999873689376e-05, "total_loss": 209.4336700439453}, "load_time_ms": 0.612, "num_steps_sampled": 2102400, "grad_time_ms": 683.149, "update_time_ms": 2.464, "sample_time_ms": 33795.244}, "date": "2025-08-31_07-30-36", "hostname": "cda-server-4", "time_this_iter_s": 35.18587851524353, "episodes_total": 10512, "timestamp": 1756618236, "node_ip": "10.157.146.4", "done": false, "time_total_s": 55181.55363988876, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1753, "episode_reward_mean": -618.014616369735, "training_iteration": 1753, "timesteps_total": 2103600, "policy_reward_mean": {}, "episode_reward_min": -671.5618371756566, "timesteps_since_restore": 2103600, "num_metric_batches_dropped": 0, "time_since_restore": 55216.248354911804, "episode_reward_max": -585.239592622173, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2103600, "default": {"kl": 0.01104144100099802, "policy_loss": -0.14305609464645386, "vf_loss": 150.58078002929688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9759867191314697, "entropy": 4.817807197570801, "cur_lr": 4.999999873689376e-05, "total_loss": 150.45449829101562}, "load_time_ms": 0.613, "num_steps_sampled": 2103600, "grad_time_ms": 683.925, "update_time_ms": 2.462, "sample_time_ms": 33784.781}, "date": "2025-08-31_07-31-10", "hostname": "cda-server-4", "time_this_iter_s": 34.69471502304077, "episodes_total": 10518, "timestamp": 1756618270, "node_ip": "10.157.146.4", "done": false, "time_total_s": 55216.248354911804, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1754, "episode_reward_mean": -619.6165724612993, "training_iteration": 1754, "timesteps_total": 2104800, "policy_reward_mean": {}, "episode_reward_min": -713.4444151190861, "timesteps_since_restore": 2104800, "num_metric_batches_dropped": 0, "time_since_restore": 55250.566417217255, "episode_reward_max": -585.239592622173, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2104800, "default": {"kl": 0.011791697703301907, "policy_loss": -0.13767726719379425, "vf_loss": 238.6331329345703, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9713284373283386, "entropy": 5.309030532836914, "cur_lr": 4.999999873689376e-05, "total_loss": 238.5133514404297}, "load_time_ms": 0.613, "num_steps_sampled": 2104800, "grad_time_ms": 684.293, "update_time_ms": 2.46, "sample_time_ms": 33865.387}, "date": "2025-08-31_07-31-45", "hostname": "cda-server-4", "time_this_iter_s": 34.31806230545044, "episodes_total": 10524, "timestamp": 1756618305, "node_ip": "10.157.146.4", "done": false, "time_total_s": 55250.566417217255, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1755, "episode_reward_mean": -618.5231444968325, "training_iteration": 1755, "timesteps_total": 2106000, "policy_reward_mean": {}, "episode_reward_min": -713.4444151190861, "timesteps_since_restore": 2106000, "num_metric_batches_dropped": 0, "time_since_restore": 55284.89214849472, "episode_reward_max": -585.239592622173, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2106000, "default": {"kl": 0.011529411189258099, "policy_loss": -0.1366703361272812, "vf_loss": 79.0704574584961, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9879432320594788, "entropy": 5.029623985290527, "cur_lr": 4.999999873689376e-05, "total_loss": 78.95128631591797}, "load_time_ms": 0.625, "num_steps_sampled": 2106000, "grad_time_ms": 690.728, "update_time_ms": 2.545, "sample_time_ms": 33823.245}, "date": "2025-08-31_07-32-19", "hostname": "cda-server-4", "time_this_iter_s": 34.32573127746582, "episodes_total": 10530, "timestamp": 1756618339, "node_ip": "10.157.146.4", "done": false, "time_total_s": 55284.89214849472, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1756, "episode_reward_mean": -618.0393431535106, "training_iteration": 1756, "timesteps_total": 2107200, "policy_reward_mean": {}, "episode_reward_min": -713.4444151190861, "timesteps_since_restore": 2107200, "num_metric_batches_dropped": 0, "time_since_restore": 55319.17392683029, "episode_reward_max": -585.239592622173, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2107200, "default": {"kl": 0.010661191307008266, "policy_loss": -0.1464081108570099, "vf_loss": 376.14129638671875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.973395049571991, "entropy": 4.8247175216674805, "cur_lr": 4.999999873689376e-05, "total_loss": 376.0111083984375}, "load_time_ms": 0.629, "num_steps_sampled": 2107200, "grad_time_ms": 674.192, "update_time_ms": 2.585, "sample_time_ms": 33708.116}, "date": "2025-08-31_07-32-53", "hostname": "cda-server-4", "time_this_iter_s": 34.28177833557129, "episodes_total": 10536, "timestamp": 1756618373, "node_ip": "10.157.146.4", "done": false, "time_total_s": 55319.17392683029, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1757, "episode_reward_mean": -617.3427806544784, "training_iteration": 1757, "timesteps_total": 2108400, "policy_reward_mean": {}, "episode_reward_min": -713.4444151190861, "timesteps_since_restore": 2108400, "num_metric_batches_dropped": 0, "time_since_restore": 55353.92061972618, "episode_reward_max": -585.239592622173, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2108400, "default": {"kl": 0.008355624042451382, "policy_loss": -0.10855332016944885, "vf_loss": 312.9641418457031, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9679351449012756, "entropy": 4.633808612823486, "cur_lr": 4.999999873689376e-05, "total_loss": 312.8682861328125}, "load_time_ms": 0.65, "num_steps_sampled": 2108400, "grad_time_ms": 674.709, "update_time_ms": 2.563, "sample_time_ms": 33788.193}, "date": "2025-08-31_07-33-28", "hostname": "cda-server-4", "time_this_iter_s": 34.74669289588928, "episodes_total": 10542, "timestamp": 1756618408, "node_ip": "10.157.146.4", "done": false, "time_total_s": 55353.92061972618, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1758, "episode_reward_mean": -617.9254675863804, "training_iteration": 1758, "timesteps_total": 2109600, "policy_reward_mean": {}, "episode_reward_min": -713.4444151190861, "timesteps_since_restore": 2109600, "num_metric_batches_dropped": 0, "time_since_restore": 55389.40009307861, "episode_reward_max": -585.239592622173, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2109600, "default": {"kl": 0.011737585999071598, "policy_loss": -0.15555541217327118, "vf_loss": 160.94119262695312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9866936206817627, "entropy": 5.009252071380615, "cur_lr": 4.999999873689376e-05, "total_loss": 160.80343627929688}, "load_time_ms": 0.649, "num_steps_sampled": 2109600, "grad_time_ms": 681.092, "update_time_ms": 2.682, "sample_time_ms": 33914.727}, "date": "2025-08-31_07-34-03", "hostname": "cda-server-4", "time_this_iter_s": 35.47947335243225, "episodes_total": 10548, "timestamp": 1756618443, "node_ip": "10.157.146.4", "done": false, "time_total_s": 55389.40009307861, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1759, "episode_reward_mean": -617.7961327391664, "training_iteration": 1759, "timesteps_total": 2110800, "policy_reward_mean": {}, "episode_reward_min": -713.4444151190861, "timesteps_since_restore": 2110800, "num_metric_batches_dropped": 0, "time_since_restore": 55424.60210490227, "episode_reward_max": -585.239592622173, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2110800, "default": {"kl": 0.010697443969547749, "policy_loss": -0.13742400705814362, "vf_loss": 146.11192321777344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.984411895275116, "entropy": 4.697253704071045, "cur_lr": 4.999999873689376e-05, "total_loss": 145.99073791503906}, "load_time_ms": 0.649, "num_steps_sampled": 2110800, "grad_time_ms": 684.69, "update_time_ms": 2.69, "sample_time_ms": 34009.537}, "date": "2025-08-31_07-34-39", "hostname": "cda-server-4", "time_this_iter_s": 35.202011823654175, "episodes_total": 10554, "timestamp": 1756618479, "node_ip": "10.157.146.4", "done": false, "time_total_s": 55424.60210490227, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1760, "episode_reward_mean": -618.6673130540902, "training_iteration": 1760, "timesteps_total": 2112000, "policy_reward_mean": {}, "episode_reward_min": -713.4444151190861, "timesteps_since_restore": 2112000, "num_metric_batches_dropped": 0, "time_since_restore": 55459.785108566284, "episode_reward_max": -585.239592622173, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2112000, "default": {"kl": 0.010306376963853836, "policy_loss": -0.1395503133535385, "vf_loss": 301.5770568847656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9590691328048706, "entropy": 5.181336402893066, "cur_lr": 4.999999873689376e-05, "total_loss": 301.45318603515625}, "load_time_ms": 0.661, "num_steps_sampled": 2112000, "grad_time_ms": 687.371, "update_time_ms": 2.645, "sample_time_ms": 34072.173}, "date": "2025-08-31_07-35-14", "hostname": "cda-server-4", "time_this_iter_s": 35.183003664016724, "episodes_total": 10560, "timestamp": 1756618514, "node_ip": "10.157.146.4", "done": false, "time_total_s": 55459.785108566284, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1761, "episode_reward_mean": -619.7482979295996, "training_iteration": 1761, "timesteps_total": 2113200, "policy_reward_mean": {}, "episode_reward_min": -794.6012683335867, "timesteps_since_restore": 2113200, "num_metric_batches_dropped": 0, "time_since_restore": 55493.93283033371, "episode_reward_max": -585.239592622173, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2113200, "default": {"kl": 0.013668566942214966, "policy_loss": -0.17085368931293488, "vf_loss": 668.5663452148438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9422667622566223, "entropy": 4.840640068054199, "cur_lr": 4.999999873689376e-05, "total_loss": 668.416259765625}, "load_time_ms": 0.661, "num_steps_sampled": 2113200, "grad_time_ms": 680.68, "update_time_ms": 2.493, "sample_time_ms": 34068.671}, "date": "2025-08-31_07-35-48", "hostname": "cda-server-4", "time_this_iter_s": 34.14772176742554, "episodes_total": 10566, "timestamp": 1756618548, "node_ip": "10.157.146.4", "done": false, "time_total_s": 55493.93283033371, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1762, "episode_reward_mean": -619.3824031091283, "training_iteration": 1762, "timesteps_total": 2114400, "policy_reward_mean": {}, "episode_reward_min": -794.6012683335867, "timesteps_since_restore": 2114400, "num_metric_batches_dropped": 0, "time_since_restore": 55528.146470069885, "episode_reward_max": -585.239592622173, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2114400, "default": {"kl": 0.011677373200654984, "policy_loss": -0.14145420491695404, "vf_loss": 390.587646484375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9552992582321167, "entropy": 5.098606586456299, "cur_lr": 4.999999873689376e-05, "total_loss": 390.46392822265625}, "load_time_ms": 0.655, "num_steps_sampled": 2114400, "grad_time_ms": 662.752, "update_time_ms": 2.508, "sample_time_ms": 33989.385}, "date": "2025-08-31_07-36-22", "hostname": "cda-server-4", "time_this_iter_s": 34.21363973617554, "episodes_total": 10572, "timestamp": 1756618582, "node_ip": "10.157.146.4", "done": false, "time_total_s": 55528.146470069885, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1763, "episode_reward_mean": -618.3112666468539, "training_iteration": 1763, "timesteps_total": 2115600, "policy_reward_mean": {}, "episode_reward_min": -794.6012683335867, "timesteps_since_restore": 2115600, "num_metric_batches_dropped": 0, "time_since_restore": 55563.091331243515, "episode_reward_max": -568.4333179398549, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2115600, "default": {"kl": 0.009196819737553596, "policy_loss": -0.14353877305984497, "vf_loss": 301.4691467285156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.978805422782898, "entropy": 4.821127891540527, "cur_lr": 4.999999873689376e-05, "total_loss": 301.339599609375}, "load_time_ms": 0.656, "num_steps_sampled": 2115600, "grad_time_ms": 661.092, "update_time_ms": 2.47, "sample_time_ms": 34016.056}, "date": "2025-08-31_07-36-57", "hostname": "cda-server-4", "time_this_iter_s": 34.94486117362976, "episodes_total": 10578, "timestamp": 1756618617, "node_ip": "10.157.146.4", "done": false, "time_total_s": 55563.091331243515, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1764, "episode_reward_mean": -617.0179212451635, "training_iteration": 1764, "timesteps_total": 2116800, "policy_reward_mean": {}, "episode_reward_min": -794.6012683335867, "timesteps_since_restore": 2116800, "num_metric_batches_dropped": 0, "time_since_restore": 55598.355446100235, "episode_reward_max": -460.3910495490791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2116800, "default": {"kl": 0.009665160439908504, "policy_loss": -0.13740454614162445, "vf_loss": 242.95155334472656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9704163670539856, "entropy": 4.672124862670898, "cur_lr": 4.999999873689376e-05, "total_loss": 242.82882690429688}, "load_time_ms": 0.647, "num_steps_sampled": 2116800, "grad_time_ms": 665.475, "update_time_ms": 2.497, "sample_time_ms": 34106.287}, "date": "2025-08-31_07-37-33", "hostname": "cda-server-4", "time_this_iter_s": 35.26411485671997, "episodes_total": 10584, "timestamp": 1756618653, "node_ip": "10.157.146.4", "done": false, "time_total_s": 55598.355446100235, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1765, "episode_reward_mean": -617.5402484005042, "training_iteration": 1765, "timesteps_total": 2118000, "policy_reward_mean": {}, "episode_reward_min": -794.6012683335867, "timesteps_since_restore": 2118000, "num_metric_batches_dropped": 0, "time_since_restore": 55632.977620363235, "episode_reward_max": -460.3910495490791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2118000, "default": {"kl": 0.009007517248392105, "policy_loss": -0.12174160033464432, "vf_loss": 54.56570053100586, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9935809373855591, "entropy": 4.630523681640625, "cur_lr": 4.999999873689376e-05, "total_loss": 54.457637786865234}, "load_time_ms": 0.631, "num_steps_sampled": 2118000, "grad_time_ms": 665.096, "update_time_ms": 2.373, "sample_time_ms": 34136.47}, "date": "2025-08-31_07-38-07", "hostname": "cda-server-4", "time_this_iter_s": 34.62217426300049, "episodes_total": 10590, "timestamp": 1756618687, "node_ip": "10.157.146.4", "done": false, "time_total_s": 55632.977620363235, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1766, "episode_reward_mean": -617.27947412773, "training_iteration": 1766, "timesteps_total": 2119200, "policy_reward_mean": {}, "episode_reward_min": -794.6012683335867, "timesteps_since_restore": 2119200, "num_metric_batches_dropped": 0, "time_since_restore": 55668.117535829544, "episode_reward_max": -460.3910495490791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2119200, "default": {"kl": 0.011576492339372635, "policy_loss": -0.16850821673870087, "vf_loss": 189.99984741210938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9779140949249268, "entropy": 4.910895824432373, "cur_lr": 4.999999873689376e-05, "total_loss": 189.84893798828125}, "load_time_ms": 0.643, "num_steps_sampled": 2119200, "grad_time_ms": 690.494, "update_time_ms": 2.375, "sample_time_ms": 34196.803}, "date": "2025-08-31_07-38-42", "hostname": "cda-server-4", "time_this_iter_s": 35.139915466308594, "episodes_total": 10596, "timestamp": 1756618722, "node_ip": "10.157.146.4", "done": false, "time_total_s": 55668.117535829544, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1767, "episode_reward_mean": -617.4547083874801, "training_iteration": 1767, "timesteps_total": 2120400, "policy_reward_mean": {}, "episode_reward_min": -794.6012683335867, "timesteps_since_restore": 2120400, "num_metric_batches_dropped": 0, "time_since_restore": 55704.65357375145, "episode_reward_max": -460.3910495490791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2120400, "default": {"kl": 0.01227010041475296, "policy_loss": -0.1453278660774231, "vf_loss": 926.8646850585938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.923141360282898, "entropy": 4.69486141204834, "cur_lr": 4.999999873689376e-05, "total_loss": 926.7379760742188}, "load_time_ms": 0.612, "num_steps_sampled": 2120400, "grad_time_ms": 697.239, "update_time_ms": 2.385, "sample_time_ms": 34369.055}, "date": "2025-08-31_07-39-19", "hostname": "cda-server-4", "time_this_iter_s": 36.53603792190552, "episodes_total": 10602, "timestamp": 1756618759, "node_ip": "10.157.146.4", "done": false, "time_total_s": 55704.65357375145, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1768, "episode_reward_mean": -616.8254360197345, "training_iteration": 1768, "timesteps_total": 2121600, "policy_reward_mean": {}, "episode_reward_min": -794.6012683335867, "timesteps_since_restore": 2121600, "num_metric_batches_dropped": 0, "time_since_restore": 55740.150554418564, "episode_reward_max": -460.3910495490791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2121600, "default": {"kl": 0.009656035341322422, "policy_loss": -0.12296410650014877, "vf_loss": 282.2344665527344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9682085514068604, "entropy": 4.678800106048584, "cur_lr": 4.999999873689376e-05, "total_loss": 282.12615966796875}, "load_time_ms": 0.604, "num_steps_sampled": 2121600, "grad_time_ms": 697.264, "update_time_ms": 2.301, "sample_time_ms": 34370.978}, "date": "2025-08-31_07-39-54", "hostname": "cda-server-4", "time_this_iter_s": 35.49698066711426, "episodes_total": 10608, "timestamp": 1756618794, "node_ip": "10.157.146.4", "done": false, "time_total_s": 55740.150554418564, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1769, "episode_reward_mean": -616.105928275139, "training_iteration": 1769, "timesteps_total": 2122800, "policy_reward_mean": {}, "episode_reward_min": -794.6012683335867, "timesteps_since_restore": 2122800, "num_metric_batches_dropped": 0, "time_since_restore": 55774.8479578495, "episode_reward_max": -460.3910495490791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2122800, "default": {"kl": 0.01554828230291605, "policy_loss": -0.20028303563594818, "vf_loss": 196.4585418701172, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9869157075881958, "entropy": 5.085344314575195, "cur_lr": 4.999999873689376e-05, "total_loss": 196.28187561035156}, "load_time_ms": 0.635, "num_steps_sampled": 2122800, "grad_time_ms": 700.284, "update_time_ms": 2.297, "sample_time_ms": 34317.427}, "date": "2025-08-31_07-40-29", "hostname": "cda-server-4", "time_this_iter_s": 34.69740343093872, "episodes_total": 10614, "timestamp": 1756618829, "node_ip": "10.157.146.4", "done": false, "time_total_s": 55774.8479578495, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1770, "episode_reward_mean": -615.964483503249, "training_iteration": 1770, "timesteps_total": 2124000, "policy_reward_mean": {}, "episode_reward_min": -794.6012683335867, "timesteps_since_restore": 2124000, "num_metric_batches_dropped": 0, "time_since_restore": 55810.094074487686, "episode_reward_max": -460.3910495490791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2124000, "default": {"kl": 0.008241718634963036, "policy_loss": -0.1405235230922699, "vf_loss": 334.4700622558594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9730780124664307, "entropy": 4.836676597595215, "cur_lr": 4.999999873689376e-05, "total_loss": 334.342041015625}, "load_time_ms": 0.642, "num_steps_sampled": 2124000, "grad_time_ms": 704.809, "update_time_ms": 2.424, "sample_time_ms": 34318.986}, "date": "2025-08-31_07-41-04", "hostname": "cda-server-4", "time_this_iter_s": 35.246116638183594, "episodes_total": 10620, "timestamp": 1756618864, "node_ip": "10.157.146.4", "done": false, "time_total_s": 55810.094074487686, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1771, "episode_reward_mean": -615.5056303829363, "training_iteration": 1771, "timesteps_total": 2125200, "policy_reward_mean": {}, "episode_reward_min": -794.6012683335867, "timesteps_since_restore": 2125200, "num_metric_batches_dropped": 0, "time_since_restore": 55845.61140823364, "episode_reward_max": -460.3910495490791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2125200, "default": {"kl": 0.01102468091994524, "policy_loss": -0.13889452815055847, "vf_loss": 668.0045776367188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9325387477874756, "entropy": 4.959386825561523, "cur_lr": 4.999999873689376e-05, "total_loss": 667.8824462890625}, "load_time_ms": 0.642, "num_steps_sampled": 2125200, "grad_time_ms": 711.342, "update_time_ms": 2.447, "sample_time_ms": 34449.437}, "date": "2025-08-31_07-41-40", "hostname": "cda-server-4", "time_this_iter_s": 35.51733374595642, "episodes_total": 10626, "timestamp": 1756618900, "node_ip": "10.157.146.4", "done": false, "time_total_s": 55845.61140823364, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1772, "episode_reward_mean": -615.3188869022068, "training_iteration": 1772, "timesteps_total": 2126400, "policy_reward_mean": {}, "episode_reward_min": -794.6012683335867, "timesteps_since_restore": 2126400, "num_metric_batches_dropped": 0, "time_since_restore": 55880.86139369011, "episode_reward_max": -460.3910495490791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2126400, "default": {"kl": 0.010229157283902168, "policy_loss": -0.15057051181793213, "vf_loss": 297.6935729980469, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9680430889129639, "entropy": 4.806852340698242, "cur_lr": 4.999999873689376e-05, "total_loss": 297.5585632324219}, "load_time_ms": 0.64, "num_steps_sampled": 2126400, "grad_time_ms": 728.108, "update_time_ms": 2.54, "sample_time_ms": 34536.225}, "date": "2025-08-31_07-42-15", "hostname": "cda-server-4", "time_this_iter_s": 35.249985456466675, "episodes_total": 10632, "timestamp": 1756618935, "node_ip": "10.157.146.4", "done": false, "time_total_s": 55880.86139369011, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1773, "episode_reward_mean": -616.6669540118868, "training_iteration": 1773, "timesteps_total": 2127600, "policy_reward_mean": {}, "episode_reward_min": -794.6012683335867, "timesteps_since_restore": 2127600, "num_metric_batches_dropped": 0, "time_since_restore": 55916.205317020416, "episode_reward_max": -460.3910495490791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2127600, "default": {"kl": 0.015570346266031265, "policy_loss": -0.15724121034145355, "vf_loss": 1297.8809814453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9000195264816284, "entropy": 5.008223056793213, "cur_lr": 4.999999873689376e-05, "total_loss": 1297.7471923828125}, "load_time_ms": 0.643, "num_steps_sampled": 2127600, "grad_time_ms": 731.972, "update_time_ms": 2.628, "sample_time_ms": 34572.169}, "date": "2025-08-31_07-42-51", "hostname": "cda-server-4", "time_this_iter_s": 35.34392333030701, "episodes_total": 10638, "timestamp": 1756618971, "node_ip": "10.157.146.4", "done": false, "time_total_s": 55916.205317020416, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1774, "episode_reward_mean": -615.8689327043447, "training_iteration": 1774, "timesteps_total": 2128800, "policy_reward_mean": {}, "episode_reward_min": -794.6012683335867, "timesteps_since_restore": 2128800, "num_metric_batches_dropped": 0, "time_since_restore": 55952.3285908699, "episode_reward_max": -460.3910495490791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2128800, "default": {"kl": 0.010334227234125137, "policy_loss": -0.13747142255306244, "vf_loss": 722.2822265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9199793934822083, "entropy": 5.04362154006958, "cur_lr": 4.999999873689376e-05, "total_loss": 722.1604614257812}, "load_time_ms": 0.65, "num_steps_sampled": 2128800, "grad_time_ms": 725.91, "update_time_ms": 2.74, "sample_time_ms": 34664.058}, "date": "2025-08-31_07-43-27", "hostname": "cda-server-4", "time_this_iter_s": 36.123273849487305, "episodes_total": 10644, "timestamp": 1756619007, "node_ip": "10.157.146.4", "done": false, "time_total_s": 55952.3285908699, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1775, "episode_reward_mean": -615.9568361974417, "training_iteration": 1775, "timesteps_total": 2130000, "policy_reward_mean": {}, "episode_reward_min": -794.6012683335867, "timesteps_since_restore": 2130000, "num_metric_batches_dropped": 0, "time_since_restore": 55988.6191008091, "episode_reward_max": -460.3910495490791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2130000, "default": {"kl": 0.011865230277180672, "policy_loss": -0.14262181520462036, "vf_loss": 294.1637268066406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9601619243621826, "entropy": 5.010151386260986, "cur_lr": 4.999999873689376e-05, "total_loss": 294.0391845703125}, "load_time_ms": 0.647, "num_steps_sampled": 2130000, "grad_time_ms": 708.501, "update_time_ms": 2.757, "sample_time_ms": 34848.305}, "date": "2025-08-31_07-44-03", "hostname": "cda-server-4", "time_this_iter_s": 36.290509939193726, "episodes_total": 10650, "timestamp": 1756619043, "node_ip": "10.157.146.4", "done": false, "time_total_s": 55988.6191008091, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1776, "episode_reward_mean": -614.6950725717453, "training_iteration": 1776, "timesteps_total": 2131200, "policy_reward_mean": {}, "episode_reward_min": -794.6012683335867, "timesteps_since_restore": 2131200, "num_metric_batches_dropped": 0, "time_since_restore": 56023.261496305466, "episode_reward_max": -460.3910495490791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2131200, "default": {"kl": 0.010441694408655167, "policy_loss": -0.13810019195079803, "vf_loss": 573.89990234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9227291941642761, "entropy": 4.995817184448242, "cur_lr": 4.999999873689376e-05, "total_loss": 573.777587890625}, "load_time_ms": 0.624, "num_steps_sampled": 2131200, "grad_time_ms": 692.765, "update_time_ms": 2.71, "sample_time_ms": 34814.425}, "date": "2025-08-31_07-44-38", "hostname": "cda-server-4", "time_this_iter_s": 34.64239549636841, "episodes_total": 10656, "timestamp": 1756619078, "node_ip": "10.157.146.4", "done": false, "time_total_s": 56023.261496305466, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1777, "episode_reward_mean": -612.8625954960179, "training_iteration": 1777, "timesteps_total": 2132400, "policy_reward_mean": {}, "episode_reward_min": -791.9074540492807, "timesteps_since_restore": 2132400, "num_metric_batches_dropped": 0, "time_since_restore": 56058.464547634125, "episode_reward_max": -460.3910495490791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2132400, "default": {"kl": 0.01180915255099535, "policy_loss": -0.15337149798870087, "vf_loss": 272.1217956542969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9686086177825928, "entropy": 4.865828514099121, "cur_lr": 4.999999873689376e-05, "total_loss": 271.9863586425781}, "load_time_ms": 0.635, "num_steps_sampled": 2132400, "grad_time_ms": 680.88, "update_time_ms": 2.666, "sample_time_ms": 34693.036}, "date": "2025-08-31_07-45-13", "hostname": "cda-server-4", "time_this_iter_s": 35.20305132865906, "episodes_total": 10662, "timestamp": 1756619113, "node_ip": "10.157.146.4", "done": false, "time_total_s": 56058.464547634125, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1778, "episode_reward_mean": -613.0463926718851, "training_iteration": 1778, "timesteps_total": 2133600, "policy_reward_mean": {}, "episode_reward_min": -791.9074540492807, "timesteps_since_restore": 2133600, "num_metric_batches_dropped": 0, "time_since_restore": 56093.93992185593, "episode_reward_max": -460.3910495490791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2133600, "default": {"kl": 0.012483700178563595, "policy_loss": -0.14567922055721283, "vf_loss": 289.4109802246094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9751672744750977, "entropy": 5.067634582519531, "cur_lr": 4.999999873689376e-05, "total_loss": 289.28424072265625}, "load_time_ms": 0.629, "num_steps_sampled": 2133600, "grad_time_ms": 666.383, "update_time_ms": 2.636, "sample_time_ms": 34705.292}, "date": "2025-08-31_07-45-48", "hostname": "cda-server-4", "time_this_iter_s": 35.47537422180176, "episodes_total": 10668, "timestamp": 1756619148, "node_ip": "10.157.146.4", "done": false, "time_total_s": 56093.93992185593, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1779, "episode_reward_mean": -613.9589497559468, "training_iteration": 1779, "timesteps_total": 2134800, "policy_reward_mean": {}, "episode_reward_min": -791.9074540492807, "timesteps_since_restore": 2134800, "num_metric_batches_dropped": 0, "time_since_restore": 56129.24340105057, "episode_reward_max": -460.3910495490791, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2134800, "default": {"kl": 0.009294227696955204, "policy_loss": -0.11205804347991943, "vf_loss": 389.8030700683594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9537302851676941, "entropy": 4.756305694580078, "cur_lr": 4.999999873689376e-05, "total_loss": 389.7051696777344}, "load_time_ms": 0.6, "num_steps_sampled": 2134800, "grad_time_ms": 657.129, "update_time_ms": 2.626, "sample_time_ms": 34775.21}, "date": "2025-08-31_07-46-24", "hostname": "cda-server-4", "time_this_iter_s": 35.30347919464111, "episodes_total": 10674, "timestamp": 1756619184, "node_ip": "10.157.146.4", "done": false, "time_total_s": 56129.24340105057, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1780, "episode_reward_mean": -615.1780662691765, "training_iteration": 1780, "timesteps_total": 2136000, "policy_reward_mean": {}, "episode_reward_min": -791.9074540492807, "timesteps_since_restore": 2136000, "num_metric_batches_dropped": 0, "time_since_restore": 56164.74618935585, "episode_reward_max": -473.2609467173449, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2136000, "default": {"kl": 0.009725179523229599, "policy_loss": -0.1258857101202011, "vf_loss": 362.1384582519531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9602577686309814, "entropy": 4.727693557739258, "cur_lr": 4.999999873689376e-05, "total_loss": 362.02728271484375}, "load_time_ms": 0.591, "num_steps_sampled": 2136000, "grad_time_ms": 649.549, "update_time_ms": 2.519, "sample_time_ms": 34808.656}, "date": "2025-08-31_07-46-59", "hostname": "cda-server-4", "time_this_iter_s": 35.50278830528259, "episodes_total": 10680, "timestamp": 1756619219, "node_ip": "10.157.146.4", "done": false, "time_total_s": 56164.74618935585, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1781, "episode_reward_mean": -614.6769495201468, "training_iteration": 1781, "timesteps_total": 2137200, "policy_reward_mean": {}, "episode_reward_min": -791.9074540492807, "timesteps_since_restore": 2137200, "num_metric_batches_dropped": 0, "time_since_restore": 56200.75695872307, "episode_reward_max": -473.2609467173449, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2137200, "default": {"kl": 0.010339433327317238, "policy_loss": -0.13817162811756134, "vf_loss": 217.89207458496094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9729418158531189, "entropy": 4.774308204650879, "cur_lr": 4.999999873689376e-05, "total_loss": 217.7696075439453}, "load_time_ms": 0.588, "num_steps_sampled": 2137200, "grad_time_ms": 635.778, "update_time_ms": 2.566, "sample_time_ms": 34871.795}, "date": "2025-08-31_07-47-35", "hostname": "cda-server-4", "time_this_iter_s": 36.01076936721802, "episodes_total": 10686, "timestamp": 1756619255, "node_ip": "10.157.146.4", "done": false, "time_total_s": 56200.75695872307, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1782, "episode_reward_mean": -614.3002411591156, "training_iteration": 1782, "timesteps_total": 2138400, "policy_reward_mean": {}, "episode_reward_min": -791.9074540492807, "timesteps_since_restore": 2138400, "num_metric_batches_dropped": 0, "time_since_restore": 56236.88355135918, "episode_reward_max": -473.2609467173449, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2138400, "default": {"kl": 0.01008610613644123, "policy_loss": -0.13122908771038055, "vf_loss": 550.2338256835938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9246208667755127, "entropy": 4.751061916351318, "cur_lr": 4.999999873689376e-05, "total_loss": 550.117919921875}, "load_time_ms": 0.586, "num_steps_sampled": 2138400, "grad_time_ms": 626.137, "update_time_ms": 2.388, "sample_time_ms": 34969.26}, "date": "2025-08-31_07-48-11", "hostname": "cda-server-4", "time_this_iter_s": 36.1265926361084, "episodes_total": 10692, "timestamp": 1756619291, "node_ip": "10.157.146.4", "done": false, "time_total_s": 56236.88355135918, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1783, "episode_reward_mean": -613.7365453389643, "training_iteration": 1783, "timesteps_total": 2139600, "policy_reward_mean": {}, "episode_reward_min": -791.9074540492807, "timesteps_since_restore": 2139600, "num_metric_batches_dropped": 0, "time_since_restore": 56271.54365468025, "episode_reward_max": -473.2609467173449, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2139600, "default": {"kl": 0.0131779033690691, "policy_loss": -0.1542537808418274, "vf_loss": 233.2499237060547, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9799725413322449, "entropy": 4.719621658325195, "cur_lr": 4.999999873689376e-05, "total_loss": 233.11566162109375}, "load_time_ms": 0.579, "num_steps_sampled": 2139600, "grad_time_ms": 609.782, "update_time_ms": 2.398, "sample_time_ms": 34917.291}, "date": "2025-08-31_07-48-46", "hostname": "cda-server-4", "time_this_iter_s": 34.66010332107544, "episodes_total": 10698, "timestamp": 1756619326, "node_ip": "10.157.146.4", "done": false, "time_total_s": 56271.54365468025, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1784, "episode_reward_mean": -613.7100422056246, "training_iteration": 1784, "timesteps_total": 2140800, "policy_reward_mean": {}, "episode_reward_min": -791.9074540492807, "timesteps_since_restore": 2140800, "num_metric_batches_dropped": 0, "time_since_restore": 56306.761647462845, "episode_reward_max": -473.2609467173449, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2140800, "default": {"kl": 0.011388290673494339, "policy_loss": -0.15491479635238647, "vf_loss": 425.07440185546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9592030048370361, "entropy": 4.9981560707092285, "cur_lr": 4.999999873689376e-05, "total_loss": 424.9367980957031}, "load_time_ms": 0.581, "num_steps_sampled": 2140800, "grad_time_ms": 609.902, "update_time_ms": 2.209, "sample_time_ms": 34826.659}, "date": "2025-08-31_07-49-21", "hostname": "cda-server-4", "time_this_iter_s": 35.21799278259277, "episodes_total": 10704, "timestamp": 1756619361, "node_ip": "10.157.146.4", "done": false, "time_total_s": 56306.761647462845, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1785, "episode_reward_mean": -614.1957168861131, "training_iteration": 1785, "timesteps_total": 2142000, "policy_reward_mean": {}, "episode_reward_min": -791.9074540492807, "timesteps_since_restore": 2142000, "num_metric_batches_dropped": 0, "time_since_restore": 56342.55244231224, "episode_reward_max": -473.2609467173449, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2142000, "default": {"kl": 0.010601942427456379, "policy_loss": -0.13663353025913239, "vf_loss": 179.28041076660156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9788385033607483, "entropy": 4.701803207397461, "cur_lr": 4.999999873689376e-05, "total_loss": 179.15985107421875}, "load_time_ms": 0.619, "num_steps_sampled": 2142000, "grad_time_ms": 612.732, "update_time_ms": 2.23, "sample_time_ms": 34773.696}, "date": "2025-08-31_07-49-57", "hostname": "cda-server-4", "time_this_iter_s": 35.79079484939575, "episodes_total": 10710, "timestamp": 1756619397, "node_ip": "10.157.146.4", "done": false, "time_total_s": 56342.55244231224, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1786, "episode_reward_mean": -613.472837839131, "training_iteration": 1786, "timesteps_total": 2143200, "policy_reward_mean": {}, "episode_reward_min": -791.9074540492807, "timesteps_since_restore": 2143200, "num_metric_batches_dropped": 0, "time_since_restore": 56377.58593940735, "episode_reward_max": -473.2609467173449, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2143200, "default": {"kl": 0.008802013471722603, "policy_loss": -0.08367152512073517, "vf_loss": 398.3794860839844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9342009425163269, "entropy": 4.631872177124023, "cur_lr": 4.999999873689376e-05, "total_loss": 398.3091735839844}, "load_time_ms": 0.617, "num_steps_sampled": 2143200, "grad_time_ms": 612.94, "update_time_ms": 2.389, "sample_time_ms": 34812.331}, "date": "2025-08-31_07-50-32", "hostname": "cda-server-4", "time_this_iter_s": 35.03349709510803, "episodes_total": 10716, "timestamp": 1756619432, "node_ip": "10.157.146.4", "done": false, "time_total_s": 56377.58593940735, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1787, "episode_reward_mean": -612.0072715729345, "training_iteration": 1787, "timesteps_total": 2144400, "policy_reward_mean": {}, "episode_reward_min": -791.9074540492807, "timesteps_since_restore": 2144400, "num_metric_batches_dropped": 0, "time_since_restore": 56412.74579167366, "episode_reward_max": -473.2609467173449, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2144400, "default": {"kl": 0.009870611131191254, "policy_loss": -0.10282015800476074, "vf_loss": 145.02215576171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9787400364875793, "entropy": 4.434794902801514, "cur_lr": 4.999999873689376e-05, "total_loss": 144.93429565429688}, "load_time_ms": 0.603, "num_steps_sampled": 2144400, "grad_time_ms": 620.296, "update_time_ms": 2.513, "sample_time_ms": 34800.494}, "date": "2025-08-31_07-51-07", "hostname": "cda-server-4", "time_this_iter_s": 35.159852266311646, "episodes_total": 10722, "timestamp": 1756619467, "node_ip": "10.157.146.4", "done": false, "time_total_s": 56412.74579167366, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1788, "episode_reward_mean": -611.7999149818764, "training_iteration": 1788, "timesteps_total": 2145600, "policy_reward_mean": {}, "episode_reward_min": -791.9074540492807, "timesteps_since_restore": 2145600, "num_metric_batches_dropped": 0, "time_since_restore": 56448.15425801277, "episode_reward_max": -473.2609467173449, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2145600, "default": {"kl": 0.0094486428424716, "policy_loss": -0.12916676700115204, "vf_loss": 113.77253723144531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9869112372398376, "entropy": 4.593995094299316, "cur_lr": 4.999999873689376e-05, "total_loss": 113.65772247314453}, "load_time_ms": 0.625, "num_steps_sampled": 2145600, "grad_time_ms": 629.818, "update_time_ms": 2.63, "sample_time_ms": 34784.214}, "date": "2025-08-31_07-51-43", "hostname": "cda-server-4", "time_this_iter_s": 35.40846633911133, "episodes_total": 10728, "timestamp": 1756619503, "node_ip": "10.157.146.4", "done": false, "time_total_s": 56448.15425801277, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1789, "episode_reward_mean": -611.6247786675302, "training_iteration": 1789, "timesteps_total": 2146800, "policy_reward_mean": {}, "episode_reward_min": -791.9074540492807, "timesteps_since_restore": 2146800, "num_metric_batches_dropped": 0, "time_since_restore": 56483.450092315674, "episode_reward_max": -473.2609467173449, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2146800, "default": {"kl": 0.009612426161766052, "policy_loss": -0.11252101510763168, "vf_loss": 294.050537109375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9677662253379822, "entropy": 4.654801845550537, "cur_lr": 4.999999873689376e-05, "total_loss": 293.9526062011719}, "load_time_ms": 0.614, "num_steps_sampled": 2146800, "grad_time_ms": 621.106, "update_time_ms": 2.641, "sample_time_ms": 34792.163}, "date": "2025-08-31_07-52-18", "hostname": "cda-server-4", "time_this_iter_s": 35.29583430290222, "episodes_total": 10734, "timestamp": 1756619538, "node_ip": "10.157.146.4", "done": false, "time_total_s": 56483.450092315674, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1790, "episode_reward_mean": -609.8263752512539, "training_iteration": 1790, "timesteps_total": 2148000, "policy_reward_mean": {}, "episode_reward_min": -680.0570329449032, "timesteps_since_restore": 2148000, "num_metric_batches_dropped": 0, "time_since_restore": 56518.68299460411, "episode_reward_max": -473.2609467173449, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2148000, "default": {"kl": 0.011655140668153763, "policy_loss": -0.16136997938156128, "vf_loss": 392.8120422363281, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9572372436523438, "entropy": 4.943212509155273, "cur_lr": 4.999999873689376e-05, "total_loss": 392.6683349609375}, "load_time_ms": 0.611, "num_steps_sampled": 2148000, "grad_time_ms": 621.262, "update_time_ms": 2.623, "sample_time_ms": 34764.961}, "date": "2025-08-31_07-52-53", "hostname": "cda-server-4", "time_this_iter_s": 35.23290228843689, "episodes_total": 10740, "timestamp": 1756619573, "node_ip": "10.157.146.4", "done": false, "time_total_s": 56518.68299460411, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1791, "episode_reward_mean": -611.8501397835826, "training_iteration": 1791, "timesteps_total": 2149200, "policy_reward_mean": {}, "episode_reward_min": -680.0570329449032, "timesteps_since_restore": 2149200, "num_metric_batches_dropped": 0, "time_since_restore": 56555.151641368866, "episode_reward_max": -513.6460925905118, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2149200, "default": {"kl": 0.012208450585603714, "policy_loss": -0.163643479347229, "vf_loss": 375.19171142578125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9414092302322388, "entropy": 5.020816326141357, "cur_lr": 4.999999873689376e-05, "total_loss": 375.0466003417969}, "load_time_ms": 0.613, "num_steps_sampled": 2149200, "grad_time_ms": 633.562, "update_time_ms": 2.57, "sample_time_ms": 34798.373}, "date": "2025-08-31_07-53-30", "hostname": "cda-server-4", "time_this_iter_s": 36.46864676475525, "episodes_total": 10746, "timestamp": 1756619610, "node_ip": "10.157.146.4", "done": false, "time_total_s": 56555.151641368866, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1792, "episode_reward_mean": -611.5310713159356, "training_iteration": 1792, "timesteps_total": 2150400, "policy_reward_mean": {}, "episode_reward_min": -668.5445176594637, "timesteps_since_restore": 2150400, "num_metric_batches_dropped": 0, "time_since_restore": 56591.055433273315, "episode_reward_max": -513.6460925905118, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2150400, "default": {"kl": 0.010329953394830227, "policy_loss": -0.14410775899887085, "vf_loss": 243.27989196777344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9798596501350403, "entropy": 4.892976760864258, "cur_lr": 4.999999873689376e-05, "total_loss": 243.1514434814453}, "load_time_ms": 0.625, "num_steps_sampled": 2150400, "grad_time_ms": 641.471, "update_time_ms": 2.636, "sample_time_ms": 34768.091}, "date": "2025-08-31_07-54-06", "hostname": "cda-server-4", "time_this_iter_s": 35.90379190444946, "episodes_total": 10752, "timestamp": 1756619646, "node_ip": "10.157.146.4", "done": false, "time_total_s": 56591.055433273315, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1793, "episode_reward_mean": -611.6226485995439, "training_iteration": 1793, "timesteps_total": 2151600, "policy_reward_mean": {}, "episode_reward_min": -668.5445176594637, "timesteps_since_restore": 2151600, "num_metric_batches_dropped": 0, "time_since_restore": 56626.3198223114, "episode_reward_max": -513.6460925905118, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2151600, "default": {"kl": 0.012049398384988308, "policy_loss": -0.12808652222156525, "vf_loss": 427.18963623046875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9578329920768738, "entropy": 4.678617000579834, "cur_lr": 4.999999873689376e-05, "total_loss": 427.079833984375}, "load_time_ms": 0.667, "num_steps_sampled": 2151600, "grad_time_ms": 659.3, "update_time_ms": 2.622, "sample_time_ms": 34810.651}, "date": "2025-08-31_07-54-41", "hostname": "cda-server-4", "time_this_iter_s": 35.26438903808594, "episodes_total": 10758, "timestamp": 1756619681, "node_ip": "10.157.146.4", "done": false, "time_total_s": 56626.3198223114, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1794, "episode_reward_mean": -611.9301628983798, "training_iteration": 1794, "timesteps_total": 2152800, "policy_reward_mean": {}, "episode_reward_min": -668.5445176594637, "timesteps_since_restore": 2152800, "num_metric_batches_dropped": 0, "time_since_restore": 56661.68100476265, "episode_reward_max": -513.6460925905118, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2152800, "default": {"kl": 0.010199970565736294, "policy_loss": -0.1372755765914917, "vf_loss": 442.45458984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9473002552986145, "entropy": 4.599618911743164, "cur_lr": 4.999999873689376e-05, "total_loss": 442.3327941894531}, "load_time_ms": 0.678, "num_steps_sampled": 2152800, "grad_time_ms": 667.092, "update_time_ms": 2.651, "sample_time_ms": 34817.277}, "date": "2025-08-31_07-55-16", "hostname": "cda-server-4", "time_this_iter_s": 35.36118245124817, "episodes_total": 10764, "timestamp": 1756619716, "node_ip": "10.157.146.4", "done": false, "time_total_s": 56661.68100476265, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1795, "episode_reward_mean": -611.8679022532698, "training_iteration": 1795, "timesteps_total": 2154000, "policy_reward_mean": {}, "episode_reward_min": -668.5445176594637, "timesteps_since_restore": 2154000, "num_metric_batches_dropped": 0, "time_since_restore": 56698.215742111206, "episode_reward_max": -513.6460925905118, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2154000, "default": {"kl": 0.011064324527978897, "policy_loss": -0.14284712076187134, "vf_loss": 205.318603515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9783045649528503, "entropy": 4.608373165130615, "cur_lr": 4.999999873689376e-05, "total_loss": 205.19256591796875}, "load_time_ms": 0.643, "num_steps_sampled": 2154000, "grad_time_ms": 680.434, "update_time_ms": 2.614, "sample_time_ms": 34878.408}, "date": "2025-08-31_07-55-53", "hostname": "cda-server-4", "time_this_iter_s": 36.53473734855652, "episodes_total": 10770, "timestamp": 1756619753, "node_ip": "10.157.146.4", "done": false, "time_total_s": 56698.215742111206, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1796, "episode_reward_mean": -611.4224007338108, "training_iteration": 1796, "timesteps_total": 2155200, "policy_reward_mean": {}, "episode_reward_min": -668.5445176594637, "timesteps_since_restore": 2155200, "num_metric_batches_dropped": 0, "time_since_restore": 56733.9415307045, "episode_reward_max": -513.6460925905118, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2155200, "default": {"kl": 0.008745147846639156, "policy_loss": -0.1331307291984558, "vf_loss": 76.08048248291016, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.990157961845398, "entropy": 4.660346031188965, "cur_lr": 4.999999873689376e-05, "total_loss": 75.96063995361328}, "load_time_ms": 0.649, "num_steps_sampled": 2155200, "grad_time_ms": 694.222, "update_time_ms": 2.5, "sample_time_ms": 34933.98}, "date": "2025-08-31_07-56-29", "hostname": "cda-server-4", "time_this_iter_s": 35.725788593292236, "episodes_total": 10776, "timestamp": 1756619789, "node_ip": "10.157.146.4", "done": false, "time_total_s": 56733.9415307045, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1797, "episode_reward_mean": -612.2611335147284, "training_iteration": 1797, "timesteps_total": 2156400, "policy_reward_mean": {}, "episode_reward_min": -668.5445176594637, "timesteps_since_restore": 2156400, "num_metric_batches_dropped": 0, "time_since_restore": 56768.39485049248, "episode_reward_max": -493.04948382028357, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2156400, "default": {"kl": 0.01005544327199459, "policy_loss": -0.16516362130641937, "vf_loss": 249.1798553466797, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.964167058467865, "entropy": 4.86149787902832, "cur_lr": 4.999999873689376e-05, "total_loss": 249.0299530029297}, "load_time_ms": 0.659, "num_steps_sampled": 2156400, "grad_time_ms": 698.428, "update_time_ms": 2.429, "sample_time_ms": 34859.196}, "date": "2025-08-31_07-57-03", "hostname": "cda-server-4", "time_this_iter_s": 34.453319787979126, "episodes_total": 10782, "timestamp": 1756619823, "node_ip": "10.157.146.4", "done": false, "time_total_s": 56768.39485049248, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1798, "episode_reward_mean": -612.3046826471643, "training_iteration": 1798, "timesteps_total": 2157600, "policy_reward_mean": {}, "episode_reward_min": -668.5445176594637, "timesteps_since_restore": 2157600, "num_metric_batches_dropped": 0, "time_since_restore": 56804.15869355202, "episode_reward_max": -493.04948382028357, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2157600, "default": {"kl": 0.009831350296735764, "policy_loss": -0.13403086364269257, "vf_loss": 107.40499877929688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9856323599815369, "entropy": 4.774500846862793, "cur_lr": 4.999999873689376e-05, "total_loss": 107.28590393066406}, "load_time_ms": 0.641, "num_steps_sampled": 2157600, "grad_time_ms": 696.581, "update_time_ms": 2.341, "sample_time_ms": 34896.667}, "date": "2025-08-31_07-57-39", "hostname": "cda-server-4", "time_this_iter_s": 35.763843059539795, "episodes_total": 10788, "timestamp": 1756619859, "node_ip": "10.157.146.4", "done": false, "time_total_s": 56804.15869355202, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1799, "episode_reward_mean": -610.1900135491928, "training_iteration": 1799, "timesteps_total": 2158800, "policy_reward_mean": {}, "episode_reward_min": -668.5445176594637, "timesteps_since_restore": 2158800, "num_metric_batches_dropped": 0, "time_since_restore": 56839.48165988922, "episode_reward_max": -457.1962272799785, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2158800, "default": {"kl": 0.010936465114355087, "policy_loss": -0.1472022980451584, "vf_loss": 593.9203491210938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9041771292686462, "entropy": 4.619206428527832, "cur_lr": 4.999999873689376e-05, "total_loss": 593.7897338867188}, "load_time_ms": 0.681, "num_steps_sampled": 2158800, "grad_time_ms": 703.194, "update_time_ms": 2.334, "sample_time_ms": 34892.68}, "date": "2025-08-31_07-58-14", "hostname": "cda-server-4", "time_this_iter_s": 35.32296633720398, "episodes_total": 10794, "timestamp": 1756619894, "node_ip": "10.157.146.4", "done": false, "time_total_s": 56839.48165988922, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1800, "episode_reward_mean": -610.4584087666261, "training_iteration": 1800, "timesteps_total": 2160000, "policy_reward_mean": {}, "episode_reward_min": -668.5445176594637, "timesteps_since_restore": 2160000, "num_metric_batches_dropped": 0, "time_since_restore": 56874.76902484894, "episode_reward_max": -457.1962272799785, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2160000, "default": {"kl": 0.011227501556277275, "policy_loss": -0.148305743932724, "vf_loss": 243.52870178222656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9698721766471863, "entropy": 4.765214920043945, "cur_lr": 4.999999873689376e-05, "total_loss": 243.39743041992188}, "load_time_ms": 0.68, "num_steps_sampled": 2160000, "grad_time_ms": 705.011, "update_time_ms": 2.313, "sample_time_ms": 34896.353}, "date": "2025-08-31_07-58-50", "hostname": "cda-server-4", "time_this_iter_s": 35.2873649597168, "episodes_total": 10800, "timestamp": 1756619930, "node_ip": "10.157.146.4", "done": false, "time_total_s": 56874.76902484894, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1801, "episode_reward_mean": -611.5677490303277, "training_iteration": 1801, "timesteps_total": 2161200, "policy_reward_mean": {}, "episode_reward_min": -668.5445176594637, "timesteps_since_restore": 2161200, "num_metric_batches_dropped": 0, "time_since_restore": 56909.97926878929, "episode_reward_max": -457.1962272799785, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2161200, "default": {"kl": 0.010367143899202347, "policy_loss": -0.12179841101169586, "vf_loss": 299.2856750488281, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9798917770385742, "entropy": 4.6726250648498535, "cur_lr": 4.999999873689376e-05, "total_loss": 299.17962646484375}, "load_time_ms": 0.715, "num_steps_sampled": 2161200, "grad_time_ms": 705.243, "update_time_ms": 2.422, "sample_time_ms": 34770.246}, "date": "2025-08-31_07-59-25", "hostname": "cda-server-4", "time_this_iter_s": 35.210243940353394, "episodes_total": 10806, "timestamp": 1756619965, "node_ip": "10.157.146.4", "done": false, "time_total_s": 56909.97926878929, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1802, "episode_reward_mean": -612.3992232117826, "training_iteration": 1802, "timesteps_total": 2162400, "policy_reward_mean": {}, "episode_reward_min": -672.1301368527273, "timesteps_since_restore": 2162400, "num_metric_batches_dropped": 0, "time_since_restore": 56945.95634531975, "episode_reward_max": -457.1962272799785, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2162400, "default": {"kl": 0.01042960211634636, "policy_loss": -0.13734692335128784, "vf_loss": 496.3187255859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9460129141807556, "entropy": 5.124110221862793, "cur_lr": 4.999999873689376e-05, "total_loss": 496.197265625}, "load_time_ms": 0.747, "num_steps_sampled": 2162400, "grad_time_ms": 703.439, "update_time_ms": 2.37, "sample_time_ms": 34779.435}, "date": "2025-08-31_08-00-01", "hostname": "cda-server-4", "time_this_iter_s": 35.97707653045654, "episodes_total": 10812, "timestamp": 1756620001, "node_ip": "10.157.146.4", "done": false, "time_total_s": 56945.95634531975, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1803, "episode_reward_mean": -611.9020365256592, "training_iteration": 1803, "timesteps_total": 2163600, "policy_reward_mean": {}, "episode_reward_min": -672.1301368527273, "timesteps_since_restore": 2163600, "num_metric_batches_dropped": 0, "time_since_restore": 56981.886712789536, "episode_reward_max": -457.1962272799785, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2163600, "default": {"kl": 0.010412666946649551, "policy_loss": -0.13590320944786072, "vf_loss": 171.60047912597656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9807262420654297, "entropy": 4.769051551818848, "cur_lr": 4.999999873689376e-05, "total_loss": 171.48040771484375}, "load_time_ms": 0.709, "num_steps_sampled": 2163600, "grad_time_ms": 702.503, "update_time_ms": 2.296, "sample_time_ms": 34847.072}, "date": "2025-08-31_08-00-37", "hostname": "cda-server-4", "time_this_iter_s": 35.9303674697876, "episodes_total": 10818, "timestamp": 1756620037, "node_ip": "10.157.146.4", "done": false, "time_total_s": 56981.886712789536, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1804, "episode_reward_mean": -612.9458570350125, "training_iteration": 1804, "timesteps_total": 2164800, "policy_reward_mean": {}, "episode_reward_min": -672.1301368527273, "timesteps_since_restore": 2164800, "num_metric_batches_dropped": 0, "time_since_restore": 57016.72239899635, "episode_reward_max": -457.1962272799785, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2164800, "default": {"kl": 0.009792429395020008, "policy_loss": -0.11078272014856339, "vf_loss": 332.55523681640625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9513273239135742, "entropy": 4.756560802459717, "cur_lr": 4.999999873689376e-05, "total_loss": 332.4593200683594}, "load_time_ms": 0.697, "num_steps_sampled": 2164800, "grad_time_ms": 702.458, "update_time_ms": 2.412, "sample_time_ms": 34794.475}, "date": "2025-08-31_08-01-12", "hostname": "cda-server-4", "time_this_iter_s": 34.83568620681763, "episodes_total": 10824, "timestamp": 1756620072, "node_ip": "10.157.146.4", "done": false, "time_total_s": 57016.72239899635, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1805, "episode_reward_mean": -612.0101968359565, "training_iteration": 1805, "timesteps_total": 2166000, "policy_reward_mean": {}, "episode_reward_min": -672.1301368527273, "timesteps_since_restore": 2166000, "num_metric_batches_dropped": 0, "time_since_restore": 57052.757274866104, "episode_reward_max": -457.1962272799785, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2166000, "default": {"kl": 0.010217903181910515, "policy_loss": -0.1426543891429901, "vf_loss": 306.5828857421875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9587259292602539, "entropy": 4.848728179931641, "cur_lr": 4.999999873689376e-05, "total_loss": 306.4557800292969}, "load_time_ms": 0.73, "num_steps_sampled": 2166000, "grad_time_ms": 699.89, "update_time_ms": 2.408, "sample_time_ms": 34747.001}, "date": "2025-08-31_08-01-48", "hostname": "cda-server-4", "time_this_iter_s": 36.03487586975098, "episodes_total": 10830, "timestamp": 1756620108, "node_ip": "10.157.146.4", "done": false, "time_total_s": 57052.757274866104, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1806, "episode_reward_mean": -613.1969850575337, "training_iteration": 1806, "timesteps_total": 2167200, "policy_reward_mean": {}, "episode_reward_min": -692.5096248667815, "timesteps_since_restore": 2167200, "num_metric_batches_dropped": 0, "time_since_restore": 57088.051425457, "episode_reward_max": -457.1962272799785, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2167200, "default": {"kl": 0.013191776350140572, "policy_loss": -0.16798949241638184, "vf_loss": 520.2294311523438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9503586292266846, "entropy": 5.121345520019531, "cur_lr": 4.999999873689376e-05, "total_loss": 520.0814819335938}, "load_time_ms": 0.756, "num_steps_sampled": 2167200, "grad_time_ms": 694.718, "update_time_ms": 2.428, "sample_time_ms": 34709.013}, "date": "2025-08-31_08-02-23", "hostname": "cda-server-4", "time_this_iter_s": 35.294150590896606, "episodes_total": 10836, "timestamp": 1756620143, "node_ip": "10.157.146.4", "done": false, "time_total_s": 57088.051425457, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1807, "episode_reward_mean": -612.9159446173653, "training_iteration": 1807, "timesteps_total": 2168400, "policy_reward_mean": {}, "episode_reward_min": -692.5096248667815, "timesteps_since_restore": 2168400, "num_metric_batches_dropped": 0, "time_since_restore": 57123.65640711784, "episode_reward_max": -457.1962272799785, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2168400, "default": {"kl": 0.011526075191795826, "policy_loss": -0.14219117164611816, "vf_loss": 168.16622924804688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9800519943237305, "entropy": 4.846843719482422, "cur_lr": 4.999999873689376e-05, "total_loss": 168.0415496826172}, "load_time_ms": 0.776, "num_steps_sampled": 2168400, "grad_time_ms": 687.847, "update_time_ms": 2.375, "sample_time_ms": 34831.096}, "date": "2025-08-31_08-02-59", "hostname": "cda-server-4", "time_this_iter_s": 35.604981660842896, "episodes_total": 10842, "timestamp": 1756620179, "node_ip": "10.157.146.4", "done": false, "time_total_s": 57123.65640711784, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1808, "episode_reward_mean": -612.7466427267883, "training_iteration": 1808, "timesteps_total": 2169600, "policy_reward_mean": {}, "episode_reward_min": -692.5096248667815, "timesteps_since_restore": 2169600, "num_metric_batches_dropped": 0, "time_since_restore": 57158.053099393845, "episode_reward_max": -457.1962272799785, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2169600, "default": {"kl": 0.00935873482376337, "policy_loss": -0.1232663094997406, "vf_loss": 200.66082763671875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9728718996047974, "entropy": 4.659813404083252, "cur_lr": 4.999999873689376e-05, "total_loss": 200.5517578125}, "load_time_ms": 0.803, "num_steps_sampled": 2169600, "grad_time_ms": 695.64, "update_time_ms": 2.363, "sample_time_ms": 34686.506}, "date": "2025-08-31_08-03-33", "hostname": "cda-server-4", "time_this_iter_s": 34.39669227600098, "episodes_total": 10848, "timestamp": 1756620213, "node_ip": "10.157.146.4", "done": false, "time_total_s": 57158.053099393845, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1809, "episode_reward_mean": -610.1121701063073, "training_iteration": 1809, "timesteps_total": 2170800, "policy_reward_mean": {}, "episode_reward_min": -692.5096248667815, "timesteps_since_restore": 2170800, "num_metric_batches_dropped": 0, "time_since_restore": 57194.74579811096, "episode_reward_max": -457.1962272799785, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2170800, "default": {"kl": 0.011758090928196907, "policy_loss": -0.1402948647737503, "vf_loss": 254.8484649658203, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9625977277755737, "entropy": 4.638543128967285, "cur_lr": 4.999999873689376e-05, "total_loss": 254.72601318359375}, "load_time_ms": 0.81, "num_steps_sampled": 2170800, "grad_time_ms": 707.093, "update_time_ms": 2.362, "sample_time_ms": 34812.016}, "date": "2025-08-31_08-04-10", "hostname": "cda-server-4", "time_this_iter_s": 36.69269871711731, "episodes_total": 10854, "timestamp": 1756620250, "node_ip": "10.157.146.4", "done": false, "time_total_s": 57194.74579811096, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1810, "episode_reward_mean": -610.0531986814678, "training_iteration": 1810, "timesteps_total": 2172000, "policy_reward_mean": {}, "episode_reward_min": -692.5096248667815, "timesteps_since_restore": 2172000, "num_metric_batches_dropped": 0, "time_since_restore": 57229.9964056015, "episode_reward_max": -457.1962272799785, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2172000, "default": {"kl": 0.009966113604605198, "policy_loss": -0.13237446546554565, "vf_loss": 180.4005889892578, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9734630584716797, "entropy": 4.631668567657471, "cur_lr": 4.999999873689376e-05, "total_loss": 180.2833709716797}, "load_time_ms": 0.818, "num_steps_sampled": 2172000, "grad_time_ms": 705.514, "update_time_ms": 2.409, "sample_time_ms": 34809.935}, "date": "2025-08-31_08-04-45", "hostname": "cda-server-4", "time_this_iter_s": 35.25060749053955, "episodes_total": 10860, "timestamp": 1756620285, "node_ip": "10.157.146.4", "done": false, "time_total_s": 57229.9964056015, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1811, "episode_reward_mean": -610.0869125090205, "training_iteration": 1811, "timesteps_total": 2173200, "policy_reward_mean": {}, "episode_reward_min": -692.5096248667815, "timesteps_since_restore": 2173200, "num_metric_batches_dropped": 0, "time_since_restore": 57264.46538686752, "episode_reward_max": -457.1962272799785, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2173200, "default": {"kl": 0.009969376027584076, "policy_loss": -0.14343519508838654, "vf_loss": 258.8845520019531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9760649800300598, "entropy": 4.83820104598999, "cur_lr": 4.999999873689376e-05, "total_loss": 258.7562255859375}, "load_time_ms": 0.783, "num_steps_sampled": 2173200, "grad_time_ms": 693.041, "update_time_ms": 2.47, "sample_time_ms": 34748.15}, "date": "2025-08-31_08-05-20", "hostname": "cda-server-4", "time_this_iter_s": 34.46898126602173, "episodes_total": 10866, "timestamp": 1756620320, "node_ip": "10.157.146.4", "done": false, "time_total_s": 57264.46538686752, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1812, "episode_reward_mean": -609.8737932116069, "training_iteration": 1812, "timesteps_total": 2174400, "policy_reward_mean": {}, "episode_reward_min": -692.5096248667815, "timesteps_since_restore": 2174400, "num_metric_batches_dropped": 0, "time_since_restore": 57300.07663369179, "episode_reward_max": -457.1962272799785, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2174400, "default": {"kl": 0.009123333729803562, "policy_loss": -0.11617977172136307, "vf_loss": 40.081424713134766, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9939346313476562, "entropy": 4.3913445472717285, "cur_lr": 4.999999873689376e-05, "total_loss": 39.979103088378906}, "load_time_ms": 0.738, "num_steps_sampled": 2174400, "grad_time_ms": 679.237, "update_time_ms": 2.468, "sample_time_ms": 34725.453}, "date": "2025-08-31_08-05-55", "hostname": "cda-server-4", "time_this_iter_s": 35.611246824264526, "episodes_total": 10872, "timestamp": 1756620355, "node_ip": "10.157.146.4", "done": false, "time_total_s": 57300.07663369179, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1813, "episode_reward_mean": -609.1070096951986, "training_iteration": 1813, "timesteps_total": 2175600, "policy_reward_mean": {}, "episode_reward_min": -692.5096248667815, "timesteps_since_restore": 2175600, "num_metric_batches_dropped": 0, "time_since_restore": 57335.35484433174, "episode_reward_max": -457.1962272799785, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2175600, "default": {"kl": 0.010506756603717804, "policy_loss": -0.14504636824131012, "vf_loss": 79.98592376708984, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9889839887619019, "entropy": 4.817022323608398, "cur_lr": 4.999999873689376e-05, "total_loss": 79.85682678222656}, "load_time_ms": 0.776, "num_steps_sampled": 2175600, "grad_time_ms": 679.266, "update_time_ms": 2.497, "sample_time_ms": 34660.11}, "date": "2025-08-31_08-06-31", "hostname": "cda-server-4", "time_this_iter_s": 35.27821063995361, "episodes_total": 10878, "timestamp": 1756620391, "node_ip": "10.157.146.4", "done": false, "time_total_s": 57335.35484433174, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1814, "episode_reward_mean": -607.1222388382142, "training_iteration": 1814, "timesteps_total": 2176800, "policy_reward_mean": {}, "episode_reward_min": -692.5096248667815, "timesteps_since_restore": 2176800, "num_metric_batches_dropped": 0, "time_since_restore": 57370.58704948425, "episode_reward_max": -457.1962272799785, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2176800, "default": {"kl": 0.011122014373540878, "policy_loss": -0.16010326147079468, "vf_loss": 35.28717803955078, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9944426417350769, "entropy": 4.752736568450928, "cur_lr": 4.999999873689376e-05, "total_loss": 35.14396667480469}, "load_time_ms": 0.777, "num_steps_sampled": 2176800, "grad_time_ms": 678.291, "update_time_ms": 2.417, "sample_time_ms": 34700.762}, "date": "2025-08-31_08-07-06", "hostname": "cda-server-4", "time_this_iter_s": 35.2322051525116, "episodes_total": 10884, "timestamp": 1756620426, "node_ip": "10.157.146.4", "done": false, "time_total_s": 57370.58704948425, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1815, "episode_reward_mean": -606.6594297605373, "training_iteration": 1815, "timesteps_total": 2178000, "policy_reward_mean": {}, "episode_reward_min": -692.5096248667815, "timesteps_since_restore": 2178000, "num_metric_batches_dropped": 0, "time_since_restore": 57405.19753623009, "episode_reward_max": -457.1962272799785, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2178000, "default": {"kl": 0.010704029351472855, "policy_loss": -0.14495967328548431, "vf_loss": 91.02731323242188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9910690784454346, "entropy": 4.661810874938965, "cur_lr": 4.999999873689376e-05, "total_loss": 90.89862060546875}, "load_time_ms": 0.753, "num_steps_sampled": 2178000, "grad_time_ms": 683.742, "update_time_ms": 2.489, "sample_time_ms": 34552.893}, "date": "2025-08-31_08-07-40", "hostname": "cda-server-4", "time_this_iter_s": 34.61048674583435, "episodes_total": 10890, "timestamp": 1756620460, "node_ip": "10.157.146.4", "done": false, "time_total_s": 57405.19753623009, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1816, "episode_reward_mean": -608.0329290789607, "training_iteration": 1816, "timesteps_total": 2179200, "policy_reward_mean": {}, "episode_reward_min": -692.5096248667815, "timesteps_since_restore": 2179200, "num_metric_batches_dropped": 0, "time_since_restore": 57440.67687487602, "episode_reward_max": -488.18068005439903, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2179200, "default": {"kl": 0.01049311738461256, "policy_loss": -0.1560535579919815, "vf_loss": 241.23114013671875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9747171401977539, "entropy": 4.756394863128662, "cur_lr": 4.999999873689376e-05, "total_loss": 241.09103393554688}, "load_time_ms": 0.747, "num_steps_sampled": 2179200, "grad_time_ms": 687.54, "update_time_ms": 2.432, "sample_time_ms": 34567.68}, "date": "2025-08-31_08-08-16", "hostname": "cda-server-4", "time_this_iter_s": 35.47933864593506, "episodes_total": 10896, "timestamp": 1756620496, "node_ip": "10.157.146.4", "done": false, "time_total_s": 57440.67687487602, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1817, "episode_reward_mean": -607.1260144026493, "training_iteration": 1817, "timesteps_total": 2180400, "policy_reward_mean": {}, "episode_reward_min": -692.5096248667815, "timesteps_since_restore": 2180400, "num_metric_batches_dropped": 0, "time_since_restore": 57476.32591366768, "episode_reward_max": -488.18068005439903, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2180400, "default": {"kl": 0.010016817599534988, "policy_loss": -0.13331782817840576, "vf_loss": 913.1077270507812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9389660358428955, "entropy": 4.68950080871582, "cur_lr": 4.999999873689376e-05, "total_loss": 912.9896850585938}, "load_time_ms": 0.716, "num_steps_sampled": 2180400, "grad_time_ms": 695.889, "update_time_ms": 2.517, "sample_time_ms": 34563.726}, "date": "2025-08-31_08-08-52", "hostname": "cda-server-4", "time_this_iter_s": 35.649038791656494, "episodes_total": 10902, "timestamp": 1756620532, "node_ip": "10.157.146.4", "done": false, "time_total_s": 57476.32591366768, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1818, "episode_reward_mean": -606.6012134704541, "training_iteration": 1818, "timesteps_total": 2181600, "policy_reward_mean": {}, "episode_reward_min": -692.5096248667815, "timesteps_since_restore": 2181600, "num_metric_batches_dropped": 0, "time_since_restore": 57511.2110915184, "episode_reward_max": -488.18068005439903, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2181600, "default": {"kl": 0.011416385881602764, "policy_loss": -0.13908855617046356, "vf_loss": 295.7177429199219, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9733350276947021, "entropy": 4.665856838226318, "cur_lr": 4.999999873689376e-05, "total_loss": 295.59600830078125}, "load_time_ms": 0.725, "num_steps_sampled": 2181600, "grad_time_ms": 696.973, "update_time_ms": 2.644, "sample_time_ms": 34611.365}, "date": "2025-08-31_08-09-26", "hostname": "cda-server-4", "time_this_iter_s": 34.88517785072327, "episodes_total": 10908, "timestamp": 1756620566, "node_ip": "10.157.146.4", "done": false, "time_total_s": 57511.2110915184, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1819, "episode_reward_mean": -605.8771386433342, "training_iteration": 1819, "timesteps_total": 2182800, "policy_reward_mean": {}, "episode_reward_min": -692.5096248667815, "timesteps_since_restore": 2182800, "num_metric_batches_dropped": 0, "time_since_restore": 57546.63637948036, "episode_reward_max": -488.18068005439903, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2182800, "default": {"kl": 0.009017485193908215, "policy_loss": -0.1376267820596695, "vf_loss": 164.1291046142578, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9775209426879883, "entropy": 4.731100082397461, "cur_lr": 4.999999873689376e-05, "total_loss": 164.00518798828125}, "load_time_ms": 0.727, "num_steps_sampled": 2182800, "grad_time_ms": 697.791, "update_time_ms": 2.743, "sample_time_ms": 34483.749}, "date": "2025-08-31_08-10-02", "hostname": "cda-server-4", "time_this_iter_s": 35.42528796195984, "episodes_total": 10914, "timestamp": 1756620602, "node_ip": "10.157.146.4", "done": false, "time_total_s": 57546.63637948036, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1820, "episode_reward_mean": -608.1586419037817, "training_iteration": 1820, "timesteps_total": 2184000, "policy_reward_mean": {}, "episode_reward_min": -692.5096248667815, "timesteps_since_restore": 2184000, "num_metric_batches_dropped": 0, "time_since_restore": 57581.95585489273, "episode_reward_max": -488.18068005439903, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2184000, "default": {"kl": 0.012073706835508347, "policy_loss": -0.15876919031143188, "vf_loss": 710.3723754882812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9306437969207764, "entropy": 4.927147388458252, "cur_lr": 4.999999873689376e-05, "total_loss": 710.23193359375}, "load_time_ms": 0.717, "num_steps_sampled": 2184000, "grad_time_ms": 699.714, "update_time_ms": 2.732, "sample_time_ms": 34488.667}, "date": "2025-08-31_08-10-37", "hostname": "cda-server-4", "time_this_iter_s": 35.319475412368774, "episodes_total": 10920, "timestamp": 1756620637, "node_ip": "10.157.146.4", "done": false, "time_total_s": 57581.95585489273, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1821, "episode_reward_mean": -607.4273291300462, "training_iteration": 1821, "timesteps_total": 2185200, "policy_reward_mean": {}, "episode_reward_min": -692.5096248667815, "timesteps_since_restore": 2185200, "num_metric_batches_dropped": 0, "time_since_restore": 57616.94420218468, "episode_reward_max": -488.18068005439903, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2185200, "default": {"kl": 0.01064496859908104, "policy_loss": -0.1335679143667221, "vf_loss": 120.45249938964844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9811904430389404, "entropy": 4.4517340660095215, "cur_lr": 4.999999873689376e-05, "total_loss": 120.33509826660156}, "load_time_ms": 0.716, "num_steps_sampled": 2185200, "grad_time_ms": 712.671, "update_time_ms": 2.736, "sample_time_ms": 34527.695}, "date": "2025-08-31_08-11-12", "hostname": "cda-server-4", "time_this_iter_s": 34.98834729194641, "episodes_total": 10926, "timestamp": 1756620672, "node_ip": "10.157.146.4", "done": false, "time_total_s": 57616.94420218468, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1822, "episode_reward_mean": -608.3571209136707, "training_iteration": 1822, "timesteps_total": 2186400, "policy_reward_mean": {}, "episode_reward_min": -692.5096248667815, "timesteps_since_restore": 2186400, "num_metric_batches_dropped": 0, "time_since_restore": 57652.44558787346, "episode_reward_max": -488.18068005439903, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2186400, "default": {"kl": 0.011870250105857849, "policy_loss": -0.15374056994915009, "vf_loss": 76.40798950195312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9951289296150208, "entropy": 4.644438743591309, "cur_lr": 4.999999873689376e-05, "total_loss": 76.27227020263672}, "load_time_ms": 0.725, "num_steps_sampled": 2186400, "grad_time_ms": 723.029, "update_time_ms": 2.787, "sample_time_ms": 34506.157}, "date": "2025-08-31_08-11-48", "hostname": "cda-server-4", "time_this_iter_s": 35.50138568878174, "episodes_total": 10932, "timestamp": 1756620708, "node_ip": "10.157.146.4", "done": false, "time_total_s": 57652.44558787346, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1823, "episode_reward_mean": -607.8410698679232, "training_iteration": 1823, "timesteps_total": 2187600, "policy_reward_mean": {}, "episode_reward_min": -658.8088736111781, "timesteps_since_restore": 2187600, "num_metric_batches_dropped": 0, "time_since_restore": 57687.91000986099, "episode_reward_max": -488.18068005439903, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2187600, "default": {"kl": 0.013860448263585567, "policy_loss": -0.1611856073141098, "vf_loss": 447.37701416015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9718766808509827, "entropy": 4.409424781799316, "cur_lr": 4.999999873689376e-05, "total_loss": 447.2369079589844}, "load_time_ms": 0.706, "num_steps_sampled": 2187600, "grad_time_ms": 715.054, "update_time_ms": 2.812, "sample_time_ms": 34532.733}, "date": "2025-08-31_08-12-23", "hostname": "cda-server-4", "time_this_iter_s": 35.46442198753357, "episodes_total": 10938, "timestamp": 1756620743, "node_ip": "10.157.146.4", "done": false, "time_total_s": 57687.91000986099, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1824, "episode_reward_mean": -607.326074416509, "training_iteration": 1824, "timesteps_total": 2188800, "policy_reward_mean": {}, "episode_reward_min": -658.8088736111781, "timesteps_since_restore": 2188800, "num_metric_batches_dropped": 0, "time_since_restore": 57723.912895679474, "episode_reward_max": -488.18068005439903, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2188800, "default": {"kl": 0.009399567730724812, "policy_loss": -0.12860089540481567, "vf_loss": 220.20166015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9714340567588806, "entropy": 4.395783424377441, "cur_lr": 4.999999873689376e-05, "total_loss": 220.08734130859375}, "load_time_ms": 0.708, "num_steps_sampled": 2188800, "grad_time_ms": 711.082, "update_time_ms": 2.774, "sample_time_ms": 34613.869}, "date": "2025-08-31_08-12-59", "hostname": "cda-server-4", "time_this_iter_s": 36.002885818481445, "episodes_total": 10944, "timestamp": 1756620779, "node_ip": "10.157.146.4", "done": false, "time_total_s": 57723.912895679474, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1825, "episode_reward_mean": -607.3639389938785, "training_iteration": 1825, "timesteps_total": 2190000, "policy_reward_mean": {}, "episode_reward_min": -658.8088736111781, "timesteps_since_restore": 2190000, "num_metric_batches_dropped": 0, "time_since_restore": 57759.11055612564, "episode_reward_max": -488.18068005439903, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2190000, "default": {"kl": 0.007266272325068712, "policy_loss": -0.12424618750810623, "vf_loss": 472.2374572753906, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9583098292350769, "entropy": 4.395920753479004, "cur_lr": 4.999999873689376e-05, "total_loss": 472.1242370605469}, "load_time_ms": 0.699, "num_steps_sampled": 2190000, "grad_time_ms": 709.979, "update_time_ms": 2.773, "sample_time_ms": 34673.673}, "date": "2025-08-31_08-13-34", "hostname": "cda-server-4", "time_this_iter_s": 35.19766044616699, "episodes_total": 10950, "timestamp": 1756620814, "node_ip": "10.157.146.4", "done": false, "time_total_s": 57759.11055612564, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1826, "episode_reward_mean": -607.9194472949883, "training_iteration": 1826, "timesteps_total": 2191200, "policy_reward_mean": {}, "episode_reward_min": -658.8088736111781, "timesteps_since_restore": 2191200, "num_metric_batches_dropped": 0, "time_since_restore": 57794.09164023399, "episode_reward_max": -488.18068005439903, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2191200, "default": {"kl": 0.012060781009495258, "policy_loss": -0.15637418627738953, "vf_loss": 83.43153381347656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9926981329917908, "entropy": 4.385969161987305, "cur_lr": 4.999999873689376e-05, "total_loss": 83.29347229003906}, "load_time_ms": 0.685, "num_steps_sampled": 2191200, "grad_time_ms": 704.976, "update_time_ms": 2.79, "sample_time_ms": 34628.918}, "date": "2025-08-31_08-14-09", "hostname": "cda-server-4", "time_this_iter_s": 34.98108410835266, "episodes_total": 10956, "timestamp": 1756620849, "node_ip": "10.157.146.4", "done": false, "time_total_s": 57794.09164023399, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1827, "episode_reward_mean": -608.3002461493134, "training_iteration": 1827, "timesteps_total": 2192400, "policy_reward_mean": {}, "episode_reward_min": -658.8088736111781, "timesteps_since_restore": 2192400, "num_metric_batches_dropped": 0, "time_since_restore": 57829.44376182556, "episode_reward_max": -488.18068005439903, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2192400, "default": {"kl": 0.0101129449903965, "policy_loss": -0.12378304451704025, "vf_loss": 261.5905456542969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9705556035041809, "entropy": 4.803505897521973, "cur_lr": 4.999999873689376e-05, "total_loss": 261.48211669921875}, "load_time_ms": 0.689, "num_steps_sampled": 2192400, "grad_time_ms": 698.924, "update_time_ms": 2.763, "sample_time_ms": 34605.239}, "date": "2025-08-31_08-14-45", "hostname": "cda-server-4", "time_this_iter_s": 35.35212159156799, "episodes_total": 10962, "timestamp": 1756620885, "node_ip": "10.157.146.4", "done": false, "time_total_s": 57829.44376182556, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1828, "episode_reward_mean": -608.1101549260525, "training_iteration": 1828, "timesteps_total": 2193600, "policy_reward_mean": {}, "episode_reward_min": -658.8088736111781, "timesteps_since_restore": 2193600, "num_metric_batches_dropped": 0, "time_since_restore": 57864.705089092255, "episode_reward_max": -488.18068005439903, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2193600, "default": {"kl": 0.008324113674461842, "policy_loss": -0.10640503466129303, "vf_loss": 141.6858367919922, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9801323413848877, "entropy": 4.516449928283691, "cur_lr": 4.999999873689376e-05, "total_loss": 141.59207153320312}, "load_time_ms": 0.654, "num_steps_sampled": 2193600, "grad_time_ms": 695.894, "update_time_ms": 2.669, "sample_time_ms": 34646.054}, "date": "2025-08-31_08-15-20", "hostname": "cda-server-4", "time_this_iter_s": 35.261327266693115, "episodes_total": 10968, "timestamp": 1756620920, "node_ip": "10.157.146.4", "done": false, "time_total_s": 57864.705089092255, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1829, "episode_reward_mean": -607.7734945795678, "training_iteration": 1829, "timesteps_total": 2194800, "policy_reward_mean": {}, "episode_reward_min": -658.8088736111781, "timesteps_since_restore": 2194800, "num_metric_batches_dropped": 0, "time_since_restore": 57899.08809328079, "episode_reward_max": -488.18068005439903, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2194800, "default": {"kl": 0.010735223069787025, "policy_loss": -0.1311599612236023, "vf_loss": 462.6697082519531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9411048889160156, "entropy": 4.520028114318848, "cur_lr": 4.999999873689376e-05, "total_loss": 462.5549011230469}, "load_time_ms": 0.646, "num_steps_sampled": 2194800, "grad_time_ms": 690.566, "update_time_ms": 2.549, "sample_time_ms": 34547.306}, "date": "2025-08-31_08-15-54", "hostname": "cda-server-4", "time_this_iter_s": 34.3830041885376, "episodes_total": 10974, "timestamp": 1756620954, "node_ip": "10.157.146.4", "done": false, "time_total_s": 57899.08809328079, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1830, "episode_reward_mean": -611.5597425296687, "training_iteration": 1830, "timesteps_total": 2196000, "policy_reward_mean": {}, "episode_reward_min": -660.2133820573594, "timesteps_since_restore": 2196000, "num_metric_batches_dropped": 0, "time_since_restore": 57934.9640455246, "episode_reward_max": -488.18068005439903, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2196000, "default": {"kl": 0.011723164469003677, "policy_loss": -0.1269288808107376, "vf_loss": 310.21502685546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9751190543174744, "entropy": 4.787585735321045, "cur_lr": 4.999999873689376e-05, "total_loss": 310.1059265136719}, "load_time_ms": 0.646, "num_steps_sampled": 2196000, "grad_time_ms": 690.83, "update_time_ms": 2.478, "sample_time_ms": 34602.816}, "date": "2025-08-31_08-16-30", "hostname": "cda-server-4", "time_this_iter_s": 35.87595224380493, "episodes_total": 10980, "timestamp": 1756620990, "node_ip": "10.157.146.4", "done": false, "time_total_s": 57934.9640455246, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1831, "episode_reward_mean": -611.4159005353642, "training_iteration": 1831, "timesteps_total": 2197200, "policy_reward_mean": {}, "episode_reward_min": -660.2133820573594, "timesteps_since_restore": 2197200, "num_metric_batches_dropped": 0, "time_since_restore": 57970.80819249153, "episode_reward_max": -488.18068005439903, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2197200, "default": {"kl": 0.012427863664925098, "policy_loss": -0.14667364954948425, "vf_loss": 89.54534912109375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9868454337120056, "entropy": 4.58208703994751, "cur_lr": 4.999999873689376e-05, "total_loss": 89.41754913330078}, "load_time_ms": 0.67, "num_steps_sampled": 2197200, "grad_time_ms": 693.528, "update_time_ms": 2.381, "sample_time_ms": 34685.769}, "date": "2025-08-31_08-17-06", "hostname": "cda-server-4", "time_this_iter_s": 35.844146966934204, "episodes_total": 10986, "timestamp": 1756621026, "node_ip": "10.157.146.4", "done": false, "time_total_s": 57970.80819249153, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1832, "episode_reward_mean": -612.2347481540045, "training_iteration": 1832, "timesteps_total": 2198400, "policy_reward_mean": {}, "episode_reward_min": -660.2133820573594, "timesteps_since_restore": 2198400, "num_metric_batches_dropped": 0, "time_since_restore": 58005.50127029419, "episode_reward_max": -488.18068005439903, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2198400, "default": {"kl": 0.007943040691316128, "policy_loss": -0.12214215844869614, "vf_loss": 496.1263427734375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9515281319618225, "entropy": 4.740427017211914, "cur_lr": 4.999999873689376e-05, "total_loss": 496.0162658691406}, "load_time_ms": 0.67, "num_steps_sampled": 2198400, "grad_time_ms": 702.601, "update_time_ms": 2.332, "sample_time_ms": 34595.983}, "date": "2025-08-31_08-17-41", "hostname": "cda-server-4", "time_this_iter_s": 34.69307780265808, "episodes_total": 10992, "timestamp": 1756621061, "node_ip": "10.157.146.4", "done": false, "time_total_s": 58005.50127029419, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1833, "episode_reward_mean": -612.9027850075436, "training_iteration": 1833, "timesteps_total": 2199600, "policy_reward_mean": {}, "episode_reward_min": -660.2133820573594, "timesteps_since_restore": 2199600, "num_metric_batches_dropped": 0, "time_since_restore": 58041.7402176857, "episode_reward_max": -570.4720930847301, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2199600, "default": {"kl": 0.009137922897934914, "policy_loss": -0.13083404302597046, "vf_loss": 94.72624969482422, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9872669577598572, "entropy": 4.51323127746582, "cur_lr": 4.999999873689376e-05, "total_loss": 94.60929107666016}, "load_time_ms": 0.651, "num_steps_sampled": 2199600, "grad_time_ms": 709.711, "update_time_ms": 2.329, "sample_time_ms": 34666.408}, "date": "2025-08-31_08-18-17", "hostname": "cda-server-4", "time_this_iter_s": 36.23894739151001, "episodes_total": 10998, "timestamp": 1756621097, "node_ip": "10.157.146.4", "done": false, "time_total_s": 58041.7402176857, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1834, "episode_reward_mean": -611.479864359086, "training_iteration": 1834, "timesteps_total": 2200800, "policy_reward_mean": {}, "episode_reward_min": -660.2133820573594, "timesteps_since_restore": 2200800, "num_metric_batches_dropped": 0, "time_since_restore": 58077.625705718994, "episode_reward_max": -486.66220417818766, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2200800, "default": {"kl": 0.012561873532831669, "policy_loss": -0.1711127907037735, "vf_loss": 115.32386779785156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9888290762901306, "entropy": 4.391855716705322, "cur_lr": 4.999999873689376e-05, "total_loss": 115.17183685302734}, "load_time_ms": 0.643, "num_steps_sampled": 2200800, "grad_time_ms": 710.769, "update_time_ms": 2.365, "sample_time_ms": 34653.532}, "date": "2025-08-31_08-18-53", "hostname": "cda-server-4", "time_this_iter_s": 35.88548803329468, "episodes_total": 11004, "timestamp": 1756621133, "node_ip": "10.157.146.4", "done": false, "time_total_s": 58077.625705718994, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1835, "episode_reward_mean": -611.0447001004027, "training_iteration": 1835, "timesteps_total": 2202000, "policy_reward_mean": {}, "episode_reward_min": -660.2133820573594, "timesteps_since_restore": 2202000, "num_metric_batches_dropped": 0, "time_since_restore": 58113.13143277168, "episode_reward_max": -486.66220417818766, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2202000, "default": {"kl": 0.009442588314414024, "policy_loss": -0.1476975977420807, "vf_loss": 92.73678588867188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9871231913566589, "entropy": 4.5972161293029785, "cur_lr": 4.999999873689376e-05, "total_loss": 92.60342407226562}, "load_time_ms": 0.641, "num_steps_sampled": 2202000, "grad_time_ms": 703.465, "update_time_ms": 2.315, "sample_time_ms": 34691.755}, "date": "2025-08-31_08-19-29", "hostname": "cda-server-4", "time_this_iter_s": 35.5057270526886, "episodes_total": 11010, "timestamp": 1756621169, "node_ip": "10.157.146.4", "done": false, "time_total_s": 58113.13143277168, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1836, "episode_reward_mean": -610.5302636646389, "training_iteration": 1836, "timesteps_total": 2203200, "policy_reward_mean": {}, "episode_reward_min": -660.2133820573594, "timesteps_since_restore": 2203200, "num_metric_batches_dropped": 0, "time_since_restore": 58147.682082653046, "episode_reward_max": -486.66220417818766, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2203200, "default": {"kl": 0.010053069330751896, "policy_loss": -0.1234874427318573, "vf_loss": 57.41089630126953, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9934565424919128, "entropy": 4.466163635253906, "cur_lr": 4.999999873689376e-05, "total_loss": 57.30268096923828}, "load_time_ms": 0.661, "num_steps_sampled": 2203200, "grad_time_ms": 705.36, "update_time_ms": 2.277, "sample_time_ms": 34646.708}, "date": "2025-08-31_08-20-03", "hostname": "cda-server-4", "time_this_iter_s": 34.550649881362915, "episodes_total": 11016, "timestamp": 1756621203, "node_ip": "10.157.146.4", "done": false, "time_total_s": 58147.682082653046, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1837, "episode_reward_mean": -609.8943260294817, "training_iteration": 1837, "timesteps_total": 2204400, "policy_reward_mean": {}, "episode_reward_min": -660.2133820573594, "timesteps_since_restore": 2204400, "num_metric_batches_dropped": 0, "time_since_restore": 58184.00445103645, "episode_reward_max": -486.66220417818766, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2204400, "default": {"kl": 0.007771508768200874, "policy_loss": -0.11477308720350266, "vf_loss": 718.7195434570312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9156326651573181, "entropy": 4.7379560470581055, "cur_lr": 4.999999873689376e-05, "total_loss": 718.6165771484375}, "load_time_ms": 0.692, "num_steps_sampled": 2204400, "grad_time_ms": 705.231, "update_time_ms": 2.238, "sample_time_ms": 34743.749}, "date": "2025-08-31_08-20-40", "hostname": "cda-server-4", "time_this_iter_s": 36.32236838340759, "episodes_total": 11022, "timestamp": 1756621240, "node_ip": "10.157.146.4", "done": false, "time_total_s": 58184.00445103645, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1838, "episode_reward_mean": -611.8877754219767, "training_iteration": 1838, "timesteps_total": 2205600, "policy_reward_mean": {}, "episode_reward_min": -771.4551260283122, "timesteps_since_restore": 2205600, "num_metric_batches_dropped": 0, "time_since_restore": 58220.390286922455, "episode_reward_max": -486.66220417818766, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2205600, "default": {"kl": 0.010236292146146297, "policy_loss": -0.13685323297977448, "vf_loss": 487.4774169921875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9479051232337952, "entropy": 5.051538467407227, "cur_lr": 4.999999873689376e-05, "total_loss": 487.3561096191406}, "load_time_ms": 0.696, "num_steps_sampled": 2205600, "grad_time_ms": 699.487, "update_time_ms": 2.326, "sample_time_ms": 34861.889}, "date": "2025-08-31_08-21-16", "hostname": "cda-server-4", "time_this_iter_s": 36.38583588600159, "episodes_total": 11028, "timestamp": 1756621276, "node_ip": "10.157.146.4", "done": false, "time_total_s": 58220.390286922455, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1839, "episode_reward_mean": -610.98198733471, "training_iteration": 1839, "timesteps_total": 2206800, "policy_reward_mean": {}, "episode_reward_min": -771.4551260283122, "timesteps_since_restore": 2206800, "num_metric_batches_dropped": 0, "time_since_restore": 58255.4494702816, "episode_reward_max": -486.66220417818766, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2206800, "default": {"kl": 0.009999571368098259, "policy_loss": -0.14018486440181732, "vf_loss": 164.4862060546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9773476123809814, "entropy": 4.35255765914917, "cur_lr": 4.999999873689376e-05, "total_loss": 164.36122131347656}, "load_time_ms": 0.666, "num_steps_sampled": 2206800, "grad_time_ms": 697.751, "update_time_ms": 2.374, "sample_time_ms": 34931.098}, "date": "2025-08-31_08-21-51", "hostname": "cda-server-4", "time_this_iter_s": 35.05918335914612, "episodes_total": 11034, "timestamp": 1756621311, "node_ip": "10.157.146.4", "done": false, "time_total_s": 58255.4494702816, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1840, "episode_reward_mean": -611.7222223229552, "training_iteration": 1840, "timesteps_total": 2208000, "policy_reward_mean": {}, "episode_reward_min": -771.4551260283122, "timesteps_since_restore": 2208000, "num_metric_batches_dropped": 0, "time_since_restore": 58290.56447982788, "episode_reward_max": -486.66220417818766, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2208000, "default": {"kl": 0.009829264134168625, "policy_loss": -0.13892929255962372, "vf_loss": 53.14021682739258, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9926144480705261, "entropy": 4.553985595703125, "cur_lr": 4.999999873689376e-05, "total_loss": 53.01622009277344}, "load_time_ms": 0.677, "num_steps_sampled": 2208000, "grad_time_ms": 699.533, "update_time_ms": 2.399, "sample_time_ms": 34853.152}, "date": "2025-08-31_08-22-26", "hostname": "cda-server-4", "time_this_iter_s": 35.11500954627991, "episodes_total": 11040, "timestamp": 1756621346, "node_ip": "10.157.146.4", "done": false, "time_total_s": 58290.56447982788, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1841, "episode_reward_mean": -612.1214863308028, "training_iteration": 1841, "timesteps_total": 2209200, "policy_reward_mean": {}, "episode_reward_min": -771.4551260283122, "timesteps_since_restore": 2209200, "num_metric_batches_dropped": 0, "time_since_restore": 58326.785613536835, "episode_reward_max": -486.66220417818766, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2209200, "default": {"kl": 0.013193810358643532, "policy_loss": -0.15316885709762573, "vf_loss": 258.53167724609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9768871665000916, "entropy": 4.528432846069336, "cur_lr": 4.999999873689376e-05, "total_loss": 258.3985595703125}, "load_time_ms": 0.652, "num_steps_sampled": 2209200, "grad_time_ms": 699.767, "update_time_ms": 2.45, "sample_time_ms": 34890.545}, "date": "2025-08-31_08-23-03", "hostname": "cda-server-4", "time_this_iter_s": 36.22113370895386, "episodes_total": 11046, "timestamp": 1756621383, "node_ip": "10.157.146.4", "done": false, "time_total_s": 58326.785613536835, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1842, "episode_reward_mean": -611.264003399828, "training_iteration": 1842, "timesteps_total": 2210400, "policy_reward_mean": {}, "episode_reward_min": -771.4551260283122, "timesteps_since_restore": 2210400, "num_metric_batches_dropped": 0, "time_since_restore": 58362.42100787163, "episode_reward_max": -486.66220417818766, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2210400, "default": {"kl": 0.01174591202288866, "policy_loss": -0.1480296552181244, "vf_loss": 268.4996337890625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9687201380729675, "entropy": 4.80695915222168, "cur_lr": 4.999999873689376e-05, "total_loss": 268.3694763183594}, "load_time_ms": 0.683, "num_steps_sampled": 2210400, "grad_time_ms": 699.345, "update_time_ms": 2.458, "sample_time_ms": 34985.205}, "date": "2025-08-31_08-23-38", "hostname": "cda-server-4", "time_this_iter_s": 35.63539433479309, "episodes_total": 11052, "timestamp": 1756621418, "node_ip": "10.157.146.4", "done": false, "time_total_s": 58362.42100787163, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1843, "episode_reward_mean": -611.2457017948936, "training_iteration": 1843, "timesteps_total": 2211600, "policy_reward_mean": {}, "episode_reward_min": -771.4551260283122, "timesteps_since_restore": 2211600, "num_metric_batches_dropped": 0, "time_since_restore": 58396.517055511475, "episode_reward_max": -486.66220417818766, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2211600, "default": {"kl": 0.011913836002349854, "policy_loss": -0.1345730423927307, "vf_loss": 172.24266052246094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9818291068077087, "entropy": 4.527493000030518, "cur_lr": 4.999999873689376e-05, "total_loss": 172.1261749267578}, "load_time_ms": 0.688, "num_steps_sampled": 2211600, "grad_time_ms": 700.668, "update_time_ms": 2.483, "sample_time_ms": 34769.528}, "date": "2025-08-31_08-24-12", "hostname": "cda-server-4", "time_this_iter_s": 34.0960476398468, "episodes_total": 11058, "timestamp": 1756621452, "node_ip": "10.157.146.4", "done": false, "time_total_s": 58396.517055511475, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1844, "episode_reward_mean": -611.3114699469902, "training_iteration": 1844, "timesteps_total": 2212800, "policy_reward_mean": {}, "episode_reward_min": -771.4551260283122, "timesteps_since_restore": 2212800, "num_metric_batches_dropped": 0, "time_since_restore": 58431.21335911751, "episode_reward_max": -486.66220417818766, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2212800, "default": {"kl": 0.009851713664829731, "policy_loss": -0.12120617926120758, "vf_loss": 504.1893005371094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9454695582389832, "entropy": 4.670413970947266, "cur_lr": 4.999999873689376e-05, "total_loss": 504.08306884765625}, "load_time_ms": 0.688, "num_steps_sampled": 2212800, "grad_time_ms": 705.195, "update_time_ms": 2.686, "sample_time_ms": 34645.893}, "date": "2025-08-31_08-24-47", "hostname": "cda-server-4", "time_this_iter_s": 34.696303606033325, "episodes_total": 11064, "timestamp": 1756621487, "node_ip": "10.157.146.4", "done": false, "time_total_s": 58431.21335911751, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1845, "episode_reward_mean": -610.397020851431, "training_iteration": 1845, "timesteps_total": 2214000, "policy_reward_mean": {}, "episode_reward_min": -771.4551260283122, "timesteps_since_restore": 2214000, "num_metric_batches_dropped": 0, "time_since_restore": 58466.551171541214, "episode_reward_max": -486.66220417818766, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2214000, "default": {"kl": 0.00966347474604845, "policy_loss": -0.12083940953016281, "vf_loss": 158.3485107421875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9798487424850464, "entropy": 4.447274208068848, "cur_lr": 4.999999873689376e-05, "total_loss": 158.2423553466797}, "load_time_ms": 0.72, "num_steps_sampled": 2214000, "grad_time_ms": 713.125, "update_time_ms": 2.7, "sample_time_ms": 34621.062}, "date": "2025-08-31_08-25-23", "hostname": "cda-server-4", "time_this_iter_s": 35.337812423706055, "episodes_total": 11070, "timestamp": 1756621523, "node_ip": "10.157.146.4", "done": false, "time_total_s": 58466.551171541214, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1846, "episode_reward_mean": -609.9615395062715, "training_iteration": 1846, "timesteps_total": 2215200, "policy_reward_mean": {}, "episode_reward_min": -771.4551260283122, "timesteps_since_restore": 2215200, "num_metric_batches_dropped": 0, "time_since_restore": 58501.514256477356, "episode_reward_max": -486.66220417818766, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2215200, "default": {"kl": 0.01058317068964243, "policy_loss": -0.13785070180892944, "vf_loss": 175.2120361328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9785025119781494, "entropy": 4.691525936126709, "cur_lr": 4.999999873689376e-05, "total_loss": 175.0902557373047}, "load_time_ms": 0.705, "num_steps_sampled": 2215200, "grad_time_ms": 717.453, "update_time_ms": 2.775, "sample_time_ms": 34658.0}, "date": "2025-08-31_08-25-58", "hostname": "cda-server-4", "time_this_iter_s": 34.96308493614197, "episodes_total": 11076, "timestamp": 1756621558, "node_ip": "10.157.146.4", "done": false, "time_total_s": 58501.514256477356, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1847, "episode_reward_mean": -608.3957776316179, "training_iteration": 1847, "timesteps_total": 2216400, "policy_reward_mean": {}, "episode_reward_min": -771.4551260283122, "timesteps_since_restore": 2216400, "num_metric_batches_dropped": 0, "time_since_restore": 58536.59261965752, "episode_reward_max": -470.4446397315879, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2216400, "default": {"kl": 0.01246030256152153, "policy_loss": -0.1608627438545227, "vf_loss": 118.85515594482422, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9871278405189514, "entropy": 4.586982250213623, "cur_lr": 4.999999873689376e-05, "total_loss": 118.71322631835938}, "load_time_ms": 0.674, "num_steps_sampled": 2216400, "grad_time_ms": 717.329, "update_time_ms": 2.796, "sample_time_ms": 34533.912}, "date": "2025-08-31_08-26-33", "hostname": "cda-server-4", "time_this_iter_s": 35.07836318016052, "episodes_total": 11082, "timestamp": 1756621593, "node_ip": "10.157.146.4", "done": false, "time_total_s": 58536.59261965752, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1848, "episode_reward_mean": -608.2678246449948, "training_iteration": 1848, "timesteps_total": 2217600, "policy_reward_mean": {}, "episode_reward_min": -771.4551260283122, "timesteps_since_restore": 2217600, "num_metric_batches_dropped": 0, "time_since_restore": 58571.92138457298, "episode_reward_max": -470.4446397315879, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2217600, "default": {"kl": 0.012419788166880608, "policy_loss": -0.153387188911438, "vf_loss": 185.8761444091797, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9775583744049072, "entropy": 4.422277450561523, "cur_lr": 4.999999873689376e-05, "total_loss": 185.7416229248047}, "load_time_ms": 0.669, "num_steps_sampled": 2217600, "grad_time_ms": 722.265, "update_time_ms": 2.667, "sample_time_ms": 34423.456}, "date": "2025-08-31_08-27-08", "hostname": "cda-server-4", "time_this_iter_s": 35.32876491546631, "episodes_total": 11088, "timestamp": 1756621628, "node_ip": "10.157.146.4", "done": false, "time_total_s": 58571.92138457298, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1849, "episode_reward_mean": -607.981163079243, "training_iteration": 1849, "timesteps_total": 2218800, "policy_reward_mean": {}, "episode_reward_min": -771.4551260283122, "timesteps_since_restore": 2218800, "num_metric_batches_dropped": 0, "time_since_restore": 58607.041196107864, "episode_reward_max": -470.4446397315879, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2218800, "default": {"kl": 0.011431368067860603, "policy_loss": -0.1542799174785614, "vf_loss": 344.3640441894531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9693264365196228, "entropy": 4.394022464752197, "cur_lr": 4.999999873689376e-05, "total_loss": 344.2271423339844}, "load_time_ms": 0.663, "num_steps_sampled": 2218800, "grad_time_ms": 725.458, "update_time_ms": 2.649, "sample_time_ms": 34426.518}, "date": "2025-08-31_08-27-43", "hostname": "cda-server-4", "time_this_iter_s": 35.11981153488159, "episodes_total": 11094, "timestamp": 1756621663, "node_ip": "10.157.146.4", "done": false, "time_total_s": 58607.041196107864, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1850, "episode_reward_mean": -608.9723125639553, "training_iteration": 1850, "timesteps_total": 2220000, "policy_reward_mean": {}, "episode_reward_min": -771.4551260283122, "timesteps_since_restore": 2220000, "num_metric_batches_dropped": 0, "time_since_restore": 58641.74304127693, "episode_reward_max": -470.4446397315879, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2220000, "default": {"kl": 0.011756380088627338, "policy_loss": -0.15627452731132507, "vf_loss": 352.26776123046875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9760432839393616, "entropy": 4.647180557250977, "cur_lr": 4.999999873689376e-05, "total_loss": 352.1293640136719}, "load_time_ms": 0.686, "num_steps_sampled": 2220000, "grad_time_ms": 728.478, "update_time_ms": 2.622, "sample_time_ms": 34382.15}, "date": "2025-08-31_08-28-18", "hostname": "cda-server-4", "time_this_iter_s": 34.70184516906738, "episodes_total": 11100, "timestamp": 1756621698, "node_ip": "10.157.146.4", "done": false, "time_total_s": 58641.74304127693, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1851, "episode_reward_mean": -610.8093882446187, "training_iteration": 1851, "timesteps_total": 2221200, "policy_reward_mean": {}, "episode_reward_min": -771.4551260283122, "timesteps_since_restore": 2221200, "num_metric_batches_dropped": 0, "time_since_restore": 58676.853449344635, "episode_reward_max": -470.4446397315879, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2221200, "default": {"kl": 0.009806559421122074, "policy_loss": -0.12140031903982162, "vf_loss": 179.81961059570312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9843747615814209, "entropy": 4.520040035247803, "cur_lr": 4.999999873689376e-05, "total_loss": 179.71310424804688}, "load_time_ms": 0.7, "num_steps_sampled": 2221200, "grad_time_ms": 725.42, "update_time_ms": 2.463, "sample_time_ms": 34274.36}, "date": "2025-08-31_08-28-53", "hostname": "cda-server-4", "time_this_iter_s": 35.11040806770325, "episodes_total": 11106, "timestamp": 1756621733, "node_ip": "10.157.146.4", "done": false, "time_total_s": 58676.853449344635, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1852, "episode_reward_mean": -611.1313504371117, "training_iteration": 1852, "timesteps_total": 2222400, "policy_reward_mean": {}, "episode_reward_min": -771.4551260283122, "timesteps_since_restore": 2222400, "num_metric_batches_dropped": 0, "time_since_restore": 58711.88317966461, "episode_reward_max": -470.4446397315879, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2222400, "default": {"kl": 0.010102491825819016, "policy_loss": -0.14448943734169006, "vf_loss": 196.53565979003906, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9799734950065613, "entropy": 4.566511631011963, "cur_lr": 4.999999873689376e-05, "total_loss": 196.40652465820312}, "load_time_ms": 0.672, "num_steps_sampled": 2222400, "grad_time_ms": 724.719, "update_time_ms": 2.487, "sample_time_ms": 34214.449}, "date": "2025-08-31_08-29-28", "hostname": "cda-server-4", "time_this_iter_s": 35.02973031997681, "episodes_total": 11112, "timestamp": 1756621768, "node_ip": "10.157.146.4", "done": false, "time_total_s": 58711.88317966461, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1853, "episode_reward_mean": -611.0436666096082, "training_iteration": 1853, "timesteps_total": 2223600, "policy_reward_mean": {}, "episode_reward_min": -771.4551260283122, "timesteps_since_restore": 2223600, "num_metric_batches_dropped": 0, "time_since_restore": 58746.80774450302, "episode_reward_max": -470.4446397315879, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2223600, "default": {"kl": 0.008827287703752518, "policy_loss": -0.09101260453462601, "vf_loss": 176.32073974609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9712681174278259, "entropy": 4.455098628997803, "cur_lr": 4.999999873689376e-05, "total_loss": 176.24313354492188}, "load_time_ms": 0.665, "num_steps_sampled": 2223600, "grad_time_ms": 726.729, "update_time_ms": 2.416, "sample_time_ms": 34295.367}, "date": "2025-08-31_08-30-03", "hostname": "cda-server-4", "time_this_iter_s": 34.924564838409424, "episodes_total": 11118, "timestamp": 1756621803, "node_ip": "10.157.146.4", "done": false, "time_total_s": 58746.80774450302, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1854, "episode_reward_mean": -609.054559023447, "training_iteration": 1854, "timesteps_total": 2224800, "policy_reward_mean": {}, "episode_reward_min": -771.4551260283122, "timesteps_since_restore": 2224800, "num_metric_batches_dropped": 0, "time_since_restore": 58782.07614159584, "episode_reward_max": -470.4446397315879, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2224800, "default": {"kl": 0.011774942278862, "policy_loss": -0.1562187671661377, "vf_loss": 111.38330841064453, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9851822257041931, "entropy": 4.468575477600098, "cur_lr": 4.999999873689376e-05, "total_loss": 111.24496459960938}, "load_time_ms": 0.704, "num_steps_sampled": 2224800, "grad_time_ms": 724.935, "update_time_ms": 2.221, "sample_time_ms": 34354.508}, "date": "2025-08-31_08-30-38", "hostname": "cda-server-4", "time_this_iter_s": 35.268397092819214, "episodes_total": 11124, "timestamp": 1756621838, "node_ip": "10.157.146.4", "done": false, "time_total_s": 58782.07614159584, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1855, "episode_reward_mean": -605.850367535385, "training_iteration": 1855, "timesteps_total": 2226000, "policy_reward_mean": {}, "episode_reward_min": -673.9241152390382, "timesteps_since_restore": 2226000, "num_metric_batches_dropped": 0, "time_since_restore": 58817.20664858818, "episode_reward_max": -468.5198681810205, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2226000, "default": {"kl": 0.011946088634431362, "policy_loss": -0.1620967984199524, "vf_loss": 199.31837463378906, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9766037464141846, "entropy": 4.459071159362793, "cur_lr": 4.999999873689376e-05, "total_loss": 199.17445373535156}, "load_time_ms": 0.677, "num_steps_sampled": 2226000, "grad_time_ms": 723.441, "update_time_ms": 2.181, "sample_time_ms": 34335.402}, "date": "2025-08-31_08-31-13", "hostname": "cda-server-4", "time_this_iter_s": 35.13050699234009, "episodes_total": 11130, "timestamp": 1756621873, "node_ip": "10.157.146.4", "done": false, "time_total_s": 58817.20664858818, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1856, "episode_reward_mean": -604.9156523422338, "training_iteration": 1856, "timesteps_total": 2227200, "policy_reward_mean": {}, "episode_reward_min": -673.9241152390382, "timesteps_since_restore": 2227200, "num_metric_batches_dropped": 0, "time_since_restore": 58853.351486206055, "episode_reward_max": -468.5198681810205, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2227200, "default": {"kl": 0.011315914802253246, "policy_loss": -0.14372529089450836, "vf_loss": 292.76708984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9717381000518799, "entropy": 4.486391067504883, "cur_lr": 4.999999873689376e-05, "total_loss": 292.6405334472656}, "load_time_ms": 0.671, "num_steps_sampled": 2227200, "grad_time_ms": 723.954, "update_time_ms": 2.114, "sample_time_ms": 34453.163}, "date": "2025-08-31_08-31-50", "hostname": "cda-server-4", "time_this_iter_s": 36.144837617874146, "episodes_total": 11136, "timestamp": 1756621910, "node_ip": "10.157.146.4", "done": false, "time_total_s": 58853.351486206055, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1857, "episode_reward_mean": -603.9996906766562, "training_iteration": 1857, "timesteps_total": 2228400, "policy_reward_mean": {}, "episode_reward_min": -673.9241152390382, "timesteps_since_restore": 2228400, "num_metric_batches_dropped": 0, "time_since_restore": 58887.872659921646, "episode_reward_max": -468.5198681810205, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2228400, "default": {"kl": 0.00918775424361229, "policy_loss": -0.13974295556545258, "vf_loss": 135.21290588378906, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9815390110015869, "entropy": 4.471360206604004, "cur_lr": 4.999999873689376e-05, "total_loss": 135.08712768554688}, "load_time_ms": 0.676, "num_steps_sampled": 2228400, "grad_time_ms": 730.146, "update_time_ms": 2.104, "sample_time_ms": 34391.291}, "date": "2025-08-31_08-32-24", "hostname": "cda-server-4", "time_this_iter_s": 34.52117371559143, "episodes_total": 11142, "timestamp": 1756621944, "node_ip": "10.157.146.4", "done": false, "time_total_s": 58887.872659921646, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1858, "episode_reward_mean": -605.0707730203353, "training_iteration": 1858, "timesteps_total": 2229600, "policy_reward_mean": {}, "episode_reward_min": -673.9241152390382, "timesteps_since_restore": 2229600, "num_metric_batches_dropped": 0, "time_since_restore": 58922.616376161575, "episode_reward_max": -468.5198681810205, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2229600, "default": {"kl": 0.009308308362960815, "policy_loss": -0.11331252008676529, "vf_loss": 361.3709411621094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9492312669754028, "entropy": 4.616216659545898, "cur_lr": 4.999999873689376e-05, "total_loss": 361.2717590332031}, "load_time_ms": 0.678, "num_steps_sampled": 2229600, "grad_time_ms": 732.227, "update_time_ms": 2.082, "sample_time_ms": 34330.709}, "date": "2025-08-31_08-32-59", "hostname": "cda-server-4", "time_this_iter_s": 34.7437162399292, "episodes_total": 11148, "timestamp": 1756621979, "node_ip": "10.157.146.4", "done": false, "time_total_s": 58922.616376161575, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1859, "episode_reward_mean": -605.1763934659194, "training_iteration": 1859, "timesteps_total": 2230800, "policy_reward_mean": {}, "episode_reward_min": -673.9241152390382, "timesteps_since_restore": 2230800, "num_metric_batches_dropped": 0, "time_since_restore": 58957.90088105202, "episode_reward_max": -468.5198681810205, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2230800, "default": {"kl": 0.010914957150816917, "policy_loss": -0.1465362161397934, "vf_loss": 35.72911834716797, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9952728748321533, "entropy": 4.599719047546387, "cur_lr": 4.999999873689376e-05, "total_loss": 35.59916305541992}, "load_time_ms": 0.682, "num_steps_sampled": 2230800, "grad_time_ms": 731.442, "update_time_ms": 2.099, "sample_time_ms": 34347.908}, "date": "2025-08-31_08-33-34", "hostname": "cda-server-4", "time_this_iter_s": 35.284504890441895, "episodes_total": 11154, "timestamp": 1756622014, "node_ip": "10.157.146.4", "done": false, "time_total_s": 58957.90088105202, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1860, "episode_reward_mean": -605.8404306502266, "training_iteration": 1860, "timesteps_total": 2232000, "policy_reward_mean": {}, "episode_reward_min": -673.9241152390382, "timesteps_since_restore": 2232000, "num_metric_batches_dropped": 0, "time_since_restore": 58993.557057619095, "episode_reward_max": -468.5198681810205, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2232000, "default": {"kl": 0.010011487640440464, "policy_loss": -0.12216615676879883, "vf_loss": 112.54733276367188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9844847917556763, "entropy": 4.403196334838867, "cur_lr": 4.999999873689376e-05, "total_loss": 112.44037628173828}, "load_time_ms": 0.654, "num_steps_sampled": 2232000, "grad_time_ms": 727.866, "update_time_ms": 2.166, "sample_time_ms": 34446.862}, "date": "2025-08-31_08-34-10", "hostname": "cda-server-4", "time_this_iter_s": 35.65617656707764, "episodes_total": 11160, "timestamp": 1756622050, "node_ip": "10.157.146.4", "done": false, "time_total_s": 58993.557057619095, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1861, "episode_reward_mean": -607.0192041740117, "training_iteration": 1861, "timesteps_total": 2233200, "policy_reward_mean": {}, "episode_reward_min": -673.9241152390382, "timesteps_since_restore": 2233200, "num_metric_batches_dropped": 0, "time_since_restore": 59029.03227472305, "episode_reward_max": -468.5198681810205, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2233200, "default": {"kl": 0.010008050128817558, "policy_loss": -0.12352922558784485, "vf_loss": 240.74978637695312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9709479808807373, "entropy": 4.573344707489014, "cur_lr": 4.999999873689376e-05, "total_loss": 240.6414337158203}, "load_time_ms": 0.638, "num_steps_sampled": 2233200, "grad_time_ms": 723.657, "update_time_ms": 2.254, "sample_time_ms": 34487.472}, "date": "2025-08-31_08-34-45", "hostname": "cda-server-4", "time_this_iter_s": 35.47521710395813, "episodes_total": 11166, "timestamp": 1756622085, "node_ip": "10.157.146.4", "done": false, "time_total_s": 59029.03227472305, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1862, "episode_reward_mean": -606.5313689535653, "training_iteration": 1862, "timesteps_total": 2234400, "policy_reward_mean": {}, "episode_reward_min": -673.9241152390382, "timesteps_since_restore": 2234400, "num_metric_batches_dropped": 0, "time_since_restore": 59064.131383657455, "episode_reward_max": -468.5198681810205, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2234400, "default": {"kl": 0.010658442042768002, "policy_loss": -0.1431174874305725, "vf_loss": 364.6737060546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.957650899887085, "entropy": 4.55171537399292, "cur_lr": 4.999999873689376e-05, "total_loss": 364.5467529296875}, "load_time_ms": 0.637, "num_steps_sampled": 2234400, "grad_time_ms": 719.139, "update_time_ms": 2.231, "sample_time_ms": 34499.007}, "date": "2025-08-31_08-35-20", "hostname": "cda-server-4", "time_this_iter_s": 35.099108934402466, "episodes_total": 11172, "timestamp": 1756622120, "node_ip": "10.157.146.4", "done": false, "time_total_s": 59064.131383657455, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1863, "episode_reward_mean": -609.158207423575, "training_iteration": 1863, "timesteps_total": 2235600, "policy_reward_mean": {}, "episode_reward_min": -673.9241152390382, "timesteps_since_restore": 2235600, "num_metric_batches_dropped": 0, "time_since_restore": 59099.58349132538, "episode_reward_max": -468.5198681810205, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2235600, "default": {"kl": 0.007173154037445784, "policy_loss": -0.10915388911962509, "vf_loss": 172.02569580078125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9767391681671143, "entropy": 4.567051410675049, "cur_lr": 4.999999873689376e-05, "total_loss": 171.92742919921875}, "load_time_ms": 0.671, "num_steps_sampled": 2235600, "grad_time_ms": 703.217, "update_time_ms": 2.218, "sample_time_ms": 34567.624}, "date": "2025-08-31_08-35-56", "hostname": "cda-server-4", "time_this_iter_s": 35.452107667922974, "episodes_total": 11178, "timestamp": 1756622156, "node_ip": "10.157.146.4", "done": false, "time_total_s": 59099.58349132538, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1864, "episode_reward_mean": -607.0228023032965, "training_iteration": 1864, "timesteps_total": 2236800, "policy_reward_mean": {}, "episode_reward_min": -673.9241152390382, "timesteps_since_restore": 2236800, "num_metric_batches_dropped": 0, "time_since_restore": 59134.313173532486, "episode_reward_max": -468.5198681810205, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2236800, "default": {"kl": 0.009405846707522869, "policy_loss": -0.1435595154762268, "vf_loss": 280.7186584472656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9642512202262878, "entropy": 4.711198806762695, "cur_lr": 4.999999873689376e-05, "total_loss": 280.58941650390625}, "load_time_ms": 0.669, "num_steps_sampled": 2236800, "grad_time_ms": 690.707, "update_time_ms": 2.306, "sample_time_ms": 34526.16}, "date": "2025-08-31_08-36-31", "hostname": "cda-server-4", "time_this_iter_s": 34.729682207107544, "episodes_total": 11184, "timestamp": 1756622191, "node_ip": "10.157.146.4", "done": false, "time_total_s": 59134.313173532486, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1865, "episode_reward_mean": -606.6242458858063, "training_iteration": 1865, "timesteps_total": 2238000, "policy_reward_mean": {}, "episode_reward_min": -673.9241152390382, "timesteps_since_restore": 2238000, "num_metric_batches_dropped": 0, "time_since_restore": 59168.888548612595, "episode_reward_max": -468.5198681810205, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2238000, "default": {"kl": 0.010460706427693367, "policy_loss": -0.13244402408599854, "vf_loss": 103.70799255371094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9906790852546692, "entropy": 4.555520057678223, "cur_lr": 4.999999873689376e-05, "total_loss": 103.5914306640625}, "load_time_ms": 0.671, "num_steps_sampled": 2238000, "grad_time_ms": 684.738, "update_time_ms": 2.344, "sample_time_ms": 34476.534}, "date": "2025-08-31_08-37-05", "hostname": "cda-server-4", "time_this_iter_s": 34.57537508010864, "episodes_total": 11190, "timestamp": 1756622225, "node_ip": "10.157.146.4", "done": false, "time_total_s": 59168.888548612595, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1866, "episode_reward_mean": -606.9119415980272, "training_iteration": 1866, "timesteps_total": 2239200, "policy_reward_mean": {}, "episode_reward_min": -673.9241152390382, "timesteps_since_restore": 2239200, "num_metric_batches_dropped": 0, "time_since_restore": 59204.40062427521, "episode_reward_max": -468.5198681810205, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2239200, "default": {"kl": 0.007888519205152988, "policy_loss": -0.1316213756799698, "vf_loss": 269.9023132324219, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9663469791412354, "entropy": 4.75045919418335, "cur_lr": 4.999999873689376e-05, "total_loss": 269.7826843261719}, "load_time_ms": 0.665, "num_steps_sampled": 2239200, "grad_time_ms": 676.641, "update_time_ms": 2.374, "sample_time_ms": 34421.302}, "date": "2025-08-31_08-37-41", "hostname": "cda-server-4", "time_this_iter_s": 35.512075662612915, "episodes_total": 11196, "timestamp": 1756622261, "node_ip": "10.157.146.4", "done": false, "time_total_s": 59204.40062427521, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1867, "episode_reward_mean": -606.9727390318974, "training_iteration": 1867, "timesteps_total": 2240400, "policy_reward_mean": {}, "episode_reward_min": -658.908963457573, "timesteps_since_restore": 2240400, "num_metric_batches_dropped": 0, "time_since_restore": 59239.255810022354, "episode_reward_max": -468.5198681810205, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2240400, "default": {"kl": 0.009595971554517746, "policy_loss": -0.130348801612854, "vf_loss": 286.0299377441406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9701542258262634, "entropy": 4.66596794128418, "cur_lr": 4.999999873689376e-05, "total_loss": 285.9141845703125}, "load_time_ms": 0.66, "num_steps_sampled": 2240400, "grad_time_ms": 675.445, "update_time_ms": 2.375, "sample_time_ms": 34455.845}, "date": "2025-08-31_08-38-16", "hostname": "cda-server-4", "time_this_iter_s": 34.855185747146606, "episodes_total": 11202, "timestamp": 1756622296, "node_ip": "10.157.146.4", "done": false, "time_total_s": 59239.255810022354, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1868, "episode_reward_mean": -606.491592016345, "training_iteration": 1868, "timesteps_total": 2241600, "policy_reward_mean": {}, "episode_reward_min": -658.908963457573, "timesteps_since_restore": 2241600, "num_metric_batches_dropped": 0, "time_since_restore": 59273.952629327774, "episode_reward_max": -468.5198681810205, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2241600, "default": {"kl": 0.008784028701484203, "policy_loss": -0.13579204678535461, "vf_loss": 150.09959411621094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.979436457157135, "entropy": 4.738261699676514, "cur_lr": 4.999999873689376e-05, "total_loss": 149.97714233398438}, "load_time_ms": 0.701, "num_steps_sampled": 2241600, "grad_time_ms": 674.133, "update_time_ms": 2.38, "sample_time_ms": 34452.333}, "date": "2025-08-31_08-38-50", "hostname": "cda-server-4", "time_this_iter_s": 34.69681930541992, "episodes_total": 11208, "timestamp": 1756622330, "node_ip": "10.157.146.4", "done": false, "time_total_s": 59273.952629327774, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1869, "episode_reward_mean": -606.2831506029603, "training_iteration": 1869, "timesteps_total": 2242800, "policy_reward_mean": {}, "episode_reward_min": -658.908963457573, "timesteps_since_restore": 2242800, "num_metric_batches_dropped": 0, "time_since_restore": 59309.303000450134, "episode_reward_max": -468.5198681810205, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2242800, "default": {"kl": 0.010838974267244339, "policy_loss": -0.15180295705795288, "vf_loss": 43.38739776611328, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9942114353179932, "entropy": 4.501048564910889, "cur_lr": 4.999999873689376e-05, "total_loss": 43.25205612182617}, "load_time_ms": 0.697, "num_steps_sampled": 2242800, "grad_time_ms": 664.286, "update_time_ms": 2.395, "sample_time_ms": 34468.543}, "date": "2025-08-31_08-39-26", "hostname": "cda-server-4", "time_this_iter_s": 35.35037112236023, "episodes_total": 11214, "timestamp": 1756622366, "node_ip": "10.157.146.4", "done": false, "time_total_s": 59309.303000450134, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1870, "episode_reward_mean": -607.3312089327845, "training_iteration": 1870, "timesteps_total": 2244000, "policy_reward_mean": {}, "episode_reward_min": -658.908963457573, "timesteps_since_restore": 2244000, "num_metric_batches_dropped": 0, "time_since_restore": 59345.538959264755, "episode_reward_max": -468.5198681810205, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2244000, "default": {"kl": 0.010398777201771736, "policy_loss": -0.14226725697517395, "vf_loss": 76.45146942138672, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9901787638664246, "entropy": 4.5903849601745605, "cur_lr": 4.999999873689376e-05, "total_loss": 76.32498931884766}, "load_time_ms": 0.696, "num_steps_sampled": 2244000, "grad_time_ms": 666.14, "update_time_ms": 2.393, "sample_time_ms": 34524.776}, "date": "2025-08-31_08-40-02", "hostname": "cda-server-4", "time_this_iter_s": 36.23595881462097, "episodes_total": 11220, "timestamp": 1756622402, "node_ip": "10.157.146.4", "done": false, "time_total_s": 59345.538959264755, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1871, "episode_reward_mean": -609.9094244687072, "training_iteration": 1871, "timesteps_total": 2245200, "policy_reward_mean": {}, "episode_reward_min": -658.908963457573, "timesteps_since_restore": 2245200, "num_metric_batches_dropped": 0, "time_since_restore": 59380.29015493393, "episode_reward_max": -475.8821496184719, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2245200, "default": {"kl": 0.01132587343454361, "policy_loss": -0.14494973421096802, "vf_loss": 115.56072235107422, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9848868250846863, "entropy": 4.451964378356934, "cur_lr": 4.999999873689376e-05, "total_loss": 115.43296813964844}, "load_time_ms": 0.734, "num_steps_sampled": 2245200, "grad_time_ms": 673.713, "update_time_ms": 2.299, "sample_time_ms": 34444.852}, "date": "2025-08-31_08-40-37", "hostname": "cda-server-4", "time_this_iter_s": 34.751195669174194, "episodes_total": 11226, "timestamp": 1756622437, "node_ip": "10.157.146.4", "done": false, "time_total_s": 59380.29015493393, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1872, "episode_reward_mean": -610.4207533692745, "training_iteration": 1872, "timesteps_total": 2246400, "policy_reward_mean": {}, "episode_reward_min": -658.908963457573, "timesteps_since_restore": 2246400, "num_metric_batches_dropped": 0, "time_since_restore": 59415.71090555191, "episode_reward_max": -475.8821496184719, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2246400, "default": {"kl": 0.008086467161774635, "policy_loss": -0.11677893251180649, "vf_loss": 125.77427673339844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9800527095794678, "entropy": 4.474642753601074, "cur_lr": 4.999999873689376e-05, "total_loss": 125.66976928710938}, "load_time_ms": 0.753, "num_steps_sampled": 2246400, "grad_time_ms": 678.59, "update_time_ms": 2.286, "sample_time_ms": 34472.069}, "date": "2025-08-31_08-41-12", "hostname": "cda-server-4", "time_this_iter_s": 35.42075061798096, "episodes_total": 11232, "timestamp": 1756622472, "node_ip": "10.157.146.4", "done": false, "time_total_s": 59415.71090555191, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1873, "episode_reward_mean": -609.7889291836233, "training_iteration": 1873, "timesteps_total": 2247600, "policy_reward_mean": {}, "episode_reward_min": -658.908963457573, "timesteps_since_restore": 2247600, "num_metric_batches_dropped": 0, "time_since_restore": 59451.01519227028, "episode_reward_max": -475.8821496184719, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2247600, "default": {"kl": 0.010797486640512943, "policy_loss": -0.14850576221942902, "vf_loss": 71.12689971923828, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9901077747344971, "entropy": 4.65526819229126, "cur_lr": 4.999999873689376e-05, "total_loss": 70.99479675292969}, "load_time_ms": 0.721, "num_steps_sampled": 2247600, "grad_time_ms": 686.384, "update_time_ms": 2.466, "sample_time_ms": 34449.404}, "date": "2025-08-31_08-41-48", "hostname": "cda-server-4", "time_this_iter_s": 35.30428671836853, "episodes_total": 11238, "timestamp": 1756622508, "node_ip": "10.157.146.4", "done": false, "time_total_s": 59451.01519227028, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1874, "episode_reward_mean": -609.5016729991921, "training_iteration": 1874, "timesteps_total": 2248800, "policy_reward_mean": {}, "episode_reward_min": -658.908963457573, "timesteps_since_restore": 2248800, "num_metric_batches_dropped": 0, "time_since_restore": 59485.70967769623, "episode_reward_max": -475.8821496184719, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2248800, "default": {"kl": 0.011396045796573162, "policy_loss": -0.14609289169311523, "vf_loss": 316.27130126953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9620907306671143, "entropy": 4.543003082275391, "cur_lr": 4.999999873689376e-05, "total_loss": 316.1424560546875}, "load_time_ms": 0.689, "num_steps_sampled": 2248800, "grad_time_ms": 695.097, "update_time_ms": 2.395, "sample_time_ms": 34437.164}, "date": "2025-08-31_08-42-22", "hostname": "cda-server-4", "time_this_iter_s": 34.6944854259491, "episodes_total": 11244, "timestamp": 1756622542, "node_ip": "10.157.146.4", "done": false, "time_total_s": 59485.70967769623, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1875, "episode_reward_mean": -607.875961433431, "training_iteration": 1875, "timesteps_total": 2250000, "policy_reward_mean": {}, "episode_reward_min": -658.908963457573, "timesteps_since_restore": 2250000, "num_metric_batches_dropped": 0, "time_since_restore": 59520.33652853966, "episode_reward_max": -475.8821496184719, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2250000, "default": {"kl": 0.011238831095397472, "policy_loss": -0.16010461747646332, "vf_loss": 209.0278778076172, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9723273515701294, "entropy": 4.457356929779053, "cur_lr": 4.999999873689376e-05, "total_loss": 208.88482666015625}, "load_time_ms": 0.688, "num_steps_sampled": 2250000, "grad_time_ms": 700.345, "update_time_ms": 2.4, "sample_time_ms": 34437.018}, "date": "2025-08-31_08-42-57", "hostname": "cda-server-4", "time_this_iter_s": 34.626850843429565, "episodes_total": 11250, "timestamp": 1756622577, "node_ip": "10.157.146.4", "done": false, "time_total_s": 59520.33652853966, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1876, "episode_reward_mean": -608.1025322514047, "training_iteration": 1876, "timesteps_total": 2251200, "policy_reward_mean": {}, "episode_reward_min": -658.908963457573, "timesteps_since_restore": 2251200, "num_metric_batches_dropped": 0, "time_since_restore": 59555.510207891464, "episode_reward_max": -475.8821496184719, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2251200, "default": {"kl": 0.00961464736610651, "policy_loss": -0.12395366281270981, "vf_loss": 70.99617004394531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.990143895149231, "entropy": 4.631591320037842, "cur_lr": 4.999999873689376e-05, "total_loss": 70.8868179321289}, "load_time_ms": 0.718, "num_steps_sampled": 2251200, "grad_time_ms": 709.374, "update_time_ms": 2.426, "sample_time_ms": 34394.02}, "date": "2025-08-31_08-43-32", "hostname": "cda-server-4", "time_this_iter_s": 35.17367935180664, "episodes_total": 11256, "timestamp": 1756622612, "node_ip": "10.157.146.4", "done": false, "time_total_s": 59555.510207891464, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1877, "episode_reward_mean": -608.2863274554007, "training_iteration": 1877, "timesteps_total": 2252400, "policy_reward_mean": {}, "episode_reward_min": -658.908963457573, "timesteps_since_restore": 2252400, "num_metric_batches_dropped": 0, "time_since_restore": 59591.49340176582, "episode_reward_max": -475.8821496184719, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2252400, "default": {"kl": 0.010510656982660294, "policy_loss": -0.16070079803466797, "vf_loss": 530.2830810546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9528338313102722, "entropy": 4.786444187164307, "cur_lr": 4.999999873689376e-05, "total_loss": 530.1383666992188}, "load_time_ms": 0.738, "num_steps_sampled": 2252400, "grad_time_ms": 711.939, "update_time_ms": 2.421, "sample_time_ms": 34504.264}, "date": "2025-08-31_08-44-08", "hostname": "cda-server-4", "time_this_iter_s": 35.98319387435913, "episodes_total": 11262, "timestamp": 1756622648, "node_ip": "10.157.146.4", "done": false, "time_total_s": 59591.49340176582, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1878, "episode_reward_mean": -609.0736981213294, "training_iteration": 1878, "timesteps_total": 2253600, "policy_reward_mean": {}, "episode_reward_min": -658.908963457573, "timesteps_since_restore": 2253600, "num_metric_batches_dropped": 0, "time_since_restore": 59626.70145988464, "episode_reward_max": -475.8821496184719, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2253600, "default": {"kl": 0.010773956775665283, "policy_loss": -0.14092642068862915, "vf_loss": 370.173583984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9580804109573364, "entropy": 4.822325229644775, "cur_lr": 4.999999873689376e-05, "total_loss": 370.04901123046875}, "load_time_ms": 0.694, "num_steps_sampled": 2253600, "grad_time_ms": 711.866, "update_time_ms": 2.501, "sample_time_ms": 34555.529}, "date": "2025-08-31_08-44-43", "hostname": "cda-server-4", "time_this_iter_s": 35.20805811882019, "episodes_total": 11268, "timestamp": 1756622683, "node_ip": "10.157.146.4", "done": false, "time_total_s": 59626.70145988464, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1879, "episode_reward_mean": -608.340657637495, "training_iteration": 1879, "timesteps_total": 2254800, "policy_reward_mean": {}, "episode_reward_min": -658.908963457573, "timesteps_since_restore": 2254800, "num_metric_batches_dropped": 0, "time_since_restore": 59662.02494978905, "episode_reward_max": -475.8821496184719, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2254800, "default": {"kl": 0.00952074769884348, "policy_loss": -0.1500597596168518, "vf_loss": 79.0191879272461, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9905041456222534, "entropy": 4.523961544036865, "cur_lr": 4.999999873689376e-05, "total_loss": 78.88358306884766}, "load_time_ms": 0.69, "num_steps_sampled": 2254800, "grad_time_ms": 716.709, "update_time_ms": 2.469, "sample_time_ms": 34548.289}, "date": "2025-08-31_08-45-19", "hostname": "cda-server-4", "time_this_iter_s": 35.32348990440369, "episodes_total": 11274, "timestamp": 1756622719, "node_ip": "10.157.146.4", "done": false, "time_total_s": 59662.02494978905, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1880, "episode_reward_mean": -609.9711472751868, "training_iteration": 1880, "timesteps_total": 2256000, "policy_reward_mean": {}, "episode_reward_min": -658.908963457573, "timesteps_since_restore": 2256000, "num_metric_batches_dropped": 0, "time_since_restore": 59697.9871339798, "episode_reward_max": -488.7675457216384, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2256000, "default": {"kl": 0.008971050381660461, "policy_loss": -0.11841101199388504, "vf_loss": 127.56990814208984, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9848765134811401, "entropy": 4.585569381713867, "cur_lr": 4.999999873689376e-05, "total_loss": 127.46511840820312}, "load_time_ms": 0.686, "num_steps_sampled": 2256000, "grad_time_ms": 705.389, "update_time_ms": 2.423, "sample_time_ms": 34532.314}, "date": "2025-08-31_08-45-55", "hostname": "cda-server-4", "time_this_iter_s": 35.96218419075012, "episodes_total": 11280, "timestamp": 1756622755, "node_ip": "10.157.146.4", "done": false, "time_total_s": 59697.9871339798, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1881, "episode_reward_mean": -608.856973759489, "training_iteration": 1881, "timesteps_total": 2257200, "policy_reward_mean": {}, "episode_reward_min": -658.908963457573, "timesteps_since_restore": 2257200, "num_metric_batches_dropped": 0, "time_since_restore": 59732.8558306694, "episode_reward_max": -488.7675457216384, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2257200, "default": {"kl": 0.009047603234648705, "policy_loss": -0.10782808065414429, "vf_loss": 202.07904052734375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9797747731208801, "entropy": 4.620019912719727, "cur_lr": 4.999999873689376e-05, "total_loss": 201.98492431640625}, "load_time_ms": 0.674, "num_steps_sampled": 2257200, "grad_time_ms": 695.494, "update_time_ms": 2.471, "sample_time_ms": 34553.882}, "date": "2025-08-31_08-46-30", "hostname": "cda-server-4", "time_this_iter_s": 34.86869668960571, "episodes_total": 11286, "timestamp": 1756622790, "node_ip": "10.157.146.4", "done": false, "time_total_s": 59732.8558306694, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1882, "episode_reward_mean": -609.0946997461813, "training_iteration": 1882, "timesteps_total": 2258400, "policy_reward_mean": {}, "episode_reward_min": -653.5768225447782, "timesteps_since_restore": 2258400, "num_metric_batches_dropped": 0, "time_since_restore": 59767.878360271454, "episode_reward_max": -488.7675457216384, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2258400, "default": {"kl": 0.01174311712384224, "policy_loss": -0.16410981118679047, "vf_loss": 155.7248992919922, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9828503131866455, "entropy": 4.731600284576416, "cur_lr": 4.999999873689376e-05, "total_loss": 155.57859802246094}, "load_time_ms": 0.655, "num_steps_sampled": 2258400, "grad_time_ms": 695.91, "update_time_ms": 2.441, "sample_time_ms": 34513.708}, "date": "2025-08-31_08-47-05", "hostname": "cda-server-4", "time_this_iter_s": 35.02252960205078, "episodes_total": 11292, "timestamp": 1756622825, "node_ip": "10.157.146.4", "done": false, "time_total_s": 59767.878360271454, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1883, "episode_reward_mean": -609.1106167715758, "training_iteration": 1883, "timesteps_total": 2259600, "policy_reward_mean": {}, "episode_reward_min": -653.5768225447782, "timesteps_since_restore": 2259600, "num_metric_batches_dropped": 0, "time_since_restore": 59804.121101379395, "episode_reward_max": -488.7675457216384, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2259600, "default": {"kl": 0.009650164283812046, "policy_loss": -0.1347268521785736, "vf_loss": 156.94786071777344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9825683236122131, "entropy": 4.639603614807129, "cur_lr": 4.999999873689376e-05, "total_loss": 156.82778930664062}, "load_time_ms": 0.688, "num_steps_sampled": 2259600, "grad_time_ms": 703.544, "update_time_ms": 2.32, "sample_time_ms": 34599.968}, "date": "2025-08-31_08-47-41", "hostname": "cda-server-4", "time_this_iter_s": 36.242741107940674, "episodes_total": 11298, "timestamp": 1756622861, "node_ip": "10.157.146.4", "done": false, "time_total_s": 59804.121101379395, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1884, "episode_reward_mean": -608.4321295784238, "training_iteration": 1884, "timesteps_total": 2260800, "policy_reward_mean": {}, "episode_reward_min": -654.592296364232, "timesteps_since_restore": 2260800, "num_metric_batches_dropped": 0, "time_since_restore": 59839.44995713234, "episode_reward_max": -488.7675457216384, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2260800, "default": {"kl": 0.012712500058114529, "policy_loss": -0.1566726565361023, "vf_loss": 42.80247497558594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9957764148712158, "entropy": 4.664846420288086, "cur_lr": 4.999999873689376e-05, "total_loss": 42.66510772705078}, "load_time_ms": 0.715, "num_steps_sampled": 2260800, "grad_time_ms": 708.248, "update_time_ms": 2.352, "sample_time_ms": 34658.694}, "date": "2025-08-31_08-48-16", "hostname": "cda-server-4", "time_this_iter_s": 35.328855752944946, "episodes_total": 11304, "timestamp": 1756622896, "node_ip": "10.157.146.4", "done": false, "time_total_s": 59839.44995713234, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1885, "episode_reward_mean": -607.4983137005645, "training_iteration": 1885, "timesteps_total": 2262000, "policy_reward_mean": {}, "episode_reward_min": -654.592296364232, "timesteps_since_restore": 2262000, "num_metric_batches_dropped": 0, "time_since_restore": 59875.27689766884, "episode_reward_max": -488.7675457216384, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2262000, "default": {"kl": 0.011600595898926258, "policy_loss": -0.12806859612464905, "vf_loss": 255.9854278564453, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9851011633872986, "entropy": 4.510145664215088, "cur_lr": 4.999999873689376e-05, "total_loss": 255.875}, "load_time_ms": 0.713, "num_steps_sampled": 2262000, "grad_time_ms": 710.409, "update_time_ms": 2.43, "sample_time_ms": 34776.488}, "date": "2025-08-31_08-48-52", "hostname": "cda-server-4", "time_this_iter_s": 35.82694053649902, "episodes_total": 11310, "timestamp": 1756622932, "node_ip": "10.157.146.4", "done": false, "time_total_s": 59875.27689766884, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1886, "episode_reward_mean": -608.1794917979172, "training_iteration": 1886, "timesteps_total": 2263200, "policy_reward_mean": {}, "episode_reward_min": -654.592296364232, "timesteps_since_restore": 2263200, "num_metric_batches_dropped": 0, "time_since_restore": 59909.61556816101, "episode_reward_max": -488.7675457216384, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2263200, "default": {"kl": 0.009684552438557148, "policy_loss": -0.13583821058273315, "vf_loss": 133.56646728515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9793421626091003, "entropy": 4.430937767028809, "cur_lr": 4.999999873689376e-05, "total_loss": 133.44534301757812}, "load_time_ms": 0.689, "num_steps_sampled": 2263200, "grad_time_ms": 707.89, "update_time_ms": 2.454, "sample_time_ms": 34695.604}, "date": "2025-08-31_08-49-26", "hostname": "cda-server-4", "time_this_iter_s": 34.33867049217224, "episodes_total": 11316, "timestamp": 1756622966, "node_ip": "10.157.146.4", "done": false, "time_total_s": 59909.61556816101, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1887, "episode_reward_mean": -608.1384795039211, "training_iteration": 1887, "timesteps_total": 2264400, "policy_reward_mean": {}, "episode_reward_min": -673.448213356585, "timesteps_since_restore": 2264400, "num_metric_batches_dropped": 0, "time_since_restore": 59945.53981637955, "episode_reward_max": -488.7675457216384, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2264400, "default": {"kl": 0.012199819087982178, "policy_loss": -0.1383167952299118, "vf_loss": 328.73065185546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.963430643081665, "entropy": 4.515212535858154, "cur_lr": 4.999999873689376e-05, "total_loss": 328.6108703613281}, "load_time_ms": 0.67, "num_steps_sampled": 2264400, "grad_time_ms": 705.79, "update_time_ms": 2.462, "sample_time_ms": 34691.816}, "date": "2025-08-31_08-50-02", "hostname": "cda-server-4", "time_this_iter_s": 35.92424821853638, "episodes_total": 11322, "timestamp": 1756623002, "node_ip": "10.157.146.4", "done": false, "time_total_s": 59945.53981637955, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1888, "episode_reward_mean": -608.1215174460863, "training_iteration": 1888, "timesteps_total": 2265600, "policy_reward_mean": {}, "episode_reward_min": -673.448213356585, "timesteps_since_restore": 2265600, "num_metric_batches_dropped": 0, "time_since_restore": 59981.23711633682, "episode_reward_max": -488.7675457216384, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2265600, "default": {"kl": 0.010439612902700901, "policy_loss": -0.11658426374197006, "vf_loss": 437.7771301269531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9522927403450012, "entropy": 4.552679538726807, "cur_lr": 4.999999873689376e-05, "total_loss": 437.6763916015625}, "load_time_ms": 0.679, "num_steps_sampled": 2265600, "grad_time_ms": 707.676, "update_time_ms": 2.376, "sample_time_ms": 34738.898}, "date": "2025-08-31_08-50-38", "hostname": "cda-server-4", "time_this_iter_s": 35.69729995727539, "episodes_total": 11328, "timestamp": 1756623038, "node_ip": "10.157.146.4", "done": false, "time_total_s": 59981.23711633682, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1889, "episode_reward_mean": -607.8579380897636, "training_iteration": 1889, "timesteps_total": 2266800, "policy_reward_mean": {}, "episode_reward_min": -673.448213356585, "timesteps_since_restore": 2266800, "num_metric_batches_dropped": 0, "time_since_restore": 60016.41475176811, "episode_reward_max": -488.7675457216384, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2266800, "default": {"kl": 0.009957320056855679, "policy_loss": -0.1370723843574524, "vf_loss": 96.09942626953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9855859279632568, "entropy": 4.394604206085205, "cur_lr": 4.999999873689376e-05, "total_loss": 95.97747802734375}, "load_time_ms": 0.706, "num_steps_sampled": 2266800, "grad_time_ms": 713.899, "update_time_ms": 2.356, "sample_time_ms": 34718.065}, "date": "2025-08-31_08-51-13", "hostname": "cda-server-4", "time_this_iter_s": 35.17763543128967, "episodes_total": 11334, "timestamp": 1756623073, "node_ip": "10.157.146.4", "done": false, "time_total_s": 60016.41475176811, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1890, "episode_reward_mean": -608.990750460122, "training_iteration": 1890, "timesteps_total": 2268000, "policy_reward_mean": {}, "episode_reward_min": -673.448213356585, "timesteps_since_restore": 2268000, "num_metric_batches_dropped": 0, "time_since_restore": 60051.98593044281, "episode_reward_max": -496.58376665395105, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2268000, "default": {"kl": 0.008761223405599594, "policy_loss": -0.11330679059028625, "vf_loss": 54.30274200439453, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9946733117103577, "entropy": 4.586752414703369, "cur_lr": 4.999999873689376e-05, "total_loss": 54.20274353027344}, "load_time_ms": 0.715, "num_steps_sampled": 2268000, "grad_time_ms": 725.879, "update_time_ms": 2.387, "sample_time_ms": 34666.922}, "date": "2025-08-31_08-51-49", "hostname": "cda-server-4", "time_this_iter_s": 35.571178674697876, "episodes_total": 11340, "timestamp": 1756623109, "node_ip": "10.157.146.4", "done": false, "time_total_s": 60051.98593044281, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1891, "episode_reward_mean": -610.5170593277912, "training_iteration": 1891, "timesteps_total": 2269200, "policy_reward_mean": {}, "episode_reward_min": -673.448213356585, "timesteps_since_restore": 2269200, "num_metric_batches_dropped": 0, "time_since_restore": 60087.78665757179, "episode_reward_max": -541.2485258451148, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2269200, "default": {"kl": 0.008209514431655407, "policy_loss": -0.12623515725135803, "vf_loss": 81.40249633789062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9911883473396301, "entropy": 4.365841865539551, "cur_lr": 4.999999873689376e-05, "total_loss": 81.28872680664062}, "load_time_ms": 0.69, "num_steps_sampled": 2269200, "grad_time_ms": 734.598, "update_time_ms": 2.339, "sample_time_ms": 34751.55}, "date": "2025-08-31_08-52-25", "hostname": "cda-server-4", "time_this_iter_s": 35.800727128982544, "episodes_total": 11346, "timestamp": 1756623145, "node_ip": "10.157.146.4", "done": false, "time_total_s": 60087.78665757179, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1892, "episode_reward_mean": -610.3453001284955, "training_iteration": 1892, "timesteps_total": 2270400, "policy_reward_mean": {}, "episode_reward_min": -673.448213356585, "timesteps_since_restore": 2270400, "num_metric_batches_dropped": 0, "time_since_restore": 60123.24663066864, "episode_reward_max": -541.2485258451148, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2270400, "default": {"kl": 0.014813981018960476, "policy_loss": -0.17079657316207886, "vf_loss": 335.8788757324219, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.969568133354187, "entropy": 4.538633346557617, "cur_lr": 4.999999873689376e-05, "total_loss": 335.7305908203125}, "load_time_ms": 0.722, "num_steps_sampled": 2270400, "grad_time_ms": 734.208, "update_time_ms": 2.368, "sample_time_ms": 34795.695}, "date": "2025-08-31_08-53-00", "hostname": "cda-server-4", "time_this_iter_s": 35.459973096847534, "episodes_total": 11352, "timestamp": 1756623180, "node_ip": "10.157.146.4", "done": false, "time_total_s": 60123.24663066864, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1893, "episode_reward_mean": -609.8668140908053, "training_iteration": 1893, "timesteps_total": 2271600, "policy_reward_mean": {}, "episode_reward_min": -673.448213356585, "timesteps_since_restore": 2271600, "num_metric_batches_dropped": 0, "time_since_restore": 60158.745151519775, "episode_reward_max": -541.2485258451148, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2271600, "default": {"kl": 0.011351686902344227, "policy_loss": -0.13872435688972473, "vf_loss": 64.54837799072266, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.990523636341095, "entropy": 4.489047527313232, "cur_lr": 4.999999873689376e-05, "total_loss": 64.42689514160156}, "load_time_ms": 0.69, "num_steps_sampled": 2271600, "grad_time_ms": 734.44, "update_time_ms": 2.325, "sample_time_ms": 34721.129}, "date": "2025-08-31_08-53-36", "hostname": "cda-server-4", "time_this_iter_s": 35.498520851135254, "episodes_total": 11358, "timestamp": 1756623216, "node_ip": "10.157.146.4", "done": false, "time_total_s": 60158.745151519775, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1894, "episode_reward_mean": -607.9486204331967, "training_iteration": 1894, "timesteps_total": 2272800, "policy_reward_mean": {}, "episode_reward_min": -673.448213356585, "timesteps_since_restore": 2272800, "num_metric_batches_dropped": 0, "time_since_restore": 60195.038748025894, "episode_reward_max": -491.35537346287913, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2272800, "default": {"kl": 0.009718751534819603, "policy_loss": -0.12990988790988922, "vf_loss": 67.392333984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9920873641967773, "entropy": 4.540516376495361, "cur_lr": 4.999999873689376e-05, "total_loss": 67.27719116210938}, "load_time_ms": 0.658, "num_steps_sampled": 2272800, "grad_time_ms": 733.924, "update_time_ms": 2.318, "sample_time_ms": 34818.263}, "date": "2025-08-31_08-54-12", "hostname": "cda-server-4", "time_this_iter_s": 36.293596506118774, "episodes_total": 11364, "timestamp": 1756623252, "node_ip": "10.157.146.4", "done": false, "time_total_s": 60195.038748025894, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1895, "episode_reward_mean": -608.0558083009105, "training_iteration": 1895, "timesteps_total": 2274000, "policy_reward_mean": {}, "episode_reward_min": -673.448213356585, "timesteps_since_restore": 2274000, "num_metric_batches_dropped": 0, "time_since_restore": 60230.47767210007, "episode_reward_max": -491.35537346287913, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2274000, "default": {"kl": 0.010346069000661373, "policy_loss": -0.128778874874115, "vf_loss": 388.4018859863281, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9648643136024475, "entropy": 4.8063154220581055, "cur_lr": 4.999999873689376e-05, "total_loss": 388.2888488769531}, "load_time_ms": 0.66, "num_steps_sampled": 2274000, "grad_time_ms": 732.339, "update_time_ms": 2.29, "sample_time_ms": 34781.026}, "date": "2025-08-31_08-54-47", "hostname": "cda-server-4", "time_this_iter_s": 35.438924074172974, "episodes_total": 11370, "timestamp": 1756623287, "node_ip": "10.157.146.4", "done": false, "time_total_s": 60230.47767210007, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1896, "episode_reward_mean": -608.3675274089353, "training_iteration": 1896, "timesteps_total": 2275200, "policy_reward_mean": {}, "episode_reward_min": -673.448213356585, "timesteps_since_restore": 2275200, "num_metric_batches_dropped": 0, "time_since_restore": 60265.12314629555, "episode_reward_max": -491.35537346287913, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2275200, "default": {"kl": 0.009834829717874527, "policy_loss": -0.1338658183813095, "vf_loss": 149.04501342773438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9817459583282471, "entropy": 4.538355350494385, "cur_lr": 4.999999873689376e-05, "total_loss": 148.92608642578125}, "load_time_ms": 0.669, "num_steps_sampled": 2275200, "grad_time_ms": 732.619, "update_time_ms": 2.34, "sample_time_ms": 34811.267}, "date": "2025-08-31_08-55-22", "hostname": "cda-server-4", "time_this_iter_s": 34.64547419548035, "episodes_total": 11376, "timestamp": 1756623322, "node_ip": "10.157.146.4", "done": false, "time_total_s": 60265.12314629555, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1897, "episode_reward_mean": -608.849288458413, "training_iteration": 1897, "timesteps_total": 2276400, "policy_reward_mean": {}, "episode_reward_min": -673.448213356585, "timesteps_since_restore": 2276400, "num_metric_batches_dropped": 0, "time_since_restore": 60301.23402643204, "episode_reward_max": -491.35537346287913, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2276400, "default": {"kl": 0.011361133307218552, "policy_loss": -0.14765046536922455, "vf_loss": 107.8177261352539, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9856516718864441, "entropy": 4.585470199584961, "cur_lr": 4.999999873689376e-05, "total_loss": 107.68733978271484}, "load_time_ms": 0.674, "num_steps_sampled": 2276400, "grad_time_ms": 734.896, "update_time_ms": 2.37, "sample_time_ms": 34827.639}, "date": "2025-08-31_08-55-58", "hostname": "cda-server-4", "time_this_iter_s": 36.11088013648987, "episodes_total": 11382, "timestamp": 1756623358, "node_ip": "10.157.146.4", "done": false, "time_total_s": 60301.23402643204, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1898, "episode_reward_mean": -609.1949320596044, "training_iteration": 1898, "timesteps_total": 2277600, "policy_reward_mean": {}, "episode_reward_min": -673.448213356585, "timesteps_since_restore": 2277600, "num_metric_batches_dropped": 0, "time_since_restore": 60336.44385623932, "episode_reward_max": -491.35537346287913, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2277600, "default": {"kl": 0.00827508233487606, "policy_loss": -0.131058931350708, "vf_loss": 412.6100158691406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.962810218334198, "entropy": 4.553155899047852, "cur_lr": 4.999999873689376e-05, "total_loss": 412.4915466308594}, "load_time_ms": 0.673, "num_steps_sampled": 2277600, "grad_time_ms": 735.549, "update_time_ms": 2.388, "sample_time_ms": 34778.264}, "date": "2025-08-31_08-56-33", "hostname": "cda-server-4", "time_this_iter_s": 35.209829807281494, "episodes_total": 11388, "timestamp": 1756623393, "node_ip": "10.157.146.4", "done": false, "time_total_s": 60336.44385623932, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1899, "episode_reward_mean": -608.6166447248714, "training_iteration": 1899, "timesteps_total": 2278800, "policy_reward_mean": {}, "episode_reward_min": -673.448213356585, "timesteps_since_restore": 2278800, "num_metric_batches_dropped": 0, "time_since_restore": 60371.70279979706, "episode_reward_max": -491.35537346287913, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2278800, "default": {"kl": 0.009782830253243446, "policy_loss": -0.1519496738910675, "vf_loss": 137.29747009277344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9880126118659973, "entropy": 4.684049129486084, "cur_lr": 4.999999873689376e-05, "total_loss": 137.16038513183594}, "load_time_ms": 0.645, "num_steps_sampled": 2278800, "grad_time_ms": 735.436, "update_time_ms": 2.358, "sample_time_ms": 34786.613}, "date": "2025-08-31_08-57-09", "hostname": "cda-server-4", "time_this_iter_s": 35.25894355773926, "episodes_total": 11394, "timestamp": 1756623429, "node_ip": "10.157.146.4", "done": false, "time_total_s": 60371.70279979706, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1900, "episode_reward_mean": -608.4118641280418, "training_iteration": 1900, "timesteps_total": 2280000, "policy_reward_mean": {}, "episode_reward_min": -673.448213356585, "timesteps_since_restore": 2280000, "num_metric_batches_dropped": 0, "time_since_restore": 60406.66093611717, "episode_reward_max": -491.35537346287913, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2280000, "default": {"kl": 0.011205061338841915, "policy_loss": -0.1447957307100296, "vf_loss": 145.3854522705078, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9818503856658936, "entropy": 4.64528226852417, "cur_lr": 4.999999873689376e-05, "total_loss": 145.25767517089844}, "load_time_ms": 0.637, "num_steps_sampled": 2280000, "grad_time_ms": 733.803, "update_time_ms": 2.327, "sample_time_ms": 34726.937}, "date": "2025-08-31_08-57-44", "hostname": "cda-server-4", "time_this_iter_s": 34.958136320114136, "episodes_total": 11400, "timestamp": 1756623464, "node_ip": "10.157.146.4", "done": false, "time_total_s": 60406.66093611717, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1901, "episode_reward_mean": -608.4670020009543, "training_iteration": 1901, "timesteps_total": 2281200, "policy_reward_mean": {}, "episode_reward_min": -673.448213356585, "timesteps_since_restore": 2281200, "num_metric_batches_dropped": 0, "time_since_restore": 60442.57949066162, "episode_reward_max": -491.35537346287913, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2281200, "default": {"kl": 0.009109103120863438, "policy_loss": -0.12198293209075928, "vf_loss": 403.6103820800781, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9784926176071167, "entropy": 4.516965866088867, "cur_lr": 4.999999873689376e-05, "total_loss": 403.5022277832031}, "load_time_ms": 0.64, "num_steps_sampled": 2281200, "grad_time_ms": 728.109, "update_time_ms": 2.357, "sample_time_ms": 34744.36}, "date": "2025-08-31_08-58-20", "hostname": "cda-server-4", "time_this_iter_s": 35.91855454444885, "episodes_total": 11406, "timestamp": 1756623500, "node_ip": "10.157.146.4", "done": false, "time_total_s": 60442.57949066162, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1902, "episode_reward_mean": -608.7666709151146, "training_iteration": 1902, "timesteps_total": 2282400, "policy_reward_mean": {}, "episode_reward_min": -673.448213356585, "timesteps_since_restore": 2282400, "num_metric_batches_dropped": 0, "time_since_restore": 60478.77546262741, "episode_reward_max": -491.35537346287913, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2282400, "default": {"kl": 0.012117375619709492, "policy_loss": -0.1441473811864853, "vf_loss": 195.68894958496094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.976739764213562, "entropy": 4.279546737670898, "cur_lr": 4.999999873689376e-05, "total_loss": 195.5631866455078}, "load_time_ms": 0.613, "num_steps_sampled": 2282400, "grad_time_ms": 713.929, "update_time_ms": 2.328, "sample_time_ms": 34832.031}, "date": "2025-08-31_08-58-56", "hostname": "cda-server-4", "time_this_iter_s": 36.195971965789795, "episodes_total": 11412, "timestamp": 1756623536, "node_ip": "10.157.146.4", "done": false, "time_total_s": 60478.77546262741, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1903, "episode_reward_mean": -608.8475636016404, "training_iteration": 1903, "timesteps_total": 2283600, "policy_reward_mean": {}, "episode_reward_min": -673.448213356585, "timesteps_since_restore": 2283600, "num_metric_batches_dropped": 0, "time_since_restore": 60513.334003686905, "episode_reward_max": -491.35537346287913, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2283600, "default": {"kl": 0.010504183359444141, "policy_loss": -0.1124887764453888, "vf_loss": 476.22515869140625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.923834502696991, "entropy": 4.40914249420166, "cur_lr": 4.999999873689376e-05, "total_loss": 476.1286315917969}, "load_time_ms": 0.612, "num_steps_sampled": 2283600, "grad_time_ms": 711.784, "update_time_ms": 2.405, "sample_time_ms": 34740.037}, "date": "2025-08-31_08-59-30", "hostname": "cda-server-4", "time_this_iter_s": 34.55854105949402, "episodes_total": 11418, "timestamp": 1756623570, "node_ip": "10.157.146.4", "done": false, "time_total_s": 60513.334003686905, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1904, "episode_reward_mean": -607.7043929787114, "training_iteration": 1904, "timesteps_total": 2284800, "policy_reward_mean": {}, "episode_reward_min": -665.3243581865374, "timesteps_since_restore": 2284800, "num_metric_batches_dropped": 0, "time_since_restore": 60547.67194914818, "episode_reward_max": -491.35537346287913, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2284800, "default": {"kl": 0.011844339780509472, "policy_loss": -0.15949298441410065, "vf_loss": 70.95259857177734, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.993605375289917, "entropy": 4.540931224822998, "cur_lr": 4.999999873689376e-05, "total_loss": 70.81108856201172}, "load_time_ms": 0.617, "num_steps_sampled": 2284800, "grad_time_ms": 711.719, "update_time_ms": 2.336, "sample_time_ms": 34544.525}, "date": "2025-08-31_09-00-05", "hostname": "cda-server-4", "time_this_iter_s": 34.33794546127319, "episodes_total": 11424, "timestamp": 1756623605, "node_ip": "10.157.146.4", "done": false, "time_total_s": 60547.67194914818, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1905, "episode_reward_mean": -608.333829062171, "training_iteration": 1905, "timesteps_total": 2286000, "policy_reward_mean": {}, "episode_reward_min": -665.3243581865374, "timesteps_since_restore": 2286000, "num_metric_batches_dropped": 0, "time_since_restore": 60582.21383523941, "episode_reward_max": -491.35537346287913, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2286000, "default": {"kl": 0.011510095559060574, "policy_loss": -0.1195344403386116, "vf_loss": 167.36968994140625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9785757064819336, "entropy": 4.49379301071167, "cur_lr": 4.999999873689376e-05, "total_loss": 167.26763916015625}, "load_time_ms": 0.615, "num_steps_sampled": 2286000, "grad_time_ms": 713.68, "update_time_ms": 2.287, "sample_time_ms": 34452.94}, "date": "2025-08-31_09-00-39", "hostname": "cda-server-4", "time_this_iter_s": 34.5418860912323, "episodes_total": 11430, "timestamp": 1756623639, "node_ip": "10.157.146.4", "done": false, "time_total_s": 60582.21383523941, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1906, "episode_reward_mean": -608.8244420164881, "training_iteration": 1906, "timesteps_total": 2287200, "policy_reward_mean": {}, "episode_reward_min": -711.7949099256788, "timesteps_since_restore": 2287200, "num_metric_batches_dropped": 0, "time_since_restore": 60617.49005150795, "episode_reward_max": -491.35537346287913, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2287200, "default": {"kl": 0.012517728842794895, "policy_loss": -0.15316836535930634, "vf_loss": 328.22967529296875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9743553996086121, "entropy": 4.835118770599365, "cur_lr": 4.999999873689376e-05, "total_loss": 328.09552001953125}, "load_time_ms": 0.602, "num_steps_sampled": 2287200, "grad_time_ms": 714.09, "update_time_ms": 2.191, "sample_time_ms": 34515.766}, "date": "2025-08-31_09-01-15", "hostname": "cda-server-4", "time_this_iter_s": 35.27621626853943, "episodes_total": 11436, "timestamp": 1756623675, "node_ip": "10.157.146.4", "done": false, "time_total_s": 60617.49005150795, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1907, "episode_reward_mean": -608.9673674518217, "training_iteration": 1907, "timesteps_total": 2288400, "policy_reward_mean": {}, "episode_reward_min": -711.7949099256788, "timesteps_since_restore": 2288400, "num_metric_batches_dropped": 0, "time_since_restore": 60651.6640856266, "episode_reward_max": -491.35537346287913, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2288400, "default": {"kl": 0.010573802515864372, "policy_loss": -0.15745455026626587, "vf_loss": 270.0554504394531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.962992250919342, "entropy": 4.645623683929443, "cur_lr": 4.999999873689376e-05, "total_loss": 269.91400146484375}, "load_time_ms": 0.59, "num_steps_sampled": 2288400, "grad_time_ms": 707.902, "update_time_ms": 2.231, "sample_time_ms": 34328.079}, "date": "2025-08-31_09-01-49", "hostname": "cda-server-4", "time_this_iter_s": 34.174034118652344, "episodes_total": 11442, "timestamp": 1756623709, "node_ip": "10.157.146.4", "done": false, "time_total_s": 60651.6640856266, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1908, "episode_reward_mean": -609.67139903134, "training_iteration": 1908, "timesteps_total": 2289600, "policy_reward_mean": {}, "episode_reward_min": -711.7949099256788, "timesteps_since_restore": 2289600, "num_metric_batches_dropped": 0, "time_since_restore": 60686.80200576782, "episode_reward_max": -491.35537346287913, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2289600, "default": {"kl": 0.009358198381960392, "policy_loss": -0.13190625607967377, "vf_loss": 235.4491424560547, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9678032994270325, "entropy": 4.434785842895508, "cur_lr": 4.999999873689376e-05, "total_loss": 235.33143615722656}, "load_time_ms": 0.583, "num_steps_sampled": 2289600, "grad_time_ms": 703.449, "update_time_ms": 2.313, "sample_time_ms": 34325.076}, "date": "2025-08-31_09-02-24", "hostname": "cda-server-4", "time_this_iter_s": 35.13792014122009, "episodes_total": 11448, "timestamp": 1756623744, "node_ip": "10.157.146.4", "done": false, "time_total_s": 60686.80200576782, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1909, "episode_reward_mean": -610.5643863332687, "training_iteration": 1909, "timesteps_total": 2290800, "policy_reward_mean": {}, "episode_reward_min": -711.7949099256788, "timesteps_since_restore": 2290800, "num_metric_batches_dropped": 0, "time_since_restore": 60723.19060611725, "episode_reward_max": -491.35537346287913, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2290800, "default": {"kl": 0.00932853389531374, "policy_loss": -0.13244260847568512, "vf_loss": 536.4887084960938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9408313035964966, "entropy": 4.695019245147705, "cur_lr": 4.999999873689376e-05, "total_loss": 536.3704223632812}, "load_time_ms": 0.583, "num_steps_sampled": 2290800, "grad_time_ms": 690.853, "update_time_ms": 2.454, "sample_time_ms": 34450.46}, "date": "2025-08-31_09-03-00", "hostname": "cda-server-4", "time_this_iter_s": 36.38860034942627, "episodes_total": 11454, "timestamp": 1756623780, "node_ip": "10.157.146.4", "done": false, "time_total_s": 60723.19060611725, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1910, "episode_reward_mean": -612.1777576793576, "training_iteration": 1910, "timesteps_total": 2292000, "policy_reward_mean": {}, "episode_reward_min": -711.7949099256788, "timesteps_since_restore": 2292000, "num_metric_batches_dropped": 0, "time_since_restore": 60758.042894124985, "episode_reward_max": -493.23119093761255, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2292000, "default": {"kl": 0.010313901118934155, "policy_loss": -0.12525266408920288, "vf_loss": 324.7765808105469, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9514986872673035, "entropy": 4.327268600463867, "cur_lr": 4.999999873689376e-05, "total_loss": 324.6669921875}, "load_time_ms": 0.582, "num_steps_sampled": 2292000, "grad_time_ms": 679.198, "update_time_ms": 2.452, "sample_time_ms": 34451.557}, "date": "2025-08-31_09-03-35", "hostname": "cda-server-4", "time_this_iter_s": 34.852288007736206, "episodes_total": 11460, "timestamp": 1756623815, "node_ip": "10.157.146.4", "done": false, "time_total_s": 60758.042894124985, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1911, "episode_reward_mean": -611.0792812337437, "training_iteration": 1911, "timesteps_total": 2293200, "policy_reward_mean": {}, "episode_reward_min": -711.7949099256788, "timesteps_since_restore": 2293200, "num_metric_batches_dropped": 0, "time_since_restore": 60793.385627031326, "episode_reward_max": -493.23119093761255, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2293200, "default": {"kl": 0.012058901600539684, "policy_loss": -0.14233486354351044, "vf_loss": 185.04928588867188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9863615036010742, "entropy": 4.37265157699585, "cur_lr": 4.999999873689376e-05, "total_loss": 184.92526245117188}, "load_time_ms": 0.614, "num_steps_sampled": 2293200, "grad_time_ms": 660.075, "update_time_ms": 2.401, "sample_time_ms": 34413.033}, "date": "2025-08-31_09-04-11", "hostname": "cda-server-4", "time_this_iter_s": 35.34273290634155, "episodes_total": 11466, "timestamp": 1756623851, "node_ip": "10.157.146.4", "done": false, "time_total_s": 60793.385627031326, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1912, "episode_reward_mean": -612.1790472531103, "training_iteration": 1912, "timesteps_total": 2294400, "policy_reward_mean": {}, "episode_reward_min": -711.7949099256788, "timesteps_since_restore": 2294400, "num_metric_batches_dropped": 0, "time_since_restore": 60828.87524318695, "episode_reward_max": -493.23119093761255, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2294400, "default": {"kl": 0.010755562223494053, "policy_loss": -0.13431116938591003, "vf_loss": 490.87646484375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9360365271568298, "entropy": 4.746589183807373, "cur_lr": 4.999999873689376e-05, "total_loss": 490.7584228515625}, "load_time_ms": 0.609, "num_steps_sampled": 2294400, "grad_time_ms": 663.586, "update_time_ms": 2.515, "sample_time_ms": 34338.89}, "date": "2025-08-31_09-04-46", "hostname": "cda-server-4", "time_this_iter_s": 35.48961615562439, "episodes_total": 11472, "timestamp": 1756623886, "node_ip": "10.157.146.4", "done": false, "time_total_s": 60828.87524318695, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1913, "episode_reward_mean": -611.8802309887368, "training_iteration": 1913, "timesteps_total": 2295600, "policy_reward_mean": {}, "episode_reward_min": -711.7949099256788, "timesteps_since_restore": 2295600, "num_metric_batches_dropped": 0, "time_since_restore": 60864.66790008545, "episode_reward_max": -493.23119093761255, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2295600, "default": {"kl": 0.009585955180227757, "policy_loss": -0.14631208777427673, "vf_loss": 319.6419372558594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9597170352935791, "entropy": 4.5666022300720215, "cur_lr": 4.999999873689376e-05, "total_loss": 319.5101318359375}, "load_time_ms": 0.605, "num_steps_sampled": 2295600, "grad_time_ms": 643.523, "update_time_ms": 2.459, "sample_time_ms": 34482.545}, "date": "2025-08-31_09-05-22", "hostname": "cda-server-4", "time_this_iter_s": 35.792656898498535, "episodes_total": 11478, "timestamp": 1756623922, "node_ip": "10.157.146.4", "done": false, "time_total_s": 60864.66790008545, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1914, "episode_reward_mean": -611.4629075907234, "training_iteration": 1914, "timesteps_total": 2296800, "policy_reward_mean": {}, "episode_reward_min": -711.7949099256788, "timesteps_since_restore": 2296800, "num_metric_batches_dropped": 0, "time_since_restore": 60899.178899526596, "episode_reward_max": -493.23119093761255, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2296800, "default": {"kl": 0.009624130092561245, "policy_loss": -0.12395029515028, "vf_loss": 205.10739135742188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9688345789909363, "entropy": 4.278701305389404, "cur_lr": 4.999999873689376e-05, "total_loss": 204.998046875}, "load_time_ms": 0.602, "num_steps_sampled": 2296800, "grad_time_ms": 620.637, "update_time_ms": 2.467, "sample_time_ms": 34522.718}, "date": "2025-08-31_09-05-57", "hostname": "cda-server-4", "time_this_iter_s": 34.51099944114685, "episodes_total": 11484, "timestamp": 1756623957, "node_ip": "10.157.146.4", "done": false, "time_total_s": 60899.178899526596, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1915, "episode_reward_mean": -611.3368560339159, "training_iteration": 1915, "timesteps_total": 2298000, "policy_reward_mean": {}, "episode_reward_min": -711.7949099256788, "timesteps_since_restore": 2298000, "num_metric_batches_dropped": 0, "time_since_restore": 60934.593205690384, "episode_reward_max": -493.23119093761255, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2298000, "default": {"kl": 0.011579863727092743, "policy_loss": -0.13994735479354858, "vf_loss": 1229.199462890625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.871361494064331, "entropy": 4.373805999755859, "cur_lr": 4.999999873689376e-05, "total_loss": 1229.0771484375}, "load_time_ms": 0.65, "num_steps_sampled": 2298000, "grad_time_ms": 607.541, "update_time_ms": 2.492, "sample_time_ms": 34622.896}, "date": "2025-08-31_09-06-32", "hostname": "cda-server-4", "time_this_iter_s": 35.41430616378784, "episodes_total": 11490, "timestamp": 1756623992, "node_ip": "10.157.146.4", "done": false, "time_total_s": 60934.593205690384, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1916, "episode_reward_mean": -609.4582650576749, "training_iteration": 1916, "timesteps_total": 2299200, "policy_reward_mean": {}, "episode_reward_min": -711.7949099256788, "timesteps_since_restore": 2299200, "num_metric_batches_dropped": 0, "time_since_restore": 60969.788880348206, "episode_reward_max": -453.4022624480502, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2299200, "default": {"kl": 0.010104686953127384, "policy_loss": -0.14509406685829163, "vf_loss": 756.299072265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9139741063117981, "entropy": 4.417991638183594, "cur_lr": 4.999999873689376e-05, "total_loss": 756.1693115234375}, "load_time_ms": 0.667, "num_steps_sampled": 2299200, "grad_time_ms": 609.439, "update_time_ms": 2.476, "sample_time_ms": 34612.959}, "date": "2025-08-31_09-07-07", "hostname": "cda-server-4", "time_this_iter_s": 35.195674657821655, "episodes_total": 11496, "timestamp": 1756624027, "node_ip": "10.157.146.4", "done": false, "time_total_s": 60969.788880348206, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1917, "episode_reward_mean": -610.4678854296648, "training_iteration": 1917, "timesteps_total": 2300400, "policy_reward_mean": {}, "episode_reward_min": -711.7949099256788, "timesteps_since_restore": 2300400, "num_metric_batches_dropped": 0, "time_since_restore": 61005.318469285965, "episode_reward_max": -453.4022624480502, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2300400, "default": {"kl": 0.010647688992321491, "policy_loss": -0.12670660018920898, "vf_loss": 36.39363479614258, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9943398237228394, "entropy": 4.351125240325928, "cur_lr": 4.999999873689376e-05, "total_loss": 36.28309631347656}, "load_time_ms": 0.67, "num_steps_sampled": 2300400, "grad_time_ms": 614.244, "update_time_ms": 2.468, "sample_time_ms": 34743.878}, "date": "2025-08-31_09-07-43", "hostname": "cda-server-4", "time_this_iter_s": 35.5295889377594, "episodes_total": 11502, "timestamp": 1756624063, "node_ip": "10.157.146.4", "done": false, "time_total_s": 61005.318469285965, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1918, "episode_reward_mean": -609.7115212093704, "training_iteration": 1918, "timesteps_total": 2301600, "policy_reward_mean": {}, "episode_reward_min": -711.7949099256788, "timesteps_since_restore": 2301600, "num_metric_batches_dropped": 0, "time_since_restore": 61040.188375234604, "episode_reward_max": -453.4022624480502, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2301600, "default": {"kl": 0.008742477744817734, "policy_loss": -0.13144344091415405, "vf_loss": 164.24713134765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9850142002105713, "entropy": 4.45274019241333, "cur_lr": 4.999999873689376e-05, "total_loss": 164.1289520263672}, "load_time_ms": 0.704, "num_steps_sampled": 2301600, "grad_time_ms": 616.708, "update_time_ms": 2.388, "sample_time_ms": 34714.698}, "date": "2025-08-31_09-08-18", "hostname": "cda-server-4", "time_this_iter_s": 34.869905948638916, "episodes_total": 11508, "timestamp": 1756624098, "node_ip": "10.157.146.4", "done": false, "time_total_s": 61040.188375234604, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1919, "episode_reward_mean": -609.4032650588914, "training_iteration": 1919, "timesteps_total": 2302800, "policy_reward_mean": {}, "episode_reward_min": -711.7949099256788, "timesteps_since_restore": 2302800, "num_metric_batches_dropped": 0, "time_since_restore": 61075.278963804245, "episode_reward_max": -453.4022624480502, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2302800, "default": {"kl": 0.009640930220484734, "policy_loss": -0.14328843355178833, "vf_loss": 28.80316162109375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9954813718795776, "entropy": 4.388057231903076, "cur_lr": 4.999999873689376e-05, "total_loss": 28.67452049255371}, "load_time_ms": 0.712, "num_steps_sampled": 2302800, "grad_time_ms": 630.114, "update_time_ms": 2.283, "sample_time_ms": 34571.521}, "date": "2025-08-31_09-08-53", "hostname": "cda-server-4", "time_this_iter_s": 35.09058856964111, "episodes_total": 11514, "timestamp": 1756624133, "node_ip": "10.157.146.4", "done": false, "time_total_s": 61075.278963804245, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1920, "episode_reward_mean": -610.5417477336977, "training_iteration": 1920, "timesteps_total": 2304000, "policy_reward_mean": {}, "episode_reward_min": -711.7949099256788, "timesteps_since_restore": 2304000, "num_metric_batches_dropped": 0, "time_since_restore": 61111.077171087265, "episode_reward_max": -453.4022624480502, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2304000, "default": {"kl": 0.010020543821156025, "policy_loss": -0.1284727156162262, "vf_loss": 105.61672973632812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9841420650482178, "entropy": 4.640605926513672, "cur_lr": 4.999999873689376e-05, "total_loss": 105.50348663330078}, "load_time_ms": 0.714, "num_steps_sampled": 2304000, "grad_time_ms": 640.794, "update_time_ms": 2.343, "sample_time_ms": 34655.313}, "date": "2025-08-31_09-09-28", "hostname": "cda-server-4", "time_this_iter_s": 35.79820728302002, "episodes_total": 11520, "timestamp": 1756624168, "node_ip": "10.157.146.4", "done": false, "time_total_s": 61111.077171087265, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1921, "episode_reward_mean": -610.5323148901475, "training_iteration": 1921, "timesteps_total": 2305200, "policy_reward_mean": {}, "episode_reward_min": -711.7949099256788, "timesteps_since_restore": 2305200, "num_metric_batches_dropped": 0, "time_since_restore": 61145.77654790878, "episode_reward_max": -453.4022624480502, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2305200, "default": {"kl": 0.01399171818047762, "policy_loss": -0.10656053572893143, "vf_loss": 717.6774291992188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9385840892791748, "entropy": 4.438390731811523, "cur_lr": 4.999999873689376e-05, "total_loss": 717.592041015625}, "load_time_ms": 0.72, "num_steps_sampled": 2305200, "grad_time_ms": 663.423, "update_time_ms": 2.446, "sample_time_ms": 34568.238}, "date": "2025-08-31_09-10-03", "hostname": "cda-server-4", "time_this_iter_s": 34.699376821517944, "episodes_total": 11526, "timestamp": 1756624203, "node_ip": "10.157.146.4", "done": false, "time_total_s": 61145.77654790878, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1922, "episode_reward_mean": -610.8195114736681, "training_iteration": 1922, "timesteps_total": 2306400, "policy_reward_mean": {}, "episode_reward_min": -711.7949099256788, "timesteps_since_restore": 2306400, "num_metric_batches_dropped": 0, "time_since_restore": 61181.4031085968, "episode_reward_max": -453.4022624480502, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2306400, "default": {"kl": 0.010695431381464005, "policy_loss": -0.13833224773406982, "vf_loss": 1040.58154296875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9123051166534424, "entropy": 4.665299415588379, "cur_lr": 4.999999873689376e-05, "total_loss": 1040.45947265625}, "load_time_ms": 0.713, "num_steps_sampled": 2306400, "grad_time_ms": 671.884, "update_time_ms": 2.425, "sample_time_ms": 34573.493}, "date": "2025-08-31_09-10-39", "hostname": "cda-server-4", "time_this_iter_s": 35.6265606880188, "episodes_total": 11532, "timestamp": 1756624239, "node_ip": "10.157.146.4", "done": false, "time_total_s": 61181.4031085968, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1923, "episode_reward_mean": -611.156085831753, "training_iteration": 1923, "timesteps_total": 2307600, "policy_reward_mean": {}, "episode_reward_min": -696.1352879894887, "timesteps_since_restore": 2307600, "num_metric_batches_dropped": 0, "time_since_restore": 61216.58201169968, "episode_reward_max": -453.4022624480502, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2307600, "default": {"kl": 0.008088094182312489, "policy_loss": -0.11423100531101227, "vf_loss": 245.07565307617188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9750953316688538, "entropy": 4.362287521362305, "cur_lr": 4.999999873689376e-05, "total_loss": 244.97369384765625}, "load_time_ms": 0.715, "num_steps_sampled": 2307600, "grad_time_ms": 691.741, "update_time_ms": 2.509, "sample_time_ms": 34492.143}, "date": "2025-08-31_09-11-14", "hostname": "cda-server-4", "time_this_iter_s": 35.178903102874756, "episodes_total": 11538, "timestamp": 1756624274, "node_ip": "10.157.146.4", "done": false, "time_total_s": 61216.58201169968, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1924, "episode_reward_mean": -609.6262646525898, "training_iteration": 1924, "timesteps_total": 2308800, "policy_reward_mean": {}, "episode_reward_min": -696.1352879894887, "timesteps_since_restore": 2308800, "num_metric_batches_dropped": 0, "time_since_restore": 61251.56512928009, "episode_reward_max": -453.4022624480502, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2308800, "default": {"kl": 0.009610678069293499, "policy_loss": -0.12001514434814453, "vf_loss": 945.7374267578125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8541969060897827, "entropy": 4.33214807510376, "cur_lr": 4.999999873689376e-05, "total_loss": 945.6318359375}, "load_time_ms": 0.716, "num_steps_sampled": 2308800, "grad_time_ms": 715.294, "update_time_ms": 2.492, "sample_time_ms": 34515.911}, "date": "2025-08-31_09-11-49", "hostname": "cda-server-4", "time_this_iter_s": 34.98311758041382, "episodes_total": 11544, "timestamp": 1756624309, "node_ip": "10.157.146.4", "done": false, "time_total_s": 61251.56512928009, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1925, "episode_reward_mean": -609.081046473101, "training_iteration": 1925, "timesteps_total": 2310000, "policy_reward_mean": {}, "episode_reward_min": -696.1352879894887, "timesteps_since_restore": 2310000, "num_metric_batches_dropped": 0, "time_since_restore": 61286.429401397705, "episode_reward_max": -453.4022624480502, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2310000, "default": {"kl": 0.01061274390667677, "policy_loss": -0.135540172457695, "vf_loss": 352.99859619140625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9571707248687744, "entropy": 4.393710613250732, "cur_lr": 4.999999873689376e-05, "total_loss": 352.8791198730469}, "load_time_ms": 0.672, "num_steps_sampled": 2310000, "grad_time_ms": 728.737, "update_time_ms": 2.481, "sample_time_ms": 34447.536}, "date": "2025-08-31_09-12-24", "hostname": "cda-server-4", "time_this_iter_s": 34.864272117614746, "episodes_total": 11550, "timestamp": 1756624344, "node_ip": "10.157.146.4", "done": false, "time_total_s": 61286.429401397705, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1926, "episode_reward_mean": -608.4468769760498, "training_iteration": 1926, "timesteps_total": 2311200, "policy_reward_mean": {}, "episode_reward_min": -696.1352879894887, "timesteps_since_restore": 2311200, "num_metric_batches_dropped": 0, "time_since_restore": 61324.820581674576, "episode_reward_max": -453.4022624480502, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2311200, "default": {"kl": 0.009270290844142437, "policy_loss": -0.13243253529071808, "vf_loss": 180.14602661132812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9797140955924988, "entropy": 4.582024574279785, "cur_lr": 4.999999873689376e-05, "total_loss": 180.0276641845703}, "load_time_ms": 0.659, "num_steps_sampled": 2311200, "grad_time_ms": 729.915, "update_time_ms": 2.487, "sample_time_ms": 34765.923}, "date": "2025-08-31_09-13-02", "hostname": "cda-server-4", "time_this_iter_s": 38.39118027687073, "episodes_total": 11556, "timestamp": 1756624382, "node_ip": "10.157.146.4", "done": false, "time_total_s": 61324.820581674576, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1927, "episode_reward_mean": -609.2950599836103, "training_iteration": 1927, "timesteps_total": 2312400, "policy_reward_mean": {}, "episode_reward_min": -696.1352879894887, "timesteps_since_restore": 2312400, "num_metric_batches_dropped": 0, "time_since_restore": 61360.513897418976, "episode_reward_max": -453.4022624480502, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2312400, "default": {"kl": 0.01144898496568203, "policy_loss": -0.13741198182106018, "vf_loss": 289.73345947265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9682984948158264, "entropy": 4.715510368347168, "cur_lr": 4.999999873689376e-05, "total_loss": 289.61346435546875}, "load_time_ms": 0.658, "num_steps_sampled": 2312400, "grad_time_ms": 730.953, "update_time_ms": 2.492, "sample_time_ms": 34781.187}, "date": "2025-08-31_09-13-38", "hostname": "cda-server-4", "time_this_iter_s": 35.693315744400024, "episodes_total": 11562, "timestamp": 1756624418, "node_ip": "10.157.146.4", "done": false, "time_total_s": 61360.513897418976, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1928, "episode_reward_mean": -609.7592720622749, "training_iteration": 1928, "timesteps_total": 2313600, "policy_reward_mean": {}, "episode_reward_min": -696.1352879894887, "timesteps_since_restore": 2313600, "num_metric_batches_dropped": 0, "time_since_restore": 61395.215868234634, "episode_reward_max": -453.4022624480502, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2313600, "default": {"kl": 0.012213673442602158, "policy_loss": -0.1524488776922226, "vf_loss": 519.1139526367188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9348341822624207, "entropy": 4.775939464569092, "cur_lr": 4.999999873689376e-05, "total_loss": 518.9800415039062}, "load_time_ms": 0.655, "num_steps_sampled": 2313600, "grad_time_ms": 732.601, "update_time_ms": 2.575, "sample_time_ms": 34762.739}, "date": "2025-08-31_09-14-13", "hostname": "cda-server-4", "time_this_iter_s": 34.70197081565857, "episodes_total": 11568, "timestamp": 1756624453, "node_ip": "10.157.146.4", "done": false, "time_total_s": 61395.215868234634, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1929, "episode_reward_mean": -609.3052888183628, "training_iteration": 1929, "timesteps_total": 2314800, "policy_reward_mean": {}, "episode_reward_min": -662.842765028373, "timesteps_since_restore": 2314800, "num_metric_batches_dropped": 0, "time_since_restore": 61430.22106575966, "episode_reward_max": -453.4022624480502, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2314800, "default": {"kl": 0.009586725383996964, "policy_loss": -0.1406370848417282, "vf_loss": 298.42022705078125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.973479151725769, "entropy": 4.674661636352539, "cur_lr": 4.999999873689376e-05, "total_loss": 298.2940979003906}, "load_time_ms": 0.684, "num_steps_sampled": 2314800, "grad_time_ms": 734.305, "update_time_ms": 2.631, "sample_time_ms": 34752.398}, "date": "2025-08-31_09-14-48", "hostname": "cda-server-4", "time_this_iter_s": 35.005197525024414, "episodes_total": 11574, "timestamp": 1756624488, "node_ip": "10.157.146.4", "done": false, "time_total_s": 61430.22106575966, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1930, "episode_reward_mean": -610.2696105624126, "training_iteration": 1930, "timesteps_total": 2316000, "policy_reward_mean": {}, "episode_reward_min": -674.7872613598831, "timesteps_since_restore": 2316000, "num_metric_batches_dropped": 0, "time_since_restore": 61465.710005283356, "episode_reward_max": -453.4022624480502, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2316000, "default": {"kl": 0.009682310745120049, "policy_loss": -0.13389360904693604, "vf_loss": 545.7025146484375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9208500981330872, "entropy": 4.747175693511963, "cur_lr": 4.999999873689376e-05, "total_loss": 545.5833129882812}, "load_time_ms": 0.681, "num_steps_sampled": 2316000, "grad_time_ms": 737.58, "update_time_ms": 2.669, "sample_time_ms": 34718.166}, "date": "2025-08-31_09-15-23", "hostname": "cda-server-4", "time_this_iter_s": 35.4889395236969, "episodes_total": 11580, "timestamp": 1756624523, "node_ip": "10.157.146.4", "done": false, "time_total_s": 61465.710005283356, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1931, "episode_reward_mean": -611.2001407041411, "training_iteration": 1931, "timesteps_total": 2317200, "policy_reward_mean": {}, "episode_reward_min": -674.7872613598831, "timesteps_since_restore": 2317200, "num_metric_batches_dropped": 0, "time_since_restore": 61499.55676174164, "episode_reward_max": -453.4022624480502, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2317200, "default": {"kl": 0.010903848335146904, "policy_loss": -0.13397301733493805, "vf_loss": 383.8142395019531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9626340866088867, "entropy": 4.8521599769592285, "cur_lr": 4.999999873689376e-05, "total_loss": 383.69677734375}, "load_time_ms": 0.646, "num_steps_sampled": 2317200, "grad_time_ms": 738.615, "update_time_ms": 2.609, "sample_time_ms": 34632.024}, "date": "2025-08-31_09-15-57", "hostname": "cda-server-4", "time_this_iter_s": 33.84675645828247, "episodes_total": 11586, "timestamp": 1756624557, "node_ip": "10.157.146.4", "done": false, "time_total_s": 61499.55676174164, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1932, "episode_reward_mean": -611.1468059542095, "training_iteration": 1932, "timesteps_total": 2318400, "policy_reward_mean": {}, "episode_reward_min": -674.7872613598831, "timesteps_since_restore": 2318400, "num_metric_batches_dropped": 0, "time_since_restore": 61534.06065225601, "episode_reward_max": -453.4022624480502, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2318400, "default": {"kl": 0.009555835276842117, "policy_loss": -0.1404067873954773, "vf_loss": 70.87052917480469, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9888940453529358, "entropy": 4.288478374481201, "cur_lr": 4.999999873689376e-05, "total_loss": 70.74463653564453}, "load_time_ms": 0.648, "num_steps_sampled": 2318400, "grad_time_ms": 741.514, "update_time_ms": 2.533, "sample_time_ms": 34516.874}, "date": "2025-08-31_09-16-32", "hostname": "cda-server-4", "time_this_iter_s": 34.50389051437378, "episodes_total": 11592, "timestamp": 1756624592, "node_ip": "10.157.146.4", "done": false, "time_total_s": 61534.06065225601, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1933, "episode_reward_mean": -611.6803628602847, "training_iteration": 1933, "timesteps_total": 2319600, "policy_reward_mean": {}, "episode_reward_min": -674.7872613598831, "timesteps_since_restore": 2319600, "num_metric_batches_dropped": 0, "time_since_restore": 61569.381210803986, "episode_reward_max": -473.61961816904994, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2319600, "default": {"kl": 0.011475702747702599, "policy_loss": -0.16518999636173248, "vf_loss": 211.96006774902344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9791772365570068, "entropy": 4.575241565704346, "cur_lr": 4.999999873689376e-05, "total_loss": 211.81231689453125}, "load_time_ms": 0.682, "num_steps_sampled": 2319600, "grad_time_ms": 739.036, "update_time_ms": 2.464, "sample_time_ms": 34533.563}, "date": "2025-08-31_09-17-07", "hostname": "cda-server-4", "time_this_iter_s": 35.32055854797363, "episodes_total": 11598, "timestamp": 1756624627, "node_ip": "10.157.146.4", "done": false, "time_total_s": 61569.381210803986, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1934, "episode_reward_mean": -611.9705654846836, "training_iteration": 1934, "timesteps_total": 2320800, "policy_reward_mean": {}, "episode_reward_min": -674.7872613598831, "timesteps_since_restore": 2320800, "num_metric_batches_dropped": 0, "time_since_restore": 61604.06988453865, "episode_reward_max": -473.61961816904994, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2320800, "default": {"kl": 0.011736606247723103, "policy_loss": -0.12796813249588013, "vf_loss": 268.5278625488281, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9640697836875916, "entropy": 4.307933330535889, "cur_lr": 4.999999873689376e-05, "total_loss": 268.4176940917969}, "load_time_ms": 0.686, "num_steps_sampled": 2320800, "grad_time_ms": 732.622, "update_time_ms": 2.454, "sample_time_ms": 34510.565}, "date": "2025-08-31_09-17-42", "hostname": "cda-server-4", "time_this_iter_s": 34.68867373466492, "episodes_total": 11604, "timestamp": 1756624662, "node_ip": "10.157.146.4", "done": false, "time_total_s": 61604.06988453865, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1935, "episode_reward_mean": -612.5628923774951, "training_iteration": 1935, "timesteps_total": 2322000, "policy_reward_mean": {}, "episode_reward_min": -674.7872613598831, "timesteps_since_restore": 2322000, "num_metric_batches_dropped": 0, "time_since_restore": 61639.41353726387, "episode_reward_max": -473.61961816904994, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2322000, "default": {"kl": 0.01197861135005951, "policy_loss": -0.14781367778778076, "vf_loss": 227.85923767089844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9761344194412231, "entropy": 4.617947578430176, "cur_lr": 4.999999873689376e-05, "total_loss": 227.72962951660156}, "load_time_ms": 0.682, "num_steps_sampled": 2322000, "grad_time_ms": 725.419, "update_time_ms": 2.409, "sample_time_ms": 34565.832}, "date": "2025-08-31_09-18-17", "hostname": "cda-server-4", "time_this_iter_s": 35.34365272521973, "episodes_total": 11610, "timestamp": 1756624697, "node_ip": "10.157.146.4", "done": false, "time_total_s": 61639.41353726387, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1936, "episode_reward_mean": -613.5773483465539, "training_iteration": 1936, "timesteps_total": 2323200, "policy_reward_mean": {}, "episode_reward_min": -674.7872613598831, "timesteps_since_restore": 2323200, "num_metric_batches_dropped": 0, "time_since_restore": 61674.892579078674, "episode_reward_max": -473.61961816904994, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2323200, "default": {"kl": 0.009897320531308651, "policy_loss": -0.148390531539917, "vf_loss": 95.04729461669922, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9868233799934387, "entropy": 4.521474838256836, "cur_lr": 4.999999873689376e-05, "total_loss": 94.91393280029297}, "load_time_ms": 0.672, "num_steps_sampled": 2323200, "grad_time_ms": 716.404, "update_time_ms": 2.417, "sample_time_ms": 34283.562}, "date": "2025-08-31_09-18-53", "hostname": "cda-server-4", "time_this_iter_s": 35.47904181480408, "episodes_total": 11616, "timestamp": 1756624733, "node_ip": "10.157.146.4", "done": false, "time_total_s": 61674.892579078674, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1937, "episode_reward_mean": -613.1978454025922, "training_iteration": 1937, "timesteps_total": 2324400, "policy_reward_mean": {}, "episode_reward_min": -674.7872613598831, "timesteps_since_restore": 2324400, "num_metric_batches_dropped": 0, "time_since_restore": 61705.32104086876, "episode_reward_max": -473.61961816904994, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2324400, "default": {"kl": 0.009118663147091866, "policy_loss": -0.14722980558872223, "vf_loss": 177.61297607421875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9835113883018494, "entropy": 4.390396595001221, "cur_lr": 4.999999873689376e-05, "total_loss": 177.47959899902344}, "load_time_ms": 0.673, "num_steps_sampled": 2324400, "grad_time_ms": 708.235, "update_time_ms": 2.415, "sample_time_ms": 33765.289}, "date": "2025-08-31_09-19-23", "hostname": "cda-server-4", "time_this_iter_s": 30.42846179008484, "episodes_total": 11622, "timestamp": 1756624763, "node_ip": "10.157.146.4", "done": false, "time_total_s": 61705.32104086876, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1938, "episode_reward_mean": -612.8493352069277, "training_iteration": 1938, "timesteps_total": 2325600, "policy_reward_mean": {}, "episode_reward_min": -674.7872613598831, "timesteps_since_restore": 2325600, "num_metric_batches_dropped": 0, "time_since_restore": 61730.33917450905, "episode_reward_max": -473.61961816904994, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2325600, "default": {"kl": 0.008869525045156479, "policy_loss": -0.11755108833312988, "vf_loss": 230.19866943359375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9657080769538879, "entropy": 4.226259231567383, "cur_lr": 4.999999873689376e-05, "total_loss": 230.09458923339844}, "load_time_ms": 0.639, "num_steps_sampled": 2325600, "grad_time_ms": 693.109, "update_time_ms": 2.393, "sample_time_ms": 32812.158}, "date": "2025-08-31_09-19-48", "hostname": "cda-server-4", "time_this_iter_s": 25.018133640289307, "episodes_total": 11628, "timestamp": 1756624788, "node_ip": "10.157.146.4", "done": false, "time_total_s": 61730.33917450905, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1939, "episode_reward_mean": -612.3346953302537, "training_iteration": 1939, "timesteps_total": 2326800, "policy_reward_mean": {}, "episode_reward_min": -674.7872613598831, "timesteps_since_restore": 2326800, "num_metric_batches_dropped": 0, "time_since_restore": 61753.96117377281, "episode_reward_max": -473.61961816904994, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2326800, "default": {"kl": 0.010294769890606403, "policy_loss": -0.15063203871250153, "vf_loss": 142.01205444335938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9822821021080017, "entropy": 4.272276878356934, "cur_lr": 4.999999873689376e-05, "total_loss": 141.87705993652344}, "load_time_ms": 0.61, "num_steps_sampled": 2326800, "grad_time_ms": 685.806, "update_time_ms": 2.357, "sample_time_ms": 31681.317}, "date": "2025-08-31_09-20-12", "hostname": "cda-server-4", "time_this_iter_s": 23.621999263763428, "episodes_total": 11634, "timestamp": 1756624812, "node_ip": "10.157.146.4", "done": false, "time_total_s": 61753.96117377281, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1940, "episode_reward_mean": -610.4696903336406, "training_iteration": 1940, "timesteps_total": 2328000, "policy_reward_mean": {}, "episode_reward_min": -674.7872613598831, "timesteps_since_restore": 2328000, "num_metric_batches_dropped": 0, "time_since_restore": 61777.68186378479, "episode_reward_max": -473.61961816904994, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2328000, "default": {"kl": 0.01105304341763258, "policy_loss": -0.1437155157327652, "vf_loss": 221.37237548828125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.97690349817276, "entropy": 4.328091144561768, "cur_lr": 4.999999873689376e-05, "total_loss": 221.24545288085938}, "load_time_ms": 0.611, "num_steps_sampled": 2328000, "grad_time_ms": 684.222, "update_time_ms": 2.325, "sample_time_ms": 30506.195}, "date": "2025-08-31_09-20-35", "hostname": "cda-server-4", "time_this_iter_s": 23.72069001197815, "episodes_total": 11640, "timestamp": 1756624835, "node_ip": "10.157.146.4", "done": false, "time_total_s": 61777.68186378479, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1941, "episode_reward_mean": -610.0130057395885, "training_iteration": 1941, "timesteps_total": 2329200, "policy_reward_mean": {}, "episode_reward_min": -674.7872613598831, "timesteps_since_restore": 2329200, "num_metric_batches_dropped": 0, "time_since_restore": 61803.16974234581, "episode_reward_max": -473.61961816904994, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2329200, "default": {"kl": 0.0124976746737957, "policy_loss": -0.1602463722229004, "vf_loss": 329.2377624511719, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.975723385810852, "entropy": 4.496485233306885, "cur_lr": 4.999999873689376e-05, "total_loss": 329.0965270996094}, "load_time_ms": 0.612, "num_steps_sampled": 2329200, "grad_time_ms": 683.9, "update_time_ms": 2.272, "sample_time_ms": 29670.689}, "date": "2025-08-31_09-21-01", "hostname": "cda-server-4", "time_this_iter_s": 25.487878561019897, "episodes_total": 11646, "timestamp": 1756624861, "node_ip": "10.157.146.4", "done": false, "time_total_s": 61803.16974234581, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1942, "episode_reward_mean": -608.4820956659296, "training_iteration": 1942, "timesteps_total": 2330400, "policy_reward_mean": {}, "episode_reward_min": -674.7872613598831, "timesteps_since_restore": 2330400, "num_metric_batches_dropped": 0, "time_since_restore": 61829.77638411522, "episode_reward_max": -473.61961816904994, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2330400, "default": {"kl": 0.010036059655249119, "policy_loss": -0.12106386572122574, "vf_loss": 353.6280517578125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9465582370758057, "entropy": 4.233028888702393, "cur_lr": 4.999999873689376e-05, "total_loss": 353.522216796875}, "load_time_ms": 0.646, "num_steps_sampled": 2330400, "grad_time_ms": 674.095, "update_time_ms": 2.337, "sample_time_ms": 28890.691}, "date": "2025-08-31_09-21-28", "hostname": "cda-server-4", "time_this_iter_s": 26.60664176940918, "episodes_total": 11652, "timestamp": 1756624888, "node_ip": "10.157.146.4", "done": false, "time_total_s": 61829.77638411522, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1943, "episode_reward_mean": -608.3192928800105, "training_iteration": 1943, "timesteps_total": 2331600, "policy_reward_mean": {}, "episode_reward_min": -674.7872613598831, "timesteps_since_restore": 2331600, "num_metric_batches_dropped": 0, "time_since_restore": 61855.131729364395, "episode_reward_max": -473.61961816904994, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2331600, "default": {"kl": 0.010765918530523777, "policy_loss": -0.1264970451593399, "vf_loss": 289.6826477050781, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9562215805053711, "entropy": 4.399609565734863, "cur_lr": 4.999999873689376e-05, "total_loss": 289.5725402832031}, "load_time_ms": 0.618, "num_steps_sampled": 2331600, "grad_time_ms": 670.835, "update_time_ms": 2.419, "sample_time_ms": 27897.34}, "date": "2025-08-31_09-21-53", "hostname": "cda-server-4", "time_this_iter_s": 25.355345249176025, "episodes_total": 11658, "timestamp": 1756624913, "node_ip": "10.157.146.4", "done": false, "time_total_s": 61855.131729364395, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1944, "episode_reward_mean": -609.1856324684652, "training_iteration": 1944, "timesteps_total": 2332800, "policy_reward_mean": {}, "episode_reward_min": -674.7872613598831, "timesteps_since_restore": 2332800, "num_metric_batches_dropped": 0, "time_since_restore": 61882.560119628906, "episode_reward_max": -473.61961816904994, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2332800, "default": {"kl": 0.011290919035673141, "policy_loss": -0.14991723001003265, "vf_loss": 1114.13134765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9235615134239197, "entropy": 4.733747959136963, "cur_lr": 4.999999873689376e-05, "total_loss": 1113.9986572265625}, "load_time_ms": 0.611, "num_steps_sampled": 2332800, "grad_time_ms": 675.776, "update_time_ms": 2.434, "sample_time_ms": 27166.365}, "date": "2025-08-31_09-22-20", "hostname": "cda-server-4", "time_this_iter_s": 27.42839026451111, "episodes_total": 11664, "timestamp": 1756624940, "node_ip": "10.157.146.4", "done": false, "time_total_s": 61882.560119628906, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1945, "episode_reward_mean": -608.4258429608268, "training_iteration": 1945, "timesteps_total": 2334000, "policy_reward_mean": {}, "episode_reward_min": -674.7872613598831, "timesteps_since_restore": 2334000, "num_metric_batches_dropped": 0, "time_since_restore": 61910.18233394623, "episode_reward_max": -473.61961816904994, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2334000, "default": {"kl": 0.010613396763801575, "policy_loss": -0.14665307104587555, "vf_loss": 250.9366912841797, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9758484959602356, "entropy": 4.302913188934326, "cur_lr": 4.999999873689376e-05, "total_loss": 250.80615234375}, "load_time_ms": 0.649, "num_steps_sampled": 2334000, "grad_time_ms": 671.849, "update_time_ms": 2.435, "sample_time_ms": 26398.125}, "date": "2025-08-31_09-22-48", "hostname": "cda-server-4", "time_this_iter_s": 27.622214317321777, "episodes_total": 11670, "timestamp": 1756624968, "node_ip": "10.157.146.4", "done": false, "time_total_s": 61910.18233394623, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1946, "episode_reward_mean": -609.6548309678285, "training_iteration": 1946, "timesteps_total": 2335200, "policy_reward_mean": {}, "episode_reward_min": -674.7872613598831, "timesteps_since_restore": 2335200, "num_metric_batches_dropped": 0, "time_since_restore": 61936.779711961746, "episode_reward_max": -473.61961816904994, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2335200, "default": {"kl": 0.01007895078510046, "policy_loss": -0.13163559138774872, "vf_loss": 340.3216247558594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.947627067565918, "entropy": 4.386995315551758, "cur_lr": 4.999999873689376e-05, "total_loss": 340.20526123046875}, "load_time_ms": 0.646, "num_steps_sampled": 2335200, "grad_time_ms": 671.779, "update_time_ms": 2.404, "sample_time_ms": 25510.143}, "date": "2025-08-31_09-23-15", "hostname": "cda-server-4", "time_this_iter_s": 26.59737801551819, "episodes_total": 11676, "timestamp": 1756624995, "node_ip": "10.157.146.4", "done": false, "time_total_s": 61936.779711961746, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1947, "episode_reward_mean": -607.5461413044937, "training_iteration": 1947, "timesteps_total": 2336400, "policy_reward_mean": {}, "episode_reward_min": -674.6404785098127, "timesteps_since_restore": 2336400, "num_metric_batches_dropped": 0, "time_since_restore": 61963.57807826996, "episode_reward_max": -449.7606772415611, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2336400, "default": {"kl": 0.012860528193414211, "policy_loss": -0.16519659757614136, "vf_loss": 454.0220947265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.955231785774231, "entropy": 4.546380996704102, "cur_lr": 4.999999873689376e-05, "total_loss": 453.87640380859375}, "load_time_ms": 0.644, "num_steps_sampled": 2336400, "grad_time_ms": 673.377, "update_time_ms": 2.31, "sample_time_ms": 25145.65}, "date": "2025-08-31_09-23-41", "hostname": "cda-server-4", "time_this_iter_s": 26.79836630821228, "episodes_total": 11682, "timestamp": 1756625021, "node_ip": "10.157.146.4", "done": false, "time_total_s": 61963.57807826996, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1948, "episode_reward_mean": -607.0360146495245, "training_iteration": 1948, "timesteps_total": 2337600, "policy_reward_mean": {}, "episode_reward_min": -674.6404785098127, "timesteps_since_restore": 2337600, "num_metric_batches_dropped": 0, "time_since_restore": 61989.97205662727, "episode_reward_max": -449.7606772415611, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2337600, "default": {"kl": 0.010171059519052505, "policy_loss": -0.13965900242328644, "vf_loss": 487.16986083984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9586901068687439, "entropy": 4.631505012512207, "cur_lr": 4.999999873689376e-05, "total_loss": 487.0456237792969}, "load_time_ms": 0.676, "num_steps_sampled": 2337600, "grad_time_ms": 679.864, "update_time_ms": 2.228, "sample_time_ms": 25276.71}, "date": "2025-08-31_09-24-08", "hostname": "cda-server-4", "time_this_iter_s": 26.393978357315063, "episodes_total": 11688, "timestamp": 1756625048, "node_ip": "10.157.146.4", "done": false, "time_total_s": 61989.97205662727, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1949, "episode_reward_mean": -608.0428254796066, "training_iteration": 1949, "timesteps_total": 2338800, "policy_reward_mean": {}, "episode_reward_min": -669.3661870723536, "timesteps_since_restore": 2338800, "num_metric_batches_dropped": 0, "time_since_restore": 62016.42778134346, "episode_reward_max": -449.7606772415611, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2338800, "default": {"kl": 0.008036209270358086, "policy_loss": -0.1386590301990509, "vf_loss": 272.3854675292969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9709385633468628, "entropy": 4.405193328857422, "cur_lr": 4.999999873689376e-05, "total_loss": 272.2590026855469}, "load_time_ms": 0.669, "num_steps_sampled": 2338800, "grad_time_ms": 673.279, "update_time_ms": 2.224, "sample_time_ms": 25566.599}, "date": "2025-08-31_09-24-34", "hostname": "cda-server-4", "time_this_iter_s": 26.455724716186523, "episodes_total": 11694, "timestamp": 1756625074, "node_ip": "10.157.146.4", "done": false, "time_total_s": 62016.42778134346, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1950, "episode_reward_mean": -608.49653776977, "training_iteration": 1950, "timesteps_total": 2340000, "policy_reward_mean": {}, "episode_reward_min": -669.3661870723536, "timesteps_since_restore": 2340000, "num_metric_batches_dropped": 0, "time_since_restore": 62043.014607429504, "episode_reward_max": -449.7606772415611, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2340000, "default": {"kl": 0.010118498466908932, "policy_loss": -0.13253596425056458, "vf_loss": 321.5871887207031, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.97154700756073, "entropy": 4.314844131469727, "cur_lr": 4.999999873689376e-05, "total_loss": 321.4700012207031}, "load_time_ms": 0.667, "num_steps_sampled": 2340000, "grad_time_ms": 669.384, "update_time_ms": 2.214, "sample_time_ms": 25857.123}, "date": "2025-08-31_09-25-01", "hostname": "cda-server-4", "time_this_iter_s": 26.58682608604431, "episodes_total": 11700, "timestamp": 1756625101, "node_ip": "10.157.146.4", "done": false, "time_total_s": 62043.014607429504, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1951, "episode_reward_mean": -608.1990233418551, "training_iteration": 1951, "timesteps_total": 2341200, "policy_reward_mean": {}, "episode_reward_min": -669.3661870723536, "timesteps_since_restore": 2341200, "num_metric_batches_dropped": 0, "time_since_restore": 62067.775099277496, "episode_reward_max": -449.7606772415611, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2341200, "default": {"kl": 0.00958690419793129, "policy_loss": -0.13164860010147095, "vf_loss": 245.96087646484375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9685742259025574, "entropy": 4.510868072509766, "cur_lr": 4.999999873689376e-05, "total_loss": 245.84381103515625}, "load_time_ms": 0.661, "num_steps_sampled": 2341200, "grad_time_ms": 656.571, "update_time_ms": 2.318, "sample_time_ms": 25797.091}, "date": "2025-08-31_09-25-26", "hostname": "cda-server-4", "time_this_iter_s": 24.760491847991943, "episodes_total": 11706, "timestamp": 1756625126, "node_ip": "10.157.146.4", "done": false, "time_total_s": 62067.775099277496, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1952, "episode_reward_mean": -607.3804093230228, "training_iteration": 1952, "timesteps_total": 2342400, "policy_reward_mean": {}, "episode_reward_min": -669.3661870723536, "timesteps_since_restore": 2342400, "num_metric_batches_dropped": 0, "time_since_restore": 62094.69020628929, "episode_reward_max": -449.7606772415611, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2342400, "default": {"kl": 0.010514120571315289, "policy_loss": -0.14393757283687592, "vf_loss": 516.457763671875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9467330574989319, "entropy": 4.458310604095459, "cur_lr": 4.999999873689376e-05, "total_loss": 516.329833984375}, "load_time_ms": 0.654, "num_steps_sampled": 2342400, "grad_time_ms": 661.785, "update_time_ms": 2.236, "sample_time_ms": 25822.837}, "date": "2025-08-31_09-25-53", "hostname": "cda-server-4", "time_this_iter_s": 26.915107011795044, "episodes_total": 11712, "timestamp": 1756625153, "node_ip": "10.157.146.4", "done": false, "time_total_s": 62094.69020628929, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1953, "episode_reward_mean": -606.2978143518195, "training_iteration": 1953, "timesteps_total": 2343600, "policy_reward_mean": {}, "episode_reward_min": -669.3661870723536, "timesteps_since_restore": 2343600, "num_metric_batches_dropped": 0, "time_since_restore": 62122.572885751724, "episode_reward_max": -449.7606772415611, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2343600, "default": {"kl": 0.011612074449658394, "policy_loss": -0.1496652215719223, "vf_loss": 96.66001892089844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9864416122436523, "entropy": 4.46790885925293, "cur_lr": 4.999999873689376e-05, "total_loss": 96.52798461914062}, "load_time_ms": 0.653, "num_steps_sampled": 2343600, "grad_time_ms": 666.821, "update_time_ms": 2.125, "sample_time_ms": 26070.689}, "date": "2025-08-31_09-26-21", "hostname": "cda-server-4", "time_this_iter_s": 27.88267946243286, "episodes_total": 11718, "timestamp": 1756625181, "node_ip": "10.157.146.4", "done": false, "time_total_s": 62122.572885751724, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1954, "episode_reward_mean": -606.5669051827342, "training_iteration": 1954, "timesteps_total": 2344800, "policy_reward_mean": {}, "episode_reward_min": -669.3661870723536, "timesteps_since_restore": 2344800, "num_metric_batches_dropped": 0, "time_since_restore": 62149.60029959679, "episode_reward_max": -449.7606772415611, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2344800, "default": {"kl": 0.010950639843940735, "policy_loss": -0.13027456402778625, "vf_loss": 160.0469207763672, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9806078672409058, "entropy": 4.405973434448242, "cur_lr": 4.999999873689376e-05, "total_loss": 159.93328857421875}, "load_time_ms": 0.655, "num_steps_sampled": 2344800, "grad_time_ms": 667.074, "update_time_ms": 2.091, "sample_time_ms": 26030.363}, "date": "2025-08-31_09-26-48", "hostname": "cda-server-4", "time_this_iter_s": 27.027413845062256, "episodes_total": 11724, "timestamp": 1756625208, "node_ip": "10.157.146.4", "done": false, "time_total_s": 62149.60029959679, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1955, "episode_reward_mean": -607.2137995449622, "training_iteration": 1955, "timesteps_total": 2346000, "policy_reward_mean": {}, "episode_reward_min": -669.3661870723536, "timesteps_since_restore": 2346000, "num_metric_batches_dropped": 0, "time_since_restore": 62178.7813539505, "episode_reward_max": -449.7606772415611, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2346000, "default": {"kl": 0.012300030328333378, "policy_loss": -0.15321940183639526, "vf_loss": 190.32147216796875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.982670783996582, "entropy": 4.4788818359375, "cur_lr": 4.999999873689376e-05, "total_loss": 190.1869354248047}, "load_time_ms": 0.66, "num_steps_sampled": 2346000, "grad_time_ms": 675.999, "update_time_ms": 2.137, "sample_time_ms": 26177.242}, "date": "2025-08-31_09-27-17", "hostname": "cda-server-4", "time_this_iter_s": 29.18105435371399, "episodes_total": 11730, "timestamp": 1756625237, "node_ip": "10.157.146.4", "done": false, "time_total_s": 62178.7813539505, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1956, "episode_reward_mean": -607.7563182548389, "training_iteration": 1956, "timesteps_total": 2347200, "policy_reward_mean": {}, "episode_reward_min": -669.3661870723536, "timesteps_since_restore": 2347200, "num_metric_batches_dropped": 0, "time_since_restore": 62203.94767355919, "episode_reward_max": -449.7606772415611, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2347200, "default": {"kl": 0.013116013258695602, "policy_loss": -0.1491580754518509, "vf_loss": 79.18472290039062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9918047785758972, "entropy": 4.428892135620117, "cur_lr": 4.999999873689376e-05, "total_loss": 79.05549621582031}, "load_time_ms": 0.703, "num_steps_sampled": 2347200, "grad_time_ms": 683.725, "update_time_ms": 2.244, "sample_time_ms": 26026.089}, "date": "2025-08-31_09-27-42", "hostname": "cda-server-4", "time_this_iter_s": 25.166319608688354, "episodes_total": 11736, "timestamp": 1756625262, "node_ip": "10.157.146.4", "done": false, "time_total_s": 62203.94767355919, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1957, "episode_reward_mean": -608.679187254394, "training_iteration": 1957, "timesteps_total": 2348400, "policy_reward_mean": {}, "episode_reward_min": -669.3661870723536, "timesteps_since_restore": 2348400, "num_metric_batches_dropped": 0, "time_since_restore": 62230.87424135208, "episode_reward_max": -449.7606772415611, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2348400, "default": {"kl": 0.011811223812401295, "policy_loss": -0.1392395794391632, "vf_loss": 253.29788208007812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.971028208732605, "entropy": 4.217649459838867, "cur_lr": 4.999999873689376e-05, "total_loss": 253.17654418945312}, "load_time_ms": 0.713, "num_steps_sampled": 2348400, "grad_time_ms": 690.711, "update_time_ms": 2.322, "sample_time_ms": 26031.74}, "date": "2025-08-31_09-28-09", "hostname": "cda-server-4", "time_this_iter_s": 26.926567792892456, "episodes_total": 11742, "timestamp": 1756625289, "node_ip": "10.157.146.4", "done": false, "time_total_s": 62230.87424135208, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1958, "episode_reward_mean": -609.6161105656337, "training_iteration": 1958, "timesteps_total": 2349600, "policy_reward_mean": {}, "episode_reward_min": -669.3661870723536, "timesteps_since_restore": 2349600, "num_metric_batches_dropped": 0, "time_since_restore": 62257.80857157707, "episode_reward_max": -449.7606772415611, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2349600, "default": {"kl": 0.009297233074903488, "policy_loss": -0.12757669389247894, "vf_loss": 154.54234313964844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9834109544754028, "entropy": 4.264680862426758, "cur_lr": 4.999999873689376e-05, "total_loss": 154.42889404296875}, "load_time_ms": 0.718, "num_steps_sampled": 2349600, "grad_time_ms": 700.811, "update_time_ms": 2.35, "sample_time_ms": 26075.645}, "date": "2025-08-31_09-28-36", "hostname": "cda-server-4", "time_this_iter_s": 26.934330224990845, "episodes_total": 11748, "timestamp": 1756625316, "node_ip": "10.157.146.4", "done": false, "time_total_s": 62257.80857157707, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1959, "episode_reward_mean": -610.097080713144, "training_iteration": 1959, "timesteps_total": 2350800, "policy_reward_mean": {}, "episode_reward_min": -669.3661870723536, "timesteps_since_restore": 2350800, "num_metric_batches_dropped": 0, "time_since_restore": 62283.614788770676, "episode_reward_max": -449.7606772415611, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2350800, "default": {"kl": 0.010139401070773602, "policy_loss": -0.13994307816028595, "vf_loss": 327.65399169921875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9818577170372009, "entropy": 4.395918846130371, "cur_lr": 4.999999873689376e-05, "total_loss": 327.5294494628906}, "load_time_ms": 0.724, "num_steps_sampled": 2350800, "grad_time_ms": 715.068, "update_time_ms": 2.357, "sample_time_ms": 25996.419}, "date": "2025-08-31_09-29-02", "hostname": "cda-server-4", "time_this_iter_s": 25.806217193603516, "episodes_total": 11754, "timestamp": 1756625342, "node_ip": "10.157.146.4", "done": false, "time_total_s": 62283.614788770676, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1960, "episode_reward_mean": -608.8308541767855, "training_iteration": 1960, "timesteps_total": 2352000, "policy_reward_mean": {}, "episode_reward_min": -669.179018348564, "timesteps_since_restore": 2352000, "num_metric_batches_dropped": 0, "time_since_restore": 62312.06343984604, "episode_reward_max": -449.7606772415611, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2352000, "default": {"kl": 0.00936153158545494, "policy_loss": -0.1274164766073227, "vf_loss": 97.02465057373047, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9885544180870056, "entropy": 4.354447364807129, "cur_lr": 4.999999873689376e-05, "total_loss": 96.91144561767578}, "load_time_ms": 0.727, "num_steps_sampled": 2352000, "grad_time_ms": 721.985, "update_time_ms": 2.38, "sample_time_ms": 26175.607}, "date": "2025-08-31_09-29-30", "hostname": "cda-server-4", "time_this_iter_s": 28.44865107536316, "episodes_total": 11760, "timestamp": 1756625370, "node_ip": "10.157.146.4", "done": false, "time_total_s": 62312.06343984604, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1961, "episode_reward_mean": -608.5896238270966, "training_iteration": 1961, "timesteps_total": 2353200, "policy_reward_mean": {}, "episode_reward_min": -669.179018348564, "timesteps_since_restore": 2353200, "num_metric_batches_dropped": 0, "time_since_restore": 62343.329105854034, "episode_reward_max": -449.7606772415611, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2353200, "default": {"kl": 0.010886425152420998, "policy_loss": -0.1508202850818634, "vf_loss": 630.5194091796875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9199573993682861, "entropy": 4.41579008102417, "cur_lr": 4.999999873689376e-05, "total_loss": 630.3851318359375}, "load_time_ms": 0.762, "num_steps_sampled": 2353200, "grad_time_ms": 737.97, "update_time_ms": 2.494, "sample_time_ms": 26809.997}, "date": "2025-08-31_09-30-02", "hostname": "cda-server-4", "time_this_iter_s": 31.265666007995605, "episodes_total": 11766, "timestamp": 1756625402, "node_ip": "10.157.146.4", "done": false, "time_total_s": 62343.329105854034, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1962, "episode_reward_mean": -608.3730857940807, "training_iteration": 1962, "timesteps_total": 2354400, "policy_reward_mean": {}, "episode_reward_min": -669.179018348564, "timesteps_since_restore": 2354400, "num_metric_batches_dropped": 0, "time_since_restore": 62369.65930223465, "episode_reward_max": -449.7606772415611, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2354400, "default": {"kl": 0.008958335965871811, "policy_loss": -0.12169548869132996, "vf_loss": 155.10035705566406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9788544774055481, "entropy": 4.1750922203063965, "cur_lr": 4.999999873689376e-05, "total_loss": 154.99227905273438}, "load_time_ms": 0.737, "num_steps_sampled": 2354400, "grad_time_ms": 742.402, "update_time_ms": 2.556, "sample_time_ms": 26747.06}, "date": "2025-08-31_09-30-28", "hostname": "cda-server-4", "time_this_iter_s": 26.330196380615234, "episodes_total": 11772, "timestamp": 1756625428, "node_ip": "10.157.146.4", "done": false, "time_total_s": 62369.65930223465, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1963, "episode_reward_mean": -610.3994037834868, "training_iteration": 1963, "timesteps_total": 2355600, "policy_reward_mean": {}, "episode_reward_min": -669.179018348564, "timesteps_since_restore": 2355600, "num_metric_batches_dropped": 0, "time_since_restore": 62397.89811491966, "episode_reward_max": -468.9678835970735, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2355600, "default": {"kl": 0.009769846685230732, "policy_loss": -0.13216140866279602, "vf_loss": 459.5452880859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9617154002189636, "entropy": 4.408590316772461, "cur_lr": 4.999999873689376e-05, "total_loss": 459.4280090332031}, "load_time_ms": 0.736, "num_steps_sampled": 2355600, "grad_time_ms": 744.636, "update_time_ms": 2.602, "sample_time_ms": 26780.437}, "date": "2025-08-31_09-30-56", "hostname": "cda-server-4", "time_this_iter_s": 28.238812685012817, "episodes_total": 11778, "timestamp": 1756625456, "node_ip": "10.157.146.4", "done": false, "time_total_s": 62397.89811491966, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1964, "episode_reward_mean": -609.3232185067841, "training_iteration": 1964, "timesteps_total": 2356800, "policy_reward_mean": {}, "episode_reward_min": -669.179018348564, "timesteps_since_restore": 2356800, "num_metric_batches_dropped": 0, "time_since_restore": 62423.455825805664, "episode_reward_max": -468.9678835970735, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2356800, "default": {"kl": 0.008276228792965412, "policy_loss": -0.10724152624607086, "vf_loss": 114.50814819335938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9829687476158142, "entropy": 4.252288341522217, "cur_lr": 4.999999873689376e-05, "total_loss": 114.41346740722656}, "load_time_ms": 0.744, "num_steps_sampled": 2356800, "grad_time_ms": 746.165, "update_time_ms": 2.684, "sample_time_ms": 26631.789}, "date": "2025-08-31_09-31-22", "hostname": "cda-server-4", "time_this_iter_s": 25.557710886001587, "episodes_total": 11784, "timestamp": 1756625482, "node_ip": "10.157.146.4", "done": false, "time_total_s": 62423.455825805664, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1965, "episode_reward_mean": -609.4050531032557, "training_iteration": 1965, "timesteps_total": 2358000, "policy_reward_mean": {}, "episode_reward_min": -651.6103336604758, "timesteps_since_restore": 2358000, "num_metric_batches_dropped": 0, "time_since_restore": 62450.077894449234, "episode_reward_max": -468.9678835970735, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2358000, "default": {"kl": 0.009624541737139225, "policy_loss": -0.1312766820192337, "vf_loss": 103.41925811767578, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9861056804656982, "entropy": 4.217861652374268, "cur_lr": 4.999999873689376e-05, "total_loss": 103.30259704589844}, "load_time_ms": 0.701, "num_steps_sampled": 2358000, "grad_time_ms": 747.746, "update_time_ms": 2.618, "sample_time_ms": 26374.449}, "date": "2025-08-31_09-31-48", "hostname": "cda-server-4", "time_this_iter_s": 26.622068643569946, "episodes_total": 11790, "timestamp": 1756625508, "node_ip": "10.157.146.4", "done": false, "time_total_s": 62450.077894449234, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1966, "episode_reward_mean": -609.5845827109833, "training_iteration": 1966, "timesteps_total": 2359200, "policy_reward_mean": {}, "episode_reward_min": -651.6103336604758, "timesteps_since_restore": 2359200, "num_metric_batches_dropped": 0, "time_since_restore": 62475.720378398895, "episode_reward_max": -468.9678835970735, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2359200, "default": {"kl": 0.010023762471973896, "policy_loss": -0.12198405712842941, "vf_loss": 180.60565185546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9802013039588928, "entropy": 4.301232814788818, "cur_lr": 4.999999873689376e-05, "total_loss": 180.4989013671875}, "load_time_ms": 0.702, "num_steps_sampled": 2359200, "grad_time_ms": 747.286, "update_time_ms": 2.508, "sample_time_ms": 26422.766}, "date": "2025-08-31_09-32-14", "hostname": "cda-server-4", "time_this_iter_s": 25.642483949661255, "episodes_total": 11796, "timestamp": 1756625534, "node_ip": "10.157.146.4", "done": false, "time_total_s": 62475.720378398895, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1967, "episode_reward_mean": -609.2937929049549, "training_iteration": 1967, "timesteps_total": 2360400, "policy_reward_mean": {}, "episode_reward_min": -651.6103336604758, "timesteps_since_restore": 2360400, "num_metric_batches_dropped": 0, "time_since_restore": 62501.86730790138, "episode_reward_max": -468.9678835970735, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2360400, "default": {"kl": 0.01001692097634077, "policy_loss": -0.14396774768829346, "vf_loss": 173.0007781982422, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9815436601638794, "entropy": 4.442144393920898, "cur_lr": 4.999999873689376e-05, "total_loss": 172.8720245361328}, "load_time_ms": 0.69, "num_steps_sampled": 2360400, "grad_time_ms": 745.9, "update_time_ms": 2.559, "sample_time_ms": 26346.247}, "date": "2025-08-31_09-32-40", "hostname": "cda-server-4", "time_this_iter_s": 26.146929502487183, "episodes_total": 11802, "timestamp": 1756625560, "node_ip": "10.157.146.4", "done": false, "time_total_s": 62501.86730790138, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1968, "episode_reward_mean": -609.3467349328713, "training_iteration": 1968, "timesteps_total": 2361600, "policy_reward_mean": {}, "episode_reward_min": -651.6103336604758, "timesteps_since_restore": 2361600, "num_metric_batches_dropped": 0, "time_since_restore": 62526.49716615677, "episode_reward_max": -468.9678835970735, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2361600, "default": {"kl": 0.009211018681526184, "policy_loss": -0.11765976995229721, "vf_loss": 338.1195373535156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9571203589439392, "entropy": 4.210928440093994, "cur_lr": 4.999999873689376e-05, "total_loss": 338.015869140625}, "load_time_ms": 0.689, "num_steps_sampled": 2361600, "grad_time_ms": 743.878, "update_time_ms": 2.58, "sample_time_ms": 26117.831}, "date": "2025-08-31_09-33-05", "hostname": "cda-server-4", "time_this_iter_s": 24.629858255386353, "episodes_total": 11808, "timestamp": 1756625585, "node_ip": "10.157.146.4", "done": false, "time_total_s": 62526.49716615677, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1969, "episode_reward_mean": -611.8005552320539, "training_iteration": 1969, "timesteps_total": 2362800, "policy_reward_mean": {}, "episode_reward_min": -763.1202552896649, "timesteps_since_restore": 2362800, "num_metric_batches_dropped": 0, "time_since_restore": 62550.353598594666, "episode_reward_max": -468.9678835970735, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2362800, "default": {"kl": 0.011442108079791069, "policy_loss": -0.13979749381542206, "vf_loss": 257.81988525390625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.972759485244751, "entropy": 4.612182140350342, "cur_lr": 4.999999873689376e-05, "total_loss": 257.69744873046875}, "load_time_ms": 0.723, "num_steps_sampled": 2362800, "grad_time_ms": 743.829, "update_time_ms": 2.578, "sample_time_ms": 25922.809}, "date": "2025-08-31_09-33-29", "hostname": "cda-server-4", "time_this_iter_s": 23.85643243789673, "episodes_total": 11814, "timestamp": 1756625609, "node_ip": "10.157.146.4", "done": false, "time_total_s": 62550.353598594666, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1970, "episode_reward_mean": -611.7770925225552, "training_iteration": 1970, "timesteps_total": 2364000, "policy_reward_mean": {}, "episode_reward_min": -763.1202552896649, "timesteps_since_restore": 2364000, "num_metric_batches_dropped": 0, "time_since_restore": 62572.88111400604, "episode_reward_max": -468.9678835970735, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2364000, "default": {"kl": 0.009676755405962467, "policy_loss": -0.13268232345581055, "vf_loss": 83.57206726074219, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.992461085319519, "entropy": 4.33053731918335, "cur_lr": 4.999999873689376e-05, "total_loss": 83.45408630371094}, "load_time_ms": 0.726, "num_steps_sampled": 2364000, "grad_time_ms": 736.486, "update_time_ms": 2.492, "sample_time_ms": 25338.035}, "date": "2025-08-31_09-33-51", "hostname": "cda-server-4", "time_this_iter_s": 22.527515411376953, "episodes_total": 11820, "timestamp": 1756625631, "node_ip": "10.157.146.4", "done": false, "time_total_s": 62572.88111400604, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1971, "episode_reward_mean": -611.5966322156706, "training_iteration": 1971, "timesteps_total": 2365200, "policy_reward_mean": {}, "episode_reward_min": -763.1202552896649, "timesteps_since_restore": 2365200, "num_metric_batches_dropped": 0, "time_since_restore": 62598.30209183693, "episode_reward_max": -468.9678835970735, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2365200, "default": {"kl": 0.01243334636092186, "policy_loss": -0.16307127475738525, "vf_loss": 230.5232696533203, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9773845672607422, "entropy": 4.384309768676758, "cur_lr": 4.999999873689376e-05, "total_loss": 230.37908935546875}, "load_time_ms": 0.693, "num_steps_sampled": 2365200, "grad_time_ms": 729.287, "update_time_ms": 2.408, "sample_time_ms": 24760.866}, "date": "2025-08-31_09-34-17", "hostname": "cda-server-4", "time_this_iter_s": 25.42097783088684, "episodes_total": 11826, "timestamp": 1756625657, "node_ip": "10.157.146.4", "done": false, "time_total_s": 62598.30209183693, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1972, "episode_reward_mean": -610.70633360601, "training_iteration": 1972, "timesteps_total": 2366400, "policy_reward_mean": {}, "episode_reward_min": -763.1202552896649, "timesteps_since_restore": 2366400, "num_metric_batches_dropped": 0, "time_since_restore": 62623.77124476433, "episode_reward_max": -468.9678835970735, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2366400, "default": {"kl": 0.009154457598924637, "policy_loss": -0.12362715601921082, "vf_loss": 161.09613037109375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9831958413124084, "entropy": 4.261536121368408, "cur_lr": 4.999999873689376e-05, "total_loss": 160.98638916015625}, "load_time_ms": 0.698, "num_steps_sampled": 2366400, "grad_time_ms": 725.831, "update_time_ms": 2.353, "sample_time_ms": 24678.309}, "date": "2025-08-31_09-34-42", "hostname": "cda-server-4", "time_this_iter_s": 25.46915292739868, "episodes_total": 11832, "timestamp": 1756625682, "node_ip": "10.157.146.4", "done": false, "time_total_s": 62623.77124476433, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1973, "episode_reward_mean": -610.6439040756978, "training_iteration": 1973, "timesteps_total": 2367600, "policy_reward_mean": {}, "episode_reward_min": -763.1202552896649, "timesteps_since_restore": 2367600, "num_metric_batches_dropped": 0, "time_since_restore": 62648.10582232475, "episode_reward_max": -468.9678835970735, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2367600, "default": {"kl": 0.00769650936126709, "policy_loss": -0.09440429508686066, "vf_loss": 267.2775573730469, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9689968824386597, "entropy": 4.211319923400879, "cur_lr": 4.999999873689376e-05, "total_loss": 267.19482421875}, "load_time_ms": 0.723, "num_steps_sampled": 2367600, "grad_time_ms": 723.026, "update_time_ms": 2.294, "sample_time_ms": 24290.606}, "date": "2025-08-31_09-35-06", "hostname": "cda-server-4", "time_this_iter_s": 24.334577560424805, "episodes_total": 11838, "timestamp": 1756625706, "node_ip": "10.157.146.4", "done": false, "time_total_s": 62648.10582232475, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1974, "episode_reward_mean": -611.1639773129722, "training_iteration": 1974, "timesteps_total": 2368800, "policy_reward_mean": {}, "episode_reward_min": -763.1202552896649, "timesteps_since_restore": 2368800, "num_metric_batches_dropped": 0, "time_since_restore": 62672.119025707245, "episode_reward_max": -468.9678835970735, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2368800, "default": {"kl": 0.007793743629008532, "policy_loss": -0.12181106209754944, "vf_loss": 408.36328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9419552683830261, "entropy": 4.3456292152404785, "cur_lr": 4.999999873689376e-05, "total_loss": 408.2533264160156}, "load_time_ms": 0.747, "num_steps_sampled": 2368800, "grad_time_ms": 721.49, "update_time_ms": 2.338, "sample_time_ms": 24137.522}, "date": "2025-08-31_09-35-30", "hostname": "cda-server-4", "time_this_iter_s": 24.013203382492065, "episodes_total": 11844, "timestamp": 1756625730, "node_ip": "10.157.146.4", "done": false, "time_total_s": 62672.119025707245, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1975, "episode_reward_mean": -612.5951536631719, "training_iteration": 1975, "timesteps_total": 2370000, "policy_reward_mean": {}, "episode_reward_min": -763.1202552896649, "timesteps_since_restore": 2370000, "num_metric_batches_dropped": 0, "time_since_restore": 62699.46093869209, "episode_reward_max": -562.2593782854456, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2370000, "default": {"kl": 0.008301792666316032, "policy_loss": -0.11803123354911804, "vf_loss": 426.0191650390625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9436960220336914, "entropy": 4.430280685424805, "cur_lr": 4.999999873689376e-05, "total_loss": 425.9137268066406}, "load_time_ms": 0.749, "num_steps_sampled": 2370000, "grad_time_ms": 721.982, "update_time_ms": 2.475, "sample_time_ms": 24208.848}, "date": "2025-08-31_09-35-58", "hostname": "cda-server-4", "time_this_iter_s": 27.341912984848022, "episodes_total": 11850, "timestamp": 1756625758, "node_ip": "10.157.146.4", "done": false, "time_total_s": 62699.46093869209, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1976, "episode_reward_mean": -612.1081381520981, "training_iteration": 1976, "timesteps_total": 2371200, "policy_reward_mean": {}, "episode_reward_min": -763.1202552896649, "timesteps_since_restore": 2371200, "num_metric_batches_dropped": 0, "time_since_restore": 62722.43511199951, "episode_reward_max": -562.2593782854456, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2371200, "default": {"kl": 0.01211002841591835, "policy_loss": -0.1504986733198166, "vf_loss": 76.61634826660156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9929623007774353, "entropy": 4.369454383850098, "cur_lr": 4.999999873689376e-05, "total_loss": 76.48423767089844}, "load_time_ms": 0.739, "num_steps_sampled": 2371200, "grad_time_ms": 722.588, "update_time_ms": 2.514, "sample_time_ms": 23941.429}, "date": "2025-08-31_09-36-21", "hostname": "cda-server-4", "time_this_iter_s": 22.974173307418823, "episodes_total": 11856, "timestamp": 1756625781, "node_ip": "10.157.146.4", "done": false, "time_total_s": 62722.43511199951, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1977, "episode_reward_mean": -612.6626520536606, "training_iteration": 1977, "timesteps_total": 2372400, "policy_reward_mean": {}, "episode_reward_min": -763.1202552896649, "timesteps_since_restore": 2372400, "num_metric_batches_dropped": 0, "time_since_restore": 62750.91536283493, "episode_reward_max": -562.2593782854456, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2372400, "default": {"kl": 0.010798566974699497, "policy_loss": -0.12879537045955658, "vf_loss": 202.67755126953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9782712459564209, "entropy": 4.2583818435668945, "cur_lr": 4.999999873689376e-05, "total_loss": 202.56515502929688}, "load_time_ms": 0.751, "num_steps_sampled": 2372400, "grad_time_ms": 723.058, "update_time_ms": 2.409, "sample_time_ms": 24174.436}, "date": "2025-08-31_09-36-49", "hostname": "cda-server-4", "time_this_iter_s": 28.4802508354187, "episodes_total": 11862, "timestamp": 1756625809, "node_ip": "10.157.146.4", "done": false, "time_total_s": 62750.91536283493, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1978, "episode_reward_mean": -612.1810930680924, "training_iteration": 1978, "timesteps_total": 2373600, "policy_reward_mean": {}, "episode_reward_min": -763.1202552896649, "timesteps_since_restore": 2373600, "num_metric_batches_dropped": 0, "time_since_restore": 62772.86358499527, "episode_reward_max": -562.2593782854456, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2373600, "default": {"kl": 0.01097969338297844, "policy_loss": -0.1379757523536682, "vf_loss": 97.71652221679688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9881789088249207, "entropy": 4.273403167724609, "cur_lr": 4.999999873689376e-05, "total_loss": 97.59522247314453}, "load_time_ms": 0.751, "num_steps_sampled": 2373600, "grad_time_ms": 724.353, "update_time_ms": 2.354, "sample_time_ms": 23905.027}, "date": "2025-08-31_09-37-11", "hostname": "cda-server-4", "time_this_iter_s": 21.948222160339355, "episodes_total": 11868, "timestamp": 1756625831, "node_ip": "10.157.146.4", "done": false, "time_total_s": 62772.86358499527, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1979, "episode_reward_mean": -611.5608423072464, "training_iteration": 1979, "timesteps_total": 2374800, "policy_reward_mean": {}, "episode_reward_min": -763.1202552896649, "timesteps_since_restore": 2374800, "num_metric_batches_dropped": 0, "time_since_restore": 62795.76729774475, "episode_reward_max": -562.2593782854456, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2374800, "default": {"kl": 0.011366000398993492, "policy_loss": -0.14739009737968445, "vf_loss": 484.0177001953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9581314921379089, "entropy": 4.089195251464844, "cur_lr": 4.999999873689376e-05, "total_loss": 483.8875732421875}, "load_time_ms": 0.741, "num_steps_sampled": 2374800, "grad_time_ms": 724.338, "update_time_ms": 2.443, "sample_time_ms": 23809.762}, "date": "2025-08-31_09-37-34", "hostname": "cda-server-4", "time_this_iter_s": 22.9037127494812, "episodes_total": 11874, "timestamp": 1756625854, "node_ip": "10.157.146.4", "done": false, "time_total_s": 62795.76729774475, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1980, "episode_reward_mean": -611.3670329477, "training_iteration": 1980, "timesteps_total": 2376000, "policy_reward_mean": {}, "episode_reward_min": -763.1202552896649, "timesteps_since_restore": 2376000, "num_metric_batches_dropped": 0, "time_since_restore": 62822.545453071594, "episode_reward_max": -562.2593782854456, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2376000, "default": {"kl": 0.009911423549056053, "policy_loss": -0.12748433649539948, "vf_loss": 130.64321899414062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.98182213306427, "entropy": 4.209110736846924, "cur_lr": 4.999999873689376e-05, "total_loss": 130.53079223632812}, "load_time_ms": 0.742, "num_steps_sampled": 2376000, "grad_time_ms": 729.861, "update_time_ms": 2.519, "sample_time_ms": 24229.288}, "date": "2025-08-31_09-38-01", "hostname": "cda-server-4", "time_this_iter_s": 26.77815532684326, "episodes_total": 11880, "timestamp": 1756625881, "node_ip": "10.157.146.4", "done": false, "time_total_s": 62822.545453071594, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1981, "episode_reward_mean": -612.1059408931181, "training_iteration": 1981, "timesteps_total": 2377200, "policy_reward_mean": {}, "episode_reward_min": -763.1202552896649, "timesteps_since_restore": 2377200, "num_metric_batches_dropped": 0, "time_since_restore": 62850.1059525013, "episode_reward_max": -562.2593782854456, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2377200, "default": {"kl": 0.010420255362987518, "policy_loss": -0.13142602145671844, "vf_loss": 205.0207061767578, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9785586595535278, "entropy": 4.375784873962402, "cur_lr": 4.999999873689376e-05, "total_loss": 204.9051055908203}, "load_time_ms": 0.744, "num_steps_sampled": 2377200, "grad_time_ms": 736.37, "update_time_ms": 2.559, "sample_time_ms": 24436.62}, "date": "2025-08-31_09-38-29", "hostname": "cda-server-4", "time_this_iter_s": 27.56049942970276, "episodes_total": 11886, "timestamp": 1756625909, "node_ip": "10.157.146.4", "done": false, "time_total_s": 62850.1059525013, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1982, "episode_reward_mean": -613.2253000406305, "training_iteration": 1982, "timesteps_total": 2378400, "policy_reward_mean": {}, "episode_reward_min": -798.9962889973526, "timesteps_since_restore": 2378400, "num_metric_batches_dropped": 0, "time_since_restore": 62873.80010056496, "episode_reward_max": -562.2593782854456, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2378400, "default": {"kl": 0.011897333897650242, "policy_loss": -0.15723654627799988, "vf_loss": 352.850830078125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9709946513175964, "entropy": 4.518773078918457, "cur_lr": 4.999999873689376e-05, "total_loss": 352.7116394042969}, "load_time_ms": 0.746, "num_steps_sampled": 2378400, "grad_time_ms": 740.04, "update_time_ms": 2.674, "sample_time_ms": 24255.284}, "date": "2025-08-31_09-38-52", "hostname": "cda-server-4", "time_this_iter_s": 23.694148063659668, "episodes_total": 11892, "timestamp": 1756625932, "node_ip": "10.157.146.4", "done": false, "time_total_s": 62873.80010056496, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1983, "episode_reward_mean": -613.722178931668, "training_iteration": 1983, "timesteps_total": 2379600, "policy_reward_mean": {}, "episode_reward_min": -798.9962889973526, "timesteps_since_restore": 2379600, "num_metric_batches_dropped": 0, "time_since_restore": 62906.30266857147, "episode_reward_max": -562.2593782854456, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2379600, "default": {"kl": 0.01082590688019991, "policy_loss": -0.13999049365520477, "vf_loss": 206.60662841796875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9723778963088989, "entropy": 4.520992279052734, "cur_lr": 4.999999873689376e-05, "total_loss": 206.48306274414062}, "load_time_ms": 0.726, "num_steps_sampled": 2379600, "grad_time_ms": 742.2, "update_time_ms": 2.722, "sample_time_ms": 25069.9}, "date": "2025-08-31_09-39-25", "hostname": "cda-server-4", "time_this_iter_s": 32.5025680065155, "episodes_total": 11898, "timestamp": 1756625965, "node_ip": "10.157.146.4", "done": false, "time_total_s": 62906.30266857147, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1984, "episode_reward_mean": -613.6410929668111, "training_iteration": 1984, "timesteps_total": 2380800, "policy_reward_mean": {}, "episode_reward_min": -798.9962889973526, "timesteps_since_restore": 2380800, "num_metric_batches_dropped": 0, "time_since_restore": 62938.67426228523, "episode_reward_max": -562.2593782854456, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2380800, "default": {"kl": 0.011257323436439037, "policy_loss": -0.13362379372119904, "vf_loss": 242.20616149902344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.983667254447937, "entropy": 4.350576400756836, "cur_lr": 4.999999873689376e-05, "total_loss": 242.08966064453125}, "load_time_ms": 0.698, "num_steps_sampled": 2380800, "grad_time_ms": 741.642, "update_time_ms": 2.771, "sample_time_ms": 25906.439}, "date": "2025-08-31_09-39-57", "hostname": "cda-server-4", "time_this_iter_s": 32.371593713760376, "episodes_total": 11904, "timestamp": 1756625997, "node_ip": "10.157.146.4", "done": false, "time_total_s": 62938.67426228523, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1985, "episode_reward_mean": -612.7423419375178, "training_iteration": 1985, "timesteps_total": 2382000, "policy_reward_mean": {}, "episode_reward_min": -798.9962889973526, "timesteps_since_restore": 2382000, "num_metric_batches_dropped": 0, "time_since_restore": 62962.332871198654, "episode_reward_max": -562.9411034902855, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2382000, "default": {"kl": 0.010062875226140022, "policy_loss": -0.13682107627391815, "vf_loss": 94.34233856201172, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9932507276535034, "entropy": 4.3661322593688965, "cur_lr": 4.999999873689376e-05, "total_loss": 94.22079467773438}, "load_time_ms": 0.7, "num_steps_sampled": 2382000, "grad_time_ms": 739.706, "update_time_ms": 2.646, "sample_time_ms": 25540.144}, "date": "2025-08-31_09-40-21", "hostname": "cda-server-4", "time_this_iter_s": 23.65860891342163, "episodes_total": 11910, "timestamp": 1756626021, "node_ip": "10.157.146.4", "done": false, "time_total_s": 62962.332871198654, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1986, "episode_reward_mean": -612.6859429936632, "training_iteration": 1986, "timesteps_total": 2383200, "policy_reward_mean": {}, "episode_reward_min": -798.9962889973526, "timesteps_since_restore": 2383200, "num_metric_batches_dropped": 0, "time_since_restore": 62986.49331378937, "episode_reward_max": -562.9411034902855, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2383200, "default": {"kl": 0.012575928121805191, "policy_loss": -0.1586328148841858, "vf_loss": 185.0186767578125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9837911128997803, "entropy": 4.1667561531066895, "cur_lr": 4.999999873689376e-05, "total_loss": 184.879150390625}, "load_time_ms": 0.672, "num_steps_sampled": 2383200, "grad_time_ms": 734.369, "update_time_ms": 2.765, "sample_time_ms": 25663.791}, "date": "2025-08-31_09-40-45", "hostname": "cda-server-4", "time_this_iter_s": 24.1604425907135, "episodes_total": 11916, "timestamp": 1756626045, "node_ip": "10.157.146.4", "done": false, "time_total_s": 62986.49331378937, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1987, "episode_reward_mean": -612.4523247702496, "training_iteration": 1987, "timesteps_total": 2384400, "policy_reward_mean": {}, "episode_reward_min": -798.9962889973526, "timesteps_since_restore": 2384400, "num_metric_batches_dropped": 0, "time_since_restore": 63013.18058013916, "episode_reward_max": -562.9411034902855, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2384400, "default": {"kl": 0.01109696552157402, "policy_loss": -0.14800387620925903, "vf_loss": 188.5929412841797, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9844745993614197, "entropy": 4.177940368652344, "cur_lr": 4.999999873689376e-05, "total_loss": 188.4617919921875}, "load_time_ms": 0.695, "num_steps_sampled": 2384400, "grad_time_ms": 732.464, "update_time_ms": 2.819, "sample_time_ms": 25486.202}, "date": "2025-08-31_09-41-12", "hostname": "cda-server-4", "time_this_iter_s": 26.68726634979248, "episodes_total": 11922, "timestamp": 1756626072, "node_ip": "10.157.146.4", "done": false, "time_total_s": 63013.18058013916, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1988, "episode_reward_mean": -614.7681832051678, "training_iteration": 1988, "timesteps_total": 2385600, "policy_reward_mean": {}, "episode_reward_min": -798.9962889973526, "timesteps_since_restore": 2385600, "num_metric_batches_dropped": 0, "time_since_restore": 63036.33140397072, "episode_reward_max": -562.9411034902855, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2385600, "default": {"kl": 0.011494569480419159, "policy_loss": -0.14564742147922516, "vf_loss": 586.264404296875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9486841559410095, "entropy": 4.736078262329102, "cur_lr": 4.999999873689376e-05, "total_loss": 586.13623046875}, "load_time_ms": 0.688, "num_steps_sampled": 2385600, "grad_time_ms": 725.382, "update_time_ms": 2.879, "sample_time_ms": 25613.533}, "date": "2025-08-31_09-41-35", "hostname": "cda-server-4", "time_this_iter_s": 23.150823831558228, "episodes_total": 11928, "timestamp": 1756626095, "node_ip": "10.157.146.4", "done": false, "time_total_s": 63036.33140397072, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1989, "episode_reward_mean": -615.6967441713298, "training_iteration": 1989, "timesteps_total": 2386800, "policy_reward_mean": {}, "episode_reward_min": -798.9962889973526, "timesteps_since_restore": 2386800, "num_metric_batches_dropped": 0, "time_since_restore": 63063.01505494118, "episode_reward_max": -562.9411034902855, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2386800, "default": {"kl": 0.01116892322897911, "policy_loss": -0.14983227849006653, "vf_loss": 343.9393615722656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9591424465179443, "entropy": 4.365029335021973, "cur_lr": 4.999999873689376e-05, "total_loss": 343.8065185546875}, "load_time_ms": 0.677, "num_steps_sampled": 2386800, "grad_time_ms": 706.191, "update_time_ms": 2.733, "sample_time_ms": 26010.953}, "date": "2025-08-31_09-42-02", "hostname": "cda-server-4", "time_this_iter_s": 26.683650970458984, "episodes_total": 11934, "timestamp": 1756626122, "node_ip": "10.157.146.4", "done": false, "time_total_s": 63063.01505494118, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1990, "episode_reward_mean": -615.8443271852426, "training_iteration": 1990, "timesteps_total": 2388000, "policy_reward_mean": {}, "episode_reward_min": -798.9962889973526, "timesteps_since_restore": 2388000, "num_metric_batches_dropped": 0, "time_since_restore": 63086.44520521164, "episode_reward_max": -562.9411034902855, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2388000, "default": {"kl": 0.01087038405239582, "policy_loss": -0.16312074661254883, "vf_loss": 369.4166259765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.974829375743866, "entropy": 4.450165748596191, "cur_lr": 4.999999873689376e-05, "total_loss": 369.2700500488281}, "load_time_ms": 0.706, "num_steps_sampled": 2388000, "grad_time_ms": 696.185, "update_time_ms": 2.666, "sample_time_ms": 25686.179}, "date": "2025-08-31_09-42-25", "hostname": "cda-server-4", "time_this_iter_s": 23.430150270462036, "episodes_total": 11940, "timestamp": 1756626145, "node_ip": "10.157.146.4", "done": false, "time_total_s": 63086.44520521164, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1991, "episode_reward_mean": -616.044756672552, "training_iteration": 1991, "timesteps_total": 2389200, "policy_reward_mean": {}, "episode_reward_min": -798.9962889973526, "timesteps_since_restore": 2389200, "num_metric_batches_dropped": 0, "time_since_restore": 63107.71417546272, "episode_reward_max": -562.9411034902855, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2389200, "default": {"kl": 0.011354614049196243, "policy_loss": -0.146931454539299, "vf_loss": 66.9209213256836, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9895497560501099, "entropy": 4.340816974639893, "cur_lr": 4.999999873689376e-05, "total_loss": 66.7912368774414}, "load_time_ms": 0.736, "num_steps_sampled": 2389200, "grad_time_ms": 695.6, "update_time_ms": 2.548, "sample_time_ms": 25057.805}, "date": "2025-08-31_09-42-46", "hostname": "cda-server-4", "time_this_iter_s": 21.268970251083374, "episodes_total": 11946, "timestamp": 1756626166, "node_ip": "10.157.146.4", "done": false, "time_total_s": 63107.71417546272, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1992, "episode_reward_mean": -615.186221982662, "training_iteration": 1992, "timesteps_total": 2390400, "policy_reward_mean": {}, "episode_reward_min": -798.9962889973526, "timesteps_since_restore": 2390400, "num_metric_batches_dropped": 0, "time_since_restore": 63130.560227394104, "episode_reward_max": -562.9411034902855, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2390400, "default": {"kl": 0.009964141063392162, "policy_loss": -0.14613936841487885, "vf_loss": 189.96250915527344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.982060432434082, "entropy": 4.24357795715332, "cur_lr": 4.999999873689376e-05, "total_loss": 189.8314971923828}, "load_time_ms": 0.744, "num_steps_sampled": 2390400, "grad_time_ms": 688.598, "update_time_ms": 2.493, "sample_time_ms": 24980.062}, "date": "2025-08-31_09-43-09", "hostname": "cda-server-4", "time_this_iter_s": 22.846051931381226, "episodes_total": 11952, "timestamp": 1756626189, "node_ip": "10.157.146.4", "done": false, "time_total_s": 63130.560227394104, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1993, "episode_reward_mean": -615.5720469356725, "training_iteration": 1993, "timesteps_total": 2391600, "policy_reward_mean": {}, "episode_reward_min": -798.9962889973526, "timesteps_since_restore": 2391600, "num_metric_batches_dropped": 0, "time_since_restore": 63152.27888059616, "episode_reward_max": -562.9411034902855, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2391600, "default": {"kl": 0.0090885479003191, "policy_loss": -0.1317782998085022, "vf_loss": 65.52576446533203, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9896361231803894, "entropy": 4.322342872619629, "cur_lr": 4.999999873689376e-05, "total_loss": 65.40778350830078}, "load_time_ms": 0.743, "num_steps_sampled": 2391600, "grad_time_ms": 673.638, "update_time_ms": 2.409, "sample_time_ms": 23916.667}, "date": "2025-08-31_09-43-31", "hostname": "cda-server-4", "time_this_iter_s": 21.718653202056885, "episodes_total": 11958, "timestamp": 1756626211, "node_ip": "10.157.146.4", "done": false, "time_total_s": 63152.27888059616, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1994, "episode_reward_mean": -615.5034231541978, "training_iteration": 1994, "timesteps_total": 2392800, "policy_reward_mean": {}, "episode_reward_min": -798.9962889973526, "timesteps_since_restore": 2392800, "num_metric_batches_dropped": 0, "time_since_restore": 63175.77379655838, "episode_reward_max": -562.9411034902855, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2392800, "default": {"kl": 0.010580329224467278, "policy_loss": -0.15676972270011902, "vf_loss": 216.2750244140625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9717854261398315, "entropy": 4.435055732727051, "cur_lr": 4.999999873689376e-05, "total_loss": 216.13433837890625}, "load_time_ms": 0.737, "num_steps_sampled": 2392800, "grad_time_ms": 659.491, "update_time_ms": 2.331, "sample_time_ms": 23043.127}, "date": "2025-08-31_09-43-54", "hostname": "cda-server-4", "time_this_iter_s": 23.49491596221924, "episodes_total": 11964, "timestamp": 1756626234, "node_ip": "10.157.146.4", "done": false, "time_total_s": 63175.77379655838, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1995, "episode_reward_mean": -615.5901351004712, "training_iteration": 1995, "timesteps_total": 2394000, "policy_reward_mean": {}, "episode_reward_min": -798.9962889973526, "timesteps_since_restore": 2394000, "num_metric_batches_dropped": 0, "time_since_restore": 63199.474660634995, "episode_reward_max": -562.9411034902855, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2394000, "default": {"kl": 0.012038921006023884, "policy_loss": -0.1605367213487625, "vf_loss": 53.6840934753418, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9940734505653381, "entropy": 4.159273147583008, "cur_lr": 4.999999873689376e-05, "total_loss": 53.541839599609375}, "load_time_ms": 0.765, "num_steps_sampled": 2394000, "grad_time_ms": 636.379, "update_time_ms": 2.449, "sample_time_ms": 23070.373}, "date": "2025-08-31_09-44-18", "hostname": "cda-server-4", "time_this_iter_s": 23.70086407661438, "episodes_total": 11970, "timestamp": 1756626258, "node_ip": "10.157.146.4", "done": false, "time_total_s": 63199.474660634995, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1996, "episode_reward_mean": -616.4024955080895, "training_iteration": 1996, "timesteps_total": 2395200, "policy_reward_mean": {}, "episode_reward_min": -798.9962889973526, "timesteps_since_restore": 2395200, "num_metric_batches_dropped": 0, "time_since_restore": 63223.80853652954, "episode_reward_max": -569.9369665272582, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2395200, "default": {"kl": 0.009061133489012718, "policy_loss": -0.13670092821121216, "vf_loss": 288.12518310546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9734777808189392, "entropy": 4.345351219177246, "cur_lr": 4.999999873689376e-05, "total_loss": 288.00225830078125}, "load_time_ms": 0.798, "num_steps_sampled": 2395200, "grad_time_ms": 615.888, "update_time_ms": 2.426, "sample_time_ms": 23108.353}, "date": "2025-08-31_09-44-43", "hostname": "cda-server-4", "time_this_iter_s": 24.33387589454651, "episodes_total": 11976, "timestamp": 1756626283, "node_ip": "10.157.146.4", "done": false, "time_total_s": 63223.80853652954, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1997, "episode_reward_mean": -615.7920844216135, "training_iteration": 1997, "timesteps_total": 2396400, "policy_reward_mean": {}, "episode_reward_min": -798.9962889973526, "timesteps_since_restore": 2396400, "num_metric_batches_dropped": 0, "time_since_restore": 63246.67345952988, "episode_reward_max": -569.9369665272582, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2396400, "default": {"kl": 0.008752276189625263, "policy_loss": -0.12996423244476318, "vf_loss": 122.19673919677734, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.986286997795105, "entropy": 4.309576034545898, "cur_lr": 4.999999873689376e-05, "total_loss": 122.080078125}, "load_time_ms": 0.77, "num_steps_sampled": 2396400, "grad_time_ms": 608.798, "update_time_ms": 2.438, "sample_time_ms": 22733.246}, "date": "2025-08-31_09-45-05", "hostname": "cda-server-4", "time_this_iter_s": 22.864923000335693, "episodes_total": 11982, "timestamp": 1756626305, "node_ip": "10.157.146.4", "done": false, "time_total_s": 63246.67345952988, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1998, "episode_reward_mean": -615.9108180505109, "training_iteration": 1998, "timesteps_total": 2397600, "policy_reward_mean": {}, "episode_reward_min": -798.9962889973526, "timesteps_since_restore": 2397600, "num_metric_batches_dropped": 0, "time_since_restore": 63269.43175768852, "episode_reward_max": -569.9369665272582, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2397600, "default": {"kl": 0.010516838170588017, "policy_loss": -0.1427917331457138, "vf_loss": 122.50892639160156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9888169765472412, "entropy": 4.221045017242432, "cur_lr": 4.999999873689376e-05, "total_loss": 122.38211059570312}, "load_time_ms": 0.764, "num_steps_sampled": 2397600, "grad_time_ms": 609.815, "update_time_ms": 2.399, "sample_time_ms": 22692.92}, "date": "2025-08-31_09-45-28", "hostname": "cda-server-4", "time_this_iter_s": 22.75829815864563, "episodes_total": 11988, "timestamp": 1756626328, "node_ip": "10.157.146.4", "done": false, "time_total_s": 63269.43175768852, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 1999, "episode_reward_mean": -614.1645931208323, "training_iteration": 1999, "timesteps_total": 2398800, "policy_reward_mean": {}, "episode_reward_min": -794.8414820347457, "timesteps_since_restore": 2398800, "num_metric_batches_dropped": 0, "time_since_restore": 63300.63290834427, "episode_reward_max": -569.9369665272582, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2398800, "default": {"kl": 0.009133610874414444, "policy_loss": -0.12258175760507584, "vf_loss": 115.11497497558594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9853732585906982, "entropy": 4.18318510055542, "cur_lr": 4.999999873689376e-05, "total_loss": 115.00626373291016}, "load_time_ms": 0.77, "num_steps_sampled": 2398800, "grad_time_ms": 620.01, "update_time_ms": 2.473, "sample_time_ms": 23134.381}, "date": "2025-08-31_09-45-59", "hostname": "cda-server-4", "time_this_iter_s": 31.20115065574646, "episodes_total": 11994, "timestamp": 1756626359, "node_ip": "10.157.146.4", "done": false, "time_total_s": 63300.63290834427, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2000, "episode_reward_mean": -613.2623943743926, "training_iteration": 2000, "timesteps_total": 2400000, "policy_reward_mean": {}, "episode_reward_min": -794.8414820347457, "timesteps_since_restore": 2400000, "num_metric_batches_dropped": 0, "time_since_restore": 63332.72201323509, "episode_reward_max": -569.9369665272582, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2400000, "default": {"kl": 0.00990241952240467, "policy_loss": -0.12082862854003906, "vf_loss": 168.6277618408203, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9767289757728577, "entropy": 4.131144046783447, "cur_lr": 4.999999873689376e-05, "total_loss": 168.52197265625}, "load_time_ms": 0.74, "num_steps_sampled": 2400000, "grad_time_ms": 628.725, "update_time_ms": 2.469, "sample_time_ms": 23991.682}, "date": "2025-08-31_09-46-31", "hostname": "cda-server-4", "time_this_iter_s": 32.089104890823364, "episodes_total": 12000, "timestamp": 1756626391, "node_ip": "10.157.146.4", "done": false, "time_total_s": 63332.72201323509, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2001, "episode_reward_mean": -613.0982687719857, "training_iteration": 2001, "timesteps_total": 2401200, "policy_reward_mean": {}, "episode_reward_min": -794.8414820347457, "timesteps_since_restore": 2401200, "num_metric_batches_dropped": 0, "time_since_restore": 63357.20713233948, "episode_reward_max": -569.9369665272582, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2401200, "default": {"kl": 0.01257584523409605, "policy_loss": -0.14379993081092834, "vf_loss": 179.25930786132812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9798058271408081, "entropy": 4.15907621383667, "cur_lr": 4.999999873689376e-05, "total_loss": 179.1345977783203}, "load_time_ms": 0.716, "num_steps_sampled": 2401200, "grad_time_ms": 628.518, "update_time_ms": 2.445, "sample_time_ms": 24313.528}, "date": "2025-08-31_09-46-56", "hostname": "cda-server-4", "time_this_iter_s": 24.485119104385376, "episodes_total": 12006, "timestamp": 1756626416, "node_ip": "10.157.146.4", "done": false, "time_total_s": 63357.20713233948, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2002, "episode_reward_mean": -613.2867892435598, "training_iteration": 2002, "timesteps_total": 2402400, "policy_reward_mean": {}, "episode_reward_min": -794.8414820347457, "timesteps_since_restore": 2402400, "num_metric_batches_dropped": 0, "time_since_restore": 63380.87122154236, "episode_reward_max": -569.9369665272582, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2402400, "default": {"kl": 0.008096238598227501, "policy_loss": -0.13066032528877258, "vf_loss": 448.0787658691406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9489654898643494, "entropy": 4.332069396972656, "cur_lr": 4.999999873689376e-05, "total_loss": 447.9604187011719}, "load_time_ms": 0.728, "num_steps_sampled": 2402400, "grad_time_ms": 632.783, "update_time_ms": 2.4, "sample_time_ms": 24391.127}, "date": "2025-08-31_09-47-20", "hostname": "cda-server-4", "time_this_iter_s": 23.66408920288086, "episodes_total": 12012, "timestamp": 1756626440, "node_ip": "10.157.146.4", "done": false, "time_total_s": 63380.87122154236, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2003, "episode_reward_mean": -613.8424267871522, "training_iteration": 2003, "timesteps_total": 2403600, "policy_reward_mean": {}, "episode_reward_min": -794.8414820347457, "timesteps_since_restore": 2403600, "num_metric_batches_dropped": 0, "time_since_restore": 63403.737604141235, "episode_reward_max": -569.9369665272582, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2403600, "default": {"kl": 0.011475787498056889, "policy_loss": -0.15307702124118805, "vf_loss": 323.3004150390625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9721477031707764, "entropy": 4.357995510101318, "cur_lr": 4.999999873689376e-05, "total_loss": 323.16473388671875}, "load_time_ms": 0.729, "num_steps_sampled": 2403600, "grad_time_ms": 648.075, "update_time_ms": 2.419, "sample_time_ms": 24490.734}, "date": "2025-08-31_09-47-43", "hostname": "cda-server-4", "time_this_iter_s": 22.866382598876953, "episodes_total": 12018, "timestamp": 1756626463, "node_ip": "10.157.146.4", "done": false, "time_total_s": 63403.737604141235, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2004, "episode_reward_mean": -613.3926660248254, "training_iteration": 2004, "timesteps_total": 2404800, "policy_reward_mean": {}, "episode_reward_min": -794.8414820347457, "timesteps_since_restore": 2404800, "num_metric_batches_dropped": 0, "time_since_restore": 63426.18618941307, "episode_reward_max": -564.8711143459088, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2404800, "default": {"kl": 0.01023674476891756, "policy_loss": -0.1372881531715393, "vf_loss": 104.20802307128906, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9882347583770752, "entropy": 4.032735824584961, "cur_lr": 4.999999873689376e-05, "total_loss": 104.0862808227539}, "load_time_ms": 0.748, "num_steps_sampled": 2404800, "grad_time_ms": 665.246, "update_time_ms": 2.319, "sample_time_ms": 24368.935}, "date": "2025-08-31_09-48-05", "hostname": "cda-server-4", "time_this_iter_s": 22.448585271835327, "episodes_total": 12024, "timestamp": 1756626485, "node_ip": "10.157.146.4", "done": false, "time_total_s": 63426.18618941307, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2005, "episode_reward_mean": -612.2076275373554, "training_iteration": 2005, "timesteps_total": 2406000, "policy_reward_mean": {}, "episode_reward_min": -659.1485429332503, "timesteps_since_restore": 2406000, "num_metric_batches_dropped": 0, "time_since_restore": 63449.833213567734, "episode_reward_max": -564.8711143459088, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2406000, "default": {"kl": 0.009942208416759968, "policy_loss": -0.13260406255722046, "vf_loss": 45.95455551147461, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.996319055557251, "entropy": 4.282872676849365, "cur_lr": 4.999999873689376e-05, "total_loss": 45.83705520629883}, "load_time_ms": 0.749, "num_steps_sampled": 2406000, "grad_time_ms": 688.18, "update_time_ms": 2.343, "sample_time_ms": 24340.635}, "date": "2025-08-31_09-48-29", "hostname": "cda-server-4", "time_this_iter_s": 23.647024154663086, "episodes_total": 12030, "timestamp": 1756626509, "node_ip": "10.157.146.4", "done": false, "time_total_s": 63449.833213567734, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2006, "episode_reward_mean": -612.027767532302, "training_iteration": 2006, "timesteps_total": 2407200, "policy_reward_mean": {}, "episode_reward_min": -658.550352641622, "timesteps_since_restore": 2407200, "num_metric_batches_dropped": 0, "time_since_restore": 63474.55788064003, "episode_reward_max": -564.8711143459088, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2407200, "default": {"kl": 0.009134764783084393, "policy_loss": -0.1290636658668518, "vf_loss": 143.4561004638672, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.982452392578125, "entropy": 4.295406818389893, "cur_lr": 4.999999873689376e-05, "total_loss": 143.34088134765625}, "load_time_ms": 0.715, "num_steps_sampled": 2407200, "grad_time_ms": 713.265, "update_time_ms": 2.214, "sample_time_ms": 24354.868}, "date": "2025-08-31_09-48-53", "hostname": "cda-server-4", "time_this_iter_s": 24.724667072296143, "episodes_total": 12036, "timestamp": 1756626533, "node_ip": "10.157.146.4", "done": false, "time_total_s": 63474.55788064003, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2007, "episode_reward_mean": -612.0331428776138, "training_iteration": 2007, "timesteps_total": 2408400, "policy_reward_mean": {}, "episode_reward_min": -658.550352641622, "timesteps_since_restore": 2408400, "num_metric_batches_dropped": 0, "time_since_restore": 63499.16510486603, "episode_reward_max": -564.8711143459088, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2408400, "default": {"kl": 0.010700431652367115, "policy_loss": -0.1400274634361267, "vf_loss": 432.3855895996094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9613327383995056, "entropy": 4.428884983062744, "cur_lr": 4.999999873689376e-05, "total_loss": 432.2618103027344}, "load_time_ms": 0.712, "num_steps_sampled": 2408400, "grad_time_ms": 722.78, "update_time_ms": 2.176, "sample_time_ms": 24519.587}, "date": "2025-08-31_09-49-18", "hostname": "cda-server-4", "time_this_iter_s": 24.607224225997925, "episodes_total": 12042, "timestamp": 1756626558, "node_ip": "10.157.146.4", "done": false, "time_total_s": 63499.16510486603, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2008, "episode_reward_mean": -612.2197011445687, "training_iteration": 2008, "timesteps_total": 2409600, "policy_reward_mean": {}, "episode_reward_min": -658.550352641622, "timesteps_since_restore": 2409600, "num_metric_batches_dropped": 0, "time_since_restore": 63521.794874191284, "episode_reward_max": -564.8711143459088, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2409600, "default": {"kl": 0.010634006932377815, "policy_loss": -0.1422506868839264, "vf_loss": 137.8475799560547, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.982435941696167, "entropy": 4.357753753662109, "cur_lr": 4.999999873689376e-05, "total_loss": 137.72146606445312}, "load_time_ms": 0.692, "num_steps_sampled": 2409600, "grad_time_ms": 728.844, "update_time_ms": 2.204, "sample_time_ms": 24500.692}, "date": "2025-08-31_09-49-41", "hostname": "cda-server-4", "time_this_iter_s": 22.629769325256348, "episodes_total": 12048, "timestamp": 1756626581, "node_ip": "10.157.146.4", "done": false, "time_total_s": 63521.794874191284, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2009, "episode_reward_mean": -613.0841371118476, "training_iteration": 2009, "timesteps_total": 2410800, "policy_reward_mean": {}, "episode_reward_min": -667.8332642536071, "timesteps_since_restore": 2410800, "num_metric_batches_dropped": 0, "time_since_restore": 63546.00821828842, "episode_reward_max": -564.8711143459088, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2410800, "default": {"kl": 0.011126981116831303, "policy_loss": -0.1586746722459793, "vf_loss": 182.72097778320312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9823014736175537, "entropy": 4.488649845123291, "cur_lr": 4.999999873689376e-05, "total_loss": 182.57920837402344}, "load_time_ms": 0.672, "num_steps_sampled": 2410800, "grad_time_ms": 736.991, "update_time_ms": 2.242, "sample_time_ms": 23793.705}, "date": "2025-08-31_09-50-05", "hostname": "cda-server-4", "time_this_iter_s": 24.21334409713745, "episodes_total": 12054, "timestamp": 1756626605, "node_ip": "10.157.146.4", "done": false, "time_total_s": 63546.00821828842, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2010, "episode_reward_mean": -614.460881360955, "training_iteration": 2010, "timesteps_total": 2412000, "policy_reward_mean": {}, "episode_reward_min": -667.8332642536071, "timesteps_since_restore": 2412000, "num_metric_batches_dropped": 0, "time_since_restore": 63567.6793422699, "episode_reward_max": -564.8711143459088, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2412000, "default": {"kl": 0.010844496078789234, "policy_loss": -0.11116104573011398, "vf_loss": 403.7214660644531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9847797751426697, "entropy": 4.159175395965576, "cur_lr": 4.999999873689376e-05, "total_loss": 403.62677001953125}, "load_time_ms": 0.673, "num_steps_sampled": 2412000, "grad_time_ms": 735.309, "update_time_ms": 2.293, "sample_time_ms": 22753.546}, "date": "2025-08-31_09-50-27", "hostname": "cda-server-4", "time_this_iter_s": 21.67112398147583, "episodes_total": 12060, "timestamp": 1756626627, "node_ip": "10.157.146.4", "done": false, "time_total_s": 63567.6793422699, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2011, "episode_reward_mean": -613.6915918193876, "training_iteration": 2011, "timesteps_total": 2413200, "policy_reward_mean": {}, "episode_reward_min": -667.8332642536071, "timesteps_since_restore": 2413200, "num_metric_batches_dropped": 0, "time_since_restore": 63592.99942159653, "episode_reward_max": -564.8711143459088, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2413200, "default": {"kl": 0.010505329817533493, "policy_loss": -0.13991793990135193, "vf_loss": 64.14192199707031, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.990792989730835, "entropy": 4.263473033905029, "cur_lr": 4.999999873689376e-05, "total_loss": 64.01795959472656}, "load_time_ms": 0.687, "num_steps_sampled": 2413200, "grad_time_ms": 736.516, "update_time_ms": 2.258, "sample_time_ms": 22835.827}, "date": "2025-08-31_09-50-52", "hostname": "cda-server-4", "time_this_iter_s": 25.32007932662964, "episodes_total": 12066, "timestamp": 1756626652, "node_ip": "10.157.146.4", "done": false, "time_total_s": 63592.99942159653, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2012, "episode_reward_mean": -613.5306131481228, "training_iteration": 2012, "timesteps_total": 2414400, "policy_reward_mean": {}, "episode_reward_min": -667.8332642536071, "timesteps_since_restore": 2414400, "num_metric_batches_dropped": 0, "time_since_restore": 63619.00257253647, "episode_reward_max": -564.8711143459088, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2414400, "default": {"kl": 0.011522825807332993, "policy_loss": -0.12844589352607727, "vf_loss": 409.2733459472656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9652979373931885, "entropy": 4.290781021118164, "cur_lr": 4.999999873689376e-05, "total_loss": 409.1624450683594}, "load_time_ms": 0.658, "num_steps_sampled": 2414400, "grad_time_ms": 737.25, "update_time_ms": 2.291, "sample_time_ms": 23068.991}, "date": "2025-08-31_09-51-18", "hostname": "cda-server-4", "time_this_iter_s": 26.003150939941406, "episodes_total": 12072, "timestamp": 1756626678, "node_ip": "10.157.146.4", "done": false, "time_total_s": 63619.00257253647, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2013, "episode_reward_mean": -612.4546383591653, "training_iteration": 2013, "timesteps_total": 2415600, "policy_reward_mean": {}, "episode_reward_min": -667.8332642536071, "timesteps_since_restore": 2415600, "num_metric_batches_dropped": 0, "time_since_restore": 63644.06195116043, "episode_reward_max": -515.9491829769638, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2415600, "default": {"kl": 0.01142896618694067, "policy_loss": -0.15063011646270752, "vf_loss": 337.2237243652344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.96097332239151, "entropy": 4.2779693603515625, "cur_lr": 4.999999873689376e-05, "total_loss": 337.0904541015625}, "load_time_ms": 0.675, "num_steps_sampled": 2415600, "grad_time_ms": 735.817, "update_time_ms": 2.278, "sample_time_ms": 23289.711}, "date": "2025-08-31_09-51-43", "hostname": "cda-server-4", "time_this_iter_s": 25.059378623962402, "episodes_total": 12078, "timestamp": 1756626703, "node_ip": "10.157.146.4", "done": false, "time_total_s": 63644.06195116043, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2014, "episode_reward_mean": -613.5564043358294, "training_iteration": 2014, "timesteps_total": 2416800, "policy_reward_mean": {}, "episode_reward_min": -667.8332642536071, "timesteps_since_restore": 2416800, "num_metric_batches_dropped": 0, "time_since_restore": 63668.00774526596, "episode_reward_max": -515.9491829769638, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2416800, "default": {"kl": 0.009077299386262894, "policy_loss": -0.11512168496847153, "vf_loss": 253.75750732421875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9814476370811462, "entropy": 4.511129379272461, "cur_lr": 4.999999873689376e-05, "total_loss": 253.6561737060547}, "load_time_ms": 0.657, "num_steps_sampled": 2416800, "grad_time_ms": 728.252, "update_time_ms": 2.409, "sample_time_ms": 23446.993}, "date": "2025-08-31_09-52-07", "hostname": "cda-server-4", "time_this_iter_s": 23.945794105529785, "episodes_total": 12084, "timestamp": 1756626727, "node_ip": "10.157.146.4", "done": false, "time_total_s": 63668.00774526596, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2015, "episode_reward_mean": -612.4537090843111, "training_iteration": 2015, "timesteps_total": 2418000, "policy_reward_mean": {}, "episode_reward_min": -667.8332642536071, "timesteps_since_restore": 2418000, "num_metric_batches_dropped": 0, "time_since_restore": 63702.618738889694, "episode_reward_max": -488.404912227305, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2418000, "default": {"kl": 0.010921098291873932, "policy_loss": -0.12963172793388367, "vf_loss": 254.3870391845703, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9735089540481567, "entropy": 4.115916728973389, "cur_lr": 4.999999873689376e-05, "total_loss": 254.27398681640625}, "load_time_ms": 0.661, "num_steps_sampled": 2418000, "grad_time_ms": 729.36, "update_time_ms": 2.335, "sample_time_ms": 24542.148}, "date": "2025-08-31_09-52-42", "hostname": "cda-server-4", "time_this_iter_s": 34.61099362373352, "episodes_total": 12090, "timestamp": 1756626762, "node_ip": "10.157.146.4", "done": false, "time_total_s": 63702.618738889694, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2016, "episode_reward_mean": -612.6727900079766, "training_iteration": 2016, "timesteps_total": 2419200, "policy_reward_mean": {}, "episode_reward_min": -667.8332642536071, "timesteps_since_restore": 2419200, "num_metric_batches_dropped": 0, "time_since_restore": 63736.62942814827, "episode_reward_max": -488.404912227305, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2419200, "default": {"kl": 0.011230867356061935, "policy_loss": -0.14339126646518707, "vf_loss": 289.4910583496094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9788612723350525, "entropy": 4.2359538078308105, "cur_lr": 4.999999873689376e-05, "total_loss": 289.36468505859375}, "load_time_ms": 0.664, "num_steps_sampled": 2419200, "grad_time_ms": 727.997, "update_time_ms": 2.394, "sample_time_ms": 25471.988}, "date": "2025-08-31_09-53-16", "hostname": "cda-server-4", "time_this_iter_s": 34.01068925857544, "episodes_total": 12096, "timestamp": 1756626796, "node_ip": "10.157.146.4", "done": false, "time_total_s": 63736.62942814827, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2017, "episode_reward_mean": -613.5009418438444, "training_iteration": 2017, "timesteps_total": 2420400, "policy_reward_mean": {}, "episode_reward_min": -667.8332642536071, "timesteps_since_restore": 2420400, "num_metric_batches_dropped": 0, "time_since_restore": 63771.77151465416, "episode_reward_max": -488.404912227305, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2420400, "default": {"kl": 0.010614593513309956, "policy_loss": -0.13472014665603638, "vf_loss": 210.6601104736328, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9731465578079224, "entropy": 4.246026992797852, "cur_lr": 4.999999873689376e-05, "total_loss": 210.54150390625}, "load_time_ms": 0.697, "num_steps_sampled": 2420400, "grad_time_ms": 726.692, "update_time_ms": 2.428, "sample_time_ms": 26526.744}, "date": "2025-08-31_09-53-51", "hostname": "cda-server-4", "time_this_iter_s": 35.14208650588989, "episodes_total": 12102, "timestamp": 1756626831, "node_ip": "10.157.146.4", "done": false, "time_total_s": 63771.77151465416, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2018, "episode_reward_mean": -612.7061300018383, "training_iteration": 2018, "timesteps_total": 2421600, "policy_reward_mean": {}, "episode_reward_min": -667.8332642536071, "timesteps_since_restore": 2421600, "num_metric_batches_dropped": 0, "time_since_restore": 63806.89597034454, "episode_reward_max": -488.404912227305, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2421600, "default": {"kl": 0.008832222782075405, "policy_loss": -0.11995945870876312, "vf_loss": 246.22369384765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9755589365959167, "entropy": 4.083195686340332, "cur_lr": 4.999999873689376e-05, "total_loss": 246.11715698242188}, "load_time_ms": 0.692, "num_steps_sampled": 2421600, "grad_time_ms": 726.794, "update_time_ms": 2.515, "sample_time_ms": 27776.028}, "date": "2025-08-31_09-54-26", "hostname": "cda-server-4", "time_this_iter_s": 35.12445569038391, "episodes_total": 12108, "timestamp": 1756626866, "node_ip": "10.157.146.4", "done": false, "time_total_s": 63806.89597034454, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2019, "episode_reward_mean": -612.3089281118257, "training_iteration": 2019, "timesteps_total": 2422800, "policy_reward_mean": {}, "episode_reward_min": -667.8332642536071, "timesteps_since_restore": 2422800, "num_metric_batches_dropped": 0, "time_since_restore": 63840.73905754089, "episode_reward_max": -488.404912227305, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2422800, "default": {"kl": 0.010732533410191536, "policy_loss": -0.13915854692459106, "vf_loss": 256.1571960449219, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9767665863037109, "entropy": 4.124471664428711, "cur_lr": 4.999999873689376e-05, "total_loss": 256.0343017578125}, "load_time_ms": 0.69, "num_steps_sampled": 2422800, "grad_time_ms": 726.487, "update_time_ms": 2.49, "sample_time_ms": 28739.305}, "date": "2025-08-31_09-55-00", "hostname": "cda-server-4", "time_this_iter_s": 33.8430871963501, "episodes_total": 12114, "timestamp": 1756626900, "node_ip": "10.157.146.4", "done": false, "time_total_s": 63840.73905754089, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2020, "episode_reward_mean": -611.4578468271286, "training_iteration": 2020, "timesteps_total": 2424000, "policy_reward_mean": {}, "episode_reward_min": -667.8332642536071, "timesteps_since_restore": 2424000, "num_metric_batches_dropped": 0, "time_since_restore": 63875.66688799858, "episode_reward_max": -488.404912227305, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2424000, "default": {"kl": 0.011489655822515488, "policy_loss": -0.15296152234077454, "vf_loss": 357.1904296875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9567348957061768, "entropy": 4.349120140075684, "cur_lr": 4.999999873689376e-05, "total_loss": 357.054931640625}, "load_time_ms": 0.684, "num_steps_sampled": 2424000, "grad_time_ms": 726.533, "update_time_ms": 2.52, "sample_time_ms": 30064.749}, "date": "2025-08-31_09-55-35", "hostname": "cda-server-4", "time_this_iter_s": 34.92783045768738, "episodes_total": 12120, "timestamp": 1756626935, "node_ip": "10.157.146.4", "done": false, "time_total_s": 63875.66688799858, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2021, "episode_reward_mean": -611.9941608885455, "training_iteration": 2021, "timesteps_total": 2425200, "policy_reward_mean": {}, "episode_reward_min": -667.8332642536071, "timesteps_since_restore": 2425200, "num_metric_batches_dropped": 0, "time_since_restore": 63910.482808589935, "episode_reward_max": -488.404912227305, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2425200, "default": {"kl": 0.009175159968435764, "policy_loss": -0.14269718527793884, "vf_loss": 372.6091613769531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9502071738243103, "entropy": 4.376054286956787, "cur_lr": 4.999999873689376e-05, "total_loss": 372.48040771484375}, "load_time_ms": 0.662, "num_steps_sampled": 2425200, "grad_time_ms": 709.327, "update_time_ms": 2.699, "sample_time_ms": 31031.416}, "date": "2025-08-31_09-56-10", "hostname": "cda-server-4", "time_this_iter_s": 34.81592059135437, "episodes_total": 12126, "timestamp": 1756626970, "node_ip": "10.157.146.4", "done": false, "time_total_s": 63910.482808589935, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2022, "episode_reward_mean": -610.6884239937083, "training_iteration": 2022, "timesteps_total": 2426400, "policy_reward_mean": {}, "episode_reward_min": -667.8332642536071, "timesteps_since_restore": 2426400, "num_metric_batches_dropped": 0, "time_since_restore": 63946.52124285698, "episode_reward_max": -488.404912227305, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2426400, "default": {"kl": 0.010340334847569466, "policy_loss": -0.11947119235992432, "vf_loss": 423.18316650390625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9560093283653259, "entropy": 3.963268280029297, "cur_lr": 4.999999873689376e-05, "total_loss": 423.07940673828125}, "load_time_ms": 0.697, "num_steps_sampled": 2426400, "grad_time_ms": 695.842, "update_time_ms": 2.641, "sample_time_ms": 32048.475}, "date": "2025-08-31_09-56-46", "hostname": "cda-server-4", "time_this_iter_s": 36.03843426704407, "episodes_total": 12132, "timestamp": 1756627006, "node_ip": "10.157.146.4", "done": false, "time_total_s": 63946.52124285698, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2023, "episode_reward_mean": -610.3460453223247, "training_iteration": 2023, "timesteps_total": 2427600, "policy_reward_mean": {}, "episode_reward_min": -667.8332642536071, "timesteps_since_restore": 2427600, "num_metric_batches_dropped": 0, "time_since_restore": 63981.434962272644, "episode_reward_max": -488.404912227305, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2427600, "default": {"kl": 0.010440889745950699, "policy_loss": -0.1264711618423462, "vf_loss": 131.70745849609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9922934770584106, "entropy": 4.076664447784424, "cur_lr": 4.999999873689376e-05, "total_loss": 131.5968475341797}, "load_time_ms": 0.707, "num_steps_sampled": 2427600, "grad_time_ms": 673.838, "update_time_ms": 2.681, "sample_time_ms": 33055.776}, "date": "2025-08-31_09-57-21", "hostname": "cda-server-4", "time_this_iter_s": 34.91371941566467, "episodes_total": 12138, "timestamp": 1756627041, "node_ip": "10.157.146.4", "done": false, "time_total_s": 63981.434962272644, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2024, "episode_reward_mean": -609.3999185398981, "training_iteration": 2024, "timesteps_total": 2428800, "policy_reward_mean": {}, "episode_reward_min": -667.8332642536071, "timesteps_since_restore": 2428800, "num_metric_batches_dropped": 0, "time_since_restore": 64016.48617768288, "episode_reward_max": -477.8031484292561, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2428800, "default": {"kl": 0.009604154154658318, "policy_loss": -0.12441173940896988, "vf_loss": 523.77587890625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9337828755378723, "entropy": 4.1791253089904785, "cur_lr": 4.999999873689376e-05, "total_loss": 523.6660766601562}, "load_time_ms": 0.75, "num_steps_sampled": 2428800, "grad_time_ms": 662.336, "update_time_ms": 2.625, "sample_time_ms": 34177.781}, "date": "2025-08-31_09-57-56", "hostname": "cda-server-4", "time_this_iter_s": 35.051215410232544, "episodes_total": 12144, "timestamp": 1756627076, "node_ip": "10.157.146.4", "done": false, "time_total_s": 64016.48617768288, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2025, "episode_reward_mean": -608.4821283412565, "training_iteration": 2025, "timesteps_total": 2430000, "policy_reward_mean": {}, "episode_reward_min": -667.8332642536071, "timesteps_since_restore": 2430000, "num_metric_batches_dropped": 0, "time_since_restore": 64052.41249370575, "episode_reward_max": -477.8031484292561, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2430000, "default": {"kl": 0.011412016116082668, "policy_loss": -0.1355958878993988, "vf_loss": 265.357421875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9666039347648621, "entropy": 4.011388778686523, "cur_lr": 4.999999873689376e-05, "total_loss": 265.2391662597656}, "load_time_ms": 0.716, "num_steps_sampled": 2430000, "grad_time_ms": 659.531, "update_time_ms": 2.715, "sample_time_ms": 34312.301}, "date": "2025-08-31_09-58-32", "hostname": "cda-server-4", "time_this_iter_s": 35.926316022872925, "episodes_total": 12150, "timestamp": 1756627112, "node_ip": "10.157.146.4", "done": false, "time_total_s": 64052.41249370575, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2026, "episode_reward_mean": -607.044085142927, "training_iteration": 2026, "timesteps_total": 2431200, "policy_reward_mean": {}, "episode_reward_min": -664.4512019127897, "timesteps_since_restore": 2431200, "num_metric_batches_dropped": 0, "time_since_restore": 64086.60979104042, "episode_reward_max": -477.8031484292561, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2431200, "default": {"kl": 0.011824914254248142, "policy_loss": -0.12954580783843994, "vf_loss": 85.90414428710938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9873093366622925, "entropy": 4.147247791290283, "cur_lr": 4.999999873689376e-05, "total_loss": 85.79257202148438}, "load_time_ms": 0.718, "num_steps_sampled": 2431200, "grad_time_ms": 654.78, "update_time_ms": 2.678, "sample_time_ms": 34335.701}, "date": "2025-08-31_09-59-06", "hostname": "cda-server-4", "time_this_iter_s": 34.19729733467102, "episodes_total": 12156, "timestamp": 1756627146, "node_ip": "10.157.146.4", "done": false, "time_total_s": 64086.60979104042, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2027, "episode_reward_mean": -605.4075594202818, "training_iteration": 2027, "timesteps_total": 2432400, "policy_reward_mean": {}, "episode_reward_min": -664.4512019127897, "timesteps_since_restore": 2432400, "num_metric_batches_dropped": 0, "time_since_restore": 64122.088451862335, "episode_reward_max": -477.8031484292561, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2432400, "default": {"kl": 0.010165474377572536, "policy_loss": -0.1282338798046112, "vf_loss": 489.3551025390625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9626333713531494, "entropy": 4.179079055786133, "cur_lr": 4.999999873689376e-05, "total_loss": 489.2423095703125}, "load_time_ms": 0.702, "num_steps_sampled": 2432400, "grad_time_ms": 652.726, "update_time_ms": 2.736, "sample_time_ms": 34371.364}, "date": "2025-08-31_09-59-41", "hostname": "cda-server-4", "time_this_iter_s": 35.47866082191467, "episodes_total": 12162, "timestamp": 1756627181, "node_ip": "10.157.146.4", "done": false, "time_total_s": 64122.088451862335, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2028, "episode_reward_mean": -605.5847153957237, "training_iteration": 2028, "timesteps_total": 2433600, "policy_reward_mean": {}, "episode_reward_min": -664.4512019127897, "timesteps_since_restore": 2433600, "num_metric_batches_dropped": 0, "time_since_restore": 64157.59351873398, "episode_reward_max": -477.8031484292561, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2433600, "default": {"kl": 0.010091215372085571, "policy_loss": -0.12608367204666138, "vf_loss": 463.0042419433594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9495906829833984, "entropy": 4.154469013214111, "cur_lr": 4.999999873689376e-05, "total_loss": 462.8934326171875}, "load_time_ms": 0.715, "num_steps_sampled": 2433600, "grad_time_ms": 652.031, "update_time_ms": 2.671, "sample_time_ms": 34410.258}, "date": "2025-08-31_10-00-17", "hostname": "cda-server-4", "time_this_iter_s": 35.505066871643066, "episodes_total": 12168, "timestamp": 1756627217, "node_ip": "10.157.146.4", "done": false, "time_total_s": 64157.59351873398, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2029, "episode_reward_mean": -605.9833937798517, "training_iteration": 2029, "timesteps_total": 2434800, "policy_reward_mean": {}, "episode_reward_min": -664.4512019127897, "timesteps_since_restore": 2434800, "num_metric_batches_dropped": 0, "time_since_restore": 64193.509624004364, "episode_reward_max": -477.8031484292561, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2434800, "default": {"kl": 0.010761321522295475, "policy_loss": -0.11309216916561127, "vf_loss": 564.4342651367188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9733642935752869, "entropy": 4.015592575073242, "cur_lr": 4.999999873689376e-05, "total_loss": 564.3374633789062}, "load_time_ms": 0.718, "num_steps_sampled": 2434800, "grad_time_ms": 652.595, "update_time_ms": 2.689, "sample_time_ms": 34616.978}, "date": "2025-08-31_10-00-53", "hostname": "cda-server-4", "time_this_iter_s": 35.91610527038574, "episodes_total": 12174, "timestamp": 1756627253, "node_ip": "10.157.146.4", "done": false, "time_total_s": 64193.509624004364, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2030, "episode_reward_mean": -607.1615589408436, "training_iteration": 2030, "timesteps_total": 2436000, "policy_reward_mean": {}, "episode_reward_min": -664.4512019127897, "timesteps_since_restore": 2436000, "num_metric_batches_dropped": 0, "time_since_restore": 64227.95143079758, "episode_reward_max": -477.8031484292561, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2436000, "default": {"kl": 0.008207373321056366, "policy_loss": -0.10809473693370819, "vf_loss": 400.3438720703125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.959143877029419, "entropy": 4.256446361541748, "cur_lr": 4.999999873689376e-05, "total_loss": 400.248291015625}, "load_time_ms": 0.726, "num_steps_sampled": 2436000, "grad_time_ms": 654.283, "update_time_ms": 2.649, "sample_time_ms": 34566.782}, "date": "2025-08-31_10-01-27", "hostname": "cda-server-4", "time_this_iter_s": 34.44180679321289, "episodes_total": 12180, "timestamp": 1756627287, "node_ip": "10.157.146.4", "done": false, "time_total_s": 64227.95143079758, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2031, "episode_reward_mean": -605.6192017391561, "training_iteration": 2031, "timesteps_total": 2437200, "policy_reward_mean": {}, "episode_reward_min": -664.4512019127897, "timesteps_since_restore": 2437200, "num_metric_batches_dropped": 0, "time_since_restore": 64263.6298789978, "episode_reward_max": -477.8031484292561, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2437200, "default": {"kl": 0.01115468330681324, "policy_loss": -0.15638524293899536, "vf_loss": 235.20301818847656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9893187284469604, "entropy": 4.348250389099121, "cur_lr": 4.999999873689376e-05, "total_loss": 235.06358337402344}, "load_time_ms": 0.758, "num_steps_sampled": 2437200, "grad_time_ms": 670.934, "update_time_ms": 2.532, "sample_time_ms": 34636.446}, "date": "2025-08-31_10-02-03", "hostname": "cda-server-4", "time_this_iter_s": 35.67844820022583, "episodes_total": 12186, "timestamp": 1756627323, "node_ip": "10.157.146.4", "done": false, "time_total_s": 64263.6298789978, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2032, "episode_reward_mean": -606.8179531698918, "training_iteration": 2032, "timesteps_total": 2438400, "policy_reward_mean": {}, "episode_reward_min": -664.4512019127897, "timesteps_since_restore": 2438400, "num_metric_batches_dropped": 0, "time_since_restore": 64299.32050895691, "episode_reward_max": -477.8031484292561, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2438400, "default": {"kl": 0.011700189672410488, "policy_loss": -0.12255658209323883, "vf_loss": 159.67543029785156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9844297766685486, "entropy": 4.0964579582214355, "cur_lr": 4.999999873689376e-05, "total_loss": 159.57064819335938}, "load_time_ms": 0.726, "num_steps_sampled": 2438400, "grad_time_ms": 686.05, "update_time_ms": 2.576, "sample_time_ms": 34586.508}, "date": "2025-08-31_10-02-39", "hostname": "cda-server-4", "time_this_iter_s": 35.690629959106445, "episodes_total": 12192, "timestamp": 1756627359, "node_ip": "10.157.146.4", "done": false, "time_total_s": 64299.32050895691, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2033, "episode_reward_mean": -606.4346757392004, "training_iteration": 2033, "timesteps_total": 2439600, "policy_reward_mean": {}, "episode_reward_min": -663.9647998460921, "timesteps_since_restore": 2439600, "num_metric_batches_dropped": 0, "time_since_restore": 64334.49496769905, "episode_reward_max": -477.8031484292561, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2439600, "default": {"kl": 0.009002667851746082, "policy_loss": -0.13434791564941406, "vf_loss": 139.79824829101562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9883713126182556, "entropy": 4.303170680999756, "cur_lr": 4.999999873689376e-05, "total_loss": 139.6775665283203}, "load_time_ms": 0.69, "num_steps_sampled": 2439600, "grad_time_ms": 711.078, "update_time_ms": 2.622, "sample_time_ms": 34587.574}, "date": "2025-08-31_10-03-14", "hostname": "cda-server-4", "time_this_iter_s": 35.174458742141724, "episodes_total": 12198, "timestamp": 1756627394, "node_ip": "10.157.146.4", "done": false, "time_total_s": 64334.49496769905, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2034, "episode_reward_mean": -606.8502435785001, "training_iteration": 2034, "timesteps_total": 2440800, "policy_reward_mean": {}, "episode_reward_min": -663.9647998460921, "timesteps_since_restore": 2440800, "num_metric_batches_dropped": 0, "time_since_restore": 64369.24756526947, "episode_reward_max": -477.8031484292561, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2440800, "default": {"kl": 0.011067138984799385, "policy_loss": -0.1575375497341156, "vf_loss": 238.82818603515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9780243635177612, "entropy": 4.203901290893555, "cur_lr": 4.999999873689376e-05, "total_loss": 238.68743896484375}, "load_time_ms": 0.645, "num_steps_sampled": 2440800, "grad_time_ms": 729.861, "update_time_ms": 2.65, "sample_time_ms": 34538.967}, "date": "2025-08-31_10-03-49", "hostname": "cda-server-4", "time_this_iter_s": 34.75259757041931, "episodes_total": 12204, "timestamp": 1756627429, "node_ip": "10.157.146.4", "done": false, "time_total_s": 64369.24756526947, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2035, "episode_reward_mean": -608.3305855076229, "training_iteration": 2035, "timesteps_total": 2442000, "policy_reward_mean": {}, "episode_reward_min": -663.9647998460921, "timesteps_since_restore": 2442000, "num_metric_batches_dropped": 0, "time_since_restore": 64404.56253314018, "episode_reward_max": -477.8031484292561, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2442000, "default": {"kl": 0.009712684899568558, "policy_loss": -0.14288891851902008, "vf_loss": 219.70790100097656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.976383626461029, "entropy": 4.18858528137207, "cur_lr": 4.999999873689376e-05, "total_loss": 219.57977294921875}, "load_time_ms": 0.681, "num_steps_sampled": 2442000, "grad_time_ms": 733.289, "update_time_ms": 2.507, "sample_time_ms": 34474.39}, "date": "2025-08-31_10-04-24", "hostname": "cda-server-4", "time_this_iter_s": 35.31496787071228, "episodes_total": 12210, "timestamp": 1756627464, "node_ip": "10.157.146.4", "done": false, "time_total_s": 64404.56253314018, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2036, "episode_reward_mean": -607.2457131680366, "training_iteration": 2036, "timesteps_total": 2443200, "policy_reward_mean": {}, "episode_reward_min": -663.9647998460921, "timesteps_since_restore": 2443200, "num_metric_batches_dropped": 0, "time_since_restore": 64439.95021009445, "episode_reward_max": -477.8031484292561, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2443200, "default": {"kl": 0.009799139574170113, "policy_loss": -0.11698576807975769, "vf_loss": 344.62603759765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9609571099281311, "entropy": 4.128256320953369, "cur_lr": 4.999999873689376e-05, "total_loss": 344.5238952636719}, "load_time_ms": 0.703, "num_steps_sampled": 2443200, "grad_time_ms": 739.871, "update_time_ms": 2.537, "sample_time_ms": 34586.831}, "date": "2025-08-31_10-04-59", "hostname": "cda-server-4", "time_this_iter_s": 35.38767695426941, "episodes_total": 12216, "timestamp": 1756627499, "node_ip": "10.157.146.4", "done": false, "time_total_s": 64439.95021009445, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2037, "episode_reward_mean": -608.6518702863609, "training_iteration": 2037, "timesteps_total": 2444400, "policy_reward_mean": {}, "episode_reward_min": -663.9647998460921, "timesteps_since_restore": 2444400, "num_metric_batches_dropped": 0, "time_since_restore": 64474.61052489281, "episode_reward_max": -477.8031484292561, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2444400, "default": {"kl": 0.009890284389257431, "policy_loss": -0.13270048797130585, "vf_loss": 208.83958435058594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9846373796463013, "entropy": 4.313493728637695, "cur_lr": 4.999999873689376e-05, "total_loss": 208.72190856933594}, "load_time_ms": 0.689, "num_steps_sampled": 2444400, "grad_time_ms": 743.188, "update_time_ms": 2.488, "sample_time_ms": 34501.774}, "date": "2025-08-31_10-05-34", "hostname": "cda-server-4", "time_this_iter_s": 34.6603147983551, "episodes_total": 12222, "timestamp": 1756627534, "node_ip": "10.157.146.4", "done": false, "time_total_s": 64474.61052489281, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2038, "episode_reward_mean": -608.8427956102289, "training_iteration": 2038, "timesteps_total": 2445600, "policy_reward_mean": {}, "episode_reward_min": -663.9647998460921, "timesteps_since_restore": 2445600, "num_metric_batches_dropped": 0, "time_since_restore": 64509.7674241066, "episode_reward_max": -477.8031484292561, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2445600, "default": {"kl": 0.012373875826597214, "policy_loss": -0.14643533527851105, "vf_loss": 69.00789642333984, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9909298419952393, "entropy": 4.167105674743652, "cur_lr": 4.999999873689376e-05, "total_loss": 68.88025665283203}, "load_time_ms": 0.679, "num_steps_sampled": 2445600, "grad_time_ms": 744.304, "update_time_ms": 2.413, "sample_time_ms": 34465.854}, "date": "2025-08-31_10-06-09", "hostname": "cda-server-4", "time_this_iter_s": 35.156899213790894, "episodes_total": 12228, "timestamp": 1756627569, "node_ip": "10.157.146.4", "done": false, "time_total_s": 64509.7674241066, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2039, "episode_reward_mean": -609.7515125865261, "training_iteration": 2039, "timesteps_total": 2446800, "policy_reward_mean": {}, "episode_reward_min": -663.9647998460921, "timesteps_since_restore": 2446800, "num_metric_batches_dropped": 0, "time_since_restore": 64544.74997258186, "episode_reward_max": -477.8031484292561, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2446800, "default": {"kl": 0.012273373082280159, "policy_loss": -0.1576208919286728, "vf_loss": 55.54164123535156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9971768856048584, "entropy": 3.997685670852661, "cur_lr": 4.999999873689376e-05, "total_loss": 55.40266418457031}, "load_time_ms": 0.704, "num_steps_sampled": 2446800, "grad_time_ms": 744.665, "update_time_ms": 2.482, "sample_time_ms": 34372.073}, "date": "2025-08-31_10-06-44", "hostname": "cda-server-4", "time_this_iter_s": 34.9825484752655, "episodes_total": 12234, "timestamp": 1756627604, "node_ip": "10.157.146.4", "done": false, "time_total_s": 64544.74997258186, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2040, "episode_reward_mean": -610.3368371528649, "training_iteration": 2040, "timesteps_total": 2448000, "policy_reward_mean": {}, "episode_reward_min": -663.9647998460921, "timesteps_since_restore": 2448000, "num_metric_batches_dropped": 0, "time_since_restore": 64579.41946530342, "episode_reward_max": -477.8031484292561, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2448000, "default": {"kl": 0.010037221945822239, "policy_loss": -0.13573895394802094, "vf_loss": 300.1734313964844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9858004450798035, "entropy": 4.160207748413086, "cur_lr": 4.999999873689376e-05, "total_loss": 300.05291748046875}, "load_time_ms": 0.73, "num_steps_sampled": 2448000, "grad_time_ms": 747.122, "update_time_ms": 2.469, "sample_time_ms": 34392.387}, "date": "2025-08-31_10-07-19", "hostname": "cda-server-4", "time_this_iter_s": 34.66949272155762, "episodes_total": 12240, "timestamp": 1756627639, "node_ip": "10.157.146.4", "done": false, "time_total_s": 64579.41946530342, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2041, "episode_reward_mean": -611.3649519250021, "training_iteration": 2041, "timesteps_total": 2449200, "policy_reward_mean": {}, "episode_reward_min": -663.9647998460921, "timesteps_since_restore": 2449200, "num_metric_batches_dropped": 0, "time_since_restore": 64614.261900901794, "episode_reward_max": -488.9422069763497, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2449200, "default": {"kl": 0.007463834248483181, "policy_loss": -0.10202504694461823, "vf_loss": 433.0526428222656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9520668387413025, "entropy": 3.983771324157715, "cur_lr": 4.999999873689376e-05, "total_loss": 432.96197509765625}, "load_time_ms": 0.7, "num_steps_sampled": 2449200, "grad_time_ms": 744.545, "update_time_ms": 2.451, "sample_time_ms": 34311.39}, "date": "2025-08-31_10-07-54", "hostname": "cda-server-4", "time_this_iter_s": 34.84243559837341, "episodes_total": 12246, "timestamp": 1756627674, "node_ip": "10.157.146.4", "done": false, "time_total_s": 64614.261900901794, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2042, "episode_reward_mean": -612.1913829632181, "training_iteration": 2042, "timesteps_total": 2450400, "policy_reward_mean": {}, "episode_reward_min": -663.9647998460921, "timesteps_since_restore": 2450400, "num_metric_batches_dropped": 0, "time_since_restore": 64649.41395187378, "episode_reward_max": -488.9422069763497, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2450400, "default": {"kl": 0.01003697793930769, "policy_loss": -0.11727956682443619, "vf_loss": 63.57181930541992, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9937543869018555, "entropy": 3.888138771057129, "cur_lr": 4.999999873689376e-05, "total_loss": 63.46977996826172}, "load_time_ms": 0.696, "num_steps_sampled": 2450400, "grad_time_ms": 743.514, "update_time_ms": 2.434, "sample_time_ms": 34258.456}, "date": "2025-08-31_10-08-29", "hostname": "cda-server-4", "time_this_iter_s": 35.15205097198486, "episodes_total": 12252, "timestamp": 1756627709, "node_ip": "10.157.146.4", "done": false, "time_total_s": 64649.41395187378, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2043, "episode_reward_mean": -612.7558893403377, "training_iteration": 2043, "timesteps_total": 2451600, "policy_reward_mean": {}, "episode_reward_min": -663.9647998460921, "timesteps_since_restore": 2451600, "num_metric_batches_dropped": 0, "time_since_restore": 64684.37498497963, "episode_reward_max": -489.1571938997337, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2451600, "default": {"kl": 0.010425997897982597, "policy_loss": -0.12007958441972733, "vf_loss": 295.1700439453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9550647735595703, "entropy": 4.0788421630859375, "cur_lr": 4.999999873689376e-05, "total_loss": 295.0657653808594}, "load_time_ms": 0.697, "num_steps_sampled": 2451600, "grad_time_ms": 737.495, "update_time_ms": 2.375, "sample_time_ms": 34243.193}, "date": "2025-08-31_10-09-04", "hostname": "cda-server-4", "time_this_iter_s": 34.96103310585022, "episodes_total": 12258, "timestamp": 1756627744, "node_ip": "10.157.146.4", "done": false, "time_total_s": 64684.37498497963, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2044, "episode_reward_mean": -612.177872204411, "training_iteration": 2044, "timesteps_total": 2452800, "policy_reward_mean": {}, "episode_reward_min": -663.9647998460921, "timesteps_since_restore": 2452800, "num_metric_batches_dropped": 0, "time_since_restore": 64718.250480890274, "episode_reward_max": -489.1571938997337, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2452800, "default": {"kl": 0.014102306216955185, "policy_loss": -0.1703842431306839, "vf_loss": 507.8582763671875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9515368342399597, "entropy": 4.149032115936279, "cur_lr": 4.999999873689376e-05, "total_loss": 507.7093200683594}, "load_time_ms": 0.703, "num_steps_sampled": 2452800, "grad_time_ms": 732.453, "update_time_ms": 2.356, "sample_time_ms": 34160.58}, "date": "2025-08-31_10-09-38", "hostname": "cda-server-4", "time_this_iter_s": 33.87549591064453, "episodes_total": 12264, "timestamp": 1756627778, "node_ip": "10.157.146.4", "done": false, "time_total_s": 64718.250480890274, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2045, "episode_reward_mean": -612.1226877118633, "training_iteration": 2045, "timesteps_total": 2454000, "policy_reward_mean": {}, "episode_reward_min": -663.9647998460921, "timesteps_since_restore": 2454000, "num_metric_batches_dropped": 0, "time_since_restore": 64752.99001479149, "episode_reward_max": -489.1571938997337, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2454000, "default": {"kl": 0.010684488341212273, "policy_loss": -0.12174257636070251, "vf_loss": 223.2486114501953, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9758872985839844, "entropy": 4.217567443847656, "cur_lr": 4.999999873689376e-05, "total_loss": 223.14309692382812}, "load_time_ms": 0.702, "num_steps_sampled": 2454000, "grad_time_ms": 719.306, "update_time_ms": 2.344, "sample_time_ms": 34116.084}, "date": "2025-08-31_10-10-13", "hostname": "cda-server-4", "time_this_iter_s": 34.7395339012146, "episodes_total": 12270, "timestamp": 1756627813, "node_ip": "10.157.146.4", "done": false, "time_total_s": 64752.99001479149, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2046, "episode_reward_mean": -611.8051638727694, "training_iteration": 2046, "timesteps_total": 2455200, "policy_reward_mean": {}, "episode_reward_min": -663.9647998460921, "timesteps_since_restore": 2455200, "num_metric_batches_dropped": 0, "time_since_restore": 64782.394325733185, "episode_reward_max": -489.1571938997337, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2455200, "default": {"kl": 0.009259389713406563, "policy_loss": -0.10437647998332977, "vf_loss": 310.1751708984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.966874361038208, "entropy": 4.178030490875244, "cur_lr": 4.999999873689376e-05, "total_loss": 310.0848388671875}, "load_time_ms": 0.675, "num_steps_sampled": 2455200, "grad_time_ms": 716.315, "update_time_ms": 2.294, "sample_time_ms": 33520.827}, "date": "2025-08-31_10-10-42", "hostname": "cda-server-4", "time_this_iter_s": 29.404310941696167, "episodes_total": 12276, "timestamp": 1756627842, "node_ip": "10.157.146.4", "done": false, "time_total_s": 64782.394325733185, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2047, "episode_reward_mean": -610.6749284609647, "training_iteration": 2047, "timesteps_total": 2456400, "policy_reward_mean": {}, "episode_reward_min": -663.9647998460921, "timesteps_since_restore": 2456400, "num_metric_batches_dropped": 0, "time_since_restore": 64813.776493787766, "episode_reward_max": -489.1571938997337, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2456400, "default": {"kl": 0.011595524847507477, "policy_loss": -0.14413422346115112, "vf_loss": 174.42987060546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9817184805870056, "entropy": 4.020033359527588, "cur_lr": 4.999999873689376e-05, "total_loss": 174.3033447265625}, "load_time_ms": 0.682, "num_steps_sampled": 2456400, "grad_time_ms": 716.435, "update_time_ms": 2.22, "sample_time_ms": 33192.94}, "date": "2025-08-31_10-11-13", "hostname": "cda-server-4", "time_this_iter_s": 31.38216805458069, "episodes_total": 12282, "timestamp": 1756627873, "node_ip": "10.157.146.4", "done": false, "time_total_s": 64813.776493787766, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2048, "episode_reward_mean": -610.1414827559921, "training_iteration": 2048, "timesteps_total": 2457600, "policy_reward_mean": {}, "episode_reward_min": -655.0910817152487, "timesteps_since_restore": 2457600, "num_metric_batches_dropped": 0, "time_since_restore": 64848.208370923996, "episode_reward_max": -514.9352086186043, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2457600, "default": {"kl": 0.010943755507469177, "policy_loss": -0.13565045595169067, "vf_loss": 171.07179260253906, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9846767783164978, "entropy": 3.9186389446258545, "cur_lr": 4.999999873689376e-05, "total_loss": 170.9527587890625}, "load_time_ms": 0.683, "num_steps_sampled": 2457600, "grad_time_ms": 715.957, "update_time_ms": 2.276, "sample_time_ms": 33120.834}, "date": "2025-08-31_10-11-48", "hostname": "cda-server-4", "time_this_iter_s": 34.43187713623047, "episodes_total": 12288, "timestamp": 1756627908, "node_ip": "10.157.146.4", "done": false, "time_total_s": 64848.208370923996, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2049, "episode_reward_mean": -610.1336114990643, "training_iteration": 2049, "timesteps_total": 2458800, "policy_reward_mean": {}, "episode_reward_min": -655.0910817152487, "timesteps_since_restore": 2458800, "num_metric_batches_dropped": 0, "time_since_restore": 64884.06841635704, "episode_reward_max": -514.9352086186043, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2458800, "default": {"kl": 0.012735891155898571, "policy_loss": -0.1341901421546936, "vf_loss": 140.1710662841797, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9856018424034119, "entropy": 3.903134346008301, "cur_lr": 4.999999873689376e-05, "total_loss": 140.0562286376953}, "load_time_ms": 0.656, "num_steps_sampled": 2458800, "grad_time_ms": 715.569, "update_time_ms": 2.149, "sample_time_ms": 33209.087}, "date": "2025-08-31_10-12-24", "hostname": "cda-server-4", "time_this_iter_s": 35.860045433044434, "episodes_total": 12294, "timestamp": 1756627944, "node_ip": "10.157.146.4", "done": false, "time_total_s": 64884.06841635704, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2050, "episode_reward_mean": -609.7209855055946, "training_iteration": 2050, "timesteps_total": 2460000, "policy_reward_mean": {}, "episode_reward_min": -655.0910817152487, "timesteps_since_restore": 2460000, "num_metric_batches_dropped": 0, "time_since_restore": 64919.5548620224, "episode_reward_max": -514.9352086186043, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2460000, "default": {"kl": 0.013424146920442581, "policy_loss": -0.14606614410877228, "vf_loss": 279.7752380371094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.968307614326477, "entropy": 4.041408061981201, "cur_lr": 4.999999873689376e-05, "total_loss": 279.6495666503906}, "load_time_ms": 0.623, "num_steps_sampled": 2460000, "grad_time_ms": 714.052, "update_time_ms": 2.298, "sample_time_ms": 33292.193}, "date": "2025-08-31_10-12-59", "hostname": "cda-server-4", "time_this_iter_s": 35.4864456653595, "episodes_total": 12300, "timestamp": 1756627979, "node_ip": "10.157.146.4", "done": false, "time_total_s": 64919.5548620224, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2051, "episode_reward_mean": -609.8267720392865, "training_iteration": 2051, "timesteps_total": 2461200, "policy_reward_mean": {}, "episode_reward_min": -655.0910817152487, "timesteps_since_restore": 2461200, "num_metric_batches_dropped": 0, "time_since_restore": 64955.42702579498, "episode_reward_max": -514.9352086186043, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2461200, "default": {"kl": 0.010951235890388489, "policy_loss": -0.14471666514873505, "vf_loss": 290.0811767578125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.977196455001831, "entropy": 4.400574684143066, "cur_lr": 4.999999873689376e-05, "total_loss": 289.953125}, "load_time_ms": 0.622, "num_steps_sampled": 2461200, "grad_time_ms": 715.374, "update_time_ms": 2.474, "sample_time_ms": 33393.689}, "date": "2025-08-31_10-13-35", "hostname": "cda-server-4", "time_this_iter_s": 35.87216377258301, "episodes_total": 12306, "timestamp": 1756628015, "node_ip": "10.157.146.4", "done": false, "time_total_s": 64955.42702579498, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2052, "episode_reward_mean": -608.6683496960445, "training_iteration": 2052, "timesteps_total": 2462400, "policy_reward_mean": {}, "episode_reward_min": -655.0910817152487, "timesteps_since_restore": 2462400, "num_metric_batches_dropped": 0, "time_since_restore": 64989.80956745148, "episode_reward_max": -514.9352086186043, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2462400, "default": {"kl": 0.010940510779619217, "policy_loss": -0.13001947104930878, "vf_loss": 129.01243591308594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9844116568565369, "entropy": 3.95746111869812, "cur_lr": 4.999999873689376e-05, "total_loss": 128.89903259277344}, "load_time_ms": 0.623, "num_steps_sampled": 2462400, "grad_time_ms": 704.344, "update_time_ms": 2.467, "sample_time_ms": 33327.793}, "date": "2025-08-31_10-14-10", "hostname": "cda-server-4", "time_this_iter_s": 34.38254165649414, "episodes_total": 12312, "timestamp": 1756628050, "node_ip": "10.157.146.4", "done": false, "time_total_s": 64989.80956745148, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2053, "episode_reward_mean": -608.1458916434415, "training_iteration": 2053, "timesteps_total": 2463600, "policy_reward_mean": {}, "episode_reward_min": -653.2639046673952, "timesteps_since_restore": 2463600, "num_metric_batches_dropped": 0, "time_since_restore": 65024.965124607086, "episode_reward_max": -514.9352086186043, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2463600, "default": {"kl": 0.008521654643118382, "policy_loss": -0.1086898222565651, "vf_loss": 136.1146697998047, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9882166981697083, "entropy": 3.964229106903076, "cur_lr": 4.999999873689376e-05, "total_loss": 136.0189208984375}, "load_time_ms": 0.63, "num_steps_sampled": 2463600, "grad_time_ms": 702.088, "update_time_ms": 2.535, "sample_time_ms": 33349.42}, "date": "2025-08-31_10-14-45", "hostname": "cda-server-4", "time_this_iter_s": 35.15555715560913, "episodes_total": 12318, "timestamp": 1756628085, "node_ip": "10.157.146.4", "done": false, "time_total_s": 65024.965124607086, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2054, "episode_reward_mean": -607.2731784646816, "training_iteration": 2054, "timesteps_total": 2464800, "policy_reward_mean": {}, "episode_reward_min": -653.2639046673952, "timesteps_since_restore": 2464800, "num_metric_batches_dropped": 0, "time_since_restore": 65059.755435705185, "episode_reward_max": -514.9352086186043, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2464800, "default": {"kl": 0.011633077636361122, "policy_loss": -0.15552037954330444, "vf_loss": 327.3192138671875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9734999537467957, "entropy": 4.261606216430664, "cur_lr": 4.999999873689376e-05, "total_loss": 327.1813659667969}, "load_time_ms": 0.63, "num_steps_sampled": 2464800, "grad_time_ms": 698.641, "update_time_ms": 2.573, "sample_time_ms": 33444.325}, "date": "2025-08-31_10-15-20", "hostname": "cda-server-4", "time_this_iter_s": 34.790311098098755, "episodes_total": 12324, "timestamp": 1756628120, "node_ip": "10.157.146.4", "done": false, "time_total_s": 65059.755435705185, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2055, "episode_reward_mean": -606.8849997755717, "training_iteration": 2055, "timesteps_total": 2466000, "policy_reward_mean": {}, "episode_reward_min": -653.2639046673952, "timesteps_since_restore": 2466000, "num_metric_batches_dropped": 0, "time_since_restore": 65094.108536720276, "episode_reward_max": -514.9352086186043, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2466000, "default": {"kl": 0.012488328851759434, "policy_loss": -0.1259663850069046, "vf_loss": 279.2848815917969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.970417320728302, "entropy": 3.920755624771118, "cur_lr": 4.999999873689376e-05, "total_loss": 279.1778564453125}, "load_time_ms": 0.628, "num_steps_sampled": 2466000, "grad_time_ms": 703.1, "update_time_ms": 2.615, "sample_time_ms": 33401.347}, "date": "2025-08-31_10-15-54", "hostname": "cda-server-4", "time_this_iter_s": 34.35310101509094, "episodes_total": 12330, "timestamp": 1756628154, "node_ip": "10.157.146.4", "done": false, "time_total_s": 65094.108536720276, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2056, "episode_reward_mean": -605.8763895914378, "training_iteration": 2056, "timesteps_total": 2467200, "policy_reward_mean": {}, "episode_reward_min": -653.2639046673952, "timesteps_since_restore": 2467200, "num_metric_batches_dropped": 0, "time_since_restore": 65129.35938644409, "episode_reward_max": -485.40846332782854, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2467200, "default": {"kl": 0.008908233605325222, "policy_loss": -0.1437826007604599, "vf_loss": 172.4186248779297, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9868401288986206, "entropy": 4.061081409454346, "cur_lr": 4.999999873689376e-05, "total_loss": 172.28836059570312}, "load_time_ms": 0.628, "num_steps_sampled": 2467200, "grad_time_ms": 698.755, "update_time_ms": 2.633, "sample_time_ms": 33990.316}, "date": "2025-08-31_10-16-29", "hostname": "cda-server-4", "time_this_iter_s": 35.25084972381592, "episodes_total": 12336, "timestamp": 1756628189, "node_ip": "10.157.146.4", "done": false, "time_total_s": 65129.35938644409, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2057, "episode_reward_mean": -605.1509355107514, "training_iteration": 2057, "timesteps_total": 2468400, "policy_reward_mean": {}, "episode_reward_min": -653.2639046673952, "timesteps_since_restore": 2468400, "num_metric_batches_dropped": 0, "time_since_restore": 65164.557968616486, "episode_reward_max": -485.40846332782854, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2468400, "default": {"kl": 0.011489378288388252, "policy_loss": -0.1418990194797516, "vf_loss": 216.12298583984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9734178185462952, "entropy": 4.071103096008301, "cur_lr": 4.999999873689376e-05, "total_loss": 215.99853515625}, "load_time_ms": 0.621, "num_steps_sampled": 2468400, "grad_time_ms": 688.984, "update_time_ms": 2.684, "sample_time_ms": 34381.598}, "date": "2025-08-31_10-17-04", "hostname": "cda-server-4", "time_this_iter_s": 35.1985821723938, "episodes_total": 12342, "timestamp": 1756628224, "node_ip": "10.157.146.4", "done": false, "time_total_s": 65164.557968616486, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2058, "episode_reward_mean": -606.3675345139202, "training_iteration": 2058, "timesteps_total": 2469600, "policy_reward_mean": {}, "episode_reward_min": -664.9762818010769, "timesteps_since_restore": 2469600, "num_metric_batches_dropped": 0, "time_since_restore": 65199.361145973206, "episode_reward_max": -485.40846332782854, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2469600, "default": {"kl": 0.009287036024034023, "policy_loss": -0.14043770730495453, "vf_loss": 362.3501892089844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9606579542160034, "entropy": 4.280064105987549, "cur_lr": 4.999999873689376e-05, "total_loss": 362.2238464355469}, "load_time_ms": 0.634, "num_steps_sampled": 2469600, "grad_time_ms": 684.952, "update_time_ms": 2.65, "sample_time_ms": 34422.839}, "date": "2025-08-31_10-17-39", "hostname": "cda-server-4", "time_this_iter_s": 34.80317735671997, "episodes_total": 12348, "timestamp": 1756628259, "node_ip": "10.157.146.4", "done": false, "time_total_s": 65199.361145973206, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2059, "episode_reward_mean": -607.5617942242208, "training_iteration": 2059, "timesteps_total": 2470800, "policy_reward_mean": {}, "episode_reward_min": -664.9762818010769, "timesteps_since_restore": 2470800, "num_metric_batches_dropped": 0, "time_since_restore": 65234.16112613678, "episode_reward_max": -485.40846332782854, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2470800, "default": {"kl": 0.009059731848537922, "policy_loss": -0.1253693550825119, "vf_loss": 71.43299102783203, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9887716770172119, "entropy": 4.136510372161865, "cur_lr": 4.999999873689376e-05, "total_loss": 71.32138061523438}, "load_time_ms": 0.645, "num_steps_sampled": 2470800, "grad_time_ms": 683.602, "update_time_ms": 2.754, "sample_time_ms": 34318.137}, "date": "2025-08-31_10-18-14", "hostname": "cda-server-4", "time_this_iter_s": 34.79998016357422, "episodes_total": 12354, "timestamp": 1756628294, "node_ip": "10.157.146.4", "done": false, "time_total_s": 65234.16112613678, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2060, "episode_reward_mean": -607.343602771379, "training_iteration": 2060, "timesteps_total": 2472000, "policy_reward_mean": {}, "episode_reward_min": -664.9762818010769, "timesteps_since_restore": 2472000, "num_metric_batches_dropped": 0, "time_since_restore": 65269.66905713081, "episode_reward_max": -485.40846332782854, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2472000, "default": {"kl": 0.00945125613361597, "policy_loss": -0.14759762585163116, "vf_loss": 48.477081298828125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9954503178596497, "entropy": 4.047145843505859, "cur_lr": 4.999999873689376e-05, "total_loss": 48.34383773803711}, "load_time_ms": 0.664, "num_steps_sampled": 2472000, "grad_time_ms": 683.953, "update_time_ms": 2.604, "sample_time_ms": 34320.134}, "date": "2025-08-31_10-18-50", "hostname": "cda-server-4", "time_this_iter_s": 35.50793099403381, "episodes_total": 12360, "timestamp": 1756628330, "node_ip": "10.157.146.4", "done": false, "time_total_s": 65269.66905713081, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2061, "episode_reward_mean": -608.9998155887913, "training_iteration": 2061, "timesteps_total": 2473200, "policy_reward_mean": {}, "episode_reward_min": -664.9762818010769, "timesteps_since_restore": 2473200, "num_metric_batches_dropped": 0, "time_since_restore": 65305.131563425064, "episode_reward_max": -485.40846332782854, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2473200, "default": {"kl": 0.010645515285432339, "policy_loss": -0.12260765582323074, "vf_loss": 103.99694061279297, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9894738793373108, "entropy": 4.021725177764893, "cur_lr": 4.999999873689376e-05, "total_loss": 103.89049530029297}, "load_time_ms": 0.697, "num_steps_sampled": 2473200, "grad_time_ms": 685.212, "update_time_ms": 2.604, "sample_time_ms": 34277.828}, "date": "2025-08-31_10-19-25", "hostname": "cda-server-4", "time_this_iter_s": 35.46250629425049, "episodes_total": 12366, "timestamp": 1756628365, "node_ip": "10.157.146.4", "done": false, "time_total_s": 65305.131563425064, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2062, "episode_reward_mean": -608.2611543571337, "training_iteration": 2062, "timesteps_total": 2474400, "policy_reward_mean": {}, "episode_reward_min": -664.9762818010769, "timesteps_since_restore": 2474400, "num_metric_batches_dropped": 0, "time_since_restore": 65339.39551305771, "episode_reward_max": -485.40846332782854, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2474400, "default": {"kl": 0.01402646116912365, "policy_loss": -0.17262868583202362, "vf_loss": 32.186702728271484, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9964547753334045, "entropy": 3.9364242553710938, "cur_lr": 4.999999873689376e-05, "total_loss": 32.035377502441406}, "load_time_ms": 0.7, "num_steps_sampled": 2474400, "grad_time_ms": 694.78, "update_time_ms": 2.702, "sample_time_ms": 34256.424}, "date": "2025-08-31_10-19-59", "hostname": "cda-server-4", "time_this_iter_s": 34.26394963264465, "episodes_total": 12372, "timestamp": 1756628399, "node_ip": "10.157.146.4", "done": false, "time_total_s": 65339.39551305771, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2063, "episode_reward_mean": -608.1895131056791, "training_iteration": 2063, "timesteps_total": 2475600, "policy_reward_mean": {}, "episode_reward_min": -664.9762818010769, "timesteps_since_restore": 2475600, "num_metric_batches_dropped": 0, "time_since_restore": 65374.54330253601, "episode_reward_max": -485.40846332782854, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2475600, "default": {"kl": 0.0130749037489295, "policy_loss": -0.1243373304605484, "vf_loss": 680.9761962890625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9378936290740967, "entropy": 4.102517604827881, "cur_lr": 4.999999873689376e-05, "total_loss": 680.8717041015625}, "load_time_ms": 0.695, "num_steps_sampled": 2475600, "grad_time_ms": 690.11, "update_time_ms": 2.663, "sample_time_ms": 34260.333}, "date": "2025-08-31_10-20-34", "hostname": "cda-server-4", "time_this_iter_s": 35.147789478302, "episodes_total": 12378, "timestamp": 1756628434, "node_ip": "10.157.146.4", "done": false, "time_total_s": 65374.54330253601, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2064, "episode_reward_mean": -608.2209289340504, "training_iteration": 2064, "timesteps_total": 2476800, "policy_reward_mean": {}, "episode_reward_min": -664.9762818010769, "timesteps_since_restore": 2476800, "num_metric_batches_dropped": 0, "time_since_restore": 65410.38844227791, "episode_reward_max": -485.40846332782854, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2476800, "default": {"kl": 0.01106728333979845, "policy_loss": -0.1394893229007721, "vf_loss": 115.75987243652344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9872254133224487, "entropy": 4.171017169952393, "cur_lr": 4.999999873689376e-05, "total_loss": 115.63719177246094}, "load_time_ms": 0.695, "num_steps_sampled": 2476800, "grad_time_ms": 684.197, "update_time_ms": 2.568, "sample_time_ms": 34371.77}, "date": "2025-08-31_10-21-10", "hostname": "cda-server-4", "time_this_iter_s": 35.84513974189758, "episodes_total": 12384, "timestamp": 1756628470, "node_ip": "10.157.146.4", "done": false, "time_total_s": 65410.38844227791, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2065, "episode_reward_mean": -610.1617882397293, "training_iteration": 2065, "timesteps_total": 2478000, "policy_reward_mean": {}, "episode_reward_min": -664.9762818010769, "timesteps_since_restore": 2478000, "num_metric_batches_dropped": 0, "time_since_restore": 65445.45421075821, "episode_reward_max": -485.40846332782854, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2478000, "default": {"kl": 0.010666805319488049, "policy_loss": -0.14126081764698029, "vf_loss": 147.87930297851562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9818927049636841, "entropy": 4.192187786102295, "cur_lr": 4.999999873689376e-05, "total_loss": 147.7542266845703}, "load_time_ms": 0.69, "num_steps_sampled": 2478000, "grad_time_ms": 687.219, "update_time_ms": 2.591, "sample_time_ms": 34440.054}, "date": "2025-08-31_10-21-45", "hostname": "cda-server-4", "time_this_iter_s": 35.0657684803009, "episodes_total": 12390, "timestamp": 1756628505, "node_ip": "10.157.146.4", "done": false, "time_total_s": 65445.45421075821, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2066, "episode_reward_mean": -610.1922434384561, "training_iteration": 2066, "timesteps_total": 2479200, "policy_reward_mean": {}, "episode_reward_min": -664.9762818010769, "timesteps_since_restore": 2479200, "num_metric_batches_dropped": 0, "time_since_restore": 65480.0201523304, "episode_reward_max": -485.40846332782854, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2479200, "default": {"kl": 0.011247570626437664, "policy_loss": -0.14585891366004944, "vf_loss": 93.38036346435547, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9877747297286987, "entropy": 4.054797172546387, "cur_lr": 4.999999873689376e-05, "total_loss": 93.2515869140625}, "load_time_ms": 0.7, "num_steps_sampled": 2479200, "grad_time_ms": 687.889, "update_time_ms": 2.63, "sample_time_ms": 34370.808}, "date": "2025-08-31_10-22-20", "hostname": "cda-server-4", "time_this_iter_s": 34.56594157218933, "episodes_total": 12396, "timestamp": 1756628540, "node_ip": "10.157.146.4", "done": false, "time_total_s": 65480.0201523304, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2067, "episode_reward_mean": -608.5841668372549, "training_iteration": 2067, "timesteps_total": 2480400, "policy_reward_mean": {}, "episode_reward_min": -664.9762818010769, "timesteps_since_restore": 2480400, "num_metric_batches_dropped": 0, "time_since_restore": 65515.31124329567, "episode_reward_max": -453.3300349118434, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2480400, "default": {"kl": 0.012393955141305923, "policy_loss": -0.14337372779846191, "vf_loss": 470.4095153808594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9393534064292908, "entropy": 3.974686861038208, "cur_lr": 4.999999873689376e-05, "total_loss": 470.2850036621094}, "load_time_ms": 0.726, "num_steps_sampled": 2480400, "grad_time_ms": 690.15, "update_time_ms": 2.632, "sample_time_ms": 34377.897}, "date": "2025-08-31_10-22-55", "hostname": "cda-server-4", "time_this_iter_s": 35.291090965270996, "episodes_total": 12402, "timestamp": 1756628575, "node_ip": "10.157.146.4", "done": false, "time_total_s": 65515.31124329567, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2068, "episode_reward_mean": -608.8691546517999, "training_iteration": 2068, "timesteps_total": 2481600, "policy_reward_mean": {}, "episode_reward_min": -664.9762818010769, "timesteps_since_restore": 2481600, "num_metric_batches_dropped": 0, "time_since_restore": 65549.90647149086, "episode_reward_max": -453.3300349118434, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2481600, "default": {"kl": 0.011038951575756073, "policy_loss": -0.13661803305149078, "vf_loss": 45.88017272949219, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9935908913612366, "entropy": 4.02536678314209, "cur_lr": 4.999999873689376e-05, "total_loss": 45.76031494140625}, "load_time_ms": 0.712, "num_steps_sampled": 2481600, "grad_time_ms": 675.088, "update_time_ms": 2.708, "sample_time_ms": 34372.079}, "date": "2025-08-31_10-23-30", "hostname": "cda-server-4", "time_this_iter_s": 34.59522819519043, "episodes_total": 12408, "timestamp": 1756628610, "node_ip": "10.157.146.4", "done": false, "time_total_s": 65549.90647149086, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2069, "episode_reward_mean": -609.5608673391303, "training_iteration": 2069, "timesteps_total": 2482800, "policy_reward_mean": {}, "episode_reward_min": -664.9762818010769, "timesteps_since_restore": 2482800, "num_metric_batches_dropped": 0, "time_since_restore": 65584.70662117004, "episode_reward_max": -453.3300349118434, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2482800, "default": {"kl": 0.011247136630117893, "policy_loss": -0.12387879937887192, "vf_loss": 737.7484130859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9526036381721497, "entropy": 4.132699489593506, "cur_lr": 4.999999873689376e-05, "total_loss": 737.6416625976562}, "load_time_ms": 0.696, "num_steps_sampled": 2482800, "grad_time_ms": 649.545, "update_time_ms": 2.58, "sample_time_ms": 34397.78}, "date": "2025-08-31_10-24-05", "hostname": "cda-server-4", "time_this_iter_s": 34.80014967918396, "episodes_total": 12414, "timestamp": 1756628645, "node_ip": "10.157.146.4", "done": false, "time_total_s": 65584.70662117004, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2070, "episode_reward_mean": -609.6471707942934, "training_iteration": 2070, "timesteps_total": 2484000, "policy_reward_mean": {}, "episode_reward_min": -664.9762818010769, "timesteps_since_restore": 2484000, "num_metric_batches_dropped": 0, "time_since_restore": 65619.87455916405, "episode_reward_max": -453.3300349118434, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2484000, "default": {"kl": 0.011532281525433064, "policy_loss": -0.14868217706680298, "vf_loss": 60.81644058227539, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9938005805015564, "entropy": 4.075606822967529, "cur_lr": 4.999999873689376e-05, "total_loss": 60.68527603149414}, "load_time_ms": 0.693, "num_steps_sampled": 2484000, "grad_time_ms": 624.058, "update_time_ms": 2.568, "sample_time_ms": 34389.177}, "date": "2025-08-31_10-24-40", "hostname": "cda-server-4", "time_this_iter_s": 35.167937994003296, "episodes_total": 12420, "timestamp": 1756628680, "node_ip": "10.157.146.4", "done": false, "time_total_s": 65619.87455916405, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2071, "episode_reward_mean": -609.3137584796021, "training_iteration": 2071, "timesteps_total": 2485200, "policy_reward_mean": {}, "episode_reward_min": -664.9762818010769, "timesteps_since_restore": 2485200, "num_metric_batches_dropped": 0, "time_since_restore": 65655.41621875763, "episode_reward_max": -453.3300349118434, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2485200, "default": {"kl": 0.010410713031888008, "policy_loss": -0.1427786946296692, "vf_loss": 96.09347534179688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9916523694992065, "entropy": 3.889021873474121, "cur_lr": 4.999999873689376e-05, "total_loss": 95.96652221679688}, "load_time_ms": 0.661, "num_steps_sampled": 2485200, "grad_time_ms": 617.13, "update_time_ms": 2.523, "sample_time_ms": 34404.149}, "date": "2025-08-31_10-25-16", "hostname": "cda-server-4", "time_this_iter_s": 35.54165959358215, "episodes_total": 12426, "timestamp": 1756628716, "node_ip": "10.157.146.4", "done": false, "time_total_s": 65655.41621875763, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2072, "episode_reward_mean": -610.0450546669178, "training_iteration": 2072, "timesteps_total": 2486400, "policy_reward_mean": {}, "episode_reward_min": -664.9762818010769, "timesteps_since_restore": 2486400, "num_metric_batches_dropped": 0, "time_since_restore": 65690.94826030731, "episode_reward_max": -453.3300349118434, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2486400, "default": {"kl": 0.009483573026955128, "policy_loss": -0.14571833610534668, "vf_loss": 52.1303596496582, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9940810799598694, "entropy": 4.0126824378967285, "cur_lr": 4.999999873689376e-05, "total_loss": 51.999046325683594}, "load_time_ms": 0.661, "num_steps_sampled": 2486400, "grad_time_ms": 619.825, "update_time_ms": 2.545, "sample_time_ms": 34528.202}, "date": "2025-08-31_10-25-51", "hostname": "cda-server-4", "time_this_iter_s": 35.53204154968262, "episodes_total": 12432, "timestamp": 1756628751, "node_ip": "10.157.146.4", "done": false, "time_total_s": 65690.94826030731, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2073, "episode_reward_mean": -608.3674169648496, "training_iteration": 2073, "timesteps_total": 2487600, "policy_reward_mean": {}, "episode_reward_min": -664.9762818010769, "timesteps_since_restore": 2487600, "num_metric_batches_dropped": 0, "time_since_restore": 65725.62027978897, "episode_reward_max": -453.3300349118434, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2487600, "default": {"kl": 0.0075427764095366, "policy_loss": -0.12104969471693039, "vf_loss": 293.3780212402344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9706339240074158, "entropy": 4.031046390533447, "cur_lr": 4.999999873689376e-05, "total_loss": 293.2684020996094}, "load_time_ms": 0.667, "num_steps_sampled": 2487600, "grad_time_ms": 628.331, "update_time_ms": 2.548, "sample_time_ms": 34472.204}, "date": "2025-08-31_10-26-26", "hostname": "cda-server-4", "time_this_iter_s": 34.672019481658936, "episodes_total": 12438, "timestamp": 1756628786, "node_ip": "10.157.146.4", "done": false, "time_total_s": 65725.62027978897, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2074, "episode_reward_mean": -608.9607450084432, "training_iteration": 2074, "timesteps_total": 2488800, "policy_reward_mean": {}, "episode_reward_min": -656.9921147523569, "timesteps_since_restore": 2488800, "num_metric_batches_dropped": 0, "time_since_restore": 65761.02267050743, "episode_reward_max": -453.3300349118434, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2488800, "default": {"kl": 0.009236162528395653, "policy_loss": -0.14371590316295624, "vf_loss": 126.41392517089844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9856777191162109, "entropy": 4.1397600173950195, "cur_lr": 4.999999873689376e-05, "total_loss": 126.28424835205078}, "load_time_ms": 0.662, "num_steps_sampled": 2488800, "grad_time_ms": 632.472, "update_time_ms": 2.568, "sample_time_ms": 34423.742}, "date": "2025-08-31_10-27-01", "hostname": "cda-server-4", "time_this_iter_s": 35.40239071846008, "episodes_total": 12444, "timestamp": 1756628821, "node_ip": "10.157.146.4", "done": false, "time_total_s": 65761.02267050743, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2075, "episode_reward_mean": -608.6954997567511, "training_iteration": 2075, "timesteps_total": 2490000, "policy_reward_mean": {}, "episode_reward_min": -656.9921147523569, "timesteps_since_restore": 2490000, "num_metric_batches_dropped": 0, "time_since_restore": 65796.56272649765, "episode_reward_max": -453.3300349118434, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2490000, "default": {"kl": 0.010905925184488297, "policy_loss": -0.12175234407186508, "vf_loss": 42.9635009765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9946002960205078, "entropy": 4.120174407958984, "cur_lr": 4.999999873689376e-05, "total_loss": 42.85831069946289}, "load_time_ms": 0.635, "num_steps_sampled": 2490000, "grad_time_ms": 626.674, "update_time_ms": 2.533, "sample_time_ms": 34476.972}, "date": "2025-08-31_10-27-37", "hostname": "cda-server-4", "time_this_iter_s": 35.540055990219116, "episodes_total": 12450, "timestamp": 1756628857, "node_ip": "10.157.146.4", "done": false, "time_total_s": 65796.56272649765, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2076, "episode_reward_mean": -607.6356868851002, "training_iteration": 2076, "timesteps_total": 2491200, "policy_reward_mean": {}, "episode_reward_min": -656.9921147523569, "timesteps_since_restore": 2491200, "num_metric_batches_dropped": 0, "time_since_restore": 65830.66098952293, "episode_reward_max": -453.3300349118434, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2491200, "default": {"kl": 0.009179926477372646, "policy_loss": -0.14522582292556763, "vf_loss": 83.40316772460938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9903252720832825, "entropy": 4.040403842926025, "cur_lr": 4.999999873689376e-05, "total_loss": 83.27188873291016}, "load_time_ms": 0.628, "num_steps_sampled": 2491200, "grad_time_ms": 632.094, "update_time_ms": 2.587, "sample_time_ms": 34424.746}, "date": "2025-08-31_10-28-11", "hostname": "cda-server-4", "time_this_iter_s": 34.09826302528381, "episodes_total": 12456, "timestamp": 1756628891, "node_ip": "10.157.146.4", "done": false, "time_total_s": 65830.66098952293, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2077, "episode_reward_mean": -607.7874966096908, "training_iteration": 2077, "timesteps_total": 2492400, "policy_reward_mean": {}, "episode_reward_min": -656.9921147523569, "timesteps_since_restore": 2492400, "num_metric_batches_dropped": 0, "time_since_restore": 65866.57011389732, "episode_reward_max": -453.3300349118434, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2492400, "default": {"kl": 0.00841266568750143, "policy_loss": -0.12573213875293732, "vf_loss": 228.0376739501953, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9654691219329834, "entropy": 4.1278252601623535, "cur_lr": 4.999999873689376e-05, "total_loss": 227.9247283935547}, "load_time_ms": 0.637, "num_steps_sampled": 2492400, "grad_time_ms": 638.586, "update_time_ms": 2.528, "sample_time_ms": 34480.039}, "date": "2025-08-31_10-28-47", "hostname": "cda-server-4", "time_this_iter_s": 35.90912437438965, "episodes_total": 12462, "timestamp": 1756628927, "node_ip": "10.157.146.4", "done": false, "time_total_s": 65866.57011389732, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2078, "episode_reward_mean": -606.4717339824556, "training_iteration": 2078, "timesteps_total": 2493600, "policy_reward_mean": {}, "episode_reward_min": -656.9921147523569, "timesteps_since_restore": 2493600, "num_metric_batches_dropped": 0, "time_since_restore": 65901.6079916954, "episode_reward_max": -453.3300349118434, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2493600, "default": {"kl": 0.00891027506440878, "policy_loss": -0.13116995990276337, "vf_loss": 286.9630126953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9696370363235474, "entropy": 4.206918716430664, "cur_lr": 4.999999873689376e-05, "total_loss": 286.8453674316406}, "load_time_ms": 0.639, "num_steps_sampled": 2493600, "grad_time_ms": 655.64, "update_time_ms": 2.49, "sample_time_ms": 34507.259}, "date": "2025-08-31_10-29-22", "hostname": "cda-server-4", "time_this_iter_s": 35.037877798080444, "episodes_total": 12468, "timestamp": 1756628962, "node_ip": "10.157.146.4", "done": false, "time_total_s": 65901.6079916954, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2079, "episode_reward_mean": -607.5157318036122, "training_iteration": 2079, "timesteps_total": 2494800, "policy_reward_mean": {}, "episode_reward_min": -656.9921147523569, "timesteps_since_restore": 2494800, "num_metric_batches_dropped": 0, "time_since_restore": 65936.74364495277, "episode_reward_max": -453.3300349118434, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2494800, "default": {"kl": 0.010229171253740788, "policy_loss": -0.12821266055107117, "vf_loss": 289.4273376464844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9662206172943115, "entropy": 4.207815170288086, "cur_lr": 4.999999873689376e-05, "total_loss": 289.3146667480469}, "load_time_ms": 0.643, "num_steps_sampled": 2494800, "grad_time_ms": 680.009, "update_time_ms": 2.612, "sample_time_ms": 34516.255}, "date": "2025-08-31_10-29-57", "hostname": "cda-server-4", "time_this_iter_s": 35.135653257369995, "episodes_total": 12474, "timestamp": 1756628997, "node_ip": "10.157.146.4", "done": false, "time_total_s": 65936.74364495277, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2080, "episode_reward_mean": -608.132450042265, "training_iteration": 2080, "timesteps_total": 2496000, "policy_reward_mean": {}, "episode_reward_min": -656.9921147523569, "timesteps_since_restore": 2496000, "num_metric_batches_dropped": 0, "time_since_restore": 65971.87315893173, "episode_reward_max": -453.3300349118434, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2496000, "default": {"kl": 0.009420463815331459, "policy_loss": -0.1503443717956543, "vf_loss": 179.02981567382812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9791699647903442, "entropy": 4.161661148071289, "cur_lr": 4.999999873689376e-05, "total_loss": 178.89378356933594}, "load_time_ms": 0.63, "num_steps_sampled": 2496000, "grad_time_ms": 706.487, "update_time_ms": 2.601, "sample_time_ms": 34486.01}, "date": "2025-08-31_10-30-32", "hostname": "cda-server-4", "time_this_iter_s": 35.12951397895813, "episodes_total": 12480, "timestamp": 1756629032, "node_ip": "10.157.146.4", "done": false, "time_total_s": 65971.87315893173, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2081, "episode_reward_mean": -608.792378625462, "training_iteration": 2081, "timesteps_total": 2497200, "policy_reward_mean": {}, "episode_reward_min": -656.9921147523569, "timesteps_since_restore": 2497200, "num_metric_batches_dropped": 0, "time_since_restore": 66007.56642246246, "episode_reward_max": -453.3300349118434, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2497200, "default": {"kl": 0.011945348232984543, "policy_loss": -0.14615879952907562, "vf_loss": 462.9425964355469, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9661105275154114, "entropy": 4.317488193511963, "cur_lr": 4.999999873689376e-05, "total_loss": 462.8146057128906}, "load_time_ms": 0.665, "num_steps_sampled": 2497200, "grad_time_ms": 712.352, "update_time_ms": 2.616, "sample_time_ms": 34495.255}, "date": "2025-08-31_10-31-08", "hostname": "cda-server-4", "time_this_iter_s": 35.6932635307312, "episodes_total": 12486, "timestamp": 1756629068, "node_ip": "10.157.146.4", "done": false, "time_total_s": 66007.56642246246, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2082, "episode_reward_mean": -608.2759152595763, "training_iteration": 2082, "timesteps_total": 2498400, "policy_reward_mean": {}, "episode_reward_min": -656.9921147523569, "timesteps_since_restore": 2498400, "num_metric_batches_dropped": 0, "time_since_restore": 66043.02223038673, "episode_reward_max": -453.3300349118434, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2498400, "default": {"kl": 0.009907426312565804, "policy_loss": -0.1287263035774231, "vf_loss": 123.59890747070312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9869213104248047, "entropy": 4.086843967437744, "cur_lr": 4.999999873689376e-05, "total_loss": 123.48521423339844}, "load_time_ms": 0.699, "num_steps_sampled": 2498400, "grad_time_ms": 711.966, "update_time_ms": 2.525, "sample_time_ms": 34488.037}, "date": "2025-08-31_10-31-43", "hostname": "cda-server-4", "time_this_iter_s": 35.45580792427063, "episodes_total": 12492, "timestamp": 1756629103, "node_ip": "10.157.146.4", "done": false, "time_total_s": 66043.02223038673, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2083, "episode_reward_mean": -607.9415697599801, "training_iteration": 2083, "timesteps_total": 2499600, "policy_reward_mean": {}, "episode_reward_min": -656.9921147523569, "timesteps_since_restore": 2499600, "num_metric_batches_dropped": 0, "time_since_restore": 66078.0120716095, "episode_reward_max": -453.3300349118434, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2499600, "default": {"kl": 0.01093318872153759, "policy_loss": -0.1467795968055725, "vf_loss": 88.64541625976562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9873769283294678, "entropy": 4.114678382873535, "cur_lr": 4.999999873689376e-05, "total_loss": 88.51522827148438}, "load_time_ms": 0.725, "num_steps_sampled": 2499600, "grad_time_ms": 712.957, "update_time_ms": 2.529, "sample_time_ms": 34518.739}, "date": "2025-08-31_10-32-18", "hostname": "cda-server-4", "time_this_iter_s": 34.98984122276306, "episodes_total": 12498, "timestamp": 1756629138, "node_ip": "10.157.146.4", "done": false, "time_total_s": 66078.0120716095, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2084, "episode_reward_mean": -610.3508927235744, "training_iteration": 2084, "timesteps_total": 2500800, "policy_reward_mean": {}, "episode_reward_min": -661.7047530417609, "timesteps_since_restore": 2500800, "num_metric_batches_dropped": 0, "time_since_restore": 66113.37157893181, "episode_reward_max": -519.910025898243, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2500800, "default": {"kl": 0.012052077800035477, "policy_loss": -0.1615724116563797, "vf_loss": 207.32666015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9768294095993042, "entropy": 4.356604099273682, "cur_lr": 4.999999873689376e-05, "total_loss": 207.1833953857422}, "load_time_ms": 0.741, "num_steps_sampled": 2500800, "grad_time_ms": 716.682, "update_time_ms": 2.523, "sample_time_ms": 34510.68}, "date": "2025-08-31_10-32-54", "hostname": "cda-server-4", "time_this_iter_s": 35.3595073223114, "episodes_total": 12504, "timestamp": 1756629174, "node_ip": "10.157.146.4", "done": false, "time_total_s": 66113.37157893181, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2085, "episode_reward_mean": -610.5504138110153, "training_iteration": 2085, "timesteps_total": 2502000, "policy_reward_mean": {}, "episode_reward_min": -661.7047530417609, "timesteps_since_restore": 2502000, "num_metric_batches_dropped": 0, "time_since_restore": 66149.6711230278, "episode_reward_max": -519.910025898243, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2502000, "default": {"kl": 0.011163178831338882, "policy_loss": -0.1452101618051529, "vf_loss": 52.29325866699219, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9963461756706238, "entropy": 3.953988790512085, "cur_lr": 4.999999873689376e-05, "total_loss": 52.16500473022461}, "load_time_ms": 0.758, "num_steps_sampled": 2502000, "grad_time_ms": 727.194, "update_time_ms": 2.575, "sample_time_ms": 34576.073}, "date": "2025-08-31_10-33-30", "hostname": "cda-server-4", "time_this_iter_s": 36.29954409599304, "episodes_total": 12510, "timestamp": 1756629210, "node_ip": "10.157.146.4", "done": false, "time_total_s": 66149.6711230278, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2086, "episode_reward_mean": -609.0344900616684, "training_iteration": 2086, "timesteps_total": 2503200, "policy_reward_mean": {}, "episode_reward_min": -661.7047530417609, "timesteps_since_restore": 2503200, "num_metric_batches_dropped": 0, "time_since_restore": 66184.41840052605, "episode_reward_max": -519.910025898243, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2503200, "default": {"kl": 0.009527760557830334, "policy_loss": -0.13915854692459106, "vf_loss": 93.36918640136719, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9905186891555786, "entropy": 4.098142623901367, "cur_lr": 4.999999873689376e-05, "total_loss": 93.24449920654297}, "load_time_ms": 0.785, "num_steps_sampled": 2503200, "grad_time_ms": 726.095, "update_time_ms": 2.532, "sample_time_ms": 34642.12}, "date": "2025-08-31_10-34-05", "hostname": "cda-server-4", "time_this_iter_s": 34.74727749824524, "episodes_total": 12516, "timestamp": 1756629245, "node_ip": "10.157.146.4", "done": false, "time_total_s": 66184.41840052605, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2087, "episode_reward_mean": -608.687208880446, "training_iteration": 2087, "timesteps_total": 2504400, "policy_reward_mean": {}, "episode_reward_min": -661.7047530417609, "timesteps_since_restore": 2504400, "num_metric_batches_dropped": 0, "time_since_restore": 66220.20141339302, "episode_reward_max": -467.0230940938885, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2504400, "default": {"kl": 0.00947506632655859, "policy_loss": -0.10540485382080078, "vf_loss": 260.99835205078125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9655570983886719, "entropy": 4.011438846588135, "cur_lr": 4.999999873689376e-05, "total_loss": 260.9073486328125}, "load_time_ms": 0.749, "num_steps_sampled": 2504400, "grad_time_ms": 724.184, "update_time_ms": 2.599, "sample_time_ms": 34631.352}, "date": "2025-08-31_10-34-41", "hostname": "cda-server-4", "time_this_iter_s": 35.78301286697388, "episodes_total": 12522, "timestamp": 1756629281, "node_ip": "10.157.146.4", "done": false, "time_total_s": 66220.20141339302, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2088, "episode_reward_mean": -609.0930993341492, "training_iteration": 2088, "timesteps_total": 2505600, "policy_reward_mean": {}, "episode_reward_min": -661.7047530417609, "timesteps_since_restore": 2505600, "num_metric_batches_dropped": 0, "time_since_restore": 66255.54300093651, "episode_reward_max": -467.0230940938885, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2505600, "default": {"kl": 0.012836658395826817, "policy_loss": -0.15230508148670197, "vf_loss": 201.93031311035156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9905981421470642, "entropy": 4.010553359985352, "cur_lr": 4.999999873689376e-05, "total_loss": 201.79751586914062}, "load_time_ms": 0.782, "num_steps_sampled": 2505600, "grad_time_ms": 725.215, "update_time_ms": 2.68, "sample_time_ms": 34660.659}, "date": "2025-08-31_10-35-16", "hostname": "cda-server-4", "time_this_iter_s": 35.34158754348755, "episodes_total": 12528, "timestamp": 1756629316, "node_ip": "10.157.146.4", "done": false, "time_total_s": 66255.54300093651, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2089, "episode_reward_mean": -610.0254289427597, "training_iteration": 2089, "timesteps_total": 2506800, "policy_reward_mean": {}, "episode_reward_min": -661.7047530417609, "timesteps_since_restore": 2506800, "num_metric_batches_dropped": 0, "time_since_restore": 66290.97491192818, "episode_reward_max": -467.0230940938885, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2506800, "default": {"kl": 0.011211053468286991, "policy_loss": -0.15055911242961884, "vf_loss": 66.34209442138672, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9927058815956116, "entropy": 3.9440455436706543, "cur_lr": 4.999999873689376e-05, "total_loss": 66.20857238769531}, "load_time_ms": 0.821, "num_steps_sampled": 2506800, "grad_time_ms": 729.041, "update_time_ms": 2.574, "sample_time_ms": 34686.458}, "date": "2025-08-31_10-35-51", "hostname": "cda-server-4", "time_this_iter_s": 35.4319109916687, "episodes_total": 12534, "timestamp": 1756629351, "node_ip": "10.157.146.4", "done": false, "time_total_s": 66290.97491192818, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2090, "episode_reward_mean": -610.6457938734858, "training_iteration": 2090, "timesteps_total": 2508000, "policy_reward_mean": {}, "episode_reward_min": -669.9291761104361, "timesteps_since_restore": 2508000, "num_metric_batches_dropped": 0, "time_since_restore": 66326.07029867172, "episode_reward_max": -467.0230940938885, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2508000, "default": {"kl": 0.009907867759466171, "policy_loss": -0.12418095022439957, "vf_loss": 417.22955322265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.948371171951294, "entropy": 4.255997657775879, "cur_lr": 4.999999873689376e-05, "total_loss": 417.1203918457031}, "load_time_ms": 0.824, "num_steps_sampled": 2508000, "grad_time_ms": 722.866, "update_time_ms": 2.695, "sample_time_ms": 34689.019}, "date": "2025-08-31_10-36-27", "hostname": "cda-server-4", "time_this_iter_s": 35.09538674354553, "episodes_total": 12540, "timestamp": 1756629387, "node_ip": "10.157.146.4", "done": false, "time_total_s": 66326.07029867172, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2091, "episode_reward_mean": -609.8887008987646, "training_iteration": 2091, "timesteps_total": 2509200, "policy_reward_mean": {}, "episode_reward_min": -669.9291761104361, "timesteps_since_restore": 2509200, "num_metric_batches_dropped": 0, "time_since_restore": 66361.75216341019, "episode_reward_max": -467.0230940938885, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2509200, "default": {"kl": 0.0099845165386796, "policy_loss": -0.12348343431949615, "vf_loss": 359.4259033203125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9684808254241943, "entropy": 4.085598945617676, "cur_lr": 4.999999873689376e-05, "total_loss": 359.3175964355469}, "load_time_ms": 0.79, "num_steps_sampled": 2509200, "grad_time_ms": 721.017, "update_time_ms": 2.636, "sample_time_ms": 34689.877}, "date": "2025-08-31_10-37-02", "hostname": "cda-server-4", "time_this_iter_s": 35.681864738464355, "episodes_total": 12546, "timestamp": 1756629422, "node_ip": "10.157.146.4", "done": false, "time_total_s": 66361.75216341019, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2092, "episode_reward_mean": -611.0578967640806, "training_iteration": 2092, "timesteps_total": 2510400, "policy_reward_mean": {}, "episode_reward_min": -687.2778232502594, "timesteps_since_restore": 2510400, "num_metric_batches_dropped": 0, "time_since_restore": 66397.0661149025, "episode_reward_max": -467.0230940938885, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2510400, "default": {"kl": 0.01066083088517189, "policy_loss": -0.14219598472118378, "vf_loss": 359.7972717285156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9651734828948975, "entropy": 4.321550369262695, "cur_lr": 4.999999873689376e-05, "total_loss": 359.6712951660156}, "load_time_ms": 0.787, "num_steps_sampled": 2510400, "grad_time_ms": 720.536, "update_time_ms": 2.641, "sample_time_ms": 34676.071}, "date": "2025-08-31_10-37-38", "hostname": "cda-server-4", "time_this_iter_s": 35.31395149230957, "episodes_total": 12552, "timestamp": 1756629458, "node_ip": "10.157.146.4", "done": false, "time_total_s": 66397.0661149025, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2093, "episode_reward_mean": -611.5855035965141, "training_iteration": 2093, "timesteps_total": 2511600, "policy_reward_mean": {}, "episode_reward_min": -687.2778232502594, "timesteps_since_restore": 2511600, "num_metric_batches_dropped": 0, "time_since_restore": 66432.11203861237, "episode_reward_max": -467.0230940938885, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2511600, "default": {"kl": 0.011554810218513012, "policy_loss": -0.1507311463356018, "vf_loss": 101.34004974365234, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9859127402305603, "entropy": 4.130053997039795, "cur_lr": 4.999999873689376e-05, "total_loss": 101.20687103271484}, "load_time_ms": 0.756, "num_steps_sampled": 2511600, "grad_time_ms": 722.229, "update_time_ms": 2.614, "sample_time_ms": 34680.063}, "date": "2025-08-31_10-38-13", "hostname": "cda-server-4", "time_this_iter_s": 35.045923709869385, "episodes_total": 12558, "timestamp": 1756629493, "node_ip": "10.157.146.4", "done": false, "time_total_s": 66432.11203861237, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2094, "episode_reward_mean": -612.0508018467365, "training_iteration": 2094, "timesteps_total": 2512800, "policy_reward_mean": {}, "episode_reward_min": -687.2778232502594, "timesteps_since_restore": 2512800, "num_metric_batches_dropped": 0, "time_since_restore": 66467.2167005539, "episode_reward_max": -467.0230940938885, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2512800, "default": {"kl": 0.009153195656836033, "policy_loss": -0.1195518970489502, "vf_loss": 193.33099365234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9738698601722717, "entropy": 3.962371826171875, "cur_lr": 4.999999873689376e-05, "total_loss": 193.225341796875}, "load_time_ms": 0.757, "num_steps_sampled": 2512800, "grad_time_ms": 728.799, "update_time_ms": 2.598, "sample_time_ms": 34648.095}, "date": "2025-08-31_10-38-48", "hostname": "cda-server-4", "time_this_iter_s": 35.10466194152832, "episodes_total": 12564, "timestamp": 1756629528, "node_ip": "10.157.146.4", "done": false, "time_total_s": 66467.2167005539, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2095, "episode_reward_mean": -612.741209805719, "training_iteration": 2095, "timesteps_total": 2514000, "policy_reward_mean": {}, "episode_reward_min": -687.2778232502594, "timesteps_since_restore": 2514000, "num_metric_batches_dropped": 0, "time_since_restore": 66503.04715132713, "episode_reward_max": -467.0230940938885, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2514000, "default": {"kl": 0.008201581425964832, "policy_loss": -0.10288535058498383, "vf_loss": 278.8355712890625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9696269631385803, "entropy": 4.0345892906188965, "cur_lr": 4.999999873689376e-05, "total_loss": 278.7451477050781}, "load_time_ms": 0.745, "num_steps_sampled": 2514000, "grad_time_ms": 729.873, "update_time_ms": 2.581, "sample_time_ms": 34600.169}, "date": "2025-08-31_10-39-24", "hostname": "cda-server-4", "time_this_iter_s": 35.830450773239136, "episodes_total": 12570, "timestamp": 1756629564, "node_ip": "10.157.146.4", "done": false, "time_total_s": 66503.04715132713, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2096, "episode_reward_mean": -612.3449527270159, "training_iteration": 2096, "timesteps_total": 2515200, "policy_reward_mean": {}, "episode_reward_min": -687.2778232502594, "timesteps_since_restore": 2515200, "num_metric_batches_dropped": 0, "time_since_restore": 66538.61672234535, "episode_reward_max": -467.0230940938885, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2515200, "default": {"kl": 0.01016142312437296, "policy_loss": -0.11986526101827621, "vf_loss": 224.42970275878906, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9701138734817505, "entropy": 4.0724873542785645, "cur_lr": 4.999999873689376e-05, "total_loss": 224.32525634765625}, "load_time_ms": 0.726, "num_steps_sampled": 2515200, "grad_time_ms": 732.134, "update_time_ms": 2.573, "sample_time_ms": 34680.113}, "date": "2025-08-31_10-39-59", "hostname": "cda-server-4", "time_this_iter_s": 35.569571018218994, "episodes_total": 12576, "timestamp": 1756629599, "node_ip": "10.157.146.4", "done": false, "time_total_s": 66538.61672234535, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2097, "episode_reward_mean": -611.5234279501542, "training_iteration": 2097, "timesteps_total": 2516400, "policy_reward_mean": {}, "episode_reward_min": -687.2778232502594, "timesteps_since_restore": 2516400, "num_metric_batches_dropped": 0, "time_since_restore": 66573.01687932014, "episode_reward_max": -467.0230940938885, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2516400, "default": {"kl": 0.008937072940170765, "policy_loss": -0.12727046012878418, "vf_loss": 59.618896484375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9907271265983582, "entropy": 3.950697183609009, "cur_lr": 4.999999873689376e-05, "total_loss": 59.50519561767578}, "load_time_ms": 0.765, "num_steps_sampled": 2516400, "grad_time_ms": 734.572, "update_time_ms": 2.517, "sample_time_ms": 34539.441}, "date": "2025-08-31_10-40-34", "hostname": "cda-server-4", "time_this_iter_s": 34.40015697479248, "episodes_total": 12582, "timestamp": 1756629634, "node_ip": "10.157.146.4", "done": false, "time_total_s": 66573.01687932014, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2098, "episode_reward_mean": -611.9203363978668, "training_iteration": 2098, "timesteps_total": 2517600, "policy_reward_mean": {}, "episode_reward_min": -687.2778232502594, "timesteps_since_restore": 2517600, "num_metric_batches_dropped": 0, "time_since_restore": 66609.0665242672, "episode_reward_max": -467.0230940938885, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2517600, "default": {"kl": 0.009733215905725956, "policy_loss": -0.13218729197978973, "vf_loss": 404.4335021972656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9677619934082031, "entropy": 3.9974911212921143, "cur_lr": 4.999999873689376e-05, "total_loss": 404.3161315917969}, "load_time_ms": 0.744, "num_steps_sampled": 2517600, "grad_time_ms": 735.812, "update_time_ms": 2.433, "sample_time_ms": 34609.012}, "date": "2025-08-31_10-41-10", "hostname": "cda-server-4", "time_this_iter_s": 36.049644947052, "episodes_total": 12588, "timestamp": 1756629670, "node_ip": "10.157.146.4", "done": false, "time_total_s": 66609.0665242672, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2099, "episode_reward_mean": -611.2291181194736, "training_iteration": 2099, "timesteps_total": 2518800, "policy_reward_mean": {}, "episode_reward_min": -687.2778232502594, "timesteps_since_restore": 2518800, "num_metric_batches_dropped": 0, "time_since_restore": 66644.06525039673, "episode_reward_max": -467.0230940938885, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2518800, "default": {"kl": 0.008820835500955582, "policy_loss": -0.1304432898759842, "vf_loss": 227.3024139404297, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9756160378456116, "entropy": 3.933475971221924, "cur_lr": 4.999999873689376e-05, "total_loss": 227.18536376953125}, "load_time_ms": 0.706, "num_steps_sampled": 2518800, "grad_time_ms": 734.732, "update_time_ms": 2.531, "sample_time_ms": 34566.817}, "date": "2025-08-31_10-41-45", "hostname": "cda-server-4", "time_this_iter_s": 34.99872612953186, "episodes_total": 12594, "timestamp": 1756629705, "node_ip": "10.157.146.4", "done": false, "time_total_s": 66644.06525039673, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2100, "episode_reward_mean": -609.9357395140053, "training_iteration": 2100, "timesteps_total": 2520000, "policy_reward_mean": {}, "episode_reward_min": -687.2778232502594, "timesteps_since_restore": 2520000, "num_metric_batches_dropped": 0, "time_since_restore": 66679.38738822937, "episode_reward_max": -467.0230940938885, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2520000, "default": {"kl": 0.009797154925763607, "policy_loss": -0.12815824151039124, "vf_loss": 203.9614715576172, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9785271883010864, "entropy": 4.0783562660217285, "cur_lr": 4.999999873689376e-05, "total_loss": 203.8481903076172}, "load_time_ms": 0.706, "num_steps_sampled": 2520000, "grad_time_ms": 740.59, "update_time_ms": 2.391, "sample_time_ms": 34583.84}, "date": "2025-08-31_10-42-20", "hostname": "cda-server-4", "time_this_iter_s": 35.3221378326416, "episodes_total": 12600, "timestamp": 1756629740, "node_ip": "10.157.146.4", "done": false, "time_total_s": 66679.38738822937, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2101, "episode_reward_mean": -609.6655227423764, "training_iteration": 2101, "timesteps_total": 2521200, "policy_reward_mean": {}, "episode_reward_min": -687.2778232502594, "timesteps_since_restore": 2521200, "num_metric_batches_dropped": 0, "time_since_restore": 66716.03165388107, "episode_reward_max": -467.0230940938885, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2521200, "default": {"kl": 0.011911271139979362, "policy_loss": -0.14993637800216675, "vf_loss": 212.3743896484375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9818379878997803, "entropy": 3.994542121887207, "cur_lr": 4.999999873689376e-05, "total_loss": 212.24253845214844}, "load_time_ms": 0.735, "num_steps_sampled": 2521200, "grad_time_ms": 743.11, "update_time_ms": 2.322, "sample_time_ms": 34677.551}, "date": "2025-08-31_10-42-57", "hostname": "cda-server-4", "time_this_iter_s": 36.64426565170288, "episodes_total": 12606, "timestamp": 1756629777, "node_ip": "10.157.146.4", "done": false, "time_total_s": 66716.03165388107, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2102, "episode_reward_mean": -610.909698053795, "training_iteration": 2102, "timesteps_total": 2522400, "policy_reward_mean": {}, "episode_reward_min": -687.2778232502594, "timesteps_since_restore": 2522400, "num_metric_batches_dropped": 0, "time_since_restore": 66751.31684422493, "episode_reward_max": -467.0230940938885, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2522400, "default": {"kl": 0.011059779673814774, "policy_loss": -0.14567328989505768, "vf_loss": 574.822021484375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9390155076980591, "entropy": 4.184855937957764, "cur_lr": 4.999999873689376e-05, "total_loss": 574.6932373046875}, "load_time_ms": 0.705, "num_steps_sampled": 2522400, "grad_time_ms": 744.823, "update_time_ms": 2.328, "sample_time_ms": 34673.104}, "date": "2025-08-31_10-43-32", "hostname": "cda-server-4", "time_this_iter_s": 35.28519034385681, "episodes_total": 12612, "timestamp": 1756629812, "node_ip": "10.157.146.4", "done": false, "time_total_s": 66751.31684422493, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2103, "episode_reward_mean": -610.8254479357237, "training_iteration": 2103, "timesteps_total": 2523600, "policy_reward_mean": {}, "episode_reward_min": -687.2778232502594, "timesteps_since_restore": 2523600, "num_metric_batches_dropped": 0, "time_since_restore": 66787.1715734005, "episode_reward_max": -467.0230940938885, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2523600, "default": {"kl": 0.010909710079431534, "policy_loss": -0.13675040006637573, "vf_loss": 66.38219451904297, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9910500645637512, "entropy": 4.111893177032471, "cur_lr": 4.999999873689376e-05, "total_loss": 66.26201629638672}, "load_time_ms": 0.743, "num_steps_sampled": 2523600, "grad_time_ms": 747.46, "update_time_ms": 2.398, "sample_time_ms": 34751.222}, "date": "2025-08-31_10-44-08", "hostname": "cda-server-4", "time_this_iter_s": 35.85472917556763, "episodes_total": 12618, "timestamp": 1756629848, "node_ip": "10.157.146.4", "done": false, "time_total_s": 66787.1715734005, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2104, "episode_reward_mean": -611.8422070073041, "training_iteration": 2104, "timesteps_total": 2524800, "policy_reward_mean": {}, "episode_reward_min": -687.2778232502594, "timesteps_since_restore": 2524800, "num_metric_batches_dropped": 0, "time_since_restore": 66821.46646857262, "episode_reward_max": -561.8724808687916, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2524800, "default": {"kl": 0.010151590220630169, "policy_loss": -0.12038634717464447, "vf_loss": 211.66583251953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.972509503364563, "entropy": 3.872100353240967, "cur_lr": 4.999999873689376e-05, "total_loss": 211.5608673095703}, "load_time_ms": 0.725, "num_steps_sampled": 2524800, "grad_time_ms": 747.718, "update_time_ms": 2.488, "sample_time_ms": 34669.841}, "date": "2025-08-31_10-44-42", "hostname": "cda-server-4", "time_this_iter_s": 34.29489517211914, "episodes_total": 12624, "timestamp": 1756629882, "node_ip": "10.157.146.4", "done": false, "time_total_s": 66821.46646857262, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2105, "episode_reward_mean": -611.2885047398743, "training_iteration": 2105, "timesteps_total": 2526000, "policy_reward_mean": {}, "episode_reward_min": -687.2778232502594, "timesteps_since_restore": 2526000, "num_metric_batches_dropped": 0, "time_since_restore": 66856.64675664902, "episode_reward_max": -561.8724808687916, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2526000, "default": {"kl": 0.01059933565557003, "policy_loss": -0.13829749822616577, "vf_loss": 215.13368225097656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.974588930606842, "entropy": 3.8798227310180664, "cur_lr": 4.999999873689376e-05, "total_loss": 215.01145935058594}, "load_time_ms": 0.722, "num_steps_sampled": 2526000, "grad_time_ms": 748.262, "update_time_ms": 2.473, "sample_time_ms": 34604.328}, "date": "2025-08-31_10-45-18", "hostname": "cda-server-4", "time_this_iter_s": 35.18028807640076, "episodes_total": 12630, "timestamp": 1756629918, "node_ip": "10.157.146.4", "done": false, "time_total_s": 66856.64675664902, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2106, "episode_reward_mean": -610.6569317300779, "training_iteration": 2106, "timesteps_total": 2527200, "policy_reward_mean": {}, "episode_reward_min": -687.2778232502594, "timesteps_since_restore": 2527200, "num_metric_batches_dropped": 0, "time_since_restore": 66892.52885007858, "episode_reward_max": -523.2130669262092, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2527200, "default": {"kl": 0.009986193850636482, "policy_loss": -0.1226787269115448, "vf_loss": 227.42282104492188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9763603210449219, "entropy": 3.891303539276123, "cur_lr": 4.999999873689376e-05, "total_loss": 227.31532287597656}, "load_time_ms": 0.719, "num_steps_sampled": 2527200, "grad_time_ms": 749.289, "update_time_ms": 2.415, "sample_time_ms": 34634.634}, "date": "2025-08-31_10-45-53", "hostname": "cda-server-4", "time_this_iter_s": 35.88209342956543, "episodes_total": 12636, "timestamp": 1756629953, "node_ip": "10.157.146.4", "done": false, "time_total_s": 66892.52885007858, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2107, "episode_reward_mean": -611.4857675304983, "training_iteration": 2107, "timesteps_total": 2528400, "policy_reward_mean": {}, "episode_reward_min": -687.2778232502594, "timesteps_since_restore": 2528400, "num_metric_batches_dropped": 0, "time_since_restore": 66927.72632884979, "episode_reward_max": -523.2130669262092, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2528400, "default": {"kl": 0.01184411346912384, "policy_loss": -0.16721723973751068, "vf_loss": 1189.558837890625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8937289118766785, "entropy": 4.245126724243164, "cur_lr": 4.999999873689376e-05, "total_loss": 1189.40966796875}, "load_time_ms": 0.682, "num_steps_sampled": 2528400, "grad_time_ms": 750.078, "update_time_ms": 2.455, "sample_time_ms": 34713.637}, "date": "2025-08-31_10-46-29", "hostname": "cda-server-4", "time_this_iter_s": 35.19747877120972, "episodes_total": 12642, "timestamp": 1756629989, "node_ip": "10.157.146.4", "done": false, "time_total_s": 66927.72632884979, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2108, "episode_reward_mean": -611.5913234438932, "training_iteration": 2108, "timesteps_total": 2529600, "policy_reward_mean": {}, "episode_reward_min": -792.894191146211, "timesteps_since_restore": 2529600, "num_metric_batches_dropped": 0, "time_since_restore": 66962.72546982765, "episode_reward_max": -444.99197991696525, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2529600, "default": {"kl": 0.01292217057198286, "policy_loss": -0.16914692521095276, "vf_loss": 603.4407958984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9352912902832031, "entropy": 4.3435187339782715, "cur_lr": 4.999999873689376e-05, "total_loss": 603.2913208007812}, "load_time_ms": 0.673, "num_steps_sampled": 2529600, "grad_time_ms": 747.853, "update_time_ms": 2.463, "sample_time_ms": 34610.843}, "date": "2025-08-31_10-47-04", "hostname": "cda-server-4", "time_this_iter_s": 34.9991409778595, "episodes_total": 12648, "timestamp": 1756630024, "node_ip": "10.157.146.4", "done": false, "time_total_s": 66962.72546982765, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2109, "episode_reward_mean": -609.2915185777334, "training_iteration": 2109, "timesteps_total": 2530800, "policy_reward_mean": {}, "episode_reward_min": -792.894191146211, "timesteps_since_restore": 2530800, "num_metric_batches_dropped": 0, "time_since_restore": 66998.0498661995, "episode_reward_max": -444.99197991696525, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2530800, "default": {"kl": 0.011273454874753952, "policy_loss": -0.14657045900821686, "vf_loss": 376.487548828125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9790904521942139, "entropy": 3.990025758743286, "cur_lr": 4.999999873689376e-05, "total_loss": 376.3581237792969}, "load_time_ms": 0.682, "num_steps_sampled": 2530800, "grad_time_ms": 747.167, "update_time_ms": 2.416, "sample_time_ms": 34644.115}, "date": "2025-08-31_10-47-39", "hostname": "cda-server-4", "time_this_iter_s": 35.32439637184143, "episodes_total": 12654, "timestamp": 1756630059, "node_ip": "10.157.146.4", "done": false, "time_total_s": 66998.0498661995, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2110, "episode_reward_mean": -606.107736009567, "training_iteration": 2110, "timesteps_total": 2532000, "policy_reward_mean": {}, "episode_reward_min": -792.894191146211, "timesteps_since_restore": 2532000, "num_metric_batches_dropped": 0, "time_since_restore": 67034.18961191177, "episode_reward_max": -444.99197991696525, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2532000, "default": {"kl": 0.009499619714915752, "policy_loss": -0.1284082680940628, "vf_loss": 168.82012939453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9723072052001953, "entropy": 3.9397647380828857, "cur_lr": 4.999999873689376e-05, "total_loss": 168.70614624023438}, "load_time_ms": 0.678, "num_steps_sampled": 2532000, "grad_time_ms": 747.619, "update_time_ms": 2.44, "sample_time_ms": 34725.367}, "date": "2025-08-31_10-48-15", "hostname": "cda-server-4", "time_this_iter_s": 36.13974571228027, "episodes_total": 12660, "timestamp": 1756630095, "node_ip": "10.157.146.4", "done": false, "time_total_s": 67034.18961191177, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2111, "episode_reward_mean": -608.3302839880215, "training_iteration": 2111, "timesteps_total": 2533200, "policy_reward_mean": {}, "episode_reward_min": -795.132250150758, "timesteps_since_restore": 2533200, "num_metric_batches_dropped": 0, "time_since_restore": 67069.78491735458, "episode_reward_max": -444.99197991696525, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2533200, "default": {"kl": 0.010430052876472473, "policy_loss": -0.13945919275283813, "vf_loss": 470.2033996582031, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.952276885509491, "entropy": 4.481314659118652, "cur_lr": 4.999999873689376e-05, "total_loss": 470.0798034667969}, "load_time_ms": 0.644, "num_steps_sampled": 2533200, "grad_time_ms": 748.206, "update_time_ms": 2.464, "sample_time_ms": 34619.861}, "date": "2025-08-31_10-48-51", "hostname": "cda-server-4", "time_this_iter_s": 35.59530544281006, "episodes_total": 12666, "timestamp": 1756630131, "node_ip": "10.157.146.4", "done": false, "time_total_s": 67069.78491735458, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2112, "episode_reward_mean": -608.4684903884116, "training_iteration": 2112, "timesteps_total": 2534400, "policy_reward_mean": {}, "episode_reward_min": -795.132250150758, "timesteps_since_restore": 2534400, "num_metric_batches_dropped": 0, "time_since_restore": 67105.23070144653, "episode_reward_max": -444.99197991696525, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2534400, "default": {"kl": 0.011930739507079124, "policy_loss": -0.16622015833854675, "vf_loss": 212.33123779296875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9800072908401489, "entropy": 4.229185104370117, "cur_lr": 4.999999873689376e-05, "total_loss": 212.1831512451172}, "load_time_ms": 0.642, "num_steps_sampled": 2534400, "grad_time_ms": 747.296, "update_time_ms": 2.543, "sample_time_ms": 34636.783}, "date": "2025-08-31_10-49-26", "hostname": "cda-server-4", "time_this_iter_s": 35.44578409194946, "episodes_total": 12672, "timestamp": 1756630166, "node_ip": "10.157.146.4", "done": false, "time_total_s": 67105.23070144653, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2113, "episode_reward_mean": -608.5520195307674, "training_iteration": 2113, "timesteps_total": 2535600, "policy_reward_mean": {}, "episode_reward_min": -795.132250150758, "timesteps_since_restore": 2535600, "num_metric_batches_dropped": 0, "time_since_restore": 67141.4366710186, "episode_reward_max": -444.99197991696525, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2535600, "default": {"kl": 0.008381631225347519, "policy_loss": -0.11356617510318756, "vf_loss": 258.2740478515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9685952067375183, "entropy": 3.8853933811187744, "cur_lr": 4.999999873689376e-05, "total_loss": 258.1732177734375}, "load_time_ms": 0.639, "num_steps_sampled": 2535600, "grad_time_ms": 739.827, "update_time_ms": 2.445, "sample_time_ms": 34679.433}, "date": "2025-08-31_10-50-03", "hostname": "cda-server-4", "time_this_iter_s": 36.20596957206726, "episodes_total": 12678, "timestamp": 1756630203, "node_ip": "10.157.146.4", "done": false, "time_total_s": 67141.4366710186, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2114, "episode_reward_mean": -608.5846656638367, "training_iteration": 2114, "timesteps_total": 2536800, "policy_reward_mean": {}, "episode_reward_min": -795.132250150758, "timesteps_since_restore": 2536800, "num_metric_batches_dropped": 0, "time_since_restore": 67176.13394665718, "episode_reward_max": -444.99197991696525, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2536800, "default": {"kl": 0.009978757239878178, "policy_loss": -0.12028736621141434, "vf_loss": 293.6295471191406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9704354405403137, "entropy": 3.864412546157837, "cur_lr": 4.999999873689376e-05, "total_loss": 293.5244445800781}, "load_time_ms": 0.644, "num_steps_sampled": 2536800, "grad_time_ms": 738.931, "update_time_ms": 2.386, "sample_time_ms": 34720.686}, "date": "2025-08-31_10-50-37", "hostname": "cda-server-4", "time_this_iter_s": 34.69727563858032, "episodes_total": 12684, "timestamp": 1756630237, "node_ip": "10.157.146.4", "done": false, "time_total_s": 67176.13394665718, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2115, "episode_reward_mean": -608.3921604317715, "training_iteration": 2115, "timesteps_total": 2538000, "policy_reward_mean": {}, "episode_reward_min": -795.132250150758, "timesteps_since_restore": 2538000, "num_metric_batches_dropped": 0, "time_since_restore": 67211.11221647263, "episode_reward_max": -444.99197991696525, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2538000, "default": {"kl": 0.011829104274511337, "policy_loss": -0.10702775418758392, "vf_loss": 608.7882080078125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9480480551719666, "entropy": 4.005354404449463, "cur_lr": 4.999999873689376e-05, "total_loss": 608.6991577148438}, "load_time_ms": 0.64, "num_steps_sampled": 2538000, "grad_time_ms": 738.718, "update_time_ms": 2.421, "sample_time_ms": 34700.587}, "date": "2025-08-31_10-51-12", "hostname": "cda-server-4", "time_this_iter_s": 34.978269815444946, "episodes_total": 12690, "timestamp": 1756630272, "node_ip": "10.157.146.4", "done": false, "time_total_s": 67211.11221647263, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2116, "episode_reward_mean": -609.3026625739898, "training_iteration": 2116, "timesteps_total": 2539200, "policy_reward_mean": {}, "episode_reward_min": -795.132250150758, "timesteps_since_restore": 2539200, "num_metric_batches_dropped": 0, "time_since_restore": 67246.2160820961, "episode_reward_max": -444.99197991696525, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2539200, "default": {"kl": 0.010474590584635735, "policy_loss": -0.15077652037143707, "vf_loss": 75.82998657226562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9911866784095764, "entropy": 3.96811842918396, "cur_lr": 4.999999873689376e-05, "total_loss": 75.69512176513672}, "load_time_ms": 0.644, "num_steps_sampled": 2539200, "grad_time_ms": 736.581, "update_time_ms": 2.465, "sample_time_ms": 34624.859}, "date": "2025-08-31_10-51-47", "hostname": "cda-server-4", "time_this_iter_s": 35.10386562347412, "episodes_total": 12696, "timestamp": 1756630307, "node_ip": "10.157.146.4", "done": false, "time_total_s": 67246.2160820961, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2117, "episode_reward_mean": -609.5063232880216, "training_iteration": 2117, "timesteps_total": 2540400, "policy_reward_mean": {}, "episode_reward_min": -795.132250150758, "timesteps_since_restore": 2540400, "num_metric_batches_dropped": 0, "time_since_restore": 67281.97920298576, "episode_reward_max": -444.99197991696525, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2540400, "default": {"kl": 0.012016210705041885, "policy_loss": -0.136116623878479, "vf_loss": 317.9356689453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9729039669036865, "entropy": 3.9816408157348633, "cur_lr": 4.999999873689376e-05, "total_loss": 317.8177795410156}, "load_time_ms": 0.679, "num_steps_sampled": 2540400, "grad_time_ms": 736.933, "update_time_ms": 2.487, "sample_time_ms": 34680.944}, "date": "2025-08-31_10-52-23", "hostname": "cda-server-4", "time_this_iter_s": 35.763120889663696, "episodes_total": 12702, "timestamp": 1756630343, "node_ip": "10.157.146.4", "done": false, "time_total_s": 67281.97920298576, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2118, "episode_reward_mean": -609.4501730981614, "training_iteration": 2118, "timesteps_total": 2541600, "policy_reward_mean": {}, "episode_reward_min": -795.132250150758, "timesteps_since_restore": 2541600, "num_metric_batches_dropped": 0, "time_since_restore": 67316.59956002235, "episode_reward_max": -444.99197991696525, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2541600, "default": {"kl": 0.009822496213018894, "policy_loss": -0.13197651505470276, "vf_loss": 112.72950744628906, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9852827787399292, "entropy": 3.935469388961792, "cur_lr": 4.999999873689376e-05, "total_loss": 112.61244201660156}, "load_time_ms": 0.673, "num_steps_sampled": 2541600, "grad_time_ms": 736.722, "update_time_ms": 2.513, "sample_time_ms": 34643.319}, "date": "2025-08-31_10-52-58", "hostname": "cda-server-4", "time_this_iter_s": 34.620357036590576, "episodes_total": 12708, "timestamp": 1756630378, "node_ip": "10.157.146.4", "done": false, "time_total_s": 67316.59956002235, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2119, "episode_reward_mean": -608.6705837962667, "training_iteration": 2119, "timesteps_total": 2542800, "policy_reward_mean": {}, "episode_reward_min": -795.132250150758, "timesteps_since_restore": 2542800, "num_metric_batches_dropped": 0, "time_since_restore": 67351.98520565033, "episode_reward_max": -444.99197991696525, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2542800, "default": {"kl": 0.010169426910579205, "policy_loss": -0.1266127973794937, "vf_loss": 400.8708801269531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9531026482582092, "entropy": 3.94289493560791, "cur_lr": 4.999999873689376e-05, "total_loss": 400.75970458984375}, "load_time_ms": 0.662, "num_steps_sampled": 2542800, "grad_time_ms": 736.698, "update_time_ms": 2.426, "sample_time_ms": 34649.494}, "date": "2025-08-31_10-53-33", "hostname": "cda-server-4", "time_this_iter_s": 35.385645627975464, "episodes_total": 12714, "timestamp": 1756630413, "node_ip": "10.157.146.4", "done": false, "time_total_s": 67351.98520565033, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2120, "episode_reward_mean": -608.7902854324068, "training_iteration": 2120, "timesteps_total": 2544000, "policy_reward_mean": {}, "episode_reward_min": -795.132250150758, "timesteps_since_restore": 2544000, "num_metric_batches_dropped": 0, "time_since_restore": 67387.49522995949, "episode_reward_max": -444.99197991696525, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2544000, "default": {"kl": 0.010875193402171135, "policy_loss": -0.14664725959300995, "vf_loss": 237.4443359375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9708124995231628, "entropy": 4.050792694091797, "cur_lr": 4.999999873689376e-05, "total_loss": 237.314208984375}, "load_time_ms": 0.697, "num_steps_sampled": 2544000, "grad_time_ms": 734.72, "update_time_ms": 2.514, "sample_time_ms": 34588.33}, "date": "2025-08-31_10-54-09", "hostname": "cda-server-4", "time_this_iter_s": 35.510024309158325, "episodes_total": 12720, "timestamp": 1756630449, "node_ip": "10.157.146.4", "done": false, "time_total_s": 67387.49522995949, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2121, "episode_reward_mean": -609.6791827625053, "training_iteration": 2121, "timesteps_total": 2545200, "policy_reward_mean": {}, "episode_reward_min": -795.132250150758, "timesteps_since_restore": 2545200, "num_metric_batches_dropped": 0, "time_since_restore": 67423.2107181549, "episode_reward_max": -444.99197991696525, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2545200, "default": {"kl": 0.009264142252504826, "policy_loss": -0.12580446898937225, "vf_loss": 45.568302154541016, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.992726743221283, "entropy": 4.052072525024414, "cur_lr": 4.999999873689376e-05, "total_loss": 45.456565856933594}, "load_time_ms": 0.698, "num_steps_sampled": 2545200, "grad_time_ms": 732.699, "update_time_ms": 2.486, "sample_time_ms": 34602.423}, "date": "2025-08-31_10-54-44", "hostname": "cda-server-4", "time_this_iter_s": 35.71548819541931, "episodes_total": 12726, "timestamp": 1756630484, "node_ip": "10.157.146.4", "done": false, "time_total_s": 67423.2107181549, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2122, "episode_reward_mean": -610.1514279048139, "training_iteration": 2122, "timesteps_total": 2546400, "policy_reward_mean": {}, "episode_reward_min": -795.132250150758, "timesteps_since_restore": 2546400, "num_metric_batches_dropped": 0, "time_since_restore": 67458.99409270287, "episode_reward_max": -444.99197991696525, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2546400, "default": {"kl": 0.01119274366647005, "policy_loss": -0.16467411816120148, "vf_loss": 181.0012664794922, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9756088256835938, "entropy": 4.093776702880859, "cur_lr": 4.999999873689376e-05, "total_loss": 180.85357666015625}, "load_time_ms": 0.705, "num_steps_sampled": 2546400, "grad_time_ms": 730.748, "update_time_ms": 2.383, "sample_time_ms": 34638.25}, "date": "2025-08-31_10-55-20", "hostname": "cda-server-4", "time_this_iter_s": 35.783374547958374, "episodes_total": 12732, "timestamp": 1756630520, "node_ip": "10.157.146.4", "done": false, "time_total_s": 67458.99409270287, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2123, "episode_reward_mean": -611.2171048104722, "training_iteration": 2123, "timesteps_total": 2547600, "policy_reward_mean": {}, "episode_reward_min": -795.132250150758, "timesteps_since_restore": 2547600, "num_metric_batches_dropped": 0, "time_since_restore": 67494.65609288216, "episode_reward_max": -444.99197991696525, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2547600, "default": {"kl": 0.010613695718348026, "policy_loss": -0.13432246446609497, "vf_loss": 127.98140716552734, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9863779544830322, "entropy": 4.0434889793396, "cur_lr": 4.999999873689376e-05, "total_loss": 127.86319732666016}, "load_time_ms": 0.707, "num_steps_sampled": 2547600, "grad_time_ms": 726.616, "update_time_ms": 2.446, "sample_time_ms": 34587.787}, "date": "2025-08-31_10-55-56", "hostname": "cda-server-4", "time_this_iter_s": 35.66200017929077, "episodes_total": 12738, "timestamp": 1756630556, "node_ip": "10.157.146.4", "done": false, "time_total_s": 67494.65609288216, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2124, "episode_reward_mean": -609.2529148179937, "training_iteration": 2124, "timesteps_total": 2548800, "policy_reward_mean": {}, "episode_reward_min": -795.132250150758, "timesteps_since_restore": 2548800, "num_metric_batches_dropped": 0, "time_since_restore": 67530.36566066742, "episode_reward_max": -444.99197991696525, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2548800, "default": {"kl": 0.011335467919707298, "policy_loss": -0.15513218939304352, "vf_loss": 399.0946350097656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9696744084358215, "entropy": 4.147453308105469, "cur_lr": 4.999999873689376e-05, "total_loss": 398.9566955566406}, "load_time_ms": 0.741, "num_steps_sampled": 2548800, "grad_time_ms": 718.342, "update_time_ms": 2.453, "sample_time_ms": 34697.322}, "date": "2025-08-31_10-56-32", "hostname": "cda-server-4", "time_this_iter_s": 35.70956778526306, "episodes_total": 12744, "timestamp": 1756630592, "node_ip": "10.157.146.4", "done": false, "time_total_s": 67530.36566066742, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2125, "episode_reward_mean": -611.40116812102, "training_iteration": 2125, "timesteps_total": 2550000, "policy_reward_mean": {}, "episode_reward_min": -795.132250150758, "timesteps_since_restore": 2550000, "num_metric_batches_dropped": 0, "time_since_restore": 67564.98214530945, "episode_reward_max": -493.427801190521, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2550000, "default": {"kl": 0.011650711297988892, "policy_loss": -0.12849318981170654, "vf_loss": 149.42059326171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9835205078125, "entropy": 3.8191630840301514, "cur_lr": 4.999999873689376e-05, "total_loss": 149.30978393554688}, "load_time_ms": 0.776, "num_steps_sampled": 2550000, "grad_time_ms": 706.595, "update_time_ms": 2.412, "sample_time_ms": 34672.887}, "date": "2025-08-31_10-57-06", "hostname": "cda-server-4", "time_this_iter_s": 34.61648464202881, "episodes_total": 12750, "timestamp": 1756630626, "node_ip": "10.157.146.4", "done": false, "time_total_s": 67564.98214530945, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2126, "episode_reward_mean": -612.6992140162138, "training_iteration": 2126, "timesteps_total": 2551200, "policy_reward_mean": {}, "episode_reward_min": -795.132250150758, "timesteps_since_restore": 2551200, "num_metric_batches_dropped": 0, "time_since_restore": 67601.02404093742, "episode_reward_max": -552.5817008995135, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2551200, "default": {"kl": 0.011348553001880646, "policy_loss": -0.14787958562374115, "vf_loss": 310.8244934082031, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9825913310050964, "entropy": 4.0395731925964355, "cur_lr": 4.999999873689376e-05, "total_loss": 310.69384765625}, "load_time_ms": 0.758, "num_steps_sampled": 2551200, "grad_time_ms": 706.962, "update_time_ms": 2.386, "sample_time_ms": 34766.428}, "date": "2025-08-31_10-57-42", "hostname": "cda-server-4", "time_this_iter_s": 36.041895627975464, "episodes_total": 12756, "timestamp": 1756630662, "node_ip": "10.157.146.4", "done": false, "time_total_s": 67601.02404093742, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2127, "episode_reward_mean": -613.0423108424114, "training_iteration": 2127, "timesteps_total": 2552400, "policy_reward_mean": {}, "episode_reward_min": -795.132250150758, "timesteps_since_restore": 2552400, "num_metric_batches_dropped": 0, "time_since_restore": 67636.74287509918, "episode_reward_max": -552.5817008995135, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2552400, "default": {"kl": 0.010298475623130798, "policy_loss": -0.14992481470108032, "vf_loss": 156.45123291015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9887057542800903, "entropy": 4.001976490020752, "cur_lr": 4.999999873689376e-05, "total_loss": 156.31695556640625}, "load_time_ms": 0.726, "num_steps_sampled": 2552400, "grad_time_ms": 706.667, "update_time_ms": 2.327, "sample_time_ms": 34762.455}, "date": "2025-08-31_10-58-18", "hostname": "cda-server-4", "time_this_iter_s": 35.71883416175842, "episodes_total": 12762, "timestamp": 1756630698, "node_ip": "10.157.146.4", "done": false, "time_total_s": 67636.74287509918, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2128, "episode_reward_mean": -612.6922031269737, "training_iteration": 2128, "timesteps_total": 2553600, "policy_reward_mean": {}, "episode_reward_min": -776.4091783952593, "timesteps_since_restore": 2553600, "num_metric_batches_dropped": 0, "time_since_restore": 67671.98682379723, "episode_reward_max": -552.5817008995135, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2553600, "default": {"kl": 0.00942000187933445, "policy_loss": -0.13269612193107605, "vf_loss": 712.757568359375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9620148539543152, "entropy": 4.3214616775512695, "cur_lr": 4.999999873689376e-05, "total_loss": 712.63916015625}, "load_time_ms": 0.73, "num_steps_sampled": 2553600, "grad_time_ms": 708.576, "update_time_ms": 2.276, "sample_time_ms": 34822.909}, "date": "2025-08-31_10-58-53", "hostname": "cda-server-4", "time_this_iter_s": 35.24394869804382, "episodes_total": 12768, "timestamp": 1756630733, "node_ip": "10.157.146.4", "done": false, "time_total_s": 67671.98682379723, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2129, "episode_reward_mean": -611.7757642105614, "training_iteration": 2129, "timesteps_total": 2554800, "policy_reward_mean": {}, "episode_reward_min": -776.4091783952593, "timesteps_since_restore": 2554800, "num_metric_batches_dropped": 0, "time_since_restore": 67706.79139661789, "episode_reward_max": -552.5817008995135, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2554800, "default": {"kl": 0.011052236892282963, "policy_loss": -0.12582120299339294, "vf_loss": 86.15287017822266, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9893815517425537, "entropy": 3.8319554328918457, "cur_lr": 4.999999873689376e-05, "total_loss": 86.04383087158203}, "load_time_ms": 0.772, "num_steps_sampled": 2554800, "grad_time_ms": 708.96, "update_time_ms": 2.312, "sample_time_ms": 34764.447}, "date": "2025-08-31_10-59-28", "hostname": "cda-server-4", "time_this_iter_s": 34.80457282066345, "episodes_total": 12774, "timestamp": 1756630768, "node_ip": "10.157.146.4", "done": false, "time_total_s": 67706.79139661789, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2130, "episode_reward_mean": -611.219714779898, "training_iteration": 2130, "timesteps_total": 2556000, "policy_reward_mean": {}, "episode_reward_min": -776.4091783952593, "timesteps_since_restore": 2556000, "num_metric_batches_dropped": 0, "time_since_restore": 67742.46499085426, "episode_reward_max": -491.8343513638512, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2556000, "default": {"kl": 0.010028521530330181, "policy_loss": -0.15062618255615234, "vf_loss": 398.2076721191406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9562812447547913, "entropy": 4.0081658363342285, "cur_lr": 4.999999873689376e-05, "total_loss": 398.072265625}, "load_time_ms": 0.737, "num_steps_sampled": 2556000, "grad_time_ms": 709.782, "update_time_ms": 2.248, "sample_time_ms": 34780.13}, "date": "2025-08-31_11-00-04", "hostname": "cda-server-4", "time_this_iter_s": 35.6735942363739, "episodes_total": 12780, "timestamp": 1756630804, "node_ip": "10.157.146.4", "done": false, "time_total_s": 67742.46499085426, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2131, "episode_reward_mean": -609.6532670180452, "training_iteration": 2131, "timesteps_total": 2557200, "policy_reward_mean": {}, "episode_reward_min": -776.4091783952593, "timesteps_since_restore": 2557200, "num_metric_batches_dropped": 0, "time_since_restore": 67778.13375687599, "episode_reward_max": -465.5834349432444, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2557200, "default": {"kl": 0.010608052834868431, "policy_loss": -0.13246671855449677, "vf_loss": 153.74288940429688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9804508686065674, "entropy": 3.912073850631714, "cur_lr": 4.999999873689376e-05, "total_loss": 153.62652587890625}, "load_time_ms": 0.778, "num_steps_sampled": 2557200, "grad_time_ms": 711.146, "update_time_ms": 2.308, "sample_time_ms": 34773.954}, "date": "2025-08-31_11-00-40", "hostname": "cda-server-4", "time_this_iter_s": 35.668766021728516, "episodes_total": 12786, "timestamp": 1756630840, "node_ip": "10.157.146.4", "done": false, "time_total_s": 67778.13375687599, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2132, "episode_reward_mean": -608.8675480885032, "training_iteration": 2132, "timesteps_total": 2558400, "policy_reward_mean": {}, "episode_reward_min": -776.4091783952593, "timesteps_since_restore": 2558400, "num_metric_batches_dropped": 0, "time_since_restore": 67812.9608848095, "episode_reward_max": -465.5834349432444, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2558400, "default": {"kl": 0.010898836888372898, "policy_loss": -0.1615518182516098, "vf_loss": 42.6531982421875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9945099949836731, "entropy": 3.9494595527648926, "cur_lr": 4.999999873689376e-05, "total_loss": 42.508201599121094}, "load_time_ms": 0.768, "num_steps_sampled": 2558400, "grad_time_ms": 711.594, "update_time_ms": 2.302, "sample_time_ms": 34677.903}, "date": "2025-08-31_11-01-14", "hostname": "cda-server-4", "time_this_iter_s": 34.8271279335022, "episodes_total": 12792, "timestamp": 1756630874, "node_ip": "10.157.146.4", "done": false, "time_total_s": 67812.9608848095, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2133, "episode_reward_mean": -609.969769315466, "training_iteration": 2133, "timesteps_total": 2559600, "policy_reward_mean": {}, "episode_reward_min": -796.803456048463, "timesteps_since_restore": 2559600, "num_metric_batches_dropped": 0, "time_since_restore": 67849.10147070885, "episode_reward_max": -465.5834349432444, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2559600, "default": {"kl": 0.010113743133842945, "policy_loss": -0.13109414279460907, "vf_loss": 867.329345703125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9452223181724548, "entropy": 4.253957748413086, "cur_lr": 4.999999873689376e-05, "total_loss": 867.213623046875}, "load_time_ms": 0.764, "num_steps_sampled": 2559600, "grad_time_ms": 721.028, "update_time_ms": 2.358, "sample_time_ms": 34716.501}, "date": "2025-08-31_11-01-51", "hostname": "cda-server-4", "time_this_iter_s": 36.14058589935303, "episodes_total": 12798, "timestamp": 1756630911, "node_ip": "10.157.146.4", "done": false, "time_total_s": 67849.10147070885, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2134, "episode_reward_mean": -610.3674650513182, "training_iteration": 2134, "timesteps_total": 2560800, "policy_reward_mean": {}, "episode_reward_min": -796.803456048463, "timesteps_since_restore": 2560800, "num_metric_batches_dropped": 0, "time_since_restore": 67884.61097574234, "episode_reward_max": -465.5834349432444, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2560800, "default": {"kl": 0.009699107147753239, "policy_loss": -0.14369221031665802, "vf_loss": 23.835477828979492, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9970239996910095, "entropy": 4.0044636726379395, "cur_lr": 4.999999873689376e-05, "total_loss": 23.706518173217773}, "load_time_ms": 0.726, "num_steps_sampled": 2560800, "grad_time_ms": 727.226, "update_time_ms": 2.486, "sample_time_ms": 34690.174}, "date": "2025-08-31_11-02-26", "hostname": "cda-server-4", "time_this_iter_s": 35.50950503349304, "episodes_total": 12804, "timestamp": 1756630946, "node_ip": "10.157.146.4", "done": false, "time_total_s": 67884.61097574234, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2135, "episode_reward_mean": -611.0869494331812, "training_iteration": 2135, "timesteps_total": 2562000, "policy_reward_mean": {}, "episode_reward_min": -796.803456048463, "timesteps_since_restore": 2562000, "num_metric_batches_dropped": 0, "time_since_restore": 67920.43529129028, "episode_reward_max": -465.5834349432444, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2562000, "default": {"kl": 0.01092279702425003, "policy_loss": -0.13402427732944489, "vf_loss": 88.07266998291016, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9920728206634521, "entropy": 3.9404428005218506, "cur_lr": 4.999999873689376e-05, "total_loss": 87.95523834228516}, "load_time_ms": 0.694, "num_steps_sampled": 2562000, "grad_time_ms": 735.938, "update_time_ms": 2.449, "sample_time_ms": 34802.318}, "date": "2025-08-31_11-03-02", "hostname": "cda-server-4", "time_this_iter_s": 35.824315547943115, "episodes_total": 12810, "timestamp": 1756630982, "node_ip": "10.157.146.4", "done": false, "time_total_s": 67920.43529129028, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2136, "episode_reward_mean": -611.8936256175333, "training_iteration": 2136, "timesteps_total": 2563200, "policy_reward_mean": {}, "episode_reward_min": -796.803456048463, "timesteps_since_restore": 2563200, "num_metric_batches_dropped": 0, "time_since_restore": 67955.01660871506, "episode_reward_max": -465.5834349432444, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2563200, "default": {"kl": 0.011090533807873726, "policy_loss": -0.1515025943517685, "vf_loss": 152.4479522705078, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9906209111213684, "entropy": 3.9169185161590576, "cur_lr": 4.999999873689376e-05, "total_loss": 152.31329345703125}, "load_time_ms": 0.703, "num_steps_sampled": 2563200, "grad_time_ms": 722.559, "update_time_ms": 2.44, "sample_time_ms": 34669.568}, "date": "2025-08-31_11-03-37", "hostname": "cda-server-4", "time_this_iter_s": 34.58131742477417, "episodes_total": 12816, "timestamp": 1756631017, "node_ip": "10.157.146.4", "done": false, "time_total_s": 67955.01660871506, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2137, "episode_reward_mean": -611.0519473952968, "training_iteration": 2137, "timesteps_total": 2564400, "policy_reward_mean": {}, "episode_reward_min": -796.803456048463, "timesteps_since_restore": 2564400, "num_metric_batches_dropped": 0, "time_since_restore": 67990.51407432556, "episode_reward_max": -465.5834349432444, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2564400, "default": {"kl": 0.009423417039215565, "policy_loss": -0.11873466521501541, "vf_loss": 80.49378967285156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9885666966438293, "entropy": 3.9253032207489014, "cur_lr": 4.999999873689376e-05, "total_loss": 80.38935852050781}, "load_time_ms": 0.702, "num_steps_sampled": 2564400, "grad_time_ms": 696.858, "update_time_ms": 2.539, "sample_time_ms": 34673.081}, "date": "2025-08-31_11-04-12", "hostname": "cda-server-4", "time_this_iter_s": 35.49746561050415, "episodes_total": 12822, "timestamp": 1756631052, "node_ip": "10.157.146.4", "done": false, "time_total_s": 67990.51407432556, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2138, "episode_reward_mean": -610.0228481452705, "training_iteration": 2138, "timesteps_total": 2565600, "policy_reward_mean": {}, "episode_reward_min": -796.803456048463, "timesteps_since_restore": 2565600, "num_metric_batches_dropped": 0, "time_since_restore": 68026.21373128891, "episode_reward_max": -465.5834349432444, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2565600, "default": {"kl": 0.010534554719924927, "policy_loss": -0.1393415331840515, "vf_loss": 87.86719512939453, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.990213930606842, "entropy": 3.8762550354003906, "cur_lr": 4.999999873689376e-05, "total_loss": 87.74385070800781}, "load_time_ms": 0.714, "num_steps_sampled": 2565600, "grad_time_ms": 670.415, "update_time_ms": 2.559, "sample_time_ms": 34745.106}, "date": "2025-08-31_11-04-48", "hostname": "cda-server-4", "time_this_iter_s": 35.69965696334839, "episodes_total": 12828, "timestamp": 1756631088, "node_ip": "10.157.146.4", "done": false, "time_total_s": 68026.21373128891, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2139, "episode_reward_mean": -609.457282876534, "training_iteration": 2139, "timesteps_total": 2566800, "policy_reward_mean": {}, "episode_reward_min": -796.803456048463, "timesteps_since_restore": 2566800, "num_metric_batches_dropped": 0, "time_since_restore": 68060.81530690193, "episode_reward_max": -465.5834349432444, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2566800, "default": {"kl": 0.010054183192551136, "policy_loss": -0.13152530789375305, "vf_loss": 252.9229278564453, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9705049991607666, "entropy": 3.9809863567352295, "cur_lr": 4.999999873689376e-05, "total_loss": 252.80667114257812}, "load_time_ms": 0.703, "num_steps_sampled": 2566800, "grad_time_ms": 653.297, "update_time_ms": 2.514, "sample_time_ms": 34741.901}, "date": "2025-08-31_11-05-22", "hostname": "cda-server-4", "time_this_iter_s": 34.60157561302185, "episodes_total": 12834, "timestamp": 1756631122, "node_ip": "10.157.146.4", "done": false, "time_total_s": 68060.81530690193, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2140, "episode_reward_mean": -611.1231367571421, "training_iteration": 2140, "timesteps_total": 2568000, "policy_reward_mean": {}, "episode_reward_min": -796.803456048463, "timesteps_since_restore": 2568000, "num_metric_batches_dropped": 0, "time_since_restore": 68095.95192432404, "episode_reward_max": -465.5834349432444, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2568000, "default": {"kl": 0.011194075457751751, "policy_loss": -0.151719868183136, "vf_loss": 378.1569519042969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9719390869140625, "entropy": 4.2329888343811035, "cur_lr": 4.999999873689376e-05, "total_loss": 378.022216796875}, "load_time_ms": 0.723, "num_steps_sampled": 2568000, "grad_time_ms": 628.593, "update_time_ms": 2.537, "sample_time_ms": 34712.953}, "date": "2025-08-31_11-05-57", "hostname": "cda-server-4", "time_this_iter_s": 35.13661742210388, "episodes_total": 12840, "timestamp": 1756631157, "node_ip": "10.157.146.4", "done": false, "time_total_s": 68095.95192432404, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2141, "episode_reward_mean": -610.3309340701804, "training_iteration": 2141, "timesteps_total": 2569200, "policy_reward_mean": {}, "episode_reward_min": -796.803456048463, "timesteps_since_restore": 2569200, "num_metric_batches_dropped": 0, "time_since_restore": 68131.42287492752, "episode_reward_max": -465.5834349432444, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2569200, "default": {"kl": 0.013014400377869606, "policy_loss": -0.1619514524936676, "vf_loss": 201.82456970214844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9818825125694275, "entropy": 3.958056926727295, "cur_lr": 4.999999873689376e-05, "total_loss": 201.68238830566406}, "load_time_ms": 0.68, "num_steps_sampled": 2569200, "grad_time_ms": 603.392, "update_time_ms": 2.443, "sample_time_ms": 34718.588}, "date": "2025-08-31_11-06-33", "hostname": "cda-server-4", "time_this_iter_s": 35.47095060348511, "episodes_total": 12846, "timestamp": 1756631193, "node_ip": "10.157.146.4", "done": false, "time_total_s": 68131.42287492752, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2142, "episode_reward_mean": -609.7345058064974, "training_iteration": 2142, "timesteps_total": 2570400, "policy_reward_mean": {}, "episode_reward_min": -796.803456048463, "timesteps_since_restore": 2570400, "num_metric_batches_dropped": 0, "time_since_restore": 68166.16264081001, "episode_reward_max": -465.5834349432444, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2570400, "default": {"kl": 0.009174809791147709, "policy_loss": -0.13069210946559906, "vf_loss": 128.29962158203125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9855210185050964, "entropy": 3.939316749572754, "cur_lr": 4.999999873689376e-05, "total_loss": 128.18287658691406}, "load_time_ms": 0.68, "num_steps_sampled": 2570400, "grad_time_ms": 592.224, "update_time_ms": 2.424, "sample_time_ms": 34720.932}, "date": "2025-08-31_11-07-08", "hostname": "cda-server-4", "time_this_iter_s": 34.739765882492065, "episodes_total": 12852, "timestamp": 1756631228, "node_ip": "10.157.146.4", "done": false, "time_total_s": 68166.16264081001, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2143, "episode_reward_mean": -609.1642158601259, "training_iteration": 2143, "timesteps_total": 2571600, "policy_reward_mean": {}, "episode_reward_min": -796.803456048463, "timesteps_since_restore": 2571600, "num_metric_batches_dropped": 0, "time_since_restore": 68201.14614343643, "episode_reward_max": -465.5834349432444, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2571600, "default": {"kl": 0.012063219211995602, "policy_loss": -0.14801964163780212, "vf_loss": 80.00202941894531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9893061518669128, "entropy": 3.934128761291504, "cur_lr": 4.999999873689376e-05, "total_loss": 79.87232208251953}, "load_time_ms": 0.652, "num_steps_sampled": 2571600, "grad_time_ms": 584.157, "update_time_ms": 2.379, "sample_time_ms": 34613.39}, "date": "2025-08-31_11-07-43", "hostname": "cda-server-4", "time_this_iter_s": 34.98350262641907, "episodes_total": 12858, "timestamp": 1756631263, "node_ip": "10.157.146.4", "done": false, "time_total_s": 68201.14614343643, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2144, "episode_reward_mean": -611.0889492901741, "training_iteration": 2144, "timesteps_total": 2572800, "policy_reward_mean": {}, "episode_reward_min": -796.803456048463, "timesteps_since_restore": 2572800, "num_metric_batches_dropped": 0, "time_since_restore": 68236.11615681648, "episode_reward_max": -465.5834349432444, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2572800, "default": {"kl": 0.01218993030488491, "policy_loss": -0.15865015983581543, "vf_loss": 332.58111572265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9705363512039185, "entropy": 4.257010459899902, "cur_lr": 4.999999873689376e-05, "total_loss": 332.4410095214844}, "load_time_ms": 0.683, "num_steps_sampled": 2572800, "grad_time_ms": 578.98, "update_time_ms": 2.216, "sample_time_ms": 34564.735}, "date": "2025-08-31_11-08-18", "hostname": "cda-server-4", "time_this_iter_s": 34.97001338005066, "episodes_total": 12864, "timestamp": 1756631298, "node_ip": "10.157.146.4", "done": false, "time_total_s": 68236.11615681648, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2145, "episode_reward_mean": -609.6035551296394, "training_iteration": 2145, "timesteps_total": 2574000, "policy_reward_mean": {}, "episode_reward_min": -796.803456048463, "timesteps_since_restore": 2574000, "num_metric_batches_dropped": 0, "time_since_restore": 68272.28769659996, "episode_reward_max": -465.5834349432444, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2574000, "default": {"kl": 0.011144662275910378, "policy_loss": -0.13991917669773102, "vf_loss": 298.13330078125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9617430567741394, "entropy": 3.9859237670898438, "cur_lr": 4.999999873689376e-05, "total_loss": 298.0102844238281}, "load_time_ms": 0.681, "num_steps_sampled": 2574000, "grad_time_ms": 574.064, "update_time_ms": 2.24, "sample_time_ms": 34604.43}, "date": "2025-08-31_11-08-54", "hostname": "cda-server-4", "time_this_iter_s": 36.17153978347778, "episodes_total": 12870, "timestamp": 1756631334, "node_ip": "10.157.146.4", "done": false, "time_total_s": 68272.28769659996, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2146, "episode_reward_mean": -609.2632172108899, "training_iteration": 2146, "timesteps_total": 2575200, "policy_reward_mean": {}, "episode_reward_min": -796.803456048463, "timesteps_since_restore": 2575200, "num_metric_batches_dropped": 0, "time_since_restore": 68306.98830103874, "episode_reward_max": -465.5834349432444, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2575200, "default": {"kl": 0.010421361774206161, "policy_loss": -0.12782907485961914, "vf_loss": 446.7897644042969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.93562251329422, "entropy": 3.897040843963623, "cur_lr": 4.999999873689376e-05, "total_loss": 446.677734375}, "load_time_ms": 0.674, "num_steps_sampled": 2575200, "grad_time_ms": 580.413, "update_time_ms": 2.227, "sample_time_ms": 34610.144}, "date": "2025-08-31_11-09-29", "hostname": "cda-server-4", "time_this_iter_s": 34.70060443878174, "episodes_total": 12876, "timestamp": 1756631369, "node_ip": "10.157.146.4", "done": false, "time_total_s": 68306.98830103874, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2147, "episode_reward_mean": -608.6853325717608, "training_iteration": 2147, "timesteps_total": 2576400, "policy_reward_mean": {}, "episode_reward_min": -796.803456048463, "timesteps_since_restore": 2576400, "num_metric_batches_dropped": 0, "time_since_restore": 68342.99186730385, "episode_reward_max": -450.7096416062522, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2576400, "default": {"kl": 0.010172966867685318, "policy_loss": -0.14062030613422394, "vf_loss": 361.9304504394531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9507683515548706, "entropy": 4.067106246948242, "cur_lr": 4.999999873689376e-05, "total_loss": 361.8052978515625}, "load_time_ms": 0.67, "num_steps_sampled": 2576400, "grad_time_ms": 609.06, "update_time_ms": 2.123, "sample_time_ms": 34632.177}, "date": "2025-08-31_11-10-05", "hostname": "cda-server-4", "time_this_iter_s": 36.0035662651062, "episodes_total": 12882, "timestamp": 1756631405, "node_ip": "10.157.146.4", "done": false, "time_total_s": 68342.99186730385, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2148, "episode_reward_mean": -610.0205688306759, "training_iteration": 2148, "timesteps_total": 2577600, "policy_reward_mean": {}, "episode_reward_min": -796.803456048463, "timesteps_since_restore": 2577600, "num_metric_batches_dropped": 0, "time_since_restore": 68378.7698135376, "episode_reward_max": -450.7096416062522, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2577600, "default": {"kl": 0.01116274669766426, "policy_loss": -0.14906735718250275, "vf_loss": 88.33808135986328, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.991395115852356, "entropy": 4.026288032531738, "cur_lr": 4.999999873689376e-05, "total_loss": 88.20597076416016}, "load_time_ms": 0.656, "num_steps_sampled": 2577600, "grad_time_ms": 635.858, "update_time_ms": 2.24, "sample_time_ms": 34613.045}, "date": "2025-08-31_11-10-40", "hostname": "cda-server-4", "time_this_iter_s": 35.77794623374939, "episodes_total": 12888, "timestamp": 1756631440, "node_ip": "10.157.146.4", "done": false, "time_total_s": 68378.7698135376, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2149, "episode_reward_mean": -610.3648925959078, "training_iteration": 2149, "timesteps_total": 2578800, "policy_reward_mean": {}, "episode_reward_min": -796.803456048463, "timesteps_since_restore": 2578800, "num_metric_batches_dropped": 0, "time_since_restore": 68413.86211848259, "episode_reward_max": -450.7096416062522, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2578800, "default": {"kl": 0.010634851641952991, "policy_loss": -0.1412164717912674, "vf_loss": 302.4495849609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9817307591438293, "entropy": 3.891392707824707, "cur_lr": 4.999999873689376e-05, "total_loss": 302.3245849609375}, "load_time_ms": 0.666, "num_steps_sampled": 2578800, "grad_time_ms": 654.47, "update_time_ms": 2.331, "sample_time_ms": 34643.393}, "date": "2025-08-31_11-11-16", "hostname": "cda-server-4", "time_this_iter_s": 35.092304944992065, "episodes_total": 12894, "timestamp": 1756631476, "node_ip": "10.157.146.4", "done": false, "time_total_s": 68413.86211848259, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2150, "episode_reward_mean": -608.210772146094, "training_iteration": 2150, "timesteps_total": 2580000, "policy_reward_mean": {}, "episode_reward_min": -688.5591109507343, "timesteps_since_restore": 2580000, "num_metric_batches_dropped": 0, "time_since_restore": 68448.53054952621, "episode_reward_max": -450.7096416062522, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2580000, "default": {"kl": 0.009461956098675728, "policy_loss": -0.13603252172470093, "vf_loss": 129.87857055664062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9871448874473572, "entropy": 3.895833730697632, "cur_lr": 4.999999873689376e-05, "total_loss": 129.7569122314453}, "load_time_ms": 0.644, "num_steps_sampled": 2580000, "grad_time_ms": 679.013, "update_time_ms": 2.31, "sample_time_ms": 34572.007}, "date": "2025-08-31_11-11-50", "hostname": "cda-server-4", "time_this_iter_s": 34.66843104362488, "episodes_total": 12900, "timestamp": 1756631510, "node_ip": "10.157.146.4", "done": false, "time_total_s": 68448.53054952621, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2151, "episode_reward_mean": -607.6056921096069, "training_iteration": 2151, "timesteps_total": 2581200, "policy_reward_mean": {}, "episode_reward_min": -688.5591109507343, "timesteps_since_restore": 2581200, "num_metric_batches_dropped": 0, "time_since_restore": 68483.50428318977, "episode_reward_max": -450.7096416062522, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2581200, "default": {"kl": 0.011111687868833542, "policy_loss": -0.1298791766166687, "vf_loss": 123.19855499267578, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9854503273963928, "entropy": 3.90018892288208, "cur_lr": 4.999999873689376e-05, "total_loss": 123.08554077148438}, "load_time_ms": 0.647, "num_steps_sampled": 2581200, "grad_time_ms": 682.664, "update_time_ms": 2.321, "sample_time_ms": 34518.586}, "date": "2025-08-31_11-12-25", "hostname": "cda-server-4", "time_this_iter_s": 34.97373366355896, "episodes_total": 12906, "timestamp": 1756631545, "node_ip": "10.157.146.4", "done": false, "time_total_s": 68483.50428318977, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2152, "episode_reward_mean": -607.1392230160526, "training_iteration": 2152, "timesteps_total": 2582400, "policy_reward_mean": {}, "episode_reward_min": -688.5591109507343, "timesteps_since_restore": 2582400, "num_metric_batches_dropped": 0, "time_since_restore": 68518.24267530441, "episode_reward_max": -450.7096416062522, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2582400, "default": {"kl": 0.011099845170974731, "policy_loss": -0.14342884719371796, "vf_loss": 104.79702758789062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9881629943847656, "entropy": 4.027764320373535, "cur_lr": 4.999999873689376e-05, "total_loss": 104.67045593261719}, "load_time_ms": 0.648, "num_steps_sampled": 2582400, "grad_time_ms": 684.683, "update_time_ms": 2.368, "sample_time_ms": 34516.452}, "date": "2025-08-31_11-13-00", "hostname": "cda-server-4", "time_this_iter_s": 34.73839211463928, "episodes_total": 12912, "timestamp": 1756631580, "node_ip": "10.157.146.4", "done": false, "time_total_s": 68518.24267530441, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2153, "episode_reward_mean": -606.991626074605, "training_iteration": 2153, "timesteps_total": 2583600, "policy_reward_mean": {}, "episode_reward_min": -688.5591109507343, "timesteps_since_restore": 2583600, "num_metric_batches_dropped": 0, "time_since_restore": 68552.07358670235, "episode_reward_max": -450.7096416062522, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2583600, "default": {"kl": 0.009145810268819332, "policy_loss": -0.11486489325761795, "vf_loss": 61.04960250854492, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9934898018836975, "entropy": 3.85829758644104, "cur_lr": 4.999999873689376e-05, "total_loss": 60.94863510131836}, "load_time_ms": 0.647, "num_steps_sampled": 2583600, "grad_time_ms": 681.699, "update_time_ms": 2.319, "sample_time_ms": 34404.162}, "date": "2025-08-31_11-13-34", "hostname": "cda-server-4", "time_this_iter_s": 33.83091139793396, "episodes_total": 12918, "timestamp": 1756631614, "node_ip": "10.157.146.4", "done": false, "time_total_s": 68552.07358670235, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2154, "episode_reward_mean": -606.75082278617, "training_iteration": 2154, "timesteps_total": 2584800, "policy_reward_mean": {}, "episode_reward_min": -688.5591109507343, "timesteps_since_restore": 2584800, "num_metric_batches_dropped": 0, "time_since_restore": 68586.88155508041, "episode_reward_max": -450.7096416062522, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2584800, "default": {"kl": 0.011262964457273483, "policy_loss": -0.14258496463298798, "vf_loss": 131.23289489746094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9873238801956177, "entropy": 4.020364284515381, "cur_lr": 4.999999873689376e-05, "total_loss": 131.107421875}, "load_time_ms": 0.638, "num_steps_sampled": 2584800, "grad_time_ms": 679.29, "update_time_ms": 2.339, "sample_time_ms": 34390.371}, "date": "2025-08-31_11-14-09", "hostname": "cda-server-4", "time_this_iter_s": 34.80796837806702, "episodes_total": 12924, "timestamp": 1756631649, "node_ip": "10.157.146.4", "done": false, "time_total_s": 68586.88155508041, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2155, "episode_reward_mean": -606.6890556223402, "training_iteration": 2155, "timesteps_total": 2586000, "policy_reward_mean": {}, "episode_reward_min": -688.5591109507343, "timesteps_since_restore": 2586000, "num_metric_batches_dropped": 0, "time_since_restore": 68621.39546608925, "episode_reward_max": -450.7096416062522, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2586000, "default": {"kl": 0.012312313541769981, "policy_loss": -0.15788938105106354, "vf_loss": 120.26020050048828, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9890692234039307, "entropy": 3.895932912826538, "cur_lr": 4.999999873689376e-05, "total_loss": 120.12100982666016}, "load_time_ms": 0.652, "num_steps_sampled": 2586000, "grad_time_ms": 672.89, "update_time_ms": 2.539, "sample_time_ms": 34230.606}, "date": "2025-08-31_11-14-43", "hostname": "cda-server-4", "time_this_iter_s": 34.51391100883484, "episodes_total": 12930, "timestamp": 1756631683, "node_ip": "10.157.146.4", "done": false, "time_total_s": 68621.39546608925, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2156, "episode_reward_mean": -605.8221973423753, "training_iteration": 2156, "timesteps_total": 2587200, "policy_reward_mean": {}, "episode_reward_min": -680.4422518416446, "timesteps_since_restore": 2587200, "num_metric_batches_dropped": 0, "time_since_restore": 68655.83295941353, "episode_reward_max": -450.7096416062522, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2587200, "default": {"kl": 0.00980361644178629, "policy_loss": -0.14139924943447113, "vf_loss": 100.26087951660156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9916204810142517, "entropy": 3.8270063400268555, "cur_lr": 4.999999873689376e-05, "total_loss": 100.13436889648438}, "load_time_ms": 0.656, "num_steps_sampled": 2587200, "grad_time_ms": 664.286, "update_time_ms": 2.548, "sample_time_ms": 34212.819}, "date": "2025-08-31_11-15-18", "hostname": "cda-server-4", "time_this_iter_s": 34.437493324279785, "episodes_total": 12936, "timestamp": 1756631718, "node_ip": "10.157.146.4", "done": false, "time_total_s": 68655.83295941353, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2157, "episode_reward_mean": -604.2970576304956, "training_iteration": 2157, "timesteps_total": 2588400, "policy_reward_mean": {}, "episode_reward_min": -680.4422518416446, "timesteps_since_restore": 2588400, "num_metric_batches_dropped": 0, "time_since_restore": 68689.38299489021, "episode_reward_max": -450.7096416062522, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2588400, "default": {"kl": 0.011413555592298508, "policy_loss": -0.15158945322036743, "vf_loss": 45.98377990722656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9958130717277527, "entropy": 3.8581111431121826, "cur_lr": 4.999999873689376e-05, "total_loss": 45.84952163696289}, "load_time_ms": 0.664, "num_steps_sampled": 2588400, "grad_time_ms": 631.208, "update_time_ms": 2.605, "sample_time_ms": 34000.461}, "date": "2025-08-31_11-15-51", "hostname": "cda-server-4", "time_this_iter_s": 33.55003547668457, "episodes_total": 12942, "timestamp": 1756631751, "node_ip": "10.157.146.4", "done": false, "time_total_s": 68689.38299489021, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2158, "episode_reward_mean": -603.9654940162247, "training_iteration": 2158, "timesteps_total": 2589600, "policy_reward_mean": {}, "episode_reward_min": -680.4422518416446, "timesteps_since_restore": 2589600, "num_metric_batches_dropped": 0, "time_since_restore": 68725.27707886696, "episode_reward_max": -450.7096416062522, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2589600, "default": {"kl": 0.010489674285054207, "policy_loss": -0.149771049618721, "vf_loss": 58.08779525756836, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9924365282058716, "entropy": 3.9400346279144287, "cur_lr": 4.999999873689376e-05, "total_loss": 57.95395278930664}, "load_time_ms": 0.678, "num_steps_sampled": 2589600, "grad_time_ms": 654.845, "update_time_ms": 2.499, "sample_time_ms": 33988.353}, "date": "2025-08-31_11-16-27", "hostname": "cda-server-4", "time_this_iter_s": 35.894083976745605, "episodes_total": 12948, "timestamp": 1756631787, "node_ip": "10.157.146.4", "done": false, "time_total_s": 68725.27707886696, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2159, "episode_reward_mean": -604.5031302040436, "training_iteration": 2159, "timesteps_total": 2590800, "policy_reward_mean": {}, "episode_reward_min": -680.4422518416446, "timesteps_since_restore": 2590800, "num_metric_batches_dropped": 0, "time_since_restore": 68762.15668416023, "episode_reward_max": -450.7096416062522, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2590800, "default": {"kl": 0.009786856360733509, "policy_loss": -0.14621341228485107, "vf_loss": 305.152099609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9797810316085815, "entropy": 3.972952127456665, "cur_lr": 4.999999873689376e-05, "total_loss": 305.020751953125}, "load_time_ms": 0.654, "num_steps_sampled": 2590800, "grad_time_ms": 675.851, "update_time_ms": 2.441, "sample_time_ms": 34146.054}, "date": "2025-08-31_11-17-04", "hostname": "cda-server-4", "time_this_iter_s": 36.879605293273926, "episodes_total": 12954, "timestamp": 1756631824, "node_ip": "10.157.146.4", "done": false, "time_total_s": 68762.15668416023, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2160, "episode_reward_mean": -603.6484557314243, "training_iteration": 2160, "timesteps_total": 2592000, "policy_reward_mean": {}, "episode_reward_min": -674.9720592792971, "timesteps_since_restore": 2592000, "num_metric_batches_dropped": 0, "time_since_restore": 68798.33011889458, "episode_reward_max": -450.7096416062522, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2592000, "default": {"kl": 0.009647693485021591, "policy_loss": -0.12995924055576324, "vf_loss": 69.82337188720703, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9900567531585693, "entropy": 3.903669595718384, "cur_lr": 4.999999873689376e-05, "total_loss": 69.70806121826172}, "load_time_ms": 0.792, "num_steps_sampled": 2592000, "grad_time_ms": 696.804, "update_time_ms": 2.637, "sample_time_ms": 34275.166}, "date": "2025-08-31_11-17-40", "hostname": "cda-server-4", "time_this_iter_s": 36.17343473434448, "episodes_total": 12960, "timestamp": 1756631860, "node_ip": "10.157.146.4", "done": false, "time_total_s": 68798.33011889458, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2161, "episode_reward_mean": -602.7269486053966, "training_iteration": 2161, "timesteps_total": 2593200, "policy_reward_mean": {}, "episode_reward_min": -636.5371730598472, "timesteps_since_restore": 2593200, "num_metric_batches_dropped": 0, "time_since_restore": 68834.23529958725, "episode_reward_max": -450.7096416062522, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2593200, "default": {"kl": 0.0107572041451931, "policy_loss": -0.1442037671804428, "vf_loss": 61.92079544067383, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9928493499755859, "entropy": 3.9927151203155518, "cur_lr": 4.999999873689376e-05, "total_loss": 61.79293441772461}, "load_time_ms": 0.961, "num_steps_sampled": 2593200, "grad_time_ms": 741.232, "update_time_ms": 2.747, "sample_time_ms": 34323.418}, "date": "2025-08-31_11-18-16", "hostname": "cda-server-4", "time_this_iter_s": 35.90518069267273, "episodes_total": 12966, "timestamp": 1756631896, "node_ip": "10.157.146.4", "done": false, "time_total_s": 68834.23529958725, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2162, "episode_reward_mean": -603.1984098844123, "training_iteration": 2162, "timesteps_total": 2594400, "policy_reward_mean": {}, "episode_reward_min": -642.4067822807791, "timesteps_since_restore": 2594400, "num_metric_batches_dropped": 0, "time_since_restore": 68870.96428012848, "episode_reward_max": -450.7096416062522, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2594400, "default": {"kl": 0.010720719583332539, "policy_loss": -0.12955830991268158, "vf_loss": 231.13107299804688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9729825258255005, "entropy": 3.871381998062134, "cur_lr": 4.999999873689376e-05, "total_loss": 231.01779174804688}, "load_time_ms": 0.964, "num_steps_sampled": 2594400, "grad_time_ms": 770.834, "update_time_ms": 2.864, "sample_time_ms": 34492.662}, "date": "2025-08-31_11-18-53", "hostname": "cda-server-4", "time_this_iter_s": 36.72898054122925, "episodes_total": 12972, "timestamp": 1756631933, "node_ip": "10.157.146.4", "done": false, "time_total_s": 68870.96428012848, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2163, "episode_reward_mean": -604.9807657965829, "training_iteration": 2163, "timesteps_total": 2595600, "policy_reward_mean": {}, "episode_reward_min": -642.4067822807791, "timesteps_since_restore": 2595600, "num_metric_batches_dropped": 0, "time_since_restore": 68907.9522857666, "episode_reward_max": -496.420342841387, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2595600, "default": {"kl": 0.011122412048280239, "policy_loss": -0.14001314342021942, "vf_loss": 357.3464050292969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9725799560546875, "entropy": 3.886897563934326, "cur_lr": 4.999999873689376e-05, "total_loss": 357.2232971191406}, "load_time_ms": 0.974, "num_steps_sampled": 2595600, "grad_time_ms": 803.211, "update_time_ms": 2.87, "sample_time_ms": 34775.822}, "date": "2025-08-31_11-19-30", "hostname": "cda-server-4", "time_this_iter_s": 36.98800563812256, "episodes_total": 12978, "timestamp": 1756631970, "node_ip": "10.157.146.4", "done": false, "time_total_s": 68907.9522857666, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2164, "episode_reward_mean": -604.7659085044775, "training_iteration": 2164, "timesteps_total": 2596800, "policy_reward_mean": {}, "episode_reward_min": -642.4067822807791, "timesteps_since_restore": 2596800, "num_metric_batches_dropped": 0, "time_since_restore": 68944.06349086761, "episode_reward_max": -496.420342841387, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2596800, "default": {"kl": 0.009951414540410042, "policy_loss": -0.11627577245235443, "vf_loss": 368.6150207519531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9576290845870972, "entropy": 4.05154275894165, "cur_lr": 4.999999873689376e-05, "total_loss": 368.5138244628906}, "load_time_ms": 0.964, "num_steps_sampled": 2596800, "grad_time_ms": 834.307, "update_time_ms": 2.863, "sample_time_ms": 34874.992}, "date": "2025-08-31_11-20-06", "hostname": "cda-server-4", "time_this_iter_s": 36.111205101013184, "episodes_total": 12984, "timestamp": 1756632006, "node_ip": "10.157.146.4", "done": false, "time_total_s": 68944.06349086761, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2165, "episode_reward_mean": -605.884825930846, "training_iteration": 2165, "timesteps_total": 2598000, "policy_reward_mean": {}, "episode_reward_min": -656.865313675927, "timesteps_since_restore": 2598000, "num_metric_batches_dropped": 0, "time_since_restore": 68978.94048500061, "episode_reward_max": -496.420342841387, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2598000, "default": {"kl": 0.01178439799696207, "policy_loss": -0.14556576311588287, "vf_loss": 227.66802978515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9757721424102783, "entropy": 4.1576642990112305, "cur_lr": 4.999999873689376e-05, "total_loss": 227.54039001464844}, "load_time_ms": 0.957, "num_steps_sampled": 2598000, "grad_time_ms": 840.422, "update_time_ms": 2.897, "sample_time_ms": 34905.29}, "date": "2025-08-31_11-20-41", "hostname": "cda-server-4", "time_this_iter_s": 34.876994132995605, "episodes_total": 12990, "timestamp": 1756632041, "node_ip": "10.157.146.4", "done": false, "time_total_s": 68978.94048500061, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2166, "episode_reward_mean": -606.0324728525596, "training_iteration": 2166, "timesteps_total": 2599200, "policy_reward_mean": {}, "episode_reward_min": -656.865313675927, "timesteps_since_restore": 2599200, "num_metric_batches_dropped": 0, "time_since_restore": 69014.56360793114, "episode_reward_max": -496.420342841387, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2599200, "default": {"kl": 0.009891163557767868, "policy_loss": -0.1288723647594452, "vf_loss": 177.740478515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9895398020744324, "entropy": 3.9152612686157227, "cur_lr": 4.999999873689376e-05, "total_loss": 177.6266326904297}, "load_time_ms": 0.955, "num_steps_sampled": 2599200, "grad_time_ms": 843.11, "update_time_ms": 2.89, "sample_time_ms": 35021.02}, "date": "2025-08-31_11-21-17", "hostname": "cda-server-4", "time_this_iter_s": 35.62312293052673, "episodes_total": 12996, "timestamp": 1756632077, "node_ip": "10.157.146.4", "done": false, "time_total_s": 69014.56360793114, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2167, "episode_reward_mean": -606.4933818084911, "training_iteration": 2167, "timesteps_total": 2600400, "policy_reward_mean": {}, "episode_reward_min": -656.865313675927, "timesteps_since_restore": 2600400, "num_metric_batches_dropped": 0, "time_since_restore": 69048.65664196014, "episode_reward_max": -496.420342841387, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2600400, "default": {"kl": 0.010697824880480766, "policy_loss": -0.13652150332927704, "vf_loss": 312.2436218261719, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9769635796546936, "entropy": 4.003194332122803, "cur_lr": 4.999999873689376e-05, "total_loss": 312.1233825683594}, "load_time_ms": 0.952, "num_steps_sampled": 2600400, "grad_time_ms": 862.038, "update_time_ms": 2.838, "sample_time_ms": 35056.45}, "date": "2025-08-31_11-21-51", "hostname": "cda-server-4", "time_this_iter_s": 34.09303402900696, "episodes_total": 13002, "timestamp": 1756632111, "node_ip": "10.157.146.4", "done": false, "time_total_s": 69048.65664196014, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2168, "episode_reward_mean": -607.3208219393745, "training_iteration": 2168, "timesteps_total": 2601600, "policy_reward_mean": {}, "episode_reward_min": -796.5261505003525, "timesteps_since_restore": 2601600, "num_metric_batches_dropped": 0, "time_since_restore": 69083.36297821999, "episode_reward_max": -448.0642763194357, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2601600, "default": {"kl": 0.012237799353897572, "policy_loss": -0.14812123775482178, "vf_loss": 1289.891845703125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9397872090339661, "entropy": 4.163394927978516, "cur_lr": 4.999999873689376e-05, "total_loss": 1289.76220703125}, "load_time_ms": 0.937, "num_steps_sampled": 2601600, "grad_time_ms": 816.06, "update_time_ms": 2.842, "sample_time_ms": 34983.891}, "date": "2025-08-31_11-22-26", "hostname": "cda-server-4", "time_this_iter_s": 34.70633625984192, "episodes_total": 13008, "timestamp": 1756632146, "node_ip": "10.157.146.4", "done": false, "time_total_s": 69083.36297821999, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2169, "episode_reward_mean": -606.8353410547193, "training_iteration": 2169, "timesteps_total": 2602800, "policy_reward_mean": {}, "episode_reward_min": -796.5261505003525, "timesteps_since_restore": 2602800, "num_metric_batches_dropped": 0, "time_since_restore": 69118.27905726433, "episode_reward_max": -448.0642763194357, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2602800, "default": {"kl": 0.010282850824296474, "policy_loss": -0.1492806077003479, "vf_loss": 309.4474182128906, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.961320161819458, "entropy": 3.9305546283721924, "cur_lr": 4.999999873689376e-05, "total_loss": 309.31378173828125}, "load_time_ms": 0.917, "num_steps_sampled": 2602800, "grad_time_ms": 781.774, "update_time_ms": 2.839, "sample_time_ms": 34821.986}, "date": "2025-08-31_11-23-00", "hostname": "cda-server-4", "time_this_iter_s": 34.91607904434204, "episodes_total": 13014, "timestamp": 1756632180, "node_ip": "10.157.146.4", "done": false, "time_total_s": 69118.27905726433, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2170, "episode_reward_mean": -607.1060061689819, "training_iteration": 2170, "timesteps_total": 2604000, "policy_reward_mean": {}, "episode_reward_min": -796.5261505003525, "timesteps_since_restore": 2604000, "num_metric_batches_dropped": 0, "time_since_restore": 69153.33474469185, "episode_reward_max": -448.0642763194357, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2604000, "default": {"kl": 0.00822029635310173, "policy_loss": -0.1283731609582901, "vf_loss": 330.6525573730469, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9514889121055603, "entropy": 3.8564915657043457, "cur_lr": 4.999999873689376e-05, "total_loss": 330.5367126464844}, "load_time_ms": 0.814, "num_steps_sampled": 2604000, "grad_time_ms": 740.214, "update_time_ms": 2.64, "sample_time_ms": 34752.166}, "date": "2025-08-31_11-23-35", "hostname": "cda-server-4", "time_this_iter_s": 35.05568742752075, "episodes_total": 13020, "timestamp": 1756632215, "node_ip": "10.157.146.4", "done": false, "time_total_s": 69153.33474469185, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2171, "episode_reward_mean": -607.5393208551014, "training_iteration": 2171, "timesteps_total": 2605200, "policy_reward_mean": {}, "episode_reward_min": -796.5261505003525, "timesteps_since_restore": 2605200, "num_metric_batches_dropped": 0, "time_since_restore": 69187.02594470978, "episode_reward_max": -448.0642763194357, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2605200, "default": {"kl": 0.012313934974372387, "policy_loss": -0.15628282725811005, "vf_loss": 166.60443115234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9872971773147583, "entropy": 3.9459168910980225, "cur_lr": 4.999999873689376e-05, "total_loss": 166.4668731689453}, "load_time_ms": 0.648, "num_steps_sampled": 2605200, "grad_time_ms": 696.33, "update_time_ms": 2.513, "sample_time_ms": 34575.133}, "date": "2025-08-31_11-24-09", "hostname": "cda-server-4", "time_this_iter_s": 33.69120001792908, "episodes_total": 13026, "timestamp": 1756632249, "node_ip": "10.157.146.4", "done": false, "time_total_s": 69187.02594470978, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2172, "episode_reward_mean": -606.7658370304481, "training_iteration": 2172, "timesteps_total": 2606400, "policy_reward_mean": {}, "episode_reward_min": -796.5261505003525, "timesteps_since_restore": 2606400, "num_metric_batches_dropped": 0, "time_since_restore": 69221.34385919571, "episode_reward_max": -448.0642763194357, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2606400, "default": {"kl": 0.011881147511303425, "policy_loss": -0.14266043901443481, "vf_loss": 103.42443084716797, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9875630140304565, "entropy": 3.9146242141723633, "cur_lr": 4.999999873689376e-05, "total_loss": 103.29981231689453}, "load_time_ms": 0.648, "num_steps_sampled": 2606400, "grad_time_ms": 653.823, "update_time_ms": 2.35, "sample_time_ms": 34376.857}, "date": "2025-08-31_11-24-44", "hostname": "cda-server-4", "time_this_iter_s": 34.3179144859314, "episodes_total": 13032, "timestamp": 1756632284, "node_ip": "10.157.146.4", "done": false, "time_total_s": 69221.34385919571, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2173, "episode_reward_mean": -606.8449925497899, "training_iteration": 2173, "timesteps_total": 2607600, "policy_reward_mean": {}, "episode_reward_min": -796.5261505003525, "timesteps_since_restore": 2607600, "num_metric_batches_dropped": 0, "time_since_restore": 69256.0283381939, "episode_reward_max": -448.0642763194357, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2607600, "default": {"kl": 0.012302273884415627, "policy_loss": -0.13601917028427124, "vf_loss": 112.80894470214844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9888196587562561, "entropy": 3.744032621383667, "cur_lr": 4.999999873689376e-05, "total_loss": 112.69161987304688}, "load_time_ms": 0.635, "num_steps_sampled": 2607600, "grad_time_ms": 603.173, "update_time_ms": 2.348, "sample_time_ms": 34197.371}, "date": "2025-08-31_11-25-18", "hostname": "cda-server-4", "time_this_iter_s": 34.684478998184204, "episodes_total": 13038, "timestamp": 1756632318, "node_ip": "10.157.146.4", "done": false, "time_total_s": 69256.0283381939, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2174, "episode_reward_mean": -608.1738192564375, "training_iteration": 2174, "timesteps_total": 2608800, "policy_reward_mean": {}, "episode_reward_min": -796.5261505003525, "timesteps_since_restore": 2608800, "num_metric_batches_dropped": 0, "time_since_restore": 69290.28321814537, "episode_reward_max": -448.0642763194357, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2608800, "default": {"kl": 0.010511213913559914, "policy_loss": -0.1438484936952591, "vf_loss": 86.93777465820312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9866451621055603, "entropy": 3.8649821281433105, "cur_lr": 4.999999873689376e-05, "total_loss": 86.80988311767578}, "load_time_ms": 0.628, "num_steps_sampled": 2608800, "grad_time_ms": 573.364, "update_time_ms": 2.305, "sample_time_ms": 34041.649}, "date": "2025-08-31_11-25-53", "hostname": "cda-server-4", "time_this_iter_s": 34.25487995147705, "episodes_total": 13044, "timestamp": 1756632353, "node_ip": "10.157.146.4", "done": false, "time_total_s": 69290.28321814537, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2175, "episode_reward_mean": -610.1554763066001, "training_iteration": 2175, "timesteps_total": 2610000, "policy_reward_mean": {}, "episode_reward_min": -796.5261505003525, "timesteps_since_restore": 2610000, "num_metric_batches_dropped": 0, "time_since_restore": 69325.63924694061, "episode_reward_max": -448.0642763194357, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2610000, "default": {"kl": 0.012789115309715271, "policy_loss": -0.14254434406757355, "vf_loss": 172.51976013183594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9830539226531982, "entropy": 4.165283203125, "cur_lr": 4.999999873689376e-05, "total_loss": 172.3966522216797}, "load_time_ms": 0.636, "num_steps_sampled": 2610000, "grad_time_ms": 575.798, "update_time_ms": 2.109, "sample_time_ms": 34087.355}, "date": "2025-08-31_11-26-28", "hostname": "cda-server-4", "time_this_iter_s": 35.35602879524231, "episodes_total": 13050, "timestamp": 1756632388, "node_ip": "10.157.146.4", "done": false, "time_total_s": 69325.63924694061, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2176, "episode_reward_mean": -611.3650755059348, "training_iteration": 2176, "timesteps_total": 2611200, "policy_reward_mean": {}, "episode_reward_min": -796.5261505003525, "timesteps_since_restore": 2611200, "num_metric_batches_dropped": 0, "time_since_restore": 69361.77593111992, "episode_reward_max": -448.0642763194357, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2611200, "default": {"kl": 0.009014398790895939, "policy_loss": -0.13200679421424866, "vf_loss": 636.07568359375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9486048817634583, "entropy": 3.988849639892578, "cur_lr": 4.999999873689376e-05, "total_loss": 635.9573974609375}, "load_time_ms": 0.667, "num_steps_sampled": 2611200, "grad_time_ms": 583.827, "update_time_ms": 2.154, "sample_time_ms": 34130.699}, "date": "2025-08-31_11-27-04", "hostname": "cda-server-4", "time_this_iter_s": 36.13668417930603, "episodes_total": 13056, "timestamp": 1756632424, "node_ip": "10.157.146.4", "done": false, "time_total_s": 69361.77593111992, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2177, "episode_reward_mean": -611.9590839648807, "training_iteration": 2177, "timesteps_total": 2612400, "policy_reward_mean": {}, "episode_reward_min": -796.5261505003525, "timesteps_since_restore": 2612400, "num_metric_batches_dropped": 0, "time_since_restore": 69397.87570214272, "episode_reward_max": -448.0642763194357, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2612400, "default": {"kl": 0.012176180258393288, "policy_loss": -0.15734346210956573, "vf_loss": 306.1552429199219, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9702770709991455, "entropy": 3.8586583137512207, "cur_lr": 4.999999873689376e-05, "total_loss": 306.0163879394531}, "load_time_ms": 0.666, "num_steps_sampled": 2612400, "grad_time_ms": 585.492, "update_time_ms": 2.191, "sample_time_ms": 34329.709}, "date": "2025-08-31_11-27-40", "hostname": "cda-server-4", "time_this_iter_s": 36.09977102279663, "episodes_total": 13062, "timestamp": 1756632460, "node_ip": "10.157.146.4", "done": false, "time_total_s": 69397.87570214272, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2178, "episode_reward_mean": -611.7617953066257, "training_iteration": 2178, "timesteps_total": 2613600, "policy_reward_mean": {}, "episode_reward_min": -796.5261505003525, "timesteps_since_restore": 2613600, "num_metric_batches_dropped": 0, "time_since_restore": 69432.71921348572, "episode_reward_max": -448.0642763194357, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2613600, "default": {"kl": 0.010881257243454456, "policy_loss": -0.130788192152977, "vf_loss": 129.81024169921875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9820537567138672, "entropy": 3.8383610248565674, "cur_lr": 4.999999873689376e-05, "total_loss": 129.69598388671875}, "load_time_ms": 0.661, "num_steps_sampled": 2613600, "grad_time_ms": 583.042, "update_time_ms": 2.213, "sample_time_ms": 34345.64}, "date": "2025-08-31_11-28-15", "hostname": "cda-server-4", "time_this_iter_s": 34.84351134300232, "episodes_total": 13068, "timestamp": 1756632495, "node_ip": "10.157.146.4", "done": false, "time_total_s": 69432.71921348572, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2179, "episode_reward_mean": -608.9862681845833, "training_iteration": 2179, "timesteps_total": 2614800, "policy_reward_mean": {}, "episode_reward_min": -796.5261505003525, "timesteps_since_restore": 2614800, "num_metric_batches_dropped": 0, "time_since_restore": 69467.86852169037, "episode_reward_max": -447.87338801802895, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2614800, "default": {"kl": 0.013031561858952045, "policy_loss": -0.1690581887960434, "vf_loss": 586.384033203125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9335795640945435, "entropy": 4.00705099105835, "cur_lr": 4.999999873689376e-05, "total_loss": 586.2347412109375}, "load_time_ms": 0.663, "num_steps_sampled": 2614800, "grad_time_ms": 592.741, "update_time_ms": 2.318, "sample_time_ms": 34359.167}, "date": "2025-08-31_11-28-50", "hostname": "cda-server-4", "time_this_iter_s": 35.14930820465088, "episodes_total": 13074, "timestamp": 1756632530, "node_ip": "10.157.146.4", "done": false, "time_total_s": 69467.86852169037, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2180, "episode_reward_mean": -609.5703024314619, "training_iteration": 2180, "timesteps_total": 2616000, "policy_reward_mean": {}, "episode_reward_min": -796.5261505003525, "timesteps_since_restore": 2616000, "num_metric_batches_dropped": 0, "time_since_restore": 69503.73270487785, "episode_reward_max": -447.87338801802895, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2616000, "default": {"kl": 0.01018337719142437, "policy_loss": -0.12234307825565338, "vf_loss": 172.47079467773438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9789310097694397, "entropy": 3.9935035705566406, "cur_lr": 4.999999873689376e-05, "total_loss": 172.36392211914062}, "load_time_ms": 0.63, "num_steps_sampled": 2616000, "grad_time_ms": 613.441, "update_time_ms": 2.37, "sample_time_ms": 34419.334}, "date": "2025-08-31_11-29-26", "hostname": "cda-server-4", "time_this_iter_s": 35.86418318748474, "episodes_total": 13080, "timestamp": 1756632566, "node_ip": "10.157.146.4", "done": false, "time_total_s": 69503.73270487785, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2181, "episode_reward_mean": -609.814381533516, "training_iteration": 2181, "timesteps_total": 2617200, "policy_reward_mean": {}, "episode_reward_min": -796.5261505003525, "timesteps_since_restore": 2617200, "num_metric_batches_dropped": 0, "time_since_restore": 69538.3556933403, "episode_reward_max": -447.87338801802895, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2617200, "default": {"kl": 0.009376989677548409, "policy_loss": -0.13234341144561768, "vf_loss": 354.3315124511719, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9492352604866028, "entropy": 3.9628567695617676, "cur_lr": 4.999999873689376e-05, "total_loss": 354.21343994140625}, "load_time_ms": 0.624, "num_steps_sampled": 2617200, "grad_time_ms": 631.291, "update_time_ms": 2.474, "sample_time_ms": 34494.59}, "date": "2025-08-31_11-30-01", "hostname": "cda-server-4", "time_this_iter_s": 34.62298846244812, "episodes_total": 13086, "timestamp": 1756632601, "node_ip": "10.157.146.4", "done": false, "time_total_s": 69538.3556933403, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2182, "episode_reward_mean": -610.0662439321632, "training_iteration": 2182, "timesteps_total": 2618400, "policy_reward_mean": {}, "episode_reward_min": -796.5261505003525, "timesteps_since_restore": 2618400, "num_metric_batches_dropped": 0, "time_since_restore": 69573.5876185894, "episode_reward_max": -447.87338801802895, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2618400, "default": {"kl": 0.012297701090574265, "policy_loss": -0.1460263729095459, "vf_loss": 262.3035583496094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9801949262619019, "entropy": 4.11646842956543, "cur_lr": 4.999999873689376e-05, "total_loss": 262.17620849609375}, "load_time_ms": 0.625, "num_steps_sampled": 2618400, "grad_time_ms": 654.706, "update_time_ms": 2.518, "sample_time_ms": 34562.539}, "date": "2025-08-31_11-30-36", "hostname": "cda-server-4", "time_this_iter_s": 35.23192524909973, "episodes_total": 13092, "timestamp": 1756632636, "node_ip": "10.157.146.4", "done": false, "time_total_s": 69573.5876185894, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2183, "episode_reward_mean": -610.1156814429065, "training_iteration": 2183, "timesteps_total": 2619600, "policy_reward_mean": {}, "episode_reward_min": -796.5261505003525, "timesteps_since_restore": 2619600, "num_metric_batches_dropped": 0, "time_since_restore": 69609.47894620895, "episode_reward_max": -447.87338801802895, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2619600, "default": {"kl": 0.011054154485464096, "policy_loss": -0.13076342642307281, "vf_loss": 129.18991088867188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9807420372962952, "entropy": 3.893338918685913, "cur_lr": 4.999999873689376e-05, "total_loss": 129.075927734375}, "load_time_ms": 0.661, "num_steps_sampled": 2619600, "grad_time_ms": 684.475, "update_time_ms": 2.498, "sample_time_ms": 34653.354}, "date": "2025-08-31_11-31-12", "hostname": "cda-server-4", "time_this_iter_s": 35.89132761955261, "episodes_total": 13098, "timestamp": 1756632672, "node_ip": "10.157.146.4", "done": false, "time_total_s": 69609.47894620895, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2184, "episode_reward_mean": -612.1451941781247, "training_iteration": 2184, "timesteps_total": 2620800, "policy_reward_mean": {}, "episode_reward_min": -796.5261505003525, "timesteps_since_restore": 2620800, "num_metric_batches_dropped": 0, "time_since_restore": 69644.95865058899, "episode_reward_max": -447.87338801802895, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2620800, "default": {"kl": 0.010660897940397263, "policy_loss": -0.14421691000461578, "vf_loss": 186.40621948242188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.974577784538269, "entropy": 3.9916980266571045, "cur_lr": 4.999999873689376e-05, "total_loss": 186.27818298339844}, "load_time_ms": 0.657, "num_steps_sampled": 2620800, "grad_time_ms": 691.558, "update_time_ms": 2.601, "sample_time_ms": 34768.612}, "date": "2025-08-31_11-31-47", "hostname": "cda-server-4", "time_this_iter_s": 35.4797043800354, "episodes_total": 13104, "timestamp": 1756632707, "node_ip": "10.157.146.4", "done": false, "time_total_s": 69644.95865058899, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2185, "episode_reward_mean": -609.9101851958505, "training_iteration": 2185, "timesteps_total": 2622000, "policy_reward_mean": {}, "episode_reward_min": -792.823892258316, "timesteps_since_restore": 2622000, "num_metric_batches_dropped": 0, "time_since_restore": 69680.37605571747, "episode_reward_max": -447.87338801802895, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2622000, "default": {"kl": 0.010412354953587055, "policy_loss": -0.11972713470458984, "vf_loss": 203.1915283203125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9725102186203003, "entropy": 3.976320505142212, "cur_lr": 4.999999873689376e-05, "total_loss": 203.08763122558594}, "load_time_ms": 0.642, "num_steps_sampled": 2622000, "grad_time_ms": 697.141, "update_time_ms": 2.717, "sample_time_ms": 34769.005}, "date": "2025-08-31_11-32-23", "hostname": "cda-server-4", "time_this_iter_s": 35.417405128479004, "episodes_total": 13110, "timestamp": 1756632743, "node_ip": "10.157.146.4", "done": false, "time_total_s": 69680.37605571747, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2186, "episode_reward_mean": -611.0332842835288, "training_iteration": 2186, "timesteps_total": 2623200, "policy_reward_mean": {}, "episode_reward_min": -792.823892258316, "timesteps_since_restore": 2623200, "num_metric_batches_dropped": 0, "time_since_restore": 69716.14969229698, "episode_reward_max": -447.87338801802895, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2623200, "default": {"kl": 0.010237840004265308, "policy_loss": -0.13995903730392456, "vf_loss": 153.89370727539062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9813740849494934, "entropy": 3.974313974380493, "cur_lr": 4.999999873689376e-05, "total_loss": 153.769287109375}, "load_time_ms": 0.659, "num_steps_sampled": 2623200, "grad_time_ms": 703.788, "update_time_ms": 2.74, "sample_time_ms": 34726.008}, "date": "2025-08-31_11-32-59", "hostname": "cda-server-4", "time_this_iter_s": 35.77363657951355, "episodes_total": 13116, "timestamp": 1756632779, "node_ip": "10.157.146.4", "done": false, "time_total_s": 69716.14969229698, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2187, "episode_reward_mean": -611.0398006262894, "training_iteration": 2187, "timesteps_total": 2624400, "policy_reward_mean": {}, "episode_reward_min": -792.823892258316, "timesteps_since_restore": 2624400, "num_metric_batches_dropped": 0, "time_since_restore": 69752.49546957016, "episode_reward_max": -447.87338801802895, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2624400, "default": {"kl": 0.00851184781640768, "policy_loss": -0.11851075291633606, "vf_loss": 195.7255401611328, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9679194688796997, "entropy": 3.9703831672668457, "cur_lr": 4.999999873689376e-05, "total_loss": 195.61997985839844}, "load_time_ms": 0.7, "num_steps_sampled": 2624400, "grad_time_ms": 712.556, "update_time_ms": 2.848, "sample_time_ms": 34741.639}, "date": "2025-08-31_11-33-35", "hostname": "cda-server-4", "time_this_iter_s": 36.3457772731781, "episodes_total": 13122, "timestamp": 1756632815, "node_ip": "10.157.146.4", "done": false, "time_total_s": 69752.49546957016, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2188, "episode_reward_mean": -611.1581132886483, "training_iteration": 2188, "timesteps_total": 2625600, "policy_reward_mean": {}, "episode_reward_min": -792.823892258316, "timesteps_since_restore": 2625600, "num_metric_batches_dropped": 0, "time_since_restore": 69787.36907696724, "episode_reward_max": -447.87338801802895, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2625600, "default": {"kl": 0.012813949026167393, "policy_loss": -0.1596025824546814, "vf_loss": 45.14369201660156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9939847588539124, "entropy": 3.77066969871521, "cur_lr": 4.999999873689376e-05, "total_loss": 45.00355529785156}, "load_time_ms": 0.713, "num_steps_sampled": 2625600, "grad_time_ms": 735.629, "update_time_ms": 2.843, "sample_time_ms": 34721.691}, "date": "2025-08-31_11-34-10", "hostname": "cda-server-4", "time_this_iter_s": 34.87360739707947, "episodes_total": 13128, "timestamp": 1756632850, "node_ip": "10.157.146.4", "done": false, "time_total_s": 69787.36907696724, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2189, "episode_reward_mean": -610.9713025959749, "training_iteration": 2189, "timesteps_total": 2626800, "policy_reward_mean": {}, "episode_reward_min": -792.823892258316, "timesteps_since_restore": 2626800, "num_metric_batches_dropped": 0, "time_since_restore": 69822.56375718117, "episode_reward_max": -447.87338801802895, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2626800, "default": {"kl": 0.012266889214515686, "policy_loss": -0.1265440583229065, "vf_loss": 476.0743408203125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.96038818359375, "entropy": 3.879948854446411, "cur_lr": 4.999999873689376e-05, "total_loss": 475.9664306640625}, "load_time_ms": 0.721, "num_steps_sampled": 2626800, "grad_time_ms": 737.907, "update_time_ms": 2.839, "sample_time_ms": 34724.009}, "date": "2025-08-31_11-34-45", "hostname": "cda-server-4", "time_this_iter_s": 35.19468021392822, "episodes_total": 13134, "timestamp": 1756632885, "node_ip": "10.157.146.4", "done": false, "time_total_s": 69822.56375718117, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2190, "episode_reward_mean": -611.3764508476769, "training_iteration": 2190, "timesteps_total": 2628000, "policy_reward_mean": {}, "episode_reward_min": -792.823892258316, "timesteps_since_restore": 2628000, "num_metric_batches_dropped": 0, "time_since_restore": 69858.68234229088, "episode_reward_max": -447.87338801802895, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2628000, "default": {"kl": 0.00969721656292677, "policy_loss": -0.13691440224647522, "vf_loss": 43.53950119018555, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9950060248374939, "entropy": 3.7767393589019775, "cur_lr": 4.999999873689376e-05, "total_loss": 43.41731262207031}, "load_time_ms": 0.72, "num_steps_sampled": 2628000, "grad_time_ms": 740.445, "update_time_ms": 2.764, "sample_time_ms": 34746.977}, "date": "2025-08-31_11-35-21", "hostname": "cda-server-4", "time_this_iter_s": 36.11858510971069, "episodes_total": 13140, "timestamp": 1756632921, "node_ip": "10.157.146.4", "done": false, "time_total_s": 69858.68234229088, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2191, "episode_reward_mean": -611.2783509079803, "training_iteration": 2191, "timesteps_total": 2629200, "policy_reward_mean": {}, "episode_reward_min": -792.823892258316, "timesteps_since_restore": 2629200, "num_metric_batches_dropped": 0, "time_since_restore": 69895.6604168415, "episode_reward_max": -447.87338801802895, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2629200, "default": {"kl": 0.009212936274707317, "policy_loss": -0.13928458094596863, "vf_loss": 122.3294677734375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9919869899749756, "entropy": 3.9513375759124756, "cur_lr": 4.999999873689376e-05, "total_loss": 122.20418548583984}, "load_time_ms": 0.717, "num_steps_sampled": 2629200, "grad_time_ms": 744.998, "update_time_ms": 2.69, "sample_time_ms": 34978.004}, "date": "2025-08-31_11-35-58", "hostname": "cda-server-4", "time_this_iter_s": 36.97807455062866, "episodes_total": 13146, "timestamp": 1756632958, "node_ip": "10.157.146.4", "done": false, "time_total_s": 69895.6604168415, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2192, "episode_reward_mean": -609.0821485777823, "training_iteration": 2192, "timesteps_total": 2630400, "policy_reward_mean": {}, "episode_reward_min": -791.711575325243, "timesteps_since_restore": 2630400, "num_metric_batches_dropped": 0, "time_since_restore": 69931.42134809494, "episode_reward_max": -447.87338801802895, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2630400, "default": {"kl": 0.010666078887879848, "policy_loss": -0.12707120180130005, "vf_loss": 242.44921875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9765474796295166, "entropy": 3.8872196674346924, "cur_lr": 4.999999873689376e-05, "total_loss": 242.33831787109375}, "load_time_ms": 0.731, "num_steps_sampled": 2630400, "grad_time_ms": 745.586, "update_time_ms": 2.679, "sample_time_ms": 35030.24}, "date": "2025-08-31_11-36-34", "hostname": "cda-server-4", "time_this_iter_s": 35.76093125343323, "episodes_total": 13152, "timestamp": 1756632994, "node_ip": "10.157.146.4", "done": false, "time_total_s": 69931.42134809494, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2193, "episode_reward_mean": -609.3162976196005, "training_iteration": 2193, "timesteps_total": 2631600, "policy_reward_mean": {}, "episode_reward_min": -791.711575325243, "timesteps_since_restore": 2631600, "num_metric_batches_dropped": 0, "time_since_restore": 69966.61091947556, "episode_reward_max": -447.87338801802895, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2631600, "default": {"kl": 0.012495611794292927, "policy_loss": -0.15261618793010712, "vf_loss": 123.35335540771484, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9856011867523193, "entropy": 3.9217419624328613, "cur_lr": 4.999999873689376e-05, "total_loss": 123.21971130371094}, "load_time_ms": 0.695, "num_steps_sampled": 2631600, "grad_time_ms": 743.932, "update_time_ms": 2.702, "sample_time_ms": 34961.775}, "date": "2025-08-31_11-37-09", "hostname": "cda-server-4", "time_this_iter_s": 35.189571380615234, "episodes_total": 13158, "timestamp": 1756633029, "node_ip": "10.157.146.4", "done": false, "time_total_s": 69966.61091947556, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2194, "episode_reward_mean": -607.1146875184699, "training_iteration": 2194, "timesteps_total": 2632800, "policy_reward_mean": {}, "episode_reward_min": -791.711575325243, "timesteps_since_restore": 2632800, "num_metric_batches_dropped": 0, "time_since_restore": 70001.9562189579, "episode_reward_max": -447.87338801802895, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2632800, "default": {"kl": 0.011751324869692326, "policy_loss": -0.1551114320755005, "vf_loss": 117.01811981201172, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9912925362586975, "entropy": 3.797593832015991, "cur_lr": 4.999999873689376e-05, "total_loss": 116.88087463378906}, "load_time_ms": 0.692, "num_steps_sampled": 2632800, "grad_time_ms": 743.258, "update_time_ms": 2.639, "sample_time_ms": 34949.127}, "date": "2025-08-31_11-37-45", "hostname": "cda-server-4", "time_this_iter_s": 35.34529948234558, "episodes_total": 13164, "timestamp": 1756633065, "node_ip": "10.157.146.4", "done": false, "time_total_s": 70001.9562189579, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2195, "episode_reward_mean": -610.4792667583231, "training_iteration": 2195, "timesteps_total": 2634000, "policy_reward_mean": {}, "episode_reward_min": -791.711575325243, "timesteps_since_restore": 2634000, "num_metric_batches_dropped": 0, "time_since_restore": 70037.37850832939, "episode_reward_max": -462.9155060888452, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2634000, "default": {"kl": 0.009895720519125462, "policy_loss": -0.11565306782722473, "vf_loss": 963.1047973632812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.901569664478302, "entropy": 4.095968723297119, "cur_lr": 4.999999873689376e-05, "total_loss": 963.004150390625}, "load_time_ms": 0.725, "num_steps_sampled": 2634000, "grad_time_ms": 743.466, "update_time_ms": 2.569, "sample_time_ms": 34949.335}, "date": "2025-08-31_11-38-20", "hostname": "cda-server-4", "time_this_iter_s": 35.42228937149048, "episodes_total": 13170, "timestamp": 1756633100, "node_ip": "10.157.146.4", "done": false, "time_total_s": 70037.37850832939, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2196, "episode_reward_mean": -611.1394964806152, "training_iteration": 2196, "timesteps_total": 2635200, "policy_reward_mean": {}, "episode_reward_min": -791.711575325243, "timesteps_since_restore": 2635200, "num_metric_batches_dropped": 0, "time_since_restore": 70072.3477447033, "episode_reward_max": -462.9155060888452, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2635200, "default": {"kl": 0.009578406810760498, "policy_loss": -0.13147003948688507, "vf_loss": 137.3845977783203, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9804373979568481, "entropy": 3.825409412384033, "cur_lr": 4.999999873689376e-05, "total_loss": 137.26766967773438}, "load_time_ms": 0.679, "num_steps_sampled": 2635200, "grad_time_ms": 742.225, "update_time_ms": 2.572, "sample_time_ms": 34870.248}, "date": "2025-08-31_11-38-55", "hostname": "cda-server-4", "time_this_iter_s": 34.96923637390137, "episodes_total": 13176, "timestamp": 1756633135, "node_ip": "10.157.146.4", "done": false, "time_total_s": 70072.3477447033, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2197, "episode_reward_mean": -610.4932717524208, "training_iteration": 2197, "timesteps_total": 2636400, "policy_reward_mean": {}, "episode_reward_min": -791.711575325243, "timesteps_since_restore": 2636400, "num_metric_batches_dropped": 0, "time_since_restore": 70107.99493074417, "episode_reward_max": -462.9155060888452, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2636400, "default": {"kl": 0.010981088504195213, "policy_loss": -0.12969857454299927, "vf_loss": 345.5114440917969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9582473039627075, "entropy": 3.8964109420776367, "cur_lr": 4.999999873689376e-05, "total_loss": 345.3984375}, "load_time_ms": 0.659, "num_steps_sampled": 2636400, "grad_time_ms": 742.196, "update_time_ms": 2.416, "sample_time_ms": 34800.61}, "date": "2025-08-31_11-39-31", "hostname": "cda-server-4", "time_this_iter_s": 35.647186040878296, "episodes_total": 13182, "timestamp": 1756633171, "node_ip": "10.157.146.4", "done": false, "time_total_s": 70107.99493074417, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2198, "episode_reward_mean": -607.9293817823067, "training_iteration": 2198, "timesteps_total": 2637600, "policy_reward_mean": {}, "episode_reward_min": -728.546677625191, "timesteps_since_restore": 2637600, "num_metric_batches_dropped": 0, "time_since_restore": 70144.29471969604, "episode_reward_max": -462.9155060888452, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2637600, "default": {"kl": 0.01024044118821621, "policy_loss": -0.14001870155334473, "vf_loss": 76.20465850830078, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9909870624542236, "entropy": 3.72121262550354, "cur_lr": 4.999999873689376e-05, "total_loss": 76.08018493652344}, "load_time_ms": 0.649, "num_steps_sampled": 2637600, "grad_time_ms": 743.565, "update_time_ms": 2.462, "sample_time_ms": 34941.907}, "date": "2025-08-31_11-40-07", "hostname": "cda-server-4", "time_this_iter_s": 36.29978895187378, "episodes_total": 13188, "timestamp": 1756633207, "node_ip": "10.157.146.4", "done": false, "time_total_s": 70144.29471969604, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2199, "episode_reward_mean": -607.2178159542894, "training_iteration": 2199, "timesteps_total": 2638800, "policy_reward_mean": {}, "episode_reward_min": -728.546677625191, "timesteps_since_restore": 2638800, "num_metric_batches_dropped": 0, "time_since_restore": 70178.85473299026, "episode_reward_max": -462.9155060888452, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2638800, "default": {"kl": 0.011778823100030422, "policy_loss": -0.13953086733818054, "vf_loss": 27.449827194213867, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9962813854217529, "entropy": 3.747605323791504, "cur_lr": 4.999999873689376e-05, "total_loss": 27.32818603515625}, "load_time_ms": 0.677, "num_steps_sampled": 2638800, "grad_time_ms": 743.461, "update_time_ms": 2.378, "sample_time_ms": 34878.574}, "date": "2025-08-31_11-40-42", "hostname": "cda-server-4", "time_this_iter_s": 34.56001329421997, "episodes_total": 13194, "timestamp": 1756633242, "node_ip": "10.157.146.4", "done": false, "time_total_s": 70178.85473299026, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2200, "episode_reward_mean": -606.6708595517506, "training_iteration": 2200, "timesteps_total": 2640000, "policy_reward_mean": {}, "episode_reward_min": -728.546677625191, "timesteps_since_restore": 2640000, "num_metric_batches_dropped": 0, "time_since_restore": 70214.80387759209, "episode_reward_max": -462.9155060888452, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2640000, "default": {"kl": 0.010729951784014702, "policy_loss": -0.11347980052232742, "vf_loss": 216.01678466796875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9737260341644287, "entropy": 3.8152389526367188, "cur_lr": 4.999999873689376e-05, "total_loss": 215.91961669921875}, "load_time_ms": 0.679, "num_steps_sampled": 2640000, "grad_time_ms": 742.205, "update_time_ms": 2.422, "sample_time_ms": 34862.867}, "date": "2025-08-31_11-41-18", "hostname": "cda-server-4", "time_this_iter_s": 35.9491446018219, "episodes_total": 13200, "timestamp": 1756633278, "node_ip": "10.157.146.4", "done": false, "time_total_s": 70214.80387759209, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2201, "episode_reward_mean": -605.8328328635205, "training_iteration": 2201, "timesteps_total": 2641200, "policy_reward_mean": {}, "episode_reward_min": -728.546677625191, "timesteps_since_restore": 2641200, "num_metric_batches_dropped": 0, "time_since_restore": 70250.36020159721, "episode_reward_max": -462.9155060888452, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2641200, "default": {"kl": 0.011280208826065063, "policy_loss": -0.1385854035615921, "vf_loss": 224.70330810546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9925791621208191, "entropy": 3.7309281826019287, "cur_lr": 4.999999873689376e-05, "total_loss": 224.5818634033203}, "load_time_ms": 0.684, "num_steps_sampled": 2641200, "grad_time_ms": 733.696, "update_time_ms": 2.487, "sample_time_ms": 34729.07}, "date": "2025-08-31_11-41-53", "hostname": "cda-server-4", "time_this_iter_s": 35.55632400512695, "episodes_total": 13206, "timestamp": 1756633313, "node_ip": "10.157.146.4", "done": false, "time_total_s": 70250.36020159721, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2202, "episode_reward_mean": -606.5657601588341, "training_iteration": 2202, "timesteps_total": 2642400, "policy_reward_mean": {}, "episode_reward_min": -731.5439980605577, "timesteps_since_restore": 2642400, "num_metric_batches_dropped": 0, "time_since_restore": 70285.47923541069, "episode_reward_max": -462.9155060888452, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2642400, "default": {"kl": 0.011684030294418335, "policy_loss": -0.14287686347961426, "vf_loss": 810.0989379882812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.916496992111206, "entropy": 4.014456272125244, "cur_lr": 4.999999873689376e-05, "total_loss": 809.9738159179688}, "load_time_ms": 0.699, "num_steps_sampled": 2642400, "grad_time_ms": 708.564, "update_time_ms": 2.475, "sample_time_ms": 34689.946}, "date": "2025-08-31_11-42-28", "hostname": "cda-server-4", "time_this_iter_s": 35.11903381347656, "episodes_total": 13212, "timestamp": 1756633348, "node_ip": "10.157.146.4", "done": false, "time_total_s": 70285.47923541069, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2203, "episode_reward_mean": -607.3888862406312, "training_iteration": 2203, "timesteps_total": 2643600, "policy_reward_mean": {}, "episode_reward_min": -731.5439980605577, "timesteps_since_restore": 2643600, "num_metric_batches_dropped": 0, "time_since_restore": 70320.164342165, "episode_reward_max": -462.9155060888452, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2643600, "default": {"kl": 0.012772751040756702, "policy_loss": -0.14996325969696045, "vf_loss": 231.3828125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9732151031494141, "entropy": 3.95607328414917, "cur_lr": 4.999999873689376e-05, "total_loss": 231.25225830078125}, "load_time_ms": 0.735, "num_steps_sampled": 2643600, "grad_time_ms": 694.602, "update_time_ms": 2.502, "sample_time_ms": 34653.435}, "date": "2025-08-31_11-43-03", "hostname": "cda-server-4", "time_this_iter_s": 34.68510675430298, "episodes_total": 13218, "timestamp": 1756633383, "node_ip": "10.157.146.4", "done": false, "time_total_s": 70320.164342165, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2204, "episode_reward_mean": -606.8327948526918, "training_iteration": 2204, "timesteps_total": 2644800, "policy_reward_mean": {}, "episode_reward_min": -731.5439980605577, "timesteps_since_restore": 2644800, "num_metric_batches_dropped": 0, "time_since_restore": 70356.22322797775, "episode_reward_max": -462.9155060888452, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2644800, "default": {"kl": 0.00972544401884079, "policy_loss": -0.1350318193435669, "vf_loss": 272.4920349121094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9753850102424622, "entropy": 3.7457869052886963, "cur_lr": 4.999999873689376e-05, "total_loss": 272.37176513671875}, "load_time_ms": 0.772, "num_steps_sampled": 2644800, "grad_time_ms": 683.342, "update_time_ms": 2.482, "sample_time_ms": 34736.075}, "date": "2025-08-31_11-43-39", "hostname": "cda-server-4", "time_this_iter_s": 36.0588858127594, "episodes_total": 13224, "timestamp": 1756633419, "node_ip": "10.157.146.4", "done": false, "time_total_s": 70356.22322797775, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2205, "episode_reward_mean": -606.6932610227624, "training_iteration": 2205, "timesteps_total": 2646000, "policy_reward_mean": {}, "episode_reward_min": -731.5439980605577, "timesteps_since_restore": 2646000, "num_metric_batches_dropped": 0, "time_since_restore": 70392.04021644592, "episode_reward_max": -462.9155060888452, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2646000, "default": {"kl": 0.009447265416383743, "policy_loss": -0.12364979833364487, "vf_loss": 75.40592193603516, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.991323709487915, "entropy": 3.6651556491851807, "cur_lr": 4.999999873689376e-05, "total_loss": 75.29661560058594}, "load_time_ms": 0.742, "num_steps_sampled": 2646000, "grad_time_ms": 673.961, "update_time_ms": 2.445, "sample_time_ms": 34785.091}, "date": "2025-08-31_11-44-15", "hostname": "cda-server-4", "time_this_iter_s": 35.816988468170166, "episodes_total": 13230, "timestamp": 1756633455, "node_ip": "10.157.146.4", "done": false, "time_total_s": 70392.04021644592, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2206, "episode_reward_mean": -607.4697114905958, "training_iteration": 2206, "timesteps_total": 2647200, "policy_reward_mean": {}, "episode_reward_min": -731.5439980605577, "timesteps_since_restore": 2647200, "num_metric_batches_dropped": 0, "time_since_restore": 70427.50489234924, "episode_reward_max": -462.9155060888452, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2647200, "default": {"kl": 0.008698482997715473, "policy_loss": -0.10276070982217789, "vf_loss": 218.87232971191406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9694496989250183, "entropy": 3.682649850845337, "cur_lr": 4.999999873689376e-05, "total_loss": 218.7827911376953}, "load_time_ms": 0.768, "num_steps_sampled": 2647200, "grad_time_ms": 667.664, "update_time_ms": 2.405, "sample_time_ms": 34840.952}, "date": "2025-08-31_11-44-50", "hostname": "cda-server-4", "time_this_iter_s": 35.46467590332031, "episodes_total": 13236, "timestamp": 1756633490, "node_ip": "10.157.146.4", "done": false, "time_total_s": 70427.50489234924, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2207, "episode_reward_mean": -606.8372410822583, "training_iteration": 2207, "timesteps_total": 2648400, "policy_reward_mean": {}, "episode_reward_min": -731.5439980605577, "timesteps_since_restore": 2648400, "num_metric_batches_dropped": 0, "time_since_restore": 70463.14539074898, "episode_reward_max": -462.9155060888452, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2648400, "default": {"kl": 0.01106494665145874, "policy_loss": -0.14008405804634094, "vf_loss": 94.4114990234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9941737055778503, "entropy": 3.6857082843780518, "cur_lr": 4.999999873689376e-05, "total_loss": 94.28822326660156}, "load_time_ms": 0.75, "num_steps_sampled": 2648400, "grad_time_ms": 666.139, "update_time_ms": 2.397, "sample_time_ms": 34841.796}, "date": "2025-08-31_11-45-26", "hostname": "cda-server-4", "time_this_iter_s": 35.6404983997345, "episodes_total": 13242, "timestamp": 1756633526, "node_ip": "10.157.146.4", "done": false, "time_total_s": 70463.14539074898, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2208, "episode_reward_mean": -604.476722103151, "training_iteration": 2208, "timesteps_total": 2649600, "policy_reward_mean": {}, "episode_reward_min": -731.5439980605577, "timesteps_since_restore": 2649600, "num_metric_batches_dropped": 0, "time_since_restore": 70499.40336108208, "episode_reward_max": -462.9155060888452, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2649600, "default": {"kl": 0.012012584134936333, "policy_loss": -0.15150727331638336, "vf_loss": 115.41472625732422, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.988821268081665, "entropy": 3.858046531677246, "cur_lr": 4.999999873689376e-05, "total_loss": 115.28146362304688}, "load_time_ms": 0.751, "num_steps_sampled": 2649600, "grad_time_ms": 666.066, "update_time_ms": 2.275, "sample_time_ms": 34837.812}, "date": "2025-08-31_11-46-02", "hostname": "cda-server-4", "time_this_iter_s": 36.257970333099365, "episodes_total": 13248, "timestamp": 1756633562, "node_ip": "10.157.146.4", "done": false, "time_total_s": 70499.40336108208, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2209, "episode_reward_mean": -604.527653214081, "training_iteration": 2209, "timesteps_total": 2650800, "policy_reward_mean": {}, "episode_reward_min": -731.5439980605577, "timesteps_since_restore": 2650800, "num_metric_batches_dropped": 0, "time_since_restore": 70534.88905978203, "episode_reward_max": -462.9155060888452, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2650800, "default": {"kl": 0.009540366008877754, "policy_loss": -0.12339917570352554, "vf_loss": 314.036376953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9680320024490356, "entropy": 3.705092191696167, "cur_lr": 4.999999873689376e-05, "total_loss": 313.927490234375}, "load_time_ms": 0.721, "num_steps_sampled": 2650800, "grad_time_ms": 664.317, "update_time_ms": 2.252, "sample_time_ms": 34932.183}, "date": "2025-08-31_11-46-38", "hostname": "cda-server-4", "time_this_iter_s": 35.48569869995117, "episodes_total": 13254, "timestamp": 1756633598, "node_ip": "10.157.146.4", "done": false, "time_total_s": 70534.88905978203, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2210, "episode_reward_mean": -604.5015940704018, "training_iteration": 2210, "timesteps_total": 2652000, "policy_reward_mean": {}, "episode_reward_min": -731.5439980605577, "timesteps_since_restore": 2652000, "num_metric_batches_dropped": 0, "time_since_restore": 70570.12897205353, "episode_reward_max": -462.9155060888452, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2652000, "default": {"kl": 0.013752087950706482, "policy_loss": -0.1592206209897995, "vf_loss": 378.91339111328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9757464528083801, "entropy": 3.7631137371063232, "cur_lr": 4.999999873689376e-05, "total_loss": 378.7750549316406}, "load_time_ms": 0.74, "num_steps_sampled": 2652000, "grad_time_ms": 663.734, "update_time_ms": 2.196, "sample_time_ms": 34861.847}, "date": "2025-08-31_11-47-13", "hostname": "cda-server-4", "time_this_iter_s": 35.239912271499634, "episodes_total": 13260, "timestamp": 1756633633, "node_ip": "10.157.146.4", "done": false, "time_total_s": 70570.12897205353, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2211, "episode_reward_mean": -606.3664016461386, "training_iteration": 2211, "timesteps_total": 2653200, "policy_reward_mean": {}, "episode_reward_min": -731.5439980605577, "timesteps_since_restore": 2653200, "num_metric_batches_dropped": 0, "time_since_restore": 70606.08446574211, "episode_reward_max": -495.41970888426727, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2653200, "default": {"kl": 0.010341562330722809, "policy_loss": -0.12817293405532837, "vf_loss": 404.0227355957031, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9551323652267456, "entropy": 3.9679369926452637, "cur_lr": 4.999999873689376e-05, "total_loss": 403.9102783203125}, "load_time_ms": 0.751, "num_steps_sampled": 2653200, "grad_time_ms": 670.694, "update_time_ms": 2.185, "sample_time_ms": 34894.881}, "date": "2025-08-31_11-47-49", "hostname": "cda-server-4", "time_this_iter_s": 35.955493688583374, "episodes_total": 13266, "timestamp": 1756633669, "node_ip": "10.157.146.4", "done": false, "time_total_s": 70606.08446574211, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2212, "episode_reward_mean": -606.7544261562839, "training_iteration": 2212, "timesteps_total": 2654400, "policy_reward_mean": {}, "episode_reward_min": -760.4743498423451, "timesteps_since_restore": 2654400, "num_metric_batches_dropped": 0, "time_since_restore": 70641.84434723854, "episode_reward_max": -495.41970888426727, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2654400, "default": {"kl": 0.011355679482221603, "policy_loss": -0.15491671860218048, "vf_loss": 388.5750427246094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9845627546310425, "entropy": 4.088462829589844, "cur_lr": 4.999999873689376e-05, "total_loss": 388.4373779296875}, "load_time_ms": 0.75, "num_steps_sampled": 2654400, "grad_time_ms": 694.148, "update_time_ms": 2.163, "sample_time_ms": 34935.616}, "date": "2025-08-31_11-48-25", "hostname": "cda-server-4", "time_this_iter_s": 35.75988149642944, "episodes_total": 13272, "timestamp": 1756633705, "node_ip": "10.157.146.4", "done": false, "time_total_s": 70641.84434723854, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2213, "episode_reward_mean": -606.9815175002941, "training_iteration": 2213, "timesteps_total": 2655600, "policy_reward_mean": {}, "episode_reward_min": -760.4743498423451, "timesteps_since_restore": 2655600, "num_metric_batches_dropped": 0, "time_since_restore": 70676.73996591568, "episode_reward_max": -495.41970888426727, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2655600, "default": {"kl": 0.011158201843500137, "policy_loss": -0.1411670595407486, "vf_loss": 113.63174438476562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9877176284790039, "entropy": 3.780651569366455, "cur_lr": 4.999999873689376e-05, "total_loss": 113.50752258300781}, "load_time_ms": 0.709, "num_steps_sampled": 2655600, "grad_time_ms": 707.994, "update_time_ms": 2.192, "sample_time_ms": 34942.851}, "date": "2025-08-31_11-49-00", "hostname": "cda-server-4", "time_this_iter_s": 34.89561867713928, "episodes_total": 13278, "timestamp": 1756633740, "node_ip": "10.157.146.4", "done": false, "time_total_s": 70676.73996591568, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2214, "episode_reward_mean": -607.770789978165, "training_iteration": 2214, "timesteps_total": 2656800, "policy_reward_mean": {}, "episode_reward_min": -760.4743498423451, "timesteps_since_restore": 2656800, "num_metric_batches_dropped": 0, "time_since_restore": 70713.30189013481, "episode_reward_max": -495.41970888426727, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2656800, "default": {"kl": 0.010710742324590683, "policy_loss": -0.13501279056072235, "vf_loss": 137.5118865966797, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9836241602897644, "entropy": 3.9191436767578125, "cur_lr": 4.999999873689376e-05, "total_loss": 137.3931427001953}, "load_time_ms": 0.672, "num_steps_sampled": 2656800, "grad_time_ms": 721.454, "update_time_ms": 2.214, "sample_time_ms": 34979.66}, "date": "2025-08-31_11-49-36", "hostname": "cda-server-4", "time_this_iter_s": 36.56192421913147, "episodes_total": 13284, "timestamp": 1756633776, "node_ip": "10.157.146.4", "done": false, "time_total_s": 70713.30189013481, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2215, "episode_reward_mean": -608.0379731275941, "training_iteration": 2215, "timesteps_total": 2658000, "policy_reward_mean": {}, "episode_reward_min": -760.4743498423451, "timesteps_since_restore": 2658000, "num_metric_batches_dropped": 0, "time_since_restore": 70749.7885248661, "episode_reward_max": -495.41970888426727, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2658000, "default": {"kl": 0.009236671961843967, "policy_loss": -0.1354619860649109, "vf_loss": 235.65359497070312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9837981462478638, "entropy": 3.8775384426116943, "cur_lr": 4.999999873689376e-05, "total_loss": 235.5321502685547}, "load_time_ms": 0.675, "num_steps_sampled": 2658000, "grad_time_ms": 729.974, "update_time_ms": 2.222, "sample_time_ms": 35038.15}, "date": "2025-08-31_11-50-13", "hostname": "cda-server-4", "time_this_iter_s": 36.486634731292725, "episodes_total": 13290, "timestamp": 1756633813, "node_ip": "10.157.146.4", "done": false, "time_total_s": 70749.7885248661, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2216, "episode_reward_mean": -607.7719731426483, "training_iteration": 2216, "timesteps_total": 2659200, "policy_reward_mean": {}, "episode_reward_min": -760.4743498423451, "timesteps_since_restore": 2659200, "num_metric_batches_dropped": 0, "time_since_restore": 70784.90798544884, "episode_reward_max": -495.41970888426727, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2659200, "default": {"kl": 0.010099432431161404, "policy_loss": -0.13906821608543396, "vf_loss": 212.3520050048828, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9780394434928894, "entropy": 3.8024609088897705, "cur_lr": 4.999999873689376e-05, "total_loss": 212.228271484375}, "load_time_ms": 0.677, "num_steps_sampled": 2659200, "grad_time_ms": 736.115, "update_time_ms": 2.2, "sample_time_ms": 34997.541}, "date": "2025-08-31_11-50-48", "hostname": "cda-server-4", "time_this_iter_s": 35.119460582733154, "episodes_total": 13296, "timestamp": 1756633848, "node_ip": "10.157.146.4", "done": false, "time_total_s": 70784.90798544884, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2217, "episode_reward_mean": -608.1733885329927, "training_iteration": 2217, "timesteps_total": 2660400, "policy_reward_mean": {}, "episode_reward_min": -760.4743498423451, "timesteps_since_restore": 2660400, "num_metric_batches_dropped": 0, "time_since_restore": 70819.88998866081, "episode_reward_max": -495.41970888426727, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2660400, "default": {"kl": 0.008110105991363525, "policy_loss": -0.10953216999769211, "vf_loss": 91.06614685058594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.988651692867279, "entropy": 3.82405686378479, "cur_lr": 4.999999873689376e-05, "total_loss": 90.96892547607422}, "load_time_ms": 0.675, "num_steps_sampled": 2660400, "grad_time_ms": 737.614, "update_time_ms": 2.19, "sample_time_ms": 34930.207}, "date": "2025-08-31_11-51-23", "hostname": "cda-server-4", "time_this_iter_s": 34.9820032119751, "episodes_total": 13302, "timestamp": 1756633883, "node_ip": "10.157.146.4", "done": false, "time_total_s": 70819.88998866081, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2218, "episode_reward_mean": -607.5379393648074, "training_iteration": 2218, "timesteps_total": 2661600, "policy_reward_mean": {}, "episode_reward_min": -760.4743498423451, "timesteps_since_restore": 2661600, "num_metric_batches_dropped": 0, "time_since_restore": 70855.52701854706, "episode_reward_max": -495.41970888426727, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2661600, "default": {"kl": 0.009988008998334408, "policy_loss": -0.1228397786617279, "vf_loss": 70.49081420898438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9937453866004944, "entropy": 3.714752197265625, "cur_lr": 4.999999873689376e-05, "total_loss": 70.38314819335938}, "load_time_ms": 0.689, "num_steps_sampled": 2661600, "grad_time_ms": 737.765, "update_time_ms": 2.281, "sample_time_ms": 34867.832}, "date": "2025-08-31_11-51-59", "hostname": "cda-server-4", "time_this_iter_s": 35.63702988624573, "episodes_total": 13308, "timestamp": 1756633919, "node_ip": "10.157.146.4", "done": false, "time_total_s": 70855.52701854706, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2219, "episode_reward_mean": -606.6177813471423, "training_iteration": 2219, "timesteps_total": 2662800, "policy_reward_mean": {}, "episode_reward_min": -760.4743498423451, "timesteps_since_restore": 2662800, "num_metric_batches_dropped": 0, "time_since_restore": 70891.10643315315, "episode_reward_max": -495.41970888426727, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2662800, "default": {"kl": 0.011725538410246372, "policy_loss": -0.13368768990039825, "vf_loss": 58.39229965209961, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9950134754180908, "entropy": 3.7574942111968994, "cur_lr": 4.999999873689376e-05, "total_loss": 58.27642059326172}, "load_time_ms": 0.691, "num_steps_sampled": 2662800, "grad_time_ms": 738.816, "update_time_ms": 2.374, "sample_time_ms": 34876.018}, "date": "2025-08-31_11-52-34", "hostname": "cda-server-4", "time_this_iter_s": 35.57941460609436, "episodes_total": 13314, "timestamp": 1756633954, "node_ip": "10.157.146.4", "done": false, "time_total_s": 70891.10643315315, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2220, "episode_reward_mean": -606.2054090264645, "training_iteration": 2220, "timesteps_total": 2664000, "policy_reward_mean": {}, "episode_reward_min": -760.4743498423451, "timesteps_since_restore": 2664000, "num_metric_batches_dropped": 0, "time_since_restore": 70926.34776973724, "episode_reward_max": -495.41970888426727, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2664000, "default": {"kl": 0.010446319356560707, "policy_loss": -0.14335031807422638, "vf_loss": 152.14901733398438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9820802211761475, "entropy": 3.889918804168701, "cur_lr": 4.999999873689376e-05, "total_loss": 152.02154541015625}, "load_time_ms": 0.678, "num_steps_sampled": 2664000, "grad_time_ms": 739.345, "update_time_ms": 2.546, "sample_time_ms": 34875.457}, "date": "2025-08-31_11-53-09", "hostname": "cda-server-4", "time_this_iter_s": 35.24133658409119, "episodes_total": 13320, "timestamp": 1756633989, "node_ip": "10.157.146.4", "done": false, "time_total_s": 70926.34776973724, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2221, "episode_reward_mean": -606.2674756194527, "training_iteration": 2221, "timesteps_total": 2665200, "policy_reward_mean": {}, "episode_reward_min": -760.4743498423451, "timesteps_since_restore": 2665200, "num_metric_batches_dropped": 0, "time_since_restore": 70961.8960146904, "episode_reward_max": -495.41970888426727, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2665200, "default": {"kl": 0.01051180250942707, "policy_loss": -0.13732720911502838, "vf_loss": 81.00239562988281, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9895802736282349, "entropy": 3.949923276901245, "cur_lr": 4.999999873689376e-05, "total_loss": 80.88102722167969}, "load_time_ms": 0.666, "num_steps_sampled": 2665200, "grad_time_ms": 740.415, "update_time_ms": 2.506, "sample_time_ms": 34833.683}, "date": "2025-08-31_11-53-45", "hostname": "cda-server-4", "time_this_iter_s": 35.54824495315552, "episodes_total": 13326, "timestamp": 1756634025, "node_ip": "10.157.146.4", "done": false, "time_total_s": 70961.8960146904, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2222, "episode_reward_mean": -607.3543099343581, "training_iteration": 2222, "timesteps_total": 2666400, "policy_reward_mean": {}, "episode_reward_min": -760.4743498423451, "timesteps_since_restore": 2666400, "num_metric_batches_dropped": 0, "time_since_restore": 70997.78280329704, "episode_reward_max": -495.41970888426727, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2666400, "default": {"kl": 0.012073232792317867, "policy_loss": -0.14472141861915588, "vf_loss": 162.61587524414062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9858266115188599, "entropy": 3.8425984382629395, "cur_lr": 4.999999873689376e-05, "total_loss": 162.489501953125}, "load_time_ms": 0.653, "num_steps_sampled": 2666400, "grad_time_ms": 742.736, "update_time_ms": 2.603, "sample_time_ms": 34843.967}, "date": "2025-08-31_11-54-21", "hostname": "cda-server-4", "time_this_iter_s": 35.88678860664368, "episodes_total": 13332, "timestamp": 1756634061, "node_ip": "10.157.146.4", "done": false, "time_total_s": 70997.78280329704, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2223, "episode_reward_mean": -607.3968923503869, "training_iteration": 2223, "timesteps_total": 2667600, "policy_reward_mean": {}, "episode_reward_min": -760.4743498423451, "timesteps_since_restore": 2667600, "num_metric_batches_dropped": 0, "time_since_restore": 71033.07567858696, "episode_reward_max": -495.41970888426727, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2667600, "default": {"kl": 0.009952960535883904, "policy_loss": -0.1209300234913826, "vf_loss": 113.32864379882812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9863079786300659, "entropy": 3.9146080017089844, "cur_lr": 4.999999873689376e-05, "total_loss": 113.22283172607422}, "load_time_ms": 0.664, "num_steps_sampled": 2667600, "grad_time_ms": 741.896, "update_time_ms": 2.555, "sample_time_ms": 34884.494}, "date": "2025-08-31_11-54-56", "hostname": "cda-server-4", "time_this_iter_s": 35.29287528991699, "episodes_total": 13338, "timestamp": 1756634096, "node_ip": "10.157.146.4", "done": false, "time_total_s": 71033.07567858696, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2224, "episode_reward_mean": -608.8832001091794, "training_iteration": 2224, "timesteps_total": 2668800, "policy_reward_mean": {}, "episode_reward_min": -760.4743498423451, "timesteps_since_restore": 2668800, "num_metric_batches_dropped": 0, "time_since_restore": 71068.70281887054, "episode_reward_max": -495.67651289119726, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2668800, "default": {"kl": 0.01100987195968628, "policy_loss": -0.12689323723316193, "vf_loss": 183.33946228027344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9759992957115173, "entropy": 3.913788318634033, "cur_lr": 4.999999873689376e-05, "total_loss": 183.22930908203125}, "load_time_ms": 0.666, "num_steps_sampled": 2668800, "grad_time_ms": 735.639, "update_time_ms": 2.625, "sample_time_ms": 34797.249}, "date": "2025-08-31_11-55-32", "hostname": "cda-server-4", "time_this_iter_s": 35.627140283584595, "episodes_total": 13344, "timestamp": 1756634132, "node_ip": "10.157.146.4", "done": false, "time_total_s": 71068.70281887054, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2225, "episode_reward_mean": -609.4431230233, "training_iteration": 2225, "timesteps_total": 2670000, "policy_reward_mean": {}, "episode_reward_min": -760.4743498423451, "timesteps_since_restore": 2670000, "num_metric_batches_dropped": 0, "time_since_restore": 71104.64347195625, "episode_reward_max": -495.67651289119726, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2670000, "default": {"kl": 0.011120183393359184, "policy_loss": -0.14204730093479156, "vf_loss": 28.97117042541504, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9980632066726685, "entropy": 3.8080270290374756, "cur_lr": 4.999999873689376e-05, "total_loss": 28.846012115478516}, "load_time_ms": 0.657, "num_steps_sampled": 2670000, "grad_time_ms": 733.957, "update_time_ms": 2.556, "sample_time_ms": 34744.409}, "date": "2025-08-31_11-56-08", "hostname": "cda-server-4", "time_this_iter_s": 35.94065308570862, "episodes_total": 13350, "timestamp": 1756634168, "node_ip": "10.157.146.4", "done": false, "time_total_s": 71104.64347195625, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2226, "episode_reward_mean": -610.2885007658455, "training_iteration": 2226, "timesteps_total": 2671200, "policy_reward_mean": {}, "episode_reward_min": -760.4743498423451, "timesteps_since_restore": 2671200, "num_metric_batches_dropped": 0, "time_since_restore": 71139.94269275665, "episode_reward_max": -495.67651289119726, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2671200, "default": {"kl": 0.01010515820235014, "policy_loss": -0.12963563203811646, "vf_loss": 58.29574203491211, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9939366579055786, "entropy": 3.8976876735687256, "cur_lr": 4.999999873689376e-05, "total_loss": 58.18144989013672}, "load_time_ms": 0.619, "num_steps_sampled": 2671200, "grad_time_ms": 733.635, "update_time_ms": 2.638, "sample_time_ms": 34762.623}, "date": "2025-08-31_11-56-43", "hostname": "cda-server-4", "time_this_iter_s": 35.29922080039978, "episodes_total": 13356, "timestamp": 1756634203, "node_ip": "10.157.146.4", "done": false, "time_total_s": 71139.94269275665, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2227, "episode_reward_mean": -610.4207274221831, "training_iteration": 2227, "timesteps_total": 2672400, "policy_reward_mean": {}, "episode_reward_min": -760.4743498423451, "timesteps_since_restore": 2672400, "num_metric_batches_dropped": 0, "time_since_restore": 71175.02071523666, "episode_reward_max": -495.67651289119726, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2672400, "default": {"kl": 0.008607292547821999, "policy_loss": -0.13222163915634155, "vf_loss": 91.917724609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9886434078216553, "entropy": 3.794994831085205, "cur_lr": 4.999999873689376e-05, "total_loss": 91.79857635498047}, "load_time_ms": 0.653, "num_steps_sampled": 2672400, "grad_time_ms": 732.45, "update_time_ms": 2.764, "sample_time_ms": 34773.269}, "date": "2025-08-31_11-57-18", "hostname": "cda-server-4", "time_this_iter_s": 35.078022480010986, "episodes_total": 13362, "timestamp": 1756634238, "node_ip": "10.157.146.4", "done": false, "time_total_s": 71175.02071523666, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2228, "episode_reward_mean": -608.0058881988242, "training_iteration": 2228, "timesteps_total": 2673600, "policy_reward_mean": {}, "episode_reward_min": -676.9232468011492, "timesteps_since_restore": 2673600, "num_metric_batches_dropped": 0, "time_since_restore": 71209.78233742714, "episode_reward_max": -495.67651289119726, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2673600, "default": {"kl": 0.009702562354505062, "policy_loss": -0.1339615285396576, "vf_loss": 222.5525665283203, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9797251224517822, "entropy": 3.912449836730957, "cur_lr": 4.999999873689376e-05, "total_loss": 222.43331909179688}, "load_time_ms": 0.643, "num_steps_sampled": 2673600, "grad_time_ms": 728.987, "update_time_ms": 2.768, "sample_time_ms": 34689.062}, "date": "2025-08-31_11-57-53", "hostname": "cda-server-4", "time_this_iter_s": 34.761622190475464, "episodes_total": 13368, "timestamp": 1756634273, "node_ip": "10.157.146.4", "done": false, "time_total_s": 71209.78233742714, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2229, "episode_reward_mean": -608.742877636172, "training_iteration": 2229, "timesteps_total": 2674800, "policy_reward_mean": {}, "episode_reward_min": -676.9232468011492, "timesteps_since_restore": 2674800, "num_metric_batches_dropped": 0, "time_since_restore": 71245.54462575912, "episode_reward_max": -495.67651289119726, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2674800, "default": {"kl": 0.010305993258953094, "policy_loss": -0.125535249710083, "vf_loss": 188.2442626953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9831801652908325, "entropy": 3.959322929382324, "cur_lr": 4.999999873689376e-05, "total_loss": 188.13436889648438}, "load_time_ms": 0.642, "num_steps_sampled": 2674800, "grad_time_ms": 729.452, "update_time_ms": 2.769, "sample_time_ms": 34706.846}, "date": "2025-08-31_11-58-29", "hostname": "cda-server-4", "time_this_iter_s": 35.762288331985474, "episodes_total": 13374, "timestamp": 1756634309, "node_ip": "10.157.146.4", "done": false, "time_total_s": 71245.54462575912, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2230, "episode_reward_mean": -608.5011409275862, "training_iteration": 2230, "timesteps_total": 2676000, "policy_reward_mean": {}, "episode_reward_min": -676.9232468011492, "timesteps_since_restore": 2676000, "num_metric_batches_dropped": 0, "time_since_restore": 71282.32535004616, "episode_reward_max": -495.67651289119726, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2676000, "default": {"kl": 0.011188295669853687, "policy_loss": -0.13792608678340912, "vf_loss": 102.53545379638672, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9910707473754883, "entropy": 3.7094764709472656, "cur_lr": 4.999999873689376e-05, "total_loss": 102.41452026367188}, "load_time_ms": 0.673, "num_steps_sampled": 2676000, "grad_time_ms": 728.143, "update_time_ms": 2.65, "sample_time_ms": 34862.199}, "date": "2025-08-31_11-59-06", "hostname": "cda-server-4", "time_this_iter_s": 36.78072428703308, "episodes_total": 13380, "timestamp": 1756634346, "node_ip": "10.157.146.4", "done": false, "time_total_s": 71282.32535004616, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2231, "episode_reward_mean": -607.6962985606743, "training_iteration": 2231, "timesteps_total": 2677200, "policy_reward_mean": {}, "episode_reward_min": -676.9232468011492, "timesteps_since_restore": 2677200, "num_metric_batches_dropped": 0, "time_since_restore": 71317.57905983925, "episode_reward_max": -495.67651289119726, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2677200, "default": {"kl": 0.009358054026961327, "policy_loss": -0.12620924413204193, "vf_loss": 83.26016235351562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9908642172813416, "entropy": 3.74914288520813, "cur_lr": 4.999999873689376e-05, "total_loss": 83.14816284179688}, "load_time_ms": 0.673, "num_steps_sampled": 2677200, "grad_time_ms": 726.968, "update_time_ms": 2.641, "sample_time_ms": 34833.917}, "date": "2025-08-31_11-59-41", "hostname": "cda-server-4", "time_this_iter_s": 35.25370979309082, "episodes_total": 13386, "timestamp": 1756634381, "node_ip": "10.157.146.4", "done": false, "time_total_s": 71317.57905983925, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2232, "episode_reward_mean": -607.5874971359952, "training_iteration": 2232, "timesteps_total": 2678400, "policy_reward_mean": {}, "episode_reward_min": -676.9232468011492, "timesteps_since_restore": 2678400, "num_metric_batches_dropped": 0, "time_since_restore": 71354.0562992096, "episode_reward_max": -495.67651289119726, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2678400, "default": {"kl": 0.009887482970952988, "policy_loss": -0.13596656918525696, "vf_loss": 354.7336730957031, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9752746224403381, "entropy": 3.910374641418457, "cur_lr": 4.999999873689376e-05, "total_loss": 354.6126708984375}, "load_time_ms": 0.7, "num_steps_sampled": 2678400, "grad_time_ms": 725.954, "update_time_ms": 2.581, "sample_time_ms": 34893.971}, "date": "2025-08-31_12-00-17", "hostname": "cda-server-4", "time_this_iter_s": 36.47723937034607, "episodes_total": 13392, "timestamp": 1756634417, "node_ip": "10.157.146.4", "done": false, "time_total_s": 71354.0562992096, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2233, "episode_reward_mean": -608.7102876805637, "training_iteration": 2233, "timesteps_total": 2679600, "policy_reward_mean": {}, "episode_reward_min": -676.9232468011492, "timesteps_since_restore": 2679600, "num_metric_batches_dropped": 0, "time_since_restore": 71389.90871214867, "episode_reward_max": -550.9921535441807, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2679600, "default": {"kl": 0.01084771379828453, "policy_loss": -0.15156015753746033, "vf_loss": 230.75946044921875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9738471508026123, "entropy": 3.843953847885132, "cur_lr": 4.999999873689376e-05, "total_loss": 230.62437438964844}, "load_time_ms": 0.691, "num_steps_sampled": 2679600, "grad_time_ms": 727.783, "update_time_ms": 2.523, "sample_time_ms": 34948.171}, "date": "2025-08-31_12-00-53", "hostname": "cda-server-4", "time_this_iter_s": 35.852412939071655, "episodes_total": 13398, "timestamp": 1756634453, "node_ip": "10.157.146.4", "done": false, "time_total_s": 71389.90871214867, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2234, "episode_reward_mean": -608.4031779893047, "training_iteration": 2234, "timesteps_total": 2680800, "policy_reward_mean": {}, "episode_reward_min": -676.9232468011492, "timesteps_since_restore": 2680800, "num_metric_batches_dropped": 0, "time_since_restore": 71424.73464941978, "episode_reward_max": -550.9921535441807, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2680800, "default": {"kl": 0.013039465993642807, "policy_loss": -0.1531229317188263, "vf_loss": 111.90616607666016, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9898751378059387, "entropy": 3.8361968994140625, "cur_lr": 4.999999873689376e-05, "total_loss": 111.7728500366211}, "load_time_ms": 0.689, "num_steps_sampled": 2680800, "grad_time_ms": 733.104, "update_time_ms": 2.447, "sample_time_ms": 34862.798}, "date": "2025-08-31_12-01-28", "hostname": "cda-server-4", "time_this_iter_s": 34.825937271118164, "episodes_total": 13404, "timestamp": 1756634488, "node_ip": "10.157.146.4", "done": false, "time_total_s": 71424.73464941978, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2235, "episode_reward_mean": -608.951981439958, "training_iteration": 2235, "timesteps_total": 2682000, "policy_reward_mean": {}, "episode_reward_min": -676.9232468011492, "timesteps_since_restore": 2682000, "num_metric_batches_dropped": 0, "time_since_restore": 71460.20252656937, "episode_reward_max": -550.9921535441807, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2682000, "default": {"kl": 0.009948944672942162, "policy_loss": -0.13029688596725464, "vf_loss": 575.0810546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9699820280075073, "entropy": 3.826176643371582, "cur_lr": 4.999999873689376e-05, "total_loss": 574.9659423828125}, "load_time_ms": 0.691, "num_steps_sampled": 2682000, "grad_time_ms": 731.651, "update_time_ms": 2.483, "sample_time_ms": 34816.933}, "date": "2025-08-31_12-02-04", "hostname": "cda-server-4", "time_this_iter_s": 35.46787714958191, "episodes_total": 13410, "timestamp": 1756634524, "node_ip": "10.157.146.4", "done": false, "time_total_s": 71460.20252656937, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2236, "episode_reward_mean": -609.3579331823886, "training_iteration": 2236, "timesteps_total": 2683200, "policy_reward_mean": {}, "episode_reward_min": -676.9232468011492, "timesteps_since_restore": 2683200, "num_metric_batches_dropped": 0, "time_since_restore": 71496.22959518433, "episode_reward_max": -550.9921535441807, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2683200, "default": {"kl": 0.00947526190429926, "policy_loss": -0.1392085999250412, "vf_loss": 37.39328384399414, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9953139424324036, "entropy": 3.8523364067077637, "cur_lr": 4.999999873689376e-05, "total_loss": 37.268463134765625}, "load_time_ms": 0.699, "num_steps_sampled": 2683200, "grad_time_ms": 726.045, "update_time_ms": 2.427, "sample_time_ms": 34895.355}, "date": "2025-08-31_12-02-40", "hostname": "cda-server-4", "time_this_iter_s": 36.02706861495972, "episodes_total": 13416, "timestamp": 1756634560, "node_ip": "10.157.146.4", "done": false, "time_total_s": 71496.22959518433, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2237, "episode_reward_mean": -608.920934008303, "training_iteration": 2237, "timesteps_total": 2684400, "policy_reward_mean": {}, "episode_reward_min": -643.5885880030384, "timesteps_since_restore": 2684400, "num_metric_batches_dropped": 0, "time_since_restore": 71531.2327349186, "episode_reward_max": -550.9921535441807, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2684400, "default": {"kl": 0.009888779371976852, "policy_loss": -0.13127730786800385, "vf_loss": 166.27647399902344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9757429957389832, "entropy": 4.001611709594727, "cur_lr": 4.999999873689376e-05, "total_loss": 166.16021728515625}, "load_time_ms": 0.669, "num_steps_sampled": 2684400, "grad_time_ms": 720.866, "update_time_ms": 2.311, "sample_time_ms": 34893.193}, "date": "2025-08-31_12-03-15", "hostname": "cda-server-4", "time_this_iter_s": 35.00313973426819, "episodes_total": 13422, "timestamp": 1756634595, "node_ip": "10.157.146.4", "done": false, "time_total_s": 71531.2327349186, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2238, "episode_reward_mean": -609.0791317861763, "training_iteration": 2238, "timesteps_total": 2685600, "policy_reward_mean": {}, "episode_reward_min": -643.5885880030384, "timesteps_since_restore": 2685600, "num_metric_batches_dropped": 0, "time_since_restore": 71566.66413068771, "episode_reward_max": -550.9921535441807, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2685600, "default": {"kl": 0.010163228958845139, "policy_loss": -0.13258439302444458, "vf_loss": 113.7065200805664, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9864779710769653, "entropy": 3.7921595573425293, "cur_lr": 4.999999873689376e-05, "total_loss": 113.5893783569336}, "load_time_ms": 0.668, "num_steps_sampled": 2685600, "grad_time_ms": 720.352, "update_time_ms": 2.298, "sample_time_ms": 34960.856}, "date": "2025-08-31_12-03-50", "hostname": "cda-server-4", "time_this_iter_s": 35.43139576911926, "episodes_total": 13428, "timestamp": 1756634630, "node_ip": "10.157.146.4", "done": false, "time_total_s": 71566.66413068771, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2239, "episode_reward_mean": -609.4542972682434, "training_iteration": 2239, "timesteps_total": 2686800, "policy_reward_mean": {}, "episode_reward_min": -646.4476932486301, "timesteps_since_restore": 2686800, "num_metric_batches_dropped": 0, "time_since_restore": 71602.69432520866, "episode_reward_max": -550.9921535441807, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2686800, "default": {"kl": 0.010329201817512512, "policy_loss": -0.13447721302509308, "vf_loss": 435.4161682128906, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9493540525436401, "entropy": 3.9086341857910156, "cur_lr": 4.999999873689376e-05, "total_loss": 435.29742431640625}, "load_time_ms": 0.701, "num_steps_sampled": 2686800, "grad_time_ms": 716.924, "update_time_ms": 2.229, "sample_time_ms": 34991.17}, "date": "2025-08-31_12-04-26", "hostname": "cda-server-4", "time_this_iter_s": 36.03019452095032, "episodes_total": 13434, "timestamp": 1756634666, "node_ip": "10.157.146.4", "done": false, "time_total_s": 71602.69432520866, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2240, "episode_reward_mean": -608.4862519756923, "training_iteration": 2240, "timesteps_total": 2688000, "policy_reward_mean": {}, "episode_reward_min": -646.4476932486301, "timesteps_since_restore": 2688000, "num_metric_batches_dropped": 0, "time_since_restore": 71638.65936374664, "episode_reward_max": -550.9921535441807, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2688000, "default": {"kl": 0.009323995560407639, "policy_loss": -0.1243176981806755, "vf_loss": 138.65113830566406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.992297887802124, "entropy": 3.8927981853485107, "cur_lr": 4.999999873689376e-05, "total_loss": 138.54100036621094}, "load_time_ms": 0.666, "num_steps_sampled": 2688000, "grad_time_ms": 717.166, "update_time_ms": 2.176, "sample_time_ms": 34909.497}, "date": "2025-08-31_12-05-02", "hostname": "cda-server-4", "time_this_iter_s": 35.965038537979126, "episodes_total": 13440, "timestamp": 1756634702, "node_ip": "10.157.146.4", "done": false, "time_total_s": 71638.65936374664, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2241, "episode_reward_mean": -609.6876059907045, "training_iteration": 2241, "timesteps_total": 2689200, "policy_reward_mean": {}, "episode_reward_min": -685.2119729596952, "timesteps_since_restore": 2689200, "num_metric_batches_dropped": 0, "time_since_restore": 71673.59419870377, "episode_reward_max": -550.9921535441807, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2689200, "default": {"kl": 0.01189399603754282, "policy_loss": -0.1433347463607788, "vf_loss": 591.0159301757812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9151990413665771, "entropy": 4.178387641906738, "cur_lr": 4.999999873689376e-05, "total_loss": 590.8907470703125}, "load_time_ms": 0.667, "num_steps_sampled": 2689200, "grad_time_ms": 717.6, "update_time_ms": 2.265, "sample_time_ms": 34877.135}, "date": "2025-08-31_12-05-37", "hostname": "cda-server-4", "time_this_iter_s": 34.9348349571228, "episodes_total": 13446, "timestamp": 1756634737, "node_ip": "10.157.146.4", "done": false, "time_total_s": 71673.59419870377, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2242, "episode_reward_mean": -609.0034165625872, "training_iteration": 2242, "timesteps_total": 2690400, "policy_reward_mean": {}, "episode_reward_min": -685.2119729596952, "timesteps_since_restore": 2690400, "num_metric_batches_dropped": 0, "time_since_restore": 71709.21844053268, "episode_reward_max": -550.9921535441807, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2690400, "default": {"kl": 0.010316627100110054, "policy_loss": -0.12472310662269592, "vf_loss": 82.40166473388672, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.990238606929779, "entropy": 3.96343731880188, "cur_lr": 4.999999873689376e-05, "total_loss": 82.29261016845703}, "load_time_ms": 0.619, "num_steps_sampled": 2690400, "grad_time_ms": 716.188, "update_time_ms": 2.255, "sample_time_ms": 34793.319}, "date": "2025-08-31_12-06-13", "hostname": "cda-server-4", "time_this_iter_s": 35.62424182891846, "episodes_total": 13452, "timestamp": 1756634773, "node_ip": "10.157.146.4", "done": false, "time_total_s": 71709.21844053268, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2243, "episode_reward_mean": -608.945252698844, "training_iteration": 2243, "timesteps_total": 2691600, "policy_reward_mean": {}, "episode_reward_min": -685.2119729596952, "timesteps_since_restore": 2691600, "num_metric_batches_dropped": 0, "time_since_restore": 71745.20542383194, "episode_reward_max": -561.1466741839894, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2691600, "default": {"kl": 0.010437705554068089, "policy_loss": -0.1377851366996765, "vf_loss": 183.49188232421875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9763028621673584, "entropy": 3.7594096660614014, "cur_lr": 4.999999873689376e-05, "total_loss": 183.3699493408203}, "load_time_ms": 0.623, "num_steps_sampled": 2691600, "grad_time_ms": 717.378, "update_time_ms": 2.33, "sample_time_ms": 34805.545}, "date": "2025-08-31_12-06-49", "hostname": "cda-server-4", "time_this_iter_s": 35.98698329925537, "episodes_total": 13458, "timestamp": 1756634809, "node_ip": "10.157.146.4", "done": false, "time_total_s": 71745.20542383194, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2244, "episode_reward_mean": -608.7363023067251, "training_iteration": 2244, "timesteps_total": 2692800, "policy_reward_mean": {}, "episode_reward_min": -685.2119729596952, "timesteps_since_restore": 2692800, "num_metric_batches_dropped": 0, "time_since_restore": 71780.46984410286, "episode_reward_max": -561.1466741839894, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2692800, "default": {"kl": 0.0104488804936409, "policy_loss": -0.12757611274719238, "vf_loss": 110.85115814208984, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9869444370269775, "entropy": 3.725931406021118, "cur_lr": 4.999999873689376e-05, "total_loss": 110.73944854736328}, "load_time_ms": 0.626, "num_steps_sampled": 2692800, "grad_time_ms": 718.936, "update_time_ms": 2.311, "sample_time_ms": 34847.808}, "date": "2025-08-31_12-07-24", "hostname": "cda-server-4", "time_this_iter_s": 35.2644202709198, "episodes_total": 13464, "timestamp": 1756634844, "node_ip": "10.157.146.4", "done": false, "time_total_s": 71780.46984410286, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2245, "episode_reward_mean": -608.5545202684125, "training_iteration": 2245, "timesteps_total": 2694000, "policy_reward_mean": {}, "episode_reward_min": -685.2119729596952, "timesteps_since_restore": 2694000, "num_metric_batches_dropped": 0, "time_since_restore": 71815.68227267265, "episode_reward_max": -561.1466741839894, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2694000, "default": {"kl": 0.01295209489762783, "policy_loss": -0.14875225722789764, "vf_loss": 159.57284545898438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9911442995071411, "entropy": 3.859985828399658, "cur_lr": 4.999999873689376e-05, "total_loss": 159.4437713623047}, "load_time_ms": 0.631, "num_steps_sampled": 2694000, "grad_time_ms": 722.449, "update_time_ms": 2.268, "sample_time_ms": 34818.736}, "date": "2025-08-31_12-07-59", "hostname": "cda-server-4", "time_this_iter_s": 35.2124285697937, "episodes_total": 13470, "timestamp": 1756634879, "node_ip": "10.157.146.4", "done": false, "time_total_s": 71815.68227267265, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2246, "episode_reward_mean": -609.1191070770973, "training_iteration": 2246, "timesteps_total": 2695200, "policy_reward_mean": {}, "episode_reward_min": -685.2119729596952, "timesteps_since_restore": 2695200, "num_metric_batches_dropped": 0, "time_since_restore": 71850.8334581852, "episode_reward_max": -561.1466741839894, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2695200, "default": {"kl": 0.00942248199135065, "policy_loss": -0.1300569772720337, "vf_loss": 585.9041748046875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.93785560131073, "entropy": 4.022296905517578, "cur_lr": 4.999999873689376e-05, "total_loss": 585.7883911132812}, "load_time_ms": 0.627, "num_steps_sampled": 2695200, "grad_time_ms": 728.602, "update_time_ms": 2.333, "sample_time_ms": 34724.811}, "date": "2025-08-31_12-08-34", "hostname": "cda-server-4", "time_this_iter_s": 35.151185512542725, "episodes_total": 13476, "timestamp": 1756634914, "node_ip": "10.157.146.4", "done": false, "time_total_s": 71850.8334581852, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2247, "episode_reward_mean": -609.3593665147723, "training_iteration": 2247, "timesteps_total": 2696400, "policy_reward_mean": {}, "episode_reward_min": -685.2119729596952, "timesteps_since_restore": 2696400, "num_metric_batches_dropped": 0, "time_since_restore": 71887.55403590202, "episode_reward_max": -561.1466741839894, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2696400, "default": {"kl": 0.010264288634061813, "policy_loss": -0.13061653077602386, "vf_loss": 203.05828857421875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9770646691322327, "entropy": 3.901350259780884, "cur_lr": 4.999999873689376e-05, "total_loss": 202.94325256347656}, "load_time_ms": 0.673, "num_steps_sampled": 2696400, "grad_time_ms": 733.568, "update_time_ms": 2.403, "sample_time_ms": 34891.35}, "date": "2025-08-31_12-09-11", "hostname": "cda-server-4", "time_this_iter_s": 36.72057771682739, "episodes_total": 13482, "timestamp": 1756634951, "node_ip": "10.157.146.4", "done": false, "time_total_s": 71887.55403590202, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2248, "episode_reward_mean": -608.9380052224833, "training_iteration": 2248, "timesteps_total": 2697600, "policy_reward_mean": {}, "episode_reward_min": -685.2119729596952, "timesteps_since_restore": 2697600, "num_metric_batches_dropped": 0, "time_since_restore": 71923.46859002113, "episode_reward_max": -561.1466741839894, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2697600, "default": {"kl": 0.012880927883088589, "policy_loss": -0.14354722201824188, "vf_loss": 108.40890502929688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9934801459312439, "entropy": 3.675827980041504, "cur_lr": 4.999999873689376e-05, "total_loss": 108.284912109375}, "load_time_ms": 0.711, "num_steps_sampled": 2697600, "grad_time_ms": 735.631, "update_time_ms": 2.409, "sample_time_ms": 34937.455}, "date": "2025-08-31_12-09-47", "hostname": "cda-server-4", "time_this_iter_s": 35.91455411911011, "episodes_total": 13488, "timestamp": 1756634987, "node_ip": "10.157.146.4", "done": false, "time_total_s": 71923.46859002113, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2249, "episode_reward_mean": -608.9724813037318, "training_iteration": 2249, "timesteps_total": 2698800, "policy_reward_mean": {}, "episode_reward_min": -685.2119729596952, "timesteps_since_restore": 2698800, "num_metric_batches_dropped": 0, "time_since_restore": 71958.57378101349, "episode_reward_max": -561.1466741839894, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2698800, "default": {"kl": 0.009997197426855564, "policy_loss": -0.11744238436222076, "vf_loss": 80.00962829589844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9894025325775146, "entropy": 3.7658021450042725, "cur_lr": 4.999999873689376e-05, "total_loss": 79.90737915039062}, "load_time_ms": 0.707, "num_steps_sampled": 2698800, "grad_time_ms": 738.57, "update_time_ms": 2.496, "sample_time_ms": 34841.86}, "date": "2025-08-31_12-10-22", "hostname": "cda-server-4", "time_this_iter_s": 35.10519099235535, "episodes_total": 13494, "timestamp": 1756635022, "node_ip": "10.157.146.4", "done": false, "time_total_s": 71958.57378101349, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2250, "episode_reward_mean": -607.3487093203918, "training_iteration": 2250, "timesteps_total": 2700000, "policy_reward_mean": {}, "episode_reward_min": -685.2119729596952, "timesteps_since_restore": 2700000, "num_metric_batches_dropped": 0, "time_since_restore": 71994.24659132957, "episode_reward_max": -467.21171837251154, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2700000, "default": {"kl": 0.009422147646546364, "policy_loss": -0.13783001899719238, "vf_loss": 291.3714599609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9539905190467834, "entropy": 3.783003091812134, "cur_lr": 4.999999873689376e-05, "total_loss": 291.2479553222656}, "load_time_ms": 0.706, "num_steps_sampled": 2700000, "grad_time_ms": 739.166, "update_time_ms": 2.565, "sample_time_ms": 34811.868}, "date": "2025-08-31_12-10-58", "hostname": "cda-server-4", "time_this_iter_s": 35.672810316085815, "episodes_total": 13500, "timestamp": 1756635058, "node_ip": "10.157.146.4", "done": false, "time_total_s": 71994.24659132957, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2251, "episode_reward_mean": -607.5900837115976, "training_iteration": 2251, "timesteps_total": 2701200, "policy_reward_mean": {}, "episode_reward_min": -685.2119729596952, "timesteps_since_restore": 2701200, "num_metric_batches_dropped": 0, "time_since_restore": 72029.95800995827, "episode_reward_max": -467.21171837251154, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2701200, "default": {"kl": 0.010485444217920303, "policy_loss": -0.13733121752738953, "vf_loss": 63.88568878173828, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9913641810417175, "entropy": 3.810939311981201, "cur_lr": 4.999999873689376e-05, "total_loss": 63.7642822265625}, "load_time_ms": 0.704, "num_steps_sampled": 2701200, "grad_time_ms": 739.303, "update_time_ms": 2.679, "sample_time_ms": 34889.233}, "date": "2025-08-31_12-11-34", "hostname": "cda-server-4", "time_this_iter_s": 35.71141862869263, "episodes_total": 13506, "timestamp": 1756635094, "node_ip": "10.157.146.4", "done": false, "time_total_s": 72029.95800995827, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2252, "episode_reward_mean": -609.1439934322348, "training_iteration": 2252, "timesteps_total": 2702400, "policy_reward_mean": {}, "episode_reward_min": -796.765209626063, "timesteps_since_restore": 2702400, "num_metric_batches_dropped": 0, "time_since_restore": 72065.5861196518, "episode_reward_max": -467.21171837251154, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2702400, "default": {"kl": 0.014895117841660976, "policy_loss": -0.17189928889274597, "vf_loss": 308.9375915527344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9811671376228333, "entropy": 4.066137313842773, "cur_lr": 4.999999873689376e-05, "total_loss": 308.7882995605469}, "load_time_ms": 0.714, "num_steps_sampled": 2702400, "grad_time_ms": 741.237, "update_time_ms": 2.674, "sample_time_ms": 34887.676}, "date": "2025-08-31_12-12-09", "hostname": "cda-server-4", "time_this_iter_s": 35.62810969352722, "episodes_total": 13512, "timestamp": 1756635129, "node_ip": "10.157.146.4", "done": false, "time_total_s": 72065.5861196518, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2253, "episode_reward_mean": -608.8330289940947, "training_iteration": 2253, "timesteps_total": 2703600, "policy_reward_mean": {}, "episode_reward_min": -796.765209626063, "timesteps_since_restore": 2703600, "num_metric_batches_dropped": 0, "time_since_restore": 72102.45369958878, "episode_reward_max": -467.21171837251154, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2703600, "default": {"kl": 0.010985706932842731, "policy_loss": -0.1437738537788391, "vf_loss": 84.96450805664062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.988709568977356, "entropy": 3.7888853549957275, "cur_lr": 4.999999873689376e-05, "total_loss": 84.83740997314453}, "load_time_ms": 0.729, "num_steps_sampled": 2703600, "grad_time_ms": 740.334, "update_time_ms": 2.643, "sample_time_ms": 34976.696}, "date": "2025-08-31_12-12-46", "hostname": "cda-server-4", "time_this_iter_s": 36.8675799369812, "episodes_total": 13518, "timestamp": 1756635166, "node_ip": "10.157.146.4", "done": false, "time_total_s": 72102.45369958878, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2254, "episode_reward_mean": -608.760401564439, "training_iteration": 2254, "timesteps_total": 2704800, "policy_reward_mean": {}, "episode_reward_min": -796.765209626063, "timesteps_since_restore": 2704800, "num_metric_batches_dropped": 0, "time_since_restore": 72138.23357009888, "episode_reward_max": -467.21171837251154, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2704800, "default": {"kl": 0.011516624130308628, "policy_loss": -0.15233920514583588, "vf_loss": 77.52713012695312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9897528886795044, "entropy": 3.665454864501953, "cur_lr": 4.999999873689376e-05, "total_loss": 77.39227294921875}, "load_time_ms": 0.733, "num_steps_sampled": 2704800, "grad_time_ms": 740.302, "update_time_ms": 2.707, "sample_time_ms": 35028.296}, "date": "2025-08-31_12-13-22", "hostname": "cda-server-4", "time_this_iter_s": 35.77987051010132, "episodes_total": 13524, "timestamp": 1756635202, "node_ip": "10.157.146.4", "done": false, "time_total_s": 72138.23357009888, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2255, "episode_reward_mean": -608.9785676783456, "training_iteration": 2255, "timesteps_total": 2706000, "policy_reward_mean": {}, "episode_reward_min": -796.765209626063, "timesteps_since_restore": 2706000, "num_metric_batches_dropped": 0, "time_since_restore": 72174.03607153893, "episode_reward_max": -467.21171837251154, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2706000, "default": {"kl": 0.011036310344934464, "policy_loss": -0.14643709361553192, "vf_loss": 73.6922607421875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9927188158035278, "entropy": 3.7140073776245117, "cur_lr": 4.999999873689376e-05, "total_loss": 73.56258392333984}, "load_time_ms": 0.729, "num_steps_sampled": 2706000, "grad_time_ms": 740.449, "update_time_ms": 2.727, "sample_time_ms": 35087.184}, "date": "2025-08-31_12-13-58", "hostname": "cda-server-4", "time_this_iter_s": 35.80250144004822, "episodes_total": 13530, "timestamp": 1756635238, "node_ip": "10.157.146.4", "done": false, "time_total_s": 72174.03607153893, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2256, "episode_reward_mean": -609.1474197841704, "training_iteration": 2256, "timesteps_total": 2707200, "policy_reward_mean": {}, "episode_reward_min": -796.765209626063, "timesteps_since_restore": 2707200, "num_metric_batches_dropped": 0, "time_since_restore": 72209.48681259155, "episode_reward_max": -467.21171837251154, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2707200, "default": {"kl": 0.010339860804378986, "policy_loss": -0.13799436390399933, "vf_loss": 23.45282745361328, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9968688488006592, "entropy": 3.787973165512085, "cur_lr": 4.999999873689376e-05, "total_loss": 23.330535888671875}, "load_time_ms": 0.764, "num_steps_sampled": 2707200, "grad_time_ms": 739.451, "update_time_ms": 2.683, "sample_time_ms": 35118.247}, "date": "2025-08-31_12-14-33", "hostname": "cda-server-4", "time_this_iter_s": 35.45074105262756, "episodes_total": 13536, "timestamp": 1756635273, "node_ip": "10.157.146.4", "done": false, "time_total_s": 72209.48681259155, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2257, "episode_reward_mean": -606.8727539871351, "training_iteration": 2257, "timesteps_total": 2708400, "policy_reward_mean": {}, "episode_reward_min": -796.765209626063, "timesteps_since_restore": 2708400, "num_metric_batches_dropped": 0, "time_since_restore": 72245.9782834053, "episode_reward_max": -449.5331528268371, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2708400, "default": {"kl": 0.010776721872389317, "policy_loss": -0.1645893007516861, "vf_loss": 688.564453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9472705125808716, "entropy": 3.701866626739502, "cur_lr": 4.999999873689376e-05, "total_loss": 688.416259765625}, "load_time_ms": 0.723, "num_steps_sampled": 2708400, "grad_time_ms": 740.949, "update_time_ms": 2.78, "sample_time_ms": 35093.952}, "date": "2025-08-31_12-15-10", "hostname": "cda-server-4", "time_this_iter_s": 36.49147081375122, "episodes_total": 13542, "timestamp": 1756635310, "node_ip": "10.157.146.4", "done": false, "time_total_s": 72245.9782834053, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2258, "episode_reward_mean": -606.6959969763108, "training_iteration": 2258, "timesteps_total": 2709600, "policy_reward_mean": {}, "episode_reward_min": -796.765209626063, "timesteps_since_restore": 2709600, "num_metric_batches_dropped": 0, "time_since_restore": 72281.77600288391, "episode_reward_max": -449.5331528268371, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2709600, "default": {"kl": 0.010761967860162258, "policy_loss": -0.1324968934059143, "vf_loss": 137.2837677001953, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9894474744796753, "entropy": 3.711359739303589, "cur_lr": 4.999999873689376e-05, "total_loss": 137.16761779785156}, "load_time_ms": 0.679, "num_steps_sampled": 2709600, "grad_time_ms": 742.706, "update_time_ms": 2.701, "sample_time_ms": 35080.701}, "date": "2025-08-31_12-15-46", "hostname": "cda-server-4", "time_this_iter_s": 35.79771947860718, "episodes_total": 13548, "timestamp": 1756635346, "node_ip": "10.157.146.4", "done": false, "time_total_s": 72281.77600288391, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2259, "episode_reward_mean": -606.9276058167766, "training_iteration": 2259, "timesteps_total": 2710800, "policy_reward_mean": {}, "episode_reward_min": -796.765209626063, "timesteps_since_restore": 2710800, "num_metric_batches_dropped": 0, "time_since_restore": 72317.21085643768, "episode_reward_max": -449.5331528268371, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2710800, "default": {"kl": 0.009973266161978245, "policy_loss": -0.14947403967380524, "vf_loss": 294.00225830078125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9748824238777161, "entropy": 3.974809408187866, "cur_lr": 4.999999873689376e-05, "total_loss": 293.867919921875}, "load_time_ms": 0.678, "num_steps_sampled": 2710800, "grad_time_ms": 742.314, "update_time_ms": 2.606, "sample_time_ms": 35114.145}, "date": "2025-08-31_12-16-21", "hostname": "cda-server-4", "time_this_iter_s": 35.43485355377197, "episodes_total": 13554, "timestamp": 1756635381, "node_ip": "10.157.146.4", "done": false, "time_total_s": 72317.21085643768, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2260, "episode_reward_mean": -607.0519802743722, "training_iteration": 2260, "timesteps_total": 2712000, "policy_reward_mean": {}, "episode_reward_min": -796.765209626063, "timesteps_since_restore": 2712000, "num_metric_batches_dropped": 0, "time_since_restore": 72353.77211475372, "episode_reward_max": -449.5331528268371, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2712000, "default": {"kl": 0.008372397162020206, "policy_loss": -0.11489894986152649, "vf_loss": 181.64622497558594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9844985604286194, "entropy": 3.747312307357788, "cur_lr": 4.999999873689376e-05, "total_loss": 181.54405212402344}, "load_time_ms": 0.703, "num_steps_sampled": 2712000, "grad_time_ms": 742.93, "update_time_ms": 2.545, "sample_time_ms": 35202.539}, "date": "2025-08-31_12-16-58", "hostname": "cda-server-4", "time_this_iter_s": 36.56125831604004, "episodes_total": 13560, "timestamp": 1756635418, "node_ip": "10.157.146.4", "done": false, "time_total_s": 72353.77211475372, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2261, "episode_reward_mean": -606.0836206435746, "training_iteration": 2261, "timesteps_total": 2713200, "policy_reward_mean": {}, "episode_reward_min": -796.765209626063, "timesteps_since_restore": 2713200, "num_metric_batches_dropped": 0, "time_since_restore": 72389.03734493256, "episode_reward_max": -449.5331528268371, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2713200, "default": {"kl": 0.008525880984961987, "policy_loss": -0.11603525280952454, "vf_loss": 68.87508392333984, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9922119975090027, "entropy": 3.624866008758545, "cur_lr": 4.999999873689376e-05, "total_loss": 68.7719955444336}, "load_time_ms": 0.719, "num_steps_sampled": 2713200, "grad_time_ms": 744.069, "update_time_ms": 2.468, "sample_time_ms": 35156.893}, "date": "2025-08-31_12-17-33", "hostname": "cda-server-4", "time_this_iter_s": 35.26523017883301, "episodes_total": 13566, "timestamp": 1756635453, "node_ip": "10.157.146.4", "done": false, "time_total_s": 72389.03734493256, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2262, "episode_reward_mean": -605.8984972216524, "training_iteration": 2262, "timesteps_total": 2714400, "policy_reward_mean": {}, "episode_reward_min": -796.765209626063, "timesteps_since_restore": 2714400, "num_metric_batches_dropped": 0, "time_since_restore": 72424.1769516468, "episode_reward_max": -449.5331528268371, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2714400, "default": {"kl": 0.010562124662101269, "policy_loss": -0.13012456893920898, "vf_loss": 76.261962890625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9906636476516724, "entropy": 3.8361740112304688, "cur_lr": 4.999999873689376e-05, "total_loss": 76.14787292480469}, "load_time_ms": 0.712, "num_steps_sampled": 2714400, "grad_time_ms": 743.688, "update_time_ms": 2.467, "sample_time_ms": 35108.424}, "date": "2025-08-31_12-18-08", "hostname": "cda-server-4", "time_this_iter_s": 35.13960671424866, "episodes_total": 13572, "timestamp": 1756635488, "node_ip": "10.157.146.4", "done": false, "time_total_s": 72424.1769516468, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2263, "episode_reward_mean": -605.8033198607104, "training_iteration": 2263, "timesteps_total": 2715600, "policy_reward_mean": {}, "episode_reward_min": -796.765209626063, "timesteps_since_restore": 2715600, "num_metric_batches_dropped": 0, "time_since_restore": 72460.41079449654, "episode_reward_max": -449.5331528268371, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2715600, "default": {"kl": 0.010406676679849625, "policy_loss": -0.13514940440654755, "vf_loss": 68.07666015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9898062944412231, "entropy": 3.637096881866455, "cur_lr": 4.999999873689376e-05, "total_loss": 67.95731353759766}, "load_time_ms": 0.707, "num_steps_sampled": 2715600, "grad_time_ms": 744.833, "update_time_ms": 2.455, "sample_time_ms": 35043.818}, "date": "2025-08-31_12-18-44", "hostname": "cda-server-4", "time_this_iter_s": 36.233842849731445, "episodes_total": 13578, "timestamp": 1756635524, "node_ip": "10.157.146.4", "done": false, "time_total_s": 72460.41079449654, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2264, "episode_reward_mean": -606.1795676935591, "training_iteration": 2264, "timesteps_total": 2716800, "policy_reward_mean": {}, "episode_reward_min": -796.765209626063, "timesteps_since_restore": 2716800, "num_metric_batches_dropped": 0, "time_since_restore": 72495.98410010338, "episode_reward_max": -449.5331528268371, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2716800, "default": {"kl": 0.011506658047437668, "policy_loss": -0.14122682809829712, "vf_loss": 226.09432983398438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9788995385169983, "entropy": 3.6689977645874023, "cur_lr": 4.999999873689376e-05, "total_loss": 225.97059631347656}, "load_time_ms": 0.709, "num_steps_sampled": 2716800, "grad_time_ms": 745.474, "update_time_ms": 2.393, "sample_time_ms": 35022.488}, "date": "2025-08-31_12-19-20", "hostname": "cda-server-4", "time_this_iter_s": 35.57330560684204, "episodes_total": 13584, "timestamp": 1756635560, "node_ip": "10.157.146.4", "done": false, "time_total_s": 72495.98410010338, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2265, "episode_reward_mean": -606.6025802911124, "training_iteration": 2265, "timesteps_total": 2718000, "policy_reward_mean": {}, "episode_reward_min": -796.765209626063, "timesteps_since_restore": 2718000, "num_metric_batches_dropped": 0, "time_since_restore": 72531.4585916996, "episode_reward_max": -449.5331528268371, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2718000, "default": {"kl": 0.011459977366030216, "policy_loss": -0.14585411548614502, "vf_loss": 69.65026092529297, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9936506748199463, "entropy": 3.6780903339385986, "cur_lr": 4.999999873689376e-05, "total_loss": 69.52181243896484}, "load_time_ms": 0.713, "num_steps_sampled": 2718000, "grad_time_ms": 745.514, "update_time_ms": 2.379, "sample_time_ms": 34989.621}, "date": "2025-08-31_12-19-55", "hostname": "cda-server-4", "time_this_iter_s": 35.474491596221924, "episodes_total": 13590, "timestamp": 1756635595, "node_ip": "10.157.146.4", "done": false, "time_total_s": 72531.4585916996, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2266, "episode_reward_mean": -607.0164537574881, "training_iteration": 2266, "timesteps_total": 2719200, "policy_reward_mean": {}, "episode_reward_min": -796.765209626063, "timesteps_since_restore": 2719200, "num_metric_batches_dropped": 0, "time_since_restore": 72566.50393605232, "episode_reward_max": -449.5331528268371, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2719200, "default": {"kl": 0.00896493624895811, "policy_loss": -0.12420916557312012, "vf_loss": 172.82247924804688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9767454862594604, "entropy": 3.696434497833252, "cur_lr": 4.999999873689376e-05, "total_loss": 172.71188354492188}, "load_time_ms": 0.678, "num_steps_sampled": 2719200, "grad_time_ms": 741.769, "update_time_ms": 2.316, "sample_time_ms": 34953.006}, "date": "2025-08-31_12-20-31", "hostname": "cda-server-4", "time_this_iter_s": 35.04534435272217, "episodes_total": 13596, "timestamp": 1756635631, "node_ip": "10.157.146.4", "done": false, "time_total_s": 72566.50393605232, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2267, "episode_reward_mean": -608.0569824650461, "training_iteration": 2267, "timesteps_total": 2720400, "policy_reward_mean": {}, "episode_reward_min": -796.765209626063, "timesteps_since_restore": 2720400, "num_metric_batches_dropped": 0, "time_since_restore": 72602.52244639397, "episode_reward_max": -449.5331528268371, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2720400, "default": {"kl": 0.010522548109292984, "policy_loss": -0.12540121376514435, "vf_loss": 108.15157318115234, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9894015192985535, "entropy": 3.4883527755737305, "cur_lr": 4.999999873689376e-05, "total_loss": 108.04215240478516}, "load_time_ms": 0.69, "num_steps_sampled": 2720400, "grad_time_ms": 735.609, "update_time_ms": 2.232, "sample_time_ms": 34911.894}, "date": "2025-08-31_12-21-07", "hostname": "cda-server-4", "time_this_iter_s": 36.01851034164429, "episodes_total": 13602, "timestamp": 1756635667, "node_ip": "10.157.146.4", "done": false, "time_total_s": 72602.52244639397, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2268, "episode_reward_mean": -607.5227641178102, "training_iteration": 2268, "timesteps_total": 2721600, "policy_reward_mean": {}, "episode_reward_min": -796.765209626063, "timesteps_since_restore": 2721600, "num_metric_batches_dropped": 0, "time_since_restore": 72639.00715184212, "episode_reward_max": -449.5331528268371, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2721600, "default": {"kl": 0.010856034234166145, "policy_loss": -0.1358794867992401, "vf_loss": 159.56320190429688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9764747619628906, "entropy": 3.7023086547851562, "cur_lr": 4.999999873689376e-05, "total_loss": 159.44381713867188}, "load_time_ms": 0.691, "num_steps_sampled": 2721600, "grad_time_ms": 728.279, "update_time_ms": 2.253, "sample_time_ms": 34987.864}, "date": "2025-08-31_12-21-43", "hostname": "cda-server-4", "time_this_iter_s": 36.484705448150635, "episodes_total": 13608, "timestamp": 1756635703, "node_ip": "10.157.146.4", "done": false, "time_total_s": 72639.00715184212, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2269, "episode_reward_mean": -605.7528059455109, "training_iteration": 2269, "timesteps_total": 2722800, "policy_reward_mean": {}, "episode_reward_min": -639.4147928651023, "timesteps_since_restore": 2722800, "num_metric_batches_dropped": 0, "time_since_restore": 72674.23266410828, "episode_reward_max": -449.5331528268371, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2722800, "default": {"kl": 0.010532466694712639, "policy_loss": -0.1476643681526184, "vf_loss": 288.22796630859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9781612753868103, "entropy": 3.7922074794769287, "cur_lr": 4.999999873689376e-05, "total_loss": 288.0963134765625}, "load_time_ms": 0.699, "num_steps_sampled": 2722800, "grad_time_ms": 728.746, "update_time_ms": 2.289, "sample_time_ms": 34966.519}, "date": "2025-08-31_12-22-18", "hostname": "cda-server-4", "time_this_iter_s": 35.22551226615906, "episodes_total": 13614, "timestamp": 1756635738, "node_ip": "10.157.146.4", "done": false, "time_total_s": 72674.23266410828, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2270, "episode_reward_mean": -605.5913697654547, "training_iteration": 2270, "timesteps_total": 2724000, "policy_reward_mean": {}, "episode_reward_min": -639.4147928651023, "timesteps_since_restore": 2724000, "num_metric_batches_dropped": 0, "time_since_restore": 72710.71537446976, "episode_reward_max": -449.5331528268371, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2724000, "default": {"kl": 0.013051668182015419, "policy_loss": -0.1479346603155136, "vf_loss": 159.39080810546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9914255142211914, "entropy": 3.7370195388793945, "cur_lr": 4.999999873689376e-05, "total_loss": 159.26271057128906}, "load_time_ms": 0.671, "num_steps_sampled": 2724000, "grad_time_ms": 728.244, "update_time_ms": 2.27, "sample_time_ms": 34959.211}, "date": "2025-08-31_12-22-55", "hostname": "cda-server-4", "time_this_iter_s": 36.48271036148071, "episodes_total": 13620, "timestamp": 1756635775, "node_ip": "10.157.146.4", "done": false, "time_total_s": 72710.71537446976, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2271, "episode_reward_mean": -605.7445948032056, "training_iteration": 2271, "timesteps_total": 2725200, "policy_reward_mean": {}, "episode_reward_min": -639.4147928651023, "timesteps_since_restore": 2725200, "num_metric_batches_dropped": 0, "time_since_restore": 72747.08477592468, "episode_reward_max": -449.5331528268371, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2725200, "default": {"kl": 0.012936845421791077, "policy_loss": -0.15209001302719116, "vf_loss": 31.28998565673828, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9962543845176697, "entropy": 3.592363119125366, "cur_lr": 4.999999873689376e-05, "total_loss": 31.15754508972168}, "load_time_ms": 0.664, "num_steps_sampled": 2725200, "grad_time_ms": 726.333, "update_time_ms": 2.253, "sample_time_ms": 35071.562}, "date": "2025-08-31_12-23-31", "hostname": "cda-server-4", "time_this_iter_s": 36.36940145492554, "episodes_total": 13626, "timestamp": 1756635811, "node_ip": "10.157.146.4", "done": false, "time_total_s": 72747.08477592468, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2272, "episode_reward_mean": -605.5053943833036, "training_iteration": 2272, "timesteps_total": 2726400, "policy_reward_mean": {}, "episode_reward_min": -639.4147928651023, "timesteps_since_restore": 2726400, "num_metric_batches_dropped": 0, "time_since_restore": 72782.38723158836, "episode_reward_max": -449.5331528268371, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2726400, "default": {"kl": 0.011550880037248135, "policy_loss": -0.1281110942363739, "vf_loss": 52.113101959228516, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9935934543609619, "entropy": 3.6359596252441406, "cur_lr": 4.999999873689376e-05, "total_loss": 52.002532958984375}, "load_time_ms": 0.667, "num_steps_sampled": 2726400, "grad_time_ms": 724.984, "update_time_ms": 2.232, "sample_time_ms": 35089.275}, "date": "2025-08-31_12-24-07", "hostname": "cda-server-4", "time_this_iter_s": 35.30245566368103, "episodes_total": 13632, "timestamp": 1756635847, "node_ip": "10.157.146.4", "done": false, "time_total_s": 72782.38723158836, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2273, "episode_reward_mean": -607.282548715372, "training_iteration": 2273, "timesteps_total": 2727600, "policy_reward_mean": {}, "episode_reward_min": -785.960049917091, "timesteps_since_restore": 2727600, "num_metric_batches_dropped": 0, "time_since_restore": 72817.25692129135, "episode_reward_max": -489.6243142966183, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2727600, "default": {"kl": 0.011406097561120987, "policy_loss": -0.15132933855056763, "vf_loss": 307.7575988769531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.974355936050415, "entropy": 4.023298263549805, "cur_lr": 4.999999873689376e-05, "total_loss": 307.62359619140625}, "load_time_ms": 0.655, "num_steps_sampled": 2727600, "grad_time_ms": 720.822, "update_time_ms": 2.216, "sample_time_ms": 34957.083}, "date": "2025-08-31_12-24-41", "hostname": "cda-server-4", "time_this_iter_s": 34.86968970298767, "episodes_total": 13638, "timestamp": 1756635881, "node_ip": "10.157.146.4", "done": false, "time_total_s": 72817.25692129135, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2274, "episode_reward_mean": -608.351950925693, "training_iteration": 2274, "timesteps_total": 2728800, "policy_reward_mean": {}, "episode_reward_min": -785.960049917091, "timesteps_since_restore": 2728800, "num_metric_batches_dropped": 0, "time_since_restore": 72852.94139790535, "episode_reward_max": -489.6243142966183, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2728800, "default": {"kl": 0.012512107379734516, "policy_loss": -0.14502550661563873, "vf_loss": 39.157470703125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9945181608200073, "entropy": 3.778093099594116, "cur_lr": 4.999999873689376e-05, "total_loss": 39.03144836425781}, "load_time_ms": 0.666, "num_steps_sampled": 2728800, "grad_time_ms": 719.539, "update_time_ms": 2.237, "sample_time_ms": 34969.492}, "date": "2025-08-31_12-25-17", "hostname": "cda-server-4", "time_this_iter_s": 35.68447661399841, "episodes_total": 13644, "timestamp": 1756635917, "node_ip": "10.157.146.4", "done": false, "time_total_s": 72852.94139790535, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2275, "episode_reward_mean": -607.3647529497774, "training_iteration": 2275, "timesteps_total": 2730000, "policy_reward_mean": {}, "episode_reward_min": -785.960049917091, "timesteps_since_restore": 2730000, "num_metric_batches_dropped": 0, "time_since_restore": 72888.2151787281, "episode_reward_max": -489.6243142966183, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2730000, "default": {"kl": 0.01251203939318657, "policy_loss": -0.15936027467250824, "vf_loss": 74.80589294433594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9951061606407166, "entropy": 3.7815465927124023, "cur_lr": 4.999999873689376e-05, "total_loss": 74.66553497314453}, "load_time_ms": 0.666, "num_steps_sampled": 2730000, "grad_time_ms": 719.561, "update_time_ms": 2.224, "sample_time_ms": 34949.435}, "date": "2025-08-31_12-25-52", "hostname": "cda-server-4", "time_this_iter_s": 35.273780822753906, "episodes_total": 13650, "timestamp": 1756635952, "node_ip": "10.157.146.4", "done": false, "time_total_s": 72888.2151787281, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2276, "episode_reward_mean": -608.1664616458686, "training_iteration": 2276, "timesteps_total": 2731200, "policy_reward_mean": {}, "episode_reward_min": -785.960049917091, "timesteps_since_restore": 2731200, "num_metric_batches_dropped": 0, "time_since_restore": 72923.74612951279, "episode_reward_max": -489.6243142966183, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2731200, "default": {"kl": 0.01064382866024971, "policy_loss": -0.12591329216957092, "vf_loss": 99.83274841308594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9935640692710876, "entropy": 3.80785870552063, "cur_lr": 4.999999873689376e-05, "total_loss": 99.72299194335938}, "load_time_ms": 0.691, "num_steps_sampled": 2731200, "grad_time_ms": 723.222, "update_time_ms": 2.295, "sample_time_ms": 34994.206}, "date": "2025-08-31_12-26-28", "hostname": "cda-server-4", "time_this_iter_s": 35.53095078468323, "episodes_total": 13656, "timestamp": 1756635988, "node_ip": "10.157.146.4", "done": false, "time_total_s": 72923.74612951279, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2277, "episode_reward_mean": -608.1639320953913, "training_iteration": 2277, "timesteps_total": 2732400, "policy_reward_mean": {}, "episode_reward_min": -785.960049917091, "timesteps_since_restore": 2732400, "num_metric_batches_dropped": 0, "time_since_restore": 72959.25859975815, "episode_reward_max": -489.6243142966183, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2732400, "default": {"kl": 0.011541241779923439, "policy_loss": -0.13919170200824738, "vf_loss": 357.1786804199219, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9843580722808838, "entropy": 3.703660011291504, "cur_lr": 4.999999873689376e-05, "total_loss": 357.0570373535156}, "load_time_ms": 0.675, "num_steps_sampled": 2732400, "grad_time_ms": 727.153, "update_time_ms": 2.287, "sample_time_ms": 34939.711}, "date": "2025-08-31_12-27-03", "hostname": "cda-server-4", "time_this_iter_s": 35.51247024536133, "episodes_total": 13662, "timestamp": 1756636023, "node_ip": "10.157.146.4", "done": false, "time_total_s": 72959.25859975815, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2278, "episode_reward_mean": -604.775587377138, "training_iteration": 2278, "timesteps_total": 2733600, "policy_reward_mean": {}, "episode_reward_min": -785.960049917091, "timesteps_since_restore": 2733600, "num_metric_batches_dropped": 0, "time_since_restore": 72994.65687561035, "episode_reward_max": -459.07306792209755, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2733600, "default": {"kl": 0.011872519738972187, "policy_loss": -0.1564294546842575, "vf_loss": 459.3873596191406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9549774527549744, "entropy": 3.7194833755493164, "cur_lr": 4.999999873689376e-05, "total_loss": 459.24896240234375}, "load_time_ms": 0.71, "num_steps_sampled": 2733600, "grad_time_ms": 734.256, "update_time_ms": 2.251, "sample_time_ms": 34823.998}, "date": "2025-08-31_12-27-39", "hostname": "cda-server-4", "time_this_iter_s": 35.39827585220337, "episodes_total": 13668, "timestamp": 1756636059, "node_ip": "10.157.146.4", "done": false, "time_total_s": 72994.65687561035, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2279, "episode_reward_mean": -604.1725990957451, "training_iteration": 2279, "timesteps_total": 2734800, "policy_reward_mean": {}, "episode_reward_min": -785.960049917091, "timesteps_since_restore": 2734800, "num_metric_batches_dropped": 0, "time_since_restore": 73029.9017162323, "episode_reward_max": -459.07306792209755, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2734800, "default": {"kl": 0.011128811165690422, "policy_loss": -0.13056251406669617, "vf_loss": 62.65557861328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9926234483718872, "entropy": 3.6613566875457764, "cur_lr": 4.999999873689376e-05, "total_loss": 62.54191589355469}, "load_time_ms": 0.671, "num_steps_sampled": 2734800, "grad_time_ms": 734.37, "update_time_ms": 2.226, "sample_time_ms": 34825.816}, "date": "2025-08-31_12-28-14", "hostname": "cda-server-4", "time_this_iter_s": 35.24484062194824, "episodes_total": 13674, "timestamp": 1756636094, "node_ip": "10.157.146.4", "done": false, "time_total_s": 73029.9017162323, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2280, "episode_reward_mean": -604.4199602590251, "training_iteration": 2280, "timesteps_total": 2736000, "policy_reward_mean": {}, "episode_reward_min": -785.960049917091, "timesteps_since_restore": 2736000, "num_metric_batches_dropped": 0, "time_since_restore": 73065.44622087479, "episode_reward_max": -459.07306792209755, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2736000, "default": {"kl": 0.0076760705560445786, "policy_loss": -0.13024601340293884, "vf_loss": 321.77294921875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.97818523645401, "entropy": 3.6538400650024414, "cur_lr": 4.999999873689376e-05, "total_loss": 321.6543884277344}, "load_time_ms": 0.68, "num_steps_sampled": 2736000, "grad_time_ms": 734.699, "update_time_ms": 2.344, "sample_time_ms": 34731.485}, "date": "2025-08-31_12-28-50", "hostname": "cda-server-4", "time_this_iter_s": 35.54450464248657, "episodes_total": 13680, "timestamp": 1756636130, "node_ip": "10.157.146.4", "done": false, "time_total_s": 73065.44622087479, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2281, "episode_reward_mean": -604.3316855536641, "training_iteration": 2281, "timesteps_total": 2737200, "policy_reward_mean": {}, "episode_reward_min": -785.960049917091, "timesteps_since_restore": 2737200, "num_metric_batches_dropped": 0, "time_since_restore": 73101.26226639748, "episode_reward_max": -459.07306792209755, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2737200, "default": {"kl": 0.008676495403051376, "policy_loss": -0.12386234849691391, "vf_loss": 187.6146697998047, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9785168170928955, "entropy": 3.79250431060791, "cur_lr": 4.999999873689376e-05, "total_loss": 187.50396728515625}, "load_time_ms": 0.682, "num_steps_sampled": 2737200, "grad_time_ms": 735.811, "update_time_ms": 2.304, "sample_time_ms": 34675.018}, "date": "2025-08-31_12-29-26", "hostname": "cda-server-4", "time_this_iter_s": 35.81604552268982, "episodes_total": 13686, "timestamp": 1756636166, "node_ip": "10.157.146.4", "done": false, "time_total_s": 73101.26226639748, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2282, "episode_reward_mean": -605.276212315854, "training_iteration": 2282, "timesteps_total": 2738400, "policy_reward_mean": {}, "episode_reward_min": -785.960049917091, "timesteps_since_restore": 2738400, "num_metric_batches_dropped": 0, "time_since_restore": 73136.68638277054, "episode_reward_max": -459.07306792209755, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2738400, "default": {"kl": 0.009793099015951157, "policy_loss": -0.1461891531944275, "vf_loss": 282.4331359863281, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9682089686393738, "entropy": 3.8695945739746094, "cur_lr": 4.999999873689376e-05, "total_loss": 282.30181884765625}, "load_time_ms": 0.681, "num_steps_sampled": 2738400, "grad_time_ms": 735.154, "update_time_ms": 2.372, "sample_time_ms": 34687.721}, "date": "2025-08-31_12-30-01", "hostname": "cda-server-4", "time_this_iter_s": 35.424116373062134, "episodes_total": 13692, "timestamp": 1756636201, "node_ip": "10.157.146.4", "done": false, "time_total_s": 73136.68638277054, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2283, "episode_reward_mean": -605.483275338705, "training_iteration": 2283, "timesteps_total": 2739600, "policy_reward_mean": {}, "episode_reward_min": -785.960049917091, "timesteps_since_restore": 2739600, "num_metric_batches_dropped": 0, "time_since_restore": 73172.61194348335, "episode_reward_max": -459.07306792209755, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2739600, "default": {"kl": 0.011199424043297768, "policy_loss": -0.15254996716976166, "vf_loss": 109.04305267333984, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9892885684967041, "entropy": 3.6907975673675537, "cur_lr": 4.999999873689376e-05, "total_loss": 108.90750122070312}, "load_time_ms": 0.683, "num_steps_sampled": 2739600, "grad_time_ms": 739.223, "update_time_ms": 2.378, "sample_time_ms": 34789.229}, "date": "2025-08-31_12-30-37", "hostname": "cda-server-4", "time_this_iter_s": 35.92556071281433, "episodes_total": 13698, "timestamp": 1756636237, "node_ip": "10.157.146.4", "done": false, "time_total_s": 73172.61194348335, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2284, "episode_reward_mean": -604.5277626591504, "training_iteration": 2284, "timesteps_total": 2740800, "policy_reward_mean": {}, "episode_reward_min": -785.960049917091, "timesteps_since_restore": 2740800, "num_metric_batches_dropped": 0, "time_since_restore": 73207.93944144249, "episode_reward_max": -459.07306792209755, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2740800, "default": {"kl": 0.011460136622190475, "policy_loss": -0.15507997572422028, "vf_loss": 66.27399444580078, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9924731850624084, "entropy": 3.7001283168792725, "cur_lr": 4.999999873689376e-05, "total_loss": 66.13631439208984}, "load_time_ms": 0.693, "num_steps_sampled": 2740800, "grad_time_ms": 736.998, "update_time_ms": 2.452, "sample_time_ms": 34755.63}, "date": "2025-08-31_12-31-12", "hostname": "cda-server-4", "time_this_iter_s": 35.32749795913696, "episodes_total": 13704, "timestamp": 1756636272, "node_ip": "10.157.146.4", "done": false, "time_total_s": 73207.93944144249, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2285, "episode_reward_mean": -604.4839484682635, "training_iteration": 2285, "timesteps_total": 2742000, "policy_reward_mean": {}, "episode_reward_min": -785.960049917091, "timesteps_since_restore": 2742000, "num_metric_batches_dropped": 0, "time_since_restore": 73243.83895349503, "episode_reward_max": -459.07306792209755, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2742000, "default": {"kl": 0.009522772394120693, "policy_loss": -0.13035719096660614, "vf_loss": 89.45297241210938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9903075098991394, "entropy": 3.597409248352051, "cur_lr": 4.999999873689376e-05, "total_loss": 89.33707427978516}, "load_time_ms": 0.729, "num_steps_sampled": 2742000, "grad_time_ms": 736.003, "update_time_ms": 2.456, "sample_time_ms": 34819.108}, "date": "2025-08-31_12-31-48", "hostname": "cda-server-4", "time_this_iter_s": 35.89951205253601, "episodes_total": 13710, "timestamp": 1756636308, "node_ip": "10.157.146.4", "done": false, "time_total_s": 73243.83895349503, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2286, "episode_reward_mean": -604.2009261076953, "training_iteration": 2286, "timesteps_total": 2743200, "policy_reward_mean": {}, "episode_reward_min": -785.960049917091, "timesteps_since_restore": 2743200, "num_metric_batches_dropped": 0, "time_since_restore": 73279.35902881622, "episode_reward_max": -459.07306792209755, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2743200, "default": {"kl": 0.010235734283924103, "policy_loss": -0.12850430607795715, "vf_loss": 371.1243896484375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9696606397628784, "entropy": 3.6584222316741943, "cur_lr": 4.999999873689376e-05, "total_loss": 371.0113830566406}, "load_time_ms": 0.713, "num_steps_sampled": 2743200, "grad_time_ms": 735.243, "update_time_ms": 2.419, "sample_time_ms": 34818.806}, "date": "2025-08-31_12-32-24", "hostname": "cda-server-4", "time_this_iter_s": 35.52007532119751, "episodes_total": 13716, "timestamp": 1756636344, "node_ip": "10.157.146.4", "done": false, "time_total_s": 73279.35902881622, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2287, "episode_reward_mean": -604.2718499434937, "training_iteration": 2287, "timesteps_total": 2744400, "policy_reward_mean": {}, "episode_reward_min": -785.960049917091, "timesteps_since_restore": 2744400, "num_metric_batches_dropped": 0, "time_since_restore": 73314.54463601112, "episode_reward_max": -459.07306792209755, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2744400, "default": {"kl": 0.009817824698984623, "policy_loss": -0.13778142631053925, "vf_loss": 144.3561248779297, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9896137714385986, "entropy": 3.7234721183776855, "cur_lr": 4.999999873689376e-05, "total_loss": 144.23324584960938}, "load_time_ms": 0.708, "num_steps_sampled": 2744400, "grad_time_ms": 735.398, "update_time_ms": 2.33, "sample_time_ms": 34786.054}, "date": "2025-08-31_12-32-59", "hostname": "cda-server-4", "time_this_iter_s": 35.18560719490051, "episodes_total": 13722, "timestamp": 1756636379, "node_ip": "10.157.146.4", "done": false, "time_total_s": 73314.54463601112, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2288, "episode_reward_mean": -604.7065144023176, "training_iteration": 2288, "timesteps_total": 2745600, "policy_reward_mean": {}, "episode_reward_min": -785.960049917091, "timesteps_since_restore": 2745600, "num_metric_batches_dropped": 0, "time_since_restore": 73350.29161286354, "episode_reward_max": -459.07306792209755, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2745600, "default": {"kl": 0.010060425847768784, "policy_loss": -0.1384257674217224, "vf_loss": 57.74751663208008, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9949268698692322, "entropy": 3.592280149459839, "cur_lr": 4.999999873689376e-05, "total_loss": 57.62436294555664}, "load_time_ms": 0.708, "num_steps_sampled": 2745600, "grad_time_ms": 736.146, "update_time_ms": 2.402, "sample_time_ms": 34820.082}, "date": "2025-08-31_12-33-35", "hostname": "cda-server-4", "time_this_iter_s": 35.74697685241699, "episodes_total": 13728, "timestamp": 1756636415, "node_ip": "10.157.146.4", "done": false, "time_total_s": 73350.29161286354, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2289, "episode_reward_mean": -604.285764593735, "training_iteration": 2289, "timesteps_total": 2746800, "policy_reward_mean": {}, "episode_reward_min": -785.960049917091, "timesteps_since_restore": 2746800, "num_metric_batches_dropped": 0, "time_since_restore": 73386.26231598854, "episode_reward_max": -459.07306792209755, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2746800, "default": {"kl": 0.011255254037678242, "policy_loss": -0.11633091419935226, "vf_loss": 118.69187927246094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9881733655929565, "entropy": 3.6363580226898193, "cur_lr": 4.999999873689376e-05, "total_loss": 118.59262084960938}, "load_time_ms": 0.71, "num_steps_sampled": 2746800, "grad_time_ms": 736.878, "update_time_ms": 2.367, "sample_time_ms": 34891.967}, "date": "2025-08-31_12-34-11", "hostname": "cda-server-4", "time_this_iter_s": 35.970703125, "episodes_total": 13734, "timestamp": 1756636451, "node_ip": "10.157.146.4", "done": false, "time_total_s": 73386.26231598854, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2290, "episode_reward_mean": -605.7675864608051, "training_iteration": 2290, "timesteps_total": 2748000, "policy_reward_mean": {}, "episode_reward_min": -787.6611464026573, "timesteps_since_restore": 2748000, "num_metric_batches_dropped": 0, "time_since_restore": 73421.52928948402, "episode_reward_max": -459.07306792209755, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2748000, "default": {"kl": 0.010518069379031658, "policy_loss": -0.12317100167274475, "vf_loss": 926.105224609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9238489866256714, "entropy": 4.158356666564941, "cur_lr": 4.999999873689376e-05, "total_loss": 925.998046875}, "load_time_ms": 0.739, "num_steps_sampled": 2748000, "grad_time_ms": 736.937, "update_time_ms": 2.332, "sample_time_ms": 34864.12}, "date": "2025-08-31_12-34-46", "hostname": "cda-server-4", "time_this_iter_s": 35.2669734954834, "episodes_total": 13740, "timestamp": 1756636486, "node_ip": "10.157.146.4", "done": false, "time_total_s": 73421.52928948402, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2291, "episode_reward_mean": -607.0010032472181, "training_iteration": 2291, "timesteps_total": 2749200, "policy_reward_mean": {}, "episode_reward_min": -805.5209718694211, "timesteps_since_restore": 2749200, "num_metric_batches_dropped": 0, "time_since_restore": 73457.24208498001, "episode_reward_max": -459.07306792209755, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2749200, "default": {"kl": 0.009173902682960033, "policy_loss": -0.13074684143066406, "vf_loss": 359.3551025390625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.964895486831665, "entropy": 4.0929412841796875, "cur_lr": 4.999999873689376e-05, "total_loss": 359.23822021484375}, "load_time_ms": 0.729, "num_steps_sampled": 2749200, "grad_time_ms": 735.792, "update_time_ms": 2.237, "sample_time_ms": 34855.005}, "date": "2025-08-31_12-35-22", "hostname": "cda-server-4", "time_this_iter_s": 35.71279549598694, "episodes_total": 13746, "timestamp": 1756636522, "node_ip": "10.157.146.4", "done": false, "time_total_s": 73457.24208498001, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2292, "episode_reward_mean": -608.5810972352724, "training_iteration": 2292, "timesteps_total": 2750400, "policy_reward_mean": {}, "episode_reward_min": -805.5209718694211, "timesteps_since_restore": 2750400, "num_metric_batches_dropped": 0, "time_since_restore": 73493.19534397125, "episode_reward_max": -459.07306792209755, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2750400, "default": {"kl": 0.01015555951744318, "policy_loss": -0.13277564942836761, "vf_loss": 135.96771240234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9816702604293823, "entropy": 3.9697046279907227, "cur_lr": 4.999999873689376e-05, "total_loss": 135.85037231445312}, "load_time_ms": 0.726, "num_steps_sampled": 2750400, "grad_time_ms": 734.816, "update_time_ms": 2.247, "sample_time_ms": 34908.832}, "date": "2025-08-31_12-35-58", "hostname": "cda-server-4", "time_this_iter_s": 35.953258991241455, "episodes_total": 13752, "timestamp": 1756636558, "node_ip": "10.157.146.4", "done": false, "time_total_s": 73493.19534397125, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2293, "episode_reward_mean": -607.6664001416983, "training_iteration": 2293, "timesteps_total": 2751600, "policy_reward_mean": {}, "episode_reward_min": -805.5209718694211, "timesteps_since_restore": 2751600, "num_metric_batches_dropped": 0, "time_since_restore": 73527.88225698471, "episode_reward_max": -459.07306792209755, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2751600, "default": {"kl": 0.01002582348883152, "policy_loss": -0.11295660585165024, "vf_loss": 230.26199340820312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9844352006912231, "entropy": 3.71571683883667, "cur_lr": 4.999999873689376e-05, "total_loss": 230.16427612304688}, "load_time_ms": 0.73, "num_steps_sampled": 2751600, "grad_time_ms": 733.547, "update_time_ms": 2.249, "sample_time_ms": 34786.239}, "date": "2025-08-31_12-36-32", "hostname": "cda-server-4", "time_this_iter_s": 34.68691301345825, "episodes_total": 13758, "timestamp": 1756636592, "node_ip": "10.157.146.4", "done": false, "time_total_s": 73527.88225698471, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2294, "episode_reward_mean": -611.2942947733948, "training_iteration": 2294, "timesteps_total": 2752800, "policy_reward_mean": {}, "episode_reward_min": -805.5209718694211, "timesteps_since_restore": 2752800, "num_metric_batches_dropped": 0, "time_since_restore": 73563.55242156982, "episode_reward_max": -511.83081234318985, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2752800, "default": {"kl": 0.008803864941000938, "policy_loss": -0.1306203007698059, "vf_loss": 219.9475860595703, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9714663624763489, "entropy": 3.706836700439453, "cur_lr": 4.999999873689376e-05, "total_loss": 219.8303680419922}, "load_time_ms": 0.701, "num_steps_sampled": 2752800, "grad_time_ms": 735.813, "update_time_ms": 2.153, "sample_time_ms": 34818.379}, "date": "2025-08-31_12-37-08", "hostname": "cda-server-4", "time_this_iter_s": 35.670164585113525, "episodes_total": 13764, "timestamp": 1756636628, "node_ip": "10.157.146.4", "done": false, "time_total_s": 73563.55242156982, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2295, "episode_reward_mean": -612.704800515521, "training_iteration": 2295, "timesteps_total": 2754000, "policy_reward_mean": {}, "episode_reward_min": -805.5209718694211, "timesteps_since_restore": 2754000, "num_metric_batches_dropped": 0, "time_since_restore": 73598.85923051834, "episode_reward_max": -522.8819088519697, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2754000, "default": {"kl": 0.01135300099849701, "policy_loss": -0.14462193846702576, "vf_loss": 69.140869140625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9926261901855469, "entropy": 3.5831844806671143, "cur_lr": 4.999999873689376e-05, "total_loss": 69.01349639892578}, "load_time_ms": 0.669, "num_steps_sampled": 2754000, "grad_time_ms": 731.597, "update_time_ms": 2.194, "sample_time_ms": 34763.399}, "date": "2025-08-31_12-37-43", "hostname": "cda-server-4", "time_this_iter_s": 35.306808948516846, "episodes_total": 13770, "timestamp": 1756636663, "node_ip": "10.157.146.4", "done": false, "time_total_s": 73598.85923051834, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2296, "episode_reward_mean": -611.015933466558, "training_iteration": 2296, "timesteps_total": 2755200, "policy_reward_mean": {}, "episode_reward_min": -805.5209718694211, "timesteps_since_restore": 2755200, "num_metric_batches_dropped": 0, "time_since_restore": 73634.73256731033, "episode_reward_max": -517.2001294265518, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2755200, "default": {"kl": 0.011001172475516796, "policy_loss": -0.13501900434494019, "vf_loss": 222.11843872070312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9751086831092834, "entropy": 3.5964529514312744, "cur_lr": 4.999999873689376e-05, "total_loss": 222.0001220703125}, "load_time_ms": 0.667, "num_steps_sampled": 2755200, "grad_time_ms": 732.208, "update_time_ms": 2.265, "sample_time_ms": 34797.511}, "date": "2025-08-31_12-38-19", "hostname": "cda-server-4", "time_this_iter_s": 35.87333679199219, "episodes_total": 13776, "timestamp": 1756636699, "node_ip": "10.157.146.4", "done": false, "time_total_s": 73634.73256731033, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2297, "episode_reward_mean": -610.8066937891964, "training_iteration": 2297, "timesteps_total": 2756400, "policy_reward_mean": {}, "episode_reward_min": -805.5209718694211, "timesteps_since_restore": 2756400, "num_metric_batches_dropped": 0, "time_since_restore": 73670.13319158554, "episode_reward_max": -517.2001294265518, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2756400, "default": {"kl": 0.009757405146956444, "policy_loss": -0.15081408619880676, "vf_loss": 39.78727722167969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9947692155838013, "entropy": 3.749608039855957, "cur_lr": 4.999999873689376e-05, "total_loss": 39.65128707885742}, "load_time_ms": 0.664, "num_steps_sampled": 2756400, "grad_time_ms": 731.887, "update_time_ms": 2.287, "sample_time_ms": 34819.325}, "date": "2025-08-31_12-38-55", "hostname": "cda-server-4", "time_this_iter_s": 35.40062427520752, "episodes_total": 13782, "timestamp": 1756636735, "node_ip": "10.157.146.4", "done": false, "time_total_s": 73670.13319158554, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2298, "episode_reward_mean": -610.123690442754, "training_iteration": 2298, "timesteps_total": 2757600, "policy_reward_mean": {}, "episode_reward_min": -805.5209718694211, "timesteps_since_restore": 2757600, "num_metric_batches_dropped": 0, "time_since_restore": 73705.69412279129, "episode_reward_max": -517.2001294265518, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2757600, "default": {"kl": 0.010313776321709156, "policy_loss": -0.12173344194889069, "vf_loss": 269.1492614746094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9755204319953918, "entropy": 3.623671293258667, "cur_lr": 4.999999873689376e-05, "total_loss": 269.0431823730469}, "load_time_ms": 0.661, "num_steps_sampled": 2757600, "grad_time_ms": 730.092, "update_time_ms": 2.219, "sample_time_ms": 34802.618}, "date": "2025-08-31_12-39-30", "hostname": "cda-server-4", "time_this_iter_s": 35.56093120574951, "episodes_total": 13788, "timestamp": 1756636770, "node_ip": "10.157.146.4", "done": false, "time_total_s": 73705.69412279129, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2299, "episode_reward_mean": -608.6456184674321, "training_iteration": 2299, "timesteps_total": 2758800, "policy_reward_mean": {}, "episode_reward_min": -805.5209718694211, "timesteps_since_restore": 2758800, "num_metric_batches_dropped": 0, "time_since_restore": 73741.40115475655, "episode_reward_max": -517.2001294265518, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2758800, "default": {"kl": 0.008726481348276138, "policy_loss": -0.11696518957614899, "vf_loss": 271.90948486328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9734427332878113, "entropy": 3.468324661254883, "cur_lr": 4.999999873689376e-05, "total_loss": 271.8057861328125}, "load_time_ms": 0.678, "num_steps_sampled": 2758800, "grad_time_ms": 727.43, "update_time_ms": 2.289, "sample_time_ms": 34778.863}, "date": "2025-08-31_12-40-06", "hostname": "cda-server-4", "time_this_iter_s": 35.70703196525574, "episodes_total": 13794, "timestamp": 1756636806, "node_ip": "10.157.146.4", "done": false, "time_total_s": 73741.40115475655, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2300, "episode_reward_mean": -609.2153343766494, "training_iteration": 2300, "timesteps_total": 2760000, "policy_reward_mean": {}, "episode_reward_min": -805.5209718694211, "timesteps_since_restore": 2760000, "num_metric_batches_dropped": 0, "time_since_restore": 73776.47179579735, "episode_reward_max": -517.2001294265518, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2760000, "default": {"kl": 0.008511553518474102, "policy_loss": -0.11574619263410568, "vf_loss": 201.28125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9744029641151428, "entropy": 3.814303398132324, "cur_lr": 4.999999873689376e-05, "total_loss": 201.17843627929688}, "load_time_ms": 0.662, "num_steps_sampled": 2760000, "grad_time_ms": 724.705, "update_time_ms": 2.396, "sample_time_ms": 34761.895}, "date": "2025-08-31_12-40-41", "hostname": "cda-server-4", "time_this_iter_s": 35.070641040802, "episodes_total": 13800, "timestamp": 1756636841, "node_ip": "10.157.146.4", "done": false, "time_total_s": 73776.47179579735, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2301, "episode_reward_mean": -610.4597222342484, "training_iteration": 2301, "timesteps_total": 2761200, "policy_reward_mean": {}, "episode_reward_min": -805.5209718694211, "timesteps_since_restore": 2761200, "num_metric_batches_dropped": 0, "time_since_restore": 73811.68807673454, "episode_reward_max": -517.2001294265518, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2761200, "default": {"kl": 0.010373870842158794, "policy_loss": -0.13868005573749542, "vf_loss": 87.82978820800781, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9871376752853394, "entropy": 3.7866411209106445, "cur_lr": 4.999999873689376e-05, "total_loss": 87.70686340332031}, "load_time_ms": 0.66, "num_steps_sampled": 2761200, "grad_time_ms": 721.285, "update_time_ms": 2.528, "sample_time_ms": 34715.544}, "date": "2025-08-31_12-41-16", "hostname": "cda-server-4", "time_this_iter_s": 35.216280937194824, "episodes_total": 13806, "timestamp": 1756636876, "node_ip": "10.157.146.4", "done": false, "time_total_s": 73811.68807673454, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2302, "episode_reward_mean": -610.5826746182213, "training_iteration": 2302, "timesteps_total": 2762400, "policy_reward_mean": {}, "episode_reward_min": -805.5209718694211, "timesteps_since_restore": 2762400, "num_metric_batches_dropped": 0, "time_since_restore": 73847.90148854256, "episode_reward_max": -517.2001294265518, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2762400, "default": {"kl": 0.010863278061151505, "policy_loss": -0.1307118535041809, "vf_loss": 152.53335571289062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9805471897125244, "entropy": 3.6714694499969482, "cur_lr": 4.999999873689376e-05, "total_loss": 152.41915893554688}, "load_time_ms": 0.666, "num_steps_sampled": 2762400, "grad_time_ms": 723.582, "update_time_ms": 2.479, "sample_time_ms": 34739.352}, "date": "2025-08-31_12-41-53", "hostname": "cda-server-4", "time_this_iter_s": 36.213411808013916, "episodes_total": 13812, "timestamp": 1756636913, "node_ip": "10.157.146.4", "done": false, "time_total_s": 73847.90148854256, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2303, "episode_reward_mean": -610.3079357631713, "training_iteration": 2303, "timesteps_total": 2763600, "policy_reward_mean": {}, "episode_reward_min": -805.5209718694211, "timesteps_since_restore": 2763600, "num_metric_batches_dropped": 0, "time_since_restore": 73884.04488801956, "episode_reward_max": -517.2001294265518, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2763600, "default": {"kl": 0.010308523662388325, "policy_loss": -0.13998162746429443, "vf_loss": 160.85585021972656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9843965172767639, "entropy": 3.7392947673797607, "cur_lr": 4.999999873689376e-05, "total_loss": 160.7315216064453}, "load_time_ms": 0.662, "num_steps_sampled": 2763600, "grad_time_ms": 724.647, "update_time_ms": 2.532, "sample_time_ms": 34883.882}, "date": "2025-08-31_12-42-29", "hostname": "cda-server-4", "time_this_iter_s": 36.143399477005005, "episodes_total": 13818, "timestamp": 1756636949, "node_ip": "10.157.146.4", "done": false, "time_total_s": 73884.04488801956, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2304, "episode_reward_mean": -610.1522288243619, "training_iteration": 2304, "timesteps_total": 2764800, "policy_reward_mean": {}, "episode_reward_min": -805.5209718694211, "timesteps_since_restore": 2764800, "num_metric_batches_dropped": 0, "time_since_restore": 73919.4649720192, "episode_reward_max": -517.2001294265518, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2764800, "default": {"kl": 0.009800796397030354, "policy_loss": -0.14391830563545227, "vf_loss": 83.24116516113281, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9916460514068604, "entropy": 3.7716593742370605, "cur_lr": 4.999999873689376e-05, "total_loss": 83.11213684082031}, "load_time_ms": 0.661, "num_steps_sampled": 2764800, "grad_time_ms": 722.879, "update_time_ms": 2.542, "sample_time_ms": 34860.647}, "date": "2025-08-31_12-43-04", "hostname": "cda-server-4", "time_this_iter_s": 35.42008399963379, "episodes_total": 13824, "timestamp": 1756636984, "node_ip": "10.157.146.4", "done": false, "time_total_s": 73919.4649720192, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2305, "episode_reward_mean": -609.7494046149865, "training_iteration": 2305, "timesteps_total": 2766000, "policy_reward_mean": {}, "episode_reward_min": -805.5209718694211, "timesteps_since_restore": 2766000, "num_metric_batches_dropped": 0, "time_since_restore": 73955.556173563, "episode_reward_max": -517.2001294265518, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2766000, "default": {"kl": 0.010776345618069172, "policy_loss": -0.14081226289272308, "vf_loss": 107.9688491821289, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9876710176467896, "entropy": 3.749800443649292, "cur_lr": 4.999999873689376e-05, "total_loss": 107.84440612792969}, "load_time_ms": 0.656, "num_steps_sampled": 2766000, "grad_time_ms": 721.107, "update_time_ms": 2.631, "sample_time_ms": 34940.786}, "date": "2025-08-31_12-43-40", "hostname": "cda-server-4", "time_this_iter_s": 36.09120154380798, "episodes_total": 13830, "timestamp": 1756637020, "node_ip": "10.157.146.4", "done": false, "time_total_s": 73955.556173563, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2306, "episode_reward_mean": -609.4678892731281, "training_iteration": 2306, "timesteps_total": 2767200, "policy_reward_mean": {}, "episode_reward_min": -805.5209718694211, "timesteps_since_restore": 2767200, "num_metric_batches_dropped": 0, "time_since_restore": 73990.50480532646, "episode_reward_max": -517.2001294265518, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2767200, "default": {"kl": 0.009460036642849445, "policy_loss": -0.12952816486358643, "vf_loss": 50.45297622680664, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9924740195274353, "entropy": 3.7806386947631836, "cur_lr": 4.999999873689376e-05, "total_loss": 50.33781433105469}, "load_time_ms": 0.65, "num_steps_sampled": 2767200, "grad_time_ms": 716.042, "update_time_ms": 2.562, "sample_time_ms": 34854.063}, "date": "2025-08-31_12-44-15", "hostname": "cda-server-4", "time_this_iter_s": 34.94863176345825, "episodes_total": 13836, "timestamp": 1756637055, "node_ip": "10.157.146.4", "done": false, "time_total_s": 73990.50480532646, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2307, "episode_reward_mean": -608.1504116248267, "training_iteration": 2307, "timesteps_total": 2768400, "policy_reward_mean": {}, "episode_reward_min": -805.5209718694211, "timesteps_since_restore": 2768400, "num_metric_batches_dropped": 0, "time_since_restore": 74025.90562391281, "episode_reward_max": -517.2001294265518, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2768400, "default": {"kl": 0.009348180145025253, "policy_loss": -0.10889715701341629, "vf_loss": 183.7393341064453, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9795261025428772, "entropy": 3.505615472793579, "cur_lr": 4.999999873689376e-05, "total_loss": 183.64462280273438}, "load_time_ms": 0.65, "num_steps_sampled": 2768400, "grad_time_ms": 711.684, "update_time_ms": 2.539, "sample_time_ms": 34858.488}, "date": "2025-08-31_12-44-51", "hostname": "cda-server-4", "time_this_iter_s": 35.40081858634949, "episodes_total": 13842, "timestamp": 1756637091, "node_ip": "10.157.146.4", "done": false, "time_total_s": 74025.90562391281, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2308, "episode_reward_mean": -606.4150647762182, "training_iteration": 2308, "timesteps_total": 2769600, "policy_reward_mean": {}, "episode_reward_min": -669.7480527650737, "timesteps_since_restore": 2769600, "num_metric_batches_dropped": 0, "time_since_restore": 74061.24322199821, "episode_reward_max": -517.2001294265518, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2769600, "default": {"kl": 0.011416618712246418, "policy_loss": -0.14285314083099365, "vf_loss": 125.15706634521484, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9901959896087646, "entropy": 3.672696828842163, "cur_lr": 4.999999873689376e-05, "total_loss": 125.03154754638672}, "load_time_ms": 0.614, "num_steps_sampled": 2769600, "grad_time_ms": 705.465, "update_time_ms": 2.694, "sample_time_ms": 34842.293}, "date": "2025-08-31_12-45-26", "hostname": "cda-server-4", "time_this_iter_s": 35.33759808540344, "episodes_total": 13848, "timestamp": 1756637126, "node_ip": "10.157.146.4", "done": false, "time_total_s": 74061.24322199821, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2309, "episode_reward_mean": -605.7776138252125, "training_iteration": 2309, "timesteps_total": 2770800, "policy_reward_mean": {}, "episode_reward_min": -639.313478081638, "timesteps_since_restore": 2770800, "num_metric_batches_dropped": 0, "time_since_restore": 74096.6252861023, "episode_reward_max": -517.2001294265518, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2770800, "default": {"kl": 0.01163297425955534, "policy_loss": -0.15051859617233276, "vf_loss": 155.4851531982422, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9868628978729248, "entropy": 3.724700450897217, "cur_lr": 4.999999873689376e-05, "total_loss": 155.352294921875}, "load_time_ms": 0.592, "num_steps_sampled": 2770800, "grad_time_ms": 705.718, "update_time_ms": 2.616, "sample_time_ms": 34809.57}, "date": "2025-08-31_12-46-01", "hostname": "cda-server-4", "time_this_iter_s": 35.3820641040802, "episodes_total": 13854, "timestamp": 1756637161, "node_ip": "10.157.146.4", "done": false, "time_total_s": 74096.6252861023, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2310, "episode_reward_mean": -607.6769534932305, "training_iteration": 2310, "timesteps_total": 2772000, "policy_reward_mean": {}, "episode_reward_min": -792.863500716533, "timesteps_since_restore": 2772000, "num_metric_batches_dropped": 0, "time_since_restore": 74132.28769540787, "episode_reward_max": -517.2001294265518, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2772000, "default": {"kl": 0.011640738695859909, "policy_loss": -0.14387677609920502, "vf_loss": 253.02877807617188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9728541970252991, "entropy": 3.926743745803833, "cur_lr": 4.999999873689376e-05, "total_loss": 252.90255737304688}, "load_time_ms": 0.574, "num_steps_sampled": 2772000, "grad_time_ms": 708.741, "update_time_ms": 2.559, "sample_time_ms": 34865.776}, "date": "2025-08-31_12-46-37", "hostname": "cda-server-4", "time_this_iter_s": 35.66240930557251, "episodes_total": 13860, "timestamp": 1756637197, "node_ip": "10.157.146.4", "done": false, "time_total_s": 74132.28769540787, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2311, "episode_reward_mean": -607.0683183502098, "training_iteration": 2311, "timesteps_total": 2773200, "policy_reward_mean": {}, "episode_reward_min": -792.863500716533, "timesteps_since_restore": 2773200, "num_metric_batches_dropped": 0, "time_since_restore": 74167.22001338005, "episode_reward_max": -517.2001294265518, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2773200, "default": {"kl": 0.011792337521910667, "policy_loss": -0.15666131675243378, "vf_loss": 117.90321350097656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9907761812210083, "entropy": 3.543442726135254, "cur_lr": 4.999999873689376e-05, "total_loss": 117.76445770263672}, "load_time_ms": 0.603, "num_steps_sampled": 2773200, "grad_time_ms": 709.394, "update_time_ms": 2.492, "sample_time_ms": 34836.757}, "date": "2025-08-31_12-47-12", "hostname": "cda-server-4", "time_this_iter_s": 34.93231797218323, "episodes_total": 13866, "timestamp": 1756637232, "node_ip": "10.157.146.4", "done": false, "time_total_s": 74167.22001338005, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2312, "episode_reward_mean": -607.9724561342891, "training_iteration": 2312, "timesteps_total": 2774400, "policy_reward_mean": {}, "episode_reward_min": -792.863500716533, "timesteps_since_restore": 2774400, "num_metric_batches_dropped": 0, "time_since_restore": 74202.52003407478, "episode_reward_max": -520.1888732617526, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2774400, "default": {"kl": 0.013276129961013794, "policy_loss": -0.15288515388965607, "vf_loss": 53.6600456237793, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9938748478889465, "entropy": 3.5846006870269775, "cur_lr": 4.999999873689376e-05, "total_loss": 53.52732467651367}, "load_time_ms": 0.599, "num_steps_sampled": 2774400, "grad_time_ms": 704.032, "update_time_ms": 2.597, "sample_time_ms": 34750.759}, "date": "2025-08-31_12-47-48", "hostname": "cda-server-4", "time_this_iter_s": 35.300020694732666, "episodes_total": 13872, "timestamp": 1756637268, "node_ip": "10.157.146.4", "done": false, "time_total_s": 74202.52003407478, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2313, "episode_reward_mean": -608.5815284166312, "training_iteration": 2313, "timesteps_total": 2775600, "policy_reward_mean": {}, "episode_reward_min": -792.863500716533, "timesteps_since_restore": 2775600, "num_metric_batches_dropped": 0, "time_since_restore": 74237.97791194916, "episode_reward_max": -520.1888732617526, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2775600, "default": {"kl": 0.012107964605093002, "policy_loss": -0.1613728404045105, "vf_loss": 27.701778411865234, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9959625601768494, "entropy": 3.6414074897766113, "cur_lr": 4.999999873689376e-05, "total_loss": 27.558795928955078}, "load_time_ms": 0.627, "num_steps_sampled": 2775600, "grad_time_ms": 701.703, "update_time_ms": 2.612, "sample_time_ms": 34684.532}, "date": "2025-08-31_12-48-23", "hostname": "cda-server-4", "time_this_iter_s": 35.45787787437439, "episodes_total": 13878, "timestamp": 1756637303, "node_ip": "10.157.146.4", "done": false, "time_total_s": 74237.97791194916, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2314, "episode_reward_mean": -608.1573772471584, "training_iteration": 2314, "timesteps_total": 2776800, "policy_reward_mean": {}, "episode_reward_min": -792.863500716533, "timesteps_since_restore": 2776800, "num_metric_batches_dropped": 0, "time_since_restore": 74272.78864192963, "episode_reward_max": -520.1888732617526, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2776800, "default": {"kl": 0.011433382518589497, "policy_loss": -0.13927125930786133, "vf_loss": 76.40818786621094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9949789047241211, "entropy": 3.6239614486694336, "cur_lr": 4.999999873689376e-05, "total_loss": 76.28628540039062}, "load_time_ms": 0.626, "num_steps_sampled": 2776800, "grad_time_ms": 703.368, "update_time_ms": 2.62, "sample_time_ms": 34621.936}, "date": "2025-08-31_12-48-58", "hostname": "cda-server-4", "time_this_iter_s": 34.81072998046875, "episodes_total": 13884, "timestamp": 1756637338, "node_ip": "10.157.146.4", "done": false, "time_total_s": 74272.78864192963, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2315, "episode_reward_mean": -608.8152975551686, "training_iteration": 2315, "timesteps_total": 2778000, "policy_reward_mean": {}, "episode_reward_min": -792.863500716533, "timesteps_since_restore": 2778000, "num_metric_batches_dropped": 0, "time_since_restore": 74308.70079064369, "episode_reward_max": -520.1888732617526, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2778000, "default": {"kl": 0.010359536856412888, "policy_loss": -0.13527758419513702, "vf_loss": 54.81560516357422, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9941480159759521, "entropy": 3.6766481399536133, "cur_lr": 4.999999873689376e-05, "total_loss": 54.69606018066406}, "load_time_ms": 0.632, "num_steps_sampled": 2778000, "grad_time_ms": 709.863, "update_time_ms": 2.548, "sample_time_ms": 34597.491}, "date": "2025-08-31_12-49-34", "hostname": "cda-server-4", "time_this_iter_s": 35.91214871406555, "episodes_total": 13890, "timestamp": 1756637374, "node_ip": "10.157.146.4", "done": false, "time_total_s": 74308.70079064369, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2316, "episode_reward_mean": -608.9031277814785, "training_iteration": 2316, "timesteps_total": 2779200, "policy_reward_mean": {}, "episode_reward_min": -792.863500716533, "timesteps_since_restore": 2779200, "num_metric_batches_dropped": 0, "time_since_restore": 74345.11004161835, "episode_reward_max": -520.1888732617526, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2779200, "default": {"kl": 0.009393089450895786, "policy_loss": -0.1203504428267479, "vf_loss": 121.32109832763672, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9874300360679626, "entropy": 3.6702303886413574, "cur_lr": 4.999999873689376e-05, "total_loss": 121.21503448486328}, "load_time_ms": 0.633, "num_steps_sampled": 2779200, "grad_time_ms": 714.946, "update_time_ms": 2.566, "sample_time_ms": 34738.407}, "date": "2025-08-31_12-50-10", "hostname": "cda-server-4", "time_this_iter_s": 36.40925097465515, "episodes_total": 13896, "timestamp": 1756637410, "node_ip": "10.157.146.4", "done": false, "time_total_s": 74345.11004161835, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2317, "episode_reward_mean": -607.9558847149542, "training_iteration": 2317, "timesteps_total": 2780400, "policy_reward_mean": {}, "episode_reward_min": -792.863500716533, "timesteps_since_restore": 2780400, "num_metric_batches_dropped": 0, "time_since_restore": 74380.19295120239, "episode_reward_max": -520.1888732617526, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2780400, "default": {"kl": 0.012293403036892414, "policy_loss": -0.15928281843662262, "vf_loss": 60.50303268432617, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9934723973274231, "entropy": 3.636789083480835, "cur_lr": 4.999999873689376e-05, "total_loss": 60.36241912841797}, "load_time_ms": 0.669, "num_steps_sampled": 2780400, "grad_time_ms": 717.724, "update_time_ms": 2.657, "sample_time_ms": 34703.567}, "date": "2025-08-31_12-50-45", "hostname": "cda-server-4", "time_this_iter_s": 35.08290958404541, "episodes_total": 13902, "timestamp": 1756637445, "node_ip": "10.157.146.4", "done": false, "time_total_s": 74380.19295120239, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2318, "episode_reward_mean": -608.4042538538039, "training_iteration": 2318, "timesteps_total": 2781600, "policy_reward_mean": {}, "episode_reward_min": -792.863500716533, "timesteps_since_restore": 2781600, "num_metric_batches_dropped": 0, "time_since_restore": 74414.99788093567, "episode_reward_max": -520.1888732617526, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2781600, "default": {"kl": 0.010534849017858505, "policy_loss": -0.14333093166351318, "vf_loss": 82.84554290771484, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9877139329910278, "entropy": 3.657236337661743, "cur_lr": 4.999999873689376e-05, "total_loss": 82.71820831298828}, "load_time_ms": 0.677, "num_steps_sampled": 2781600, "grad_time_ms": 722.067, "update_time_ms": 2.601, "sample_time_ms": 34645.979}, "date": "2025-08-31_12-51-20", "hostname": "cda-server-4", "time_this_iter_s": 34.80492973327637, "episodes_total": 13908, "timestamp": 1756637480, "node_ip": "10.157.146.4", "done": false, "time_total_s": 74414.99788093567, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2319, "episode_reward_mean": -609.3549544435383, "training_iteration": 2319, "timesteps_total": 2782800, "policy_reward_mean": {}, "episode_reward_min": -792.863500716533, "timesteps_since_restore": 2782800, "num_metric_batches_dropped": 0, "time_since_restore": 74450.52497458458, "episode_reward_max": -520.1888732617526, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2782800, "default": {"kl": 0.010092411190271378, "policy_loss": -0.1426001638174057, "vf_loss": 185.68263244628906, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9777018427848816, "entropy": 3.9698824882507324, "cur_lr": 4.999999873689376e-05, "total_loss": 185.55535888671875}, "load_time_ms": 0.716, "num_steps_sampled": 2782800, "grad_time_ms": 723.806, "update_time_ms": 2.606, "sample_time_ms": 34658.759}, "date": "2025-08-31_12-51-56", "hostname": "cda-server-4", "time_this_iter_s": 35.52709364891052, "episodes_total": 13914, "timestamp": 1756637516, "node_ip": "10.157.146.4", "done": false, "time_total_s": 74450.52497458458, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2320, "episode_reward_mean": -608.9420116841354, "training_iteration": 2320, "timesteps_total": 2784000, "policy_reward_mean": {}, "episode_reward_min": -792.863500716533, "timesteps_since_restore": 2784000, "num_metric_batches_dropped": 0, "time_since_restore": 74485.77357244492, "episode_reward_max": -520.1888732617526, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2784000, "default": {"kl": 0.008488637395203114, "policy_loss": -0.12734846770763397, "vf_loss": 94.04442596435547, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9870204925537109, "entropy": 3.62625789642334, "cur_lr": 4.999999873689376e-05, "total_loss": 93.92996978759766}, "load_time_ms": 0.744, "num_steps_sampled": 2784000, "grad_time_ms": 723.936, "update_time_ms": 2.488, "sample_time_ms": 34617.31}, "date": "2025-08-31_12-52-31", "hostname": "cda-server-4", "time_this_iter_s": 35.248597860336304, "episodes_total": 13920, "timestamp": 1756637551, "node_ip": "10.157.146.4", "done": false, "time_total_s": 74485.77357244492, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2321, "episode_reward_mean": -608.3750037980049, "training_iteration": 2321, "timesteps_total": 2785200, "policy_reward_mean": {}, "episode_reward_min": -792.863500716533, "timesteps_since_restore": 2785200, "num_metric_batches_dropped": 0, "time_since_restore": 74521.48356866837, "episode_reward_max": -520.1888732617526, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2785200, "default": {"kl": 0.011487822979688644, "policy_loss": -0.16319487988948822, "vf_loss": 226.39463806152344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9876165390014648, "entropy": 3.7005386352539062, "cur_lr": 4.999999873689376e-05, "total_loss": 226.2489013671875}, "load_time_ms": 0.715, "num_steps_sampled": 2785200, "grad_time_ms": 723.372, "update_time_ms": 2.484, "sample_time_ms": 34695.618}, "date": "2025-08-31_12-53-07", "hostname": "cda-server-4", "time_this_iter_s": 35.70999622344971, "episodes_total": 13926, "timestamp": 1756637587, "node_ip": "10.157.146.4", "done": false, "time_total_s": 74521.48356866837, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2322, "episode_reward_mean": -609.0567081882562, "training_iteration": 2322, "timesteps_total": 2786400, "policy_reward_mean": {}, "episode_reward_min": -792.863500716533, "timesteps_since_restore": 2786400, "num_metric_batches_dropped": 0, "time_since_restore": 74556.32269072533, "episode_reward_max": -520.1888732617526, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2786400, "default": {"kl": 0.01079587172716856, "policy_loss": -0.12853820621967316, "vf_loss": 250.76095581054688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9782252907752991, "entropy": 3.6497349739074707, "cur_lr": 4.999999873689376e-05, "total_loss": 250.64878845214844}, "load_time_ms": 0.719, "num_steps_sampled": 2786400, "grad_time_ms": 726.094, "update_time_ms": 2.401, "sample_time_ms": 34646.74}, "date": "2025-08-31_12-53-42", "hostname": "cda-server-4", "time_this_iter_s": 34.83912205696106, "episodes_total": 13932, "timestamp": 1756637622, "node_ip": "10.157.146.4", "done": false, "time_total_s": 74556.32269072533, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2323, "episode_reward_mean": -609.8762504758591, "training_iteration": 2323, "timesteps_total": 2787600, "policy_reward_mean": {}, "episode_reward_min": -792.863500716533, "timesteps_since_restore": 2787600, "num_metric_batches_dropped": 0, "time_since_restore": 74593.03744697571, "episode_reward_max": -520.1888732617526, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2787600, "default": {"kl": 0.010858147405087948, "policy_loss": -0.14781056344509125, "vf_loss": 38.86362838745117, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9953572750091553, "entropy": 3.72157621383667, "cur_lr": 4.999999873689376e-05, "total_loss": 38.73230743408203}, "load_time_ms": 0.698, "num_steps_sampled": 2787600, "grad_time_ms": 727.061, "update_time_ms": 2.374, "sample_time_ms": 34771.476}, "date": "2025-08-31_12-54-18", "hostname": "cda-server-4", "time_this_iter_s": 36.71475625038147, "episodes_total": 13938, "timestamp": 1756637658, "node_ip": "10.157.146.4", "done": false, "time_total_s": 74593.03744697571, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2324, "episode_reward_mean": -609.0364670275462, "training_iteration": 2324, "timesteps_total": 2788800, "policy_reward_mean": {}, "episode_reward_min": -792.863500716533, "timesteps_since_restore": 2788800, "num_metric_batches_dropped": 0, "time_since_restore": 74628.80063700676, "episode_reward_max": -520.1888732617526, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2788800, "default": {"kl": 0.009243646636605263, "policy_loss": -0.13517412543296814, "vf_loss": 92.92232513427734, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9892752170562744, "entropy": 3.5238842964172363, "cur_lr": 4.999999873689376e-05, "total_loss": 92.80117797851562}, "load_time_ms": 0.705, "num_steps_sampled": 2788800, "grad_time_ms": 726.343, "update_time_ms": 2.384, "sample_time_ms": 34867.396}, "date": "2025-08-31_12-54-54", "hostname": "cda-server-4", "time_this_iter_s": 35.763190031051636, "episodes_total": 13944, "timestamp": 1756637694, "node_ip": "10.157.146.4", "done": false, "time_total_s": 74628.80063700676, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2325, "episode_reward_mean": -608.9216500761868, "training_iteration": 2325, "timesteps_total": 2790000, "policy_reward_mean": {}, "episode_reward_min": -792.863500716533, "timesteps_since_restore": 2790000, "num_metric_batches_dropped": 0, "time_since_restore": 74663.80128574371, "episode_reward_max": -520.1888732617526, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2790000, "default": {"kl": 0.010517662391066551, "policy_loss": -0.13706307113170624, "vf_loss": 229.25897216796875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9727051854133606, "entropy": 3.7833027839660645, "cur_lr": 4.999999873689376e-05, "total_loss": 229.13790893554688}, "load_time_ms": 0.708, "num_steps_sampled": 2790000, "grad_time_ms": 726.405, "update_time_ms": 2.437, "sample_time_ms": 34776.216}, "date": "2025-08-31_12-55-29", "hostname": "cda-server-4", "time_this_iter_s": 35.000648736953735, "episodes_total": 13950, "timestamp": 1756637729, "node_ip": "10.157.146.4", "done": false, "time_total_s": 74663.80128574371, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2326, "episode_reward_mean": -606.9596573958605, "training_iteration": 2326, "timesteps_total": 2791200, "policy_reward_mean": {}, "episode_reward_min": -690.3635759723771, "timesteps_since_restore": 2791200, "num_metric_batches_dropped": 0, "time_since_restore": 74699.41286849976, "episode_reward_max": -520.1888732617526, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2791200, "default": {"kl": 0.011358154937624931, "policy_loss": -0.13647297024726868, "vf_loss": 194.12075805664062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.993046224117279, "entropy": 3.5198745727539062, "cur_lr": 4.999999873689376e-05, "total_loss": 194.00152587890625}, "load_time_ms": 0.726, "num_steps_sampled": 2791200, "grad_time_ms": 728.028, "update_time_ms": 2.394, "sample_time_ms": 34694.852}, "date": "2025-08-31_12-56-05", "hostname": "cda-server-4", "time_this_iter_s": 35.61158275604248, "episodes_total": 13956, "timestamp": 1756637765, "node_ip": "10.157.146.4", "done": false, "time_total_s": 74699.41286849976, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2327, "episode_reward_mean": -607.2192082029251, "training_iteration": 2327, "timesteps_total": 2792400, "policy_reward_mean": {}, "episode_reward_min": -690.3635759723771, "timesteps_since_restore": 2792400, "num_metric_batches_dropped": 0, "time_since_restore": 74735.7859826088, "episode_reward_max": -522.1075075321137, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2792400, "default": {"kl": 0.007947854697704315, "policy_loss": -0.11562719941139221, "vf_loss": 161.7105255126953, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9740738272666931, "entropy": 3.678840160369873, "cur_lr": 4.999999873689376e-05, "total_loss": 161.6069793701172}, "load_time_ms": 0.696, "num_steps_sampled": 2792400, "grad_time_ms": 732.601, "update_time_ms": 2.364, "sample_time_ms": 34819.533}, "date": "2025-08-31_12-56-41", "hostname": "cda-server-4", "time_this_iter_s": 36.37311410903931, "episodes_total": 13962, "timestamp": 1756637801, "node_ip": "10.157.146.4", "done": false, "time_total_s": 74735.7859826088, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2328, "episode_reward_mean": -605.7983705295272, "training_iteration": 2328, "timesteps_total": 2793600, "policy_reward_mean": {}, "episode_reward_min": -690.3635759723771, "timesteps_since_restore": 2793600, "num_metric_batches_dropped": 0, "time_since_restore": 74771.43879890442, "episode_reward_max": -522.1075075321137, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2793600, "default": {"kl": 0.009274564683437347, "policy_loss": -0.12841945886611938, "vf_loss": 15.568452835083008, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9973261952400208, "entropy": 3.4983694553375244, "cur_lr": 4.999999873689376e-05, "total_loss": 15.454118728637695}, "load_time_ms": 0.698, "num_steps_sampled": 2793600, "grad_time_ms": 736.064, "update_time_ms": 2.287, "sample_time_ms": 34900.942}, "date": "2025-08-31_12-57-17", "hostname": "cda-server-4", "time_this_iter_s": 35.65281629562378, "episodes_total": 13968, "timestamp": 1756637837, "node_ip": "10.157.146.4", "done": false, "time_total_s": 74771.43879890442, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2329, "episode_reward_mean": -605.9385678185303, "training_iteration": 2329, "timesteps_total": 2794800, "policy_reward_mean": {}, "episode_reward_min": -690.3635759723771, "timesteps_since_restore": 2794800, "num_metric_batches_dropped": 0, "time_since_restore": 74806.05792045593, "episode_reward_max": -522.1075075321137, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2794800, "default": {"kl": 0.008002575486898422, "policy_loss": -0.11550866067409515, "vf_loss": 163.0324249267578, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9910023212432861, "entropy": 3.6036524772644043, "cur_lr": 4.999999873689376e-05, "total_loss": 162.9290771484375}, "load_time_ms": 0.662, "num_steps_sampled": 2794800, "grad_time_ms": 736.219, "update_time_ms": 2.327, "sample_time_ms": 34809.993}, "date": "2025-08-31_12-57-51", "hostname": "cda-server-4", "time_this_iter_s": 34.61912155151367, "episodes_total": 13974, "timestamp": 1756637871, "node_ip": "10.157.146.4", "done": false, "time_total_s": 74806.05792045593, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2330, "episode_reward_mean": -606.1136590320401, "training_iteration": 2330, "timesteps_total": 2796000, "policy_reward_mean": {}, "episode_reward_min": -690.3635759723771, "timesteps_since_restore": 2796000, "num_metric_batches_dropped": 0, "time_since_restore": 74842.12437319756, "episode_reward_max": -522.1075075321137, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2796000, "default": {"kl": 0.009106134064495564, "policy_loss": -0.1348980814218521, "vf_loss": 192.515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9797216057777405, "entropy": 3.7494163513183594, "cur_lr": 4.999999873689376e-05, "total_loss": 192.39456176757812}, "load_time_ms": 0.628, "num_steps_sampled": 2796000, "grad_time_ms": 736.134, "update_time_ms": 2.397, "sample_time_ms": 34891.841}, "date": "2025-08-31_12-58-27", "hostname": "cda-server-4", "time_this_iter_s": 36.066452741622925, "episodes_total": 13980, "timestamp": 1756637907, "node_ip": "10.157.146.4", "done": false, "time_total_s": 74842.12437319756, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2331, "episode_reward_mean": -606.4328022664571, "training_iteration": 2331, "timesteps_total": 2797200, "policy_reward_mean": {}, "episode_reward_min": -690.3635759723771, "timesteps_since_restore": 2797200, "num_metric_batches_dropped": 0, "time_since_restore": 74878.37492537498, "episode_reward_max": -522.1075075321137, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2797200, "default": {"kl": 0.009991503320634365, "policy_loss": -0.1274276226758957, "vf_loss": 208.25442504882812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9818127155303955, "entropy": 3.619295358657837, "cur_lr": 4.999999873689376e-05, "total_loss": 208.14219665527344}, "load_time_ms": 0.641, "num_steps_sampled": 2797200, "grad_time_ms": 740.035, "update_time_ms": 2.486, "sample_time_ms": 34942.019}, "date": "2025-08-31_12-59-04", "hostname": "cda-server-4", "time_this_iter_s": 36.2505521774292, "episodes_total": 13986, "timestamp": 1756637944, "node_ip": "10.157.146.4", "done": false, "time_total_s": 74878.37492537498, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2332, "episode_reward_mean": -605.8177891499437, "training_iteration": 2332, "timesteps_total": 2798400, "policy_reward_mean": {}, "episode_reward_min": -690.3635759723771, "timesteps_since_restore": 2798400, "num_metric_batches_dropped": 0, "time_since_restore": 74913.73677611351, "episode_reward_max": -522.1075075321137, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2798400, "default": {"kl": 0.011537490412592888, "policy_loss": -0.1491255760192871, "vf_loss": 102.92648315429688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9869279861450195, "entropy": 3.5356783866882324, "cur_lr": 4.999999873689376e-05, "total_loss": 102.79488372802734}, "load_time_ms": 0.67, "num_steps_sampled": 2798400, "grad_time_ms": 737.672, "update_time_ms": 2.487, "sample_time_ms": 34996.717}, "date": "2025-08-31_12-59-39", "hostname": "cda-server-4", "time_this_iter_s": 35.36185073852539, "episodes_total": 13992, "timestamp": 1756637979, "node_ip": "10.157.146.4", "done": false, "time_total_s": 74913.73677611351, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2333, "episode_reward_mean": -606.2698320658194, "training_iteration": 2333, "timesteps_total": 2799600, "policy_reward_mean": {}, "episode_reward_min": -690.3635759723771, "timesteps_since_restore": 2799600, "num_metric_batches_dropped": 0, "time_since_restore": 74949.68949437141, "episode_reward_max": -522.1075075321137, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2799600, "default": {"kl": 0.007502966560423374, "policy_loss": -0.1081228256225586, "vf_loss": 142.06082153320312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9783040285110474, "entropy": 3.68496036529541, "cur_lr": 4.999999873689376e-05, "total_loss": 141.96409606933594}, "load_time_ms": 0.665, "num_steps_sampled": 2799600, "grad_time_ms": 736.341, "update_time_ms": 2.458, "sample_time_ms": 34921.857}, "date": "2025-08-31_13-00-15", "hostname": "cda-server-4", "time_this_iter_s": 35.95271825790405, "episodes_total": 13998, "timestamp": 1756638015, "node_ip": "10.157.146.4", "done": false, "time_total_s": 74949.68949437141, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2334, "episode_reward_mean": -607.0458061524773, "training_iteration": 2334, "timesteps_total": 2800800, "policy_reward_mean": {}, "episode_reward_min": -690.3635759723771, "timesteps_since_restore": 2800800, "num_metric_batches_dropped": 0, "time_since_restore": 74984.90329623222, "episode_reward_max": -522.1075075321137, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2800800, "default": {"kl": 0.008534921333193779, "policy_loss": -0.13979238271713257, "vf_loss": 262.92205810546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9756402969360352, "entropy": 3.6818737983703613, "cur_lr": 4.999999873689376e-05, "total_loss": 262.7952575683594}, "load_time_ms": 0.656, "num_steps_sampled": 2800800, "grad_time_ms": 730.526, "update_time_ms": 2.544, "sample_time_ms": 34872.59}, "date": "2025-08-31_13-00-50", "hostname": "cda-server-4", "time_this_iter_s": 35.213801860809326, "episodes_total": 14004, "timestamp": 1756638050, "node_ip": "10.157.146.4", "done": false, "time_total_s": 74984.90329623222, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2335, "episode_reward_mean": -605.6140050309048, "training_iteration": 2335, "timesteps_total": 2802000, "policy_reward_mean": {}, "episode_reward_min": -664.1374172230038, "timesteps_since_restore": 2802000, "num_metric_batches_dropped": 0, "time_since_restore": 75020.10860610008, "episode_reward_max": -522.1075075321137, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2802000, "default": {"kl": 0.009531433694064617, "policy_loss": -0.13847793638706207, "vf_loss": 111.29782104492188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9832687377929688, "entropy": 3.6820318698883057, "cur_lr": 4.999999873689376e-05, "total_loss": 111.17382049560547}, "load_time_ms": 0.655, "num_steps_sampled": 2802000, "grad_time_ms": 727.433, "update_time_ms": 2.468, "sample_time_ms": 34896.079}, "date": "2025-08-31_13-01-26", "hostname": "cda-server-4", "time_this_iter_s": 35.20530986785889, "episodes_total": 14010, "timestamp": 1756638086, "node_ip": "10.157.146.4", "done": false, "time_total_s": 75020.10860610008, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2336, "episode_reward_mean": -606.0678462014365, "training_iteration": 2336, "timesteps_total": 2803200, "policy_reward_mean": {}, "episode_reward_min": -664.1374172230038, "timesteps_since_restore": 2803200, "num_metric_batches_dropped": 0, "time_since_restore": 75055.48857736588, "episode_reward_max": -522.1075075321137, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2803200, "default": {"kl": 0.010043938644230366, "policy_loss": -0.12877798080444336, "vf_loss": 227.7991485595703, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9796128869056702, "entropy": 3.6988131999969482, "cur_lr": 4.999999873689376e-05, "total_loss": 227.6856231689453}, "load_time_ms": 0.668, "num_steps_sampled": 2803200, "grad_time_ms": 723.844, "update_time_ms": 2.497, "sample_time_ms": 34876.408}, "date": "2025-08-31_13-02-01", "hostname": "cda-server-4", "time_this_iter_s": 35.37997126579285, "episodes_total": 14016, "timestamp": 1756638121, "node_ip": "10.157.146.4", "done": false, "time_total_s": 75055.48857736588, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2337, "episode_reward_mean": -607.6944357426677, "training_iteration": 2337, "timesteps_total": 2804400, "policy_reward_mean": {}, "episode_reward_min": -664.1374172230038, "timesteps_since_restore": 2804400, "num_metric_batches_dropped": 0, "time_since_restore": 75091.95379066467, "episode_reward_max": -528.4318625866853, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2804400, "default": {"kl": 0.009873950853943825, "policy_loss": -0.13563700020313263, "vf_loss": 258.8172607421875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9625628590583801, "entropy": 3.6695642471313477, "cur_lr": 4.999999873689376e-05, "total_loss": 258.69659423828125}, "load_time_ms": 0.699, "num_steps_sampled": 2804400, "grad_time_ms": 721.599, "update_time_ms": 2.495, "sample_time_ms": 34887.744}, "date": "2025-08-31_13-02-37", "hostname": "cda-server-4", "time_this_iter_s": 36.46521329879761, "episodes_total": 14022, "timestamp": 1756638157, "node_ip": "10.157.146.4", "done": false, "time_total_s": 75091.95379066467, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2338, "episode_reward_mean": -608.1602753290283, "training_iteration": 2338, "timesteps_total": 2805600, "policy_reward_mean": {}, "episode_reward_min": -664.1374172230038, "timesteps_since_restore": 2805600, "num_metric_batches_dropped": 0, "time_since_restore": 75127.35882520676, "episode_reward_max": -528.4318625866853, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2805600, "default": {"kl": 0.011585269123315811, "policy_loss": -0.14967291057109833, "vf_loss": 59.55715560913086, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9938938617706299, "entropy": 3.624393939971924, "cur_lr": 4.999999873689376e-05, "total_loss": 59.42507553100586}, "load_time_ms": 0.696, "num_steps_sampled": 2805600, "grad_time_ms": 719.702, "update_time_ms": 2.551, "sample_time_ms": 34864.698}, "date": "2025-08-31_13-03-13", "hostname": "cda-server-4", "time_this_iter_s": 35.40503454208374, "episodes_total": 14028, "timestamp": 1756638193, "node_ip": "10.157.146.4", "done": false, "time_total_s": 75127.35882520676, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2339, "episode_reward_mean": -608.198478129741, "training_iteration": 2339, "timesteps_total": 2806800, "policy_reward_mean": {}, "episode_reward_min": -664.1374172230038, "timesteps_since_restore": 2806800, "num_metric_batches_dropped": 0, "time_since_restore": 75163.78088951111, "episode_reward_max": -528.4318625866853, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2806800, "default": {"kl": 0.010395560413599014, "policy_loss": -0.13234132528305054, "vf_loss": 342.3361511230469, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9701794385910034, "entropy": 3.7496578693389893, "cur_lr": 4.999999873689376e-05, "total_loss": 342.2196044921875}, "load_time_ms": 0.704, "num_steps_sampled": 2806800, "grad_time_ms": 719.256, "update_time_ms": 2.542, "sample_time_ms": 35045.448}, "date": "2025-08-31_13-03-49", "hostname": "cda-server-4", "time_this_iter_s": 36.42206430435181, "episodes_total": 14034, "timestamp": 1756638229, "node_ip": "10.157.146.4", "done": false, "time_total_s": 75163.78088951111, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2340, "episode_reward_mean": -608.0417259768182, "training_iteration": 2340, "timesteps_total": 2808000, "policy_reward_mean": {}, "episode_reward_min": -645.3111269026401, "timesteps_since_restore": 2808000, "num_metric_batches_dropped": 0, "time_since_restore": 75198.8290219307, "episode_reward_max": -528.4318625866853, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2808000, "default": {"kl": 0.011244344525039196, "policy_loss": -0.13780413568019867, "vf_loss": 87.16547393798828, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9925046563148499, "entropy": 3.6267597675323486, "cur_lr": 4.999999873689376e-05, "total_loss": 87.04474639892578}, "load_time_ms": 0.741, "num_steps_sampled": 2808000, "grad_time_ms": 717.208, "update_time_ms": 2.474, "sample_time_ms": 34945.704}, "date": "2025-08-31_13-04-24", "hostname": "cda-server-4", "time_this_iter_s": 35.04813241958618, "episodes_total": 14040, "timestamp": 1756638264, "node_ip": "10.157.146.4", "done": false, "time_total_s": 75198.8290219307, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2341, "episode_reward_mean": -607.5836653850216, "training_iteration": 2341, "timesteps_total": 2809200, "policy_reward_mean": {}, "episode_reward_min": -645.3111269026401, "timesteps_since_restore": 2809200, "num_metric_batches_dropped": 0, "time_since_restore": 75234.85454273224, "episode_reward_max": -528.4318625866853, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2809200, "default": {"kl": 0.010565800592303276, "policy_loss": -0.14560356736183167, "vf_loss": 45.40784454345703, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9941167831420898, "entropy": 3.646732807159424, "cur_lr": 4.999999873689376e-05, "total_loss": 45.27828598022461}, "load_time_ms": 0.727, "num_steps_sampled": 2809200, "grad_time_ms": 714.997, "update_time_ms": 2.383, "sample_time_ms": 34925.483}, "date": "2025-08-31_13-05-00", "hostname": "cda-server-4", "time_this_iter_s": 36.02552080154419, "episodes_total": 14046, "timestamp": 1756638300, "node_ip": "10.157.146.4", "done": false, "time_total_s": 75234.85454273224, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2342, "episode_reward_mean": -609.6154533306135, "training_iteration": 2342, "timesteps_total": 2810400, "policy_reward_mean": {}, "episode_reward_min": -775.7070369868308, "timesteps_since_restore": 2810400, "num_metric_batches_dropped": 0, "time_since_restore": 75269.94395589828, "episode_reward_max": -528.4318625866853, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2810400, "default": {"kl": 0.012668682262301445, "policy_loss": -0.1529165804386139, "vf_loss": 722.0281372070312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.953912079334259, "entropy": 3.9627370834350586, "cur_lr": 4.999999873689376e-05, "total_loss": 721.89453125}, "load_time_ms": 0.695, "num_steps_sampled": 2810400, "grad_time_ms": 719.096, "update_time_ms": 2.408, "sample_time_ms": 34894.089}, "date": "2025-08-31_13-05-36", "hostname": "cda-server-4", "time_this_iter_s": 35.08941316604614, "episodes_total": 14052, "timestamp": 1756638336, "node_ip": "10.157.146.4", "done": false, "time_total_s": 75269.94395589828, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2343, "episode_reward_mean": -609.4823515137435, "training_iteration": 2343, "timesteps_total": 2811600, "policy_reward_mean": {}, "episode_reward_min": -775.7070369868308, "timesteps_since_restore": 2811600, "num_metric_batches_dropped": 0, "time_since_restore": 75304.77633309364, "episode_reward_max": -528.4318625866853, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2811600, "default": {"kl": 0.009342172183096409, "policy_loss": -0.12561249732971191, "vf_loss": 227.8728790283203, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9743146896362305, "entropy": 3.6048707962036133, "cur_lr": 4.999999873689376e-05, "total_loss": 227.76144409179688}, "load_time_ms": 0.722, "num_steps_sampled": 2811600, "grad_time_ms": 717.887, "update_time_ms": 2.393, "sample_time_ms": 34783.195}, "date": "2025-08-31_13-06-10", "hostname": "cda-server-4", "time_this_iter_s": 34.832377195358276, "episodes_total": 14058, "timestamp": 1756638370, "node_ip": "10.157.146.4", "done": false, "time_total_s": 75304.77633309364, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2344, "episode_reward_mean": -609.9116947789315, "training_iteration": 2344, "timesteps_total": 2812800, "policy_reward_mean": {}, "episode_reward_min": -775.7070369868308, "timesteps_since_restore": 2812800, "num_metric_batches_dropped": 0, "time_since_restore": 75341.55732178688, "episode_reward_max": -528.4318625866853, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2812800, "default": {"kl": 0.009104141965508461, "policy_loss": -0.12773294746875763, "vf_loss": 156.90097045898438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9806515574455261, "entropy": 3.5833559036254883, "cur_lr": 4.999999873689376e-05, "total_loss": 156.78704833984375}, "load_time_ms": 0.729, "num_steps_sampled": 2812800, "grad_time_ms": 721.912, "update_time_ms": 2.364, "sample_time_ms": 34935.965}, "date": "2025-08-31_13-06-47", "hostname": "cda-server-4", "time_this_iter_s": 36.780988693237305, "episodes_total": 14064, "timestamp": 1756638407, "node_ip": "10.157.146.4", "done": false, "time_total_s": 75341.55732178688, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2345, "episode_reward_mean": -611.4973024114327, "training_iteration": 2345, "timesteps_total": 2814000, "policy_reward_mean": {}, "episode_reward_min": -775.7070369868308, "timesteps_since_restore": 2814000, "num_metric_batches_dropped": 0, "time_since_restore": 75377.91449856758, "episode_reward_max": -557.828978591629, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2814000, "default": {"kl": 0.011480903252959251, "policy_loss": -0.13558241724967957, "vf_loss": 53.71708679199219, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9937835335731506, "entropy": 3.6560757160186768, "cur_lr": 4.999999873689376e-05, "total_loss": 53.59893798828125}, "load_time_ms": 0.748, "num_steps_sampled": 2814000, "grad_time_ms": 723.718, "update_time_ms": 2.454, "sample_time_ms": 35049.204}, "date": "2025-08-31_13-07-24", "hostname": "cda-server-4", "time_this_iter_s": 36.357176780700684, "episodes_total": 14070, "timestamp": 1756638444, "node_ip": "10.157.146.4", "done": false, "time_total_s": 75377.91449856758, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2346, "episode_reward_mean": -613.9742814256647, "training_iteration": 2346, "timesteps_total": 2815200, "policy_reward_mean": {}, "episode_reward_min": -794.8574656312059, "timesteps_since_restore": 2815200, "num_metric_batches_dropped": 0, "time_since_restore": 75413.46947264671, "episode_reward_max": -557.828978591629, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2815200, "default": {"kl": 0.010846646502614021, "policy_loss": -0.12287727743387222, "vf_loss": 314.6903991699219, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9643104076385498, "entropy": 4.04691219329834, "cur_lr": 4.999999873689376e-05, "total_loss": 314.5839538574219}, "load_time_ms": 0.713, "num_steps_sampled": 2815200, "grad_time_ms": 726.473, "update_time_ms": 2.484, "sample_time_ms": 35063.944}, "date": "2025-08-31_13-07-59", "hostname": "cda-server-4", "time_this_iter_s": 35.55497407913208, "episodes_total": 14076, "timestamp": 1756638479, "node_ip": "10.157.146.4", "done": false, "time_total_s": 75413.46947264671, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2347, "episode_reward_mean": -614.060360472288, "training_iteration": 2347, "timesteps_total": 2816400, "policy_reward_mean": {}, "episode_reward_min": -794.8574656312059, "timesteps_since_restore": 2816400, "num_metric_batches_dropped": 0, "time_since_restore": 75449.1299226284, "episode_reward_max": -557.828978591629, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2816400, "default": {"kl": 0.00987384095788002, "policy_loss": -0.1267826408147812, "vf_loss": 132.47174072265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9859803318977356, "entropy": 3.4762983322143555, "cur_lr": 4.999999873689376e-05, "total_loss": 132.35995483398438}, "load_time_ms": 0.676, "num_steps_sampled": 2816400, "grad_time_ms": 716.702, "update_time_ms": 2.57, "sample_time_ms": 34993.153}, "date": "2025-08-31_13-08-35", "hostname": "cda-server-4", "time_this_iter_s": 35.66044998168945, "episodes_total": 14082, "timestamp": 1756638515, "node_ip": "10.157.146.4", "done": false, "time_total_s": 75449.1299226284, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2348, "episode_reward_mean": -613.162959324537, "training_iteration": 2348, "timesteps_total": 2817600, "policy_reward_mean": {}, "episode_reward_min": -794.8574656312059, "timesteps_since_restore": 2817600, "num_metric_batches_dropped": 0, "time_since_restore": 75484.89762163162, "episode_reward_max": -525.5188206585806, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2817600, "default": {"kl": 0.009488541632890701, "policy_loss": -0.12674419581890106, "vf_loss": 242.02671813964844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9762833714485168, "entropy": 3.5283212661743164, "cur_lr": 4.999999873689376e-05, "total_loss": 241.9143829345703}, "load_time_ms": 0.671, "num_steps_sampled": 2817600, "grad_time_ms": 709.897, "update_time_ms": 2.594, "sample_time_ms": 35036.299}, "date": "2025-08-31_13-09-11", "hostname": "cda-server-4", "time_this_iter_s": 35.767699003219604, "episodes_total": 14088, "timestamp": 1756638551, "node_ip": "10.157.146.4", "done": false, "time_total_s": 75484.89762163162, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2349, "episode_reward_mean": -615.8211585309996, "training_iteration": 2349, "timesteps_total": 2818800, "policy_reward_mean": {}, "episode_reward_min": -794.8574656312059, "timesteps_since_restore": 2818800, "num_metric_batches_dropped": 0, "time_since_restore": 75520.93960881233, "episode_reward_max": -525.5188206585806, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2818800, "default": {"kl": 0.01123746670782566, "policy_loss": -0.13971646130084991, "vf_loss": 460.4410705566406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9599289298057556, "entropy": 3.952745199203491, "cur_lr": 4.999999873689376e-05, "total_loss": 460.31842041015625}, "load_time_ms": 0.658, "num_steps_sampled": 2818800, "grad_time_ms": 700.92, "update_time_ms": 2.602, "sample_time_ms": 35007.304}, "date": "2025-08-31_13-09-47", "hostname": "cda-server-4", "time_this_iter_s": 36.04198718070984, "episodes_total": 14094, "timestamp": 1756638587, "node_ip": "10.157.146.4", "done": false, "time_total_s": 75520.93960881233, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2350, "episode_reward_mean": -615.145763551192, "training_iteration": 2350, "timesteps_total": 2820000, "policy_reward_mean": {}, "episode_reward_min": -794.8574656312059, "timesteps_since_restore": 2820000, "num_metric_batches_dropped": 0, "time_since_restore": 75556.25160503387, "episode_reward_max": -525.5188206585806, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2820000, "default": {"kl": 0.009330613538622856, "policy_loss": -0.11371159553527832, "vf_loss": 31.155982971191406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9952030181884766, "entropy": 3.500936508178711, "cur_lr": 4.999999873689376e-05, "total_loss": 31.056440353393555}, "load_time_ms": 0.659, "num_steps_sampled": 2820000, "grad_time_ms": 702.001, "update_time_ms": 2.621, "sample_time_ms": 35032.586}, "date": "2025-08-31_13-10-22", "hostname": "cda-server-4", "time_this_iter_s": 35.31199622154236, "episodes_total": 14100, "timestamp": 1756638622, "node_ip": "10.157.146.4", "done": false, "time_total_s": 75556.25160503387, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2351, "episode_reward_mean": -614.6572369661967, "training_iteration": 2351, "timesteps_total": 2821200, "policy_reward_mean": {}, "episode_reward_min": -794.8574656312059, "timesteps_since_restore": 2821200, "num_metric_batches_dropped": 0, "time_since_restore": 75591.6105761528, "episode_reward_max": -525.5188206585806, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2821200, "default": {"kl": 0.010726033709943295, "policy_loss": -0.13924574851989746, "vf_loss": 62.51618194580078, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9947600960731506, "entropy": 3.6372761726379395, "cur_lr": 4.999999873689376e-05, "total_loss": 62.39322280883789}, "load_time_ms": 0.664, "num_steps_sampled": 2821200, "grad_time_ms": 703.384, "update_time_ms": 2.633, "sample_time_ms": 34964.563}, "date": "2025-08-31_13-10-57", "hostname": "cda-server-4", "time_this_iter_s": 35.358971118927, "episodes_total": 14106, "timestamp": 1756638657, "node_ip": "10.157.146.4", "done": false, "time_total_s": 75591.6105761528, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2352, "episode_reward_mean": -615.1812882118176, "training_iteration": 2352, "timesteps_total": 2822400, "policy_reward_mean": {}, "episode_reward_min": -794.8574656312059, "timesteps_since_restore": 2822400, "num_metric_batches_dropped": 0, "time_since_restore": 75627.37673473358, "episode_reward_max": -525.5188206585806, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2822400, "default": {"kl": 0.013165290467441082, "policy_loss": -0.16498269140720367, "vf_loss": 223.84239196777344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9736818671226501, "entropy": 3.820643901824951, "cur_lr": 4.999999873689376e-05, "total_loss": 223.69740295410156}, "load_time_ms": 0.697, "num_steps_sampled": 2822400, "grad_time_ms": 704.87, "update_time_ms": 2.551, "sample_time_ms": 35030.879}, "date": "2025-08-31_13-11-33", "hostname": "cda-server-4", "time_this_iter_s": 35.76615858078003, "episodes_total": 14112, "timestamp": 1756638693, "node_ip": "10.157.146.4", "done": false, "time_total_s": 75627.37673473358, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2353, "episode_reward_mean": -614.4977606671629, "training_iteration": 2353, "timesteps_total": 2823600, "policy_reward_mean": {}, "episode_reward_min": -794.8574656312059, "timesteps_since_restore": 2823600, "num_metric_batches_dropped": 0, "time_since_restore": 75661.94069385529, "episode_reward_max": -525.5188206585806, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2823600, "default": {"kl": 0.009090812876820564, "policy_loss": -0.13882741332054138, "vf_loss": 85.6197509765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9920758008956909, "entropy": 3.5596988201141357, "cur_lr": 4.999999873689376e-05, "total_loss": 85.49472045898438}, "load_time_ms": 0.665, "num_steps_sampled": 2823600, "grad_time_ms": 707.39, "update_time_ms": 2.538, "sample_time_ms": 35001.554}, "date": "2025-08-31_13-12-08", "hostname": "cda-server-4", "time_this_iter_s": 34.5639591217041, "episodes_total": 14118, "timestamp": 1756638728, "node_ip": "10.157.146.4", "done": false, "time_total_s": 75661.94069385529, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2354, "episode_reward_mean": -614.2290140536192, "training_iteration": 2354, "timesteps_total": 2824800, "policy_reward_mean": {}, "episode_reward_min": -794.8574656312059, "timesteps_since_restore": 2824800, "num_metric_batches_dropped": 0, "time_since_restore": 75698.36334657669, "episode_reward_max": -525.5188206585806, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2824800, "default": {"kl": 0.012157931923866272, "policy_loss": -0.1457652896642685, "vf_loss": 241.79359436035156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9808048605918884, "entropy": 3.732255220413208, "cur_lr": 4.999999873689376e-05, "total_loss": 241.66629028320312}, "load_time_ms": 0.666, "num_steps_sampled": 2824800, "grad_time_ms": 707.178, "update_time_ms": 2.504, "sample_time_ms": 34966.021}, "date": "2025-08-31_13-12-44", "hostname": "cda-server-4", "time_this_iter_s": 36.42265272140503, "episodes_total": 14124, "timestamp": 1756638764, "node_ip": "10.157.146.4", "done": false, "time_total_s": 75698.36334657669, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2355, "episode_reward_mean": -613.9556978529097, "training_iteration": 2355, "timesteps_total": 2826000, "policy_reward_mean": {}, "episode_reward_min": -794.8574656312059, "timesteps_since_restore": 2826000, "num_metric_batches_dropped": 0, "time_since_restore": 75734.04571795464, "episode_reward_max": -525.5188206585806, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2826000, "default": {"kl": 0.010228092782199383, "policy_loss": -0.13375195860862732, "vf_loss": 114.93160247802734, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9840571880340576, "entropy": 3.480113983154297, "cur_lr": 4.999999873689376e-05, "total_loss": 114.81339263916016}, "load_time_ms": 0.642, "num_steps_sampled": 2826000, "grad_time_ms": 707.156, "update_time_ms": 2.364, "sample_time_ms": 34898.863}, "date": "2025-08-31_13-13-20", "hostname": "cda-server-4", "time_this_iter_s": 35.682371377944946, "episodes_total": 14130, "timestamp": 1756638800, "node_ip": "10.157.146.4", "done": false, "time_total_s": 75734.04571795464, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2356, "episode_reward_mean": -613.6435733920885, "training_iteration": 2356, "timesteps_total": 2827200, "policy_reward_mean": {}, "episode_reward_min": -794.8574656312059, "timesteps_since_restore": 2827200, "num_metric_batches_dropped": 0, "time_since_restore": 75768.72619271278, "episode_reward_max": -525.5188206585806, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2827200, "default": {"kl": 0.010493765585124493, "policy_loss": -0.13507792353630066, "vf_loss": 83.87479400634766, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9902710318565369, "entropy": 3.4904279708862305, "cur_lr": 4.999999873689376e-05, "total_loss": 83.75565338134766}, "load_time_ms": 0.692, "num_steps_sampled": 2827200, "grad_time_ms": 705.891, "update_time_ms": 2.356, "sample_time_ms": 34812.719}, "date": "2025-08-31_13-13-55", "hostname": "cda-server-4", "time_this_iter_s": 34.68047475814819, "episodes_total": 14136, "timestamp": 1756638835, "node_ip": "10.157.146.4", "done": false, "time_total_s": 75768.72619271278, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2357, "episode_reward_mean": -613.0069221366879, "training_iteration": 2357, "timesteps_total": 2828400, "policy_reward_mean": {}, "episode_reward_min": -794.8574656312059, "timesteps_since_restore": 2828400, "num_metric_batches_dropped": 0, "time_since_restore": 75804.14509487152, "episode_reward_max": -525.5188206585806, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2828400, "default": {"kl": 0.010447543114423752, "policy_loss": -0.13595087826251984, "vf_loss": 70.085693359375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9927098155021667, "entropy": 3.567678689956665, "cur_lr": 4.999999873689376e-05, "total_loss": 69.96560668945312}, "load_time_ms": 0.712, "num_steps_sampled": 2828400, "grad_time_ms": 714.704, "update_time_ms": 2.221, "sample_time_ms": 34779.984}, "date": "2025-08-31_13-14-30", "hostname": "cda-server-4", "time_this_iter_s": 35.41890215873718, "episodes_total": 14142, "timestamp": 1756638870, "node_ip": "10.157.146.4", "done": false, "time_total_s": 75804.14509487152, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2358, "episode_reward_mean": -613.292948666724, "training_iteration": 2358, "timesteps_total": 2829600, "policy_reward_mean": {}, "episode_reward_min": -794.8574656312059, "timesteps_since_restore": 2829600, "num_metric_batches_dropped": 0, "time_since_restore": 75840.37333846092, "episode_reward_max": -525.5188206585806, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2829600, "default": {"kl": 0.011718625202775002, "policy_loss": -0.1349896341562271, "vf_loss": 175.59375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9818652272224426, "entropy": 3.618746757507324, "cur_lr": 4.999999873689376e-05, "total_loss": 175.4765625}, "load_time_ms": 0.723, "num_steps_sampled": 2829600, "grad_time_ms": 716.469, "update_time_ms": 2.132, "sample_time_ms": 34824.277}, "date": "2025-08-31_13-15-06", "hostname": "cda-server-4", "time_this_iter_s": 36.228243589401245, "episodes_total": 14148, "timestamp": 1756638906, "node_ip": "10.157.146.4", "done": false, "time_total_s": 75840.37333846092, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2359, "episode_reward_mean": -611.5185184049604, "training_iteration": 2359, "timesteps_total": 2830800, "policy_reward_mean": {}, "episode_reward_min": -794.8574656312059, "timesteps_since_restore": 2830800, "num_metric_batches_dropped": 0, "time_since_restore": 75875.81013274193, "episode_reward_max": -525.5188206585806, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2830800, "default": {"kl": 0.010197311639785767, "policy_loss": -0.13277408480644226, "vf_loss": 152.61407470703125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9824088215827942, "entropy": 3.6761229038238525, "cur_lr": 4.999999873689376e-05, "total_loss": 152.49676513671875}, "load_time_ms": 0.728, "num_steps_sampled": 2830800, "grad_time_ms": 725.813, "update_time_ms": 2.095, "sample_time_ms": 34754.434}, "date": "2025-08-31_13-15-42", "hostname": "cda-server-4", "time_this_iter_s": 35.43679428100586, "episodes_total": 14154, "timestamp": 1756638942, "node_ip": "10.157.146.4", "done": false, "time_total_s": 75875.81013274193, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2360, "episode_reward_mean": -611.5352231116887, "training_iteration": 2360, "timesteps_total": 2832000, "policy_reward_mean": {}, "episode_reward_min": -794.8574656312059, "timesteps_since_restore": 2832000, "num_metric_batches_dropped": 0, "time_since_restore": 75910.95891737938, "episode_reward_max": -525.5188206585806, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2832000, "default": {"kl": 0.00956546701490879, "policy_loss": -0.12641090154647827, "vf_loss": 162.55300903320312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9803683757781982, "entropy": 3.619645118713379, "cur_lr": 4.999999873689376e-05, "total_loss": 162.44113159179688}, "load_time_ms": 0.697, "num_steps_sampled": 2832000, "grad_time_ms": 727.015, "update_time_ms": 2.111, "sample_time_ms": 34736.958}, "date": "2025-08-31_13-16-17", "hostname": "cda-server-4", "time_this_iter_s": 35.14878463745117, "episodes_total": 14160, "timestamp": 1756638977, "node_ip": "10.157.146.4", "done": false, "time_total_s": 75910.95891737938, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2361, "episode_reward_mean": -611.5048033941258, "training_iteration": 2361, "timesteps_total": 2833200, "policy_reward_mean": {}, "episode_reward_min": -794.8574656312059, "timesteps_since_restore": 2833200, "num_metric_batches_dropped": 0, "time_since_restore": 75946.95653605461, "episode_reward_max": -525.5188206585806, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2833200, "default": {"kl": 0.009709790349006653, "policy_loss": -0.130592480301857, "vf_loss": 96.77835845947266, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9901467561721802, "entropy": 3.495511054992676, "cur_lr": 4.999999873689376e-05, "total_loss": 96.66251373291016}, "load_time_ms": 0.693, "num_steps_sampled": 2833200, "grad_time_ms": 729.059, "update_time_ms": 2.104, "sample_time_ms": 34798.709}, "date": "2025-08-31_13-16-53", "hostname": "cda-server-4", "time_this_iter_s": 35.997618675231934, "episodes_total": 14166, "timestamp": 1756639013, "node_ip": "10.157.146.4", "done": false, "time_total_s": 75946.95653605461, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2362, "episode_reward_mean": -610.255959728158, "training_iteration": 2362, "timesteps_total": 2834400, "policy_reward_mean": {}, "episode_reward_min": -794.8574656312059, "timesteps_since_restore": 2834400, "num_metric_batches_dropped": 0, "time_since_restore": 75982.93950271606, "episode_reward_max": -525.5188206585806, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2834400, "default": {"kl": 0.01223843079060316, "policy_loss": -0.15263451635837555, "vf_loss": 46.169864654541016, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9950019121170044, "entropy": 3.512784004211426, "cur_lr": 4.999999873689376e-05, "total_loss": 46.03581237792969}, "load_time_ms": 0.666, "num_steps_sampled": 2834400, "grad_time_ms": 727.577, "update_time_ms": 2.141, "sample_time_ms": 34821.907}, "date": "2025-08-31_13-17-29", "hostname": "cda-server-4", "time_this_iter_s": 35.98296666145325, "episodes_total": 14172, "timestamp": 1756639049, "node_ip": "10.157.146.4", "done": false, "time_total_s": 75982.93950271606, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2363, "episode_reward_mean": -608.1840985121256, "training_iteration": 2363, "timesteps_total": 2835600, "policy_reward_mean": {}, "episode_reward_min": -782.9709552553641, "timesteps_since_restore": 2835600, "num_metric_batches_dropped": 0, "time_since_restore": 76018.21242570877, "episode_reward_max": -525.5188206585806, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2835600, "default": {"kl": 0.009110182523727417, "policy_loss": -0.13179153203964233, "vf_loss": 124.09587860107422, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9899851679801941, "entropy": 3.5389864444732666, "cur_lr": 4.999999873689376e-05, "total_loss": 123.97793579101562}, "load_time_ms": 0.697, "num_steps_sampled": 2835600, "grad_time_ms": 729.037, "update_time_ms": 2.163, "sample_time_ms": 34891.371}, "date": "2025-08-31_13-18-04", "hostname": "cda-server-4", "time_this_iter_s": 35.2729229927063, "episodes_total": 14178, "timestamp": 1756639084, "node_ip": "10.157.146.4", "done": false, "time_total_s": 76018.21242570877, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2364, "episode_reward_mean": -609.2862400896266, "training_iteration": 2364, "timesteps_total": 2836800, "policy_reward_mean": {}, "episode_reward_min": -782.9709552553641, "timesteps_since_restore": 2836800, "num_metric_batches_dropped": 0, "time_since_restore": 76053.07266163826, "episode_reward_max": -558.2060438065498, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2836800, "default": {"kl": 0.012438328936696053, "policy_loss": -0.16261941194534302, "vf_loss": 133.18194580078125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9874086380004883, "entropy": 3.7091500759124756, "cur_lr": 4.999999873689376e-05, "total_loss": 133.03823852539062}, "load_time_ms": 0.697, "num_steps_sampled": 2836800, "grad_time_ms": 732.218, "update_time_ms": 2.094, "sample_time_ms": 34731.93}, "date": "2025-08-31_13-18-39", "hostname": "cda-server-4", "time_this_iter_s": 34.860235929489136, "episodes_total": 14184, "timestamp": 1756639119, "node_ip": "10.157.146.4", "done": false, "time_total_s": 76053.07266163826, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2365, "episode_reward_mean": -607.6685540322319, "training_iteration": 2365, "timesteps_total": 2838000, "policy_reward_mean": {}, "episode_reward_min": -637.8764874714248, "timesteps_since_restore": 2838000, "num_metric_batches_dropped": 0, "time_since_restore": 76089.02956581116, "episode_reward_max": -558.2060438065498, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2838000, "default": {"kl": 0.010161006823182106, "policy_loss": -0.13224928081035614, "vf_loss": 190.14520263671875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9809367060661316, "entropy": 3.7373526096343994, "cur_lr": 4.999999873689376e-05, "total_loss": 190.02838134765625}, "load_time_ms": 0.712, "num_steps_sampled": 2838000, "grad_time_ms": 733.74, "update_time_ms": 2.094, "sample_time_ms": 34757.862}, "date": "2025-08-31_13-19-15", "hostname": "cda-server-4", "time_this_iter_s": 35.95690417289734, "episodes_total": 14190, "timestamp": 1756639155, "node_ip": "10.157.146.4", "done": false, "time_total_s": 76089.02956581116, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2366, "episode_reward_mean": -608.0421667477669, "training_iteration": 2366, "timesteps_total": 2839200, "policy_reward_mean": {}, "episode_reward_min": -637.8764874714248, "timesteps_since_restore": 2839200, "num_metric_batches_dropped": 0, "time_since_restore": 76124.73751568794, "episode_reward_max": -558.2060438065498, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2839200, "default": {"kl": 0.010091941803693771, "policy_loss": -0.13161435723304749, "vf_loss": 53.98797607421875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9965012669563293, "entropy": 3.6898672580718994, "cur_lr": 4.999999873689376e-05, "total_loss": 53.87168884277344}, "load_time_ms": 0.674, "num_steps_sampled": 2839200, "grad_time_ms": 736.293, "update_time_ms": 2.058, "sample_time_ms": 34858.106}, "date": "2025-08-31_13-19-51", "hostname": "cda-server-4", "time_this_iter_s": 35.70794987678528, "episodes_total": 14196, "timestamp": 1756639191, "node_ip": "10.157.146.4", "done": false, "time_total_s": 76124.73751568794, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2367, "episode_reward_mean": -608.2762420299215, "training_iteration": 2367, "timesteps_total": 2840400, "policy_reward_mean": {}, "episode_reward_min": -637.8764874714248, "timesteps_since_restore": 2840400, "num_metric_batches_dropped": 0, "time_since_restore": 76160.05888676643, "episode_reward_max": -558.2060438065498, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2840400, "default": {"kl": 0.014520774595439434, "policy_loss": -0.1760639250278473, "vf_loss": 63.05609130859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9948341846466064, "entropy": 3.755089282989502, "cur_lr": 4.999999873689376e-05, "total_loss": 62.90207290649414}, "load_time_ms": 0.687, "num_steps_sampled": 2840400, "grad_time_ms": 739.073, "update_time_ms": 2.109, "sample_time_ms": 34845.412}, "date": "2025-08-31_13-20-26", "hostname": "cda-server-4", "time_this_iter_s": 35.32137107849121, "episodes_total": 14202, "timestamp": 1756639226, "node_ip": "10.157.146.4", "done": false, "time_total_s": 76160.05888676643, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2368, "episode_reward_mean": -608.7104052853862, "training_iteration": 2368, "timesteps_total": 2841600, "policy_reward_mean": {}, "episode_reward_min": -637.8764874714248, "timesteps_since_restore": 2841600, "num_metric_batches_dropped": 0, "time_since_restore": 76195.49854922295, "episode_reward_max": -558.2060438065498, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2841600, "default": {"kl": 0.011545452289283276, "policy_loss": -0.1467006355524063, "vf_loss": 38.59194564819336, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9956383109092712, "entropy": 3.601508617401123, "cur_lr": 4.999999873689376e-05, "total_loss": 38.46278381347656}, "load_time_ms": 0.681, "num_steps_sampled": 2841600, "grad_time_ms": 742.837, "update_time_ms": 2.133, "sample_time_ms": 34762.89}, "date": "2025-08-31_13-21-02", "hostname": "cda-server-4", "time_this_iter_s": 35.43966245651245, "episodes_total": 14208, "timestamp": 1756639262, "node_ip": "10.157.146.4", "done": false, "time_total_s": 76195.49854922295, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2369, "episode_reward_mean": -608.1588518086986, "training_iteration": 2369, "timesteps_total": 2842800, "policy_reward_mean": {}, "episode_reward_min": -637.8764874714248, "timesteps_since_restore": 2842800, "num_metric_batches_dropped": 0, "time_since_restore": 76231.4629945755, "episode_reward_max": -558.2060438065498, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2842800, "default": {"kl": 0.010530597530305386, "policy_loss": -0.1329106092453003, "vf_loss": 237.29498291015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9831852316856384, "entropy": 3.426365852355957, "cur_lr": 4.999999873689376e-05, "total_loss": 237.1780548095703}, "load_time_ms": 0.681, "num_steps_sampled": 2842800, "grad_time_ms": 743.233, "update_time_ms": 2.185, "sample_time_ms": 34815.134}, "date": "2025-08-31_13-21-37", "hostname": "cda-server-4", "time_this_iter_s": 35.96444535255432, "episodes_total": 14214, "timestamp": 1756639297, "node_ip": "10.157.146.4", "done": false, "time_total_s": 76231.4629945755, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2370, "episode_reward_mean": -607.7255869586, "training_iteration": 2370, "timesteps_total": 2844000, "policy_reward_mean": {}, "episode_reward_min": -637.8764874714248, "timesteps_since_restore": 2844000, "num_metric_batches_dropped": 0, "time_since_restore": 76267.37460780144, "episode_reward_max": -558.2060438065498, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2844000, "default": {"kl": 0.010481080040335655, "policy_loss": -0.12614044547080994, "vf_loss": 31.50239372253418, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9953697919845581, "entropy": 3.541083335876465, "cur_lr": 4.999999873689376e-05, "total_loss": 31.39217185974121}, "load_time_ms": 0.679, "num_steps_sampled": 2844000, "grad_time_ms": 741.777, "update_time_ms": 2.199, "sample_time_ms": 34892.79}, "date": "2025-08-31_13-22-13", "hostname": "cda-server-4", "time_this_iter_s": 35.91161322593689, "episodes_total": 14220, "timestamp": 1756639333, "node_ip": "10.157.146.4", "done": false, "time_total_s": 76267.37460780144, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2371, "episode_reward_mean": -608.1731139606943, "training_iteration": 2371, "timesteps_total": 2845200, "policy_reward_mean": {}, "episode_reward_min": -637.8764874714248, "timesteps_since_restore": 2845200, "num_metric_batches_dropped": 0, "time_since_restore": 76302.26137471199, "episode_reward_max": -558.2060438065498, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2845200, "default": {"kl": 0.010928639210760593, "policy_loss": -0.1455599069595337, "vf_loss": 108.55290222167969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.988723635673523, "entropy": 3.507092237472534, "cur_lr": 4.999999873689376e-05, "total_loss": 108.42394256591797}, "load_time_ms": 0.693, "num_steps_sampled": 2845200, "grad_time_ms": 738.546, "update_time_ms": 2.194, "sample_time_ms": 34785.004}, "date": "2025-08-31_13-22-48", "hostname": "cda-server-4", "time_this_iter_s": 34.88676691055298, "episodes_total": 14226, "timestamp": 1756639368, "node_ip": "10.157.146.4", "done": false, "time_total_s": 76302.26137471199, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2372, "episode_reward_mean": -606.9823744125342, "training_iteration": 2372, "timesteps_total": 2846400, "policy_reward_mean": {}, "episode_reward_min": -637.8764874714248, "timesteps_since_restore": 2846400, "num_metric_batches_dropped": 0, "time_since_restore": 76337.90737104416, "episode_reward_max": -473.7311508434335, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2846400, "default": {"kl": 0.014996577985584736, "policy_loss": -0.16861200332641602, "vf_loss": 338.1968994140625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9765303134918213, "entropy": 3.5242793560028076, "cur_lr": 4.999999873689376e-05, "total_loss": 338.0509948730469}, "load_time_ms": 0.69, "num_steps_sampled": 2846400, "grad_time_ms": 739.487, "update_time_ms": 2.175, "sample_time_ms": 34750.329}, "date": "2025-08-31_13-23-24", "hostname": "cda-server-4", "time_this_iter_s": 35.64599633216858, "episodes_total": 14232, "timestamp": 1756639404, "node_ip": "10.157.146.4", "done": false, "time_total_s": 76337.90737104416, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2373, "episode_reward_mean": -607.4111182183215, "training_iteration": 2373, "timesteps_total": 2847600, "policy_reward_mean": {}, "episode_reward_min": -639.466010625039, "timesteps_since_restore": 2847600, "num_metric_batches_dropped": 0, "time_since_restore": 76373.76829648018, "episode_reward_max": -473.7311508434335, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2847600, "default": {"kl": 0.010272208601236343, "policy_loss": -0.13352347910404205, "vf_loss": 151.56874084472656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9815777540206909, "entropy": 3.508725881576538, "cur_lr": 4.999999873689376e-05, "total_loss": 151.4508056640625}, "load_time_ms": 0.689, "num_steps_sampled": 2847600, "grad_time_ms": 738.555, "update_time_ms": 2.208, "sample_time_ms": 34809.973}, "date": "2025-08-31_13-24-00", "hostname": "cda-server-4", "time_this_iter_s": 35.8609254360199, "episodes_total": 14238, "timestamp": 1756639440, "node_ip": "10.157.146.4", "done": false, "time_total_s": 76373.76829648018, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2374, "episode_reward_mean": -607.7197737747011, "training_iteration": 2374, "timesteps_total": 2848800, "policy_reward_mean": {}, "episode_reward_min": -639.466010625039, "timesteps_since_restore": 2848800, "num_metric_batches_dropped": 0, "time_since_restore": 76408.84403967857, "episode_reward_max": -473.7311508434335, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2848800, "default": {"kl": 0.011980720795691013, "policy_loss": -0.1482519656419754, "vf_loss": 26.748117446899414, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9964839220046997, "entropy": 3.4950320720672607, "cur_lr": 4.999999873689376e-05, "total_loss": 26.618061065673828}, "load_time_ms": 0.691, "num_steps_sampled": 2848800, "grad_time_ms": 736.657, "update_time_ms": 2.309, "sample_time_ms": 34833.384}, "date": "2025-08-31_13-24-35", "hostname": "cda-server-4", "time_this_iter_s": 35.075743198394775, "episodes_total": 14244, "timestamp": 1756639475, "node_ip": "10.157.146.4", "done": false, "time_total_s": 76408.84403967857, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2375, "episode_reward_mean": -607.0399468800118, "training_iteration": 2375, "timesteps_total": 2850000, "policy_reward_mean": {}, "episode_reward_min": -639.466010625039, "timesteps_since_restore": 2850000, "num_metric_batches_dropped": 0, "time_since_restore": 76444.254727602, "episode_reward_max": -473.7311508434335, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2850000, "default": {"kl": 0.012358075007796288, "policy_loss": -0.1528671681880951, "vf_loss": 127.52833557128906, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9847468137741089, "entropy": 3.6382174491882324, "cur_lr": 4.999999873689376e-05, "total_loss": 127.39423370361328}, "load_time_ms": 0.673, "num_steps_sampled": 2850000, "grad_time_ms": 733.335, "update_time_ms": 2.37, "sample_time_ms": 34782.026}, "date": "2025-08-31_13-25-10", "hostname": "cda-server-4", "time_this_iter_s": 35.4106879234314, "episodes_total": 14250, "timestamp": 1756639510, "node_ip": "10.157.146.4", "done": false, "time_total_s": 76444.254727602, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2376, "episode_reward_mean": -606.7468488415519, "training_iteration": 2376, "timesteps_total": 2851200, "policy_reward_mean": {}, "episode_reward_min": -639.466010625039, "timesteps_since_restore": 2851200, "num_metric_batches_dropped": 0, "time_since_restore": 76479.97266888618, "episode_reward_max": -473.7311508434335, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2851200, "default": {"kl": 0.010835344903171062, "policy_loss": -0.13261333107948303, "vf_loss": 52.794254302978516, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9911748170852661, "entropy": 3.4398508071899414, "cur_lr": 4.999999873689376e-05, "total_loss": 52.678096771240234}, "load_time_ms": 0.669, "num_steps_sampled": 2851200, "grad_time_ms": 732.49, "update_time_ms": 2.347, "sample_time_ms": 34783.813}, "date": "2025-08-31_13-25-46", "hostname": "cda-server-4", "time_this_iter_s": 35.71794128417969, "episodes_total": 14256, "timestamp": 1756639546, "node_ip": "10.157.146.4", "done": false, "time_total_s": 76479.97266888618, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2377, "episode_reward_mean": -606.2476356882551, "training_iteration": 2377, "timesteps_total": 2852400, "policy_reward_mean": {}, "episode_reward_min": -639.466010625039, "timesteps_since_restore": 2852400, "num_metric_batches_dropped": 0, "time_since_restore": 76515.22410798073, "episode_reward_max": -473.7311508434335, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2852400, "default": {"kl": 0.01162625104188919, "policy_loss": -0.1517602801322937, "vf_loss": 120.30084991455078, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9860520958900452, "entropy": 3.5440752506256104, "cur_lr": 4.999999873689376e-05, "total_loss": 120.16673278808594}, "load_time_ms": 0.639, "num_steps_sampled": 2852400, "grad_time_ms": 730.976, "update_time_ms": 2.327, "sample_time_ms": 34778.417}, "date": "2025-08-31_13-26-21", "hostname": "cda-server-4", "time_this_iter_s": 35.25143909454346, "episodes_total": 14262, "timestamp": 1756639581, "node_ip": "10.157.146.4", "done": false, "time_total_s": 76515.22410798073, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2378, "episode_reward_mean": -605.471196255949, "training_iteration": 2378, "timesteps_total": 2853600, "policy_reward_mean": {}, "episode_reward_min": -639.466010625039, "timesteps_since_restore": 2853600, "num_metric_batches_dropped": 0, "time_since_restore": 76550.33413362503, "episode_reward_max": -473.7311508434335, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2853600, "default": {"kl": 0.00929866824299097, "policy_loss": -0.14312118291854858, "vf_loss": 155.3954620361328, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.982039749622345, "entropy": 3.6398799419403076, "cur_lr": 4.999999873689376e-05, "total_loss": 155.2664337158203}, "load_time_ms": 0.635, "num_steps_sampled": 2853600, "grad_time_ms": 731.618, "update_time_ms": 2.398, "sample_time_ms": 34744.688}, "date": "2025-08-31_13-26-57", "hostname": "cda-server-4", "time_this_iter_s": 35.11002564430237, "episodes_total": 14268, "timestamp": 1756639617, "node_ip": "10.157.146.4", "done": false, "time_total_s": 76550.33413362503, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2379, "episode_reward_mean": -606.1560487701777, "training_iteration": 2379, "timesteps_total": 2854800, "policy_reward_mean": {}, "episode_reward_min": -639.466010625039, "timesteps_since_restore": 2854800, "num_metric_batches_dropped": 0, "time_since_restore": 76586.31107854843, "episode_reward_max": -473.7311508434335, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2854800, "default": {"kl": 0.008312683552503586, "policy_loss": -0.11898466944694519, "vf_loss": 128.7711181640625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9887669086456299, "entropy": 3.5905346870422363, "cur_lr": 4.999999873689376e-05, "total_loss": 128.6647491455078}, "load_time_ms": 0.643, "num_steps_sampled": 2854800, "grad_time_ms": 730.163, "update_time_ms": 2.41, "sample_time_ms": 34747.409}, "date": "2025-08-31_13-27-33", "hostname": "cda-server-4", "time_this_iter_s": 35.97694492340088, "episodes_total": 14274, "timestamp": 1756639653, "node_ip": "10.157.146.4", "done": false, "time_total_s": 76586.31107854843, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2380, "episode_reward_mean": -606.4521356084923, "training_iteration": 2380, "timesteps_total": 2856000, "policy_reward_mean": {}, "episode_reward_min": -639.466010625039, "timesteps_since_restore": 2856000, "num_metric_batches_dropped": 0, "time_since_restore": 76622.02448368073, "episode_reward_max": -473.7311508434335, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2856000, "default": {"kl": 0.008606219664216042, "policy_loss": -0.12692689895629883, "vf_loss": 215.8399658203125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9638528823852539, "entropy": 3.55128812789917, "cur_lr": 4.999999873689376e-05, "total_loss": 215.72613525390625}, "load_time_ms": 0.677, "num_steps_sampled": 2856000, "grad_time_ms": 728.446, "update_time_ms": 2.385, "sample_time_ms": 34729.307}, "date": "2025-08-31_13-28-08", "hostname": "cda-server-4", "time_this_iter_s": 35.7134051322937, "episodes_total": 14280, "timestamp": 1756639688, "node_ip": "10.157.146.4", "done": false, "time_total_s": 76622.02448368073, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2381, "episode_reward_mean": -605.9514314882067, "training_iteration": 2381, "timesteps_total": 2857200, "policy_reward_mean": {}, "episode_reward_min": -639.466010625039, "timesteps_since_restore": 2857200, "num_metric_batches_dropped": 0, "time_since_restore": 76657.19634389877, "episode_reward_max": -473.7311508434335, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2857200, "default": {"kl": 0.010483039543032646, "policy_loss": -0.1464763879776001, "vf_loss": 124.72251892089844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9876617789268494, "entropy": 3.5608088970184326, "cur_lr": 4.999999873689376e-05, "total_loss": 124.59195709228516}, "load_time_ms": 0.667, "num_steps_sampled": 2857200, "grad_time_ms": 730.48, "update_time_ms": 2.423, "sample_time_ms": 34755.739}, "date": "2025-08-31_13-28-44", "hostname": "cda-server-4", "time_this_iter_s": 35.171860218048096, "episodes_total": 14286, "timestamp": 1756639724, "node_ip": "10.157.146.4", "done": false, "time_total_s": 76657.19634389877, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2382, "episode_reward_mean": -604.977388360751, "training_iteration": 2382, "timesteps_total": 2858400, "policy_reward_mean": {}, "episode_reward_min": -639.466010625039, "timesteps_since_restore": 2858400, "num_metric_batches_dropped": 0, "time_since_restore": 76693.20090961456, "episode_reward_max": -473.7311508434335, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2858400, "default": {"kl": 0.011053427122533321, "policy_loss": -0.12904685735702515, "vf_loss": 152.93446350097656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9759742021560669, "entropy": 3.5178658962249756, "cur_lr": 4.999999873689376e-05, "total_loss": 152.82220458984375}, "load_time_ms": 0.668, "num_steps_sampled": 2858400, "grad_time_ms": 729.695, "update_time_ms": 2.42, "sample_time_ms": 34792.436}, "date": "2025-08-31_13-29-20", "hostname": "cda-server-4", "time_this_iter_s": 36.004565715789795, "episodes_total": 14292, "timestamp": 1756639760, "node_ip": "10.157.146.4", "done": false, "time_total_s": 76693.20090961456, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2383, "episode_reward_mean": -604.610700482624, "training_iteration": 2383, "timesteps_total": 2859600, "policy_reward_mean": {}, "episode_reward_min": -639.466010625039, "timesteps_since_restore": 2859600, "num_metric_batches_dropped": 0, "time_since_restore": 76728.78150224686, "episode_reward_max": -473.7311508434335, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2859600, "default": {"kl": 0.009786888025701046, "policy_loss": -0.14296098053455353, "vf_loss": 142.74203491210938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.980518102645874, "entropy": 3.597829580307007, "cur_lr": 4.999999873689376e-05, "total_loss": 142.61395263671875}, "load_time_ms": 0.655, "num_steps_sampled": 2859600, "grad_time_ms": 729.838, "update_time_ms": 2.478, "sample_time_ms": 34764.29}, "date": "2025-08-31_13-29-55", "hostname": "cda-server-4", "time_this_iter_s": 35.5805926322937, "episodes_total": 14298, "timestamp": 1756639795, "node_ip": "10.157.146.4", "done": false, "time_total_s": 76728.78150224686, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2384, "episode_reward_mean": -602.9252917524647, "training_iteration": 2384, "timesteps_total": 2860800, "policy_reward_mean": {}, "episode_reward_min": -639.466010625039, "timesteps_since_restore": 2860800, "num_metric_batches_dropped": 0, "time_since_restore": 76764.0062391758, "episode_reward_max": -473.7311508434335, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2860800, "default": {"kl": 0.011253707110881805, "policy_loss": -0.15745000541210175, "vf_loss": 195.05345153808594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9762852191925049, "entropy": 3.5122528076171875, "cur_lr": 4.999999873689376e-05, "total_loss": 194.9130859375}, "load_time_ms": 0.689, "num_steps_sampled": 2860800, "grad_time_ms": 731.665, "update_time_ms": 2.553, "sample_time_ms": 34777.239}, "date": "2025-08-31_13-30-30", "hostname": "cda-server-4", "time_this_iter_s": 35.22473692893982, "episodes_total": 14304, "timestamp": 1756639830, "node_ip": "10.157.146.4", "done": false, "time_total_s": 76764.0062391758, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2385, "episode_reward_mean": -602.364813956237, "training_iteration": 2385, "timesteps_total": 2862000, "policy_reward_mean": {}, "episode_reward_min": -639.466010625039, "timesteps_since_restore": 2862000, "num_metric_batches_dropped": 0, "time_since_restore": 76799.07276940346, "episode_reward_max": -473.7311508434335, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2862000, "default": {"kl": 0.010536721907556057, "policy_loss": -0.14859355986118317, "vf_loss": 456.0344543457031, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9780255556106567, "entropy": 3.6864802837371826, "cur_lr": 4.999999873689376e-05, "total_loss": 455.90185546875}, "load_time_ms": 0.688, "num_steps_sampled": 2862000, "grad_time_ms": 735.574, "update_time_ms": 2.538, "sample_time_ms": 34738.97}, "date": "2025-08-31_13-31-05", "hostname": "cda-server-4", "time_this_iter_s": 35.06653022766113, "episodes_total": 14310, "timestamp": 1756639865, "node_ip": "10.157.146.4", "done": false, "time_total_s": 76799.07276940346, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2386, "episode_reward_mean": -603.463732376925, "training_iteration": 2386, "timesteps_total": 2863200, "policy_reward_mean": {}, "episode_reward_min": -781.5350583275901, "timesteps_since_restore": 2863200, "num_metric_batches_dropped": 0, "time_since_restore": 76835.41097736359, "episode_reward_max": -463.50456114204286, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2863200, "default": {"kl": 0.010915388353168964, "policy_loss": -0.1487153023481369, "vf_loss": 379.2909851074219, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9716331958770752, "entropy": 3.852044105529785, "cur_lr": 4.999999873689376e-05, "total_loss": 379.15887451171875}, "load_time_ms": 0.684, "num_steps_sampled": 2863200, "grad_time_ms": 735.989, "update_time_ms": 2.564, "sample_time_ms": 34800.646}, "date": "2025-08-31_13-31-42", "hostname": "cda-server-4", "time_this_iter_s": 36.338207960128784, "episodes_total": 14316, "timestamp": 1756639902, "node_ip": "10.157.146.4", "done": false, "time_total_s": 76835.41097736359, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2387, "episode_reward_mean": -604.3694094399006, "training_iteration": 2387, "timesteps_total": 2864400, "policy_reward_mean": {}, "episode_reward_min": -781.5350583275901, "timesteps_since_restore": 2864400, "num_metric_batches_dropped": 0, "time_since_restore": 76871.11539888382, "episode_reward_max": -463.50456114204286, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2864400, "default": {"kl": 0.01438998058438301, "policy_loss": -0.1597743034362793, "vf_loss": 107.38699340820312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9910595417022705, "entropy": 3.603126049041748, "cur_lr": 4.999999873689376e-05, "total_loss": 107.24907684326172}, "load_time_ms": 0.702, "num_steps_sampled": 2864400, "grad_time_ms": 738.174, "update_time_ms": 2.522, "sample_time_ms": 34843.809}, "date": "2025-08-31_13-32-18", "hostname": "cda-server-4", "time_this_iter_s": 35.704421520233154, "episodes_total": 14322, "timestamp": 1756639938, "node_ip": "10.157.146.4", "done": false, "time_total_s": 76871.11539888382, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2388, "episode_reward_mean": -606.2759437357585, "training_iteration": 2388, "timesteps_total": 2865600, "policy_reward_mean": {}, "episode_reward_min": -781.5350583275901, "timesteps_since_restore": 2865600, "num_metric_batches_dropped": 0, "time_since_restore": 76905.91442799568, "episode_reward_max": -463.50456114204286, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2865600, "default": {"kl": 0.010167581960558891, "policy_loss": -0.13509415090084076, "vf_loss": 302.47674560546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9656340479850769, "entropy": 3.8627383708953857, "cur_lr": 4.999999873689376e-05, "total_loss": 302.35711669921875}, "load_time_ms": 0.705, "num_steps_sampled": 2865600, "grad_time_ms": 739.283, "update_time_ms": 2.422, "sample_time_ms": 34811.678}, "date": "2025-08-31_13-32-52", "hostname": "cda-server-4", "time_this_iter_s": 34.79902911186218, "episodes_total": 14328, "timestamp": 1756639972, "node_ip": "10.157.146.4", "done": false, "time_total_s": 76905.91442799568, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2389, "episode_reward_mean": -608.4901239553453, "training_iteration": 2389, "timesteps_total": 2866800, "policy_reward_mean": {}, "episode_reward_min": -781.5350583275901, "timesteps_since_restore": 2866800, "num_metric_batches_dropped": 0, "time_since_restore": 76941.67200660706, "episode_reward_max": -463.50456114204286, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2866800, "default": {"kl": 0.010789932683110237, "policy_loss": -0.14716969430446625, "vf_loss": 74.8873291015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9940145015716553, "entropy": 3.728710651397705, "cur_lr": 4.999999873689376e-05, "total_loss": 74.75655364990234}, "load_time_ms": 0.701, "num_steps_sampled": 2866800, "grad_time_ms": 740.221, "update_time_ms": 2.408, "sample_time_ms": 34788.843}, "date": "2025-08-31_13-33-28", "hostname": "cda-server-4", "time_this_iter_s": 35.7575786113739, "episodes_total": 14334, "timestamp": 1756640008, "node_ip": "10.157.146.4", "done": false, "time_total_s": 76941.67200660706, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2390, "episode_reward_mean": -607.5575464465405, "training_iteration": 2390, "timesteps_total": 2868000, "policy_reward_mean": {}, "episode_reward_min": -781.5350583275901, "timesteps_since_restore": 2868000, "num_metric_batches_dropped": 0, "time_since_restore": 76977.46868276596, "episode_reward_max": -463.50456114204286, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2868000, "default": {"kl": 0.00985369086265564, "policy_loss": -0.11458683013916016, "vf_loss": 228.12628173828125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9862267374992371, "entropy": 3.3975636959075928, "cur_lr": 4.999999873689376e-05, "total_loss": 228.02664184570312}, "load_time_ms": 0.669, "num_steps_sampled": 2868000, "grad_time_ms": 736.356, "update_time_ms": 2.395, "sample_time_ms": 34801.214}, "date": "2025-08-31_13-34-04", "hostname": "cda-server-4", "time_this_iter_s": 35.79667615890503, "episodes_total": 14340, "timestamp": 1756640044, "node_ip": "10.157.146.4", "done": false, "time_total_s": 76977.46868276596, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2391, "episode_reward_mean": -607.3099708324937, "training_iteration": 2391, "timesteps_total": 2869200, "policy_reward_mean": {}, "episode_reward_min": -781.5350583275901, "timesteps_since_restore": 2869200, "num_metric_batches_dropped": 0, "time_since_restore": 77012.55619192123, "episode_reward_max": -463.50456114204286, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2869200, "default": {"kl": 0.008400348015129566, "policy_loss": -0.1166636273264885, "vf_loss": 103.5809326171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9873520731925964, "entropy": 3.5305445194244385, "cur_lr": 4.999999873689376e-05, "total_loss": 103.47702026367188}, "load_time_ms": 0.666, "num_steps_sampled": 2869200, "grad_time_ms": 733.649, "update_time_ms": 2.371, "sample_time_ms": 34795.489}, "date": "2025-08-31_13-34-39", "hostname": "cda-server-4", "time_this_iter_s": 35.08750915527344, "episodes_total": 14346, "timestamp": 1756640079, "node_ip": "10.157.146.4", "done": false, "time_total_s": 77012.55619192123, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2392, "episode_reward_mean": -607.7373102561309, "training_iteration": 2392, "timesteps_total": 2870400, "policy_reward_mean": {}, "episode_reward_min": -781.5350583275901, "timesteps_since_restore": 2870400, "num_metric_batches_dropped": 0, "time_since_restore": 77047.2792403698, "episode_reward_max": -463.50456114204286, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2870400, "default": {"kl": 0.009602759964764118, "policy_loss": -0.11721571534872055, "vf_loss": 173.0889434814453, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9783484935760498, "entropy": 3.5321645736694336, "cur_lr": 4.999999873689376e-05, "total_loss": 172.98629760742188}, "load_time_ms": 0.686, "num_steps_sampled": 2870400, "grad_time_ms": 728.518, "update_time_ms": 2.45, "sample_time_ms": 34672.356}, "date": "2025-08-31_13-35-14", "hostname": "cda-server-4", "time_this_iter_s": 34.72304844856262, "episodes_total": 14352, "timestamp": 1756640114, "node_ip": "10.157.146.4", "done": false, "time_total_s": 77047.2792403698, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2393, "episode_reward_mean": -609.0638945043589, "training_iteration": 2393, "timesteps_total": 2871600, "policy_reward_mean": {}, "episode_reward_min": -781.5350583275901, "timesteps_since_restore": 2871600, "num_metric_batches_dropped": 0, "time_since_restore": 77082.87344288826, "episode_reward_max": -463.50456114204286, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2871600, "default": {"kl": 0.011819579638540745, "policy_loss": -0.14673341810703278, "vf_loss": 298.03802490234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9752976298332214, "entropy": 3.742316722869873, "cur_lr": 4.999999873689376e-05, "total_loss": 297.90924072265625}, "load_time_ms": 0.672, "num_steps_sampled": 2871600, "grad_time_ms": 723.406, "update_time_ms": 2.367, "sample_time_ms": 34678.906}, "date": "2025-08-31_13-35-49", "hostname": "cda-server-4", "time_this_iter_s": 35.594202518463135, "episodes_total": 14358, "timestamp": 1756640149, "node_ip": "10.157.146.4", "done": false, "time_total_s": 77082.87344288826, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2394, "episode_reward_mean": -609.9636637948407, "training_iteration": 2394, "timesteps_total": 2872800, "policy_reward_mean": {}, "episode_reward_min": -781.5350583275901, "timesteps_since_restore": 2872800, "num_metric_batches_dropped": 0, "time_since_restore": 77118.24614214897, "episode_reward_max": -463.50456114204286, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2872800, "default": {"kl": 0.008743739686906338, "policy_loss": -0.1307004988193512, "vf_loss": 288.7549133300781, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9694592952728271, "entropy": 3.7901012897491455, "cur_lr": 4.999999873689376e-05, "total_loss": 288.6374816894531}, "load_time_ms": 0.638, "num_steps_sampled": 2872800, "grad_time_ms": 716.321, "update_time_ms": 2.23, "sample_time_ms": 34700.979}, "date": "2025-08-31_13-36-25", "hostname": "cda-server-4", "time_this_iter_s": 35.37269926071167, "episodes_total": 14364, "timestamp": 1756640185, "node_ip": "10.157.146.4", "done": false, "time_total_s": 77118.24614214897, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2395, "episode_reward_mean": -611.1520396906197, "training_iteration": 2395, "timesteps_total": 2874000, "policy_reward_mean": {}, "episode_reward_min": -781.5350583275901, "timesteps_since_restore": 2874000, "num_metric_batches_dropped": 0, "time_since_restore": 77154.77659773827, "episode_reward_max": -463.50456114204286, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2874000, "default": {"kl": 0.010648461990058422, "policy_loss": -0.14188773930072784, "vf_loss": 126.08201599121094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9846174716949463, "entropy": 3.554032802581787, "cur_lr": 4.999999873689376e-05, "total_loss": 125.956298828125}, "load_time_ms": 0.646, "num_steps_sampled": 2874000, "grad_time_ms": 712.887, "update_time_ms": 2.228, "sample_time_ms": 34850.727}, "date": "2025-08-31_13-37-01", "hostname": "cda-server-4", "time_this_iter_s": 36.530455589294434, "episodes_total": 14370, "timestamp": 1756640221, "node_ip": "10.157.146.4", "done": false, "time_total_s": 77154.77659773827, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2396, "episode_reward_mean": -610.0912939426765, "training_iteration": 2396, "timesteps_total": 2875200, "policy_reward_mean": {}, "episode_reward_min": -781.5350583275901, "timesteps_since_restore": 2875200, "num_metric_batches_dropped": 0, "time_since_restore": 77190.38973069191, "episode_reward_max": -463.50456114204286, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2875200, "default": {"kl": 0.011463627219200134, "policy_loss": -0.14692480862140656, "vf_loss": 122.55445861816406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.98841792345047, "entropy": 3.5874791145324707, "cur_lr": 4.999999873689376e-05, "total_loss": 122.42495727539062}, "load_time_ms": 0.657, "num_steps_sampled": 2875200, "grad_time_ms": 713.344, "update_time_ms": 2.27, "sample_time_ms": 34777.691}, "date": "2025-08-31_13-37-37", "hostname": "cda-server-4", "time_this_iter_s": 35.6131329536438, "episodes_total": 14376, "timestamp": 1756640257, "node_ip": "10.157.146.4", "done": false, "time_total_s": 77190.38973069191, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2397, "episode_reward_mean": -610.6276486099274, "training_iteration": 2397, "timesteps_total": 2876400, "policy_reward_mean": {}, "episode_reward_min": -781.5350583275901, "timesteps_since_restore": 2876400, "num_metric_batches_dropped": 0, "time_since_restore": 77226.57136106491, "episode_reward_max": -463.50456114204286, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2876400, "default": {"kl": 0.010551814921200275, "policy_loss": -0.14175038039684296, "vf_loss": 146.35499572753906, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9815579652786255, "entropy": 3.60890793800354, "cur_lr": 4.999999873689376e-05, "total_loss": 146.22926330566406}, "load_time_ms": 0.669, "num_steps_sampled": 2876400, "grad_time_ms": 712.894, "update_time_ms": 2.311, "sample_time_ms": 34825.718}, "date": "2025-08-31_13-38-13", "hostname": "cda-server-4", "time_this_iter_s": 36.1816303730011, "episodes_total": 14382, "timestamp": 1756640293, "node_ip": "10.157.146.4", "done": false, "time_total_s": 77226.57136106491, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2398, "episode_reward_mean": -611.4717786330857, "training_iteration": 2398, "timesteps_total": 2877600, "policy_reward_mean": {}, "episode_reward_min": -781.5350583275901, "timesteps_since_restore": 2877600, "num_metric_batches_dropped": 0, "time_since_restore": 77262.12313938141, "episode_reward_max": -463.50456114204286, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2877600, "default": {"kl": 0.011901401914656162, "policy_loss": -0.1611957997083664, "vf_loss": 80.7375717163086, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9953889846801758, "entropy": 3.6086933612823486, "cur_lr": 4.999999873689376e-05, "total_loss": 80.59445190429688}, "load_time_ms": 0.669, "num_steps_sampled": 2877600, "grad_time_ms": 711.912, "update_time_ms": 2.328, "sample_time_ms": 34902.068}, "date": "2025-08-31_13-38-49", "hostname": "cda-server-4", "time_this_iter_s": 35.5517783164978, "episodes_total": 14388, "timestamp": 1756640329, "node_ip": "10.157.146.4", "done": false, "time_total_s": 77262.12313938141, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2399, "episode_reward_mean": -610.7233817793286, "training_iteration": 2399, "timesteps_total": 2878800, "policy_reward_mean": {}, "episode_reward_min": -781.5350583275901, "timesteps_since_restore": 2878800, "num_metric_batches_dropped": 0, "time_since_restore": 77297.65955424309, "episode_reward_max": -444.2543286929469, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2878800, "default": {"kl": 0.010857968591153622, "policy_loss": -0.13576442003250122, "vf_loss": 180.11888122558594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9838740229606628, "entropy": 3.4698779582977295, "cur_lr": 4.999999873689376e-05, "total_loss": 179.99961853027344}, "load_time_ms": 0.664, "num_steps_sampled": 2878800, "grad_time_ms": 709.855, "update_time_ms": 2.255, "sample_time_ms": 34881.978}, "date": "2025-08-31_13-39-24", "hostname": "cda-server-4", "time_this_iter_s": 35.53641486167908, "episodes_total": 14394, "timestamp": 1756640364, "node_ip": "10.157.146.4", "done": false, "time_total_s": 77297.65955424309, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2400, "episode_reward_mean": -611.0335434622792, "training_iteration": 2400, "timesteps_total": 2880000, "policy_reward_mean": {}, "episode_reward_min": -781.5350583275901, "timesteps_since_restore": 2880000, "num_metric_batches_dropped": 0, "time_since_restore": 77333.31909298897, "episode_reward_max": -444.2543286929469, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2880000, "default": {"kl": 0.012885138392448425, "policy_loss": -0.14551924169063568, "vf_loss": 112.09925079345703, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9939835667610168, "entropy": 3.587064027786255, "cur_lr": 4.999999873689376e-05, "total_loss": 111.97329711914062}, "load_time_ms": 0.68, "num_steps_sampled": 2880000, "grad_time_ms": 713.361, "update_time_ms": 2.33, "sample_time_ms": 34864.605}, "date": "2025-08-31_13-40-00", "hostname": "cda-server-4", "time_this_iter_s": 35.65953874588013, "episodes_total": 14400, "timestamp": 1756640400, "node_ip": "10.157.146.4", "done": false, "time_total_s": 77333.31909298897, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2401, "episode_reward_mean": -612.5540326545356, "training_iteration": 2401, "timesteps_total": 2881200, "policy_reward_mean": {}, "episode_reward_min": -781.5350583275901, "timesteps_since_restore": 2881200, "num_metric_batches_dropped": 0, "time_since_restore": 77369.05426001549, "episode_reward_max": -444.2543286929469, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2881200, "default": {"kl": 0.011330951936542988, "policy_loss": -0.13112206757068634, "vf_loss": 79.19525909423828, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9911988377571106, "entropy": 3.469266176223755, "cur_lr": 4.999999873689376e-05, "total_loss": 79.08134460449219}, "load_time_ms": 0.678, "num_steps_sampled": 2881200, "grad_time_ms": 709.63, "update_time_ms": 2.431, "sample_time_ms": 34933.003}, "date": "2025-08-31_13-40-36", "hostname": "cda-server-4", "time_this_iter_s": 35.735167026519775, "episodes_total": 14406, "timestamp": 1756640436, "node_ip": "10.157.146.4", "done": false, "time_total_s": 77369.05426001549, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2402, "episode_reward_mean": -609.054447075855, "training_iteration": 2402, "timesteps_total": 2882400, "policy_reward_mean": {}, "episode_reward_min": -766.9271369788507, "timesteps_since_restore": 2882400, "num_metric_batches_dropped": 0, "time_since_restore": 77403.84288740158, "episode_reward_max": -444.2543286929469, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2882400, "default": {"kl": 0.01279149204492569, "policy_loss": -0.15266121923923492, "vf_loss": 454.5439453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9684701561927795, "entropy": 3.580991506576538, "cur_lr": 4.999999873689376e-05, "total_loss": 454.41070556640625}, "load_time_ms": 0.668, "num_steps_sampled": 2882400, "grad_time_ms": 709.766, "update_time_ms": 2.419, "sample_time_ms": 34939.4}, "date": "2025-08-31_13-41-11", "hostname": "cda-server-4", "time_this_iter_s": 34.78862738609314, "episodes_total": 14412, "timestamp": 1756640471, "node_ip": "10.157.146.4", "done": false, "time_total_s": 77403.84288740158, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2403, "episode_reward_mean": -611.1516828864451, "training_iteration": 2403, "timesteps_total": 2883600, "policy_reward_mean": {}, "episode_reward_min": -766.9271369788507, "timesteps_since_restore": 2883600, "num_metric_batches_dropped": 0, "time_since_restore": 77439.04510784149, "episode_reward_max": -444.2543286929469, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2883600, "default": {"kl": 0.009606260806322098, "policy_loss": -0.14308685064315796, "vf_loss": 157.44805908203125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9802272319793701, "entropy": 3.72396183013916, "cur_lr": 4.999999873689376e-05, "total_loss": 157.319580078125}, "load_time_ms": 0.665, "num_steps_sampled": 2883600, "grad_time_ms": 711.898, "update_time_ms": 2.389, "sample_time_ms": 34898.106}, "date": "2025-08-31_13-41-46", "hostname": "cda-server-4", "time_this_iter_s": 35.20222043991089, "episodes_total": 14418, "timestamp": 1756640506, "node_ip": "10.157.146.4", "done": false, "time_total_s": 77439.04510784149, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2404, "episode_reward_mean": -608.9362489026905, "training_iteration": 2404, "timesteps_total": 2884800, "policy_reward_mean": {}, "episode_reward_min": -679.4180924814708, "timesteps_since_restore": 2884800, "num_metric_batches_dropped": 0, "time_since_restore": 77474.74221086502, "episode_reward_max": -444.2543286929469, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2884800, "default": {"kl": 0.0128304623067379, "policy_loss": -0.1526971310377121, "vf_loss": 65.29745483398438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9930647611618042, "entropy": 3.611858367919922, "cur_lr": 4.999999873689376e-05, "total_loss": 65.16424560546875}, "load_time_ms": 0.668, "num_steps_sampled": 2884800, "grad_time_ms": 716.548, "update_time_ms": 2.414, "sample_time_ms": 34925.86}, "date": "2025-08-31_13-42-21", "hostname": "cda-server-4", "time_this_iter_s": 35.69710302352905, "episodes_total": 14424, "timestamp": 1756640541, "node_ip": "10.157.146.4", "done": false, "time_total_s": 77474.74221086502, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2405, "episode_reward_mean": -607.9892782723141, "training_iteration": 2405, "timesteps_total": 2886000, "policy_reward_mean": {}, "episode_reward_min": -679.4180924814708, "timesteps_since_restore": 2886000, "num_metric_batches_dropped": 0, "time_since_restore": 77510.25198578835, "episode_reward_max": -444.2543286929469, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2886000, "default": {"kl": 0.010307871736586094, "policy_loss": -0.13616593182086945, "vf_loss": 157.7910614013672, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9881058931350708, "entropy": 3.526231288909912, "cur_lr": 4.999999873689376e-05, "total_loss": 157.6705780029297}, "load_time_ms": 0.658, "num_steps_sampled": 2886000, "grad_time_ms": 717.201, "update_time_ms": 2.458, "sample_time_ms": 34823.121}, "date": "2025-08-31_13-42-57", "hostname": "cda-server-4", "time_this_iter_s": 35.509774923324585, "episodes_total": 14430, "timestamp": 1756640577, "node_ip": "10.157.146.4", "done": false, "time_total_s": 77510.25198578835, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2406, "episode_reward_mean": -608.7308816108568, "training_iteration": 2406, "timesteps_total": 2887200, "policy_reward_mean": {}, "episode_reward_min": -697.8933180825372, "timesteps_since_restore": 2887200, "num_metric_batches_dropped": 0, "time_since_restore": 77545.3712759018, "episode_reward_max": -444.2543286929469, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2887200, "default": {"kl": 0.008872661739587784, "policy_loss": -0.12581437826156616, "vf_loss": 674.4898681640625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9368201494216919, "entropy": 3.7969725131988525, "cur_lr": 4.999999873689376e-05, "total_loss": 674.3775634765625}, "load_time_ms": 0.648, "num_steps_sampled": 2887200, "grad_time_ms": 714.947, "update_time_ms": 2.5, "sample_time_ms": 34776.025}, "date": "2025-08-31_13-43-32", "hostname": "cda-server-4", "time_this_iter_s": 35.1192901134491, "episodes_total": 14436, "timestamp": 1756640612, "node_ip": "10.157.146.4", "done": false, "time_total_s": 77545.3712759018, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2407, "episode_reward_mean": -608.7142890355858, "training_iteration": 2407, "timesteps_total": 2888400, "policy_reward_mean": {}, "episode_reward_min": -697.8933180825372, "timesteps_since_restore": 2888400, "num_metric_batches_dropped": 0, "time_since_restore": 77580.61304688454, "episode_reward_max": -444.2543286929469, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2888400, "default": {"kl": 0.010998223908245564, "policy_loss": -0.13374409079551697, "vf_loss": 19.33007049560547, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9971917271614075, "entropy": 3.4344441890716553, "cur_lr": 4.999999873689376e-05, "total_loss": 19.213029861450195}, "load_time_ms": 0.648, "num_steps_sampled": 2888400, "grad_time_ms": 713.33, "update_time_ms": 2.527, "sample_time_ms": 34683.66}, "date": "2025-08-31_13-44-07", "hostname": "cda-server-4", "time_this_iter_s": 35.24177098274231, "episodes_total": 14442, "timestamp": 1756640647, "node_ip": "10.157.146.4", "done": false, "time_total_s": 77580.61304688454, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2408, "episode_reward_mean": -608.6886383098223, "training_iteration": 2408, "timesteps_total": 2889600, "policy_reward_mean": {}, "episode_reward_min": -697.8933180825372, "timesteps_since_restore": 2889600, "num_metric_batches_dropped": 0, "time_since_restore": 77616.36984229088, "episode_reward_max": -444.2543286929469, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2889600, "default": {"kl": 0.007642224431037903, "policy_loss": -0.11312106996774673, "vf_loss": 303.8415222167969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9649614691734314, "entropy": 3.5851690769195557, "cur_lr": 4.999999873689376e-05, "total_loss": 303.739990234375}, "load_time_ms": 0.648, "num_steps_sampled": 2889600, "grad_time_ms": 713.504, "update_time_ms": 2.534, "sample_time_ms": 34703.896}, "date": "2025-08-31_13-44-43", "hostname": "cda-server-4", "time_this_iter_s": 35.75679540634155, "episodes_total": 14448, "timestamp": 1756640683, "node_ip": "10.157.146.4", "done": false, "time_total_s": 77616.36984229088, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2409, "episode_reward_mean": -608.4190434732777, "training_iteration": 2409, "timesteps_total": 2890800, "policy_reward_mean": {}, "episode_reward_min": -697.8933180825372, "timesteps_since_restore": 2890800, "num_metric_batches_dropped": 0, "time_since_restore": 77651.48393559456, "episode_reward_max": -444.2543286929469, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2890800, "default": {"kl": 0.0115257129073143, "policy_loss": -0.14744152128696442, "vf_loss": 113.96674346923828, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9887915849685669, "entropy": 3.529142379760742, "cur_lr": 4.999999873689376e-05, "total_loss": 113.8367919921875}, "load_time_ms": 0.652, "num_steps_sampled": 2890800, "grad_time_ms": 715.219, "update_time_ms": 2.607, "sample_time_ms": 34659.954}, "date": "2025-08-31_13-45-18", "hostname": "cda-server-4", "time_this_iter_s": 35.11409330368042, "episodes_total": 14454, "timestamp": 1756640718, "node_ip": "10.157.146.4", "done": false, "time_total_s": 77651.48393559456, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2410, "episode_reward_mean": -608.1653167863077, "training_iteration": 2410, "timesteps_total": 2892000, "policy_reward_mean": {}, "episode_reward_min": -697.8933180825372, "timesteps_since_restore": 2892000, "num_metric_batches_dropped": 0, "time_since_restore": 77687.26703953743, "episode_reward_max": -444.2543286929469, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2892000, "default": {"kl": 0.010668993927538395, "policy_loss": -0.12505315244197845, "vf_loss": 104.74560546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.989788293838501, "entropy": 3.6706907749176025, "cur_lr": 4.999999873689376e-05, "total_loss": 104.63674926757812}, "load_time_ms": 0.63, "num_steps_sampled": 2892000, "grad_time_ms": 717.915, "update_time_ms": 2.567, "sample_time_ms": 34669.648}, "date": "2025-08-31_13-45-54", "hostname": "cda-server-4", "time_this_iter_s": 35.783103942871094, "episodes_total": 14460, "timestamp": 1756640754, "node_ip": "10.157.146.4", "done": false, "time_total_s": 77687.26703953743, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2411, "episode_reward_mean": -607.5415310053564, "training_iteration": 2411, "timesteps_total": 2893200, "policy_reward_mean": {}, "episode_reward_min": -697.8933180825372, "timesteps_since_restore": 2893200, "num_metric_batches_dropped": 0, "time_since_restore": 77723.0849249363, "episode_reward_max": -444.2543286929469, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2893200, "default": {"kl": 0.009586233645677567, "policy_loss": -0.13070128858089447, "vf_loss": 38.83012771606445, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9943984150886536, "entropy": 3.608708381652832, "cur_lr": 4.999999873689376e-05, "total_loss": 38.713985443115234}, "load_time_ms": 0.637, "num_steps_sampled": 2893200, "grad_time_ms": 724.69, "update_time_ms": 2.447, "sample_time_ms": 34671.25}, "date": "2025-08-31_13-46-30", "hostname": "cda-server-4", "time_this_iter_s": 35.817885398864746, "episodes_total": 14466, "timestamp": 1756640790, "node_ip": "10.157.146.4", "done": false, "time_total_s": 77723.0849249363, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2412, "episode_reward_mean": -607.9738737255178, "training_iteration": 2412, "timesteps_total": 2894400, "policy_reward_mean": {}, "episode_reward_min": -697.8933180825372, "timesteps_since_restore": 2894400, "num_metric_batches_dropped": 0, "time_since_restore": 77758.90500330925, "episode_reward_max": -444.2543286929469, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2894400, "default": {"kl": 0.012459054589271545, "policy_loss": -0.15090759098529816, "vf_loss": 279.70703125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9736005067825317, "entropy": 3.574310302734375, "cur_lr": 4.999999873689376e-05, "total_loss": 279.5750427246094}, "load_time_ms": 0.62, "num_steps_sampled": 2894400, "grad_time_ms": 731.95, "update_time_ms": 2.38, "sample_time_ms": 34767.268}, "date": "2025-08-31_13-47-06", "hostname": "cda-server-4", "time_this_iter_s": 35.82007837295532, "episodes_total": 14472, "timestamp": 1756640826, "node_ip": "10.157.146.4", "done": false, "time_total_s": 77758.90500330925, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2413, "episode_reward_mean": -607.9424844123441, "training_iteration": 2413, "timesteps_total": 2895600, "policy_reward_mean": {}, "episode_reward_min": -697.8933180825372, "timesteps_since_restore": 2895600, "num_metric_batches_dropped": 0, "time_since_restore": 77794.84339213371, "episode_reward_max": -444.2543286929469, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2895600, "default": {"kl": 0.012171699665486813, "policy_loss": -0.15682576596736908, "vf_loss": 417.8795166015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9555822014808655, "entropy": 3.623554229736328, "cur_lr": 4.999999873689376e-05, "total_loss": 417.7411804199219}, "load_time_ms": 0.622, "num_steps_sampled": 2895600, "grad_time_ms": 736.33, "update_time_ms": 2.42, "sample_time_ms": 34836.445}, "date": "2025-08-31_13-47-42", "hostname": "cda-server-4", "time_this_iter_s": 35.93838882446289, "episodes_total": 14478, "timestamp": 1756640862, "node_ip": "10.157.146.4", "done": false, "time_total_s": 77794.84339213371, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2414, "episode_reward_mean": -607.5279047838627, "training_iteration": 2414, "timesteps_total": 2896800, "policy_reward_mean": {}, "episode_reward_min": -697.8933180825372, "timesteps_since_restore": 2896800, "num_metric_batches_dropped": 0, "time_since_restore": 77831.09422206879, "episode_reward_max": -444.2543286929469, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2896800, "default": {"kl": 0.009907018393278122, "policy_loss": -0.12818127870559692, "vf_loss": 64.5232925415039, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9938741326332092, "entropy": 3.5155763626098633, "cur_lr": 4.999999873689376e-05, "total_loss": 64.41015625}, "load_time_ms": 0.614, "num_steps_sampled": 2896800, "grad_time_ms": 739.248, "update_time_ms": 2.445, "sample_time_ms": 34888.845}, "date": "2025-08-31_13-48-18", "hostname": "cda-server-4", "time_this_iter_s": 36.25082993507385, "episodes_total": 14484, "timestamp": 1756640898, "node_ip": "10.157.146.4", "done": false, "time_total_s": 77831.09422206879, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2415, "episode_reward_mean": -608.6332877287733, "training_iteration": 2415, "timesteps_total": 2898000, "policy_reward_mean": {}, "episode_reward_min": -697.8933180825372, "timesteps_since_restore": 2898000, "num_metric_batches_dropped": 0, "time_since_restore": 77866.73693847656, "episode_reward_max": -460.74205460488713, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2898000, "default": {"kl": 0.010607188567519188, "policy_loss": -0.14744065701961517, "vf_loss": 116.39151000976562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9855473637580872, "entropy": 3.542473793029785, "cur_lr": 4.999999873689376e-05, "total_loss": 116.26016998291016}, "load_time_ms": 0.653, "num_steps_sampled": 2898000, "grad_time_ms": 742.088, "update_time_ms": 2.464, "sample_time_ms": 34899.239}, "date": "2025-08-31_13-48-54", "hostname": "cda-server-4", "time_this_iter_s": 35.64271640777588, "episodes_total": 14490, "timestamp": 1756640934, "node_ip": "10.157.146.4", "done": false, "time_total_s": 77866.73693847656, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2416, "episode_reward_mean": -608.9677245530502, "training_iteration": 2416, "timesteps_total": 2899200, "policy_reward_mean": {}, "episode_reward_min": -697.8933180825372, "timesteps_since_restore": 2899200, "num_metric_batches_dropped": 0, "time_since_restore": 77901.00456953049, "episode_reward_max": -460.74205460488713, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2899200, "default": {"kl": 0.012400401756167412, "policy_loss": -0.14715661108493805, "vf_loss": 99.40572357177734, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9940821528434753, "entropy": 3.56874680519104, "cur_lr": 4.999999873689376e-05, "total_loss": 99.27740478515625}, "load_time_ms": 0.654, "num_steps_sampled": 2899200, "grad_time_ms": 743.437, "update_time_ms": 2.401, "sample_time_ms": 34812.725}, "date": "2025-08-31_13-49-28", "hostname": "cda-server-4", "time_this_iter_s": 34.26763105392456, "episodes_total": 14496, "timestamp": 1756640968, "node_ip": "10.157.146.4", "done": false, "time_total_s": 77901.00456953049, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2417, "episode_reward_mean": -608.1196212511873, "training_iteration": 2417, "timesteps_total": 2900400, "policy_reward_mean": {}, "episode_reward_min": -697.8933180825372, "timesteps_since_restore": 2900400, "num_metric_batches_dropped": 0, "time_since_restore": 77936.57117414474, "episode_reward_max": -460.74205460488713, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2900400, "default": {"kl": 0.012394358403980732, "policy_loss": -0.14955703914165497, "vf_loss": 175.1343231201172, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9831445217132568, "entropy": 3.469592571258545, "cur_lr": 4.999999873689376e-05, "total_loss": 175.00360107421875}, "load_time_ms": 0.626, "num_steps_sampled": 2900400, "grad_time_ms": 745.351, "update_time_ms": 2.358, "sample_time_ms": 34843.374}, "date": "2025-08-31_13-50-04", "hostname": "cda-server-4", "time_this_iter_s": 35.56660461425781, "episodes_total": 14502, "timestamp": 1756641004, "node_ip": "10.157.146.4", "done": false, "time_total_s": 77936.57117414474, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2418, "episode_reward_mean": -610.5471081485671, "training_iteration": 2418, "timesteps_total": 2901600, "policy_reward_mean": {}, "episode_reward_min": -795.6369151687621, "timesteps_since_restore": 2901600, "num_metric_batches_dropped": 0, "time_since_restore": 77971.06153297424, "episode_reward_max": -460.74205460488713, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2901600, "default": {"kl": 0.010992239229381084, "policy_loss": -0.1435663104057312, "vf_loss": 275.82720947265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9841380715370178, "entropy": 3.79099702835083, "cur_lr": 4.999999873689376e-05, "total_loss": 275.7003173828125}, "load_time_ms": 0.624, "num_steps_sampled": 2901600, "grad_time_ms": 732.794, "update_time_ms": 2.335, "sample_time_ms": 34729.342}, "date": "2025-08-31_13-50-38", "hostname": "cda-server-4", "time_this_iter_s": 34.49035882949829, "episodes_total": 14508, "timestamp": 1756641038, "node_ip": "10.157.146.4", "done": false, "time_total_s": 77971.06153297424, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2419, "episode_reward_mean": -612.733735997334, "training_iteration": 2419, "timesteps_total": 2902800, "policy_reward_mean": {}, "episode_reward_min": -795.6369151687621, "timesteps_since_restore": 2902800, "num_metric_batches_dropped": 0, "time_since_restore": 78005.6173760891, "episode_reward_max": -569.3060384063458, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2902800, "default": {"kl": 0.009746459312736988, "policy_loss": -0.12867462635040283, "vf_loss": 276.3333740234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.985885739326477, "entropy": 3.7307112216949463, "cur_lr": 4.999999873689376e-05, "total_loss": 276.2195129394531}, "load_time_ms": 0.617, "num_steps_sampled": 2902800, "grad_time_ms": 710.471, "update_time_ms": 2.355, "sample_time_ms": 34695.751}, "date": "2025-08-31_13-51-13", "hostname": "cda-server-4", "time_this_iter_s": 34.555843114852905, "episodes_total": 14514, "timestamp": 1756641073, "node_ip": "10.157.146.4", "done": false, "time_total_s": 78005.6173760891, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2420, "episode_reward_mean": -611.2202278028888, "training_iteration": 2420, "timesteps_total": 2904000, "policy_reward_mean": {}, "episode_reward_min": -795.6369151687621, "timesteps_since_restore": 2904000, "num_metric_batches_dropped": 0, "time_since_restore": 78040.3235464096, "episode_reward_max": -523.1228377303808, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2904000, "default": {"kl": 0.011557786725461483, "policy_loss": -0.1334839165210724, "vf_loss": 286.76654052734375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9754078984260559, "entropy": 3.522118091583252, "cur_lr": 4.999999873689376e-05, "total_loss": 286.6506652832031}, "load_time_ms": 0.618, "num_steps_sampled": 2904000, "grad_time_ms": 698.819, "update_time_ms": 2.311, "sample_time_ms": 34599.738}, "date": "2025-08-31_13-51-47", "hostname": "cda-server-4", "time_this_iter_s": 34.706170320510864, "episodes_total": 14520, "timestamp": 1756641107, "node_ip": "10.157.146.4", "done": false, "time_total_s": 78040.3235464096, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2421, "episode_reward_mean": -611.2501703471329, "training_iteration": 2421, "timesteps_total": 2905200, "policy_reward_mean": {}, "episode_reward_min": -795.6369151687621, "timesteps_since_restore": 2905200, "num_metric_batches_dropped": 0, "time_since_restore": 78075.35414958, "episode_reward_max": -523.1228377303808, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2905200, "default": {"kl": 0.010963771492242813, "policy_loss": -0.1589520275592804, "vf_loss": 564.3343505859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9270037412643433, "entropy": 3.8037290573120117, "cur_lr": 4.999999873689376e-05, "total_loss": 564.1920166015625}, "load_time_ms": 0.611, "num_steps_sampled": 2905200, "grad_time_ms": 678.79, "update_time_ms": 2.294, "sample_time_ms": 34540.978}, "date": "2025-08-31_13-52-22", "hostname": "cda-server-4", "time_this_iter_s": 35.0306031703949, "episodes_total": 14526, "timestamp": 1756641142, "node_ip": "10.157.146.4", "done": false, "time_total_s": 78075.35414958, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2422, "episode_reward_mean": -611.7667698360553, "training_iteration": 2422, "timesteps_total": 2906400, "policy_reward_mean": {}, "episode_reward_min": -795.6369151687621, "timesteps_since_restore": 2906400, "num_metric_batches_dropped": 0, "time_since_restore": 78109.67754268646, "episode_reward_max": -523.1228377303808, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2906400, "default": {"kl": 0.011602209880948067, "policy_loss": -0.14588207006454468, "vf_loss": 179.07846069335938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9866445064544678, "entropy": 3.7118940353393555, "cur_lr": 4.999999873689376e-05, "total_loss": 178.95018005371094}, "load_time_ms": 0.614, "num_steps_sampled": 2906400, "grad_time_ms": 657.011, "update_time_ms": 2.405, "sample_time_ms": 34412.947}, "date": "2025-08-31_13-52-57", "hostname": "cda-server-4", "time_this_iter_s": 34.32339310646057, "episodes_total": 14532, "timestamp": 1756641177, "node_ip": "10.157.146.4", "done": false, "time_total_s": 78109.67754268646, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2423, "episode_reward_mean": -610.8600643116025, "training_iteration": 2423, "timesteps_total": 2907600, "policy_reward_mean": {}, "episode_reward_min": -795.6369151687621, "timesteps_since_restore": 2907600, "num_metric_batches_dropped": 0, "time_since_restore": 78143.61640405655, "episode_reward_max": -523.1228377303808, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2907600, "default": {"kl": 0.009005846455693245, "policy_loss": -0.11891484260559082, "vf_loss": 89.20101928710938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9859267473220825, "entropy": 3.4513137340545654, "cur_lr": 4.999999873689376e-05, "total_loss": 89.09578704833984}, "load_time_ms": 0.608, "num_steps_sampled": 2907600, "grad_time_ms": 653.656, "update_time_ms": 2.425, "sample_time_ms": 34216.343}, "date": "2025-08-31_13-53-31", "hostname": "cda-server-4", "time_this_iter_s": 33.93886137008667, "episodes_total": 14538, "timestamp": 1756641211, "node_ip": "10.157.146.4", "done": false, "time_total_s": 78143.61640405655, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2424, "episode_reward_mean": -611.0126730798008, "training_iteration": 2424, "timesteps_total": 2908800, "policy_reward_mean": {}, "episode_reward_min": -795.6369151687621, "timesteps_since_restore": 2908800, "num_metric_batches_dropped": 0, "time_since_restore": 78178.58498740196, "episode_reward_max": -523.1228377303808, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2908800, "default": {"kl": 0.010474124923348427, "policy_loss": -0.12531504034996033, "vf_loss": 296.38238525390625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9679520726203918, "entropy": 3.5968005657196045, "cur_lr": 4.999999873689376e-05, "total_loss": 296.2729797363281}, "load_time_ms": 0.609, "num_steps_sampled": 2908800, "grad_time_ms": 645.587, "update_time_ms": 2.536, "sample_time_ms": 34096.065}, "date": "2025-08-31_13-54-06", "hostname": "cda-server-4", "time_this_iter_s": 34.96858334541321, "episodes_total": 14544, "timestamp": 1756641246, "node_ip": "10.157.146.4", "done": false, "time_total_s": 78178.58498740196, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2425, "episode_reward_mean": -610.5663387343793, "training_iteration": 2425, "timesteps_total": 2910000, "policy_reward_mean": {}, "episode_reward_min": -795.6369151687621, "timesteps_since_restore": 2910000, "num_metric_batches_dropped": 0, "time_since_restore": 78213.55888605118, "episode_reward_max": -523.1228377303808, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2910000, "default": {"kl": 0.009445350617170334, "policy_loss": -0.11071693897247314, "vf_loss": 183.43060302734375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9740853905677795, "entropy": 3.595611572265625, "cur_lr": 4.999999873689376e-05, "total_loss": 183.334228515625}, "load_time_ms": 0.574, "num_steps_sampled": 2910000, "grad_time_ms": 638.163, "update_time_ms": 2.5, "sample_time_ms": 34036.68}, "date": "2025-08-31_13-54-41", "hostname": "cda-server-4", "time_this_iter_s": 34.9738986492157, "episodes_total": 14550, "timestamp": 1756641281, "node_ip": "10.157.146.4", "done": false, "time_total_s": 78213.55888605118, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2426, "episode_reward_mean": -609.5230823884173, "training_iteration": 2426, "timesteps_total": 2911200, "policy_reward_mean": {}, "episode_reward_min": -795.6369151687621, "timesteps_since_restore": 2911200, "num_metric_batches_dropped": 0, "time_since_restore": 78248.59123158455, "episode_reward_max": -445.63039712327276, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2911200, "default": {"kl": 0.01128674391657114, "policy_loss": -0.1577501893043518, "vf_loss": 160.46990966796875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9803025126457214, "entropy": 3.4936420917510986, "cur_lr": 4.999999873689376e-05, "total_loss": 160.3292999267578}, "load_time_ms": 0.585, "num_steps_sampled": 2911200, "grad_time_ms": 635.45, "update_time_ms": 2.538, "sample_time_ms": 34115.855}, "date": "2025-08-31_13-55-16", "hostname": "cda-server-4", "time_this_iter_s": 35.03234553337097, "episodes_total": 14556, "timestamp": 1756641316, "node_ip": "10.157.146.4", "done": false, "time_total_s": 78248.59123158455, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2427, "episode_reward_mean": -607.9740608591582, "training_iteration": 2427, "timesteps_total": 2912400, "policy_reward_mean": {}, "episode_reward_min": -795.6369151687621, "timesteps_since_restore": 2912400, "num_metric_batches_dropped": 0, "time_since_restore": 78282.78619885445, "episode_reward_max": -445.63039712327276, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2912400, "default": {"kl": 0.010901540517807007, "policy_loss": -0.15884114801883698, "vf_loss": 98.79193878173828, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9911013841629028, "entropy": 3.611678123474121, "cur_lr": 4.999999873689376e-05, "total_loss": 98.649658203125}, "load_time_ms": 0.583, "num_steps_sampled": 2912400, "grad_time_ms": 637.663, "update_time_ms": 2.556, "sample_time_ms": 33976.432}, "date": "2025-08-31_13-55-50", "hostname": "cda-server-4", "time_this_iter_s": 34.19496726989746, "episodes_total": 14562, "timestamp": 1756641350, "node_ip": "10.157.146.4", "done": false, "time_total_s": 78282.78619885445, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2428, "episode_reward_mean": -608.4460182647856, "training_iteration": 2428, "timesteps_total": 2913600, "policy_reward_mean": {}, "episode_reward_min": -795.6369151687621, "timesteps_since_restore": 2913600, "num_metric_batches_dropped": 0, "time_since_restore": 78318.05460238457, "episode_reward_max": -445.63039712327276, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2913600, "default": {"kl": 0.012094014324247837, "policy_loss": -0.14653469622135162, "vf_loss": 46.649200439453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9948865175247192, "entropy": 3.516709327697754, "cur_lr": 4.999999873689376e-05, "total_loss": 46.52103805541992}, "load_time_ms": 0.582, "num_steps_sampled": 2913600, "grad_time_ms": 639.438, "update_time_ms": 2.731, "sample_time_ms": 34052.259}, "date": "2025-08-31_13-56-25", "hostname": "cda-server-4", "time_this_iter_s": 35.26840353012085, "episodes_total": 14568, "timestamp": 1756641385, "node_ip": "10.157.146.4", "done": false, "time_total_s": 78318.05460238457, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2429, "episode_reward_mean": -608.7395946741713, "training_iteration": 2429, "timesteps_total": 2914800, "policy_reward_mean": {}, "episode_reward_min": -795.6369151687621, "timesteps_since_restore": 2914800, "num_metric_batches_dropped": 0, "time_since_restore": 78352.9415242672, "episode_reward_max": -445.63039712327276, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2914800, "default": {"kl": 0.010133092291653156, "policy_loss": -0.13651998341083527, "vf_loss": 162.114990234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9861888885498047, "entropy": 3.643021821975708, "cur_lr": 4.999999873689376e-05, "total_loss": 161.99386596679688}, "load_time_ms": 0.586, "num_steps_sampled": 2914800, "grad_time_ms": 646.9, "update_time_ms": 2.703, "sample_time_ms": 34077.945}, "date": "2025-08-31_13-57-00", "hostname": "cda-server-4", "time_this_iter_s": 34.886921882629395, "episodes_total": 14574, "timestamp": 1756641420, "node_ip": "10.157.146.4", "done": false, "time_total_s": 78352.9415242672, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2430, "episode_reward_mean": -609.2767878923596, "training_iteration": 2430, "timesteps_total": 2916000, "policy_reward_mean": {}, "episode_reward_min": -795.6369151687621, "timesteps_since_restore": 2916000, "num_metric_batches_dropped": 0, "time_since_restore": 78386.82928538322, "episode_reward_max": -445.63039712327276, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2916000, "default": {"kl": 0.011675823479890823, "policy_loss": -0.14178743958473206, "vf_loss": 222.71148681640625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9889011383056641, "entropy": 3.6322131156921387, "cur_lr": 4.999999873689376e-05, "total_loss": 222.58743286132812}, "load_time_ms": 0.593, "num_steps_sampled": 2916000, "grad_time_ms": 647.316, "update_time_ms": 2.777, "sample_time_ms": 33995.587}, "date": "2025-08-31_13-57-34", "hostname": "cda-server-4", "time_this_iter_s": 33.88776111602783, "episodes_total": 14580, "timestamp": 1756641454, "node_ip": "10.157.146.4", "done": false, "time_total_s": 78386.82928538322, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2431, "episode_reward_mean": -609.3166756630525, "training_iteration": 2431, "timesteps_total": 2917200, "policy_reward_mean": {}, "episode_reward_min": -795.6369151687621, "timesteps_since_restore": 2917200, "num_metric_batches_dropped": 0, "time_since_restore": 78421.62883806229, "episode_reward_max": -445.63039712327276, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2917200, "default": {"kl": 0.008621398359537125, "policy_loss": -0.1277218908071518, "vf_loss": 298.9923095703125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9691032767295837, "entropy": 3.5001020431518555, "cur_lr": 4.999999873689376e-05, "total_loss": 298.8776550292969}, "load_time_ms": 0.6, "num_steps_sampled": 2917200, "grad_time_ms": 668.291, "update_time_ms": 2.738, "sample_time_ms": 33951.684}, "date": "2025-08-31_13-58-09", "hostname": "cda-server-4", "time_this_iter_s": 34.79955267906189, "episodes_total": 14586, "timestamp": 1756641489, "node_ip": "10.157.146.4", "done": false, "time_total_s": 78421.62883806229, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2432, "episode_reward_mean": -607.9364643622052, "training_iteration": 2432, "timesteps_total": 2918400, "policy_reward_mean": {}, "episode_reward_min": -795.6369151687621, "timesteps_since_restore": 2918400, "num_metric_batches_dropped": 0, "time_since_restore": 78456.53036808968, "episode_reward_max": -445.63039712327276, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2918400, "default": {"kl": 0.008507215417921543, "policy_loss": -0.12339210510253906, "vf_loss": 209.4803009033203, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9695215225219727, "entropy": 3.5074126720428467, "cur_lr": 4.999999873689376e-05, "total_loss": 209.36981201171875}, "load_time_ms": 0.602, "num_steps_sampled": 2918400, "grad_time_ms": 680.667, "update_time_ms": 2.681, "sample_time_ms": 33997.175}, "date": "2025-08-31_13-58-44", "hostname": "cda-server-4", "time_this_iter_s": 34.901530027389526, "episodes_total": 14592, "timestamp": 1756641524, "node_ip": "10.157.146.4", "done": false, "time_total_s": 78456.53036808968, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2433, "episode_reward_mean": -607.4953470076119, "training_iteration": 2433, "timesteps_total": 2919600, "policy_reward_mean": {}, "episode_reward_min": -795.6369151687621, "timesteps_since_restore": 2919600, "num_metric_batches_dropped": 0, "time_since_restore": 78492.08573126793, "episode_reward_max": -445.63039712327276, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2919600, "default": {"kl": 0.010894077830016613, "policy_loss": -0.14252209663391113, "vf_loss": 120.50092315673828, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9892587661743164, "entropy": 3.629993438720703, "cur_lr": 4.999999873689376e-05, "total_loss": 120.37494659423828}, "load_time_ms": 0.599, "num_steps_sampled": 2919600, "grad_time_ms": 670.775, "update_time_ms": 2.661, "sample_time_ms": 34168.698}, "date": "2025-08-31_13-59-19", "hostname": "cda-server-4", "time_this_iter_s": 35.555363178253174, "episodes_total": 14598, "timestamp": 1756641559, "node_ip": "10.157.146.4", "done": false, "time_total_s": 78492.08573126793, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2434, "episode_reward_mean": -607.7506620112857, "training_iteration": 2434, "timesteps_total": 2920800, "policy_reward_mean": {}, "episode_reward_min": -795.6369151687621, "timesteps_since_restore": 2920800, "num_metric_batches_dropped": 0, "time_since_restore": 78526.25383520126, "episode_reward_max": -445.63039712327276, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2920800, "default": {"kl": 0.010594765655696392, "policy_loss": -0.13737879693508148, "vf_loss": 140.13595581054688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9898841381072998, "entropy": 3.644787311553955, "cur_lr": 4.999999873689376e-05, "total_loss": 140.01466369628906}, "load_time_ms": 0.597, "num_steps_sampled": 2920800, "grad_time_ms": 668.966, "update_time_ms": 2.559, "sample_time_ms": 34090.617}, "date": "2025-08-31_13-59-54", "hostname": "cda-server-4", "time_this_iter_s": 34.16810393333435, "episodes_total": 14604, "timestamp": 1756641594, "node_ip": "10.157.146.4", "done": false, "time_total_s": 78526.25383520126, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2435, "episode_reward_mean": -606.3920511288605, "training_iteration": 2435, "timesteps_total": 2922000, "policy_reward_mean": {}, "episode_reward_min": -658.2806811726175, "timesteps_since_restore": 2922000, "num_metric_batches_dropped": 0, "time_since_restore": 78561.13588380814, "episode_reward_max": -445.63039712327276, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2922000, "default": {"kl": 0.009870308451354504, "policy_loss": -0.1469620168209076, "vf_loss": 570.4994506835938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.970810055732727, "entropy": 3.763472557067871, "cur_lr": 4.999999873689376e-05, "total_loss": 570.367431640625}, "load_time_ms": 0.594, "num_steps_sampled": 2922000, "grad_time_ms": 665.772, "update_time_ms": 2.574, "sample_time_ms": 34084.604}, "date": "2025-08-31_14-00-28", "hostname": "cda-server-4", "time_this_iter_s": 34.88204860687256, "episodes_total": 14610, "timestamp": 1756641628, "node_ip": "10.157.146.4", "done": false, "time_total_s": 78561.13588380814, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2436, "episode_reward_mean": -605.974896197591, "training_iteration": 2436, "timesteps_total": 2923200, "policy_reward_mean": {}, "episode_reward_min": -658.2806811726175, "timesteps_since_restore": 2923200, "num_metric_batches_dropped": 0, "time_since_restore": 78596.0420999527, "episode_reward_max": -445.63039712327276, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2923200, "default": {"kl": 0.01068816427141428, "policy_loss": -0.12282795459032059, "vf_loss": 111.03738403320312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9874951243400574, "entropy": 3.4914958477020264, "cur_lr": 4.999999873689376e-05, "total_loss": 110.93079376220703}, "load_time_ms": 0.589, "num_steps_sampled": 2923200, "grad_time_ms": 645.319, "update_time_ms": 2.689, "sample_time_ms": 34092.25}, "date": "2025-08-31_14-01-03", "hostname": "cda-server-4", "time_this_iter_s": 34.90621614456177, "episodes_total": 14616, "timestamp": 1756641663, "node_ip": "10.157.146.4", "done": false, "time_total_s": 78596.0420999527, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2437, "episode_reward_mean": -606.8987306653743, "training_iteration": 2437, "timesteps_total": 2924400, "policy_reward_mean": {}, "episode_reward_min": -658.2806811726175, "timesteps_since_restore": 2924400, "num_metric_batches_dropped": 0, "time_since_restore": 78629.92100524902, "episode_reward_max": -445.63039712327276, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2924400, "default": {"kl": 0.010971690528094769, "policy_loss": -0.1334734559059143, "vf_loss": 145.67202758789062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9829185009002686, "entropy": 3.4900171756744385, "cur_lr": 4.999999873689376e-05, "total_loss": 145.55523681640625}, "load_time_ms": 0.597, "num_steps_sampled": 2924400, "grad_time_ms": 617.045, "update_time_ms": 2.693, "sample_time_ms": 34089.011}, "date": "2025-08-31_14-01-37", "hostname": "cda-server-4", "time_this_iter_s": 33.878905296325684, "episodes_total": 14622, "timestamp": 1756641697, "node_ip": "10.157.146.4", "done": false, "time_total_s": 78629.92100524902, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2438, "episode_reward_mean": -605.8689015237433, "training_iteration": 2438, "timesteps_total": 2925600, "policy_reward_mean": {}, "episode_reward_min": -658.2806811726175, "timesteps_since_restore": 2925600, "num_metric_batches_dropped": 0, "time_since_restore": 78664.23723006248, "episode_reward_max": -445.63039712327276, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2925600, "default": {"kl": 0.01279283408075571, "policy_loss": -0.1551106870174408, "vf_loss": 96.72418975830078, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9884606599807739, "entropy": 3.8345518112182617, "cur_lr": 4.999999873689376e-05, "total_loss": 96.58850860595703}, "load_time_ms": 0.591, "num_steps_sampled": 2925600, "grad_time_ms": 613.713, "update_time_ms": 2.537, "sample_time_ms": 33997.373}, "date": "2025-08-31_14-02-12", "hostname": "cda-server-4", "time_this_iter_s": 34.316224813461304, "episodes_total": 14628, "timestamp": 1756641732, "node_ip": "10.157.146.4", "done": false, "time_total_s": 78664.23723006248, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2439, "episode_reward_mean": -606.1850223647459, "training_iteration": 2439, "timesteps_total": 2926800, "policy_reward_mean": {}, "episode_reward_min": -658.2806811726175, "timesteps_since_restore": 2926800, "num_metric_batches_dropped": 0, "time_since_restore": 78699.02822971344, "episode_reward_max": -445.63039712327276, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2926800, "default": {"kl": 0.012878673151135445, "policy_loss": -0.16487683355808258, "vf_loss": 153.50411987304688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9899821877479553, "entropy": 3.58408260345459, "cur_lr": 4.999999873689376e-05, "total_loss": 153.3588104248047}, "load_time_ms": 0.595, "num_steps_sampled": 2926800, "grad_time_ms": 612.12, "update_time_ms": 2.523, "sample_time_ms": 33989.449}, "date": "2025-08-31_14-02-46", "hostname": "cda-server-4", "time_this_iter_s": 34.7909996509552, "episodes_total": 14634, "timestamp": 1756641766, "node_ip": "10.157.146.4", "done": false, "time_total_s": 78699.02822971344, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2440, "episode_reward_mean": -604.8500740961473, "training_iteration": 2440, "timesteps_total": 2928000, "policy_reward_mean": {}, "episode_reward_min": -658.2806811726175, "timesteps_since_restore": 2928000, "num_metric_batches_dropped": 0, "time_since_restore": 78733.49186062813, "episode_reward_max": -445.63039712327276, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2928000, "default": {"kl": 0.011078521609306335, "policy_loss": -0.14694662392139435, "vf_loss": 158.71929931640625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9749953150749207, "entropy": 3.564683198928833, "cur_lr": 4.999999873689376e-05, "total_loss": 158.5891876220703}, "load_time_ms": 0.621, "num_steps_sampled": 2928000, "grad_time_ms": 601.901, "update_time_ms": 2.466, "sample_time_ms": 34057.348}, "date": "2025-08-31_14-03-21", "hostname": "cda-server-4", "time_this_iter_s": 34.46363091468811, "episodes_total": 14640, "timestamp": 1756641801, "node_ip": "10.157.146.4", "done": false, "time_total_s": 78733.49186062813, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2441, "episode_reward_mean": -603.7048340148406, "training_iteration": 2441, "timesteps_total": 2929200, "policy_reward_mean": {}, "episode_reward_min": -658.2806811726175, "timesteps_since_restore": 2929200, "num_metric_batches_dropped": 0, "time_since_restore": 78768.00215029716, "episode_reward_max": -445.63039712327276, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2929200, "default": {"kl": 0.009934105910360813, "policy_loss": -0.14786285161972046, "vf_loss": 255.35205078125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9667959213256836, "entropy": 3.52351975440979, "cur_lr": 4.999999873689376e-05, "total_loss": 255.21929931640625}, "load_time_ms": 0.62, "num_steps_sampled": 2929200, "grad_time_ms": 588.083, "update_time_ms": 2.484, "sample_time_ms": 34042.118}, "date": "2025-08-31_14-03-55", "hostname": "cda-server-4", "time_this_iter_s": 34.510289669036865, "episodes_total": 14646, "timestamp": 1756641835, "node_ip": "10.157.146.4", "done": false, "time_total_s": 78768.00215029716, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2442, "episode_reward_mean": -605.174969918437, "training_iteration": 2442, "timesteps_total": 2930400, "policy_reward_mean": {}, "episode_reward_min": -658.2806811726175, "timesteps_since_restore": 2930400, "num_metric_batches_dropped": 0, "time_since_restore": 78803.02730488777, "episode_reward_max": -467.26027419604566, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2930400, "default": {"kl": 0.010087679140269756, "policy_loss": -0.1328788548707962, "vf_loss": 213.546142578125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9837477207183838, "entropy": 3.485060691833496, "cur_lr": 4.999999873689376e-05, "total_loss": 213.42857360839844}, "load_time_ms": 0.622, "num_steps_sampled": 2930400, "grad_time_ms": 583.858, "update_time_ms": 2.486, "sample_time_ms": 34058.711}, "date": "2025-08-31_14-04-31", "hostname": "cda-server-4", "time_this_iter_s": 35.02515459060669, "episodes_total": 14652, "timestamp": 1756641871, "node_ip": "10.157.146.4", "done": false, "time_total_s": 78803.02730488777, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2443, "episode_reward_mean": -605.2010312503228, "training_iteration": 2443, "timesteps_total": 2931600, "policy_reward_mean": {}, "episode_reward_min": -658.2806811726175, "timesteps_since_restore": 2931600, "num_metric_batches_dropped": 0, "time_since_restore": 78837.74239349365, "episode_reward_max": -467.26027419604566, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2931600, "default": {"kl": 0.013237264938652515, "policy_loss": -0.14955633878707886, "vf_loss": 117.634521484375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9935276508331299, "entropy": 3.5334792137145996, "cur_lr": 4.999999873689376e-05, "total_loss": 117.50508880615234}, "load_time_ms": 0.635, "num_steps_sampled": 2931600, "grad_time_ms": 585.167, "update_time_ms": 2.475, "sample_time_ms": 33973.44}, "date": "2025-08-31_14-05-05", "hostname": "cda-server-4", "time_this_iter_s": 34.71508860588074, "episodes_total": 14658, "timestamp": 1756641905, "node_ip": "10.157.146.4", "done": false, "time_total_s": 78837.74239349365, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2444, "episode_reward_mean": -606.2894309613557, "training_iteration": 2444, "timesteps_total": 2932800, "policy_reward_mean": {}, "episode_reward_min": -658.2806811726175, "timesteps_since_restore": 2932800, "num_metric_batches_dropped": 0, "time_since_restore": 78872.19463205338, "episode_reward_max": -467.26027419604566, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2932800, "default": {"kl": 0.010279573500156403, "policy_loss": -0.14838376641273499, "vf_loss": 82.11602783203125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9899283647537231, "entropy": 3.5705556869506836, "cur_lr": 4.999999873689376e-05, "total_loss": 81.98326110839844}, "load_time_ms": 0.642, "num_steps_sampled": 2932800, "grad_time_ms": 592.346, "update_time_ms": 2.427, "sample_time_ms": 33994.666}, "date": "2025-08-31_14-05-40", "hostname": "cda-server-4", "time_this_iter_s": 34.4522385597229, "episodes_total": 14664, "timestamp": 1756641940, "node_ip": "10.157.146.4", "done": false, "time_total_s": 78872.19463205338, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2445, "episode_reward_mean": -605.7126795779855, "training_iteration": 2445, "timesteps_total": 2934000, "policy_reward_mean": {}, "episode_reward_min": -658.2806811726175, "timesteps_since_restore": 2934000, "num_metric_batches_dropped": 0, "time_since_restore": 78906.46844410896, "episode_reward_max": -467.26027419604566, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2934000, "default": {"kl": 0.01129552349448204, "policy_loss": -0.15294399857521057, "vf_loss": 205.52456665039062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9876196384429932, "entropy": 3.535853862762451, "cur_lr": 4.999999873689376e-05, "total_loss": 205.38876342773438}, "load_time_ms": 0.652, "num_steps_sampled": 2934000, "grad_time_ms": 580.738, "update_time_ms": 2.433, "sample_time_ms": 33945.44}, "date": "2025-08-31_14-06-14", "hostname": "cda-server-4", "time_this_iter_s": 34.27381205558777, "episodes_total": 14670, "timestamp": 1756641974, "node_ip": "10.157.146.4", "done": false, "time_total_s": 78906.46844410896, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2446, "episode_reward_mean": -605.2418149713554, "training_iteration": 2446, "timesteps_total": 2935200, "policy_reward_mean": {}, "episode_reward_min": -658.2806811726175, "timesteps_since_restore": 2935200, "num_metric_batches_dropped": 0, "time_since_restore": 78941.41451406479, "episode_reward_max": -467.26027419604566, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2935200, "default": {"kl": 0.010974790900945663, "policy_loss": -0.14809320867061615, "vf_loss": 185.07208251953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9762623310089111, "entropy": 3.4924123287200928, "cur_lr": 4.999999873689376e-05, "total_loss": 184.94065856933594}, "load_time_ms": 0.645, "num_steps_sampled": 2935200, "grad_time_ms": 585.01, "update_time_ms": 2.321, "sample_time_ms": 33945.368}, "date": "2025-08-31_14-06-49", "hostname": "cda-server-4", "time_this_iter_s": 34.946069955825806, "episodes_total": 14676, "timestamp": 1756642009, "node_ip": "10.157.146.4", "done": false, "time_total_s": 78941.41451406479, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2447, "episode_reward_mean": -605.7171633648156, "training_iteration": 2447, "timesteps_total": 2936400, "policy_reward_mean": {}, "episode_reward_min": -684.132043838043, "timesteps_since_restore": 2936400, "num_metric_batches_dropped": 0, "time_since_restore": 78976.325371027, "episode_reward_max": -467.26027419604566, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2936400, "default": {"kl": 0.010955514386296272, "policy_loss": -0.15231327712535858, "vf_loss": 276.0415344238281, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9742381572723389, "entropy": 3.8420987129211426, "cur_lr": 4.999999873689376e-05, "total_loss": 275.9058837890625}, "load_time_ms": 0.651, "num_steps_sampled": 2936400, "grad_time_ms": 580.285, "update_time_ms": 2.319, "sample_time_ms": 34053.239}, "date": "2025-08-31_14-07-24", "hostname": "cda-server-4", "time_this_iter_s": 34.91085696220398, "episodes_total": 14682, "timestamp": 1756642044, "node_ip": "10.157.146.4", "done": false, "time_total_s": 78976.325371027, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2448, "episode_reward_mean": -607.2255038449541, "training_iteration": 2448, "timesteps_total": 2937600, "policy_reward_mean": {}, "episode_reward_min": -684.132043838043, "timesteps_since_restore": 2937600, "num_metric_batches_dropped": 0, "time_since_restore": 79009.32835459709, "episode_reward_max": -468.1041249488473, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2937600, "default": {"kl": 0.012045351788401604, "policy_loss": -0.15184062719345093, "vf_loss": 72.13634490966797, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9932574033737183, "entropy": 3.534634828567505, "cur_lr": 4.999999873689376e-05, "total_loss": 72.00279998779297}, "load_time_ms": 0.689, "num_steps_sampled": 2937600, "grad_time_ms": 566.422, "update_time_ms": 2.354, "sample_time_ms": 33935.663}, "date": "2025-08-31_14-07-57", "hostname": "cda-server-4", "time_this_iter_s": 33.00298357009888, "episodes_total": 14688, "timestamp": 1756642077, "node_ip": "10.157.146.4", "done": false, "time_total_s": 79009.32835459709, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2449, "episode_reward_mean": -607.3288634510386, "training_iteration": 2449, "timesteps_total": 2938800, "policy_reward_mean": {}, "episode_reward_min": -684.132043838043, "timesteps_since_restore": 2938800, "num_metric_batches_dropped": 0, "time_since_restore": 79043.57100224495, "episode_reward_max": -468.1041249488473, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2938800, "default": {"kl": 0.009766249917447567, "policy_loss": -0.12834089994430542, "vf_loss": 68.4822769165039, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9912889003753662, "entropy": 3.5130434036254883, "cur_lr": 4.999999873689376e-05, "total_loss": 68.3687744140625}, "load_time_ms": 0.697, "num_steps_sampled": 2938800, "grad_time_ms": 572.995, "update_time_ms": 2.399, "sample_time_ms": 33874.218}, "date": "2025-08-31_14-08-31", "hostname": "cda-server-4", "time_this_iter_s": 34.242647647857666, "episodes_total": 14694, "timestamp": 1756642111, "node_ip": "10.157.146.4", "done": false, "time_total_s": 79043.57100224495, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2450, "episode_reward_mean": -606.8023594483873, "training_iteration": 2450, "timesteps_total": 2940000, "policy_reward_mean": {}, "episode_reward_min": -684.132043838043, "timesteps_since_restore": 2940000, "num_metric_batches_dropped": 0, "time_since_restore": 79078.02900409698, "episode_reward_max": -468.1041249488473, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2940000, "default": {"kl": 0.010827885009348392, "policy_loss": -0.1445368230342865, "vf_loss": 104.2108154296875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9884667992591858, "entropy": 3.6667284965515137, "cur_lr": 4.999999873689376e-05, "total_loss": 104.08272552490234}, "load_time_ms": 0.695, "num_steps_sampled": 2940000, "grad_time_ms": 565.824, "update_time_ms": 2.4, "sample_time_ms": 33880.813}, "date": "2025-08-31_14-09-06", "hostname": "cda-server-4", "time_this_iter_s": 34.45800185203552, "episodes_total": 14700, "timestamp": 1756642146, "node_ip": "10.157.146.4", "done": false, "time_total_s": 79078.02900409698, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2451, "episode_reward_mean": -606.0666899903637, "training_iteration": 2451, "timesteps_total": 2941200, "policy_reward_mean": {}, "episode_reward_min": -684.132043838043, "timesteps_since_restore": 2941200, "num_metric_batches_dropped": 0, "time_since_restore": 79112.46141648293, "episode_reward_max": -468.1041249488473, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2941200, "default": {"kl": 0.010588336735963821, "policy_loss": -0.12245885282754898, "vf_loss": 32.72832489013672, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9969857335090637, "entropy": 3.5754785537719727, "cur_lr": 4.999999873689376e-05, "total_loss": 32.621944427490234}, "load_time_ms": 0.696, "num_steps_sampled": 2941200, "grad_time_ms": 565.587, "update_time_ms": 2.4, "sample_time_ms": 33873.178}, "date": "2025-08-31_14-09-40", "hostname": "cda-server-4", "time_this_iter_s": 34.43241238594055, "episodes_total": 14706, "timestamp": 1756642180, "node_ip": "10.157.146.4", "done": false, "time_total_s": 79112.46141648293, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2452, "episode_reward_mean": -606.7526595687605, "training_iteration": 2452, "timesteps_total": 2942400, "policy_reward_mean": {}, "episode_reward_min": -684.132043838043, "timesteps_since_restore": 2942400, "num_metric_batches_dropped": 0, "time_since_restore": 79146.71581673622, "episode_reward_max": -468.1041249488473, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2942400, "default": {"kl": 0.011241395026445389, "policy_loss": -0.14465981721878052, "vf_loss": 73.58564758300781, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9928697943687439, "entropy": 3.695711374282837, "cur_lr": 4.999999873689376e-05, "total_loss": 73.45806121826172}, "load_time_ms": 0.689, "num_steps_sampled": 2942400, "grad_time_ms": 564.329, "update_time_ms": 2.367, "sample_time_ms": 33797.279}, "date": "2025-08-31_14-10-14", "hostname": "cda-server-4", "time_this_iter_s": 34.2544002532959, "episodes_total": 14712, "timestamp": 1756642214, "node_ip": "10.157.146.4", "done": false, "time_total_s": 79146.71581673622, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2453, "episode_reward_mean": -606.9973252757652, "training_iteration": 2453, "timesteps_total": 2943600, "policy_reward_mean": {}, "episode_reward_min": -684.132043838043, "timesteps_since_restore": 2943600, "num_metric_batches_dropped": 0, "time_since_restore": 79181.37746715546, "episode_reward_max": -468.1041249488473, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2943600, "default": {"kl": 0.010681145824491978, "policy_loss": -0.13575297594070435, "vf_loss": 149.12042236328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9798333048820496, "entropy": 3.6802613735198975, "cur_lr": 4.999999873689376e-05, "total_loss": 149.00088500976562}, "load_time_ms": 0.688, "num_steps_sampled": 2943600, "grad_time_ms": 560.514, "update_time_ms": 2.389, "sample_time_ms": 33795.764}, "date": "2025-08-31_14-10-49", "hostname": "cda-server-4", "time_this_iter_s": 34.66165041923523, "episodes_total": 14718, "timestamp": 1756642249, "node_ip": "10.157.146.4", "done": false, "time_total_s": 79181.37746715546, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2454, "episode_reward_mean": -607.0935498287371, "training_iteration": 2454, "timesteps_total": 2944800, "policy_reward_mean": {}, "episode_reward_min": -684.132043838043, "timesteps_since_restore": 2944800, "num_metric_batches_dropped": 0, "time_since_restore": 79216.60059142113, "episode_reward_max": -468.1041249488473, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2944800, "default": {"kl": 0.009376948699355125, "policy_loss": -0.1276649385690689, "vf_loss": 128.20785522460938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9858613610267639, "entropy": 3.4006588459014893, "cur_lr": 4.999999873689376e-05, "total_loss": 128.0944366455078}, "load_time_ms": 0.715, "num_steps_sampled": 2944800, "grad_time_ms": 559.661, "update_time_ms": 2.382, "sample_time_ms": 33873.696}, "date": "2025-08-31_14-11-24", "hostname": "cda-server-4", "time_this_iter_s": 35.223124265670776, "episodes_total": 14724, "timestamp": 1756642284, "node_ip": "10.157.146.4", "done": false, "time_total_s": 79216.60059142113, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2455, "episode_reward_mean": -608.3406292436132, "training_iteration": 2455, "timesteps_total": 2946000, "policy_reward_mean": {}, "episode_reward_min": -684.132043838043, "timesteps_since_restore": 2946000, "num_metric_batches_dropped": 0, "time_since_restore": 79250.62835621834, "episode_reward_max": -468.1041249488473, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2946000, "default": {"kl": 0.010112122632563114, "policy_loss": -0.12964993715286255, "vf_loss": 205.84120178222656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9807667136192322, "entropy": 3.5342862606048584, "cur_lr": 4.999999873689376e-05, "total_loss": 205.72689819335938}, "load_time_ms": 0.707, "num_steps_sampled": 2946000, "grad_time_ms": 582.253, "update_time_ms": 2.341, "sample_time_ms": 33826.589}, "date": "2025-08-31_14-11-58", "hostname": "cda-server-4", "time_this_iter_s": 34.02776479721069, "episodes_total": 14730, "timestamp": 1756642318, "node_ip": "10.157.146.4", "done": false, "time_total_s": 79250.62835621834, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2456, "episode_reward_mean": -608.3257464580714, "training_iteration": 2456, "timesteps_total": 2947200, "policy_reward_mean": {}, "episode_reward_min": -684.132043838043, "timesteps_since_restore": 2947200, "num_metric_batches_dropped": 0, "time_since_restore": 79284.78808736801, "episode_reward_max": -468.1041249488473, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2947200, "default": {"kl": 0.012154581025242805, "policy_loss": -0.1454046219587326, "vf_loss": 118.57524871826172, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9919760227203369, "entropy": 3.4999778270721436, "cur_lr": 4.999999873689376e-05, "total_loss": 118.44831085205078}, "load_time_ms": 0.713, "num_steps_sampled": 2947200, "grad_time_ms": 594.647, "update_time_ms": 2.259, "sample_time_ms": 33735.587}, "date": "2025-08-31_14-12-32", "hostname": "cda-server-4", "time_this_iter_s": 34.15973114967346, "episodes_total": 14736, "timestamp": 1756642352, "node_ip": "10.157.146.4", "done": false, "time_total_s": 79284.78808736801, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2457, "episode_reward_mean": -609.7483964858161, "training_iteration": 2457, "timesteps_total": 2948400, "policy_reward_mean": {}, "episode_reward_min": -684.132043838043, "timesteps_since_restore": 2948400, "num_metric_batches_dropped": 0, "time_since_restore": 79319.68909478188, "episode_reward_max": -468.1041249488473, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2948400, "default": {"kl": 0.010547768324613571, "policy_loss": -0.13506808876991272, "vf_loss": 107.38021087646484, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9870373606681824, "entropy": 3.5457992553710938, "cur_lr": 4.999999873689376e-05, "total_loss": 107.26114654541016}, "load_time_ms": 0.728, "num_steps_sampled": 2948400, "grad_time_ms": 614.321, "update_time_ms": 2.342, "sample_time_ms": 33714.734}, "date": "2025-08-31_14-13-07", "hostname": "cda-server-4", "time_this_iter_s": 34.901007413864136, "episodes_total": 14742, "timestamp": 1756642387, "node_ip": "10.157.146.4", "done": false, "time_total_s": 79319.68909478188, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2458, "episode_reward_mean": -612.2467087988059, "training_iteration": 2458, "timesteps_total": 2949600, "policy_reward_mean": {}, "episode_reward_min": -684.132043838043, "timesteps_since_restore": 2949600, "num_metric_batches_dropped": 0, "time_since_restore": 79354.73057723045, "episode_reward_max": -561.5601738125282, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2949600, "default": {"kl": 0.009813044220209122, "policy_loss": -0.14026343822479248, "vf_loss": 186.67115783691406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9874039888381958, "entropy": 3.598728656768799, "cur_lr": 4.999999873689376e-05, "total_loss": 186.5457763671875}, "load_time_ms": 0.696, "num_steps_sampled": 2949600, "grad_time_ms": 642.293, "update_time_ms": 2.43, "sample_time_ms": 33890.534}, "date": "2025-08-31_14-13-42", "hostname": "cda-server-4", "time_this_iter_s": 35.04148244857788, "episodes_total": 14748, "timestamp": 1756642422, "node_ip": "10.157.146.4", "done": false, "time_total_s": 79354.73057723045, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2459, "episode_reward_mean": -612.6529870550349, "training_iteration": 2459, "timesteps_total": 2950800, "policy_reward_mean": {}, "episode_reward_min": -684.132043838043, "timesteps_since_restore": 2950800, "num_metric_batches_dropped": 0, "time_since_restore": 79389.44296121597, "episode_reward_max": -561.5601738125282, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2950800, "default": {"kl": 0.011208749376237392, "policy_loss": -0.15086200833320618, "vf_loss": 89.28006744384766, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9926313757896423, "entropy": 3.544332265853882, "cur_lr": 4.999999873689376e-05, "total_loss": 89.14622497558594}, "load_time_ms": 0.691, "num_steps_sampled": 2950800, "grad_time_ms": 638.038, "update_time_ms": 2.402, "sample_time_ms": 33941.754}, "date": "2025-08-31_14-14-17", "hostname": "cda-server-4", "time_this_iter_s": 34.71238398551941, "episodes_total": 14754, "timestamp": 1756642457, "node_ip": "10.157.146.4", "done": false, "time_total_s": 79389.44296121597, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2460, "episode_reward_mean": -613.0717701965831, "training_iteration": 2460, "timesteps_total": 2952000, "policy_reward_mean": {}, "episode_reward_min": -684.132043838043, "timesteps_since_restore": 2952000, "num_metric_batches_dropped": 0, "time_since_restore": 79425.00285100937, "episode_reward_max": -561.5601738125282, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2952000, "default": {"kl": 0.01004400011152029, "policy_loss": -0.14094185829162598, "vf_loss": 111.60267639160156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9895645976066589, "entropy": 3.604187488555908, "cur_lr": 4.999999873689376e-05, "total_loss": 111.47698211669922}, "load_time_ms": 0.696, "num_steps_sampled": 2952000, "grad_time_ms": 660.773, "update_time_ms": 2.464, "sample_time_ms": 34029.127}, "date": "2025-08-31_14-14-53", "hostname": "cda-server-4", "time_this_iter_s": 35.559889793395996, "episodes_total": 14760, "timestamp": 1756642493, "node_ip": "10.157.146.4", "done": false, "time_total_s": 79425.00285100937, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2461, "episode_reward_mean": -613.3268075465569, "training_iteration": 2461, "timesteps_total": 2953200, "policy_reward_mean": {}, "episode_reward_min": -684.132043838043, "timesteps_since_restore": 2953200, "num_metric_batches_dropped": 0, "time_since_restore": 79461.66365170479, "episode_reward_max": -561.5601738125282, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2953200, "default": {"kl": 0.011445406824350357, "policy_loss": -0.12037888914346695, "vf_loss": 136.36300659179688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9894943237304688, "entropy": 3.448225259780884, "cur_lr": 4.999999873689376e-05, "total_loss": 136.26004028320312}, "load_time_ms": 0.692, "num_steps_sampled": 2953200, "grad_time_ms": 673.842, "update_time_ms": 2.484, "sample_time_ms": 34239.024}, "date": "2025-08-31_14-15-30", "hostname": "cda-server-4", "time_this_iter_s": 36.66080069541931, "episodes_total": 14766, "timestamp": 1756642530, "node_ip": "10.157.146.4", "done": false, "time_total_s": 79461.66365170479, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2462, "episode_reward_mean": -610.4239116904653, "training_iteration": 2462, "timesteps_total": 2954400, "policy_reward_mean": {}, "episode_reward_min": -684.132043838043, "timesteps_since_restore": 2954400, "num_metric_batches_dropped": 0, "time_since_restore": 79495.63109397888, "episode_reward_max": -444.7383178213038, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2954400, "default": {"kl": 0.011858277954161167, "policy_loss": -0.15545666217803955, "vf_loss": 189.06442260742188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9870595932006836, "entropy": 3.525692939758301, "cur_lr": 4.999999873689376e-05, "total_loss": 188.92697143554688}, "load_time_ms": 0.712, "num_steps_sampled": 2954400, "grad_time_ms": 675.754, "update_time_ms": 2.45, "sample_time_ms": 34208.538}, "date": "2025-08-31_14-16-03", "hostname": "cda-server-4", "time_this_iter_s": 33.96744227409363, "episodes_total": 14772, "timestamp": 1756642563, "node_ip": "10.157.146.4", "done": false, "time_total_s": 79495.63109397888, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2463, "episode_reward_mean": -609.7960254877581, "training_iteration": 2463, "timesteps_total": 2955600, "policy_reward_mean": {}, "episode_reward_min": -650.6135341720436, "timesteps_since_restore": 2955600, "num_metric_batches_dropped": 0, "time_since_restore": 79529.27619791031, "episode_reward_max": -444.7383178213038, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2955600, "default": {"kl": 0.011556439101696014, "policy_loss": -0.14641492068767548, "vf_loss": 84.8607406616211, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9891226291656494, "entropy": 3.6215226650238037, "cur_lr": 4.999999873689376e-05, "total_loss": 84.73186492919922}, "load_time_ms": 0.707, "num_steps_sampled": 2955600, "grad_time_ms": 665.375, "update_time_ms": 2.4, "sample_time_ms": 34117.315}, "date": "2025-08-31_14-16-37", "hostname": "cda-server-4", "time_this_iter_s": 33.645103931427, "episodes_total": 14778, "timestamp": 1756642597, "node_ip": "10.157.146.4", "done": false, "time_total_s": 79529.27619791031, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2464, "episode_reward_mean": -610.5565920482135, "training_iteration": 2464, "timesteps_total": 2956800, "policy_reward_mean": {}, "episode_reward_min": -650.6135341720436, "timesteps_since_restore": 2956800, "num_metric_batches_dropped": 0, "time_since_restore": 79564.17404723167, "episode_reward_max": -444.7383178213038, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2956800, "default": {"kl": 0.010239645838737488, "policy_loss": -0.13842932879924774, "vf_loss": 61.04959487915039, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9925963878631592, "entropy": 3.5600709915161133, "cur_lr": 4.999999873689376e-05, "total_loss": 60.92671585083008}, "load_time_ms": 0.679, "num_steps_sampled": 2956800, "grad_time_ms": 642.188, "update_time_ms": 2.368, "sample_time_ms": 34108.096}, "date": "2025-08-31_14-17-12", "hostname": "cda-server-4", "time_this_iter_s": 34.897849321365356, "episodes_total": 14784, "timestamp": 1756642632, "node_ip": "10.157.146.4", "done": false, "time_total_s": 79564.17404723167, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2465, "episode_reward_mean": -610.2758026055367, "training_iteration": 2465, "timesteps_total": 2958000, "policy_reward_mean": {}, "episode_reward_min": -650.6135341720436, "timesteps_since_restore": 2958000, "num_metric_batches_dropped": 0, "time_since_restore": 79599.05782294273, "episode_reward_max": -444.7383178213038, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2958000, "default": {"kl": 0.01029832661151886, "policy_loss": -0.1275867372751236, "vf_loss": 113.61808776855469, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9857931137084961, "entropy": 3.519667387008667, "cur_lr": 4.999999873689376e-05, "total_loss": 113.50614166259766}, "load_time_ms": 0.684, "num_steps_sampled": 2958000, "grad_time_ms": 631.22, "update_time_ms": 2.387, "sample_time_ms": 34204.524}, "date": "2025-08-31_14-17-47", "hostname": "cda-server-4", "time_this_iter_s": 34.88377571105957, "episodes_total": 14790, "timestamp": 1756642667, "node_ip": "10.157.146.4", "done": false, "time_total_s": 79599.05782294273, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2466, "episode_reward_mean": -609.2150177892421, "training_iteration": 2466, "timesteps_total": 2959200, "policy_reward_mean": {}, "episode_reward_min": -650.6135341720436, "timesteps_since_restore": 2959200, "num_metric_batches_dropped": 0, "time_since_restore": 79633.40287899971, "episode_reward_max": -444.7383178213038, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2959200, "default": {"kl": 0.009934796020388603, "policy_loss": -0.13556723296642303, "vf_loss": 25.972415924072266, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9957304000854492, "entropy": 3.5123512744903564, "cur_lr": 4.999999873689376e-05, "total_loss": 25.85193634033203}, "load_time_ms": 0.683, "num_steps_sampled": 2959200, "grad_time_ms": 631.386, "update_time_ms": 2.458, "sample_time_ms": 34222.8}, "date": "2025-08-31_14-18-21", "hostname": "cda-server-4", "time_this_iter_s": 34.34505605697632, "episodes_total": 14796, "timestamp": 1756642701, "node_ip": "10.157.146.4", "done": false, "time_total_s": 79633.40287899971, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2467, "episode_reward_mean": -607.8280004901196, "training_iteration": 2467, "timesteps_total": 2960400, "policy_reward_mean": {}, "episode_reward_min": -650.6135341720436, "timesteps_since_restore": 2960400, "num_metric_batches_dropped": 0, "time_since_restore": 79667.57179951668, "episode_reward_max": -444.7383178213038, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2960400, "default": {"kl": 0.012036303989589214, "policy_loss": -0.16332001984119415, "vf_loss": 135.51486206054688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9820663928985596, "entropy": 3.4700469970703125, "cur_lr": 4.999999873689376e-05, "total_loss": 135.3698272705078}, "load_time_ms": 0.653, "num_steps_sampled": 2960400, "grad_time_ms": 634.282, "update_time_ms": 2.35, "sample_time_ms": 34146.885}, "date": "2025-08-31_14-18-55", "hostname": "cda-server-4", "time_this_iter_s": 34.16892051696777, "episodes_total": 14802, "timestamp": 1756642735, "node_ip": "10.157.146.4", "done": false, "time_total_s": 79667.57179951668, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2468, "episode_reward_mean": -608.2558328644743, "training_iteration": 2468, "timesteps_total": 2961600, "policy_reward_mean": {}, "episode_reward_min": -650.6135341720436, "timesteps_since_restore": 2961600, "num_metric_batches_dropped": 0, "time_since_restore": 79702.49557042122, "episode_reward_max": -444.7383178213038, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2961600, "default": {"kl": 0.009097306057810783, "policy_loss": -0.1308656632900238, "vf_loss": 99.50724792480469, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9871928095817566, "entropy": 3.483637809753418, "cur_lr": 4.999999873689376e-05, "total_loss": 99.39021301269531}, "load_time_ms": 0.688, "num_steps_sampled": 2961600, "grad_time_ms": 637.473, "update_time_ms": 2.257, "sample_time_ms": 34131.819}, "date": "2025-08-31_14-19-30", "hostname": "cda-server-4", "time_this_iter_s": 34.923770904541016, "episodes_total": 14808, "timestamp": 1756642770, "node_ip": "10.157.146.4", "done": false, "time_total_s": 79702.49557042122, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2469, "episode_reward_mean": -608.8310833004737, "training_iteration": 2469, "timesteps_total": 2962800, "policy_reward_mean": {}, "episode_reward_min": -721.5089493229711, "timesteps_since_restore": 2962800, "num_metric_batches_dropped": 0, "time_since_restore": 79737.6468527317, "episode_reward_max": -444.7383178213038, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2962800, "default": {"kl": 0.011522241868078709, "policy_loss": -0.1407652497291565, "vf_loss": 610.995849609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9579789042472839, "entropy": 4.018448829650879, "cur_lr": 4.999999873689376e-05, "total_loss": 610.8726196289062}, "load_time_ms": 0.692, "num_steps_sampled": 2962800, "grad_time_ms": 653.597, "update_time_ms": 2.27, "sample_time_ms": 34159.544}, "date": "2025-08-31_14-20-06", "hostname": "cda-server-4", "time_this_iter_s": 35.15128231048584, "episodes_total": 14814, "timestamp": 1756642806, "node_ip": "10.157.146.4", "done": false, "time_total_s": 79737.6468527317, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2470, "episode_reward_mean": -608.1955693531469, "training_iteration": 2470, "timesteps_total": 2964000, "policy_reward_mean": {}, "episode_reward_min": -721.5089493229711, "timesteps_since_restore": 2964000, "num_metric_batches_dropped": 0, "time_since_restore": 79771.90593910217, "episode_reward_max": -444.7383178213038, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2964000, "default": {"kl": 0.008735407143831253, "policy_loss": -0.11373218148946762, "vf_loss": 191.22161865234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9788220524787903, "entropy": 3.648653984069824, "cur_lr": 4.999999873689376e-05, "total_loss": 191.12115478515625}, "load_time_ms": 0.656, "num_steps_sampled": 2964000, "grad_time_ms": 656.522, "update_time_ms": 2.232, "sample_time_ms": 34026.634}, "date": "2025-08-31_14-20-40", "hostname": "cda-server-4", "time_this_iter_s": 34.25908637046814, "episodes_total": 14820, "timestamp": 1756642840, "node_ip": "10.157.146.4", "done": false, "time_total_s": 79771.90593910217, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2471, "episode_reward_mean": -608.157418371154, "training_iteration": 2471, "timesteps_total": 2965200, "policy_reward_mean": {}, "episode_reward_min": -721.5089493229711, "timesteps_since_restore": 2965200, "num_metric_batches_dropped": 0, "time_since_restore": 79806.5790605545, "episode_reward_max": -444.7383178213038, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2965200, "default": {"kl": 0.01016635075211525, "policy_loss": -0.13941065967082977, "vf_loss": 129.3541717529297, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.982863187789917, "entropy": 3.5361833572387695, "cur_lr": 4.999999873689376e-05, "total_loss": 129.23019409179688}, "load_time_ms": 0.655, "num_steps_sampled": 2965200, "grad_time_ms": 650.933, "update_time_ms": 2.209, "sample_time_ms": 33833.491}, "date": "2025-08-31_14-21-15", "hostname": "cda-server-4", "time_this_iter_s": 34.67312145233154, "episodes_total": 14826, "timestamp": 1756642875, "node_ip": "10.157.146.4", "done": false, "time_total_s": 79806.5790605545, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2472, "episode_reward_mean": -607.7779594483343, "training_iteration": 2472, "timesteps_total": 2966400, "policy_reward_mean": {}, "episode_reward_min": -721.5089493229711, "timesteps_since_restore": 2966400, "num_metric_batches_dropped": 0, "time_since_restore": 79841.55003476143, "episode_reward_max": -444.7383178213038, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2966400, "default": {"kl": 0.00967688113451004, "policy_loss": -0.13172781467437744, "vf_loss": 93.10260772705078, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9896279573440552, "entropy": 3.4280357360839844, "cur_lr": 4.999999873689376e-05, "total_loss": 92.9855728149414}, "load_time_ms": 0.638, "num_steps_sampled": 2966400, "grad_time_ms": 660.693, "update_time_ms": 2.217, "sample_time_ms": 33924.053}, "date": "2025-08-31_14-21-50", "hostname": "cda-server-4", "time_this_iter_s": 34.97097420692444, "episodes_total": 14832, "timestamp": 1756642910, "node_ip": "10.157.146.4", "done": false, "time_total_s": 79841.55003476143, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2473, "episode_reward_mean": -607.1591703620758, "training_iteration": 2473, "timesteps_total": 2967600, "policy_reward_mean": {}, "episode_reward_min": -721.5089493229711, "timesteps_since_restore": 2967600, "num_metric_batches_dropped": 0, "time_since_restore": 79875.46872878075, "episode_reward_max": -444.7383178213038, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2967600, "default": {"kl": 0.009931309148669243, "policy_loss": -0.14112788438796997, "vf_loss": 104.398681640625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9880736470222473, "entropy": 3.540977954864502, "cur_lr": 4.999999873689376e-05, "total_loss": 104.27262878417969}, "load_time_ms": 0.645, "num_steps_sampled": 2967600, "grad_time_ms": 669.875, "update_time_ms": 2.266, "sample_time_ms": 33942.135}, "date": "2025-08-31_14-22-24", "hostname": "cda-server-4", "time_this_iter_s": 33.91869401931763, "episodes_total": 14838, "timestamp": 1756642944, "node_ip": "10.157.146.4", "done": false, "time_total_s": 79875.46872878075, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2474, "episode_reward_mean": -609.0922475463658, "training_iteration": 2474, "timesteps_total": 2968800, "policy_reward_mean": {}, "episode_reward_min": -797.5765583045411, "timesteps_since_restore": 2968800, "num_metric_batches_dropped": 0, "time_since_restore": 79909.74099636078, "episode_reward_max": -444.7383178213038, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2968800, "default": {"kl": 0.010129735805094242, "policy_loss": -0.1295924037694931, "vf_loss": 906.1040649414062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9301731586456299, "entropy": 3.9988033771514893, "cur_lr": 4.999999873689376e-05, "total_loss": 905.9898071289062}, "load_time_ms": 0.675, "num_steps_sampled": 2968800, "grad_time_ms": 686.686, "update_time_ms": 2.302, "sample_time_ms": 33862.637}, "date": "2025-08-31_14-22-58", "hostname": "cda-server-4", "time_this_iter_s": 34.27226758003235, "episodes_total": 14844, "timestamp": 1756642978, "node_ip": "10.157.146.4", "done": false, "time_total_s": 79909.74099636078, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2475, "episode_reward_mean": -607.5349313265336, "training_iteration": 2475, "timesteps_total": 2970000, "policy_reward_mean": {}, "episode_reward_min": -797.5765583045411, "timesteps_since_restore": 2970000, "num_metric_batches_dropped": 0, "time_since_restore": 79944.85533499718, "episode_reward_max": -444.7383178213038, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2970000, "default": {"kl": 0.013055241666734219, "policy_loss": -0.15695516765117645, "vf_loss": 314.5657958984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9795429706573486, "entropy": 3.604891061782837, "cur_lr": 4.999999873689376e-05, "total_loss": 314.4285888671875}, "load_time_ms": 0.672, "num_steps_sampled": 2970000, "grad_time_ms": 697.987, "update_time_ms": 2.339, "sample_time_ms": 33874.485}, "date": "2025-08-31_14-23-33", "hostname": "cda-server-4", "time_this_iter_s": 35.114338636398315, "episodes_total": 14850, "timestamp": 1756643013, "node_ip": "10.157.146.4", "done": false, "time_total_s": 79944.85533499718, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2476, "episode_reward_mean": -606.7912312960523, "training_iteration": 2476, "timesteps_total": 2971200, "policy_reward_mean": {}, "episode_reward_min": -797.5765583045411, "timesteps_since_restore": 2971200, "num_metric_batches_dropped": 0, "time_since_restore": 79979.73590445518, "episode_reward_max": -444.7383178213038, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2971200, "default": {"kl": 0.008204095996916294, "policy_loss": -0.13082976639270782, "vf_loss": 286.29095458984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9760956168174744, "entropy": 3.528761863708496, "cur_lr": 4.999999873689376e-05, "total_loss": 286.1725769042969}, "load_time_ms": 0.668, "num_steps_sampled": 2971200, "grad_time_ms": 693.296, "update_time_ms": 2.281, "sample_time_ms": 33932.85}, "date": "2025-08-31_14-24-08", "hostname": "cda-server-4", "time_this_iter_s": 34.88056945800781, "episodes_total": 14856, "timestamp": 1756643048, "node_ip": "10.157.146.4", "done": false, "time_total_s": 79979.73590445518, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2477, "episode_reward_mean": -606.9435594352951, "training_iteration": 2477, "timesteps_total": 2972400, "policy_reward_mean": {}, "episode_reward_min": -797.5765583045411, "timesteps_since_restore": 2972400, "num_metric_batches_dropped": 0, "time_since_restore": 80013.6195321083, "episode_reward_max": -444.7383178213038, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2972400, "default": {"kl": 0.011783086694777012, "policy_loss": -0.15597623586654663, "vf_loss": 203.25189208984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9729734063148499, "entropy": 3.624067544937134, "cur_lr": 4.999999873689376e-05, "total_loss": 203.1138153076172}, "load_time_ms": 0.685, "num_steps_sampled": 2972400, "grad_time_ms": 678.36, "update_time_ms": 2.3, "sample_time_ms": 33919.269}, "date": "2025-08-31_14-24-42", "hostname": "cda-server-4", "time_this_iter_s": 33.88362765312195, "episodes_total": 14862, "timestamp": 1756643082, "node_ip": "10.157.146.4", "done": false, "time_total_s": 80013.6195321083, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2478, "episode_reward_mean": -608.511550615696, "training_iteration": 2478, "timesteps_total": 2973600, "policy_reward_mean": {}, "episode_reward_min": -797.5765583045411, "timesteps_since_restore": 2973600, "num_metric_batches_dropped": 0, "time_since_restore": 80047.75284337997, "episode_reward_max": -469.9236852373702, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2973600, "default": {"kl": 0.011727129109203815, "policy_loss": -0.14770187437534332, "vf_loss": 125.53726959228516, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9862837195396423, "entropy": 3.524594306945801, "cur_lr": 4.999999873689376e-05, "total_loss": 125.40737915039062}, "load_time_ms": 0.645, "num_steps_sampled": 2973600, "grad_time_ms": 649.219, "update_time_ms": 2.276, "sample_time_ms": 33869.659}, "date": "2025-08-31_14-25-16", "hostname": "cda-server-4", "time_this_iter_s": 34.13331127166748, "episodes_total": 14868, "timestamp": 1756643116, "node_ip": "10.157.146.4", "done": false, "time_total_s": 80047.75284337997, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2479, "episode_reward_mean": -609.2082838887954, "training_iteration": 2479, "timesteps_total": 2974800, "policy_reward_mean": {}, "episode_reward_min": -797.5765583045411, "timesteps_since_restore": 2974800, "num_metric_batches_dropped": 0, "time_since_restore": 80082.08250713348, "episode_reward_max": -469.9236852373702, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2974800, "default": {"kl": 0.009477641433477402, "policy_loss": -0.13770507276058197, "vf_loss": 69.97554779052734, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9905840754508972, "entropy": 3.5348989963531494, "cur_lr": 4.999999873689376e-05, "total_loss": 69.85223388671875}, "load_time_ms": 0.634, "num_steps_sampled": 2974800, "grad_time_ms": 633.767, "update_time_ms": 2.201, "sample_time_ms": 33803.072}, "date": "2025-08-31_14-25-50", "hostname": "cda-server-4", "time_this_iter_s": 34.32966375350952, "episodes_total": 14874, "timestamp": 1756643150, "node_ip": "10.157.146.4", "done": false, "time_total_s": 80082.08250713348, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2480, "episode_reward_mean": -609.6306681625716, "training_iteration": 2480, "timesteps_total": 2976000, "policy_reward_mean": {}, "episode_reward_min": -797.5765583045411, "timesteps_since_restore": 2976000, "num_metric_batches_dropped": 0, "time_since_restore": 80115.6977379322, "episode_reward_max": -469.9236852373702, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2976000, "default": {"kl": 0.01265267375856638, "policy_loss": -0.1573231965303421, "vf_loss": 55.18659210205078, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9924275279045105, "entropy": 3.59063458442688, "cur_lr": 4.999999873689376e-05, "total_loss": 55.04848098754883}, "load_time_ms": 0.639, "num_steps_sampled": 2976000, "grad_time_ms": 612.207, "update_time_ms": 2.217, "sample_time_ms": 33760.137}, "date": "2025-08-31_14-26-24", "hostname": "cda-server-4", "time_this_iter_s": 33.61523079872131, "episodes_total": 14880, "timestamp": 1756643184, "node_ip": "10.157.146.4", "done": false, "time_total_s": 80115.6977379322, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2481, "episode_reward_mean": -609.0958389996391, "training_iteration": 2481, "timesteps_total": 2977200, "policy_reward_mean": {}, "episode_reward_min": -797.5765583045411, "timesteps_since_restore": 2977200, "num_metric_batches_dropped": 0, "time_since_restore": 80149.72322773933, "episode_reward_max": -469.9236852373702, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2977200, "default": {"kl": 0.01037217490375042, "policy_loss": -0.126481294631958, "vf_loss": 79.70258331298828, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9908556342124939, "entropy": 3.5161616802215576, "cur_lr": 4.999999873689376e-05, "total_loss": 79.59185791015625}, "load_time_ms": 0.641, "num_steps_sampled": 2977200, "grad_time_ms": 591.916, "update_time_ms": 2.405, "sample_time_ms": 33715.345}, "date": "2025-08-31_14-26-58", "hostname": "cda-server-4", "time_this_iter_s": 34.025489807128906, "episodes_total": 14886, "timestamp": 1756643218, "node_ip": "10.157.146.4", "done": false, "time_total_s": 80149.72322773933, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2482, "episode_reward_mean": -609.3690886327862, "training_iteration": 2482, "timesteps_total": 2978400, "policy_reward_mean": {}, "episode_reward_min": -797.5765583045411, "timesteps_since_restore": 2978400, "num_metric_batches_dropped": 0, "time_since_restore": 80184.95820951462, "episode_reward_max": -469.9236852373702, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2978400, "default": {"kl": 0.010618913918733597, "policy_loss": -0.14455682039260864, "vf_loss": 59.33656311035156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9945574998855591, "entropy": 3.5150818824768066, "cur_lr": 4.999999873689376e-05, "total_loss": 59.20813751220703}, "load_time_ms": 0.67, "num_steps_sampled": 2978400, "grad_time_ms": 576.618, "update_time_ms": 2.492, "sample_time_ms": 33756.887}, "date": "2025-08-31_14-27-33", "hostname": "cda-server-4", "time_this_iter_s": 35.23498177528381, "episodes_total": 14892, "timestamp": 1756643253, "node_ip": "10.157.146.4", "done": false, "time_total_s": 80184.95820951462, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2483, "episode_reward_mean": -610.638580675095, "training_iteration": 2483, "timesteps_total": 2979600, "policy_reward_mean": {}, "episode_reward_min": -797.5765583045411, "timesteps_since_restore": 2979600, "num_metric_batches_dropped": 0, "time_since_restore": 80220.00656318665, "episode_reward_max": -469.9236852373702, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2979600, "default": {"kl": 0.012342792004346848, "policy_loss": -0.1593686044216156, "vf_loss": 23.11832046508789, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9969528913497925, "entropy": 3.592705249786377, "cur_lr": 4.999999873689376e-05, "total_loss": 22.97769546508789}, "load_time_ms": 0.683, "num_steps_sampled": 2979600, "grad_time_ms": 574.876, "update_time_ms": 2.536, "sample_time_ms": 33871.484}, "date": "2025-08-31_14-28-08", "hostname": "cda-server-4", "time_this_iter_s": 35.04835367202759, "episodes_total": 14898, "timestamp": 1756643288, "node_ip": "10.157.146.4", "done": false, "time_total_s": 80220.00656318665, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2484, "episode_reward_mean": -610.9524751405183, "training_iteration": 2484, "timesteps_total": 2980800, "policy_reward_mean": {}, "episode_reward_min": -797.5765583045411, "timesteps_since_restore": 2980800, "num_metric_batches_dropped": 0, "time_since_restore": 80253.74291753769, "episode_reward_max": -460.14932028104374, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2980800, "default": {"kl": 0.010878296568989754, "policy_loss": -0.14265868067741394, "vf_loss": 328.0993957519531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9543583393096924, "entropy": 3.596635580062866, "cur_lr": 4.999999873689376e-05, "total_loss": 327.9732666015625}, "load_time_ms": 0.647, "num_steps_sampled": 2980800, "grad_time_ms": 570.317, "update_time_ms": 2.573, "sample_time_ms": 33822.456}, "date": "2025-08-31_14-28-42", "hostname": "cda-server-4", "time_this_iter_s": 33.7363543510437, "episodes_total": 14904, "timestamp": 1756643322, "node_ip": "10.157.146.4", "done": false, "time_total_s": 80253.74291753769, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2485, "episode_reward_mean": -610.8018478046985, "training_iteration": 2485, "timesteps_total": 2982000, "policy_reward_mean": {}, "episode_reward_min": -797.5765583045411, "timesteps_since_restore": 2982000, "num_metric_batches_dropped": 0, "time_since_restore": 80288.21447920799, "episode_reward_max": -460.14932028104374, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2982000, "default": {"kl": 0.01001213863492012, "policy_loss": -0.1389392614364624, "vf_loss": 209.43264770507812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9733593463897705, "entropy": 3.757014274597168, "cur_lr": 4.999999873689376e-05, "total_loss": 209.3089141845703}, "load_time_ms": 0.651, "num_steps_sampled": 2982000, "grad_time_ms": 555.633, "update_time_ms": 2.476, "sample_time_ms": 33772.982}, "date": "2025-08-31_14-29-16", "hostname": "cda-server-4", "time_this_iter_s": 34.471561670303345, "episodes_total": 14910, "timestamp": 1756643356, "node_ip": "10.157.146.4", "done": false, "time_total_s": 80288.21447920799, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2486, "episode_reward_mean": -610.2107317037454, "training_iteration": 2486, "timesteps_total": 2983200, "policy_reward_mean": {}, "episode_reward_min": -797.5765583045411, "timesteps_since_restore": 2983200, "num_metric_batches_dropped": 0, "time_since_restore": 80322.86632633209, "episode_reward_max": -460.14932028104374, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2983200, "default": {"kl": 0.01272033341228962, "policy_loss": -0.14423248171806335, "vf_loss": 52.70299530029297, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9952693581581116, "entropy": 3.4853408336639404, "cur_lr": 4.999999873689376e-05, "total_loss": 52.57807922363281}, "load_time_ms": 0.66, "num_steps_sampled": 2983200, "grad_time_ms": 548.142, "update_time_ms": 2.499, "sample_time_ms": 33757.532}, "date": "2025-08-31_14-29-51", "hostname": "cda-server-4", "time_this_iter_s": 34.65184712409973, "episodes_total": 14916, "timestamp": 1756643391, "node_ip": "10.157.146.4", "done": false, "time_total_s": 80322.86632633209, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2487, "episode_reward_mean": -610.3434073317355, "training_iteration": 2487, "timesteps_total": 2984400, "policy_reward_mean": {}, "episode_reward_min": -797.5765583045411, "timesteps_since_restore": 2984400, "num_metric_batches_dropped": 0, "time_since_restore": 80357.44107317924, "episode_reward_max": -460.14932028104374, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2984400, "default": {"kl": 0.009326201863586903, "policy_loss": -0.11058944463729858, "vf_loss": 202.3509979248047, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9752291440963745, "entropy": 3.600501537322998, "cur_lr": 4.999999873689376e-05, "total_loss": 202.25457763671875}, "load_time_ms": 0.68, "num_steps_sampled": 2984400, "grad_time_ms": 565.76, "update_time_ms": 2.547, "sample_time_ms": 33808.888}, "date": "2025-08-31_14-30-26", "hostname": "cda-server-4", "time_this_iter_s": 34.57474684715271, "episodes_total": 14922, "timestamp": 1756643426, "node_ip": "10.157.146.4", "done": false, "time_total_s": 80357.44107317924, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2488, "episode_reward_mean": -611.6521409440339, "training_iteration": 2488, "timesteps_total": 2985600, "policy_reward_mean": {}, "episode_reward_min": -797.5765583045411, "timesteps_since_restore": 2985600, "num_metric_batches_dropped": 0, "time_since_restore": 80391.58904075623, "episode_reward_max": -460.14932028104374, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2985600, "default": {"kl": 0.012404636479914188, "policy_loss": -0.15676356852054596, "vf_loss": 60.63046646118164, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9921267032623291, "entropy": 3.73186993598938, "cur_lr": 4.999999873689376e-05, "total_loss": 60.49253845214844}, "load_time_ms": 0.683, "num_steps_sampled": 2985600, "grad_time_ms": 574.107, "update_time_ms": 2.554, "sample_time_ms": 33801.887}, "date": "2025-08-31_14-31-00", "hostname": "cda-server-4", "time_this_iter_s": 34.14796757698059, "episodes_total": 14928, "timestamp": 1756643460, "node_ip": "10.157.146.4", "done": false, "time_total_s": 80391.58904075623, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2489, "episode_reward_mean": -612.2539200723073, "training_iteration": 2489, "timesteps_total": 2986800, "policy_reward_mean": {}, "episode_reward_min": -797.5765583045411, "timesteps_since_restore": 2986800, "num_metric_batches_dropped": 0, "time_since_restore": 80426.89475512505, "episode_reward_max": -460.14932028104374, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2986800, "default": {"kl": 0.01231978740543127, "policy_loss": -0.14545938372612, "vf_loss": 32.468929290771484, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9965823292732239, "entropy": 3.60874605178833, "cur_lr": 4.999999873689376e-05, "total_loss": 32.34217834472656}, "load_time_ms": 0.721, "num_steps_sampled": 2986800, "grad_time_ms": 581.514, "update_time_ms": 2.707, "sample_time_ms": 33891.812}, "date": "2025-08-31_14-31-35", "hostname": "cda-server-4", "time_this_iter_s": 35.30571436882019, "episodes_total": 14934, "timestamp": 1756643495, "node_ip": "10.157.146.4", "done": false, "time_total_s": 80426.89475512505, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2490, "episode_reward_mean": -610.5666332209026, "training_iteration": 2490, "timesteps_total": 2988000, "policy_reward_mean": {}, "episode_reward_min": -654.6224625973563, "timesteps_since_restore": 2988000, "num_metric_batches_dropped": 0, "time_since_restore": 80461.87856054306, "episode_reward_max": -460.14932028104374, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2988000, "default": {"kl": 0.012261051684617996, "policy_loss": -0.14396785199642181, "vf_loss": 113.31903076171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9854457378387451, "entropy": 3.6730167865753174, "cur_lr": 4.999999873689376e-05, "total_loss": 113.19367980957031}, "load_time_ms": 0.719, "num_steps_sampled": 2988000, "grad_time_ms": 603.747, "update_time_ms": 2.684, "sample_time_ms": 34006.555}, "date": "2025-08-31_14-32-10", "hostname": "cda-server-4", "time_this_iter_s": 34.983805418014526, "episodes_total": 14940, "timestamp": 1756643530, "node_ip": "10.157.146.4", "done": false, "time_total_s": 80461.87856054306, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2491, "episode_reward_mean": -611.3826576113847, "training_iteration": 2491, "timesteps_total": 2989200, "policy_reward_mean": {}, "episode_reward_min": -654.6224625973563, "timesteps_since_restore": 2989200, "num_metric_batches_dropped": 0, "time_since_restore": 80496.55961465836, "episode_reward_max": -460.14932028104374, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2989200, "default": {"kl": 0.011785872280597687, "policy_loss": -0.16632264852523804, "vf_loss": 513.510986328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.955713152885437, "entropy": 3.715278148651123, "cur_lr": 4.999999873689376e-05, "total_loss": 513.362548828125}, "load_time_ms": 0.716, "num_steps_sampled": 2989200, "grad_time_ms": 622.986, "update_time_ms": 2.542, "sample_time_ms": 34053.131}, "date": "2025-08-31_14-32-45", "hostname": "cda-server-4", "time_this_iter_s": 34.68105411529541, "episodes_total": 14946, "timestamp": 1756643565, "node_ip": "10.157.146.4", "done": false, "time_total_s": 80496.55961465836, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2492, "episode_reward_mean": -613.2006838823398, "training_iteration": 2492, "timesteps_total": 2990400, "policy_reward_mean": {}, "episode_reward_min": -721.2173621575693, "timesteps_since_restore": 2990400, "num_metric_batches_dropped": 0, "time_since_restore": 80531.05889821053, "episode_reward_max": -460.14932028104374, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2990400, "default": {"kl": 0.012360276654362679, "policy_loss": -0.16078411042690277, "vf_loss": 431.1946716308594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9736529588699341, "entropy": 3.834649085998535, "cur_lr": 4.999999873689376e-05, "total_loss": 431.0526428222656}, "load_time_ms": 0.688, "num_steps_sampled": 2990400, "grad_time_ms": 637.861, "update_time_ms": 2.505, "sample_time_ms": 33964.826}, "date": "2025-08-31_14-33-19", "hostname": "cda-server-4", "time_this_iter_s": 34.4992835521698, "episodes_total": 14952, "timestamp": 1756643599, "node_ip": "10.157.146.4", "done": false, "time_total_s": 80531.05889821053, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2493, "episode_reward_mean": -612.5289085327302, "training_iteration": 2493, "timesteps_total": 2991600, "policy_reward_mean": {}, "episode_reward_min": -721.2173621575693, "timesteps_since_restore": 2991600, "num_metric_batches_dropped": 0, "time_since_restore": 80566.08734679222, "episode_reward_max": -460.14932028104374, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2991600, "default": {"kl": 0.010487610474228859, "policy_loss": -0.13616794347763062, "vf_loss": 237.533935546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9740204215049744, "entropy": 3.4605398178100586, "cur_lr": 4.999999873689376e-05, "total_loss": 237.41368103027344}, "load_time_ms": 0.665, "num_steps_sampled": 2991600, "grad_time_ms": 650.947, "update_time_ms": 2.549, "sample_time_ms": 33949.811}, "date": "2025-08-31_14-33-55", "hostname": "cda-server-4", "time_this_iter_s": 35.02844858169556, "episodes_total": 14958, "timestamp": 1756643635, "node_ip": "10.157.146.4", "done": false, "time_total_s": 80566.08734679222, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2494, "episode_reward_mean": -612.3197363392148, "training_iteration": 2494, "timesteps_total": 2992800, "policy_reward_mean": {}, "episode_reward_min": -721.2173621575693, "timesteps_since_restore": 2992800, "num_metric_batches_dropped": 0, "time_since_restore": 80600.58452987671, "episode_reward_max": -460.14932028104374, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2992800, "default": {"kl": 0.011888546869158745, "policy_loss": -0.1504017412662506, "vf_loss": 314.55950927734375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9688450694084167, "entropy": 3.5143377780914307, "cur_lr": 4.999999873689376e-05, "total_loss": 314.4271545410156}, "load_time_ms": 0.669, "num_steps_sampled": 2992800, "grad_time_ms": 658.947, "update_time_ms": 2.536, "sample_time_ms": 34017.943}, "date": "2025-08-31_14-34-29", "hostname": "cda-server-4", "time_this_iter_s": 34.497183084487915, "episodes_total": 14964, "timestamp": 1756643669, "node_ip": "10.157.146.4", "done": false, "time_total_s": 80600.58452987671, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2495, "episode_reward_mean": -613.2066540508156, "training_iteration": 2495, "timesteps_total": 2994000, "policy_reward_mean": {}, "episode_reward_min": -796.6699741587374, "timesteps_since_restore": 2994000, "num_metric_batches_dropped": 0, "time_since_restore": 80633.98405337334, "episode_reward_max": -460.14932028104374, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2994000, "default": {"kl": 0.013329599052667618, "policy_loss": -0.1507384181022644, "vf_loss": 339.5643310546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9685428142547607, "entropy": 3.8683271408081055, "cur_lr": 4.999999873689376e-05, "total_loss": 339.4338073730469}, "load_time_ms": 0.668, "num_steps_sampled": 2994000, "grad_time_ms": 657.958, "update_time_ms": 2.611, "sample_time_ms": 33911.574}, "date": "2025-08-31_14-35-02", "hostname": "cda-server-4", "time_this_iter_s": 33.39952349662781, "episodes_total": 14970, "timestamp": 1756643702, "node_ip": "10.157.146.4", "done": false, "time_total_s": 80633.98405337334, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2496, "episode_reward_mean": -613.2781309854406, "training_iteration": 2496, "timesteps_total": 2995200, "policy_reward_mean": {}, "episode_reward_min": -796.6699741587374, "timesteps_since_restore": 2995200, "num_metric_batches_dropped": 0, "time_since_restore": 80669.01769304276, "episode_reward_max": -460.14932028104374, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2995200, "default": {"kl": 0.01193135417997837, "policy_loss": -0.1522330641746521, "vf_loss": 511.2022705078125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.977157473564148, "entropy": 3.5214173793792725, "cur_lr": 4.999999873689376e-05, "total_loss": 511.0680847167969}, "load_time_ms": 0.659, "num_steps_sampled": 2995200, "grad_time_ms": 674.68, "update_time_ms": 2.624, "sample_time_ms": 33933.044}, "date": "2025-08-31_14-35-37", "hostname": "cda-server-4", "time_this_iter_s": 35.033639669418335, "episodes_total": 14976, "timestamp": 1756643737, "node_ip": "10.157.146.4", "done": false, "time_total_s": 80669.01769304276, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2497, "episode_reward_mean": -613.2256691893211, "training_iteration": 2497, "timesteps_total": 2996400, "policy_reward_mean": {}, "episode_reward_min": -796.6699741587374, "timesteps_since_restore": 2996400, "num_metric_batches_dropped": 0, "time_since_restore": 80703.52129721642, "episode_reward_max": -460.14932028104374, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2996400, "default": {"kl": 0.01150740496814251, "policy_loss": -0.14637181162834167, "vf_loss": 196.51158142089844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9797389507293701, "entropy": 3.409749746322632, "cur_lr": 4.999999873689376e-05, "total_loss": 196.38267517089844}, "load_time_ms": 0.623, "num_steps_sampled": 2996400, "grad_time_ms": 678.876, "update_time_ms": 2.676, "sample_time_ms": 33921.811}, "date": "2025-08-31_14-36-12", "hostname": "cda-server-4", "time_this_iter_s": 34.50360417366028, "episodes_total": 14982, "timestamp": 1756643772, "node_ip": "10.157.146.4", "done": false, "time_total_s": 80703.52129721642, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2498, "episode_reward_mean": -612.3499815145177, "training_iteration": 2498, "timesteps_total": 2997600, "policy_reward_mean": {}, "episode_reward_min": -796.6699741587374, "timesteps_since_restore": 2997600, "num_metric_batches_dropped": 0, "time_since_restore": 80738.42677998543, "episode_reward_max": -460.14932028104374, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2997600, "default": {"kl": 0.010404744185507298, "policy_loss": -0.136752650141716, "vf_loss": 420.0688171386719, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9448535442352295, "entropy": 3.503389358520508, "cur_lr": 4.999999873689376e-05, "total_loss": 419.9478759765625}, "load_time_ms": 0.631, "num_steps_sampled": 2997600, "grad_time_ms": 698.249, "update_time_ms": 2.664, "sample_time_ms": 33978.232}, "date": "2025-08-31_14-36-47", "hostname": "cda-server-4", "time_this_iter_s": 34.90548276901245, "episodes_total": 14988, "timestamp": 1756643807, "node_ip": "10.157.146.4", "done": false, "time_total_s": 80738.42677998543, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2499, "episode_reward_mean": -610.5569011290717, "training_iteration": 2499, "timesteps_total": 2998800, "policy_reward_mean": {}, "episode_reward_min": -796.6699741587374, "timesteps_since_restore": 2998800, "num_metric_batches_dropped": 0, "time_since_restore": 80772.84814572334, "episode_reward_max": -460.14932028104374, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 2998800, "default": {"kl": 0.01084558479487896, "policy_loss": -0.15051908791065216, "vf_loss": 395.1643981933594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9664489030838013, "entropy": 3.518019437789917, "cur_lr": 4.999999873689376e-05, "total_loss": 395.0303649902344}, "load_time_ms": 0.594, "num_steps_sampled": 2998800, "grad_time_ms": 692.394, "update_time_ms": 2.53, "sample_time_ms": 33895.914}, "date": "2025-08-31_14-37-21", "hostname": "cda-server-4", "time_this_iter_s": 34.42136573791504, "episodes_total": 14994, "timestamp": 1756643841, "node_ip": "10.157.146.4", "done": false, "time_total_s": 80772.84814572334, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2500, "episode_reward_mean": -611.0473227222188, "training_iteration": 2500, "timesteps_total": 3000000, "policy_reward_mean": {}, "episode_reward_min": -796.6699741587374, "timesteps_since_restore": 3000000, "num_metric_batches_dropped": 0, "time_since_restore": 80807.57797527313, "episode_reward_max": -460.14932028104374, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3000000, "default": {"kl": 0.010683962143957615, "policy_loss": -0.14605076611042023, "vf_loss": 550.3936157226562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9269337058067322, "entropy": 3.5468950271606445, "cur_lr": 4.999999873689376e-05, "total_loss": 550.2638549804688}, "load_time_ms": 0.594, "num_steps_sampled": 3000000, "grad_time_ms": 693.627, "update_time_ms": 2.498, "sample_time_ms": 33869.289}, "date": "2025-08-31_14-37-56", "hostname": "cda-server-4", "time_this_iter_s": 34.72982954978943, "episodes_total": 15000, "timestamp": 1756643876, "node_ip": "10.157.146.4", "done": false, "time_total_s": 80807.57797527313, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2501, "episode_reward_mean": -611.8555316204855, "training_iteration": 2501, "timesteps_total": 3001200, "policy_reward_mean": {}, "episode_reward_min": -796.6699741587374, "timesteps_since_restore": 3001200, "num_metric_batches_dropped": 0, "time_since_restore": 80841.66796326637, "episode_reward_max": -469.53368753762345, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3001200, "default": {"kl": 0.009082157164812088, "policy_loss": -0.12285184860229492, "vf_loss": 42.07218551635742, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9932885766029358, "entropy": 3.286504030227661, "cur_lr": 4.999999873689376e-05, "total_loss": 41.96312713623047}, "load_time_ms": 0.632, "num_steps_sampled": 3001200, "grad_time_ms": 676.62, "update_time_ms": 2.461, "sample_time_ms": 33827.066}, "date": "2025-08-31_14-38-30", "hostname": "cda-server-4", "time_this_iter_s": 34.089987993240356, "episodes_total": 15006, "timestamp": 1756643910, "node_ip": "10.157.146.4", "done": false, "time_total_s": 80841.66796326637, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2502, "episode_reward_mean": -611.9397019369349, "training_iteration": 2502, "timesteps_total": 3002400, "policy_reward_mean": {}, "episode_reward_min": -796.6699741587374, "timesteps_since_restore": 3002400, "num_metric_batches_dropped": 0, "time_since_restore": 80875.79305672646, "episode_reward_max": -469.53368753762345, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3002400, "default": {"kl": 0.008942322805523872, "policy_loss": -0.11085336655378342, "vf_loss": 56.72688674926758, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9951449632644653, "entropy": 3.5709524154663086, "cur_lr": 4.999999873689376e-05, "total_loss": 56.629615783691406}, "load_time_ms": 0.63, "num_steps_sampled": 3002400, "grad_time_ms": 670.705, "update_time_ms": 2.465, "sample_time_ms": 33795.478}, "date": "2025-08-31_14-39-04", "hostname": "cda-server-4", "time_this_iter_s": 34.12509346008301, "episodes_total": 15012, "timestamp": 1756643944, "node_ip": "10.157.146.4", "done": false, "time_total_s": 80875.79305672646, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2503, "episode_reward_mean": -612.540967927348, "training_iteration": 2503, "timesteps_total": 3003600, "policy_reward_mean": {}, "episode_reward_min": -796.6699741587374, "timesteps_since_restore": 3003600, "num_metric_batches_dropped": 0, "time_since_restore": 80910.79975414276, "episode_reward_max": -469.53368753762345, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3003600, "default": {"kl": 0.010089773684740067, "policy_loss": -0.13456933200359344, "vf_loss": 321.0320739746094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9600859880447388, "entropy": 3.458907127380371, "cur_lr": 4.999999873689376e-05, "total_loss": 320.9128112792969}, "load_time_ms": 0.631, "num_steps_sampled": 3003600, "grad_time_ms": 666.428, "update_time_ms": 2.356, "sample_time_ms": 33797.633}, "date": "2025-08-31_14-39-39", "hostname": "cda-server-4", "time_this_iter_s": 35.00669741630554, "episodes_total": 15018, "timestamp": 1756643979, "node_ip": "10.157.146.4", "done": false, "time_total_s": 80910.79975414276, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2504, "episode_reward_mean": -611.9106345049964, "training_iteration": 2504, "timesteps_total": 3004800, "policy_reward_mean": {}, "episode_reward_min": -796.6699741587374, "timesteps_since_restore": 3004800, "num_metric_batches_dropped": 0, "time_since_restore": 80945.0724811554, "episode_reward_max": -469.53368753762345, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3004800, "default": {"kl": 0.011816016398370266, "policy_loss": -0.14297275245189667, "vf_loss": 19.685558319091797, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9975197911262512, "entropy": 3.3250479698181152, "cur_lr": 4.999999873689376e-05, "total_loss": 19.560531616210938}, "load_time_ms": 0.627, "num_steps_sampled": 3004800, "grad_time_ms": 667.398, "update_time_ms": 2.371, "sample_time_ms": 33774.163}, "date": "2025-08-31_14-40-14", "hostname": "cda-server-4", "time_this_iter_s": 34.27272701263428, "episodes_total": 15024, "timestamp": 1756644014, "node_ip": "10.157.146.4", "done": false, "time_total_s": 80945.0724811554, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2505, "episode_reward_mean": -611.4790646731981, "training_iteration": 2505, "timesteps_total": 3006000, "policy_reward_mean": {}, "episode_reward_min": -796.6699741587374, "timesteps_since_restore": 3006000, "num_metric_batches_dropped": 0, "time_since_restore": 80979.8877491951, "episode_reward_max": -469.53368753762345, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3006000, "default": {"kl": 0.0135931596159935, "policy_loss": -0.16628962755203247, "vf_loss": 64.84346008300781, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.993646502494812, "entropy": 3.4387457370758057, "cur_lr": 4.999999873689376e-05, "total_loss": 64.69781494140625}, "load_time_ms": 0.629, "num_steps_sampled": 3006000, "grad_time_ms": 680.21, "update_time_ms": 2.377, "sample_time_ms": 33902.988}, "date": "2025-08-31_14-40-49", "hostname": "cda-server-4", "time_this_iter_s": 34.81526803970337, "episodes_total": 15030, "timestamp": 1756644049, "node_ip": "10.157.146.4", "done": false, "time_total_s": 80979.8877491951, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2506, "episode_reward_mean": -611.2127196196383, "training_iteration": 2506, "timesteps_total": 3007200, "policy_reward_mean": {}, "episode_reward_min": -796.6699741587374, "timesteps_since_restore": 3007200, "num_metric_batches_dropped": 0, "time_since_restore": 81014.55414962769, "episode_reward_max": -469.53368753762345, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3007200, "default": {"kl": 0.01172038447111845, "policy_loss": -0.1307011991739273, "vf_loss": 92.2841796875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9914729595184326, "entropy": 3.524360179901123, "cur_lr": 4.999999873689376e-05, "total_loss": 92.17127990722656}, "load_time_ms": 0.623, "num_steps_sampled": 3007200, "grad_time_ms": 673.62, "update_time_ms": 2.325, "sample_time_ms": 33872.882}, "date": "2025-08-31_14-41-23", "hostname": "cda-server-4", "time_this_iter_s": 34.66640043258667, "episodes_total": 15036, "timestamp": 1756644083, "node_ip": "10.157.146.4", "done": false, "time_total_s": 81014.55414962769, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2507, "episode_reward_mean": -610.679623091, "training_iteration": 2507, "timesteps_total": 3008400, "policy_reward_mean": {}, "episode_reward_min": -796.6699741587374, "timesteps_since_restore": 3008400, "num_metric_batches_dropped": 0, "time_since_restore": 81050.09147500992, "episode_reward_max": -469.53368753762345, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3008400, "default": {"kl": 0.010441215708851814, "policy_loss": -0.13331206142902374, "vf_loss": 117.50896453857422, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9859945774078369, "entropy": 3.495600700378418, "cur_lr": 4.999999873689376e-05, "total_loss": 117.39151763916016}, "load_time_ms": 0.657, "num_steps_sampled": 3008400, "grad_time_ms": 672.632, "update_time_ms": 2.259, "sample_time_ms": 33977.255}, "date": "2025-08-31_14-41-59", "hostname": "cda-server-4", "time_this_iter_s": 35.537325382232666, "episodes_total": 15042, "timestamp": 1756644119, "node_ip": "10.157.146.4", "done": false, "time_total_s": 81050.09147500992, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2508, "episode_reward_mean": -609.8697069498721, "training_iteration": 2508, "timesteps_total": 3009600, "policy_reward_mean": {}, "episode_reward_min": -796.6699741587374, "timesteps_since_restore": 3009600, "num_metric_batches_dropped": 0, "time_since_restore": 81084.97846341133, "episode_reward_max": -469.53368753762345, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3009600, "default": {"kl": 0.008282299153506756, "policy_loss": -0.12761592864990234, "vf_loss": 206.95574951171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9683922529220581, "entropy": 3.354384183883667, "cur_lr": 4.999999873689376e-05, "total_loss": 206.84071350097656}, "load_time_ms": 0.685, "num_steps_sampled": 3009600, "grad_time_ms": 672.326, "update_time_ms": 2.29, "sample_time_ms": 33975.604}, "date": "2025-08-31_14-42-34", "hostname": "cda-server-4", "time_this_iter_s": 34.886988401412964, "episodes_total": 15048, "timestamp": 1756644154, "node_ip": "10.157.146.4", "done": false, "time_total_s": 81084.97846341133, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2509, "episode_reward_mean": -609.8134271322964, "training_iteration": 2509, "timesteps_total": 3010800, "policy_reward_mean": {}, "episode_reward_min": -796.6699741587374, "timesteps_since_restore": 3010800, "num_metric_batches_dropped": 0, "time_since_restore": 81118.80236983299, "episode_reward_max": -526.3448382836773, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3010800, "default": {"kl": 0.010214090347290039, "policy_loss": -0.11573966592550278, "vf_loss": 178.93673706054688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9823654890060425, "entropy": 3.3477277755737305, "cur_lr": 4.999999873689376e-05, "total_loss": 178.83651733398438}, "load_time_ms": 0.682, "num_steps_sampled": 3010800, "grad_time_ms": 675.731, "update_time_ms": 2.36, "sample_time_ms": 33912.446}, "date": "2025-08-31_14-43-07", "hostname": "cda-server-4", "time_this_iter_s": 33.82390642166138, "episodes_total": 15054, "timestamp": 1756644187, "node_ip": "10.157.146.4", "done": false, "time_total_s": 81118.80236983299, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2510, "episode_reward_mean": -612.0558115701659, "training_iteration": 2510, "timesteps_total": 3012000, "policy_reward_mean": {}, "episode_reward_min": -796.6699741587374, "timesteps_since_restore": 3012000, "num_metric_batches_dropped": 0, "time_since_restore": 81153.34612226486, "episode_reward_max": -526.3448382836773, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3012000, "default": {"kl": 0.00828276202082634, "policy_loss": -0.12593761086463928, "vf_loss": 198.14260864257812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9823911190032959, "entropy": 3.70815372467041, "cur_lr": 4.999999873689376e-05, "total_loss": 198.02923583984375}, "load_time_ms": 0.678, "num_steps_sampled": 3012000, "grad_time_ms": 672.71, "update_time_ms": 2.345, "sample_time_ms": 33896.934}, "date": "2025-08-31_14-43-42", "hostname": "cda-server-4", "time_this_iter_s": 34.54375243186951, "episodes_total": 15060, "timestamp": 1756644222, "node_ip": "10.157.146.4", "done": false, "time_total_s": 81153.34612226486, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2511, "episode_reward_mean": -609.6084441380201, "training_iteration": 2511, "timesteps_total": 3013200, "policy_reward_mean": {}, "episode_reward_min": -793.2232236790828, "timesteps_since_restore": 3013200, "num_metric_batches_dropped": 0, "time_since_restore": 81188.04008340836, "episode_reward_max": -526.3448382836773, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3013200, "default": {"kl": 0.010900570079684258, "policy_loss": -0.12873710691928864, "vf_loss": 21.63641357421875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9970953464508057, "entropy": 3.462925910949707, "cur_lr": 4.999999873689376e-05, "total_loss": 21.52423095703125}, "load_time_ms": 0.642, "num_steps_sampled": 3013200, "grad_time_ms": 669.108, "update_time_ms": 2.327, "sample_time_ms": 33961.091}, "date": "2025-08-31_14-44-17", "hostname": "cda-server-4", "time_this_iter_s": 34.69396114349365, "episodes_total": 15066, "timestamp": 1756644257, "node_ip": "10.157.146.4", "done": false, "time_total_s": 81188.04008340836, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2512, "episode_reward_mean": -610.4712559299978, "training_iteration": 2512, "timesteps_total": 3014400, "policy_reward_mean": {}, "episode_reward_min": -793.2232236790828, "timesteps_since_restore": 3014400, "num_metric_batches_dropped": 0, "time_since_restore": 81222.0899913311, "episode_reward_max": -526.9736120823342, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3014400, "default": {"kl": 0.010757103562355042, "policy_loss": -0.11398442834615707, "vf_loss": 278.27166748046875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9650084972381592, "entropy": 3.2798502445220947, "cur_lr": 4.999999873689376e-05, "total_loss": 278.1740417480469}, "load_time_ms": 0.642, "num_steps_sampled": 3014400, "grad_time_ms": 660.447, "update_time_ms": 2.275, "sample_time_ms": 33962.398}, "date": "2025-08-31_14-44-51", "hostname": "cda-server-4", "time_this_iter_s": 34.04990792274475, "episodes_total": 15072, "timestamp": 1756644291, "node_ip": "10.157.146.4", "done": false, "time_total_s": 81222.0899913311, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2513, "episode_reward_mean": -610.8339558886963, "training_iteration": 2513, "timesteps_total": 3015600, "policy_reward_mean": {}, "episode_reward_min": -793.2232236790828, "timesteps_since_restore": 3015600, "num_metric_batches_dropped": 0, "time_since_restore": 81255.82265210152, "episode_reward_max": -526.9736120823342, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3015600, "default": {"kl": 0.013243849389255047, "policy_loss": -0.1576230525970459, "vf_loss": 39.07477951049805, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9954025745391846, "entropy": 3.346946954727173, "cur_lr": 4.999999873689376e-05, "total_loss": 38.93727111816406}, "load_time_ms": 0.647, "num_steps_sampled": 3015600, "grad_time_ms": 651.532, "update_time_ms": 2.285, "sample_time_ms": 33843.937}, "date": "2025-08-31_14-45-25", "hostname": "cda-server-4", "time_this_iter_s": 33.73266077041626, "episodes_total": 15078, "timestamp": 1756644325, "node_ip": "10.157.146.4", "done": false, "time_total_s": 81255.82265210152, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2514, "episode_reward_mean": -609.65859040473, "training_iteration": 2514, "timesteps_total": 3016800, "policy_reward_mean": {}, "episode_reward_min": -793.2232236790828, "timesteps_since_restore": 3016800, "num_metric_batches_dropped": 0, "time_since_restore": 81290.88964867592, "episode_reward_max": -484.2258931115029, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3016800, "default": {"kl": 0.01242965366691351, "policy_loss": -0.15676827728748322, "vf_loss": 314.1180114746094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9697352647781372, "entropy": 3.310091972351074, "cur_lr": 4.999999873689376e-05, "total_loss": 313.9801330566406}, "load_time_ms": 0.653, "num_steps_sampled": 3016800, "grad_time_ms": 629.715, "update_time_ms": 2.266, "sample_time_ms": 33945.253}, "date": "2025-08-31_14-46-00", "hostname": "cda-server-4", "time_this_iter_s": 35.066996574401855, "episodes_total": 15084, "timestamp": 1756644360, "node_ip": "10.157.146.4", "done": false, "time_total_s": 81290.88964867592, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2515, "episode_reward_mean": -610.5687988546744, "training_iteration": 2515, "timesteps_total": 3018000, "policy_reward_mean": {}, "episode_reward_min": -793.2232236790828, "timesteps_since_restore": 3018000, "num_metric_batches_dropped": 0, "time_since_restore": 81325.62909722328, "episode_reward_max": -484.2258931115029, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3018000, "default": {"kl": 0.01155807450413704, "policy_loss": -0.14629629254341125, "vf_loss": 50.261314392089844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9936119914054871, "entropy": 3.3489410877227783, "cur_lr": 4.999999873689376e-05, "total_loss": 50.132568359375}, "load_time_ms": 0.652, "num_steps_sampled": 3018000, "grad_time_ms": 616.202, "update_time_ms": 2.22, "sample_time_ms": 33951.049}, "date": "2025-08-31_14-46-34", "hostname": "cda-server-4", "time_this_iter_s": 34.73944854736328, "episodes_total": 15090, "timestamp": 1756644394, "node_ip": "10.157.146.4", "done": false, "time_total_s": 81325.62909722328, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2516, "episode_reward_mean": -611.4498767378896, "training_iteration": 2516, "timesteps_total": 3019200, "policy_reward_mean": {}, "episode_reward_min": -793.2232236790828, "timesteps_since_restore": 3019200, "num_metric_batches_dropped": 0, "time_since_restore": 81359.78460550308, "episode_reward_max": -484.2258931115029, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3019200, "default": {"kl": 0.011559166945517063, "policy_loss": -0.15158069133758545, "vf_loss": 408.34765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9635851383209229, "entropy": 3.6552281379699707, "cur_lr": 4.999999873689376e-05, "total_loss": 408.2136535644531}, "load_time_ms": 0.693, "num_steps_sampled": 3019200, "grad_time_ms": 601.057, "update_time_ms": 2.247, "sample_time_ms": 33915.006}, "date": "2025-08-31_14-47-09", "hostname": "cda-server-4", "time_this_iter_s": 34.155508279800415, "episodes_total": 15096, "timestamp": 1756644429, "node_ip": "10.157.146.4", "done": false, "time_total_s": 81359.78460550308, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2517, "episode_reward_mean": -610.8898250025115, "training_iteration": 2517, "timesteps_total": 3020400, "policy_reward_mean": {}, "episode_reward_min": -793.2232236790828, "timesteps_since_restore": 3020400, "num_metric_batches_dropped": 0, "time_since_restore": 81394.1995344162, "episode_reward_max": -484.2258931115029, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3020400, "default": {"kl": 0.013193611055612564, "policy_loss": -0.15473991632461548, "vf_loss": 75.16090393066406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.991652250289917, "entropy": 3.51417875289917, "cur_lr": 4.999999873689376e-05, "total_loss": 75.02619934082031}, "load_time_ms": 0.659, "num_steps_sampled": 3020400, "grad_time_ms": 588.292, "update_time_ms": 2.191, "sample_time_ms": 33815.629}, "date": "2025-08-31_14-47-43", "hostname": "cda-server-4", "time_this_iter_s": 34.414928913116455, "episodes_total": 15102, "timestamp": 1756644463, "node_ip": "10.157.146.4", "done": false, "time_total_s": 81394.1995344162, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2518, "episode_reward_mean": -611.287012671302, "training_iteration": 2518, "timesteps_total": 3021600, "policy_reward_mean": {}, "episode_reward_min": -793.2232236790828, "timesteps_since_restore": 3021600, "num_metric_batches_dropped": 0, "time_since_restore": 81428.90459012985, "episode_reward_max": -484.2258931115029, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3021600, "default": {"kl": 0.009964029304683208, "policy_loss": -0.13784806430339813, "vf_loss": 198.82171630859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9724494218826294, "entropy": 3.425177574157715, "cur_lr": 4.999999873689376e-05, "total_loss": 198.69900512695312}, "load_time_ms": 0.62, "num_steps_sampled": 3021600, "grad_time_ms": 576.276, "update_time_ms": 2.147, "sample_time_ms": 33809.57}, "date": "2025-08-31_14-48-18", "hostname": "cda-server-4", "time_this_iter_s": 34.705055713653564, "episodes_total": 15108, "timestamp": 1756644498, "node_ip": "10.157.146.4", "done": false, "time_total_s": 81428.90459012985, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2519, "episode_reward_mean": -611.4504107582009, "training_iteration": 2519, "timesteps_total": 3022800, "policy_reward_mean": {}, "episode_reward_min": -793.2232236790828, "timesteps_since_restore": 3022800, "num_metric_batches_dropped": 0, "time_since_restore": 81463.73177194595, "episode_reward_max": -484.2258931115029, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3022800, "default": {"kl": 0.01062131766229868, "policy_loss": -0.1463819444179535, "vf_loss": 70.99542999267578, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.992172360420227, "entropy": 3.4053752422332764, "cur_lr": 4.999999873689376e-05, "total_loss": 70.86518096923828}, "load_time_ms": 0.658, "num_steps_sampled": 3022800, "grad_time_ms": 581.986, "update_time_ms": 2.143, "sample_time_ms": 33904.015}, "date": "2025-08-31_14-48-53", "hostname": "cda-server-4", "time_this_iter_s": 34.827181816101074, "episodes_total": 15114, "timestamp": 1756644533, "node_ip": "10.157.146.4", "done": false, "time_total_s": 81463.73177194595, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2520, "episode_reward_mean": -610.1900034054137, "training_iteration": 2520, "timesteps_total": 3024000, "policy_reward_mean": {}, "episode_reward_min": -793.2232236790828, "timesteps_since_restore": 3024000, "num_metric_batches_dropped": 0, "time_since_restore": 81497.85386562347, "episode_reward_max": -484.2258931115029, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3024000, "default": {"kl": 0.013441496528685093, "policy_loss": -0.1637830138206482, "vf_loss": 458.5948486328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.95313960313797, "entropy": 3.38854718208313, "cur_lr": 4.999999873689376e-05, "total_loss": 458.4514465332031}, "load_time_ms": 0.659, "num_steps_sampled": 3024000, "grad_time_ms": 576.085, "update_time_ms": 2.222, "sample_time_ms": 33867.659}, "date": "2025-08-31_14-49-27", "hostname": "cda-server-4", "time_this_iter_s": 34.12209367752075, "episodes_total": 15120, "timestamp": 1756644567, "node_ip": "10.157.146.4", "done": false, "time_total_s": 81497.85386562347, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2521, "episode_reward_mean": -609.4347531752165, "training_iteration": 2521, "timesteps_total": 3025200, "policy_reward_mean": {}, "episode_reward_min": -793.2232236790828, "timesteps_since_restore": 3025200, "num_metric_batches_dropped": 0, "time_since_restore": 81533.05271911621, "episode_reward_max": -484.2258931115029, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3025200, "default": {"kl": 0.012599604204297066, "policy_loss": -0.15509560704231262, "vf_loss": 88.07687377929688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9923110604286194, "entropy": 3.43487811088562, "cur_lr": 4.999999873689376e-05, "total_loss": 87.94091796875}, "load_time_ms": 0.666, "num_steps_sampled": 3025200, "grad_time_ms": 596.375, "update_time_ms": 2.217, "sample_time_ms": 33897.917}, "date": "2025-08-31_14-50-02", "hostname": "cda-server-4", "time_this_iter_s": 35.198853492736816, "episodes_total": 15126, "timestamp": 1756644602, "node_ip": "10.157.146.4", "done": false, "time_total_s": 81533.05271911621, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2522, "episode_reward_mean": -610.2015283465506, "training_iteration": 2522, "timesteps_total": 3026400, "policy_reward_mean": {}, "episode_reward_min": -793.2232236790828, "timesteps_since_restore": 3026400, "num_metric_batches_dropped": 0, "time_since_restore": 81567.78797793388, "episode_reward_max": -484.2258931115029, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3026400, "default": {"kl": 0.010566280223429203, "policy_loss": -0.14598363637924194, "vf_loss": 341.2807312011719, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9783260822296143, "entropy": 3.544196844100952, "cur_lr": 4.999999873689376e-05, "total_loss": 341.1507568359375}, "load_time_ms": 0.663, "num_steps_sampled": 3026400, "grad_time_ms": 588.175, "update_time_ms": 2.243, "sample_time_ms": 33974.533}, "date": "2025-08-31_14-50-37", "hostname": "cda-server-4", "time_this_iter_s": 34.73525881767273, "episodes_total": 15132, "timestamp": 1756644637, "node_ip": "10.157.146.4", "done": false, "time_total_s": 81567.78797793388, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2523, "episode_reward_mean": -610.6225194991325, "training_iteration": 2523, "timesteps_total": 3027600, "policy_reward_mean": {}, "episode_reward_min": -793.2232236790828, "timesteps_since_restore": 3027600, "num_metric_batches_dropped": 0, "time_since_restore": 81601.84523582458, "episode_reward_max": -484.2258931115029, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3027600, "default": {"kl": 0.010125677101314068, "policy_loss": -0.1330610066652298, "vf_loss": 152.83584594726562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9757493138313293, "entropy": 3.468173027038574, "cur_lr": 4.999999873689376e-05, "total_loss": 152.71815490722656}, "load_time_ms": 0.66, "num_steps_sampled": 3027600, "grad_time_ms": 576.8, "update_time_ms": 2.225, "sample_time_ms": 34018.419}, "date": "2025-08-31_14-51-11", "hostname": "cda-server-4", "time_this_iter_s": 34.057257890701294, "episodes_total": 15138, "timestamp": 1756644671, "node_ip": "10.157.146.4", "done": false, "time_total_s": 81601.84523582458, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2524, "episode_reward_mean": -610.5592738919402, "training_iteration": 2524, "timesteps_total": 3028800, "policy_reward_mean": {}, "episode_reward_min": -793.2232236790828, "timesteps_since_restore": 3028800, "num_metric_batches_dropped": 0, "time_since_restore": 81635.19900512695, "episode_reward_max": -484.2258931115029, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3028800, "default": {"kl": 0.011818038299679756, "policy_loss": -0.1565084457397461, "vf_loss": 49.58824920654297, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9924719333648682, "entropy": 3.5525169372558594, "cur_lr": 4.999999873689376e-05, "total_loss": 49.44969177246094}, "load_time_ms": 0.658, "num_steps_sampled": 3028800, "grad_time_ms": 576.896, "update_time_ms": 2.191, "sample_time_ms": 33847.019}, "date": "2025-08-31_14-51-44", "hostname": "cda-server-4", "time_this_iter_s": 33.353769302368164, "episodes_total": 15144, "timestamp": 1756644704, "node_ip": "10.157.146.4", "done": false, "time_total_s": 81635.19900512695, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2525, "episode_reward_mean": -610.0206392776619, "training_iteration": 2525, "timesteps_total": 3030000, "policy_reward_mean": {}, "episode_reward_min": -793.2232236790828, "timesteps_since_restore": 3030000, "num_metric_batches_dropped": 0, "time_since_restore": 81669.77264428139, "episode_reward_max": -484.2258931115029, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3030000, "default": {"kl": 0.009507421404123306, "policy_loss": -0.11747537553310394, "vf_loss": 144.66697692871094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9761778712272644, "entropy": 3.324625015258789, "cur_lr": 4.999999873689376e-05, "total_loss": 144.56394958496094}, "load_time_ms": 0.651, "num_steps_sampled": 3030000, "grad_time_ms": 568.174, "update_time_ms": 2.229, "sample_time_ms": 33839.27}, "date": "2025-08-31_14-52-19", "hostname": "cda-server-4", "time_this_iter_s": 34.573639154434204, "episodes_total": 15150, "timestamp": 1756644739, "node_ip": "10.157.146.4", "done": false, "time_total_s": 81669.77264428139, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2526, "episode_reward_mean": -611.2118265754308, "training_iteration": 2526, "timesteps_total": 3031200, "policy_reward_mean": {}, "episode_reward_min": -793.2232236790828, "timesteps_since_restore": 3031200, "num_metric_batches_dropped": 0, "time_since_restore": 81705.21549797058, "episode_reward_max": -484.2258931115029, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3031200, "default": {"kl": 0.01048082485795021, "policy_loss": -0.135944664478302, "vf_loss": 137.54359436035156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9920022487640381, "entropy": 3.4980478286743164, "cur_lr": 4.999999873689376e-05, "total_loss": 137.42356872558594}, "load_time_ms": 0.616, "num_steps_sampled": 3031200, "grad_time_ms": 590.04, "update_time_ms": 2.253, "sample_time_ms": 33946.079}, "date": "2025-08-31_14-52-54", "hostname": "cda-server-4", "time_this_iter_s": 35.442853689193726, "episodes_total": 15156, "timestamp": 1756644774, "node_ip": "10.157.146.4", "done": false, "time_total_s": 81705.21549797058, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2527, "episode_reward_mean": -610.1090051600427, "training_iteration": 2527, "timesteps_total": 3032400, "policy_reward_mean": {}, "episode_reward_min": -669.9579326299478, "timesteps_since_restore": 3032400, "num_metric_batches_dropped": 0, "time_since_restore": 81738.93142104149, "episode_reward_max": -484.2258931115029, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3032400, "default": {"kl": 0.012672674842178822, "policy_loss": -0.15305227041244507, "vf_loss": 20.888933181762695, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9970818758010864, "entropy": 3.5768191814422607, "cur_lr": 4.999999873689376e-05, "total_loss": 20.755126953125}, "load_time_ms": 0.628, "num_steps_sampled": 3032400, "grad_time_ms": 603.168, "update_time_ms": 2.294, "sample_time_ms": 33862.979}, "date": "2025-08-31_14-53-28", "hostname": "cda-server-4", "time_this_iter_s": 33.71592307090759, "episodes_total": 15162, "timestamp": 1756644808, "node_ip": "10.157.146.4", "done": false, "time_total_s": 81738.93142104149, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2528, "episode_reward_mean": -610.4909985629675, "training_iteration": 2528, "timesteps_total": 3033600, "policy_reward_mean": {}, "episode_reward_min": -669.9579326299478, "timesteps_since_restore": 3033600, "num_metric_batches_dropped": 0, "time_since_restore": 81773.39772677422, "episode_reward_max": -484.2258931115029, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3033600, "default": {"kl": 0.00987317319959402, "policy_loss": -0.13773249089717865, "vf_loss": 235.26715087890625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.971887469291687, "entropy": 3.644749879837036, "cur_lr": 4.999999873689376e-05, "total_loss": 235.14442443847656}, "load_time_ms": 0.639, "num_steps_sampled": 3033600, "grad_time_ms": 615.476, "update_time_ms": 2.369, "sample_time_ms": 33826.735}, "date": "2025-08-31_14-54-02", "hostname": "cda-server-4", "time_this_iter_s": 34.46630573272705, "episodes_total": 15168, "timestamp": 1756644842, "node_ip": "10.157.146.4", "done": false, "time_total_s": 81773.39772677422, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2529, "episode_reward_mean": -609.8929285939294, "training_iteration": 2529, "timesteps_total": 3034800, "policy_reward_mean": {}, "episode_reward_min": -669.9579326299478, "timesteps_since_restore": 3034800, "num_metric_batches_dropped": 0, "time_since_restore": 81808.88496613503, "episode_reward_max": -484.2258931115029, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3034800, "default": {"kl": 0.012488448061048985, "policy_loss": -0.15397171676158905, "vf_loss": 115.20993041992188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9966320395469666, "entropy": 3.422740936279297, "cur_lr": 4.999999873689376e-05, "total_loss": 115.07493591308594}, "load_time_ms": 0.602, "num_steps_sampled": 3034800, "grad_time_ms": 613.441, "update_time_ms": 2.329, "sample_time_ms": 33894.941}, "date": "2025-08-31_14-54-38", "hostname": "cda-server-4", "time_this_iter_s": 35.487239360809326, "episodes_total": 15174, "timestamp": 1756644878, "node_ip": "10.157.146.4", "done": false, "time_total_s": 81808.88496613503, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2530, "episode_reward_mean": -609.1840970027873, "training_iteration": 2530, "timesteps_total": 3036000, "policy_reward_mean": {}, "episode_reward_min": -669.9579326299478, "timesteps_since_restore": 3036000, "num_metric_batches_dropped": 0, "time_since_restore": 81843.79049706459, "episode_reward_max": -484.2258931115029, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3036000, "default": {"kl": 0.009962956421077251, "policy_loss": -0.13616451621055603, "vf_loss": 59.23115539550781, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9915740489959717, "entropy": 3.35893177986145, "cur_lr": 4.999999873689376e-05, "total_loss": 59.11012649536133}, "load_time_ms": 0.611, "num_steps_sampled": 3036000, "grad_time_ms": 620.21, "update_time_ms": 2.333, "sample_time_ms": 33966.486}, "date": "2025-08-31_14-55-13", "hostname": "cda-server-4", "time_this_iter_s": 34.90553092956543, "episodes_total": 15180, "timestamp": 1756644913, "node_ip": "10.157.146.4", "done": false, "time_total_s": 81843.79049706459, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2531, "episode_reward_mean": -610.9769119404481, "training_iteration": 2531, "timesteps_total": 3037200, "policy_reward_mean": {}, "episode_reward_min": -669.9579326299478, "timesteps_since_restore": 3037200, "num_metric_batches_dropped": 0, "time_since_restore": 81877.53592848778, "episode_reward_max": -520.6643424990391, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3037200, "default": {"kl": 0.011642576195299625, "policy_loss": -0.14133939146995544, "vf_loss": 192.73036193847656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9855428338050842, "entropy": 3.3602426052093506, "cur_lr": 4.999999873689376e-05, "total_loss": 192.60671997070312}, "load_time_ms": 0.601, "num_steps_sampled": 3037200, "grad_time_ms": 610.156, "update_time_ms": 2.448, "sample_time_ms": 33830.98}, "date": "2025-08-31_14-55-47", "hostname": "cda-server-4", "time_this_iter_s": 33.745431423187256, "episodes_total": 15186, "timestamp": 1756644947, "node_ip": "10.157.146.4", "done": false, "time_total_s": 81877.53592848778, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2532, "episode_reward_mean": -610.954332386594, "training_iteration": 2532, "timesteps_total": 3038400, "policy_reward_mean": {}, "episode_reward_min": -669.9579326299478, "timesteps_since_restore": 3038400, "num_metric_batches_dropped": 0, "time_since_restore": 81914.36928153038, "episode_reward_max": -520.6643424990391, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3038400, "default": {"kl": 0.011980145238339901, "policy_loss": -0.1454308182001114, "vf_loss": 268.4280090332031, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9741908311843872, "entropy": 3.324127197265625, "cur_lr": 4.999999873689376e-05, "total_loss": 268.30072021484375}, "load_time_ms": 0.627, "num_steps_sampled": 3038400, "grad_time_ms": 620.303, "update_time_ms": 2.455, "sample_time_ms": 34030.695}, "date": "2025-08-31_14-56-24", "hostname": "cda-server-4", "time_this_iter_s": 36.83335304260254, "episodes_total": 15192, "timestamp": 1756644984, "node_ip": "10.157.146.4", "done": false, "time_total_s": 81914.36928153038, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2533, "episode_reward_mean": -610.3356300742921, "training_iteration": 2533, "timesteps_total": 3039600, "policy_reward_mean": {}, "episode_reward_min": -669.9579326299478, "timesteps_since_restore": 3039600, "num_metric_batches_dropped": 0, "time_since_restore": 81949.33669257164, "episode_reward_max": -520.6643424990391, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3039600, "default": {"kl": 0.009142033755779266, "policy_loss": -0.14492422342300415, "vf_loss": 89.16783142089844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9914560317993164, "entropy": 3.3062050342559814, "cur_lr": 4.999999873689376e-05, "total_loss": 89.03679656982422}, "load_time_ms": 0.632, "num_steps_sampled": 3039600, "grad_time_ms": 654.132, "update_time_ms": 2.486, "sample_time_ms": 34087.734}, "date": "2025-08-31_14-56-58", "hostname": "cda-server-4", "time_this_iter_s": 34.967411041259766, "episodes_total": 15198, "timestamp": 1756645018, "node_ip": "10.157.146.4", "done": false, "time_total_s": 81949.33669257164, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2534, "episode_reward_mean": -610.0257858170003, "training_iteration": 2534, "timesteps_total": 3040800, "policy_reward_mean": {}, "episode_reward_min": -669.9579326299478, "timesteps_since_restore": 3040800, "num_metric_batches_dropped": 0, "time_since_restore": 81983.26359248161, "episode_reward_max": -520.6643424990391, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3040800, "default": {"kl": 0.011481489054858685, "policy_loss": -0.15207745134830475, "vf_loss": 41.289859771728516, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9948228001594543, "entropy": 3.3354649543762207, "cur_lr": 4.999999873689376e-05, "total_loss": 41.15522384643555}, "load_time_ms": 0.64, "num_steps_sampled": 3040800, "grad_time_ms": 660.677, "update_time_ms": 2.615, "sample_time_ms": 34138.356}, "date": "2025-08-31_14-57-32", "hostname": "cda-server-4", "time_this_iter_s": 33.926899909973145, "episodes_total": 15204, "timestamp": 1756645052, "node_ip": "10.157.146.4", "done": false, "time_total_s": 81983.26359248161, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2535, "episode_reward_mean": -609.9567953232122, "training_iteration": 2535, "timesteps_total": 3042000, "policy_reward_mean": {}, "episode_reward_min": -669.9579326299478, "timesteps_since_restore": 3042000, "num_metric_batches_dropped": 0, "time_since_restore": 82017.18993854523, "episode_reward_max": -520.6643424990391, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3042000, "default": {"kl": 0.009805107489228249, "policy_loss": -0.13500873744487762, "vf_loss": 310.3597412109375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9616882801055908, "entropy": 3.4174909591674805, "cur_lr": 4.999999873689376e-05, "total_loss": 310.2395935058594}, "load_time_ms": 0.647, "num_steps_sampled": 3042000, "grad_time_ms": 656.379, "update_time_ms": 2.622, "sample_time_ms": 34077.895}, "date": "2025-08-31_14-58-06", "hostname": "cda-server-4", "time_this_iter_s": 33.92634606361389, "episodes_total": 15210, "timestamp": 1756645086, "node_ip": "10.157.146.4", "done": false, "time_total_s": 82017.18993854523, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2536, "episode_reward_mean": -609.2026467926207, "training_iteration": 2536, "timesteps_total": 3043200, "policy_reward_mean": {}, "episode_reward_min": -669.9579326299478, "timesteps_since_restore": 3043200, "num_metric_batches_dropped": 0, "time_since_restore": 82052.07038927078, "episode_reward_max": -486.5865004302283, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3043200, "default": {"kl": 0.010686662979424, "policy_loss": -0.13793690502643585, "vf_loss": 325.52093505859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9750306010246277, "entropy": 3.3752596378326416, "cur_lr": 4.999999873689376e-05, "total_loss": 325.3992614746094}, "load_time_ms": 0.642, "num_steps_sampled": 3043200, "grad_time_ms": 649.642, "update_time_ms": 2.649, "sample_time_ms": 34028.573}, "date": "2025-08-31_14-58-41", "hostname": "cda-server-4", "time_this_iter_s": 34.88045072555542, "episodes_total": 15216, "timestamp": 1756645121, "node_ip": "10.157.146.4", "done": false, "time_total_s": 82052.07038927078, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2537, "episode_reward_mean": -610.2259203923771, "training_iteration": 2537, "timesteps_total": 3044400, "policy_reward_mean": {}, "episode_reward_min": -669.9579326299478, "timesteps_since_restore": 3044400, "num_metric_batches_dropped": 0, "time_since_restore": 82087.22057199478, "episode_reward_max": -486.5865004302283, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3044400, "default": {"kl": 0.010256296023726463, "policy_loss": -0.1296243816614151, "vf_loss": 60.88906478881836, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9925361275672913, "entropy": 3.3071725368499756, "cur_lr": 4.999999873689376e-05, "total_loss": 60.77501678466797}, "load_time_ms": 0.631, "num_steps_sampled": 3044400, "grad_time_ms": 645.639, "update_time_ms": 2.639, "sample_time_ms": 34176.064}, "date": "2025-08-31_14-59-16", "hostname": "cda-server-4", "time_this_iter_s": 35.15018272399902, "episodes_total": 15222, "timestamp": 1756645156, "node_ip": "10.157.146.4", "done": false, "time_total_s": 82087.22057199478, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2538, "episode_reward_mean": -609.5951040830801, "training_iteration": 2538, "timesteps_total": 3045600, "policy_reward_mean": {}, "episode_reward_min": -669.9579326299478, "timesteps_since_restore": 3045600, "num_metric_batches_dropped": 0, "time_since_restore": 82121.3662481308, "episode_reward_max": -486.5865004302283, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3045600, "default": {"kl": 0.008064445108175278, "policy_loss": -0.09096047282218933, "vf_loss": 220.09603881835938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9699242115020752, "entropy": 3.1244094371795654, "cur_lr": 4.999999873689376e-05, "total_loss": 220.017333984375}, "load_time_ms": 0.645, "num_steps_sampled": 3045600, "grad_time_ms": 643.458, "update_time_ms": 2.539, "sample_time_ms": 34146.256}, "date": "2025-08-31_14-59-51", "hostname": "cda-server-4", "time_this_iter_s": 34.145676136016846, "episodes_total": 15228, "timestamp": 1756645191, "node_ip": "10.157.146.4", "done": false, "time_total_s": 82121.3662481308, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2539, "episode_reward_mean": -609.01020654204, "training_iteration": 2539, "timesteps_total": 3046800, "policy_reward_mean": {}, "episode_reward_min": -653.6214980217353, "timesteps_since_restore": 3046800, "num_metric_batches_dropped": 0, "time_since_restore": 82156.42320203781, "episode_reward_max": -486.5865004302283, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3046800, "default": {"kl": 0.010053731501102448, "policy_loss": -0.13211143016815186, "vf_loss": 268.7254943847656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9681652784347534, "entropy": 3.3942766189575195, "cur_lr": 4.999999873689376e-05, "total_loss": 268.6086730957031}, "load_time_ms": 0.647, "num_steps_sampled": 3046800, "grad_time_ms": 633.067, "update_time_ms": 2.521, "sample_time_ms": 34113.648}, "date": "2025-08-31_15-00-26", "hostname": "cda-server-4", "time_this_iter_s": 35.05695390701294, "episodes_total": 15234, "timestamp": 1756645226, "node_ip": "10.157.146.4", "done": false, "time_total_s": 82156.42320203781, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2540, "episode_reward_mean": -608.8230455452094, "training_iteration": 2540, "timesteps_total": 3048000, "policy_reward_mean": {}, "episode_reward_min": -653.6214980217353, "timesteps_since_restore": 3048000, "num_metric_batches_dropped": 0, "time_since_restore": 82191.02286195755, "episode_reward_max": -486.5865004302283, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3048000, "default": {"kl": 0.010398130863904953, "policy_loss": -0.1567252278327942, "vf_loss": 201.44952392578125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9842115044593811, "entropy": 3.4025707244873047, "cur_lr": 4.999999873689376e-05, "total_loss": 201.30859375}, "load_time_ms": 0.675, "num_steps_sampled": 3048000, "grad_time_ms": 628.256, "update_time_ms": 2.477, "sample_time_ms": 34087.842}, "date": "2025-08-31_15-01-00", "hostname": "cda-server-4", "time_this_iter_s": 34.59965991973877, "episodes_total": 15240, "timestamp": 1756645260, "node_ip": "10.157.146.4", "done": false, "time_total_s": 82191.02286195755, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2541, "episode_reward_mean": -608.6709052009629, "training_iteration": 2541, "timesteps_total": 3049200, "policy_reward_mean": {}, "episode_reward_min": -653.6214980217353, "timesteps_since_restore": 3049200, "num_metric_batches_dropped": 0, "time_since_restore": 82224.91184401512, "episode_reward_max": -486.5865004302283, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3049200, "default": {"kl": 0.010749544017016888, "policy_loss": -0.15190355479717255, "vf_loss": 107.31385803222656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9856846928596497, "entropy": 3.4162988662719727, "cur_lr": 4.999999873689376e-05, "total_loss": 107.17828369140625}, "load_time_ms": 0.673, "num_steps_sampled": 3049200, "grad_time_ms": 621.206, "update_time_ms": 2.396, "sample_time_ms": 34109.451}, "date": "2025-08-31_15-01-34", "hostname": "cda-server-4", "time_this_iter_s": 33.88898205757141, "episodes_total": 15246, "timestamp": 1756645294, "node_ip": "10.157.146.4", "done": false, "time_total_s": 82224.91184401512, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2542, "episode_reward_mean": -608.5392036083554, "training_iteration": 2542, "timesteps_total": 3050400, "policy_reward_mean": {}, "episode_reward_min": -653.6214980217353, "timesteps_since_restore": 3050400, "num_metric_batches_dropped": 0, "time_since_restore": 82258.74071025848, "episode_reward_max": -486.5865004302283, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3050400, "default": {"kl": 0.008516267873346806, "policy_loss": -0.13325421512126923, "vf_loss": 160.86578369140625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9844788312911987, "entropy": 3.4668633937835693, "cur_lr": 4.999999873689376e-05, "total_loss": 160.74549865722656}, "load_time_ms": 0.647, "num_steps_sampled": 3050400, "grad_time_ms": 609.109, "update_time_ms": 2.363, "sample_time_ms": 33821.192}, "date": "2025-08-31_15-02-08", "hostname": "cda-server-4", "time_this_iter_s": 33.82886624336243, "episodes_total": 15252, "timestamp": 1756645328, "node_ip": "10.157.146.4", "done": false, "time_total_s": 82258.74071025848, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2543, "episode_reward_mean": -607.8860010751055, "training_iteration": 2543, "timesteps_total": 3051600, "policy_reward_mean": {}, "episode_reward_min": -639.2323720941288, "timesteps_since_restore": 3051600, "num_metric_batches_dropped": 0, "time_since_restore": 82292.77899169922, "episode_reward_max": -486.5865004302283, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3051600, "default": {"kl": 0.008967138826847076, "policy_loss": -0.13976025581359863, "vf_loss": 77.59017944335938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9893075227737427, "entropy": 3.338650941848755, "cur_lr": 4.999999873689376e-05, "total_loss": 77.46403503417969}, "load_time_ms": 0.635, "num_steps_sampled": 3051600, "grad_time_ms": 575.954, "update_time_ms": 2.304, "sample_time_ms": 33761.575}, "date": "2025-08-31_15-02-42", "hostname": "cda-server-4", "time_this_iter_s": 34.03828144073486, "episodes_total": 15258, "timestamp": 1756645362, "node_ip": "10.157.146.4", "done": false, "time_total_s": 82292.77899169922, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2544, "episode_reward_mean": -606.644835559501, "training_iteration": 2544, "timesteps_total": 3052800, "policy_reward_mean": {}, "episode_reward_min": -639.2323720941288, "timesteps_since_restore": 3052800, "num_metric_batches_dropped": 0, "time_since_restore": 82328.14762306213, "episode_reward_max": -486.5865004302283, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3052800, "default": {"kl": 0.010108113288879395, "policy_loss": -0.1431848704814911, "vf_loss": 118.09152221679688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9859183430671692, "entropy": 3.27665114402771, "cur_lr": 4.999999873689376e-05, "total_loss": 117.96370697021484}, "load_time_ms": 0.638, "num_steps_sampled": 3052800, "grad_time_ms": 613.89, "update_time_ms": 2.148, "sample_time_ms": 33867.795}, "date": "2025-08-31_15-03-18", "hostname": "cda-server-4", "time_this_iter_s": 35.36863136291504, "episodes_total": 15264, "timestamp": 1756645398, "node_ip": "10.157.146.4", "done": false, "time_total_s": 82328.14762306213, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2545, "episode_reward_mean": -607.5763041451751, "training_iteration": 2545, "timesteps_total": 3054000, "policy_reward_mean": {}, "episode_reward_min": -639.2323720941288, "timesteps_since_restore": 3054000, "num_metric_batches_dropped": 0, "time_since_restore": 82362.78139901161, "episode_reward_max": -486.5865004302283, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3054000, "default": {"kl": 0.010222827084362507, "policy_loss": -0.13758844137191772, "vf_loss": 152.7062225341797, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9766620993614197, "entropy": 3.4308338165283203, "cur_lr": 4.999999873689376e-05, "total_loss": 152.58416748046875}, "load_time_ms": 0.647, "num_steps_sampled": 3054000, "grad_time_ms": 642.339, "update_time_ms": 2.282, "sample_time_ms": 33909.968}, "date": "2025-08-31_15-03-52", "hostname": "cda-server-4", "time_this_iter_s": 34.63377594947815, "episodes_total": 15270, "timestamp": 1756645432, "node_ip": "10.157.146.4", "done": false, "time_total_s": 82362.78139901161, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2546, "episode_reward_mean": -607.8585954136984, "training_iteration": 2546, "timesteps_total": 3055200, "policy_reward_mean": {}, "episode_reward_min": -649.8817988146737, "timesteps_since_restore": 3055200, "num_metric_batches_dropped": 0, "time_since_restore": 82397.78531646729, "episode_reward_max": -486.5865004302283, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3055200, "default": {"kl": 0.012669427320361137, "policy_loss": -0.15612369775772095, "vf_loss": 190.320556640625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9808146357536316, "entropy": 3.425180435180664, "cur_lr": 4.999999873689376e-05, "total_loss": 190.18365478515625}, "load_time_ms": 0.651, "num_steps_sampled": 3055200, "grad_time_ms": 647.274, "update_time_ms": 2.257, "sample_time_ms": 33917.291}, "date": "2025-08-31_15-04-27", "hostname": "cda-server-4", "time_this_iter_s": 35.00391745567322, "episodes_total": 15276, "timestamp": 1756645467, "node_ip": "10.157.146.4", "done": false, "time_total_s": 82397.78531646729, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2547, "episode_reward_mean": -607.9560800356721, "training_iteration": 2547, "timesteps_total": 3056400, "policy_reward_mean": {}, "episode_reward_min": -649.8817988146737, "timesteps_since_restore": 3056400, "num_metric_batches_dropped": 0, "time_since_restore": 82432.84790873528, "episode_reward_max": -486.5865004302283, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3056400, "default": {"kl": 0.01030805241316557, "policy_loss": -0.13623438775539398, "vf_loss": 93.987060546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9903870820999146, "entropy": 3.360812187194824, "cur_lr": 4.999999873689376e-05, "total_loss": 93.86647033691406}, "load_time_ms": 0.651, "num_steps_sampled": 3056400, "grad_time_ms": 646.846, "update_time_ms": 2.299, "sample_time_ms": 33908.852}, "date": "2025-08-31_15-05-02", "hostname": "cda-server-4", "time_this_iter_s": 35.06259226799011, "episodes_total": 15282, "timestamp": 1756645502, "node_ip": "10.157.146.4", "done": false, "time_total_s": 82432.84790873528, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2548, "episode_reward_mean": -608.7401060240203, "training_iteration": 2548, "timesteps_total": 3057600, "policy_reward_mean": {}, "episode_reward_min": -649.8817988146737, "timesteps_since_restore": 3057600, "num_metric_batches_dropped": 0, "time_since_restore": 82466.7592830658, "episode_reward_max": -486.5865004302283, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3057600, "default": {"kl": 0.009944245219230652, "policy_loss": -0.14017456769943237, "vf_loss": 69.65869903564453, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9908854961395264, "entropy": 3.36691951751709, "cur_lr": 4.999999873689376e-05, "total_loss": 69.53362274169922}, "load_time_ms": 0.666, "num_steps_sampled": 3057600, "grad_time_ms": 641.242, "update_time_ms": 2.394, "sample_time_ms": 33890.925}, "date": "2025-08-31_15-05-36", "hostname": "cda-server-4", "time_this_iter_s": 33.91137433052063, "episodes_total": 15288, "timestamp": 1756645536, "node_ip": "10.157.146.4", "done": false, "time_total_s": 82466.7592830658, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2549, "episode_reward_mean": -609.3145404516094, "training_iteration": 2549, "timesteps_total": 3058800, "policy_reward_mean": {}, "episode_reward_min": -684.9965867600007, "timesteps_since_restore": 3058800, "num_metric_batches_dropped": 0, "time_since_restore": 82500.65321779251, "episode_reward_max": -486.5865004302283, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3058800, "default": {"kl": 0.011034977622330189, "policy_loss": -0.15109208226203918, "vf_loss": 479.32421875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9614890217781067, "entropy": 3.539210796356201, "cur_lr": 4.999999873689376e-05, "total_loss": 479.18988037109375}, "load_time_ms": 0.7, "num_steps_sampled": 3058800, "grad_time_ms": 656.63, "update_time_ms": 2.406, "sample_time_ms": 33759.132}, "date": "2025-08-31_15-06-10", "hostname": "cda-server-4", "time_this_iter_s": 33.89393472671509, "episodes_total": 15294, "timestamp": 1756645570, "node_ip": "10.157.146.4", "done": false, "time_total_s": 82500.65321779251, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2550, "episode_reward_mean": -608.6486813368006, "training_iteration": 2550, "timesteps_total": 3060000, "policy_reward_mean": {}, "episode_reward_min": -684.9965867600007, "timesteps_since_restore": 3060000, "num_metric_batches_dropped": 0, "time_since_restore": 82535.09452366829, "episode_reward_max": -486.5865004302283, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3060000, "default": {"kl": 0.01129092276096344, "policy_loss": -0.15745535492897034, "vf_loss": 354.73284912109375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.950347363948822, "entropy": 3.361600399017334, "cur_lr": 4.999999873689376e-05, "total_loss": 354.592529296875}, "load_time_ms": 0.666, "num_steps_sampled": 3060000, "grad_time_ms": 665.54, "update_time_ms": 2.446, "sample_time_ms": 33734.44}, "date": "2025-08-31_15-06-45", "hostname": "cda-server-4", "time_this_iter_s": 34.4413058757782, "episodes_total": 15300, "timestamp": 1756645605, "node_ip": "10.157.146.4", "done": false, "time_total_s": 82535.09452366829, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2551, "episode_reward_mean": -608.4673764635979, "training_iteration": 2551, "timesteps_total": 3061200, "policy_reward_mean": {}, "episode_reward_min": -684.9965867600007, "timesteps_since_restore": 3061200, "num_metric_batches_dropped": 0, "time_since_restore": 82570.21356534958, "episode_reward_max": -486.5865004302283, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3061200, "default": {"kl": 0.011080925352871418, "policy_loss": -0.14752639830112457, "vf_loss": 150.60690307617188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9789836406707764, "entropy": 3.6494483947753906, "cur_lr": 4.999999873689376e-05, "total_loss": 150.47621154785156}, "load_time_ms": 0.67, "num_steps_sampled": 3061200, "grad_time_ms": 683.879, "update_time_ms": 2.467, "sample_time_ms": 33839.101}, "date": "2025-08-31_15-07-20", "hostname": "cda-server-4", "time_this_iter_s": 35.11904168128967, "episodes_total": 15306, "timestamp": 1756645640, "node_ip": "10.157.146.4", "done": false, "time_total_s": 82570.21356534958, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2552, "episode_reward_mean": -607.9015243269037, "training_iteration": 2552, "timesteps_total": 3062400, "policy_reward_mean": {}, "episode_reward_min": -684.9965867600007, "timesteps_since_restore": 3062400, "num_metric_batches_dropped": 0, "time_since_restore": 82604.4339621067, "episode_reward_max": -486.5865004302283, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3062400, "default": {"kl": 0.010830316692590714, "policy_loss": -0.14885902404785156, "vf_loss": 95.20171356201172, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9871256351470947, "entropy": 3.3692240715026855, "cur_lr": 4.999999873689376e-05, "total_loss": 95.06930541992188}, "load_time_ms": 0.68, "num_steps_sampled": 3062400, "grad_time_ms": 712.097, "update_time_ms": 2.447, "sample_time_ms": 33849.987}, "date": "2025-08-31_15-07-54", "hostname": "cda-server-4", "time_this_iter_s": 34.220396757125854, "episodes_total": 15312, "timestamp": 1756645674, "node_ip": "10.157.146.4", "done": false, "time_total_s": 82604.4339621067, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2553, "episode_reward_mean": -608.9467957021633, "training_iteration": 2553, "timesteps_total": 3063600, "policy_reward_mean": {}, "episode_reward_min": -684.9965867600007, "timesteps_since_restore": 3063600, "num_metric_batches_dropped": 0, "time_since_restore": 82639.01385331154, "episode_reward_max": -521.6329380756581, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3063600, "default": {"kl": 0.011218838393688202, "policy_loss": -0.12265961617231369, "vf_loss": 416.3656005859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9493447542190552, "entropy": 3.410313844680786, "cur_lr": 4.999999873689376e-05, "total_loss": 416.2599792480469}, "load_time_ms": 0.688, "num_steps_sampled": 3063600, "grad_time_ms": 739.434, "update_time_ms": 2.47, "sample_time_ms": 33876.77}, "date": "2025-08-31_15-08-29", "hostname": "cda-server-4", "time_this_iter_s": 34.579891204833984, "episodes_total": 15318, "timestamp": 1756645709, "node_ip": "10.157.146.4", "done": false, "time_total_s": 82639.01385331154, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2554, "episode_reward_mean": -609.3009585946337, "training_iteration": 2554, "timesteps_total": 3064800, "policy_reward_mean": {}, "episode_reward_min": -684.9965867600007, "timesteps_since_restore": 3064800, "num_metric_batches_dropped": 0, "time_since_restore": 82673.74552607536, "episode_reward_max": -521.6329380756581, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3064800, "default": {"kl": 0.009573463350534439, "policy_loss": -0.12553632259368896, "vf_loss": 141.20584106445312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9789083003997803, "entropy": 3.248948335647583, "cur_lr": 4.999999873689376e-05, "total_loss": 141.0948486328125}, "load_time_ms": 0.702, "num_steps_sampled": 3064800, "grad_time_ms": 722.265, "update_time_ms": 2.465, "sample_time_ms": 33830.359}, "date": "2025-08-31_15-09-03", "hostname": "cda-server-4", "time_this_iter_s": 34.73167276382446, "episodes_total": 15324, "timestamp": 1756645743, "node_ip": "10.157.146.4", "done": false, "time_total_s": 82673.74552607536, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2555, "episode_reward_mean": -610.1664375575326, "training_iteration": 2555, "timesteps_total": 3066000, "policy_reward_mean": {}, "episode_reward_min": -684.9965867600007, "timesteps_since_restore": 3066000, "num_metric_batches_dropped": 0, "time_since_restore": 82708.24399924278, "episode_reward_max": -521.6329380756581, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3066000, "default": {"kl": 0.011477984488010406, "policy_loss": -0.15048664808273315, "vf_loss": 107.56055450439453, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9865880608558655, "entropy": 3.380758047103882, "cur_lr": 4.999999873689376e-05, "total_loss": 107.427490234375}, "load_time_ms": 0.699, "num_steps_sampled": 3066000, "grad_time_ms": 719.958, "update_time_ms": 2.307, "sample_time_ms": 33819.257}, "date": "2025-08-31_15-09-38", "hostname": "cda-server-4", "time_this_iter_s": 34.498473167419434, "episodes_total": 15330, "timestamp": 1756645778, "node_ip": "10.157.146.4", "done": false, "time_total_s": 82708.24399924278, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2556, "episode_reward_mean": -608.9870537853024, "training_iteration": 2556, "timesteps_total": 3067200, "policy_reward_mean": {}, "episode_reward_min": -684.9965867600007, "timesteps_since_restore": 3067200, "num_metric_batches_dropped": 0, "time_since_restore": 82742.00548291206, "episode_reward_max": -487.03481574139903, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3067200, "default": {"kl": 0.010788604617118835, "policy_loss": -0.1500048041343689, "vf_loss": 232.97743225097656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.98198002576828, "entropy": 3.4107539653778076, "cur_lr": 4.999999873689376e-05, "total_loss": 232.8438262939453}, "load_time_ms": 0.735, "num_steps_sampled": 3067200, "grad_time_ms": 718.731, "update_time_ms": 2.274, "sample_time_ms": 33696.162}, "date": "2025-08-31_15-10-12", "hostname": "cda-server-4", "time_this_iter_s": 33.761483669281006, "episodes_total": 15336, "timestamp": 1756645812, "node_ip": "10.157.146.4", "done": false, "time_total_s": 82742.00548291206, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2557, "episode_reward_mean": -608.4595216189609, "training_iteration": 2557, "timesteps_total": 3068400, "policy_reward_mean": {}, "episode_reward_min": -684.9965867600007, "timesteps_since_restore": 3068400, "num_metric_batches_dropped": 0, "time_since_restore": 82776.5320327282, "episode_reward_max": -487.03481574139903, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3068400, "default": {"kl": 0.011551840230822563, "policy_loss": -0.15236836671829224, "vf_loss": 229.63455200195312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9686944484710693, "entropy": 3.2460947036743164, "cur_lr": 4.999999873689376e-05, "total_loss": 229.49972534179688}, "load_time_ms": 0.737, "num_steps_sampled": 3068400, "grad_time_ms": 715.887, "update_time_ms": 2.255, "sample_time_ms": 33645.459}, "date": "2025-08-31_15-10-46", "hostname": "cda-server-4", "time_this_iter_s": 34.52654981613159, "episodes_total": 15342, "timestamp": 1756645846, "node_ip": "10.157.146.4", "done": false, "time_total_s": 82776.5320327282, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2558, "episode_reward_mean": -608.5376354599127, "training_iteration": 2558, "timesteps_total": 3069600, "policy_reward_mean": {}, "episode_reward_min": -684.9965867600007, "timesteps_since_restore": 3069600, "num_metric_batches_dropped": 0, "time_since_restore": 82811.39068388939, "episode_reward_max": -487.03481574139903, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3069600, "default": {"kl": 0.012640770524740219, "policy_loss": -0.16112083196640015, "vf_loss": 302.0054016113281, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9680138826370239, "entropy": 3.5173840522766113, "cur_lr": 4.999999873689376e-05, "total_loss": 301.8634948730469}, "load_time_ms": 0.735, "num_steps_sampled": 3069600, "grad_time_ms": 696.111, "update_time_ms": 2.251, "sample_time_ms": 33759.937}, "date": "2025-08-31_15-11-21", "hostname": "cda-server-4", "time_this_iter_s": 34.85865116119385, "episodes_total": 15348, "timestamp": 1756645881, "node_ip": "10.157.146.4", "done": false, "time_total_s": 82811.39068388939, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2559, "episode_reward_mean": -608.9995199184831, "training_iteration": 2559, "timesteps_total": 3070800, "policy_reward_mean": {}, "episode_reward_min": -684.9965867600007, "timesteps_since_restore": 3070800, "num_metric_batches_dropped": 0, "time_since_restore": 82845.29501271248, "episode_reward_max": -487.03481574139903, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3070800, "default": {"kl": 0.010092649608850479, "policy_loss": -0.1351199746131897, "vf_loss": 51.55376434326172, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9916436076164246, "entropy": 3.319857597351074, "cur_lr": 4.999999873689376e-05, "total_loss": 51.43397521972656}, "load_time_ms": 0.705, "num_steps_sampled": 3070800, "grad_time_ms": 689.394, "update_time_ms": 2.293, "sample_time_ms": 33767.711}, "date": "2025-08-31_15-11-55", "hostname": "cda-server-4", "time_this_iter_s": 33.9043288230896, "episodes_total": 15354, "timestamp": 1756645915, "node_ip": "10.157.146.4", "done": false, "time_total_s": 82845.29501271248, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2560, "episode_reward_mean": -608.9238860325067, "training_iteration": 2560, "timesteps_total": 3072000, "policy_reward_mean": {}, "episode_reward_min": -684.9965867600007, "timesteps_since_restore": 3072000, "num_metric_batches_dropped": 0, "time_since_restore": 82879.04464387894, "episode_reward_max": -487.03481574139903, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3072000, "default": {"kl": 0.010521153919398785, "policy_loss": -0.13432489335536957, "vf_loss": 258.8731689453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9680120944976807, "entropy": 3.2339930534362793, "cur_lr": 4.999999873689376e-05, "total_loss": 258.7547912597656}, "load_time_ms": 0.712, "num_steps_sampled": 3072000, "grad_time_ms": 676.362, "update_time_ms": 2.361, "sample_time_ms": 33711.479}, "date": "2025-08-31_15-12-29", "hostname": "cda-server-4", "time_this_iter_s": 33.74963116645813, "episodes_total": 15360, "timestamp": 1756645949, "node_ip": "10.157.146.4", "done": false, "time_total_s": 82879.04464387894, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2561, "episode_reward_mean": -607.9290928931213, "training_iteration": 2561, "timesteps_total": 3073200, "policy_reward_mean": {}, "episode_reward_min": -684.9965867600007, "timesteps_since_restore": 3073200, "num_metric_batches_dropped": 0, "time_since_restore": 82913.31673431396, "episode_reward_max": -463.74351192995977, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3073200, "default": {"kl": 0.011861484497785568, "policy_loss": -0.15494318306446075, "vf_loss": 174.67247009277344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9833307266235352, "entropy": 3.289918899536133, "cur_lr": 4.999999873689376e-05, "total_loss": 174.53555297851562}, "load_time_ms": 0.717, "num_steps_sampled": 3073200, "grad_time_ms": 668.61, "update_time_ms": 2.326, "sample_time_ms": 33634.476}, "date": "2025-08-31_15-13-03", "hostname": "cda-server-4", "time_this_iter_s": 34.272090435028076, "episodes_total": 15366, "timestamp": 1756645983, "node_ip": "10.157.146.4", "done": false, "time_total_s": 82913.31673431396, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2562, "episode_reward_mean": -607.4647990584821, "training_iteration": 2562, "timesteps_total": 3074400, "policy_reward_mean": {}, "episode_reward_min": -684.9965867600007, "timesteps_since_restore": 3074400, "num_metric_batches_dropped": 0, "time_since_restore": 82948.2412519455, "episode_reward_max": -463.74351192995977, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3074400, "default": {"kl": 0.011213120073080063, "policy_loss": -0.1336846798658371, "vf_loss": 38.958641052246094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9947212934494019, "entropy": 3.2510015964508057, "cur_lr": 4.999999873689376e-05, "total_loss": 38.84198760986328}, "load_time_ms": 0.715, "num_steps_sampled": 3074400, "grad_time_ms": 648.586, "update_time_ms": 2.341, "sample_time_ms": 33724.871}, "date": "2025-08-31_15-13-38", "hostname": "cda-server-4", "time_this_iter_s": 34.92451763153076, "episodes_total": 15372, "timestamp": 1756646018, "node_ip": "10.157.146.4", "done": false, "time_total_s": 82948.2412519455, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2563, "episode_reward_mean": -607.207292846809, "training_iteration": 2563, "timesteps_total": 3075600, "policy_reward_mean": {}, "episode_reward_min": -684.9965867600007, "timesteps_since_restore": 3075600, "num_metric_batches_dropped": 0, "time_since_restore": 82982.05553674698, "episode_reward_max": -463.74351192995977, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3075600, "default": {"kl": 0.014553959481418133, "policy_loss": -0.14239376783370972, "vf_loss": 80.68927001953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9906972050666809, "entropy": 3.214946746826172, "cur_lr": 4.999999873689376e-05, "total_loss": 80.5689697265625}, "load_time_ms": 0.711, "num_steps_sampled": 3075600, "grad_time_ms": 624.586, "update_time_ms": 2.354, "sample_time_ms": 33672.345}, "date": "2025-08-31_15-14-12", "hostname": "cda-server-4", "time_this_iter_s": 33.814284801483154, "episodes_total": 15378, "timestamp": 1756646052, "node_ip": "10.157.146.4", "done": false, "time_total_s": 82982.05553674698, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2564, "episode_reward_mean": -607.618018180019, "training_iteration": 2564, "timesteps_total": 3076800, "policy_reward_mean": {}, "episode_reward_min": -684.9965867600007, "timesteps_since_restore": 3076800, "num_metric_batches_dropped": 0, "time_since_restore": 83016.39179706573, "episode_reward_max": -463.74351192995977, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3076800, "default": {"kl": 0.013203609734773636, "policy_loss": -0.11778493970632553, "vf_loss": 420.6372985839844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9744234085083008, "entropy": 3.3080873489379883, "cur_lr": 4.999999873689376e-05, "total_loss": 420.5395812988281}, "load_time_ms": 0.712, "num_steps_sampled": 3076800, "grad_time_ms": 609.866, "update_time_ms": 2.347, "sample_time_ms": 33647.525}, "date": "2025-08-31_15-14-46", "hostname": "cda-server-4", "time_this_iter_s": 34.3362603187561, "episodes_total": 15384, "timestamp": 1756646086, "node_ip": "10.157.146.4", "done": false, "time_total_s": 83016.39179706573, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2565, "episode_reward_mean": -607.4041110484172, "training_iteration": 2565, "timesteps_total": 3078000, "policy_reward_mean": {}, "episode_reward_min": -684.9965867600007, "timesteps_since_restore": 3078000, "num_metric_batches_dropped": 0, "time_since_restore": 83051.16871452332, "episode_reward_max": -463.74351192995977, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3078000, "default": {"kl": 0.008858611807227135, "policy_loss": -0.12309891730546951, "vf_loss": 108.03089904785156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9850879311561584, "entropy": 3.2594501972198486, "cur_lr": 4.999999873689376e-05, "total_loss": 107.92125701904297}, "load_time_ms": 0.697, "num_steps_sampled": 3078000, "grad_time_ms": 608.148, "update_time_ms": 2.329, "sample_time_ms": 33677.146}, "date": "2025-08-31_15-15-21", "hostname": "cda-server-4", "time_this_iter_s": 34.776917457580566, "episodes_total": 15390, "timestamp": 1756646121, "node_ip": "10.157.146.4", "done": false, "time_total_s": 83051.16871452332, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2566, "episode_reward_mean": -607.2256292656438, "training_iteration": 2566, "timesteps_total": 3079200, "policy_reward_mean": {}, "episode_reward_min": -654.8214529049151, "timesteps_since_restore": 3079200, "num_metric_batches_dropped": 0, "time_since_restore": 83084.84254288673, "episode_reward_max": -463.74351192995977, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3079200, "default": {"kl": 0.011975124478340149, "policy_loss": -0.13288144767284393, "vf_loss": 333.2058410644531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9558899998664856, "entropy": 3.1196694374084473, "cur_lr": 4.999999873689376e-05, "total_loss": 333.0911560058594}, "load_time_ms": 0.695, "num_steps_sampled": 3079200, "grad_time_ms": 609.596, "update_time_ms": 2.459, "sample_time_ms": 33666.821}, "date": "2025-08-31_15-15-55", "hostname": "cda-server-4", "time_this_iter_s": 33.67382836341858, "episodes_total": 15396, "timestamp": 1756646155, "node_ip": "10.157.146.4", "done": false, "time_total_s": 83084.84254288673, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2567, "episode_reward_mean": -607.8425509718244, "training_iteration": 2567, "timesteps_total": 3080400, "policy_reward_mean": {}, "episode_reward_min": -654.8214529049151, "timesteps_since_restore": 3080400, "num_metric_batches_dropped": 0, "time_since_restore": 83118.7793931961, "episode_reward_max": -463.74351192995977, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3080400, "default": {"kl": 0.009760214015841484, "policy_loss": -0.13588100671768188, "vf_loss": 185.59117126464844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9752739667892456, "entropy": 3.5096559524536133, "cur_lr": 4.999999873689376e-05, "total_loss": 185.47010803222656}, "load_time_ms": 0.695, "num_steps_sampled": 3080400, "grad_time_ms": 601.809, "update_time_ms": 2.494, "sample_time_ms": 33615.625}, "date": "2025-08-31_15-16-29", "hostname": "cda-server-4", "time_this_iter_s": 33.93685030937195, "episodes_total": 15402, "timestamp": 1756646189, "node_ip": "10.157.146.4", "done": false, "time_total_s": 83118.7793931961, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2568, "episode_reward_mean": -608.1859058134784, "training_iteration": 2568, "timesteps_total": 3081600, "policy_reward_mean": {}, "episode_reward_min": -651.7266696906875, "timesteps_since_restore": 3081600, "num_metric_batches_dropped": 0, "time_since_restore": 83153.21876978874, "episode_reward_max": -463.74351192995977, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3081600, "default": {"kl": 0.010202179662883282, "policy_loss": -0.12783239781856537, "vf_loss": 114.98313903808594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9835562109947205, "entropy": 3.1938722133636475, "cur_lr": 4.999999873689376e-05, "total_loss": 114.87079620361328}, "load_time_ms": 0.66, "num_steps_sampled": 3081600, "grad_time_ms": 602.744, "update_time_ms": 2.416, "sample_time_ms": 33572.946}, "date": "2025-08-31_15-17-03", "hostname": "cda-server-4", "time_this_iter_s": 34.43937659263611, "episodes_total": 15408, "timestamp": 1756646223, "node_ip": "10.157.146.4", "done": false, "time_total_s": 83153.21876978874, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2569, "episode_reward_mean": -608.9445671041751, "training_iteration": 2569, "timesteps_total": 3082800, "policy_reward_mean": {}, "episode_reward_min": -651.7266696906875, "timesteps_since_restore": 3082800, "num_metric_batches_dropped": 0, "time_since_restore": 83188.2820224762, "episode_reward_max": -463.74351192995977, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3082800, "default": {"kl": 0.01104399561882019, "policy_loss": -0.13473306596279144, "vf_loss": 162.72933959960938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9815812706947327, "entropy": 3.3824374675750732, "cur_lr": 4.999999873689376e-05, "total_loss": 162.61138916015625}, "load_time_ms": 0.653, "num_steps_sampled": 3082800, "grad_time_ms": 581.929, "update_time_ms": 2.398, "sample_time_ms": 33709.725}, "date": "2025-08-31_15-17-38", "hostname": "cda-server-4", "time_this_iter_s": 35.063252687454224, "episodes_total": 15414, "timestamp": 1756646258, "node_ip": "10.157.146.4", "done": false, "time_total_s": 83188.2820224762, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2570, "episode_reward_mean": -610.0520149723015, "training_iteration": 2570, "timesteps_total": 3084000, "policy_reward_mean": {}, "episode_reward_min": -794.2700187485217, "timesteps_since_restore": 3084000, "num_metric_batches_dropped": 0, "time_since_restore": 83222.47669649124, "episode_reward_max": -463.74351192995977, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3084000, "default": {"kl": 0.012049625627696514, "policy_loss": -0.1252804696559906, "vf_loss": 382.3997802734375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9735432863235474, "entropy": 3.630336284637451, "cur_lr": 4.999999873689376e-05, "total_loss": 382.2928161621094}, "load_time_ms": 0.657, "num_steps_sampled": 3084000, "grad_time_ms": 578.288, "update_time_ms": 2.309, "sample_time_ms": 33757.974}, "date": "2025-08-31_15-18-12", "hostname": "cda-server-4", "time_this_iter_s": 34.194674015045166, "episodes_total": 15420, "timestamp": 1756646292, "node_ip": "10.157.146.4", "done": false, "time_total_s": 83222.47669649124, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2571, "episode_reward_mean": -609.7419375995664, "training_iteration": 2571, "timesteps_total": 3085200, "policy_reward_mean": {}, "episode_reward_min": -794.2700187485217, "timesteps_since_restore": 3085200, "num_metric_batches_dropped": 0, "time_since_restore": 83256.4762763977, "episode_reward_max": -463.74351192995977, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3085200, "default": {"kl": 0.010011464357376099, "policy_loss": -0.14086633920669556, "vf_loss": 140.3428497314453, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9759389162063599, "entropy": 3.1931684017181396, "cur_lr": 4.999999873689376e-05, "total_loss": 140.21719360351562}, "load_time_ms": 0.682, "num_steps_sampled": 3085200, "grad_time_ms": 577.208, "update_time_ms": 2.327, "sample_time_ms": 33731.779}, "date": "2025-08-31_15-18-46", "hostname": "cda-server-4", "time_this_iter_s": 33.99957990646362, "episodes_total": 15426, "timestamp": 1756646326, "node_ip": "10.157.146.4", "done": false, "time_total_s": 83256.4762763977, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2572, "episode_reward_mean": -610.2167710393913, "training_iteration": 2572, "timesteps_total": 3086400, "policy_reward_mean": {}, "episode_reward_min": -794.2700187485217, "timesteps_since_restore": 3086400, "num_metric_batches_dropped": 0, "time_since_restore": 83292.08559775352, "episode_reward_max": -463.74351192995977, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3086400, "default": {"kl": 0.011958744376897812, "policy_loss": -0.16425946354866028, "vf_loss": 46.96091842651367, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9939648509025574, "entropy": 3.1428723335266113, "cur_lr": 4.999999873689376e-05, "total_loss": 46.814815521240234}, "load_time_ms": 0.712, "num_steps_sampled": 3086400, "grad_time_ms": 594.043, "update_time_ms": 2.396, "sample_time_ms": 33783.292}, "date": "2025-08-31_15-19-22", "hostname": "cda-server-4", "time_this_iter_s": 35.6093213558197, "episodes_total": 15432, "timestamp": 1756646362, "node_ip": "10.157.146.4", "done": false, "time_total_s": 83292.08559775352, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2573, "episode_reward_mean": -610.2339482557524, "training_iteration": 2573, "timesteps_total": 3087600, "policy_reward_mean": {}, "episode_reward_min": -794.2700187485217, "timesteps_since_restore": 3087600, "num_metric_batches_dropped": 0, "time_since_restore": 83327.08273816109, "episode_reward_max": -463.74351192995977, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3087600, "default": {"kl": 0.010820978321135044, "policy_loss": -0.1469506472349167, "vf_loss": 193.10791015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9720509052276611, "entropy": 3.332369327545166, "cur_lr": 4.999999873689376e-05, "total_loss": 192.9773712158203}, "load_time_ms": 0.722, "num_steps_sampled": 3087600, "grad_time_ms": 606.533, "update_time_ms": 2.413, "sample_time_ms": 33889.03}, "date": "2025-08-31_15-19-57", "hostname": "cda-server-4", "time_this_iter_s": 34.997140407562256, "episodes_total": 15438, "timestamp": 1756646397, "node_ip": "10.157.146.4", "done": false, "time_total_s": 83327.08273816109, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2574, "episode_reward_mean": -610.5810553147587, "training_iteration": 2574, "timesteps_total": 3088800, "policy_reward_mean": {}, "episode_reward_min": -794.2700187485217, "timesteps_since_restore": 3088800, "num_metric_batches_dropped": 0, "time_since_restore": 83360.75982236862, "episode_reward_max": -463.74351192995977, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3088800, "default": {"kl": 0.008750120177865028, "policy_loss": -0.128107488155365, "vf_loss": 679.4781494140625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.918660044670105, "entropy": 3.348449230194092, "cur_lr": 4.999999873689376e-05, "total_loss": 679.3633422851562}, "load_time_ms": 0.696, "num_steps_sampled": 3088800, "grad_time_ms": 604.061, "update_time_ms": 2.465, "sample_time_ms": 33825.512}, "date": "2025-08-31_15-20-31", "hostname": "cda-server-4", "time_this_iter_s": 33.67708420753479, "episodes_total": 15444, "timestamp": 1756646431, "node_ip": "10.157.146.4", "done": false, "time_total_s": 83360.75982236862, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2575, "episode_reward_mean": -610.0222306154866, "training_iteration": 2575, "timesteps_total": 3090000, "policy_reward_mean": {}, "episode_reward_min": -794.2700187485217, "timesteps_since_restore": 3090000, "num_metric_batches_dropped": 0, "time_since_restore": 83395.53380990028, "episode_reward_max": -463.74351192995977, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3090000, "default": {"kl": 0.009745059534907341, "policy_loss": -0.123885378241539, "vf_loss": 207.62994384765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9757608771324158, "entropy": 3.465193748474121, "cur_lr": 4.999999873689376e-05, "total_loss": 207.52085876464844}, "load_time_ms": 0.735, "num_steps_sampled": 3090000, "grad_time_ms": 603.65, "update_time_ms": 2.509, "sample_time_ms": 33825.494}, "date": "2025-08-31_15-21-05", "hostname": "cda-server-4", "time_this_iter_s": 34.77398753166199, "episodes_total": 15450, "timestamp": 1756646465, "node_ip": "10.157.146.4", "done": false, "time_total_s": 83395.53380990028, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2576, "episode_reward_mean": -609.8227012574023, "training_iteration": 2576, "timesteps_total": 3091200, "policy_reward_mean": {}, "episode_reward_min": -794.2700187485217, "timesteps_since_restore": 3091200, "num_metric_batches_dropped": 0, "time_since_restore": 83429.94337511063, "episode_reward_max": -463.74351192995977, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3091200, "default": {"kl": 0.00902397371828556, "policy_loss": -0.11465813219547272, "vf_loss": 313.1053466796875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.962444007396698, "entropy": 3.118459939956665, "cur_lr": 4.999999873689376e-05, "total_loss": 313.0043640136719}, "load_time_ms": 0.704, "num_steps_sampled": 3091200, "grad_time_ms": 587.32, "update_time_ms": 2.397, "sample_time_ms": 33915.562}, "date": "2025-08-31_15-21-40", "hostname": "cda-server-4", "time_this_iter_s": 34.40956521034241, "episodes_total": 15456, "timestamp": 1756646500, "node_ip": "10.157.146.4", "done": false, "time_total_s": 83429.94337511063, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2577, "episode_reward_mean": -609.1014178917154, "training_iteration": 2577, "timesteps_total": 3092400, "policy_reward_mean": {}, "episode_reward_min": -794.2700187485217, "timesteps_since_restore": 3092400, "num_metric_batches_dropped": 0, "time_since_restore": 83464.8316476345, "episode_reward_max": -463.74351192995977, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3092400, "default": {"kl": 0.01015722006559372, "policy_loss": -0.12709777057170868, "vf_loss": 62.81495666503906, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9900487065315247, "entropy": 3.3454275131225586, "cur_lr": 4.999999873689376e-05, "total_loss": 62.70328140258789}, "load_time_ms": 0.703, "num_steps_sampled": 3092400, "grad_time_ms": 629.637, "update_time_ms": 2.35, "sample_time_ms": 33968.136}, "date": "2025-08-31_15-22-15", "hostname": "cda-server-4", "time_this_iter_s": 34.888272523880005, "episodes_total": 15462, "timestamp": 1756646535, "node_ip": "10.157.146.4", "done": false, "time_total_s": 83464.8316476345, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2578, "episode_reward_mean": -610.7768610570449, "training_iteration": 2578, "timesteps_total": 3093600, "policy_reward_mean": {}, "episode_reward_min": -794.2700187485217, "timesteps_since_restore": 3093600, "num_metric_batches_dropped": 0, "time_since_restore": 83499.29613089561, "episode_reward_max": -554.06549749409, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3093600, "default": {"kl": 0.008923870511353016, "policy_loss": -0.1137947216629982, "vf_loss": 87.69314575195312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9847860336303711, "entropy": 3.219843864440918, "cur_lr": 4.999999873689376e-05, "total_loss": 87.59290313720703}, "load_time_ms": 0.702, "num_steps_sampled": 3093600, "grad_time_ms": 656.005, "update_time_ms": 2.564, "sample_time_ms": 33944.012}, "date": "2025-08-31_15-22-49", "hostname": "cda-server-4", "time_this_iter_s": 34.4644832611084, "episodes_total": 15468, "timestamp": 1756646569, "node_ip": "10.157.146.4", "done": false, "time_total_s": 83499.29613089561, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2579, "episode_reward_mean": -610.4271131313932, "training_iteration": 2579, "timesteps_total": 3094800, "policy_reward_mean": {}, "episode_reward_min": -794.2700187485217, "timesteps_since_restore": 3094800, "num_metric_batches_dropped": 0, "time_since_restore": 83533.9410829544, "episode_reward_max": -554.06549749409, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3094800, "default": {"kl": 0.012094004079699516, "policy_loss": -0.15200760960578918, "vf_loss": 120.00233459472656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9872527718544006, "entropy": 3.303431749343872, "cur_lr": 4.999999873689376e-05, "total_loss": 119.86870574951172}, "load_time_ms": 0.732, "num_steps_sampled": 3094800, "grad_time_ms": 684.543, "update_time_ms": 2.534, "sample_time_ms": 33873.596}, "date": "2025-08-31_15-23-24", "hostname": "cda-server-4", "time_this_iter_s": 34.644952058792114, "episodes_total": 15474, "timestamp": 1756646604, "node_ip": "10.157.146.4", "done": false, "time_total_s": 83533.9410829544, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2580, "episode_reward_mean": -609.4263991995025, "training_iteration": 2580, "timesteps_total": 3096000, "policy_reward_mean": {}, "episode_reward_min": -794.2700187485217, "timesteps_since_restore": 3096000, "num_metric_batches_dropped": 0, "time_since_restore": 83569.07253932953, "episode_reward_max": -445.13394856185755, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3096000, "default": {"kl": 0.01056552492082119, "policy_loss": -0.14302222430706024, "vf_loss": 237.6197052001953, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9796789884567261, "entropy": 3.251193046569824, "cur_lr": 4.999999873689376e-05, "total_loss": 237.49273681640625}, "load_time_ms": 0.718, "num_steps_sampled": 3096000, "grad_time_ms": 699.992, "update_time_ms": 2.524, "sample_time_ms": 33951.877}, "date": "2025-08-31_15-23-59", "hostname": "cda-server-4", "time_this_iter_s": 35.13145637512207, "episodes_total": 15480, "timestamp": 1756646639, "node_ip": "10.157.146.4", "done": false, "time_total_s": 83569.07253932953, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2581, "episode_reward_mean": -608.3303929791188, "training_iteration": 2581, "timesteps_total": 3097200, "policy_reward_mean": {}, "episode_reward_min": -794.2700187485217, "timesteps_since_restore": 3097200, "num_metric_batches_dropped": 0, "time_since_restore": 83603.06551122665, "episode_reward_max": -445.13394856185755, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3097200, "default": {"kl": 0.01163675356656313, "policy_loss": -0.15457801520824432, "vf_loss": 196.613525390625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9749491214752197, "entropy": 3.270907402038574, "cur_lr": 4.999999873689376e-05, "total_loss": 196.47662353515625}, "load_time_ms": 0.69, "num_steps_sampled": 3097200, "grad_time_ms": 705.424, "update_time_ms": 2.506, "sample_time_ms": 33945.844}, "date": "2025-08-31_15-24-33", "hostname": "cda-server-4", "time_this_iter_s": 33.992971897125244, "episodes_total": 15486, "timestamp": 1756646673, "node_ip": "10.157.146.4", "done": false, "time_total_s": 83603.06551122665, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2582, "episode_reward_mean": -608.2674930527583, "training_iteration": 2582, "timesteps_total": 3098400, "policy_reward_mean": {}, "episode_reward_min": -794.2700187485217, "timesteps_since_restore": 3098400, "num_metric_batches_dropped": 0, "time_since_restore": 83636.75055527687, "episode_reward_max": -445.13394856185755, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3098400, "default": {"kl": 0.009780725464224815, "policy_loss": -0.10973796993494034, "vf_loss": 125.46097564697266, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9817290902137756, "entropy": 3.1261978149414062, "cur_lr": 4.999999873689376e-05, "total_loss": 125.36610412597656}, "load_time_ms": 0.655, "num_steps_sampled": 3098400, "grad_time_ms": 699.201, "update_time_ms": 2.522, "sample_time_ms": 33759.72}, "date": "2025-08-31_15-25-07", "hostname": "cda-server-4", "time_this_iter_s": 33.685044050216675, "episodes_total": 15492, "timestamp": 1756646707, "node_ip": "10.157.146.4", "done": false, "time_total_s": 83636.75055527687, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2583, "episode_reward_mean": -608.6623609839453, "training_iteration": 2583, "timesteps_total": 3099600, "policy_reward_mean": {}, "episode_reward_min": -794.2700187485217, "timesteps_since_restore": 3099600, "num_metric_batches_dropped": 0, "time_since_restore": 83672.82345414162, "episode_reward_max": -445.13394856185755, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3099600, "default": {"kl": 0.011985593475401402, "policy_loss": -0.15589849650859833, "vf_loss": 104.08257293701172, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.988518476486206, "entropy": 3.3347158432006836, "cur_lr": 4.999999873689376e-05, "total_loss": 103.94487762451172}, "load_time_ms": 0.655, "num_steps_sampled": 3099600, "grad_time_ms": 747.334, "update_time_ms": 2.5, "sample_time_ms": 33818.949}, "date": "2025-08-31_15-25-43", "hostname": "cda-server-4", "time_this_iter_s": 36.072898864746094, "episodes_total": 15498, "timestamp": 1756646743, "node_ip": "10.157.146.4", "done": false, "time_total_s": 83672.82345414162, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2584, "episode_reward_mean": -607.8216561332291, "training_iteration": 2584, "timesteps_total": 3100800, "policy_reward_mean": {}, "episode_reward_min": -794.2700187485217, "timesteps_since_restore": 3100800, "num_metric_batches_dropped": 0, "time_since_restore": 83707.80334663391, "episode_reward_max": -445.13394856185755, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3100800, "default": {"kl": 0.009166785515844822, "policy_loss": -0.12883946299552917, "vf_loss": 380.19183349609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9521055221557617, "entropy": 3.278062105178833, "cur_lr": 4.999999873689376e-05, "total_loss": 380.07696533203125}, "load_time_ms": 0.653, "num_steps_sampled": 3100800, "grad_time_ms": 757.951, "update_time_ms": 2.716, "sample_time_ms": 33938.456}, "date": "2025-08-31_15-26-18", "hostname": "cda-server-4", "time_this_iter_s": 34.97989249229431, "episodes_total": 15504, "timestamp": 1756646778, "node_ip": "10.157.146.4", "done": false, "time_total_s": 83707.80334663391, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2585, "episode_reward_mean": -607.1650958194144, "training_iteration": 2585, "timesteps_total": 3102000, "policy_reward_mean": {}, "episode_reward_min": -794.2700187485217, "timesteps_since_restore": 3102000, "num_metric_batches_dropped": 0, "time_since_restore": 83741.59514760971, "episode_reward_max": -445.13394856185755, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3102000, "default": {"kl": 0.011741570197045803, "policy_loss": -0.13351310789585114, "vf_loss": 182.05914306640625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9821285605430603, "entropy": 3.2202610969543457, "cur_lr": 4.999999873689376e-05, "total_loss": 181.94346618652344}, "load_time_ms": 0.631, "num_steps_sampled": 3102000, "grad_time_ms": 756.851, "update_time_ms": 2.67, "sample_time_ms": 33841.485}, "date": "2025-08-31_15-26-52", "hostname": "cda-server-4", "time_this_iter_s": 33.79180097579956, "episodes_total": 15510, "timestamp": 1756646812, "node_ip": "10.157.146.4", "done": false, "time_total_s": 83741.59514760971, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2586, "episode_reward_mean": -606.8939440700601, "training_iteration": 2586, "timesteps_total": 3103200, "policy_reward_mean": {}, "episode_reward_min": -794.2700187485217, "timesteps_since_restore": 3103200, "num_metric_batches_dropped": 0, "time_since_restore": 83777.17181229591, "episode_reward_max": -445.13394856185755, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3103200, "default": {"kl": 0.011211293749511242, "policy_loss": -0.14363053441047668, "vf_loss": 115.71865844726562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9857175350189209, "entropy": 3.271328926086426, "cur_lr": 4.999999873689376e-05, "total_loss": 115.59205627441406}, "load_time_ms": 0.629, "num_steps_sampled": 3103200, "grad_time_ms": 774.495, "update_time_ms": 2.662, "sample_time_ms": 33940.658}, "date": "2025-08-31_15-27-27", "hostname": "cda-server-4", "time_this_iter_s": 35.576664686203, "episodes_total": 15516, "timestamp": 1756646847, "node_ip": "10.157.146.4", "done": false, "time_total_s": 83777.17181229591, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2587, "episode_reward_mean": -604.5652541214523, "training_iteration": 2587, "timesteps_total": 3104400, "policy_reward_mean": {}, "episode_reward_min": -681.6002803111835, "timesteps_since_restore": 3104400, "num_metric_batches_dropped": 0, "time_since_restore": 83811.96263957024, "episode_reward_max": -445.13394856185755, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3104400, "default": {"kl": 0.011659315787255764, "policy_loss": -0.1440204381942749, "vf_loss": 315.38525390625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9804532527923584, "entropy": 3.411060333251953, "cur_lr": 4.999999873689376e-05, "total_loss": 315.25897216796875}, "load_time_ms": 0.637, "num_steps_sampled": 3104400, "grad_time_ms": 745.392, "update_time_ms": 2.605, "sample_time_ms": 33960.241}, "date": "2025-08-31_15-28-02", "hostname": "cda-server-4", "time_this_iter_s": 34.79082727432251, "episodes_total": 15522, "timestamp": 1756646882, "node_ip": "10.157.146.4", "done": false, "time_total_s": 83811.96263957024, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2588, "episode_reward_mean": -604.8672418236297, "training_iteration": 2588, "timesteps_total": 3105600, "policy_reward_mean": {}, "episode_reward_min": -681.6002803111835, "timesteps_since_restore": 3105600, "num_metric_batches_dropped": 0, "time_since_restore": 83845.65739941597, "episode_reward_max": -445.13394856185755, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3105600, "default": {"kl": 0.010385311208665371, "policy_loss": -0.1401766985654831, "vf_loss": 302.4141845703125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9696125388145447, "entropy": 3.379899024963379, "cur_lr": 4.999999873689376e-05, "total_loss": 302.289794921875}, "load_time_ms": 0.634, "num_steps_sampled": 3105600, "grad_time_ms": 718.172, "update_time_ms": 2.437, "sample_time_ms": 33910.712}, "date": "2025-08-31_15-28-36", "hostname": "cda-server-4", "time_this_iter_s": 33.69475984573364, "episodes_total": 15528, "timestamp": 1756646916, "node_ip": "10.157.146.4", "done": false, "time_total_s": 83845.65739941597, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2589, "episode_reward_mean": -605.0582690451166, "training_iteration": 2589, "timesteps_total": 3106800, "policy_reward_mean": {}, "episode_reward_min": -681.6002803111835, "timesteps_since_restore": 3106800, "num_metric_batches_dropped": 0, "time_since_restore": 83879.80736017227, "episode_reward_max": -445.13394856185755, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3106800, "default": {"kl": 0.014207910746335983, "policy_loss": -0.10161516070365906, "vf_loss": 100.68698120117188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.98911452293396, "entropy": 3.2588284015655518, "cur_lr": 4.999999873689376e-05, "total_loss": 100.60694122314453}, "load_time_ms": 0.616, "num_steps_sampled": 3106800, "grad_time_ms": 705.702, "update_time_ms": 2.416, "sample_time_ms": 33873.666}, "date": "2025-08-31_15-29-10", "hostname": "cda-server-4", "time_this_iter_s": 34.14996075630188, "episodes_total": 15534, "timestamp": 1756646950, "node_ip": "10.157.146.4", "done": false, "time_total_s": 83879.80736017227, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2590, "episode_reward_mean": -605.4800546522222, "training_iteration": 2590, "timesteps_total": 3108000, "policy_reward_mean": {}, "episode_reward_min": -681.6002803111835, "timesteps_since_restore": 3108000, "num_metric_batches_dropped": 0, "time_since_restore": 83914.12622904778, "episode_reward_max": -445.13394856185755, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3108000, "default": {"kl": 0.010605989024043083, "policy_loss": -0.11463207751512527, "vf_loss": 224.79969787597656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9686874747276306, "entropy": 3.210540294647217, "cur_lr": 4.999999873689376e-05, "total_loss": 224.701171875}, "load_time_ms": 0.626, "num_steps_sampled": 3108000, "grad_time_ms": 687.265, "update_time_ms": 2.427, "sample_time_ms": 33810.793}, "date": "2025-08-31_15-29-44", "hostname": "cda-server-4", "time_this_iter_s": 34.31886887550354, "episodes_total": 15540, "timestamp": 1756646984, "node_ip": "10.157.146.4", "done": false, "time_total_s": 83914.12622904778, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2591, "episode_reward_mean": -605.6481023207407, "training_iteration": 2591, "timesteps_total": 3109200, "policy_reward_mean": {}, "episode_reward_min": -681.6002803111835, "timesteps_since_restore": 3109200, "num_metric_batches_dropped": 0, "time_since_restore": 83948.75742912292, "episode_reward_max": -445.13394856185755, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3109200, "default": {"kl": 0.010096733458340168, "policy_loss": -0.1342029571533203, "vf_loss": 245.59971618652344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9752785563468933, "entropy": 3.2654600143432617, "cur_lr": 4.999999873689376e-05, "total_loss": 245.4808807373047}, "load_time_ms": 0.624, "num_steps_sampled": 3109200, "grad_time_ms": 681.659, "update_time_ms": 2.432, "sample_time_ms": 33880.183}, "date": "2025-08-31_15-30-19", "hostname": "cda-server-4", "time_this_iter_s": 34.631200075149536, "episodes_total": 15546, "timestamp": 1756647019, "node_ip": "10.157.146.4", "done": false, "time_total_s": 83948.75742912292, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2592, "episode_reward_mean": -605.4873691291231, "training_iteration": 2592, "timesteps_total": 3110400, "policy_reward_mean": {}, "episode_reward_min": -681.6002803111835, "timesteps_since_restore": 3110400, "num_metric_batches_dropped": 0, "time_since_restore": 83982.50976800919, "episode_reward_max": -445.13394856185755, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3110400, "default": {"kl": 0.010533932596445084, "policy_loss": -0.13702800869941711, "vf_loss": 281.44976806640625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9583582282066345, "entropy": 3.2740774154663086, "cur_lr": 4.999999873689376e-05, "total_loss": 281.3287353515625}, "load_time_ms": 0.622, "num_steps_sampled": 3110400, "grad_time_ms": 685.925, "update_time_ms": 2.431, "sample_time_ms": 33882.661}, "date": "2025-08-31_15-30-53", "hostname": "cda-server-4", "time_this_iter_s": 33.752338886260986, "episodes_total": 15552, "timestamp": 1756647053, "node_ip": "10.157.146.4", "done": false, "time_total_s": 83982.50976800919, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2593, "episode_reward_mean": -606.4736079960362, "training_iteration": 2593, "timesteps_total": 3111600, "policy_reward_mean": {}, "episode_reward_min": -681.6002803111835, "timesteps_since_restore": 3111600, "num_metric_batches_dropped": 0, "time_since_restore": 84017.80862998962, "episode_reward_max": -445.13394856185755, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3111600, "default": {"kl": 0.010955526493489742, "policy_loss": -0.14825791120529175, "vf_loss": 103.57180786132812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9889357686042786, "entropy": 3.269214630126953, "cur_lr": 4.999999873689376e-05, "total_loss": 103.44017791748047}, "load_time_ms": 0.655, "num_steps_sampled": 3111600, "grad_time_ms": 658.823, "update_time_ms": 2.431, "sample_time_ms": 33832.446}, "date": "2025-08-31_15-31-28", "hostname": "cda-server-4", "time_this_iter_s": 35.29886198043823, "episodes_total": 15558, "timestamp": 1756647088, "node_ip": "10.157.146.4", "done": false, "time_total_s": 84017.80862998962, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2594, "episode_reward_mean": -606.7044033500531, "training_iteration": 2594, "timesteps_total": 3112800, "policy_reward_mean": {}, "episode_reward_min": -681.6002803111835, "timesteps_since_restore": 3112800, "num_metric_batches_dropped": 0, "time_since_restore": 84053.46365427971, "episode_reward_max": -445.13394856185755, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3112800, "default": {"kl": 0.00955696776509285, "policy_loss": -0.11805684119462967, "vf_loss": 155.49490356445312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9828883409500122, "entropy": 3.211587429046631, "cur_lr": 4.999999873689376e-05, "total_loss": 155.391357421875}, "load_time_ms": 0.661, "num_steps_sampled": 3112800, "grad_time_ms": 642.397, "update_time_ms": 2.22, "sample_time_ms": 33916.669}, "date": "2025-08-31_15-32-04", "hostname": "cda-server-4", "time_this_iter_s": 35.65502429008484, "episodes_total": 15564, "timestamp": 1756647124, "node_ip": "10.157.146.4", "done": false, "time_total_s": 84053.46365427971, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2595, "episode_reward_mean": -606.8608951337621, "training_iteration": 2595, "timesteps_total": 3114000, "policy_reward_mean": {}, "episode_reward_min": -681.6002803111835, "timesteps_since_restore": 3114000, "num_metric_batches_dropped": 0, "time_since_restore": 84087.91768693924, "episode_reward_max": -445.13394856185755, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3114000, "default": {"kl": 0.009256276302039623, "policy_loss": -0.12291595339775085, "vf_loss": 102.94341278076172, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9848525524139404, "entropy": 3.220743179321289, "cur_lr": 4.999999873689376e-05, "total_loss": 102.83456420898438}, "load_time_ms": 0.645, "num_steps_sampled": 3114000, "grad_time_ms": 643.171, "update_time_ms": 2.198, "sample_time_ms": 33982.089}, "date": "2025-08-31_15-32-38", "hostname": "cda-server-4", "time_this_iter_s": 34.45403265953064, "episodes_total": 15570, "timestamp": 1756647158, "node_ip": "10.157.146.4", "done": false, "time_total_s": 84087.91768693924, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2596, "episode_reward_mean": -606.7705860303847, "training_iteration": 2596, "timesteps_total": 3115200, "policy_reward_mean": {}, "episode_reward_min": -681.6002803111835, "timesteps_since_restore": 3115200, "num_metric_batches_dropped": 0, "time_since_restore": 84121.8905172348, "episode_reward_max": -445.13394856185755, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3115200, "default": {"kl": 0.009190342389047146, "policy_loss": -0.1298537701368332, "vf_loss": 50.75230407714844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9953216910362244, "entropy": 3.1885898113250732, "cur_lr": 4.999999873689376e-05, "total_loss": 50.63640213012695}, "load_time_ms": 0.653, "num_steps_sampled": 3115200, "grad_time_ms": 631.983, "update_time_ms": 2.171, "sample_time_ms": 33832.876}, "date": "2025-08-31_15-33-12", "hostname": "cda-server-4", "time_this_iter_s": 33.972830295562744, "episodes_total": 15576, "timestamp": 1756647192, "node_ip": "10.157.146.4", "done": false, "time_total_s": 84121.8905172348, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2597, "episode_reward_mean": -604.8062331469699, "training_iteration": 2597, "timesteps_total": 3116400, "policy_reward_mean": {}, "episode_reward_min": -681.6002803111835, "timesteps_since_restore": 3116400, "num_metric_batches_dropped": 0, "time_since_restore": 84156.31324458122, "episode_reward_max": -446.7132160691175, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3116400, "default": {"kl": 0.013164736330509186, "policy_loss": -0.1507798284292221, "vf_loss": 145.3813934326172, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9893214106559753, "entropy": 3.2869033813476562, "cur_lr": 4.999999873689376e-05, "total_loss": 145.25059509277344}, "load_time_ms": 0.646, "num_steps_sampled": 3116400, "grad_time_ms": 608.603, "update_time_ms": 2.246, "sample_time_ms": 33819.527}, "date": "2025-08-31_15-33-47", "hostname": "cda-server-4", "time_this_iter_s": 34.42272734642029, "episodes_total": 15582, "timestamp": 1756647227, "node_ip": "10.157.146.4", "done": false, "time_total_s": 84156.31324458122, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2598, "episode_reward_mean": -604.6271394177734, "training_iteration": 2598, "timesteps_total": 3117600, "policy_reward_mean": {}, "episode_reward_min": -681.6002803111835, "timesteps_since_restore": 3117600, "num_metric_batches_dropped": 0, "time_since_restore": 84190.59149074554, "episode_reward_max": -446.7132160691175, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3117600, "default": {"kl": 0.011282223276793957, "policy_loss": -0.1492682248353958, "vf_loss": 75.01842498779297, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.990315854549408, "entropy": 3.1410069465637207, "cur_lr": 4.999999873689376e-05, "total_loss": 74.88629150390625}, "load_time_ms": 0.654, "num_steps_sampled": 3117600, "grad_time_ms": 620.918, "update_time_ms": 2.19, "sample_time_ms": 33865.566}, "date": "2025-08-31_15-34-21", "hostname": "cda-server-4", "time_this_iter_s": 34.2782461643219, "episodes_total": 15588, "timestamp": 1756647261, "node_ip": "10.157.146.4", "done": false, "time_total_s": 84190.59149074554, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2599, "episode_reward_mean": -604.735154518309, "training_iteration": 2599, "timesteps_total": 3118800, "policy_reward_mean": {}, "episode_reward_min": -681.6002803111835, "timesteps_since_restore": 3118800, "num_metric_batches_dropped": 0, "time_since_restore": 84224.4228875637, "episode_reward_max": -446.7132160691175, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3118800, "default": {"kl": 0.010347678326070309, "policy_loss": -0.12563581764698029, "vf_loss": 132.82293701171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.988226056098938, "entropy": 3.3549392223358154, "cur_lr": 4.999999873689376e-05, "total_loss": 132.71302795410156}, "load_time_ms": 0.647, "num_steps_sampled": 3118800, "grad_time_ms": 628.764, "update_time_ms": 2.347, "sample_time_ms": 33825.775}, "date": "2025-08-31_15-34-55", "hostname": "cda-server-4", "time_this_iter_s": 33.83139681816101, "episodes_total": 15594, "timestamp": 1756647295, "node_ip": "10.157.146.4", "done": false, "time_total_s": 84224.4228875637, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2600, "episode_reward_mean": -604.9214584999578, "training_iteration": 2600, "timesteps_total": 3120000, "policy_reward_mean": {}, "episode_reward_min": -681.6002803111835, "timesteps_since_restore": 3120000, "num_metric_batches_dropped": 0, "time_since_restore": 84258.45930838585, "episode_reward_max": -446.7132160691175, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3120000, "default": {"kl": 0.011494153179228306, "policy_loss": -0.1369936764240265, "vf_loss": 87.7856674194336, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.992217481136322, "entropy": 3.2222089767456055, "cur_lr": 4.999999873689376e-05, "total_loss": 87.66612243652344}, "load_time_ms": 0.649, "num_steps_sampled": 3120000, "grad_time_ms": 622.299, "update_time_ms": 2.337, "sample_time_ms": 33804.013}, "date": "2025-08-31_15-35-29", "hostname": "cda-server-4", "time_this_iter_s": 34.036420822143555, "episodes_total": 15600, "timestamp": 1756647329, "node_ip": "10.157.146.4", "done": false, "time_total_s": 84258.45930838585, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2601, "episode_reward_mean": -604.8164729631602, "training_iteration": 2601, "timesteps_total": 3121200, "policy_reward_mean": {}, "episode_reward_min": -681.6002803111835, "timesteps_since_restore": 3121200, "num_metric_batches_dropped": 0, "time_since_restore": 84292.84816169739, "episode_reward_max": -446.7132160691175, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3121200, "default": {"kl": 0.009266412816941738, "policy_loss": -0.11453361064195633, "vf_loss": 213.14779663085938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9725269675254822, "entropy": 3.3602795600891113, "cur_lr": 4.999999873689376e-05, "total_loss": 213.04733276367188}, "load_time_ms": 0.656, "num_steps_sampled": 3121200, "grad_time_ms": 622.818, "update_time_ms": 2.319, "sample_time_ms": 33779.276}, "date": "2025-08-31_15-36-03", "hostname": "cda-server-4", "time_this_iter_s": 34.388853311538696, "episodes_total": 15606, "timestamp": 1756647363, "node_ip": "10.157.146.4", "done": false, "time_total_s": 84292.84816169739, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2602, "episode_reward_mean": -604.667554722406, "training_iteration": 2602, "timesteps_total": 3122400, "policy_reward_mean": {}, "episode_reward_min": -681.6002803111835, "timesteps_since_restore": 3122400, "num_metric_batches_dropped": 0, "time_since_restore": 84327.40528583527, "episode_reward_max": -446.7132160691175, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3122400, "default": {"kl": 0.01296126376837492, "policy_loss": -0.1479022204875946, "vf_loss": 93.38795471191406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9904143810272217, "entropy": 3.3805742263793945, "cur_lr": 4.999999873689376e-05, "total_loss": 93.25972747802734}, "load_time_ms": 0.662, "num_steps_sampled": 3122400, "grad_time_ms": 619.668, "update_time_ms": 2.275, "sample_time_ms": 33862.937}, "date": "2025-08-31_15-36-38", "hostname": "cda-server-4", "time_this_iter_s": 34.55712413787842, "episodes_total": 15612, "timestamp": 1756647398, "node_ip": "10.157.146.4", "done": false, "time_total_s": 84327.40528583527, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2603, "episode_reward_mean": -606.2095455431084, "training_iteration": 2603, "timesteps_total": 3123600, "policy_reward_mean": {}, "episode_reward_min": -681.6002803111835, "timesteps_since_restore": 3123600, "num_metric_batches_dropped": 0, "time_since_restore": 84361.37042880058, "episode_reward_max": -446.7132160691175, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3123600, "default": {"kl": 0.01064921822398901, "policy_loss": -0.13054829835891724, "vf_loss": 162.61630249023438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9828314185142517, "entropy": 3.2281394004821777, "cur_lr": 4.999999873689376e-05, "total_loss": 162.501953125}, "load_time_ms": 0.627, "num_steps_sampled": 3123600, "grad_time_ms": 599.554, "update_time_ms": 2.317, "sample_time_ms": 33749.808}, "date": "2025-08-31_15-37-12", "hostname": "cda-server-4", "time_this_iter_s": 33.96514296531677, "episodes_total": 15618, "timestamp": 1756647432, "node_ip": "10.157.146.4", "done": false, "time_total_s": 84361.37042880058, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2604, "episode_reward_mean": -605.2933119412619, "training_iteration": 2604, "timesteps_total": 3124800, "policy_reward_mean": {}, "episode_reward_min": -651.0617890631208, "timesteps_since_restore": 3124800, "num_metric_batches_dropped": 0, "time_since_restore": 84395.89617013931, "episode_reward_max": -446.7132160691175, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3124800, "default": {"kl": 0.011063377372920513, "policy_loss": -0.14795280992984772, "vf_loss": 107.4515151977539, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9850013256072998, "entropy": 3.3044586181640625, "cur_lr": 4.999999873689376e-05, "total_loss": 107.32037353515625}, "load_time_ms": 0.617, "num_steps_sampled": 3124800, "grad_time_ms": 592.554, "update_time_ms": 2.3, "sample_time_ms": 33643.891}, "date": "2025-08-31_15-37-46", "hostname": "cda-server-4", "time_this_iter_s": 34.52574133872986, "episodes_total": 15624, "timestamp": 1756647466, "node_ip": "10.157.146.4", "done": false, "time_total_s": 84395.89617013931, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2605, "episode_reward_mean": -605.6775494071649, "training_iteration": 2605, "timesteps_total": 3126000, "policy_reward_mean": {}, "episode_reward_min": -651.0617890631208, "timesteps_since_restore": 3126000, "num_metric_batches_dropped": 0, "time_since_restore": 84430.5617275238, "episode_reward_max": -446.7132160691175, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3126000, "default": {"kl": 0.008444367907941341, "policy_loss": -0.11983316391706467, "vf_loss": 162.97764587402344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.983057975769043, "entropy": 3.1444010734558105, "cur_lr": 4.999999873689376e-05, "total_loss": 162.8706512451172}, "load_time_ms": 0.66, "num_steps_sampled": 3126000, "grad_time_ms": 575.573, "update_time_ms": 2.386, "sample_time_ms": 33681.899}, "date": "2025-08-31_15-38-21", "hostname": "cda-server-4", "time_this_iter_s": 34.66555738449097, "episodes_total": 15630, "timestamp": 1756647501, "node_ip": "10.157.146.4", "done": false, "time_total_s": 84430.5617275238, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2606, "episode_reward_mean": -605.8421555890072, "training_iteration": 2606, "timesteps_total": 3127200, "policy_reward_mean": {}, "episode_reward_min": -651.0617890631208, "timesteps_since_restore": 3127200, "num_metric_batches_dropped": 0, "time_since_restore": 84464.8844909668, "episode_reward_max": -446.7132160691175, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3127200, "default": {"kl": 0.010276546701788902, "policy_loss": -0.14104118943214417, "vf_loss": 74.33765411376953, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9882903695106506, "entropy": 3.271712303161621, "cur_lr": 4.999999873689376e-05, "total_loss": 74.21222686767578}, "load_time_ms": 0.651, "num_steps_sampled": 3127200, "grad_time_ms": 583.131, "update_time_ms": 2.462, "sample_time_ms": 33709.21}, "date": "2025-08-31_15-38-55", "hostname": "cda-server-4", "time_this_iter_s": 34.322763442993164, "episodes_total": 15636, "timestamp": 1756647535, "node_ip": "10.157.146.4", "done": false, "time_total_s": 84464.8844909668, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2607, "episode_reward_mean": -605.8655352373, "training_iteration": 2607, "timesteps_total": 3128400, "policy_reward_mean": {}, "episode_reward_min": -651.0617890631208, "timesteps_since_restore": 3128400, "num_metric_batches_dropped": 0, "time_since_restore": 84499.42662525177, "episode_reward_max": -446.7132160691175, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3128400, "default": {"kl": 0.012125734239816666, "policy_loss": -0.16257184743881226, "vf_loss": 154.75579833984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9895005822181702, "entropy": 3.2610151767730713, "cur_lr": 4.999999873689376e-05, "total_loss": 154.61163330078125}, "load_time_ms": 0.651, "num_steps_sampled": 3128400, "grad_time_ms": 605.51, "update_time_ms": 2.466, "sample_time_ms": 33698.702}, "date": "2025-08-31_15-39-30", "hostname": "cda-server-4", "time_this_iter_s": 34.542134284973145, "episodes_total": 15642, "timestamp": 1756647570, "node_ip": "10.157.146.4", "done": false, "time_total_s": 84499.42662525177, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2608, "episode_reward_mean": -605.639962629995, "training_iteration": 2608, "timesteps_total": 3129600, "policy_reward_mean": {}, "episode_reward_min": -651.0617890631208, "timesteps_since_restore": 3129600, "num_metric_batches_dropped": 0, "time_since_restore": 84534.4962220192, "episode_reward_max": -446.7132160691175, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3129600, "default": {"kl": 0.010379225946962833, "policy_loss": -0.09797097742557526, "vf_loss": 312.1920166015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9658325910568237, "entropy": 3.2282750606536865, "cur_lr": 4.999999873689376e-05, "total_loss": 312.1098327636719}, "load_time_ms": 0.645, "num_steps_sampled": 3129600, "grad_time_ms": 619.373, "update_time_ms": 2.547, "sample_time_ms": 33763.884}, "date": "2025-08-31_15-40-05", "hostname": "cda-server-4", "time_this_iter_s": 35.06959676742554, "episodes_total": 15648, "timestamp": 1756647605, "node_ip": "10.157.146.4", "done": false, "time_total_s": 84534.4962220192, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2609, "episode_reward_mean": -605.5167217451917, "training_iteration": 2609, "timesteps_total": 3130800, "policy_reward_mean": {}, "episode_reward_min": -639.4178913639134, "timesteps_since_restore": 3130800, "num_metric_batches_dropped": 0, "time_since_restore": 84569.60935688019, "episode_reward_max": -446.7132160691175, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3130800, "default": {"kl": 0.01211200188845396, "policy_loss": -0.14346647262573242, "vf_loss": 122.31525421142578, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9876816272735596, "entropy": 3.27756404876709, "cur_lr": 4.999999873689376e-05, "total_loss": 122.190185546875}, "load_time_ms": 0.645, "num_steps_sampled": 3130800, "grad_time_ms": 618.036, "update_time_ms": 2.454, "sample_time_ms": 33893.495}, "date": "2025-08-31_15-40-40", "hostname": "cda-server-4", "time_this_iter_s": 35.11313486099243, "episodes_total": 15654, "timestamp": 1756647640, "node_ip": "10.157.146.4", "done": false, "time_total_s": 84569.60935688019, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2610, "episode_reward_mean": -606.1111465118464, "training_iteration": 2610, "timesteps_total": 3132000, "policy_reward_mean": {}, "episode_reward_min": -639.4178913639134, "timesteps_since_restore": 3132000, "num_metric_batches_dropped": 0, "time_since_restore": 84603.32466340065, "episode_reward_max": -446.7132160691175, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3132000, "default": {"kl": 0.010743636637926102, "policy_loss": -0.12987224757671356, "vf_loss": 78.01468658447266, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9934580326080322, "entropy": 3.236508369445801, "cur_lr": 4.999999873689376e-05, "total_loss": 77.90113830566406}, "load_time_ms": 0.632, "num_steps_sampled": 3132000, "grad_time_ms": 624.535, "update_time_ms": 2.433, "sample_time_ms": 33854.817}, "date": "2025-08-31_15-41-14", "hostname": "cda-server-4", "time_this_iter_s": 33.715306520462036, "episodes_total": 15660, "timestamp": 1756647674, "node_ip": "10.157.146.4", "done": false, "time_total_s": 84603.32466340065, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2611, "episode_reward_mean": -604.3513748123157, "training_iteration": 2611, "timesteps_total": 3133200, "policy_reward_mean": {}, "episode_reward_min": -639.4178913639134, "timesteps_since_restore": 3133200, "num_metric_batches_dropped": 0, "time_since_restore": 84637.845764637, "episode_reward_max": -446.7132160691175, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3133200, "default": {"kl": 0.011545062996447086, "policy_loss": -0.14434784650802612, "vf_loss": 107.06269836425781, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.991435706615448, "entropy": 3.2095184326171875, "cur_lr": 4.999999873689376e-05, "total_loss": 106.93588256835938}, "load_time_ms": 0.622, "num_steps_sampled": 3133200, "grad_time_ms": 609.514, "update_time_ms": 2.511, "sample_time_ms": 33883.035}, "date": "2025-08-31_15-41-48", "hostname": "cda-server-4", "time_this_iter_s": 34.521101236343384, "episodes_total": 15666, "timestamp": 1756647708, "node_ip": "10.157.146.4", "done": false, "time_total_s": 84637.845764637, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2612, "episode_reward_mean": -604.7610430020846, "training_iteration": 2612, "timesteps_total": 3134400, "policy_reward_mean": {}, "episode_reward_min": -639.4178913639134, "timesteps_since_restore": 3134400, "num_metric_batches_dropped": 0, "time_since_restore": 84672.54614043236, "episode_reward_max": -446.7132160691175, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3134400, "default": {"kl": 0.00916554220020771, "policy_loss": -0.1156880334019661, "vf_loss": 98.43741607666016, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9851717352867126, "entropy": 3.156630277633667, "cur_lr": 4.999999873689376e-05, "total_loss": 98.33564758300781}, "load_time_ms": 0.613, "num_steps_sampled": 3134400, "grad_time_ms": 588.695, "update_time_ms": 2.461, "sample_time_ms": 33918.261}, "date": "2025-08-31_15-42-23", "hostname": "cda-server-4", "time_this_iter_s": 34.70037579536438, "episodes_total": 15672, "timestamp": 1756647743, "node_ip": "10.157.146.4", "done": false, "time_total_s": 84672.54614043236, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2613, "episode_reward_mean": -605.2438985967042, "training_iteration": 2613, "timesteps_total": 3135600, "policy_reward_mean": {}, "episode_reward_min": -639.4178913639134, "timesteps_since_restore": 3135600, "num_metric_batches_dropped": 0, "time_since_restore": 84706.52021098137, "episode_reward_max": -446.7132160691175, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3135600, "default": {"kl": 0.012153410352766514, "policy_loss": -0.14704544842243195, "vf_loss": 250.80528259277344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9727455973625183, "entropy": 3.194366693496704, "cur_lr": 4.999999873689376e-05, "total_loss": 250.67669677734375}, "load_time_ms": 0.609, "num_steps_sampled": 3135600, "grad_time_ms": 573.993, "update_time_ms": 2.504, "sample_time_ms": 33933.79}, "date": "2025-08-31_15-42-57", "hostname": "cda-server-4", "time_this_iter_s": 33.97407054901123, "episodes_total": 15678, "timestamp": 1756647777, "node_ip": "10.157.146.4", "done": false, "time_total_s": 84706.52021098137, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2614, "episode_reward_mean": -608.9010467126315, "training_iteration": 2614, "timesteps_total": 3136800, "policy_reward_mean": {}, "episode_reward_min": -639.4178913639134, "timesteps_since_restore": 3136800, "num_metric_batches_dropped": 0, "time_since_restore": 84740.70696496964, "episode_reward_max": -515.1897550912979, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3136800, "default": {"kl": 0.010079155676066875, "policy_loss": -0.13820284605026245, "vf_loss": 66.15827941894531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9920722246170044, "entropy": 3.2099769115448, "cur_lr": 4.999999873689376e-05, "total_loss": 66.0353775024414}, "load_time_ms": 0.614, "num_steps_sampled": 3136800, "grad_time_ms": 589.824, "update_time_ms": 2.484, "sample_time_ms": 33884.098}, "date": "2025-08-31_15-43-31", "hostname": "cda-server-4", "time_this_iter_s": 34.18675398826599, "episodes_total": 15684, "timestamp": 1756647811, "node_ip": "10.157.146.4", "done": false, "time_total_s": 84740.70696496964, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2615, "episode_reward_mean": -608.7989951563451, "training_iteration": 2615, "timesteps_total": 3138000, "policy_reward_mean": {}, "episode_reward_min": -639.4178913639134, "timesteps_since_restore": 3138000, "num_metric_batches_dropped": 0, "time_since_restore": 84775.32726311684, "episode_reward_max": -515.1897550912979, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3138000, "default": {"kl": 0.011027950793504715, "policy_loss": -0.1391982138156891, "vf_loss": 95.26436614990234, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9888120293617249, "entropy": 3.279489040374756, "cur_lr": 4.999999873689376e-05, "total_loss": 95.14192199707031}, "load_time_ms": 0.58, "num_steps_sampled": 3138000, "grad_time_ms": 589.634, "update_time_ms": 2.416, "sample_time_ms": 33879.943}, "date": "2025-08-31_15-44-06", "hostname": "cda-server-4", "time_this_iter_s": 34.62029814720154, "episodes_total": 15690, "timestamp": 1756647846, "node_ip": "10.157.146.4", "done": false, "time_total_s": 84775.32726311684, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2616, "episode_reward_mean": -606.8444206570554, "training_iteration": 2616, "timesteps_total": 3139200, "policy_reward_mean": {}, "episode_reward_min": -640.1933156166792, "timesteps_since_restore": 3139200, "num_metric_batches_dropped": 0, "time_since_restore": 84810.6345345974, "episode_reward_max": -496.7861350732189, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3139200, "default": {"kl": 0.01256974320858717, "policy_loss": -0.15307775139808655, "vf_loss": 114.67766571044922, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.985405683517456, "entropy": 3.236835241317749, "cur_lr": 4.999999873689376e-05, "total_loss": 114.54368591308594}, "load_time_ms": 0.61, "num_steps_sampled": 3139200, "grad_time_ms": 619.628, "update_time_ms": 2.329, "sample_time_ms": 33948.397}, "date": "2025-08-31_15-44-41", "hostname": "cda-server-4", "time_this_iter_s": 35.3072714805603, "episodes_total": 15696, "timestamp": 1756647881, "node_ip": "10.157.146.4", "done": false, "time_total_s": 84810.6345345974, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2617, "episode_reward_mean": -607.2155676256124, "training_iteration": 2617, "timesteps_total": 3140400, "policy_reward_mean": {}, "episode_reward_min": -651.274891904131, "timesteps_since_restore": 3140400, "num_metric_batches_dropped": 0, "time_since_restore": 84845.38033127785, "episode_reward_max": -496.7861350732189, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3140400, "default": {"kl": 0.013416659086942673, "policy_loss": -0.16244162619113922, "vf_loss": 30.97001838684082, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9958463311195374, "entropy": 3.427490711212158, "cur_lr": 4.999999873689376e-05, "total_loss": 30.827951431274414}, "load_time_ms": 0.609, "num_steps_sampled": 3140400, "grad_time_ms": 602.16, "update_time_ms": 2.406, "sample_time_ms": 33986.147}, "date": "2025-08-31_15-45-16", "hostname": "cda-server-4", "time_this_iter_s": 34.74579668045044, "episodes_total": 15702, "timestamp": 1756647916, "node_ip": "10.157.146.4", "done": false, "time_total_s": 84845.38033127785, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2618, "episode_reward_mean": -607.3929852410062, "training_iteration": 2618, "timesteps_total": 3141600, "policy_reward_mean": {}, "episode_reward_min": -651.274891904131, "timesteps_since_restore": 3141600, "num_metric_batches_dropped": 0, "time_since_restore": 84880.17343044281, "episode_reward_max": -496.7861350732189, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3141600, "default": {"kl": 0.01004360057413578, "policy_loss": -0.12200755625963211, "vf_loss": 78.51606750488281, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9880143404006958, "entropy": 3.2148220539093018, "cur_lr": 4.999999873689376e-05, "total_loss": 78.40930938720703}, "load_time_ms": 0.612, "num_steps_sampled": 3141600, "grad_time_ms": 588.577, "update_time_ms": 2.35, "sample_time_ms": 33972.063}, "date": "2025-08-31_15-45-51", "hostname": "cda-server-4", "time_this_iter_s": 34.79309916496277, "episodes_total": 15708, "timestamp": 1756647951, "node_ip": "10.157.146.4", "done": false, "time_total_s": 84880.17343044281, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2619, "episode_reward_mean": -608.134679668057, "training_iteration": 2619, "timesteps_total": 3142800, "policy_reward_mean": {}, "episode_reward_min": -651.274891904131, "timesteps_since_restore": 3142800, "num_metric_batches_dropped": 0, "time_since_restore": 84915.96177911758, "episode_reward_max": -496.7861350732189, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3142800, "default": {"kl": 0.010788727551698685, "policy_loss": -0.13878227770328522, "vf_loss": 195.32711791992188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9805769324302673, "entropy": 3.1087586879730225, "cur_lr": 4.999999873689376e-05, "total_loss": 195.20472717285156}, "load_time_ms": 0.616, "num_steps_sampled": 3142800, "grad_time_ms": 583.188, "update_time_ms": 2.313, "sample_time_ms": 34045.026}, "date": "2025-08-31_15-46-27", "hostname": "cda-server-4", "time_this_iter_s": 35.78834867477417, "episodes_total": 15714, "timestamp": 1756647987, "node_ip": "10.157.146.4", "done": false, "time_total_s": 84915.96177911758, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2620, "episode_reward_mean": -608.6387450168367, "training_iteration": 2620, "timesteps_total": 3144000, "policy_reward_mean": {}, "episode_reward_min": -651.274891904131, "timesteps_since_restore": 3144000, "num_metric_batches_dropped": 0, "time_since_restore": 84950.28894281387, "episode_reward_max": -496.7861350732189, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3144000, "default": {"kl": 0.0112991314381361, "policy_loss": -0.14329157769680023, "vf_loss": 236.31773376464844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9801876544952393, "entropy": 3.281853199005127, "cur_lr": 4.999999873689376e-05, "total_loss": 236.19158935546875}, "load_time_ms": 0.623, "num_steps_sampled": 3144000, "grad_time_ms": 586.369, "update_time_ms": 2.311, "sample_time_ms": 34103.094}, "date": "2025-08-31_15-47-01", "hostname": "cda-server-4", "time_this_iter_s": 34.32716369628906, "episodes_total": 15720, "timestamp": 1756648021, "node_ip": "10.157.146.4", "done": false, "time_total_s": 84950.28894281387, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2621, "episode_reward_mean": -608.6634511557049, "training_iteration": 2621, "timesteps_total": 3145200, "policy_reward_mean": {}, "episode_reward_min": -651.274891904131, "timesteps_since_restore": 3145200, "num_metric_batches_dropped": 0, "time_since_restore": 84984.11958909035, "episode_reward_max": -496.7861350732189, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3145200, "default": {"kl": 0.007517317775636911, "policy_loss": -0.11515046656131744, "vf_loss": 159.6145477294922, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9837631583213806, "entropy": 3.206965446472168, "cur_lr": 4.999999873689376e-05, "total_loss": 159.5108184814453}, "load_time_ms": 0.632, "num_steps_sampled": 3145200, "grad_time_ms": 612.893, "update_time_ms": 2.261, "sample_time_ms": 34007.598}, "date": "2025-08-31_15-47-35", "hostname": "cda-server-4", "time_this_iter_s": 33.830646276474, "episodes_total": 15726, "timestamp": 1756648055, "node_ip": "10.157.146.4", "done": false, "time_total_s": 84984.11958909035, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2622, "episode_reward_mean": -608.6707197633508, "training_iteration": 2622, "timesteps_total": 3146400, "policy_reward_mean": {}, "episode_reward_min": -651.274891904131, "timesteps_since_restore": 3146400, "num_metric_batches_dropped": 0, "time_since_restore": 85019.81572318077, "episode_reward_max": -496.7861350732189, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3146400, "default": {"kl": 0.01002162229269743, "policy_loss": -0.113590769469738, "vf_loss": 57.43764114379883, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9917519092559814, "entropy": 3.200812339782715, "cur_lr": 4.999999873689376e-05, "total_loss": 57.33927536010742}, "load_time_ms": 0.634, "num_steps_sampled": 3146400, "grad_time_ms": 635.432, "update_time_ms": 2.302, "sample_time_ms": 34084.58}, "date": "2025-08-31_15-48-11", "hostname": "cda-server-4", "time_this_iter_s": 35.696134090423584, "episodes_total": 15732, "timestamp": 1756648091, "node_ip": "10.157.146.4", "done": false, "time_total_s": 85019.81572318077, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2623, "episode_reward_mean": -606.6142943139042, "training_iteration": 2623, "timesteps_total": 3147600, "policy_reward_mean": {}, "episode_reward_min": -651.274891904131, "timesteps_since_restore": 3147600, "num_metric_batches_dropped": 0, "time_since_restore": 85055.61922287941, "episode_reward_max": -472.6794403396286, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3147600, "default": {"kl": 0.012822740711271763, "policy_loss": -0.15200239419937134, "vf_loss": 264.904052734375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9673311710357666, "entropy": 3.163895606994629, "cur_lr": 4.999999873689376e-05, "total_loss": 264.77154541015625}, "load_time_ms": 0.651, "num_steps_sampled": 3147600, "grad_time_ms": 688.335, "update_time_ms": 2.253, "sample_time_ms": 34214.426}, "date": "2025-08-31_15-48-46", "hostname": "cda-server-4", "time_this_iter_s": 35.803499698638916, "episodes_total": 15738, "timestamp": 1756648126, "node_ip": "10.157.146.4", "done": false, "time_total_s": 85055.61922287941, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2624, "episode_reward_mean": -604.6495661074359, "training_iteration": 2624, "timesteps_total": 3148800, "policy_reward_mean": {}, "episode_reward_min": -651.274891904131, "timesteps_since_restore": 3148800, "num_metric_batches_dropped": 0, "time_since_restore": 85090.42791724205, "episode_reward_max": -472.6794403396286, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3148800, "default": {"kl": 0.010871957056224346, "policy_loss": -0.12190805375576019, "vf_loss": 258.0816650390625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9801595211029053, "entropy": 3.1024131774902344, "cur_lr": 4.999999873689376e-05, "total_loss": 257.97625732421875}, "load_time_ms": 0.646, "num_steps_sampled": 3148800, "grad_time_ms": 692.989, "update_time_ms": 2.546, "sample_time_ms": 34271.658}, "date": "2025-08-31_15-49-21", "hostname": "cda-server-4", "time_this_iter_s": 34.80869436264038, "episodes_total": 15744, "timestamp": 1756648161, "node_ip": "10.157.146.4", "done": false, "time_total_s": 85090.42791724205, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2625, "episode_reward_mean": -604.4695933953991, "training_iteration": 2625, "timesteps_total": 3150000, "policy_reward_mean": {}, "episode_reward_min": -651.274891904131, "timesteps_since_restore": 3150000, "num_metric_batches_dropped": 0, "time_since_restore": 85124.76038360596, "episode_reward_max": -472.6794403396286, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3150000, "default": {"kl": 0.00913163460791111, "policy_loss": -0.09059187024831772, "vf_loss": 155.82627868652344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9951289296150208, "entropy": 3.23055362701416, "cur_lr": 4.999999873689376e-05, "total_loss": 155.74957275390625}, "load_time_ms": 0.635, "num_steps_sampled": 3150000, "grad_time_ms": 691.014, "update_time_ms": 2.538, "sample_time_ms": 34244.897}, "date": "2025-08-31_15-49-56", "hostname": "cda-server-4", "time_this_iter_s": 34.33246636390686, "episodes_total": 15750, "timestamp": 1756648196, "node_ip": "10.157.146.4", "done": false, "time_total_s": 85124.76038360596, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2626, "episode_reward_mean": -603.884238685718, "training_iteration": 2626, "timesteps_total": 3151200, "policy_reward_mean": {}, "episode_reward_min": -651.274891904131, "timesteps_since_restore": 3151200, "num_metric_batches_dropped": 0, "time_since_restore": 85159.49321317673, "episode_reward_max": -472.6794403396286, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3151200, "default": {"kl": 0.008427615277469158, "policy_loss": -0.10396745800971985, "vf_loss": 149.73968505859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9902017116546631, "entropy": 3.2477502822875977, "cur_lr": 4.999999873689376e-05, "total_loss": 149.64849853515625}, "load_time_ms": 0.602, "num_steps_sampled": 3151200, "grad_time_ms": 656.143, "update_time_ms": 2.536, "sample_time_ms": 34222.546}, "date": "2025-08-31_15-50-30", "hostname": "cda-server-4", "time_this_iter_s": 34.732829570770264, "episodes_total": 15756, "timestamp": 1756648230, "node_ip": "10.157.146.4", "done": false, "time_total_s": 85159.49321317673, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2627, "episode_reward_mean": -603.7728221261345, "training_iteration": 2627, "timesteps_total": 3152400, "policy_reward_mean": {}, "episode_reward_min": -651.274891904131, "timesteps_since_restore": 3152400, "num_metric_batches_dropped": 0, "time_since_restore": 85194.27958273888, "episode_reward_max": -472.6794403396286, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3152400, "default": {"kl": 0.009679542854428291, "policy_loss": -0.12886260449886322, "vf_loss": 392.3779296875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9666646122932434, "entropy": 3.1728909015655518, "cur_lr": 4.999999873689376e-05, "total_loss": 392.2637634277344}, "load_time_ms": 0.601, "num_steps_sampled": 3152400, "grad_time_ms": 659.015, "update_time_ms": 2.484, "sample_time_ms": 34223.798}, "date": "2025-08-31_15-51-05", "hostname": "cda-server-4", "time_this_iter_s": 34.78636956214905, "episodes_total": 15762, "timestamp": 1756648265, "node_ip": "10.157.146.4", "done": false, "time_total_s": 85194.27958273888, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2628, "episode_reward_mean": -604.7174005950654, "training_iteration": 2628, "timesteps_total": 3153600, "policy_reward_mean": {}, "episode_reward_min": -651.274891904131, "timesteps_since_restore": 3153600, "num_metric_batches_dropped": 0, "time_since_restore": 85228.44690561295, "episode_reward_max": -472.6794403396286, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3153600, "default": {"kl": 0.01062693726271391, "policy_loss": -0.13246041536331177, "vf_loss": 43.73623275756836, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9956722259521484, "entropy": 3.2358007431030273, "cur_lr": 4.999999873689376e-05, "total_loss": 43.61991500854492}, "load_time_ms": 0.6, "num_steps_sampled": 3153600, "grad_time_ms": 669.508, "update_time_ms": 2.451, "sample_time_ms": 34150.866}, "date": "2025-08-31_15-51-39", "hostname": "cda-server-4", "time_this_iter_s": 34.167322874069214, "episodes_total": 15768, "timestamp": 1756648299, "node_ip": "10.157.146.4", "done": false, "time_total_s": 85228.44690561295, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2629, "episode_reward_mean": -603.8484683836422, "training_iteration": 2629, "timesteps_total": 3154800, "policy_reward_mean": {}, "episode_reward_min": -651.274891904131, "timesteps_since_restore": 3154800, "num_metric_batches_dropped": 0, "time_since_restore": 85263.07161712646, "episode_reward_max": -472.6794403396286, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3154800, "default": {"kl": 0.011893432587385178, "policy_loss": -0.14434076845645905, "vf_loss": 49.53939437866211, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9956463575363159, "entropy": 3.137230157852173, "cur_lr": 4.999999873689376e-05, "total_loss": 49.413116455078125}, "load_time_ms": 0.592, "num_steps_sampled": 3154800, "grad_time_ms": 680.399, "update_time_ms": 2.419, "sample_time_ms": 34023.564}, "date": "2025-08-31_15-52-14", "hostname": "cda-server-4", "time_this_iter_s": 34.62471151351929, "episodes_total": 15774, "timestamp": 1756648334, "node_ip": "10.157.146.4", "done": false, "time_total_s": 85263.07161712646, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2630, "episode_reward_mean": -602.9792763213925, "training_iteration": 2630, "timesteps_total": 3156000, "policy_reward_mean": {}, "episode_reward_min": -651.274891904131, "timesteps_since_restore": 3156000, "num_metric_batches_dropped": 0, "time_since_restore": 85297.50572299957, "episode_reward_max": -472.6794403396286, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3156000, "default": {"kl": 0.012518271803855896, "policy_loss": -0.15413914620876312, "vf_loss": 92.48741149902344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9896969199180603, "entropy": 3.302544355392456, "cur_lr": 4.999999873689376e-05, "total_loss": 92.35228729248047}, "load_time_ms": 0.592, "num_steps_sampled": 3156000, "grad_time_ms": 697.011, "update_time_ms": 2.431, "sample_time_ms": 34017.665}, "date": "2025-08-31_15-52-48", "hostname": "cda-server-4", "time_this_iter_s": 34.43410587310791, "episodes_total": 15780, "timestamp": 1756648368, "node_ip": "10.157.146.4", "done": false, "time_total_s": 85297.50572299957, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2631, "episode_reward_mean": -603.6543500932254, "training_iteration": 2631, "timesteps_total": 3157200, "policy_reward_mean": {}, "episode_reward_min": -651.274891904131, "timesteps_since_restore": 3157200, "num_metric_batches_dropped": 0, "time_since_restore": 85331.06922864914, "episode_reward_max": -472.6794403396286, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3157200, "default": {"kl": 0.011267471127212048, "policy_loss": -0.1090797409415245, "vf_loss": 219.29327392578125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9837273359298706, "entropy": 3.1480836868286133, "cur_lr": 4.999999873689376e-05, "total_loss": 219.20130920410156}, "load_time_ms": 0.588, "num_steps_sampled": 3157200, "grad_time_ms": 687.389, "update_time_ms": 2.419, "sample_time_ms": 34000.572}, "date": "2025-08-31_15-53-22", "hostname": "cda-server-4", "time_this_iter_s": 33.56350564956665, "episodes_total": 15786, "timestamp": 1756648402, "node_ip": "10.157.146.4", "done": false, "time_total_s": 85331.06922864914, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2632, "episode_reward_mean": -605.195877287798, "training_iteration": 2632, "timesteps_total": 3158400, "policy_reward_mean": {}, "episode_reward_min": -651.274891904131, "timesteps_since_restore": 3158400, "num_metric_batches_dropped": 0, "time_since_restore": 85365.00370955467, "episode_reward_max": -472.6794403396286, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3158400, "default": {"kl": 0.012001501396298409, "policy_loss": -0.15356706082820892, "vf_loss": 73.71963500976562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9922707676887512, "entropy": 3.128547430038452, "cur_lr": 4.999999873689376e-05, "total_loss": 73.58429718017578}, "load_time_ms": 0.593, "num_steps_sampled": 3158400, "grad_time_ms": 668.144, "update_time_ms": 2.481, "sample_time_ms": 33843.513}, "date": "2025-08-31_15-53-56", "hostname": "cda-server-4", "time_this_iter_s": 33.93448090553284, "episodes_total": 15792, "timestamp": 1756648436, "node_ip": "10.157.146.4", "done": false, "time_total_s": 85365.00370955467, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2633, "episode_reward_mean": -605.6401030560803, "training_iteration": 2633, "timesteps_total": 3159600, "policy_reward_mean": {}, "episode_reward_min": -651.274891904131, "timesteps_since_restore": 3159600, "num_metric_batches_dropped": 0, "time_since_restore": 85399.47973513603, "episode_reward_max": -472.6794403396286, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3159600, "default": {"kl": 0.01292404904961586, "policy_loss": -0.16505067050457, "vf_loss": 156.86203002929688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9859645366668701, "entropy": 3.3180088996887207, "cur_lr": 4.999999873689376e-05, "total_loss": 156.71661376953125}, "load_time_ms": 0.57, "num_steps_sampled": 3159600, "grad_time_ms": 615.137, "update_time_ms": 2.479, "sample_time_ms": 33764.039}, "date": "2025-08-31_15-54-31", "hostname": "cda-server-4", "time_this_iter_s": 34.47602558135986, "episodes_total": 15798, "timestamp": 1756648471, "node_ip": "10.157.146.4", "done": false, "time_total_s": 85399.47973513603, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2634, "episode_reward_mean": -605.7077669185854, "training_iteration": 2634, "timesteps_total": 3160800, "policy_reward_mean": {}, "episode_reward_min": -647.6490223517822, "timesteps_since_restore": 3160800, "num_metric_batches_dropped": 0, "time_since_restore": 85434.95996284485, "episode_reward_max": -472.6794403396286, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3160800, "default": {"kl": 0.011023957282304764, "policy_loss": -0.1546497642993927, "vf_loss": 107.30764770507812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9856497645378113, "entropy": 3.0807130336761475, "cur_lr": 4.999999873689376e-05, "total_loss": 107.16973876953125}, "load_time_ms": 0.576, "num_steps_sampled": 3160800, "grad_time_ms": 623.474, "update_time_ms": 2.207, "sample_time_ms": 33823.124}, "date": "2025-08-31_15-55-06", "hostname": "cda-server-4", "time_this_iter_s": 35.48022770881653, "episodes_total": 15804, "timestamp": 1756648506, "node_ip": "10.157.146.4", "done": false, "time_total_s": 85434.95996284485, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2635, "episode_reward_mean": -605.4383910849451, "training_iteration": 2635, "timesteps_total": 3162000, "policy_reward_mean": {}, "episode_reward_min": -642.9283773535362, "timesteps_since_restore": 3162000, "num_metric_batches_dropped": 0, "time_since_restore": 85469.45092988014, "episode_reward_max": -472.6794403396286, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3162000, "default": {"kl": 0.009119493886828423, "policy_loss": -0.13036540150642395, "vf_loss": 143.70626831054688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9785538911819458, "entropy": 3.166477680206299, "cur_lr": 4.999999873689376e-05, "total_loss": 143.5897674560547}, "load_time_ms": 0.577, "num_steps_sampled": 3162000, "grad_time_ms": 647.183, "update_time_ms": 2.21, "sample_time_ms": 33815.183}, "date": "2025-08-31_15-55-41", "hostname": "cda-server-4", "time_this_iter_s": 34.49096703529358, "episodes_total": 15810, "timestamp": 1756648541, "node_ip": "10.157.146.4", "done": false, "time_total_s": 85469.45092988014, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2636, "episode_reward_mean": -605.8354007163724, "training_iteration": 2636, "timesteps_total": 3163200, "policy_reward_mean": {}, "episode_reward_min": -642.9283773535362, "timesteps_since_restore": 3163200, "num_metric_batches_dropped": 0, "time_since_restore": 85504.21698951721, "episode_reward_max": -472.6794403396286, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3163200, "default": {"kl": 0.012560669332742691, "policy_loss": -0.11671958863735199, "vf_loss": 239.2603302001953, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9673260450363159, "entropy": 3.221438407897949, "cur_lr": 4.999999873689376e-05, "total_loss": 239.16270446777344}, "load_time_ms": 0.59, "num_steps_sampled": 3163200, "grad_time_ms": 659.263, "update_time_ms": 2.244, "sample_time_ms": 33806.345}, "date": "2025-08-31_15-56-15", "hostname": "cda-server-4", "time_this_iter_s": 34.7660596370697, "episodes_total": 15816, "timestamp": 1756648575, "node_ip": "10.157.146.4", "done": false, "time_total_s": 85504.21698951721, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2637, "episode_reward_mean": -605.7559269257443, "training_iteration": 2637, "timesteps_total": 3164400, "policy_reward_mean": {}, "episode_reward_min": -642.9283773535362, "timesteps_since_restore": 3164400, "num_metric_batches_dropped": 0, "time_since_restore": 85538.70786380768, "episode_reward_max": -472.6794403396286, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3164400, "default": {"kl": 0.013149324804544449, "policy_loss": -0.14686539769172668, "vf_loss": 248.1128692626953, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.979441225528717, "entropy": 3.261759042739868, "cur_lr": 4.999999873689376e-05, "total_loss": 247.9860076904297}, "load_time_ms": 0.595, "num_steps_sampled": 3164400, "grad_time_ms": 675.303, "update_time_ms": 2.191, "sample_time_ms": 33760.852}, "date": "2025-08-31_15-56-50", "hostname": "cda-server-4", "time_this_iter_s": 34.49087429046631, "episodes_total": 15822, "timestamp": 1756648610, "node_ip": "10.157.146.4", "done": false, "time_total_s": 85538.70786380768, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2638, "episode_reward_mean": -605.7584209729482, "training_iteration": 2638, "timesteps_total": 3165600, "policy_reward_mean": {}, "episode_reward_min": -642.9283773535362, "timesteps_since_restore": 3165600, "num_metric_batches_dropped": 0, "time_since_restore": 85573.73937392235, "episode_reward_max": -472.6794403396286, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3165600, "default": {"kl": 0.00975856650620699, "policy_loss": -0.12984010577201843, "vf_loss": 226.33517456054688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.982452392578125, "entropy": 3.1750569343566895, "cur_lr": 4.999999873689376e-05, "total_loss": 226.22015380859375}, "load_time_ms": 0.631, "num_steps_sampled": 3165600, "grad_time_ms": 668.42, "update_time_ms": 2.204, "sample_time_ms": 33854.031}, "date": "2025-08-31_15-57-25", "hostname": "cda-server-4", "time_this_iter_s": 35.0315101146698, "episodes_total": 15828, "timestamp": 1756648645, "node_ip": "10.157.146.4", "done": false, "time_total_s": 85573.73937392235, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2639, "episode_reward_mean": -605.3735315110658, "training_iteration": 2639, "timesteps_total": 3166800, "policy_reward_mean": {}, "episode_reward_min": -642.9283773535362, "timesteps_since_restore": 3166800, "num_metric_batches_dropped": 0, "time_since_restore": 85607.88491797447, "episode_reward_max": -472.6794403396286, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3166800, "default": {"kl": 0.00904801208525896, "policy_loss": -0.11933384835720062, "vf_loss": 128.44744873046875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9828755855560303, "entropy": 3.126296043395996, "cur_lr": 4.999999873689376e-05, "total_loss": 128.34185791015625}, "load_time_ms": 0.631, "num_steps_sampled": 3166800, "grad_time_ms": 661.264, "update_time_ms": 2.286, "sample_time_ms": 33813.266}, "date": "2025-08-31_15-57-59", "hostname": "cda-server-4", "time_this_iter_s": 34.14554405212402, "episodes_total": 15834, "timestamp": 1756648679, "node_ip": "10.157.146.4", "done": false, "time_total_s": 85607.88491797447, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2640, "episode_reward_mean": -607.2437579450794, "training_iteration": 2640, "timesteps_total": 3168000, "policy_reward_mean": {}, "episode_reward_min": -636.9940010016755, "timesteps_since_restore": 3168000, "num_metric_batches_dropped": 0, "time_since_restore": 85642.59381699562, "episode_reward_max": -489.01486464710183, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3168000, "default": {"kl": 0.01095916423946619, "policy_loss": -0.13523413240909576, "vf_loss": 70.18115234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9916316270828247, "entropy": 3.156554698944092, "cur_lr": 4.999999873689376e-05, "total_loss": 70.06255340576172}, "load_time_ms": 0.638, "num_steps_sampled": 3168000, "grad_time_ms": 664.29, "update_time_ms": 2.258, "sample_time_ms": 33837.686}, "date": "2025-08-31_15-58-34", "hostname": "cda-server-4", "time_this_iter_s": 34.70889902114868, "episodes_total": 15840, "timestamp": 1756648714, "node_ip": "10.157.146.4", "done": false, "time_total_s": 85642.59381699562, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2641, "episode_reward_mean": -609.254688540335, "training_iteration": 2641, "timesteps_total": 3169200, "policy_reward_mean": {}, "episode_reward_min": -759.7759700224021, "timesteps_since_restore": 3169200, "num_metric_batches_dropped": 0, "time_since_restore": 85677.87314891815, "episode_reward_max": -489.01486464710183, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3169200, "default": {"kl": 0.012013214640319347, "policy_loss": -0.14221899211406708, "vf_loss": 256.0488586425781, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9764364957809448, "entropy": 3.5375514030456543, "cur_lr": 4.999999873689376e-05, "total_loss": 255.9248809814453}, "load_time_ms": 0.638, "num_steps_sampled": 3169200, "grad_time_ms": 659.401, "update_time_ms": 2.275, "sample_time_ms": 34014.092}, "date": "2025-08-31_15-59-09", "hostname": "cda-server-4", "time_this_iter_s": 35.27933192253113, "episodes_total": 15846, "timestamp": 1756648749, "node_ip": "10.157.146.4", "done": false, "time_total_s": 85677.87314891815, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2642, "episode_reward_mean": -609.8413357545978, "training_iteration": 2642, "timesteps_total": 3170400, "policy_reward_mean": {}, "episode_reward_min": -759.7759700224021, "timesteps_since_restore": 3170400, "num_metric_batches_dropped": 0, "time_since_restore": 85711.35439324379, "episode_reward_max": -489.01486464710183, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3170400, "default": {"kl": 0.011372051201760769, "policy_loss": -0.13728123903274536, "vf_loss": 131.528076171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9842898845672607, "entropy": 3.140352964401245, "cur_lr": 4.999999873689376e-05, "total_loss": 131.40805053710938}, "load_time_ms": 0.638, "num_steps_sampled": 3170400, "grad_time_ms": 674.509, "update_time_ms": 2.189, "sample_time_ms": 33953.781}, "date": "2025-08-31_15-59-43", "hostname": "cda-server-4", "time_this_iter_s": 33.48124432563782, "episodes_total": 15852, "timestamp": 1756648783, "node_ip": "10.157.146.4", "done": false, "time_total_s": 85711.35439324379, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2643, "episode_reward_mean": -610.8348322777065, "training_iteration": 2643, "timesteps_total": 3171600, "policy_reward_mean": {}, "episode_reward_min": -759.7759700224021, "timesteps_since_restore": 3171600, "num_metric_batches_dropped": 0, "time_since_restore": 85745.6282479763, "episode_reward_max": -489.01486464710183, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3171600, "default": {"kl": 0.009302783757448196, "policy_loss": -0.1277165710926056, "vf_loss": 251.71734619140625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9748314619064331, "entropy": 3.2486085891723633, "cur_lr": 4.999999873689376e-05, "total_loss": 251.60372924804688}, "load_time_ms": 0.643, "num_steps_sampled": 3171600, "grad_time_ms": 681.559, "update_time_ms": 2.153, "sample_time_ms": 33926.536}, "date": "2025-08-31_16-00-17", "hostname": "cda-server-4", "time_this_iter_s": 34.27385473251343, "episodes_total": 15858, "timestamp": 1756648817, "node_ip": "10.157.146.4", "done": false, "time_total_s": 85745.6282479763, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2644, "episode_reward_mean": -610.4721758924976, "training_iteration": 2644, "timesteps_total": 3172800, "policy_reward_mean": {}, "episode_reward_min": -759.7759700224021, "timesteps_since_restore": 3172800, "num_metric_batches_dropped": 0, "time_since_restore": 85780.5583999157, "episode_reward_max": -489.01486464710183, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3172800, "default": {"kl": 0.009708053432404995, "policy_loss": -0.12880273163318634, "vf_loss": 64.63241577148438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9918953776359558, "entropy": 3.1548449993133545, "cur_lr": 4.999999873689376e-05, "total_loss": 64.51834869384766}, "load_time_ms": 0.672, "num_steps_sampled": 3172800, "grad_time_ms": 675.773, "update_time_ms": 2.17, "sample_time_ms": 33877.166}, "date": "2025-08-31_16-00-52", "hostname": "cda-server-4", "time_this_iter_s": 34.93015193939209, "episodes_total": 15864, "timestamp": 1756648852, "node_ip": "10.157.146.4", "done": false, "time_total_s": 85780.5583999157, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2645, "episode_reward_mean": -610.3706126119589, "training_iteration": 2645, "timesteps_total": 3174000, "policy_reward_mean": {}, "episode_reward_min": -759.7759700224021, "timesteps_since_restore": 3174000, "num_metric_batches_dropped": 0, "time_since_restore": 85814.78544211388, "episode_reward_max": -465.0780308529559, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3174000, "default": {"kl": 0.010533453896641731, "policy_loss": -0.12757712602615356, "vf_loss": 146.9900360107422, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9779758453369141, "entropy": 3.1372859477996826, "cur_lr": 4.999999873689376e-05, "total_loss": 146.87844848632812}, "load_time_ms": 0.694, "num_steps_sampled": 3174000, "grad_time_ms": 669.631, "update_time_ms": 2.227, "sample_time_ms": 33856.791}, "date": "2025-08-31_16-01-26", "hostname": "cda-server-4", "time_this_iter_s": 34.22704219818115, "episodes_total": 15870, "timestamp": 1756648886, "node_ip": "10.157.146.4", "done": false, "time_total_s": 85814.78544211388, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2646, "episode_reward_mean": -610.2930020170115, "training_iteration": 2646, "timesteps_total": 3175200, "policy_reward_mean": {}, "episode_reward_min": -759.7759700224021, "timesteps_since_restore": 3175200, "num_metric_batches_dropped": 0, "time_since_restore": 85848.71007585526, "episode_reward_max": -465.0780308529559, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3175200, "default": {"kl": 0.012037638574838638, "policy_loss": -0.15952642261981964, "vf_loss": 79.51482391357422, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9895308017730713, "entropy": 3.123938798904419, "cur_lr": 4.999999873689376e-05, "total_loss": 79.37358093261719}, "load_time_ms": 0.684, "num_steps_sampled": 3175200, "grad_time_ms": 647.101, "update_time_ms": 2.266, "sample_time_ms": 33795.157}, "date": "2025-08-31_16-02-00", "hostname": "cda-server-4", "time_this_iter_s": 33.924633741378784, "episodes_total": 15876, "timestamp": 1756648920, "node_ip": "10.157.146.4", "done": false, "time_total_s": 85848.71007585526, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2647, "episode_reward_mean": -611.2376527227268, "training_iteration": 2647, "timesteps_total": 3176400, "policy_reward_mean": {}, "episode_reward_min": -759.7759700224021, "timesteps_since_restore": 3176400, "num_metric_batches_dropped": 0, "time_since_restore": 85883.36198496819, "episode_reward_max": -465.0780308529559, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3176400, "default": {"kl": 0.011143693700432777, "policy_loss": -0.14666706323623657, "vf_loss": 36.56327819824219, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9943829774856567, "entropy": 3.239398956298828, "cur_lr": 4.999999873689376e-05, "total_loss": 36.43353271484375}, "load_time_ms": 0.683, "num_steps_sampled": 3176400, "grad_time_ms": 639.412, "update_time_ms": 2.228, "sample_time_ms": 33818.95}, "date": "2025-08-31_16-02-35", "hostname": "cda-server-4", "time_this_iter_s": 34.6519091129303, "episodes_total": 15882, "timestamp": 1756648955, "node_ip": "10.157.146.4", "done": false, "time_total_s": 85883.36198496819, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2648, "episode_reward_mean": -612.2657934395535, "training_iteration": 2648, "timesteps_total": 3177600, "policy_reward_mean": {}, "episode_reward_min": -759.7759700224021, "timesteps_since_restore": 3177600, "num_metric_batches_dropped": 0, "time_since_restore": 85918.18281507492, "episode_reward_max": -465.0780308529559, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3177600, "default": {"kl": 0.0114403385668993, "policy_loss": -0.15098831057548523, "vf_loss": 372.6004943847656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9740758538246155, "entropy": 3.4860916137695312, "cur_lr": 4.999999873689376e-05, "total_loss": 372.4668884277344}, "load_time_ms": 0.674, "num_steps_sampled": 3177600, "grad_time_ms": 625.477, "update_time_ms": 2.239, "sample_time_ms": 33811.805}, "date": "2025-08-31_16-03-09", "hostname": "cda-server-4", "time_this_iter_s": 34.82083010673523, "episodes_total": 15888, "timestamp": 1756648989, "node_ip": "10.157.146.4", "done": false, "time_total_s": 85918.18281507492, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2649, "episode_reward_mean": -611.5728645331014, "training_iteration": 2649, "timesteps_total": 3178800, "policy_reward_mean": {}, "episode_reward_min": -759.7759700224021, "timesteps_since_restore": 3178800, "num_metric_batches_dropped": 0, "time_since_restore": 85952.433989048, "episode_reward_max": -465.0780308529559, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3178800, "default": {"kl": 0.011583653278648853, "policy_loss": -0.13391023874282837, "vf_loss": 53.36878204345703, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9952252507209778, "entropy": 3.0679147243499756, "cur_lr": 4.999999873689376e-05, "total_loss": 53.25246047973633}, "load_time_ms": 0.676, "num_steps_sampled": 3178800, "grad_time_ms": 613.488, "update_time_ms": 2.25, "sample_time_ms": 33834.37}, "date": "2025-08-31_16-03-44", "hostname": "cda-server-4", "time_this_iter_s": 34.251173973083496, "episodes_total": 15894, "timestamp": 1756649024, "node_ip": "10.157.146.4", "done": false, "time_total_s": 85952.433989048, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2650, "episode_reward_mean": -611.0325353844942, "training_iteration": 2650, "timesteps_total": 3180000, "policy_reward_mean": {}, "episode_reward_min": -759.7759700224021, "timesteps_since_restore": 3180000, "num_metric_batches_dropped": 0, "time_since_restore": 85988.02342057228, "episode_reward_max": -465.0780308529559, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3180000, "default": {"kl": 0.009527763351798058, "policy_loss": -0.12649911642074585, "vf_loss": 154.14645385742188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9880722761154175, "entropy": 3.0744612216949463, "cur_lr": 4.999999873689376e-05, "total_loss": 154.034423828125}, "load_time_ms": 0.671, "num_steps_sampled": 3180000, "grad_time_ms": 589.381, "update_time_ms": 2.29, "sample_time_ms": 33946.518}, "date": "2025-08-31_16-04-19", "hostname": "cda-server-4", "time_this_iter_s": 35.58943152427673, "episodes_total": 15900, "timestamp": 1756649059, "node_ip": "10.157.146.4", "done": false, "time_total_s": 85988.02342057228, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2651, "episode_reward_mean": -610.0034109290806, "training_iteration": 2651, "timesteps_total": 3181200, "policy_reward_mean": {}, "episode_reward_min": -759.7759700224021, "timesteps_since_restore": 3181200, "num_metric_batches_dropped": 0, "time_since_restore": 86022.62450814247, "episode_reward_max": -465.0780308529559, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3181200, "default": {"kl": 0.011379020288586617, "policy_loss": -0.13598819077014923, "vf_loss": 79.01333618164062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9899474382400513, "entropy": 3.2396936416625977, "cur_lr": 4.999999873689376e-05, "total_loss": 78.8946304321289}, "load_time_ms": 0.673, "num_steps_sampled": 3181200, "grad_time_ms": 591.549, "update_time_ms": 2.284, "sample_time_ms": 33876.512}, "date": "2025-08-31_16-04-54", "hostname": "cda-server-4", "time_this_iter_s": 34.60108757019043, "episodes_total": 15906, "timestamp": 1756649094, "node_ip": "10.157.146.4", "done": false, "time_total_s": 86022.62450814247, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2652, "episode_reward_mean": -610.0545970516753, "training_iteration": 2652, "timesteps_total": 3182400, "policy_reward_mean": {}, "episode_reward_min": -759.7759700224021, "timesteps_since_restore": 3182400, "num_metric_batches_dropped": 0, "time_since_restore": 86057.67805171013, "episode_reward_max": -465.0780308529559, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3182400, "default": {"kl": 0.011038542725145817, "policy_loss": -0.1294359415769577, "vf_loss": 280.92120361328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9679580330848694, "entropy": 3.2452166080474854, "cur_lr": 4.999999873689376e-05, "total_loss": 280.8085021972656}, "load_time_ms": 0.678, "num_steps_sampled": 3182400, "grad_time_ms": 582.194, "update_time_ms": 2.364, "sample_time_ms": 34042.968}, "date": "2025-08-31_16-05-29", "hostname": "cda-server-4", "time_this_iter_s": 35.05354356765747, "episodes_total": 15912, "timestamp": 1756649129, "node_ip": "10.157.146.4", "done": false, "time_total_s": 86057.67805171013, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2653, "episode_reward_mean": -610.2160808583089, "training_iteration": 2653, "timesteps_total": 3183600, "policy_reward_mean": {}, "episode_reward_min": -759.7759700224021, "timesteps_since_restore": 3183600, "num_metric_batches_dropped": 0, "time_since_restore": 86090.8989238739, "episode_reward_max": -465.0780308529559, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3183600, "default": {"kl": 0.009008270688354969, "policy_loss": -0.12333296239376068, "vf_loss": 94.96012878417969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9853439331054688, "entropy": 3.2464559078216553, "cur_lr": 4.999999873689376e-05, "total_loss": 94.85047912597656}, "load_time_ms": 0.682, "num_steps_sampled": 3183600, "grad_time_ms": 576.071, "update_time_ms": 2.433, "sample_time_ms": 33943.73}, "date": "2025-08-31_16-06-02", "hostname": "cda-server-4", "time_this_iter_s": 33.22087216377258, "episodes_total": 15918, "timestamp": 1756649162, "node_ip": "10.157.146.4", "done": false, "time_total_s": 86090.8989238739, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2654, "episode_reward_mean": -610.7236107301177, "training_iteration": 2654, "timesteps_total": 3184800, "policy_reward_mean": {}, "episode_reward_min": -759.7759700224021, "timesteps_since_restore": 3184800, "num_metric_batches_dropped": 0, "time_since_restore": 86125.95607018471, "episode_reward_max": -465.0780308529559, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3184800, "default": {"kl": 0.009663148783147335, "policy_loss": -0.11001140624284744, "vf_loss": 239.0645294189453, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9863626956939697, "entropy": 3.120741844177246, "cur_lr": 4.999999873689376e-05, "total_loss": 238.96917724609375}, "load_time_ms": 0.658, "num_steps_sampled": 3184800, "grad_time_ms": 569.38, "update_time_ms": 2.418, "sample_time_ms": 33963.263}, "date": "2025-08-31_16-06-37", "hostname": "cda-server-4", "time_this_iter_s": 35.057146310806274, "episodes_total": 15924, "timestamp": 1756649197, "node_ip": "10.157.146.4", "done": false, "time_total_s": 86125.95607018471, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2655, "episode_reward_mean": -610.8714041065491, "training_iteration": 2655, "timesteps_total": 3186000, "policy_reward_mean": {}, "episode_reward_min": -759.7759700224021, "timesteps_since_restore": 3186000, "num_metric_batches_dropped": 0, "time_since_restore": 86160.94253993034, "episode_reward_max": -465.0780308529559, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3186000, "default": {"kl": 0.011414770036935806, "policy_loss": -0.14345265924930573, "vf_loss": 40.72883605957031, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9962040781974792, "entropy": 3.0897152423858643, "cur_lr": 4.999999873689376e-05, "total_loss": 40.60271453857422}, "load_time_ms": 0.642, "num_steps_sampled": 3186000, "grad_time_ms": 567.981, "update_time_ms": 2.346, "sample_time_ms": 34040.779}, "date": "2025-08-31_16-07-12", "hostname": "cda-server-4", "time_this_iter_s": 34.986469745635986, "episodes_total": 15930, "timestamp": 1756649232, "node_ip": "10.157.146.4", "done": false, "time_total_s": 86160.94253993034, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2656, "episode_reward_mean": -610.268300648977, "training_iteration": 2656, "timesteps_total": 3187200, "policy_reward_mean": {}, "episode_reward_min": -759.7759700224021, "timesteps_since_restore": 3187200, "num_metric_batches_dropped": 0, "time_since_restore": 86194.83777928352, "episode_reward_max": -465.0780308529559, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3187200, "default": {"kl": 0.010773850604891777, "policy_loss": -0.14367759227752686, "vf_loss": 116.25092315673828, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9920982718467712, "entropy": 3.1274688243865967, "cur_lr": 4.999999873689376e-05, "total_loss": 116.12358856201172}, "load_time_ms": 0.651, "num_steps_sampled": 3187200, "grad_time_ms": 578.332, "update_time_ms": 2.297, "sample_time_ms": 34027.556}, "date": "2025-08-31_16-07-46", "hostname": "cda-server-4", "time_this_iter_s": 33.89523935317993, "episodes_total": 15936, "timestamp": 1756649266, "node_ip": "10.157.146.4", "done": false, "time_total_s": 86194.83777928352, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2657, "episode_reward_mean": -609.2758973427685, "training_iteration": 2657, "timesteps_total": 3188400, "policy_reward_mean": {}, "episode_reward_min": -664.7735096902584, "timesteps_since_restore": 3188400, "num_metric_batches_dropped": 0, "time_since_restore": 86228.83078837395, "episode_reward_max": -465.0780308529559, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3188400, "default": {"kl": 0.00796995498239994, "policy_loss": -0.11389393359422684, "vf_loss": 151.40391540527344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9810268878936768, "entropy": 3.1533517837524414, "cur_lr": 4.999999873689376e-05, "total_loss": 151.30213928222656}, "load_time_ms": 0.643, "num_steps_sampled": 3188400, "grad_time_ms": 576.742, "update_time_ms": 2.304, "sample_time_ms": 33963.151}, "date": "2025-08-31_16-08-20", "hostname": "cda-server-4", "time_this_iter_s": 33.993009090423584, "episodes_total": 15942, "timestamp": 1756649300, "node_ip": "10.157.146.4", "done": false, "time_total_s": 86228.83078837395, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2658, "episode_reward_mean": -609.5764418941917, "training_iteration": 2658, "timesteps_total": 3189600, "policy_reward_mean": {}, "episode_reward_min": -664.7735096902584, "timesteps_since_restore": 3189600, "num_metric_batches_dropped": 0, "time_since_restore": 86263.65706825256, "episode_reward_max": -465.0780308529559, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3189600, "default": {"kl": 0.008544130250811577, "policy_loss": -0.11269625276327133, "vf_loss": 133.98519897460938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9809479117393494, "entropy": 3.2170896530151367, "cur_lr": 4.999999873689376e-05, "total_loss": 133.88546752929688}, "load_time_ms": 0.62, "num_steps_sampled": 3189600, "grad_time_ms": 601.653, "update_time_ms": 2.349, "sample_time_ms": 33938.791}, "date": "2025-08-31_16-08-55", "hostname": "cda-server-4", "time_this_iter_s": 34.82627987861633, "episodes_total": 15948, "timestamp": 1756649335, "node_ip": "10.157.146.4", "done": false, "time_total_s": 86263.65706825256, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2659, "episode_reward_mean": -609.3400198069107, "training_iteration": 2659, "timesteps_total": 3190800, "policy_reward_mean": {}, "episode_reward_min": -664.7735096902584, "timesteps_since_restore": 3190800, "num_metric_batches_dropped": 0, "time_since_restore": 86298.53091573715, "episode_reward_max": -465.0780308529559, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3190800, "default": {"kl": 0.011856413446366787, "policy_loss": -0.11874474585056305, "vf_loss": 225.37045288085938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9749208092689514, "entropy": 3.0833892822265625, "cur_lr": 4.999999873689376e-05, "total_loss": 225.26971435546875}, "load_time_ms": 0.637, "num_steps_sampled": 3190800, "grad_time_ms": 620.127, "update_time_ms": 2.316, "sample_time_ms": 33982.584}, "date": "2025-08-31_16-09-30", "hostname": "cda-server-4", "time_this_iter_s": 34.87384748458862, "episodes_total": 15954, "timestamp": 1756649370, "node_ip": "10.157.146.4", "done": false, "time_total_s": 86298.53091573715, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2660, "episode_reward_mean": -609.0798197178445, "training_iteration": 2660, "timesteps_total": 3192000, "policy_reward_mean": {}, "episode_reward_min": -664.7735096902584, "timesteps_since_restore": 3192000, "num_metric_batches_dropped": 0, "time_since_restore": 86332.53249335289, "episode_reward_max": -465.0780308529559, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3192000, "default": {"kl": 0.010761748999357224, "policy_loss": -0.13553622364997864, "vf_loss": 130.22705078125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9818446636199951, "entropy": 3.1224989891052246, "cur_lr": 4.999999873689376e-05, "total_loss": 130.1078643798828}, "load_time_ms": 0.662, "num_steps_sampled": 3192000, "grad_time_ms": 623.915, "update_time_ms": 2.311, "sample_time_ms": 33820.018}, "date": "2025-08-31_16-10-04", "hostname": "cda-server-4", "time_this_iter_s": 34.001577615737915, "episodes_total": 15960, "timestamp": 1756649404, "node_ip": "10.157.146.4", "done": false, "time_total_s": 86332.53249335289, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2661, "episode_reward_mean": -607.2937881462663, "training_iteration": 2661, "timesteps_total": 3193200, "policy_reward_mean": {}, "episode_reward_min": -664.7735096902584, "timesteps_since_restore": 3193200, "num_metric_batches_dropped": 0, "time_since_restore": 86366.2563636303, "episode_reward_max": -462.4414140000323, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3193200, "default": {"kl": 0.012507366016507149, "policy_loss": -0.15839549899101257, "vf_loss": 184.4624481201172, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9824236631393433, "entropy": 3.0543696880340576, "cur_lr": 4.999999873689376e-05, "total_loss": 184.3230438232422}, "load_time_ms": 0.658, "num_steps_sampled": 3193200, "grad_time_ms": 615.421, "update_time_ms": 2.296, "sample_time_ms": 33740.878}, "date": "2025-08-31_16-10-38", "hostname": "cda-server-4", "time_this_iter_s": 33.723870277404785, "episodes_total": 15966, "timestamp": 1756649438, "node_ip": "10.157.146.4", "done": false, "time_total_s": 86366.2563636303, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2662, "episode_reward_mean": -608.1288174340593, "training_iteration": 2662, "timesteps_total": 3194400, "policy_reward_mean": {}, "episode_reward_min": -664.7735096902584, "timesteps_since_restore": 3194400, "num_metric_batches_dropped": 0, "time_since_restore": 86400.96622014046, "episode_reward_max": -462.4414140000323, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3194400, "default": {"kl": 0.011536991223692894, "policy_loss": -0.14217247068881989, "vf_loss": 71.60990905761719, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9900035858154297, "entropy": 3.098019599914551, "cur_lr": 4.999999873689376e-05, "total_loss": 71.48526000976562}, "load_time_ms": 0.645, "num_steps_sampled": 3194400, "grad_time_ms": 606.279, "update_time_ms": 2.271, "sample_time_ms": 33715.778}, "date": "2025-08-31_16-11-13", "hostname": "cda-server-4", "time_this_iter_s": 34.70985651016235, "episodes_total": 15972, "timestamp": 1756649473, "node_ip": "10.157.146.4", "done": false, "time_total_s": 86400.96622014046, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2663, "episode_reward_mean": -608.9777948506847, "training_iteration": 2663, "timesteps_total": 3195600, "policy_reward_mean": {}, "episode_reward_min": -664.7735096902584, "timesteps_since_restore": 3195600, "num_metric_batches_dropped": 0, "time_since_restore": 86436.36138916016, "episode_reward_max": -462.4414140000323, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3195600, "default": {"kl": 0.011389615014195442, "policy_loss": -0.15992724895477295, "vf_loss": 83.55807495117188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9887943267822266, "entropy": 3.3840110301971436, "cur_lr": 4.999999873689376e-05, "total_loss": 83.41544342041016}, "load_time_ms": 0.647, "num_steps_sampled": 3195600, "grad_time_ms": 622.195, "update_time_ms": 2.25, "sample_time_ms": 33917.3}, "date": "2025-08-31_16-11-48", "hostname": "cda-server-4", "time_this_iter_s": 35.3951690196991, "episodes_total": 15978, "timestamp": 1756649508, "node_ip": "10.157.146.4", "done": false, "time_total_s": 86436.36138916016, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2664, "episode_reward_mean": -608.5820875322886, "training_iteration": 2664, "timesteps_total": 3196800, "policy_reward_mean": {}, "episode_reward_min": -664.7735096902584, "timesteps_since_restore": 3196800, "num_metric_batches_dropped": 0, "time_since_restore": 86471.02945566177, "episode_reward_max": -462.4414140000323, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3196800, "default": {"kl": 0.00896663498133421, "policy_loss": -0.12130032479763031, "vf_loss": 160.41305541992188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9762815833091736, "entropy": 3.1989266872406006, "cur_lr": 4.999999873689376e-05, "total_loss": 160.3053741455078}, "load_time_ms": 0.646, "num_steps_sampled": 3196800, "grad_time_ms": 628.379, "update_time_ms": 2.245, "sample_time_ms": 33872.172}, "date": "2025-08-31_16-12-23", "hostname": "cda-server-4", "time_this_iter_s": 34.66806650161743, "episodes_total": 15984, "timestamp": 1756649543, "node_ip": "10.157.146.4", "done": false, "time_total_s": 86471.02945566177, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2665, "episode_reward_mean": -608.1975827460047, "training_iteration": 2665, "timesteps_total": 3198000, "policy_reward_mean": {}, "episode_reward_min": -651.7749679378544, "timesteps_since_restore": 3198000, "num_metric_batches_dropped": 0, "time_since_restore": 86505.2359931469, "episode_reward_max": -462.4414140000323, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3198000, "default": {"kl": 0.01116675604134798, "policy_loss": -0.146169513463974, "vf_loss": 138.39398193359375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.982917070388794, "entropy": 3.1519904136657715, "cur_lr": 4.999999873689376e-05, "total_loss": 138.2647705078125}, "load_time_ms": 0.651, "num_steps_sampled": 3198000, "grad_time_ms": 618.3, "update_time_ms": 2.252, "sample_time_ms": 33804.235}, "date": "2025-08-31_16-12-57", "hostname": "cda-server-4", "time_this_iter_s": 34.20653748512268, "episodes_total": 15990, "timestamp": 1756649577, "node_ip": "10.157.146.4", "done": false, "time_total_s": 86505.2359931469, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2666, "episode_reward_mean": -606.4218739256946, "training_iteration": 2666, "timesteps_total": 3199200, "policy_reward_mean": {}, "episode_reward_min": -651.7749679378544, "timesteps_since_restore": 3199200, "num_metric_batches_dropped": 0, "time_since_restore": 86539.7985200882, "episode_reward_max": -462.4414140000323, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3199200, "default": {"kl": 0.011551731266081333, "policy_loss": -0.13744708895683289, "vf_loss": 113.60659790039062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9861137866973877, "entropy": 3.0365898609161377, "cur_lr": 4.999999873689376e-05, "total_loss": 113.48668670654297}, "load_time_ms": 0.651, "num_steps_sampled": 3199200, "grad_time_ms": 609.462, "update_time_ms": 2.238, "sample_time_ms": 33879.735}, "date": "2025-08-31_16-13-31", "hostname": "cda-server-4", "time_this_iter_s": 34.56252694129944, "episodes_total": 15996, "timestamp": 1756649611, "node_ip": "10.157.146.4", "done": false, "time_total_s": 86539.7985200882, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2667, "episode_reward_mean": -607.2345001931063, "training_iteration": 2667, "timesteps_total": 3200400, "policy_reward_mean": {}, "episode_reward_min": -651.7749679378544, "timesteps_since_restore": 3200400, "num_metric_batches_dropped": 0, "time_since_restore": 86573.85818362236, "episode_reward_max": -462.4414140000323, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3200400, "default": {"kl": 0.01269834116101265, "policy_loss": -0.1486237645149231, "vf_loss": 151.0218048095703, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9845559000968933, "entropy": 3.1171987056732178, "cur_lr": 4.999999873689376e-05, "total_loss": 150.89247131347656}, "load_time_ms": 0.654, "num_steps_sampled": 3200400, "grad_time_ms": 591.676, "update_time_ms": 2.307, "sample_time_ms": 33904.255}, "date": "2025-08-31_16-14-05", "hostname": "cda-server-4", "time_this_iter_s": 34.05966353416443, "episodes_total": 16002, "timestamp": 1756649645, "node_ip": "10.157.146.4", "done": false, "time_total_s": 86573.85818362236, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2668, "episode_reward_mean": -607.2465462767617, "training_iteration": 2668, "timesteps_total": 3201600, "policy_reward_mean": {}, "episode_reward_min": -651.7749679378544, "timesteps_since_restore": 3201600, "num_metric_batches_dropped": 0, "time_since_restore": 86607.78052449226, "episode_reward_max": -462.4414140000323, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3201600, "default": {"kl": 0.009334739297628403, "policy_loss": -0.1109570562839508, "vf_loss": 509.5110168457031, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9737496972084045, "entropy": 3.1416616439819336, "cur_lr": 4.999999873689376e-05, "total_loss": 509.4142761230469}, "load_time_ms": 0.65, "num_steps_sampled": 3201600, "grad_time_ms": 562.343, "update_time_ms": 2.245, "sample_time_ms": 33843.325}, "date": "2025-08-31_16-14-39", "hostname": "cda-server-4", "time_this_iter_s": 33.922340869903564, "episodes_total": 16008, "timestamp": 1756649679, "node_ip": "10.157.146.4", "done": false, "time_total_s": 86607.78052449226, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2669, "episode_reward_mean": -606.814360730866, "training_iteration": 2669, "timesteps_total": 3202800, "policy_reward_mean": {}, "episode_reward_min": -651.7749679378544, "timesteps_since_restore": 3202800, "num_metric_batches_dropped": 0, "time_since_restore": 86642.77966570854, "episode_reward_max": -462.4414140000323, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3202800, "default": {"kl": 0.009670163504779339, "policy_loss": -0.12654095888137817, "vf_loss": 104.98957061767578, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9946094155311584, "entropy": 3.1119327545166016, "cur_lr": 4.999999873689376e-05, "total_loss": 104.87771606445312}, "load_time_ms": 0.634, "num_steps_sampled": 3202800, "grad_time_ms": 540.046, "update_time_ms": 2.246, "sample_time_ms": 33878.215}, "date": "2025-08-31_16-15-14", "hostname": "cda-server-4", "time_this_iter_s": 34.999141216278076, "episodes_total": 16014, "timestamp": 1756649714, "node_ip": "10.157.146.4", "done": false, "time_total_s": 86642.77966570854, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2670, "episode_reward_mean": -606.615505251774, "training_iteration": 2670, "timesteps_total": 3204000, "policy_reward_mean": {}, "episode_reward_min": -651.7749679378544, "timesteps_since_restore": 3204000, "num_metric_batches_dropped": 0, "time_since_restore": 86678.07805895805, "episode_reward_max": -462.4414140000323, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3204000, "default": {"kl": 0.009759010747075081, "policy_loss": -0.13147775828838348, "vf_loss": 218.03578186035156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9747807383537292, "entropy": 3.149479627609253, "cur_lr": 4.999999873689376e-05, "total_loss": 217.91912841796875}, "load_time_ms": 0.599, "num_steps_sampled": 3204000, "grad_time_ms": 532.916, "update_time_ms": 2.213, "sample_time_ms": 34015.135}, "date": "2025-08-31_16-15-50", "hostname": "cda-server-4", "time_this_iter_s": 35.29839324951172, "episodes_total": 16020, "timestamp": 1756649750, "node_ip": "10.157.146.4", "done": false, "time_total_s": 86678.07805895805, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2671, "episode_reward_mean": -605.95168326854, "training_iteration": 2671, "timesteps_total": 3205200, "policy_reward_mean": {}, "episode_reward_min": -651.7749679378544, "timesteps_since_restore": 3205200, "num_metric_batches_dropped": 0, "time_since_restore": 86712.24119830132, "episode_reward_max": -462.4414140000323, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3205200, "default": {"kl": 0.01073773205280304, "policy_loss": -0.14174893498420715, "vf_loss": 86.69644165039062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9907162189483643, "entropy": 3.1157376766204834, "cur_lr": 4.999999873689376e-05, "total_loss": 86.57100677490234}, "load_time_ms": 0.601, "num_steps_sampled": 3205200, "grad_time_ms": 535.427, "update_time_ms": 2.239, "sample_time_ms": 34056.366}, "date": "2025-08-31_16-16-24", "hostname": "cda-server-4", "time_this_iter_s": 34.16313934326172, "episodes_total": 16026, "timestamp": 1756649784, "node_ip": "10.157.146.4", "done": false, "time_total_s": 86712.24119830132, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2672, "episode_reward_mean": -605.7232408926454, "training_iteration": 2672, "timesteps_total": 3206400, "policy_reward_mean": {}, "episode_reward_min": -651.7749679378544, "timesteps_since_restore": 3206400, "num_metric_batches_dropped": 0, "time_since_restore": 86746.86587929726, "episode_reward_max": -462.4414140000323, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3206400, "default": {"kl": 0.011217108927667141, "policy_loss": -0.13897402584552765, "vf_loss": 348.7162780761719, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9686250686645508, "entropy": 3.217841863632202, "cur_lr": 4.999999873689376e-05, "total_loss": 348.5943603515625}, "load_time_ms": 0.616, "num_steps_sampled": 3206400, "grad_time_ms": 551.282, "update_time_ms": 2.206, "sample_time_ms": 34032.001}, "date": "2025-08-31_16-16-59", "hostname": "cda-server-4", "time_this_iter_s": 34.62468099594116, "episodes_total": 16032, "timestamp": 1756649819, "node_ip": "10.157.146.4", "done": false, "time_total_s": 86746.86587929726, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2673, "episode_reward_mean": -607.1954442477067, "training_iteration": 2673, "timesteps_total": 3207600, "policy_reward_mean": {}, "episode_reward_min": -651.7749679378544, "timesteps_since_restore": 3207600, "num_metric_batches_dropped": 0, "time_since_restore": 86781.5362329483, "episode_reward_max": -462.4414140000323, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3207600, "default": {"kl": 0.011335760354995728, "policy_loss": -0.14842399954795837, "vf_loss": 145.5726776123047, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9807687401771545, "entropy": 3.2100777626037598, "cur_lr": 4.999999873689376e-05, "total_loss": 145.44146728515625}, "load_time_ms": 0.616, "num_steps_sampled": 3207600, "grad_time_ms": 548.786, "update_time_ms": 2.139, "sample_time_ms": 33962.064}, "date": "2025-08-31_16-17-33", "hostname": "cda-server-4", "time_this_iter_s": 34.67035365104675, "episodes_total": 16038, "timestamp": 1756649853, "node_ip": "10.157.146.4", "done": false, "time_total_s": 86781.5362329483, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2674, "episode_reward_mean": -606.7116721266423, "training_iteration": 2674, "timesteps_total": 3208800, "policy_reward_mean": {}, "episode_reward_min": -651.7749679378544, "timesteps_since_restore": 3208800, "num_metric_batches_dropped": 0, "time_since_restore": 86815.53345775604, "episode_reward_max": -462.4414140000323, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3208800, "default": {"kl": 0.011138238944113255, "policy_loss": -0.1281185895204544, "vf_loss": 103.51940155029297, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9906003475189209, "entropy": 2.9578945636749268, "cur_lr": 4.999999873689376e-05, "total_loss": 103.40819549560547}, "load_time_ms": 0.617, "num_steps_sampled": 3208800, "grad_time_ms": 546.196, "update_time_ms": 2.13, "sample_time_ms": 33897.619}, "date": "2025-08-31_16-18-07", "hostname": "cda-server-4", "time_this_iter_s": 33.99722480773926, "episodes_total": 16044, "timestamp": 1756649887, "node_ip": "10.157.146.4", "done": false, "time_total_s": 86815.53345775604, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2675, "episode_reward_mean": -606.9729507593795, "training_iteration": 2675, "timesteps_total": 3210000, "policy_reward_mean": {}, "episode_reward_min": -651.7749679378544, "timesteps_since_restore": 3210000, "num_metric_batches_dropped": 0, "time_since_restore": 86849.32934236526, "episode_reward_max": -462.4414140000323, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3210000, "default": {"kl": 0.008528976701200008, "policy_loss": -0.11853011697530746, "vf_loss": 76.44927978515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9939884543418884, "entropy": 3.1490747928619385, "cur_lr": 4.999999873689376e-05, "total_loss": 76.34370422363281}, "load_time_ms": 0.612, "num_steps_sampled": 3210000, "grad_time_ms": 559.82, "update_time_ms": 2.118, "sample_time_ms": 33842.94}, "date": "2025-08-31_16-18-41", "hostname": "cda-server-4", "time_this_iter_s": 33.79588460922241, "episodes_total": 16050, "timestamp": 1756649921, "node_ip": "10.157.146.4", "done": false, "time_total_s": 86849.32934236526, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2676, "episode_reward_mean": -607.6355409709531, "training_iteration": 2676, "timesteps_total": 3211200, "policy_reward_mean": {}, "episode_reward_min": -651.7749679378544, "timesteps_since_restore": 3211200, "num_metric_batches_dropped": 0, "time_since_restore": 86884.02824187279, "episode_reward_max": -462.4414140000323, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3211200, "default": {"kl": 0.010041543282568455, "policy_loss": -0.14228582382202148, "vf_loss": 112.30984497070312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.989625096321106, "entropy": 3.0702099800109863, "cur_lr": 4.999999873689376e-05, "total_loss": 112.18280029296875}, "load_time_ms": 0.607, "num_steps_sampled": 3211200, "grad_time_ms": 581.251, "update_time_ms": 2.15, "sample_time_ms": 33835.163}, "date": "2025-08-31_16-19-16", "hostname": "cda-server-4", "time_this_iter_s": 34.69889950752258, "episodes_total": 16056, "timestamp": 1756649956, "node_ip": "10.157.146.4", "done": false, "time_total_s": 86884.02824187279, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2677, "episode_reward_mean": -607.0129187513195, "training_iteration": 2677, "timesteps_total": 3212400, "policy_reward_mean": {}, "episode_reward_min": -651.7749679378544, "timesteps_since_restore": 3212400, "num_metric_batches_dropped": 0, "time_since_restore": 86918.61434602737, "episode_reward_max": -462.4414140000323, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3212400, "default": {"kl": 0.009467022493481636, "policy_loss": -0.08473379164934158, "vf_loss": 79.61785125732422, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9937615990638733, "entropy": 2.9750239849090576, "cur_lr": 4.999999873689376e-05, "total_loss": 79.54750061035156}, "load_time_ms": 0.612, "num_steps_sampled": 3212400, "grad_time_ms": 609.143, "update_time_ms": 2.128, "sample_time_ms": 33859.887}, "date": "2025-08-31_16-19-50", "hostname": "cda-server-4", "time_this_iter_s": 34.58610415458679, "episodes_total": 16062, "timestamp": 1756649990, "node_ip": "10.157.146.4", "done": false, "time_total_s": 86918.61434602737, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2678, "episode_reward_mean": -608.4085732847666, "training_iteration": 2678, "timesteps_total": 3213600, "policy_reward_mean": {}, "episode_reward_min": -651.7749679378544, "timesteps_since_restore": 3213600, "num_metric_batches_dropped": 0, "time_since_restore": 86952.77222108841, "episode_reward_max": -470.9586929498987, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3213600, "default": {"kl": 0.01048978976905346, "policy_loss": -0.1250579059123993, "vf_loss": 99.40975189208984, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9874117970466614, "entropy": 3.040673017501831, "cur_lr": 4.999999873689376e-05, "total_loss": 99.30062866210938}, "load_time_ms": 0.616, "num_steps_sampled": 3213600, "grad_time_ms": 638.359, "update_time_ms": 2.186, "sample_time_ms": 33854.146}, "date": "2025-08-31_16-20-25", "hostname": "cda-server-4", "time_this_iter_s": 34.157875061035156, "episodes_total": 16068, "timestamp": 1756650025, "node_ip": "10.157.146.4", "done": false, "time_total_s": 86952.77222108841, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2679, "episode_reward_mean": -608.2865180428739, "training_iteration": 2679, "timesteps_total": 3214800, "policy_reward_mean": {}, "episode_reward_min": -651.7749679378544, "timesteps_since_restore": 3214800, "num_metric_batches_dropped": 0, "time_since_restore": 86986.9920592308, "episode_reward_max": -470.9586929498987, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3214800, "default": {"kl": 0.009949015453457832, "policy_loss": -0.10406221449375153, "vf_loss": 261.8840637207031, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9803528189659119, "entropy": 3.1724863052368164, "cur_lr": 4.999999873689376e-05, "total_loss": 261.79510498046875}, "load_time_ms": 0.613, "num_steps_sampled": 3214800, "grad_time_ms": 660.958, "update_time_ms": 2.153, "sample_time_ms": 33753.526}, "date": "2025-08-31_16-20-59", "hostname": "cda-server-4", "time_this_iter_s": 34.21983814239502, "episodes_total": 16074, "timestamp": 1756650059, "node_ip": "10.157.146.4", "done": false, "time_total_s": 86986.9920592308, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2680, "episode_reward_mean": -606.7892985168535, "training_iteration": 2680, "timesteps_total": 3216000, "policy_reward_mean": {}, "episode_reward_min": -642.4505687422298, "timesteps_since_restore": 3216000, "num_metric_batches_dropped": 0, "time_since_restore": 87021.96821832657, "episode_reward_max": -470.9586929498987, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3216000, "default": {"kl": 0.010223452933132648, "policy_loss": -0.11333142220973969, "vf_loss": 220.86680603027344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.980661928653717, "entropy": 3.0604631900787354, "cur_lr": 4.999999873689376e-05, "total_loss": 220.7689971923828}, "load_time_ms": 0.617, "num_steps_sampled": 3216000, "grad_time_ms": 683.809, "update_time_ms": 2.199, "sample_time_ms": 33698.374}, "date": "2025-08-31_16-21-34", "hostname": "cda-server-4", "time_this_iter_s": 34.97615909576416, "episodes_total": 16080, "timestamp": 1756650094, "node_ip": "10.157.146.4", "done": false, "time_total_s": 87021.96821832657, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2681, "episode_reward_mean": -606.205451538501, "training_iteration": 2681, "timesteps_total": 3217200, "policy_reward_mean": {}, "episode_reward_min": -642.4505687422298, "timesteps_since_restore": 3217200, "num_metric_batches_dropped": 0, "time_since_restore": 87057.34664607048, "episode_reward_max": -470.9586929498987, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3217200, "default": {"kl": 0.010570930317044258, "policy_loss": -0.12938816845417023, "vf_loss": 205.26080322265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9717795848846436, "entropy": 3.2793936729431152, "cur_lr": 4.999999873689376e-05, "total_loss": 205.14747619628906}, "load_time_ms": 0.628, "num_steps_sampled": 3217200, "grad_time_ms": 698.737, "update_time_ms": 2.305, "sample_time_ms": 33804.984}, "date": "2025-08-31_16-22-09", "hostname": "cda-server-4", "time_this_iter_s": 35.37842774391174, "episodes_total": 16086, "timestamp": 1756650129, "node_ip": "10.157.146.4", "done": false, "time_total_s": 87057.34664607048, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2682, "episode_reward_mean": -606.1866798297397, "training_iteration": 2682, "timesteps_total": 3218400, "policy_reward_mean": {}, "episode_reward_min": -639.042003502628, "timesteps_since_restore": 3218400, "num_metric_batches_dropped": 0, "time_since_restore": 87092.85062670708, "episode_reward_max": -470.9586929498987, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3218400, "default": {"kl": 0.011952017433941364, "policy_loss": -0.1370488554239273, "vf_loss": 220.10226440429688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9767068028450012, "entropy": 3.2470922470092773, "cur_lr": 4.999999873689376e-05, "total_loss": 219.98336791992188}, "load_time_ms": 0.619, "num_steps_sampled": 3218400, "grad_time_ms": 748.359, "update_time_ms": 2.267, "sample_time_ms": 33843.258}, "date": "2025-08-31_16-22-45", "hostname": "cda-server-4", "time_this_iter_s": 35.50398063659668, "episodes_total": 16092, "timestamp": 1756650165, "node_ip": "10.157.146.4", "done": false, "time_total_s": 87092.85062670708, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2683, "episode_reward_mean": -607.4536567512, "training_iteration": 2683, "timesteps_total": 3219600, "policy_reward_mean": {}, "episode_reward_min": -635.9075448334427, "timesteps_since_restore": 3219600, "num_metric_batches_dropped": 0, "time_since_restore": 87129.14330768585, "episode_reward_max": -526.9526325628062, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3219600, "default": {"kl": 0.008822130039334297, "policy_loss": -0.112873874604702, "vf_loss": 81.24712371826172, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.995445966720581, "entropy": 3.2472784519195557, "cur_lr": 4.999999873689376e-05, "total_loss": 81.14764404296875}, "load_time_ms": 0.63, "num_steps_sampled": 3219600, "grad_time_ms": 759.763, "update_time_ms": 2.464, "sample_time_ms": 33993.85}, "date": "2025-08-31_16-23-21", "hostname": "cda-server-4", "time_this_iter_s": 36.292680978775024, "episodes_total": 16098, "timestamp": 1756650201, "node_ip": "10.157.146.4", "done": false, "time_total_s": 87129.14330768585, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2684, "episode_reward_mean": -606.8117254419752, "training_iteration": 2684, "timesteps_total": 3220800, "policy_reward_mean": {}, "episode_reward_min": -635.8487957900841, "timesteps_since_restore": 3220800, "num_metric_batches_dropped": 0, "time_since_restore": 87163.80418753624, "episode_reward_max": -513.8180935737481, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3220800, "default": {"kl": 0.01285381056368351, "policy_loss": -0.13813334703445435, "vf_loss": 235.51356506347656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9856522083282471, "entropy": 3.1732640266418457, "cur_lr": 4.999999873689376e-05, "total_loss": 235.39495849609375}, "load_time_ms": 0.642, "num_steps_sampled": 3220800, "grad_time_ms": 763.25, "update_time_ms": 2.53, "sample_time_ms": 34056.633}, "date": "2025-08-31_16-23-56", "hostname": "cda-server-4", "time_this_iter_s": 34.66087985038757, "episodes_total": 16104, "timestamp": 1756650236, "node_ip": "10.157.146.4", "done": false, "time_total_s": 87163.80418753624, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2685, "episode_reward_mean": -607.2993019390935, "training_iteration": 2685, "timesteps_total": 3222000, "policy_reward_mean": {}, "episode_reward_min": -635.8487957900841, "timesteps_since_restore": 3222000, "num_metric_batches_dropped": 0, "time_since_restore": 87198.44600248337, "episode_reward_max": -513.8180935737481, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3222000, "default": {"kl": 0.010917559266090393, "policy_loss": -0.13703349232673645, "vf_loss": 79.17890167236328, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9915153980255127, "entropy": 3.102269172668457, "cur_lr": 4.999999873689376e-05, "total_loss": 79.05844116210938}, "load_time_ms": 0.645, "num_steps_sampled": 3222000, "grad_time_ms": 766.313, "update_time_ms": 2.568, "sample_time_ms": 34138.081}, "date": "2025-08-31_16-24-30", "hostname": "cda-server-4", "time_this_iter_s": 34.641814947128296, "episodes_total": 16110, "timestamp": 1756650270, "node_ip": "10.157.146.4", "done": false, "time_total_s": 87198.44600248337, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2686, "episode_reward_mean": -607.1780905723407, "training_iteration": 2686, "timesteps_total": 3223200, "policy_reward_mean": {}, "episode_reward_min": -635.8487957900841, "timesteps_since_restore": 3223200, "num_metric_batches_dropped": 0, "time_since_restore": 87232.83400797844, "episode_reward_max": -513.8180935737481, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3223200, "default": {"kl": 0.012676138430833817, "policy_loss": -0.13173282146453857, "vf_loss": 99.23961639404297, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9917382001876831, "entropy": 3.1718738079071045, "cur_lr": 4.999999873689376e-05, "total_loss": 99.12713623046875}, "load_time_ms": 0.649, "num_steps_sampled": 3223200, "grad_time_ms": 762.322, "update_time_ms": 2.629, "sample_time_ms": 34110.853}, "date": "2025-08-31_16-25-05", "hostname": "cda-server-4", "time_this_iter_s": 34.38800549507141, "episodes_total": 16116, "timestamp": 1756650305, "node_ip": "10.157.146.4", "done": false, "time_total_s": 87232.83400797844, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2687, "episode_reward_mean": -607.966270232508, "training_iteration": 2687, "timesteps_total": 3224400, "policy_reward_mean": {}, "episode_reward_min": -635.8487957900841, "timesteps_since_restore": 3224400, "num_metric_batches_dropped": 0, "time_since_restore": 87268.19561743736, "episode_reward_max": -513.8180935737481, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3224400, "default": {"kl": 0.009216473437845707, "policy_loss": -0.1410611867904663, "vf_loss": 122.06389617919922, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9896150231361389, "entropy": 3.1201729774475098, "cur_lr": 4.999999873689376e-05, "total_loss": 121.93683624267578}, "load_time_ms": 0.657, "num_steps_sampled": 3224400, "grad_time_ms": 755.487, "update_time_ms": 2.654, "sample_time_ms": 34195.2}, "date": "2025-08-31_16-25-40", "hostname": "cda-server-4", "time_this_iter_s": 35.36160945892334, "episodes_total": 16122, "timestamp": 1756650340, "node_ip": "10.157.146.4", "done": false, "time_total_s": 87268.19561743736, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2688, "episode_reward_mean": -606.7620294380558, "training_iteration": 2688, "timesteps_total": 3225600, "policy_reward_mean": {}, "episode_reward_min": -635.8487957900841, "timesteps_since_restore": 3225600, "num_metric_batches_dropped": 0, "time_since_restore": 87302.83479499817, "episode_reward_max": -513.5135391334062, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3225600, "default": {"kl": 0.012183803133666515, "policy_loss": -0.14904630184173584, "vf_loss": 238.167724609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9756253361701965, "entropy": 3.2505757808685303, "cur_lr": 4.999999873689376e-05, "total_loss": 238.03717041015625}, "load_time_ms": 0.652, "num_steps_sampled": 3225600, "grad_time_ms": 748.486, "update_time_ms": 2.647, "sample_time_ms": 34250.146}, "date": "2025-08-31_16-26-15", "hostname": "cda-server-4", "time_this_iter_s": 34.639177560806274, "episodes_total": 16128, "timestamp": 1756650375, "node_ip": "10.157.146.4", "done": false, "time_total_s": 87302.83479499817, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2689, "episode_reward_mean": -605.6658875128685, "training_iteration": 2689, "timesteps_total": 3226800, "policy_reward_mean": {}, "episode_reward_min": -635.8487957900841, "timesteps_since_restore": 3226800, "num_metric_batches_dropped": 0, "time_since_restore": 87336.8326792717, "episode_reward_max": -513.5135391334062, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3226800, "default": {"kl": 0.01124359481036663, "policy_loss": -0.15196187794208527, "vf_loss": 62.47340393066406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9919016361236572, "entropy": 3.188547134399414, "cur_lr": 4.999999873689376e-05, "total_loss": 62.33852005004883}, "load_time_ms": 0.66, "num_steps_sampled": 3226800, "grad_time_ms": 739.976, "update_time_ms": 2.707, "sample_time_ms": 34236.418}, "date": "2025-08-31_16-26-49", "hostname": "cda-server-4", "time_this_iter_s": 33.99788427352905, "episodes_total": 16134, "timestamp": 1756650409, "node_ip": "10.157.146.4", "done": false, "time_total_s": 87336.8326792717, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2690, "episode_reward_mean": -605.2499550960453, "training_iteration": 2690, "timesteps_total": 3228000, "policy_reward_mean": {}, "episode_reward_min": -635.8487957900841, "timesteps_since_restore": 3228000, "num_metric_batches_dropped": 0, "time_since_restore": 87371.61186528206, "episode_reward_max": -513.5135391334062, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3228000, "default": {"kl": 0.011051332578063011, "policy_loss": -0.14037728309631348, "vf_loss": 179.99374389648438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.97739177942276, "entropy": 3.135481595993042, "cur_lr": 4.999999873689376e-05, "total_loss": 179.87013244628906}, "load_time_ms": 0.661, "num_steps_sampled": 3228000, "grad_time_ms": 730.567, "update_time_ms": 2.671, "sample_time_ms": 34226.099}, "date": "2025-08-31_16-27-24", "hostname": "cda-server-4", "time_this_iter_s": 34.77918601036072, "episodes_total": 16140, "timestamp": 1756650444, "node_ip": "10.157.146.4", "done": false, "time_total_s": 87371.61186528206, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2691, "episode_reward_mean": -605.5110568840449, "training_iteration": 2691, "timesteps_total": 3229200, "policy_reward_mean": {}, "episode_reward_min": -635.8487957900841, "timesteps_since_restore": 3229200, "num_metric_batches_dropped": 0, "time_since_restore": 87405.81718182564, "episode_reward_max": -513.5135391334062, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3229200, "default": {"kl": 0.012326468713581562, "policy_loss": -0.16033540666103363, "vf_loss": 163.7033233642578, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.98692387342453, "entropy": 3.243123769760132, "cur_lr": 4.999999873689376e-05, "total_loss": 163.56170654296875}, "load_time_ms": 0.681, "num_steps_sampled": 3229200, "grad_time_ms": 726.05, "update_time_ms": 2.535, "sample_time_ms": 34113.355}, "date": "2025-08-31_16-27-58", "hostname": "cda-server-4", "time_this_iter_s": 34.2053165435791, "episodes_total": 16146, "timestamp": 1756650478, "node_ip": "10.157.146.4", "done": false, "time_total_s": 87405.81718182564, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2692, "episode_reward_mean": -605.1818106565161, "training_iteration": 2692, "timesteps_total": 3230400, "policy_reward_mean": {}, "episode_reward_min": -634.7162675304606, "timesteps_since_restore": 3230400, "num_metric_batches_dropped": 0, "time_since_restore": 87440.33310294151, "episode_reward_max": -513.5135391334062, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3230400, "default": {"kl": 0.012201141566038132, "policy_loss": -0.1448180079460144, "vf_loss": 104.7481918334961, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9908202290534973, "entropy": 3.123013496398926, "cur_lr": 4.999999873689376e-05, "total_loss": 104.62190246582031}, "load_time_ms": 0.687, "num_steps_sampled": 3230400, "grad_time_ms": 680.185, "update_time_ms": 2.58, "sample_time_ms": 34060.386}, "date": "2025-08-31_16-28-32", "hostname": "cda-server-4", "time_this_iter_s": 34.515921115875244, "episodes_total": 16152, "timestamp": 1756650512, "node_ip": "10.157.146.4", "done": false, "time_total_s": 87440.33310294151, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2693, "episode_reward_mean": -605.0991974557829, "training_iteration": 2693, "timesteps_total": 3231600, "policy_reward_mean": {}, "episode_reward_min": -634.7162675304606, "timesteps_since_restore": 3231600, "num_metric_batches_dropped": 0, "time_since_restore": 87474.51384234428, "episode_reward_max": -513.5135391334062, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3231600, "default": {"kl": 0.011189424432814121, "policy_loss": -0.14186523854732513, "vf_loss": 54.72173309326172, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.99317866563797, "entropy": 3.0370242595672607, "cur_lr": 4.999999873689376e-05, "total_loss": 54.59687042236328}, "load_time_ms": 0.674, "num_steps_sampled": 3231600, "grad_time_ms": 674.036, "update_time_ms": 2.42, "sample_time_ms": 33855.521}, "date": "2025-08-31_16-29-07", "hostname": "cda-server-4", "time_this_iter_s": 34.180739402770996, "episodes_total": 16158, "timestamp": 1756650547, "node_ip": "10.157.146.4", "done": false, "time_total_s": 87474.51384234428, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2694, "episode_reward_mean": -604.9754246291806, "training_iteration": 2694, "timesteps_total": 3232800, "policy_reward_mean": {}, "episode_reward_min": -634.2486790516972, "timesteps_since_restore": 3232800, "num_metric_batches_dropped": 0, "time_since_restore": 87509.40314173698, "episode_reward_max": -513.5135391334062, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3232800, "default": {"kl": 0.011047150939702988, "policy_loss": -0.1160937249660492, "vf_loss": 84.06130981445312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.986522376537323, "entropy": 3.1901803016662598, "cur_lr": 4.999999873689376e-05, "total_loss": 83.96199798583984}, "load_time_ms": 0.667, "num_steps_sampled": 3232800, "grad_time_ms": 665.354, "update_time_ms": 2.365, "sample_time_ms": 33887.073}, "date": "2025-08-31_16-29-42", "hostname": "cda-server-4", "time_this_iter_s": 34.889299392700195, "episodes_total": 16164, "timestamp": 1756650582, "node_ip": "10.157.146.4", "done": false, "time_total_s": 87509.40314173698, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2695, "episode_reward_mean": -605.9132175864199, "training_iteration": 2695, "timesteps_total": 3234000, "policy_reward_mean": {}, "episode_reward_min": -634.2486790516972, "timesteps_since_restore": 3234000, "num_metric_batches_dropped": 0, "time_since_restore": 87544.3102273941, "episode_reward_max": -513.5135391334062, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3234000, "default": {"kl": 0.01092517003417015, "policy_loss": -0.1465221345424652, "vf_loss": 184.4178009033203, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9852567315101624, "entropy": 3.0902605056762695, "cur_lr": 4.999999873689376e-05, "total_loss": 184.2878875732422}, "load_time_ms": 0.656, "num_steps_sampled": 3234000, "grad_time_ms": 652.178, "update_time_ms": 2.451, "sample_time_ms": 33926.734}, "date": "2025-08-31_16-30-16", "hostname": "cda-server-4", "time_this_iter_s": 34.90708565711975, "episodes_total": 16170, "timestamp": 1756650616, "node_ip": "10.157.146.4", "done": false, "time_total_s": 87544.3102273941, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2696, "episode_reward_mean": -606.8798197278566, "training_iteration": 2696, "timesteps_total": 3235200, "policy_reward_mean": {}, "episode_reward_min": -652.4794361177061, "timesteps_since_restore": 3235200, "num_metric_batches_dropped": 0, "time_since_restore": 87578.48312234879, "episode_reward_max": -513.5135391334062, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3235200, "default": {"kl": 0.009707245975732803, "policy_loss": -0.13022181391716003, "vf_loss": 68.82633209228516, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.990233302116394, "entropy": 3.259594678878784, "cur_lr": 4.999999873689376e-05, "total_loss": 68.71085357666016}, "load_time_ms": 0.689, "num_steps_sampled": 3235200, "grad_time_ms": 639.814, "update_time_ms": 2.414, "sample_time_ms": 33917.651}, "date": "2025-08-31_16-30-51", "hostname": "cda-server-4", "time_this_iter_s": 34.1728949546814, "episodes_total": 16176, "timestamp": 1756650651, "node_ip": "10.157.146.4", "done": false, "time_total_s": 87578.48312234879, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2697, "episode_reward_mean": -607.2832237405081, "training_iteration": 2697, "timesteps_total": 3236400, "policy_reward_mean": {}, "episode_reward_min": -652.4794361177061, "timesteps_since_restore": 3236400, "num_metric_batches_dropped": 0, "time_since_restore": 87613.60591769218, "episode_reward_max": -513.5135391334062, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3236400, "default": {"kl": 0.010339265689253807, "policy_loss": -0.14871333539485931, "vf_loss": 46.77760314941406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9943243861198425, "entropy": 3.1353421211242676, "cur_lr": 4.999999873689376e-05, "total_loss": 46.644596099853516}, "load_time_ms": 0.671, "num_steps_sampled": 3236400, "grad_time_ms": 635.454, "update_time_ms": 2.385, "sample_time_ms": 33898.23}, "date": "2025-08-31_16-31-26", "hostname": "cda-server-4", "time_this_iter_s": 35.12279534339905, "episodes_total": 16182, "timestamp": 1756650686, "node_ip": "10.157.146.4", "done": false, "time_total_s": 87613.60591769218, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2698, "episode_reward_mean": -606.3015903989946, "training_iteration": 2698, "timesteps_total": 3237600, "policy_reward_mean": {}, "episode_reward_min": -652.4794361177061, "timesteps_since_restore": 3237600, "num_metric_batches_dropped": 0, "time_since_restore": 87648.15070652962, "episode_reward_max": -513.5135391334062, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3237600, "default": {"kl": 0.010398345068097115, "policy_loss": -0.13281992077827454, "vf_loss": 109.29461669921875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9846458435058594, "entropy": 2.987961530685425, "cur_lr": 4.999999873689376e-05, "total_loss": 109.1775894165039}, "load_time_ms": 0.681, "num_steps_sampled": 3237600, "grad_time_ms": 641.932, "update_time_ms": 2.344, "sample_time_ms": 33882.508}, "date": "2025-08-31_16-32-00", "hostname": "cda-server-4", "time_this_iter_s": 34.54478883743286, "episodes_total": 16188, "timestamp": 1756650720, "node_ip": "10.157.146.4", "done": false, "time_total_s": 87648.15070652962, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2699, "episode_reward_mean": -606.1127193114596, "training_iteration": 2699, "timesteps_total": 3238800, "policy_reward_mean": {}, "episode_reward_min": -652.4794361177061, "timesteps_since_restore": 3238800, "num_metric_batches_dropped": 0, "time_since_restore": 87682.95110440254, "episode_reward_max": -513.5135391334062, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3238800, "default": {"kl": 0.013289663009345531, "policy_loss": -0.15185698866844177, "vf_loss": 110.6727294921875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9919421076774597, "entropy": 3.111755847930908, "cur_lr": 4.999999873689376e-05, "total_loss": 110.54105377197266}, "load_time_ms": 0.681, "num_steps_sampled": 3238800, "grad_time_ms": 652.03, "update_time_ms": 2.344, "sample_time_ms": 33952.63}, "date": "2025-08-31_16-32-35", "hostname": "cda-server-4", "time_this_iter_s": 34.800397872924805, "episodes_total": 16194, "timestamp": 1756650755, "node_ip": "10.157.146.4", "done": false, "time_total_s": 87682.95110440254, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2700, "episode_reward_mean": -605.972200005514, "training_iteration": 2700, "timesteps_total": 3240000, "policy_reward_mean": {}, "episode_reward_min": -652.4794361177061, "timesteps_since_restore": 3240000, "num_metric_batches_dropped": 0, "time_since_restore": 87716.92566132545, "episode_reward_max": -513.5135391334062, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3240000, "default": {"kl": 0.008230634965002537, "policy_loss": -0.10870438069105148, "vf_loss": 269.71954345703125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9763417840003967, "entropy": 3.0940637588500977, "cur_lr": 4.999999873689376e-05, "total_loss": 269.6233215332031}, "load_time_ms": 0.684, "num_steps_sampled": 3240000, "grad_time_ms": 650.199, "update_time_ms": 2.442, "sample_time_ms": 33873.981}, "date": "2025-08-31_16-33-09", "hostname": "cda-server-4", "time_this_iter_s": 33.9745569229126, "episodes_total": 16200, "timestamp": 1756650789, "node_ip": "10.157.146.4", "done": false, "time_total_s": 87716.92566132545, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2701, "episode_reward_mean": -607.1045954540378, "training_iteration": 2701, "timesteps_total": 3241200, "policy_reward_mean": {}, "episode_reward_min": -652.4794361177061, "timesteps_since_restore": 3241200, "num_metric_batches_dropped": 0, "time_since_restore": 87752.06814098358, "episode_reward_max": -513.5135391334062, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3241200, "default": {"kl": 0.008116287179291248, "policy_loss": -0.09884694963693619, "vf_loss": 223.3565216064453, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9616531729698181, "entropy": 3.1753363609313965, "cur_lr": 4.999999873689376e-05, "total_loss": 223.27000427246094}, "load_time_ms": 0.647, "num_steps_sampled": 3241200, "grad_time_ms": 646.019, "update_time_ms": 2.384, "sample_time_ms": 33972.1}, "date": "2025-08-31_16-33-44", "hostname": "cda-server-4", "time_this_iter_s": 35.14247965812683, "episodes_total": 16206, "timestamp": 1756650824, "node_ip": "10.157.146.4", "done": false, "time_total_s": 87752.06814098358, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2702, "episode_reward_mean": -607.4168589135061, "training_iteration": 2702, "timesteps_total": 3242400, "policy_reward_mean": {}, "episode_reward_min": -652.4794361177061, "timesteps_since_restore": 3242400, "num_metric_batches_dropped": 0, "time_since_restore": 87788.1584751606, "episode_reward_max": -513.5135391334062, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3242400, "default": {"kl": 0.010656205005943775, "policy_loss": -0.11742658168077469, "vf_loss": 112.85741424560547, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9843109846115112, "entropy": 2.9716105461120605, "cur_lr": 4.999999873689376e-05, "total_loss": 112.75617980957031}, "load_time_ms": 0.641, "num_steps_sampled": 3242400, "grad_time_ms": 653.113, "update_time_ms": 2.347, "sample_time_ms": 34122.491}, "date": "2025-08-31_16-34-20", "hostname": "cda-server-4", "time_this_iter_s": 36.09033417701721, "episodes_total": 16212, "timestamp": 1756650860, "node_ip": "10.157.146.4", "done": false, "time_total_s": 87788.1584751606, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2703, "episode_reward_mean": -606.8166891015118, "training_iteration": 2703, "timesteps_total": 3243600, "policy_reward_mean": {}, "episode_reward_min": -652.4794361177061, "timesteps_since_restore": 3243600, "num_metric_batches_dropped": 0, "time_since_restore": 87822.30740213394, "episode_reward_max": -513.5135391334062, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3243600, "default": {"kl": 0.011683696880936623, "policy_loss": -0.1334461271762848, "vf_loss": 20.323474884033203, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9970846176147461, "entropy": 3.0290400981903076, "cur_lr": 4.999999873689376e-05, "total_loss": 20.20777130126953}, "load_time_ms": 0.671, "num_steps_sampled": 3243600, "grad_time_ms": 660.063, "update_time_ms": 2.329, "sample_time_ms": 34112.307}, "date": "2025-08-31_16-34-55", "hostname": "cda-server-4", "time_this_iter_s": 34.148926973342896, "episodes_total": 16218, "timestamp": 1756650895, "node_ip": "10.157.146.4", "done": false, "time_total_s": 87822.30740213394, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2704, "episode_reward_mean": -607.6836435039695, "training_iteration": 2704, "timesteps_total": 3244800, "policy_reward_mean": {}, "episode_reward_min": -652.4794361177061, "timesteps_since_restore": 3244800, "num_metric_batches_dropped": 0, "time_since_restore": 87856.8509645462, "episode_reward_max": -525.135897388664, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3244800, "default": {"kl": 0.011886508204042912, "policy_loss": -0.14473049342632294, "vf_loss": 105.17157745361328, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9905619025230408, "entropy": 3.0748958587646484, "cur_lr": 4.999999873689376e-05, "total_loss": 105.04489135742188}, "load_time_ms": 0.668, "num_steps_sampled": 3244800, "grad_time_ms": 661.091, "update_time_ms": 2.346, "sample_time_ms": 34076.757}, "date": "2025-08-31_16-35-29", "hostname": "cda-server-4", "time_this_iter_s": 34.54356241226196, "episodes_total": 16224, "timestamp": 1756650929, "node_ip": "10.157.146.4", "done": false, "time_total_s": 87856.8509645462, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2705, "episode_reward_mean": -607.7950426454062, "training_iteration": 2705, "timesteps_total": 3246000, "policy_reward_mean": {}, "episode_reward_min": -652.4794361177061, "timesteps_since_restore": 3246000, "num_metric_batches_dropped": 0, "time_since_restore": 87890.95501470566, "episode_reward_max": -525.135897388664, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3246000, "default": {"kl": 0.01030920259654522, "policy_loss": -0.16471067070960999, "vf_loss": 313.960205078125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9621928334236145, "entropy": 3.2522642612457275, "cur_lr": 4.999999873689376e-05, "total_loss": 313.8111877441406}, "load_time_ms": 0.669, "num_steps_sampled": 3246000, "grad_time_ms": 652.989, "update_time_ms": 2.224, "sample_time_ms": 34004.71}, "date": "2025-08-31_16-36-03", "hostname": "cda-server-4", "time_this_iter_s": 34.104050159454346, "episodes_total": 16230, "timestamp": 1756650963, "node_ip": "10.157.146.4", "done": false, "time_total_s": 87890.95501470566, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2706, "episode_reward_mean": -607.5207001262844, "training_iteration": 2706, "timesteps_total": 3247200, "policy_reward_mean": {}, "episode_reward_min": -652.4794361177061, "timesteps_since_restore": 3247200, "num_metric_batches_dropped": 0, "time_since_restore": 87925.6005847454, "episode_reward_max": -525.135897388664, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3247200, "default": {"kl": 0.010848556645214558, "policy_loss": -0.1452009081840515, "vf_loss": 58.26279067993164, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9904576539993286, "entropy": 3.2076504230499268, "cur_lr": 4.999999873689376e-05, "total_loss": 58.13405990600586}, "load_time_ms": 0.626, "num_steps_sampled": 3247200, "grad_time_ms": 638.486, "update_time_ms": 2.179, "sample_time_ms": 34066.548}, "date": "2025-08-31_16-36-38", "hostname": "cda-server-4", "time_this_iter_s": 34.645570039749146, "episodes_total": 16236, "timestamp": 1756650998, "node_ip": "10.157.146.4", "done": false, "time_total_s": 87925.6005847454, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2707, "episode_reward_mean": -607.0929117131313, "training_iteration": 2707, "timesteps_total": 3248400, "policy_reward_mean": {}, "episode_reward_min": -652.4794361177061, "timesteps_since_restore": 3248400, "num_metric_batches_dropped": 0, "time_since_restore": 87959.15066790581, "episode_reward_max": -525.135897388664, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3248400, "default": {"kl": 0.012248186394572258, "policy_loss": -0.14040066301822662, "vf_loss": 70.12954711914062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9905545115470886, "entropy": 3.1055967807769775, "cur_lr": 4.999999873689376e-05, "total_loss": 70.00775146484375}, "load_time_ms": 0.633, "num_steps_sampled": 3248400, "grad_time_ms": 642.774, "update_time_ms": 2.178, "sample_time_ms": 33904.897}, "date": "2025-08-31_16-37-11", "hostname": "cda-server-4", "time_this_iter_s": 33.55008316040039, "episodes_total": 16242, "timestamp": 1756651031, "node_ip": "10.157.146.4", "done": false, "time_total_s": 87959.15066790581, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2708, "episode_reward_mean": -606.8220253485808, "training_iteration": 2708, "timesteps_total": 3249600, "policy_reward_mean": {}, "episode_reward_min": -652.4794361177061, "timesteps_since_restore": 3249600, "num_metric_batches_dropped": 0, "time_since_restore": 87994.25939059258, "episode_reward_max": -525.135897388664, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3249600, "default": {"kl": 0.010474136099219322, "policy_loss": -0.13271455466747284, "vf_loss": 185.1255645751953, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9771172404289246, "entropy": 3.1820249557495117, "cur_lr": 4.999999873689376e-05, "total_loss": 185.0087890625}, "load_time_ms": 0.628, "num_steps_sampled": 3249600, "grad_time_ms": 636.965, "update_time_ms": 2.258, "sample_time_ms": 33966.996}, "date": "2025-08-31_16-37-47", "hostname": "cda-server-4", "time_this_iter_s": 35.10872268676758, "episodes_total": 16248, "timestamp": 1756651067, "node_ip": "10.157.146.4", "done": false, "time_total_s": 87994.25939059258, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2709, "episode_reward_mean": -606.9385037262648, "training_iteration": 2709, "timesteps_total": 3250800, "policy_reward_mean": {}, "episode_reward_min": -652.4794361177061, "timesteps_since_restore": 3250800, "num_metric_batches_dropped": 0, "time_since_restore": 88029.08893370628, "episode_reward_max": -525.135897388664, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3250800, "default": {"kl": 0.01041954942047596, "policy_loss": -0.13240741193294525, "vf_loss": 28.817344665527344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9960613250732422, "entropy": 3.0723648071289062, "cur_lr": 4.999999873689376e-05, "total_loss": 28.70076560974121}, "load_time_ms": 0.619, "num_steps_sampled": 3250800, "grad_time_ms": 621.924, "update_time_ms": 2.21, "sample_time_ms": 33985.08}, "date": "2025-08-31_16-38-21", "hostname": "cda-server-4", "time_this_iter_s": 34.829543113708496, "episodes_total": 16254, "timestamp": 1756651101, "node_ip": "10.157.146.4", "done": false, "time_total_s": 88029.08893370628, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2710, "episode_reward_mean": -607.423895163308, "training_iteration": 2710, "timesteps_total": 3252000, "policy_reward_mean": {}, "episode_reward_min": -652.4794361177061, "timesteps_since_restore": 3252000, "num_metric_batches_dropped": 0, "time_since_restore": 88063.32101130486, "episode_reward_max": -525.135897388664, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3252000, "default": {"kl": 0.010318215005099773, "policy_loss": -0.12341973185539246, "vf_loss": 160.0531768798828, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9778220653533936, "entropy": 3.1071836948394775, "cur_lr": 4.999999873689376e-05, "total_loss": 159.94541931152344}, "load_time_ms": 0.62, "num_steps_sampled": 3252000, "grad_time_ms": 621.293, "update_time_ms": 2.138, "sample_time_ms": 34011.434}, "date": "2025-08-31_16-38-56", "hostname": "cda-server-4", "time_this_iter_s": 34.23207759857178, "episodes_total": 16260, "timestamp": 1756651136, "node_ip": "10.157.146.4", "done": false, "time_total_s": 88063.32101130486, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2711, "episode_reward_mean": -607.3120627468637, "training_iteration": 2711, "timesteps_total": 3253200, "policy_reward_mean": {}, "episode_reward_min": -652.4794361177061, "timesteps_since_restore": 3253200, "num_metric_batches_dropped": 0, "time_since_restore": 88097.36316156387, "episode_reward_max": -525.135897388664, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3253200, "default": {"kl": 0.010946442373096943, "policy_loss": -0.1266041398048401, "vf_loss": 183.4632110595703, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9795985817909241, "entropy": 3.1486520767211914, "cur_lr": 4.999999873689376e-05, "total_loss": 183.35324096679688}, "load_time_ms": 0.631, "num_steps_sampled": 3253200, "grad_time_ms": 626.083, "update_time_ms": 2.23, "sample_time_ms": 33896.464}, "date": "2025-08-31_16-39-30", "hostname": "cda-server-4", "time_this_iter_s": 34.042150259017944, "episodes_total": 16266, "timestamp": 1756651170, "node_ip": "10.157.146.4", "done": false, "time_total_s": 88097.36316156387, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2712, "episode_reward_mean": -607.3593375170279, "training_iteration": 2712, "timesteps_total": 3254400, "policy_reward_mean": {}, "episode_reward_min": -652.4794361177061, "timesteps_since_restore": 3254400, "num_metric_batches_dropped": 0, "time_since_restore": 88132.31891965866, "episode_reward_max": -525.135897388664, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3254400, "default": {"kl": 0.010251917876303196, "policy_loss": -0.1434262990951538, "vf_loss": 88.06893157958984, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9868999123573303, "entropy": 3.1609020233154297, "cur_lr": 4.999999873689376e-05, "total_loss": 87.94107055664062}, "load_time_ms": 0.636, "num_steps_sampled": 3254400, "grad_time_ms": 627.268, "update_time_ms": 2.28, "sample_time_ms": 33781.78}, "date": "2025-08-31_16-40-05", "hostname": "cda-server-4", "time_this_iter_s": 34.9557580947876, "episodes_total": 16272, "timestamp": 1756651205, "node_ip": "10.157.146.4", "done": false, "time_total_s": 88132.31891965866, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2713, "episode_reward_mean": -607.3661314861087, "training_iteration": 2713, "timesteps_total": 3255600, "policy_reward_mean": {}, "episode_reward_min": -651.3324623309902, "timesteps_since_restore": 3255600, "num_metric_batches_dropped": 0, "time_since_restore": 88166.84844756126, "episode_reward_max": -525.135897388664, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3255600, "default": {"kl": 0.01142123993486166, "policy_loss": -0.14858898520469666, "vf_loss": 321.9324035644531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9806646704673767, "entropy": 3.2435357570648193, "cur_lr": 4.999999873689376e-05, "total_loss": 321.8011474609375}, "load_time_ms": 0.607, "num_steps_sampled": 3255600, "grad_time_ms": 627.104, "update_time_ms": 2.291, "sample_time_ms": 33820.057}, "date": "2025-08-31_16-40-39", "hostname": "cda-server-4", "time_this_iter_s": 34.52952790260315, "episodes_total": 16278, "timestamp": 1756651239, "node_ip": "10.157.146.4", "done": false, "time_total_s": 88166.84844756126, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2714, "episode_reward_mean": -607.854191010437, "training_iteration": 2714, "timesteps_total": 3256800, "policy_reward_mean": {}, "episode_reward_min": -651.3324623309902, "timesteps_since_restore": 3256800, "num_metric_batches_dropped": 0, "time_since_restore": 88200.72546052933, "episode_reward_max": -533.171612115317, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3256800, "default": {"kl": 0.009060340002179146, "policy_loss": -0.13520534336566925, "vf_loss": 259.31658935546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9701693058013916, "entropy": 3.137579917907715, "cur_lr": 4.999999873689376e-05, "total_loss": 259.19512939453125}, "load_time_ms": 0.599, "num_steps_sampled": 3256800, "grad_time_ms": 637.792, "update_time_ms": 2.342, "sample_time_ms": 33742.621}, "date": "2025-08-31_16-41-13", "hostname": "cda-server-4", "time_this_iter_s": 33.877012968063354, "episodes_total": 16284, "timestamp": 1756651273, "node_ip": "10.157.146.4", "done": false, "time_total_s": 88200.72546052933, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2715, "episode_reward_mean": -608.098617002375, "training_iteration": 2715, "timesteps_total": 3258000, "policy_reward_mean": {}, "episode_reward_min": -651.3324623309902, "timesteps_since_restore": 3258000, "num_metric_batches_dropped": 0, "time_since_restore": 88235.7418513298, "episode_reward_max": -533.171612115317, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3258000, "default": {"kl": 0.013906167820096016, "policy_loss": -0.16301654279232025, "vf_loss": 158.8813018798828, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9834927320480347, "entropy": 3.2704827785491943, "cur_lr": 4.999999873689376e-05, "total_loss": 158.73941040039062}, "load_time_ms": 0.604, "num_steps_sampled": 3258000, "grad_time_ms": 659.789, "update_time_ms": 2.402, "sample_time_ms": 33811.776}, "date": "2025-08-31_16-41-48", "hostname": "cda-server-4", "time_this_iter_s": 35.016390800476074, "episodes_total": 16290, "timestamp": 1756651308, "node_ip": "10.157.146.4", "done": false, "time_total_s": 88235.7418513298, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2716, "episode_reward_mean": -607.5661653132923, "training_iteration": 2716, "timesteps_total": 3259200, "policy_reward_mean": {}, "episode_reward_min": -651.3324623309902, "timesteps_since_restore": 3259200, "num_metric_batches_dropped": 0, "time_since_restore": 88270.29227900505, "episode_reward_max": -533.171612115317, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3259200, "default": {"kl": 0.011147577315568924, "policy_loss": -0.14047175645828247, "vf_loss": 47.348262786865234, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9942512512207031, "entropy": 3.237456798553467, "cur_lr": 4.999999873689376e-05, "total_loss": 47.2247200012207}, "load_time_ms": 0.608, "num_steps_sampled": 3259200, "grad_time_ms": 679.405, "update_time_ms": 2.423, "sample_time_ms": 33782.64}, "date": "2025-08-31_16-42-23", "hostname": "cda-server-4", "time_this_iter_s": 34.55042767524719, "episodes_total": 16296, "timestamp": 1756651343, "node_ip": "10.157.146.4", "done": false, "time_total_s": 88270.29227900505, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2717, "episode_reward_mean": -607.480388508192, "training_iteration": 2717, "timesteps_total": 3260400, "policy_reward_mean": {}, "episode_reward_min": -651.3324623309902, "timesteps_since_restore": 3260400, "num_metric_batches_dropped": 0, "time_since_restore": 88304.78668737411, "episode_reward_max": -533.171612115317, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3260400, "default": {"kl": 0.010035699233412743, "policy_loss": -0.1240624338388443, "vf_loss": 161.27577209472656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9744904637336731, "entropy": 3.2501161098480225, "cur_lr": 4.999999873689376e-05, "total_loss": 161.1669464111328}, "load_time_ms": 0.61, "num_steps_sampled": 3260400, "grad_time_ms": 664.899, "update_time_ms": 2.414, "sample_time_ms": 33891.629}, "date": "2025-08-31_16-42-57", "hostname": "cda-server-4", "time_this_iter_s": 34.49440836906433, "episodes_total": 16302, "timestamp": 1756651377, "node_ip": "10.157.146.4", "done": false, "time_total_s": 88304.78668737411, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2718, "episode_reward_mean": -606.4061156489475, "training_iteration": 2718, "timesteps_total": 3261600, "policy_reward_mean": {}, "episode_reward_min": -651.3324623309902, "timesteps_since_restore": 3261600, "num_metric_batches_dropped": 0, "time_since_restore": 88338.9696893692, "episode_reward_max": -491.2688356340194, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3261600, "default": {"kl": 0.011832814663648605, "policy_loss": -0.15034468472003937, "vf_loss": 60.72352981567383, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9931641817092896, "entropy": 3.1902623176574707, "cur_lr": 4.999999873689376e-05, "total_loss": 60.59116744995117}, "load_time_ms": 0.608, "num_steps_sampled": 3261600, "grad_time_ms": 656.201, "update_time_ms": 2.368, "sample_time_ms": 33807.814}, "date": "2025-08-31_16-43-31", "hostname": "cda-server-4", "time_this_iter_s": 34.18300199508667, "episodes_total": 16308, "timestamp": 1756651411, "node_ip": "10.157.146.4", "done": false, "time_total_s": 88338.9696893692, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2719, "episode_reward_mean": -607.487072585199, "training_iteration": 2719, "timesteps_total": 3262800, "policy_reward_mean": {}, "episode_reward_min": -651.3324623309902, "timesteps_since_restore": 3262800, "num_metric_batches_dropped": 0, "time_since_restore": 88373.24775981903, "episode_reward_max": -491.2688356340194, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3262800, "default": {"kl": 0.009207501076161861, "policy_loss": -0.1430271565914154, "vf_loss": 189.7791290283203, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9755337834358215, "entropy": 3.061937093734741, "cur_lr": 4.999999873689376e-05, "total_loss": 189.65008544921875}, "load_time_ms": 0.611, "num_steps_sampled": 3262800, "grad_time_ms": 660.888, "update_time_ms": 2.348, "sample_time_ms": 33747.95}, "date": "2025-08-31_16-44-06", "hostname": "cda-server-4", "time_this_iter_s": 34.2780704498291, "episodes_total": 16314, "timestamp": 1756651446, "node_ip": "10.157.146.4", "done": false, "time_total_s": 88373.24775981903, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2720, "episode_reward_mean": -608.0308558565197, "training_iteration": 2720, "timesteps_total": 3264000, "policy_reward_mean": {}, "episode_reward_min": -651.3324623309902, "timesteps_since_restore": 3264000, "num_metric_batches_dropped": 0, "time_since_restore": 88408.27427339554, "episode_reward_max": -491.2688356340194, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3264000, "default": {"kl": 0.012111115269362926, "policy_loss": -0.13155142962932587, "vf_loss": 89.05862426757812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9924526214599609, "entropy": 3.101949691772461, "cur_lr": 4.999999873689376e-05, "total_loss": 88.94546508789062}, "load_time_ms": 0.609, "num_steps_sampled": 3264000, "grad_time_ms": 673.268, "update_time_ms": 2.381, "sample_time_ms": 33815.016}, "date": "2025-08-31_16-44-41", "hostname": "cda-server-4", "time_this_iter_s": 35.02651357650757, "episodes_total": 16320, "timestamp": 1756651481, "node_ip": "10.157.146.4", "done": false, "time_total_s": 88408.27427339554, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2721, "episode_reward_mean": -608.7620473843525, "training_iteration": 2721, "timesteps_total": 3265200, "policy_reward_mean": {}, "episode_reward_min": -642.2495698526931, "timesteps_since_restore": 3265200, "num_metric_batches_dropped": 0, "time_since_restore": 88442.08113098145, "episode_reward_max": -491.2688356340194, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3265200, "default": {"kl": 0.0103479428216815, "policy_loss": -0.145229309797287, "vf_loss": 144.1568145751953, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9774565100669861, "entropy": 3.3656086921691895, "cur_lr": 4.999999873689376e-05, "total_loss": 144.0272979736328}, "load_time_ms": 0.6, "num_steps_sampled": 3265200, "grad_time_ms": 680.872, "update_time_ms": 2.392, "sample_time_ms": 33783.839}, "date": "2025-08-31_16-45-15", "hostname": "cda-server-4", "time_this_iter_s": 33.80685758590698, "episodes_total": 16326, "timestamp": 1756651515, "node_ip": "10.157.146.4", "done": false, "time_total_s": 88442.08113098145, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2722, "episode_reward_mean": -609.7284885571308, "training_iteration": 2722, "timesteps_total": 3266400, "policy_reward_mean": {}, "episode_reward_min": -645.4434583275032, "timesteps_since_restore": 3266400, "num_metric_batches_dropped": 0, "time_since_restore": 88476.49863171577, "episode_reward_max": -491.2688356340194, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3266400, "default": {"kl": 0.009727961383759975, "policy_loss": -0.14023233950138092, "vf_loss": 613.0850219726562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9550011157989502, "entropy": 3.316737413406372, "cur_lr": 4.999999873689376e-05, "total_loss": 612.9595947265625}, "load_time_ms": 0.6, "num_steps_sampled": 3266400, "grad_time_ms": 674.129, "update_time_ms": 2.386, "sample_time_ms": 33736.764}, "date": "2025-08-31_16-45-49", "hostname": "cda-server-4", "time_this_iter_s": 34.417500734329224, "episodes_total": 16332, "timestamp": 1756651549, "node_ip": "10.157.146.4", "done": false, "time_total_s": 88476.49863171577, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2723, "episode_reward_mean": -609.4203605087721, "training_iteration": 2723, "timesteps_total": 3267600, "policy_reward_mean": {}, "episode_reward_min": -645.4434583275032, "timesteps_since_restore": 3267600, "num_metric_batches_dropped": 0, "time_since_restore": 88511.3232421875, "episode_reward_max": -470.69398006049727, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3267600, "default": {"kl": 0.010412582196295261, "policy_loss": -0.13532394170761108, "vf_loss": 85.57788848876953, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9904380440711975, "entropy": 3.132244110107422, "cur_lr": 4.999999873689376e-05, "total_loss": 85.45838165283203}, "load_time_ms": 0.612, "num_steps_sampled": 3267600, "grad_time_ms": 659.714, "update_time_ms": 2.41, "sample_time_ms": 33780.624}, "date": "2025-08-31_16-46-24", "hostname": "cda-server-4", "time_this_iter_s": 34.824610471725464, "episodes_total": 16338, "timestamp": 1756651584, "node_ip": "10.157.146.4", "done": false, "time_total_s": 88511.3232421875, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2724, "episode_reward_mean": -610.3334745527413, "training_iteration": 2724, "timesteps_total": 3268800, "policy_reward_mean": {}, "episode_reward_min": -645.4434583275032, "timesteps_since_restore": 3268800, "num_metric_batches_dropped": 0, "time_since_restore": 88546.0782983303, "episode_reward_max": -470.69398006049727, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3268800, "default": {"kl": 0.007468936964869499, "policy_loss": -0.11320219933986664, "vf_loss": 135.57086181640625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9783912301063538, "entropy": 3.06253719329834, "cur_lr": 4.999999873689376e-05, "total_loss": 135.46900939941406}, "load_time_ms": 0.613, "num_steps_sampled": 3268800, "grad_time_ms": 644.398, "update_time_ms": 2.34, "sample_time_ms": 33883.855}, "date": "2025-08-31_16-46-59", "hostname": "cda-server-4", "time_this_iter_s": 34.75505614280701, "episodes_total": 16344, "timestamp": 1756651619, "node_ip": "10.157.146.4", "done": false, "time_total_s": 88546.0782983303, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2725, "episode_reward_mean": -609.5613341088178, "training_iteration": 2725, "timesteps_total": 3270000, "policy_reward_mean": {}, "episode_reward_min": -645.4434583275032, "timesteps_since_restore": 3270000, "num_metric_batches_dropped": 0, "time_since_restore": 88580.52596282959, "episode_reward_max": -470.69398006049727, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3270000, "default": {"kl": 0.011600004509091377, "policy_loss": -0.14490413665771484, "vf_loss": 108.6964340209961, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9855706691741943, "entropy": 2.986842632293701, "cur_lr": 4.999999873689376e-05, "total_loss": 108.56916046142578}, "load_time_ms": 0.63, "num_steps_sampled": 3270000, "grad_time_ms": 654.803, "update_time_ms": 2.322, "sample_time_ms": 33816.607}, "date": "2025-08-31_16-47-33", "hostname": "cda-server-4", "time_this_iter_s": 34.44766449928284, "episodes_total": 16350, "timestamp": 1756651653, "node_ip": "10.157.146.4", "done": false, "time_total_s": 88580.52596282959, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2726, "episode_reward_mean": -610.4315001192554, "training_iteration": 2726, "timesteps_total": 3271200, "policy_reward_mean": {}, "episode_reward_min": -645.4434583275032, "timesteps_since_restore": 3271200, "num_metric_batches_dropped": 0, "time_since_restore": 88615.71595478058, "episode_reward_max": -470.69398006049727, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3271200, "default": {"kl": 0.01254073902964592, "policy_loss": -0.17555227875709534, "vf_loss": 178.42745971679688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9818969368934631, "entropy": 3.3783493041992188, "cur_lr": 4.999999873689376e-05, "total_loss": 178.2709503173828}, "load_time_ms": 0.629, "num_steps_sampled": 3271200, "grad_time_ms": 656.731, "update_time_ms": 2.283, "sample_time_ms": 33878.621}, "date": "2025-08-31_16-48-08", "hostname": "cda-server-4", "time_this_iter_s": 35.18999195098877, "episodes_total": 16356, "timestamp": 1756651688, "node_ip": "10.157.146.4", "done": false, "time_total_s": 88615.71595478058, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2727, "episode_reward_mean": -610.9566069368018, "training_iteration": 2727, "timesteps_total": 3272400, "policy_reward_mean": {}, "episode_reward_min": -646.1239781725993, "timesteps_since_restore": 3272400, "num_metric_batches_dropped": 0, "time_since_restore": 88650.35786032677, "episode_reward_max": -470.69398006049727, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3272400, "default": {"kl": 0.011831711046397686, "policy_loss": -0.1518115997314453, "vf_loss": 237.6275177001953, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9842812418937683, "entropy": 3.10418963432312, "cur_lr": 4.999999873689376e-05, "total_loss": 237.49368286132812}, "load_time_ms": 0.633, "num_steps_sampled": 3272400, "grad_time_ms": 672.07, "update_time_ms": 2.282, "sample_time_ms": 33878.014}, "date": "2025-08-31_16-48-43", "hostname": "cda-server-4", "time_this_iter_s": 34.641905546188354, "episodes_total": 16362, "timestamp": 1756651723, "node_ip": "10.157.146.4", "done": false, "time_total_s": 88650.35786032677, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2728, "episode_reward_mean": -609.9212999040617, "training_iteration": 2728, "timesteps_total": 3273600, "policy_reward_mean": {}, "episode_reward_min": -646.1239781725993, "timesteps_since_restore": 3273600, "num_metric_batches_dropped": 0, "time_since_restore": 88684.69430375099, "episode_reward_max": -470.69398006049727, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3273600, "default": {"kl": 0.009533407166600227, "policy_loss": -0.12780217826366425, "vf_loss": 112.57192993164062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9839774370193481, "entropy": 3.137077569961548, "cur_lr": 4.999999873689376e-05, "total_loss": 112.45861053466797}, "load_time_ms": 0.635, "num_steps_sampled": 3273600, "grad_time_ms": 682.372, "update_time_ms": 2.331, "sample_time_ms": 33883.092}, "date": "2025-08-31_16-49-17", "hostname": "cda-server-4", "time_this_iter_s": 34.33644342422485, "episodes_total": 16368, "timestamp": 1756651757, "node_ip": "10.157.146.4", "done": false, "time_total_s": 88684.69430375099, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2729, "episode_reward_mean": -609.0579142833789, "training_iteration": 2729, "timesteps_total": 3274800, "policy_reward_mean": {}, "episode_reward_min": -646.1239781725993, "timesteps_since_restore": 3274800, "num_metric_batches_dropped": 0, "time_since_restore": 88718.08180975914, "episode_reward_max": -470.69398006049727, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3274800, "default": {"kl": 0.01016606017947197, "policy_loss": -0.13805100321769714, "vf_loss": 98.09243774414062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9864310026168823, "entropy": 3.138948678970337, "cur_lr": 4.999999873689376e-05, "total_loss": 97.9698257446289}, "load_time_ms": 0.636, "num_steps_sampled": 3274800, "grad_time_ms": 673.036, "update_time_ms": 2.32, "sample_time_ms": 33803.435}, "date": "2025-08-31_16-49-51", "hostname": "cda-server-4", "time_this_iter_s": 33.38750600814819, "episodes_total": 16374, "timestamp": 1756651791, "node_ip": "10.157.146.4", "done": false, "time_total_s": 88718.08180975914, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2730, "episode_reward_mean": -608.6479108511, "training_iteration": 2730, "timesteps_total": 3276000, "policy_reward_mean": {}, "episode_reward_min": -646.1239781725993, "timesteps_since_restore": 3276000, "num_metric_batches_dropped": 0, "time_since_restore": 88753.51961278915, "episode_reward_max": -470.69398006049727, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3276000, "default": {"kl": 0.010269690304994583, "policy_loss": -0.13364827632904053, "vf_loss": 256.8064880371094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9735152721405029, "entropy": 2.99363112449646, "cur_lr": 4.999999873689376e-05, "total_loss": 256.68841552734375}, "load_time_ms": 0.666, "num_steps_sampled": 3276000, "grad_time_ms": 652.324, "update_time_ms": 2.298, "sample_time_ms": 33865.256}, "date": "2025-08-31_16-50-26", "hostname": "cda-server-4", "time_this_iter_s": 35.43780303001404, "episodes_total": 16380, "timestamp": 1756651826, "node_ip": "10.157.146.4", "done": false, "time_total_s": 88753.51961278915, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2731, "episode_reward_mean": -607.5857215919096, "training_iteration": 2731, "timesteps_total": 3277200, "policy_reward_mean": {}, "episode_reward_min": -653.099251980979, "timesteps_since_restore": 3277200, "num_metric_batches_dropped": 0, "time_since_restore": 88788.08950209618, "episode_reward_max": -470.69398006049727, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3277200, "default": {"kl": 0.01138980034738779, "policy_loss": -0.15153907239437103, "vf_loss": 256.439453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9778566360473633, "entropy": 3.2001616954803467, "cur_lr": 4.999999873689376e-05, "total_loss": 256.30523681640625}, "load_time_ms": 0.709, "num_steps_sampled": 3277200, "grad_time_ms": 627.495, "update_time_ms": 2.256, "sample_time_ms": 33966.349}, "date": "2025-08-31_16-51-01", "hostname": "cda-server-4", "time_this_iter_s": 34.569889307022095, "episodes_total": 16386, "timestamp": 1756651861, "node_ip": "10.157.146.4", "done": false, "time_total_s": 88788.08950209618, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2732, "episode_reward_mean": -608.8221195808796, "training_iteration": 2732, "timesteps_total": 3278400, "policy_reward_mean": {}, "episode_reward_min": -653.099251980979, "timesteps_since_restore": 3278400, "num_metric_batches_dropped": 0, "time_since_restore": 88822.08705759048, "episode_reward_max": -470.69398006049727, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3278400, "default": {"kl": 0.011712048202753067, "policy_loss": -0.1424018293619156, "vf_loss": 418.54608154296875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9556840062141418, "entropy": 3.1585373878479004, "cur_lr": 4.999999873689376e-05, "total_loss": 418.4215087890625}, "load_time_ms": 0.704, "num_steps_sampled": 3278400, "grad_time_ms": 606.706, "update_time_ms": 2.244, "sample_time_ms": 33945.17}, "date": "2025-08-31_16-51-35", "hostname": "cda-server-4", "time_this_iter_s": 33.99755549430847, "episodes_total": 16392, "timestamp": 1756651895, "node_ip": "10.157.146.4", "done": false, "time_total_s": 88822.08705759048, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2733, "episode_reward_mean": -609.4322367878761, "training_iteration": 2733, "timesteps_total": 3279600, "policy_reward_mean": {}, "episode_reward_min": -653.099251980979, "timesteps_since_restore": 3279600, "num_metric_batches_dropped": 0, "time_since_restore": 88856.77480649948, "episode_reward_max": -470.69398006049727, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3279600, "default": {"kl": 0.01297785621136427, "policy_loss": -0.16080135107040405, "vf_loss": 72.4115219116211, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9938210248947144, "entropy": 3.069366455078125, "cur_lr": 4.999999873689376e-05, "total_loss": 72.27042388916016}, "load_time_ms": 0.683, "num_steps_sampled": 3279600, "grad_time_ms": 601.637, "update_time_ms": 2.246, "sample_time_ms": 33936.665}, "date": "2025-08-31_16-52-10", "hostname": "cda-server-4", "time_this_iter_s": 34.68774890899658, "episodes_total": 16398, "timestamp": 1756651930, "node_ip": "10.157.146.4", "done": false, "time_total_s": 88856.77480649948, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2734, "episode_reward_mean": -611.0824663642251, "training_iteration": 2734, "timesteps_total": 3280800, "policy_reward_mean": {}, "episode_reward_min": -653.099251980979, "timesteps_since_restore": 3280800, "num_metric_batches_dropped": 0, "time_since_restore": 88890.73213815689, "episode_reward_max": -470.69398006049727, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3280800, "default": {"kl": 0.010766040533781052, "policy_loss": -0.14238914847373962, "vf_loss": 66.0133056640625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9909346699714661, "entropy": 3.1225152015686035, "cur_lr": 4.999999873689376e-05, "total_loss": 65.88726806640625}, "load_time_ms": 0.679, "num_steps_sampled": 3280800, "grad_time_ms": 601.073, "update_time_ms": 2.217, "sample_time_ms": 33857.474}, "date": "2025-08-31_16-52-44", "hostname": "cda-server-4", "time_this_iter_s": 33.95733165740967, "episodes_total": 16404, "timestamp": 1756651964, "node_ip": "10.157.146.4", "done": false, "time_total_s": 88890.73213815689, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2735, "episode_reward_mean": -610.36721142629, "training_iteration": 2735, "timesteps_total": 3282000, "policy_reward_mean": {}, "episode_reward_min": -653.099251980979, "timesteps_since_restore": 3282000, "num_metric_batches_dropped": 0, "time_since_restore": 88925.72265839577, "episode_reward_max": -470.69398006049727, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3282000, "default": {"kl": 0.0112378541380167, "policy_loss": -0.11302974820137024, "vf_loss": 165.2554168701172, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9764924645423889, "entropy": 3.2032668590545654, "cur_lr": 4.999999873689376e-05, "total_loss": 165.15945434570312}, "load_time_ms": 0.664, "num_steps_sampled": 3282000, "grad_time_ms": 587.035, "update_time_ms": 2.242, "sample_time_ms": 33925.727}, "date": "2025-08-31_16-53-19", "hostname": "cda-server-4", "time_this_iter_s": 34.99052023887634, "episodes_total": 16410, "timestamp": 1756651999, "node_ip": "10.157.146.4", "done": false, "time_total_s": 88925.72265839577, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2736, "episode_reward_mean": -609.866403203788, "training_iteration": 2736, "timesteps_total": 3283200, "policy_reward_mean": {}, "episode_reward_min": -653.099251980979, "timesteps_since_restore": 3283200, "num_metric_batches_dropped": 0, "time_since_restore": 88959.8283443451, "episode_reward_max": -470.69398006049727, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3283200, "default": {"kl": 0.010113757103681564, "policy_loss": -0.14339862763881683, "vf_loss": 40.38993835449219, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9938114881515503, "entropy": 3.0483202934265137, "cur_lr": 4.999999873689376e-05, "total_loss": 40.261905670166016}, "load_time_ms": 0.669, "num_steps_sampled": 3283200, "grad_time_ms": 594.5, "update_time_ms": 2.301, "sample_time_ms": 33809.797}, "date": "2025-08-31_16-53-53", "hostname": "cda-server-4", "time_this_iter_s": 34.10568594932556, "episodes_total": 16416, "timestamp": 1756652033, "node_ip": "10.157.146.4", "done": false, "time_total_s": 88959.8283443451, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2737, "episode_reward_mean": -609.4936601969691, "training_iteration": 2737, "timesteps_total": 3284400, "policy_reward_mean": {}, "episode_reward_min": -653.099251980979, "timesteps_since_restore": 3284400, "num_metric_batches_dropped": 0, "time_since_restore": 88994.62425804138, "episode_reward_max": -470.69398006049727, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3284400, "default": {"kl": 0.010947185568511486, "policy_loss": -0.1320776641368866, "vf_loss": 466.88226318359375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9680237174034119, "entropy": 3.138678789138794, "cur_lr": 4.999999873689376e-05, "total_loss": 466.7668151855469}, "load_time_ms": 0.676, "num_steps_sampled": 3284400, "grad_time_ms": 597.448, "update_time_ms": 2.261, "sample_time_ms": 33822.272}, "date": "2025-08-31_16-54-28", "hostname": "cda-server-4", "time_this_iter_s": 34.79591369628906, "episodes_total": 16422, "timestamp": 1756652068, "node_ip": "10.157.146.4", "done": false, "time_total_s": 88994.62425804138, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2738, "episode_reward_mean": -609.0902198085115, "training_iteration": 2738, "timesteps_total": 3285600, "policy_reward_mean": {}, "episode_reward_min": -653.099251980979, "timesteps_since_restore": 3285600, "num_metric_batches_dropped": 0, "time_since_restore": 89029.36260008812, "episode_reward_max": -470.69398006049727, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3285600, "default": {"kl": 0.01082766056060791, "policy_loss": -0.145601287484169, "vf_loss": 47.91946792602539, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9932289123535156, "entropy": 3.0239036083221436, "cur_lr": 4.999999873689376e-05, "total_loss": 47.790306091308594}, "load_time_ms": 0.675, "num_steps_sampled": 3285600, "grad_time_ms": 601.59, "update_time_ms": 2.258, "sample_time_ms": 33858.306}, "date": "2025-08-31_16-55-02", "hostname": "cda-server-4", "time_this_iter_s": 34.73834204673767, "episodes_total": 16428, "timestamp": 1756652102, "node_ip": "10.157.146.4", "done": false, "time_total_s": 89029.36260008812, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2739, "episode_reward_mean": -606.03165835383, "training_iteration": 2739, "timesteps_total": 3286800, "policy_reward_mean": {}, "episode_reward_min": -653.099251980979, "timesteps_since_restore": 3286800, "num_metric_batches_dropped": 0, "time_since_restore": 89063.33531785011, "episode_reward_max": -470.41101960231146, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3286800, "default": {"kl": 0.01285193394869566, "policy_loss": -0.160721093416214, "vf_loss": 141.70155334472656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9769904613494873, "entropy": 3.123152494430542, "cur_lr": 4.999999873689376e-05, "total_loss": 141.56036376953125}, "load_time_ms": 0.673, "num_steps_sampled": 3286800, "grad_time_ms": 618.868, "update_time_ms": 2.3, "sample_time_ms": 33899.509}, "date": "2025-08-31_16-55-36", "hostname": "cda-server-4", "time_this_iter_s": 33.97271776199341, "episodes_total": 16434, "timestamp": 1756652136, "node_ip": "10.157.146.4", "done": false, "time_total_s": 89063.33531785011, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2740, "episode_reward_mean": -607.6983626578017, "training_iteration": 2740, "timesteps_total": 3288000, "policy_reward_mean": {}, "episode_reward_min": -653.099251980979, "timesteps_since_restore": 3288000, "num_metric_batches_dropped": 0, "time_since_restore": 89097.73351812363, "episode_reward_max": -470.41101960231146, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3288000, "default": {"kl": 0.01091947965323925, "policy_loss": -0.12432920932769775, "vf_loss": 33.35969543457031, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9958271384239197, "entropy": 2.94608736038208, "cur_lr": 4.999999873689376e-05, "total_loss": 33.251953125}, "load_time_ms": 0.64, "num_steps_sampled": 3288000, "grad_time_ms": 638.712, "update_time_ms": 2.29, "sample_time_ms": 33775.809}, "date": "2025-08-31_16-56-11", "hostname": "cda-server-4", "time_this_iter_s": 34.398200273513794, "episodes_total": 16440, "timestamp": 1756652171, "node_ip": "10.157.146.4", "done": false, "time_total_s": 89097.73351812363, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2741, "episode_reward_mean": -606.5850313517261, "training_iteration": 2741, "timesteps_total": 3289200, "policy_reward_mean": {}, "episode_reward_min": -653.5621584169138, "timesteps_since_restore": 3289200, "num_metric_batches_dropped": 0, "time_since_restore": 89133.0004901886, "episode_reward_max": -470.41101960231146, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3289200, "default": {"kl": 0.011052214540541172, "policy_loss": -0.1382695436477661, "vf_loss": 189.75823974609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9776555299758911, "entropy": 3.2656946182250977, "cur_lr": 4.999999873689376e-05, "total_loss": 189.63674926757812}, "load_time_ms": 0.601, "num_steps_sampled": 3289200, "grad_time_ms": 664.044, "update_time_ms": 2.374, "sample_time_ms": 33820.234}, "date": "2025-08-31_16-56-46", "hostname": "cda-server-4", "time_this_iter_s": 35.266972064971924, "episodes_total": 16446, "timestamp": 1756652206, "node_ip": "10.157.146.4", "done": false, "time_total_s": 89133.0004901886, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2742, "episode_reward_mean": -607.3244131344564, "training_iteration": 2742, "timesteps_total": 3290400, "policy_reward_mean": {}, "episode_reward_min": -653.5621584169138, "timesteps_since_restore": 3290400, "num_metric_batches_dropped": 0, "time_since_restore": 89167.3151371479, "episode_reward_max": -470.41101960231146, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3290400, "default": {"kl": 0.009587228298187256, "policy_loss": -0.12974125146865845, "vf_loss": 75.69176483154297, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.99009770154953, "entropy": 3.0990140438079834, "cur_lr": 4.999999873689376e-05, "total_loss": 75.57658386230469}, "load_time_ms": 0.599, "num_steps_sampled": 3290400, "grad_time_ms": 689.98, "update_time_ms": 2.334, "sample_time_ms": 33826.042}, "date": "2025-08-31_16-57-20", "hostname": "cda-server-4", "time_this_iter_s": 34.31464695930481, "episodes_total": 16452, "timestamp": 1756652240, "node_ip": "10.157.146.4", "done": false, "time_total_s": 89167.3151371479, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2743, "episode_reward_mean": -606.2792455661273, "training_iteration": 2743, "timesteps_total": 3291600, "policy_reward_mean": {}, "episode_reward_min": -653.5621584169138, "timesteps_since_restore": 3291600, "num_metric_batches_dropped": 0, "time_since_restore": 89201.78373670578, "episode_reward_max": -470.41101960231146, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3291600, "default": {"kl": 0.013104426674544811, "policy_loss": -0.14097005128860474, "vf_loss": 83.65966033935547, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9937149882316589, "entropy": 3.1475250720977783, "cur_lr": 4.999999873689376e-05, "total_loss": 83.5385971069336}, "load_time_ms": 0.619, "num_steps_sampled": 3291600, "grad_time_ms": 735.977, "update_time_ms": 2.347, "sample_time_ms": 33758.008}, "date": "2025-08-31_16-57-55", "hostname": "cda-server-4", "time_this_iter_s": 34.46859955787659, "episodes_total": 16458, "timestamp": 1756652275, "node_ip": "10.157.146.4", "done": false, "time_total_s": 89201.78373670578, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2744, "episode_reward_mean": -605.9549261614663, "training_iteration": 2744, "timesteps_total": 3292800, "policy_reward_mean": {}, "episode_reward_min": -653.5621584169138, "timesteps_since_restore": 3292800, "num_metric_batches_dropped": 0, "time_since_restore": 89238.39248490334, "episode_reward_max": -470.41101960231146, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3292800, "default": {"kl": 0.011490543372929096, "policy_loss": -0.1428973376750946, "vf_loss": 88.3005142211914, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9859225153923035, "entropy": 3.073899507522583, "cur_lr": 4.999999873689376e-05, "total_loss": 88.17507934570312}, "load_time_ms": 0.626, "num_steps_sampled": 3292800, "grad_time_ms": 748.434, "update_time_ms": 2.39, "sample_time_ms": 34010.658}, "date": "2025-08-31_16-58-31", "hostname": "cda-server-4", "time_this_iter_s": 36.60874819755554, "episodes_total": 16464, "timestamp": 1756652311, "node_ip": "10.157.146.4", "done": false, "time_total_s": 89238.39248490334, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2745, "episode_reward_mean": -606.5572475597622, "training_iteration": 2745, "timesteps_total": 3294000, "policy_reward_mean": {}, "episode_reward_min": -653.5621584169138, "timesteps_since_restore": 3294000, "num_metric_batches_dropped": 0, "time_since_restore": 89272.74476361275, "episode_reward_max": -470.41101960231146, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3294000, "default": {"kl": 0.00916043110191822, "policy_loss": -0.12925463914871216, "vf_loss": 97.27505493164062, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9877997636795044, "entropy": 3.0251877307891846, "cur_lr": 4.999999873689376e-05, "total_loss": 97.15970611572266}, "load_time_ms": 0.622, "num_steps_sampled": 3294000, "grad_time_ms": 749.808, "update_time_ms": 2.316, "sample_time_ms": 33945.556}, "date": "2025-08-31_16-59-06", "hostname": "cda-server-4", "time_this_iter_s": 34.35227870941162, "episodes_total": 16470, "timestamp": 1756652346, "node_ip": "10.157.146.4", "done": false, "time_total_s": 89272.74476361275, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2746, "episode_reward_mean": -607.4855360412826, "training_iteration": 2746, "timesteps_total": 3295200, "policy_reward_mean": {}, "episode_reward_min": -653.5621584169138, "timesteps_since_restore": 3295200, "num_metric_batches_dropped": 0, "time_since_restore": 89306.66661572456, "episode_reward_max": -470.41101960231146, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3295200, "default": {"kl": 0.012174133211374283, "policy_loss": -0.15762881934642792, "vf_loss": 28.11456871032715, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9962804317474365, "entropy": 3.139529228210449, "cur_lr": 4.999999873689376e-05, "total_loss": 27.97542953491211}, "load_time_ms": 0.616, "num_steps_sampled": 3295200, "grad_time_ms": 737.645, "update_time_ms": 2.261, "sample_time_ms": 33939.387}, "date": "2025-08-31_16-59-40", "hostname": "cda-server-4", "time_this_iter_s": 33.921852111816406, "episodes_total": 16476, "timestamp": 1756652380, "node_ip": "10.157.146.4", "done": false, "time_total_s": 89306.66661572456, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2747, "episode_reward_mean": -608.8331053486625, "training_iteration": 2747, "timesteps_total": 3296400, "policy_reward_mean": {}, "episode_reward_min": -653.5621584169138, "timesteps_since_restore": 3296400, "num_metric_batches_dropped": 0, "time_since_restore": 89340.99769878387, "episode_reward_max": -470.41101960231146, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3296400, "default": {"kl": 0.011554664932191372, "policy_loss": -0.17197686433792114, "vf_loss": 150.5484161376953, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9833380579948425, "entropy": 3.264503240585327, "cur_lr": 4.999999873689376e-05, "total_loss": 150.39398193359375}, "load_time_ms": 0.61, "num_steps_sampled": 3296400, "grad_time_ms": 724.594, "update_time_ms": 2.267, "sample_time_ms": 33905.934}, "date": "2025-08-31_17-00-14", "hostname": "cda-server-4", "time_this_iter_s": 34.33108305931091, "episodes_total": 16482, "timestamp": 1756652414, "node_ip": "10.157.146.4", "done": false, "time_total_s": 89340.99769878387, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2748, "episode_reward_mean": -608.6136122601963, "training_iteration": 2748, "timesteps_total": 3297600, "policy_reward_mean": {}, "episode_reward_min": -653.5621584169138, "timesteps_since_restore": 3297600, "num_metric_batches_dropped": 0, "time_since_restore": 89375.95495843887, "episode_reward_max": -470.41101960231146, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3297600, "default": {"kl": 0.010138287208974361, "policy_loss": -0.12647195160388947, "vf_loss": 40.43772888183594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9957716464996338, "entropy": 3.0657339096069336, "cur_lr": 4.999999873689376e-05, "total_loss": 40.326656341552734}, "load_time_ms": 0.609, "num_steps_sampled": 3297600, "grad_time_ms": 716.156, "update_time_ms": 2.274, "sample_time_ms": 33936.163}, "date": "2025-08-31_17-00-49", "hostname": "cda-server-4", "time_this_iter_s": 34.95725965499878, "episodes_total": 16488, "timestamp": 1756652449, "node_ip": "10.157.146.4", "done": false, "time_total_s": 89375.95495843887, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2749, "episode_reward_mean": -608.5158108547322, "training_iteration": 2749, "timesteps_total": 3298800, "policy_reward_mean": {}, "episode_reward_min": -653.5621584169138, "timesteps_since_restore": 3298800, "num_metric_batches_dropped": 0, "time_since_restore": 89411.16947960854, "episode_reward_max": -470.41101960231146, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3298800, "default": {"kl": 0.012076685205101967, "policy_loss": -0.14845603704452515, "vf_loss": 121.14168548583984, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.989195704460144, "entropy": 2.978024482727051, "cur_lr": 4.999999873689376e-05, "total_loss": 121.01158142089844}, "load_time_ms": 0.613, "num_steps_sampled": 3298800, "grad_time_ms": 710.126, "update_time_ms": 2.255, "sample_time_ms": 34066.388}, "date": "2025-08-31_17-01-24", "hostname": "cda-server-4", "time_this_iter_s": 35.214521169662476, "episodes_total": 16494, "timestamp": 1756652484, "node_ip": "10.157.146.4", "done": false, "time_total_s": 89411.16947960854, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2750, "episode_reward_mean": -607.7494466193754, "training_iteration": 2750, "timesteps_total": 3300000, "policy_reward_mean": {}, "episode_reward_min": -653.5621584169138, "timesteps_since_restore": 3300000, "num_metric_batches_dropped": 0, "time_since_restore": 89444.97543311119, "episode_reward_max": -470.41101960231146, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3300000, "default": {"kl": 0.012691998854279518, "policy_loss": -0.15307317674160004, "vf_loss": 36.921661376953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9953038096427917, "entropy": 3.099863290786743, "cur_lr": 4.999999873689376e-05, "total_loss": 36.78786087036133}, "load_time_ms": 0.615, "num_steps_sampled": 3300000, "grad_time_ms": 701.839, "update_time_ms": 2.257, "sample_time_ms": 34015.391}, "date": "2025-08-31_17-01-58", "hostname": "cda-server-4", "time_this_iter_s": 33.80595350265503, "episodes_total": 16500, "timestamp": 1756652518, "node_ip": "10.157.146.4", "done": false, "time_total_s": 89444.97543311119, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2751, "episode_reward_mean": -606.9214902151955, "training_iteration": 2751, "timesteps_total": 3301200, "policy_reward_mean": {}, "episode_reward_min": -653.5621584169138, "timesteps_since_restore": 3301200, "num_metric_batches_dropped": 0, "time_since_restore": 89479.46504545212, "episode_reward_max": -470.41101960231146, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3301200, "default": {"kl": 0.01019386388361454, "policy_loss": -0.1184743344783783, "vf_loss": 42.270423889160156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9949064254760742, "entropy": 2.978170871734619, "cur_lr": 4.999999873689376e-05, "total_loss": 42.16742706298828}, "load_time_ms": 0.614, "num_steps_sampled": 3301200, "grad_time_ms": 680.466, "update_time_ms": 2.214, "sample_time_ms": 33958.988}, "date": "2025-08-31_17-02-33", "hostname": "cda-server-4", "time_this_iter_s": 34.489612340927124, "episodes_total": 16506, "timestamp": 1756652553, "node_ip": "10.157.146.4", "done": false, "time_total_s": 89479.46504545212, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2752, "episode_reward_mean": -606.2165213251942, "training_iteration": 2752, "timesteps_total": 3302400, "policy_reward_mean": {}, "episode_reward_min": -653.5621584169138, "timesteps_since_restore": 3302400, "num_metric_batches_dropped": 0, "time_since_restore": 89514.2004430294, "episode_reward_max": -470.41101960231146, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3302400, "default": {"kl": 0.00893376674503088, "policy_loss": -0.11216185986995697, "vf_loss": 214.76605224609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9757770895957947, "entropy": 3.041971206665039, "cur_lr": 4.999999873689376e-05, "total_loss": 214.66744995117188}, "load_time_ms": 0.625, "num_steps_sampled": 3302400, "grad_time_ms": 678.841, "update_time_ms": 2.327, "sample_time_ms": 34002.558}, "date": "2025-08-31_17-03-07", "hostname": "cda-server-4", "time_this_iter_s": 34.73539757728577, "episodes_total": 16512, "timestamp": 1756652587, "node_ip": "10.157.146.4", "done": false, "time_total_s": 89514.2004430294, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2753, "episode_reward_mean": -606.5029032025773, "training_iteration": 2753, "timesteps_total": 3303600, "policy_reward_mean": {}, "episode_reward_min": -653.5621584169138, "timesteps_since_restore": 3303600, "num_metric_batches_dropped": 0, "time_since_restore": 89548.42889213562, "episode_reward_max": -470.41101960231146, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3303600, "default": {"kl": 0.009534627199172974, "policy_loss": -0.12874044477939606, "vf_loss": 242.4208221435547, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9652460813522339, "entropy": 3.030346632003784, "cur_lr": 4.999999873689376e-05, "total_loss": 242.3065643310547}, "load_time_ms": 0.606, "num_steps_sampled": 3303600, "grad_time_ms": 646.55, "update_time_ms": 2.359, "sample_time_ms": 34010.773}, "date": "2025-08-31_17-03-42", "hostname": "cda-server-4", "time_this_iter_s": 34.22844910621643, "episodes_total": 16518, "timestamp": 1756652622, "node_ip": "10.157.146.4", "done": false, "time_total_s": 89548.42889213562, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2754, "episode_reward_mean": -606.9934607573414, "training_iteration": 2754, "timesteps_total": 3304800, "policy_reward_mean": {}, "episode_reward_min": -653.5621584169138, "timesteps_since_restore": 3304800, "num_metric_batches_dropped": 0, "time_since_restore": 89582.26426386833, "episode_reward_max": -470.41101960231146, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3304800, "default": {"kl": 0.010605324991047382, "policy_loss": -0.12408774346113205, "vf_loss": 218.99029541015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9686096906661987, "entropy": 2.9636735916137695, "cur_lr": 4.999999873689376e-05, "total_loss": 218.88229370117188}, "load_time_ms": 0.622, "num_steps_sampled": 3304800, "grad_time_ms": 642.849, "update_time_ms": 2.37, "sample_time_ms": 33737.127}, "date": "2025-08-31_17-04-16", "hostname": "cda-server-4", "time_this_iter_s": 33.83537173271179, "episodes_total": 16524, "timestamp": 1756652656, "node_ip": "10.157.146.4", "done": false, "time_total_s": 89582.26426386833, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2755, "episode_reward_mean": -608.0469646257868, "training_iteration": 2755, "timesteps_total": 3306000, "policy_reward_mean": {}, "episode_reward_min": -653.5621584169138, "timesteps_since_restore": 3306000, "num_metric_batches_dropped": 0, "time_since_restore": 89617.08299827576, "episode_reward_max": -470.41101960231146, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3306000, "default": {"kl": 0.011328568682074547, "policy_loss": -0.1426004022359848, "vf_loss": 230.67816162109375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9771893620491028, "entropy": 3.101253032684326, "cur_lr": 4.999999873689376e-05, "total_loss": 230.55279541015625}, "load_time_ms": 0.624, "num_steps_sampled": 3306000, "grad_time_ms": 645.121, "update_time_ms": 2.37, "sample_time_ms": 33781.546}, "date": "2025-08-31_17-04-50", "hostname": "cda-server-4", "time_this_iter_s": 34.81873440742493, "episodes_total": 16530, "timestamp": 1756652690, "node_ip": "10.157.146.4", "done": false, "time_total_s": 89617.08299827576, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2756, "episode_reward_mean": -609.6363657455454, "training_iteration": 2756, "timesteps_total": 3307200, "policy_reward_mean": {}, "episode_reward_min": -653.5621584169138, "timesteps_since_restore": 3307200, "num_metric_batches_dropped": 0, "time_since_restore": 89652.20082330704, "episode_reward_max": -514.8010388927323, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3307200, "default": {"kl": 0.009465554729104042, "policy_loss": -0.14803916215896606, "vf_loss": 84.96687316894531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9904011487960815, "entropy": 3.1548242568969727, "cur_lr": 4.999999873689376e-05, "total_loss": 84.83320617675781}, "load_time_ms": 0.623, "num_steps_sampled": 3307200, "grad_time_ms": 657.58, "update_time_ms": 2.364, "sample_time_ms": 33888.765}, "date": "2025-08-31_17-05-25", "hostname": "cda-server-4", "time_this_iter_s": 35.11782503128052, "episodes_total": 16536, "timestamp": 1756652725, "node_ip": "10.157.146.4", "done": false, "time_total_s": 89652.20082330704, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2757, "episode_reward_mean": -610.0327364536411, "training_iteration": 2757, "timesteps_total": 3308400, "policy_reward_mean": {}, "episode_reward_min": -653.5621584169138, "timesteps_since_restore": 3308400, "num_metric_batches_dropped": 0, "time_since_restore": 89686.734872818, "episode_reward_max": -514.8010388927323, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3308400, "default": {"kl": 0.010198676027357578, "policy_loss": -0.1346481591463089, "vf_loss": 162.39389038085938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9877131581306458, "entropy": 3.0713865756988525, "cur_lr": 4.999999873689376e-05, "total_loss": 162.27471923828125}, "load_time_ms": 0.621, "num_steps_sampled": 3308400, "grad_time_ms": 665.781, "update_time_ms": 2.353, "sample_time_ms": 33900.84}, "date": "2025-08-31_17-06-00", "hostname": "cda-server-4", "time_this_iter_s": 34.53404951095581, "episodes_total": 16542, "timestamp": 1756652760, "node_ip": "10.157.146.4", "done": false, "time_total_s": 89686.734872818, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2758, "episode_reward_mean": -610.1071720646006, "training_iteration": 2758, "timesteps_total": 3309600, "policy_reward_mean": {}, "episode_reward_min": -644.4886957806114, "timesteps_since_restore": 3309600, "num_metric_batches_dropped": 0, "time_since_restore": 89720.80099463463, "episode_reward_max": -514.8010388927323, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3309600, "default": {"kl": 0.010354114696383476, "policy_loss": -0.12140049040317535, "vf_loss": 414.4659118652344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.959405243396759, "entropy": 3.027216911315918, "cur_lr": 4.999999873689376e-05, "total_loss": 414.3602294921875}, "load_time_ms": 0.626, "num_steps_sampled": 3309600, "grad_time_ms": 658.363, "update_time_ms": 2.32, "sample_time_ms": 33819.235}, "date": "2025-08-31_17-06-34", "hostname": "cda-server-4", "time_this_iter_s": 34.06612181663513, "episodes_total": 16548, "timestamp": 1756652794, "node_ip": "10.157.146.4", "done": false, "time_total_s": 89720.80099463463, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2759, "episode_reward_mean": -610.013163434342, "training_iteration": 2759, "timesteps_total": 3310800, "policy_reward_mean": {}, "episode_reward_min": -644.4886957806114, "timesteps_since_restore": 3310800, "num_metric_batches_dropped": 0, "time_since_restore": 89755.65084314346, "episode_reward_max": -526.6021729653461, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3310800, "default": {"kl": 0.01162024401128292, "policy_loss": -0.14326435327529907, "vf_loss": 135.00218200683594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9831690192222595, "entropy": 3.094078302383423, "cur_lr": 4.999999873689376e-05, "total_loss": 134.87655639648438}, "load_time_ms": 0.651, "num_steps_sampled": 3310800, "grad_time_ms": 652.019, "update_time_ms": 2.323, "sample_time_ms": 33789.081}, "date": "2025-08-31_17-07-09", "hostname": "cda-server-4", "time_this_iter_s": 34.84984850883484, "episodes_total": 16554, "timestamp": 1756652829, "node_ip": "10.157.146.4", "done": false, "time_total_s": 89755.65084314346, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2760, "episode_reward_mean": -608.9904498184306, "training_iteration": 2760, "timesteps_total": 3312000, "policy_reward_mean": {}, "episode_reward_min": -644.4886957806114, "timesteps_since_restore": 3312000, "num_metric_batches_dropped": 0, "time_since_restore": 89789.84554886818, "episode_reward_max": -526.6021729653461, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3312000, "default": {"kl": 0.010630737990140915, "policy_loss": -0.13711291551589966, "vf_loss": 86.65914154052734, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.987228512763977, "entropy": 2.960934638977051, "cur_lr": 4.999999873689376e-05, "total_loss": 86.53816986083984}, "load_time_ms": 0.652, "num_steps_sampled": 3312000, "grad_time_ms": 655.453, "update_time_ms": 2.322, "sample_time_ms": 33824.487}, "date": "2025-08-31_17-07-43", "hostname": "cda-server-4", "time_this_iter_s": 34.19470572471619, "episodes_total": 16560, "timestamp": 1756652863, "node_ip": "10.157.146.4", "done": false, "time_total_s": 89789.84554886818, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2761, "episode_reward_mean": -609.5612242608541, "training_iteration": 2761, "timesteps_total": 3313200, "policy_reward_mean": {}, "episode_reward_min": -644.4886957806114, "timesteps_since_restore": 3313200, "num_metric_batches_dropped": 0, "time_since_restore": 89825.021266222, "episode_reward_max": -526.6021729653461, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3313200, "default": {"kl": 0.010377040132880211, "policy_loss": -0.13906218111515045, "vf_loss": 154.08477783203125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.978003740310669, "entropy": 3.0517492294311523, "cur_lr": 4.999999873689376e-05, "total_loss": 153.96148681640625}, "load_time_ms": 0.656, "num_steps_sampled": 3313200, "grad_time_ms": 676.05, "update_time_ms": 2.307, "sample_time_ms": 33872.549}, "date": "2025-08-31_17-08-18", "hostname": "cda-server-4", "time_this_iter_s": 35.1757173538208, "episodes_total": 16566, "timestamp": 1756652898, "node_ip": "10.157.146.4", "done": false, "time_total_s": 89825.021266222, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2762, "episode_reward_mean": -609.597987285009, "training_iteration": 2762, "timesteps_total": 3314400, "policy_reward_mean": {}, "episode_reward_min": -644.4886957806114, "timesteps_since_restore": 3314400, "num_metric_batches_dropped": 0, "time_since_restore": 89860.19361758232, "episode_reward_max": -526.6021729653461, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3314400, "default": {"kl": 0.011392186395823956, "policy_loss": -0.1451001763343811, "vf_loss": 82.27444458007812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9904496669769287, "entropy": 3.0419702529907227, "cur_lr": 4.999999873689376e-05, "total_loss": 82.14663696289062}, "load_time_ms": 0.646, "num_steps_sampled": 3314400, "grad_time_ms": 671.936, "update_time_ms": 2.25, "sample_time_ms": 33920.38}, "date": "2025-08-31_17-08-54", "hostname": "cda-server-4", "time_this_iter_s": 35.172351360321045, "episodes_total": 16572, "timestamp": 1756652934, "node_ip": "10.157.146.4", "done": false, "time_total_s": 89860.19361758232, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2763, "episode_reward_mean": -608.4015615065222, "training_iteration": 2763, "timesteps_total": 3315600, "policy_reward_mean": {}, "episode_reward_min": -660.7558850158249, "timesteps_since_restore": 3315600, "num_metric_batches_dropped": 0, "time_since_restore": 89894.76870584488, "episode_reward_max": -456.36020423705327, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3315600, "default": {"kl": 0.013297532685101032, "policy_loss": -0.164608895778656, "vf_loss": 340.39404296875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9701223373413086, "entropy": 3.0541164875030518, "cur_lr": 4.999999873689376e-05, "total_loss": 340.2496337890625}, "load_time_ms": 0.663, "num_steps_sampled": 3315600, "grad_time_ms": 656.497, "update_time_ms": 2.16, "sample_time_ms": 33970.63}, "date": "2025-08-31_17-09-28", "hostname": "cda-server-4", "time_this_iter_s": 34.57508826255798, "episodes_total": 16578, "timestamp": 1756652968, "node_ip": "10.157.146.4", "done": false, "time_total_s": 89894.76870584488, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2764, "episode_reward_mean": -608.9438509945948, "training_iteration": 2764, "timesteps_total": 3316800, "policy_reward_mean": {}, "episode_reward_min": -660.7558850158249, "timesteps_since_restore": 3316800, "num_metric_batches_dropped": 0, "time_since_restore": 89928.86881828308, "episode_reward_max": -456.36020423705327, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3316800, "default": {"kl": 0.013653240166604519, "policy_loss": -0.15094834566116333, "vf_loss": 157.61151123046875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9856970310211182, "entropy": 3.0982322692871094, "cur_lr": 4.999999873689376e-05, "total_loss": 157.48130798339844}, "load_time_ms": 0.643, "num_steps_sampled": 3316800, "grad_time_ms": 664.204, "update_time_ms": 2.202, "sample_time_ms": 33989.313}, "date": "2025-08-31_17-10-02", "hostname": "cda-server-4", "time_this_iter_s": 34.100112438201904, "episodes_total": 16584, "timestamp": 1756653002, "node_ip": "10.157.146.4", "done": false, "time_total_s": 89928.86881828308, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2765, "episode_reward_mean": -609.3101506961137, "training_iteration": 2765, "timesteps_total": 3318000, "policy_reward_mean": {}, "episode_reward_min": -660.7558850158249, "timesteps_since_restore": 3318000, "num_metric_batches_dropped": 0, "time_since_restore": 89963.37748098373, "episode_reward_max": -456.36020423705327, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3318000, "default": {"kl": 0.01003322470933199, "policy_loss": -0.12991078197956085, "vf_loss": 108.51932525634766, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9883343577384949, "entropy": 3.079343318939209, "cur_lr": 4.999999873689376e-05, "total_loss": 108.40465545654297}, "load_time_ms": 0.647, "num_steps_sampled": 3318000, "grad_time_ms": 662.196, "update_time_ms": 2.256, "sample_time_ms": 33960.171}, "date": "2025-08-31_17-10-37", "hostname": "cda-server-4", "time_this_iter_s": 34.508662700653076, "episodes_total": 16590, "timestamp": 1756653037, "node_ip": "10.157.146.4", "done": false, "time_total_s": 89963.37748098373, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2766, "episode_reward_mean": -609.3489561347869, "training_iteration": 2766, "timesteps_total": 3319200, "policy_reward_mean": {}, "episode_reward_min": -660.7558850158249, "timesteps_since_restore": 3319200, "num_metric_batches_dropped": 0, "time_since_restore": 89998.26920723915, "episode_reward_max": -456.36020423705327, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3319200, "default": {"kl": 0.012428631074726582, "policy_loss": -0.14846926927566528, "vf_loss": 173.6026153564453, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9862957000732422, "entropy": 3.0155818462371826, "cur_lr": 4.999999873689376e-05, "total_loss": 173.4730224609375}, "load_time_ms": 0.66, "num_steps_sampled": 3319200, "grad_time_ms": 659.479, "update_time_ms": 2.347, "sample_time_ms": 33940.004}, "date": "2025-08-31_17-11-12", "hostname": "cda-server-4", "time_this_iter_s": 34.89172625541687, "episodes_total": 16596, "timestamp": 1756653072, "node_ip": "10.157.146.4", "done": false, "time_total_s": 89998.26920723915, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2767, "episode_reward_mean": -609.9618744397375, "training_iteration": 2767, "timesteps_total": 3320400, "policy_reward_mean": {}, "episode_reward_min": -660.7558850158249, "timesteps_since_restore": 3320400, "num_metric_batches_dropped": 0, "time_since_restore": 90033.57437610626, "episode_reward_max": -456.36020423705327, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3320400, "default": {"kl": 0.009997060522437096, "policy_loss": -0.128901869058609, "vf_loss": 87.021728515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9896306991577148, "entropy": 3.149651527404785, "cur_lr": 4.999999873689376e-05, "total_loss": 86.90801239013672}, "load_time_ms": 0.692, "num_steps_sampled": 3320400, "grad_time_ms": 670.098, "update_time_ms": 2.658, "sample_time_ms": 34006.202}, "date": "2025-08-31_17-11-47", "hostname": "cda-server-4", "time_this_iter_s": 35.305168867111206, "episodes_total": 16602, "timestamp": 1756653107, "node_ip": "10.157.146.4", "done": false, "time_total_s": 90033.57437610626, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2768, "episode_reward_mean": -611.1424582115465, "training_iteration": 2768, "timesteps_total": 3321600, "policy_reward_mean": {}, "episode_reward_min": -660.7558850158249, "timesteps_since_restore": 3321600, "num_metric_batches_dropped": 0, "time_since_restore": 90067.90869522095, "episode_reward_max": -456.36020423705327, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3321600, "default": {"kl": 0.009825754910707474, "policy_loss": -0.1247066780924797, "vf_loss": 160.6577606201172, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9773017168045044, "entropy": 3.053616762161255, "cur_lr": 4.999999873689376e-05, "total_loss": 160.5479736328125}, "load_time_ms": 0.689, "num_steps_sampled": 3321600, "grad_time_ms": 685.48, "update_time_ms": 2.638, "sample_time_ms": 34017.703}, "date": "2025-08-31_17-12-21", "hostname": "cda-server-4", "time_this_iter_s": 34.33431911468506, "episodes_total": 16608, "timestamp": 1756653141, "node_ip": "10.157.146.4", "done": false, "time_total_s": 90067.90869522095, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2769, "episode_reward_mean": -611.6674615343959, "training_iteration": 2769, "timesteps_total": 3322800, "policy_reward_mean": {}, "episode_reward_min": -660.7558850158249, "timesteps_since_restore": 3322800, "num_metric_batches_dropped": 0, "time_since_restore": 90102.56544303894, "episode_reward_max": -456.36020423705327, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3322800, "default": {"kl": 0.013383460231125355, "policy_loss": -0.15891730785369873, "vf_loss": 474.1702880859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9529504776000977, "entropy": 3.2720324993133545, "cur_lr": 4.999999873689376e-05, "total_loss": 474.03173828125}, "load_time_ms": 0.667, "num_steps_sampled": 3322800, "grad_time_ms": 699.143, "update_time_ms": 2.628, "sample_time_ms": 33984.753}, "date": "2025-08-31_17-12-56", "hostname": "cda-server-4", "time_this_iter_s": 34.656747817993164, "episodes_total": 16614, "timestamp": 1756653176, "node_ip": "10.157.146.4", "done": false, "time_total_s": 90102.56544303894, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2770, "episode_reward_mean": -610.5949266442639, "training_iteration": 2770, "timesteps_total": 3324000, "policy_reward_mean": {}, "episode_reward_min": -660.7558850158249, "timesteps_since_restore": 3324000, "num_metric_batches_dropped": 0, "time_since_restore": 90136.83802080154, "episode_reward_max": -456.36020423705327, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3324000, "default": {"kl": 0.008264871314167976, "policy_loss": -0.1254591941833496, "vf_loss": 269.7578125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.967982828617096, "entropy": 3.1370344161987305, "cur_lr": 4.999999873689376e-05, "total_loss": 269.6449279785156}, "load_time_ms": 0.671, "num_steps_sampled": 3324000, "grad_time_ms": 696.27, "update_time_ms": 2.658, "sample_time_ms": 33995.432}, "date": "2025-08-31_17-13-30", "hostname": "cda-server-4", "time_this_iter_s": 34.27257776260376, "episodes_total": 16620, "timestamp": 1756653210, "node_ip": "10.157.146.4", "done": false, "time_total_s": 90136.83802080154, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2771, "episode_reward_mean": -611.3812265754765, "training_iteration": 2771, "timesteps_total": 3325200, "policy_reward_mean": {}, "episode_reward_min": -660.7558850158249, "timesteps_since_restore": 3325200, "num_metric_batches_dropped": 0, "time_since_restore": 90171.46119046211, "episode_reward_max": -456.36020423705327, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3325200, "default": {"kl": 0.010198037140071392, "policy_loss": -0.14723967015743256, "vf_loss": 110.39693450927734, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9841883778572083, "entropy": 3.174740791320801, "cur_lr": 4.999999873689376e-05, "total_loss": 110.26518249511719}, "load_time_ms": 0.664, "num_steps_sampled": 3325200, "grad_time_ms": 712.182, "update_time_ms": 2.765, "sample_time_ms": 33923.918}, "date": "2025-08-31_17-14-05", "hostname": "cda-server-4", "time_this_iter_s": 34.62316966056824, "episodes_total": 16626, "timestamp": 1756653245, "node_ip": "10.157.146.4", "done": false, "time_total_s": 90171.46119046211, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2772, "episode_reward_mean": -610.4647693819226, "training_iteration": 2772, "timesteps_total": 3326400, "policy_reward_mean": {}, "episode_reward_min": -660.7558850158249, "timesteps_since_restore": 3326400, "num_metric_batches_dropped": 0, "time_since_restore": 90206.32068157196, "episode_reward_max": -456.36020423705327, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3326400, "default": {"kl": 0.012528562918305397, "policy_loss": -0.15195754170417786, "vf_loss": 200.07501220703125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9727999567985535, "entropy": 3.1274876594543457, "cur_lr": 4.999999873689376e-05, "total_loss": 199.94207763671875}, "load_time_ms": 0.665, "num_steps_sampled": 3326400, "grad_time_ms": 712.745, "update_time_ms": 3.031, "sample_time_ms": 33891.853}, "date": "2025-08-31_17-14-40", "hostname": "cda-server-4", "time_this_iter_s": 34.85949110984802, "episodes_total": 16632, "timestamp": 1756653280, "node_ip": "10.157.146.4", "done": false, "time_total_s": 90206.32068157196, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2773, "episode_reward_mean": -610.7779353163016, "training_iteration": 2773, "timesteps_total": 3327600, "policy_reward_mean": {}, "episode_reward_min": -660.7558850158249, "timesteps_since_restore": 3327600, "num_metric_batches_dropped": 0, "time_since_restore": 90241.80845594406, "episode_reward_max": -456.36020423705327, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3327600, "default": {"kl": 0.01078796200454235, "policy_loss": -0.13763539493083954, "vf_loss": 17.37963104248047, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9970642924308777, "entropy": 3.056978940963745, "cur_lr": 4.999999873689376e-05, "total_loss": 17.25838279724121}, "load_time_ms": 0.657, "num_steps_sampled": 3327600, "grad_time_ms": 713.935, "update_time_ms": 3.177, "sample_time_ms": 33981.681}, "date": "2025-08-31_17-15-15", "hostname": "cda-server-4", "time_this_iter_s": 35.48777437210083, "episodes_total": 16638, "timestamp": 1756653315, "node_ip": "10.157.146.4", "done": false, "time_total_s": 90241.80845594406, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2774, "episode_reward_mean": -610.1448750242066, "training_iteration": 2774, "timesteps_total": 3328800, "policy_reward_mean": {}, "episode_reward_min": -660.7558850158249, "timesteps_since_restore": 3328800, "num_metric_batches_dropped": 0, "time_since_restore": 90276.51798963547, "episode_reward_max": -456.36020423705327, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3328800, "default": {"kl": 0.010589729994535446, "policy_loss": -0.14032790064811707, "vf_loss": 128.24481201171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9834880828857422, "entropy": 3.0468227863311768, "cur_lr": 4.999999873689376e-05, "total_loss": 128.12057495117188}, "load_time_ms": 0.66, "num_steps_sampled": 3328800, "grad_time_ms": 712.823, "update_time_ms": 3.138, "sample_time_ms": 34043.75}, "date": "2025-08-31_17-15-50", "hostname": "cda-server-4", "time_this_iter_s": 34.70953369140625, "episodes_total": 16644, "timestamp": 1756653350, "node_ip": "10.157.146.4", "done": false, "time_total_s": 90276.51798963547, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2775, "episode_reward_mean": -610.2587058245527, "training_iteration": 2775, "timesteps_total": 3330000, "policy_reward_mean": {}, "episode_reward_min": -660.7558850158249, "timesteps_since_restore": 3330000, "num_metric_batches_dropped": 0, "time_since_restore": 90310.14477324486, "episode_reward_max": -456.36020423705327, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3330000, "default": {"kl": 0.007446295581758022, "policy_loss": -0.10773336887359619, "vf_loss": 235.0003204345703, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9638079404830933, "entropy": 3.145869255065918, "cur_lr": 4.999999873689376e-05, "total_loss": 234.90391540527344}, "load_time_ms": 0.66, "num_steps_sampled": 3330000, "grad_time_ms": 702.667, "update_time_ms": 3.136, "sample_time_ms": 33965.714}, "date": "2025-08-31_17-16-24", "hostname": "cda-server-4", "time_this_iter_s": 33.62678360939026, "episodes_total": 16650, "timestamp": 1756653384, "node_ip": "10.157.146.4", "done": false, "time_total_s": 90310.14477324486, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2776, "episode_reward_mean": -610.9682073139709, "training_iteration": 2776, "timesteps_total": 3331200, "policy_reward_mean": {}, "episode_reward_min": -660.7558850158249, "timesteps_since_restore": 3331200, "num_metric_batches_dropped": 0, "time_since_restore": 90344.56749463081, "episode_reward_max": -456.36020423705327, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3331200, "default": {"kl": 0.010983413085341454, "policy_loss": -0.13472071290016174, "vf_loss": 147.67437744140625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9819778800010681, "entropy": 3.2055485248565674, "cur_lr": 4.999999873689376e-05, "total_loss": 147.55633544921875}, "load_time_ms": 0.651, "num_steps_sampled": 3331200, "grad_time_ms": 701.787, "update_time_ms": 3.105, "sample_time_ms": 33919.857}, "date": "2025-08-31_17-16-58", "hostname": "cda-server-4", "time_this_iter_s": 34.42272138595581, "episodes_total": 16656, "timestamp": 1756653418, "node_ip": "10.157.146.4", "done": false, "time_total_s": 90344.56749463081, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2777, "episode_reward_mean": -610.7858218407443, "training_iteration": 2777, "timesteps_total": 3332400, "policy_reward_mean": {}, "episode_reward_min": -660.7558850158249, "timesteps_since_restore": 3332400, "num_metric_batches_dropped": 0, "time_since_restore": 90379.33910489082, "episode_reward_max": -456.36020423705327, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3332400, "default": {"kl": 0.009671716019511223, "policy_loss": -0.13336580991744995, "vf_loss": 141.03277587890625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9837244749069214, "entropy": 3.1238977909088135, "cur_lr": 4.999999873689376e-05, "total_loss": 140.91409301757812}, "load_time_ms": 0.614, "num_steps_sampled": 3332400, "grad_time_ms": 699.996, "update_time_ms": 2.851, "sample_time_ms": 33868.511}, "date": "2025-08-31_17-17-33", "hostname": "cda-server-4", "time_this_iter_s": 34.771610260009766, "episodes_total": 16662, "timestamp": 1756653453, "node_ip": "10.157.146.4", "done": false, "time_total_s": 90379.33910489082, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2778, "episode_reward_mean": -610.4084776589019, "training_iteration": 2778, "timesteps_total": 3333600, "policy_reward_mean": {}, "episode_reward_min": -660.7558850158249, "timesteps_since_restore": 3333600, "num_metric_batches_dropped": 0, "time_since_restore": 90413.22847366333, "episode_reward_max": -456.36020423705327, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3333600, "default": {"kl": 0.012989156879484653, "policy_loss": -0.17487965524196625, "vf_loss": 75.61409759521484, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9908390045166016, "entropy": 3.1590864658355713, "cur_lr": 4.999999873689376e-05, "total_loss": 75.45893859863281}, "load_time_ms": 0.616, "num_steps_sampled": 3333600, "grad_time_ms": 681.553, "update_time_ms": 2.858, "sample_time_ms": 33842.336}, "date": "2025-08-31_17-18-07", "hostname": "cda-server-4", "time_this_iter_s": 33.889368772506714, "episodes_total": 16668, "timestamp": 1756653487, "node_ip": "10.157.146.4", "done": false, "time_total_s": 90413.22847366333, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2779, "episode_reward_mean": -614.5817784295623, "training_iteration": 2779, "timesteps_total": 3334800, "policy_reward_mean": {}, "episode_reward_min": -820.6384056507642, "timesteps_since_restore": 3334800, "num_metric_batches_dropped": 0, "time_since_restore": 90447.01439070702, "episode_reward_max": -562.2069228110031, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3334800, "default": {"kl": 0.009042763151228428, "policy_loss": -0.10883964598178864, "vf_loss": 936.3998413085938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9265227913856506, "entropy": 3.421095848083496, "cur_lr": 4.999999873689376e-05, "total_loss": 936.3048095703125}, "load_time_ms": 0.612, "num_steps_sampled": 3334800, "grad_time_ms": 681.602, "update_time_ms": 2.887, "sample_time_ms": 33755.22}, "date": "2025-08-31_17-18-41", "hostname": "cda-server-4", "time_this_iter_s": 33.78591704368591, "episodes_total": 16674, "timestamp": 1756653521, "node_ip": "10.157.146.4", "done": false, "time_total_s": 90447.01439070702, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2780, "episode_reward_mean": -613.2795298569087, "training_iteration": 2780, "timesteps_total": 3336000, "policy_reward_mean": {}, "episode_reward_min": -820.6384056507642, "timesteps_since_restore": 3336000, "num_metric_batches_dropped": 0, "time_since_restore": 90481.59393548965, "episode_reward_max": -530.9166954418378, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3336000, "default": {"kl": 0.011056099086999893, "policy_loss": -0.13820643723011017, "vf_loss": 160.0592803955078, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9791203737258911, "entropy": 3.1015360355377197, "cur_lr": 4.999999873689376e-05, "total_loss": 159.9378662109375}, "load_time_ms": 0.607, "num_steps_sampled": 3336000, "grad_time_ms": 673.82, "update_time_ms": 2.795, "sample_time_ms": 33793.831}, "date": "2025-08-31_17-19-15", "hostname": "cda-server-4", "time_this_iter_s": 34.57954478263855, "episodes_total": 16680, "timestamp": 1756653555, "node_ip": "10.157.146.4", "done": false, "time_total_s": 90481.59393548965, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2781, "episode_reward_mean": -613.2201913411664, "training_iteration": 2781, "timesteps_total": 3337200, "policy_reward_mean": {}, "episode_reward_min": -820.6384056507642, "timesteps_since_restore": 3337200, "num_metric_batches_dropped": 0, "time_since_restore": 90516.02453041077, "episode_reward_max": -530.9166954418378, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3337200, "default": {"kl": 0.011733893305063248, "policy_loss": -0.13689684867858887, "vf_loss": 205.42193603515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9785425662994385, "entropy": 3.2269234657287598, "cur_lr": 4.999999873689376e-05, "total_loss": 205.30284118652344}, "load_time_ms": 0.604, "num_steps_sampled": 3337200, "grad_time_ms": 641.186, "update_time_ms": 2.672, "sample_time_ms": 33807.64}, "date": "2025-08-31_17-19-50", "hostname": "cda-server-4", "time_this_iter_s": 34.43059492111206, "episodes_total": 16686, "timestamp": 1756653590, "node_ip": "10.157.146.4", "done": false, "time_total_s": 90516.02453041077, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2782, "episode_reward_mean": -611.8930997513272, "training_iteration": 2782, "timesteps_total": 3338400, "policy_reward_mean": {}, "episode_reward_min": -820.6384056507642, "timesteps_since_restore": 3338400, "num_metric_batches_dropped": 0, "time_since_restore": 90550.41155862808, "episode_reward_max": -523.7643940768428, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3338400, "default": {"kl": 0.011172914877533913, "policy_loss": -0.1360260397195816, "vf_loss": 266.4527893066406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9660171866416931, "entropy": 2.9642701148986816, "cur_lr": 4.999999873689376e-05, "total_loss": 266.3337097167969}, "load_time_ms": 0.607, "num_steps_sampled": 3338400, "grad_time_ms": 633.281, "update_time_ms": 2.394, "sample_time_ms": 33768.566}, "date": "2025-08-31_17-20-24", "hostname": "cda-server-4", "time_this_iter_s": 34.387028217315674, "episodes_total": 16692, "timestamp": 1756653624, "node_ip": "10.157.146.4", "done": false, "time_total_s": 90550.41155862808, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2783, "episode_reward_mean": -611.0539624631932, "training_iteration": 2783, "timesteps_total": 3339600, "policy_reward_mean": {}, "episode_reward_min": -820.6384056507642, "timesteps_since_restore": 3339600, "num_metric_batches_dropped": 0, "time_since_restore": 90584.74323678017, "episode_reward_max": -523.7643940768428, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3339600, "default": {"kl": 0.009991724044084549, "policy_loss": -0.1351347118616104, "vf_loss": 112.73704528808594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.983100175857544, "entropy": 3.0605154037475586, "cur_lr": 4.999999873689376e-05, "total_loss": 112.61709594726562}, "load_time_ms": 0.601, "num_steps_sampled": 3339600, "grad_time_ms": 638.958, "update_time_ms": 2.288, "sample_time_ms": 33647.534}, "date": "2025-08-31_17-20-59", "hostname": "cda-server-4", "time_this_iter_s": 34.33167815208435, "episodes_total": 16698, "timestamp": 1756653659, "node_ip": "10.157.146.4", "done": false, "time_total_s": 90584.74323678017, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2784, "episode_reward_mean": -610.3894129306129, "training_iteration": 2784, "timesteps_total": 3340800, "policy_reward_mean": {}, "episode_reward_min": -820.6384056507642, "timesteps_since_restore": 3340800, "num_metric_batches_dropped": 0, "time_since_restore": 90619.57609295845, "episode_reward_max": -523.7643940768428, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3340800, "default": {"kl": 0.010582138784229755, "policy_loss": -0.13394540548324585, "vf_loss": 108.10208892822266, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9838333129882812, "entropy": 3.1060221195220947, "cur_lr": 4.999999873689376e-05, "total_loss": 107.98421478271484}, "load_time_ms": 0.595, "num_steps_sampled": 3340800, "grad_time_ms": 627.079, "update_time_ms": 2.259, "sample_time_ms": 33671.863}, "date": "2025-08-31_17-21-33", "hostname": "cda-server-4", "time_this_iter_s": 34.83285617828369, "episodes_total": 16704, "timestamp": 1756653693, "node_ip": "10.157.146.4", "done": false, "time_total_s": 90619.57609295845, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2785, "episode_reward_mean": -609.2015955973508, "training_iteration": 2785, "timesteps_total": 3342000, "policy_reward_mean": {}, "episode_reward_min": -820.6384056507642, "timesteps_since_restore": 3342000, "num_metric_batches_dropped": 0, "time_since_restore": 90654.16608953476, "episode_reward_max": -523.7643940768428, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3342000, "default": {"kl": 0.011687842197716236, "policy_loss": -0.15159164369106293, "vf_loss": 112.23919677734375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9859368205070496, "entropy": 3.032059669494629, "cur_lr": 4.999999873689376e-05, "total_loss": 112.10535430908203}, "load_time_ms": 0.595, "num_steps_sampled": 3342000, "grad_time_ms": 631.692, "update_time_ms": 2.267, "sample_time_ms": 33763.595}, "date": "2025-08-31_17-22-08", "hostname": "cda-server-4", "time_this_iter_s": 34.589996576309204, "episodes_total": 16710, "timestamp": 1756653728, "node_ip": "10.157.146.4", "done": false, "time_total_s": 90654.16608953476, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2786, "episode_reward_mean": -609.5281879181827, "training_iteration": 2786, "timesteps_total": 3343200, "policy_reward_mean": {}, "episode_reward_min": -820.6384056507642, "timesteps_since_restore": 3343200, "num_metric_batches_dropped": 0, "time_since_restore": 90688.3016102314, "episode_reward_max": -523.7643940768428, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3343200, "default": {"kl": 0.010893851518630981, "policy_loss": -0.12462376058101654, "vf_loss": 136.828125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.983860969543457, "entropy": 3.0644140243530273, "cur_lr": 4.999999873689376e-05, "total_loss": 136.72006225585938}, "load_time_ms": 0.597, "num_steps_sampled": 3343200, "grad_time_ms": 625.931, "update_time_ms": 2.246, "sample_time_ms": 33740.667}, "date": "2025-08-31_17-22-42", "hostname": "cda-server-4", "time_this_iter_s": 34.135520696640015, "episodes_total": 16716, "timestamp": 1756653762, "node_ip": "10.157.146.4", "done": false, "time_total_s": 90688.3016102314, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2787, "episode_reward_mean": -610.2618983751998, "training_iteration": 2787, "timesteps_total": 3344400, "policy_reward_mean": {}, "episode_reward_min": -820.6384056507642, "timesteps_since_restore": 3344400, "num_metric_batches_dropped": 0, "time_since_restore": 90722.8543715477, "episode_reward_max": -523.7643940768428, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3344400, "default": {"kl": 0.010904984548687935, "policy_loss": -0.1402125507593155, "vf_loss": 59.29103469848633, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9905804395675659, "entropy": 3.043761730194092, "cur_lr": 4.999999873689376e-05, "total_loss": 59.16738510131836}, "load_time_ms": 0.596, "num_steps_sampled": 3344400, "grad_time_ms": 613.253, "update_time_ms": 2.306, "sample_time_ms": 33731.543}, "date": "2025-08-31_17-23-17", "hostname": "cda-server-4", "time_this_iter_s": 34.55276131629944, "episodes_total": 16722, "timestamp": 1756653797, "node_ip": "10.157.146.4", "done": false, "time_total_s": 90722.8543715477, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2788, "episode_reward_mean": -609.5597647730079, "training_iteration": 2788, "timesteps_total": 3345600, "policy_reward_mean": {}, "episode_reward_min": -820.6384056507642, "timesteps_since_restore": 3345600, "num_metric_batches_dropped": 0, "time_since_restore": 90757.58287382126, "episode_reward_max": -523.7643940768428, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3345600, "default": {"kl": 0.010023046284914017, "policy_loss": -0.14588305354118347, "vf_loss": 232.479248046875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9775844216346741, "entropy": 3.124223470687866, "cur_lr": 4.999999873689376e-05, "total_loss": 232.34860229492188}, "load_time_ms": 0.591, "num_steps_sampled": 3345600, "grad_time_ms": 618.672, "update_time_ms": 2.296, "sample_time_ms": 33810.168}, "date": "2025-08-31_17-23-51", "hostname": "cda-server-4", "time_this_iter_s": 34.72850227355957, "episodes_total": 16728, "timestamp": 1756653831, "node_ip": "10.157.146.4", "done": false, "time_total_s": 90757.58287382126, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2789, "episode_reward_mean": -610.2676125745402, "training_iteration": 2789, "timesteps_total": 3346800, "policy_reward_mean": {}, "episode_reward_min": -820.6384056507642, "timesteps_since_restore": 3346800, "num_metric_batches_dropped": 0, "time_since_restore": 90792.074198246, "episode_reward_max": -523.7643940768428, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3346800, "default": {"kl": 0.012017196044325829, "policy_loss": -0.1468139886856079, "vf_loss": 29.914804458618164, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9959076642990112, "entropy": 3.017289161682129, "cur_lr": 4.999999873689376e-05, "total_loss": 29.786245346069336}, "load_time_ms": 0.583, "num_steps_sampled": 3346800, "grad_time_ms": 599.047, "update_time_ms": 2.314, "sample_time_ms": 33900.339}, "date": "2025-08-31_17-24-26", "hostname": "cda-server-4", "time_this_iter_s": 34.49132442474365, "episodes_total": 16734, "timestamp": 1756653866, "node_ip": "10.157.146.4", "done": false, "time_total_s": 90792.074198246, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2790, "episode_reward_mean": -609.7380252311174, "training_iteration": 2790, "timesteps_total": 3348000, "policy_reward_mean": {}, "episode_reward_min": -820.6384056507642, "timesteps_since_restore": 3348000, "num_metric_batches_dropped": 0, "time_since_restore": 90825.55210494995, "episode_reward_max": -523.7643940768428, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3348000, "default": {"kl": 0.012396218255162239, "policy_loss": -0.1605832427740097, "vf_loss": 44.25625991821289, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9949871897697449, "entropy": 3.062619686126709, "cur_lr": 4.999999873689376e-05, "total_loss": 44.114501953125}, "load_time_ms": 0.577, "num_steps_sampled": 3348000, "grad_time_ms": 604.91, "update_time_ms": 2.373, "sample_time_ms": 33784.203}, "date": "2025-08-31_17-24-59", "hostname": "cda-server-4", "time_this_iter_s": 33.477906703948975, "episodes_total": 16740, "timestamp": 1756653899, "node_ip": "10.157.146.4", "done": false, "time_total_s": 90825.55210494995, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2791, "episode_reward_mean": -609.1868704385555, "training_iteration": 2791, "timesteps_total": 3349200, "policy_reward_mean": {}, "episode_reward_min": -820.6384056507642, "timesteps_since_restore": 3349200, "num_metric_batches_dropped": 0, "time_since_restore": 90860.54918003082, "episode_reward_max": -517.8198954466465, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3349200, "default": {"kl": 0.009578892029821873, "policy_loss": -0.1382366269826889, "vf_loss": 65.23822021484375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9901329874992371, "entropy": 2.9569685459136963, "cur_lr": 4.999999873689376e-05, "total_loss": 65.11453247070312}, "load_time_ms": 0.586, "num_steps_sampled": 3349200, "grad_time_ms": 616.542, "update_time_ms": 2.361, "sample_time_ms": 33829.203}, "date": "2025-08-31_17-25-35", "hostname": "cda-server-4", "time_this_iter_s": 34.99707508087158, "episodes_total": 16746, "timestamp": 1756653935, "node_ip": "10.157.146.4", "done": false, "time_total_s": 90860.54918003082, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2792, "episode_reward_mean": -609.3157441656984, "training_iteration": 2792, "timesteps_total": 3350400, "policy_reward_mean": {}, "episode_reward_min": -820.6384056507642, "timesteps_since_restore": 3350400, "num_metric_batches_dropped": 0, "time_since_restore": 90895.44361877441, "episode_reward_max": -517.8198954466465, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3350400, "default": {"kl": 0.010482480749487877, "policy_loss": -0.11977551877498627, "vf_loss": 91.91374969482422, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.986169695854187, "entropy": 2.927093744277954, "cur_lr": 4.999999873689376e-05, "total_loss": 91.80989837646484}, "load_time_ms": 0.588, "num_steps_sampled": 3350400, "grad_time_ms": 624.39, "update_time_ms": 2.348, "sample_time_ms": 33872.156}, "date": "2025-08-31_17-26-09", "hostname": "cda-server-4", "time_this_iter_s": 34.89443874359131, "episodes_total": 16752, "timestamp": 1756653969, "node_ip": "10.157.146.4", "done": false, "time_total_s": 90895.44361877441, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2793, "episode_reward_mean": -607.9118226085019, "training_iteration": 2793, "timesteps_total": 3351600, "policy_reward_mean": {}, "episode_reward_min": -820.6384056507642, "timesteps_since_restore": 3351600, "num_metric_batches_dropped": 0, "time_since_restore": 90930.59518551826, "episode_reward_max": -490.36127337376854, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3351600, "default": {"kl": 0.00980610866099596, "policy_loss": -0.13167805969715118, "vf_loss": 287.6963806152344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.960805356502533, "entropy": 3.0401556491851807, "cur_lr": 4.999999873689376e-05, "total_loss": 287.57958984375}, "load_time_ms": 0.591, "num_steps_sampled": 3351600, "grad_time_ms": 631.39, "update_time_ms": 2.319, "sample_time_ms": 33947.139}, "date": "2025-08-31_17-26-45", "hostname": "cda-server-4", "time_this_iter_s": 35.15156674385071, "episodes_total": 16758, "timestamp": 1756654005, "node_ip": "10.157.146.4", "done": false, "time_total_s": 90930.59518551826, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2794, "episode_reward_mean": -608.3475948261603, "training_iteration": 2794, "timesteps_total": 3352800, "policy_reward_mean": {}, "episode_reward_min": -820.6384056507642, "timesteps_since_restore": 3352800, "num_metric_batches_dropped": 0, "time_since_restore": 90965.10634160042, "episode_reward_max": -490.36127337376854, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3352800, "default": {"kl": 0.010804448276758194, "policy_loss": -0.14329487085342407, "vf_loss": 140.08055114746094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9810224175453186, "entropy": 3.075833320617676, "cur_lr": 4.999999873689376e-05, "total_loss": 139.9536895751953}, "load_time_ms": 0.628, "num_steps_sampled": 3352800, "grad_time_ms": 637.082, "update_time_ms": 2.395, "sample_time_ms": 33909.131}, "date": "2025-08-31_17-27-19", "hostname": "cda-server-4", "time_this_iter_s": 34.51115608215332, "episodes_total": 16764, "timestamp": 1756654039, "node_ip": "10.157.146.4", "done": false, "time_total_s": 90965.10634160042, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2795, "episode_reward_mean": -608.5836717481927, "training_iteration": 2795, "timesteps_total": 3354000, "policy_reward_mean": {}, "episode_reward_min": -820.6384056507642, "timesteps_since_restore": 3354000, "num_metric_batches_dropped": 0, "time_since_restore": 90999.13944649696, "episode_reward_max": -490.36127337376854, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3354000, "default": {"kl": 0.010396427474915981, "policy_loss": -0.14359678328037262, "vf_loss": 21.03569793701172, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9969882965087891, "entropy": 3.0465073585510254, "cur_lr": 4.999999873689376e-05, "total_loss": 20.90789222717285}, "load_time_ms": 0.623, "num_steps_sampled": 3354000, "grad_time_ms": 622.036, "update_time_ms": 2.39, "sample_time_ms": 33868.486}, "date": "2025-08-31_17-27-53", "hostname": "cda-server-4", "time_this_iter_s": 34.03310489654541, "episodes_total": 16770, "timestamp": 1756654073, "node_ip": "10.157.146.4", "done": false, "time_total_s": 90999.13944649696, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2796, "episode_reward_mean": -606.3034213401297, "training_iteration": 2796, "timesteps_total": 3355200, "policy_reward_mean": {}, "episode_reward_min": -643.1561240390838, "timesteps_since_restore": 3355200, "num_metric_batches_dropped": 0, "time_since_restore": 91033.68191862106, "episode_reward_max": -490.36127337376854, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3355200, "default": {"kl": 0.010796125046908855, "policy_loss": -0.1314651221036911, "vf_loss": 121.16631317138672, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9850414991378784, "entropy": 3.054215908050537, "cur_lr": 4.999999873689376e-05, "total_loss": 121.05125427246094}, "load_time_ms": 0.636, "num_steps_sampled": 3355200, "grad_time_ms": 623.518, "update_time_ms": 2.451, "sample_time_ms": 33907.5}, "date": "2025-08-31_17-28-28", "hostname": "cda-server-4", "time_this_iter_s": 34.54247212409973, "episodes_total": 16776, "timestamp": 1756654108, "node_ip": "10.157.146.4", "done": false, "time_total_s": 91033.68191862106, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2797, "episode_reward_mean": -605.2106705830732, "training_iteration": 2797, "timesteps_total": 3356400, "policy_reward_mean": {}, "episode_reward_min": -643.1561240390838, "timesteps_since_restore": 3356400, "num_metric_batches_dropped": 0, "time_since_restore": 91067.29566574097, "episode_reward_max": -490.36127337376854, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3356400, "default": {"kl": 0.01094674039632082, "policy_loss": -0.1624498814344406, "vf_loss": 194.09429931640625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.97757887840271, "entropy": 3.004387855529785, "cur_lr": 4.999999873689376e-05, "total_loss": 193.94847106933594}, "load_time_ms": 0.632, "num_steps_sampled": 3356400, "grad_time_ms": 624.992, "update_time_ms": 2.428, "sample_time_ms": 33812.115}, "date": "2025-08-31_17-29-01", "hostname": "cda-server-4", "time_this_iter_s": 33.613747119903564, "episodes_total": 16782, "timestamp": 1756654141, "node_ip": "10.157.146.4", "done": false, "time_total_s": 91067.29566574097, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2798, "episode_reward_mean": -604.8804965065282, "training_iteration": 2798, "timesteps_total": 3357600, "policy_reward_mean": {}, "episode_reward_min": -643.1561240390838, "timesteps_since_restore": 3357600, "num_metric_batches_dropped": 0, "time_since_restore": 91102.61662554741, "episode_reward_max": -490.36127337376854, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3357600, "default": {"kl": 0.011170146986842155, "policy_loss": -0.1523875892162323, "vf_loss": 74.55635070800781, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9911221265792847, "entropy": 3.1199262142181396, "cur_lr": 4.999999873689376e-05, "total_loss": 74.42092895507812}, "load_time_ms": 0.635, "num_steps_sampled": 3357600, "grad_time_ms": 623.97, "update_time_ms": 2.479, "sample_time_ms": 33872.335}, "date": "2025-08-31_17-29-37", "hostname": "cda-server-4", "time_this_iter_s": 35.32095980644226, "episodes_total": 16788, "timestamp": 1756654177, "node_ip": "10.157.146.4", "done": false, "time_total_s": 91102.61662554741, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2799, "episode_reward_mean": -605.8317101166513, "training_iteration": 2799, "timesteps_total": 3358800, "policy_reward_mean": {}, "episode_reward_min": -643.1561240390838, "timesteps_since_restore": 3358800, "num_metric_batches_dropped": 0, "time_since_restore": 91137.57993555069, "episode_reward_max": -490.36127337376854, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3358800, "default": {"kl": 0.00968827772885561, "policy_loss": -0.12669934332370758, "vf_loss": 166.45291137695312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.978076696395874, "entropy": 3.0536980628967285, "cur_lr": 4.999999873689376e-05, "total_loss": 166.34091186523438}, "load_time_ms": 0.642, "num_steps_sampled": 3358800, "grad_time_ms": 643.992, "update_time_ms": 2.448, "sample_time_ms": 33899.419}, "date": "2025-08-31_17-30-12", "hostname": "cda-server-4", "time_this_iter_s": 34.96331000328064, "episodes_total": 16794, "timestamp": 1756654212, "node_ip": "10.157.146.4", "done": false, "time_total_s": 91137.57993555069, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2800, "episode_reward_mean": -605.9500266672176, "training_iteration": 2800, "timesteps_total": 3360000, "policy_reward_mean": {}, "episode_reward_min": -643.1561240390838, "timesteps_since_restore": 3360000, "num_metric_batches_dropped": 0, "time_since_restore": 91171.82462501526, "episode_reward_max": -490.36127337376854, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3360000, "default": {"kl": 0.009704462252557278, "policy_loss": -0.12230271846055984, "vf_loss": 223.57003784179688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9711674451828003, "entropy": 3.025968313217163, "cur_lr": 4.999999873689376e-05, "total_loss": 223.46246337890625}, "load_time_ms": 0.659, "num_steps_sampled": 3360000, "grad_time_ms": 655.696, "update_time_ms": 2.485, "sample_time_ms": 33964.287}, "date": "2025-08-31_17-30-46", "hostname": "cda-server-4", "time_this_iter_s": 34.24468946456909, "episodes_total": 16800, "timestamp": 1756654246, "node_ip": "10.157.146.4", "done": false, "time_total_s": 91171.82462501526, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2801, "episode_reward_mean": -607.8337577390542, "training_iteration": 2801, "timesteps_total": 3361200, "policy_reward_mean": {}, "episode_reward_min": -643.1561240390838, "timesteps_since_restore": 3361200, "num_metric_batches_dropped": 0, "time_since_restore": 91206.23661661148, "episode_reward_max": -490.36127337376854, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3361200, "default": {"kl": 0.010790416970849037, "policy_loss": -0.14337903261184692, "vf_loss": 187.4340362548828, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9760334491729736, "entropy": 3.0891664028167725, "cur_lr": 4.999999873689376e-05, "total_loss": 187.3070526123047}, "load_time_ms": 0.658, "num_steps_sampled": 3361200, "grad_time_ms": 663.51, "update_time_ms": 2.497, "sample_time_ms": 33897.988}, "date": "2025-08-31_17-31-20", "hostname": "cda-server-4", "time_this_iter_s": 34.411991596221924, "episodes_total": 16806, "timestamp": 1756654280, "node_ip": "10.157.146.4", "done": false, "time_total_s": 91206.23661661148, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2802, "episode_reward_mean": -608.1471995840518, "training_iteration": 2802, "timesteps_total": 3362400, "policy_reward_mean": {}, "episode_reward_min": -643.1561240390838, "timesteps_since_restore": 3362400, "num_metric_batches_dropped": 0, "time_since_restore": 91240.40715551376, "episode_reward_max": -490.36127337376854, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3362400, "default": {"kl": 0.009647821076214314, "policy_loss": -0.12988807260990143, "vf_loss": 313.6745300292969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.963782012462616, "entropy": 3.039431571960449, "cur_lr": 4.999999873689376e-05, "total_loss": 313.5592956542969}, "load_time_ms": 0.684, "num_steps_sampled": 3362400, "grad_time_ms": 657.314, "update_time_ms": 2.48, "sample_time_ms": 33831.735}, "date": "2025-08-31_17-31-55", "hostname": "cda-server-4", "time_this_iter_s": 34.170538902282715, "episodes_total": 16812, "timestamp": 1756654315, "node_ip": "10.157.146.4", "done": false, "time_total_s": 91240.40715551376, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2803, "episode_reward_mean": -607.2744815957026, "training_iteration": 2803, "timesteps_total": 3363600, "policy_reward_mean": {}, "episode_reward_min": -643.1561240390838, "timesteps_since_restore": 3363600, "num_metric_batches_dropped": 0, "time_since_restore": 91274.87135529518, "episode_reward_max": -490.36127337376854, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3363600, "default": {"kl": 0.009496782906353474, "policy_loss": -0.13557499647140503, "vf_loss": 57.72511672973633, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9908301830291748, "entropy": 2.913186550140381, "cur_lr": 4.999999873689376e-05, "total_loss": 57.60396957397461}, "load_time_ms": 0.71, "num_steps_sampled": 3363600, "grad_time_ms": 654.401, "update_time_ms": 2.479, "sample_time_ms": 33765.951}, "date": "2025-08-31_17-32-29", "hostname": "cda-server-4", "time_this_iter_s": 34.46419978141785, "episodes_total": 16818, "timestamp": 1756654349, "node_ip": "10.157.146.4", "done": false, "time_total_s": 91274.87135529518, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2804, "episode_reward_mean": -605.5233860118906, "training_iteration": 2804, "timesteps_total": 3364800, "policy_reward_mean": {}, "episode_reward_min": -643.1561240390838, "timesteps_since_restore": 3364800, "num_metric_batches_dropped": 0, "time_since_restore": 91308.22520065308, "episode_reward_max": -464.0198797861875, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3364800, "default": {"kl": 0.014958792366087437, "policy_loss": -0.16716742515563965, "vf_loss": 94.13502502441406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.994533121585846, "entropy": 3.074688673019409, "cur_lr": 4.999999873689376e-05, "total_loss": 93.9905776977539}, "load_time_ms": 0.676, "num_steps_sampled": 3364800, "grad_time_ms": 633.864, "update_time_ms": 2.396, "sample_time_ms": 33670.922}, "date": "2025-08-31_17-33-02", "hostname": "cda-server-4", "time_this_iter_s": 33.3538453578949, "episodes_total": 16824, "timestamp": 1756654382, "node_ip": "10.157.146.4", "done": false, "time_total_s": 91308.22520065308, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2805, "episode_reward_mean": -605.1512771273134, "training_iteration": 2805, "timesteps_total": 3366000, "policy_reward_mean": {}, "episode_reward_min": -643.1561240390838, "timesteps_since_restore": 3366000, "num_metric_batches_dropped": 0, "time_since_restore": 91343.11687397957, "episode_reward_max": -464.0198797861875, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3366000, "default": {"kl": 0.012786921113729477, "policy_loss": -0.14695172011852264, "vf_loss": 293.2203063964844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9761223196983337, "entropy": 3.064746379852295, "cur_lr": 4.999999873689376e-05, "total_loss": 293.0927734375}, "load_time_ms": 0.676, "num_steps_sampled": 3366000, "grad_time_ms": 639.642, "update_time_ms": 2.338, "sample_time_ms": 33751.097}, "date": "2025-08-31_17-33-37", "hostname": "cda-server-4", "time_this_iter_s": 34.89167332649231, "episodes_total": 16830, "timestamp": 1756654417, "node_ip": "10.157.146.4", "done": false, "time_total_s": 91343.11687397957, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2806, "episode_reward_mean": -604.1890435359177, "training_iteration": 2806, "timesteps_total": 3367200, "policy_reward_mean": {}, "episode_reward_min": -643.1561240390838, "timesteps_since_restore": 3367200, "num_metric_batches_dropped": 0, "time_since_restore": 91377.63640117645, "episode_reward_max": -448.9591059009268, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3367200, "default": {"kl": 0.012352876365184784, "policy_loss": -0.15941394865512848, "vf_loss": 85.0291748046875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9884687066078186, "entropy": 3.0505287647247314, "cur_lr": 4.999999873689376e-05, "total_loss": 84.88851928710938}, "load_time_ms": 0.689, "num_steps_sampled": 3367200, "grad_time_ms": 626.181, "update_time_ms": 2.309, "sample_time_ms": 33762.387}, "date": "2025-08-31_17-34-12", "hostname": "cda-server-4", "time_this_iter_s": 34.519527196884155, "episodes_total": 16836, "timestamp": 1756654452, "node_ip": "10.157.146.4", "done": false, "time_total_s": 91377.63640117645, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2807, "episode_reward_mean": -603.6719160452901, "training_iteration": 2807, "timesteps_total": 3368400, "policy_reward_mean": {}, "episode_reward_min": -640.1099186596153, "timesteps_since_restore": 3368400, "num_metric_batches_dropped": 0, "time_since_restore": 91412.00096178055, "episode_reward_max": -448.9591059009268, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3368400, "default": {"kl": 0.009354179725050926, "policy_loss": -0.12106646597385406, "vf_loss": 73.38716888427734, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9887264966964722, "entropy": 3.058441400527954, "cur_lr": 4.999999873689376e-05, "total_loss": 73.28031158447266}, "load_time_ms": 0.704, "num_steps_sampled": 3368400, "grad_time_ms": 630.384, "update_time_ms": 2.268, "sample_time_ms": 33833.25}, "date": "2025-08-31_17-34-46", "hostname": "cda-server-4", "time_this_iter_s": 34.36456060409546, "episodes_total": 16842, "timestamp": 1756654486, "node_ip": "10.157.146.4", "done": false, "time_total_s": 91412.00096178055, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2808, "episode_reward_mean": -604.2931106581708, "training_iteration": 2808, "timesteps_total": 3369600, "policy_reward_mean": {}, "episode_reward_min": -668.5402796583767, "timesteps_since_restore": 3369600, "num_metric_batches_dropped": 0, "time_since_restore": 91446.45067572594, "episode_reward_max": -448.9591059009268, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3369600, "default": {"kl": 0.013407886028289795, "policy_loss": -0.17140845954418182, "vf_loss": 392.7027893066406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9797690510749817, "entropy": 3.1791532039642334, "cur_lr": 4.999999873689376e-05, "total_loss": 392.5517272949219}, "load_time_ms": 0.705, "num_steps_sampled": 3369600, "grad_time_ms": 647.633, "update_time_ms": 2.244, "sample_time_ms": 33728.865}, "date": "2025-08-31_17-35-21", "hostname": "cda-server-4", "time_this_iter_s": 34.449713945388794, "episodes_total": 16848, "timestamp": 1756654521, "node_ip": "10.157.146.4", "done": false, "time_total_s": 91446.45067572594, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2809, "episode_reward_mean": -603.1323027035426, "training_iteration": 2809, "timesteps_total": 3370800, "policy_reward_mean": {}, "episode_reward_min": -668.5402796583767, "timesteps_since_restore": 3370800, "num_metric_batches_dropped": 0, "time_since_restore": 91481.50559282303, "episode_reward_max": -448.9591059009268, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3370800, "default": {"kl": 0.012880724854767323, "policy_loss": -0.15125828981399536, "vf_loss": 91.69562530517578, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9927809834480286, "entropy": 3.0195486545562744, "cur_lr": 4.999999873689376e-05, "total_loss": 91.56393432617188}, "load_time_ms": 0.708, "num_steps_sampled": 3370800, "grad_time_ms": 647.726, "update_time_ms": 2.256, "sample_time_ms": 33738.018}, "date": "2025-08-31_17-35-56", "hostname": "cda-server-4", "time_this_iter_s": 35.054917097091675, "episodes_total": 16854, "timestamp": 1756654556, "node_ip": "10.157.146.4", "done": false, "time_total_s": 91481.50559282303, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2810, "episode_reward_mean": -605.00898057484, "training_iteration": 2810, "timesteps_total": 3372000, "policy_reward_mean": {}, "episode_reward_min": -668.5402796583767, "timesteps_since_restore": 3372000, "num_metric_batches_dropped": 0, "time_since_restore": 91516.58099293709, "episode_reward_max": -448.9591059009268, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3372000, "default": {"kl": 0.010984484106302261, "policy_loss": -0.1514873206615448, "vf_loss": 108.9475326538086, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9867541193962097, "entropy": 3.091926097869873, "cur_lr": 4.999999873689376e-05, "total_loss": 108.81272888183594}, "load_time_ms": 0.691, "num_steps_sampled": 3372000, "grad_time_ms": 645.707, "update_time_ms": 2.22, "sample_time_ms": 33823.234}, "date": "2025-08-31_17-36-31", "hostname": "cda-server-4", "time_this_iter_s": 35.07540011405945, "episodes_total": 16860, "timestamp": 1756654591, "node_ip": "10.157.146.4", "done": false, "time_total_s": 91516.58099293709, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2811, "episode_reward_mean": -604.9766943232266, "training_iteration": 2811, "timesteps_total": 3373200, "policy_reward_mean": {}, "episode_reward_min": -668.5402796583767, "timesteps_since_restore": 3373200, "num_metric_batches_dropped": 0, "time_since_restore": 91549.9859611988, "episode_reward_max": -448.9591059009268, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3373200, "default": {"kl": 0.011899925768375397, "policy_loss": -0.14873161911964417, "vf_loss": 170.01513671875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9802271723747253, "entropy": 3.3187828063964844, "cur_lr": 4.999999873689376e-05, "total_loss": 169.88449096679688}, "load_time_ms": 0.697, "num_steps_sampled": 3373200, "grad_time_ms": 634.221, "update_time_ms": 2.241, "sample_time_ms": 33733.944}, "date": "2025-08-31_17-37-04", "hostname": "cda-server-4", "time_this_iter_s": 33.40496826171875, "episodes_total": 16866, "timestamp": 1756654624, "node_ip": "10.157.146.4", "done": false, "time_total_s": 91549.9859611988, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2812, "episode_reward_mean": -604.7491138076566, "training_iteration": 2812, "timesteps_total": 3374400, "policy_reward_mean": {}, "episode_reward_min": -668.5402796583767, "timesteps_since_restore": 3374400, "num_metric_batches_dropped": 0, "time_since_restore": 91584.61601018906, "episode_reward_max": -448.9591059009268, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3374400, "default": {"kl": 0.011537115089595318, "policy_loss": -0.14763639867305756, "vf_loss": 48.82544708251953, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9927985072135925, "entropy": 3.1322386264801025, "cur_lr": 4.999999873689376e-05, "total_loss": 48.69532775878906}, "load_time_ms": 0.663, "num_steps_sampled": 3374400, "grad_time_ms": 629.041, "update_time_ms": 2.412, "sample_time_ms": 33784.968}, "date": "2025-08-31_17-37-39", "hostname": "cda-server-4", "time_this_iter_s": 34.630048990249634, "episodes_total": 16872, "timestamp": 1756654659, "node_ip": "10.157.146.4", "done": false, "time_total_s": 91584.61601018906, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2813, "episode_reward_mean": -607.4804299655899, "training_iteration": 2813, "timesteps_total": 3375600, "policy_reward_mean": {}, "episode_reward_min": -668.5402796583767, "timesteps_since_restore": 3375600, "num_metric_batches_dropped": 0, "time_since_restore": 91618.99729037285, "episode_reward_max": -448.9591059009268, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3375600, "default": {"kl": 0.0130074517801404, "policy_loss": -0.1641198992729187, "vf_loss": 269.2648620605469, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9846785068511963, "entropy": 3.3187341690063477, "cur_lr": 4.999999873689376e-05, "total_loss": 269.1205139160156}, "load_time_ms": 0.631, "num_steps_sampled": 3375600, "grad_time_ms": 618.414, "update_time_ms": 2.435, "sample_time_ms": 33787.267}, "date": "2025-08-31_17-38-13", "hostname": "cda-server-4", "time_this_iter_s": 34.381280183792114, "episodes_total": 16878, "timestamp": 1756654693, "node_ip": "10.157.146.4", "done": false, "time_total_s": 91618.99729037285, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2814, "episode_reward_mean": -606.7522787797197, "training_iteration": 2814, "timesteps_total": 3376800, "policy_reward_mean": {}, "episode_reward_min": -668.5402796583767, "timesteps_since_restore": 3376800, "num_metric_batches_dropped": 0, "time_since_restore": 91653.94150829315, "episode_reward_max": -448.9591059009268, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3376800, "default": {"kl": 0.011320984922349453, "policy_loss": -0.14014947414398193, "vf_loss": 71.52092742919922, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9903546571731567, "entropy": 3.2672557830810547, "cur_lr": 4.999999873689376e-05, "total_loss": 71.39797973632812}, "load_time_ms": 0.633, "num_steps_sampled": 3376800, "grad_time_ms": 637.724, "update_time_ms": 2.437, "sample_time_ms": 33926.933}, "date": "2025-08-31_17-38-48", "hostname": "cda-server-4", "time_this_iter_s": 34.944217920303345, "episodes_total": 16884, "timestamp": 1756654728, "node_ip": "10.157.146.4", "done": false, "time_total_s": 91653.94150829315, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2815, "episode_reward_mean": -607.4411416844034, "training_iteration": 2815, "timesteps_total": 3378000, "policy_reward_mean": {}, "episode_reward_min": -668.5402796583767, "timesteps_since_restore": 3378000, "num_metric_batches_dropped": 0, "time_since_restore": 91688.00645041466, "episode_reward_max": -448.9591059009268, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3378000, "default": {"kl": 0.013654518872499466, "policy_loss": -0.1664516180753708, "vf_loss": 238.35333251953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9798469543457031, "entropy": 3.0342776775360107, "cur_lr": 4.999999873689376e-05, "total_loss": 238.2075958251953}, "load_time_ms": 0.636, "num_steps_sampled": 3378000, "grad_time_ms": 657.228, "update_time_ms": 2.445, "sample_time_ms": 33824.586}, "date": "2025-08-31_17-39-22", "hostname": "cda-server-4", "time_this_iter_s": 34.06494212150574, "episodes_total": 16890, "timestamp": 1756654762, "node_ip": "10.157.146.4", "done": false, "time_total_s": 91688.00645041466, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2816, "episode_reward_mean": -606.7023596238366, "training_iteration": 2816, "timesteps_total": 3379200, "policy_reward_mean": {}, "episode_reward_min": -668.5402796583767, "timesteps_since_restore": 3379200, "num_metric_batches_dropped": 0, "time_since_restore": 91723.46974754333, "episode_reward_max": -448.9591059009268, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3379200, "default": {"kl": 0.012834949418902397, "policy_loss": -0.14430779218673706, "vf_loss": 90.68180847167969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9893116354942322, "entropy": 3.0084965229034424, "cur_lr": 4.999999873689376e-05, "total_loss": 90.5570068359375}, "load_time_ms": 0.61, "num_steps_sampled": 3379200, "grad_time_ms": 677.375, "update_time_ms": 2.556, "sample_time_ms": 33898.789}, "date": "2025-08-31_17-39-58", "hostname": "cda-server-4", "time_this_iter_s": 35.46329712867737, "episodes_total": 16896, "timestamp": 1756654798, "node_ip": "10.157.146.4", "done": false, "time_total_s": 91723.46974754333, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2817, "episode_reward_mean": -606.7930897227287, "training_iteration": 2817, "timesteps_total": 3380400, "policy_reward_mean": {}, "episode_reward_min": -668.5402796583767, "timesteps_since_restore": 3380400, "num_metric_batches_dropped": 0, "time_since_restore": 91758.45260214806, "episode_reward_max": -448.9591059009268, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3380400, "default": {"kl": 0.009380249306559563, "policy_loss": -0.11762038618326187, "vf_loss": 54.631771087646484, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9916293621063232, "entropy": 3.0380122661590576, "cur_lr": 4.999999873689376e-05, "total_loss": 54.52839660644531}, "load_time_ms": 0.601, "num_steps_sampled": 3380400, "grad_time_ms": 685.5, "update_time_ms": 2.573, "sample_time_ms": 33952.533}, "date": "2025-08-31_17-40-33", "hostname": "cda-server-4", "time_this_iter_s": 34.98285460472107, "episodes_total": 16902, "timestamp": 1756654833, "node_ip": "10.157.146.4", "done": false, "time_total_s": 91758.45260214806, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2818, "episode_reward_mean": -606.4691614773875, "training_iteration": 2818, "timesteps_total": 3381600, "policy_reward_mean": {}, "episode_reward_min": -668.5402796583767, "timesteps_since_restore": 3381600, "num_metric_batches_dropped": 0, "time_since_restore": 91792.48054099083, "episode_reward_max": -448.9591059009268, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3381600, "default": {"kl": 0.008975590579211712, "policy_loss": -0.12109461426734924, "vf_loss": 93.30521392822266, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9863593578338623, "entropy": 3.048999786376953, "cur_lr": 4.999999873689376e-05, "total_loss": 93.19773864746094}, "load_time_ms": 0.622, "num_steps_sampled": 3381600, "grad_time_ms": 684.917, "update_time_ms": 2.505, "sample_time_ms": 33911.029}, "date": "2025-08-31_17-41-07", "hostname": "cda-server-4", "time_this_iter_s": 34.02793884277344, "episodes_total": 16908, "timestamp": 1756654867, "node_ip": "10.157.146.4", "done": false, "time_total_s": 91792.48054099083, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2819, "episode_reward_mean": -605.2160576543978, "training_iteration": 2819, "timesteps_total": 3382800, "policy_reward_mean": {}, "episode_reward_min": -668.5402796583767, "timesteps_since_restore": 3382800, "num_metric_batches_dropped": 0, "time_since_restore": 91827.36083865166, "episode_reward_max": -448.9591059009268, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3382800, "default": {"kl": 0.013068069703876972, "policy_loss": -0.15766407549381256, "vf_loss": 265.0350646972656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9648244380950928, "entropy": 2.997175693511963, "cur_lr": 4.999999873689376e-05, "total_loss": 264.89727783203125}, "load_time_ms": 0.635, "num_steps_sampled": 3382800, "grad_time_ms": 686.747, "update_time_ms": 2.445, "sample_time_ms": 33891.724}, "date": "2025-08-31_17-41-42", "hostname": "cda-server-4", "time_this_iter_s": 34.88029766082764, "episodes_total": 16914, "timestamp": 1756654902, "node_ip": "10.157.146.4", "done": false, "time_total_s": 91827.36083865166, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2820, "episode_reward_mean": -605.4000003353899, "training_iteration": 2820, "timesteps_total": 3384000, "policy_reward_mean": {}, "episode_reward_min": -668.5402796583767, "timesteps_since_restore": 3384000, "num_metric_batches_dropped": 0, "time_since_restore": 91863.13258814812, "episode_reward_max": -448.9591059009268, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3384000, "default": {"kl": 0.01090363971889019, "policy_loss": -0.1396758258342743, "vf_loss": 241.01866149902344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.973240315914154, "entropy": 3.0384910106658936, "cur_lr": 4.999999873689376e-05, "total_loss": 240.89553833007812}, "load_time_ms": 0.646, "num_steps_sampled": 3384000, "grad_time_ms": 688.615, "update_time_ms": 2.423, "sample_time_ms": 33959.543}, "date": "2025-08-31_17-42-18", "hostname": "cda-server-4", "time_this_iter_s": 35.77174949645996, "episodes_total": 16920, "timestamp": 1756654938, "node_ip": "10.157.146.4", "done": false, "time_total_s": 91863.13258814812, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2821, "episode_reward_mean": -607.5622460463808, "training_iteration": 2821, "timesteps_total": 3385200, "policy_reward_mean": {}, "episode_reward_min": -668.5402796583767, "timesteps_since_restore": 3385200, "num_metric_batches_dropped": 0, "time_since_restore": 91897.84172177315, "episode_reward_max": -448.9591059009268, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3385200, "default": {"kl": 0.011196142993867397, "policy_loss": -0.15542076528072357, "vf_loss": 35.23411178588867, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9943861365318298, "entropy": 3.219153642654419, "cur_lr": 4.999999873689376e-05, "total_loss": 35.09569549560547}, "load_time_ms": 0.639, "num_steps_sampled": 3385200, "grad_time_ms": 694.482, "update_time_ms": 2.417, "sample_time_ms": 34084.085}, "date": "2025-08-31_17-42-52", "hostname": "cda-server-4", "time_this_iter_s": 34.70913362503052, "episodes_total": 16926, "timestamp": 1756654972, "node_ip": "10.157.146.4", "done": false, "time_total_s": 91897.84172177315, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2822, "episode_reward_mean": -609.5610336919258, "training_iteration": 2822, "timesteps_total": 3386400, "policy_reward_mean": {}, "episode_reward_min": -668.5402796583767, "timesteps_since_restore": 3386400, "num_metric_batches_dropped": 0, "time_since_restore": 91931.90632414818, "episode_reward_max": -473.05313748100735, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3386400, "default": {"kl": 0.0077683161944150925, "policy_loss": -0.11177036166191101, "vf_loss": 243.79156494140625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9778635501861572, "entropy": 3.030424118041992, "cur_lr": 4.999999873689376e-05, "total_loss": 243.69158935546875}, "load_time_ms": 0.642, "num_steps_sampled": 3386400, "grad_time_ms": 713.633, "update_time_ms": 2.393, "sample_time_ms": 34008.378}, "date": "2025-08-31_17-43-26", "hostname": "cda-server-4", "time_this_iter_s": 34.06460237503052, "episodes_total": 16932, "timestamp": 1756655006, "node_ip": "10.157.146.4", "done": false, "time_total_s": 91931.90632414818, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2823, "episode_reward_mean": -609.7010382378585, "training_iteration": 2823, "timesteps_total": 3387600, "policy_reward_mean": {}, "episode_reward_min": -668.5402796583767, "timesteps_since_restore": 3387600, "num_metric_batches_dropped": 0, "time_since_restore": 91966.59047555923, "episode_reward_max": -473.05313748100735, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3387600, "default": {"kl": 0.01148967444896698, "policy_loss": -0.15184232592582703, "vf_loss": 162.4016876220703, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9858481884002686, "entropy": 3.0478038787841797, "cur_lr": 4.999999873689376e-05, "total_loss": 162.26731872558594}, "load_time_ms": 0.667, "num_steps_sampled": 3387600, "grad_time_ms": 734.578, "update_time_ms": 2.427, "sample_time_ms": 34017.67}, "date": "2025-08-31_17-44-01", "hostname": "cda-server-4", "time_this_iter_s": 34.68415141105652, "episodes_total": 16938, "timestamp": 1756655041, "node_ip": "10.157.146.4", "done": false, "time_total_s": 91966.59047555923, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2824, "episode_reward_mean": -610.380503891052, "training_iteration": 2824, "timesteps_total": 3388800, "policy_reward_mean": {}, "episode_reward_min": -668.5402796583767, "timesteps_since_restore": 3388800, "num_metric_batches_dropped": 0, "time_since_restore": 92001.35782337189, "episode_reward_max": -473.05313748100735, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3388800, "default": {"kl": 0.008433372713625431, "policy_loss": -0.1288536936044693, "vf_loss": 217.7254180908203, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9723767042160034, "entropy": 3.036118507385254, "cur_lr": 4.999999873689376e-05, "total_loss": 217.609375}, "load_time_ms": 0.663, "num_steps_sampled": 3388800, "grad_time_ms": 746.829, "update_time_ms": 2.417, "sample_time_ms": 33987.637}, "date": "2025-08-31_17-44-36", "hostname": "cda-server-4", "time_this_iter_s": 34.76734781265259, "episodes_total": 16944, "timestamp": 1756655076, "node_ip": "10.157.146.4", "done": false, "time_total_s": 92001.35782337189, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2825, "episode_reward_mean": -610.5352124766716, "training_iteration": 2825, "timesteps_total": 3390000, "policy_reward_mean": {}, "episode_reward_min": -645.9890004239546, "timesteps_since_restore": 3390000, "num_metric_batches_dropped": 0, "time_since_restore": 92035.26351642609, "episode_reward_max": -473.05313748100735, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3390000, "default": {"kl": 0.010628025978803635, "policy_loss": -0.13723134994506836, "vf_loss": 133.66143798828125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9907723665237427, "entropy": 3.076615571975708, "cur_lr": 4.999999873689376e-05, "total_loss": 133.54034423828125}, "load_time_ms": 0.662, "num_steps_sampled": 3390000, "grad_time_ms": 743.88, "update_time_ms": 2.42, "sample_time_ms": 33974.791}, "date": "2025-08-31_17-45-10", "hostname": "cda-server-4", "time_this_iter_s": 33.90569305419922, "episodes_total": 16950, "timestamp": 1756655110, "node_ip": "10.157.146.4", "done": false, "time_total_s": 92035.26351642609, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2826, "episode_reward_mean": -611.4488665403544, "training_iteration": 2826, "timesteps_total": 3391200, "policy_reward_mean": {}, "episode_reward_min": -645.9890004239546, "timesteps_since_restore": 3391200, "num_metric_batches_dropped": 0, "time_since_restore": 92069.68694972992, "episode_reward_max": -522.0503088140603, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3391200, "default": {"kl": 0.01134728267788887, "policy_loss": -0.1516641229391098, "vf_loss": 55.54039001464844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9925770163536072, "entropy": 3.0745320320129395, "cur_lr": 4.999999873689376e-05, "total_loss": 55.40596008300781}, "load_time_ms": 0.658, "num_steps_sampled": 3391200, "grad_time_ms": 720.889, "update_time_ms": 2.291, "sample_time_ms": 33893.823}, "date": "2025-08-31_17-45-44", "hostname": "cda-server-4", "time_this_iter_s": 34.42343330383301, "episodes_total": 16956, "timestamp": 1756655144, "node_ip": "10.157.146.4", "done": false, "time_total_s": 92069.68694972992, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2827, "episode_reward_mean": -610.6588926186639, "training_iteration": 2827, "timesteps_total": 3392400, "policy_reward_mean": {}, "episode_reward_min": -645.9890004239546, "timesteps_since_restore": 3392400, "num_metric_batches_dropped": 0, "time_since_restore": 92104.04435443878, "episode_reward_max": -522.0503088140603, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3392400, "default": {"kl": 0.009689238853752613, "policy_loss": -0.12259076535701752, "vf_loss": 204.48806762695312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9790909886360168, "entropy": 2.967925548553467, "cur_lr": 4.999999873689376e-05, "total_loss": 204.38018798828125}, "load_time_ms": 0.662, "num_steps_sampled": 3392400, "grad_time_ms": 709.83, "update_time_ms": 2.326, "sample_time_ms": 33842.307}, "date": "2025-08-31_17-46-19", "hostname": "cda-server-4", "time_this_iter_s": 34.357404708862305, "episodes_total": 16962, "timestamp": 1756655179, "node_ip": "10.157.146.4", "done": false, "time_total_s": 92104.04435443878, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2828, "episode_reward_mean": -610.3749424138281, "training_iteration": 2828, "timesteps_total": 3393600, "policy_reward_mean": {}, "episode_reward_min": -645.7925556540165, "timesteps_since_restore": 3393600, "num_metric_batches_dropped": 0, "time_since_restore": 92139.1875064373, "episode_reward_max": -522.0503088140603, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3393600, "default": {"kl": 0.00963309220969677, "policy_loss": -0.13748317956924438, "vf_loss": 328.18292236328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9627310633659363, "entropy": 2.982842445373535, "cur_lr": 4.999999873689376e-05, "total_loss": 328.0600891113281}, "load_time_ms": 0.641, "num_steps_sampled": 3393600, "grad_time_ms": 705.569, "update_time_ms": 2.371, "sample_time_ms": 33958.005}, "date": "2025-08-31_17-46-54", "hostname": "cda-server-4", "time_this_iter_s": 35.1431519985199, "episodes_total": 16968, "timestamp": 1756655214, "node_ip": "10.157.146.4", "done": false, "time_total_s": 92139.1875064373, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2829, "episode_reward_mean": -610.2127651975079, "training_iteration": 2829, "timesteps_total": 3394800, "policy_reward_mean": {}, "episode_reward_min": -645.7925556540165, "timesteps_since_restore": 3394800, "num_metric_batches_dropped": 0, "time_since_restore": 92173.50872278214, "episode_reward_max": -522.0503088140603, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3394800, "default": {"kl": 0.01019640639424324, "policy_loss": -0.12451961636543274, "vf_loss": 226.4691925048828, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.985518217086792, "entropy": 2.9614415168762207, "cur_lr": 4.999999873689376e-05, "total_loss": 226.36016845703125}, "load_time_ms": 0.64, "num_steps_sampled": 3394800, "grad_time_ms": 707.886, "update_time_ms": 2.401, "sample_time_ms": 33899.79}, "date": "2025-08-31_17-47-28", "hostname": "cda-server-4", "time_this_iter_s": 34.321216344833374, "episodes_total": 16974, "timestamp": 1756655248, "node_ip": "10.157.146.4", "done": false, "time_total_s": 92173.50872278214, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2830, "episode_reward_mean": -608.7384335568113, "training_iteration": 2830, "timesteps_total": 3396000, "policy_reward_mean": {}, "episode_reward_min": -642.1519206216958, "timesteps_since_restore": 3396000, "num_metric_batches_dropped": 0, "time_since_restore": 92208.62175226212, "episode_reward_max": -522.0503088140603, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3396000, "default": {"kl": 0.012560270726680756, "policy_loss": -0.14094188809394836, "vf_loss": 60.28664779663086, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9913321733474731, "entropy": 3.083200216293335, "cur_lr": 4.999999873689376e-05, "total_loss": 60.16477966308594}, "load_time_ms": 0.631, "num_steps_sampled": 3396000, "grad_time_ms": 704.948, "update_time_ms": 2.507, "sample_time_ms": 33836.759}, "date": "2025-08-31_17-48-03", "hostname": "cda-server-4", "time_this_iter_s": 35.11302947998047, "episodes_total": 16980, "timestamp": 1756655283, "node_ip": "10.157.146.4", "done": false, "time_total_s": 92208.62175226212, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2831, "episode_reward_mean": -610.1724144064159, "training_iteration": 2831, "timesteps_total": 3397200, "policy_reward_mean": {}, "episode_reward_min": -646.2711861409205, "timesteps_since_restore": 3397200, "num_metric_batches_dropped": 0, "time_since_restore": 92243.22637367249, "episode_reward_max": -522.0503088140603, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3397200, "default": {"kl": 0.011815941892564297, "policy_loss": -0.14687544107437134, "vf_loss": 397.43377685546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9532291889190674, "entropy": 3.2801852226257324, "cur_lr": 4.999999873689376e-05, "total_loss": 397.3049011230469}, "load_time_ms": 0.634, "num_steps_sampled": 3397200, "grad_time_ms": 712.644, "update_time_ms": 2.471, "sample_time_ms": 33818.642}, "date": "2025-08-31_17-48-38", "hostname": "cda-server-4", "time_this_iter_s": 34.60462141036987, "episodes_total": 16986, "timestamp": 1756655318, "node_ip": "10.157.146.4", "done": false, "time_total_s": 92243.22637367249, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2832, "episode_reward_mean": -611.0555253664044, "training_iteration": 2832, "timesteps_total": 3398400, "policy_reward_mean": {}, "episode_reward_min": -680.5186219006805, "timesteps_since_restore": 3398400, "num_metric_batches_dropped": 0, "time_since_restore": 92277.5877828598, "episode_reward_max": -522.0503088140603, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3398400, "default": {"kl": 0.012640721164643764, "policy_loss": -0.1571045219898224, "vf_loss": 548.2146606445312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9298900961875916, "entropy": 3.422396421432495, "cur_lr": 4.999999873689376e-05, "total_loss": 548.0768432617188}, "load_time_ms": 0.644, "num_steps_sampled": 3398400, "grad_time_ms": 712.499, "update_time_ms": 2.323, "sample_time_ms": 33848.641}, "date": "2025-08-31_17-49-12", "hostname": "cda-server-4", "time_this_iter_s": 34.361409187316895, "episodes_total": 16992, "timestamp": 1756655352, "node_ip": "10.157.146.4", "done": false, "time_total_s": 92277.5877828598, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2833, "episode_reward_mean": -611.5982402618044, "training_iteration": 2833, "timesteps_total": 3399600, "policy_reward_mean": {}, "episode_reward_min": -680.5186219006805, "timesteps_since_restore": 3399600, "num_metric_batches_dropped": 0, "time_since_restore": 92311.57411885262, "episode_reward_max": -522.0503088140603, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3399600, "default": {"kl": 0.010911850258708, "policy_loss": -0.13815569877624512, "vf_loss": 82.43350219726562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9907233715057373, "entropy": 2.9552276134490967, "cur_lr": 4.999999873689376e-05, "total_loss": 82.31192016601562}, "load_time_ms": 0.638, "num_steps_sampled": 3399600, "grad_time_ms": 710.138, "update_time_ms": 2.297, "sample_time_ms": 33781.187}, "date": "2025-08-31_17-49-46", "hostname": "cda-server-4", "time_this_iter_s": 33.98633599281311, "episodes_total": 16998, "timestamp": 1756655386, "node_ip": "10.157.146.4", "done": false, "time_total_s": 92311.57411885262, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2834, "episode_reward_mean": -611.3115327990142, "training_iteration": 2834, "timesteps_total": 3400800, "policy_reward_mean": {}, "episode_reward_min": -680.5186219006805, "timesteps_since_restore": 3400800, "num_metric_batches_dropped": 0, "time_since_restore": 92345.88382554054, "episode_reward_max": -522.0503088140603, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3400800, "default": {"kl": 0.011287761852145195, "policy_loss": -0.1497052013874054, "vf_loss": 78.95999145507812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9884884357452393, "entropy": 3.092911720275879, "cur_lr": 4.999999873689376e-05, "total_loss": 78.82742309570312}, "load_time_ms": 0.674, "num_steps_sampled": 3400800, "grad_time_ms": 702.927, "update_time_ms": 2.286, "sample_time_ms": 33742.664}, "date": "2025-08-31_17-50-21", "hostname": "cda-server-4", "time_this_iter_s": 34.309706687927246, "episodes_total": 17004, "timestamp": 1756655421, "node_ip": "10.157.146.4", "done": false, "time_total_s": 92345.88382554054, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2835, "episode_reward_mean": -612.1159934942356, "training_iteration": 2835, "timesteps_total": 3402000, "policy_reward_mean": {}, "episode_reward_min": -680.5186219006805, "timesteps_since_restore": 3402000, "num_metric_batches_dropped": 0, "time_since_restore": 92380.76826000214, "episode_reward_max": -550.1251467913913, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3402000, "default": {"kl": 0.010722752660512924, "policy_loss": -0.14509886503219604, "vf_loss": 80.11434173583984, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9930906295776367, "entropy": 3.0410542488098145, "cur_lr": 4.999999873689376e-05, "total_loss": 79.98552703857422}, "load_time_ms": 0.676, "num_steps_sampled": 3402000, "grad_time_ms": 683.004, "update_time_ms": 2.348, "sample_time_ms": 33860.441}, "date": "2025-08-31_17-50-56", "hostname": "cda-server-4", "time_this_iter_s": 34.88443446159363, "episodes_total": 17010, "timestamp": 1756655456, "node_ip": "10.157.146.4", "done": false, "time_total_s": 92380.76826000214, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2836, "episode_reward_mean": -612.1467340596699, "training_iteration": 2836, "timesteps_total": 3403200, "policy_reward_mean": {}, "episode_reward_min": -680.5186219006805, "timesteps_since_restore": 3403200, "num_metric_batches_dropped": 0, "time_since_restore": 92414.93431973457, "episode_reward_max": -550.1251467913913, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3403200, "default": {"kl": 0.011603234335780144, "policy_loss": -0.14159747958183289, "vf_loss": 121.99713897705078, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9844188690185547, "entropy": 2.9589619636535645, "cur_lr": 4.999999873689376e-05, "total_loss": 121.8731689453125}, "load_time_ms": 0.684, "num_steps_sampled": 3403200, "grad_time_ms": 712.61, "update_time_ms": 2.358, "sample_time_ms": 33805.098}, "date": "2025-08-31_17-51-30", "hostname": "cda-server-4", "time_this_iter_s": 34.166059732437134, "episodes_total": 17016, "timestamp": 1756655490, "node_ip": "10.157.146.4", "done": false, "time_total_s": 92414.93431973457, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2837, "episode_reward_mean": -611.6278387911974, "training_iteration": 2837, "timesteps_total": 3404400, "policy_reward_mean": {}, "episode_reward_min": -680.5186219006805, "timesteps_since_restore": 3404400, "num_metric_batches_dropped": 0, "time_since_restore": 92449.26314306259, "episode_reward_max": -525.8025463216225, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3404400, "default": {"kl": 0.008976178243756294, "policy_loss": -0.12662886083126068, "vf_loss": 198.35015869140625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.982819139957428, "entropy": 3.090378999710083, "cur_lr": 4.999999873689376e-05, "total_loss": 198.2371368408203}, "load_time_ms": 0.677, "num_steps_sampled": 3404400, "grad_time_ms": 709.24, "update_time_ms": 2.308, "sample_time_ms": 33805.686}, "date": "2025-08-31_17-52-04", "hostname": "cda-server-4", "time_this_iter_s": 34.32882332801819, "episodes_total": 17022, "timestamp": 1756655524, "node_ip": "10.157.146.4", "done": false, "time_total_s": 92449.26314306259, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2838, "episode_reward_mean": -610.5353563637784, "training_iteration": 2838, "timesteps_total": 3405600, "policy_reward_mean": {}, "episode_reward_min": -680.5186219006805, "timesteps_since_restore": 3405600, "num_metric_batches_dropped": 0, "time_since_restore": 92484.23486638069, "episode_reward_max": -525.8025463216225, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3405600, "default": {"kl": 0.011403449811041355, "policy_loss": -0.14438173174858093, "vf_loss": 247.306640625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9836485385894775, "entropy": 2.9863452911376953, "cur_lr": 4.999999873689376e-05, "total_loss": 247.17958068847656}, "load_time_ms": 0.677, "num_steps_sampled": 3405600, "grad_time_ms": 700.0, "update_time_ms": 2.324, "sample_time_ms": 33797.715}, "date": "2025-08-31_17-52-39", "hostname": "cda-server-4", "time_this_iter_s": 34.971723318099976, "episodes_total": 17028, "timestamp": 1756655559, "node_ip": "10.157.146.4", "done": false, "time_total_s": 92484.23486638069, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2839, "episode_reward_mean": -609.929729339192, "training_iteration": 2839, "timesteps_total": 3406800, "policy_reward_mean": {}, "episode_reward_min": -680.5186219006805, "timesteps_since_restore": 3406800, "num_metric_batches_dropped": 0, "time_since_restore": 92518.69660496712, "episode_reward_max": -525.8025463216225, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3406800, "default": {"kl": 0.00983685813844204, "policy_loss": -0.1382126808166504, "vf_loss": 96.29623413085938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9899911880493164, "entropy": 3.221372365951538, "cur_lr": 4.999999873689376e-05, "total_loss": 96.17296600341797}, "load_time_ms": 0.669, "num_steps_sampled": 3406800, "grad_time_ms": 682.932, "update_time_ms": 2.342, "sample_time_ms": 33828.765}, "date": "2025-08-31_17-53-13", "hostname": "cda-server-4", "time_this_iter_s": 34.46173858642578, "episodes_total": 17034, "timestamp": 1756655593, "node_ip": "10.157.146.4", "done": false, "time_total_s": 92518.69660496712, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2840, "episode_reward_mean": -610.3709153168162, "training_iteration": 2840, "timesteps_total": 3408000, "policy_reward_mean": {}, "episode_reward_min": -680.5186219006805, "timesteps_since_restore": 3408000, "num_metric_batches_dropped": 0, "time_since_restore": 92552.33602142334, "episode_reward_max": -525.8025463216225, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3408000, "default": {"kl": 0.01015436090528965, "policy_loss": -0.1089886873960495, "vf_loss": 308.51031494140625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9638065695762634, "entropy": 3.0219287872314453, "cur_lr": 4.999999873689376e-05, "total_loss": 308.416748046875}, "load_time_ms": 0.664, "num_steps_sampled": 3408000, "grad_time_ms": 657.388, "update_time_ms": 2.278, "sample_time_ms": 33706.962}, "date": "2025-08-31_17-53-47", "hostname": "cda-server-4", "time_this_iter_s": 33.639416456222534, "episodes_total": 17040, "timestamp": 1756655627, "node_ip": "10.157.146.4", "done": false, "time_total_s": 92552.33602142334, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2841, "episode_reward_mean": -609.7245775483216, "training_iteration": 2841, "timesteps_total": 3409200, "policy_reward_mean": {}, "episode_reward_min": -680.5186219006805, "timesteps_since_restore": 3409200, "num_metric_batches_dropped": 0, "time_since_restore": 92587.90963625908, "episode_reward_max": -525.8025463216225, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3409200, "default": {"kl": 0.009911631233990192, "policy_loss": -0.12987537682056427, "vf_loss": 251.1807403564453, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9715694785118103, "entropy": 2.948779344558716, "cur_lr": 4.999999873689376e-05, "total_loss": 251.06594848632812}, "load_time_ms": 0.656, "num_steps_sampled": 3409200, "grad_time_ms": 640.258, "update_time_ms": 2.33, "sample_time_ms": 33820.947}, "date": "2025-08-31_17-54-23", "hostname": "cda-server-4", "time_this_iter_s": 35.573614835739136, "episodes_total": 17046, "timestamp": 1756655663, "node_ip": "10.157.146.4", "done": false, "time_total_s": 92587.90963625908, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2842, "episode_reward_mean": -609.4478438492418, "training_iteration": 2842, "timesteps_total": 3410400, "policy_reward_mean": {}, "episode_reward_min": -680.5186219006805, "timesteps_since_restore": 3410400, "num_metric_batches_dropped": 0, "time_since_restore": 92622.28364753723, "episode_reward_max": -525.8025463216225, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3410400, "default": {"kl": 0.010772169567644596, "policy_loss": -0.12788349390029907, "vf_loss": 143.3133544921875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9900853037834167, "entropy": 2.884082555770874, "cur_lr": 4.999999873689376e-05, "total_loss": 143.20184326171875}, "load_time_ms": 0.648, "num_steps_sampled": 3410400, "grad_time_ms": 624.816, "update_time_ms": 2.392, "sample_time_ms": 33837.589}, "date": "2025-08-31_17-54-57", "hostname": "cda-server-4", "time_this_iter_s": 34.374011278152466, "episodes_total": 17052, "timestamp": 1756655697, "node_ip": "10.157.146.4", "done": false, "time_total_s": 92622.28364753723, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2843, "episode_reward_mean": -609.4070378216546, "training_iteration": 2843, "timesteps_total": 3411600, "policy_reward_mean": {}, "episode_reward_min": -680.5186219006805, "timesteps_since_restore": 3411600, "num_metric_batches_dropped": 0, "time_since_restore": 92655.99997377396, "episode_reward_max": -525.8025463216225, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3411600, "default": {"kl": 0.01110643520951271, "policy_loss": -0.14755547046661377, "vf_loss": 132.37799072265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9885498881340027, "entropy": 3.152857780456543, "cur_lr": 4.999999873689376e-05, "total_loss": 132.247314453125}, "load_time_ms": 0.63, "num_steps_sampled": 3411600, "grad_time_ms": 614.36, "update_time_ms": 2.4, "sample_time_ms": 33821.114}, "date": "2025-08-31_17-55-31", "hostname": "cda-server-4", "time_this_iter_s": 33.71632623672485, "episodes_total": 17058, "timestamp": 1756655731, "node_ip": "10.157.146.4", "done": false, "time_total_s": 92655.99997377396, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2844, "episode_reward_mean": -609.5879789347622, "training_iteration": 2844, "timesteps_total": 3412800, "policy_reward_mean": {}, "episode_reward_min": -680.5186219006805, "timesteps_since_restore": 3412800, "num_metric_batches_dropped": 0, "time_since_restore": 92690.10483646393, "episode_reward_max": -525.8025463216225, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3412800, "default": {"kl": 0.011680176481604576, "policy_loss": -0.1468394547700882, "vf_loss": 395.5042724609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9565101265907288, "entropy": 3.215723991394043, "cur_lr": 4.999999873689376e-05, "total_loss": 395.3751525878906}, "load_time_ms": 0.593, "num_steps_sampled": 3412800, "grad_time_ms": 605.668, "update_time_ms": 2.441, "sample_time_ms": 33809.413}, "date": "2025-08-31_17-56-05", "hostname": "cda-server-4", "time_this_iter_s": 34.104862689971924, "episodes_total": 17064, "timestamp": 1756655765, "node_ip": "10.157.146.4", "done": false, "time_total_s": 92690.10483646393, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2845, "episode_reward_mean": -609.9017323991056, "training_iteration": 2845, "timesteps_total": 3414000, "policy_reward_mean": {}, "episode_reward_min": -680.5186219006805, "timesteps_since_restore": 3414000, "num_metric_batches_dropped": 0, "time_since_restore": 92724.90092539787, "episode_reward_max": -525.8025463216225, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3414000, "default": {"kl": 0.013160590082406998, "policy_loss": -0.126485213637352, "vf_loss": 49.89547348022461, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.993799090385437, "entropy": 2.993499517440796, "cur_lr": 4.999999873689376e-05, "total_loss": 49.78897476196289}, "load_time_ms": 0.594, "num_steps_sampled": 3414000, "grad_time_ms": 600.557, "update_time_ms": 2.471, "sample_time_ms": 33805.592}, "date": "2025-08-31_17-56-40", "hostname": "cda-server-4", "time_this_iter_s": 34.7960889339447, "episodes_total": 17070, "timestamp": 1756655800, "node_ip": "10.157.146.4", "done": false, "time_total_s": 92724.90092539787, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2846, "episode_reward_mean": -610.4445459907635, "training_iteration": 2846, "timesteps_total": 3415200, "policy_reward_mean": {}, "episode_reward_min": -680.5186219006805, "timesteps_since_restore": 3415200, "num_metric_batches_dropped": 0, "time_since_restore": 92760.01246523857, "episode_reward_max": -525.8025463216225, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3415200, "default": {"kl": 0.008357701823115349, "policy_loss": -0.11639910191297531, "vf_loss": 56.22035217285156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9938080906867981, "entropy": 2.867190361022949, "cur_lr": 4.999999873689376e-05, "total_loss": 56.116641998291016}, "load_time_ms": 0.59, "num_steps_sampled": 3415200, "grad_time_ms": 568.335, "update_time_ms": 2.472, "sample_time_ms": 33932.394}, "date": "2025-08-31_17-57-15", "hostname": "cda-server-4", "time_this_iter_s": 35.11153984069824, "episodes_total": 17076, "timestamp": 1756655835, "node_ip": "10.157.146.4", "done": false, "time_total_s": 92760.01246523857, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2847, "episode_reward_mean": -610.0041323975137, "training_iteration": 2847, "timesteps_total": 3416400, "policy_reward_mean": {}, "episode_reward_min": -680.5186219006805, "timesteps_since_restore": 3416400, "num_metric_batches_dropped": 0, "time_since_restore": 92793.55525946617, "episode_reward_max": -525.8025463216225, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3416400, "default": {"kl": 0.00995874498039484, "policy_loss": -0.11893594264984131, "vf_loss": 301.0430908203125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.96198970079422, "entropy": 3.325329542160034, "cur_lr": 4.999999873689376e-05, "total_loss": 300.9393005371094}, "load_time_ms": 0.6, "num_steps_sampled": 3416400, "grad_time_ms": 558.454, "update_time_ms": 2.435, "sample_time_ms": 33863.663}, "date": "2025-08-31_17-57-49", "hostname": "cda-server-4", "time_this_iter_s": 33.5427942276001, "episodes_total": 17082, "timestamp": 1756655869, "node_ip": "10.157.146.4", "done": false, "time_total_s": 92793.55525946617, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2848, "episode_reward_mean": -609.7316855330979, "training_iteration": 2848, "timesteps_total": 3417600, "policy_reward_mean": {}, "episode_reward_min": -680.5186219006805, "timesteps_since_restore": 3417600, "num_metric_batches_dropped": 0, "time_since_restore": 92828.67184972763, "episode_reward_max": -525.8025463216225, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3417600, "default": {"kl": 0.013205152004957199, "policy_loss": -0.15424832701683044, "vf_loss": 392.8194580078125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9810028076171875, "entropy": 3.0904767513275146, "cur_lr": 4.999999873689376e-05, "total_loss": 392.6852722167969}, "load_time_ms": 0.614, "num_steps_sampled": 3417600, "grad_time_ms": 559.606, "update_time_ms": 2.407, "sample_time_ms": 33877.073}, "date": "2025-08-31_17-58-24", "hostname": "cda-server-4", "time_this_iter_s": 35.11659026145935, "episodes_total": 17088, "timestamp": 1756655904, "node_ip": "10.157.146.4", "done": false, "time_total_s": 92828.67184972763, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2849, "episode_reward_mean": -608.8969490936468, "training_iteration": 2849, "timesteps_total": 3418800, "policy_reward_mean": {}, "episode_reward_min": -678.0759359824194, "timesteps_since_restore": 3418800, "num_metric_batches_dropped": 0, "time_since_restore": 92863.20195436478, "episode_reward_max": -525.8025463216225, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3418800, "default": {"kl": 0.01035197451710701, "policy_loss": -0.13817547261714935, "vf_loss": 95.90911865234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9883704781532288, "entropy": 3.0459558963775635, "cur_lr": 4.999999873689376e-05, "total_loss": 95.78665924072266}, "load_time_ms": 0.644, "num_steps_sampled": 3418800, "grad_time_ms": 559.313, "update_time_ms": 2.382, "sample_time_ms": 33884.239}, "date": "2025-08-31_17-58-58", "hostname": "cda-server-4", "time_this_iter_s": 34.530104637145996, "episodes_total": 17094, "timestamp": 1756655938, "node_ip": "10.157.146.4", "done": false, "time_total_s": 92863.20195436478, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2850, "episode_reward_mean": -608.1071767990965, "training_iteration": 2850, "timesteps_total": 3420000, "policy_reward_mean": {}, "episode_reward_min": -678.0759359824194, "timesteps_since_restore": 3420000, "num_metric_batches_dropped": 0, "time_since_restore": 92897.1262011528, "episode_reward_max": -525.8025463216225, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3420000, "default": {"kl": 0.009661502204835415, "policy_loss": -0.12753881514072418, "vf_loss": 191.54400634765625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9715343117713928, "entropy": 2.9699857234954834, "cur_lr": 4.999999873689376e-05, "total_loss": 191.43115234375}, "load_time_ms": 0.656, "num_steps_sampled": 3420000, "grad_time_ms": 569.207, "update_time_ms": 2.357, "sample_time_ms": 33902.827}, "date": "2025-08-31_17-59-32", "hostname": "cda-server-4", "time_this_iter_s": 33.9242467880249, "episodes_total": 17100, "timestamp": 1756655972, "node_ip": "10.157.146.4", "done": false, "time_total_s": 92897.1262011528, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2851, "episode_reward_mean": -608.9808236649807, "training_iteration": 2851, "timesteps_total": 3421200, "policy_reward_mean": {}, "episode_reward_min": -806.0177866786424, "timesteps_since_restore": 3421200, "num_metric_batches_dropped": 0, "time_since_restore": 92931.34849977493, "episode_reward_max": -525.8025463216225, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3421200, "default": {"kl": 0.009764154441654682, "policy_loss": -0.11791907250881195, "vf_loss": 1560.0302734375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8360562920570374, "entropy": 3.34549617767334, "cur_lr": 4.999999873689376e-05, "total_loss": 1559.9271240234375}, "load_time_ms": 0.695, "num_steps_sampled": 3421200, "grad_time_ms": 574.73, "update_time_ms": 2.329, "sample_time_ms": 33762.127}, "date": "2025-08-31_18-00-06", "hostname": "cda-server-4", "time_this_iter_s": 34.22229862213135, "episodes_total": 17106, "timestamp": 1756656006, "node_ip": "10.157.146.4", "done": false, "time_total_s": 92931.34849977493, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2852, "episode_reward_mean": -609.6068558319087, "training_iteration": 2852, "timesteps_total": 3422400, "policy_reward_mean": {}, "episode_reward_min": -806.0177866786424, "timesteps_since_restore": 3422400, "num_metric_batches_dropped": 0, "time_since_restore": 92965.8715326786, "episode_reward_max": -525.8025463216225, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3422400, "default": {"kl": 0.013068881817162037, "policy_loss": -0.17013144493103027, "vf_loss": 63.10588836669922, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9936497807502747, "entropy": 3.169419050216675, "cur_lr": 4.999999873689376e-05, "total_loss": 62.95560836791992}, "load_time_ms": 0.691, "num_steps_sampled": 3422400, "grad_time_ms": 574.02, "update_time_ms": 2.398, "sample_time_ms": 33777.695}, "date": "2025-08-31_18-00-41", "hostname": "cda-server-4", "time_this_iter_s": 34.523032903671265, "episodes_total": 17112, "timestamp": 1756656041, "node_ip": "10.157.146.4", "done": false, "time_total_s": 92965.8715326786, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2853, "episode_reward_mean": -608.7875943888354, "training_iteration": 2853, "timesteps_total": 3423600, "policy_reward_mean": {}, "episode_reward_min": -806.0177866786424, "timesteps_since_restore": 3423600, "num_metric_batches_dropped": 0, "time_since_restore": 93000.86134409904, "episode_reward_max": -525.8025463216225, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3423600, "default": {"kl": 0.010072441771626472, "policy_loss": -0.1400734782218933, "vf_loss": 114.95555114746094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9831566214561462, "entropy": 2.9703214168548584, "cur_lr": 4.999999873689376e-05, "total_loss": 114.83078002929688}, "load_time_ms": 0.7, "num_steps_sampled": 3423600, "grad_time_ms": 576.271, "update_time_ms": 2.404, "sample_time_ms": 33902.666}, "date": "2025-08-31_18-01-16", "hostname": "cda-server-4", "time_this_iter_s": 34.989811420440674, "episodes_total": 17118, "timestamp": 1756656076, "node_ip": "10.157.146.4", "done": false, "time_total_s": 93000.86134409904, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2854, "episode_reward_mean": -607.3836783504668, "training_iteration": 2854, "timesteps_total": 3424800, "policy_reward_mean": {}, "episode_reward_min": -806.0177866786424, "timesteps_since_restore": 3424800, "num_metric_batches_dropped": 0, "time_since_restore": 93034.83898377419, "episode_reward_max": -465.4157761910161, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3424800, "default": {"kl": 0.013866577297449112, "policy_loss": -0.17602211236953735, "vf_loss": 313.70404052734375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9728429317474365, "entropy": 2.9395341873168945, "cur_lr": 4.999999873689376e-05, "total_loss": 313.549072265625}, "load_time_ms": 0.704, "num_steps_sampled": 3424800, "grad_time_ms": 573.785, "update_time_ms": 2.461, "sample_time_ms": 33892.351}, "date": "2025-08-31_18-01-50", "hostname": "cda-server-4", "time_this_iter_s": 33.97763967514038, "episodes_total": 17124, "timestamp": 1756656110, "node_ip": "10.157.146.4", "done": false, "time_total_s": 93034.83898377419, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2855, "episode_reward_mean": -606.9232866591118, "training_iteration": 2855, "timesteps_total": 3426000, "policy_reward_mean": {}, "episode_reward_min": -806.0177866786424, "timesteps_since_restore": 3426000, "num_metric_batches_dropped": 0, "time_since_restore": 93069.13761019707, "episode_reward_max": -451.0489279493311, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3426000, "default": {"kl": 0.013721317052841187, "policy_loss": -0.14321346580982208, "vf_loss": 314.9033203125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9773920774459839, "entropy": 3.1701126098632812, "cur_lr": 4.999999873689376e-05, "total_loss": 314.78094482421875}, "load_time_ms": 0.719, "num_steps_sampled": 3426000, "grad_time_ms": 601.57, "update_time_ms": 2.344, "sample_time_ms": 33814.905}, "date": "2025-08-31_18-02-24", "hostname": "cda-server-4", "time_this_iter_s": 34.29862642288208, "episodes_total": 17130, "timestamp": 1756656144, "node_ip": "10.157.146.4", "done": false, "time_total_s": 93069.13761019707, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2856, "episode_reward_mean": -606.5190446853751, "training_iteration": 2856, "timesteps_total": 3427200, "policy_reward_mean": {}, "episode_reward_min": -806.0177866786424, "timesteps_since_restore": 3427200, "num_metric_batches_dropped": 0, "time_since_restore": 93103.7394156456, "episode_reward_max": -451.0489279493311, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3427200, "default": {"kl": 0.014251346699893475, "policy_loss": -0.1713566780090332, "vf_loss": 140.08831787109375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9915594458580017, "entropy": 3.002206563949585, "cur_lr": 4.999999873689376e-05, "total_loss": 139.93858337402344}, "load_time_ms": 0.715, "num_steps_sampled": 3427200, "grad_time_ms": 622.769, "update_time_ms": 2.344, "sample_time_ms": 33742.698}, "date": "2025-08-31_18-02-59", "hostname": "cda-server-4", "time_this_iter_s": 34.601805448532104, "episodes_total": 17136, "timestamp": 1756656179, "node_ip": "10.157.146.4", "done": false, "time_total_s": 93103.7394156456, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2857, "episode_reward_mean": -609.0105680715662, "training_iteration": 2857, "timesteps_total": 3428400, "policy_reward_mean": {}, "episode_reward_min": -806.0177866786424, "timesteps_since_restore": 3428400, "num_metric_batches_dropped": 0, "time_since_restore": 93138.3629899025, "episode_reward_max": -451.0489279493311, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3428400, "default": {"kl": 0.011508545838296413, "policy_loss": -0.15328724682331085, "vf_loss": 538.531982421875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9556300640106201, "entropy": 3.50921630859375, "cur_lr": 4.999999873689376e-05, "total_loss": 538.3961791992188}, "load_time_ms": 0.719, "num_steps_sampled": 3428400, "grad_time_ms": 641.296, "update_time_ms": 2.417, "sample_time_ms": 33832.185}, "date": "2025-08-31_18-03-33", "hostname": "cda-server-4", "time_this_iter_s": 34.62357425689697, "episodes_total": 17142, "timestamp": 1756656213, "node_ip": "10.157.146.4", "done": false, "time_total_s": 93138.3629899025, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2858, "episode_reward_mean": -609.4947335052414, "training_iteration": 2858, "timesteps_total": 3429600, "policy_reward_mean": {}, "episode_reward_min": -806.0177866786424, "timesteps_since_restore": 3429600, "num_metric_batches_dropped": 0, "time_since_restore": 93172.72569417953, "episode_reward_max": -451.0489279493311, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3429600, "default": {"kl": 0.010209666565060616, "policy_loss": -0.14032156765460968, "vf_loss": 355.9501953125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9700404405593872, "entropy": 3.133467197418213, "cur_lr": 4.999999873689376e-05, "total_loss": 355.8254089355469}, "load_time_ms": 0.711, "num_steps_sampled": 3429600, "grad_time_ms": 648.804, "update_time_ms": 2.401, "sample_time_ms": 33749.237}, "date": "2025-08-31_18-04-08", "hostname": "cda-server-4", "time_this_iter_s": 34.362704277038574, "episodes_total": 17148, "timestamp": 1756656248, "node_ip": "10.157.146.4", "done": false, "time_total_s": 93172.72569417953, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2859, "episode_reward_mean": -609.7865790511111, "training_iteration": 2859, "timesteps_total": 3430800, "policy_reward_mean": {}, "episode_reward_min": -806.0177866786424, "timesteps_since_restore": 3430800, "num_metric_batches_dropped": 0, "time_since_restore": 93207.73027968407, "episode_reward_max": -451.0489279493311, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3430800, "default": {"kl": 0.010658388026058674, "policy_loss": -0.13351206481456757, "vf_loss": 113.69794464111328, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9882307052612305, "entropy": 2.993819236755371, "cur_lr": 4.999999873689376e-05, "total_loss": 113.58061218261719}, "load_time_ms": 0.679, "num_steps_sampled": 3430800, "grad_time_ms": 660.569, "update_time_ms": 2.503, "sample_time_ms": 33784.918}, "date": "2025-08-31_18-04-43", "hostname": "cda-server-4", "time_this_iter_s": 35.00458550453186, "episodes_total": 17154, "timestamp": 1756656283, "node_ip": "10.157.146.4", "done": false, "time_total_s": 93207.73027968407, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2860, "episode_reward_mean": -609.4205197114779, "training_iteration": 2860, "timesteps_total": 3432000, "policy_reward_mean": {}, "episode_reward_min": -806.0177866786424, "timesteps_since_restore": 3432000, "num_metric_batches_dropped": 0, "time_since_restore": 93243.79860472679, "episode_reward_max": -451.0489279493311, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3432000, "default": {"kl": 0.010805179364979267, "policy_loss": -0.13461241126060486, "vf_loss": 166.54832458496094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9769799709320068, "entropy": 2.9656388759613037, "cur_lr": 4.999999873689376e-05, "total_loss": 166.4301300048828}, "load_time_ms": 0.676, "num_steps_sampled": 3432000, "grad_time_ms": 679.096, "update_time_ms": 2.449, "sample_time_ms": 33980.882}, "date": "2025-08-31_18-05-19", "hostname": "cda-server-4", "time_this_iter_s": 36.06832504272461, "episodes_total": 17160, "timestamp": 1756656319, "node_ip": "10.157.146.4", "done": false, "time_total_s": 93243.79860472679, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2861, "episode_reward_mean": -609.3496224742441, "training_iteration": 2861, "timesteps_total": 3433200, "policy_reward_mean": {}, "episode_reward_min": -806.0177866786424, "timesteps_since_restore": 3433200, "num_metric_batches_dropped": 0, "time_since_restore": 93278.02219867706, "episode_reward_max": -451.0489279493311, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3433200, "default": {"kl": 0.010907072573900223, "policy_loss": -0.12602829933166504, "vf_loss": 99.9003677368164, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9904438853263855, "entropy": 2.989940881729126, "cur_lr": 4.999999873689376e-05, "total_loss": 99.7909164428711}, "load_time_ms": 0.68, "num_steps_sampled": 3433200, "grad_time_ms": 682.172, "update_time_ms": 2.45, "sample_time_ms": 33977.912}, "date": "2025-08-31_18-05-53", "hostname": "cda-server-4", "time_this_iter_s": 34.223593950271606, "episodes_total": 17166, "timestamp": 1756656353, "node_ip": "10.157.146.4", "done": false, "time_total_s": 93278.02219867706, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2862, "episode_reward_mean": -609.2242258631652, "training_iteration": 2862, "timesteps_total": 3434400, "policy_reward_mean": {}, "episode_reward_min": -806.0177866786424, "timesteps_since_restore": 3434400, "num_metric_batches_dropped": 0, "time_since_restore": 93312.27444648743, "episode_reward_max": -451.0489279493311, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3434400, "default": {"kl": 0.010885793715715408, "policy_loss": -0.1215381994843483, "vf_loss": 137.37985229492188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.991425096988678, "entropy": 3.0974221229553223, "cur_lr": 4.999999873689376e-05, "total_loss": 137.27484130859375}, "load_time_ms": 0.685, "num_steps_sampled": 3434400, "grad_time_ms": 691.061, "update_time_ms": 2.424, "sample_time_ms": 33941.981}, "date": "2025-08-31_18-06-28", "hostname": "cda-server-4", "time_this_iter_s": 34.25224781036377, "episodes_total": 17172, "timestamp": 1756656388, "node_ip": "10.157.146.4", "done": false, "time_total_s": 93312.27444648743, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2863, "episode_reward_mean": -609.3621527464511, "training_iteration": 2863, "timesteps_total": 3435600, "policy_reward_mean": {}, "episode_reward_min": -806.0177866786424, "timesteps_since_restore": 3435600, "num_metric_batches_dropped": 0, "time_since_restore": 93346.37769079208, "episode_reward_max": -451.0489279493311, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3435600, "default": {"kl": 0.011884909123182297, "policy_loss": -0.1557842642068863, "vf_loss": 311.4297790527344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9790440797805786, "entropy": 3.1101808547973633, "cur_lr": 4.999999873689376e-05, "total_loss": 311.2920227050781}, "load_time_ms": 0.688, "num_steps_sampled": 3435600, "grad_time_ms": 702.252, "update_time_ms": 2.405, "sample_time_ms": 33842.256}, "date": "2025-08-31_18-07-02", "hostname": "cda-server-4", "time_this_iter_s": 34.10324430465698, "episodes_total": 17178, "timestamp": 1756656422, "node_ip": "10.157.146.4", "done": false, "time_total_s": 93346.37769079208, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2864, "episode_reward_mean": -607.5855639014877, "training_iteration": 2864, "timesteps_total": 3436800, "policy_reward_mean": {}, "episode_reward_min": -806.0177866786424, "timesteps_since_restore": 3436800, "num_metric_batches_dropped": 0, "time_since_restore": 93382.25582551956, "episode_reward_max": -451.0489279493311, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3436800, "default": {"kl": 0.01183389499783516, "policy_loss": -0.1525663435459137, "vf_loss": 131.1398162841797, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9845806956291199, "entropy": 3.164801597595215, "cur_lr": 4.999999873689376e-05, "total_loss": 131.00521850585938}, "load_time_ms": 0.702, "num_steps_sampled": 3436800, "grad_time_ms": 719.802, "update_time_ms": 2.31, "sample_time_ms": 34014.724}, "date": "2025-08-31_18-07-38", "hostname": "cda-server-4", "time_this_iter_s": 35.87813472747803, "episodes_total": 17184, "timestamp": 1756656458, "node_ip": "10.157.146.4", "done": false, "time_total_s": 93382.25582551956, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2865, "episode_reward_mean": -607.938100432876, "training_iteration": 2865, "timesteps_total": 3438000, "policy_reward_mean": {}, "episode_reward_min": -806.0177866786424, "timesteps_since_restore": 3438000, "num_metric_batches_dropped": 0, "time_since_restore": 93416.06093502045, "episode_reward_max": -451.0489279493311, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3438000, "default": {"kl": 0.010659251362085342, "policy_loss": -0.14155130088329315, "vf_loss": 293.8737487792969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9570726752281189, "entropy": 3.292146682739258, "cur_lr": 4.999999873689376e-05, "total_loss": 293.7483825683594}, "load_time_ms": 0.685, "num_steps_sampled": 3438000, "grad_time_ms": 714.691, "update_time_ms": 2.38, "sample_time_ms": 33970.457}, "date": "2025-08-31_18-08-11", "hostname": "cda-server-4", "time_this_iter_s": 33.80510950088501, "episodes_total": 17190, "timestamp": 1756656491, "node_ip": "10.157.146.4", "done": false, "time_total_s": 93416.06093502045, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2866, "episode_reward_mean": -606.7033275483404, "training_iteration": 2866, "timesteps_total": 3439200, "policy_reward_mean": {}, "episode_reward_min": -806.0177866786424, "timesteps_since_restore": 3439200, "num_metric_batches_dropped": 0, "time_since_restore": 93450.44300842285, "episode_reward_max": -451.0489279493311, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3439200, "default": {"kl": 0.010634253732860088, "policy_loss": -0.1463603973388672, "vf_loss": 255.6939239501953, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9707686901092529, "entropy": 3.1851518154144287, "cur_lr": 4.999999873689376e-05, "total_loss": 255.563720703125}, "load_time_ms": 0.683, "num_steps_sampled": 3439200, "grad_time_ms": 717.758, "update_time_ms": 2.409, "sample_time_ms": 33945.409}, "date": "2025-08-31_18-08-46", "hostname": "cda-server-4", "time_this_iter_s": 34.382073402404785, "episodes_total": 17196, "timestamp": 1756656526, "node_ip": "10.157.146.4", "done": false, "time_total_s": 93450.44300842285, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2867, "episode_reward_mean": -607.4211147643753, "training_iteration": 2867, "timesteps_total": 3440400, "policy_reward_mean": {}, "episode_reward_min": -806.0177866786424, "timesteps_since_restore": 3440400, "num_metric_batches_dropped": 0, "time_since_restore": 93485.24060702324, "episode_reward_max": -451.0489279493311, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3440400, "default": {"kl": 0.011147667653858662, "policy_loss": -0.13256369531154633, "vf_loss": 343.9938659667969, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9654310941696167, "entropy": 3.176724672317505, "cur_lr": 4.999999873689376e-05, "total_loss": 343.87823486328125}, "load_time_ms": 0.667, "num_steps_sampled": 3440400, "grad_time_ms": 721.808, "update_time_ms": 2.348, "sample_time_ms": 33958.804}, "date": "2025-08-31_18-09-21", "hostname": "cda-server-4", "time_this_iter_s": 34.79759860038757, "episodes_total": 17202, "timestamp": 1756656561, "node_ip": "10.157.146.4", "done": false, "time_total_s": 93485.24060702324, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2868, "episode_reward_mean": -606.2071251421398, "training_iteration": 2868, "timesteps_total": 3441600, "policy_reward_mean": {}, "episode_reward_min": -787.8867338495685, "timesteps_since_restore": 3441600, "num_metric_batches_dropped": 0, "time_since_restore": 93518.93572568893, "episode_reward_max": -451.0489279493311, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3441600, "default": {"kl": 0.009671138599514961, "policy_loss": -0.11995697021484375, "vf_loss": 99.13614654541016, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9873300194740295, "entropy": 3.07926344871521, "cur_lr": 4.999999873689376e-05, "total_loss": 99.0308837890625}, "load_time_ms": 0.659, "num_steps_sampled": 3441600, "grad_time_ms": 702.842, "update_time_ms": 2.355, "sample_time_ms": 33911.038}, "date": "2025-08-31_18-09-54", "hostname": "cda-server-4", "time_this_iter_s": 33.69511866569519, "episodes_total": 17208, "timestamp": 1756656594, "node_ip": "10.157.146.4", "done": false, "time_total_s": 93518.93572568893, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2869, "episode_reward_mean": -605.7335749418576, "training_iteration": 2869, "timesteps_total": 3442800, "policy_reward_mean": {}, "episode_reward_min": -787.8867338495685, "timesteps_since_restore": 3442800, "num_metric_batches_dropped": 0, "time_since_restore": 93552.96792054176, "episode_reward_max": -451.0489279493311, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3442800, "default": {"kl": 0.012253575958311558, "policy_loss": -0.13230815529823303, "vf_loss": 265.5408935546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9688257575035095, "entropy": 2.988009452819824, "cur_lr": 4.999999873689376e-05, "total_loss": 265.42718505859375}, "load_time_ms": 0.653, "num_steps_sampled": 3442800, "grad_time_ms": 700.256, "update_time_ms": 2.288, "sample_time_ms": 33816.419}, "date": "2025-08-31_18-10-28", "hostname": "cda-server-4", "time_this_iter_s": 34.03219485282898, "episodes_total": 17214, "timestamp": 1756656628, "node_ip": "10.157.146.4", "done": false, "time_total_s": 93552.96792054176, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2870, "episode_reward_mean": -605.9822328876163, "training_iteration": 2870, "timesteps_total": 3444000, "policy_reward_mean": {}, "episode_reward_min": -787.8867338495685, "timesteps_since_restore": 3444000, "num_metric_batches_dropped": 0, "time_since_restore": 93587.99677491188, "episode_reward_max": -451.0489279493311, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3444000, "default": {"kl": 0.010345923714339733, "policy_loss": -0.12052330374717712, "vf_loss": 332.40997314453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9519076943397522, "entropy": 3.191655397415161, "cur_lr": 4.999999873689376e-05, "total_loss": 332.3051452636719}, "load_time_ms": 0.65, "num_steps_sampled": 3444000, "grad_time_ms": 685.636, "update_time_ms": 2.33, "sample_time_ms": 33727.013}, "date": "2025-08-31_18-11-03", "hostname": "cda-server-4", "time_this_iter_s": 35.02885437011719, "episodes_total": 17220, "timestamp": 1756656663, "node_ip": "10.157.146.4", "done": false, "time_total_s": 93587.99677491188, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2871, "episode_reward_mean": -607.1552280076672, "training_iteration": 2871, "timesteps_total": 3445200, "policy_reward_mean": {}, "episode_reward_min": -787.8867338495685, "timesteps_since_restore": 3445200, "num_metric_batches_dropped": 0, "time_since_restore": 93622.38974452019, "episode_reward_max": -451.0489279493311, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3445200, "default": {"kl": 0.008311502635478973, "policy_loss": -0.10689956694841385, "vf_loss": 336.9437255859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9416778087615967, "entropy": 3.039041519165039, "cur_lr": 4.999999873689376e-05, "total_loss": 336.84942626953125}, "load_time_ms": 0.634, "num_steps_sampled": 3445200, "grad_time_ms": 674.7, "update_time_ms": 2.314, "sample_time_ms": 33754.972}, "date": "2025-08-31_18-11-38", "hostname": "cda-server-4", "time_this_iter_s": 34.392969608306885, "episodes_total": 17226, "timestamp": 1756656698, "node_ip": "10.157.146.4", "done": false, "time_total_s": 93622.38974452019, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2872, "episode_reward_mean": -609.3961521783427, "training_iteration": 2872, "timesteps_total": 3446400, "policy_reward_mean": {}, "episode_reward_min": -787.8867338495685, "timesteps_since_restore": 3446400, "num_metric_batches_dropped": 0, "time_since_restore": 93656.15567421913, "episode_reward_max": -470.8388183492251, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3446400, "default": {"kl": 0.00954317394644022, "policy_loss": -0.13327650725841522, "vf_loss": 103.85177612304688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9847210645675659, "entropy": 3.054215431213379, "cur_lr": 4.999999873689376e-05, "total_loss": 103.73300170898438}, "load_time_ms": 0.663, "num_steps_sampled": 3446400, "grad_time_ms": 663.03, "update_time_ms": 2.246, "sample_time_ms": 33718.031}, "date": "2025-08-31_18-12-12", "hostname": "cda-server-4", "time_this_iter_s": 33.76592969894409, "episodes_total": 17232, "timestamp": 1756656732, "node_ip": "10.157.146.4", "done": false, "time_total_s": 93656.15567421913, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2873, "episode_reward_mean": -609.2517620896546, "training_iteration": 2873, "timesteps_total": 3447600, "policy_reward_mean": {}, "episode_reward_min": -787.8867338495685, "timesteps_since_restore": 3447600, "num_metric_batches_dropped": 0, "time_since_restore": 93690.2602148056, "episode_reward_max": -470.8388183492251, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3447600, "default": {"kl": 0.010790593922138214, "policy_loss": -0.13026541471481323, "vf_loss": 179.12454223632812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9800642728805542, "entropy": 3.0356855392456055, "cur_lr": 4.999999873689376e-05, "total_loss": 179.0106658935547}, "load_time_ms": 0.653, "num_steps_sampled": 3447600, "grad_time_ms": 660.134, "update_time_ms": 2.229, "sample_time_ms": 33721.093}, "date": "2025-08-31_18-12-46", "hostname": "cda-server-4", "time_this_iter_s": 34.10454058647156, "episodes_total": 17238, "timestamp": 1756656766, "node_ip": "10.157.146.4", "done": false, "time_total_s": 93690.2602148056, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2874, "episode_reward_mean": -607.436576279821, "training_iteration": 2874, "timesteps_total": 3448800, "policy_reward_mean": {}, "episode_reward_min": -657.105226754241, "timesteps_since_restore": 3448800, "num_metric_batches_dropped": 0, "time_since_restore": 93725.60979175568, "episode_reward_max": -470.8388183492251, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3448800, "default": {"kl": 0.010888610035181046, "policy_loss": -0.1505430042743683, "vf_loss": 214.2458038330078, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9735243916511536, "entropy": 3.171583652496338, "cur_lr": 4.999999873689376e-05, "total_loss": 214.11178588867188}, "load_time_ms": 0.644, "num_steps_sampled": 3448800, "grad_time_ms": 658.518, "update_time_ms": 2.309, "sample_time_ms": 33669.844}, "date": "2025-08-31_18-13-21", "hostname": "cda-server-4", "time_this_iter_s": 35.34957695007324, "episodes_total": 17244, "timestamp": 1756656801, "node_ip": "10.157.146.4", "done": false, "time_total_s": 93725.60979175568, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2875, "episode_reward_mean": -608.0712007798428, "training_iteration": 2875, "timesteps_total": 3450000, "policy_reward_mean": {}, "episode_reward_min": -657.105226754241, "timesteps_since_restore": 3450000, "num_metric_batches_dropped": 0, "time_since_restore": 93760.15267515182, "episode_reward_max": -470.8388183492251, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3450000, "default": {"kl": 0.011139016598463058, "policy_loss": -0.1315002143383026, "vf_loss": 162.5580291748047, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9813966751098633, "entropy": 2.971452474594116, "cur_lr": 4.999999873689376e-05, "total_loss": 162.4434356689453}, "load_time_ms": 0.649, "num_steps_sampled": 3450000, "grad_time_ms": 650.827, "update_time_ms": 2.328, "sample_time_ms": 33751.246}, "date": "2025-08-31_18-13-56", "hostname": "cda-server-4", "time_this_iter_s": 34.54288339614868, "episodes_total": 17250, "timestamp": 1756656836, "node_ip": "10.157.146.4", "done": false, "time_total_s": 93760.15267515182, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2876, "episode_reward_mean": -607.0632652372765, "training_iteration": 2876, "timesteps_total": 3451200, "policy_reward_mean": {}, "episode_reward_min": -657.105226754241, "timesteps_since_restore": 3451200, "num_metric_batches_dropped": 0, "time_since_restore": 93794.1870765686, "episode_reward_max": -470.8388183492251, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3451200, "default": {"kl": 0.010439248755574226, "policy_loss": -0.13248485326766968, "vf_loss": 154.90780639648438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9932399392127991, "entropy": 3.1827871799468994, "cur_lr": 4.999999873689376e-05, "total_loss": 154.79116821289062}, "load_time_ms": 0.649, "num_steps_sampled": 3451200, "grad_time_ms": 632.363, "update_time_ms": 2.348, "sample_time_ms": 33734.989}, "date": "2025-08-31_18-14-30", "hostname": "cda-server-4", "time_this_iter_s": 34.034401416778564, "episodes_total": 17256, "timestamp": 1756656870, "node_ip": "10.157.146.4", "done": false, "time_total_s": 93794.1870765686, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2877, "episode_reward_mean": -606.7312352753946, "training_iteration": 2877, "timesteps_total": 3452400, "policy_reward_mean": {}, "episode_reward_min": -657.105226754241, "timesteps_since_restore": 3452400, "num_metric_batches_dropped": 0, "time_since_restore": 93829.22775316238, "episode_reward_max": -470.8388183492251, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3452400, "default": {"kl": 0.010118182748556137, "policy_loss": -0.14513935148715973, "vf_loss": 125.55177307128906, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9861069917678833, "entropy": 2.8733434677124023, "cur_lr": 4.999999873689376e-05, "total_loss": 125.4219970703125}, "load_time_ms": 0.654, "num_steps_sampled": 3452400, "grad_time_ms": 624.018, "update_time_ms": 2.358, "sample_time_ms": 33767.662}, "date": "2025-08-31_18-15-05", "hostname": "cda-server-4", "time_this_iter_s": 35.04067659378052, "episodes_total": 17262, "timestamp": 1756656905, "node_ip": "10.157.146.4", "done": false, "time_total_s": 93829.22775316238, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2878, "episode_reward_mean": -605.6395075125611, "training_iteration": 2878, "timesteps_total": 3453600, "policy_reward_mean": {}, "episode_reward_min": -657.105226754241, "timesteps_since_restore": 3453600, "num_metric_batches_dropped": 0, "time_since_restore": 93863.61488628387, "episode_reward_max": -458.7591718268592, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3453600, "default": {"kl": 0.0128854401409626, "policy_loss": -0.15769760310649872, "vf_loss": 119.402587890625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9898495078086853, "entropy": 2.984358787536621, "cur_lr": 4.999999873689376e-05, "total_loss": 119.26447296142578}, "load_time_ms": 0.678, "num_steps_sampled": 3453600, "grad_time_ms": 616.54, "update_time_ms": 2.346, "sample_time_ms": 33844.415}, "date": "2025-08-31_18-15-39", "hostname": "cda-server-4", "time_this_iter_s": 34.38713312149048, "episodes_total": 17268, "timestamp": 1756656939, "node_ip": "10.157.146.4", "done": false, "time_total_s": 93863.61488628387, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2879, "episode_reward_mean": -604.0208417139569, "training_iteration": 2879, "timesteps_total": 3454800, "policy_reward_mean": {}, "episode_reward_min": -657.105226754241, "timesteps_since_restore": 3454800, "num_metric_batches_dropped": 0, "time_since_restore": 93897.59578418732, "episode_reward_max": -458.7591718268592, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3454800, "default": {"kl": 0.013104516081511974, "policy_loss": -0.168016254901886, "vf_loss": 250.5817108154297, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9687771201133728, "entropy": 3.1525557041168213, "cur_lr": 4.999999873689376e-05, "total_loss": 250.43362426757812}, "load_time_ms": 0.681, "num_steps_sampled": 3454800, "grad_time_ms": 600.915, "update_time_ms": 2.341, "sample_time_ms": 33854.894}, "date": "2025-08-31_18-16-13", "hostname": "cda-server-4", "time_this_iter_s": 33.98089790344238, "episodes_total": 17274, "timestamp": 1756656973, "node_ip": "10.157.146.4", "done": false, "time_total_s": 93897.59578418732, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2880, "episode_reward_mean": -603.2180047941606, "training_iteration": 2880, "timesteps_total": 3456000, "policy_reward_mean": {}, "episode_reward_min": -657.105226754241, "timesteps_since_restore": 3456000, "num_metric_batches_dropped": 0, "time_since_restore": 93932.13582205772, "episode_reward_max": -458.7591718268592, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3456000, "default": {"kl": 0.0123654305934906, "policy_loss": -0.15531128644943237, "vf_loss": 211.664306640625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9737585783004761, "entropy": 2.9285595417022705, "cur_lr": 4.999999873689376e-05, "total_loss": 211.5277557373047}, "load_time_ms": 0.687, "num_steps_sampled": 3456000, "grad_time_ms": 604.569, "update_time_ms": 2.358, "sample_time_ms": 33802.395}, "date": "2025-08-31_18-16-48", "hostname": "cda-server-4", "time_this_iter_s": 34.540037870407104, "episodes_total": 17280, "timestamp": 1756657008, "node_ip": "10.157.146.4", "done": false, "time_total_s": 93932.13582205772, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2881, "episode_reward_mean": -605.1390475081075, "training_iteration": 2881, "timesteps_total": 3457200, "policy_reward_mean": {}, "episode_reward_min": -657.105226754241, "timesteps_since_restore": 3457200, "num_metric_batches_dropped": 0, "time_since_restore": 93967.72592926025, "episode_reward_max": -458.7591718268592, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3457200, "default": {"kl": 0.01117786392569542, "policy_loss": -0.13794101774692535, "vf_loss": 345.361083984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9537872672080994, "entropy": 3.095311403274536, "cur_lr": 4.999999873689376e-05, "total_loss": 345.2401428222656}, "load_time_ms": 0.661, "num_steps_sampled": 3457200, "grad_time_ms": 634.563, "update_time_ms": 2.395, "sample_time_ms": 33891.745}, "date": "2025-08-31_18-17-23", "hostname": "cda-server-4", "time_this_iter_s": 35.59010720252991, "episodes_total": 17286, "timestamp": 1756657043, "node_ip": "10.157.146.4", "done": false, "time_total_s": 93967.72592926025, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2882, "episode_reward_mean": -604.7197198086847, "training_iteration": 2882, "timesteps_total": 3458400, "policy_reward_mean": {}, "episode_reward_min": -657.105226754241, "timesteps_since_restore": 3458400, "num_metric_batches_dropped": 0, "time_since_restore": 94002.80506849289, "episode_reward_max": -458.7591718268592, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3458400, "default": {"kl": 0.0076147522777318954, "policy_loss": -0.11924275010824203, "vf_loss": 78.18136596679688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9876918792724609, "entropy": 3.032470703125, "cur_lr": 4.999999873689376e-05, "total_loss": 78.07369995117188}, "load_time_ms": 0.628, "num_steps_sampled": 3458400, "grad_time_ms": 651.066, "update_time_ms": 2.635, "sample_time_ms": 34006.356}, "date": "2025-08-31_18-17-58", "hostname": "cda-server-4", "time_this_iter_s": 35.0791392326355, "episodes_total": 17292, "timestamp": 1756657078, "node_ip": "10.157.146.4", "done": false, "time_total_s": 94002.80506849289, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2883, "episode_reward_mean": -604.8339754467318, "training_iteration": 2883, "timesteps_total": 3459600, "policy_reward_mean": {}, "episode_reward_min": -657.105226754241, "timesteps_since_restore": 3459600, "num_metric_batches_dropped": 0, "time_since_restore": 94036.84730815887, "episode_reward_max": -458.7591718268592, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3459600, "default": {"kl": 0.010607960633933544, "policy_loss": -0.14056628942489624, "vf_loss": 419.68316650390625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9480860233306885, "entropy": 2.967780351638794, "cur_lr": 4.999999873689376e-05, "total_loss": 419.5587158203125}, "load_time_ms": 0.658, "num_steps_sampled": 3459600, "grad_time_ms": 654.449, "update_time_ms": 2.623, "sample_time_ms": 33996.664}, "date": "2025-08-31_18-18-32", "hostname": "cda-server-4", "time_this_iter_s": 34.04223966598511, "episodes_total": 17298, "timestamp": 1756657112, "node_ip": "10.157.146.4", "done": false, "time_total_s": 94036.84730815887, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2884, "episode_reward_mean": -605.1834919510023, "training_iteration": 2884, "timesteps_total": 3460800, "policy_reward_mean": {}, "episode_reward_min": -657.105226754241, "timesteps_since_restore": 3460800, "num_metric_batches_dropped": 0, "time_since_restore": 94071.51465773582, "episode_reward_max": -458.7591718268592, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3460800, "default": {"kl": 0.012301649898290634, "policy_loss": -0.14819420874118805, "vf_loss": 270.89263916015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9663098454475403, "entropy": 3.0593271255493164, "cur_lr": 4.999999873689376e-05, "total_loss": 270.76312255859375}, "load_time_ms": 0.659, "num_steps_sampled": 3460800, "grad_time_ms": 655.738, "update_time_ms": 2.598, "sample_time_ms": 33927.239}, "date": "2025-08-31_18-19-07", "hostname": "cda-server-4", "time_this_iter_s": 34.66734957695007, "episodes_total": 17304, "timestamp": 1756657147, "node_ip": "10.157.146.4", "done": false, "time_total_s": 94071.51465773582, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2885, "episode_reward_mean": -605.7645218757111, "training_iteration": 2885, "timesteps_total": 3462000, "policy_reward_mean": {}, "episode_reward_min": -657.105226754241, "timesteps_since_restore": 3462000, "num_metric_batches_dropped": 0, "time_since_restore": 94106.54640293121, "episode_reward_max": -458.7591718268592, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3462000, "default": {"kl": 0.010509653016924858, "policy_loss": -0.14274154603481293, "vf_loss": 223.85348510742188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9765974879264832, "entropy": 3.2106447219848633, "cur_lr": 4.999999873689376e-05, "total_loss": 223.72669982910156}, "load_time_ms": 0.653, "num_steps_sampled": 3462000, "grad_time_ms": 643.163, "update_time_ms": 2.539, "sample_time_ms": 33988.776}, "date": "2025-08-31_18-19-42", "hostname": "cda-server-4", "time_this_iter_s": 35.031745195388794, "episodes_total": 17310, "timestamp": 1756657182, "node_ip": "10.157.146.4", "done": false, "time_total_s": 94106.54640293121, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2886, "episode_reward_mean": -604.1079496045063, "training_iteration": 2886, "timesteps_total": 3463200, "policy_reward_mean": {}, "episode_reward_min": -657.105226754241, "timesteps_since_restore": 3463200, "num_metric_batches_dropped": 0, "time_since_restore": 94140.95909905434, "episode_reward_max": -458.7591718268592, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3463200, "default": {"kl": 0.012155907228589058, "policy_loss": -0.15017904341220856, "vf_loss": 104.38417053222656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.985676646232605, "entropy": 2.893028736114502, "cur_lr": 4.999999873689376e-05, "total_loss": 104.25245666503906}, "load_time_ms": 0.656, "num_steps_sampled": 3463200, "grad_time_ms": 652.373, "update_time_ms": 2.478, "sample_time_ms": 34017.307}, "date": "2025-08-31_18-20-17", "hostname": "cda-server-4", "time_this_iter_s": 34.41269612312317, "episodes_total": 17316, "timestamp": 1756657217, "node_ip": "10.157.146.4", "done": false, "time_total_s": 94140.95909905434, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2887, "episode_reward_mean": -604.4908404425646, "training_iteration": 2887, "timesteps_total": 3464400, "policy_reward_mean": {}, "episode_reward_min": -657.105226754241, "timesteps_since_restore": 3464400, "num_metric_batches_dropped": 0, "time_since_restore": 94174.39003705978, "episode_reward_max": -458.7591718268592, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3464400, "default": {"kl": 0.010374622419476509, "policy_loss": -0.1477448046207428, "vf_loss": 303.0611572265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9594587683677673, "entropy": 3.1579856872558594, "cur_lr": 4.999999873689376e-05, "total_loss": 302.92913818359375}, "load_time_ms": 0.654, "num_steps_sampled": 3464400, "grad_time_ms": 653.399, "update_time_ms": 2.471, "sample_time_ms": 33855.244}, "date": "2025-08-31_18-20-50", "hostname": "cda-server-4", "time_this_iter_s": 33.43093800544739, "episodes_total": 17322, "timestamp": 1756657250, "node_ip": "10.157.146.4", "done": false, "time_total_s": 94174.39003705978, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2888, "episode_reward_mean": -605.3845467567677, "training_iteration": 2888, "timesteps_total": 3465600, "policy_reward_mean": {}, "episode_reward_min": -657.105226754241, "timesteps_since_restore": 3465600, "num_metric_batches_dropped": 0, "time_since_restore": 94209.45825338364, "episode_reward_max": -458.7591718268592, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3465600, "default": {"kl": 0.009709211066365242, "policy_loss": -0.12915337085723877, "vf_loss": 150.34182739257812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9784730076789856, "entropy": 3.0068507194519043, "cur_lr": 4.999999873689376e-05, "total_loss": 150.2274169921875}, "load_time_ms": 0.632, "num_steps_sampled": 3465600, "grad_time_ms": 674.844, "update_time_ms": 2.505, "sample_time_ms": 33901.859}, "date": "2025-08-31_18-21-25", "hostname": "cda-server-4", "time_this_iter_s": 35.06821632385254, "episodes_total": 17328, "timestamp": 1756657285, "node_ip": "10.157.146.4", "done": false, "time_total_s": 94209.45825338364, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2889, "episode_reward_mean": -606.03729735946, "training_iteration": 2889, "timesteps_total": 3466800, "policy_reward_mean": {}, "episode_reward_min": -790.0005271671558, "timesteps_since_restore": 3466800, "num_metric_batches_dropped": 0, "time_since_restore": 94243.9344587326, "episode_reward_max": -458.7591718268592, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3466800, "default": {"kl": 0.012408727779984474, "policy_loss": -0.14189080893993378, "vf_loss": 1123.203369140625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8892943263053894, "entropy": 3.5458874702453613, "cur_lr": 4.999999873689376e-05, "total_loss": 1123.0804443359375}, "load_time_ms": 0.626, "num_steps_sampled": 3466800, "grad_time_ms": 688.894, "update_time_ms": 2.496, "sample_time_ms": 33937.419}, "date": "2025-08-31_18-22-00", "hostname": "cda-server-4", "time_this_iter_s": 34.476205348968506, "episodes_total": 17334, "timestamp": 1756657320, "node_ip": "10.157.146.4", "done": false, "time_total_s": 94243.9344587326, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2890, "episode_reward_mean": -605.6132948177933, "training_iteration": 2890, "timesteps_total": 3468000, "policy_reward_mean": {}, "episode_reward_min": -790.0005271671558, "timesteps_since_restore": 3468000, "num_metric_batches_dropped": 0, "time_since_restore": 94277.96442103386, "episode_reward_max": -458.7591718268592, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3468000, "default": {"kl": 0.009408452548086643, "policy_loss": -0.1267198920249939, "vf_loss": 163.61997985839844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9789366126060486, "entropy": 2.863369941711426, "cur_lr": 4.999999873689376e-05, "total_loss": 163.50755310058594}, "load_time_ms": 0.623, "num_steps_sampled": 3468000, "grad_time_ms": 697.201, "update_time_ms": 2.472, "sample_time_ms": 33878.13}, "date": "2025-08-31_18-22-34", "hostname": "cda-server-4", "time_this_iter_s": 34.02996230125427, "episodes_total": 17340, "timestamp": 1756657354, "node_ip": "10.157.146.4", "done": false, "time_total_s": 94277.96442103386, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2891, "episode_reward_mean": -604.6172740318532, "training_iteration": 2891, "timesteps_total": 3469200, "policy_reward_mean": {}, "episode_reward_min": -790.0005271671558, "timesteps_since_restore": 3469200, "num_metric_batches_dropped": 0, "time_since_restore": 94312.49121975899, "episode_reward_max": -458.7591718268592, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3469200, "default": {"kl": 0.009341031312942505, "policy_loss": -0.133976012468338, "vf_loss": 138.3413543701172, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.983250617980957, "entropy": 2.9319417476654053, "cur_lr": 4.999999873689376e-05, "total_loss": 138.2215576171875}, "load_time_ms": 0.625, "num_steps_sampled": 3469200, "grad_time_ms": 683.233, "update_time_ms": 2.427, "sample_time_ms": 33786.175}, "date": "2025-08-31_18-23-08", "hostname": "cda-server-4", "time_this_iter_s": 34.526798725128174, "episodes_total": 17346, "timestamp": 1756657388, "node_ip": "10.157.146.4", "done": false, "time_total_s": 94312.49121975899, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2892, "episode_reward_mean": -604.8479991615585, "training_iteration": 2892, "timesteps_total": 3470400, "policy_reward_mean": {}, "episode_reward_min": -790.0005271671558, "timesteps_since_restore": 3470400, "num_metric_batches_dropped": 0, "time_since_restore": 94346.99191331863, "episode_reward_max": -458.7591718268592, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3470400, "default": {"kl": 0.011159472167491913, "policy_loss": -0.1146845668554306, "vf_loss": 560.4281616210938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.92934250831604, "entropy": 3.202650785446167, "cur_lr": 4.999999873689376e-05, "total_loss": 560.3303833007812}, "load_time_ms": 0.633, "num_steps_sampled": 3470400, "grad_time_ms": 662.081, "update_time_ms": 2.199, "sample_time_ms": 33749.72}, "date": "2025-08-31_18-23-43", "hostname": "cda-server-4", "time_this_iter_s": 34.500693559646606, "episodes_total": 17352, "timestamp": 1756657423, "node_ip": "10.157.146.4", "done": false, "time_total_s": 94346.99191331863, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2893, "episode_reward_mean": -605.4351513809193, "training_iteration": 2893, "timesteps_total": 3471600, "policy_reward_mean": {}, "episode_reward_min": -790.0005271671558, "timesteps_since_restore": 3471600, "num_metric_batches_dropped": 0, "time_since_restore": 94381.15060901642, "episode_reward_max": -458.7591718268592, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3471600, "default": {"kl": 0.009630587883293629, "policy_loss": -0.11401471495628357, "vf_loss": 391.33056640625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9534534811973572, "entropy": 2.880305528640747, "cur_lr": 4.999999873689376e-05, "total_loss": 391.2312316894531}, "load_time_ms": 0.601, "num_steps_sampled": 3471600, "grad_time_ms": 636.881, "update_time_ms": 2.228, "sample_time_ms": 33786.491}, "date": "2025-08-31_18-24-17", "hostname": "cda-server-4", "time_this_iter_s": 34.158695697784424, "episodes_total": 17358, "timestamp": 1756657457, "node_ip": "10.157.146.4", "done": false, "time_total_s": 94381.15060901642, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2894, "episode_reward_mean": -607.9202503471398, "training_iteration": 2894, "timesteps_total": 3472800, "policy_reward_mean": {}, "episode_reward_min": -790.0005271671558, "timesteps_since_restore": 3472800, "num_metric_batches_dropped": 0, "time_since_restore": 94414.92738771439, "episode_reward_max": -464.4002352186299, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3472800, "default": {"kl": 0.009545300155878067, "policy_loss": -0.126661017537117, "vf_loss": 76.82540893554688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9883447289466858, "entropy": 2.9205148220062256, "cur_lr": 4.999999873689376e-05, "total_loss": 76.71324920654297}, "load_time_ms": 0.593, "num_steps_sampled": 3472800, "grad_time_ms": 621.868, "update_time_ms": 2.19, "sample_time_ms": 33712.377}, "date": "2025-08-31_18-24-51", "hostname": "cda-server-4", "time_this_iter_s": 33.77677869796753, "episodes_total": 17364, "timestamp": 1756657491, "node_ip": "10.157.146.4", "done": false, "time_total_s": 94414.92738771439, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2895, "episode_reward_mean": -606.9096749891035, "training_iteration": 2895, "timesteps_total": 3474000, "policy_reward_mean": {}, "episode_reward_min": -790.0005271671558, "timesteps_since_restore": 3474000, "num_metric_batches_dropped": 0, "time_since_restore": 94449.7393181324, "episode_reward_max": -464.4002352186299, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3474000, "default": {"kl": 0.010805981233716011, "policy_loss": -0.1360575556755066, "vf_loss": 63.37748336791992, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9907929301261902, "entropy": 3.0223400592803955, "cur_lr": 4.999999873689376e-05, "total_loss": 63.25783157348633}, "load_time_ms": 0.598, "num_steps_sampled": 3474000, "grad_time_ms": 625.652, "update_time_ms": 2.222, "sample_time_ms": 33686.613}, "date": "2025-08-31_18-25-26", "hostname": "cda-server-4", "time_this_iter_s": 34.811930418014526, "episodes_total": 17370, "timestamp": 1756657526, "node_ip": "10.157.146.4", "done": false, "time_total_s": 94449.7393181324, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2896, "episode_reward_mean": -608.4707660971098, "training_iteration": 2896, "timesteps_total": 3475200, "policy_reward_mean": {}, "episode_reward_min": -790.0005271671558, "timesteps_since_restore": 3475200, "num_metric_batches_dropped": 0, "time_since_restore": 94484.2082452774, "episode_reward_max": -464.4002352186299, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3475200, "default": {"kl": 0.010186690837144852, "policy_loss": -0.12862636148929596, "vf_loss": 95.79155731201172, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9863986968994141, "entropy": 3.0834569931030273, "cur_lr": 4.999999873689376e-05, "total_loss": 95.67839050292969}, "load_time_ms": 0.598, "num_steps_sampled": 3475200, "grad_time_ms": 608.779, "update_time_ms": 2.307, "sample_time_ms": 33709.15}, "date": "2025-08-31_18-26-00", "hostname": "cda-server-4", "time_this_iter_s": 34.46892714500427, "episodes_total": 17376, "timestamp": 1756657560, "node_ip": "10.157.146.4", "done": false, "time_total_s": 94484.2082452774, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2897, "episode_reward_mean": -608.7439184595147, "training_iteration": 2897, "timesteps_total": 3476400, "policy_reward_mean": {}, "episode_reward_min": -790.0005271671558, "timesteps_since_restore": 3476400, "num_metric_batches_dropped": 0, "time_since_restore": 94518.67389702797, "episode_reward_max": -464.4002352186299, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3476400, "default": {"kl": 0.010485638864338398, "policy_loss": -0.137865349650383, "vf_loss": 91.018310546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9907759428024292, "entropy": 3.084427833557129, "cur_lr": 4.999999873689376e-05, "total_loss": 90.89637756347656}, "load_time_ms": 0.599, "num_steps_sampled": 3476400, "grad_time_ms": 607.647, "update_time_ms": 2.349, "sample_time_ms": 33813.726}, "date": "2025-08-31_18-26-35", "hostname": "cda-server-4", "time_this_iter_s": 34.465651750564575, "episodes_total": 17382, "timestamp": 1756657595, "node_ip": "10.157.146.4", "done": false, "time_total_s": 94518.67389702797, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2898, "episode_reward_mean": -609.3827791490158, "training_iteration": 2898, "timesteps_total": 3477600, "policy_reward_mean": {}, "episode_reward_min": -790.0005271671558, "timesteps_since_restore": 3477600, "num_metric_batches_dropped": 0, "time_since_restore": 94552.46951127052, "episode_reward_max": -464.4002352186299, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3477600, "default": {"kl": 0.009817223995923996, "policy_loss": -0.13408850133419037, "vf_loss": 145.92857360839844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9825743436813354, "entropy": 3.0775442123413086, "cur_lr": 4.999999873689376e-05, "total_loss": 145.8094024658203}, "load_time_ms": 0.622, "num_steps_sampled": 3477600, "grad_time_ms": 598.844, "update_time_ms": 2.428, "sample_time_ms": 33695.199}, "date": "2025-08-31_18-27-08", "hostname": "cda-server-4", "time_this_iter_s": 33.79561424255371, "episodes_total": 17388, "timestamp": 1756657628, "node_ip": "10.157.146.4", "done": false, "time_total_s": 94552.46951127052, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2899, "episode_reward_mean": -609.9756197809567, "training_iteration": 2899, "timesteps_total": 3478800, "policy_reward_mean": {}, "episode_reward_min": -790.0005271671558, "timesteps_since_restore": 3478800, "num_metric_batches_dropped": 0, "time_since_restore": 94586.56609344482, "episode_reward_max": -464.4002352186299, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3478800, "default": {"kl": 0.011127043515443802, "policy_loss": -0.14452123641967773, "vf_loss": 99.42552185058594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9884951114654541, "entropy": 3.0002377033233643, "cur_lr": 4.999999873689376e-05, "total_loss": 99.29789733886719}, "load_time_ms": 0.633, "num_steps_sampled": 3478800, "grad_time_ms": 585.06, "update_time_ms": 2.446, "sample_time_ms": 33670.775}, "date": "2025-08-31_18-27-42", "hostname": "cda-server-4", "time_this_iter_s": 34.09658217430115, "episodes_total": 17394, "timestamp": 1756657662, "node_ip": "10.157.146.4", "done": false, "time_total_s": 94586.56609344482, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2900, "episode_reward_mean": -608.9482866406331, "training_iteration": 2900, "timesteps_total": 3480000, "policy_reward_mean": {}, "episode_reward_min": -790.0005271671558, "timesteps_since_restore": 3480000, "num_metric_batches_dropped": 0, "time_since_restore": 94621.56119465828, "episode_reward_max": -464.4002352186299, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3480000, "default": {"kl": 0.009920641779899597, "policy_loss": -0.12357282638549805, "vf_loss": 36.10336685180664, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9951444268226624, "entropy": 3.0120675563812256, "cur_lr": 4.999999873689376e-05, "total_loss": 35.9948616027832}, "load_time_ms": 0.631, "num_steps_sampled": 3480000, "grad_time_ms": 573.799, "update_time_ms": 2.516, "sample_time_ms": 33778.356}, "date": "2025-08-31_18-28-17", "hostname": "cda-server-4", "time_this_iter_s": 34.9951012134552, "episodes_total": 17400, "timestamp": 1756657697, "node_ip": "10.157.146.4", "done": false, "time_total_s": 94621.56119465828, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2901, "episode_reward_mean": -611.2182409967935, "training_iteration": 2901, "timesteps_total": 3481200, "policy_reward_mean": {}, "episode_reward_min": -810.4610582350292, "timesteps_since_restore": 3481200, "num_metric_batches_dropped": 0, "time_since_restore": 94655.5631017685, "episode_reward_max": -464.4002352186299, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3481200, "default": {"kl": 0.008844335563480854, "policy_loss": -0.1102636530995369, "vf_loss": 354.5466613769531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9666595458984375, "entropy": 3.2974798679351807, "cur_lr": 4.999999873689376e-05, "total_loss": 354.4498291015625}, "load_time_ms": 0.642, "num_steps_sampled": 3481200, "grad_time_ms": 583.431, "update_time_ms": 2.624, "sample_time_ms": 33716.097}, "date": "2025-08-31_18-28-52", "hostname": "cda-server-4", "time_this_iter_s": 34.00190711021423, "episodes_total": 17406, "timestamp": 1756657732, "node_ip": "10.157.146.4", "done": false, "time_total_s": 94655.5631017685, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2902, "episode_reward_mean": -611.4161773123411, "training_iteration": 2902, "timesteps_total": 3482400, "policy_reward_mean": {}, "episode_reward_min": -810.4610582350292, "timesteps_since_restore": 3482400, "num_metric_batches_dropped": 0, "time_since_restore": 94691.2102921009, "episode_reward_max": -464.4002352186299, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3482400, "default": {"kl": 0.010084441863000393, "policy_loss": -0.11852778494358063, "vf_loss": 87.3203125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9886181950569153, "entropy": 2.987187623977661, "cur_lr": 4.999999873689376e-05, "total_loss": 87.21710205078125}, "load_time_ms": 0.635, "num_steps_sampled": 3482400, "grad_time_ms": 597.978, "update_time_ms": 2.604, "sample_time_ms": 33816.136}, "date": "2025-08-31_18-29-27", "hostname": "cda-server-4", "time_this_iter_s": 35.64719033241272, "episodes_total": 17412, "timestamp": 1756657767, "node_ip": "10.157.146.4", "done": false, "time_total_s": 94691.2102921009, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2903, "episode_reward_mean": -610.7324953186346, "training_iteration": 2903, "timesteps_total": 3483600, "policy_reward_mean": {}, "episode_reward_min": -810.4610582350292, "timesteps_since_restore": 3483600, "num_metric_batches_dropped": 0, "time_since_restore": 94727.0524456501, "episode_reward_max": -444.041069252962, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3483600, "default": {"kl": 0.009909682907164097, "policy_loss": -0.12053114920854568, "vf_loss": 1106.660400390625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.8777831792831421, "entropy": 2.994075298309326, "cur_lr": 4.999999873689376e-05, "total_loss": 1106.554931640625}, "load_time_ms": 0.634, "num_steps_sampled": 3483600, "grad_time_ms": 640.887, "update_time_ms": 2.589, "sample_time_ms": 33941.524}, "date": "2025-08-31_18-30-03", "hostname": "cda-server-4", "time_this_iter_s": 35.842153549194336, "episodes_total": 17418, "timestamp": 1756657803, "node_ip": "10.157.146.4", "done": false, "time_total_s": 94727.0524456501, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2904, "episode_reward_mean": -610.6480824397557, "training_iteration": 2904, "timesteps_total": 3484800, "policy_reward_mean": {}, "episode_reward_min": -810.4610582350292, "timesteps_since_restore": 3484800, "num_metric_batches_dropped": 0, "time_since_restore": 94761.62088513374, "episode_reward_max": -444.041069252962, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3484800, "default": {"kl": 0.011458848603069782, "policy_loss": -0.1345842480659485, "vf_loss": 60.70630645751953, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.994806706905365, "entropy": 2.906235456466675, "cur_lr": 4.999999873689376e-05, "total_loss": 60.58912658691406}, "load_time_ms": 0.636, "num_steps_sampled": 3484800, "grad_time_ms": 652.44, "update_time_ms": 2.839, "sample_time_ms": 34008.945}, "date": "2025-08-31_18-30-38", "hostname": "cda-server-4", "time_this_iter_s": 34.56843948364258, "episodes_total": 17424, "timestamp": 1756657838, "node_ip": "10.157.146.4", "done": false, "time_total_s": 94761.62088513374, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2905, "episode_reward_mean": -609.332725355374, "training_iteration": 2905, "timesteps_total": 3486000, "policy_reward_mean": {}, "episode_reward_min": -810.4610582350292, "timesteps_since_restore": 3486000, "num_metric_batches_dropped": 0, "time_since_restore": 94795.52918195724, "episode_reward_max": -444.041069252962, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3486000, "default": {"kl": 0.00955821294337511, "policy_loss": -0.13609009981155396, "vf_loss": 602.6250610351562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9543612003326416, "entropy": 3.154416084289551, "cur_lr": 4.999999873689376e-05, "total_loss": 602.5035400390625}, "load_time_ms": 0.628, "num_steps_sampled": 3486000, "grad_time_ms": 671.257, "update_time_ms": 2.834, "sample_time_ms": 33899.796}, "date": "2025-08-31_18-31-12", "hostname": "cda-server-4", "time_this_iter_s": 33.90829682350159, "episodes_total": 17430, "timestamp": 1756657872, "node_ip": "10.157.146.4", "done": false, "time_total_s": 94795.52918195724, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2906, "episode_reward_mean": -609.3151643426961, "training_iteration": 2906, "timesteps_total": 3487200, "policy_reward_mean": {}, "episode_reward_min": -810.4610582350292, "timesteps_since_restore": 3487200, "num_metric_batches_dropped": 0, "time_since_restore": 94830.659273386, "episode_reward_max": -444.041069252962, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3487200, "default": {"kl": 0.0098145492374897, "policy_loss": -0.13869354128837585, "vf_loss": 172.36778259277344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.981282651424408, "entropy": 2.8161802291870117, "cur_lr": 4.999999873689376e-05, "total_loss": 172.2440185546875}, "load_time_ms": 0.629, "num_steps_sampled": 3487200, "grad_time_ms": 699.578, "update_time_ms": 2.754, "sample_time_ms": 33937.648}, "date": "2025-08-31_18-31-47", "hostname": "cda-server-4", "time_this_iter_s": 35.130091428756714, "episodes_total": 17436, "timestamp": 1756657907, "node_ip": "10.157.146.4", "done": false, "time_total_s": 94830.659273386, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2907, "episode_reward_mean": -609.4101736795933, "training_iteration": 2907, "timesteps_total": 3488400, "policy_reward_mean": {}, "episode_reward_min": -810.4610582350292, "timesteps_since_restore": 3488400, "num_metric_batches_dropped": 0, "time_since_restore": 94865.34634900093, "episode_reward_max": -444.041069252962, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3488400, "default": {"kl": 0.010443083010613918, "policy_loss": -0.155511274933815, "vf_loss": 285.56512451171875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9742549061775208, "entropy": 2.9529917240142822, "cur_lr": 4.999999873689376e-05, "total_loss": 285.4255065917969}, "load_time_ms": 0.631, "num_steps_sampled": 3488400, "grad_time_ms": 694.609, "update_time_ms": 2.704, "sample_time_ms": 33964.819}, "date": "2025-08-31_18-32-21", "hostname": "cda-server-4", "time_this_iter_s": 34.6870756149292, "episodes_total": 17442, "timestamp": 1756657941, "node_ip": "10.157.146.4", "done": false, "time_total_s": 94865.34634900093, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2908, "episode_reward_mean": -610.8885935629645, "training_iteration": 2908, "timesteps_total": 3489600, "policy_reward_mean": {}, "episode_reward_min": -810.4610582350292, "timesteps_since_restore": 3489600, "num_metric_batches_dropped": 0, "time_since_restore": 94898.95733833313, "episode_reward_max": -444.041069252962, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3489600, "default": {"kl": 0.009444167837500572, "policy_loss": -0.122773677110672, "vf_loss": 100.26295471191406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.985816240310669, "entropy": 3.085933208465576, "cur_lr": 4.999999873689376e-05, "total_loss": 100.15452575683594}, "load_time_ms": 0.609, "num_steps_sampled": 3489600, "grad_time_ms": 689.446, "update_time_ms": 2.62, "sample_time_ms": 33951.523}, "date": "2025-08-31_18-32-55", "hostname": "cda-server-4", "time_this_iter_s": 33.6109893321991, "episodes_total": 17448, "timestamp": 1756657975, "node_ip": "10.157.146.4", "done": false, "time_total_s": 94898.95733833313, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2909, "episode_reward_mean": -611.352411103834, "training_iteration": 2909, "timesteps_total": 3490800, "policy_reward_mean": {}, "episode_reward_min": -810.4610582350292, "timesteps_since_restore": 3490800, "num_metric_batches_dropped": 0, "time_since_restore": 94934.0726056099, "episode_reward_max": -444.041069252962, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3490800, "default": {"kl": 0.010166989639401436, "policy_loss": -0.1331828534603119, "vf_loss": 307.87896728515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9743393659591675, "entropy": 3.08735990524292, "cur_lr": 4.999999873689376e-05, "total_loss": 307.76123046875}, "load_time_ms": 0.601, "num_steps_sampled": 3490800, "grad_time_ms": 706.642, "update_time_ms": 2.604, "sample_time_ms": 34036.393}, "date": "2025-08-31_18-33-30", "hostname": "cda-server-4", "time_this_iter_s": 35.115267276763916, "episodes_total": 17454, "timestamp": 1756658010, "node_ip": "10.157.146.4", "done": false, "time_total_s": 94934.0726056099, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2910, "episode_reward_mean": -611.6035866706272, "training_iteration": 2910, "timesteps_total": 3492000, "policy_reward_mean": {}, "episode_reward_min": -810.4610582350292, "timesteps_since_restore": 3492000, "num_metric_batches_dropped": 0, "time_since_restore": 94968.40260982513, "episode_reward_max": -444.041069252962, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3492000, "default": {"kl": 0.0098697729408741, "policy_loss": -0.1345692276954651, "vf_loss": 113.45867919921875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.984775960445404, "entropy": 3.0755984783172607, "cur_lr": 4.999999873689376e-05, "total_loss": 113.33909606933594}, "load_time_ms": 0.632, "num_steps_sampled": 3492000, "grad_time_ms": 703.31, "update_time_ms": 2.561, "sample_time_ms": 33973.245}, "date": "2025-08-31_18-34-05", "hostname": "cda-server-4", "time_this_iter_s": 34.33000421524048, "episodes_total": 17460, "timestamp": 1756658045, "node_ip": "10.157.146.4", "done": false, "time_total_s": 94968.40260982513, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2911, "episode_reward_mean": -612.9220670495898, "training_iteration": 2911, "timesteps_total": 3493200, "policy_reward_mean": {}, "episode_reward_min": -810.4610582350292, "timesteps_since_restore": 3493200, "num_metric_batches_dropped": 0, "time_since_restore": 95002.93793582916, "episode_reward_max": -444.041069252962, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3493200, "default": {"kl": 0.00966183003038168, "policy_loss": -0.1224755197763443, "vf_loss": 284.43011474609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9698538184165955, "entropy": 3.14424467086792, "cur_lr": 4.999999873689376e-05, "total_loss": 284.32232666015625}, "load_time_ms": 0.619, "num_steps_sampled": 3493200, "grad_time_ms": 687.117, "update_time_ms": 2.46, "sample_time_ms": 34042.915}, "date": "2025-08-31_18-34-39", "hostname": "cda-server-4", "time_this_iter_s": 34.53532600402832, "episodes_total": 17466, "timestamp": 1756658079, "node_ip": "10.157.146.4", "done": false, "time_total_s": 95002.93793582916, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2912, "episode_reward_mean": -613.468340825868, "training_iteration": 2912, "timesteps_total": 3494400, "policy_reward_mean": {}, "episode_reward_min": -810.4610582350292, "timesteps_since_restore": 3494400, "num_metric_batches_dropped": 0, "time_since_restore": 95037.01771879196, "episode_reward_max": -444.041069252962, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3494400, "default": {"kl": 0.011213365010917187, "policy_loss": -0.15305431187152863, "vf_loss": 88.52129364013672, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9894751310348511, "entropy": 3.1383275985717773, "cur_lr": 4.999999873689376e-05, "total_loss": 88.38528442382812}, "load_time_ms": 0.633, "num_steps_sampled": 3494400, "grad_time_ms": 678.76, "update_time_ms": 2.467, "sample_time_ms": 33894.587}, "date": "2025-08-31_18-35-13", "hostname": "cda-server-4", "time_this_iter_s": 34.07978296279907, "episodes_total": 17472, "timestamp": 1756658113, "node_ip": "10.157.146.4", "done": false, "time_total_s": 95037.01771879196, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2913, "episode_reward_mean": -614.3703104844734, "training_iteration": 2913, "timesteps_total": 3495600, "policy_reward_mean": {}, "episode_reward_min": -810.4610582350292, "timesteps_since_restore": 3495600, "num_metric_batches_dropped": 0, "time_since_restore": 95071.52705645561, "episode_reward_max": -444.041069252962, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3495600, "default": {"kl": 0.012551152147352695, "policy_loss": -0.16004854440689087, "vf_loss": 239.826416015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9738269448280334, "entropy": 3.1551101207733154, "cur_lr": 4.999999873689376e-05, "total_loss": 239.68544006347656}, "load_time_ms": 0.635, "num_steps_sampled": 3495600, "grad_time_ms": 650.095, "update_time_ms": 2.476, "sample_time_ms": 33790.069}, "date": "2025-08-31_18-35-48", "hostname": "cda-server-4", "time_this_iter_s": 34.50933766365051, "episodes_total": 17478, "timestamp": 1756658148, "node_ip": "10.157.146.4", "done": false, "time_total_s": 95071.52705645561, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2914, "episode_reward_mean": -614.4921411825819, "training_iteration": 2914, "timesteps_total": 3496800, "policy_reward_mean": {}, "episode_reward_min": -810.4610582350292, "timesteps_since_restore": 3496800, "num_metric_batches_dropped": 0, "time_since_restore": 95106.45830798149, "episode_reward_max": -444.041069252962, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3496800, "default": {"kl": 0.011908084154129028, "policy_loss": -0.15130235254764557, "vf_loss": 284.84027099609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9696483612060547, "entropy": 3.0265963077545166, "cur_lr": 4.999999873689376e-05, "total_loss": 284.7070617675781}, "load_time_ms": 0.634, "num_steps_sampled": 3496800, "grad_time_ms": 632.747, "update_time_ms": 2.298, "sample_time_ms": 33843.948}, "date": "2025-08-31_18-36-23", "hostname": "cda-server-4", "time_this_iter_s": 34.931251525878906, "episodes_total": 17484, "timestamp": 1756658183, "node_ip": "10.157.146.4", "done": false, "time_total_s": 95106.45830798149, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2915, "episode_reward_mean": -615.276108645501, "training_iteration": 2915, "timesteps_total": 3498000, "policy_reward_mean": {}, "episode_reward_min": -810.4610582350292, "timesteps_since_restore": 3498000, "num_metric_batches_dropped": 0, "time_since_restore": 95140.45836424828, "episode_reward_max": -444.041069252962, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3498000, "default": {"kl": 0.012384368106722832, "policy_loss": -0.1622714400291443, "vf_loss": 218.66513061523438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9774558544158936, "entropy": 3.2360010147094727, "cur_lr": 4.999999873689376e-05, "total_loss": 218.52166748046875}, "load_time_ms": 0.637, "num_steps_sampled": 3498000, "grad_time_ms": 603.739, "update_time_ms": 2.272, "sample_time_ms": 33882.116}, "date": "2025-08-31_18-36-57", "hostname": "cda-server-4", "time_this_iter_s": 34.00005626678467, "episodes_total": 17490, "timestamp": 1756658217, "node_ip": "10.157.146.4", "done": false, "time_total_s": 95140.45836424828, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2916, "episode_reward_mean": -615.7387833403992, "training_iteration": 2916, "timesteps_total": 3499200, "policy_reward_mean": {}, "episode_reward_min": -810.4610582350292, "timesteps_since_restore": 3499200, "num_metric_batches_dropped": 0, "time_since_restore": 95175.5508685112, "episode_reward_max": -444.041069252962, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3499200, "default": {"kl": 0.009757050313055515, "policy_loss": -0.09792932868003845, "vf_loss": 242.03665161132812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.978007972240448, "entropy": 3.0206735134124756, "cur_lr": 4.999999873689376e-05, "total_loss": 241.95355224609375}, "load_time_ms": 0.63, "num_steps_sampled": 3499200, "grad_time_ms": 599.689, "update_time_ms": 2.275, "sample_time_ms": 33882.393}, "date": "2025-08-31_18-37-32", "hostname": "cda-server-4", "time_this_iter_s": 35.092504262924194, "episodes_total": 17496, "timestamp": 1756658252, "node_ip": "10.157.146.4", "done": false, "time_total_s": 95175.5508685112, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2917, "episode_reward_mean": -615.4143050227294, "training_iteration": 2917, "timesteps_total": 3500400, "policy_reward_mean": {}, "episode_reward_min": -810.4610582350292, "timesteps_since_restore": 3500400, "num_metric_batches_dropped": 0, "time_since_restore": 95210.62788558006, "episode_reward_max": -444.041069252962, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3500400, "default": {"kl": 0.01105839665979147, "policy_loss": -0.12982667982578278, "vf_loss": 345.8952941894531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9634577631950378, "entropy": 3.036868095397949, "cur_lr": 4.999999873689376e-05, "total_loss": 345.7822265625}, "load_time_ms": 0.632, "num_steps_sampled": 3500400, "grad_time_ms": 600.074, "update_time_ms": 2.348, "sample_time_ms": 33920.989}, "date": "2025-08-31_18-38-07", "hostname": "cda-server-4", "time_this_iter_s": 35.077017068862915, "episodes_total": 17502, "timestamp": 1756658287, "node_ip": "10.157.146.4", "done": false, "time_total_s": 95210.62788558006, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2918, "episode_reward_mean": -612.9196169768433, "training_iteration": 2918, "timesteps_total": 3501600, "policy_reward_mean": {}, "episode_reward_min": -790.5277067088309, "timesteps_since_restore": 3501600, "num_metric_batches_dropped": 0, "time_since_restore": 95245.20427823067, "episode_reward_max": -444.041069252962, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3501600, "default": {"kl": 0.010403948836028576, "policy_loss": -0.13129590451717377, "vf_loss": 157.4399871826172, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.982365608215332, "entropy": 2.9430551528930664, "cur_lr": 4.999999873689376e-05, "total_loss": 157.32449340820312}, "load_time_ms": 0.625, "num_steps_sampled": 3501600, "grad_time_ms": 600.773, "update_time_ms": 2.362, "sample_time_ms": 34016.854}, "date": "2025-08-31_18-38-42", "hostname": "cda-server-4", "time_this_iter_s": 34.57639265060425, "episodes_total": 17508, "timestamp": 1756658322, "node_ip": "10.157.146.4", "done": false, "time_total_s": 95245.20427823067, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2919, "episode_reward_mean": -612.2269487536058, "training_iteration": 2919, "timesteps_total": 3502800, "policy_reward_mean": {}, "episode_reward_min": -790.5277067088309, "timesteps_since_restore": 3502800, "num_metric_batches_dropped": 0, "time_since_restore": 95279.49693870544, "episode_reward_max": -444.041069252962, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3502800, "default": {"kl": 0.011002243496477604, "policy_loss": -0.15117433667182922, "vf_loss": 192.7182159423828, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9841396808624268, "entropy": 3.026700258255005, "cur_lr": 4.999999873689376e-05, "total_loss": 192.58375549316406}, "load_time_ms": 0.627, "num_steps_sampled": 3502800, "grad_time_ms": 590.823, "update_time_ms": 2.355, "sample_time_ms": 33944.481}, "date": "2025-08-31_18-39-16", "hostname": "cda-server-4", "time_this_iter_s": 34.29266047477722, "episodes_total": 17514, "timestamp": 1756658356, "node_ip": "10.157.146.4", "done": false, "time_total_s": 95279.49693870544, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2920, "episode_reward_mean": -613.891584613195, "training_iteration": 2920, "timesteps_total": 3504000, "policy_reward_mean": {}, "episode_reward_min": -790.5277067088309, "timesteps_since_restore": 3504000, "num_metric_batches_dropped": 0, "time_since_restore": 95313.64124774933, "episode_reward_max": -485.41087291942415, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3504000, "default": {"kl": 0.011071907356381416, "policy_loss": -0.12985439598560333, "vf_loss": 60.30918884277344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9948294162750244, "entropy": 2.9855144023895264, "cur_lr": 4.999999873689376e-05, "total_loss": 60.19615173339844}, "load_time_ms": 0.626, "num_steps_sampled": 3504000, "grad_time_ms": 598.698, "update_time_ms": 2.343, "sample_time_ms": 33918.096}, "date": "2025-08-31_18-39-50", "hostname": "cda-server-4", "time_this_iter_s": 34.14430904388428, "episodes_total": 17520, "timestamp": 1756658390, "node_ip": "10.157.146.4", "done": false, "time_total_s": 95313.64124774933, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2921, "episode_reward_mean": -613.9520393475487, "training_iteration": 2921, "timesteps_total": 3505200, "policy_reward_mean": {}, "episode_reward_min": -790.5277067088309, "timesteps_since_restore": 3505200, "num_metric_batches_dropped": 0, "time_since_restore": 95348.36339449883, "episode_reward_max": -485.41087291942415, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3505200, "default": {"kl": 0.011723697185516357, "policy_loss": -0.15438036620616913, "vf_loss": 211.0606689453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.973353922367096, "entropy": 3.015009880065918, "cur_lr": 4.999999873689376e-05, "total_loss": 210.92410278320312}, "load_time_ms": 0.627, "num_steps_sampled": 3505200, "grad_time_ms": 604.633, "update_time_ms": 2.458, "sample_time_ms": 33930.703}, "date": "2025-08-31_18-40-25", "hostname": "cda-server-4", "time_this_iter_s": 34.72214674949646, "episodes_total": 17526, "timestamp": 1756658425, "node_ip": "10.157.146.4", "done": false, "time_total_s": 95348.36339449883, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2922, "episode_reward_mean": -613.3045021704801, "training_iteration": 2922, "timesteps_total": 3506400, "policy_reward_mean": {}, "episode_reward_min": -790.5277067088309, "timesteps_since_restore": 3506400, "num_metric_batches_dropped": 0, "time_since_restore": 95382.51608753204, "episode_reward_max": -485.41087291942415, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3506400, "default": {"kl": 0.01077589113265276, "policy_loss": -0.15253476798534393, "vf_loss": 52.28150939941406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9929214119911194, "entropy": 3.032487392425537, "cur_lr": 4.999999873689376e-05, "total_loss": 52.14533615112305}, "load_time_ms": 0.615, "num_steps_sampled": 3506400, "grad_time_ms": 616.787, "update_time_ms": 2.455, "sample_time_ms": 33925.812}, "date": "2025-08-31_18-40-59", "hostname": "cda-server-4", "time_this_iter_s": 34.152693033218384, "episodes_total": 17532, "timestamp": 1756658459, "node_ip": "10.157.146.4", "done": false, "time_total_s": 95382.51608753204, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2923, "episode_reward_mean": -614.6040458770225, "training_iteration": 2923, "timesteps_total": 3507600, "policy_reward_mean": {}, "episode_reward_min": -790.5277067088309, "timesteps_since_restore": 3507600, "num_metric_batches_dropped": 0, "time_since_restore": 95417.15713214874, "episode_reward_max": -539.6786950580071, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3507600, "default": {"kl": 0.008857144974172115, "policy_loss": -0.10780730098485947, "vf_loss": 315.7210998535156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9754359722137451, "entropy": 2.9193661212921143, "cur_lr": 4.999999873689376e-05, "total_loss": 315.6267395019531}, "load_time_ms": 0.646, "num_steps_sampled": 3507600, "grad_time_ms": 657.828, "update_time_ms": 2.539, "sample_time_ms": 33897.876}, "date": "2025-08-31_18-41-34", "hostname": "cda-server-4", "time_this_iter_s": 34.64104461669922, "episodes_total": 17538, "timestamp": 1756658494, "node_ip": "10.157.146.4", "done": false, "time_total_s": 95417.15713214874, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2924, "episode_reward_mean": -614.1276221538656, "training_iteration": 2924, "timesteps_total": 3508800, "policy_reward_mean": {}, "episode_reward_min": -790.5277067088309, "timesteps_since_restore": 3508800, "num_metric_batches_dropped": 0, "time_since_restore": 95453.4426150322, "episode_reward_max": -539.6786950580071, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3508800, "default": {"kl": 0.010885813273489475, "policy_loss": -0.11012666672468185, "vf_loss": 213.89532470703125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9808197021484375, "entropy": 2.8162076473236084, "cur_lr": 4.999999873689376e-05, "total_loss": 213.8017120361328}, "load_time_ms": 0.643, "num_steps_sampled": 3508800, "grad_time_ms": 670.48, "update_time_ms": 2.512, "sample_time_ms": 34020.602}, "date": "2025-08-31_18-42-10", "hostname": "cda-server-4", "time_this_iter_s": 36.28548288345337, "episodes_total": 17544, "timestamp": 1756658530, "node_ip": "10.157.146.4", "done": false, "time_total_s": 95453.4426150322, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2925, "episode_reward_mean": -612.6593004033404, "training_iteration": 2925, "timesteps_total": 3510000, "policy_reward_mean": {}, "episode_reward_min": -790.5277067088309, "timesteps_since_restore": 3510000, "num_metric_batches_dropped": 0, "time_since_restore": 95487.51394057274, "episode_reward_max": -539.6786950580071, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3510000, "default": {"kl": 0.01184283196926117, "policy_loss": -0.14885935187339783, "vf_loss": 153.16928100585938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.97861248254776, "entropy": 2.905111074447632, "cur_lr": 4.999999873689376e-05, "total_loss": 153.0384063720703}, "load_time_ms": 0.639, "num_steps_sampled": 3510000, "grad_time_ms": 677.818, "update_time_ms": 2.551, "sample_time_ms": 34020.39}, "date": "2025-08-31_18-42-44", "hostname": "cda-server-4", "time_this_iter_s": 34.0713255405426, "episodes_total": 17550, "timestamp": 1756658564, "node_ip": "10.157.146.4", "done": false, "time_total_s": 95487.51394057274, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2926, "episode_reward_mean": -611.2749156363718, "training_iteration": 2926, "timesteps_total": 3511200, "policy_reward_mean": {}, "episode_reward_min": -790.5277067088309, "timesteps_since_restore": 3511200, "num_metric_batches_dropped": 0, "time_since_restore": 95521.01956248283, "episode_reward_max": -539.6786950580071, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3511200, "default": {"kl": 0.01134820468723774, "policy_loss": -0.13432684540748596, "vf_loss": 46.63468551635742, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.994619607925415, "entropy": 2.887225389480591, "cur_lr": 4.999999873689376e-05, "total_loss": 46.5175895690918}, "load_time_ms": 0.639, "num_steps_sampled": 3511200, "grad_time_ms": 667.466, "update_time_ms": 2.585, "sample_time_ms": 33872.045}, "date": "2025-08-31_18-43-18", "hostname": "cda-server-4", "time_this_iter_s": 33.505621910095215, "episodes_total": 17556, "timestamp": 1756658598, "node_ip": "10.157.146.4", "done": false, "time_total_s": 95521.01956248283, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2927, "episode_reward_mean": -612.3378406528711, "training_iteration": 2927, "timesteps_total": 3512400, "policy_reward_mean": {}, "episode_reward_min": -790.5277067088309, "timesteps_since_restore": 3512400, "num_metric_batches_dropped": 0, "time_since_restore": 95555.86360883713, "episode_reward_max": -520.5034840980849, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3512400, "default": {"kl": 0.01104668527841568, "policy_loss": -0.13515505194664001, "vf_loss": 501.2981872558594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9536880850791931, "entropy": 3.293201446533203, "cur_lr": 4.999999873689376e-05, "total_loss": 501.17974853515625}, "load_time_ms": 0.635, "num_steps_sampled": 3512400, "grad_time_ms": 681.835, "update_time_ms": 2.498, "sample_time_ms": 33834.411}, "date": "2025-08-31_18-43-52", "hostname": "cda-server-4", "time_this_iter_s": 34.84404635429382, "episodes_total": 17562, "timestamp": 1756658632, "node_ip": "10.157.146.4", "done": false, "time_total_s": 95555.86360883713, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2928, "episode_reward_mean": -611.027565092744, "training_iteration": 2928, "timesteps_total": 3513600, "policy_reward_mean": {}, "episode_reward_min": -776.9724347359438, "timesteps_since_restore": 3513600, "num_metric_batches_dropped": 0, "time_since_restore": 95591.14475822449, "episode_reward_max": -520.5034840980849, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3513600, "default": {"kl": 0.0098797045648098, "policy_loss": -0.11186625063419342, "vf_loss": 241.90017700195312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9721165895462036, "entropy": 2.915057420730591, "cur_lr": 4.999999873689376e-05, "total_loss": 241.80332946777344}, "load_time_ms": 0.641, "num_steps_sampled": 3513600, "grad_time_ms": 704.299, "update_time_ms": 2.59, "sample_time_ms": 33882.317}, "date": "2025-08-31_18-44-28", "hostname": "cda-server-4", "time_this_iter_s": 35.28114938735962, "episodes_total": 17568, "timestamp": 1756658668, "node_ip": "10.157.146.4", "done": false, "time_total_s": 95591.14475822449, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2929, "episode_reward_mean": -609.9812013961656, "training_iteration": 2929, "timesteps_total": 3514800, "policy_reward_mean": {}, "episode_reward_min": -776.9724347359438, "timesteps_since_restore": 3514800, "num_metric_batches_dropped": 0, "time_since_restore": 95625.16911649704, "episode_reward_max": -520.5034840980849, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3514800, "default": {"kl": 0.011830084957182407, "policy_loss": -0.14391790330410004, "vf_loss": 131.06483459472656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9868994951248169, "entropy": 2.944973945617676, "cur_lr": 4.999999873689376e-05, "total_loss": 130.93887329101562}, "load_time_ms": 0.645, "num_steps_sampled": 3514800, "grad_time_ms": 716.444, "update_time_ms": 2.709, "sample_time_ms": 33843.317}, "date": "2025-08-31_18-45-02", "hostname": "cda-server-4", "time_this_iter_s": 34.02435827255249, "episodes_total": 17574, "timestamp": 1756658702, "node_ip": "10.157.146.4", "done": false, "time_total_s": 95625.16911649704, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2930, "episode_reward_mean": -609.4047318110881, "training_iteration": 2930, "timesteps_total": 3516000, "policy_reward_mean": {}, "episode_reward_min": -776.9724347359438, "timesteps_since_restore": 3516000, "num_metric_batches_dropped": 0, "time_since_restore": 95659.28741145134, "episode_reward_max": -520.5034840980849, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3516000, "default": {"kl": 0.011921526864171028, "policy_loss": -0.1486380696296692, "vf_loss": 42.585365295410156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9965317845344543, "entropy": 3.0383987426757812, "cur_lr": 4.999999873689376e-05, "total_loss": 42.454830169677734}, "load_time_ms": 0.625, "num_steps_sampled": 3516000, "grad_time_ms": 707.351, "update_time_ms": 2.688, "sample_time_ms": 33849.874}, "date": "2025-08-31_18-45-36", "hostname": "cda-server-4", "time_this_iter_s": 34.11829495429993, "episodes_total": 17580, "timestamp": 1756658736, "node_ip": "10.157.146.4", "done": false, "time_total_s": 95659.28741145134, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2931, "episode_reward_mean": -609.2190480649282, "training_iteration": 2931, "timesteps_total": 3517200, "policy_reward_mean": {}, "episode_reward_min": -776.9724347359438, "timesteps_since_restore": 3517200, "num_metric_batches_dropped": 0, "time_since_restore": 95693.60810399055, "episode_reward_max": -520.5034840980849, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3517200, "default": {"kl": 0.009986290708184242, "policy_loss": -0.12227329611778259, "vf_loss": 39.45524978637695, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9953283667564392, "entropy": 2.862128257751465, "cur_lr": 4.999999873689376e-05, "total_loss": 39.34814453125}, "load_time_ms": 0.632, "num_steps_sampled": 3517200, "grad_time_ms": 695.905, "update_time_ms": 2.579, "sample_time_ms": 33821.294}, "date": "2025-08-31_18-46-10", "hostname": "cda-server-4", "time_this_iter_s": 34.32069253921509, "episodes_total": 17586, "timestamp": 1756658770, "node_ip": "10.157.146.4", "done": false, "time_total_s": 95693.60810399055, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2932, "episode_reward_mean": -609.0251152735772, "training_iteration": 2932, "timesteps_total": 3518400, "policy_reward_mean": {}, "episode_reward_min": -776.9724347359438, "timesteps_since_restore": 3518400, "num_metric_batches_dropped": 0, "time_since_restore": 95728.21762180328, "episode_reward_max": -520.5034840980849, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3518400, "default": {"kl": 0.010457353666424751, "policy_loss": -0.1346665471792221, "vf_loss": 42.850379943847656, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9948244094848633, "entropy": 2.958815097808838, "cur_lr": 4.999999873689376e-05, "total_loss": 42.73159408569336}, "load_time_ms": 0.663, "num_steps_sampled": 3518400, "grad_time_ms": 692.562, "update_time_ms": 2.585, "sample_time_ms": 33870.257}, "date": "2025-08-31_18-46-45", "hostname": "cda-server-4", "time_this_iter_s": 34.60951781272888, "episodes_total": 17592, "timestamp": 1756658805, "node_ip": "10.157.146.4", "done": false, "time_total_s": 95728.21762180328, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2933, "episode_reward_mean": -607.9330684795169, "training_iteration": 2933, "timesteps_total": 3519600, "policy_reward_mean": {}, "episode_reward_min": -776.9724347359438, "timesteps_since_restore": 3519600, "num_metric_batches_dropped": 0, "time_since_restore": 95761.96188259125, "episode_reward_max": -520.5034840980849, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3519600, "default": {"kl": 0.012654716148972511, "policy_loss": -0.12372001260519028, "vf_loss": 255.495361328125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9777737855911255, "entropy": 2.8264575004577637, "cur_lr": 4.999999873689376e-05, "total_loss": 255.390869140625}, "load_time_ms": 0.657, "num_steps_sampled": 3519600, "grad_time_ms": 658.898, "update_time_ms": 2.497, "sample_time_ms": 33814.314}, "date": "2025-08-31_18-47-19", "hostname": "cda-server-4", "time_this_iter_s": 33.74426078796387, "episodes_total": 17598, "timestamp": 1756658839, "node_ip": "10.157.146.4", "done": false, "time_total_s": 95761.96188259125, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2934, "episode_reward_mean": -608.2654171187222, "training_iteration": 2934, "timesteps_total": 3520800, "policy_reward_mean": {}, "episode_reward_min": -776.9724347359438, "timesteps_since_restore": 3520800, "num_metric_batches_dropped": 0, "time_since_restore": 95796.71897387505, "episode_reward_max": -520.5034840980849, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3520800, "default": {"kl": 0.01064381469041109, "policy_loss": -0.14583207666873932, "vf_loss": 79.99174499511719, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9915135502815247, "entropy": 2.9544906616210938, "cur_lr": 4.999999873689376e-05, "total_loss": 79.86207580566406}, "load_time_ms": 0.668, "num_steps_sampled": 3520800, "grad_time_ms": 666.583, "update_time_ms": 2.504, "sample_time_ms": 33653.828}, "date": "2025-08-31_18-47-53", "hostname": "cda-server-4", "time_this_iter_s": 34.75709128379822, "episodes_total": 17604, "timestamp": 1756658873, "node_ip": "10.157.146.4", "done": false, "time_total_s": 95796.71897387505, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2935, "episode_reward_mean": -608.9504773012034, "training_iteration": 2935, "timesteps_total": 3522000, "policy_reward_mean": {}, "episode_reward_min": -776.9724347359438, "timesteps_since_restore": 3522000, "num_metric_batches_dropped": 0, "time_since_restore": 95831.41526293755, "episode_reward_max": -520.5034840980849, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3522000, "default": {"kl": 0.009201680310070515, "policy_loss": -0.12485391646623611, "vf_loss": 76.66055297851562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9877617955207825, "entropy": 3.0282340049743652, "cur_lr": 4.999999873689376e-05, "total_loss": 76.54966735839844}, "load_time_ms": 0.671, "num_steps_sampled": 3522000, "grad_time_ms": 672.6, "update_time_ms": 2.492, "sample_time_ms": 33710.218}, "date": "2025-08-31_18-48-28", "hostname": "cda-server-4", "time_this_iter_s": 34.6962890625, "episodes_total": 17610, "timestamp": 1756658908, "node_ip": "10.157.146.4", "done": false, "time_total_s": 95831.41526293755, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2936, "episode_reward_mean": -610.9892939659699, "training_iteration": 2936, "timesteps_total": 3523200, "policy_reward_mean": {}, "episode_reward_min": -784.3512044774034, "timesteps_since_restore": 3523200, "num_metric_batches_dropped": 0, "time_since_restore": 95865.90434122086, "episode_reward_max": -520.5034840980849, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3523200, "default": {"kl": 0.014755482785403728, "policy_loss": -0.1651138961315155, "vf_loss": 605.0375366210938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9610593318939209, "entropy": 3.1475343704223633, "cur_lr": 4.999999873689376e-05, "total_loss": 604.894775390625}, "load_time_ms": 0.678, "num_steps_sampled": 3523200, "grad_time_ms": 674.289, "update_time_ms": 2.457, "sample_time_ms": 33806.862}, "date": "2025-08-31_18-49-03", "hostname": "cda-server-4", "time_this_iter_s": 34.48907828330994, "episodes_total": 17616, "timestamp": 1756658943, "node_ip": "10.157.146.4", "done": false, "time_total_s": 95865.90434122086, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2937, "episode_reward_mean": -610.3915691326448, "training_iteration": 2937, "timesteps_total": 3524400, "policy_reward_mean": {}, "episode_reward_min": -784.3512044774034, "timesteps_since_restore": 3524400, "num_metric_batches_dropped": 0, "time_since_restore": 95899.82847738266, "episode_reward_max": -520.5034840980849, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3524400, "default": {"kl": 0.013799067586660385, "policy_loss": -0.1449614018201828, "vf_loss": 296.1860046386719, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9694250822067261, "entropy": 2.8369529247283936, "cur_lr": 4.999999873689376e-05, "total_loss": 296.06201171875}, "load_time_ms": 0.683, "num_steps_sampled": 3524400, "grad_time_ms": 656.365, "update_time_ms": 2.513, "sample_time_ms": 33732.777}, "date": "2025-08-31_18-49-37", "hostname": "cda-server-4", "time_this_iter_s": 33.9241361618042, "episodes_total": 17622, "timestamp": 1756658977, "node_ip": "10.157.146.4", "done": false, "time_total_s": 95899.82847738266, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2938, "episode_reward_mean": -610.1847449602985, "training_iteration": 2938, "timesteps_total": 3525600, "policy_reward_mean": {}, "episode_reward_min": -784.3512044774034, "timesteps_since_restore": 3525600, "num_metric_batches_dropped": 0, "time_since_restore": 95934.5307776928, "episode_reward_max": -520.5034840980849, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3525600, "default": {"kl": 0.010538153350353241, "policy_loss": -0.1329934000968933, "vf_loss": 41.13402557373047, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9942032694816589, "entropy": 2.8463988304138184, "cur_lr": 4.999999873689376e-05, "total_loss": 41.01703643798828}, "load_time_ms": 0.678, "num_steps_sampled": 3525600, "grad_time_ms": 638.71, "update_time_ms": 2.396, "sample_time_ms": 33692.682}, "date": "2025-08-31_18-50-11", "hostname": "cda-server-4", "time_this_iter_s": 34.70230031013489, "episodes_total": 17628, "timestamp": 1756659011, "node_ip": "10.157.146.4", "done": false, "time_total_s": 95934.5307776928, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2939, "episode_reward_mean": -610.7048078400626, "training_iteration": 2939, "timesteps_total": 3526800, "policy_reward_mean": {}, "episode_reward_min": -784.3512044774034, "timesteps_since_restore": 3526800, "num_metric_batches_dropped": 0, "time_since_restore": 95969.31637310982, "episode_reward_max": -520.5034840980849, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3526800, "default": {"kl": 0.008071155287325382, "policy_loss": -0.12438558042049408, "vf_loss": 124.5865478515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9881535768508911, "entropy": 2.888679265975952, "cur_lr": 4.999999873689376e-05, "total_loss": 124.47441864013672}, "load_time_ms": 0.677, "num_steps_sampled": 3526800, "grad_time_ms": 628.782, "update_time_ms": 2.298, "sample_time_ms": 33778.781}, "date": "2025-08-31_18-50-46", "hostname": "cda-server-4", "time_this_iter_s": 34.785595417022705, "episodes_total": 17634, "timestamp": 1756659046, "node_ip": "10.157.146.4", "done": false, "time_total_s": 95969.31637310982, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2940, "episode_reward_mean": -610.1552565076975, "training_iteration": 2940, "timesteps_total": 3528000, "policy_reward_mean": {}, "episode_reward_min": -784.3512044774034, "timesteps_since_restore": 3528000, "num_metric_batches_dropped": 0, "time_since_restore": 96003.03369235992, "episode_reward_max": -520.5034840980849, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3528000, "default": {"kl": 0.009144780226051807, "policy_loss": -0.12241419404745102, "vf_loss": 50.08475112915039, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9922627210617065, "entropy": 2.9812514781951904, "cur_lr": 4.999999873689376e-05, "total_loss": 49.97622299194336}, "load_time_ms": 0.67, "num_steps_sampled": 3528000, "grad_time_ms": 628.921, "update_time_ms": 2.314, "sample_time_ms": 33738.548}, "date": "2025-08-31_18-51-20", "hostname": "cda-server-4", "time_this_iter_s": 33.71731925010681, "episodes_total": 17640, "timestamp": 1756659080, "node_ip": "10.157.146.4", "done": false, "time_total_s": 96003.03369235992, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2941, "episode_reward_mean": -610.1382187800405, "training_iteration": 2941, "timesteps_total": 3529200, "policy_reward_mean": {}, "episode_reward_min": -784.3512044774034, "timesteps_since_restore": 3529200, "num_metric_batches_dropped": 0, "time_since_restore": 96037.18250346184, "episode_reward_max": -520.5034840980849, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3529200, "default": {"kl": 0.012373197823762894, "policy_loss": -0.16520391404628754, "vf_loss": 17.27336883544922, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9975347518920898, "entropy": 2.9370951652526855, "cur_lr": 4.999999873689376e-05, "total_loss": 17.1269588470459}, "load_time_ms": 0.703, "num_steps_sampled": 3529200, "grad_time_ms": 628.55, "update_time_ms": 2.319, "sample_time_ms": 33721.638}, "date": "2025-08-31_18-51-54", "hostname": "cda-server-4", "time_this_iter_s": 34.14881110191345, "episodes_total": 17646, "timestamp": 1756659114, "node_ip": "10.157.146.4", "done": false, "time_total_s": 96037.18250346184, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2942, "episode_reward_mean": -611.002529182569, "training_iteration": 2942, "timesteps_total": 3530400, "policy_reward_mean": {}, "episode_reward_min": -784.3512044774034, "timesteps_since_restore": 3530400, "num_metric_batches_dropped": 0, "time_since_restore": 96071.85996937752, "episode_reward_max": -520.5034840980849, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3530400, "default": {"kl": 0.011689450591802597, "policy_loss": -0.14062997698783875, "vf_loss": 236.9876251220703, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.975871741771698, "entropy": 2.9466607570648193, "cur_lr": 4.999999873689376e-05, "total_loss": 236.86477661132812}, "load_time_ms": 0.674, "num_steps_sampled": 3530400, "grad_time_ms": 631.432, "update_time_ms": 2.37, "sample_time_ms": 33725.611}, "date": "2025-08-31_18-52-29", "hostname": "cda-server-4", "time_this_iter_s": 34.67746591567993, "episodes_total": 17652, "timestamp": 1756659149, "node_ip": "10.157.146.4", "done": false, "time_total_s": 96071.85996937752, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2943, "episode_reward_mean": -610.8261917817777, "training_iteration": 2943, "timesteps_total": 3531600, "policy_reward_mean": {}, "episode_reward_min": -784.3512044774034, "timesteps_since_restore": 3531600, "num_metric_batches_dropped": 0, "time_since_restore": 96106.66278290749, "episode_reward_max": -525.8353815511038, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3531600, "default": {"kl": 0.011349032633006573, "policy_loss": -0.13331246376037598, "vf_loss": 614.7518920898438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9345494508743286, "entropy": 3.1053342819213867, "cur_lr": 4.999999873689376e-05, "total_loss": 614.6358032226562}, "load_time_ms": 0.685, "num_steps_sampled": 3531600, "grad_time_ms": 634.381, "update_time_ms": 2.379, "sample_time_ms": 33828.549}, "date": "2025-08-31_18-53-03", "hostname": "cda-server-4", "time_this_iter_s": 34.80281352996826, "episodes_total": 17658, "timestamp": 1756659183, "node_ip": "10.157.146.4", "done": false, "time_total_s": 96106.66278290749, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2944, "episode_reward_mean": -610.2896910759224, "training_iteration": 2944, "timesteps_total": 3532800, "policy_reward_mean": {}, "episode_reward_min": -784.3512044774034, "timesteps_since_restore": 3532800, "num_metric_batches_dropped": 0, "time_since_restore": 96140.92048573494, "episode_reward_max": -525.8353815511038, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3532800, "default": {"kl": 0.010890880599617958, "policy_loss": -0.1127605065703392, "vf_loss": 296.9185485839844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9695122241973877, "entropy": 2.9348607063293457, "cur_lr": 4.999999873689376e-05, "total_loss": 296.822265625}, "load_time_ms": 0.689, "num_steps_sampled": 3532800, "grad_time_ms": 668.024, "update_time_ms": 2.388, "sample_time_ms": 33744.903}, "date": "2025-08-31_18-53-38", "hostname": "cda-server-4", "time_this_iter_s": 34.25770282745361, "episodes_total": 17664, "timestamp": 1756659218, "node_ip": "10.157.146.4", "done": false, "time_total_s": 96140.92048573494, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2945, "episode_reward_mean": -610.5237470755187, "training_iteration": 2945, "timesteps_total": 3534000, "policy_reward_mean": {}, "episode_reward_min": -784.3512044774034, "timesteps_since_restore": 3534000, "num_metric_batches_dropped": 0, "time_since_restore": 96177.21218967438, "episode_reward_max": -518.4406063865612, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3534000, "default": {"kl": 0.011128359474241734, "policy_loss": -0.12433324754238129, "vf_loss": 110.55494689941406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9862039089202881, "entropy": 2.8795766830444336, "cur_lr": 4.999999873689376e-05, "total_loss": 110.447509765625}, "load_time_ms": 0.693, "num_steps_sampled": 3534000, "grad_time_ms": 669.644, "update_time_ms": 2.429, "sample_time_ms": 33902.889}, "date": "2025-08-31_18-54-14", "hostname": "cda-server-4", "time_this_iter_s": 36.291703939437866, "episodes_total": 17670, "timestamp": 1756659254, "node_ip": "10.157.146.4", "done": false, "time_total_s": 96177.21218967438, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2946, "episode_reward_mean": -610.146942301498, "training_iteration": 2946, "timesteps_total": 3535200, "policy_reward_mean": {}, "episode_reward_min": -784.3512044774034, "timesteps_since_restore": 3535200, "num_metric_batches_dropped": 0, "time_since_restore": 96211.67705106735, "episode_reward_max": -518.4406063865612, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3535200, "default": {"kl": 0.011585192754864693, "policy_loss": -0.14352576434612274, "vf_loss": 115.76905822753906, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9856104254722595, "entropy": 2.9675278663635254, "cur_lr": 4.999999873689376e-05, "total_loss": 115.64311981201172}, "load_time_ms": 0.694, "num_steps_sampled": 3535200, "grad_time_ms": 676.497, "update_time_ms": 2.383, "sample_time_ms": 33893.72}, "date": "2025-08-31_18-54-49", "hostname": "cda-server-4", "time_this_iter_s": 34.46486139297485, "episodes_total": 17676, "timestamp": 1756659289, "node_ip": "10.157.146.4", "done": false, "time_total_s": 96211.67705106735, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2947, "episode_reward_mean": -609.7079700747094, "training_iteration": 2947, "timesteps_total": 3536400, "policy_reward_mean": {}, "episode_reward_min": -784.3512044774034, "timesteps_since_restore": 3536400, "num_metric_batches_dropped": 0, "time_since_restore": 96245.1971476078, "episode_reward_max": -518.4406063865612, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3536400, "default": {"kl": 0.011594796553254128, "policy_loss": -0.1451711654663086, "vf_loss": 180.5288543701172, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9816038608551025, "entropy": 2.9419562816619873, "cur_lr": 4.999999873689376e-05, "total_loss": 180.4012908935547}, "load_time_ms": 0.696, "num_steps_sampled": 3536400, "grad_time_ms": 669.755, "update_time_ms": 2.328, "sample_time_ms": 33860.088}, "date": "2025-08-31_18-55-22", "hostname": "cda-server-4", "time_this_iter_s": 33.52009654045105, "episodes_total": 17682, "timestamp": 1756659322, "node_ip": "10.157.146.4", "done": false, "time_total_s": 96245.1971476078, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2948, "episode_reward_mean": -608.9451129303148, "training_iteration": 2948, "timesteps_total": 3537600, "policy_reward_mean": {}, "episode_reward_min": -784.3512044774034, "timesteps_since_restore": 3537600, "num_metric_batches_dropped": 0, "time_since_restore": 96278.7592511177, "episode_reward_max": -518.4406063865612, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3537600, "default": {"kl": 0.01128390897065401, "policy_loss": -0.152684286236763, "vf_loss": 99.88545989990234, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9919658303260803, "entropy": 2.9352686405181885, "cur_lr": 4.999999873689376e-05, "total_loss": 99.74990844726562}, "load_time_ms": 0.7, "num_steps_sampled": 3537600, "grad_time_ms": 657.381, "update_time_ms": 2.362, "sample_time_ms": 33758.453}, "date": "2025-08-31_18-55-56", "hostname": "cda-server-4", "time_this_iter_s": 33.562103509902954, "episodes_total": 17688, "timestamp": 1756659356, "node_ip": "10.157.146.4", "done": false, "time_total_s": 96278.7592511177, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2949, "episode_reward_mean": -609.1319019566594, "training_iteration": 2949, "timesteps_total": 3538800, "policy_reward_mean": {}, "episode_reward_min": -784.3512044774034, "timesteps_since_restore": 3538800, "num_metric_batches_dropped": 0, "time_since_restore": 96313.46407365799, "episode_reward_max": -518.4406063865612, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3538800, "default": {"kl": 0.013567070476710796, "policy_loss": -0.1517765372991562, "vf_loss": 334.58795166015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9750199913978577, "entropy": 2.745345115661621, "cur_lr": 4.999999873689376e-05, "total_loss": 334.4568176269531}, "load_time_ms": 0.699, "num_steps_sampled": 3538800, "grad_time_ms": 655.011, "update_time_ms": 2.379, "sample_time_ms": 33752.724}, "date": "2025-08-31_18-56-30", "hostname": "cda-server-4", "time_this_iter_s": 34.7048225402832, "episodes_total": 17694, "timestamp": 1756659390, "node_ip": "10.157.146.4", "done": false, "time_total_s": 96313.46407365799, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2950, "episode_reward_mean": -609.0178845766403, "training_iteration": 2950, "timesteps_total": 3540000, "policy_reward_mean": {}, "episode_reward_min": -784.3512044774034, "timesteps_since_restore": 3540000, "num_metric_batches_dropped": 0, "time_since_restore": 96349.10789108276, "episode_reward_max": -518.4406063865612, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3540000, "default": {"kl": 0.010502465069293976, "policy_loss": -0.11558875441551208, "vf_loss": 132.10984802246094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9859662652015686, "entropy": 2.8934850692749023, "cur_lr": 4.999999873689376e-05, "total_loss": 132.0102081298828}, "load_time_ms": 0.706, "num_steps_sampled": 3540000, "grad_time_ms": 671.495, "update_time_ms": 2.366, "sample_time_ms": 33928.933}, "date": "2025-08-31_18-57-06", "hostname": "cda-server-4", "time_this_iter_s": 35.64381742477417, "episodes_total": 17700, "timestamp": 1756659426, "node_ip": "10.157.146.4", "done": false, "time_total_s": 96349.10789108276, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2951, "episode_reward_mean": -608.3623846497068, "training_iteration": 2951, "timesteps_total": 3541200, "policy_reward_mean": {}, "episode_reward_min": -784.3512044774034, "timesteps_since_restore": 3541200, "num_metric_batches_dropped": 0, "time_since_restore": 96383.13868832588, "episode_reward_max": -518.4406063865612, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3541200, "default": {"kl": 0.010961702093482018, "policy_loss": -0.1298539638519287, "vf_loss": 266.7249755859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9749630689620972, "entropy": 2.756566286087036, "cur_lr": 4.999999873689376e-05, "total_loss": 266.6117858886719}, "load_time_ms": 0.665, "num_steps_sampled": 3541200, "grad_time_ms": 674.235, "update_time_ms": 2.357, "sample_time_ms": 33914.543}, "date": "2025-08-31_18-57-40", "hostname": "cda-server-4", "time_this_iter_s": 34.030797243118286, "episodes_total": 17706, "timestamp": 1756659460, "node_ip": "10.157.146.4", "done": false, "time_total_s": 96383.13868832588, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2952, "episode_reward_mean": -608.1291332844914, "training_iteration": 2952, "timesteps_total": 3542400, "policy_reward_mean": {}, "episode_reward_min": -784.3512044774034, "timesteps_since_restore": 3542400, "num_metric_batches_dropped": 0, "time_since_restore": 96417.37395572662, "episode_reward_max": -518.4406063865612, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3542400, "default": {"kl": 0.009526832029223442, "policy_loss": -0.13091666996479034, "vf_loss": 316.0787353515625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9598268866539001, "entropy": 2.8963186740875244, "cur_lr": 4.999999873689376e-05, "total_loss": 315.9622497558594}, "load_time_ms": 0.661, "num_steps_sampled": 3542400, "grad_time_ms": 657.713, "update_time_ms": 2.301, "sample_time_ms": 33886.772}, "date": "2025-08-31_18-58-14", "hostname": "cda-server-4", "time_this_iter_s": 34.23526740074158, "episodes_total": 17712, "timestamp": 1756659494, "node_ip": "10.157.146.4", "done": false, "time_total_s": 96417.37395572662, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2953, "episode_reward_mean": -605.9131610619228, "training_iteration": 2953, "timesteps_total": 3543600, "policy_reward_mean": {}, "episode_reward_min": -650.91484748318, "timesteps_since_restore": 3543600, "num_metric_batches_dropped": 0, "time_since_restore": 96451.9866039753, "episode_reward_max": -518.4406063865612, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3543600, "default": {"kl": 0.01030387356877327, "policy_loss": -0.12879304587841034, "vf_loss": 359.7904968261719, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9551042914390564, "entropy": 2.8642354011535645, "cur_lr": 4.999999873689376e-05, "total_loss": 359.6773681640625}, "load_time_ms": 0.622, "num_steps_sampled": 3543600, "grad_time_ms": 633.86, "update_time_ms": 2.325, "sample_time_ms": 33891.643}, "date": "2025-08-31_18-58-49", "hostname": "cda-server-4", "time_this_iter_s": 34.612648248672485, "episodes_total": 17718, "timestamp": 1756659529, "node_ip": "10.157.146.4", "done": false, "time_total_s": 96451.9866039753, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2954, "episode_reward_mean": -605.69094102499, "training_iteration": 2954, "timesteps_total": 3544800, "policy_reward_mean": {}, "episode_reward_min": -650.91484748318, "timesteps_since_restore": 3544800, "num_metric_batches_dropped": 0, "time_since_restore": 96486.78665590286, "episode_reward_max": -518.4406063865612, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3544800, "default": {"kl": 0.011820941232144833, "policy_loss": -0.14689309895038605, "vf_loss": 160.81613159179688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9852218627929688, "entropy": 3.0747015476226807, "cur_lr": 4.999999873689376e-05, "total_loss": 160.68719482421875}, "load_time_ms": 0.643, "num_steps_sampled": 3544800, "grad_time_ms": 582.071, "update_time_ms": 2.29, "sample_time_ms": 33997.697}, "date": "2025-08-31_18-59-24", "hostname": "cda-server-4", "time_this_iter_s": 34.80005192756653, "episodes_total": 17724, "timestamp": 1756659564, "node_ip": "10.157.146.4", "done": false, "time_total_s": 96486.78665590286, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2955, "episode_reward_mean": -606.1764864429093, "training_iteration": 2955, "timesteps_total": 3546000, "policy_reward_mean": {}, "episode_reward_min": -650.91484748318, "timesteps_since_restore": 3546000, "num_metric_batches_dropped": 0, "time_since_restore": 96520.48847007751, "episode_reward_max": -518.4406063865612, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3546000, "default": {"kl": 0.011719867587089539, "policy_loss": -0.16262690722942352, "vf_loss": 167.1334991455078, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9835860133171082, "entropy": 3.061293840408325, "cur_lr": 4.999999873689376e-05, "total_loss": 166.9886932373047}, "load_time_ms": 0.646, "num_steps_sampled": 3546000, "grad_time_ms": 580.657, "update_time_ms": 2.262, "sample_time_ms": 33740.091}, "date": "2025-08-31_18-59-58", "hostname": "cda-server-4", "time_this_iter_s": 33.7018141746521, "episodes_total": 17730, "timestamp": 1756659598, "node_ip": "10.157.146.4", "done": false, "time_total_s": 96520.48847007751, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2956, "episode_reward_mean": -605.6333946950488, "training_iteration": 2956, "timesteps_total": 3547200, "policy_reward_mean": {}, "episode_reward_min": -650.91484748318, "timesteps_since_restore": 3547200, "num_metric_batches_dropped": 0, "time_since_restore": 96554.91354584694, "episode_reward_max": -518.4406063865612, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3547200, "default": {"kl": 0.011110300198197365, "policy_loss": -0.14975695312023163, "vf_loss": 271.0414123535156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9647220969200134, "entropy": 2.9752516746520996, "cur_lr": 4.999999873689376e-05, "total_loss": 270.9085388183594}, "load_time_ms": 0.636, "num_steps_sampled": 3547200, "grad_time_ms": 574.473, "update_time_ms": 2.35, "sample_time_ms": 33742.204}, "date": "2025-08-31_19-00-32", "hostname": "cda-server-4", "time_this_iter_s": 34.42507576942444, "episodes_total": 17736, "timestamp": 1756659632, "node_ip": "10.157.146.4", "done": false, "time_total_s": 96554.91354584694, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2957, "episode_reward_mean": -606.1231260929725, "training_iteration": 2957, "timesteps_total": 3548400, "policy_reward_mean": {}, "episode_reward_min": -650.91484748318, "timesteps_since_restore": 3548400, "num_metric_batches_dropped": 0, "time_since_restore": 96589.50769853592, "episode_reward_max": -518.4406063865612, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3548400, "default": {"kl": 0.009791340678930283, "policy_loss": -0.1448826938867569, "vf_loss": 53.79665756225586, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9921287894248962, "entropy": 2.990468740463257, "cur_lr": 4.999999873689376e-05, "total_loss": 53.666648864746094}, "load_time_ms": 0.639, "num_steps_sampled": 3548400, "grad_time_ms": 579.383, "update_time_ms": 2.386, "sample_time_ms": 33844.627}, "date": "2025-08-31_19-01-07", "hostname": "cda-server-4", "time_this_iter_s": 34.5941526889801, "episodes_total": 17742, "timestamp": 1756659667, "node_ip": "10.157.146.4", "done": false, "time_total_s": 96589.50769853592, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2958, "episode_reward_mean": -606.1000438042126, "training_iteration": 2958, "timesteps_total": 3549600, "policy_reward_mean": {}, "episode_reward_min": -650.91484748318, "timesteps_since_restore": 3549600, "num_metric_batches_dropped": 0, "time_since_restore": 96623.18504691124, "episode_reward_max": -518.4406063865612, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3549600, "default": {"kl": 0.011031397618353367, "policy_loss": -0.15141922235488892, "vf_loss": 185.7244873046875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9777196049690247, "entropy": 3.008659601211548, "cur_lr": 4.999999873689376e-05, "total_loss": 185.58982849121094}, "load_time_ms": 0.634, "num_steps_sampled": 3549600, "grad_time_ms": 590.39, "update_time_ms": 2.355, "sample_time_ms": 33845.125}, "date": "2025-08-31_19-01-40", "hostname": "cda-server-4", "time_this_iter_s": 33.677348375320435, "episodes_total": 17748, "timestamp": 1756659700, "node_ip": "10.157.146.4", "done": false, "time_total_s": 96623.18504691124, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2959, "episode_reward_mean": -605.3987370799782, "training_iteration": 2959, "timesteps_total": 3550800, "policy_reward_mean": {}, "episode_reward_min": -641.1555189616273, "timesteps_since_restore": 3550800, "num_metric_batches_dropped": 0, "time_since_restore": 96657.82564163208, "episode_reward_max": -518.4406063865612, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3550800, "default": {"kl": 0.010275267995893955, "policy_loss": -0.1409631371498108, "vf_loss": 79.21849060058594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9894126057624817, "entropy": 2.8874621391296387, "cur_lr": 4.999999873689376e-05, "total_loss": 79.09313201904297}, "load_time_ms": 0.665, "num_steps_sampled": 3550800, "grad_time_ms": 596.321, "update_time_ms": 2.327, "sample_time_ms": 33832.743}, "date": "2025-08-31_19-02-15", "hostname": "cda-server-4", "time_this_iter_s": 34.640594720840454, "episodes_total": 17754, "timestamp": 1756659735, "node_ip": "10.157.146.4", "done": false, "time_total_s": 96657.82564163208, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2960, "episode_reward_mean": -604.8745389409992, "training_iteration": 2960, "timesteps_total": 3552000, "policy_reward_mean": {}, "episode_reward_min": -641.1555189616273, "timesteps_since_restore": 3552000, "num_metric_batches_dropped": 0, "time_since_restore": 96692.67354345322, "episode_reward_max": -518.4406063865612, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3552000, "default": {"kl": 0.010006610304117203, "policy_loss": -0.13666339218616486, "vf_loss": 85.11082458496094, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9962884187698364, "entropy": 2.823190212249756, "cur_lr": 4.999999873689376e-05, "total_loss": 84.98936462402344}, "load_time_ms": 0.653, "num_steps_sampled": 3552000, "grad_time_ms": 594.276, "update_time_ms": 2.336, "sample_time_ms": 33755.177}, "date": "2025-08-31_19-02-50", "hostname": "cda-server-4", "time_this_iter_s": 34.847901821136475, "episodes_total": 17760, "timestamp": 1756659770, "node_ip": "10.157.146.4", "done": false, "time_total_s": 96692.67354345322, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2961, "episode_reward_mean": -606.3583174948858, "training_iteration": 2961, "timesteps_total": 3553200, "policy_reward_mean": {}, "episode_reward_min": -641.1555189616273, "timesteps_since_restore": 3553200, "num_metric_batches_dropped": 0, "time_since_restore": 96727.82529520988, "episode_reward_max": -550.0761756087633, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3553200, "default": {"kl": 0.01058149803429842, "policy_loss": -0.13691288232803345, "vf_loss": 123.41008758544922, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.988606333732605, "entropy": 2.8786051273345947, "cur_lr": 4.999999873689376e-05, "total_loss": 123.28925323486328}, "load_time_ms": 0.656, "num_steps_sampled": 3553200, "grad_time_ms": 596.602, "update_time_ms": 2.348, "sample_time_ms": 33864.861}, "date": "2025-08-31_19-03-25", "hostname": "cda-server-4", "time_this_iter_s": 35.15175175666809, "episodes_total": 17766, "timestamp": 1756659805, "node_ip": "10.157.146.4", "done": false, "time_total_s": 96727.82529520988, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2962, "episode_reward_mean": -605.911025967733, "training_iteration": 2962, "timesteps_total": 3554400, "policy_reward_mean": {}, "episode_reward_min": -641.1555189616273, "timesteps_since_restore": 3554400, "num_metric_batches_dropped": 0, "time_since_restore": 96761.623285532, "episode_reward_max": -550.0761756087633, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3554400, "default": {"kl": 0.010331181809306145, "policy_loss": -0.13706541061401367, "vf_loss": 96.81649780273438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9884200692176819, "entropy": 2.8650810718536377, "cur_lr": 4.999999873689376e-05, "total_loss": 96.69511413574219}, "load_time_ms": 0.66, "num_steps_sampled": 3554400, "grad_time_ms": 617.361, "update_time_ms": 2.368, "sample_time_ms": 33800.424}, "date": "2025-08-31_19-03-59", "hostname": "cda-server-4", "time_this_iter_s": 33.79799032211304, "episodes_total": 17772, "timestamp": 1756659839, "node_ip": "10.157.146.4", "done": false, "time_total_s": 96761.623285532, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2963, "episode_reward_mean": -606.5415187862054, "training_iteration": 2963, "timesteps_total": 3555600, "policy_reward_mean": {}, "episode_reward_min": -643.9242741690454, "timesteps_since_restore": 3555600, "num_metric_batches_dropped": 0, "time_since_restore": 96795.64555883408, "episode_reward_max": -550.0761756087633, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3555600, "default": {"kl": 0.011153224855661392, "policy_loss": -0.15982957184314728, "vf_loss": 615.3065185546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9279441833496094, "entropy": 3.143176794052124, "cur_lr": 4.999999873689376e-05, "total_loss": 615.1636352539062}, "load_time_ms": 0.66, "num_steps_sampled": 3555600, "grad_time_ms": 615.109, "update_time_ms": 2.296, "sample_time_ms": 33743.67}, "date": "2025-08-31_19-04-33", "hostname": "cda-server-4", "time_this_iter_s": 34.02227330207825, "episodes_total": 17778, "timestamp": 1756659873, "node_ip": "10.157.146.4", "done": false, "time_total_s": 96795.64555883408, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2964, "episode_reward_mean": -606.7411956108878, "training_iteration": 2964, "timesteps_total": 3556800, "policy_reward_mean": {}, "episode_reward_min": -643.9242741690454, "timesteps_since_restore": 3556800, "num_metric_batches_dropped": 0, "time_since_restore": 96830.63551449776, "episode_reward_max": -550.0761756087633, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3556800, "default": {"kl": 0.011713538318872452, "policy_loss": -0.13430282473564148, "vf_loss": 56.14682388305664, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9930874705314636, "entropy": 2.8846065998077393, "cur_lr": 4.999999873689376e-05, "total_loss": 56.030311584472656}, "load_time_ms": 0.659, "num_steps_sampled": 3556800, "grad_time_ms": 618.13, "update_time_ms": 2.309, "sample_time_ms": 33759.463}, "date": "2025-08-31_19-05-08", "hostname": "cda-server-4", "time_this_iter_s": 34.98995566368103, "episodes_total": 17784, "timestamp": 1756659908, "node_ip": "10.157.146.4", "done": false, "time_total_s": 96830.63551449776, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2965, "episode_reward_mean": -607.0954979164945, "training_iteration": 2965, "timesteps_total": 3558000, "policy_reward_mean": {}, "episode_reward_min": -643.9242741690454, "timesteps_since_restore": 3558000, "num_metric_batches_dropped": 0, "time_since_restore": 96864.54536628723, "episode_reward_max": -550.0761756087633, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3558000, "default": {"kl": 0.01260101143270731, "policy_loss": -0.1617763489484787, "vf_loss": 283.3540954589844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9706589579582214, "entropy": 3.0121757984161377, "cur_lr": 4.999999873689376e-05, "total_loss": 283.2114562988281}, "load_time_ms": 0.66, "num_steps_sampled": 3558000, "grad_time_ms": 616.818, "update_time_ms": 2.275, "sample_time_ms": 33781.629}, "date": "2025-08-31_19-05-42", "hostname": "cda-server-4", "time_this_iter_s": 33.90985178947449, "episodes_total": 17790, "timestamp": 1756659942, "node_ip": "10.157.146.4", "done": false, "time_total_s": 96864.54536628723, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2966, "episode_reward_mean": -606.2182900058922, "training_iteration": 2966, "timesteps_total": 3559200, "policy_reward_mean": {}, "episode_reward_min": -643.9242741690454, "timesteps_since_restore": 3559200, "num_metric_batches_dropped": 0, "time_since_restore": 96898.70989871025, "episode_reward_max": -550.0761756087633, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3559200, "default": {"kl": 0.013753719627857208, "policy_loss": -0.15675218403339386, "vf_loss": 75.9393310546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9919617176055908, "entropy": 2.7934303283691406, "cur_lr": 4.999999873689376e-05, "total_loss": 75.803466796875}, "load_time_ms": 0.67, "num_steps_sampled": 3559200, "grad_time_ms": 616.682, "update_time_ms": 2.27, "sample_time_ms": 33755.662}, "date": "2025-08-31_19-06-16", "hostname": "cda-server-4", "time_this_iter_s": 34.16453242301941, "episodes_total": 17796, "timestamp": 1756659976, "node_ip": "10.157.146.4", "done": false, "time_total_s": 96898.70989871025, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2967, "episode_reward_mean": -606.226948061179, "training_iteration": 2967, "timesteps_total": 3560400, "policy_reward_mean": {}, "episode_reward_min": -643.9242741690454, "timesteps_since_restore": 3560400, "num_metric_batches_dropped": 0, "time_since_restore": 96934.31492114067, "episode_reward_max": -552.1399962783659, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3560400, "default": {"kl": 0.010669663548469543, "policy_loss": -0.1324777454137802, "vf_loss": 56.36172866821289, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9922587275505066, "entropy": 2.875234603881836, "cur_lr": 4.999999873689376e-05, "total_loss": 56.245452880859375}, "load_time_ms": 0.705, "num_steps_sampled": 3560400, "grad_time_ms": 633.744, "update_time_ms": 2.227, "sample_time_ms": 33839.694}, "date": "2025-08-31_19-06-52", "hostname": "cda-server-4", "time_this_iter_s": 35.60502243041992, "episodes_total": 17802, "timestamp": 1756660012, "node_ip": "10.157.146.4", "done": false, "time_total_s": 96934.31492114067, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2968, "episode_reward_mean": -604.8064847677014, "training_iteration": 2968, "timesteps_total": 3561600, "policy_reward_mean": {}, "episode_reward_min": -643.9242741690454, "timesteps_since_restore": 3561600, "num_metric_batches_dropped": 0, "time_since_restore": 96968.65168380737, "episode_reward_max": -512.6668609655324, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3561600, "default": {"kl": 0.0100961709395051, "policy_loss": -0.12715251743793488, "vf_loss": 183.09474182128906, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9843463897705078, "entropy": 2.684067964553833, "cur_lr": 4.999999873689376e-05, "total_loss": 182.98291015625}, "load_time_ms": 0.719, "num_steps_sampled": 3561600, "grad_time_ms": 638.661, "update_time_ms": 2.393, "sample_time_ms": 33900.644}, "date": "2025-08-31_19-07-26", "hostname": "cda-server-4", "time_this_iter_s": 34.33676266670227, "episodes_total": 17808, "timestamp": 1756660046, "node_ip": "10.157.146.4", "done": false, "time_total_s": 96968.65168380737, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2969, "episode_reward_mean": -605.8160190818488, "training_iteration": 2969, "timesteps_total": 3562800, "policy_reward_mean": {}, "episode_reward_min": -643.9242741690454, "timesteps_since_restore": 3562800, "num_metric_batches_dropped": 0, "time_since_restore": 97002.58091378212, "episode_reward_max": -512.6668609655324, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3562800, "default": {"kl": 0.01084211003035307, "policy_loss": -0.13738931715488434, "vf_loss": 214.7025146484375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9734532833099365, "entropy": 2.9420413970947266, "cur_lr": 4.999999873689376e-05, "total_loss": 214.58157348632812}, "load_time_ms": 0.699, "num_steps_sampled": 3562800, "grad_time_ms": 631.194, "update_time_ms": 2.342, "sample_time_ms": 33837.099}, "date": "2025-08-31_19-08-00", "hostname": "cda-server-4", "time_this_iter_s": 33.929229974746704, "episodes_total": 17814, "timestamp": 1756660080, "node_ip": "10.157.146.4", "done": false, "time_total_s": 97002.58091378212, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2970, "episode_reward_mean": -606.5698660672524, "training_iteration": 2970, "timesteps_total": 3564000, "policy_reward_mean": {}, "episode_reward_min": -643.9242741690454, "timesteps_since_restore": 3564000, "num_metric_batches_dropped": 0, "time_since_restore": 97036.64599251747, "episode_reward_max": -512.6668609655324, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3564000, "default": {"kl": 0.010847666300833225, "policy_loss": -0.13985925912857056, "vf_loss": 44.030250549316406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9951967597007751, "entropy": 2.891742706298828, "cur_lr": 4.999999873689376e-05, "total_loss": 43.90686798095703}, "load_time_ms": 0.703, "num_steps_sampled": 3564000, "grad_time_ms": 628.707, "update_time_ms": 2.354, "sample_time_ms": 33761.274}, "date": "2025-08-31_19-08-34", "hostname": "cda-server-4", "time_this_iter_s": 34.06507873535156, "episodes_total": 17820, "timestamp": 1756660114, "node_ip": "10.157.146.4", "done": false, "time_total_s": 97036.64599251747, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2971, "episode_reward_mean": -606.1400640687095, "training_iteration": 2971, "timesteps_total": 3565200, "policy_reward_mean": {}, "episode_reward_min": -643.9242741690454, "timesteps_since_restore": 3565200, "num_metric_batches_dropped": 0, "time_since_restore": 97071.5295112133, "episode_reward_max": -512.6668609655324, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3565200, "default": {"kl": 0.010861335322260857, "policy_loss": -0.13192223012447357, "vf_loss": 102.59060668945312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9874469041824341, "entropy": 2.99532151222229, "cur_lr": 4.999999873689376e-05, "total_loss": 102.47516632080078}, "load_time_ms": 0.703, "num_steps_sampled": 3565200, "grad_time_ms": 627.048, "update_time_ms": 2.412, "sample_time_ms": 33736.111}, "date": "2025-08-31_19-09-09", "hostname": "cda-server-4", "time_this_iter_s": 34.8835186958313, "episodes_total": 17826, "timestamp": 1756660149, "node_ip": "10.157.146.4", "done": false, "time_total_s": 97071.5295112133, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2972, "episode_reward_mean": -606.2556014586552, "training_iteration": 2972, "timesteps_total": 3566400, "policy_reward_mean": {}, "episode_reward_min": -643.9242741690454, "timesteps_since_restore": 3566400, "num_metric_batches_dropped": 0, "time_since_restore": 97106.02942323685, "episode_reward_max": -512.6668609655324, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3566400, "default": {"kl": 0.010030929930508137, "policy_loss": -0.149879589676857, "vf_loss": 153.11550903320312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9824886322021484, "entropy": 2.88586688041687, "cur_lr": 4.999999873689376e-05, "total_loss": 152.98086547851562}, "load_time_ms": 0.704, "num_steps_sampled": 3566400, "grad_time_ms": 622.706, "update_time_ms": 2.448, "sample_time_ms": 33810.622}, "date": "2025-08-31_19-09-43", "hostname": "cda-server-4", "time_this_iter_s": 34.49991202354431, "episodes_total": 17832, "timestamp": 1756660183, "node_ip": "10.157.146.4", "done": false, "time_total_s": 97106.02942323685, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2973, "episode_reward_mean": -606.2426247745158, "training_iteration": 2973, "timesteps_total": 3567600, "policy_reward_mean": {}, "episode_reward_min": -643.9242741690454, "timesteps_since_restore": 3567600, "num_metric_batches_dropped": 0, "time_since_restore": 97140.49162006378, "episode_reward_max": -512.6668609655324, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3567600, "default": {"kl": 0.01021700818091631, "policy_loss": -0.12542085349559784, "vf_loss": 69.92664337158203, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9915071129798889, "entropy": 2.997919797897339, "cur_lr": 4.999999873689376e-05, "total_loss": 69.81674194335938}, "load_time_ms": 0.702, "num_steps_sampled": 3567600, "grad_time_ms": 644.964, "update_time_ms": 2.479, "sample_time_ms": 33832.338}, "date": "2025-08-31_19-10-18", "hostname": "cda-server-4", "time_this_iter_s": 34.462196826934814, "episodes_total": 17838, "timestamp": 1756660218, "node_ip": "10.157.146.4", "done": false, "time_total_s": 97140.49162006378, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2974, "episode_reward_mean": -606.038139360769, "training_iteration": 2974, "timesteps_total": 3568800, "policy_reward_mean": {}, "episode_reward_min": -643.9242741690454, "timesteps_since_restore": 3568800, "num_metric_batches_dropped": 0, "time_since_restore": 97175.6242120266, "episode_reward_max": -512.6668609655324, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3568800, "default": {"kl": 0.01193598099052906, "policy_loss": -0.1498650461435318, "vf_loss": 155.67181396484375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9793313145637512, "entropy": 3.1134285926818848, "cur_lr": 4.999999873689376e-05, "total_loss": 155.54010009765625}, "load_time_ms": 0.674, "num_steps_sampled": 3568800, "grad_time_ms": 648.575, "update_time_ms": 2.461, "sample_time_ms": 33843.209}, "date": "2025-08-31_19-10-53", "hostname": "cda-server-4", "time_this_iter_s": 35.13259196281433, "episodes_total": 17844, "timestamp": 1756660253, "node_ip": "10.157.146.4", "done": false, "time_total_s": 97175.6242120266, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2975, "episode_reward_mean": -606.9569743769811, "training_iteration": 2975, "timesteps_total": 3570000, "policy_reward_mean": {}, "episode_reward_min": -643.9242741690454, "timesteps_since_restore": 3570000, "num_metric_batches_dropped": 0, "time_since_restore": 97209.87717318535, "episode_reward_max": -512.6668609655324, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3570000, "default": {"kl": 0.01163919921964407, "policy_loss": -0.14785930514335632, "vf_loss": 51.50580978393555, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.993152916431427, "entropy": 3.0885531902313232, "cur_lr": 4.999999873689376e-05, "total_loss": 51.37562942504883}, "load_time_ms": 0.674, "num_steps_sampled": 3570000, "grad_time_ms": 650.294, "update_time_ms": 2.466, "sample_time_ms": 33875.834}, "date": "2025-08-31_19-11-27", "hostname": "cda-server-4", "time_this_iter_s": 34.25296115875244, "episodes_total": 17850, "timestamp": 1756660287, "node_ip": "10.157.146.4", "done": false, "time_total_s": 97209.87717318535, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2976, "episode_reward_mean": -607.2159488053097, "training_iteration": 2976, "timesteps_total": 3571200, "policy_reward_mean": {}, "episode_reward_min": -643.9242741690454, "timesteps_since_restore": 3571200, "num_metric_batches_dropped": 0, "time_since_restore": 97243.36643362045, "episode_reward_max": -512.6668609655324, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3571200, "default": {"kl": 0.010670140385627747, "policy_loss": -0.12675940990447998, "vf_loss": 75.05669403076172, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9937992095947266, "entropy": 2.930802345275879, "cur_lr": 4.999999873689376e-05, "total_loss": 74.9461441040039}, "load_time_ms": 0.675, "num_steps_sampled": 3571200, "grad_time_ms": 639.194, "update_time_ms": 2.453, "sample_time_ms": 33819.489}, "date": "2025-08-31_19-12-01", "hostname": "cda-server-4", "time_this_iter_s": 33.48926043510437, "episodes_total": 17856, "timestamp": 1756660321, "node_ip": "10.157.146.4", "done": false, "time_total_s": 97243.36643362045, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2977, "episode_reward_mean": -607.528308916537, "training_iteration": 2977, "timesteps_total": 3572400, "policy_reward_mean": {}, "episode_reward_min": -643.9242741690454, "timesteps_since_restore": 3572400, "num_metric_batches_dropped": 0, "time_since_restore": 97277.96496248245, "episode_reward_max": -512.6668609655324, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3572400, "default": {"kl": 0.010559487156569958, "policy_loss": -0.12477263063192368, "vf_loss": 313.9486389160156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9751518964767456, "entropy": 2.9184086322784424, "cur_lr": 4.999999873689376e-05, "total_loss": 313.8399353027344}, "load_time_ms": 0.634, "num_steps_sampled": 3572400, "grad_time_ms": 622.173, "update_time_ms": 2.458, "sample_time_ms": 33735.813}, "date": "2025-08-31_19-12-35", "hostname": "cda-server-4", "time_this_iter_s": 34.59852886199951, "episodes_total": 17862, "timestamp": 1756660355, "node_ip": "10.157.146.4", "done": false, "time_total_s": 97277.96496248245, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2978, "episode_reward_mean": -605.9366661009338, "training_iteration": 2978, "timesteps_total": 3573600, "policy_reward_mean": {}, "episode_reward_min": -643.9242741690454, "timesteps_since_restore": 3573600, "num_metric_batches_dropped": 0, "time_since_restore": 97312.56112027168, "episode_reward_max": -469.87402080504955, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3573600, "default": {"kl": 0.01334121823310852, "policy_loss": -0.15703058242797852, "vf_loss": 133.61061096191406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9874710440635681, "entropy": 2.881408452987671, "cur_lr": 4.999999873689376e-05, "total_loss": 133.4738311767578}, "load_time_ms": 0.62, "num_steps_sampled": 3573600, "grad_time_ms": 632.929, "update_time_ms": 2.314, "sample_time_ms": 33751.039}, "date": "2025-08-31_19-13-10", "hostname": "cda-server-4", "time_this_iter_s": 34.59615778923035, "episodes_total": 17868, "timestamp": 1756660390, "node_ip": "10.157.146.4", "done": false, "time_total_s": 97312.56112027168, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2979, "episode_reward_mean": -605.4078622939963, "training_iteration": 2979, "timesteps_total": 3574800, "policy_reward_mean": {}, "episode_reward_min": -643.9242741690454, "timesteps_since_restore": 3574800, "num_metric_batches_dropped": 0, "time_since_restore": 97347.08708000183, "episode_reward_max": -469.87402080504955, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3574800, "default": {"kl": 0.008641179651021957, "policy_loss": -0.12387894093990326, "vf_loss": 113.01651000976562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9829422831535339, "entropy": 2.9550158977508545, "cur_lr": 4.999999873689376e-05, "total_loss": 112.90576934814453}, "load_time_ms": 0.606, "num_steps_sampled": 3574800, "grad_time_ms": 644.038, "update_time_ms": 2.375, "sample_time_ms": 33799.572}, "date": "2025-08-31_19-13-45", "hostname": "cda-server-4", "time_this_iter_s": 34.525959730148315, "episodes_total": 17874, "timestamp": 1756660425, "node_ip": "10.157.146.4", "done": false, "time_total_s": 97347.08708000183, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2980, "episode_reward_mean": -604.8636184251109, "training_iteration": 2980, "timesteps_total": 3576000, "policy_reward_mean": {}, "episode_reward_min": -631.9520119081493, "timesteps_since_restore": 3576000, "num_metric_batches_dropped": 0, "time_since_restore": 97380.81552481651, "episode_reward_max": -469.87402080504955, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3576000, "default": {"kl": 0.012256979010999203, "policy_loss": -0.14026567339897156, "vf_loss": 47.64595413208008, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9958599805831909, "entropy": 2.8185646533966064, "cur_lr": 4.999999873689376e-05, "total_loss": 47.52430725097656}, "load_time_ms": 0.605, "num_steps_sampled": 3576000, "grad_time_ms": 640.612, "update_time_ms": 2.351, "sample_time_ms": 33769.334}, "date": "2025-08-31_19-14-18", "hostname": "cda-server-4", "time_this_iter_s": 33.72844481468201, "episodes_total": 17880, "timestamp": 1756660458, "node_ip": "10.157.146.4", "done": false, "time_total_s": 97380.81552481651, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2981, "episode_reward_mean": -604.9562932023664, "training_iteration": 2981, "timesteps_total": 3577200, "policy_reward_mean": {}, "episode_reward_min": -631.9520119081493, "timesteps_since_restore": 3577200, "num_metric_batches_dropped": 0, "time_since_restore": 97415.9529299736, "episode_reward_max": -469.87402080504955, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3577200, "default": {"kl": 0.008712800219655037, "policy_loss": -0.1128087043762207, "vf_loss": 96.0828628540039, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9874150156974792, "entropy": 2.9322447776794434, "cur_lr": 4.999999873689376e-05, "total_loss": 95.98328399658203}, "load_time_ms": 0.602, "num_steps_sampled": 3577200, "grad_time_ms": 634.315, "update_time_ms": 2.284, "sample_time_ms": 33801.07}, "date": "2025-08-31_19-14-54", "hostname": "cda-server-4", "time_this_iter_s": 35.13740515708923, "episodes_total": 17886, "timestamp": 1756660494, "node_ip": "10.157.146.4", "done": false, "time_total_s": 97415.9529299736, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2982, "episode_reward_mean": -605.5692718906207, "training_iteration": 2982, "timesteps_total": 3578400, "policy_reward_mean": {}, "episode_reward_min": -636.7065349821584, "timesteps_since_restore": 3578400, "num_metric_batches_dropped": 0, "time_since_restore": 97451.14441752434, "episode_reward_max": -469.87402080504955, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3578400, "default": {"kl": 0.00974510982632637, "policy_loss": -0.14435049891471863, "vf_loss": 261.6362609863281, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.970407247543335, "entropy": 2.899489402770996, "cur_lr": 4.999999873689376e-05, "total_loss": 261.5067138671875}, "load_time_ms": 0.632, "num_steps_sampled": 3578400, "grad_time_ms": 650.778, "update_time_ms": 2.201, "sample_time_ms": 33853.651}, "date": "2025-08-31_19-15-29", "hostname": "cda-server-4", "time_this_iter_s": 35.191487550735474, "episodes_total": 17892, "timestamp": 1756660529, "node_ip": "10.157.146.4", "done": false, "time_total_s": 97451.14441752434, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2983, "episode_reward_mean": -606.5324445711219, "training_iteration": 2983, "timesteps_total": 3579600, "policy_reward_mean": {}, "episode_reward_min": -636.7065349821584, "timesteps_since_restore": 3579600, "num_metric_batches_dropped": 0, "time_since_restore": 97485.74782919884, "episode_reward_max": -469.87402080504955, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3579600, "default": {"kl": 0.012541871517896652, "policy_loss": -0.15060418844223022, "vf_loss": 198.20123291015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9782257080078125, "entropy": 2.891879081726074, "cur_lr": 4.999999873689376e-05, "total_loss": 198.06968688964844}, "load_time_ms": 0.638, "num_steps_sampled": 3579600, "grad_time_ms": 652.544, "update_time_ms": 2.358, "sample_time_ms": 33865.831}, "date": "2025-08-31_19-16-03", "hostname": "cda-server-4", "time_this_iter_s": 34.60341167449951, "episodes_total": 17898, "timestamp": 1756660563, "node_ip": "10.157.146.4", "done": false, "time_total_s": 97485.74782919884, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2984, "episode_reward_mean": -606.556752243872, "training_iteration": 2984, "timesteps_total": 3580800, "policy_reward_mean": {}, "episode_reward_min": -636.7065349821584, "timesteps_since_restore": 3580800, "num_metric_batches_dropped": 0, "time_since_restore": 97519.6643588543, "episode_reward_max": -469.87402080504955, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3580800, "default": {"kl": 0.009802833199501038, "policy_loss": -0.11200657486915588, "vf_loss": 175.3915557861328, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9784458875656128, "entropy": 2.7598507404327393, "cur_lr": 4.999999873689376e-05, "total_loss": 175.29443359375}, "load_time_ms": 0.638, "num_steps_sampled": 3580800, "grad_time_ms": 663.904, "update_time_ms": 2.349, "sample_time_ms": 33732.889}, "date": "2025-08-31_19-16-37", "hostname": "cda-server-4", "time_this_iter_s": 33.91652965545654, "episodes_total": 17904, "timestamp": 1756660597, "node_ip": "10.157.146.4", "done": false, "time_total_s": 97519.6643588543, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2985, "episode_reward_mean": -607.7230672165587, "training_iteration": 2985, "timesteps_total": 3582000, "policy_reward_mean": {}, "episode_reward_min": -636.7065349821584, "timesteps_since_restore": 3582000, "num_metric_batches_dropped": 0, "time_since_restore": 97555.15531682968, "episode_reward_max": -469.87402080504955, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3582000, "default": {"kl": 0.008691992610692978, "policy_loss": -0.12387614697217941, "vf_loss": 109.62362670898438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9838460087776184, "entropy": 2.8260679244995117, "cur_lr": 4.999999873689376e-05, "total_loss": 109.51295471191406}, "load_time_ms": 0.63, "num_steps_sampled": 3582000, "grad_time_ms": 679.721, "update_time_ms": 2.385, "sample_time_ms": 33840.811}, "date": "2025-08-31_19-17-13", "hostname": "cda-server-4", "time_this_iter_s": 35.49095797538757, "episodes_total": 17910, "timestamp": 1756660633, "node_ip": "10.157.146.4", "done": false, "time_total_s": 97555.15531682968, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2986, "episode_reward_mean": -606.6025475981515, "training_iteration": 2986, "timesteps_total": 3583200, "policy_reward_mean": {}, "episode_reward_min": -636.7065349821584, "timesteps_since_restore": 3583200, "num_metric_batches_dropped": 0, "time_since_restore": 97590.66149020195, "episode_reward_max": -469.87402080504955, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3583200, "default": {"kl": 0.012276513502001762, "policy_loss": -0.1332457810640335, "vf_loss": 159.61740112304688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9817969799041748, "entropy": 2.861983299255371, "cur_lr": 4.999999873689376e-05, "total_loss": 159.50282287597656}, "load_time_ms": 0.659, "num_steps_sampled": 3583200, "grad_time_ms": 702.142, "update_time_ms": 2.352, "sample_time_ms": 34019.998}, "date": "2025-08-31_19-17-48", "hostname": "cda-server-4", "time_this_iter_s": 35.50617337226868, "episodes_total": 17916, "timestamp": 1756660668, "node_ip": "10.157.146.4", "done": false, "time_total_s": 97590.66149020195, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2987, "episode_reward_mean": -605.8142821478782, "training_iteration": 2987, "timesteps_total": 3584400, "policy_reward_mean": {}, "episode_reward_min": -637.3448546229874, "timesteps_since_restore": 3584400, "num_metric_batches_dropped": 0, "time_since_restore": 97626.74588608742, "episode_reward_max": -469.87402080504955, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3584400, "default": {"kl": 0.008692502044141293, "policy_loss": -0.11686958372592926, "vf_loss": 136.4291534423828, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9817266464233398, "entropy": 2.8156659603118896, "cur_lr": 4.999999873689376e-05, "total_loss": 136.32550048828125}, "load_time_ms": 0.687, "num_steps_sampled": 3584400, "grad_time_ms": 754.543, "update_time_ms": 2.426, "sample_time_ms": 34116.146}, "date": "2025-08-31_19-18-24", "hostname": "cda-server-4", "time_this_iter_s": 36.08439588546753, "episodes_total": 17922, "timestamp": 1756660704, "node_ip": "10.157.146.4", "done": false, "time_total_s": 97626.74588608742, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2988, "episode_reward_mean": -605.4820920794203, "training_iteration": 2988, "timesteps_total": 3585600, "policy_reward_mean": {}, "episode_reward_min": -637.3448546229874, "timesteps_since_restore": 3585600, "num_metric_batches_dropped": 0, "time_since_restore": 97662.2404460907, "episode_reward_max": -469.87402080504955, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3585600, "default": {"kl": 0.011678118258714676, "policy_loss": -0.13720703125, "vf_loss": 130.83010864257812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9839944839477539, "entropy": 2.8828964233398438, "cur_lr": 4.999999873689376e-05, "total_loss": 130.71063232421875}, "load_time_ms": 0.697, "num_steps_sampled": 3585600, "grad_time_ms": 758.007, "update_time_ms": 2.402, "sample_time_ms": 34202.557}, "date": "2025-08-31_19-19-00", "hostname": "cda-server-4", "time_this_iter_s": 35.49456000328064, "episodes_total": 17928, "timestamp": 1756660740, "node_ip": "10.157.146.4", "done": false, "time_total_s": 97662.2404460907, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2989, "episode_reward_mean": -606.859100642788, "training_iteration": 2989, "timesteps_total": 3586800, "policy_reward_mean": {}, "episode_reward_min": -637.3448546229874, "timesteps_since_restore": 3586800, "num_metric_batches_dropped": 0, "time_since_restore": 97696.62164974213, "episode_reward_max": -469.87402080504955, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3586800, "default": {"kl": 0.011609688401222229, "policy_loss": -0.14304909110069275, "vf_loss": 113.46337890625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9860856533050537, "entropy": 2.909756660461426, "cur_lr": 4.999999873689376e-05, "total_loss": 113.33796691894531}, "load_time_ms": 0.719, "num_steps_sampled": 3586800, "grad_time_ms": 760.104, "update_time_ms": 2.419, "sample_time_ms": 34185.887}, "date": "2025-08-31_19-19-34", "hostname": "cda-server-4", "time_this_iter_s": 34.38120365142822, "episodes_total": 17934, "timestamp": 1756660774, "node_ip": "10.157.146.4", "done": false, "time_total_s": 97696.62164974213, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2990, "episode_reward_mean": -607.2730263313917, "training_iteration": 2990, "timesteps_total": 3588000, "policy_reward_mean": {}, "episode_reward_min": -642.0487574207194, "timesteps_since_restore": 3588000, "num_metric_batches_dropped": 0, "time_since_restore": 97729.66357064247, "episode_reward_max": -469.87402080504955, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3588000, "default": {"kl": 0.010320212692022324, "policy_loss": -0.1370704174041748, "vf_loss": 361.2919616699219, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9585049152374268, "entropy": 2.8391828536987305, "cur_lr": 4.999999873689376e-05, "total_loss": 361.17059326171875}, "load_time_ms": 0.719, "num_steps_sampled": 3588000, "grad_time_ms": 766.142, "update_time_ms": 2.51, "sample_time_ms": 34111.121}, "date": "2025-08-31_19-20-07", "hostname": "cda-server-4", "time_this_iter_s": 33.04192090034485, "episodes_total": 17940, "timestamp": 1756660807, "node_ip": "10.157.146.4", "done": false, "time_total_s": 97729.66357064247, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2991, "episode_reward_mean": -607.239323236511, "training_iteration": 2991, "timesteps_total": 3589200, "policy_reward_mean": {}, "episode_reward_min": -642.0487574207194, "timesteps_since_restore": 3589200, "num_metric_batches_dropped": 0, "time_since_restore": 97763.08039689064, "episode_reward_max": -469.87402080504955, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3589200, "default": {"kl": 0.012402691878378391, "policy_loss": -0.16445960104465485, "vf_loss": 15.76217269897461, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9975659251213074, "entropy": 2.764286518096924, "cur_lr": 4.999999873689376e-05, "total_loss": 15.616551399230957}, "load_time_ms": 0.778, "num_steps_sampled": 3589200, "grad_time_ms": 764.267, "update_time_ms": 2.567, "sample_time_ms": 33940.749}, "date": "2025-08-31_19-20-41", "hostname": "cda-server-4", "time_this_iter_s": 33.416826248168945, "episodes_total": 17946, "timestamp": 1756660841, "node_ip": "10.157.146.4", "done": false, "time_total_s": 97763.08039689064, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2992, "episode_reward_mean": -606.4686145877006, "training_iteration": 2992, "timesteps_total": 3590400, "policy_reward_mean": {}, "episode_reward_min": -642.0487574207194, "timesteps_since_restore": 3590400, "num_metric_batches_dropped": 0, "time_since_restore": 97797.90239143372, "episode_reward_max": -469.87402080504955, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3590400, "default": {"kl": 0.013970870524644852, "policy_loss": -0.1785399317741394, "vf_loss": 30.616947174072266, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9960216879844666, "entropy": 2.8572816848754883, "cur_lr": 4.999999873689376e-05, "total_loss": 30.45962142944336}, "load_time_ms": 0.751, "num_steps_sampled": 3590400, "grad_time_ms": 742.164, "update_time_ms": 2.608, "sample_time_ms": 33926.05}, "date": "2025-08-31_19-21-16", "hostname": "cda-server-4", "time_this_iter_s": 34.82199454307556, "episodes_total": 17952, "timestamp": 1756660876, "node_ip": "10.157.146.4", "done": false, "time_total_s": 97797.90239143372, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2993, "episode_reward_mean": -606.1501078421129, "training_iteration": 2993, "timesteps_total": 3591600, "policy_reward_mean": {}, "episode_reward_min": -642.0487574207194, "timesteps_since_restore": 3591600, "num_metric_batches_dropped": 0, "time_since_restore": 97832.5081794262, "episode_reward_max": -469.87402080504955, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3591600, "default": {"kl": 0.00852261483669281, "policy_loss": -0.11218895018100739, "vf_loss": 160.814697265625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9725250601768494, "entropy": 2.945974349975586, "cur_lr": 4.999999873689376e-05, "total_loss": 160.71543884277344}, "load_time_ms": 0.75, "num_steps_sampled": 3591600, "grad_time_ms": 738.458, "update_time_ms": 2.466, "sample_time_ms": 33930.067}, "date": "2025-08-31_19-21-50", "hostname": "cda-server-4", "time_this_iter_s": 34.60578799247742, "episodes_total": 17958, "timestamp": 1756660910, "node_ip": "10.157.146.4", "done": false, "time_total_s": 97832.5081794262, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2994, "episode_reward_mean": -605.8959847524361, "training_iteration": 2994, "timesteps_total": 3592800, "policy_reward_mean": {}, "episode_reward_min": -642.0487574207194, "timesteps_since_restore": 3592800, "num_metric_batches_dropped": 0, "time_since_restore": 97867.08514332771, "episode_reward_max": -469.87402080504955, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3592800, "default": {"kl": 0.011547347530722618, "policy_loss": -0.1452864557504654, "vf_loss": 85.76409912109375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9901256561279297, "entropy": 2.9407565593719482, "cur_lr": 4.999999873689376e-05, "total_loss": 85.63633728027344}, "load_time_ms": 0.749, "num_steps_sampled": 3592800, "grad_time_ms": 725.908, "update_time_ms": 2.534, "sample_time_ms": 34008.483}, "date": "2025-08-31_19-22-25", "hostname": "cda-server-4", "time_this_iter_s": 34.576963901519775, "episodes_total": 17964, "timestamp": 1756660945, "node_ip": "10.157.146.4", "done": false, "time_total_s": 97867.08514332771, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2995, "episode_reward_mean": -607.3058446823667, "training_iteration": 2995, "timesteps_total": 3594000, "policy_reward_mean": {}, "episode_reward_min": -642.0487574207194, "timesteps_since_restore": 3594000, "num_metric_batches_dropped": 0, "time_since_restore": 97900.4365735054, "episode_reward_max": -527.4269990892635, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3594000, "default": {"kl": 0.010066533461213112, "policy_loss": -0.1273854374885559, "vf_loss": 191.06820678710938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9728367328643799, "entropy": 2.8571739196777344, "cur_lr": 4.999999873689376e-05, "total_loss": 190.95611572265625}, "load_time_ms": 0.747, "num_steps_sampled": 3594000, "grad_time_ms": 715.229, "update_time_ms": 2.519, "sample_time_ms": 33805.223}, "date": "2025-08-31_19-22-58", "hostname": "cda-server-4", "time_this_iter_s": 33.3514301776886, "episodes_total": 17970, "timestamp": 1756660978, "node_ip": "10.157.146.4", "done": false, "time_total_s": 97900.4365735054, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2996, "episode_reward_mean": -607.9190624656196, "training_iteration": 2996, "timesteps_total": 3595200, "policy_reward_mean": {}, "episode_reward_min": -642.0487574207194, "timesteps_since_restore": 3595200, "num_metric_batches_dropped": 0, "time_since_restore": 97934.65833830833, "episode_reward_max": -527.4269990892635, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3595200, "default": {"kl": 0.011314693838357925, "policy_loss": -0.14474105834960938, "vf_loss": 181.44281005859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9822679162025452, "entropy": 2.990708589553833, "cur_lr": 4.999999873689376e-05, "total_loss": 181.31524658203125}, "load_time_ms": 0.714, "num_steps_sampled": 3595200, "grad_time_ms": 703.637, "update_time_ms": 2.507, "sample_time_ms": 33688.496}, "date": "2025-08-31_19-23-32", "hostname": "cda-server-4", "time_this_iter_s": 34.22176480293274, "episodes_total": 17976, "timestamp": 1756661012, "node_ip": "10.157.146.4", "done": false, "time_total_s": 97934.65833830833, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2997, "episode_reward_mean": -608.2243877227767, "training_iteration": 2997, "timesteps_total": 3596400, "policy_reward_mean": {}, "episode_reward_min": -642.0487574207194, "timesteps_since_restore": 3596400, "num_metric_batches_dropped": 0, "time_since_restore": 97969.04009699821, "episode_reward_max": -527.4269990892635, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3596400, "default": {"kl": 0.009966500103473663, "policy_loss": -0.1301710158586502, "vf_loss": 40.17298889160156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9947993159294128, "entropy": 2.8758347034454346, "cur_lr": 4.999999873689376e-05, "total_loss": 40.05794906616211}, "load_time_ms": 0.677, "num_steps_sampled": 3596400, "grad_time_ms": 642.288, "update_time_ms": 2.455, "sample_time_ms": 33579.712}, "date": "2025-08-31_19-24-07", "hostname": "cda-server-4", "time_this_iter_s": 34.38175868988037, "episodes_total": 17982, "timestamp": 1756661047, "node_ip": "10.157.146.4", "done": false, "time_total_s": 97969.04009699821, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2998, "episode_reward_mean": -607.6671705652219, "training_iteration": 2998, "timesteps_total": 3597600, "policy_reward_mean": {}, "episode_reward_min": -642.0487574207194, "timesteps_since_restore": 3597600, "num_metric_batches_dropped": 0, "time_since_restore": 98002.67692232132, "episode_reward_max": -522.836666896002, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3597600, "default": {"kl": 0.010485329665243626, "policy_loss": -0.14200717210769653, "vf_loss": 66.63534545898438, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9900957942008972, "entropy": 2.8684535026550293, "cur_lr": 4.999999873689376e-05, "total_loss": 66.5092544555664}, "load_time_ms": 0.67, "num_steps_sampled": 3597600, "grad_time_ms": 626.623, "update_time_ms": 2.48, "sample_time_ms": 33409.588}, "date": "2025-08-31_19-24-40", "hostname": "cda-server-4", "time_this_iter_s": 33.63682532310486, "episodes_total": 17988, "timestamp": 1756661080, "node_ip": "10.157.146.4", "done": false, "time_total_s": 98002.67692232132, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 2999, "episode_reward_mean": -606.5044732853689, "training_iteration": 2999, "timesteps_total": 3598800, "policy_reward_mean": {}, "episode_reward_min": -642.0487574207194, "timesteps_since_restore": 3598800, "num_metric_batches_dropped": 0, "time_since_restore": 98037.54607391357, "episode_reward_max": -522.836666896002, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3598800, "default": {"kl": 0.011083691380918026, "policy_loss": -0.14530573785305023, "vf_loss": 153.46119689941406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9852997660636902, "entropy": 2.828296184539795, "cur_lr": 4.999999873689376e-05, "total_loss": 153.3327178955078}, "load_time_ms": 0.659, "num_steps_sampled": 3598800, "grad_time_ms": 620.272, "update_time_ms": 2.455, "sample_time_ms": 33464.796}, "date": "2025-08-31_19-25-15", "hostname": "cda-server-4", "time_this_iter_s": 34.86915159225464, "episodes_total": 17994, "timestamp": 1756661115, "node_ip": "10.157.146.4", "done": false, "time_total_s": 98037.54607391357, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3000, "episode_reward_mean": -606.7013059428932, "training_iteration": 3000, "timesteps_total": 3600000, "policy_reward_mean": {}, "episode_reward_min": -642.0487574207194, "timesteps_since_restore": 3600000, "num_metric_batches_dropped": 0, "time_since_restore": 98071.86299395561, "episode_reward_max": -522.836666896002, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3600000, "default": {"kl": 0.012650132179260254, "policy_loss": -0.1363103687763214, "vf_loss": 56.687931060791016, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9941851496696472, "entropy": 2.8195619583129883, "cur_lr": 4.999999873689376e-05, "total_loss": 56.57083511352539}, "load_time_ms": 0.659, "num_steps_sampled": 3600000, "grad_time_ms": 596.862, "update_time_ms": 2.402, "sample_time_ms": 33615.793}, "date": "2025-08-31_19-25-50", "hostname": "cda-server-4", "time_this_iter_s": 34.316920042037964, "episodes_total": 18000, "timestamp": 1756661150, "node_ip": "10.157.146.4", "done": false, "time_total_s": 98071.86299395561, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3001, "episode_reward_mean": -605.2902323262239, "training_iteration": 3001, "timesteps_total": 3601200, "policy_reward_mean": {}, "episode_reward_min": -642.0487574207194, "timesteps_since_restore": 3601200, "num_metric_batches_dropped": 0, "time_since_restore": 98106.02926445007, "episode_reward_max": -465.00788705976504, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3601200, "default": {"kl": 0.012264668941497803, "policy_loss": -0.14600130915641785, "vf_loss": 77.21253967285156, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9915752410888672, "entropy": 2.773773193359375, "cur_lr": 4.999999873689376e-05, "total_loss": 77.08516693115234}, "load_time_ms": 0.601, "num_steps_sampled": 3601200, "grad_time_ms": 586.739, "update_time_ms": 2.34, "sample_time_ms": 33701.076}, "date": "2025-08-31_19-26-24", "hostname": "cda-server-4", "time_this_iter_s": 34.16627049446106, "episodes_total": 18006, "timestamp": 1756661184, "node_ip": "10.157.146.4", "done": false, "time_total_s": 98106.02926445007, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3002, "episode_reward_mean": -605.1425009999708, "training_iteration": 3002, "timesteps_total": 3602400, "policy_reward_mean": {}, "episode_reward_min": -642.0487574207194, "timesteps_since_restore": 3602400, "num_metric_batches_dropped": 0, "time_since_restore": 98140.14249372482, "episode_reward_max": -465.00788705976504, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3602400, "default": {"kl": 0.01019349042326212, "policy_loss": -0.14080996811389923, "vf_loss": 46.476593017578125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.994355320930481, "entropy": 2.76468563079834, "cur_lr": 4.999999873689376e-05, "total_loss": 46.35127258300781}, "load_time_ms": 0.596, "num_steps_sampled": 3602400, "grad_time_ms": 588.635, "update_time_ms": 2.347, "sample_time_ms": 33628.343}, "date": "2025-08-31_19-26-58", "hostname": "cda-server-4", "time_this_iter_s": 34.113229274749756, "episodes_total": 18012, "timestamp": 1756661218, "node_ip": "10.157.146.4", "done": false, "time_total_s": 98140.14249372482, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3003, "episode_reward_mean": -605.6493275079785, "training_iteration": 3003, "timesteps_total": 3603600, "policy_reward_mean": {}, "episode_reward_min": -642.0487574207194, "timesteps_since_restore": 3603600, "num_metric_batches_dropped": 0, "time_since_restore": 98174.93790483475, "episode_reward_max": -465.00788705976504, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3603600, "default": {"kl": 0.009996457025408745, "policy_loss": -0.11851730942726135, "vf_loss": 145.6651153564453, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9837969541549683, "entropy": 2.8886709213256836, "cur_lr": 4.999999873689376e-05, "total_loss": 145.56178283691406}, "load_time_ms": 0.593, "num_steps_sampled": 3603600, "grad_time_ms": 598.549, "update_time_ms": 2.311, "sample_time_ms": 33637.412}, "date": "2025-08-31_19-27-33", "hostname": "cda-server-4", "time_this_iter_s": 34.795411109924316, "episodes_total": 18018, "timestamp": 1756661253, "node_ip": "10.157.146.4", "done": false, "time_total_s": 98174.93790483475, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3004, "episode_reward_mean": -606.1050503433886, "training_iteration": 3004, "timesteps_total": 3604800, "policy_reward_mean": {}, "episode_reward_min": -642.0487574207194, "timesteps_since_restore": 3604800, "num_metric_batches_dropped": 0, "time_since_restore": 98210.34965777397, "episode_reward_max": -465.00788705976504, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3604800, "default": {"kl": 0.00974820926785469, "policy_loss": -0.13682112097740173, "vf_loss": 113.11227416992188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9869458079338074, "entropy": 2.8411567211151123, "cur_lr": 4.999999873689376e-05, "total_loss": 112.9902572631836}, "load_time_ms": 0.597, "num_steps_sampled": 3604800, "grad_time_ms": 602.256, "update_time_ms": 2.444, "sample_time_ms": 33717.131}, "date": "2025-08-31_19-28-08", "hostname": "cda-server-4", "time_this_iter_s": 35.41175293922424, "episodes_total": 18024, "timestamp": 1756661288, "node_ip": "10.157.146.4", "done": false, "time_total_s": 98210.34965777397, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3005, "episode_reward_mean": -605.4317744040484, "training_iteration": 3005, "timesteps_total": 3606000, "policy_reward_mean": {}, "episode_reward_min": -645.4803302416784, "timesteps_since_restore": 3606000, "num_metric_batches_dropped": 0, "time_since_restore": 98244.14627337456, "episode_reward_max": -465.00788705976504, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3606000, "default": {"kl": 0.012139026075601578, "policy_loss": -0.14182813465595245, "vf_loss": 66.19230651855469, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.992685854434967, "entropy": 2.7948527336120605, "cur_lr": 4.999999873689376e-05, "total_loss": 66.06890869140625}, "load_time_ms": 0.605, "num_steps_sampled": 3606000, "grad_time_ms": 608.099, "update_time_ms": 2.427, "sample_time_ms": 33755.892}, "date": "2025-08-31_19-28-42", "hostname": "cda-server-4", "time_this_iter_s": 33.79661560058594, "episodes_total": 18030, "timestamp": 1756661322, "node_ip": "10.157.146.4", "done": false, "time_total_s": 98244.14627337456, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3006, "episode_reward_mean": -604.9244389854699, "training_iteration": 3006, "timesteps_total": 3607200, "policy_reward_mean": {}, "episode_reward_min": -645.4803302416784, "timesteps_since_restore": 3607200, "num_metric_batches_dropped": 0, "time_since_restore": 98278.76430773735, "episode_reward_max": -465.00788705976504, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3607200, "default": {"kl": 0.009431547485291958, "policy_loss": -0.12414807826280594, "vf_loss": 54.14724349975586, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9948495030403137, "entropy": 2.9907259941101074, "cur_lr": 4.999999873689376e-05, "total_loss": 54.03742218017578}, "load_time_ms": 0.608, "num_steps_sampled": 3607200, "grad_time_ms": 618.881, "update_time_ms": 2.416, "sample_time_ms": 33784.767}, "date": "2025-08-31_19-29-17", "hostname": "cda-server-4", "time_this_iter_s": 34.61803436279297, "episodes_total": 18036, "timestamp": 1756661357, "node_ip": "10.157.146.4", "done": false, "time_total_s": 98278.76430773735, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3007, "episode_reward_mean": -604.7822042272052, "training_iteration": 3007, "timesteps_total": 3608400, "policy_reward_mean": {}, "episode_reward_min": -645.4803302416784, "timesteps_since_restore": 3608400, "num_metric_batches_dropped": 0, "time_since_restore": 98313.40134811401, "episode_reward_max": -465.00788705976504, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3608400, "default": {"kl": 0.010759602300822735, "policy_loss": -0.14055100083351135, "vf_loss": 147.56777954101562, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9885044097900391, "entropy": 2.8539559841156006, "cur_lr": 4.999999873689376e-05, "total_loss": 147.4435577392578}, "load_time_ms": 0.618, "num_steps_sampled": 3608400, "grad_time_ms": 641.582, "update_time_ms": 2.395, "sample_time_ms": 33787.583}, "date": "2025-08-31_19-29-51", "hostname": "cda-server-4", "time_this_iter_s": 34.63704037666321, "episodes_total": 18042, "timestamp": 1756661391, "node_ip": "10.157.146.4", "done": false, "time_total_s": 98313.40134811401, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3008, "episode_reward_mean": -604.6325536025464, "training_iteration": 3008, "timesteps_total": 3609600, "policy_reward_mean": {}, "episode_reward_min": -645.4803302416784, "timesteps_since_restore": 3609600, "num_metric_batches_dropped": 0, "time_since_restore": 98348.49936962128, "episode_reward_max": -465.00788705976504, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3609600, "default": {"kl": 0.009857646189630032, "policy_loss": -0.10006575286388397, "vf_loss": 133.43362426757812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9857707619667053, "entropy": 2.8138952255249023, "cur_lr": 4.999999873689376e-05, "total_loss": 133.34854125976562}, "load_time_ms": 0.619, "num_steps_sampled": 3609600, "grad_time_ms": 648.226, "update_time_ms": 2.403, "sample_time_ms": 33927.113}, "date": "2025-08-31_19-30-26", "hostname": "cda-server-4", "time_this_iter_s": 35.098021507263184, "episodes_total": 18048, "timestamp": 1756661426, "node_ip": "10.157.146.4", "done": false, "time_total_s": 98348.49936962128, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3009, "episode_reward_mean": -603.4293443961723, "training_iteration": 3009, "timesteps_total": 3610800, "policy_reward_mean": {}, "episode_reward_min": -645.4803302416784, "timesteps_since_restore": 3610800, "num_metric_batches_dropped": 0, "time_since_restore": 98382.35892891884, "episode_reward_max": -465.00788705976504, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3610800, "default": {"kl": 0.01221264898777008, "policy_loss": -0.1338377594947815, "vf_loss": 39.715824127197266, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.99559086561203, "entropy": 2.8270418643951416, "cur_lr": 4.999999873689376e-05, "total_loss": 39.60053253173828}, "load_time_ms": 0.639, "num_steps_sampled": 3610800, "grad_time_ms": 640.974, "update_time_ms": 2.365, "sample_time_ms": 33833.412}, "date": "2025-08-31_19-31-00", "hostname": "cda-server-4", "time_this_iter_s": 33.859559297561646, "episodes_total": 18054, "timestamp": 1756661460, "node_ip": "10.157.146.4", "done": false, "time_total_s": 98382.35892891884, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3010, "episode_reward_mean": -603.346208067539, "training_iteration": 3010, "timesteps_total": 3612000, "policy_reward_mean": {}, "episode_reward_min": -645.4803302416784, "timesteps_since_restore": 3612000, "num_metric_batches_dropped": 0, "time_since_restore": 98417.77927136421, "episode_reward_max": -465.00788705976504, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3612000, "default": {"kl": 0.011608246713876724, "policy_loss": -0.13436567783355713, "vf_loss": 410.4130859375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.951918363571167, "entropy": 2.929985761642456, "cur_lr": 4.999999873689376e-05, "total_loss": 410.2963562011719}, "load_time_ms": 0.639, "num_steps_sampled": 3612000, "grad_time_ms": 667.596, "update_time_ms": 2.337, "sample_time_ms": 33917.11}, "date": "2025-08-31_19-31-36", "hostname": "cda-server-4", "time_this_iter_s": 35.420342445373535, "episodes_total": 18060, "timestamp": 1756661496, "node_ip": "10.157.146.4", "done": false, "time_total_s": 98417.77927136421, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3011, "episode_reward_mean": -602.8581658418143, "training_iteration": 3011, "timesteps_total": 3613200, "policy_reward_mean": {}, "episode_reward_min": -645.4803302416784, "timesteps_since_restore": 3613200, "num_metric_batches_dropped": 0, "time_since_restore": 98451.96658682823, "episode_reward_max": -465.00788705976504, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3613200, "default": {"kl": 0.00931874942034483, "policy_loss": -0.13330107927322388, "vf_loss": 128.09396362304688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9870867133140564, "entropy": 2.813934803009033, "cur_lr": 4.999999873689376e-05, "total_loss": 127.97482299804688}, "load_time_ms": 0.64, "num_steps_sampled": 3613200, "grad_time_ms": 696.974, "update_time_ms": 2.421, "sample_time_ms": 33889.704}, "date": "2025-08-31_19-32-10", "hostname": "cda-server-4", "time_this_iter_s": 34.187315464019775, "episodes_total": 18066, "timestamp": 1756661530, "node_ip": "10.157.146.4", "done": false, "time_total_s": 98451.96658682823, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3012, "episode_reward_mean": -602.3444902846367, "training_iteration": 3012, "timesteps_total": 3614400, "policy_reward_mean": {}, "episode_reward_min": -645.4803302416784, "timesteps_since_restore": 3614400, "num_metric_batches_dropped": 0, "time_since_restore": 98486.09781312943, "episode_reward_max": -465.00788705976504, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3614400, "default": {"kl": 0.009376082569360733, "policy_loss": -0.12061789631843567, "vf_loss": 234.01730346679688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.962653398513794, "entropy": 2.8898274898529053, "cur_lr": 4.999999873689376e-05, "total_loss": 233.91094970703125}, "load_time_ms": 0.668, "num_steps_sampled": 3614400, "grad_time_ms": 698.583, "update_time_ms": 2.399, "sample_time_ms": 33889.846}, "date": "2025-08-31_19-32-44", "hostname": "cda-server-4", "time_this_iter_s": 34.13122630119324, "episodes_total": 18072, "timestamp": 1756661564, "node_ip": "10.157.146.4", "done": false, "time_total_s": 98486.09781312943, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3013, "episode_reward_mean": -601.1515173180005, "training_iteration": 3013, "timesteps_total": 3615600, "policy_reward_mean": {}, "episode_reward_min": -645.4803302416784, "timesteps_since_restore": 3615600, "num_metric_batches_dropped": 0, "time_since_restore": 98519.62678647041, "episode_reward_max": -465.00788705976504, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3615600, "default": {"kl": 0.010246437974274158, "policy_loss": -0.12950587272644043, "vf_loss": 267.54132080078125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.970586895942688, "entropy": 2.8971030712127686, "cur_lr": 4.999999873689376e-05, "total_loss": 267.4273986816406}, "load_time_ms": 0.671, "num_steps_sampled": 3615600, "grad_time_ms": 691.719, "update_time_ms": 2.393, "sample_time_ms": 33770.236}, "date": "2025-08-31_19-33-18", "hostname": "cda-server-4", "time_this_iter_s": 33.52897334098816, "episodes_total": 18078, "timestamp": 1756661598, "node_ip": "10.157.146.4", "done": false, "time_total_s": 98519.62678647041, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3014, "episode_reward_mean": -600.0712777839015, "training_iteration": 3014, "timesteps_total": 3616800, "policy_reward_mean": {}, "episode_reward_min": -645.4803302416784, "timesteps_since_restore": 3616800, "num_metric_batches_dropped": 0, "time_since_restore": 98553.88759088516, "episode_reward_max": -465.00788705976504, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3616800, "default": {"kl": 0.010647077113389969, "policy_loss": -0.13563650846481323, "vf_loss": 290.36163330078125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.976988673210144, "entropy": 2.7672040462493896, "cur_lr": 4.999999873689376e-05, "total_loss": 290.2421875}, "load_time_ms": 0.671, "num_steps_sampled": 3616800, "grad_time_ms": 697.446, "update_time_ms": 2.174, "sample_time_ms": 33649.606}, "date": "2025-08-31_19-33-52", "hostname": "cda-server-4", "time_this_iter_s": 34.260804414749146, "episodes_total": 18084, "timestamp": 1756661632, "node_ip": "10.157.146.4", "done": false, "time_total_s": 98553.88759088516, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3015, "episode_reward_mean": -600.7341164810952, "training_iteration": 3015, "timesteps_total": 3618000, "policy_reward_mean": {}, "episode_reward_min": -645.4803302416784, "timesteps_since_restore": 3618000, "num_metric_batches_dropped": 0, "time_since_restore": 98588.7426097393, "episode_reward_max": -465.00788705976504, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3618000, "default": {"kl": 0.011455641128122807, "policy_loss": -0.14329631626605988, "vf_loss": 28.492027282714844, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9960136413574219, "entropy": 2.7553486824035645, "cur_lr": 4.999999873689376e-05, "total_loss": 28.36612892150879}, "load_time_ms": 0.664, "num_steps_sampled": 3618000, "grad_time_ms": 700.948, "update_time_ms": 2.226, "sample_time_ms": 33751.816}, "date": "2025-08-31_19-34-27", "hostname": "cda-server-4", "time_this_iter_s": 34.855018854141235, "episodes_total": 18090, "timestamp": 1756661667, "node_ip": "10.157.146.4", "done": false, "time_total_s": 98588.7426097393, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3016, "episode_reward_mean": -600.4554247995345, "training_iteration": 3016, "timesteps_total": 3619200, "policy_reward_mean": {}, "episode_reward_min": -645.4803302416784, "timesteps_since_restore": 3619200, "num_metric_batches_dropped": 0, "time_since_restore": 98622.24234819412, "episode_reward_max": -465.00788705976504, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3619200, "default": {"kl": 0.009981258772313595, "policy_loss": -0.12624819576740265, "vf_loss": 139.5253143310547, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9900414943695068, "entropy": 2.7693655490875244, "cur_lr": 4.999999873689376e-05, "total_loss": 139.41421508789062}, "load_time_ms": 0.662, "num_steps_sampled": 3619200, "grad_time_ms": 700.863, "update_time_ms": 2.273, "sample_time_ms": 33639.934}, "date": "2025-08-31_19-35-00", "hostname": "cda-server-4", "time_this_iter_s": 33.499738454818726, "episodes_total": 18096, "timestamp": 1756661700, "node_ip": "10.157.146.4", "done": false, "time_total_s": 98622.24234819412, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3017, "episode_reward_mean": -602.0655102263815, "training_iteration": 3017, "timesteps_total": 3620400, "policy_reward_mean": {}, "episode_reward_min": -645.4803302416784, "timesteps_since_restore": 3620400, "num_metric_batches_dropped": 0, "time_since_restore": 98656.9469935894, "episode_reward_max": -488.5760341503407, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3620400, "default": {"kl": 0.01125580444931984, "policy_loss": -0.14347980916500092, "vf_loss": 126.26475524902344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9829273223876953, "entropy": 3.047705888748169, "cur_lr": 4.999999873689376e-05, "total_loss": 126.13837432861328}, "load_time_ms": 0.656, "num_steps_sampled": 3620400, "grad_time_ms": 705.224, "update_time_ms": 2.285, "sample_time_ms": 33642.42}, "date": "2025-08-31_19-35-35", "hostname": "cda-server-4", "time_this_iter_s": 34.70464539527893, "episodes_total": 18102, "timestamp": 1756661735, "node_ip": "10.157.146.4", "done": false, "time_total_s": 98656.9469935894, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3018, "episode_reward_mean": -601.7421575119203, "training_iteration": 3018, "timesteps_total": 3621600, "policy_reward_mean": {}, "episode_reward_min": -645.4803302416784, "timesteps_since_restore": 3621600, "num_metric_batches_dropped": 0, "time_since_restore": 98691.58408021927, "episode_reward_max": -488.5760341503407, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3621600, "default": {"kl": 0.010761876590549946, "policy_loss": -0.13098075985908508, "vf_loss": 114.281982421875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9836586713790894, "entropy": 2.924450159072876, "cur_lr": 4.999999873689376e-05, "total_loss": 114.16734313964844}, "load_time_ms": 0.653, "num_steps_sampled": 3621600, "grad_time_ms": 711.838, "update_time_ms": 2.252, "sample_time_ms": 33589.713}, "date": "2025-08-31_19-36-10", "hostname": "cda-server-4", "time_this_iter_s": 34.637086629867554, "episodes_total": 18108, "timestamp": 1756661770, "node_ip": "10.157.146.4", "done": false, "time_total_s": 98691.58408021927, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3019, "episode_reward_mean": -602.1481888303431, "training_iteration": 3019, "timesteps_total": 3622800, "policy_reward_mean": {}, "episode_reward_min": -645.4803302416784, "timesteps_since_restore": 3622800, "num_metric_batches_dropped": 0, "time_since_restore": 98726.27653551102, "episode_reward_max": -488.5760341503407, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3622800, "default": {"kl": 0.011271185241639614, "policy_loss": -0.14042380452156067, "vf_loss": 119.84249877929688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9886510372161865, "entropy": 2.74741268157959, "cur_lr": 4.999999873689376e-05, "total_loss": 119.71918487548828}, "load_time_ms": 0.655, "num_steps_sampled": 3622800, "grad_time_ms": 718.27, "update_time_ms": 2.323, "sample_time_ms": 33666.545}, "date": "2025-08-31_19-36-44", "hostname": "cda-server-4", "time_this_iter_s": 34.69245529174805, "episodes_total": 18114, "timestamp": 1756661804, "node_ip": "10.157.146.4", "done": false, "time_total_s": 98726.27653551102, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3020, "episode_reward_mean": -602.2869352294146, "training_iteration": 3020, "timesteps_total": 3624000, "policy_reward_mean": {}, "episode_reward_min": -645.4803302416784, "timesteps_since_restore": 3624000, "num_metric_batches_dropped": 0, "time_since_restore": 98760.61714076996, "episode_reward_max": -488.5760341503407, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3624000, "default": {"kl": 0.009907908737659454, "policy_loss": -0.13891293108463287, "vf_loss": 132.06787109375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9876916408538818, "entropy": 2.7603671550750732, "cur_lr": 4.999999873689376e-05, "total_loss": 131.9440155029297}, "load_time_ms": 0.694, "num_steps_sampled": 3624000, "grad_time_ms": 716.523, "update_time_ms": 2.342, "sample_time_ms": 33560.227}, "date": "2025-08-31_19-37-19", "hostname": "cda-server-4", "time_this_iter_s": 34.34060525894165, "episodes_total": 18120, "timestamp": 1756661839, "node_ip": "10.157.146.4", "done": false, "time_total_s": 98760.61714076996, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3021, "episode_reward_mean": -601.809987134618, "training_iteration": 3021, "timesteps_total": 3625200, "policy_reward_mean": {}, "episode_reward_min": -639.7877615541315, "timesteps_since_restore": 3625200, "num_metric_batches_dropped": 0, "time_since_restore": 98795.0777938366, "episode_reward_max": -488.5760341503407, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3625200, "default": {"kl": 0.01056230440735817, "policy_loss": -0.1292232871055603, "vf_loss": 481.9924011230469, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9433451890945435, "entropy": 2.786386728286743, "cur_lr": 4.999999873689376e-05, "total_loss": 481.8792419433594}, "load_time_ms": 0.692, "num_steps_sampled": 3625200, "grad_time_ms": 712.997, "update_time_ms": 2.342, "sample_time_ms": 33591.093}, "date": "2025-08-31_19-37-53", "hostname": "cda-server-4", "time_this_iter_s": 34.46065306663513, "episodes_total": 18126, "timestamp": 1756661873, "node_ip": "10.157.146.4", "done": false, "time_total_s": 98795.0777938366, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3022, "episode_reward_mean": -602.6357439137388, "training_iteration": 3022, "timesteps_total": 3626400, "policy_reward_mean": {}, "episode_reward_min": -639.7877615541315, "timesteps_since_restore": 3626400, "num_metric_batches_dropped": 0, "time_since_restore": 98829.80628728867, "episode_reward_max": -488.5760341503407, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3626400, "default": {"kl": 0.010187600739300251, "policy_loss": -0.14832475781440735, "vf_loss": 146.43695068359375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.98470538854599, "entropy": 2.899466037750244, "cur_lr": 4.999999873689376e-05, "total_loss": 146.30410766601562}, "load_time_ms": 0.691, "num_steps_sampled": 3626400, "grad_time_ms": 710.267, "update_time_ms": 2.335, "sample_time_ms": 33653.564}, "date": "2025-08-31_19-38-28", "hostname": "cda-server-4", "time_this_iter_s": 34.728493452072144, "episodes_total": 18132, "timestamp": 1756661908, "node_ip": "10.157.146.4", "done": false, "time_total_s": 98829.80628728867, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3023, "episode_reward_mean": -603.3615678392237, "training_iteration": 3023, "timesteps_total": 3627600, "policy_reward_mean": {}, "episode_reward_min": -639.7877615541315, "timesteps_since_restore": 3627600, "num_metric_batches_dropped": 0, "time_since_restore": 98864.48941636086, "episode_reward_max": -488.5760341503407, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3627600, "default": {"kl": 0.011292574927210808, "policy_loss": -0.12833374738693237, "vf_loss": 94.345458984375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9876849055290222, "entropy": 2.8116514682769775, "cur_lr": 4.999999873689376e-05, "total_loss": 94.2342758178711}, "load_time_ms": 0.691, "num_steps_sampled": 3627600, "grad_time_ms": 703.131, "update_time_ms": 2.434, "sample_time_ms": 33775.913}, "date": "2025-08-31_19-39-03", "hostname": "cda-server-4", "time_this_iter_s": 34.68312907218933, "episodes_total": 18138, "timestamp": 1756661943, "node_ip": "10.157.146.4", "done": false, "time_total_s": 98864.48941636086, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3024, "episode_reward_mean": -601.8953936500834, "training_iteration": 3024, "timesteps_total": 3628800, "policy_reward_mean": {}, "episode_reward_min": -639.7877615541315, "timesteps_since_restore": 3628800, "num_metric_batches_dropped": 0, "time_since_restore": 98898.95601940155, "episode_reward_max": -486.49792731158084, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3628800, "default": {"kl": 0.00999770499765873, "policy_loss": -0.12941277027130127, "vf_loss": 215.33206176757812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9715061187744141, "entropy": 3.000826835632324, "cur_lr": 4.999999873689376e-05, "total_loss": 215.21783447265625}, "load_time_ms": 0.687, "num_steps_sampled": 3628800, "grad_time_ms": 698.684, "update_time_ms": 2.477, "sample_time_ms": 33800.96}, "date": "2025-08-31_19-39-37", "hostname": "cda-server-4", "time_this_iter_s": 34.46660304069519, "episodes_total": 18144, "timestamp": 1756661977, "node_ip": "10.157.146.4", "done": false, "time_total_s": 98898.95601940155, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3025, "episode_reward_mean": -602.13631711893, "training_iteration": 3025, "timesteps_total": 3630000, "policy_reward_mean": {}, "episode_reward_min": -639.7877615541315, "timesteps_since_restore": 3630000, "num_metric_batches_dropped": 0, "time_since_restore": 98934.0547413826, "episode_reward_max": -486.49792731158084, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3630000, "default": {"kl": 0.011421299539506435, "policy_loss": -0.147932231426239, "vf_loss": 48.22760772705078, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9935309886932373, "entropy": 2.9056508541107178, "cur_lr": 4.999999873689376e-05, "total_loss": 48.09701919555664}, "load_time_ms": 0.736, "num_steps_sampled": 3630000, "grad_time_ms": 699.318, "update_time_ms": 2.399, "sample_time_ms": 33824.722}, "date": "2025-08-31_19-40-12", "hostname": "cda-server-4", "time_this_iter_s": 35.098721981048584, "episodes_total": 18150, "timestamp": 1756662012, "node_ip": "10.157.146.4", "done": false, "time_total_s": 98934.0547413826, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3026, "episode_reward_mean": -603.5605541398971, "training_iteration": 3026, "timesteps_total": 3631200, "policy_reward_mean": {}, "episode_reward_min": -639.7877615541315, "timesteps_since_restore": 3631200, "num_metric_batches_dropped": 0, "time_since_restore": 98969.35075163841, "episode_reward_max": -486.49792731158084, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3631200, "default": {"kl": 0.01044827327132225, "policy_loss": -0.1557444930076599, "vf_loss": 250.38986206054688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9738200306892395, "entropy": 2.8428239822387695, "cur_lr": 4.999999873689376e-05, "total_loss": 250.25}, "load_time_ms": 0.749, "num_steps_sampled": 3631200, "grad_time_ms": 700.384, "update_time_ms": 2.391, "sample_time_ms": 34003.324}, "date": "2025-08-31_19-40-48", "hostname": "cda-server-4", "time_this_iter_s": 35.2960102558136, "episodes_total": 18156, "timestamp": 1756662048, "node_ip": "10.157.146.4", "done": false, "time_total_s": 98969.35075163841, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3027, "episode_reward_mean": -604.022621265467, "training_iteration": 3027, "timesteps_total": 3632400, "policy_reward_mean": {}, "episode_reward_min": -648.1609710629814, "timesteps_since_restore": 3632400, "num_metric_batches_dropped": 0, "time_since_restore": 99003.09949207306, "episode_reward_max": -486.49792731158084, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3632400, "default": {"kl": 0.009680974297225475, "policy_loss": -0.12953795492649078, "vf_loss": 232.0270233154297, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.96819007396698, "entropy": 3.136005163192749, "cur_lr": 4.999999873689376e-05, "total_loss": 231.91217041015625}, "load_time_ms": 0.753, "num_steps_sampled": 3632400, "grad_time_ms": 693.179, "update_time_ms": 2.38, "sample_time_ms": 33914.879}, "date": "2025-08-31_19-41-21", "hostname": "cda-server-4", "time_this_iter_s": 33.748740434646606, "episodes_total": 18162, "timestamp": 1756662081, "node_ip": "10.157.146.4", "done": false, "time_total_s": 99003.09949207306, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3028, "episode_reward_mean": -605.3888106266415, "training_iteration": 3028, "timesteps_total": 3633600, "policy_reward_mean": {}, "episode_reward_min": -648.1609710629814, "timesteps_since_restore": 3633600, "num_metric_batches_dropped": 0, "time_since_restore": 99037.21349930763, "episode_reward_max": -486.49792731158084, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3633600, "default": {"kl": 0.009884542785584927, "policy_loss": -0.13684241473674774, "vf_loss": 130.95388793945312, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9818669557571411, "entropy": 2.9004974365234375, "cur_lr": 4.999999873689376e-05, "total_loss": 130.83204650878906}, "load_time_ms": 0.752, "num_steps_sampled": 3633600, "grad_time_ms": 684.543, "update_time_ms": 2.419, "sample_time_ms": 33871.215}, "date": "2025-08-31_19-41-56", "hostname": "cda-server-4", "time_this_iter_s": 34.114007234573364, "episodes_total": 18168, "timestamp": 1756662116, "node_ip": "10.157.146.4", "done": false, "time_total_s": 99037.21349930763, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3029, "episode_reward_mean": -606.0401591985187, "training_iteration": 3029, "timesteps_total": 3634800, "policy_reward_mean": {}, "episode_reward_min": -648.1609710629814, "timesteps_since_restore": 3634800, "num_metric_batches_dropped": 0, "time_since_restore": 99071.43095636368, "episode_reward_max": -486.49792731158084, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3634800, "default": {"kl": 0.011097117327153683, "policy_loss": -0.13070830702781677, "vf_loss": 112.52531433105469, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9885258078575134, "entropy": 2.7595744132995605, "cur_lr": 4.999999873689376e-05, "total_loss": 112.41146850585938}, "load_time_ms": 0.721, "num_steps_sampled": 3634800, "grad_time_ms": 684.358, "update_time_ms": 2.349, "sample_time_ms": 33823.95}, "date": "2025-08-31_19-42-30", "hostname": "cda-server-4", "time_this_iter_s": 34.21745705604553, "episodes_total": 18174, "timestamp": 1756662150, "node_ip": "10.157.146.4", "done": false, "time_total_s": 99071.43095636368, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3030, "episode_reward_mean": -605.7787058364444, "training_iteration": 3030, "timesteps_total": 3636000, "policy_reward_mean": {}, "episode_reward_min": -648.1609710629814, "timesteps_since_restore": 3636000, "num_metric_batches_dropped": 0, "time_since_restore": 99105.9195754528, "episode_reward_max": -486.49792731158084, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3636000, "default": {"kl": 0.01319920178502798, "policy_loss": -0.1405201554298401, "vf_loss": 263.00677490234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9732406139373779, "entropy": 2.846050977706909, "cur_lr": 4.999999873689376e-05, "total_loss": 262.88629150390625}, "load_time_ms": 0.689, "num_steps_sampled": 3636000, "grad_time_ms": 674.028, "update_time_ms": 2.352, "sample_time_ms": 33849.198}, "date": "2025-08-31_19-43-04", "hostname": "cda-server-4", "time_this_iter_s": 34.48861908912659, "episodes_total": 18180, "timestamp": 1756662184, "node_ip": "10.157.146.4", "done": false, "time_total_s": 99105.9195754528, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3031, "episode_reward_mean": -606.8979066561625, "training_iteration": 3031, "timesteps_total": 3637200, "policy_reward_mean": {}, "episode_reward_min": -648.1609710629814, "timesteps_since_restore": 3637200, "num_metric_batches_dropped": 0, "time_since_restore": 99139.53397011757, "episode_reward_max": -486.49792731158084, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3637200, "default": {"kl": 0.013489502482116222, "policy_loss": -0.16342371702194214, "vf_loss": 244.34866333007812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9804403781890869, "entropy": 2.9193458557128906, "cur_lr": 4.999999873689376e-05, "total_loss": 244.2057342529297}, "load_time_ms": 0.695, "num_steps_sampled": 3637200, "grad_time_ms": 664.556, "update_time_ms": 2.392, "sample_time_ms": 33774.014}, "date": "2025-08-31_19-43-38", "hostname": "cda-server-4", "time_this_iter_s": 33.614394664764404, "episodes_total": 18186, "timestamp": 1756662218, "node_ip": "10.157.146.4", "done": false, "time_total_s": 99139.53397011757, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3032, "episode_reward_mean": -607.0525379722466, "training_iteration": 3032, "timesteps_total": 3638400, "policy_reward_mean": {}, "episode_reward_min": -648.1609710629814, "timesteps_since_restore": 3638400, "num_metric_batches_dropped": 0, "time_since_restore": 99173.2859814167, "episode_reward_max": -486.49792731158084, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3638400, "default": {"kl": 0.011231150478124619, "policy_loss": -0.12926128506660461, "vf_loss": 80.96334838867188, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9961487650871277, "entropy": 2.9071474075317383, "cur_lr": 4.999999873689376e-05, "total_loss": 80.85113525390625}, "load_time_ms": 0.675, "num_steps_sampled": 3638400, "grad_time_ms": 667.138, "update_time_ms": 2.383, "sample_time_ms": 33673.777}, "date": "2025-08-31_19-44-12", "hostname": "cda-server-4", "time_this_iter_s": 33.7520112991333, "episodes_total": 18192, "timestamp": 1756662252, "node_ip": "10.157.146.4", "done": false, "time_total_s": 99173.2859814167, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3033, "episode_reward_mean": -606.847926600161, "training_iteration": 3033, "timesteps_total": 3639600, "policy_reward_mean": {}, "episode_reward_min": -648.1609710629814, "timesteps_since_restore": 3639600, "num_metric_batches_dropped": 0, "time_since_restore": 99208.12251901627, "episode_reward_max": -486.49792731158084, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3639600, "default": {"kl": 0.008130727335810661, "policy_loss": -0.11646619439125061, "vf_loss": 123.63011169433594, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9867663979530334, "entropy": 2.971200704574585, "cur_lr": 4.999999873689376e-05, "total_loss": 123.52598571777344}, "load_time_ms": 0.685, "num_steps_sampled": 3639600, "grad_time_ms": 656.11, "update_time_ms": 2.318, "sample_time_ms": 33700.211}, "date": "2025-08-31_19-44-47", "hostname": "cda-server-4", "time_this_iter_s": 34.8365375995636, "episodes_total": 18198, "timestamp": 1756662287, "node_ip": "10.157.146.4", "done": false, "time_total_s": 99208.12251901627, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3034, "episode_reward_mean": -607.5338059685381, "training_iteration": 3034, "timesteps_total": 3640800, "policy_reward_mean": {}, "episode_reward_min": -655.9547295261219, "timesteps_since_restore": 3640800, "num_metric_batches_dropped": 0, "time_since_restore": 99242.19300866127, "episode_reward_max": -486.49792731158084, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3640800, "default": {"kl": 0.008663411252200603, "policy_loss": -0.1273384690284729, "vf_loss": 84.26789855957031, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9944363832473755, "entropy": 2.9103994369506836, "cur_lr": 4.999999873689376e-05, "total_loss": 84.15372467041016}, "load_time_ms": 0.679, "num_steps_sampled": 3640800, "grad_time_ms": 641.312, "update_time_ms": 2.268, "sample_time_ms": 33675.451}, "date": "2025-08-31_19-45-21", "hostname": "cda-server-4", "time_this_iter_s": 34.07048964500427, "episodes_total": 18204, "timestamp": 1756662321, "node_ip": "10.157.146.4", "done": false, "time_total_s": 99242.19300866127, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3035, "episode_reward_mean": -609.1837292176937, "training_iteration": 3035, "timesteps_total": 3642000, "policy_reward_mean": {}, "episode_reward_min": -768.2999142917959, "timesteps_since_restore": 3642000, "num_metric_batches_dropped": 0, "time_since_restore": 99276.14336371422, "episode_reward_max": -486.49792731158084, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3642000, "default": {"kl": 0.01375700905919075, "policy_loss": -0.12392012029886246, "vf_loss": 844.9810791015625, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9138949513435364, "entropy": 3.2799668312072754, "cur_lr": 4.999999873689376e-05, "total_loss": 844.8780517578125}, "load_time_ms": 0.66, "num_steps_sampled": 3642000, "grad_time_ms": 611.916, "update_time_ms": 2.325, "sample_time_ms": 33589.983}, "date": "2025-08-31_19-45-55", "hostname": "cda-server-4", "time_this_iter_s": 33.950355052948, "episodes_total": 18210, "timestamp": 1756662355, "node_ip": "10.157.146.4", "done": false, "time_total_s": 99276.14336371422, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3036, "episode_reward_mean": -609.0015042588744, "training_iteration": 3036, "timesteps_total": 3643200, "policy_reward_mean": {}, "episode_reward_min": -768.2999142917959, "timesteps_since_restore": 3643200, "num_metric_batches_dropped": 0, "time_since_restore": 99311.01059031487, "episode_reward_max": -486.49792731158084, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3643200, "default": {"kl": 0.009939391165971756, "policy_loss": -0.13970544934272766, "vf_loss": 90.18468475341797, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9869774580001831, "entropy": 2.8179514408111572, "cur_lr": 4.999999873689376e-05, "total_loss": 90.06007385253906}, "load_time_ms": 0.642, "num_steps_sampled": 3643200, "grad_time_ms": 583.921, "update_time_ms": 2.353, "sample_time_ms": 33575.107}, "date": "2025-08-31_19-46-30", "hostname": "cda-server-4", "time_this_iter_s": 34.86722660064697, "episodes_total": 18216, "timestamp": 1756662390, "node_ip": "10.157.146.4", "done": false, "time_total_s": 99311.01059031487, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3037, "episode_reward_mean": -608.884946712047, "training_iteration": 3037, "timesteps_total": 3644400, "policy_reward_mean": {}, "episode_reward_min": -768.2999142917959, "timesteps_since_restore": 3644400, "num_metric_batches_dropped": 0, "time_since_restore": 99346.01137447357, "episode_reward_max": -486.49792731158084, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3644400, "default": {"kl": 0.00970645621418953, "policy_loss": -0.12889555096626282, "vf_loss": 479.0618896484375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9547448754310608, "entropy": 2.9931814670562744, "cur_lr": 4.999999873689376e-05, "total_loss": 478.94775390625}, "load_time_ms": 0.638, "num_steps_sampled": 3644400, "grad_time_ms": 580.965, "update_time_ms": 2.386, "sample_time_ms": 33703.16}, "date": "2025-08-31_19-47-05", "hostname": "cda-server-4", "time_this_iter_s": 35.000784158706665, "episodes_total": 18222, "timestamp": 1756662425, "node_ip": "10.157.146.4", "done": false, "time_total_s": 99346.01137447357, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3038, "episode_reward_mean": -609.0721310199602, "training_iteration": 3038, "timesteps_total": 3645600, "policy_reward_mean": {}, "episode_reward_min": -768.2999142917959, "timesteps_since_restore": 3645600, "num_metric_batches_dropped": 0, "time_since_restore": 99380.32966327667, "episode_reward_max": -486.49792731158084, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3645600, "default": {"kl": 0.012632109224796295, "policy_loss": -0.15578775107860565, "vf_loss": 57.99063491821289, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.996282160282135, "entropy": 2.774317979812622, "cur_lr": 4.999999873689376e-05, "total_loss": 57.85403060913086}, "load_time_ms": 0.641, "num_steps_sampled": 3645600, "grad_time_ms": 562.671, "update_time_ms": 2.443, "sample_time_ms": 33741.802}, "date": "2025-08-31_19-47-39", "hostname": "cda-server-4", "time_this_iter_s": 34.318288803100586, "episodes_total": 18228, "timestamp": 1756662459, "node_ip": "10.157.146.4", "done": false, "time_total_s": 99380.32966327667, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3039, "episode_reward_mean": -609.9984102473769, "training_iteration": 3039, "timesteps_total": 3646800, "policy_reward_mean": {}, "episode_reward_min": -768.2999142917959, "timesteps_since_restore": 3646800, "num_metric_batches_dropped": 0, "time_since_restore": 99414.98575687408, "episode_reward_max": -486.49792731158084, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3646800, "default": {"kl": 0.011535908095538616, "policy_loss": -0.12955699861049652, "vf_loss": 456.4314270019531, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9673132300376892, "entropy": 3.0367355346679688, "cur_lr": 4.999999873689376e-05, "total_loss": 456.3194580078125}, "load_time_ms": 0.649, "num_steps_sampled": 3646800, "grad_time_ms": 564.544, "update_time_ms": 2.492, "sample_time_ms": 33783.783}, "date": "2025-08-31_19-48-14", "hostname": "cda-server-4", "time_this_iter_s": 34.65609359741211, "episodes_total": 18234, "timestamp": 1756662494, "node_ip": "10.157.146.4", "done": false, "time_total_s": 99414.98575687408, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3040, "episode_reward_mean": -609.9399102983193, "training_iteration": 3040, "timesteps_total": 3648000, "policy_reward_mean": {}, "episode_reward_min": -768.2999142917959, "timesteps_since_restore": 3648000, "num_metric_batches_dropped": 0, "time_since_restore": 99450.83782505989, "episode_reward_max": -486.49792731158084, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3648000, "default": {"kl": 0.010824508033692837, "policy_loss": -0.14031581580638885, "vf_loss": 49.27273178100586, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9958693981170654, "entropy": 2.878554582595825, "cur_lr": 4.999999873689376e-05, "total_loss": 49.14885330200195}, "load_time_ms": 0.675, "num_steps_sampled": 3648000, "grad_time_ms": 574.271, "update_time_ms": 2.444, "sample_time_ms": 33910.375}, "date": "2025-08-31_19-48-49", "hostname": "cda-server-4", "time_this_iter_s": 35.852068185806274, "episodes_total": 18240, "timestamp": 1756662529, "node_ip": "10.157.146.4", "done": false, "time_total_s": 99450.83782505989, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3041, "episode_reward_mean": -611.506781481463, "training_iteration": 3041, "timesteps_total": 3649200, "policy_reward_mean": {}, "episode_reward_min": -768.2999142917959, "timesteps_since_restore": 3649200, "num_metric_batches_dropped": 0, "time_since_restore": 99485.70551013947, "episode_reward_max": -569.9556477618125, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3649200, "default": {"kl": 0.011274044401943684, "policy_loss": -0.1484737992286682, "vf_loss": 61.85995864868164, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9920978546142578, "entropy": 2.927661418914795, "cur_lr": 4.999999873689376e-05, "total_loss": 61.72861099243164}, "load_time_ms": 0.668, "num_steps_sampled": 3649200, "grad_time_ms": 574.743, "update_time_ms": 2.49, "sample_time_ms": 34035.201}, "date": "2025-08-31_19-49-24", "hostname": "cda-server-4", "time_this_iter_s": 34.867685079574585, "episodes_total": 18246, "timestamp": 1756662564, "node_ip": "10.157.146.4", "done": false, "time_total_s": 99485.70551013947, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3042, "episode_reward_mean": -612.1833216784391, "training_iteration": 3042, "timesteps_total": 3650400, "policy_reward_mean": {}, "episode_reward_min": -768.2999142917959, "timesteps_since_restore": 3650400, "num_metric_batches_dropped": 0, "time_since_restore": 99520.16702413559, "episode_reward_max": -569.9556477618125, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3650400, "default": {"kl": 0.010258463211357594, "policy_loss": -0.1497306227684021, "vf_loss": 114.03109741210938, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9901383519172668, "entropy": 3.0218355655670166, "cur_lr": 4.999999873689376e-05, "total_loss": 113.89694213867188}, "load_time_ms": 0.663, "num_steps_sampled": 3650400, "grad_time_ms": 578.172, "update_time_ms": 2.508, "sample_time_ms": 34102.785}, "date": "2025-08-31_19-49-59", "hostname": "cda-server-4", "time_this_iter_s": 34.46151399612427, "episodes_total": 18252, "timestamp": 1756662599, "node_ip": "10.157.146.4", "done": false, "time_total_s": 99520.16702413559, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3043, "episode_reward_mean": -611.186193390335, "training_iteration": 3043, "timesteps_total": 3651600, "policy_reward_mean": {}, "episode_reward_min": -768.2999142917959, "timesteps_since_restore": 3651600, "num_metric_batches_dropped": 0, "time_since_restore": 99554.03726172447, "episode_reward_max": -550.219617801258, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3651600, "default": {"kl": 0.011381410993635654, "policy_loss": -0.1521742194890976, "vf_loss": 196.57101440429688, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9771915078163147, "entropy": 2.845536947250366, "cur_lr": 4.999999873689376e-05, "total_loss": 196.43614196777344}, "load_time_ms": 0.661, "num_steps_sampled": 3651600, "grad_time_ms": 579.74, "update_time_ms": 2.479, "sample_time_ms": 34004.656}, "date": "2025-08-31_19-50-33", "hostname": "cda-server-4", "time_this_iter_s": 33.870237588882446, "episodes_total": 18258, "timestamp": 1756662633, "node_ip": "10.157.146.4", "done": false, "time_total_s": 99554.03726172447, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3044, "episode_reward_mean": -611.3811299890073, "training_iteration": 3044, "timesteps_total": 3652800, "policy_reward_mean": {}, "episode_reward_min": -768.2999142917959, "timesteps_since_restore": 3652800, "num_metric_batches_dropped": 0, "time_since_restore": 99587.7943572998, "episode_reward_max": -550.219617801258, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3652800, "default": {"kl": 0.00953558087348938, "policy_loss": -0.1252809315919876, "vf_loss": 313.838623046875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9622711539268494, "entropy": 2.8237783908843994, "cur_lr": 4.999999873689376e-05, "total_loss": 313.7278137207031}, "load_time_ms": 0.672, "num_steps_sampled": 3652800, "grad_time_ms": 582.406, "update_time_ms": 2.503, "sample_time_ms": 33970.579}, "date": "2025-08-31_19-51-06", "hostname": "cda-server-4", "time_this_iter_s": 33.75709557533264, "episodes_total": 18264, "timestamp": 1756662666, "node_ip": "10.157.146.4", "done": false, "time_total_s": 99587.7943572998, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3045, "episode_reward_mean": -611.3965500413887, "training_iteration": 3045, "timesteps_total": 3654000, "policy_reward_mean": {}, "episode_reward_min": -768.2999142917959, "timesteps_since_restore": 3654000, "num_metric_batches_dropped": 0, "time_since_restore": 99622.46963596344, "episode_reward_max": -550.219617801258, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3654000, "default": {"kl": 0.007850627414882183, "policy_loss": -0.11781920492649078, "vf_loss": 151.4506072998047, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9843307137489319, "entropy": 2.6752302646636963, "cur_lr": 4.999999873689376e-05, "total_loss": 151.34471130371094}, "load_time_ms": 0.645, "num_steps_sampled": 3654000, "grad_time_ms": 600.817, "update_time_ms": 2.462, "sample_time_ms": 34024.662}, "date": "2025-08-31_19-51-41", "hostname": "cda-server-4", "time_this_iter_s": 34.675278663635254, "episodes_total": 18270, "timestamp": 1756662701, "node_ip": "10.157.146.4", "done": false, "time_total_s": 99622.46963596344, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3046, "episode_reward_mean": -611.4506277613273, "training_iteration": 3046, "timesteps_total": 3655200, "policy_reward_mean": {}, "episode_reward_min": -768.2999142917959, "timesteps_since_restore": 3655200, "num_metric_batches_dropped": 0, "time_since_restore": 99655.85424375534, "episode_reward_max": -550.219617801258, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3655200, "default": {"kl": 0.009400501847267151, "policy_loss": -0.12988197803497314, "vf_loss": 97.67427825927734, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9917159676551819, "entropy": 2.991481304168701, "cur_lr": 4.999999873689376e-05, "total_loss": 97.55867767333984}, "load_time_ms": 0.677, "num_steps_sampled": 3655200, "grad_time_ms": 615.315, "update_time_ms": 2.466, "sample_time_ms": 33861.839}, "date": "2025-08-31_19-52-15", "hostname": "cda-server-4", "time_this_iter_s": 33.384607791900635, "episodes_total": 18276, "timestamp": 1756662735, "node_ip": "10.157.146.4", "done": false, "time_total_s": 99655.85424375534, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3047, "episode_reward_mean": -611.0480967374613, "training_iteration": 3047, "timesteps_total": 3656400, "policy_reward_mean": {}, "episode_reward_min": -768.2999142917959, "timesteps_since_restore": 3656400, "num_metric_batches_dropped": 0, "time_since_restore": 99690.59342074394, "episode_reward_max": -550.219617801258, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3656400, "default": {"kl": 0.008337081409990788, "policy_loss": -0.12288457900285721, "vf_loss": 82.71961212158203, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9904093146324158, "entropy": 2.98329496383667, "cur_lr": 4.999999873689376e-05, "total_loss": 82.60938262939453}, "load_time_ms": 0.68, "num_steps_sampled": 3656400, "grad_time_ms": 622.475, "update_time_ms": 2.487, "sample_time_ms": 33828.525}, "date": "2025-08-31_19-52-49", "hostname": "cda-server-4", "time_this_iter_s": 34.739176988601685, "episodes_total": 18282, "timestamp": 1756662769, "node_ip": "10.157.146.4", "done": false, "time_total_s": 99690.59342074394, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3048, "episode_reward_mean": -611.9883427542976, "training_iteration": 3048, "timesteps_total": 3657600, "policy_reward_mean": {}, "episode_reward_min": -768.2999142917959, "timesteps_since_restore": 3657600, "num_metric_batches_dropped": 0, "time_since_restore": 99725.67052388191, "episode_reward_max": -550.219617801258, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3657600, "default": {"kl": 0.010827150195837021, "policy_loss": -0.12521487474441528, "vf_loss": 210.00372314453125, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.978821337223053, "entropy": 2.7582263946533203, "cur_lr": 4.999999873689376e-05, "total_loss": 209.8949432373047}, "load_time_ms": 0.68, "num_steps_sampled": 3657600, "grad_time_ms": 645.833, "update_time_ms": 2.441, "sample_time_ms": 33881.037}, "date": "2025-08-31_19-53-24", "hostname": "cda-server-4", "time_this_iter_s": 35.07710313796997, "episodes_total": 18288, "timestamp": 1756662804, "node_ip": "10.157.146.4", "done": false, "time_total_s": 99725.67052388191, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3049, "episode_reward_mean": -612.5585093116264, "training_iteration": 3049, "timesteps_total": 3658800, "policy_reward_mean": {}, "episode_reward_min": -768.2999142917959, "timesteps_since_restore": 3658800, "num_metric_batches_dropped": 0, "time_since_restore": 99759.26241731644, "episode_reward_max": -550.219617801258, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3658800, "default": {"kl": 0.010761099867522717, "policy_loss": -0.15052850544452667, "vf_loss": 260.261474609375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9702416658401489, "entropy": 3.143040895462036, "cur_lr": 4.999999873689376e-05, "total_loss": 260.1272888183594}, "load_time_ms": 0.671, "num_steps_sampled": 3658800, "grad_time_ms": 637.092, "update_time_ms": 2.442, "sample_time_ms": 33783.232}, "date": "2025-08-31_19-53-58", "hostname": "cda-server-4", "time_this_iter_s": 33.591893434524536, "episodes_total": 18294, "timestamp": 1756662838, "node_ip": "10.157.146.4", "done": false, "time_total_s": 99759.26241731644, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3050, "episode_reward_mean": -611.5340026207704, "training_iteration": 3050, "timesteps_total": 3660000, "policy_reward_mean": {}, "episode_reward_min": -768.2999142917959, "timesteps_since_restore": 3660000, "num_metric_batches_dropped": 0, "time_since_restore": 99792.61314105988, "episode_reward_max": -550.219617801258, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3660000, "default": {"kl": 0.011285758577287197, "policy_loss": -0.13105076551437378, "vf_loss": 151.94996643066406, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9805374145507812, "entropy": 3.0563151836395264, "cur_lr": 4.999999873689376e-05, "total_loss": 151.83604431152344}, "load_time_ms": 0.644, "num_steps_sampled": 3660000, "grad_time_ms": 629.087, "update_time_ms": 2.469, "sample_time_ms": 33541.037}, "date": "2025-08-31_19-54-31", "hostname": "cda-server-4", "time_this_iter_s": 33.35072374343872, "episodes_total": 18300, "timestamp": 1756662871, "node_ip": "10.157.146.4", "done": false, "time_total_s": 99792.61314105988, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3051, "episode_reward_mean": -611.7273468377618, "training_iteration": 3051, "timesteps_total": 3661200, "policy_reward_mean": {}, "episode_reward_min": -768.2999142917959, "timesteps_since_restore": 3661200, "num_metric_batches_dropped": 0, "time_since_restore": 99826.69450640678, "episode_reward_max": -550.219617801258, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3661200, "default": {"kl": 0.009712089784443378, "policy_loss": -0.12994132936000824, "vf_loss": 160.6927490234375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9761269092559814, "entropy": 2.9523019790649414, "cur_lr": 4.999999873689376e-05, "total_loss": 160.5775604248047}, "load_time_ms": 0.654, "num_steps_sampled": 3661200, "grad_time_ms": 637.884, "update_time_ms": 2.302, "sample_time_ms": 33453.74}, "date": "2025-08-31_19-55-06", "hostname": "cda-server-4", "time_this_iter_s": 34.08136534690857, "episodes_total": 18306, "timestamp": 1756662906, "node_ip": "10.157.146.4", "done": false, "time_total_s": 99826.69450640678, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3052, "episode_reward_mean": -609.8710096776713, "training_iteration": 3052, "timesteps_total": 3662400, "policy_reward_mean": {}, "episode_reward_min": -748.5907806241792, "timesteps_since_restore": 3662400, "num_metric_batches_dropped": 0, "time_since_restore": 99861.77033686638, "episode_reward_max": -549.4589514286349, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3662400, "default": {"kl": 0.011404252611100674, "policy_loss": -0.13362115621566772, "vf_loss": 48.51262283325195, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9954094290733337, "entropy": 2.6727075576782227, "cur_lr": 4.999999873689376e-05, "total_loss": 48.396324157714844}, "load_time_ms": 0.649, "num_steps_sampled": 3662400, "grad_time_ms": 640.35, "update_time_ms": 2.295, "sample_time_ms": 33512.72}, "date": "2025-08-31_19-55-41", "hostname": "cda-server-4", "time_this_iter_s": 35.07583045959473, "episodes_total": 18312, "timestamp": 1756662941, "node_ip": "10.157.146.4", "done": false, "time_total_s": 99861.77033686638, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3053, "episode_reward_mean": -609.1825609881168, "training_iteration": 3053, "timesteps_total": 3663600, "policy_reward_mean": {}, "episode_reward_min": -748.5907806241792, "timesteps_since_restore": 3663600, "num_metric_batches_dropped": 0, "time_since_restore": 99896.13940405846, "episode_reward_max": -549.4589514286349, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3663600, "default": {"kl": 0.014221318997442722, "policy_loss": -0.16467876732349396, "vf_loss": 108.7283935546875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9866459369659424, "entropy": 2.7350950241088867, "cur_lr": 4.999999873689376e-05, "total_loss": 108.58531951904297}, "load_time_ms": 0.648, "num_steps_sampled": 3663600, "grad_time_ms": 657.242, "update_time_ms": 2.334, "sample_time_ms": 33545.665}, "date": "2025-08-31_19-56-15", "hostname": "cda-server-4", "time_this_iter_s": 34.36906719207764, "episodes_total": 18318, "timestamp": 1756662975, "node_ip": "10.157.146.4", "done": false, "time_total_s": 99896.13940405846, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3054, "episode_reward_mean": -609.2182398671756, "training_iteration": 3054, "timesteps_total": 3664800, "policy_reward_mean": {}, "episode_reward_min": -748.5907806241792, "timesteps_since_restore": 3664800, "num_metric_batches_dropped": 0, "time_since_restore": 99930.57497572899, "episode_reward_max": -549.4589514286349, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3664800, "default": {"kl": 0.010622333735227585, "policy_loss": -0.1424441784620285, "vf_loss": 50.28511047363281, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9935789108276367, "entropy": 2.8761799335479736, "cur_lr": 4.999999873689376e-05, "total_loss": 50.15879821777344}, "load_time_ms": 0.671, "num_steps_sampled": 3664800, "grad_time_ms": 656.371, "update_time_ms": 2.377, "sample_time_ms": 33614.317}, "date": "2025-08-31_19-56-49", "hostname": "cda-server-4", "time_this_iter_s": 34.43557167053223, "episodes_total": 18324, "timestamp": 1756663009, "node_ip": "10.157.146.4", "done": false, "time_total_s": 99930.57497572899, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3055, "episode_reward_mean": -608.0224885539134, "training_iteration": 3055, "timesteps_total": 3666000, "policy_reward_mean": {}, "episode_reward_min": -748.5907806241792, "timesteps_since_restore": 3666000, "num_metric_batches_dropped": 0, "time_since_restore": 99965.18207287788, "episode_reward_max": -513.7101664411617, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3666000, "default": {"kl": 0.011711441911756992, "policy_loss": -0.14152437448501587, "vf_loss": 143.0726318359375, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9867474436759949, "entropy": 2.93552565574646, "cur_lr": 4.999999873689376e-05, "total_loss": 142.94891357421875}, "load_time_ms": 0.674, "num_steps_sampled": 3666000, "grad_time_ms": 649.469, "update_time_ms": 2.409, "sample_time_ms": 33614.514}, "date": "2025-08-31_19-57-24", "hostname": "cda-server-4", "time_this_iter_s": 34.607097148895264, "episodes_total": 18330, "timestamp": 1756663044, "node_ip": "10.157.146.4", "done": false, "time_total_s": 99965.18207287788, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3056, "episode_reward_mean": -606.1258164819739, "training_iteration": 3056, "timesteps_total": 3667200, "policy_reward_mean": {}, "episode_reward_min": -644.7640614858582, "timesteps_since_restore": 3667200, "num_metric_batches_dropped": 0, "time_since_restore": 99999.04911851883, "episode_reward_max": -513.7101664411617, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3667200, "default": {"kl": 0.012098308652639389, "policy_loss": -0.13529878854751587, "vf_loss": 210.49171447753906, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9738784432411194, "entropy": 2.7442288398742676, "cur_lr": 4.999999873689376e-05, "total_loss": 210.37478637695312}, "load_time_ms": 0.644, "num_steps_sampled": 3667200, "grad_time_ms": 658.528, "update_time_ms": 2.325, "sample_time_ms": 33653.825}, "date": "2025-08-31_19-57-58", "hostname": "cda-server-4", "time_this_iter_s": 33.867045640945435, "episodes_total": 18336, "timestamp": 1756663078, "node_ip": "10.157.146.4", "done": false, "time_total_s": 99999.04911851883, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3057, "episode_reward_mean": -606.5212920259776, "training_iteration": 3057, "timesteps_total": 3668400, "policy_reward_mean": {}, "episode_reward_min": -644.7640614858582, "timesteps_since_restore": 3668400, "num_metric_batches_dropped": 0, "time_since_restore": 100032.43713736534, "episode_reward_max": -513.7101664411617, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3668400, "default": {"kl": 0.009077923372387886, "policy_loss": -0.12681999802589417, "vf_loss": 133.4578399658203, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9816966652870178, "entropy": 2.9154837131500244, "cur_lr": 4.999999873689376e-05, "total_loss": 133.3448028564453}, "load_time_ms": 0.647, "num_steps_sampled": 3668400, "grad_time_ms": 668.138, "update_time_ms": 2.284, "sample_time_ms": 33509.152}, "date": "2025-08-31_19-58-31", "hostname": "cda-server-4", "time_this_iter_s": 33.38801884651184, "episodes_total": 18342, "timestamp": 1756663111, "node_ip": "10.157.146.4", "done": false, "time_total_s": 100032.43713736534, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3058, "episode_reward_mean": -605.9262679571499, "training_iteration": 3058, "timesteps_total": 3669600, "policy_reward_mean": {}, "episode_reward_min": -644.7640614858582, "timesteps_since_restore": 3669600, "num_metric_batches_dropped": 0, "time_since_restore": 100066.71138095856, "episode_reward_max": -513.7101664411617, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3669600, "default": {"kl": 0.011352547444403172, "policy_loss": -0.12993238866329193, "vf_loss": 51.0887336730957, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9938316345214844, "entropy": 2.893364191055298, "cur_lr": 4.999999873689376e-05, "total_loss": 50.97603988647461}, "load_time_ms": 0.646, "num_steps_sampled": 3669600, "grad_time_ms": 671.183, "update_time_ms": 2.296, "sample_time_ms": 33425.834}, "date": "2025-08-31_19-59-06", "hostname": "cda-server-4", "time_this_iter_s": 34.27424359321594, "episodes_total": 18348, "timestamp": 1756663146, "node_ip": "10.157.146.4", "done": false, "time_total_s": 100066.71138095856, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3059, "episode_reward_mean": -605.3951112481327, "training_iteration": 3059, "timesteps_total": 3670800, "policy_reward_mean": {}, "episode_reward_min": -644.7640614858582, "timesteps_since_restore": 3670800, "num_metric_batches_dropped": 0, "time_since_restore": 100101.73543834686, "episode_reward_max": -513.7101664411617, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3670800, "default": {"kl": 0.013967086561024189, "policy_loss": -0.17991803586483002, "vf_loss": 763.6213989257812, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9729573130607605, "entropy": 2.7507596015930176, "cur_lr": 4.999999873689376e-05, "total_loss": 763.4627075195312}, "load_time_ms": 0.652, "num_steps_sampled": 3670800, "grad_time_ms": 683.238, "update_time_ms": 2.265, "sample_time_ms": 33557.13}, "date": "2025-08-31_19-59-41", "hostname": "cda-server-4", "time_this_iter_s": 35.024057388305664, "episodes_total": 18354, "timestamp": 1756663181, "node_ip": "10.157.146.4", "done": false, "time_total_s": 100101.73543834686, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3060, "episode_reward_mean": -604.4462944608543, "training_iteration": 3060, "timesteps_total": 3672000, "policy_reward_mean": {}, "episode_reward_min": -644.7640614858582, "timesteps_since_restore": 3672000, "num_metric_batches_dropped": 0, "time_since_restore": 100136.4359099865, "episode_reward_max": -442.03573088121436, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3672000, "default": {"kl": 0.011209080927073956, "policy_loss": -0.1380814164876938, "vf_loss": 262.67791748046875, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9569117426872253, "entropy": 2.6908483505249023, "cur_lr": 4.999999873689376e-05, "total_loss": 262.556884765625}, "load_time_ms": 0.66, "num_steps_sampled": 3672000, "grad_time_ms": 684.604, "update_time_ms": 2.271, "sample_time_ms": 33690.814}, "date": "2025-08-31_20-00-15", "hostname": "cda-server-4", "time_this_iter_s": 34.70047163963318, "episodes_total": 18360, "timestamp": 1756663215, "node_ip": "10.157.146.4", "done": false, "time_total_s": 100136.4359099865, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3061, "episode_reward_mean": -603.8470219625874, "training_iteration": 3061, "timesteps_total": 3673200, "policy_reward_mean": {}, "episode_reward_min": -644.7640614858582, "timesteps_since_restore": 3673200, "num_metric_batches_dropped": 0, "time_since_restore": 100169.9452342987, "episode_reward_max": -442.03573088121436, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3673200, "default": {"kl": 0.009959631599485874, "policy_loss": -0.12770235538482666, "vf_loss": 125.22574615478516, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.985234797000885, "entropy": 2.87465763092041, "cur_lr": 4.999999873689376e-05, "total_loss": 125.11317443847656}, "load_time_ms": 0.687, "num_steps_sampled": 3673200, "grad_time_ms": 686.321, "update_time_ms": 2.314, "sample_time_ms": 33631.774}, "date": "2025-08-31_20-00-49", "hostname": "cda-server-4", "time_this_iter_s": 33.50932431221008, "episodes_total": 18366, "timestamp": 1756663249, "node_ip": "10.157.146.4", "done": false, "time_total_s": 100169.9452342987, "timesteps_this_iter": 1200}
+{"iterations_since_restore": 3062, "episode_reward_mean": -603.9005642089561, "training_iteration": 3062, "timesteps_total": 3674400, "policy_reward_mean": {}, "episode_reward_min": -644.7640614858582, "timesteps_since_restore": 3674400, "num_metric_batches_dropped": 0, "time_since_restore": 100204.61493372917, "episode_reward_max": -442.03573088121436, "config": {"clip_rewards": null, "observation_filter": "MeanStdFilter", "output_max_file_size": 67108864, "synchronize_filters": true, "simple_optimizer": false, "lr_schedule": null, "vf_loss_coeff": 1.0, "num_gpus": 0, "compress_observations": false, "output": null, "postprocess_inputs": false, "kl_target": 0.01, "vf_clip_param": 10.0, "num_workers": 3, "num_cpus_per_worker": 1, "num_sgd_iter": 30, "grad_clip": null, "clip_param": 0.3, "tf_session_args": {"log_device_placement": false, "device_count": {"CPU": 1}, "inter_op_parallelism_threads": 2, "allow_soft_placement": true, "gpu_options": {"allow_growth": true}, "intra_op_parallelism_threads": 2}, "num_envs_per_worker": 1, "log_level": "INFO", "lr": 5e-05, "custom_resources_per_worker": {}, "sample_async": false, "input": "sampler", "entropy_coeff": 0.0, "batch_mode": "truncate_episodes", "kl_coeff": 0.2, "output_compress_columns": ["obs", "new_obs"], "num_gpus_per_worker": 0, "straggler_mitigation": false, "callbacks": {"on_episode_end": null, "on_episode_start": null, "on_train_result": null, "on_sample_end": null, "on_episode_step": null}, "env": "LEDRO_D_FC", "model": {"grayscale": false, "zero_mean": true, "dim": 84, "custom_model": null, "custom_preprocessor": null, "conv_activation": "relu", "use_lstm": false, "framestack": true, "custom_options": {}, "fcnet_hiddens": [128, 128, 128], "lstm_cell_size": 256, "free_log_std": false, "conv_filters": null, "fcnet_activation": "tanh", "max_seq_len": 20, "squash_to_range": false, "lstm_use_prev_action_reward": false}, "preprocessor_pref": "deepmind", "vf_share_layers": false, "lambda": 1.0, "monitor": false, "input_evaluation": null, "train_batch_size": 1200, "sgd_minibatch_size": 128, "optimizer": {}, "num_cpus_for_driver": 1, "sample_batch_size": 200, "collect_metrics_timeout": 180, "horizon": 200, "env_config": {"run_valid": false, "generalize": true}, "use_gae": true, "local_evaluator_tf_session_args": {"intra_op_parallelism_threads": 8, "inter_op_parallelism_threads": 8}, "gamma": 0.99, "multiagent": {"policy_mapping_fn": null, "policies_to_train": null, "policy_graphs": {}}, "clip_actions": true}, "episodes_this_iter": 6, "pid": 942113, "experiment_id": "a33cac0cd2704ce0884bd1d13a520a1e", "episode_len_mean": 200.0, "custom_metrics": {}, "info": {"num_steps_trained": 3674400, "default": {"kl": 0.011718187481164932, "policy_loss": -0.13851015269756317, "vf_loss": 236.31211853027344, "cur_kl_coeff": 1.5187499523162842, "vf_explained_var": 0.9817636013031006, "entropy": 2.8080639839172363, "cur_lr": 4.999999873689376e-05, "total_loss": 236.19140625}, "load_time_ms": 0.684, "num_steps_sampled": 3674400, "grad_time_ms": 678.04, "update_time_ms": 2.348, "sample_time_ms": 33599.282}, "date": "2025-08-31_20-01-24", "hostname": "cda-server-4", "time_this_iter_s": 34.6696994304657, "episodes_total": 18372, "timestamp": 1756663284, "node_ip": "10.157.146.4", "done": false, "time_total_s": 100204.61493372917, "timesteps_this_iter": 1200}
diff --git a/experiments/run_params_10_990_400_horizon200_start200/README.md b/experiments/run_params_10_990_400_horizon200_start200/README.md
new file mode 100644
index 0000000..851b8a7
--- /dev/null
+++ b/experiments/run_params_10_990_400_horizon200_start200/README.md
@@ -0,0 +1 @@
+The result looks good, ray/tune/episode_reward_max~ 440 for horizon length of 200 -> FoM=2.2
\ No newline at end of file
diff --git a/experiments/run_params_10_990_400_horizon200_start200/image.png b/experiments/run_params_10_990_400_horizon200_start200/image.png
new file mode 100644
index 0000000..f105c76
Binary files /dev/null and b/experiments/run_params_10_990_400_horizon200_start200/image.png differ
diff --git a/runs/Sep05_08-42-53_cda-server-2/events.out.tfevents.1757054573.cda-server-2.2334227.0 b/runs/Sep05_08-42-53_cda-server-2/events.out.tfevents.1757054573.cda-server-2.2334227.0
new file mode 100644
index 0000000..41b4cbd
Binary files /dev/null and b/runs/Sep05_08-42-53_cda-server-2/events.out.tfevents.1757054573.cda-server-2.2334227.0 differ